CN108460113B - 可用于比较水文领域中理论计算曲线过拟合程度的方法 - Google Patents

可用于比较水文领域中理论计算曲线过拟合程度的方法 Download PDF

Info

Publication number
CN108460113B
CN108460113B CN201810133571.0A CN201810133571A CN108460113B CN 108460113 B CN108460113 B CN 108460113B CN 201810133571 A CN201810133571 A CN 201810133571A CN 108460113 B CN108460113 B CN 108460113B
Authority
CN
China
Prior art keywords
curve
data
length
value
curves
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810133571.0A
Other languages
English (en)
Other versions
CN108460113A (zh
Inventor
王宗志
黄增玉
童海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Hydraulic Research Institute of National Energy Administration Ministry of Transport Ministry of Water Resources
Original Assignee
Nanjing Hydraulic Research Institute of National Energy Administration Ministry of Transport Ministry of Water Resources
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hydraulic Research Institute of National Energy Administration Ministry of Transport Ministry of Water Resources filed Critical Nanjing Hydraulic Research Institute of National Energy Administration Ministry of Transport Ministry of Water Resources
Priority to CN201810133571.0A priority Critical patent/CN108460113B/zh
Publication of CN108460113A publication Critical patent/CN108460113A/zh
Application granted granted Critical
Publication of CN108460113B publication Critical patent/CN108460113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Complex Calculations (AREA)

Abstract

一种可用于比较水文领域中理论计算曲线过拟合程度的方法,主要是采用计算机程序和微积分原理来比较基于水文实测数据绘制的相同精度的两条曲线的平滑性,即判别曲线的过拟合问题,两条曲线在有实测数据点处的精度相同,但是过拟合程度不同。通过比较用水文实测数据绘制的相同精度的两条曲线的长度,曲线长度较长的波动较大,平滑性较差,过拟合现象较严重,曲线长度稍短的波动较小,平滑性较好,过拟合现象较轻,是符合条件的曲线,即拟合度适中并且符合普遍规律的曲线,从而解决水文数据处理时曲线的过拟合问题。它不仅步骤相对简单易行,而且舍弃了复杂的数学公式推导,借助计算机程序设计更加简便、精确地从两条待选曲线中挑选出拟合度较好的曲线。

Description

可用于比较水文领域中理论计算曲线过拟合程度的方法
技术领域
本发明涉及本发明涉及一种水文数据处理方法,特别是可用于比较水文领域中理论计算曲线过拟合程度的方法。它适用于在水文数据处理的科学研究中,解决根据不同计算数据所
绘制的曲线的过拟合程度的判断问题。
背景技术
过拟合问题是在科学研究领域会普遍出现的一个问题,简单的说,解决任何问题需要遵从具体问题具体分析的原则,冒然地把解决一个问题的具体方法用在解决其他问题上,就容易出错,即在解决问题的过程中没有总结出普遍的方法原则,这就是过拟合问题。在科学研究中需要经常根据计算数据绘制曲线图并且把曲线泛化到需要预测的问题中,在曲线精度一定的情况下,会产生不同样式的曲线,解决曲线的过拟合问题就是要从这些曲线中挑选出一个泛化能力最强的曲线,也可以说是一条看上去拟合精度较高,但是其表达式又不至于过度复杂,波动幅度不至于过大的曲线,这是一个亟待解决的问题。迄今为止,人们一直在探求解决过拟合问题的方法,总地来说,解决曲线的过拟合问题有两个主流的方法:偏频方法与贝叶斯方法。其中偏频方法利用一个有固定参数的模型,通过给定的数据求解出一个固定的值,比较常使用的参数估计方法是最大似然估计,具体来说,偏频方法通常通过加入拉索回归或是岭回归范数来防止过拟合,其中这两种范数都为凸函数,拉索回归范数比较陡,而岭回归范数则比较平缓,当最小化正则化项的时候,拉索回归范数可能有些变量的值较大,但有些变量为0;而岭回归范数的全部变量的值都会比较小,但不会为0。另一种方法贝叶斯方法遵从变量都是不确定的并且服从一定的分布的原则,主要利用高斯分布和贝叶斯定理添加相应范数来解决过拟合问题。这两种解决过拟合问题的方法各有侧重,其中偏频方法更倾向于从误差的角度去解析,而贝叶斯方法则是侧重从先验分布的角度去解析,但是总的来说,无论是哪种方法,都是通过添加范数来解决过拟合问题,两种方法都偏重于用公式推导,解决问题的方法计算都非常复杂,可实行性差。
发明内容
本发明的目的在于提供一种可用于比较水文领域中理论计算曲线过拟合程度的方法,它能够克服已有技术的不足,采用计算机程序和微积分原理来比较基于水文实测数据绘制的相同精度的两条曲线的平滑性,即判别曲线的过拟合问题,两条曲线在有实测数据点处的精度相同,但是过拟合程度不同。步骤相对简单易行,舍弃了复杂的数学公式推导,借助计算机程序设计更加简便精确地从两条待选曲线中挑选出拟合度较好的曲线。
其解决方案是:采用计算机程序和微积分原理比较基于水文实测数据并通过理论计算得出的相同精度的两条曲线的平滑性,即判断曲线的过拟合度的问题。借助计算机程序能够更快地得出拟合度较好的曲线。
其步骤如下:
步骤Ⅰ.定义计算机程序和相关变量,打开数据所在文件
计算采用计算机程序,定义两个双精度数组分别用来读取文本中的两列数据,同时定义由两条曲线分割出来的小直角三角形竖向直角边所对应的角度正切值的累加值,打开数据所在文件。
步骤Ⅱ.读取文本数据
利用计算机程序中的for循环结构遍历文本中的数据,把数据存到数组中。
步骤Ⅲ.计算数据,得出结果,关闭文件
根据步骤Ⅰ所定义的已有数据绘制离散式曲线图,分别对应两条曲线。曲线的横坐标表示水文数据测量的时间间隔,单位为小时(h),纵坐标表示水位高度,单位为米(m),
利用微积分原理,在步骤Ⅰ所定义的两条曲线上分割成若干个小直角三角形,以小直角三角形的斜边长度近似为曲线每一小段曲线的长度,因为数据的测量时间间隔一致,然后,利用三角函数中直角三角形中一个角度的正切值越大这个角度所对应的余弦值就越小的原理,用步骤Ⅰ所定义的两个双精度数组中相邻的两个数据的差值的绝对值作为直角三角形一个角所对的直角边的长度,而另一条直角边的长度为水文数据的测量时间间隔的数值,即根据微积分原理所分割出来的小直角三角形一条直角边的长度是水文数据测量时间间隔的数值,算出根据微积分原理分割出来的小直角三角形的一个锐角的正切值,这个正切值的数值越大,这个锐角所对应的余弦值也就越小,由于直角三角形的一条直角边的长度为水文数据的测量时间间隔数值,它是固定不变的,所以这个直角三角形的斜边的长度值也就越大。
把上述计算的每条曲线的若干个小直角三角形的每一个竖向直角边所对的角度的正切值累加起来,就能得到这两条曲线的长度的累加值。
步骤Ⅳ.比较累加值,得出结论
在试验中两条曲线的数据精度相同,并且数据差别微小,如果曲线的过拟合程度越大,则曲线的长度就越长。
比较步骤Ⅲ计算得出的每个小三角形的正切值的累加过后的数值的大小,若这个累加数值越小,曲线的长度就越短,若这个累加数值越大,曲线的长度就越长,曲线的长度较长的,该曲线的波动较大,出现了过拟合现象,曲线的长度稍短的,该曲线的波动较小,拟合度较好。因此长度较短的那条曲线即是拟合度较好的曲线,即拟合度适中并且泛化能力较强的曲线,从而解决曲线的过拟合程度的比较、判别问题。
本发明采用上述技术方案,采用计算机程序和微积分原理来比较基于水文实测数据绘制的相同精度的两条曲线的平滑性,即判别曲线的过拟合问题,两条曲线在有实测数据点处的精度相同,但是过拟合程度不同。通过比较用水文实测数据绘制的相同精度的两条曲线的长度,曲线的长度较长的,该曲线的波动较大,平滑性较差,过拟合现象较严重,曲线的长度稍短的,该曲线的波动较小,平滑性较好,过拟合现象较轻。平滑性较好的这条曲线是符合条件的曲线,即拟合度适中并且符合普遍规律的曲线,从而解决水文数据处理时曲线的过拟合问题。它不仅步骤相对简单易行,而且舍弃了复杂的数学公式推导,借助计算机程序设计更加简便精确地从两条待选曲线中挑选出拟合度较好的曲线。
附图说明
图1为一种可用于比较水文领域中理论计算曲线过拟合程度的方法的程序流程图。
图2为根据已有数据绘制的第一条曲线离散式曲线图。
图3为根据已有数据绘制的第二条曲线离散式曲线图。
图4为根据微积分原理在曲线上分割小直角三角形的示意图。
具体实施方式
下面结合附图详细描述本发明的具体实施方式。
参照图1至图4,详细描述本发明的具体实施步骤如下:
步骤Ⅰ.定义计算机程序和相关变量,打开数据所在文件。
先使用c++语言编写计算机程序,在计算机程序中定义两个包含n个双精度型数据的数组double n1[n]、double n2[n]和由两条曲线分割出来的小直角三角形某个角度正切值的累加值x、y,打开数据所在文件。
步骤Ⅱ.读取文本数据
采用计算机程序中的for循环结构读取文件的方式把所需数据读入事先定义好的数组double n1[n]、double n2[n]中。
步骤Ⅲ.计算数据,得出结果,关闭文件
根据步骤Ⅰ所定义的两组已有数据分别绘制离散式曲线图,如图2和图3所示、图2对应第一条曲线,图3对应第二条曲线。离散式曲线图中,曲线的横坐标表示数据测量的时间间隔,单位为小时(h),纵坐标表示水位高度,单位为米(m)。图4为根据微积分原理在曲线上分割出来的一小部分曲线,其中以直角三角形的斜边长度近似为一小段曲线的长度。
根据微积分原理,假设把图2所示的第一条曲线和图3所示的第二条曲线分别分成若干个小直角三角形,现以同一条曲线上的两个小直角三角形为例。第一个小直角三角形两直角边的长度分别是a和b,斜边长度是c,长度为a的直角边与长度为c的斜边之间的夹角为α。第二个小直角三角形两直角边的长度分别是d和e,斜边长度是f,长度为d的直角边与长度为f的斜边之间的夹角为β。
每一个小直角三角形的斜边可以近似为曲线每一小段的长度,因为数据的测量时间间隔一致,然后利用三角函数中直角三角形中一个角度的正切值越大这个角度所对应的余弦值就越小的原理,用所述数组中相邻的两个数据的差值的绝对值作为直角三角形一个角所对的直角边的长度,即第一个小直角三角形的一个直角边的长度b及第二个小直角三角形的一个直角边的长度e,而直角三角形的另一条直角边的长度为数据测量时间间隔的数值,即第一个小直角三角形的另一个直角边的长度a及第二个小直角三角形的另一个直角边的长度d。因为根据微积分原理所分割出来的第一个小直角三角形的一个直角边的长度a及第二个小直角三角形的一个直角边的长度d是测量时间间隔的数值,根据微积分原理算出由第一条曲线分割出来的类似于小直角三角形长度为a的直角边与长度为c的斜边之间的夹角为α和由第二条曲线分割出来的类似于小直角三角形长度为d的直角边与长度为f的斜边之间的夹角为β的正切值的累加值,如果第一条曲线的累加正切值大于第二条曲线的累加正切值,所述类似于夹角α及夹角β的所对应的余弦值也就越小,由于第一个小直角三角形的一个直角边的长度a及第二个小直角三角形的一个直角边的长度d是数据测量时间间隔的数值,这个数值是不变的,即第一个小直角三角形长度为a的直角边及第二个小直角三角形长度为d的直角边的长度是固定不变的,所以类似于第一个小直角三角形的斜边长度的累加值就小于类似于第二个小直角三角形斜边的长度的累加值,也就是说第一条曲线的长度小于第二条曲线的长度。
正切值计算公式为:
Figure DEST_PATH_IMAGE002
公式(1)为第一个小直角三角形长度为a的直角边与长度为c的斜边之间的夹角α的正切值。
Figure DEST_PATH_IMAGE004
公式(2)为第二个小直角三角形长度为d的直角边与长度为f的斜边之间的夹角为β的正切值。
在步骤Ⅱ所述的两个数组中共有240个点的纵坐标的数据(单位为m),因为所述数据是每隔1小时测一次,所以根据三角函数原理,直角三角形中一个角度的正切值越大这个角度所对应的余弦值就越小的原理,而直角三角形的一条直角边的长度就是数组中相邻的两个数据的差值的绝对值,在所述计算机程序中运用for循环结构分别读取两个数组里的数据,读取结束后关闭文件,计算得到直角三角形中一个角所对应的正切值的累加值,根据三角函数的原理这个角度所对应的余弦值越小,直角三角形的斜边就越长。由于每个小直角三角形的斜边的长度可以近似为每一小段曲线的长度,所以把上述计算的每个小直角三角形的一个角度所对应的正切值累加起来,就能得到这两条曲线的长度大小关系, 把第一条曲线的正切值累加值的大小记为x,把第二条曲线的正切值累加值的大小记为y。
该累加值x、y的计算公式为:
Figure DEST_PATH_IMAGE006
式中,
Figure DEST_PATH_IMAGE008
代表第一条曲线分割出来的小直角三角形的一个角度。
Figure DEST_PATH_IMAGE010
式中,
Figure DEST_PATH_IMAGE012
代表第二条曲线分割出来的小直角三角形的一个角度。
步骤Ⅳ.比较累加值,得出结论
最后比较x、y两个累加值的大小,若累加值x大于累加值y,即x>y,则第二条曲线是符合条件的曲线;如果条件不成立,则第一条曲线是符合条件的曲线。也就是说,哪条曲线的总长度较短,该曲线的波动较小,即为拟合度较好并且泛化能力较强的曲线,从而解决曲线的过拟合程度的比较问题。

Claims (1)

1.一种可用于比较水文领域中理论计算曲线过拟合程度的方法,其特征在于,采用计算机程序和微积分原理比较基于水文实测数据并通过理论计算得出的相同精度的两条曲线的平滑性,即判断曲线的过拟合度的问题,
其步骤如下:
步骤Ⅰ.定义计算机程序和相关变量,打开数据所在文件,
计算采用计算机程序,定义两个双精度数组分别用来读取文本中的两列数据,同时定义由两条曲线分割出来的小直角三角形竖向直角边所对应的角度正切值的累加值,打开数据所在文件;
步骤Ⅱ.读取文本数据,
利用计算机程序中的for循环结构遍历文本中的数据,把数据存到数组中;
步骤Ⅲ.计算数据,得出结果,关闭文件,
根据步骤Ⅰ所定义的已有数据绘制离散式曲线图,分别对应两条曲线,曲线的横坐标表示水文数据测量的时间间隔,单位为小时,纵坐标表示水位高度,单位为米,
利用微积分原理,在步骤Ⅰ所定义的两条曲线上分别分割成若干个小直角三角形,以小直角三角形的斜边长度近似为曲线每一小段曲线的长度,因为水文数据的测量时间间隔一致,然后,利用三角函数中直角三角形中一个角度的正切值越大这个角度所对应的余弦值就越小的原理,用步骤Ⅰ所定义的两个双精度数组中相邻的两个数据的差值的绝对值作为直角三角形一个角所对的直角边的长度,而另一条直角边的长度为水文数据测量时间间隔的数值,即根据微积分原理所分割出来的小直角三角形一条直角边的长度是水文数据测量时间间隔的数值,算出根据微积分原理分割出来的小直角三角形的一个锐角的正切值,这个正切值的数值越大,这个锐角所对应的余弦值也就越小,由于直角三角形的一条直角边的长度为水文数据的测量时间间隔数值,它是固定不变的,所以这个直角三角形的斜边的长度值也就越大;
把上述计算的每条曲线的若干个小直角三角形的每一个竖向直角边所对的角度的正切值累加起来,就能得到这两条曲线的长度的累加值;
步骤Ⅳ.比较累加值,得出结论,
在试验中两条曲线的数据精度相同,并且数据差别微小,如果曲线的过拟合程度越大,则曲线的长度就越长;
比较步骤Ⅲ计算得出的正切值的累加过后的数值的大小,若这个累加数值越小,曲线的长度就越短,若这个累加数值越大,曲线的长度就越长,曲线的长度较长的,该曲线的波动较大,出现了过拟合现象,曲线的长度稍短的,该曲线的波动较小,拟合度较好,因此长度较短的那条曲线即是拟合度较好的曲线,即拟合度适中并且泛化能力较强的曲线,从而解决曲线的过拟合程度的比较、判别问题。
CN201810133571.0A 2018-02-09 2018-02-09 可用于比较水文领域中理论计算曲线过拟合程度的方法 Active CN108460113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810133571.0A CN108460113B (zh) 2018-02-09 2018-02-09 可用于比较水文领域中理论计算曲线过拟合程度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810133571.0A CN108460113B (zh) 2018-02-09 2018-02-09 可用于比较水文领域中理论计算曲线过拟合程度的方法

Publications (2)

Publication Number Publication Date
CN108460113A CN108460113A (zh) 2018-08-28
CN108460113B true CN108460113B (zh) 2021-09-24

Family

ID=63239759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810133571.0A Active CN108460113B (zh) 2018-02-09 2018-02-09 可用于比较水文领域中理论计算曲线过拟合程度的方法

Country Status (1)

Country Link
CN (1) CN108460113B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259447A (ja) * 1998-03-06 1999-09-24 Toshiba Corp 属性選択装置、属性評価装置、属性選択方法、属性評価方法
CN102314533A (zh) * 2010-06-02 2012-01-11 利弗莫尔软件技术公司 将计算出的曲线拟合到目标曲线的方法和系统
EP2702424A1 (en) * 2011-04-29 2014-03-05 Siemens Corporation Systems and methods for blind localization of correlated sources
CN104573627A (zh) * 2014-11-19 2015-04-29 湖南大学 基于二值图像的车道线保留与检测算法
CN104665803A (zh) * 2014-12-10 2015-06-03 上海理工大学 基于智能平台的检测房颤系统
CN105451248A (zh) * 2014-08-29 2016-03-30 展讯通信(上海)有限公司 一种数据采集系统及数据采集方法
CN105872729A (zh) * 2015-04-21 2016-08-17 乐视致新电子科技(天津)有限公司 识别操作事件的方法和装置
WO2016141347A2 (en) * 2015-03-04 2016-09-09 Wayne State University Systems and methods to diagnose sarcoidosis and identify markers of the condition

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373054B2 (en) * 2015-04-19 2019-08-06 International Business Machines Corporation Annealed dropout training of neural networks

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259447A (ja) * 1998-03-06 1999-09-24 Toshiba Corp 属性選択装置、属性評価装置、属性選択方法、属性評価方法
CN102314533A (zh) * 2010-06-02 2012-01-11 利弗莫尔软件技术公司 将计算出的曲线拟合到目标曲线的方法和系统
EP2702424A1 (en) * 2011-04-29 2014-03-05 Siemens Corporation Systems and methods for blind localization of correlated sources
CN105451248A (zh) * 2014-08-29 2016-03-30 展讯通信(上海)有限公司 一种数据采集系统及数据采集方法
CN104573627A (zh) * 2014-11-19 2015-04-29 湖南大学 基于二值图像的车道线保留与检测算法
CN104665803A (zh) * 2014-12-10 2015-06-03 上海理工大学 基于智能平台的检测房颤系统
WO2016141347A2 (en) * 2015-03-04 2016-09-09 Wayne State University Systems and methods to diagnose sarcoidosis and identify markers of the condition
CN105872729A (zh) * 2015-04-21 2016-08-17 乐视致新电子科技(天津)有限公司 识别操作事件的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Towards Addressing the Patch Overfitting Problem;Q. Xin;《2017 IEEE/ACM 39th International Conference on Software Engineering Companion (ICSE-C)》;20170703;489-490 *
基于迭代深度学习的缺陷检测;李腾飞 等;《计算机与数字工程》;20170620;第45卷(第6期);1133-1137 *

Also Published As

Publication number Publication date
CN108460113A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
Ben Abbes et al. Comparative study of three satellite image time-series decomposition methods for vegetation change detection
CN103177180A (zh) 预测模型的建模样本的筛选方法
CN110569890A (zh) 一种基于相似性度量的水文数据异常模式检测方法
CN103714045A (zh) 面向异步多速率不均匀采样观测数据的信息融合估计方法
Lu et al. Trend extraction and identification method of cement burning zone flame temperature based on EMD and least square
CN110135114B (zh) 河流设计最低通航水位的确定方法和装置
CN108460113B (zh) 可用于比较水文领域中理论计算曲线过拟合程度的方法
CN112836860B (zh) 确定压裂井产量递减阶段全周期内动态产量方法、系统
CN106320257A (zh) 基于水文观测的湖库槽蓄曲线确定方法
CN111596350B (zh) 一种地震台网波形数据质量监控方法和装置
CN110084431B (zh) 一种页岩气井产量分析预测方法及系统
Hisaki Inter-comparison of wave data obtained from single high-frequency radar, in situ observation, and model prediction
Fischer et al. A distribution-free ordinal classification of floods based on moments
Dehghan et al. On the total variation of a third-order semi-discrete central scheme for 1D conservation laws
CN108171425B (zh) 电能质量分区方法、装置及存储介质
CN108334710A (zh) 重力波参数的计算方法、装置及终端
CN105160446A (zh) 一种获取借款额度的方法及装置
CN110020000A (zh) 判定异常风速数据的方法和装置
Hasu et al. Automatic minimum and maximum alarm thresholds for quality control
CN114676565A (zh) 基于古地温梯度的低温年代数据处理方法、系统及设备
Hasan A method for detection of outliers in time series data
Chaber et al. Control Assessment with Moment Ratio Diagrams
Sun et al. A new decomposition model of sea level variability for the sea level anomaly time series prediction
Xue et al. Research on piecewise linear fitting method based on least square method in 3D space points
Anghel et al. Predicting Flood Frequency with the LH-Moments Method: A Case Study of Prigor River, Romania. Water 2023, 15, 2077

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant