CN105279308A - 一种基于逐步数据剔除的海洋白冠覆盖率算法 - Google Patents
一种基于逐步数据剔除的海洋白冠覆盖率算法 Download PDFInfo
- Publication number
- CN105279308A CN105279308A CN201510581319.2A CN201510581319A CN105279308A CN 105279308 A CN105279308 A CN 105279308A CN 201510581319 A CN201510581319 A CN 201510581319A CN 105279308 A CN105279308 A CN 105279308A
- Authority
- CN
- China
- Prior art keywords
- whitecap
- coverage
- data
- model
- oceanic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及基于逐步数据剔除的海洋白冠覆盖率算法,包括以下步骤:海洋白冠覆盖率观测数据整合成数据集;将数据集代入白冠覆盖率模型拟合得到系数值;将系数值代入白冠覆盖率模型;若模型中统计参数变化未到设定值,则通过白冠覆盖率模型与海洋白冠覆盖率观测数据的比较,得到模型计算所得白冠覆盖率与观测海洋白冠覆盖率的偏差;剔除偏差值最大的观测数据点重建数据集;返回求系数的值步骤;当模型中统计参数变化达到预设值后,即可确认白冠覆盖率模型中的各个参数。本发明确定白冠覆盖率模型的最终可用系数,或者剔除原始数据样本的个数,是依据模型参数随剔除数据量的变化来决定,而不是在先前指定,提高了海洋白冠覆盖率的计算可信度。
Description
技术领域
本发明涉及一种基于数据质量控制的算法,具体说是一种基于逐步数据剔除的白冠覆盖率算法。
背景技术
海洋白冠作为波浪破碎的重要表现,是海气界面普遍存在的现象,长期以来一直引起人们的普遍关注。全面理解它的生成机制和消衰过程以及准确参数化白冠覆盖率对于海气相互作用、海洋遥感、海浪理论、海洋工程等各方面的理论和应用研究都有重要意义。白冠覆盖率长期以来都是大气、海洋学家们关注的热点问题之一,观测证据表明白冠覆盖率在风速和一系列其它的环境和气象因素作用下有着很强的时空变化。
海表面在风的连续作用下产生波浪,波浪逐渐成长,波动的非线性增强,当风速达到某一临界值时,波浪发生破碎并在波峰处产生大量的水沫和水滴,在波动水体内波和表面产生大量的气泡。这种在波面上清晰可见的白色水体就是所谓的海洋白冠(又称白浪、白泡云),它是空气和海水湍混合的结果。
海浪白冠由波峰处直接生成的白冠泡沫、次表层的淹没水泡、被卷入水中的气泡上升到海表面主峰后形成的泡沫斑迹和风吹滞留海面形成的条状浪沫羽共同组成。直观上,海表面白冠覆盖区域所占计算海区总面积的比例就是所定义的白冠覆盖率。根据前人的观测统计,全球平均值约为1-4%。多种环境和气象要素的共同作用使得海表面白冠覆盖率具有高度可变性和难预测性。
目前主流的白冠覆盖率计算模型基本都是和风速建立关系表达式,但是目前现有的基于不同数据建立的关系表达式差别较大,造成这种较大差别的原因主要有两个方面,第一是由于很多模型所基于的观测数据样本太少,第二是相关原始观测数据的观测误差,二者都可以导致最终得到的白冠覆盖率模型差别较大,如何建立一个可信、稳健的白冠覆盖率模型得到不同海情下的白冠覆盖率是一个亟待解决的问题。
发明内容
针对现有模型的不足,本发明的目的是提供一种基于观测数据质量控制的白冠覆盖率算法。该算法可以在利用尽可能多的有效观测数据的同时,建立一个可信而稳健的白冠覆盖率模型。
本发明解决其技术问题所采用的技术方案是:
基于逐步数据剔除的海洋白冠覆盖率算法,包括以下步骤:
1)对不同数据源的海洋白冠覆盖率观测数据整合成数据集;
2)将数据集代入白冠覆盖率模型进行数据拟合得到系数的值;
3)将系数的值代入白冠覆盖率模型;
如果白冠覆盖率模型中统计参数变化未达到设定值,则通过白冠覆盖率模型与海洋白冠覆盖率观测数据进行比较,得到白冠覆盖率模型计算所得白冠覆盖率与观测的海洋白冠覆盖率的偏差;然后在数据集中剔除偏差值最大的观测数据点并重新建立数据集;返回步骤2);
如果白冠覆盖率模型中统计参数变化达到设定值,则确定白冠覆盖率模型中的系数,进而得到海洋白冠覆盖率模型。
所述白冠覆盖率计算模型为W为白冠覆盖率,U10表示10m高度处风速,a和b为系数。
所述统计参数为和方差或均方根或确定系数。
本发明具有以下有益效果及优点:
1.本发明在原始数据的使用中,并不是对于原始数据的简单合并,而是考虑到数据的质量而有选择性的剔除,从而降低了计算误差。
2.本发明中原始数据的剔除,并不是直观的选择,而是根据数据同所得到的白冠覆盖率模型计算的偏差来进行判断。这样能够避免主观因素干扰。
3.本发明确定白冠覆盖率的最终可用模型的系数,或者剔除原始数据样本的个数,是依据模型统计参数随剔除数据量的变化来决定,而不是在先前指定。这样能够在剔除尽量少的数据点的同时,得到一个相对可靠、稳健的白冠覆盖率模型。
附图说明
图1是本算法流程图;
图2是拟合系数a随迭代数目的变化趋势图;
图3是拟合系数b随迭代数目的变化趋势图;
图4是和方差SSE随迭代数目的变化趋势图。
图5是均方差RMSE随迭代数目的变化趋势图。
图6是确定系数R-Square随迭代数目的变化趋势图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明。
通过整合大量不同海域现场观测资料建立一个白冠覆盖率数据集,但是如果有效利用该数据集的同时避免测量误差的干扰是一个难点,本发明利用一种基于质量控制的算法来自动剔除数据集中的不合理数据点,并动态确认白冠覆盖率计算模型的最优系数,根据所得到系数随剔除数据点的变化趋势确定最终的白冠覆盖率计算模型中的相关系数,并通过得到一个相对稳健的白冠覆盖率模型关系式来计算白冠覆盖率,为海气相互作用、海洋遥感、海浪理论、海洋工程等各方面的理论和应用研究提供支撑。
风场是海洋白冠形成的主要原因,先前提出的白冠覆盖率经验关系大都是基于和风速的关系,但是都是通过拟合在某些位置和条件下的观测数据得到。除了某些特殊的情形,许多关系式是基于指数率关系式其中b的数值一般在3附近。因为参数确定量值的不同,不同的参数化方案得到的白冠覆盖率差别也较大,在风速5m/s时候其差别可以达到3个量级,在风速为10m/s时候差别也可以达到两个量级。这种现象可以归结为部分研究提供的样本数目较少,从而导致在数据拟合过程中引起较大的误差(在前期研究中使用的数据拟合样本数量从4到102不等),同时不同观测数据本身也存在一定的观测误差。我们计划通过搜集多组前人相关研究的数据集,整合大量数据样本,利用经验公式拟合白冠覆盖率经验曲线,数据的样本数量越多,拟合的白冠覆盖率关系表达式应更为可靠。
如图1所示,本算法包括以下步骤:
1.对于不同数据源的海洋白冠覆盖率观测数据进行分析和整合,这里初步剔除明显不合适的数据点,这里的质量控制主要基于肉眼观察,去掉偏离太大的数据点。
2.利用经验的物理关系式对于所整合的数据集(即风速U10、白冠覆盖率W数据集)进行数据拟合,其中U10表示10m高度处风速,a和b均为待定系数,数据拟合方法采用matlab工具箱中的fit函数,将原始观测的风速和白冠覆盖率数据集代入即可,所得到的是一对a,b的数值,因为这里的曲线拟合是尝试用一条曲线来拟合观测数据。这样得到物理关系表达式中的不同系数a,b的数值,对于我们这里的具体问题,采用的经验公式来进行拟合数
3.将所得到的白冠覆盖率计算模型(此时参数a,b均为已知量)同原始的观测数据集进行比较,即对应每个观测样本的风速数值利用我们所建立的白冠覆盖率模型计算对应不同观测值风速下的白冠覆盖率数值(原始观测数据主要是通过图像分析,即某时刻图像上白色区域占总面积的百分比来得到),并将不同样本利用模型计算的白冠覆盖率数值同原始样本观测的白冠覆盖率数值进行比较,得到对应每个风速位置处各个观测样本(风速和白冠覆盖率的对应点)的偏差,计算白冠覆盖率差异的统计量数值,如和方差,均方根和确定系数等。
4.分析上一步计算的各个白冠覆盖率数据点的位置观测数值同利用白冠覆盖率模型计算数值的偏差,确定偏离所确定的白冠覆盖率模型最大的数据点,定义为受观测误差影响最大的样本,剔除该数据点,重新建立数据集,同样利用上面的步骤确定白冠覆盖率模型中的相关参数。
重复上面的步骤,并通过图示标示该计算模型中的相关参数随迭代步骤的变化趋势,通过选择适当的迭代数目,确定模型并得到白冠覆盖率,既保证所剔除的观测数据尽量少,又使得计算模型的参数相对稳定,从而达到最佳的效果。
本实施例共计搜集了19组前人相关的白冠覆盖率观测数据,原始数据样本数目为657个,来比较新拟合的经验关系式同前期研究数据拟合的经验关系式的差异。
本实施例除了给出经验关系式中的两个重要参量外,同时也给出了数据拟合过程中的几个相关统计量,如SSE(和方差),计算拟合数据和原始数据对应点的误差的平方和;RMSE(均方根),也叫回归系统的拟合标准差;R-square(确定系数),通过数据的变化来表征一个拟合的好坏,“确定系数”的正常取值范围为[01],越接近1,表明自变量对因变量的解释程度越高,拟合越好。
在目前没有更好观测数据的背景下,本实施例拟通过剔除部分偏移较大数据样本来达到完善白冠覆盖率参数化公式的目的,在这里做两点假设:第一,目前关于白冠覆盖率的经验表达关系式是可信的,第二,我们这里汇集的多源数据中部分数据在图像处理过程中存在较大误差,需要进行剔除。在前人的相关研究中,由于数据量相对较少,如有些研究仅有几个数据的观测样本,对于个别数据样本的剔除都会引起拟合系数较大的振荡,而在这里我们汇集了657组观测数据,剔除少量的数据点并不会影响结果的可信度,同时相应的系数在剔除数据的过程中理论上会逐渐收敛于一组稳定数值。
进行数据剔除拟合的主要步骤如下:
1)对于所汇集的数据进行质量控制,根据物理关系表达式进行拟合,确定相应的模型参数a和b。
2)根据所确定参数a和b代入白冠覆盖率模型分别计算对应不同风速的白冠覆盖率数值。
3)计算观测样本的白冠覆盖率数值同利用模型得到的白冠覆盖率数值偏差数据集的统计量:和方差,均方根和确定系数。
4)观测样本的白冠覆盖率数值减去利用白冠覆盖率模型计算的数值来计算各个原始数据点和所构建模型的差异,即对于每一个观测数据,都可以求到一个观测数值同模型计算数值的偏差,其实这个数值差就是这个差异;通过对于差异取绝对值即可确定各个点同所建立模型的偏移量。
5)通过曲线分析模型中的相应参数(系数a,系数b,和方差,均方根,确定系数)随着总样本数量的变化趋势,如果参数变化趋于稳定,如确定系数的数值达到0.9以上,则停止计算,确定模型。
6)如果参数的变化趋势不满足上述条件,则剔除偏离最大的样本点,返回1)继续进行计算。
由于这里的数据集有657组,为了避免该方法对于数据剔除过度,我们设定剔除上限不超过原始数据点的1/4,即164个,分别给出拟合系数,和方差,均方根和确定系数随数据剔除的变化趋势。如果剔除1/4的数据后仍然无法满足停止计算的条件,我们认为原始数据的样本数量过少,该方法并不适合,需要通过观测手段增加观测样本数量。
本方法同传统的方法相比主要差别在于,本方法认为观测数据是存在误差的,对于观测数据应该有选择性的使用,而不应该全部选择。在建立白冠覆盖率模型的过程中,通过客观分析方法剔除偏差较大的数据,动态调整计算模型的系数。最终模型中相关参数的选择取决于该参数随剔除数据点的变化所决定,而不是提前确定所需要剔除数据点的数量。
拟合系数a随迭代步数的变化趋势如图2所示,可以看到在前25个数据剔除过程中,该系数有较大的变化,在第50个数据剔除前后也有轻微的振荡,在第80步后,该系数的趋势相对稳定,变化较小。
拟合系数b随迭代步数的变化趋势如图3所示,由于该系数同系数a根据同组数据确定,其变化趋势也非常相近,在前25步变化较大,在100步后逐渐趋于稳定。
和方差SSE和均方差RMSE随迭代步数的变化趋势如图4和图5所示,由于这里在迭代过程中不断去除引起拟合误差最大的数据点,和方差和均方差的数值随着迭代步数的增加迅速减小,和方差在第60步时已降至初始数值的10%,在第91时已降至初始数值的5%,均方差则在第111步时降至初始数值的20%。
确定系数R-Square随迭代步数的变化趋势如图6所示,该系数正常取值范围为[01],越接近1,表明方程的变量对应变量的解释能力越强。从该图上可以看出在94步时确定系数的数值达到0.9,在第141步时候确定系数则达到0.95。
综合上面各个方面,如拟合系数、和方差,均方差和确定系数随迭代步数的变化趋势,并考虑到尽可能多保留原始数据的原则,我们认为这里可以采用确定系数为0.9的位置作为截取点,保留的数据点为564个,数据保留率为85.84%,此时拟合系数a的数值为2.63e-06,拟合系数b的数值为5.06,和方差的数值为初始值得4.62%,均方差为初始数值的23.2%。此时的建议拟合公式为:W=2.63×10-6U5.06,我们认为该模型可以较好描述不同海况下的白冠覆盖率随风速的变化趋势,可以通过该模型得到白冠覆盖率。
Claims (3)
1.基于逐步数据剔除的海洋白冠覆盖率算法,其特征在于包括以下步骤:
1)对不同数据源的海洋白冠覆盖率观测数据整合成数据集;
2)将数据集代入白冠覆盖率模型进行数据拟合得到系数的值;
3)将系数的值代入白冠覆盖率模型;
如果白冠覆盖率模型中统计参数变化未达到设定值,则通过白冠覆盖率模型与海洋白冠覆盖率观测数据进行比较,得到白冠覆盖率模型计算所得白冠覆盖率与观测的海洋白冠覆盖率的偏差;然后在数据集中剔除偏差值最大的观测数据点并重新建立数据集;返回步骤2);
如果白冠覆盖率模型中统计参数变化达到设定值,则确定白冠覆盖率模型中的系数。
2.根据权利要求1所述的一种基于逐步数据剔除的海洋白冠覆盖率算法,其特征在于所述白冠覆盖率计算模型为W为白冠覆盖率,U10表示10m高度处风速,a和b为系数。
3.根据权利要求1所述的一种基于逐步数据剔除的海洋白冠覆盖率算法,其特征在于所述统计参数为和方差或均方根或确定系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510581319.2A CN105279308A (zh) | 2015-09-14 | 2015-09-14 | 一种基于逐步数据剔除的海洋白冠覆盖率算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510581319.2A CN105279308A (zh) | 2015-09-14 | 2015-09-14 | 一种基于逐步数据剔除的海洋白冠覆盖率算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105279308A true CN105279308A (zh) | 2016-01-27 |
Family
ID=55148318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510581319.2A Pending CN105279308A (zh) | 2015-09-14 | 2015-09-14 | 一种基于逐步数据剔除的海洋白冠覆盖率算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105279308A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307681A (zh) * | 2020-06-06 | 2021-02-02 | 自然资源部第一海洋研究所 | 一种直接利用海洋要素计算海洋飞沫生成函数的方法 |
CN116702659A (zh) * | 2023-08-08 | 2023-09-05 | 自然资源部第一海洋研究所 | 一种海浪破碎参数快速预报方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103900996A (zh) * | 2014-03-19 | 2014-07-02 | 中国科学院南海海洋研究所 | 一种现场测量海上白冠覆盖率的测量方法及其测量装置 |
CN103900542A (zh) * | 2014-03-19 | 2014-07-02 | 中国科学院南海海洋研究所 | 一种测量海上白冠生成至消退的反射率变化的测量装置及其测量方法 |
US20150243032A1 (en) * | 2014-02-26 | 2015-08-27 | Raytheon Company | False alarm rejection for boat detection candidates |
-
2015
- 2015-09-14 CN CN201510581319.2A patent/CN105279308A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150243032A1 (en) * | 2014-02-26 | 2015-08-27 | Raytheon Company | False alarm rejection for boat detection candidates |
CN103900996A (zh) * | 2014-03-19 | 2014-07-02 | 中国科学院南海海洋研究所 | 一种现场测量海上白冠覆盖率的测量方法及其测量装置 |
CN103900542A (zh) * | 2014-03-19 | 2014-07-02 | 中国科学院南海海洋研究所 | 一种测量海上白冠生成至消退的反射率变化的测量装置及其测量方法 |
Non-Patent Citations (1)
Title |
---|
于婷: "由卫星资料反演全球白冠覆盖率的初步研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307681A (zh) * | 2020-06-06 | 2021-02-02 | 自然资源部第一海洋研究所 | 一种直接利用海洋要素计算海洋飞沫生成函数的方法 |
CN112307681B (zh) * | 2020-06-06 | 2022-05-31 | 自然资源部第一海洋研究所 | 一种直接利用海洋要素计算海洋飞沫总体积的方法 |
CN116702659A (zh) * | 2023-08-08 | 2023-09-05 | 自然资源部第一海洋研究所 | 一种海浪破碎参数快速预报方法及系统 |
CN116702659B (zh) * | 2023-08-08 | 2023-11-10 | 自然资源部第一海洋研究所 | 一种海浪破碎参数快速预报方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dai et al. | Non-stationary water-level fluctuation in China’s Poyang Lake and its interactions with Yangtze River | |
Sprenger et al. | Nowcasting foehn wind events using the adaboost machine learning algorithm | |
CN106875048A (zh) | 基于典型经验模式的应急洪水预报方法 | |
CN109543356A (zh) | 考虑空间非平稳性的海洋内部温盐结构遥感反演方法 | |
Heuvelmans et al. | Analysis of the spatial variation in the parameters of the SWAT model with application in Flanders, Northern Belgium | |
CN106597575A (zh) | 基于交叉验证和二维高斯分布赋权的降水量空间插值方法 | |
CN113095694B (zh) | 一种适用于多地貌类型区的降雨输沙模型构建方法 | |
Spassiani et al. | Application of Self-organizing Maps to classify the meteorological origin of wind gusts in Australia | |
CN114490622A (zh) | 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统 | |
CN107423544A (zh) | 一种流域水文极值的非平稳性影响指标的确定方法及装置 | |
CN117113236A (zh) | 一种智慧城市监控系统及数据处理方法 | |
CN105279308A (zh) | 一种基于逐步数据剔除的海洋白冠覆盖率算法 | |
Yürüşen et al. | Probability density function selection based on the characteristics of wind speed data | |
Nandalal et al. | Event based modeling of a watershed using HEC-HMS | |
CN113673777B (zh) | 一种气候变化条件下的沙漠演替预测方法 | |
CN114691661B (zh) | 一种基于同化的云导风、温湿廓线预处理分析方法及系统 | |
CN106777724B (zh) | 一种针对半湿润半干旱地区及湿润地区的基流分割方法 | |
CN113435630B (zh) | 一种产流模式自适应的流域水文预报方法及系统 | |
CN104777215A (zh) | 一种确定流域尺度次降雨泥沙来源的方法 | |
CN115330088A (zh) | 一种小型水库的防洪精细化预测方法 | |
CN115438870A (zh) | 一种大空间尺度水资源量预估方法 | |
CN115453664A (zh) | 一种适用于无资料地区的降雨径流预报方法 | |
Jiang et al. | Discharge estimation based on machine learning | |
Assis et al. | A model-based site selection approach associated with regional frequency analysis for modeling extreme rainfall depths in Minas Gerais state, Southeast Brazil | |
CN105787493A (zh) | 一种基于bim智能提取放样特征点的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160127 |
|
RJ01 | Rejection of invention patent application after publication |