CN113570000A - 一种基于多模型融合的海洋单要素观测质量控制方法 - Google Patents
一种基于多模型融合的海洋单要素观测质量控制方法 Download PDFInfo
- Publication number
- CN113570000A CN113570000A CN202111047484.1A CN202111047484A CN113570000A CN 113570000 A CN113570000 A CN 113570000A CN 202111047484 A CN202111047484 A CN 202111047484A CN 113570000 A CN113570000 A CN 113570000A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- time
- detection
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 62
- 230000004927 fusion Effects 0.000 title claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 120
- 230000002159 abnormal effect Effects 0.000 claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 79
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 43
- 238000007619 statistical method Methods 0.000 claims abstract description 36
- 238000007635 classification algorithm Methods 0.000 claims abstract description 8
- 238000013145 classification model Methods 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 22
- 230000005856 abnormality Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 239000006185 dispersion Substances 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000002955 isolation Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000001276 controlling effect Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 77
- 238000010586 diagram Methods 0.000 description 7
- 230000007774 longterm Effects 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002344 surface layer Substances 0.000 description 3
- 238000005086 pumping Methods 0.000 description 2
- 229910052572 stoneware Inorganic materials 0.000 description 2
- 241000196240 Characeae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于多模型融合的海洋单要素观测质量控制方法,采用统计分析和单分类算法相结合的四层模型架构,对海洋站点某要素历史观测数据是否出现异常进行检测。包括:S1.输入层,对海洋站点某要素历史观测数据,构造由远及近三段时间窗口,提取统计特征、拟合特征和分类特征,构造检测样本;S2.统计分析层,利用统计判别算法过滤掉70%的正样本,减小异常候选集规模,有效缓解正负样本不平衡带来的影响;S3.单分类层,利用单分类模型对疑似异常的观测数据点进一步检测;S4.输出层,综合统计分析层和单分类层的结果作出最终判决,并对检测效果进行评估。本发明综合考虑多种模型的检测结果,以做出最佳决策,有效提高了检测方法的准确性。
Description
技术领域
本发明涉及海洋监测技术领域,更具体的说是涉及一种基于多模型融合的海洋单要素观测质量控制方法。
背景技术
海洋环境观测数据是海洋数据的重要组成部分,特别是锚系浮标、海洋站等数据所具备的长期性、连续性等优势是其他走航、大面调查数据所无法比拟的。长期的观测数据在采集过程中受人为和非人为因素,以及站址变迁、平台漂移、仪器变更、观测时次/计算方法变更等影响,导致观测数据所表征的海洋状况与实际状况出现一定的偏差,因此,需要对数据进行质量控制。
目前,国内外对于海洋的监测仍主要采用基于经典统计理论的传统检验,在得到要素对应的距平、极值和梯度等阈值范围后,开展数据质量控制。主要包括对时间、空间和格式等要素开展对应的日期合理性检验、登陆点检验、非法码检验等;对要素开展范围检验、相关性检验和递增性检验等。国际浮标质量控制方法主要沿用现有海洋站方法,缺乏精细化的质控参数。随着大数据技术的发展,国内一些学者提出并尝试采用关联规则、数据挖掘方法开展定点连续海洋数据的质量控制。例如采用持向量机算法开展海洋站多要素数据质控,基于兴趣度模型的关联规则挖掘算法对海洋漂流浮标数据进行质控等,取得了一定进展。
目前实时和延时海洋观测资料存在长时间跨度、不同海域表现特征各异和观测仪器处理及精度差异等问题,这对海洋观测资料质量控制工作提出了更高的要求,传统处理方式难以进行深入挖掘分析。海洋数据采集过程逐时、逐分甚至逐秒发生,具有快速更新的特点,传统质量控制方法对海量大数据处理的能力存在明显的不足,难以实现业务化应用。由于海洋环境具有非常复杂的多尺度变化特征,同时存在长期关联、短期关联现象,例如,今天的温度与昨天的温度和去年同一天的温度都有关联,如何设计一套合理的算法对海洋数据的特征进行刻画和提取,并辅助用于海洋观测资料的质量控制,是需要解决的关键问题。
由于机器学习技术具有擅长在海量的数据中寻找数据的潜在的规律和价值,解决传统方法无法解决的问题的特性,基于机器学习的质控方法则能够避免数据分布未知的问题,从监测数据中提取有效信息,刻画特征信息与数据质量之间的非线性关系,能够较为准确地对数据质量进行控制。
因此,如何提供一种基于多模型融合的海洋单要素观测质量控制方法是本领域技术人员亟需解决的问题。
发明内容
本发明的目的是解决现有的海洋数据质量控制技术所存在的检测效率低和忽略海洋要素同时存在长短期关联现象的问题,提供了一种基于多模型融合的海洋单要素观测质量控制方法,采用机器学习的相关技术及集成学习的思想对数据质量建立模型,以实现对海洋观测站点的数据质量进行控制。
为了实现上述目的,本发明采用如下技术方案:
一种基于多模型融合的海洋单要素观测质量控制方法,采用统计分析和单分类算法相结合的四层模型架构,对于海洋站点观测到的某要素历史观测数据的异常进行判决,包括:
S1.第一层为输入层,对于海洋站点某要素历史观测数据,构造由远及近三段时间窗口,提取统计特征、拟合特征和分类特征,构造检测样本;
S2.第二层为统计分析层,利用统计判别算法过滤掉约70%的正样本,减小异常候选集规模,有效缓解正负样本不平衡带来的影响;
S3.第三层为单分类层,利用单分类模型对疑似异常的观测数据点进一步检测;
S4.第四层为输出层,综合统计分析层和单分类层的检测结果作出最终判决,并对检测效果进行评估;
其中,所述统计判别算法包括3σ检测、EWMA检测和多项式回归检测;单分类模型包括孤立森林和One-class SVM。
优选的,步骤S1中所述构造检测样本的具体方法为:
为了同时从较近和较远的历史数据中提取信息,对每个检测点生成三段时间窗口,分别为:1)包含待检测T时刻前h小时内的历史观测数据;2)y天前同一时刻前h小时和后h小时内的历史观测数据;3)z天前(z>y)同一时刻前h小时和后h小时内的历史观测数据,三段时间窗口组合在一起共同组成T时刻的检测样本;
为了使机器学习模型能够从时间序列中挖掘更多隐含的时间模式关联,需要将检测样本从原始数据空间映射到特征空间,对所述的三段时间窗口数据,按时间顺序拼接成一个时间序列X,提取统计特征、拟合特征和分类特征。
(1)统计特征:通过提取时间序列X在统计学上的特征构成特征向量,主要用于描述数据间的离散程度和变化趋势。对于时间序列的统计特征来说常常分为两类:时间域和频率域。时间域上的特征又可以分为有量纲的特征和无量纲特征,本发明中具体提取的统计特征如表1所示:
表1统计分析层提取的统计特征
(2)拟合特征:通过使用移动平均算法、加权移动平均算法、指数加权移动平均算法和双指数移动加权平均算法共四种算法去拟合现有的时间序列X,所得到的拟合值与实际值的差值作为时间序列的拟合特征;该类特征基于滑动窗口考虑序列整体间的前后关联,假设时间序列滑动窗口长度w,xT表示T时刻的观测值,sT表示T时刻的平滑值,具体提取的拟合特征如下:
1)移动平均(moving average,MA)
滑动窗口内w个数据的未加权平均值,计算公式如下,
2)加权移动平均(weighted moving average,WMA)
计算滑动窗口内w个数据的平均值时将个别数据乘以不同数值,最近的数值乘以w、次近的乘以w-1,如此类推,一直到1,计算公式如下,
3)指数加权移动平均(exponential weighted moving average,EWMA)
指数加权移动平均算法中,各数值的加权系数随时间而呈指数式递减,越近期靠近当前时刻的数据加权系数越大,xT表示T时刻的观测值,系数α表示加权下降的速率,计算公式如下,
4)双指数移动加权平均(double exponential moving average,DEWMA)
双指数移动加权平均算法中,同时对观测值和平滑值进行指数加权移动平均,xT表示T时刻的观测值,sT表示T时刻的平滑值,引入bT表示T时刻的最佳估计值,系数α表示平滑值加权下降的速率,系数β表示平滑值加权下降的速率,进行两次指数移动,计算公式如下,
(3)分类特征:根据时间序列的走势,可将时间序列划分成周期型、平稳型、无规律波动型三类,具体来说,计算自相关系数、离散系数、分桶熵、值分布四项指标,来构造出时间序列的分类特征;
1)自相关系数
将一个时间窗口内的有序时间序列与自身相比较,判断序列中的组成部分相互之间是否存在相关性并用自相关值r表示;自相关值r的计算公式如下,式中n表示时间序列的长度,μ表示时间序列的平均值,σ表示时间序列的标准差,r的取值范围为[-1,1],1为最大正相关值,-1则为最大负相关值,0为不相关,
2)离散系数
离散系数c用于概率分布离散程度的一个归一化量度,定义为一个窗口内时间序列的标准差σ与平均值μ之比,
3)分桶熵
按整个时间序列的取值情况分成max_bins个桶(max_bins分别取2、4、6、8、10和20),把时间序列的每个时间点的取值放进相应的桶中,求熵e;pk表示落在第k个桶中的数占总体的比例,该特征用于衡量样本值分布的均匀度,
4)值分布
对于一个时间序列,首先将数据点按从小到大的顺序进行排序并归一化到0和1之间,以0、0.01、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.99、1.0为间隔划分统计区间,计算每个区间内数据点个数所占数据点总数数的比例,作为值分布特征;
待检测数据点为xT,y天前同一时刻数据点为yT,z天前同一时刻数据点为zT,假设数据点时间间隔为1小时,时间窗口长度为h小时,T时刻待检测数据点的三段时间窗口数据分别为:
MT=[xT-h,xT-h+1,...,xT]表示待检测时刻所在的窗口数据;
YT=[yT-h,yT-h+1,...,yT,yT+1,...,yT+h]表示待检测时刻y天前的窗口数据;
ZT=[zT-h,zT-h+1,...,zT,zT+1,...,zT+h]表示待检测时刻z天前的窗口数据;
将YT、ZT按时间顺序拼接在MT后,共同构成T时刻的检测样本XT,用于统计分析层的模型检测,三段时间窗口的划分如附图1所示,其中星标点表示待检测数据点;对XT分别提取统计特征、拟合特征和分类特征,共同组成XT′作为特征检测样本以表征T时刻待检测数据点的状态信息,用于单分类层的学习。
优选的,针对所述统计分析层,步骤S2中所述统计判别算法包括3σ检测、EWMA检测、多项式回归检测,具体实现方法为:
1)3σ检测
3σ原则又称为拉依达准则,假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按3倍标准差的范围确定一个区间,认为误差超过这个区间的就属于异常值;规定观测值应满足如下公式,否则认为观测值异常,
υi≤3σ
其中υi和σ分别表示观测值的剩余误差和标准差,定义如下,
式中N表示观测值总数,i表示观测值的序号;
2)EWMA检测
相邻时间段内的数据往往具有相似的变化趋势,能够使用指数权重移动平均方法(Exponentially Weighted Moving-Average,EWMA)来对时间序列进行拟合,而噪音数据将会使曲线发生明显波动,由此推断该点出现了异常;在EWMA中,T时刻数据点的平滑值是由前一时刻的平滑值,加上T时刻的实际值修正而来,如下公式所示,
sT=λ*xT+(1-λ)*sT-1
其中xT表示T时刻的观测值,sT表示T时刻的平滑值,系数λ表示加权下降的速率,对于T时刻的平滑值,每个历史数据的权重是不一样的,随与当前时刻的距离增大而呈指数衰减;
3)多项式回归检测:
将三段时间窗口所有历史数据点作为自变量,检测点数据值作为因变量,依据历史数据建立回归模型,如果预测值与观测值相差大于指定值,则认定为异常;首先对原始的三段时间窗口数据进行多项式扩充,生成含有多项式的特征集合,构造范德蒙德矩阵,生成新特征矩阵的方式是生成每个特征从二次项到最高次项表达式和所有特征项数相加为最高次项的表达式,这样可以表达各个特征在不同次项上的系数;再使用脊回归(RidgeRegression)进行拟合,脊回归是一种改良的最小二乘估计,很好的缓解了输入变量对噪音敏感的问题,对于一个线性模型,在原来的损失函数加入参数的L2范数的惩罚项,其损失函数为如下形式:
式中w表示多项式回归模型中所有特征项的系数参数,yw表示在参数为w时的预测值,y表示实际观测值,α为一个非负的常数,用于控制惩罚项的惩罚力度,α的数值越大,那么正则项,也是惩罚项的作用就越明显;α的数值越小,正则项的作用就越弱。
优选的,针对单分类层,步骤S3所述单分类算法中的孤立森林具体实现方法为:
孤立森林方法中,异常样本被定义为“容易被孤立的离群点”,可以将其看作分布稀疏且离密度高的群体较远的点;与其他算法使用密度或距离的量化指标来刻画样本间的疏离程度不同,孤立森林通过对样本进行孤立来检测异常值;孤立过程通过具有二叉搜索结构的孤立树实现,由于异常样本数目较少且与大部门的正常样本距离较远,将会被更早的孤立出来,即孤立树的根结点距离更近;
由于孤立森林算法不适用于有趋势性变化的数据序列,需要先对数据序列进行分解与重构,分离出趋势项,只保留剩余项,因此,首先使用输入层对待检测点的三段时间窗口数据的提取特征,对于提取到的统计特征、拟合特征和分类特征组成一个向量作为检测样本,样本满足以下条件:
i)异常点所占比例低于5%;
ii)异常样本的数据模式和正常样本有明显区别;
基于集成学习的思想,孤立森林算法对于原始数据集的随机采样获得的每个子数据集构建一棵孤立树,构造过程如下:
(1)从训练数据中随机选择256个点样本作为子数据集,放入树的根节点;
(2)随机指定提取出的某一特征作为用于分割的维度,在当前节点数据中随机产生一个切割点p,切割点产生于当前节点数据中指定维度的最大值和最小值之间;
(3)以此切割点生成了一个超平面,然后将当前节点数据空间划分为左孩子和右孩子两个子空间:把指定维度里面小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
(4)在孩子节点中递归步骤(2)和步骤(3),不断构造新的孩子节点,直到孩子节点中只有一个数据即无法再继续切割或者孩子节点已达限定高度;
孤立森林由多棵孤立树集成,对于一个待检测数据x,令其遍历每一棵孤立树,计算x在每棵树所处的深度,得到x在孤立森林的平均深度,通过对深度进行归一化获得一个0到1的数值,作为被检测样本的异常分数,定义如下,
h(x)表示待检测样本x在孤立树上的深度,E[h(x)]表示所有孤立树深度的均值,c(ψ)表示ψ个点构建的二叉搜索树的平均长度作为标准项;
在测试样本x遍历孤立树的过程中,由于异常点经历较少的切割次数后即能够进入单一的子空间,即异常点作为叶子结点到根结点的距离要明显小于正常结点,则当样本在孤立树中的深度越小则异常分数越高,反之亦然。
优选的,针对单分类层,步骤S3所述单分类算法中的One-class SVM具体实现方法为:
针对海洋观测数据异常点所占比例极小的特点,One-Class SVM仅使用正常样本数据构建超球面,通过最小化该球体的体积,使得正常样本尽可能在球体内,异常样本尽可能排除在球体外,从而达到两类之间划分的目的;
对于正常的数据样本{x|xi∈Rd,i=1,2,…N},在映射的高维空间内,求出能包含该数据样本最小超球体的中心a和半径Rad,问题转化为求以下优化问题:
s.t.||φ(xi)-c||2-Rad2≤ξi,ξi≥0,i=1,2,...,n
其中,ζi为松弛因子,当ζi>0时对应超球体外的异常数据点,超参数v∈(0,1]调整惩罚项和超球体体积之间的权重,求得该超球体后通过解凸二次优化能够得到球心a和半径Rad;求解所得大部分拉格朗日乘子的系数为零,而对应αi>0的向量则为支持向量,超球体的半径为任何一边界支持向量到球心的距离;在测试时,落在超球体外部的样本,即||Φ(x)-c||2>Rad2,被认为是异常样本。
优选的,针对输出层,步骤S4中综合统计分析层和单分类层的结果做出最终判决的的具体实现方法为:
对于T时刻待检测点,首先构造三段时间窗口数据XT进入统计分析层,使用3σ检测、EWMA检测和多项式回归检测三种方法分别给出异常检测结果{y1i=0,1|i=1,2,3),其中1表示该方法判定T时刻出现异常,0表示未出现异常;结合统计分析层三种方法的检测结果,即求
Y1为0表示统计分析层所有方法均判定待检测点为正常,可直接判定待检测点最终质控结果为正常,不再进入下一层,结束;而Y1为1表示统计分析层至少一种方法判定待检测点出现疑似异常,需要送入单分类层进行进一步检测;在单分类层,使用预训练好的One-Class SVM模型和孤立森林模型分别给出异常检测结果{y2i=0,1|i=1,2),其中1表示该模型判定T时刻出现异常,0表示未出现异常,结合单分类层两种模型的检测结果,即求
Y2为0表示最终质控结果为正常,结束;Y2为1表示单分类层判定待检测点最终质控结果为异常,结束。
优选的,针对输出层,步骤S4中对所述四层异常检测模型的检测准确度进行评估中,计算评价指标的具体方法为:
定义观测数据未出现异常的样本为正样本,反之为负样本,对最终异常检测结果分成四类:真正例TP(True Positve)表示真实结果和质控结果均为正常、假正例FP(FalsePositve)表示真实结果为异常而检测结果为正常、真反例TN(True Negative)表示真实结果和质控结果均为异常、假反例FN(False Negative)表示真实结果为正常而检测结果为异常,通过计算准确率、查准率、查全率和F1-score四项指标对四层异常检测模型的性能进行评估;
准确率Accuracy表示模型质控结果与真实结果一致的观测点数目占所有检测点总数的比例,能够体现模型对观测点正确分类的能力;
查准率Precision表示所有模型质控结果为正常的观测点样本中,实际为正常的观测点的比例;查准率越高,说明模型越有把握确定某观测点样本的数据正常,能够体现模型对于负样本的区分能力;
查全率Recall表示所有实际为正常的观测点中,模型正确检测出数据正常的观测点的比例;查全率越高,说明模型倾向于将可能为正的样本预测为正样本,能够体现模型对于正样本的区分能力;
使用查准率和查全率的调和平均作为模型的评价指标F1-Score,F1-Score分数越高,说明模型越稳健;具体计算方法为:
本发明的优点和有益效果:
与现有技术相比,本发明公开提供了一种基于多模型融合的海洋单要素观测质量控制方法,本发明的优点在于:针对海洋要素同时存在长期关联和短期关联的现象,采用三段时间窗口机制并提取提取统计特征、拟合特征和分类特征,构造检测样本;针对正负样本极度不平衡、海洋数据人工标注难度大的挑战,采用基于多模型融合的四层模型架构进行质量控制,统计分析层利用统计判别算法快速过滤掉70%正样本,提高检测效率,单分类层利用单分类模型仅对正常样本进行建模,做出进一步判断,输出层综合考虑多种模型的检测结果,以做出最佳决策,本发明有效提高了海洋观测要素质量控制的效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于多模型融合的海洋单要素观测质量控制方法的四层检测模型示意图;
图2为本发明提供的一种基于多模型融合的海洋单要素观测质量控制方法的构造检测样本示意图;
图3为本发明提供的一种基于多模型融合的海洋单要素观测质量控制方法的单分类层中孤立森林工作过程示意图;
图4为本发明提供的一种基于多模型融合的海洋单要素观测质量控制方法的单分类层中One-Class SVM工作过程示意图;
图5为本发明提供的一种基于多模型融合的海洋单要素观测质量控制方法的输出层最终判决工作过程示意图。
图6为本发明提供的一种基于多模型融合的海洋单要素观测质量控制方法的实施例表层盐度要素质量控制效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明公开了一种基于多模型融合的海洋单要素观测质量控制方法,该方法采用统计分析和单分类算法相结合,建立多模型融合的四层异常检测模型,对于海洋站点观测到的某要素历史观测数据的异常情况进行判决,模型示意图如附图1所示,包括以下步骤:
S1.第一层为输入层,对于海洋站点某要素历史观测数据,构造由远及近三段时间窗口,提取统计特征、拟合特征和分类特征,构造检测样本;
S2.第二层为统计分析层,利用统计判别算法过滤掉约70%的正样本,减小异常候选集规模,有效缓解正负样本不平衡带来的影响;
S3.第三层为单分类层,利用单分类模型对疑似异常的观测数据点进一步检测;
S4.第四层为输出层,综合统计分析层和单分类层的检测结果作出最终判决,并对检测效果进行评估;
其中,所述统计判别算法包括3σ检测、EWMA检测和多项式回归检测;单分类模型包括孤立森林和One-class SVM。
在一个优选的实施例中,以国内公开海洋站点石浦站点的表层盐度要素在2009年1月15日到2021年6月30日期间的观测数据资料作为待检测数据集,使用上述基于多模型融合的海洋单要素质量控制方法进行异常检测。
一、为了进一步实施上述技术方案,如附图2所示,针对输入层,步骤S1所述的构造检测样本的方法,针对石浦站点表层盐度要素的具体实现为::
使用石浦站点从2020年7月1日至2021年6月30日期间表层盐度要素的历史观测资料作为测试集,为了同时从较近和较远的历史数据中提取信息,对每个检测点生成三段时间窗口,分别为:1)包含待检测T时刻前6小时内的历史观测数据;2)1天前同一时刻前6小时和后6小时内的历史观测数据;3)10天前同一时刻前6小时和后6小时内的历史观测数据,三段时间窗口组合在一起共同组成T时刻的检测样本;
需要注意的是,根据石浦站点对于表层盐度要素数据的采集特点,构造的检测样本中数据点时间间隔为1小时,时间窗口长度设置为6小时,y参数取值为1,z参数取值为10,T时刻待检测数据点的三段时间窗口数据分别为:
MT=[xT-6,xT-5,...,xT]表示待检测时刻所在的窗口数据;
YT=[yT-6,yT-5,...,yT,yT+1,...,yT+6]表示待检测时刻1天前的窗口数据;
ZT=[zT-6,zT-5,...,zT,zT+1,...,zT+6]表示待检测时刻10天前的窗口数据;
将YT、ZT按时间顺序拼接在MT后,共同构成T时刻的检测样本XT,用于统计分析层的模型检测;为了使机器学习模型能够从时间序列中挖掘更多隐含的时间模式关联,需要将检测样本从原始数据空间映射到特征空间,对所述的三段时间窗口数据,按时间顺序拼接成一个时间序列X,提取统计特征、拟合特征和分类特征。
(1)统计特征:通过提取时间序列X在统计学上的特征构成特征向量,主要描述数据间的离散程度和变化趋势。对于时间序列的统计特征来说常常分为两类:时间域和频率域。时间域上的特征又可以分为有量纲的特征和无量纲特征,本发明中具体提取的统计特征参见前面技术方案中的表1所示。
(2)拟合特征:通过使用移动平均算法、加权移动平均算法、指数加权移动平均算法和双指数移动加权平均算法共四种算法去拟合现有的时间序列X,所得到的拟合值与实际值的差值作为时间序列的拟合特征;该类特征基于滑动窗口考虑序列整体间的前后关联,假设时间序列滑动窗口长度w,xT表示T时刻的观测值,sT表示T时刻的平滑值,具体提取的拟合特征如下:
1)移动平均(moving average,MA)
滑动窗口内w个数据的未加权平均值,计算公式如下,
2)加权移动平均(weighted moving average,WMA)
计算滑动窗口内w个数据的平均值时将个别数据乘以不同数值,最近的数值乘以w、次近的乘以w-1,如此类推,一直到1,计算公式如下,
3)指数加权移动平均(exponential weighted moving average,EWMA)
指数加权移动平均算法中,各数值的加权系数随时间而呈指数式递减,越近期靠近当前时刻的数据加权系数越大,xT表示T时刻的观测值,系数α表示加权下降的速率,计算公式如下,
4)双指数移动加权平均(double exponential moving average,DEWMA)
双指数移动加权平均算法中,同时对观测值和平滑值进行指数加权移动平均,xT表示T时刻的观测值,sT表示T时刻的平滑值,引入bT表示T时刻的最佳估计值,系数α表示平滑值加权下降的速率,系数β表示平滑值加权下降的速率,进行两次指数移动,计算公式如下,
(3)分类特征:根据时间序列的走势,可将时间序列划分成周期型、平稳型、无规律波动型三类,具体来说,计算自相关系数、离散系数、分桶熵、值分布四项指标,来构造出时间序列的分类特征;
1)自相关系数
将一个时间窗口内的有序时间序列与自身相比较,判断序列中的组成部分相互之间是否存在相关性并用自相关值r表示;自相关值r的计算公式如下,式中n表示时间序列的长度,μ表示时间序列的平均值,σ表示时间序列的标准差,r的取值范围为[-1,1],1为最大正相关值,-1则为最大负相关值,0为不相关,
2)离散系数
离散系数c用于概率分布离散程度的一个归一化量度,定义为一个窗口内时间序列的标准差σ与平均值μ之比,
3)分桶熵
按整个时间序列的取值情况分成max_bins个桶(max_bins分别取2、4、6、8、10和20),把时间序列的每个时间点的取值放进相应的桶中,求熵e;pk表示落在第k个桶中的数占总体的比例,该特征用于衡量样本值分布的均匀度,
4)值分布
对于一个时间序列,首先将数据点按从小到大的顺序进行排序并归一化到0和1之间,以0、0.01、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.99、1.0为间隔划分统计区间,计算每个区间内数据点个数所占数据点总数数的比例,作为值分布特征;
对XT分别提取统计特征、拟合特征和分类特征后,共同组成XT′作为石浦站点的表层盐度要素特征检测样本以表征T时刻待检测数据点的状态信息,用于单分类层的学习。
二、为了进一步实施上述技术方案,针对统计分析层,步骤S2所述的统计分析方法包括3σ检测、EWMA检测、多项式回归检测,针对石浦站点表层盐度要素的具体实现方法为:
1)3σ检测
3σ原则又称为拉依达准则,假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按3倍标准差的范围确定一个区间,认为误差超过这个区间的就属于异常值;规定观测值应满足如下公式,否则认为观测值异常,
υi≤3σ
其中υi和σ分别表示观测值的剩余误差和标准差,定义如下,
式中N表示观测值总数,i表示观测值的序号;
2)EWMA检测
相邻时间段内的数据往往具有相似的变化趋势,能够使用指数权重移动平均方法(Exponentially Weighted Moving-Average,EWMA)来对时间序列进行拟合,而噪音数据将会使曲线发生明显波动,由此推断该点出现了异常;在EWMA中,T时刻数据点的平滑值是由前一时刻的平滑值,加上T时刻的实际值修正而来,如下公式所示,
sT=λ*xT+(1-λ)*sT-1
其中xT表示T时刻的观测值,sT表示T时刻的平滑值,系数λ表示加权下降的速率,对于T时刻的平滑值,每个历史数据的权重是不一样的,随与当前时刻的距离增大而呈指数衰减;
3)多项式回归检测:
将三段时间窗口所有历史数据点作为自变量,检测点数据值作为因变量,依据历史数据建立回归模型,如果预测值与观测值相差大于指定值,则认定为异常;首先对原始的三段时间窗口数据进行多项式扩充,生成含有多项式的特征集合,构造范德蒙德矩阵,生成新特征矩阵的方式是生成每个特征从二次项到最高次项表达式和所有特征项数相加为最高次项的表达式,这样可以表达各个特征在不同次项上的系数;再使用脊回归(RidgeRegression)进行拟合,脊回归是一种改良的最小二乘估计,很好的缓解了输入变量对噪音敏感的问题,对于一个线性模型,在原来的损失函数加入参数的L2范数的惩罚项,其损失函数为如下形式:
式中w表示多项式回归模型中所有特征项的系数参数,yw表示在参数为w时的预测值,y表示实际观测值,α为一个非负的常数,用于控制惩罚项的惩罚力度,α的数值越大,那么正则项,也是惩罚项的作用就越明显;α的数值越小,正则项的作用就越弱。
三、为了进一步实施上述技术方案,针对单分类层,如附图3所示,步骤S3中所述的单分类层中的孤立森林算法,针对石浦站点表层盐度要素的具体实现方法为:
使用石浦站点从2009年1月15日至2020年6月30日期间表层盐度要素的历史观测资料作为训练数据集,训练单分类层中的孤立森林模型;
基于集成学习的思想,孤立森林算法对于原始训练数据集的随机采样获得的每个子数据集构建一棵孤立树,构造过程如下:
(1)从训练数据中随机选择256个点样本作为子数据集,放入树的根节点;
(2)随机指定提取出的某一特征作为用于分割的维度,在当前节点数据中随机产生一个切割点p,切割点产生于当前节点数据中指定维度的最大值和最小值之间;
(3)以此切割点生成了一个超平面,然后将当前节点数据空间划分为左孩子和右孩子两个子空间:把指定维度里面小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
(4)在孩子节点中递归步骤(2)和步骤(3),不断构造新的孩子节点,直到孩子节点中只有一个数据即无法再继续切割或者孩子节点已达限定高度;
孤立森林由多棵孤立树集成,对于一个待检测数据x,令其遍历每一棵孤立树,计算x在每棵树所处的深度,得到x在孤立森林的平均深度,通过对深度进行归一化获得一个0到1的数值,作为被检测样本的异常分数,定义如下,
h(x)表示待检测样本x在孤立树上的深度,E[h(x)]表示所有孤立树深度的均值,c(ψ)表示ψ个点构建的二叉搜索树的平均长度作为标准项;
在测试样本x遍历孤立树的过程中,由于异常点经历较少的切割次数后即能够进入单一的子空间,即异常点作为叶子结点到根结点的距离要明显小于正常结点,则当样本在孤立树中的深度越小则异常分数越高,反之亦然。
四、为了进一步实施上述技术方案,针对单分类层,如附图4所示,步骤S3中所述的单分类层中的One-Class SVM算法,针对石浦站点表层盐度要素的具体实现方法为:
针对海洋观测数据异常点所占比例极小的特点,One-Class SVM仅使用正常样本数据构建超球面,通过最小化该球体的体积,使得正常样本尽可能在球体内,异常样本尽可能排除在球体外,从而达到两类之间划分的目的;
使用石浦站点从2009年1月15日至2020年6月30日期间表层盐度要素的历史观测资料作为训练数据集,训练单分类层中的One-Class SVM模型;
对于正常的数据样本{x|xi∈Rd,i=1,2,…N},在映射的高维空间内,求出能包含该数据样本最小超球体的中心a和半径Rad,问题转化为求以下优化问题:
s.t.||φ(xi)-c||2-Rad2≤ξi,ξi≥0,i=1,2,...,n
其中,ζi为松弛因子,当ζi>0时对应超球体外的异常数据点,超参数v∈(0,1]调整惩罚项和超球体体积之间的权重,求得该超球体后通过解凸二次优化能够得到球心a和半径Rad;求解所得大部分拉格朗日乘子的系数为零,而对应αi>0的向量则为支持向量,超球体的半径为任何一边界支持向量到球心的距离;在测试时,落在超球体外部的样本,即||Φ(x)-c||2>Rad2,被认为是异常样本。
五、为了进一步实施上述技术方案,针对输出层,如附图5所示,步骤S4中所述综合统计分析层和单分类层的结果做出最终判决的方法,针对石浦站点表层盐度要素的具体实现为:
对于表层盐度要素T时刻待检测点,首先构造三段时间窗口数据XT进入统计分析层,使用3σ检测、EWMA检测和多项式回归检测三种方法分别给出异常检测结果{y1i=0,1|i=1,2,3),其中1表示该方法判定T时刻出现异常,0表示未出现异常;结合统计分析层三种方法的检测结果,即求
Y1为0表示统计分析层所有方法均判定待检测点为正常,可直接判定待检测点最终质控结果为正常,不再进入下一层,结束;而Y1为1表示统计分析层至少一种方法判定待检测点出现疑似异常,需要送入单分类层进行进一步检测;在单分类层,使用预训练好的One-Class SVM模型和孤立森林模型分别给出异常检测结果{y2i=0,1|i=1,2),其中1表示该模型判定T时刻出现异常,0表示未出现异常,结合单分类层两种模型的检测结果,即求
Y2为0表示最终质控结果为正常,结束;Y2为1表示单分类层判定待检测点最终质控结果为异常,结束。
六、为了进一步实施上述技术方案,针对输出层,步骤S4中所述综合评价模型质控准确性的评价指标,针对石浦站点表层盐度要素的具体实现为:
定义观测数据未出现异常的样本为正样本,反之为负样本,对最终异常检测结果分成四类:真正例TP(True Positve)表示真实结果和质控结果均为正常、假正例FP(FalsePositve)表示真实结果为异常而检测结果为正常、真反例TN(True Negative)表示真实结果和质控结果均为异常、假反例FN(False Negative)表示真实结果为正常而检测结果为异常,通过计算准确率、查准率、查全率和F1-score四项指标对四层异常检测模型的性能进行评估;
准确率Accuracy表示模型质控结果与真实结果一致的观测点数目占所有检测点总数的比例,能够体现模型对观测点正确分类的能力;
查准率Precision表示所有模型质控结果为正常的观测点样本中,实际为正常的观测点的比例;查准率越高,说明模型越有把握确定某观测点样本的数据正常,能够体现模型对于负样本的区分能力;
查全率Recall表示所有实际为正常的观测点中,模型正确检测出数据正常的观测点的比例;查全率越高,说明模型倾向于将可能为正的样本预测为正样本,能够体现模型对于正样本的区分能力;
使用查准率和查全率的调和平均作为模型的评价指标F1-Score,F1-Score分数越高,说明模型越稳健;具体计算方法为:
以国内公开海洋观测站点石浦(SPU)从2009年1月15日至2020年6月30日期间的表层盐度要素的历史观测资料作为训练数据集,构造检测样本79089个,对单分类层的孤立森林模型和One-Class SVM模型进行训练;使用该站点从2020年7月1日至2021年6月30日期间的表层盐度要素的历史观测资料作为测试数据集,构造检测样本共8134个,对模型的性能进行评估。
当时间窗口h大小取6,y取1,z取10的参数设置情况下,本发明所公开的基于多模型融合的海洋单要素观测质量控制方法,检测出真正例共5622个,假正例共64个,真反例共2358个,假反例共60个,准确率达到98.11%、查准率达到98.87%、查全率达到98.42%,F1-Score达到98.65%。测试集中前1000个时刻的表层盐度观测数据值如附图6所示,本发明所公开的基于多模型融合的海洋单要素观测质量控制方法判定为异常的数据点用实心圆点进行标记,对于明显偏离的异常数据点,模型可以非常准确的进行识别。
本发明中各个实施例采用递进的方式描述,实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于多模型融合的海洋单要素观测质量控制方法,其特征在于,采用统计分析和单分类算法相结合的四层模型架构,对于海洋站点观测到的某要素历史观测数据的异常进行判决,包括:
S1.第一层为输入层,对于海洋站点某要素历史观测数据,构造由远及近三段时间窗口,提取统计特征、拟合特征和分类特征,构造检测样本;
S2.第二层为统计分析层,利用统计判别算法过滤掉70%以上的正样本,减小异常候选集规模,有效缓解正负样本不平衡带来的影响;
S3.第三层为单分类层,利用单分类模型对疑似异常的观测数据点进一步检测;
S4.第四层为输出层,综合统计分析层和单分类层的检测结果作出最终判决,并对检测效果进行评估;
其中,所述统计判别算法包括3σ检测、EWMA检测和多项式回归检测;单分类模型包括孤立森林和One-class SVM。
2.根据权利要求1所述的一种基于多模型融合的海洋单要素观测质量控制方法,其特征在于,步骤S1所述输入层中构造检测样本的具体方法为:
为了同时从较近和较远的历史数据中提取信息,对每个检测点生成三段时间窗口,分别为:1)包含待检测T时刻前h小时内的历史观测数据;2)y天前同一时刻前h小时和后h小时内的历史观测数据;3)z天前,z>y,同一时刻前h小时和后h小时内的历史观测数据,三段时间窗口组合在一起共同组成T时刻的检测样本;
为了使机器学习模型能够从时间序列中挖掘更多隐含的时间模式关联,需要将检测样本从原始数据空间映射到特征空间,对三段时间窗口组合后的数据,按时间顺序拼接成一个时间序列X,提取统计特征、拟合特征和分类特征;
(1)统计特征:通过提取时间序列X在统计学上的特征构成特征向量,用于描述数据间的离散程度和变化趋势;对于时间序列的统计特征来说分为两类:时间域和频率域;时间域上的特征又分为有量纲的特征和无量纲特征,本发明具体提取的统计特征如下:
(2)拟合特征:通过使用移动平均算法、加权移动平均算法、指数加权移动平均算法和双指数移动加权平均算法共四种算法去拟合现有的时间序列X,所得到的拟合值与实际值的差值作为时间序列的拟合特征;该类特征基于滑动窗口考虑序列整体间的前后关联,假设时间序列滑动窗口长度w,xT表示T时刻的观测值,sT表示T时刻的平滑值,具体提取的拟合特征如下:
1)移动平均(moving average,MA)
滑动窗口内w个数据的未加权平均值,计算公式如下,
2)加权移动平均(weighted moving average,WMA)
计算滑动窗口内w个数据的平均值时将个别数据乘以不同数值,最近的数值乘以w、次近的乘以w-1,如此类推,一直到1,计算公式如下,
3)指数加权移动平均(exponential weighted moving average,EWMA)
指数加权移动平均算法中,各数值的加权系数随时间而呈指数式递减,越近期靠近当前时刻的数据加权系数越大,xT表示T时刻的观测值,系数α表示加权下降的速率,计算公式如下,
4)双指数移动加权平均(double exponential moving average,DEWMA)
双指数移动加权平均算法中,同时对观测值和平滑值进行指数加权移动平均,xT表示T时刻的观测值,sT表示T时刻的平滑值,引入bT表示T时刻的最佳估计值,系数α表示平滑值加权下降的速率,系数β表示平滑值加权下降的速率,进行两次指数移动,计算公式如下,
(3)分类特征:根据时间序列的走势,可将时间序列划分成周期型、平稳型、无规律波动型三类,具体来说,计算自相关系数、离散系数、分桶熵、值分布四项指标,来构造出时间序列的分类特征;
1)自相关系数
将一个时间窗口内的有序时间序列与自身相比较,判断序列中的组成部分相互之间是否存在相关性并用自相关值r表示;自相关值r的计算公式如下,式中n表示时间序列的长度,μ表示时间序列的平均值,σ表示时间序列的标准差,r的取值范围为[-1,1],1为最大正相关值,-1则为最大负相关值,0为不相关,
2)离散系数
离散系数c用于概率分布离散程度的一个归一化量度,定义为一个窗口内时间序列的标准差σ与平均值μ之比,
3)分桶熵
按整个时间序列的取值情况分成max_bins个桶,max_bins分别取2、4、6、8、10和20,把时间序列的每个时间点的取值放进相应的桶中,求熵e;pk表示落在第k个桶中的数占总体的比例,该特征用于衡量样本值分布的均匀度,
4)值分布
对于一个时间序列,首先将数据点按从小到大的顺序进行排序并归一化到0和1之间,以0、0.01、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.99、1.0为间隔划分统计区间,计算每个区间内数据点个数所占数据点总数数的比例,作为值分布特征;
对于某海洋要素是否发生数据异常进行检测,需要为待检测时刻T构造三段时间窗口,具体而言,待检测数据点为xT,y天前同一时刻数据点为yT,z天前同一时刻数据点为zT,假设数据点时间间隔为1小时,时间窗口长度为h小时,T时刻待检测数据点的三段时间窗口数据分别为:
MT=[xT-h,xT-h+1,...,xT]表示待检测时刻所在的窗口数据;
YT=[yT-h,yT-h+1,...,yT,yT+1,...,yT+h]表示待检测时刻y天前的窗口数据;
ZT=[zT-h,zT-h+1,...,zT,zT+1,...,zT+h]表示待检测时刻z天前的窗口数据;
将YT、ZT按时间顺序拼接在MT后,共同构成T时刻的检测样本XT,用于统计分析层的模型检测;对XT分别提取统计特征、拟合特征和分类特征,共同组成XT′作为特征检测样本以表征T时刻待检测数据点的状态信息,用于单分类层的学习。
3.根据权利要求1所述的基于多模型融合的海洋单要素观测质量控制方法,其特征在于,针对所述统计分析层,步骤S2中所述统计判别算法包括3σ检测、EWMA检测、多项式回归检测,具体实现方法为:
1)3σ检测
3σ原则又称为拉依达准则,假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按3倍标准差的范围确定一个区间,认为误差超过这个区间的就属于异常值;规定观测值应满足如下公式,否则认为观测值异常,
vi≤3σ
其中υi和σ分别表示观测值的剩余误差和标准差,定义如下,
式中N表示观测值总数,i表示观测值的序号;
2)EWMA检测
相邻时间段内的数据往往具有相似的变化趋势,能够使用指数权重移动平均方法(Exponentially Weighted Moving-Average,EWMA)来对时间序列进行拟合,而噪音数据将会使曲线发生明显波动,由此推断该点出现了异常;在EWMA中,T时刻数据点的平滑值是由前一时刻的平滑值,加上T时刻的实际值修正而来,如下公式所示,
sT=λ*xT+(1-λ)*sT-1
其中xT表示T时刻的观测值,sT表示T时刻的平滑值,系数λ表示加权下降的速率,对于T时刻的平滑值,每个历史数据的权重是不一样的,随与当前时刻的距离增大而呈指数衰减;
3)多项式回归检测:
将三段时间窗口所有历史数据点作为自变量,检测点数据值作为因变量,依据历史数据建立回归模型,如果预测值与观测值相差大于指定值,则认定为异常;首先对原始的三段时间窗口数据进行多项式扩充,生成含有多项式的特征集合,构造范德蒙德矩阵,生成新特征矩阵的方式是生成每个特征从二次项到最高次项表达式和所有特征项数相加为最高次项的表达式,这样可以表达各个特征在不同次项上的系数;再使用脊回归(RidgeRegression)进行拟合,脊回归是一种改良的最小二乘估计,很好的缓解了输入变量对噪音敏感的问题,对于一个线性模型,在原来的损失函数加入参数的L2范数的惩罚项,其损失函数为如下形式:
式中w表示多项式回归模型中所有特征项的系数参数,yw表示在参数为w时的预测值,y表示实际观测值,a为一个非负的常数,用于控制惩罚项的惩罚力度,a的数值越大,那么正则项,也是惩罚项的作用就越明显;a的数值越小,正则项的作用就越弱。
4.根据权利要求1所述的一种基于多模型融合的海洋单要素观测质量控制方法,其特征在于,针对单分类层,步骤S3所述单分类算法中的孤立森林具体实现方法为:
孤立森林方法中,异常样本被定义为“容易被孤立的离群点”,可以将其看作分布稀疏且离密度高的群体较远的点;与其他算法使用密度或距离的量化指标来刻画样本间的疏离程度不同,孤立森林通过对样本进行孤立来检测异常值;孤立过程通过具有二叉搜索结构的孤立树实现,由于异常样本数目较少且与大部门的正常样本距离较远,将会被更早的孤立出来,即孤立树的根结点距离更近;
由于孤立森林算法不适用于有趋势性变化的数据序列,需要先对数据序列进行分解与重构,分离出趋势项,只保留剩余项,因此,首先使用输入层对待检测点的三段时间窗口数据的提取特征,对于提取到的统计特征、拟合特征和分类特征组成一个向量作为检测样本,样本满足以下条件:
i)异常点所占比例低于5%;
ii)异常样本的数据模式和正常样本有明显区别;
基于集成学习的思想,孤立森林算法对于原始数据集的随机采样获得的每个子数据集构建一棵孤立树,构造过程如下:
(1)从训练数据中随机选择256个点样本作为子数据集,放入树的根节点;
(2)随机指定提取出的某一特征作为用于分割的维度,在当前节点数据中随机产生一个切割点p,切割点产生于当前节点数据中指定维度的最大值和最小值之间;
(3)以此切割点生成了一个超平面,然后将当前节点数据空间划分为左孩子和右孩子两个子空间:把指定维度里面小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
(4)在孩子节点中递归步骤(2)和步骤(3),不断构造新的孩子节点,直到孩子节点中只有一个数据即无法再继续切割或者孩子节点已达限定高度;
孤立森林由多棵孤立树集成,对于一个待检测数据x,令其遍历每一棵孤立树,计算x在每棵树所处的深度,得到x在孤立森林的平均深度,通过对深度进行归一化获得一个0到1的数值,作为被检测样本的异常分数,定义如下,
h(x)表示待检测样本x在孤立树上的深度,E[h(x)]表示所有孤立树深度的均值,c(ψ)表示ψ个点构建的二叉搜索树的平均长度作为标准项;
在测试样本x遍历孤立树的过程中,由于异常点经历较少的切割次数后即能够进入单一的子空间,即异常点作为叶子结点到根结点的距离要明显小于正常结点,则当样本在孤立树中的深度越小则异常分数越高,反之亦然。
5.根据权利要求1所述的一种基于多模型融合的海洋单要素观测质量控制方法,其特征在于,针对单分类层,步骤S3所述单分类算法中的One-Class SVM具体实现方法为:
针对海洋观测数据异常点所占比例极小的特点,One-Class SVM仅使用正常样本数据构建超球面,通过最小化该球体的体积,使得正常样本尽可能在球体内,异常样本尽可能排除在球体外,从而达到两类之间划分的目的;
对于正常的数据样本{x|xi∈Rd,i=1,2,…N},在映射的高维空间内,求出能包含该数据样本最小超球体的中心a和半径Rad,问题转化为求以下优化问题:
s.t.||φ(xi)-c||2-Rad2≤ξi,ξi≥0,i=1,2,…,n
其中,ζi为松弛因子,当ζi>0时对应超球体外的异常数据点,超参数v∈(0,1]调整惩罚项和超球体体积之间的权重,求得该超球体后通过解凸二次优化能够得到球心a和半径Rad;求解所得大部分拉格朗日乘子的系数为零,而对应ai>0的向量则为支持向量,超球体的半径为任何一边界支持向量到球心的距离;在测试时,落在超球体外部的样本,即||Φ(x)-c||2>Rad2,被认为是异常样本。
6.根据权利要求1所述的一种基于多模型融合的海洋单要素观测质量控制方法,其特征在于,针对输出层,步骤S4中综合统计分析层和单分类层的结果做出最终判决的具体实现方法为:
对于T时刻待检测点,首先构造三段时间窗口数据XT进入统计分析层,分别使用3σ检测、EWMA检测和多项式回归检测三种方法分别给出异常检测结果{y1i=0,1|i=1,2,3),其中1表示该方法判定T时刻出现异常,0表示未出现异常;结合统计分析层三种方法的检测结果,即求
Y1为0表示统计分析层所有方法均判定待检测点为正常,可直接判定待检测点最终质控结果为正常,不再进入下一层,结束;而Y1为1表示统计分析层至少一种方法判定待检测点出现疑似异常,需要送入单分类层进行进一步检测;在单分类层,使用预训练好的One-Class SVM模型和孤立森林模型分别给出异常检测结果{y2i=0,1|i=1,2),其中1表示该模型判定T时刻出现异常,0表示未出现异常,结合单分类层两种模型的检测结果,即求
Y2为0表示最终质控结果为正常,结束;Y2为1表示单分类层判定待检测点最终质控结果为异常,结束。
7.根据权利要求1所述的一种基于多模型融合的海洋单要素观测质量控制方法,其特征在于,步骤S4中对所述四层异常检测模型的检测准确度进行评估中,计算评价指标的具体方法为:
定义观测数据未出现异常的样本为正样本,反之为负样本,对最终异常检测结果分成四类:真正例TP(True Positve)表示真实结果和质控结果均为正常、假正例FP(FalsePositve)表示真实结果为异常而检测结果为正常、真反例TN(True Negative)表示真实结果和质控结果均为异常、假反例FN(False Negative)表示真实结果为正常而检测结果为异常,通过计算准确率、查准率、查全率和F1-score四项指标对四层异常检测模型的性能进行评估;
准确率Accuracy表示模型质控结果与真实结果一致的观测点数目占所有检测点总数的比例,能够体现模型对观测点正确分类的能力;
查准率Precision表示所有模型质控结果为正常的观测点样本中,实际为正常的观测点的比例;查准率越高,说明模型越有把握确定某观测点样本的数据正常,能够体现模型对于负样本的区分能力;
查全率Recall表示所有实际为正常的观测点中,模型正确检测出数据正常的观测点的比例;查全率越高,说明模型倾向于将可能为正的样本预测为正样本,能够体现模型对于正样本的区分能力;
使用查准率和查全率的调和平均作为模型的评价指标F1-Score,F1-Score分数越高,说明模型越稳健;具体计算方法为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047484.1A CN113570000A (zh) | 2021-09-08 | 2021-09-08 | 一种基于多模型融合的海洋单要素观测质量控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047484.1A CN113570000A (zh) | 2021-09-08 | 2021-09-08 | 一种基于多模型融合的海洋单要素观测质量控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113570000A true CN113570000A (zh) | 2021-10-29 |
Family
ID=78173692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111047484.1A Pending CN113570000A (zh) | 2021-09-08 | 2021-09-08 | 一种基于多模型融合的海洋单要素观测质量控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113570000A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090413A (zh) * | 2022-01-21 | 2022-02-25 | 成都市以太节点科技有限公司 | 一种系统数据异常检测方法、系统、电子设备及存储介质 |
CN114138620A (zh) * | 2021-11-16 | 2022-03-04 | 苏州浪潮智能科技有限公司 | 一种云平台日志暴增的检测方法、装置、设备、存储介质 |
CN114693110A (zh) * | 2022-03-29 | 2022-07-01 | 杭州安脉盛智能技术有限公司 | 一种储能系统的异常监测方法、系统及存储介质 |
CN114997313A (zh) * | 2022-06-07 | 2022-09-02 | 厦门大学 | 一种海洋在线监测数据的异常检测方法 |
CN115097526A (zh) * | 2022-08-22 | 2022-09-23 | 江苏益捷思信息科技有限公司 | 地震采集资料质量评价方法 |
CN115543973A (zh) * | 2022-09-19 | 2022-12-30 | 北京三维天地科技股份有限公司 | 一种基于知识谱图与机器学习的数据质量规则推荐方法 |
CN115795401A (zh) * | 2023-02-08 | 2023-03-14 | 青岛海洋地质研究所 | 海洋牧场全要素监测传感器多数据融合系统 |
CN115996133A (zh) * | 2022-06-27 | 2023-04-21 | 西安电子科技大学 | 一种工业控制网络行为检测方法以及相关装置 |
CN116400385A (zh) * | 2023-03-21 | 2023-07-07 | 湖北珞珈实验室 | 一种底层大气与电离层耦合异常探测系统及方法 |
WO2024055281A1 (zh) * | 2022-09-16 | 2024-03-21 | 京东方科技集团股份有限公司 | 异常根因分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400126A (zh) * | 2020-02-19 | 2020-07-10 | 中国平安人寿保险股份有限公司 | 网络服务异常数据检测方法、装置、设备和介质 |
CN111507376A (zh) * | 2020-03-20 | 2020-08-07 | 厦门大学 | 一种基于多种无监督方法融合的单指标异常检测方法 |
CN112231174A (zh) * | 2020-09-30 | 2021-01-15 | 中国银联股份有限公司 | 异常告警方法、装置、设备及存储介质 |
CN112613233A (zh) * | 2020-12-18 | 2021-04-06 | 中国环境监测总站 | 基于单分类支持向量机模型发现环境监测异常数据的算法 |
-
2021
- 2021-09-08 CN CN202111047484.1A patent/CN113570000A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400126A (zh) * | 2020-02-19 | 2020-07-10 | 中国平安人寿保险股份有限公司 | 网络服务异常数据检测方法、装置、设备和介质 |
CN111507376A (zh) * | 2020-03-20 | 2020-08-07 | 厦门大学 | 一种基于多种无监督方法融合的单指标异常检测方法 |
CN112231174A (zh) * | 2020-09-30 | 2021-01-15 | 中国银联股份有限公司 | 异常告警方法、装置、设备及存储介质 |
CN112613233A (zh) * | 2020-12-18 | 2021-04-06 | 中国环境监测总站 | 基于单分类支持向量机模型发现环境监测异常数据的算法 |
Non-Patent Citations (1)
Title |
---|
阚敬婷: "CPU利用率时间序列数据的实时监控分析", 《中国优秀硕士学位论文全文数据库》, pages 1 - 41 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114138620A (zh) * | 2021-11-16 | 2022-03-04 | 苏州浪潮智能科技有限公司 | 一种云平台日志暴增的检测方法、装置、设备、存储介质 |
CN114138620B (zh) * | 2021-11-16 | 2024-01-16 | 苏州浪潮智能科技有限公司 | 一种云平台日志暴增的检测方法、装置、设备、存储介质 |
CN114090413A (zh) * | 2022-01-21 | 2022-02-25 | 成都市以太节点科技有限公司 | 一种系统数据异常检测方法、系统、电子设备及存储介质 |
CN114090413B (zh) * | 2022-01-21 | 2022-04-19 | 成都市以太节点科技有限公司 | 一种系统数据异常检测方法、系统、电子设备及存储介质 |
CN114693110A (zh) * | 2022-03-29 | 2022-07-01 | 杭州安脉盛智能技术有限公司 | 一种储能系统的异常监测方法、系统及存储介质 |
CN114997313A (zh) * | 2022-06-07 | 2022-09-02 | 厦门大学 | 一种海洋在线监测数据的异常检测方法 |
CN114997313B (zh) * | 2022-06-07 | 2024-05-07 | 厦门大学 | 一种海洋在线监测数据的异常检测方法 |
CN115996133A (zh) * | 2022-06-27 | 2023-04-21 | 西安电子科技大学 | 一种工业控制网络行为检测方法以及相关装置 |
CN115996133B (zh) * | 2022-06-27 | 2024-04-09 | 西安电子科技大学 | 一种工业控制网络行为检测方法以及相关装置 |
CN115097526B (zh) * | 2022-08-22 | 2022-11-11 | 江苏益捷思信息科技有限公司 | 地震采集资料质量评价方法 |
CN115097526A (zh) * | 2022-08-22 | 2022-09-23 | 江苏益捷思信息科技有限公司 | 地震采集资料质量评价方法 |
WO2024055281A1 (zh) * | 2022-09-16 | 2024-03-21 | 京东方科技集团股份有限公司 | 异常根因分析方法及装置 |
CN115543973A (zh) * | 2022-09-19 | 2022-12-30 | 北京三维天地科技股份有限公司 | 一种基于知识谱图与机器学习的数据质量规则推荐方法 |
CN115543973B (zh) * | 2022-09-19 | 2023-06-13 | 北京三维天地科技股份有限公司 | 一种基于知识谱图与机器学习的数据质量规则推荐方法 |
CN115795401A (zh) * | 2023-02-08 | 2023-03-14 | 青岛海洋地质研究所 | 海洋牧场全要素监测传感器多数据融合系统 |
CN116400385B (zh) * | 2023-03-21 | 2024-01-12 | 湖北珞珈实验室 | 一种底层大气与电离层耦合异常探测系统及方法 |
CN116400385A (zh) * | 2023-03-21 | 2023-07-07 | 湖北珞珈实验室 | 一种底层大气与电离层耦合异常探测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113570000A (zh) | 一种基于多模型融合的海洋单要素观测质量控制方法 | |
CN108509935B (zh) | 一种基于随机森林算法的雷达工作模式识别方法 | |
CN111062508B (zh) | 一种基于大数据技术评估风电机组实时运行状态的方法 | |
CN111797364B (zh) | 一种基于复合云模型的滑坡多层次安全评价方法 | |
CN112506990A (zh) | 一种基于时空信息的水文数据异常检测方法 | |
Bashari et al. | Estimation of deformation modulus of rock masses by using fuzzy clustering-based modeling | |
US20230203925A1 (en) | Porosity prediction method based on selective ensemble learning | |
CN109472088A (zh) | 一种页岩气调产井生产压力动态预测方法 | |
CN113705931B (zh) | 一种利用k最邻近法预测径流要素的方法 | |
CN115470962A (zh) | 一种基于LightGBM的企业失信风险预测模型构建方法 | |
CN115130499A (zh) | 基于振动信号的变工况下轴承保持架打滑率在线测量及预测方法 | |
CN113203953B (zh) | 基于改进型极限学习机的锂电池剩余使用寿命预测方法 | |
CN116432856A (zh) | 基于cnn-glstm模型的管道动态预警方法及装置 | |
CN108764583A (zh) | 森林蓄积量的无偏预估方法 | |
Yu et al. | Design for an SPRT control scheme based on linguistic data | |
CN114239418A (zh) | 基于多种算法组合的滑坡位移预测方法 | |
CN113807587A (zh) | 一种基于多梯核深度神经网络模型积分预警方法以及系统 | |
CN113887049A (zh) | 一种基于机器学习的石油钻井的钻速预测方法及系统 | |
CN113112166A (zh) | 基于灰色模糊层次分析的设备状态变量选择方法及设备 | |
CN112801388A (zh) | 一种基于非线性时间序列算法的电力负荷预测方法及系统 | |
Zhan et al. | Long Short-term Memory modeling method with monotonicity analysis as constraints base on Spearman coefficient | |
CN117764454B (zh) | 一种遗址片状剥离发育程度评价方法 | |
CN117951509B (zh) | 一种矿物组成含量预测方法及预测系统 | |
Shamsuddin et al. | Water Quality Index Classification Based on Machine Learning: A Case from the Langat River Basin Model. Water 2022, 14, 2939 | |
Wang et al. | Filtered Weighted Correction Training Method for Data with Noise Label. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211029 |