CN116304941A - 一种基于多模型组合的海洋数据质量控制方法及装置 - Google Patents

一种基于多模型组合的海洋数据质量控制方法及装置 Download PDF

Info

Publication number
CN116304941A
CN116304941A CN202310226282.6A CN202310226282A CN116304941A CN 116304941 A CN116304941 A CN 116304941A CN 202310226282 A CN202310226282 A CN 202310226282A CN 116304941 A CN116304941 A CN 116304941A
Authority
CN
China
Prior art keywords
data
model
quality control
training
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310226282.6A
Other languages
English (en)
Inventor
宋巍
谢京容
张贵庆
张文博
张明华
郭伟其
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ocean University
Original Assignee
Shanghai Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ocean University filed Critical Shanghai Ocean University
Priority to CN202310226282.6A priority Critical patent/CN116304941A/zh
Publication of CN116304941A publication Critical patent/CN116304941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于多模型组合的海洋数据质量控制方法及装置,所述方法包括:构建数据集,并对数据集中的数据进行处理,将数据集训练数据集和测试数据集;对多种类型的基分类器进行实验和选择,将分类结果进行对比分析并选取效果好的基分类模型;采用自学习下采样的数据采样方法对基分类模型进行训练,并使用基分类模型对数据质量进行初步控制,得到一级标识结果;采用Stacking算法构建融合决策,构建多模型组合的海洋数据质量控制模型,得到最终的数据质量控制结果;利用训练数据集训练所述多模型组合的质控模型,利用测试数据集对训练好的质控模型进行测试。本发明可提高异常数据的检测能力。

Description

一种基于多模型组合的海洋数据质量控制方法及装置
技术领域
本发明涉及海洋数据处理技术领域,具体地,涉及一种基于多模型组合的海洋数据质量控制方法及装置。
背景技术
数据质量控制定义为采用一定资料处理方法、模型和参数,判断资料质量可靠性与准确性,并进行质量标识的处理过程。传统的海洋数据资料质量控制方法有范围检测、尖峰检测、相关性检测、等值检测、传感器漂移检测等,这些传统方法依赖阈值的选择,因此准确率会比较低。同时,面对海量的数据,这其中所消耗的人力、物力、财力等也比较大。
海洋数据资料的质量控制对不同海域气象和水文条件较为敏感。传统质量控制方法主要针对全球大范围,由一系列基于阈值的测试构成,但是不同区域的水文气象条件不同,阈值参数的选取对质量控制结果影响很大。目前,国内外海洋资料的质控机构关注使用机器学习等方法来解决这一问题,从而提升质控的精度和普适性。但是,以数据驱动的机器学习方法对数据依赖度高,样本类别极端不平衡情况下,模型易过拟合,同时,大部分方法关注质控准确率,对“坏”数据识别为“好”数据带来的负面代价重视不够。此外,现有技术也缺乏基于机器学习应用到海洋要素数据集上的完整框架方法。
发明内容
针对现有技术中的缺陷,本发明的目的在于提供一种可提高异常数据的检测能力的基于多模型组合的海洋数据质量控制方法及装置。
为解决上述问题,本发明的技术方案为:
一种基于多模型组合的海洋数据质量控制方法,包括以下步骤:
构建数据集,并对数据集中的数据进行处理,将数据集训练数据集和测试数据集;
对多种类型的基分类器进行实验和选择,将分类结果进行对比分析并选取效果好的基分类模型;
采用自学习下采样的数据采样方法对基分类模型进行训练,并使用基分类模型对数据质量进行初步控制,得到一级标识结果;
采用Stacking算法构建融合决策,构建多模型组合的海洋数据质量控制模型,得到最终的数据质量控制结果;
利用训练数据集训练所述多模型组合的质控模型,利用测试数据集对训练好的质控模型进行测试。
优选地,所述构建数据集,并对数据集中的数据进行处理,将数据集训练数据集和测试数据集的步骤具体包括:
以带有质控符的历史数据构建数据集,将文本类质量标签转换为数值型,正确数据标记为1,错误数据标记为0;
对数据时间属性进行拆分,只保留月、日、时三个特征;
对数据进行特征工程处理,对需要质控的数据特征计算其梯度和尖峰;
所有数据经过归一化处理以便用于机器学习模型训练。
优选地,所述梯度值计算公式为:
Figure BDA0004118563960000021
所述尖峰值计算公式为:
Figure BDA0004118563960000022
式中,Vi表示第i个要素的值,Vi+1、Vi-1分别表示其上下两个要素的值,GI和Si分别代表第i个要素的梯度和尖峰。
优选地,所述对多种类型的基分类器进行实验和选择,将分类结果进行对比分析并选取效果好的基分类模型的步骤具体包括:对KNN模型、SVM模型、MLP模型、决策树模型、朴素贝叶斯模型、随机森林模型、XGBoost模型、LightGBM模型进行对比实验,保留决策树模型、随机森林模型、XGBoost、LightGBM作为基分类模型。
优选地,所述采用自学习下采样的数据采样方法对基分类模型进行训练,并使用基分类模型对数据质量进行初步控制,得到一级标识结果的步骤具体包括:对于任一分类器f,初始分类器f0采用随机采样方式得到的数据集进行训练,通过自学习数据下采样的方式对分类器进行迭代训练,迭代次数为n,将大样本的子集N分为k个数据块,第l个子块表示为Bl,定义为:
Figure BDA0004118563960000023
计算第l个子块的平均贡献硬度:
Figure BDA0004118563960000024
更新自学习系数α:
α=ta n(iπ/2n)
计算第l个子块的非归一化采样权重:
Figure BDA0004118563960000031
从第l个子块下采样的样本量为:
Figure BDA0004118563960000032
使用下采样得到的数据子集对fi进行训练,更新分类器:
Figure BDA0004118563960000033
迭代次数为n,输出最终训练好的分类器F。
优选地,所述采用Stacking算法构建融合决策,构建多模型组合的海洋数据质量控制模型,得到最终的数据质量控制结果的步骤具体包括:采用Stacking算法构建融合决策,所述Stacking算法第一层由多个异构的基分类模型作为质量标签的初级预测模型,得到伪海洋数据质量预测结果;第二层,由多组伪海洋数据质量预测结果构成向量,作为元学习器的输入,由元学习器判别后得到最终海洋数据质量标签预测结果,并给出相应的质量控制标识符。
优选地,所述利用训练数据集训练所述多模型组合的质控模型,利用测试数据集对训练好的质控模型进行测试的步骤具体包括:利用带质量控制标签的训练数据集对整体模型进行训练;利用测试数据集对训练好的质控模型进行测试,将模型预测的质量标签与真实质量标签进行对比,计算评价指标。
优选地,所述评价指标包括精确率、召回率以及F1-score,F1-score是精确率和召回率两个指标的综合体现,其中精确率的计算公式为:
Figure BDA0004118563960000034
召回率的计算公式为:
Figure DA00041185639656807629
Figure BDA0004118563960000036
F1-score的计算公式为:
Figure BDA0004118563960000037
进一步地,本发明还提供一种基于多模型组合的海洋数据质量控制装置,所述装置包括处理器以及用于存储所述处理器的可执行指令的存储器,所述处理器配置为经由执行所述可执行指令来执行如上所述的基于多模型组合的海洋数据质量控制方法。
与现有技术相比,本发明通过选择多种常见分类算法应用在海洋数据质量控制上,将分类结果进行对比分析,选取效果较好的基分类模型,采用自学习下采样数据采样方法训练基分类模型,对数据质量进行一级标识;再采用Stacking方法构建融合决策,对数据质量进行最终标识,本发明方法提高了海洋异常数据的检测能力。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的基于多模型组合的海洋数据质量控制方法流程框图;
图2为本发明实施例提供的基于多模型组合的海洋数据质量控制模型框架结构示意图;
图3为本发明实施例提供的在Test1上的测试结果图;
图4为本发明实施例提供的在Test2上的测试结果图;
图5为本发明实施例提供的在Test3上的测试结果图;
图6为本发明实施例提供的在Test4上的测试结果图;
图7为本发明实施例提供的基学习器与多模型组合方法的“坏”数据召回率结果对比图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
具体地,本发明提供一种基于多模型组合的海洋数据质量控制方法,如图1所示,所述方法包括以下步骤:
S1:构建数据集,并对数据集中的数据进行处理,将数据集训练数据集和测试数据集;
具体地,数据集采用由国家海洋信息中心的提供的海洋水文要素数据资料,包含2021-2022年3月的数据内容。每个月份含500000-1000000条不等数据,包括四个维度的数据:气温数据、风向、风速数据、海面气压数据以及海表温度数据。该数据资料已经过传统质控方法进行了自动质量控制及人工检查,每条记录后提供了相应的质量标签,通过计算机处理,将文本类质量标签转换为数值型,正确数据标记为1,错误数据标记为0,由此,海洋数据质量控制分析便可以看作是二分类问题。
实验原始数据样本共包含5个属性,分别为时间,纬度,经度,要素值以及要素值质控符。数据预处理部分主要对部分属性的数据进行拆分、数据变化情况评估以及欠采样解决数据的不平衡问题。数据拆分主要将时间进行拆分为月份(month)、日(day)及小时(hour)。
数据变化情况评估参考2021年Argo质量控制手册,计算了每个海表温度的梯度(Gradient)及其尖峰(Spike),梯度值用来评估测量值周围的变化率,尖峰值主要用来检测一些极端变化的数据,将相邻要素值的变化情况纳入判断标准。
梯度值计算公式如下式(1)所示:
Figure BDA0004118563960000051
尖峰值计算公式如下式(2)所示:
Figure BDA0004118563960000052
式中,Vi表示第i个要素的值,Vi+1、Vi-1分别表示其上下两个要素的值,GI和Si分别代表第i个要素的梯度和尖峰。
同时,考虑到不同季节的温度不同,对海表面温度数据也会造成一定的影响,所以训练集从2021年4月、6月、9月以及2022年1月的海表温度数据中抽取,分别代表春、夏、秋、冬四个季节。为了消除随机的因素,从以上四个月的原始数据集中进行了3次随机抽取,且限制好坏样本量的比例为20:1,最终获得三个训练集Train1,Train2,Train3,每个训练集包含210000条数据(200000条正确数据,10000条错误数据)。
测试集没有做样本不均衡的处理,保持真实海洋环境中海温资料的不均衡性,分别以春夏秋冬为代表各抽取50000条数据。为了使实验结果更具有说服力,2021年4月和2021年9月的数据是随即抽取得到的,而2021年6月和2022年1月则是选择了原始数据集中的前50000条数据。这些数据集的平衡比例都是不确定的。记为test1-4,其平衡比例分布如下表1所示,所有数据经过归一化处理以便用于机器学习模型训练。
Figure BDA0004118563960000053
表1
S2:对多种类型的基分类器进行实验和选择,将分类结果进行对比分析并选取效果好的基分类模型;
基分类器筛选:为了使集成方法能够比任何构成它的单独的方法更准确,基学习器必须尽可能的准确和多样,因此,对多种类型的分类器进行了实验和选择。
设由已知海洋观测数据构成的训练数据值X={(xi,ci)|i=1,2,…,N},其中xi∈R1×l是有l个特征值的观测数据样本向量,ci∈[0,1]是该样本对应的质量控制符类别(1为正常,0为异常)。Y={y1,y2,…ym}为质量待检测数据集。将质量控制看成分类任务,使用X训练机器学习分类模型,对其能对Y的数据质量进行判别。
(1)KNN算法
KNN算法即K最邻近法,是一种有监督学习算法。对于分类问题,其核心思想是,对于某个待检测的未知类型样本,根据一定的距离度量,在已知类型数据中找出与之在特征空间中最相近的K个样本,根据K个样本的大多数类别归属,判定该未知样本所属的类别。模型中最常使用的距离是欧氏距离。
(2)SVM
支持向量机(supportvector machines,SVM)是一种二分类模型。基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的学习算法就是求解凸二次规划的最优化算法。
(3)MLP
多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,ArtificialNeural Network)。神经网络解决分类问题的基本思路是将特征值传入隐层中,通过带有标签的数据来训练神经网络的参数权重与偏置,使输出值与原标签一致,则可以用来预测新的输入值。最典型的MLP包括三层:输入层,隐层和输出层。第一层称为输入层,最后一层称为输出层,中间的层称为隐层,MLP神经网络不同层之间是全连接的(即上一层的任意一个神经元与下一层的所有神经元都有连接),它并没有限制隐层的数量,对于输出层神经元的个数也没有限制,可以根据各自的需求选择合适的隐层层数。
(4)朴素贝叶斯
朴素贝叶斯分类器是一系列以假设特征之间强独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。
(5)决策树
决策树是一种基于树结构形式来进行决策的有监督学习算法。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。叶结点对应于决策结果,每个内部结点对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果划分到子结点中,根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定的测试序列。决策树学习的目的是产生一棵泛化能力强,即处理未见示例能力强的决策树。
(6)随机森林
随机森林算法(RF)是一种机器学习集成算法,主要用于分类问题。随机森林是由很多决策树构成的,不同决策树之间没有关联。
构造随机森林的步骤如下:
一个样本容量为X的样本,有放回的抽取N次,每次抽取1个,得到N个样本。该N个样本用来训练一个决策树,作为决策树根节点处的样本。
设每个样本有M个属性,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m<<M。并从这m个属性中采用信息增益等策略选择1个属性作为该节点的分裂属性。
决策树形成过程中每个节点都要按照步骤2来分裂,直到不能够再分裂为止。
重复步骤1~3建立大量的决策树,构成随机森林。
设Di为不同的决策树,在进行海洋数据的质量控制任务时,可以将其看作是分类问题,每当有新的观测数据样本X进入,就让森林内的每一棵决策树Di分别进行判断和分类,每个决策树会得到一个自己的分类结果,通过投票的方式得到随机森林最终的分类结果。
(7)XGBoost
XGBoost属于梯度提升决策树(Gradient Boosting Decision Tree,GDBT)的一种,是加法模型和前向优化算法。给定海洋观测数据值X。GDBT先用训练集X和其标签真值训练一棵树Ki,用这棵树在训练集上预测得到预测值
Figure BDA0004118563960000071
由于预测值和真实值之间存在残差,训练第二棵树时,使用残差作为真值再进行训练,以此类推,训练第k棵树。预测新样本时,将每棵树的输出值相加即为最终分类得到的结果。即可以学习到一个包含K个树的加法模型:
Figure BDA0004118563960000072
XGBoost兼顾了线性模型求解器和决策树,将多个决策树组合,形成一个准确率较高的分类模型。
(8)LightBGM
LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,属于XGBoost的一个变种,它和XGBoost算法的主要区别在于其使用了基于直方图算法加速训练过程,减少内存消耗,并采用带深度限制的Leaf-wise的叶子生长策略。
基分类模型筛选:对基于距离的模型(KNN)、基于支持向量的模型(SVM)、基于神经网络的模型(MLP)、基于熵的模型(决策树)、基于概率的模型(朴素贝叶斯)、基于Bagging和Boosting两类集成学习的模型(RF、XGBoost、LightGBM)进行了对比实验,保留其中准确率和召回率较高的模型决策树、随机森林模型(RF)、XGBoost、LightGBM作为基分类模型。
S3:采用自学习下采样的数据采样方法对基分类模型进行训练,并使用基分类模型对数据质量进行初步控制,得到一级标识结果;
具体地,在本实施例中,将自学习下采样(Self-paced under-sampling)应用于对海洋数量质量标识基分类模型的训练,以减小数据类别极度不平衡问题的影响。
设训练数据集D,包含类别为1(即大样本)的子集为N,类别为0(即小样本)的子集为P。定义分类硬度函数H为分类器的样本分类误差函数,本例中用交叉熵计算;假设F是一个训练好的分类器,则样本(x,y)相对于F的分类硬度可表示为函数H(x,y,F)。
对于任一分类器f,初始分类器f0采用随机采样方式得到的数据集进行训练,然后自学习数据下采样的方式对分类器进行迭代训练,迭代次数为n,具体步骤如下:
将大样本的子集N分为k个数据块,第l个子块表示为Bl,定义为:
Figure BDA0004118563960000081
计算第l个子块的平均贡献硬度:
Figure BDA0004118563960000082
更新自学习系数α:
α=ta n(iπ/2n) (6)
计算第l个子块的非归一化采样权重:
Figure BDA0004118563960000083
从第l个子块下采样的样本量为:
Figure BDA0004118563960000091
使用下采样得到的数据子集对fi进行训练。
更新分类器:
Figure BDA0004118563960000092
重复以上步骤n次,输出最终训练好的分类器F。
S4:采用Stacking算法构建融合决策,构建多模型组合的海洋数据质量控制模型,得到最终的数据质量控制结果;
具体地,如图2所示,所述基于多模型组合的海洋数据质量控制模型采用两层堆叠(Stacking)框架的结构,第一层由多个异构的基学习器作为质量标签的初级预测模型,得到伪海洋数据质量预测结果;第二层,由多组伪海洋数据质量预测结果构成向量,作为元学习器的输入,由元学习器判别后得到最终海洋数据质量标签预测结果,并给出相应的质量控制标识符。
在应对海洋数据质量控制问题时,将质量控制符标记过程简化为二分类问题。许多分类算法都可以取得了不错的二分类效果,但是考虑到融合多个机器学习模型往往可以提高整体的预测能力。Stacking法是一种集合多个基分类器分类结果的策略,Stacking算法一般有两层,第一层主要是用原始数据训练多个基学习器,这些基学习器一般都是异构的,这可以保证模型拥有较好的拟合性。第二层再将多个基学习器的分类结果组合作为新的输入放入元学习器进行学习,第二层的分类结果被视为最终的输出结果。选择泛化能力较强的RF模型作为元学习器,用于调整第一层算法结果的偏置情况并防止过拟合情况的出现。
S5:利用训练数据集训练所述多模型组合的质控模型,利用测试数据集对训练好的质控模型进行测试。
具体地,利用带质量控制标签的训练数据集对整体模型进行训练;利用测试数据集对训练好的质控模型进行测试,将模型预测的质量标签与真实质量标签进行对比,计算评价指标。
1、评价指标
在具体的海洋数据质量控制方面,错误数据能否被找出来是更具有研究价值的,错误数据被当作正确数据使用的代价要比正确数据被标记为错误的代价更大,因此将问题数据的准确检测作为分类评价的标准更具有实际意义。设置评价指标,重点关注“0-坏”样本的识别精度,根据模型预测结果与数据质量标签真值的混淆矩阵,计算精确率(Precision)和召回率(Recall),以及F1-score作为模型的评价指标。F1-score是精确率和召回率两个指标的综合体现。Precision和Recall相比,应该更加关注Recall这个指标,它反映了坏样本被漏检的情况,值越大说明漏检率越低。
各评价指标的计算公式如下:
Figure BDA0004118563960000101
Figure BDA0004118563960000102
Figure BDA0004118563960000103
2、实验结果分析与讨论
2.1基学习器筛选
为了避免不同数据集和不同基学习器之间分类效果差异性的影响,首先使用单个模型在三个随机抽取组成的训练集上进行训练和测试,训练集和测试集的比例为8:2,在三个训练集上进行多次重复实验,比较多次实验结果相近,多次实验结果均值如下表2所示:
模型 Precision Recall F1score
KNN 0.9059 0.8795 0.8925
SVM 0.9641 0.1079 0.1941
MLP 0.7523 0.7776 0.7674
朴素贝叶斯 0.1873 0.2309 0.2068
随机森林 0.9962 0.9267 0.9602
决策树 0.9578 0.9463 0.9520
XGBoost 0.9945 0.9588 0.9747
LightGBM 0.9817 0.9423 0.9616
表2
从表2中可以看出,几种基学习器的分类结果都呈现了几乎一样的趋势,XGBoost的召回率和F1分数都是最高的,精确率都是随机森林效果最好。SVM、KNN、MLP和朴素贝叶斯算法的分类效果较差,几项评价指标的结果都相对较低,并且SVM和MLP模型训练时间较长。
根据上述分析结果,多模型组合的海洋数据质量控制方法中,第一级基分类器不使用SVM、KNN、MLP和朴素贝叶斯这四种分类器。
2.2融合方法选择
在多种融合方法中,Stacking倾向于减小偏置,能很好地缓解弱学习器高偏置问题,因此在基于多模型组合的海洋数据质量控制方法中选择Stacking作为融合集成方法。本实施例中使用决策树、RF、XGBoost、LightGBM作为第一层的基学习器,第二层选择泛化能力较强的RF模型,用于调整第一层算法结果的偏置情况并防止过拟合情况的出现。
2.3质量控制结果
为了进一步比较几种基学习器算法和融合算法的分类效果,分别在4组不同的测试集(Test 1、Test2、Test3、Test4)上进行了性能测试。对问题数据(“坏”)检测的评价结果如图3、4、5、6所示。
由图3-6中结果可知,就精确率而言,随机森林得到的精度最高,但召回率相对偏低,也就是说,该方法预测出来的正类(“好”)样本较多。最关心的召回率指标的最高值均出现在经Stacking后组合模型里,这证实了模型集成融合的方法得到的分类结果要好于单个模型的分类结果。
综合所有测试集数据,多模型组合方法对“坏”数据的总体召回率为96.2%,方法较为可靠,如图7所示。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (9)

1.一种基于多模型组合的海洋数据质量控制方法,其特征在于,所述方法包括以下步骤:
构建数据集,并对数据集中的数据进行处理,将数据集划分为训练数据集和测试数据集;
对多种类型的基分类器进行实验和选择,将分类结果进行对比分析并选取效果好的基分类模型;
采用自学习下采样的数据采样方法对基分类模型进行训练,并使用基分类模型对数据质量进行初步控制,得到一级标识结果;
采用Stacking算法构建融合决策,构建多模型组合的海洋数据质量控制模型,得到最终的数据质量控制结果;
利用训练数据集训练所述多模型组合的质控模型,利用测试数据集对训练好的质控模型进行测试。
2.根据权利要求1所述的基于多模型组合的海洋数据质量控制方法,其特征在于,所述构建数据集,并对数据集中的数据进行处理,将数据集训练数据集和测试数据集的步骤具体包括:
以带有质控符的历史数据构建数据集,将文本类质量标签转换为数值型,正确数据标记为1,错误数据标记为0;
对数据时间属性进行拆分,只保留月、日、时三个特征;
对数据进行特征工程处理,对需要质控的数据特征计算其梯度和尖峰;
所有数据经过归一化处理以便用于机器学习模型训练。
3.根据权利要求2所述的基于多模型组合的海洋数据质量控制方法,其特征在于,所述梯度值计算公式为:
Figure FDA0004118563950000011
所述尖峰值计算公式为:
Figure FDA0004118563950000012
式中,Vi表示第i个要素的值,Vi+1、Vi-1分别表示其上下两个要素的值,GI和Si分别代表第i个要素的梯度和尖峰。
4.根据权利要求1所述的基于多模型组合的海洋数据质量控制方法,其特征在于,所述对多种类型的基分类器进行实验和选择,将分类结果进行对比分析并选取效果好的基分类模型的步骤具体包括:对KNN模型、SVM模型、MLP模型、决策树模型、朴素贝叶斯模型、随机森林模型、XGBoost模型、LightGBM模型进行对比实验,保留决策树模型、随机森林模型、XGBoost、LightGBM作为基分类模型。
5.根据权利要求1所述的基于多模型组合的海洋数据质量控制方法,其特征在于,所述采用自学习下采样的数据采样方法对基分类模型进行训练,并使用基分类模型对数据质量进行初步控制,得到一级标识结果的步骤具体包括:对于任一分类器f,初始分类器f0采用随机采样方式得到的数据集进行训练,通过自学习数据下采样的方式对分类器进行迭代训练,迭代次数为n,将大样本的子集N分为k个数据块,第l个子块表示为Bl,定义为:
Figure FDA0004118563950000021
计算第l个子块的平均贡献硬度:
Figure FDA0004118563950000022
更新自学习系数α:
α=tan(iπ/2n)
计算第l个子块的非归一化采样权重:
Figure FDA0004118563950000023
从第l个子块下采样的样本量为:
Figure FDA0004118563950000024
使用下采样得到的数据子集对fi进行训练,更新分类器:
Figure FDA0004118563950000025
迭代次数为n,输出最终训练好的分类器F。
6.根据权利要求1所述的基于多模型组合的海洋数据质量控制方法,其特征在于,所述采用Stacking算法构建融合决策,构建多模型组合的海洋数据质量控制模型,得到最终的数据质量控制结果的步骤具体包括:采用Stacking算法构建融合决策,所述Stacking算法第一层由多个异构的基分类模型作为质量标签的初级预测模型,得到伪海洋数据质量预测结果;第二层,由多组伪海洋数据质量预测结果构成向量,作为元学习器的输入,由元学习器判别后得到最终海洋数据质量标签预测结果,并给出相应的质量控制标识符。
7.根据权利要求1所述的基于多模型组合的海洋数据质量控制方法,其特征在于,所述利用训练数据集训练所述多模型组合的质控模型,利用测试数据集对训练好的质控模型进行测试的步骤具体包括:利用带质量控制标签的训练数据集对整体模型进行训练;利用测试数据集对训练好的质控模型进行测试,将模型预测的质量标签与真实质量标签进行对比,计算评价指标。
8.根据权利要求7所述的基于多模型组合的海洋数据质量控制方法,其特征在于,所述评价指标包括精确率、召回率以及F1-score,F1-score是精确率和召回率两个指标的综合体现,其中精确率的计算公式为:
Figure FDA0004118563950000031
召回率的计算公式为:
Figure FDA0004118563950000032
F1-score的计算公式为:
Figure FDA0004118563950000033
9.一种基于多模型组合的海洋数据质量控制装置,其特征在于,所述装置包括处理器以及用于存储所述处理器的可执行指令的存储器,所述处理器配置为经由执行所述可执行指令来执行如权利要求1至8中任意一项所述的基于多模型组合的海洋数据质量控制方法。
CN202310226282.6A 2023-03-09 2023-03-09 一种基于多模型组合的海洋数据质量控制方法及装置 Pending CN116304941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310226282.6A CN116304941A (zh) 2023-03-09 2023-03-09 一种基于多模型组合的海洋数据质量控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310226282.6A CN116304941A (zh) 2023-03-09 2023-03-09 一种基于多模型组合的海洋数据质量控制方法及装置

Publications (1)

Publication Number Publication Date
CN116304941A true CN116304941A (zh) 2023-06-23

Family

ID=86821830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310226282.6A Pending CN116304941A (zh) 2023-03-09 2023-03-09 一种基于多模型组合的海洋数据质量控制方法及装置

Country Status (1)

Country Link
CN (1) CN116304941A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150232A (zh) * 2023-10-27 2023-12-01 南京邮电大学 一种大模型非时序训练数据质量评价方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150232A (zh) * 2023-10-27 2023-12-01 南京邮电大学 一种大模型非时序训练数据质量评价方法
CN117150232B (zh) * 2023-10-27 2024-02-06 南京邮电大学 一种大模型非时序训练数据质量评价方法

Similar Documents

Publication Publication Date Title
CN108023876B (zh) 基于可持续性集成学习的入侵检测方法及入侵检测系统
Torres et al. Learning to see: Convolutional neural networks for the analysis of social science data
Cheraghi et al. Application of machine learning techniques for selecting the most suitable enhanced oil recovery method; challenges and opportunities
CN109117883B (zh) 基于长短时记忆网络的sar影像海冰分类方法及系统
CN110940523B (zh) 一种无监督域适应故障诊断方法
CN113657561B (zh) 一种基于多任务解耦学习的半监督夜间图像分类方法
CN111353373A (zh) 一种相关对齐域适应故障诊断方法
CN112418395B (zh) 一种基于生成对抗网络的气体传感器阵列漂移补偿方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
Shang et al. A hybrid method for traffic incident detection using random forest-recursive feature elimination and long short-term memory network with Bayesian optimization algorithm
CN116051479A (zh) 融合跨域迁移和异常检测的纺织品缺陷识别方法
CN115470962A (zh) 一种基于LightGBM的企业失信风险预测模型构建方法
CN112183652A (zh) 一种联邦机器学习环境下的边缘端偏见检测方法
CN115797694A (zh) 基于多尺度孪生神经网络的显示面板微缺陷分类方法
CN116304941A (zh) 一种基于多模型组合的海洋数据质量控制方法及装置
CN116307103A (zh) 一种基于硬参数共享多任务学习的交通事故预测方法
CN117153268A (zh) 一种细胞类别确定方法及系统
CN113095229B (zh) 一种无监督域自适应行人重识别系统及方法
CN110717602A (zh) 一种基于噪音数据的机器学习模型鲁棒性评估方法
Liu et al. A novel deep framework for change detection of multi-source heterogeneous images
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN115604025B (zh) 一种基于pli4da的网络入侵检测方法
CN114943290B (zh) 一种基于多源数据融合分析的生物入侵识别方法
CN116383747A (zh) 基于多时间尺度深度卷积生成对抗网络的异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination