CN111352966A

CN111352966A - 一种自主航行中的数据标签标定方法

Info

Publication number: CN111352966A
Application number: CN202010111394.3A
Authority: CN
Inventors: 史世武; 周昱城; 耿雄飞; 李东升; 张宝晨
Original assignee: China Waterborne Transport Research Institute
Current assignee: China Waterborne Transport Research Institute
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-30

Abstract

本发明提供了一种自主航行中的数据标签标定方法，所述方法包括：对于遗漏标签的数据元组，根据数据元组取值的分布情况计算填充值，从而实现数据补齐；对补齐后的数据元组的数据标签，基于集成分类器的过滤方法进行噪声过滤。本发明的方法响应时间小于100ms的标签标定，支持标签滤噪，支持遗漏标签的自动标定。

Description

一种自主航行中的数据标签标定方法

技术领域

本发明涉及数据挖掘领域，具体涉及一种自主航行中的数据标签标定方法。

背景技术

现实系统中的数据由于信息的不充分、编码传递过程中的误差以及标签标定过程中的主观性等因素，使得数据中包含一定比例的噪声。根据噪声在数据中产生的位置，可以将噪声分为属性值噪声与标签噪声。前者是指观测误差仅仅发生在数据的属性值中，后者是指观测误差仅仅发生在数据的标签中。标签噪声给建模带来的影响往往大于属性值噪声。标签噪声可能会增加模型复杂度，降低数据集的利用率，降低分类精度等。

对数据挖掘来说，遗漏标签的存在，造成了以下影响：首先，系统丢失了大量的有用信息；第二，系统中所表现出的不确定性更加显著，系统中蕴涵的确定性成分更难把握；第三，包含空值的数据会使挖掘过程陷入混乱，导致不可靠的输出。

发明内容

本发明的目的在于克服上述技术缺陷，提出了一种自主航行中的数据标签标定方法，对每一条记录进行标签标定，进行滤噪处理，并对遗漏标签进行自动标定。

为实现上述目的，本发明提供了一种自主航行中的数据标签标定方法，所述方法包括：

对于遗漏标签的数据元组，根据数据元组取值的分布情况计算填充值，从而实现数据补齐；

对补齐后的数据元组的数据标签，基于集成分类器的过滤方法进行噪声过滤。

作为上述方法的一种改进，当采用平均值填充法，所述根据数据元组取值的分布情况计算填充值，具体包括：

如果空值是数值型的，根据该属性在其他所有对象的取值的平均值作为填充值；

如果空值是非数值型的，用该属性在其他所有对象的取值次数最多的值作为填充值。

作为上述方法的一种改进，当采用热卡填充法，所述根据数据元组取值的分布情况计算填充值，具体包括：

在完整数据中找到一个与它最相似的对象，然后用这个相似对象的值作为填充值。

作为上述方法的一种改进，当采用K最近距离邻法，所述根据数据元组取值的分布情况计算填充值，具体包括：

根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本值，将这K个样本值加权平均作为填充值。

作为上述方法的一种改进，当采用组合完整化方法，所述根据数据元组取值的分布情况计算填充值，具体包括：

使用空缺属性值的所有可能的属性取值进行试验，并从最终属性的约简结果中选择最好的一个作为填补的属性值，即填充值。

作为上述方法的一种改进，当采用期望值最大化方法，所述根据数据元组取值的分布情况计算填充值，具体包括：

在计算极大似然估计的每一迭代循环过程中交替执行两个步骤：

E步：在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望；

M步：用极大化对数似然函数以确定参数的值，并用于下步的迭代；

在E步和M步之间不断迭代直至收敛，即两次迭代之间的参数变化小于一个预先给定的阈值时结束；

将极大似然估计作为填充值。

作为上述方法的一种改进，当采用多重填补法，所述根据数据元组取值的分布情况计算填充值，具体包括：

每个空值产生一套可能的填补值，这些值反映了无响应模型的不确定性；每个值都被用来填补数据集中的缺失值，产生若干个完整数据集合；

每个填补数据集合都用针对完整数据集的统计方法进行统计分析；

对来自各个填补数据集的结果进行综合，产生最终的统计推断，作为填充值。

作为上述方法的一种改进，所述基于集成分类器的过滤方法，具体包括：

通过集成同质或者异质分类器对数据集中的每一个样本进行基于模型的预测；

根据移除准则将数据集中的噪声数据移除。

作为上述方法的一种改进，所述移除准则包括：多数投票准则与一致性投票准则；所述多数投票准则是指一个样本被大多数分类器分错则该样本就是一个噪声数据；所述一致性投票准则是指所有的分类器都将样本错分才将该样本判定为噪声数据

本发明的优势在于：

本发明的方法响应时间小于100ms的标签标定，支持标签滤噪，支持遗漏标签的自动标定。

具体实施方式

下面对本发明的技术方案进行详细的说明。

本发明提出了一种自主航行中的数据标签标定方法，该方法包括：

步骤2)对于遗漏标签的数据元组，根据数据元组取值的分布情况计算填充值，从而实现数据补齐；

1)删除元组。也就是将存在遗漏标签值的对象(元组，记录)删除，从而得到一个完备的信息表。这种方法简单易行，在对象有多个属性缺失值、被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常有效的，类标号(假设是分类任务)缺少时通常使用。然而，这种方法往往存在局限性。它是以减少历史数据来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息。在信息表中本来包含的对象很少的情况下，删除少量对象就足以严重影响到信息表信息的客观性和结果的正确性；当每个属性空值的百分比变化很大时，它的性能非常差。因此，当遗漏数据所占比例较大，特别当遗漏数据非随机分布时，这种方法可能导致数据发生偏离，从而引出错误的结论。

2)数据补齐。这类方法是用一定的值去填充空值，从而使信息表完备化。通常基于统计学原理，根据决策表中其余对象取值的分布情况来对一个空值进行填充，譬如用其余属性的平均值来进行补充等。常用的有以下几种补齐方法：

(1)特殊值填充(Treating Missing Attribute Values as Special values)将空值作为一种特殊的属性值来处理，它不同于其他的任何属性值，如所有的空值都用“unknown”填充。这样操作简单高效，可能导致严重的数据偏离。

(2)平均值填充(Mean/Mode Completer)将信息表中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的，就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值；如果空值是非数值型的，就根据统计学中的众数原理，用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。另外有一种与其相似的方法为条件平均值填充法(Conditional Mean Completer)。在该方法中，缺失属性值的补齐同样是靠该属性在其他对象中的取值求平均得到，但不同的是用于求平均的值并不是从信息表所有对象中取，而是从与该对象具有相同决策属性值的对象中取得。这两种数据的补齐方法，其基本的出发点都是一样的，以最大概率可能的取值来补充缺失的属性值，只是在具体方法上有一点不同。与其他方法相比，它是用现存数据的多数信息来推测缺失值。

(3)热卡填充(Hot Deck Imputation)对于一个包含空值的对象，热卡填充法在完整数据中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单，且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准，主观因素较多。

(4)K最近距离邻法(K-Means Clustering)先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。

(5)使用所有可能的值填充(Assigning All Possible values of theAttribute)用空缺属性值的所有可能的属性取值来填充，能够得到较好的补齐效果。但是，当数据量很大或者遗漏的属性值较多时，其计算的代价很大，可能的测试方案很多。另有一种方法，填补遗漏属性值的原则是一样的，不同的只是从决策相同的对象中尝试所有的属性值的可能情况，而不是根据信息表中所有对象进行尝试，这样能够在一定程度上减小原方法的代价。

(6)组合完整化方法(Combinatorial Completer)用空缺属性值的所有可能的属性取值来试，并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是以约简为目的的数据补齐方法，能够得到好的约简结果；但是，当数据量很大或者遗漏的属性值较多时，其计算的代价很大。另一种称为条件组合完整化方法(Conditional CombinatorialComplete)，填补遗漏属性值的原则是一样的，不同的只是从决策相同的对象中尝试所有的属性值的可能情况，而不是根据信息表中所有对象进行尝试。条件组合完整化方法能够在一定程度上减小组合完整化方法的代价。在信息表包含不完整数据较多的情况下，可能的测试方案将巨增。

(7)回归(Regression)基于完整的数据集，建立回归方程(模型)。对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计。

(8)期望值最大化方法(Expectation Maximization)在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤：E步(Expectation Step,期望步)，在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望；M步(Maximization Step，极大化步)，用极大化对数似然函数以确定参数的值，并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛，即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。

(9)多重填补(Multiple Imputation)多重填补方法分为三个步骤：

①为每个空值产生一套可能的填补值，这些值反映了无响应模型的不确定性；每个值都被用来填补数据集中的缺失值，产生若干个完整数据集合。

②每个填补数据集合都用针对完整数据集的统计方法进行统计分析。

③对来自各个填补数据集的结果进行综合，产生最终的统计推断，这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本，这样计算出来的统计推断可能受到空缺值的不确定性的影响。

步骤2)对数据标签进行噪声过滤；

噪声鲁棒性建模和基于模型预测的噪声数据过滤方法是处理标签噪声的主要方法。前者主要通过鲁棒性损失、重要性加权、集成方法以及决策树的划分准则等方式来构建鲁棒性模型。许多基于鲁棒性建模的方法在监督学习中对于标签噪声并不是完全鲁棒，其模型的表现性能依然受标签噪声的影响。因此，基于模型预测的噪声数据过滤方法更为常用，它主要通过模型预测的方法对噪声数据进行检测并移除，以达到降低噪声数据对建模影响的目的。基于模型预测的过滤噪声方法主要以单分类器或集成分类器作为具体实现措施。在单分类器的过滤方法中，由于KNN(K-Nearest Neighbor)分类器对于标签噪声比较敏感，尤其在近邻个数取值较小时，因此存在基于KNN的噪声数据的ENN(Edited NearestNeighbor)、ANN(All K-Nearest Neighbor)、CNN(Condensed Nearest Neighbor)等。由于基于近邻规则的过滤方法效率较低而且数据分布对其影响较大，相比之下，集成分类器的应用比较广泛。

基于集成分类器的过滤方法主要是通过集成同质或者异质分类器对数据集中的每一个样本进行基于模型的预测，然后根据移除准则将数据集中的噪声数据移除。常用的移除准则有两种：多数投票准则与一致性投票准则，前者是指一个样本被大多数分类器分错则该样本就是一个噪声数据，后者则需要所有的分类器都将样本错分才将该样本判定为噪声数据。ND-KNN(Noise Detection KNN)是使用同质分类器的集成过滤方法的典型代表，该方法主要利用AdaBoost对噪声的敏感性优势来构建基于不同评价标准的标签噪声过滤方法。因为噪声数据会增加模型的复杂度，所以也出现了一种基于降低模型复杂度的标签噪声过滤方法，如Prune-SF(Prune Saturation Filter)算法是通过决策树节点个数来衡量模型的复杂度，如果移除某一样本点能够降低模型的复杂度，则该样本点就是一个疑似噪声点。此外，还有一些基于主动学习思想以及其类似思想的方法如ALNR(Active LabelNoise Remove)和INNFC(Iterative Noise Filter-based on Fusion of Classifier)，这两种方法主要通过多重过滤机制对标签噪声进行辨别，以此来提高噪声过滤的效果。近期，一些基于噪声数据采样方式的噪声过滤方法被提出，例如PSAM(Probabilistic Sampling)和TWE(Two-stage Ensemble Method for Detection of Class Noise)前者采用概率性采样的方法来增加预测模型的鲁棒性，而后者则采用重采样与集成学习弹性投票的方式来提高模型对于标签噪声的预测效率。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种自主航行中的数据标签标定方法，所述方法包括：

2.根据权利要求1所述的自主航行中的数据标签标定方法，其特征在于，当采用平均值填充法，所述根据数据元组取值的分布情况计算填充值，具体包括：

3.根据权利要求1所述的自主航行中的数据标签标定方法，其特征在于，当采用热卡填充法，所述根据数据元组取值的分布情况计算填充值，具体包括：

4.根据权利要求1所述的自主航行中的数据标签标定方法，其特征在于，当采用K最近距离邻法，所述根据数据元组取值的分布情况计算填充值，具体包括：

5.根据权利要求1所述的自主航行中的数据标签标定方法，其特征在于，当采用组合完整化方法，所述根据数据元组取值的分布情况计算填充值，具体包括：

6.根据权利要求1所述的自主航行中的数据标签标定方法，其特征在于，当采用期望值最大化方法，所述根据数据元组取值的分布情况计算填充值，具体包括：

将极大似然估计作为填充值。

7.根据权利要求1所述的自主航行中的数据标签标定方法，其特征在于，当采用多重填补法，所述根据数据元组取值的分布情况计算填充值，具体包括：

8.根据权利要求1-7之一所述的自主航行中的数据标签标定方法，其特征在于，所述基于集成分类器的过滤方法，具体包括：

根据移除准则将数据集中的噪声数据移除。

9.根据权利要求8所述的自主航行中的数据标签标定方法，其特征在于，所述移除准则包括：多数投票准则与一致性投票准则；所述多数投票准则是指一个样本被大多数分类器分错则该样本就是一个噪声数据；所述一致性投票准则是指所有的分类器都将样本错分才将该样本判定为噪声数据。