CN107193863A

CN107193863A - 一种无标记数据的数据质量评估方法

Info

Publication number: CN107193863A
Application number: CN201710212761.7A
Authority: CN
Inventors: 张钢; 毕志升
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-04-01
Filing date: 2017-04-01
Publication date: 2017-09-22

Abstract

本发明提出一种无标记数据的数据质量评估方法，该方法包括数据集归一化、数据集自描述模型的建立和数据集质量评价。其采用深度学习技术建立数据集质量评估模型，对数据集中各个属性之间的内在关系进行挖掘，通过这种内在关系对数据集的质量进行评价，本发明适用于评价不包含目标变量数据集的质量。

Description

一种无标记数据的数据质量评估方法

技术领域

本发明所属的技术领域为机器学习和深度学习领域，具体为一种无标记数据的数据质量评估方法。

背景技术

在数据挖掘和机器学习中，模型的实际效果会受到数据集的质量的影响，一个质量好的数据集用相对简单的模型就可以对其中的规律进行建模，同时也可以减少模型参数调整的工作量和训练过程收敛所需要的代价。数据集的质量受到以下几个因素的影响，一是在采集过程中引入的随机误差，二是主观因素产生的人为错误，三是产生数据的数据源自身的固有误差，四是数据集采集过程的结构性缺陷。例如在数据集采集的过程中由于采集过程的设计缺陷，引入了一些实际上与数据源所描述的规律完全不相关的属性。在进行机器学习模型训练和应用系统的设计时，对所使用的数据集质量进行评估，可以对模型的复杂性和设计规模进行预估，能够对系统的最终效果进行合理的预测。文献“朱付保,徐显景,白庆春等.基于空间自相关性和模糊集的空间数据噪声点检测算法[J].计算机应用与软件,2016,33(3):264-266.DOI:10.3969/j.issn.1000-386x.2016.03.062.”通过引入空间对象的自相关性理论和模糊集理论，提出一种基于空间自相关性和模糊集的空间数据噪声点检测算法。该方法首先运用邻域对象的空间自相关性理论，计算出特定对象与邻域内其他对象的距离，进而将距离以模糊隶属度的概念予以表达，最后通过与该属性的置信水平进行比较，以此来判定噪声数据。该方法通过空间自相关性和模糊集的空间数据噪声点检测算法对数据集中的噪声点进行检测，但无法对数据集的结构性误差进行检测，同时在检测的过程中没有考虑到数据集中各个属性之间的内在关联，因此难以有效的对数据集的质量进行全面的评估。

现有方法的不足之处是：

(1).现有方法多是基于统计学原理对数据集的误差和孤立点进行分析，无法对数据集的结构性误差所引起的数据质量下降进行评估，例如数据集属性的冗余、矛盾等；

(2).现有方法很少考虑数据集的各个属性之间的内在关联，使得无法利用这些数据集潜在的规律去排除由于其它因素引入的误差；

发明内容

本发明旨在克服现有数据集质量评估方法的不足，包括无法对数据集的结构性误差所引起的数据质量下降进行评估、很少考虑数据集的各个属性之间的内在关联等。本发明的特征包括数据集归一化、数据集自描述模型的建立和数据集质量评价，每个过程包含若干个步骤，其特征分别描述如下：

(1).数据集归一化

本发明所面向的是一般的无标记数据集，即数据集仅由数据属性组成，不包含数据样本的分类或目标值字段。本发明所处理的数据有两种类型的字段，一是连续型字段，二是离散型字段。先对这两种类型的字段数据进行归一化：

A.连续型字段的归一化

对于某个连续型字段a_i，在数据集中所有数据样本中，求出a_i的最大值和最小值，分别记为和归一化之后该连续型字段的计算方法为：同时，记录训练数据集所有示例中每个连续型字段的和信息，这些信息将被用于对模型训练好之后未知测试数据的归一化；

B.离散型字段的归一化

对于包含r个可能值的离散型字段，采用哑变量化的方法进行归一化，即把该字段的每一个属性转化为一个包含r个元素的一维行向量，当该属性的值为某个可能值时，一维向量里对应的元素设置为1，其余元素为0，在这个r维向量中，对于每一个数据记录，只能有一个元素为1，其余的均为0，离散属性在哑变量化后，不再进行其它的归一化操作；

(2).数据集自描述模型的建立

数据集自描述模型是一个深度神经网络，输入为原始数据集，输出的维数与原始数据集的维数相同，本步骤通过自描述模型建立数据集中各属性的内在关系。本步骤实现自描述模型的深度神经网络包含全连接层、非线性激活层、随机屏蔽层。数据集自描述模型由若干个依次连接的块和一个输出层组成，每个块由一个全连接层、一个非线性激活层和一个随机屏蔽层组成，下面对上述各种类型的层进行说明：

A.全连接层

全连接层以全连接的方式接受从上一层输出的m维向量，即上层输出的每一个维度均输入到该全连接层的所有维度，设该全连接层的维数为n，则它的输出为：其中p_i为全连接层的第i个输出元素，w_ij为上一层输出向量的第j个元素到全连接层的第i个单元的权值，权值的取值范围为[0,1]，q_j为上一层输出向量的第j个元素的值；

B.非线性激活层

非线性激活层以一对一的方式接受上一层的输出作为输入，即上一层的第i个输出作为该非线性激活层的第i个输入。非线性激活层的每一个输出为输入的sigmoid函数，具体为：其中p_i为非线性激活层的第i个输出元素，q_i为上一层的第i个输出；

C.随机屏蔽层

随机屏蔽层以一对一的方式接受上一层的输出作为输入，即上一层的第i个输出作为该随机屏蔽层的第i个输入。该层随机屏蔽一定数量的输入单元，即使该单元对应的输出单元的输出为0。

D.输出层

输出层与最后一个块的随机屏蔽层全连接，其维数与输入的维数相同。

数据集自描述模型的各个组成块依次进行连接，即前一个块的随机屏蔽层与后一个块的全连接层进行连接。

数据集自描述模型由k个块组成，k是数据集记录条数x和维度数y的函数，具体为k＝[1.5×lg xy]，其中lg为以10为底的对数，[]为取整数。模型中每一个块的全连接层的维数均设置为块数k与数据集维数的乘积。模型中每一个块的随机屏蔽层所屏蔽上一层的输出百分比α为其中θ为一个[0,1]之间的随机数，对于每一个屏蔽层均通过随机过程取得一个确定的θ值。

采用经过步骤(1)归一化后的数据集进行模型训练，模型的输入为经过归一化后的单条数据记录，模型的输出与输入的维数相同。采用标准的误差反向传播学习算法对网络的权值进行调整，调整是根据模型的输入与输出的差异进行。设输入为一个m维向量，则输出同样为一个m维向量，每一维的输出误差用以下函数衡量：其中v_i为模型输出向量的第i维的值，为该输入样本在第i维的原始值。

训练采用多轮的方式进行，在每一轮中，把经过归一化后的数据集中每一个样本依次输入到模型，得到一个输出，通过上述误差函数计算误差，然后再用标准的误差反向传播方法修改模型中的各个权值。模型中的所有权值初始化为区间(0,1)之间的随机数。当总误差的5轮-移动平均值不再下降时，训练结束。

(3).数据集质量评价

数据集质量由以下两种方式在第(2)步所训练好的数据集自描述模型上进行评价：C.数据集扰动

在已归一化的数据集中随机抽取20％的数据样本，为每一个数据样本的每一个维度增加随机扰动误差。

●对于每个连续属性，增加一个均值为0，标准差为0.05的随机误差，若增加随机误差之后该连续属性小于0，则把该属性设置为0；若增加随机误差之后该连续属性大于1，则把该属性设置为1。

●对于每个离散属性，以20％的概率增加随机误差，若发生了需要增加随机误差的事件，则以等概率的方式随机指定其取值范围中的一个值，然后再把该离散属性哑变量化。

把增加误差后的数据样本依次通过第(2)步所训练好的数据集自描述模型，每个输入样本得到一个相同维数的输出向量，记原始数据样本为x，增加随机误差后的数据样本为x^*，x所对应的模型输出为y，x^*所对应的模型输出为y^*，统计所有满足|y-y^*|≤|x-x^*|的数据样本的个数(记为M),M/N表示数据集对误差的容忍度θ，其中N为数据集的样本总数，容忍度越大表明数据集对误差越不敏感，其自身的属性之间的关系可以在一定程度上弥补由于数据采集或预处理时所引入的误差。

D.数据集属性屏蔽

屏蔽的含义是把被选中的属性或属性的集合中的所有属性全部设置为0。按以下两种策略对数据集的属性进行屏蔽：

-单个属性屏蔽

依次屏蔽数据集中的每一个属性，让被屏蔽属性的数据样本依次通过第(2)步训练所得到的网络，得到一个输出向量，对输入向量和输出向量进行比较，分别比较被屏蔽的属性和余下未被屏蔽的属性的差异，记被屏蔽的属性为p，其相对应的输出为p^*，未被屏蔽的属性集合为Q_p，其相对应的输出为则数据集属性的单一属性独立性δ为：

其中M为数据集中属性的总个数。

数据集属性的单一属性独立性δ反映了数据集中某个单一属性独立于其它属性的程度，数值越小，即单个属性可以由其它属性通过某种变换进行表达，表明数据集的单一属性独立性越差。

-随机属性组的屏蔽

以R％的比例有回放的屏蔽数据集中的属性，让被屏蔽属性的数据样本依次通过第(2)步训练所得到的网络，得到一个输出向量，对输入向量和输出向量进行比较，分别比较被屏蔽的属性和余下未被屏蔽的属性的差异，记被屏蔽的属性集合为P，其相对应的输出为P^*，未被屏蔽的属性集合为Q_P，其相对应的输出为则数据集属性的属性组独立性Δ为：

其中W为随机抽取屏蔽属性集P的次数，满足W/3+R＝100。

数据集属性的属性组独立性Δ反映了数据集中某个属性子集独立于余下属性的程度，数值越小，表明存在越大的可能性，使在某个属性子集被屏蔽的情况下，通过余下的属性能够最大限度的还原该属性组，也即该数据集存在一组冗余属性的可能越大。

最后，数据集质量以(θ，δ，Δ)三元组进行衡量，一个质量好的数据集的三者的数值应该大于65％。

具体实施例

下面给出一个实施例，以UCI数据集的Census Income(KDD)Data Set(http:// archive.ics.uci.edu/ml/datasets/Covertype)作为测试数据集，该数据集有样本共581012个，数据集的属性共有54个，为离散属性和连续属性的组合，无缺失值。

(1).数据集预处理

按第5点发明的内容的第(1)小点进行数据集归一化，包括连续属性的归一化和离散属性的哑变量化，由于哑变量化会增加维数，故归一化后数据集的维数变为116。

(2).数据集自描述模型的建立

根据第5点发明的内容的第(2)小点进行，数据集自描述模型的块的个数k＝[1.5×lg(581012*54)]＝11。

随机生成11个θ的数值，并计算对应的α，作为每一个屏蔽层所屏蔽上一层的输出百分比，计算结果见表1。

屏蔽层序号	θ	α
			1	0.8491	24.58％
2	0.9340	23.50％
			3	0.6787	27.08％
4	0.7577	25.86％
			5	0.7431	26.08％
6	0.3922	32.65％
			7	0.6555	27.46％
8	0.1712	38.81％
			9	0.7060	26.64％
10	0.0318	44.05％
			11	0.2769	35.60％

每个块中的全连接层的维数为7*54＝378。

使用MatConvNet(http://www.vlfeat.org/matconvnet/)进行数据集自描述模型的训练，在配置文件中实现上述11*3+2层(11个块，每个块3层，再加上输入和输出层)，把经过归一化后的数据集保存为Matlab数据文件.mat格式，数据集中的所有数据均用于训练，不设验证集和测试集。使用MatConvNet提供的训练脚本cnn_train.m进行训练。模型中的所有权值初始化为区间(0,1)之间的随机数，学习率固定为0.01，当总误差的5轮-移动平均值不再下降时，训练结束。本实施例中，训练82轮后，总误差的5轮-移动平均值为7.23％且不再下降，以最后一轮训练后的系统生成的模型参数.mat文件作为数据集自描述模型。

(3).数据集质量评价

在已归一化的数据集中随机抽取20％的数据样本，为每一个数据样本的每一个维度增加随机扰动误差。按照发明内容的第3点计算容忍度θ。此步骤重复20次，即进行20次随机数据样本的抽取，把得到的容忍度θ的20个数值进行平均，所得值为最终的容忍度，经过计算，本实施例中数据集的容忍度θ为81.24％。

按照发明内容第3点计算单一属性独立性δ，其值为66.71％。

按照发明内容第3点计算数据集属性的属性组独立性Δ，按W＝225，R＝25进行，经过计算可得，Δ的值为64.09％。

可知实施例中的数据集的数据质量为(81.24％,66.71％,64.09％)，其某个属性组合有轻微依赖于其余属性组，总体上说适合于机器学习模型的训练。

Claims

1.一种无标记数据的数据质量评估方法，其特征在于，所述数据质量评估方法包括数据集归一化、数据集自描述模型的建立和数据集质量评价，其中所述数据集仅由数据属性组成而不包含数据样本的分类或目标值字段。

2.如权利要求1所述的数据质量评估方法，其特征在于，所述的数据集归一化具体包括，

A.连续型字段的归一化：

B.离散型字段的归一化：

对于包含r个可能值的离散型字段，采用哑变量化的方法进行归一化，即把该字段的每一个属性转化为一个包含r个元素的一维行向量，当该属性的值为某个可能值时，一维向量里对应的元素设置为1，其余元素为0，在这个r维向量中，对于每一个数据记录，只能有一个元素为1，其余的均为0，离散属性在哑变量化后，不再进行其它的归一化操作。

3.如权利要求2所述的数据质量评估方法，其特征在于，所述的数据集自描述模型的建立具体包括，

所述数据集自描述模型是一个深度神经网络，其输入为原始数据集，输出的维数与原始数据集的维数相同，并且所述数据集自描述模型由若干个依次连接的块和一个输出层组成，每个块由一个全连接层、一个非线性激活层和一个随机屏蔽层组成，

其中，

全连接层为：

全连接层以全连接的方式接受从上一层输出的m维向量，即上层输出的每一个维度均输入到该全连接层的所有维度，该全连接层的维数为n，其输出为：其中p_i为全连接层的第i个输出元素，w_ij为上一层输出向量的第j个元素到全连接层的第i个单元的权值，权值的取值范围为[0,1]，q_j为上一层输出向量的第j个元素的值；非线性激活层为：

非线性激活层以一对一的方式接受上一层的输出作为输入，即上一层的第i个输出作为该非线性激活层的第i个输入；非线性激活层的每一个输出为输入的sigmoid函数，具体为：其中p_i为非线性激活层的第i个输出元素，q_i为上一层的第i个输出；

其中随机屏蔽层为：

随机屏蔽层以一对一的方式接受上一层的输出作为输入，即上一层的第i个输出作为该随机屏蔽层的第i个输入。该层随机屏蔽一定数量的输入单元，即使该单元对应的输出单元的输出为0；

其中输出层为：

输出层与最后一个块的随机屏蔽层全连接，其维数与输入的维数相同；

并且，所述数据集自描述模型的各个组成块依次进行连接，即前一个块的随机屏蔽层与后一个块的全连接层进行连接。

4.如权利要求3所述的数据质量评估方法，其特征在于，所述数据集自描述模型由k个块组成，k是数据集记录条数x和维度数y的函数，具体为k＝[1.5×lg xy]，其中lg为以10为底的对数，[]为取整数。模型中每一个块的全连接层的维数均设置为块数k与数据集维数的乘积；模型中每一个块的随机屏蔽层所屏蔽上一层的输出百分比α为其中θ为一个[0,1]之间的随机数，对于每一个屏蔽层均通过随机过程取得一个确定的θ值；

采用经过归一化后的数据集进行模型训练，模型的输入为经过归一化后的单条数据记录，模型的输出与输入的维数相同；采用标准的误差反向传播学习算法对网络的权值进行调整，调整是根据模型的输入与输出的差异进行；设输入为一个m维向量，则输出同样为一个m维向量，每一维的输出误差用以下函数衡量：其中v_i为模型输出向量的第i维的值，为该输入样本在第i维的原始值；

训练采用多轮的方式进行，在每一轮中，把经过归一化后的数据集中每一个样本依次输入到模型，得到一个输出，通过上述误差函数计算误差，然后再用标准的误差反向传播方法修改模型中的各个权值。模型中的所有权值初始化为区间(0,1)之间的随机数；当总误差的5轮-移动平均值不再下降时，训练结束。

5.如权利要求4所述的数据质量评估方法，其特征在于，所述的数据集质量评价具体包括，

数据集质量由以下两种方式在训练好的数据集自描述模型上进行评价：

A.数据集扰动

在已归一化的数据集中随机抽取20％的数据样本，为每一个数据样本的每一个维度增加随机扰动误差；

对于每个连续属性，增加一个均值为0，标准差为0.05的随机误差，若增加随机误差之后该连续属性小于0，则把该属性设置为0；若增加随机误差之后该连续属性大于1，则把该属性设置为1；

对于每个离散属性，以20％的概率增加随机误差，若发生了需要增加随机误差的事件，则以等概率的方式随机指定其取值范围中的一个值，然后再把该离散属性哑变量化。

把增加误差后的数据样本依次通过训练好的数据集自描述模型，每个输入样本得到一个相同维数的输出向量，记原始数据样本为x，增加随机误差后的数据样本为x^*，x所对应的模型输出为y，x^*所对应的模型输出为y^*，统计所有满足|y-y^*|≤|x-x^*|的数据样本的个数并除以数据集的样本总数以获得数据集对误差的容忍度θ，容忍度越大表明数据集对误差越不敏感，其自身的属性之间的关系可以在一定程度上弥补由于数据采集或预处理时所引入的误差；

B.数据集属性屏蔽

所述屏蔽指把被选中的属性或属性的集合中的所有属性全部设置为0；按以下两种策略对数据集的属性进行屏蔽：

a单个属性屏蔽

依次屏蔽数据集中的每一个属性，让被屏蔽属性的数据样本依次通过训练好的数据集自描述模型，得到一个输出向量，对输入向量和输出向量进行比较，分别比较被屏蔽的属性和余下未被屏蔽的属性的差异，记被屏蔽的属性为p，其相对应的输出为p^*，未被屏蔽的属性集合为Q_p，其相对应的输出为则数据集属性的单一属性独立性δ为：

其中M为数据集中属性的总个数；

数据集属性的单一属性独立性δ反映了数据集中某个单一属性独立于其它属性的程度，数值越小，即单个属性可以由其它属性通过某种变换进行表达，表明数据集的单一属性独立性越差；

b随机属性组的屏蔽

以R％的比例有回放的屏蔽数据集中的属性，让被屏蔽属性的数据样本依次通过训练好的数据集自描述模型，得到一个输出向量，对输入向量和输出向量进行比较，分别比较被屏蔽的属性和余下未被屏蔽的属性的差异，记被屏蔽的属性集合为P，其相对应的输出为P^*，未被屏蔽的属性集合为Q_P，其相对应的输出为则数据集属性的属性组独立性Δ为：

其中W为随机抽取屏蔽属性集P的次数，满足W/3+R＝100。

6.如权利要求5所述的数据质量评估方法，其特征在于，其还包括，数据集质量以(θ，δ，Δ)三元组进行衡量。