CN109284316A

CN109284316A - 基于数据源多维特性的真值发现方法

Info

Publication number: CN109284316A
Application number: CN201811053612.1A
Authority: CN
Inventors: 尹美娟; 郑燕; 刘晓楠; 罗向阳; 罗军勇; 杨文�
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2019-01-29
Anticipated expiration: 2038-09-11
Also published as: CN109284316B

Abstract

本发明属于互联网数据挖掘技术领域，特别涉及一种基于数据源多维特性的真值发现方法，包含：量化对象实体中数据源之间的相关性；迭代：首先依据数据源之间的相关性及数据源准确率，获取每个对象实体中的副本数据并进行舍弃；然后，通过数据源准确率和召回率，推导数据源质量及对象真值；将满足迭代条件推导出的对象真值输出。本发明考虑数据源的准确率、召回率以及数据源之间的关系等多维特性，对数据源之间的关系进行量化表示，可准确识别出副本数据源，以减少副本数据源对融合结果的干扰；基于数据源准确率的基础中加入数据源的召回率，同时排除了副本数据源，推导出的数据源质量以及真值结果更准确，对互联网数据挖掘提取具有重要的指导意义。

Description

基于数据源多维特性的真值发现方法

技术领域

本发明属于互联网数据挖掘技术领域，特别涉及一种基于数据源多维特性的真值发现方法。

背景技术

当前大数据时代，数据融合是数据应用过程中一个重要环节，由于信息过时、遗失、错误等原因，各个数据源提供的信息可能会产生相互不一致的现象。不同数据源可为同一对象实体提供冲突的属性值，从这些冲突属性值中找到真值即为真值发现问题。因此，如何从不一致信息中找出正确信息，即“真值发现”，成为了数据融合的一个挑战。真值发现的过程其最初的策略是投票，即在几个冲突值中，每个数据源可以投一票给它提供的数据值，认为得票数最多的值为正确值，因其不考虑数据源质量，故结果往往会受到不可靠数据源的干扰。后来有一些方法关注了数据源的质量，如基于数据源质量评估的真值发现方法，先估计数据源的可信度，然后赋予高质量的数据源更高的投票权重；基于数据源之间关系的方法，对于存在复制关系的数据源，在使用投票时减少副本提供的票数。但是这些方法只考虑了数据源的准确率，忽略了召回率，且大多没有考虑数据源之间的关系；在少数考虑了数据源之间关系的方法中，又未同时考虑数据源的质量；并且，这些方法不是专门针对数值型属性的真值问题，故融合算法未能很好地利用数值型属性自身的特点。

发明内容

为此，本发明提供一种基于数据源多维特性的真值发现方法，能够有效解决数据融合过程中各个数据源提供的信息不一致的问题，提高互联网数据融合的准确率。

按照本发明所提供的设计方案，一种基于数据源多维特性的真值发现方法，包含如下内容：

量化对象实体中数据源之间的相关性；

迭代：依据数据源之间的相关性及数据源准确率，获取每个对象实体中的副本数据并进行舍弃；通过数据源准确率和召回率，推导数据源质量及对象真值；将满足迭代收敛条件推导出的对象真值输出。

上述的，基于网络分析模型量化对象实体中数据源之间的相关性，网络分析模型中通过超边表示数据源三元组<对象，观测值，数据源>；将数据源三元组作为网络分析模型的输入，输出即为数据源的表示向量。

上述的，将对象实体中数据源观察值的中值作为迭代初始对象真值；依据数据源观测值、对象实体个数及依据上一轮迭代获取的对象真值，计算数据源准确率和召回率；依据数据源准确率，获取同一对象实体上的副本数据并进行舍弃；基于数据源准确率和召回率，迭代推导数据源质量及对象真值，直至满足预设收敛条件，停止迭代，输出最后一轮迭代中获取到的对象真值。

上述的，每个对象实体中的副本数据的获取过程中，首先获取对象实体提供观察值的数据源集合中准确率最高的数据源，并依据相关性将其与其他数据源逐一计算相似度；对每个对象实体对应的数据源集合，将与准确率最高的数据源的相似度大于设定阈值的数据源作为该对象实体的副本数据。

上述的，迭代推导数据源质量及对象真值过程中，基于高斯分布对数据源的准确率与召回率进行建模，利用最大似然估计推导出对象真值。

上述的，迭代推导数据源质量及对象真值过程中，利用最大似然估计推导出对象真值包含如下内容：

数据源观察值为真的观察值率服从高斯分布，获取高斯分布均值及方差，并计算观察值为真的概率，其中，高斯分布均值为对象真值，方差为不提供观察值的数据源的召回率与提高观察值的数据源的准确率的比值；

采用最大似然估计方法获取所有对象真值，使得所有观察值为真的观察值联合概率达到最大；

对每一个对象真值进行求偏导，获取最优解，得到当前迭代的输出对象真值，并判断当前迭代是否满足预设收敛条件，若满足，则停止迭代，输出当前轮迭代中获取到的对象真值，否则，返回，重新计算数据源准确率和召回率，开始新一轮的迭代循环。

上述的，迭代收敛条件为迭代次数达到预设阈值。

本发明的有益效果：

本发明综合考虑数据源的准确率、召回率以及数据源之间的关系等多维特性，对数据源之间的关系进行量化表示，可准确识别出副本数据源，以减少副本数据源对融合结果的干扰；基于数据源准确率的基础中加入数据源的召回率，同时排除了副本数据源，推导出的数据源质量以及真值结果更准确，对互联网数据挖掘提取具有重要的指导意义。

附图说明：

图1为实施例中真值发现方法流程图之一；

图2为实施例中真值发现方法流程图之二；

图3为实施例中真值发现过程示意图；

图4为实施例中数据集观察值分布图。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

针对不一致的数值型数据融合问题，根据数值型数据的特点，以及需要衡量的数据源的多维特性，本发明实施例，参见图1所示，提供一种基于数据源多维特性的真值发现方法，包含如下内容：

量化对象实体中数据源之间的相关性；

通过考虑数据源的准确率、召回率以及数据源之间的关系等多维特性，并对数据源之间的关系进行量化表示，可准确识别出副本数据源，以减少副本数据源对融合结果的干扰；基于数据源准确率的基础中加入数据源的召回率，同时排除了副本数据源，使得推导出的数据源质量以及真值结果更准确。

本发明的再一个实施例中，参见图2和3所示，利用一个基于网络表示学习的网络分析模型DHNE来量化数据源之间的相关性。DHNE模型可以将不可分解的多个节点定义为网络中的一个超边，然后基于网络表示学习的方法找到一个最优的数值型向量去表示网络中的每个节点，该表示向量保存了节点在网络中的结构信息，结构相似的两个节点它们的表示向量之间的相似度越高。本实施例中利用DHNE模型中超边的概念表示真值发现算法中的数据源三元组<对象，观察值，数据源>，将三元组输入到DHNE模型，可以输出每个数据源的表示向量。由DHNE模型得到两个数据源的向量表示x_i和x_j，则两个数据源之间的相似性可表示为：

参见图2所示，实施例中，真值发现方法是一个迭代的过程，需要根据上一步迭代推导出的真值，计算每个数据源的准确率和召回率，作为下一次迭代的输入。其中，数据源准确率：数据源提供的属性值为真的概率，公式可设计如下：

数据源召回率：数据源提供的实体属性值与对象个数的比率，公式可设计如下：

为数据源中正确的观察值的个数,为一个数据源中提供的观察值的个数,num_e为对象实体的个数。实例中，第一次迭代的初始真值为属性观察值的中值。

在同一对象上提供观察值的数据源集合中，找出准确率最高的数据源，将集合中其他数据源与该最高准确率的数据源逐一进行相似度计算；对每个对象对应的数据源集合，将与该集合中准确率最高的数据源的相似度大于阈值的数据源，视为副本数据，直接舍弃。

基于高斯分布对属性真值以及数据源的准确率与召回率进行建模，利用最大似然估计推导出真值。具体包括以下步骤：

(1)基于高斯分布表示观察值为真的概率

观察值为真的概率服从期望为μ、方差为σ²的高斯分布。该高斯分布的均值为真值，方差为不提供该观察值的数据源的召回率和提供该观察值的数据源的准确率的比值。观察值为真的概率计算公式如下：

，其中，该高斯分布的方差为为没有提供该观察值的数据源的召回率，为提供该观察值的数据源的准确率。

(2)计算观察值为真的联合概率

采用最大似然估计的方法找出所有真值，使得所有观察值为真的联合概率达到最大。这里，并且为了方便计算，c为观察值，为第n个对象实体的第m个观察值，使用对数形式，如下：

(3)推导真值

为了得到一个真值分布使得观察值为真的联合概率达到最大，对每一个对象的真值μ求偏导：

偏导在0处为最优解，即此时真值为：

判断是否达到迭代终止条件，若符合收敛条件，则输出对象真值及数据源的准确率和召回率；否则，返回数据源准确率与召回率计算步骤，重新执行。

为了验证方法的有效性，在真实的数据集(City Population Dataset)上对本发明提出的GTFC算法进行实验。数据一共包括2344个数据源在1124个对象上提供的4008个观察值，在这些对象中，只有259个对象被标注了真实的人口数据，该数据集的数据分布如图4所示。最后只保留有标注真值的对象作为输入数据进行实验。实验过程中真值的判定和收敛条件的设置方法如下：由于数值型属性不能直接根据观察值的对错与否，而应根据观察值是否接近真值，来断定是否为真，故在实验过程中将与真值的差值为真值的0.1％的观察值判定为真；迭代的收敛条件应为属性差值和接近于0，实验中将该值设置为小于10^-3。实验对比方法如下表1所示：

表1：实验对比算法

使用数据融合算法常用的三个评价指标准确率、平均绝对误差和均方根误差来评估实验结果。准确率(Precision)，即算法返回的属性值为真的比例。因为不同的数据集对误差的容忍度是不一样的，无法给定具体数值，所以在本申请的实验中，如果算法返回的属性值与标注值的绝对误差小于等于标注值的0.1％就判定为正确。平均绝对误差(MAE)，即对于可计算的数值型数据，用MAE来衡量算法推导的属性真值与标注值的绝对误差的平均值。均方根误差(RMSE)，对于可计算的数值型数据，用RMSE来衡量算法推导的属性真值与标注值的绝对误差的均方根。平均绝对误差与均方差误差可以反映算法推导的属性真值与标注值之间确切的误差，而不仅仅是一个差错比例。GTFC与其他对比算法的实验结果如表2所示：

表2：真值发现算法在数据集上的实验结果

从表2可以看出，本发明提出的GTFC算法及其简化算法GTFR明显优于其他四种对比算法。由于该数据集上许多的对象只有很少的观察值，这让CATD、GTM和Mean等算法的结果准确率偏低。其中，CATD算法重点解决的是出现长尾现象的数据集，但是在本实验数据集上不存在长尾现象，准确率较低，说明该算法仅适用于长尾现象的数据；GTM算法在计算数据源质量的过程中，仅仅考虑其提供的观察值和真值之间的差值，并未考虑召回率等其他因素，并且需要人工设定多个参数，所以准确率也较低；Mean算法的准确率最低，因为Mean算法容易受异常值的影响，使得结果出现较大的偏差。而Median算法由于能很好地解决异常值的干扰问题，故准确率较高。

与GTFC算法相比，其简化算法GTFR，在基于高斯分布迭代推导真值时仅基于数据源的准确率和召回率，而未考虑数据源之间的相关性，因此其结果的准确率、平均误差和均方差误差都略低于GTFC算法。

综上所述，既考虑了数据源召回率以及数据源之间的关系的GTFC算法的准确率远远超过了其他的对比算法，并且在MAE、RMSE两个评价指标上也是最优的。与性能较高的Median算法相比，准确率提高了30％，MAE值只有Median算法的14％，RMSE值只有Median算法的7％。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于数据源多维特性的真值发现方法，其特征在于，包含如下内容：

量化对象实体中数据源之间的相关性；

2.根据权利要求1所述的基于数据源多维特性的真值发现方法，其特征在于，基于网络分析模型量化对象实体中数据源之间的相关性，网络分析模型中通过超边表示数据源三元组<对象，观测值，数据源>；将数据源三元组作为网络分析模型的输入，输出即为数据源的表示向量。

3.根据权利要求1所述的基于数据源多维特性的真值发现方法，其特征在于，将对象实体中数据源观察值的中值作为迭代初始对象真值；依据数据源观测值、对象实体个数及依据上一轮迭代获取的对象真值，计算数据源准确率和召回率；依据数据源准确率，获取同一对象实体上的副本数据并进行舍弃；基于数据源准确率和召回率，迭代推导数据源质量及对象真值，直至满足预设收敛条件，停止迭代，输出最后一轮迭代中获取到的对象真值。

4.根据权利要求1或3所述的基于数据源多维特性的真值发现方法，其特征在于，每个对象实体中的副本数据的获取过程中，首先获取对象实体提供观察值的数据源集合中准确率最高的数据源，并依据相关性将其与其他数据源逐一计算相似度；对每个对象实体对应的数据源集合，将与准确率最高的数据源的相似度大于设定阈值的数据源作为该对象实体的副本数据。

5.根据权利要求3所述的基于数据源多维特性的真值发现方法，其特征在于，迭代推导数据源质量及对象真值过程中，基于高斯分布对数据源的准确率与召回率进行建模，利用最大似然估计推导出对象真值。

6.根据权利要求5所述的基于数据源多维特性的真值发现方法，其特征在于，迭代推导数据源质量及对象真值过程中，利用最大似然估计推导出对象真值包含如下内容：

7.根据权利要求1～6任一项所述的基于数据源多维特性的真值发现方法，其特征在于，迭代收敛条件为迭代次数达到预设阈值。