CN111708816A

CN111708816A - 一种基于贝叶斯模型的多真值冲突消解方法

Info

Publication number: CN111708816A
Application number: CN202010414102.3A
Authority: CN
Inventors: 魏笔凡; 邓婷; 刘均; 郑庆华; 卜德蕊; 郝子琛; 郭敏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-25
Anticipated expiration: 2040-05-15
Also published as: CN111708816B

Abstract

本发明公开了一种基于贝叶斯模型的多真值冲突消解方法，通过分析书籍和电影数据并生成基本数据集D_raw，将基本数据集D_raw重新转换成一个事实数据集D_f，然后进一步生成一个声明数据集D_c，采用基于吉布斯采样的方法进行数据源先验可信度评估；得到数据源先验可靠性，将该数据源先验值作为每个数据源的初始化值，基于数据源在不同领域显示出不同的专业知识程度，一个领域中数据丰富度较高，将丰富度度量转化为基于距离的度量，度量数据源及其提供数据的对象之间的相似性；在最后的贝叶斯推断中将数据源与对象的相似性和真值的置信度作为影响真值推断的因素考虑进去，最后输出真值数据集D_t，进行数据源先验可信度估计，能提高真值推断的效率和准确度。

Description

一种基于贝叶斯模型的多真值冲突消解方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于贝叶斯模型的多真值冲突消解方法。

背景技术

在信息时代，不同数据源提供的同一实体的属性值可能存在冲突。因此，从这些可能相互冲突的信息中识别或生成正确答案是一项非常重要的任务。这项任务最重要的挑战是估计数据源的可靠性和选择高质量答案。目前，最简单和最直接的策略之一是进行多数投票表决，选出提供最多的答案作为正确答案。然而，这种简单的策略没有考虑数据源的可靠性差异。正确的数据可能被一堆恶意数据源提供的错误数据所掩盖。而且，这种策略倾向于提供最“值得信赖”的策略。当只有一个正确答案时，例如一个正确或错误的问题的答案，是可以接受的。然而，如果有多个正确答案。例如，对于一本书的作者来说，这种简单的方法可能会导致大量的正确答案被省略。

已有许多研究提出了在同时估计数据源质量的情况下得到正确答案的方法，同时也有一些研究将数据源的可靠性看作是进行真值推理时数据源可靠性的总和。为了更好地估计数据源的可靠性，一些工作还将数据源的一些特征或属性集成到真值推理中。

尽管真值发现问题已经进行了大量研究，然而大多数研究集中在单真值发现问题，多真值发现问题的研究相对较少。生活中很多应用场景中也存在多真值的情况，如一本书有多个作者、一部电影有多个导演等。针对多真值发现问题，Zhao等人首次提出可以处理多真值的概率图模型LTM，通过LTM联合推导对象描述值的置信度和数据源可信度，然而该模型假设数据源的准确率和召回率服从某一特定分布-Beta分布，但若真实的数据集不满足该分布的话，则最终效果会受到很大影响。Wang等人分析多真值发现问题的特点，将数据源对描述值置信度的影响和数据源的复制检测技术添加到贝叶斯模型中，进而提升真值发现的准确率。然而，上述方法没有考虑对象某个属性的属性中的不同表现形式，忽略了值之间的相似关系对真值的影响。现实中同一个值可能会有多种不同的表现形式，例如，“BeiJing”和“Bei Jing city”很可能是同一个真值的不同表现形式，许多错误的值可能是由于数据不完整或缺少某些部分造成的，并不是完全错误的，因此它们可以用来提高真值的置信度，从而提升真值发现的准确率。

现有技术的缺陷和不足：

在多真值冲突消解中，数据源的权重分配是数据源的可信度估计的重要依据，也是真值计算过程中的关键性步骤。因此，数据源权重的初始化对真值发现模型的真值计算效率和准确性起着重要性作用。由于，真值发现方法大多都依赖于数据源之间相互独立这一假设。于是对所有数据源进行统一分配权重具有很高的可行性。然而，真实的场景通常不总这样，因为存在部分数据源可能复制其他数据源的信息，或者提供过时的信息。如今，人们将真值发现应用到具有挑战性的任务中，如信息提取和知识图谱的构建。在这些具有挑战性的任务中，大多数资源都可能是不可靠的。最近，一些相关研究者的工作是采用预定义统一的数据源召回率和特异性，但是该方法忽略了数据源自身的可靠性差异，还有一些是从训练数据集中数据源召回率和特异性，但这需要监督学习的支持。

影响最终多真值可信度计算的因素很多，由于数据源在特定领域中的数据丰富度被证明是该领域中数据源质量估计的一个很好的先验信念，所以不考虑数据源在不同属性分类中的存在可靠性差异，而为数据源分配统一的可靠性是不公平的。没有一个数据源被承诺在不同的领域展示相同的可靠性，从大规模数据中构造训练数据集是相当重要的，但是多真值推断通常是在无监督的情况下进行的。在这种情况下，从一开始就不可能了解不同领域中每个数据源的质量，没有一个数据源可以保证提供100％准确的信息。真值很大程度上依赖于数据源的可靠性，而真值推断结果很容易被恶意数据源歪曲。所以，目前对多真值发现的研究还非常薄弱。因此，设计有效的多真值冲突消解方法，成为了一个亟待解决的问题。

发明内容

本发明的目的在于提供一种基于贝叶斯模型的多真值冲突消解方法，识别了数据源质量统一初始化的不足，采用基于吉布斯采样的方法进行数据源先验可信度评估，数据源为对象提供声明时可能会对不同的对象显示不同的可靠性，利用数据源与对象的相似性度量来解决此问题。

为了实现上述目的，本发明采用的技术方案是，一种基于贝叶斯模型的多真值冲突消解方法，包括以下步骤：

步骤100，从网上获取WEB数据集，并对WEB数据集清洗与处理，得到由三元组<数据源、对象、对象属性的值>组成的初始数据集D_raw；

步骤200，在分析步骤100得到WEB数据集的初始数据集D_raw的数据后，对单真值和多真值冲突消解中数据源质量的评估标准分析，确定针对多真值冲突问题中数据源质量的评估标准；

步骤300，基于步骤200中所得数据源质量的评估标准，生成步骤100所得初始数据集D_raw中数据源先验可信度，即所述数据源召回率和特异性的集合；

步骤301，将步骤100所得初始数据集D_raw转换成一个事实数据集D_f，然后生成一个声明数据集D_c，以确定数据源是否提供事实数据集D_f中的事实，根据声明数据集D_c中各数据源提供的数据总数进行初始化数据源混淆矩阵；

步骤302，基于步骤301得到的数据源混淆矩阵，采用基于吉布斯采样的方法进行数据源先验可信度评估，得到初始数据集D_raw中的数据源先验可信度召回率和特异性的集合；

步骤400，基于步骤300得到数据源先验可信度，利用贝叶斯模型推断真值，最后输出消解了冲突值的真值数据集D_t，具体如下：

步骤401，采用基于三维空间距离的方法对数据源和对象之间的相似性建模，得到数据源和对象的距离dist(S，O)。

步骤402，在多真值推断中，生成多真值的置信度得分g_s(v)。

步骤403，基于步骤401生成的数据源与对象之间的相似性和步骤402所得多真值的置信度得分，将这两个因素集成到贝叶斯模型推断中进行多真值的推断，生成消解了冲突的真值数据集D_t。

步骤100中，基于数据集中的数据，按照不同数据源为同一对象的属性提供的不同值进行整体分析，得到每一个对象的属性值的集合。

步骤100对数据集进行预处理具体包括以下步骤：

步骤101，通过对数据集进行分析，有的属性值的信息不冲突，因本文研究的是信息冲突的情况，删除所有不冲突的数据，生成一个数据集，只保留数据源提供的冲突值集；

步骤102，针对Movie数据集，爬取“Country”属性作为其扩展属性，对于对象所有的属性，进行一致性的处理。

步骤103，删除只有一个数据源提供的信息，对数据集中作者属性的名字进行过滤数字和乱码，得到最后的初始数据集D_raw并存储在本地数据库中。

步骤300中，采用基于吉布斯采样的方法进行数据源先验可靠性评估，生成数据源质量指标召回率和特异性，具体包括以下步骤：

步骤301，数据源质量用两种不同的独立指标来衡量：召回率和特异性，为每个数据源创建两个独立的质量指标，将关于数据源先验的信念或假设与数据源结合起来初始化其混淆矩阵；

步骤302，基于步骤301得到的数据源混淆矩阵，声明数据集D_c中的数据由三个部分组成：事实、数据源以及观察的布尔值，声明数据集D_c中观察的布尔值取决于事实和提供观察的布尔值的数据源，声明数据集D_c中观察的布尔值设为随机变量；将数据源的召回率和特异性的平均值对数据源进行先验权威性排名。

步骤401中，数据源与对象的相似性度量具体如下：

步骤4011，领域划分，对于可以直接将分类值作为领域划分间隔的属性，直接进行划分，针对数值类属性采用预定义区间数及动态调整间隔大小的方法进行领域划分；

步骤4012，基于步骤4011划分好属性的领域，对每个领域d中的每个数据源S计算数据源领域百分比因子，表示为P_d(S)，P_d(S)是数据源S提供的数据量占领域d中的总数据量的百分比，P_d(S)的公式如下：

其中|O^d(S)|表示数据源S在领域d中提供的对象集的大小，根据每个数据源的P_d(S)，数据源领域专家r_d(S)通过以下公式：

其中α是一个预先定义的调整因子，用于强调和区分域d中的百分比差异，本数据集中α取1；

步骤4013，将数据源和对象进行向量表示，数据源S的数据源向量是维数元素为r_d(S)的向量，表示为Rd_S，其形式为：

对象O的对象向量是维数元素为0和1的向量，表示为Rd_O，1表示该对象与领域d_i关联，0表示该对象与域d_i不关联。Rd_O形式为：

利用欧式距离

对数据源和对象进行相似度计算。

步骤402中，对部分排除进行建模有两个方面：针对数据源声明的值之间的内部排斥，二是不同数据源声明的值之间的内部排斥；置信度通过以下公式进行计算：

其中V(o)是对象O的声明值集，V_s(o)是数据源提供的值，其中

且V_s(o)中值的置信得分之和为1，希望v∈V_s(o)和

之间存在置信差。

步骤403中，值为真的概率

通过以下公式计算：

其中，σ(v)为值得先验准确度，

既依赖于支持和反对的数据源，支持的数据源表示为

反对的数据源表示为

公式如下所示：

其中

为数据源的先验质量指标召回率，

为数据源的先验质量指标特异性，dist(S，O)为数据源和对象相似性距离，g_s(v)是真值的置信度得分，得到值为真的概率，当

时，值为真，将该值添加到真值数据集D_t中，反之则舍弃该值。

与现有技术相比，本发明至少具有以下有益效果：

本发明在WEB数据集的基础上，通过分析单真值和多真值冲突在数据源可信度评估方面的区别，确定了针对本文多真值冲突消解问题的数据源质量评估标准，即数据源的召回率和特异性，本发明在数据源先验可信度初始化方面，识别了统一初始化的不足，并提出了一种与数据源相关事实数量的数据源可靠性初始化方法，根据吉布斯采样算法进行数据源先验可信度估计，能提高真值推断的效率和准确度；

本发明所述方法考虑到对象与数据源相似度的问题；结合领域专家知识，获得面向对象的数据源质量，作为数据源选择的度量指标，将数据源和真值可信度两个因素集成到多真值推断中，利用图形概率建模和贝叶斯方法来融合数据源与对象的相似性和初始化，在没有任何监督的情况下发现可能的多个真值。

附图说明

图1是本发明多真值冲突消解框架图。

图2a是对于数字属性“Released year”进行领域分离前示意图。

图2b对于数字属性“Released year”进行领域分离后示意图。

图3某一数据源和对象在空间距离的矢量图。

图4是声明值之间内部排斥与声明数量的关系。

图5是声明值与未声明值间相互排斥的关系。

图6是数据源先验质量与最终的数据源质量结果对比结果图。

具体实施方式

本发明提供一种基于贝叶斯模型的多真值冲突消解方法，通过识别数据源统一初始化的不足，在真值推断前先对数据源进行先验可信度评估，再将该值代入真值推断中，可以提高后续真值推断的效率和准确度，减少迭代次数，在进行多真值推断中将数据源与对象的相似性和多真值的置信度得分两个因素添加到真值推断模型中，得到真值；还能通过真值的分布情况计算数据源的可信度。多真值冲突消解框架图如图1所示。

本发明是通过以下技术方案实现的：

一种基于贝叶斯模型的多真值冲突消解方法，包括如下步骤：

步骤100中，基于书籍和电影数据集中的数据，按照不同数据源为同一对象的属性提供的不同值进行整体分析，得到每一个对象的属性值的集合，表1展示了数据集Movie的初始数据集D_raw，由表中可以看出该数据集中只保留了某一个对象冲突的数据，并且对属性信息的名称进行了统一；

具体包括以下步骤：

步骤101，通过对数据源提供的对象属性值的声明，删除所有不冲突的数据，以生成一个数据集，其中只有数据源提供的冲突值集；

步骤102，针对Movie数据集，爬取“Country”属性作为其扩展属性。对于对象所有的属性，进行一致性的处理。例如：数据集Movie中的“genres”属性，由于某些提供的“genres”值具有某些相似的含义，但解释不同，故统一了“genres”的表现形式，数据集Book采用类似的处理方法；

步骤103，删除只有一个数据源提供的信息并进行过滤噪声和统一名称，得到最后的初始数据集D_raw并存储在本地数据库中。

表1预处理后的数据集Movie的部分初始数据集D_raw

MID	Title	Year	Source	Director
					10	FollowFriday	2016	imdb	Micho Rutare
10	FollowFriday	2016	letterboxd	none
					17	NotAlone	2017	imdb	Sotiris Petridis
17	NotAlone	2017	imdb	Dimitris Tsakaleas
					17	NotAlone	2017	letterboxd	Sotiris Petridis

步骤300中，在步骤200分析所述初始数据集D_raw的基础上，采用基于吉布斯采样的方法进行数据源先验可靠性评估,生成数据源质量指标召回率和特异性，表2显示数据集Movie中生成的数据源的质量并对其进行排名；

具体包括以下步骤：

步骤301，数据源质量是用两种不同的独立指标来衡量的：召回率和特异性；为每个数据源创建了两个独立的质量指标。假设大多数数据源倾向于提供正确的值是合理的，导致每个数据源的高特异性，数据源通常有一些先验的信念或假设，应该将这些假设与数据源结合起来，利用数据源这种性质来初始化其混淆矩阵；

步骤302，基于步骤301得到的数据源混淆矩阵，同时考虑到对象属性观察值的分布，声明数据集D_c中的数据由三个部分组成：事实、数据源、观察的布尔值，声明的观察值取决于事实和数据源。具体来说，如果事实为真，高召回率的数据源提供的值更有可能是为真，低召回率的数据源提供的值更有可能是为假，同时，如果事实为假，高特异性的数据源提供的值更有可能是为假，低特异性的数据源提供的值更有可能是为真。因此将声明的观察值建模为随机变量，取决于事实和提供该值的数据源。一旦声明的观察值结果可用，就有可能回去推断数据源质量，该输出的数据源质量即为数据源的先验可靠性，其中高召回率和高特异的数据源意味着数据源的更具有权威性，召回率高意味着往往不会错过真值，特异性高意味着往往不涉及错误的值，因此将数据源的召回率和特异性的平均值对数据源进行先验权威性排名。

表2生成的数据集Movie的数据源先验可信度

步骤400所述进行多真值推断中主要包含两个因素：数据源与对象的相似性和多真值的置信度得分；

步骤401中，数据源与对象的相似性建模具体如下：

步骤4011，对于分类属性来说，领域分离是微不足道的，比如书的分类和电影的发布国家，将分类值作为分类领域，但对于书的价格属性、电影的发布年份属性等数字数据，情况却不尽相同，选择一个好的分离标准将这些数据包含在相似性度量中，对于一个属性，一个直观的分离是将这些数值分割成不同的区间以形成领域，根据需要将区间数设置为一些预定义的数字，关于间隔的大小，希望根据属性的情况动态调整间隔的数量，不需要预定义的间隔大小；选择将相同数量的数据分布到属性的不同领域的间隔大小；这种领域选择保持了数据量的均匀分布，较好地表现了数据源的领域内不均匀性，图2a和图2b展示了对于数字属性“Released year”进行领域分离的过程展示；

步骤4012，基于步骤3011划分好的属性的领域，为每个领域d中的每个数据源S计算领域百分比，表示为P_d(S)；P_d(S)是数据源S提供的数据量占领域d中的总数据量的百分比，P_d(S)通过以下公式计算：

其中P_d(S)是数据源S提供的数据量占领域d中的总数据量的百分比，|O^d(S)|表示数据源S在领域d中为提供的对象集的大小，一旦检索到每个源的P_d(S)，就可以开始评估源域专业知识，关注两个方面：一是P_d(S)在计算r_d(S)时的作用，期望单调性，即较高的P_d(S)对应于较大的r_d(S)，反之亦然，另一个是P_d(S)的分布信息，如果数据源所在一个领域中的百分比相同，则P_d(S)有或多或少的无用性，如果一个领域中的数据源之间存在很大的百分比差异，倾向于放大这种影响；考虑到上述因素，通过P_d(S)，来评估数据源领域专家r_d(S)：

其中r_d(S)表示数据源领域专家得分，α是一个预先定义的调整因子，用于强调和区分域d中的百分比差异，本发明的数据集中α取1；

对象O的对象向量是维数元素为0和1的向量，表示为Rd_o。维度上的1表示该对象与领域d_i关联，维度上的0表示该对象与域d_i不关联；Rd_o形式为：

利用欧式距离

对数据源和对象进行相似度计算，如果数据源和对象之间的相似性很高，意味着数据源提供了更多与对象相似的对象，则倾向于对该对象更具权威性，图3展示的某一数据源和对象在空间距离的矢量图。

步骤402中，在多真值推理中，冲突的值不再是单一真值的相互排斥，但是它们在一定程度上仍然是对立的，对部分排除进行建模考虑两个方面：一是数据源声明的值之间的内部排斥，二是不同数据源声明的值之间的内部排斥；对于第一个方面，一个直观的做法是根据数据源改变给定值的置信度，如果一个数据源为一个对象声明了大量的值，则倾向于降低所提供的值对于这个数据源的可信度；如果一个数据源为一个对象声明了少量的值，则倾向于提高所声明的值对于这个数据源的可信度。对于另一方面，如果一个数据源没有提供的值是由另一个数据源提供的，则该数据源仍然部分支持该值。设V(o)是对象o的声明值集，V_s(o)是数据源提供的值，为声明值和未声明值分配置信度，置信度通过以下公式进行计算：

其中

且V_s(o)中值的置信得分之和为1，希望v∈V_s(o)和

之间存在一些置信差，图4展示的是声明值之间内部排斥与声明数量的关系，当声明数量增加，真值置信度得分下降，声明值间内部排斥的增加。图5展示的是声明值与未声明值间相互排斥的关系，当声明数量增加，真值置信分数比降低，声明值和未声明值间相互排斥的降低。

步骤403中，根据步骤401生成的数据源与对象之间的相似性和步骤402多真值的置信度得分，将这两个因素集成到贝叶斯推断中进行多真值的推断，为了推断真值，需要计算值为真的概率

其中，σ(v)为值的先验准确度，

既依赖于支持和反对他的数据源，支持它的数据源表示为

反对它的数据源表示为

公式如下所示：

其中

为数据源的先验质量指标召回率，

为数据源的先验质量指标特异性，dist(S，O)为数据源和对象相似性距离，g_s(v)是真值的置信度得分，由此得到值为真的概率，当

时，值为真，将该值添加到真值数据集D_t中，反之则舍弃该值，最终得到消解了冲突值的真值数据集D_t。

另外，本发明在得到真值后，通过真值的分布，进行数据源质量—指标召回率和特异性的计算，具体计算召回率和特异性的公式如下：

其中τ^rec(s)′为数据源的召回率，TP为数据源提供的值在实际中是正确的计数，FN为数据源未提供的值在实际中是正确的计数。

其中τ^sp(s)′为数据源的特异性，FP为数据源提供的值在实际中是错误的计数，即假阳性，TN为数据源未提供的值在实际中是错误的计数。

通过以上步骤100到步骤400，可以得到不同数据源为同一对象的属性提供属性值的真值数据集D_t；另外本发明还根据真值的分布得到数据源的质量，即数据源的召回率和特异性；最终的数据源可信度及其排名参考表3，表4显示的是数据源先验质量与最终的数据源质量结果对比，图6是对应的折线图，由图6可以看出，数据源的召回率几乎没有什么区别，但是数据源先验的特异性往往比最终的质量偏高。由真值的准确度可以看出，最终的数据源质量更接近数据源实际的质量。

表3

表4

本发明提出相似感知真值推理模型进行多真值的推断，考虑到对象与数据源相似度的问题；为了获得面向对象的数据源质量，结合领域专家知识，进一步作为数据源选择的度量指标，将数据源和真值可信度两个因素添加到多真值推断中，利用图形概率建模和贝叶斯方法来融合数据源与对象的相似性和初始化，目的是在没有任何监督的情况下发现可能的多个真值。

本发明所述方法在两个真实数据集上证明了该模型的可行性和有效性，该模型在Movie数据集中的Precision、Recall和F1-measure分别为0.8479、0.8951、0.8706，和最新模型DART比较，F1-measure提升2.3％，在Book数据集中的Precision、Recall和F1-measure分别为0.7959、0.8971、0.8433，和最新模型DART比较，F1-measure提升3.9％，具体结果如表5所示。

在效率方面，检查每个算法的执行时间。将Movie数据集创建5个小数据集，从整个数据集中随机抽取2000、4000、6000、8000和10000部电影。将每种算法运行10次取平均值。

结果表明，最新的基于模型DART的运行的时间分别是0.4238、1.2736、2.6193、3.8795、4.7505，本模型运行的时间为0.5966、1.2231、1.8759、2.6626、3.4722。可以看出只有当2000部电影时，本方法所需执行时间比最新Baseline多，其他分别节约了4.0％、28.4％、45.7％、26.9％的时间，具体结果如表6所示。

表5不同算法在两个数据集上的Precision、Recall和F1方面的性能比较

表6各算法的执行时间

Objects	2000	4000	6000	8000	10000
						Majority Vote	0.0061	0.0201	0.0207	0.0303	0.0656
SRV	0.5330	1.0724	1.6059	2.1875	2.7754
						LTM	2.4478	4.8992	7.3295	10.0270	12.6134
DART	0.4238	1.2736	2.6193	3.8795	4.7505
						本发明	0.5966	1.2231	1.8759	2.6626	3.4722