CN111708816A - 一种基于贝叶斯模型的多真值冲突消解方法 - Google Patents

一种基于贝叶斯模型的多真值冲突消解方法 Download PDF

Info

Publication number
CN111708816A
CN111708816A CN202010414102.3A CN202010414102A CN111708816A CN 111708816 A CN111708816 A CN 111708816A CN 202010414102 A CN202010414102 A CN 202010414102A CN 111708816 A CN111708816 A CN 111708816A
Authority
CN
China
Prior art keywords
data source
data
value
truth
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010414102.3A
Other languages
English (en)
Other versions
CN111708816B (zh
Inventor
魏笔凡
邓婷
刘均
郑庆华
卜德蕊
郝子琛
郭敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010414102.3A priority Critical patent/CN111708816B/zh
Publication of CN111708816A publication Critical patent/CN111708816A/zh
Application granted granted Critical
Publication of CN111708816B publication Critical patent/CN111708816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于贝叶斯模型的多真值冲突消解方法,通过分析书籍和电影数据并生成基本数据集Draw,将基本数据集Draw重新转换成一个事实数据集Df,然后进一步生成一个声明数据集Dc,采用基于吉布斯采样的方法进行数据源先验可信度评估;得到数据源先验可靠性,将该数据源先验值作为每个数据源的初始化值,基于数据源在不同领域显示出不同的专业知识程度,一个领域中数据丰富度较高,将丰富度度量转化为基于距离的度量,度量数据源及其提供数据的对象之间的相似性;在最后的贝叶斯推断中将数据源与对象的相似性和真值的置信度作为影响真值推断的因素考虑进去,最后输出真值数据集Dt,进行数据源先验可信度估计,能提高真值推断的效率和准确度。

Description

一种基于贝叶斯模型的多真值冲突消解方法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于贝叶斯模型的多真值冲突消解方法。
背景技术
在信息时代,不同数据源提供的同一实体的属性值可能存在冲突。因此,从这些可能相互冲突的信息中识别或生成正确答案是一项非常重要的任务。这项任务最重要的挑战是估计数据源的可靠性和选择高质量答案。目前,最简单和最直接的策略之一是进行多数投票表决,选出提供最多的答案作为正确答案。然而,这种简单的策略没有考虑数据源的可靠性差异。正确的数据可能被一堆恶意数据源提供的错误数据所掩盖。而且,这种策略倾向于提供最“值得信赖”的策略。当只有一个正确答案时,例如一个正确或错误的问题的答案,是可以接受的。然而,如果有多个正确答案。例如,对于一本书的作者来说,这种简单的方法可能会导致大量的正确答案被省略。
已有许多研究提出了在同时估计数据源质量的情况下得到正确答案的方法,同时也有一些研究将数据源的可靠性看作是进行真值推理时数据源可靠性的总和。为了更好地估计数据源的可靠性,一些工作还将数据源的一些特征或属性集成到真值推理中。
尽管真值发现问题已经进行了大量研究,然而大多数研究集中在单真值发现问题,多真值发现问题的研究相对较少。生活中很多应用场景中也存在多真值的情况,如一本书有多个作者、一部电影有多个导演等。针对多真值发现问题,Zhao等人首次提出可以处理多真值的概率图模型LTM,通过LTM联合推导对象描述值的置信度和数据源可信度,然而该模型假设数据源的准确率和召回率服从某一特定分布-Beta分布,但若真实的数据集不满足该分布的话,则最终效果会受到很大影响。Wang等人分析多真值发现问题的特点,将数据源对描述值置信度的影响和数据源的复制检测技术添加到贝叶斯模型中,进而提升真值发现的准确率。然而,上述方法没有考虑对象某个属性的属性中的不同表现形式,忽略了值之间的相似关系对真值的影响。现实中同一个值可能会有多种不同的表现形式,例如,“BeiJing”和“Bei Jing city”很可能是同一个真值的不同表现形式,许多错误的值可能是由于数据不完整或缺少某些部分造成的,并不是完全错误的,因此它们可以用来提高真值的置信度,从而提升真值发现的准确率。
现有技术的缺陷和不足:
在多真值冲突消解中,数据源的权重分配是数据源的可信度估计的重要依据,也是真值计算过程中的关键性步骤。因此,数据源权重的初始化对真值发现模型的真值计算效率和准确性起着重要性作用。由于,真值发现方法大多都依赖于数据源之间相互独立这一假设。于是对所有数据源进行统一分配权重具有很高的可行性。然而,真实的场景通常不总这样,因为存在部分数据源可能复制其他数据源的信息,或者提供过时的信息。如今,人们将真值发现应用到具有挑战性的任务中,如信息提取和知识图谱的构建。在这些具有挑战性的任务中,大多数资源都可能是不可靠的。最近,一些相关研究者的工作是采用预定义统一的数据源召回率和特异性,但是该方法忽略了数据源自身的可靠性差异,还有一些是从训练数据集中数据源召回率和特异性,但这需要监督学习的支持。
影响最终多真值可信度计算的因素很多,由于数据源在特定领域中的数据丰富度被证明是该领域中数据源质量估计的一个很好的先验信念,所以不考虑数据源在不同属性分类中的存在可靠性差异,而为数据源分配统一的可靠性是不公平的。没有一个数据源被承诺在不同的领域展示相同的可靠性,从大规模数据中构造训练数据集是相当重要的,但是多真值推断通常是在无监督的情况下进行的。在这种情况下,从一开始就不可能了解不同领域中每个数据源的质量,没有一个数据源可以保证提供100%准确的信息。真值很大程度上依赖于数据源的可靠性,而真值推断结果很容易被恶意数据源歪曲。所以,目前对多真值发现的研究还非常薄弱。因此,设计有效的多真值冲突消解方法,成为了一个亟待解决的问题。
发明内容
本发明的目的在于提供一种基于贝叶斯模型的多真值冲突消解方法,识别了数据源质量统一初始化的不足,采用基于吉布斯采样的方法进行数据源先验可信度评估,数据源为对象提供声明时可能会对不同的对象显示不同的可靠性,利用数据源与对象的相似性度量来解决此问题。
为了实现上述目的,本发明采用的技术方案是,一种基于贝叶斯模型的多真值冲突消解方法,包括以下步骤:
步骤100,从网上获取WEB数据集,并对WEB数据集清洗与处理,得到由三元组<数据源、对象、对象属性的值>组成的初始数据集Draw
步骤200,在分析步骤100得到WEB数据集的初始数据集Draw的数据后,对单真值和多真值冲突消解中数据源质量的评估标准分析,确定针对多真值冲突问题中数据源质量的评估标准;
步骤300,基于步骤200中所得数据源质量的评估标准,生成步骤100所得初始数据集Draw中数据源先验可信度,即所述数据源召回率和特异性的集合;
步骤301,将步骤100所得初始数据集Draw转换成一个事实数据集Df,然后生成一个声明数据集Dc,以确定数据源是否提供事实数据集Df中的事实,根据声明数据集Dc中各数据源提供的数据总数进行初始化数据源混淆矩阵;
步骤302,基于步骤301得到的数据源混淆矩阵,采用基于吉布斯采样的方法进行数据源先验可信度评估,得到初始数据集Draw中的数据源先验可信度召回率和特异性的集合;
步骤400,基于步骤300得到数据源先验可信度,利用贝叶斯模型推断真值,最后输出消解了冲突值的真值数据集Dt,具体如下:
步骤401,采用基于三维空间距离的方法对数据源和对象之间的相似性建模,得到数据源和对象的距离dist(S,O)。
步骤402,在多真值推断中,生成多真值的置信度得分gs(v)。
步骤403,基于步骤401生成的数据源与对象之间的相似性和步骤402所得多真值的置信度得分,将这两个因素集成到贝叶斯模型推断中进行多真值的推断,生成消解了冲突的真值数据集Dt
步骤100中,基于数据集中的数据,按照不同数据源为同一对象的属性提供的不同值进行整体分析,得到每一个对象的属性值的集合。
步骤100对数据集进行预处理具体包括以下步骤:
步骤101,通过对数据集进行分析,有的属性值的信息不冲突,因本文研究的是信息冲突的情况,删除所有不冲突的数据,生成一个数据集,只保留数据源提供的冲突值集;
步骤102,针对Movie数据集,爬取“Country”属性作为其扩展属性,对于对象所有的属性,进行一致性的处理。
步骤103,删除只有一个数据源提供的信息,对数据集中作者属性的名字进行过滤数字和乱码,得到最后的初始数据集Draw并存储在本地数据库中。
步骤300中,采用基于吉布斯采样的方法进行数据源先验可靠性评估,生成数据源质量指标召回率和特异性,具体包括以下步骤:
步骤301,数据源质量用两种不同的独立指标来衡量:召回率和特异性,为每个数据源创建两个独立的质量指标,将关于数据源先验的信念或假设与数据源结合起来初始化其混淆矩阵;
步骤302,基于步骤301得到的数据源混淆矩阵,声明数据集Dc中的数据由三个部分组成:事实、数据源以及观察的布尔值,声明数据集Dc中观察的布尔值取决于事实和提供观察的布尔值的数据源,声明数据集Dc中观察的布尔值设为随机变量;将数据源的召回率和特异性的平均值对数据源进行先验权威性排名。
步骤401中,数据源与对象的相似性度量具体如下:
步骤4011,领域划分,对于可以直接将分类值作为领域划分间隔的属性,直接进行划分,针对数值类属性采用预定义区间数及动态调整间隔大小的方法进行领域划分;
步骤4012,基于步骤4011划分好属性的领域,对每个领域d中的每个数据源S计算数据源领域百分比因子,表示为Pd(S),Pd(S)是数据源S提供的数据量占领域d中的总数据量的百分比,Pd(S)的公式如下:
Figure BDA0002494399330000051
其中|Od(S)|表示数据源S在领域d中提供的对象集的大小,根据每个数据源的Pd(S),数据源领域专家rd(S)通过以下公式:
Figure BDA0002494399330000052
其中α是一个预先定义的调整因子,用于强调和区分域d中的百分比差异,本数据集中α取1;
步骤4013,将数据源和对象进行向量表示,数据源S的数据源向量是维数元素为rd(S)的向量,表示为RdS,其形式为:
Figure BDA0002494399330000053
对象O的对象向量是维数元素为0和1的向量,表示为RdO,1表示该对象与领域di关联,0表示该对象与域di不关联。RdO形式为:
Figure BDA0002494399330000054
利用欧式距离
Figure BDA0002494399330000055
对数据源和对象进行相似度计算。
步骤402中,对部分排除进行建模有两个方面:针对数据源声明的值之间的内部排斥,二是不同数据源声明的值之间的内部排斥;置信度通过以下公式进行计算:
Figure BDA0002494399330000061
其中V(o)是对象O的声明值集,Vs(o)是数据源提供的值,其中
Figure BDA0002494399330000062
且Vs(o)中值的置信得分之和为1,希望v∈Vs(o)和
Figure BDA00024943993300000613
之间存在置信差。
步骤403中,值为真的概率
Figure BDA0002494399330000063
通过以下公式计算:
Figure BDA0002494399330000064
其中,σ(v)为值得先验准确度,
Figure BDA0002494399330000065
既依赖于支持和反对的数据源,支持的数据源表示为
Figure BDA0002494399330000066
反对的数据源表示为
Figure BDA0002494399330000067
公式如下所示:
Figure BDA0002494399330000068
Figure BDA0002494399330000069
其中
Figure BDA00024943993300000610
为数据源的先验质量指标召回率,
Figure BDA00024943993300000611
为数据源的先验质量指标特异性,dist(S,O)为数据源和对象相似性距离,gs(v)是真值的置信度得分,得到值为真的概率,当
Figure BDA00024943993300000612
时,值为真,将该值添加到真值数据集Dt中,反之则舍弃该值。
与现有技术相比,本发明至少具有以下有益效果:
本发明在WEB数据集的基础上,通过分析单真值和多真值冲突在数据源可信度评估方面的区别,确定了针对本文多真值冲突消解问题的数据源质量评估标准,即数据源的召回率和特异性,本发明在数据源先验可信度初始化方面,识别了统一初始化的不足,并提出了一种与数据源相关事实数量的数据源可靠性初始化方法,根据吉布斯采样算法进行数据源先验可信度估计,能提高真值推断的效率和准确度;
本发明所述方法考虑到对象与数据源相似度的问题;结合领域专家知识,获得面向对象的数据源质量,作为数据源选择的度量指标,将数据源和真值可信度两个因素集成到多真值推断中,利用图形概率建模和贝叶斯方法来融合数据源与对象的相似性和初始化,在没有任何监督的情况下发现可能的多个真值。
附图说明
图1是本发明多真值冲突消解框架图。
图2a是对于数字属性“Released year”进行领域分离前示意图。
图2b对于数字属性“Released year”进行领域分离后示意图。
图3某一数据源和对象在空间距离的矢量图。
图4是声明值之间内部排斥与声明数量的关系。
图5是声明值与未声明值间相互排斥的关系。
图6是数据源先验质量与最终的数据源质量结果对比结果图。
具体实施方式
本发明提供一种基于贝叶斯模型的多真值冲突消解方法,通过识别数据源统一初始化的不足,在真值推断前先对数据源进行先验可信度评估,再将该值代入真值推断中,可以提高后续真值推断的效率和准确度,减少迭代次数,在进行多真值推断中将数据源与对象的相似性和多真值的置信度得分两个因素添加到真值推断模型中,得到真值;还能通过真值的分布情况计算数据源的可信度。多真值冲突消解框架图如图1所示。
本发明是通过以下技术方案实现的:
一种基于贝叶斯模型的多真值冲突消解方法,包括如下步骤:
步骤100中,基于书籍和电影数据集中的数据,按照不同数据源为同一对象的属性提供的不同值进行整体分析,得到每一个对象的属性值的集合,表1展示了数据集Movie的初始数据集Draw,由表中可以看出该数据集中只保留了某一个对象冲突的数据,并且对属性信息的名称进行了统一;
具体包括以下步骤:
步骤101,通过对数据源提供的对象属性值的声明,删除所有不冲突的数据,以生成一个数据集,其中只有数据源提供的冲突值集;
步骤102,针对Movie数据集,爬取“Country”属性作为其扩展属性。对于对象所有的属性,进行一致性的处理。例如:数据集Movie中的“genres”属性,由于某些提供的“genres”值具有某些相似的含义,但解释不同,故统一了“genres”的表现形式,数据集Book采用类似的处理方法;
步骤103,删除只有一个数据源提供的信息并进行过滤噪声和统一名称,得到最后的初始数据集Draw并存储在本地数据库中。
表1预处理后的数据集Movie的部分初始数据集Draw
MID Title Year Source Director
10 FollowFriday 2016 imdb Micho Rutare
10 FollowFriday 2016 letterboxd none
17 NotAlone 2017 imdb Sotiris Petridis
17 NotAlone 2017 imdb Dimitris Tsakaleas
17 NotAlone 2017 letterboxd Sotiris Petridis
步骤200,在分析步骤100得到WEB数据集的初始数据集Draw的数据后,对单真值和多真值冲突消解中数据源质量的评估标准分析,确定针对多真值冲突问题中数据源质量的评估标准;
步骤300中,在步骤200分析所述初始数据集Draw的基础上,采用基于吉布斯采样的方法进行数据源先验可靠性评估,生成数据源质量指标召回率和特异性,表2显示数据集Movie中生成的数据源的质量并对其进行排名;
具体包括以下步骤:
步骤301,数据源质量是用两种不同的独立指标来衡量的:召回率和特异性;为每个数据源创建了两个独立的质量指标。假设大多数数据源倾向于提供正确的值是合理的,导致每个数据源的高特异性,数据源通常有一些先验的信念或假设,应该将这些假设与数据源结合起来,利用数据源这种性质来初始化其混淆矩阵;
步骤302,基于步骤301得到的数据源混淆矩阵,同时考虑到对象属性观察值的分布,声明数据集Dc中的数据由三个部分组成:事实、数据源、观察的布尔值,声明的观察值取决于事实和数据源。具体来说,如果事实为真,高召回率的数据源提供的值更有可能是为真,低召回率的数据源提供的值更有可能是为假,同时,如果事实为假,高特异性的数据源提供的值更有可能是为假,低特异性的数据源提供的值更有可能是为真。因此将声明的观察值建模为随机变量,取决于事实和提供该值的数据源。一旦声明的观察值结果可用,就有可能回去推断数据源质量,该输出的数据源质量即为数据源的先验可靠性,其中高召回率和高特异的数据源意味着数据源的更具有权威性,召回率高意味着往往不会错过真值,特异性高意味着往往不涉及错误的值,因此将数据源的召回率和特异性的平均值对数据源进行先验权威性排名。
表2生成的数据集Movie的数据源先验可信度
Figure BDA0002494399330000091
Figure BDA0002494399330000101
步骤400所述进行多真值推断中主要包含两个因素:数据源与对象的相似性和多真值的置信度得分;
步骤401中,数据源与对象的相似性建模具体如下:
步骤4011,对于分类属性来说,领域分离是微不足道的,比如书的分类和电影的发布国家,将分类值作为分类领域,但对于书的价格属性、电影的发布年份属性等数字数据,情况却不尽相同,选择一个好的分离标准将这些数据包含在相似性度量中,对于一个属性,一个直观的分离是将这些数值分割成不同的区间以形成领域,根据需要将区间数设置为一些预定义的数字,关于间隔的大小,希望根据属性的情况动态调整间隔的数量,不需要预定义的间隔大小;选择将相同数量的数据分布到属性的不同领域的间隔大小;这种领域选择保持了数据量的均匀分布,较好地表现了数据源的领域内不均匀性,图2a和图2b展示了对于数字属性“Released year”进行领域分离的过程展示;
步骤4012,基于步骤3011划分好的属性的领域,为每个领域d中的每个数据源S计算领域百分比,表示为Pd(S);Pd(S)是数据源S提供的数据量占领域d中的总数据量的百分比,Pd(S)通过以下公式计算:
Figure BDA0002494399330000102
其中Pd(S)是数据源S提供的数据量占领域d中的总数据量的百分比,|Od(S)|表示数据源S在领域d中为提供的对象集的大小,一旦检索到每个源的Pd(S),就可以开始评估源域专业知识,关注两个方面:一是Pd(S)在计算rd(S)时的作用,期望单调性,即较高的Pd(S)对应于较大的rd(S),反之亦然,另一个是Pd(S)的分布信息,如果数据源所在一个领域中的百分比相同,则Pd(S)有或多或少的无用性,如果一个领域中的数据源之间存在很大的百分比差异,倾向于放大这种影响;考虑到上述因素,通过Pd(S),来评估数据源领域专家rd(S):
Figure BDA0002494399330000111
其中rd(S)表示数据源领域专家得分,α是一个预先定义的调整因子,用于强调和区分域d中的百分比差异,本发明的数据集中α取1;
步骤4013,将数据源和对象进行向量表示,数据源S的数据源向量是维数元素为rd(S)的向量,表示为Rds,其形式为:
Figure BDA0002494399330000112
对象O的对象向量是维数元素为0和1的向量,表示为Rdo。维度上的1表示该对象与领域di关联,维度上的0表示该对象与域di不关联;Rdo形式为:
Figure BDA0002494399330000113
利用欧式距离
Figure BDA0002494399330000114
Figure BDA0002494399330000115
对数据源和对象进行相似度计算,如果数据源和对象之间的相似性很高,意味着数据源提供了更多与对象相似的对象,则倾向于对该对象更具权威性,图3展示的某一数据源和对象在空间距离的矢量图。
步骤402中,在多真值推理中,冲突的值不再是单一真值的相互排斥,但是它们在一定程度上仍然是对立的,对部分排除进行建模考虑两个方面:一是数据源声明的值之间的内部排斥,二是不同数据源声明的值之间的内部排斥;对于第一个方面,一个直观的做法是根据数据源改变给定值的置信度,如果一个数据源为一个对象声明了大量的值,则倾向于降低所提供的值对于这个数据源的可信度;如果一个数据源为一个对象声明了少量的值,则倾向于提高所声明的值对于这个数据源的可信度。对于另一方面,如果一个数据源没有提供的值是由另一个数据源提供的,则该数据源仍然部分支持该值。设V(o)是对象o的声明值集,Vs(o)是数据源提供的值,为声明值和未声明值分配置信度,置信度通过以下公式进行计算:
Figure BDA0002494399330000116
其中
Figure BDA0002494399330000121
且Vs(o)中值的置信得分之和为1,希望v∈Vs(o)和
Figure BDA00024943993300001213
之间存在一些置信差,图4展示的是声明值之间内部排斥与声明数量的关系,当声明数量增加,真值置信度得分下降,声明值间内部排斥的增加。图5展示的是声明值与未声明值间相互排斥的关系,当声明数量增加,真值置信分数比降低,声明值和未声明值间相互排斥的降低。
步骤403中,根据步骤401生成的数据源与对象之间的相似性和步骤402多真值的置信度得分,将这两个因素集成到贝叶斯推断中进行多真值的推断,为了推断真值,需要计算值为真的概率
Figure BDA0002494399330000122
Figure BDA0002494399330000123
其中,σ(v)为值的先验准确度,
Figure BDA0002494399330000124
既依赖于支持和反对他的数据源,支持它的数据源表示为
Figure BDA0002494399330000125
反对它的数据源表示为
Figure BDA0002494399330000126
公式如下所示:
Figure BDA0002494399330000127
Figure BDA0002494399330000128
其中
Figure BDA0002494399330000129
为数据源的先验质量指标召回率,
Figure BDA00024943993300001210
为数据源的先验质量指标特异性,dist(S,O)为数据源和对象相似性距离,gs(v)是真值的置信度得分,由此得到值为真的概率,当
Figure BDA00024943993300001211
时,值为真,将该值添加到真值数据集Dt中,反之则舍弃该值,最终得到消解了冲突值的真值数据集Dt
另外,本发明在得到真值后,通过真值的分布,进行数据源质量—指标召回率和特异性的计算,具体计算召回率和特异性的公式如下:
Figure BDA00024943993300001212
其中τrec(s)′为数据源的召回率,TP为数据源提供的值在实际中是正确的计数,FN为数据源未提供的值在实际中是正确的计数。
Figure BDA0002494399330000131
其中τsp(s)′为数据源的特异性,FP为数据源提供的值在实际中是错误的计数,即假阳性,TN为数据源未提供的值在实际中是错误的计数。
通过以上步骤100到步骤400,可以得到不同数据源为同一对象的属性提供属性值的真值数据集Dt;另外本发明还根据真值的分布得到数据源的质量,即数据源的召回率和特异性;最终的数据源可信度及其排名参考表3,表4显示的是数据源先验质量与最终的数据源质量结果对比,图6是对应的折线图,由图6可以看出,数据源的召回率几乎没有什么区别,但是数据源先验的特异性往往比最终的质量偏高。由真值的准确度可以看出,最终的数据源质量更接近数据源实际的质量。
表3
Figure BDA0002494399330000132
表4
Figure BDA0002494399330000133
Figure BDA0002494399330000141
本发明提出相似感知真值推理模型进行多真值的推断,考虑到对象与数据源相似度的问题;为了获得面向对象的数据源质量,结合领域专家知识,进一步作为数据源选择的度量指标,将数据源和真值可信度两个因素添加到多真值推断中,利用图形概率建模和贝叶斯方法来融合数据源与对象的相似性和初始化,目的是在没有任何监督的情况下发现可能的多个真值。
本发明所述方法在两个真实数据集上证明了该模型的可行性和有效性,该模型在Movie数据集中的Precision、Recall和F1-measure分别为0.8479、0.8951、0.8706,和最新模型DART比较,F1-measure提升2.3%,在Book数据集中的Precision、Recall和F1-measure分别为0.7959、0.8971、0.8433,和最新模型DART比较,F1-measure提升3.9%,具体结果如表5所示。
在效率方面,检查每个算法的执行时间。将Movie数据集创建5个小数据集,从整个数据集中随机抽取2000、4000、6000、8000和10000部电影。将每种算法运行10次取平均值。
结果表明,最新的基于模型DART的运行的时间分别是0.4238、1.2736、2.6193、3.8795、4.7505,本模型运行的时间为0.5966、1.2231、1.8759、2.6626、3.4722。可以看出只有当2000部电影时,本方法所需执行时间比最新Baseline多,其他分别节约了4.0%、28.4%、45.7%、26.9%的时间,具体结果如表6所示。
表5不同算法在两个数据集上的Precision、Recall和F1方面的性能比较
Figure BDA0002494399330000151
表6各算法的执行时间
Objects 2000 4000 6000 8000 10000
Majority Vote 0.0061 0.0201 0.0207 0.0303 0.0656
SRV 0.5330 1.0724 1.6059 2.1875 2.7754
LTM 2.4478 4.8992 7.3295 10.0270 12.6134
DART 0.4238 1.2736 2.6193 3.8795 4.7505
本发明 0.5966 1.2231 1.8759 2.6626 3.4722

Claims (7)

1.一种基于贝叶斯模型的多真值冲突消解方法,其特征在于,包括以下步骤:
步骤100,从网上获取WEB数据集,并对WEB数据集清洗与处理,得到由三元组<数据源、对象、对象属性的值>组成的初始数据集Draw
步骤200,在分析步骤100得到WEB数据集的初始数据集Draw的数据后,对单真值和多真值冲突消解中数据源质量的评估标准分析,确定针对多真值冲突问题中数据源质量的评估标准;
步骤300,基于步骤200中所得数据源质量的评估标准,生成步骤100所得初始数据集Draw中数据源先验可信度,即所述数据源可信度召回率和特异性的集合;
步骤301,将步骤100所得初始数据集Draw转换成一个事实数据集Df,然后生成一个声明数据集Dc,以确定数据源是否提供事实数据集Df中的事实,根据声明数据集Dc中各数据源提供的数据总数进行初始化数据源混淆矩阵;
步骤302,基于步骤301得到的数据源混淆矩阵,采用基于吉布斯采样的方法进行数据源先验可信度评估,得到初始数据集Draw中的数据源先验可信度召回率和特异性的集合;
步骤400,基于步骤300得到数据源先验可信度,利用贝叶斯模型推断真值,最后输出消解了冲突值的真值数据集Dt,具体如下:
步骤401,采用基于三维空间距离的方法对数据源和对象之间的相似性建模,得到数据源和对象的距离dist(S,O);
步骤402,在多真值推断中,生成多真值的置信度得分gs(v);
步骤403,基于步骤401生成的数据源与对象之间的相似性和步骤402所得多真值的置信度得分,将这两个因素集成到贝叶斯模型推断中进行多真值的推断,生成消解了冲突值的真值数据集Dt
2.根据权利要求1所述的基于贝叶斯模型的多真值冲突消解方法,其特征在于,步骤100中,基于数据集中的数据,按照不同数据源为同一对象的属性提供的不同值进行整体分析,得到每一个对象的属性值的集合。
3.根据权利要求2所述的基于贝叶斯模型的多真值冲突消解方法,其特征在于,步骤100对数据集进行预处理具体包括以下步骤:
步骤101,通过对数据集进行分析,有的属性值的信息不冲突,因本文研究的是信息冲突的情况,删除所有不冲突的数据,生成一个数据集,只保留数据源提供的冲突值集;
步骤102,针对Movie数据集,爬取“Country”属性作为其扩展属性,对于对象所有的属性,进行一致性的处理;
步骤103,删除只有一个数据源提供的信息,对数据集中作者属性的名字进行过滤数字和乱码,得到最后的初始数据集Draw并存储在本地数据库中。
4.根据权利要求1所述的基于贝叶斯模型的多真值冲突消解方法,其特征在于,步骤300中,采用基于吉布斯采样的方法进行数据源先验可靠性评估,生成数据源质量指标召回率和特异性,具体包括以下步骤:
步骤301,数据源质量用两种不同的独立指标来衡量:召回率和特异性,为每个数据源创建两个独立的质量指标,将关于数据源先验的信念或假设与数据源结合起来初始化其混淆矩阵;
步骤302,基于步骤301得到的数据源混淆矩阵,声明数据集Dc中的数据由三个部分组成:事实、数据源以及观察的布尔值,声明数据集Dc中观察的布尔值取决于事实和提供观察的布尔值的数据源,声明数据集Dc中观察的布尔值设为随机变量;将数据源的召回率和特异性的平均值对数据源进行先验权威性排名。
5.根据权利要求1所述的基于贝叶斯模型的多真值冲突消解方法,其特征在于,步骤401中,数据源与对象的相似性度量具体如下:
步骤4011,领域划分,对于可以直接将分类值作为领域划分间隔的属性,直接进行划分,针对数值类属性采用预定义区间数及动态调整间隔大小的方法进行领域划分;
步骤4012,基于步骤4011划分好属性的领域,对每个领域d中的每个数据源S计算数据源领域百分比因子,表示为Pd(S),Pd(S)是数据源S提供的数据量占领域d中的总数据量的百分比,Pd(S)的公式如下:
Figure FDA0002494399320000031
其中|Od(S)|表示数据源S在领域d中提供的对象集的大小,根据每个数据源的Pd(S),数据源领域专家rd(S)通过以下公式:
Figure FDA0002494399320000032
其中α是一个预先定义的调整因子,用于强调和区分域d中的百分比差异,本数据集中α取1;
步骤4013,将数据源和对象进行向量表示,数据源S的数据源向量是维数元素为rd(S)的向量,表示为RdS,其形式为:
Figure FDA0002494399320000033
对象O的对象向量是维数元素为0和1的向量,表示为RdO,1表示该对象与领域di关联,0表示该对象与域di不关联,RdO形式为:
Figure FDA0002494399320000034
利用欧式距离
Figure FDA0002494399320000035
对数据源和对象进行相似度计算,得到数据源与对象之间的相似度得分。
6.根据权利要求1所述的基于贝叶斯模型的多真值冲突消解方法,其特征在于,
步骤402中,对部分排除进行建模有两个方面:针对数据源声明的值之间的内部排斥,二是不同数据源声明的值之间的内部排斥;置信度得分通过以下公式进行计算:
Figure FDA0002494399320000036
其中V(o)是对象O的声明值集,Vs(o)是数据源提供的值,其中
Figure FDA0002494399320000037
且Vs(o)中值的置信得分之和为1,希望v∈Vs(o)和
Figure FDA0002494399320000038
之间存在置信差。
7.根据权利要求1所述的基于贝叶斯模型的多真值冲突消解方法,其特征在于,步骤403中,值为真值的概率
Figure FDA0002494399320000041
通过以下公式计算:
Figure FDA0002494399320000042
其中,σ(v)为值得先验准确度,
Figure FDA0002494399320000043
既依赖于支持和反对的数据源,支持的数据源表示为
Figure FDA0002494399320000044
反对的数据源表示为
Figure FDA0002494399320000045
公式如下所示:
Figure FDA0002494399320000046
Figure FDA0002494399320000047
其中
Figure FDA0002494399320000048
为数据源的先验质量指标召回率,
Figure FDA0002494399320000049
为数据源的先验质量指标特异性,dist(S,O)为数据源和对象相似性距离,gs(v)是真值的置信度得分,得到值为真的概率,当
Figure FDA00024943993200000410
时,值为真,将该值添加到真值数据集Dt中,反之则舍弃该值。
CN202010414102.3A 2020-05-15 2020-05-15 一种基于贝叶斯模型的多真值冲突消解方法 Active CN111708816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010414102.3A CN111708816B (zh) 2020-05-15 2020-05-15 一种基于贝叶斯模型的多真值冲突消解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010414102.3A CN111708816B (zh) 2020-05-15 2020-05-15 一种基于贝叶斯模型的多真值冲突消解方法

Publications (2)

Publication Number Publication Date
CN111708816A true CN111708816A (zh) 2020-09-25
CN111708816B CN111708816B (zh) 2022-12-09

Family

ID=72536994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010414102.3A Active CN111708816B (zh) 2020-05-15 2020-05-15 一种基于贝叶斯模型的多真值冲突消解方法

Country Status (1)

Country Link
CN (1) CN111708816B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651505A (zh) * 2020-12-18 2021-04-13 广州大学 一种用于知识验证的真值发现方法及系统
CN113065584A (zh) * 2021-03-22 2021-07-02 哈尔滨工程大学 基于区间数相似性差异构造基本概率赋值的目标分类方法
CN113434659A (zh) * 2021-06-17 2021-09-24 天津大学 一种在协同设计过程中隐性冲突感知方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912602A (zh) * 2016-04-05 2016-08-31 南京邮电大学 一种基于实体属性的真值发现方法
CN109284316A (zh) * 2018-09-11 2019-01-29 中国人民解放军战略支援部队信息工程大学 基于数据源多维特性的真值发现方法
CN110321377A (zh) * 2019-04-25 2019-10-11 北京科技大学 一种多源异构数据真值确定方法及装置
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912602A (zh) * 2016-04-05 2016-08-31 南京邮电大学 一种基于实体属性的真值发现方法
CN109284316A (zh) * 2018-09-11 2019-01-29 中国人民解放军战略支援部队信息工程大学 基于数据源多维特性的真值发现方法
CN110321377A (zh) * 2019-04-25 2019-10-11 北京科技大学 一种多源异构数据真值确定方法及装置
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
何绯娟等: "关联数据冲突消解方法研究", 《计算机技术与发展》 *
冯钦等: "基于常量条件函数依赖的冲突消解算法", 《计算机仿真》 *
陈超等: "基于EM算法的多真值发现问题研究", 《渤海大学学报(自然科学版)》 *
马如霞等: "基于数据源分类可信性的真值发现方法研究", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651505A (zh) * 2020-12-18 2021-04-13 广州大学 一种用于知识验证的真值发现方法及系统
CN112651505B (zh) * 2020-12-18 2022-01-14 广州大学 一种用于知识验证的真值发现方法及系统
CN113065584A (zh) * 2021-03-22 2021-07-02 哈尔滨工程大学 基于区间数相似性差异构造基本概率赋值的目标分类方法
CN113065584B (zh) * 2021-03-22 2023-04-18 哈尔滨工程大学 基于区间数相似性差异构造基本概率赋值的目标分类方法
CN113434659A (zh) * 2021-06-17 2021-09-24 天津大学 一种在协同设计过程中隐性冲突感知方法

Also Published As

Publication number Publication date
CN111708816B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN111708816B (zh) 一种基于贝叶斯模型的多真值冲突消解方法
Zehlike et al. Fair Top-k Ranking with multiple protected groups
Templ et al. Introduction to statistical disclosure control (sdc)
CN110213164B (zh) 一种基于拓扑信息融合的识别网络关键传播者的方法及装置
Labatut Generalised measures for the evaluation of community detection methods
CN109935337B (zh) 一种基于相似性度量的病案查找方法及系统
Li et al. Linking temporal records for profiling entities
Fu et al. The academic social network
Franklin et al. An ontology for fairness metrics
US20240232169A1 (en) Generating user attribute verification scores to facilitate improved data validation from scaled data providers
CN110781229A (zh) 用于实体网络分析的系统和方法
CN112380433A (zh) 面向冷启动用户的推荐元学习方法
US11321359B2 (en) Review and curation of record clustering changes at large scale
Yu et al. Modeling user intrinsic characteristic on social media for identity linkage
Zheng et al. PACE: learning effective task decomposition for human-in-the-loop healthcare delivery
Bessa et al. Effective discovery of meaningful outlier relationships
Sameer et al. Multi-objectives TLBO hybrid method to select the related risk features with rheumatism disease
Ceolin et al. Combining user reputation and provenance analysis for trust assessment
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
CN112820400A (zh) 基于医疗知识图谱知识推理的疾病诊断方法、装置、设备
Zhang et al. Medical privacy-preserving service recommendation
Chen et al. Multi-feature integration for perception-dependent examination-bias estimation
Toma et al. Discovery and integration of univariate patterns from daily individual organ-failure scores for intensive care mortality prediction
Baqir et al. Beyond active engagement: the significance of lurkers in a polarized Twitter debate
Wu et al. A contextual information-augmented probabilistic case-based reasoning model for knowledge graph reasoning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant