CN105912602A

CN105912602A - 一种基于实体属性的真值发现方法

Info

Publication number: CN105912602A
Application number: CN201610207989.2A
Authority: CN
Inventors: 徐小龙; 刘笑笑; 孙雁飞; 鲁蔚锋; 张登银; 卢亚楠; 王勇
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2016-04-05
Filing date: 2016-04-05
Publication date: 2016-08-31

Abstract

本发明涉及一种基于实体属性的真值发现方法，集中考虑算法的主要影响因素，提出全新设计思想的真值发现模型，在现有数据源可靠性与事实准确性迭代计算机制的基础上，考虑同一实体属性事实相互支持度和数据源之间的依赖关系两个因素，简化真值发现算法，提高真值发现的准确性；而且提出了单向文本相似度与事实冲突程度相结合的方法来计算事实相互支持度，对实体属性文本存在的简写、省写、漏写、多写和次序颠倒等复杂情况有更强的适应能力和准确性，能够进一步提高真值发现的准确性；不仅如此，还提出了数据源对称包含度来计算数据源之间的依赖程度，充分考虑了真值发现方法的主要影响因素，进一步提高真值发现的准确性。

Description

一种基于实体属性的真值发现方法

技术领域

本发明涉及一种基于实体属性的真值发现方法，属于分布式计算和数据挖掘交叉技术领域。

背景技术

互联网的高速发展使得Web访问量迅速增加，互联网显然已经成为了一个巨型数据集，其数据量正在飞速地增长着，Web数据显然已经成为了人们获取信息的重要来源。互联网给人们生活和工作带来便利的同时，其提供的数据质量问题也日益突出，微博、论坛、博客、贴吧等网络媒介极大地降低了互联网用户发布与传播信息的门槛，再加上信息的时效性、传播性以及信息发布者的主观故意性和恶意导向性等因素，使得大量过时、虚假、片面、重复、错误等数据充斥着互联网，这些恶意数据从很大程度上干扰了用户对网络信息的访问，使用户得到错误的、多条相似的以及过时的信息等。为了确保数据的质量，为用户提供最为准确的数据值，众多学者对真值发现问题进行了深入的研究。

针对真值发现问题，学者们通过考虑影响真值发现判断的各种因素进行了一系列相关研究。Yin等人提出了TruthFinder算法，利用类似Authority-Hub方法的迭代机制来联合推导数据源的可靠性和数据源所提供事实的准确性；Dong等人应用贝叶斯法则(BayesTheorem)来推理数据源之间的依赖性；考明军等人基于投票思想提出的迭代投票算法(Iteration Vote,IVote)、信誉度投票迭代算法(Iteration-Reputation Vote,IRVote)和信誉度与复制投票迭代算法(Iteration-Reputation-Duplicattion Vote,IRDVote)。除此之外还有基于信息检索、Web链接分析和半监督学习(Semi-Supervised Learning，SSL)等方法来提高真值发现的准确性和计算效率的算法。

真值发现问题，即给定一个数据源集合(例如不同的图书网站)以及各数据源针对某个实体属性(如一本书的作者信息)所给出的事实(即针对实体属性的描述)集合，现要从这些事实集合中发现真值(即正确的事实)。针对这一问题，最简单直观的解决方法是采用投票机制，各数据源分别对这一事实进行投票，根据得票数来判断各事实的准确性。但投票机制将各个数据源同等对待，没有考虑到数据源之间的差异，即数据源本身的可靠性不同，所以投票结果与现实相比往往存在着较大的差异。

众多学者在投票算法基础上提出了很多更有效的改进算法，例如Yin提出了TruthFinder算法，它将信息检索技术Ink Analysis思想应用于真值发现中来计算数据源的可靠性，同时考虑数据源所提供的信息的准确性，将两者结合起来，利用迭代算法最终形成完整的真值发现算法。TruthFinder依据“不同数据源对同一实体属性提供的正确描述具有一致性而提供的错误描述形式不一”这一原则，因此一个数据源提供的正确描述越多，则其可靠性越大；反过来，当一个数据源可靠性越大，则其提供的描述的正确性就越高。当一个描述被多个可靠性较高的数据源提供时，它的正确性将会很高。TruthFinder对数据源可靠性的判断并不依赖于其提供描述的数量，而是取决于描述的准确性。更为重要的是，TruthFinder还考虑了不同描述之间的相互支持度对描述准确性判断的影响。然而TruthFinder对描述之间的相互支持度的计算仅仅采用基于编辑距离的字符串相似度代替，因此严重影响了算法的准确性，对复杂文本信息的真值发现准确性更是不理想。此外TruthFinder也没有考虑到数据源之间的复制关系对描述准确性的影响。

考明军等人提出了迭代投票算法(Iteration Vote,IVote)以及改进的信誉度投票迭代算法(Iteration-Reputation Vote,IRVote)和信誉度与复制投票迭代算法(Iteration-Reputation-Duplicattion Vote,IRDVote)。IVote算法根据数据源本身可靠性和其提供的事实的准确性之间的关系，采用概率投票的方式进行迭代计算，选择投票结果最高的描述作为最终结果。IRVote在此基础之上进一步考虑数据源的权威性，即数据源的投票比重，数据源的权威性越重，其在投票过程中的权重越大。IRDVote在IRVote算法基础上加入了贝叶斯公式来充分考虑互联网中各数据源存在的相互传播和拷贝信息的情况。

现有的真值发现方法大多将各种数据源同等对待，过多或片面地考虑方法的影响因素而导致其不够准确。在真值计算的时候，往往用基于编辑距离的字符串相似度来代替事实相互支持度，严重地影响了真值发现算法的准确性。

发明内容

本发明所要解决的技术问题是提供一种采用全新设计思想，解决现有真值发现算法复杂难懂、准确性不高问题，能够有效提高真值发现准确性的基于实体属性的真值发现方法。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于实体属性的真值发现方法，用于在各个数据源分别为各个实体属性提供事实的情况下，确定各个实体属性分别所对应的真值事实，包括如下步骤：

步骤001.所有数据源构成全局数据源集合，随机初始化其可靠性t(s_n)，然后进入步骤002；其中，n＝{1、…、N}，N为全局数据源集合中数据源的个数，s_n表示全局数据源集合中的第n个数据源，t(s_n)表示全局数据源集合中第n个数据源的可靠性，0＜t(s_n)≤1；

步骤002.分别针对各个实体属性，针对全局数据源集合中各个数据源为实体属性提供的各个事实，按相同事实进行划分，即将相同的事实划分为一类，构成该实体属性的各个事实种类；并针对全局数据源集合中的各个数据源，按其分别针对该实体属性所提供各个事实的划分进行相应划分，构成与该各个事实种类分别相对应的各个局部数据源集合；再获得该实体属性所对应事实种类的个数I，I≤N，即分别获得各个实体属性分别所对应的各个事实种类，以及与各个事实种类相对应的各个局部数据源集合，然后初始化迭代次数r＝1，并进入步骤003；

步骤003.分别针对各个实体属性，根据如下公式，获得实体属性所对应各个事实种类的准确性t(f_i)，

t (f_{i}) = 1 - Π_{k = 1}^{K} (1 - t (v_{k}))

式中，i＝{1、…、I}，f_i表示该实体属性的第i个事实种类，t(f_i)表示该实体属性的第i个事实种类的准确性，K表示该实体属性的第i个事实种类所对应局部数据源集合中的数据源的个数，K≤N，v_k表示该实体属性的第i个事实种类所对应局部数据源集合中的第k个数据源，t(v_k)表示该实体属性的第i个事实种类所对应局部数据源集合中第k个数据源的可靠性；进而获得各个实体属性分别所对应各个事实种类的准确性t(f_i)，然后进入步骤004；

步骤004.针对各个实体属性分别所对应各个事实种类的准确性t(f_i)进行对数放大处理，获得各个实体属性分别所对应各个事实种类的第一准确性t_p(f_i)；同时针对全局数据源集合中各个数据源的可靠性t(s_n)进行对数放大处理，更新为t_g(s_n)，即更新全局数据源集合中各个数据源的可靠性为t_g(s_n)，然后进入步骤005；

步骤005.分别针对各个实体属性，根据如下公式，分别获得实体属性的各个事实种类的冲突程度conflict(f_i)，

c o n f l i c t (f_{i}) = 1 - \frac{| f_{i} |}{Σ_{j = 1}^{I} | f_{j} |}

式中，j＝{1、…、I}，f_j表示该实体属性的第j个事实种类，|f_i|表示该实体属性的第i个事实种类中事实的数量，|f_j|表示该实体属性的第j个事实种类中事实的数量；进而获得各个实体属性分别所对应各个事实种类的冲突程度conflict(f_i)，然后进入步骤006；

步骤006.分别针对各个实体属性，根据如下公式，分别针对实体属性的各个事实种类f_i，获得全局数据源集合中各个数据源为该实体属性所提供的各个事实f_z'，分别针对f_i的单向文本相似度sim(f_z',f_i)，

s i m (f_{z}^{'}, f_{i}) = \frac{c}{l e n (f_{z}^{'})} * | f_{i} |

式中，f_z'表示全局数据源集合中各个数据源为该实体属性所提供各个事实中的第z个事实；c表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本与该实体属性第i个事实种类f_i所对应文本之间相同词元的个数；len(f_z')表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本的词元的个数；进而分别获得全局数据源集合中各个数据源为各个实体属性分别所提供的各个事实f_z'，分别针对对应实体属性各个事实种类f_i的单向文本相似度sim(f_z',f_i)，然后进入步骤007；

步骤007.针对全局数据源集合中的各个数据源，根据如下公式，获得全局数据源集合中两两数据源之间的对称包含度depend(s_n,s_n')，然后进入步骤008；

d e p e n d (s_{n}, s_{n^{'}}) = \{\begin{matrix} \frac{t}{p + q + t} & n &NotEqual; n^{'} \\ 0 & n = n^{'} \end{matrix}

式中，n'＝{1、…、N}，depend(s_n,s_n')表示全局数据源集合中第n个数据源与第n'个数据源之间的对称包含度；p＝b-t，q＝d-t；b表示全局数据源集合中第n个数据源针对各个实体属性所提供事实的个数；d表示全局数据源集合中第n'个数据源针对各个实体属性所提供事实的个数；t表示全局数据源集合中第n个数据源针对各个实体属性所提供各个事实，与全局数据源集合中第n'个数据源针对各个实体属性所提供各个事实之间相同事实的个数；

步骤008.根据如下公式，分别针对全局数据源集合中的各个数据源，针对数据源的可靠性为t_g(s_n)进行调整，更新为t'_g(s_n)，即更新该数据源的可靠性为t'_g(s_n)，

t_{g}^{'} (s_{n}) = t_{g} (s_{n}) + \frac{1}{N} Σ_{n^{'} = 1}^{N} [t_{g} (s_{n}) * d e p e n d (s_{n}, s_{n^{'}})]

进而更新全局数据源集合中各个数据源的可靠性为t'_g(s_n)；然后进入步骤009；

步骤009.分别针对各个实体属性，根据如下公式，获得该实体属性各个事实种类的第二准确性为t'_p(f_i)，

t_{p}^{'} (f_{i}) = Σ_{k = 1}^{K} t_{g}^{'} (v_{k})

式中，t'_g(v_k)表示该实体属性的第i个事实种类所对应局部数据源集合中第k个数据源的可靠性；进而获得各个实体属性分别所对应各个事实种类的第二准确性为t'_p(f_i)，然后进入步骤010；

步骤010.分别针对各个实体属性，根据如下公式，针对实体属性各个事实种类的准确性进行调整，更新为t″_p(f_i)，即更新该实体属性各个事实种类的准确性为t″_p(f_i)，

t_{p}^{''} (f_{i}) = t_{p}^{'} (f_{i}) + (1 - c o n f l i c t (f_{i})) * Σ_{z = 1}^{Z} [t_{p} (f_{i}) * s i m (f_{z}^{'}, f_{i})]

式中，z＝{1、…、Z}，Z表示全局数据源集合中各个数据源为该实体属性所提供事实的个数；进而更新各个实体属性分别所对应各个事实种类的准确性为t″_p(f_i)，然后进入步骤011；

步骤011.针对各个实体属性分别所对应各个事实种类的准确性为t″_p(f_i)，分别进行归一化处理更新，分别获得各个实体属性分别所对应各个事实种类的准确性为然后进入步骤012；

步骤012.根据事实种类中各个事实准确性彼此相等，以及各个实体属性分别所对应各个事实种类的准确性为即获得各个实体属性分别所对应各个事实的准确性然后进入步骤013；

步骤013.分别针对全局数据源集合中的各个数据源，根据如下公式，更新获得各个数据源的可靠性

t_{g}^{*} (s_{n}) = \frac{1}{M} Σ_{m = 1}^{M} t_{p}^{*} (f_{m}^{''})

式中，m＝{1、…、M}，M表示全局数据源集合中第n个数据源s_n为各个实体属性所提供事实的个数，f_m”表示全局数据源集合中第n个数据源s_n为各个实体属性所提供事实中的第m个事实，表示全局数据源集合中第n个数据源s_n为各个实体属性所提供事实中第m个事实的可靠性；进而获得全局数据源集合中各个数据源的可靠性同时获得全局数据源集合中各个数据源的平均可靠性然后进入步骤014；

步骤014.判断迭代次数r是否大于等于2，是则进入步骤015；否则用r的值加1赋给r，并返回步骤003；

步骤015.判断本次迭代中所获全局数据源集合中各个数据源的平均可靠性与上一次迭代中所获全局数据源集合中各个数据源的平均可靠性之间的差值是否大于预设迭代阈值，是则用r的值加1赋给r，并返回步骤003；否则进入步骤016；

步骤016.根据本次迭代中所获各个实体属性分别所对应各个事实的准确性分别获得各个实体属性的真值，即实现基于实体属性的真值发现。

作为本发明的一种优选技术方案：所述步骤001中还包括，采用停用词列表，去除全局数据源集合中各个数据源为各个实体属性所提供各个事实对应文本中的停用词和指定符号。

作为本发明的一种优选技术方案：所述相同事实包括事实之间的相等与等价。

作为本发明的一种优选技术方案：所述步骤004中，根据如下公式，针对各个实体属性分别所对应各个事实种类的准确性t(f_i)进行对数放大处理，

t_p(f_i)＝-ln(1-t(f_i))

获得各个实体属性分别所对应各个事实种类的第一准确性t_p(f_i)；

同时根据如下公式，针对全局数据源集合中各个数据源的可靠性t(s_n)进行对数放大处理，

t_g(s_n)＝-ln(1-t(s_n))

更新为t_g(s_n)，即更新全局数据源集合中各个数据源的可靠性为t_g(s_n)。

作为本发明的一种优选技术方案：所述步骤011中，针对各个实体属性分别所对应各个事实种类的准确性为t″_p(f_i)，分别按如下公式进行归一化处理更新，

t_{p}^{*} (f_{i}) = \frac{t_{p}^{''} (f_{i})}{Σ_{j = 1}^{I} t_{p}^{''} (f_{j})}

分别获得各个实体属性分别所对应各个事实种类的准确性为

本发明所述一种基于实体属性的真值发现方法采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明所设计基于实体属性的真值发现方法，集中考虑算法的主要影响因素，提出全新设计思想的真值发现模型，在现有数据源可靠性与事实准确性迭代计算机制的基础上，考虑同一实体属性事实相互支持度和数据源之间的依赖关系两个因素，简化真值发现算法，提高真值发现的准确性；

(2)本发明所设计基于实体属性的真值发现方法，提出了单向文本相似度与事实冲突程度相结合的方法来计算事实相互支持度，对实体属性文本存在的简写、省写、漏写、多写和次序颠倒等复杂情况有更强的适应能力和准确性，能够进一步提高真值发现的准确性；

(3)本发明所设计基于实体属性的真值发现方法，提出了数据源对称包含度来计算数据源之间的依赖程度，充分考虑了真值发现方法的主要影响因素，进一步提高真值发现的准确性。

附图说明

图1是本发明真值发现模型示意图；

图2是数据源、事实、实体属性以及实体之间的关系；

图3是本发明所设计基于实体属性的真值发现方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明所要解决的技术问题是在分布式计算环境下提高真值发现方法的准确性，随着互联网技术的发展，Web数据和各种业务数据这个庞大的数据集高速地增长着，为了更准确的进行决策，往往需要从多个复杂的子集中搜集有用的数据，这些来自不同数据源的数据很可能会发生冲突。而真值发现就是帮助用户分析大量冲突信息，从中获取最可能接近真实结果的信息的有效手段，避免了用户被大量不真实的信息干扰以至于做出错误决策。现有的真值发现方法大多片面或过多地考虑方法的影响因素而复杂难懂，且在真值计算的时候，往往用基于编辑距离的字符串相似度来代替事实相互支持度，严重地影响了真值发现方法的准确性。本发明在数据源可靠性和事实准确性迭代计算机制的基础上，考虑事实相互支持度和数据源之间的依赖关系两个主要因素，简化了真值发现方法，并且采用单向文本相似度与事实冲突程度相结合的方法来计算事实相互支持度，利用数据源对称饱和度方法来计算数据源之间的依赖程度，极大地提高了真值发现方法的准确性。

本发明所设计基于实体属性的真值发现方法，适用于分布式计算环境中，真值发现机制是把不同来源、格式、特点性质的数据在逻辑上有机地集中，从而为企业或用户提供精确有效的数据值。真值发现机制首先搜索或接收各个不同数据源提供的数据，然后经过模式匹配、冲突检测、真值发现和数据融合四个阶段的处理，最后输出正确完整的数据到主存储系统，以便用户查看，真值发现模型如图1所示，s₁至s_n为各个数据源，代表分布式系统中的各个子系统；Main DB代表主存储系统，各阶段的功能如下：

第一阶段：模式匹配，在分布式存储系统中，各子系统允许独立操作本地数据，因此会导致各子系统对同一数据提供不同的结果，在进行真值发现的过程中，各子系统对同一数据的存储格式、命名规则、表达方式等很可能不一致，所以数据发现首先要对这些子系统提供的数据进行统一处理，即提供各子系统数据到主系统数据的映射机制。

第二阶段：冲突检测，采取冲突检测策略检测各个子系统提供的数据是否发生了冲突，若发生冲突则调用相应的真值发现算法计算正确的数据值。

第三阶段：真值发现，当检测到冲突数据时，即对同一实体各数据源提供了不同的数据，真值发现机制则采取真值发现方法从这些冲突数据中找出正确的数据值作为此数据的真值。

第四阶段：数据融合，融合排列各个正确的数据值并将最终真值结果提供给用户。

在数据冲突解决问题中，会涉及到的数据冲突主要表现在各数据源对同一实体属性提供了不同的数据，这些值有的能正确反映客观事实，有的不能。为了便于理解本发明的技术方案，下面对一些相关概念及问题进行如下解释：

(1)数据源(Source)：提供冲突数据的来源，可以是数据库、Web网站、终端等，数据源用s_n表示，s_n表示全局数据源集合中的第n个数据源。

(2)实体(Entity)：实体是现实世界中存在的事物，由若干实体属性描述，如人、书籍、汽车等，用e_c表示。

(3)实体属性(Entity Attribute)：用来描述实体特征的属性，如一本书的作者、一辆汽车的颜色等；实体属性集合用EA表示，即EA＝{ea₁、…ea_l、…、ea_L}，l＝{1、…、L}，ea_l表示实体的第l个属性。

(4)事实(Fact)：对于一个实体属性，某一数据源提供的描述，如实体汽车的属性“颜色”，用f_z'表示。

(5)真值(Value)：能够正确描述实体属性的事实。

在真值发现模型中，各数据源都提供了大量的事实，尤其是对于同一实体属性，各数据源都对其提供了事实。然而由于各数据源的独立性和自治性以及网络的复杂性，这些事实有的是真值，有的不是真值，由此便会产生数据冲突。数据源、事实、实体属性以及实体之间的关系如图2所示，例如s₁和s₂对实体属性ea₁提供了两个不同的事实f₁'和f₁'，这两个事实将会产生数据冲突。而真值发现问题就是从f₁'和f₁'之中找到能够正确描述实体属性的事实，即真值。

基于真值发现模型以及对真实数据集的分析，本发明的真值发现模型基于以下四项原则：

原则1：对于一个实体属性，有且仅有一个值是真值；

原则2：不同的数据源对同一实体属性提供的真值相同；

原则3：不同的数据源对同一实体属性提供相同假值的可能性很低；

原则4：一个数据源对一个实体属性只提供一个值或不提供值，但一个数据源可以为多个实体属性提供值。

如图3所示，本发明所设计一种基于实体属性的真值发现方法在实际应用过程当中，用于在各个数据源分别为各个实体属性提供事实的情况下，确定各个实体属性分别所对应的真值事实，包括如下步骤：

步骤001.数据集中的数据皆由若干实体属性组成，我们首先进行去噪优化处理，所有数据源构成全局数据源集合，采用停用词列表，去除全局数据源集合中各个数据源为各个实体属性所提供各个事实对应文本中的停用词和指定符号,例如标点、分词、乱码、大小写统一等，消除影响真值发现方法准确性的一切不利因素；然后针对全局数据源集合，随机初始化其可靠性t(s_n)，然后进入步骤002；其中，n＝{1、…、N}，N为全局数据源集合中数据源的个数，s_n表示全局数据源集合中的第n个数据源，t(s_n)表示全局数据源集合中第n个数据源的可靠性，0＜t(s_n)＜1。

步骤002.分别针对各个实体属性，针对全局数据源集合中各个数据源为实体属性提供的各个事实，按相同事实进行划分，即将相同的事实划分为一类，构成该实体属性的各个事实种类，相同事实包括事实之间的相等与等价；并针对全局数据源集合中的各个数据源，按其分别针对该实体属性所提供各个事实的划分进行相应划分，构成与该各个事实种类分别相对应的各个局部数据源集合；再获得该实体属性所对应事实种类的个数I，I≤N，即分别获得各个实体属性分别所对应的各个事实种类，以及与各个事实种类相对应的各个局部数据源集合，然后初始化迭代次数r＝1，并进入步骤003。

步骤003.假设初始条件下，数据源s₁和s₂都对一实体属性提供了f₁'，此时若f₁'不是真值，则数据源s₁和s₂同时不可靠的概率是(1-t(s₁))(1-t(s₂))，则f₁'是真值的概率是1-(1-t(s₁))(1-t(s₂))，因此，分别针对各个实体属性，根据如下公式，获得实体属性所对应各个事实种类的准确性t(f_i)，

t (f_{i}) = 1 - Π_{k = 1}^{K} (1 - t (v_{k}))

式中，i＝{1、…、I}，f_i表示该实体属性的第i个事实种类，t(f_i)表示该实体属性的第i个事实种类的准确性，K表示该实体属性的第i个事实种类所对应局部数据源集合中的数据源的个数，K≤N，v_k表示该实体属性的第i个事实种类所对应局部数据源集合中的第k个数据源，t(v_k)表示该实体属性的第i个事实种类所对应局部数据源集合中第k个数据源的可靠性；进而获得各个实体属性分别所对应各个事实种类的准确性t(f_i)，然后进入步骤004。

步骤004.为了避免后续运算导致的运算下溢，所以为了有效使用数据和计算的方便，根据如下公式，针对各个实体属性分别所对应各个事实种类的准确性t(f_i)进行对数放大处理，

t_p(f_i)＝-ln(1-t(f_i))

获得各个实体属性分别所对应各个事实种类的第一准确性t_p(f_i)。

同时根据如下公式，针对全局数据源集合中各个数据源的可靠性t(s_n)进行对数放大处理，更新为t_g(s_n)，

t_g(s_n)＝-ln(1-t(s_n))

即更新全局数据源集合中各个数据源的可靠性为t_g(s_n)，然后进入步骤005。

针对上述运算将两边取对数得：再针对该式两边分别取反可得：

步骤005.目前的真值发现方法关于事实相互支持度的计算通常采用基于编辑距离的字符串相似度方法替代事实相互支持度算法，然而基于编辑距离的字符串相似度方法只能从字面上衡量不同事实之间的相互影响关系，并不能确切地衡量事实相互支持度，所以本发明将事实描述之间的单向文本相似度与事实冲突程度相结合来计算事实相互支持度，可以更好地提高真值发现方法的准确性。

对于每一个实体属性总会有很多数据源对其提供很多的事实，这些事实之间是有一定关联关系的，如存在两个事实f₁'和f₂'，f₁'是由很多可靠性很高的数据源提供的事实，而f₁'和f₂'具有很强的关联关系，那么有理由认为f₂'也得到了这些可靠性很高的数据源的支持，所以要增加f₂'的准确性值。

分别针对各个实体属性，根据如下公式，分别获得实体属性的各个事实种类的冲突程度conflict(f_i)，

c o n f l i c t (f_{i}) = 1 - \frac{| f_{i} |}{Σ_{j = 1}^{I} | f_{j} |}

式中，j＝{1、…、I}，f_j表示该实体属性的第j个事实种类，|f_i|表示该实体属性的第i个事实种类中事实的数量，|f_j|表示该实体属性的第j个事实种类中事实的数量；进而获得各个实体属性分别所对应各个事实种类的冲突程度conflict(f_i)，然后进入步骤006。

显然，对于一个事实而言，提供此事实的数据源越多，其冲突程度越小，同时也说明了此事实准确性越大。

步骤006.对于各数据源提供的事实，本发明将提取能够表达原文本意思的关键词，此关键词称之为词元。本发明定义了事实之间的四种关系：包含、等价、相等和无关。例如数据源s₁和s₂分别对三本书的作者提供了事实如表1所示：

表1

对于book1，s₁提供的事实是s₁提供的事实的缩写；又例如book3，这两个事实内容上是一致的，只是表现形式不同，本发明称上述两种事实之间关系为等价关系；对于book2，s₁比s₂少提供了一个作者信息，即s₂提供的事实包含了s₁提供的事实，本发明称这样的事实之间关系为包含关系；当两个数据源提供的事实分别为无任何交集和完全相同的时候，本发明分别称之为无关关系和相等关系。

由此，分别针对各个实体属性，根据如下公式，分别针对实体属性的各个事实种类f_i，获得全局数据源集合中各个数据源为该实体属性所提供的各个事实f_z'，分别针对f_i的单向文本相似度sim(f_z',f_i)，

s i m (f_{z}^{'}, f_{i}) = \frac{c}{l e n (f_{z}^{'})} * | f_{i} |

式中，f_z'表示全局数据源集合中各个数据源为该实体属性所提供各个事实中的第z个事实；c表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本与该实体属性第i个事实种类f_i所对应文本之间相同词元的个数；len(f_z')表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本的词元的个数；进而分别获得全局数据源集合中各个数据源为各个实体属性分别所提供的各个事实f_z'，分别针对对应实体属性各个事实种类f_i的单向文本相似度sim(f_z',f_i)，然后进入步骤007。

步骤007.如果两个数据源对很多实体的实体属性都提供一致的事实，那么认为这两个数据源之间存在着依赖关系，从而它们对其它实体属性提供的事实也极有可能具有相同的可靠性。由此针对全局数据源集合中的各个数据源，根据如下公式，获得全局数据源集合中两两数据源之间的对称包含度depend(s_n,s_n')，然后进入步骤008；

d e p e n d (s_{n}, s_{n^{'}}) = \{\begin{matrix} \frac{t}{p + q + t} & n &NotEqual; n^{'} \\ 0 & n = n^{'} \end{matrix}

式中，n'＝{1、…、N}，depend(s_n,s_n')表示全局数据源集合中第n个数据源与第n'个数据源之间的对称包含度；p＝b-t，q＝d-t；b表示全局数据源集合中第n个数据源针对各个实体属性所提供事实的个数；d表示全局数据源集合中第n'个数据源针对各个实体属性所提供事实的个数；t表示全局数据源集合中第n个数据源针对各个实体属性所提供各个事实，与全局数据源集合中第n'个数据源针对各个实体属性所提供各个事实之间相同事实的个数。

t_{g}^{'} (s_{n}) = t_{g} (s_{n}) + \frac{1}{N} Σ_{n^{'} = 1}^{N} [t_{g} (s_{n}) * d e p e n d (s_{n}, s_{n^{'}})]

进而更新全局数据源集合中各个数据源的可靠性为t'_g(s_n)；然后进入步骤009。

t_{p}^{'} (f_{i}) = Σ_{k = 1}^{K} t_{g}^{'} (v_{k})

式中，t'_g(v_k)表示该实体属性的第i个事实种类所对应局部数据源集合中第k个数据源的可靠性；进而获得各个实体属性分别所对应各个事实种类的第二准确性为t'_p(f_i)，然后进入步骤010。

t_{p}^{''} (f_{i}) = t_{p}^{'} (f_{i}) + (1 - c o n f l i c t (f_{i})) * Σ_{z = 1}^{Z} [t_{p} (f_{i}) * s i m (f_{z}^{'}, f_{i})]

式中，z＝{1、…、Z}，Z表示全局数据源集合中各个数据源为该实体属性所提供事实的个数；进而更新各个实体属性分别所对应各个事实种类的准确性为t″_p(f_i)，然后进入步骤011。

步骤011.针对各个实体属性分别所对应各个事实种类的准确性为t″_p(f_i)，分别按如下公式进行归一化处理更新，

t_{p}^{*} (f_{i}) = \frac{t_{p}^{''} (f_{i})}{Σ_{j = 1}^{I} t_{p}^{''} (f_{j})}

分别获得各个实体属性分别所对应各个事实种类的准确性为然后进入步骤012。

步骤012.根据事实种类中各个事实准确性彼此相等，以及各个实体属性分别所对应各个事实种类的准确性为即获得各个实体属性分别所对应各个事实的准确性然后进入步骤013。

t_{g}^{*} (s_{n}) = \frac{1}{M} Σ_{m = 1}^{M} t_{p}^{*} (f_{m}^{''})

式中，m＝{1、…、M}，M表示全局数据源集合中第n个数据源s_n为各个实体属性所提供事实的个数，f_m”表示全局数据源集合中第n个数据源s_n为各个实体属性所提供事实中的第m个事实，表示全局数据源集合中第n个数据源s_n为各个实体属性所提供事实中第m个事实的可靠性；进而获得全局数据源集合中各个数据源的可靠性同时获得全局数据源集合中各个数据源的平均可靠性然后进入步骤014。

步骤014.判断迭代次数r是否大于等于2，是则进入步骤015；否则用r的值加1赋给r，并返回步骤003。

步骤015.判断本次迭代中所获全局数据源集合中各个数据源的平均可靠性与上一次迭代中所获全局数据源集合中各个数据源的平均可靠性之间的差值是否大于预设迭代阈值10^-5，是则用r的值加1赋给r，并返回步骤003；否则进入步骤016。

上述设计方法过程，本发明采用迭代机制计算数据源的可靠性和事实的准确性。首先为所有数据源的可靠性设置统一的初始值，由于本发明在计算事实相互支持度和数据源之间的依赖程度皆是由静态数据集本身所决定的，所以在整个算法迭代过程中只需要计算一次。在每次迭代的过程中，依次加入事实相互支持度和数据源之间的依赖程度因素，重新计算事实准确性和数据源可靠性。如此循环计算，直到前后两次迭代的数据源可靠性值达到预定的迭代差值为止。

影响真值发现算法的因素有很多，现有真值发现算法大多片面地考虑单一因素导致算法不够准确，或者过多的考虑各种不重要的因素而导致算法复杂难懂；本发明所设计基于实体属性的真值发现方法，集中考虑算法的主要影响因素，提出全新设计思想的真值发现模型，在现有数据源可靠性与事实准确性迭代计算机制的基础上，考虑同一实体属性事实相互支持度和数据源之间的依赖关系两个因素，简化真值发现算法，提高真值发现的准确性；现有真值发现算法仅仅利用基于编辑距离的字符串相似度来代替事实相互支持度，然而基于编辑距离的字符串相似度方法只能从字面上衡量不同事实之间的相互影响关系，并不能确切地衡量事实相互支持度；本发明提出了单向文本相似度与事实冲突程度相结合的方法来计算事实相互支持度，对实体属性文本存在的简写、省写、漏写、多写和次序颠倒等复杂情况有更强的适应能力和准确性，能够进一步提高真值发现的准确性；现实世界中各数据源并不是相互独立的，而互联网中各数据源也存在着信息传播和拷贝的关系，所以它们之间存在着一定的联系；本发明提出了数据源对称包含度来计算数据源之间的依赖程度，充分考虑了真值发现方法的主要影响因素，进一步提高真值发现的准确性。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于实体属性的真值发现方法，用于在各个数据源分别为各个实体属性提供事实的情况下，确定各个实体属性分别所对应的真值事实，其特征在于，包括如下步骤：

步骤001.所有数据源构成全局数据源集合，分别针对全局数据源集合中的各个数据源，随机初始化其可靠性为t(s_n)，然后进入步骤002；其中，n＝{1、…、N}，N为全局数据源集合中数据源的个数，s_n表示全局数据源集合中的第n个数据源，t(s_n)表示全局数据源集合中第n个数据源的可靠性，0＜t(s_n)＜1；

t (f_{i}) = 1 - Π_{k = 1}^{K} (1 - t (v_{k}))

c o n f l i c t (f_{i}) = 1 - \frac{| f_{i} |}{Σ_{j = 1}^{I} | f_{j} |}

步骤006.分别针对各个实体属性，根据如下公式，分别针对实体属性的各个事实种类f_i，获得全局数据源集合中各个数据源为该实体属性所提供的各个事实f′_z，分别针对f_i的单向文本相似度sim(f′_z,f_i)，

s i m (f_{z}^{'}, f_{i}) = \frac{c}{l e n (f_{z}^{'})} * | f_{i} |

式中，f′_z表示全局数据源集合中各个数据源为该实体属性所提供各个事实中的第z个事实；c表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本与该实体属性第i个事实种类f_i所对应文本之间相同词元的个数；len(f′_z)表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本的词元的个数；进而分别获得全局数据源集合中各个数据源为各个实体属性分别所提供的各个事实f′_z，分别针对对应实体属性各个事实种类f_i的单向文本相似度sim(f′_z,f_i)，然后进入步骤007；

d e p e n d (s_{n}, s_{n^{'}}) = \{\begin{matrix} \frac{t}{p + q + t} & n &NotEqual; n^{'} \\ 0 & n = n^{'} \end{matrix}

式中，n'＝{1、…、N}，depend＝s_n,s_n')表示全局数据源集合中第n个数据源与第n'个数据源之间的对称包含度；p＝b-t，q＝d-t；b表示全局数据源集合中第n个数据源针对各个实体属性所提供事实的个数；d表示全局数据源集合中第n'个数据源针对各个实体属性所提供事实的个数；t表示全局数据源集合中第n个数据源针对各个实体属性所提供各个事实，与全局数据源集合中第n'个数据源针对各个实体属性所提供各个事实之间相同事实的个数；

t_{g}^{'} (s_{n}) = t_{g} (s_{n}) + \frac{1}{N} Σ_{n^{'} = 1}^{N} [t_{g} (s_{n}) * d e p e n d (s_{n}, s_{n^{'}})]

t_{p}^{'} (f_{i}) = Σ_{k = 1}^{K} t_{g}^{'} (v_{k})

t_{p}^{''} (f_{i}) = t_{p}^{'} (f_{i}) + (1 - c o n f l i c t (f_{i})) * Σ_{z = 1}^{Z} [t_{p} (f_{i}) * s i m (f_{z}^{'}, f_{i})]

t_{g}^{*} (s_{n}) = \frac{1}{M} Σ_{m = 1}^{M} t_{p}^{*} (f_{m}^{''})

式中，m＝{1、…、M}，M表示全局数据源集合中第n个数据源s_n为各个实体属性所提供事实的个数，f″_m表示全局数据源集合中第n个数据源s_n为各个实体属性所提供事实中的第m个事实，表示全局数据源集合中第n个数据源s_n为各个实体属性所提供事实中第m个事实的可靠性；进而获得全局数据源集合中各个数据源的可靠性同时获得全局数据源集合中各个数据源的平均可靠性然后进入步骤014；

2.根据权利要求1所述一种基于实体属性的真值发现方法，其特征在于：所述步骤001中还包括，采用停用词列表，去除全局数据源集合中各个数据源为各个实体属性所提供各个事实对应文本中的停用词和指定符号。

3.根据权利要求1所述一种基于实体属性的真值发现方法，其特征在于：所述相同事实包括事实之间的相等与等价。

4.根据权利要求1所述一种基于实体属性的真值发现方法，其特征在于：所述步骤004中，根据如下公式，针对各个实体属性分别所对应各个事实种类的准确性t(f_i)进行对数放大处理，

t_p(f_i)＝-ln(1-t(f_i))

t_g(s_n)＝-ln(1-t(s_n))

5.根据权利要求1所述一种基于实体属性的真值发现方法，其特征在于：所述步骤011中，针对各个实体属性分别所对应各个事实种类的准确性为t″_p(f_i)，分别按如下公式进行归一化处理更新，

t_{p}^{*} (f_{i}) = \frac{t_{p}^{''} (f_{i})}{Σ_{j = 1}^{I} t_{p}^{''} (f_{j})}

分别获得各个实体属性分别所对应各个事实种类的准确性为