CN110991186B

CN110991186B - 一种基于概率软逻辑模型的实体解析方法

Info

Publication number: CN110991186B
Application number: CN201911235517.8A
Authority: CN
Inventors: 韩伟红; 宫云宝; 陈雷霆; 曹厚华; 蒋振韬
Original assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: Zhisheng Information Technology Dongguan Co ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2024-02-06
Anticipated expiration: 2039-12-05
Also published as: CN110991186A

Abstract

本发明属于实体解析技术领域，具体涉及一种基于概率软逻辑模型的实体解析方法，包括以下步骤：a、将实体解析中的实体属性、实体关系以及本体约束分别进行逻辑谓词表示；b、分别基于实体属性、实体关系以及本体约束构建实体解析过程中的一阶逻辑规则；c、结合步骤a中声明的逻辑谓词与步骤b中构建的逻辑规则设置一个关于实体解析的概率软逻辑模型；d、对概率软逻辑模型进行权重学习；e、使用推理算法对概率软逻辑模型进行计算，通过实体解析概率值。与现有技术相比，本发明通过进行谓词逻辑表示，提出基于实体属性相似度、实体关系、本体约束的逻辑规则构建，实现了概率软逻辑模型的实体解析过程，有效地提高了实体解析的准确率与执行效率。

Description

一种基于概率软逻辑模型的实体解析方法

技术领域

本发明属于实体解析技术领域，具体涉及一种基于概率软逻辑模型的实体解析方法。

背景技术

实体解析(Entity Resolution,ER)也称为实体对齐(Entity Alignment)或实体匹配(Entity matching)，是判断在相同或者不相同数据集中，两个实体是否指向真实世界同一个对象。实体解析主要用于解决多源数据中实体冲突、指代不明等问题，帮助机器理解多数据源，构成了高质量的知识。近年来，随着知识爆炸式增长，实体解析技术在数据挖掘、信息融合等领域上应用取得成果，引起国内外学术研究者的高度关注。与此同时，实体解析技术已经广泛应用到医疗系统、银行管理系统、以及大规模知识库构建等领域。

目前，对于实体解析的研究主要基于Fellegi-Sunter实体解析模型，主要通过匹配实体的属性集计算出两个实体相似度得分，再利用相似度得分判断这两个实体是否表示同一个实体，这种判断被称为匹配决策。对于实体属性集合来说，每个需要匹配的候选实体属性对，都需要进行匹配决策，并针对不同属性进行相应调整。最后，利用逻辑回归(Logistic Regression,LR)模型与逻辑规则的传递闭包，以确保实体的一致性。但是这些传统算法均具有较高的复杂度，而且准确率较低。

因此，有必要提出一种改进的方案，以更好地适应实体解析的应用。

发明内容

本发明的目的在于：针对现有技术的不足，而提供的一种基于概率软逻辑模型的实体解析方法，通过该方法能有效地提高实体解析的性能。

为实现上述目的，本发明采用如下技术方案：

一种基于概率软逻辑模型的实体解析方法，包括以下步骤：

a、将实体解析中的实体属性、实体关系以及本体约束分别进行逻辑谓词表示；

b、分别基于实体属性、实体关系以及本体约束构建实体解析过程中的一阶逻辑规则；

c、结合步骤a中声明的逻辑谓词与步骤b中构建的逻辑规则设置一个关于实体解析的概率软逻辑模型；

d、对概率软逻辑模型进行权重学习；

e、使用推理算法对概率软逻辑模型进行计算，通过实体解析概率值。

作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进，对实体属性进行逻辑谓词表示包括以下步骤：

a11、选取实体名字作为实体的重要属性，其余属性作为一般属性；

a12、重要属性采用属性名作为逻辑谓词，即Name(E，N)表示实体E的名字是N；一般属性采用统一谓词Property()表示，即Property(E，P，V)表示实体E存在属性P且该属性值为V。

作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进，对实体关系进行逻辑谓词具体为采用Relation()对实体关系进行谓词表示，即Relation(E₁，E₂，R)，表示实体E₁与实体E₂之间关系是R。

作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进，对本体约束进行逻辑谓词具体为选取MUT()、DOM()、SUB()作为本体约束，并对本体约束进行谓词表示为Mut(T1，T2)表示实体所属类别不能同时是T1和T2，Sub(T1，T)表示实体的类别T1是T子类，Dom(E，D)表示实体E所属于领域为D。

作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进，基于实体属性构建的逻辑规则为：

其中，逻辑规则(b1)表示当实体A和B具有相同名字时，A和B可能表示同一个实体，Wn表示该逻辑规则权重；

逻辑规则(b2)表示当实体A和实体B同属一个类别且具有相似名字时，A和B可能表示同一个实体，Wt表示该逻辑规则权重，Similar(X,Y)表示计算X与Y相似度的相似函数；

逻辑规则(b3)表示当实体A和实体B具有相同属性以及相似属性值时，A和B可能表示同一个实体，Wp表示该逻辑规则权重，Similar(V1,V2)表示计算V1与V2相似度的相似函数。

作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进，基于实体关系构建的逻辑规则为：

其中，逻辑规则(b4)表示当实体A和实体B与实体C具有相同关系时，A和B可能表示同一个实体，其中W_r表示该逻辑规则权重；

逻辑规则(b5)表示实体A和实体B是同一个实体且实体A和C关系与实体B和D关系相同时，实体C和D表示同一个实体，W_s表示该逻辑规则权重。

作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进，基于本体约束构建的逻辑规则为：

其中，逻辑规则(b6)表示当实体A和B的所属类别不能同时表示同一个实体时，A和B表示不同一个实体，Wm表示该逻辑规则权重；

逻辑规则(b7)表示当实体A和B的类别具有相同父类时，A和B可能表示同一个实体，Wc表示该逻辑规则权重；

逻辑规则(b8)表示当实体A和B的类别具有相同域时，A和B可能表示同一个实体，Wd表示该逻辑规则权重。

作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进，所述关于实体解析的概率软逻辑模型为：

其中，R是概率软逻辑模型中逻辑规则集合，λ_r表示逻辑规则r的权重，Z表示规划因子，d(r)表示逻辑规则r的距离满意度，p＝1表示采用一阶逻辑规则。

作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进，所述步骤d中在对概率软逻辑模型进行权重学习过程中选择最大似然参数估计法，应用梯度函数进行权重参数估计，具体过程如公式(1)所示：

其中，R_i表示所有带有权重λ_i被初始化的逻辑规则，其中p＝1，由于计算是NP难问题，因此，采用/>近似代替，I^*表示原子最有可能的正确解释。

作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进，所述步骤e中所述推理算法为MPE推理算法或边际推理算法。

本发明的有益效果在于：与现有技术相比，本发明通过进行谓词逻辑表示，对实体解析过程中逻辑规则构建进行研究，提出基本实体属性相似度、实体关系、本体约束进行逻辑规则构建，概率软逻辑模型的推理机制决策出实体解析概率值，实现了概率软逻辑模型的实体解析过程，有效地提高了实体解析的准确率与执行效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施方式及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的工作实现流程图；

图2为本发明中候选知识集组织结构关系图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

如图1所示，一种基于概率软逻辑模型的实体解析方法，包括以下步骤：

d、对概率软逻辑模型进行权重学习；

需要说明的是，在进行实体解析过程中，候选知识集中知识往往是由实体、实体属性、实体关系以及本体约束组成的，如图2中所示，基于知识集合中基本元素可以构成一个关系图，其中节点是由实体以及实体属性组成的，边是由实体与实体之间关系构建的，构造出图可以有效表示实体之间联系对实体解析过程产生影响。谓词声明是逻辑规则基础，因此本发明通过基于实体属性、实体关系、本体约束对知识集中知识进行逻辑谓词声明以及逻辑规则的构建，有效地提高了实体解析的性能。

另外，在对实体属性进行逻辑谓词表示过程中，由于判断多个实体是否指向同一个实体过程中，不需要利用实体所有属性进行判定，可以通过选取出能够唯一标识这些实体的属性，作为实体解析过程中重要属性进行比较，例如判断多个人名是否指向同一个人，可以通过选取身份证号作为关键属性。因此，本发明根据数据集每个实体属性对实体解析的结果影响，即不同属性在实体解析过程占用权重不同，将实体属性划分成重要属性和一般属性，并根据下述公式计算得到将实体名字作为实体的重要属性，其余属性则作为一般属性，

其中，PF表示实体属性在所有实体中出现的频率，表示实体属性i出现的频率，N表示实体个数，OSF表示区分度，相同实体属性值越少，OSF越大，说明该属性具有很好的区分性，/>表示实体属性i出现相同频数。

优选的，对实体属性进行逻辑谓词表示包括以下步骤：

优选的，对实体关系进行逻辑谓词具体为采用Relation()对实体关系进行谓词表示，即Relation(E₁，E₂，R)，表示实体E₁与实体E₂之间关系是R。实体关系表示实体之间内在联系，通过实体考虑实体内在联系可以很好提高实体匹配的性能。

优选的，对本体约束进行逻辑谓词具体为选取MUT()、DOM()、SUB()作为本体约束，并对本体约束进行谓词表示为Mut(T1，T2)表示实体所属类别不能同时是T1和T2，Sub(T1，T)表示实体的类别T1是T子类，Dom(E，D)表示实体E所属于领域为D。

本体是指共享的、规范化的概念模型，是对某一领域中知识结构的系统描述，因此从知识的角度来看，本体是知识构建的重要工具之一。基于本体的知识构建是遵循着本体相关约束，这些本体约束相比实体约束是“大粒度”的，关于本体约束常用谓词相关信息如表1中所示，

表1 本体谓词

由于实体属性值取值有数值型、列表集合型、以及文本字符串型等类型，因此在相似度算法选择也会根据不同属性值类型也不同，因此，本发明基于实体属性构建的逻辑规则为：

逻辑规则(b2)表示当实体A和实体B同属一个类别且具有相似名字时，A和B可能表示同一个实体，Wt表示该逻辑规则权重，Similar(X,Y)表示计算X与Y相似度的相似函数，于本实施例中，采用Levenshtein距离作为该相似度函数；

逻辑规则(b3)表示当实体A和实体B具有相同属性以及相似属性值时，A和B可能表示同一个实体，Wp表示该逻辑规则权重，Similar(V1,V2)表示计算V1与V2相似度的相似函数，与本实施例中，根据V1和V2数值类型选择相似度函数，例如V1、V2是列表结合类型时采用Jaccard集合相似计算作为该相似度函数，V1、V2是字符串类型时采用Levenshtein距离相似计算作为该相似度函数。

需要说明的是，Levenshtein距离是指将字符串a转化成b所用的最少字符串操作数，叫做字符串A到B的编辑距离。这里所说的字符操作通常是指：删除、插入、替换。字符串相似度等于字符串最少操作次数表示，当操作次数越少时，两个字符串相似度越高。字符串a到b的编辑距离具有以下几个性质：编辑距离取值范围介于[abs(len(a)-len(b)),max(len(a),len(b))]之间；a，b相同是指编辑距离等于零；当len(a)＝len(b)时，Levenshtein(a,b)≤Hamming(a,b)；编辑距离满足基本三角不等式；当a与b有相同的字符串前缀或后缀时，去掉相同的后缀或前缀，编辑距离计算结果不会产生任何影响，但是字符串其他位置字符不能随意删除。

编辑距离递推公式如下：

在上述的计算公式中，第一行和第二行是初始化过程，表示当a与b长度为0时，字符串a和b的编辑距离计算公式。当b的长度为0时，a通过不断地删除或者添加操作就可以转化成b。编辑距离计算过程就是矩阵d的元素一次次计算，首先对矩阵d的第一行与第一列进行初始化，然后根据公式2.1中第三行公式对其它行列的元素进行计算。根据公式2.1中第三行可知，计算矩阵d中的第(i,j)个元素，需要事先计算出第(i-1,j-1)、(i,j-1)、(i-1,j)的元素值。

而Jaccard相似度是指集合A与B的交集元素个数所占并集元素个数的比例，采用表示J(A,B)，其计算公式为

本发明通过考虑实体之间内在联系，能从一种类型的实体解析中获取对另一种实体相关实体解析的有用信息，提高实体解析的准确性，因此，基于实体关系构建的逻辑规则为：

本发明通过考虑本体层次在实体解析过程中起到作用，根据现有本体理论以及本体约束谓词表示方法，因此，基于本体约束构建的逻辑规则为：

优选的，关于实体解析的概率软逻辑模型为：

优选的，步骤d中在对概率软逻辑模型进行权重学习过程中选择最大似然参数估计法，应用梯度函数进行权重参数估计，具体过程如公式(1)所示：

优选的，步骤e中推理算法为MPE推理算法或边际推理算法。概率软逻辑模型支持两种有效推理算法：一种是MPE推理机制，即最大概率推理，该算法核心思想是推理出逻辑规则中闭原子概率最有可能取值；另外一种是边际推理算法，该算法是通过计算逻辑规则中闭原子概率值区间范围。上述两种算法在概率软逻辑模型使用最广泛是MPE推理机制，由于MPE算法更加适合解决不确定性问题概率值计算，因此，本实施例中采用MPE推理算法进行计算。

上述说明示出并描述了本发明的若干优选实施方式，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施方式的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于概率软逻辑模型的实体解析方法，其特征在于，包括以下步骤：

d、对概率软逻辑模型进行权重学习；

e、使用推理算法对概率软逻辑模型进行计算，通过实体解析概率值；

另外，在对实体属性进行逻辑谓词表示过程中，由于判断多个实体是否指向同一个实体过程中，不需要利用实体所有属性进行判定，可以通过选取出能够唯一标识这些实体的属性，作为实体解析过程中重要属性进行比较，根据数据集每个实体属性对实体解析的结果影响，即不同属性在实体解析过程占用权重不同，将实体属性划分成重要属性和一般属性，并根据公式(100)计算得到将实体名字作为实体的重要属性，其余属性则作为一般属性，

其中，PF表示实体属性在所有实体中出现的频率，表示实体属性i出现的频率，N表示实体个数，OSF表示区分度，相同实体属性值越少，OSF越大，说明该属性具有很好的区分性，表示实体属性i出现相同频数；

基于实体属性构建的逻辑规则为：

逻辑规则(b2)表示当实体A和实体B同属一个类别且具有相似名字时，A和B可能表示同一个实体，Wt表示该逻辑规则权重，Similar(X,Y)表示计算X与Y相似度的相似函数，采用Levenshtein距离作为该相似度函数；

逻辑规则(b3)表示当实体A和实体B具有相同属性以及相似属性值时，A和B可能表示同一个实体，Wp表示该逻辑规则权重，Similar(V1,V2)表示计算V1与V2相似度的相似函数，V1、V2是列表结合类型时采用Jaccard集合相似计算作为该相似度函数，V1、V2是字符串类型时采用Levenshtein距离相似计算作为该相似度函数；

Levenshtein距离是指将字符串a转化成b所用的最少字符串操作数，叫做字符串A到B的编辑距离，编辑距离递推公式如下：

在上述的计算公式中，第一行和第二行是初始化过程，表示当a与b长度为0时，字符串a和b的编辑距离计算公式，当b的长度为0时，a通过不断地删除或者添加操作就可以转化成b，编辑距离计算过程就是矩阵d的元素一次次计算，首先对矩阵d的第一行与第一列进行初始化，然后根据公式2.1中第三行公式对其它行列的元素进行计算，根据公式2.1中第三行可知，计算矩阵d中的第(i,j)个元素，需要事先计算出第(i-1,j-1)、(i,j-1)、(i-1,j)的元素值；

2.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法，其特征在于，对实体属性进行逻辑谓词表示包括以下步骤：

3.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法，其特征在于，对实体关系进行逻辑谓词具体为采用Relation()对实体关系进行谓词表示，即Relation(E₁，E₂，R)，表示实体E₁与实体E₂之间关系是R。

4.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法，其特征在于，对本体约束进行逻辑谓词具体为选取MUT()、DOM()、SUB()作为本体约束，并对本体约束进行谓词表示为Mut(T1，T2)表示实体所属类别不能同时是T1和T2，Sub(T1，T)表示实体的类别T1是T子类，Dom(E，D)表示实体E所属于领域为D。

5.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法，其特征在于，基于实体关系构建的逻辑规则为：

6.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法，其特征在于，基于本体约束构建的逻辑规则为：

7.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法，其特征在于，所述关于实体解析的概率软逻辑模型为：

8.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法，其特征在于，所述步骤d中在对概率软逻辑模型进行权重学习过程中选择最大似然参数估计法，应用梯度函数进行权重参数估计，具体过程如公式(1)所示：

9.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法，其特征在于：所述步骤e中所述推理算法为MPE推理算法或边际推理算法。