CN110991186B - 一种基于概率软逻辑模型的实体解析方法 - Google Patents

一种基于概率软逻辑模型的实体解析方法 Download PDF

Info

Publication number
CN110991186B
CN110991186B CN201911235517.8A CN201911235517A CN110991186B CN 110991186 B CN110991186 B CN 110991186B CN 201911235517 A CN201911235517 A CN 201911235517A CN 110991186 B CN110991186 B CN 110991186B
Authority
CN
China
Prior art keywords
entity
logic
attributes
same
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911235517.8A
Other languages
English (en)
Other versions
CN110991186A (zh
Inventor
韩伟红
宫云宝
陈雷霆
曹厚华
蒋振韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhisheng Information Technology Dongguan Co ltd
Original Assignee
Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Electronic Information Engineering Research Institute of UESTC filed Critical Guangdong Electronic Information Engineering Research Institute of UESTC
Priority to CN201911235517.8A priority Critical patent/CN110991186B/zh
Publication of CN110991186A publication Critical patent/CN110991186A/zh
Application granted granted Critical
Publication of CN110991186B publication Critical patent/CN110991186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于实体解析技术领域,具体涉及一种基于概率软逻辑模型的实体解析方法,包括以下步骤:a、将实体解析中的实体属性、实体关系以及本体约束分别进行逻辑谓词表示;b、分别基于实体属性、实体关系以及本体约束构建实体解析过程中的一阶逻辑规则;c、结合步骤a中声明的逻辑谓词与步骤b中构建的逻辑规则设置一个关于实体解析的概率软逻辑模型;d、对概率软逻辑模型进行权重学习;e、使用推理算法对概率软逻辑模型进行计算,通过实体解析概率值。与现有技术相比,本发明通过进行谓词逻辑表示,提出基于实体属性相似度、实体关系、本体约束的逻辑规则构建,实现了概率软逻辑模型的实体解析过程,有效地提高了实体解析的准确率与执行效率。

Description

一种基于概率软逻辑模型的实体解析方法
技术领域
本发明属于实体解析技术领域,具体涉及一种基于概率软逻辑模型的实体解析方法。
背景技术
实体解析(Entity Resolution,ER)也称为实体对齐(Entity Alignment)或实体匹配(Entity matching),是判断在相同或者不相同数据集中,两个实体是否指向真实世界同一个对象。实体解析主要用于解决多源数据中实体冲突、指代不明等问题,帮助机器理解多数据源,构成了高质量的知识。近年来,随着知识爆炸式增长,实体解析技术在数据挖掘、信息融合等领域上应用取得成果,引起国内外学术研究者的高度关注。与此同时,实体解析技术已经广泛应用到医疗系统、银行管理系统、以及大规模知识库构建等领域。
目前,对于实体解析的研究主要基于Fellegi-Sunter实体解析模型,主要通过匹配实体的属性集计算出两个实体相似度得分,再利用相似度得分判断这两个实体是否表示同一个实体,这种判断被称为匹配决策。对于实体属性集合来说,每个需要匹配的候选实体属性对,都需要进行匹配决策,并针对不同属性进行相应调整。最后,利用逻辑回归(Logistic Regression,LR)模型与逻辑规则的传递闭包,以确保实体的一致性。但是这些传统算法均具有较高的复杂度,而且准确率较低。
因此,有必要提出一种改进的方案,以更好地适应实体解析的应用。
发明内容
本发明的目的在于:针对现有技术的不足,而提供的一种基于概率软逻辑模型的实体解析方法,通过该方法能有效地提高实体解析的性能。
为实现上述目的,本发明采用如下技术方案:
一种基于概率软逻辑模型的实体解析方法,包括以下步骤:
a、将实体解析中的实体属性、实体关系以及本体约束分别进行逻辑谓词表示;
b、分别基于实体属性、实体关系以及本体约束构建实体解析过程中的一阶逻辑规则;
c、结合步骤a中声明的逻辑谓词与步骤b中构建的逻辑规则设置一个关于实体解析的概率软逻辑模型;
d、对概率软逻辑模型进行权重学习;
e、使用推理算法对概率软逻辑模型进行计算,通过实体解析概率值。
作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进,对实体属性进行逻辑谓词表示包括以下步骤:
a11、选取实体名字作为实体的重要属性,其余属性作为一般属性;
a12、重要属性采用属性名作为逻辑谓词,即Name(E,N)表示实体E的名字是N;一般属性采用统一谓词Property()表示,即Property(E,P,V)表示实体E存在属性P且该属性值为V。
作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进,对实体关系进行逻辑谓词具体为采用Relation()对实体关系进行谓词表示,即Relation(E1,E2,R),表示实体E1与实体E2之间关系是R。
作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进,对本体约束进行逻辑谓词具体为选取MUT()、DOM()、SUB()作为本体约束,并对本体约束进行谓词表示为Mut(T1,T2)表示实体所属类别不能同时是T1和T2,Sub(T1,T)表示实体的类别T1是T子类,Dom(E,D)表示实体E所属于领域为D。
作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进,基于实体属性构建的逻辑规则为:
其中,逻辑规则(b1)表示当实体A和B具有相同名字时,A和B可能表示同一个实体,Wn表示该逻辑规则权重;
逻辑规则(b2)表示当实体A和实体B同属一个类别且具有相似名字时,A和B可能表示同一个实体,Wt表示该逻辑规则权重,Similar(X,Y)表示计算X与Y相似度的相似函数;
逻辑规则(b3)表示当实体A和实体B具有相同属性以及相似属性值时,A和B可能表示同一个实体,Wp表示该逻辑规则权重,Similar(V1,V2)表示计算V1与V2相似度的相似函数。
作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进,基于实体关系构建的逻辑规则为:
其中,逻辑规则(b4)表示当实体A和实体B与实体C具有相同关系时,A和B可能表示同一个实体,其中Wr表示该逻辑规则权重;
逻辑规则(b5)表示实体A和实体B是同一个实体且实体A和C关系与实体B和D关系相同时,实体C和D表示同一个实体,Ws表示该逻辑规则权重。
作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进,基于本体约束构建的逻辑规则为:
其中,逻辑规则(b6)表示当实体A和B的所属类别不能同时表示同一个实体时,A和B表示不同一个实体,Wm表示该逻辑规则权重;
逻辑规则(b7)表示当实体A和B的类别具有相同父类时,A和B可能表示同一个实体,Wc表示该逻辑规则权重;
逻辑规则(b8)表示当实体A和B的类别具有相同域时,A和B可能表示同一个实体,Wd表示该逻辑规则权重。
作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进,所述关于实体解析的概率软逻辑模型为:
其中,R是概率软逻辑模型中逻辑规则集合,λr表示逻辑规则r的权重,Z表示规划因子,d(r)表示逻辑规则r的距离满意度,p=1表示采用一阶逻辑规则。
作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进,所述步骤d中在对概率软逻辑模型进行权重学习过程中选择最大似然参数估计法,应用梯度函数进行权重参数估计,具体过程如公式(1)所示:
其中,Ri表示所有带有权重λi被初始化的逻辑规则,其中p=1,由于计算是NP难问题,因此,采用/>近似代替,I*表示原子最有可能的正确解释。
作为对本发明中所述的基于概率软逻辑模型的实体解析方法的改进,所述步骤e中所述推理算法为MPE推理算法或边际推理算法。
本发明的有益效果在于:与现有技术相比,本发明通过进行谓词逻辑表示,对实体解析过程中逻辑规则构建进行研究,提出基本实体属性相似度、实体关系、本体约束进行逻辑规则构建,概率软逻辑模型的推理机制决策出实体解析概率值,实现了概率软逻辑模型的实体解析过程,有效地提高了实体解析的准确率与执行效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施方式及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的工作实现流程图;
图2为本发明中候选知识集组织结构关系图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
如图1所示,一种基于概率软逻辑模型的实体解析方法,包括以下步骤:
a、将实体解析中的实体属性、实体关系以及本体约束分别进行逻辑谓词表示;
b、分别基于实体属性、实体关系以及本体约束构建实体解析过程中的一阶逻辑规则;
c、结合步骤a中声明的逻辑谓词与步骤b中构建的逻辑规则设置一个关于实体解析的概率软逻辑模型;
d、对概率软逻辑模型进行权重学习;
e、使用推理算法对概率软逻辑模型进行计算,通过实体解析概率值。
需要说明的是,在进行实体解析过程中,候选知识集中知识往往是由实体、实体属性、实体关系以及本体约束组成的,如图2中所示,基于知识集合中基本元素可以构成一个关系图,其中节点是由实体以及实体属性组成的,边是由实体与实体之间关系构建的,构造出图可以有效表示实体之间联系对实体解析过程产生影响。谓词声明是逻辑规则基础,因此本发明通过基于实体属性、实体关系、本体约束对知识集中知识进行逻辑谓词声明以及逻辑规则的构建,有效地提高了实体解析的性能。
另外,在对实体属性进行逻辑谓词表示过程中,由于判断多个实体是否指向同一个实体过程中,不需要利用实体所有属性进行判定,可以通过选取出能够唯一标识这些实体的属性,作为实体解析过程中重要属性进行比较,例如判断多个人名是否指向同一个人,可以通过选取身份证号作为关键属性。因此,本发明根据数据集每个实体属性对实体解析的结果影响,即不同属性在实体解析过程占用权重不同,将实体属性划分成重要属性和一般属性,并根据下述公式计算得到将实体名字作为实体的重要属性,其余属性则作为一般属性,
其中,PF表示实体属性在所有实体中出现的频率,表示实体属性i出现的频率,N表示实体个数,OSF表示区分度,相同实体属性值越少,OSF越大,说明该属性具有很好的区分性,/>表示实体属性i出现相同频数。
优选的,对实体属性进行逻辑谓词表示包括以下步骤:
a11、选取实体名字作为实体的重要属性,其余属性作为一般属性;
a12、重要属性采用属性名作为逻辑谓词,即Name(E,N)表示实体E的名字是N;一般属性采用统一谓词Property()表示,即Property(E,P,V)表示实体E存在属性P且该属性值为V。
优选的,对实体关系进行逻辑谓词具体为采用Relation()对实体关系进行谓词表示,即Relation(E1,E2,R),表示实体E1与实体E2之间关系是R。实体关系表示实体之间内在联系,通过实体考虑实体内在联系可以很好提高实体匹配的性能。
优选的,对本体约束进行逻辑谓词具体为选取MUT()、DOM()、SUB()作为本体约束,并对本体约束进行谓词表示为Mut(T1,T2)表示实体所属类别不能同时是T1和T2,Sub(T1,T)表示实体的类别T1是T子类,Dom(E,D)表示实体E所属于领域为D。
本体是指共享的、规范化的概念模型,是对某一领域中知识结构的系统描述,因此从知识的角度来看,本体是知识构建的重要工具之一。基于本体的知识构建是遵循着本体相关约束,这些本体约束相比实体约束是“大粒度”的,关于本体约束常用谓词相关信息如表1中所示,
表1 本体谓词
由于实体属性值取值有数值型、列表集合型、以及文本字符串型等类型,因此在相似度算法选择也会根据不同属性值类型也不同,因此,本发明基于实体属性构建的逻辑规则为:
其中,逻辑规则(b1)表示当实体A和B具有相同名字时,A和B可能表示同一个实体,Wn表示该逻辑规则权重;
逻辑规则(b2)表示当实体A和实体B同属一个类别且具有相似名字时,A和B可能表示同一个实体,Wt表示该逻辑规则权重,Similar(X,Y)表示计算X与Y相似度的相似函数,于本实施例中,采用Levenshtein距离作为该相似度函数;
逻辑规则(b3)表示当实体A和实体B具有相同属性以及相似属性值时,A和B可能表示同一个实体,Wp表示该逻辑规则权重,Similar(V1,V2)表示计算V1与V2相似度的相似函数,与本实施例中,根据V1和V2数值类型选择相似度函数,例如V1、V2是列表结合类型时采用Jaccard集合相似计算作为该相似度函数,V1、V2是字符串类型时采用Levenshtein距离相似计算作为该相似度函数。
需要说明的是,Levenshtein距离是指将字符串a转化成b所用的最少字符串操作数,叫做字符串A到B的编辑距离。这里所说的字符操作通常是指:删除、插入、替换。字符串相似度等于字符串最少操作次数表示,当操作次数越少时,两个字符串相似度越高。字符串a到b的编辑距离具有以下几个性质:编辑距离取值范围介于[abs(len(a)-len(b)),max(len(a),len(b))]之间;a,b相同是指编辑距离等于零;当len(a)=len(b)时,Levenshtein(a,b)≤Hamming(a,b);编辑距离满足基本三角不等式;当a与b有相同的字符串前缀或后缀时,去掉相同的后缀或前缀,编辑距离计算结果不会产生任何影响,但是字符串其他位置字符不能随意删除。
编辑距离递推公式如下:
在上述的计算公式中,第一行和第二行是初始化过程,表示当a与b长度为0时,字符串a和b的编辑距离计算公式。当b的长度为0时,a通过不断地删除或者添加操作就可以转化成b。编辑距离计算过程就是矩阵d的元素一次次计算,首先对矩阵d的第一行与第一列进行初始化,然后根据公式2.1中第三行公式对其它行列的元素进行计算。根据公式2.1中第三行可知,计算矩阵d中的第(i,j)个元素,需要事先计算出第(i-1,j-1)、(i,j-1)、(i-1,j)的元素值。
而Jaccard相似度是指集合A与B的交集元素个数所占并集元素个数的比例,采用表示J(A,B),其计算公式为
本发明通过考虑实体之间内在联系,能从一种类型的实体解析中获取对另一种实体相关实体解析的有用信息,提高实体解析的准确性,因此,基于实体关系构建的逻辑规则为:
其中,逻辑规则(b4)表示当实体A和实体B与实体C具有相同关系时,A和B可能表示同一个实体,其中Wr表示该逻辑规则权重;
逻辑规则(b5)表示实体A和实体B是同一个实体且实体A和C关系与实体B和D关系相同时,实体C和D表示同一个实体,Ws表示该逻辑规则权重。
本发明通过考虑本体层次在实体解析过程中起到作用,根据现有本体理论以及本体约束谓词表示方法,因此,基于本体约束构建的逻辑规则为:
其中,逻辑规则(b6)表示当实体A和B的所属类别不能同时表示同一个实体时,A和B表示不同一个实体,Wm表示该逻辑规则权重;
逻辑规则(b7)表示当实体A和B的类别具有相同父类时,A和B可能表示同一个实体,Wc表示该逻辑规则权重;
逻辑规则(b8)表示当实体A和B的类别具有相同域时,A和B可能表示同一个实体,Wd表示该逻辑规则权重。
优选的,关于实体解析的概率软逻辑模型为:
其中,R是概率软逻辑模型中逻辑规则集合,λr表示逻辑规则r的权重,Z表示规划因子,d(r)表示逻辑规则r的距离满意度,p=1表示采用一阶逻辑规则。
优选的,步骤d中在对概率软逻辑模型进行权重学习过程中选择最大似然参数估计法,应用梯度函数进行权重参数估计,具体过程如公式(1)所示:
其中,Ri表示所有带有权重λi被初始化的逻辑规则,其中p=1,由于计算是NP难问题,因此,采用/>近似代替,I*表示原子最有可能的正确解释。
优选的,步骤e中推理算法为MPE推理算法或边际推理算法。概率软逻辑模型支持两种有效推理算法:一种是MPE推理机制,即最大概率推理,该算法核心思想是推理出逻辑规则中闭原子概率最有可能取值;另外一种是边际推理算法,该算法是通过计算逻辑规则中闭原子概率值区间范围。上述两种算法在概率软逻辑模型使用最广泛是MPE推理机制,由于MPE算法更加适合解决不确定性问题概率值计算,因此,本实施例中采用MPE推理算法进行计算。
上述说明示出并描述了本发明的若干优选实施方式,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施方式的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (9)

1.一种基于概率软逻辑模型的实体解析方法,其特征在于,包括以下步骤:
a、将实体解析中的实体属性、实体关系以及本体约束分别进行逻辑谓词表示;
b、分别基于实体属性、实体关系以及本体约束构建实体解析过程中的一阶逻辑规则;
c、结合步骤a中声明的逻辑谓词与步骤b中构建的逻辑规则设置一个关于实体解析的概率软逻辑模型;
d、对概率软逻辑模型进行权重学习;
e、使用推理算法对概率软逻辑模型进行计算,通过实体解析概率值;
另外,在对实体属性进行逻辑谓词表示过程中,由于判断多个实体是否指向同一个实体过程中,不需要利用实体所有属性进行判定,可以通过选取出能够唯一标识这些实体的属性,作为实体解析过程中重要属性进行比较,根据数据集每个实体属性对实体解析的结果影响,即不同属性在实体解析过程占用权重不同,将实体属性划分成重要属性和一般属性,并根据公式(100)计算得到将实体名字作为实体的重要属性,其余属性则作为一般属性,
其中,PF表示实体属性在所有实体中出现的频率,表示实体属性i出现的频率,N表示实体个数,OSF表示区分度,相同实体属性值越少,OSF越大,说明该属性具有很好的区分性,表示实体属性i出现相同频数;
基于实体属性构建的逻辑规则为:
其中,逻辑规则(b1)表示当实体A和B具有相同名字时,A和B可能表示同一个实体,Wn表示该逻辑规则权重;
逻辑规则(b2)表示当实体A和实体B同属一个类别且具有相似名字时,A和B可能表示同一个实体,Wt表示该逻辑规则权重,Similar(X,Y)表示计算X与Y相似度的相似函数,采用Levenshtein距离作为该相似度函数;
逻辑规则(b3)表示当实体A和实体B具有相同属性以及相似属性值时,A和B可能表示同一个实体,Wp表示该逻辑规则权重,Similar(V1,V2)表示计算V1与V2相似度的相似函数,V1、V2是列表结合类型时采用Jaccard集合相似计算作为该相似度函数,V1、V2是字符串类型时采用Levenshtein距离相似计算作为该相似度函数;
Levenshtein距离是指将字符串a转化成b所用的最少字符串操作数,叫做字符串A到B的编辑距离,编辑距离递推公式如下:
在上述的计算公式中,第一行和第二行是初始化过程,表示当a与b长度为0时,字符串a和b的编辑距离计算公式,当b的长度为0时,a通过不断地删除或者添加操作就可以转化成b,编辑距离计算过程就是矩阵d的元素一次次计算,首先对矩阵d的第一行与第一列进行初始化,然后根据公式2.1中第三行公式对其它行列的元素进行计算,根据公式2.1中第三行可知,计算矩阵d中的第(i,j)个元素,需要事先计算出第(i-1,j-1)、(i,j-1)、(i-1,j)的元素值;
而Jaccard相似度是指集合A与B的交集元素个数所占并集元素个数的比例,采用表示J(A,B),其计算公式为
2.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,对实体属性进行逻辑谓词表示包括以下步骤:
a11、选取实体名字作为实体的重要属性,其余属性作为一般属性;
a12、重要属性采用属性名作为逻辑谓词,即Name(E,N)表示实体E的名字是N;一般属性采用统一谓词Property()表示,即Property(E,P,V)表示实体E存在属性P且该属性值为V。
3.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,对实体关系进行逻辑谓词具体为采用Relation()对实体关系进行谓词表示,即Relation(E1,E2,R),表示实体E1与实体E2之间关系是R。
4.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,对本体约束进行逻辑谓词具体为选取MUT()、DOM()、SUB()作为本体约束,并对本体约束进行谓词表示为Mut(T1,T2)表示实体所属类别不能同时是T1和T2,Sub(T1,T)表示实体的类别T1是T子类,Dom(E,D)表示实体E所属于领域为D。
5.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,基于实体关系构建的逻辑规则为:
其中,逻辑规则(b4)表示当实体A和实体B与实体C具有相同关系时,A和B可能表示同一个实体,其中Wr表示该逻辑规则权重;
逻辑规则(b5)表示实体A和实体B是同一个实体且实体A和C关系与实体B和D关系相同时,实体C和D表示同一个实体,Ws表示该逻辑规则权重。
6.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,基于本体约束构建的逻辑规则为:
其中,逻辑规则(b6)表示当实体A和B的所属类别不能同时表示同一个实体时,A和B表示不同一个实体,Wm表示该逻辑规则权重;
逻辑规则(b7)表示当实体A和B的类别具有相同父类时,A和B可能表示同一个实体,Wc表示该逻辑规则权重;
逻辑规则(b8)表示当实体A和B的类别具有相同域时,A和B可能表示同一个实体,Wd表示该逻辑规则权重。
7.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,所述关于实体解析的概率软逻辑模型为:
其中,R是概率软逻辑模型中逻辑规则集合,λr表示逻辑规则r的权重,Z表示规划因子,d(r)表示逻辑规则r的距离满意度,p=1表示采用一阶逻辑规则。
8.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,所述步骤d中在对概率软逻辑模型进行权重学习过程中选择最大似然参数估计法,应用梯度函数进行权重参数估计,具体过程如公式(1)所示:
其中,Ri表示所有带有权重λi被初始化的逻辑规则,其中p=1,由于计算是NP难问题,因此,采用/>近似代替,I*表示原子最有可能的正确解释。
9.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于:所述步骤e中所述推理算法为MPE推理算法或边际推理算法。
CN201911235517.8A 2019-12-05 2019-12-05 一种基于概率软逻辑模型的实体解析方法 Active CN110991186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911235517.8A CN110991186B (zh) 2019-12-05 2019-12-05 一种基于概率软逻辑模型的实体解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911235517.8A CN110991186B (zh) 2019-12-05 2019-12-05 一种基于概率软逻辑模型的实体解析方法

Publications (2)

Publication Number Publication Date
CN110991186A CN110991186A (zh) 2020-04-10
CN110991186B true CN110991186B (zh) 2024-02-06

Family

ID=70090555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911235517.8A Active CN110991186B (zh) 2019-12-05 2019-12-05 一种基于概率软逻辑模型的实体解析方法

Country Status (1)

Country Link
CN (1) CN110991186B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529185B (zh) 2021-02-18 2021-07-02 中国科学院自动化研究所 工业过程领域规则知识获取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881399A (zh) * 2015-05-15 2015-09-02 中国科学院自动化研究所 基于概率软逻辑psl的事件识别方法和系统
CN109062904A (zh) * 2018-08-23 2018-12-21 上海互教教育科技有限公司 逻辑谓词提取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3014309A1 (en) * 2017-08-16 2019-02-16 Royal Bank Of Canada Expert knowledge platform

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881399A (zh) * 2015-05-15 2015-09-02 中国科学院自动化研究所 基于概率软逻辑psl的事件识别方法和系统
CN109062904A (zh) * 2018-08-23 2018-12-21 上海互教教育科技有限公司 逻辑谓词提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宫云宝 ; 甘亮 ; 黄九鸣.基于概率软逻辑模型的实体解析.计算机工程.2017,第43卷(第8期),正文第0-4部分. *

Also Published As

Publication number Publication date
CN110991186A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110727839B (zh) 自然语言查询的语义解析
CN110287325A (zh) 一种基于智能语音分析的电网客服业务推荐方法及装置
Shan et al. Confidence-aware negative sampling method for noisy knowledge graph embedding
CN110175585B (zh) 一种简答题自动批改系统及方法
WO2022141876A1 (zh) 基于词向量的搜索方法、装置、设备及存储介质
Xu et al. Method name suggestion with hierarchical attention networks
CN108874778A (zh) 语义实体关系抽取方法、装置及电子设备
US12056125B2 (en) Database processing method and apparatus
Dinarelli et al. Discriminative reranking for spoken language understanding
WO2024099037A1 (zh) 数据处理、实体链接方法、装置和计算机设备
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
CN111026877A (zh) 基于概率软逻辑的知识验证模型构建与分析方法
CN109885561A (zh) 一种基于最大依赖集和属性相关性不一致数据清洗方法
Kanezashi et al. Adaptive pattern matching with reinforcement learning for dynamic graphs
CN110991186B (zh) 一种基于概率软逻辑模型的实体解析方法
Sawant Efficient determination of clusters in K-mean algorithm using neighborhood distance
Hao et al. Walking with attention: Self-guided walking for heterogeneous graph embedding
Wang et al. An improved clustering method for detection system of public security events based on genetic algorithm and semisupervised learning
Zhang et al. Improving entity linking in Chinese domain by sense embedding based on graph clustering
CN109255106A (zh) 一种文本处理方法及终端
CN105119961B9 (zh) 基于本体的语义Web服务自动组合方法
CN114298042B (zh) 实体链接方法、实体链接模型训练方法及电子设备
JP6261669B2 (ja) クエリ校正システムおよび方法
WO2022271369A1 (en) Training of an object linking model
Satta et al. Efficient transformation-based parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240710

Address after: Room 303, Building 2, No. 16 Keji Fourth Road, Songshan Lake Park, Dongguan City, Guangdong Province, 523000

Patentee after: Zhisheng Information Technology (Dongguan) Co.,Ltd.

Country or region after: China

Address before: 523000 No. 17, headquarters 2nd Road, Songshanhu high tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee before: GUANGDONG ELECTRONIC INFORMATION ENGINEERING Research Institute OF UESTC(UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA)

Country or region before: China

TR01 Transfer of patent right