CN109902144B - 一种基于改进wmd算法的实体对齐方法 - Google Patents

一种基于改进wmd算法的实体对齐方法 Download PDF

Info

Publication number
CN109902144B
CN109902144B CN201910027346.3A CN201910027346A CN109902144B CN 109902144 B CN109902144 B CN 109902144B CN 201910027346 A CN201910027346 A CN 201910027346A CN 109902144 B CN109902144 B CN 109902144B
Authority
CN
China
Prior art keywords
attribute
similarity
entity
word
encyclopedic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910027346.3A
Other languages
English (en)
Other versions
CN109902144A (zh
Inventor
姜明
闻涛
张旻
汤景凡
滕海滨
何杰成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU ELECTRONIC SCIENCE AND TECHNOLOGY UNIV
Original Assignee
HANGZHOU ELECTRONIC SCIENCE AND TECHNOLOGY UNIV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU ELECTRONIC SCIENCE AND TECHNOLOGY UNIV filed Critical HANGZHOU ELECTRONIC SCIENCE AND TECHNOLOGY UNIV
Priority to CN201910027346.3A priority Critical patent/CN109902144B/zh
Publication of CN109902144A publication Critical patent/CN109902144A/zh
Application granted granted Critical
Publication of CN109902144B publication Critical patent/CN109902144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明是一种基于改进WMD算法的实体对齐方法。本发明步骤如下:获取同名百科实体对,计算实体对之间的属性相似度;计算实体间的摘要文本相似度;通过属性相似度和摘要文本相似度综合判断完成实体对齐。属性相似度计算包括:规范实体之对间属性名不一致的情况,将实体对的属性值归一单位化,通过编辑距离算法计算实体对之间的属性相似度。摘要文本相似度计算包括:对摘要文本分词并除去停用词,使用TextRank算法计算每个词的词权重,通过预训练好的word2vec模型,将分词后的摘要文本转化为词的分布式低维实数向量表示,将词向量和计算好的单个词权重作为参数。本发明有效降低了单纯依赖属性相似度来进行实体消岐工作带来的误差。

Description

一种基于改进WMD算法的实体对齐方法
技术领域
本发明属于自然语言处理技术领域,涉及的实体对齐方法,具体来讲是一种基于改进WMD算法的实体对齐方法。
背景技术
为促进数据的语义化,国内外的研究机构和企业已经构建了丰富多样的知识库。这些知识库在数据挖掘,语义分析,智能问答系统等应用中发挥了重要的作用。但仅仅使用单一知识库会导致信息覆盖面低,描述不完整的问题。在构建中文知识库中,可以通过多个知识库的融合,有效解决信息缺失的问题,而有效的实体对齐技术正是数据融合的关键所在。实体对齐的目的是判别来自不同数据源中的实体是否指向现实世界的同一对象。通过有效的实体对齐技术,我们可以从网络百科实体页面中抽取实体,进而构建一个高质量的中文百科知识库。
实体对齐实质上是要解决多源知识库之间异构问题,目前知识库的异构问题主要体现在两个方面(1)体系结构差异,不同知识库的结构存在较大差异;(2)内容差异,即不同知识库中所填充的实体不同,相同的实体名可能指代多个对象。但中文知识库资源缺乏完整的体系结构,不适用应用以上方法。在内容差异方面的对齐工作较少,多为基于实体的属性信息。但由于百科数据属于用户原创,数据质量参差不齐,仅通过属性信息难以判定是否为同一实体。
发明内容
本发明对传统实习对齐方法在中文百科实体上正确率不高的问题,公开一种基于改进WMD算法的实体对齐方法,一种通过计算编辑距离和改进的WMD距离进而完成中文百科实体对齐方法。
一种基于改进WMD算法的实体对齐方法,按照如下步骤进行:
步骤(1)计算百科实体之间的属性相似度。
步骤(2)计算百科实体间的摘要文本相似度。
步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否能够消岐。
步骤1所述的计算百科实体之间的属性相似度,过程如下:
1.1首先统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建了多个类别的属性名映射表,进而规范属性名称不一致的情况。
1.2其次统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化。
1.3对于实体Ea,Eb,其属性名称集合分别为: Propertya={pa1,pa2,...,Pam},Propertyb={pb1,pb2,...,pbn}。属性值集合分别为 Valuea={Va1,Va2,...,Vam},VaIueb={Vb1,Vb2,...,Vbn}。
1.4对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb。其中Pam的属性值为Vam, Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
Figure BDA0001942984240000021
其中:
T=|Propretya∩Propretyb|
T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度。
进一步的,步骤2所述的计算百科实体之间摘要文本相似度的步骤如下:
2.1采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
Figure BDA0001942984240000023
其中,In(Vi)代表指向该词Vi的集合,Out(Vj)代表Vi指向的词集合,d为阻尼系数,一般设置为0.85。sij为词Vi到Vj边的权重,sjk为词Vj到Vk边的权重。
2.2通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Wordtravel cost,词Vi,Vj之间的 word travel cost定义为:
C(i,j)=||xi-xj||2
其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量。
2.3在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将D0中的所有单词转化为D1中的单词。D0中的词Vi的权重为WS(Vi), D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1…Vn}。设T∈Rn×n为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
Figure BDA0001942984240000031
其中:
Figure BDA0001942984240000032
Figure BDA0001942984240000033
2.4通过以上计算,百科实体的摘要文本相似度计算公式为:
Figure BDA0001942984240000034
进一步的,步骤3通过属性相似度和摘要文本相似度综合判断的步骤如下包括:
3.1将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值v,则对齐实体,输出新的实体。若相似度在在上限阈值v和下限阈值ω之间或等于下限阈值ω,则转向步骤3.2。否则认为该实体对之间不需要对齐工作;
3.2将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体。否则判定这两个实体无关。
本发明的优点及有益效果如下:
本发明由于采取以上技术方案,具有如下优点:本发明通过改进的WMD算法对百科实体的摘要文本进行相似度计算,同时考虑百科实体的属性相似度,综合判断是否可以进行百科实体对的消岐工作。在引入对百科实体摘要文本的语义信息的考量的同时,有效降低了单纯依赖属性相似度来进行实体消岐工作带来的误差。
附图说明
图1是本发明所述方法的流程框图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于改进的WMD算法的实体对齐方法包括以下步骤:
1)步骤(1)计算百科实体之间的属性相似度。
1.1)首先统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建了多个类别的属性名映射表,进而规范属性名不一致的情况。
1.2)其次统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化。
1.3)对于实体Ea,Eb,其属性名集合其属性名集合 Propertya={pa1,Pa2,...,Pam},Propertyb={pb1,pb2,...,Pbn}。属性值集合为 Valuea={Va1,Va2,...,Vam},VaIueb={Vb1,Vb2,...,Vbn}。
1.4)对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb。其中Pam的属性值为Vam, Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
Figure BDA0001942984240000041
其中:
T=|Propretya∩Propretyb|
Figure BDA0001942984240000042
T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度。
2)步骤(2)计算实体间的摘要文本相似度。
2.1)采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
Figure BDA0001942984240000051
2.2)通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Wordtravel cost,词Vi,Vj之间的 word travel cost定义为:
C(i,j)=||xi-xj||2
其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量。
2.3)在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将 D0中的所有单词转化为D1中的单词。D0中的词Vi的权重为WS(Vi),D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1…Vn}。设T∈Rn×n为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
Figure BDA0001942984240000052
其中:
Figure BDA0001942984240000053
Figure BDA0001942984240000054
2.4)通过以上计算,百科实体的摘要文本相似度计算公式为:
Figure BDA0001942984240000055
3)步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否可以消岐。
3.1)将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值v,则对齐实体,输出新的实体。若相似度在上限阈值ν和下限阈值ω之间或等于下限阈值ω,则转向下一步。否则认为该实体对之间不需要对齐工作
3.2)将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体。否则判定这两个实体无关。
3.3)根据以上的定义和公式,综合判断中文百科实体对齐的算法如下:
Figure BDA0001942984240000061

Claims (2)

1.一种基于改进WMD算法的实体对齐方法,其特征在于包括如下步骤:
步骤(1)计算百科实体之间的属性相似度;
步骤(2)计算百科实体间的摘要文本相似度;
步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否能够消岐,
步骤1所述的计算百科实体之间的属性相似度,过程如下:
1.1统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建多个类别的属性名映射表,进而规范属性名称不一致的情况;
1.2统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化;
1.3对于实体Ea,Eb,其属性名称集合分别为:Propertya={pa1,pa2,...,pam},Propertyb={pb1,pb2,...,pbn};属性值集合分别为Valuea={va1,va2,...,vam},Valueb={vb1,vb2,...,vbn};
1.4对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb;其中Pam的属性值为Vam,Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
Figure FDA0002284283690000011
其中:
T=|Propretya∩Propretyb|;
Figure FDA0002284283690000012
T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度,
步骤2所述的计算百科实体之间摘要文本相似度的步骤如下:
2.1采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
Figure FDA0002284283690000021
其中,In(Vi)代表指向该词Vi的集合,Out(Vj)代表Vi指向的词集合,d为阻尼系数,设置为0.85;sij为词Vi到Vj边的权重,sjk为词Vj到Vk边的权重;
2.2通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Wordtravel cost,词Vi,Vj之间的word travel cost定义为:
C(i,j)=||xi-xj||2
其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量;
2.3在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将D0中的所有单词转化为D1中的单词;D0中的词Vi的权重为WS(Vi),D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1...Vn};设T∈Rn×n为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
Figure FDA0002284283690000022
其中:
Figure FDA0002284283690000023
Figure FDA0002284283690000024
2.4通过以上计算,百科实体的摘要文本相似度计算公式为:
Figure FDA0002284283690000025
2.根据权利要求1所述的一种基于改进WMD算法的实体对齐方法,其特征在于步骤3通过属性相似度和摘要文本相似度综合判断的步骤如下包括:
3.1将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值ν,则对齐实体,输出新的实体;若相似度在在上限阈值ν和下限阈值ω之间或等于下限阈值ω,则转向步骤3.2;否则认为该实体对之间不需要对齐工作;
3.2将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体;否则判定这两个实体无关。
CN201910027346.3A 2019-01-11 2019-01-11 一种基于改进wmd算法的实体对齐方法 Active CN109902144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910027346.3A CN109902144B (zh) 2019-01-11 2019-01-11 一种基于改进wmd算法的实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910027346.3A CN109902144B (zh) 2019-01-11 2019-01-11 一种基于改进wmd算法的实体对齐方法

Publications (2)

Publication Number Publication Date
CN109902144A CN109902144A (zh) 2019-06-18
CN109902144B true CN109902144B (zh) 2020-01-31

Family

ID=66943662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910027346.3A Active CN109902144B (zh) 2019-01-11 2019-01-11 一种基于改进wmd算法的实体对齐方法

Country Status (1)

Country Link
CN (1) CN109902144B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413737B (zh) * 2019-07-29 2022-10-14 腾讯科技(深圳)有限公司 一种同义词的确定方法、装置、服务器及可读存储介质
CN110674311A (zh) * 2019-09-05 2020-01-10 国家电网有限公司 一种基于知识图谱的电力资产异构数据融合方法
CN112685542B (zh) * 2019-10-17 2024-02-20 阿里巴巴集团控股有限公司 用于问答系统的方法、装置、计算机系统及可读存储介质
CN110795572B (zh) * 2019-10-29 2022-05-17 腾讯科技(深圳)有限公司 一种实体对齐方法、装置、设备及介质
CN112116965B (zh) * 2020-07-20 2022-06-14 上海大学 基于embedding属性相似度的材料工艺流程匹配方法
CN112966027B (zh) * 2021-03-22 2022-10-21 青岛科技大学 一种基于动态探针的实体关联挖掘方法
CN114579712B (zh) * 2022-05-05 2022-07-15 中科雨辰科技有限公司 基于动态模型的文本属性提取匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN108984661A (zh) * 2018-06-28 2018-12-11 上海海乂知信息科技有限公司 一种知识图谱中实体对齐方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856181B2 (en) * 2011-07-08 2014-10-07 First Retail, Inc. Semantic matching
CN103699663B (zh) * 2013-12-27 2017-02-08 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN108763333B (zh) * 2018-05-11 2022-05-17 北京航空航天大学 一种基于社会媒体的事件图谱构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108984661A (zh) * 2018-06-28 2018-12-11 上海海乂知信息科技有限公司 一种知识图谱中实体对齐方法和装置

Also Published As

Publication number Publication date
CN109902144A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109902144B (zh) 一种基于改进wmd算法的实体对齐方法
US11586637B2 (en) Search result processing method and apparatus, and storage medium
CN108399163B (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
WO2020182019A1 (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN103049435B (zh) 文本细粒度情感分析方法及装置
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
Yang Research and realization of internet public opinion analysis based on improved TF-IDF algorithm
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN108959258A (zh) 一种基于表示学习的特定领域集成实体链接方法
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN110472652A (zh) 基于语义引导的少量样本分类方法
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
CN112214991A (zh) 一种基于多特征融合加权的微博文本立场检测方法
CN106055652A (zh) 一种基于模式和实例的数据库匹配方法及系统
CN110674313A (zh) 一种基于用户日志动态更新知识图谱的方法
WO2022061877A1 (zh) 事件抽取和抽取模型训练的方法和装置、设备、介质
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN104809236B (zh) 一种基于微博的用户年龄分类方法及系统
CN111339258A (zh) 基于知识图谱的大学计算机基础习题推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant