CN109902144A - 一种基于改进wmd算法的实体对齐方法 - Google Patents
一种基于改进wmd算法的实体对齐方法 Download PDFInfo
- Publication number
- CN109902144A CN109902144A CN201910027346.3A CN201910027346A CN109902144A CN 109902144 A CN109902144 A CN 109902144A CN 201910027346 A CN201910027346 A CN 201910027346A CN 109902144 A CN109902144 A CN 109902144A
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- similarity
- attribute
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明是一种基于改进WMD算法的实体对齐方法。本发明步骤如下:获取同名百科实体对,计算实体对之间的属性相似度;计算实体间的摘要文本相似度;通过属性相似度和摘要文本相似度综合判断完成实体对齐。属性相似度计算包括:规范实体之对间属性名不一致的情况,将实体对的属性值归一单位化,通过编辑距离算法计算实体对之间的属性相似度。摘要文本相似度计算包括:对摘要文本分词并除去停用词,使用TextRank算法计算每个词的词权重,通过预训练好的word2vec模型,将分词后的摘要文本转化为词的分布式低维实数向量表示,将词向量和计算好的单个词权重作为参数。本发明有效降低了单纯依赖属性相似度来进行实体消岐工作带来的误差。
Description
技术领域
本发明属于自然语言处理技术领域,涉及的实体对齐方法,具体来讲是一种基于改进WMD算法的实体对齐方法。
背景技术
为促进数据的语义化,国内外的研究机构和企业已经构建了丰富多样的知识库。这些知识库在数据挖掘,语义分析,智能问答系统等应用中发挥了重要的作用。但仅仅使用单一知识库会导致信息覆盖面低,描述不完整的问题。在构建中文知识库中,可以通过多个知识库的融合,有效解决信息缺失的问题,而有效的实体对齐技术正是数据融合的关键所在。实体对齐的目的是判别来自不同数据源中的实体是否指向现实世界的同一对象。通过有效的实体对齐技术,我们可以从网络百科实体页面中抽取实体,进而构建一个高质量的中文百科知识库。
实体对齐实质上是要解决多源知识库之间异构问题,目前知识库的异构问题主要体现在两个方面(1)体系结构差异,不同知识库的结构存在较大差异;(2)内容差异,即不同知识库中所填充的实体不同,相同的实体名可能指代多个对象。但中文知识库资源缺乏完整的体系结构,不适用应用以上方法。在内容差异方面的对齐工作较少,多为基于实体的属性信息。但由于百科数据属于用户原创,数据质量参差不齐,仅通过属性信息难以判定是否为同一实体。
发明内容
本发明对传统实习对齐方法在中文百科实体上正确率不高的问题,公开一种基于改进WMD算法的实体对齐方法,一种通过计算编辑距离和改进的WMD距离进而完成中文百科实体对齐方法。
一种基于改进WMD算法的实体对齐方法,按照如下步骤进行:
步骤(1)计算百科实体之间的属性相似度。
步骤(2)计算百科实体间的摘要文本相似度。
步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否能够消岐。
步骤1所述的计算百科实体之间的属性相似度,过程如下:
1.1首先统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建了多个类别的属性名映射表,进而规范属性名称不一致的情况。
1.2其次统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化。
1.3对于实体Ea,Eb,其属性名称集合分别为: Propertya={pa1,pa2,...,Pam},Propertyb={pb1,pb2,...,pbn}。属性值集合分别为 Valuea={Va1,Va2,...,Vam},VaIueb={Vb1,Vb2,...,Vbn}。
1.4对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb。其中Pam的属性值为Vam, Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
其中:
T=|Propretya∩Propretyb|
T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度。
进一步的,步骤2所述的计算百科实体之间摘要文本相似度的步骤如下:
2.1采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
其中,In(Vi)代表指向该词Vi的集合,Out(Vj)代表Vi指向的词集合,d为阻尼系数,一般设置为0.85。sij为词Vi到Vj边的权重,sjk为词Vj到Vk边的权重。
2.2通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Wordtravel cost,词Vi,Vj之间的 word travel cost定义为:
C(i,j)=||xi-xj||2
其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量。
2.3在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将D0中的所有单词转化为D1中的单词。D0中的词Vi的权重为WS(Vi), D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1…Vn}。设T∈Rn×n为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
其中:
2.4通过以上计算,百科实体的摘要文本相似度计算公式为:
进一步的,步骤3通过属性相似度和摘要文本相似度综合判断的步骤如下包括:
3.1将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值v,则对齐实体,输出新的实体。若相似度在在上限阈值v和下限阈值ω之间或等于下限阈值ω,则转向步骤3.2。否则认为该实体对之间不需要对齐工作;
3.2将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体。否则判定这两个实体无关。
本发明的优点及有益效果如下:
本发明由于采取以上技术方案,具有如下优点:本发明通过改进的WMD算法对百科实体的摘要文本进行相似度计算,同时考虑百科实体的属性相似度,综合判断是否可以进行百科实体对的消岐工作。在引入对百科实体摘要文本的语义信息的考量的同时,有效降低了单纯依赖属性相似度来进行实体消岐工作带来的误差。
附图说明
图1是本发明所述方法的流程框图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于改进的WMD算法的实体对齐方法包括以下步骤:
1)步骤(1)计算百科实体之间的属性相似度。
1.1)首先统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建了多个类别的属性名映射表,进而规范属性名不一致的情况。
1.2)其次统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化。
1.3)对于实体Ea,Eb,其属性名集合其属性名集合 Propertya={pa1,Pa2,...,Pam},Propertyb={pb1,pb2,...,Pbn}。属性值集合为 Valuea={Va1,Va2,...,Vam},VaIueb={Vb1,Vb2,...,Vbn}。
1.4)对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb。其中Pam的属性值为Vam, Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
其中:
T=|Propretya∩Propretyb|
T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度。
2)步骤(2)计算实体间的摘要文本相似度。
2.1)采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
2.2)通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Wordtravel cost,词Vi,Vj之间的 word travel cost定义为:
C(i,j)=||xi-xj||2
其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量。
2.3)在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将 D0中的所有单词转化为D1中的单词。D0中的词Vi的权重为WS(Vi),D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1…Vn}。设T∈Rn×n为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
其中:
2.4)通过以上计算,百科实体的摘要文本相似度计算公式为:
3)步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否可以消岐。
3.1)将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值v,则对齐实体,输出新的实体。若相似度在上限阈值ν和下限阈值ω之间或等于下限阈值ω,则转向下一步。否则认为该实体对之间不需要对齐工作
3.2)将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体。否则判定这两个实体无关。
3.3)根据以上的定义和公式,综合判断中文百科实体对齐的算法如下:
。
Claims (4)
1.一种基于改进WMD算法的实体对齐方法,其特征在于包括如下步骤:
步骤(1)计算百科实体之间的属性相似度;
步骤(2)计算百科实体间的摘要文本相似度;
步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否能够消岐。
2.根据权利要求1所述的一种基于改进WMD算法的实体对齐方法,其特征在于步骤1所述的计算百科实体之间的属性相似度,过程如下:
1.1统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建多个类别的属性名映射表,进而规范属性名称不一致的情况;
1.2统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化;
1.3对于实体Ea,Eb,其属性名称集合分别为:Propertya={pa1,pa2,…,pam},Propertyb={pb1,pb2,…,pbn};属性值集合分别为Valuea={va1,va2,…,vam},Valueb={vb1,vb2,…,vbn};
1.4对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb;其中Pam的属性值为Vam,Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
其中:
T=|Propretya∩Propretyb|;
T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度。
3.根据权利要求2所述的一种基于改进WMD算法的实体对齐方法,其特征在于步骤2所述的计算百科实体之间摘要文本相似度的步骤如下:
2.1采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
其中,In(Vi)代表指向该词Vi的集合,Out(Vj)代表Vi指向的词集合,d为阻尼系数,一般设置为0.85;sij为词Vi到Vj边的权重,sjk为词Vj到Vk边的权重;
2.2通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Wordtravel cost,词Vi,Vj之间的word travel cost定义为:
C(i,j)=||xi-xj||2
其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量;
2.3在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将D0中的所有单词转化为D1中的单词;D0中的词Vi的权重为WS(Vi),D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1…Vn};设T∈Rn×n为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
其中:
2.4通过以上计算,百科实体的摘要文本相似度计算公式为:
4.根据权利要求3所述的一种基于改进WMD算法的实体对齐方法,其特征在于步骤3通过属性相似度和摘要文本相似度综合判断的步骤如下包括:
3.1将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值ν,则对齐实体,输出新的实体;若相似度在在上限阈值ν和下限阈值ω之间或等于下限阈值ω,则转向步骤3.2;否则认为该实体对之间不需要对齐工作;
3.2将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体;否则判定这两个实体无关。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910027346.3A CN109902144B (zh) | 2019-01-11 | 2019-01-11 | 一种基于改进wmd算法的实体对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910027346.3A CN109902144B (zh) | 2019-01-11 | 2019-01-11 | 一种基于改进wmd算法的实体对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902144A true CN109902144A (zh) | 2019-06-18 |
CN109902144B CN109902144B (zh) | 2020-01-31 |
Family
ID=66943662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910027346.3A Active CN109902144B (zh) | 2019-01-11 | 2019-01-11 | 一种基于改进wmd算法的实体对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902144B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413737A (zh) * | 2019-07-29 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种同义词的确定方法、装置、服务器及可读存储介质 |
CN110674311A (zh) * | 2019-09-05 | 2020-01-10 | 国家电网有限公司 | 一种基于知识图谱的电力资产异构数据融合方法 |
CN110795572A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN112116965A (zh) * | 2020-07-20 | 2020-12-22 | 上海大学 | 基于embedding属性相似度的材料工艺流程匹配方法 |
CN112685542A (zh) * | 2019-10-17 | 2021-04-20 | 阿里巴巴集团控股有限公司 | 用于问答系统的方法、装置、计算机系统及可读存储介质 |
CN112966027A (zh) * | 2021-03-22 | 2021-06-15 | 青岛科技大学 | 一种基于动态探针的实体关联挖掘方法 |
CN114579712A (zh) * | 2022-05-05 | 2022-06-03 | 中科雨辰科技有限公司 | 基于动态模型的文本属性提取匹配方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013645A1 (en) * | 2011-07-08 | 2013-01-10 | First Retail Inc. | Semantic matching |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN106250412A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 基于多源实体融合的知识图谱构建方法 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108694201A (zh) * | 2017-04-10 | 2018-10-23 | 华为软件技术有限公司 | 一种实体对齐方法和装置 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108984661A (zh) * | 2018-06-28 | 2018-12-11 | 上海海乂知信息科技有限公司 | 一种知识图谱中实体对齐方法和装置 |
-
2019
- 2019-01-11 CN CN201910027346.3A patent/CN109902144B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013645A1 (en) * | 2011-07-08 | 2013-01-10 | First Retail Inc. | Semantic matching |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN106250412A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 基于多源实体融合的知识图谱构建方法 |
CN108694201A (zh) * | 2017-04-10 | 2018-10-23 | 华为软件技术有限公司 | 一种实体对齐方法和装置 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108984661A (zh) * | 2018-06-28 | 2018-12-11 | 上海海乂知信息科技有限公司 | 一种知识图谱中实体对齐方法和装置 |
Non-Patent Citations (2)
Title |
---|
MOHAMMED ALSHAHRANI ET AL.: "Word mover"s distance for affect detection", 《 2017 INTERNATIONAL CONFERENCE ON THE FRONTIERS AND ADVANCES IN DATA SCIENCE (FADS)》 * |
严杰: "基于词向量的文本距离计算及引用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413737B (zh) * | 2019-07-29 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 一种同义词的确定方法、装置、服务器及可读存储介质 |
CN110413737A (zh) * | 2019-07-29 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种同义词的确定方法、装置、服务器及可读存储介质 |
CN110674311A (zh) * | 2019-09-05 | 2020-01-10 | 国家电网有限公司 | 一种基于知识图谱的电力资产异构数据融合方法 |
CN112685542A (zh) * | 2019-10-17 | 2021-04-20 | 阿里巴巴集团控股有限公司 | 用于问答系统的方法、装置、计算机系统及可读存储介质 |
CN112685542B (zh) * | 2019-10-17 | 2024-02-20 | 阿里巴巴集团控股有限公司 | 用于问答系统的方法、装置、计算机系统及可读存储介质 |
CN110795572A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN110795572B (zh) * | 2019-10-29 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN112116965A (zh) * | 2020-07-20 | 2020-12-22 | 上海大学 | 基于embedding属性相似度的材料工艺流程匹配方法 |
CN112116965B (zh) * | 2020-07-20 | 2022-06-14 | 上海大学 | 基于embedding属性相似度的材料工艺流程匹配方法 |
CN112966027B (zh) * | 2021-03-22 | 2022-10-21 | 青岛科技大学 | 一种基于动态探针的实体关联挖掘方法 |
CN112966027A (zh) * | 2021-03-22 | 2021-06-15 | 青岛科技大学 | 一种基于动态探针的实体关联挖掘方法 |
CN114579712B (zh) * | 2022-05-05 | 2022-07-15 | 中科雨辰科技有限公司 | 基于动态模型的文本属性提取匹配方法 |
CN114579712A (zh) * | 2022-05-05 | 2022-06-03 | 中科雨辰科技有限公司 | 基于动态模型的文本属性提取匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109902144B (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902144A (zh) | 一种基于改进wmd算法的实体对齐方法 | |
WO2020063092A1 (zh) | 知识图谱的处理方法及装置 | |
CN106250412B (zh) | 基于多源实体融合的知识图谱构建方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
WO2017162134A1 (zh) | 用于文本处理的电子设备和方法 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN112069826B (zh) | 融合主题模型和卷积神经网络的垂直域实体消歧方法 | |
CN110442725B (zh) | 实体关系抽取方法及装置 | |
CN105469096A (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN110619121B (zh) | 基于改进深度残差网络和注意力机制的实体关系抽取方法 | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN114443855A (zh) | 一种基于图表示学习的知识图谱跨语言对齐方法 | |
US20230153335A1 (en) | Searchable data structure for electronic documents | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN113742396B (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
CN109101567A (zh) | 一种分布式的文本近似最近邻语义搜索计算方法 | |
WO2022061877A1 (zh) | 事件抽取和抽取模型训练的方法和装置、设备、介质 | |
CN105335499A (zh) | 一种基于分布-收敛模型的文献聚类方法 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
Wei | Recommended methods for teaching resources in public English MOOC based on data chunking | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 | |
CN110516068B (zh) | 一种基于度量学习的多维度文本聚类方法 | |
CN115545098A (zh) | 一种基于注意力机制的三通道图神经网络的节点分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |