CN110580337A - 一种基于实体相似度计算的专业实体消歧实现方法 - Google Patents

一种基于实体相似度计算的专业实体消歧实现方法 Download PDF

Info

Publication number
CN110580337A
CN110580337A CN201910500293.2A CN201910500293A CN110580337A CN 110580337 A CN110580337 A CN 110580337A CN 201910500293 A CN201910500293 A CN 201910500293A CN 110580337 A CN110580337 A CN 110580337A
Authority
CN
China
Prior art keywords
entity
professional
module
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910500293.2A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Useear Information Technology Co ltd
Original Assignee
Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Singularity Space-Time Digital Technology Co Ltd filed Critical Fujian Singularity Space-Time Digital Technology Co Ltd
Priority to CN201910500293.2A priority Critical patent/CN110580337A/zh
Publication of CN110580337A publication Critical patent/CN110580337A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于实体相似度计算的专业实体消歧实现方法,包括以下具体步骤:S1、构建专业知识图谱;S2、对专业知识图谱中的实体进行处理,并生成专业实体库;S3、获取目标实体,建立目标实体对应的第一共词网络,并获取目标实体的属性值;S4、根据目标实体的属性值,从专业实体库内调取样本实体;S5、建立样本实体对应的第二共词网络;S6、计算第一共词网络和第二共词网络之间的相似度;S7、根据相似度判断目标目标实体和样本实体是否为同一实体。本发明能有效对实体进行消歧,且能大大提高专业判定两实体是否指代同一实体或指代不同实体的精准度。

Description

一种基于实体相似度计算的专业实体消歧实现方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于实体相似度计算的专业实体消歧实现方法。
背景技术
实体消歧有两层次含义,一是相同实体的辨别,明确实体的正确指向,确定其语义,例如苹果可以指代苹果公司,也可以指代一种水果,此时相同实体需要重名消歧;二是不同实体的关联对齐,例如东软和东软集团,以及历史文本中出现的东大阿尔派,同指代东软集团股份有限公司;每一个不同概念意义事物的叙述内容称为义项,如果能准确识别有歧义的实体,准确的对歧义实体进行消歧,从而能大大节省人们在数据库中的获取所需资料的时间;但在党的建设相关知识的学习过程中,需要对党的建设内容相关知识进行查看以了解其含义,但是由于存在实体歧义,人们在从数据库中翻阅查找相关知识的过程中需要花费大量的时间;而且中文实体表述更为灵活,因此对专业的实体进行消歧非常有必要。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于实体相似度计算的专业实体消歧实现方法,本发明能有效对实体进行消歧,且能大大提高专业判定两实体是否指代同一实体或指代不同实体的精准度。
(二)技术方案
为解决上述问题,本发明提供了一种基于实体相似度计算的专业实体消歧实现方法,包括以下具体步骤:
S1、构建专业知识图谱A;
S2、对专业知识图谱A中的实体进行处理,并生成专业实体库B;
S3、获取目标实体C,建立目标实体C对应的第一共词网络D,并获取目标实体C的属性值E;
S4、根据目标实体C的属性值E,从专业实体库B内调取样本实体F;
S5、建立样本实体F对应的第二共词网络G;
S6、计算第一共词网络D和第二共词网络G之间的相似度H;
S7、根据相似度H判断目标目标实体C和样本实体F是否为同一实体;
当相似度H大于第一阈值时,目标实体C与样本实体F确定为同一实体;
当相似度H小于第二阈值时,目标实体C与样本实体F确定为不同实体。
优选的,第一共词网络与第二共词网络存在相同的实体节点。
优选的,S2中对专业知识图谱A中的实体进行处理主要是对知识图谱中实体的语义信息进行噪声数据清洗。
优选的,属性值E的数据类型包括数值型、列表型、文本型中的一种或多种。
优选的,目标实体C与样本实体F确定为同一实体,目标实体C与样本实体F的名称不同,则目标实体C与样本实体F判定为名称不相同的同一实体。
优选的,目标实体C与样本实体F确定为不同实体,目标实体C与样本实体F的名称相同,则目标实体C与样本实体F判定为名称相同的不同实体。
优选的,本发明还提出了上述基于实体相似度计算的专业实体消歧实现方法的工作系统,工作系统包括知识图谱构建模块、实体处理模块、专业实体库模块、目标实体获取模块、中央处理系统、样本实体抽调模块、共词网络建立模块、计算模块和判定模块;
知识图谱构建模块与中央处理系统连接,知识图谱构建模块用于构建专业知识图谱A;
实体处理模块与中央处理系统连接,且实体处理模块与专业实体库模块连接,专业实体库模块与中央处理系统连接,实体处理模块用于构建专业知识图谱A中的实体进行处理,得到样本实体集;实体处理模块还用于将样本实体集发送给专业实体库模块;专业实体库模块用于存储样本实体集,并生成专业实体库B;
目标实体获取模块与中央处理系统连接,目标实体获取模块用于获取目标实体C,并获取目标实体的属性值E;
样本实体抽调模块与中央处理系统连接,样本实体抽调模块用于从专业实体库B内调取样本实体F;
共词网络建立模块与中央处理系统连接,共词网络建立模块用于建立目标实体C对应的第一共词网络D以及建立样本实体F对应的第二共词网络G;
计算模块与中央处理系统连接,计算模块用于计算第一共词网络D和第二共词网络G之间的相似度H;
判定模块与中央处理系统连接,判定模块用于根据相似度H判断目标目标实体C和样本实体F是否为同一实体。
优选的,工作系统还包括输入模块;输入模块与与中央处理系统连接
本发明的上述技术方案具有如下有益的技术效果:
本发明中,通过先建立专业知识图谱,并由专业知识图谱建立专业实体库B;对输入的目标实体C,按照目标实体C的属性值E从专业实体库B中抽调出与目标实体C最近接近的样本实体F;再分别建立目标实体C和样本实体F的共词网络,计算出两者共词网络之间的相似度H,并有相似度H判定目标实体C和样本实体F是否为同一实体;
本发明有效对实体进行消歧,且能大大提高专业判定两实体是否指代同一实体或指代不同实体的精准度。
附图说明
图1为本发明提出的一种基于实体相似度计算的专业实体消歧实现方法的流程图。
图2为本发明提出的一种基于实体相似度计算的专业实体消歧实现方法的原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于实体相似度计算的专业实体消歧实现方法,包括以下具体步骤:
S1、构建专业知识图谱A;
S2、对专业知识图谱A中的实体进行处理,并生成专业实体库B;
S3、获取目标实体C,建立目标实体C对应的第一共词网络D,并获取目标实体C的属性值E;
S4、根据目标实体C的属性值E,从专业实体库B内调取样本实体F;
S5、建立样本实体F对应的第二共词网络G;
S6、计算第一共词网络D和第二共词网络G之间的相似度H;
S7、根据相似度H判断目标目标实体C和样本实体F是否为同一实体;
当相似度H大于第一阈值时,目标实体C与样本实体F确定为同一实体;
当相似度H小于第二阈值时,目标实体C与样本实体F确定为不同实体。
在一个可选的实施例中,第一共词网络与第二共词网络存在相同的实体节点。
在一个可选的实施例中,S2中对专业知识图谱A中的实体进行处理主要是对知识图谱中实体的语义信息进行噪声数据清洗。
在一个可选的实施例中,属性值E的数据类型包括数值型、列表型、文本型中的一种或多种。
当属性值E的数据类型为数值型时,样本实体F的选取可以根据目标实体C 的数值单位、数值大小、数值精度共同确定进行选取;
当属性值E的数据类型为列表型时,样本实体F的选取可以根据目标实体C 的列表名称、列表数据量、列表内容共同确定进行选取;
当属性值E的数据类型为文本型时,样本实体F的选取可以根据目标实体C 的文本名称、文本数据量、文本内容共同确定进行选取;从而根据不同类型的目标实体C均能从专业知识图谱A中抽调处和目标实体C最为相似的样本实体F;
在一个可选的实施例中,目标实体C与样本实体F确定为同一实体,目标实体C与样本实体F的名称不同,则目标实体C与样本实体F判定为名称不相同的同一实体;同理,目标实体C与样本实体F确定为同一实体,目标实体C 与样本实体F的名称相同,则目标实体C与样本实体F判定为名称相同的同一实体。
在一个可选的实施例中,目标实体C与样本实体F确定为不同实体,目标实体C与样本实体F的名称相同,则目标实体C与样本实体F判定为名称相同的不同实体;同理,目标实体C与样本实体F确定为不同实体,目标实体C与样本实体F的名称不相同,则目标实体C与样本实体F判定为名称不相同的不同实体。
如图2所示,本发明还提出的一种基于实体相似度计算的专业实体消歧实现方法的工作系统,工作系统包括知识图谱构建模块、实体处理模块、专业实体库模块、目标实体获取模块、中央处理系统、样本实体抽调模块、共词网络建立模块、计算模块和判定模块;
知识图谱构建模块与中央处理系统连接,知识图谱构建模块用于构建专业知识图谱A;
实体处理模块与中央处理系统连接,且实体处理模块与专业实体库模块连接,专业实体库模块与中央处理系统连接,实体处理模块用于构建专业知识图谱A中的实体进行处理,得到样本实体集;实体处理模块还用于将样本实体集发送给专业实体库模块;专业实体库模块用于存储样本实体集,并生成专业实体库B;
目标实体获取模块与中央处理系统连接,目标实体获取模块用于获取目标实体C,并获取目标实体的属性值E;
样本实体抽调模块与中央处理系统连接,样本实体抽调模块用于从专业实体库B内调取样本实体F;
共词网络建立模块与中央处理系统连接,共词网络建立模块用于建立目标实体C对应的第一共词网络D以及建立样本实体F对应的第二共词网络G;
计算模块与中央处理系统连接,计算模块用于计算第一共词网络D和第二共词网络G之间的相似度H;
判定模块与中央处理系统连接,判定模块用于根据相似度H判断目标目标实体C和样本实体F是否为同一实体。
在一个可选的实施例中,工作系统还包括输入模块;输入模块与与中央处理系统连接,输入模块用于输入目标实体以及构建知识图谱的结构化数据、非结构化的数据和半结构化的数据。
本发明中,通过先建立专业知识图谱,并由专业知识图谱建立专业实体库B;对输入的目标实体C,按照目标实体C的属性值E从专业实体库B中抽调出与目标实体C最近接近的样本实体F;再分别建立目标实体C和样本实体F的共词网络,计算出两者共词网络之间的相似度H,并有相似度H判定目标实体C和样本实体F是否为同一实体,从而大大提高了实体判定的精准度。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (8)

1.一种基于实体相似度计算的专业实体消歧实现方法,其特征在于,包括以下具体步骤:
S1、构建专业知识图谱A;
S2、对专业知识图谱A中的实体进行处理,并生成专业实体库B;
S3、获取目标实体C,建立目标实体C对应的第一共词网络D,并获取目标实体C的属性值E;
S4、根据目标实体C的属性值E,从专业实体库B内调取样本实体F;
S5、建立样本实体F对应的第二共词网络G;
S6、计算第一共词网络D和第二共词网络G之间的相似度H;
S7、根据相似度H判断目标目标实体C和样本实体F是否为同一实体;
当相似度H大于第一阈值时,目标实体C与样本实体F确定为同一实体;
当相似度H小于第二阈值时,目标实体C与样本实体F确定为不同实体。
2.根据权利要求1所述的一种基于实体相似度计算的专业实体消歧实现方法,其特征在于,第一共词网络与第二共词网络存在相同的实体节点。
3.根据权利要求1所述的一种基于实体相似度计算的专业实体消歧实现方法,其特征在于,S2中对专业知识图谱A中的实体进行处理主要是对知识图谱中实体的语义信息进行噪声数据清洗。
4.根据权利要求1所述的一种基于实体相似度计算的专业实体消歧实现方法,其特征在于,属性值E的数据类型包括数值型、列表型、文本型中的一种或多种。
5.根据权利要求1所述的一种基于实体相似度计算的专业实体消歧实现方法,其特征在于,目标实体C与样本实体F确定为同一实体,目标实体C与样本实体F的名称不同,则目标实体C与样本实体F判定为名称不相同的同一实体。
6.根据权利要求1所述的一种基于实体相似度计算的专业实体消歧实现方法,其特征在于,目标实体C与样本实体F确定为不同实体,目标实体C与样本实体F的名称相同,则目标实体C与样本实体F判定为名称相同的不同实体。
7.根据权利要求1-6任一所述的一种基于实体相似度计算的专业实体消歧实现方法,其特征在于,还包括基于上述方法的工作系统,工作系统包括知识图谱构建模块、实体处理模块、专业实体库模块、目标实体获取模块、中央处理系统、样本实体抽调模块、共词网络建立模块、计算模块和判定模块;
知识图谱构建模块与中央处理系统连接,知识图谱构建模块用于构建专业知识图谱A;
实体处理模块与中央处理系统连接,且实体处理模块与专业实体库模块连接,专业实体库模块与中央处理系统连接,实体处理模块用于构建专业知识图谱A中的实体进行处理,得到样本实体集;实体处理模块还用于将样本实体集发送给专业实体库模块;专业实体库模块用于存储样本实体集,并生成专业实体库B;
目标实体获取模块与中央处理系统连接,目标实体获取模块用于获取目标实体C,并获取目标实体的属性值E;
样本实体抽调模块与中央处理系统连接,样本实体抽调模块用于从专业实体库B内调取样本实体F;
共词网络建立模块与中央处理系统连接,共词网络建立模块用于建立目标实体C对应的第一共词网络D以及建立样本实体F对应的第二共词网络G;
计算模块与中央处理系统连接,计算模块用于计算第一共词网络D和第二共词网络G之间的相似度H;
判定模块与中央处理系统连接,判定模块用于根据相似度H判断目标目标实体C和样本实体F是否为同一实体。
8.根据权利要求7所述的一种基于实体相似度计算的专业实体消歧实现方法,其特征在于,工作系统还包括输入模块;输入模块与与中央处理系统连接。
CN201910500293.2A 2019-06-11 2019-06-11 一种基于实体相似度计算的专业实体消歧实现方法 Pending CN110580337A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910500293.2A CN110580337A (zh) 2019-06-11 2019-06-11 一种基于实体相似度计算的专业实体消歧实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910500293.2A CN110580337A (zh) 2019-06-11 2019-06-11 一种基于实体相似度计算的专业实体消歧实现方法

Publications (1)

Publication Number Publication Date
CN110580337A true CN110580337A (zh) 2019-12-17

Family

ID=68810905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910500293.2A Pending CN110580337A (zh) 2019-06-11 2019-06-11 一种基于实体相似度计算的专业实体消歧实现方法

Country Status (1)

Country Link
CN (1) CN110580337A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287302A (zh) * 2019-06-28 2019-09-27 中国船舶工业综合技术经济研究院 一种国防科技领域开源信息置信度确定方法及系统
CN111191045A (zh) * 2019-12-30 2020-05-22 创新奇智(上海)科技有限公司 一种应用于知识图谱的实体对齐方法及系统
CN111666411A (zh) * 2020-05-29 2020-09-15 中国工商银行股份有限公司 企业知识图谱构建方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992480A (zh) * 2017-12-25 2018-05-04 东软集团股份有限公司 一种实现实体消歧的方法、装置及存储介质、程序产品
US20180137404A1 (en) * 2016-11-15 2018-05-17 International Business Machines Corporation Joint learning of local and global features for entity linking via neural networks
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137404A1 (en) * 2016-11-15 2018-05-17 International Business Machines Corporation Joint learning of local and global features for entity linking via neural networks
CN107992480A (zh) * 2017-12-25 2018-05-04 东软集团股份有限公司 一种实现实体消歧的方法、装置及存储介质、程序产品
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287302A (zh) * 2019-06-28 2019-09-27 中国船舶工业综合技术经济研究院 一种国防科技领域开源信息置信度确定方法及系统
CN110287302B (zh) * 2019-06-28 2021-03-30 中国船舶工业综合技术经济研究院 一种国防科技领域开源信息置信度确定方法及系统
CN111191045A (zh) * 2019-12-30 2020-05-22 创新奇智(上海)科技有限公司 一种应用于知识图谱的实体对齐方法及系统
CN111191045B (zh) * 2019-12-30 2023-06-16 创新奇智(上海)科技有限公司 一种应用于知识图谱的实体对齐方法及系统
CN111666411A (zh) * 2020-05-29 2020-09-15 中国工商银行股份有限公司 企业知识图谱构建方法及装置
CN111666411B (zh) * 2020-05-29 2023-10-31 中国工商银行股份有限公司 企业知识图谱构建方法及装置

Similar Documents

Publication Publication Date Title
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN106033416B (zh) 一种字符串处理方法及装置
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN112784063B (zh) 一种成语知识图谱构建方法及装置
CN110580337A (zh) 一种基于实体相似度计算的专业实体消歧实现方法
US10248646B1 (en) Token matching in large document corpora
CN105787134A (zh) 智能问答方法、装置及系统
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
CN116226350A (zh) 一种文档查询方法、装置、设备和存储介质
CN112148841A (zh) 一种对象分类以及分类模型构建方法和装置
CN117632654A (zh) 一种运维风险等级评估方法、装置、电子设备及存储介质
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN113326363B (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
JP2019148933A (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN112527819A (zh) 通讯录信息检索方法、装置、电子设备及存储介质
CN113221566B (zh) 实体关系抽取方法、装置、电子设备和存储介质
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
KR20220024251A (ko) 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체
CN114444514A (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN115470356A (zh) 一种知识图谱构建方法、装置及电子设备
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法
CN114328687B (zh) 事件抽取模型训练方法及装置、事件抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220908

Address after: 361000 units 1702 and 1703, No. 59, Chengyi North Street, phase III, software park, Xiamen, Fujian

Applicant after: XIAMEN USEEAR INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Unit 1701, unit 1704, No. 59, Chengyi North Street, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant before: FUJIAN QIDIAN SPACE-TIME DIGITAL TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191217