CN110569328A - 实体链接方法、电子装置及计算机设备 - Google Patents

实体链接方法、电子装置及计算机设备 Download PDF

Info

Publication number
CN110569328A
CN110569328A CN201910699316.7A CN201910699316A CN110569328A CN 110569328 A CN110569328 A CN 110569328A CN 201910699316 A CN201910699316 A CN 201910699316A CN 110569328 A CN110569328 A CN 110569328A
Authority
CN
China
Prior art keywords
noun
similarity
knowledge graph
index
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910699316.7A
Other languages
English (en)
Inventor
曹灵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910699316.7A priority Critical patent/CN110569328A/zh
Publication of CN110569328A publication Critical patent/CN110569328A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明公开了一种实体链接方法,所述方法包括:将预先建立的知识图谱与ElasticSearch数据库的索引相关联,在实体链接系统中输入名词;基于预先建立的知识图谱在ElasticSearch数据库中搜索所述名词,以取得与所述名词相关的多个候选项;通过改进版最长公共子序列算法,根据所述名词和所述多个候选项中的术语和概念计算出最长公共子序列;通过所述最长公共子序列计算出所述名词和所述多个候选中的每个候选项的相似度,以获得多个相似度;对所述多个相似度排序,取相似度最大的候选项;及返回所述候选项对应的概念作为所述名词的链接实体。本发明提供的实体链接方法与电子装置不需要人工标注数据或构建规则,支持模糊匹配和条件限定,且具有较高的精确度。

Description

实体链接方法、电子装置及计算机设备
技术领域
本发明涉及相似度计算的技术领域,尤其涉及一种实体链接方法、电子装置、计算机设备及存储介质。
背景技术
目前市面上(尤其是医疗领域)很少有公开的实体链接方法,已知的实体链接方法很多是基于词典映射或者简单字面相似度,这种方法需要人工构建大规模的词典,具有明显的局限性,并且无法很好处理错别字的情况。
发明内容
有鉴于此,本发明提出一种实体链接方法,不需要人工标注数据或构建规则,支持模糊匹配和条件限定,且具有较高的精确度。
为实现上述目的,本发明提出一种实体链接方法,应用于电子装置中,所述方法包括步骤:
将预先建立的知识图谱与ElasticSearch数据库的索引相关联;
在所述电子装置的实体链接系统中输入名词;
基于所述预先建立的知识图谱在ElasticSearch数据库中搜索所述名词,以取得与所述名词相关的多个候选项;
通过改进版最长公共子序列算法,根据所述名词和所述多个候选项中的术语和概念计算出最长公共子序列;
通过所述最长公共子序列计算出所述名词和所述多个候选中的每个候选项的相似度,以获得多个相似度;
对所述多个相似度排序,取相似度最大的候选项;及
返回所述候选项对应的所述概念作为所述名词的链接实体。
进一步地,所述索引相关联操作令所述ElasticSearch数据库中的索引和所述知识图谱同步,并通过唯一ID进行关联,及将所述知识图谱中每个节点的唯一ID、概念、术语、类型与来源导入所述ElasticSearch数据库并纪录在所述索引中,并且同步更新所述知识图谱与所述索引。
进一步地,通过关键词匹配方法将所述名词与所述ElasticSearch数据库存储的知识图谱中的节点数据相匹配,以返回所述多个候选项。
进一步地,用字向量来比较两个字的间的相似度,及如果两个字的相似度大于阈值,则认为两个字在语义上相同并记录下来。
为实现上述目的,本发明还提出一种电子装置,包括关联模块、搜索模块、计算模块及判断模块。
所述关联模块用于将预先建立的知识图谱与ElasticSearch数据库的索引相关联。
所述搜索模块用于在所述电子装置的实体链接系统中输入名词,及基于所述预先建立的知识图谱在ElasticSearch数据库中搜索所述名词,以取得与所述名词相关的多个候选项。
所述计算模块用于通过改进版最长公共子序列算法,根据所述名词和所述多个候选项中的术语和概念计算出最长公共子序列,及通过所述最长公共子序列计算出所述名词和所述多个候选中的每个候选项的相似度,以获得多个相似度。
所述判断模块用于对所述多个相似度排序,取相似度最大的候选项,及返回所述候选项对应的所述概念作为所述名词的链接实体。
进一步地,所述关联模块执行所述索引相关联操作令所述ElasticSearch数据库中的索引和所述知识图谱同步,并通过唯一ID进行关联,及将所述知识图谱中每个节点的唯一ID、概念、术语、类型与来源导入所述ElasticSearch数据库并纪录在所述索引中,并且同步更新所述知识图谱与所述索引。
进一步地,所述搜索模块通过关键词匹配方法将所述名词与所述ElasticSearch数据库存储的知识图谱中的节点数据相匹配,以返回所述多个候选项。
进一步地,所述计算模块用字向量来比较两个字之间的相似度,及如果两个字的相似度大于阈值,则认为两个字在语义上相同并记录下来。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实体链接方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实体链接方法的步骤。
本发明的实体链接方法不同于传统的基于规则映射的方法和字面相似度的方法,采用ElasticSearch和改进版最长公共子序列相结合的方法,在节省人力成本的同时提高了准确率。
附图说明
图1是显示本发明实施例的电子装置的硬件架构示意图;
图2是显示本发明实施例的电子装置的功能方块图;及
图3是显示本发明实施例的实体链接方法的步骤流程图。
图4A是显示本发明实施例的实体链接方法的经典图结构的示意图。
图4B是显示本发明实施例的实体链接方法的多关系图。
附图标记:
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个所述特征。另外,各个实施例的间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围的内。
图1是显示本发明实施例的电子装置的硬件架构示意图。电子装置10,但不仅限于,可通过系统总线相互通信连接存储器110、处理器120以及实体链接系统130,图1仅示出了具有组件110-130的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器110至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器110可以是所述电子装置10的内部存储单元,例如所述电子装置10的硬盘或内存。在另一些实施例中,所述存储器也可以是所述电子装置10的外部存储设备,例如所述电子装置10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器110还可以既包括所述电子装置100的内部存储单元也包括其外部存储设备。本实施例中,所述存储器110通常用于存储安装于所述电子装置10的操作系统和各类应用软件,例如实体链接系统130的程序代码等。此外,所述存储器110还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器120在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。所述处理器120通常用于控制所述电子装置10的总体操作。本实施例中,所述处理器120用于运行所述存储器110中存储的程序代码或者处理数据,例如,运行所述实体链接系统130等。
图2是显示本发明实施例的电子装置的功能方块图。本发明实施例的电子装置10包括关联模块210、搜索模块220、计算模块230及判断模块240。
关联模块210,用于将预先建立的知识图谱与ElasticSearch数据库的索引相关联。
在本实施例中,关联模块210执行所述索引相关联操作为令ElasticSearch数据库中的索引和知识图谱同步,通过唯一ID进行关联。
在本实施例中,Elasticsearch是一个基于Lucene库的搜索引擎,提供了一个分布式、支持多租户的全文搜索引擎,具有HTTP Web接口和无模式JSON文文件。
Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。Elasticsearch是分布式的,这意味着索引可以被分成分片,每个分片可以有0个或多个副本。每个节点托管一个或多个分片,并充当协调器将操作委托给正确的分片。再平衡和路由是自动完成的。「相关数据通常存储在同一个索引中,该索引由一个或多个主分片和零个或多个复制分片组成。一旦创建了索引,就不能更改主分片的数量。
知识图谱(Knowledge Graph),是一种语义网络,其结点代表实体(entity)或者概念(concept),边代表实体/概念的间的各种语义关系。
知识图谱本质上是语义网络(Semantic Network)的知识库。,从实际应用的角度出发,也可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。
是图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。但相反,多关系图一般包含多种类型的节点和多种类型的边。比如图4A表示一个经典图结构,图4B则表示多关系图,因为图里包含了多种类型的节点和边。这些类型可以由不同的颜色来标记。
请参阅图4A,经典图结构包括多个节点,比如:张三、李四、贪心科技、小五、小四、A公司等。经典图结构包括多个边,比如:张三是李四的“朋友”,张三“现任职于”贪心科技,小五与小四是“同事”,小五“现任职于”A公司,小四曾任职于A公司等。
请参阅图4B,多关系图包括:贪心科技的公司电话是131X,131X与159X通话,B公司电话是138X,138X与137X通话等。
在知识图谱里,用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体的间的某种联系,比如张三-“现任职于”-贪心科技、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。
关联模块210将知识图谱中每个节点的唯一标识码(Idenfier,ID)、概念(Term)、术语(Concept_Term)、类型(Category)与来源(Source)导入ElasticSearch数据库并记录在索引中,并且保持知识图谱与索引的同步更新。一个概念可以有多个术语,概念通常是比较标准规范,可能是比较抽象的名称,例如,"上呼吸道感染"是个概念,"感冒","风寒"可能是这个概念的术语。
概念和术语的获取可使用多种不同方法来达成,在本发明实施例中,主要步骤包括:首先将文本语料切分成一系列词串,然后进行粗降维;由于专业术语由合成词组成的概率较大,而分词后的术语常常被切分为散串,因此利用互信息值获取合成词,并引入似然比识别低频词;概念并不等同于术语,同一个概念语义可以由多个不同术语表达,因此直接将获取的术语作为概念并不完全正确,例如术语“电脑”和“计算机”,它们互为同义词,本发明实施例通过AP算法来识别术语中的同义词,以获取概念集合。
更详细实施例包括以下操作。
1.1预处理
中文文本预处理包括文本分词和粗降维。本发明实施例采用ICTCLAS作为分词工具,经过ICTCLAS分词后的文本可以表示为C=c1c2…cn,其中ci为一个单独词。粗降维就是从文本中去掉停用词,从而将文本切分为一系列的词串。切分后的文本表示为C=c1c2…ci/ci+1…cj/cj+1…/…/cn
1.2候选术语提取
在获得文本词串的基础上,利用互信息对词串进行第一次筛选,并结合对数似然比获取候选术语集合。由于概念词以组合词出现的概率较大,可以通过计算字串间的互信息值(Mutual Information)确定字串是否是一个完整词。但是对于领域文本中专业低频词汇,采用互信息作为抽取参数是不行的。由于对数似然比对专业低频合成词的识别有较好鲁棒性,因此引入了对数似然比进行低频词的识别。
1.2.1合成词抽取
互信息是评价两个字串之间关联程度的重要指标,其基本原理是若字串s=ab,其中a、b为分词后的词。
1.2.2低频领域术语提取
为了克服互信息对低频词语估计不准确的缺点,通过统计术语在领域文本语料和背景语料中出现的文档数,建立假设检验来计算术语的领域相关度,从而获取低频术语。假设H1表示术语C出现在领域语料和背景语料的概率相同。假设H2表示术语C出现在领域语料和背景语料的概率不同。通过算法完成候选合成术语的抽取,但是术语并不等同于概念,为了得到候选概念集合必须识别术语之间的同义词,从而得到领域概念集合。
1.3概念提取
1.3.1候选领域概念相似度计算
根据公式得到的候选术语在领域语料中出现的次数(ncD),构建“术语-文档”矩阵N[m][n],其中,m为候选术语的数目,n为领域文档总数,N[i][j]表示候选术语i在文档i中出现的次数。衡量术语相似度最常用的方法就是余弦相似度。
1.3.2改进的近邻传播算法
Affinity Propagation(AP)算法是根据数据集中各个点构成的相似度矩阵S找出领域概念集合。AP算法要预先设定每个数据点k的偏向参数s(i,i)(Preference),也可将记为p(i),p(i)作为点xi能否成为聚类中心的评判标准,该值越大,相应的点xi越有可能成为聚类中心,同时聚类的数量也受到p的影响。AP算法引入两种消息传递参数,分别为吸引度(responsibility)和归属度(availability)。其中,a(i,i)用来描述点xi选择点xj作为其聚类中心的适合程度;r(i,i)用来描述点xi适合作为点xi的聚类中心的程度。AP算法的核心就是不断迭代更新数据对间的消息值直到算法收敛为止。
搜索模块220在实体链接系统130中输入名词,例如,医学名词。可对所述名词添加附加信息,例如,医学名词的类型。
搜索模块220基于所述预先建立的知识图谱在ElasticSearch数据库中搜索所述名词,以取得与所述名词相关的多个候选项(或称为候选节点)。
在本实施例中,知识图谱是ElasticSearch数据库中数据的来源,实体链接系统130利用ElasticSearch数据库查找所述多个候选项。
搜索模块220通过关键词匹配方法将所述名词与所述ElasticSearch数据库中存储的知识图谱中的节点数据相匹配,以返回所述多个候选项。
ElasticSearch数据库中的节点包括概念节点和术语节点,一个概念节点一般对应多个术语节点,例如,「苹果手机」、「爱疯」是术语,它们都对应「iPhone」这个概念。
知识图谱中的节点包含很多字段,对于实体链接任务,只需要部分字段即可执行。ElasticSearch是一个数据库,同时也提供高效率的搜索功能,因此将知识图谱中需要的字段导入ElasticSearch数据库,直接通过对应字段在ElasticSearch数据库查询候选项。
知识图谱中包含许多的节点,每个节点都有许多属性(字段),例如"类型"、"来源"。对实体链接的任务来说,首先在ElasticSearch数据库中建立一个索引(可以理解为数据库),将实体链接需要用到的字段从知识图谱中导入,然后知识图谱与ElasticSearch数据库会进行定期同步,每次查询的时候都在ElasticSearch数据库中的这个索引里查找匹配的候选项。
计算模块230通过改进版最长公共子序列(Longest Common Subsequence,LCS)算法,根据所述名词和所述多个候选项中的术语和概念计算出最长公共子序列。
举个例子,在传统最长公共子序列问题中,字符串1为BDCABA,字符串2为ABCBDAB,可得字符串1与字符串2的最长公共子序列为BCBA,这是通过动态规划算法计算的。但是在中文中存在近义词的情况,比如”疼”和”痛”。因此在改进版的算法中不要求两个字完全一样,而是在语义上相似即可。
改进版LCS主要改进的点就是把原来要求两个字完全一样的部分,换成了通过字向量比较两个字的相似度,其他的操作可以参考经典的LCS算法。字向量是通过WORD2VEC算法,并且基于文本数据预训练(例如,医学文本数据预训练)获得的,字向量比较相似度采用余弦相似度的计算方法(余弦相似度是已知技术)。
计算模块230通过所述最长公共子序列LCS计算出所述名词和所述多个候选中的每个候选项的相似度,可获得多个相似度。
判断模块240对所述多个相似度排序,取相似度最大的候选项。如果最大的相似度大于阈值(0.8),则取所述候选项。
用字向量来比较两个字之间的相似度,如果两个字之间的相似度大于阈值(0.8),则认为两个字在语义上相同并记录下来。
判断模块240返回所述候选项对应的概念作为所述名词的链接实体。
如何计算相似度
先用改进版LCS算法计算两个词的最长公共子序列(LCS),其中改进点在于传统的LCS会对两个词中的每个字进行比较,只有两个字相同的情况下才会记录。本发明用字向量来比较两个字的间的相似度,如果两个字的相似度大于阈值(0.8),则认为两个字在语义上相同并记录下来。在获得LCS以后,用以下公式计算:sim(w1,w2)=len(LCS(w1,w2))/len(w1)+len(w2)-len(LCS(w1,w2)),其中,len(w)是字符串或序列w的长度,LCS(w1,w2)是字符串和的间的最长公共子序列LCS)。
图3是显示本发明实施例的实体链接方法的步骤流程图。
步骤301,将预先建立的知识图谱与ElasticSearch数据库的索引相关联。
所述索引相关联操作为令ElasticSearch数据库中的索引和知识图谱同步,通过唯一ID进行关联。
将知识图谱中每个节点的唯一ID、概念、术语、类型与来源导入ElasticSearch数据库并记录在索引中,并且保持知识图谱与索引的同步更新。一个概念可以有多个术语,概念通常是比较标准规范,可能是比较抽象的名称,例如,"上呼吸道感染"是个概念,"感冒","风寒"可能是这个概念的术语。
概念和术语的获取可使用多种不同方法来达成,在本发明实施例中,主要步骤包括:首先将文本语料切分成一系列词串,然后进行粗降维;由于领域专业术语由合成词组成的概率较大,而分词后的术语常常被切分为散串,因此利用互信息值获取合成词,并引入似然比识别低频词;概念并不等同于术语,同一个概念语义可以由多个不同术语表达,因此直接将获取的术语作为概念并不完全正确,例如术语“电脑”和“计算机”,它们互为同义词,本发明实施例通过AP算法来识别术语中的同义词,以获取概念集合。
步骤302,在实体链接系统中输入一个名词,例如,医学名词。可对所述名词添加附加信息,例如,医学名词的类型。
步骤303,基于所述预先建立的知识图谱在ElasticSearch数据库中搜索所述名词,以取得与所述名词相关的多个候选项(或称为候选节点)。
知识图谱是ElasticSearch数据库中数据的来源,实体链接系统130利用ElasticSearch数据库查找所述多个候选项。
通过关键词匹配方法将所述名词与所述ElasticSearch数据库中存储的知识图谱中的节点数据相匹配,以返回所述数个候选项。
ElasticSearch数据库中的节点包括概念节点和术语节点,一个概念节点一般对应多个术语节点,例如,「苹果手机」、「爱疯」是术语,它们都对应「iPhone」这个概念。
知识图谱中的节点包含很多字段,对于实体链接任务,只需要部分字段即可执行。ElasticSearch是一个数据库,同时也提供高效率的搜索功能,因此将知识图谱中需要的字段导入ElasticSearch数据库,直接通过对应字段在ElasticSearch数据库查询候选项。
知识图谱中包含许多的节点,每个节点都有许多属性(字段),例如"类型"、"来源"。对实体链接的任务来说,首先在ElasticSearch数据库中建立一个索引(可以理解为数据库),将实体链接需要用到的字段从知识图谱中导入,然后知识图谱与ElasticSearch数据库会进行定期同步,每次查询的时候都在ElasticSearch数据库中的这个索引里查找匹配的候选项。
步骤304,通过改进版最长公共子序列(LCS)算法,根据所述名词和所述多个候选项中的术语和概念计算出最长公共子序列。
举个例子,在传统最长公共子序列问题中,字符串1为BDCABA,字符串2为ABCBDAB,可得字符串1与字符串2的最长公共子序列为BCBA,这是通过动态规划算法计算的。但是在中文中存在近义词的情况,比如”疼”和”痛”。因此在改进版的算法中不要求两个字完全一样,而是在语义上相似即可。
改进版LCS主要改进的点就是把原来要求两个字完全一样的部分,换成了通过字向量比较两个字的相似度,其他的操作可以参考经典的LCS算法。字向量是通过WORD2VEC算法,并且基于文本数据预训练(例如,医学文本数据预训练)获得的,字向量比较相似度采用余弦相似度的计算方法(余弦相似度是已知技术)。
步骤305,通过所述最长公共子序列LCS计算出所述名词和所述多个候选中的每个候选项的相似度,可获得多个相似度。
步骤306,对所述多个相似度排序,取相似度最大的候选项。
如果最大的相似度大于阈值(0.8),则取所述候选项。
用字向量来比较两个字的间的相似度,如果两个字的相似度大于阈值(0.8),则认为两个字在语义上相同并记录下来。
步骤307,返回所述候选项对应的概念作为所述名词的链接实体。
如何计算相似度
先用改进版LCS算法计算两个词的最长公共子序列(LCS),其中改进点在于传统的LCS会对两个词中的每个字进行比较,只有两个字相同的情况下才会记录。本发明用字向量来比较两个字的间的相似度,如果两个字的相似度大于阈值(0.8),则认为两个字在语义上相同并记录下来.获得LCS以后,用以下公式计算:sim(w1,w2)=len(LCS(w1,w2))/len(w1)+len(w2)-len(LCS(w1,w2)),其中,len(w)是字符串或序列w的长度,LCS(w1,w2)是字符串和的间的最长公共子序列LCS)。
本发明的实体链接方法具有如下创新点:
1、将知识图谱与ElasticSearch的索引相关联,利用ElasticSearch快速搜索和模糊匹配的特性,对每一个需要实体链接的词先给出若干个候选项,还可以增加限定条件,例如要匹配实体的类型,进一步提高精确度;
2、对每一个候选项,用改进版LCS计算相似度;
3、传统的LCS通过逐字递归算法求得两个字符串的最长公共子序列,需要严格要求两个字相同,本发明方法不要求两个字严格相同,而是通过字向量比较两个字的相似度,大于一定阈值则认为其在语义上相同,例如,“疼”和“痛”;及
4、选出候选项中相似度最大的节点作为链接的节点。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种实体链接方法,应用于电子装置中,其特征在于,所述方法包括步骤:
将预先建立的知识图谱与ElasticSearch数据库的索引相关联;
在所述电子装置的实体链接系统中输入名词;
基于所述预先建立的知识图谱在所述ElasticSearch数据库中搜索所述名词,以取得与所述名词相关的多个候选项;
通过改进版最长公共子序列算法,根据所述名词和所述多个候选项中的术语和概念计算出最长公共子序列;
通过所述最长公共子序列计算出所述名词和所述多个候选项中的每个候选项的相似度,以获得多个相似度;
对所述多个相似度排序,取相似度最大的候选项;及
返回所述候选项对应的所述概念作为所述名词的链接实体。
2.如权利要求1所述的实体链接方法,其特征在于,所述方法还包括步骤:
所述索引相关联操作令所述ElasticSearch数据库中的索引和所述知识图谱同步,并通过唯一ID进行关联;及
将所述知识图谱中每个节点的唯一ID、概念、术语、类型及来源导入所述ElasticSearch数据库并记录在所述索引中,并且同步更新所述知识图谱与所述索引。
3.如权利要求2所述的实体链接方法,其特征在于,所述方法还包括步骤:
通过关键词匹配方法将所述名词与所述ElasticSearch数据库存储的知识图谱中的节点数据相匹配,以返回所述多个候选项。
4.如权利要求1所述的实体链接方法,其特征在于,所述方法还包括步骤:
用字向量来比较两个字之间的相似度;及
如果两个字之间的相似度大于阈值,则认为两个字在语义上相同并记录下来。
5.一种电子装置,其特征在于,包括:
关联模块,用于将预先建立的知识图谱与ElasticSearch数据库的索引相关联;
搜索模块,用于在所述电子装置的实体链接系统中输入名词,及基于所述预先建立的知识图谱在ElasticSearch数据库中搜索所述名词,以取得与所述名词相关的多个候选项;
计算模块,用于通过改进版最长公共子序列算法,根据所述名词和所述多个候选项中的术语和概念计算出最长公共子序列,及通过所述最长公共子序列计算出所述名词和所述多个候选中的每个候选项的相似度,以获得多个相似度;及
判断模块,用于对所述多个相似度排序,取相似度最大的候选项,及返回所述候选项对应的所述概念作为所述名词的链接实体。
6.如权利要求5所述的电子装置,其特征在于,还包括:
所述关联模块执行所述索引相关联操作令所述ElasticSearch数据库中的索引和所述知识图谱同步,并通过唯一ID进行关联,及将所述知识图谱中每个节点的唯一ID、概念、术语、类型与来源导入所述ElasticSearch数据库并纪录在所述索引中,并且同步更新所述知识图谱与所述索引。
7.如权利要求6所述的电子装置,其特征在于,还包括:
所述搜索模块通过关键词匹配方法将所述名词与所述ElasticSearch数据库存储的知识图谱中的节点数据相匹配,以返回所述多个候选项。
8.如权利要求5所述的电子装置,其特征在于,还包括:
所述计算模块用字向量来比较两个字之间的相似度,及如果两个字之间的相似度大于阈值,则认为两个字在语义上相同并记录下来。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项的实体链接方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至4任一项的实体链接方法的步骤。
CN201910699316.7A 2019-07-31 2019-07-31 实体链接方法、电子装置及计算机设备 Pending CN110569328A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910699316.7A CN110569328A (zh) 2019-07-31 2019-07-31 实体链接方法、电子装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910699316.7A CN110569328A (zh) 2019-07-31 2019-07-31 实体链接方法、电子装置及计算机设备

Publications (1)

Publication Number Publication Date
CN110569328A true CN110569328A (zh) 2019-12-13

Family

ID=68773654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910699316.7A Pending CN110569328A (zh) 2019-07-31 2019-07-31 实体链接方法、电子装置及计算机设备

Country Status (1)

Country Link
CN (1) CN110569328A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259166A (zh) * 2020-01-22 2020-06-09 清华大学 基于知识图谱的科研实体链接方法及装置
CN111401068A (zh) * 2020-03-23 2020-07-10 西南科技大学 基于知识图谱的炸药配方辅助设计可视化方法以及系统
CN111768869A (zh) * 2020-09-03 2020-10-13 成都索贝数码科技股份有限公司 面向智能问答系统的医学指南图谱化构建搜索系统及方法
CN111967270A (zh) * 2020-08-16 2020-11-20 云知声智能科技股份有限公司 一种基于字符与语义融合的方法和设备
CN112231416A (zh) * 2020-10-14 2021-01-15 中国平安人寿保险股份有限公司 知识图谱本体更新方法、装置、计算机设备及存储介质
CN112527977A (zh) * 2020-11-09 2021-03-19 清华大学 概念抽取方法、装置、电子设备及存储介质
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN112818167A (zh) * 2021-01-28 2021-05-18 北京百度网讯科技有限公司 实体检索方法、装置、电子设备及计算机可读存储介质
CN113535883A (zh) * 2021-07-16 2021-10-22 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质
CN115618824A (zh) * 2022-10-31 2023-01-17 上海苍阙信息科技有限公司 数据集的标注方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286713A1 (en) * 2014-04-04 2015-10-08 University Of Southern California System and method for fuzzy ontology matching and search across ontologies
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109508458A (zh) * 2018-10-31 2019-03-22 北京国双科技有限公司 法律实体的识别方法及装置
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286713A1 (en) * 2014-04-04 2015-10-08 University Of Southern California System and method for fuzzy ontology matching and search across ontologies
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109508458A (zh) * 2018-10-31 2019-03-22 北京国双科技有限公司 法律实体的识别方法及装置
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUNZHI CHEN 等: "Automatic ICD-10 coding algorithm using an improved longest common subsequence based on semantic similarity", 《PLOS ONE》, vol. 12, no. 3, pages 1 - 17 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259166B (zh) * 2020-01-22 2023-02-03 清华大学 基于知识图谱的科研实体链接方法及装置
CN111259166A (zh) * 2020-01-22 2020-06-09 清华大学 基于知识图谱的科研实体链接方法及装置
CN111401068A (zh) * 2020-03-23 2020-07-10 西南科技大学 基于知识图谱的炸药配方辅助设计可视化方法以及系统
CN111967270A (zh) * 2020-08-16 2020-11-20 云知声智能科技股份有限公司 一种基于字符与语义融合的方法和设备
CN111967270B (zh) * 2020-08-16 2023-11-21 云知声智能科技股份有限公司 一种基于字符与语义融合的方法和设备
CN111768869A (zh) * 2020-09-03 2020-10-13 成都索贝数码科技股份有限公司 面向智能问答系统的医学指南图谱化构建搜索系统及方法
CN111768869B (zh) * 2020-09-03 2020-12-11 成都索贝数码科技股份有限公司 面向智能问答系统的医学指南图谱化构建搜索系统及方法
CN112231416A (zh) * 2020-10-14 2021-01-15 中国平安人寿保险股份有限公司 知识图谱本体更新方法、装置、计算机设备及存储介质
CN112527977A (zh) * 2020-11-09 2021-03-19 清华大学 概念抽取方法、装置、电子设备及存储介质
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN112818167A (zh) * 2021-01-28 2021-05-18 北京百度网讯科技有限公司 实体检索方法、装置、电子设备及计算机可读存储介质
CN112818167B (zh) * 2021-01-28 2024-03-22 北京百度网讯科技有限公司 实体检索方法、装置、电子设备及计算机可读存储介质
CN113535883B (zh) * 2021-07-16 2023-10-31 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质
CN113535883A (zh) * 2021-07-16 2021-10-22 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质
CN115618824A (zh) * 2022-10-31 2023-01-17 上海苍阙信息科技有限公司 数据集的标注方法、装置、电子设备及介质
CN115618824B (zh) * 2022-10-31 2023-10-27 上海苍阙信息科技有限公司 数据集的标注方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN110569328A (zh) 实体链接方法、电子装置及计算机设备
CN106599278B (zh) 应用搜索意图的识别方法及装置
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
CN108509474B (zh) 搜索信息的同义词扩展方法及装置
US9916350B2 (en) Automated creation of join graphs for unrelated data sets among relational databases
US9104979B2 (en) Entity recognition using probabilities for out-of-collection data
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
CN110390094B (zh) 对文档进行分类的方法、电子设备和计算机程序产品
WO2016029230A1 (en) Automated creation of join graphs for unrelated data sets among relational databases
US9298757B1 (en) Determining similarity of linguistic objects
CN107291895B (zh) 一种快速的层次化文档查询方法
CN107844493B (zh) 一种文件关联方法及系统
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
US20200272674A1 (en) Method and apparatus for recommending entity, electronic device and computer readable medium
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN111026710A (zh) 一种数据集的检索方法及系统
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
CN110765761A (zh) 基于人工智能的合同敏感词校验方法、装置及存储介质
CN109635157A (zh) 模型生成方法、视频搜索方法、装置、终端及存储介质
US11360953B2 (en) Techniques for database entries de-duplication
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN102915381B (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
CN114330335A (zh) 关键词抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination