CN110457423A - 一种知识图谱实体链接方法、装置、计算机设备及存储介质 - Google Patents
一种知识图谱实体链接方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110457423A CN110457423A CN201910550153.6A CN201910550153A CN110457423A CN 110457423 A CN110457423 A CN 110457423A CN 201910550153 A CN201910550153 A CN 201910550153A CN 110457423 A CN110457423 A CN 110457423A
- Authority
- CN
- China
- Prior art keywords
- entity
- confirmed
- entity name
- name
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000005194 fractionation Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013518 transcription Methods 0.000 claims description 8
- 230000035897 transcription Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 7
- 241000219112 Cucumis Species 0.000 description 5
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 5
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 239000004072 C09CA03 - Valsartan Substances 0.000 description 2
- ACTIUHUUMQJHFO-UPTCCGCDSA-N coenzyme Q10 Chemical compound COC1=C(OC)C(=O)C(C\C=C(/C)CC\C=C(/C)CC\C=C(/C)CC\C=C(/C)CC\C=C(/C)CC\C=C(/C)CC\C=C(/C)CC\C=C(/C)CC\C=C(/C)CCC=C(C)C)=C(C)C1=O ACTIUHUUMQJHFO-UPTCCGCDSA-N 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036632 reaction speed Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- SJSNUMAYCRRIOM-QFIPXVFZSA-N valsartan Chemical compound C1=CC(CN(C(=O)CCCC)[C@@H](C(C)C)C(O)=O)=CC=C1C1=CC=CC=C1C1=NN=N[N]1 SJSNUMAYCRRIOM-QFIPXVFZSA-N 0.000 description 2
- 229960004699 valsartan Drugs 0.000 description 2
- ACTIUHUUMQJHFO-UHFFFAOYSA-N Coenzym Q10 Natural products COC1=C(OC)C(=O)C(CC=C(C)CCC=C(C)CCC=C(C)CCC=C(C)CCC=C(C)CCC=C(C)CCC=C(C)CCC=C(C)CCC=C(C)CCC=C(C)C)=C(C)C1=O ACTIUHUUMQJHFO-UHFFFAOYSA-N 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- PLHJDBGFXBMTGZ-WEVVVXLNSA-N furazolidone Chemical compound O1C([N+](=O)[O-])=CC=C1\C=N\N1C(=O)OCC1 PLHJDBGFXBMTGZ-WEVVVXLNSA-N 0.000 description 1
- 229960001625 furazolidone Drugs 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种知识图谱实体链接方法、装置、计算机设备及存储介质,包括:将收到的实体描述拆分为字符串,并输入至预设的实体名称索引中进行检索,确定待确认实体名称;分别确定实体描述与各待确认实体名称在汉字字符串特征、汉字部首特征以及拼音特征的相似度;按照预设权重对汉字字符串特征、汉字部首特征以及拼音特征相似度进行加权平均,确定每个待确认实体名称与实体描述相似度评分;对各待确认实体名称的相似度评分排序,并判断最高评分是否高于预设值,若最高评分高于预设值,则将最高评分对应的待确认实体名称作为链接实体并输出,可以在允许用户输入出错的情况不至于引入太多噪音,以有效提升垂直领域的知识图谱相关应用的准确度。
Description
技术领域
本发明涉及知识图谱领域,尤其涉及一种知识图谱实体链接方法、装置、计算机设备及存储介质。
背景技术
开放领域知识图谱的应用中,实体链接一般要求用户输入的某一部分与知识图谱的某个实体名称完全匹配。但是垂直领域中的某些专属名词经常包含很多罕见词,例如医疗领域中药品名称一般是由英文音译产生(eg,“呋喃唑酮”)。所以要求用户在使用相应应用的时候保证名称输入完全正确是很不合理的。为了在允许模糊性的前提下保持实体链接正确性,只是简单的使用汉字字符串的相似度(如编辑距离,或者LCS最长公共子序列)是不够的。此外,申请人还发现,由于受到输入法影响,用户输入的实体名称经常是拼音正确但字形错误,或者将一个生僻字部首弄错变成一个常见字,如将“二甲双胍”输入为“二甲双瓜”。考虑到用户专业知识不充分,如果我们因为一个错字就无法返回答案,则用户体验会较差,故有必要提升垂直领域的知识图谱相关应用的实体链接的准确度。
发明内容
本发明的目的是提供一种知识图谱实体链接方法、装置、计算机设备及存储介质,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种知识图谱实体链接方法,包括以下步骤:
将收到的实体描述拆分为字符串,并输入至预设的实体名称索引中进行检索,以确定所述实体描述在所述实体名称索引中所匹配的待确认实体名称;
分别确定所述实体描述与各所述待确认实体名称在汉字字符串特征、汉字部首特征以及拼音特征的相似度;
按照预设权重对所述汉字字符串特征、汉字部首特征以及拼音特征相似度进行加权平均,确定每个所述待确认实体名称与所述实体描述相似度评分;
对各所述待确认实体名称的相似度评分排序,并判断最高评分是否高于预设值,若所述最高评分高于所述预设值,则将所述最高评分对应的待确认实体名称作为本次实体描述中链接实体并输出。
优选的,将指定垂直领域知识图谱中所包含的每个实体名称拆分为实体名称字符串,并根据每个所述实体名称与拆分后实体名称字符串之间的对应关系建立所述实体名称索引。
进一步的,基于elasticsearch工具建立所述实体名称与拆分后实体名称之间的索引。
优选的,所述拆分包括:若包含汉字,则按字拆开;若还包含英文、数字以及其他字符中的一种或多种,则判断相邻字符是否为同类字符,若相邻字符为同类字符则保持原样不拆分,若相邻字符为不同类字符则拆分,且将英文字符小写化。
进一步的,基于正则表达式进行所述实体名称和/或所述实体描述的拆分。
优选的,以汉字字符串为基础进行多个子特征的相似度计算、以偏旁部首字符串为基础进行多个子特征的相似度计算、以拼音字符串为基础进行多个子特征的相似度计算,以分别确定所述实体描述与各所述待确认实体名称在汉字字符串特征、汉字部首特征以及拼音特征的相似度。
进一步的,确定实体描述与待确认实体名称汉字字符串特征相似度包括:比较实体描述字符串与待确认实体名称字符串,并以汉字字符串为基础进行多个子特征的相似度计算;
确定实体描述与待确认实体名称汉字部首级别的特征相似度包括,将所述实体描述与所述待确认实体名称均按汉字偏旁部首拆开,并以偏旁部首字符串为基础进行多个子特征的相似度计算;
确定实体描述与待确认实体名称汉字拼音级别特征的相似度包括:将所述实体描述与所述待确认实体名称转为拼音,并以拼音字符串为基础进行多个子特征的相似度计算。
优选的,所述预设权重的设置规则为:不同维度的权重不同设置,汉字字符串特征权重最高,部首级别特征权重次之,拼音级别特征权重最小;同一维度下每个子特征的权重相等设置。
优选的,所述多个子特征为levenshtein ratio、jaro ratio、jaro-winklerration、longest common substring、hanmming、Jaccard中一种或多种的组合。
为实现上述目的,本发明还提供一种知识图谱实体链接装置,包括:
待确认实体名称确定模块,用于将收到的实体描述拆分为字符串,并输入至预设的实体名称索引中进行检索,以确定所述实体描述在所述实体名称索引中所匹配的待确认实体名称;
待确认实体名称相似度确定模块,用于分别确定所述实体描述与各所述待
待确认实体名称评分模块,用于按照预设权重对所述汉字字符串特征、汉字部首特征以及拼音特征相似度进行加权平均,确定每个所述待确认实体名称与所述实体描述相似度评分;
以及实体输出模块,用于对各所述待确认实体名称的相似度评分排序,并判断最高评分是否高于预设值,若所述最高评分高于所述预设值,则将所述最高评分对应的待确认实体名称作为本次实体描述中链接实体并输出。
优选的,所述待确认实体名称确定模块包括索引设立子模块,用于将指定垂直领域知识图谱中所包含的每个实体名称拆分为实体名称字符串,并根据每个所述实体名称与拆分后实体名称字符串之间的对应关系建立所述实体名称索引。
进一步的,所述索引设立子模块中,基于elasticsearch工具建立所述实体名称与拆分后实体名称之间的索引。
优选的,所述待确认实体名称确定模块中,所述拆分原则设置为:若包含汉字,则按字拆开;若还包含英文、数字以及其他字符中的一种或多种,则判断相邻字符是否为同类字符,若相邻字符为同类字符则保持原样不拆分,若相邻字符为不同类字符则拆分,且将英文字符小写化。
优选的,所述待确认实体名称确定模块中,基于正则表达式进行所述实体名称和/或所述实体描述的拆分;
优选的,待确认实体名称相似度确定模块包括汉字字符串特征相似度确定子模块、汉字部首级别特征相似度确定子模块以及拼音字符串特征相似度确定子模块;
汉字字符串特征相似度确定子模块用于确定实体描述与待确认实体名称汉字字符串特征相似度,包括比较实体描述字符串与待确认实体名称字符串,并以汉字字符串为基础进行多个子特征的相似度计算;
汉字部首级别特征相似度确定子模块用于确定实体描述与待确认实体名称汉字部首级别的特征相似度,包括将所述实体描述与所述待确认实体名称均按汉字偏旁部首拆开,并以偏旁部首字符串为基础进行多个子特征的相似度计算;
拼音字符串特征相似度确定子模块用于确定实体描述与待确认实体名称汉字拼音级别特征的相似度,包括将所述实体描述与所述待确认实体名称转为拼音,并以拼音字符串为基础进行多个子特征的相似度计算。
优选的,待确认实体名称相似度确定模块中,所述多个子特征为levenshteinratio、jaro ratio、jaro-winkler ration、longest common substring、hanmming、Jaccard中一种或多种的组合。
优选的,待确认实体名称评分模块包括预设权重设置子模块,所述预设权重设置子模块的权重设置规则为:不同维度的权重不同设置,汉字字符串特征权重最高,部首级别特征权重次之,拼音级别特征权重最小;同一维度下每个子特征的权重相等设置。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的一种知识图谱实体链接方法、装置、计算机设备及存储介质,通过建立指定垂直领域中,实体名称与拆分后实体名称的索引,然后基于该所述搜索确定用户输入的实体描述对应的待确认实体名称,并对上待确认实体名称进行多角度(包括汉字字符串、汉字部首级别、汉字拼音级别下多个角度)的相似度评判打分,并选择最高评分(且高于预设值)所对应的待确认实体名称作为本次实体描述中链接实体并输出,可以在允许用户输入出错的情况不至于引入太多噪音,以有效提升垂直领域的知识图谱相关应用的准确度。
附图说明
图1为本发明知识图谱实体链接方法一实施例的流程图;
图2为本发明知识图谱实体链接装置一实施例的程序模块示意图;
图3为本发明知识图谱实体链接装置一实施例的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参考图1,本申请提供了一种知识图谱实体链接方法,包括:
S1,将接收到的实体描述拆分为字符串,并输入至预设的实体名称索引中进行检索,以确定所述字符串在所述实体名称索引中所匹配的待确认实体名称;
S2,分别计算所述实体描述与各所述待确认实体名称在汉字字符串特征、汉字部首特征以及拼音特征的相似度;
S3,按照预设权重对所述汉字字符串特征、汉字部首特征以及拼音特征的相似度进行加权平均,确定每个所述待确认实体名称与所述实体描述相似度评分;
S4,对各所述待确认实体名称的相似度评分排序,并判断最高评分是否高于预设值,若所述最高评分高于所述预设值,则将所述最高评分对应的待确认实体名称作为本次实体描述中的链接实体并输出。
本申请所示的一种知识图谱实体链接方法,通过建立指定垂直领域中,实体名称与拆分后实体名称的索引,然后基于该所述搜索确定用户输入的实体描述对应的待确认实体名称,并对上待确认实体名称进行多角度(包括汉字字符串、汉字部首级别、汉字拼音级别下多个角度)的相似度评判打分,并选择最高评分(且高于预设值)所对应的待确认实体名称作为本次实体描述中链接实体并输出,从而可以在允许用户输入出错的情况不至于引入太多噪音,有效提升垂直领域的知识图谱相关应用的准确度。
步骤S1中,将收到的实体描述拆分为字符串,并输入至预设的实体名称索引中进行检索,以确定所述实体描述在所述实体名称索引中所匹配的待确认实体名称。
其中,所述实体描述(entity mention)为用户输入的待查询内容,如可为用户通过输入法输入的文字描述。将指定垂直领域知识图谱中所包含的每个实体名称(entityname)拆分为实体名称字符串,并根据每个所述实体名称与拆分后实体名称字符串之间的对应关系建立所述实体名称索引,所述待确定实体名称为所述搜索引擎初步输出的与所述实体描述匹相配的实体名称。
本步骤中,首先预先建立实体名称索引,该实体名称索引基于实体名称与拆分后实体名称字符串之间的对应关系建立的,其中实体名称索引中所包括的实体名称为某一指定垂直领域知识图谱中所包含的全部实体名称,本实施例中,可根据给定正则表达式的匹配将每个实体名称拆分为对应的字符串,其中正则表达式的给定的匹配规则设定为:若实体名称包含汉字,则按字拆开;若实体名称还包含英文、数字以及其他字符中的一种或多种,则判断相邻字符是否为同类字符,若相邻字符为同类字符则保持原样不拆分,若相邻字符为不同类字符则拆分,且将英文字符小写化;如实体名称为“辅酶Q10片”,则基于给定正则表达式的匹配进行拆分后,该实体名称对应的字符串为“辅酶q 10片”。实体名称拆分完毕后,基于实体名称与拆分后的实体名称字符串之间的对应关系建立实体名称索引,本实施中,采用elasticsearch(为基于Lucene的搜索服务)工具建立实体名称索引,以方便快速搜索查询,具体而言,以拆分前的实体名称作为索引,拆分后的实体名称字符串作为主键,同时原先的名称作为附属属性,并存储在一起建立索引,以方便进行后续实体描述的快速搜索查询。
当系统接收到用户输入的实体描述(entity mention)后,首先将实体描述拆分为实体描述字符串,本实施例中,也可根据给定正则表达式的匹配将收到的实体描述拆分为对应的实体描述字符串,其中正则表达式的给定的匹配规则设定为:若实体名称包含汉字,则按字拆开;若实体名称还包含英文、数字以及其他字符中的一种或多种,则判断相邻字符是否为同类字符,若相邻字符为同类字符则保持原样不拆分,若相邻字符为不同类字符则拆分,且将英文字符小写化;然后将拆分后的实体描述字符串输入至elasticsearch中进行搜索,查询该实体描述对应的待确定实体名称。
此外,本步骤中,所述实体描述字符串输入至elasticsearch中进行搜索后,若没有对应的返回结果,说明用户输入的实体描述不是本领域的问题,或者不是包含在知识图谱中,则向用户回复无法回答。
步骤S2中,分别确定所述实体描述与各所述待确认实体名称在汉字字符串特征、汉字部首特征以及拼音特征的相似度。
以汉字字符串为基础进行多个子特征的相似度计算、以偏旁部首字符串为基础进行多个子特征的相似度计算、以拼音字符串为基础进行多个子特征的相似度计算,以分别确定所述实体描述与各所述待确认实体名称在汉字字符串特征、汉字部首特征以及拼音特征相似度;
本步骤中,对用户输入的实体描述对应的每个待确认实体名称,分别进行汉字字符串特征、部首级别的特征以及拼音级别的特征三个维度的相似度打分。
其中确定实体描述与待确认实体名称汉字字符串特征相似度包括:比较实体描述字符串与待确认实体名称字符串,并以汉字字符串为基础进行多个子特征的相似度计算;具体而言,可直接用拆分后的实体描述字符串与确认实体名称所对应的实体名称字符串做一系列字符串相似度计算,确定二者在汉字字符串的多个子特征的相似度。
关于子特征选取,一般来说,取得子特征多,效果可能更好,但是会导致计算量大,反应速度慢,本实施例中,为在计算量和速度间做平衡,子特征为levenshtein ratio,jaroratio,jaro-winkler ration,longest common substring,hanmming,Jaccard中一种或多种的组合。可基于python的python-Levenshtein算法确定各子特征字符串的相似度,上述基于python-Levenshtein算法确定各子特征字符串的相似度的计算为本领域常规手段,此处不再赘述。
同时,由于汉字有形近音近的特征,故本申请进一步考虑比字更加细粒度的水平。即进一步进行汉字部首级别特征相似度以及汉字拼音级别特征的相似度计算,包括:
确定实体描述与待确认实体名称汉字部首级别的特征相似度,将实体描述与实体名称均按汉字偏旁部首拆开,并以偏旁部首字符串为基础进行多个子特征的相似度计算。本步骤中,将实体描述与待确认实体名称都按汉字偏旁部首拆开,如用户输入了"二甲双瓜"的实体描述,基于实体名称索引输出的一个待确认实体名称为“二甲双胍”,则将实体描述拆为"二甲又又瓜",待确认实体名称"二甲双胍"拆分为“二甲又又月瓜”,然后以这样的字符串为基础做相似度特征计算。
在本申请的一个具体实施例中,所述偏旁部首的全序列可以参考GB2312字符表,所述GB2312字符表内包括6763个汉字,将该6763个汉字进行结构描述后,全部存储于所述一存储装置内,并对其进行训练,形成一训练模型,所述训练模型被训练成能够读取文字序列,并将该文字序列逐字进行拆分,将其拆分成与所述文字序列对应的偏旁部首序列。其中文字序列为实体描述以及待确认实体名称中所包含的文字,当然也可调用已有的软件包进行汉字部首拆分。
在以偏旁部首字符串为基础进行多个子特征的相似度计算中,关于子特征选取与前述相同,一般来说,取得子特征多,效果可能更好,但是会导致计算量大,反应速度慢,本实施例中,为在计算量和速度间做平衡,子特征为levenshtein ratio、jaro ratio、jaro-winkler ration、longest common substring、hanmming、Jaccard中一种或多种的组合。可基于python的python-Levenshtein算法确定各子特征字符串的相似度。此外,也可直接调用已有的相似度计算算法进行部首级别的相似度计算,此时,则根据所选用算法中子特征的数量确定同一维度下每个子特征的权重。
确定实体描述与待确认实体名称汉字拼音级别特征的相似度:将实体描述与待确认实体名称转为拼音,并以拼音字符串为基础进行多个子特征的相似度计算;
本步骤中,可基于python中的pypinyin算法将实体描述与待确认实体名称转为拼音,如用户输入的实体描述为"二甲双瓜",则转化后为"èr jiǎshuāng guā",其中一待确认实体名称为"二甲双胍",则转化为“èr jiǎshuāng guā”,然后以这样的拼音字符串为基础做相似度特征计算。
本步骤在以拼音字符串为基础进行多个子特征的相似度计算中,子特征选取与相似度计算与前述类似,子特征为levenshtein ratio、jaro ratio、jaro-winkler ration、longest common substring、hanmming、Jaccard中一种或多种的组合,并可基于python的python-Levenshtein算法确定各子特征的相似度。
步骤S3中,按照预设权重对所述汉字字符串特征、汉字部首特征以及拼音特征相似度进行加权平均,确定每个所述待确认实体名称与实体描述相似度评分;
本步骤中,所述预设权重的设置规则为:不同维度的权重不同设置,汉字字符串特征权重最高,部首级别特征权重次之,拼音级别特征权重最小;同一维度下每个子特征的权重相等设置。即将上述汉字字符串特征、部首级别的特征、拼音级别的特征相似度的打分结果按照权重加权平均,确定该实体名称的相似度打分,其中不同维度的权重不同设置,汉字级的维度,占得权重最大,其次是部首,再是拼音,同一纬度下每个子特征的权重相等设置;
本申请的目的是允许一定的模糊匹配,即打错某个字也不影响实体链接的准确性。考虑到拼音及部首的噪音比较大,其相似度打分一般偏高,故将汉字权重最大,部首第二,拼音第三;这样基于汉字为主,但是同时打错某个字,将其写为其同音字或者同根字,也是能够允许的。
以下以选取5个子特征为例,说明各子特征的权重计算方法。假设在汉字,部首,拼音分别放置0.4、0.35、0.25的权重,然后在同一维度下,每个子特征的权重相等,则汉字的levenshtein ratio的权重与剩下四个度量的权重为0.4/5=0.08,部首的levenshteinratio的权重与剩下四个度量的权重为0.35/5=0.07,拼音的levenshtein ratio的权重与剩下四个度量的权重为0.25/5=0.05。然后基于各子特征的相似度分数及各种对应权重,分别确定汉字字符串特征、部首级别的特征、拼音级别的特征相似度的打分,最后基于0.4、0.35、0.25的权重确定该实体名称的相似度打分。
步骤S4中,对各所述待确认实体名称的相似度评分排序,并判断最高评分是否高于预设值,若高于预设值则判断最高评分对应的待确认实体名称为本次实体描述中链接实体并输出。
本步骤中,对全部可能的实体名称的相似度打分按照分数大小进行排序,若最高得分高于预设值,则认定该组搜索结果对应的实体名称为本次如果实体描述中链接实体。
设置预设值是为了避免噪音,保证用户有可能输入错的字,但是错的又不多,系统还是需要给出答案的。但是如果错的太多,就不能认为是识别的了。比如用户输入“代文怎么吃”,和“代我飞怎么吃”时,前一句中“代文”是一个药物的别名,后面一个是用户胡乱输入的结果,“代我飞”与图谱中的任何实体相似度都不超过阈值,则认为是输入错误不作回答。
此外,预设值是根据统计数据集中的错误输入得到的相似度打分得到的。这里设置有主观性:有些输入错误比较大,但是可能用户的确是在问相关问题,而不是胡乱输入的,这时候需要根据业务需求设置阈值大小,以支持大部分的业务功能。
本申请所示的一种知识图谱实体链接方法,通过建立指定垂直领域中,实体名称与拆分后实体名称的索引,然后基于该所述搜索确定用户输入的实体描述对应的待确认实体名称,并对上待确认实体名称进行多角度(包括汉字字符串、汉字部首级别、汉字拼音级别下多个角度)的相似度评判打分,并选择最高评分(且高于预设值)所对应的待确认实体名称作为本次实体描述中链接实体并输出,从而可以在允许用户输入出错的情况不至于引入太多噪音,有效提升垂直领域的知识图谱相关应用的准确度。
实施例二
请继续参阅图2,本申请示出了一种知识图谱实体链接装置,在本实施例中,知识图谱实体链接装置10可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请,并可实现上述知识图谱实体链接方法。本申请所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述知识图谱实体链接装置10在存储介质中的执行过程。
以下描述将具体介绍本实施例各程序模块的功能:
本申请提供的一种知识图谱实体链接装置10,包括:
待确认实体名称确定模块11,用于将收到的实体描述拆分为字符串,并输入至预设的实体名称索引中进行检索,以确定所述实体描述在所述实体名称索引中所匹配的待确认实体名称;
待确认实体名称相似度确定模块12,用于以汉字字符串为基础进行多个子特征的相似度计算、以偏旁部首字符串为基础进行多个子特征的相似度计算、以拼音字符串为基础进行多个子特征的相似度计算,以分别确定所述实体描述与各所述待确认实体名称在汉字字符串特征、汉字部首特征以及拼音特征的相似度;
待确认实体名称评分模块13,用于按照预设权重对所述汉字字符串特征、汉字部首特征以及拼音特征相似度进行加权平均,确定每个所述待确认实体名称与所述实体描述相似度评分;
以及实体输出模块14,用于对各所述待确认实体名称的相似度评分排序,并判断最高评分是否高于预设值,若所述最高评分高于所述预设值,则将所述最高评分对应的待确认实体名称作为本次实体描述中链接实体并输出。
优选的,所述待确认实体名称确定模块11包括索引设立子模块,用于将指定垂直领域知识图谱中所包含的每个实体名称拆分为实体名称字符串,并根据每个所述实体名称与拆分后实体名称字符串之间的对应关系建立所述实体名称索引。
进一步的,所述索引设立子模块中,基于elasticsearch工具建立所述实体名称与拆分后实体名称之间的索引。
优选的,所述待确认实体名称确定模块11中,所述拆分原则为:若包含汉字,则按字拆开;若还包含英文、数字以及其他字符中的一种或多种,则判断相邻字符是否为同类字符,若相邻字符为同类字符则保持原样不拆分,若相邻字符为不同类字符则拆分,且将英文字符小写化。
优选的,所述待确认实体名称确定模块11中,基于正则表达式进行所述实体名称和/或所述实体描述的拆分;
优选的,待确认实体名称相似度确定模块12包括汉字字符串特征相似度确定子模块、汉字部首级别特征相似度确定子模块以及拼音字符串特征相似度确定子模块;
汉字字符串特征相似度确定子模块用于确定实体描述与待确认实体名称汉字字符串特征相似度,包括比较实体描述字符串与待确认实体名称字符串,并以汉字字符串为基础进行多个子特征的相似度计算;
汉字部首级别特征相似度确定子模块用于确定实体描述与待确认实体名称汉字部首级别的特征相似度,包括将所述实体描述与所述待确认实体名称均按汉字偏旁部首拆开,并以偏旁部首字符串为基础进行多个子特征的相似度计算;
拼音字符串特征相似度确定子模块用于确定实体描述与待确认实体名称汉字拼音级别特征的相似度,包括将所述实体描述与所述待确认实体名称转为拼音,并以拼音字符串为基础进行多个子特征的相似度计算。
优选的,待确认实体名称相似度确定模块12中,所述多个子特征为levenshteinratio、jaro ratio、jaro-winkler ration、longest common substring、hanmming、Jaccard中一种或多种的组合。
优选的,待确认实体名称评分模块13包括预设权重设置子模块,所述预设权重设置子模块的权重设置规则为:不同维度的权重不同设置,汉字字符串特征权重最高,部首级别特征权重次之,拼音级别特征权重最小;同一维度下每个子特征的权重相等设置。
本申请所示的一种知识图谱实体链接装置10,通过建立指定垂直领域中,实体名称与拆分后实体名称的索引,然后基于该所述搜索确定用户输入的实体描述对应的待确认实体名称,并对上待确认实体名称进行多角度(包括汉字字符串、汉字部首级别、汉字拼音级别下多个角度)的相似度评判打分,并选择最高评分(且高于预设值)所对应的待确认实体名称作为本次实体描述中链接实体并输出,从而可以在允许用户输入出错的情况不至于引入太多噪音,有效提升垂直领域的知识图谱相关应用的准确度。
实施例三
本申请还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图3所示。需要指出的是,图3仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例一的知识图谱实体链接装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行知识图谱实体链接装置10,以实现实施例一的知识图谱实体链接方法。
实施例四
本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储知识图谱实体链接装置10,被处理器执行时实现实施例一的知识图谱实体链接方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种知识图谱实体链接方法,其特征在于,包括以下步骤:
将接收到的实体描述拆分为字符串,并输入至预设的实体名称索引中进行检索,以确定所述字符串在所述实体名称索引中所匹配的待确认实体名称;
分别计算所述实体描述与各所述待确认实体名称在汉字字符串特征、汉字部首特征以及拼音特征的相似度;
按照预设权重对所述汉字字符串特征、汉字部首特征以及拼音特征的相似度进行加权平均,确定每个所述待确认实体名称与所述实体描述相似度评分;
对各所述待确认实体名称的相似度评分排序,并判断最高评分是否高于预设值,若所述最高评分高于所述预设值,则将所述最高评分对应的待确认实体名称作为本次实体描述中的链接实体并输出。
2.根据权利要求1所述的知识图谱实体链接方法,其特征在于,将指定垂直领域知识图谱中所包含的每个实体名称拆分为实体名称字符串,并根据每个所述实体名称与拆分后实体名称字符串之间的对应关系建立所述实体名称索引。
3.根据权利要求1或2所述的知识图谱实体链接方法,其特征在于,所述拆分包括:若包含汉字,则按字拆开;若还包含英文、数字以及其他字符中的一种或多种,则判断相邻字符是否为同类字符,若相邻字符为同类字符则保持原样不拆分,若相邻字符为不同类字符则拆分,且将英文字符小写化。
4.根据权利要求2所述的知识图谱实体链接方法,其特征在于,基于正则表达式进行所述实体名称和/或所述实体描述的拆分;
和/或,基于elasticsearch工具建立所述实体名称与拆分后实体名称之间的索引。
5.根据权利要求1所述的知识图谱实体链接方法,其特征在于,
确定实体描述与待确认实体名称汉字字符串特征相似度包括:比较实体描述字符串与待确认实体名称字符串,并以汉字字符串为基础进行多个子特征的相似度计算;
确定实体描述与待确认实体名称汉字部首级别的特征相似度包括:将所述实体描述与所述待确认实体名称均按汉字偏旁部首拆开,并以偏旁部首字符串为基础进行多个子特征的相似度计算;
确定实体描述与待确认实体名称汉字拼音级别特征的相似度包括:将所述实体描述与所述待确认实体名称转为拼音,并以拼音字符串为基础进行多个子特征的相似度计算。
6.根据权利要5所述的知识图谱实体链接方法,其特征在于,所述多个子特征为levenshtein ratio、jaro ratio、jaro-winkler ration、longest common substring、hanmming、Jaccard中一种或多种的组合。
7.根据权利要求1所述的知识图谱实体链接方法,其特征在于,所述预设权重的设置规则为:不同维度的权重不同设置,汉字字符串特征权重最高,部首级别特征权重次之,拼音级别特征权重最小;同一维度下每个子特征的权重相等设置。
8.一种知识图谱实体链接装置,其特征在于,包括:
待确认实体名称确定模块,用于将收到的实体描述拆分为字符串,并输入至预设的实体名称索引中进行检索,以确定所述实体描述在所述实体名称索引中所匹配的待确认实体名称;
待确认实体名称相似度确定模块,用于分别确定所述实体描述与各所述待确认实体名称在汉字字符串特征、汉字部首特征以及拼音特征的相似度;
待确认实体名称评分模块,用于按照预设权重对所述汉字字符串特征、汉字部首特征以及拼音特征相似度进行加权平均,确定每个所述待确认实体名称与所述实体描述相似度评分;
以及实体输出模块,用于对各所述待确认实体名称的相似度评分排序,并判断最高评分是否高于预设值,若所述最高评分高于所述预设值,则将所述最高评分对应的待确认实体名称作为本次实体描述中的链接实体并输出。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910550153.6A CN110457423A (zh) | 2019-06-24 | 2019-06-24 | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910550153.6A CN110457423A (zh) | 2019-06-24 | 2019-06-24 | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110457423A true CN110457423A (zh) | 2019-11-15 |
Family
ID=68480840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910550153.6A Pending CN110457423A (zh) | 2019-06-24 | 2019-06-24 | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457423A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159990A (zh) * | 2019-12-06 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 一种基于模式拓展的通用特殊词识别方法及系统 |
CN111261165A (zh) * | 2020-01-13 | 2020-06-09 | 佳都新太科技股份有限公司 | 车站名称识别方法、装置、设备及存储介质 |
CN111563545A (zh) * | 2020-04-27 | 2020-08-21 | 平安医疗健康管理股份有限公司 | 一种医学实体对码方法、装置、计算机设备和存储介质 |
CN111597815A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多嵌入命名实体识别方法、装置、设备及存储介质 |
CN112001170A (zh) * | 2020-05-29 | 2020-11-27 | 中国人民大学 | 一种识别经过变形的敏感词的方法和系统 |
CN112214572A (zh) * | 2020-10-20 | 2021-01-12 | 济南浪潮高新科技投资发展有限公司 | 一种简历解析中二次提取实体的方法 |
CN116756345A (zh) * | 2023-08-15 | 2023-09-15 | 杭州同花顺数据开发有限公司 | 一种实体链接方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126345A1 (en) * | 2006-11-29 | 2008-05-29 | D&S Consultants, Inc. | Method and System for Searching Multimedia Content |
US20160217186A1 (en) * | 2015-01-22 | 2016-07-28 | International Business Machines Corporation | Distributed fuzzy search and join with edit distance guarantees |
CN106168954A (zh) * | 2016-06-07 | 2016-11-30 | 中国人民解放军国防科学技术大学 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
CN107330120A (zh) * | 2017-07-14 | 2017-11-07 | 三角兽(北京)科技有限公司 | 询问应答方法、询问应答装置及计算机可读存储介质 |
-
2019
- 2019-06-24 CN CN201910550153.6A patent/CN110457423A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126345A1 (en) * | 2006-11-29 | 2008-05-29 | D&S Consultants, Inc. | Method and System for Searching Multimedia Content |
US20160217186A1 (en) * | 2015-01-22 | 2016-07-28 | International Business Machines Corporation | Distributed fuzzy search and join with edit distance guarantees |
CN106168954A (zh) * | 2016-06-07 | 2016-11-30 | 中国人民解放军国防科学技术大学 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
CN107330120A (zh) * | 2017-07-14 | 2017-11-07 | 三角兽(北京)科技有限公司 | 询问应答方法、询问应答装置及计算机可读存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159990A (zh) * | 2019-12-06 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 一种基于模式拓展的通用特殊词识别方法及系统 |
CN111159990B (zh) * | 2019-12-06 | 2022-09-30 | 国家计算机网络与信息安全管理中心 | 一种基于模式拓展的通用特殊词识别方法及系统 |
CN111261165A (zh) * | 2020-01-13 | 2020-06-09 | 佳都新太科技股份有限公司 | 车站名称识别方法、装置、设备及存储介质 |
CN111563545A (zh) * | 2020-04-27 | 2020-08-21 | 平安医疗健康管理股份有限公司 | 一种医学实体对码方法、装置、计算机设备和存储介质 |
CN111597815A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多嵌入命名实体识别方法、装置、设备及存储介质 |
CN112001170A (zh) * | 2020-05-29 | 2020-11-27 | 中国人民大学 | 一种识别经过变形的敏感词的方法和系统 |
CN112001170B (zh) * | 2020-05-29 | 2023-05-09 | 中国人民大学 | 一种识别经过变形的敏感词的方法和系统 |
CN112214572A (zh) * | 2020-10-20 | 2021-01-12 | 济南浪潮高新科技投资发展有限公司 | 一种简历解析中二次提取实体的方法 |
CN112214572B (zh) * | 2020-10-20 | 2022-11-01 | 山东浪潮科学研究院有限公司 | 一种简历解析中二次提取实体的方法 |
CN116756345A (zh) * | 2023-08-15 | 2023-09-15 | 杭州同花顺数据开发有限公司 | 一种实体链接方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457423A (zh) | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 | |
US11449767B2 (en) | Method of building a sorting model, and application method and apparatus based on the model | |
CA2777520C (en) | System and method for phrase identification | |
US9767183B2 (en) | Method and system for enhanced query term suggestion | |
US11232263B2 (en) | Generating summary content using supervised sentential extractive summarization | |
WO2012097504A1 (en) | Automated answers to online questions | |
CN103703461A (zh) | 检测搜索查询的源语言 | |
US11238224B2 (en) | Performing chemical textual analysis | |
WO2021000491A1 (zh) | 问句实体识别与链接方法、装置、计算机设备及存储介质 | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
CN111339166A (zh) | 基于词库的匹配推荐方法、电子装置及存储介质 | |
CN113821622A (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN113127621A (zh) | 对话模块的推送方法、装置、设备及存储介质 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN114861635B (zh) | 一种中文拼写纠错方法、装置、设备及存储介质 | |
CN110717008B (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN113344125B (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
US20230297777A1 (en) | Personalized natural language processing system | |
CN114742058B (zh) | 一种命名实体抽取方法、装置、计算机设备及存储介质 | |
CN111708863B (zh) | 基于doc2vec的文本匹配方法、装置及电子设备 | |
US12026157B2 (en) | Narrowing synonym dictionary results using document attributes | |
CN117648934B (zh) | 基于错误试题的知识点确定方法、装置、设备和介质 | |
KR102682790B1 (ko) | 문제 데이터를 생성하는 컴퓨터 장치 및 방법 | |
CN117743558B (zh) | 基于大模型的知识加工、知识问答方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191115 |
|
RJ01 | Rejection of invention patent application after publication |