CN116306925B - 一种生成端到端实体链接方法和系统 - Google Patents
一种生成端到端实体链接方法和系统 Download PDFInfo
- Publication number
- CN116306925B CN116306925B CN202310262378.8A CN202310262378A CN116306925B CN 116306925 B CN116306925 B CN 116306925B CN 202310262378 A CN202310262378 A CN 202310262378A CN 116306925 B CN116306925 B CN 116306925B
- Authority
- CN
- China
- Prior art keywords
- entity
- linked
- recommended
- sequence
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000011218 segmentation Effects 0.000 claims abstract description 26
- 201000010099 disease Diseases 0.000 claims description 19
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 101150064138 MAP1 gene Proteins 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 3
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 229940126585 therapeutic drug Drugs 0.000 description 2
- 208000030507 AIDS Diseases 0.000 description 1
- 201000002424 AIDS phobia Diseases 0.000 description 1
- 208000007530 Essential hypertension Diseases 0.000 description 1
- 208000009205 Tinnitus Diseases 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 206010063546 nosophobia Diseases 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 231100000886 tinnitus Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Animal Behavior & Ethology (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种生成端到端实体链接方法和系统,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;待链接实体为第一知识图谱中的实体;将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;多个推荐实体名称为第二知识图谱中的实体名称;基于n‑gram相似度和分词召回率计算每个推荐实体名称的评分;基于每个推荐实体名称的评分,确定待链接实体在第二知识图谱中所对应的目标链接实体。本发明缓解了现有模型中两阶段任务带来的误差损失。
Description
技术领域
本发明涉及知识图谱技术领域,具体为一种生成端到端实体链接方法和系统。
背景技术
实体是知识图谱中的最基本元素,当来源不同的两个知识图谱进行知识融合时,需要将实体从其中一个图谱链接到另一个图谱中,但由于语言的歧义性、多样性,不同图谱的构建标准通常是不同的,那么进行异构图谱下的实体链接就必不可少。
在医疗知识图谱中,由于医学严谨性,可能相似的实体,所适用的属性、关系是完全不同的,如艾滋病和艾滋病恐惧症,是两个完全不同的疾病,但字面上有相似的地方,若是在实体链接时进行了错误的链接,那么可能会导致完全不适用的知识进行了融合,故而亟需一个精确度更高的实体链接方法。
实体链接模型通常的结构是pipeline式的两阶段方法,这种方法第一阶段指称识别的误差损失会传递到第二阶段实体消歧中,形成误差累积,且由于任务独立,两个阶段也会缺少交互信息;
另一种结构是将两个任务进行联合建模的端到端方法,将指称识别和实体消歧同步进行,这种方法可以很大程度上缓解pipeline式方法带来的误差累积、信息交互,但很多方法的信息交互多通过点积实现,点积在一定程度上还是有信息损失的,且这些方法需要负例提供训练,然而负例的数量、难度通常是比较难控制的。
发明内容
本发明的目的就在于为了解决上述至少一个技术问题而提供一种生成端到端实体链接方法和系统。
第一方面,本发明实施例提供了一种生成端到端实体链接方法,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;基于n-gram相似度和分词·召回率计算每个推荐实体名称的评分;基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。
进一步地,还包括:对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
进一步地,将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,包括:将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
进一步地,所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链接实体包括疾病相关实体;所述解码器的解码过程包括:生成疾病下的前缀树;所述前缀树上的每一个节点是疾病词表中的一个token;基于所述前缀树生成所述解码器的所有token,并基于所生成token得到所述多个测试结果;其中,所述待链接实体不可链接时,生成万能token。
进一步地,基于n-gram相似度和分词召回率计算每个推荐实体名称的评分,包括:对每个推荐实体名称进行字切分,组合成n-gram序列;将每个n-gram序列与所述待链接实体的实体名称进行相似度计算再加权求和,得到每个n-gram序列的相似度和;基于分词工具搜索每个推荐实体名称的精确分词结果在所述待链接实体的实体名称中的召回率,得到每个推荐实体名称的召回率;将相所述似度和、所述召回率进行加权求和,得到所述每个推荐实体名称的评分。
第二方面,本发明实施例还提供了一种生成端到端实体链接系统,包括:构建模块,识别模块,评分模块和确定模块;其中,所述构建模块,用于基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;所述识别模块,用于将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;所述评分模块,用于基于n-gram相似度和分词召回率计算每个推荐实体名称的评分;所述确定模块,用于基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。
进一步地,还包括训练模块,用于对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
进一步地,所述识别模块,还用于:将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
第三方面,本发明实施例还提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如上述第一方面所述的方法。
本发明提供了一种生成端到端实体链接方法和系统,采用端到端的生成模型seq2seq模型,本身拥有自回归解码器,相比于其他端到端实体链接模型的点积形式,信息交互更加完全,可以有效缓解现有模型中两阶段任务带来的误差损失;且本发明中的评测指标是hit@k,避免了单一的准确率对结果的限制。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种生成端到端实体链接方法的流程图;
图2为本发明实施例提供的一种生成端到端实体链接方法的输入输出示意图;
图3为本发明实施例提供的一种生成端到端实体链接系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是根据本发明实施例提供的一种生成端到端实体链接方法的流程图。如图1所示,该方法具体包括如下步骤:
步骤S102,基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;待链接实体为第一知识图谱中的实体。
可选地,将待链接实体的实体类型下具有代表意义的属性、关系、名称的信息内容通过符号拼接,形成待链接实体序列。
步骤S104,将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;多个推荐实体名称为第二知识图谱中的实体名称。
具体地,将待链接实体序列输入到训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,解码器的解码过程包括实体类型和集束搜索算法的双重约束;在多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
步骤S106,基于n-gram相似度和分词召回率计算每个推荐实体名称的评分。
步骤S108,基于每个推荐实体名称的评分,确定待链接实体在第二知识图谱中所对应的目标链接实体。
本发明提供了一种生成端到端实体链接方法,采用端到端的生成模型seq2seq模型,本身拥有自回归解码器,相比于其他端到端实体链接模型的点积形式,信息交互更加完全,可以有效缓解现有模型中两阶段任务带来的误差损失;且本发明中的评测指标是hit@k,避免了单一的准确率对结果的限制。
需要说明的是,在本发明实施例中,实体链接指两个已经构建完备的知识图谱中,从其中一个知识图谱中的实体名称关联到另一个知识图谱中等价的实体名称下的过程。
可选地,在步骤S104之前,还包括:对预设seq2seq模型进行训练,得到训练好的seq2seq模型。
可选地,步骤S106还包括如下步骤:
步骤S1061,对每个推荐实体名称进行字切分,组合成n-gram序列;
步骤S1062,将每个n-gram序列与待链接实体的实体名称进行相似度计算再加权求和,得到每个n-gram序列的相似度和;
步骤S1063,基于分词工具搜索每个推荐实体名称的精确分词结果在待链接实体的实体名称中的召回率,得到每个推荐实体名称的召回率;
步骤S1064,将相似度和、召回率进行加权求和,得到每个推荐实体名称的评分。
在本发明实施例提供的一种可选实施方式中,第一知识图谱和第二知识图谱均为医学知识图谱;待链接实体包括疾病相关实体;解码器的解码过程包括:生成疾病下的前缀树;前缀树上的每一个节点是疾病词表中的一个token;基于前缀树生成解码器的所有token,并基于所生成token得到多个测试结果;其中,待链接实体不可链接时,生成万能token。
下面以两个医学知识图谱的实体链接过程为例,举例说明本发明实施例提供的一种生成端到端实体链接方法的应用过程。
首先分析两个医学知识图谱实体链接的结果,可以发现下面的情况:
(1)图谱1(即第一知识图谱)中的实体名称与图谱2(即第二知识图谱)中的实体名称完全相同;
(2)图谱1中的属性、关系信息中包含图谱2中实体名称的片段,且两个实体是等价的;
(3)图谱1中的实体包含的信息是图谱2中一个实体的一部分,图谱1中多个实体的内容组合在一起和图谱2中的实体是等价的,此时图谱2中的实体名称可能与多个图谱1中的实体名称相似,或片段相同;
(4)图谱1中的实体信息包含了图谱2中多个实体,即图谱1中的一个实体与图谱2中的多个实体内容组合在一起的信息是等价的,此时图谱2中可能有多个实体名称与图谱1中的实体名称相似,或片段相同;
(5)图谱1中的实体是图谱2中所没有的,即无链接的情况。
可以看出,两个图谱中的实体名称包含了重要信息,在完全相同的情况,可以在其他属性、关系缺失的情况下直接得到,故而在输入上会有图谱1实体名称的嵌入,图谱2也以实体名称作为链接预测的结果。
此外因为在医学领域中一词多义的情况是较少的,但可能出现一词多实体的情况,如“耳鸣”一个词可能既在疾病本体中,也在症状本体中,对此,在输入时通过加入实体类型来进行区分,在输出也受到实体类型的约束。
输入:其中一个图谱中的实体名称,实体类型,及其属性、关系组合,实体属性如描述定义,英文名称、别称等,实体关系如同义词、上位术语等,具体的属性、关系根据实体所属的本体的类型进行调整(关系用另一个实体的名称代替),然后将它们按照指定顺序,用句号进行拼接,整体作为一个输入,这里面属性或关系为空时,用一个特殊符号进行补全。
输出:链接到另一个图谱中的实体名称。
图2是根据本发明实施例提供的一种生成端到端实体链接方法的输入输出示意图。如图2所示,过程如下:
1.设计在图谱1中当前实体类型下的模型输入,需要选择在当前实体类型下具有代表意义的属性、关系,以疾病下的“原发性高血压”这个词为例,图谱1中,它有属性:英文名称,定义等等,有关系:上位术语,治疗药品等等,那么将“实体名称+实体类型+英文名称+定义+上位术语+治疗药品...”信息内容组合拼接后,作为模型的上下文输入;
2.进行模型训练,模型选择专门针对序列到序列生成任务的生成模型,其中生成模型为seq2seq模型,输入来到模型的Encoder进行编码,通过Attention来到Decoder进行解码;
3.在Decoder解码过程中,依据模型原本是每个位置可以是任何的token,故而就无法保证生成的实体一定属于疾病,为避免不可控的结果,进行受限解码,本发明采用了实体类型和beam search(集束搜索算法)进行双重约束,具体做法是生成疾病下的前缀树,树上每一个节点是疾病词表中的一个token,节点表示所有可能的后续token,Decoder的token必须在该前缀树的限制下生成,以保证生成结果是存在的,如此通过自回归的方法生成目标实体序列,该过程自动完成了指称识别和实体消歧的过程;
4.对于步骤3,因为实际图谱的实体链接是可能存在不可链接的情况的,对于此,设计了一个专门的万能token,当链接概率较小的情况下都会生成该token,当然,这个token需要经常多次测试确定;
5.对于测试结果的指标选择hit@k,表示排序前k个词的命中概率,k进行多个取值,如k=1,k=3,k=5,k=10,最终选择命中概率较高的k尽可能小的情况,然后取生成结果的topk个值作为推荐的结果;
6.计算每个实体名称的推荐评分:对每个实体名称进行字切分,组合成n-gram序列,每个序列与输入中的实体名称进行相似度计算再加权求和;借助分词工具,利用分词工具的精确切分模式,搜索每个实体名称精确分词结果在候选topk实体中的召回率,然后将相似度结果和召回率进行加权求和得到推荐评分;
7.对于一对一的链接结果,推荐评分最高的作为最终推荐结果;若是一对多的情况,那么推荐评分之间可能有较小的差距,则设定阈值,阈值以上的都作为推荐结果;若是多对一的情况,只取评分最高即可,链接到同一个词的信息都与推荐实体的信息进行融合。
由以上描述可知,本发明实施例提供了一种生成端到端实体链接方法,将两个图谱的实体链接过程转化为一个有限制的主题词生成过程,采用一种生成式的端到端模型来生成主题词,生成模型的端到端结构既能缓解pipeline方式带来的误差累积,又可通过自回归的方式从上下文推导目标实体,使得信息交互全面,且由于生成模型的本身的特点,模型训练中无需负例的支撑,避免了端到端方法对负例生成控制。且为了提高医学知识图谱链接的精确性,本发明设计了依赖医学图谱实体类型、实体属性和实体关系的输入,其作为链接任务的上下文信息而进行模型学习,同时为避免生成模型结果的不可控,在生成模型的解码器中,加入了实体类型和beam search方法进行双重约束,避免生成未知的实体名称,对于模型的输出,利用hit@k结果选择topk的预测结果后,根据设计的相似度判定和其它规则的约束得到最终的实体链接结果。
本发明实施例提供的生成端到端实体链接方法,对实体链接任务进行了重新定义,转化成了带有约束的主题词生成任务;采用端到端的生成模型MASS,MASS是seq2seq模型结构下的预训练模型,生成模型采用encoder-decoder框架,模型的参数与词表的大小有关,而与待链接的实体集无关,可降低内存的占用;采用评测指标是hit@k,避免单一的准确率对结果的限制;对模型输入进行了适配设计,更符合医学实体的特点;模型输出进行了两种规则的加权计算,适配不同类型的,链接结果。
实施例二
图3是根据本发明实施例提供的一种生成端到端实体链接系统的示意图。如图3所示,该系统包括:构建模块10,识别模块20,评分模块30和确定模块40。
具体地,构建模块10,用于基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;待链接实体为第一知识图谱中的实体。
识别模块20,用于将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;多个推荐实体名称为第二知识图谱中的实体名称。
评分模块30,用于基于n-gram相似度和分词召回率计算每个推荐实体名称的评分。
确定模块40,用于基于每个推荐实体名称的评分,确定待链接实体在第二知识图谱中所对应的目标链接实体。
本发明提供了一种生成端到端实体链接系统,采用端到端的生成模型seq2seq模型,本身拥有自回归解码器,相比于其他端到端实体链接模型的点积形式,信息交互更加完全,可以有效缓解现有模型中两阶段任务带来的误差损失;且本发明中的评测指标是hit@k,避免了单一的准确率对结果的限制。
可选地,如图3所示,还包括训练模块50,用于对预设seq2seq模型进行训练,得到训练好的seq2seq模型。
可选地,识别模块20,还用于:将待链接实体序列输入到训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,解码器的解码过程包括实体类型和集束搜索算法的双重约束;在多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
可选地,第一知识图谱和第二知识图谱均为医学知识图谱;待链接实体包括疾病相关实体;解码器的解码过程包括:生成疾病下的前缀树;前缀树上的每一个节点是疾病词表中的一个token;基于前缀树生成解码器的所有token,并基于所生成token得到多个测试结果;其中,待链接实体不可链接时,生成万能token。
可选地,评分模块30,还用于:对每个推荐实体名称进行字切分,组合成n-gram序列;将每个n-gram序列与待链接实体的实体名称进行相似度计算再加权求和,得到每个n-gram序列的相似度和;基于分词工具搜索每个推荐实体名称的精确分词结果在待链接实体的实体名称中的召回率,得到每个推荐实体名称的召回率;将相似度和、召回率进行加权求和,得到每个推荐实体名称的评分。
本发明实施例还提供了一种电子设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述实施例一中的处理方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现如上述实施例一中的方法。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (8)
1.一种生成端到端实体链接方法,其特征在于,包括:
基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;
将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链接实体包括疾病相关实体;
基于n-gram相似度和分词召回率计算每个推荐实体名称的评分;
基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体;
将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,包括:
将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;
在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
2.根据权利要求1所述的方法,其特征在于:还包括:对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
3.根据权利要求1所述的方法,其特征在于:所述解码器的解码过程包括:
生成疾病下的前缀树;所述前缀树上的每一个节点是疾病词表中的一个token;
基于所述前缀树生成所述解码器的所有token,并基于所生成token得到所述多个测试结果;其中,所述待链接实体不可链接时,生成万能token。
4.根据权利要求1所述的方法,其特征在于:基于n-gram相似度和分词召回率计算每个推荐实体名称的评分,包括:
对每个推荐实体名称进行字切分,组合成n-gram序列;
将每个n-gram序列与所述待链接实体的实体名称进行相似度计算再加权求和,得到每个n-gram序列的相似度和;
基于分词工具搜索每个推荐实体名称的精确分词结果在所述待链接实体的实体名称中的召回率,得到每个推荐实体名称的召回率;
将所述相似度和、所述召回率进行加权求和,得到所述每个推荐实体名称的评分。
5.一种生成端到端实体链接系统,其特征在于,包括:构建模块,识别模块,评分模块和确定模块;其中,
所述构建模块,用于基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;
所述识别模块,用于将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链接实体包括疾病相关实体;
所述评分模块,用于基于n-gram相似度和分词召回率计算每个推荐实体名称的评分;
所述确定模块,用于基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体;
所述识别模块,还用于:
将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;
在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
6.根据权利要求5所述的系统,其特征在于:还包括训练模块,用于对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
7.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310262378.8A CN116306925B (zh) | 2023-03-14 | 2023-03-14 | 一种生成端到端实体链接方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310262378.8A CN116306925B (zh) | 2023-03-14 | 2023-03-14 | 一种生成端到端实体链接方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116306925A CN116306925A (zh) | 2023-06-23 |
CN116306925B true CN116306925B (zh) | 2024-05-03 |
Family
ID=86800987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310262378.8A Active CN116306925B (zh) | 2023-03-14 | 2023-03-14 | 一种生成端到端实体链接方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306925B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297908A (zh) * | 2019-07-01 | 2019-10-01 | 中国医学科学院医学信息研究所 | 诊疗方案预测方法及装置 |
CN110928961A (zh) * | 2019-11-14 | 2020-03-27 | 出门问问(苏州)信息科技有限公司 | 一种多模态实体链接方法、设备及计算机可读存储介质 |
WO2021031480A1 (zh) * | 2019-08-21 | 2021-02-25 | 广州视源电子科技股份有限公司 | 文本生成方法和装置 |
CN113505244A (zh) * | 2021-09-10 | 2021-10-15 | 中国人民解放军总医院 | 基于深度学习的知识图谱构建方法、系统、设备及介质 |
CN113553400A (zh) * | 2021-07-26 | 2021-10-26 | 杭州叙简科技股份有限公司 | 一种企业知识图谱实体链接模型的构建方法及装置 |
CN113673943A (zh) * | 2021-07-19 | 2021-11-19 | 清华大学深圳国际研究生院 | 一种基于履历大数据的人员任免辅助决策方法及系统 |
CN113761218A (zh) * | 2021-04-27 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种实体链接的方法、装置、设备及存储介质 |
CN114707494A (zh) * | 2022-02-21 | 2022-07-05 | 北京邮电大学 | 一种端到端的实体链接模型训练方法、实体链接方法及装置 |
CN115130468A (zh) * | 2022-05-06 | 2022-09-30 | 北京安智因生物技术有限公司 | 基于字词融合表示与图注意力网络的心梗实体识别方法 |
CN115472256A (zh) * | 2022-09-16 | 2022-12-13 | 西南医科大学附属医院 | 基于临床检验医学大数据的医学检验报告分析系统及方法 |
CN115564049A (zh) * | 2022-12-06 | 2023-01-03 | 北京航空航天大学 | 一种双向编码的知识图谱嵌入方法 |
-
2023
- 2023-03-14 CN CN202310262378.8A patent/CN116306925B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297908A (zh) * | 2019-07-01 | 2019-10-01 | 中国医学科学院医学信息研究所 | 诊疗方案预测方法及装置 |
WO2021031480A1 (zh) * | 2019-08-21 | 2021-02-25 | 广州视源电子科技股份有限公司 | 文本生成方法和装置 |
CN110928961A (zh) * | 2019-11-14 | 2020-03-27 | 出门问问(苏州)信息科技有限公司 | 一种多模态实体链接方法、设备及计算机可读存储介质 |
CN113761218A (zh) * | 2021-04-27 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种实体链接的方法、装置、设备及存储介质 |
CN113673943A (zh) * | 2021-07-19 | 2021-11-19 | 清华大学深圳国际研究生院 | 一种基于履历大数据的人员任免辅助决策方法及系统 |
CN113553400A (zh) * | 2021-07-26 | 2021-10-26 | 杭州叙简科技股份有限公司 | 一种企业知识图谱实体链接模型的构建方法及装置 |
CN113505244A (zh) * | 2021-09-10 | 2021-10-15 | 中国人民解放军总医院 | 基于深度学习的知识图谱构建方法、系统、设备及介质 |
CN114707494A (zh) * | 2022-02-21 | 2022-07-05 | 北京邮电大学 | 一种端到端的实体链接模型训练方法、实体链接方法及装置 |
CN115130468A (zh) * | 2022-05-06 | 2022-09-30 | 北京安智因生物技术有限公司 | 基于字词融合表示与图注意力网络的心梗实体识别方法 |
CN115472256A (zh) * | 2022-09-16 | 2022-12-13 | 西南医科大学附属医院 | 基于临床检验医学大数据的医学检验报告分析系统及方法 |
CN115564049A (zh) * | 2022-12-06 | 2023-01-03 | 北京航空航天大学 | 一种双向编码的知识图谱嵌入方法 |
Non-Patent Citations (4)
Title |
---|
A Semantic-Embedding Model-Driven Seq2Seq Method for Domain-Oriented Entity Linking on Resource-Restricted Devices;Inan, E et al;INTERNATIONAL JOURNAL ON SEMANTIC WEB AND INFORMATION SYSTEMS;20210930;全文 * |
基于IDCNN+CRF和注意力机制的电子病历 命名实体识别方法及模型稳定性研究;陈廷寅 等;中国数字医学;20221130;第17卷(第11期);全文 * |
融合多特征和由粗到精排序模型的短文本实体消歧方法;王荣坤 等;青岛大学计算机科学技术学院;20220731;全文 * |
面向文本的方面词-观点词对自动抽取技术;罗雨蒙;中国优秀硕士学位论文全文数据库信息科技辑;20230215(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116306925A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844368B (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
Kwiatkowski et al. | Scaling semantic parsers with on-the-fly ontology matching | |
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
CN109918489A (zh) | 一种多策略融合的知识问答方法和系统 | |
CN110888943B (zh) | 基于微模板的法院裁判文书辅助生成的方法和系统 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
US11580100B2 (en) | Systems and methods for advanced query generation | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN113779996B (zh) | 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质 | |
CN112069801A (zh) | 基于依存句法的句子主干抽取方法、设备和可读存储介质 | |
CN116719520B (zh) | 代码生成方法及装置 | |
CN113707299A (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
CN114186076A (zh) | 知识图谱构建方法、装置、设备和计算机可读存储介质 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN116975233A (zh) | 医疗问题答案生成方法、装置以及存储介质、电子设备 | |
CN118535702A (zh) | 基于优化知识库的大语言模型智能问答工单处理方法及装置 | |
CN118446182A (zh) | 基于同义词网络和反向引用对比学习的icd自动编码方法和装置 | |
CN118333038A (zh) | 医学文本摘要的生成方法及装置 | |
Wang et al. | Aspect-based sentiment analysis with graph convolutional networks over dependency awareness | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN115171870A (zh) | 一种基于m-BERT预训练模型的就诊引导提示方法及系统 | |
CN116306925B (zh) | 一种生成端到端实体链接方法和系统 | |
CN115859963A (zh) | 一种面向新词义原推荐的相似性判别方法及系统 | |
CN116994689A (zh) | 医疗数据的特征化处理方法、装置、设备、介质及产品 | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |