CN116306925B - 一种生成端到端实体链接方法和系统 - Google Patents

一种生成端到端实体链接方法和系统 Download PDF

Info

Publication number
CN116306925B
CN116306925B CN202310262378.8A CN202310262378A CN116306925B CN 116306925 B CN116306925 B CN 116306925B CN 202310262378 A CN202310262378 A CN 202310262378A CN 116306925 B CN116306925 B CN 116306925B
Authority
CN
China
Prior art keywords
entity
linked
recommended
sequence
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310262378.8A
Other languages
English (en)
Other versions
CN116306925A (zh
Inventor
吴欢
何昆仑
庄严
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese PLA General Hospital
Original Assignee
Chinese PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese PLA General Hospital filed Critical Chinese PLA General Hospital
Priority to CN202310262378.8A priority Critical patent/CN116306925B/zh
Publication of CN116306925A publication Critical patent/CN116306925A/zh
Application granted granted Critical
Publication of CN116306925B publication Critical patent/CN116306925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种生成端到端实体链接方法和系统,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;待链接实体为第一知识图谱中的实体;将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;多个推荐实体名称为第二知识图谱中的实体名称;基于n‑gram相似度和分词召回率计算每个推荐实体名称的评分;基于每个推荐实体名称的评分,确定待链接实体在第二知识图谱中所对应的目标链接实体。本发明缓解了现有模型中两阶段任务带来的误差损失。

Description

一种生成端到端实体链接方法和系统
技术领域
本发明涉及知识图谱技术领域,具体为一种生成端到端实体链接方法和系统。
背景技术
实体是知识图谱中的最基本元素,当来源不同的两个知识图谱进行知识融合时,需要将实体从其中一个图谱链接到另一个图谱中,但由于语言的歧义性、多样性,不同图谱的构建标准通常是不同的,那么进行异构图谱下的实体链接就必不可少。
在医疗知识图谱中,由于医学严谨性,可能相似的实体,所适用的属性、关系是完全不同的,如艾滋病和艾滋病恐惧症,是两个完全不同的疾病,但字面上有相似的地方,若是在实体链接时进行了错误的链接,那么可能会导致完全不适用的知识进行了融合,故而亟需一个精确度更高的实体链接方法。
实体链接模型通常的结构是pipeline式的两阶段方法,这种方法第一阶段指称识别的误差损失会传递到第二阶段实体消歧中,形成误差累积,且由于任务独立,两个阶段也会缺少交互信息;
另一种结构是将两个任务进行联合建模的端到端方法,将指称识别和实体消歧同步进行,这种方法可以很大程度上缓解pipeline式方法带来的误差累积、信息交互,但很多方法的信息交互多通过点积实现,点积在一定程度上还是有信息损失的,且这些方法需要负例提供训练,然而负例的数量、难度通常是比较难控制的。
发明内容
本发明的目的就在于为了解决上述至少一个技术问题而提供一种生成端到端实体链接方法和系统。
第一方面,本发明实施例提供了一种生成端到端实体链接方法,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;基于n-gram相似度和分词·召回率计算每个推荐实体名称的评分;基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。
进一步地,还包括:对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
进一步地,将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,包括:将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
进一步地,所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链接实体包括疾病相关实体;所述解码器的解码过程包括:生成疾病下的前缀树;所述前缀树上的每一个节点是疾病词表中的一个token;基于所述前缀树生成所述解码器的所有token,并基于所生成token得到所述多个测试结果;其中,所述待链接实体不可链接时,生成万能token。
进一步地,基于n-gram相似度和分词召回率计算每个推荐实体名称的评分,包括:对每个推荐实体名称进行字切分,组合成n-gram序列;将每个n-gram序列与所述待链接实体的实体名称进行相似度计算再加权求和,得到每个n-gram序列的相似度和;基于分词工具搜索每个推荐实体名称的精确分词结果在所述待链接实体的实体名称中的召回率,得到每个推荐实体名称的召回率;将相所述似度和、所述召回率进行加权求和,得到所述每个推荐实体名称的评分。
第二方面,本发明实施例还提供了一种生成端到端实体链接系统,包括:构建模块,识别模块,评分模块和确定模块;其中,所述构建模块,用于基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;所述识别模块,用于将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;所述评分模块,用于基于n-gram相似度和分词召回率计算每个推荐实体名称的评分;所述确定模块,用于基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。
进一步地,还包括训练模块,用于对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
进一步地,所述识别模块,还用于:将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
第三方面,本发明实施例还提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如上述第一方面所述的方法。
本发明提供了一种生成端到端实体链接方法和系统,采用端到端的生成模型seq2seq模型,本身拥有自回归解码器,相比于其他端到端实体链接模型的点积形式,信息交互更加完全,可以有效缓解现有模型中两阶段任务带来的误差损失;且本发明中的评测指标是hit@k,避免了单一的准确率对结果的限制。
附图说明
为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种生成端到端实体链接方法的流程图;
图2为本发明实施例提供的一种生成端到端实体链接方法的输入输出示意图;
图3为本发明实施例提供的一种生成端到端实体链接系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是根据本发明实施例提供的一种生成端到端实体链接方法的流程图。如图1所示,该方法具体包括如下步骤:
步骤S102,基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;待链接实体为第一知识图谱中的实体。
可选地,将待链接实体的实体类型下具有代表意义的属性、关系、名称的信息内容通过符号拼接,形成待链接实体序列。
步骤S104,将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;多个推荐实体名称为第二知识图谱中的实体名称。
具体地,将待链接实体序列输入到训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,解码器的解码过程包括实体类型和集束搜索算法的双重约束;在多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
步骤S106,基于n-gram相似度和分词召回率计算每个推荐实体名称的评分。
步骤S108,基于每个推荐实体名称的评分,确定待链接实体在第二知识图谱中所对应的目标链接实体。
本发明提供了一种生成端到端实体链接方法,采用端到端的生成模型seq2seq模型,本身拥有自回归解码器,相比于其他端到端实体链接模型的点积形式,信息交互更加完全,可以有效缓解现有模型中两阶段任务带来的误差损失;且本发明中的评测指标是hit@k,避免了单一的准确率对结果的限制。
需要说明的是,在本发明实施例中,实体链接指两个已经构建完备的知识图谱中,从其中一个知识图谱中的实体名称关联到另一个知识图谱中等价的实体名称下的过程。
可选地,在步骤S104之前,还包括:对预设seq2seq模型进行训练,得到训练好的seq2seq模型。
可选地,步骤S106还包括如下步骤:
步骤S1061,对每个推荐实体名称进行字切分,组合成n-gram序列;
步骤S1062,将每个n-gram序列与待链接实体的实体名称进行相似度计算再加权求和,得到每个n-gram序列的相似度和;
步骤S1063,基于分词工具搜索每个推荐实体名称的精确分词结果在待链接实体的实体名称中的召回率,得到每个推荐实体名称的召回率;
步骤S1064,将相似度和、召回率进行加权求和,得到每个推荐实体名称的评分。
在本发明实施例提供的一种可选实施方式中,第一知识图谱和第二知识图谱均为医学知识图谱;待链接实体包括疾病相关实体;解码器的解码过程包括:生成疾病下的前缀树;前缀树上的每一个节点是疾病词表中的一个token;基于前缀树生成解码器的所有token,并基于所生成token得到多个测试结果;其中,待链接实体不可链接时,生成万能token。
下面以两个医学知识图谱的实体链接过程为例,举例说明本发明实施例提供的一种生成端到端实体链接方法的应用过程。
首先分析两个医学知识图谱实体链接的结果,可以发现下面的情况:
(1)图谱1(即第一知识图谱)中的实体名称与图谱2(即第二知识图谱)中的实体名称完全相同;
(2)图谱1中的属性、关系信息中包含图谱2中实体名称的片段,且两个实体是等价的;
(3)图谱1中的实体包含的信息是图谱2中一个实体的一部分,图谱1中多个实体的内容组合在一起和图谱2中的实体是等价的,此时图谱2中的实体名称可能与多个图谱1中的实体名称相似,或片段相同;
(4)图谱1中的实体信息包含了图谱2中多个实体,即图谱1中的一个实体与图谱2中的多个实体内容组合在一起的信息是等价的,此时图谱2中可能有多个实体名称与图谱1中的实体名称相似,或片段相同;
(5)图谱1中的实体是图谱2中所没有的,即无链接的情况。
可以看出,两个图谱中的实体名称包含了重要信息,在完全相同的情况,可以在其他属性、关系缺失的情况下直接得到,故而在输入上会有图谱1实体名称的嵌入,图谱2也以实体名称作为链接预测的结果。
此外因为在医学领域中一词多义的情况是较少的,但可能出现一词多实体的情况,如“耳鸣”一个词可能既在疾病本体中,也在症状本体中,对此,在输入时通过加入实体类型来进行区分,在输出也受到实体类型的约束。
输入:其中一个图谱中的实体名称,实体类型,及其属性、关系组合,实体属性如描述定义,英文名称、别称等,实体关系如同义词、上位术语等,具体的属性、关系根据实体所属的本体的类型进行调整(关系用另一个实体的名称代替),然后将它们按照指定顺序,用句号进行拼接,整体作为一个输入,这里面属性或关系为空时,用一个特殊符号进行补全。
输出:链接到另一个图谱中的实体名称。
图2是根据本发明实施例提供的一种生成端到端实体链接方法的输入输出示意图。如图2所示,过程如下:
1.设计在图谱1中当前实体类型下的模型输入,需要选择在当前实体类型下具有代表意义的属性、关系,以疾病下的“原发性高血压”这个词为例,图谱1中,它有属性:英文名称,定义等等,有关系:上位术语,治疗药品等等,那么将“实体名称+实体类型+英文名称+定义+上位术语+治疗药品...”信息内容组合拼接后,作为模型的上下文输入;
2.进行模型训练,模型选择专门针对序列到序列生成任务的生成模型,其中生成模型为seq2seq模型,输入来到模型的Encoder进行编码,通过Attention来到Decoder进行解码;
3.在Decoder解码过程中,依据模型原本是每个位置可以是任何的token,故而就无法保证生成的实体一定属于疾病,为避免不可控的结果,进行受限解码,本发明采用了实体类型和beam search(集束搜索算法)进行双重约束,具体做法是生成疾病下的前缀树,树上每一个节点是疾病词表中的一个token,节点表示所有可能的后续token,Decoder的token必须在该前缀树的限制下生成,以保证生成结果是存在的,如此通过自回归的方法生成目标实体序列,该过程自动完成了指称识别和实体消歧的过程;
4.对于步骤3,因为实际图谱的实体链接是可能存在不可链接的情况的,对于此,设计了一个专门的万能token,当链接概率较小的情况下都会生成该token,当然,这个token需要经常多次测试确定;
5.对于测试结果的指标选择hit@k,表示排序前k个词的命中概率,k进行多个取值,如k=1,k=3,k=5,k=10,最终选择命中概率较高的k尽可能小的情况,然后取生成结果的topk个值作为推荐的结果;
6.计算每个实体名称的推荐评分:对每个实体名称进行字切分,组合成n-gram序列,每个序列与输入中的实体名称进行相似度计算再加权求和;借助分词工具,利用分词工具的精确切分模式,搜索每个实体名称精确分词结果在候选topk实体中的召回率,然后将相似度结果和召回率进行加权求和得到推荐评分;
7.对于一对一的链接结果,推荐评分最高的作为最终推荐结果;若是一对多的情况,那么推荐评分之间可能有较小的差距,则设定阈值,阈值以上的都作为推荐结果;若是多对一的情况,只取评分最高即可,链接到同一个词的信息都与推荐实体的信息进行融合。
由以上描述可知,本发明实施例提供了一种生成端到端实体链接方法,将两个图谱的实体链接过程转化为一个有限制的主题词生成过程,采用一种生成式的端到端模型来生成主题词,生成模型的端到端结构既能缓解pipeline方式带来的误差累积,又可通过自回归的方式从上下文推导目标实体,使得信息交互全面,且由于生成模型的本身的特点,模型训练中无需负例的支撑,避免了端到端方法对负例生成控制。且为了提高医学知识图谱链接的精确性,本发明设计了依赖医学图谱实体类型、实体属性和实体关系的输入,其作为链接任务的上下文信息而进行模型学习,同时为避免生成模型结果的不可控,在生成模型的解码器中,加入了实体类型和beam search方法进行双重约束,避免生成未知的实体名称,对于模型的输出,利用hit@k结果选择topk的预测结果后,根据设计的相似度判定和其它规则的约束得到最终的实体链接结果。
本发明实施例提供的生成端到端实体链接方法,对实体链接任务进行了重新定义,转化成了带有约束的主题词生成任务;采用端到端的生成模型MASS,MASS是seq2seq模型结构下的预训练模型,生成模型采用encoder-decoder框架,模型的参数与词表的大小有关,而与待链接的实体集无关,可降低内存的占用;采用评测指标是hit@k,避免单一的准确率对结果的限制;对模型输入进行了适配设计,更符合医学实体的特点;模型输出进行了两种规则的加权计算,适配不同类型的,链接结果。
实施例二
图3是根据本发明实施例提供的一种生成端到端实体链接系统的示意图。如图3所示,该系统包括:构建模块10,识别模块20,评分模块30和确定模块40。
具体地,构建模块10,用于基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;待链接实体为第一知识图谱中的实体。
识别模块20,用于将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;多个推荐实体名称为第二知识图谱中的实体名称。
评分模块30,用于基于n-gram相似度和分词召回率计算每个推荐实体名称的评分。
确定模块40,用于基于每个推荐实体名称的评分,确定待链接实体在第二知识图谱中所对应的目标链接实体。
本发明提供了一种生成端到端实体链接系统,采用端到端的生成模型seq2seq模型,本身拥有自回归解码器,相比于其他端到端实体链接模型的点积形式,信息交互更加完全,可以有效缓解现有模型中两阶段任务带来的误差损失;且本发明中的评测指标是hit@k,避免了单一的准确率对结果的限制。
可选地,如图3所示,还包括训练模块50,用于对预设seq2seq模型进行训练,得到训练好的seq2seq模型。
可选地,识别模块20,还用于:将待链接实体序列输入到训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,解码器的解码过程包括实体类型和集束搜索算法的双重约束;在多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
可选地,第一知识图谱和第二知识图谱均为医学知识图谱;待链接实体包括疾病相关实体;解码器的解码过程包括:生成疾病下的前缀树;前缀树上的每一个节点是疾病词表中的一个token;基于前缀树生成解码器的所有token,并基于所生成token得到多个测试结果;其中,待链接实体不可链接时,生成万能token。
可选地,评分模块30,还用于:对每个推荐实体名称进行字切分,组合成n-gram序列;将每个n-gram序列与待链接实体的实体名称进行相似度计算再加权求和,得到每个n-gram序列的相似度和;基于分词工具搜索每个推荐实体名称的精确分词结果在待链接实体的实体名称中的召回率,得到每个推荐实体名称的召回率;将相似度和、召回率进行加权求和,得到每个推荐实体名称的评分。
本发明实施例还提供了一种电子设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述实施例一中的处理方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现如上述实施例一中的方法。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (8)

1.一种生成端到端实体链接方法,其特征在于,包括:
基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;
将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链接实体包括疾病相关实体;
基于n-gram相似度和分词召回率计算每个推荐实体名称的评分;
基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体;
将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,包括:
将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;
在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
2.根据权利要求1所述的方法,其特征在于:还包括:对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
3.根据权利要求1所述的方法,其特征在于:所述解码器的解码过程包括:
生成疾病下的前缀树;所述前缀树上的每一个节点是疾病词表中的一个token;
基于所述前缀树生成所述解码器的所有token,并基于所生成token得到所述多个测试结果;其中,所述待链接实体不可链接时,生成万能token。
4.根据权利要求1所述的方法,其特征在于:基于n-gram相似度和分词召回率计算每个推荐实体名称的评分,包括:
对每个推荐实体名称进行字切分,组合成n-gram序列;
将每个n-gram序列与所述待链接实体的实体名称进行相似度计算再加权求和,得到每个n-gram序列的相似度和;
基于分词工具搜索每个推荐实体名称的精确分词结果在所述待链接实体的实体名称中的召回率,得到每个推荐实体名称的召回率;
将所述相似度和、所述召回率进行加权求和,得到所述每个推荐实体名称的评分。
5.一种生成端到端实体链接系统,其特征在于,包括:构建模块,识别模块,评分模块和确定模块;其中,
所述构建模块,用于基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;
所述识别模块,用于将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链接实体包括疾病相关实体;
所述评分模块,用于基于n-gram相似度和分词召回率计算每个推荐实体名称的评分;
所述确定模块,用于基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体;
所述识别模块,还用于:
将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;
在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
6.根据权利要求5所述的系统,其特征在于:还包括训练模块,用于对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
7.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-4任一项所述的方法。
CN202310262378.8A 2023-03-14 2023-03-14 一种生成端到端实体链接方法和系统 Active CN116306925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310262378.8A CN116306925B (zh) 2023-03-14 2023-03-14 一种生成端到端实体链接方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310262378.8A CN116306925B (zh) 2023-03-14 2023-03-14 一种生成端到端实体链接方法和系统

Publications (2)

Publication Number Publication Date
CN116306925A CN116306925A (zh) 2023-06-23
CN116306925B true CN116306925B (zh) 2024-05-03

Family

ID=86800987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310262378.8A Active CN116306925B (zh) 2023-03-14 2023-03-14 一种生成端到端实体链接方法和系统

Country Status (1)

Country Link
CN (1) CN116306925B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110928961A (zh) * 2019-11-14 2020-03-27 出门问问(苏州)信息科技有限公司 一种多模态实体链接方法、设备及计算机可读存储介质
WO2021031480A1 (zh) * 2019-08-21 2021-02-25 广州视源电子科技股份有限公司 文本生成方法和装置
CN113505244A (zh) * 2021-09-10 2021-10-15 中国人民解放军总医院 基于深度学习的知识图谱构建方法、系统、设备及介质
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN113673943A (zh) * 2021-07-19 2021-11-19 清华大学深圳国际研究生院 一种基于履历大数据的人员任免辅助决策方法及系统
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN114707494A (zh) * 2022-02-21 2022-07-05 北京邮电大学 一种端到端的实体链接模型训练方法、实体链接方法及装置
CN115130468A (zh) * 2022-05-06 2022-09-30 北京安智因生物技术有限公司 基于字词融合表示与图注意力网络的心梗实体识别方法
CN115472256A (zh) * 2022-09-16 2022-12-13 西南医科大学附属医院 基于临床检验医学大数据的医学检验报告分析系统及方法
CN115564049A (zh) * 2022-12-06 2023-01-03 北京航空航天大学 一种双向编码的知识图谱嵌入方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
WO2021031480A1 (zh) * 2019-08-21 2021-02-25 广州视源电子科技股份有限公司 文本生成方法和装置
CN110928961A (zh) * 2019-11-14 2020-03-27 出门问问(苏州)信息科技有限公司 一种多模态实体链接方法、设备及计算机可读存储介质
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN113673943A (zh) * 2021-07-19 2021-11-19 清华大学深圳国际研究生院 一种基于履历大数据的人员任免辅助决策方法及系统
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN113505244A (zh) * 2021-09-10 2021-10-15 中国人民解放军总医院 基于深度学习的知识图谱构建方法、系统、设备及介质
CN114707494A (zh) * 2022-02-21 2022-07-05 北京邮电大学 一种端到端的实体链接模型训练方法、实体链接方法及装置
CN115130468A (zh) * 2022-05-06 2022-09-30 北京安智因生物技术有限公司 基于字词融合表示与图注意力网络的心梗实体识别方法
CN115472256A (zh) * 2022-09-16 2022-12-13 西南医科大学附属医院 基于临床检验医学大数据的医学检验报告分析系统及方法
CN115564049A (zh) * 2022-12-06 2023-01-03 北京航空航天大学 一种双向编码的知识图谱嵌入方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Semantic-Embedding Model-Driven Seq2Seq Method for Domain-Oriented Entity Linking on Resource-Restricted Devices;Inan, E et al;INTERNATIONAL JOURNAL ON SEMANTIC WEB AND INFORMATION SYSTEMS;20210930;全文 *
基于IDCNN+CRF和注意力机制的电子病历 命名实体识别方法及模型稳定性研究;陈廷寅 等;中国数字医学;20221130;第17卷(第11期);全文 *
融合多特征和由粗到精排序模型的短文本实体消歧方法;王荣坤 等;青岛大学计算机科学技术学院;20220731;全文 *
面向文本的方面词-观点词对自动抽取技术;罗雨蒙;中国优秀硕士学位论文全文数据库信息科技辑;20230215(第02期);全文 *

Also Published As

Publication number Publication date
CN116306925A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN106844368B (zh) 用于人机对话的方法、神经网络系统和用户设备
Kwiatkowski et al. Scaling semantic parsers with on-the-fly ontology matching
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
CN109918489A (zh) 一种多策略融合的知识问答方法和系统
CN110888943B (zh) 基于微模板的法院裁判文书辅助生成的方法和系统
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
US11580100B2 (en) Systems and methods for advanced query generation
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN113779996B (zh) 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质
CN112069801A (zh) 基于依存句法的句子主干抽取方法、设备和可读存储介质
CN116719520B (zh) 代码生成方法及装置
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN114186076A (zh) 知识图谱构建方法、装置、设备和计算机可读存储介质
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN116975233A (zh) 医疗问题答案生成方法、装置以及存储介质、电子设备
CN118535702A (zh) 基于优化知识库的大语言模型智能问答工单处理方法及装置
CN118446182A (zh) 基于同义词网络和反向引用对比学习的icd自动编码方法和装置
CN118333038A (zh) 医学文本摘要的生成方法及装置
Wang et al. Aspect-based sentiment analysis with graph convolutional networks over dependency awareness
CN113705207A (zh) 语法错误识别方法及装置
CN115171870A (zh) 一种基于m-BERT预训练模型的就诊引导提示方法及系统
CN116306925B (zh) 一种生成端到端实体链接方法和系统
CN115859963A (zh) 一种面向新词义原推荐的相似性判别方法及系统
CN116994689A (zh) 医疗数据的特征化处理方法、装置、设备、介质及产品
CN115238705A (zh) 语义解析结果重排序方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant