CN112599211A - 一种医疗实体关系抽取方法及装置 - Google Patents

一种医疗实体关系抽取方法及装置 Download PDF

Info

Publication number
CN112599211A
CN112599211A CN202011560534.1A CN202011560534A CN112599211A CN 112599211 A CN112599211 A CN 112599211A CN 202011560534 A CN202011560534 A CN 202011560534A CN 112599211 A CN112599211 A CN 112599211A
Authority
CN
China
Prior art keywords
medical
text
relationship
medical text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011560534.1A
Other languages
English (en)
Other versions
CN112599211B (zh
Inventor
程龙龙
崔丙剑
马思远
袁丁
李铭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Yunnao Tianjin Technology Co ltd
Original Assignee
Zhongdian Yunnao Tianjin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Yunnao Tianjin Technology Co ltd filed Critical Zhongdian Yunnao Tianjin Technology Co ltd
Priority to CN202011560534.1A priority Critical patent/CN112599211B/zh
Publication of CN112599211A publication Critical patent/CN112599211A/zh
Application granted granted Critical
Publication of CN112599211B publication Critical patent/CN112599211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及信息抽取技术领域,提供一种医疗实体关系抽取方法及装置,以解决传统Pipeline式关系抽取法计算冗余、准确率低的问题,该方法包括:基于第一医疗文本中的医疗文本特征,确定对应的至少一个医疗关系;基于第一医疗文本和至少一个医疗关系,得到至少一个第二医疗文本;将至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到至少一个第二医疗文本所包含的医疗关系对应的实体对;基于至少一个医疗关系和对应的实体对,生成对应的三元组。先确定医疗关系,再确定每个医疗关系对应的实体对,这样无需冗余计算,不但节省了运算时间,也降低了运算复杂度,还提高了医疗关系识别的准确率。

Description

一种医疗实体关系抽取方法及装置
技术领域
本申请涉及信息抽取技术领域,提供了一种医疗实体关系抽取方法及装置。
背景技术
实体关系相当于事物与事物之间的联系,而属性则丰富了人们对事物本身的认识。同理,医疗文本中也存在描述实体属性的信息,如,在“通过用手搔抓患癣的部位如足趾间,或与患者共用鞋袜、手套、浴巾、脚盆等是手癣的主要传播途径”这条医疗文本中,“手癣”的“传播途径”是“用手搔抓患……”。
为了抽取医疗文本中的实体对,以及识别实体对之间的医疗关系,一般采用流水线Pipeline式关系抽取法进行信息抽取,形成如<头实体,医疗关系,尾实体>所示的三元组;再基于大量的三元组构建成医疗知识图谱,为其他自然语言处理(Natural LanguageProcessing,NLP)技术(如,实体链接、查询query解析、问答系统、信息检索等)提供可解释性的先验知识和推理。例如,在“弥漫性肺泡出血易合并肺部感染”这条医疗文本中,“弥漫性肺泡出血”与“肺部感染”都是疾病,他们之间的医疗关系是“疾病-合并症”。
在Pipeline式关系抽取法中,先获取到医疗文本中的所有实体,再将实体两两组合判断实体对之间的医疗关系。这样的话,一旦实体抽取错误将会直接影响到医疗关系识别的准确率,而且在判断实体对之间的医疗关系时,可能会因为两个不存在医疗关系的实体对生成冗余信息、增加运算复杂度,进而影响医疗关系识别的准确率。
有鉴于此,本申请实施例提出了一种新的医疗实体关系抽取方法及装置。
发明内容
本申请实施例提供一种医疗实体关系抽取方法及装置,以解决传统Pipeline式关系抽取法计算冗余、准确率低的问题。
第一方面,本申请实施例提供的一种医疗实体关系抽取方法,包括:
从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;
基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;
将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;
基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。
可选的,从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:
基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系。
可选的,基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:
对所述第一医疗文本进行分词处理,得到第一初始字序列;
在所述第一初始字序列的首部添加第一分类字,以及在所述第一初始字序列的尾部添加第一分割字,形成第一目标字序列;
对所述第一目标字序列进行特征提取,得到所述第一目标字序列中每个字的字向量,并将所述第一分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到多个第一预测概率,其中一个第一预测概率对应一个预设的对应医疗关系,所述第一预测概率表征所述第一医疗文本属于对应医疗关系的概率;
将超过预设阈值的第一预测概率所对应的医疗关系,确定为所述第一医疗文本的医疗关系。
可选的,在确定所述第一医疗文本对应的至少一个医疗关系之后,还包括:
若得到的所述第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合,则将所述第一医疗文本分别输入到所述至少一个医疗关系对应的分类模型中进行预测,并分别基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系。
可选的,基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系,包括:
若所述分类模型的预测结果是任意一个医疗关系,则不从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系;或者,
若所述分类模型的预测结果不是所述任意一个医疗关系,则从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系。
可选的,通过以下方式生成所述分类模型的预测结果:
对所述第一医疗文本进行分词处理,得到第二初始字序列;
在所述第二初始字序列的首部添加第二分类字,以及在所述第二初始字序列的尾部添加第二分割字,形成第二目标字序列;
对所述第二目标字序列进行特征提取,得到所述第二目标字序列中每个字的字向量,并将所述第二分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到第二预测概率,所述第二预测概率表征所述第一医疗文本属于所述任意一个医疗关系的概率;
若所述第二预测概率超过预设阈值,则判定所述第一医疗关系为所述任意一个医疗文本的医疗关系;否则,判定所述任意一个医疗关系不是所述第一医疗文本的医疗关系。
可选的,通过以下方式得到所述任意一个第二医疗文本所包含的医疗关系对应的实体对:
对所述任意一个第二医疗文本进行分词处理,得到第三初始字序列;
在所述第三初始字序列的首部添加第三分类字,以及在所述第三初始字序列的尾部添加第三分割字,形成第三目标字序列;
对所述第三目标字序列进行特征提取,得到所述第三目标字序列中每个字的字向量;
基于所述第三目标字序列中每个字的字向量,确定多个第三预测概率集合,其中一个第三预测概率集合表征所述第三目标字序列中任意一个字属于预设的每种实体的概率;
基于所述多个第三预测概率集合,确定所述任意一个第二医疗文本所包含的医疗关系对应的实体对。
第二方面,本申请实施例还提供了一种医疗实体关系抽取装置,包括:
医疗关系识别模块,用于从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;
拼接模块,用于基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;
实体提取模块,用于将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;
生成模块,用于基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。
可选的,所述医疗关系识别模块用于:
基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系。
可选的,所述医疗关系识别模块用于:
对所述第一医疗文本进行分词处理,得到第一初始字序列;
在所述第一初始字序列的首部添加第一分类字,以及在所述第一初始字序列的尾部添加第一分割字,形成第一目标字序列;
对所述第一目标字序列进行特征提取,得到所述第一目标字序列中每个字的字向量,并将所述第一分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到多个第一预测概率,其中一个第一预测概率对应一个预设的对应医疗关系,所述第一预测概率表征所述第一医疗文本属于对应医疗关系的概率;
将超过预设阈值的第一预测概率所对应的医疗关系,确定为所述第一医疗文本的医疗关系。
可选的,所述医疗关系识别模块还用于:
若得到的所述第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合,则将所述第一医疗文本分别输入到所述至少一个医疗关系对应的分类模型中进行预测,并分别基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系。
可选的,所述医疗关系识别模块用于:
若所述分类模型的预测结果是任意一个医疗关系,则不从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系;或者,
若所述分类模型的预测结果不是所述任意一个医疗关系,则从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系。
可选的,通过以下方式生成所述分类模型的预测结果:
对所述第一医疗文本进行分词处理,得到第二初始字序列;
在所述第二初始字序列的首部添加第二分类字,以及在所述第二初始字序列的尾部添加第二分割字,形成第二目标字序列;
对所述第二目标字序列进行特征提取,得到所述第二目标字序列中每个字的字向量,并将所述第二分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到第二预测概率,所述第二预测概率表征所述第一医疗文本属于所述任意一个医疗关系的概率;
若所述第二预测概率超过预设阈值,则判定所述任意一个医疗关系为所述第一医疗文本的医疗关系;否则,判定所述任意一个医疗关系不是所述第一医疗文本的医疗关系。
可选的,通过以下方式得到所述任意一个第二医疗文本所包含的医疗关系对应的实体对:
对所述任意一个第二医疗文本进行分词处理,得到第三初始字序列;
在所述第三初始字序列的首部添加第三分类字,以及在所述第三初始字序列的尾部添加第三分割字,形成第三目标字序列;
对所述第三目标字序列进行特征提取,得到所述第三目标字序列中每个字的字向量;
基于所述第三目标字序列中每个字的字向量,确定多个第三预测概率集合,其中一个第三预测概率集合表征所述第三目标字序列中任意一个字属于预设的每种实体的概率;
基于所述多个第三预测概率集合,确定所述任意一个第二医疗文本所包含的医疗关系对应的实体对。
第三方面,本申请实施例还提供了一种计算机设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种医疗实体关系抽取方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行上述任意一种医疗实体关系抽取方法的步骤。
本申请有益效果如下:
本申请实施例提供的一种医疗实体关系抽取方法及装置,从第一医疗文本中提取医疗文本特征,并基于医疗文本特征确定第一医疗文本对应的至少一个医疗关系;基于第一医疗文本和至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;将至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到至少一个第二医疗文本所包含的医疗关系对应的实体对;基于至少一个医疗关系和对应的实体对,生成对应的三元组。在本申请实施例中,先提取出医疗文本对应的所有医疗关系,再使用实体提取模型一一确定每个医疗关系对应的实体对,在提取医疗关系时不受实体对是否提取准确的影响,也无需确定两两组合实体之间的语义关系,相比于传统Pipeline式关系抽取法来说,本申请实施例提出的新的医疗实体关系抽取方法无需冗余计算,这样不但节省了运算时间,也降低了运算复杂度,还提高了医疗关系识别的准确率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a为医疗实体关系抽取模型的架构示意图;
图1b为抽取医疗实体关系的流程示意图;
图2为多标签分类模型识别医疗关系的流程示意图;
图3为分类模型识别医疗关系的流程示意图;
图4为实体提取模型提取医疗关系对应的实体对的流程示意图;
图5为医疗实体关系抽取装置的结构示意图;
图6为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
采用Pipeline式关系抽取法对医疗文本进行信息抽取,获得医疗文本中的实体对,以及识别实体对之间的医疗关系,形成如<头实体,医疗关系,尾实体>所示的三元组。具体地,在Pipeline式关系抽取法中,需要先确定医疗文本中的所有实体,再将实体两两组合判断实体对之间的医疗关系。这样的话,一旦实体抽取错误将会直接影响到医疗关系识别的准确率,而且在判断实体对之间的医疗关系时,可能会因为两个不存在医疗关系的实体进行冗余计算,进而影响医疗关系识别的准确率。有鉴于此,本申请实施例提出了一种新的医疗实体关系抽取方法。
在本申请实施例中,使用训练完毕的医疗实体关系抽取模型对医疗文本进行信息提取,先确定医疗文本对应的所有医疗关系,再确定每一个医疗关系所对应的实体对,从而形成至少一个三元组。参阅图1a示出的架构示意图可知,医疗实体关系抽取模型具体包含三类模型,分别是多标签分类模型、二分类模型和实体抽取模型。上述三类模型可以采用Transformer、循环神经网络(RNN,Recurrent Neural Network)、卷积神经网络(CNN,Convolutional Neural Network)等架构进行构建的,本申请实施例中是基于Transformer架构的BERT模型构建得到的。
医疗文本可能只对应一个医疗关系,也可能对应多个医疗关系,所以为了确定出医疗文本对应的所有医疗关系,在本申请实施例中使用多标签分类模型对医疗文本进行多标签识别,一个标签对应一个医疗关系。在本申请实施例中预设了易混淆医疗关系集合,在该集合中存储了多组易混淆的医疗关系,一组里至少包含两个医疗关系。为了保证医疗关系的识别准确率,会在多标签分类模型的输出结果被判定属于易混淆医疗关系集合时,使用二分类模型对医疗文本进行二次识别,确定医疗文本所对应的医疗关系是否识别错误。在识别出医疗文本对应的所有医疗关系后,使用实体提取模型,确定每一个医疗关系对应的实体对,进而基于医疗关系和对应的实体对,生成三元组。
在介绍完整体模型架构后,参阅图1b示出的流程示意图,对抽取医疗实体关系的方法进行详细介绍。
S101:从第一医疗文本中提取医疗文本特征,并基于医疗文本特征确定第一医疗文本对应的至少一个医疗关系。
在本申请实施例中,基于训练完毕的多标签分类模型提取出第一医疗文本对应的所有医疗关系,先从第一医疗文本中提取医疗文本特征,再基于医疗文本特征确定第一医疗文本对应的至少一个医疗关系。
参阅图2示出的流程示意图,对多标签分类模型识别医疗关系的过程进行介绍。
S1011:对第一医疗文本进行分词处理,得到第一初始字序列。
以字为单位对第一医疗文本中进行分割,形成如[x1,x2,…,xn]所示的第一初始字序列,xn表示第一医疗文本的第n个字。
S1012:在第一初始字序列的首部添加第一分类字,以及在第一初始字序列的尾部添加第一分割字,形成第一目标字序列。
在第一初始字序列中添加第一分类字和第一分割字后,形成如[[CLS],x1,x2,…,xn,[SEP]]所示的第一目标字序列。其中,[CLS]是第一分类字的标识信息(CLS为分类classify的英文缩写),[SEP]是第二分类字的标识信息(SEP为分割segmentation的英文缩写)。
S1013:对第一目标字序列进行特征提取,得到第一目标字序列中每个字的字向量,并将第一分类字的字向量作为医疗文本特征。
S1014:基于医疗文本特征得到多个第一预测概率,其中一个第一预测概率对应一个预设的对应医疗关系,第一预测概率表征第一医疗文本属于对应医疗关系的概率。
S1015:将超过预设阈值的第一预测概率所对应的医疗关系,确定为第一医疗文本的医疗关系。
例如,将表1中示出的医疗文本输入到多标签分类模型,得出其对应的医疗关系为“发病部位”、“病因”和“病理分型”。
表1
Figure BDA0002860425120000101
在训练好多标签分类模型之后,使用大量的医疗文本作为测试集,对多标签分类模型进行测试。在分析测试结果时发现,多标签分类模型总是将医疗关系A识别为医疗关系B,将医疗关系C识别为医疗关系D或者医疗关系E,这样的话,(医疗关系A,医疗关系B)构成了一组易混淆的医疗关系,同理,(医疗关系C,医疗关系D,医疗关系E)构成了另一组易混淆的医疗关系。为了解决因易混淆的医疗关系导致的识别准确率低的问题,针对每一组易混淆的医疗关系中的每个医疗关系构建对应的二分类模型,这样,在多标签分类模型的输出结果被判定为易混淆的医疗关系时,可以使用对应的二分类模型对医疗文本进行二次识别,确定医疗文本所对应的医疗关系是否识别错误。
可选的,若得到的第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合,则将第一医疗文本分别输入到至少一个医疗关系对应的分类模型中进行预测,并分别基于分类模型的预测结果,重新识别第一医疗文本所包含的医疗关系。
若分类模型的预测结果是任意一个X医疗关系,则不从第一医疗文本所包含的医疗关系中剔除医疗关系X;或者,
若分类模型的预测结果不是医疗关系X,则从第一医疗文本所包含的医疗关系中剔除医疗关系X。
根据上述的描述可知,分类模型只能输出属于医疗关系和不属于医疗关系两种预测结果中的一种,因此,该分类模型也可以称为二分类模型。由于易混淆医疗关系集合中的各个医疗关系所对应的分类模型要执行的步骤是一样的,因此,以一个医疗关系对应的分类模型为例,参阅图3示出的流程示意图,对分类模型识别医疗关系的过程进行介绍。
S301:对第一医疗文本进行分词处理,得到第二初始字序列;
S302:在第二初始字序列的首部添加第二分类字,以及在第二初始字序列的尾部添加第二分割字,形成第二目标字序列;
S303:对第二目标字序列进行特征提取,得到第二目标字序列中每个字的字向量,并将第二分类字的字向量作为医疗文本特征;
S304:基于医疗文本特征得到第二预测概率,第二预测概率表征第一医疗文本属于医疗关系X的概率;
S305:若第二预测概率超过预设阈值,则判定医疗关系X为第一医疗文本的医疗关系;否则,判定医疗关系X不是第一医疗文本的医疗关系。
其中,步骤301、302的具体操作和步骤1011、1012是一样的,在此不再赘述。
例如,使用病因对应的二分类模型,识别以下两条医疗文本中是否包含病因这一医疗关系,识别结果如表2所示。
表2
Figure BDA0002860425120000111
S102:基于第一医疗文本和至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同。
例如,拼接得到如表3所示的医疗文本。
表3
Figure BDA0002860425120000121
S103:将至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到至少一个第二医疗文本所包含的医疗关系对应的实体对。
先识别出医疗文本对应的所有医疗关系,再使用实体提取模型一一确定每个医疗关系对应的实体对。具体地,请参阅图4示出的流程示意图,对实体提取模型提取实体对的过程进行介绍。
S1031:对任意一个第二医疗文本进行分词处理,得到第三初始字序列;
S1032:在第三初始字序列的首部添加第三分类字,以及在第三初始字序列的尾部添加第三分割字,形成第三目标字序列;
S1033:对第三目标字序列进行特征提取,得到第三目标字序列中每个字的字向量;
S1034:基于第三目标字序列中每个字的字向量,确定多个第三预测概率集合,其中一个第三预测概率集合表征第三目标字序列中任意一个字属于预设的每种实体的概率;
S1035:基于多个第三预测概率集合,确定任意一个第二医疗文本所包含的医疗关系对应的实体对。
假设,第三预测概率集合为P=[P头实体,P尾实体,P不属于实体],则上述概率分别表示该字属于头实体的概率、该字属于尾实体的概率,以及该字不属于实体的概率。
例如,使用实体提取模型得到各个医疗关系对应的实体对,具体结果如表4所示。
表4
Figure BDA0002860425120000131
S104:基于至少一个医疗关系和对应的实体对,生成对应的三元组。
承接上例,最终形成的三元组包括<喉炎,发病部位,喉部黏膜>、<喉炎,病因,病菌感染>、<喉炎,病理分型,慢性单纯性喉炎、肥厚性喉炎、萎缩性喉炎>。
参阅图5示出的结构示意图,医疗实体关系抽取装置可以包括医疗关系识别模块501、拼接模块502、实体提取模块503和生成模块504,其中,
医疗关系识别模块501,用于从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;
拼接模块502,用于基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;
实体提取模块503,用于将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;
生成模块504,用于基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。
可选的,所述医疗关系识别模块501用于:
基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系。
可选的,所述医疗关系识别模块501用于:
对所述第一医疗文本进行分词处理,得到第一初始字序列;
在所述第一初始字序列的首部添加第一分类字,以及在所述第一初始字序列的尾部添加第一分割字,形成第一目标字序列;
对所述第一目标字序列进行特征提取,得到所述第一目标字序列中每个字的字向量,并将所述第一分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到多个第一预测概率,其中一个第一预测概率对应一个预设的对应医疗关系,所述第一预测概率表征所述第一医疗文本属于对应医疗关系的概率;
将超过预设阈值的第一预测概率所对应的医疗关系,确定为所述第一医疗文本的医疗关系。
可选的,所述医疗关系识别模块501还用于:
若得到的所述第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合,则将所述第一医疗文本分别输入到所述至少一个医疗关系对应的分类模型中进行预测,并分别基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系。
可选的,所述医疗关系识别模块501用于:
若所述分类模型的预测结果是任意一个医疗关系,则不从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系;或者,
若所述分类模型的预测结果不是所述任意一个医疗关系,则从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系。
可选的,通过以下方式生成所述分类模型的预测结果:
对所述第一医疗文本进行分词处理,得到第二初始字序列;
在所述第二初始字序列的首部添加第二分类字,以及在所述第二初始字序列的尾部添加第二分割字,形成第二目标字序列;
对所述第二目标字序列进行特征提取,得到所述第二目标字序列中每个字的字向量,并将所述第二分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到第二预测概率,所述第二预测概率表征所述第一医疗文本属于所述任意一个医疗关系的概率;
若所述第二预测概率超过预设阈值,则判定所述任意一个医疗关系为所述第一医疗文本的医疗关系;否则,判定所述任意一个医疗关系不是所述第一医疗文本的医疗关系。
可选的,通过以下方式得到所述任意一个第二医疗文本所包含的医疗关系对应的实体对:
对所述任意一个第二医疗文本进行分词处理,得到第三初始字序列;
在所述第三初始字序列的首部添加第三分类字,以及在所述第三初始字序列的尾部添加第三分割字,形成第三目标字序列;
对所述第三目标字序列进行特征提取,得到所述第三目标字序列中每个字的字向量;
基于所述第三目标字序列中每个字的字向量,确定多个第三预测概率集合,其中一个第三预测概率集合表征所述第三目标字序列中任意一个字属于预设的每种实体的概率;
基于所述多个第三预测概率集合,确定所述任意一个第二医疗文本所包含的医疗关系对应的实体对。
在一些可能的实施方式中,本申请实施例还提供一种计算机设备,参阅图6所示,计算机设备可以至少包括至少一个处理器601、以及至少一个存储器602。其中,存储器602存储有程序代码,当程序代码被处理器601执行时,使得处器601执行本说明书上述描述的根据本申请各种示例性实施方式的医疗实体关系抽取方法中的步骤。例如,处理器601可以执行如图1b中所示的步骤。
在一些可能的实施方式中,本申请提供的医疗实体关系抽取方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的医疗实体关系抽取方法中的步骤,例如,计算机设备可以执行如图1b中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于业务控制的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种医疗实体关系抽取方法,其特征在于,包括:
从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;
基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;
将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;
基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。
2.如权利要求1所述的方法,其特征在于,从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:
基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系。
3.如权利要求2所述的方法,其特征在于,基于训练完毕的多标签分类模型,从所述第一医疗文本中提取所述医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系,包括:
对所述第一医疗文本进行分词处理,得到第一初始字序列;
在所述第一初始字序列的首部添加第一分类字,以及在所述第一初始字序列的尾部添加第一分割字,形成第一目标字序列;
对所述第一目标字序列进行特征提取,得到所述第一目标字序列中每个字的字向量,并将所述第一分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到多个第一预测概率,其中一个第一预测概率对应一个预设的对应医疗关系,所述第一预测概率表征所述第一医疗文本属于对应医疗关系的概率;
将超过预设阈值的第一预测概率所对应的医疗关系,确定为所述第一医疗文本的医疗关系。
4.如权利要求2所述的方法,其特征在于,在确定所述第一医疗文本对应的至少一个医疗关系之后,还包括:
若得到的所述第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合,则将所述第一医疗文本分别输入到所述至少一个医疗关系对应的分类模型中进行预测,并分别基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系。
5.如权利要求4所述的方法,其特征在于,基于所述分类模型的预测结果,重新识别所述第一医疗文本所包含的医疗关系,包括:
若所述分类模型的预测结果是任意一个医疗关系,则不从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系;或者,
若所述分类模型的预测结果不是所述任意一个语义关系,则从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系。
6.如权利要求4所述的方法,其特征在于,通过以下方式生成所述分类模型的预测结果:
对所述第一医疗文本进行分词处理,得到第二初始字序列;
在所述第二初始字序列的首部添加第二分类字,以及在所述第二初始字序列的尾部添加第二分割字,形成第二目标字序列;
对所述第二目标字序列进行特征提取,得到所述第二目标字序列中每个字的字向量,并将所述第二分类字的字向量作为所述医疗文本特征;
基于所述医疗文本特征得到第二预测概率,所述第二预测概率表征所述第一医疗文本属于任意一个医疗关系的概率;
若所述第二预测概率超过预设阈值,则判定所述任意一个医疗关系为所述第一医疗文本的医疗关系;否则,判定所述任意一个医疗关系不是所述第一医疗文本的医疗关系。
7.如权利要求1所述的方法,其特征在于,通过以下方式得到所述任意一个第二医疗文本所包含的医疗关系对应的实体对:
对所述任意一个第二医疗文本进行分词处理,得到第三初始字序列;
在所述第三初始字序列的首部添加第三分类字,以及在所述第三初始字序列的尾部添加第三分割字,形成第三目标字序列;
对所述第三目标字序列进行特征提取,得到所述第三目标字序列中每个字的字向量;
基于所述第三目标字序列中每个字的字向量,确定多个第三预测概率集合,其中一个第三预测概率集合表征所述第三目标字序列中任意一个字属于预设的每种实体的概率;
基于所述多个第三预测概率集合,确定所述任意一个第二医疗文本所包含的医疗关系对应的实体对。
8.一种医疗实体关系抽取装置,其特征在于,包括:
医疗关系识别模块,用于从第一医疗文本中提取医疗文本特征,并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系;
拼接模块,用于基于所述第一医疗文本和所述至少一个医疗关系,得到至少一个第二医疗文本,其中,每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的,且不同的第二医疗文本拼接使用的医疗关系不同;
实体提取模块,用于将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中,得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对;
生成模块,用于基于所述至少一个医疗关系和对应的实体对,生成对应的三元组。
9.一种计算机设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行权利要求1~7中任一项所述方法的步骤。
CN202011560534.1A 2020-12-25 2020-12-25 一种医疗实体关系抽取方法及装置 Active CN112599211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011560534.1A CN112599211B (zh) 2020-12-25 2020-12-25 一种医疗实体关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011560534.1A CN112599211B (zh) 2020-12-25 2020-12-25 一种医疗实体关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN112599211A true CN112599211A (zh) 2021-04-02
CN112599211B CN112599211B (zh) 2023-03-21

Family

ID=75202494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011560534.1A Active CN112599211B (zh) 2020-12-25 2020-12-25 一种医疗实体关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN112599211B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792800A (zh) * 2021-09-16 2021-12-14 创新奇智(重庆)科技有限公司 特征生成方法及装置、电子设备、存储介质
CN114595686A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908601A (zh) * 2017-11-01 2018-04-13 北京颐圣智能科技有限公司 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108520780A (zh) * 2018-03-07 2018-09-11 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN109145120A (zh) * 2018-07-02 2019-01-04 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统
CN109242516A (zh) * 2018-09-06 2019-01-18 北京京东尚科信息技术有限公司 处理服务单的方法和装置
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN110032649A (zh) * 2019-04-12 2019-07-19 北京科技大学 一种中医文献的实体间关系抽取方法及装置
CN110135189A (zh) * 2019-04-28 2019-08-16 上海市第六人民医院 一种面向医疗文本的患者隐私信息脱敏方法
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111435410A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN111444349A (zh) * 2020-03-06 2020-07-24 深圳追一科技有限公司 信息抽取方法、装置、计算机设备和存储介质
CN111444723A (zh) * 2020-03-06 2020-07-24 深圳追一科技有限公司 信息抽取模型训练方法、装置、计算机设备和存储介质
CN111506313A (zh) * 2020-03-04 2020-08-07 西安电子科技大学 一种基于神经网络的程序控制流混淆方法及系统
CN111666350A (zh) * 2020-05-28 2020-09-15 浙江工业大学 一种基于bert模型的医疗文本关系抽取的方法
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111737476A (zh) * 2020-08-05 2020-10-02 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质及电子设备
CN111899833A (zh) * 2020-08-15 2020-11-06 广州智云尚大数据科技有限公司 一种医疗数据处理方法、装置、服务器及存储介质
CN111950267A (zh) * 2020-08-14 2020-11-17 中国科学技术大学 文本三元组的抽取方法及装置、电子设备及存储介质
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908601A (zh) * 2017-11-01 2018-04-13 北京颐圣智能科技有限公司 医疗文本的分词模型构建方法、设备、可读存储介质及分词方法
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108520780A (zh) * 2018-03-07 2018-09-11 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN109145120A (zh) * 2018-07-02 2019-01-04 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统
CN109242516A (zh) * 2018-09-06 2019-01-18 北京京东尚科信息技术有限公司 处理服务单的方法和装置
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN111435410A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN110032649A (zh) * 2019-04-12 2019-07-19 北京科技大学 一种中医文献的实体间关系抽取方法及装置
CN110135189A (zh) * 2019-04-28 2019-08-16 上海市第六人民医院 一种面向医疗文本的患者隐私信息脱敏方法
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111506313A (zh) * 2020-03-04 2020-08-07 西安电子科技大学 一种基于神经网络的程序控制流混淆方法及系统
CN111444349A (zh) * 2020-03-06 2020-07-24 深圳追一科技有限公司 信息抽取方法、装置、计算机设备和存储介质
CN111444723A (zh) * 2020-03-06 2020-07-24 深圳追一科技有限公司 信息抽取模型训练方法、装置、计算机设备和存储介质
CN111666350A (zh) * 2020-05-28 2020-09-15 浙江工业大学 一种基于bert模型的医疗文本关系抽取的方法
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111737476A (zh) * 2020-08-05 2020-10-02 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质及电子设备
CN111950267A (zh) * 2020-08-14 2020-11-17 中国科学技术大学 文本三元组的抽取方法及装置、电子设备及存储介质
CN111899833A (zh) * 2020-08-15 2020-11-06 广州智云尚大数据科技有限公司 一种医疗数据处理方法、装置、服务器及存储介质
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘凯等: "基于卷积神经网络的中文医疗弱监督关系抽取", 《计算机科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792800A (zh) * 2021-09-16 2021-12-14 创新奇智(重庆)科技有限公司 特征生成方法及装置、电子设备、存储介质
CN113792800B (zh) * 2021-09-16 2023-12-19 创新奇智(重庆)科技有限公司 特征生成方法及装置、电子设备、存储介质
CN114595686A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
CN114595686B (zh) * 2022-03-11 2023-02-03 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置

Also Published As

Publication number Publication date
CN112599211B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
US11574122B2 (en) Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
CN106919655B (zh) 一种答案提供方法和装置
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN110688489B (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN114297394B (zh) 对文本中的事件论元进行抽取的方法和电子设备
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN110414004A (zh) 一种核心信息提取的方法和系统
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN112599211B (zh) 一种医疗实体关系抽取方法及装置
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
US20230111052A1 (en) Self-learning annotations to generate rules to be utilized by rule-based system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant