CN112599211A

CN112599211A - 一种医疗实体关系抽取方法及装置

Info

Publication number: CN112599211A
Application number: CN202011560534.1A
Authority: CN
Inventors: 程龙龙; 崔丙剑; 马思远; 袁丁; 李铭辉
Original assignee: Zhongdian Yunnao Tianjin Technology Co ltd
Current assignee: Zhongdian Yunnao Tianjin Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-02
Anticipated expiration: 2040-12-25
Also published as: CN112599211B

Abstract

本申请涉及信息抽取技术领域，提供一种医疗实体关系抽取方法及装置，以解决传统Pipeline式关系抽取法计算冗余、准确率低的问题，该方法包括：基于第一医疗文本中的医疗文本特征，确定对应的至少一个医疗关系；基于第一医疗文本和至少一个医疗关系，得到至少一个第二医疗文本；将至少一个第二医疗文本输入到训练完毕的实体提取模型中，得到至少一个第二医疗文本所包含的医疗关系对应的实体对；基于至少一个医疗关系和对应的实体对，生成对应的三元组。先确定医疗关系，再确定每个医疗关系对应的实体对，这样无需冗余计算，不但节省了运算时间，也降低了运算复杂度，还提高了医疗关系识别的准确率。

Description

一种医疗实体关系抽取方法及装置

技术领域

本申请涉及信息抽取技术领域，提供了一种医疗实体关系抽取方法及装置。

背景技术

实体关系相当于事物与事物之间的联系，而属性则丰富了人们对事物本身的认识。同理，医疗文本中也存在描述实体属性的信息，如，在“通过用手搔抓患癣的部位如足趾间，或与患者共用鞋袜、手套、浴巾、脚盆等是手癣的主要传播途径”这条医疗文本中，“手癣”的“传播途径”是“用手搔抓患……”。

为了抽取医疗文本中的实体对，以及识别实体对之间的医疗关系，一般采用流水线Pipeline式关系抽取法进行信息抽取，形成如<头实体，医疗关系，尾实体>所示的三元组；再基于大量的三元组构建成医疗知识图谱，为其他自然语言处理(Natural LanguageProcessing，NLP)技术(如，实体链接、查询query解析、问答系统、信息检索等)提供可解释性的先验知识和推理。例如，在“弥漫性肺泡出血易合并肺部感染”这条医疗文本中，“弥漫性肺泡出血”与“肺部感染”都是疾病，他们之间的医疗关系是“疾病-合并症”。

在Pipeline式关系抽取法中，先获取到医疗文本中的所有实体，再将实体两两组合判断实体对之间的医疗关系。这样的话，一旦实体抽取错误将会直接影响到医疗关系识别的准确率，而且在判断实体对之间的医疗关系时，可能会因为两个不存在医疗关系的实体对生成冗余信息、增加运算复杂度，进而影响医疗关系识别的准确率。

有鉴于此，本申请实施例提出了一种新的医疗实体关系抽取方法及装置。

发明内容

本申请实施例提供一种医疗实体关系抽取方法及装置，以解决传统Pipeline式关系抽取法计算冗余、准确率低的问题。

第一方面，本申请实施例提供的一种医疗实体关系抽取方法，包括：

从第一医疗文本中提取医疗文本特征，并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系；

基于所述第一医疗文本和所述至少一个医疗关系，得到至少一个第二医疗文本，其中，每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的，且不同的第二医疗文本拼接使用的医疗关系不同；

将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中，得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对；

基于所述至少一个医疗关系和对应的实体对，生成对应的三元组。

可选的，从第一医疗文本中提取医疗文本特征，并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系，包括：

基于训练完毕的多标签分类模型，从所述第一医疗文本中提取所述医疗文本特征，并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系。

可选的，基于训练完毕的多标签分类模型，从所述第一医疗文本中提取所述医疗文本特征，并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系，包括：

对所述第一医疗文本进行分词处理，得到第一初始字序列；

在所述第一初始字序列的首部添加第一分类字，以及在所述第一初始字序列的尾部添加第一分割字，形成第一目标字序列；

对所述第一目标字序列进行特征提取，得到所述第一目标字序列中每个字的字向量，并将所述第一分类字的字向量作为所述医疗文本特征；

基于所述医疗文本特征得到多个第一预测概率，其中一个第一预测概率对应一个预设的对应医疗关系，所述第一预测概率表征所述第一医疗文本属于对应医疗关系的概率；

将超过预设阈值的第一预测概率所对应的医疗关系，确定为所述第一医疗文本的医疗关系。

可选的，在确定所述第一医疗文本对应的至少一个医疗关系之后，还包括：

若得到的所述第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合，则将所述第一医疗文本分别输入到所述至少一个医疗关系对应的分类模型中进行预测，并分别基于所述分类模型的预测结果，重新识别所述第一医疗文本所包含的医疗关系。

可选的，基于所述分类模型的预测结果，重新识别所述第一医疗文本所包含的医疗关系，包括：

若所述分类模型的预测结果是任意一个医疗关系，则不从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系；或者，

若所述分类模型的预测结果不是所述任意一个医疗关系，则从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系。

可选的，通过以下方式生成所述分类模型的预测结果：

对所述第一医疗文本进行分词处理，得到第二初始字序列；

在所述第二初始字序列的首部添加第二分类字，以及在所述第二初始字序列的尾部添加第二分割字，形成第二目标字序列；

对所述第二目标字序列进行特征提取，得到所述第二目标字序列中每个字的字向量，并将所述第二分类字的字向量作为所述医疗文本特征；

基于所述医疗文本特征得到第二预测概率，所述第二预测概率表征所述第一医疗文本属于所述任意一个医疗关系的概率；

若所述第二预测概率超过预设阈值，则判定所述第一医疗关系为所述任意一个医疗文本的医疗关系；否则，判定所述任意一个医疗关系不是所述第一医疗文本的医疗关系。

可选的，通过以下方式得到所述任意一个第二医疗文本所包含的医疗关系对应的实体对：

对所述任意一个第二医疗文本进行分词处理，得到第三初始字序列；

在所述第三初始字序列的首部添加第三分类字，以及在所述第三初始字序列的尾部添加第三分割字，形成第三目标字序列；

对所述第三目标字序列进行特征提取，得到所述第三目标字序列中每个字的字向量；

基于所述第三目标字序列中每个字的字向量，确定多个第三预测概率集合，其中一个第三预测概率集合表征所述第三目标字序列中任意一个字属于预设的每种实体的概率；

基于所述多个第三预测概率集合，确定所述任意一个第二医疗文本所包含的医疗关系对应的实体对。

第二方面，本申请实施例还提供了一种医疗实体关系抽取装置，包括：

医疗关系识别模块，用于从第一医疗文本中提取医疗文本特征，并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系；

拼接模块，用于基于所述第一医疗文本和所述至少一个医疗关系，得到至少一个第二医疗文本，其中，每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的，且不同的第二医疗文本拼接使用的医疗关系不同；

实体提取模块，用于将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中，得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对；

生成模块，用于基于所述至少一个医疗关系和对应的实体对，生成对应的三元组。

可选的，所述医疗关系识别模块用于：

对所述第一医疗文本进行分词处理，得到第一初始字序列；

可选的，所述医疗关系识别模块还用于：

可选的，所述医疗关系识别模块用于：

可选的，通过以下方式生成所述分类模型的预测结果：

对所述第一医疗文本进行分词处理，得到第二初始字序列；

若所述第二预测概率超过预设阈值，则判定所述任意一个医疗关系为所述第一医疗文本的医疗关系；否则，判定所述任意一个医疗关系不是所述第一医疗文本的医疗关系。

第三方面，本申请实施例还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种医疗实体关系抽取方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行上述任意一种医疗实体关系抽取方法的步骤。

本申请有益效果如下：

本申请实施例提供的一种医疗实体关系抽取方法及装置，从第一医疗文本中提取医疗文本特征，并基于医疗文本特征确定第一医疗文本对应的至少一个医疗关系；基于第一医疗文本和至少一个医疗关系，得到至少一个第二医疗文本，其中，每个第二医疗文本是基于第一医疗文本和一个医疗关系拼接得到的，且不同的第二医疗文本拼接使用的医疗关系不同；将至少一个第二医疗文本输入到训练完毕的实体提取模型中，得到至少一个第二医疗文本所包含的医疗关系对应的实体对；基于至少一个医疗关系和对应的实体对，生成对应的三元组。在本申请实施例中，先提取出医疗文本对应的所有医疗关系，再使用实体提取模型一一确定每个医疗关系对应的实体对，在提取医疗关系时不受实体对是否提取准确的影响，也无需确定两两组合实体之间的语义关系，相比于传统Pipeline式关系抽取法来说，本申请实施例提出的新的医疗实体关系抽取方法无需冗余计算，这样不但节省了运算时间，也降低了运算复杂度，还提高了医疗关系识别的准确率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为医疗实体关系抽取模型的架构示意图；

图1b为抽取医疗实体关系的流程示意图；

图2为多标签分类模型识别医疗关系的流程示意图；

图3为分类模型识别医疗关系的流程示意图；

图4为实体提取模型提取医疗关系对应的实体对的流程示意图；

图5为医疗实体关系抽取装置的结构示意图；

图6为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

采用Pipeline式关系抽取法对医疗文本进行信息抽取，获得医疗文本中的实体对，以及识别实体对之间的医疗关系，形成如<头实体，医疗关系，尾实体>所示的三元组。具体地，在Pipeline式关系抽取法中，需要先确定医疗文本中的所有实体，再将实体两两组合判断实体对之间的医疗关系。这样的话，一旦实体抽取错误将会直接影响到医疗关系识别的准确率，而且在判断实体对之间的医疗关系时，可能会因为两个不存在医疗关系的实体进行冗余计算，进而影响医疗关系识别的准确率。有鉴于此，本申请实施例提出了一种新的医疗实体关系抽取方法。

在本申请实施例中，使用训练完毕的医疗实体关系抽取模型对医疗文本进行信息提取，先确定医疗文本对应的所有医疗关系，再确定每一个医疗关系所对应的实体对，从而形成至少一个三元组。参阅图1a示出的架构示意图可知，医疗实体关系抽取模型具体包含三类模型，分别是多标签分类模型、二分类模型和实体抽取模型。上述三类模型可以采用Transformer、循环神经网络(RNN，Recurrent Neural Network)、卷积神经网络(CNN，Convolutional Neural Network)等架构进行构建的，本申请实施例中是基于Transformer架构的BERT模型构建得到的。

医疗文本可能只对应一个医疗关系，也可能对应多个医疗关系，所以为了确定出医疗文本对应的所有医疗关系，在本申请实施例中使用多标签分类模型对医疗文本进行多标签识别，一个标签对应一个医疗关系。在本申请实施例中预设了易混淆医疗关系集合，在该集合中存储了多组易混淆的医疗关系，一组里至少包含两个医疗关系。为了保证医疗关系的识别准确率，会在多标签分类模型的输出结果被判定属于易混淆医疗关系集合时，使用二分类模型对医疗文本进行二次识别，确定医疗文本所对应的医疗关系是否识别错误。在识别出医疗文本对应的所有医疗关系后，使用实体提取模型，确定每一个医疗关系对应的实体对，进而基于医疗关系和对应的实体对，生成三元组。

在介绍完整体模型架构后，参阅图1b示出的流程示意图，对抽取医疗实体关系的方法进行详细介绍。

S101：从第一医疗文本中提取医疗文本特征，并基于医疗文本特征确定第一医疗文本对应的至少一个医疗关系。

在本申请实施例中，基于训练完毕的多标签分类模型提取出第一医疗文本对应的所有医疗关系，先从第一医疗文本中提取医疗文本特征，再基于医疗文本特征确定第一医疗文本对应的至少一个医疗关系。

参阅图2示出的流程示意图，对多标签分类模型识别医疗关系的过程进行介绍。

S1011：对第一医疗文本进行分词处理，得到第一初始字序列。

以字为单位对第一医疗文本中进行分割，形成如[x₁，x₂，…，x_n]所示的第一初始字序列，x_n表示第一医疗文本的第n个字。

S1012：在第一初始字序列的首部添加第一分类字，以及在第一初始字序列的尾部添加第一分割字，形成第一目标字序列。

在第一初始字序列中添加第一分类字和第一分割字后，形成如[[CLS]，x₁，x₂，…，x_n，[SEP]]所示的第一目标字序列。其中，[CLS]是第一分类字的标识信息(CLS为分类classify的英文缩写)，[SEP]是第二分类字的标识信息(SEP为分割segmentation的英文缩写)。

S1013：对第一目标字序列进行特征提取，得到第一目标字序列中每个字的字向量，并将第一分类字的字向量作为医疗文本特征。

S1014：基于医疗文本特征得到多个第一预测概率，其中一个第一预测概率对应一个预设的对应医疗关系，第一预测概率表征第一医疗文本属于对应医疗关系的概率。

S1015：将超过预设阈值的第一预测概率所对应的医疗关系，确定为第一医疗文本的医疗关系。

例如，将表1中示出的医疗文本输入到多标签分类模型，得出其对应的医疗关系为“发病部位”、“病因”和“病理分型”。

表1

在训练好多标签分类模型之后，使用大量的医疗文本作为测试集，对多标签分类模型进行测试。在分析测试结果时发现，多标签分类模型总是将医疗关系A识别为医疗关系B，将医疗关系C识别为医疗关系D或者医疗关系E，这样的话，(医疗关系A，医疗关系B)构成了一组易混淆的医疗关系，同理，(医疗关系C，医疗关系D，医疗关系E)构成了另一组易混淆的医疗关系。为了解决因易混淆的医疗关系导致的识别准确率低的问题，针对每一组易混淆的医疗关系中的每个医疗关系构建对应的二分类模型，这样，在多标签分类模型的输出结果被判定为易混淆的医疗关系时，可以使用对应的二分类模型对医疗文本进行二次识别，确定医疗文本所对应的医疗关系是否识别错误。

可选的，若得到的第一医疗文本对应的至少一个医疗关系属于预设的易混淆医疗关系集合，则将第一医疗文本分别输入到至少一个医疗关系对应的分类模型中进行预测，并分别基于分类模型的预测结果，重新识别第一医疗文本所包含的医疗关系。

若分类模型的预测结果是任意一个X医疗关系，则不从第一医疗文本所包含的医疗关系中剔除医疗关系X；或者，

若分类模型的预测结果不是医疗关系X，则从第一医疗文本所包含的医疗关系中剔除医疗关系X。

根据上述的描述可知，分类模型只能输出属于医疗关系和不属于医疗关系两种预测结果中的一种，因此，该分类模型也可以称为二分类模型。由于易混淆医疗关系集合中的各个医疗关系所对应的分类模型要执行的步骤是一样的，因此，以一个医疗关系对应的分类模型为例，参阅图3示出的流程示意图，对分类模型识别医疗关系的过程进行介绍。

S301：对第一医疗文本进行分词处理，得到第二初始字序列；

S302：在第二初始字序列的首部添加第二分类字，以及在第二初始字序列的尾部添加第二分割字，形成第二目标字序列；

S303：对第二目标字序列进行特征提取，得到第二目标字序列中每个字的字向量，并将第二分类字的字向量作为医疗文本特征；

S304：基于医疗文本特征得到第二预测概率，第二预测概率表征第一医疗文本属于医疗关系X的概率；

S305：若第二预测概率超过预设阈值，则判定医疗关系X为第一医疗文本的医疗关系；否则，判定医疗关系X不是第一医疗文本的医疗关系。

其中，步骤301、302的具体操作和步骤1011、1012是一样的，在此不再赘述。

例如，使用病因对应的二分类模型，识别以下两条医疗文本中是否包含病因这一医疗关系，识别结果如表2所示。

表2

S102：基于第一医疗文本和至少一个医疗关系，得到至少一个第二医疗文本，其中，每个第二医疗文本是基于第一医疗文本和一个医疗关系拼接得到的，且不同的第二医疗文本拼接使用的医疗关系不同。

例如，拼接得到如表3所示的医疗文本。

表3

S103：将至少一个第二医疗文本输入到训练完毕的实体提取模型中，得到至少一个第二医疗文本所包含的医疗关系对应的实体对。

先识别出医疗文本对应的所有医疗关系，再使用实体提取模型一一确定每个医疗关系对应的实体对。具体地，请参阅图4示出的流程示意图，对实体提取模型提取实体对的过程进行介绍。

S1031：对任意一个第二医疗文本进行分词处理，得到第三初始字序列；

S1032：在第三初始字序列的首部添加第三分类字，以及在第三初始字序列的尾部添加第三分割字，形成第三目标字序列；

S1033：对第三目标字序列进行特征提取，得到第三目标字序列中每个字的字向量；

S1034：基于第三目标字序列中每个字的字向量，确定多个第三预测概率集合，其中一个第三预测概率集合表征第三目标字序列中任意一个字属于预设的每种实体的概率；

S1035：基于多个第三预测概率集合，确定任意一个第二医疗文本所包含的医疗关系对应的实体对。

假设，第三预测概率集合为P＝[P_头实体，P_尾实体,P_{不属于实体}]，则上述概率分别表示该字属于头实体的概率、该字属于尾实体的概率，以及该字不属于实体的概率。

例如，使用实体提取模型得到各个医疗关系对应的实体对，具体结果如表4所示。

表4

S104：基于至少一个医疗关系和对应的实体对，生成对应的三元组。

承接上例，最终形成的三元组包括<喉炎，发病部位，喉部黏膜>、<喉炎，病因，病菌感染>、<喉炎，病理分型，慢性单纯性喉炎、肥厚性喉炎、萎缩性喉炎>。

参阅图5示出的结构示意图，医疗实体关系抽取装置可以包括医疗关系识别模块501、拼接模块502、实体提取模块503和生成模块504，其中，

医疗关系识别模块501，用于从第一医疗文本中提取医疗文本特征，并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系；

拼接模块502，用于基于所述第一医疗文本和所述至少一个医疗关系，得到至少一个第二医疗文本，其中，每个第二医疗文本是基于所述第一医疗文本和一个医疗关系拼接得到的，且不同的第二医疗文本拼接使用的医疗关系不同；

实体提取模块503，用于将所述至少一个第二医疗文本输入到训练完毕的实体提取模型中，得到所述至少一个第二医疗文本所包含的医疗关系对应的实体对；

生成模块504，用于基于所述至少一个医疗关系和对应的实体对，生成对应的三元组。

可选的，所述医疗关系识别模块501用于：

对所述第一医疗文本进行分词处理，得到第一初始字序列；

可选的，所述医疗关系识别模块501还用于：

可选的，所述医疗关系识别模块501用于：

可选的，通过以下方式生成所述分类模型的预测结果：

对所述第一医疗文本进行分词处理，得到第二初始字序列；

在一些可能的实施方式中，本申请实施例还提供一种计算机设备，参阅图6所示，计算机设备可以至少包括至少一个处理器601、以及至少一个存储器602。其中，存储器602存储有程序代码，当程序代码被处理器601执行时，使得处器601执行本说明书上述描述的根据本申请各种示例性实施方式的医疗实体关系抽取方法中的步骤。例如，处理器601可以执行如图1b中所示的步骤。

在一些可能的实施方式中，本申请提供的医疗实体关系抽取方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的医疗实体关系抽取方法中的步骤，例如，计算机设备可以执行如图1b中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于业务控制的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置，或者，可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种医疗实体关系抽取方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，从第一医疗文本中提取医疗文本特征，并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系，包括：

3.如权利要求2所述的方法，其特征在于，基于训练完毕的多标签分类模型，从所述第一医疗文本中提取所述医疗文本特征，并基于所述医疗文本特征确定所述第一医疗文本对应的至少一个医疗关系，包括：

对所述第一医疗文本进行分词处理，得到第一初始字序列；

4.如权利要求2所述的方法，其特征在于，在确定所述第一医疗文本对应的至少一个医疗关系之后，还包括：

5.如权利要求4所述的方法，其特征在于，基于所述分类模型的预测结果，重新识别所述第一医疗文本所包含的医疗关系，包括：

若所述分类模型的预测结果不是所述任意一个语义关系，则从所述第一医疗文本所包含的医疗关系中剔除所述任意一个医疗关系。

6.如权利要求4所述的方法，其特征在于，通过以下方式生成所述分类模型的预测结果：

对所述第一医疗文本进行分词处理，得到第二初始字序列；

基于所述医疗文本特征得到第二预测概率，所述第二预测概率表征所述第一医疗文本属于任意一个医疗关系的概率；

7.如权利要求1所述的方法，其特征在于，通过以下方式得到所述任意一个第二医疗文本所包含的医疗关系对应的实体对：

8.一种医疗实体关系抽取装置，其特征在于，包括：

9.一种计算机设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行权利要求1～7中任一项所述方法的步骤。