CN114596931B

CN114596931B - 基于病历的医学实体和关系联合提取方法和装置

Info

Publication number: CN114596931B
Application number: CN202210500531.1A
Authority: CN
Inventors: 秦晓宏; 华宗楠
Original assignee: Shanghai Clinbrain Information Technology Co Ltd
Current assignee: Shanghai Clinbrain Information Technology Co Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-02
Anticipated expiration: 2042-05-10
Also published as: CN114596931A

Abstract

本发明提供一种基于病历的医学实体和关系联合提取方法和装置，其中方法包括：对病历文本进行语义分割，得到多个待识别文本；对多个待识别文本中的分词分别进行序列组合，得到多个待识别文本的待识别词序列；待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成；利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及多个医学实体的实体类型，并在确定待识别文本的两个医学实体中的头实体和尾实体后，基于头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定两个医学实体之间是否存在待确认实体关系。本发明提高了医学关系抽取的准确性、嵌套实体识别的全面性和模型效率。

Description

基于病历的医学实体和关系联合提取方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于病历的医学实体和关系联合提取方法和装置。

背景技术

随着智慧医疗的稳步发展，基于临床产生的病历数据构建医学知识图谱成为了智慧医疗中的关键一环。然而，目前的病历数据多以自然语言记录，这些非结构化的病历数据无法直接用于构建知识图谱，因此需要通过实体识别和关系抽取等技术将其转换为结构化信息，以便机器处理。

然而，由于病历文本的特殊性，病历文本中存在大量相同类型的实体，而且存在医学关系的实体之间的间隔可能较大，因此，在判断上述相同类型的实体与另一类型实体间是否存在医学关系时，目前的关系抽取模型难以判断上述另一类型实体与上述相同类型实体中的哪一个或哪几个实体存在医学关系，导致医学关系抽取效果欠佳。例如，病历文本“患者于1年前无明显诱因出现左侧【鼻塞】（症状），【流脓涕】（症状），偶【打喷嚏】（症状），【嗅觉下降】（症状），无头痛、头晕，无鼻出血，无面部麻木及牙齿松动，无视物障碍，无其他不适，未治疗，【鼻塞】（症状）不见好转且逐渐【加重】（症状描述）”中存在大量实体类型为“症状”的实体，在判断实体类型为“症状描述”的实体“加重”与实体类型为“症状”的实体间是否存在医学关系时，难以辨别“加重”具体与哪个“症状”存在关系，导致模型错误地将所有实体类型为“症状”的实体与“加重”之间建立医学关系。

发明内容

本发明提供一种基于病历的医学实体和关系联合提取方法和装置，用以解决现有技术中病历文本中的医学关系抽取效果欠佳的缺陷。

本发明提供一种基于病历的医学实体和关系联合提取方法，包括：

对病历文本进行语义分割，得到多个待识别文本；

对所述多个待识别文本中的分词分别进行序列组合，得到所述多个待识别文本的待识别词序列；所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成；

利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及所述多个医学实体的实体类型，并在确定任一待识别文本的两个医学实体中的头实体和尾实体后，基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；

其中，所述待确认实体关系为预设医学关系中的一种，所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同，所述最近尾实体距离为所述头实体与最近尾实体间的距离，所述尾实体间隔为所述尾实体与所述最近尾实体间的距离，所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的医学实体。

根据本发明提供的一种基于病历的医学实体和关系联合提取方法，所述基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系，具体包括：

基于所述头实体和尾实体的实体表示、所述两个医学实体的上下文表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；

其中，所述上下文表示是基于所述两个医学实体所在的待识别文本中所有分词的语义表示确定的。

根据本发明提供的一种基于病历的医学实体和关系联合提取方法，所述上下文表示是基于如下步骤确定的：

基于所述两个医学实体所在的待识别文本中所有分词与所述头实体和所述尾实体之间的关联性，确定所述两个医学实体所在的待识别文本中每一分词的融合权重；

基于所述两个医学实体所在的待识别文本中每一分词的融合权重，对所述每一分词的语义表示进行融合，得到所述上下文表示。

根据本发明提供的一种基于病历的医学实体和关系联合提取方法，任一待识别文本中所有分词的语义表示是对所述任一待识别文本进行字切分，并进行去除重复字、修改错别字、增补缺失字的至少一种操作后，对每个字进行语义提取得到的。

根据本发明提供的一种基于病历的医学实体和关系联合提取方法，所述确定任一待识别文本的两个医学实体中的头实体和尾实体，具体包括：

确定所述两个医学实体各自对应的同类实体的数量；其中，任一医学实体对应的同类实体为所述任一待识别文本中实体类型与所述任一医学实体的实体类型相同的医学实体；

基于所述两个医学实体各自对应的同类实体的数量，确定头实体和尾实体。

根据本发明提供的一种基于病历的医学实体和关系联合提取方法，所述对任一待识别文本的待识别词序列进行医学实体识别，具体包括：

基于任一待识别词序列的首字或尾字，利用预设医学词典，确定所述任一待识别词序列是否语义完整；

当所述任一待识别词序列语义完整时，对所述任一待识别词序列进行医学实体识别。

根据本发明提供的一种基于病历的医学实体和关系联合提取方法，所述当所述任一待识别词序列语义完整时，对所述任一待识别词序列进行医学实体识别，具体包括：

当所述任一待识别词序列语义完整且所述任一待识别词序列的长度不超过预设阈值时，对所述任一待识别词序列进行医学实体识别。

根据本发明提供的一种基于病历的医学实体和关系联合提取方法，对任一待识别词序列进行医学实体识别，具体包括：

对所述任一待识别词序列中包含的所有分词的语义表示进行融合，得到所述任一待识别词序列的序列表示；

基于所述任一待识别词序列的序列表示和所述任一待识别词序列所在待识别文本的全文语义表示，确定所述任一待识别词序列是否为医学实体，以及当所述任一待识别词序列为医学实体时的实体类型。

根据本发明提供的一种基于病历的医学实体和关系联合提取方法，所述对病历文本进行语义分割，得到多个待识别文本，具体包括：

基于所述病历文本中的病历关键词和段落分隔符进行语义分割，得到多个待识别文本；所述待识别文本中包含一个或多个对应相同病历关键词的段落。

本发明还提供一种基于病历的医学实体和关系联合提取装置，包括：

文本分割单元，用于对病历文本进行语义分割，得到多个待识别文本；

序列划分单元，用于对所述多个待识别文本中的分词分别进行序列组合，得到所述多个待识别文本的待识别词序列；所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成；

实体关系联合抽取单元，用于利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及所述多个医学实体的实体类型，并在确定任一待识别文本的两个医学实体中的头实体和尾实体后，基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；

其中，所述待确认实体关系为预设医学关系中的一种，所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同，所述最近尾实体距离为所述头实体与最近尾实体间的距离，所述尾实体间隔为所述尾实体与所述最近尾实体间的距离，所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的实体。

本发明提供的基于病历的医学实体和关系联合提取方法和装置，以待识别文本的待识别词序列为单位进行实体识别和关系抽取，可以不遗漏地识别出病历文本中包含嵌套实体在内的所有医学实体；对于两个医学实体，利用医学实体间的关系是单向的这一特点，通过确认其中的头实体和尾实体，并单向判断两个实体之间的关系，提高了关系抽取的效率；进一步地，在头尾实体本身的实体表示基础上，额外增加两个维度的辅助信息，即最近尾实体距离和尾实体间隔，可以有效解决病历文本中存在大量相同类型的实体，而且存在医学关系的实体之间的间隔可能较大的难题，提高了医学关系抽取的准确性；此外，通过利用实体关系联合抽取模型进行医学实体和医学关系的联合抽取，优化了模型效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于病历的医学实体和关系联合提取方法的流程示意图；

图2是本发明实施例提供的上下文表示确定方法的流程示意图；

图3是本发明实施例提供的头尾实体确定方法的流程示意图；

图4是本发明实施例提供的待识别词序列筛选方法的流程示意图；

图5是本发明实施例提供的医学实体识别方法的流程示意图；

图6是本发明实施例提供的基于病历的医学实体和关系联合提取装置的结构示意图；

图7是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于病历的医学实体和关系联合提取方法的流程示意图，如图1所示，该方法包括：

步骤110，对病历文本进行语义分割，得到多个待识别文本。

具体地，获取待处理的病历文本。其中，可以直接获取电子病历作为病历文本，也可以将现有的纸质病历进行光学字符识别后作为病历文本，本发明实施例对此不作具体限定。由于病历文本中记载的信息之间有一定的独立性，例如病历文本中的主诉、现病史、个人史和既往史之间是相互独立的，因此可以对相互独立的信息分别进行医学实体识别和医学关系抽取，从而避免相互独立的信息之间产生干扰，尤其是在提取医学关系时，避免将实际没有关联的两个实体之间建立医学关系。例如，现病史中可能会记载该患者过往的疾病、症状等信息，而现病史中记载的症状信息与既往史中记载的疾病信息之间不存在关联，若将现病史和既往史一同进行医学关系抽取，容易将现病史中的症状信息与既往史中的疾病信息建立医学关系，导致关系抽取错误。此外，对相互独立的信息分别进行医学实体识别和医学关系抽取，还可以减少每次进行医学实体识别和医学关系抽取的文本量，提高处理效率。因此，可以对病历文本进行语义分割，将其分割为多个待识别文本。其中，各个待识别文本的语义信息之间是相互独立的。

步骤120，对所述多个待识别文本中的分词分别进行序列组合，得到所述多个待识别文本的待识别词序列；所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成。

具体地，医学信息存在着一定复杂性，病历文本中可能存在着嵌套实体。其中，嵌套实体是指本身作为一个实体且内部还包含另一个实体。例如，“头痛”本身为一个“症状”类型的实体，且其内部还包含有一个“部位”类型的实体“头”，因此“头痛”为一个嵌入实体。在病历文本中，类似这样的嵌套实体可能很多，为了不遗漏地将所有嵌套实体以及其内部的实体均识别出来，可以将待识别文本这一长文本中的分词进行序列组合，得到多个待识别词序列。其中，待识别词序列为进行医学实体识别和医学关系抽取的不可分割的最小单元，待识别文本中的每个分词本身可以单独作为待识别词序列，并且两个或以上连续的分词可以组合成为待识别词序列。例如，对于待识别文本“我今天头痛”可以组合得到“我”、“我今”、“我今天”、“我今天头”、“我今天头痛”、“今”、“今天”、“今天头”、“今天头痛”、“天”、“天头”、“天头痛”、“头”和“头痛”这几个待识别词序列。可见，嵌套实体本身以及其内部的实体均存在对应的待识别词序列，通过对待识别文本中的每个待识别词序列进行医学实体识别，可以识别出所有的嵌套实体及其内部的实体。

步骤130，利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及所述多个医学实体的实体类型，并在确定任一待识别文本的两个医学实体中的头实体和尾实体后，基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；

具体地，可以构建实体关系联合抽取模型，对待识别文本进行医学实体和医学关系的联合抽取，即利用同一模型完成医学实体识别和医学关系抽取这两项任务。在实体关系联合抽取模型的训练过程中，在医学实体识别和医学关系抽取这两项任务的训练目标的共同指引下，两个任务可以相互促进，能够有效提升模型的效果。其中，实体关系联合抽取模型可以基于样本文本以及样本文本中所有医学实体（包括嵌套实体）的标签和医学关系的标签训练得到。

具体而言，针对任一待识别文本，可以利用实体关系联合抽取模型，对该待识别文本的每个待识别词序列进行医学实体识别，得到多个医学实体以及上述多个医学实体的实体类型。此处，可以采用分类思想，利用softmax或类似方法对每个待识别词序列进行医学实体分类，其中医学实体的实体类型可以预先设置。若某个待识别词序列难以分到任何一个实体类型中，则模型可以确定该待识别词序列不属于医学实体。

确定出待识别文本中的医学实体及其实体类型后，实体关系联合抽取模型可以继续进行医学关系的抽取。考虑到医学文本中，医学实体之间的医学关系是单向的，例如时间-症状或者症状-时间，同样代表了症状的发生或者持续时间。因此，在判断医学实体之间是否存在某一类型的医学关系时，可以仅进行单向判断，即从两个医学实体中确定出头实体和尾实体，按照头实体-尾实体的顺序进行医学关系的判断，从而加快医学关系抽取的速度。其中，尾实体可以是上述两个医学实体中在待识别文本里存在同类实体的医学实体。

此时，模型可以有效利用确定得到的医学实体的实体类型，判断头实体与尾实体之间是否存在某一医学关系。其中，医学关系描述了该医学关系关联的两个医学实体的实体类型，且医学关系的种类可以根据目前的医学知识预先设置，例如“症状-症状描述”关系、“疾病-检查检验”关系等。此处，对于任意两个医学实体，若这两个医学实体的实体类型与任何医学关系中包含的实体类型均不相同，模型可以确定这两个医学实体之间不存在医学关系。若两个医学实体的实体类型与某一个医学关系中包含的实体类型相同，例如实体类型为“症状”的医学实体和实体类型为“症状描述”的医学实体与“症状-症状描述”这一医学关系中包含的实体类型相同，则可以将该医学关系作为待确认实体关系，进一步判断上述两个医学实体之间是否存在该待确认实体关系。

在判断头尾实体之间是否存在待确认实体关系时，会面临待识别文本这一医学文本中存在大量相同类型的实体，而且存在医学关系的实体之间的间隔可能较大的难题。例如，待识别文本A“患者于1年前无明显诱因出现【流脓涕】（症状），偶【打喷嚏】（症状），【嗅觉下降】（症状），无头痛、头晕，无鼻出血，无面部麻木及牙齿松动，无视物障碍，无其他不适，未治疗，且【鼻塞】（症状）不见好转且逐渐【加重】（症状描述）”中，【加重】仅与【鼻塞】之间存在医学关系“症状-症状描述”。而待识别文本B“患者于1年前无明显诱因出现左侧【鼻塞】（症状），【流脓涕】（症状），偶【打喷嚏】（症状），【嗅觉下降】（症状），无头痛、头晕，无鼻出血，无面部麻木及牙齿松动，无视物障碍，无其他不适，未治疗，症状不见好转且逐渐【加重】（症状描述）”中，【加重】与之前的所有“症状”均存在医学关系“症状-症状描述”。

此处，考虑到在病历文本中，若多个相同类型的医学实体均与另一医学实体之间存在相同的医学关系，那么上述多个相同类型的医学实体通常会聚集出现，例如上述待识别文本B中的【鼻塞】、【流脓涕】、【打喷嚏】和【嗅觉下降】。若两个医学实体（假设为M和N）类型相同，但其中仅有一个医学实体（假设为M）与另一实体（假设为P）之间存在医学关系，那么上述两个医学实体M和N之间应该有相对大的距离，例如上述待识别文本A中的【鼻塞】和【嗅觉下降】。并且，上述相同类型的医学实体中距离另一医学实体最近的医学实体与上述另一医学实体之间更可能存在医学关系。

因此，为了提高医学关系抽取的准确性，实体关系联合抽取模型可以增加两个维度的额外信息，以帮助区分各个相同类型的实体与另一类型实体之间是否存在医学关系。上述两个维度的额外信息为最近尾实体距离和尾实体间隔。其中，最近尾实体距离为头实体与最近尾实体间的距离，尾实体间隔为尾实体与最近尾实体间的距离，上述最近尾实体为该待识别文本中与上述尾实体的实体类型相同且距离上述头实体最近的医学实体。以待识别文本A为例，若头实体为【加重】，尾实体为【嗅觉下降】，则最近尾实体为【鼻塞】，最近尾实体距离为【加重】与【鼻塞】之间的字数，尾实体间隔为【嗅觉下降】与【鼻塞】之间的字数。需要说明的是，若不存在最近尾实体，则最近尾实体距离和尾实体间隔可以设为某个预设值，例如0。

其中，最近尾实体距离可以帮助确定最近尾实体与头实体之间是否存在待确认实体关系，尾实体间隔可以帮助确定尾实体与最近尾实体是否聚集，在这两个维度的额外信息的辅助下，结合头尾实体的实体表示，可以综合判断尾实体与头实体之间是否存在待确认实体关系。

因此，基于头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，模型可以确定头尾实体之间是否存在待确认实体关系。其中，实体的实体表示用于表征该实体的语义信息，以及该实体与其上下文之间的关联信息。

此处，实体关系联合抽取模型在训练过程中，会在样本文本的医学实体的标签和医学关系的标签指引下，不停更新自身的模型参数，使得模型根据样本文本中的样本头实体、样本尾实体、样本最近尾实体距离和样本尾实体间隔判断样本头实体和样本尾实体之间是否存在待确认实体关系的判断结果与实际情况一致。在此过程中，模型会学会根据样本最近尾实体距离辨别样本最近尾实体与样本头实体之间是否存在待确认实体关系，并学会根据样本尾实体间隔判断样本尾实体与样本最近尾实体是否聚集，再结合样本头实体和样本尾实体自身的语义信息，可以综合判断样本尾实体与样本头实体之间是否存在待确认实体关系。因此，利用训练完成的实体关系联合抽取模型，根据头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，可以准确确定头尾实体之间是否存在待确认实体关系，提高医学关系抽取的准确性。另外，在确定头尾实体之间是否存在待确认实体关系时，可以利用关系分类的思想，利用sigmoid或类似方法计算头尾实体之间存在待确认实体关系的概率。

本发明实施例提供的方法，以待识别文本的待识别词序列为单位进行实体识别和关系抽取，可以不遗漏地识别出病历文本中包含嵌套实体在内的所有医学实体；对于两个医学实体，利用医学实体间的关系是单向的这一特点，通过确认其中的头实体和尾实体，并单向判断两个实体之间的关系，提高了关系抽取的效率；进一步地，在头尾实体本身的实体表示基础上，额外增加两个维度的辅助信息，即最近尾实体距离和尾实体间隔，可以有效解决病历文本中存在大量相同类型的实体，而且存在医学关系的实体之间的间隔可能较大的难题，提高了医学关系抽取的准确性；此外，通过利用实体关系联合抽取模型进行医学实体和医学关系的联合抽取，优化了模型效果。

基于上述实施例，所述基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系，具体包括：

具体地，为了提高医学关系抽取的准确性，可以引入两个医学实体的上下文，辅助确定上述两个医学实体的医学关系。目前，部分通用模型会通过获取两个实体之间的文本片段作为上下文辅助确定上述两个实体之间的医学关系。然而，此种方式难以适用到病历文本的医学关系抽取任务中，原因在于病历文本中存在着大量相同类型的医学实体，当某一医学实体前后存在同一类型的医学实体，但仅与其后面的医学实体之间存在医学关系时，利用上述方式反而会抽取错误的医学关系。例如，“患者患有高血压【3年】（时间），服用【降压药物】（药物）【2年】（时间）”中，【降压药物】前后存在类型均为“时间”的医学实体，即【3年】和【2年】，但【降压药物】仅与【2年】之间存在医学关系。若在判断【3年】和【降压药物】之间是否存在医学关系时，仅利用两者之间的文本片段（即“服用”）作为上下文，模型将会错误地确定【3年】和【降压药物】之间存在医学关系。

因此，本发明实施例在判断两个医学实体间是否存在待确认实体关系时，为了进一步提高关系抽取的准确性，会基于头尾实体所在的待识别文本中所有分词的语义表示确定上下文表示，以尽可能地获取更完整、更丰富的上下文语义信息。再基于头实体和尾实体的实体表示、上述上下文表示、最近尾实体距离和尾实体间隔，利用上下文语义信息辅助确定头尾实体之间是否存在待确认实体关系，提高医学关系抽取的准确性。

基于上述任一实施例，图2为本发明实施例提供的上下文表示确定方法的流程示意图，如图2所示，所述上下文表示是基于如下步骤确定的：

步骤210，基于所述两个医学实体所在的待识别文本中所有分词与所述头实体和所述尾实体之间的关联性，确定所述两个医学实体所在的待识别文本中每一分词的融合权重。

具体地，获取两个医学实体所在的待识别文本中所有分词的语义表示。此处，实体关系联合抽取模型可以利用BERT或类似模型获取任一分词的语义表示。其中，任一分词的语义表示可以表征该分词在待识别文本中的语义信息。随后，确定待识别文本中所有分词与上述头实体和上述尾实体之间的关联性，并基于该关联性设置各分词的融合权重。其中，任一分词与头实体或尾实体的关联性越强，表明该分词的语义信息与头实体或尾实体的语义信息更相关，该分词在确定头尾实体间医学关系时所起的作用越大，因此其对应的融合权重可以设置得越高。此处，可以利用注意力机制，将所有分词的语义表示拼接后与头实体和尾实体的实体表示进行注意力交互，从而得到各个分词的语义表示的注意力权重，并将该注意力权重作为对应分词的融合权重。

步骤220，基于所述两个医学实体所在的待识别文本中每一分词的融合权重，对所述每一分词的语义表示进行融合，得到所述上下文表示。

具体地，可以基于待识别文本中每一分词的融合权重，对每一分词的语义表示进行加权融合，得到上下文表示。其中，通过上述加权融合的方式，可以凸显待识别文本中与头尾实体更相关的分词的语义信息，弱化与头尾实体不相关的分词的语义信息，从而避免不相关的分词为医学关系判断造成干扰，进一步提高医学关系抽取的准确性。

基于上述任一实施例，任一待识别文本中所有分词的语义表示是对所述任一待识别文本进行字切分，并进行去除重复字、修改错别字、增补缺失字的至少一种操作后，对每个字进行语义提取得到的。

具体地，由上述实施例可知，待识别文本的分词结果以及分词的语义表示将作为待识别词序列的划分、医学实体识别和医学关系抽取的依据，因此对待识别文本进行合适的分词将会影响实体关系联合抽取模型的效果。通常的基于空格的分词方式或者subword的分词方式更适用于英文。然而，病历文本中大多为中文，上述方式难以对病历文本进行合适的分词，且病历文本中存在大量嵌套实体，若根据词典进行分词，可能会忽略嵌套实体内部的实体，导致实体识别和关系抽取不全面。例如“我今天头痛”，若基于词典进行分词，分词结果可能为“我”“今天”和“头痛”，按照该分词结果进行后续的医学实体识别和医学关系抽取，将会遗漏医学实体“头”及其与其他医学实体的医学关系。

因此，可以对待识别文本进行字切分，将待识别文本分割成一个个单独的汉字，每个汉字单独构成一个分词，从而保证得到的分词本身具备一定的语义信息，且不会遗漏嵌套实体内部的实体。随后，还可以对分词结果进行文本预处理操作，例如进行去除重复字、修改错别字、增补缺失字的至少一种，再对每个字进行语义提取，得到每个字的字向量，作为每个分词的语义表示。

基于上述任一实施例，图3为本发明实施例提供的头尾实体确定方法的流程示意图，如图3所示，所述确定任一待识别文本的两个医学实体中的头实体和尾实体，具体包括：

步骤310，确定所述两个医学实体各自对应的同类实体的数量；其中，任一医学实体对应的同类实体为所述任一待识别文本中实体类型与所述任一医学实体的实体类型相同的医学实体；

步骤320，基于所述两个医学实体各自对应的同类实体的数量，确定头实体和尾实体。

具体地，在确定两个医学实体之间是否存在待确认实体关系时，额外引入了最近尾实体距离和尾实体间隔这两个辅助信息，而上述两个辅助信息取决于头尾实体的确定结果。考虑到上述两个辅助信息需要确定最近尾实体（若存在最近尾实体），且最近尾实体与尾实体是相同类型的，表明尾实体应当在待识别文本中存在相同类型的同类实体。因此，若两个医学实体中有一个医学实体存在一个或多个同类实体时，可以将其作为尾实体，另一个医学实体作为头实体。例如待识别文本A中，“症状”类型的医学实体有多个，在判断【加重】和【嗅觉下降】这两个医学实体间是否存在待确认实体关系“症状-症状描述”时，可以将同类实体有多个的【嗅觉下降】作为尾实体，【加重】作为头实体。

因此，可以统计待识别文本中与两个医学实体中任一医学实体的实体类型相同的同类实体的数量，再基于上述两个医学实体各自对应的同类实体的数量，确定头实体和尾实体。为了便于后续说明，将上述两个医学实体表示为M和N。确定头实体和尾实体时，存在以下三种情况：M和N的同类实体数量均为1，则可以任意选定M或N作为头实体，另一个作为尾实体；M和N的同类实体数量均大于1，也可以任意选定M或N作为头实体，另一个作为尾实体；M的同类实体数量一个为1，N的同类实体数量大于1，则可以选定M作为头实体，N作为尾实体。

基于上述任一实施例，图4为本发明实施例提供的待识别词序列筛选方法的流程示意图，如图4所示，所述对任一待识别文本的待识别词序列进行医学实体识别，具体包括：

步骤410，基于任一待识别词序列的首字或尾字，利用预设医学词典，确定所述任一待识别词序列是否语义完整；

步骤420，当所述任一待识别词序列语义完整时，对所述任一待识别词序列进行医学实体识别。

具体地，在上述实施例中，对待识别文本的分词进行序列组合，得到多个待识别词序列时，会将待识别文本中的每个分词本身单独作为待识别词序列，并且将两个和两个以上连续的分词组合成为待识别词序列。此种方式在待识别文本较长时，会生成非常多的待识别词序列，导致后续对各个待识别词序列进行实体识别时的运算量急剧增长，效率降低。

对此，本发明实施例对生成的待识别词序列进行筛选，去除不可能为医学实体的待识别词序列，从而大大减少实体识别时的运算量，提高效率。具体而言，可以基于任一待识别词序列的首字和尾字中的至少一个，利用预设医学词典，判断该待识别词序列是否语义完整。其中，根据预设医学词典，可以判断待识别词序列的首字在该词典中是否曾以首字的形式出现在某个词条中，或是判断待识别词序列的尾字在该词典中是否曾以尾字的形式出现在某个词条中。若在该词典中，该待识别词序列的首字未曾以首字的形式出现过，或该待识别词序列的尾字在该词典中未曾以尾字的形式过，表明当前的待识别词序列的表达不完整。例如，从待识别文本“患有高血压三年”中划分得到的待识别词序列“高血压三”中，尾字“三”在词典中未曾以尾字出现过，表明其后应当还有其他字，因此该待识别词序列不完整。

若待识别词序列语义是不完整的，则该待识别词序列将不进行后续的医学实体识别，从而降低医学实体识别的运算量，提高效率。

基于上述任一实施例，步骤420具体包括：

具体地，上述对待识别文本的分词进行序列组合的方式，在待识别文本较长时，还会生成长度较长的待识别词序列。考虑到医学实体的长度通常较短，因此对于长度过长的待识别词序列，可以认为其不构成医学实体。因此，可以在判断待识别词序列语义完整以外，还判断该待识别词序列的长度是否超过预设阈值，若待识别词序列的长度超过预设阈值，则不会对其进行医学实体识别。其中，预设阈值可以通过对预设医学词典中词条的长度进行统计后设置得到。通过仅对表达完整且长度不超过预设阈值的待识别词序列进行医学实体识别，大大减少了需要进行医学实体识别的待识别词序列数量，提高了医学实体识别的效率。

基于上述任一实施例，图5为本发明实施例提供的医学实体识别方法的流程示意图，如图5所示，对任一待识别词序列进行医学实体识别，具体包括：

步骤510，对所述任一待识别词序列中包含的所有分词的语义表示进行融合，得到所述任一待识别词序列的序列表示；

步骤520，基于所述任一待识别词序列的序列表示和所述任一待识别词序列所在待识别文本的全文语义表示，确定所述任一待识别词序列是否为医学实体，以及当所述任一待识别词序列为医学实体时的实体类型。

具体地，可以对待识别词序列中包含的所有分词的语义表示进行融合，以汇总该待识别词序列中每个分词的语义信息，形成该待识别词序列的语义信息，得到该待识别词序列的序列表示。其中，待识别词序列的序列表示可以表征该待识别词序列整体的语义信息。此处，可以利用Max pooling等方式将待识别词序列中包含的所有分词的语义表示融合起来。

为了提高医学实体识别的准确性，可以基于待识别词序列所在的待识别文本的整体语义信息，将待识别词序列置于整体语境中进行医学实体识别。因此，实体关系联合抽取模型可以获取待识别文本的全文语义表示，基于全文语义表示中包含的待识别文本的整体语义信息，以及待识别词序列的序列表示中包含的该待识别词序列的语义信息，对该待识别词序列进行医学实体分类，确定其是否为医学实体，以及当其为医学实体时的实体类型。此处，待识别文本的全文语义表示可以基于其中所有分词的语义表示融合得到，也可以额外增加一个特殊标签（例如CLS）与各分词一同输入至Bert或类似模型中获取语义表示，然后将该特殊标签对应的语义表示作为全文语义表示。

基于上述任一实施例，步骤110具体包括：

具体地，由于医生在书写病历时可能存在书写不规范，病历文本中穿插着大量不规范的标准符号，例如使用不规范的“。”、“；”、制表符以及换行符等。因此，利用通常的分句或分段方式难以获得准确的语义独立的待识别文本。

对此，考虑到病历文本本身具备一定的结构性，例如包含主诉部分、病史部分、检查检验部分、诊断部分等，因此可以直接从病历文本内容入手，通过病历关键词结合段落分隔符进行语义分割，将病历文本中对应相同病历关键词的段落划分到一起，作为一个待识别文本，从而提高病历文本语义分割的准确性。

基于上述任一实施例，图6为本发明实施例提供的基于病历的医学实体和关系联合提取装置的结构示意图，如图6所示，该装置包括：文本分割单元610、序列划分单元620和实体关系联合抽取单元630。

其中，文本分割单元610用于对病历文本进行语义分割，得到多个待识别文本；

序列划分单元620用于对所述多个待识别文本中的分词分别进行序列组合，得到所述多个待识别文本的待识别词序列；所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成；

实体关系联合抽取单元630用于利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及所述多个医学实体的实体类型，并在确定任一待识别文本的两个医学实体中的头实体和尾实体后，基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；

本发明实施例提供的装置，以待识别文本的待识别词序列为单位进行实体识别和关系抽取，可以不遗漏地识别出病历文本中包含嵌套实体在内的所有医学实体；对于两个医学实体，利用医学实体间的关系是单向的这一特点，通过确认其中的头实体和尾实体，并单向判断两个实体之间的关系，提高了关系抽取的效率；进一步地，在头尾实体本身的实体表示基础上，额外增加两个维度的辅助信息，即最近尾实体距离和尾实体间隔，可以有效解决病历文本中存在大量相同类型的实体，而且存在医学关系的实体之间的间隔可能较大的难题，提高了医学关系抽取的准确性；此外，通过利用实体关系联合抽取模型进行医学实体和医学关系的联合抽取，优化了模型效果。

基于上述任一实施例，所述基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系，具体包括：

基于上述任一实施例，所述上下文表示是基于如下步骤确定的：

基于上述任一实施例，所述确定任一待识别文本的两个医学实体中的头实体和尾实体，具体包括：

基于上述任一实施例，所述对任一待识别文本的待识别词序列进行医学实体识别，具体包括：

基于上述任一实施例，所述当所述任一待识别词序列语义完整时，对所述任一待识别词序列进行医学实体识别，具体包括：

基于上述任一实施例，对任一待识别词序列进行医学实体识别，具体包括：

基于上述任一实施例，文本分割单元610具体用于：

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行基于病历的医学实体和关系联合提取方法，该方法包括：对病历文本进行语义分割，得到多个待识别文本；对所述多个待识别文本中的分词分别进行序列组合，得到所述多个待识别文本的待识别词序列；所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成；利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及所述多个医学实体的实体类型，并在确定任一待识别文本的两个医学实体中的头实体和尾实体后，基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；其中，所述待确认实体关系为预设医学关系中的一种，所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同，所述最近尾实体距离为所述头实体与最近尾实体间的距离，所述尾实体间隔为所述尾实体与所述最近尾实体间的距离，所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的医学实体。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于病历的医学实体和关系联合提取方法，该方法包括：对病历文本进行语义分割，得到多个待识别文本；对所述多个待识别文本中的分词分别进行序列组合，得到所述多个待识别文本的待识别词序列；所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成；利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及所述多个医学实体的实体类型，并在确定任一待识别文本的两个医学实体中的头实体和尾实体后，基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；其中，所述待确认实体关系为预设医学关系中的一种，所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同，所述最近尾实体距离为所述头实体与最近尾实体间的距离，所述尾实体间隔为所述尾实体与所述最近尾实体间的距离，所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的医学实体。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于病历的医学实体和关系联合提取方法，该方法包括：对病历文本进行语义分割，得到多个待识别文本；对所述多个待识别文本中的分词分别进行序列组合，得到所述多个待识别文本的待识别词序列；所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成；利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及所述多个医学实体的实体类型，并在确定任一待识别文本的两个医学实体中的头实体和尾实体后，基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；其中，所述待确认实体关系为预设医学关系中的一种，所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同，所述最近尾实体距离为所述头实体与最近尾实体间的距离，所述尾实体间隔为所述尾实体与所述最近尾实体间的距离，所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的医学实体。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于病历的医学实体和关系联合提取方法，其特征在于，包括：

对病历文本进行语义分割，得到多个待识别文本；

利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及所述多个医学实体的实体类型，并在确定任一待识别文本的两个医学实体中的头实体和尾实体后，基于所述头实体和尾实体的实体表示、所述两个医学实体的上下文表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；所述上下文表示是基于所述两个医学实体所在的待识别文本中所有分词的语义表示确定的；

其中，所述待确认实体关系为预设医学关系中的一种，所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同，所述最近尾实体距离为所述头实体与最近尾实体间的距离，所述尾实体间隔为所述尾实体与所述最近尾实体间的距离，所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的医学实体；实体关系联合抽取模型是基于样本文本以及样本文本中医学实体的标签和医学关系的标签训练得到的；

对任一待识别词序列进行医学实体识别，具体包括：

对所述任一待识别词序列中包含的所有分词的语义表示进行融合，得到所述任一待识别词序列的序列表示；基于所述任一待识别词序列的序列表示和所述任一待识别词序列所在待识别文本的全文语义表示，确定所述任一待识别词序列是否为医学实体，以及当所述任一待识别词序列为医学实体时的实体类型。

2.根据权利要求1所述的基于病历的医学实体和关系联合提取方法，其特征在于，所述上下文表示是基于如下步骤确定的：

3.根据权利要求1所述的基于病历的医学实体和关系联合提取方法，其特征在于，任一待识别文本中所有分词的语义表示是对所述任一待识别文本进行字切分，并进行去除重复字、修改错别字、增补缺失字的至少一种操作后，对每个字进行语义提取得到的。

4.根据权利要求1所述的基于病历的医学实体和关系联合提取方法，其特征在于，所述确定任一待识别文本的两个医学实体中的头实体和尾实体，具体包括：

5.根据权利要求1所述的基于病历的医学实体和关系联合提取方法，其特征在于，所述对任一待识别文本的待识别词序列进行医学实体识别，具体包括：

6.根据权利要求5所述的基于病历的医学实体和关系联合提取方法，其特征在于，所述当所述任一待识别词序列语义完整时，对所述任一待识别词序列进行医学实体识别，具体包括：

7.根据权利要求1至6任一项所述的基于病历的医学实体和关系联合提取方法，其特征在于，所述对病历文本进行语义分割，得到多个待识别文本，具体包括：

8.一种基于病历的医学实体和关系联合提取装置，其特征在于，包括：

实体关系联合抽取单元，用于利用实体关系联合抽取模型，对任一待识别文本的待识别词序列进行医学实体识别，得到多个医学实体以及所述多个医学实体的实体类型，并在确定任一待识别文本的两个医学实体中的头实体和尾实体后，基于所述头实体和尾实体的实体表示、所述两个医学实体的上下文表示、最近尾实体距离和尾实体间隔，确定所述两个医学实体之间是否存在待确认实体关系；所述上下文表示是基于所述两个医学实体所在的待识别文本中所有分词的语义表示确定的；

其中，所述待确认实体关系为预设医学关系中的一种，所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同，所述最近尾实体距离为所述头实体与最近尾实体间的距离，所述尾实体间隔为所述尾实体与所述最近尾实体间的距离，所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的实体；实体关系联合抽取模型是基于样本文本以及样本文本中医学实体的标签和医学关系的标签训练得到的；

对任一待识别词序列进行医学实体识别，具体包括：