CN109284497B

CN109284497B - 用于识别自然语言的医疗文本中的医疗实体的方法和装置

Info

Publication number: CN109284497B
Application number: CN201710594503.XA
Authority: CN
Inventors: 张振中
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2021-01-12
Anticipated expiration: 2037-07-20
Also published as: EP3657359A4; US20220300710A9; CN109284497A; JP7043429B2; JP2020527762A; US20210342539A1; US11586809B2; EP3657359A1; WO2019015369A1

Abstract

本发明的实施例提供一种用于识别自然语言的医疗文本中的医疗实体的方法和装置。在该方法中，将医疗文本分成多个词语。对于多个词语中的每一个词语，确定该词语的局部标注特征和全局标注特征，其中，局部标注特征包括该词语，全局标注特征包括该词语与已识别医疗实体的关系。接着，基于该词语的局部标注特征和全局标注特征，从多个候选标签中确定该词语的标签。如果该词语的标签指示识别医疗实体，则确定在该词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合。然后，将标签的组合所对应的词语的组合识别为医疗实体。

Description

用于识别自然语言的医疗文本中的医疗实体的方法和装置

技术领域

本发明涉及医疗实体识别的技术领域，具体地，涉及用于识别自然语言的医疗文本中的医疗实体的方法和装置。

背景技术

随着医疗信息技术的发展，出现了大量可用的电子健康档案文本(例如电子病历和体检报告等)。这些文本能够支持临床决策系统。然而，由于电子健康档案文本大部分由自然语言构成，电子健康档案文本中的有用信息无法被依赖于结构化数据的临床决策系统直接使用。为充分利用电子健康档案文本，能够从自然语言中抽取结构化数据的自然语言处理技术在临床医学领域受到了广泛关注。作为临床自然语言处理的一项基本任务，医疗实体识别一直备受医学界关注。医疗实体类别通常包含药物、问题(包括疾病和症状)、检查和治疗。医疗实体包括连续医疗实体(由连续词语组成的医疗实体)和非连续医疗实体(由非连续词语组成的医疗实体)。

发明内容

本文中描述的实施例提供了一种用于识别自然语言的医疗文本中的医疗实体的方法和装置。该方法和装置能够更准确地识别自然语言的医疗文本中的连续医疗实体和非连续医疗实体。

根据本发明的第一方面，提供了一种用于识别自然语言的医疗文本中的医疗实体的方法。在该方法中，将医疗文本分成多个词语。对于多个词语中的每一个词语，确定该词语的局部标注特征和全局标注特征，其中，局部标注特征包括该词语，全局标注特征包括该词语与已识别医疗实体的关系。接着，基于该词语的局部标注特征和全局标注特征，从多个候选标签中确定该词语的标签。如果该词语的标签指示识别医疗实体，则确定在该词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合。然后，将标签的组合所对应的词语的组合识别为医疗实体。

在本发明的实施例中，局部标注特征还包括在该词语前后的预定数量的词语。

在本发明的实施例中，局部标注特征还包括该词语的词性以及在该词语前后的预定数量的词语的词性。

在本发明的实施例中，局部标注特征包括：该词语、该词语的前三个词语、该词语的后三个词语、该词语的词性、该词语的前三个词语的词性、该词语的后三个词语的词性。

在本发明的实施例中，全局标注特征还包括在该词语前后的预定数量的词语与已识别医疗实体的关系。

在本发明的实施例中，全局标注特征包括：该词语是否包含在已识别的医疗实体中、该词语的前一个词语是否包含在已识别的医疗实体中、该词语的后一个词语是否包含在已识别的医疗实体中。

在本发明的实施例中，多个候选标签包括：指示词语是医疗实体的共享开始部分的第一标签、指示词语是医疗实体的非共享开始部分的第二标签、指示词语是医疗实体连续的一部分的第三标签、指示词语是非医疗实体并指示识别医疗实体的第四标签以及指示词语是非医疗实体并指示不识别医疗实体的第五标签。

在本发明的实施例中，在基于该词语的局部标注特征和全局标注特征，从多个候选标签中确定该词语的标签的步骤中，基于该词语的局部标注特征和全局标注特征，对于多个候选标签中的每一个计算该候选标签是该词语的标签的概率。然后，将具有最大概率的候选标签确定为该词语的标签。

在本发明的实施例中，该概率使用最大熵模型计算。

在本发明的实施例中，在确定在该词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合的步骤中，针对各个标签中的每一个标签进行下列处理。如果该标签是第一标签，则不组合该标签与该标签的前一标签。如果该标签是第三标签，则组合该标签与该标签的前一个第一标签或第二标签或第三标签。如果该标签是第二标签，则确定该标签对应的词语的组合特征和该标签的前一个第一标签或者第二标签对应的词语的组合特征，其中，组合特征包括对应词语所包含的字。然后基于该标签对应的词语的组合特征和该标签的前一个第一标签或者第二标签对应的词语的组合特征，计算标签组合概率和标签不组合概率。响应于标签组合概率大于标签不组合概率，组合该第二标签与该第二标签的前一个第一标签或者第二标签。响应于标签组合概率不大于标签不组合概率，不组合该第二标签与该第二标签的前一个第一标签或者第二标签。

在本发明的实施例中，组合特征还包括在对应词语前后的预定数量的词语所包含的字。

在本发明的实施例中，组合特征包括：对应词语所包含的字、对应词语的前三个词语、对应词语的后三个词语、对应词语的前三个词语所包含的字、对应词语的后三个词语所包含的字。

在本发明的实施例中，标签组合概率和标签不组合概率使用最大熵模型计算。

根据本发明的第二方面，提供了一种用于识别自然语言的医疗文本中的医疗实体的装置。该装置包括至少一个处理器和存储有计算机程序的至少一个存储器。当所述计算机程序由所述至少一个处理器执行时使得所述装置：将医疗文本分成多个词语；对于多个词语中的每一个词语，执行以下操作：确定该词语的局部标注特征和全局标注特征，其中，局部标注特征包括该词语，全局标注特征包括该词语与已识别医疗实体的关系；基于该词语的局部标注特征和全局标注特征，从多个候选标签中确定该词语的标签；如果该词语的标签指示识别医疗实体，则确定在该词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合；将标签的组合所对应的词语的组合识别为医疗实体。

根据本发明的第三方面，提供了一种存储有计算机程序的计算机可读存储介质。计算机程序在由处理器执行时实现上述的用于识别自然语言的医疗文本中的医疗实体的方法的步骤。

根据本发明的实施例的用于识别自然语言的医疗文本中的医疗实体的方法和装置，在识别自然语言的医疗文本中的医疗实体的过程中，统一考虑标签确定和标签组合的关系，能够提高医疗实体识别的准确率。

附图说明

为了更清楚地说明本发明的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本发明的一些实施例，而非对本发明的限制，其中：

图1是根据本发明的实施例的用于识别自然语言的医疗文本中的医疗实体的方法的流程图；

图2是在图1所示的实施例中的从多个候选标签中确定该词语的标签的过程的示例性流程图；

图3是主要针对在图1所示的实施例中的确定标签的组合的过程进行具体描述的示例性流程图；

图4是根据本发明的实施例的用于识别自然语言的医疗文本中的医疗实体的装置的示意性框图。

具体实施方式

为了使本发明的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本发明的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例，也都属于本发明保护的范围。

除非另外定义，否则在此使用的所有术语(包括技术和科学术语)具有与本发明主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是，诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义，并且将不以理想化或过于正式的形式来解释，除非在此另外明确定义。

医疗实体识别方法主要关注连续医疗实体，然而在实际的临床文本中也存在很多非连续医疗实体。例如，“腹部轻微扩张，右上象限感到疼痛”中，“腹部轻微扩张”和“腹部右上象限疼痛”是两个医疗实体。“腹部轻微扩张”是连续医疗实体，而“腹部右上象限疼痛”是非连续医疗实体。

本发明的实施例以中文医疗文本为例说明医疗实体识别的方法，然而本领域的技术人员应了解，采用根据本发明的实施例的方法来识别其它语言的医疗文本的方法和装置也落入本发明的保护范围之内。

图1示出根据本发明的实施例的用于识别自然语言的医疗文本中的医疗实体的方法的流程图。

如图1所示，在步骤S102，将医疗文本分成多个词语。在本发明的实施例中，词语还包括标点符号。例如可以利用自然语言处理技术对输入的文本进行词法分析。例如，对于句子“腹部轻微扩张”，可以将其分成三个词：“腹部”、“轻微”和“扩张”。词法分析还可以包括词性标注。对这三个词进行词性标注的结果为“腹部/n轻微/d扩张/v”，其中“n”、“d”和“v”分别表示名词、副词以及动词。在本发明的实施例中，可以采取例如条件随机场算法、斯坦福大学提供的分词工具stanford-segmenter等词法分析算法和工具来完成文本预处理。

在步骤S104，对于多个词语中的每一个词语，确定该词语(在下文中称为“当前词语”)的局部标注特征和全局标注特征。

在本发明的实施例中，局部标注特征可以包括当前词语。局部标注特征还可以包括在当前词语前后的预定数量的词语。进一步地，局部标注特征还可以包括当前词语的词性以及在当前词语前后的预定数量的词语的词性。例如，局部标注特征包括：当前词语、当前词语的前三个词语、当前词语的后三个词语、当前词语的词性、当前词语的前三个词语的词性、当前词语的后三个词语的词性。

在本发明的实施例中，全局标注特征可以包括当前词语与已识别医疗实体的关系。已识别医疗实体可以包括在当前医疗文本中已经识别出的医疗实体，还可以包括在其它医疗文本中已经识别出的医疗实体。进一步地，全局标注特征还可以包括在当前词语前后的预定数量的词语与已识别医疗实体的关系。例如，全局标注特征包括：当前词语是否包含在已识别的医疗实体中、当前词语的前一个词语是否包含在已识别的医疗实体中、当前词语的后一个词语是否包含在已识别的医疗实体中。

在步骤S106，基于当前词语的局部标注特征和全局标注特征，从多个候选标签中确定当前词语的标签。

在本发明的实施例中，多个候选标签例如可以包括：指示词语是医疗实体的共享开始部分的第一标签HB、指示词语是医疗实体的非共享开始部分的第二标签DB、指示词语是医疗实体连续的一部分的第三标签I、指示词语是非医疗实体并指示识别医疗实体的第四标签OY以及指示词语是非医疗实体并指示不识别医疗实体的第五标签ON。

更具体地，在图2中说明图1所示的实施例中的从多个候选标签中确定当前词语的标签的示例性过程。在如图2所示的示例中，在步骤S204，对于多个候选标签中的每一个，计算该候选标签是当前词语的标签的概率。在本发明的实施例中，可以基于当前词语的局部标注特征和全局标注特征，通过最大熵模型，针对多个候选标签(例如，第一标签至第五标签中的多个标签)分别获得一个概率。该概率由最大熵模型使用下列式子(1)来获得：

在上式(1)中，w_i是通过参数优化方法获得的一个N维列向量的参数。T表示转置。1≤i≤K。x是对应当前词语的一个N维特征向量，其包括当前词语的局部标注特征和全局标注特征。局部标注特征和全局标注特征中的参数数量决定x的维度N的大小。在局部标注特征和全局标注特征中的一个或多个参数不存在的情况下，将不存在的参数用空符号来表示。c_i表示第i标签(在本实施例中，c₁表示第一标签，c₂表示第二标签，以此类推)。K表示标签的总数。p(c_i|x)表示在x对应的状态下确定标签为c_i的概率。在步骤S204中，计算i取不同值的情况下的概率p(c_i|x)，p(c_i|x)对应各个候选标签c_i的概率。

在本发明的实施例中，参数优化方法可以通过最小化下列目标函数(2)来训练参数：

在上式(2)中，W∈R^K×N是参数矩阵(对于标签标注过程和标签组合过程，W中的元素可能是不同的，并且W的行数K和列数N也可能是不同的)。W中的第i行向量为w_i。g_j是第j个训练词语对应的标签。M表示训练词语的数量。λ是L2正则项的系数，λ>0。

在参数优化过程中，首先预设一个具有初始化数值的参数矩阵W。然后获得M个训练词语的p(g_j)并将其代入式(2)。通过对式(2)求导，获得更新的W。重复更新W的过程直到W中元素的值趋于稳定，结束参数优化过程。或者在重复更新W预定次数之后，结束参数优化过程。由此获得的W将被用于式(1)。

在步骤S206，将具有最大概率的候选标签确定为当前词语的标签。

回到图1，在步骤S108，如果当前词语的标签指示识别医疗实体，则确定在当前词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合。指示对应词语能够成为医疗实体的一部分的各个标签例如包括：第一标签HB、第二标签DB和第三标签I。由于第四标签OY和第五标签ON指示词语是非医疗实体，在确定所述各个标签的组合的过程中将不组合第四标签OY和第五标签ON。

图3是图1所示的实施例的一个更具体的示例。在图3中主要针对在图1所示的实施例中的确定标签的组合的过程进行具体描述。虚线框中的各个步骤是图1中的步骤S108的一个示例。

在步骤S106中确定了当前词语的标签之后，在步骤S302，确定当前标签是否为第四标签OY。第四标签OY指示当前词语是非医疗实体并指示识别医疗实体。在当前标签不是第四标签OY的情况下(在步骤S302中确定为“否”)，返回步骤S106继续确定下一词语的标签。

在当前标签是第四标签OY的情况下(在步骤S302中确定为“是”)，开始确定第四标签OY之前的各个标签的组合。

首先，在步骤S304，将当前标签的前一标签作为当前标签。例如，在从步骤S302进入步骤S304的情况下，将第四标签OY的前一标签作为当前标签。

然后，例如，可以在步骤S306确定当前标签是否为第三标签I。第三标签I表示其对应的词语是医疗实体连续的一部分，因此在当前标签是第三标签I的情况下(在步骤S306中确定为“是”)，在步骤S308组合当前标签与当前标签的前一个第一标签HB或第二标签DB或第三标签I。然后，在步骤S320确定与当前标签组合的标签是否为第一标签HB。第一标签HB表示其对应的词语是医疗实体的最开始的部分，在一个医疗实体中仅可能存在一个第一标签HB。在标签的组合中已经包括第一标签HB的情况下，可以认为标签组合已经完成。因此，在与当前标签组合的标签是第一标签HB的情况下(在步骤S320中确定为“是”)，在步骤S110将标签的组合所对应的词语的组合识别为医疗实体。在与当前标签组合的标签不是第一标签HB的情况下(在步骤S320中确定为“否”)，返回步骤S304继续处理前一标签。

在当前标签不是第三标签I的情况下(在步骤S306中确定为“否”)，进行到步骤S310确定当前标签是否为第二标签DB。在当前标签不是第二标签DB的情况下(在步骤S310中确定为“否”)，返回步骤S304继续处理前一标签。

第二标签DB表示其对应的词语是医疗实体的非共享开始部分。该词语可能是医疗实体的最开始的部分(即，其不需要与其之前的第一标签HB或者第二标签DB组合)，也可能不是医疗实体的最开始的部分(即，其需要与其之前的第一标签HB或者第二标签DB组合)。因此如果该标签是第二标签DB，则需要判断是否组合该第二标签DB与其前一个的第一标签HB或者第二标签DB。

在图3所示的实施例中，在当前标签是第二标签DB的情况下(在步骤S310中确定为“是”)，在步骤S312，确定该第二标签DB对应的词语(即，当前词语)的组合特征和该第二标签DB的前一个第一标签HB或者第二标签DB对应的词语的组合特征。

在本发明的实施例中，组合特征可以包括对应词语所包含的字。进一步地，组合特征还可以包括在对应词语前后的预定数量的词语所包含的字。这样在医疗文本中存在错别字的情况下，组合特征仍然能够根据对应词语及对应词语的前后词语中包含的正确的字来提供用于标签组合的信息。例如，组合特征包括：对应词语所包含的字、对应词语的前三个词语、对应词语的后三个词语、对应词语的前三个词语所包含的字、对应词语的后三个词语所包含的字。

在步骤S314，基于该第二标签DB对应的词语的组合特征和该第二标签DB的前一个第一标签HB或者第二标签DB对应的词语的组合特征，计算标签组合概率和标签不组合概率。在本发明的实施例中，可以基于该第二标签DB对应的词语的组合特征和该第二标签DB的前一个第一标签HB或者第二标签DB对应的词语的组合特征，通过最大熵模型(即，使用式(1))来计算标签组合概率和标签不组合概率。在这种情况下，在式(1)中，w_i是通过参数优化方法获得的一个N维列向量的参数。1≤i≤K。x是对应当前词语的一个N维特征向量，其包括当前词语的组合特征和当前词语的前一个具有第一标签HB或者第二标签DB的词语的组合特征。在组合特征中的一个或多个参数不存在的情况下，将不存在的参数用空符号来表示。c_i表示是否进行标签组合(在本实施例中，c₁表示进行标签组合，c₂表示不进行标签组合。在替代实施例中，也可以使用c₁表示不进行标签组合，c₂表示进行标签组合)。K为2。p(c_i|x)表示在x对应的状态下是否进行标签组合的概率。在本实施例中，p(c₁|x)表示在x对应的状态下进行标签组合的概率，p(c₂|x)表示在x对应的状态下不进行标签组合的概率。在替代实施例中，也可以使用p(c₁|x)表示在x对应的状态下不进行标签组合的概率，p(c₂|x)表示在x对应的状态下进行标签组合的概率。

在本发明的实施例中，对计算标签组合概率和标签不组合概率的最大熵模型使用的参数优化方法也可以通过最小化目标函数(2)来训练参数。与标签确定的过程中使用的式(2)不同的是，在这里g_j表示第j个训练词语是否进行组合。

在步骤S316，确定标签组合概率是否大于标签不组合概率。在标签组合概率不大于标签不组合概率的情况下(在步骤S316中确定为“否”)，不组合该第二标签DB与该第二标签DB的前一个第一标签HB或者第二标签DB。进行到步骤S322，确定与当前标签进行组合判断的标签是否为第一标签HB。在标签组合概率大于标签不组合概率的情况下(在步骤S316中确定为“是”)，在步骤S318组合该第二标签DB与该第二标签DB的前一个第一标签HB或者第二标签DB。同样地，进行到步骤S322，确定与当前标签进行组合判断的标签是否为第一标签HB。在与当前标签进行组合判断的标签是第一标签HB的情况下(在步骤S322中确定为“是”)，在步骤S110将标签的组合所对应的词语的组合识别为医疗实体。在与当前标签组合的标签不是第一标签HB的情况下(在步骤S322中确定为“否”)，返回步骤S304继续处理前一标签。

在步骤S110中，从第一标签HB与第三标签I的组合或者第二标签DB与第三标签I的组合所对应的词语的组合识别出的医疗实体为连续医疗实体。从第一标签HB与第二标签DB的组合所对应的词语的组合识别出的医疗实体为非连续医疗实体。

在图3所示的实施例中，先在步骤S306确定当前标签是否为第三标签，然后在步骤S310确定当前标签是否为第二标签。可替代地，也可以先确定当前标签是否为第二标签，然后再确定当前标签是否为第三标签。此外，在图3所示的实施例中，采用从后往前(即，从第四标签OY往前)组合标签的方式来确定标签的组合。本领域的技术人员应了解，在替代实施例中，也可以采用从前往后(即，从第四标签OY的前一个第一标签HB开始往后)组合标签的方式来确定标签的组合。

在本发明的实施例中，标签的确定和标签的组合可以通过转移模型来实现。转移模型是用于描述状态转换的模型，例如包括并不限于，马尔可夫模型、隐马尔可夫模型、N元模型、神经网络模型等。转移模型通过动作从一个状态转移到另一个状态。在本发明的实施例中，转移模型中的状态为<L，E>。L表示各个标签形成的序列，E表示已识别的医疗实体。转移模型中的动作例如为{HB，DB，I，OY，ON}。在动作为OY的情况下，还进行医疗实体识别。

具体地，在转移模型中，通过最大熵模型来计算候选标签是当前词语的标签的概率，再通过确定最大的概率来确定当前词语的标签。该标签表示在当前状态下需要进行的动作。基于当前状态和需要进行的动作转移到下一个状态。在动作指示识别医疗实体的情况下，通过最大熵模型来计算标签组合概率和标签不组合概率，再通过比较标签组合概率和标签不组合概率来确定标签的组合。通过组合的标签识别出的医疗实体作为转移模型的状态中的一个参数，有助于判断下一个需要进行的动作。

根据本发明实施例的用于识别自然语言的医疗文本中的医疗实体的方法能够识别连续医疗实体和非连续医疗实体。此外，在本发明的实施例中，由于采用了联合式方式(在标签标注的过程中考虑词语的局部标注特征和全局标注特征，并且考虑标注和组合之间的相互关系)，因此可以避免管道式方式(只利用局部标注特征完成标签标注之后，再进行标签组合)中的错误传递的缺陷，实现更高的医疗实体识别的准确率。

下面以“腹部轻微扩张，右上象限感到疼痛”为例，对医疗实体识别的过程进行示例性说明。

首先，将“腹部轻微扩张，右上象限感到疼痛，”按顺序分成八个词语：“腹部”、“轻微”、“扩张”、“，”、“右上象限”、“感到”、“疼痛”以及“，”。再对这八个词语分别标注相应的词性。“，”的词性，用空符号来表示。此外，例如“腹部”之前没有词语，因此“腹部”之前的词语用空符号来表示。

然后，依次对这八个词语进行处理。在本例子中，采用转移模型来建模和实现标签序列的确定及标签的组合。转移模型中的状态为<L，E>。L表示各个标签形成的序列，E表示已识别的医疗实体。转移模型中的动作的集合为{HB，DB，I，OY，ON}。转移模型中的动作表示依据当前状态，转移模型需要进行的动作(例如给下一个词标注标签或者识别医疗实体等)以便达到下一个状态。表1示出转移模型中状态与动作的关系(其中<EOS>表示转移过程结束)。在表1中，序号仅用于说明的目的，并不属于转移模型的一部分。

表1

对于“腹部”，通过式(1)计算候选标签是“腹部”的标签的概率P1＝p(c₁|x)、P2＝p(c₂|x)、P3＝p(c₃|x)、P4＝p(c₄|x)、P5＝p(c₅|x)。在这里，c₁表示第一标签HB，c₂表示第二标签DB，c₃表示第三标签I，c₄表示第四标签OY，c₅表示第五标签ON。x是一个包括“腹部”的局部标注特征和全局标注特征的N维特征向量。在x中，局部标注特征和全局标注特征中的文字被转换成相应的N个数值。通过比较P1、P2、P3、P4和P5，得到P1的值最大。因此判断“腹部”的标签是第一标签HB。

类似地，获得“轻微”的标签I，“扩张”的标签I。此时，转移模型处于状态S2。

对于“，”，其标签被判断为OY(即，状态S2对应的动作为OY)。在转移模型采用动作OY的情况下，转移模型进行医疗实体识别的动作。对于“腹部”的标签HB，其表示医疗实体的最开始的部分，因此其不与其之前的标签组合。对于“轻微”的标签I，其表示医疗实体连续的一部分，因此将“轻微”的标签I与“腹部”的标签HB组合。对于“扩张”的标签I，其也表示医疗实体连续的一部分，因此将“扩张”的标签I与其之前的“轻微”的标签I组合。这样获得标签组合HB、I、I。将标签组合HB、I、I对应的词语组合“腹部轻微扩张”识别为医疗实体(该医疗实体为连续医疗实体)。

类似地，获得“感到”的标签ON，“疼痛”的标签DB。对于“，”，其标签被判断为OY(即，状态S6对应的动作为OY)。在转移模型采用动作OY的情况下，转移模型进行医疗实体识别的动作。对于“右上象限”的标签DB，其表示医疗实体的非共享开始部分，因此需要判断是否将“右上象限”的标签DB与其之前的第一标签HB或者第二标签DB(在这里为“腹部”的标签HB)组合。在这里，仍然使用式(1)来计算标签组合概率P1＝p(c₁|x)和标签不组合概率P2＝p(c₂|x)。c₁表示进行标签组合，c₂表示不进行标签组合。x是对应“右上象限”的一个N维特征向量，其包括“右上象限”的组合特征和“右上象限”的前一个具有第一标签或者第二标签的词语的组合特征(在这里为“腹部”的组合特征)。在P1大于P2的情况下，判断需要组合“腹部”的标签HB与“右上象限”的标签DB。由于组合特征与对应词语及对应词语的前后词语中包含的字相关，因此，例如在“腹部”被错写成“腹布”的情况下，“腹”字与“右上象限”的组合概率也能够帮助提高“腹布”与“右上象限”的组合概率。

由于“感到”的标签为ON，可以直接判断不组合其与其之前的标签。接着再判断是否组合“疼痛”的标签DB与其前一个的第一标签HB或者第二标签DB(在这里，为“右上象限”的标签DB)。同样通过式(1)来计算标签组合概率P1＝p(c₁|x)和标签不组合概率P2＝p(c₂|x)。在P1大于P2的情况下，判断需要组合“右上象限”的标签DB与“疼痛”的标签DB。

这样获得标签组合HB、DB、DB。将标签组合HB、DB、DB对应的词语组合“腹部右上象限疼痛”识别为医疗实体(该医疗实体为非连续医疗实体)。

图4示出根据本发明的实施例的用于识别自然语言的医疗文本中的医疗实体的装置400的示意性框图。如图4所示，该装置400可包括处理器410和存储有计算机程序的存储器420。当计算机程序由处理器410执行时，使得装置400可执行如图1所示的用于识别自然语言的医疗文本中的医疗实体的方法的步骤。也就是说，装置400可以将医疗文本分成多个词语。对于多个词语中的每一个词语，确定该词语的局部标注特征和全局标注特征，其中，局部标注特征包括该词语，全局标注特征包括该词语与已识别医疗实体的关系。接着，基于该词语的局部标注特征和全局标注特征，从多个候选标签中确定该词语的标签。如果该词语的标签指示识别医疗实体，则确定在该词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合。然后，将标签的组合所对应的词语的组合识别为医疗实体。

在本发明的实施例中，处理器410可以是例如中央处理单元CPU、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器420可以是使用文本存储技术实现的任何类型的存储器，包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。

此外，在本发明的实施例中，装置400也可包括输入设备430，例如键盘、鼠标等，用于输入自然语言的医疗文本。另外，装置400还可包括输出设备440，例如显示器等，用于输出所识别的医疗实体。

在本发明的实施例中，装置400通过以下操作来基于该词语的局部标注特征和全局标注特征，从多个候选标签中确定该词语的标签：基于该词语的局部标注特征和全局标注特征，对于多个候选标签中的每一个计算该候选标签是该词语的标签的概率。然后，将具有最大概率的候选标签确定为该词语的标签。

在本发明的实施例中，装置400通过以下操作来确定在该词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合：针对各个标签中的每一个标签进行下列处理。如果该标签是第一标签HB，则不组合该标签与该标签的前一标签。如果该标签是第三标签I，则组合该标签与该标签的前一个第一标签HB或第二标签DB或第三标签I。如果该标签是第二标签DB，则确定该标签对应的词语的组合特征和该标签的前一个第一标签HB或者第二标签DB对应的词语的组合特征，其中，组合特征包括对应词语所包含的字。然后基于该标签对应的词语的组合特征和该标签的前一个第一标签HB或者第二标签DB对应的词语的组合特征，计算标签组合概率和标签不组合概率。响应于标签组合概率大于标签不组合概率，组合该第二标签DB与该第二标签DB的前一个第一标签HB或者第二标签DB。响应于标签组合概率不大于标签不组合概率，不组合该第二标签DB与该第二标签DB的前一个第一标签HB或者第二标签DB。

在本发明的其它实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时实现如图1所示的用于识别自然语言的医疗文本中的医疗实体的方法的步骤。

除非上下文中另外明确地指出，否则在本文和所附权利要求中所使用的词语的单数形式包括复数，反之亦然。因而，当提及单数时，通常包括相应术语的复数。相似地，措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地，术语“包括”和“或”应当解释为包括在内的，除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处，特别是当其位于一组术语之后时，所述“示例”仅仅是示例性的和阐述性的，且不应当被认为是独占性的或广泛性的。

适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解，本申请的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解，本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本申请的范围。

以上对本发明的若干实施例进行了详细描述，但显然，本领域技术人员可以在不脱离本发明的精神和范围的情况下对本发明的实施例进行各种修改和变型。本发明的保护范围由所附的权利要求限定。

Claims

1.一种用于识别自然语言的医疗文本中的医疗实体的方法，包括：

将所述医疗文本分成多个词语；

对于所述多个词语中的每一个词语，执行以下操作：

确定所述词语的局部标注特征和全局标注特征，其中，所述局部标注特征包括所述词语，所述全局标注特征包括所述词语与已识别医疗实体的关系；

基于所述词语的所述局部标注特征和所述全局标注特征，从多个候选标签中确定所述词语的标签；

如果所述词语的标签指示识别医疗实体，则确定在所述词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合；

将所述标签的组合所对应的词语的组合识别为医疗实体。

2.根据权利要求1所述的方法，其中，所述局部标注特征还包括在所述词语前后的预定数量的词语。

3.根据权利要求2所述的方法，其中，所述局部标注特征还包括所述词语的词性以及在所述词语前后的预定数量的词语的词性。

4.根据权利要求3所述的方法，其中，所述局部标注特征包括：所述词语、所述词语的前三个词语、所述词语的后三个词语、所述词语的词性、所述词语的前三个词语的词性、所述词语的后三个词语的词性。

5.根据权利要求1所述的方法，其中，所述全局标注特征还包括在所述词语前后的预定数量的词语与已识别医疗实体的关系。

6.根据权利要求5所述的方法，其中，所述全局标注特征包括：所述词语是否包含在已识别的医疗实体中、所述词语的前一个词语是否包含在已识别的医疗实体中、所述词语的后一个词语是否包含在已识别的医疗实体中。

7.根据权利要求1所述的方法，其中，所述多个候选标签包括：指示所述词语是医疗实体的共享开始部分的第一标签、指示所述词语是医疗实体的非共享开始部分的第二标签、指示所述词语是医疗实体连续的一部分的第三标签、指示所述词语是非医疗实体并指示识别医疗实体的第四标签以及指示所述词语是非医疗实体并指示不识别医疗实体的第五标签。

8.根据权利要求1至7任意一项所述的方法，其中，基于所述词语的所述局部标注特征和所述全局标注特征，从多个候选标签中确定所述词语的标签包括：

基于所述词语的所述局部标注特征和所述全局标注特征，对于所述多个候选标签中的每一个计算该候选标签是所述词语的标签的概率；以及

将具有最大概率的候选标签确定为所述词语的标签。

9.根据权利要求8所述的方法，其中，所述概率使用最大熵模型计算。

10.根据权利要求7所述的方法，其中，确定在所述词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合包括：针对所述各个标签中的每一个标签：

如果所述标签是所述第一标签，则不组合所述标签与所述标签的前一标签；

如果所述标签是所述第三标签，则组合所述标签与所述标签的前一个第一标签或第二标签或第三标签；

如果所述标签是所述第二标签，则：

确定所述标签对应的词语的组合特征和所述标签的前一个第一标签或者第二标签对应的词语的组合特征，其中，所述组合特征包括对应词语所包含的字；

基于所述标签对应的词语的组合特征和所述标签的前一个第一标签或者第二标签对应的词语的组合特征，计算标签组合概率和标签不组合概率；

响应于所述标签组合概率大于标签不组合概率，组合所述第二标签与所述第二标签的前一个第一标签或者第二标签；以及

响应于所述标签组合概率不大于标签不组合概率，不组合所述第二标签与所述第二标签的前一个第一标签或者第二标签。

11.根据权利要求10所述的方法，其中，所述组合特征还包括在对应词语前后的预定数量的词语所包含的字。

12.根据权利要求11所述的方法，其中，所述组合特征包括：对应词语所包含的字、对应词语的前三个词语、对应词语的后三个词语、对应词语的前三个词语所包含的字、对应词语的后三个词语所包含的字。

13.根据权利要求10所述的方法，其中，所述标签组合概率和标签不组合概率使用最大熵模型计算。

14.一种用于识别自然语言的医疗文本中的医疗实体的装置，包括：

至少一个处理器；以及

存储有计算机程序的至少一个存储器；

其中，当所述计算机程序由所述至少一个处理器执行时使得所述装置：

将所述医疗文本分成多个词语；

对于所述多个词语中的每一个词语，执行以下操作：

将所述标签的组合所对应的词语的组合识别为医疗实体。

15.根据权利要求14所述的装置，其中，所述局部标注特征还包括在所述词语前后的预定数量的词语。

16.根据权利要求15所述的装置，其中，所述局部标注特征还包括所述词语的词性以及在所述词语前后的预定数量的词语的词性。

17.根据权利要求16所述的装置，其中，所述局部标注特征包括：所述词语、所述词语的前三个词语、所述词语的后三个词语、所述词语的词性、所述词语的前三个词语的词性、所述词语的后三个词语的词性。

18.根据权利要求14所述的装置，其中，所述全局标注特征还包括在所述词语前后的预定数量的词语与已识别医疗实体的关系。

19.根据权利要求18所述的装置，其中，所述全局标注特征包括：所述词语是否包含在已识别的医疗实体中、所述词语的前一个词语是否包含在已识别的医疗实体中、所述词语的后一个词语是否包含在已识别的医疗实体中。

20.根据权利要求14所述的装置，其中，所述多个候选标签包括：指示所述词语是医疗实体的共享开始部分的第一标签、指示所述词语是医疗实体的非共享开始部分的第二标签、指示所述词语是医疗实体连续的一部分的第三标签、指示所述词语是非医疗实体并指示识别医疗实体的第四标签以及指示所述词语是非医疗实体并指示不识别医疗实体的第五标签。

21.根据权利要求14至20任意一项所述的装置，其中，所述计算机程序在由所述至少一个处理器执行时使得所述装置通过以下操作来基于所述词语的所述局部标注特征和所述全局标注特征，从多个候选标签中确定所述词语的标签：

将具有最大概率的候选标签确定为所述词语的标签。

22.根据权利要求21所述的装置，其中，所述概率使用最大熵模型计算。

23.根据权利要求20所述的装置，其中，所述计算机程序在由所述至少一个处理器执行时使得所述装置通过以下操作来确定在所述词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合：针对所述各个标签中的每一个标签：

如果所述标签是所述第二标签，则：

24.根据权利要求23所述的装置，其中，所述组合特征还包括在对应词语前后的预定数量的词语所包含的字。

25.根据权利要求24所述的装置，其中，所述组合特征包括：对应词语所包含的字、对应词语的前三个词语、对应词语的后三个词语、对应词语的前三个词语所包含的字、对应词语的后三个词语所包含的字。

26.根据权利要求23所述的装置，其中，所述标签组合概率和标签不组合概率使用最大熵模型计算。

27.一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在由处理器执行时实现权利要求1至13中任一项所述的用于识别自然语言的医疗文本中的医疗实体的方法的步骤。