CN112101034B

CN112101034B - 一种判别医学实体的属性的方法、装置及相关产品

Info

Publication number: CN112101034B
Application number: CN202010942025.9A
Authority: CN
Inventors: 贾弼然; 顾文剑; 蔡巍; 张霞
Original assignee: Shenyang Neusoft Intelligent Medical Technology Research Institute Co Ltd
Current assignee: Shenyang Neusoft Intelligent Medical Technology Research Institute Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2024-02-27
Anticipated expiration: 2040-09-09
Also published as: CN112101034A

Abstract

本申请公开了一种判别医学实体的属性的方法、装置及相关产品。首先应用标签生成模型对病历文本进行处理，得到标签串；其后，根据标签串中的属性标签及属性标签的排序，得到病历文本中医学实体的属性标签。医学实体的属性标签即可用于判别医学实体的属性。标签生成模型中第一模型根据实际输入的病历文本动态生成字的向量，该标签生成模型在生成字的属性标签时结合了字的上下文信息，提升了字的属性标签的准确性。第二模型是通过深度学习的方法训练的得到的，可依据第一模型所输出的向量串生成标签串，保证了标签串中标签属性与病历文本中字有序对应。因此相比于现有技术，对于医学实体属性判别的准确率提高。

Description

一种判别医学实体的属性的方法、装置及相关产品

技术领域

本申请涉及数据处理技术领域，特别是涉及一种判别医学实体的属性的方法、装置及相关产品。

背景技术

实体，是指客观存在并可相互区别的事物。医学实体，是指医学领域中有含义的相互区别的事物。例如咳嗽、发热、心脏病等，均属于医学实体。医学实体广泛存在于病历文本中。随着医疗领域的信息化发展，医疗大数据的价值日益突出，电子病历的数据标准化成为医疗数据互通的关键。为了实现电子病历的数据标准化，首先要对病历文本进行结构化提取。在对病历文本进行结构化提取时，通常需要对医学实体的属性进行分析和判别。

如“无咳嗽、咳痰”，“咳嗽”和“咳痰”是症状，而“无”修饰的是“咳嗽”和“咳痰”，那么“咳嗽”和“咳痰”就是阴性；而“患者咳嗽、咳痰”中，“咳嗽”和“咳痰”是阳性；而在“无严重咳嗽”和“不宜进行颅内压监测”情况下根据真实语义是无法明确判别阴阳性，即“疑似”。

目前在对医学实体的属性进行判别时，通常可以采用基于正则的方法或句子分类的方法。其中，基于正则的方法使用词典直接判断，错误率高；而采用句子分类的方法，当句子过长时，对医学实体的属性判别容易丢失上下文的信息，因此错误率也较高。如何提升医学实体属性的判别准确率成为本领域急需解决的技术问题。

发明内容

基于上述问题，本申请提供了一种判别医学实体的属性的方法、装置及相关产品，以提升医学实体属性判别的准确率。

本申请实施例公开了如下技术方案：

第一方面，本申请提供一种判别医学实体的属性的方法，包括：

利用标签生成模型对病历文本进行处理得到标签串；所述标签串包括所述病历文本中字的属性标签；所述标签串中的属性标签的排序与所述病历文本中对应的字的排序一致；

根据所述标签串中的属性标签及属性标签的排序得到所述病历文本中的医学实体的属性标签；

所述标签生成模型包括：第一模型和第二模型，所述第一模型的输出作为所述第二模型的输入；所述第二模型为预先利用训练数据深度学习训练后得到的；所述训练数据包括：所述第一模型根据训练语料动态生成的训练向量串和所述训练向量串对应的训练标签串；所述训练向量串中向量的排序与所述训练语料中对应的字的排序一致，且与所述训练标签串中对应的属性标签的排序一致。

可选地，所述根据所述标签串中的属性标签及属性标签的排序得到所述病历文本中的医学实体的属性标签，具体包括：

识别所述标签串中连续且一致的属性标签；

根据所述连续且一致的属性标签在所述标签串中的排序，确定所述病历文本中所述连续且一致的属性标签对应的一组字；

将所述一组字拼接为一个医学实体；

将所述连续且一致的属性标签作为拼接得到的医学实体的属性标签。

可选地，所述病历文本中的医学实体的属性标签为以下任意一种：

阴性、阳性或疑似。

可选地，判别医学实体的属性的方法还包括：

从所述病历文本中获得目标语句；所述目标语句包括属性标签为疑似的目标医学实体，所述目标医学实体为所述病历文本中任一医学实体；

从所述训练语料中获得所述目标语句的相似语句；

根据所述目标语句和所述目标语句的相似语句，提取所述目标语句中所述目标医学实体的影响属性。

可选地，所述从所述训练语料中获得所述目标语句的相似语句，具体包括：

对所述目标语句进行分词；

获得所述目标语句的多个词向量；

根据所述多个词向量获得目标平均向量；

分别获得所述训练语料中的各个语句对应的平均向量与所述目标平均向量的相似度，根据所述相似度确定所述目标语句的相似语句。

可选地，所述根据所述目标语句和所述目标语句的相似语句，提取所述目标语句中所述目标医学实体的影响属性，具体包括：

生成所述目标语句的one-hot向量并生成每条所述相似语句的one-hot向量；

根据所述目标语句的one-hot向量和每条所述相似语句的one-hot向量，统计各词的出现频率；

根据统计结果中除所述目标医学实体以外出现频率最高的词，将该词作为所述影响属性。

第二方面，本申请提供一种判别医学实体的属性的装置，包括：

模型处理模块，用于利用标签生成模型对病历文本进行处理得到标签串；所述标签串包括所述病历文本中字的属性标签；所述标签串中的属性标签的排序与所述病历文本中对应的字的排序一致；

医学实体属性判别模块，用于根据所述标签串中的属性标签及属性标签的排序得到所述病历文本中的医学实体的属性标签；

可选地，所述医学实体属性判别模块，具体包括：

标签识别单元，用于识别所述标签串中连续且一致的属性标签；

字确定单元，用于根据所述连续且一致的属性标签在所述标签串中的排序，确定所述病历文本中所述连续且一致的属性标签对应的一组字；

字拼接单元，用于将所述一组字拼接为一个医学实体；

医学实体属性判别单元，用于将所述连续且一致的属性标签作为拼接得到的医学实体的属性标签。

阴性、阳性或疑似。

可选地，判别医学实体的属性的装置还包括：

目标语句获取模块，用于从所述病历文本中获得目标语句；所述目标语句包括属性标签为疑似的目标医学实体，所述目标医学实体为所述病历文本中任一医学实体；

相似语句获取模块，用于从所述训练语料中获得所述目标语句的相似语句；

影响属性提取模块，用于根据所述目标语句和所述目标语句的相似语句，提取所述目标语句中所述目标医学实体的影响属性。

可选地，所述相似语句获取模块，具体包括：

分词单元，用于对所述目标语句进行分词；

转换单元，用于获得所述目标语句的多个词向量；

平均单元，用于根据所述多个词向量获得目标平均向量；

相似语句确定单元，用于分别获得所述训练语料中的各个语句对应的平均向量与所述目标平均向量的相似度，根据所述相似度确定所述目标语句的相似语句。

可选地，所述影响属性提取模块，具体包括：

向量生成单元，用于生成所述目标语句的one-hot向量并生成每条所述相似语句的one-hot向量；

计数单元，用于根据所述目标语句的one-hot向量和每条所述相似语句的one-hot向量，统计各词的出现频率；

影响属性确定单元，用于根据统计结果中除所述目标医学实体以外出现频率最高的词，将该词作为所述影响属性。

第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述程序被处理器运行时，实现如第一方面提供的任意一种判别医学实体的属性的方法。

第四方面，本申请提供一种处理器，该处理器用于运行计算机程序，所述程序运行时执行如第一方面提供的任意一种判别医学实体的属性的方法。

相较于现有技术，本申请具有以下有益效果：

本申请提供的判别医学实体的属性的方法中，首先应用标签生成模型对病历文本进行处理，得到标签串；其后，根据标签串中的属性标签及属性标签的排序，得到病历文本中医学实体的属性标签。医学实体的属性标签即可用于判别医学实体的属性。例如，病历文本某处的医学实体“咳嗽”的属性标签为“阳性”，即表示该处“咳嗽”这一医学实体的属性是阳性。标签生成模型中，第一模型根据实际输入的病历文本动态生成字的向量，因此该标签生成模型在生成字的属性标签时结合了字的上下文信息，提升了字的属性标签的准确性。此外，标签生成模型中的第二模型是通过深度学习的方法训练的得到的，第二模型可依据第一模型所输出的向量串生成标签串，保证了标签串中标签属性与病历文本中字有序对应。由于本申请技术方案在结合上下文信息的基础上实现了对病历文本中字的属性的序列标注，因此相比于现有技术，对于医学实体属性判别的准确率提高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种标签生成模型的结构示意图；

图2为本申请实施例提供的一种标签生成模型的训练过程示意图；

图3为本申请实施例提供的一种判别医学实体的属性的方法流程图；

图4为本申请实施例提供的一种标签生成模型的应用过程示意图；

图5为本申请实施例提供的一种病历文本中字与组成医学实体的字的属性标签示意图；

图6为本申请实施例提供的一种病历文本中医学实体的属性标签示意图；

图7为本申请实施例提供的另一种判别医学实体的属性的方法流程图；

图8为本申请实施例提供的一种判别医学实体的属性的装置结构示意图；

图9为本申请实施例提供的另一种判别医学实体的属性的装置结构示意图；

图10为本申请实施例提供的一种判别医学实体的属性的处理设备的硬件结构图。

具体实施方式

正如前文描述，目前以基于正则的方法或句子分类的方法进行医学实体属性判别时，均存在高错误率的问题。例如，将属性为“阳性”的医学实体识别为“阴性”属性，将属性为“阴性”的医学实体识别为“疑似”属性。对医学实体的属性识别错误，有可能干扰结构化后数据的应用。为避免此问题的发生，有必要提升医学实体属性判别的准确率。

发明人经过研究，在本申请中提供一种判别医学实体的属性的方法、装置及相关产品。本申请以标签生成模型对病历文本进行处理，得到标签串，再根据标签串中的属性标签及属性标签的排序，得到病历文本中医学实体的属性标签。标签生成模型能够根据病历文本动态生成字的向量，因此结合了上下文信息。此外，标签生成模型最终输出的标签属性与病历文本中的字有序对应。因此，标签生成模型实现了对病历文本中字的属性的有序标注，以此为基础得到医学实体的属性标签可以用于准确判别医学实体的属性。不需要依赖字典，也不会因句子的长度丢失上下文信息，因此相比于基于正则的方法或句子分类的方法，本申请提升了医学实体属性判别的准确率。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中应用到标签生成模型。该标签生成模型可以是进行病历文本的医学实体属性判别之前，预先训练得到的。因此在获得该标签生成模型之后，每次当需要判别医学实体的属性时，可以调用该标签生成模型完成相应的功能。为便于理解后续判别医学实体的属性的过程，首先对标签生成模型的结构以及获得方式进行介绍和说明。

参见图1，该图为本申请实施例提供的一种标签生成模型的结构示意图。

如图1所示，标签生成模型100包括两个组成部分，分别是第一模型101和第二模型102。其中，标签生成模型100的输入作为第一模型101的输入，也就是说输入至标签生成模型100中的数据直接进入到第一模型101。第一模型101的输出作为第二模型102的输入。第二模型102的输出作为标签生成模型100的输出，也就是说第二模型102输出的数据不做其他处理，直接从标签生成模型100输出。

在本申请实施例中，第一模型101具有根据输入动态生成向量串的功能。例如，将以一篇语料输入到第一模型101中，第一模型101根据该语料的文本内容动态地生成语料中每个字的向量，实现字到向量(Word2vec)的转换。因为在生成向量时不是孤立地仅考虑字本身，还采纳了语料中字的上下文信息，因此称该第一模型101动态生成向量串。向量串中包含了该语料中每个字的向量。需要说明的是，在本申请实施例中，第一模型101输出的向量串中向量的排序与语料中对应的字的排序一致。例如，语料中依次排列着第一个字、第二个字…第N个字，其中N为大于1的整数，则第一模型101输出的向量串依次排列着第一个字的向量、第二个字的向量…第N个字的向量。

实际应用中，可以采用BERT模型作为第一模型。BERT模型为由谷歌团队开发的一种语言表征模型，能够通过联合调节所有层中的上下文来实现相应的功能。由于BERT模型属于本领域可接触的比较成熟的模型，此处对BERT模型的结构和原理不再赘述。

第二模型102具体是通过深度学习训练后得到的。训练第二模型102用到的训练数据包括两个组成部分：1)第一模型101根据训练语料动态生成的训练向量串；2)训练向量串对应的训练标签串。

参见图2，该图为本申请实施例提供的一种标签生成模型的训练过程示意图。由于第一模型101具体可以是采用已有的BERT模型实现，因此，对标签生成模型100的训练可以具体体现为对第二模型102的训练。图2所示的第二模型102实际是指待训练为具有第二模型102的功能的模型。

如图2所示，第一模型101将训练语料处理为训练向量串，将训练向量串直接提供给第二模型102。训练向量串包括了上述训练语料中每个字经过第一模型101转换出的向量。此外，获得训练向量串对应的训练标签串。

需要说明的是，此处，训练向量串对应的训练标签串是通过人工或其他方式得到的准确的标签串，其中包含了每个向量所对应的字的属性标签。训练标签串作为深度学习训练该第二模型102时对第二模型102输出的训练目标。另外，需要说明的是，标签串中的属性标签可以是属性本身，也可以是表征字的属性的字符。例如，标签串中的“1”表示“阳性”属性，标签串中的“0”表示“阴性”属性，标签串中的其他字符表示“疑似”属性等。

在本申请实施例中，训练向量串中向量的排序与所述训练语料中对应的字的排序一致，且与训练标签串中对应的属性标签的排序一致。结合图2可知，当训练数据输入至待训练的第二模型102后，会得到实际训练输出的标签串。结合训练标签串和实际训练输出的标签串不断进行深度学习训练，使模型的输出不断逼近训练标签串。直到满足结束训练的条件时，即可以停止训练，得到第二模型102。实际应用中，结束训练的条件可以有多种实现方式，例如迭代次数达到预设次数，或者损失函数的数值小于预设数值。此处对结束训练的条件不做具体限定。

第二模型102具体可以是长短期记忆人工神经网络(Long Short-Term Memory,LSTM)模型。由于在本领域中，LSTM模型的结构和原理属于比较成熟的模型，因此对其作为第二模型102时的结构和原理不再赘述。本实施例中对第二模型102的深度学习训练具体可以体现为对LSTM模型的参数的训练。以训练得到的参数，LSTM模型可以实现其作为第二模型102输出标签串的功能。

以上，结合图1和图2分别对标签生成模型的结构以及获得方式进行了介绍和说明。下面具体介绍本申请实施例提供的判别医学实体的属性的方法。

参见图3，该图为本申请实施例提供的一种判别医学实体的属性的方法流程图。如图3所示，该方法包括：

步骤301：利用标签生成模型对病历文本进行处理得到标签串，标签串包括病历文本中字的属性标签。

病历文本具体可以是电子病历中的一个语句，一个语段等。此处对病历文本的长度不做限制。作为一示例，病历文本为：无咳嗽、咳痰、恶心、呕吐，发热伴喘息，胃纳、睡眠可。作为另一示例，病历文本为：腹痛建议使用消炎利胆片。

执行本步骤的目的是，根据病历文本得到该病历文本中每个字的属性标签。例如，每个字为阳性、阴性或疑似。为达到该目的，本步骤应用了上文描述的预先获得的标签生成模型。

参见图4，该图为本申请实施例提供的一种标签生成模型的应用过程示意图。如图4所示，将病历文本作为标签生成模型100的输入。第一模型101即根据输入的病历文本动态生成其中每个字的向量，这些向量按照对应的字在病历文本中的排序，输出为向量串。向量串提供给第二模型102后，第二模型102根据向量串生成标签串，该标签串包含了病历文本中每个字的属性标签，并且属性标签的排序与病历文本中对应的字的排序一致。

参见图5，该图中示例性地展示了病历文本中组成医学实体的字的属性标签。如图5中所示，“咳”字的属性标签为“阴性”，“嗽”字的属性标签为“阴性”……“发”字的属性标签为“阳性”，“热”字的属性标签为“阳性”……

步骤302：根据标签串中的属性标签及属性标签的排序得到病历文本中的医学实体的属性标签。

在病历文本的基础上，可以识别出各个医学实体。由于通过步骤301得到的标签串中包含了病历文本中字的属性标签，医学实体正是由多个字构成，因此可以将组成医学实体的字的属性标签作为该医学实体的属性标签。例如，“咳”字的属性标签为“阴性”，“嗽”字的属性标签为“阴性”，则“咳嗽”这一医学实体的属性标签也为“阴性”，代表病历文本此处“咳嗽”的属性是阴性。

参见图6，该图示意了对病历文本中医学实体生成的属性标签。通过图6可以看到，病历文本中每个医学实体均被标注出了阳性、阴性或疑似的属性。

在实际应用中，病历文本中的不同位置可能出现多个相同的医学实体，但是其属性未必一致。例如，在病历文本的第一段出现“三日前腹痛”，病历文本的最后一段出现“用药一周后无腹痛”。在该病历文本第一段出现的“腹痛”的属性为阳性，在该病历文本的最后一段出现的“腹痛”的属性为阴性。为了对病历文本中的医学实体进行准确的属性标注，需要结合标签串中的属性标签及属性标签的排序，以得到病历文本中医学实体的属性标签。如此得到的医学实体的属性标签严格以组成该医学实体的字的属性标签为依据，降低对医学实体的属性判别错误的概率。

以上即为本申请实施例提供的一种判别医学实体的属性的方法。该方法首先应用标签生成模型对病历文本进行处理，得到标签串；其后，根据标签串中的属性标签及属性标签的排序，得到病历文本中医学实体的属性标签。医学实体的属性标签即可用于判别医学实体的属性。

标签生成模型中，第一模型根据实际输入的病历文本动态生成字的向量，因此该标签生成模型在生成字的属性标签时结合了字的上下文信息，提升了字的属性标签的准确性。此外，标签生成模型中的第二模型是通过深度学习的方法训练的得到的，第二模型可依据第一模型所输出的向量串生成标签串，保证了标签串中标签属性与病历文本中字有序对应。由于本申请技术方案在结合上下文信息的基础上实现了对病历文本中字的属性的序列标注，因此相比于现有技术，对于医学实体属性判别的准确率提高。

实际应用中，多个医学实体通常被标点符号或非医学实体的组成字分隔。基于此，下面示例性地提供前述实施例中步骤302的实现方式。

在该示例中，步骤302根据所述标签串中的属性标签及属性标签的排序得到所述病历文本中的医学实体的属性标签，具体包括：

第一步，识别所述标签串中连续且一致的属性标签。病历文本中每个位置的医学实体的字的属性标签应为一致的。例如，病历文本第一段出现的一个“腹痛”，该医学实体中“腹”的属性标签和“痛”的属性标签应该是一致的，例如都为阳性、都为阴性或者都为疑似。并且，该医学实体“腹痛”中“腹”和“痛”之间不存在标点符号(例如逗号、顿号、句号或分号)，也未被非医学实体的组成字(例如“无”)分隔，即“腹”与“痛”是连续的，相应地，“腹”的属性标签与“痛”的属性标签也应当是连续的。因此，识别标签串中连续且一致的属性标签，即识别出了每个独立的医学实体所有组成字的属性标签。

第二步，根据所述连续且一致的属性标签在所述标签串中的排序，确定所述病历文本中所述连续且一致的属性标签对应的一组字。由于标签串中属性标签排序和病历文本中对应的字的排序一致，因此，在第一步的基础上在本步骤可以进一步确定出每个独立的医学实体所有组成字。

第三步，将所述一组字拼接为一个医学实体。本步骤中拼接即指获得字与字所组成的医学实体的关联关系。

第四步，将所述连续且一致的属性标签作为拼接得到的医学实体的属性标签。由于在第二步实际已经获得了每个独立的医学实体所有组成字与字的属性标签的对应关系，在第三步获得了字与字所组成的医学实体的关联关系，因此基于第二步和第三步即可准确确定每个独立的医学实体的所有组成字的属性标签。字的属性应当与病历文本中排序的该字所组成的医学实体的属性一致，否则将会语义矛盾，因此本步骤可以直接将组成某一医学实体的字的属性标签作为该医学实体的属性标签，完成对该医学实体的属性标注，从而可参照标注的该属性标签准确判别该医学实体的属性。

通过实际统计分析，依照本申请实施例提供的方法判别的医学实体属性的准确率可达到0.932，基于正则的方法判别的准确率为0.875，采用句子分类的方法判别的准确率为0.894。

在进行医学实体的属性判别时，经常会判别出一些“疑似”属性的医学实体。例如“腹痛建议使用消炎利胆片”的病历文本中，“腹痛”为阳性，“消炎利胆片”为疑似。而在“腹痛不建议使用消炎利胆片”的病历文本中，“腹痛”为阳性，“消炎利胆片”也为疑似。在结构化时，对于阴阳性属性并不明确的疑似属性的医学实体，有必要在其所在的病历文本中提取该医学实体的影响属性，以便于后续数据应用时辨析语义。该影响属性具体可以体现为对该医学实体影响最大的词语。

下面结合实施例和附图描述本申请实施例提供的另一种判别医学实体的属性的方法。

参见图7，该图为本申请实施例提供的另一种判别医学实体的属性的方法流程图。如图7所示，该方法包括：

步骤701：利用标签生成模型对病历文本进行处理得到标签串，标签串包括病历文本中字的属性标签。

步骤702：根据标签串中的属性标签及属性标签的排序得到病历文本中的医学实体的属性标签。

步骤701-702的实现方式与前述实施例中步骤301-302的实现方式基本相同，因此步骤701-702的相关描述均可参照前述实施例，此处不再赘述。

步骤703：从病历文本中获得目标语句，目标语句包括属性标签为疑似的目标医学实体，目标医学实体为病历文本中任一医学实体。

作为示例，病历文本为一个语句，若该语句包括了属性标签为疑似的至少一个医学实体，则该至少一个医学实体均属于目标医学实体，包含目标医学实体的语句均为目标语句。

作为另一示例，病历文本为一个语段，则该病历文本中每个包含目标医学实体的语句均为目标语句，不包含目标医学实体的语句则不作为目标语句。

例如“腹痛建议使用消炎利胆片”的病历文本中，由于包含了属性标签为疑似的“消炎利胆片”，因此，“腹痛建议使用消炎利胆片”为一个目标语句。

步骤704：从训练语料中获得目标语句的相似语句。

为了提取目标医学实体的影响属性，本步骤从训练语料中获得目标语句的相似语句，以作为分析影响属性的数据基础。由于语句相似，因此相似语句对于目标语句更具有参照价值，能够提升提取的影响属性的准确性。

下面示例性地提供本步骤704的一种可能的实现方式：

第一步，对所述目标语句进行分词。本领域目前可以采用多种可能的分词方法对语句进行分词，因此可以按照实际需求(例如准确率要求或分词速度要求等)选择分词方法。故此处对分词的具体方式不做限定。

第二步，获得所述目标语句的多个词向量。前一步分词后，可以对每个词进行Word2vec的转换，从而得到每个词的词向量。本步骤应用的转换技术比较成熟，本步骤不再对转换过程进行赘述。

第三步，根据所述多个词向量获得目标平均向量。对一个目标语句的所有词的词向量进行加和，再除以词向量的个数，得到的向量即可作为该目标语句的目标平均向量。由于目标平均向量是以目标语句的所有词向量为基础得到的平均化的表示，因此可以表征目标语句的特征，并作为匹配相似语句的依据。

第四步，分别获得所述训练语料中的各个语句对应的平均向量与所述目标平均向量的相似度，根据所述相似度确定所述目标语句的相似语句。

训练语料中包含大量的语句，有些语句中可能包含了与目标语句中相同或相似的词语。本申请实施例中预先获得了训练语料中各个语句对应的平均向量。获取平均向量的实现方式与获得目标平均向量的实现方式基本相同，参见上述第一步至第三步，也是先分词，再转换词向量，再进行平均计算。当需要寻找目标语句的相似语句时，只需要将前述的目标平均向量与训练语料中的各个语句对应的平均向量进行相似性比较，获得每个平均向量与目标平均向量的相似度。例如，语句a的平均向量与目标平均向量的相似度为80％，语句b的平均向量与目标平均向量的相似度为75％。

最终可以依据相似度确定目标语句的相似语句。例如，可以设定相似语句的选取阈值T，当相似度大于T时，将平均向量对应的语句作为目标语句的相似语句。

步骤705：根据目标语句和目标语句的相似语句，提取目标语句中目标医学实体的影响属性。

在前一步骤704中已经从训练语料中获得了目标语句的相似语句。作为示例，目标语句为“建议/不/使用/消炎利胆片”。

相似语句1：“建议/使用/消炎利胆片”

相似语句2：“医生/建议/使用/消炎利胆片”

相似语句3：“医嘱/建议/使用/消炎利胆片”

……

下面提供本步骤705的一种示例性实现方式：

第一步，生成目标语句的one-hot向量(即独热向量)并生成每条相似语句的one-hot向量。本步骤的执行目的是便于对目标语句和相似语句中的词语进行唯一对应的位置表示，从而便于计数和词频分析。

例如，在上述示例的目标语句“建议/不/使用/消炎利胆片”中，“建议”的one-hot向量为[1,0,0,0]，“不”的one-hot向量为[0,1,0,0]，“使用”的one-hot向量为[0,0,1,0]，“消炎利胆片”的one-hot向量为[0,0,0,1]。也就是说，基于语句中词语的位置不同，可以通过one-hot向量对语句中词语进行唯一表示。如上述示例，词语在语句中的位置不同，one-hot向量中将出现相应词语的位置置“1”，其他词语的位置置“0”。这样便于对出现的词语计数和词频分析。

第二步，根据目标语句的one-hot向量和每条相似语句的one-hot向量，统计各词的出现频率。对于目标语句和各个相似语句中重复出现的词，则进行叠加计数。例如“消炎利胆片”出现了5次，则计数为5；“建议”出现了4次，则计数为4。转化的one-hot向量使计数更加便捷和准确。

第三步，根据统计结果中除目标医学实体以外出现频率最高的词，将该词作为影响属性。

例如，“消炎利胆片”为目标医学实体，“建议”的出现频率为除了“消炎利胆片”之外最高的词，因此“建议”作为目标语句中“消炎利胆片”的影响属性。结构化提取时，可以将影响属性提取出来，作为对目标语句中疑似属性的医学实体(即目标医学实体)的语义参照词。常规的结构化提取时通常未考虑到疑似属性的医学实体的影响属性，这样在结构化提取过程中容易丢弃相关的重要信息。而本申请实施例中，由于在结构化提取时可以提取出影响属性，因此可以依据提取出的影响属性进行重点标注或展示，以提供给医务人员供其诊疗使用，或者作为重要的医疗数据用于后续加工、处理、挖掘或使用。此处对于影响属性的具体应用途径和应用方式不进行限定。

本申请实施例提供的判别医学实体的属性的方法，通过为目标语句寻找相似语句，并根据所述目标语句和所述目标语句的相似语句，提取所述目标语句中所述目标医学实体的影响属性，便于更加准确地识别疑似属性的医学实体及其所在的语句的语义。

基于前述实施例提供的判别医学实体的属性的方法，相应地，本申请还提供一种判别医学实体的属性的装置。下面结合实施例和附图对该装置的具体实现进行说明。

参见图8，该图为本申请实施例提供的判别医学实体的属性的装置结构示意图。如图8所示，判别医学实体的属性的装置800包括：

模型处理模块801，用于利用标签生成模型对病历文本进行处理得到标签串；所述标签串包括所述病历文本中字的属性标签；所述标签串中的属性标签的排序与所述病历文本中对应的字的排序一致；

医学实体属性判别模块802，用于根据所述标签串中的属性标签及属性标签的排序得到所述病历文本中的医学实体的属性标签；

医学实体的属性标签即可用于判别医学实体的属性。标签生成模型中，第一模型根据实际输入的病历文本动态生成字的向量，因此该标签生成模型在生成字的属性标签时结合了字的上下文信息，提升了字的属性标签的准确性。此外，标签生成模型中的第二模型是通过深度学习的方法训练的得到的，第二模型可依据第一模型所输出的向量串生成标签串，保证了标签串中标签属性与病历文本中字有序对应。由于本申请技术方案在结合上下文信息的基础上实现了对病历文本中字的属性的序列标注，因此相比于现有技术，对于医学实体属性判别的准确率提高。

在一种可能的实现方式中，医学实体属性判别模块802，具体包括：

字拼接单元，用于将所述一组字拼接为一个医学实体；

在一种可能的实现方式中，病历文本中的医学实体的属性标签为以下任意一种：

阴性、阳性或疑似。

在结构化时，对于阴阳性属性并不明确的疑似属性的医学实体，有必要在其所在的病历文本中提取该医学实体的影响属性，以便于后续数据应用时辨析语义。参见图9，该图示意了另一种判别医学实体的属性的装置900。

如图9所示，在一种可能的实现方式中，判别医学实体的属性的装置900包括：模型处理模块801，医学实体属性判别模块802，还包括：

目标语句获取模块803，用于从所述病历文本中获得目标语句；所述目标语句包括属性标签为疑似的目标医学实体，所述目标医学实体为所述病历文本中任一医学实体；

相似语句获取模块804，用于从所述训练语料中获得所述目标语句的相似语句；

影响属性提取模块805，用于根据所述目标语句和所述目标语句的相似语句，提取所述目标语句中所述目标医学实体的影响属性。

在一种可能的实现方式中，相似语句获取模块804，具体包括：

分词单元，用于对所述目标语句进行分词；

转换单元，用于获得所述目标语句的多个词向量；

平均单元，用于根据所述多个词向量获得目标平均向量；

在一种可能的实现方式中，影响属性提取模块805，具体包括：

本申请实施例提供的判别医学实体的属性的装置，通过为目标语句寻找相似语句，并根据所述目标语句和所述目标语句的相似语句，提取所述目标语句中所述目标医学实体的影响属性，便于更加准确地识别疑似属性的医学实体及其所在的语句的语义。

基于前述实施例提供的判别医学实体的属性的方法和装置，本申请实施例还提供了一种计算机可读存储介质。

该存储介质上存储有程序，该程序被处理器执行时实现本申请前述方法实施例保护的判别医学实体的属性的方法中部分或全部步骤。

该存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

基于前述实施例提供的判别医学实体的属性的方法、装置和存储介质，本申请实施例提供了一种处理器。该处理器用于运行程序，其中，所述程序运行时执行前述方法实施例保护的判别医学实体的属性的方法中部分或全部步骤。

基于前述实施例提供的存储介质和处理器，本申请还提供了一种判别医学实体的属性的设备。

参见图10，该图为本实施例提供的判别医学实体的属性的设备的硬件结构图。

如图10所示，判别医学实体的属性的设备包括：存储器1001、处理器1002、通信总线1003和通信接口1004。

其中，存储器1001上存储有可在处理器上运行的程序，程序执行时实现本申请前述方法实施例提供的医学影像中面部区域的处理方法中部分或全部步骤。存储器1001可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

该判别医学实体的属性的设备中，处理器1002与存储器1001通过通信总线传输信令、逻辑指令等。该设备能够通过通信接口1004与其他设备进行通信交互。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种判别医学实体的属性的方法，其特征在于，包括：

根据所述标签串中的属性标签及属性标签的排序得到所述病历文本中的医学实体的属性标签；所述病历文本中的医学实体的属性标签为以下任意一种：阴性、阳性或疑似；

所述标签生成模型包括：第一模型和第二模型，所述第一模型为BERT模型，所述第一模型的输出作为所述第二模型的输入；所述第二模型为预先利用训练数据深度学习训练后得到的；所述训练数据包括：所述第一模型根据训练语料动态生成的训练向量串和所述训练向量串对应的训练标签串；所述训练向量串中向量的排序与所述训练语料中对应的字的排序一致，且与所述训练标签串中对应的属性标签的排序一致；

所述方法还包括：

从所述训练语料中获得所述目标语句的相似语句；

2.根据权利要求1所述的方法，其特征在于，所述根据所述标签串中的属性标签及属性标签的排序得到所述病历文本中的医学实体的属性标签，具体包括：

识别所述标签串中连续且一致的属性标签；

将所述一组字拼接为一个医学实体；

3.根据权利要求1所述的方法，其特征在于，所述从所述训练语料中获得所述目标语句的相似语句，具体包括：

对所述目标语句进行分词；

获得所述目标语句的多个词向量；

根据所述多个词向量获得目标平均向量；

4.根据权利要求1或3所述的方法，其特征在于，所述根据所述目标语句和所述目标语句的相似语句，提取所述目标语句中所述目标医学实体的影响属性，具体包括：

5.一种判别医学实体的属性的装置，其特征在于，包括：

医学实体属性判别模块，用于根据所述标签串中的属性标签及属性标签的排序得到所述病历文本中的医学实体的属性标签；所述病历文本中的医学实体的属性标签为以下任意一种：阴性、阳性或疑似；

所述装置还包括：

6.根据权利要求5所述的装置，其特征在于，所述医学实体属性判别模块，具体包括：

字拼接单元，用于将所述一组字拼接为一个医学实体；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述程序被处理器运行时，实现如权利要求1-4任一项所述的判别医学实体的属性的方法。

8.一种处理器，其特征在于，用于运行计算机程序，所述程序运行时执行如权利要求1-4任一项所述的判别医学实体的属性的方法。