CN108257676B

CN108257676B - 一种医案信息的处理方法、装置和设备

Info

Publication number: CN108257676B
Application number: CN201611236257.2A
Authority: CN
Inventors: 银磊; 李明修; 卜海亮; 魏世嘉
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2020-03-03
Anticipated expiration: 2036-12-28
Also published as: CN108257676A; WO2018120447A1

Abstract

本发明公开了一种医案信息的处理方法。该方法包括：获取原始医案文本，并将所述原始医案文本划分成至少一个目标文本单元；确定所述目标文本单元的文本特征对应的目标类别；生成目标医案文本，其中，在所述目标医案文本中所述目标文本单元体现为所述目标类别下的文本信息。通过本发明实施例提供的方法，在结构化的目标医案文本中不同的信息内容分别被划分到了相应的类别下，不仅使得用户能够更顺畅地阅读，而且使得用户能够更快地寻找到需要的信息内容，还使得目标医案文本更利于数据整理和分析。此外，本发明还公开了一种医案信息的处理装置和设备。

Description

一种医案信息的处理方法、装置和设备

技术领域

本发明涉及信息处理技术领域，特别是涉及一种医案信息的处理方法、装置和设备。

背景技术

目前，医案信息已经成为信息处理技术中十分常见的信息处理对象。由于医案信息能够反映患者的就医情况，医案信息可以用于医生、患者了解患者的历史病症、治疗等情况，也可以用于对大量患者的病症情况、治疗情况进行数据分析。

但是，通常能够直接获取到的医案信息，其内容通常是杂乱无章的，也即，各种不同的信息内容不加区分地拼凑在一起。因此，一方面，在向用户显示这样的医案信息时，用户不仅难以顺畅地阅读而且也无法快速寻找到需要的信息内容，另一方面，这样的医案信息不利于信息内容的查找和识别，因此也难以用于数据整理和分析。

发明内容

本发明所要解决的技术问题是，提供一种医案信息的处理方法、装置和设备，以使得医案信息中各种不同的信息内容能够按照一定的结构格式区分开，实现医案信息的结构化，不仅便于用户阅读和快速寻找需求的信息内容，并且也便于数据整理和分析。

第一方面，本发明实施例提供了一种医案信息的处理方法，包括：

获取原始医案文本，并将所述原始医案文本划分成至少一个目标文本单元；

确定所述目标文本单元的文本特征对应的目标类别；

生成目标医案文本，其中，在所述目标医案文本中所述目标文本单元体现为所属目标类别下的文本信息。

可选的，所述确定所述目标文本单元的文本特征对应的目标类别，可以包括：

基于第一机器学习模型，确定所述目标文本单元的文本特征对应的目标类别，其中，所述第一机器学习模型通过对训练样本集中包括的历史医案文本的文本特征与预置类别之间的对应关系进行训练而得到。

可选的，所述目标类别可以为用于描述患者信息的类别、用于描述疾病名称的类别、用于描述症状陈述信息的类别、用于描述症状辨别信息的类别、用于描述医嘱信息的类别、或用于描述处方信息的类别。

可选的，所述方法还可以包括：

从所述原始医案文本中提取用于描述第一特征项的目标特征词；

其中，在所述目标医案文本中所述目标特征词体现为属于所述第一特征项的文本信息。

可选的，所述从所述原始医案文本中提取用于描述第一特征项的目标特征词，可以包括：

从所述原始医案文本中、所述第一特征项所属的目标类别下的文本信息中提取所述用于描述第一特征项的目标特征词。

对所述原始医案文本进行分析，得到用于描述所述第一特征项的初始特征词；

在标准特征词库中对所述初始特征词进行匹配，得到与所述初始特征词相匹配的标准特征词，作为所述用于描述第一特征项的目标特征词。

可选的，所述对所述原始医案文本进行分析，得到用于描述所述第一特征项的初始特征词，可以包括：

基于医学专用词库，对所述原始医案文本进行词法分析和/或句法分析，得到所述用于描述所述第一特征项的初始特征词。

可选的，所述方法还可以包括：

建立用于描述所述第一特征项的初始特征词和目标特征词的对应关系，并体现在所述目标医案文本中。

可选的，所述方法还可以包括：

确定所述原始医案文本在第二特征项下对应的推断特征词，其中，所述推断特征词为在所述原始医案文本中没有记载的用于描述所述第二特征项的特征词；

在所述目标医案文本中所述推断特征词体现为属于所述第二特征项的文本信息。

可选的，所述确定所述原始医案文本在第二特征项下对应的推断特征词，可以包括：

基于第二机器学习模型，确定所述原始医案文本在所述第二特征项下对应的推断特征词，其中，所述第二机器学习模型通过对训练样本集中包括的历史医案文本与预置的用于描述所述第二特征项的推断特征词之间的对应关系进行训练而得到。

可选的，所述生成目标医案文本之后，所述方法还可以包括：

查找与所述目标医案文本相匹配的预置医案文本，其中，所述预置医案文本在所述目标类别下的文本信息与所述目标文本单元相同或相似，所述目标类别包括用于描述患者个人信息的类别和/或用于描述患者症状的类别；

提取所述预置医案文本中用于描述诊断信息的类别下的文本信息，作为参考诊断信息体现在所述目标医案文本中。

可选的，所述获取原始医案文本，可以包括：

获取语音形式的医案信息；对所述医案信息进行语音识别，得到所述原始医案文本；

或者，

获取图像形式的医案信息；对所述医案信息进行图像识别，得到所述原始医案文本。

第二方面，本发明实施例提供了一种医案信息的处理装置，包括：

获取单元，用于获取原始医案文本；

划分单元，用于将所述原始医案文本划分成至少一个目标文本单元；

第一确定单元，用于确定所述目标文本单元的文本特征对应的目标类别；

生成单元，用于生成目标医案文本，其中，在所述目标医案文本中所述目标文本单元体现为所属目标类别下的文本信息。

可选的，所述第一确定单元，可以包括：

目标类别确定子单元，用于基于第一机器学习模型，确定所述目标文本单元的文本特征对应的目标类别，其中，所述第一机器学习模型通过对训练样本集中包括的历史医案文本的文本特征与预置类别之间的对应关系进行训练而得到。

可选的，所述目标类别为用于描述患者信息的类别、用于描述疾病名称的类别、用于描述症状陈述信息的类别、用于描述症状辨别信息的类别、用于描述医嘱信息的类别、或用于描述处方信息的类别。

可选的，所述装置还可以包括：

第一提取单元，用于从所述原始医案文本中提取用于描述第一特征项的目标特征词；其中，在所述目标医案文本中所述目标特征词体现为属于所述第一特征项的文本信息。

可选的，所述第一提取单元，可以包括：

目标特征词提取子单元，用于从所述原始医案文本中、所述第一特征项所属的目标类别下的文本信息中提取所述用于描述第一特征项的目标特征词。

可选的，所述第一提取单元，可以具体包括：分析子单元和匹配子单元；

所述分析子单元，用于对所述原始医案文本进行分析，得到用于所述描述第一特征项的初始特征词；

所述匹配子单元，用于在标准特征词库中对所述初始特征词进行匹配，得到与所述初始特征词相匹配的标准特征词，作为所述用于描述第一特征项的目标特征词。

可选的，所述匹配子单元，具体可以包括：

初始特征词提取子单元，用于基于医学专用词库，对所述原始医案文本进行词法分析和/或句法分析，得到所述用于描述所述第一特征项的初始特征词。

可选的，所述装置还可以包括：

建立单元，用于描述所述第一特征项的初始特征词和目标特征词的对应关系，并体现在所述目标医案文本中。

可选的，所述装置还可以包括：

第二确定单元，用于确定所述原始医案文本在第二特征项下对应的推断特征词，其中，所述推断特征词为在所述原始医案文本中没有记载的用于描述所述第二特征项的特征词；

可选的，所述第二确定单元，可以包括：

推断特征词确定子单元，用于基于第二机器学习模型，确定所述原始医案文本在所述第二特征项下对应的推断特征词，其中，所述第二机器学习模型通过对训练样本集中包括的历史医案文本与预置的用于描述所述第二特征项的推断特征词之间的对应关系进行训练而得到。

可选的，所述装置还可以包括：查找单元和第二提取单元；

所述查找单元，用于查找与所述目标医案文本相匹配的预置医案文本，其中，所述预置医案文本在所述目标类别下的文本信息与所述目标文本单元相同或相似，所述目标类别包括用于描述患者个人信息的类别和/或用于描述患者症状的类别；

所述第二提取单元，用于提取所述预置医案文本中用于描述诊断信息的类别下的文本信息，以用于生成所述目标医案文本。

可选的，所述获取单元可以包括：第一获取子单元和第一识别子单元；

所述第一获取子单元，用于获取语音形式的医案信息；

所述第一识别子单元，用于对所述医案信息进行语音识别，得到所述原始医案文本。

可选的，所述获取单元可以包括：第二获取子单元和第二识别子单元；

所述第二获取子单元，用于获取图像形式的医案信息；

所述第二识别子单元，用于对所述医案信息进行图像识别，得到所述原始医案文本。

第三方面，本发明实施例提供了一种设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定所述目标文本单元的文本特征对应的目标类别；

与现有技术相比，本发明实施例具有以下优点：

根据本发明实施方式提供的方法、装置和设备，对于没有结构化的原始医案文本，通过将所述原始医案文本划分成至少一个目标文本单元并为每一个目标文本单元确定该目标文本单元的文本特征对应的目标类别，可以生成结构化的目标医案文本，使得在目标医案文本中每一个目标文本单元均体现为其所属目标类别下的文本信息。由此可见，由于在结构化的目标医案文本中不同的信息内容分别被划分到了相应的类别下，一方面，向用户显示目标医案文本时用户不仅能够更顺畅地阅读并且也能够更快地寻找到需要的信息内容，另一方面，目标医案文本中分类体现的文本内容有利于信息内容的查找和识别，这也使得目标医案文本更利于数据整理和分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一个示例性应用场景的框架示意图；

图2为本发明实施例中一种医案信息的处理方法的流程示意图；

图3为本发明实施例中一种医案信息的处理装置的结构示意图；

图4为本发明实施例中一种装置的结构示意图；

图5是本发明实施例中一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人经过研究发现，通常能够直接获取到的医案信息，如用户输入的医案信息，其内容通常是杂乱无章的。其中，用于描述不同特征的信息内容不加区分地拼凑在一起，一方面，用户难以顺畅地阅读杂乱无章的医案信息，另一方面，杂乱无章的医案信息不利于用户对于信息内容的查找和识别。

为了解决上述问题，在本发明实施例中，将原始医案文本划分成至少一个目标文本单元，并为每一个目标文本单元确定该目标文本单元的文本特征对应的目标类别，并据此生成结构化的目标医案文本，使得在目标医案文本中每一个目标文本单元均体现为其所属目标类别下的文本信息。由此可见，由于在结构化的目标医案文本中不同的信息内容分别被划分到了相应的类别下，一方面，向用户显示目标医案文本时用户不仅能够更顺畅地阅读并且也能够更容易、更快地寻找到需要的信息内容，另一方面，目标医案文本中分类体现的文本内容有利于信息内容的查找和识别，这也使得目标医案文本更利于数据整理和分析。

举例说明，本发明实施例可以应用到如图1所示的场景，其中，用户终端102与服务器101之间通过网络103实现交互。在这一场景中，服务器101获取用户终端102发送的原始医案文本。然后，服务器101将所述原始医案文本划分成至少一个目标文本单元，确定所述目标文本单元的文本特征对应的目标类别，并生成目标医案文本，其中，在所述目标医案文本中所述目标文本单元体现为所述目标类别下的文本信息。再后，服务器101可以将所述目标医案文本信息发送到用户终端102进行显示。

可以理解的是，用户终端102可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如，Wi-Fi、LAN、蜂窝、同轴电缆等)实现与服务器101交互的任何用户设备，包括但不限于：现有的、正在研发的或将来研发的智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。

此外，服务器101仅是现有的、正在研发的或将来研发的、能够向用户提供医案信息处理功能的设备的一个示例。本发明的实施方式在此方面不受任何限制。

可以理解的是，在上述场景中，虽然将本发明实施方式的动作描述为由服务器101执行，但是这些动作也可以部分由用户终端102执行、部分由服务器101执行，或者完全由用户终端102执行。本发明在执行主体方面不受限制，只要执行了本发明实施方式所公开的动作即可。

需要注意的是，上述应用场景仅是为了便于理解本发明而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

下面结合附图，详细说明本发明的各种非限制性实施方式。

示例性方法

参见图2，示出了本发明实施例中一种医案信息的处理方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

201、获取原始医案文本。

具体实现时，基于获取到的医案信息，可以得到待结构化的原始医案文本。其中，医案信息可以有多种获取方式。例如，医案信息可以是用户输入的信息。又如，医案信息也可以是数据库中保存的信息。

可以理解的是，原始获取到的医案信息有多种可能的形式。例如，原始获取到的医案信息可以是文本形式的信息，也可以是图像形式的信息，还可以是语音形式的信息。由于本实施例是对文本形式的原始医案文本进行结构化处理，在原始获取的医案信息为文本形式的情况下原始医案文本可以是所述医案信息本身，在原始获取的医案信息为非文本形式的情况下原始医案文本可以为转化成文本形式的原始医案文本。例如，在所述医案信息为语音形式的情况下，步骤201可以包括：获取语音形式的医案信息；对所述医案信息进行语音识别，得到所述原始医案文本。又如，在所述医案信息为图像形式的情况下，步骤201包括：获取图像形式的医案信息；对所述医案信息进行图像识别，得到所述原始医案文本。

需要说明的是，原始获取到的医案信息中有时候可能包含了针对一个患者的多次诊断的相关信息。为了使得结构化处理得到的医案信息相统一，可以将医案信息中多次诊断的相关信息划分成多个一次诊断的相关信息，再以一次诊断的相关信息作为原始医案文本进行结构化处理。也即，所述原始医案文本可以为针对一个患者一次诊断涉及的医案文本信息。例如，假设原始获取到的医案信息中包含了一诊的相关信息和二诊的相关信息，可以按照就诊时间将原始获取到的医案信息划分成一诊的相关信息和二诊的相关信息，再以一诊的相关信息和二诊的相关信息分别作为原始医案文本，执行后续步骤。

202、将所述原始医案文本划分成至少一个目标文本单元。

具体实现时，可以以句子为单位对原始医案文本信息进行划分。也即，划分得到的目标文本单元为文本句子。当然，本实施例中，还可以但不限于以词组、短语、段落等为单位对原始医案文本信息进行划分。

203、确定所述目标文本单元的文本特征对应的目标类别。

具体实现时，分别针对原始医案文本划分出来的每个目标文本单元，可以在预置的多个可用于描述医案信息的预置类别中查找与目标文本单元的文本特征相匹配的目标类别，从而为每个目标文本单元确定一个相对应的目标类别。可以理解的是，对于目标文本单元来说，若该目标文本单元的文本特征与目标类别相匹配，则该目标类别为用于描述该目标文本单元的类别。

可以理解的是，所述预置的多个可用于医案信息的类别例如可以包括用于描述患者信息的类别、用于描述疾病名称的类别、用于描述症状陈述信息的类别、用于描述症状辨别信息的类别、用于描述医嘱信息的类别、用于描述处方信息的类别等其中任意多个类别。也即，对于任意一个目标文本单元来说，其对应的目标类别例如可以为用于描述患者信息的类别、用于描述疾病名称的类别、用于描述症状陈述信息的类别、用于描述症状辨别信息的类别、用于描述医嘱信息的类别或用于描述处方信息的类别。其中，所述患者信息例如可以包括患者姓名、患者性别、患者年龄、就诊时间等。所述症状陈述信息也可称为主诉信息。所述症状辨别信息可以是中医概念上的辨证信息，也可以是西医概念上的化验结果信息。

在本实施例中，例如可以采用机器学习模型来为目标文本单元确定相应的目标类别。具体地，步骤203可以具体为：基于第一机器学习模型，确定所述目标文本单元的文本特征对应的目标类别，其中，所述第一机器学习模型通过对训练样本集中包括的历史医案文本的文本特征与预置类别之间的对应关系进行训练而得到，所述历史医案文本为所述预置类别下的文本信息。其中，所述第一机器学习模型的训练过程可以具体在于，在确定所述历史医案文本属于某个预置类别下的文本信息的情况下，以所述历史医案文本的文本特征作为输入、以所述历史医案文本所属的预置类别作为输出对所述第一机器学习模型进行训练。其中，用于训练的多个历史医案文本可以包括所述多个可用于医案信息的预置类别下的文本信息，以便于使得训练后的第一机器学习模型能够准确地覆盖所有可用于医案信息的预置类别。此外，所述历史医案文本可以是以句子为单位的句子文本，即每一次训练使用一个句子的文本信息作为历史医案文本。或者，所述历史医案信息也可以是以段落为单元的段落文本，即每一次训练使用一个段落的文本信息作为历史医案文本。可以理解的是，针对一定数量的历史医案文本和其对应的预置类别进行了训练之后，第一机器学习模型可以表示文本特征与预置类别之间的对应关系，因此，将目标文本单元的文本特征输入到训练过的第一机器学习模型，第一机器学习模型输出的目标类别即是所述目标文本单元所属的类别。

204、生成目标医案文本，其中，在所述目标医案文本中所述目标文本单元体现为所属目标类别下的文本信息。

具体实现时，可以将原始医案文本划分出来的每个目标文本单元按照各自所属的目标类别进行组织，生成目标医案文本。所述目标医案文本例如可以用于向用户反馈，也即，在步骤204之后本实施例例如还可以包括：呈现所述目标医案文本。

可以理解的是，在目标医案文本中包含了原始医案文本中划分出来的所有目标文本单元。此外，在目标医案文本中每个目标文本单元与其相应的目标类别是对应保存的，故在目标医案文本能够体现出每个目标文本单元分别是属于哪个目标类别下的文本信息。例如，假设目标文本单元为“头非常疼”、所属的目标类别为“主诉”，则在目标医案文本中体现出来的信息可以是“主诉：头非常疼”。

需要说明的是，在原始医案文本中可以记载了一些用于描述重要特征的特征词。考虑到这些重要的特征词在目标类别下与其他文本内容是混在一起的，为了使得用户能够更明显地识别出这些重要的特征词，在本实施例的一些实施方式中，可以在目标医案文本中可以设置单独的特征项，用于体现这些重要的特征词。具体地，在204之前，本实施例例如还可以包括：从所述原始医案文本中提取用于描述第一特征项的目标特征词。其中，在所述目标医案文本中所述目标特征词体现为属于所述第一特征项的文本信息。在目标医案文本中目标特征词与其相应的第一特征项是对应保存的，故在目标医案文本能够体现出目标特征词是属于相应的第一特征项的文本信息。例如，假设目标特征词为“当归”、所属的第一特征项为“药材”，则在目标医案文本中体现出来的信息可以是“药材：当归”。

可以理解的是，所述第一特征项下的目标特征词是在原始医案文本中记载的文本信息。例如，所述第一特征项可以是用于描述患者姓名的特征项，即所述目标特征词可以是用于描述患者姓名的信息。假设所述目标特征词为“张三”，则在目标医案文本中第一特征项和目标特征词可以体现成“患者姓名：张三”。又如，所述第一特征项可以是用于描述药品的特征项，即所述目标特征词可以是用于描述药品的信息。其中，所述药品可以是中医药材，也可以是西医药品。假设所述目标特征词为“阿莫西林”，则在目标医案文本中第一特征项和目标特征词可以体现成“药品：阿莫西林”。假设所述目标特征词为“当归”，则在目标医案文本中第一特征项和目标特征词可以体现成“药材：当归”。再如，所述第一特征项可以是用于描述剂量的特征项，即所述目标特征词可以是用于描述剂量的信息。假设所述目标特征词为“10克”，则在目标医案文本中第一特征项和目标特征词可以体现成：“剂量：10克”。又再如，所述第一特征项可以是用于描述症状的特征项，即所述目标特征词可以是用于描述症状的信息。假设所述目标特征词为“头疼”，则在目标医案文本中第一特征项和目标特征词可以体现成“症状：头疼”。

可以理解的是，不同的医案文本有时会采用不同的特征词描述同一个含义，这样不利于医案信息的统计分析。为此，在本实施例的一些实施方式中，可以对同一个含义的特征词采用归一化处理，以使得目标医案文本中采用相同的特征词描述同一个含义。具体地，目标特征词的提取过程，例如可以包括：对所述原始医案文本进行分析，得到用于描述所述第一特征项的初始特征词；在标准特征词库中对所述初始特征词进行匹配，得到与所述初始特征词相匹配的标准特征词，作为所述用于描述第一特征项的目标特征词。其中，标准特征词库为用于描述同一个含义的多个特征词指定了一个标准特征词，并且，标准特征词库还记载了同一含义的非标准特征词与标准特征词之间的对应关系。若所述初始特征词为标准特征词库中的非标准特征词，则该非标准特征词在标准特征词库中对应的标准特征词可以作为目标特征词。若所述初始特征词为标准特征词库中的标准特征词，则该初始特征词自身就可以作为目标特征词。例如，“头疼”、“头痛”可以归一化成“头痛”，也即，“头疼”是非标准特征词，“头痛”是标准特征词。

为了使得用户能够了解特征词的归一化处理，以避免用户有时了解目标医案文本中出现的标准特征词，在本实施例的一些实施方式中，例如还可以包括：建立所述用于描述第一特征项的初始特征词和所述用于描述第一特征项的目标特征词的对应关系，并体现在所述目标医案文本中。也即，在所述目标医案文本中还可以具有相互对应体现的所述初始特征词和所述目标特征词。例如，假设初始特征词为“头疼”、目标特征词为“头痛”，则目标医案文本中初始特征词和目标特征词可以体现成“原词：头疼；标准症状：头痛”。又如，假设初始特征词为“二十g”、目标特征词为“20克”，则目标医案文本中初始特征词和目标特征词可以体现成“原词：二十g；标准剂量：20克”。

由于医案文本中特征词可能具有医学专业属性，原始医案文本的分析可以借助于医学专用词库并结合词法分析、句法分析，从而使得特征词的提取更准确。具体地，在本实施例的一些实施方式中，为得到初始特征词，可以基于医学专用词库，对所述原始医案文本进行词法分析和/或句法分析，得到所述用于描述所述第一特征项的初始特征词。例如，假设原始医案文本记载了“头非常疼”，通过词法分析和句法分析可以识别出，“头”是名词和主语且表示人体部位，“疼”是动词、谓语且表示人体部位的状态，基于此可以确定初始特征词为“头疼”。

此外，对于一些具有特定规则的第一特征项，可以基于相应的特定规则对目标特征词进行识别。例如，针对第一特征性“患者年龄”，可以基于年龄识别规则(如特征词包含“数字+岁”或“数字+旬”)提取目标特征词。又如，针对第一特征项“就诊时间”，可以基于时间识别规则(如特征词包含“年”、“月”、“日”或具有分隔符“.”“/”等)提取目标特征词。再此外，针对某些特定的第一特征项，可以通过特定的识别技术对目标特征词进行识别。例如，针对第一特征性“患者姓名”，可以基于自然语言处理命名实体识别技术提取目标特征词。

有时，第一特征项是属于某一个或某几个目标类别下的特征，也即，第一特征项下的目标特征词都存在于目标分类下的文本信息中。基于此，本实施例的一些实施方式中，所述用于描述所述第一特征项的目标特征词具体可以是在所述第一特征项所述的目标类别下的文本信息中进行提取的，也即，在203之后，从所述原始医案文本中、所述第一特征项所属的目标类别下的文本信息中提取用于描述第一特征项的目标特征词。其中，目标类别下的文本信息包括所有与目标类别相对应的目标文本单元。例如，第一特征项“药品”是属于目标类别“处方”下的特征，也即，属于类别“处方”的文本信息中存在第一特征项“药品”对应的相关信息。因此，在经过对原始医案文本分类而确定了属于类别“处方”的文本信息之后，可以在属于类别“处方”的文本信息中查找、提取第一特征项“药品”对应的目标特征词。当然，第一特征项的目标特征词也可以是从原始医案文本的所有文本信息中进行查找、提取的。

需要说明的是，对于原始医案文本中没有直接记载的一些特征词，有时可以从原始医案文本中记载的文本信息推断出来。在本实施例的一些实施方式中，可以在目标医案文本中设置单独的特征项，用于体现这些推断出来的特征词。具体地，在204之前，本实施例例如还可以包括：确定所述原始医案文本在第二特征项下对应的推断特征词，其中，所述推断特征词为在所述原始医案文本中没有记载的用于描述所述第二特征项的特征词；在所述目标医案文本中所述推断特征词体现为属于所述第二特征项的文本信息。在目标医案文本中推断特征词与其相应的第二特征项是对应保存的，故在目标医案文本能够体现出推断特征词是属于相应的第二特征项的文本信息。例如，在原始医案文本没有记载患者性别的情况下，假设依据原始医案文本能够推断出患者是女性，则推断特征词为“女”，所属的目标类别为“患者性别”，在目标医案文本中体现出来的信息可以是“性别：女”。

可以理解的是，属于所述第二特征项的推断特征词是在原始医案文本中没有直接记载的文本信息。例如，所述第二特征项可以是用于描述患者性别的特征项，即所述推断特征词可以是用于描述患者性别的特征词。假设所述推断特征词为“男”，则在目标医案文本中第二特征项和对应的推断特征词可以体现成“患者性别：男”。又如，所述第二特征项可以是用于描述患者年龄的特征项，即所述推断特征词可以是用于描述患者年龄的特征词。假设所述推断特征词为“中年”，则在目标医案文本中第二特征项和对应的推断特征词可以体现成“患者年龄：中年”。

需要说明的是，推断特征词的推断方式，例如可以采用机器学习模型。具体地，推断特征词的确定方式，例如可以包括：基于第二机器学习模型，确定所述原始医案文本在所述第二特征项下对应的推断特征词，其中，所述第二机器学习模型通过对训练样本集中包括的历史医案文本与预置的用于描述所述第二特征项的推断特征词之间的对应关系进行训练而得到，从所述历史医案文本出发能够推断得到所述历史特征词。其中，所述第二机器学习模型的训练过程可以具体在于，对于很难提取得到确定特征词的历史医案文本，在确定所述历史医案文本对应的推断特征词的情况下，以所述历史医案文本作为输入、以所述推断特征词作为输出对所述第二机器学习模型进行训练。可以理解的是，针对一定数量的历史医案文本和其对应的推断特征词进行了训练之后，第二机器学习模型可以表示医案文本与推断特征词之间的对应关系，因此，将待结构化的原始医案文本输入到训练过的第二机器学习模型，第二机器学习模型输出的推断特征词即是所述原始医案文本能够反映出的特征。

在本实施例的一些实施方式中，在用户提供了包含症状、患者信息等文本内容的原始医案文本的情况下，可以从与用户提供的原始医案文本具有相同或相似症状、患者信息等文本内容的预置医案文本中提取出诊断信息的文本内容并作为参考诊断信息体现在目标医案文本信息，以便用户进行参考，因此，用户可以通过输入患者信息的方式获得推荐作为参考的诊断信息，从而实现“自诊”的功能。具体地，在203之后，本实施例例如还可以包括：查找与所述目标医案文本相匹配的预置医案文本，其中，所述预置医案文本在所述目标类别下的文本信息与所述目标文本单元相同或相似，所述目标类别包括用于描述患者个人信息的类别和/或用于描述患者症状的类别；提取所述预置医案文本中用于描述诊断信息的类别下的文本信息，以作为参考诊断信息体现在所述目标医案文本中。其中，用于描述诊断信息的类别例如可以是用于描述处方信息的类别，用于描述病症辨别信息的类别和/或用于描述医嘱信息的类别。此外，所述预置医案文本例如可以是预先收集的经典医案信息或医学专家提供的医案信息。

可以理解的是，用于匹配原始医案文本与预置医案文本的文本信息可以是一个目标类别下的文本信息，也可以是多个目标类别下的文本信息。在利用多个目标类别下的文本信息对原始医案信息与预置医案文本进行匹配时，可以对不同的目标类别设置不同的匹配权重来衡量原始医案信息与预置医案文本之间的匹配程度。例如，用于匹配原始医案信息与预置医案文本的文本信息可以是“病症”、“患者年龄”、“患者性别”、“就诊时间”四个目标类别下的文本信息。其中，考虑到“就诊时间”对诊断信息的影响相对较小，“病症”、“患者年龄”和“患者性别”可以采用相对较大的匹配权重，“就诊时间”可以采用相对较小的匹配权重。此时，若原始医案信息与预置医案文本在“病症”、“患者年龄”和“患者性别”的文本信息较为一致而“就诊时间”较为不一致的情况下，匹配的结果可能是原始医案信息与预置医案文本相匹配。若原始医案信息与预置医案文本在“病症”和“就诊时间”的文本信息较为一致而“患者性别”较为不一致的情况下，匹配的结果可能是原始医案信息与预置医案文本不匹配。

在本实施例中，所述原始医案文本和所述目标医案文本任何一种医案文本，如可以是中医的医案文本，又如也可以是西医的医案文本。

在本实施例中，对于没有结构化的原始医案文本，通过将所述原始医案文本划分成至少一个目标文本单元并为每一个目标文本单元确定该目标文本单元的文本特征对应的目标类别，可以生成结构化的目标医案文本，使得在目标医案文本中每一个目标文本单元均体现为其目标类别下的文本信息。由此可见，由于在结构化的目标医案文本中不同的信息内容分别被划分到了相应的类别下，一方面，向用户显示目标医案文本时用户不仅能够更顺畅地阅读并且也能够更快地寻找到需要的信息内容，另一方面，目标医案文本中分类体现的文本内容有利于信息内容的查找和识别，这也使得目标医案文本更利于数据整理和分析。

示例性设备

参见图3，示出了本发明实施例中一种医案信息的处理装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

获取单元301，用于获取原始医案文本；

划分单元302，用于将所述原始医案文本划分成至少一个目标文本单元；

第一确定单元303，用于确定所述目标文本单元的文本特征对应的目标类别；

生成单元304，用于生成目标医案文本，其中，在所述目标医案文本中所述目标文本单元体现为所述目标类别下的文本信息。

可选的，所述第一确定单元303，可以包括：

可选的，所述装置还可以包括：

可选的，所述第一提取单元，可以包括：

可选的，所述匹配子单元，可以包括：

可选的，所述装置还可以包括：

可选的，所述第一特征项可以为用于描述患者姓名的特征项、用于描述药品的特征项、用于描述剂量的特征项或用于描述症状的特征项。

可选的，所述装置还可以包括：

可选的，所述第二确定单元，可以包括：

可选的，所述第二特征项可以为用于描述患者性别的特征项或用于描述患者年龄的特征项。

可选的，所述装置还可以包括：查找单元和第二提取单元；

可选的，所述原始医案文本可以为针对一个患者一次诊断涉及的医案文本信息。

可选的，所述获取单元301可以包括：第一获取子单元和第一识别子单元；

所述第一获取子单元，用于获取语音形式的医案信息；

可选的，所述获取单元301可以包括：第二获取子单元和第二识别子单元；

所述第二获取子单元，用于获取图像形式的医案信息；

可选的，所述装置还可以包括：

呈现单元，用于呈现所述目标医案文本。

参照图4，装置1800可以包括以下一个或多个组件：处理组件1802，存储器1804，电源组件1806，多媒体组件1806，音频组件1810，输入/输出(I/O)的接口1812，传感器组件1814，以及通信组件1816。

处理组件1802通常控制装置1800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1802可以包括一个或多个处理器1820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1802可以包括一个或多个模块，便于处理组件1802和其他组件之间的交互。例如，处理部件1802可以包括多媒体模块，以方便多媒体组件1806和处理组件1802之间的交互。

存储器1804被配置为存储各种类型的数据以支持在设备1800的操作。这些数据的示例包括用于在装置1800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1806为装置1800的各种组件提供电力。电源组件1806可以包括电源管理系统，一个或多个电源，及其他与为装置1800生成、管理和分配电力相关联的组件。

多媒体组件1806包括在所述装置1800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1806包括一个前置摄像头和/或后置摄像头。当设备1800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1810被配置为输出和/或输入音频信号。例如，音频组件1810包括一个麦克风(MIC)，当装置1800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1804或经由通信组件1816发送。在一些实施例中，音频组件1810还包括一个扬声器，用于输出音频信号。

I/O接口1812为处理组件1802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1814包括一个或多个传感器，用于为装置1800提供各个方面的状态评估。例如传感器组件1814可以检测到设备1800的打开/关闭状态，组件的相对定位，例如所述组件为装置1800的显示器和小键盘，传感器组件1814还可以检测装置1800或装置1800一个组件的位置改变，用户与装置1800接触的存在或不存在，装置1800方位或加速/减速和装置1800的温度变化。传感器组件1814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1816被配置为便于装置1800和其他设备之间有线或无线方式的通信。装置1800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

图5是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本发明实施例提供了一种设备。该设备包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定所述目标文本单元的文本特征对应的目标类别；

在本实施例的一些实施方式中，所述设备可以具体为前述的装置1800，所述存储器可以具体为前述装置1800中的存储器1804，所述处理器可以具体为前述装置1800中的处理器1820。

在本实施例的另一些实施方式中，所述设备可以具体为前述的服务器1900，所述处理器可以具体为前述服务器1900中的中央处理器1922，所述存储器可以具体为前述服务器1900中的存储介质1930。

可选的，为了确定所述目标文本单元的文本特征对应的目标类别，所述处理器可以具体执行如下操作的指令：

可选的，所述处理器还可以执行如下操作的指令：

可选的，为了从所述原始医案文本中提取用于描述第一特征项的目标特征词，所述处理器可以具体执行如下操作的指令：

对所述原始医案文本进行分析，得到用于所述描述第一特征项的初始特征词；

可选的，为了对所述原始医案文本进行分析而得到用于描述所述第一特征项的初始特征词，所述处理器可以具体执行如下操作的指令：

可选的，所述处理器还可以执行如下操作的指令：

可选的，为了确定所述原始医案文本在第二特征项下对应的推断特征词，所述处理器可以具体执行如下操作的指令：

可选的，所述处理器还可以执行如下操作的指令：

在生成目标医案文本之后，查找与所述目标医案文本相匹配的预置医案文本，其中，所述预置医案文本在所述目标类别下的文本信息与所述目标文本单元相同或相似，所述目标类别包括用于描述患者个人信息的类别和/或用于描述患者症状的类别；

可选的，为了获取原始医案文本，所述处理器可以具体执行如下操作的指令：

获取语音形式的医案信息；

对所述医案信息进行语音识别，得到所述原始医案文本。

获取图像形式的医案信息；

对所述医案信息进行图像识别，得到所述原始医案文本。

可选的，所述处理器还可以执行如下操作的指令：

呈现所述目标医案文本。

本发明实施例还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1804，上述指令可由装置1800的处理器1820执行以完成上述方法，又如包括指令的存储介质1930，上述指令可由服务器1900的中央处理器1922执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种通方法，所述方法包括：

确定所述目标文本单元的文本特征对应的目标类别；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种医案信息的处理方法，其特征在于，包括：

确定所述目标文本单元的文本特征对应的目标类别；

生成目标医案文本，其中，在所述目标医案文本中所述目标文本单元体现为所属目标类别下的文本信息；在所述目标医案文本中所述目标特征词体现为属于所述第一特征项的文本信息。

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标文本单元的文本特征对应的目标类别，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标类别为用于描述患者信息的类别、用于描述疾病名称的类别、用于描述症状陈述信息的类别、用于描述症状辨别信息的类别、用于描述医嘱信息的类别、或用于描述处方信息的类别。

4.根据权利要求1所述的方法，其特征在于，所述从所述原始医案文本中提取用于描述第一特征项的目标特征词，包括：

5.根据权利要求1所述的方法，其特征在于，所述从所述原始医案文本中提取用于描述第一特征项的目标特征词，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述原始医案文本进行分析，得到用于描述所述第一特征项的初始特征词，包括：

7.根据权利要求5所述的方法，其特征在于，还包括：

8.根据权利要求1所述的方法，其特征在于，还包括：

9.根据权利要求8所述的方法，其特征在于，所述确定所述原始医案文本在第二特征项下对应的推断特征词，包括：

10.根据权利要求1所述的方法，其特征在于，所述生成目标医案文本之后，还包括：

11.根据权利要求1所述的方法，其特征在于，所述获取原始医案文本，包括：

或者，

12.一种医案信息的处理装置，其特征在于，包括：

获取单元，用于获取原始医案文本；

第一提取单元，用于从所述原始医案文本中提取用于描述第一特征项的目标特征词；

生成单元，用于生成目标医案文本，其中，在所述目标医案文本中所述目标文本单元体现为所属目标类别下的文本信息；在所述目标医案文本中所述目标特征词体现为属于所述第一特征项的文本信息。

13.根据权利要求12所述的装置，其特征在于，所述第一确定单元包括：

14.根据权利要求12所述的装置，其特征在于，所述目标类别为用于描述患者信息的类别、用于描述疾病名称的类别、用于描述症状陈述信息的类别、用于描述症状辨别信息的类别、用于描述医嘱信息的类别、或用于描述处方信息的类别。

15.根据权利要求12所述的装置，其特征在于，所述第一提取单元包括：

16.根据权利要求12所述的装置，其特征在于，所述第一提取单元包括：分析子单元和匹配子单元；

17.根据权利要求16所述的装置，其特征在于，所述匹配子单元包括：

18.根据权利要求16所述的装置，其特征在于，还包括：

19.根据权利要求12所述的装置，其特征在于，还包括：

20.根据权利要求19所述的装置，其特征在于，所述第二确定单元包括：

21.根据权利要求12所述的装置，其特征在于，还包括：查找单元和第二提取单元；

22.根据权利要求12所述的装置，其特征在于，所述获取单元包括：第一获取子单元和第一识别子单元；

所述第一获取子单元，用于获取语音形式的医案信息；

所述第一识别子单元，用于对所述医案信息进行语音识别，得到所述原始医案文本；

或者，

所述获取单元包括：第二获取子单元和第二识别子单元；

所述第二获取子单元，用于获取图像形式的医案信息；

23.一种设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定所述目标文本单元的文本特征对应的目标类别；