CN107578798A

CN107578798A - 电子病历的处理方法及系统

Info

Publication number: CN107578798A
Application number: CN201711014644.6A
Authority: CN
Inventors: 朱少杰
Original assignee: Beijing Kang Master Technology Co Ltd
Current assignee: Beijing Confucius Health Technology Co Ltd
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2018-01-12
Anticipated expiration: 2037-10-26
Also published as: CN107578798B

Abstract

本发明实施例提供一种电子病历的处理方法及系统，属于电子病历技术领域，解决了现有技术中对电子病历进行子主题划分的问题。所述方法包括：对电子病历文本进行预处理，获取所述电子病历文本中的病历编号、标题和句子集；根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型；矫正所述句子集中的句子的子主题类型，得到所述电子病历文本对应的结构化病历。本发明实施例适用于对电子病历的处理过程。

Description

电子病历的处理方法及系统

技术领域

本发明涉及电子病历技术领域，具体地涉及一种电子病历的处理方法及系统。

背景技术

病历是医生对于患者病情的发生发展做的最详细、最全面的纪录，也是科研人员对医学研究的重要依据和数据来源。然而，电子病历的存储格式多样，病情描述习惯更是因人而异，以致在病历检索时，往往不能获取准确的相关病历。

针对这些内容丰富、形式多样，噪声多的电子病历，现有的病历结构化的粒度都是在词语级别，直接提取症状、疾病等实体，这样带来的弊端是无法获取指定主题部分的信息，同时也会对某些疾病、症状的分析不够准确。

发明内容

本发明实施例的目的是提供一种电子病历的处理方法及系统，解决了现有技术中对电子病历进行子主题划分的问题，提高了细粒度的结构化信息抽取的准确性。

为了实现上述目的，本发明实施例提供一种电子病历的处理方法，包括：

对电子病历文本进行预处理，获取所述电子病历文本中的病历编号、标题和句子集；

根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型；

矫正所述句子集中的句子的子主题类型，得到所述电子病历文本对应的结构化病历，所述结构化病历包括病历编号、标题和子主题内容块，所述子主题内容块中的每个句子属于同一子主题类型。

进一步地，所述对电子病历文本进行预处理包括：

提取所述电子病历文本中的病历编号、标题和正文；

消除所述标题和正文中存在的噪声信息；

利用切分符将所述正文进行切分，得到所述正文对应的句子集。

进一步地，所述利用切分符将所述正文进行切分，得到所述正文对应的句子集包括：

利用一级切分符将所述正文进行切分，得到待切分句子集；

利用二级切分符对所述待切分句子集进行二次切分，得到所述正文对应的句子集，其中所述一级切分符的优先级高于所述二级切分符的优先级。

进一步地，所述根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型包括：

根据预设学习算法，将所述句子集中的每个句子的信息转换为特征向量；

根据预设分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

进一步地，所述方法还包括：

将所述标题和所述句子集中的首句分别与预设病历类型进行匹配，得到第一候选病历类型和第二候选病历类型；

当所述第一候选病历类型和第二候选病历类型相同时，选择其一为所述电子病历文本的所属病历类型；

当所述第一候选病历类型和第二候选病历类型不相同时，根据所述预设病历类型中的优先级排序，选择所述第一候选病历类型和第二候选病历类型中优先级高的病历类型为所述电子病历文本的所属病历类型。

进一步地，所述根据预设学习算法，将所述句子集中的每个句子的信息转换为特征向量包括：

根据特征提取算法，将所述句子集中的每个句子的信息转换为特征向量，其中，所述信息包括实体关键词、数量词、所属病历类型、子主题关键词和句子位置信息。

根据深度学习算法，将所述句子集中的每个句子的信息转换为特征向量。

进一步地，所述根据预设分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型包括：

根据朴素贝叶斯分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

根据svm分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

进一步地，所述矫正所述句子集中的句子的子主题类型包括：

对所述句子集中具有相同子主题类型的相邻句子进行平滑处理。

本发明实施例还提供一种电子病历的处理系统，包括：

预处理单元，用于对电子病历文本进行预处理，获取所述电子病历文本中的病历编号、标题和句子集；

子主题类型确定单元，用于根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型；

结构化病历确定单元，用于矫正所述句子集中的句子的子主题类型，得到所述电子病历文本对应的结构化病历，所述结构化病历包括病历编号、标题和子主题内容块，所述子主题内容块中的每个句子属于同一子主题类型。

进一步地，所述预处理单元包括：

提取模块，用于提取所述电子病历文本中的病历编号、标题和正文；

噪声处理模块，用于消除所述标题和正文中存在的噪声信息；

句子切分模块，用于利用切分符将所述正文进行切分，得到所述正文对应的句子集。

进一步地，所述句子切分模块，还用于利用一级切分符将所述正文进行切分，得到待切分句子集；利用二级切分符对所述待切分句子集进行二次切分，得到所述正文对应的句子集，其中所述一级切分符的优先级高于所述二级切分符的优先级。

进一步地，所述子主题类型确定单元包括：

特征向量转换模块，用于根据预设学习算法，将所述句子集中的每个句子的信息转换为特征向量；

分类模块，用于根据预设分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

进一步地，所述系统还包括：

病历类型确定单元，用于将所述标题和所述句子集中的首句分别与所述预设病历类型进行匹配，得到第一候选病历类型和第二候选病历类型；当所述第一候选病历类型和第二候选病历类型相同时，选择其一为所述电子病历文本的所属病历类型；当所述第一候选病历类型和第二候选病历类型不相同时，根据所述预设病历类型中的优先级排序，选择所述第一候选病历类型和第二候选病历类型中优先级高的病历类型为所述电子病历文本的所属病历类型。

进一步地，所述特征向量转换模块，还用于根据特征提取算法，将所述句子集中的每个句子的信息转换为特征向量，其中，所述信息包括实体关键词、数量词、所属病历类型、子主题关键词和句子位置信息。

进一步地，所述特征向量转换模块，还用于根据深度学习算法，将所述句子集中的每个句子的信息转换为特征向量。

进一步地，所述分类模块，还用于根据朴素贝叶斯分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

进一步地，所述分类模块，还用于根据svm分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

进一步地，所述结构化病历确定单元包括：

平滑处理模块，用于对所述句子集中具有相同子主题类型的相邻句子进行平滑处理。

通过上述技术方案，对电子病历文本进行预处理，获取所述电子病历文本中的病历编号、标题和句子集，然后根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型，矫正所述句子集中的句子的子主题类型，得到所述电子病历文本对应的结构化病历，所述结构化病历包括病历编号、标题和子主题内容块，所述子主题内容块中的每个句子属于同一子主题类型。本发明实施例解决了现有技术中对电子病历进行子主题划分的问题，提高了细粒度的结构化信息抽取的准确性。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例提供的一种电子病历的处理方法的流程示意图；

图2是本发明实施例提供的电子病历文本进行预处理的流程示意图；

图3是本发明实施例提供的确定所述电子病历文本的所属病历类型的流程示意图；

图4是本发明实施例提供的子主题类型平滑示例；

图5是本发明实施例提供的一种电子病历的处理系统的结构示意图；

图6是本发明实施例提供的另一种电子病历的处理系统的结构示意图；

图7是本发明实施例提供的又一种电子病历的处理系统的结构示意图；

图8是本发明实施例提供的再一种电子病历的处理系统的结构示意图；

图9是本发明实施例提供的再又一种电子病历的处理系统的结构示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

针对内容丰富、形式多样、噪声多的电子病历，更好的学习应用电子病历中的信息的方法是通过对病历内容和结构的分析，抽取出其中的疾病、症状、属性等结构化信息，以统一、清晰的结构化方式存储，方便科研人员及医疗人员能够高效、便捷的获取相关病历或相关疾病的信息等。现有的病历结构化的粒度都是在词语级别，并未对病历进行子主题划分，这样带来的弊端则是无法获取指定主题部分的信息，同时也会对某些疾病、症状的分析不够准确。因此，本发明实施例是提供一种可以对电子病历进行子主题划分的方法，通过对病历内容的合理分析和处理，准确的将病历按照不同的主题进行划分。

图1是本发明实施例提供的一种电子病历的处理方法的流程示意图。本发明实施例通过对json格式的电子病历进行处理，最后得到组织成json格式输出的结构化病历，如图1所示，所述方法包括如下步骤：

步骤101、对电子病历文本进行预处理，获取所述电子病历文本中的病历编号、标题和句子集。

对电子病历文本进行预处理包括病历编号、标题和正文的提取、噪声消除以及句子切分，最终得到所述电子病历文本中的病历编号、标题和句子集。

步骤102、根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型；

步骤103、矫正所述句子集中的句子的子主题类型，得到所述电子病历文本对应的结构化病历，所述结构化病历包括病历编号、标题和子主题内容块，所述子主题内容块中的每个句子属于同一子主题类型。

为了矫正某个子主题内的个别句子子主题分类错误的情况，矫正所述句子集中的句子的子主题类型，最终得到所述电子病历文本对应的结构化病历。

通过上述实施例，对电子病历文本进行预处理，获取所述电子病历文本中的病历编号、标题和句子集，然后根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型，矫正所述句子集中的句子的子主题类型，得到所述电子病历文本对应的结构化病历，所述结构化病历包括病历编号、标题和子主题内容块，所述子主题内容块中的每个句子属于同一子主题类型。本发明实施例解决了现有技术中对电子病历进行子主题划分的问题，提高了细粒度的结构化信息抽取的准确性。

在本发明的一种实施方式中，对于上述步骤101，如图2所示，对电子病历文本进行预处理包括如下步骤：

201、提取所述电子病历文本中的病历编号、标题和正文。

其中，从json格式的电子病历的字符串中解析获取病历编号、标题和正文，并将其保存在指定的数据结构中。其中，根据病历书写基本规范，病历编号和标题一般位于病历的开头，例如，所述标题一般表示该病历属于门诊病历还是入院记录等属性信息，或者是时间信息，一般为原文开头的一句话。当没有标题时，则将标题置空。

202、消除所述标题和正文中存在的噪声信息。

其中，所述噪声信息包括但不限于转义字符、多余的标点以及格式信息。对于转义字符的处理是将转义字符转换为原来的格式，对于多余的标点在直接过滤掉，对于格式信息，例如对于json格式的电子病历，原有的表格信息可能变为空白，则直接将空白处转换为切分符。对于其它噪声信息的处理可以参照例如预先设置的规则表进行处理。

203、利用切分符将所述正文进行切分，得到所述正文对应的句子集。

其中，在句子切分过程中，除了采用通用的句子切分所需的句号、叹号和问号等一级切分符外，为了解决整篇病历中无这类切分符而导致无法做句子切分的问题，本实施例还增加了二级切分符，如：分号，并遵循一级切分符的优先级大于二级切分符的优先级的原则，根据文本的组织形式自适应的选择句子切分粒度，获得最终的句子集。

首先利用一级切分符将所述正文进行切分，得到待切分句子集，然后利用二级切分符对所述待切分句子集进行二次切分，得到所述正文对应的句子集，其中所述一级切分符的优先级高于所述二级切分符的优先级。

另外，利用两个等级的切分符，可以尽量保证切分后的句子单元的细化度，而又不会损害语义的完整性，如果以逗号或顿号切分，可能会损害句子的语义。

在本发明的另一种实施方式中，对于步骤102根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型主要包括两部分，一是根据预设学习算法，将所述句子集中的每个句子的信息转换为特征向量，二是根据预设分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

其中，在步骤102的第一部分中根据预设学习算法，将所述句子集中的每个句子的信息转换为特征向量，可以采用两种实施方式，一种是利用特征提取算法，另一种是利用深度学习算法。

其中，如图3所示，在利用特征提取算法将所述句子集中的每个句子的信息转换为特征向量之前，本发明实施例还包括获取所述电子病历文本的所属病历类型，具体包括如下步骤：

301、将所述标题和所述句子集中的首句分别与所述预设病历类型进行匹配，得到第一候选病历类型和第二候选病历类型。

其中，通过整理分析门诊及住院病历的类型，以及各类病历主要记录的要素信息，将病历分为11大类，如表1给出的具体病历类型以及对应的json格式中的病历类型标签。

表1

病历类型标签	类型说明
		[D:SPECIAL_INFORMATION]	特殊检查知情同意书
[D:BLOOD_TREATMENT_AGREEMENTATION]	输血治疗知情同意书
		[D:OPERATION_AGREEMENTATION]	手术知情同意书
[D:SERIOUS_INFORMATION]	病危(重)通知书
		[D:OPERATION_AF_WARD_RECORD]	术后首次病程记录
[D:FIRST_WARD_RECORD]	首次病程记录
		[D:ADMISSION_RECORD]	入院记录
[D:OPERATION_IN_RECORD]	手术记录
		[D:DIScharGE_RECORD]	出院记录
[D:CONSULTATION_RECORD]	会诊记录
		[D:OTHER_RECORD]	其他记录

根据所述预设病历类型，分别将所述标题和所述句子集中的首句与之进行匹配，得到第一候选病历类型和第二候选病历类型。

302、判断所述第一候选病历类型和第二候选病历类型是否相同；

303、当所述第一候选病历类型和第二候选病历类型相同时，选择其一为所述电子病历文本的所属病历类型。

判断根据标题和首句得到的候选病历类型是否相同，当二者相同时，则选择其一为所述电子病历文本的所属病历类型。

304、当所述第一候选病历类型和第二候选病历类型不相同时，根据所述预设病历类型中的优先级排序，选择所述第一候选病历类型和第二候选病历类型中优先级高的病历类型为所述电子病历文本的所属病历类型。

当所述第一候选病历类型和第二候选病历类型不相同时，根据所述预设病历类型中的优先级排序，在所述第一候选病历类型和第二候选病历类型中选择优先级别高的一个为所述电子病历文本的所属病历类型，例如，当第一候选病历类型为术后首次病程记录，第二候选病历类型为首次病程记录时，由于术后首次病程记录的优先级高于首次病程记录的优先级，则选择第一候选病历类型，即术后首次病程记录为所属病历类型。

在本发明的一种实施方式中，对于步骤102中，在利用特征提取算法将所述句子集中的每个句子的信息转换为特征向量，具体是根据特征提取算法，将所述句子集中的每个句子的信息转换为特征向量，其中，所述信息包括实体关键词、数量词、所属病历类型、子主题关键词和句子位置信息。

本发明实施例并没有采用自然语言处理中常用的词频、词性和命名实体等特征，而是针对病历数据特点，提出实体关键词、数量词、病历类型、子主题关键词、句子位置信息等特征表示句子的信息。下面将逐一对上述五类特征进行描述：

(1)实体关键词

通过观察大量电子病历，以及学习病历的书写规则，发现不同的子主题下实体关键词的分布是有一定规律的，比如：主诉中经常提到某些症状的信息，而既往史中则频繁提及疾病关键词。通过这些关键词可以有效的区分不同的子主题类型，这里称这样的关键词为实体关键词。以下面两个例子进行说明：

例1，主诉：发热7天，咳嗽4天。

例2，既往史：“系统性红斑狼疮”病史3+年，长期口服强的松片、纷乐片及钙片治疗。否认肝炎、结核、疟疾病史，否认高血压、心脏病史，否认糖尿病、脑血管疾病、精神疾病史，否认手术、外伤、输血史，否认食物、药物过敏史，预防接种史不详。

如上面例1中的“发热”和“咳嗽”，例2中的“系统性红斑狼疮”、“肝炎”和“结核”等都为实体关键词。

预先通过对大量电子病历分析、挖掘，提取出包括症状、疾病、部位、药物等179类实体关键词。如表2给出了部分实体关键词。

表2

关键词	类型
		解泰	药物
安置精华散胶囊	药物
		黑变病	疾病
肾结石	疾病
		胃部出血	症状
排尿分叉	症状
		上颌窦部粘膜	部位
脊柱骨	部位
		食道部黏膜	部位

根据上述179类实体关键词，查找每个句子中是否存在上述关键词，若存在，则对应的特征值置1，不存在则为0，则得到了每个句子对应于实体关键词的179维的特征向量，当然也可以抽取部分实体关键词作为特征进行差值，这里并不限定实体关键词的具体个数。

(2)数量词

对大量电子病历的分析发现，通常在一般检查以及辅助检查中会出现大量的数词和量词，可见，数词和量词的识别对于子主题的分类也是至关重要的。如下面的例子中描述：

体格检查：T:36.8℃，P:80次/分，R:20次/分，BP:120/70mmHg，Ht:155cm，Wt:60kg，BSA:1.56m2，KPS:90神智清楚，表情自然，发育正常，营养中等。

从上面的例子中，可以通过大量的数量词特征，很容易区分出是检查相关的子主题内容。

对于数量词，若存在数量词，则将对应的特征值置1，不存在置0。当然也可以将数量词的特征分为两位表示，一位表示数词，一位表示量词，并将对应的特征值根据具体句子的信息置为1或0。

数量词结合179类的实体关键词，则得到了180维或181维的特征向量。

(3)所属病历类型

不同类型的病历，记录的要求和包含的子主题内容不同，比如：手术记录主要记录术前、术中和术后等子主题内容，而入院记录会重点记录主诉、现病史、既往史、查体等子主题内容。根据不同类型病历，子主题分布不同的特点，病历类型的学习可以更好的对病历子主题分类。由于病历类型为11类，根据图3得到的所属病历类型，将对应位置上的特征值置为1，其余位为0，例如，若所属病历类型为手术记录，则将与手术记录对应的特征值置为1，其余10类对应的特征值置为0。

所属病历类型结合上面179类实体关键词和数量词特征，得到191维或192维的特征向量。

(4)子主题关键词

依据各类型病历所记录的重要主题信息，整理划分共48类子主题，如表3给出的部分子主题以及对应的json格式中的子主题类型标签。同时挖掘学习，人工校验筛选出不同子主题的关键词词表，部分子主题对应的子主题关键词参见表4所示。

表3

子主题类型标签	类型说明
		[D:INFO_PATIENT]	患者信息
[D:CHIEF_COMPLAINT]	主诉
		[D:PRESENT_HISTORY]	现病史
[D:P&O&M&F_HISTORY]	个人&家族&月经&婚育史
		[D:PAST_HISTORY]	既往史
[D:EXAM_GENERAL]	一般检查
		[D:EXAM_ADDITION]	辅助检查
[D:DIAGNOSE_ADMISSION]	入院诊断
		[D:D&T_ADVICE]	诊疗建议
[D:DIAGNOSE_PROOF]	诊断依据

表4

子主题类型标签	类型关键词
		[D:INFO_PATIENT]	姓名、性别、年龄等
[D:CHIEF_COMPLAINT]	主诉、患者诉等
		[D:PRESENT_HISTORY]	现病史
[D:P&O&M&F_HISTORY]	个人史、家族史、月经史等
		[D:PAST_HISTORY]	既往史、既往病史等
[D:EXAM_GENERAL]	一般检查、体格检查、查体等
		[D:EXAM_ADDITION]	辅助检查
[D:DIAGNOSE_ADMISSION]	入院诊断、目前诊断等
		[D:D&T_ADVICE]	诊疗建议、处理意见等
[D:DIAGNOSE_PROOF]	诊断依据、诊断和依据等

根据人工分析归纳的子主题关键词词表，判断每个句子是否含有各子主题关键词，若句子中含有某个子主题关键词，则将对应的特征值置1，没有的子主题关键词置0，对于子主题关键词的维数与设置的子主题关键词的个数有关，不同的设置得到的特征向量的维数则不同。

另外，连续的上下文的句子间是存在同子主题的关联的，即后一个句子可以继承前一个句子的子主题信息，若当前句子查找不到任何子主题关键词，则继承上一句的子主题关键词，即复制上一句对应子主题关键词的特征值。

(5)句子位置信息

大量的病历记录显示，同一份病历中，不同子主题的分布与病历内的相对位置是有一定关系的，比如：主诉、患者信息等常位于病历开头，而患者签名、时间等信息则常出现在病历尾部。因此，句子在病历中的相对位置信息在分类学习中也是重要的特征之一。

例如，若句子集中的总句子数目大于5，前两句和最后两句的句子位置信息的特征值为1，其余句子的句子位置信息的特征值则为0；若句子集中的总句子数目不大于5，则首尾句的句子位置信息的特征值为1，其余句子的句子位置信息的特征值则为0。

通过上述五个特征，根据特征提取算法，将所述句子集中的每个句子的信息转换为特征向量。

上述特征值的表示，也可以替换为概率值，例如当选取10种实体关键词进行特征提取时，查找到了其中的两种，则直接得到特征值为0.2。

另外，在本发明的另一个实施方式中，对于步骤102的第一部分中根据预设学习算法，将所述句子集中的每个句子的信息转换为特征向量的另一种实施方式是根据深度学习算法，将所述句子集中的每个句子的信息转换为特征向量。

在本发明的另一种实施方式中，对于步骤102中的第二部分根据预设分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型时，使用的特征向量可以是通过特征提取算法得到的，也可以是通过深度学习算法得到的，这里不做限定。

其中，所述预设分类器应用到两种分类器，一种是朴素贝叶斯分类器，另一种是svm分类器。当使用朴素贝叶斯分类器时，根据朴素贝叶斯分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

其中，参考现有技术中的朴素贝叶斯分类器的计算公式，将每个句子对应的特征向量代入公式中，48类的预设子主题类型为给定的类别体系，也就是求解每个句子对应的特征向量属于48类的预设子主题类型的概率值，其中概率值最大的子主题类型即为句子对应的子主题类型。

其中，在朴素贝叶斯分类器的计算公式中，存在连乘中某因子为0的情况，对于该情况，本发明实施例采用将平滑参数值设置为1/N，其中N为训练集容量的大小，当某个因子的数值小于1/N时，则将该因子数值直接设置为1/N。利用1/N进行平滑处理，与现有技术拉普拉斯平滑策略相比，在保证各因子不为0的前提下，还可以降低调整零因子数值对最终结果的影响，结果的误差更小。

在本发明的另一种实施方式中，当使用svm分类器时，根据svm分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

采用参考现有技术中的svm分类器，当预设子主题类型为48类时，进行47轮分类得到最终的每个句子的子主题类型。

在本发明的另一种实施方式中，对于步骤103中，所述矫正所述句子集中的句子的子主题类型包括：对所述句子集中具有相同子主题类型的相邻句子进行平滑处理。

本发明实施例可以采用基于平滑规则的连续子主题类型的平滑，对于平滑规则的设置并不做限定，由用户自行设置，从而决定最终平滑处理后得到的子主题内容块的大小。例如平滑规则可以如下设置：

1)句子集中的首句和尾句不做平滑处理。

2)在步骤102中利用朴素贝叶斯分类器，计算句子的子主题类型时得到的概率值高于设置阈值，且子主题类型不是类型不确定时，则不做平滑处理。

其中，当利用朴素贝叶斯分类器对当前句子进行分类时，得到的对应于48类子主题类型的48个概率值，虽然每个概率值都很小，但是也能存在一个最大值，如果该最大值小于设置阈值时，和/或子主题类型是类型不确定时，则做平滑处理，其中类型不确定是例如句子属于注意事项等信息。

3)子主题类型为时间或签名类型则不做平滑处理。

当句子属于时间或者签名时，没有必要对句子的子主题类型进行平滑处理。

4)当前句子前一句或者后一句为类型不确定子主题类型时，则不做平滑处理。

5)当前句子的前一句与后一句的子主题类型相同时，则：

a、若当前句子不是句子集中的前两句，且其前两句主题相同，则平滑处理；

b、若当前句子不是句子集中的最后两句，且其后两句主题相同，则平滑处理；

c、否则，不做平滑处理。

经过连续子主题平滑处理后，将连续相同子主题类型的句子合并。

例如，如图4所示的子主题类型平滑示例，根据上下文句子的子主题类型，将子主题类型为既往史的句子的子主题类型平滑至子主题类型为现病史。

通过上述实施例，对病历进行子主题划分，帮助医学工作者能够更快速的阅读和理解无结构的病历，同时可以提高细粒度的结构化信息抽取的准确性，此外，病历子主题分类也有助于病历关键词抽取以及相关病历检索。比如：在相关病历检索时常召回一些某疾病的病历，但该疾病并不是病历的核心，仅因为多次出现在既往史或家族史中，导致该病历被召回，而若对无结构病历进行子主题分类，就可以对不同子主题下的子主题关键词赋予不同的重要性权值，可以更好的计算病历的子主题，优化检索中不相关病历误召回的问题。

相应的，图5是本发明实施例提供的一种电子病历的处理系统的结构示意图。如图5所示，所述系统包括：

预处理单元51，用于对电子病历文本进行预处理，获取所述电子病历文本中的病历编号、标题和句子集；

子主题类型确定单元52，用于根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型；

结构化病历确定单元53，用于矫正所述句子集中的句子的子主题类型，得到所述电子病历文本对应的结构化病历，所述结构化病历包括病历编号、标题和子主题内容块，所述子主题内容块中的每个句子属于同一子主题类型。

通过上述实施例中的系统，对电子病历文本进行预处理，获取所述电子病历文本中的病历编号、标题和句子集，然后根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型，矫正所述句子集中的句子的子主题类型，得到所述电子病历文本对应的结构化病历，所述结构化病历包括病历编号、标题和子主题内容块，所述子主题内容块中的每个句子属于同一子主题类型。本发明实施例解决了现有技术中对电子病历进行子主题划分的问题，提高了细粒度的结构化信息抽取的准确性。

进一步地，如图6所示，所述预处理单元51包括：

提取模块61，用于提取所述电子病历文本中的病历编号、标题和正文；

噪声处理模块62，用于消除所述标题和正文中存在的噪声信息；

句子切分模块63，用于利用切分符将所述正文进行切分，得到所述正文对应的句子集。

进一步地，所述句子切分模块63，还用于利用一级切分符将所述正文进行切分，得到待切分句子集；利用二级切分符对所述待切分句子集进行二次切分，得到所述正文对应的句子集，其中所述一级切分符的优先级高于所述二级切分符的优先级。

进一步地，如图7所示，所述子主题类型确定单元52包括：

特征向量转换模块71，用于根据预设学习算法，将所述句子集中的每个句子的信息转换为特征向量；

分类模块72，用于根据预设分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

进一步地，如图8所示，所述系统还包括：病历类型确定单元81，用于将所述标题和所述句子集中的首句分别与所述预设病历类型进行匹配，得到第一候选病历类型和第二候选病历类型；当所述第一候选病历类型和第二候选病历类型相同时，选择其一为所述电子病历文本的所属病历类型；当所述第一候选病历类型和第二候选病历类型不相同时，根据所述预设病历类型中的优先级排序，选择所述第一候选病历类型和第二候选病历类型中优先级高的病历类型为所述电子病历文本的所属病历类型。

进一步地，所述特征向量转换模块71，还用于根据特征提取算法，将所述句子集中的每个句子的信息转换为特征向量，其中，所述信息包括实体关键词、数量词、所属病历类型、子主题关键词和句子位置信息。

进一步地，所述特征向量转换模块71，还用于根据深度学习算法，将所述句子集中的每个句子的信息转换为特征向量。

进一步地，所述分类模块72，还用于根据朴素贝叶斯分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

进一步地，所述分类模块72，还用于根据svm分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

进一步地，如图9所示，所述结构化病历确定单元53包括：

平滑处理模块91，用于对所述句子集中具有相同子主题类型的相邻句子进行平滑处理。

本发明实施例中的电子病历的处理系统中的各个单元，用以执行与上文实施例所描述的电子病历的处理方法相应的步骤，以获得与上述电子病历的处理方法相同或相似的技术效果，故关于本实施例中的电子病历的处理系统更多的细节可以参照上文实施例的电子病历的处理方法的描述，相同内容在此不加以赘述。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种电子病历的处理方法，其特征在于，包括：

2.根据权利要求1所述的电子病历的处理方法，其特征在于，所述对电子病历文本进行预处理包括：

提取所述电子病历文本中的病历编号、标题和正文；

消除所述标题和正文中存在的噪声信息；

3.根据权利要求2所述的电子病历的处理方法，其特征在于，所述利用切分符将所述正文进行切分，得到所述正文对应的句子集包括：

利用一级切分符将所述正文进行切分，得到待切分句子集；

4.根据权利要求1所述的电子病历的处理方法，其特征在于，所述根据所述句子集中的内容和预设子主题类型，确定所述句子集中的每个句子的子主题类型包括：

5.根据权利要求4所述的电子病历的处理方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的电子病历的处理方法，其特征在于，所述根据预设学习算法，将所述句子集中的每个句子的信息转换为特征向量包括：

7.根据权利要求4所述的电子病历的处理方法，其特征在于，所述根据预设学习算法，将所述句子集中的每个句子的信息转换为特征向量包括：

8.根据权利要求6或7所述的电子病历的处理方法，其特征在于，所述根据预设分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型包括：

9.根据权利要求6或7所述的电子病历的处理方法，其特征在于，所述根据预设分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型包括：

10.根据权利要求1所述的电子病历的处理方法，其特征在于，所述矫正所述句子集中的句子的子主题类型包括：

11.一种电子病历的处理系统，其特征在于，包括：

12.根据权利要求11所述的电子病历的处理系统，其特征在于，所述预处理单元包括：

13.根据权利要求12所述的电子病历的处理系统，其特征在于，所述句子切分模块，还用于利用一级切分符将所述正文进行切分，得到待切分句子集；利用二级切分符对所述待切分句子集进行二次切分，得到所述正文对应的句子集，其中所述一级切分符的优先级高于所述二级切分符的优先级。

14.根据权利要求11所述的电子病历的处理系统，其特征在于，所述子主题类型确定单元包括：

15.根据权利要求14所述的电子病历的处理系统，其特征在于，所述系统还包括：

16.根据权利要求15所述的电子病历的处理系统，其特征在于，所述特征向量转换模块，还用于根据特征提取算法，将所述句子集中的每个句子的信息转换为特征向量，其中，所述信息包括实体关键词、数量词、所属病历类型、子主题关键词和句子位置信息。

17.根据权利要求14所述的电子病历的处理系统，其特征在于，所述特征向量转换模块，还用于根据深度学习算法，将所述句子集中的每个句子的信息转换为特征向量。

18.根据权利要求16或17所述的电子病历的处理系统，其特征在于，所述分类模块，还用于根据朴素贝叶斯分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

19.根据权利要求16或17所述的电子病历的处理方法，其特征在于，所述分类模块，还用于根据svm分类器、所述预设子主题类型和每个句子对应的特征向量，确定所述句子集中的每个句子的子主题类型。

20.根据权利要求11所述的电子病历的处理系统，其特征在于，所述结构化病历确定单元包括：