CN111415751A

CN111415751A - 电子病历数据的主题切分方法、装置及系统

Info

Publication number: CN111415751A
Application number: CN202010196507.4A
Authority: CN
Inventors: 王利叶; 胡文; 胡可云; 陈联忠
Original assignee: Beijing Jiahesen Health Technology Co ltd
Current assignee: Beijing Jiahesen Health Technology Co ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-14
Anticipated expiration: 2040-03-19
Also published as: CN111415751B

Abstract

本发明提供了一种电子病历数据的主题切分方法、装置及系统，其中方法包括：获取电子病历数据的文本数据；输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签；遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。本发明可以对电子病历数据中文本数据进行精确的主题区分，以便方便针对不同主题文本数据进行实体关系抽取。

Description

电子病历数据的主题切分方法、装置及系统

技术领域

本申请涉及医学技术领域，尤其涉及电子病历数据的主题切分方法、装置及系统。

背景技术

随着电子技术的快速发展，大数据、电子病历在医院逐渐普及的情况下，医疗行业也产生海量的临床大数据，如何对临床大数据进行分析和挖掘也成为医疗信息化发展所面临的挑战。

在结构化病历应用之前，医院保存大量非结构化的电子病历数据(非结构化的电子病历数据是指数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、XML、HTML、图像和音频/视频信息等)。

这些非结构化的电子病历数据对于科研和临床都有着重要的意义，所以从非结构化的电子病历数据中筛选、抽取和分析出有价值内容成为一项非常重要的工作。

发明内容

申请人在研究过程中发现：

由于电子病历数据的成段文本中有很多不同主题的文本数据，例如关于疾病的文本数据，关于检查的文本数据，关于症状的文本数据等，若直接对电子病历数据抽取实体关系则会出现许多问题，因此在对电子病历数据进行抽取实体关系之前，需要对电子病历数据进行主题切分。

目前主要有三种对电子病历数据进行主题切分的方案：

第一种：标点符号切分法。

对于一段描述通常会很自然认为在一个句号或分号内一段话所要表达的意思应该是相关的。比如一段话：“高血压病史50余年，血压最高200/100mmHg，目前口服安博诺150mg、压氏达2.5mg qd控制血压。高脂血症病史10余年，一直服用他汀类药物，目前口服立普妥20mg qn。”

第一个句号之前为有关高血压的文本数据，安博诺为治疗高血压的药物。第一句号后面有关高脂血症的文本数据，立普妥为用来治疗高脂血症的药物。

因此第一种解决方案是单纯利用文本中的标点符号进行处理，也即按照句号和分号对电子病历数据进行拆分。对于上一段描述：在采用标点符号切分法后切分成两个主题文本数据，一个主题文本数据为“高血压病史50余年，血压最高200/100mmHg，目前口服安博诺150mg、压氏达2.5mg qd控制血压。”；另一主题文本数据为“高脂血症病史10余年，一直服用他汀类药物，目前口服立普妥20mg qn。”

但是，标点符号切分法对段落标点符号的规范性要求非常高。但是在现实中并不是每一个医生在写电子病历时都能使得标点符号规范化。因此，本方案在使用在电子病历本身的标点符号出现问题时，错误率较高。

例如，电子病历为“1天前炒菜时出现头晕，伴恶心、呕吐、大汗。无胸痛、胸闷、心悸”的情况下，那么按照标点符号切分法切分段落后，会将其切分成两个主题文本数据。但是，从字面理解中我们知道这两句话都是对症状的相关性描述，需要切分为一个主题文本数据。此时，标点符号切分法便出现问题。

第二种：标志切分法。

由于可以利用分词工具对文本进行分词标注，所以对于电子病历中一段文本可以确定哪些词语为疾病实体，哪些词语为手术实体。因此可以按照疾病为标志，对段落进行划分。即，一段文本遇到疾病实体便将一个疾病实体和另一个疾病实体之间的语句归于第一个疾病中。

比如：“30年前患有白内障。15年前行白内障手术。肠易激综合征7年，胃溃疡病史10余年。”如果按照标志切分法进行划分则会划分成为三个主题文本数据：“30年前患有白内障。15年前行白内障手术。”、“肠易激综合征7年”和“胃溃疡病史10余年。”

但是，标志切分法的问题为症状和疾病有时候会出现混淆，如“患者患有高血压10年，不伴胸闷。”，那么标志切分法会把它分成两个主题文本数据：疾病和症状，可事实上并不是这样：因为胸闷也是对高血压的描述。

第三种：标点符号切分法和标志切分法的结合方法。

结合标点符号切分法和标志切分法，先对一段文本按照标点符号进行划分。以“颅脑CT示多发腔梗？血管间隙、脑干梗塞？”为例，则划分为“颅脑CT示多发腔梗？”，“血管间隙、脑干梗塞？”。然后，按照标志切分法进行第二次切分，得到“颅脑CT示多发腔梗？”，“血管间隙、脑干梗塞？”。

但是，对“血管间隙、脑干梗塞？”而言，其也是对“颅脑CT示多发腔梗？”的相关内容，却被拆分为两个主题文本数据。

因此，现有三种切分方法并不能准确的解决精准进行主题切分的需求。在电子病历数据中不可避免的会出现一段多主题共存的文本数据，当主题文本数据切分错误的时候，后面再针对不同主题文本数据进行信息抽取也会受到很大影响，因此对文本数据进行精准切分是后续进行实体关系抽取的关键。

鉴于此，本申请提供一种电子病历数据的主题切分方法、装置及系统，可以对电子病历数据中文本数据进行精确的主题区分，以便方便针对不同主题文本数据进行实体关系抽取。

为了实现上述目的，本发明提供了下述技术特征：

一种电子病历数据的主题切分方法，包括：

获取电子病历数据的文本数据；

输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签；

遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。

可选的，在获取电子病历数据的文本数据之后，还包括：

对所述电子病历数据的文本数据进行预处理操作。

可选的，还包括：

获取多个已为各个字符添加标注标签的文本数据样本；

利用多个文本数据样本通过CRF++开源工具训练；

在达到训练结束条件后，获得训练好的标注模型。

可选的，还包括：

分别输入主题文本数据至预先训练好的主题分类模型，获得所述主题分类模型输出的主题类别；

其中，主题类别包括：症状、疾病、检查、检验和手术。

一种电子病历数据的主题切分装置，包括：

获取单元，用于获取电子病历数据的文本数据；

输入单元，用于输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签；

切分单元，用于遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。

可选的，在获取单元之后，还包括：

预处理单元，用于对所述电子病历数据的文本数据进行预处理操作。

可选的，还包括：

训练单元，用于获取多个已为各个字符添加标注标签的文本数据样本；利用多个文本数据样本通过CRF++开源工具训练；在达到训练结束条件后，获得训练好的标注模型。

可选的，还包括：

分类单元，用于分别输入主题文本数据至预先训练好的主题分类模型，获得所述主题分类模型输出的主题类别；

其中，主题类别包括：症状、疾病、检查、检验和手术。

一种电子病历数据的主题切分系统，包括：

数据库服务器，用于存储电子病历数据；

服务器，用于从数据库服务器获取电子病历数据的文本数据；输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签；遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。

可选的，所述服务器，还用于分别输入主题文本数据至预先训练好的主题分类模型，获得所述主题分类模型输出的主题类别；

其中，主题类别包括：症状、疾病、检查、检验和手术。

通过以上技术手段，可以实现以下有益效果：

本发明提供了一种电子病历数据的主题切分方法，可以利用预先训练好的标注模型对文本数据中每个字符进行标注，获得各个字符的标注标签，其中标注标签包括切分标注标签和非切分标注标签。然后，遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。

本发明中标注模型为预先训练好的，标注模型可以准确输出各个字符的标注标签，标注标签中的切分标注标签即为切分依据，通过切分标注标签可以实现文本数据的精确切分为不同主题文本数据。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种电子病历数据中实体关系抽取系统的结构示意图；

图2为本申请实施例公开的一种标注模型的训练过程的流程图；

图3为本申请实施例公开的一种主题分类模型的训练的流程图；

图4为本申请实施例公开的一种电子病历数据的主题切分方法的流程图；

图5为本申请实施例公开的一种电子病历数据的主题切分装置的结构示意图；

图6为本申请实施例公开的又一种电子病历数据的主题切分装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，本发明提供了一种电子病历数据中实体关系抽取系统，包括：

服务器100和数据库服务器200。

数据库服务器200，用于存储电子病历数据。

服务器100，用于从数据库服务器获取电子病历数据的文本数据，并对电子病历数据进行主题切分操作。

参见图2，本发明提供一种标注模型的训练过程，包括以下步骤：

步骤S201：数据输入。

获取多个数据，例如一个数据为“8年前患者无明显诱因出现胸前区疼痛，伴背部及左肩放射，伴呼吸困难，无头晕、黑朦、晕厥，就诊于外院行PCI术植入支架1枚，术后规律服用阿司匹林100mg 1次/日。仍自觉胸前区压迫感，与劳累、情绪、受凉无关，约4次/月。未予诊治。”，则输入该数据。

步骤S202：数据预处理。

对S201中的数据进行预处理，规划范化格式。

本举例中输入的数据存在异常空格，则在本步骤进行预处理时删除空格，得到“8年前患者无明显诱因出现胸前区疼痛，伴背部及左肩放射，伴呼吸困难，无头晕、黑朦、晕厥，就诊于外院行PCI术植入支架1枚，术后规律服用阿司匹林100mg 1次/日。仍自觉胸前区压迫感，与劳累、情绪、受凉无关，约4次/月。未予诊治。”

步骤S203：字符切分标签标注。

延续步骤S202中的举例，按单字符来拆分数据，获得单个字符，分别为每个单字符设定标签，其中，0表示不分段，1表示需要分段。

步骤S204：利用训练样本通过CRF++开源工具训练。

在对多个数据按照步骤S201～S203的方式执行后，将多个数据以8：2的比例随机分开，其中80％的数据用来作为训练样本，20％的数据用来测试样本，分别保存到文件train.data和test.data中。

利用train.data文件来通过CRF++开源工具训练，在训练结束后得到一个模型。该模型在测试集上的正确率为90％以上，若正确率不到90％则经过优化重新训练模型。

步骤S205：在达到训练结束条件后，获得训练好的标注模型。

参见图3，本发明提供了一种主题分类模型的训练过程，包括以下步骤：

步骤S301：数据输入。

延续上述举例，将上述切分后的5个分段作为5个样本数据输入：

步骤S302：数据预处理。

由于在训练模型过程中，每个样本中的标点符号(，；。？！：)等对语义的影响并不大，故在预处理过程中除了处理异常符号等内容，还需要将样本中的标点符号做归一化处理，本发明中将“，；。？！：”这些标点符号统一替换为“$”以提高模型的准确率。

步骤S303：数据分词、向量化、标注主题类别。

需要对每个分词进行向量化，本发明中用到的词向量是基于大量医疗数据训练得到的word2vec词向量，词向量大小为200维。对于不存在于训练的词的词向量如“$”则随机生成200维的数据作为其向量。

以“术后规律服用阿司匹林100mg 1次/日$”为例，进行向量化后的结果：

步骤S304：输入至神经网络模型进行训练

步骤S305：在达到训练结束条件后，获得训练好的主题分类模型。

参见图4，本发明提供了一种电子病历数据的主题切分方法，包括：

步骤S401：从数据库服务器获取电子病历数据的文本数据。

步骤S402：对所述电子病历数据的文本数据进行预处理操作。

对文本数据进行预处理操作，预处理操作包括去重，对异常符号和错别字进行删除、纠正或归一操作，当然还可以包括其它处理操作。例如，将文本数据中的异常符号“#￥”等删除，将常见错别字的“阿斯匹林”纠正为“阿司匹林”等。

步骤S403：输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签。

输入文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签。

以文本数据为“1天前胸闷、心悸再发，伴心悸、气短、出汗、头晕、恶心，未吐，持续10来分钟缓解，就诊于我院急诊，测血压161/69mmHg，颅脑CT示多发腔梗？血管间隙、脑干梗塞？”为例，标注模型输出结果详见表1，其中1代表切分标注标签，0代表非切分标注标签。

表1

步骤S404：遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。

遍历文本数据中的各个字符的标注标签，在每遇到切分标注标签时，便将切分标注标签之前文本作为一个主题文本数据。

延续上述举例，主题文本数据参见表2。

表2

步骤S405：分别输入主题文本数据至预先训练好的主题分类模型，获得所述主题分类模型输出的主题类别；其中，主题类别包括：症状、疾病、检查、检验和手术。

延续上述举例，主题分类模型输出的主题类别详见表3。

表3

通过以上技术手段，可以实现以下有益效果：

参见图5，本发明提供了一种电子病历数据的主题切分装置，包括：

获取单元51，用于获取电子病历数据的文本数据；

输入单元52，用于输入所述文本数据至预先训练好的标注模型，获得所述标注模型输出的、以字符为单位的标注标签；其中标注标签包括切分标注标签和非切分标注标签；

切分单元53，用于遍历所述文本数据中各个字符的标注标签，按照切分标注标签拆分所述文本数据为不同的主题文本数据。

参见图6，在图5基础上，还包括：

预处理单元54，用于对所述电子病历数据的文本数据进行预处理操作。

训练单元55，用于获取多个已为各个字符添加标注标签的文本数据样本；利用多个文本数据样本通过CRF++开源工具训练；在达到训练结束条件后，获得训练好的标注模型。

分类单元56，用于分别输入主题文本数据至预先训练好的主题分类模型，获得所述主题分类模型输出的主题类别；

其中，主题类别包括：症状、疾病、检查、检验和手术。

参见图1，本发明提供了一种电子病历数据的主题切分系统，包括：

数据库服务器，用于存储电子病历数据；

所述服务器，还用于分别输入主题文本数据至预先训练好的主题分类模型，获得所述主题分类模型输出的主题类别；

其中，主题类别包括：症状、疾病、检查、检验和手术。

关于服务器的具体实现详见图2-4所示的实施例，在此不再赘述。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种电子病历数据的主题切分方法，其特征在于，包括：

获取电子病历数据的文本数据；

2.如权利要求1所述的方法，其特征在于，在获取电子病历数据的文本数据之后，还包括：

对所述电子病历数据的文本数据进行预处理操作。

3.如权利要求1所述的方法，其特征在于，还包括：

获取多个已为各个字符添加标注标签的文本数据样本；

利用多个文本数据样本通过CRF++开源工具训练；

在达到训练结束条件后，获得训练好的标注模型。

4.如权利要求1所述的方法，其特征在于，还包括：

其中，主题类别包括：症状、疾病、检查、检验和手术。

5.一种电子病历数据的主题切分装置，其特征在于，包括：

获取单元，用于获取电子病历数据的文本数据；

6.如权利要求5所述的装置，其特征在于，在获取单元之后，还包括：

7.如权利要求5所述的装置，其特征在于，还包括：

8.如权利要求5所述的装置，其特征在于，还包括：

其中，主题类别包括：症状、疾病、检查、检验和手术。

9.一种电子病历数据的主题切分系统，其特征在于，包括：

数据库服务器，用于存储电子病历数据；

10.如权利要求9所述的系统，其特征在于，

其中，主题类别包括：症状、疾病、检查、检验和手术。