CN114613460A

CN114613460A - 一种中文电子病历识别中否定域判定方法

Info

Publication number: CN114613460A
Application number: CN202210102358.XA
Authority: CN
Inventors: 张少伟; 蒋艳凰; 余硕军; 万斌; 彭厘旻; 康佳琪; 雷鹏; 杨淼
Original assignee: Genetalks Bio Tech Changsha Co ltd
Current assignee: Genetalks Bio Tech Changsha Co ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-06-10

Abstract

本发明公开了一种中文电子病历识别中否定域判定方法,其包括：对中文病历进行分句处理；利用规则集合对病历分句结果进行处理，删除与症状无关的分句结果；利用深度神经网络识别规则集无法判定的否定域；剩下与疾病症状相关的异常症状描述的病历语句，用于后续疾病表型获取。本发明具有原理简单、智能化程度高、精确性好、实用性强等优点。

Description

一种中文电子病历识别中否定域判定方法

技术领域

本发明主要涉及到医疗信息化技术领域，特指一种中文电子病历识别中否定域判定方法。

背景技术

疾病辅助诊断软件利用计算机分析处理医学检测数据，能够提高医生诊断疾病的效率，在医疗领域发展迅速。疾病辅助诊断软件通常需要输入患者的症状，尤其是症状的标准化表型(HPO,Human Phenotype Ontology)，以方便计算机进行分析处理。然而，在实际应用中，用户常常只能提供患者的中文病历，如何从患者病历中自动化地提取症状的标准化表型，是提高疾病辅助诊断系统使用效率的一个关键环节。

一份详尽的临床病历通常包含病患病史特点、身体状况、检查结果、诊断结论、用药建议以及治疗方式等信息，其中患者当前的身体状态(症状)，是医生进行临床诊断的重要依据，也是疾病辅助诊断软件的重要输入，因此高效准确的从临床病历中提取出症状信息意义重大。中文临床病历的特点有：(1)篇幅较长；(2)不同地区、机构的病历组织结构各异，表达方式也不尽相同；(3)充斥着大量的否定用语；(4)症状表述各异。病历描述中患者的症状，是医生进行临床诊断的重要依据，也是计算机进行疾病辅助诊断的关键，通常为了提高辅助诊断的效率，软件的输入是标准化的疾病表型。中文病历的特点使得软件的使用者很难通过人工的方法从病历中获取准确的标准表型，导致表型的输入很不准确，这大大影响了疾病辅助诊断类软件的诊断效率。

中文病历的上述特点导致人工从病历中提取症状较为困难，特别的，由于临床病历中大量否定域的存在(例：无呕吐、头晕)，人工提取时需要对这些否定域进行剔除，费时费力。此外，如果要将提取结果(症状)用于疾病辅助诊断分析软件，则还需将提取结果转化为标准的表型术语(HPO)。软件的使用者很难通过人工的方法从病历中获取准确的标准表型，导致表型的输入很不准确，这大大影响了疾病辅助诊断软件的诊断效率。

从病历中自动化地提取标准表型拱用户选择，则能够大大方便用户输入患者标准表型，是提高疾病辅助诊断系统应用效率的关键一环。在自动化表型提取的过程中需要将病历中与疾病无关的正常症状剔除。为此，否定域剔除的准确性直接影响着最终标准化表型的结果。因此，如何判定否定域，成为自动化表型提取的关键环节。否定域是指临床病历中存在的与患者疾病症状无关的词语或语句，否定域在病历中大量存在，这些描述属于非疾病态的正常描述，如下所示。

病历1：

患者：男，缘于1天前进食后出现恶心、呕吐，呕吐物为胃内容物，伴腹胀，呕吐后腹胀缓解，无呕血、便血。无腹痛，无反酸、烧心，无发热。当时未行任何处理，今日来我院。急诊检查后以：消化道穿孔，肠梗阻，心律失常收入我科。

病历2：

患儿，男，6岁8月龄，因“2月内反复晕厥3次”就诊。每次晕厥发作于运动后出现，发作前无特殊不适，发作时伴有面色苍白、四肢发绀、小便失禁，持续1-2分钟自行好转，无高热、抽搐，无大汗、视物模糊，无步态不稳等，无特殊用药史，发病以来，精神、食纳、二便、体重无明显变化。出生史、个人史、既往史：无特殊。家族史：无晕厥、猝死、严重心脑血管疾病史。查体：一般情况可，神清，皮肤未见明显皮疹，全身淋巴结无肿大，咽充血，双侧扁桃体I度肿大，无脓性分泌物，双肺呼吸音清晰，未闻及干湿啰音，心率66次/分，律齐，未闻及杂音，腹部无明显异常，神经系统检查无明显异常。辅助检查：脑电图：未见异常；头颅MRI：未见明显异常；超声心动图：未见明显异常；心电图：窦性心律，心率72bpm，QT间期延长，QT/QTc 458/501ms；余电解质、血糖、心肌酶、肌钙蛋白、血常规等均未见明显异常。

否定域的存在使得直接使用临床病历进行计算机医学分析存在一定困难，否定域(非患者症状)可能会被计算机认为是患者的症状，从而影响到分析结果的正确性。无论是辅助诊断还是医学分析，关注的往往是患者表现出来的异常症状。因此自动、精准的识别电子病历中的否定域，是进行精准医疗分析的基础。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理简单、智能化程度高、精确性好、实用性强的中文电子病历识别中否定域判定方法。

为解决上述技术问题，本发明采用以下技术方案：

一种中文电子病历识别中否定域判定方法,其包括：

对中文病历进行分句处理；

利用规则集合对病历分句结果进行处理，删除与症状无关的分句结果；

利用深度神经网络识别规则集无法判定的否定域；

剩下与疾病症状相关的异常症状描述的病历语句，用于后续疾病表型获取。

作为本发明的进一步改进：在对中文病历进行分句处理时，以[，,！！？？；；.。]作为句子边界的标志，按照上述标点符号对段落进行分句。

作为本发明的进一步改进：对分句结果进行否定域判定，按照语句特点分为两类：

有明显的否定词，否定域结构固定，使用规则进行精准识别；

不包含否定词，采用深度神经网络模型结合语义进行识别。

作为本发明的进一步改进：采用深度神经网络模型结合语义进行识别包括基于规则的否定域识别：用于判定具有明显特征的否定域，依次使用两种规则集实现否定域的识别，一种是候选否定域规则集，一种异常规则集；候选否定域规则集，用于匹配有明确特征，病历分句如果被候选否定域规则集中某一规则匹配，则表明该病历分句明确符合否定域的组成特点，使用异常规则集判定该分句是否为真正的否定域；

作为本发明的进一步改进：采用深度神经网络模型结合语义进行识别包括异常规则集，用于识别字符在句法上符合否定域的组成特点，描述的是患者异常症状，要进行保留；异常规则集是对候选规则集的补充，用于识别包含否定词但实际是描述患者异常表型的语句。

作为本发明的进一步改进：采用深度神经网络模型结合语义进行识别包括基因深度学习的否定域识别：除了带有上述否定词的否定域，还有较多的否定域无法通过上述规则集判定，包括：(1)否定域是“无+症状”的模式；(2)不带否定词的否定域；(3)否定词不足以判断其是否为否定域。

作为本发明的进一步改进：采用BIO标注法作为语料的标注方法，其中B代表目标实体的起始字符；I代表目标实体词中的字符，包含实体词末尾位置；O代表不在目标实体中的字符。

与现有技术相比，本发明的优点就在于：

本发明的中文电子病历识别中否定域判定方法,原理简单、智能化程度高、精确性好、实用性强；使用规则集与深度神经网络模型相结合的方式，实现了临床病历中否定域的识别。临床病历中否定域的识别与剔除，一方面方便医生从临床病历获取异常表型；另一方面提升疾病辅助诊断系统的易用性和使用效率，具有广泛的应用价值。

附图说明

图1是本发明方法的流程示意图。

图2是本发明方法在一个具体应用实例中的流程示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1和图2所示，本发明的中文电子病历识别中否定域判定方法,包括：

对中文病历进行分句处理；

利用深度神经网络识别规则集无法判定的否定域；

仅剩下与疾病症状相关的异常症状描述的病历语句，这些语句用于后续疾病表型获取。

在进行中文病历进行分句处理时，从句法特点上看，否定域是临床病历中记录患者非异常症状的语句，因此对病历中的语句进行合理划分，是判定否定域边界的关键。该分句与传统自然语言处理中按完整语法对段落进行分句的处理方式不同，病历分句主要是根据词语的有效范围进行分句，例如“无高热、抽搐”，如果按照“、”进行分句，识别出的否定域为“无高热”，而实际的分句方式应该为“无高热、抽搐”，因为“无”的有效范围覆盖了“高热”和“抽搐”。

为此，根据临床病历的语句特点，结合中文语法特征和词语的有效范围，本发明的方法以[，,！！？？；；.。]作为句子边界的标志，按照上述标点符号对段落进行分句。

上述病历1的分句结果如下：

[患者：男]，[缘于1天前进食后出现恶心、呕吐]，[呕吐物为胃内容物]，[伴腹胀]，[呕吐后腹胀缓解]，[无呕血、便血]。[无腹痛]，[无反酸、烧心]，[无发热]。[当时未行任何处理]，[今日来我院]。[急诊检查后以：消化道穿孔]，[肠梗阻]，[心律失常收入我科]。

病历分句完成，则针对不同的否定域组成结构，分别采用不同的方法对分句结果进行否定域判定。临床病历中的否定域按照语句特点可以分为两类：

一类是有明显的否定词，如“无高热、抽搐”、“未闻及干湿啰音”、“未见明显异常”中“无”、“未闻及”、“未见”等都是否定词，这一类的否定域结构固定，可使用规则进行精准识别。

另一类则不包含否定词，但内容是表达正常的症状，如“一般情况可、神清”、“律齐”、“双肺呼吸音清晰”，这类词无法使用规则集进行识别。

为此，本发明采用深度神经网络模型结合语义进行识别，其流程包括：

步骤S10：基于规则的否定域识别：

基于规则的否定域识别用于判定具有明显特征的否定域，本发明依次使用两种规则集实现否定域的识别，一种是候选否定域规则集，一种异常规则集。

候选否定域规则集，用于匹配有明确特征，有较大可能是否定域的病历分句，病历分句如果被候选否定域规则集中某一规则匹配，则表明该病历分句明确符合否定域的组成特点，但需要后面使用异常规则集判定该分句是否为真正的否定域。本发明方法包括的候选否定域规则集如下表所示。

表1.候选否定域规则集

异常规则集，用于识别字符在句法上符合否定域的组成特点，但实际描述的是患者异常症状，需要进行保留。异常规则集是对候选规则集的补充，用于识别包含否定词但实际是描述患者异常表型的语句。本发明的方法包括但不限于以下异常规则：

表2.异常规则集

编号	异常规则
		1	.不正常.
2	.不否认.
		3	.不对称.

步骤S20：基因深度学习的否定域识别：

除了带有上述否定词的否定域，还有较多的否定域无法通过上述规则集判定，具体包括：(1)否定域是“无+症状”的模式，例如“无腹痛”、“无发热”等，后面的腹痛、发热是明显的疾病症状；(2)不带否定词(如神清、状态可、律齐等)的否定域；(3)否定词不足以判断其是否为否定域，如“拇指无甲”(非否定域，描述的是患者的异常症状)。对于上述三种否定域，在临床病历中广泛存在，但在分句的构成上没有明显的特征，很难用规则匹配的方式进行判定，本发明的方法使用深度神经网络模型进行识别。

本发明的方法中使用BiLSTM-CRF模型实现目标字符中否定域的识别。BiLSTM除了正向运算外还添加了反向运算，从而能够更好的理解上下文关系，强化模型预测能力。

本发明的主要过程包括语料标注、模型训练以及程序编写。

本发明的方法采用BIO标注法作为语料的标注方法：其中B(Begin)代表目标实体的起始字符；I(Inside)代表目标实体词中的字符，包含实体词末尾位置；O(Out)代表不在目标实体中的字符。

表3语料标注示例

全

身

淋

巴

无

肿

大

O

B

I

在本任务中，本发明基于1200份临床病历、12000个标准表型，人工标记、人工审核形成了23万余行语料。

在模型训练评估过程中，以7:2:1的比例将标注文本分为训练集、测试集和验证集。按前述分句方法分句后，以句为单位对标注文本进行划分，标注文本送入模型训练前需经过向量化，将文字与标注转化为计算机能够识别的字符代号，完成向量化，而后进行模型训练。在测试过程中，利用训练及生成的模型，对测试集中的目标否定域的识别效果如下表所示：

Precision/％	Recall/％	FB1/％
			91.36	92.47	91.91

在模型使用过程中，本发明利用所有的标注样本对评估后的模型进行重新训练，然后利用该模型进一步对病历语句进行否定域的判定和剔除。最后得到剔除了否定域的病历分句集，该分句集合用于后续的自动化表型识别。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种中文电子病历识别中否定域判定方法,其特征在于，包括：

对中文病历进行分句处理；

利用深度神经网络识别规则集无法判定的否定域；

2.根据权利要求1所述的中文电子病历识别中否定域判定方法,其特征在于，在对中文病历进行分句处理时，以[，,！！？？；；.。]作为句子边界的标志，按照上述标点符号对段落进行分句。

3.根据权利要求2所述的中文电子病历识别中否定域判定方法,其特征在于，对分句结果进行否定域判定，按照语句特点分为两类：

不包含否定词，采用深度神经网络模型结合语义进行识别。

4.根据权利要求3所述的中文电子病历识别中否定域判定方法,其特征在于，采用深度神经网络模型结合语义进行识别包括基于规则的否定域识别：用于判定具有明显特征的否定域，依次使用两种规则集实现否定域的识别，一种是候选否定域规则集，一种异常规则集；候选否定域规则集，用于匹配有明确特征，病历分句如果被候选否定域规则集中某一规则匹配，则表明该病历分句明确符合否定域的组成特点，使用异常规则集判定该分句是否为真正的否定域。

5.根据权利要求4所述的中文电子病历识别中否定域判定方法,其特征在于，采用深度神经网络模型结合语义进行识别包括异常规则集，用于识别字符在句法上符合否定域的组成特点，描述的是患者异常症状，要进行保留；异常规则集是对候选规则集的补充，用于识别包含否定词但实际是描述患者异常表型的语句。

6.根据权利要求3所述的中文电子病历识别中否定域判定方法,其特征在于，采用深度神经网络模型结合语义进行识别包括基因深度学习的否定域识别：除了带有上述否定词的否定域，还有较多的否定域无法通过上述规则集判定，包括：(1)否定域是“无+症状”的模式；(2)不带否定词的否定域；(3)否定词不足以判断其是否为否定域。

7.根据权利要求1-6中任意一项所述的中文电子病历识别中否定域判定方法,其特征在于，采用BIO标注法作为语料的标注方法，其中B代表目标实体的起始字符；I代表目标实体词中的字符，包含实体词末尾位置；O代表不在目标实体中的字符。