CN110634546A

CN110634546A - 电子病历文本规范化检测方法

Info

Publication number: CN110634546A
Application number: CN201910748171.5A
Authority: CN
Inventors: 戴亚康; 戴斌; 耿辰; 周志勇; 胡冀苏
Original assignee: Suzhou Institute of Biomedical Engineering and Technology of CAS
Current assignee: Suzhou Institute of Biomedical Engineering and Technology of CAS
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-12-31

Abstract

本发明属于医疗信息数据处理技术领域，具体涉及一种电子病历文本规范化检测方法。本发明提供的电子病历文本规范化检测方法，首先利用自然语言处理技术将原始文本分词并识别原始文本中的医疗实体，其次将相关的现象与症状信息关联成一个集合，通过实体与实体对应的描述信息组成规范化的描述短语，以构建为身体部位、现象与症状、定性描述和/或定量描述的三元组集合，最后根据几种病历文本中出现的错误类型分别对三元组集合进行筛查，以识别新录入电子病历文本中可能出现的错误。

Description

电子病历文本规范化检测方法

技术领域

本发明属于医疗信息数据处理技术领域，具体涉及一种电子病历文本规范化检测方法。

背景技术

病历(case history)是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程的记录，也是对采集到的资料加以归纳、整理、综合分析并按规定的格式和要求书写的患者医疗健康档案。随着计算机及互联网技术的发展，大部分医院已实现临床病历的电子化，电子病历是利用电子设备来记录、保存、管理、传输和重现数字化的医疗记录，具有安全可靠以及方便记录、存储、共享等优点。电子病历的应用不但能够为卫生事业管理、医学诊疗与科研提供最实际、最丰富的数据资料，还将是评价医疗质量、管理水平和处理医疗纠纷的重要判定责任依据。

常规的医疗电子病历，其信息的主要载体是自然语言，这些自然语言文本蕴含着患者诊断治疗过程中主要临床信息。医务人员在录入电子病历信息时，可能会出现文本描述不准确甚至是遗漏、前后矛盾的错误，如在一个实际病历中采用不同的同义词，从而导致电子病历不规范。为解决此问题，尽管医院制定了很多规范标准，但规则标准过于繁琐耗时，医务人员在录入时可能会遗忘，也将导致电子病历不规范。电子病历录入不规范将影响电子病历的真实性、准确性，从而使其失去了在医疗、教学、科研、法律、保险等方面的实际价值，因此，加强对电子病历的录入环节质量的管理是全面提升医疗质量的关键。

发明内容

因此，本发明要解决的技术问题在于克服现有的电子病历因不规范而影响其真实性、准确性的缺陷，从而提供一种用于排查电子病历不规范现象的检测方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种电子病历文本规范化检测方法，包括以下步骤：

步骤1，对原始文本预处理，并对正确的现有病历文本进行分词和词性标注；

步骤2，通过预先训练好的医疗实体标注模型对所述原始文本进行命名实体识别，识别出所述原始文本中的医疗疾病名称、现象与症状、身体部位；

步骤3，结合步骤1中的所述词性标注的结果，将步骤1中的所述原始文本中的词划分为定性描述的词语和定量描述的词语，并将所述原始文本的语句划分为以所述身体部位或所述现象与症状为主语的描述短语；

步骤4，基于步骤3对所述原始文本中词和语句的划分，将每个所述描述短语构建为包含所述身体部位、所述现象与症状以及定性描述词语和/定量描述词语的三元组；

步骤5，对新录入病历文本进行分词和词性标注，并将所述新录入病历文本按照步骤4构建所述三元组；

步骤6，利用步骤5中所述新录入病历文本已有的所述三元组格式集中检测，以识别所述新录入病历文本中存在的错误。

优选地，该电子病历文本规范化检测方法，步骤1中，对所述原始文本进行预处理包括：去除所述原始文本中的停用词、无用符号、编码格式不正确的文字。

优选地，该电子病历文本规范化检测方法，步骤2中，采用BiLSTM-CRF模型训练命名实体模型，并对照SNOMED CT医学规范术语集，将识别出的代表所述医疗疾病名称、所述身体部位的词替换为所述SNOMED CT医学规范术语集中的词。

进一步优选地，该电子病历文本规范化检测方法，步骤3中，将所述原始文本中的所有形容词和副词划分为所述定性描述词语，将所述原始文本中的所有量词以及包含单位的词语划分为所述定量描述词语；

对于无主语的所述描述短语，利用指代消解技术以补充主语组成所述描述短语。

进一步优选地，该电子病历文本规范化检测方法，步骤3中，以标点符号将所述原始文本的段落进行划分，一个所述描述短语包含一个所述身体部位和一个所述现象与症状且不超过一个所述定性描述词语、不超过一个所述定量描述词语。

优选地，该电子病历文本规范化检测方法，，对步骤1中所述原始文本和对步骤5中所述新录入病历文本的进行分词和词性标注包括：利用条件随机场模型，辅助医学词典，对语料库中的所述现有病历文本或所述新录入病历文本进行词切分及分隔，然后借助最大熵模型对切分后的每个词进行标注。

进一步优选地，该电子病历文本规范化检测方法，步骤5中，将每个三元组的每个所述身体部位、所述现象与症状的描述按照SNOMED CT医学规范术语集表述。

优选地，该电子病历文本规范化检测方法，在步骤5和步骤6中，还包括通过分析医学医疗文本的记录方式和内容以总结实际工作中所述新录入病历文本可能存在的错误类型。

优选地，该电子病历文本规范化检测方法，步骤6中识别所述新录入病历文本中存在错误的方法包括：

通过检测新录入病历文本三元组合集中不存在或未出现的所述身体部位以及不存在的所述现象与症状，以识别是否存在错误。

进一步优选地，该电子病历文本规范化检测方法，步骤6中识别所述新录入病历文本中存在错误的方法还包括：

根据所述新录入病历文本三元组合集中所有的所述身体部位和所述现象与症状在合集中联合搜索，未出现过的提示该描述可能不对应；

根据所述新录入病历文本三元组合集中所有的所述现象与症状和所述定性描述、所述定量描述在合集中联合搜索，未出现过的提示该描述可能有误。

本发明技术方案，具有如下优点：

1.本发明提供的电子病历文本规范化检测方法，首先利用自然语言处理技术将原始文本分词并识别原始文本中的医疗实体，其次将相关的现象与症状信息关联成一个集合，通过实体与实体对应的描述信息组成规范化的描述短语，以构建为身体部位、现象与症状、定性描述和/或定量描述的三元组集合，最后根据几种病历文本中出现的错误类型分别对三元组集合进行筛查，以识别新录入电子病历文本中可能出现的错误。

该电子病历文本规范化检测方法，可以对需要生成的病历文本进行检测，以保证最终记录的电子病历文本的规范、准确；也可以在医生录入时，通过智能终端设备对实时录入的病历文本进行检测，保证电子病历文本的产生更加准确。

2.本发明提供的电子病历文本规范化检测方法，利用自然语言处理的技术对病历文本进行检测，可以保证从规范的病历文本中学习到更全面的关键信息，也更方便排查电子病历文本的错误，避免因人为制定书写规则繁琐从而导致医生在录入时遗忘的缺陷。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的电子病历文本规范化检测方法流程图；

图2为本发明实施例2提供的电子病历文本结构框图。

具体实施方式

为了便于理解本发明的目的、技术方案和要点，下面将对本发明的实施方式作进一步详细描述。本发明可以多种不同的形式实施，而不应该被理解为仅限于在此阐述的实施例。相反，提供此实施例，使得本发明将是彻底的和完整的，并且将把本发明的构思充分传达给本领域技术人员，本发明将仅由权利要求来限定。

实施例1

本实施例提供一种电子病历文本规范化检测方法，如图1所示，包括以下步骤：

第一步，对原始文本预处理，并对正确的现有病历文本进行分词和词性标注；

具体地，首先，对原始文本的预处理包括去掉停用词、无用符号和编码格式不正确的文字，如“的”、空格符等；其次，利用条件随机场模型，辅助医学词典，并利用自然语言处理中的分词和词性标注技术，将语料库中大量的正确的现有病历文本的每一条进行词切分；再次，结合每个词在原始文本中的上下文信息以及医学词典中的信息，借助最大熵模型对经过切分后的各个词的词性进行标注。

第二步，通过预先训练好的医疗实体标注模型对原始文本进行命名实体识别，识别出原始文本中的医疗疾病名称、现象与症状、身体部位；

具体地，先利用大量已标注的医疗实体的语料库，以BiLSTM-CRF模型训练命名实体模型，然后对输入的原始文本进行标注，识别出原始文本中的疾病名称、现象与症状、身体部位三类实体，并对照SNOMED CT医学规范术语集，将识别出的代表医疗疾病名称以及身体部位信息的词进一步替换为SNOMED CT医学规范术语集中的词。

第三步，结合第一步中的词性标注的结果，将第一步中的原始文本中的词划分为定性描述的词语和定量描述的词语，并将原始文本的段落划分为以身体部位或现象与症状为主语的描述短语；

具体为，结合词性标注结果，将原始文本中的所有形容词和副词定为定性描述词语，将原始文本中的所有量词以及包含单位的词语定义为定量描述词语；

然后，将原始文本的整段内容划分为若干个描述短语，其描述短语的结构为：主语为身体部位或现象与症状，再加入一些定性描述和/或定量描述；对于无主语的描述短语，利用指代消解技术补充主语以组成描述短语。其中，将原始文本的整段内容划分为若干个描述短语的方式为：

对原始文本的语句以标点符号进行划分，如该语句中仅包含一个身体部位和一个现象与症状，而且不超过一个定性描述或不超过一个定量描述，即可认定该语句为一个描述短语；如果该语句中出现多个身体部位或多个现象与症状的描述，则需要对该语句进行分隔再补齐，以组成新的规范的描述短语，最终使该描述短语符合一个主语一个谓语的结构。

第四步，基于第三步对原始文本中词和语句的划分，将每个描述短语构建为包含身体部位、现象与症状以及定性描述和/定量描述的三元组；

该三元组包括一个身体部位、一个现象与症状、一个定性描述的词语，或者该三元组包括一个身体部位、一个现象与症状、一个定量描述的词语，也或者该三元组包括一个身体部位、一个现象与症状、一个定性描述的词语和一个定量描述的词语；若该描述短语不含有定性描述词语和定量描述词语，则组成的三元组仅包含身体部位和现象与症状。因此，通过原始文本的所有的三元组的集合即可表示该原始文本的信息，所有同一疾病同一文本类型的病历文本三元组则视为该类型原始文本的描述合集。

第五步，将新录入病历文本按照第四步构建三元组；

对新录入病历文本进行预处理，并将该新录入病历文本的每一条内容都构建为一个三元组，具体地，利用条件随机场模型，辅助医学词典，对新录入病历文本进行词切分；结合每个词在新录入病历文本中的上下文信息以及医学词典中的信息，借助最大熵模型对经过切分后的各个词的词性进行标注；基于词性标注和命名实体识别，抽取每一条短语的身体部位、现象与症状、定性描述词语和/或定量描述词语，以组成三元组；对于每一个三元组，查找其每个身体部位、现象与症状描述词是否符合SNOMED CT规范术语集，如不符合规范描述，则将该词替换为SNOMED CT规范术语集中的规范化表述，经规范化后的每一条病历文本三元组集合即表示为该段录入的病历文本。

第六步，通过分析病历文本的记录方式和内容，总结实际工作中新录入病历文本可能存在的错误类型；

具体地，新录入病历文本可能存在以下错误类型：

(1)医疗疾病信息、身体部位信息、现象与症状描述不符合规范；

(2)身体部位信息有误，包括身体部位信息缺失、身体部位信息与医疗疾病信息不对应；

(3)现象与症状信息有误，包括现象与症状信息缺失、现象或症状信息与身体部位信息不对应；

(4)定性描述词语信息有误；

(5)定量描述词语信息有误。

第七步，利用在第五步中新录入病历文本已有的三元组合集中检索以识别新录入病历文本中存在的错误；

具体地，识别新录入病历文本中所有医疗疾病信息、身体部位信息、现象与症状信息是否为SNOMED CT规范术语集中的词语，如不符合规范描述，则提示术语描述规范错误并显示对应的规范化描述；

在该类型的三元组合集中检测新录入病历文本三元组合集中不存在的身体部位，选取在合集中出现频率高于50％的部位，提示为可能缺失描述的身体部位；

在新录入病历文本的所有三元组中检测该类型的三元组合集中没有出现过的身体部位，提示该部位未被记录；

在该类型的三元组合集中检测新录入病历文本三元组集合中不存在的现象与症状，选取在合集中出现频率高于50％的部位，提示为可能缺失描述的现象与症状。

根据新录入病历文本三元组合集中所有的身体部位和现象与症状在合集中联合搜索，未出现过的提示该描述可能不对应；

根据新录入病历文本三元组合集中所有的现象与症状和定性描述、定量描述在合集中联合搜索，未出现过的提示该描述可能有误。

实施例2

本实施例提供一种电子病历文本规范化检测方法，在表示不同疾病种类时，可有多种电子病历文本，比如入院记录、影像报告、病程记录、出院小结等，不同文本类型的描述风格都不一样。如图2所示，对于肺癌可有查体文本、影像报告等多种病历文本，采用本发明提供的检测方法，构建多种检测模型，如每个描述短语包括肺(身体部位)、呼吸音(现象与症状)、清(定性描述和/或定量描述)，保证最终记录的电子病历文本的规范、准确，适于对不同病种的不同文本进行规范化检测。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种电子病历文本规范化检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的电子病历文本规范化检测方法，其特征在于，步骤1中，对所述原始文本进行预处理包括：去除所述原始文本中的停用词、无用符号、编码格式不正确的文字。

3.根据权利要求1或2所述的电子病历文本规范化检测方法，其特征在于，步骤2中，采用BiLSTM-CRF模型训练命名实体模型，并对照SNOMED CT医学规范术语集，将识别出的代表所述医疗疾病名称、所述身体部位的词替换为所述SNOMED CT医学规范术语集中的词。

4.根据权利要求3所述的电子病历文本规范化检测方法，其特征在于，步骤3中，将所述原始文本中的所有形容词和副词划分为所述定性描述词语，将所述原始文本中的所有量词以及包含单位的词语划分为所述定量描述词语；

5.根据权利要求4所述的电子病历文本规范化检测方法，其特征在于，步骤3中，以标点符号将所述原始文本的段落进行划分，一个所述描述短语包含一个所述身体部位和一个所述现象与症状且不超过一个所述定性描述词语、不超过一个所述定量描述词语。

6.根据权利要求1或2所述的电子病历文本规范化检测方法，其特征在于，对步骤1中所述原始文本和对步骤5中所述新录入病历文本的进行分词和词性标注包括：利用条件随机场模型，辅助医学词典，对语料库中的所述现有病历文本或所述新录入病历文本进行词切分及分隔，然后借助最大熵模型对切分后的每个词进行标注。

7.根据权利要求6所述的电子病历文本规范化检测方法，其特征在于，步骤5中，将每个三元组的每个所述身体部位、所述现象与症状的描述按照SNOMED CT医学规范术语集表述。

8.根据权利要求1或2所述的电子病历文本规范化检测方法，其特征在于，在步骤5和步骤6中，还包括通过分析医学医疗文本的记录方式和内容以总结实际工作中所述新录入病历文本可能存在的错误类型。

9.根据权利要求1或2所述的电子病历文本规范化检测方法，其特征在于，步骤6中识别所述新录入病历文本中存在错误的方法包括：

10.根据权利要求9所述的电子病历文本规范化检测方法，其特征在于，步骤6中识别所述新录入病历文本中存在错误的方法还包括：