CN114880471A

CN114880471A - 一种基于文本分类算法的电子病历质量评估方法及系统

Info

Publication number: CN114880471A
Application number: CN202210449648.1A
Authority: CN
Inventors: 刘文丽; 李向阳
Original assignee: Inner Mongolia Health Care Big Data Co ltd
Current assignee: Inner Mongolia Health Care Big Data Co ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-08-09

Abstract

本发明特别涉及一种基于文本分类算法的电子病历质量评估方法及系统。该基于文本分类算法的电子病历质量评估方法及系统，基于自然语言处理模型，理解结构化电子病历中的文本语义，然后对解析后的文本进行分类，并与当前解析标签进行比对，从而判断解析的正确性。该基于文本分类算法的电子病历质量评估方法及系统，通过自然语言处理中的文本分类模型对语义内容进行理解分类，避免了大段文本内容质量评估任务中解析内容错误掺入其他标签的问题，同时，实现了对解析结果自动化的逐条质量评估、自动生成评估报告，从而提升了质量评估工作的准确性，降低了质量评估工作量。

Description

一种基于文本分类算法的电子病历质量评估方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于文本分类算法的电子病历质量评估方法及系统。

背景技术

由于电子病历结构化数据是临床研究重要的研究对象及数据分析依据，因此电子病历结构化工作的优劣直接决定了接下来临床研究结果的准确程度。电子病历质量评估技术，就是对电子病历结构化结果进行质量检验，筛选解析错误的电子病历内容，统计解析准确率的技术。

目前，业界针对电子病历结构化结果的质量评估工作大多采用人工审查和规则分析两种方式。

其中，人工审查方式是指从海量结构化结果中随机抽样N条数据，然后对抽样的N条数据进行人工审查，从而计算解析准确率，总结解析错误的原因。该方法的缺点是，随机采样存在一定偶然性，不能完全表示整体水平。

规则分析方式是指对解析内容的长度、值域等进行限制，从而评估解析结果优劣，筛选解析错误内容。例如，对于解析出的“性别”字段的内容，可以采用值域限制方式进行质量评估，当性别字段中出现除了“男”、“女”、“男性”、“女性”、“其他”、“不详”以外的内容时，认为相应记录解析错误。对于解析出的“姓名”字段的内容，可以采用字段长度限制的方式进行质量评估，当姓名字段内容超过一定长度，任务记录解析错误。然而，这种方法规则方式对于长度不限、值域不定的自然文本质量评估问题就不再适用了。

针对电子病历结构化结果中长度不限、值域不定的自然文本质量评估问题，本发明提出了一种基于文本分类算法的电子病历质量评估方法及系统。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的基于文本分类算法的电子病历质量评估方法及系统。

本发明是通过如下技术方案实现的：

一种基于文本分类算法的电子病历质量评估方法及系统，其特征在于：基于自然语言处理模型，理解结构化电子病历中的文本语义，然后对解析后的文本进行分类，并与当前解析标签进行比对，从而判断解析的正确性；

包括以下步骤：

步骤S1、获取当前电子病历解析结果，解析结果形式如下。

[{k₁:t₁},{k₂:t₂},…{k_i:t_i}] k_i∈K

其中，K为解析标签k_i的集合，t_i为电子病历后结构化结果；

步骤S2、对电子病历后结构化结果t_i进行分句，分句结果如下：

[{k₁:[t₁₁,t₁₂,t₁₃…]},{k₂:[t₂₁,t₂₂,t₂₃…]},…{k_i:[t_i1,t_i2,t_i3…]}] k_i∈K

步骤S3、将分句结果t_ij逐项输入到自然语言处理模型，对电子病历结构化结果进行质量评估，评估结果如下：

[{k_i:{t_i1:k_p,t_i2:k_p,…t_ij:k_p}}…]

其中，k_p为自然语言处理模型对分句t_ij的分类结果，即语义分类标签；

若语义分类标签k_p与解析标签k_i相同，则说明分句t_ij分类正确；

步骤S4、逐个计算评估解析结果的准确率，计算公式如下：

其中，p_true(i)为解析结果的准确率，N_ki＝kp为解析结果的分句列表中语义分类标签k_p与解析标签k_i相同的分句个数，N为解析结果的分句列表中分句的个数；

p_true(i)越大，则解析结果越正确；当p_true(i)＝1时，说明解析结果分句后的每一个分句语义上均符合解析标签语义内容；

步骤S5、计算整体解析准确率，探寻错误解析原因；

对电子病历的解析标签k_i字段的M条数据进行质量评估，M条数据解析的准确率如下：

其他标签在解析标签k_i进行解析时被误掺入的概率如下：

其中，M_kp是指M条结构化文本结构化的分句中包含语义分类标签k_p类分句的文本数量，P_kp表示M条待质量评估解析标签k_i字段内容中掺杂了语义分类标签k_p内容的数量；

当P_kp较大时，说明解析标签k_i错误解析的原因是解析内容中掺杂了大量语义分类标签k_p内容，从而缩小错误解析原因探查范围；为了提升解析文本质量，解析人员在分析基础上探查解析标签k_i与语义分类标签k_p内容的区别。

所述步骤S2中，结合电子病历文本段落中的标点符号以及自然语言处理模型输入最大长度进行分句处理，所述标点符号包括但不限于逗号、句号与分号；

对待分长句T进行分句处理时，分句允许最大长度为MAX_LEN，首先从前向后取出长度为MAX_LEN的短句t_i；然后从后向前搜索逗号、句号与分号，并将发现的第一个标点符号后的内容放回原长句中，其余内容则为被分割出的第一个分句t_i1；若从后向前搜索未发现包括逗号、句号与分号在内的任何标点符号，则将短句t直接作为第一个分句t_i1；循环上述步骤即可将待分长句T分为若干分句，完成分句任务。

为了降低资源消耗、提高准确率，所述步骤S3中，采用fasttext模型作为自然语言处理模型。

该基于文本分类算法的电子病历质量评估系统，基于自然语言处理模型理解结构化电子病历中的文本语义，然后对解析后的文本进行分类，并与当前解析标签进行比对，从而判断解析的正确性，包括分句模块，单据质量评估模块，整体质量评估模块和报告生成模块；

所述分句模负责对来自结构化病历数据库中解析的较长的结果语句进行拆分，为了拆分后小句的语义，在拆分时要保证短句长度小于语义评估模块中模型接收的最大长度，同时配合逗号、句号与分号进行分句处理；

所述单句质量评估模块用于将分句后的结果输入fasttext模型，完成对逐个长句的评估，并计算单个解析结果的准确率；评估结果在输入报告生成模块用于合成质量评估报告的同时，逐个长句的评估结果存储于数据库中，用于对报告内容进行溯源；

所述整体质量评估模块用于将单句质量评估模块得出的逐个长句的评估结果进行汇总，计算整体待评估解析结果的准确率以及其他各标签在解析时被误掺入的概率；

所述报告生成模块基于整体质量评估模块的评估结果生成评估报告。

所述分句模块对待分长句T进行分句处理时，分句允许最大长度为MAX_LEN，首先从前向后取出长度为MAX_LEN的短句t_i；然后从后向前搜索逗号、句号与分号，并将发现的第一个标点符号后的内容放回原长句中，其余内容则为被分割出的第一个分句t_i1；若从后向前搜索未发现包括逗号、句号与分号在内的任何标点符号，则将短句t直接作为第一个分句t_i1；循环上述步骤即可将待分长句T分为若干分句，完成分句任务；

电子病历中待分长句T的解析结果形式如下：

[{k₁:t₁},{k₂:t₂},…{k_i:t_i}] k_i∈K

其中，K为解析标签k_i的集合，t_i为电子病历后结构化结果；

对短句t_i进行分句，分句结果如下：

所述单句质量评估模块将分句结果t_ij逐项输入到自然语言处理模型，对电子病历结构化结果进行质量评估，评估结果如下：

[{k_i:{t_i1:k_p,t_i2:k_p,…t_ij:k_p}}…]

若语义分类标签k_p与解析标签k_i相同，则说明分句t_ij分类正确。

所述单句质量评估模块逐个计算评估解析结果的准确率，计算公式如下：

p_true(i)越大，则解析结果越正确；当p_true(i)＝1时，说明解析结果分句后的每一个分句语义上均符合解析标签语义内容。

所述整体质量评估模块对电子病历的解析标签k_i字段的M条数据进行质量评估，M条数据解析的准确率如下：

其他标签在解析标签k_i进行解析时被误掺入的概率如下：

本发明的有益效果是：该基于文本分类算法的电子病历质量评估方法及系统，通过自然语言处理中的文本分类模型对语义内容进行理解分类，避免了大段文本内容质量评估任务中解析内容错误掺入其他标签的问题，同时，实现了对解析结果自动化的逐条质量评估、自动生成评估报告，从而提升了质量评估工作的准确性，降低了质量评估工作量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1为本发明基于文本分类算法的电子病历质量评估方法示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明中的技术方案，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚，完整的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

该基于文本分类算法的电子病历质量评估方法，基于自然语言处理模型，理解结构化电子病历(如主诉、现病史)中的文本语义，然后对解析后的文本进行分类，并与当前解析标签进行比对，从而判断解析的正确性；

包括以下步骤：

步骤S1、获取当前电子病历解析结果，解析结果形式如下。

[{k₁:t₁},{k₂:t₂},…{k_i:t_i}] k_i∈K

其中，K为解析标签k_i的集合，t_i为电子病历后结构化结果；

[{k_i:{t_i1:k_p,t_i2:k_p,…t_ij:k_p}}…]

步骤S4、逐个计算评估解析结果的准确率，计算公式如下：

步骤S5、计算整体解析准确率，探寻错误解析原因；

其他标签在解析标签k_i进行解析时被误掺入的概率如下：

在实际解析中发现，首先，电子病历后结构化结果中，如现病史、病例特点等语句较长，这不利于自然语言处理模型对语义的理解，其次，结构化结果中往往存在将解析标签k_i的内容解析到标签k_j中的情况，若直接把整段解析结果输入自然语言模型，将扰乱自然语言处理模型的理解。

该基于文本分类算法的电子病历质量评估系统，基于自然语言处理模型理解结构化电子病历(如主诉、现病史)中的文本语义，然后对解析后的文本进行分类，并与当前解析标签进行比对，从而判断解析的正确性，包括分句模块，单据质量评估模块，整体质量评估模块和报告生成模块；

所述分句模负责对来自结构化病历数据库中解析的较长的结果语句进行拆分，如现病史、病例特点、个人史等等。为了拆分后小句的语义，在拆分时要保证短句长度小于语义评估模块中模型接收的最大长度，同时配合逗号、句号与分号进行分句处理；

所述单句质量评估模块用于将分句后的结果输入fasttext模型，完成对逐个长句的评估，并计算单个解析结果的准确率，即完成电子病历质量评估方法中的步骤S3-S4；评估结果在输入报告生成模块用于合成质量评估报告的同时，逐个长句的评估结果存储于数据库中，用于对报告内容进行溯源；

所述整体质量评估模块用于将单句质量评估模块得出的逐个长句的评估结果进行汇总，按照质量评估方法中的步骤S5计算整体待评估解析结果的准确率以及其他各标签在解析时被误掺入的概率；

电子病历中待分长句T的解析结果形式如下：

[{k₁:t₁},{k₂:t₂},…{k_i:t_i}] k_i∈K

其中，K为解析标签k_i的集合，t_i为电子病历后结构化结果；

对短句t_i进行分句，分句结果如下：

[{k_i:{t_i1:k_p,t_i2:k_p,…t_ij:k_p}}…]

其他标签在解析标签k_i进行解析时被误掺入的概率如下：

实施例1

(1)数据获取

从数据库中取得电子病历解析后数据，转换表结构，并将其送入分句模块进行分句处理。该部分最终获取数据的表结构如下：

需要注意的是，在实施中需要区分模型训练任务数据获取与质量评估任务数据获取。

在模型训练任务中，数据获取是对结构化电子病历数据库中每个标签内容进行随机采样100条数据，以保证在数据训练过程中样本的充足与平衡。

在质量评估任务中，数据获取是对结构化电子病历数据库中某一个标签下的数据进行提取，提取数量可根据质量评估任务需求定义，但必须保证每次质量评估任务只提取同一标签下的数据。

(2)分句

按照发明内容电子病历解析结果质量评估系统部分说明，对获取数据进行分句。分句结果将根据任务需求分发给语义评估模块或样本标注模块。其中，分句最大长度MAX_LEN初始值设为300，分割标点包含句号、逗号、分号。分句结果存入如下表结构：

(3)样本标注

样本标注模块的实施，分为确定待分类标签集合、样本筛选、负采样、划分四个部分。

1)确定待分类标签集合

用户在样本标注前需根据业务需要确定任务中要分类的类型。比如对入院记录中解析出的各标签内容解析质量的评估，那么标签集合就应该为[“主诉”，“现病史”，“家族史”，“个人史”，“婚育史”，“月经史”，“体格检查”,……]入院记录内可能解析出的标签集合。

2)样本筛选

依据分类标签内容，每个标签各从分句后的小句中随机100句小句，然后人工筛选，确定每个小句均属于对应标签。若用不属于的，再随机从分句模块输入的数据中筛选替换，组成初始样本集。

3)负采样

首先从分句模块输入的数据中筛选出标签不属于分类标签集合的所有小句。然后从这些小句中随机抽样100条，组成负样本，给这100条标签打上“无”的标签，编码为“-1”，并将其与初始样本集混合。

4)划分

将负采样结果与初始样本集混合后，打乱样本集中样本顺序，随机取其中80％标注为训练集，20％标注为测试集，构成最终样本集。最终样本集表结构如下：

(4)生成文本分类模型

基于样本标注模块标注的样本，适用fasttext框架进行模型训练，生成模型。模型训练中的主要参数取值初始如下：

样本迭代次数epoch＝(150-500)；

学习律lr＝(0.1-1)；

词的grams最大长度wordNgrams＝2；

损失函数loss＝”hs”。

其中epoch、lr可通过网格调优的方式进一步选取最优值，调优依据损失最小原则进行搜索选择。

通过以上参数训练所得模型将用于系统语义评估。

(5)单句质量评估

单句质量评估是使用生成的文本分类模型对待评估文本进行逐条评估的过程。分句所得结果经过文本分类模型分类后的数据存入如下表结构中，用于生成报告。同时生成结果需要存入数据库中用于溯源使用。

(6)整体质量评估

基于语义评估结果表内容，依据该基于文本分类算法的电子病历质量评估方法，计算解析准确率与其他标签被掺入的概率，并生成质量评估报告。

以上所述的实施例，只是本发明具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于文本分类算法的电子病历质量评估方法，其特征在于：基于自然语言处理模型，理解结构化电子病历中的文本语义，然后对解析后的文本进行分类，并与当前解析标签进行比对，从而判断解析的正确性；

包括以下步骤：

步骤S1、获取当前电子病历解析结果，解析结果形式如下：

[{k₁:t₁},{k₂:t₂},…{k_i:t_i}]k_i∈K

其中，K为解析标签k_i的集合，t_i为电子病历后结构化结果；

[{k₁:[t₁₁,t₁₂,t₁₃…]},{k₂:[t₂₁,t₂₂,t₂₃…]},…{k_i:[t_i1,t_i2,t_i3…]}]k_i∈K

[{k_i:{t_i1:k_p,t_i2:k_p,…t_ij:k_p}}…]

步骤S4、逐个计算评估解析结果的准确率，计算公式如下：

步骤S5、计算整体解析准确率，探寻错误解析原因：

其他标签在解析标签k_i进行解析时被误掺入的概率如下：

2.根据权利要求1所述的基于文本分类算法的电子病历质量评估方法，其特征在于：所述步骤S2中，结合电子病历文本段落中的标点符号以及自然语言处理模型输入最大长度进行分句处理，所述标点符号包括但不限于逗号、句号与分号；

3.根据权利要求1所述的基于文本分类算法的电子病历质量评估方法，其特征在于：所述步骤S3中，采用fasttext模型作为自然语言处理模型。

4.一种基于文本分类算法的电子病历质量评估系统，其特征在于：基于自然语言处理模型理解结构化电子病历中的文本语义，然后对解析后的文本进行分类，并与当前解析标签进行比对，从而判断解析的正确性，包括分句模块，单据质量评估模块，整体质量评估模块和报告生成模块；

5.根据权利要要求4所述的基于文本分类算法的电子病历质量评估系统，其特征在于：所述分句模块对待分长句T进行分句处理时，分句允许最大长度为MAX_LEN，首先从前向后取出长度为MAX_LEN的短句t_i；然后从后向前搜索逗号、句号与分号，并将发现的第一个标点符号后的内容放回原长句中，其余内容则为被分割出的第一个分句t_i1；若从后向前搜索未发现包括逗号、句号与分号在内的任何标点符号，则将短句t直接作为第一个分句t_i1；循环上述步骤即可将待分长句T分为若干分句，完成分句任务；

电子病历中待分长句T的解析结果形式如下：

[{k₁:t₁},{k₂:t₂},…{k_i:t_i}]k_i∈K

其中，K为解析标签k_i的集合，t_i为电子病历后结构化结果；

对短句t_i进行分句，分句结果如下：

[{k₁:[t₁₁,t₁₂,t₁₃…]},{k₂:[t₂₁,t₂₂,t₂₃…]},…{k_i:[t_i1,t_i2,t_i3…]}]k_i∈K。

6.根据权利要要求5所述的基于文本分类算法的电子病历质量评估系统，其特征在于：所述单句质量评估模块将分句结果t_ij逐项输入到自然语言处理模型，对电子病历结构化结果进行质量评估，评估结果如下：

[{k_i:{t_i1:k_p,t_i2:k_p,…t_ij:k_p}}…]

7.根据权利要要求6所述的基于文本分类算法的电子病历质量评估系统，其特征在于：所述单句质量评估模块逐个计算评估解析结果的准确率，计算公式如下：

8.根据权利要求7所述的基于文本分类算法的电子病历质量评估系统，其特征在于：所述整体质量评估模块对电子病历的解析标签k_i字段的M条数据进行质量评估，M条数据解析的准确率如下：

其他标签在解析标签k_i进行解析时被误掺入的概率如下：