CN114880471A - 一种基于文本分类算法的电子病历质量评估方法及系统 - Google Patents

一种基于文本分类算法的电子病历质量评估方法及系统 Download PDF

Info

Publication number
CN114880471A
CN114880471A CN202210449648.1A CN202210449648A CN114880471A CN 114880471 A CN114880471 A CN 114880471A CN 202210449648 A CN202210449648 A CN 202210449648A CN 114880471 A CN114880471 A CN 114880471A
Authority
CN
China
Prior art keywords
sentence
analysis
result
electronic medical
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210449648.1A
Other languages
English (en)
Inventor
刘文丽
李向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Health Care Big Data Co ltd
Original Assignee
Inner Mongolia Health Care Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Health Care Big Data Co ltd filed Critical Inner Mongolia Health Care Big Data Co ltd
Priority to CN202210449648.1A priority Critical patent/CN114880471A/zh
Publication of CN114880471A publication Critical patent/CN114880471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明特别涉及一种基于文本分类算法的电子病历质量评估方法及系统。该基于文本分类算法的电子病历质量评估方法及系统,基于自然语言处理模型,理解结构化电子病历中的文本语义,然后对解析后的文本进行分类,并与当前解析标签进行比对,从而判断解析的正确性。该基于文本分类算法的电子病历质量评估方法及系统,通过自然语言处理中的文本分类模型对语义内容进行理解分类,避免了大段文本内容质量评估任务中解析内容错误掺入其他标签的问题,同时,实现了对解析结果自动化的逐条质量评估、自动生成评估报告,从而提升了质量评估工作的准确性,降低了质量评估工作量。

Description

一种基于文本分类算法的电子病历质量评估方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于文本分类算法的电子病历质量评估方法及系统。
背景技术
由于电子病历结构化数据是临床研究重要的研究对象及数据分析依据,因此电子病历结构化工作的优劣直接决定了接下来临床研究结果的准确程度。电子病历质量评估技术,就是对电子病历结构化结果进行质量检验,筛选解析错误的电子病历内容,统计解析准确率的技术。
目前,业界针对电子病历结构化结果的质量评估工作大多采用人工审查和规则分析两种方式。
其中,人工审查方式是指从海量结构化结果中随机抽样N条数据,然后对抽样的N条数据进行人工审查,从而计算解析准确率,总结解析错误的原因。该方法的缺点是,随机采样存在一定偶然性,不能完全表示整体水平。
规则分析方式是指对解析内容的长度、值域等进行限制,从而评估解析结果优劣,筛选解析错误内容。例如,对于解析出的“性别”字段的内容,可以采用值域限制方式进行质量评估,当性别字段中出现除了“男”、“女”、“男性”、“女性”、“其他”、“不详”以外的内容时,认为相应记录解析错误。对于解析出的“姓名”字段的内容,可以采用字段长度限制的方式进行质量评估,当姓名字段内容超过一定长度,任务记录解析错误。然而,这种方法规则方式对于长度不限、值域不定的自然文本质量评估问题就不再适用了。
针对电子病历结构化结果中长度不限、值域不定的自然文本质量评估问题,本发明提出了一种基于文本分类算法的电子病历质量评估方法及系统。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于文本分类算法的电子病历质量评估方法及系统。
本发明是通过如下技术方案实现的:
一种基于文本分类算法的电子病历质量评估方法及系统,其特征在于:基于自然语言处理模型,理解结构化电子病历中的文本语义,然后对解析后的文本进行分类,并与当前解析标签进行比对,从而判断解析的正确性;
包括以下步骤:
步骤S1、获取当前电子病历解析结果,解析结果形式如下。
[{k1:t1},{k2:t2},…{ki:ti}] ki∈K
其中,K为解析标签ki的集合,ti为电子病历后结构化结果;
步骤S2、对电子病历后结构化结果ti进行分句,分句结果如下:
[{k1:[t11,t12,t13…]},{k2:[t21,t22,t23…]},…{ki:[ti1,ti2,ti3…]}] ki∈K
步骤S3、将分句结果tij逐项输入到自然语言处理模型,对电子病历结构化结果进行质量评估,评估结果如下:
[{ki:{ti1:kp,ti2:kp,…tij:kp}}…]
其中,kp为自然语言处理模型对分句tij的分类结果,即语义分类标签;
若语义分类标签kp与解析标签ki相同,则说明分句tij分类正确;
步骤S4、逐个计算评估解析结果的准确率,计算公式如下:
Figure BDA0003618089030000021
其中,ptrue(i)为解析结果的准确率,Nki=kp为解析结果的分句列表中语义分类标签kp与解析标签ki相同的分句个数,N为解析结果的分句列表中分句的个数;
ptrue(i)越大,则解析结果越正确;当ptrue(i)=1时,说明解析结果分句后的每一个分句语义上均符合解析标签语义内容;
步骤S5、计算整体解析准确率,探寻错误解析原因;
对电子病历的解析标签ki字段的M条数据进行质量评估,M条数据解析的准确率如下:
Figure BDA0003618089030000031
其他标签在解析标签ki进行解析时被误掺入的概率如下:
Figure BDA0003618089030000032
其中,Mkp是指M条结构化文本结构化的分句中包含语义分类标签kp类分句的文本数量,Pkp表示M条待质量评估解析标签ki字段内容中掺杂了语义分类标签kp内容的数量;
当Pkp较大时,说明解析标签ki错误解析的原因是解析内容中掺杂了大量语义分类标签kp内容,从而缩小错误解析原因探查范围;为了提升解析文本质量,解析人员在分析基础上探查解析标签ki与语义分类标签kp内容的区别。
所述步骤S2中,结合电子病历文本段落中的标点符号以及自然语言处理模型输入最大长度进行分句处理,所述标点符号包括但不限于逗号、句号与分号;
对待分长句T进行分句处理时,分句允许最大长度为MAX_LEN,首先从前向后取出长度为MAX_LEN的短句ti;然后从后向前搜索逗号、句号与分号,并将发现的第一个标点符号后的内容放回原长句中,其余内容则为被分割出的第一个分句ti1;若从后向前搜索未发现包括逗号、句号与分号在内的任何标点符号,则将短句t直接作为第一个分句ti1;循环上述步骤即可将待分长句T分为若干分句,完成分句任务。
为了降低资源消耗、提高准确率,所述步骤S3中,采用fasttext模型作为自然语言处理模型。
该基于文本分类算法的电子病历质量评估系统,基于自然语言处理模型理解结构化电子病历中的文本语义,然后对解析后的文本进行分类,并与当前解析标签进行比对,从而判断解析的正确性,包括分句模块,单据质量评估模块,整体质量评估模块和报告生成模块;
所述分句模负责对来自结构化病历数据库中解析的较长的结果语句进行拆分,为了拆分后小句的语义,在拆分时要保证短句长度小于语义评估模块中模型接收的最大长度,同时配合逗号、句号与分号进行分句处理;
所述单句质量评估模块用于将分句后的结果输入fasttext模型,完成对逐个长句的评估,并计算单个解析结果的准确率;评估结果在输入报告生成模块用于合成质量评估报告的同时,逐个长句的评估结果存储于数据库中,用于对报告内容进行溯源;
所述整体质量评估模块用于将单句质量评估模块得出的逐个长句的评估结果进行汇总,计算整体待评估解析结果的准确率以及其他各标签在解析时被误掺入的概率;
所述报告生成模块基于整体质量评估模块的评估结果生成评估报告。
所述分句模块对待分长句T进行分句处理时,分句允许最大长度为MAX_LEN,首先从前向后取出长度为MAX_LEN的短句ti;然后从后向前搜索逗号、句号与分号,并将发现的第一个标点符号后的内容放回原长句中,其余内容则为被分割出的第一个分句ti1;若从后向前搜索未发现包括逗号、句号与分号在内的任何标点符号,则将短句t直接作为第一个分句ti1;循环上述步骤即可将待分长句T分为若干分句,完成分句任务;
电子病历中待分长句T的解析结果形式如下:
[{k1:t1},{k2:t2},…{ki:ti}] ki∈K
其中,K为解析标签ki的集合,ti为电子病历后结构化结果;
对短句ti进行分句,分句结果如下:
[{k1:[t11,t12,t13…]},{k2:[t21,t22,t23…]},…{ki:[ti1,ti2,ti3…]}] ki∈K
所述单句质量评估模块将分句结果tij逐项输入到自然语言处理模型,对电子病历结构化结果进行质量评估,评估结果如下:
[{ki:{ti1:kp,ti2:kp,…tij:kp}}…]
其中,kp为自然语言处理模型对分句tij的分类结果,即语义分类标签;
若语义分类标签kp与解析标签ki相同,则说明分句tij分类正确。
所述单句质量评估模块逐个计算评估解析结果的准确率,计算公式如下:
Figure BDA0003618089030000051
其中,ptrue(i)为解析结果的准确率,Nki=kp为解析结果的分句列表中语义分类标签kp与解析标签ki相同的分句个数,N为解析结果的分句列表中分句的个数;
ptrue(i)越大,则解析结果越正确;当ptrue(i)=1时,说明解析结果分句后的每一个分句语义上均符合解析标签语义内容。
所述整体质量评估模块对电子病历的解析标签ki字段的M条数据进行质量评估,M条数据解析的准确率如下:
Figure BDA0003618089030000052
其他标签在解析标签ki进行解析时被误掺入的概率如下:
Figure BDA0003618089030000053
其中,Mkp是指M条结构化文本结构化的分句中包含语义分类标签kp类分句的文本数量,Pkp表示M条待质量评估解析标签ki字段内容中掺杂了语义分类标签kp内容的数量;
当Pkp较大时,说明解析标签ki错误解析的原因是解析内容中掺杂了大量语义分类标签kp内容,从而缩小错误解析原因探查范围;为了提升解析文本质量,解析人员在分析基础上探查解析标签ki与语义分类标签kp内容的区别。
本发明的有益效果是:该基于文本分类算法的电子病历质量评估方法及系统,通过自然语言处理中的文本分类模型对语义内容进行理解分类,避免了大段文本内容质量评估任务中解析内容错误掺入其他标签的问题,同时,实现了对解析结果自动化的逐条质量评估、自动生成评估报告,从而提升了质量评估工作的准确性,降低了质量评估工作量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明基于文本分类算法的电子病历质量评估方法示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该基于文本分类算法的电子病历质量评估方法,基于自然语言处理模型,理解结构化电子病历(如主诉、现病史)中的文本语义,然后对解析后的文本进行分类,并与当前解析标签进行比对,从而判断解析的正确性;
包括以下步骤:
步骤S1、获取当前电子病历解析结果,解析结果形式如下。
[{k1:t1},{k2:t2},…{ki:ti}] ki∈K
其中,K为解析标签ki的集合,ti为电子病历后结构化结果;
步骤S2、对电子病历后结构化结果ti进行分句,分句结果如下:
[{k1:[t11,t12,t13…]},{k2:[t21,t22,t23…]},…{ki:[ti1,ti2,ti3…]}] ki∈K
步骤S3、将分句结果tij逐项输入到自然语言处理模型,对电子病历结构化结果进行质量评估,评估结果如下:
[{ki:{ti1:kp,ti2:kp,…tij:kp}}…]
其中,kp为自然语言处理模型对分句tij的分类结果,即语义分类标签;
若语义分类标签kp与解析标签ki相同,则说明分句tij分类正确;
步骤S4、逐个计算评估解析结果的准确率,计算公式如下:
Figure BDA0003618089030000071
其中,ptrue(i)为解析结果的准确率,Nki=kp为解析结果的分句列表中语义分类标签kp与解析标签ki相同的分句个数,N为解析结果的分句列表中分句的个数;
ptrue(i)越大,则解析结果越正确;当ptrue(i)=1时,说明解析结果分句后的每一个分句语义上均符合解析标签语义内容;
步骤S5、计算整体解析准确率,探寻错误解析原因;
对电子病历的解析标签ki字段的M条数据进行质量评估,M条数据解析的准确率如下:
Figure BDA0003618089030000072
其他标签在解析标签ki进行解析时被误掺入的概率如下:
Figure BDA0003618089030000073
其中,Mkp是指M条结构化文本结构化的分句中包含语义分类标签kp类分句的文本数量,Pkp表示M条待质量评估解析标签ki字段内容中掺杂了语义分类标签kp内容的数量;
当Pkp较大时,说明解析标签ki错误解析的原因是解析内容中掺杂了大量语义分类标签kp内容,从而缩小错误解析原因探查范围;为了提升解析文本质量,解析人员在分析基础上探查解析标签ki与语义分类标签kp内容的区别。
在实际解析中发现,首先,电子病历后结构化结果中,如现病史、病例特点等语句较长,这不利于自然语言处理模型对语义的理解,其次,结构化结果中往往存在将解析标签ki的内容解析到标签kj中的情况,若直接把整段解析结果输入自然语言模型,将扰乱自然语言处理模型的理解。
所述步骤S2中,结合电子病历文本段落中的标点符号以及自然语言处理模型输入最大长度进行分句处理,所述标点符号包括但不限于逗号、句号与分号;
对待分长句T进行分句处理时,分句允许最大长度为MAX_LEN,首先从前向后取出长度为MAX_LEN的短句ti;然后从后向前搜索逗号、句号与分号,并将发现的第一个标点符号后的内容放回原长句中,其余内容则为被分割出的第一个分句ti1;若从后向前搜索未发现包括逗号、句号与分号在内的任何标点符号,则将短句t直接作为第一个分句ti1;循环上述步骤即可将待分长句T分为若干分句,完成分句任务。
为了降低资源消耗、提高准确率,所述步骤S3中,采用fasttext模型作为自然语言处理模型。
该基于文本分类算法的电子病历质量评估系统,基于自然语言处理模型理解结构化电子病历(如主诉、现病史)中的文本语义,然后对解析后的文本进行分类,并与当前解析标签进行比对,从而判断解析的正确性,包括分句模块,单据质量评估模块,整体质量评估模块和报告生成模块;
所述分句模负责对来自结构化病历数据库中解析的较长的结果语句进行拆分,如现病史、病例特点、个人史等等。为了拆分后小句的语义,在拆分时要保证短句长度小于语义评估模块中模型接收的最大长度,同时配合逗号、句号与分号进行分句处理;
所述单句质量评估模块用于将分句后的结果输入fasttext模型,完成对逐个长句的评估,并计算单个解析结果的准确率,即完成电子病历质量评估方法中的步骤S3-S4;评估结果在输入报告生成模块用于合成质量评估报告的同时,逐个长句的评估结果存储于数据库中,用于对报告内容进行溯源;
所述整体质量评估模块用于将单句质量评估模块得出的逐个长句的评估结果进行汇总,按照质量评估方法中的步骤S5计算整体待评估解析结果的准确率以及其他各标签在解析时被误掺入的概率;
所述报告生成模块基于整体质量评估模块的评估结果生成评估报告。
所述分句模块对待分长句T进行分句处理时,分句允许最大长度为MAX_LEN,首先从前向后取出长度为MAX_LEN的短句ti;然后从后向前搜索逗号、句号与分号,并将发现的第一个标点符号后的内容放回原长句中,其余内容则为被分割出的第一个分句ti1;若从后向前搜索未发现包括逗号、句号与分号在内的任何标点符号,则将短句t直接作为第一个分句ti1;循环上述步骤即可将待分长句T分为若干分句,完成分句任务;
电子病历中待分长句T的解析结果形式如下:
[{k1:t1},{k2:t2},…{ki:ti}] ki∈K
其中,K为解析标签ki的集合,ti为电子病历后结构化结果;
对短句ti进行分句,分句结果如下:
[{k1:[t11,t12,t13…]},{k2:[t21,t22,t23…]},…{ki:[ti1,ti2,ti3…]}] ki∈K
所述单句质量评估模块将分句结果tij逐项输入到自然语言处理模型,对电子病历结构化结果进行质量评估,评估结果如下:
[{ki:{ti1:kp,ti2:kp,…tij:kp}}…]
其中,kp为自然语言处理模型对分句tij的分类结果,即语义分类标签;
若语义分类标签kp与解析标签ki相同,则说明分句tij分类正确。
所述单句质量评估模块逐个计算评估解析结果的准确率,计算公式如下:
Figure BDA0003618089030000091
其中,ptrue(i)为解析结果的准确率,Nki=kp为解析结果的分句列表中语义分类标签kp与解析标签ki相同的分句个数,N为解析结果的分句列表中分句的个数;
ptrue(i)越大,则解析结果越正确;当ptrue(i)=1时,说明解析结果分句后的每一个分句语义上均符合解析标签语义内容。
所述整体质量评估模块对电子病历的解析标签ki字段的M条数据进行质量评估,M条数据解析的准确率如下:
Figure BDA0003618089030000092
其他标签在解析标签ki进行解析时被误掺入的概率如下:
Figure BDA0003618089030000101
其中,Mkp是指M条结构化文本结构化的分句中包含语义分类标签kp类分句的文本数量,Pkp表示M条待质量评估解析标签ki字段内容中掺杂了语义分类标签kp内容的数量;
当Pkp较大时,说明解析标签ki错误解析的原因是解析内容中掺杂了大量语义分类标签kp内容,从而缩小错误解析原因探查范围;为了提升解析文本质量,解析人员在分析基础上探查解析标签ki与语义分类标签kp内容的区别。
实施例1
(1)数据获取
从数据库中取得电子病历解析后数据,转换表结构,并将其送入分句模块进行分句处理。该部分最终获取数据的表结构如下:
Figure BDA0003618089030000102
需要注意的是,在实施中需要区分模型训练任务数据获取与质量评估任务数据获取。
在模型训练任务中,数据获取是对结构化电子病历数据库中每个标签内容进行随机采样100条数据,以保证在数据训练过程中样本的充足与平衡。
在质量评估任务中,数据获取是对结构化电子病历数据库中某一个标签下的数据进行提取,提取数量可根据质量评估任务需求定义,但必须保证每次质量评估任务只提取同一标签下的数据。
(2)分句
按照发明内容电子病历解析结果质量评估系统部分说明,对获取数据进行分句。分句结果将根据任务需求分发给语义评估模块或样本标注模块。其中,分句最大长度MAX_LEN初始值设为300,分割标点包含句号、逗号、分号。分句结果存入如下表结构:
Figure BDA0003618089030000111
(3)样本标注
样本标注模块的实施,分为确定待分类标签集合、样本筛选、负采样、划分四个部分。
1)确定待分类标签集合
用户在样本标注前需根据业务需要确定任务中要分类的类型。比如对入院记录中解析出的各标签内容解析质量的评估,那么标签集合就应该为[“主诉”,“现病史”,“家族史”,“个人史”,“婚育史”,“月经史”,“体格检查”,……]入院记录内可能解析出的标签集合。
2)样本筛选
依据分类标签内容,每个标签各从分句后的小句中随机100句小句,然后人工筛选,确定每个小句均属于对应标签。若用不属于的,再随机从分句模块输入的数据中筛选替换,组成初始样本集。
3)负采样
首先从分句模块输入的数据中筛选出标签不属于分类标签集合的所有小句。然后从这些小句中随机抽样100条,组成负样本,给这100条标签打上“无”的标签,编码为“-1”,并将其与初始样本集混合。
4)划分
将负采样结果与初始样本集混合后,打乱样本集中样本顺序,随机取其中80%标注为训练集,20%标注为测试集,构成最终样本集。最终样本集表结构如下:
Figure BDA0003618089030000121
(4)生成文本分类模型
基于样本标注模块标注的样本,适用fasttext框架进行模型训练,生成模型。模型训练中的主要参数取值初始如下:
样本迭代次数epoch=(150-500);
学习律lr=(0.1-1);
词的grams最大长度wordNgrams=2;
损失函数loss=”hs”。
其中epoch、lr可通过网格调优的方式进一步选取最优值,调优依据损失最小原则进行搜索选择。
通过以上参数训练所得模型将用于系统语义评估。
(5)单句质量评估
单句质量评估是使用生成的文本分类模型对待评估文本进行逐条评估的过程。分句所得结果经过文本分类模型分类后的数据存入如下表结构中,用于生成报告。同时生成结果需要存入数据库中用于溯源使用。
Figure BDA0003618089030000131
(6)整体质量评估
基于语义评估结果表内容,依据该基于文本分类算法的电子病历质量评估方法,计算解析准确率与其他标签被掺入的概率,并生成质量评估报告。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种基于文本分类算法的电子病历质量评估方法,其特征在于:基于自然语言处理模型,理解结构化电子病历中的文本语义,然后对解析后的文本进行分类,并与当前解析标签进行比对,从而判断解析的正确性;
包括以下步骤:
步骤S1、获取当前电子病历解析结果,解析结果形式如下:
[{k1:t1},{k2:t2},…{ki:ti}]ki∈K
其中,K为解析标签ki的集合,ti为电子病历后结构化结果;
步骤S2、对电子病历后结构化结果ti进行分句,分句结果如下:
[{k1:[t11,t12,t13…]},{k2:[t21,t22,t23…]},…{ki:[ti1,ti2,ti3…]}]ki∈K
步骤S3、将分句结果tij逐项输入到自然语言处理模型,对电子病历结构化结果进行质量评估,评估结果如下:
[{ki:{ti1:kp,ti2:kp,…tij:kp}}…]
其中,kp为自然语言处理模型对分句tij的分类结果,即语义分类标签;
若语义分类标签kp与解析标签ki相同,则说明分句tij分类正确;
步骤S4、逐个计算评估解析结果的准确率,计算公式如下:
Figure FDA0003618089020000011
其中,ptrue(i)为解析结果的准确率,Nki=kp为解析结果的分句列表中语义分类标签kp与解析标签ki相同的分句个数,N为解析结果的分句列表中分句的个数;
ptrue(i)越大,则解析结果越正确;当ptrue(i)=1时,说明解析结果分句后的每一个分句语义上均符合解析标签语义内容;
步骤S5、计算整体解析准确率,探寻错误解析原因:
对电子病历的解析标签ki字段的M条数据进行质量评估,M条数据解析的准确率如下:
Figure FDA0003618089020000021
其他标签在解析标签ki进行解析时被误掺入的概率如下:
Figure FDA0003618089020000022
其中,Mkp是指M条结构化文本结构化的分句中包含语义分类标签kp类分句的文本数量,Pkp表示M条待质量评估解析标签ki字段内容中掺杂了语义分类标签kp内容的数量;
当Pkp较大时,说明解析标签ki错误解析的原因是解析内容中掺杂了大量语义分类标签kp内容,从而缩小错误解析原因探查范围;为了提升解析文本质量,解析人员在分析基础上探查解析标签ki与语义分类标签kp内容的区别。
2.根据权利要求1所述的基于文本分类算法的电子病历质量评估方法,其特征在于:所述步骤S2中,结合电子病历文本段落中的标点符号以及自然语言处理模型输入最大长度进行分句处理,所述标点符号包括但不限于逗号、句号与分号;
对待分长句T进行分句处理时,分句允许最大长度为MAX_LEN,首先从前向后取出长度为MAX_LEN的短句ti;然后从后向前搜索逗号、句号与分号,并将发现的第一个标点符号后的内容放回原长句中,其余内容则为被分割出的第一个分句ti1;若从后向前搜索未发现包括逗号、句号与分号在内的任何标点符号,则将短句t直接作为第一个分句ti1;循环上述步骤即可将待分长句T分为若干分句,完成分句任务。
3.根据权利要求1所述的基于文本分类算法的电子病历质量评估方法,其特征在于:所述步骤S3中,采用fasttext模型作为自然语言处理模型。
4.一种基于文本分类算法的电子病历质量评估系统,其特征在于:基于自然语言处理模型理解结构化电子病历中的文本语义,然后对解析后的文本进行分类,并与当前解析标签进行比对,从而判断解析的正确性,包括分句模块,单据质量评估模块,整体质量评估模块和报告生成模块;
所述分句模负责对来自结构化病历数据库中解析的较长的结果语句进行拆分,为了拆分后小句的语义,在拆分时要保证短句长度小于语义评估模块中模型接收的最大长度,同时配合逗号、句号与分号进行分句处理;
所述单句质量评估模块用于将分句后的结果输入fasttext模型,完成对逐个长句的评估,并计算单个解析结果的准确率;评估结果在输入报告生成模块用于合成质量评估报告的同时,逐个长句的评估结果存储于数据库中,用于对报告内容进行溯源;
所述整体质量评估模块用于将单句质量评估模块得出的逐个长句的评估结果进行汇总,计算整体待评估解析结果的准确率以及其他各标签在解析时被误掺入的概率;
所述报告生成模块基于整体质量评估模块的评估结果生成评估报告。
5.根据权利要要求4所述的基于文本分类算法的电子病历质量评估系统,其特征在于:所述分句模块对待分长句T进行分句处理时,分句允许最大长度为MAX_LEN,首先从前向后取出长度为MAX_LEN的短句ti;然后从后向前搜索逗号、句号与分号,并将发现的第一个标点符号后的内容放回原长句中,其余内容则为被分割出的第一个分句ti1;若从后向前搜索未发现包括逗号、句号与分号在内的任何标点符号,则将短句t直接作为第一个分句ti1;循环上述步骤即可将待分长句T分为若干分句,完成分句任务;
电子病历中待分长句T的解析结果形式如下:
[{k1:t1},{k2:t2},…{ki:ti}]ki∈K
其中,K为解析标签ki的集合,ti为电子病历后结构化结果;
对短句ti进行分句,分句结果如下:
[{k1:[t11,t12,t13…]},{k2:[t21,t22,t23…]},…{ki:[ti1,ti2,ti3…]}]ki∈K。
6.根据权利要要求5所述的基于文本分类算法的电子病历质量评估系统,其特征在于:所述单句质量评估模块将分句结果tij逐项输入到自然语言处理模型,对电子病历结构化结果进行质量评估,评估结果如下:
[{ki:{ti1:kp,ti2:kp,…tij:kp}}…]
其中,kp为自然语言处理模型对分句tij的分类结果,即语义分类标签;
若语义分类标签kp与解析标签ki相同,则说明分句tij分类正确。
7.根据权利要要求6所述的基于文本分类算法的电子病历质量评估系统,其特征在于:所述单句质量评估模块逐个计算评估解析结果的准确率,计算公式如下:
Figure FDA0003618089020000041
其中,ptrue(i)为解析结果的准确率,Nki=kp为解析结果的分句列表中语义分类标签kp与解析标签ki相同的分句个数,N为解析结果的分句列表中分句的个数;
ptrue(i)越大,则解析结果越正确;当ptrue(i)=1时,说明解析结果分句后的每一个分句语义上均符合解析标签语义内容。
8.根据权利要求7所述的基于文本分类算法的电子病历质量评估系统,其特征在于:所述整体质量评估模块对电子病历的解析标签ki字段的M条数据进行质量评估,M条数据解析的准确率如下:
Figure FDA0003618089020000042
其他标签在解析标签ki进行解析时被误掺入的概率如下:
Figure FDA0003618089020000043
其中,Mkp是指M条结构化文本结构化的分句中包含语义分类标签kp类分句的文本数量,Pkp表示M条待质量评估解析标签ki字段内容中掺杂了语义分类标签kp内容的数量;
当Pkp较大时,说明解析标签ki错误解析的原因是解析内容中掺杂了大量语义分类标签kp内容,从而缩小错误解析原因探查范围;为了提升解析文本质量,解析人员在分析基础上探查解析标签ki与语义分类标签kp内容的区别。
CN202210449648.1A 2022-04-24 2022-04-24 一种基于文本分类算法的电子病历质量评估方法及系统 Pending CN114880471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210449648.1A CN114880471A (zh) 2022-04-24 2022-04-24 一种基于文本分类算法的电子病历质量评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210449648.1A CN114880471A (zh) 2022-04-24 2022-04-24 一种基于文本分类算法的电子病历质量评估方法及系统

Publications (1)

Publication Number Publication Date
CN114880471A true CN114880471A (zh) 2022-08-09

Family

ID=82670790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210449648.1A Pending CN114880471A (zh) 2022-04-24 2022-04-24 一种基于文本分类算法的电子病历质量评估方法及系统

Country Status (1)

Country Link
CN (1) CN114880471A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952121A (zh) * 2024-03-27 2024-04-30 北方健康医疗大数据科技有限公司 一种医疗文本的质量评估方法、系统、电子设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952121A (zh) * 2024-03-27 2024-04-30 北方健康医疗大数据科技有限公司 一种医疗文本的质量评估方法、系统、电子设备及介质

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取系统
CN111597356B (zh) 智能化教育知识图谱构建系统与方法
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN116775874B (zh) 一种基于多重语义信息的资讯智能分类方法及系统
CN112445894A (zh) 基于人工智能的商务智能系统及其分析方法
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN108536673B (zh) 新闻事件抽取方法及装置
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN105389303B (zh) 一种异源语料自动融合方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN109960730B (zh) 一种基于特征扩展的短文本分类方法、装置以及设备
CN111753536A (zh) 一种专利申请文本的自动撰写方法和装置
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN114880471A (zh) 一种基于文本分类算法的电子病历质量评估方法及系统
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
Mu et al. NERO: A text-based tool for content annotation and detection of smells in feature requests
CN112214999A (zh) 一种基于图模型和词向量相结合的词义消歧方法及装置
CN103034657B (zh) 文档摘要生成方法和装置
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN115563985A (zh) 语句分析方法、装置、设备、存储介质及程序产品
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN113779983A (zh) 文本数据处理方法以及装置、存储介质、电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination