CN115438198A

CN115438198A - 一种基于知识库的可解释性医疗数据结构化方法和系统

Info

Publication number: CN115438198A
Application number: CN202211385948.4A
Authority: CN
Inventors: 刘忠禹; 曾筱茜; 姚佳; 应志野; 付平; 李春漾
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2022-12-06
Anticipated expiration: 2042-11-07
Also published as: CN115438198B

Abstract

本发明属于医学数据处理技术领域，具体涉及一种基于知识库的可解释性医疗数据结构化方法和系统。本发明的方法包括如下步骤：输入待结构化医疗文本；通过医疗知识库指导生成正则式；利用知识抽取模型，采用所述正则式对所述待结构化医疗文本进行结构化处理；输出结构化处理的结果。本发明还提供用于实现上述方法的系统。本发明针对医疗文本数据实现了可解释可推理、鲁棒性强、可适配不同类别文本的结构化技术方案，具有很好的应用前景。

Description

一种基于知识库的可解释性医疗数据结构化方法和系统

技术领域

本发明属于医学数据处理技术领域，具体涉及一种基于知识库的可解释性医疗数据结构化方法和系统。

背景技术

医疗数据结构化是指利用自然语言处理（Natural Language Processing，NLP）等技术方法将医疗领域自由描述的自然语言文本数据（如入院病历、检查报告、病程记录等）转化为可检索、可分析、可计算的结构化医疗数据，主要针对具有医学意义的实体及实体属性、实体关系信息等进行解析和抽取，是实现疾病智能辅助诊疗的基础。

该领域的技术发展主要经历了“规则法——机器学习——深度学习”三个发展阶段，目前常用的医疗数据结构化技术主要是采用“预训练-微调”范式对超大参数量预训练语言模型（Pretrained Language Model，PLM）在特定语料中进行调优，从而适配下游特定领域的医疗文本结构化任务。当前Google、百度等基于自家开发的超大规模语言模型如BERT、ERNIE等构建了医学数据结构化接口、工具和系统。

然而，现有技术方法无法针对下游不同类型（如超声检查报告、病程记录等）或病种（如肝癌、乳腺癌、肾脏病等）的语料进行动态调整，同一套预训练模型无法对特定领域语料形成准确的语义表征，造成结构化处理结果偏差较大。此外，深度神经网络模型对于标注数据的数量及质量要求较高，对于数量较少（如标注数量较少的实体或关系类型）或者标注质量较差（如错标、漏标）的数据无法学习到准确的语义表征，从而造成下游预测阶段出现错误，降低结构化处理结果准确率。因此，本领域亟需一种适用于多种类型或病种的语料，且对训练的标注数据要求较低的医疗数据结构化方法和系统。

发明内容

针对现有技术中存在的问题，本发明提出一种基于知识库的可解释性医疗数据结构化方法和系统，目的在于实现一种适用于多种类型或病种的语料，对训练的标注数据要求较低且可解释性好的医疗数据结构化方法和系统。

一种基于知识库的可解释性医疗数据结构化方法，包括如下步骤：

步骤1，输入待结构化医疗文本；

步骤2，通过医疗知识库指导生成正则式；

步骤3，利用知识抽取模型，采用所述正则式对所述待结构化医疗文本进行结构化处理；

步骤4，输出结构化处理的结果。

优选的，所述步骤3还包括：对所述正则式或所述结构化处理的结果进行人工校正；采用校正后的正则式对对所述待结构化医疗文本进行结构化处理，并迭代至输出准确的结构化结果；将校正后的正则式更新至所述医疗知识库中。

优选的，所述医疗知识库基于对不同病种和不同类型的大规模医疗文本数据进行分析构建得到，所述医疗知识库包括医学实体、实体属性、结构化正则式及属性规范化函数。

优选的，所述知识抽取模型包括实体描述抽取模块、属性字段抽取模块和属性字段规范化模块。

优选的，所述实体描述抽取模块执行如下步骤：

步骤a1，接收待结构化医疗文本作为输入，从所述医疗知识库中获取当前实体正则层中的实体默认起始字符候选集及默认终止字符候选集；

步骤a2，通过遍历起始字符候选集及终止字符候选集，将所有起始字符和终止字符一一配对，生成实体抽取正则；

步骤a3，遍历完起始及终止字符集后，将所有正则抽取到的结果非空且字符数最少的作为最优结果，输出并传递到属性抽取模块。

优选的，所述属性字段抽取模块执行如下步骤：

步骤b1，接收实体抽取最优结果作为输入，从知识库中获取当前属性默认抽取正则，并对输入进行处理，同时计算当前正则覆盖率，公式如下：

覆盖率=抽取结果非空的文本数/输入文本总数×100%；

步骤b2，对当前正则生成的字典树进行剪枝和合并，生成新的正则并计算覆盖率，直至覆盖率不再提升；

步骤b3，以覆盖率最高的正则抽取结果作为最优结果，输出并传递到属性字段规范化模块。

优选的，所述属性字段规范化模块接收所述属性字段抽取模块的输出结果作为输入，从医疗知识库中获取当前属性规范化处理函数对输入的文本进行处理，输出最终属性规范化处理结果。

本发明还提供一种用于执行上述医疗数据结构化方法的系统，包括：

输入模块，用于输入待结构化医疗文本；

医疗知识库，用于存储病理知识图谱，指导生成正则式；

知识抽取模型，用于采用所述正则式对所述待结构化医疗文本进行结构化处理；

输出模块，用于输出结构化处理的结果。

优选的，还包括人机协同校正模块，用于对所述正则式或所述结构化处理的结果进行人工校正。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现上述医疗数据结构化方法。

本发明的技术方案具有如下有益的效果：

（1）针对现有技术的“预训练-微调”方法中模式固化，无法适配下游不同类型或病种语料的问题，本发明设计针对不同病种和医疗数据类型的医疗知识库作为基座，通过医疗知识库针对需要进行结构化抽取的医疗文本数据显式地生成融合知识的正则抽取方案，从而达到适配下游不同类型或病种语料并进行结构化的目的。此外，在进一步的优化方案中，抽取方案中的正则式由医生直接修改或者通过医生对数据进一步标注进行动态修正，进一步使得本发明的方法和系统适用于不同类型或病种的语料。

（2）针对现有技术的“预训练-微调”方法中结构化性能对标注数据数量及质量的强依赖问题，本发明设计的方法和系统并不需要大样本量的标注数据来进行训练，只依赖于医疗知识库作为构建知识抽取模型的先验条件，知识抽取模型中主要采用正则式作为抽取技术。此外，在优选的方案中，针对抽取错误的结构化结果，只需医生对正则式进行调整或者对小样本数据进行标注（例如对实体起始字符位置进行校正、对关系的头尾实体重新连接等），就能较为优秀地实现医疗文本数据的结构化抽取。并且，在此过程中通过提取医生标注过程中的医学知识，用于扩充或修正原有知识库，达到了对医生医学知识的充分利用。

（3）针对现有技术的“预训练-微调”方法中可解释性差、灵活度不高的问题，本发明设计的方法和系统利用医疗知识库和正则模型作为主要的结构化技术，将结构化推理链路进行了显式表达，可解释性良好。此外，在优选的方案中，可以通过对结构化结果的确认人工对抽取模型进行干预和校正，达到人机协同进行医疗文本结构化的目的，灵活度高可操作性好。

总之，本发明针对医疗文本数据实现了可解释可推理、鲁棒性强、可适配不同类别文本的结构化，具有很好的应用前景。

显然，根据本发明的上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，还可以做出其它多种形式的修改、替换或变更。

以下通过实施例形式的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。

附图说明

图1为医疗知识库的示意图；

图2为肾脏病病理知识图谱（部分）；

图3为基于知识库的可解释性医疗数据结构化方法的流程示意图；

图4为知识抽取模型的工作流程图。

具体实施方式

需要特别说明的是，实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法，以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。

实施例1 基于知识库的可解释性医疗数据结构化方法和系统

本实施例的系统包括：

输入模块，用于输入待结构化医疗文本；

医疗知识库，用于存储病理知识图谱，指导生成正则式；

人机协同校正模块，用于对所述正则式或所述结构化处理的结果进行人工校正；

输出模块，用于输出结构化处理的结果。

其中，医疗知识库如图1所示，基于对不同病种（肝癌、肾脏病、乳腺癌等）以及不同类型（病程记录、病理报告、超声报告等）的大规模医疗文本数据进行分析，构建得到，可适配不同种类医疗文本数据的结构化需求。以肾脏病病理知识图谱为例，该知识库主要存储了肾脏病病理报告中相关医学实体、实体属性、结构化正则式及属性规范化函数4个层次内容（图2）。其中，规范化处理函数可采用Python（v3.9）语言等现有的编程语言进行编写。医生可以针对输入的待结构化医疗文本数据，手动选择相应的知识图谱作为结构化模型的基础。

知识抽取模型分为实体描述抽取模块、属性字段抽取模块及属性字段规范化模块三个模块。实体描述抽取模块以待结构化医疗文本作为输入、输出实体最优抽取结果；属性字段抽取模块以实体抽取最优结果作为输入，输出属性最优抽取结果；属性字段规范化模块以属性抽取最优结果作为输入，输出属性规范化结果。

利用上述系统进行医疗数据结构化的方法如图3、4所示，包括如下步骤：

步骤1，输入待结构化医疗文本；

步骤2，通过医疗知识库指导生成正则式；

对所述正则式或所述结构化处理的结果进行人工校正；采用校正后的正则式对对所述待结构化医疗文本进行结构化处理，并迭代至输出准确的结构化结果；将校正后的正则式更新至所述医疗知识库中。

步骤4，输出结构化处理的结果。

其中，利用知识抽取模型进行医疗文本结构化处理的具体步骤如下：

① 实体描述抽取

实体描述抽取模块接收原始医疗文本作为输入，从医疗知识库中获取当前实体正则层中的实体默认起始字符候选集及默认终止字符候选集（若当前实体无默认终止字符候选集，则以当前实体兄弟节点及子节点的默认起始字符候选集作为当前实体终止字符候选集）。通过遍历起始字符候选集及终止字符候选集，将所有起始字符和终止字符一一配对，生成实体抽取正则。例如对肾小球实体，存在‘肾小球：’作为起始字符、‘肾小囊：’作为终止字符，则生成‘(肾小球：.+)肾小囊：’作为正则提取肾小球的实体描述。当遍历完起始及终止字符集后，将所有正则抽取到的结果非空且字符数最少的作为最优结果，输出并传递到属性抽取模块。

② 属性字段抽取

属性字段抽取模块接收实体抽取最优结果作为输入，从知识库中获取当前属性默认抽取正则，并对输入进行处理，同时计算当前正则覆盖率，公式如下：

覆盖率=抽取结果非空的文本数/输入文本总数×100%。

之后，对当前正则进行优化直至覆盖率不再提升，优化方案主要是对当前正则生成的字典树进行剪枝和合并，生成新的正则。最终以覆盖率最高的正则抽取结果作为最优结果，输出并传递到属性字段规范化模块。

③ 属性字段规范化

属性字段规范化模块接收属性字段抽取结果作为输入，从知识库中获取当前属性规范化处理函数对输入文本进行处理，输出最终属性规范化处理结果。

通过上述实施例中的方法和系统，针对医疗文本数据实现了可解释可推理、鲁棒性强、可适配不同类别文本的结构化技术方案。该技术方案对医疗文本抽取处理所获得的结构化结果可以用于疾病智能分析预测预警、智能辅助诊疗系统构建等领域，具有很好的应用前景。

Claims

1.一种基于知识库的可解释性医疗数据结构化方法，其特征在于，包括如下步骤：

步骤1，输入待结构化医疗文本；

步骤2，通过医疗知识库指导生成正则式；

步骤4，输出结构化处理的结果。

2.按照权利要求1所述的医疗数据结构化方法，其特征在于：所述步骤3还包括：对所述正则式或所述结构化处理的结果进行人工校正；采用校正后的正则式对对所述待结构化医疗文本进行结构化处理，并迭代至输出准确的结构化结果；将校正后的正则式更新至所述医疗知识库中。

3.按照权利要求1所述的医疗数据结构化方法，其特征在于：所述医疗知识库基于对不同病种和不同类型的大规模医疗文本数据进行分析构建得到，所述医疗知识库包括医学实体、实体属性、结构化正则式及属性规范化函数。

4.按照权利要求1所述的医疗数据结构化方法，其特征在于：所述知识抽取模型包括实体描述抽取模块、属性字段抽取模块和属性字段规范化模块。

5.按照权利要求4所述的医疗数据结构化方法，其特征在于：所述实体描述抽取模块执行如下步骤：

6.按照权利要求5所述的医疗数据结构化方法，其特征在于：所述属性字段抽取模块执行如下步骤：

覆盖率=抽取结果非空的文本数/输入文本总数×100%；

7.按照权利要求6所述的医疗数据结构化方法，其特征在于：所述属性字段规范化模块接收所述属性字段抽取模块的输出结果作为输入，从医疗知识库中获取当前属性规范化处理函数对输入的文本进行处理，输出最终属性规范化处理结果。

8.一种用于执行权利要求1-6任一项所述医疗数据结构化方法的系统，其特征在于，包括：

输入模块，用于输入待结构化医疗文本；

医疗知识库，用于存储病理知识图谱，指导生成正则式；

输出模块，用于输出结构化处理的结果。

9.按照权利要求8所述的系统，其特征在于：还包括人机协同校正模块，用于对所述正则式或所述结构化处理的结果进行人工校正。

10.一种计算机可读存储介质，其特征在于：其上存储有计算机程序，所述计算机程序用于实现权利要求1-6任一项所述的医疗数据结构化方法。