CN115312183A

CN115312183A - 医学检验报告智能解读方法及系统

Info

Publication number: CN115312183A
Application number: CN202210915393.3A
Authority: CN
Inventors: 侯剑平; 朱俊涛; 王康; 许亚洋; 冯晓鹏; 宋军瑞; 王超; 刘聪
Original assignee: Autobio Labtec Instruments Zhengzhou Co Ltd
Current assignee: Autobio Labtec Instruments Zhengzhou Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-08

Abstract

本发明公开了一种医学检验报告智能解读方法及系统，通过目标分割、OCR识别、标题关键词正则匹配，自动抽取检验项目知识；然后基于数据标注、实体识别模型、关系抽取模型构建所述检验项目知识三元组，并引入所述三元组属性组信息和空节点，区分需要联合出现的三元组，构建检验知识图谱；再通过单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析，完成检验报告中检验项目的结果解读。本发明优点在于提高了报告解读的适用性；预测疾病的同时可推荐需要进一步检验的项目，诊断准确与全面的优点，能辅助用户对患者数据进行深度分析与挖掘，为业务开展提供深度支撑。

Description

医学检验报告智能解读方法及系统

技术领域

本发明涉及医学检验报告解读研究领域，尤其是涉及医学检验报告智能解读方法及系统。

背景技术

医学检验报告智能解读包括检验知识库、检验报告解读和疾病预测三部分。在现有技术中，医学检验报告解读面临着需要科室技师手动翻询相关检验知识，缺乏对临床的项目解释及培训等缺点；在针对医学检验报告中的检验项目解读中，多为基于单个检验项目的解读，缺乏对多个检验项目的联合解读和检验项目数据分析的能力，且多采用人工维护规则模板的方式进行结果解读，效率低下，维护成本高，适用性不强。在疾病预测方面，除了乙肝等个别免疫项目可以用来预测疾病外，绝大多数检验报告无法通过多项目联合分析提供疾病预测，也无法站在医学实验室视角给临床提供相关检验项目推荐能力。

发明内容

本发明目的在于提供一种医学检验报告智能解读方法，本发明的另一目的在于提供一种医学检验报告智能解读系统。

为实现上述目的，本发明采取下述技术方案：

本发明所述的医学检验报告智能解读方法，包括以下步骤：

S1，通过目标分割、OCR识别、标题关键词正则匹配，自动抽取检验知识；

S2，基于数据标注、实体识别模型、关系抽取模型构建所述检验项目知识三元组，并引入所述三元组属性组信息和空节点，区分需要联合出现的三元组，构建检验知识图谱；

S3，通过单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析，完成检验报告中检验项目结果解读。

进一步地，还包括以下步骤：

S4，根据检验项目解读结果，依次采用基于规则引擎的疾病预测方法、基于知识图谱的疾病预测方法、基于数据建模的疾病预测方法的顺序预测疑似疾病，直到确定出所述疑似疾病；

S5，抽取所述疑似疾病的关键词，与案例库中的疾病主题词匹配，筛选与疑似疾病相关的案例。

进一步地，S2步中的所述检验知识图谱中实体类型包括检验项目、疾病、人群、检验结果、参考区间、药物；实体关系包括检验分组、疑似疾病、疾病大类、参考区间范围、适宜人群、药物干扰因素、生理干扰因素、其他干扰因素。

进一步地，S3步中所述单检验项目异常结果解读包括以下步骤：

S3.1，归一化计算所述单检验项目和单检验项目的检测结果；

S3.2，在所述检验项目知识图谱中查询与S3.1步归一化后的单检验项目和所述检测结果相匹配的所述三元组，并同义转换为临床意义、干扰因素知识内容；

所述多检验项目结果联合对比分析包括针对检验报告中的所有项目，同时对多个检验项目开展历史结果趋势图、阳性率统计图展示；

所述人群分布分析包括通过自动指定或人工指定，计算检验项目结果各区间的人数比例直方图，以及当前检验报告中检验项目结果在所述人数比例直方图中的区间位置；

所述两两检验项目结果分析包括对于数值-数值型检验项目，计算spearman相关性，绘制检验项目-检验项目散点图，并在散点图上显示检验项目的参考区间范围；对于类别-类别型检验项目，计算卡法检验相关性，绘制检验项目-检验项目列联表；

所述3D散点图分析以任意三个检验项目为X、Y、Z轴，按照疾病名称绘制所述三个检验项目的检测结果空间坐标点，分析三个检验项目与疾病的关联性；

所述检验雷达图分析是指使用雷达图展示，按科室、疾病、性别筛选历史检验报告中检验项目检验结果的分布情况。

进一步地，S4步中所述基于规则引擎的疾病预测方法包括以下步骤：

S4.1.1，通过拖拉拽的方式定义疾病决策树规则引擎；

S4.1.2，采用递归算法，对所述疾病决策树规则引擎中各子树分别抽取，形成独立规则，并将每个独立规则结构化为输入、规则、输出的形式；

S4.1.3，若检验报告中检验项目与某个独立规则所需的输入匹配率为1，则所述独立规则对应的疾病为疑似疾病；

S4.1.4，将检验报告中检验项目与各独立规则所需的输入匹配率大于0.5，小于1的独立规则对应的疾病，按照匹配率高低降序排序；

所述基于知识图谱的疾病预测方法包括以下步骤：

S4.2.1，将检验项目和检验结果归一化处理，作为输入；

S4.2.2，在检验项目知识图谱中查询与患者检验报告中每个检验项目的检验结果匹配的所有疑似疾病，统计每种疑似疾病检索到的次数，记为frequence；

S4.2.3，在检验项目知识图谱中查询每种疑似疾病相关的检验项目数量，记为count；

S4.2.4，计算每种疑似疾病的疑似得分score，其中score=frequence/count；score为1的疑似疾病为患者的疑似疾病；

所述基于数据建模的疾病预测方法包括以下步骤：

S4.3.1，收集特定疾病的患者检验检验报告数据为正样本，非特定疾病且存在与正样本相似的检验项目的报告数据为负样本，构建训练集-验证集-测试集；

S4.3.2，采用CatBoost机器学习算法构建疾病诊断分类模型；

S4.3.3，通过K折交叉验证确定疾病诊断分类模型的最优参数；

S4.3.4，经灵敏度、特异性、AUC、KS指标评价疾病诊断分类模型效果后，实施疾病预测。

进一步地，还包括推荐检验项目，具体内容为：

所述基于规则引擎的疾病预测方法确定疑似疾病后，将检验报告中检验项目与所述匹配率大于0.5且小于1的独立规则对应疾病的检验项目集合的差集作为推荐检验项目；

所述基于知识图谱的疾病预测方法确定疑似疾病后，将疑似得分score小于1的疑似疾病所需的检验项目集合与患者检验报告中的检验项目的差集作为推荐检验项目；

所述基于数据建模的疾病预测方法获得疑似疾病后，将疑似疾病所需的检验项目与患者检验报告中检验项目的差集作为推荐检验项目。

本发明所述的一种医学检验报告智能解读系统，包括检验知识库模块、异常解读模块、疾病预测模块；

其中，检验知识库模块，包括检验知识自动抽取模块与检验知识图谱构建模块；用于自动抽取检验知识，并构建检验知识图谱。

报告解读模块，包括单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析；用于解读医学检验报告中的检验项目结果；

疾病预测模块，包括疾病预测、检验项目推荐和疾病案例筛选推送。

本发明优点在于采用图像识别技术、NLP深度学习算法、知识图谱技术、决策引擎技术实现对医学检验报告智能解读。其依托自建的检验知识库，可对单检验项目解读或多检验项目联合解读，提高了报告解读的适用性；且其在整合了基于知识图谱、基于机器学习的疾病预测方法的同时，设计了基于自研规则引擎的算法，从疾病诊疗指南中抽取疾病的相关检验项目，构造决策树模型，预测疾病的同时可推荐需要进一步检验的项目，具有准确率高的特点。本发明具有诊断准确与全面的优点，能辅助用户对患者数据进行深度分析与挖掘，为业务开展提供深度支撑。

附图说明

图1是本发明所述方法的流程图。

图2是本发明所述方法中3D散点图的示意图。

图3是本发明所述方法中检验雷达图分析示意图。

图4是本发明所述决策树规则引擎示意图。

图5是本发明所述系统的框架图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明所述的医学检验报告智能解读方法，包括以下步骤：

S1，通过目标分割法、OCR识别、标题关键词匹配以及正则匹配，自动抽取检验项目知识；

具体的，对影印版医学教材图片、PDF、Word等指南知识源，输入相应的表格形式的目录结构，首先采用目标分割的方法把待识别内容切分成若干区域并排序，再采用OCR识别出已切分区域的文字内容，具体的对于其中的表格以及图片分别通过标题关键词匹配，对于知识层级、段落内容的，通过读取目录结构，采用正则匹配的方式识别。

S2，基于数据标注、实体识别模型、关系抽取模型构建所述检验项目知识三元组，并引入三元组属性组信息和空节点，区分需要联合出现的所述三元组，构建检验知识图谱。

具体的，通过数据标注在检验知识库部分语料上构建实体类型：检验项目、疾病、人群、检验结果、参考区间、药物；实体关系：检验分组、疑似疾病、疾病大类、参考区间范围、适宜人群、药物干扰因素、生理干扰因素、其他干扰因素的模型训练数据集，通过实体识别模型与关系抽取模型，对检验知识库未标注的语料数据上自动抽取新的实体关系三元组；在构建知识图谱方面，遵循引入三元组属性组及空节点的构建原则，对需要联合出现的检验项目知识三元组进行区分，构建检验知识图谱。

S3，通过单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析析、3D散点图分析、检验雷达图分析，完成检验报告检验项目结果解读，极大地提高了报告解读的适用性。

具体的，所述单检验项目异常结果解读包括以下步骤：

S3.1，归一化计算所述单检验项目和单检验项目的检测结果；

检验项目归一化分两部分，对于中文名称的检验项目采用TF-IDF词向量余弦相似度融合模糊匹配的方式计算。对于英文缩写的检验项目采用基于检验项目英文简写字典的方式进行匹配。

对于数值型检验结果的归一化，是指分别将检验结果根据参考区间转换为升高、降低、正常；对于类别型检验结果的归一化，是指分别将检验结果根据参考区间转换为阳性、阴性、正常、+，++，+++等。

S3.2，在所述检验项目知识图谱中查询与S3.1步归一化后的单检验项目和所述检测结果相匹配的所述三元组，然后同将三元组同义转换为临床意义、干扰因素知识内容；

归一化后的单检验项目和检测结果作为输入，在检验项目知识图谱中查询相应的属性组检验项目知识三元组，将查询结果按模板同义转换为临床意义、干扰因素知识内容。

具体的，对检验报告单中的所有项目，支持对多个项目同时开展历史结果趋势图、阳性率统计图展示。历史结果趋势图是指由该患者所选项目的历史结果，当次报告结果、及对应报告时间绘制。

阳性率统计图是指由所选项目的历史结果，以天为单位绘制的折线图，根据所收集数据不同，可按送检科室筛选计算。

所述人群分布分析包括通过自动指定或人工指定，计算检验项目结果各区间的人数比例直方图，以及当前检验项目结果在所述人数比例直方图中的区间位置；

其中，自动指定即对数值型检验项目结果按（极大值，参考区间上限）、（参考区间上限，参考区间下限）、（参考区间下限，极小值）三个区间划分数据，并对每一区间内采用指定等宽的离散化策略处理，其中极大值和极小值是检验项目的历史最大值和最小值。

所述3D散点图分析是指以任意三个检验项目为X、Y、Z轴，按照疾病名称，使用不同形状颜色绘制三个检验项目的检测结果在X、Y、Z轴组成的三维空间中的位置，用于分析检验项目的的检测结果与不同疾病的聚集关系。如图2所示，为3D散点图的示意图。

所述检验雷达图分析是指使用雷达图展示，按科室、疾病、性别等筛选历史检验报告中检验项目检验结果的分布情况。其具体方法为：对检验项目的检验结果进行分段归一化，使所有检验结果能在同一量纲下以雷达图表示。其中患者检验结果小于其对应的检验项目参考区间下限的，归一化到0~1/3范围；患者检验结果大于其对应的检验项目参考区间下限，小于其对应的检验项目参考区间上限的，归一化到1/3~2/3范围；患者检验结果大于其对应的检验项目参考区间上限的，归一化到2/3~1范围。如图3所示，为检验雷达图分析示意图。

本发明所述的医学检验报告智能解读方法，还包括

S4，疑似疾病预测及推荐检验项目；

根据检验项目解读结果，依次采用基于规则引擎的疾病预测方法、基于知识图谱的疾病预测方法、基于数据建模的疾病预测方法的顺序预测疑似疾病，直到确定出所述疑似疾病；

基于规则引擎的疾病预测方法，需要构造不同疾病的决策树规则引擎。如图4所示为决策树规则引擎示意图。

决策树规则引擎支持拖拉拽的方式定义，采用递归算法，对决策树中的各子树分别抽取，形成独立规则，并将每个独立规则结构化为输入（即检测项目）、规则、输出的形式。若检验报告中检验项目与某个决策树诊断图中独立规则所需的输入匹配率为1，则该独立规则对应的疾病为疑似疾病。若检验报告中检验项目与决策树诊断图中独立规则所需的输入匹配率大于0.5，小于1时，将患者检验报告中的检验项目与决策树诊断图中独立规则所需输入的检测项目进行对比，两者的差集作为推荐检验项目，同时按照匹配率的高低降序排序所有的疑似疾病，以供参考。

基于知识图谱的疾病预测方法，首先将检验项目和检验结果归一化计算。检验项目归一化分两部分，对于中文检验项目名称，采用词向量余弦相似度融合模糊匹配的方式计算，对于英文检验项目缩写，基于检验项目英文简写字典的方式进行匹配。对于数值型检验结果的归一化，分别将检验结果根据参考区间转换为升高、降低、正常；对于类别型检验结果的归一化，分别将检验结果根据参考区间转换为阳性、阴性、正常、+，++，+++等。把归一化后的检验项目名称与检验结果作为输入，并执行以下步骤：

（1）在检验项目知识图谱中查询与患者检验报告中每个检验项目的检验结果匹配的所有疑似疾病，统计每种疑似疾病检索到的次数，记为frequence；

（2）在检验项目知识图谱中查询每种疑似疾病相关的检验项目数量，记为count；

（3）计算每种疑似疾病的疑似得分score，其中score=frequence/count。将所有疑似疾病按照疑似得分score降序排序，确定疑似疾病；

（4）将疑似得分score小于1的疑似疾病所需的检验项目集合与患者检验报告中的检验项目对比，两者的差集作为推荐检测项目。

基于数据建模的疾病预测方法，收集特定疾病的患者检验检验报告数据为正样本，非特定疾病且存在与正样本相似的检验项目的报告单数据为负样本，构建训练集-验证集-测试集；采用CatBoost机器学习算法构建疾病诊断分类模型，通过K折交叉验证确定疾病诊断分类模型的最优参数，经灵敏度、特异性、AUC、KS指标评价疾病诊断分类模型效果后，实施疾病预测，得到疑似疾病集。根据患者检验检验报告数据输出患者患疑似疾病的概率降序排列，将疑似疾病所需的检验项目与患者检验报告中检验项目比较，取两者的差集作为推荐检验项目。

以上三种疾病预测方法中，基于规则引擎的疾病预测方法优先于基于知识图谱的疾病预测方法；基于知识图谱的疾病预测方法优先于基于数据建模的疾病预测方法，在对患者检验报告进行疾病预测时，按照上述优先级进行疾病预测，解决了不能通过医学实验室视角的提供有效的疾病预测与检验项目推荐的问题。

S5，抽取疑似疾病，并与案例库中的疾病主题词匹配，筛选疑似疾病相关的案例。

具体的，通过将疑似疾病与案例库中疾病的主题词匹配，筛选出疑似疾病相关的案例。案例中的疾病主题词采用为基于BERT预训练模型的NER模型实现疾病实体识别，并采用TF-IDF/TextRank算法进行主题词权重计算和排序。

匹配方式首选为基于疾病字典的完全匹配，若无法获取匹配结果，则将疑似疾病名称转化为向量编码，采用余弦相似度计算与预测疾病相似度最高的疾病主题词，把对应的疾病案例作为相关案例。

如图5所示，本发明所述的一种医学检验报告智能解读系统，包括检验知识库模块、异常解读模块、疾病预测模块；

其中，检验知识库模块，包括检验知识自动抽取模块与检验知识图谱构建，用于自动抽取检验知识，并构建检验知识图谱。

异常解读模块，包括单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析；用于解读医学检验报告中的检验项目结果；

疾病预测模块，包括疾病预测、检测项目推荐和疾病案例筛选。

Claims

1.一种医学检验报告智能解读方法，其特征在于，包括以下步骤：

S1，通过目标分割、OCR识别、标题关键词正则匹配，自动抽取检验项目知识；

S3，通过单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析，完成检验报告中检验项目的结果解读。

2.根据权利要求1所述的医学检验报告智能解读方法，其特征在于：还包括以下步骤：

S4，根据所述结果解读，依次采用基于规则引擎的疾病预测方法、基于知识图谱的疾病预测方法、基于数据建模的疾病预测方法的顺序预测疑似疾病，直到确定出所述疑似疾病；

S5，抽取疑似疾病的关键词，与案例库中的疾病主题词匹配，筛选与疑似疾病相关的案例。

3.根据权利要求1所述的医学检验报告智能解读方法，其特征在于：S2步中的所述检验知识图谱中实体类型包括检验项目、疾病、人群、检验结果、参考区间、药物；实体关系包括检验分组、疑似疾病、疾病大类、参考区间范围、适宜人群、药物干扰因素、生理干扰因素、其他干扰因素。

4.根据权利要求1所述的医学检验报告智能解读方法，其特征在于：S3步中所述单检验项目异常结果解读包括以下步骤：

S3.1，归一化计算单个所述检验项目及其检测结果；

S3.2，在所述检验知识图谱中查询与S3.1步归一化后的检验项目及其检测结果相匹配的所述三元组，同义转换为临床意义、干扰因素知识内容；

所述多检验项目结果联合对比分析包括针对检验报告中的所有检验项目，同时对多个检验项目开展历史结果趋势图、阳性率统计图展示；

所述人群分布分析包括通过自动指定或人工指定，计算检验项目的检验结果在各检验结果区间的人数比例直方图，以及当前检验报告中检验项目的检验结果在所述人数比例直方图中的区间位置；

所述3D散点图分析以任意三个检验项目构建空间坐标系，按照疾病名称绘制所述三个检验项目的检测结果在空间坐标系的位置，分析三个检验项目与疾病的关联性；

所述检验雷达图分析是指使用雷达图展示，按科室、疾病、性别筛选历史检验报告中检验项目的检验结果的分布情况。

5.根据权利要求2所述的医学检验报告智能解读方法，其特征在于：S4步中所述基于规则引擎的疾病预测方法包括以下步骤：

S4.1.1，通过拖拉拽的方式定义疾病决策树规则引擎；

S4.1.2，采用递归算法，对所述疾病决策树规则引擎中各子树分别抽取，形成独立规则，并将每个所述独立规则结构化为输入、规则、输出的形式；

S4.1.3，若检验报告中所述检验项目与某个独立规则所需的输入匹配率为1，则独立规则对应的疾病为疑似疾病；

所述基于知识图谱的疾病预测方法包括以下步骤：

S4.2.1，将检验项目及其检验结果归一化处理，作为输入；

S4.2.2，在所述检验知识图谱中查询与患者检验报告中每个检验项目的检验结果匹配的所有疑似疾病，统计每种疑似疾病检索到的次数，记为frequence；

S4.2.3，在检验知识图谱中查询每种疑似疾病相关的检验项目数量，记为count；

所述基于数据建模的疾病预测方法包括以下步骤：

S4.3.1，收集特定疾病的患者检验报告数据为正样本，非特定疾病且存在与正样本相似的检验项目的报告数据为负样本，构建训练集-验证集-测试集；

S4.3.2，采用CatBoost机器学习算法构建疾病诊断分类模型；

S4.3.3，通过K折交叉验证确定所述疾病诊断分类模型的最优参数；

6.根据权利要求5所述的医学检验报告智能解读方法，其特征在于：还包括推荐检验项目，具体内容为：

所述基于规则引擎的疾病预测方法确定所述疑似疾病后，将所述匹配率大于0.5且小于1的所述独立规则对应的疾病的检验项目集合，与患者检验报告的所有所述检验项目的差集作为推荐检验项目；

所述基于知识图谱的疾病预测方法确定疑似疾病后，将疑似得分score小于1的疑似疾病所需的检验项目集合与患者检验报告的所有检验项目的差集作为推荐检验项目；

所述基于数据建模的疾病预测方法获得疑似疾病后，将疑似疾病所需的检验项目与患者检验报告的所有检验项目的差集作为推荐检验项目。

7.一种医学检验报告智能解读系统，其特征在于：包括检验知识库模块、异常解读模块、疾病预测模块；

其中，所述检验知识库模块，包括检验知识自动抽取模块与检验知识图谱构建模块；用于自动抽取检验知识，并构建检验知识图谱；

所述报告解读模块，包括单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析；用于解读医学检验报告中的检验项目结果；

所述疾病预测模块，包括疾病预测、检验项目推荐和疾病案例筛选推送。