CN115312183A - 医学检验报告智能解读方法及系统 - Google Patents
医学检验报告智能解读方法及系统 Download PDFInfo
- Publication number
- CN115312183A CN115312183A CN202210915393.3A CN202210915393A CN115312183A CN 115312183 A CN115312183 A CN 115312183A CN 202210915393 A CN202210915393 A CN 202210915393A CN 115312183 A CN115312183 A CN 115312183A
- Authority
- CN
- China
- Prior art keywords
- inspection
- test
- disease
- item
- report
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000002558 medical inspection Methods 0.000 title abstract description 6
- 201000010099 disease Diseases 0.000 claims abstract description 162
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 162
- 238000007689 inspection Methods 0.000 claims abstract description 149
- 238000004458 analytical method Methods 0.000 claims abstract description 49
- 238000010586 diagram Methods 0.000 claims abstract description 32
- 230000002159 abnormal effect Effects 0.000 claims abstract description 12
- 238000003745 diagnosis Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000010835 comparative analysis Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 149
- 238000001514 detection method Methods 0.000 claims description 20
- 238000003066 decision tree Methods 0.000 claims description 13
- 238000013145 classification model Methods 0.000 claims description 9
- 229940079593 drug Drugs 0.000 claims description 6
- 239000003814 drug Substances 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000010339 medical test Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 3
- 238000011161 development Methods 0.000 abstract description 2
- 230000018109 developmental process Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 238000010606 normalization Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
本发明公开了一种医学检验报告智能解读方法及系统,通过目标分割、OCR识别、标题关键词正则匹配,自动抽取检验项目知识;然后基于数据标注、实体识别模型、关系抽取模型构建所述检验项目知识三元组,并引入所述三元组属性组信息和空节点,区分需要联合出现的三元组,构建检验知识图谱;再通过单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析,完成检验报告中检验项目的结果解读。本发明优点在于提高了报告解读的适用性;预测疾病的同时可推荐需要进一步检验的项目,诊断准确与全面的优点,能辅助用户对患者数据进行深度分析与挖掘,为业务开展提供深度支撑。
Description
技术领域
本发明涉及医学检验报告解读研究领域,尤其是涉及医学检验报告智能解读方法及系统。
背景技术
医学检验报告智能解读包括检验知识库、检验报告解读和疾病预测三部分。在现有技术中,医学检验报告解读面临着需要科室技师手动翻询相关检验知识,缺乏对临床的项目解释及培训等缺点;在针对医学检验报告中的检验项目解读中,多为基于单个检验项目的解读,缺乏对多个检验项目的联合解读和检验项目数据分析的能力,且多采用人工维护规则模板的方式进行结果解读,效率低下,维护成本高,适用性不强。在疾病预测方面,除了乙肝等个别免疫项目可以用来预测疾病外,绝大多数检验报告无法通过多项目联合分析提供疾病预测,也无法站在医学实验室视角给临床提供相关检验项目推荐能力。
发明内容
本发明目的在于提供一种医学检验报告智能解读方法,本发明的另一目的在于提供一种医学检验报告智能解读系统。
为实现上述目的,本发明采取下述技术方案:
本发明所述的医学检验报告智能解读方法,包括以下步骤:
S1,通过目标分割、OCR识别、标题关键词正则匹配,自动抽取检验知识;
S2,基于数据标注、实体识别模型、关系抽取模型构建所述检验项目知识三元组,并引入所述三元组属性组信息和空节点,区分需要联合出现的三元组,构建检验知识图谱;
S3,通过单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析,完成检验报告中检验项目结果解读。
进一步地,还包括以下步骤:
S4,根据检验项目解读结果,依次采用基于规则引擎的疾病预测方法、基于知识图谱的疾病预测方法、基于数据建模的疾病预测方法的顺序预测疑似疾病,直到确定出所述疑似疾病;
S5,抽取所述疑似疾病的关键词,与案例库中的疾病主题词匹配,筛选与疑似疾病相关的案例。
进一步地,S2步中的所述检验知识图谱中实体类型包括检验项目、疾病、人群、检验结果、参考区间、药物;实体关系包括检验分组、疑似疾病、疾病大类、参考区间范围、适宜人群、药物干扰因素、生理干扰因素、其他干扰因素。
进一步地,S3步中所述单检验项目异常结果解读包括以下步骤:
S3.1,归一化计算所述单检验项目和单检验项目的检测结果;
S3.2,在所述检验项目知识图谱中查询与S3.1步归一化后的单检验项目和所述检测结果相匹配的所述三元组,并同义转换为临床意义、干扰因素知识内容;
所述多检验项目结果联合对比分析包括针对检验报告中的所有项目,同时对多个检验项目开展历史结果趋势图、阳性率统计图展示;
所述人群分布分析包括通过自动指定或人工指定,计算检验项目结果各区间的人数比例直方图,以及当前检验报告中检验项目结果在所述人数比例直方图中的区间位置;
所述两两检验项目结果分析包括对于数值-数值型检验项目,计算spearman相关性,绘制检验项目-检验项目散点图,并在散点图上显示检验项目的参考区间范围;对于类别-类别型检验项目,计算卡法检验相关性,绘制检验项目-检验项目列联表;
所述3D散点图分析以任意三个检验项目为X、Y、Z轴,按照疾病名称绘制所述三个检验项目的检测结果空间坐标点,分析三个检验项目与疾病的关联性;
所述检验雷达图分析是指使用雷达图展示,按科室、疾病、性别筛选历史检验报告中检验项目检验结果的分布情况。
进一步地,S4步中所述基于规则引擎的疾病预测方法包括以下步骤:
S4.1.1,通过拖拉拽的方式定义疾病决策树规则引擎;
S4.1.2,采用递归算法,对所述疾病决策树规则引擎中各子树分别抽取,形成独立规则,并将每个独立规则结构化为输入、规则、输出的形式;
S4.1.3,若检验报告中检验项目与某个独立规则所需的输入匹配率为1,则所述独立规则对应的疾病为疑似疾病;
S4.1.4,将检验报告中检验项目与各独立规则所需的输入匹配率大于0.5,小于1的独立规则对应的疾病,按照匹配率高低降序排序;
所述基于知识图谱的疾病预测方法包括以下步骤:
S4.2.1,将检验项目和检验结果归一化处理,作为输入;
S4.2.2,在检验项目知识图谱中查询与患者检验报告中每个检验项目的检验结果匹配的所有疑似疾病,统计每种疑似疾病检索到的次数,记为frequence;
S4.2.3,在检验项目知识图谱中查询每种疑似疾病相关的检验项目数量,记为count;
S4.2.4,计算每种疑似疾病的疑似得分score,其中score=frequence/count;score为1的疑似疾病为患者的疑似疾病;
所述基于数据建模的疾病预测方法包括以下步骤:
S4.3.1,收集特定疾病的患者检验检验报告数据为正样本,非特定疾病且存在与正样本相似的检验项目的报告数据为负样本,构建训练集-验证集-测试集;
S4.3.2,采用CatBoost机器学习算法构建疾病诊断分类模型;
S4.3.3,通过K折交叉验证确定疾病诊断分类模型的最优参数;
S4.3.4,经灵敏度、特异性、AUC、KS指标评价疾病诊断分类模型效果后,实施疾病预测。
进一步地,还包括推荐检验项目,具体内容为:
所述基于规则引擎的疾病预测方法确定疑似疾病后,将检验报告中检验项目与所述匹配率大于0.5且小于1的独立规则对应疾病的检验项目集合的差集作为推荐检验项目;
所述基于知识图谱的疾病预测方法确定疑似疾病后,将疑似得分score小于1的疑似疾病所需的检验项目集合与患者检验报告中的检验项目的差集作为推荐检验项目;
所述基于数据建模的疾病预测方法获得疑似疾病后,将疑似疾病所需的检验项目与患者检验报告中检验项目的差集作为推荐检验项目。
本发明所述的一种医学检验报告智能解读系统,包括检验知识库模块、异常解读模块、疾病预测模块;
其中,检验知识库模块,包括检验知识自动抽取模块与检验知识图谱构建模块;用于自动抽取检验知识,并构建检验知识图谱。
报告解读模块,包括单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析;用于解读医学检验报告中的检验项目结果;
疾病预测模块,包括疾病预测、检验项目推荐和疾病案例筛选推送。
本发明优点在于采用图像识别技术、NLP深度学习算法、知识图谱技术、决策引擎技术实现对医学检验报告智能解读。其依托自建的检验知识库,可对单检验项目解读或多检验项目联合解读,提高了报告解读的适用性;且其在整合了基于知识图谱、基于机器学习的疾病预测方法的同时,设计了基于自研规则引擎的算法,从疾病诊疗指南中抽取疾病的相关检验项目,构造决策树模型,预测疾病的同时可推荐需要进一步检验的项目,具有准确率高的特点。本发明具有诊断准确与全面的优点,能辅助用户对患者数据进行深度分析与挖掘,为业务开展提供深度支撑。
附图说明
图1是本发明所述方法的流程图。
图2是本发明所述方法中3D散点图的示意图。
图3是本发明所述方法中检验雷达图分析示意图。
图4是本发明所述决策树规则引擎示意图。
图5是本发明所述系统的框架图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明所述的医学检验报告智能解读方法,包括以下步骤:
S1,通过目标分割法、OCR识别、标题关键词匹配以及正则匹配,自动抽取检验项目知识;
具体的,对影印版医学教材图片、PDF、Word等指南知识源,输入相应的表格形式的目录结构,首先采用目标分割的方法把待识别内容切分成若干区域并排序,再采用OCR识别出已切分区域的文字内容,具体的对于其中的表格以及图片分别通过标题关键词匹配,对于知识层级、段落内容的,通过读取目录结构,采用正则匹配的方式识别。
S2,基于数据标注、实体识别模型、关系抽取模型构建所述检验项目知识三元组,并引入三元组属性组信息和空节点,区分需要联合出现的所述三元组,构建检验知识图谱。
具体的,通过数据标注在检验知识库部分语料上构建实体类型:检验项目、疾病、人群、检验结果、参考区间、药物;实体关系:检验分组、疑似疾病、疾病大类、参考区间范围、适宜人群、药物干扰因素、生理干扰因素、其他干扰因素的模型训练数据集,通过实体识别模型与关系抽取模型,对检验知识库未标注的语料数据上自动抽取新的实体关系三元组;在构建知识图谱方面,遵循引入三元组属性组及空节点的构建原则,对需要联合出现的检验项目知识三元组进行区分,构建检验知识图谱。
S3,通过单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析析、3D散点图分析、检验雷达图分析,完成检验报告检验项目结果解读,极大地提高了报告解读的适用性。
具体的,所述单检验项目异常结果解读包括以下步骤:
S3.1,归一化计算所述单检验项目和单检验项目的检测结果;
检验项目归一化分两部分,对于中文名称的检验项目采用TF-IDF词向量余弦相似度融合模糊匹配的方式计算。对于英文缩写的检验项目采用基于检验项目英文简写字典的方式进行匹配。
对于数值型检验结果的归一化,是指分别将检验结果根据参考区间转换为升高、降低、正常;对于类别型检验结果的归一化,是指分别将检验结果根据参考区间转换为阳性、阴性、正常、+,++,+++等。
S3.2,在所述检验项目知识图谱中查询与S3.1步归一化后的单检验项目和所述检测结果相匹配的所述三元组,然后同将三元组同义转换为临床意义、干扰因素知识内容;
归一化后的单检验项目和检测结果作为输入,在检验项目知识图谱中查询相应的属性组检验项目知识三元组,将查询结果按模板同义转换为临床意义、干扰因素知识内容。
所述多检验项目结果联合对比分析包括针对检验报告中的所有项目,同时对多个检验项目开展历史结果趋势图、阳性率统计图展示;
具体的,对检验报告单中的所有项目,支持对多个项目同时开展历史结果趋势图、阳性率统计图展示。历史结果趋势图是指由该患者所选项目的历史结果,当次报告结果、及对应报告时间绘制。
阳性率统计图是指由所选项目的历史结果,以天为单位绘制的折线图,根据所收集数据不同,可按送检科室筛选计算。
所述人群分布分析包括通过自动指定或人工指定,计算检验项目结果各区间的人数比例直方图,以及当前检验项目结果在所述人数比例直方图中的区间位置;
其中,自动指定即对数值型检验项目结果按(极大值,参考区间上限)、(参考区间上限,参考区间下限)、(参考区间下限,极小值)三个区间划分数据,并对每一区间内采用指定等宽的离散化策略处理,其中极大值和极小值是检验项目的历史最大值和最小值。
所述两两检验项目结果分析包括对于数值-数值型检验项目,计算spearman相关性,绘制检验项目-检验项目散点图,并在散点图上显示检验项目的参考区间范围;对于类别-类别型检验项目,计算卡法检验相关性,绘制检验项目-检验项目列联表;
所述3D散点图分析是指以任意三个检验项目为X、Y、Z轴,按照疾病名称,使用不同形状颜色绘制三个检验项目的检测结果在X、Y、Z轴组成的三维空间中的位置,用于分析检验项目的的检测结果与不同疾病的聚集关系。如图2所示,为3D散点图的示意图。
所述检验雷达图分析是指使用雷达图展示,按科室、疾病、性别等筛选历史检验报告中检验项目检验结果的分布情况。其具体方法为:对检验项目的检验结果进行分段归一化,使所有检验结果能在同一量纲下以雷达图表示。其中患者检验结果小于其对应的检验项目参考区间下限的,归一化到0~1/3范围;患者检验结果大于其对应的检验项目参考区间下限,小于其对应的检验项目参考区间上限的,归一化到1/3~2/3范围;患者检验结果大于其对应的检验项目参考区间上限的,归一化到2/3~1范围。如图3所示,为检验雷达图分析示意图。
本发明所述的医学检验报告智能解读方法,还包括
S4,疑似疾病预测及推荐检验项目;
根据检验项目解读结果,依次采用基于规则引擎的疾病预测方法、基于知识图谱的疾病预测方法、基于数据建模的疾病预测方法的顺序预测疑似疾病,直到确定出所述疑似疾病;
基于规则引擎的疾病预测方法,需要构造不同疾病的决策树规则引擎。如图4所示为决策树规则引擎示意图。
决策树规则引擎支持拖拉拽的方式定义,采用递归算法,对决策树中的各子树分别抽取,形成独立规则,并将每个独立规则结构化为输入(即检测项目)、规则、输出的形式。若检验报告中检验项目与某个决策树诊断图中独立规则所需的输入匹配率为1,则该独立规则对应的疾病为疑似疾病。若检验报告中检验项目与决策树诊断图中独立规则所需的输入匹配率大于0.5,小于1时,将患者检验报告中的检验项目与决策树诊断图中独立规则所需输入的检测项目进行对比,两者的差集作为推荐检验项目,同时按照匹配率的高低降序排序所有的疑似疾病,以供参考。
基于知识图谱的疾病预测方法,首先将检验项目和检验结果归一化计算。检验项目归一化分两部分,对于中文检验项目名称,采用词向量余弦相似度融合模糊匹配的方式计算,对于英文检验项目缩写,基于检验项目英文简写字典的方式进行匹配。对于数值型检验结果的归一化,分别将检验结果根据参考区间转换为升高、降低、正常;对于类别型检验结果的归一化,分别将检验结果根据参考区间转换为阳性、阴性、正常、+,++,+++等。把归一化后的检验项目名称与检验结果作为输入,并执行以下步骤:
(1)在检验项目知识图谱中查询与患者检验报告中每个检验项目的检验结果匹配的所有疑似疾病,统计每种疑似疾病检索到的次数,记为frequence;
(2)在检验项目知识图谱中查询每种疑似疾病相关的检验项目数量,记为count;
(3)计算每种疑似疾病的疑似得分score,其中score=frequence/count。将所有疑似疾病按照疑似得分score降序排序,确定疑似疾病;
(4)将疑似得分score小于1的疑似疾病所需的检验项目集合与患者检验报告中的检验项目对比,两者的差集作为推荐检测项目。
基于数据建模的疾病预测方法,收集特定疾病的患者检验检验报告数据为正样本,非特定疾病且存在与正样本相似的检验项目的报告单数据为负样本,构建训练集-验证集-测试集;采用CatBoost机器学习算法构建疾病诊断分类模型,通过K折交叉验证确定疾病诊断分类模型的最优参数,经灵敏度、特异性、AUC、KS指标评价疾病诊断分类模型效果后,实施疾病预测,得到疑似疾病集。根据患者检验检验报告数据输出患者患疑似疾病的概率降序排列,将疑似疾病所需的检验项目与患者检验报告中检验项目比较,取两者的差集作为推荐检验项目。
以上三种疾病预测方法中,基于规则引擎的疾病预测方法优先于基于知识图谱的疾病预测方法;基于知识图谱的疾病预测方法优先于基于数据建模的疾病预测方法,在对患者检验报告进行疾病预测时,按照上述优先级进行疾病预测,解决了不能通过医学实验室视角的提供有效的疾病预测与检验项目推荐的问题。
S5,抽取疑似疾病,并与案例库中的疾病主题词匹配,筛选疑似疾病相关的案例。
具体的,通过将疑似疾病与案例库中疾病的主题词匹配,筛选出疑似疾病相关的案例。案例中的疾病主题词采用为基于BERT预训练模型的NER模型实现疾病实体识别,并采用TF-IDF/TextRank算法进行主题词权重计算和排序。
匹配方式首选为基于疾病字典的完全匹配,若无法获取匹配结果,则将疑似疾病名称转化为向量编码,采用余弦相似度计算与预测疾病相似度最高的疾病主题词,把对应的疾病案例作为相关案例。
如图5所示,本发明所述的一种医学检验报告智能解读系统,包括检验知识库模块、异常解读模块、疾病预测模块;
其中,检验知识库模块,包括检验知识自动抽取模块与检验知识图谱构建,用于自动抽取检验知识,并构建检验知识图谱。
异常解读模块,包括单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析;用于解读医学检验报告中的检验项目结果;
疾病预测模块,包括疾病预测、检测项目推荐和疾病案例筛选。
Claims (7)
1.一种医学检验报告智能解读方法,其特征在于,包括以下步骤:
S1,通过目标分割、OCR识别、标题关键词正则匹配,自动抽取检验项目知识;
S2,基于数据标注、实体识别模型、关系抽取模型构建所述检验项目知识三元组,并引入所述三元组属性组信息和空节点,区分需要联合出现的三元组,构建检验知识图谱;
S3,通过单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析,完成检验报告中检验项目的结果解读。
2.根据权利要求1所述的医学检验报告智能解读方法,其特征在于:还包括以下步骤:
S4,根据所述结果解读,依次采用基于规则引擎的疾病预测方法、基于知识图谱的疾病预测方法、基于数据建模的疾病预测方法的顺序预测疑似疾病,直到确定出所述疑似疾病;
S5,抽取疑似疾病的关键词,与案例库中的疾病主题词匹配,筛选与疑似疾病相关的案例。
3.根据权利要求1所述的医学检验报告智能解读方法,其特征在于:S2步中的所述检验知识图谱中实体类型包括检验项目、疾病、人群、检验结果、参考区间、药物;实体关系包括检验分组、疑似疾病、疾病大类、参考区间范围、适宜人群、药物干扰因素、生理干扰因素、其他干扰因素。
4.根据权利要求1所述的医学检验报告智能解读方法,其特征在于:S3步中所述单检验项目异常结果解读包括以下步骤:
S3.1,归一化计算单个所述检验项目及其检测结果;
S3.2,在所述检验知识图谱中查询与S3.1步归一化后的检验项目及其检测结果相匹配的所述三元组,同义转换为临床意义、干扰因素知识内容;
所述多检验项目结果联合对比分析包括针对检验报告中的所有检验项目,同时对多个检验项目开展历史结果趋势图、阳性率统计图展示;
所述人群分布分析包括通过自动指定或人工指定,计算检验项目的检验结果在各检验结果区间的人数比例直方图,以及当前检验报告中检验项目的检验结果在所述人数比例直方图中的区间位置;
所述两两检验项目结果分析包括对于数值-数值型检验项目,计算spearman相关性,绘制检验项目-检验项目散点图,并在散点图上显示检验项目的参考区间范围;对于类别-类别型检验项目,计算卡法检验相关性,绘制检验项目-检验项目列联表;
所述3D散点图分析以任意三个检验项目构建空间坐标系,按照疾病名称绘制所述三个检验项目的检测结果在空间坐标系的位置,分析三个检验项目与疾病的关联性;
所述检验雷达图分析是指使用雷达图展示,按科室、疾病、性别筛选历史检验报告中检验项目的检验结果的分布情况。
5.根据权利要求2所述的医学检验报告智能解读方法,其特征在于:S4步中所述基于规则引擎的疾病预测方法包括以下步骤:
S4.1.1,通过拖拉拽的方式定义疾病决策树规则引擎;
S4.1.2,采用递归算法,对所述疾病决策树规则引擎中各子树分别抽取,形成独立规则,并将每个所述独立规则结构化为输入、规则、输出的形式;
S4.1.3,若检验报告中所述检验项目与某个独立规则所需的输入匹配率为1,则独立规则对应的疾病为疑似疾病;
所述基于知识图谱的疾病预测方法包括以下步骤:
S4.2.1,将检验项目及其检验结果归一化处理,作为输入;
S4.2.2,在所述检验知识图谱中查询与患者检验报告中每个检验项目的检验结果匹配的所有疑似疾病,统计每种疑似疾病检索到的次数,记为frequence;
S4.2.3,在检验知识图谱中查询每种疑似疾病相关的检验项目数量,记为count;
S4.2.4,计算每种疑似疾病的疑似得分score,其中score=frequence/count;score为1的疑似疾病为患者的疑似疾病;
所述基于数据建模的疾病预测方法包括以下步骤:
S4.3.1,收集特定疾病的患者检验报告数据为正样本,非特定疾病且存在与正样本相似的检验项目的报告数据为负样本,构建训练集-验证集-测试集;
S4.3.2,采用CatBoost机器学习算法构建疾病诊断分类模型;
S4.3.3,通过K折交叉验证确定所述疾病诊断分类模型的最优参数;
S4.3.4,经灵敏度、特异性、AUC、KS指标评价疾病诊断分类模型效果后,实施疾病预测。
6.根据权利要求5所述的医学检验报告智能解读方法,其特征在于:还包括推荐检验项目,具体内容为:
所述基于规则引擎的疾病预测方法确定所述疑似疾病后,将所述匹配率大于0.5且小于1的所述独立规则对应的疾病的检验项目集合,与患者检验报告的所有所述检验项目的差集作为推荐检验项目;
所述基于知识图谱的疾病预测方法确定疑似疾病后,将疑似得分score小于1的疑似疾病所需的检验项目集合与患者检验报告的所有检验项目的差集作为推荐检验项目;
所述基于数据建模的疾病预测方法获得疑似疾病后,将疑似疾病所需的检验项目与患者检验报告的所有检验项目的差集作为推荐检验项目。
7.一种医学检验报告智能解读系统,其特征在于:包括检验知识库模块、异常解读模块、疾病预测模块;
其中,所述检验知识库模块,包括检验知识自动抽取模块与检验知识图谱构建模块;用于自动抽取检验知识,并构建检验知识图谱;
所述报告解读模块,包括单检验项目异常结果解读、多检验项目结果联合对比分析、人群分布分析、两两检验项目结果分析、3D散点图分析、检验雷达图分析;用于解读医学检验报告中的检验项目结果;
所述疾病预测模块,包括疾病预测、检验项目推荐和疾病案例筛选推送。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210915393.3A CN115312183A (zh) | 2022-08-01 | 2022-08-01 | 医学检验报告智能解读方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210915393.3A CN115312183A (zh) | 2022-08-01 | 2022-08-01 | 医学检验报告智能解读方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115312183A true CN115312183A (zh) | 2022-11-08 |
Family
ID=83858743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210915393.3A Pending CN115312183A (zh) | 2022-08-01 | 2022-08-01 | 医学检验报告智能解读方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115312183A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910172A (zh) * | 2023-07-17 | 2023-10-20 | 杭州卓深科技有限公司 | 基于人工智能的随访量表生成方法及系统 |
CN117711635A (zh) * | 2024-02-05 | 2024-03-15 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
CN117711635B (zh) * | 2024-02-05 | 2024-05-03 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
-
2022
- 2022-08-01 CN CN202210915393.3A patent/CN115312183A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910172A (zh) * | 2023-07-17 | 2023-10-20 | 杭州卓深科技有限公司 | 基于人工智能的随访量表生成方法及系统 |
CN116910172B (zh) * | 2023-07-17 | 2024-02-06 | 杭州卓深科技有限公司 | 基于人工智能的随访量表生成方法及系统 |
CN117711635A (zh) * | 2024-02-05 | 2024-03-15 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
CN117711635B (zh) * | 2024-02-05 | 2024-05-03 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kuznetsova et al. | The open images dataset v4: Unified image classification, object detection, and visual relationship detection at scale | |
CN108831559B (zh) | 一种中文电子病历文本分析方法与系统 | |
US20060179051A1 (en) | Methods and apparatus for steering the analyses of collections of documents | |
CN110337645A (zh) | 可适配的处理组件 | |
CN109378066A (zh) | 一种基于特征向量实现疾病预测的控制方法及控制装置 | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
CN110046264A (zh) | 一种面向手机文档的自动分类方法 | |
Livieris et al. | Identification of blood cell subtypes from images using an improved SSL algorithm | |
CN113868406B (zh) | 搜索方法、系统、计算机可读存储介质 | |
CN115312183A (zh) | 医学检验报告智能解读方法及系统 | |
CN116451114A (zh) | 基于企业多源实体特征信息的物联网企业分类系统及方法 | |
CN101968797A (zh) | 一种基于镜头间上下文的视频概念标注方法 | |
EP1251435A2 (en) | Knowledge database and method for constructing and merging knowledge database | |
Yarlagadda et al. | Recognition and analysis of objects in medieval images | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
Putra et al. | Classification of childhood diseases with fever using fuzzy K-nearest neighbor method | |
CN116313141A (zh) | 一种基于知识图谱的不明原因发热智能问诊方法 | |
CN116340387A (zh) | 一种用于数据表的个人信息披露情况统计分析方法及系统 | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
CN111325235B (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
CN113191141A (zh) | 问诊正则表达式生成方法、装置、设备及存储介质 | |
Barret et al. | Predicting the Environment of a Neighborhood: A Use Case for France. | |
US10235495B2 (en) | Method for analysis and interpretation of flow cytometry data | |
Bettouche et al. | Mapping Researcher Activity based on Publication Data by means of Transformers | |
Zheng | Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 450016 No.199, Jingkai 15th Street, Zhengzhou Economic and Technological Development Zone, Henan Province Applicant after: AUTOBIO LABTEC INSTRUMENTS Co.,Ltd. Address before: No. 199, 15th Street, economic and Technological Development Zone, Zhengzhou City, Henan Province Applicant before: AUTOBIO LABTEC INSTRUMENTS Co.,Ltd. Country or region before: China |