CN112635069A - 一种基于常规检验数据的肺结核智能识别方法 - Google Patents

一种基于常规检验数据的肺结核智能识别方法 Download PDF

Info

Publication number
CN112635069A
CN112635069A CN202011463239.4A CN202011463239A CN112635069A CN 112635069 A CN112635069 A CN 112635069A CN 202011463239 A CN202011463239 A CN 202011463239A CN 112635069 A CN112635069 A CN 112635069A
Authority
CN
China
Prior art keywords
data
test
intelligent
tuberculosis
classifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011463239.4A
Other languages
English (en)
Inventor
陈超
宋彪
罗祎斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Weishu Data Technology Co ltd
Original Assignee
Inner Mongolia Weishu Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Weishu Data Technology Co ltd filed Critical Inner Mongolia Weishu Data Technology Co ltd
Priority to CN202011463239.4A priority Critical patent/CN112635069A/zh
Publication of CN112635069A publication Critical patent/CN112635069A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种基于常规检验数据的肺结核智能识别方法,其特征是使用常规检验数据,包括血常规、生化、尿常规等在内的实验室各检验指标数据,使用机器学习方法训练一个或多个分类器,对患者是否患有肺结核进行智能识别,并将分类器部署至医院lis系统,接收实时检验数据以完成肺结核的智能识别。本发明目的在于解决现有的针对肺结核的诊断方法疾病识别效率和准确率低,成本以及经验依赖较高,无法满足医疗资源不平衡现状下的肺结核防治需求。

Description

一种基于常规检验数据的肺结核智能识别方法
技术领域
本发明涉及检验医学领域,具体涉及一种基于常规检验数据的肺结核识别方法。
背景技术
肺结核是严重威胁人民生命安全的传染性疾病,当前,抗酸菌涂片镜检、结核分枝杆菌分离培养和药物敏感性试验等常规方法仍然是各国细菌学诊断的主要方法,这种常规方法不仅是发现传染源的最主要手段,同时也是确诊肺结核病、选择治疗方案、考核疗效以及评价防治效果的可靠指标。然而这种传统方法依赖于细菌样本的获取质量,同时由于细菌培养周期较长,受实验环境以及医生经验因素影响较大,容易发生漏诊的现象,因此在总体上仍不能满足快速、准确、便捷、成本低廉的肺结核诊断要求。
发明内容
本发明的目的是本发明提出了一种基于常规检验数据的肺结核智能识别方法。目的在于解决现有的针对肺结核的诊断方法疾病识别效率和准确率低,成本以及经验依赖较高,无法满足医疗资源不平衡现状下的肺结核防治需求。
为了达到上述目的,本发明提供一种基于常规检验数据的肺结核智能识别方法,包括:
获取检验样本数据并进行数据预处理,其中,所述检验样本数据根据常规检测项目进行合并;
对检验样本数据进行影响因素分析,实现特征维度确定和提取;
对检验样本数据维度缺失值进行填补;
基于检验样本数据产生一个或多个适用于肺结核智能识别的分类器;
其中分类器的生成过程包括:根据历史检验结果将检验样本数据分为阳性数据组和阴性数据组,建立阳性数据组和阴性数据组的训练集、验证集和测试集,根据阳性数据组和阴性数据组的训练集分别训练分类器,通过验证集优化各分类器的型高参数和结构,通过测试集绘制roc曲线,并根据roc曲线下面积auc对分类器进行评价,以完成分类器的训练;
将分类器部署至实时医院lis系统,接收实时检验数据以完成肺结核的智能识别。
进一步的,所述检验样本数据为包括血常规、生化、尿常规等在内的实验室各检验指标数据,所述检验样本的数据预处理过程包括数据的标准化、合并、区域转置和变量筛选。
进一步的,将检验样本数据进行分时段处理,其中标注数据时,确诊前3天,确诊后2个月的常规检验指标都作为阳性样本。
进一步的,在样本数据体现患者接受药物干预时,在筛选样本数据过程中,阳性样本集中排除掉这部分样本。
进一步的,在对样本数据缺失值进行填补时,采用一种强化学习的奖励激励,当填补后的样本被分类器误判时,对缺失值填补机制奖励,被分类器准确判断时,对缺失值填补机制进行惩罚。
进一步的,所述阳性数据组和阴性数据组进行1:1、3:1、5:1的比例进行配对,并对数据集根据70%、10%和20%的比例随机分为训练集、验证集和测试集。
进一步的,根据roc曲线下面积auc对分类器进行评价的过程中,当auc>0.8则判断分类器训练成功。
本发明提供一种基于常规检验数据的肺结核智能识别方法,通过获取检验样本数据,基于检验样本数据产生一个或多个适用于肺结核识别的分类器,将分类器部署至医院实时lis平台,接收实时检验数据以完成肺结核疾病的实时识别,其中,分类器根据检验指标的历史诊断结果将检验样本数据分为阳性数据组和阴性数据组,配对后建立训练集、验证集和测试集,根据常规检验数据样本的训练集分别训练分类器,通过验证集优化各分类器的型高参数和结构,通过测试集绘制ROC曲线,并根据ROC曲线下面积AUC对分类器进行评价,以完成分类器的训练,从而提高分类器的分类准确率,同时,采用ROC曲线下面积AUC对所述含最优模型参数的模型进行评价,可进一步提高对肺结核阳性的识别性能,降低了肺结核管控的漏诊风险。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例的常规检验数据缺失值自动填补方法的方法流程图;
图2为本发明一个实施例的神经网络的架构图;
图3和图4为本发明一个实施例的在医院线上场景的效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有的医学检测中,抗酸菌涂片镜检、结核分枝杆菌分离培养和药物敏感性试验等常规方法仍然是各国肺结核诊断的主要方法,这种传统方法依赖于细菌样本的获取质量,同时由于细菌培养周期较长,受实验环境以及医生经验因素影响较大,检测成本高,容易发生漏诊的现象。
为解决上述技术问题,本发明提供基于常规检验数据的肺结核智能识别方法,通过获取检验样本数据,基于检验样本数据产生一个或多个适用于肺结核智能识别的分类器,将分类器部署至医院lis平台,接收实时检验数据以完成肺结核的实时识别,本发明通过阳性和阴性对照组训练样本,从而提高肺结核分类器的分类准确率,同时采用ROC曲线下面积AUC对所述含最优模型参数的模型进行评价训练出肺结核智能识别分类器,从而对检测数据进行分类,可降低肺结核疾病识别、诊断、预防的成本,并进一步提高肺结核识别的准确率。
图2为本发明的基于常规检验数据的肺结核智能识别方法流程图,包括以下步骤:
步骤001,获取检验样本数据并进行数据预处理,其中,所述检验样本数据根据数据历史诊断结果进行阳性阴性分类;
步骤002,基于检验样本数据产生一个或多个适用于肺结核智能识别分类器;
步骤003,将分类器部署至医院lis平台,接收实时检验数据以完成肺结核的实时识别。
在本发明的一个实施例中,检验样本数据是从实验室信息系统(LIS)中提取,获取三年内的各项检验指标数据。检验样本数据按照历史诊断结果进行分类,在获取检验样本数据之后,对检验样本数据进行数据预处理,以使检验样本数据满足分类器训练的需要。数据预处理包括对检验样本数据进行区域转置和变量筛选以及缺失值填补,优选的,为处理众多的检验指标数据,本实施例可采用PCA或者CNN进行变量筛选,缺失值填补在覆盖传统中位数、均值、众数等方法基础上,采用对抗策略生成缺失数据。本实施例采用随机森林算法,通过数据集训练最终确定分类器的参数。
进一步的,为提高基于常规检验数据的肺结核智能识别这一方法的精度,样本数据选择时参考历史诊断结果,选择诊断结果前三天和诊断结果后两个月以内的数据。
进一步的,在完成阳性、阴性数据组的标注校准后,将阳性和阴性数据组进行1:1、3:1、5:1等比例进行配对,对配对后的检验数据,以70%、10%和20%随机分为训练集、验证集和测试集。
在本发明的一个实施例中,分类器采用随机森林模型。其中,阳性和阴性配对数据组的训练集训练肺结核智能识别分类器,阳性和阴性配对数据组的验证集验证肺结核智能识别分类器,以优化随机森林神经网络的参数和结构。分类器根据阳性和阴性数据组的测试集绘制ROC曲线,并根据ROC曲线下面积AUC对分类器进行评价。
参数寻优过程,在根据ROC曲线下面积AUC对分类器进行评价的过程中,当AUC>0.8则判断分类器训练成功,当AUC<0 .8则判断分类器训练不成功,重新回到数据获取阶段获取数据并训练分类器。
在本发明的一个实施例中,当完成分类器的训练后,分类器部署于医院的lis平台。实验室的各检测设备通过中间件将数据数传输至lis平台,分类器对检测数据进行实时肺结核智能识别。
在肺结核智能识别过程中,分类器针对输入检测数据进行检测,当分类器检测出肺结核阳性时,则实时在lis平台相关界面输出为“疑似肺结核”,结合检验医师常规检验手段进行对比,如果两者结果不一致,则系统提示检验医师可能出现漏诊问题,并建议检验人员进行复检排除各种因素可能出现的问题。当分类器未检测出肺结核阳性,则实时在lis平台相关界面不做任何反应,表示检验数据中没有表现出肺结核特征。
采用了本发明的基于常规检验数据的肺结核智能识别方法,可大大提高肺结核的检测准确率,本发明的肺结核智能识别方法的AUC可以达到0 .89。由于痰培养相对较长的周期,以及痰样本的质量影响,本发明的肺结核智能识别方法显著提升对肺结核识别的能力,在实际医院的工作中,本方法表现为会大幅降低肺结核漏报的情况。这样不仅提高了肺结核识别的效率,并降低了漏报的风险,同时也降低了检验人员的工作量。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于常规检验数据的肺结核智能识别方法,其特征在于,包括:
获取检验样本数据并进行数据预处理,其中,所述检验样本数据根据影响因素进行特征筛选;
基于检验样本数据产生一个或多个适用于肺结核智能识别的分类器;
其中分类器的生成过程包括:根据检验指标的历史诊断结果将检验样本数据分为阳性数据组和阴性数据组,建立常规检验数据的训练集、验证集和测试集,根据阳性数据组和阴性数据组的训练集分别训练分类器,通过验证集优化各分类器的参数和结构,通过测试集绘制ROC曲线,并根据ROC曲线下面积AUC对分类器进行评价,以完成分类器的训练;
将分类器部署至医院lis平台,接收实时检验数据以实现肺结核智能识别。
2.如权利要求1所述的一种基于常规检验数据的肺结核智能识别方法,其特征在于,所述检验样本数据为医院的实验室各检验指标数据,所述检验样本的数据预处理过程包括数据区域转置、数据缺失值填补和变量筛选。
3.如权利要求2所述的一种基于常规检验数据的肺结核智能识别方法,其特征在于,将检验样本数据进行缺失值填补,其中包括中位数法、平均值、众数等常规方法,也包括对抗机器学习的样本缺失值填补方法。
4.如权利要求3所述的一种基于常规检验数据的肺结核智能识别方法,其特征在于,在基于常规检验数据进行肺结核识别过程中,将检验样本数据进行分类处理,其中根据历史数据诊断结果为肺结核的样本划分为阳性数据组,非肺结核的样本划分为阴性数据组。
5.如权利要求1所述的一种基于常规检验数据的肺结核智能识别方法,其特征在于,所述阳性数据组和阴性数据组根据70%、10%和20%的比例随机分为训练集、验证集和测试集。
6.如权利要求1所述的一种基于常规检验数据的肺结核智能识别方法,,其特征在于,根据ROC曲线下面积AUC对分类器进行评价的过程中,当AUC>0 .8则判断分类器训练成功。
CN202011463239.4A 2020-12-14 2020-12-14 一种基于常规检验数据的肺结核智能识别方法 Pending CN112635069A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011463239.4A CN112635069A (zh) 2020-12-14 2020-12-14 一种基于常规检验数据的肺结核智能识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011463239.4A CN112635069A (zh) 2020-12-14 2020-12-14 一种基于常规检验数据的肺结核智能识别方法

Publications (1)

Publication Number Publication Date
CN112635069A true CN112635069A (zh) 2021-04-09

Family

ID=75312565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011463239.4A Pending CN112635069A (zh) 2020-12-14 2020-12-14 一种基于常规检验数据的肺结核智能识别方法

Country Status (1)

Country Link
CN (1) CN112635069A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539473A (zh) * 2021-05-12 2021-10-22 内蒙古卫数数据科技有限公司 一种仅使用血常规检验数据诊断布氏杆菌病的方法及系统
CN113539474A (zh) * 2021-05-14 2021-10-22 内蒙古卫数数据科技有限公司 一种基于常规检验数据的疾病识别方法
CN113539475A (zh) * 2021-05-14 2021-10-22 内蒙古卫数数据科技有限公司 一种仅使用血常规检验数据的疾病筛查和诊断方法
CN113571176A (zh) * 2021-06-19 2021-10-29 内蒙古卫数数据科技有限公司 一种基于血常规检验数据的抑郁症识别方法
CN115527670A (zh) * 2022-10-13 2022-12-27 中国矿业大学 多模态融合驱动的职业性尘肺病智能筛查方法
CN117219262A (zh) * 2023-09-13 2023-12-12 内蒙古卫数数据科技有限公司 一种基于血常规生化数据抑郁症程度区分方法
CN117828478A (zh) * 2024-01-31 2024-04-05 内蒙古卫数数据科技有限公司 基于血常规的协同训练共享多模型在肺结核分类中的应用
CN117828478B (zh) * 2024-01-31 2024-10-25 内蒙古卫数数据科技有限公司 基于血常规的协同训练共享多模型在肺结核分类中的应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066791A (zh) * 2016-12-19 2017-08-18 银江股份有限公司 一种基于病人检验结果的辅助疾病诊断方法
CN108670285A (zh) * 2018-06-05 2018-10-19 胡晓云 一种ct肺结核检测人工智能诊疗系统
CN110728315A (zh) * 2019-09-30 2020-01-24 复旦大学附属中山医院 一种实时质量控制方法,系统和设备
CN111403024A (zh) * 2019-01-02 2020-07-10 天津幸福生命科技有限公司 一种基于医疗数据来获得疾病判定模型的方法及装置
CN111524594A (zh) * 2020-06-12 2020-08-11 山东大学 目标人群血液系统恶性肿瘤筛查系统
CN111883256A (zh) * 2020-07-22 2020-11-03 杭州市红十字会医院 基于电子病历数据的肺结核患者预警系统及预警方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066791A (zh) * 2016-12-19 2017-08-18 银江股份有限公司 一种基于病人检验结果的辅助疾病诊断方法
CN108670285A (zh) * 2018-06-05 2018-10-19 胡晓云 一种ct肺结核检测人工智能诊疗系统
CN111403024A (zh) * 2019-01-02 2020-07-10 天津幸福生命科技有限公司 一种基于医疗数据来获得疾病判定模型的方法及装置
CN110728315A (zh) * 2019-09-30 2020-01-24 复旦大学附属中山医院 一种实时质量控制方法,系统和设备
CN111524594A (zh) * 2020-06-12 2020-08-11 山东大学 目标人群血液系统恶性肿瘤筛查系统
CN111883256A (zh) * 2020-07-22 2020-11-03 杭州市红十字会医院 基于电子病历数据的肺结核患者预警系统及预警方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘洁等: "肺结核实验室诊断的研究进展", 《医学综述》, no. 18, 20 September 2013 (2013-09-20), pages 3353 - 3356 *
邓明凤等: "血液分析仪白细胞分类报警阈值的ROC曲线分析", 《检验医学》, no. 03, 30 May 2006 (2006-05-30), pages 265 - 268 *
钟丽云等: "Xpert MTB/RIF试验在县(区)基层结核病实验室诊断疑似肺结核中的应用价值", 《上海医药》, no. 05, 10 March 2017 (2017-03-10), pages 41 - 43 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539473A (zh) * 2021-05-12 2021-10-22 内蒙古卫数数据科技有限公司 一种仅使用血常规检验数据诊断布氏杆菌病的方法及系统
CN113539474A (zh) * 2021-05-14 2021-10-22 内蒙古卫数数据科技有限公司 一种基于常规检验数据的疾病识别方法
CN113539475A (zh) * 2021-05-14 2021-10-22 内蒙古卫数数据科技有限公司 一种仅使用血常规检验数据的疾病筛查和诊断方法
CN113571176A (zh) * 2021-06-19 2021-10-29 内蒙古卫数数据科技有限公司 一种基于血常规检验数据的抑郁症识别方法
CN115527670A (zh) * 2022-10-13 2022-12-27 中国矿业大学 多模态融合驱动的职业性尘肺病智能筛查方法
CN117219262A (zh) * 2023-09-13 2023-12-12 内蒙古卫数数据科技有限公司 一种基于血常规生化数据抑郁症程度区分方法
CN117828478A (zh) * 2024-01-31 2024-04-05 内蒙古卫数数据科技有限公司 基于血常规的协同训练共享多模型在肺结核分类中的应用
CN117828478B (zh) * 2024-01-31 2024-10-25 内蒙古卫数数据科技有限公司 基于血常规的协同训练共享多模型在肺结核分类中的应用

Similar Documents

Publication Publication Date Title
CN112635069A (zh) 一种基于常规检验数据的肺结核智能识别方法
KR100794516B1 (ko) 사례 기반 기계학습 추론을 이용한 질환 진단 및 검사 항목선정 시스템 및 방법
CN112756759B (zh) 点焊机器人工作站故障判定方法
CN106845147B (zh) 医学经验总结模型的建立方法、装置
CN106017876A (zh) 基于等权局部特征稀疏滤波网络的轮对轴承故障诊断方法
WO2021179514A1 (zh) 一种基于人工智能的新型冠状病毒患者病况分类系统
CN110458039A (zh) 一种工业过程故障诊断模型的构建方法及其应用
CN103886030B (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN111816314B (zh) 一种用于人工智能筛查尘肺病胸片遴选、标注及验证方法
CN113539475A (zh) 一种仅使用血常规检验数据的疾病筛查和诊断方法
CN115910362A (zh) 一种基于增强粒子群优化的特应性皮炎特征预测方法
CN111413492A (zh) 一种用于检测新型冠状病毒covid-2019肺炎的方法及系统
CN109856494A (zh) 一种基于支持向量机的变压器故障诊断方法
CN113539473A (zh) 一种仅使用血常规检验数据诊断布氏杆菌病的方法及系统
CN114038501B (zh) 一种基于机器学习的背景菌判定方法
CN109523514A (zh) 对逆合成孔径雷达isar的批量成像质量评估方法
CN111586728A (zh) 一种面向小样本特征的异构无线网络故障检测与诊断方法
CN116821753A (zh) 一种基于机器学习的社区获得性肺炎病原类型预测方法
CN107735838A (zh) 在多种设置下用于医学样品的异常检测
Zheng et al. Rapid screening of children with autism spectrum disorders through face image classification
CN116189909B (zh) 基于推举算法的临床医学判别方法及系统
CN113469252A (zh) 一种考虑不平衡样本的特高压换流阀运行状态评估方法
CN107886071A (zh) 一种纤维增强复合材料损伤声发射信号的处理方法
CN117219127A (zh) 认知状态识别方法以及相关设备
CN109949942A (zh) 基于铁代谢指标的结核病风险预测模型的构建方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210409