CN113707298A - 一种基于医疗大数据肿瘤诊断的预测方法 - Google Patents

一种基于医疗大数据肿瘤诊断的预测方法 Download PDF

Info

Publication number
CN113707298A
CN113707298A CN202110993137.1A CN202110993137A CN113707298A CN 113707298 A CN113707298 A CN 113707298A CN 202110993137 A CN202110993137 A CN 202110993137A CN 113707298 A CN113707298 A CN 113707298A
Authority
CN
China
Prior art keywords
benign
prediction
tumor
big data
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110993137.1A
Other languages
English (en)
Inventor
景元明
张�林
陈艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110993137.1A priority Critical patent/CN113707298A/zh
Publication of CN113707298A publication Critical patent/CN113707298A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于医疗大数据肿瘤诊断的预测方法,包括数据挖掘和模型构建,数据挖掘包括前期收集的近三年肿瘤标志物大数据,模型构建包括5‑8种肿瘤良恶性模型,以逻辑回归,随机森林和支持向量机以及增强学习四种机器学习的方法对相关数据进行分析和预测,本发明方法合理,研究人员将收集与各种与体检和肿瘤相关的医疗记录中的标志物,包括年龄性别等指标,并根据已知的肿瘤数据来判断肿瘤是恶性的还是良性的,进行迭代训练后,通过机器学习的各种算法用于估计肿瘤的良恶性,可以为癌症领域提供具有潜力的预测工具,通过机器学习的方法对肿瘤的良恶性进行区别有非常有益的应用前景,结果可靠,准确度高,特异性好。

Description

一种基于医疗大数据肿瘤诊断的预测方法
技术领域
本发明涉及医学大数据利用技术领域,特别涉及一种基于医疗大数据肿瘤诊断的预测方法。
背景技术
癌症是一个复杂的疾病,而其发病率在逐年增多,各国对于癌症的治疗也是一笔天文数字的支出,如何对癌症进行早期诊断从而及时治疗,这是各国科学家一直在不懈研究的课题,而如何扩大筛选规模并降低医疗成本亦是一个巨大的挑战,每个肿瘤往往拥有多个驱动基因和复杂的信号传导通路异常,但是对于癌症的早期诊断一直是个棘手的问题,如何通过简单的手段来预测早期肿瘤或者通过对患者的血液检验指标并通过算法进行判断是一个重要和紧迫的问题。对以上问题,以下提出一种解决方案。
发明内容
本发明的目的是提供一种基于医疗大数据肿瘤诊断的预测方法,具有结果可靠、准确度高、特异性好的优点。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种基于医疗大数据肿瘤诊断的预测方法,包括数据挖掘和模型构建,所述数据挖掘包括前期收集的近三年肿瘤标志物大数据,所述模型构建包括5-8种肿瘤良恶性模型,以甲状腺、肺和肝三个器官中良性和恶性肿瘤的区分和判别,以逻辑回归,随机森林和支持向量机以及增强学习四种机器学习的方法对相关数据进行分析和预测。
作为优选,所述甲状腺癌良性和恶性肿瘤区分判别,通过甲状腺各变量相关性示意图的相关性分析,且通过逻辑回归、随机森林、支持向量机和增强学习四种模型对变量进行模型构建和预测。
作为优选,所述甲状腺模型构建和预测后,选择的Age+R8+R11标志物,在逻辑回归模型下,预测效果最好,选择糖类抗原199和鳞状细胞癌相关抗原以及年龄三个变量的情况下,通过逻辑回归的方法对甲状腺良恶性肿瘤的预测有较好的预测准确率,准确率可达到0.76,AUC值到0.685。
作为优选,所述肺癌良性和恶性肿瘤区分判别,通过肺的良恶性肿瘤各变量的相关性分析,且通过逻辑回归、随机森林、支持向量机和增强学习四种模型对变量进行模型构建和预测。
作为优选,所述肺四种模型的AUC值分别为:0.785,0.821,0.746,0.762,最优的预测模型是:随机森林模型,预测准确性0.76,AUC值为0.821,从重要变量性排名来看:R6>R3>R7>SEX>R10>R1>R8,且通过基尼指数可知,R6,R3,R10,R1和R7都属于高分数参数,和重要性排名比较一致,可以用于未来的临床考察指标。
作为优选,所述肝癌良性和恶性肿瘤区分判别,同样进行逻辑回归,随机森林,支持向量机以及增强学习4种模型分析,所有模型都是随机选取50%的样本作为训练样本,另外50%作为验证样本结果发现随机森林的预测准确性最高为0.81。
作为优选,所述通过肝ROC曲线看出,四种模型的AUC值分别为0.748,0.814,0.690和0.686,因此,依然是随机森林具有最好的分类效果。预测准确性为0.81,AUC值为0.814,从基尼指数上看,R6,R4,R3,R9,R10属于高效率的预测因子,这个结果与变量重要性排名和差异p值结果几乎一致因此,未来R6,R4,R3,R9,R10可以作为临床预测重要的分子标志物。
本发明的有益效果是:研究人员将收集与各种与体检和肿瘤相关的医疗记录中的标志物,包括年龄性别等指标,并根据已知的肿瘤数据来判断肿瘤是恶性的还是良性的,进行迭代训练后,通过机器学习的各种算法用于估计肿瘤的良恶性,从而基于多维异质数据的整合并结合不同技术在特征选择和分类中的应用,可以为癌症领域提供具有潜力的预测工具,通过机器学习的方法对肿瘤的良恶性进行区别有非常有益的应用前景,结果可靠,准确度高,特异性好,对肿瘤诊断的预测具有极大的帮助。
附图说明
图1为肿瘤标志物名称图;
图2为甲状腺各变量相关性示意图;
图3为甲状腺逻四种机器模型构建与预测评价图;
图4为肺的良恶性肿瘤各变量的相关性分析图;
图5为肺逻四种机器模型构建与预测评价图;
图6为肺随机森林套袋率图;
图7为肺随机森林基尼指数;
图8为肝各变量相关性示意图;
图9为肝四种模型的ROC曲线比较图;
图10为肝随机森林套袋率图;
图11为肝随机森林基尼指数。
具体实施方式
以下所述仅是本发明的优选实施方式,保护范围并不仅局限于该实施例,凡属于本发明思路下的技术方案应当属于本发明的保护范围。同时应当指出,对于本技术领域的普通技术人员而言,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
如图1至图11所示,一种基于医疗大数据肿瘤诊断的预测方法,包括数据挖掘和模型构建,数据挖掘包括前期收集的近三年肿瘤标志物大数据,模型构建包括5-8种肿瘤良恶性模型,以甲状腺、肺和肝三个器官中良性和恶性肿瘤的区分和判别,并收集某院近三年肺(533例),肝(365例)以及甲状腺(527例)恶性肿瘤和良性肿瘤的肿瘤标志物进行统计分析,以逻辑回归,随机森林和支持向量机以及增强学习四种机器学习的方法对相关数据进行分析和预测。
甲状腺癌良性和恶性肿瘤区分判别:
通过图1可知肿瘤标志物名称,通过图2可知甲状腺各变量的相关性,通过图3进行甲状腺逻辑回归、随机森林、支持向量机和增强学习四种模型对变量进行模型构建和预测。
结果发现:选择的Age+R8+R11标志物,在逻辑回归模型下,预测效果最好,选择糖类抗原199和鳞状细胞癌相关抗原以及年龄三个变量的情况下,通过逻辑回归的方法对甲状腺良恶性肿瘤的预测有较好的预测准确率,准确率可达到0.76,AUC值到0.685。
肺癌良性和恶性肿瘤区分判别:
通过图4首先对肺的良恶性肿瘤各变量的相关性进行分析,其次通过图5构建四种机器学习模型并评价,由图5可知,四种模型的AUC值分别为:0.785,0.821,0.746,0.762;最优的预测模型是:随机森林模型,预测准确性0.76,AUC值为0.821;从重要变量性排名来看:R6>R3>R7>SEX>R10>R1>R8。
结果发现:通过图6分析随机森林套袋率和图7分析随机森林基尼指数,可得出R6,R3,R10,R1和R7都属于高分数参数,和重要性排名比较一致,可以用于未来的临床考察指标。
肝癌良性和恶性肿瘤区分判别:
通过图8首先对肝的良恶性肿瘤各变量的相关性进行分析,随后同样进行逻辑回归,随机森林,支持向量机以及增强学习4种模型分析,所有模型都是随机选取50%的样本作为训练样本,另外50%作为验证样本结果发现随机森林的预测准确性最高为0.81。
结果发现:通过图9可看出,四种模型的AUC值分别为0.748,0.814,0.690和0.686,因此,依然是随机森林具有最好的分类效果。预测准确性为0.81,AUC值为0.814。且通过图10分析出,500棵树的分类器结果已经趋近于稳定,因此该模型结果可行,最后通过图11可分析得出,R6,R4,R3,R9,R10属于高效率的预测因子,这个结果与变量重要性排名和差异p值结果几乎一致因此,未来R6,R4,R3,R9,R10可以作为临床预测重要的分子标志物。
研究人员将收集与各种与体检和肿瘤相关的医疗记录中的标志物,包括年龄性别等指标,并根据已知的肿瘤数据来判断肿瘤是恶性的还是良性的,进行迭代训练后,通过机器学习的各种算法用于估计肿瘤的良恶性,从而基于多维异质数据的整合并结合不同技术在特征选择和分类中的应用,可以为癌症领域提供具有潜力的预测工具。
通过机器学习的方法对肿瘤的良恶性进行区别有非常有益的应用前景,结果可靠,准确度高,特异性好,因此对肿瘤诊断的预测具有极大的帮助。

Claims (7)

1.一种基于医疗大数据肿瘤诊断的预测方法,其特征在于,包括数据挖掘和模型构建,所述数据挖掘包括前期收集的近三年肿瘤标志物大数据,所述模型构建包括5-8种肿瘤良恶性模型,以甲状腺、肺和肝三个器官中良性和恶性肿瘤的区分和判别,以逻辑回归,随机森林和支持向量机以及增强学习四种机器学习的方法对相关数据进行分析和预测。
2.根据权利要求1所述的一种基于医疗大数据肿瘤诊断的预测方法,其特征在于,所述甲状腺癌良性和恶性肿瘤区分判别,通过甲状腺各变量相关性示意图的相关性分析,且通过逻辑回归、随机森林、支持向量机和增强学习四种模型对变量进行模型构建和预测。
3.根据权利要求2所述的一种基于医疗大数据肿瘤诊断的预测方法,其特征在于,所述甲状腺模型构建和预测后,选择的Age+R8+R11标志物,在逻辑回归模型下,预测效果最好,选择糖类抗原199和鳞状细胞癌相关抗原以及年龄三个变量的情况下,通过逻辑回归的方法对甲状腺良恶性肿瘤的预测有较好的预测准确率,准确率可达到0.76,AUC值到0.685。
4.根据权利要求3所述的一种基于医疗大数据肿瘤诊断的预测方法,其特征在于,所述肺癌良性和恶性肿瘤区分判别,通过肺的良恶性肿瘤各变量的相关性分析,且通过逻辑回归、随机森林、支持向量机和增强学习四种模型对变量进行模型构建和预测。
5.根据权利要求4所述的一种基于医疗大数据肿瘤诊断的预测方法,其特征在于,所述肺四种模型的AUC值分别为:0.785,0.821,0.746,0.762,最优的预测模型是:随机森林模型,预测准确性0.76,AUC值为0.821,从重要变量性排名来看:R6>R3>R7>SEX>R10>R1>R8,且通过基尼指数可知,R6,R3,R10,R1和R7都属于高分数参数,和重要性排名比较一致,可以用于未来的临床考察指标。
6.根据权利要求5所述的一种基于医疗大数据肿瘤诊断的预测方法,其特征在于,所述肝癌良性和恶性肿瘤区分判别,同样进行逻辑回归,随机森林,支持向量机以及增强学习4种模型分析,所有模型都是随机选取50%的样本作为训练样本,另外50%作为验证样本结果发现随机森林的预测准确性最高为0.81。
7.根据权利要求6所述的一种基于医疗大数据肿瘤诊断的预测方法,其特征在于,所述通过肝ROC曲线看出,四种模型的AUC值分别为0.748,0.814,0.690和0.686,因此,依然是随机森林具有最好的分类效果。预测准确性为0.81,AUC值为0.814,从基尼指数上看,R6,R4,R3,R9,R10属于高效率的预测因子,这个结果与变量重要性排名和差异p值结果几乎一致因此,未来R6,R4,R3,R9,R10可以作为临床预测重要的分子标志物。
CN202110993137.1A 2021-08-25 2021-08-25 一种基于医疗大数据肿瘤诊断的预测方法 Withdrawn CN113707298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110993137.1A CN113707298A (zh) 2021-08-25 2021-08-25 一种基于医疗大数据肿瘤诊断的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110993137.1A CN113707298A (zh) 2021-08-25 2021-08-25 一种基于医疗大数据肿瘤诊断的预测方法

Publications (1)

Publication Number Publication Date
CN113707298A true CN113707298A (zh) 2021-11-26

Family

ID=78655673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110993137.1A Withdrawn CN113707298A (zh) 2021-08-25 2021-08-25 一种基于医疗大数据肿瘤诊断的预测方法

Country Status (1)

Country Link
CN (1) CN113707298A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166105A (zh) * 2018-08-01 2019-01-08 中国人民解放军南京军区南京总医院 人工智能医学影像的肿瘤恶性风险分层辅助诊断系统
CN111276252A (zh) * 2020-01-15 2020-06-12 北京吉因加科技有限公司 一种肿瘤良恶性鉴别模型的构建方法及装置
CN111721751A (zh) * 2020-06-30 2020-09-29 四川大学华西医院 一种检测结直肠恶性肿瘤的装置
CN112255335A (zh) * 2020-09-28 2021-01-22 复旦大学 用于区分良性和恶性卵巢肿瘤的血浆代谢标志物及其应用
CN112382392A (zh) * 2020-11-25 2021-02-19 珠海圣美生物诊断技术有限公司 一种用于肺结节风险性评估的系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166105A (zh) * 2018-08-01 2019-01-08 中国人民解放军南京军区南京总医院 人工智能医学影像的肿瘤恶性风险分层辅助诊断系统
CN111276252A (zh) * 2020-01-15 2020-06-12 北京吉因加科技有限公司 一种肿瘤良恶性鉴别模型的构建方法及装置
CN111721751A (zh) * 2020-06-30 2020-09-29 四川大学华西医院 一种检测结直肠恶性肿瘤的装置
CN112255335A (zh) * 2020-09-28 2021-01-22 复旦大学 用于区分良性和恶性卵巢肿瘤的血浆代谢标志物及其应用
CN112382392A (zh) * 2020-11-25 2021-02-19 珠海圣美生物诊断技术有限公司 一种用于肺结节风险性评估的系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贺康丽: "肝内胆管细胞癌淋巴结转移的预测和治疗", 临床肝胆病杂志, vol. 37, no. 8, pages 1929 - 1933 *

Similar Documents

Publication Publication Date Title
JP6063447B2 (ja) 細胞におけるバイオマーカーの発現のクラスターによる解析
Azar et al. Decision tree classifiers for automated medical diagnosis
JP5506912B2 (ja) 臨床決定支援システム及び方法
JP2009505231A (ja) 複数のサンプルから得られる代謝物のデータを、コンピュータシステムのデータベースを用いて比較および編集するためのシステム、方法、ならびにコンピュータプログラム
Sharma et al. Prediction of Heart Disease Using Cleveland Dataset: A Machine Learning Approach.
US20230056839A1 (en) Cancer prognosis
Jenipher et al. A study on early prediction of lung cancer using machine learning techniques
Prusty et al. EPD: an integrated modeling technique to classify BC
CN112508884A (zh) 一种癌变区域综合检测装置及方法
Mantha et al. A transfer learning method for brain tumor classification using efficientnet-b3 model
CN113707298A (zh) 一种基于医疗大数据肿瘤诊断的预测方法
Shetty et al. Duck pack optimization with deep transfer learning-enabled Oral squamous cell carcinoma classification on histopathological images
Zhou et al. A new machine learning based user-friendly software platform for automatic radiomics modeling and analysis
Yang et al. Leveraging auxiliary information from emr for weakly supervised pulmonary nodule detection
Golfe et al. ProGleason-GAN: Conditional progressive growing GAN for prostatic cancer Gleason grade patch synthesis
Sulochana et al. A Systematic Review on Oral Cancer Diagnosis and Prognosis using Machine Learning Techniques
WO2021083954A1 (en) "method for generating models to automatically classify medical or veterinary images derived from original images into at least one class of interest"
Khodke et al. An Intelligent Approach to Empowering the Research of Biomedical Machine Learning in Medical Data Analysis using PALM
WO2011119967A2 (en) System,method and computer-accessible medium for evaluating a maliganacy status in at-risk populations and during patient treatment management
Dhimmar et al. Breast Cancer Detection Using Classification Algorithms
Sanghavi et al. Machine learning based classification system using depth-dependent variation encoding for classifying cervical two-photon excited fluorescence image stacks
Raghavendra et al. Classification and Prediction Model using Hybrid Technique for Medical Datasets
KR20230016753A (ko) 의료 이미지 분석 장치 및 그 방법
Acharya et al. Prediction of Tuberculosis from Lung Tissue Images of Diversity Outbred Mice using Jump Knowledge Based Cell Graph Neural Network
Turkmen A novel two-staged deep learning based workflow for analyzable metaphase detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211126