CN112652361A - 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 - Google Patents
一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 Download PDFInfo
- Publication number
- CN112652361A CN112652361A CN202011598285.5A CN202011598285A CN112652361A CN 112652361 A CN112652361 A CN 112652361A CN 202011598285 A CN202011598285 A CN 202011598285A CN 112652361 A CN112652361 A CN 112652361A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- myeloma
- value
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一种基于GBDT模型的骨髓瘤高风险筛查方法及其应用。本发明属于肿瘤早期高风险筛查和人工智能技术领域,具体涉及基于临床常规化验结果利用人工智能建立多发性骨髓瘤高风险筛查模型及其应用,该模型可用于筛查高风险骨髓瘤。本发明通过临床1741例多发性骨髓瘤(MM)和2446例非骨髓瘤(感染性疾病、风湿性免疫系统疾病、肝脏疾病和肾脏疾病)患者的血常规,肝肾功能,离子,免疫球蛋白等常规检验结果,利用人工智能方法,预测骨髓瘤的可能性准确率可达90%以上,具有广阔的应用前景。本发明提供的多发性骨髓瘤预警模型具有易于推广和使用方便的特点,大大提高基层医院对骨髓瘤的认知和患者的早期筛查,具有深远的临床意义。
Description
技术领域
本发明属于肿瘤早期高风险筛查和人工智能技术领域,涉及多发性骨髓瘤预警模型的建立及应用,具体涉及基于临床常规化验结果的利用人工智能建立多发性骨髓瘤高风险筛查模型的建立方法及其应用,该模型可用于筛查高风险骨髓瘤。
背景技术
多发性骨髓瘤(multiplemyeloma,MM)是一种血液系统恶性肿瘤,占所有癌症的1%,占血液肿瘤的13%,其特点是骨髓中恶性浆细胞增生、临床表现为贫血、肾功能不全、高钙血症和溶骨性病变。因为骨髓瘤涉及骨科、肾脏内科、血液科等多学科,经常漏诊和误诊。此外,由于医疗资源缺乏,诊疗水平低,分布广泛的基层医院和农村卫生院对骨髓瘤的误诊、漏诊率更高。患者可能会失去最佳治疗时间或出现难以逆转的并发症。增加的肿瘤负担、症状和器官损害会影响骨髓瘤患者的预后以及接受治疗的能力。如何提高对MM的认识及早期高风险筛查是社区医院卫生医疗服务中心亟待解决的问题。
人工智能是一种模拟人类思维和判断等智力劳动的人造装置,它使医学领域发生了革命性的变化。人工智能正在逐步改变传统的医学模式,这是未来人类医学发展的方向和趋势。利用常规检测结果,通过大数据建立骨髓瘤预警筛查模型,应用人工智能等技术,提高诊断效率和准确性,同时降低漏诊率。借助计算机人工智能技术,可以更好地让公众特别是基层医疗机构就诊的患者能够受益于权威专家的知识和经验,可以有效地提高目前缺乏经验地区骨髓瘤的早期认知,具有非常重要的临床意义。目前,国内外尚未有基于常规化验利用人工智能的骨髓瘤高危筛查模型的建立方法。
发明内容
鉴于现有技术存在的问题,本发明目的在于提供基于常规化验结果利用人工智能建立多发性骨髓瘤预警模型的建立方法及其应用,本发明以检验数据的整合为突破口,并采用大数据分析和人工智能的方法,提出常规检测报告的自动整合,建立多发性骨髓瘤高危筛查模型,及时对多发性骨髓瘤进行预警,对患者进行就诊指导。本发明通过临床1741例多发性骨髓瘤(MM)和2446例非骨髓瘤(感染性疾病、风湿性免疫系统疾病、肝脏疾病和肾脏疾病)患者的血常规,肝肾功能,离子,免疫球蛋白等常规检验结果,利用人工智能方法,预测骨髓瘤的可能性准确率可达90%以上,具有广阔的应用前景。本发明提供的多发性骨髓瘤预警模型具有易于推广和使用方便的特点,大大提高基层医院对骨髓瘤的认知和患者的早期筛查,具有深远的临床意义。
为实现上述目的,本发明采用以下技术方案。
一种基于GBDT模型的骨髓瘤高风险筛查方法法,包括以下步骤:
步骤1、数据收集:筛选在医院首次进行血液常规检查、肝功能检查、肾功能检查和免疫球蛋白检查的患者。其中包括多发性骨髓瘤(MM)和非骨髓瘤(感染性疾病、风湿性免疫系统疾病、肝脏疾病和肾脏疾病)。收集血红蛋白、血清肌酐、血清钙、免疫球蛋白(A、G、M)、白蛋白、总蛋白、白蛋白/球蛋白比值9个变量。将相关因素对应为字段,组织成新的数据表结构;确定数据来源,申请相关使用权限,实现异构数据的动态实时地采集。
步骤2、数据处理:
1)处理样本集中缺失的值:需要确定提取的原始数据是否包含空值,如果所包含的缺失值超过了指定的阈值,则认为该数据是不充分的信息,将从集合中删除;采用六个和九个因素作为训练输入。当使用六个因素时,阈值设置为2,即如果两个以上的因素为空,则该样本将被删除。当使用9个因素进行测试时,阈值设置为3,即如果超过3个因素为空,样本将被删除。如果所包含的缺失值低于阈值,则认为这部分数据是有用的,并将用该测试的正常范围的中位数来填充。假设缺失项为正常值,从而减少使用异常值可能造成的偏差。
2)扩大正类数量:根据从系统中提取的真实数据,阳性的数量比阴性的要少得多。综合少数抽样技术(Synthetic Minority过采样技术,SMOTE)算法可以通过生成综合实例来增加正类的数量来解决这一不平衡分类问题。SMOTE算法对少数样本进行分析和模拟,使用k近邻(k-nearest neighbor,KNN)算法合成新的少数样本,并将合成的新样本添加到训练数据中,可以扩大样本的大小。利用SMOTE算法合成新样本的步骤如下:使用最近邻算法,计算每个少数群体的最近邻数;选取随机数量的样本,随机实现线性插值,构造新的少数样本;最后,用原始数据合成新的样本。
3)增加相关特性的数量:由于新生成的特征能够反映检测项目偏离其正常范围的程度,利用该特征作为特征的一部分来构建模型。利用测试实例与其正常参考范围的关系进行特征关联,在获取ith实例测试信息di的参考范围上限和下限计算di与上限值的差值,计算公式为2)计算di与下限值的差值,计算公式为3)分别对di、进行归一化,得到该测试实例的特征值。
步骤3、多发性骨髓瘤预警模型的建立及风险评估:
GBDT方法使用CART模型(分类和回归树)作为基本分类器。GBDT采用加性模型(即主函数的线性组合),不断减小残差。
采用加性模型的聚合分类器如下:
对于二分类问题,使用似然估计函数作为损失函数:
L(y,F(x))=log(1+exp(-2yF(x)))
其中F(x)表示F(x)集合的加权和,计算实例i=1,2,3,......,m的梯度的负值。在迭代过程中,损耗函数残差或梯度的负极被拟合。下面的函数是迭代t中损失函数到实例i的梯度的负值
用(xi,rti)拟合一棵回归树作为第t棵回归树,其对应的叶节点Rij(j为叶节点数)。根据以下函数计算最佳拟合值,并确定每个实例的最小损失
学习权重按以下函数更新:
迭代结束,得到如下函数作为最终的学习模型:
为了保证模型的泛化能力,对负数据和正数据进行混合和洗牌,从而改变原来的顺序;利用随机抽取的方法得到训练集和测试集,保证了这两个数据集的独立性。在算法中,这两个数据集的数据体积比为4:1。
还采用支持向量机(SVM)、深度神经网络(DNN)和随机森林(RF)进行性能比较。这三种算法使用相同的训练集和测试集。
Precision P、recall R和F1 score是机器学习中用来评估模型性能的三个常用指标。ROC曲线是关于二元分类问题的另一个重要的评价指标,是一个概率曲线,在不同的阈值下绘制真阳性率(TPR)和假阳性率(FPR)。
与现有技术相比,本发明的有益效果如下。
本发明提供的多发性骨髓瘤预警模型采用人工智能进行骨髓瘤筛查,与非血液专科医生进行面对面诊治相比,具有更高的准确率,同时节约人力成本,有更高的效率,具有重要的临床及经济学意义。
本发明提供的多发性骨髓瘤预警模型的建立方法以试验数据的整合为突破口,并采用大数据分析和人工智能的方法,提出常规检测报告的自动整合,建立多发性骨髓瘤筛查模型,及时对多发性骨髓瘤进行预警。本发明通过临床1000例骨髓瘤患者和2000例非骨髓瘤患者资料的初步检验,人工智能预测值可达90%以上,具有广阔的应用前景。本发明提供的多发性骨髓瘤预警模型具有易于推广和使用方便的特,大大提高基层医院骨髓瘤的认知和患者的早期治疗率,具有深远的临床意义。
附图说明
图1是GBDT算法示意图。
图2是GBDT模型训练过程示意图。
图3是四种机器算法的ROC曲线图。
具体实施方式
下面结合具体实施例和附图详细介绍本发明的技术方案和技术效果。未注明具体条件的实验方法,通常按照常规条件,例如教科书和实验指南中所述的条件,或按照制造厂商所建议的条件,为本领域普通技术人员熟知或易于获知,以下实施例仅为本发明的优选实施例,并不限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
实施例一基于GBDT模型的骨髓瘤风险预测方法的建立。
GBDT(Gradient Boosting DecisionTree)是一种集成学习算法,它是由DecisionTree(决策树)和Gradient Boosting(梯度提升)两部分组成。GBDT输出为每棵决策树输出结果的累加,利用梯度提升和回归决策树的组合方式,每次建立新的决策树模型都是在前一个模型损失函数的梯度的下降方向,使得决策模型不断改进。
1.决策树算法。
决策树算法是机器学习和数据挖掘中的一个重要的算法,它主要用来处理给定规则条件下的一些问题。和大多数算法模型一样,该算法可以用来对数据进行分类和回归处理,从而建立有效的数据模型来处理相关问题。在该算法模型中,常见的有ID3、C4。5和CART等。
2.梯度提升算法。
提升(Boosting)算法可以将几个弱学习器结合在一起,形成一个强学习器的集成学习算法,大多数提升算法的总体思路是循环训练预测器,每一次都对前序结果做出一些修正。梯度提升(Gradient Boosting)算法是提升算法的一种,它的特点是,在每次进行训练过程中,新的预测器针对前一个预测器的残差进行拟合。在减少残差的过程中使用梯度下降法来优化模型,使得每一个损失函数最小。
3.GBDT算法模型。
GBDT算法是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。GBDT算法的实质可以表示为以决策树作为基函数的提升方法,不但可以自动进行特征选择,还可以有效解决异常点、避免模型过拟合等问题。
GBDT算法中每轮迭代使用的弱分类器为CART(分类回归树),由于这种树的特点是高偏差和低方差,而且树的深度不深,非常适合作为该算法的每一轮迭代中的弱分类器。通过加法模型得到的总的分类器,模型如下:
对于二分类问题,使用似然估计函数作为损失函数:
L(y,F(x))=log(1+exp(-2yF(x)))
对于样本i=1,2,3,……,m,计算负梯度。在迭代过程中,对损失函数的残差或负梯度进行拟合.下式是第t轮迭代的第i个样本的损失函数的负梯度.
利用(xi,rti)拟合一棵分类与回归树,得到第t棵回归树,对应的叶子结点区域为Rij,其中j为叶子结点的个数.按照下式计算最佳拟合值,针对所有样本求出损失最小。其中,c为每轮迭代需要进行拟合的目标,L(y,ft(x))为t轮迭代的损失函数。
按照以下公式更新学习器权重:
迭代结束,得到最终的学习器如式:
4.GBDT模型训练过程。
从数据隐私保护的角度考虑,需要将采集数据中的敏感信息进行替换或者加密,保证病例隐私不会泄露;数据源中有很多的“脏数据”,有的不完整,有的相互冲突,有的重复等等,因此,临床数据质量提升需要进行数据清洗工作,提高数据质量。将数据集以4:1:1的比例划分为训练集、验证集、测试集。使用网格搜索、交叉验证等方法,确定最佳模型的超参数,并将训练好的模型固化到存储设备上。整个模型训练流程图2所示。
5.实验结果。
在机器学习中评估模型的性能通常使用精度P、召回率R、F1分数三个指标,计算公式分别为:
其中TP表示真正类的数量,FP表示假正类的数量,FN表示假负类的数量。由公式可知,P表示正确识别的实体数量与识别出的实体总数的比率,R表示正确识别的实体数量与该实体的总数的比率,F1分数是精度和召回率的谐波平均值,只有当召回率和精度都很高时,才能获得较高的F1分数。模型在测试集上测试结果如表1所示。
表1.模型在测试集上测试结果。
实施例2基于GBDT模型的骨髓瘤风险预测方法在临床上的应用。
中国医科大学盛京医院医学伦理委员会根据《赫尔辛基宣言》的原则批准了本研究(2020PS055J)。在对电子病历进行回顾性研究时,伦理委员会放弃了个人知情同意的要求。1.患者和数据的筛选。
在回顾性研究中,筛选中国医科大学盛京医院机构数据库,调查2010年1月至2020年1月在我院首次进行血液常规检查、肝功能检查、肾功能检查和免疫球蛋白检查的患者。其中包括1741例多发性骨髓瘤(MM)和2446例非骨髓瘤(感染性疾病、风湿性免疫系统疾病、肝脏疾病和肾脏疾病)。发明人也收集了这些实验室项目的数据,从2020年1月到2020年11月,包括68例新诊断的多发性骨髓瘤(MM)和70例旨在做检测的非骨髓瘤。诊断依据2014年国际MM工作组标准(IMWG)。根据诊断标准和医生辅助判断,收集血红蛋白、血清肌酐、血清钙、免疫球蛋白(A、G、M)、白蛋白、总蛋白、白蛋白/球蛋白比值等9个变量。由于在某些医疗中心,免疫球蛋白的检测不常被要求,也使用了6个变量(血红蛋白、血清肌酐、血清钙、白蛋白、总蛋白、白蛋白与球蛋白的比值)来训练模型。
2.数据处理。
根据诊断标准和医生辅助判断,确定多发性骨髓瘤风险预测的相关因素,并从HIS和LIS数据库中提取预测相关的原始数据。原始样本集在提取相关因素后,由于样本集还需要对进一步的数据进行预处理,不能直接应用到训练机器学习模型中,优先级如下:
2.1处理样本集中缺失的值。
首先,需要确定提取的原始数据是否包含空值。如果所包含的缺失值超过了指定的阈值,则认为该数据是不充分的信息,将从集合中删除;本文采用六个和九个因素作为训练输入。当使用六个因素时,阈值设置为2,即如果两个以上的因素为空,则该样本将被删除。当使用9个因素进行测试时,阈值设置为3,即如果超过3个因素为空,样本将被删除。如果所包含的缺失值低于阈值,则认为这部分数据是有用的,并将用该测试的正常范围的中位数来填充。假设缺失项为正常值,从而减少使用异常值可能造成的偏差。
2.2扩大正类数量。
根据从系统中提取的真实数据,阳性的数量比阴性的要少得多。综合少数抽样技术(Synthetic Minority过采样技术,SMOTE)算法可以通过生成综合实例来增加正类的数量(12个)来解决这一不平衡分类问题。SMOTE算法对少数样本进行分析和模拟,使用k近邻(k-nearest neighbor,KNN)算法合成新的少数样本,并将合成的新样本添加到训练数据中,可以扩大样本的大小(13)。利用SMOTE算法合成新样本的步骤如下:使用最近邻算法,计算每个少数群体的最近邻数;选取随机数量的样本,随机实现线性插值,构造新的少数样本;最后,用原始数据合成新的样本,生成新的训练集,如图1所示。
2.3增加相关特性的数量。
由于新生成的特征能够反映检测项目偏离其正常范围的程度,因此我们利用该特征作为特征的一部分来构建模型。利用测试实例与其正常参考范围的关系进行特征关联,例如,在获取ith实例测试信息di的参考范围上限和下限时:1),计算di与上限值的差值,计算公式为2)计算di与下限值的差值,计算公式为3)分别对di、进行归一化,得到该测试实例的特征值。
3、建立预测模型。
集成学习是利用个体分类器的优势和弱化其弱点的一种流行范式。集成技术是在特定的组合规则下组合多个单一分类器来解决同一任务。GBDT是一种常用的集成学习算法,由决策树和梯度增强两部分组成。
GBDT方法使用CART模型(分类和回归树)作为基分类器。由于该树模型具有高偏差、低方差和小深度的特点,CART非常适合作为每次迭代的基分类器。
基于梯度的算法在每次迭代中,首先计算当前模型在所有样本上的负梯度,然后以该值为目标训练一个新的基分类器进行拟合并,从而计算基分类器的权值。通过迭代利用该方法,最终实现了模型的更新。
GBDT采用加性模型(即主函数的线性组合),不断减小残差,如图2所示。
采用加性模型的聚合分类器如下:
其中k为CART模型树的个数;fk为样本第k个回归树的预测结果;xi为每个回归树使用的参数。
对于二分类问题,使用似然估计函数作为损失函数:L(y,F(x))=log(1+exp(-2yF(x)))其中F(x)表示F(x)集合的加权和。计算实例i=1,2,3,......,m的梯度的负值。在迭代过程中,损耗函数残差或梯度的负极被拟合。下面的函数是迭代t中损失函数到实例i的梯度的负值
用(xi,rti)拟合一棵回归树作为第t棵回归树,其对应的叶节点Rij(j为叶节点数)。根据以下函数计算最佳拟合值,并确定每个实例的最小损失
式中,c为每次迭代的拟合目标;L(y,ft(x))是迭代t的损失函数。
学习权重按以下函数更新:
迭代结束,得到如下函数作为最终的学习模型:
为了保证模型的泛化能力,首先对负数据和正数据进行混合和洗牌,从而改变原来的顺序。然后,利用随机抽取的方法得到训练集和测试集,保证了这两个数据集的独立性。在我们的算法中,这两个数据集的数据体积比为4:1。对于GBDT算法,重要的超参数包括决策树的最大深度和决策树的数量。然后将网格搜索方法应用于验证集,计算出最优决策树个数为81棵,最大决策树深度为6棵。所有这些性能结果都在测试数据集中获得。
此外,还采用支持向量机(SVM)、深度神经网络(DNN)和随机森林(RF)(进行性能比较。这三种算法使用相同的训练集和测试集。对于SVM算法,使用高斯核函数,并将“gamma”参数设为1。对于DNN,发现超过四个隐含层的模型似乎过于贴合,两个隐含层则不太贴合。因此,构建一个包含三个隐含层的网络,每层包含256个神经元,并应用ReLU激活函数。对于随机森林算法,尝试集合{50,100,300,500,600,600,1000}内树的数量和集合{5,10,15,20,30,50}内树的深度。通过测试验证集上的所有组合,将树的数量设置为500,深度设置为15。
Precision P、recall R和F1 score是机器学习中用来评估模型性能的三个常用指标。其中,临床对评估标准的解释如下:真实阳性(TP)表明骨髓瘤患者被正确预测为骨髓瘤类;假阳性(FP)表明它不是骨髓瘤患者,并被错误地预测为非骨髓瘤类别,假阴性(FN)是对某一真实骨髓瘤类别的错误预测的总数。由公式可知,P代表骨髓瘤和非骨髓瘤两类中正确预测的骨髓瘤阳性数与总阳性数的比例,因此P代表我们模型中骨髓瘤的预测;R为正确预测骨髓瘤与实际骨髓瘤患者总数(20)的比例;F1-score是精确度和召回率的调和平均值。只有在查全率和查准率都很高的情况下才会有高分。TP和FN的阈值为缺省值0.5。其公式如下:
正样本和负样本之间的平衡可以使模型更加中立,学习正、负的判别知识。但是,如果负样本的数量远远大于正样本的数量,模型就会学习到更多的负样本的判别知识,并且会有向负方向的偏差。该算法将增强后的数据作为普通数据进行建模和测试,无需进行特殊处理。
ROC曲线是关于二元分类问题的另一个重要的评价指标,是一个概率曲线,在不同的阈值下绘制真阳性率(TPR)和假阳性率(FPR)。在本发明实验中使用的软件版本是python3.6、scikit-learn0.20、tensorflow 1.12、numpy 1.15.4和matplotlib3.0.2。
4.结果。
分析1741例多发性骨髓瘤和2446例非骨髓瘤(感染性疾病、风湿性免疫系统疾病、肝脏疾病和肾脏疾病)病例。四种算法的评估结果见表2,ROC曲线如图3所示。
表2.四种算法的评估结果。
对中国医科大学盛京医院1000名骨髓瘤患者和2000名非骨髓瘤患者的数据进行初步测试,人工智能的预测价值可以达到90%以上,具有广泛应用前景。研究还表明,支持向量机算法适合对小数据进行分类,而DNN算法适合对大数据进行分类。通过有效地提取样本特征,GBDT算法可以同时训练一些决策树根据特征的重要性进行分类的能力,从而获得与其他三种算法相比的最佳性能。本发明以检测数据整合为切入点,采用大数据分析和人工智能的方法,提出常规检测报告的自动整合,建立多发性骨髓瘤筛查模型,对多发性骨髓瘤进行早期预警,提高诊断率。研究内容在医学、信息和商业领域具有创新性。
本发明利用综合医院的常规检查结果,训练机器,通过大数据平台、人工智能等技术,实现自动筛查,识别多发性骨髓瘤高风险患者,并提供早期预警。该技术可广泛应用于综合医院和基层医疗,提高骨髓瘤的早期诊断率,防止漏诊和误诊的发生。最终形成基于人工智能的骨髓瘤早期预警和筛查系统。
Claims (2)
1.一种基于GBDT模型的骨髓瘤高风险筛查方法,其特征在于,包括以下步骤:
步骤1、数据收集:筛选在医院首次进行血液常规检查、肝功能检查、肾功能检查和免疫球蛋白检查的患者,其中包括多发性骨髓瘤和非骨髓瘤,收集血红蛋白、血清肌酐、血清钙、免疫球蛋白IgA、免疫球蛋白IgG、免疫球蛋白IgM、白蛋白、总蛋白、白蛋白/球蛋白比值9个变量,将相关因素对应为字段,组织成新的数据表结构;确定数据来源,申请相关使用权限,实现异构数据的动态实时地采集;
步骤2、数据处理:
1)处理样本集中缺失的值:需要确定提取的原始数据是否包含空值,如果所包含的缺失值超过了指定的阈值,则认为该数据是不充分的信息,将从集合中删除;采用六个和九个因素作为训练输入;当使用六个因素时,阈值设置为2,即如果两个以上的因素为空,则该样本将被删除;当使用9个因素进行测试时,阈值设置为3,即如果超过3个因素为空,样本将被删除;如果所包含的缺失值低于阈值,则认为这部分数据是有用的,并将用该测试的正常范围的中位数来填充;假设缺失项为正常值,从而减少使用异常值可能造成的偏差;
2)扩大正类数量:根据从系统中提取的真实数据,阳性的数量比阴性的要少得多;综合少数抽样技术SMOTE算法能够通过生成综合实例来增加正类的数量以解决不平衡分类问题;SMOTE算法对少数样本进行分析和模拟,使用k近邻算法合成新的少数样本,并将合成的新样本添加到训练数据中,可以扩大样本的大小;
3)增加相关特性的数量:新生成的特征能够反映检测项目偏离其正常范围的程度,利用该特征作为特征的一部分构建模型;利用测试实例与其正常参考范围的关系进行特征关联,在获取ith实例测试信息di的参考范围上限和下限计算di与上限值的差值,计算公式为计算di与下限值的差值,计算公式为分别对di、进行归一化,得到该测试实例的特征值;
步骤3、多发性骨髓瘤预警模型的建立及风险评估:
具体步骤为:GBDT方法使用CART模型作为基本分类器,GBDT采用加性模型,不断减小残差;
采用加性模型的聚合分类器如下:
对于二分类问题,使用似然估计函数作为损失函数:
L(y,F(x))=log(1+exp(-2yF(x)))
其中F(x)表示F(x)集合的加权和,计算实例i=1,2,3,......,m的梯度的负值;在迭代过程中,损耗函数残差或梯度的负极被拟合;下面的函数是迭代t中损失函数到实例i的梯度的负值;
用(xi,rti)拟合一棵回归树作为第t棵回归树,其对应的叶节点Rij(j为叶节点数),根据以下函数计算最佳拟合值,并确定每个实例的最小损失
学习权重按以下函数更新:
迭代结束,得到如下函数作为最终的学习模型:
为保证模型的泛化能力,对负数据和正数据进行混合和洗牌,从而改变原来的顺序;利用随机抽取的方法得到训练集和测试集,保证了这两个数据集的独立性;在算法中,这两个数据集的数据体积比为4:1;
采用支持向量机、深度神经网络和随机森林进行性能比较,这三种算法使用相同的训练集和测试集;
Precision P、recallR和F1 score是机器学习中用来评估模型性能的三个常用指标,ROC曲线是关于二元分类问题的另一个重要的评价指标,是一个概率曲线,在不同的阈值下绘制真阳性率和假阳性率。
2.如权利要求1所述的一种基于GBDT模型的骨髓瘤高风险筛查方法,其特征在于,利用SMOTE算法合成新样本的步骤如下:使用最近邻算法,计算每个少数群体的最近邻数;选取随机数量的样本,随机实现线性插值,构造新的少数样本;最后,用原始数据合成新的样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011598285.5A CN112652361B (zh) | 2020-12-29 | 2020-12-29 | 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011598285.5A CN112652361B (zh) | 2020-12-29 | 2020-12-29 | 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112652361A true CN112652361A (zh) | 2021-04-13 |
CN112652361B CN112652361B (zh) | 2023-09-05 |
Family
ID=75363951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011598285.5A Active CN112652361B (zh) | 2020-12-29 | 2020-12-29 | 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112652361B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723674A (zh) * | 2021-08-18 | 2021-11-30 | 卫宁健康科技集团股份有限公司 | 一种基于大数据相关性的医疗风险预测方法 |
CN113744869A (zh) * | 2021-09-07 | 2021-12-03 | 中国医科大学附属盛京医院 | 基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用 |
CN114093523A (zh) * | 2021-11-11 | 2022-02-25 | 哈尔滨工业大学 | 一种新冠肺炎轻重症预测模型的构建方法及其应用 |
CN114420300A (zh) * | 2022-01-20 | 2022-04-29 | 北京大学第六医院 | 中国老年认知损害预测模型 |
CN117373688A (zh) * | 2023-11-07 | 2024-01-09 | 爱奥乐医疗器械(深圳)有限公司 | 慢性病数据处理方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190065672A1 (en) * | 2016-02-29 | 2019-02-28 | Tsuneo Kobayashi | Data collection method to be used for classifying cancer life |
US20200005900A1 (en) * | 2018-06-29 | 2020-01-02 | pulseData Inc. | Machine Learning Systems and Methods for Predicting Risk of Renal Function Decline |
US20200005901A1 (en) * | 2018-06-30 | 2020-01-02 | 20/20 Genesystems, Inc | Cancer classifier models, machine learning systems and methods of use |
-
2020
- 2020-12-29 CN CN202011598285.5A patent/CN112652361B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190065672A1 (en) * | 2016-02-29 | 2019-02-28 | Tsuneo Kobayashi | Data collection method to be used for classifying cancer life |
US20200005900A1 (en) * | 2018-06-29 | 2020-01-02 | pulseData Inc. | Machine Learning Systems and Methods for Predicting Risk of Renal Function Decline |
US20200005901A1 (en) * | 2018-06-30 | 2020-01-02 | 20/20 Genesystems, Inc | Cancer classifier models, machine learning systems and methods of use |
Non-Patent Citations (2)
Title |
---|
王宁;孙继芹;李晓东;尹春琼;白志瑶;: "43例多发性骨髓瘤临床特征分析", 实验与检验医学, no. 04 * |
胡淑芬;谭冬梅;孙文洪;陈慧谊;谢伟成;: "21例多发性骨髓瘤患者临床分析", 中华实用诊断与治疗杂志, no. 05 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723674A (zh) * | 2021-08-18 | 2021-11-30 | 卫宁健康科技集团股份有限公司 | 一种基于大数据相关性的医疗风险预测方法 |
CN113744869A (zh) * | 2021-09-07 | 2021-12-03 | 中国医科大学附属盛京医院 | 基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用 |
CN113744869B (zh) * | 2021-09-07 | 2024-03-26 | 中国医科大学附属盛京医院 | 基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用 |
CN114093523A (zh) * | 2021-11-11 | 2022-02-25 | 哈尔滨工业大学 | 一种新冠肺炎轻重症预测模型的构建方法及其应用 |
CN114420300A (zh) * | 2022-01-20 | 2022-04-29 | 北京大学第六医院 | 中国老年认知损害预测模型 |
CN114420300B (zh) * | 2022-01-20 | 2023-08-04 | 北京大学第六医院 | 中国老年认知损害预测模型 |
CN117373688A (zh) * | 2023-11-07 | 2024-01-09 | 爱奥乐医疗器械(深圳)有限公司 | 慢性病数据处理方法、装置、电子设备和存储介质 |
CN117373688B (zh) * | 2023-11-07 | 2024-06-04 | 爱奥乐医疗器械(深圳)有限公司 | 慢性病数据处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112652361B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112652361B (zh) | 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 | |
Tekouabou et al. | Improvement in automated diagnosis of soft tissues tumors using machine learning | |
CN108717867A (zh) | 基于梯度迭代树的疾病预测模型建立方法及装置 | |
Ayeldeen et al. | Prediction of liver fibrosis stages by machine learning model: A decision tree approach | |
CN108511055A (zh) | 基于分类器融合及诊断规则的室性早搏识别系统及方法 | |
CN113392894A (zh) | 一种多组学数据的聚类分析方法和系统 | |
CN106295229A (zh) | 一种基于医疗数据建模的川崎病分级预测方法 | |
CN107767960A (zh) | 临床检测项目的数据处理方法、装置及电子设备 | |
Sara et al. | Ensemble swarm behaviour based feature selection and support vector machine classifier for chronic kidney disease prediction | |
Polat et al. | Medical decision support system based on artificial immune recognition immune system (AIRS), fuzzy weighted pre-processing and feature selection | |
CN114373544A (zh) | 一种基于机器学习的预测膜性肾病的方法、系统和装置 | |
Hao et al. | VP-Detector: A 3D multi-scale dense convolutional neural network for macromolecule localization and classification in cryo-electron tomograms | |
CN113744869A (zh) | 基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用 | |
Chaudhuri et al. | Variable Selection in Genetic Algorithm Model with Logistic Regression for Prediction of Progression to Diseases | |
CN116130105A (zh) | 一种基于神经网络的健康风险预测方法 | |
Yavuz et al. | Comparison of k nearest neighbours and regression tree classifiers used with clonal selection algorithm to diagnose haematological diseases | |
Dutta et al. | Hybrid genetic algorithm random forest algorithm (HGARF) for improving the missing value imputation in hepatitis medical dataset | |
CN114783593A (zh) | 基于机器学习的肾脏疾病自动检测的方法和系统 | |
Khozama et al. | Study the Effect of the Risk Factors in the Estimation of the Breast Cancer Risk Score Using Machine Learning | |
Vignesh et al. | A NEW ITJ METHOD WITH COMBINED SAMPLE SELECTION TECHNIQUE TO PREDICT THE DIABETES MELLITUS. | |
CN108346471A (zh) | 一种病理数据的分析方法及装置 | |
KR20110068083A (ko) | 임상진단 결정 규칙 생성 방법 | |
Sree et al. | Artificial intelligence aided diagnosis of chronic kidney disease | |
Agaal et al. | Biological and Tumor Markers in Early Prediction Phase of Breast Cancer Using Classification and Regression Tree: Sebha Oncology Center as a Case study | |
Yavuz et al. | Prediction of breast cancer using machine learning algorithms on different datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |