CN115050477B - 一种贝叶斯优化的RF与LightGBM疾病预测方法 - Google Patents

一种贝叶斯优化的RF与LightGBM疾病预测方法 Download PDF

Info

Publication number
CN115050477B
CN115050477B CN202210708716.1A CN202210708716A CN115050477B CN 115050477 B CN115050477 B CN 115050477B CN 202210708716 A CN202210708716 A CN 202210708716A CN 115050477 B CN115050477 B CN 115050477B
Authority
CN
China
Prior art keywords
lightgbm
algorithm
random
sample
bayesian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210708716.1A
Other languages
English (en)
Other versions
CN115050477A (zh
Inventor
李培峦
李沛谕
刘珂妍
彭雪晴
张雨祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Science and Technology
Original Assignee
Henan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Science and Technology filed Critical Henan University of Science and Technology
Priority to CN202210708716.1A priority Critical patent/CN115050477B/zh
Publication of CN115050477A publication Critical patent/CN115050477A/zh
Application granted granted Critical
Publication of CN115050477B publication Critical patent/CN115050477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明提供一种贝叶斯优化的RF与LightGBM疾病预测方法,该方法首先用最大互信息系数进行特征选择、用SMOTE进行预处理,然后用贝叶斯优化算法选择随机森林和LightGBM学习器的最优超参数,之后用所选的最优超参数分别代入随机森林与LightGBM算法训练模型,最后分别在训练集上进行10折交叉验证、在测试集进行模型预测性能评估。在提高模型的性能和泛化能力的同时,提高了数据的有效性和准确率,避免网格搜索针对非凸问题易得到局部最优以及参数过多耗时长的问题,降低了模型的训练误差,缩短了训练时间。

Description

一种贝叶斯优化的RF与LightGBM疾病预测方法
技术领域
本发明涉及疾病预测技术领域,具体涉及一种贝叶斯优化的RF与LightGBM疾病预测方法。
背景技术
生物医学领域是人工智能的重要应用领域,随着人类微生物组计划、人肠道宏基因组学计划的相继开展,研究表明,肠道微生物具有调节宿主免疫、代谢、内分泌和神经等生物学功能,正常微生态失调可以导致多种疾病的发生,利用肠道微生物数据构建疾病预测模型是研究热点之一。高通量测序技术产生的大量复杂且高维的微生物组数据,为研究微生物菌群与人体之间的相互关系提供了新的契机,但同时也使传统的统计学方法难以满足这些数据分析的需求。
从理论方面讲,传统的统计方法已经不适用于高通量测序技术产生的大量复杂、高维且稀疏的微生物组数据分析,近年来,机器学习在微生物组数据分析领域已经得到广泛应用并取得一定成果,包括利用贝叶斯网络、随机森林等算法对直肠癌进行预测,利用K近邻算法建立了2型糖尿病的预测模型等。但目前国内外学者利用机器学习算法与深度学习算法构建的疾病预测模型在预测性能方面仍有改进空间。
从现实方面讲,虽然关于人类微生物组的数据有很多,但是将这些数据转换为生物学和临床上有意义的原理仍然是一个重大挑战。因此,探索适用于微生物组数据分析的机器学习算法可以为疾病的诊断进行辅助分析,提高模型性能,对于疾病的临床检测,诊断和治疗具有十分重要的现实意义。
发明内容
有鉴于此,本发明提供一种贝叶斯优化的RF与LightGBM疾病预测方法,利用贝叶斯优化算法与随机森林和LightGBM相结合,在提高了模型的性能和泛化能力同时,能够准确地对疾病预测进行风险侦测。
为了达到上述目的,本发明所采用的技术方案是:一种贝叶斯优化的RF与LightGBM疾病预测方法,包括以下步骤:
S1、获取包含多个带有标签值的原始样本的原始数据集,构造微生物相对丰度矩阵,采用最大互信息系数进行特征选择,对数据集进行过滤并划分数据集,将数据集分为训练数据集和测试数据集;
S2、利用SMOTE方法对训练数据集进行过采样处理,获得平衡的数据集;
S3、用贝叶斯优化算法选择随机森林和LightGBM学习器的最优超参数;
S4、用所选的最优超参数分别代入随机森林与LightGBM算法训练模型;
S5、分别在训练集上进行10折交叉验证、在测试集进行模型预测性能评估。
进一步的,所述步骤S1中的特征选择包括以下步骤:
S11、对于随机变量X和Y所构成的二维散点图构建网格尺度r×c划分;
S12、计算所划分的各个网格里的互信息公式:
Figure BDA0003706333640000021
将最大的互信息值按照下列公式进行归一化处理:
Figure BDA0003706333640000022
S13、用多种不同的划分方式中最大的归一化互信息值做为最大互信息系数:
MIC(X;y)=maxr×c<f(n)N(X;Y) (3)
其中,f(n)=n0.6,n为样本数量,X为一个物种,Y是样本的健康或者患病状态,N(X;Y)是随机变量的X和Y归一化后的最大互信息,MIC(X;Y)是随机变量的X和Y的最大互信息,r、c是对于随机变量X和Y所构成的二维散点图构建的网格尺度,p(x,y)是X和Y的联合概率分布函数,p(x)和p(y)分别是X和Y的边缘概率分布函数、max为最大值函数。
进一步的,所述步骤S2中的预处理包括以下步骤:
S21、SMOTE先在特征空间上获取所有少数类样本X;
S22、对于每个少数类样本xi,raw,找到其k个少数类近邻,并从这k个近邻中随机的选择一个样本xi,rand
S23、连接少数类样本xi,raw与随机样本xi,rand,此连接线段上的随机一点xi,new即为新合成的样本:
xi,new=xi,raw+rand(0,1)×(xi,raw-xi,rand) (4)
其中,xi,raw是第i个原始样本,xi,rand是从第i个的k个少数类近邻中随机选择的随机样本,xi,new是由第i个合成的新少数类样本,rand(0,1)表示生成一个在(0,1)内的随机数,且这个随机数属于实数。
进一步的,所述步骤S3中的贝叶斯优化包括以下步骤:
S31、选择树结构概率密度估计(TPE)作为概率代理模型进行贝叶斯优化,TPE算法的概率分布定义如式(5)所示:
Figure BDA0003706333640000031
其中,l(x)为观测值{x(i)}形成的密度,其对应的风险损失值y=f(x(i)),且y<y*,g(x)为使用除{x(i)}外剩余的观测值形成的密度;
TPE算法选择y*作为当前观测风险值y的某个分位数γ,满足p(y<y*)=γ,通过TPE算法的l(x)和g(x),将超参数集合划分为风险小和风险大的两部分;
S32、根据EI采集函数选取下一个超参数,通过最大期望提升进一步优化,最大期望提升EI的定义如式6所示:
Figure BDA0003706333640000032
为了能获得最大期望提升,通过
Figure BDA0003706333640000033
评估每一个超参数x,在每次迭代中,算法将返回具有最大EI的超参数值:
Figure BDA0003706333640000034
S33、重复上述过程,不断利用代理模型的后验分布选择超参数,直到得到最优解。
进一步的,所述步骤S1中数据集70%作为训练集,30%作为测试集。
进一步的,所述步骤S1中微生物相对丰度矩阵的每列代表一个物种,矩阵的每行代表一个健康或者患病的样本,将健康与患病分别标为0与1。
进一步的,所述步骤S5中将训练集进行10折交叉验证,并取独立重复10次结果的平均值来评估模型的泛化性能。
与现有技术相比,本发明的有益效果是:
本发明中利用贝叶斯优化算法与随机森林和LightGBM相结合,构建疾病预测模型,在提高了模型的性能和泛化能力同时,能够准确地对疾病预测进行风险侦测;
本发明利用最大互信息系数、SMOTE方法过采样少数类样本对数据进行预处理,提高了数据的有效性和准确率;利用贝叶斯优化算法选择贝叶斯算法以及LightGBM算法的全局最优超参数超参数,避免网格搜索针对非凸问题易得到局部最优以及参数过多耗时长的问题,降低了模型的训练误差,缩短了训练时间;结合了两种方法进行了交叉验证,提高了模型的性能和泛化能力;
本发明中进一步提高了该疾病预测模型的预测精准度,BO_RF方法的各项性能指标都明显有所提升,预测性能更好。
附图说明
图1是本发明疾病预测方法的流程示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
具体实施方式:
实施例1:
一种贝叶斯优化的RF与LightGBM疾病预测方法,包括以下步骤:
S1、获取包含多个带有标签值的原始样本的原始数据集,构造微生物相对丰度矩阵,采用最大互信息系数进行特征选择,对数据集进行过滤并划分数据集,将数据集分为训练数据集和测试数据集;所述特征选择包括以下步骤:
S11、对于随机变量X和Y所构成的二维散点图构建网格尺度r×c划分;
S12、计算所划分的各个网格里的互信息公式:
Figure BDA0003706333640000041
将最大的互信息值按照下列公式进行归一化处理:
Figure BDA0003706333640000051
S13、用多种不同的划分方式中最大的归一化互信息值做为最大互信息系数:
MIC(X;Y)=maxr×c<f(n)N(X;Y) (3)
其中,f(n)=n0.6,n为样本数量,X为一个物种,Y是样本的健康或者患病状态,N(X;Y)是随机变量的X和Y归一化后的最大互信息,MIC(X;Y)是随机变量的X和Y的最大互信息,r、c是对于随机变量X和Y所构成的二维散点图构建的网格尺度,p(x,y)是X和Y的联合概率分布函数,p(x)和p(y)分别是X和Y的边缘概率分布函数、max为最大值函数。
最大互信息系数(Maximal Information Coefficient,MIC)是在互信息的基础之上,利用网格化分方法克服了互信息对于连续变量离散化的方式敏感的问题,是一种归一化的最大互信息,具有高鲁棒性,低计算复杂度的优点。
S2、利用SMOTE方法对训练数据集进行预处理,获得平衡的数据集,所述预处理包括以下步骤:
S21、SMOTE先在特征空间上获取所有少数类样本X;
S22、对于每个少数类样本xi,raw,找到其k个少数类近邻,并从这k个近邻中随机的选择一个样本xi,rand
S23、连接少数类样本xi,raw与随机样本xi,rand,此连接线段上的随机一点xi,new即为新合成的样本:
xi,new=xi,raw+rand(0,1)×(xi,raw-xi,rand) (4)
其中,xi,raw是第i个原始样本,xi,rand是从第i个的k个少数类近邻中随机选择的随机样本,xi,raw是由第i个合成的新少数类样本,rand(0,1)表示生成一个在(0,1)内的随机数,且这个随机数属于实数。
SMOTE(Synthetic Minority Over-sampling Technique)即合成少数类样本的过采样技术,是通过对训练集里的少数类别样本进行插值来合成新的同类别样本的过采样方法。
S3、用贝叶斯优化算法选择随机森林和LightGBM学习器的最优超参数,所述贝叶斯优化包括以下步骤:
S31、选择树结构概率密度估计(TPE)作为概率代理模型进行贝叶斯优化,TPE算法的概率分布定义如式(5)所示:
Figure BDA0003706333640000061
其中,l(x)为观测值{x(i)}形成的密度,其对应的风险损失值y=f(x(i)),且y<y*,g(x)为使用除{x(i)}外剩余的观测值形成的密度;
TPE算法选择y*作为当前观测风险值y的某个分位数γ,满足p(y<y*)=γ,通过TPE算法的l(x)和g(x),将超参数集合划分为风险较小和风险较大的两部分;
S32、根据EI采集函数选取下一个超参数,通过最大期望提升进一步优化,最大期望提升EI的定义如式6所示:
Figure BDA0003706333640000062
为了能获得最大期望提升,超参数x在l(x)的概率要尽可能大,而在g(x)的概率要尽可能小。通过
Figure BDA0003706333640000063
评估每一个超参数x,在每次迭代中,算法将返回具有最大EI的超参数值:
Figure BDA0003706333640000064
S33、重复上述过程,不断利用代理模型的后验分布选择超参数,直到得到最优解。
对已给定优化的目标函数,贝叶斯优化使用概率代理模型的后验概率分布来构造采集函数,并使用该采集函数选取最有可能使得目标函数达到最优值的超参数加以评估,从而快速找到超参数的最优解,避免目标函数不必要的评估;随机森林(Random Forest,RF)方法简单、计算开销小,易于实现;LightGBM(Light Lradient Boosting Machine)用基于梯度的单边采样进行数据选择和互斥特征捆绑进行特征选择,该算法与传统的梯度提升决策树算法相比,准确度更高,训练速度也更快,且占用内存较小。
S4、用所选的最优超参数分别代入随机森林与LightGBM算法训练模型;
S5、分别在训练集上进行10折交叉验证、在测试集进行模型预测性能评估。
进一步的,所述步骤S1中数据集70%作为训练集,30%作为测试集。
进一步的,所述步骤S1中微生物相对丰度矩阵的每列代表一个物种,矩阵的每行代表一个健康或者患病的样本,将健康与患病分别标为0与1。
进一步的,所述步骤S5中将训练集进行10折交叉验证,并取独立重复10次结果的平均值来评估模型的泛化性能。
实施例2
首先,构造微生物相对丰度矩阵。构建疾病预测模型需要各个样本的微生物含量与患病状态的信息,因此利用原始数据集中的微生物相对物种丰度数据,构造出各个疾病数据集的微生物相对丰度矩阵,矩阵的每列代表一个物种,矩阵的每行代表一个健康或者患病的样本,将健康与患病分别标为0与1,处理后的数据集信息如表1。
表1疾病与肠道微生物数据集信息
Figure BDA0003706333640000071
所用的原始肠道微生物数据集包括肝硬化、直肠癌、炎症性肠病等5种疾病的6个宏基因组数据集。
该数据集共包含232个样本,其中114个健康样本,118个患病样本,肠道微生物所包含的物种个数为542。Coiorectal数据集中共包含121个样本,其中73个健康样本,48个患病样本,肠道微生物包含的物种个数是503。IBD数据集中共包含110个样本,其中85个健康样本,25个患病样本,肠道微生物包含的物种个数是443。Obesity数据集共包含253个样本,其中89个健康样本,164个患病样本,肠道微生物包含的物种个数是465。T2D数据集共包含344个样本,其中健康样本174个,患病样本170个,肠道微生物包含的物种个数是572。WT2D数据集共包含96个样本,其中43个健康样本,53个患病样本,肠道微生物包含的物种个数是381。
其次,MIC法特征选择。微生物组所研究的样本通常包含很多特征,且样本数一般远少于特征数,并不是所有的微生物在健康个体与患病个体中都存在显著差别,因此通过特征选择过滤掉与健康状态弱相关或者无关的物种,降低学习任务的难度,从而有效的提高算法性能。选用最大信息系数作为衡量特征与健康状态之间关联程度的指标。X为一个物种,Y是样本的健康或者患病状态,0代表健康,1代表患病;
特征X与类别变量Y之间的最大信息系数为:
MIC(X;Y)=maxr×c<f(n)N(X;Y)
选择阈值为0.1,即选择MIC≥0.1的物种作为后续建模的物种,经过特征选择后的数据信息如表2。
表2特征提取后的数据信息
Figure BDA0003706333640000081
第三,SMOTE过采样。由表1可知,Colorectal、IBD、Obesity这三个数据集的多数类样本与少数类样本的比例分别为1.52、3.4、1.84,正反样本的类别不平衡,因此首先按照训练集:测试集=7:3划分数据集,从表3可以看出Colorectal、IBD、Obesity数据集的训练集中类别比例不平衡,然后用SMOTE方法对训练集的少数类别进行过采样处理,过采样后的数据集信息如表3。
表3 SMOTE过采样后的数据信息
Figure BDA0003706333640000091
由表3知,各数据集经过SMOTE优化后的多数类样本与少数类样本的比例平衡。Cirrhosis、T2D、WT2D三个数据的训练集过采样后保持不变,Colorectal、IBD、Obesity三个数据的训练集过采样少数类样本后,类别比例基本平衡。
第四、贝叶斯优化分类学习器超参数。先用贝叶斯优化算法得到LightGBM算法与Random Forest算法超参数的最优值,两种算法优化的超参数如表4,表5所示。
表4贝叶斯优化算法优化LightGBM算法的超参数
Figure BDA0003706333640000092
表5贝叶斯优化算法优化Random Forest算法的超参数
Figure BDA0003706333640000093
Figure BDA0003706333640000101
第五,贝叶斯选择的超参数分别代入随机森林与LightGBM分类器。将贝叶斯优化的超参数分别带入随机森林与LightGBM算法,将训练集进行10折交叉验证并取独立重复10次结果的平均值来评估模型的泛化性能,测试集用来检测模型的预测性能。
最后,实验结果对比与分析,分别运用本申请BO_RF模型与n_estimators设为200,其他超参数保持默认值的随机森林、默认参数的LightGBM以及MetAML框架、Met2Img框架、基于回归的多示例学习—RegMIL框架、PopPhy-CNN框架和DeepMicro框架,利用同一数据集进行实证分析的框架进行对比,对比结果如表6至11,表中括号内数据为标准差。
表6 Cirrhosis数据集对比表
Figure BDA0003706333640000102
Figure BDA0003706333640000111
表7 IBD数据集对比表
Figure BDA0003706333640000112
表8 Obesity数据集对比表
Figure BDA0003706333640000113
Figure BDA0003706333640000121
表9 WT2D数据集对比表
Figure BDA0003706333640000122
表10 CRC数据集对比表
Figure BDA0003706333640000123
Figure BDA0003706333640000131
表11 T2D数据集对比表
Figure BDA0003706333640000132
从数据集角度看,从表7、表8、表10可知,在IBD、Obesity、CRC数据集中,BO_RF方法的各项性能指标都明显高于其他几种方法,而BO_LGBM方法的各项性能指标也仅低于BO_RF方法,仍高于其他方法。在IBD数据集上,Accuracy从0.847(RegMIL-RF)提升到0.97,Precision、Recall、F1分别从0.72、0.81、0.75(MetAML-RF)提升到0.97,AUC从0.890(MetAML-RF)提升到0.993。在Obesity数据集上,Accuracy从0.655(DeepMicro-RF(CAE))提升到0.823,Precision、Recall、F1分别从0.54、0.64、0.54(MetAML-RF)提升到0.824、0.823、0.822,AUC从0.683(PopPhy-RF)提升到0.915。在CRC数据集上,Accuracy、Precision、Recall、F1、AUC分别从0.805、0.82、0.81、0.79、0.873(MetAML-RF)提升到0.891、0.894、0.891、0.891、0.95。由表6可知,在Cirrhosis数据集中,BO_LGBM方法的Precision、Recall、F1为0.89,AUC为0.953,都略高于其他方法,Accuracy最高为RegMIL-RF的0.928。由表9知,在WT2D数据集中,BO_LGBM方法的Accuracy、Precision、Recall、F1分别为0.767、0.768、0.767、0.767,都高于其他方法,AUC最高为DeepMicro-RF(CAE)的0.829。由表11知,在T2D数据集中,RF方法的各个性能指标都最高,另外5种方法以及本发明的。
从算法角度看,BO_RF方法在IBD、Obesity、CRC数据集上表现的更好,BO_LGBM方法在WT2D、Cirrhosis数据集上表现的更好,而T2D相较于其他数据集在各种方法中各指标的提升都较小,说明这个数据集可能存在区别于其他5个数据集的特性。
从测试集的预测效果可以看出,在Cirrhosis、Obesity、WT2D、T2D数据集上BO_RF的预测性能更好,在IBD数据集上BO_LGBM的预测性能更好,而CRC数据集上RF的预测性能更好,但是在BO_RF与BO_LGBM相差并不大,且RF在交叉验证中并不如BO_RF,综合看来,BO_RF的性能更好。分析结果显示本专利各项指标和性能均高于现有的同类算法和模型。本专利的研究意义包括理论价值层面与现实方面的实际意义。
本发明的疾病预测模型,选择全局最优超参数超参数,避免网格搜索针对非凸问题易得到局部最优以及参数过多耗时长的问题,降低了模型的训练误差,缩短了训练时间,提高了模型的性能和泛化能力,综合性能更好。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本发明所示的这些实施例,而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种贝叶斯优化的RF与LightGBM疾病预测方法,其特征在于,包括以下步骤:
S1、获取包含多个带有标签值的原始样本的原始数据集,构造微生物相对丰度矩阵,采用最大互信息系数进行特征选择,对数据集进行过滤并划分数据集,将数据集分为训练数据集和测试数据集;
S2、利用SMOTE方法对训练数据集进行过采样处理,获得平衡的数据集;
S3、用贝叶斯优化算法选择随机森林和LightGBM学习器的最优超参数;
贝叶斯优化算法优化RandomForest算法的超参数包括:RF的学习器数量、最大深度、节点分裂时参与判断的最大特征数、叶节点最小样本数和分裂所需的最小样本数;
贝叶斯优化算法优化LightGBM算法的超参数包括:
LightGBM学习器的叶子节点数量、最大深度、学习率、L1正则化、L2正则化、特征子抽样、数据采样比列和叶子节点最小数据量;
其中,贝叶斯优化包括以下步骤:
S31、选择树结构概率密度估计(TPE)作为概率代理模型进行贝叶斯优化,TPE算法的概率分布定义如式(5)所示:
Figure FDA0004214684960000011
其中,l(x)为观测值{x(i)}形成的密度,其对应的风险损失值y=f(x(i)),且y<y*,g(x)为使用除{x(i)}外剩余的观测值形成的密度;
TPE算法选择y*作为当前观测风险值y的某个分位数γ,满足p(y<y*)=γ,通过TPE算法的l(x)和g(x),将超参数集合划分为风险小和风险大的两部分;
S32、根据EI采集函数选取下一个超参数,通过最大期望提升进一步优化,最大期望提升EI的定义如式6所示:
Figure FDA0004214684960000012
为了能获得最大期望提升,通过
Figure FDA0004214684960000013
评估每一个超参数x,在每次迭代中,算法将返回具有最大EI的超参数值:
Figure FDA0004214684960000021
S33、重复上述过程,不断利用代理模型的后验分布选择超参数,直到得到最优解;
S4、用所选的最优超参数分别代入随机森林与LightGBM算法训练模型;
S5、分别在训练集上进行10折交叉验证、在测试集进行模型预测性能评估。
2.如权利要求1所述的一种贝叶斯优化的RF与LightGBM疾病预测方法,其特征在于,所述步骤S1中的特征选择包括以下步骤:
S11、对于随机变量X和Y所构成的二维散点图构建网格尺度r×c划分;
S12、计算所划分的各个网格里的互信息公式:
Figure FDA0004214684960000022
将最大的互信息值按照下列公式进行归一化处理:
Figure FDA0004214684960000023
S13、用多种不同的划分方式中最大的归一化互信息值做为最大互信息系数:
MIC(X;Y)=maxr×c<f(n)N(X;Y) (3)
其中,f(n)=n0.6,n为样本数量,X为一个物种,Y是样本的健康或者患病状态,N(X;Y)是随机变量的X和Y归一化后的最大互信息,MIC(X;Y)是随机变量的X和Y的最大互信息,r、c是对于随机变量X和Y所构成的二维散点图构建的网格尺度,p(x,y)是X和Y的联合概率分布函数,p(x)和p(y)分别是X和Y的边缘概率分布函数、max为最大值函数。
3.如权利要求2所述的一种贝叶斯优化的RF与LightGBM疾病预测方法,其特征在于,所述步骤S2中的预处理包括以下步骤:
S21、SMOTE先在特征空间上获取所有少数类样本X;
S22、对于每个少数类样本xi,raw,找到其k个少数类近邻,并从这k个近邻中随机的选择一个样本xi,rand
S23、连接少数类样本xi,raw与随机样本xi,rand,此连接线段上的随机一点xi,new即为新合成的样本:
xi,new=xi,raw+rand(0,1)×(xi,raw-xi,random) (4)
其中,xi,raw是第i个原始样本,xi,rand是从第i个的k个少数类近邻中随机选择的随机样本,xi,new是由第i个合成的新少数类样本,rand(0,1)表示生成一个在(0,1)内的随机数,且这个随机数属于实数。
4.如权利要求1所述的一种贝叶斯优化的RF与LightGBM疾病预测方法,其特征在于,所述步骤S1中数据集70%作为训练集,30%作为测试集。
5.如权利要求1所述的一种贝叶斯优化的RF与LightGBM疾病预测方法,其特征在于,所述步骤S1中微生物相对丰度矩阵的每列代表一个物种,矩阵的每行代表一个健康或者患病的样本,将健康与患病分别标为0与1。
6.如权利要求1所述的一种贝叶斯优化的RF与LightGBM疾病预测方法,其特征在于,所述步骤S5中将训练集进行10折交叉验证,并取独立重复10次结果的平均值来评估模型的泛化性能。
CN202210708716.1A 2022-06-21 2022-06-21 一种贝叶斯优化的RF与LightGBM疾病预测方法 Active CN115050477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210708716.1A CN115050477B (zh) 2022-06-21 2022-06-21 一种贝叶斯优化的RF与LightGBM疾病预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210708716.1A CN115050477B (zh) 2022-06-21 2022-06-21 一种贝叶斯优化的RF与LightGBM疾病预测方法

Publications (2)

Publication Number Publication Date
CN115050477A CN115050477A (zh) 2022-09-13
CN115050477B true CN115050477B (zh) 2023-06-20

Family

ID=83163962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210708716.1A Active CN115050477B (zh) 2022-06-21 2022-06-21 一种贝叶斯优化的RF与LightGBM疾病预测方法

Country Status (1)

Country Link
CN (1) CN115050477B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131458A (zh) * 2023-10-26 2023-11-28 国网江西省电力有限公司电力科学研究院 一种用于光纤电流互感器的数据有效性分析方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991653A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种针对不平衡数据集分类的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633733A (zh) * 2020-12-30 2021-04-09 武汉轻工大学 基于可信度的随机森林土壤重金属风险评价方法及系统
GB202101703D0 (en) * 2021-02-08 2021-03-24 Exscientia Ltd Drug optimisation by active learning
CN114530249A (zh) * 2022-02-15 2022-05-24 北京浩鼎瑞生物科技有限公司 一种基于肠道微生物的疾病风险评估模型构建方法及应用

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991653A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种针对不平衡数据集分类的方法

Also Published As

Publication number Publication date
CN115050477A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN108388348B (zh) 一种基于深度学习和注意力机制的肌电信号手势识别方法
CN106202997B (zh) 一种基于深度学习的细胞分裂检测方法
CN108595916B (zh) 基于生成对抗网络的基因表达全谱推断方法
CN113421652A (zh) 对医疗数据进行分析的方法、训练模型的方法及分析仪
CN113693563B (zh) 一种基于超图注意力网络的脑功能网络分类方法
CN110782427B (zh) 基于可分离空洞卷积的磁共振脑肿瘤自动分割方法
CN115050477B (zh) 一种贝叶斯优化的RF与LightGBM疾病预测方法
Islam et al. A data-driven dimensionality-reduction algorithm for the exploration of patterns in biomedical data
CN112215259B (zh) 基因选择方法和装置
Zhang et al. MMDGAN: A fusion data augmentation method for tomato-leaf disease identification
Jiang et al. MHAttnSurv: Multi-head attention for survival prediction using whole-slide pathology images
CN115062750A (zh) 一种动态进化鲸鱼优化算法的化合物水溶性预测方法
Satoto et al. An auto contrast custom convolutional neural network to identifying gram-negative bacteria
Agarwal et al. Differential Evolution based compression of CNN for Apple fruit disease classification
Fayyadh et al. Brain tumor detection and classifiaction using CNN algorithm and deep learning techniques
CN115661498A (zh) 一种自优化单细胞聚类方法
Li et al. TopoPhy-CNN: integrating topological information of phylogenetic tree for host phenotype prediction from metagenomic data
CN114999661A (zh) 皮肤癌识别模型的构建方法、皮肤癌识别装置、电子设备
Pelin et al. Prediction of human development index with health indicators using tree-based regression models
Kumar et al. An Early Cancer Prediction Based On Deep Neural Learning
Abdullahi et al. Pretrained convolutional neural networks for cancer genome classification
Chakraborty et al. A multilevel biomedical image thresholding approach using the chaotic modified cuckoo search
Srivardhini et al. A Deep Learning Based Multi-model for Early prognosticate of Alzheimer’s Dementia using MRI Dataset
Khasburrahman et al. Comparison of diagnostics set and feature selection for breast cancer classification based on microRNA expression
Li et al. GNPI: Graph normalization to integrate phylogenetic information for metagenomic host phenotype prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant