CN114093448A - 一种疾病风险预测模型的构建方法 - Google Patents

一种疾病风险预测模型的构建方法 Download PDF

Info

Publication number
CN114093448A
CN114093448A CN202111399651.9A CN202111399651A CN114093448A CN 114093448 A CN114093448 A CN 114093448A CN 202111399651 A CN202111399651 A CN 202111399651A CN 114093448 A CN114093448 A CN 114093448A
Authority
CN
China
Prior art keywords
algorithm
disease risk
risk prediction
optimal solution
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111399651.9A
Other languages
English (en)
Other versions
CN114093448B (zh
Inventor
聂曦明
王龙
刘丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tiantan Hospital
Original Assignee
Beijing Tiantan Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tiantan Hospital filed Critical Beijing Tiantan Hospital
Priority to CN202111399651.9A priority Critical patent/CN114093448B/zh
Publication of CN114093448A publication Critical patent/CN114093448A/zh
Application granted granted Critical
Publication of CN114093448B publication Critical patent/CN114093448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Abstract

本发明涉及一种疾病风险预测模型的构建方法。本发明提供一种新的疾病风险预测模型的构建方法,利用机器学习来进行数据缺失值填补,并对疾病预测模型参数进行有效优化,从而构建形成适用于临床的疾病风险预测模型。针对目前人工智能在医学数据处理中存在的预测结果不可靠的问题,本发明提供了一种新的模型构建方法,具有重要的应用价值。

Description

一种疾病风险预测模型的构建方法
技术领域
本发明涉及智能医疗技术领域,更具体地,涉及一种疾病风险预测模型的构建方法和疾病风险预测设备、计算机程序产品、计算机可读存储介质。
背景技术
传统机器学习的算法对于不完整且不平衡的临床数据集进行训练后得到的模型往往不能达到令人满意的预测结果,故而,尽管目前临床中有很多基于机器学习训练得到的模型,但是很多疾病预测功能不是很可靠。究其原因,一方面是在进行模型的构建过程中没有考虑临床数据实际的问题。临床数据收集中,经常会存在一个或多个指标数据缺失的现状,对于数据值的缺失值处理,有两个大的方向,如果缺失值所占的比例只占样本的很少一部分,可以酌情选择剔除,删除后对样本的整体影响并不大。对已经占有一定比例的缺失值,直接删除则会对样本整体产生较大的影响,因此对于这种情况,采取填充的方法明显比采取删除的方法更好,而填充的方法通常的通过估算特殊值来进行填补,常用的有平均值、中位数与众数的填补方法,但上述方法差强人意。另一方面,模型的优化有待完善。
发明内容
鉴于上述问题,本发明提供一种新的疾病风险预测模型的构建方法,利用机器学习来进行数据缺失值填补,并对疾病预测模型参数进行有效优化,从而构建形成适用于临床的疾病风险预测模型。
一种疾病风险预测模型的构建方法,包括:
获取训练样本集,其中,每个样本包括患者的临床数据及标签;
对所述临床数据进行预处理,所述预处理包括对临床数据中存在的缺失值进行数据缺失值处理,所述数据缺失值处理是采用机器学习算法进行填补;
将上述预处理后的临床数据输入分类器中,得到预测的分类结果,将所述预测的分类结果与实际结果进行比对,根据对比结果优化分类器,得到疾病风险预测模型。
进一步,所述采用机器学习算法进行填补将根据数据类型不同采用不同的机器学习算法进行填补:所述数据为连续值时,采用回归算法进行填补,所述数据为离散值时,采用分类算法进行填补;
可选的,所述回归算法包括SVR(Support Vector Regression)、LinearSVR(Linear Support Vector Regression)、RFR(Random Forest Regression)、BayRid(Bayesian Ridge Regression)、GBM(Gradient Boosting Machine)中的一种或几种;所述分类算法包括kNN(K-NearestNeighbor)、LR(Logistic Regression)、 RF(随机森林)、DecT(Decision Tree)中的一种或几种。
进一步,所述预处理还包括对临床数据中存在的数据类不平衡采用不同采样策略,所述采用策略包括欠采样策略和过采样策略;
进一步,所述预处理还包括对临床数据中存在的异常值进行剔除处理。
进一步,所述优化分类器包括对分类器的参数进行调优;
可选的,所述对分类器的参数进行调优包括:首先使用全局优化算法进行全局搜索,计算得出初步的最优解;然后将初步的最优解作为初始解带入局部搜索算法进行局部搜索,更新最优解;
优选的,所述对分类器的参数进行调优为采用Jaya-DA算法对分类器的参数进行调优,包括:首先使用Jaya算法进行全局搜索,计算得出初步的最优解;然后将初步的最优解作为初始解带入蜻蜓算法进行局部搜索,更新最优解;
更优选的,所述使用Jaya算法进行全局搜索,计算得出初步的最优解,包括:依据参数的上界和下界进行随机生成,计算初步的参数最优解和最差解,迭代更新初步的最优解和最差解,使得目标函数最小化;所述将初步的最优解作为初始解带入蜻蜓算法进行局部搜索,更新最优解,包括:将迭代更新后的初步的最优解带入蜻蜓算法进行局部搜索,蜻蜓算法依据静态和动态的群体行为进行探索和开发,更新最优解。
优选的,所述Jaya-DA算法具体步骤包括:
第1步:依据参数的上界和下界进行随机生成;
第2步:计算初步的最优解和最差解;
第3步:使用式(3)迭代更新初步的最优解和最差解;
Figure BDA0003371152260000031
式中A(i,j,k)——第i次迭代中,第k个候选解的第j个变量;
r1——[0,1]范围内的随机数;
r2——[0,1]范围内的随机数;
A(i,j,b)——当前的最优解;
A(i,j,w)——当前的最差解;
A(i+1,j,k)——更新的解。
第4步:判断是否达到预设迭代次数,若没有达到迭代次数则回到第2步,若满足则进行第5步;
第5步:将第4步的结果,作为初值并初始化步长、w、s、a、c、f和e;
s——分离权重;
c——凝聚权重;
f——猎物权重;
e——天敌权重因子;
w——惯性权重;
a——对齐权重;
第6步:计算所有蜻蜓的目标值;
第7步:更新最优解和最差解;
第8步:分别使用式(4)、式(5)、式(6)、式(7)、式(8)计算Si、Ai、Ci、Fi和Ei;
Figure BDA0003371152260000041
式中N——附近个体数;
X——个体当前位置;
Xj——第j个附近个体位置。
Figure BDA0003371152260000042
式中Vj——第j个附近个体速度。
Figure BDA0003371152260000043
Fi=X+-X (7)
式中X+——食物的位置;
X——个体当前位置。
Ei=X-+X (8)
式中X-——食物的位置;
X——个体当前位置。
第9步:如果蜻蜓至少有一个相邻的个体,则使用式(9)更新个体速度并使用式(10)更新位置向量,若没有相邻个体则使用式(11)更新位置;
△Xt+1=(sSi+aAi+cCi+fFi+eEi)+w△Xt (9)
式中s——分离权重;
c——凝聚权重;
f——猎物权重;
e——天敌权重因子;
w——惯性权重;
a——对齐权重;
t——当前迭代次数。
Xt+1=Xt+△Xt+1 (10)
式中t——迭代次数;
Xt+1=Xt+Levy(d)×Xt (11)
第10步:判断是否满足终止条件满足则结束,不满足则回到第6步。
进一步,所述分类器为根据挑选指标从已有的模型算法中挑选出的分类器,所述挑选指标选自下列中的一种或几种:假阳率、假阴率、准确度、敏感性、特异性或G-mean。
可选的,所述分类器选自下列机器学习模型算法中的一种或几种:逻辑回归算法、朴素贝叶斯分类、支持向量机分类、支持向量机线性分类、k近邻、决策树、随机森林、xgboost、感知机算法。
本申请的目的在于提供一种疾病风险预测方法,包括:
获取待测用户的临床数据;
将所述临床数据输入训练好的疾病风险预测模型中,得到待测用户患病风险的分类结果,所述训练好的疾病风险预测模型是采用上述的疾病风险预测模型的构建方法训练完成。
本申请的目的在于提供一种疾病风险预测设备,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时实现上述的疾病风险预测方法步骤。
本申请的目的在于提供一种疾病风险预测系统,包括:
获取单元301,用于获取待测用户的临床数据;
处理单元302,用于将所述临床数据输入训练好的疾病风险预测模型中,计算待测用户的患病风险,所述训练好的疾病风险预测模型是采用上述的疾病风险预测模型的构建方法训练完成;
显示单元303,用于显示待测用户患病风险的分类结果。
本申请的目的在于提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的疾病风险预测方法步骤。
本申请的目的在于提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的疾病风险预测方法步骤。
本申请的优势:
1、考虑医学数据指标间存在可能的相关性,例如体重与血脂,但是常规的填补方法仅考虑数据平均值、中位数、众数等因素,没有考虑指标间存在关联性,本申请提供了一种更好的数据缺失值填补方法,即基于机器学习算法来填补数据,更好的利用指标间的相关性,使得填补的数据与真实数据更为接近;
2、使用机器学习算法填补数据时,进一步考虑离散数据和连续数据等不同数据类型,进一步优化缺失值填补方法;
3、在模型参数的优化过程,创造性的将Jaya算法与蜻蜓算法相融合,首先利用Jaya算法进行初步全局搜索,并结合蜻蜓算法进行局部搜索最优解,提高了算法的收敛精度,提高模型参数辨识的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种疾病风险预测模型的构建方法的示意流程图;
图2是本发明实施例提供的一种疾病风险预测设备的示意框图;
图3是本发明实施例提供的一种疾病风险预测系统的示意框图;
图4是Jaya-DA算法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S101、S102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种疾病风险预测模型的构建方法的示意流程图,具体地,所述方法包括如下步骤:
S101:获取训练样本集,其中,每个样本包括患者的临床数据及标签;
在一个实施例中,脑卒中数据集来自HealthData.gov,该数据集具有11个特征项,记录了43400个样本数据,样本包含了783次脑卒中的发病,即阳性数所占总样本的比例为1.8%,远低于50%,是个典型的类不平衡数据集。而数据集的不完整性主要体现在smoking_status与bmi特征项,有30%的smoking_status 和3%的bmi项的数据缺失,其详细信息如表1所示。
表1数据集特征项及相关说明
Figure BDA0003371152260000071
Figure BDA0003371152260000081
S102:对所述临床数据进行预处理,所述预处理包括对临床数据中存在的缺失值进行数据缺失值处理,所述数据缺失值处理是采用机器学习算法进行填补;
在一个实施例中,所述预处理还包括对临床数据中存在的异常值进行剔除处理。在上述脑卒中数据集中,根据脑卒中发病的最低监测年龄,根据MONICA 的标准,应当是25岁,然而样本中有很多低于25岁的数据行,这些不应当作为训练的样本,BMI的参考值的合理区间为(10%,50%),因此样本中的BMI指数大于60%的也应该剔除不作为训练样本数据出现样本数据出现。其次,id特征项仅作为身份标识出现,是典型的冗余项,因此需要将这些数据作为异常值剔除。
在一个实施例中,所述采用机器学习算法进行填补将根据数据类型不同采用不同的机器学习算法进行填补:所述数据为连续值时,采用回归算法进行填补,所述数据为离散值时,采用分类算法进行填补。
在一个实施例中,所述数据为连续值时,采用回归算法进行填补,所述回归算法包括SVR(Support Vector Regression)、LinearSVR(Linear Support Vector Regression)、RFR(Random Forest Regression)、BayRid(Bayesian Ridge Regression)、GBM(GradientBoosting Machine)中的一种或几种。
在一个实施例中,所述数据为离散值时,采用分类算法进行填补,所述分类算法包括kNN(K-NearestNeighbor)、LR(Logistic Regression)、RF(随机森林)、DecT(DecisionTree)中的一种或几种。
在一个实施例中,上述脑卒中数据集中对于bmi项,分别使用了SVR(SupportVector Regression,支持向量机回归),LinearSVR(Linear Support Vector Regression,线性支持向量机回归),RFR(Random Forest Regression随机森林回归),BayRid(BayesianRidge Regression,贝叶斯岭回归),GBM(Gradient Boosting Machine梯度提升器)的方法计算了他的均方误差(计算方式见式1)数据,均方误差是预测值与真实值之差的平方和的平均数,它是衡量预测值与真实值之间是否偏离过大的一个标准,其值越小则代表回归的效果越好。具体结果如表2所示。
Figure BDA0003371152260000091
其中n为样本的数量。
表2回归算法得到的均方误差值
Figure BDA0003371152260000092
同时比较特殊值产生的填充值与已知样本的均方误差,特殊值主要有平均值、中位数与众数三种填充方式,其结果如表3所示。
表3统计值得到的均方误差值
Figure BDA0003371152260000093
在bmi项处理缺失值的回归时,其使用预测模型的回归值方式要优于使用特殊统计值的回归方式,而使用GBM算法得到的回归值所产生的均方误差最小,由此说明通过GBM的回归算法对缺失值进行填充能较大的保存bmi项的完整信息,保证了数据的稳定性,在数据填充后不会对整个数据集造成较大的影响。
针对smoking_staus项,本文使用kNN(K-NearestNeighbor,k近邻),LR (LogisticRegression,逻辑回归),RF(随机森林),DecT(Decision Tree,决策树算法),评价指标为总体准确率,当总体准确率越高,则认为该方法的预测效果越好,预测结果显示总体准确率较高的是逻辑回归算法,准确率为0.521,而当使用统计值进行填充时,由于smoking_status是离散数据,因此能进行填充的也只有中位数与众数,准确率分别为0.513和0.513。
在一个实施例中,所述预处理还包括对临床数据中存在的数据类不平衡采用重新采样策略,所述重新采用策略包括欠采样策略和过采样策略;所述欠采样策略是采样时减少多数类的采样数量;所述过采样策略是指采样时增加少数类的采样数量。
上述脑卒中数据集中,包含了43400个样本,而其中只有783个样本中包含了脑卒中的发生,这意味着样本中的阳性数量只占据总体比例的1.8%,因此,如果训练出来的分类器即使将全部的样本都判定为阴性,其总体准确率也能达到 98.2%。这样的分类并没有意义。
过采样策略是指生成少数类样本使得与原本的多数类相平衡,即将原本的少数类通过一种“无中生有”的方式增加,但是如何使得新生成的少数类样本既要区分与原来的样本,也要使其具有少数类的相关特征,这里使用的是基于距离采样的SMOTE策略生成少数类样本的方法。即对于样本中的每个少数类样本,以欧式距离为依据,计算距离该样本最近的k个样本,得到其邻居,按照公式(见
式2)生成新的样本。
Figure BDA0003371152260000101
而k的数据根据样本的不平衡比率来决定,例如本数据集中阴性数与阳性数量的比为57:1,那么针对每一个阳性样本,则需要寻找57个邻居进行生成,这样能确保当所有阳性样本生成新样本后,其总数能达到平衡。欠采样方法是通过随机选取样本中的783个阴性样本,使得阴性样本与阳性样本的数量比达到1:1,这意味着样本将会丢掉90%以上的数据,此时重新采样后得到的数据集达到平衡,再此基础上划分训练集与测试集,使用LR算法进行比较的方法。比较欠采样策略、过采样策略与不进行采样策略的差异,结果如表4所示。
表4原样本、欠采样与过采样对比
Figure BDA0003371152260000102
Figure BDA0003371152260000111
S103:将上述预处理后的临床数据输入分类器中,得到预测的分类结果,将所述预测的分类结果与实际结果进行比对,根据对比结果优化分类器,得到疾病风险预测模型。
在一个实施例中,所述分类器为根据挑选指标从已有的模型算法中挑选出的分类器,所述挑选指标选自下列中的一种或几种:假阳率、假阴率、准确度、敏感性、特异性或G-mean。
在一个实施例中,所述分类器选自下列机器学习模型算法中的一种或几种: LR(逻辑回归算法),GNB(GaussianNB,朴素贝叶斯分类),SVC(Support Vector Classifier,支持向量机分类),LinearSVC(Linear Support Vector Classifier,支持向量机线性分类),KNN(k近邻),DecT(决策树),RF(随机森林), XGB(xgboost),MLP(MultiLayerPerceptron,感知机算法)。上述脑卒中数据集中,表5里显示了不同算法下分类器的性能指标。
表5不同机器学习算法数据对比
Figure BDA0003371152260000112
在一个实施例中,所述优化分类器包括对分类器的参数进行调优;可选的,所述对分类器的参数进行调优包括:首先使用算法进行全局搜索,计算得出最优解;然后将最优解作为初始解带入局部搜索算法进行局部搜索,更新最优解。
在一个实施例中,首先使用全局优化算法进行全局搜索,计算得出初步的最优解。所述全局优化算法选自下列中的一种或几种:遗传算法、禁忌搜索算法、模拟退火算法(Simulated Annealing)、粒子群算法(Particle swarm optimization)、蚁群算法、Jaya算法。
全局优化算法又称现代启发式算法,是一种具有全局优化性能、通用性强且适合于并行处理的算法。这种算法一般具有严密的理论依据,而不是单纯凭借专家经验,理论上可以在一定的时间内找到最优解或近似最优解。
局部搜索是解决最优化问题的一种启发式算法。局部搜索算法从一个初始解开始,通过邻域动作,产生其邻居解,判断邻居解的质量,根据某种策略,来选择邻居解,重复上述过程,至到达终止条件。
在一个实施例中,所述对分类器的参数进行调优为采用Jaya-DA算法对分类器的参数进行调优,包括:首先使用Jaya算法进行全局搜索,将每个解的目标函数值移向最优解,计算得出最优解;然后将最优解作为初始解带入蜻蜓算法进行局部搜索,蜻蜓算法依据静态和动态的群体行为进行探索和开发,更新最优解。
在一个实施例中,见图4,所述Jaya-DA算法具体步骤包括:
第1步:依据参数的上界和下界进行随机初始化,设置种群规模n及迭代次数;
第2步:计算最优解和最差解;
第3步:使用式(3)迭代更新最优解和最差解;
Figure BDA0003371152260000121
式中A(i,j,k)——第i次迭代中,第k个候选解的第j个变量;
r1——[0,1]范围内的随机数;
r2——[0,1]范围内的随机数;
A(i,j,b)——当前的最优解;
A(i,j,w)——当前的最差解;
A(i+1,j,k)——更新的解。
第4步:判断是否达到预设迭代次数,若没有达到迭代次数则回到第2步,若满足则进行第5步;
第5步:将第4步的结果,作为初值并初始化步长、w、s、a、c、f和e;
s——分离权重;
c——凝聚权重;
f——猎物权重;
e——天敌权重因子;
w——惯性权重;
a——对齐权重;
第6步:计算所有蜻蜓的目标值;
第7步:更新最优解和最差解;
第8步:分别使用式(4)、式(5)、式(6)、式(7)、式(8)计算Si、Ai、Ci、Fi和Ei;
Figure BDA0003371152260000131
式中N——附近个体数;
X——个体当前位置;
Xj——第j个附近个体位置。
Figure BDA0003371152260000132
式中Vj——第j个附近个体速度。
Figure BDA0003371152260000133
Fi=X+-X (7)
式中X+——食物的位置;
X——个体当前位置。
Ei=X-+X (8)
式中X-——食物的位置;
X——个体当前位置。
第9步:如果蜻蜓至少有一个相邻的个体,则使用式(9)更新个体速度并使用式(10)更新位置向量,若没有相邻个体则使用式(11)更新位置;
△Xt+1=(sSi+aAi+cCi+fFi+eEi)+w△Xt (9)
式中s——分离权重;
c——凝聚权重;
f——猎物权重;
e——天敌权重因子;
w——惯性权重;
a——对齐权重;
t——当前迭代次数。
Xt+1=Xt+△Xt+1 (10)
式中t——迭代次数;
Xt+1=Xt+Levy(d)×Xt (11)
第10步:判断是否满足终止条件满足则结束,不满足则回到第6步。
上述脑卒中数据集中,采用上述Jaya-DA算法对深度森林的中的普通随机森林中的max_depth、max_features、min_samples_split、min_samples_leaf、 n_estimators参数进行调优。
Jaya算法的主要目的是提高群体中每个候选解的适应度,通过更新变量的值来将每个解的目标函数值移向最优解。一旦变量的值被更新,更新解与相应的旧解相比较,下一代只考虑具有更好目标函数值的解,使得每一代解都接近最佳解的同时候选解也会远离最差解。随机数充当缩放因子,确保算法具有良好的多样性。使用蜻蜓算法进行局部搜索,将第一部分的最优解作为初始解代入蜻蜓算法。蜻蜓算法依据静态和动态的群体行为,这两个群体行为与使用元启发法进行优化的两个主要阶段非常相似:探索和开发。蜻蜓会创建子群,并在静态群中飞越不同区域,这是探索阶段的主要目标。然而,在动态群中,蜻蜓以较大的群并沿一个方向飞行,这在开发阶段是有利的。
一种疾病风险预测方法,包括:
获取待测用户的临床数据;
将所述临床数据输入训练好的疾病风险预测模型中,得到待测用户患病风险的分类结果,所述训练好的疾病风险预测模型是采用上述的疾病风险预测模型的构建方法训练完成。
图2是本发明实施例提供的一种疾病风险预测设备示意框图。
一种疾病风险预测设备,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时实现上述的疾病风险预测方法步骤。
图3是本发明实施例提供的一种疾病风险预测系统示意框图。
一种疾病风险预测系统,包括:
获取单元301,用于获取待测用户的临床数据;
处理单元302,用于将所述临床数据输入训练好的疾病风险预测模型中,计算待测用户的患病风险,所述训练好的疾病风险预测模型是采用上述的疾病风险预测模型的构建方法训练完成;
显示单元303,用于显示待测用户患病风险的分类结果。
所述患病风险的分类结果包括但不限于:是否患病的二分类结果、多种疾病的多分类结果、疾病风险的高低概率、疾病的分期、疾病的分型等等。
一种计算机可读存储介质,所述计算机可读取存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的疾病风险预测方法步骤。
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种疾病风险预测模型的构建方法,包括:
获取训练样本集,其中,每个样本包括患者的临床数据及标签;
对所述临床数据进行预处理,所述预处理包括对临床数据中存在的缺失值进行数据缺失值处理,所述数据缺失值处理是采用机器学习算法进行填补;
将上述预处理后的临床数据输入分类器中,得到预测的分类结果,将所述预测的分类结果与实际结果进行比对,根据对比结果优化分类器,得到疾病风险预测模型。
2.根据权利要求1所述的疾病风险预测模型的构建方法,其特征在于,所述采用机器学习算法进行填补将根据数据类型不同采用不同的机器学习算法进行填补:所述数据为连续值时,采用回归算法进行填补,所述数据为离散值时,采用分类算法进行填补;
可选的,所述回归算法包括SVR(Support Vector Regression)、LinearSVR(LinearSupport Vector Regression)、RFR(Random Forest Regression)、BayRid(BayesianRidge Regression)、GBM(Gradient Boosting Machine)中的一种或几种;所述分类算法包括kNN(K-NearestNeighbor)、LR(Logistic Regression)、RF(随机森林)、DecT(DecisionTree)中的一种或几种。
3.根据权利要求1所述的疾病风险预测模型的构建方法,其特征在于,所述预处理还包括对临床数据中存在的数据类不平衡采用不同采样策略,所述采用策略包括欠采样策略和过采样策略;可选的,所述预处理还包括对临床数据中存在的异常值进行剔除处理。
4.根据权利要求1所述的疾病风险预测模型的构建方法,其特征在于,所述优化分类器包括对分类器的参数进行调优;可选的,所述对分类器的参数进行调优包括:首先使用全局优化算法进行全局搜索,计算得出初步的最优解;然后将初步的最优解作为初始解带入局部搜索算法进行局部搜索,更新最优解;
优选的,所述对分类器的参数进行调优为采用Jaya-DA算法对分类器的参数进行调优,包括:首先使用Jaya算法进行全局搜索,计算得出初步的最优解;
然后将初步的最优解作为初始解带入蜻蜓算法进行局部搜索,更新最优解;
更优选的,所述使用Jaya算法进行全局搜索,计算得出初步的最优解,包括:依据参数的上界和下界进行随机生成,计算初步的参数最优解和最差解,迭代更新初步的最优解和最差解,使得目标函数最小化;所述将初步的最优解作为初始解带入蜻蜓算法进行局部搜索,更新最优解,包括:将迭代更新后的初步的最优解带入蜻蜓算法进行局部搜索,蜻蜓算法依据静态和动态的群体行为进行探索和开发,更新最优解。
5.根据权利要求4所述的疾病风险预测模型的构建方法,其特征在于,所述Jaya-DA算法具体步骤包括:
第1步:依据参数的上界和下界进行随机生成;
第2步:计算初步的最优解和最差解;
第3步:使用式(3)迭代更新初步的最优解和最差解;
第4步:判断是否达到预设迭代次数,若没有达到迭代次数则回到第2步,若满足则进行第5步;
第5步:将第4步的结果,作为初值并初始化步长、w、s、a、c、f和e;
第6步:计算所有蜻蜓的目标值;
第7步:更新最优解和最差解;
第8步:分别使用式(4)、式(5)、式(6)、式(7)、式(8)计算Si、Ai、Ci、Fi和Ei;
第9步:如果蜻蜓至少有一个相邻的个体,则使用式(9)更新个体速度并使用式(10)更新位置向量,若没有相邻个体则使用式(11)更新位置;
第10步:判断是否满足终止条件满足则结束,不满足则回到第6步。
6.根据权利要求1所述的疾病风险预测模型的构建方法,其特征在于,所述分类器为根据挑选指标从已有的模型算法中挑选出的分类器,所述挑选指标选自下列中的一种或几种:假阳率、假阴率、准确度、敏感性、特异性或G-mean;可选的,所述分类器选自下列机器学习模型算法中的一种或几种:逻辑回归算法、朴素贝叶斯分类、支持向量机分类、支持向量机线性分类、k近邻、决策树、随机森林、xgboost、感知机算法。
7.一种疾病风险预测方法,包括:
获取待测用户的临床数据;
将所述临床数据输入训练好的疾病风险预测模型中,得到待测用户患病风险的分类结果,所述训练好的疾病风险预测模型是采用权利要求1-6任意一项所述的疾病风险预测模型的构建方法训练完成。
8.一种疾病风险预测设备,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时实现权利要求7所述的疾病风险预测方法步骤。
9.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求7所述的疾病风险预测方法步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求7所述的疾病风险预测方法步骤。
CN202111399651.9A 2021-11-24 2021-11-24 一种疾病风险预测模型的构建方法 Active CN114093448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111399651.9A CN114093448B (zh) 2021-11-24 2021-11-24 一种疾病风险预测模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111399651.9A CN114093448B (zh) 2021-11-24 2021-11-24 一种疾病风险预测模型的构建方法

Publications (2)

Publication Number Publication Date
CN114093448A true CN114093448A (zh) 2022-02-25
CN114093448B CN114093448B (zh) 2022-07-01

Family

ID=80303727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111399651.9A Active CN114093448B (zh) 2021-11-24 2021-11-24 一种疾病风险预测模型的构建方法

Country Status (1)

Country Link
CN (1) CN114093448B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497616A (zh) * 2022-10-25 2022-12-20 杭州杏林信息科技有限公司 一种感染性疾病辅助决策的方法、系统、设备及存储介质
CN117423467A (zh) * 2023-10-18 2024-01-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480474A (zh) * 2017-08-01 2017-12-15 山东师范大学 基于肠道菌群丰度的分类器建模评价校验方法及系统
CN108509982A (zh) * 2018-03-12 2018-09-07 昆明理工大学 一种处理二分类不平衡医学数据的方法
US20190354814A1 (en) * 2017-01-08 2019-11-21 Henry M. Jackson Foundation For The Advancement Of Military Medicine Systems and methods for using supervised learning to predict subject-specific bacteremia outcomes
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法
CN112786204A (zh) * 2021-03-03 2021-05-11 天津医科大学 一种机器学习糖尿病发病风险预测方法及应用
CN113040711A (zh) * 2021-03-03 2021-06-29 吾征智能技术(北京)有限公司 一种脑卒中发病风险预测系统、设备、存储介质
CN113380413A (zh) * 2021-06-24 2021-09-10 首都医科大学附属北京天坛医院 一种构建无效再通fr预测模型的方法和装置
CN113378343A (zh) * 2021-07-09 2021-09-10 浙江盘盘科技有限公司 一种基于离散Jaya算法的电缆生产调度方法
US20210327540A1 (en) * 2018-08-17 2021-10-21 Henry M. Jackson Foundation For The Advancement Of Military Medicine Use of machine learning models for prediction of clinical outcomes

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354814A1 (en) * 2017-01-08 2019-11-21 Henry M. Jackson Foundation For The Advancement Of Military Medicine Systems and methods for using supervised learning to predict subject-specific bacteremia outcomes
CN107480474A (zh) * 2017-08-01 2017-12-15 山东师范大学 基于肠道菌群丰度的分类器建模评价校验方法及系统
CN108509982A (zh) * 2018-03-12 2018-09-07 昆明理工大学 一种处理二分类不平衡医学数据的方法
US20210327540A1 (en) * 2018-08-17 2021-10-21 Henry M. Jackson Foundation For The Advancement Of Military Medicine Use of machine learning models for prediction of clinical outcomes
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法
CN112786204A (zh) * 2021-03-03 2021-05-11 天津医科大学 一种机器学习糖尿病发病风险预测方法及应用
CN113040711A (zh) * 2021-03-03 2021-06-29 吾征智能技术(北京)有限公司 一种脑卒中发病风险预测系统、设备、存储介质
CN113380413A (zh) * 2021-06-24 2021-09-10 首都医科大学附属北京天坛医院 一种构建无效再通fr预测模型的方法和装置
CN113378343A (zh) * 2021-07-09 2021-09-10 浙江盘盘科技有限公司 一种基于离散Jaya算法的电缆生产调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾一婕 等: "基于Jaya-DA算法的太阳电池模型参数辨识", 《太阳能学报》 *
李琳等: "基于临床数据集的缺失值处理方法比较", 《中国数字医学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497616A (zh) * 2022-10-25 2022-12-20 杭州杏林信息科技有限公司 一种感染性疾病辅助决策的方法、系统、设备及存储介质
CN117423467A (zh) * 2023-10-18 2024-01-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置
CN117423467B (zh) * 2023-10-18 2024-04-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置

Also Published As

Publication number Publication date
CN114093448B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
Pritom et al. Predicting breast cancer recurrence using effective classification and feature selection technique
US11023806B2 (en) Learning apparatus, identifying apparatus, learning and identifying system, and recording medium
CN114093448B (zh) 一种疾病风险预测模型的构建方法
WO2022121289A1 (en) Methods and systems for mining minority-class data samples for training neural network
CN111161879B (zh) 一种基于大数据的疾病预测系统
Dhanya et al. A comparative study for breast cancer prediction using machine learning and feature selection
JP2020501238A (ja) 顔検出トレーニング方法、装置及び電子機器
Alkım et al. A fast and adaptive automated disease diagnosis method with an innovative neural network model
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
Zohora et al. Forecasting the risk of type ii diabetes using reinforcement learning
EP4053757A1 (en) Degradation suppression program, degradation suppression method, and information processing device
Maliah et al. MDP-based cost sensitive classification using decision trees
CN111079074A (zh) 一种基于改进的正弦余弦算法构建预测模型的方法
Fong et al. Gesture recognition from data streams of human motion sensor using accelerated PSO swarm search feature selection algorithm
CN110738362A (zh) 一种基于改进的多元宇宙算法构建预测模型的方法
US20230019364A1 (en) Selection method of learning data and computer system
Yang et al. Probabilistic multimodal optimization
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
Venkatesh et al. Metaheuristic based optimal feature subset selection with gradient boosting tree model for IoT assisted customer churn prediction
CN107636678A (zh) 用于预测图像样本的属性的方法和设备
US11289202B2 (en) Method and system to improve clinical workflow
CN112991080A (zh) 关键节点计算方法、系统、电子设备及存储介质
Christal et al. Heart diseases diagnosis using chaotic Harris Hawk optimization with E-CNN for IoMT framework
Hu et al. Derivative-free optimization with adaptive experience for efficient hyper-parameter tuning
CN116959078B (zh) 疲劳检测模型的构建方法、疲劳检测方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant