CN116994751A - 一种孕早期子痫前期风险预测模型的构建方法及装置 - Google Patents
一种孕早期子痫前期风险预测模型的构建方法及装置 Download PDFInfo
- Publication number
- CN116994751A CN116994751A CN202310673297.7A CN202310673297A CN116994751A CN 116994751 A CN116994751 A CN 116994751A CN 202310673297 A CN202310673297 A CN 202310673297A CN 116994751 A CN116994751 A CN 116994751A
- Authority
- CN
- China
- Prior art keywords
- eclampsia
- risk prediction
- model
- prediction model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000011461 pre-eclampsia Diseases 0.000 title claims abstract description 108
- 238000013058 risk prediction model Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000035935 pregnancy Effects 0.000 claims abstract description 38
- 238000005070 sampling Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 19
- 208000002296 eclampsia Diseases 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 22
- 238000002790 cross-validation Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000004065 semiconductor Substances 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 6
- 230000004044 response Effects 0.000 abstract description 3
- 238000002203 pretreatment Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 101000595923 Homo sapiens Placenta growth factor Proteins 0.000 description 3
- 102100035194 Placenta growth factor Human genes 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 206010070538 Gestational hypertension Diseases 0.000 description 2
- 230000035487 diastolic blood pressure Effects 0.000 description 2
- 201000001474 proteinuria Diseases 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000035488 systolic blood pressure Effects 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 1
- 230000004872 arterial blood pressure Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000035558 fertility Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000012474 protein marker Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种孕早期子痫前期风险预测模型的构建方法及装置,包括以下步骤;步骤1:孕早期子痫前期数据预处理;步骤2:孕早期子痫前期数据采样;步骤3:步骤2获得的所有采样集Ωj进行SVM模型训练;步骤4:孕早期子痫前期风险预测模型构建;步骤5:对步骤4孕早期子痫前期风险预测模型进行交叉验证;步骤6:孕早期子痫前期风险预测误差的均值计算;步骤7:孕早期子痫前期风险预测误差的变异系数计算。本发明得到针对性更强、准确率更高的预测模型和平台。构建的模型规模小,存储量小,响应速度高。该评估方法能够更全面、准确、可靠地评估模型的预测性能。
Description
技术领域
本发明属于孕早期子痫前期风险预测技术领域,具体涉及一种孕早期子痫前期风险预测模型的构建方法及装置。
背景技术
子痫前期的风险预测是一个二分类问题,其中正例表示存在子痫前期的风险,而负例则表示不存在子痫前期的风险。这个问题的目标是根据病人的临床数据,如孕周、年龄、体重等,对其患病风险进行预测,并给出二元分类结果,即是否存在子痫前期风险。
子痫前期数据,特别是孕早期子痫前期数据,存在严重的小样本和类别不平衡的问题。由于子痫前期在孕早期发生率较低、且不易发现,虽然可通过检测潜在特征加以判别,但由于样本量小,判别的可靠性难于保证,并且子痫前期风险预测模型更多是用于对孕妇的子痫前期的筛查而非诊断,这意味着在训练数据中,正样本(即患有子痫前期的样本)的数量远远小于负样本(即未患病的样本)的数量,即存在类别上的样本不平衡问题,这将严重影响筛查结果的质量。
在临床实践中,这样的结果可能导致错过重要的早期预警信号,以至于延误治疗和增加患者风险。因此,解决孕早期子痫前期数据的小样本不平衡问题和提高孕早期子痫前期的风险预警的准确性和可靠性十分必要。
目前子痫前期的主要预测手段是根据妊娠期高血压和蛋白尿进行预测,但这种方法测定准确率较低,且敏感性、特异性均不高,无法满足对于孕早期子痫前期筛查的需求。国际上的一些子痫前期风险预测技术,如Simoa平台的超高灵敏度蛋白标志物检测技术和Elecsys平台的将sFlt-1/PIGF相结合的技术,可以较为有效地预测子痫前期风险。
在机器学习领域中,目前已有的与本发明最相近似的实现方案是集成学习中的Bagging算法,以及在Bagging基础上改进的随机森林算法。这些方法都通过重复多次有放回采样得到多个采样集,并基于每个采样集训练出一个基学习器,再将这些基学习器进行结合,取其预测值的平均或者投票作为最终的预测结果。虽然这样可以提高模型性能,但也导致最终的模型极为复杂(是N个基学习器的集成),存在模型存储和计算成本高的问题,尽管N越大预测结果越准确,所带来的却是模型存储和计算的成本越高。
现在模型性能评估一般通过交叉验证进行,其中最常用的是K折交叉验证:将原始数据集分成K份,其中K-1份作为训练集,剩下的一份作为测试集,进行K次训练和测试,最终将得到K个性能指标(如准确率等)的平均值作为模型的性能评估指标。
现有方法主要存在以下不足:
(1)现有的子痫前期预测方法准确率不高,如根据妊娠期高血压和蛋白尿进行预测的方法,其敏感性、特异性均不高,无法满足对于早期筛查的需求。
(2)国际上的一些子痫前期风险预测平台可以较为有效的预测子痫前期风险,但这些平台目前缺乏针对孕早期的子痫前期风险预测模型和平台。
(3)集成学习算法构建的模型规模庞大,无论是Bagging还是随机森林,对于一个问题,都需要训练和存储N个基学习器(N一般很大),存储量大;每次求解时需要先计算出每一个基学习器的预测值,计算效率低。而且集成学习无法解决类别不平衡问题。
(4)目前通过交叉验证获得的模型预测误差来比较模型性能,但这样的评价存在可靠性不高的风险。
发明内容
为了克服以上现有技术存在的问题,本发明提供一种孕早期子痫前期风险预测模型的构建方法及装置;
本发明的目的一:提出新的预测模型构建方法以解决孕早期子痫前期数据的小样本不平衡问题,得到针对性更强、准确率更高的预测模型和平台。
本发明的目的二:构建出单一的子痫前期风险预测模型,而不像Bagging或随机森林模型那样是多模型的集成,从而模型规模小,存储量小,响应速度高。
本发明的目的三:提供的评估方法能够更全面、准确、可靠地评估模型的预测性能。
为了实现上述目的,本发明采用的技术方案是:
一种孕早期子痫前期风险预测模型的构建方法,包括以下步骤;
步骤1:孕早期子痫前期数据预处理,选取的数据为没有缺失值且所有特征取值均为数字类型;
步骤2:孕早期子痫前期数据采样;
步骤3:步骤2获得的所有采样集Ωj进行SVM模型训练;
步骤4:孕早期子痫前期风险预测模型构建;
步骤5:对步骤4孕早期子痫前期风险预测模型进行交叉验证;
步骤6:孕早期子痫前期风险预测误差的均值计算;
步骤7:孕早期子痫前期风险预测误差的变异系数计算。
所述步骤1具体为:首先从临床收集孕早期子痫前期样本,并将患有子痫前期的样本记为正类,无病样本记为负类,如果特征中存在缺失值,采用插补法,即取该项特征的中位数来填充空值,如果特征取值为文本类型,或某项离散特征的取值之间没有大小意义,采用One-Hot编码将其转化为数字类型,从而获得预处理后的孕早期子痫前期数据集Ω,其中没有缺失值且所有特征取值均为数字类型,符合模型训练所需的要求。
所述步骤2对孕早期子痫前期数据集Ω进行无放回随机采样获得N个采样集,原则上N越大越好(N至少取100),每次采样时先从数据集Ω的正类中随机采集2/3的样本,再从数据集Ω的负类中采集相同数量的样本,然后将这两类样本组合到一起形成采样集Ωj,j=1,2,…N。
所述步骤3具体为在步骤2获得的所有采样集Ωj,j=1,2,…N上各训练一个SVM模型fj(x),这样对Ωj中的每个样本,都能得到SVM最优解对应的拉格朗日乘子的值α≥0;而对Ω中所有不属于Ωj的样本,即Ω/Ωj中的样本,令其对应的拉格朗日乘子的值α=0,则最终fj(x)的决策函数如式(1)所示,其中m表示Ω中的样本数目,xi表示Ω中第i个样本的特征向量,yi表示Ω中第i个样本的标签,κ(x,xi)为核函数,b是偏置项,αi (j)≥0为第i个样本对应的拉格朗日乘子的值,sign是将模型输出转化为类别标签的函数;
所述步骤4具体为:将步骤3中获得的所有SVM模型fj(x),j=1,2,…N融合成最终的孕早期子痫前期风险预测模型f(x),其决策函数如式(2)所示,其中N表示采样集数目,m表示Ω中的样本数目,xi表示Ω中第i个样本的特征向量,yi表示Ω中第i个样本的标签,κ(x,xi)为核函数,bj是第j个SVM模型fj(x)中的偏置项,αi (j)≥0为第j个SVM模型fj(x)中第i个样本对应的拉格朗日乘子的值,sign是将模型输出转化为类别标签的函数;
所述步骤5具体为;为评估孕早期子痫前期风险预测模型的性能,将数据集Ω平均分成K份,轮流将其中K-1份做训练集,剩余的1份做测试集,在每个训练集上按步骤2~4各构建一个子痫前期风险预测模型,然后在测试集上计算子痫前期风险预测误差BA(Balanced Accuracy),这样得到K次交叉验证的子痫前期风险预测误差BAi,i=1,2,…,K。BA的计算公式如式(3)所示:
所述步骤6具体为:对步骤5中获得的K次交叉验证的子痫风险预测误差BAi,i=1,2,…,K,根据式(4)计算其均值 将用于衡量孕早期子痫前期风险预测模型的预测准确性,/>越高表示模型预测越准确;
所述步骤7具体为:利用步骤5中获得的K次交叉验证的预测误差BAi,i=1,2,…,K和步骤6中获得的预测误差均值计算变异系数CV(Coefficient of Variation),计算公式如式(5)所示,该指标用于衡量孕早期子痫前期风险预测模型预测误差均值的可靠性,CV越小表示/>越可靠;
一种用于实现孕早期子痫前期风险预测的装置,包括:采集单元、处理单元以及显示单元;
所述采集单元为数据输入接口,用于获取并记录孕妇的各项可用于子痫前期风险预测的生理参数;
所述处理单元为计算设备,用于对采集到的数据进行处理,并调用预先训练好的模型进行风险预测;
所述显示单元为数据输出界面,用于展示孕早期子痫前期风险的预测结果。
所述装置全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令;
在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本方法所述的流程或功能;
所述计算机是通用计算机、专用计算机、计算机网络、或者其他可编程装置;
所述计算机指令用于存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输(例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。
所述计算机可读取存储介质是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备;
所述可用介质是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk)。
本发明的有益效果:
(1)本申请的方法可用于但不限于孕早期子痫前期风险预测模型的建立。对于子痫前期风险预测,开发适用性更高的预测模型和平台。
(2)模型规模小。最终建立的孕早期子痫前期风险预测模型为单一的SVM模型,模型存储量小,响应速度高。在基于N个SVM模型进行建模的情况下,新型SVM模型的规模仅仅为Bagging模型的1/N,通常N很大(比如>400),从而这个模型降低是非常大的。
(3)模型准确率高、可靠性强。最终建立的孕早期子痫前期风险预测模型虽然是单一模型,但在预测性能上优于Bagging模型。
(4)适用于小样本问题。SVM模型的优化目标是最小化分类误差的同时最大化分类边界,因此对于小样本问题,它的泛化能力和稳定性相对较高。而孕早期子痫前期风险预测模型融合了多个SVM模型,能够进一步缓解小样本问题带来的负面影响。
(5)适用于类别不平衡问题。在采样时保证每个采样集中拥有相同数量的正类样本和负类样本,避免了类别不平衡对孕早期子痫前期风险预测模型性能的影响。
(6)给出了模型准确性和可靠性的评价指标,将模型预测误差的均值用于评估模型预测准确性,更给出反映其可靠性的变异系数。
附图说明
图1为本发明流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
如图1所示:
一种孕早期子痫前期风险预测模型的构建方法,包括以下步骤:
步骤1:孕早期子痫前期数据预处理;首先从临床收集孕早期子痫前期样本,并将患有子痫前期的样本记为正类,无病样本记为负类。对于存在缺失值的特征,比如孕前体重、现在体重、舒张压、收缩压,采用插补法,即取该项特征的中位数来填充空值。对于取值为文本类型,且各项取值之间没有大小意义的特征,采用One-Hot编码将其转化为数字类型。从而获得预处理后的孕早期子痫前期数据集Ω,其中没有缺失值且所有特征取值均为数字类型,符合模型训练所需的要求;
步骤2:孕早期子痫前期数据采样;对孕早期子痫前期数据集Ω进行无放回随机采样获得N个采样集,原则上N越大越好(N至少取100),每次采样时先从数据集Ω的正类中随机采集2/3的样本,再从数据集Ω的负类中采集相同数量的样本,然后将这两类样本组合到一起形成采样集Ωj,j=1,2,…N;
步骤3:SVM模型训练;在步骤2获得的所有采样集Ωj,j=1,2,…N上各训练一个SVM模型fj(x),这样对Ωj中的每个样本,都可以得到SVM最优解对应的拉格朗日乘子的值α≥0;而对Ω中所有不属于Ωj的样本,即Ω/Ωj中的样本,令其对应的拉格朗日乘子的值α=0,则最终fj(x)的决策函数如式(1)所示,其中m表示Ω中的样本数目,xi表示Ω中第i个样本的特征向量,yi表示Ω中第i个样本的标签,κ(x,xi)为核函数,b是偏置项,αi (j)≥0为第i个样本对应的拉格朗日乘子的值,sign是将模型输出转化为类别标签的函数;
步骤4:孕早期子痫前期风险预测模型构建;将步骤3中获得的所有SVM模型fj(x),j=1,2,…N融合成最终的孕早期子痫前期风险预测模型f(x),其决策函数如式(2)所示,其中N表示采样集数目,m表示Ω中的样本数目,xi表示Ω中第i个样本的特征向量,yi表示Ω中第i个样本的标签,κ(x,xi)为核函数,bj是第j个SVM模型fj(x)中的偏置项,αi (j)≥0为第j个SVM模型fj(x)中第i个样本对应的拉格朗日乘子的值,sign是将模型输出转化为类别标签的函数;
步骤5:交叉验证;为评估孕早期子痫前期风险预测模型的性能,将数据集Ω平均分成K份,轮流将其中K-1份做训练集,剩余的1份做测试集,在每个训练集上按步骤2~4各构建一个子痫前期风险预测模型,然后在测试集上计算子痫前期风险预测误差BA(Balanced Accuracy),这样可以得到K次交叉验证的子痫前期风险预测误差BAi,i=1,2,…,K。BA的计算公式如式(3)所示:
其中TP、TN、FP、FN的含义如表1所示:
表1分类结果混淆矩阵
步骤6:孕早期子痫前期风险预测误差的均值计算;对步骤5中获得的K次交叉验证的子痫风险预测误差BAi,i=1,2,…,K,根据式(4)计算其均值 将用于衡量孕早期子痫前期风险预测模型的预测准确性,/>越高表示模型预测越准确;
步骤7:孕早期子痫前期风险预测误差的变异系数计算;利用步骤5中获得的K次交叉验证的预测误差BAi,i=1,2,…,K和步骤6中获得的预测误差均值计算变异系数CV(Coefficient of Variation),计算公式如式(5)所示,该指标用于衡量孕早期子痫前期风险预测模型预测误差均值的可靠性,CV越小表示/>越可靠。
模型对比实验
以下是本发明的一个实施例,在一个真实的孕早期子痫前期数据集上进行对比实验,比较传统方法和本发明的实施效果,实验在MATLAB平台上进行。
实验数据集是一个典型的小样本不平衡数据集。数据集中包含255个样本,其中无病样本190个,患病样本65个。样本特征包括:年龄、身高、孕前体重、现在体重、孕前BMI(Body Mass Index,身体质量指数)、现在BMI、BMI增率、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、怀孕天数、舒张压、收缩压、平均动脉压、PIGF(Placental GrowthFactor,胎盘生长因子)。
实验中SVM模型的训练通过MATLAB中的fitcvm函数实现,其中超参KernelFunction设定为linear。
实验中将训练两种孕早期子痫前期风险预测模型进行对比,一是按本文方法建立的预测模型,记为新型SVM模型;二是按传统的Bagging算法建立的模型。具体建模过程如下,其中N取200:
新型SVM模型。按本发明方法,先在训练集上通过无放回采样获得N个类别平衡的采样集,在每个采样集上分别训练出一个SVM模型,然后将这N个SVM模型进行参数融合,从而融合为一个单一的新型SVM模型。
Bagging模型。按Bagging算法,先在训练集上通过有放回采样获得N个采样集,在每个采样集上分别训练出一个SVM模型,取这N个SVM模型的预测值的多数投票决策结果作为Bagging模型的预测结果。
在评估模型性能时,使用五折交叉验证,每次计算出各个模型在测试集上的BA,再取各次测试结果的均值和变异系数作为模型性能评价指标。同时给出每次训练出的模型所需存储空间的均值,用于衡量模型体积。实验结果如表2所示,表2中还给出了Bagging模型相对于新型SVM模型的性能情况,结果保留两位小数:
表2新型SVM模型和Bagging模型的五折交叉验证结果
从表2可以看出,新型SVM模型的性能明显优于Bagging模型:
在预测准确性上,Bagging模型的BA均值仅为新型SVM模型的93.55%,也就是说新型SVM模型的预测结果更为准确;
在预测性能的可靠性上,Bagging模型的BA变异系数是新型SVM模型的1.25倍,也就是说新型SVM模型的预测误差更稳定,从而更可靠。
在内存上,Bagging模型的存储空间是新型SVM模型的103.46倍,新型SVM模型所需内存比Bagging模型降低了一百多倍。
由此可以看到,运用本发明,获得了相较Bagging仅仅百分之一规模的新型SVM模型,尽管只有如此小的模型规模,其对孕早期的子痫预测风险的预测精度却比Bagging不降反升,达到了其的1.07倍,并且所获得的结果比Bagging的更加可靠。
Claims (10)
1.一种孕早期子痫前期风险预测模型的构建方法,其特征在于,包括以下步骤;
步骤1:孕早期子痫前期数据预处理,选取的数据为没有缺失值且所有特征取值均为数字类型;
步骤2:孕早期子痫前期数据采样;
步骤3:步骤2获得的所有采样集Ωj进行SVM模型训练;
步骤4:孕早期子痫前期风险预测模型构建;
步骤5:对步骤4孕早期子痫前期风险预测模型进行交叉验证;
步骤6:孕早期子痫前期风险预测误差的均值计算;
步骤7:孕早期子痫前期风险预测误差的变异系数计算。
2.根据权利要求1所述的一种孕早期子痫前期风险预测模型的构建方法,其特征在于,所述步骤1具体为:首先从临床收集孕早期子痫前期样本,并将患有子痫前期的样本记为正类,无病样本记为负类,如果特征中存在缺失值,采用插补法,即取该项特征的中位数来填充空值,如果特征取值为文本类型,或某项离散特征的取值之间没有大小意义,采用One-Hot编码将其转化为数字类型,从而获得预处理后的孕早期子痫前期数据集Ω,其中没有缺失值且所有特征取值均为数字类型。
3.根据权利要求2所述的一种孕早期子痫前期风险预测模型的构建方法,其特征在于,所述步骤2对孕早期子痫前期数据集Ω进行无放回随机采样获得N个采样集,N至少取100,每次采样时先从数据集Ω的正类中随机采集2/3的样本,再从数据集Ω的负类中采集相同数量的样本,然后将这两类样本组合到一起形成采样集Ωj,j=1,2,…N。
4.根据权利要求3所述的一种孕早期子痫前期风险预测模型的构建方法,其特征在于,所述步骤3具体为在步骤2获得的所有采样集Ωj,j=1,2,…N上各训练一个SVM模型fj(x),SVM最优解对应的拉格朗日乘子的值α≥0;对Ω中不属于Ωj的样本,即Ω/Ωj中的样本,令其对应的拉格朗日乘子的值α=0,则最终fj(x)的决策函数如式(1)所示,其中m表示Ω中的样本数目,xi表示Ω中第i个样本的特征向量,yi表示Ω中第i个样本的标签,κ(x,xi)为核函数,b是偏置项,αi (j)≥0为第i个样本对应的拉格朗日乘子的值,sign是将模型输出转化为类别标签的函数;
5.根据权利要求4所述的一种孕早期子痫前期风险预测模型的构建方法,其特征在于,所述步骤4具体为:将步骤3中获得的所有SVM模型fj(x),j=1,2,…N融合成最终的孕早期子痫前期风险预测模型f(x),其决策函数如式(2)所示,其中N表示采样集数目,m表示Ω中的样本数目,xi表示Ω中第i个样本的特征向量,yi表示Ω中第i个样本的标签,κ(x,xi)为核函数,bj是第j个SVM模型fj(x)中的偏置项,αi (j)≥0为第j个SVM模型fj(x)中第i个样本对应的拉格朗日乘子的值,sign是将模型输出转化为类别标签的函数;
6.根据权利要求5所述的一种孕早期子痫前期风险预测模型的构建方法,其特征在于,所述步骤5具体为;为评估孕早期子痫前期风险预测模型的性能,将数据集Ω平均分成K份,轮流将其中K-1份做训练集,剩余的1份做测试集,在每个训练集上按步骤2~4各构建一个子痫前期风险预测模型,然后在测试集上计算子痫前期风险预测误差BA,这样得到K次交叉验证的子痫前期风险预测误差BAi,i=1,2,…,K,BA的计算公式如式(3)所示:
7.根据权利要求6所述的一种孕早期子痫前期风险预测模型的构建方法,其特征在于,所述步骤6具体为:对步骤5中获得的K次交叉验证的子痫风险预测误差BAi,i=1,2,…,K,根据式(4)计算其均值将用于衡量孕早期子痫前期风险预测模型的预测准确性;
8.根据权利要求6所述的一种孕早期子痫前期风险预测模型的构建方法,其特征在于,所述步骤7具体为:利用步骤5中获得的K次交叉验证的预测误差BAi,i=1,2,…,K和步骤6中获得的预测误差均值计算变异系数CV,计算公式如式(5)所示;
9.基于权利要求1-8任一项所述的方法的一种用于实现孕早期子痫前期风险预测的装置,其特征在于,包括:采集单元、处理单元以及显示单元;
所述采集单元为数据输入接口,用于获取并记录孕妇的各项可用于子痫前期风险预测的生理参数;
所述处理单元为计算设备,用于对采集到的数据进行处理,并调用预先训练好的模型进行风险预测;
所述显示单元为数据输出界面,用于展示孕早期子痫前期风险的预测结果。
10.根据权利要求9所述的一种用于实现孕早期子痫前期风险预测的装置,其特征在于,所述装置全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令;
在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本方法所述的流程或功能;
所述计算机是通用计算机、专用计算机、计算机网络、或者其他可编程装置;
所述计算机指令用于存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输;
所述计算机可读取存储介质是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备;
所述可用介质是磁性介质、光介质或者半导体介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310673297.7A CN116994751A (zh) | 2023-06-08 | 2023-06-08 | 一种孕早期子痫前期风险预测模型的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310673297.7A CN116994751A (zh) | 2023-06-08 | 2023-06-08 | 一种孕早期子痫前期风险预测模型的构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116994751A true CN116994751A (zh) | 2023-11-03 |
Family
ID=88527335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310673297.7A Pending CN116994751A (zh) | 2023-06-08 | 2023-06-08 | 一种孕早期子痫前期风险预测模型的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994751A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117747110A (zh) * | 2023-12-26 | 2024-03-22 | 南京鼓楼医院 | 基于母体因素和早期孕期生物标志物的子痫前期风险预测方法及系统 |
-
2023
- 2023-06-08 CN CN202310673297.7A patent/CN116994751A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117747110A (zh) * | 2023-12-26 | 2024-03-22 | 南京鼓楼医院 | 基于母体因素和早期孕期生物标志物的子痫前期风险预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108091372B (zh) | 医疗字段映射校验方法及装置 | |
CN111968741B (zh) | 基于深度学习与集成学习的糖尿病并发症高危预警系统 | |
Metcalfe et al. | Prediction of obstetrical risk using maternal serum markers and clinical risk factors | |
CN105229471A (zh) | 用于基于生物化学标记分析确定先兆子痫风险的系统和方法 | |
CN112967803A (zh) | 基于集成模型的急诊患者早期死亡率预测方法及系统 | |
CN116994751A (zh) | 一种孕早期子痫前期风险预测模型的构建方法及装置 | |
CN107169264B (zh) | 一种复杂疾病诊断系统 | |
CN115470989A (zh) | 基于机器学习的预测早产儿支气管肺发育不良风险的方法 | |
Alkhodari et al. | The role of artificial intelligence in hypertensive disorders of pregnancy: towards personalized healthcare | |
CN113724873B (zh) | 一种基于mlp多平台校准的子痫前期风险预测方法 | |
CN114038570A (zh) | 脓毒症相关急性肾损伤患者死亡预测方法、系统、设备及介质 | |
Beebe et al. | Methods to improve the reliability of histopathological diagnoses in the placenta | |
US20230386665A1 (en) | Method and device for constructing autism spectrum disorder (asd) risk prediction model | |
Yördan et al. | Hybrid AI-Based Chronic Kidney Disease Risk Prediction | |
Liu et al. | Interpretable machine learning model for early prediction of mortality in elderly patients with multiple organ dysfunction syndrome (MODS): a multicenter retrospective study and cross validation | |
CN112216391B (zh) | 基于颈动脉粥样硬化情况评估脑卒中发病风险方法及装置 | |
Silva et al. | Comparison of the CIPHER prognostic model with the existing scores in predicting severe maternal outcomes during intensive care unit admission | |
CN115512845A (zh) | Acs风险预测方法、装置和存储介质 | |
Chang et al. | Non‐homogeneous continuous‐time Markov chain with covariates: Applications to ambulatory hypertension monitoring | |
CN114566280A (zh) | 用户状态预测方法、装置、电子设备及存储介质 | |
CN114140393A (zh) | 一种基于深度学习的类风湿性关节炎x光片评分方法 | |
CN113990507A (zh) | 数据处理方法、装置、可读介质及电子设备 | |
CN114283937A (zh) | 预测anca相关小血管炎肾脏发展风险的装置和模型训练方法 | |
CN113782197A (zh) | 基于可解释性机器学习算法的新冠肺炎患者转归预测方法 | |
CN112259231A (zh) | 一种高危胃肠间质瘤患者术后复发风险评估方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |