CN116994751A

CN116994751A - 一种孕早期子痫前期风险预测模型的构建方法及装置

Info

Publication number: CN116994751A
Application number: CN202310673297.7A
Authority: CN
Inventors: 张军英; 金剑杰; 赵志国
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-11-03

Abstract

本发明公开了一种孕早期子痫前期风险预测模型的构建方法及装置，包括以下步骤；步骤1：孕早期子痫前期数据预处理；步骤2：孕早期子痫前期数据采样；步骤3：步骤2获得的所有采样集Ω_j进行SVM模型训练；步骤4：孕早期子痫前期风险预测模型构建；步骤5：对步骤4孕早期子痫前期风险预测模型进行交叉验证；步骤6：孕早期子痫前期风险预测误差的均值计算；步骤7：孕早期子痫前期风险预测误差的变异系数计算。本发明得到针对性更强、准确率更高的预测模型和平台。构建的模型规模小，存储量小，响应速度高。该评估方法能够更全面、准确、可靠地评估模型的预测性能。

Description

一种孕早期子痫前期风险预测模型的构建方法及装置

技术领域

本发明属于孕早期子痫前期风险预测技术领域，具体涉及一种孕早期子痫前期风险预测模型的构建方法及装置。

背景技术

子痫前期的风险预测是一个二分类问题，其中正例表示存在子痫前期的风险，而负例则表示不存在子痫前期的风险。这个问题的目标是根据病人的临床数据，如孕周、年龄、体重等，对其患病风险进行预测，并给出二元分类结果，即是否存在子痫前期风险。

子痫前期数据，特别是孕早期子痫前期数据，存在严重的小样本和类别不平衡的问题。由于子痫前期在孕早期发生率较低、且不易发现，虽然可通过检测潜在特征加以判别，但由于样本量小，判别的可靠性难于保证，并且子痫前期风险预测模型更多是用于对孕妇的子痫前期的筛查而非诊断，这意味着在训练数据中，正样本(即患有子痫前期的样本)的数量远远小于负样本(即未患病的样本)的数量，即存在类别上的样本不平衡问题，这将严重影响筛查结果的质量。

在临床实践中，这样的结果可能导致错过重要的早期预警信号，以至于延误治疗和增加患者风险。因此，解决孕早期子痫前期数据的小样本不平衡问题和提高孕早期子痫前期的风险预警的准确性和可靠性十分必要。

目前子痫前期的主要预测手段是根据妊娠期高血压和蛋白尿进行预测，但这种方法测定准确率较低，且敏感性、特异性均不高，无法满足对于孕早期子痫前期筛查的需求。国际上的一些子痫前期风险预测技术，如Simoa平台的超高灵敏度蛋白标志物检测技术和Elecsys平台的将sFlt-1/PIGF相结合的技术，可以较为有效地预测子痫前期风险。

在机器学习领域中，目前已有的与本发明最相近似的实现方案是集成学习中的Bagging算法，以及在Bagging基础上改进的随机森林算法。这些方法都通过重复多次有放回采样得到多个采样集，并基于每个采样集训练出一个基学习器，再将这些基学习器进行结合，取其预测值的平均或者投票作为最终的预测结果。虽然这样可以提高模型性能，但也导致最终的模型极为复杂(是N个基学习器的集成)，存在模型存储和计算成本高的问题，尽管N越大预测结果越准确，所带来的却是模型存储和计算的成本越高。

现在模型性能评估一般通过交叉验证进行，其中最常用的是K折交叉验证：将原始数据集分成K份，其中K-1份作为训练集，剩下的一份作为测试集，进行K次训练和测试，最终将得到K个性能指标(如准确率等)的平均值作为模型的性能评估指标。

现有方法主要存在以下不足：

(1)现有的子痫前期预测方法准确率不高，如根据妊娠期高血压和蛋白尿进行预测的方法，其敏感性、特异性均不高，无法满足对于早期筛查的需求。

(2)国际上的一些子痫前期风险预测平台可以较为有效的预测子痫前期风险，但这些平台目前缺乏针对孕早期的子痫前期风险预测模型和平台。

(3)集成学习算法构建的模型规模庞大，无论是Bagging还是随机森林，对于一个问题，都需要训练和存储N个基学习器(N一般很大)，存储量大；每次求解时需要先计算出每一个基学习器的预测值，计算效率低。而且集成学习无法解决类别不平衡问题。

(4)目前通过交叉验证获得的模型预测误差来比较模型性能，但这样的评价存在可靠性不高的风险。

发明内容

为了克服以上现有技术存在的问题，本发明提供一种孕早期子痫前期风险预测模型的构建方法及装置；

本发明的目的一：提出新的预测模型构建方法以解决孕早期子痫前期数据的小样本不平衡问题，得到针对性更强、准确率更高的预测模型和平台。

本发明的目的二：构建出单一的子痫前期风险预测模型，而不像Bagging或随机森林模型那样是多模型的集成，从而模型规模小，存储量小，响应速度高。

本发明的目的三：提供的评估方法能够更全面、准确、可靠地评估模型的预测性能。

为了实现上述目的，本发明采用的技术方案是：

一种孕早期子痫前期风险预测模型的构建方法，包括以下步骤；

步骤1：孕早期子痫前期数据预处理，选取的数据为没有缺失值且所有特征取值均为数字类型；

步骤2：孕早期子痫前期数据采样；

步骤3：步骤2获得的所有采样集Ω_j进行SVM模型训练；

步骤4：孕早期子痫前期风险预测模型构建；

步骤5：对步骤4孕早期子痫前期风险预测模型进行交叉验证；

步骤6：孕早期子痫前期风险预测误差的均值计算；

步骤7：孕早期子痫前期风险预测误差的变异系数计算。

所述步骤1具体为：首先从临床收集孕早期子痫前期样本，并将患有子痫前期的样本记为正类，无病样本记为负类，如果特征中存在缺失值，采用插补法，即取该项特征的中位数来填充空值，如果特征取值为文本类型，或某项离散特征的取值之间没有大小意义，采用One-Hot编码将其转化为数字类型，从而获得预处理后的孕早期子痫前期数据集Ω，其中没有缺失值且所有特征取值均为数字类型，符合模型训练所需的要求。

所述步骤2对孕早期子痫前期数据集Ω进行无放回随机采样获得N个采样集，原则上N越大越好(N至少取100)，每次采样时先从数据集Ω的正类中随机采集2/3的样本，再从数据集Ω的负类中采集相同数量的样本，然后将这两类样本组合到一起形成采样集Ω_j，j＝1,2,…N。

所述步骤3具体为在步骤2获得的所有采样集Ω_j，j＝1,2,…N上各训练一个SVM模型f_j(x)，这样对Ω_j中的每个样本，都能得到SVM最优解对应的拉格朗日乘子的值α≥0；而对Ω中所有不属于Ω_j的样本，即Ω/Ω_j中的样本，令其对应的拉格朗日乘子的值α＝0，则最终f_j(x)的决策函数如式(1)所示，其中m表示Ω中的样本数目，x_i表示Ω中第i个样本的特征向量，y_i表示Ω中第i个样本的标签，κ(x,x_i)为核函数，b是偏置项，α_i ^(j)≥0为第i个样本对应的拉格朗日乘子的值，sign是将模型输出转化为类别标签的函数；

所述步骤4具体为：将步骤3中获得的所有SVM模型f_j(x)，j＝1,2,…N融合成最终的孕早期子痫前期风险预测模型f(x)，其决策函数如式(2)所示，其中N表示采样集数目，m表示Ω中的样本数目，x_i表示Ω中第i个样本的特征向量，y_i表示Ω中第i个样本的标签，κ(x,x_i)为核函数，b_j是第j个SVM模型f_j(x)中的偏置项，α_i ^(j)≥0为第j个SVM模型f_j(x)中第i个样本对应的拉格朗日乘子的值，sign是将模型输出转化为类别标签的函数；

所述步骤5具体为；为评估孕早期子痫前期风险预测模型的性能，将数据集Ω平均分成K份，轮流将其中K-1份做训练集，剩余的1份做测试集，在每个训练集上按步骤2～4各构建一个子痫前期风险预测模型，然后在测试集上计算子痫前期风险预测误差BA(Balanced Accuracy)，这样得到K次交叉验证的子痫前期风险预测误差BA_i，i＝1,2,…,K。BA的计算公式如式(3)所示：

所述步骤6具体为：对步骤5中获得的K次交叉验证的子痫风险预测误差BA_i，i＝1,2,…,K，根据式(4)计算其均值将用于衡量孕早期子痫前期风险预测模型的预测准确性，/>越高表示模型预测越准确；

所述步骤7具体为：利用步骤5中获得的K次交叉验证的预测误差BA_i，i＝1,2,…,K和步骤6中获得的预测误差均值计算变异系数CV(Coefficient of Variation)，计算公式如式(5)所示，该指标用于衡量孕早期子痫前期风险预测模型预测误差均值的可靠性，CV越小表示/>越可靠；

一种用于实现孕早期子痫前期风险预测的装置，包括：采集单元、处理单元以及显示单元；

所述采集单元为数据输入接口，用于获取并记录孕妇的各项可用于子痫前期风险预测的生理参数；

所述处理单元为计算设备，用于对采集到的数据进行处理，并调用预先训练好的模型进行风险预测；

所述显示单元为数据输出界面，用于展示孕早期子痫前期风险的预测结果。

所述装置全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令；

在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本方法所述的流程或功能；

所述计算机是通用计算机、专用计算机、计算机网络、或者其他可编程装置；

所述计算机指令用于存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输(例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。

所述计算机可读取存储介质是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备；

所述可用介质是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk)。

本发明的有益效果：

(1)本申请的方法可用于但不限于孕早期子痫前期风险预测模型的建立。对于子痫前期风险预测，开发适用性更高的预测模型和平台。

(2)模型规模小。最终建立的孕早期子痫前期风险预测模型为单一的SVM模型，模型存储量小，响应速度高。在基于N个SVM模型进行建模的情况下，新型SVM模型的规模仅仅为Bagging模型的1/N，通常N很大(比如>400)，从而这个模型降低是非常大的。

(3)模型准确率高、可靠性强。最终建立的孕早期子痫前期风险预测模型虽然是单一模型，但在预测性能上优于Bagging模型。

(4)适用于小样本问题。SVM模型的优化目标是最小化分类误差的同时最大化分类边界，因此对于小样本问题，它的泛化能力和稳定性相对较高。而孕早期子痫前期风险预测模型融合了多个SVM模型，能够进一步缓解小样本问题带来的负面影响。

(5)适用于类别不平衡问题。在采样时保证每个采样集中拥有相同数量的正类样本和负类样本，避免了类别不平衡对孕早期子痫前期风险预测模型性能的影响。

(6)给出了模型准确性和可靠性的评价指标，将模型预测误差的均值用于评估模型预测准确性，更给出反映其可靠性的变异系数。

附图说明

图1为本发明流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

如图1所示：

一种孕早期子痫前期风险预测模型的构建方法，包括以下步骤：

步骤1：孕早期子痫前期数据预处理；首先从临床收集孕早期子痫前期样本，并将患有子痫前期的样本记为正类，无病样本记为负类。对于存在缺失值的特征，比如孕前体重、现在体重、舒张压、收缩压，采用插补法，即取该项特征的中位数来填充空值。对于取值为文本类型，且各项取值之间没有大小意义的特征，采用One-Hot编码将其转化为数字类型。从而获得预处理后的孕早期子痫前期数据集Ω，其中没有缺失值且所有特征取值均为数字类型，符合模型训练所需的要求；

步骤2：孕早期子痫前期数据采样；对孕早期子痫前期数据集Ω进行无放回随机采样获得N个采样集，原则上N越大越好(N至少取100)，每次采样时先从数据集Ω的正类中随机采集2/3的样本，再从数据集Ω的负类中采集相同数量的样本，然后将这两类样本组合到一起形成采样集Ω_j，j＝1,2,…N；

步骤3：SVM模型训练；在步骤2获得的所有采样集Ω_j，j＝1,2,…N上各训练一个SVM模型f_j(x)，这样对Ω_j中的每个样本，都可以得到SVM最优解对应的拉格朗日乘子的值α≥0；而对Ω中所有不属于Ω_j的样本，即Ω/Ω_j中的样本，令其对应的拉格朗日乘子的值α＝0，则最终f_j(x)的决策函数如式(1)所示，其中m表示Ω中的样本数目，x_i表示Ω中第i个样本的特征向量，y_i表示Ω中第i个样本的标签，κ(x,x_i)为核函数，b是偏置项，α_i ^(j)≥0为第i个样本对应的拉格朗日乘子的值，sign是将模型输出转化为类别标签的函数；

步骤4：孕早期子痫前期风险预测模型构建；将步骤3中获得的所有SVM模型f_j(x)，j＝1,2,…N融合成最终的孕早期子痫前期风险预测模型f(x)，其决策函数如式(2)所示，其中N表示采样集数目，m表示Ω中的样本数目，x_i表示Ω中第i个样本的特征向量，y_i表示Ω中第i个样本的标签，κ(x,x_i)为核函数，b_j是第j个SVM模型f_j(x)中的偏置项，α_i ^(j)≥0为第j个SVM模型f_j(x)中第i个样本对应的拉格朗日乘子的值，sign是将模型输出转化为类别标签的函数；

步骤5：交叉验证；为评估孕早期子痫前期风险预测模型的性能，将数据集Ω平均分成K份，轮流将其中K-1份做训练集，剩余的1份做测试集，在每个训练集上按步骤2～4各构建一个子痫前期风险预测模型，然后在测试集上计算子痫前期风险预测误差BA(Balanced Accuracy)，这样可以得到K次交叉验证的子痫前期风险预测误差BA_i，i＝1,2,…,K。BA的计算公式如式(3)所示：

其中TP、TN、FP、FN的含义如表1所示：

表1分类结果混淆矩阵

步骤6：孕早期子痫前期风险预测误差的均值计算；对步骤5中获得的K次交叉验证的子痫风险预测误差BA_i，i＝1,2,…,K，根据式(4)计算其均值将用于衡量孕早期子痫前期风险预测模型的预测准确性，/>越高表示模型预测越准确；

步骤7：孕早期子痫前期风险预测误差的变异系数计算；利用步骤5中获得的K次交叉验证的预测误差BA_i，i＝1,2,…,K和步骤6中获得的预测误差均值计算变异系数CV(Coefficient of Variation)，计算公式如式(5)所示，该指标用于衡量孕早期子痫前期风险预测模型预测误差均值的可靠性，CV越小表示/>越可靠。

模型对比实验

以下是本发明的一个实施例，在一个真实的孕早期子痫前期数据集上进行对比实验，比较传统方法和本发明的实施效果，实验在MATLAB平台上进行。

实验数据集是一个典型的小样本不平衡数据集。数据集中包含255个样本，其中无病样本190个，患病样本65个。样本特征包括：年龄、身高、孕前体重、现在体重、孕前BMI(Body Mass Index，身体质量指数)、现在BMI、BMI增率、怀孕史、生育史、子痫前期病史、子痫前期家族史、高血压史、怀孕天数、舒张压、收缩压、平均动脉压、PIGF(Placental GrowthFactor，胎盘生长因子)。

实验中SVM模型的训练通过MATLAB中的fitcvm函数实现，其中超参KernelFunction设定为linear。

实验中将训练两种孕早期子痫前期风险预测模型进行对比，一是按本文方法建立的预测模型，记为新型SVM模型；二是按传统的Bagging算法建立的模型。具体建模过程如下，其中N取200：

新型SVM模型。按本发明方法，先在训练集上通过无放回采样获得N个类别平衡的采样集，在每个采样集上分别训练出一个SVM模型，然后将这N个SVM模型进行参数融合，从而融合为一个单一的新型SVM模型。

Bagging模型。按Bagging算法，先在训练集上通过有放回采样获得N个采样集，在每个采样集上分别训练出一个SVM模型，取这N个SVM模型的预测值的多数投票决策结果作为Bagging模型的预测结果。

在评估模型性能时，使用五折交叉验证，每次计算出各个模型在测试集上的BA，再取各次测试结果的均值和变异系数作为模型性能评价指标。同时给出每次训练出的模型所需存储空间的均值，用于衡量模型体积。实验结果如表2所示，表2中还给出了Bagging模型相对于新型SVM模型的性能情况，结果保留两位小数：

表2新型SVM模型和Bagging模型的五折交叉验证结果

从表2可以看出，新型SVM模型的性能明显优于Bagging模型：

在预测准确性上，Bagging模型的BA均值仅为新型SVM模型的93.55％，也就是说新型SVM模型的预测结果更为准确；

在预测性能的可靠性上，Bagging模型的BA变异系数是新型SVM模型的1.25倍，也就是说新型SVM模型的预测误差更稳定，从而更可靠。

在内存上，Bagging模型的存储空间是新型SVM模型的103.46倍，新型SVM模型所需内存比Bagging模型降低了一百多倍。

由此可以看到，运用本发明，获得了相较Bagging仅仅百分之一规模的新型SVM模型，尽管只有如此小的模型规模，其对孕早期的子痫预测风险的预测精度却比Bagging不降反升，达到了其的1.07倍，并且所获得的结果比Bagging的更加可靠。

Claims

1.一种孕早期子痫前期风险预测模型的构建方法，其特征在于，包括以下步骤；

步骤2：孕早期子痫前期数据采样；

步骤3：步骤2获得的所有采样集Ω_j进行SVM模型训练；

步骤4：孕早期子痫前期风险预测模型构建；

步骤6：孕早期子痫前期风险预测误差的均值计算；

步骤7：孕早期子痫前期风险预测误差的变异系数计算。

2.根据权利要求1所述的一种孕早期子痫前期风险预测模型的构建方法，其特征在于，所述步骤1具体为：首先从临床收集孕早期子痫前期样本，并将患有子痫前期的样本记为正类，无病样本记为负类，如果特征中存在缺失值，采用插补法，即取该项特征的中位数来填充空值，如果特征取值为文本类型，或某项离散特征的取值之间没有大小意义，采用One-Hot编码将其转化为数字类型，从而获得预处理后的孕早期子痫前期数据集Ω，其中没有缺失值且所有特征取值均为数字类型。

3.根据权利要求2所述的一种孕早期子痫前期风险预测模型的构建方法，其特征在于，所述步骤2对孕早期子痫前期数据集Ω进行无放回随机采样获得N个采样集，N至少取100，每次采样时先从数据集Ω的正类中随机采集2/3的样本，再从数据集Ω的负类中采集相同数量的样本，然后将这两类样本组合到一起形成采样集Ω_j，j＝1,2,…N。

4.根据权利要求3所述的一种孕早期子痫前期风险预测模型的构建方法，其特征在于，所述步骤3具体为在步骤2获得的所有采样集Ω_j，j＝1,2,…N上各训练一个SVM模型f_j(x)，SVM最优解对应的拉格朗日乘子的值α≥0；对Ω中不属于Ω_j的样本，即Ω/Ω_j中的样本，令其对应的拉格朗日乘子的值α＝0，则最终f_j(x)的决策函数如式(1)所示，其中m表示Ω中的样本数目，x_i表示Ω中第i个样本的特征向量，y_i表示Ω中第i个样本的标签，κ(x,x_i)为核函数，b是偏置项，α_i ^(j)≥0为第i个样本对应的拉格朗日乘子的值，sign是将模型输出转化为类别标签的函数；

5.根据权利要求4所述的一种孕早期子痫前期风险预测模型的构建方法，其特征在于，所述步骤4具体为：将步骤3中获得的所有SVM模型f_j(x)，j＝1,2,…N融合成最终的孕早期子痫前期风险预测模型f(x)，其决策函数如式(2)所示，其中N表示采样集数目，m表示Ω中的样本数目，x_i表示Ω中第i个样本的特征向量，y_i表示Ω中第i个样本的标签，κ(x,x_i)为核函数，b_j是第j个SVM模型f_j(x)中的偏置项，α_i ^(j)≥0为第j个SVM模型f_j(x)中第i个样本对应的拉格朗日乘子的值，sign是将模型输出转化为类别标签的函数；

6.根据权利要求5所述的一种孕早期子痫前期风险预测模型的构建方法，其特征在于，所述步骤5具体为；为评估孕早期子痫前期风险预测模型的性能，将数据集Ω平均分成K份，轮流将其中K-1份做训练集，剩余的1份做测试集，在每个训练集上按步骤2～4各构建一个子痫前期风险预测模型，然后在测试集上计算子痫前期风险预测误差BA，这样得到K次交叉验证的子痫前期风险预测误差BA_i，i＝1,2,…,K，BA的计算公式如式(3)所示：

7.根据权利要求6所述的一种孕早期子痫前期风险预测模型的构建方法，其特征在于，所述步骤6具体为：对步骤5中获得的K次交叉验证的子痫风险预测误差BA_i，i＝1,2,…,K，根据式(4)计算其均值将用于衡量孕早期子痫前期风险预测模型的预测准确性；

8.根据权利要求6所述的一种孕早期子痫前期风险预测模型的构建方法，其特征在于，所述步骤7具体为：利用步骤5中获得的K次交叉验证的预测误差BA_i，i＝1,2,…,K和步骤6中获得的预测误差均值计算变异系数CV，计算公式如式(5)所示；

9.基于权利要求1-8任一项所述的方法的一种用于实现孕早期子痫前期风险预测的装置，其特征在于，包括：采集单元、处理单元以及显示单元；

10.根据权利要求9所述的一种用于实现孕早期子痫前期风险预测的装置，其特征在于，所述装置全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令；

所述计算机指令用于存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输；

所述可用介质是磁性介质、光介质或者半导体介质。