CN111883258B

CN111883258B - 一种构建ohss分度分型预测模型的方法

Info

Publication number: CN111883258B
Application number: CN202010580290.7A
Authority: CN
Inventors: 吴健; 曹燕; 陈婷婷; 应豪超
Original assignee: Shandong Industrial Technology Research Institute of ZJU
Current assignee: Shandong Industrial Technology Research Institute of ZJU
Priority date: 2020-04-30
Filing date: 2020-06-23
Publication date: 2024-03-15
Anticipated expiration: 2040-06-23
Also published as: CN111883258A

Abstract

一种基于机器学习的卵巢过度刺激综合征（OHSS）分度及分型预测方法，包括：采集病人临床特征数据后进行数据预处理和数据编码操作，得到各自的训练数据；分别建立OHSS分度和分型预测模型。使用训练数据对分度和分型预测模型分别进行训练，从而根据损失函数优化模型参数；将分度预测模型所需的所有待测病人的临床特征数据进行数据预处理和数据编码操作后，获得最终的预测结果。分度预测模型预测出的会发生OHSS的病人，获取分型预测模型所需的临床特征数据，进行数据预处理和数据编码操作后，获得最终的预测值。利用本发明，可以为进行试管婴儿技术治疗的病人预测其发生OHSS的概率以及类型，从而辅助医生做更好的判断。

Description

一种构建OHSS分度分型预测模型的方法

技术领域

本发明属于医学人工智能领域，尤其是涉及一种构建OHSS分度分型预测模型的方法。

背景技术

OHSS（卵巢过度刺激综合症）是发生于控制性卵巢刺激治疗后对一种医源性的并发症，常见于为施行试管婴儿技术而进行的控制性超促排卵过程中，其特征为过多的卵泡发育、卵巢体积显著增大、血管通透性增加、体液从血管内转移到第三间隙，出现腹水、胸腔积液、少尿、电解质紊乱、肝肾功能受损、血液浓缩及血栓形成等，严重者可危及生命。且近年来，OHSS的发生呈上升趋势，越来越引起临床医务工作者的重视。因此，及早预估病人是否会发生OHSS以及判断病人发生OHSS的严重程度，从而及时设计或调整对应的治疗方案，尽可能降低病人发生OHSS的概率，显得尤为重要。

OHSS按发生时间顺序又分早发型和晚发型，其中早发型指的是一般在促排卵过程中扳机用药后3—7天后发生的情况，若病人接下来没有妊娠，那么症状持续约2周左右后会自行缓解，若妊娠，症状将持续2—4周，且病情可能加重。晚发型指的是扳机用药后12-17天后发生的情况，一般与妊娠相关。因此对可能发生OHSS的病人进一步判断其是早发型还是晚发型，对可能是晚发型的病人，慎重考虑接下来是否应该进行胚胎移植、妊娠，从而降低发生OHSS的风险。

目前对于采取试管婴儿技术进行辅助生殖治疗的病人，无法提早判断其发生OHSS的可能性，一般都是在进入治疗周期后，基于病人早期已经呈现的一些OHSS的症状由医生根据其临床经验来判断其是否有更严重的OHSS倾向，从而调整治疗方案。少数经验丰富、技术高超的以上能够根据病人的早期状态来预测病人是否具有高危因素，对存在高危因素的病人做更谨慎的方案设计。这种预测基本依赖医生的个人经验做的一类预估，无法客观、定量地分析每一位病人的个体情况，没有通用性，也难以推广。不管上述的哪种方案，都只是对OHSS进行分度预测，而无法对OHSS分型预测。

发明内容

本发明的目的在于提供一种通过收集已有案例作为样本、以患者当前生理指标和用药方案作为输入，定量分析OHSS分度、分型概率的方法。

构建OHSS分度分型预测模型的方法，包括以下步骤：

S1、获取已有病例作为样本集，将样本集的数据分割为输入量和输出量，输入量包括患者的生理指标和用药方案，输出量包括患者实际发生的OHSS的时机和OHSS的程度；OHSS的时机包括早发和晚发，OHSS的程度包括未发生、轻中度和重度；对样本集进行数据预处理和数据编码操作，再依据分度和分型问题分别对数据进行特征筛选工作，得到训练数据。

S2、选取机器学习模型建立OHSS分度预测模型和OHSS分型预测模型；

S3、用S1获得的训练数据分别对OHSS分度预测模型和OHSS分型预测模型进行训练，以交叉熵损失函数最小作为OHSS分度预测模型或OHSS分型预测模型的优化目标；获得训练后的OHSS分度预测模型和训练后的OHSS分型预测模型；

S4、获得测试样本，该测试样本包括待预测OHSS发生概率的患者的生理指标和用药方案，以患者的生理指标和用药方案作为输入量输入OHSS分度预测模型，计算得到该患者发生OHSS的程度，若OHSS分度预测模型的结果为未发生，则不再做OHSS分型预测；若OHSS分度预测模型的结果为轻中度或重度，则输入OHSS分型预测模型进行分型预测，输出分型预测结果。

S5、将分度预测结果和分型预测结果与测试样本的真实分度、真实分型进行比对，确定是否需要对OHSS分度预测模型和OHSS分型预测模型进行调整；若需要调整，则调整交叉熵损失函数和、或对样本集数据进行扩增，重复步骤S1~S4；若不需要调整，则获得OHSS分度预测模型和OHSS分型预测模型。

本方案以机器学习的方式来建立OHSS分度预测模型和OHSS分型预测模型，以相同的样本集训练OHSS分度预测模型和OHSS分型预测模型，在测试阶段，先进行分度预测，剔除不发生OHSS的情况，针对会发生OHSS的患者再做OHSS分型预测。以测试结果的准确性来确定是否需要进一步调整机器学习模型。这是因为，不发生OHSS的情况，则不存在分度的问题，更贴近真实病例情况，也降低预测模型的计算量。

优选的，S1中，OHSS分度预测模型的输入量包括但不限于OHSS病史、年龄、BMI、AFC、AMH、超促排卵方案、超促排卵用药16项、超促排卵用药总量、扳机用药3项、扳机日E2、获卵个数，血常规中的中性粒细胞计数、单核细胞计数、血小板计数、红细胞压积、白细胞计数等。

优选的，S1中，OHSS分型预测模型的输入量包括但不限于年龄、BMI，超促排卵方案、超促排卵用药总量、超促排卵用药总天数，血常规中的中性粒细胞计数、平均RBC体积、红细胞压积、血小板计数、平均血红蛋白浓度、平均血红蛋白含量、嗜酸/碱细胞计数，扳机用药中HCG用量、获卵个数等。

优选的，S2中OHSS分度预测模型的机器学习模型包括Catboost模型、LightGBM模型和XGboost模型集合；OHSS分型预测模型的机器学习模型包括Catboost模型、LightGBM模型和XGboost模型集合。

优选的，OHSS分度预测模型输出未发生、轻中度和重度的发生概率，每个样本数据进行3次计算，每次计算、Catboost模型、LightGBM模型和XGboost模型都输出3个值：不发生OHSS、发生轻中度OHSS、发生重度OHSS的概率，3个概率和为1，取3个模型对应的类别概率值的平均值作为该类别的最终概率值。比如，Catboost模型、LightGBM模型和XGboost模型的输出值分别为：0.2、0.3、0.5/0.3、0.2、0.5/0.1、0.3、0.6，则集成模型输出结果为：未发生的概率为（0.2+0.3+0.1）/3、发生轻中度的概率为（0.3+0.2+0.3）/3、发生重度的概率为（0.5+0.5+0.6）/3。

优选的，OHSS分型预测模型输出早发型和晚发型的发生概率，每个样本数据进行3次计算，每次计算、Catboost模型、LightGBM模型和XGboost模型都输出2个值：早发型OHSS、晚发型OHSS的概率，2个概率和为1，取3个模型对应的类别概率值的平均值作为该类别的最终概率值。比如，Catboost模型、LightGBM模型和XGboost模型的输出值分别为：0.2、0.8/0.3、0.7/0.4、0.6，则集成模型输出结果为：早发型的概率为（0.2+0.3+0.4）/3、晚发型的概率为（0.8+0.7+0.6）/3。

本发明提出的方法充分利用不同算法从不同的数据空间角度和数据结构角度对数据的不同观测，来取长补短，优化结果，以此提高了最终的OHSS分度（分型）的预测准确性，并且多模型的融合降低了整个模型的过拟合程度，该预测模型可以辅助医生进行更好的决策。

优选的，OHSS分度预测模型训练过程如下：

对进行试管婴儿技术治疗的病人，采集其从入院到超促排卵治疗再到诱发排卵后，中间所有的临床特征数据，对诱发排卵后至获得妊娠结局过程中未发生OHSS的病人标记为0，对发生轻中度OHSS的病人标记为1，发生重度OHSS的病人标记为2，构成训练集。

对训练集进行步骤（1）中的数据预处理、数据编码操作，将分度预测模型所需的临床特征数据输入分别输入到Catboost模型、LightGBM模型、XGboost模型，每个模型分别获得一个预测类别值，每个模型根据其预测值与样本的标签值计算交叉熵损失函数，从而根据损失函数优化模型参数。

优选的，步骤（3）所述的OHSS分型预测模型训练过程如下：

对进行试管婴儿技术治疗并在获得妊娠结局过程中发生了OHSS的病人（包括轻中度OHSS病人和重度OHSS病人），采集其从入院到超促排卵治疗再到诱发排卵后，中间所有的临床特征数据，对早发型OHSS病人标记为0，对晚发型OHSS病人标记为1，构成训练集。

对训练集进行步骤（1）中的数据预处理、数据编码操作。将分型预测模型所需的临床特征数据分别输入到Catboost模型、LightGBM模型、XGboost模型，每个机器学习模型分别获得一个预测类别值，每个机器学习模型根据其预测值与样本的标签值计算交叉熵损失函数，从而根据损失函数更新模型参数。

进一步地，分度预测模型训练时，采用过采样法和网格搜索寻优法进行训练，分型预测模型训练时，采用网格搜索寻优法进行训练，以此来增加模型训练的均衡性和精度。

进一步地，分度预测模型和分型预测模型训练过程中，分度预测模型的每种机器学习模型分别给出各自对输入量的重要性排序结果，以所有机器学习模型的特征重要性顺序求平均，获得最终的特征重要性排序；和、或分型预测模型的每种机器学习模型分别给出各自对输入量的重要性排序结果，以所有机器学习模型的特征重要性顺序求平均，获得最终的特征重要性排序。

比如：分度预测模型得出的特征重要性排序结果中，排在前十的指标依次为：获卵数、扳机日E2、用药总量、中性粒细胞计数、AMH、单核细胞计数、血小板计数、BMI、超促排卵用药中的欧佳利用量、超促排卵用药中的博恩诺康用量。

比如，分型预测模型得出的特征重要性排序结果中，排在前十的指标依次为：血小板计数、获卵数、年龄、BMI、红细胞压积、用药总天数、平均RBC体积、平均血红蛋白浓度、AMH、AFC。

特别地，特征排序结果可能根据患者临床指标的增加而有所变化。

具体地，步骤（1）中，所述数据预处理包括：指标异常值处理、缺失值处理。具体地，所述异常值处理为：将超出医学范围的特征数据处理为空值；所述缺失值处理为：对于连续的特征缺失数据，采用平均值填充、中位数填充、众数填充、最近邻填充方法；对于离散的特征缺失数据，采用众数填充、最近邻填充方法。

具体地，步骤（1）中，所述数据编码操作为：对文本类特征数据进行数字编码，即对不同的文本特征值按0、1、2······取值。

具体地，步骤（1）中，所述特征筛选工作是为了提取出分度（分型）模型所需的临床特征。对于连续特征变量，采用单因素方差分析方法分析特征与分度（分型）标签之间的相关性，删除未通过显著性检验的指标，选择通过显著性检验的指标，作为分度（分型）模型的入模特征。分类特征变量数量较少，暂不做筛选。

与现有技术相比，本发明具有以下有益效果：

1、本发明利用机器学习算法，整合多个病人的多项特征数据，训练出一套流程化的预测方法，即首先可以预测病人发生不同程度OHSS的概率，再对会发生OHSS的病人预测其类型，让预测OHSS的过程自动化，辅助医生为通过试管婴儿技术进行辅助生殖治疗的病人选择更合适的治疗方案，从而尽可能降低病人发生OHSS的风险。此外，弥补了机器学习在OHSS分度和分型预测的研究应用中的空白。

2、本发明提供的OHSS分度（分型）预测模型融合了3个模型的优点，降低了模型过拟合程度，提高了预测准确性。

3、本发明在训练分度（分型）预测模型时还能给出输入量特征重要性排序，给出生理指标和用药方案的重点关注对象建议。

附图说明

图1为本发明一种基于机器学习的卵巢过度刺激综合征（OHSS）分度及分型预测方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本实施例提供了一种基于机器学习的卵巢过度刺激综合征（OHSS）分度及分型预测方法，如图1所示，具体包括：

阶段1：数据的接收与预处理

特征数据来自于某妇女保健医院生殖科自2010年至2018年9年内进行试管婴儿治疗的所有病人在其入院后至进行超促排卵并完成诱发排卵后，中间所有的临床特征记录，具体包括病人的基础指标信息（年龄、BMI、收缩压/高血压、脉搏等）、血常规、AMH、AFC、超促排卵方案、超促排卵用药16项的具体用药量、用药总量、用药天数、扳机用药3项的具体用药量、获卵个数等。其中包含多个大类方向数据，多个大类方向下又包含众多独立特征。

对诱发排卵后至获得妊娠结局过程中未发生OHSS的病人标记为0，对发生轻中度OHSS的病人标记为1，发生重度OHSS的病人标记为2，构成分度预测模型的训练集。

对发生了OHSS的病人（包括轻中度OHSS病人和重度OHSS病人），若是早发型OHSS则标记为0，若是晚发型OHSS标记为1，构成分型预测模型的训练集。

阶段2：训练样本的构建

针对采集的特征数据，首先，对文本类特征数据进行分类编码。其次，对所有特征进行异常值和缺失值处理。

具体地，首先对离散数据进行热编码处理，对内容或格式不规范的数据作空值处理。其次，对连续特征数据进行异常值检测，对超出医学范围的数据作空值处理；然后，针对缺失的连续特征数据，采用平均值填充、中位数填充、众数填充、最近邻填充等方法进行填充处理；针对缺失的离散特征数据，作众数填充处理、最近邻填充方法。

对经过上述处理后的特征数据，分别就分度和分型预测问题，进行特征筛选工作。

具体地，对于连续特征变量，采用单因素方差分析方法分析特征与分度（分型）标签之间的相关性，删除未通过显著性检验的指标，选择通过显著性检验的指标，作为分度（分型）模型的入模特征。分类特征变量数量较少，暂不做筛选。

具体地，经筛选后本实施例中分度预测模型所用到的特征数据包括：OHSS病史、年龄、BMI、AFC、AMH、超促排卵方案、超促排卵用药16项、超促排卵用药总量、扳机用药3项、扳机日E2、获卵个数，血常规中的中性粒细胞计数、单核细胞计数、血小板计数、红细胞压积、白细胞计数等。

具体地，经筛选后本实施例中分型预测模型所用到的特征数据包括：年龄、BMI，超促排卵方案、超促排卵用药总量、超促排卵用药总天数，血常规中的中性粒细胞计数、平均RBC体积、红细胞压积、血小板计数、平均血红蛋白浓度、平均血红蛋白含量、嗜酸/碱细胞计数，扳机用药中HCG用量、获卵个数等；

特别地，所用到的特征可能根据患者临床指标的增加而有所增加。

对特征数据进行上述处理后，每个病人对应的一组临床特征数据即为一个训练样本。特别地，这里就OHSS分度和分型预测问题形成了两个训练集。

阶段3：卵巢过度刺激综合征（OHSS）分度及分型预测模型的构建

卵巢过度刺激综合征（OHSS）分度及分型预测模型采用的都是集成模型（ensemble结构），分别都采用了3个模型：Catboost模型、LightGBM模型、XGboost模型。XGboost和LightGBM都是对梯度下降提升决策树（GBDT）的不同实现，它们针对同一目标做了不同的优化处理，在众多数据挖掘任务以及竞赛中都有着优异表现。Catboost模型也是针对GBDT所做的改进，在各大竞赛中的表现不亚于XGboost和LightGBM，甚至略胜一筹。

具体地，XGboost算法借鉴了Random Forest的思想，允许使用特征抽样来防止过拟合，且相对于传统GBDT，显式地将树模型的复杂度作为正则项加入损失函数中，极大减轻了模型过拟合程度，并且XGboost支持分布式计算，提高了模型训练速度。

LightGBM的主要优点在于，与XGboost使用预排序（pre-sorting）算法进行特征的选择和分裂不同，LightGBM采用HistoGram算法，其思想是将连续的浮点特征离散成k个离散值，并构造宽度为k的Histogram。在进行特征选择时，只需要根据直方图的离散值，遍历寻找最优的分割点。因此它在缩小计算开销的同时，也起到了正则化的效果，能有效地防止过拟合。

Catboost和XGboost、LightGBM等所有标准梯度提升算法一样，都是通过构建新树来拟合当前模型的梯度，然而，所有经典的提升算法多少都存在由有偏的点态梯度估计引起的过拟合问题，而CatBoost采用了梯度步长的无偏估计，克服了梯度偏差，从而从另外一个角度减轻了模型过拟合程度；另，为当前树构造新的分割点时，CatBoost会采用贪婪的策略考虑组合，即使用了组合类别特征，利用了特征之间的联系，极大地丰富了特征维度。

本发明采用ensemble结构的目的是，融合多个模型的优点，减小各个模型缺点的影响，从而降低整体模型的过拟合风险，提升预测准确率。其中，XGboost模型、LightGBM模型、Catboost模型由各自开发包提供。

接下来，利用阶段2构建的两个训练集对构建的OHSS分度及分型预测模型进行训练。

特别地，针对分度预测模型的训练集，由于实际情况中发生OHSS的病人较少，训练样本存在分布不均衡的情况，对此，本实施例采用过采样方法来增加样本的均衡性。进而基于经过均衡处理过后的数据，开始模型训练。

特别地，采用网格搜索寻优法设置分度及分型预测模型中每个模型的超参数。

训练完成，OHSS分度及分型预测模型分别都产生3个模型：XGboost模型、LightGBM模型、Catboost模型。

训练后的OHSS分度及分型预测模型的准确度都较高，在一定程度上可以辅助医生判断病人OHSS的发生概率及类型。

OHSS分度及分型预测模型训练过程中，集成模型中的每个模型都可以通过计算信息熵对特征进行重要性排序。对所有模型的排序结果求平均，可以计算出每个特征的最终重要性排序结果。

具体地，分度预测模型得出的特征重要性排序结果中，排在前十的指标依次为：获卵数、扳机日E2、用药总量、中性粒细胞计数、AMH、单核细胞计数、血小板计数、BMI、超促排卵用药中的欧佳利用量、超促排卵用药中的博恩诺康用量。

具体地，分型预测模型得出的特征重要性排序结果中，排在前十的指标依次为：血小板计数、获卵数、年龄、BMI、红细胞压积、用药总天数、平均RBC体积、平均血红蛋白浓度、AMH、AFC。

该特征排序结果可以建议医生更加关注排序靠前的指标，从而可以辅助医生有针对性的为病人设计治疗方案。

预测时，病人的分度预测模型特征数据经异常值、缺失值处理以及数字编码后，分别输入到训练好的XGboost模型、LightGBM模型、Catboost模型，每个模型计算后会得到3个预测概率值，这3个预测值分别是病人不发生OHSS、发生轻中度OHSS、发生重度OHSS的概率，对这3个预测值在3个模型中的值求平均，得到最终的不发生OHSS、发生轻中度OHSS、发生重度OHSS的概率，最大概率值对应的那个类别即是病人的预测结果。

针对分度预测模型预测的结果，若结果是病人发生轻中度OHSS或重度OHSS，将这个病人的分型预测模型特征数据经异常值、缺失值处理以及数字编码后输入到XGboost模型、LightGBM模型、Catboost模型，每个模型计算后会得到2个预测概率值，这2个预测值分别是病人发生早发型OHSS、发生晚发型OHSS的概率，对2个预测值在3个模型中的值求平均，得到最终的早发型OHSS、晚发型OHSS的概率，最大概率值对应的那个类别即是病人的预测结果。

卵巢过度刺激综合征（OHSS）分度及分型预测模型都融合了3个模型的优点，提高了预测准确性，可以在一定程度上辅助医生在治疗前、治疗过程中预估病人OHSS的发生概率及类型。另外，该预测模型还能输出特征的重要性排序，给医生提供了更加具体的参考（例如：用药设计）来设计更适合病人的治疗方案。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种构建OHSS分度分型预测模型的方法，包括以下步骤：

S1、获取已有病例作为样本集，将样本集的数据分割为输入量和输出量，输入量包括患者的生理指标和用药方案，输出量包括患者实际发生的OHSS的时机和OHSS的程度；OHSS的时机包括早发和晚发，OHSS的程度包括未发生、轻中度和重度；对样本集进行数据预处理和数据编码操作，再依据分度和分型问题分别对数据进行特征筛选工作，得到训练数据；

2.如权利要求1所述的构建OHSS分度分型预测模型的方法，其特征在于：S1中，OHSS分度预测模型的输入量包括OHSS病史、年龄、BMI、AFC、AMH、超促排卵方案、超促排卵用药16项、超促排卵用药总量、扳机用药3项、扳机日E2、获卵个数，血常规中的中性粒细胞计数、单核细胞计数、血小板计数、红细胞压积、白细胞计数。

3.如权利要求1所述的构建OHSS分度分型预测模型的方法，其特征在于：S1中，OHSS分型预测模型的输入量包括年龄、BMI，超促排卵方案、超促排卵用药总量、超促排卵用药总天数，血常规中的中性粒细胞计数、平均RBC体积、红细胞压积、血小板计数、平均血红蛋白浓度、平均血红蛋白含量、嗜酸/碱细胞计数，扳机用药中HCG用量、获卵个数。

4.如权利要求1所述的构建OHSS分度分型预测模型的方法，其特征在于：S2中OHSS分度预测模型的机器学习模型包括Catboost模型、LightGBM模型和XGboost模型集合；OHSS分型预测模型的机器学习模型包括Catboost模型、LightGBM模型和XGboost模型集合。

5.如权利要求1所述的构建OHSS分度分型预测模型的方法，其特征在于：OHSS分度预测模型输出未发生、轻中度和重度的发生概率，每个样本数据进行3次计算，每次计算分度预测Catboost模型、分度预测LightGBM模型和分度预测XGboost模型都输出3个值：不发生OHSS的概率、发生轻中度OHSS的概率、发生重度OHSS的概率，3个概率和为1，取3个模型对应的类别概率值的平均值作为该类别的最终概率值。

6.如权利要求1所述的构建OHSS分度分型预测模型的方法，其特征在于：OHSS分型预测模型输出早发型和晚发型的发生概率，每个样本数据进行3次计算，每次计算分型预测Catboost模型、分型预测LightGBM模型和分型预测XGboost模型都输出2个值：早发型OHSS的概率、晚发型OHSS的概率，2个概率和为1，取3个模型对应的类别概率值的平均值作为该类别的最终概率值。

7.如权利要求1所述的构建OHSS分度分型预测模型的方法，其特征在于：分度预测模型训练时，采用过采样法和网格搜索寻优法进行训练，分型预测模型训练时，采用网格搜索寻优法进行训练，以此来增加模型训练的均衡性和精度。

8.如权利要求1所述的构建OHSS分度分型预测模型的方法，其特征在于：分度预测模型和分型预测模型训练过程中，分度预测模型的每种机器学习模型分别给出各自对输入量的重要性排序结果，以所有机器学习模型的特征重要性顺序求平均，获得最终的特征重要性排序；和、或分型预测模型的每种机器学习模型分别给出各自对输入量的重要性排序结果，以所有机器学习模型的特征重要性顺序求平均，获得最终的特征重要性排序。