CN111145912A

CN111145912A - 一种基于机器学习的个性化超促排卵方案的预测装置

Info

Publication number: CN111145912A
Application number: CN201911337735.2A
Authority: CN
Inventors: 吴健; 陈晋泰; 陈婷婷; 冯芮苇; 应豪超; 雷璧闻; 刘雪晨; 宋庆宇; 曹燕
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-12
Anticipated expiration: 2039-12-23
Also published as: CN111145912B

Abstract

本发明公开了一种基于机器学习的个性化超促排卵方案的预测装置，包括计算机存储器、计算机处理器，计算机存储器中存有超促排卵方案预测模型，所述的超促排卵方案预测模型包括训练好的初级学习器和次级学习器；其中，初级学习器由SVM模型、ExtraTrees模型、RandomForest模型、LightGBM模型和XGboost模型组成，次级学习器采用Catboost模型；所述计算机处理器执行所述计算机程序时实现以下步骤：将待测的临床特征数据进行特征工程处理，将处理后的特征数据输入初级学习器进行计算，获得五个模型的预测值；采用训练好的次级学习器对5个预测值进行计算，获得最终预测结果。利用本发明，可以提高了超促排卵方案的预测准确性。

Description

一种基于机器学习的个性化超促排卵方案的预测装置

技术领域

本发明属于医学人工智能领域，尤其是涉及一种基于机器学习的个性化超促排卵方案的预测装置。

背景技术

生殖医学近30年的迅速发展，采用试管婴儿技术(医学上称为体外受精—胚胎移植技术(IVF—ET))的临床妊娠率和胚胎着床率已趋稳定。超促排卵方案(医学术语为控制性卵巢刺激(controlled ovarian stimulation，COS)方案)的实施是试管婴儿过程中一个非常重要的环节，它决定了后期获得卵子的数量和质量。因此对COS方案更强调个性化应用，即需要根据患者的身体体征和条件制定出适合每个患者的方案。

在COS方案的选择上，目前在国内，基本上是医生通过观察病人体征及用药后每天的反应，针对不同人群制定不同的方案。但是这种方法要求医生必须具备深厚、扎实的生殖内分泌知识和丰富的经验，才能在一定程度上保证后期获得卵子、胚胎的数量和质量。但是，根据国内目前的医疗资源判断，医者和患者数量极度不平衡，有丰富经验的医生更少，如此，针对不同患者在方案的选择上存在不稳定性，最终，会影响到试管婴儿的成功率。

随着机器学习在人工智能领域取得的巨大发展，机器学习方法在医疗数据上也被广泛运用。

在机器学习中，模型从样本中捕获相关信息。对于给定任务，样本给定输入(特征)和输出(标签)。机器学习用算法从观测值中学习，然后计算机决定如何从特征映射到标签，从而创建泛化模型，如此就可以在未曾见过的输入上正确执行新任务(例如，从未接受过治疗的患者)。

分类算法是机器学习算法中一个普遍而又重要的任务，即根据一个样本预测出它所属的类别。自上个世纪30年代线性判别分析算法的提出，各种分类算法喷涌而出，包括Logistic回归模型、COX模型等线性模型，决策树、RandomForest以及基于Boosing的各种分类树模型，还有神经网络(neural network，NN)等。

随着技术的进步，不同算法依据其自身特点在特定领域都取得了各自的发展，然而在具体应用到不同的场景过程中还是会遇到各种问题，需要针对应用场景克服不同的困难。

到目前为止，在超促排卵方案的研究中尚未出现机器学习算法的应用，为了提高超促排卵方案选择的准确性和高效性，亟需设计一种针对超促排卵方案预测的系统。

发明内容

本发明提供了一种基于机器学习的个性化超促排卵方案的预测装置，提高了超促排卵方案的预测准确性，为医生选择超促排卵方案提供了有效的建议。

一种基于机器学习的个性化超促排卵方案的预测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述的计算机存储器中存有超促排卵方案预测模型，所述的超促排卵方案预测模型包括训练好的初级学习器和次级学习器；其中，初级学习器由SVM模型、ExtraTrees模型、RandomForest模型、LightGBM模型和XGboost模型组成，所述的次级学习器采用Catboost模型；

所述计算机处理器执行所述计算机程序时实现以下步骤：

将待测的临床特征数据进行特征工程处理，包括异常值处理、缺失值处理，以及特征组合计算；

将处理后的临床特征数据输入初级学习器进行计算，获得五个模型的预测值；

采用训练好的次级学习器对5个预测值进行计算，获得最终预测结果。

本发明的预测装置充分利用不同算法从不同的数据空间角度和数据结构角度对数据的不同观测，来取长补短，优化结果，以此提高了最终的超促排卵方案的预测准确性，并且多模型的融合降低了整个模型的过拟合程度，该预测模型可以辅助医生进行超促排卵方案的决策。

所述的初级学习器和次级学习器训练过程如下：

对采取过超促排卵治疗进行辅助生殖的患者，采集其从入院至通过超促排卵治疗后获得治疗结果为止，中间所有的临床特征数据；根据专业医生对所有患者记录进行判断，确定获卵个数和质量达到要求的患者，并将其临床特征数据和所采取的超促排卵方案纳入样本数据；对样本依据超促排卵方案进行分类标注，采取长方案的样本标记为0，短方案标记为1，超长方案标记为2，拮抗剂方案标记为3，超短方案标记为4，微刺激方案标记为5，构成训练集；

将训练集中的临床特征数据进行特征工程处理后分别输入到初级学习器的SVM模型、ExtraTrees模型、RandomForest模型、LightGBM模型、XGboost模型，分别获得一个预测值，这5个预测值作为次级学习器的Catboost模型的输入，计算获得最终的预测值；每个模型根据其预测值与样本的标签值计算交叉熵损失函数，从而根据损失函数更新模型参数。

进一步地，模型训练时，采用过采样法和交叉验证法训练超促排卵方案预测模型，以此来增加模型训练的均衡性和稳定性。

采用交叉验证法训练超促排卵方案预测模型时，对初级学习器中的SVM模型、ExtraTrees模型、RandomForest模型、LightGBM模型和XGboost模型，采用5折交叉验证进行训练；训练结束后，每种模型产生5个模型，初级学习器生成25个模型。

模型训练过程中，初级学习器中每个模型通过计算得到每个特征对超促排卵方案预测模型的重要性排序，对每个模型的特征重要性排序结果进行平均，获得最终的特征重要性排序。

所述的超促排卵方案预测模型可以在线下训练完成，然后存储在预测装置中；

或在线上训练完成，且每次应用时接收的待预测的临床特征数据经特征工程后作为训练样本，对预测模型做优化更新。

本发明的对于临床特征数据的特征工程处理中，所述的异常值处理具体为：将超出医学范围的特征数据处理为空值。

所述的缺失值处理具体为：对于连续的特征缺失数据，采用平均值填充、中位数填充、众数填充、最近邻填充方法；对于离散的特征缺失数据，采用众数填充、最近邻填充方法。

所述的特征组合计算具体为：将身高和体重两个数据组合为一个新的特征指数，将基础卵泡刺激素和黄体生成素两个数据组合为一个新的特征指数。

与现有技术相比，本发明具有以下有益效果：

1、本发明利用机器学习算法，整合多个患者的多项特征数据，从过去的成功案例中学习有利信息，让超促排卵方案的过程自动化，帮助医生为通过IVF—ET技术进行妊娠治疗的患者选择更合适的个性化超促排卵方案。

2、本发明提供的个性化超促排卵方案的预测模型融合了5个模型的优点，提高了超促排卵方案的预测准确性，为医生选择超促排卵方案提供了有效的建议。另外，该超促排卵方案的预测模型还能输出特征的重要性排序，给医生提供了更加具体的参考来设计更适合患者的治疗方案，此外，弥补了机器学习在个性化超促排卵方案的应用中的空白。

附图说明

图1为本发明一种基于机器学习的个性化超促排卵方案的预测装置实施的流程示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本实施例提供了一种基于机器学习的个性化超促排卵方案的预测装置，包括计算机存储器、计算机处理器以及存储在计算机存储器中并可在计算机处理器上执行的计算机程序，计算机存储器中存有超促排卵方案预测模型，该预测模型在线上或线下通过以下三个阶段获得：

阶段1：数据的接收与预处理

特征数据来自于某妇女保健医院生殖科自2010年至2017年八年内进行IVF—ET治疗的所有患者的临床记录，具体包括男/女方的基础信息(身高、体重、年龄)、血常规指标(未指明即为女方指标，下同)、生化指标、不孕原因、性激素、其它卵巢功能预测指标、男方吸烟史、男方酗酒史、家族糖尿病史、家族高血压病史等。其中包含多个大类方向数据，多个大类方向下又包含众多独立特征。首先，根据最终获得的卵子的数量和质量，对每一个患者的治疗记录让专业医生判定该例记录是否为达到标准的治疗案例，将达到标准的记录纳入待分析样本。将全部样本按超促排卵方案分为6类，采取长方案的样本标记为0，短方案标记为1，超长方案标记为2，拮抗剂方案标记为3，超短方案标记为4，微刺激方案标记为5。

阶段2：训练样本的构建

针对采集的特征数据，首先，对文本类特征数据进行分类编码。其次，对所有特征进行异常值和缺失值处理。

具体地，首先对离散数据进行热编码处理，对内容或格式不规范的数据作空值处理。其次，对连续特征数据进行异常值检测，对超出医学范围的数据作空值处理；然后，针对缺失的连续特征数据，采用平均值填充、中位数填充、众数填充、最近邻填充等方法进行填充处理；针对缺失的离散特征数据，作众数填充处理、最近邻填充方法。

针对经过上述处理后的特征数据，对部分特征组合产生新的特征，例如身高和体重可以组合成身体质量指数(body bass index，BMI)，基础卵泡刺激素和黄体生成素可以组合成基础卵泡刺激素/黄体生成素等，需说明的是，这些指标具有临床意义。

针对经过上述处理后的特征数据，进行相关性检测处理，以去除具有高度相关的冗余特征。例如血常规中的白细胞计数和中性粒细胞计数，其皮尔森相关系数可达0.9以上，对于这样的高度相关特征对，保留其一即可。需说明的是，本实施例中，相关系数阈值为0.8，高于0.8即认为两个特征之间高度相关，可进行剔除。临床特征的相关性可以根据统计知识获得，还可以根据医学经验知识获得。

对特征数据进行上述处理后，每个患者对应的一组临床特征数据即为一个训练样本。

阶段3：个性化超促排卵方案预测模型的构建

个性化超促排卵方案的预测模型采用的是堆叠模型(stacking框架)，第一层是初级学习器，采用了5个模型：SVM模型、ExtraTrees模型、RandomForest模型、LightGBM模型、XGboost模型。其中，SVM模型是机器学习近几十年来最为经典的分类算法之一，在小规模高纬度数据分类问题上有着卓越表现。ExtraTrees模型以其完全随机得到分叉属性的特点、RandomForest模型以其在构建子决策树时采用随机选择特征和随机样本抽样的思想，都大大提升了各自的泛化能力。XGboost和LightGBM都是对梯度下降提升决策树(GBDT)的不同实现，它们针对同一目标做了不同的优化处理，在众多数据挖掘任务以及竞赛中都有着优异表现。

次级学习器中的Catboost模型也是针对GBDT所做的改进，在各大竞赛中的表现不亚于XGboost和LightGBM，甚至略胜一筹。

其中，针对本发明中的预测模型所采用的stacking结构，需要强调的是，初级学习器中每个模型必须“准而不同”，即每个模型应该有较高的预测准确率，并且每个模型之间的相关程度不能太高，如此才能结合每个模型各自的优点，并且不会产生冗余信息。

次级学习器的目的是融合初级学习器中每个模型学到的信息并做进一步的学习，这样次级学习器不再使用原始训练数据进行训练，如此一来降低了过拟合风险。

特别地，本实施例中初级学习器所采用的5个模型之间都存在设计原理上的差异，并经过了准确率测试，符合“准而不同”的要求。

其中，ExtraTrees模型、RandomForest模型、SVM模型由scikit-learn库提供，XGboost模型、LightGBM模型、Catboost模型由各自开发包提供。

接下来，利用阶段2构建的训练样本对构建的个性化超促排卵方案预测模型进行训练。

特别地，由于实际情况中采用微刺激方案的患者较少，训练样本存在分布不均衡的情况，对此，本实施例采用过采样方法来增加样本的均衡性。进而基于经过均衡处理过后的数据，开始模型训练。

具体地，首先对初级学习器中的5个模型，采用5折交叉验证对每个模型进行训练。即将训练样本随机分成均等的5份，取出4份作训练集，其余1份作为验证集，如此产生5种训练集和验证集的组合。

每一次交叉验证过程为：基于训练集训练模型，再基于训练集生成的模型对验证集进行预测，并保存每次交叉训练的模型。交叉验证训练完成后，每种模型都会生成一个行数为全部样本长度(5个验证集的长度之和)，列数为1的数据。列合并每种模型生成的数据，最终形成行数为全部样本长度，列数为5的数据，作为次级学习器的训练样本。交叉验证训练完成后，每种模型都会生成5个模型，初级学习器会生成25个模型。

其次，将初级学习器生成的行数为全部样本长度，列数为5的数据作为训练样本(样本标签依旧为原标签)，对次级学习器：Catboost模型进行训练。

经过训练优化，获得训练好的初级学习器：SVM模型(5个)、ExtraTrees模型(5个)、RandomForest模型(5个)、LightGBM模型(5个)、XGboost模型(5个)以及次级学习器Catboost模型(1个)。

训练后的个性化超促排卵方案预测模型的准确度较高，在一定程度上可以为医生在个性化超促排卵方案的选择上提供有效建议。

初级学习器训练过程中，每个模型可以通过计算信息熵对特征进行重要性排序。对所有模型的排序结果求平均，可以计算出每个特征的最终重要性排序结果。该特征排序结果可以建议医生更加关注排序靠前的指标，从而可以辅助医生有针对性的为患者设计治疗方案。

获得的个性化超促排卵方案预测模型存储在预测装置的存储器中，如图1所示。应用时，患者的特征数据经异常值、缺失值处理以及特征组合等特征工程后，分别输入到初级学习器中的ExtraTrees模型、RandomForest模型、SVM模型、XGboost模型、LightGBM模型中，每种模型计算后会得到5个预测值，对5个预测值求平均后得到1个预测值，最终初级学习器输出5个预测值。进而，将5个预测值输入次级学习器：Catboost模型，计算输出得到该例记录的最终类别。

当上述个性化超促排卵方案预测模型在线训练时，每次应用时接收的待预测的特征数据经处理后作为训练样本，对个性化超促排卵方案预测模型做优化更新。

个性化超促排卵方案预测模型融合了5个模型的优点，提高了超促排卵方案的预测准确性，为医生选择超促排卵方案提供了有效的建议。另外，该预测模型还能输出特征的重要性排序，给医生提供了更加具体的参考来设计更适合患者的治疗方案。

本实施例中初级学习器中的模型训练采用的是5折交叉验证，可以为3折、10折等其它折数，依据训练效果而定。

本实施例中的计算机处理器可以为任意型号的处理器，存储器可以为随机存取储器(RAM)、只读存储器(ROM)、闪存(Flash Memory)、先进先出存储器(FIFO)以及先进后出存储器(FILO)等。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的个性化超促排卵方案的预测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于：

所述的计算机存储器中存有超促排卵方案预测模型，所述的超促排卵方案预测模型包括训练好的初级学习器和次级学习器；其中，初级学习器由SVM模型、ExtraTrees模型、RandomForest模型、LightGBM模型和XGboost模型组成，所述的次级学习器采用Catboost模型；

所述计算机处理器执行所述计算机程序时实现以下步骤：

2.根据权利要求1所述的基于机器学习的个性化超促排卵方案的预测装置，其特征在于，所述的初级学习器和次级学习器训练过程如下：

3.根据权利要求2所述的基于机器学习的个性化超促排卵方案的预测装置，其特征在于，采用过采样法和交叉验证法训练超促排卵方案预测模型。

4.根据权利要求3所述的基于机器学习的个性化超促排卵方案的预测装置，其特征在于，采用交叉验证法训练超促排卵方案预测模型时，对初级学习器中的SVM模型、ExtraTrees模型、RandomForest模型、LightGBM模型和XGboost模型，采用5折交叉验证进行训练；训练结束后，每种模型产生5个模型，初级学习器生成25个模型。

5.根据权利要求1或2所述的基于机器学习的个性化超促排卵方案的预测装置，其特征在于，模型训练过程中，初级学习器中每个模型通过计算得到每个特征对超促排卵方案预测模型的重要性排序，对每个模型的特征重要性排序结果进行平均，获得最终的特征重要性排序。

6.根据权利要求1或2所述的基于机器学习的个性化超促排卵方案的预测装置，其特征在于，所述的超促排卵方案预测模型在线下训练完成，然后存储在预测装置中；

7.根据权利要求1所述的基于机器学习的个性化超促排卵方案的预测装置，其特征在于，所述的异常值处理具体为：将超出医学范围的特征数据处理为空值。

8.根据权利要求1所述的基于机器学习的个性化超促排卵方案的预测装置，其特征在于，所述的缺失值处理具体为：对于连续的特征缺失数据，采用平均值填充、中位数填充、众数填充、最近邻填充方法；对于离散的特征缺失数据，采用众数填充、最近邻填充方法。

9.根据权利要求1所述的基于机器学习的个性化超促排卵方案的预测装置，其特征在于，所述的特征组合计算具体为：

将身高和体重两个数据组合为一个新的特征指数，将基础卵泡刺激素和黄体生成素两个数据组合为一个新的特征指数。