CN115331803A - 预测卵巢低反应和部署个体化卵巢刺激策略模型的构建方法和系统 - Google Patents
预测卵巢低反应和部署个体化卵巢刺激策略模型的构建方法和系统 Download PDFInfo
- Publication number
- CN115331803A CN115331803A CN202210751565.8A CN202210751565A CN115331803A CN 115331803 A CN115331803 A CN 115331803A CN 202210751565 A CN202210751565 A CN 202210751565A CN 115331803 A CN115331803 A CN 115331803A
- Authority
- CN
- China
- Prior art keywords
- por
- model
- ovarian stimulation
- stimulation strategy
- ovarian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供了一种预测卵巢低反应和部署个体化卵巢刺激策略模型的构建方法和系统,包括两个模型:POR诊断模型,POR卵巢刺激策略部署模型。首先,初步筛选候选特征并数据预处理;其次,基于多种机器学习算法训练模型,评估并筛选最佳算法;再次,通过特征解释确定与POR相关的关键风险因素;最后,完成模型构建、测试、验证,并在个体水平上可解释性预测。本发明可对育龄期妇女POR的发生风险进行可解释性预测,并可基于POR风险部署个体化最优卵巢刺激策略,能够实现在医院信息系统场景中应用,对POR临床诊断和发病机制具有重要的研究意义,亦对POR高危人群早期筛查,辅助医生制定诊疗决策和减轻患者经济负担具有重大的使用价值。
Description
技术领域
本发明属于医疗决策支持系统领域,具体涉及一种基于机器学习的预测辅助生殖过程中控制性卵巢刺激后卵巢低反应发生风险并个体化部署最优卵巢刺激策略模型的构建方法和系统。
背景技术
据WHO预测,本世纪不孕症将成为继肿瘤和心脑血管疾病之后的第三大疾病。21世纪以来,我国生育水平下降趋势明显,人口问题已成为制约中国经济可持续发展的主要阻力之一。除去生育意愿,女性生育功能降低是我国生育率下降的第二大因素。辅助生殖技术的出现和发展为不孕症的诊治、提高生育率、保障女性生殖和出生子代健康提供了新的途径。卵巢低反应(Poor Ovarian Response,POR)是指卵巢对促性腺激素刺激反应不良的病理状态,其发生率为6%-35%,且呈逐年增长趋势。POR可导致卵巢刺激周期卵泡发育少,血雌激素低,获卵数低,可移植胚胎数少,周期取消率高,妊娠率、活产率低以及出生子代健康问题,同时给患者带来巨大的精神和经济压力,是数十年来辅助生殖领域最棘手的问题之一。
目前国际国内广泛用于诊断POR的标准有博洛尼亚标准(2011年)和波塞冬标准(2016年),两者的主要依据有:年龄,AMH(Anti-Mullerian Hormone),基础卵泡刺激素(FSH),基础窦卵泡数(AFC),以及既往卵巢刺激后是否出现过POR。其中年龄、AMH、FSH、AFC是临床上常用的卵巢储备功能评价指标,而既往卵巢刺激后是否出现过POR则需要该患者具备以往接受过卵巢刺激治疗的条件,对于初次接受辅助生殖助孕的患者两个标准均存在一定的局限性。目前绝大多数对POR的诊断预测方法以经典的Logistic回归为主,且多数未验证或处理非线性关系,甚至有的将连续性特征作简单的分类处理,这样做的局限在于:一方面未考虑其临床机制,如年龄分低龄(<30岁)、中龄(30-40岁)、高龄(>40岁),而实际上,当年龄>35岁时女性卵巢储备功能出现急剧下降,且年龄与卵巢功能呈明显的非线性关系,如此分组明显是不合临床的;另一方面,分类处理一定程度上会把原始的连续性破坏,损失一定信息量,不合实际的同时也可能对模型预测性能不利。此外,多数模型仅利用了几个评估卵巢储备功能的“明星”指标(如年龄,AFC,AMH,FSH等),少有从真实世界的电子病历数据出发,对众多患者基线指标(如过敏史,孕产史,家族史,并发症,基础性激素水平,血常规,代谢指标,宫颈分泌物,各种临床诊断等等)进行探索和筛选,这忽略了其他可能的对POR具有重要影响的因素,也未考虑其他因素对“明星”指标的交互作用,这可能导致放大或缩小这些“明星”指标对POR的影响,从而导致临床医生对它们真实作用的认识存在一定偏差。
另外,虽然普遍认为卵巢储备功能减退是POR的病理基础,临床医生也普遍通过评估卵巢储备预测卵巢反应性,但临床上仍然存在不少低卵巢储备功能呈现正常(或高)卵巢反应性,或是正常(或高)卵巢储备功能最终出现POR的情况,即卵巢储备功能并不完全匹配卵巢反应性,因此,相比间接通过卵巢储备功能预测POR,对POR进行直接预测价值或许更高。
控制性卵巢刺激是辅助生殖治疗不孕症过程中的关键步骤,其中临床医生需要预先制定的主要干预策略包括:卵巢刺激方案,外源性FSH起始剂量,FSH剂型以及是否应用外源性黄体生成素(LH)。其中常用的卵巢刺激方案高达数十种,如微刺激方案、拮抗剂方案、激动剂方案、高孕酮促排卵方案等在临床上均有广泛应用,即便如此,哪一种方案更适合POR患者,目前仍尚无定论。除治疗效果外,这些干预策略更是与患者需支付的医疗费用密切相关。目前已有针对制定个体化卵巢刺激策略的相关研究,多数通过Logistic回归或结合诺曼图的形式实现,但也仅限于一种卵巢刺激策略的部署(如FSH起始剂量),且须在特定卵巢刺激方案的前提下,在临床普适性上具有较大的局限,而且未考虑其他干预措施对POR的影响。
发明内容
现有POR诊断标准对初次接受辅助生殖过程中控制性卵巢刺激治疗的患者具有局限性,且仅依据几个评估卵巢储备功能的“明星”指标(如年龄,基础AFC,基础FSH,AMH),另外,实际临床工作中卵巢储备功能的评估结果并不完全匹配卵巢反应性结果。现有POR诊断预测模型绝大多数应用传统统计模型构建,当数据量增大时信息利用有限,或存在未处理变量间的非线性关系、交互作用等情况,或应用机器学习方法构建时未从真实世界数据出发,未充分考虑其他可能对POR造成影响的风险因素,导致预测效果差,亦或不具有可解释性,临床应用时不够透明或可信度低。
目前临床医生往往结合自己的经验,根据年龄、体重、基础AFC、性激素水平制定卵巢刺激策略,存在较大主观性。现有POR卵巢刺激策略模型研究往往局限于单个干预措施(如FSH起始剂量),或局限在某种特定情景下(如某个特定方案或特定人群),临床应用普适性较差,未考虑其他因素的影响时亦往往导致放大或缩小该干预措施的治疗效果,从而导致所制定的临床决策出现实际偏差。现有POR卵巢刺激策略模型研究在构建方法和应用透明度方面同样具有局限性。
鉴于上述,本发明从真实世界数据出发,基于机器学习方法构建了两个可解释性模型:POR诊断模型,POR卵巢刺激策略部署模型。前者针对辅助生殖治疗不孕症过程中卵巢刺激后出现的POR风险进行预测,后者通过预测POR发生风险对卵巢刺激策略进行个体化部署,两者在总体和个体水平上均具备可解释性。本专利为早期快速准确地对辅助生殖助孕人群进行POR筛查,探索POR风险因素致病机制,辅助医生部署治疗和经济最优化临床干预策略,监测各干预措施对POR治疗效果等提供了技术支撑。
具体而言,本发明涉及如下技术方案:
一种预测卵巢低反应和部署个体化卵巢刺激策略模型构建方法,包括POR诊断模型和POR卵巢刺激策略部署模型,其具体步骤为:
(1)根据从电子病历系统提取患者的原始数据,初步筛选候选POR风险因素和卵巢刺激策略特征;
(2)将步骤(1)得到的数据按比例划分得到训练集和测试集;
(3)基于步骤(1)中的候选POR风险因素和卵巢刺激策略特征,应用多种不同的机器学习算法,在步骤(2)所述的训练集上分别构建候选POR卵巢刺激策略部署模型或候选POR诊断模型,其中,POR诊断模型的输入为POR风险因素,输出为POR患病风险概率;所述POR卵巢刺激策略部署模型的输入为POR风险因素和卵巢刺激策略特征,输出为卵巢刺激策略特征不同组合下的POR患病风险概率;在测试集上评估各候选模型并筛选最佳机器学习算法;
(4)通过SHAP(Shapley Additive exPlanations)法对步骤(3)所述筛选的最佳候选模型进行特征解释,依据特征贡献度大小,得到13个POR的关键风险因素;
(5)基于步骤(3)筛选的最佳机器学习算法,使用卵巢刺激策略特征和步骤(4)筛选的POR关键风险因素构建最终的POR卵巢刺激策略部署模型;使用步骤(4)筛选的POR关键风险因素构建最终的POR诊断模型。其中,POR诊断模型的输入为POR关键风险因素,输出为是否患病和POR患病风险概率;所述POR卵巢刺激策略部署模型的输入为POR风险因素和卵巢刺激策略特征,输出为不患病的卵巢刺激策略特征组合下的POR患病风险概率。
进一步地,步骤(1)所述的初步筛选的POR候选风险因素包括以下50个:年龄,文化程度,身高,体重,基础血压,过敏史,不孕年限,初潮年龄,月经周期,经期天数,痛经史,足早流存,不良生育史,患者父亲患病情况,患者母亲患病情况,女方(患者)诊断,原继发不孕,男方(患者丈夫)诊断,基础窦卵泡数,基础内分泌(FSH;黄体生成素,LH;雌二醇,E2;孕激素,P;催乳素,PRL;睾酮,T),AMH,血常规(红细胞,白细胞,血红蛋白,血小板,红细胞压积/比容),生化指标(总蛋白;白蛋白;谷丙转氨酶,ALT;谷草转氨酶,AST;空腹血糖,血同型半胱氨酸,肌酐,尿素氮,CA125),甲状腺激素(促甲状腺激素,TSH;甲状腺免疫球蛋白抗体,A-TG;抗甲状腺过氧化物酶抗体,A-TPO),凝血功能(活化部分凝血活酶时间,APTT;凝血酶原时间,PT),血型,染色体检查,淋球菌DNA,衣原体DNA,支原体DNA。
进一步地,步骤(1)所述的卵巢刺激策略特征为:卵巢刺激方案,FSH起始剂量,促排过程中使用的FSH剂型(药物名称),促排过程是否应用LH中的至少两种。
进一步地,步骤(2)具体为:将步骤(1)所述的数据中去除样本缺失>15%的特征,然后依据POR事件分层,然后随机抽取70%样本为插补前训练集,剩余30%样本为插补前测试集,然后分别单独对插补前训练集和插补前测试集进行多重插补。
进一步地,缺失值多重插补方法为:基于随机森林的链式方程多重插补法,其中实现方法为随机森林,预测后选值方法为预测均值匹配法,候选匹配值数为5个,迭代次数为100次。
进一步地,多重插补后结果检验方法包括:插补后新数据分布与原始数据分布对比,在插补过程中进行迭代收敛性诊断。
进一步地,步骤(3)所述的4种候选机器学习算法包括:LASSO-Logistic回归,以RBF为核函数的支持向量机,多层感知机,XGBoost中的至少两种。
进一步地,基于多种不同机器学习算法构建候选模型时,使用的优化超参数方法为:贝叶斯优化算法结合5折交叉验证,其中贝叶斯优化算法的简化思路如下:
假设一组超参数组合是:X=x1,x2,x3...,xn,则,
Input:D←InitSamples(f,X)
for i←|D|to T do
p(y|x,D)←FitModel(M,D)
xi←arg maxx∈XS(x,p(y|x,D))
yi←f(xi)
D←D∪(xi,yi)
end
f为待调参模型;X为超参数搜索空间;D为由若干对数据组成的数据集,每一对数组表示为(x,y),x是一组超参数,y表示该组超参数下模型对应输出的结果;S为采集函数,作用是选择最优的x;M为对数据集D进行拟合得到的高斯模型;T为循环选参数的次数。
进一步地,步骤(4)所述的特征解释后特征筛选过程为:将步骤(3)中的最佳算法构建的模型中所有SHAP值非零的特征按从大到小的顺序排列,然后基于序号和所对应的SHAP值作点线图,然后依据SHAP值下降程度从大到小筛选得到13个POR关键风险因素和固有的4个卵巢刺激策略特征。之前研究很多是采用选取排名前某个数字的特征,如前10个,前15个等,虽然简单有效,但具有较高的主观性。
进一步地,所得到的13个POR相关的关键风险因素为:年龄,体重,舒张压,不孕年限,AMH水平,基础窦卵泡数,基础FSH水平,基础P水平,基础LH水平,红细胞计数,白细胞计数,ALT,诊断中含POI(早发型卵巢功能不全)或DOR(卵巢储备功能减退)。
进一步地,步骤(5)中最终模型需在训练集和测试集合并后的总数据基础上构建,且需重新优化超参数,具体调参方法为:贝叶斯优化算法结合5折交叉验证。
进一步地,本发明方法构建的模型的使用步骤为:
A.获取待预测患者的原始数据,具体为不孕患者接受IVF/ICSI/PGT时的第一卵巢刺激周期数据,包含13个POR关键风险因素和4个卵巢刺激策略特征(医生依据临床经验制定多个可能的卵巢刺激策略组合(4个卵巢刺激干预措施的不同组合));
B.将步骤A得到的13个POR关键风险因素数据输入所述POR诊断模型,得到预测结果(是否为POR)及患POR的风险值;将步骤A得到的13个POR关键风险因素和4个卵巢刺激策略特征数据输入所述POR卵巢刺激策略部署模型,得到预测结果为不是POR的卵巢刺激策略特征组合下的患POR的风险值(概率),基于患者经济负担条件下,进而筛选POR风险和患者经济负担最优化的卵巢刺激策略。
进一步地,应用POR诊断模型对新患者进行的个体水平可解释性诊断方法为:获取新患者的13个POR关键风险因素信息并输入所述模型,获得预测结果及患POR的风险值,计算13个POR关键风险因素对应的Shapley值并用来解释不同风险因素对致病POR的贡献。
对应于上述方法,本发明还提供一种基于机器学习的预测辅助生殖卵巢低反应和部署个体化卵巢刺激策略模型构建系统,该系统包括:
筛选算法模块(2),在训练集上基于多种机器学习算法分别构建候选POR卵巢刺激策略部署模型或候选POR诊断模型,其中,候选POR诊断模型的输入为POR风险因素,输出为POR患病风险概率;所述候选POR卵巢刺激策略部署模型的输入为POR风险因素和4个卵巢刺激策略特征,输出为卵巢刺激策略特征不同组合下的POR患病风险概率;基于ROC曲线在测试集上评估各候选模型并筛选最佳机器学习算法;
特征筛选、解释模块(3),基于模块(2)所述的最佳算法构建的模型,依据特征贡献大小筛选POR关键风险因素;
模型构建模块(4),在合并训练集、测试集后的总数据集上,基于模块(2)筛选的最佳算法,使用模块(3)筛选的关键风险因素进行重新构建POR卵巢刺激策略部署模型;使用模块(3)筛选的关键风险因素和卵巢刺激策略特征进行重新构建POR诊断模型。
进一步地,系统还包括:
模型验证与解释个体预测模块(5),获取外院或者其他生殖中心数据,并对模块(4)构建的POR卵巢刺激策略部署模型和POR诊断模型进行外部数据验证;获取新患者数据,在个体水平上对模块(4)构建的POR卵巢刺激策略部署模型和POR诊断模型进行可解释性预测,解释各个风险因素以及不同卵巢刺激干预措施对POR预测结果的贡献大小。
卵巢刺激策略部署模块(6),获取新患者13个关键风险因素值,医生依据临床经验制定多个可能的卵巢刺激策略组合(4个卵巢刺激干预措施的不同组合),输入POR卵巢刺激策略部署模型后获得不同组合相对应的POR的风险预测,同时考虑患者经济负担条件下,进而筛选POR风险和患者经济负担最优化的卵巢刺激策略。
本发明具有如下有益效果:
(1)使用更贴近真实世界的电子病历系统数据,相较之前人为确定的数据,可最大限度内考虑其他可能影响POR的特征;同时,本发明针对所有IVF/ICSI/PGT过程中接受卵巢刺激的助孕患者,相较之前特定人群或特定卵巢刺激方案,应用场景更广,普适性更高。
(2)本发明基于机器学习方法构建,相较以往传统统计方法,当数据量增大时,可充分利用数据信息,可处理复杂特征关系,预测效果更优。
(3)本发明同时提供了POR诊断和POR卵巢刺激策略的部署方法,前者可早期快速并准确地评估和诊断助孕妇女患POR的风险,同时对有生育计划但不确定何时生育的妇女而言,也可以评估自己的卵巢储备功能,制定合理的生育安排;后者可辅助临床医生根据具体的POR风险制定治疗效果最佳的个体化卵巢刺激策略,同时可兼顾患者的经济压力进行平衡和优选。
(4)目前广泛应用的POR诊断标准是博洛尼亚标准和波塞冬标准,两者均对患者既往卵巢刺激周期中卵巢的反应性有具体要求,因此对于未接受过任何卵巢刺激治疗的患者进行POR诊断时,两个标准均具有局限性,而本发明提供的POR诊断方法主要针对患者的第一卵巢刺激周期进行预测,故可以弥补两个标准的固有缺陷。
(5)本发明提供的POR诊断方法具备特征可解释性,总体层面上可揭示POR相关的关键风险因素对POR风险的具体影响和相对大小。
(6)对育龄期妇女进行POR评估时,本发明提供的POR诊断方法可对该妇女进行个体层面上对各关键风险因素的具体致病影响进行解释。
(7)相比之前方法,具有更佳的预测效果,其中POR诊断方法AUC值为0.920,POR卵巢刺激策略部署方法AUC值为0.929。
附图说明
图1为本发明提供的POR诊断和POR卵巢刺激策略部署方法的框架图;
图2为不同机器学习算法构建候选POR卵巢刺激策略部署模型的ROC曲线(附AUC值和Brier score);
图3为基于SHAP方法特征筛选过程图;
图4为POR诊断模型和POR卵巢刺激策略部署模型外部验证的ROC曲线(附AUC值和Brier score);
图5为POR诊断方法中,总体水平上13个POR关键风险因素对POR的不同影响图示(SHAP总截图);
图6为POR诊断方法在个体水平上进行可解释性诊断预测图示。其中(a)为对一个POR高风险的育龄期妇女进行预测;(b)为对一个POR低风险的育龄期妇女进行预测。图中展示了不同个体水平上POR关键风险因素对预测的影响存在差异,且符合临床意义。
具体实施方式
以下将参考附图和附表更为详细地描述本发明的具体实施例。虽然实施例展示了本发明的具体实施过程,但本发明的保护范围并非因此实施例而受限制。相反地,本发明的具体实施方式并非此一种,因此本领域内没有做出创造性或创新性劳动的前提下,在本发明权力要求内的其余实施方式均在本发明的保护范围内。
本发明涉及的卵巢低反应(POR)是指:卵巢对促性腺激素刺激反应不良的一种病理状态,可表现为:卵巢刺激周期发育卵泡少,血雌激素峰值低,促性腺激素用量高,周期取消率高,获卵数少,临床妊娠率、活产率低等。本发明实施例参考目前广泛应用的博洛尼亚标准和波塞冬标准其中的相关内容,以卵巢刺激后获卵数低于4枚作为判断指标,即:获卵数低于4枚即认为患者是卵巢低反应,对数据集进行标注。
如图1所示,本发明提供的基于机器学习的预测辅助生殖卵巢低反应和部署个体化卵巢刺激策略模型的构建方法的具体步骤如下:
(1)基于更贴近真实世界的数据,即从医院或生殖中心的电子病历系统提取助孕患者即将接受IVF/ICSI/PGT前第一卵巢刺激周期的数据并初步筛选50个候选POR风险因素和4个卵巢刺激策略干预措施特征。
其中具体选取对象为12012例助孕女性及其第一卵巢刺激周期作为训练模型总数据,其中POR患者1714例(年龄中位数/四分位间距:34岁/30-39岁),非POR患者10298例(年龄中位数/四分位间距:30岁/28-33岁)。将所获得的数据导入R软件,选取主要的临床特征如表1中训练总数据所示。
表1 12012例训练总数据和5702例外部验证数据基于POR分类的主要临床特征
表格中以中位数(四分位间距)或数量(百分比)显示
其中初步筛选的POR候选风险因素包括以下50个:年龄,文化程度,身高,体重,基础血压,过敏史,不孕年限,初潮年龄,月经周期,经期天数,痛经史,足早流存,不良生育史,患者父亲患病情况,患者母亲患病情况,女方(患者)诊断,原继发不孕,男方(患者丈夫)诊断,基础窦卵泡数,基础内分泌(FSH,LH,E2,P,PRL,T),AMH,血常规(红细胞,白细胞,血红蛋白,血小板,红细胞压积/比容),生化指标(总蛋白,白蛋白,ALT,AST,空腹血糖,血同型半胱氨酸,肌酐,尿素氮,CA125),甲状腺激素(TSH,A-TG,A-TPO),凝血功能(APTT,PT),血型,染色体检查,淋球菌DNA,衣原体DNA,支原体DNA。
4个卵巢刺激策略干预措施特征为:卵巢刺激方案,FSH起始剂量,促排过程中使用的FSH剂型(药物名称),促排过程是否应用LH。其中卵巢刺激方案包括:激动剂长方案,激动剂超长方案,激动剂短方案,拮抗剂方案,高孕激素状态下促排卵方案,微刺激或自然周期方案,其他方案;其中FSH起始剂量包括:<100IU,150IU,200IU,225IU,≥300IU,对应非激动剂或非拮抗剂方案;其中使用的FSH剂型:重组型,尿源型,对应非激动剂或非拮抗剂方案;其中使用LH与否:否,是,对应非激动剂或非拮抗剂方案。
(2)准备数据:将步骤(1)所述的数据中去除样本缺失>15%的特征后,为保证训练集和测试集中POR比例和原始数据相等,以POR事件进行分层,将步骤(1)所述的数据按7:3划分为插补前训练集和测试集,并分别对两个插补前数据集单独进行缺失值多重插补,得到训练集和测试集。
其中,缺失值多重插补方法为:基于随机森林的链式方程多重插补法,其中实现方法为随机森林,预测选值方法为预测均值匹配法,候选匹配值数为5个,迭代次数为100次。多重插补后,需对插补结果进行检验,方法包括:插补后新数据分布与原始数据分布对比,插补过程中迭代收敛性诊断。
(3)基于候选POR风险因素和4个卵巢刺激策略特征,应用4种不同的机器学习算法,在步骤(2)所述的训练集上分别构建候选POR卵巢刺激策略部署模型,在测试集上评估各候选模型并筛选最佳机器学习算法。候选POR卵巢刺激策略部署模型的输入为POR风险因素和4个卵巢刺激策略特征,输出为卵巢刺激策略特征不同组合下的POR患病风险概率。
其中4种机器学习算法为:LASSO-Logistic回归,以RBF为核函数的支持向量机,多层感知机,XGBoost。在构建候选模型时所采用的优化超参数方法为:贝叶斯优化算法结合5折交叉验证。其中贝叶斯优化算法的简化思路如下:
假设一组超参数组合是:X=x1,x2,x3...,xn,则,
Input:D←InitSamples(f,X)
for i←|D|_to T do
p(y|x,D)←FitModel(M,D)
xi←arg maxx∈XS(x,p(y|x,D))
yi←f(xi)
D←D∪(xi,yi)
end
f为待调参模型;X为超参数搜索空间;D为由若干对数据组成的数据集,每一对数组表示为(x,y),x是一组超参数,y表示该组超参数下模型对应输出的结果;S为采集函数,作用是选择最优的x;M为对数据集D进行拟合得到的高斯模型;T为循环选参数的次数。
图2展示了不同机器学习算法构建候选POR卵巢刺激策略部署模型的ROC曲线及相对应的AUC值和Brier score。其中XGBoost算法表现最佳,AUC值为0.930,Brier score为0.064。
(4)通过SHAP法对步骤(3)所述筛选的最佳候选模型进行特征解释,依据特征贡献度大小,得到13个POR的关键风险因素。即,如图3所示:将步骤(3)中的最佳算法构建的模型中所有SHAP值非零的特征按从大到小的顺序排列,然后基于序号和所对应的SHAP值作点线图,然后依据SHAP值下降程度从大到小筛选得到13个POR关键风险因素和固有的4个卵巢刺激策略特征。其中13个POR关键风险因素为:年龄,体重,舒张压,不孕年限,AMH水平,基础窦卵泡数,基础FSH水平,基础P水平,基础LH水平,红细胞计数,白细胞计数,ALT,诊断中是否含POI或DOR。
(5)为充分利用数据信息,本发明中将训练集和测试集进行合并,基于步骤(3)筛选的最佳机器学习算法,重新进行优化超参数,然后:使用4个卵巢刺激策略特征和步骤(4)筛选的13个POR关键风险因素,构建最终的POR卵巢刺激策略部署模型;使用步骤(4)筛选的13个POR关键风险因素构建最终的POR诊断模型。POR诊断模型的输入为POR关键风险因素,输出为是否患病和POR患病风险概率;所述POR卵巢刺激策略部署模型的输入为POR风险因素和卵巢刺激策略特征,输出为不患病的卵巢刺激策略特征组合下的POR患病风险概率。
(6)对步骤(5)所述的两个模型进行外部数据验证。其中,具体步骤为:
A.获取外部验证数据,具体为其他医院或生殖中心5702例助孕女性及其第一卵巢刺激周期,其中POR患者882例(年龄中位数/四分位间距:33岁/30-37岁),非POR患者4820例(年龄中位数/四分位间距:30岁/28-33岁),将所获得的数据导入R软件,选取主要的临床特征如表1中外部验证数据所示;
B.将步骤A所述外部验证数据输入最终的POR诊断模型,得到预测结果(是否为POR)及患POR的风险值;将步骤A得到的13个POR关键风险因素和4个卵巢刺激策略特征数据输入所述POR卵巢刺激策略部署模型,得到预测结果为不是POR的卵巢刺激策略特征组合下的患POR的风险值(概率),
C.基于步骤A原始外部验证数据和步骤B所得预测结果、POR风险值,通过ROC曲线及AUC(ROC曲线下面积)评价模型区分能力,通过Brier score(布尔值)评价模型校准能力,其中Brier score(BS)计算方法为:
ft为t样本对应的预测概率,ot为t样本实际POR标签(患POR为1,未患POR为0),N为样本总数。
如图4所示,POR诊断模型和POR卵巢刺激策略部署模型在外部数据中仍然有很好的预测效果。
(7)总体水平上,对POR诊断模型应用SHAP法进行特征解释,可展示13个POR关键风险因素对POR的不同影响,如图5所示,其中AMH,基础AFC,诊断为POI或DOR,基础FSH,年龄对POR的影响占据前五位,AMH、基础AFC越低,诊断为POI或DOR,FSH越高,年龄越高,则出现POR的风险就越高;另外,如舒张压,ALT,白细胞计数,红细胞计数等是目前临床或研究中从没有认为与POR相关的影响因素,值得进一步探讨和开展相关研究。
个体水平上,如图6所示,应用步骤(5)所述的POR诊断模型对两个育龄期妇女(a子图为POR高风险妇女,b子图为POR低风险妇女)进行POR风险的可解释性预测,具体方法为:获取新患者的13个POR关键风险因素信息并输入POR诊断模型,获得预测结果及患POR的风险值,计算13个POR关键风险因素对应的Shapley值并用来解释不同风险因素对致病POR的贡献。此外,应用步骤(5)所述的POR卵巢刺激策略部署模型进行部署个体化最优卵巢刺激策略,具体方法为:获取新患者13个关键风险因素值,然后医生依据临床经验制定多个可能的卵巢刺激策略组合(4个卵巢刺激干预措施的不同组合),同时将13+4个特征输入POR卵巢刺激策略部署模型后获得不同组合相对应的POR的风险预测,基于现实患者经济负担条件下,进而筛选POR风险和患者经济负担最优化的卵巢刺激策略。
Claims (10)
1.一种预测卵巢低反应和部署个体化卵巢刺激策略模型的构建方法,其特征在于,包括POR诊断模型和POR卵巢刺激策略部署模型,具体步骤为:
(1)根据从电子病历系统提取患者的原始数据,初步筛选候选POR风险因素和卵巢刺激策略特征;
(2)将步骤(1)得到的数据按比例划分得到训练集和测试集;
(3)基于步骤(1)中的候选POR风险因素和卵巢刺激策略特征,应用不同的机器学习算法,在步骤(2)所述的训练集上分别构建候选POR卵巢刺激策略部署模型或候选POR诊断模型,其中,候选POR诊断模型的输入为POR风险因素,输出为POR患病风险概率;所述候选POR卵巢刺激策略部署模型的输入为POR风险因素和卵巢刺激策略特征,输出为卵巢刺激策略特征不同组合下的POR患病风险概率;在测试集上评估各候选模型并筛选最佳机器学习算法;
(4)通过SHAP法对步骤(3)所述筛选的最佳候选模型进行特征解释,依据特征贡献度大小,得到POR的关键风险因素;
(5)基于步骤(3)筛选的最佳机器学习算法,使用卵巢刺激策略特征和步骤(4)筛选的POR关键风险因素构建最终的POR卵巢刺激策略部署模型;使用步骤(4)筛选的POR关键风险因素构建最终的POR诊断模型。
2.根据权利要求1所述的方法,其特征在于,步骤(1)所述的从电子病历系统提取的原始数据为:不孕症患者接受IVF/ICSI/PGT时的第一卵巢刺激周期数据。
3.根据权利要求1所述的方法,其特征在于,步骤(1)所述的初步筛选的POR候选风险因素包括以下50个:年龄,文化程度,身高,体重,基础血压,过敏史,不孕年限,初潮年龄,月经周期,经期天数,痛经史,足早流存,不良生育史,父亲患病情况,母亲患病情况,女方诊断,原继发不孕,丈夫诊断,基础窦卵泡数,基础FSH,基础LH,基础E2,基础P,基础PRL,基础T,AMH,红细胞计数,白细胞计数,血红蛋白计数,血小板计数,红细胞压积/比容,总蛋白,白蛋白,ALT,AST,空腹血糖,血同型半胱氨酸,肌酐,尿素氮,CA125,TSH,A-TG,A-TPO,APTT,PT,血型,染色体检查,淋球菌DNA,衣原体DNA,支原体DNA。
4.根据权利要求1所述的方法,其特征在于,步骤(1)所述的卵巢刺激策略特征为卵巢刺激方案,FSH起始剂量,促排过程中使用的FSH剂型,促排过程是否应用LH中的至少两种。
5.根据权利要求1所述的方法,其特征在于,步骤(2)具体为:将步骤(1)所述的数据中去除样本缺失>15%的特征,然后依据POR事件分层,然后随机抽取70%样本为插补前训练集,剩余30%样本为插补前测试集,然后分别单独对插补前训练集和插补前测试集进行多重插补,得到训练集和测试集。
6.根据权利要求5所述的方法,其特征在于,步骤(2)所述的缺失值多重插补方法为:基于随机森林的链式方程多重插补法,其中实现方法为随机森林,预测后选值方法为预测均值匹配法,候选匹配值数为5个,迭代次数为100次。
7.根据权利要求1所述的方法,其特征在于,步骤(3)所述的机器学习算法包括:LASSO-Logistic回归,以RBF为核函数的支持向量机,多层感知机,XGBoost中至少两种。
8.根据权利要求1所述的方法,其特征在于,步骤(4)所述的POR的关键风险因素为:年龄,体重,舒张压,不孕年限,AMH水平,基础窦卵泡数,基础FSH水平,基础P水平,基础LH水平,红细胞计数,白细胞计数,ALT,诊断中是否含POI或DOR。
9.根据权利要求1所述的方法,其特征在于,插补结果检验方法包括:插补后新数据分布与原始数据分布对比,在插补过程中进行迭代收敛性诊断。
10.一种预测卵巢低反应和部署个体化卵巢刺激策略模型构建系统,其特征在于,所述系统包括:
准备数据模块(1),用于提取电子病历系统中的患者的原始数据,初步筛选候选POR风险因素和卵巢刺激策略特征,进行数据预处理后获得训练集和测试集;
筛选算法模块(2),在训练集上基于多种机器学习算法分别构建候选POR卵巢刺激策略部署模型或候选POR诊断模型,其中,候选POR诊断模型的输入为POR风险因素,输出为POR患病风险概率;所述候选POR卵巢刺激策略部署模型的输入为POR风险因素和4个卵巢刺激策略特征,输出为卵巢刺激策略特征不同组合下的POR患病风险概率;在测试集上评估各候选模型并筛选最佳机器学习算法;
特征筛选、解释模块(3),基于模块(2)所述的最佳算法构建的模型,依据特征贡献大小筛选POR关键风险因素;
模型构建模块(4),在合并训练集、测试集后的总数据集上,基于模块(2)筛选的最佳算法,使用模块(3)筛选的关键风险因素进行重新构建POR卵巢刺激策略部署模型;使用模块(3)筛选的关键风险因素和卵巢刺激策略特征进行重新构建POR诊断模型。
模型验证与解释个体预测模块(5),获取外院或者其他生殖中心数据,并对模块(4)构建的POR卵巢刺激策略部署模型和POR诊断模型进行外部数据验证;获取新患者数据,在个体水平上对模块(4)构建的POR卵巢刺激策略部署模型和POR诊断模型进行可解释性预测;
卵巢刺激策略部署模块(6),获取新患者13个关键风险因素值,医生依据临床经验制定多个可能的卵巢刺激策略组合(4个卵巢刺激干预措施的不同组合),输入POR卵巢刺激策略部署模型后获得不同组合相对应的POR的风险预测,基于患者经济负担条件下,进而筛选POR风险和患者经济负担最优化的卵巢刺激策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210751565.8A CN115331803A (zh) | 2022-06-28 | 2022-06-28 | 预测卵巢低反应和部署个体化卵巢刺激策略模型的构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210751565.8A CN115331803A (zh) | 2022-06-28 | 2022-06-28 | 预测卵巢低反应和部署个体化卵巢刺激策略模型的构建方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115331803A true CN115331803A (zh) | 2022-11-11 |
Family
ID=83918252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210751565.8A Pending CN115331803A (zh) | 2022-06-28 | 2022-06-28 | 预测卵巢低反应和部署个体化卵巢刺激策略模型的构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331803A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433652A (zh) * | 2023-05-11 | 2023-07-14 | 中南大学 | 用于确定胚胎移植的妊娠结果的方法、处理器及装置 |
CN117094184A (zh) * | 2023-10-19 | 2023-11-21 | 上海数字治理研究院有限公司 | 基于内网平台的风险预测模型的建模方法、系统及介质 |
CN118039062A (zh) * | 2024-04-12 | 2024-05-14 | 四川省肿瘤医院 | 一种基于大数据分析的个体化化疗剂量远程控制方法 |
-
2022
- 2022-06-28 CN CN202210751565.8A patent/CN115331803A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433652A (zh) * | 2023-05-11 | 2023-07-14 | 中南大学 | 用于确定胚胎移植的妊娠结果的方法、处理器及装置 |
CN116433652B (zh) * | 2023-05-11 | 2024-02-23 | 中南大学 | 用于确定胚胎移植的妊娠结果的方法、处理器及装置 |
CN117094184A (zh) * | 2023-10-19 | 2023-11-21 | 上海数字治理研究院有限公司 | 基于内网平台的风险预测模型的建模方法、系统及介质 |
CN117094184B (zh) * | 2023-10-19 | 2024-01-26 | 上海数字治理研究院有限公司 | 基于内网平台的风险预测模型的建模方法、系统及介质 |
CN118039062A (zh) * | 2024-04-12 | 2024-05-14 | 四川省肿瘤医院 | 一种基于大数据分析的个体化化疗剂量远程控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Klonoff-Cohen et al. | The effect of advancing paternal age on pregnancy and live birth rates in couples undergoing in vitro fertilization or gamete intrafallopian transfer | |
CN115331803A (zh) | 预测卵巢低反应和部署个体化卵巢刺激策略模型的构建方法和系统 | |
Stamilio et al. | False-positive 1-hour glucose challenge test and adverse perinatal outcomes | |
Morse et al. | Performance of human chorionic gonadotropin curves in women at risk for ectopic pregnancy: exceptions to the rules | |
CN109072479A (zh) | 使用循环微粒对自发性早产风险进行分层 | |
CN109602394A (zh) | 评估受试者卵巢储备功能的系统 | |
KR20230110615A (ko) | 태아 염색체 이상을 검출하는 방법 및 시스템 | |
CN112466460A (zh) | 早孕期孕妇MAP、PlGF和PAPP-A联合构建模型预测妊娠期高血压疾病的方法 | |
Perea et al. | Influence of maternal diabetes on the risk of neurodevelopmental disorders in offspring in the prenatal and postnatal periods | |
Libby et al. | Obstetric outcomes in pregnancies resulting from in vitro fertilization are not different in fertile, sterilized women compared to infertile women: A Society for Assisted Reproductive Technology database analysis | |
CN113611421A (zh) | 一种中国南方早产儿视网膜病变预测模型及其构建方法 | |
Alahakoon et al. | Characterization of fetal monocytes in preeclampsia and fetal growth restriction | |
Cao et al. | Effects of interaction between gestational hypertension and history of preterm birth on the risk of preterm birth: an analysis based on the national vital statistics system database | |
Zhang et al. | Female age is associated with the optimal number of oocytes to maximize fresh live birth rates: an analysis of 256,643 fresh ART cycles | |
Lee et al. | Prediction of preeclampsia in asymptomatic women | |
CN111462900A (zh) | 一种胎膜早破合并组织学绒毛膜羊膜炎的预测模型 | |
Cersonsky et al. | Identifying risk of stillbirth using machine learning | |
Rice et al. | Second‐trimester maternal serum screening for Down syndrome in in vitro fertilization pregnancies | |
Kim et al. | Prepregnancy Glucose Levels Within Normal Range and Its Impact on Obstetric Complications in Subsequent Pregnancy: A Population Cohort Study | |
CN113066584A (zh) | 早发型败血症的预测方法及系统 | |
Liu et al. | The development and validation of a predictive model for neonatal phototherapy outcome using admission indicators | |
Sun et al. | Model application to quantitatively evaluate placental features from ultrasound images with gestational diabetes | |
Blanc‐Petitjean et al. | Target populations to reduce cesarean rates after induced labor: A national population‐based cohort study | |
Lan et al. | Classification of hypertension in pregnancy based on random forest and Xgboost fusion model | |
Eden et al. | The mammary stimulation test—A predictor of preterm delivery? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |