CN110246577A

CN110246577A - 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法

Info

Publication number: CN110246577A
Application number: CN201910469066.8A
Authority: CN
Inventors: 樊小毅; 刘江川; 庞海天; 杨洋; 邵俊松; 王隆
Original assignee: Shenzhen Jianghang Lianjia Intelligent Technology Co Ltd
Current assignee: Shenzhen Jiangxing Smart Energy Technology Co ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-17
Anticipated expiration: 2039-05-31
Also published as: CN110246577B

Abstract

本发明公开了一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，包括如下方法步骤：获取并整合病患体检数据及基因检测信息，建立妊娠期糖尿病的病历数据库；对病历数据库中的数据进行预处理，包括分割训练‑测试集、筛选病历、空缺值填充；结合Information Value、Bayesian Network提取特征，构建与妊娠期糖尿病遗传风险相关的特征群；基于CatBoost模型对特征筛选后的病历数据进行建模、诊断；采用Grid Search寻找得分最佳的参数值，使用训练集进行交叉验证；本发明一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，结合基因数据和体检数据，能很好地应用于实际医疗环境，找出妊娠期糖尿病高危人群，为患者赢得宝贵的干预时间，进行提早干预，改变母胎结局。

Description

一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法

技术领域

本发明涉及妊娠期糖尿病预测技术领域，特别涉及一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法。

背景技术

妊娠期糖尿病是妊娠过程中的主要疾病之一，它是一种暂时性的糖尿病，即在怀孕期间，身体不能产生足够的胰岛素来调节血糖。如果不治疗妊娠期糖尿病，它将严重危害母亲和孩子的身体健康，具体表现为孕妇妊娠期高血压、胎停育、羊水过多等风险的增加，胎儿早产、巨大儿等的发生率明显升高。

目前，传统妊娠期糖尿病的诊断是基于风险因素的调查问卷，预测准确率低，漏诊率高达30-40％。另一些筛查方法也大多是基于高危因素进行判别，或者结合临床检查数据，如相关生理指标等进行机器学习判别，预测结果并不理想。因此需要一种先进的对于妊娠糖尿病的精准诊断技术。

现有的相近专利公开号为CN109524118A的一种基于机器学习和体检数据的妊娠期糖尿病筛查方法，该方法提出基于LightGBM算法和体检数据的妊娠期糖尿病筛查方法，虽然其也结合了个体基因数据，然而其未对基因数据进行处理、筛选，有很大概率会使得数据保留大量噪声、造成模型过拟合，引起诊断准确率下降等问题；此外，对于处理极大可能出险各种数据偏移的预测问题，Catboost算法明显优于LightGBM。

为此，本发明提出一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，通过对临床医疗大数据进行分析，结合生理指标与个体基因特征，实现了对妊娠期糖尿病的精准预测，能够为患者赢得宝贵的干预时间，避免重大危害的产生；同时，使用信息量筛选结合贝叶斯网络的联合特征筛选的方法以降低数据噪声、提高诊断准确率及减少计算量，同时选用的Catboost算法能够有效处理各种数据偏移问题。

发明内容

本发明的主要目的在于提供一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，可以有效解决背景技术中的问题。

为实现上述目的，本发明提供如下技术方案：一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，包括如下方法步骤：

S1、获取并整合病患体检数据及基因检测信息，建立妊娠期糖尿病的病历数据库；

S2、对病历数据库中的数据进行预处理，包括分割训练-测试集、筛选病历、空缺值填充；

S3、结合Information Value(IV信息量)、Bayesian Network(BN贝叶斯网络)提取特征，构建与妊娠期糖尿病遗传风险相关的特征群；

S4、基于CatBoost模型对特征筛选后的病历数据进行建模、诊断；

S5、采用Grid Search寻找得分最佳的参数值，使用训练集进行交叉验证。

优选的，所述步骤S2中对病历数据库中的数据进行预处理步骤具体包括：

S21、选取部分病历数据作为后续模型检验的测试集，并去除妊娠期糖尿病患病情况；

S22、筛选病历：删去体检及基因信息空缺值超过20％的病历数据；

S23、离散型空缺值填充：对于缺失的离散型数据使用众数进行填充；

S24、连续型空缺值填充：对于缺失的连续型数据使用中位数进行填充。

优选的，所述步骤S3中的提取特征步骤具体包括：

S31、IV提取特征：对体检数据中的连续型变量离散化，计算各个离散特征的IV值，筛选出满足IV值阈值的特征，其中IV值的计算公式如下：

其中，py_i为该特征第i个取值中的患病者占所有取值中所有患病者的比例，pni为该特征第i个取值中的非患病者占所有取值中非患病者的比例，y_i为该特征第i个取值中的患病者的数量，y_T为该特征所有取值中患病者的数量，n_i为该特征第i个取值中的未患病者的数量，n_T为该特征所有取值中非患病者的数量，阈值定为0.02，即选取各取值的总IV值大于0.02的特征；

S32、BN提取特征：挑选与患病情况直接或间接相关的基因信息，对BM进行结构学习，选用爬山算法对其结构分数进行优化，得到最优结构，并筛选出相关基因：

其中，若G为定义在{X₁，X₂，...，X_N}上的一个贝叶斯网络，其中节点X_i共有r_i个取值，其联合概率分布可以表示为各个节点的条件概率分布的乘积：

p(X)＝Π_ip_i(X_i|Par_G(X_i))

其中，Par_G(X_i)为节点X_i的父节点，其取值共有q_i个组合；p_i(X_i|Par_G(X_i))为节点条件概率表；

结构函数是衡量给定Bayesian Model与数据集的匹配程度的指标，选取贝叶斯信息量(BIC)，其计算公式为

其中，D为样本数据集；

S33、由于爬山算法得到的特征可能陷入局部最优解，因此结合IV与BN提取到的特征，均作为筛选结果，两者提取到的特征取并集组成特征群。

优选的，所述步骤S4中基于CatBoost模型对特征筛选后的病历数据进行建模、诊断的步骤具体包括：

S41、对步骤S3中筛选得到的特征群中的离散型变量进行one-hot编码，即使用N位状态寄存器来对N个状态进行编码，每个状态均有其独立的寄存器位，并且在任意情况仅有1位寄存器位有效；

S42、使用病历数据库中的训练集对CatBoost模型进行训练，该模型能够在数据稀疏的情况下进行机器学习，并且解决了GBDT中的各种数据偏移问题；CatBoost模型在标准的Greedy TBS上添加先验分布项，即

其中，P是添加的先验项，a通常是大于0的权重系数，减少了噪声和低频率数据对数据分布的影响。

优选的，所述步骤S5中采用Grid Search寻找得分最佳的参数值，使用训练集进行交叉验证的步骤具体包括：

对默认参数中的l2_lea f_reg、dpth、learning_rate、iterations指定部分参数，并进行网格搜索；

在每组指定参数下，在训练集上进行5折交叉验证，即将训练集分为不交叉的5等分数据，每次训练其中4份数据，并将另一份用以预测，并返回每次验证的F1，其计算公式为：

其中，P为准确率，即预测正确的患病样本数占总预测患病样本数的比例；R为召回率，即预测正确的患病样本数占总患病样本数的比例；

最终参数的选择为：iterations＝1000、depth＝6、leaarning_rate＝0.03、l2_leaf_reg＝1，采用该组参数在训练集上的预测AUC＝0.7601、ACC＝0.76、F1＝0.7551。

与现有技术相比，本发明具有如下有益效果：

1)、该种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，专门针对妊娠期糖尿病遗传风险进行预测，结合基因数据和体检数据，比起传统的仅依赖体检数据进行识别的方法更为精准、可信。

2)、采用IV结合BN的方法进行特征提取，能够降低数据噪声，提高模型稳定性，并且减少计算量；具体而言，IV是通过信息量筛选，BN是通过基于爬山算法的贝叶斯网络结构学习筛选，最后两者提取到的特征取并集；通过爬山算法优化进行结构学习，避免了搜索空间过大，但可能陷入局部最优，因此需要结合IV一起进行筛选(取并集)，避免漏掉有用的信息。

3)、引入基于GridSearch参数优化的Catboost用作遗传风险预测，相比于传统模型例如XGB、lightGBM以及一些常见机器学习模型等，能够一定程度上解决各种数据偏移问题，效果更好，稳定性更强。

4)、整体模型框架即IV结合BN的特征提取方法，并根据该特征群训练Catboost模型，二者结合有利于实现对妊娠期糖尿病的精准预测，能很好地应用于实际医疗环境，找出妊娠期糖尿病高危人群，为患者赢得宝贵的干预时间，进行提早干预，改变母胎结局。

附图说明

图1为本发明所述一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法流程示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

参照图1,一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，包括如下方法步骤：

S1、获取并整合病患体检数据及基因检测信息，建立妊娠期糖尿病的病历数据库。

S2、对病历数据库中的数据进行预处理，包括分割训练-测试集、筛选病历、空缺值填充；具体包括：

S3、结合Information Value(IV信息量)、Bayesian Network(BN贝叶斯网络)提取特征，构建与妊娠期糖尿病遗传风险相关的特征群；具体包括：

其中，py_i为该特征第i个取值中的患病者占所有取值中所有患病者的比例，pn_i为该特征第i个取值中的非患病者占所有取值中非患病者的比例，y_i为该特征第i个取值中的患病者的数量，y_T为该特征所有取值中患病者的数量，n_i为该特征第i个取值中的未患病者的数量，n_T为该特征所有取值中非患病者的数量，阈值定为0.02，即选取各取值的总IV值大于0.02的特征；

p(X)＝Π_ip_i(X_i|Par_G(X_i))

其中，Pa_G(X_i)为节点X_i的父节点，其取值共有q_i个组合；p_i(X_i|Par_G(X_i))为节点条件概率表；

其中，D为样本数据集；

S4、基于CatBoost模型对特征筛选后的病历数据进行建模、诊断；具体包括：

S5、采用Grid Search寻找得分最佳的参数值，使用训练集进行交叉验证；具体包括：

对默认参数中的l2_leaf_reg、depth、learning_raate、iterations指定部分参数，并进行网格搜索；

最终参数的选择为：iterations＝1000、depth＝6、leaarning-rate＝0.03、l2_leaf_reg＝1，采用该组参数在训练集上的预测AUC＝0.7601、ACC＝0.76、F1＝0.7551。

通过采用上述技术方案，使用信息量筛选结合贝叶斯网络的联合特征筛选的方法以降低数据噪声、提高诊断准确率及减少计算量，同时选用的Catboost算法能够有效处理各种数据偏移问题；通过对临床医疗大数据进行分析，结合生理指标与个体基因特征，实现了对妊娠期糖尿病的精准预测，能很好地应用于实际医疗环境，找出妊娠期糖尿病高危人群，进行提早干预，改变母胎结局。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，其特征在于，包括如下方法步骤：

S3、结合Information Value、Bayesian Network提取特征，构建与妊娠期糖尿病遗传风险相关的特征群；

2.根据权利要求1所述的一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，其特征在于，所述步骤S2中对病历数据库中的数据进行预处理步骤具体包括：

3.根据权利要求1所述的一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，其特征在于，所述步骤S3中的提取特征步骤具体包括：

p(X)＝Π_ip_i(X_i|Par_G(X_i))

其中，D为样本数据集；

4.根据权利要求1所述的一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，其特征在于，所述步骤S4中基于CatBoost模型对特征筛选后的病历数据进行建模、诊断的步骤具体包括：

5.根据权利要求1所述的一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法，其特征在于，所述步骤S5中采用Grid Search寻找得分最佳的参数值，使用训练集进行交叉验证的步骤具体包括：

对默认参数中的l2_leaf_reg、depth、learning_rate、iterations指定部分参数，并进行网格搜索；

最终参数的选择为：iterations＝1000、depth＝6、learning_rate＝0.03、l2_leaf_reg＝1，采用该组参数在训练集上的预测AUC＝0.7601、ACC＝0.76、F1＝0.7551。