CN110246577A - 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 - Google Patents
一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 Download PDFInfo
- Publication number
- CN110246577A CN110246577A CN201910469066.8A CN201910469066A CN110246577A CN 110246577 A CN110246577 A CN 110246577A CN 201910469066 A CN201910469066 A CN 201910469066A CN 110246577 A CN110246577 A CN 110246577A
- Authority
- CN
- China
- Prior art keywords
- value
- feature
- data
- gestational diabetes
- artificial intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000004104 gestational diabetes Diseases 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002068 genetic effect Effects 0.000 title claims abstract description 25
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 19
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000002790 cross-validation Methods 0.000 claims abstract description 8
- 208000011580 syndromic disease Diseases 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 201000010099 disease Diseases 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000002203 pretreatment Methods 0.000 claims description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 230000035935 pregnancy Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 206010018473 Glycosuria Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 102000004877 Insulin Human genes 0.000 description 1
- 108090001061 Insulin Proteins 0.000 description 1
- 206010025394 Macrosomia Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 208000006399 Premature Obstetric Labor Diseases 0.000 description 1
- 206010036600 Premature labour Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012631 diagnostic technique Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 229940125396 insulin Drugs 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 201000007532 polyhydramnios Diseases 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 208000026440 premature labor Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Child & Adolescent Psychology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,包括如下方法步骤:获取并整合病患体检数据及基因检测信息,建立妊娠期糖尿病的病历数据库;对病历数据库中的数据进行预处理,包括分割训练‑测试集、筛选病历、空缺值填充;结合Information Value、Bayesian Network提取特征,构建与妊娠期糖尿病遗传风险相关的特征群;基于CatBoost模型对特征筛选后的病历数据进行建模、诊断;采用Grid Search寻找得分最佳的参数值,使用训练集进行交叉验证;本发明一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,结合基因数据和体检数据,能很好地应用于实际医疗环境,找出妊娠期糖尿病高危人群,为患者赢得宝贵的干预时间,进行提早干预,改变母胎结局。
Description
技术领域
本发明涉及妊娠期糖尿病预测技术领域,特别涉及一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法。
背景技术
妊娠期糖尿病是妊娠过程中的主要疾病之一,它是一种暂时性的糖尿病,即在怀孕期间,身体不能产生足够的胰岛素来调节血糖。如果不治疗妊娠期糖尿病,它将严重危害母亲和孩子的身体健康,具体表现为孕妇妊娠期高血压、胎停育、羊水过多等风险的增加,胎儿早产、巨大儿等的发生率明显升高。
目前,传统妊娠期糖尿病的诊断是基于风险因素的调查问卷,预测准确率低,漏诊率高达30-40%。另一些筛查方法也大多是基于高危因素进行判别,或者结合临床检查数据,如相关生理指标等进行机器学习判别,预测结果并不理想。因此需要一种先进的对于妊娠糖尿病的精准诊断技术。
现有的相近专利公开号为CN109524118A的一种基于机器学习和体检数据的妊娠期糖尿病筛查方法,该方法提出基于LightGBM算法和体检数据的妊娠期糖尿病筛查方法,虽然其也结合了个体基因数据,然而其未对基因数据进行处理、筛选,有很大概率会使得数据保留大量噪声、造成模型过拟合,引起诊断准确率下降等问题;此外,对于处理极大可能出险各种数据偏移的预测问题,Catboost算法明显优于LightGBM。
为此,本发明提出一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,通过对临床医疗大数据进行分析,结合生理指标与个体基因特征,实现了对妊娠期糖尿病的精准预测,能够为患者赢得宝贵的干预时间,避免重大危害的产生;同时,使用信息量筛选结合贝叶斯网络的联合特征筛选的方法以降低数据噪声、提高诊断准确率及减少计算量,同时选用的Catboost算法能够有效处理各种数据偏移问题。
发明内容
本发明的主要目的在于提供一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,可以有效解决背景技术中的问题。
为实现上述目的,本发明提供如下技术方案:一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,包括如下方法步骤:
S1、获取并整合病患体检数据及基因检测信息,建立妊娠期糖尿病的病历数据库;
S2、对病历数据库中的数据进行预处理,包括分割训练-测试集、筛选病历、空缺值填充;
S3、结合Information Value(IV信息量)、Bayesian Network(BN贝叶斯网络)提取特征,构建与妊娠期糖尿病遗传风险相关的特征群;
S4、基于CatBoost模型对特征筛选后的病历数据进行建模、诊断;
S5、采用Grid Search寻找得分最佳的参数值,使用训练集进行交叉验证。
优选的,所述步骤S2中对病历数据库中的数据进行预处理步骤具体包括:
S21、选取部分病历数据作为后续模型检验的测试集,并去除妊娠期糖尿病患病情况;
S22、筛选病历:删去体检及基因信息空缺值超过20%的病历数据;
S23、离散型空缺值填充:对于缺失的离散型数据使用众数进行填充;
S24、连续型空缺值填充:对于缺失的连续型数据使用中位数进行填充。
优选的,所述步骤S3中的提取特征步骤具体包括:
S31、IV提取特征:对体检数据中的连续型变量离散化,计算各个离散特征的IV值,筛选出满足IV值阈值的特征,其中IV值的计算公式如下:
其中,pyi为该特征第i个取值中的患病者占所有取值中所有患病者的比例,pni为该特征第i个取值中的非患病者占所有取值中非患病者的比例,yi为该特征第i个取值中的患病者的数量,yT为该特征所有取值中患病者的数量,ni为该特征第i个取值中的未患病者的数量,nT为该特征所有取值中非患病者的数量,阈值定为0.02,即选取各取值的总IV值大于0.02的特征;
S32、BN提取特征:挑选与患病情况直接或间接相关的基因信息,对BM进行结构学习,选用爬山算法对其结构分数进行优化,得到最优结构,并筛选出相关基因:
其中,若G为定义在{X1,X2,...,XN}上的一个贝叶斯网络,其中节点Xi共有ri个取值,其联合概率分布可以表示为各个节点的条件概率分布的乘积:
p(X)=Πipi(Xi|ParG(Xi))
其中,ParG(Xi)为节点Xi的父节点,其取值共有qi个组合;pi(Xi|ParG(Xi))为节点条件概率表;
结构函数是衡量给定Bayesian Model与数据集的匹配程度的指标,选取贝叶斯信息量(BIC),其计算公式为
其中,D为样本数据集;
S33、由于爬山算法得到的特征可能陷入局部最优解,因此结合IV与BN提取到的特征,均作为筛选结果,两者提取到的特征取并集组成特征群。
优选的,所述步骤S4中基于CatBoost模型对特征筛选后的病历数据进行建模、诊断的步骤具体包括:
S41、对步骤S3中筛选得到的特征群中的离散型变量进行one-hot编码,即使用N位状态寄存器来对N个状态进行编码,每个状态均有其独立的寄存器位,并且在任意情况仅有1位寄存器位有效;
S42、使用病历数据库中的训练集对CatBoost模型进行训练,该模型能够在数据稀疏的情况下进行机器学习,并且解决了GBDT中的各种数据偏移问题;CatBoost模型在标准的Greedy TBS上添加先验分布项,即
其中,P是添加的先验项,a通常是大于0的权重系数,减少了噪声和低频率数据对数据分布的影响。
优选的,所述步骤S5中采用Grid Search寻找得分最佳的参数值,使用训练集进行交叉验证的步骤具体包括:
对默认参数中的l2_lea f_reg、dpth、learning_rate、iterations指定部分参数,并进行网格搜索;
在每组指定参数下,在训练集上进行5折交叉验证,即将训练集分为不交叉的5等分数据,每次训练其中4份数据,并将另一份用以预测,并返回每次验证的F1,其计算公式为:
其中,P为准确率,即预测正确的患病样本数占总预测患病样本数的比例;R为召回率,即预测正确的患病样本数占总患病样本数的比例;
最终参数的选择为:iterations=1000、depth=6、leaarning_rate=0.03、l2_leaf_reg=1,采用该组参数在训练集上的预测AUC=0.7601、ACC=0.76、F1=0.7551。
与现有技术相比,本发明具有如下有益效果:
1)、该种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,专门针对妊娠期糖尿病遗传风险进行预测,结合基因数据和体检数据,比起传统的仅依赖体检数据进行识别的方法更为精准、可信。
2)、采用IV结合BN的方法进行特征提取,能够降低数据噪声,提高模型稳定性,并且减少计算量;具体而言,IV是通过信息量筛选,BN是通过基于爬山算法的贝叶斯网络结构学习筛选,最后两者提取到的特征取并集;通过爬山算法优化进行结构学习,避免了搜索空间过大,但可能陷入局部最优,因此需要结合IV一起进行筛选(取并集),避免漏掉有用的信息。
3)、引入基于GridSearch参数优化的Catboost用作遗传风险预测,相比于传统模型例如XGB、lightGBM以及一些常见机器学习模型等,能够一定程度上解决各种数据偏移问题,效果更好,稳定性更强。
4)、整体模型框架即IV结合BN的特征提取方法,并根据该特征群训练Catboost模型,二者结合有利于实现对妊娠期糖尿病的精准预测,能很好地应用于实际医疗环境,找出妊娠期糖尿病高危人群,为患者赢得宝贵的干预时间,进行提早干预,改变母胎结局。
附图说明
图1为本发明所述一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法流程示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
参照图1,一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,包括如下方法步骤:
S1、获取并整合病患体检数据及基因检测信息,建立妊娠期糖尿病的病历数据库。
S2、对病历数据库中的数据进行预处理,包括分割训练-测试集、筛选病历、空缺值填充;具体包括:
S21、选取部分病历数据作为后续模型检验的测试集,并去除妊娠期糖尿病患病情况;
S22、筛选病历:删去体检及基因信息空缺值超过20%的病历数据;
S23、离散型空缺值填充:对于缺失的离散型数据使用众数进行填充;
S24、连续型空缺值填充:对于缺失的连续型数据使用中位数进行填充。
S3、结合Information Value(IV信息量)、Bayesian Network(BN贝叶斯网络)提取特征,构建与妊娠期糖尿病遗传风险相关的特征群;具体包括:
S31、IV提取特征:对体检数据中的连续型变量离散化,计算各个离散特征的IV值,筛选出满足IV值阈值的特征,其中IV值的计算公式如下:
其中,pyi为该特征第i个取值中的患病者占所有取值中所有患病者的比例,pni为该特征第i个取值中的非患病者占所有取值中非患病者的比例,yi为该特征第i个取值中的患病者的数量,yT为该特征所有取值中患病者的数量,ni为该特征第i个取值中的未患病者的数量,nT为该特征所有取值中非患病者的数量,阈值定为0.02,即选取各取值的总IV值大于0.02的特征;
S32、BN提取特征:挑选与患病情况直接或间接相关的基因信息,对BM进行结构学习,选用爬山算法对其结构分数进行优化,得到最优结构,并筛选出相关基因:
其中,若G为定义在{X1,X2,...,XN}上的一个贝叶斯网络,其中节点Xi共有ri个取值,其联合概率分布可以表示为各个节点的条件概率分布的乘积:
p(X)=Πipi(Xi|ParG(Xi))
其中,PaG(Xi)为节点Xi的父节点,其取值共有qi个组合;pi(Xi|ParG(Xi))为节点条件概率表;
结构函数是衡量给定Bayesian Model与数据集的匹配程度的指标,选取贝叶斯信息量(BIC),其计算公式为
其中,D为样本数据集;
S33、由于爬山算法得到的特征可能陷入局部最优解,因此结合IV与BN提取到的特征,均作为筛选结果,两者提取到的特征取并集组成特征群。
S4、基于CatBoost模型对特征筛选后的病历数据进行建模、诊断;具体包括:
S41、对步骤S3中筛选得到的特征群中的离散型变量进行one-hot编码,即使用N位状态寄存器来对N个状态进行编码,每个状态均有其独立的寄存器位,并且在任意情况仅有1位寄存器位有效;
S42、使用病历数据库中的训练集对CatBoost模型进行训练,该模型能够在数据稀疏的情况下进行机器学习,并且解决了GBDT中的各种数据偏移问题;CatBoost模型在标准的Greedy TBS上添加先验分布项,即
其中,P是添加的先验项,a通常是大于0的权重系数,减少了噪声和低频率数据对数据分布的影响。
S5、采用Grid Search寻找得分最佳的参数值,使用训练集进行交叉验证;具体包括:
对默认参数中的l2_leaf_reg、depth、learning_raate、iterations指定部分参数,并进行网格搜索;
在每组指定参数下,在训练集上进行5折交叉验证,即将训练集分为不交叉的5等分数据,每次训练其中4份数据,并将另一份用以预测,并返回每次验证的F1,其计算公式为:
其中,P为准确率,即预测正确的患病样本数占总预测患病样本数的比例;R为召回率,即预测正确的患病样本数占总患病样本数的比例;
最终参数的选择为:iterations=1000、depth=6、leaarning-rate=0.03、l2_leaf_reg=1,采用该组参数在训练集上的预测AUC=0.7601、ACC=0.76、F1=0.7551。
通过采用上述技术方案,使用信息量筛选结合贝叶斯网络的联合特征筛选的方法以降低数据噪声、提高诊断准确率及减少计算量,同时选用的Catboost算法能够有效处理各种数据偏移问题;通过对临床医疗大数据进行分析,结合生理指标与个体基因特征,实现了对妊娠期糖尿病的精准预测,能很好地应用于实际医疗环境,找出妊娠期糖尿病高危人群,进行提早干预,改变母胎结局。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,其特征在于,包括如下方法步骤:
S1、获取并整合病患体检数据及基因检测信息,建立妊娠期糖尿病的病历数据库;
S2、对病历数据库中的数据进行预处理,包括分割训练-测试集、筛选病历、空缺值填充;
S3、结合Information Value、Bayesian Network提取特征,构建与妊娠期糖尿病遗传风险相关的特征群;
S4、基于CatBoost模型对特征筛选后的病历数据进行建模、诊断;
S5、采用Grid Search寻找得分最佳的参数值,使用训练集进行交叉验证。
2.根据权利要求1所述的一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,其特征在于,所述步骤S2中对病历数据库中的数据进行预处理步骤具体包括:
S21、选取部分病历数据作为后续模型检验的测试集,并去除妊娠期糖尿病患病情况;
S22、筛选病历:删去体检及基因信息空缺值超过20%的病历数据;
S23、离散型空缺值填充:对于缺失的离散型数据使用众数进行填充;
S24、连续型空缺值填充:对于缺失的连续型数据使用中位数进行填充。
3.根据权利要求1所述的一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,其特征在于,所述步骤S3中的提取特征步骤具体包括:
S31、IV提取特征:对体检数据中的连续型变量离散化,计算各个离散特征的IV值,筛选出满足IV值阈值的特征,其中IV值的计算公式如下:
其中,pyi为该特征第i个取值中的患病者占所有取值中所有患病者的比例,pni为该特征第i个取值中的非患病者占所有取值中非患病者的比例,yi为该特征第i个取值中的患病者的数量,yT为该特征所有取值中患病者的数量,ni为该特征第i个取值中的未患病者的数量,nT为该特征所有取值中非患病者的数量,阈值定为0.02,即选取各取值的总IV值大于0.02的特征;
S32、BN提取特征:挑选与患病情况直接或间接相关的基因信息,对BM进行结构学习,选用爬山算法对其结构分数进行优化,得到最优结构,并筛选出相关基因:
其中,若G为定义在{X1,X2,...,XN}上的一个贝叶斯网络,其中节点Xi共有ri个取值,其联合概率分布可以表示为各个节点的条件概率分布的乘积:
p(X)=Πipi(Xi|ParG(Xi))
其中,ParG(Xi)为节点Xi的父节点,其取值共有qi个组合;pi(Xi|ParG(Xi))为节点条件概率表;
结构函数是衡量给定Bayesian Model与数据集的匹配程度的指标,选取贝叶斯信息量(BIC),其计算公式为
其中,D为样本数据集;
S33、由于爬山算法得到的特征可能陷入局部最优解,因此结合IV与BN提取到的特征,均作为筛选结果,两者提取到的特征取并集组成特征群。
4.根据权利要求1所述的一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,其特征在于,所述步骤S4中基于CatBoost模型对特征筛选后的病历数据进行建模、诊断的步骤具体包括:
S41、对步骤S3中筛选得到的特征群中的离散型变量进行one-hot编码,即使用N位状态寄存器来对N个状态进行编码,每个状态均有其独立的寄存器位,并且在任意情况仅有1位寄存器位有效;
S42、使用病历数据库中的训练集对CatBoost模型进行训练,该模型能够在数据稀疏的情况下进行机器学习,并且解决了GBDT中的各种数据偏移问题;CatBoost模型在标准的Greedy TBS上添加先验分布项,即
其中,P是添加的先验项,a通常是大于0的权重系数,减少了噪声和低频率数据对数据分布的影响。
5.根据权利要求1所述的一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法,其特征在于,所述步骤S5中采用Grid Search寻找得分最佳的参数值,使用训练集进行交叉验证的步骤具体包括:
对默认参数中的l2_leaf_reg、depth、learning_rate、iterations指定部分参数,并进行网格搜索;
在每组指定参数下,在训练集上进行5折交叉验证,即将训练集分为不交叉的5等分数据,每次训练其中4份数据,并将另一份用以预测,并返回每次验证的F1,其计算公式为:
其中,P为准确率,即预测正确的患病样本数占总预测患病样本数的比例;R为召回率,即预测正确的患病样本数占总患病样本数的比例;
最终参数的选择为:iterations=1000、depth=6、learning_rate=0.03、l2_leaf_reg=1,采用该组参数在训练集上的预测AUC=0.7601、ACC=0.76、F1=0.7551。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910469066.8A CN110246577B (zh) | 2019-05-31 | 2019-05-31 | 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910469066.8A CN110246577B (zh) | 2019-05-31 | 2019-05-31 | 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110246577A true CN110246577A (zh) | 2019-09-17 |
CN110246577B CN110246577B (zh) | 2021-04-30 |
Family
ID=67885688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910469066.8A Active CN110246577B (zh) | 2019-05-31 | 2019-05-31 | 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110246577B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127426A (zh) * | 2019-12-23 | 2020-05-08 | 山东大学齐鲁医院 | 一种基于深度学习的胃黏膜清洁度评价方法及系统 |
CN111180009A (zh) * | 2020-01-03 | 2020-05-19 | 山东大学 | 一种基于基因组分析的癌症分期预测系统 |
CN111508603A (zh) * | 2019-11-26 | 2020-08-07 | 中国科学院苏州生物医学工程技术研究所 | 一种基于机器学习的出生缺陷预测及风险评估方法、系统及电子设备 |
CN111524599A (zh) * | 2020-04-24 | 2020-08-11 | 中国地质大学(武汉) | 一种基于机器学习的新冠肺炎数据处理方法及预测系统 |
CN111603161A (zh) * | 2020-05-28 | 2020-09-01 | 苏州小蓝医疗科技有限公司 | 一种脑电分类方法 |
CN113178261A (zh) * | 2021-06-04 | 2021-07-27 | 福州大学 | 基于机器学习的糖尿病预测模型构建方法及系统 |
CN113537576A (zh) * | 2021-06-25 | 2021-10-22 | 合肥工业大学 | 用于预测上市企业财务困境的方法及系统 |
CN115148330A (zh) * | 2022-05-24 | 2022-10-04 | 中国医学科学院北京协和医院 | Pop治疗方案形成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
CN109273094A (zh) * | 2018-09-14 | 2019-01-25 | 苏州贝斯派生物科技有限公司 | 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统 |
CN109448855A (zh) * | 2018-09-17 | 2019-03-08 | 大连大学 | 一种基于cnn和模型融合的糖尿病血糖预测方法 |
-
2019
- 2019-05-31 CN CN201910469066.8A patent/CN110246577B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
CN109273094A (zh) * | 2018-09-14 | 2019-01-25 | 苏州贝斯派生物科技有限公司 | 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统 |
CN109448855A (zh) * | 2018-09-17 | 2019-03-08 | 大连大学 | 一种基于cnn和模型融合的糖尿病血糖预测方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508603A (zh) * | 2019-11-26 | 2020-08-07 | 中国科学院苏州生物医学工程技术研究所 | 一种基于机器学习的出生缺陷预测及风险评估方法、系统及电子设备 |
CN111127426A (zh) * | 2019-12-23 | 2020-05-08 | 山东大学齐鲁医院 | 一种基于深度学习的胃黏膜清洁度评价方法及系统 |
CN111127426B (zh) * | 2019-12-23 | 2020-12-01 | 山东大学齐鲁医院 | 一种基于深度学习的胃黏膜清洁度评价方法及系统 |
CN111180009A (zh) * | 2020-01-03 | 2020-05-19 | 山东大学 | 一种基于基因组分析的癌症分期预测系统 |
CN111180009B (zh) * | 2020-01-03 | 2023-04-28 | 山东大学 | 一种基于基因组分析的癌症分期预测系统 |
CN111524599A (zh) * | 2020-04-24 | 2020-08-11 | 中国地质大学(武汉) | 一种基于机器学习的新冠肺炎数据处理方法及预测系统 |
CN111603161A (zh) * | 2020-05-28 | 2020-09-01 | 苏州小蓝医疗科技有限公司 | 一种脑电分类方法 |
CN113178261A (zh) * | 2021-06-04 | 2021-07-27 | 福州大学 | 基于机器学习的糖尿病预测模型构建方法及系统 |
CN113537576A (zh) * | 2021-06-25 | 2021-10-22 | 合肥工业大学 | 用于预测上市企业财务困境的方法及系统 |
CN115148330A (zh) * | 2022-05-24 | 2022-10-04 | 中国医学科学院北京协和医院 | Pop治疗方案形成方法及系统 |
CN115148330B (zh) * | 2022-05-24 | 2023-07-25 | 中国医学科学院北京协和医院 | Pop治疗方案形成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110246577B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110246577A (zh) | 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 | |
CN105701342B (zh) | 基于代理的直觉模糊理论医疗诊断模型的构建方法及装置 | |
CN107247887A (zh) | 基于人工智能帮助肺癌筛查的方法及系统 | |
JP2018529134A (ja) | ディープラーニングに基づく医療データ分析方法及びそのインテリジェントアナライザー | |
CN106264499A (zh) | 一种量化心肺系统交互作用的分析方法 | |
CN107563968A (zh) | 一种基于判别字典学习的联合医学图像融合去噪的方法 | |
CN114023441A (zh) | 基于可解释机器学习模型的严重aki早期风险评估模型、装置及其开发方法 | |
CN115049069A (zh) | 一种可视化交互式的脓毒症早期智能预警方法 | |
CN116386860A (zh) | 基于多模态的糖尿病及其并发症智能辅助预测与诊断平台 | |
CN115831364B (zh) | 基于多模态特征融合的2型糖尿病风险分层预测方法 | |
CN106485061A (zh) | 一种生活风险评估及改善系统的建立方法 | |
CN105868532B (zh) | 一种智能评估心脏衰老程度的方法及系统 | |
CN108717693A (zh) | 一种基于rpn的视盘定位方法 | |
CN103310109A (zh) | 一种患者随访提醒周期自适应调整方法 | |
CN110558960A (zh) | 一种基于ptt和miv-ga-svr的连续血压无创监测方法 | |
CN113243887B (zh) | 一种老年黄斑变性智能诊疗仪 | |
CN114898873A (zh) | 一种糖尿病前期患者心血管疾病风险的预测方法及系统 | |
CN109360658A (zh) | 一种基于词向量模型的疾病模式挖掘方法及装置 | |
CN111883258B (zh) | 一种构建ohss分度分型预测模型的方法 | |
Zhang et al. | A hybrid model for blood pressure prediction from a PPG signal based on MIV and GA-BP neural network | |
CN117116477A (zh) | 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 | |
CN110767316A (zh) | 一种创伤输血预测模型建立方法、确定输血量的方法及系统 | |
CN114974585A (zh) | 一种妊娠期代谢综合征早期风险预测评估模型构建方法 | |
CN110211695A (zh) | 一种肺纤维化严重度评估方法 | |
CN115547502B (zh) | 基于时序数据的血透病人风险预测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221207 Address after: 518000 1405, Building 1, Longguang Century Building, No.23 Haixiu Road, Binhai Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong Patentee after: Shenzhen Jiangxing Smart Energy Technology Co.,Ltd. Address before: 518110 707, floor 7, No. 3, Minglang Road, Xinshi community, Dalang street, Longhua District, Shenzhen, Guangdong Patentee before: Shenzhen Jianghang Lianjia Intelligent Technology Co.,Ltd. |