CN113393896A - 一种基于深度神经网络的i型糖尿病风险评估系统 - Google Patents
一种基于深度神经网络的i型糖尿病风险评估系统 Download PDFInfo
- Publication number
- CN113393896A CN113393896A CN202110654175.4A CN202110654175A CN113393896A CN 113393896 A CN113393896 A CN 113393896A CN 202110654175 A CN202110654175 A CN 202110654175A CN 113393896 A CN113393896 A CN 113393896A
- Authority
- CN
- China
- Prior art keywords
- model
- module
- neural network
- data
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 238000012502 risk assessment Methods 0.000 title claims abstract description 19
- 206010012601 diabetes mellitus Diseases 0.000 title claims description 15
- 238000012549 training Methods 0.000 claims abstract description 63
- 206010067584 Type 1 diabetes mellitus Diseases 0.000 claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000007689 inspection Methods 0.000 claims abstract description 26
- 238000003908 quality control method Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 239000000523 sample Substances 0.000 claims description 49
- 201000010099 disease Diseases 0.000 claims description 27
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 21
- 238000012217 deletion Methods 0.000 claims description 13
- 230000037430 deletion Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 12
- 230000035772 mutation Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 239000013068 control sample Substances 0.000 claims description 10
- 108700028369 Alleles Proteins 0.000 claims description 9
- 102000054766 genetic haplotypes Human genes 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 claims description 6
- 210000000349 chromosome Anatomy 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 claims description 3
- 238000013102 re-test Methods 0.000 claims 1
- 230000002068 genetic effect Effects 0.000 abstract description 13
- 238000002474 experimental method Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 11
- 230000004913 activation Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 239000012636 effector Substances 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 208000029462 Immunodeficiency disease Diseases 0.000 description 1
- 210000000227 basophil cell of anterior lobe of hypophysis Anatomy 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Physiology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于指纹比对技术领域,涉及一种基于深度神经网络的I型糖尿病风险评估系统,包括:数据输入模块、位点获取模块、位点筛选模块、模型训练模块和模型检验模块;数据输入模块,用于输入或采集样本数据;位点获取模块,用于获取样本数据的全基因组位点的基因型信息;位点筛选模块,用于对基因型信息进行GWAS统计,对GWAS统计结果进行质量控制,并根据质量控制后的分析结果对位点进行筛选;模型训练模块,用于根据筛选后的位点对神经网络模型进行训练,以获得最优模型;模型检验模块,用于对最优模型进行检验。其在不增加任何实验成本的情况下,尽早地、大规模地实现高遗传风险患者的筛查,成本低、准确性高、操作简单方便。
Description
技术领域
本发明涉及一种基于深度神经网络的I型糖尿病风险评估系统,属于生物检测技术领域,特别涉及疾病风险评估技术领域。
背景技术
I型糖尿病是一种自身免疫性疾病,其本质是因免疫系统特异性地攻击并摧毁自身胰岛β细胞,导致患者丧失胰岛功能,最终发展为I型糖尿病病人,I型糖尿病的常见风险因素有:家族史、遗传因素、年龄等。相比较于II型糖尿病患者,I型糖尿病发病年龄更小,受遗传因素影响更大,因此通过检测遗传基因尽早判别个体I型糖尿病的风险是意义重大的。
随着全基因组关联分析(GWAS)的发展和深入,越来越多复杂疾病/性状的遗传结构得到解析,也系统性地建立起了单核苷酸多态(SNP)与这些复杂性状之间的关联,疾病的遗传度也进一步得到解释。全基因组基因检测技术的同步发展和检测价格持续下降,也为大规模的人群筛查提供了便利条件。在研究日益精细且数据量逐渐增大的趋势下如何能够基于遗传信息进行疾病风险分级,人工智能技术的兴起为这种需求的落地提供了可能。
人工智能主要通过输入高质量的标注后的数据,经过AI系统多层次的训练,最终输出分类结果,用于新场景的预测。目前,最为常用的人工智能技术包括深度学习技术(deep learning),其核心算法为卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)。但现有技术中将AI系统用于疾病风险预测的方法中,往往存在样品量小,以致预测结果与实际结果存在较大差异,且传统的疾病预测方法需要患者已经表现出一定的疾病迹象时,才能够对其疾病风险进行预测,导致疾病发现较晚,错过最佳防治时期;此外,还有一些疾病预测方法需要人工对学习的特征进行选定,这就导致学习结果高度依赖于特征选取水平,而且不同的特征选取方法可能会导致不同的结果。
发明内容
针对上述问题,本发明的目的是提供了基于深度神经网络的I型糖尿病风险评估系统,旨在不增加任何实验成本的情况下,尽早地、大规模地实现高遗传风险患者的筛查,成本低、准确性高、操作简单方便。
为实现上述目的,本发明采取以下技术方案:一种基于深度神经网络的I型糖尿病风险评估系统,包括:数据输入模块、位点获取模块、位点筛选模块、模型训练模块和模型检验模块;数据输入模块,用于输入或采集样本数据;位点获取模块,用于获取样本数据的全基因组位点的基因型信息;位点筛选模块,用于对基因型信息进行GWAS统计,对GWAS统计结果进行质量控制,并根据质量控制后的分析结果对位点进行筛选;模型训练模块,用于根据筛选后的位点对神经网络模型进行训练,以获得最优模型;模型检验模块,用于对最优模型进行检验。
进一步,数据输入模块的样本数据包括患有糖尿病的样本数据和对照样本数据,将样本数据拆分为训练集和检验集,训练集和检验集中均包括患有糖尿病的样本数据和对照样本数据,且训练集和检验集不存在样本数据重叠。
进一步,位点获取模块中采用芯片检测技术获取全基因组位点的基因型信息,芯片检测技术中通过多个芯片平台进行基因型信息的检测。
进一步,位点筛选模块中GWAS统计结果至少包括以下内容:染色体号、物理位置、突变位点ID、参考等位、效应等位、效应等位基因频率、对疾病的效应值、效应值标准差、与疾病关联的显著性P值、样本量大小和种族信息。
进一步,位点筛选模块中筛选位点的方法包括判断训练集和检验集中样品缺失位点的周围非缺失位点的单倍型的基因型,然后根据单倍型的基因型对样品缺失位点进行填充,对训练集和检验集中填充后的样品的基因型数据分别进行质量控制。
进一步,质量控制包括去除重复的位点,去除不明确位点,保留最小等位频率MAF大于0.01且填充INFO值大于0.5的位点;不明确位点是指参考碱基和变异碱基同时为嘌呤或者嘧啶。
进一步,模型训练模块包括数据转换子模块、模型建立子模块、面积计算子模块和模型输出子模块;数据转换子模块,用于对基因型信息进行数据转换和标准化,并对表型性状进行重新编码;模型建立子模块,用于以对疾病具有效能的突变位点作物自变量,以疾病性表型性状作为因变量构建多因素逻辑回归模型;面积计算子模块,用于获得多因素逻辑回归模型的ROC曲线,并计算ROC曲线下面积;输出模块,用于输出AUC曲线下面积最大时对应的多因素逻辑回归模型。
进一步,模型建立子模块中按照不同的P值筛选出候选的突变位点,并将其作为深度神经网络模型的输入层。
进一步,ROC曲线下面积通过五倍交叉检验获得,五倍交叉检验将训练集中的患有糖尿病的样本数据和对照样本数据随机分为若干份,将若干份的数据按照预设比例分为训练子集和检验子集,以训练子集对模型进行训练,以检验子集中的数据对模型进行检验,将若干份数据输入经过检验的模型,进行再次检验,获得ROC曲线,计算ROC曲线下面积,重复五倍交叉检验预设次数,将每次获得的ROC曲线下面积取平均值,平均值为最终的ROC曲线下面积。
进一步,模型训练模块将训练集中数据输入最优模型,以获得输出结果的ROC曲线,若ROC曲线下面积大于阈值则最优模型为最终选用的模型,否则重新对模型进行训练。
本发明由于采取以上技术方案,其具有以下优点:本发明在不增加任何实验成本的情况下,尽早地、大规模地实现高遗传风险患者的筛查,具有成本低,无需进行任何额外的实验;准确性高:综合考虑了多项全基因组关联分析GWAS的结果,得到与I型糖尿病更全的遗传突变信息;另外全基因组位点检测也经过了严格的质控和数据填充,提供了更多的个体遗传信息;最后,结合深度神经网络的框架模型提供了更准确地遗传风险等级分类和预测;操作方便,有详细的帮助文档和操作手册,操作快速、简单、方便、易上手。
附图说明
图1本发明一实施例中基于深度学习的指纹比对系统的示意图。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方向,通过具体实施例对本发明进行详细的描绘。然而应当理解,具体实施方式的提供仅为了更好地理解本发明,它们不应该理解成对本发明的限制。在本发明的描述中,需要理解的是,所用到的术语仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。
本发明公开了一种基于深度神经网络的I型糖尿病风险评估系统,其将深度神经网络模型与GWAS(全基因组关联分析)结合,通过前期积累的GWAS研究结果来标记大量的人群数据,并将其作为高质量的训练集,后续在独立样本的检验集中进行效能检验,最终实现人工智能在I型糖尿病个体的风险分级。本发明能够应用人工智能结合全基因组芯片检测技术实现尽可能早地进行高遗传风险人群的筛查和分类,做到早诊断早治疗同时也为后续进一步的临床干预提供了有利的参考和指导,进而提升患者生活质量。下面通过实施例,对本发明的方案进行详细说明。
本实施例公开了一种基于深度神经网络的I型糖尿病风险评估系统,包括:数据输入模块、位点获取模块、位点筛选模块、模型训练模块和模型检验模块。
数据输入模块,用于输入或采集样本数据;本模块中样本数据可以是已有的历史数据,也可以是现场采集的样本数据,还可以是从网站上下载的数据,本模块只是用于数据获取,对数据来源不做限制。数据输入模块的样本数据包括患有糖尿病的样本数据和对照样本数据,将样本数据分为训练集和检验集,训练集和检验集中均包括患有糖尿病的样本数据和对照样本数据,在本实施例中训练集和检验集中均包括2620例样本,其中患有糖尿病的样本为1120例,没有患糖尿病的对照样本为1500例,且训练集和检验集不存在样本数据重叠。本实施例中,拆分训练集和检验集时,在等比拆分的基础上,综合考虑样本所有者的年龄、性别、民族等因素,以保证两组样本之间人群结构基本一致,尽可能排除混杂信息对于最终预测结果的影响。
位点获取模块,用于获取样本数据的全基因组位点的基因型信息,基于芯片检测平台获取训练集和检验集样本数据的全基因组位点的基因型信息,对获得的基因型信息进行质量控制和过滤。本模块中采用芯片检测技术获取全基因组位点的基因型信息,芯片检测技术中可以通过一个芯片检测平台或者多个芯片检测平台进行基因型信息检测,可以支持多个芯片检测平台的数据。芯片检测平台可以是SNP芯片,但限于该种芯片。芯片的数据经标准分析流程进行位点基因型的判读和提取。要求样本检出率达到97%以上,且位点指控图满足后续分析要求,若检测样本的位点不达标,可重复检测直至达标或直接删除该样本,也可预设重复检测次数,若达到重复检测次数后仍未达标,则删除该样本。
位点筛选模块,用于对基因型信息进行GWAS统计,对GWAS统计结果进行质量控制,并根据质量控制后的分析结果对位点进行筛选。基于多个公共数据库获得糖尿病的GWAS的统计结果,该统计结果至少包括以下内容:染色体号、物理位置、突变位点ID、参考等位、效应等位、效应等位基因频率、对疾病的效应值、效应值标准差、与疾病关联的显著性P值、样本量大小和种族信息。
位点筛选模块中筛选位点的方法包括:基于千人基因组Phase3,利用SHAPEIT对样本全基因组的全部位点信息进行预定相(--thread 12,其它参数为默认)判断训练集和检验集中样品缺失位点的周围非缺失位点的单倍型的基因型,然后根据单倍型的基因型,采用impute2软件对样品缺失位点进行填充(使用默认参数),保留填充INFO值大于0.5的填充位点;合并填充位点及所述全基因组范围内的位点,为最终的分析位点。对训练集和检验集中填充后的样品的基因型数据分别进行质量控制,其包括去除重复的位点,去除不明确位点,去除样品缺失率大于0.01,去除显著性P值大于0.000001的位点,保留最小等位频率MAF大于0.01且填充INFO值大于0.5的位点;利用Plink v1.9软件去除数据集中亲缘关系大于等于3级的样本;不明确位点是指参考碱基和变异碱基同时为嘌呤(A或T)或者嘧啶(G或C)。
模型训练模块,用于根据筛选后的位点对神经网络模型进行训练,以获得最优模型。基于训练集中经过填充和质量控制后的位点的基因型及相关表型性状信息,结合经过质量控制的GWAS统计结果,对深度神经网络模型进行训练,该模型通过不同的参数层来控制和处理数据流。
模型训练模块包括数据转换子模块、模型建立子模块、面积计算子模块和模型输出子模块。
数据转换子模块,用于对基因型信息进行数据转换和标准化,并对表型性状进行重新编码。对基因型信息进行0/1/2编码,0编码代表0个效应等位,1编码代表1个效应等位,2编码代表2个效应等位。对表型性状进行0/1编码,其中0编码对应对照样品,1编码对应患有糖尿病的样本。本实施例中表型性状指的是疾病性状,按患病有无区分的,健康状态为0,疾病状态为1。
模型建立子模块,用于以对疾病具有效能的突变位点作物自变量,其中,按照不同的P值筛选出候选的突变位点,P值可设置0.00000001、0.0000001、0.000001、0.00001、0.0001、0.001、0.01、0.1,并将其作为深度神经网络模型的输入层以疾病性表型性状作为因变量构建多因素逻辑回归模型。深度神经网络模型采用Keras来实现,利用GridSearchCV筛选隐藏层最优的激活函数,双曲正切函数tanh取得最佳的拟合效果且最终应用于所有隐藏层(隐藏层包含卷积层、池化层、连接层、全连接层),卷积核的大小设置为3*3*1,步长定义为1,损失函数定义为交叉信息熵(Crossentropy)且评价指标定义为准确性,初始学习率为1e-4,最后的输出层采用sigmoid激活函数,该sigmoid激活函数的输出范围是0到1,本实施例中将模型在0-1范围内的输出值作为样本的患有I型糖尿病的风险预测得分。
面积计算子模块,用于获得多因素逻辑回归模型的ROC曲线,并计算ROC曲线下面积。
ROC曲线下面积通过五倍交叉检验获得,五倍交叉检验将训练集中的患有糖尿病的样本数据和对照样本数据随机分为若干份,将若干份的数据按照预设比例分为训练子集和检验子集,以训练子集对模型进行训练,以检验子集中的数据对模型进行检验,将若干份数据输入经过检验的模型,进行再次检验,获得ROC曲线,计算ROC曲线下面积,重复五倍交叉检验预设次数,将每次获得的ROC曲线下面积取平均值,平均值为最终的ROC曲线下面积。本实施例中将训练集中数据随机分为5份,训练子集和检验子集的样本数量比为4:1。本实施例中的预设次数为100次。上述具体数值可以根据实验需要自行选定,本实施例中给出的只是优选结果,而不是取上述数值。
输出模块,用于输出ROC曲线下面积最大时对应的多因素逻辑回归模型。
模型检验模块,用于对最优模型进行检验。
模型训练模块将训练集中数据输入最优模型,以获得输出结果的ROC曲线,若ROC曲线下面积大于阈值则最优模型为最终选用的模型,否则重新对模型进行训练。本实施例中阈值通常选择大于0.6,此时患有I型糖尿病的样本和对照样本的疾病风险对应分数存在显著差别。
实施例二
基于相同的发明构思,本实施例通过一个具体的实例对本发明的技术方案进行进一步说明。
本实施例中首先从UK BioBank(http://www.nealelab.is/uk-biobank),PGSCATALOG(https://www.pgscatalog.org/),GWAS CATALOG(https://www.ebi.ac.uk/gwas/)数据库下载了患有I型糖尿病的样本和对照样本的GWAS统计结果。其中包括5,388,042个位点,通过ASA芯片实验及生物信息学分析获得2,160例训练集样品,其中,1,500例患有I型糖尿病、560例对照;和2,160例检验集样品,其中,1,500例患有I型糖尿病,560例对照。共计738,180万个位点的基因型数据。
对训练集和检验集样品进行质量控制。进行质量控制后基于千人基因组数据的单倍型组成,判断训练集和检验集样品缺失位点的周围非缺失位点的单倍型的基因型,然后根据单倍型的基因型对该样本的缺失位点进行填充,控制INFO大于0.5,得到共计2,059,857个位点基因型数据。对训练集和检验集样品填充后的基因型数据分别进行质量控制,去除GWAS统计结果中不包含的位点,去除亲缘关系近的样品。
对下载的GWAS统计结果进行质量控制,去除MAF小于0.01的位点,去除填充INFO值小于0.5的位点,去除模糊的SNP位点,只保留训练集和检验集均包含的位点。
以训练集样本中与性状相关位点作为自变量,以样本的表型性状作为因变量进行格式转换和重新编码,按照不同的P值筛选出候选的突变位点作为深度神经网络的输入层。利用GridSearchCV筛选隐藏层最优的激活函数,双曲正切函数tanh取得最佳的拟合效果且最终应用于所有隐藏层(隐藏层包含卷积层、池化层、连接层、全连接层),卷积核的大小设置为3*3*1,步长定义为1,损失函数定义为交叉信息熵(Crossentropy)且评价指标定义为准确性,初始学习率为1e-4,最后的输出层采用sigmoid激活函数,所述sigmoid函数的输出范围是0到1,这里将所述输出层的0-1范围的值作为样品的疾病风险预测得分,100次五倍交叉验证计算训练集模型的AUC值,即ROC曲线下面积。同时计算所有检验集的AUC值。
最终效果最佳的参数组合为的p值为0.0005,该模型共纳入51个SNP位点,这些位点主要集中于6号染色体的HLA基因上,多个证据表明该基因与人体免疫密切相关,而I型糖尿病也可以被认定为免疫缺陷疾病。最终构建得到的深度神经网络模型在训练集拟合后,I型糖尿病的预测结果对应的AUC值为0.6386,在检验集中的AUC值为0.6589,其值均大于阈值0.6,由此可说明本发明中方法能够应用于普通人的I型糖尿病风险计算,为该疾病临床的早发现、早预防提供帮助。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围。
Claims (10)
1.一种基于深度神经网络的I型糖尿病风险评估系统,其特征在于,包括:数据输入模块、位点获取模块、位点筛选模块、模型训练模块和模型检验模块;
所述数据输入模块,用于输入或采集样本数据;
所述位点获取模块,用于获取所述样本数据的全基因组位点的基因型信息;
所述位点筛选模块,用于对所述基因型信息进行GWAS统计,对GWAS统计结果进行质量控制,并根据质量控制后的分析结果对所述位点进行筛选;
所述模型训练模块,用于根据筛选后的位点对神经网络模型进行训练,以获得最优模型;
所述模型检验模块,用于对所述最优模型进行检验。
2.如权利要求1所述的基于深度神经网络的I型糖尿病风险评估系统,其特征在于,所述数据输入模块的样本数据包括患有糖尿病的样本数据和对照样本数据,将所述样本数据分为训练集和检验集,所述训练集和检验集中均包括患有糖尿病的样本数据和对照样本数据,且所述训练集和检验集不存在样本数据重叠。
3.如权利要求1所述的基于深度神经网络的I型糖尿病风险评估系统,其特征在于,所述位点获取模块中采用芯片检测技术获取全基因组位点的基因型信息,所述芯片检测技术中通过多个芯片进行基因型信息检测。
4.如权利要求2所述的基于深度神经网络的I型糖尿病风险评估系统,其特征在于,所述位点筛选模块中GWAS统计结果至少包括以下内容:染色体号、物理位置、突变位点ID、参考等位、效应等位、效应等位基因频率、对疾病的效应值、效应值标准差、与疾病关联的显著性P值、样本量大小和种族信息。
5.如权利要求4所述的基于深度神经网络的I型糖尿病风险评估系统,其特征在于,所述位点筛选模块中筛选位点的方法包括判断所述训练集和检验集中样品缺失位点的周围非缺失位点的单倍型的基因型,然后根据所述单倍型的基因型对所述样品缺失位点进行填充,对所述训练集和检验集中填充后的样品的基因型数据分别进行质量控制。
6.如权利要求5所述的基于深度神经网络的I型糖尿病风险评估系统,其特征在于,所述质量控制包括去除重复的位点,去除不明确位点,保留最小等位频率MAF大于0.01且填充INFO值大于0.5的位点;所述不明确位点是指参考碱基和变异碱基同时为嘌呤或者嘧啶。
7.如权利要求2所述的基于深度神经网络的I型糖尿病风险评估系统,其特征在于,所述模型训练模块包括数据转换子模块、模型建立子模块、面积计算子模块和模型输出子模块;
所述数据转换子模块,用于对所述基因型信息进行数据转换和标准化,并对表型性状进行重新编码;
所述模型建立子模块,用于以对疾病具有效能的突变位点作物自变量,以疾病性表型性状作为因变量构建多因素逻辑回归模型;
所述面积计算子模块,用于获得所述多因素逻辑回归模型的ROC曲线,并计算ROC曲线下面积;
所述输出模块,用于输出所述ROC曲线下面积最大时对应的多因素逻辑回归模型。
8.如权利要求7所述的基于深度神经网络的I型糖尿病风险评估系统,其特征在于,所述模型建立子模块中按照不同的P值筛选出候选的突变位点,并将其作为深度神经网络模型的输入层。
9.如权利要求7所述的基于深度神经网络的I型糖尿病风险评估系统,其特征在于,所述ROC曲线下面积通过五倍交叉检验获得,所述五倍交叉检验将所述训练集中的患有糖尿病的样本数据和对照样本数据随机分为若干份,将若干份的数据按照预设比例分为训练子集和检验子集,以训练子集对所述模型进行训练,以所述检验子集中的数据对模型进行检验,将若干份数据输入经过检验的模型,进行再次检验,获得ROC曲线,计算ROC曲线下面积,重复五倍交叉检验预设次数,将每次获得的ROC曲线下面积取平均值,所述平均值为最终的ROC曲线下面积。
10.如权利要求2所述的基于深度神经网络的I型糖尿病风险评估系统,其特征在于,所述模型训练模块将所述训练集中数据输入所述最优模型,以获得输出结果的ROC曲线,若ROC曲线下面积大于阈值则所述最优模型为最终选用的模型,否则重新对模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654175.4A CN113393896A (zh) | 2021-06-11 | 2021-06-11 | 一种基于深度神经网络的i型糖尿病风险评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654175.4A CN113393896A (zh) | 2021-06-11 | 2021-06-11 | 一种基于深度神经网络的i型糖尿病风险评估系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113393896A true CN113393896A (zh) | 2021-09-14 |
Family
ID=77620630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110654175.4A Withdrawn CN113393896A (zh) | 2021-06-11 | 2021-06-11 | 一种基于深度神经网络的i型糖尿病风险评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393896A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256323A (zh) * | 2016-09-05 | 2017-10-17 | 云健康基因科技(上海)有限公司 | 一种ⅱ型糖尿病风险评估模型的构建方法和构建系统 |
US20180094318A1 (en) * | 2015-03-18 | 2018-04-05 | Patia Biopharmia, S.A. De C.V. | Methods, tools and systems for the assessment, prevention, management and treatment selection for type 2 diabetes |
CN112117004A (zh) * | 2020-09-18 | 2020-12-22 | 清数健康医疗数据科学研究院(南京)有限公司 | 一种基于多源医学数据的糖尿病风险预测模型 |
CN112553327A (zh) * | 2020-12-30 | 2021-03-26 | 中日友好医院(中日友好临床医学研究所) | 一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、snp位点组合及应用 |
-
2021
- 2021-06-11 CN CN202110654175.4A patent/CN113393896A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180094318A1 (en) * | 2015-03-18 | 2018-04-05 | Patia Biopharmia, S.A. De C.V. | Methods, tools and systems for the assessment, prevention, management and treatment selection for type 2 diabetes |
CN107256323A (zh) * | 2016-09-05 | 2017-10-17 | 云健康基因科技(上海)有限公司 | 一种ⅱ型糖尿病风险评估模型的构建方法和构建系统 |
CN112117004A (zh) * | 2020-09-18 | 2020-12-22 | 清数健康医疗数据科学研究院(南京)有限公司 | 一种基于多源医学数据的糖尿病风险预测模型 |
CN112553327A (zh) * | 2020-12-30 | 2021-03-26 | 中日友好医院(中日友好临床医学研究所) | 一种基于单核苷酸多态性的肺血栓栓塞症风险预测模型的构建方法、snp位点组合及应用 |
Non-Patent Citations (1)
Title |
---|
SUNGKYOUNG CHOI ETAL: "Risk Prediction Using Genome-Wide Association Studies on Type2 diabetes", GENOMICS & INFORMATICS, vol. 14, no. 4, pages 138 - 148 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354747B1 (en) | Deep learning analysis pipeline for next generation sequencing | |
KR101542529B1 (ko) | 대립유전자의 바이오마커 발굴방법 | |
CN113517066B (zh) | 基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统 | |
US20110301863A1 (en) | Prediction method for the screening, prognosis, diagnosis or therapeutic response of prostate cancer, and device for implementing said method | |
KR102351306B1 (ko) | 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법 | |
Mieth et al. | DeepCOMBI: explainable artificial intelligence for the analysis and discovery in genome-wide association studies | |
CA3179983A1 (en) | Machine learning platform for generating risk models | |
WO2012091093A1 (ja) | 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法 | |
CN113066586A (zh) | 一种基于多基因风险打分构建疾病分类模型的方法 | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
CN113593630A (zh) | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 | |
D’Agaro | Artificial intelligence used in genome analysis studies | |
CN112599190B (zh) | 一种基于混合分类器来识别耳聋相关基因的方法 | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
CN111128300B (zh) | 基于突变信息的蛋白相互作用影响判断方法 | |
CN113393896A (zh) | 一种基于深度神经网络的i型糖尿病风险评估系统 | |
AU2022218581B2 (en) | Sequencing data-based itd mutation ratio detecting apparatus and method | |
CN116525108A (zh) | 基于snp数据的预测方法、装置、设备及存储介质 | |
CN116469552A (zh) | 一种用于乳腺癌多基因遗传风险评估的方法和系统 | |
KR102042823B1 (ko) | 류마티스관절염 예후 예측용 snp 마커 세트 | |
KR20120014512A (ko) | Snp를 이용한 예후예측 모델 생성 방법 및 장치 | |
CN116959561B (zh) | 一种基于神经网络模型的基因相互作用预测方法和装置 | |
KR102659915B1 (ko) | 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용 | |
CN117524503B (zh) | 一种基于生物遗传数据的身高预测方法及系统 | |
EP4297037A1 (en) | Device for determining an indicator of presence of hrd in a genome of a subject |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210914 |