CN113393896A

CN113393896A - 一种基于深度神经网络的i型糖尿病风险评估系统

Info

Publication number: CN113393896A
Application number: CN202110654175.4A
Authority: CN
Inventors: 马玉昆; 贾寒; 黎松; 孙琼琳; 温颜华; 韩仕伟; 李伟华
Original assignee: Chengdu Guoke Medical Technology Co ltd
Current assignee: Chengdu Guoke Medical Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14

Abstract

本发明属于指纹比对技术领域，涉及一种基于深度神经网络的I型糖尿病风险评估系统，包括：数据输入模块、位点获取模块、位点筛选模块、模型训练模块和模型检验模块；数据输入模块，用于输入或采集样本数据；位点获取模块，用于获取样本数据的全基因组位点的基因型信息；位点筛选模块，用于对基因型信息进行GWAS统计，对GWAS统计结果进行质量控制，并根据质量控制后的分析结果对位点进行筛选；模型训练模块，用于根据筛选后的位点对神经网络模型进行训练，以获得最优模型；模型检验模块，用于对最优模型进行检验。其在不增加任何实验成本的情况下，尽早地、大规模地实现高遗传风险患者的筛查，成本低、准确性高、操作简单方便。

Description

一种基于深度神经网络的I型糖尿病风险评估系统

技术领域

本发明涉及一种基于深度神经网络的I型糖尿病风险评估系统，属于生物检测技术领域，特别涉及疾病风险评估技术领域。

背景技术

I型糖尿病是一种自身免疫性疾病，其本质是因免疫系统特异性地攻击并摧毁自身胰岛β细胞，导致患者丧失胰岛功能，最终发展为I型糖尿病病人，I型糖尿病的常见风险因素有：家族史、遗传因素、年龄等。相比较于II型糖尿病患者，I型糖尿病发病年龄更小，受遗传因素影响更大，因此通过检测遗传基因尽早判别个体I型糖尿病的风险是意义重大的。

随着全基因组关联分析(GWAS)的发展和深入，越来越多复杂疾病/性状的遗传结构得到解析，也系统性地建立起了单核苷酸多态(SNP)与这些复杂性状之间的关联，疾病的遗传度也进一步得到解释。全基因组基因检测技术的同步发展和检测价格持续下降，也为大规模的人群筛查提供了便利条件。在研究日益精细且数据量逐渐增大的趋势下如何能够基于遗传信息进行疾病风险分级，人工智能技术的兴起为这种需求的落地提供了可能。

人工智能主要通过输入高质量的标注后的数据，经过AI系统多层次的训练，最终输出分类结果，用于新场景的预测。目前，最为常用的人工智能技术包括深度学习技术(deep learning)，其核心算法为卷积神经网络(Convolutional Neural Networks，CNN)和循环神经网络(Recurrent Neural Networks，RNN)。但现有技术中将AI系统用于疾病风险预测的方法中，往往存在样品量小，以致预测结果与实际结果存在较大差异，且传统的疾病预测方法需要患者已经表现出一定的疾病迹象时，才能够对其疾病风险进行预测，导致疾病发现较晚，错过最佳防治时期；此外，还有一些疾病预测方法需要人工对学习的特征进行选定，这就导致学习结果高度依赖于特征选取水平，而且不同的特征选取方法可能会导致不同的结果。

发明内容

针对上述问题，本发明的目的是提供了基于深度神经网络的I型糖尿病风险评估系统，旨在不增加任何实验成本的情况下，尽早地、大规模地实现高遗传风险患者的筛查，成本低、准确性高、操作简单方便。

为实现上述目的，本发明采取以下技术方案：一种基于深度神经网络的I型糖尿病风险评估系统，包括：数据输入模块、位点获取模块、位点筛选模块、模型训练模块和模型检验模块；数据输入模块，用于输入或采集样本数据；位点获取模块，用于获取样本数据的全基因组位点的基因型信息；位点筛选模块，用于对基因型信息进行GWAS统计，对GWAS统计结果进行质量控制，并根据质量控制后的分析结果对位点进行筛选；模型训练模块，用于根据筛选后的位点对神经网络模型进行训练，以获得最优模型；模型检验模块，用于对最优模型进行检验。

进一步，数据输入模块的样本数据包括患有糖尿病的样本数据和对照样本数据，将样本数据拆分为训练集和检验集，训练集和检验集中均包括患有糖尿病的样本数据和对照样本数据，且训练集和检验集不存在样本数据重叠。

进一步，位点获取模块中采用芯片检测技术获取全基因组位点的基因型信息，芯片检测技术中通过多个芯片平台进行基因型信息的检测。

进一步，位点筛选模块中GWAS统计结果至少包括以下内容：染色体号、物理位置、突变位点ID、参考等位、效应等位、效应等位基因频率、对疾病的效应值、效应值标准差、与疾病关联的显著性P值、样本量大小和种族信息。

进一步，位点筛选模块中筛选位点的方法包括判断训练集和检验集中样品缺失位点的周围非缺失位点的单倍型的基因型，然后根据单倍型的基因型对样品缺失位点进行填充，对训练集和检验集中填充后的样品的基因型数据分别进行质量控制。

进一步，质量控制包括去除重复的位点，去除不明确位点，保留最小等位频率MAF大于0.01且填充INFO值大于0.5的位点；不明确位点是指参考碱基和变异碱基同时为嘌呤或者嘧啶。

进一步，模型训练模块包括数据转换子模块、模型建立子模块、面积计算子模块和模型输出子模块；数据转换子模块，用于对基因型信息进行数据转换和标准化，并对表型性状进行重新编码；模型建立子模块，用于以对疾病具有效能的突变位点作物自变量，以疾病性表型性状作为因变量构建多因素逻辑回归模型；面积计算子模块，用于获得多因素逻辑回归模型的ROC曲线，并计算ROC曲线下面积；输出模块，用于输出AUC曲线下面积最大时对应的多因素逻辑回归模型。

进一步，模型建立子模块中按照不同的P值筛选出候选的突变位点，并将其作为深度神经网络模型的输入层。

进一步，ROC曲线下面积通过五倍交叉检验获得，五倍交叉检验将训练集中的患有糖尿病的样本数据和对照样本数据随机分为若干份，将若干份的数据按照预设比例分为训练子集和检验子集，以训练子集对模型进行训练，以检验子集中的数据对模型进行检验，将若干份数据输入经过检验的模型，进行再次检验，获得ROC曲线，计算ROC曲线下面积，重复五倍交叉检验预设次数，将每次获得的ROC曲线下面积取平均值，平均值为最终的ROC曲线下面积。

进一步，模型训练模块将训练集中数据输入最优模型，以获得输出结果的ROC曲线，若ROC曲线下面积大于阈值则最优模型为最终选用的模型，否则重新对模型进行训练。

本发明由于采取以上技术方案，其具有以下优点：本发明在不增加任何实验成本的情况下，尽早地、大规模地实现高遗传风险患者的筛查，具有成本低，无需进行任何额外的实验；准确性高：综合考虑了多项全基因组关联分析GWAS的结果，得到与I型糖尿病更全的遗传突变信息；另外全基因组位点检测也经过了严格的质控和数据填充，提供了更多的个体遗传信息；最后，结合深度神经网络的框架模型提供了更准确地遗传风险等级分类和预测；操作方便，有详细的帮助文档和操作手册，操作快速、简单、方便、易上手。

附图说明

图1本发明一实施例中基于深度学习的指纹比对系统的示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

本发明公开了一种基于深度神经网络的I型糖尿病风险评估系统，其将深度神经网络模型与GWAS(全基因组关联分析)结合，通过前期积累的GWAS研究结果来标记大量的人群数据，并将其作为高质量的训练集，后续在独立样本的检验集中进行效能检验，最终实现人工智能在I型糖尿病个体的风险分级。本发明能够应用人工智能结合全基因组芯片检测技术实现尽可能早地进行高遗传风险人群的筛查和分类，做到早诊断早治疗同时也为后续进一步的临床干预提供了有利的参考和指导，进而提升患者生活质量。下面通过实施例，对本发明的方案进行详细说明。

本实施例公开了一种基于深度神经网络的I型糖尿病风险评估系统，包括：数据输入模块、位点获取模块、位点筛选模块、模型训练模块和模型检验模块。

数据输入模块，用于输入或采集样本数据；本模块中样本数据可以是已有的历史数据，也可以是现场采集的样本数据，还可以是从网站上下载的数据，本模块只是用于数据获取，对数据来源不做限制。数据输入模块的样本数据包括患有糖尿病的样本数据和对照样本数据，将样本数据分为训练集和检验集，训练集和检验集中均包括患有糖尿病的样本数据和对照样本数据，在本实施例中训练集和检验集中均包括2620例样本，其中患有糖尿病的样本为1120例，没有患糖尿病的对照样本为1500例，且训练集和检验集不存在样本数据重叠。本实施例中，拆分训练集和检验集时，在等比拆分的基础上，综合考虑样本所有者的年龄、性别、民族等因素，以保证两组样本之间人群结构基本一致，尽可能排除混杂信息对于最终预测结果的影响。

位点获取模块，用于获取样本数据的全基因组位点的基因型信息，基于芯片检测平台获取训练集和检验集样本数据的全基因组位点的基因型信息，对获得的基因型信息进行质量控制和过滤。本模块中采用芯片检测技术获取全基因组位点的基因型信息，芯片检测技术中可以通过一个芯片检测平台或者多个芯片检测平台进行基因型信息检测，可以支持多个芯片检测平台的数据。芯片检测平台可以是SNP芯片，但限于该种芯片。芯片的数据经标准分析流程进行位点基因型的判读和提取。要求样本检出率达到97％以上，且位点指控图满足后续分析要求，若检测样本的位点不达标，可重复检测直至达标或直接删除该样本，也可预设重复检测次数，若达到重复检测次数后仍未达标，则删除该样本。

位点筛选模块，用于对基因型信息进行GWAS统计，对GWAS统计结果进行质量控制，并根据质量控制后的分析结果对位点进行筛选。基于多个公共数据库获得糖尿病的GWAS的统计结果，该统计结果至少包括以下内容：染色体号、物理位置、突变位点ID、参考等位、效应等位、效应等位基因频率、对疾病的效应值、效应值标准差、与疾病关联的显著性P值、样本量大小和种族信息。

位点筛选模块中筛选位点的方法包括：基于千人基因组Phase3，利用SHAPEIT对样本全基因组的全部位点信息进行预定相(--thread 12，其它参数为默认)判断训练集和检验集中样品缺失位点的周围非缺失位点的单倍型的基因型，然后根据单倍型的基因型，采用impute2软件对样品缺失位点进行填充(使用默认参数)，保留填充INFO值大于0.5的填充位点；合并填充位点及所述全基因组范围内的位点，为最终的分析位点。对训练集和检验集中填充后的样品的基因型数据分别进行质量控制，其包括去除重复的位点，去除不明确位点，去除样品缺失率大于0.01，去除显著性P值大于0.000001的位点，保留最小等位频率MAF大于0.01且填充INFO值大于0.5的位点；利用Plink v1.9软件去除数据集中亲缘关系大于等于3级的样本；不明确位点是指参考碱基和变异碱基同时为嘌呤(A或T)或者嘧啶(G或C)。

模型训练模块，用于根据筛选后的位点对神经网络模型进行训练，以获得最优模型。基于训练集中经过填充和质量控制后的位点的基因型及相关表型性状信息，结合经过质量控制的GWAS统计结果，对深度神经网络模型进行训练，该模型通过不同的参数层来控制和处理数据流。

模型训练模块包括数据转换子模块、模型建立子模块、面积计算子模块和模型输出子模块。

数据转换子模块，用于对基因型信息进行数据转换和标准化，并对表型性状进行重新编码。对基因型信息进行0/1/2编码，0编码代表0个效应等位，1编码代表1个效应等位，2编码代表2个效应等位。对表型性状进行0/1编码，其中0编码对应对照样品，1编码对应患有糖尿病的样本。本实施例中表型性状指的是疾病性状，按患病有无区分的，健康状态为0，疾病状态为1。

模型建立子模块，用于以对疾病具有效能的突变位点作物自变量，其中，按照不同的P值筛选出候选的突变位点，P值可设置0.00000001、0.0000001、0.000001、0.00001、0.0001、0.001、0.01、0.1，并将其作为深度神经网络模型的输入层以疾病性表型性状作为因变量构建多因素逻辑回归模型。深度神经网络模型采用Keras来实现，利用GridSearchCV筛选隐藏层最优的激活函数，双曲正切函数tanh取得最佳的拟合效果且最终应用于所有隐藏层(隐藏层包含卷积层、池化层、连接层、全连接层)，卷积核的大小设置为3*3*1，步长定义为1，损失函数定义为交叉信息熵(Crossentropy)且评价指标定义为准确性，初始学习率为1e-4，最后的输出层采用sigmoid激活函数，该sigmoid激活函数的输出范围是0到1，本实施例中将模型在0-1范围内的输出值作为样本的患有I型糖尿病的风险预测得分。

面积计算子模块，用于获得多因素逻辑回归模型的ROC曲线，并计算ROC曲线下面积。

ROC曲线下面积通过五倍交叉检验获得，五倍交叉检验将训练集中的患有糖尿病的样本数据和对照样本数据随机分为若干份，将若干份的数据按照预设比例分为训练子集和检验子集，以训练子集对模型进行训练，以检验子集中的数据对模型进行检验，将若干份数据输入经过检验的模型，进行再次检验，获得ROC曲线，计算ROC曲线下面积，重复五倍交叉检验预设次数，将每次获得的ROC曲线下面积取平均值，平均值为最终的ROC曲线下面积。本实施例中将训练集中数据随机分为5份，训练子集和检验子集的样本数量比为4：1。本实施例中的预设次数为100次。上述具体数值可以根据实验需要自行选定，本实施例中给出的只是优选结果，而不是取上述数值。

输出模块，用于输出ROC曲线下面积最大时对应的多因素逻辑回归模型。

模型检验模块，用于对最优模型进行检验。

模型训练模块将训练集中数据输入最优模型，以获得输出结果的ROC曲线，若ROC曲线下面积大于阈值则最优模型为最终选用的模型，否则重新对模型进行训练。本实施例中阈值通常选择大于0.6，此时患有I型糖尿病的样本和对照样本的疾病风险对应分数存在显著差别。

实施例二

基于相同的发明构思，本实施例通过一个具体的实例对本发明的技术方案进行进一步说明。

本实施例中首先从UK BioBank(http://www.nealelab.is/uk-biobank)，PGSCATALOG(https://www.pgscatalog.org/),GWAS CATALOG(https://www.ebi.ac.uk/gwas/)数据库下载了患有I型糖尿病的样本和对照样本的GWAS统计结果。其中包括5,388,042个位点，通过ASA芯片实验及生物信息学分析获得2,160例训练集样品，其中，1,500例患有I型糖尿病、560例对照；和2,160例检验集样品，其中，1,500例患有I型糖尿病，560例对照。共计738,180万个位点的基因型数据。

对训练集和检验集样品进行质量控制。进行质量控制后基于千人基因组数据的单倍型组成，判断训练集和检验集样品缺失位点的周围非缺失位点的单倍型的基因型，然后根据单倍型的基因型对该样本的缺失位点进行填充，控制INFO大于0.5，得到共计2,059,857个位点基因型数据。对训练集和检验集样品填充后的基因型数据分别进行质量控制，去除GWAS统计结果中不包含的位点，去除亲缘关系近的样品。

对下载的GWAS统计结果进行质量控制，去除MAF小于0.01的位点，去除填充INFO值小于0.5的位点，去除模糊的SNP位点，只保留训练集和检验集均包含的位点。

以训练集样本中与性状相关位点作为自变量，以样本的表型性状作为因变量进行格式转换和重新编码，按照不同的P值筛选出候选的突变位点作为深度神经网络的输入层。利用GridSearchCV筛选隐藏层最优的激活函数，双曲正切函数tanh取得最佳的拟合效果且最终应用于所有隐藏层(隐藏层包含卷积层、池化层、连接层、全连接层)，卷积核的大小设置为3*3*1，步长定义为1，损失函数定义为交叉信息熵(Crossentropy)且评价指标定义为准确性，初始学习率为1e-4，最后的输出层采用sigmoid激活函数，所述sigmoid函数的输出范围是0到1，这里将所述输出层的0-1范围的值作为样品的疾病风险预测得分，100次五倍交叉验证计算训练集模型的AUC值，即ROC曲线下面积。同时计算所有检验集的AUC值。

最终效果最佳的参数组合为的p值为0.0005，该模型共纳入51个SNP位点，这些位点主要集中于6号染色体的HLA基因上，多个证据表明该基因与人体免疫密切相关，而I型糖尿病也可以被认定为免疫缺陷疾病。最终构建得到的深度神经网络模型在训练集拟合后，I型糖尿病的预测结果对应的AUC值为0.6386，在检验集中的AUC值为0.6589，其值均大于阈值0.6，由此可说明本发明中方法能够应用于普通人的I型糖尿病风险计算，为该疾病临床的早发现、早预防提供帮助。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围。

Claims

1.一种基于深度神经网络的I型糖尿病风险评估系统，其特征在于，包括：数据输入模块、位点获取模块、位点筛选模块、模型训练模块和模型检验模块；

所述数据输入模块，用于输入或采集样本数据；

所述位点获取模块，用于获取所述样本数据的全基因组位点的基因型信息；

所述位点筛选模块，用于对所述基因型信息进行GWAS统计，对GWAS统计结果进行质量控制，并根据质量控制后的分析结果对所述位点进行筛选；

所述模型训练模块，用于根据筛选后的位点对神经网络模型进行训练，以获得最优模型；

所述模型检验模块，用于对所述最优模型进行检验。

2.如权利要求1所述的基于深度神经网络的I型糖尿病风险评估系统，其特征在于，所述数据输入模块的样本数据包括患有糖尿病的样本数据和对照样本数据，将所述样本数据分为训练集和检验集，所述训练集和检验集中均包括患有糖尿病的样本数据和对照样本数据，且所述训练集和检验集不存在样本数据重叠。

3.如权利要求1所述的基于深度神经网络的I型糖尿病风险评估系统，其特征在于，所述位点获取模块中采用芯片检测技术获取全基因组位点的基因型信息，所述芯片检测技术中通过多个芯片进行基因型信息检测。

4.如权利要求2所述的基于深度神经网络的I型糖尿病风险评估系统，其特征在于，所述位点筛选模块中GWAS统计结果至少包括以下内容：染色体号、物理位置、突变位点ID、参考等位、效应等位、效应等位基因频率、对疾病的效应值、效应值标准差、与疾病关联的显著性P值、样本量大小和种族信息。

5.如权利要求4所述的基于深度神经网络的I型糖尿病风险评估系统，其特征在于，所述位点筛选模块中筛选位点的方法包括判断所述训练集和检验集中样品缺失位点的周围非缺失位点的单倍型的基因型，然后根据所述单倍型的基因型对所述样品缺失位点进行填充，对所述训练集和检验集中填充后的样品的基因型数据分别进行质量控制。

6.如权利要求5所述的基于深度神经网络的I型糖尿病风险评估系统，其特征在于，所述质量控制包括去除重复的位点，去除不明确位点，保留最小等位频率MAF大于0.01且填充INFO值大于0.5的位点；所述不明确位点是指参考碱基和变异碱基同时为嘌呤或者嘧啶。

7.如权利要求2所述的基于深度神经网络的I型糖尿病风险评估系统，其特征在于，所述模型训练模块包括数据转换子模块、模型建立子模块、面积计算子模块和模型输出子模块；

所述数据转换子模块，用于对所述基因型信息进行数据转换和标准化，并对表型性状进行重新编码；

所述模型建立子模块，用于以对疾病具有效能的突变位点作物自变量，以疾病性表型性状作为因变量构建多因素逻辑回归模型；

所述面积计算子模块，用于获得所述多因素逻辑回归模型的ROC曲线，并计算ROC曲线下面积；

所述输出模块，用于输出所述ROC曲线下面积最大时对应的多因素逻辑回归模型。

8.如权利要求7所述的基于深度神经网络的I型糖尿病风险评估系统，其特征在于，所述模型建立子模块中按照不同的P值筛选出候选的突变位点，并将其作为深度神经网络模型的输入层。

9.如权利要求7所述的基于深度神经网络的I型糖尿病风险评估系统，其特征在于，所述ROC曲线下面积通过五倍交叉检验获得，所述五倍交叉检验将所述训练集中的患有糖尿病的样本数据和对照样本数据随机分为若干份，将若干份的数据按照预设比例分为训练子集和检验子集，以训练子集对所述模型进行训练，以所述检验子集中的数据对模型进行检验，将若干份数据输入经过检验的模型，进行再次检验，获得ROC曲线，计算ROC曲线下面积，重复五倍交叉检验预设次数，将每次获得的ROC曲线下面积取平均值，所述平均值为最终的ROC曲线下面积。

10.如权利要求2所述的基于深度神经网络的I型糖尿病风险评估系统，其特征在于，所述模型训练模块将所述训练集中数据输入所述最优模型，以获得输出结果的ROC曲线，若ROC曲线下面积大于阈值则所述最优模型为最终选用的模型，否则重新对模型进行训练。