CN116525108A - 基于snp数据的预测方法、装置、设备及存储介质 - Google Patents
基于snp数据的预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116525108A CN116525108A CN202310243178.8A CN202310243178A CN116525108A CN 116525108 A CN116525108 A CN 116525108A CN 202310243178 A CN202310243178 A CN 202310243178A CN 116525108 A CN116525108 A CN 116525108A
- Authority
- CN
- China
- Prior art keywords
- data
- snp
- prediction
- preset
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000012216 screening Methods 0.000 claims description 58
- 238000000611 regression analysis Methods 0.000 claims description 18
- 238000012098 association analyses Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 11
- 108700028369 Alleles Proteins 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 10
- 230000037430 deletion Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000003205 genotyping method Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract 1
- 208000024827 Alzheimer disease Diseases 0.000 description 48
- 108090000623 proteins and genes Proteins 0.000 description 12
- 201000010099 disease Diseases 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000010219 correlation analysis Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000002773 nucleotide Substances 0.000 description 6
- 125000003729 nucleotide group Chemical group 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 101150037123 APOE gene Proteins 0.000 description 2
- 102100036451 Apolipoprotein C-I Human genes 0.000 description 2
- 102100029470 Apolipoprotein E Human genes 0.000 description 2
- 101000928628 Homo sapiens Apolipoprotein C-I Proteins 0.000 description 2
- 210000003169 central nervous system Anatomy 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 208000015122 neurodegenerative disease Diseases 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 206010003694 Atrophy Diseases 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 206010012289 Dementia Diseases 0.000 description 1
- 101000764216 Homo sapiens Mitochondrial import receptor subunit TOM40 homolog Proteins 0.000 description 1
- 101001091365 Homo sapiens Plasma kallikrein Proteins 0.000 description 1
- 101000605534 Homo sapiens Prostate-specific antigen Proteins 0.000 description 1
- 102100026905 Mitochondrial import receptor subunit TOM40 homolog Human genes 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000037444 atrophy Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 238000002610 neuroimaging Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Ecology (AREA)
- Physiology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于SNP数据的预测方法、装置、设备及可读存储介质,该方法包括步骤:获取被试者的SNP数据;将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。本申请增加了对被试者数据分析后,得到的AD预测结果的准确性。
Description
技术领域
本申请涉及医疗检测技术领域,尤其涉及一种基于SNP数据的预测方法、装置、设备及存储介质。
背景技术
阿尔茨海默病(Alzheimer's disease, AD)是一种常见的进行性中枢神经系统退行性疾病,约占所有痴呆病例的60%-80%,现有研究表明,AD患者的大脑的萎缩通常发生在临床表现之前,可以基于单核苷酸多态性(Single Nucleotide Polymorphism, SNP)检测的方式来寻找影响AD的易感基因及其风险位点,从而预测患者发展为AD的风险,进一步提高AD早期干预的效果。
相关技术中,基于单核苷酸多态性来诊断AD的技术大多使用传统的全基因组关联分析(Genome wide association study, GWAS)方法,通过该方法基于相关性分析得到的P值,从而确定与AD相关的风险位点,但仅使用相关性分析容易忽略那些在统计分析上不显著,通过共同作用影响疾病的位点,从而导致得出的AD预测结果不准确。
发明内容
本申请的主要目的在于提供一种基于SNP数据的预测方法、装置、设备及存储介质,旨在解决相关技术中对患者的数据进行相关性分析,得到的AD预测结果不准确的技术问题。
为实现上述目的,本申请实施例提供了一种基于SNP数据的预测方法,所述方法包括:
获取被试者的SNP数据;
将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。
在本申请的一种可能的实施方式中,所述将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果的步骤之前,包括:
对所述SNP数据进行筛选,得到筛选后的第一筛选数据;
对所述第一筛选数据进行关联分析,得到关联数据;
将所述关联数据进行二次筛选,得到与AD相关联的SNP位点数据。
在本申请的一种可能的实施方式中,所述对所述SNP数据进行筛选,得到筛选后的第一筛选数据的步骤,包括:
对所述SNP数据进行检查,筛除所述SNP数据位点缺失率大于第一预设值的SNP以及基因分型检出率小于第二预设值的SNP数据;
对所述SNP数据进行哈温平衡检验,筛除所述SNP数据中P值小于第三预设值的SNP数据;
筛除最小等位基因频率小于第四预设值的SNP数据,得到筛选后的第一筛选数据。
在本申请的一种可能的实施方式中,所述对所述第一筛选数据进行关联分析,得到关联数据的步骤,包括:
将所述第一筛选数据进行基因型填充,得到填充后的多个第二SNP位点;
根据所述第二SNP位点的填充指标,提取所述填充指标的值大于第二预设阈值以及基因型后验概率大于第三预设阈值的第三SNP位点,其中,所述填充指标用于衡量SNP位点的填充效果;
根据提取的所述第三SNP位点,确定关联数据。
在本申请的一种可能的实施方式中,所述将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果的步骤,包括:
使用独热编码方式对所述SNP位点数据进行编码,得到SNP序列;
将所述SNP序列进行卷积和池化操作,得到SNP特征值;
确定所述SNP特征值的注意力值;
基于所述SNP特征值与所述注意力值,得到目标预测结果。
在本申请的一种可能的实施方式中,所述将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果的步骤之后,包括:
使用积分梯度方法对所述分类结果进行处理,得到分类结果所对应的所述SNP位点数据中的多个风险位点,积分梯度方法对输入的所述SNP位点数据的第i个特征的贡献定义式为:
其中,表示使网络输出为0的基线样本,/>表示第i个输入,/>表示神经网络,表示得到的积分梯度值。
在本申请的一种可能的实施方式中,所述将所述关联数据进行二次筛选,得到与AD相关联的SNP位点数据的步骤之后,包括:
将所述SNP位点数据进行回归分析,得到回归分析值;
将所述回归分析值与预设阈值作比较,确定小于预设阈值的第一回归值;
确定所述第一回归值对应的SNP位点数据。
本申请还提供一种基于SNP数据的预测装置,所述基于SNP数据的预测装置还包括:
获取模块,用于获取被试者的SNP数据;
处理模块,用于将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。
本申请还提供一种基于SNP数据的预测设备,所述基于SNP数据的预测设备为实体节点设备,所述基于SNP数据的预测设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述基于SNP数据的预测方法的程序,所述基于SNP数据的预测方法的程序被处理器执行时可实现如上述所述基于SNP数据的预测方法的步骤。
为实现上述目的,还提供一种存储介质,所述存储介质上存储有基于SNP数据的预测程序,所述基于SNP数据的预测程序被处理器执行时实现上述任一所述的基于SNP数据的预测方法的步骤。
本申请提供了一种基于SNP数据的预测方法、装置、设备及存储介质,与相关技术中,对患者的数据进行相关性分析,得到的AD预测结果不准确的方式相比,在本申请中,获取被试者的SNP数据;将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。在本申请中,可以理解的是,通过获取被试者的SNP数据,并将SNP数据中的SNP位点数据输入至预设预测模型,根据预设预测模型对相应的SNP位点数据进行处理,得到SNP位点数据的特征信息,可以根据SNP位点数据进行对被试者发展为AD的风险进行预测,得到预测结果,相对于相关性分析,经过预设预测模型分析得到的目标预测结果可解释性更强,提升了预测结果的准确性,从而可以在早期评估患者发展为AD的风险。
附图说明
图1为本申请基于SNP数据的预测方法的第一实施例的流程示意图;
图2为本申请基于SNP数据的预测方法第一实施例中步骤S20的细化流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图;
图4为本申请基于SNP数据的预测方法涉及的预设预测模型构建流程示意图;
图5为本申请基于SNP数据的预测方法涉及的预设预测模型的网络结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种基于SNP数据的预测方法,在本申请基于SNP数据的预测方法的第一实施例中,参照图1,所述方法包括:
步骤S10,获取被试者的SNP数据;
步骤S20,将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。
在本实施例中,针对的场景为:
目前,阿尔茨海默病(Alzheimer's disease, AD,以下简称为AD)是一种常见的进行性中枢神经系统退行性疾病,患者患病过程长且病情无法逆转,在通常情况下,在AD早期对患者进行干预是最有效的,因此,基于单核苷酸多态性(Single NucleotidePolymorphism, SNP,以下简称为SNP)数据进行阿尔茨海默病的早期预测,寻找影响AD的易感基因及其风险位点,有助于在患者大脑的结构或功能发生显著变化前预测患者发展为AD的风险。
在本实施例中,针对的研发背景为:
AD的患病风险60%-80%由基因导致,目前已有APOE、APOC1、CLU等多个基因被认为与AD有关,SNP是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,是由单个碱基的替换、插入或缺失导致,SNP是最常见的变异类型,在一个人的基因组中大约有四百万到五百万个SNP。当SNP位于基因内或基因附近的调控区域内时,可能直接影响基因的表达水平,进而可能与疾病遗传机理相关。AD通常是多个效应较小的SNP风险位点和环境因素共同作用的结果,因此使用AD的易感基因及其风险位点信息,有助于在患者大脑的结构或功能发生显著变化前预测患者发展为AD的风险。
本实施例旨在:通过将SNP位点数据输入预设预测模型,从而对被试者进行关于AD的风险预测,提升了预测结果的准确性,从而可以在早期评估患者发展为AD的风险。
具体步骤如下:
步骤S10,获取被试者的SNP数据;
作为一种示例,基于SNP数据的预测方法可以应用于基于SNP数据的预测装置,基于SNP数据的预测装置从属于基于SNP数据的预测系统,该基于SNP数据的预测系统属于基于SNP数据的预测设备。
作为一种示例,获取被试者的SNP数据的方式可以是:使用阿尔茨海默病神经影像学计划公开数据库(Alzheimer's Disease Neuroimaging Initiative,ADNI)中的SNP数据。
作为一种示例,获取SNP数据的方式还可以是:自行招募阿尔茨海默病患者和健康被试者,使用高通量基因芯片技术从所选对象的外周血液样本中获得其SNP数据。
步骤S20,将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。
在相关技术中,大多数选择易感基因附近的SNP数据,来估计患者发展为AD的风险,这种方式可能导致其他基因上有关的位点被忽略,又因为预先选择的SNP数据会受到先验知识的影响,从而得到的相应的分类结果也存在较大的局限性。
作为一种示例,将所述SNP数据进行预处理的过程可以是,对SNP数据进行质量控制,筛选出SNP数据中属于性染色体和线粒体中遗产物质的SNP数据,只保留常染色体上的SNP数据,再通过GWAS方法对SNP数据进行分析,之后再次进行筛选,从而得到与AD关联性较强的SNP位点数据。
作为一种示例,SNP位点数据即是经过预处理以及回归分析后筛选出的输入数据。
作为一种示例,预设预测模型具体为基于卷积神经网络的预测模型,预设预测模型还应用了注意力机制,使得输出的预测结果更准确。
作为一种示例,在进行预处理后的SNP位点数据中选取其中的60%作为模型训练的数据,20%作为验证集,剩余20%作为测试集,使用训练集的数据对网络进行训练,将测试集的数据输入训练好的网络,即可得到预测的分类结果。
作为一种示例,预设预测模型构建流程示意图如图4所示,先收集样本数据,获取被试者的SNP数据,再进行基因检测、质量控制、以及GWAS分析,对SNP数据提取相应的特征后,取得20%的数据作为训练集训练预设预测模型中的神经网络,进而,将测试集的数据输入至预设预测模型进行测试,输出目标预测结果。
其中,所述将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果的步骤,包括:
步骤S21,使用独热编码方式对所述SNP位点数据进行编码,得到SNP序列;
在本实施例中,通过独热编码方式对所述SNP位点数据进行编码,其中每个SNP位点数据被编码为1×4的向量,其中,参考等位基因的纯合子编码为1000,杂合子编码为0100,次等位基因的纯合子编码为0010,基因型缺失编码为0001,编码后,每个样本的SNP序列大小为n×4,n为经过GWAS后保留的SNP数量。
步骤S22,将所述SNP序列进行卷积和池化操作,得到SNP特征值;
作为一种示例,编码后的SNP数据输入卷积网络,其中,预设预测模型的网络结构如图5所示,图中的fully connectd模块表示全连接层,conv模块表示卷积层,max pooling模块表示最大池化层,channel average pooling模块表示平均池化层。
作为一种示例,将编码后的SNP数据输入卷积网络,进行多次卷积操作,卷积操作的步骤可以是3次,通过的第一个卷积核大小为4,输入通道数为4,输出通道数为32;第二个卷积核大小为4,输出通道数为64;第三个卷积核大小为3,输出通道数为64,前两次卷积操作后都使用ReLu激活函数和最大池操作,第三次卷积后得到SNP特征值。
步骤S23,确定所述SNP特征值的注意力值;
作为一种示例,使用大小为3的卷积核以及Sigmoid函数,计算卷积网络通道方向上的平均值,得到注意力值。
步骤S24,基于所述SNP特征值与所述注意力值,得到目标预测结果。
作为一种示例,SNP特征值即是得到的经过卷积操作的特征向量,通过SNP特征值与注意力值相乘得到的结果,确定最后的分类结果,进而使用两个全连接层,来输出预测的分类结果。
不同于基于统计分析的方法,本申请通过深度学习网络的可解释性方法确定分类过程中的重要SNP数据,从而达到早期预测AD的发展状况的目的。
本申请提供了一种基于SNP数据的预测方法、装置、设备及存储介质,与相关技术中,对患者的数据进行相关性分析,得到的AD预测结果不准确的方式相比,在本申请中,获取被试者的SNP数据;将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。在本申请中,可以理解的是,通过获取被试者的SNP数据,并将SNP数据中的SNP位点数据输入至预设预测模型,根据预设预测模型对相应的SNP位点数据进行处理,得到SNP位点数据的特征信息,可以根据SNP位点数据进行对被试者发展为AD的风险进行预测,得到预测结果,相对于相关性分析,经过预设预测模型分析得到的目标预测结果可解释性更强,提升了预测结果的准确性,从而可以在早期评估患者发展为AD的风险。
进一步地,基于本申请中第一实施例,提供本申请的另一实施例,在该实施例中,所述将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果的步骤之前,包括:
步骤A1,对所述SNP数据进行筛选,得到筛选后的第一筛选数据;
作为一种示例,在获取的SNP数据中包括很多与疾病无关的数据,需要先对数据进行初步筛选,确定相对应的SNP数据。
作为一种示例,第一筛选数据即是进行初步筛选后的SNP数据。
步骤A2,对所述第一筛选数据进行关联分析,得到关联数据;
作为一种示例,全基因组关联分析(Genome wide association study, GWAS)具体为在人类全基因组范围内找到SNP,通过群体水平的统计学分析筛选出与疾病表型相关的SNP的方法,使用GWAS方法对SNP数据进行关联分析,可以找到相应的与疾病关联的位点数据。
作为一种示例,关联数据具体为分析后确定的与AD相关的SNP位点数据。
步骤A3,将所述关联数据进行二次筛选,得到与AD相关联的SNP位点数据。
作为一种示例,在经过初步筛选后,使用Sanger Imputation Server(桑格插补服务)平台对数据集进行基因型填充,再使用GWAS方法对所述SNP数据进行关联分析,填充后的位点会存在填充质量差的部分位点,所以在经过关联分析后,需要对关联数据进行二次筛选,避免获取的SNP数据集中存在与AD相关性较差的位点数据。
作为一种示例,二次筛选的步骤为去除基因分型检出率小于90%的位点,最小等位基因频率小于5%的位点,哈迪温伯格平衡检验中P值小于1e-6(10的-6次方)的位点。
其中,所述对所述SNP数据进行筛选的步骤,包括:
步骤B1,对所述SNP数据进行检查,筛除所述SNP数据位点缺失率大于第一预设值的SNP以及基因分型检出率小于第二预设值的SNP数据;
作为一种示例,使用Plink软件分别对每个SNP数据集进行质量控制,得到相应质量较好的SNP位点数据。
作为一种示例,对获取的SNP数据进行检查,根据位点缺失率以及基因分型检出率来初步筛选其中的数据。
作为一种示例,第一预设值可以是5%,具体不做限定。
作为一种示例,位点缺失率反映了一个SNP位点的缺失情况,当所采集的一个SNP位点的位点缺失率大于5%时,说明该位点的完整性较差,为了保留数据集中较为完整的SNP位点,需要与第一预设值进行比较,对数据进行筛选。
作为一种示例,第二预设值可以是95%,具体不作限定。
作为一种示例,对所述SNP数据进行检查的步骤还包括,删除有性别差异的样本,避免因为性别差异而引起数据差异。
步骤B2,对所述SNP数据进行哈温平衡检验,筛除所述SNP数据中P值小于第三预设值的SNP数据;
作为一种示例,通过哈温平衡检验,来筛除P值小于第三预设值的SNP数据。
作为一种示例,第三预设值可以是1e-6(10的负6次方)。
步骤B3,筛除最小等位基因频率小于第四预设值的SNP数据,得到筛选后的第一筛选数据。
作为一种示例,最小等位基因频率指一个特征位点上的等位基因出现的最小频率。
作为一种示例,第四预设值可以是0.05,具体不做限定。
作为一种示例,所获取的SNP数据经过多次筛选后,完成对SNP数据的第一次质量控制,得到第一筛选数据。
其中,所述对所述SNP数据进行关联分析,得到关联数据的步骤,包括:
步骤C1,将所述第一筛选数据进行基因型填充,得到填充后的多个第二SNP位点;
作为一种示例,由于高通量基因芯片包含的位点较为有限,使用SangerImputation Server平台对数据集进行基因型填充,在填充前,首先使用Bcftools工具包将SNP编号统一为GRCh37版本,校正样本DNA正负链,在基因型填充计算过程中,使用SHAPEIT进行预定相,选择1000 Genomes Phase 3的数据作为参照组。
作为一种示例,填充后会产生INFO度量指标,取值在0~1之间。
步骤C2,根据所述第二SNP位点的填充指标,提取所述填充指标的值大于第二预设阈值以及基因型后验概率大于第三预设阈值的第三SNP位点,其中,所述填充指标用于衡量SNP位点的填充效果;
作为一种示例,在关联分析中,根据INFO值删除填补质量较差的SNP位点,根据填充指标的值来筛除相应填充差的SNP位点。
作为一种示例,第二预设阈值可以是0.5,NFO>0.5常被认为是填充质量较好,因此选择保留INFO>0.5。
作为一种示例,第三预设阈值可以是0.9,提取第三SNP位点后,同时筛除有两个以上等位基因的SNP位点。
步骤C3,根据提取的所述第三SNP位点,确定关联数据。
作为一种示例,得到的第三SNP位点即是关联数据。
作为一种示例,关联数据具体为筛选后的与AD相关性强的SNP位点数据。
所述将所述关联数据进行二次筛选,得到与AD相关联的SNP位点数据的步骤之后,包括:
步骤D1,将所述SNP位点数据进行回归分析,得到回归分析值;
作为一种示例,SNP位点数据通常存在维度过大而样本数量相对较小的问题,且只有少数位点与疾病相关,所以在输入预设预测模型之前,需要先进行相关性分析,从而保留与AD相关性较大的位点数据。
作为一种示例,将所述SNP位点数据进行回归分析,得到回归分析值,回归分析值即是多个SNP位点数据所对应的坐标值,在进行回归分析后,可以得到一条回归曲线,通过回归曲线以及相应的P值,即可确定相应的SNP位点数据。
步骤D2,将所述回归分析值与预设阈值作比较,确定小于预设阈值的第一回归值;
作为一种示例,预设阈值可以是p<0.0001,通过将回归分析值与预设阈值作比较,确定多个小于预设阈值的第一回归值。
步骤D3,确定所述第一回归值对应的SNP位点数据。
作为一种示例,每个第一回归值都对应SNP位点数据中的一个SNP位点,选择这些SNP位点所组成的数据集合作为预设预测模型的输入,同时,也可以提升所输入样本数据与AD的关联性。
在本实施例中,通过对获取的SNP数据进行预处理,降低输入SNP数据的维度,将数据输入模型前提取与疾病相关的特征,包含的信息更全面,从而减少得到的目标预测结果的误差。
进一步地,基于本申请中第一实施例和第二实施例,提供本申请的另一实施例,在该实施例中,所述将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果的步骤之后,包括:
步骤E1,使用积分梯度方法对所述目标预测结果进行处理,得到目标预测结果所对应的所述SNP位点数据中的多个风险位点,积分梯度方法对输入的所述SNP位点数据的第i个特征的贡献定义式为:
其中,表示使网络输出为0的基线样本,/>表示第i个输入,/>表示神经网络,表示得到的积分梯度值。
作为一种示例,通过积分梯度方法来进行计算,得到相应的多个风险位点。
在相关技术中,基于SNP数据的预测技术大多只使用传统的GWAS方法,该方法基于相关性分析得到的P值确定风险位点,可能忽略在统计分析上不显著,但可能通过共同作用影响疾病的位点。
作为一种示例,通过积分梯度方法得到在网络处理过程中起到重要作用的前100个风险位点,将前100个风险位点作为影响发展为AD的风险的重要位点,使得到的目标预测结果具有一定的可解释性,有助于发现影响AD进展过程的新位点。
在本实施例中,从ADNI数据库中下载了ADNI1、ADNI2/ADNIGO、ADNI3多个阶段,使用Illumina Human 610-Quad,Illumina Human Omni Express,Illumina Omni 2.5 M,Illumina Infinium Global Screening Array v2四个不同芯片检测得到的健康被试者和患有阿尔茨海默病的被试者的全基因组数据,基于该数据在构建模型上进行训练和测试,测试集的分类准确率为79.11%,精确率为60.71%,召回率为75.56%,AUC为0.8031,同时得到位于TOMM40、APOE、APOC1、KLK3等基因上的风险位点。
在本实施例中,通过积分梯度方法得到在预设预测模型预测过程中起到重要作用的风险位点,在预设预测模型得到预测结果的同时,具有一定的可解释性,有助于发现影响AD发展过程的新的风险位点。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该基于SNP数据的预测设备可以包括:处理器1001,存储器1005,通信总线1002。通信总线1002用于实现处理器1001和存储器1005之间的连接通信。
可选地,该基于SNP数据的预测设备还可以包括用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、WiFi模块等等。用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的基于SNP数据的预测设备结构并不构成对基于SNP数据的预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块以及基于SNP数据的预测程序。操作系统是管理和控制基于SNP数据的预测设备硬件和软件资源的程序,支持基于SNP数据的预测程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与基于SNP数据的预测系统中其它硬件和软件之间通信。
在图3所示的基于SNP数据的预测设备中,处理器1001用于执行存储器1005中存储的基于SNP数据的预测程序,实现上述任一项所述的基于SNP数据的预测方法的步骤。
本申请基于SNP数据的预测设备具体实施方式与上述基于SNP数据的预测方法各实施例基本相同,在此不再赘述。
本申请还提供一种基于SNP数据的预测装置,所述基于SNP数据的预测装置包括:
获取模块,用于获取被试者的SNP数据;
第一处理模块,用于将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。
在本申请的一种可能的实施方式中,所述装置还包括:
第一筛选模块,用于对所述SNP数据进行筛选,得到筛选后的第一筛选数据;
关联模块,用于对所述第一筛选数据进行关联分析,得到关联数据;
第二筛选模块,用于将所述关联数据进行二次筛选,得到与AD相关联的SNP位点数据。
在本申请的一种可能的实施方式中,所述第一筛选模块包括:
检查单元,用于对所述SNP数据进行检查,筛除所述SNP数据位点缺失率大于第一预设值的SNP以及基因分型检出率小于第二预设值的SNP数据;
检验单元,用于对所述SNP数据进行哈温平衡检验,筛除所述SNP数据中P值小于第三预设值的SNP数据;
第一筛选单元,用于筛除最小等位基因频率小于第四预设值的SNP数据,得到筛选后的第一筛选数据。
在本申请的一种可能的实施方式中,所述关联模块包括:
填充单元,用于将所述第一筛选数据进行基因型填充,得到填充后的多个第二SNP位点;
提取单元,用于根据所述第二SNP位点的填充指标,提取所述填充指标的值大于第二预设阈值以及基因型后验概率大于第三预设阈值的第三SNP位点,其中,所述填充指标用于衡量SNP位点的填充效果;
第一确定单元,用于根据提取的所述第三SNP位点,确定关联数据。
在本申请的一种可能的实施方式中,所述处理模块包括:
编码单元,用于使用独热编码方式对所述SNP位点数据进行编码,得到SNP序列;
计算单元,用于将所述SNP序列进行卷积和池化操作,得到SNP特征值;
第二确定单元,用于确定所述SNP特征值的注意力值;
第三确定单元,用于基于所述SNP特征值与所述注意力值,得到目标预测结果。
在本申请的一种可能的实施方式中,所述装置还包括:
第二处理模块,用于使用积分梯度方法对所述分类结果进行处理,得到分类结果所对应的所述SNP位点数据中的多个风险位点,积分梯度方法对输入的所述SNP位点数据的第i个特征的贡献定义式为:
其中,表示使网络输出为0的基线样本,/>表示第i个输入,/>表示神经网络,表示得到的积分梯度值。
在本申请的一种可能的实施方式中,所述装置还包括:
分析模块,用于将所述SNP位点数据进行回归分析,得到回归分析值;
第一确定模块,用于将所述回归分析值与预设阈值作比较,确定小于预设阈值的第一回归值;
第二确定模块,用于确定所述第一回归值对应的SNP位点数据。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于SNP数据的预测方法,其特征在于,所述方法包括以下步骤:
获取被试者的SNP数据;
将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。
2.如权利要求1所述的基于SNP数据的预测方法,其特征在于,所述将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果的步骤之前,包括:
对所述SNP数据进行筛选,得到筛选后的第一筛选数据;
对所述第一筛选数据进行关联分析,得到关联数据;
将所述关联数据进行二次筛选,得到与AD相关联的SNP位点数据。
3.如权利要求2所述的基于SNP数据的预测方法,其特征在于,所述对所述SNP数据进行筛选,得到筛选后的第一筛选数据的步骤,包括:
对所述SNP数据进行检查,筛除所述SNP数据位点缺失率大于第一预设值的SNP以及基因分型检出率小于第二预设值的SNP数据;
对所述SNP数据进行哈温平衡检验,筛除所述SNP数据中P值小于第三预设值的SNP数据;
筛除最小等位基因频率小于第四预设值的SNP数据,得到筛选后的第一筛选数据。
4.如权利要求2所述的基于SNP数据的预测方法,所述对所述第一筛选数据进行关联分析,得到关联数据的步骤,包括:
将所述第一筛选数据进行基因型填充,得到填充后的多个第二SNP位点;
根据所述第二SNP位点的填充指标,提取所述填充指标的值大于第二预设阈值以及基因型后验概率大于第三预设阈值的第三SNP位点,其中,所述填充指标用于衡量SNP位点的填充效果;
根据提取的所述第三SNP位点,确定关联数据。
5.如权利要求1所述的基于SNP数据的预测方法,其特征在于,所述将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果的步骤,包括:
使用独热编码方式对所述SNP位点数据进行编码,得到SNP序列;
将所述SNP序列进行卷积和池化操作,得到SNP特征值;
确定所述SNP特征值的注意力值;
基于所述SNP特征值与所述注意力值,得到目标预测结果。
6.如权利要求1所述的基于SNP数据的预测方法,其特征在于,所述将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果的步骤之后,包括:
使用积分梯度方法对所述分类结果进行处理,得到分类结果所对应的所述SNP位点数据中的多个风险位点,积分梯度方法对输入的所述SNP位点数据的第i个特征的贡献定义式为:
其中,表示使网络输出为0的基线样本,/>表示第i个输入,/>表示神经网络,表示得到的积分梯度值。
7.如权利要求2所述的基于SNP数据的预测方法,其特征在于,所述将所述关联数据进行二次筛选,得到与AD相关联的SNP位点数据的步骤之后,包括:
将所述SNP位点数据进行回归分析,得到回归分析值;
将所述回归分析值与预设阈值作比较,确定小于预设阈值的第一回归值;
确定所述第一回归值对应的SNP位点数据。
8.一种基于SNP数据的预测装置,其特征在于,所述基于SNP数据的预测装置包括:
获取模块,用于获取被试者的SNP数据;
处理模块,用于将所述SNP数据中的SNP位点数据输入至预设预测模型,基于所述预设预测模型,对所述SNP位点数据进行预测处理,输出目标预测结果。
9.一种基于SNP数据的预测设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于SNP数据的预测程序,所述基于SNP数据的预测程序配置为实现如权利要求1至7中任一项所述的基于SNP数据的预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于SNP数据的预测程序,所述基于SNP数据的预测程序被处理器执行时实现如权利要求1至7中任一项所述的基于SNP数据的预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310243178.8A CN116525108A (zh) | 2023-03-14 | 2023-03-14 | 基于snp数据的预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310243178.8A CN116525108A (zh) | 2023-03-14 | 2023-03-14 | 基于snp数据的预测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116525108A true CN116525108A (zh) | 2023-08-01 |
Family
ID=87391062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310243178.8A Pending CN116525108A (zh) | 2023-03-14 | 2023-03-14 | 基于snp数据的预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116525108A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959561A (zh) * | 2023-09-21 | 2023-10-27 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
-
2023
- 2023-03-14 CN CN202310243178.8A patent/CN116525108A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959561A (zh) * | 2023-09-21 | 2023-10-27 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
CN116959561B (zh) * | 2023-09-21 | 2023-12-19 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uffelmann et al. | Genome-wide association studies | |
Schaid et al. | From genome-wide associations to candidate causal variants by statistical fine-mapping | |
Valdar et al. | Mapping in structured populations by resample model averaging | |
Jia et al. | Mapping quantitative trait loci for expression abundance | |
Wilfert et al. | Genome-wide significance testing of variation from single case exomes | |
US20150066378A1 (en) | Identifying Possible Disease-Causing Genetic Variants by Machine Learning Classification | |
Yin et al. | Using the structure of genome data in the design of deep neural networks for predicting amyotrophic lateral sclerosis from genotype | |
JP6312253B2 (ja) | 形質予測モデル作成方法および形質予測方法 | |
Aguet et al. | Molecular quantitative trait loci | |
Huang et al. | Evaluation of variant detection software for pooled next-generation sequence data | |
Zou et al. | Nonparametric Bayesian variable selection with applications to multiple quantitative trait loci mapping with epistasis and gene–environment interaction | |
WO2020086433A1 (en) | Methods and apparatus for phenotype-driven clinical genomics using a likelihood ratio paradigm | |
CN113593630A (zh) | 一种家庭冠心病患病风险评估及其风险因素鉴定系统 | |
JP2007122418A (ja) | 予測方法、予測装置および予測プログラム | |
CN116525108A (zh) | 基于snp数据的预测方法、装置、设备及存储介质 | |
Ballard et al. | Shared components of heritability across genetically correlated traits | |
US20240029827A1 (en) | Method for determining the pathogenicity/benignity of a genomic variant in connection with a given disease | |
Sigurdsson et al. | Deep integrative models for large-scale human genomics | |
D’Antonio et al. | Fine mapping spatiotemporal mechanisms of genetic variants underlying cardiac traits and disease | |
Karp et al. | Improving the identification of phenotypic abnormalities and sexual dimorphism in mice when studying rare event categorical characteristics | |
CN111128300B (zh) | 基于突变信息的蛋白相互作用影响判断方法 | |
Lin et al. | Integrated rare variant-based risk gene prioritization in disease case-control sequencing studies | |
KR101771042B1 (ko) | 질병 관련 유전자 탐색 장치 및 그 방법 | |
Steuerman et al. | Exploiting gene-expression deconvolution to probe the genetics of the immune system | |
CN116259359A (zh) | 基于基因影像组的预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |