CN112530521B - 基于生成对抗网络的snp上位交互识别方法、系统及应用 - Google Patents
基于生成对抗网络的snp上位交互识别方法、系统及应用 Download PDFInfo
- Publication number
- CN112530521B CN112530521B CN202011395988.8A CN202011395988A CN112530521B CN 112530521 B CN112530521 B CN 112530521B CN 202011395988 A CN202011395988 A CN 202011395988A CN 112530521 B CN112530521 B CN 112530521B
- Authority
- CN
- China
- Prior art keywords
- snp
- network
- model
- sample
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000003993 interaction Effects 0.000 title claims abstract description 27
- 230000000694 effects Effects 0.000 claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 230000002452 interceptive effect Effects 0.000 claims abstract description 19
- 239000000523 sample Substances 0.000 claims description 112
- 238000012549 training Methods 0.000 claims description 44
- 201000010099 disease Diseases 0.000 claims description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 14
- 238000004088 simulation Methods 0.000 claims description 13
- 238000013178 mathematical model Methods 0.000 claims description 11
- 230000008485 antagonism Effects 0.000 claims description 9
- 239000013068 control sample Substances 0.000 claims description 7
- 238000013173 literature analysis Methods 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 2
- 230000000996 additive effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 10
- 238000010801 machine learning Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 241000282414 Homo sapiens Species 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000000528 statistical test Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000002773 nucleotide Substances 0.000 description 4
- 125000003729 nucleotide group Chemical group 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000001717 pathogenic effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Physiology (AREA)
- Artificial Intelligence (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computational Linguistics (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于高阶SNP上位交互检测技术领域,公开了一种基于生成对抗网络的SNP上位交互识别方法、系统及应用,对抗网络,输入SNP上位模型的参数,输出是SNP组合的样本矩阵,根据SNP上位模型参数产生样本数据集;生成对抗网络对SNP上位模型进行统一的训练,识别器判别输入的SNP组合是否具有上位效应,正确输出上位效应所属的上位模型类型。本发明不同于传统的机器学习方法利用神经网络学习K‑order SNP上位交互模型。本发明可以用于从全基因组中快速识别SNP上位交互组合的方法,识别准确率高,对上位模型的没有偏好性,并且可以正确识别多种不同种类的SNP上位交互组合的模型类型,为生物科学家提供理论依据。
Description
技术领域
本发明属于高阶SNP上位交互检测技术领域,尤其涉及一种基于生成对抗网络的SNP上位交互识别方法、系统及应用。
背景技术
目前:单核苷酸多态(Single Nucleotide Polymorphism,SNP)是指在基因组水平上单个碱基位点变异引起的多态性,可能是单个碱基的转换(transition)或颠换(transversion),也可能是由于碱基的插入或缺失所致。在序列1中的一个碱基对C-G在序列2中表现为A-T,该位点就被称为1个SNP位点。在人类全基因组上,这样的SNP位点超过300万个,通常情况下,绝大部分SNP不会给人类的健康带来威胁,但是,有些SNP变异位点与人类的健康密切关联。SNP上位效应(epistatic effect):表示一个基因或SNP之间的相互作用,传统定义为一个位点上的等位基因掩盖了另一个等位基因表型的表达。多SNP上位(multiple SNPs epistasis):也成为高阶SNP上位组合,是指多个SNP联合作用于表型的表达,例如,SNP上位组合(S1,S2,S3),只有这三个SNP位点组合在一起才能够在疾病样本和正常样本之间表现出显著的统计差异,缺失其中任何一个SNP,则会表现为无显著性差异。也就是说,某个人在这几个DNA位点上同时表现出了SNP多态性(碱基突变),得病的概率会明显增高。
由于高阶SNP上位组合模型丰富多样,传统的方法,如互信息法、贝叶斯网络法、卡方检验法、多因子维度缩减法(DMR),基尼系数等方法通常只能正确识别很少的SNP上位组合模型,并且无法正确输出所识别的SNP上位组合所属的模型类型。目前还不存在任何一种方法能够很好地识别SNP上位组合及其类型。
现有的高阶SNP上位检测方法有:统计检验方法(Statistictestmethod)。统计检验方法是基于假设检验理论,根据疾病(Case)样本和正常(Control)样本中SNP组合对应基因型的分布进行差异显著性分析,筛选出Case和Control样本中基因型分布具有显著性差异的SNP组合。该类方法主要面临的挑战有:(1)克服多重检验的问题(2)阈值难以有效控制,不同的模型,不同的样本量等,其统计阈值往往都不同。(3)不能识别SNP上位的所属类型。
基于信息论的方法,如条件熵、互信息(MutualInformation,MI)、信息增益、基尼系数等。该类方法采用信息论的思想,分析SNP组合对应的基因型与疾病状态的关联强度,具有计算量小的特点,但是,对于复杂的SNP上位模型,识别能力很低。
基于机器学习(MachineLearning,ML)的方法,如支持向量机,随机森林,逻辑回归,MDR等。基于机器学习的方法通过对指定SNP组合对应的样本数据进行训练和测试,计算该SNP组合对Case和Control样本的分类准确率。该类方法能够克服对上位模型的识别偏好性,但是,由于其需要对所有可能的SNP组合进行训练和测试,计算量很大,难以适用于人类全基因组的检测;另外,也不能识别SNP上位的所属类型。
基于贝叶斯网络的评价方法(Bayesian network-based method)。贝叶斯网络是一个两层概率图形模型,其中一层由一组SNP节点组成,另一层由一个疾病节点组成。它们的条件依赖关系表示为有向无环图中的一组边。该方法优点计算量较小,但是具有对SNP上位模型的偏好性,对不同阶数的SNP组合,阈值难以控制。
目前,针对高阶SNP上位组合的识别问题,主要存在的问题有:(1)难以克服对SNP上位模型的偏好性问题;(2)不能识别SNP上位的类型;(3)传统的方法(贝叶斯网络法,基尼系数,互信息等方法);(4)基于机器学习的方法尽管能够克服对上位模型的识别偏好性,但是,由于其需要对所有可能的SNP组合进行训练和测试,计算量极大,难以适用于人类全基因组的检测;(5)统计检验方法,如卡方检验等需要进行多重检验,计算量大,统计阈值不好控制。因此,如何能够正确鉴别致病的高阶SNP上位组合,是一个巨大挑战。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术过于依赖SNP上位模型,导致识别方法存在对SNP上位模型的偏好性,难以适用于未知模型的检测。
(2)现有统计检验方法使用的P-value阈值由人为确定,导致识别准确率不高,对第一类错误和第二类错误难以控制。
(3)现有方法不能识别出SNP上位组合所属的上位类型。
解决以上问题及缺陷的难度为:
(1)SNP上位交互模型丰富多样,现有方法通常只能正确识别少部分交互模型。
(2)现有的SNP上位识别方法基本都是通过样本集中的SNP组合对应的基因型进行统计计算,采用多重检验等方法,计算量很大。
(3)现有方法只能识别某一SNP组合是否具有上位效应,不能判断出上位效应所属类型,对后期分析提供支持不足。
解决以上问题及缺陷的意义为:
(1)本发明的方法采用基于深度神经网络的方法,对存在的各种SNP上位模型进行训练学习,建立一个功能强大的识别网络,使其能够进行多种SNP上位交互模型的识别。
(2)当网络训练好之后,对后续的SNP上位检测提供方便,只需要将SNP组合对应的基因型数据输入网络,网络会很快判断该SNP组合是否具有上位效应,并给出所属的上位效应类型。
(3)较现有的方法,本发明方法从计算速度和识别能力上都有了较大的提升。
发明内容
针对现有技术存在的问题,本发明提供了一种基于生成对抗网络的SNP上位交互识别方法、系统及应用。
本发明是这样实现的,一种基于生成对抗网络的SNP上位交互识别方法,所述基于生成对抗网络的SNP上位交互识别方法生成对抗网络。生成器网络用于生成接近真实SNP上位模型的数据,网络输入SNP上位模型的参数,输出是SNP组合的基因型样本矩阵;判别器网络用于正确识别某一SNP组合是否具有上位效应,并且可以识别出上位效应的类型,该网络在训练时将生成器网络的输出和已知真实的SNP上位模型仿真数据输入其中,输出是上位的类型;当训练完成后,判别器网络就可以用于SNP组合的上位效应识别。
生成对抗网络对SNP上位模型进行统一的训练,识别器判别输入的SNP组合是否具有上位效应,正确输出上位效应所属的上位模型类型。
所述训练对一个SNP组合所对应的样本矩阵进行识别,输入是将SNP组合对应的正常样本和疾病样本分开,形成两个样本矩阵,组合成双通道输入;将正常样本矩阵和疾病样本矩阵组合成双通道图片输入网络进行识别。
进一步,所述基于生成对抗网络的SNP上位交互识别方法具体包括:
第一步,SNP上位模型整合与构建,通过先验的知识、历史文献分析、统计分析法对可能存在的SNP上位模型进行分类整理,构建数学模型;
(1)收集整理现有的SNP上位模型、参数等
(2)首先对模型进行分类,如加性模型,阈值模型,乘法模型等。
(3)对每个模型的参数进行进一步的划分,建立数学模型。
(4)根据(3)的模型参数和数学模型,生成大量上位模型仿真数据集。
第二步,训练生成器网络:生成器网络和判别器网络;
(1)根据第一步中的SNP上位模型参数,依据Hard-Weinberg equilibrium原理,产生具有上位效应的k-阶SNP上位样本数据集,准备生成对抗网络(GAN)的构建和训练。
(2)训练生成器网络。生成器网络的输入是SNP上位模型参数(参数的取值是在一定的范围内)。根据参数的取值方法(或分布)随机生成参数值,输入网络。网络输出该参数对应的模型数据集。该网络的目标是生成的数据接近于(1)生成的仿真数据
(3)训练判别器网络。判别器网络的输入是(1)生成的SNP上位仿真数据集和(2)中生成器网络输出的数据集。输出是SNP上位的类型。该网络的目标是能够正确区分出是(1)生成的真实仿真数据,还是(2)中生成器网络生成的数据。
(4)重复(2)(3)两步,直到满足终止条件结束训练。
第三步,对于判别器网络,输入的数据需要按照SNP组合的基因型进行排序处理:
第四步,分别对Control和Case样本,根据基因型对SNP组合对应的数据进行排序,输入判别器网络,让其进行分类判别;如果Control样本个数与Case样本个数不同,用-1填充,使得样本量大小一致;
第五步,训练生成对抗网络。
进一步,所述第一步具体包括:
模型1:
模型2:
模型3:
进一步,所述第二步具体包括:
(1)训练生成器:将SNP上位模型参数随机输入生成器网络,网络输出假的SNP上位样本数据;
(2)训练判别器:将生成器生成的样本数据和真实的SNP上位样本数据输入判别器网络,通过训练,使得判别器能够很好的区分出真实的SNP上位样本数据和生成器产生的样本数据,并且能够输出SNP上位模型的所属类型;
(3)利用测试样本数据对判别器进行测试,如果判别器的分类效果达到满意效果,结束训练,否则重复(1)和(2),直到判别器的分类能力满足结束条件。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:生成对抗网络,输入SNP上位模型的参数,输出是SNP组合的样本矩阵,根据SNP上位模型参数产生样本数据集;生成对抗网络对SNP上位模型进行统一的训练,识别器判别输入的SNP组合是否具有上位效应,正确输出上位效应所属的上位模型类型。
所述训练对一个SNP组合所对应的样本矩阵进行识别,输入是将SNP组合对应的正常样本和疾病样本分开,形成两个样本矩阵,组合成双通道输入;将正常样本矩阵和疾病样本矩阵组合成双通道图片输入网络进行识别。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:生成对抗网络,输入SNP上位模型的参数,输出是SNP组合的样本矩阵,根据SNP上位模型参数产生样本数据集;生成对抗网络对SNP上位模型进行统一的训练,识别器判别输入的SNP组合是否具有上位效应,正确输出上位效应所属的上位模型类型。
所述训练对一个SNP组合所对应的样本矩阵进行识别,输入是将SNP组合对应的正常样本和疾病样本分开,形成两个样本矩阵,组合成双通道输入;将正常样本矩阵和疾病样本矩阵组合成双通道图片输入网络进行识别。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的基于生成对抗网络的SNP上位交互识别方法。
本发明的另一目的在于提供一种实施所述基于生成对抗网络的SNP上位交互识别方法的基于生成对抗网络的SNP上位交互识别系统,所述基于生成对抗网络的SNP上位交互识别系统包括:
SNP上位模型整合与构建模块,用于通过先验的知识、历史文献分析、统计分析法等对可能存在的SNP上位模型进行分类整理,构建数学模型;
样本数据集处理模块,用于根据SNP上位模型参数,生成大量样本数据集,根据Hard-Weinbergequilibrium原理,可以产生具有上位效应的k-阶SNP上位样本数据集和假的SNP上位样本数据集;
样本数据排序处理模块,用于分别对Control和Case样本,根据基因型对SNP组合对应的数据进行排序,输入判别器网络,让其进行分类判别;
样本量大小一致处理模块,用于使得样本量大小一致;
对抗网络生成模块,用于训练生成对抗网络。
本发明的另一目的在于提供一种从全基因组中快速识别SNP上位组合的方法,所述从全基因组中快速识别SNP上位组合的方法使用所述的基于生成对抗网络的SNP上位交互识别方法。
本发明的另一目的在于提供一种识别多种不同种类的SNP上位组合的模型类型的方法,所述识别多种不同种类的SNP上位组合的模型类型的方法使用所述的基于生成对抗网络的SNP上位交互识别方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明采用生成对抗网络,其中的生成器可以根据SNP上位模型参数产生样本数据集;判别器(识别器)用于判别真实的SNP上位组合与非致病的SNP组合的识别。本发明设计的生成对抗网络可以对目前已经发现的SNP上位模型进行统一的训练,识别器不但可以判别输入的SNP组合是否具有上位效应,而且可以正确输出该上位效应所属的上位模型类型。本发明中的判别器网络不同于传统的单样本训练方法,是对一个SNP组合所对应的样本矩阵进行识别。它的输入是将该SNP组合对应的正常(Control)样本和疾病(Case)样本分开,形成两个样本矩阵,进而组合成双通道输入。类似于RGB图像的3通道输入模式,本发明是将正常(Control)样本矩阵和疾病(Case)样本矩阵组合成双通道图片输入网络进行识别。
本发明中的生成器网络的输入是SNP上位模型的参数(少见等位基因频率MAF,外显率Penetrance,患病率Prevalence,遗传力Heritability),输出是SNP组合的样本矩阵。本发明能够解决现有技术对SNP上位检测的鉴别正确率低和对SNP上位模型偏好性问题;本发明能够解决现有检测技术能够从高维的全基因组数据中检测出SNP上位组合,并且能够正确判断出该SNP上位组合的类型;本发明能够根据已知的SNP上位模型,采用生成对抗网络进行自我学习和训练,不断提升对SNP模型的自我认知。
本发明提出一种可以用于从全基因组中快速识别SNP上位组合的方法,该方法具有识别准确率高,对上位模型的没有偏好性,并且可以正确识别多种不同种类的SNP上位组合的模型类型。从而为生物科学家提供理论依据。
与现有技术相比,本发明具有以下优势:本发明不同于传统的机器学习方法(如MDR,SVM等),是利用神经网络学习K-order SNP上位模型。
(1)首先将SNP上位模型产生的样本中的Control和Case分开,形成两个相同大小的基因型矩阵(如果其中一个矩阵中的数量较少,可以采用全是-1的基因型填充)。
(2)然后将两个矩阵中的数据按照基因型升序(或降序)排序。
(3)将排好序的两个基因型矩阵(可以看做一个双原色图片)作为输入(双通道输入),输入判别器(识别器)网络,输出该SNP上位模型的类型。
本发明通过生成对抗网络,进行大量的自我(生成器和判别器)训练和测试,可以有效地对各种k-order SNP上位模型进行训练学习。训练好的判别器对SNP上位模型不具有偏好性,具有识别速度快,准确率高等优势。
本发明训练好的识别器,相比传统的机器学习方法、贝叶斯网络法、统计检验法等,通用性强,没有模型的偏好性,速度快,并且可以判别出SNP上位模型的类型(这是其它方法不具有的能力)。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于生成对抗网络的SNP上位交互识别方法流程图。
图2是本发明实施例提供的基于生成对抗网络的SNP上位交互识别方法系统的结构示意图;
图2中:1、SNP上位模型整合与构建模块;2、样本数据集处理模块;3、样本数据排序处理模块;4、样本量大小一致处理模块;5、对抗网络生成模块。
图3是本发明实施例提供的基于生成对抗网络的SNP上位交互识别方法的实现流程图。
图4是本发明实施例提供的生成对抗网络的训练过程示意图
图5是本发明实施例提供的判别器网络结构图,左侧输入control和Case样本数据同时输入(采用双通道模式)。
图6是本发明实施例提供的判别器网络图(将Control样本数据和Case样本数据分开,作为输入层的两个通道)。
图7是本发明实施例提供的判别器网络的训练过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于生成对抗网络的SNP上位交互识别方法、系统及应用,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的基于生成对抗网络的SNP上位交互识别方法包括以下步骤:
S101:SNP上位模型整合与构建,通过先验的知识、历史文献分析、统计分析法等对可能存在的SNP上位模型进行分类整理,构建数学模型;
S102:根据SNP上位模型参数,生成大量样本数据集,根据Hard-Weinbergequilibrium原理,可以产生具有上位效应的k-阶SNP上位样本数据集和假的SNP上位样本数据集;
S103:对样本数据进行排序处理:分别对Control和Case样本,根据基因型对SNP组合对应的数据进行排序,输入判别器网络,让其进行分类判别;
S104:如果Control样本个数与Case样本个数不同,用-1来填充,使得样本量大小一致;
S105:训练生成对抗网络。
本发明提供的基于生成对抗网络的SNP上位交互识别方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的基于生成对抗网络的SNP上位交互识别方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的基于生成对抗网络的SNP上位交互识别系统包括:
SNP上位模型整合与构建模块1,用于通过先验的知识、历史文献分析、统计分析法等对可能存在的SNP上位模型进行分类整理,构建数学模型;
样本数据集处理模块2,用于根据SNP上位模型参数,生成大量样本数据集,根据Hard-Weinberg equilibrium原理,可以产生具有上位效应的k-阶SNP上位样本数据集和假的SNP上位样本数据集;
样本数据排序处理模块3,用于分别对Control和Case样本,根据基因型对SNP组合对应的数据进行排序,输入判别器网络,让其进行分类判别;
样本量大小一致处理模块4,用于使得样本量大小一致;
对抗网络生成模块5,用于训练生成对抗网络。
下面结合附图对本发明的技术方案作进一步的描述。
SNP:单核苷酸多态性(Single nucleotide polymorphism);多SNP上位(epistasis)组合:多个SNP位点协同作用于疾病状态。
如图3所示,本发明提供的基于生成对抗网络的SNP上位交互识别方法包括以下步骤:
(1)SNP上位模型整合与构建,通过先验的知识、历史文献分析、统计分析法等对可能存在的SNP上位模型进行分类整理,构建数学模型。例如:
模型1:
模型2:
模型3:
(2)根据SNP上位模型参数,生成大量样本数据集,根据Hard-Weinbergequilibrium原理,可以产生具有上位效应的k-order(k-阶)SNP上位样本数据集和假的SNP上位样本数据集(作为测试样本数据)。
(3)对样本数据进行排序处理:分别对Control和Case样本,根据基因型对SNP组合对应的数据进行排序,然后输入判别器网络,让其进行分类判别。如图5和图6所示。
(4)如果Control样本个数与Case样本个数不同,用-1来填充,使得样本量大小一致。
(5)训练生成对抗网络(Generative Adversarial Network)。
(5.1)训练生成器:将SNP上位模型参数(参数有一定的取值范围)随机输入生成器网络,网络输出假的SNP上位样本数据,该网络的目标是减少输出样本数据和真实SNP上位样本数据的分布差异性。
(5.2)训练判别器(识别器):将生成器生成的样本数据和真实的SNP上位样本数据输入判别器网络,通过训练,使得判别器能够很好的区分出真实的SNP上位样本数据和生成器产生的样本数据,并且能够输出SNP上位模型的所属类型。
(5.3)利用测试样本数据对判别器进行测试,如果判别器的分类效果达到满意效果,结束训练,否则重复5.1和5.2,直到判别器的分类能力满足结束条件。
本发明可替代的方案是对其中的生成网络和判别网络进行修改,构建的不同的网络模型。
为了验证本发明的有效性,本发明对构建的12个2-阶的SNP上位交互模型了进行训练,图7展示了判别器网络的训练过程,可以看出该网络对测试数据的识别准确度为98.26%。然后,利用训练好的判别进行2-阶SNP上位交互的识别检测,表1给出了对12个仿真数据集(每个数据集包含有100个具有100个SNP位点的仿真数据,每个仿真数据有1000个Control样本和1000个Case样本)的检测结果,表中给出了5个方法的检测能力比较。
表1.五种关联性评价方法的评价结果准确性比较(12个具有边际效应的DME模型,样本量为1000,SNP个数为100;其中MDR和本发明方法是依据分类结果评价;互信息,贝叶斯网络和基尼系数是通过评价所有可能的2-order SNP组合,其关联性评分最高的组合被认定为SNP上位组合,如果该组合恰恰就是致病组合,这评价准确,否则认定为错误。)
模型 | 互信息 | 贝叶斯网络 | 基尼系数 | MDR | 本发明方法 |
DME-1 | 12% | 15% | 23% | 49% | 73% |
DME-2 | 14% | 18% | 26% | 53% | 79% |
DME-3 | 15% | 21% | 31% | 48% | 82% |
DME-4 | 23% | 31% | 35% | 56% | 85% |
DME-5 | 38% | 43% | 41% | 66% | 96% |
DME-6 | 56% | 59% | 47% | 75% | 97% |
DME-7 | 67% | 72% | 67% | 77% | 98% |
DME-8 | 83% | 85% | 73% | 81% | 100% |
DME-9 | 87% | 86% | 77% | 85% | 100% |
DME-10 | 88% | 92% | 79% | 73% | 100% |
DME-11 | 79% | 86% | 82% | 72% | 98% |
DME-12 | 91% | 94% | 89% | 84% | 100% |
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种基于生成对抗网络的SNP上位交互识别方法,其特征在于,所述基于生成对抗网络的SNP上位交互识别方法生成器网络用于生成接近真实SNP上位模型的数据,网络输入SNP上位模型的参数,输出是SNP组合的基因型样本矩阵;判别器网络用于正确识别某一SNP组合是否具有上位效应,并且识别出上位效应的类型,该网络在训练时将生成器网络的输出和已知真实的SNP上位模型仿真数据输入其中,输出是上位的类型;当训练完成后,判别器网络就用于SNP组合的上位效应识别;
生成对抗网络对SNP上位模型进行统一的训练,识别器判别输入的SNP组合是否具有上位效应,正确输出上位效应所属的上位模型类型;
所述训练对一个SNP组合所对应的样本矩阵进行识别,输入是将SNP组合对应的正常样本和疾病样本分开,形成两个样本矩阵,组合成双通道输入;将正常样本矩阵和疾病样本矩阵组合成双通道图片输入网络进行识别;
所述基于生成对抗网络的SNP上位交互识别方法具体包括:
第一步,SNP上位模型整合与构建,通过先验的知识、历史文献分析、统计分析法对可能存在的SNP上位模型进行分类整理,构建数学模型;
(1)收集整理现有的SNP上位模型、参数;
(2)首先对模型进行分类,如加性模型,阈值模型,乘法模型;
(3)对每个模型的参数进行进一步的划分,建立数学模型;
(4)根据(3)的模型参数和数学模型,生成大量上位模型仿真数据集;
第二步,训练生成器网络:生成器网络和判别器网络;
(1)根据第一步中的SNP上位模型参数,依据Hard-Weinberg equilibrium原理,产生具有上位效应的k-阶SNP上位样本数据集,准备生成对抗网络GAN的构建和训练;
(2)训练生成器网络,生成器网络的输入是SNP上位模型参数,根据参数的取值方法或分布随机生成参数值,输入网络,网络输出该参数对应的模型数据集,该网络的目标是生成的数据接近于(1)生成的仿真数据;
(3)训练判别器网络,判别器网络的输入是(1)生成的SNP上位仿真数据集和(2)中生成器网络输出的数据集;输出是SNP上位的类型;该网络的目标是能够正确区分出是(1)生成的真实仿真数据,还是(2)中生成器网络生成的数据;
(4)重复(2)(3)两步,直到满足终止条件结束训练;
第三步,对于判别器网络,输入的数据需要按照SNP组合的基因型进行排序处理:
第四步,分别对Control和Case样本,根据基因型对SNP组合对应的数据进行排序,输入判别器网络,进行分类判别;如果Control样本个数与Case样本个数不同,用-1填充,使得样本量大小一致;
第五步,训练生成对抗网络。
2.如权利要求1所述的基于生成对抗网络的SNP上位交互识别方法,其特征在于,所述第一步具体包括:
模型1:
模型2:
模型3:
3.如权利要求1所述的基于生成对抗网络的SNP上位交互识别方法,其特征在于,所述第五步具体包括:
(1)训练生成器:将SNP上位模型参数随机输入生成器网络,网络输出生成的SNP上位样本数据;
(2)训练判别器:将生成器生成的样本数据和真实的SNP上位样本数据分别输入判别器网络,通过训练,使得判别器能够很好的区分出真实的SNP上位样本数据和生成器产生的样本数据,并且能够输出SNP上位模型的所属类型;
(3)利用测试样本数据对判别器进行测试,如果判别器的分类效果达到满意效果,结束训练,否则重复(1)和(2),直到判别器的分类能力满足结束条件。
4.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1所述方法的步骤。
5.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1所述方法的步骤。
6.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~3任意一项所述的基于生成对抗网络的SNP上位交互识别方法。
7.一种实施权利要求1~3任意一项所述基于生成对抗网络的SNP上位交互识别方法的基于生成对抗网络的SNP上位交互识别系统,其特征在于,所述基于生成对抗网络的SNP上位交互识别系统系统包括:
SNP上位模型整合与构建模块,用于通过先验的知识、历史文献分析、统计分析法对可能存在的SNP上位模型进行分类整理,构建数学模型;
样本数据集处理模块,用于根据SNP上位模型参数,生成大量样本数据集,根据Hard-Weinberg equilibrium原理,产生具有上位效应的k-阶SNP上位样本数据集和假的SNP上位样本数据集;
样本数据排序处理模块,用于分别对Control和Case样本,根据基因型对SNP组合对应的数据进行排序,输入判别器网络,让其进行分类判别;
样本量大小一致处理模块,用于使得样本量大小一致;
对抗网络生成模块,用于训练生成对抗网络。
8.一种从全基因组中快速识别SNP上位组合的方法,其特征在于,所述从全基因组中快速识别SNP上位组合的方法使用权利要求1~3任意一项所述的基于生成对抗网络的SNP上位交互识别方法。
9.一种识别多种不同种类的SNP上位组合的模型类型的方法,其特征在于,所述识别多种不同种类的SNP上位组合的模型类型的方法使用权利要求1~3任意一项所述的基于生成对抗网络的SNP上位交互识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011395988.8A CN112530521B (zh) | 2020-12-03 | 2020-12-03 | 基于生成对抗网络的snp上位交互识别方法、系统及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011395988.8A CN112530521B (zh) | 2020-12-03 | 2020-12-03 | 基于生成对抗网络的snp上位交互识别方法、系统及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112530521A CN112530521A (zh) | 2021-03-19 |
CN112530521B true CN112530521B (zh) | 2024-01-12 |
Family
ID=74996636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011395988.8A Active CN112530521B (zh) | 2020-12-03 | 2020-12-03 | 基于生成对抗网络的snp上位交互识别方法、系统及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112530521B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10354747B1 (en) * | 2016-05-06 | 2019-07-16 | Verily Life Sciences Llc | Deep learning analysis pipeline for next generation sequencing |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3542296B1 (en) * | 2016-11-18 | 2021-04-14 | NantOmics, LLC | Methods and systems for predicting dna accessibility in the pan-cancer genome |
CN109753998A (zh) * | 2018-12-20 | 2019-05-14 | 山东科技大学 | 基于对抗式生成网络的故障检测方法及系统、计算机程序 |
US11842794B2 (en) * | 2019-03-19 | 2023-12-12 | The University Of Hong Kong | Variant calling in single molecule sequencing using a convolutional neural network |
-
2020
- 2020-12-03 CN CN202011395988.8A patent/CN112530521B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10354747B1 (en) * | 2016-05-06 | 2019-07-16 | Verily Life Sciences Llc | Deep learning analysis pipeline for next generation sequencing |
Also Published As
Publication number | Publication date |
---|---|
CN112530521A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chalise et al. | Integrative clustering of multi-level ‘omic data based on non-negative matrix factorization algorithm | |
Liang et al. | Gene regulatory network reconstruction using conditional mutual information | |
Soneson et al. | Batch effect confounding leads to strong bias in performance estimates obtained by cross-validation | |
CN105389480B (zh) | 多类不平衡基因组学数据迭代集成特征选择方法及系统 | |
CN109388712A (zh) | 一种基于机器学习的行业分类方法及终端设备 | |
US20190042917A1 (en) | Techniques for determining artificial neural network topologies | |
CN106682454A (zh) | 一种宏基因组数据分类方法和装置 | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
Kurtz et al. | Disentangling microbial associations from hidden environmental and technical factors via latent graphical models | |
Murray-Watters et al. | What is going on inside the arrows? Discovering the hidden springs in causal models | |
CN112270957B (zh) | 高阶snp致病组合数据检测方法、系统、计算机设备 | |
CN112530521B (zh) | 基于生成对抗网络的snp上位交互识别方法、系统及应用 | |
CN110929301B (zh) | 一种基于提升算法的硬件木马检测方法 | |
CN107273715A (zh) | 一种检测方法及装置 | |
Uppu et al. | Rule-based analysis for detecting epistasis using associative classification mining | |
Ostner et al. | tascCODA: Bayesian tree-aggregated analysis of compositional amplicon and single-cell data | |
Hira et al. | An algorithm for finding biologically significant features in microarray data based on a priori manifold learning | |
Yang et al. | Species identification by Bayesian fingerprinting: a powerful alternative to DNA barcoding | |
CN105893789A (zh) | 一种显著性分析方法 | |
Shemirani et al. | Selecting Clustering Algorithms for IBD Mapping | |
Krachunov et al. | Machine learning models in error and variant detection in high-variation high-throughput sequencing datasets | |
CN107609348B (zh) | 高通量转录组数据样本分类数目估计方法 | |
Tanaka et al. | An adaptation of binary relevance for multi-label classification applied to functional genomics | |
Qumsiyeh et al. | GediNETPro: Discovering Patterns of Disease Groups. | |
Shemirani et al. | Selecting Clustering Algorithms for Identity-By-Descent Mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |