CN107025386B - 一种基于深度学习算法进行基因关联分析的方法 - Google Patents

一种基于深度学习算法进行基因关联分析的方法 Download PDF

Info

Publication number
CN107025386B
CN107025386B CN201710174877.6A CN201710174877A CN107025386B CN 107025386 B CN107025386 B CN 107025386B CN 201710174877 A CN201710174877 A CN 201710174877A CN 107025386 B CN107025386 B CN 107025386B
Authority
CN
China
Prior art keywords
snp
sequence
input
gate
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710174877.6A
Other languages
English (en)
Other versions
CN107025386A (zh
Inventor
颜成钢
盛再超
彭冬亮
薛安克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710174877.6A priority Critical patent/CN107025386B/zh
Publication of CN107025386A publication Critical patent/CN107025386A/zh
Application granted granted Critical
Publication of CN107025386B publication Critical patent/CN107025386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度学习算法进行基因关联分析的方法。本发明基于SNP集分析的方法需要借鉴来自同一个体不同位置但是相关的SNP信息,根据现有生物学知识将个体的SNP分成多个单元。首先在整个染色体层面,根据生物学相关知识,如接近基因组特征的原则,将全体SNP划分成多个SNP集。划分结束后,每一个SNP集输入到搭建的双向LSTM网络中,该网络是一个循环神经网络,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据。LSTM网络学习完成后,可以通过网络的计算,输出对输入数据所需关注程度。本发明具有更好的敏感度和特异度,为临床医学、遗传病学和预防医学的发展研究开拓了新的领域。

Description

一种基于深度学习算法进行基因关联分析的方法
技术领域
本发明具体涉及一种基于LSTM(Long Short-Term Memory)网络进行的基因关联分析方法,所述方法基于深度卷积神经网络和递归神经网络模型,属于生物信息学技术领域。
背景技术
针对基因染色体碱基对与致病的关联研究一直是生物信息学的核心研究内容之一。在庞大的数据库中进行数据挖掘,深入了解生物的复杂性,利用现有知识与数据尽最大可能分析,但是由于基因存在多态性,在生物群体中,经常存在两种或多种不连续的变异型或基因型或等位基因,因此选用具有有效性、智能化等特点的机器学习方法来对基因多态性进行研究,可以为临床医学、遗传病学和预防医学的发展研究开拓新的领域。
传统的研究方法利用GWAS(全基因组关联分析)进行病例控制分析,该方法需要对每一个个体的SNP和致病风险进行测定和评估,然后用于鉴定与疾病易感性相关的SNP(单核苷酸的多态性)。该方法需要数量巨大的患病病例以及健康病例的SNP基因分型,且局限于需要检测multi-SNP和上位效应,尽管在多种疾病分析检验中有所成就,但是对于全基因组的分析仍然处于劣势。
改进方法则是利用机器学习的一些模型,例如支持向量机(SVM)、遗传算法(GA)、马尔科夫统计模型(MM)、贝叶斯推理等方法,单独使用或者结合各自优点使用能够提高生物信息学中解决问题的能力。但是传统方法的劣势在于无法处理变长序列,只能使用固定长度的序列片段作为输入,虽然获得了较高的预测效果,但是在随后的研究中发现,序列中距离间隔较大的区域中的残基之间会有相互影响的关系,研究人员不得不考虑这些误差。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习算法处理全基因组分析中对于基因表现型与易感相关性分析的方法,利用深度卷积网络结合LSTM模型对SNP集进行分析,从而提高分析的准确率。
本发明采用了另一种分析策略,结合现有的生物学知识对SNP进行分组,在基因层面基于SNP集的分析需要借鉴来自不同但是相关的SNP信息,利用LSTM网络进行分析研究。如图2所示,该网络具有Input门、Forget门、Output门,可以在学习过程中选择性的进行记忆和遗忘,具有对序列强大的处理和预测能力,系统的输出将会保留在内部网络中,与系统下一阶段的输入一起相互作用,决定下一时间的输出。该循环网络彰显了动力学系统的反馈概念,用来刻画复杂的相互依存和依赖问题。因此该方法对可重复性、可解释性以及分析结果的可能性有显著的提高。
本发明的技术方案如下:
基于SNP集分析的方法需要借鉴来自同一个体不同位置但是相关的SNP信息,根据现有生物学知识将个体的SNP分成多个单元。首先在整个染色体层面,根据生物学相关知识,如接近基因组特征的原则,将全体SNP划分成多个SNP集。划分结束后,每一个SNP集输入到搭建的双向LSTM网络中,该网络是一个循环神经网络,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据。LSTM网络学习完成后,可以通过网络的计算,输出对输入数据所需关注程度。
为实现上述目的,本发明包括以下步骤:
(一)获得SNP集数据
根据生物学知识处理基因数据,形成SNP集可以通过Moving Window(移动窗口方法)、通过Haplotype Blocks(单倍型域分析),例如,可以将染色体按具体确定的数值分成固定长度的SNP集,或者可以利用基于单倍型域分析的方法,通过Haploview(一款单倍体分析软件)切分。但是这些方法均会造成完整性的缺失,对距离相关性的处理依赖于所选取的固定窗口大小,若该窗口过大则会造成训练时间很长或产生过拟合现象,为了改善这个问题,在染色体层面按照基因分布进行区分可以改善这个问题,具体的:
使用基因位置有效区间信息将SNP切分成多块,从而获得SNP集数据,对于任意一个给定的SNP集,它包含有k个个体,每个个体有p个SNP,令第i个个体的SNP为Zi1,Zi2,Zi3,……Zip,i≤k;忽略基因的一般性原则,将每个SNP编码成trinary fashion形式,根据等位基因的影响,对序列中的纯合子、杂合子Zij进行赋值,其中Zij=0,1,2。病例控制状态设为Y,第i个个体记作Yi,其中Yi=1为Case,Yi=0为Control。使用SNP集作为X输入,病例控制状态设为Y输入。
(二)搭建双向LSTM模型
使用LSTM的结构的目的是为了增加一个记忆存储单元,用于存储信息,记忆存储单元的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据,能够更好地挖掘数据中更深层面的内容,
Figure BDA0001252111450000036
由以下的函数复合得到:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
上述式子中σ是逻辑sigmoid函数,i,f,o,c分别为输入门(Input Gate)、遗忘门(Forget Gate)、输出门(Output Gate)和激活载体(Cell),其中i,f,o,c与h具有相同的维度,便于后续的矩阵计算,因此需要与隐藏向量h具有相同的大小。
双向LSTM在水平的上具有相反的方向,因此能够获得较远距离的内容,通过堆叠放置中间的隐藏层,能根据一个隐藏层的输出,形成下一个隐藏层的输入。
假设其中用于隐藏层的层数为N,则隐藏层代表的向量hn通过n=1~N,t=1~T进行迭代计算获得,其中前馈网络隐藏序列为
Figure BDA0001252111450000031
反馈网络隐藏序列为
Figure BDA0001252111450000032
Figure BDA0001252111450000033
Figure BDA0001252111450000034
Figure BDA0001252111450000035
Figure BDA0001252111450000041
定义h0=x,输出为y
Figure BDA0001252111450000042
本发明的特点及有益效果
本发明实现了一种使用深度LSTM神经网络,结合SNP分组分析技术的方法,用于提高对全基因组分析中基因表现型与易感相关性的预测程度的方法。在庞大的数据库中进行数据挖掘,深入了解生物的复杂性,选用具有有效性、智能化等特点的机器学习方法,来对基因多态性进行研究,对于易感基因存在的形式及对基因位点的分析研究具有重要的意义。相比传统GWAS单SNP的分析方法,利用LSTM深度神经网络的搭建,可以利用现有的关系进行学习,从而使未知序列的预测具有较高的准确性,减轻了基因研究者的负担,节约时间,提高分析基因的效率,该方法具有比传统方法更好的敏感度和特异度,为临床医学、遗传病学和预防医学的发展研究开拓了新的领域。
附图说明
图1为本发明的方法流程图;
图2为LSTM网络结构图;
图3为双向LSTM的结构模型;
图4为根据有效位置区间信息对SNP进行分组示意图;
图5为SNP集示意图。
具体实施方式
参考说明书附图1,下面通过实施来具体说明本发明的技术方案,但本发明并不局限于以下实施例子。
步骤1:根据现有生物学知识,在染色体层面按照基因分布进行分割,根据基因存在位置获得SNP的有效位置区间信息,以待后续分割SNP。这里使用了CEU(NorthernEuropeans from Utah)的样本基因作为模拟。
步骤2:假设基于以人群的病例病情对照,采用n个独立个体的基因序列,在染色体层面上对SNP进行翻译,获得所需输入数据。
步骤3:如说明书附图4所示,根据步骤1中获得的位置信息,将步骤2中获得的SNP序列根据有效位置区间信息对SNP进行分组,分成多个SNP集;
步骤4:如说明书附图5所示,对于任意一个给定的SNP集,它包含有k个个体,每个个体有p个SNP,令第i个个体的SNP为Zi1,Zi2,Zi3,……Zip,i≤k;忽略基因的一般性原则,将每个SNP编码成trinary fashion形式,根据等位基因的影响,对序列中的纯合子、杂合子Zij进行赋值,其中Zij=0,1,2。病例控制状态设为Y,第i个个体记作Yi,其中Yi=1为Case,Yi=0为Control。使用SNP集作为X输入,病例控制状态设为Y输入。
步骤5:如说明书附图3所示,搭建双向LSTM模型;
使用LSTM的结构的目的是为了增加一个记忆存储单元,用于存储信息,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据,可以更好地挖掘数据中更深层面的内容,
Figure BDA0001252111450000051
由以下的函数复合得到:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
公式中,Wxi为输入序列x与输入门之间的权值,Whi为隐藏层与输入门之间的权值;Wci为激活载体与输入门之间的权值,bi为输入门为t时的偏差值;
Wxf为输入序列x与遗忘门之间的权值,Whf为隐藏层与遗忘门之间的权值,Wcf为激活载体与遗忘门之间的权值,bf为遗忘门为t时的偏差值;
Wxc为输入序列x与激活载体之间的权值,Whc为隐藏层与激活载体之间的权值,bc为激活载体为t时的偏差值;
Wxo为输入序列x与输出门之间的权值,Who为隐藏层与输出门之间的权值;Wco为激活载体与输出门之间的权值,bo为输出门为t时的偏差值;
ht为t时刻的隐藏层;
上述式子中σ是逻辑sigmoid函数,sigmoid(x)函数为:
Figure BDA0001252111450000061
i,f,o,c分别为输入门(Input Gate)、遗忘门(Forget Gate)、输出门(Output Gate)和激活载体,其中i,f,o,c与h具有相同的维度,便于后续的矩阵计算,因此需要与隐藏向量h具有相同的大小。
双向LSTM在水平的上具有相反的方向,故可以获得较远距离的内容,通过堆叠放置中间的隐藏层,这些隐藏层归属于递归神经网络,可以根据上一个隐藏层的输出,形成下一个隐藏层的输入。
Figure BDA0001252111450000062
定义h0=x,输出为y
Figure BDA0001252111450000063
假设其中用于隐藏层的层数为N,则隐藏层代表的向量hn通过n=1~N,t=1~T进行迭代计算获得。
其中前馈网络隐藏序列为
Figure BDA0001252111450000064
反馈网络隐藏序列为
Figure BDA0001252111450000065
Figure BDA0001252111450000066
Figure BDA0001252111450000067
Figure BDA0001252111450000068
使用上述步骤中的SNP集作为X输入,病例控制状态设为Y输入,由于本例采用模拟数据,因此此处病例控制状态根据随机选定的某个SNP的tranary fashion形式,数值为2则设定为1,数值为0、1则设定为0,将两者输入到搭建的双向LSTM模型中,开始训练双向LSTM模型,并保存训练好的双向LSTM模型。
步骤6:按照步骤1中处理序列的方法,对待预测的基因序列进行处理,并将处理完的基因序列输入训练好的双向LSTM模型,从而得出该待预测的基因序列获病的概率。
以上所述仅为本发明的一个实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于深度学习算法进行基因关联分析的方法,其特征在于包括如下步骤:
步骤1:根据现有生物学知识,在染色体层面按照基因分布进行分割,根据基因存在位置获得SNP的有效位置区间信息,以待后续分割SNP;
步骤2:假设基于以人群的病例病情对照,采用n个独立个体的基因序列,在染色体层面上对SNP进行翻译,获得所需输入数据;
步骤3:根据步骤1中获得的位置信息,将步骤2中获得的SNP序列根据有效位置区间信息对SNP进行分组,分成多个SNP集;
步骤4:对于任意一个给定的SNP集,均包含有k个个体,每个个体有p个SNP,令第i个个体的SNP为Zi1,Zi2,Zi3,……Zip,i≤k;忽略基因的一般性原则,将每个SNP编码成trinaryfashion形式,根据等位基因的影响,对序列中的纯合子、杂合子Zij进行赋值,其中Zij=0,1,2;病例控制状态设为y,第i个个体记作yi,其中yi=1为Case,yi=0为Control;
步骤5:搭建双向LSTM模型;
使用双向LSTM的结构的目的是为了增加一个记忆存储单元,用于存储信息,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据,能够更好地挖掘数据中更深层面的内容,
Figure FDA0002443803210000011
由以下的函数复合得到:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
公式中,Wxi为输入序列x与输入门之间的权值,Whi为隐藏层与输入门之间的权值;Wci为激活载体与输入门之间的权值,bi为输入门为t时的偏差值;
Wxf为输入序列x与遗忘门之间的权值,Whf为隐藏层与遗忘门之间的权值,Wcf为激活载体与遗忘门之间的权值,bf为遗忘门为t时的偏差值;
Wxc为输入序列x与激活载体之间的权值,Whc为隐藏层与激活载体之间的权值,bc为激活载体为t时的偏差值;
Wxo为输入序列x与输出门之间的权值,Who为隐藏层与输出门之间的权值;Wco为激活载体与输出门之间的权值,bo为输出门为t时的偏差值;
ht为t时刻的隐藏层;
上述式子中σ是逻辑sigmoid函数,sigmoid(x)函数为:
Figure FDA0002443803210000021
i,f,o,c分别为输入门、遗忘门、输出门和激活载体,其中i,f,o,c与h具有相同的维度,便于后续的矩阵计算,因此需要与隐藏向量h具有相同的大小;
双向LSTM在水平的上具有相反的方向,通过堆叠放置中间的隐藏层,能够根据上一个隐藏层的输出,形成下一个隐藏层的输入;
假设其中用于隐藏层的层数为N,则隐藏层代表的向量hn通过n=1~N,t=1~T进行迭代计算获得;
其中前馈网络隐藏序列为
Figure FDA0002443803210000022
反馈网络隐藏序列为
Figure FDA0002443803210000023
Figure FDA0002443803210000024
Figure FDA0002443803210000025
Figure FDA0002443803210000026
Figure FDA0002443803210000027
定义h0=x,输出为yt
Figure FDA0002443803210000028
使用上述步骤中的SNP集作为x输入,病例控制状态设为y输入;
步骤6:按照步骤1中处理序列的方法,对待预测的基因序列进行处理,并将处理完的基因序列输入训练好的双向LSTM模型,从而得出该待预测的基因序列易感相关性。
CN201710174877.6A 2017-03-22 2017-03-22 一种基于深度学习算法进行基因关联分析的方法 Active CN107025386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710174877.6A CN107025386B (zh) 2017-03-22 2017-03-22 一种基于深度学习算法进行基因关联分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710174877.6A CN107025386B (zh) 2017-03-22 2017-03-22 一种基于深度学习算法进行基因关联分析的方法

Publications (2)

Publication Number Publication Date
CN107025386A CN107025386A (zh) 2017-08-08
CN107025386B true CN107025386B (zh) 2020-07-17

Family

ID=59526279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710174877.6A Active CN107025386B (zh) 2017-03-22 2017-03-22 一种基于深度学习算法进行基因关联分析的方法

Country Status (1)

Country Link
CN (1) CN107025386B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108390869B (zh) * 2018-02-08 2020-10-27 成都信息工程大学 集成深度学习的车载智能网关装置及其命令序列检测方法
CN110400597A (zh) * 2018-04-23 2019-11-01 成都二十三魔方生物科技有限公司 一种基于深度学习的基因型预测方法
CN108846503B (zh) * 2018-05-17 2022-07-08 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法
CN109063416B (zh) * 2018-07-23 2019-08-27 太原理工大学 基于lstm循环神经网络的基因表达预测方法
CN109492706B (zh) * 2018-11-27 2020-12-01 微医云(杭州)控股有限公司 一种基于循环神经网络的染色体分类预测装置
CN110111848B (zh) * 2019-05-08 2023-04-07 南京鼓楼医院 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法
CN111402951B (zh) * 2020-03-17 2022-07-12 至本医疗科技(上海)有限公司 拷贝数变异预测方法、装置、计算机设备和存储介质
CN111489788B (zh) * 2020-03-27 2022-05-20 北京航空航天大学 解释复杂疾病遗传关系的深度关联核学习系统
CN113128685B (zh) * 2021-04-25 2023-04-07 湖南大学 基于神经网络的自然选择分类和群体规模变化分析系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7774143B2 (en) * 2002-04-25 2010-08-10 The United States Of America As Represented By The Secretary, Department Of Health And Human Services Methods for analyzing high dimensional data for classifying, diagnosing, prognosticating, and/or predicting diseases and other biological states
EP1866818A1 (en) * 2005-03-31 2007-12-19 Koninklijke Philips Electronics N.V. System and method for collecting evidence pertaining to relationships between biomolecules and diseases
JP5503942B2 (ja) * 2009-10-30 2014-05-28 シスメックス株式会社 疾患の罹患の判定方法
EP3286677A4 (en) * 2015-04-22 2019-07-24 Genepeeks, Inc. DEVICE, SYSTEM AND METHOD FOR ASSESSING THE RISK OF VARIATION SPECIFIC GENDYS FUNCTION
KR101860061B1 (ko) * 2015-06-08 2018-05-23 한국과학기술원 심층 신경망 기반 질병 정보 예측 시스템 및 방법
CN106096327B (zh) * 2016-06-07 2018-08-17 广州麦仑信息科技有限公司 基于Torch监督式深度学习的基因性状识别方法
CN106295124B (zh) * 2016-07-27 2018-11-27 广州麦仑信息科技有限公司 多种图像检测技术综合分析基因子图相似概率量的方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
"A Deep Learning Approach to Detect SNP Interactions";Suneetha Uppu等;《Journal of Software》;20161031;第11卷(第10期);第960-975页 *
"A Review on Methods for Detecting SNP Interactions in High-Dimensional Genomic Data";Suneetha Uppu等;《IEEE/ACM Transactions on Computational Biology and Bioinformatics》;20161202;第15卷(第2期);第599-612页 *
"Bidirectional LSTM-CRF Models for Sequence Tagging";Zhiheng Huang等;《https://arxiv.org/abs/1508.0199》;20150809;第1-10页 *
"DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences";Daniel Quang等;《Nucleic acids research》;20160415;第44卷(第11期);第1-6页 *
"Hybrid speech recognition with Deep Bidirectional LSTM";Alex Graves等;《2013 IEEE Workshop on Automatic Speech Recognition and Understanding》;20140109;第273-278页 *
"Similarity computation strategies in the microRNA-disease network: a survey";Quan Zou等;《Briefings in Functional Genomics》;20160131;第15卷(第1期);第55-64页 *
"TOWARDS DEEP LEARNING IN GENOME-WIDE ASSOCIATION INTERACTION STUDIES";Suneetha Uppu等;《2016 Pacific Asia Conference on Information Systems(PACIS)》;20160627;第1-13页 *
"机器学习算法在蛋白质结构预测中的应用";薛燕娜;《中国优秀硕士学位论文全文数据库 基础科学辑》;20170215;第2017年卷(第2期);第5节 *

Also Published As

Publication number Publication date
CN107025386A (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
CN107025386B (zh) 一种基于深度学习算法进行基因关联分析的方法
JP7200294B2 (ja) 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法
JP7247253B2 (ja) 経験的バリアントスコア(evs)ベースの深層学習バリアントコーラ
Broman et al. Characterization of human crossover interference
Edwards et al. High-resolution genetic mapping with pooled sequencing
KR102447812B1 (ko) 서열-특정 오류(sse)를 유발시키는 서열 패턴을 식별하기 위한 심층 학습-기반 프레임워크
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
Noviello et al. Deep learning predicts short non-coding RNA functions from only raw sequence data
Pouladi et al. Recurrent neural networks for sequential phenotype prediction in genomics
Yang et al. Epistasis analysis using an improved fuzzy C-means-based entropy approach
Balding et al. Handbook of statistical genomics
Zhu et al. Genomic prediction of growth traits in scallops using convolutional neural networks
Binder et al. Cluster-localized sparse logistic regression for SNP data
Batbaatar et al. Class-incremental learning with deep generative feature replay for DNA methylation-based cancer classification
Phogat et al. Disease single nucleotide polymorphism selection using hybrid feature selection technique
Diaz et al. Measurement and meaning in gene expression evolution
Lewis Schmalohr et al. Detection of epistatic interactions with Random Forest
CN116959561B (zh) 一种基于神经网络模型的基因相互作用预测方法和装置
CN116994645B (zh) 基于交互式推理网络的piRNA与mRNA靶标对的预测方法
Ko et al. Gene function classification using NCI-60 cell line gene expression profiles
Grealey Deep Learning Approaches for Genomic Prediction and Quantifying Computational Carbon Footprints
Badré Interpretable deep neural networks for more accurate predictive genomics and genome-wide association studies
Vergara Lope Gracia Mathematical tools for analysis of genome function, linkage disequilibrium structure and disease gene prediction
CN118351943A (zh) 一种基于全连接神经网络的阿尔茨海默症基因预测算法
Mao et al. The application of random forest in genetic case-control studies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yan Chenggang

Inventor after: Sheng Zaichao

Inventor after: Peng Dongliang

Inventor after: Xue Anke

Inventor before: Sheng Zaichao

Inventor before: Yan Chenggang

Inventor before: Peng Dongliang

Inventor before: Xue Anke

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant