CN107025386A - 一种基于深度学习算法进行基因关联分析的方法 - Google Patents

一种基于深度学习算法进行基因关联分析的方法 Download PDF

Info

Publication number
CN107025386A
CN107025386A CN201710174877.6A CN201710174877A CN107025386A CN 107025386 A CN107025386 A CN 107025386A CN 201710174877 A CN201710174877 A CN 201710174877A CN 107025386 A CN107025386 A CN 107025386A
Authority
CN
China
Prior art keywords
snp
weights
hidden layer
gene
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710174877.6A
Other languages
English (en)
Other versions
CN107025386B (zh
Inventor
盛再超
颜成钢
彭冬亮
薛安克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710174877.6A priority Critical patent/CN107025386B/zh
Publication of CN107025386A publication Critical patent/CN107025386A/zh
Application granted granted Critical
Publication of CN107025386B publication Critical patent/CN107025386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度学习算法进行基因关联分析的方法。本发明基于SNP集分析的方法需要借鉴来自同一个体不同位置但是相关的SNP信息,根据现有生物学知识将个体的SNP分成多个单元。首先在整个染色体层面,根据生物学相关知识,如接近基因组特征的原则,将全体SNP划分成多个SNP集。划分结束后,每一个SNP集输入到搭建的双向LSTM网络中,该网络是一个循环神经网络,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据。LSTM网络学习完成后,可以通过网络的计算,输出对输入数据所需关注程度。本发明具有更好的敏感度和特异度,为临床医学、遗传病学和预防医学的发展研究开拓了新的领域。

Description

一种基于深度学习算法进行基因关联分析的方法
技术领域
本发明具体涉及一种基于LSTM(Long Short-Term Memory)网络进行的基因关联分析方法,所述方法基于深度卷积神经网络和递归神经网络模型,属于生物信息学技术领域。
背景技术
针对基因染色体碱基对与致病的关联研究一直是生物信息学的核心研究内容之一。在庞大的数据库中进行数据挖掘,深入了解生物的复杂性,利用现有知识与数据尽最大可能分析,但是由于基因存在多态性,在生物群体中,经常存在两种或多种不连续的变异型或基因型或等位基因,因此选用具有有效性、智能化等特点的机器学习方法来对基因多态性进行研究,可以为临床医学、遗传病学和预防医学的发展研究开拓新的领域。
传统的研究方法利用GWAS(全基因组关联分析)进行病例控制分析,该方法需要对每一个个体的SNP和致病风险进行测定和评估,然后用于鉴定与疾病易感性相关的SNP(单核苷酸的多态性)。该方法需要数量巨大的患病病例以及健康病例的SNP基因分型,且局限于需要检测multi-SNP和上位效应,尽管在多种疾病分析检验中有所成就,但是对于全基因组的分析仍然处于劣势。
改进方法则是利用机器学习的一些模型,例如支持向量机(SVM)、遗传算法(GA)、马尔科夫统计模型(MM)、贝叶斯推理等方法,单独使用或者结合各自优点使用能够提高生物信息学中解决问题的能力。但是传统方法的劣势在于无法处理变长序列,只能使用固定长度的序列片段作为输入,虽然获得了较高的预测效果,但是在随后的研究中发现,序列中距离间隔较大的区域中的残基之间会有相互影响的关系,研究人员不得不考虑这些误差。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习算法处理全基因组分析中对于基因表现型与易感相关性分析的方法,利用深度卷积网络结合LSTM模型对SNP集进行分析,从而提高分析的准确率。
本发明采用了另一种分析策略,结合现有的生物学知识对SNP进行分组,在基因层面基于SNP集的分析需要借鉴来自不同但是相关的SNP信息,利用LSTM网络进行分析研究。如图2所示,该网络具有Input门、Forget门、Output门,可以在学习过程中选择性的进行记忆和遗忘,具有对序列强大的处理和预测能力,系统的输出将会保留在内部网络中,与系统下一阶段的输入一起相互作用,决定下一时间的输出。该循环网络彰显了动力学系统的反馈概念,用来刻画复杂的相互依存和依赖问题。因此该方法对可重复性、可解释性以及分析结果的可能性有显著的提高。
本发明的技术方案如下:
基于SNP集分析的方法需要借鉴来自同一个体不同位置但是相关的SNP信息,根据现有生物学知识将个体的SNP分成多个单元。首先在整个染色体层面,根据生物学相关知识,如接近基因组特征的原则,将全体SNP划分成多个SNP集。划分结束后,每一个SNP集输入到搭建的双向LSTM网络中,该网络是一个循环神经网络,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据。LSTM网络学习完成后,可以通过网络的计算,输出对输入数据所需关注程度。
为实现上述目的,本发明包括以下步骤:
(一)获得SNP集数据
根据生物学知识处理基因数据,形成SNP集可以通过Moving Window(移动窗口方法)、通过Haplotype Blocks(单倍型域分析),例如,可以将染色体按具体确定的数值分成固定长度的SNP集,或者可以利用基于单倍型域分析的方法,通过Haploview(一款单倍体分析软件)切分。但是这些方法均会造成完整性的缺失,对距离相关性的处理依赖于所选取的固定窗口大小,若该窗口过大则会造成训练时间很长或产生过拟合现象,为了改善这个问题,在染色体层面按照基因分布进行区分可以改善这个问题,具体的:
使用基因位置有效区间信息将SNP切分成多块,从而获得SNP集数据,对于任意一个给定的SNP集,它包含有k个个体,每个个体有p个SNP,令第i个个体的SNP为Zi1,Zi2,Zi3,……Zip,i≤k;忽略基因的一般性原则,将每个SNP编码成trinary fashion形式,根据等位基因的影响,对序列中的纯合子、杂合子Zij进行赋值,其中Zij=0,1,2。病例控制状态设为Y,第i个个体记作Yi,其中Yi=1为Case,Yi=0为Control。使用SNP集作为X输入,病例控制状态设为Y输入。
(二)搭建双向LSTM模型
使用LSTM的结构的目的是为了增加一个记忆存储单元,用于存储信息,记忆存储单元的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据,能够更好地挖掘数据中更深层面的内容,由以下的函数复合得到:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
上述式子中σ是逻辑sigmoid函数,i,f,o,c分别为输入门(Input Gate)、遗忘门(Forget Gate)、输出门(Output Gate)和激活载体(Cell),其中i,f,o,c与h具有相同的维度,便于后续的矩阵计算,因此需要与隐藏向量h具有相同的大小。
双向LSTM在水平的上具有相反的方向,因此能够获得较远距离的内容,通过堆叠放置中间的隐藏层,能根据一个隐藏层的输出,形成下一个隐藏层的输入。
假设其中用于隐藏层的层数为N,则隐藏层代表的向量hn通过n=1~N,t=1~T进行迭代计算获得,其中前馈网络隐藏序列为反馈网络隐藏序列为
定义h0=x,输出为y
本发明的特点及有益效果
本发明实现了一种使用深度LSTM神经网络,结合SNP分组分析技术的方法,用于提高对全基因组分析中基因表现型与易感相关性的预测程度的方法。在庞大的数据库中进行数据挖掘,深入了解生物的复杂性,选用具有有效性、智能化等特点的机器学习方法,来对基因多态性进行研究,对于易感基因存在的形式及对基因位点的分析研究具有重要的意义。相比传统GWAS单SNP的分析方法,利用LSTM深度神经网络的搭建,可以利用现有的关系进行学习,从而使未知序列的预测具有较高的准确性,减轻了基因研究者的负担,节约时间,提高分析基因的效率,该方法具有比传统方法更好的敏感度和特异度,为临床医学、遗传病学和预防医学的发展研究开拓了新的领域。
附图说明
图1为本发明的方法流程图;
图2为LSTM网络结构图;
图3为双向LSTM的结构模型;
图4为根据有效位置区间信息对SNP进行分组示意图;
图5为SNP集示意图。
具体实施方式
参考说明书附图1,下面通过实施来具体说明本发明的技术方案,但本发明并不局限于以下实施例子。
步骤1:根据现有生物学知识,在染色体层面按照基因分布进行分割,根据基因存在位置获得SNP的有效位置区间信息,以待后续分割SNP。这里使用了CEU(NorthernEuropeans from Utah)的样本基因作为模拟。
步骤2:假设基于以人群的病例病情对照,采用n个独立个体的基因序列,在染色体层面上对SNP进行翻译,获得所需输入数据。
步骤3:如说明书附图4所示,根据步骤1中获得的位置信息,将步骤2中获得的SNP序列根据有效位置区间信息对SNP进行分组,分成多个SNP集;
步骤4:如说明书附图5所示,对于任意一个给定的SNP集,它包含有k个个体,每个个体有p个SNP,令第i个个体的SNP为Zi1,Zi2,Zi3,……Zip,i≤k;忽略基因的一般性原则,将每个SNP编码成trinary fashion形式,根据等位基因的影响,对序列中的纯合子、杂合子Zij进行赋值,其中Zij=0,1,2。病例控制状态设为Y,第i个个体记作Yi,其中Yi=1为Case,Yi=0为Control。使用SNP集作为X输入,病例控制状态设为Y输入。
步骤5:如说明书附图3所示,搭建双向LSTM模型;
使用LSTM的结构的目的是为了增加一个记忆存储单元,用于存储信息,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据,可以更好地挖掘数据中更深层面的内容,由以下的函数复合得到:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
公式中,Wxi为输入序列x与输入门之间的权值,Whi为隐藏层与输入门之间的权值;Wci为激活载体与输入门之间的权值,bi为输入门为t时的偏差值;
Wxf为输入序列x与遗忘门之间的权值,Whf为隐藏层与遗忘门之间的权值,Wcf为激活载体与遗忘门之间的权值,bf为遗忘门为t时的偏差值;
Wxc为输入序列x与激活载体之间的权值,Whc为隐藏层与激活载体之间的权值,bc为激活载体为t时的偏差值;
Wxo为输入序列x与输出门之间的权值,Who为隐藏层与输出门之间的权值;Wco为激活载体与输出门之间的权值,bo为输出门为t时的偏差值;
ht为t时刻的隐藏层;
上述式子中σ是逻辑sigmoid函数,sigmoid(x)函数为:i,f,o,c分别为输入门(Input Gate)、遗忘门(Forget Gate)、输出门(Output Gate)和激活载体,其中i,f,o,c与h具有相同的维度,便于后续的矩阵计算,因此需要与隐藏向量h具有相同的大小。
双向LSTM在水平的上具有相反的方向,故可以获得较远距离的内容,通过堆叠放置中间的隐藏层,这些隐藏层归属于递归神经网络,可以根据上一个隐藏层的输出,形成下一个隐藏层的输入。
定义h0=x,输出为y
假设其中用于隐藏层的层数为N,则隐藏层代表的向量hn通过n=1~N,t=1~T进行迭代计算获得。
其中前馈网络隐藏序列为反馈网络隐藏序列为
使用上述步骤中的SNP集作为X输入,病例控制状态设为Y输入,由于本例采用模拟数据,因此此处病例控制状态根据随机选定的某个SNP的tranary fashion形式,数值为2则设定为1,数值为0、1则设定为0,将两者输入到搭建的双向LSTM模型中,开始训练双向LSTM模型,并保存训练好的双向LSTM模型。
步骤6:按照步骤1中处理序列的方法,对待预测的基因序列进行处理,并将处理完的基因序列输入训练好的双向LSTM模型,从而得出该待预测的基因序列获病的概率。
以上所述仅为本发明的一个实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于深度学习算法进行基因关联分析的方法,其特征在于包括如下步骤:
步骤1:根据现有生物学知识,在染色体层面按照基因分布进行分割,根据基因存在位置获得SNP的有效位置区间信息,以待后续分割SNP;
步骤2:假设基于以人群的病例病情对照,采用n个独立个体的基因序列,在染色体层面上对SNP进行翻译,获得所需输入数据;
步骤3:根据步骤1中获得的位置信息,将步骤2中获得的SNP序列根据有效位置区间信息对SNP进行分组,分成多个SNP集;
步骤4:对于任意一个给定的SNP集,均包含有k个个体,每个个体有p个SNP,令第i个个体的SNP为Zi1,Zi2,Zi3,……Zip,i≤k;忽略基因的一般性原则,将每个SNP编码成trinaryfashion形式,根据等位基因的影响,对序列中的纯合子、杂合子Zij进行赋值,其中Zij=0,1,2;病例控制状态设为Y,第i个个体记作Yi,其中Yi=1为Case,Yi=0为Control;使用SNP集作为x输入,病例控制状态设为Y输入;
步骤5:搭建双向LSTM模型;
使用双向LSTM的结构的目的是为了增加一个记忆存储单元,用于存储信息,它的状态包含上一时刻的陈旧信息,同时又是下一时刻权值变化的依据,能够更好地挖掘数据中更深层面的内容,由以下的函数复合得到:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
公式中,Wxi为输入序列x与输入门之间的权值,Whi为隐藏层与输入门之间的权值;Wci为激活载体与输入门之间的权值,bi为输入门为t时的偏差值;
Wxf为输入序列x与遗忘门之间的权值,Whf为隐藏层与遗忘门之间的权值,Wcf为激活载体与遗忘门之间的权值,bf为遗忘门为t时的偏差值;
Wxc为输入序列x与激活载体之间的权值,Whc为隐藏层与激活载体之间的权值,bc为激活载体为t时的偏差值;
Wxo为输入序列x与输出门之间的权值,Who为隐藏层与输出门之间的权值;Wco为激活载体与输出门之间的权值,bo为输出门为t时的偏差值;
ht为t时刻的隐藏层;
上述式子中σ是逻辑sigmoid函数,sigmoid(x)函数为:i,f,o,c分别为输入门、遗忘门、输出门和激活载体,其中i,f,o,c与h具有相同的维度,便于后续的矩阵计算,因此需要与隐藏向量h具有相同的大小;
双向LSTM在水平的上具有相反的方向,通过堆叠放置中间的隐藏层,能够根据上一个隐藏层的输出,形成下一个隐藏层的输入;
定义h0=x,输出为y
假设其中用于隐藏层的层数为N,则隐藏层代表的向量hn通过n=1~N,t=1~T进行迭代计算获得;
其中前馈网络隐藏序列为反馈网络隐藏序列为
使用上述步骤中的SNP集作为X输入,病例控制状态设为Y输入;
步骤6:按照步骤1中处理序列的方法,对待预测的基因序列进行处理,并将处理完的基因序列输入训练好的双向LSTM模型,从而得出该待预测的基因序列获病的概率。
CN201710174877.6A 2017-03-22 2017-03-22 一种基于深度学习算法进行基因关联分析的方法 Active CN107025386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710174877.6A CN107025386B (zh) 2017-03-22 2017-03-22 一种基于深度学习算法进行基因关联分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710174877.6A CN107025386B (zh) 2017-03-22 2017-03-22 一种基于深度学习算法进行基因关联分析的方法

Publications (2)

Publication Number Publication Date
CN107025386A true CN107025386A (zh) 2017-08-08
CN107025386B CN107025386B (zh) 2020-07-17

Family

ID=59526279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710174877.6A Active CN107025386B (zh) 2017-03-22 2017-03-22 一种基于深度学习算法进行基因关联分析的方法

Country Status (1)

Country Link
CN (1) CN107025386B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108390869A (zh) * 2018-02-08 2018-08-10 成都信息工程大学 集成深度学习的车载智能网关装置及其命令序列检测方法
CN108846503A (zh) * 2018-05-17 2018-11-20 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法
CN109063416A (zh) * 2018-07-23 2018-12-21 太原理工大学 基于lstm循环神经网络的基因表达预测方法
CN109492706A (zh) * 2018-11-27 2019-03-19 微医云(杭州)控股有限公司 一种基于循环神经网络的染色体分类预测装置
CN110111848A (zh) * 2019-05-08 2019-08-09 南京鼓楼医院 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法
CN110400597A (zh) * 2018-04-23 2019-11-01 成都二十三魔方生物科技有限公司 一种基于深度学习的基因型预测方法
CN111402951A (zh) * 2020-03-17 2020-07-10 至本医疗科技(上海)有限公司 拷贝数变异预测方法、装置、计算机设备和存储介质
CN111489788A (zh) * 2020-03-27 2020-08-04 北京航空航天大学 解释复杂疾病遗传关系的深度关联核学习技术
CN113128685A (zh) * 2021-04-25 2021-07-16 湖南大学 基于神经网络的自然选择分类和群体规模变化分析系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101151615A (zh) * 2005-03-31 2008-03-26 皇家飞利浦电子股份有限公司 用于收集与生物分子和疾病之间的关系相关的证据的系统和方法
US20090035766A1 (en) * 2002-04-25 2009-02-05 Government Of The United States, Represented By The Secretary, Department Of Health And Human Methods for Analyzing High Dimension Data for Classifying, Diagnosing, Prognosticating, and/or Predicting Diseases and Other Biological States
US20110106739A1 (en) * 2009-10-30 2011-05-05 Sysmex Corporation Method for determining the presence of disease
WO2016172464A1 (en) * 2015-04-22 2016-10-27 Genepeeks, Inc. Device, system and method for assessing risk of variant-specific gene dysfunction
CN106096327A (zh) * 2016-06-07 2016-11-09 广州麦仑信息科技有限公司 基于Torch监督式深度学习的基因性状识别方法
KR20160144297A (ko) * 2015-06-08 2016-12-16 한국과학기술원 심층 신경망 기반 질병 정보 예측 시스템 및 방법
CN106295124A (zh) * 2016-07-27 2017-01-04 广州麦仑信息科技有限公司 利用多种图像检测技术综合分析基因子图相似概率量的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090035766A1 (en) * 2002-04-25 2009-02-05 Government Of The United States, Represented By The Secretary, Department Of Health And Human Methods for Analyzing High Dimension Data for Classifying, Diagnosing, Prognosticating, and/or Predicting Diseases and Other Biological States
CN101151615A (zh) * 2005-03-31 2008-03-26 皇家飞利浦电子股份有限公司 用于收集与生物分子和疾病之间的关系相关的证据的系统和方法
US20110106739A1 (en) * 2009-10-30 2011-05-05 Sysmex Corporation Method for determining the presence of disease
WO2016172464A1 (en) * 2015-04-22 2016-10-27 Genepeeks, Inc. Device, system and method for assessing risk of variant-specific gene dysfunction
KR20160144297A (ko) * 2015-06-08 2016-12-16 한국과학기술원 심층 신경망 기반 질병 정보 예측 시스템 및 방법
CN106096327A (zh) * 2016-06-07 2016-11-09 广州麦仑信息科技有限公司 基于Torch监督式深度学习的基因性状识别方法
CN106295124A (zh) * 2016-07-27 2017-01-04 广州麦仑信息科技有限公司 利用多种图像检测技术综合分析基因子图相似概率量的方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ALEX GRAVES等: ""Hybrid speech recognition with Deep Bidirectional LSTM"", 《2013 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING》 *
DANIEL QUANG等: ""DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences"", 《NUCLEIC ACIDS RESEARCH》 *
QUAN ZOU等: ""Similarity computation strategies in the microRNA-disease network: a survey"", 《BRIEFINGS IN FUNCTIONAL GENOMICS》 *
SUNEETHA UPPU等: ""A Deep Learning Approach to Detect SNP Interactions"", 《JOURNAL OF SOFTWARE》 *
SUNEETHA UPPU等: ""A Review on Methods for Detecting SNP Interactions in High-Dimensional Genomic Data"", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
SUNEETHA UPPU等: ""TOWARDS DEEP LEARNING IN GENOME-WIDE ASSOCIATION INTERACTION STUDIES"", 《2016 PACIFIC ASIA CONFERENCE ON INFORMATION SYSTEMS(PACIS)》 *
ZHIHENG HUANG等: ""Bidirectional LSTM-CRF Models for Sequence Tagging"", 《HTTPS://ARXIV.ORG/ABS/1508.0199》 *
薛燕娜: ""机器学习算法在蛋白质结构预测中的应用"", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108390869A (zh) * 2018-02-08 2018-08-10 成都信息工程大学 集成深度学习的车载智能网关装置及其命令序列检测方法
CN108390869B (zh) * 2018-02-08 2020-10-27 成都信息工程大学 集成深度学习的车载智能网关装置及其命令序列检测方法
CN110400597A (zh) * 2018-04-23 2019-11-01 成都二十三魔方生物科技有限公司 一种基于深度学习的基因型预测方法
CN108846503A (zh) * 2018-05-17 2018-11-20 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法
CN109063416B (zh) * 2018-07-23 2019-08-27 太原理工大学 基于lstm循环神经网络的基因表达预测方法
CN109063416A (zh) * 2018-07-23 2018-12-21 太原理工大学 基于lstm循环神经网络的基因表达预测方法
CN109492706A (zh) * 2018-11-27 2019-03-19 微医云(杭州)控股有限公司 一种基于循环神经网络的染色体分类预测装置
CN110111848A (zh) * 2019-05-08 2019-08-09 南京鼓楼医院 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法
CN110111848B (zh) * 2019-05-08 2023-04-07 南京鼓楼医院 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法
CN111402951A (zh) * 2020-03-17 2020-07-10 至本医疗科技(上海)有限公司 拷贝数变异预测方法、装置、计算机设备和存储介质
CN111489788A (zh) * 2020-03-27 2020-08-04 北京航空航天大学 解释复杂疾病遗传关系的深度关联核学习技术
CN111489788B (zh) * 2020-03-27 2022-05-20 北京航空航天大学 解释复杂疾病遗传关系的深度关联核学习系统
CN113128685A (zh) * 2021-04-25 2021-07-16 湖南大学 基于神经网络的自然选择分类和群体规模变化分析系统

Also Published As

Publication number Publication date
CN107025386B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN107025386A (zh) 一种基于深度学习算法进行基因关联分析的方法
CN111328419B (zh) 基于神经网络实现的方法和系统
US20220301658A1 (en) Machine learning driven gene discovery and gene editing in plants
US20220310199A1 (en) Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next- generation sequencing data
De la Cruz et al. Gene, region and pathway level analyses in whole‐genome studies
Zhang et al. CircRNA-disease associations prediction based on metapath2vec++ and matrix factorization
US20230197205A1 (en) Bioretrosynthetic method and system based on and-or tree and single-step reaction template prediction
Shen et al. Simultaneous genes and training samples selection by modified particle swarm optimization for gene expression data classification
Zeng et al. A deep neural network for identifying DNA N4-methylcytosine sites
CN113257359A (zh) 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法
Fu et al. An improved multi-objective marine predator algorithm for gene selection in classification of cancer microarray data
Sun et al. HS-MMGKG: a fast multi-objective harmony search algorithm for two-locus model detection in GWAS
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
Kao et al. naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing
Uppu et al. Tuning hyperparameters for gene interaction models in genome-wide association studies
Ullah et al. Crow-ENN: An Optimized Elman Neural Network with Crow Search Algorithm for Leukemia DNA Sequence Classification
KR20160132223A (ko) 10,000개 이상 유전자 간의 전사조절 네트워크 구축 알고리즘과 이를 이용한 약물반응 원인 유전자 발굴 방법
Dimitrakopoulos et al. Supervised method for construction of microRNA-mRNA networks: Application in cardiac tissue aging dataset
Johnson Computational tools for improved detection, identification, and classification of plant pathogens using genomics and metagenomics
Lewis Schmalohr et al. Detection of epistatic interactions with Random Forest
CN109215741A (zh) 基于双超图正则化的肿瘤基因表达谱数据双聚类方法
Uppu et al. [Regular Paper] An Intensive Search for Higher-Order Gene-Gene Interactions by Improving Deep Learning Model
CN116994645B (zh) 基于交互式推理网络的piRNA与mRNA靶标对的预测方法
Uppu et al. Convolutional Model for Predicting SNP Interactions
Babichev et al. Integrating Data Mining, Deep Learning, and GeneOntology Analysis for Gene Expression-BasedDisease Diagnosis Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yan Chenggang

Inventor after: Sheng Zaichao

Inventor after: Peng Dongliang

Inventor after: Xue Anke

Inventor before: Sheng Zaichao

Inventor before: Yan Chenggang

Inventor before: Peng Dongliang

Inventor before: Xue Anke

GR01 Patent grant
GR01 Patent grant