CN110111848A - 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法 - Google Patents

一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法 Download PDF

Info

Publication number
CN110111848A
CN110111848A CN201910378150.9A CN201910378150A CN110111848A CN 110111848 A CN110111848 A CN 110111848A CN 201910378150 A CN201910378150 A CN 201910378150A CN 110111848 A CN110111848 A CN 110111848A
Authority
CN
China
Prior art keywords
data
rnn
cnn
algorithm
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910378150.9A
Other languages
English (en)
Other versions
CN110111848B (zh
Inventor
许佩佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Drum Tower Hospital
Original Assignee
Nanjing Drum Tower Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Drum Tower Hospital filed Critical Nanjing Drum Tower Hospital
Priority to CN201910378150.9A priority Critical patent/CN110111848B/zh
Publication of CN110111848A publication Critical patent/CN110111848A/zh
Application granted granted Critical
Publication of CN110111848B publication Critical patent/CN110111848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于RNN‑CNN神经网络融合算法的人体周期表达基因识别方法,首先对原始数据进行缺失修补和时序周期延拓,然后通过数据标签建立优质学习数据集,将周期表达数据进行热图聚类,以视觉角度初始了解生物钟基因的特定表达,然后利用深度学习算法,将循环神经网络算法和卷积神经网络算法结合成RNN‑CNN融合算法,最后将RNN‑CNN融合算法分类器与常用的深度学习算法CNN、RNN进行周期与非周期基因亚型分类,将分类结果进行了交叉验证,并用准确度评分、召回率以及综合评价指标进行评价。

Description

一种基于RNN-CNN神经网络融合算法的人体周期表达基因识 别方法
技术领域
本发明属于基因信息处理领域,特别涉及种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法。
背景技术
生物钟又称生理钟。它是生物体内的一种无形的“时钟”,实际上是生物体生命活动的内在节律性,它是由生物体内的时间结构序列及生物钟基因周期性特定表达所决定的。研究表明,人体的体温、脉搏、血压、氧耗量、激素的分泌水平,均存在昼夜节律变化。生物钟依靠像时钟那样周期往复的振荡工作,其存在有极重要的生物学意义,它控制着人的三节律,即智力、体力、情绪。周期节律能使生物与可预料的环境变化相适应,特别是一些对生存和繁殖关系重大的,如迁徙、觅食、交配、生育等,以至作出提前安排。如糖皮质激素在清晨起床前就已升高,为白天活动作好预先的准备。然而生物的这种适应性也是有限度的,生理周期只能在一定范围内追随外界的周期性,当偏差太大,外环境变化造成刺激过强过弱,以致使生理振荡变为越轨的自由运转,从而干扰了时钟的正常运转,造成个体不同器官内部节奏位置的紊乱,破坏有序的合作,会引起某些疾病。因此对周期性表达亚型基因进行深入的识别和研究对于探索人的生物节律具有重大意义,在基因分子水平上对人体生物钟进行精准解释,对当今产生的时辰生物学、时辰药理学和时辰治疗学有重要参考价值,并对生物医学上基因治疗和精准医疗的基础理论研究具有重要作用。
到目前为止,已出现了数十种算法对基因表达谱数据进行基因分型,以此进行周期与非周期表达基因亚型分型。2000年laub等人对细菌细胞周期进行分析,2002年Whitfield等人和Shedden等人开始利用基因表达谱数据研究人类细胞周期体系,但这些方法都局限于基于特定的周期函数的数学模型,其中以正弦曲线拟合最多,并不能从本质上描述基因的表达模式;Huang Tao等人将表达谱时序数据中基因在两个连续细胞周期内表达的相似性作为主要特征识别周期表达基因,有效避免函数拟合的问题;然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系,Zhou Yun等人针对大鼠再生肝细胞基因表达谱数据,提出了一种基于近邻传播和动态规划的相似性度量方法和聚类算法,并实验证明了算法在时间序列基因表达谱数据聚类的有效性,但却面临一定噪声影响;Zhou Dao等人提出了一种将microarrays时序表达数据划分为若干个基因表达周期,并对周期内的峰值特点进行评估以识别周期表达基因的方法,能有效减少microarrays实验时的干扰噪声;这些算法都极大地促进了对时序基因表达谱数据周期表达基因识别的研究,但任然面临着数据本身高维度、小样本、少标签的影响,且基因表达谱数据是活动的数据,反映的是基因的表达量,它会随着环境、时间等条件的变化而变化,会出现极强的偶然波动,基因每个个体表达量还会受到微阵列技术噪声影响,因此将形成加倍的噪声干扰,所以对于传统算法还得考虑滤波过程,这无疑增大了基因分型的工作量和难度,降低了分型效果。
目前,机器学习算法作为人工智能领域的核心,经过多年的发展,再次进入黄金期,它具有能模拟和实现人类的学习行为,以获取新的知识和技能,重新组织的知识结构使之不断改善自身的性能,机器学习算法已经在数据挖掘、计算机视觉、自然语言处理、生物特征识别等多领域得到广泛应用,其应用效果已超越了传统的多种方法,机器学习算法体系包括支持向量机(SVM)、KNN聚类、决策树、K-means聚类等多种丰富而有效的算法,尤其其体系下的深度学习算法更是当今研究与应用的热点,深度学习体系包括深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN),深度学习的好处是可以自动利用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征,其应用效果已明显超过了传统的机器学习算法;Ye Yongsheng提出了基于深度置信网络的癌症分类分型,采用DBN模型通过无监督预训练和有监督训练调整的相结合的训练方式,逐层提取癌症病人预测数据中的特征,同时利用这些层次化的特征数据进行分类预测,最终在分类性能上超越了SVM、MLP等模型;Peng Cui等人建立了一种新的机器学习通道-DNN网络模型,用于检测基于深层神经网络的人类血液转录组中周期性表达的基因,实验证明,其分型效果已优于传统的机器学习算法,但面临网络复杂、花费时间长、效率低下的缺点;Chen Huayu等人提出了一种基于卷积神经网络的深度学习的基因表达预测方法,通过自组织映射神经网络SOM将landmark数据集转化成区域内相似的的二维数据,然后将转换后的数据利用卷积神经网络做训练,并利用GPU加速深度学习速度,克服了效率低下问题;这些方法都为基因表达谱数据挖掘,从而进行周期表达基因识别开辟了新的思路。
发明内容
本发明的目的在于针对基因表达谱数据集存在着高维度、低样本、数据不平衡等问题,提供了一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,是一种以改进现有算法局限性,提高基因识别精确度为目标的RNN-CNN融合算法基因识别方法。
本发明是通过以下技术方案实现的:
一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,包括如下步骤:
步骤S1:数据预处理,从GEO数据库获取人类时序基因表达谱数据GSE39445,包括人体全血转录组,对原始数据进行缺失修补和时序周期延拓;
步骤S2:对预处理后的数据进行标签,更改数据格式,建立数据训练集;
步骤S3:从数据训练集中选取出若干组周期表达数据,将周期表达数据基于R语言的热图聚类;
步骤S4:将循环神经网络算法和卷积神经网络算法相结合,搭建RNN-CNN融合神经网络,并对步骤S2建立的数据训练集进行分类训练,得到对时序基因表达谱数据进行周期与非周期基因亚型分类的分类结果。
本发明进一步解决的技术方案是,所述步骤S1包括:
步骤S11:将缺失的时间点对应的数据列用其他周期里面对应相同时间点的数据列来补偿;
步骤S12:将不同周期中随机抽取某一个时间点测试数据列组成一个完整的周期数据,其中,不同周期中的时间点要求对应相同。
本发明进一步解决的技术方案是,所述步骤S2包括:
步骤S21:建立拥有1200组数据的学习数据集,其中,每一个基因的一个周期含有10个数据点,并包含至少十个周期,通过计算机C语言为数据进行标签;
步骤S22:对标签好的数据,将每列数据分别与对应前一个时间点的数据相减,保留结果在当前位置,设减去后的结果为A,同时设置波动值为0.05;当A<-0.05时,设置当前值为-1;当-0.05<A<0.05时,设置当前值为0;当A>0.05时,设置当前值为1,最终表达谱数据结果由-1、0、1进行显示,分别表示某一测试点相当于上一测试点的减少、保持以及增加状态。
本发明进一步解决的技术方案是,所述步骤S4中,RNN-CNN融合神经网络搭建的步骤包括:
步骤一:搭建循环神经网络外循环体RNN,循环神经网络RNN采用长短时记忆网络结构,并在RNN结构中额外加入遗忘门结构;
步骤二:搭建卷积神经网络内循环CNN,卷积神经网络CNN采用LeNet-5模型,由两个卷积层、两个池化层以及三个全连接层组成,所述两个卷积层和池化层依次交错连接,所述三个全连接层依次连接于池化层后,在每层节点加入常数偏置项和ReLU激活函数实现深层网络的去线性化,获得矩阵数据Xin,如下式表示:
Xin=X+b;
其中,Xin表示节点最终输入数据,X表示初始输入数据,b表示常数偏置项;
则Xin为最后一层的输入,然后用Softmax回归将神经网络的输出转换成概率分布,如下式表示:
其中,yi为神经网络的原始输出;
步骤三:在每一次迭代过程中随机优化10个参数的损失函数,针对实际输出概率分布与期望输出概率分布的距离,计算交叉熵;所述损失函数是交叉熵损失函数,如下式表示:
其中,p为期望输出概率分布,q表示实际输出概率分布,H(p,q)为交叉熵;
然后针对上述交叉熵,计算得到代价函数,如下式表示:
其中,m表示训练样本的个数,θ表示算法中需要训练的参数,Hθ(x)表示交叉熵损失函数;
然后设定初始θ,采用完全梯度下降算法,不断改变θ,得到下式:
其中,i=1、2、…、m,表示样本个数,α为学习速率参数,α值为0.001;
然后采用随机梯度下降算法,对于从1到m的样本使用一个数据来变换一个参数,得到下式:
其中,α为学习速率参数,α值为0.001;
步骤四,在RNN基本框架基础上,将CNN嵌套入RNN的循环体内,取代RNN内层循环体,同时在内、外循环各自的不同层结构间加入dropout层,然后对循环神经网络外循环体RNN设置10个输入节点,对应一个周期10个时间测试点数据,RNN每个时刻的输入与时序数据时间点数据对应,最终结果为两个输出节点,包括0和1,表示非周期表达基因和周期表达基因。
本发明进一步解决的技术方案是,所述步骤S4中,对数据训练集进行训练的具体步骤包括:
步骤一:开始训练:初始化变量,训练次数为0,选取第一个时刻训练数据进行RNN外部数据输入;
步骤二:数据进入内部CNN循环体,通过前向传播算法获取预测值,通过反向传播算法更新变量,如果达到内层CNN网络设置的训练目标或者达到CNN训练次数,就输出;
步骤三:重新选取时刻数据进行外部RNN数据输入,此时,内部CNN循环体的输入包括上一轮的输出、当前的输入以及遗忘门执行的数据,然后同理执行步骤二的操作;
步骤四:重复执步骤三的操作,直至达到外层RNN网络的训练目标或者达到RNN训练次数,就输出;
步骤五:结束训练。
本发明的有益效果为:
RNN-CNN模型分类器在进行时序基因表达谱数据周期/非周期基因分型时具有非常稳定的效果,能很好处理传统基因表达谱分型面临的数据高维度、网络参数多且运算复杂问题,对人体生物钟研究方面意义重大,其改进和提升主要体现在以下三方面:
(1)相对于传统常用算法和机器学习算法不必考虑数学函数方面的正弦曲线拟合及线性拟合以及采样法如何采样的问题,也不必要像传统机器学习人工提取特征,RNN-CNN网络可自动提取数据特征,达到降维目的;
(2)对于基于全连接的CNN算法,存在参数太多、无法利用数据间的时间序列信息等问题,而本算法中的外围RNN部分则能通过不停循环输入,在挖掘时序信息方面有了巨大突破;
(3)对于一般的RNN算法,网络的输出与上一次的输出和当前的输入有关,通过多次的循环运算处理,网络会存在对数据过度依赖问题,而本算法通过在外围RNN结构中每一次循环基础是加入一个遗忘门,对不必要的数据选择性“遗忘”,在内循环体CNN结构中的原本全连接层中采用95%部分连接,适度改变参数数目,两种方法实现该网络结构改善过度依赖问题。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明周期性表达基因图。
图3为本发明非周期性表达基因图。
图4为本发明周期表达基因聚类热图;
图5为本发明RNN-CNN融合神经网络的结构简图。
图6为本发明实施例中1号基因平均表达量散点图。
图7为本发明实施例中25号基因平均表达量散点图。
图8为本发明实施例中109号基因平均表达量散点图。
图9为本发明实施例中123号基因平均表达量散点图。
图10为本发明实施例中9号基因平均表达量散点图。
图11为本发明实施例中19号基因平均表达量散点图。
图12为本发明ROC曲线图。
图13为本发明准确度评分的箱线图。
图14为本发明召回率的箱线图。
图15为本发明综合评价指标的箱线图。
具体实施方式
下面结合附图和实施例对本发明的发明内容作进一步地说明。
参见图1,一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,包括如下步骤:
步骤S1:数据预处理,从GEO数据库获取人类时序基因表达谱数据GSE39445,包括人体全血转录组,对原始数据进行缺失修补和时序周期延拓,经过分析实验,找到了一种基于概率论随机性的缺失数据列修补与数据周期数目延拓方法,即将缺失的时间点对应的数据列用其他周期里面对应相同时间点的数据列来补偿,由于如果原来是周期表达基因,其同一时间表达规律具有一致性,非周期表达基因同一时间具有表达随机性,因此这种弥补方法不仅不会影响标签的真实性,而且为缺失周期数据列的弥补创造了条件,同理将不同周期中随机抽取某一个时间点测试数据列组成一个完整的周期数据,前提只要求对应时间点相同,这种方法可以实现数据周期数目指数级的拓展,最终我们通过此方法获取了30个完整周期数据;
步骤S2:对预处理后的数据进行标签,更改数据格式,建立数据训练集,具体方法为:
步骤S21:建立拥有1200组数据的学习数据集,其中,每一个基因的一个周期含有10个数据点,并包含至少十个周期,通过计算机C语言为数据进行标签;
步骤S22:对标签好的数据,将每列数据分别与对应前一个时间点的数据相减,保留结果在当前位置,设减去后的结果为A,同时设置波动值为0.05;当A<-0.05时,设置当前值为-1;当-0.05<A<0.05时,设置当前值为0;当A>0.05时,设置当前值为1,最终表达谱数据结果由-1、0、1进行显示,分别表示某一测试点相当于上一测试点的减少、保持以及增加状态。
步骤S3:从数据训练集中选取出若干组周期表达数据,将周期表达数据进行基于R语言的热图聚类,以视觉角度了解初始生物钟基因特定表达,取其中200组周期表达数据,并且只保留一个周期,将肉眼难以观察的数据规律以可视化的形式展示,可直观地总结出生物钟基因的周期表达规律。
步骤S4:将循环神经网络算法和卷积神经网络算法相结合,搭建RNN-CNN融合神经网络,并对步骤S2建立的数据训练集进行分类训练,得到对时序基因表达谱数据进行周期与非周期基因亚型分类的分类结果。
所述循环神经网络算法RNN(Recurrent Neural Network)是一类以序列数据为输入,在序列的演进方向进行递归且所有循环单元按链式连接形成闭合回路的递归神经网络,可用于监督学习和非监督学习,每个单元的输出不仅和当前输入有关,还和前一个单元的输出有关;所述卷积神经网络CNN(Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络,其由卷积层、池化层、全连接层构成,可进行监督学习和非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征,为了综合RNN,CNN两种神经网络的优点,减少其某一种单一网络的缺点,将两种神经网络进行有机融合,参见图5,在RNN基本框架基础上,将CNN嵌套入RNN的循环体内,即就是利用CNN取代RNN内层循环体。内循环CNN采用惯用的LeNet-5模型,该模型由两个卷积层和池化层交错连接,最后由3个全连接层收尾;主体外层RNN网络则采用典型的长短时记忆网络(LTSM)结构,通过相对于普通RNN结构额外加入一个遗忘门结构,让信息有选择地影响循环神经网络中每个时刻的状态,根据当前的输入、上一时刻的状态、和上一时刻输出共同决定哪一部分被遗忘,解决神经网络对于学习数据集过分依赖的问题,其具体的搭建方法为:
步骤一:搭建循环神经网络外循环体RNN,循环神经网络RNN采用长短时记忆网络结构,并在RNN结构中额外加入遗忘门结构,遗忘门是外层RNN典型长短时记忆网络LSTM中的一部分,LSTM是一种拥有三个“门”结构的特殊的循环体网络结构;
步骤二:搭建卷积神经网络内循环CNN,卷积神经网络CNN采用LeNet-5模型,由两个卷积层、两个池化层以及三个全连接层组成,所述两个卷积层和池化层依次交错连接,所述三个全连接层依次连接于池化层后,在每层节点加入常数偏置项和ReLU激活函数实现深层网络的去线性化,获得矩阵数据Xin,如下式表示:
Xin=X+b;
其中,Xin表示节点最终输入数据,X表示初始输入数据,b表示常数偏置项;
由于所有的分割线都是经过原点的,但实际过程中大都不是能够经过原点线性可分的,因此加入常数偏置项,使分割线更灵活调动,可以经过任意点,而ReLU激活函数目的是将输入进行非线性变换,克服线性模型局限性;
则Xin为最后一层的输入,然后用Softmax回归将神经网络的输出转换成概率分布,如下式表示:
其中,yi为神经网络的原始输出;
步骤三:采取梯度下降算法和随机梯度下降算法的中和,即每一次迭代过程中随机优化10个参数的损失函数,并设置初始学习率为0.001,并以指数衰减灵活控制学习率,衰减率为0.9,用以控制每次参数移动的幅度,在半随机梯度下降算法中加入滑动平均模型,设置模型衰减率为0.99,控制模型衰减速度,使模型在测试集上更加强壮;;
在每一次迭代过程中随机优化10个参数的损失函数,针对实际输出概率分布与期望输出概率分布的距离,计算交叉熵,交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近;所述损失函数是交叉熵损失函数,如下式表示:
其中,p为期望输出概率分布,q表示实际输出概率分布,H(p,q)为交叉熵;
然后针对上述交叉熵,计算得到代价函数,如下式表示:
其中,m表示训练样本的个数,θ表示算法中需要训练的参数,Hθ(x)表示交叉熵损失函数,在训练过程中,希望交叉熵越小越好,利用调整参数θ使得上式最小,其中1/2是使得运算更加简便,将交叉熵用平方表示,不断修改参数,使J(θ)值尽可能小;
然后设定初始θ,采用完全梯度下降算法,其中梯度下降算法的目的是更新参数,使损失函数最小,不断改变θ,得到下式:
其中α为主动设置的学习速率参数,本项目为0.001;
由于
所以
其中,i=1、2、…、m,表示样本个数,α为学习速率参数,α值为0.001;
由于每一次更新参数都遍历了一次所以的样本数据,这样做属于完全梯度下降,具有更高的准确性,却在遍历m组数据的集合上耗时巨大,所以引出随机梯度下降算法,对于从1到m的样本使用一个数据来变换一个参数,不必遍历所有的训练集合,得到下式:
其中,α为学习速率参数,α值为0.001;
步骤四,在RNN基本框架基础上,将CNN嵌套入RNN的循环体内,取代RNN内层循环体,同时在内、外循环各自的不同层结构间加入dropout层,使网络结构整体更加强壮,然后对循环神经网络外循环体RNN设置10个输入节点,对应一个周期10个时间测试点数据,RNN每个时刻的输入与时序数据时间点数据对应,最终结果为两个输出节点,包括0和1,表示非周期表达基因和周期表达基因。整个网络结构均利用python在TensorFlow开源框架上搭建。
搭建形成RNN-CNN融合神经网络后,对步骤S2建立的数据训练集进行训练,具体方法如下:
步骤一:开始训练:初始化变量,训练次数为0,选取第一个时刻训练数据进行RNN外部数据输入;
步骤二:数据进入内部CNN循环体,通过前向传播算法获取预测值,通过反向传播算法更新变量,如果达到内层CNN网络设置的训练目标或者达到CNN训练次数,就输出;
其中,前向传播算法为:
al=σ(zl)=σ(Wlal-1+bl);
其中,上标表示层数,al为第l层输出结果,W为隐藏层或输出层对应矩阵,b为偏移向量,σ为ReLu激活函数;
反向传播算法为:
其中,l表示神经网络第l层,i表示当前层的第i个参数,参数zl表示第l层的未激活输出;
ο符号表示Hadamard积,对于两维度相同的向量A(a1,a2,......,an)T和B(b1,b2,......bn)T
σ为ReLu激活函数,σ′为激活函数导数;
δ为损失函数误差,表示如下:
其中,J(W,b,x,y)表示交叉熵损失函数,参数W为各隐藏层与输出层的线性相关系数矩阵,b为偏移向量,x为输入向量,y为输出向量,ZL表示第L层的未激活输出,aL为第L层的实际输出结果
利用反向传播算法更新第l层的Wl,bl
其中,i=1、2、…、m,表示样本个数,δi,l为第l层第i个神经元产生的损失误差,ai ,l-1表示第l-1层第i个神经元的实际输出结果,α为主动设置的学习速率参数。
步骤三:重新选取时刻数据进行外部RNN数据输入,此时,内部CNN循环体的输入包括上一轮的输出、当前的输入以及遗忘门执行的数据,然后同理执行步骤二的操作;
步骤四:重复执步骤三的操作,直至达到外层RNN网络的训练目标或者达到RNN训练次数,就输出;
步骤五:结束训练。
通过RNN-CNN融合算法网络模型分类器进行分类后,得到了我们想要的两种基因表达模式,生物钟基因周期表达和非生物中基因非周期表达,在手动打标签绘制折线图的过程中已经可以初步看到两种表达模式的一些表达特点。
参见图2为周期性表达基因图,周期表达基因在每个周期对应时间点在一定波动范围内普遍存在表达一致性;参见图3为非周期性表达基因图,非周期表达基因则在各个时间点都具有表达量不可预料性。因此,周期表达基因与非周期表达基因共同构成人类基因组,其共同作用下可以使人类对不同的外部环境的变化做出相应改变,提高人对环境的适应性。将数据格式转换成-1、0、1,分别表示各测试点减少、保持、增加状态,并挑选出200组周期表达基因数据进行热图聚类,参见图4,从热图中可以看出每个周期表达基因存在一些特定的高表达时间段和低表达时间段。
然后对标签后的基因进行随机选取,做出平均表达量散点图如图6-11,在散点图中进行曲线拟合,带95%置信域,其中1、25、109、123号基因选自周期表达基因,9、19号基因选自非周期表达基因,可以看出,非周期表达基因只有一种表现形式,其各个时间点的平均表达量都波动很小,其平均拟合曲线接近于一条直线,而周期表达基因的表达量表现形式多样,1号基因呈抛物线,25号基因呈锥形,109号基因呈典型的带相移的正弦曲线,而去123号基因与非周期表达基因类似,波动很小,呈近似直线,同时可看出如果仅仅以数学函数模型拟合,比如正弦曲线拟合,并不具备代表性,必然会遗漏大量生物钟基因。
本发明中,由于需要对比证明本研究创新模型RNN-CNN的分类精度,需要将目标模型与RNN、CNN模型进行分类比较,在比较各个分类器分类结果的同时,需要建立一个完整而有效的结果评价指标体系。在这里,我们将训练后的分类结果进行交叉验证,并用ROC曲线进行可视化观察,然后利用准确度评分(Precision)、召回率(Recall)以及综合评价指标(F1-Meature)作为评价指标。所述交叉验证用于防止模型过于复杂而引起的过拟合.有时亦称循环估计,是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力。
其中,所述ROC曲线表示受试者工作曲线,以假正类率为横轴,真正类率为纵轴构成ROC曲线,可以对RNN-CNN模型分类器进行有效评价。
所述假正类率表示分类器错认为正类的负实例占所有负实例的比例,采用如下公式计算:
式中,FPR表示假正类率;FP表示假正例,即真实类别为负例,预测类别为正例;TN表示真负例,即真实类别为负例,预测类别为负例。
所述真正类率表示分类器所识别的正实例占所有正实例的比例,采用如下公式计算:
式中,TPR表示真正类率;TP表示真正例,即真实类别为正例,预测类别为正例;TN表示真负例,即真实类别为负例,预测类别为负例。
首先是将分类结果进行交叉验证,确定测定值的上下限、组距以及间断点,按照选择的组距间隔列出累积频数分布表,为后续方便,选择了50个间断点数据,利用混淆矩阵计算出假正类率和真正类率,结果如下表1:
表1混淆矩阵运算结果
ROC曲线中,越靠近左上角越好,ROC曲线下的面积(AUC)越大,其代表的分类器性能越佳,一般利用AUC可对分类器有4种评价:AUC<0.5,分类器自身问题;0.5<AUC<0.7,分类器性能较差;0.7<AUC<0.9,分类器性能良好;AUC>0.9,分类器性能优秀。参见图12为上述数据的ROC曲线图,从图12可以看出,RNN-CNN模型的ROC曲线最靠近左上方,其下面围成的面积最大,经过精密计算,得到几条曲线的AUC值,分别为CNN模型:0.805,分类性能良好;RNN模型:0.84,分类性能优于CNN模型;RNN-CNN模型:0.911,分类性能最好,与图中肉眼直观所见一致。
然后进行准确度评分(Precision)、召回率(Recall)、综合评价指标(F1-Meature)的评价;
其中,所述准确度评分表示对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,采用如下公式计算:
式中,P表示准确率;TP表示真正例,即真实类别为正例,预测类别为正例;FP表示假正例,即真实类别为负例,预测类别为正例。
所述召回率表示检索到的项目占所有应该检索到的项目的比例,采用如下公式计算:
式中,R表示召回率;TP表示真正例,即真实类别为正例,预测类别为正例;FN表示假负例,即真实类别为正例,预测类别为负例。
所述综合评价指标表示精确度评分和召回率的加权调和平均值,采用如下公式计算:
式中,F1表示综合评价指标,P表示准确率,R表示召回率。
参见图13-15是三种评价指标基于R语言的箱线图,从图中可以看到,在准确度评分方面,RNN-CNN模型最高已达到0.9,召回率超过了0.85,而综合评价方面,其平均值都已经达到了0.85,在这三重指标中,RNN-CNN模型均明显超过单一地使用RNN或CNN神经网络结构模型,具有最佳的性能。
综上所述,RNN-CNN模型分类器在进行时序基因表达谱数据周期/非周期基因分型时具有最好最稳定的效果,在建立并训练优化好模型后,就可以对学习数据集以外的时序基因表达谱数据进行大规模分类。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (5)

1.一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,其特征在于,包括如下步骤:
步骤S1:数据预处理,从GEO数据库获取人类时序基因表达谱数据GSE39445,包括人体全血转录组,对原始数据进行缺失修补和时序周期延拓;
步骤S2:对预处理后的数据进行标签,更改数据格式,建立数据训练集;
步骤S3:从数据训练集中选取出若干组周期表达数据,将周期表达数据基于R语言进行热图聚类;
步骤S4:将循环神经网络算法和卷积神经网络算法相结合,搭建RNN-CNN融合神经网络,并对步骤S2建立的数据训练集进行分类训练,得到对时序基因表达谱数据进行周期与非周期基因亚型分类的分类结果。
2.根据权利要求1所述的一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,其特征在于,所述步骤S1包括:
步骤S11:将缺失的时间点对应的数据列用其他周期里面对应相同时间点的数据列来补偿;
步骤S12:将不同周期中随机抽取某一个时间点测试数据列组成一个完整的周期数据,其中,不同周期中的时间点要求对应相同。
3.根据权利要求1所述的一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,其特征在于,所述步骤S2包括:
步骤S21:建立拥有1200组数据的学习数据集,其中,每一个基因的一个周期含有10个数据点,并包含至少十个周期,通过计算机C语言为数据进行标签;
步骤S22:对标签好的数据,将每列数据分别与对应前一个时间点的数据相减,保留结果在当前位置,设减去后的结果为A,同时设置波动值为0.05;当A<-0.05时,设置当前值为-1;当-0.05<A<0.05时,设置当前值为0;当A>0.05时,设置当前值为1,最终表达谱数据结果由-1、0、1进行显示,分别表示某一测试点相当于上一测试点的减少、保持以及增加状态。
4.根据权利要求1所述的一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,其特征在于,所述步骤S4中,RNN-CNN融合神经网络搭建的步骤包括:
步骤一:搭建循环神经网络外循环体RNN,循环神经网络RNN采用长短时记忆网络结构,并在RNN结构中额外加入遗忘门结构;
步骤二:搭建卷积神经网络内循环CNN,卷积神经网络CNN采用LeNet-5模型,由两个卷积层、两个池化层以及三个全连接层组成,所述两个卷积层和池化层依次交错连接,所述三个全连接层依次连接于池化层后,在每层节点加入常数偏置项和ReLU激活函数实现深层网络的去线性化,获得矩阵数据Xin,如下式表示:
Xin=X+b;
其中,Xin表示节点最终输入数据,X表示初始输入数据,b表示常数偏置项;
则Xin为最后一层的输入,然后用Softmax回归将神经网络的输出转换成概率分布,如下式表示:
其中,yi为神经网络的原始输出;
步骤三:在每一次迭代过程中随机优化10个参数的损失函数,针对实际输出概率分布与期望输出概率分布的距离,计算交叉熵;所述损失函数是交叉熵损失函数,如下式表示:
其中,p为期望输出概率分布,q表示实际输出概率分布,H(p,q)为交叉熵;
然后针对上述交叉熵,计算得到代价函数,如下式表示:
其中,m表示训练样本的个数,θ表示算法中需要训练的参数,Hθ(x)表示交叉熵损失函数;
然后设定初始θ,采用完全梯度下降算法,不断改变θ,得到下式:
其中,i=1、2、…、m,表示样本个数,α为学习速率参数,α值为0.001;
然后采用随机梯度下降算法,对于从1到m的样本使用一个数据来变换一个参数,得到下式:
其中,α为学习速率参数,α值为0.001;
步骤四,在RNN基本框架基础上,将CNN嵌套入RNN的循环体内,取代RNN内层循环体,同时在内、外循环各自的不同层结构间加入dropout层,然后对循环神经网络外循环体RNN设置10个输入节点,对应一个周期10个时间测试点数据,RNN每个时刻的输入与时序数据时间点数据对应,最终结果为两个输出节点,包括0和1,表示非周期表达基因和周期表达基因。
5.根据权利要求1所述的一种基于RNN-CNN神经网络融合算法的人体周期表达基因识别方法,其特征在于,所述步骤S4中,对数据训练集进行训练的具体步骤包括:
步骤一:开始训练:初始化变量,训练次数为0,选取第一个时刻训练数据进行RNN外部数据输入;
步骤二:数据进入内部CNN循环体,通过前向传播算法获取预测值,通过反向传播算法更新变量,如果达到内层CNN网络设置的训练目标或者达到CNN训练次数,就输出;
步骤三:重新选取时刻数据进行外部RNN数据输入,此时,内部CNN循环体的输入包括上一轮的输出、当前的输入以及遗忘门执行的数据,然后同理执行步骤二的操作;
步骤四:重复执步骤三的操作,直至达到外层RNN网络的训练目标或者达到RNN训练次数,就输出;
步骤五:结束训练。
CN201910378150.9A 2019-05-08 2019-05-08 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法 Active CN110111848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910378150.9A CN110111848B (zh) 2019-05-08 2019-05-08 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910378150.9A CN110111848B (zh) 2019-05-08 2019-05-08 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法

Publications (2)

Publication Number Publication Date
CN110111848A true CN110111848A (zh) 2019-08-09
CN110111848B CN110111848B (zh) 2023-04-07

Family

ID=67488693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910378150.9A Active CN110111848B (zh) 2019-05-08 2019-05-08 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法

Country Status (1)

Country Link
CN (1) CN110111848B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110456026A (zh) * 2019-08-13 2019-11-15 北京农业信息技术研究中心 一种土壤墒情监测方法及装置
CN110503637A (zh) * 2019-08-13 2019-11-26 中山大学 一种基于卷积神经网络的道路裂缝自动检测方法
CN110957009A (zh) * 2019-11-05 2020-04-03 中山大学中山眼科中心 一种基于深度混合网络的单细胞转录组缺失值填补方法
CN111126454A (zh) * 2019-12-05 2020-05-08 东软集团股份有限公司 图像处理方法、装置、存储介质及电子设备
CN111723367A (zh) * 2020-06-12 2020-09-29 国家电网有限公司 一种电力监控系统业务场景处置风险评价方法及系统
CN111816303A (zh) * 2020-07-08 2020-10-23 深圳承启生物科技有限公司 一种基于机器学习的难治性精神分裂症风险的预测方法
CN111898503A (zh) * 2020-07-20 2020-11-06 中国农业科学院农业资源与农业区划研究所 基于云覆盖遥感影像和深度学习的作物识别方法和系统
CN112599190A (zh) * 2020-12-17 2021-04-02 重庆大学 一种基于混合分类器来识别耳聋相关基因的方法
CN112749516A (zh) * 2021-02-03 2021-05-04 江南机电设计研究所 适应多类型数据特征的体系组合模型可信度智能评估方法
CN113066522A (zh) * 2021-03-23 2021-07-02 浙江大学 一种基于模块化识别的基因网络推理方法
CN113128685A (zh) * 2021-04-25 2021-07-16 湖南大学 基于神经网络的自然选择分类和群体规模变化分析系统
CN113312942A (zh) * 2020-02-27 2021-08-27 阿里巴巴集团控股有限公司 一种数据处理方法及设备和融合网络架构
CN116953677A (zh) * 2023-09-18 2023-10-27 海底鹰深海科技股份有限公司 基于深度学习的声呐目标识别算法
CN118537706A (zh) * 2024-07-24 2024-08-23 成都农业科技职业学院 一种神经网络智能识别种子方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025386A (zh) * 2017-03-22 2017-08-08 杭州电子科技大学 一种基于深度学习算法进行基因关联分析的方法
CN109063416A (zh) * 2018-07-23 2018-12-21 太原理工大学 基于lstm循环神经网络的基因表达预测方法
US20190018019A1 (en) * 2017-07-17 2019-01-17 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning
KR101950395B1 (ko) * 2017-09-25 2019-02-20 (주)신테카바이오 개체군 유전체 염기서열 및 변이의 변환데이터에 대한 인공지능 딥러닝 모델을 이용한 바이오마커 검출 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025386A (zh) * 2017-03-22 2017-08-08 杭州电子科技大学 一种基于深度学习算法进行基因关联分析的方法
US20190018019A1 (en) * 2017-07-17 2019-01-17 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning
KR101950395B1 (ko) * 2017-09-25 2019-02-20 (주)신테카바이오 개체군 유전체 염기서열 및 변이의 변환데이터에 대한 인공지능 딥러닝 모델을 이용한 바이오마커 검출 방법
CN109063416A (zh) * 2018-07-23 2018-12-21 太原理工大学 基于lstm循环神经网络的基因表达预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ROBERT PHAN 等: ""Biomedical Named Entity Recognition Based on Hybrid Multistage CNN-RNN Learner"", 《IEEE》 *
郭延哺等: "基于卷积长短时记忆神经网络的蛋白质二级结构预测", 《模式识别与人工智能》 *
黄立群等: "一个深度学习DNA序列特异性的预测模型", 《小型微型计算机系统》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503637A (zh) * 2019-08-13 2019-11-26 中山大学 一种基于卷积神经网络的道路裂缝自动检测方法
CN110456026A (zh) * 2019-08-13 2019-11-15 北京农业信息技术研究中心 一种土壤墒情监测方法及装置
CN110503637B (zh) * 2019-08-13 2022-12-06 中山大学 一种基于卷积神经网络的道路裂缝自动检测方法
CN110957009A (zh) * 2019-11-05 2020-04-03 中山大学中山眼科中心 一种基于深度混合网络的单细胞转录组缺失值填补方法
CN110957009B (zh) * 2019-11-05 2023-05-12 中山大学中山眼科中心 一种基于深度混合网络的单细胞转录组缺失值填补方法
CN111126454B (zh) * 2019-12-05 2024-03-26 东软集团股份有限公司 图像处理方法、装置、存储介质及电子设备
CN111126454A (zh) * 2019-12-05 2020-05-08 东软集团股份有限公司 图像处理方法、装置、存储介质及电子设备
CN113312942B (zh) * 2020-02-27 2024-05-17 阿里巴巴集团控股有限公司 一种数据处理方法及设备和融合网络架构系统
CN113312942A (zh) * 2020-02-27 2021-08-27 阿里巴巴集团控股有限公司 一种数据处理方法及设备和融合网络架构
CN111723367B (zh) * 2020-06-12 2023-06-23 国家电网有限公司 一种电力监控系统业务场景处置风险评价方法及系统
CN111723367A (zh) * 2020-06-12 2020-09-29 国家电网有限公司 一种电力监控系统业务场景处置风险评价方法及系统
CN111816303B (zh) * 2020-07-08 2024-03-29 深圳承启生物科技有限公司 一种基于机器学习的难治性精神分裂症风险的预测方法
CN111816303A (zh) * 2020-07-08 2020-10-23 深圳承启生物科技有限公司 一种基于机器学习的难治性精神分裂症风险的预测方法
CN111898503A (zh) * 2020-07-20 2020-11-06 中国农业科学院农业资源与农业区划研究所 基于云覆盖遥感影像和深度学习的作物识别方法和系统
CN112599190A (zh) * 2020-12-17 2021-04-02 重庆大学 一种基于混合分类器来识别耳聋相关基因的方法
CN112599190B (zh) * 2020-12-17 2024-04-05 重庆大学 一种基于混合分类器来识别耳聋相关基因的方法
CN112749516B (zh) * 2021-02-03 2023-08-25 江南机电设计研究所 适应多类型数据特征的体系组合模型可信度智能评估方法
CN112749516A (zh) * 2021-02-03 2021-05-04 江南机电设计研究所 适应多类型数据特征的体系组合模型可信度智能评估方法
CN113066522A (zh) * 2021-03-23 2021-07-02 浙江大学 一种基于模块化识别的基因网络推理方法
CN113128685A (zh) * 2021-04-25 2021-07-16 湖南大学 基于神经网络的自然选择分类和群体规模变化分析系统
CN116953677A (zh) * 2023-09-18 2023-10-27 海底鹰深海科技股份有限公司 基于深度学习的声呐目标识别算法
CN118537706A (zh) * 2024-07-24 2024-08-23 成都农业科技职业学院 一种神经网络智能识别种子方法及系统

Also Published As

Publication number Publication date
CN110111848B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110111848A (zh) 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法
CN109992779B (zh) 一种基于cnn的情感分析方法、装置、设备及存储介质
CN102622418B (zh) 一种基于bp神经网络的预测装置及设备
CN106778014A (zh) 一种基于循环神经网络的患病风险预测方法
CN105160249B (zh) 一种基于改进的神经网络集成的病毒检测方法
CN102622515B (zh) 一种天气预测方法
CN109948845A (zh) 一种配电网负荷长短期记忆神经网络预测方法
CN114548591B (zh) 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统
Zhu et al. Coke price prediction approach based on dense GRU and opposition-based learning salp swarm algorithm
Feng et al. One-dimensional VGGNet for high-dimensional data
CN108876001A (zh) 一种基于孪生支持向量机的短期电力负荷预测方法
Xu et al. A hybrid model of stacked autoencoder and modified particle swarm optimization for multivariate chaotic time series forecasting
Patni et al. Air quality prediction using artificial neural networks
CN106980831A (zh) 基于自编码器的自亲缘关系识别方法
CN110197251A (zh) 基于深度学习网络的预测方法、装置、设备及存储介质
Chou et al. Imaging time-series with features to enable visual recognition of regional energy consumption by bio-inspired optimization of deep learning
CN113239211A (zh) 一种基于课程学习的强化学习知识图谱推理方法
Ma An Efficient Optimization Method for Extreme Learning Machine Using Artificial Bee Colony.
CN108073978A (zh) 一种人工智能超深度学习模型的构成方法
Agarwal et al. Differential Evolution based compression of CNN for Apple fruit disease classification
CN117784615B (zh) 一种基于impa-rf的火控系统故障预测方法
Zhong et al. Face expression recognition based on NGO-BILSTM model
CN117236330A (zh) 一种基于互信息和对抗神经网络的增强主题多样性方法
Qiao et al. SRS-DNN: a deep neural network with strengthening response sparsity
Nejković et al. Ultramarathon result and injury prediction using PyTorch

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant