CN108197432A - 一种基于基因表达数据的基因调控网络重构方法 - Google Patents

一种基于基因表达数据的基因调控网络重构方法 Download PDF

Info

Publication number
CN108197432A
CN108197432A CN201711227222.7A CN201711227222A CN108197432A CN 108197432 A CN108197432 A CN 108197432A CN 201711227222 A CN201711227222 A CN 201711227222A CN 108197432 A CN108197432 A CN 108197432A
Authority
CN
China
Prior art keywords
gene
gene expression
value
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711227222.7A
Other languages
English (en)
Other versions
CN108197432B (zh
Inventor
唐振浩
王宇
曹生现
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN201711227222.7A priority Critical patent/CN108197432B/zh
Publication of CN108197432A publication Critical patent/CN108197432A/zh
Application granted granted Critical
Publication of CN108197432B publication Critical patent/CN108197432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于基因表达数据的基因调控网络重构方法,涉及生物信息学中基因调控网络重构技术领域。该方法包括:获得重构所需基因表达量数据;对数据进行归一化处理;对目标基因表达量预测建模;预测目标基因表达量;分析输入特征基因与目标基因调控关系;基因调控网络重构。本发明提供的一种基于基因表达数据的基因调控网络重构方法,能够根据基因表达数据实现高精度基因调控网络建模,使用差分进化算法优化的Elman神经网络预测基因的表达量,具有运算速度快,精度高的优点,另外,使用模拟数据能够解决数据量不足的问题,使最终所建立的基因调控网络具有良好的准确性,其适用范围广,可适用于不同的基因表达数据,具有良好可移植性。

Description

一种基于基因表达数据的基因调控网络重构方法
技术领域
本发明属于生物信息学中基因调控网络重构技术领域,尤其涉及一种基于基因表达数据的基因调控网络重构方法。
背景技术
基因调控网络广泛存在于原核和真核生物中,是描述基因与基因相互作用的网络。基因调控网络重构能够模拟基因之间的协同关系,发现基因对生物生命周期及生命活动的影响机理,是生物信息学领域的重要研究方向。准确的基因调控网络模型能够帮助人们了解基因调控网络的动态结构,对于揭示生命过程有重要意义。
基因表达过程中存在诸多复杂因素,例如随机行为、基因复制和反馈循环等,这导致基因调控网络具有非线性、随机性等复杂特征;同时,基因表达数据的样本数量有限导致时间聚集偏差,数据存在明显噪声,增加了基因调控网络重建的复杂性。在目前广泛使用的基因调控网络重构方法中,线性基因调控网络重构方法,如布尔网络、线性组合模型等,能够简单描述基因调控网络,但是难以准确反映基因之间的非线性关系;非线性基因调控网络重构方法,如贝叶斯网络、动态贝叶斯网络、基于微分方程的模型等,所建立模型精度高,但是存在计算复杂度高、可推广性差的问题。
发明内容
针对现有技术存在的问题,本发明提供一种基于基因表达数据的基因调控网络重构方法。
本发明的具体技术方案是:
一种基于基因表达数据的基因调控网络重构方法,包括以下步骤:
步骤1:从公共数据库或基因表达量测定实验中获得重构所需要的基因表达量数据,其集合表示为Data={(Xn,Tn)|n=1,2,......,N},其中,Xn为第n个样本中输入特征基因表达量,Tn为第n个样本中目标基因表达量,N为基因表达量样本数量,m输入特征基因维数;
步骤2:采用转换函数对重构所需要的基因表达量数据进行归一化处理;
步骤3:选择重构所需要的基因中的一个未分析的基因作为目标基因,即作为研究对象的基因;
步骤4:构建基于差分进化算法和Elman神经网络的基因表达量预测模型,即输入特征基因与目标基因之间的关系,所述输入特征基因是与目标基因表达相关的基因,具体方法为:
步骤4.1:初始化差分进化算法的参数,包括当前迭代次数G、最大迭代次数Gmax、变异因子FR、交叉概率CR、允许误差δ、种群中个体个数NP、个体维数D、个体的取值范围[Umin,Umax];
步骤4.2:初始化差分进化算法种群中NP个D维个体;
步骤4.3:根据种群中NP个D维个体的信息初始化Elman神经网络权重参数,得到NP个初始化的Elman神经网络,针对得到的NP个初始化的Elman神经网络均执行步骤4.4-步骤4.6;
步骤4.4:根据归一化处理后的重构所需要的基因表达量数据及初始化的Elman神经网络权重参数,训练得到Elman神经网络预测模型以及连接输入层和隐含层的权重值w1、连接隐含层和反馈层的权重值w2、连接隐含层和输出层的权重值w3
步骤4.5:用Elman神经网络预测模型计算Data集合中各个样本对应输入特征基因的目标基因表达量的预测值,具体方法为:
步骤4.5.1:将N个样本按照时间序列进行排序,并对N个样本逐一执行步骤4.5.2-步骤 4.5.5;
步骤4.5.2:根据第n个样本的输入特征基因表达量数值g(n),采用sigmoid激活函数f(*) 计算得出第n个样本的输入层的输出值u(n);
步骤4.5.3:根据第n-1个样本的隐含层的输出值z(n-1)得出第n个样本的反馈状态值zc(n),且当n=1时zc(1)=z(0)=0;
步骤4.5.4:根据第n个样本的反馈状态值zc(n)、第n个样本的输入层的输出值u(n)、连接输入层和隐含层的权重值w1、连接隐含层和反馈层的权重值w2,采用sigmoid激活函数f(*) 计算得出第n个样本的隐含层的输出值z(n);
步骤4.5.5:根据第n个样本的隐含层的输出值z(n)、连接隐含层和输出层的权重值w3,采用sigmoid激活函数f(*)计算得出第n个样本的模型预测值y(n);
步骤4.6:计算模型预测值与其对应真实值的平均绝对误差值作为个体的适应度值F;
步骤4.7:判断差分进化算法是否满足终止条件,若满足,则输出NP个适应度值中的最小值Fmin所对应的预测模型,执行步骤5;若不满足,则执行步骤4.8;
其中,终止条件为NP个适应度值中的最小值Fmin小于预先设定的允许误差δ或当前迭代次数G大于预先设定的最大迭代次数Gmax
步骤4.8:更新个体,令G=G+1,返回步骤4.3;具体更新方法为:
步骤4.8.1:变异;在个体xi G中,i=1,2,......,NP,随机选取种群中两个不同的个体将其向量差变异后与待变异个体进行向量合成,产生变异后新的个体vi G+1,如下式所示:
其中,G为当前迭代次数,k1、k2、k3均为在[1,NP]之间随机生成的整数且各不相同,同时,k1、k2、k3与i也不相同,FR为预先设定的变异因子;
步骤4.8.2:交叉;对个体vi G+1和xi G进行交叉操作,随机产生新的个体ui G+1
uij G+1为个体ui G+1的第j维参数值,c(j)为在区间[0,1]之间服从均匀分布的随机数,CR 为预先设定的交叉概率,randn(I)为[1,D]区间内的一个随机整数,保证新个体ui G+1至少有一维变量是从变异个体vi G+1中选取的;
步骤4.8.3:选择;计算新生成个体ui G+1的适应度值,按照如下公式择优选择新的个体 xi G+1进入下一代:
其中,F(*)表示对应个体的适应度函数值;
步骤5:在输入特征基因表达量的范围内,随机生成符合均匀分布的模拟基因表达量数据集;
步骤6:根据模拟基因表达量数据集,使用所建立的基因表达量预测模型,预测对应的目标基因表达量,并输出;
步骤7:根据模拟的输入特征基因表达量和预测的目标基因表达量,使用皮尔森相关系数分析法,分析输入特征基因与目标基因调控关系;
步骤8:判断重构所需要的基因是否已全部作为目标基因,若是,执行步骤9,若否,返回步骤3;
步骤9:根据全部重构所需要的基因作为目标基因所得到的皮尔森相关系数分析结果,重构基因调控网络。
所述步骤2中采用转换函数对重构数据进行归一化处理的转换函数如下所示:
其中,为第n个样本第m维归一化后的值;为第n个样本第m维的原始数据值;为样本数据中第m维基因表达量的最大值;为样本数据中第m维基因表达量的最小值。
所述步骤4.2中根据初始化差分进化算法的参数初始化差分进化算法种群的公式如下:
xij G=Umin+rand×(Umax-Umin);
其中,xij G为第G代中第i个个体的第j维的值,i=1,2,......,NP,j=1,2,......,D,D 为个体维数,即待优化参数数量,rand∈[0,1]为一个服从均匀分布的随机数。
所述步骤4.6中计算模型预测值与其本身真实值的平均绝对误差值作为个体适应度值F 的公式如下:
其中,yn为第n个样本目标基因表达量的预测值,on为第n个样本目标基因表达量的真实值。
所述步骤7中皮尔森相关系数的计算方法如下:
其中,r为皮尔森相关系数,h为生成模拟数据的样本数量,Aq为输入特征基因表达量的第q个观察值,Bq为目标基因表达量的第q个观察值,为输入特征基因表达量的平均值,为目标基因表达量的平均值,sA为输入特征基因表达量的标准差,sB为目标基因表达量的标准差。
所述步骤7中使用皮尔森相关系数分析法,分析输入特征基因与目标基因调控关系,具体分析方法为:通过计算查表得到显著性水平p,在显著性水平p<0.05的前提下,如果r<0,则该输入特征基因对目标基因的表达有抑制作用,如果r>0,则该输入特征基因对目标基因的表达有促进作用,如果显著性水平p>0.05,则对应的r值不具有统计学意义,不能说明该输入特征基因对目标基因的调控关系。
本发明的有益效果:
本发明提出一种基于基因表达数据的基因调控网络重构方法,能够根据基因表达数据实现高精度基因调控网络重构。本发明使用差分进化算法优化的Elman神经网络预测基因的表达量,具有运算速度快,精度高的优点,另外,使用模拟数据能够解决数据量不足的问题,使最终所建立的基因调控网络具有良好的准确性,其适用范围广,可适用于不同的基因表达数据,具有良好可移植性。
附图说明
图1为本发明具体实施例中基于基因表达数据的基因调控网络重构方法流程图;
图2为本发明具体实施例中基于差分进化算法-Elman神经网络的基因表达量预测模型流程图;
图3为本发明具体实施例中Elman神经网络结构图;
图4为本发明具体实施例中基因CLN1表达量预测曲线;
图5为本发明具体实施例中所构建的部分酵母菌基因调控网络模型。
具体实施方式
本实施例运行的硬件环境:PC机一台,CPU:3.00GHz,RAM:2.0GB;软件环境:matlab2012b,操作平台:Windows XP。
本实施例采用酿酒酵母菌基因表达数据测试所提出方法的性能,所述酿酒酵母菌基因表达数据是通过NCBI数据库获取。使用酵母菌基因表达数据,包含cdc15数据子集中24个样本、 cdc28数据子集中17个样本、alpha数据子集中18个样本,共计59个样本数据进行模型精度的测试及基因网络重构。共选取9个基因进行相关实验,分别是CLN1、SWI6、CLN2、SWI4、 SIC1、CDC28、MBP1、CLB6和CLN3,实验数据详细情况如表1所示。
表1实验数据详细情况
基因调控网络相关基因数 样本数
9 59
下面结合附图,对本发明做进一步说明。以下用于说明本发明,但不用来限制本发明的范围。
一种基于基因表达数据的基因调控网络重构方法,流程如图1所示,具体方法如下所述。
步骤1:从公共数据库或基因表达量测定实验中获得重构所需要的基因表达量数据,其集合表示为Data={(Xn,Tn)|n=1,2,......,59},其中,Xn为第n个样本中输入特征基因表达量,包含59个时刻每个基因的表达量,Tn为第n个样本中目标基因表达量,m为输入基因维数,其值为8。
本实施例中,以alpha数据子集为例,数据样本如表2所示。
表2数据样本(alpha数据子集基因表达数据)
步骤2:采用转换函数对重构所需要的基因表达量数据进行归一化处理;
所述采用转换函数对重构数据进行归一化处理的转换函数如公式(1)所示:
其中,为第n个样本第m维归一化后的值;为第n个样本第m维的原始数据值;为样本数据中第m维基因表达量的最大值;为样本数据中第m维基因表达量的最小值。
本实施例中,以alpha数据子集为例,数据样本归一化结果如表3所示。
表3数据样本归一化结果(alpha数据子集基因表达数据)
步骤3:选择重构所需要的基因中的一个未分析的基因作为目标基因,即作为研究对象的基因。
以基因CLN1作为目标基因为例,对步骤4-步骤7做进一步说明。
步骤4:构建基于差分进化算法和Elman神经网络的基因表达量预测模型,即输入特征基因与目标基因之间的关系,所述输入特征基因是SWI6、CLN2、SWI4、SIC1、CDC28、MBP1、CLB6和CLN3。
建模流程如图2所示:
步骤4.1:初始化差分进化算法的参数,包括当前迭代次数G=1、最大迭代次数Gmax=100、变异因子FR=0.5、交叉概率CR=0.6、允许误差δ=0.05,种群中个体个数NP=30,个体维数 D=380,个体的取值范围[-1,1];
步骤4.2:初始化差分进化算法种群中30个380维个体,如公式(2)所示:
xij 1=-1+rand×(1-(-1)) (2)
其中,xij 1为第1代中第i个个体的第j维的值,i=1,2,......,30,j=1,2,......,380,待优化参数数量为380,rand∈[0,1]为一个服从均匀分布的随机数。
步骤4.3:根据种群中30个380维个体的信息初始化Elman神经网络权重参数,得到30 个初始化的Elman神经网络,针对得到的30个初始化的Elman神经网络均执行步骤4.4-步骤 4.6;
步骤4.4:根据归一化处理后的重构所需要的基因表达量数据及初始化的Elman神经网络权重参数,训练得到Elman神经网络预测模型以及连接输入层和隐含层的权重值w1、连接隐含层和反馈层的权重值w2、连接隐含层和输出层的权重值w3
步骤4.5:用Elman神经网络预测模型计算Data集合中各个样本对应输入特征基因的目标基因表达量的预测值,具体流程如图3所示:
步骤4.5.1:将59个样本按照时间序列进行排序,并对59个样本逐一执行步骤4.5.2-步骤4.5.5;
步骤4.5.2:根据第n个样本的输入特征基因表达量数值g(n),采用sigmoid激活函数f(*) 计算得出n时刻输入层的输出值u(n),其计算公式如公式(3)所示:
u(n)=f(g(n)+α1) (3)
其中,α1为在[0,1]区间内的随机数;
步骤4.5.3:根据第n-1个样本的隐含层的输出值z(n-1)得出第n个样本的反馈状态值zc(n),即zc(n)=z(n-1),且当n=1时zc(1)=z(0)=0;
步骤4.5.4:根据第n个样本的反馈状态值zc(n)、第n个样本的输入层的输出值u(n)、连接输入层和隐含层的权重值w1、连接隐含层和反馈层的权重值w2,采用sigmoid激活函数f(*) 计算得出第n个样本的隐含层的输出值z(n),其计算公式如公式(4)所示:
z(n)=f(w1zc(n)+w2(u(n))+α2) (4)
其中,α2为在[0,1]区间内的随机数;
步骤4.5.5:根据第n个样本的隐含层的输出值z(n)、连接隐含层和输出层的权重值w3,采用sigmoid激活函数f(*)计算得出第n个样本的模型预测值y(n),其计算公式如公式(5) 所示:
y(n)=f(w3z(n)+α3) (5)
其中,α3为在[0,1]区间内的随机数;
步骤4.6:计算模型预测值与其对应真实值的平均绝对误差值作为个体适应度值F,如公式(6)所示:
其中,yn为第n个样本目标基因表达量的预测值,on为第n个样本目标基因表达量的真实值。
步骤4.7:判断差分进化算法是否满足终止条件,若满足,则输出NP个适应度值中的最小值Fmin所对应的预测模型,执行步骤5;若不满足,则执行步骤4.8;
其中,终止条件为NP个适应度值中的最小值Fmin小于预先设定的允许误差0.05或当前迭代次数G大于预先设定的最大迭代次数100;
步骤4.8:更新个体,令G=G+1,返回步骤4.3;具体更新方法为:
步骤4.8.1:变异;在个体xi G中,i=1,2,......,30,随机选取种群中两个不同的个体将其向量差变异后与待变异个体进行向量合成,产生变异后新的个体vi G+1,如公式(7)所示:
其中,G为当前迭代次数;k1、k2、k3均为在[1,30]之间随机生成的整数且各不相同,同时,k1、k2、k3与i也不相同;FR为预先设定的变异因子,其值为0.5。
步骤4.8.2:交叉;对个体vi G+1和xi G进行交叉操作,随机产生新的个体ui G+1; uij G+1为个体ui G+1的第j维参数值,c(j)为在区间[0,1]之间服从均匀分布的随机数,CR 为预先设定的交叉概率,其值为0.6,randn(I)为[1,380]区间内的一个随机整数,保证新个体 ui G+1至少有一维变量是从变异个体vi G+1中选取的。
步骤4.8.3:选择;计算新生成个体ui G+1的适应度值,按照如下公式择优选择新的个体 xi G+1进入下一代,如公式(9)所示:
其中,F(*)表示对应个体的适应度函数值。
为了验证所建立的酵母菌基因表达量预测模型的准确性,使用测试数据集测试所建立模型的准确性,其计算方法如公式(10)所示:
其中,MSE为测试个体的均方误差,M为测试样本个数;yt为第t个样本目标基因表达量的预测值,ot为第t个样本目标基因表达量的真实值。
在本实施例中,以基因CLN1作为目标基因,所得到的基因CLN1在alpha数据子集上的的预测曲线如图4所示。
通过遍历每一个基因作为目标基因,可以得到每个基因在每个数据子集上的MSE,如表 4所示。
表4基因表达量预测结果的均方差
基因 cdc15数据集 cdc28数据集 alpha数据集
CLN1 0.1215 0.1328 0.0681
SWI6 0.0792 0.0663 0.0206
CLN2 0.0535 0.1194 0.0875
SWI4 0.0392 0.1526 0.0568
SIC1 0.0302 0.2271 0.1844
CDC28 0.0163 0.0317 0.0594
MBP1 0.0173 0.0132 0.0555
CLB6 0.0176 0.0769 0.1694
CLN3 0.0630 0.1214 0.1329
平均值 0.0486 0.1046 0.0927
从表4中可以看出,预测最大误差为基因SIC1在cdc28数据子集上出现的0.2271,而同时此基因在alpha数据子集上的误差也是最大的,为0.1844。从平均值来看,在cdc15数据子集上平均均方误差最小,为0.0486;在cdc28数据集的平均均方误差为0.1046,在alpha数据子集上的平均均方误差为0.0927,在预测精度方面,本发明所提方法能满足需要。
步骤5:在输入特征基因表达量的范围内,随机生成100组均匀分布的模拟基因表达量数据;
步骤6:根据100组模拟基因表达量数据集,使用所建立的基因表达量预测模型,预测得到目标基因CLN1的表达量,并输出,如表5所示。
表5模拟基因表达量数据及预测得到目标基因CLN1的表达量
步骤7:根据模拟的输入特征基因表达量和预测的目标基因表达量,使用皮尔森相关系数分析法,分析输入特征基因与目标基因调控关系。
所述皮尔森相关系数的计算方法如公式(11)所示:
其中,r为皮尔森相关系数,h为生成模拟数据的样本数量,Aq为输入特征基因表达量的第q个观察值,Bq为目标基因表达量的第q个观察值,为输入特征基因表达量的平均值,为目标基因表达量的平均值,sA为输入特征基因表达量的标准差,sB为目标基因表达量的标准差。
为获取当前样本下输入特征基因和目标基因的相关性,进行皮尔森相关性分析。通过计算查表得到显著性水平p,一般认为,p<0.05则存在相关性。在显著性水平p<0.05的前提下,如果r<0,则该输入特征基因对目标基因的表达有抑制作用;如果r>0,则该输入特征基因对目标基因的表达有促进作用;如果显著性水平p>0.05,则对应的r值不具有统计学意义,不能说明该输入特征基因对目标基因的调控关系。
如表6所示为各个输入特征基因与目标基因CLN1的相关性分析,其余基因与CLN1之间的p值都大于0.05,只有SWI6的p值小于0.05,说明只有SWI6与目标基因CLN1有调控关系,其r值为0.1998,说明基因SWI6对CLN1具有促进作用。在真实的基因调控网络关系中,也验证了这一点。
表6输入特征基因与目标基因CLN1的相关性分析
步骤8:判断重构所需要的基因是否已全部作为目标基因,若是,执行步骤9,若否,返回步骤3;
步骤9:根据全部重构所需要的基因表达量作为目标基因所得到的皮尔森相关系数分析结果,重构基因调控网络。
最终得到全部基因的皮尔森相关系数分析结果,具有基因相关性的分析结果如表7所示。
表7基因相关性分析结果
目标基因 输入特征基因 r值 p值
CDC28 SIC1 -0.1864 0.0415
CLN1 SWI6 0.1998 0.0287
SWI4 SWI6 0.3014 0.0008
SWI4 MBP1 0.5021 0.0241
SWI4 CLN2 0.4017 5.41e-6
SWI4 CLN3 0.5894 0.0062
SIC1 CLN2 0.2471 0.0065
CLB6 MBP1 0.2422 0.0077
通过表7中的结果可以得到以下结论:基因SIC1抑制基因CDC28,基因SWI6促进CLN1 和SWI4,基因MBP1促进SWI4和CLB6,基因CLN2促进SWI4和SIC1,基因CLN3促进 SWI4。得到最后的基因调控网络图,所建立的部分基因调控网络图如图5所示,其中箭头为促进关系,实心圆为抑制关系。
通过对比图5和真实的基因调控网络可以发现,图5所构建的部分基因调控网络中,有 8条关系被成功预测,完成基因网络的重构,正确率达到88.9%,能够满足基因调控网络重构的要求。

Claims (8)

1.一种基于基因表达数据的基因调控网络重构方法,其特征在于,包括以下步骤:
步骤1:从公共数据库或基因表达量测定实验中获得重构所需要的基因表达量数据,其集合表示为Data={(Xn,Tn)|n=1,2,......,N},其中,Xn为第n个样本中输入特征基因表达量,Tn为第n个样本中目标基因表达量,N为基因表达量样本数量,m为输入特征基因维数;
步骤2:采用转换函数对重构所需要的基因表达量数据进行归一化处理;
步骤3:选择重构所需要的基因中的一个未分析的基因作为目标基因,即作为研究对象的基因;
步骤4:构建基于差分进化算法和Elman神经网络的基因表达量预测模型,即输入特征基因与目标基因之间的关系,所述输入特征基因是与目标基因表达相关的基因,具体方法为:
步骤4.1:初始化差分进化算法的参数,包括当前迭代次数G、最大迭代次数Gmax、变异因子FR、交叉概率CR、允许误差δ、种群中个体个数NP、个体维数D、个体的取值范围[Umin,Umax];
步骤4.2:初始化差分进化算法种群中NP个D维个体;
步骤4.3:根据种群中NP个D维个体的信息初始化Elman神经网络权重参数,得到NP个初始化的Elman神经网络,针对得到的NP个初始化的Elman神经网络均执行步骤4.4-步骤4.6;
步骤4.4:根据归一化处理后的重构所需要的基因表达量数据及初始化的Elman神经网络权重参数,训练得到Elman神经网络预测模型以及连接输入层和隐含层的权重值w1、连接隐含层和反馈层的权重值w2、连接隐含层和输出层的权重值w3
步骤4.5:用Elman神经网络预测模型计算Data集合中各个样本对应输入特征基因的目标基因表达量的预测值;
步骤4.6:计算模型预测值与其对应真实值的平均绝对误差值作为个体的适应度值F;
步骤4.7:判断差分进化算法是否满足终止条件,若满足,则输出NP个适应度值中的最小值Fmin所对应的预测模型,执行步骤5;若不满足,则执行步骤4.8;
其中,终止条件为NP个适应度值中的最小值Fmin小于预先设定的允许误差δ或当前迭代次数G大于预先设定的最大迭代次数Gmax
步骤4.8:更新个体,令G=G+1,返回步骤4.3;
步骤5:在输入特征基因表达量的范围内,随机生成符合均匀分布的模拟基因表达量数据集;
步骤6:根据模拟数据集,使用所建立的基因表达量预测模型,预测对应的目标基因表达量,并输出;
步骤7:根据模拟的输入特征基因表达量和预测的目标基因表达量,使用皮尔森相关系数分析法,分析输入特征基因与目标基因调控关系;
步骤8:判断重构所需要的基因是否已全部作为目标基因,若是,执行步骤9,若否,返回步骤3;
步骤9:根据全部重构所需要的基因作为目标基因所得到的皮尔森相关系数分析结果,重构基因调控网络。
2.根据权利要求1所述的基于基因表达数据的基因调控网络建模方法,其特征在于,所述步骤2中采用转换函数对重构数据进行归一化处理的转换函数如下所示:
其中,为第n个样本第m维归一化后的值;为第n个样本第m维的原始数据值;为样本数据中第m维基因表达量的最大值;为样本数据中第m维基因表达量的最小值。
3.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法,其特征在于,所述步骤4.2中根据初始化差分进化算法的参数初始化差分进化算法种群的公式如下:
xij G=Umin+rand×(Umax-Umin);
其中,xij G为第G代中第i个个体的第j维的值,i=1,2,......,NP,j=1,2,......,D,D为个体维数,即待优化参数数量,rand∈[0,1]为一个服从均匀分布的随机数。
4.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法,其特征在于,所述步骤4.5包括以下步骤:
步骤4.5.1:将N个样本按照时间序列进行排序,并对N个样本逐一执行步骤4.5.2-步骤4.5.5;
步骤4.5.2:根据第n个样本的输入特征基因表达量数值g(n),采用sigmoid激活函数f(*)计算得出第n个样本的输入层的输出值u(n);
步骤4.5.3:根据第n-1个样本的隐含层的输出值z(n-1)得出第n个样本的反馈状态值zc(n),且当n=1时zc(1)=z(0)=0;
步骤4.5.4:根据第n个样本的反馈状态值zc(n)、第n个样本的输入层的输出值u(n)、连接输入层和隐含层的权重值w1、连接隐含层和反馈层的权重值w2,采用sigmoid激活函数f(*)计算得出第n个样本的隐含层的输出值z(n);
步骤4.5.5:根据第n个样本的隐含层的输出值z(n)、连接隐含层和输出层的权重值w3,采用sigmoid激活函数f(*)计算得出第n个样本的模型预测值y(n)。
5.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法,其特征在于,所述步骤4.6中计算模型预测值与其本身真实值的平均绝对误差值作为个体适应度值F的公式如下:
其中,yn为第n个样本目标基因表达量的预测值,on为第n个样本目标基因表达量的真实值。
6.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法,其特征在于,所述步骤4.8包括以下步骤:
步骤4.8.1:变异;在个体xi G中,i=1,2,......,NP,随机选取种群中两个不同的个体将其向量差变异后与待变异个体进行向量合成,产生变异后新的个体vi G+1,如下式所示:
其中,G为当前迭代次数,k1、k2、k3均为在[1,NP]之间随机生成的整数且各不相同,同时,k1、k2、k3与i也不相同,FR为预先设定的变异因子;
步骤4.8.2:交叉;对个体vi G+1和xi G进行交叉操作,随机产生新的个体ui G+1
uij G+1为个体ui G+1的第j维参数值,c(j)为在区间[0,1]之间服从均匀分布的随机数,CR为预先设定的交叉概率,randn(I)为[1,D]区间内的一个随机整数,保证新个体ui G+1至少有一维变量是从变异个体vi G+1中选取的;
步骤4.8.3:选择;计算新生成个体ui G+1的适应度值,按照如下公式择优选择新的个体xi G+1进入下一代:
其中,F(*)表示对应个体的适应度函数值。
7.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法,其特征在于,所述步骤7中皮尔森相关系数的计算方法如下:
其中,r为皮尔森相关系数,h为生成模拟数据的样本数量,Aq为输入特征基因表达量的第q个观察值,Bq为目标基因表达量的第q个观察值,为输入特征基因表达量的平均值,为目标基因表达量的平均值,sA为输入特征基因表达量的标准差,sB为目标基因表达量的标准差。
8.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法,其特征在于,所述步骤7中使用皮尔森相关系数分析法,分析输入特征基因与目标基因调控关系,具体分析方法为:通过计算查表得到显著性水平p,在显著性水平p<0.05的前提下,如果r<0,则该输入特征基因对目标基因的表达有抑制作用,如果r>0,则该输入特征基因对目标基因的表达有促进作用,如果显著性水平p>0.05,则对应的r值不具有统计学意义,不能说明该输入特征基因对目标基因的调控关系。
CN201711227222.7A 2017-11-29 2017-11-29 一种基于基因表达数据的基因调控网络重构方法 Active CN108197432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711227222.7A CN108197432B (zh) 2017-11-29 2017-11-29 一种基于基因表达数据的基因调控网络重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711227222.7A CN108197432B (zh) 2017-11-29 2017-11-29 一种基于基因表达数据的基因调控网络重构方法

Publications (2)

Publication Number Publication Date
CN108197432A true CN108197432A (zh) 2018-06-22
CN108197432B CN108197432B (zh) 2021-04-02

Family

ID=62573270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711227222.7A Active CN108197432B (zh) 2017-11-29 2017-11-29 一种基于基因表达数据的基因调控网络重构方法

Country Status (1)

Country Link
CN (1) CN108197432B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959787A (zh) * 2018-07-12 2018-12-07 山东大学 考虑实际工况的宏宏双驱动系统的热变形预测方法及系统
CN109308934A (zh) * 2018-08-20 2019-02-05 唐山照澜海洋科技有限公司 一种基于集成特征重要性和鸡群算法的基因调控网络构建方法
CN109785903A (zh) * 2018-12-29 2019-05-21 哈尔滨工业大学(深圳) 一种基因表达数据分类器
CN110097924A (zh) * 2019-04-22 2019-08-06 海南大学 用于基因调控中及控制基因表达水平的噪声信号解码方法
CN111583991A (zh) * 2020-05-06 2020-08-25 苏州浪潮智能科技有限公司 一种基因调控网络重构的方法、系统、设备及介质
WO2020253547A1 (zh) * 2019-06-21 2020-12-24 石致宇 一种模拟人工神经网络的基因电路及其构建方法
CN113486952A (zh) * 2021-07-06 2021-10-08 大连海事大学 一种基因调控网络的多因素模型优化方法
CN113782092A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 一种生存期预测模型的生成方法及装置、存储介质
CN114093426A (zh) * 2021-11-11 2022-02-25 大连理工大学 基于基因调控网络构建的标志物筛选方法
CN116339351A (zh) * 2023-05-29 2023-06-27 汕头大学 一种基于基因调控网络的智能体集群区域覆盖方法及系统
CN116994652A (zh) * 2023-09-22 2023-11-03 苏州元脑智能科技有限公司 基于神经网络的信息预测方法、装置及电子设备
WO2024082860A1 (zh) * 2022-10-21 2024-04-25 腾讯科技(深圳)有限公司 调控关系检测模型的训练、调控关系的检测方法及装置
CN117637031B (zh) * 2023-11-28 2024-06-04 北京泱深生物信息技术有限公司 一种基因调控网络重建方法、系统及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130184792A1 (en) * 2009-03-20 2013-07-18 ElectroCore, LLC. Non-invasive magnetic or electrical nerve stimulation to treat or prevent autism spectrum disorders and other disorders of psychological development
CN104598657A (zh) * 2013-10-30 2015-05-06 江南大学 一种基于memetic算法的基因模体重构技术
CN105907756A (zh) * 2008-12-18 2016-08-31 戴瑟纳制药公司 延长的dicer酶底物和特异性抑制基因表达的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105907756A (zh) * 2008-12-18 2016-08-31 戴瑟纳制药公司 延长的dicer酶底物和特异性抑制基因表达的方法
US20130184792A1 (en) * 2009-03-20 2013-07-18 ElectroCore, LLC. Non-invasive magnetic or electrical nerve stimulation to treat or prevent autism spectrum disorders and other disorders of psychological development
CN104598657A (zh) * 2013-10-30 2015-05-06 江南大学 一种基于memetic算法的基因模体重构技术

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SOPHIE LÈBRE ET AL.: "Statistical inference of the time-varying structure of gene-regulation networks", 《BMC SYSTEMS BIOLOGY 2010》 *
YU-AN HUANG ET AL.: "Constructing prediction models from expression profiles for large scale lncRNA–miRNA interaction profiling", 《SYSTEMS BIOLOGY》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959787A (zh) * 2018-07-12 2018-12-07 山东大学 考虑实际工况的宏宏双驱动系统的热变形预测方法及系统
CN108959787B (zh) * 2018-07-12 2023-05-26 山东大学 考虑实际工况的宏宏双驱动系统的热变形预测方法及系统
CN109308934A (zh) * 2018-08-20 2019-02-05 唐山照澜海洋科技有限公司 一种基于集成特征重要性和鸡群算法的基因调控网络构建方法
CN109785903A (zh) * 2018-12-29 2019-05-21 哈尔滨工业大学(深圳) 一种基因表达数据分类器
CN110097924A (zh) * 2019-04-22 2019-08-06 海南大学 用于基因调控中及控制基因表达水平的噪声信号解码方法
WO2020253547A1 (zh) * 2019-06-21 2020-12-24 石致宇 一种模拟人工神经网络的基因电路及其构建方法
CN111583991B (zh) * 2020-05-06 2022-06-21 苏州浪潮智能科技有限公司 一种基因调控网络重构的方法、系统、设备及介质
CN111583991A (zh) * 2020-05-06 2020-08-25 苏州浪潮智能科技有限公司 一种基因调控网络重构的方法、系统、设备及介质
CN113486952A (zh) * 2021-07-06 2021-10-08 大连海事大学 一种基因调控网络的多因素模型优化方法
CN113486952B (zh) * 2021-07-06 2023-09-05 大连海事大学 一种基因调控网络的多因素模型优化方法
CN113782092A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 一种生存期预测模型的生成方法及装置、存储介质
CN113782092B (zh) * 2021-09-16 2023-06-02 平安科技(深圳)有限公司 一种生存期预测模型的生成方法及装置、存储介质
CN114093426A (zh) * 2021-11-11 2022-02-25 大连理工大学 基于基因调控网络构建的标志物筛选方法
CN114093426B (zh) * 2021-11-11 2024-05-07 大连理工大学 基于基因调控网络构建的标志物筛选方法
WO2024082860A1 (zh) * 2022-10-21 2024-04-25 腾讯科技(深圳)有限公司 调控关系检测模型的训练、调控关系的检测方法及装置
CN116339351A (zh) * 2023-05-29 2023-06-27 汕头大学 一种基于基因调控网络的智能体集群区域覆盖方法及系统
CN116339351B (zh) * 2023-05-29 2023-09-01 汕头大学 一种基于基因调控网络的智能体集群区域覆盖方法及系统
CN116994652B (zh) * 2023-09-22 2024-02-02 苏州元脑智能科技有限公司 基于神经网络的信息预测方法、装置及电子设备
CN116994652A (zh) * 2023-09-22 2023-11-03 苏州元脑智能科技有限公司 基于神经网络的信息预测方法、装置及电子设备
CN117637031B (zh) * 2023-11-28 2024-06-04 北京泱深生物信息技术有限公司 一种基因调控网络重建方法、系统及设备

Also Published As

Publication number Publication date
CN108197432B (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN108197432A (zh) 一种基于基因表达数据的基因调控网络重构方法
Salmeron et al. Learning fuzzy cognitive maps with modified asexual reproduction optimisation algorithm
Logan Shapes of reaction-time distributions and shapes of learning curves: a test of the instance theory of automaticity.
Giannakoglou et al. Aerodynamic shape design using evolutionary algorithms and new gradient-assisted metamodels
CN115876476B (zh) 滚动轴承故障诊断方法、系统、计算机设备以及存储介质
Karim et al. Random satisfiability: A higher-order logical approach in discrete Hopfield Neural Network
CN113241122A (zh) 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法
CN111785326B (zh) 基于生成对抗网络的药物作用后基因表达谱预测方法
CN114707712A (zh) 一种发电机组备件需求的预测方法
CN106096723A (zh) 一种基于混合神经网络算法的用于复杂工业产品性能评估方法
Wang et al. Establish algebraic data-driven constitutive models for elastic solids with a tensorial sparse symbolic regression method and a hybrid feature selection technique
Ding et al. Performance prediction for a fuel cell air compressor based on the combination of backpropagation neural network optimized by genetic algorithm (GA-BP) and support vector machine (SVM) algorithms
CN111191823B (zh) 一种基于深度学习的生产物流预测方法
Robati et al. Inflation rate modeling: Adaptive neuro-fuzzy inference system approach and particle swarm optimization algorithm (ANFIS-PSO)
Cheraghi et al. An adaptive artificial neural network for reliability analyses of complex engineering systems
CN106650918A (zh) 构建系统模型的方法和装置
CN113762370A (zh) 一种结合高斯随机场的深度网络集合生成方法
Keedwell et al. Modelling gene regulatory data using artificial neural networks
Klemenc et al. A neural network approach to the simulation of load histories by considering the influence of a sequence of rainflow load cycles
Karimi et al. Digital implementation of biologically inspired Wilson model, population behavior, and learning
CN110853707A (zh) 一种基于深度学习的基因调控网络重构方法
Bakumenko et al. Synthesis method of robust neural network models of systems and processes
CN113539517A (zh) 时序干预效果的预测方法
Xing et al. Hierarchical genetic algorithm based RBF neural networks and application for modelling of the automatic depth control electrohydraulic system
Li et al. Turbulence Model Development based on a Novel Method Combining Gene Expression Programming with an Artificial Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant