CN108197432A

CN108197432A - 一种基于基因表达数据的基因调控网络重构方法

Info

Publication number: CN108197432A
Application number: CN201711227222.7A
Authority: CN
Inventors: 唐振浩; 王宇; 曹生现
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-06-22
Anticipated expiration: 2037-11-29
Also published as: CN108197432B

Abstract

本发明提供一种基于基因表达数据的基因调控网络重构方法，涉及生物信息学中基因调控网络重构技术领域。该方法包括：获得重构所需基因表达量数据；对数据进行归一化处理；对目标基因表达量预测建模；预测目标基因表达量；分析输入特征基因与目标基因调控关系；基因调控网络重构。本发明提供的一种基于基因表达数据的基因调控网络重构方法，能够根据基因表达数据实现高精度基因调控网络建模，使用差分进化算法优化的Elman神经网络预测基因的表达量，具有运算速度快，精度高的优点，另外，使用模拟数据能够解决数据量不足的问题，使最终所建立的基因调控网络具有良好的准确性，其适用范围广，可适用于不同的基因表达数据，具有良好可移植性。

Description

一种基于基因表达数据的基因调控网络重构方法

技术领域

本发明属于生物信息学中基因调控网络重构技术领域，尤其涉及一种基于基因表达数据的基因调控网络重构方法。

背景技术

基因调控网络广泛存在于原核和真核生物中，是描述基因与基因相互作用的网络。基因调控网络重构能够模拟基因之间的协同关系，发现基因对生物生命周期及生命活动的影响机理，是生物信息学领域的重要研究方向。准确的基因调控网络模型能够帮助人们了解基因调控网络的动态结构，对于揭示生命过程有重要意义。

基因表达过程中存在诸多复杂因素，例如随机行为、基因复制和反馈循环等，这导致基因调控网络具有非线性、随机性等复杂特征；同时，基因表达数据的样本数量有限导致时间聚集偏差，数据存在明显噪声，增加了基因调控网络重建的复杂性。在目前广泛使用的基因调控网络重构方法中，线性基因调控网络重构方法，如布尔网络、线性组合模型等，能够简单描述基因调控网络，但是难以准确反映基因之间的非线性关系；非线性基因调控网络重构方法，如贝叶斯网络、动态贝叶斯网络、基于微分方程的模型等，所建立模型精度高，但是存在计算复杂度高、可推广性差的问题。

发明内容

针对现有技术存在的问题，本发明提供一种基于基因表达数据的基因调控网络重构方法。

本发明的具体技术方案是：

一种基于基因表达数据的基因调控网络重构方法，包括以下步骤：

步骤1：从公共数据库或基因表达量测定实验中获得重构所需要的基因表达量数据，其集合表示为Data＝{(X_n，T_n)|n＝1，2，......，N}，其中，X_n为第n个样本中输入特征基因表达量，T_n为第n个样本中目标基因表达量，N为基因表达量样本数量，m输入特征基因维数；

步骤2：采用转换函数对重构所需要的基因表达量数据进行归一化处理；

步骤3：选择重构所需要的基因中的一个未分析的基因作为目标基因，即作为研究对象的基因；

步骤4：构建基于差分进化算法和Elman神经网络的基因表达量预测模型，即输入特征基因与目标基因之间的关系，所述输入特征基因是与目标基因表达相关的基因，具体方法为：

步骤4.1：初始化差分进化算法的参数，包括当前迭代次数G、最大迭代次数G_max、变异因子FR、交叉概率CR、允许误差δ、种群中个体个数NP、个体维数D、个体的取值范围[U_min，U_max]；

步骤4.2：初始化差分进化算法种群中NP个D维个体；

步骤4.3：根据种群中NP个D维个体的信息初始化Elman神经网络权重参数，得到NP个初始化的Elman神经网络，针对得到的NP个初始化的Elman神经网络均执行步骤4.4-步骤4.6；

步骤4.4：根据归一化处理后的重构所需要的基因表达量数据及初始化的Elman神经网络权重参数，训练得到Elman神经网络预测模型以及连接输入层和隐含层的权重值w₁、连接隐含层和反馈层的权重值w₂、连接隐含层和输出层的权重值w₃；

步骤4.5：用Elman神经网络预测模型计算Data集合中各个样本对应输入特征基因的目标基因表达量的预测值，具体方法为：

步骤4.5.1：将N个样本按照时间序列进行排序，并对N个样本逐一执行步骤4.5.2-步骤 4.5.5；

步骤4.5.2：根据第n个样本的输入特征基因表达量数值g(n)，采用sigmoid激活函数f(*) 计算得出第n个样本的输入层的输出值u(n)；

步骤4.5.3：根据第n-1个样本的隐含层的输出值z(n-1)得出第n个样本的反馈状态值z_c(n)，且当n＝1时z_c(1)＝z(0)＝0；

步骤4.5.4：根据第n个样本的反馈状态值z_c(n)、第n个样本的输入层的输出值u(n)、连接输入层和隐含层的权重值w₁、连接隐含层和反馈层的权重值w₂，采用sigmoid激活函数f(*) 计算得出第n个样本的隐含层的输出值z(n)；

步骤4.5.5：根据第n个样本的隐含层的输出值z(n)、连接隐含层和输出层的权重值w₃，采用sigmoid激活函数f(*)计算得出第n个样本的模型预测值y(n)；

步骤4.6：计算模型预测值与其对应真实值的平均绝对误差值作为个体的适应度值F；

步骤4.7：判断差分进化算法是否满足终止条件，若满足，则输出NP个适应度值中的最小值F_min所对应的预测模型，执行步骤5；若不满足，则执行步骤4.8；

其中，终止条件为NP个适应度值中的最小值F_min小于预先设定的允许误差δ或当前迭代次数G大于预先设定的最大迭代次数G_max；

步骤4.8：更新个体，令G＝G+1，返回步骤4.3；具体更新方法为：

步骤4.8.1：变异；在个体x_i ^G中，i＝1，2，......，NP，随机选取种群中两个不同的个体和将其向量差变异后与待变异个体进行向量合成，产生变异后新的个体v_i ^G+1，如下式所示：

其中，G为当前迭代次数，k₁、k₂、k₃均为在[1，NP]之间随机生成的整数且各不相同，同时，k₁、k₂、k₃与i也不相同，FR为预先设定的变异因子；

步骤4.8.2：交叉；对个体v_i ^G+1和x_i ^G进行交叉操作，随机产生新的个体u_i ^G+1；

u_ij ^G+1为个体u_i ^G+1的第j维参数值，c(j)为在区间[0，1]之间服从均匀分布的随机数，CR 为预先设定的交叉概率，randn(I)为[1，D]区间内的一个随机整数，保证新个体u_i ^G+1至少有一维变量是从变异个体v_i ^G+1中选取的；

步骤4.8.3：选择；计算新生成个体u_i ^G+1的适应度值，按照如下公式择优选择新的个体 x_i ^G+1进入下一代：

其中，F(*)表示对应个体的适应度函数值；

步骤5：在输入特征基因表达量的范围内，随机生成符合均匀分布的模拟基因表达量数据集；

步骤6：根据模拟基因表达量数据集，使用所建立的基因表达量预测模型，预测对应的目标基因表达量，并输出；

步骤7：根据模拟的输入特征基因表达量和预测的目标基因表达量，使用皮尔森相关系数分析法，分析输入特征基因与目标基因调控关系；

步骤8：判断重构所需要的基因是否已全部作为目标基因，若是，执行步骤9，若否，返回步骤3；

步骤9：根据全部重构所需要的基因作为目标基因所得到的皮尔森相关系数分析结果，重构基因调控网络。

所述步骤2中采用转换函数对重构数据进行归一化处理的转换函数如下所示：

其中，为第n个样本第m维归一化后的值；为第n个样本第m维的原始数据值；为样本数据中第m维基因表达量的最大值；为样本数据中第m维基因表达量的最小值。

所述步骤4.2中根据初始化差分进化算法的参数初始化差分进化算法种群的公式如下：

x_ij ^G＝U_min+rand×(U_max-U_min)；

其中，x_ij ^G为第G代中第i个个体的第j维的值，i＝1，2，......，NP，j＝1，2，......，D，D 为个体维数，即待优化参数数量，rand∈[0，1]为一个服从均匀分布的随机数。

所述步骤4.6中计算模型预测值与其本身真实值的平均绝对误差值作为个体适应度值F 的公式如下：

其中，y_n为第n个样本目标基因表达量的预测值，o_n为第n个样本目标基因表达量的真实值。

所述步骤7中皮尔森相关系数的计算方法如下：

其中，r为皮尔森相关系数，h为生成模拟数据的样本数量，A_q为输入特征基因表达量的第q个观察值，B_q为目标基因表达量的第q个观察值，为输入特征基因表达量的平均值，为目标基因表达量的平均值，s_A为输入特征基因表达量的标准差，s_B为目标基因表达量的标准差。

所述步骤7中使用皮尔森相关系数分析法，分析输入特征基因与目标基因调控关系，具体分析方法为：通过计算查表得到显著性水平p，在显著性水平p＜0.05的前提下，如果r＜0，则该输入特征基因对目标基因的表达有抑制作用，如果r＞0，则该输入特征基因对目标基因的表达有促进作用，如果显著性水平p＞0.05，则对应的r值不具有统计学意义，不能说明该输入特征基因对目标基因的调控关系。

本发明的有益效果：

本发明提出一种基于基因表达数据的基因调控网络重构方法，能够根据基因表达数据实现高精度基因调控网络重构。本发明使用差分进化算法优化的Elman神经网络预测基因的表达量，具有运算速度快，精度高的优点，另外，使用模拟数据能够解决数据量不足的问题，使最终所建立的基因调控网络具有良好的准确性，其适用范围广，可适用于不同的基因表达数据，具有良好可移植性。

附图说明

图1为本发明具体实施例中基于基因表达数据的基因调控网络重构方法流程图；

图2为本发明具体实施例中基于差分进化算法-Elman神经网络的基因表达量预测模型流程图；

图3为本发明具体实施例中Elman神经网络结构图；

图4为本发明具体实施例中基因CLN1表达量预测曲线；

图5为本发明具体实施例中所构建的部分酵母菌基因调控网络模型。

具体实施方式

本实施例运行的硬件环境：PC机一台，CPU：3.00GHz，RAM：2.0GB；软件环境：matlab2012b，操作平台：Windows XP。

本实施例采用酿酒酵母菌基因表达数据测试所提出方法的性能，所述酿酒酵母菌基因表达数据是通过NCBI数据库获取。使用酵母菌基因表达数据，包含cdc15数据子集中24个样本、 cdc28数据子集中17个样本、alpha数据子集中18个样本，共计59个样本数据进行模型精度的测试及基因网络重构。共选取9个基因进行相关实验，分别是CLN1、SWI6、CLN2、SWI4、 SIC1、CDC28、MBP1、CLB6和CLN3，实验数据详细情况如表1所示。

表1实验数据详细情况

基因调控网络相关基因数	样本数
		9	59

下面结合附图，对本发明做进一步说明。以下用于说明本发明，但不用来限制本发明的范围。

一种基于基因表达数据的基因调控网络重构方法，流程如图1所示，具体方法如下所述。

步骤1：从公共数据库或基因表达量测定实验中获得重构所需要的基因表达量数据，其集合表示为Data＝{(X_n，T_n)|n＝1，2，......，59}，其中，X_n为第n个样本中输入特征基因表达量，包含59个时刻每个基因的表达量，T_n为第n个样本中目标基因表达量，m为输入基因维数，其值为8。

本实施例中，以alpha数据子集为例，数据样本如表2所示。

表2数据样本(alpha数据子集基因表达数据)

所述采用转换函数对重构数据进行归一化处理的转换函数如公式(1)所示：

本实施例中，以alpha数据子集为例，数据样本归一化结果如表3所示。

表3数据样本归一化结果(alpha数据子集基因表达数据)

步骤3：选择重构所需要的基因中的一个未分析的基因作为目标基因，即作为研究对象的基因。

以基因CLN1作为目标基因为例，对步骤4-步骤7做进一步说明。

步骤4：构建基于差分进化算法和Elman神经网络的基因表达量预测模型，即输入特征基因与目标基因之间的关系，所述输入特征基因是SWI6、CLN2、SWI4、SIC1、CDC28、MBP1、CLB6和CLN3。

建模流程如图2所示：

步骤4.1：初始化差分进化算法的参数，包括当前迭代次数G＝1、最大迭代次数G_max＝100、变异因子FR＝0.5、交叉概率CR＝0.6、允许误差δ＝0.05，种群中个体个数NP＝30，个体维数 D＝380，个体的取值范围[-1，1]；

步骤4.2：初始化差分进化算法种群中30个380维个体，如公式(2)所示：

x_ij ¹＝-1+rand×(1-(-1)) (2)

其中，x_ij ¹为第1代中第i个个体的第j维的值，i＝1，2，......，30，j＝1，2，......，380，待优化参数数量为380，rand∈[0，1]为一个服从均匀分布的随机数。

步骤4.3：根据种群中30个380维个体的信息初始化Elman神经网络权重参数，得到30 个初始化的Elman神经网络，针对得到的30个初始化的Elman神经网络均执行步骤4.4-步骤 4.6；

步骤4.5：用Elman神经网络预测模型计算Data集合中各个样本对应输入特征基因的目标基因表达量的预测值，具体流程如图3所示：

步骤4.5.1：将59个样本按照时间序列进行排序，并对59个样本逐一执行步骤4.5.2-步骤4.5.5；

步骤4.5.2：根据第n个样本的输入特征基因表达量数值g(n)，采用sigmoid激活函数f(*) 计算得出n时刻输入层的输出值u(n)，其计算公式如公式(3)所示：

u(n)＝f(g(n)+α₁) (3)

其中，α₁为在[0，1]区间内的随机数；

步骤4.5.3：根据第n-1个样本的隐含层的输出值z(n-1)得出第n个样本的反馈状态值z_c(n)，即z_c(n)＝z(n-1)，且当n＝1时z_c(1)＝z(0)＝0；

步骤4.5.4：根据第n个样本的反馈状态值z_c(n)、第n个样本的输入层的输出值u(n)、连接输入层和隐含层的权重值w₁、连接隐含层和反馈层的权重值w₂，采用sigmoid激活函数f(*) 计算得出第n个样本的隐含层的输出值z(n)，其计算公式如公式(4)所示：

z(n)＝f(w₁z_c(n)+w₂(u(n))+α₂) (4)

其中，α₂为在[0，1]区间内的随机数；

步骤4.5.5：根据第n个样本的隐含层的输出值z(n)、连接隐含层和输出层的权重值w₃，采用sigmoid激活函数f(*)计算得出第n个样本的模型预测值y(n)，其计算公式如公式(5) 所示：

y(n)＝f(w₃z(n)+α₃) (5)

其中，α₃为在[0，1]区间内的随机数；

步骤4.6：计算模型预测值与其对应真实值的平均绝对误差值作为个体适应度值F，如公式(6)所示：

其中，终止条件为NP个适应度值中的最小值F_min小于预先设定的允许误差0.05或当前迭代次数G大于预先设定的最大迭代次数100；

步骤4.8.1：变异；在个体x_i ^G中，i＝1，2，......，30，随机选取种群中两个不同的个体和将其向量差变异后与待变异个体进行向量合成，产生变异后新的个体v_i ^G+1，如公式(7)所示：

其中，G为当前迭代次数；k₁、k₂、k₃均为在[1，30]之间随机生成的整数且各不相同，同时，k₁、k₂、k₃与i也不相同；FR为预先设定的变异因子，其值为0.5。

步骤4.8.2：交叉；对个体v_i ^G+1和x_i ^G进行交叉操作，随机产生新的个体u_i ^G+1； u_ij ^G+1为个体u_i ^G+1的第j维参数值，c(j)为在区间[0，1]之间服从均匀分布的随机数，CR 为预先设定的交叉概率，其值为0.6，randn(I)为[1，380]区间内的一个随机整数，保证新个体 u_i ^G+1至少有一维变量是从变异个体v_i ^G+1中选取的。

步骤4.8.3：选择；计算新生成个体u_i ^G+1的适应度值，按照如下公式择优选择新的个体 x_i ^G+1进入下一代，如公式(9)所示：

其中，F(*)表示对应个体的适应度函数值。

为了验证所建立的酵母菌基因表达量预测模型的准确性，使用测试数据集测试所建立模型的准确性，其计算方法如公式(10)所示：

其中，MSE为测试个体的均方误差，M为测试样本个数；y_t为第t个样本目标基因表达量的预测值，o_t为第t个样本目标基因表达量的真实值。

在本实施例中，以基因CLN1作为目标基因，所得到的基因CLN1在alpha数据子集上的的预测曲线如图4所示。

通过遍历每一个基因作为目标基因，可以得到每个基因在每个数据子集上的MSE，如表 4所示。

表4基因表达量预测结果的均方差

基因	cdc15数据集	cdc28数据集	alpha数据集
				CLN1	0.1215	0.1328	0.0681
SWI6	0.0792	0.0663	0.0206
				CLN2	0.0535	0.1194	0.0875
SWI4	0.0392	0.1526	0.0568
				SIC1	0.0302	0.2271	0.1844
CDC28	0.0163	0.0317	0.0594
				MBP1	0.0173	0.0132	0.0555
CLB6	0.0176	0.0769	0.1694
				CLN3	0.0630	0.1214	0.1329
平均值	0.0486	0.1046	0.0927

从表4中可以看出，预测最大误差为基因SIC1在cdc28数据子集上出现的0.2271，而同时此基因在alpha数据子集上的误差也是最大的，为0.1844。从平均值来看，在cdc15数据子集上平均均方误差最小，为0.0486；在cdc28数据集的平均均方误差为0.1046，在alpha数据子集上的平均均方误差为0.0927，在预测精度方面，本发明所提方法能满足需要。

步骤5：在输入特征基因表达量的范围内，随机生成100组均匀分布的模拟基因表达量数据；

步骤6：根据100组模拟基因表达量数据集，使用所建立的基因表达量预测模型，预测得到目标基因CLN1的表达量，并输出，如表5所示。

表5模拟基因表达量数据及预测得到目标基因CLN1的表达量

步骤7：根据模拟的输入特征基因表达量和预测的目标基因表达量，使用皮尔森相关系数分析法，分析输入特征基因与目标基因调控关系。

所述皮尔森相关系数的计算方法如公式(11)所示：

为获取当前样本下输入特征基因和目标基因的相关性，进行皮尔森相关性分析。通过计算查表得到显著性水平p，一般认为，p＜0.05则存在相关性。在显著性水平p＜0.05的前提下，如果r＜0，则该输入特征基因对目标基因的表达有抑制作用；如果r＞0，则该输入特征基因对目标基因的表达有促进作用；如果显著性水平p＞0.05，则对应的r值不具有统计学意义，不能说明该输入特征基因对目标基因的调控关系。

如表6所示为各个输入特征基因与目标基因CLN1的相关性分析，其余基因与CLN1之间的p值都大于0.05，只有SWI6的p值小于0.05，说明只有SWI6与目标基因CLN1有调控关系，其r值为0.1998，说明基因SWI6对CLN1具有促进作用。在真实的基因调控网络关系中，也验证了这一点。

表6输入特征基因与目标基因CLN1的相关性分析

步骤9：根据全部重构所需要的基因表达量作为目标基因所得到的皮尔森相关系数分析结果，重构基因调控网络。

最终得到全部基因的皮尔森相关系数分析结果，具有基因相关性的分析结果如表7所示。

表7基因相关性分析结果

目标基因	输入特征基因	r值	p值
				CDC28	SIC1	-0.1864	0.0415
CLN1	SWI6	0.1998	0.0287
				SWI4	SWI6	0.3014	0.0008
SWI4	MBP1	0.5021	0.0241
				SWI4	CLN2	0.4017	5.41e-6
SWI4	CLN3	0.5894	0.0062
				SIC1	CLN2	0.2471	0.0065
CLB6	MBP1	0.2422	0.0077

通过表7中的结果可以得到以下结论：基因SIC1抑制基因CDC28，基因SWI6促进CLN1 和SWI4，基因MBP1促进SWI4和CLB6，基因CLN2促进SWI4和SIC1，基因CLN3促进 SWI4。得到最后的基因调控网络图，所建立的部分基因调控网络图如图5所示，其中箭头为促进关系，实心圆为抑制关系。

通过对比图5和真实的基因调控网络可以发现，图5所构建的部分基因调控网络中，有 8条关系被成功预测，完成基因网络的重构，正确率达到88.9％，能够满足基因调控网络重构的要求。

Claims

1.一种基于基因表达数据的基因调控网络重构方法，其特征在于，包括以下步骤：

步骤1：从公共数据库或基因表达量测定实验中获得重构所需要的基因表达量数据，其集合表示为Data＝{(X_n，T_n)|n＝1，2，......，N}，其中，X_n为第n个样本中输入特征基因表达量，T_n为第n个样本中目标基因表达量，N为基因表达量样本数量，m为输入特征基因维数；

步骤4.2：初始化差分进化算法种群中NP个D维个体；

步骤4.5：用Elman神经网络预测模型计算Data集合中各个样本对应输入特征基因的目标基因表达量的预测值；

步骤4.8：更新个体，令G＝G+1，返回步骤4.3；

步骤6：根据模拟数据集，使用所建立的基因表达量预测模型，预测对应的目标基因表达量，并输出；

2.根据权利要求1所述的基于基因表达数据的基因调控网络建模方法，其特征在于，所述步骤2中采用转换函数对重构数据进行归一化处理的转换函数如下所示：

3.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法，其特征在于，所述步骤4.2中根据初始化差分进化算法的参数初始化差分进化算法种群的公式如下：

x_ij ^G＝U_min+rand×(U_max-U_min)；

其中，x_ij ^G为第G代中第i个个体的第j维的值，i＝1，2，......，NP，j＝1，2，......，D，D为个体维数，即待优化参数数量，rand∈[0，1]为一个服从均匀分布的随机数。

4.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法，其特征在于，所述步骤4.5包括以下步骤：

步骤4.5.1：将N个样本按照时间序列进行排序，并对N个样本逐一执行步骤4.5.2-步骤4.5.5；

步骤4.5.2：根据第n个样本的输入特征基因表达量数值g(n)，采用sigmoid激活函数f(*)计算得出第n个样本的输入层的输出值u(n)；

步骤4.5.4：根据第n个样本的反馈状态值z_c(n)、第n个样本的输入层的输出值u(n)、连接输入层和隐含层的权重值w₁、连接隐含层和反馈层的权重值w₂，采用sigmoid激活函数f(*)计算得出第n个样本的隐含层的输出值z(n)；

步骤4.5.5：根据第n个样本的隐含层的输出值z(n)、连接隐含层和输出层的权重值w₃，采用sigmoid激活函数f(*)计算得出第n个样本的模型预测值y(n)。

5.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法，其特征在于，所述步骤4.6中计算模型预测值与其本身真实值的平均绝对误差值作为个体适应度值F的公式如下：

6.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法，其特征在于，所述步骤4.8包括以下步骤：

u_ij ^G+1为个体u_i ^G+1的第j维参数值，c(j)为在区间[0，1]之间服从均匀分布的随机数，CR为预先设定的交叉概率，randn(I)为[1，D]区间内的一个随机整数，保证新个体u_i ^G+1至少有一维变量是从变异个体v_i ^G+1中选取的；

步骤4.8.3：选择；计算新生成个体u_i ^G+1的适应度值，按照如下公式择优选择新的个体x_i ^G+1进入下一代：

其中，F(*)表示对应个体的适应度函数值。

7.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法，其特征在于，所述步骤7中皮尔森相关系数的计算方法如下：

8.根据权利要求1所述的基于基因表达数据的基因调控网络重构方法，其特征在于，所述步骤7中使用皮尔森相关系数分析法，分析输入特征基因与目标基因调控关系，具体分析方法为：通过计算查表得到显著性水平p，在显著性水平p＜0.05的前提下，如果r＜0，则该输入特征基因对目标基因的表达有抑制作用，如果r＞0，则该输入特征基因对目标基因的表达有促进作用，如果显著性水平p＞0.05，则对应的r值不具有统计学意义，不能说明该输入特征基因对目标基因的调控关系。