CN103646159B - 一种基于约束性布尔网络的最大评分预测方法 - Google Patents

一种基于约束性布尔网络的最大评分预测方法 Download PDF

Info

Publication number
CN103646159B
CN103646159B CN201310457138.XA CN201310457138A CN103646159B CN 103646159 B CN103646159 B CN 103646159B CN 201310457138 A CN201310457138 A CN 201310457138A CN 103646159 B CN103646159 B CN 103646159B
Authority
CN
China
Prior art keywords
gene
target gene
predicted
regulation relationship
mutual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310457138.XA
Other languages
English (en)
Other versions
CN103646159A (zh
Inventor
刘文斌
欧阳宏嘉
方洁
沈良忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN201310457138.XA priority Critical patent/CN103646159B/zh
Publication of CN103646159A publication Critical patent/CN103646159A/zh
Application granted granted Critical
Publication of CN103646159B publication Critical patent/CN103646159B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于约束性布尔网络的最大评分预测方法,包括有以下步骤:第一步、计算相对互信息确定候选预测基因集,第二步、采用最大评分预测方法从第一步中得到的预测基因集中选择作为目标基因的父基因,本发明具有本发明适用于依据小样本数据预测多变量之间的关系,本发明对噪声的鲁棒性更强,更适用于真实环境下的生物数据的预测,发明预测的网络结构更加准确、详细,体现在预测调控关系的正确数目及调控关系的方向性和正负调控关系。

Description

一种基于约束性布尔网络的最大评分预测方法
技术领域
本发明涉及一种基因调控网络预测的方法,特别涉及一种利用约束性布尔网络特性设计基因调控网络的最大评分预测方法。
背景技术
系统生物学研究的一个重要目标是描述调控特定细胞行为和过程的分子机制。描述基因调控网络的模型有很多,例如:贝叶斯网络和动态贝叶斯网络提供了一种能阐明基因之间的依赖关系的模型;而布尔网络和概率布尔网络提供了一种通过网络稳态行为研究系统功能的方法;微分方程则是一种连续性模型,它能描述基因之间详细的生化关系。这些模型都被统一的用来研究生物现象(细胞周期)和疾病(癌症)。所以,揭示这些网络的结构是一个非常关键性的问题。
用来阐明潜在的转录调控网络结构的数据有多种类型,包括利用DNA芯片技术或其他高通量技术的基因组转录谱;用染色质免疫沉淀技术得到的转录因子结合位点数据和其他来源的分子间相互作用的数据。从已知的观察数据推理基因调控网络是一个逆向工程。可是这个过程是一个多对一的病态问题,因为不仅仅只有一个结构满足给定数据,尤其是当面对小样本数据时,系统中的变量数(基因)远远大于样本数。
现有的基因调控网络预测方法有很多,例如:Reveal方法、Cod、Best-fit、MDL等等,但是它们都有各自方法的不足,如Reveal可适性差,在小样本数据中很小的噪声会产生比较大的误差;Cod、Best-fit推荐的符合条件的模型空间太大,往往存在选择预测模型上的偏差;MDL则参数较多,难已确定。此外,这些方法预测出来的基因调控网络中基因之间只有简单的调控与被调控关系。而约束性布尔网络由于其定义的特殊性,它能描述基因之间更加详细的正负调控关系,而且它的函数空间比布尔网络小很多(当K=2时,有个可能的约束性布尔函数,当K=3,它仅仅只有个可能的约束性布尔函数,K为基因入度),在预测推理时具有比较多的优势。而现有的基于约束性布尔网络预测方法——三条规则,它对数据质量要求很高,也只适用于小样本数据的推理,而真实环境下的生物数据包含较多噪声,所以它一般仅被用作预测的前期处理。
发明内容
本发明的目的在于提供一种基于约束性布尔网络可适用于真实环境下的基因调控网络预测方法。
本发明的目的是通过如下方案来实现的:一种基于约束性布尔网络的最大评分预测方法,包括有以下步骤:
第一步、计算相对互信息确定候选预测基因集,其包括以下步骤:
一、根据以下公式计算两两变量之间的相对互信息
确定一个相对互信息矩阵,
式中表示预测基因xj从时刻1到t的表达值;
表示目标基因xi从时刻2到t+1的表达值;
是预测基因xj与目标基因xi延迟一个单位时间的条件互信息;
H(x)表示变量x的熵;
θij表示预测基因xj与目标基因xi的相对互信息;
二、计算相对互信息矩阵中每一行的平均值,将之作为阈值δi,根据以下公式计算:
δ i = 1 n Σ j = 1 n θ i j
式中n表示相对互信息矩阵中每一行的个数,
三、定义一个M矩阵,确定目标基因各自的候选预测基因集,根据以下方程计算:
M i j = 0 &theta; i j < &delta; i 1 &theta; i j &GreaterEqual; &delta; i
Mij中i行第j列为1,则选择第j个基因作为i基因的候选预测基因集中的一个;第二步、采用最大评分预测方法从第一步中得到的预测基因集中选择作为目标基因的父基因,其包括以下步骤:
①根据预测基因时间点t的值xj(t)与目标基因时间点t和时间点t+1的值xi(t)、xi(t+1),确定调控关系表R(m-1)×p(xi),其中,p(xi)表示目标基因xi的预测基因的个数,m表示样本点/时间点个数;
调控关系表R(m-1)×p(xi)每一行的元素将由xj(t)、xi(t)和xi(t+1)按照调控关系aij的约束关系进行求解,具体过程如下:当xi(t)=0,xi(t+1)=0,对aij的约束为当xi(t)=0,xi(t+1)=1,对aij的约束为当xi(t)=1,xi(t+1)=0,对aij的约束为当xi(t)=1,xi(t+1)=1,对aij的约束为
并根据调控关系aij进行编码,其中:aij=-1表示预测基因对目标基因具有负调控;aij=1表示预测基因对目标基因具有正调控;aij=2表示未完全确定,表示预测基因对目标基因的调控关系不确定但存在一定的约束;aij=0表示预测基因对目标基因调控关系不确定且不存在任何约束;
②定义预测基因xj对目标基因xi的调控关系ai j的确定性为:
d i j = | N i j - 1 - N i j 1 | ,
式中 分别表示aij=-1,aij=1的个数,并通过计算;
③按照步骤②得到的确定性dij从大到小依次确定预测基因xj对目标基因xi最可能的调控关系aij的值,如果那么aij=-1,否则aij=1,将已确定的aij代入所述的调控关系表再确定下一个aik,k≠j;
④统计错误个数:
采用计算关系冲突错误;
根据步骤①中获得的编码进行统计计算1的个数无输入错误:
⑤定义评分准则:
s i = &Sigma; j ( d i j - &epsiv; i j - 1 , 1 - &epsiv; i n u l l ) / P ( x i )
式中si表示预测结果,从预测基因集合中选择使得si最大的预测基因组合作为目标基因xi的父基因,且基因入度K≤3。
本发明有以下优点:
1.本发明适用于依据小样本数据预测多变量之间的关系。
2.本发明对噪声的鲁棒性更强,更适用于真实环境下的生物数据的预测。
3.本发明预测的网络结构更加准确、详细,体现在预测调控关系的正确数目及调控关系的方向性和正负调控关系。
附图说明
附图1为真实的芽殖酵母细胞的关键性基因组成的基因调控网络结构图。
附图2为用三条规则预测得到的基因调控网络结构图。
附图3为用最大评分预测方法预测得到的基因调控网络结构图。
附图4为目标基因的状态变化对预测基因权值的约束关系表。
附图5为调控关系的编码方式。
附图6为无输入状态下错误判断表。
附图7为芽殖酵母细胞基因调控网络的一个时序数据。
附图8为用三条规则和最大评分预测方法在不同噪声数据中的预测结果。
具体实施方式
本发明一种基于约束性布尔网络的最大评分预测方法,包括有以下步骤:
第一步、计算相对互信息确定候选预测基因集,
①定义一个M矩阵,根据以下公式计算两两变量之间的相对互信息
&theta; i j = M I ( x j t + 1 , x i t + 1 ) m i n ( H ( x j t ) , H ( x i t + 1 ) )
式中表示预测基因xj从时刻1到t的表达值;
表示目标基因xi从时刻2到t+1的表达值;
是预测基因xj与目标基因xi延迟一个单位时间的条件互信息;
H(x)表示变量x的熵;
θij表示预测基因xj与目标基因xi的相对互信息。
②计算每一行的平均值,将之作为阈值δi,根据以下公式计算:
&delta; i = &Sigma; j = 1 n &theta; i j / &Sigma; j = 1 n j
式中n表示相对互信息矩阵中每一行的个数。
③确定目标基因各自的候选预测基因集,根据以下方程计算:
M i j = 0 &theta; i j < &delta; i 1 &theta; i j &GreaterEqual; &delta; i
Mij中i行第j列为1,则选择第j个基因作为i基因的候选预测基因集中的一个。
第二步、采用最大评分预测方法从第一步中得到的预测基因集中选择作为目标基因的父基因,
①构建预测基因与目标基因每两相邻时间点之间确定的调控关系表R(m-1)×n(m表示样本点个数,n表示预测基因个数),将调控关系表R(m-1)×n中每一行的元素由每两相邻时间点之间按照调控关系aij的约束关系进行求解,并根据调控关系aij进行编码;步骤①中所述调控关系aij的约束关系包括 详见附图4,步骤①中所述的调控关系aij包括预测基因对目标基因具有负调控、预测基因对目标基因具有正调控、预测基因对目标基因的调控关系不确定但存在一定的约束以及预测基因对目标基因的调控关系不确定,且不存在任何约束,详见附图5。
调控关系表R(m-1)×n中每一行的元素由每两相邻时间点之间根据附图4中相应情况所列不等式解得并按附图5进行编码赋值。
附图5中-1和1表示调控关系完全确定,其中-1表示预测基因对目标基因具有负调控,1表示预测基因对目标基因具有正调控;2表示未完全确定,表示预测基因对目标基因的调控关系不确定但存在一定的约束,例如ai1+ai2+ai3≥0,那么当ai1为1时,ai2和ai3既能为-1也能为1,但不能同时为-1;0表示预测基因对目标基因的调控关系不确定,且不存在任何约束,例如预测基因状态为0。
②定义预测基因xj对目标基因xi的调控关系aij的确定性为:
d i j = | N i j - 1 - N i j 1 |
dij越大,确定性越大。式中 分别表示aij=-1,aij=1的个数,并通过计算。
③按照确定性dij从大到小依次确定预测基因xj对目标基因xi最可能的调控关系aij的值,如果那么aij=-1,否则aij=1,应当注意将已确定的aij代入前面的各个不等式更新R表,再确定下一个aik(k≠j)。
④统计错误个数:错误分为两部分,一部分为关系冲突错误,另一部分为无输入错误。
关系冲突错误:
无输入错误:根据附图6进行统计计算1的个数。其中当无输入且目标基因对自身的调控关系为负调控时,则为self-degradation,否则无输入时的其他情况为noself-degradation。
⑤定义评分准则:
s i = &Sigma; j ( d i j - &epsiv; i j - 1 , 1 - &epsiv; i n u l l ) / | P ( x i ) |
si表示预测结果,当si越大,说明预测结果越好。从预测基因集合中选择使得si最大的预测基因组合(K≤3)作为目标基因xi的父基因。
本发明中根据相对互信息的计算排除掉与目标基因极可能不相关的基因,缩小搜索空间,提高计算效率,根据约束性布尔网络的定义,从目标基因状态的变化特点出发反推预测基因与目标基因之间可能的调控关系,结合数理统计知识,确定调控关系、确定性大小及误差个数,综合确定性及误差个数定义评分机制,选择最大评分预测基因组合作为最终的父基因,它能发现更多基因之间的调控关系,同时消除了噪声的连带效应,对噪声的适应性更强,更适合存在噪声的真实环境中的生物数据预测推理。
本发明中对目标基因的预测是相互独立的,同时它可以限定预测基因的个数,使得在小样本数据中能对多变量进行预测,这恰好符合真实生物数据的特点。
下面通过示例以进一步说明本发明,该示例不对本发明构成任何限制:示例一:有一芽殖酵母细胞的基因调控网络如附图1。附图7为它的一个时序表达数据。分别用三条规则和最大评分预测方法预测图的基因调控网络,结果如附图2和附图3所示。
附图2和附图3中三条规则的图中粗实线表示预测正确的调控关系,细虚线表示预测出的未完全确定且不包含正确的调控关系,粗虚线则表示预测出的未完全确定且包含正确的调控关系。这里的未完全确定指的是两基因之间的调控关系可能不存在或者是正负调控关系中的一种。最大评分预测图中的粗实线表示预测正确的调控关系,细虚线表示预测错误的调控关系。
示例二:对示例一中的时序数据分别添加0.5%和1%的随机噪声200次。用得到的噪声数据分别用三条规则和最大评分预测方法预测基因调控网络。然后用召回率和精确度来评价结果的优劣,结果如附图8。
由示例一可见,最大评分预测方法预测的芽殖酵母细胞的基因调控网络中正确的调控关系数比三条规则多,而且它的网络连通度比三条规则好,更符合真实网络的结构,并且结果中没有不确定性的成分存在,更具预测指导意义。由示例二可见,从平均召回率来看,在两种噪声的情况下,最大评分预测都比三条规则大很多。这说明最大评分预测比三条规则能够预测到更多正确的调控关系。从平均精确度来看,在两种噪声的情况下,最大评分预测都要小于三条规则,但是相差不大,尤其是当噪声等于1%时,两者仅相差0.0092。综合两者来看,最大评分预测明显要优于三条规则,因为平均召回率的提高幅度明显比平均精确度的下降幅度大。
由此可见最大评分预测方法不仅对小样本数据的多变量关系预测适用,并且在多噪声的情况下,能够获得比较好的预测效果,更适合用真实环境下的生物数据来预测基因调控网络。
虽然已结合附图对本发明实施例做了详细的描述,但是本领域的技术人员应该明白以上的实施例仅是本发明的实施方式,而并非对本发明的保护范围的限定,任何基于本发明的发明所做的改进都理所当然在本发明保护范围内。

Claims (1)

1.一种基于约束性布尔网络的最大评分预测方法,其特征在于:包括有以下步骤:
第一步、计算相对互信息确定候选预测基因集,其包括以下步骤:
一、根据以下公式计算两两变量之间的相对互信息
确定一个相对互信息矩阵,
式中表示预测基因xj从时刻1到t的表达值;
表示目标基因xi从时刻2到t+1的表达值;
是预测基因xj与目标基因xi延迟一个单位时间的条件互信息;
H(x)表示变量x的熵;
θij表示预测基因xj与目标基因xi的相对互信息;
二、计算相对互信息矩阵中每一行的平均值,将之作为阈值δi,根据以下公式计算:
&delta; i = 1 n &Sigma; j = 1 n &theta; i j
式中n表示相对互信息矩阵中每一行的个数,
三、定义一个M矩阵,确定目标基因各自的候选预测基因集,根据以下方程计算:
M i j = 0 &theta; i j < &delta; i 1 &theta; i j &GreaterEqual; &delta; i
Mij中i行第j列为1,则选择第j个基因作为i基因的候选预测基因集中的一个;
第二步、采用最大评分预测方法从第一步中得到的预测基因集中选择作为目标基因的父基因,其包括以下步骤:
①根据预测基因时间点t的值xj(t)与目标基因时间点t和时间点t+1的值xi(t)、xi(t+1),确定调控关系表R(m-1)×p(xi),其中,p(xi)表示目标基因xi的预测基因的个数,m表示样本点/时间点个数;
调控关系表R(m-1)×p(xi)每一行的元素将由xj(t)、xi(t)和xi(t+1)按照调控关系aij的约束关系进行求解,具体过程如下:当xi(t)=0,xi(t+1)=0,对aij的约束为当xi(t)=0,xi(t+1)=1,对aij的约束为当xi(t)=1,xi(t+1)=0,对aij的约束为当xi(t)=1,xi(t+1)=1,对aij的约束为
并根据调控关系aij进行编码,其中:aij=-1表示预测基因对目标基因具有负调控;aij=1表示预测基因对目标基因具有正调控;aij=2表示未完全确定,表示预测基因对目标基因的调控关系不确定但存在一定的约束;aij=0表示预测基因对目标基因调控关系不确定且不存在任何约束;
②定义预测基因xj对目标基因xi的调控关系aij的确定性为:
d i j = | N i j - 1 - N i j 1 | ,
式中分别表示aij=-1,aij=1的个数,并通过计算;
③按照步骤②得到的确定性dij从大到小依次确定预测基因xj对目标基因xi最可能的调控关系aij的值,如果那么aij=-1,否则aij=1,将已确定的aij代入所述的调控关系表再确定下一个aik,k≠j;
④统计错误个数:
采用计算关系冲突错误;
根据步骤①中获得的编码进行统计计算1的个数无输入错误:
⑤定义评分准则:
s i = &Sigma; j ( d i j - &epsiv; i j - 1 , 1 - &epsiv; i n u l l ) / P ( x i )
式中si表示预测结果,从预测基因集合中选择使得si最大的预测基因组合作为目标基因xi的父基因,且基因入度K≤3。
CN201310457138.XA 2013-09-30 2013-09-30 一种基于约束性布尔网络的最大评分预测方法 Expired - Fee Related CN103646159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310457138.XA CN103646159B (zh) 2013-09-30 2013-09-30 一种基于约束性布尔网络的最大评分预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310457138.XA CN103646159B (zh) 2013-09-30 2013-09-30 一种基于约束性布尔网络的最大评分预测方法

Publications (2)

Publication Number Publication Date
CN103646159A CN103646159A (zh) 2014-03-19
CN103646159B true CN103646159B (zh) 2016-07-06

Family

ID=50251372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310457138.XA Expired - Fee Related CN103646159B (zh) 2013-09-30 2013-09-30 一种基于约束性布尔网络的最大评分预测方法

Country Status (1)

Country Link
CN (1) CN103646159B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598748B (zh) * 2015-01-29 2018-05-04 中国人民解放军军械工程学院 一种抑制型布尔网络简并度的计算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1717585A (zh) * 2002-11-25 2006-01-04 Gni美国公司 利用微分方程从时序基因表达数据推断基因调控网络
CN101763528A (zh) * 2009-12-25 2010-06-30 深圳大学 基于贝叶斯网络的基因调控网络构建方法
CN102013039A (zh) * 2010-12-01 2011-04-13 杭州师范大学 一种基于动态贝叶斯网络的基因调控网络构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065244A1 (en) * 2002-01-30 2003-08-07 Board Of Regents, The University Of Texas System Probabilistic boolean networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1717585A (zh) * 2002-11-25 2006-01-04 Gni美国公司 利用微分方程从时序基因表达数据推断基因调控网络
CN101763528A (zh) * 2009-12-25 2010-06-30 深圳大学 基于贝叶斯网络的基因调控网络构建方法
CN102013039A (zh) * 2010-12-01 2011-04-13 杭州师范大学 一种基于动态贝叶斯网络的基因调控网络构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Constraint-based analysis of gene interactions using restricted boolean networks and time-series data;Carlos HA Higa等;《BMC proceedings》;20110526;第5卷(第S5期);第1-18页 *
Learning restricted Boolean network model by time-series data;Hongjia Ouyang等;《EURASIP Journal on Bioinformatics and Systems Biology》;20140110;第2014年卷(第10期);第1-12页 *
布尔网络动态行为研究;王向红 等;《浙江师范大学学报(自然科学版)》;20120215;第35卷(第1期);第47-52页 *

Also Published As

Publication number Publication date
CN103646159A (zh) 2014-03-19

Similar Documents

Publication Publication Date Title
Liu et al. Short‐term traffic speed forecasting based on attention convolutional neural network for arterials
Zhang et al. A hybrid forecasting framework based on support vector regression with a modified genetic algorithm and a random forest for traffic flow prediction
CN109918708B (zh) 一种基于异质集成学习的材料性能预测模型构建方法
US20150317589A1 (en) Forecasting system using machine learning and ensemble methods
CN106527381B (zh) 一种面向并行批处理机动态调度的快速评估方法
CN109920248B (zh) 一种基于gru神经网络的公交到站时间预测方法
Cui et al. Learning global pairwise interactions with Bayesian neural networks
Park et al. Granular neural networks and their development through context-based clustering and adjustable dimensionality of receptive fields
CN106096723A (zh) 一种基于混合神经网络算法的用于复杂工业产品性能评估方法
Diao et al. A dynamic quality control approach by improving dominant factors based on improved principal component analysis
Gilan et al. Sustainable building design: A challenge at the intersection of machine learning and design optimization
Billert et al. A method of developing quantile convolutional neural networks for electric vehicle battery temperature prediction trained on cross-domain data
Hao et al. A hybrid differential evolution approach based on surrogate modelling for scheduling bottleneck stages
CN104217296A (zh) 一种上市公司绩效综合评价方法
CN103646159B (zh) 一种基于约束性布尔网络的最大评分预测方法
Pal et al. Robust approaches for genetic regulatory network modeling and intervention: A review of recent advances
Kostadinova et al. An Integrative DTW-based imputation method for gene expression time series data
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
Singh A gene regulatory network prediction method using particle swarm optimization and genetic algorithm
Lee et al. A sequential search framework for selecting weights of dispatching rules in manufacturing systems
Chen et al. Statistical detection of boolean regulatory relationships
TWI591991B (zh) System and method for pre-signing vouchers for forecasting requests for traffic
Arbaiy et al. Fuzzy goal programming for multi-level multi-objective problem: an additive model
Chen Brain Tumor Prediction with LSTM Method
Wu et al. Directional optimization of elevator scheduling algorithms in complex traffic patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160706

Termination date: 20170930

CF01 Termination of patent right due to non-payment of annual fee