CN106295247A

CN106295247A - 基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法

Info

Publication number: CN106295247A
Application number: CN201610642662.8A
Authority: CN
Inventors: 沈良忠
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2017-01-04

Abstract

本发明实施例公开了一种基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法，该方法首先获取由多个老鼠基因表达数据转换成生物网络后形成的初始图集，并对初始图集做粗过滤，删除对于寻找频繁稠密点集无贡献的不相关的边得到摘要图，接着在摘要图的基础上寻找可能的候选网络子集，然后回到初始图集中分别提取出候选网络子集，并对提取的图集再一次做粗过滤以便得到摘要图集，最后分别对摘要图进行稠密子图查找，得到频繁稠密点集作为老鼠基因共表达的基因团。实施本发明，能够降低计算复杂度，提高频繁模式挖掘的准确性、效率以及解决模式重叠问题。

Description

基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法

技术领域

本发明涉及系统生物学研究技术领域，尤其涉及一种基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法。

背景技术

随着生物芯片技术的产生和生物信息学的发展，通过基因组序列分析，大量未知功能的基因被识别出来。如何系统科学的“赋予”这些基因的功能是后基因组时代科学家们需解决的难题，然而大规模老鼠基因表达数据的产生，为这一问题的解决带来了新的突破口。

另外，在生物体中，基因往往是通过与其他基因一起共同参与完成一个功能。这些基因往往具有相似的表达谱，因此如何根据这些基因表达的谱数据从而挖掘出这些共表达的基因团，在生物学中有很重要的研究价值(比如可以预测一个基因的未知功能或者推断一个未知基因的功能)，但是由于高通量技术本身具有高噪声的影响以及生物系统本身的复杂性，人们得到的基因芯片数据转化的生物网络中，含有大量无关的“噪声”，正是因为这些“噪声”的存在，才使得科学家们寻找共表达的基因团变得很困难。如果能够把这些大量无关的“噪声”逐步的给剔除掉，那么寻找保守的共表达基因团的问题也就变得简单起来。

在现有技术中，基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法有以下几种：(1)基于广度优先算法：利用类Apriori性质枚举重复出现的子图，主要代表有AGM和FSG。AGM在图集中搜索所有“诱导”子图。图G的诱导子图G′的节点为G′的边为V(G′)中节点在图G中的所有边。FSG则利用边增长的方式查找所有图集中的频繁连通子图；(2)基于深度优先算法：主要代表有gSpan,CloseSpan和FFSM等，其基本思想是通过逐步扩展频繁边得到频繁子图，各种算法的主要区别在于图的扩展过程；(3)基于摘要图的启发式方法，主要代表有CODENSE,NeMo等，其主要思想是首先将综合网络集中每个网络的信息，然后将其并转化为单图中的频繁模式挖掘，最后在返回到原网络集。

但是发明人发现，上述几种预测方法均存在不足之处，其不足之处在于：(1)在第一种预测方法中，计算复杂度很高；(2)在第二种预测方法中，计算复杂度很高；(3)在第三种方法中，摘要图的质量直接决定算法的复杂度，而且模式重叠现象进一步增加了问题的复杂度；此外，为了避免谱分解方法的规模局限(约2000个节点)，该方法只能对摘要图进行分块处理，这就导致分块的合理性问题。

发明内容

本发明实施例的目的在于提供一种基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法，能够降低计算复杂度，提高频繁模式挖掘的准确性、效率以及解决模式重叠问题。

为了解决上述技术问题，本发明实施例提供了基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法，所述预测方法包括：

第一步、寻找频繁稠密点集无贡献的不相关的边：

步骤S11、获取多个老鼠基因表达数据转换成生物网络后形成的初始图集D＝{G_i＝(V,E_i)}(1≤i≤m)，并确定最小稠密度阈值δ、最小频繁支持度阈值k和用户自定义参数f,p,q分别对应的数值；其中，所述初始图集由多个均具有相同点集的子图G_i形成，且不同子图G_i之间至少存在一条相异的边；

步骤S12:确定每一个子图G_i的每条边，在所述初始图集中出现的次数均大于最小频繁支持度阈值k和图集大小m的乘积的最小正整数值；

步骤S13、删除所述初始图集中每一个子图G_i中均满足稠密度系数ED_e＜δ/f的边；

步骤S14、构建出与所述初始图集中每一个子图G_i具有相同点集的摘要图，且所述初始图集对应的摘要图中每条边均需满足稠密度系数

步骤S15、对所述初始图集对应的摘要图中每条边均做边聚类系数，删除所述初始图集对应的摘要图中边聚类系数EC_e＜q的边并更新；

步骤S16、将所述更新后的初始图集对应的摘要图与所述每一个子图G_i的边进行一一对比，删除每一个子图G_i中不存在于所述更新后的初始图集对应的摘要图中的边并更新；

步骤S17、重复步骤S13至步骤S16，直到所述更新后的初始图集对应的摘要图中的边不在发生变化为止；

第二步、确定候选网络子集：

步骤S21、给所述边不在发生变化的摘要图中每条边的边向量均赋予一个权值，并确定所述赋值的每条边对应边支持向量的汉明值，且进一步将汉明值满足筛选条件的边向量并到集合A中，将汉明值不满足筛选条件的边向量并到集合B中；

步骤S22、分别对所述集合A和所述集合B中的边向量进行归并，把重复的边向量删除，仅保留一个并更新边向量对应的权值；

步骤S23、设置种子向量，并根据所述设置的种子向量，调整集合A和集合B中的边向量；其中，所述种子向量为权重最大的边；

步骤S24、按照最大边向量相似度的准则，把所述调整后的集合B中的边向量均映射到所述调整后的集合A中，并待映射结束后，将所述完成映射后的集合A中的边向量进行聚类运算，形成聚类中心集合；

步骤S25:删除聚类中心集合中，1的个数出现的频率小于k与图集大小乘积的下取整数的聚类中心；

第三步、获取摘要图集：

步骤S31、根据所述形成的聚类中心集合，在所述初始图集D＝{G_i＝(V,E_i)}(1≤i≤m)中，提取分别与所述聚类中心集合中每一向量相一致的子图，形成多个新图集；

步骤S32、根据所述确定的最小稠密度阈值δ、最小频繁支持度阈值k和用户自定义参数f,p,q分别对应的数值，删除所述每一新图集中均满足稠密度系数ED_e＜δ/f的边；

步骤S33、分别构建出与所述每一新图集中具有相同点集的摘要图，且所述每一新图集的摘要图中每条边均需满足稠密度系数

步骤S34、对所述每一新图集的摘要图中每条边均做边聚类系数，删除所述每一新图集的摘要图中边聚类系数EC_e＜q的边并更新；

步骤S35、将所述更新后的每一新图集的摘要图分别与对应的新图集的边进行一一对比，删除每一新图集中不存在于其相对应的摘要图中的边并更新；

步骤S36、重复步骤S32至步骤S35，直到所述更新后的每一新图集的摘要图中的边不在发生变化为止，得到摘要图集；

第四步、查找稠密子图，并确定频繁稠密点集：

步骤S41、在所述得到的摘要图集中，根据所述更新后的初始图集对应的摘要图，查找与所述更新后的初始图集对应的摘要图中边集相一致的稠密子图，并根据所述查找到的稠密子图，确定频繁稠密点集，且进一步将所述确定的频繁稠密点集进行归并后，作为老鼠基因共表达的基因团输出。

其中，所述用户自定义参数f取值范围为[4，10]；参数p取值范围为[0.1，0.2]；参数q取值为0.334。

实施本发明实施例，具有如下有益效果：

本发明实施例，首先对初始图集做粗过滤，删除对于寻找频繁稠密点集无贡献的不相关的边得到摘要图，接着在摘要图的基础上寻找可能的候选网络子集，然后回到初始图集中分别提取出候选网络子集，并对提取的图集再一次做粗过滤以便得到摘要图集，最后分别对摘要图进行稠密子图查找，得到频繁稠密点集作为共表达的基因团，从而能够降低计算复杂度，提高频繁模式挖掘的准确性、效率以及解决模式重叠问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法的工作原理框图；

图2为本发明实施例提供的基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法中第一步寻找频繁稠密点集无贡献的不相关的边的应用场景图；

图3为本发明实施例提供的基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法中第二步确定候选网络子集的应用场景图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明是基于CODENSE、NeMo算法的基础上，采用了摘要图-候选网络子集逐步迭代求精的策略来寻找多数据集中保守的共表达团。因此为了便于描述，统一把寻找多数据集中保守共表达团的问题转化为图论中的从多个图集中寻找频繁稠密点集的问题。采用这种方式后，噪声边是指这条边所代表的两个基因的之间的关系对于寻找共表达的基因团有干扰的边，噪声边当然也包括那些由于实验数据本身产生的基因之间真阳性或假阳性的边。

发明人发现，问题解决的关键，是如何找出这些无关的噪声边并把它们给剔除。直观上来说，对于噪声边，有以下几点认识：

(1)、如果一条边e很稀疏的与其相邻的边联通，那么这条边必然会因为对寻找频繁稠密点集无贡献而为噪声边；

(2)、如果一条边e只在几个图里表现出与其邻居边很强的连通性，那么这条边必然会因为无法满足频繁性的要求，从而因为对寻找频繁稠密点集无贡献而成为噪声边；

(3)、如果一条边e在摘要图中是两个稠密子图之间连通的“桥”，那么这条边必然会对寻找频繁稠密点集无贡献而成为噪声边；

(4)、如果一条边e不在摘要图中出现而在原图集的某几个图中出现，那么这条边也是对寻找频繁稠密点集无贡献的边；

(5)、如果一个点集V'是在原图集中的某几个图集出现的频繁稠密点集，那么这个点集在原图集中剩余其他的几个图中导出子图是对于继续寻找其他频繁稠密点集是没有贡献的。

因此，为了删除以上五种噪声边从而挖掘频繁稠密点集，在本发明实施例中，发明人首先提出寻找频繁稠密点集无贡献的不相关的边来删除前面四类噪声边，其次边向量聚类来删除第五类噪声边形成候选网络子集，然后回到初始图集中分别提取出候选网络子集，并对提取的图集再一次做粗过滤以便得到摘要图集，最后分别对摘要图进行稠密子图查找，得到频繁稠密点集作为共表达的基因团，具体工作原理如图1所示。

综上所述，发明人提出的一种基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法，具体包括：

第一步、寻找频繁稠密点集无贡献的不相关的边，即FILTER算法：

步骤S13、删除所述初始图集中每一个子图G_i中均满足稠密度系数ED_e＜δ/f的边，该步骤主要是删除初始图集中每一个子图G_i中与其周围边稀疏连通的边，为了防止删除相关的边；

步骤S14、构建出与所述初始图集中每一个子图G_i具有相同点集的摘要图，且所述初始图集对应的摘要图中每条边均需满足稠密度系数该步骤主要是构建初始图集对应的摘要图，把满足频繁性的边给提取出来，放在该摘要图中；其中，0＜p＜1，主要是防止删除对于查找频繁稠密点集有贡献的相关边；

步骤S5、对所述初始图集对应的摘要图中每条边均做边聚类系数，删除所述初始图集对应的摘要图中边聚类系数EC_e＜q的边并更新，该步骤主要是删除那些在初始图集对应的摘要图中稀疏的连接两个稠密子图的边；

步骤S16、将所述更新后的初始图集对应的摘要图与所述每一个子图G_i的边进行一一对比，删除每一个子图G_i中不存在于所述更新后的初始图集对应的摘要图中的边并更新，该步骤主要是根据初始图集对应的摘要图更新初始图集，使得更新后的原图集就过滤了一部分不相关的边，从而更有助于发现频繁稠密点集；

在一个实施例中，如图2所示，具有相同点集的四张图构成的图集一次运行过程变化展示情况。这里，假定要寻找这个图集中满足频繁支持度大于等于2、稠密度大于等于0.9的频繁稠密点集。很明显，点集{a,b,d},{b,c,d}和{e,f,g,h}是满足要求的频繁稠密点集。f取值为4，p取值0.8，在该图里，每个图中实线表示一条在该图中真正存在的边，而虚线表示上一步骤需要删除的边。

从图2可以看出，更新后的每一个子图与初始图集相比含有更少的噪声边。然而，却不能一次直接从摘要图中提取出所有的频繁稠密点集，例如摘要图中的稠密子图{a,b,c,d}实际上代表两个点集{a,b,d}和{b,c,d}。因为一个频繁稠密点集往往出现在图集中的某几个图里。所以，如果知道频繁稠密点集在哪几个图里出现，然后再对这几个图做摘要图，那么频繁稠密点集就很容易提取出来。理论上，一个图集大小为m,频繁稠密点集出现的支持度为k,则搜索空间就是对于一个图集大小为20，要求频繁支持度为6的稠密点集来说，则搜索空间就为个可能的候选网络子集，这在实际中，显然是不可行的。

因此需要确定可能的候选网络子集，从而缩减了候选网络子集的搜索空间，具体如下：

第二步、确定候选网络子集，即GCLUSTER算法：

在一个实施例中，输入：摘要图图集大小m,最小频繁支持度k，最小汉明距离阈值τ；

输出：聚类中心C；

步骤1：对于摘要图中的每条边令该边的边向量v_e的权值w(v_e)＝1，并且把摘要图中的所有边的边支持向量的汉明值为k或者k+1的边归并到集合A中，其余的边放在集合B中，并分别对集合A和集合B中的边向量进行归并，把重复的边向量删除仅保留一个并更新边向量对应的权值；

步骤2：for each edge v_e∈B do

步骤3：把A中的边向量，按照边向量权值的大小进行降序排序；

上述算法对摘要图的边向量初始化一个权值，然后对边向量进行了简单的归并，并更新了权值。经过这一步处理，剩余的边向量就互不重复，各边向量对应的权值就表示了在摘要图中有多少与该边向量相同的边向量的边数。接下来的步骤，算法首先把汉明值等于用户要求的频繁支持度的边向量作为种子放在一个集合A中，剩下的边向量放到另一集合B中，然后按照最大边向量相似度的准则把B中的边向量合理的映射到A中，最后把A中的边向量进行聚类，最后形成聚类中心集合，也就是候选网络子集的集合。

这里需要说明的是，有了T集合后，聚类中心是如何形成的。聚类中心在第i个图中的值是由T集合中所有边向量和对其对应权值在第i个图中的0的权值和和1的权值和的大小确定的。例如，如果1的权值和大，那么聚类中心在第一个i个图中的值为1；否则就为零，如图3所示。

第三步、获取摘要图集：

第四步、查找稠密子图，并确定频繁稠密点集：稠密子图的查找方法为1:要求该子图是一个联通分支；2)该子图的稠密度要求大于设定的稠密度，具体如下：

应当说明的是，对频繁稠密点集的归并，采取如下方法。首先，对于频繁稠密点集在原始图集的各张图对应的导出子图按照稠密度是否大于先前给定的阈值，建立频繁稠密点集的向量。接下来按照下面三个原则进行归并：

(1)、完全一样的频繁稠密点集进行归并，只保留一个；

(2)、如果两个频繁稠密点集中有大约85％以上的元素相同或者一个是另一个的子集且这两个频繁稠密点集的向量均相同,则这两个频繁稠密点集采取“并集”的方式进行合并成一个；

(3)、如果两个频繁稠密点集中有大约85％以上的元素相同或者一个是另一个子集，但是这两个频繁稠密点集的向量不同，那么这样的频繁稠密点集不合并，并且要把元素多的频繁稠密点集进行拆分

在本发明实施例中，用户自定义参数f取值范围为[4，10]；参数p取值范围为[0.1，0.2]；参数q取值为0.334。

实施本发明实施例，具有如下有益效果：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法，其特征在于，所述预测方法包括：

第一步、寻找频繁稠密点集无贡献的不相关的边：

第二步、确定候选网络子集：

第三步、获取摘要图集：

步骤S31、根据所述形成的聚类中心集合，在所述初始图集D＝{G_i＝(V，E_i)}(1≤i≤m)中，提取分别与所述聚类中心集合中每一向量相一致的子图，形成多个新图集；

第四步、查找稠密子图，并确定频繁稠密点集：

2.如权利要求1所述的预测方法，其特征在于，所述用户自定义参数f取值范围为[4，10]；参数p取值范围为[0.1，0.2]；参数q取值为0.334。