CN112768081B

CN112768081B - 基于子图及节点的共调控生物网络模体发现方法及装置

Info

Publication number: CN112768081B
Application number: CN202110122183.4A
Authority: CN
Inventors: 骆嘉伟; 陈韬; 夏艳
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2024-02-13
Anticipated expiration: 2041-01-27
Also published as: CN112768081A

Abstract

本发明公开了一种基于子图抽样及节点属性的共调控生物网络模体发现方法及装置，该方法基于共调控生物网络，考虑共调控生物网络中的不同节点类型和边类型，在子图搜索的阶段中引入了无偏估计抽样，在子图同构判断归类阶段使用了哈希表结构，以极低的复杂度完成了同构子图合并，该方法实现简单，只需根据miRNA、TF、Gene三者之间的调控关系，同时设定好随机网络生成的个数、Z‑score、P‑value就能比较准确地识别共调控生物网络中的模体结构。

Description

基于子图及节点的共调控生物网络模体发现方法及装置

技术领域

本发明涉及生物信息学的模体发现领域，特别涉及一种基于子图抽样及节点属性的共调控生物网络模体发现方法及装置。

背景技术

现有研究表明，基因表达存在着一定程度的噪声，即基因在表达时出现表达水平不稳定的场景。这些存在波动的基因表达往往会短暂的导致更下游被调控基因的表达而产生不必要的表达水平变化。但是，通过特定的组合方式，可以一定程度上减少此种随机扰动对基因表达水平的影响，如已知的前馈环结构等。除此以外，不同的调控方式对调控基因表达也有着独特的作用，如经典的反馈环结构通过形成多节点间的反馈回路而使得细胞始终处于平衡的稳态，在反馈环中的任一节点的表达失调都会引起整个回路的异常。由于这些特定的调控模式的相对出现次数较多，有学者称之为网络模体。尽管目前的研究已经对较小的网络模体及其在控制基因表达水平上的影响有了一定的研究，但受限于挖掘算法的时间复杂度，仍有大量未知的网络模体结构需要挖掘。

作为真核生物中两类重要的调控因子，转录调控因子(Transcription Factor,TF)和miRNA分别在转录水平及转录后水平上调控靶基因的表达水平。已有研究表明，这两类调控因子形成的特定调控模式和生物分子的活动过程有着密切联系。如由TF和miRNA所形成的包括前馈环(FeedForward Loop，FFL)、反馈环(FeedBack Loop，FBL)在内的多种组合调控模式在脑胶质瘤和乳腺癌等复杂疾病中有重要的调控作用。随着共调控生物网络中节点类型和边类型的增加带来的组合爆炸问题，使得模体发现算法的计算量大大增加。此外，对共调控生物网络采用的随机化策略将直接影响网络模体识别结果。

传统的基于广度优先的子图搜索方法包括AGM算法和FSG算法，这类算法都是基于Apriori性质去枚举子图的，它们的缺点在于在扩展过程中会产生大量重复候选子图，使算法效率降低。此外，基于深度优先的算法相比于广度优先的搜索算法会具有更高的执行效率，例如gSpan算法借助同构集合保存子图减少了同构判断的次数，但仍需要进行一定次数的同构计算，同时边扩展方法也使算法整体效率不高，为了缩短计算时间，有学者提出了CloseSpan算法，该算法通过对边扩展的优化和对结果集的剪枝略微提高了gSpan的运行速度，但复杂度仍很高。FFSM算法通过使用标准邻接矩阵来描述图，将边扩展转化为矩阵的连接和扩展提高了性能。

子图同构判断方法比较经典的是NAUTY算法，也是公认的目前最快的同构判断方法。该算法的主要思路是对子图的节点进行分类着色，比较两个邻接矩阵表示的拓扑图是否拓扑相似，将图转换为唯一的序列串来实现子图的唯一表示。还有一些使用较多的方法，比如Schmidt和Druffel提出的SD方法，VF及其改进方法等。

随机网络生成方法包含了像边交换算法(edge switching)、匹配算法、Go withthe winner算法等。其中边交换算法是指基于目标网络，随机选取两条边，然后交换两条边的起点或者终点，由于采用的是边交换，所以每个节点的边连接数不会变化，重复以上步骤可以得到一个随机化的并且和目标网络度序列一致的新网络。

网络模体的结构和类型在很大程度上反映了其所在网络的整体特征，可以利用此特征进行网络分类。对网络模体进行功能分析，可以让生信人员对网络模体的认识更加深入，这对认识和分析网络的演变过程有重要作用。还有研究表明，识别与疾病相关的网络模体对治疗疾病有着重要意义。此外，识别网络模体并分析其生物特性有利于生信人员以一个全新的角度理解生物网络的功能和演变过程。

因此，网络模体发现是一个非常复杂的问题，该研究的时间消耗会随网络大小和发现模体的规模急剧增加，所以传统的子图搜索算法仅能发现规模较小的模体；并且，共调控生物网络中节点类型有三种，调控关系更为复杂，这就使得共调控生物网络中的模体发现变得异常困难。

发明内容

本发明的目的是利用子图抽样技术缩小子图的搜索空间，同时利用子图中节点的各项属性实现了快速的同构判断分类，最后借助统计学知识设定了模体的判定标准，快速且准确的发现共调控生物网络模体。

本发明提供的技术方案如下：

一方面，一种基于子图抽样及节点属性的共调控生物网络模体发现方法，包括以下步骤：

步骤1：根据疾病数据集中各数据节点之间的调控关系，构建疾病数据集对应节点的共调控生物目标网络；

步骤2：基于枚举方法结合无偏的子图抽样技术，从构建的共调控生物目标网络中，提取出所有满足设定子图节点规模的子图；

步骤3：基于节点的属性对步骤2中的子图进行同构判断，并以同构判断结果采用哈希表存储，得到子图哈希集合；

所述节点属性包括节点度序列和节点调控关系序列；

步骤4：按照共调控生物目标网络的拓扑结构，生成一千张随机网络，对步骤3得到的子图哈希集合中的每个子图，计算在一千张随机网络中的统计显著性，以满足指标的子图即为提取出模体；

所述满足指标是指：子图在共调控生物目标网络中出现的频率显著高于与子图在所有指定随机网络中出现的频率平均值，其中，所述指定随机网络是指根据共调控生物目标网络生成，且与共调控生物目标网络具有相同度序列的随机网络。

进一步地，所述构建疾病数据集对应节点的共调控生物目标网络的具体过程如下：

步骤1.1：提取疾病数据集中节点编号、节点类型以及节点之间的指向关系；

步骤1.2：将疾病数据集中的所有节点之间的指向关系按照文本行进行存储，每行中第一列、第二列分别代表两个节点的编号，且第一列的节点指向第二列的节点；第三列、第四列分别代表第一列和第二列的节点类型；

分别用0、1、2代表miRNA、TF(转录调控因子)、Gene(基因)三种类型节点；

步骤1.3：基于步骤1.2得到的文本行，生成二维的邻接矩阵，获得共调控生物目标网络，邻接矩阵内元素取值为0或1，如果第i行第j列元素为1，则代表编号为i的节点调控了编号为j的节点，即节点i指向节点j。

进一步地，所述基于枚举方法结合无偏的子图抽样技术，从构建的共调控生物网络中，提取出所有满足设定子图节点规模的子图的具体过程如下：

步骤2.1：基于传统的枚举方法ESU，对共调控生物目标网络中的每个节点标号并排序；步骤2.2：以miRNA节点开始，搜索子图，从当前节点的邻居节点集合中选取一个邻居节点，对子图进行迭代扩展，构建中间子图，直到中间子图节点数目达到事先设定的子图节点规模，获得所有满足设定子图节点规模的子图；

步骤2.3：将子图按照节点指向关系与节点规模，生成对应的N*N矩阵，利用N*N矩阵生成对应子图的特征序列，所述特征序列采用01序列_节点类型序列表示；

其中，N为节点规模，N*N矩阵中的每个元素用坐标(i，j)表示，若节点i指向节点j，则(i，j)＝1，否则，(i，j)＝0；所述01序列是将N*N矩阵中的元素逐行提取转化为一维序列；节点类型序列是依次读取N*N矩阵中每行第一个元素所表示节点的节点类型获得的序列。

进一步地，在迭代扩展前增加设定的抽样概率，每个待扩展的节点都有相同的概率被随机抽样到。

避免了较大的抽样偏差。通过该抽样技术，能够节省较大的子图搜索空间，提升算法的执行效率。

进一步地，采用Java的Fork/Join多线程框架，对节点标号、排序，以及迭代扩展任务以多线程执行。

该框架善于利用窃取工作执行加快任务的总体执行速度。在ForkJoinPool线程池中，若一个工作线程的任务队列为空时，便从其他工作线程中获取任务主动执行。

因为本发明的子图搜索任务是以miRNA为起点，可选的子结点只能来自相对于当前复合子图的专属邻居节点集合，并且规定在某一子树中所有子结点的编号必须要大于该子树根结点的编号，所以不会存在重复子图。故该任务彼此间是独立的，可以使用多线程技术来提升效率。

对于子图枚举阶段，提出在传统的穷举搜索方法(ESU)的基础上结合抽样，对ESU的遍历过程添加抽样数量比例参数(假设抽样参数设置为0.5，即从总样本中抽取一半数量的样本来估计整体)，使得目标网络中相同规模的子图被选中的概率保持一致。在子图枚举抽样过程中，一旦某个子图达到了预先指定规模，会生成对应的特征序列，用来唯一表示该子图。

进一步地，采用两两比较的方法，基于节点的多重属性，对子图进行同构判断；同构，是指于任意两个图，如果它们之间的节点集合和边集合存在完全匹配的情况，那么这两个子图就是同构的。

步骤3.1：比对两个子图的节点类型序列，判断两张子图的节点类型是否一致，如果不一致一定不同构，否则进入步骤3.2；

步骤3.2：计算两张子图的每个节点的出入度之和，如果不相等，一定不同构，否则进入步骤3.3；

步骤3.3：对于两个节点规模为N的子图，按照k＝1、2、3…N-1的顺序，依次对各子图以k个节点为节点整体模块，计算各节点整体模块的出、入度序列，并对出、入度序列进行升序排列，如果两张子图有某个出、入度序列结果不一致，那么它们一定不同构；如果计算完N-1个节点的出入度序列，两张子图的结果仍然一致，则进入步骤3.4；

步骤3.4：分别读取两张子图中每个节点的出边类型，将每个节点的出边类型存入一个列表并按升序排列，所有节点按照节点编号依次存储出边类型升序列表，获得节点出边类型升序二维列表；如果两张子图的节点出边类型升序二维列表相同，则代表它们同构，否则不同构；

步骤3.5：基于步骤3.1～3.4获得的同构结果，新建一个空的同构结果集合，如果两张子图同构，则两张子图的特征序列视为同一个，并将两张子图在共调控生物网络中出现的频率累加，存入同构结果集合；若不同构，则直接将键值对存入同构结果集合；

所述同构结果集合中的数据结构采用哈希表，“键”为子图的特征序列，“值”为“键”所对应子图在目标网络中出现的频率。

用两层嵌套的循环结构，外层循环遍历的是抽样结束后的子图集合，内存循环遍历的是用来存储同构判断后的结果集合。

进一步地，采用子图的出现频率N^obs、Z-score来评价共调生物网络中每类子图的显著性；

其中，为子图m在共调生物网络中出现的频率，/>为子图m在所有随机网络中出现频率的平均值；σ为对应的标准差：/>n表示随机网络的数量。

Z-score能够反映子图m在共调控生物网络中出现的正则化后的频率。

进一步地，采用P-value来评价共调生物网络中每类子图的显著性；

其中，为子图m在第i个随机网络中出现的频率，I(condition)为一个二元函数，其定义为：

进一步地，根据共调控生物网络随机产生1000个随机网络，并分别设置Z-score，P-value和N^obs的阈值为2，0.01和5，将同时满足Z-score>2，P-value<0.01且N^obs≥5三个条件的子图认定为网络模体。

另一方面，一种基于子图抽样及节点属性的共调控生物网络模体发现装置，包括：

共调控生物目标网络构建模块：用于根据疾病数据集中各数据节点之间的调控关系，构建疾病数据集对应节点的共调控生物目标网络；

子图提取模块：用于基于枚举方法结合无偏的子图抽样技术，从共调控生物目标网络中，提取出所有满足设定子图节点规模的子图；

同构判断模块：基于节点的属性对子图提取模块的子图进行同构判断，并以同构判断结果采用哈希表存储，得到子图哈希集合；

所述节点属性包括节点度序列和节点调控关系序列；

模体提取模块：按照共调控生物目标网络的拓扑结构，生成一千张随机网络，对同构判断模块得到的子图哈希集合中的每个子图，计算在一千张随机网络中的统计显著性，以满足指标的子图即为提取出模体；

有益效果

本发明技术方案提供了一种基于子图抽样及节点属性的共调控生物网络模体发现方法，该方法基于共调控生物网络，考虑共调控生物网络中的不同节点类型和边类型，该方法在子图搜索的阶段中引入了抽样(无偏估计)，在子图同构判断归类阶段使用了哈希表结构，以极低的复杂度完成了同构子图合并，该方法实现简单，只需根据miRNA、TF、Gene三者之间的调控关系，同时设定好一些参数指标(随机网络生成的个数、Z-score、P-value)，就能比较准确地识别共调控生物网络中的模体结构。

与已有共调控生物网络模体识别方法相比，本发明提出的方法具有以下优势：

1)在子图搜索阶段，引入了抽样技术，大大节省了子图枚举的空间；

2)借助哈希表结构，使得在同构判断分类阶段以近似O(1)的时间复杂度完成分类；

3)能够在有限的时间内挖掘到规模更大的模体；

实验验证，本发明所述的方法能有效的识别共调控生物网络中的模体。同时，通过对比其他方法，能够识别的模体规模有了一定的提升，具体实验结果图对比和分析详见实施例。

附图说明

图1为子图搜索方法图；

图2为子图同构判断流程图；

图3为以两个节点为整体的度序列计算示意图；

图4为本发明实例所述方法的流程图；

图5为不同模体规模下算法的时间消耗示意图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。

本实例中准备两个不同规模的数据集，分别是脑胶质瘤(GBM)、和老年痴呆症(AD)。基于以上数据集，将miRNA、TF、基因分别用0、1、2三个数字代替，对于共调控生物网络中的所有节点从0开始按照递增的顺序标号，整理成一个四列的文本文件，每一行代表的是两个节点之间的调控关系。

如图4所示，一种基于子图抽样及节点属性的共调控生物网络模体发现方法，包括以下步骤：

步骤2：基于枚举方法结合无偏的子图抽样技术，从构建的共调控生物目标网络中，提取出所有满足设定子图节点规模的子图，如图1所示；

在迭代扩展前增加设定的抽样概率，每个待扩展的节点都有相同的概率被随机抽样到。假设抽样参数设置为0.5，即从总样本中抽取一半数量的样本来估计整体。避免了较大的抽样偏差。通过该抽样技术，能够节省较大的子图搜索空间，提升算法的执行效率。

所述节点属性包括节点度序列和节点调控关系序列；

采用两两比较的方法，基于节点的多重属性，对子图进行同构判断，如图2所示：

同构，是指于任意两个图，如果它们之间的节点集合和边集合存在完全匹配的情况，那么这两个子图就是同构的。

假设两张子图的规模为4(4个节点)，先求一个节点的情况下，所有节点的入度序列(需排序)，如果相等，接着计算1个节点时，所有节点的出度序列(需排序)，如果相等，便以2个节点为一个整体(对于一个规模为4的子图，以两个节点为整体，一共有6种组合情况)，计算入度序列、出度序列，如果都相等，接着以3个节点(对于一个规模为4的子图，以三个节点为一整体，一共有4种组合情况)为一个整体，重复刚刚的步骤。以2个节点为整体的入度序列计算为例，指的是将6种组合情况下的入度和添加到集合中，并按照升序排列，形如[0,1,1,1,2,3]。如果上述过程出现某一对序列不相等，那么子图一定不同构，无需执行更多判断。

以图3为例，计算以两个节点为整体的入度序列。例如，以1、4为整体，忽略1号节点和4号节点内部的入度，外界(2号节点和3号节点)一共有一条边指向1、4节点构成的整体，故贡献了一个入度，di(1,4)＝1。同理，其他以两个节点为整体的组合对应入度分别为：di(1,2)＝0，di(1,3)＝2，di(2,3)＝1，di(2,4)＝1，di(3,4)＝3。对入度情况按照升序排列，则最终生成的入度序列为[0,1,1,1,2,3]。出度序列计算原理与之相同。总结：对于两个规模为N的子图，按照k＝1、2、3…N-1的顺序计算k个节点为整体，各自的出入度序列(升序排列)，如果有某个序列两张子图结果不一致，那么它们一定不同构。如果计算完N-1个节点的出入度序列，两张子图的结果仍然一致，则进入到最后的判断。

例如某子图中有一个miRNA节点指向了TF，那么该边用“01”表示。

本发明实例采用Java的Fork/Join多线程框架，对节点标号、排序，以及迭代扩展任务以多线程执行。该框架善于利用窃取工作执行加快任务的总体执行速度。在ForkJoinPool线程池中，若一个工作线程的任务队列为空时，便从其他工作线程中获取任务主动执行。

对于子图枚举阶段，提出在传统的穷举搜索方法(ESU)的基础上结合抽样，对ESU的遍历过程添加抽样数量比例参数(假设抽样参数设置为0.5，即从总样本中抽取一半数量的样本来估计整体)，使得目标网络中相同规模的子图被选中的概率保持一致。在子图枚举抽样过程中，一旦某个子图达到了预先指定规模，会生成对应的特征序列，用来唯一表示该子图。例如指定子图规模为3，现有一子图达到3节点的规模，并生成了对应的特征序列010001000_012。以“_”为分隔符，其左边是3x3长度的01序列，右边是三个节点对应的类型，0代表miRNA、1代表TF因子、2代表Gene。按照子图规模为间隔，例如这里是3，可以将01序列切分成3行，按照由上到下的顺序填充满一个三维的矩阵，每个元素可以用坐标(i，j)表示，i和j的取值按照“_”后面的节点类型依次读取。如第一行第二列对应的元素为1，则代表0(miRNA)指向了1(TF)。所以通过特征序列便能将一个子图的形式唯一确定，也因此，在程序中存储子图时，特征序列被用作HashMap的键。

采用子图的出现频率N^obs、Z-score、P-value来评价共调生物网络中每类子图的显著性；

根据共调控生物网络随机产生1000个随机网络，并分别设置Z-score，P-value和N^obs的阈值为2，0.01和5，将同时满足Z-score>2，P-value<0.01且N^obs≥5三个条件的子图认定为网络模体。

为了验证本发明实例所述方法(CMSNP)的有效性，将CMSNP方法应用于一组脑胶质瘤数据集上。

1.实验结果分析，验证算法有效性

表1CMSNP算法数据集信息

以GBM数据集为例，子图规模设定为3，执行CMSNP算法，本发明提出的算法共搜索到了11个三节点子图，按照Z-score、P-value等指标，共识别到2个模体；当子图规模设定为4时，执行CMSNP算法，本发明所提出的算法共搜索到了217个子图，按照模体判断指标，共识别到17个模体。

当子图规模为3时，算法总时间为21s，其中子图搜索总耗时为18s，同构判断总时间为1s，其余时间消耗在模体的显著性计算阶段；子图规模为4时，算法执行总时间为1023s，子图搜索总耗时为960s，同构判断总时间为30s，其余时间消耗在模体的显著性计算阶段。

2.方法CMSNP与Comofinder方法实验对比分析，验证算法有效性

表2给出方法CMSNP和Comofinder算法分别在节点规模为3、4、5的时候的时间消耗。

可以发现，随着子图规模变大，模体挖掘算法的时间呈爆炸式增长，如表2所示。节点规模为3时，本发明的算法执行耗时占了对比算法的84％左右；当节点规模为4时，本发明的算法执行耗时只占了对比算法的45％左右。当节点规模为5时，本发明的算法执行耗时只占了对比算法的13％左右。即随着模体规模变大，本发明所能节省的时间比例是越来越大的，也说明了本发明算法的高效性。时间对比图见图5。

表2CMSNP算法运行时间对比

在此基础上，本发明实例所述方法考虑到如果算法的时间节省了，但最终生成的子图相应也减少很多，那算法的效果仍然是较差的。因此本发明实例所述方法研究了抽样方法和对比方法最终搜索得到的子图集合匹配程度。

基于GBM数据集，分别执行Comofinder算法和CMSNP算法的子图生成部分，在3节点规模和4节点规模下的子图个数如表3所示。此外，还分别计算了三节点、四节点规模下，两个算法生成的子图集合的匹配度，结果显示，三节点规模下，两个算法生成的子图集合一致，匹配度为100％；四节点规模下，两个算法生成的子图集合匹配度为95％(因为本发明实例所述方法子图生成涉及到抽样，所以该比例上下有浮动。经过多组抽样分析，浮动范围是上下5％)。

表3CMSNP抽样算法生成子图

一种基于子图抽样及节点属性的共调控生物网络模体发现装置，包括：

所述节点属性包括节点度序列和节点调控关系序列；

应当理解，本发明各个实施例中的功能单元模块可以集中在一个处理单元中，也可以是各个单元模块单独物理存在，也可以是两个或两个以上的单元模块集成在一个单元模块中，可以采用硬件或软件的形式来实现。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种基于子图及节点的共调控生物网络模体发现方法，其特征在于，包括以下步骤：

步骤3：基于节点的属性对步骤2中的子图进行同构判断，并对同构判断结果采用哈希表存储，得到子图哈希集合；

所述节点属性包括节点度序列和节点调控关系序列；

步骤4：按照共调控生物目标网络的拓扑结构，生成一千张随机网络，对步骤3得到的子图哈希集合中的每个子图，计算在一千张随机网络中的统计显著性，以满足指标的子图即为模体；

2.根据权利要求1所述的方法，其特征在于，所述构建疾病数据集对应节点的共调控生物目标网络的具体过程如下：

3.根据权利要求2所述的方法，其特征在于，所述基于枚举方法结合无偏的子图抽样技术，从构建的共调控生物网络中，提取出所有满足设定子图节点规模的子图的具体过程如下：

步骤2.1：基于传统的枚举方法ESU，对共调控生物目标网络中的每个节点标号并排序；

步骤2.2：以miRNA节点开始，搜索子图，从当前节点的邻居节点集合中选取一个邻居节点，对子图进行迭代扩展，构建中间子图，直到中间子图节点数目达到事先设定的子图节点规模，获得所有满足设定子图节点规模的子图；

4.根据权利要求3所述的方法，其特征在于，在迭代扩展前增加设定的抽样概率，每个待扩展的节点都有相同的概率被随机抽样到。

5.根据权利要求3或4所述的方法，其特征在于，采用Java的Fork/Join多线程框架，对节点标号、排序，以及迭代扩展任务以多线程执行。

6.根据权利要求3所述的方法，其特征在于，采用两两比较的方法，基于节点的多重属性，对子图进行同构判断；

7.根据权利要求1所述的方法，其特征在于，采用子图的出现频率N^obs、Z-score来评价共调生物网络中每类子图的显著性；

8.根据权利要求7所述的方法，其特征在于，采用P-value来评价共调生物网络中每类子图的显著性；

9.根据权利要求8所述的方法，其特征在于，根据共调控生物网络随机产生1000个随机网络，并分别设置Z-score，P-value和N^obs的阈值为2，0.01和5，将同时满足Z-score>2，P-value<0.01且N^obs≥5三个条件的子图认定为网络模体。

10.一种基于子图及节点的共调控生物网络模体发现装置，其特征在于，包括：

所述节点属性包括节点度序列和节点调控关系序列；

模体提取模块：按照共调控生物目标网络的拓扑结构，生成一千张随机网络，对同构判断模块得到的子图哈希集合中的每个子图，计算在一千张随机网络中的统计显著性，以满足指标的子图即为模体；