CN108768718B

CN108768718B - 基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质

Info

Publication number: CN108768718B
Application number: CN201810502255.6A
Authority: CN
Inventors: 杨亦
Original assignee: HUNAN WOMEN'S UNIVERSITY
Current assignee: HUNAN WOMEN'S UNIVERSITY
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2021-07-20
Anticipated expiration: 2038-05-23
Also published as: CN108768718A

Abstract

本发明公开了一种基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质，该方法包括以下步骤：网络转换步骤：根据二分网络中两类节点间的概率关系，将二分网络转换为只包含其中一类节点的单类节点概率网络；单类节点聚簇步骤：计算单类节点概率网络中每条关系边的信息熵，根据信息熵增原理对单类节点概率网络中的各节点进行聚簇，得到只含有其中一类节点的单类节点初始簇；加入另一类节点和关系边步骤：根据二分网络关系，将另一类节点、以及用于表示两类节点之间连接关系的关系边添加至单类节点初始簇，得到最终的模块。本发明简单易行，不需要另外附加参数即可运行，而且模块识别率较高，对于开展复杂网络和生物信息网络研究具有重要的参考价值。

Description

基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质

技术领域

本发明涉及复杂网络模块识别技术领域，尤其是一种基于熵增的由mRNA/miRNA节点组成的二分网络模块识别方法、系统及存储介质。

背景技术

二分网络是一种重要的复杂网络的表现形式。现实生活中许多网络都呈现出二分结构，如：会员和活动关系网络、电影和演员关系网络、疾病和基因关系网络、microRNA(miRNA)和messagerRNA(mRNA)调控网络等。这种网络的特点是：它由两类节点组成，连边只存在于不同类型的节点之间，同类节点之间无连边。模块是复杂网络最基本和最重要的拓扑属性之一，能够帮助我们了解整个网络的结构和特性，因此模块识别对于复杂网络，特别是生物网络研究具有重要的意义。然而选择一个合适的模块识别算法来发现复杂网络中的模块可能是困难的。因为当前提出的很多算法例如FN算法(Fast Newman)和TGA算法(Traditional GeneticAlgorithm)都是基于一些代价函数，通过调优参数在特定网络上来获取最佳效果，若将这些算法应用于其他网络，识别准确率往往较低，其识别结果是难以保障的。目前的算法需要先设置参数，存在算法复杂、普适性差、识别率低等问题。

发明内容

为了克服现有技术的缺陷，本发明提出一种基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质。

本发明采用的技术方案如下：

一方面，本发明提供了一种基于mRNA/miRNA节点的二分网络模块识别方法，二分网络包含两类节点，且仅不同类的节点间存在关系边，方法包括以下步骤：

网络转换步骤：根据所述二分网络中两类节点间的概率关系，将所述二分网络转换为只包含其中一类节点的单类节点概率网络；

具体包括：假设两个第一类节点和同一个第二类节点有联系，则两个第一类节点之间存在一次连接关系，将第一类节点的连接关系叠加在一起，获得每对第一类节点之间的叠加次数以及全部第一类节点之间的叠加次数之和：总叠加次数；将叠加次数除以总叠加次数得到每对第一类节点之间的关系边的概率关系；根据所述概率关系构建出只包含第一类节点的单类节点概率网络；

单类节点聚簇步骤：计算所述单类节点概率网络中每条关系边的信息熵以及每个第一类节点的概率，在单类节点概率网络中查找最大概率的节点作为原有节点；在最大概率的节点的邻接节点中查找最大概率的关系边，并将所述最大概率的关系边与所述最大概率的节点连接的节点作为新节点；如果所述新节点与所述原有节点组成的集合的熵增dH不小于集合的平均熵

则将新节点加入原有节点组成一个新的集合，否则不加入；查找结束，得到一个新的第一类节点初始簇；将所述新的第一类节点初始簇中的所有节点作为下一次查找的原有节点，继续在剩余的节点中查找具有最大概率的节点，并执行上述步骤，直到没有剩余的第一类节点；过滤掉只含有一个第一类节点的模块，得到最终的只含有第一类节点的单类节点初始簇；

加入另一类节点和关系边步骤：根据所述二分网络关系，将第二类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇，得到最终的模块。

进一步地，二分网络表示为G＝(U,V,E)，其中，E＝{＜U_i,V_j＞|U_i∈U,V_j∈V,i＝1,2...M,j＝1,2...N}，U表示第一类节点的集合，V表示第二类节点的集合，E表示U类节点与V类节点之间关系边的集合，＜U_i,V_j＞表示第i个U类节点和第j个V类节点之间的关系边，M表示第一类节点的个数，N表示第二类节点的个数。

进一步地，每对V类节点之间的关系边的概率关系的计算公式如下：

其中，V_a和V_b为两个V类节点，p(V_a,V_b)为V_a和V_b之间的关系边的概率关系，U_i→V_j表示第i个U类节点和第j个V类节点之间存在关系边。

进一步地，单类节点聚簇步骤包括：

根据以下公式计算单类节点概率网络中每个V类节点的概率：

其中，V_a为V类节点，p(V_a,V_j)为节点V_a和它的邻居节点V_j之间的关系边＜V_a,V_j＞的概率。

进一步地，单类节点聚簇步骤还包括：

根据以下公式计算单类节点概率网络中每条关系边的信息熵：

其中，H(V_i,V_j)为两个V类节点V_i和V_j之间关系边的信息熵。

进一步地，集合的熵增dH通过以下公式计算获得：

dH＝H₂-H₁

其中，H₂为加入新节点之后集合的熵，H₁为加入新节点之前集合的熵；

集合的平均熵

的计算公式如下：

其中，|C|为集合内的节点个数，H为集合的熵，集合的熵H的计算公式如下：

进一步地，加入另一类节点和关系边步骤包括：

将同时与至少两个V类节点有连接关系的U类节点作为待加入U类节点；

根据二分网络关系，将待加入U类节点与单类节点初始簇进行合并，并加入用于表示两类节点之间连接关系的关系边，得到最终的模块。

根据本发明的另一方面，还提供了一种基于mRNA/miRNA节点的二分网络模块识别系统，所述二分网络包含第一类节点以及第二类节点，包括：

网络转换单元，用于根据所述二分网络中两类节点间的概率关系，将所述二分网络转换为只包含其中一类节点的单类节点概率网络；

所述网络转换具体包括：假设两个第一类节点和同一个第二类节点有联系，则两个第一类节点之间存在一次连接关系，将第一类节点的连接关系叠加在一起，获得每对第一类节点之间的叠加次数以及全部第一类节点之间的叠加次数之和：总叠加次数；将叠加次数除以总叠加次数得到每对第一类节点之间的关系边的概率关系；根据所述概率关系构建出只包含第一类节点的单类节点概率网络；

单类节点聚簇单元，用于计算所述单类节点概率网络中每条关系边的信息熵以及每个第一类节点的概率，在单类节点概率网络中查找最大概率的节点作为原有节点；在最大概率的节点的邻接节点中查找最大概率的关系边，并将所述最大概率的关系边与所述最大概率的节点连接的节点作为新节点；如果所述新节点与所述原有节点组成的集合的熵增dH不小于集合的平均熵

加入另一类节点和关系边单元，用于根据所述二分网络关系，将第二类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇，得到最终的模块。

根据本发明的另一方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现上述的基于mRNA/miRNA节点的二分网络模块识别方法的步骤。

本发明通过首先根据连接关系将二分网络转换成单类节点边的概率网络；然后利用概率计算出每条边的信息熵；再利用信息熵增原理得出该类节点的簇；最后通过加入另一类节点来获得完整的模块。与现有模块识别算法相比，本发明的基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质具有如下优势：

(1)该方法简单易行，系统结构简单，运算效率高；算法不需要预设任何参数，即可运行；不存在调优参数对结果的影响问题。

(2)本发明基于熵增原理，算法理论基础扎实，普适性好。根据秩序越混乱熵越大的原理来聚簇节点，结果不但准确率高，而且稳定性好，因此算法具有较好的普适性，能够广泛地用于各种复杂网络。

附图说明

图1为本发明优选实施例的基于mRNA/miRNA节点的二分网络模块识别方法DMIE的算法流程图；

图2为本发明优选实施例的网络转换步骤的流程图；

图3为人工模拟网络的示意图；

图4为本发明的基于mRNA/miRNA节点的二分网络模块识别方法DMIE与现有的FN算法和TGA算法的识别性能比较示意图；

图5为本发明的基于mRNA/miRNA节点的二分网络模块识别方法应用于卵巢癌数据集所发现的部分卵巢癌模块的示意图；

图6为本发明的方法所发现的模块的生物表达分析；

图7为模块与癌症的关联性分析；

图8为模块表达与病人存活率之间的关系分析。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

一、基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质

为方便说明，先给出如下定义和假设：

模块是一种包含两类节点的二分网络子图。

概率网络是一个抽象而来的V类节点网络。其中，如果两个V类节点被同一个U类节点联系，则二者之间存在连边，该连边的概率(权重)为这两个V类节点同U类节点联系的次数除以整个网络中各对V类节点同U类节点联系的总次数。

熵增是指加入新节点后，集合/簇中节点熵的变化情况。

参照图1，本发明优选实施例提供了一种基于mRNA/miRNA节点的二分网络模块识别方法(DMIE)，以下简称DMIE方法，该方法包括以下步骤：

(1)网络转换步骤：根据二分网络中两类节点间的概率关系，将二分网络转换为只包含其中一类节点的单类节点概率网络；

具体包括：假设两个第一类节点和同一个第二类节点有联系，则两个第一类节点之间存在一次连接关系，将第一类节点的连接关系叠加在一起，获得每对第一类节点之间的叠加次数以及全部第一类节点之间的叠加次数之和：总叠加次数；将叠加次数除以总叠加次数得到每对第一类节点之间的关系边的概率关系；根据所述概率关系构建出只包含第一类节点的单类节点概率网络

(2)单类节点聚簇步骤：计算所述单类节点概率网络中每条关系边的信息熵以及每个第一类节点的概率，在单类节点概率网络中查找最大概率的节点作为原有节点；在最大概率的节点的邻接节点中查找最大概率的关系边，并将所述最大概率的关系边与所述最大概率的节点连接的节点作为新节点；如果所述新节点与所述原有节点组成的集合的熵增dH不小于集合的平均熵

(3)加入另一类节点和关系边步骤：根据所述二分网络关系，将第二类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇，得到最终的模块。

二分网络是一种由两类节点U和V组成的网络，每类节点内部没有连接关系。本发明中，二分网络表示为G＝(U,V,E)，其中，E＝{＜U_i,V_j＞|U_i∈U,V_j∈V,i＝1,2...M,j＝1,2...N}，U表示第一类节点的集合，V表示第二类节点的集合，E表示U类节点与V类节点之间关系边的集合，＜U_i,V_j＞表示第i个U类节点和第j个V类节点之间的关系边，M表示第一类节点的个数，N表示第二类节点的个数。

参照图2，进一步地，网络转换步骤具体为：

假设两个V类节点和同一个U类节点有联系，则两个V类节点之间存在一次连接关系，将所述二分网络中每对V类节点的连接关系叠加在一起，获得每对V类节点之间的叠加次数；总叠加次数为所述二分网络中全部V类节点之间的叠加次数之和；

将所述叠加次数除以所述总叠加次数得到每对V类节点之间的关系边的概率关系；

根据每对V类节点之间的关系边的概率关系构建出只包含V类节点的单类节点概率网络。

更具体地，每对V类节点之间的关系边的概率关系的计算公式如下：

其中，V_a和V_b为两个V类节点，p(V_a,V_b)为V_a和V_b之间关系边的概率关系，U_i→V_j表示第i个U类节点和第j个V类节点之间存在关系边。

进一步地，单类节点聚簇步骤包括：

根据以下公式计算单类节点概率网络中每个V类节点的概率：

其中，V_a为V类节点，p(V_a,V_j)为节点V_a和它的邻居节点V_j之间的关系边＜V_a,V_j＞的概率。每个V类节点V_a的概率是连接它的所有边的概率之和。

进一步地，单类节点聚簇步骤还包括：

其中，H(V_i,V_j)为两个V类节点V_i和V_j之间关系边的信息熵。

进一步地，单类节点聚簇步骤具体为：

在单类节点概率网络中查找最大概率的节点作为原有节点；

在最大概率的节点的邻接节点中查找最大概率的关系边，并将通过最大概率的关系边与最大概率的节点连接的节点作为新节点；

如果新节点与原有节点组成的集合的熵增dH不小于集合的平均熵

则将新节点加入原有节点组成一个新的集合，否则不加入，本次查找结束，得到一个新的V类节点初始簇，且新的V类节点初始簇中的所有节点作为下一次查找的原有节点；

继续在剩余的节点中查找具有最大概率的节点，并执行上两个步骤；

重复上一步骤，直到没有剩余的V类节点；

过滤掉只含有一个V类节点的模块，得到最终的只含有V类节点的单类节点初始簇。

具体地，上述单类节点聚簇步骤中的查找算法是一个循环的过程：

首先，根据公式(2)获得的每个V类节点的概率，在通过网络转换步骤获得的单类节点概率网络中查找其中具有最大概率的节点作为初始节点；然后根据公式(1)获得的两个V类节点之间关系边的概率关系，在该初始节点的邻接点中查找具有最大概率的关系边，并将通过该最大概率的关系边与初始节点连接的节点作为新节点。新节点和初始节点组成一个新的集合，如果加入新节点后，集合的熵增dH不小于集合的平均熵

那么新节点加入，否则不加入。本次查找结束，得到了一个新的V类节点初始簇，该新的V类节点初始簇中包含初始节点和新节点，并将这些节点作为下一次查找的原有节点。

接下来，算法继续在单类节点概率网络的剩余的节点中查找具有最大概率的节点，在本次最大概率的节点的邻接点中查找具有最大概率的关系边，并将通过本次最大概率的关系边与本次最大概率的节点连接的节点作为新节点，并按照上一步中的规则将本次的新节点加入上一步得到的原有节点中，得到新的V类节点初始簇。

重复上一步骤，直到没有剩余的V类节点，就结束整个查找算法。

上述步骤中集合的熵增和平均熵由公式(3)～(6)确定。

进一步地，集合的熵增dH通过以下公式计算获得：

dH＝H₂-H₁ (4)

集合的平均熵

的计算公式如下：

进一步地，加入另一类节点和关系边步骤包括：

根据本发明的另一方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现上述方法的步骤。

根据本发明的另一方面，还提供了一种基于熵增的二分网络模块识别系统，包括：

二、基于mRNA/miRNA节点的二分网络模块识别方法有效性验证

将本发明提出的方法在人工模拟数据集和卵巢癌数据集上进行了测试，分别从识别准确率和模块的利用价值方面进行验证。

1、人工模拟数据集上的实验

为了验证算法的性能，我们首先使用算法产生了100个随机miRNA调控网络数据。图3是两个随机网络的示意图。网络符合二分网络特征，被预先分为4个模块。每个随机网络均含有miRNA和mRNA两类节点，均为64个。每个节点平均度均为9。Zin是模块内部节点的连边数，Zout是模块和外部节点的连边数。外部连边数越多，识别难度越大，识别准确率越低。针对不同的Zout，我们比较了DMIE和FN、TGA算法的识别准确率。如表1所示，当1≤Zout≤7，识别准确率均值μ_TGA＜μ_FN＜μ_DMIE。

表1模块识别准确率均值和方差

从图4中，我们也能看出DMIE比另外两种方法具有更高的识别准确率。当Zout＜5时，它的识别准确率一般都高于95％。即使当Zout＝7时，它也能达到40％。另一方面，模块准确率的方差σ_TGA＞σ_FN＞σ_DMIE。越小的方差，说明方法的性能越稳定。可见DMIE的识别性能方面要优于FN和TGA算法。

2、真实卵巢癌数据集的实验

为构建真实的卵巢癌数据集，我们从TCGA数据门户网站(http://cancergenome.nih.gov/)下载559个样本的miRNA和mRNA及其表达谱数据，从TargetScan中获取miRNA-mRNA调控关系数据。最终得到的数据集共有559个miRNA、12456个mRNA，16365条miRNA-mRNA作用边。

我们从所识别出的模块的结构特征、miRNA节点协同作用、模块和卵巢癌的关联、模块表达和患者生存率关系等方面，来验证本发明所识别出的模块的利用价值。

(1)模块的结构特征

本发明应用于卵巢癌数据集共计发现32个模块。每个模块均具有较好的拓扑结构，部分模块的拓扑结构如图5所示。模块的miRNA、mRNA和边的平均数分别为47.875、269.967、323.468。此外，我们也应用MiMEC指标来衡量模块内miRNA对mRNA的调控作用程度。MiMEC越大，调控作用越明显。图6展示了所发现模块的MiMEC表达值的累积概率分布情况及密度-MiMEC关系情况。从图中可以看出，本发明所识别的模块内部miRNA和mRNA之间联系较紧密，而且miRNA调控作用也很强烈。

(2)miRNA节点协同作用分析

研究表明，同一家族的miRNA倾向于形成模块来完成特定功能。所以我们可以应用miRNA簇富集分析来评价模块内miRNA类节点的协同程度。miRNA发夹序列的家族分类文件从miRBase网站(http://www.mirbase.org/)下载获得。算法对模块内的miRNA进行超几何分布计算和FDR校验(q值＜0.05)，得出至少富集一个miRNA家族的模块。本发明所识别出的32个模块中有17个模块富集了至少一个miRNA家族。部分模块miRNA家族富集情况如表2所示。

表2部分富集miRNA家族的模块

(3)模块和卵巢癌的关联情况分析

我们从HDMM和一些综述文章下载整理了和卵巢癌相关的miRNA，构建出miRNA标准数据集，一共含有102个miRNA。本发明检测出的模块含有标准集中全部miRNA。而且有24个模块至少含有两个和卵巢癌相关的miRNA，比例达到全部模块的75％。我们也从SemFunSim和基因癌症关联数据库DisGeNET下载了卵巢癌相关的mRNA。检测到的32个模块中，有8个模块含有癌症相关的mRNA。部分模块关联的结果如表3所示。

表3部分富集癌症相关miRNA和mRNA的模块

图7展示了全部32个模块和模块6在不同患者身上的表达情况。从两个热图结果可以看出在癌症患者和正常样本之间，所检测出的模块miRNA表达情况具有明显的区别。在临床中，通过检测这些模块的表达情况，可以为诊断提供参考。

(4)模块表达和患者存活关联分析

为了验证所识别模块的表达和患者存活的关联情况，我们从将TCGA临床数据根据患者的表达情况分为两组。高于平均miRNA表达水平的放入High-risk组，其余的放入Low-risk组。在每个模块上对患者进行Kaplan-Meier生存分析。从图8中两个模块情况可以看出，两个表达不同组的存活情况明显不同。具有高表达值的组面临较大的死亡风险。这进一步证明了本发明所识别模块的预后判断能力。

本发明提供了一种基于熵增的二分网络模块识别的有效方法。通过与现有方法的比较表明，本发明的DMIE方法不需要任何调优参数，模块识别准确率高，结果稳定，而且所发现的模块内聚性强，功能富集好，所识别的模块能为临床分析提供参考建议。此外，所提出的方法不仅限于本发明所实验的数据集，也可以作为一个计算框架来帮助研究人员分析其他复合网络，算法普适性好。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于mRNA/miRNA节点的二分网络模块识别方法，所述二分网络包含第一类节点以及第二类节点，且仅不同类的节点间存在关系边，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于mRNA/miRNA节点的二分网络模块识别方法，其特征在于：所述二分网络表示为G＝(U,V,E)，其中E＝{＜U_i,V_j＞|U_i∈U,V_j∈V,i＝1,2...M,j＝1,2...N}，U表示第一类节点的集合，V表示第二类节点的集合，E表示U类节点与V类节点之间关系边的集合，＜U_i,V_j＞表示第i个U类节点和第j个V类节点之间的关系边，M表示第一类节点的个数，N表示第二类节点的个数。

3.根据权利要求2所述的基于mRNA/miRNA节点的二分网络模块识别方法，其特征在于：所述每对V类节点之间的关系边的概率关系的计算公式如下：