CN108768718B - 基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质 - Google Patents

基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质 Download PDF

Info

Publication number
CN108768718B
CN108768718B CN201810502255.6A CN201810502255A CN108768718B CN 108768718 B CN108768718 B CN 108768718B CN 201810502255 A CN201810502255 A CN 201810502255A CN 108768718 B CN108768718 B CN 108768718B
Authority
CN
China
Prior art keywords
node
nodes
class
network
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810502255.6A
Other languages
English (en)
Other versions
CN108768718A (zh
Inventor
杨亦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN WOMEN'S UNIVERSITY
Original Assignee
HUNAN WOMEN'S UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUNAN WOMEN'S UNIVERSITY filed Critical HUNAN WOMEN'S UNIVERSITY
Priority to CN201810502255.6A priority Critical patent/CN108768718B/zh
Publication of CN108768718A publication Critical patent/CN108768718A/zh
Application granted granted Critical
Publication of CN108768718B publication Critical patent/CN108768718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质,该方法包括以下步骤:网络转换步骤:根据二分网络中两类节点间的概率关系,将二分网络转换为只包含其中一类节点的单类节点概率网络;单类节点聚簇步骤:计算单类节点概率网络中每条关系边的信息熵,根据信息熵增原理对单类节点概率网络中的各节点进行聚簇,得到只含有其中一类节点的单类节点初始簇;加入另一类节点和关系边步骤:根据二分网络关系,将另一类节点、以及用于表示两类节点之间连接关系的关系边添加至单类节点初始簇,得到最终的模块。本发明简单易行,不需要另外附加参数即可运行,而且模块识别率较高,对于开展复杂网络和生物信息网络研究具有重要的参考价值。

Description

基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储 介质
技术领域
本发明涉及复杂网络模块识别技术领域,尤其是一种基于熵增的由mRNA/miRNA节点组成的二分网络模块识别方法、系统及存储介质。
背景技术
二分网络是一种重要的复杂网络的表现形式。现实生活中许多网络都呈现出二分结构,如:会员和活动关系网络、电影和演员关系网络、疾病和基因关系网络、microRNA(miRNA)和messagerRNA(mRNA)调控网络等。这种网络的特点是:它由两类节点组成,连边只存在于不同类型的节点之间,同类节点之间无连边。模块是复杂网络最基本和最重要的拓扑属性之一,能够帮助我们了解整个网络的结构和特性,因此模块识别对于复杂网络,特别是生物网络研究具有重要的意义。然而选择一个合适的模块识别算法来发现复杂网络中的模块可能是困难的。因为当前提出的很多算法例如FN算法(Fast Newman)和TGA算法(Traditional GeneticAlgorithm)都是基于一些代价函数,通过调优参数在特定网络上来获取最佳效果,若将这些算法应用于其他网络,识别准确率往往较低,其识别结果是难以保障的。目前的算法需要先设置参数,存在算法复杂、普适性差、识别率低等问题。
发明内容
为了克服现有技术的缺陷,本发明提出一种基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质。
本发明采用的技术方案如下:
一方面,本发明提供了一种基于mRNA/miRNA节点的二分网络模块识别方法,二分网络包含两类节点,且仅不同类的节点间存在关系边,方法包括以下步骤:
网络转换步骤:根据所述二分网络中两类节点间的概率关系,将所述二分网络转换为只包含其中一类节点的单类节点概率网络;
具体包括:假设两个第一类节点和同一个第二类节点有联系,则两个第一类节点之间存在一次连接关系,将第一类节点的连接关系叠加在一起,获得每对第一类节点之间的叠加次数以及全部第一类节点之间的叠加次数之和:总叠加次数;将叠加次数除以总叠加次数得到每对第一类节点之间的关系边的概率关系;根据所述概率关系构建出只包含第一类节点的单类节点概率网络;
单类节点聚簇步骤:计算所述单类节点概率网络中每条关系边的信息熵以及每个第一类节点的概率,在单类节点概率网络中查找最大概率的节点作为原有节点;在最大概率的节点的邻接节点中查找最大概率的关系边,并将所述最大概率的关系边与所述最大概率的节点连接的节点作为新节点;如果所述新节点与所述原有节点组成的集合的熵增dH不小于集合的平均熵
Figure GDA0003085059980000021
则将新节点加入原有节点组成一个新的集合,否则不加入;查找结束,得到一个新的第一类节点初始簇;将所述新的第一类节点初始簇中的所有节点作为下一次查找的原有节点,继续在剩余的节点中查找具有最大概率的节点,并执行上述步骤,直到没有剩余的第一类节点;过滤掉只含有一个第一类节点的模块,得到最终的只含有第一类节点的单类节点初始簇;
加入另一类节点和关系边步骤:根据所述二分网络关系,将第二类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇,得到最终的模块。
进一步地,二分网络表示为G=(U,V,E),其中,E={<Ui,Vj>|Ui∈U,Vj∈V,i=1,2...M,j=1,2...N},U表示第一类节点的集合,V表示第二类节点的集合,E表示U类节点与V类节点之间关系边的集合,<Ui,Vj>表示第i个U类节点和第j个V类节点之间的关系边,M表示第一类节点的个数,N表示第二类节点的个数。
进一步地,每对V类节点之间的关系边的概率关系的计算公式如下:
Figure GDA0003085059980000022
其中,Va和Vb为两个V类节点,p(Va,Vb)为Va和Vb之间的关系边的概率关系,Ui→Vj表示第i个U类节点和第j个V类节点之间存在关系边。
进一步地,单类节点聚簇步骤包括:
根据以下公式计算单类节点概率网络中每个V类节点的概率:
Figure GDA0003085059980000023
其中,Va为V类节点,p(Va,Vj)为节点Va和它的邻居节点Vj之间的关系边<Va,Vj>的概率。
进一步地,单类节点聚簇步骤还包括:
根据以下公式计算单类节点概率网络中每条关系边的信息熵:
Figure GDA0003085059980000031
其中,H(Vi,Vj)为两个V类节点Vi和Vj之间关系边的信息熵。
进一步地,集合的熵增dH通过以下公式计算获得:
dH=H2-H1
其中,H2为加入新节点之后集合的熵,H1为加入新节点之前集合的熵;
集合的平均熵
Figure GDA0003085059980000032
的计算公式如下:
Figure GDA0003085059980000033
其中,|C|为集合内的节点个数,H为集合的熵,集合的熵H的计算公式如下:
Figure GDA0003085059980000034
进一步地,加入另一类节点和关系边步骤包括:
将同时与至少两个V类节点有连接关系的U类节点作为待加入U类节点;
根据二分网络关系,将待加入U类节点与单类节点初始簇进行合并,并加入用于表示两类节点之间连接关系的关系边,得到最终的模块。
根据本发明的另一方面,还提供了一种基于mRNA/miRNA节点的二分网络模块识别系统,所述二分网络包含第一类节点以及第二类节点,包括:
网络转换单元,用于根据所述二分网络中两类节点间的概率关系,将所述二分网络转换为只包含其中一类节点的单类节点概率网络;
所述网络转换具体包括:假设两个第一类节点和同一个第二类节点有联系,则两个第一类节点之间存在一次连接关系,将第一类节点的连接关系叠加在一起,获得每对第一类节点之间的叠加次数以及全部第一类节点之间的叠加次数之和:总叠加次数;将叠加次数除以总叠加次数得到每对第一类节点之间的关系边的概率关系;根据所述概率关系构建出只包含第一类节点的单类节点概率网络;
单类节点聚簇单元,用于计算所述单类节点概率网络中每条关系边的信息熵以及每个第一类节点的概率,在单类节点概率网络中查找最大概率的节点作为原有节点;在最大概率的节点的邻接节点中查找最大概率的关系边,并将所述最大概率的关系边与所述最大概率的节点连接的节点作为新节点;如果所述新节点与所述原有节点组成的集合的熵增dH不小于集合的平均熵
Figure GDA0003085059980000041
则将新节点加入原有节点组成一个新的集合,否则不加入;查找结束,得到一个新的第一类节点初始簇;将所述新的第一类节点初始簇中的所有节点作为下一次查找的原有节点,继续在剩余的节点中查找具有最大概率的节点,并执行上述步骤,直到没有剩余的第一类节点;过滤掉只含有一个第一类节点的模块,得到最终的只含有第一类节点的单类节点初始簇;
加入另一类节点和关系边单元,用于根据所述二分网络关系,将第二类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇,得到最终的模块。
根据本发明的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现上述的基于mRNA/miRNA节点的二分网络模块识别方法的步骤。
本发明通过首先根据连接关系将二分网络转换成单类节点边的概率网络;然后利用概率计算出每条边的信息熵;再利用信息熵增原理得出该类节点的簇;最后通过加入另一类节点来获得完整的模块。与现有模块识别算法相比,本发明的基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质具有如下优势:
(1)该方法简单易行,系统结构简单,运算效率高;算法不需要预设任何参数,即可运行;不存在调优参数对结果的影响问题。
(2)本发明基于熵增原理,算法理论基础扎实,普适性好。根据秩序越混乱熵越大的原理来聚簇节点,结果不但准确率高,而且稳定性好,因此算法具有较好的普适性,能够广泛地用于各种复杂网络。
附图说明
图1为本发明优选实施例的基于mRNA/miRNA节点的二分网络模块识别方法DMIE的算法流程图;
图2为本发明优选实施例的网络转换步骤的流程图;
图3为人工模拟网络的示意图;
图4为本发明的基于mRNA/miRNA节点的二分网络模块识别方法DMIE与现有的FN算法和TGA算法的识别性能比较示意图;
图5为本发明的基于mRNA/miRNA节点的二分网络模块识别方法应用于卵巢癌数据集所发现的部分卵巢癌模块的示意图;
图6为本发明的方法所发现的模块的生物表达分析;
图7为模块与癌症的关联性分析;
图8为模块表达与病人存活率之间的关系分析。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
一、基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质
为方便说明,先给出如下定义和假设:
模块是一种包含两类节点的二分网络子图。
概率网络是一个抽象而来的V类节点网络。其中,如果两个V类节点被同一个U类节点联系,则二者之间存在连边,该连边的概率(权重)为这两个V类节点同U类节点联系的次数除以整个网络中各对V类节点同U类节点联系的总次数。
熵增是指加入新节点后,集合/簇中节点熵的变化情况。
参照图1,本发明优选实施例提供了一种基于mRNA/miRNA节点的二分网络模块识别方法(DMIE),以下简称DMIE方法,该方法包括以下步骤:
(1)网络转换步骤:根据二分网络中两类节点间的概率关系,将二分网络转换为只包含其中一类节点的单类节点概率网络;
具体包括:假设两个第一类节点和同一个第二类节点有联系,则两个第一类节点之间存在一次连接关系,将第一类节点的连接关系叠加在一起,获得每对第一类节点之间的叠加次数以及全部第一类节点之间的叠加次数之和:总叠加次数;将叠加次数除以总叠加次数得到每对第一类节点之间的关系边的概率关系;根据所述概率关系构建出只包含第一类节点的单类节点概率网络
(2)单类节点聚簇步骤:计算所述单类节点概率网络中每条关系边的信息熵以及每个第一类节点的概率,在单类节点概率网络中查找最大概率的节点作为原有节点;在最大概率的节点的邻接节点中查找最大概率的关系边,并将所述最大概率的关系边与所述最大概率的节点连接的节点作为新节点;如果所述新节点与所述原有节点组成的集合的熵增dH不小于集合的平均熵
Figure GDA0003085059980000051
则将新节点加入原有节点组成一个新的集合,否则不加入;查找结束,得到一个新的第一类节点初始簇;将所述新的第一类节点初始簇中的所有节点作为下一次查找的原有节点,继续在剩余的节点中查找具有最大概率的节点,并执行上述步骤,直到没有剩余的第一类节点;过滤掉只含有一个第一类节点的模块,得到最终的只含有第一类节点的单类节点初始簇;
(3)加入另一类节点和关系边步骤:根据所述二分网络关系,将第二类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇,得到最终的模块。
二分网络是一种由两类节点U和V组成的网络,每类节点内部没有连接关系。本发明中,二分网络表示为G=(U,V,E),其中,E={<Ui,Vj>|Ui∈U,Vj∈V,i=1,2...M,j=1,2...N},U表示第一类节点的集合,V表示第二类节点的集合,E表示U类节点与V类节点之间关系边的集合,<Ui,Vj>表示第i个U类节点和第j个V类节点之间的关系边,M表示第一类节点的个数,N表示第二类节点的个数。
参照图2,进一步地,网络转换步骤具体为:
假设两个V类节点和同一个U类节点有联系,则两个V类节点之间存在一次连接关系,将所述二分网络中每对V类节点的连接关系叠加在一起,获得每对V类节点之间的叠加次数;总叠加次数为所述二分网络中全部V类节点之间的叠加次数之和;
将所述叠加次数除以所述总叠加次数得到每对V类节点之间的关系边的概率关系;
根据每对V类节点之间的关系边的概率关系构建出只包含V类节点的单类节点概率网络。
更具体地,每对V类节点之间的关系边的概率关系的计算公式如下:
Figure GDA0003085059980000061
其中,Va和Vb为两个V类节点,p(Va,Vb)为Va和Vb之间关系边的概率关系,Ui→Vj表示第i个U类节点和第j个V类节点之间存在关系边。
进一步地,单类节点聚簇步骤包括:
根据以下公式计算单类节点概率网络中每个V类节点的概率:
Figure GDA0003085059980000062
其中,Va为V类节点,p(Va,Vj)为节点Va和它的邻居节点Vj之间的关系边<Va,Vj>的概率。每个V类节点Va的概率是连接它的所有边的概率之和。
进一步地,单类节点聚簇步骤还包括:
根据以下公式计算单类节点概率网络中每条关系边的信息熵:
Figure GDA0003085059980000071
其中,H(Vi,Vj)为两个V类节点Vi和Vj之间关系边的信息熵。
进一步地,单类节点聚簇步骤具体为:
在单类节点概率网络中查找最大概率的节点作为原有节点;
在最大概率的节点的邻接节点中查找最大概率的关系边,并将通过最大概率的关系边与最大概率的节点连接的节点作为新节点;
如果新节点与原有节点组成的集合的熵增dH不小于集合的平均熵
Figure GDA0003085059980000073
则将新节点加入原有节点组成一个新的集合,否则不加入,本次查找结束,得到一个新的V类节点初始簇,且新的V类节点初始簇中的所有节点作为下一次查找的原有节点;
继续在剩余的节点中查找具有最大概率的节点,并执行上两个步骤;
重复上一步骤,直到没有剩余的V类节点;
过滤掉只含有一个V类节点的模块,得到最终的只含有V类节点的单类节点初始簇。
具体地,上述单类节点聚簇步骤中的查找算法是一个循环的过程:
首先,根据公式(2)获得的每个V类节点的概率,在通过网络转换步骤获得的单类节点概率网络中查找其中具有最大概率的节点作为初始节点;然后根据公式(1)获得的两个V类节点之间关系边的概率关系,在该初始节点的邻接点中查找具有最大概率的关系边,并将通过该最大概率的关系边与初始节点连接的节点作为新节点。新节点和初始节点组成一个新的集合,如果加入新节点后,集合的熵增dH不小于集合的平均熵
Figure GDA0003085059980000072
那么新节点加入,否则不加入。本次查找结束,得到了一个新的V类节点初始簇,该新的V类节点初始簇中包含初始节点和新节点,并将这些节点作为下一次查找的原有节点。
接下来,算法继续在单类节点概率网络的剩余的节点中查找具有最大概率的节点,在本次最大概率的节点的邻接点中查找具有最大概率的关系边,并将通过本次最大概率的关系边与本次最大概率的节点连接的节点作为新节点,并按照上一步中的规则将本次的新节点加入上一步得到的原有节点中,得到新的V类节点初始簇。
重复上一步骤,直到没有剩余的V类节点,就结束整个查找算法。
上述步骤中集合的熵增和平均熵由公式(3)~(6)确定。
进一步地,集合的熵增dH通过以下公式计算获得:
dH=H2-H1 (4)
其中,H2为加入新节点之后集合的熵,H1为加入新节点之前集合的熵;
集合的平均熵
Figure GDA0003085059980000081
的计算公式如下:
Figure GDA0003085059980000082
其中,|C|为集合内的节点个数,H为集合的熵,集合的熵H的计算公式如下:
Figure GDA0003085059980000083
进一步地,加入另一类节点和关系边步骤包括:
将同时与至少两个V类节点有连接关系的U类节点作为待加入U类节点;
根据二分网络关系,将待加入U类节点与单类节点初始簇进行合并,并加入用于表示两类节点之间连接关系的关系边,得到最终的模块。
根据本发明的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现上述方法的步骤。
根据本发明的另一方面,还提供了一种基于熵增的二分网络模块识别系统,包括:
网络转换单元,用于根据所述二分网络中两类节点间的概率关系,将所述二分网络转换为只包含其中一类节点的单类节点概率网络;
所述网络转换具体包括:假设两个第一类节点和同一个第二类节点有联系,则两个第一类节点之间存在一次连接关系,将第一类节点的连接关系叠加在一起,获得每对第一类节点之间的叠加次数以及全部第一类节点之间的叠加次数之和:总叠加次数;将叠加次数除以总叠加次数得到每对第一类节点之间的关系边的概率关系;根据所述概率关系构建出只包含第一类节点的单类节点概率网络;
单类节点聚簇单元,用于计算所述单类节点概率网络中每条关系边的信息熵以及每个第一类节点的概率,在单类节点概率网络中查找最大概率的节点作为原有节点;在最大概率的节点的邻接节点中查找最大概率的关系边,并将所述最大概率的关系边与所述最大概率的节点连接的节点作为新节点;如果所述新节点与所述原有节点组成的集合的熵增dH不小于集合的平均熵
Figure GDA0003085059980000084
则将新节点加入原有节点组成一个新的集合,否则不加入;查找结束,得到一个新的第一类节点初始簇;将所述新的第一类节点初始簇中的所有节点作为下一次查找的原有节点,继续在剩余的节点中查找具有最大概率的节点,并执行上述步骤,直到没有剩余的第一类节点;过滤掉只含有一个第一类节点的模块,得到最终的只含有第一类节点的单类节点初始簇;
加入另一类节点和关系边单元,用于根据所述二分网络关系,将第二类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇,得到最终的模块。
二、基于mRNA/miRNA节点的二分网络模块识别方法有效性验证
将本发明提出的方法在人工模拟数据集和卵巢癌数据集上进行了测试,分别从识别准确率和模块的利用价值方面进行验证。
1、人工模拟数据集上的实验
为了验证算法的性能,我们首先使用算法产生了100个随机miRNA调控网络数据。图3是两个随机网络的示意图。网络符合二分网络特征,被预先分为4个模块。每个随机网络均含有miRNA和mRNA两类节点,均为64个。每个节点平均度均为9。Zin是模块内部节点的连边数,Zout是模块和外部节点的连边数。外部连边数越多,识别难度越大,识别准确率越低。针对不同的Zout,我们比较了DMIE和FN、TGA算法的识别准确率。如表1所示,当1≤Zout≤7,识别准确率均值μTGA<μFN<μDMIE
表1模块识别准确率均值和方差
Figure GDA0003085059980000091
从图4中,我们也能看出DMIE比另外两种方法具有更高的识别准确率。当Zout<5时,它的识别准确率一般都高于95%。即使当Zout=7时,它也能达到40%。另一方面,模块准确率的方差σTGA>σFN>σDMIE。越小的方差,说明方法的性能越稳定。可见DMIE的识别性能方面要优于FN和TGA算法。
2、真实卵巢癌数据集的实验
为构建真实的卵巢癌数据集,我们从TCGA数据门户网站(http://cancergenome.nih.gov/)下载559个样本的miRNA和mRNA及其表达谱数据,从TargetScan中获取miRNA-mRNA调控关系数据。最终得到的数据集共有559个miRNA、12456个mRNA,16365条miRNA-mRNA作用边。
我们从所识别出的模块的结构特征、miRNA节点协同作用、模块和卵巢癌的关联、模块表达和患者生存率关系等方面,来验证本发明所识别出的模块的利用价值。
(1)模块的结构特征
本发明应用于卵巢癌数据集共计发现32个模块。每个模块均具有较好的拓扑结构,部分模块的拓扑结构如图5所示。模块的miRNA、mRNA和边的平均数分别为47.875、269.967、323.468。此外,我们也应用MiMEC指标来衡量模块内miRNA对mRNA的调控作用程度。MiMEC越大,调控作用越明显。图6展示了所发现模块的MiMEC表达值的累积概率分布情况及密度-MiMEC关系情况。从图中可以看出,本发明所识别的模块内部miRNA和mRNA之间联系较紧密,而且miRNA调控作用也很强烈。
(2)miRNA节点协同作用分析
研究表明,同一家族的miRNA倾向于形成模块来完成特定功能。所以我们可以应用miRNA簇富集分析来评价模块内miRNA类节点的协同程度。miRNA发夹序列的家族分类文件从miRBase网站(http://www.mirbase.org/)下载获得。算法对模块内的miRNA进行超几何分布计算和FDR校验(q值<0.05),得出至少富集一个miRNA家族的模块。本发明所识别出的32个模块中有17个模块富集了至少一个miRNA家族。部分模块miRNA家族富集情况如表2所示。
表2部分富集miRNA家族的模块
Figure GDA0003085059980000101
Figure GDA0003085059980000111
(3)模块和卵巢癌的关联情况分析
我们从HDMM和一些综述文章下载整理了和卵巢癌相关的miRNA,构建出miRNA标准数据集,一共含有102个miRNA。本发明检测出的模块含有标准集中全部miRNA。而且有24个模块至少含有两个和卵巢癌相关的miRNA,比例达到全部模块的75%。我们也从SemFunSim和基因癌症关联数据库DisGeNET下载了卵巢癌相关的mRNA。检测到的32个模块中,有8个模块含有癌症相关的mRNA。部分模块关联的结果如表3所示。
表3部分富集癌症相关miRNA和mRNA的模块
Figure GDA0003085059980000112
图7展示了全部32个模块和模块6在不同患者身上的表达情况。从两个热图结果可以看出在癌症患者和正常样本之间,所检测出的模块miRNA表达情况具有明显的区别。在临床中,通过检测这些模块的表达情况,可以为诊断提供参考。
(4)模块表达和患者存活关联分析
为了验证所识别模块的表达和患者存活的关联情况,我们从将TCGA临床数据根据患者的表达情况分为两组。高于平均miRNA表达水平的放入High-risk组,其余的放入Low-risk组。在每个模块上对患者进行Kaplan-Meier生存分析。从图8中两个模块情况可以看出,两个表达不同组的存活情况明显不同。具有高表达值的组面临较大的死亡风险。这进一步证明了本发明所识别模块的预后判断能力。
本发明提供了一种基于熵增的二分网络模块识别的有效方法。通过与现有方法的比较表明,本发明的DMIE方法不需要任何调优参数,模块识别准确率高,结果稳定,而且所发现的模块内聚性强,功能富集好,所识别的模块能为临床分析提供参考建议。此外,所提出的方法不仅限于本发明所实验的数据集,也可以作为一个计算框架来帮助研究人员分析其他复合网络,算法普适性好。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.一种基于mRNA/miRNA节点的二分网络模块识别方法,所述二分网络包含第一类节点以及第二类节点,且仅不同类的节点间存在关系边,其特征在于,包括以下步骤:
网络转换步骤:根据所述二分网络中两类节点间的概率关系,将所述二分网络转换为只包含其中一类节点的单类节点概率网络;
具体包括:假设两个第一类节点和同一个第二类节点有联系,则两个第一类节点之间存在一次连接关系,将第一类节点的连接关系叠加在一起,获得每对第一类节点之间的叠加次数以及全部第一类节点之间的叠加次数之和:总叠加次数;将叠加次数除以总叠加次数得到每对第一类节点之间的关系边的概率关系;根据所述概率关系构建出只包含第一类节点的单类节点概率网络;
单类节点聚簇步骤:计算所述单类节点概率网络中每条关系边的信息熵以及每个第一类节点的概率,在单类节点概率网络中查找最大概率的节点作为原有节点;在最大概率的节点的邻接节点中查找最大概率的关系边,并将所述最大概率的关系边与所述最大概率的节点连接的节点作为新节点;如果所述新节点与所述原有节点组成的集合的熵增dH不小于集合的平均熵
Figure FDA0003085059970000012
则将新节点加入原有节点组成一个新的集合,否则不加入;查找结束,得到一个新的第一类节点初始簇;将所述新的第一类节点初始簇中的所有节点作为下一次查找的原有节点,继续在剩余的节点中查找具有最大概率的节点,并执行上述步骤,直到没有剩余的第一类节点;过滤掉只含有一个第一类节点的模块,得到最终的只含有第一类节点的单类节点初始簇;
加入另一类节点和关系边步骤:根据所述二分网络关系,将第二类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇,得到最终的模块。
2.根据权利要求1所述的基于mRNA/miRNA节点的二分网络模块识别方法,其特征在于:所述二分网络表示为G=(U,V,E),其中E={<Ui,Vj>|Ui∈U,Vj∈V,i=1,2...M,j=1,2...N},U表示第一类节点的集合,V表示第二类节点的集合,E表示U类节点与V类节点之间关系边的集合,<Ui,Vj>表示第i个U类节点和第j个V类节点之间的关系边,M表示第一类节点的个数,N表示第二类节点的个数。
3.根据权利要求2所述的基于mRNA/miRNA节点的二分网络模块识别方法,其特征在于:所述每对V类节点之间的关系边的概率关系的计算公式如下:
Figure FDA0003085059970000011
其中,Va和Vb为两个V类节点,p(Va,Vb)为Va和Vb之间的关系边的概率关系,Ui→Vj表示第i个U类节点和第j个V类节点之间存在关系边。
4.根据权利要求2所述的基于mRNA/miRNA节点的二分网络模块识别方法,其特征在于:所述单类节点聚簇步骤包括:
根据以下公式计算所述单类节点概率网络中每个V类节点的概率:
Figure FDA0003085059970000021
其中,Va为V类节点,p(Va,Vj)为节点Va和它的邻居节点Vj之间的关系边<Va,Vj>的概率。
5.根据权利要求4所述的基于mRNA/miRNA节点的二分网络模块识别方法,其特征在于:所述单类节点聚簇步骤还包括:
根据以下公式计算所述单类节点概率网络中每条关系边的信息熵:
Figure FDA0003085059970000022
其中,H(Vi,Vj)为两个V类节点Vi和Vj之间关系边的信息熵。
6.根据权利要求5所述的基于mRNA/miRNA节点的二分网络模块识别方法,其特征在于:所述集合的熵增dH通过以下公式计算获得:
dH=H2-H1
其中,H2为加入新节点之后集合的熵,H1为加入新节点之前集合的熵;
所述集合的平均熵
Figure FDA0003085059970000023
的计算公式如下:
Figure FDA0003085059970000024
其中,|C|为集合内的节点个数,H为集合的熵,集合的熵H的计算公式如下:
Figure FDA0003085059970000025
7.根据权利要求6所述的基于mRNA/miRNA节点的二分网络模块识别方法,其特征在于:所述加入另一类节点和关系边步骤包括:
将同时与至少两个V类节点有连接关系的U类节点作为待加入U类节点;
根据所述二分网络关系,将所述待加入U类节点与所述单类节点初始簇进行合并,并加入用于表示两类节点之间连接关系的关系边,得到所述最终的模块。
8.一种基于mRNA/miRNA节点的二分网络模块识别系统,所述二分网络包含第一类节点以及第二类节点,其特征在于,包括:
网络转换单元,用于根据所述二分网络中两类节点间的概率关系,将所述二分网络转换为只包含其中一类节点的单类节点概率网络;
所述网络转换具体包括:假设两个第一类节点和同一个第二类节点有联系,则两个第一类节点之间存在一次连接关系,将第一类节点的连接关系叠加在一起,获得每对第一类节点之间的叠加次数以及全部第一类节点之间的叠加次数之和:总叠加次数;将叠加次数除以总叠加次数得到每对第一类节点之间的关系边的概率关系;根据所述概率关系构建出只包含第一类节点的单类节点概率网络;
单类节点聚簇单元,用于计算所述单类节点概率网络中每条关系边的信息熵以及每个第一类节点的概率,在单类节点概率网络中查找最大概率的节点作为原有节点;在最大概率的节点的邻接节点中查找最大概率的关系边,并将所述最大概率的关系边与所述最大概率的节点连接的节点作为新节点;如果所述新节点与所述原有节点组成的集合的熵增dH不小于集合的平均熵
Figure FDA0003085059970000031
则将新节点加入原有节点组成一个新的集合,否则不加入;查找结束,得到一个新的第一类节点初始簇;将所述新的第一类节点初始簇中的所有节点作为下一次查找的原有节点,继续在剩余的节点中查找具有最大概率的节点,并执行上述步骤,直到没有剩余的第一类节点;过滤掉只含有一个第一类节点的模块,得到最终的只含有第一类节点的单类节点初始簇;
加入另一类节点和关系边单元,用于根据所述二分网络关系,将第二类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇,得到最终的模块。
9.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,所述程序被处理器执行时实现权利要求1-7任一所述方法的步骤。
CN201810502255.6A 2018-05-23 2018-05-23 基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质 Active CN108768718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810502255.6A CN108768718B (zh) 2018-05-23 2018-05-23 基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810502255.6A CN108768718B (zh) 2018-05-23 2018-05-23 基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN108768718A CN108768718A (zh) 2018-11-06
CN108768718B true CN108768718B (zh) 2021-07-20

Family

ID=64005119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810502255.6A Active CN108768718B (zh) 2018-05-23 2018-05-23 基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN108768718B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8922559B2 (en) * 2010-03-26 2014-12-30 Microsoft Corporation Graph clustering
CN102289681B (zh) * 2011-08-05 2014-03-19 上海邮政科学研究院 一种信封图像匹配方法
US9195941B2 (en) * 2013-04-23 2015-11-24 International Business Machines Corporation Predictive and descriptive analysis on relations graphs with heterogeneous entities
CN106326345B (zh) * 2016-08-08 2019-11-01 浙江工业大学 一种基于用户行为的社交网络中朋友关系挖掘方法
CN106952167B (zh) * 2017-03-06 2021-04-06 浙江工业大学 一种基于多元线性回归的餐饮业好友连边影响力预测方法

Also Published As

Publication number Publication date
CN108768718A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
CN104102745B (zh) 基于局部最小边的复杂网络社团挖掘方法
CN105512242B (zh) 一种基于社会网络结构的并行推荐方法
CN103514381B (zh) 整合拓扑属性和功能的蛋白质生物网络模体识别方法
CN106485096B (zh) 基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法
Yan et al. Searching substructures with superimposed distance
CN107784327A (zh) 一种基于gn的个性化社区发现方法
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
CN111026877A (zh) 基于概率软逻辑的知识验证模型构建与分析方法
CN102819611B (zh) 一种复杂网络局部社区挖掘方法
CN112464107A (zh) 一种基于多标签传播的社交网络重叠社区发现方法及装置
CN112287118B (zh) 事件模式频繁子图挖掘与预测方法
CN108768718B (zh) 基于mRNA/miRNA节点的二分网络模块识别方法、系统及存储介质
CN105159918A (zh) 一种基于信任关联度的微博网络社区发现方法
Chen et al. Ranking algorithms on directed configuration networks
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
Zhou et al. A graph clustering algorithm using attraction-force similarity for community detection
CN115130044A (zh) 一种基于二阶h指数的影响力节点识别方法和系统
Ismail et al. Modularity approach for community detection in complex networks
CN107332687B (zh) 一种基于贝叶斯估计和共同邻居的链路预测方法
Chen et al. LSGNN: towards general graph neural network in node classification by local similarity
Fu et al. Threshold Random Walkers for Community Structure Detection in Complex Networks.
Long et al. Predicting drugs for COVID-19/SARS-CoV-2 via heterogeneous graph attention networks
Moussiades et al. Clustering dense graphs: A web site graph paradigm
Yang et al. An Information entropy-based method to detect microRNA regulatory module

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant