CN107679367B - 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 - Google Patents
一种基于网络节点关联度的共调控网络功能模块识别方法及系统 Download PDFInfo
- Publication number
- CN107679367B CN107679367B CN201710853536.1A CN201710853536A CN107679367B CN 107679367 B CN107679367 B CN 107679367B CN 201710853536 A CN201710853536 A CN 201710853536A CN 107679367 B CN107679367 B CN 107679367B
- Authority
- CN
- China
- Prior art keywords
- gene
- regulation
- network
- weighted
- regulation network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 201000010099 disease Diseases 0.000 claims abstract description 17
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 17
- 108090000623 proteins and genes Proteins 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 41
- 108091070501 miRNA Proteins 0.000 claims description 31
- 108091023040 Transcription factor Proteins 0.000 claims description 30
- 102000040945 Transcription factor Human genes 0.000 claims description 30
- 239000002679 microRNA Substances 0.000 claims description 29
- 101150025711 TF gene Proteins 0.000 claims description 18
- 238000012417 linear regression Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 230000001105 regulatory effect Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 5
- 230000008506 pathogenesis Effects 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 8
- 230000001186 cumulative effect Effects 0.000 description 6
- 206010028980 Neoplasm Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 238000010201 enrichment analysis Methods 0.000 description 4
- 108020004999 messenger RNA Proteins 0.000 description 4
- 230000037361 pathway Effects 0.000 description 4
- 230000006916 protein interaction Effects 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 230000008827 biological function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 102100026891 Cystatin-B Human genes 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 101000912191 Homo sapiens Cystatin-B Proteins 0.000 description 2
- 101000884770 Homo sapiens Cystatin-M Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 102100024153 Cadherin-15 Human genes 0.000 description 1
- 102100024423 Carbonic anhydrase 9 Human genes 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 102100021084 Forkhead box protein C1 Human genes 0.000 description 1
- 101000762242 Homo sapiens Cadherin-15 Proteins 0.000 description 1
- 101000714553 Homo sapiens Cadherin-3 Proteins 0.000 description 1
- 101000910338 Homo sapiens Carbonic anhydrase 9 Proteins 0.000 description 1
- 101000818310 Homo sapiens Forkhead box protein C1 Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 108010085220 Multiprotein Complexes Proteins 0.000 description 1
- 102000007474 Multiprotein Complexes Human genes 0.000 description 1
- 108700019146 Transgenes Proteins 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003181 biological factor Substances 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 208000022602 disease susceptibility Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 208000030683 polygenic disease Diseases 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000025366 tissue development Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于网络节点关联度的共调控网络功能模块识别方法。基于网络节点关联度的概念,将共调控网络中的关键调控子作为种子节点,并利用LASSO构建带权共调控网络,在该带权网络中识别共调控功能模块。本发明实现简单,只需根据表达谱数据和调控关系就能比较准确地识别出共调控网络中的功能模块,并且通过实验证明识别的功能模块具有很重要的生物意义,对于复杂疾病的致病机理研究具有重要的理论意义和实用价值。
Description
技术领域
本发明属于计算生物学领域,涉及网络节点关联度的共调控网络功能模块识别方法及系统。
背景技术
新一代高通量测序技术(High-throughput Sequencing Technology)的出现与广泛应用使得获取的生物数据快速增长,这些数据包括基因组、蛋白质组、核酸、DNA与RNA序列数据,与此同时一系列生物数据处理方法应运而生,对生物数据的分析挖掘日益成为生物信息学研究的重点。后基因组时代,基于全基因组关联研究(Genome-Wide AssociationStudies,GWAS)通过对复杂疾病的成套DNA全基因组测序,致力于发现疾病的基因变异和单核苷酸多态性,研究并确定疾病易感区域和相关基因,寻找疾病标记物并实现疾病的早期诊断和有效的个性化治疗,开发新的药物和采取特异性防治措施。此外,通过微阵列及各种序列技术获得的大量表达谱数据为分析比较不同样本中差异表达的基因提供了有利支撑。计算生物学方法从不同水平对各种生物因子进行深入研究,极大促进了对生物体的复杂疾病致病机理的理论认知。
分析由调控子、靶基因和蛋白质等生物分子形成的复杂生物网络,是生物信息学的一个重要研究内容。目前的生物网络有转录调控网络、miRNA调控网络、共调控网络和蛋白质相互作用网络等。生物网络是生物体内各种分子通过相互作用来完成各种生物功能的一个体系。该体系将基因、蛋白质、转录因子、非编码RNA等因子联系在一起,反映了生物体内的复杂结构。基于网络水平的研究,不仅有助于从整体上理解生物体内各种负责事件发生的内在关联和机制,并且能够加深对细胞生长、发育、凋亡、分化、信号传导和代谢调控等生命活动规律的认识,为生命科学的发展和复杂疾病深入分析提供理论依据。疾病是当今人类面临的健康难题之一。其中,复杂疾病(如癌症、糖尿病、心血管疾病等)严重危害着人类的健康和生命,因此,研究复杂疾病的致病机理具有重要的现实意义。复杂疾病又称多基因病,是指由多个基因位点共同参与,且和环境因素相互作用决定表型的遗传疾病。越来越多的实验证据证明复杂疾病的发生和发展不仅是由单个基因突变导致,而是众多基因通过蛋白质复合物,调控网络及以调控作用通路来控制。因此单纯从基因或蛋白质等某一个角度去研究难以全面了解复杂疾病的发生发展过程。
生物网络作为从系统层次上分析细胞行为及各分子功能的研究方法吸引了大量研究者的关注。对网络的拓扑结构和功能模块挖掘等方面的研究都取得了显著成果。共调控网络中包含两种调控子(miRNA和转录因子)和靶基因。其网络的边类型也多样,主要包含转录因子调控miRNA、转录因子调控靶基因、miRNA调控转录因子和靶基因的调控作用、靶基因之间的相互作用,这些调控作用体现了细胞分子生命过程和功能执行的各个阶段,所以共调控网络包含比单个网络更丰富的生物信息。功能模块作为细胞生物功能实现的主要载体,是生物网络水平的热点研究对象。由于共调控网络涉及的节点类型和边类型多样,目前缺乏有效的方法识别共调控网络中的功能模块。
因此,有必要设计一种基于网络节点关联度的共调控网络功能模块识别方法。
发明内容
本发明所要解决的技术问题是提供一种基于网络节点关联度的共调控网络功能模块识别方法及系统。该方法基于共调控网络节点关联度,只需根据表达谱数据和调控关系数据就能比较准确地识别共调控网络中具有生物意义的功能模块。
发明的技术解决方案如下:
一种基于网络节点关联度的共调控网络功能模块识别方法,包括以下步骤:
步骤1)构建带权共调控网络:
利用调控子miRNA、转录因子和靶基因的表达谱数据以及miRNA、转录因子对靶基因的调控关系数据构建共调控网络,使用多元线性回归模型对构建的共调控网络的调控边进行加权,得到带权共调控网络;
所述共调控网络中包含三种节点:调控子miRNA和转录因子、靶基因,节点之间存在作用边:miRNA-gene、TF-gene和gene-gene;
步骤2)采用线性预测模型识别步骤1中带权共调控网络中的关键调控子;
步骤3)在已构建的带权共调控网络中,将步骤2)中得到的关键调控子作为种子节点,以带权共调控网络中候选功能模块的节点关联度作为目标函数,进行种子节点的邻居节点扩充,以扩充后的功能模块作为识别的功能模块;
所述候选功能模块是指以种子节点形成的功能模块。
进一步地,采用LASSO多元线性回归对构建的共调控网络的调控边进行加权,带权共调控网络的调控边权值xi,t由下式计算:
xi,t=wi,0+∑kwi,k(zk,tci,k)s.t.∑k|wi,k|≤λ
其中,wi,0和ci,k分别表示截断值、调控子k在靶基因i上具有的调控位点个数;t为表达谱数据匹配的样本,t∈{1,...,T},T为样本总数;zk,t表示调控子k在样本t中的表达水平值,k∈{1,..,M},M为调控子总数;λ表示回归系数wi,k满足的条件,经十折交叉验证确定。
故仅当ci,k的值大于0时,调控子k才对基因i具有调控作用。经十折交叉验证后,设置λ为最小平方误差时的取值。在LASSO模型中,保留绝对值不为0的回归系数{wi,k|wi,k≠0},并将其作为调控边的边权值。
进一步地,所述带权共调控网络中候选功能模块的节点关联度Perm(v)由下式计算:
其中,E表示带权共调控网络中边的集合,e∈E;emg、etg和egg分别表示miRNA-gene、TF-gene和gene-gene三种类型边,W(emg)、W(etg)、W(egg)分别表示节点v所在的候选功能模块中三种类型边的权重和,α和β分别表示miRNA-gene和TF-gene调控边的权重系数;Emax(v)表示节点v与某邻居候选功能模块的最大连接数,D(v)表示节点v涉及边的权重和,Cin(v)表示节点v的内部聚集系数。
由此可见,节点的关联度由两部分组成:第一部分由两个分式相乘,考虑到了模块内节点的边类型及权重,以及边界边,着重考察节点v归属内部模块的程度;第二部分,为节点v的内部聚集系数,着重考察其邻居节点也归属于模块的程度,该标准强调了属于模块的节点会更加具有近似团结构。
进一步地,所述采用线预测性模型识别共调控网络中的关键调控子的过程如下:
基于目标基因预测表达值和真实值之间的差异最小化原则,构建关键调控子的线性预测模型,采用Gurobi优化器对所述线性预测模型对应的最优化问题进行求解,记录每个调控子在求解优化问题过程中被优化器选择的次数,根据选择次数对所有调控子进行排名,取排名前50的调控子作为最终的候选调控子;
所述线性预测模型如下:
一种基于网络节点关联度的共调控网络功能模块识别系统,包括:
带权共调控网络构建单元:利用调控子miRNA、转录因子和靶基因的表达谱数据以及miRNA、转录因子对靶基因的调控关系数据构建共调控网络,使用多元线性回归模型对构建的共调控网络的调控边进行加权,得到带权共调控网络;
所述共调控网络中包含三种节点:调控子miRNA和转录因子、靶基因,节点之间存在作用边:miRNA-gene、TF-gene和gene-gene;
关键调控子识别单元:采用线性模型识别带权共调控网络中的关键调控子;
候选功能模块构建单元:在已构建的带权共调控网络中,将关键调控子作为种子节点,以种子节点构建候选功能模块。
功能模块识别单元:以带权共调控网络中候选功能模块的节点关联度作为目标函数,进行种子节点的邻居节点扩充,以扩充后的候选功能模块作为识别的功能模块。
进一步地,采用LASSO多元线性回归对构建的共调控网络的调控边进行加权。
进一步地,所述带权共调控网络中候选功能模块的节点关联度Perm(v)通过节点关联度计算单元计算获得;
所述节点关联度计算单元按照以下公式计算:
其中,E表示带权共调控网络中边的集合,e∈E;emg、etg和egg分别表示miRNA-gene、TF-gene和gene-gene三种类型边,W(emg)、W(etg)、W(egg)分别表示节点v所在的候选功能模块中三种类型边的权重和,α和β分别表示miRNA-gene和TF-gene调控边的权重系数;Emax(v)表示节点v与某邻居候选功能模块的最大连接数,D(v)表示节点v涉及边的权重和,Cin(v)表示节点v的内部聚集系数。
进一步地,采用线性预测模型识别共调控网络中的关键调控子的过程如下:
基于目标基因预测表达值和真实值之间的差异最小化原则,构建关键调控子的线性预测模型,采用Gurobi优化器对所述线性预测模型对应的最优化问题进行求解,记录每个调控子在求解优化问题过程中被优化器选择的次数,根据选择次数对所有调控子进行排名,取排名前50的调控子作为最终的候选调控子;
所述线性预测模型如下:
有益效果
本发明提供了一种基于网络节点关联度的共调控网络功能模块识别方法(NPWCN)及系统,该方法考虑共调控网络中的不同节点类型和边类型,赋予其不同的权重,采用网络节点关联度概念有效评估节点的模块属性,并利用线性模型识别的关键调控子作为初始扩充种子节点,能有效识别稀疏共调控网络中密度较大,生物意义显著的共调控功能模块。该识别系统,结构简单,操作简便;
与已有共调控网络中功能模块识别方法相比,本发明所述的NPWCN方法具有以下优势:
1)提出共调控网络中的网络节点关联度概念,并应用于共调控网络中的功能模块识别;
2)识别共调控网络的关键调控子,并将其作为初始种子节点,应用于带权共调控网络中功能模块识别;
本发明实现简单,只需根据表达谱数据、基因调控关系以及蛋白质相互作用数据就能比较准确地识别共调控网络中的关键调控子。实验验证,本发明所述的方法NPWCN能有效的识别共调控网络中生物意义显著的功能模块。同时,通过对比其他方法,功能模块的密度显著提高,具体实验结果图对比和分析详见实施例。
附图说明
图1是本发明NPWCN的具体示意图;
图2是密度累计分布函数(CDF)图;
图3是表达相关系数累计分布函数(CDF)图;
图4是GOES累计概率分布情况图;
图5是KEGGES累计概率分布情况图。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明。
实施例1:
一、基于网络节点关联度的共调控网络功能模块识别方法
本发明将共调控网络中的功能模块定义为:利用表达谱数据、基因调控关系和蛋白质相互数据,基于共调控网络的节点关联度提出启发式方法,从而识别出的在共调控网络中包含三类节点类型的子图。
为了清晰描述基于网络节点关联度的共调控网络功能模块识别方法模型,发明人将该模型的相关定义如下:
提出的带权共调控网络中的节点关联度,其计算形式如下:
其中,E表示带权共调控网络中边的集合,e∈E;emg、etg和egg分别表示miRNA-gene、TF-gene和gene-gene三种边类型,W(emg)、W(etg)、W(egg)分别表示节点v所在模块中三种类型边的权重和,α和β分别表示miRNA-gene和TF-gene调控边所占权重系数;Emax(v)Emax(v)表示节点v与某邻居模块的最大连接数,D(v)表示节点v涉及边的权重和,Cin(v)表示节点v的内部聚集系数。
基于网络节点关联度的共调控网络功能模块识别方法的具体步骤如图1所示。首先输入表达谱数据、基因调控关系和蛋白质相互作用数据。方法NPWCN可以划分为3个子过程:
步骤1)构建带权共调控网络:
输入miRNA、转录因子和靶基因的表达谱数据以及miRNA、转录因子对靶基因的调控关系数据,使用多元线性回归模型对共调控网络的调控边进行加权,共调控网络中共包含三种节点:调控子miRNA和转录因子、靶基因,节点之间存在作用边:miRNA-gene、TF-gene和gene-gene;
步骤2)采用线性预测模型识别带权共调控网络中的关键调控子;
步骤3)在已构建的带权共调控网络中,将步骤2)中得到的关键调控子作为种子节点,以网络中候选功能模块的节点关联度作为目标函数,进行种子节点的邻居节点扩充,最后得到的功能模块作为识别的功能模块。
一种基于网络节点关联度的共调控网络功能模块识别系统,包括:
带权共调控网络构建单元:利用调控子miRNA、转录因子和靶基因的表达谱数据以及miRNA、转录因子对靶基因的调控关系数据构建共调控网络,使用多元线性回归模型对构建的共调控网络的调控边进行加权,得到带权共调控网络;
所述共调控网络中包含三种节点:调控子miRNA和转录因子、靶基因,节点之间存在作用边:miRNA-gene、TF-gene和gene-gene;
关键调控子识别单元:采用线性模型识别带权共调控网络中的关键调控子;
候选功能模块构建单元:在已构建的带权共调控网络中,将关键调控子作为种子节点,以种子节点构建候选功能模块。
功能模块识别单元:以带权共调控网络中候选功能模块的节点关联度作为目标函数,进行种子节点的邻居节点扩充,以扩充后的候选功能模块作为识别的功能模块。
二、基于网络节点关联度的共调控网络功能模块识别方法有效性验证
为了验证方法NPWCN的有效性,将NPWCN方法应用于一组乳腺癌数据集上。表达谱数据下载自,使用R语言包limma对表达谱数据进行差异表达分析,提取癌症样本与正常样本显著差异表达(p-value<0.05)的miRNAs和mRNAs。经过过滤,得到311个miRNAs、3789个mRNAs和81个转录因子在813个相同癌症样本中的表达谱数据。从BioGrid数据库下载了蛋白质相互作用网络数据,分别从TargetScan和ENCODE项目中获取miRNA-gene和TF-gene调控关系。经过与表达谱中的miRNA及mRNA进行匹配,保留两个数据集共同出现的miRNA和mRNA。经匹配,最终得到21483条gene-gene相互作用边,57582条miRNA-gene调控关系,7995条TF-gene调控关系。数据集共有392个调控子(311个miRNA、81个转因子)。
在本实例中,将方法NPWCN与SNCoNMF方法和SNMNMF在功能模块密度方面进行了对比,在不失功能富集得分的前提下,密度越大,功能联系越紧密。同时,引用表达相关系数(MiMEC和TfMEC)来计算NPWCN方法识别的功能模块中调控子与靶基因的表达相关性,进而表明NPWCN方法识别的功能模块中调控子与靶基因功能联系紧密。同时,在本实例中,还对NPWCN方法所识别出的功能模块进行了特性及功能富集分析。
1.实验结果分析,验证算法有效性
表1:线性模型识别的关键调控子
在NPWCN方法的第二步,通过线性模型共识别有效关键调控子42个(5个转录因子、37个miRNA)。实验中,以这42个关键调控子作为种子节点,将其初始化为单个功能模块,并在此基础上进行邻居结点扩展。
2.方法NPWCN与SNCoNMF、SNMNMF方法实验对比,验证算法有效性
表2给出方法NPWCN和其他两种方法识别功能模块的网络拓扑特征。方法NPWCN共识别了35个功能模块(剔除了不含三种类型节点的功能模块),在三种方法中数量最多,这与该方法第二步选择的关键调控子作为种子节点有关,而其他两种方法需要事先设定识别功能模块的个数。NPWCN方法平均每个功能模块评价含有6.1个miRNA,1.3个转录因子和18.35个基因,其识别的功能模块中miRNA个数是三种方法中最多的,但是功能模块中的基因个数却最少,这说明当以关键调控子作为种子节点进行扩充时,会对功能模块的基因集扩展造成一定影响。
表2 NPWCN方法的模块特征结果
同时,方法NPWCN识别的功能模块平均密度为0.076,远大于另外两种算法,这说明方法NPWCN从网络拓扑角度考虑出发,结合表达谱数据识别较稠密功能模块的思路行之有效,能够识别生物意义显著的紧密功能模块。此外,方法NPWCN识别的功能模块的平均表达系数MiMEC和TfMEC分别为0.0672和0.122,两者的性能均不及方法SNCoNMF,但是比SNMNMF方法的值高。
图2和图3给出了调控子和目标基因的相关表达系数累计分布情况。方法NPWCN在MiMEC和TfMEC的值分别为0.0672和0.122,大于方法SNMNMF的0.0119和0.0,略小于方法SNCoNMF的0.0975和0.211。由于SNMNMF对转录因子的简化处理,使之不能有效识别包含转录因子的共调控模块,其转录因子与基因的表达相关系数为0。方法NPWCN在第二阶段通过线性模型识别关键调控子,并将其作为种子节点进行扩充,最后保留的功能模块均包含miRNA和转录因子,故其MiMEC和TfMEC水平处于三种方法居中。
3.实验结果功能富集分析,验证结果的有效性
为了验证本发明中的NPWCN方法所识别的功能模块是具有生物意义的,在本次实例中,分别使用R语言的GOstats对所识别的功能模块进行了GO富集分析。富集分析结果显示,方法NPWCN识别的35个功能模块均富集了至少1个及以上BP术语,只有3个模块没有富集一条调控通路。同时,统计了每个功能模块富集BP的基因个数,有45%(15/35)的模块排名前3的BP术语中,都至少包含了5个以上的基因。以模块5为例,排名前3的BP术语分别为:GO:0060429、GO:0009888和GO:0052548,均与上皮组织发育这一生物功能相关。此外,基因CA9和CST6均出现在这3个GO术语富集的基因集中。使用类似的方法计算调控通路的富集水平,35个功能模块的基因集共富集了96个调控通路,其中有24%(23/96)的功能模块含有3个以上的基因。以模块5为例,CA9、CDH3、CST6和FOXC1均显著富集了与癌症相关的通路。
进一步地,分别计算每个功能模块的GOES和KEGGES,并统计了其累计分布函数,如图4、图5。结果显示,方法NPWCN的平均GOES和KEGGES分别为2.2315、1.6385。方法NPWCN因为识别功能模块的基因模块规模相对较小,所以在指标GOES和KEGGES上不如另外两种方法SNCoNMF和SNMNMF,但总体水平相差不大。综合来说,方法NPWCN能识别有生物意义的功能模块,且识别的功能模块密度较为稠密,功能相关性较强。
本发明的实施方式并不限于以上两例,本领域的技术人员应当理解,在不脱离本发明精神的情况下,可以对本文的实施例进行改变。上述实施例只是示例性的,不应以本文的实施例作为本发明权利范围的限定。
Claims (6)
1.一种基于网络节点关联度的共调控网络功能模块识别方法,其特征在于,包括以下步骤:
步骤1)构建带权共调控网络:
利用调控子miRNA、转录因子和靶基因的表达谱数据以及miRNA、转录因子对靶基因的调控关系数据构建共调控网络,使用多元线性回归模型对构建的共调控网络的调控边进行加权,得到带权共调控网络;
所述共调控网络中包含三种节点:调控子miRNA和转录因子、靶基因,节点之间存在作用边:miRNA-gene、TF-gene和gene-gene;
步骤2)采用线性预测模型识别步骤1中带权共调控网络中的关键调控子;
步骤3)在已构建的带权共调控网络中,将步骤2)中得到的关键调控子作为种子节点,以带权共调控网络中候选功能模块的节点关联度作为目标函数,进行种子节点的邻居节点扩充,以扩充后的候选功能模块作为识别的功能模块;
所述候选功能模块是指以种子节点形成的功能模块;
所述带权共调控网络中候选功能模块的节点关联度Perm(v)由下式计算:
其中,E表示带权共调控网络中边的集合,e∈E;emg、etg和egg分别表示miRNA-gene、TF-gene和gene-gene三种类型边,W(emg)、W(etg)、W(egg)分别表示节点v所在的候选功能模块中三种类型边的权重和,α和β分别表示miRNA-gene和TF-gene调控边的权重系数;Emax(v)表示节点v与某邻居候选功能模块的最大连接数,D(v)表示节点v涉及边的权重和,Cin(v)表示节点v的内部聚集系数。
2.根据权利要求1所述的方法,其特征在于,采用LASSO多元线性回归对构建的共调控网络的调控边进行加权,带权共调控网络的调控边权值xi,t由下式计算:
xi,t=wi,0+∑kwi,k(zk,tci,k)s.t.∑k|wi,k|≤λ
其中,wi,0和ci,k分别表示截断值、调控子k在靶基因i上具有的调控位点个数;t为表达谱数据匹配的样本,t∈{1,...,T},T为样本总数;zk,t表示调控子k在样本t中的表达水平值,k∈{1,..,M},M为调控子总数;λ表示回归系数wi,k满足的条件,经十折交叉验证确定。
4.一种基于网络节点关联度的共调控网络功能模块识别系统,其特征在于,包括:
带权共调控网络构建单元:利用调控子miRNA、转录因子和靶基因的表达谱数据以及miRNA、转录因子对靶基因的调控关系数据构建共调控网络,使用多元线性回归模型对构建的共调控网络的调控边进行加权,得到带权共调控网络;
所述共调控网络中包含三种节点:调控子miRNA和转录因子、靶基因,节点之间存在作用边:miRNA-gene、TF-gene和gene-gene;
关键调控子识别单元:采用线性模型识别带权共调控网络中的关键调控子;
候选功能模块构建单元:在已构建的带权共调控网络中,将关键调控子作为种子节点,以种子节点构建候选功能模块;
功能模块识别单元:以带权共调控网络中候选功能模块的节点关联度作为目标函数,进行种子节点的邻居节点扩充,以扩充后的候选功能模块作为识别的功能模块;
所述带权共调控网络中候选功能模块的节点关联度Perm(v)通过节点关联度计算单元计算获得;
所述节点关联度计算单元按照以下公式计算:
其中,E表示带权共调控网络中边的集合,e∈E;emg、etg和egg分别表示miRNA-gene、TF-gene和gene-gene三种类型边,W(emg)、W(etg)、W(egg)分别表示节点v所在的候选功能模块中三种类型边的权重和,α和β分别表示miRNA-gene和TF-gene调控边的权重系数;Emax(v)表示节点v与某邻居候选功能模块的最大连接数,D(v)表示节点v涉及边的权重和,Cin(v)表示节点v的内部聚集系数。
5.根据权利要求4所述的系统,其特征在于,采用LASSO多元线性回归对构建的共调控网络的调控边进行加权。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710853536.1A CN107679367B (zh) | 2017-09-20 | 2017-09-20 | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710853536.1A CN107679367B (zh) | 2017-09-20 | 2017-09-20 | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679367A CN107679367A (zh) | 2018-02-09 |
CN107679367B true CN107679367B (zh) | 2020-02-21 |
Family
ID=61137385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710853536.1A Active CN107679367B (zh) | 2017-09-20 | 2017-09-20 | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679367B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710783A (zh) * | 2018-05-23 | 2018-10-26 | 湖南女子学院 | 一种基于结点关系对的复合功能模块识别方法及系统 |
CN109616152B (zh) * | 2018-12-06 | 2020-01-03 | 中国人民解放军军事科学院军事医学研究院 | 癌症特异的共调网络建立方法及装置 |
CN110491442B (zh) * | 2019-08-15 | 2021-06-04 | 电子科技大学 | 单细胞miRNA调控网络的识别方法、装置、设备及存储介质 |
CN111091866B (zh) * | 2019-11-21 | 2022-03-15 | 西安理工大学 | 鉴定长链非编码核糖核酸-转录因子-基因调控模体的方法 |
CN113838527B (zh) * | 2021-09-26 | 2023-09-01 | 平安科技(深圳)有限公司 | 一种靶基因预测模型的生成方法及装置、存储介质 |
CN113921084B (zh) * | 2021-12-13 | 2022-03-08 | 山东大学齐鲁医院 | 疾病相关非编码rna调控轴多维靶向预测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874704A (zh) * | 2017-01-04 | 2017-06-20 | 湖南大学 | 一种基于线性模型的基因共调控网络中关键调控子识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318878B2 (en) * | 2014-03-19 | 2019-06-11 | Numenta, Inc. | Temporal processing scheme and sensorimotor information processing |
-
2017
- 2017-09-20 CN CN201710853536.1A patent/CN107679367B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874704A (zh) * | 2017-01-04 | 2017-06-20 | 湖南大学 | 一种基于线性模型的基因共调控网络中关键调控子识别方法 |
Non-Patent Citations (2)
Title |
---|
On the Permanence of Vertices in Network Communities;Tanmoy Chakraborty et.al;《arXiv:1406.2426v1 [physics.soc-ph]》;20140630;第1-10页 * |
基于个体稳定度博弈的动态社区发现算法研究;许宇光 等;《电子与信息学报》;20170430;第39卷(第4期);第763-769页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107679367A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679367B (zh) | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 | |
Wang et al. | LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization | |
CN114927162A (zh) | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 | |
CN111933212A (zh) | 一种基于机器学习的临床组学数据处理方法及装置 | |
CN105808976A (zh) | 一种基于推荐模型的miRNA靶基因预测方法 | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
Shommo et al. | A holistic miRNA-mRNA module discovery | |
CN116631496A (zh) | 一种基于多层异构图的miRNA靶标预测方法及系统和应用 | |
JP2004355174A (ja) | データ解析方法及びそのシステム | |
Gong et al. | Interpretable single-cell transcription factor prediction based on deep learning with attention mechanism | |
Joehanes | Network analysis of gene expression | |
CN109256215B (zh) | 一种基于自回避随机游走的疾病关联miRNA预测方法及系统 | |
CN107038350B (zh) | 一种药物的长非编码rna靶点预测方法和系统 | |
CN113921085B (zh) | 非编码rna基因协同调控作用的预测方法 | |
Manners et al. | Computational methods for detecting functional modules from gene regulatory network | |
CN118522345B (zh) | 一种基于基因池在gwas数据上检测snp组合的方法 | |
CN114512188B (zh) | 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 | |
Li | Prediction and Inference for High-Dimensional Genetic Data | |
Eraslan | Enriching the characterization of complex clinical and molecular phenotypes with deep learning | |
Choobdar et al. | Discovering weighted motifs in gene co-expression networks | |
Sun | Novel statistical methods in analyzing single cell sequencing data | |
Ma | Differential Expression and Feature Selection in the Analysis of Multiple Omics Studies | |
Kariotis | Unsupervised machine learning of high dimensional data for patient stratification | |
Ranasinghe | Categorizing high dimensional unlabelled genomic data | |
Lu et al. | Identifying Rarely Mutated Cancer Genes by Heterogeneous Network Embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |