CN107679367B

CN107679367B - 一种基于网络节点关联度的共调控网络功能模块识别方法及系统

Info

Publication number: CN107679367B
Application number: CN201710853536.1A
Authority: CN
Inventors: 骆嘉伟; 向根; 晏峻峰; 王伟胜; 刘东波; 刘青平
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2020-02-21
Anticipated expiration: 2037-09-20
Also published as: CN107679367A

Abstract

本发明公开了一种基于网络节点关联度的共调控网络功能模块识别方法。基于网络节点关联度的概念，将共调控网络中的关键调控子作为种子节点，并利用LASSO构建带权共调控网络，在该带权网络中识别共调控功能模块。本发明实现简单，只需根据表达谱数据和调控关系就能比较准确地识别出共调控网络中的功能模块，并且通过实验证明识别的功能模块具有很重要的生物意义，对于复杂疾病的致病机理研究具有重要的理论意义和实用价值。

Description

一种基于网络节点关联度的共调控网络功能模块识别方法及系统

技术领域

本发明属于计算生物学领域，涉及网络节点关联度的共调控网络功能模块识别方法及系统。

背景技术

新一代高通量测序技术(High-throughput Sequencing Technology)的出现与广泛应用使得获取的生物数据快速增长，这些数据包括基因组、蛋白质组、核酸、DNA与RNA序列数据，与此同时一系列生物数据处理方法应运而生，对生物数据的分析挖掘日益成为生物信息学研究的重点。后基因组时代，基于全基因组关联研究(Genome-Wide AssociationStudies，GWAS)通过对复杂疾病的成套DNA全基因组测序，致力于发现疾病的基因变异和单核苷酸多态性，研究并确定疾病易感区域和相关基因，寻找疾病标记物并实现疾病的早期诊断和有效的个性化治疗，开发新的药物和采取特异性防治措施。此外，通过微阵列及各种序列技术获得的大量表达谱数据为分析比较不同样本中差异表达的基因提供了有利支撑。计算生物学方法从不同水平对各种生物因子进行深入研究，极大促进了对生物体的复杂疾病致病机理的理论认知。

分析由调控子、靶基因和蛋白质等生物分子形成的复杂生物网络，是生物信息学的一个重要研究内容。目前的生物网络有转录调控网络、miRNA调控网络、共调控网络和蛋白质相互作用网络等。生物网络是生物体内各种分子通过相互作用来完成各种生物功能的一个体系。该体系将基因、蛋白质、转录因子、非编码RNA等因子联系在一起，反映了生物体内的复杂结构。基于网络水平的研究，不仅有助于从整体上理解生物体内各种负责事件发生的内在关联和机制，并且能够加深对细胞生长、发育、凋亡、分化、信号传导和代谢调控等生命活动规律的认识，为生命科学的发展和复杂疾病深入分析提供理论依据。疾病是当今人类面临的健康难题之一。其中，复杂疾病(如癌症、糖尿病、心血管疾病等)严重危害着人类的健康和生命，因此，研究复杂疾病的致病机理具有重要的现实意义。复杂疾病又称多基因病，是指由多个基因位点共同参与，且和环境因素相互作用决定表型的遗传疾病。越来越多的实验证据证明复杂疾病的发生和发展不仅是由单个基因突变导致，而是众多基因通过蛋白质复合物，调控网络及以调控作用通路来控制。因此单纯从基因或蛋白质等某一个角度去研究难以全面了解复杂疾病的发生发展过程。

生物网络作为从系统层次上分析细胞行为及各分子功能的研究方法吸引了大量研究者的关注。对网络的拓扑结构和功能模块挖掘等方面的研究都取得了显著成果。共调控网络中包含两种调控子(miRNA和转录因子)和靶基因。其网络的边类型也多样，主要包含转录因子调控miRNA、转录因子调控靶基因、miRNA调控转录因子和靶基因的调控作用、靶基因之间的相互作用，这些调控作用体现了细胞分子生命过程和功能执行的各个阶段，所以共调控网络包含比单个网络更丰富的生物信息。功能模块作为细胞生物功能实现的主要载体，是生物网络水平的热点研究对象。由于共调控网络涉及的节点类型和边类型多样，目前缺乏有效的方法识别共调控网络中的功能模块。

因此，有必要设计一种基于网络节点关联度的共调控网络功能模块识别方法。

发明内容

本发明所要解决的技术问题是提供一种基于网络节点关联度的共调控网络功能模块识别方法及系统。该方法基于共调控网络节点关联度，只需根据表达谱数据和调控关系数据就能比较准确地识别共调控网络中具有生物意义的功能模块。

发明的技术解决方案如下：

一种基于网络节点关联度的共调控网络功能模块识别方法，包括以下步骤：

步骤1)构建带权共调控网络：

利用调控子miRNA、转录因子和靶基因的表达谱数据以及miRNA、转录因子对靶基因的调控关系数据构建共调控网络，使用多元线性回归模型对构建的共调控网络的调控边进行加权，得到带权共调控网络；

所述共调控网络中包含三种节点：调控子miRNA和转录因子、靶基因，节点之间存在作用边：miRNA-gene、TF-gene和gene-gene；

步骤2)采用线性预测模型识别步骤1中带权共调控网络中的关键调控子；

步骤3)在已构建的带权共调控网络中，将步骤2)中得到的关键调控子作为种子节点，以带权共调控网络中候选功能模块的节点关联度作为目标函数，进行种子节点的邻居节点扩充，以扩充后的功能模块作为识别的功能模块；

所述候选功能模块是指以种子节点形成的功能模块。

进一步地，采用LASSO多元线性回归对构建的共调控网络的调控边进行加权，带权共调控网络的调控边权值x_i,t由下式计算：

x_i,t＝w_i,0+∑_kw_i,k(z_k,tc_i,k)s.t.∑_k|w_i,k|≤λ

其中，w_i,0和c_i,k分别表示截断值、调控子k在靶基因i上具有的调控位点个数；t为表达谱数据匹配的样本，t∈{1,...,T}，T为样本总数；z_k,t表示调控子k在样本t中的表达水平值，k∈{1,..,M}，M为调控子总数；λ表示回归系数w_i,k满足的条件，经十折交叉验证确定。

故仅当c_i,k的值大于0时，调控子k才对基因i具有调控作用。经十折交叉验证后，设置λ为最小平方误差时的取值。在LASSO模型中，保留绝对值不为0的回归系数{w_i,k|w_i,k≠0}，并将其作为调控边的边权值。

进一步地，所述带权共调控网络中候选功能模块的节点关联度Perm(v)由下式计算：

其中，E表示带权共调控网络中边的集合，e∈E；e_mg、e_tg和e_gg分别表示miRNA-gene、TF-gene和gene-gene三种类型边，W(e_mg)、W(e_tg)、W(e_gg)分别表示节点v所在的候选功能模块中三种类型边的权重和，α和β分别表示miRNA-gene和TF-gene调控边的权重系数；E_max(v)表示节点v与某邻居候选功能模块的最大连接数，D(v)表示节点v涉及边的权重和，C_in(v)表示节点v的内部聚集系数。

由此可见，节点的关联度由两部分组成：第一部分由两个分式相乘，考虑到了模块内节点的边类型及权重，以及边界边，着重考察节点v归属内部模块的程度；第二部分，为节点v的内部聚集系数，着重考察其邻居节点也归属于模块的程度，该标准强调了属于模块的节点会更加具有近似团结构。

进一步地，所述采用线预测性模型识别共调控网络中的关键调控子的过程如下：

基于目标基因预测表达值和真实值之间的差异最小化原则，构建关键调控子的线性预测模型，采用Gurobi优化器对所述线性预测模型对应的最优化问题进行求解，记录每个调控子在求解优化问题过程中被优化器选择的次数，根据选择次数对所有调控子进行排名，取排名前50的调控子作为最终的候选调控子；

所述线性预测模型如下：

其中，

分别表示疾病基因j在样本k中真实表达值和预测表达值。

一种基于网络节点关联度的共调控网络功能模块识别系统，包括：

带权共调控网络构建单元：利用调控子miRNA、转录因子和靶基因的表达谱数据以及miRNA、转录因子对靶基因的调控关系数据构建共调控网络，使用多元线性回归模型对构建的共调控网络的调控边进行加权，得到带权共调控网络；

关键调控子识别单元：采用线性模型识别带权共调控网络中的关键调控子；

候选功能模块构建单元：在已构建的带权共调控网络中，将关键调控子作为种子节点，以种子节点构建候选功能模块。

功能模块识别单元：以带权共调控网络中候选功能模块的节点关联度作为目标函数，进行种子节点的邻居节点扩充，以扩充后的候选功能模块作为识别的功能模块。

进一步地，采用LASSO多元线性回归对构建的共调控网络的调控边进行加权。

进一步地，所述带权共调控网络中候选功能模块的节点关联度Perm(v)通过节点关联度计算单元计算获得；

所述节点关联度计算单元按照以下公式计算：

进一步地，采用线性预测模型识别共调控网络中的关键调控子的过程如下：

所述线性预测模型如下：

其中，

分别表示疾病基因j在样本k中真实表达值和预测表达值。

有益效果

本发明提供了一种基于网络节点关联度的共调控网络功能模块识别方法(NPWCN)及系统，该方法考虑共调控网络中的不同节点类型和边类型，赋予其不同的权重，采用网络节点关联度概念有效评估节点的模块属性，并利用线性模型识别的关键调控子作为初始扩充种子节点，能有效识别稀疏共调控网络中密度较大，生物意义显著的共调控功能模块。该识别系统，结构简单，操作简便；

与已有共调控网络中功能模块识别方法相比，本发明所述的NPWCN方法具有以下优势：

1)提出共调控网络中的网络节点关联度概念，并应用于共调控网络中的功能模块识别；

2)识别共调控网络的关键调控子，并将其作为初始种子节点，应用于带权共调控网络中功能模块识别；

本发明实现简单，只需根据表达谱数据、基因调控关系以及蛋白质相互作用数据就能比较准确地识别共调控网络中的关键调控子。实验验证，本发明所述的方法NPWCN能有效的识别共调控网络中生物意义显著的功能模块。同时，通过对比其他方法，功能模块的密度显著提高，具体实验结果图对比和分析详见实施例。

附图说明

图1是本发明NPWCN的具体示意图；

图2是密度累计分布函数(CDF)图；

图3是表达相关系数累计分布函数(CDF)图；

图4是GOES累计概率分布情况图；

图5是KEGGES累计概率分布情况图。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明。

实施例1：

一、基于网络节点关联度的共调控网络功能模块识别方法

本发明将共调控网络中的功能模块定义为：利用表达谱数据、基因调控关系和蛋白质相互数据，基于共调控网络的节点关联度提出启发式方法，从而识别出的在共调控网络中包含三类节点类型的子图。

为了清晰描述基于网络节点关联度的共调控网络功能模块识别方法模型，发明人将该模型的相关定义如下：

提出的带权共调控网络中的节点关联度，其计算形式如下：

其中，E表示带权共调控网络中边的集合，e∈E；e_mg、e_tg和e_gg分别表示miRNA-gene、TF-gene和gene-gene三种边类型，W(e_mg)、W(e_tg)、W(e_gg)分别表示节点v所在模块中三种类型边的权重和，α和β分别表示miRNA-gene和TF-gene调控边所占权重系数；E_max(v)E_max(v)表示节点v与某邻居模块的最大连接数，D(v)表示节点v涉及边的权重和，C_in(v)表示节点v的内部聚集系数。

基于网络节点关联度的共调控网络功能模块识别方法的具体步骤如图1所示。首先输入表达谱数据、基因调控关系和蛋白质相互作用数据。方法NPWCN可以划分为3个子过程：

步骤1)构建带权共调控网络：

输入miRNA、转录因子和靶基因的表达谱数据以及miRNA、转录因子对靶基因的调控关系数据，使用多元线性回归模型对共调控网络的调控边进行加权，共调控网络中共包含三种节点：调控子miRNA和转录因子、靶基因，节点之间存在作用边：miRNA-gene、TF-gene和gene-gene；

步骤2)采用线性预测模型识别带权共调控网络中的关键调控子；

步骤3)在已构建的带权共调控网络中，将步骤2)中得到的关键调控子作为种子节点，以网络中候选功能模块的节点关联度作为目标函数，进行种子节点的邻居节点扩充，最后得到的功能模块作为识别的功能模块。

二、基于网络节点关联度的共调控网络功能模块识别方法有效性验证

为了验证方法NPWCN的有效性，将NPWCN方法应用于一组乳腺癌数据集上。表达谱数据下载自，使用R语言包limma对表达谱数据进行差异表达分析，提取癌症样本与正常样本显著差异表达(p-value<0.05)的miRNAs和mRNAs。经过过滤，得到311个miRNAs、3789个mRNAs和81个转录因子在813个相同癌症样本中的表达谱数据。从BioGrid数据库下载了蛋白质相互作用网络数据，分别从TargetScan和ENCODE项目中获取miRNA-gene和TF-gene调控关系。经过与表达谱中的miRNA及mRNA进行匹配，保留两个数据集共同出现的miRNA和mRNA。经匹配，最终得到21483条gene-gene相互作用边，57582条miRNA-gene调控关系，7995条TF-gene调控关系。数据集共有392个调控子(311个miRNA、81个转因子)。

在本实例中，将方法NPWCN与SNCoNMF方法和SNMNMF在功能模块密度方面进行了对比，在不失功能富集得分的前提下，密度越大，功能联系越紧密。同时，引用表达相关系数(MiMEC和TfMEC)来计算NPWCN方法识别的功能模块中调控子与靶基因的表达相关性，进而表明NPWCN方法识别的功能模块中调控子与靶基因功能联系紧密。同时，在本实例中，还对NPWCN方法所识别出的功能模块进行了特性及功能富集分析。

1.实验结果分析，验证算法有效性

表1：线性模型识别的关键调控子

在NPWCN方法的第二步，通过线性模型共识别有效关键调控子42个(5个转录因子、37个miRNA)。实验中，以这42个关键调控子作为种子节点，将其初始化为单个功能模块，并在此基础上进行邻居结点扩展。

2.方法NPWCN与SNCoNMF、SNMNMF方法实验对比，验证算法有效性

表2给出方法NPWCN和其他两种方法识别功能模块的网络拓扑特征。方法NPWCN共识别了35个功能模块(剔除了不含三种类型节点的功能模块)，在三种方法中数量最多，这与该方法第二步选择的关键调控子作为种子节点有关，而其他两种方法需要事先设定识别功能模块的个数。NPWCN方法平均每个功能模块评价含有6.1个miRNA，1.3个转录因子和18.35个基因，其识别的功能模块中miRNA个数是三种方法中最多的，但是功能模块中的基因个数却最少，这说明当以关键调控子作为种子节点进行扩充时，会对功能模块的基因集扩展造成一定影响。

表2 NPWCN方法的模块特征结果

同时，方法NPWCN识别的功能模块平均密度为0.076，远大于另外两种算法，这说明方法NPWCN从网络拓扑角度考虑出发，结合表达谱数据识别较稠密功能模块的思路行之有效，能够识别生物意义显著的紧密功能模块。此外，方法NPWCN识别的功能模块的平均表达系数MiMEC和TfMEC分别为0.0672和0.122，两者的性能均不及方法SNCoNMF，但是比SNMNMF方法的值高。

图2和图3给出了调控子和目标基因的相关表达系数累计分布情况。方法NPWCN在MiMEC和TfMEC的值分别为0.0672和0.122，大于方法SNMNMF的0.0119和0.0，略小于方法SNCoNMF的0.0975和0.211。由于SNMNMF对转录因子的简化处理，使之不能有效识别包含转录因子的共调控模块，其转录因子与基因的表达相关系数为0。方法NPWCN在第二阶段通过线性模型识别关键调控子，并将其作为种子节点进行扩充，最后保留的功能模块均包含miRNA和转录因子，故其MiMEC和TfMEC水平处于三种方法居中。

3.实验结果功能富集分析，验证结果的有效性

为了验证本发明中的NPWCN方法所识别的功能模块是具有生物意义的，在本次实例中，分别使用R语言的GOstats对所识别的功能模块进行了GO富集分析。富集分析结果显示，方法NPWCN识别的35个功能模块均富集了至少1个及以上BP术语，只有3个模块没有富集一条调控通路。同时，统计了每个功能模块富集BP的基因个数，有45％(15/35)的模块排名前3的BP术语中，都至少包含了5个以上的基因。以模块5为例，排名前3的BP术语分别为：GO：0060429、GO：0009888和GO：0052548，均与上皮组织发育这一生物功能相关。此外，基因CA9和CST6均出现在这3个GO术语富集的基因集中。使用类似的方法计算调控通路的富集水平，35个功能模块的基因集共富集了96个调控通路，其中有24％(23/96)的功能模块含有3个以上的基因。以模块5为例，CA9、CDH3、CST6和FOXC1均显著富集了与癌症相关的通路。

进一步地，分别计算每个功能模块的GOES和KEGGES，并统计了其累计分布函数，如图4、图5。结果显示，方法NPWCN的平均GOES和KEGGES分别为2.2315、1.6385。方法NPWCN因为识别功能模块的基因模块规模相对较小，所以在指标GOES和KEGGES上不如另外两种方法SNCoNMF和SNMNMF，但总体水平相差不大。综合来说，方法NPWCN能识别有生物意义的功能模块，且识别的功能模块密度较为稠密，功能相关性较强。

本发明的实施方式并不限于以上两例，本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

1.一种基于网络节点关联度的共调控网络功能模块识别方法，其特征在于，包括以下步骤：

步骤1)构建带权共调控网络：

步骤3)在已构建的带权共调控网络中，将步骤2)中得到的关键调控子作为种子节点，以带权共调控网络中候选功能模块的节点关联度作为目标函数，进行种子节点的邻居节点扩充，以扩充后的候选功能模块作为识别的功能模块；

所述候选功能模块是指以种子节点形成的功能模块；

所述带权共调控网络中候选功能模块的节点关联度Perm(v)由下式计算：

2.根据权利要求1所述的方法，其特征在于，采用LASSO多元线性回归对构建的共调控网络的调控边进行加权，带权共调控网络的调控边权值x_i,t由下式计算：

x_i,t＝w_i,0+∑_kw_i,k(z_k,tc_i,k)s.t.∑_k|w_i,k|≤λ

3.根据权利要求1所述的方法，其特征在于，所述采用线性预测模型识别共调控网络中的关键调控子的过程如下：

所述线性预测模型如下：

其中，g_jk、

分别表示疾病基因j在样本k中真实表达值和预测表达值。

4.一种基于网络节点关联度的共调控网络功能模块识别系统，其特征在于，包括：

候选功能模块构建单元：在已构建的带权共调控网络中，将关键调控子作为种子节点，以种子节点构建候选功能模块；

功能模块识别单元：以带权共调控网络中候选功能模块的节点关联度作为目标函数，进行种子节点的邻居节点扩充，以扩充后的候选功能模块作为识别的功能模块；

所述带权共调控网络中候选功能模块的节点关联度Perm(v)通过节点关联度计算单元计算获得；

所述节点关联度计算单元按照以下公式计算：

5.根据权利要求4所述的系统，其特征在于，采用LASSO多元线性回归对构建的共调控网络的调控边进行加权。

6.根据权利要求5所述的系统，其特征在于，采用线性预测模型识别共调控网络中的关键调控子的过程如下：

所述线性预测模型如下：

其中，g_jk、分别表示疾病基因j在样本k中真实表达值和预测表达值。