一种基于功能模块的疾病关联因子识别方法及系统
技术领域
本发明属于生物信息学领域,涉及一种基于功能模块的疾病关联因子识别方法及系统。
背景技术
疾病相关miRNA、转录因子和基因的识别对于从分子水平上研究和揭示复杂疾病发病机制具有显著的意义。测序技术极大的促进了人们对miRNA、转录因子和基因的功能的研究,基因信息和基因表达谱阵列也越来越多的被用来辅助分析复杂疾病。科学界广泛认为病人的关键因子的综合分子特征,比如基因表达,是研究复杂疾病治疗的关键。细胞面对环境压力时,主要通过改变基因表达产生需要的蛋白质,因此面对环境压力产生正确的蛋白质至关重要。而异常表达的miRNA和基因则可能导致疾病的发生。比如一些miRNA表现出致病的特性,异常表达就会促进疾病的发生。还有一些miRNA具有抑制疾病的作用,降低致病基因的生成,异常表达时将会使致病基因快速增长,最终导致疾病的产生。
当前研究人员提出许多生物信息学方法通过分析公共和私有基因组数据来寻找疾病相关的miRNA、转录因子和基因。这些生物信息学技术最早关注疾病样本和控制样本中候选基因的重新排序,在多基因中辅助识别致病基因。除了位置上的致病基因排序,也提出了从多种基因列表中识别可能的候选基因的方法,如从微阵列或者蛋白质组实验中获得差异表达基因。为候选基因进行排序时需要输入一列需要进行排序的候选基因和排列标准,如包括在特定疾病或者细胞过程中。这些排列标准主要以生物关键词的形式出现或者是一系列与疾病或者生物过程关联的种子基因(即训练基因)。基因排序的方法是基于因有关联而被认为有罪(guilt by association)的思想。通过查询包括基因或蛋白质之间简单关系的数据库,如蛋白质相互作用数据库,来发现基因之间未知的关系。因此,基因能够根据与其他已确定的疾病关联基因之间推测的关系而进行排列。大规模组数据的出现,如高通量序列数据,迫切需要高效的疾病关联因子识别方法。同时机器学习方法的进步也极大的发展了识别方法。
Perez-Iratxeta等人基于模糊集理论设计了一个数据挖掘系统为455个疾病查找关联基因,此方法能够识别潜在的疾病关联基因。Lage等人进一步结合基于网络的方法以及表型相似性来预测疾病相关的基因,但是此方法只考虑了网络的局部信息,即网络中候选基因或致病基因的直接邻居,会忽略一些功能信息。而Li和Patra通过在异构网络上进行随机游走识别与表型关联度高的基因,综合考虑了网络的全局特性。
通过结合多数据源构建的网络来进行疾病相关miRNA、转录因子和基因的预测是现今研究疾病基因的主要方法。但仍然存在一些挑战。首先,所提出的的方法结合的信息较少,没有体现miRNA、转录因子和基因在疾病发生过程中共同协作的关系。此外已有的方法不适用于预测未知功能的miRNA、转录因子和基因与疾病的关系。
因此,有必要设计一种基于功能模块的疾病关联因子识别方法。
发明内容
本发明提出了一种基于功能模块的疾病关联因子识别方法及系统,通过结合疾病样本和正常样本的基因表达谱,获得差异表达基因的p-value值;并依此计算人类共调控网络中识别的功能模块的疾病关联值,来确定疾病关联模块;进一步在疾病关联模块中根据候选miRNA、转录因子和基因的疾病关联值查找疾病关联因子,预测疾病关联因子的准确率非常高。
一种基于功能模块的疾病关联因子识别方法,包括以下步骤:
步骤一:构建人类共调控网络,利用功能模块识别方法从人类共调控网络中识别miRNA、转录因子和基因的功能模块,并计算每个功能模块的疾病关联值;
步骤二:依据每个功能模块的疾病关联值,筛选出疾病关联模块;
步骤三:将每个疾病关联模块中的非差异表达的miRNA、转录因子和基因作为候选疾病关联因子;
步骤四:根据候选疾病关联因子在各个功能模块内与差异表达基因的距离分布,计算候选疾病关联因子与疾病的关联值,并根据候选疾病关联因子与疾病的关联值大小对候选疾病关联因子从大到小排序,识别出疾病关键因子。
依据具体情况对排序后的候选疾病关联因子进行选取,通常选取前5%-10%;
进一步地,所述功能模块的疾病关联值Rj按照以下公式计算获得:
其中,n为功能模块Mj内部节点个数,表示功能模块Mj内部节点中的第i个目标基因Mji的z-score值,通过对目标基因Mji的差异表达基因的p-value值进行逆正态累积分布转换获得;k为功能模块Mj内部节点中的目标基因个数;目标基因的差异表达基因的p-value值是根据疾病样本和正常样本的基因表达谱获得。
代表Mji的差异表达基因的p-value值,α为逆正太累积分布的参数;
功能模块Mj与疾病的关联值Rj为功能模块Mj内所有基因组合中具有的最高z-score值;Rj值越高,则此功能模块与疾病的关联度越高。
功能模块Mj内部节点包括miRNA、转录因子和目标基因;
进一步地,所述依据每个功能模块的疾病关联值,筛选出疾病关联模块是指首先对功能模块的疾病关联值进行归一化处理,然后对归一化处理后的结果进行逆正太累积分布转换成p-value值,若p-value值小于0.05,则对应的功能模块为疾病关联模块;
归一化处理公式为:
其中,μj为功能模块Mj对应的10000个随机模块rmij的疾病关联值的平均值,σj为10000个随机模块rmij的疾病关联值的标准方差;功能模块Mj对应的随机模块rmij的内部节点从共调控网络中随机选择,0≤i<10000,且规模与模块Mj规模一致。
进一步地,所述候选疾病关联因子与疾病的关联值按照以下公式计算:
其中,|BAM|为候选疾病关联因子所属的疾病关联模块个数,nxy表示候选疾病关联因子与第x个疾病关联模块中的差异表达基因之间最短路径长度为y的差异表达基因个数,D和y分别为候选疾病关联因子与第x个疾病关联模块中的各差异表达基因之间最短路径长度的最大值和最小值。
DID的值越高,则候选疾病关联因子与疾病的关联度越高。
进一步地,所述步骤一中的人类共调控网络包括人类物种的转录因子、miRNA和目标基因三种类型的节点,以及各个节点之间的相互作用。
进一步地,所述从人类共调控网络中识别miRNA、转录因子和基因的功能模块采用基于调控子模块和基因模块间带重启的随机游走的算法。
一种基于功能模块的疾病关联因子识别系统,包括:
人类共调控网络构建单元,用于利用功能模块识别方法从人类共调控网络中识别miRNA、转录因子和基因的功能模块,并计算每个功能模块的疾病关联值;
疾病关联模块筛选单元,依据每个功能模块的疾病关联值,筛选出疾病关联模块;
候选疾病关联因子确定单元,将每个疾病关联模块中的非差异表达的miRNA、转录因子和基因作为候选疾病关联因子;
候选疾病关联因子与疾病的关联值计算单元,根据候选疾病关联因子在各个功能模块内与差异表达基因的距离分布,计算候选疾病关联因子与疾病的关联值;
疾病关键因子识别单元,根据候选疾病关联因子与疾病的关联值大小对候选疾病关联因子从大到小排序,识别出疾病关键因子;
所述每个功能模块的疾病关联值的计算以及筛选过程,候选疾病关联因子与疾病的关联值的计算过程按照上述的方法进行。
人类共调控网络包括人类物种的转录因子、miRNA和目标基因,以及各类型节点之间的相互作用关系。共调控网络实现了转录调控和转录后调控两个阶段的整合,并包含蛋白质之间通过相互作用实现生物功能的过程,充分展现了转录因子、miRNA和基因协同作用的特性。共调控网络上的功能模块为实现特定功能的转录因子、miRNA和基因集合。这也表现为,如果模块中部分成员与某种疾病有关,则其他成员与此疾病关联的可能性更高。所以本发明利用人类共调控网络上的功能模块内部节点具有相同功能的特点,根据已知的疾病关联因子预测未知的疾病关联因子。
疾病样本和正常样本的基因表达谱差异表明基因在特定疾病中出现了变异,对疾病的发生具有影响,因此能够根据表达谱差异确定疾病关联因子。另外与疾病关联因子连接紧密的转录因子、miRNA和基因,在功能上也具有相关性。因此本发明根据候选疾病关联因子与差异表达基因在各个疾病关联模块内的距离分布,对候选疾病关联因子进行排序。
有益效果
本发明提供了一种基于功能模块的疾病关联因子识别方法及系统,该方法包括:1)在人类共调控网络上识别包括转录因子、miRNA和目标基因的功能模块;2)结合临床病人样本及正常样本的基因表达谱数据,获得差异表达基因的p-value值,根据模块内差异表达基因的组合确定疾病关联功能模块;3)将疾病关联功能模块中的非差异表达转录因子、miRNA和目标基因作为候选疾病关联因子;4)计算候选疾病关联因子与疾病的关联值,并根据关联值为候选疾病关联因子排序。该方法识别疾病关联因子时结合了多种相互作用关系,包括转录调控作用、转录后调控作用和基因间相互作用,多源数据为疾病关联因子的预测提供更多信息。即使在不知道转录因子、miRNA和基因功能的情况下,应用本发明所述方法能够进行预测识别疾病关联因子,且本发明预测疾病关联因子的准确率非常高。
在乳腺癌和结肠癌中,利用文献和数据库中已知的疾病关联因子验证本发明方法分别为这两种疾病预测的Top 1%和Top 5%的疾病关联因子,验证了本发明所述方法具有较高的识别准确率。
附图说明
图1是本发明基于功能模块识别疾病关联因子的流程示意图。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
一、基于功能模块的疾病关联因子识别方法
由于共调控网络上功能模块中成员之间具有功能相似性,所以可根据已知疾病相关的成员来确定整个模块的疾病相关性。并利用疾病关联的功能模块,发现未知功能的疾病关联因子。一种基于功能模块的疾病关联因子识别方法的整个流程如图1所示。
输入为人类共调控网络、疾病样本和正常样本的基因表达谱。人类共调控网络用于识别人类的功能模块,以及分析候选疾病关联因子在各个疾病关联模块内部与差异表达基因的距离分布。在本实施例中,从人类共调控网络上识别功能模块采用的方法为基于调控子模块和基因模块间带重启的随机游走的算法。本发明也可以使用其他能够有效识别共调控网络上功能模块的算法。
确定疾病关联模块的过程中,首先通过EXPANDER对比分析疾病样本和正常样本中各个基因的表达值,获得差异表达基因的p-value值。然后将差异表达基因的p-value值通过逆正太累积分布转换成z-score值。
为了计算功能模块与疾病的关联程度,本发明统计模块内成员的z-score值。模块内部成员的z-score值越高,则此功能模块与疾病的关联度越高。模块Mj与疾病的关联值Rj为模块Mj内所有基因组合中具有的最高z-score值,如下面公式所示:
其中n为模块Mj中成员个数,表示模块Mj内部成员中目标基因Mji的z-score值。k为功能模块Mj内部节点中的目标基因个数。
为了保证模块关联某疾病具有统计意义,引入随机模块对每个模块的关联值Rj进行归一化。随机模块rmij(0≤i<10000)内部的成员在整个网络中随机选择,但规模与模块Mj规模一致。计算每个随机模块的关联值,进而得到10000个随机模块的关联值的平均值μj和标准方差σj。模块Mj的归一化值NRj如下面公式所示:
将归一化后的关联值通过逆正太累积分布转换成p-value值。如果一个模块的p-value值小于0.05,则认为此模块为疾病关联模块。
将疾病关联模块中未差异表达的miRNA、转录因子和目标基因作为候选疾病关联因子。为了衡量候选疾病关联因子在疾病关联模块内与已知疾病基因的关系,计算了候选疾病关联因子与已知疾病关联基因之间的最短距离。与越多的已知疾病关联基因之间的距离越短,此候选疾病关联因子与疾病关联的程度也就越高。而一个候选疾病关联因子可能属于多个疾病关联模块,所以需要计算在多个模块中最短距离分布的平均值。本发明提出候选疾病关联因子与疾病的关联值DID,如下面公式所示:
其中,|BAM|为候选疾病关联因子所属的疾病关联模块个数,nxy表示候选疾病关联因子与第x个疾病关联模块中的差异表达基因之间最短路径长度为y的差异表达基因个数,D和y分别为候选疾病关联因子与第x个疾病关联模块中的各差异表达基因之间最短路径长度的最大值和最小值。
DID的值越高,则候选疾病关联因子与疾病的关联度越高。根据此关联值对所有候选疾病关联因子按从大到小的顺序进行排列。
二、基于功能模块的疾病关联因子识别方法有效性验证
为了验证本发明的有效性,将基于功能模块的疾病关联因子识别方法应用于乳腺癌和结肠癌两个疾病上。
实验中采用的数据为乳腺癌和结肠癌的基因表达谱。所有基因表达谱数据来源于基因表达文库(GEO,Gene Expression Omnibus)下载得到。表1列出两种疾病的基因表达谱数据来源,以及疾病样本和正常样本个数。乳腺癌的数据来源于数据集GSE5364,而结肠癌数据来源于6个数据集,共有188个疾病样本和85个正常样本。
表1.疾病的基因表达谱数据集
实验中采用的人类共调控网络来自于ENCODE工程的人类调控数据,包括转录因子和miRNA的调控作用。基因之间的相互作用来自于人类蛋白质参考数据库(HPRD,humanprotein reference database)的版本9。人类共调控网络中转录因子、miRNA和目标基因的个数分别为119、736和16599,调控作用和相互作用个数分别为144500和36888。
基于功能模块的疾病关联因子识别方法在乳腺癌和结肠癌两种疾病中分别发现657个和801个候选的疾病关联因子。利用NCBI PUMB数据库中的文献,分析候选疾病关联因子的文献证明。除了文献,本研究也在miRNA癌症关联数据库(miRCancer,microRNA CancerAssociation Database)、人类miRNA疾病数据库(HMDD,the Human microRNA DiseaseDatabase)和oncomirdb三个数据库中查看候选疾病关联miRNA是否在这些数据库中得到证明。表2列出对关联值排在前1%和5%的候选疾病关联因子的分析,结果显示本发明预测的疾病关联因子被已有文献和数据库证明的比例非常高,说明本发明方法具有非常高的识别准确率。
表2.DDRFFM算法预测疾病关联因子的准确率
表3列出本发明方法预测的前50个乳腺癌相关的miRNA、转录因子和基因在文献及数据库中出现的情况。表中为每个疾病关联因子只列举了几个文献的样例。同样,表4中列出本发明方法预测的前50个结肠癌相关的miRNA、转录因子和基因在文献和数据库中出现的情况。通过对已有文献和数据库查找发现,乳腺癌和结肠癌中排在前50的疾病关联因子中,分别有78%和70%已经被证明与疾病有关。如表3中miRNA节点hsa-miR-20a在数据库miRCancer,HMDD和oncomirdb中都认为是与乳腺癌有关。还有一些尚未证实的疾病关联因子,仍需要进一步的生物实验进行验证。比如RXRG基因是预测的乳腺癌关联基因。
表3.本发明方法预测的乳腺癌关联因子的文献和数据库证明
表4.DDRFFM算法预测的结肠癌关联因子的文献和数据库证明
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的范围内可对其进行许多修改,但都将落入本发明的保护范围内。