CN109712717A

CN109712717A - 一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法

Info

Publication number: CN109712717A
Application number: CN201811615318.5A
Authority: CN
Inventors: 雷佳伟; 王树林
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-03

Abstract

本发明涉及本发明涉及生物信息学中的数据挖掘，具体涉及一种通过miRNA‑基因调控模块识别癌症相关的miRNA的方法。本发明的方法包括基因表达数据的差异比较；基因表达数据和miRNA表达数据的处理；miRNA‑基因交互矩阵的构建；miRNA‑基因相关系数的计算，获取miRNA‑基因相关矩阵，对miRNA进行模糊聚类；合并miRNA‑基因交互矩阵的构建、miRNA‑基因相关矩阵，计算基因与各个miRNA类的绝对平均相关度，根据绝对平均相关度将基因逐一加入miRNA类中，构建miRNA‑基因调控模块；在每个模块中计算miRNA的相关度，根据相关度对其进行排序。其主要流程如图1所示。本发明可用于获取癌症相关的miRNA以研究其在癌症发展发生过程中的作用机理，筛选癌症早期诊断所用的miRNA生物标记，获取癌症靶向治疗中所需的靶标等。

Description

一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法

技术领域

本发明涉及生物信息学中的数据挖掘，特别是涉及一种对癌症生物信息学数据的挖掘。具体涉及通过miRNA-基因调控模块识别癌症相关的miRNA的方法。

背景技术

MicroRNA (miRNA)是一类长约20-24个核苷酸的非编码小RNA，参与细胞增殖、发育和凋亡等多种生物学过程。它们通过识别mRNA非翻译区的互补靶位点，通过切割或翻译抑制来调节基因的表达。越来越多的证据表明，miRNAs在乳腺癌、卵巢癌、肺癌等多种癌症的发生发展过程中起着重要的作用。因此，识别癌症相关的miRNA的可用于癌症诊断、预后和药物靶点的发现。虽然实验方法，如微阵列分析和QRT-PCR已经被用来确定癌症与miRNA的关系。但是，微阵列的假阳性结果和昂贵的实验成本限制了这些方法的应用。而生物信息学的计算方法能够系统地识别与癌症相关的miRNAs，但miRNA涉及到广泛的生物学过程，而且miRNA和基因之间的调控关系可能在不同的生物条件下发生变化，这导致生物信息学的方法仍有许多亟待解决的难题。

目前通过生物信息学计算识别与癌症相关的miRNAs的方法可分为三类：第一类方法主要使用统计学方法来识别与癌症相关的miRNAs。这类方法主要通过统计学验检，比如T检验，检测癌组织和正常组织中差异表达的miRNAs。然而，但这类方法不能消除表达数据中异常值，使得识别的准确率不高；第二类方法是通过检测与癌症发生相关的基因，并将这些基因与miRNAs相关联，进而识别与癌症相关的miRNAs。如癌症相关基因和miRNA靶基因之间的语义相似水平来显示miRNAs与癌症之间的相关性。然而，这些方法忽略了miRNA与其目标基因之间复杂的相互作用，而且本身癌症相关的基因的筛选就有着一定的误差，导致其识别精度不能令人满意；最后一类方法主要是通过整合mRNAs表达数据、蛋白质表达数据和miRNA表达数据集，分析miRNAs与靶基因的相关值，进而识别癌症相关的miRNA。这种方法建立在与癌症相关的miRNA将与表达异常的基因有更高的相关值的基础上。这种方法显著地提高了识别性能，但它们只考虑了单个miRNA与它们的目标基因之间的简单相关性，忽略了一种情况，即多个miRNAs共同调节一个基因的表达，降低这类方法的性能。

综上所述，现有的方法没有充分考虑到癌症发生过程中miRNA与基因复杂的调控关系，极少从miRNA与基因复杂的调控关系这个关系开展癌症相关miRNA鉴别相关的。

发明内容

本发明针对以上方法存在的问题和基因与miRNA调控的复杂性，我们提出了基于miRNA-基因交互模块识别癌症相关miRNA的方法。通过miRNA-基因交互模块可以准确的描述miRNA与其靶基因之间的复杂关系：在一个模块中，一个miRNA调节多个基因的表达，一个基因可能受多个miRNA的调控。在这些模块的基础上，对各个模块中的miRNA依据其与相应模块中的基因的相关度计算其相关值。主要步骤流程如图1所示，具体方法步骤包括：

1.基因表达数据的差异比较

使用患病样本的基因表达数据集和对照样本(未患病的正常样本)基因表达数据集，通过Edger和Limma两个R语言包，获得有表达差异的基因，结果为一个基因列表，缩小基因的计算范围，提高计算的效率和准确率。

2.数据预处理阶段

处理对象为行为患病样本基因表达矩阵、患病样本miRNA表达矩阵，其中，行为名称(基因/miRNA)、列为样本名称。根据基因表达数据的差异比较结果所得的基因列表，剔除患病样本基因表达数据中那些没有表达差异的数据。对miRNA表达数据、修正后的基因表达数据进行样本一致性处理，使二者的样本名顺序一致。删除患病样本的miRNA表达数据、修正后的基因表达数据中存在缺失值的行。去掉平均表达值小于1的miRNA和基因表达数据以降噪。通过Z-Score方法对数据集进行标准化。计算公式为：

其中x为样本值，x*为标准化后的样本值，μ为所有样本数据的均值，σ为所有样本数据的标准差。

3.构建miRNA-基因交互矩阵阶段

为提高识别的准确率，本方法中使用已被验证的人类miRNA-基因关系数据，其样式为miRNA -基因对。删除未包含在miRNA表达数据、修正后的基因表达数据的中的miRNA-基因对。将得到的miRNA-基因对转换成一个miRNA-基因交互矩阵，其行未miRNA，列为基因，矩阵中1表示该行对应的miRNA与该列对应基因有调节关系，0则表示没有调控关系。

4.miRNA聚类

在预处理后的基因表达数据、miRNA表达数据的基础上，计算miRNA与基因之间的皮尔森相关性，计算公式为：

得到miRNA-基因相关矩阵，矩阵中的值即为对应行的miRNA与列的基因的皮尔森相关系系数。在miRNA-基因相关矩阵的基础上，调用R语言的clusters依赖包中funny函数对miRNA进行模糊聚类，将miRNA归属到各个类中。

5.构建miRNA-基因调控模块

将miRNA-基因交互矩阵和miRNA-基因相关矩阵进行合并，合并miRNA-基因交互矩阵和miRNA-基因相关矩阵，计算公式为：

S_*＝S_mi-m*(1+S_mi-gene)

在合并后的矩阵S*基础上，计算每个基因与每个miRNA类中的miRNA中的绝对平均相关度，即对基因与类中miRNA相关系数取绝对值，再求平均所得的值。计算公式为：

其中AkCij是基因k与miRNA类Ci的绝对平均相关度，S*_kj是该基因与类中miRNAj之间的相关值，Count(Ci)是模块Ci中miRNA的个数。再将基因逐添加到绝对平均相关度最大的miRNA类中，构成一系列miRNA-基因交互模块。

6.计算miRNA 的相关度

在每个模块中，基于矩阵S*，计算模块内每个miRNA与模块内的基因的平均相关度，由于miRNA对基因的调控主要启抑制作用，因此只考虑相关系数为负的情况，相关系数为正，或者相关系数绝对值小于设定阈值的不参与计算，计算公式为：

其中RSi是miRNA i与该类癌症的平均相关度，S*ij是该miRNA与模块中基因j之间的相关度，Countn是模块Ci中参与计算的基因的个数。对所得的RSi取绝对值，由大到小，对miRNA进行排序。越靠前，表明越相关。

附图说明

图1：去除差异比较和数据预处理后的主要流程图

图2：乳腺癌三种方法结果对比

图3：前列腺癌三种方法结果对比

图4：肺癌三种方法结果对比

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实验，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

硬件环境主要是一台PC主机。其中，PC主机的CPU为Intel(R)Core(TM)i7-6700，3.40GHz，内存为32GB RAM，64位操作系统。软件以Windows 7为平台，在RStudio环境下用R语言实现，RStudio版本为1.1.142，R语言版本为3.5.0。

所用数据是TCGA中下载的三种数据相对完善的癌症数据集，乳腺癌(BreastInvasive Carcinoma，BRCA)，前列腺癌(Prostate Adenocarcinoma，PRAD)，肺腺癌(LungAdenocarcinoma,LUAD)，这三种癌症相关的miRNA研究相对较多，在用于验证的HMDDv2数据库中，可用于验证结果的数据较完备。样本的信息如表1所示。此处需要说明的是，三种癌症数据是分别执行所有步骤计算的，只是为了简化，在此处一起进行说明。

1.基因表达数据的差异比较

使用Edger和Limma两个R语言包，对患病样本和正常样本的基因表达数据进行差异分析，获取具有表达差异的基因。

2.数据预处理阶段

根据基因表达数据的差异比较结果所得的基因列表，剔除患病样本基因表达数据中那些没有表达差异的数据；对miRNA表达数据、修正后的基因表达数据进行样本一致性处理，使二者的样本名顺序一致；删除患病样本的miRNA表达数据、修正后的基因表达数据中存在缺失值的行；去掉平均表达值小于1的miRNA和基因表达数据以降噪。使用Z-Score方法对数据集进行标准化，计算公式如下：

所得到结果如表1所示：

表1：样本及获取的基因、miRNA数据信息

3.构建miRNA-基因交互矩阵阶段

此处使用miRTarBase数据库中已被验证的人类miRNA-基因关系数据，删除未包含在miRNA表达数据、修正后的基因表达数据的中的miRNA-基因对。将得到的miRNA-基因对转换成一个miRNA-基因交互矩阵。

4.miRNA聚类在预处理后的基因表达数据、miRNA表达数据的基础上，计算miRNA与基因之间的皮尔森相关性，得到miRNA-基因相关矩阵，矩阵中的值即为对应行的miRNA与列的基因的皮尔森相关系系数。在miRNA-基因相关矩阵的基础上，调用R语言的clusters依赖包中funny函数对miRNA进行模糊聚类，将miRNA归属到各个类中。由于聚类的数目作为一个计算参数，决定了下一步构建的调控模块数目，进而影响到结果，此处给出寻优后的三种癌症的聚类数目，如表3所示：

表2：三种癌症的聚类数目

癌症类型	乳腺癌	前列腺癌	肺腺癌
				聚类数目	69	80	70

5.构建miRNA-基因调控模块

将miRNA-基因交互矩阵和miRNA-基因相关矩阵进行合并，合并miRNA-基因交互矩阵和miRNA-基因相关矩阵，合并公式如下：

S_*＝S_mi-m*(1+S_mi-gene)

在合并后的矩阵基础上，计算每个基因与每个miRNA类中的miRNA中的绝对平均相关度，即对基因与类中miRNA相关系数取绝对值，再求平均所得的值，计算公式如下：

再将基因逐添加到绝对平均相关度最大的miRNA类中，构成一系列miRNA-基因交互模块。

6.计算miRNA的相关度

在每个模块中，基于合并后的矩阵，计算模块内每个miRNA与模块内的基因的平均相关度，由于miRNA对基因的调控主要启抑制作用，因此只考虑相关系数为负的情况，相关系数为正，或者相关系数绝对值小于设定阈值的不参与计算，计算公式如下：

再根据所得的相关度对miRNA进行排序。越靠前，表明越相关。所设定的阈值如表3所示：

表3：三种癌症计算相关度所需的阈值

癌症类型	乳腺癌	前列腺癌	肺腺癌
				聚类数目	0.2	0.12	0.2

所得三种癌症相关miRNA列表的前10个miRNA统计如表4所示。其中每种癌症种第二列的1表示对应的miRNA已被实验验证与该癌症相关，被收录在HMDDv2数据库中。

表4：三种癌症计算结果的前10个miRNA

为进一步展示本发明的实际效果，我们将三种癌症计算结果，用HMDD数据库中已被实验验证的与对应癌症有关的miRNA，分别对计算结果的前60个miRNA，以10个为步长，统计相应的准确率。结果如表5所示。

表5：三种癌症计算结果前60的准确率

癌症类型	前10个	前20个	前30个	前40个	前50个	前60个
							乳腺癌	0.9	0.9	0.9	0.8	0.74	0.73
前列腺癌	0.9	0.85	0.67	0.63	0.62	0.62
							肺腺癌	1	0.95	0.83	0.7	0.64	0.68

进一步的我们与现有的两种方法进行了结果对比，一种是在实际中应用的比较广的基于统计学中T检验的方法，此处简称DEA，另一种是由文献《Identification ofcandidate miRNA biomarkers from miRNA regulatory network with application toprostate cancer》中提出的基于癌症基因与miRNA关联的方法。如图2、图3、图4所示可以看出本发明的方法从识别的准确率和效果来看都显著好于参照的两种方法。

为进一步的验证结果的可靠性，我们对表3中，标志为0的两个miRNA进行了文献调查。在乳腺癌的计算结果中，hsa-mir-130b未被HDMM数据库所收录，但搜索文献，我们可以发现hsa-mir-130，广泛参与多种癌症的发生过程，涉及到结肠癌、胃癌、干细胞癌、前列腺癌等，其中在文献《miR-130b-3p inhibits cell invasion and migration by targetingthe Notch ligand Delta-like 1in breast carcinoma》首次报道了hsa-mir-130-3p参与乳腺癌的发生过程，文中miR-130b-3p即为hsa-mir-130的一种成熟形态。根据该文的报道，miR-130b-3p在早期非侵袭性MCF-7人乳腺癌细胞和侵袭性晚期MDA-MB-231细胞中呈现出差异表达。在功能获得和功能丧失研究中，该文证明miR-130b-3p可通过直接靶向Notch配体Delta-like 1(DLL1)来抑制乳腺癌细胞的侵袭和迁移。此外该文的数据还表明miR-130b-3p通过调节MMP-9，MMP-13和VEGF，抑制乳腺癌细胞的侵袭和迁移。可见其与乳腺癌的发生相关。

在HDMM数据库中，hsa-mir-19b-1未被实验验证与前列腺癌的发生有关。但根据文献《Hsa-miR-19b-1-5p在前列腺癌中的作用及其机制的研究》，hsa-mir-19b-1的成熟形态hsa-mir-19b-1，在前列腺癌组织和良性前列腺组织的表达量呈现出显著的差异，hsa-mir-19b-1低在前列腺癌的发生过程中起抑制作用，抑制DU145、PC-3的细胞增殖能力，诱导其凋亡，降低侵袭及迁移能力。hsa-mir-19b-1可作为前列腺癌诊断及评价预后的新的生物学标记物。证实了hsa-mir-19b-1与前列腺癌相关。

当然为了进一步验证这两个miRNA与对应的癌症相关，我们对hsa-mir-130b,hsa-mir-19b-1所在的基因-miRNA调控模块中的基因进行KEGG通路分析分析。hsa-mir-130b位于乳腺癌基因-miRNA调控模块中的第19个模块，我们对第19模块中的基因进行通路富集分析，选取前10个通路，如下表6所示：

表6：乳腺癌中第19调控模块基因通路富集分析前的10项

前列腺癌中hsa-mir-19b-1位于第12个调控模块，同样我们利用GeneCodis3分析系统对该模块中的基因进行通路富集分析，选取前10个通路，如下表7所示：

表7：前列腺癌中第12调控模块基因通路富集分析的前10项

两个表中的第三列为进行FDR校正后的P值，其值基本都在10^-4的水平，可见模块中的基因富集效果明显。表中的第二列展示了这些基因涉及到的通路，除了明确标明的涉及癌症的通路，像Purine metabolism，Pyrimidine metabolism，DNA replication，Nucleotide excision repair等涉及核酸的代谢合成过程，早已被许多文献证实与癌症发生相关，而Apoptosis这一细胞凋亡通路更是与密切相关。Jak-STAT signaling pathway业已被证实在实体瘤及血液系统瘤中参与肿瘤细胞的增殖、分化、血管生成及机体免疫调节等过程，该通路的异常表达及活话对肿瘤的发生和发展有重要作用。MAPK signalingpathway异常激活信号传导涉及乳腺癌、结肠癌、膀胱癌等许多癌症，并被开发为癌症靶向治疗的靶标。这表明模块中的基因在癌症相关的通路中产生了显著的富集，进一步证实了计算结果的可靠性。

Claims

1.一种基于基因-miRNA调控模块的癌症相关MicroRNA识别方法，其特征在于实施步骤为：

(1)对基因表达进行差异比较，使用患病样本的基因表达数据集和对照样本(未患病样本)基因表达数据集，通过Edger和Limma两个R语言包，获得有表达差异的基因；

(2)对样本数据进行预处理，预处理包括样本匹配、缺失值处理、数据标准化三个步骤，获得miRNA和基因表达数据，其行为miRNA或基因名称，列为样本名；

(3)使用miRTarBase数据库中已被验证的miRNA-基因关系数据，将miRNA-基因转换成一个数值为0和1的miRNA-基因交互矩阵，1表示该行对应的miRNA与该列对应基因有调节关系，0则表示没有调控关系；

(4)在预处理后的miRNA和基因表达数据的基础上，计算miRNA与基因之间的皮尔森相关性，得到miRNA-基因的相关矩阵。在miRNA-基因相关矩阵的基础上，对miRNA进行模糊聚类，将各个miRNA归属到最相近的类中；

(5)合并miRNA-基因交互矩阵和miRNA-基因相关矩阵，在合并后的矩阵基础上，计算每个基因与每个miRNA类中的miRNA中的绝对平均相关度，将基因逐一添加到最大平均相关度的miRNA类中，构成一系列miRNA-基因交互模块。

(6)在每个模块中，计算模块内每个miRNA与模块内的基因的平均相关度，只考虑相关系数为负的情况，且要求其绝对值大于设定的阈值，根据每个miRNA的相关度值对miRNA进行排序。

2.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法，其特征在于本方法在对基因表达进行差异比较阶段：

(1)对患病样本和正常样本的基因顺序进行一致化处理；

(2)使用Edger和Limma两个R语言依赖包进行差异比较；

(3)从差异比较的结果中获取具有表达差异的基因列表。

3.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法，其特征在于本方法在数据预处理阶段：

(1)根据基因表达数据的差异比较结果所得的基因列表，剔除患病样本基因表达数据中那些没有表达差异的数据；

(2)对miRNA表达数据、修正后的基因表达数据进行样本一致性处理，使二者的样本名顺序一致；

(3)删除患病样本的miRNA表达数据、修正后的基因表达数据中存在缺失值的行；

(4)去掉平均表达值小于1的miRNA和基因表达数据以降噪。

(5)使用Z-Score方法对数据集进行标准化。

4.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法，其特征在于本方法miRNA-基因调控关系转换为miRNA-基因交互矩阵阶段：

(1)从miRTarBase数据库获取人类的miRNA-基因调控数据，其样式为miRNA-基因对；

(2)删除未包含在miRNA表达数据、修正后的基因表达数据的中的miRNA-基因对；

(3)将得到的miRNA-基因对转换成一个miRNA-基因交互矩阵，其行未miRNA，列为基因，矩阵中1表示该行对应的miRNA与该列对应基因有调节关系，0则表示没有调控关系。

5.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法，其特征在于本方法miRNA聚类阶段：

(1)在预处理后的基因表达数据、miRNA表达数据的基础上，计算miRNA与基因之间的皮尔森相关性计算公式为：

得到miRNA-基因相关矩阵，矩阵中的值即为对应行的miRNA与列的基因的皮尔森相关系系数；

(2)在miRNA-基因相关矩阵的基础上，调用R语言的clusters依赖包中funny函数对miRNA进行模糊聚类，将miRNA归属到各个类中。

6.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法，其特征在于本方法在得到miRNA聚类结果之后，实施：

(1)合并miRNA-基因交互矩阵和miRNA-基因相关矩阵；

(2)在合并后的矩阵基础上，计算每个基因与每个miRNA类中的miRNA中的绝对平均相关度，计算公式为：

(3)将基因逐一添加到最大平均相关度的miRNA类中，构成一系列miRNA-基因交互模块，构建miRNA-基因交互模块。

7.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法，其特征在于本方法在构建miRNA-基因交互模块之，计算模块内每个miRNA与模块内的基因的平均相关度，只考虑相关系数为负的情况，且其绝对值大于设定的阈值，计算公式为：

根据miRNA的相关度绝对值对miRNA进行排序，越靠前表明越相关。