CN109712717A - 一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法 - Google Patents
一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法 Download PDFInfo
- Publication number
- CN109712717A CN109712717A CN201811615318.5A CN201811615318A CN109712717A CN 109712717 A CN109712717 A CN 109712717A CN 201811615318 A CN201811615318 A CN 201811615318A CN 109712717 A CN109712717 A CN 109712717A
- Authority
- CN
- China
- Prior art keywords
- mirna
- gene
- correlation
- matrix
- cancer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 116
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 56
- 201000011510 cancer Diseases 0.000 title claims abstract description 50
- 230000033228 biological regulation Effects 0.000 title claims abstract description 32
- 108700011259 MicroRNAs Proteins 0.000 title claims description 82
- 230000014509 gene expression Effects 0.000 claims abstract description 67
- 108091070501 miRNA Proteins 0.000 claims abstract description 55
- 239000002679 microRNA Substances 0.000 claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 230000002452 interceptive effect Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 238000002203 pretreatment Methods 0.000 claims description 4
- 108091033317 MiRTarBase Proteins 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000018199 S phase Effects 0.000 claims 1
- 238000010606 normalization Methods 0.000 claims 1
- 238000013518 transcription Methods 0.000 claims 1
- 230000035897 transcription Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 9
- 238000011161 development Methods 0.000 abstract description 5
- 230000008685 targeting Effects 0.000 abstract description 3
- 239000000090 biomarker Substances 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000013399 early diagnosis Methods 0.000 abstract 1
- 230000010534 mechanism of action Effects 0.000 abstract 1
- 238000011275 oncology therapy Methods 0.000 abstract 1
- 206010006187 Breast cancer Diseases 0.000 description 15
- 208000026310 Breast neoplasm Diseases 0.000 description 15
- 206010060862 Prostate cancer Diseases 0.000 description 15
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 15
- 108091070519 Homo sapiens miR-19b-1 stem-loop Proteins 0.000 description 7
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 5
- 108091028466 miR-130b stem-loop Proteins 0.000 description 5
- 108091026034 miR-130b-1 stem-loop Proteins 0.000 description 5
- 108091025972 miR-130b-2 stem-loop Proteins 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 230000006907 apoptotic process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010201 enrichment analysis Methods 0.000 description 3
- 230000002401 inhibitory effect Effects 0.000 description 3
- 230000009545 invasion Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 2
- 108091065455 Homo sapiens miR-130b stem-loop Proteins 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000004663 cell proliferation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 102100027995 Collagenase 3 Human genes 0.000 description 1
- 108050005238 Collagenase 3 Proteins 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000004163 JAK-STAT signaling pathway Effects 0.000 description 1
- 102000043136 MAP kinase family Human genes 0.000 description 1
- 108091054455 MAP kinase family Proteins 0.000 description 1
- 102100030412 Matrix metalloproteinase-9 Human genes 0.000 description 1
- 108010015302 Matrix metalloproteinase-9 Proteins 0.000 description 1
- 102000048850 Neoplasm Genes Human genes 0.000 description 1
- 108700019961 Neoplasm Genes Proteins 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 102000005789 Vascular Endothelial Growth Factors Human genes 0.000 description 1
- 108010019530 Vascular Endothelial Growth Factors Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000033115 angiogenesis Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 201000008275 breast carcinoma Diseases 0.000 description 1
- 230000004709 cell invasion Effects 0.000 description 1
- 230000012292 cell migration Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 210000005096 hematological system Anatomy 0.000 description 1
- 230000007365 immunoregulation Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 208000024312 invasive carcinoma Diseases 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 201000005249 lung adenocarcinoma Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 108091028067 miR-19b-1 stem-loop Proteins 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000010208 microarray analysis Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000020520 nucleotide-excision repair Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 201000005825 prostate adenocarcinoma Diseases 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000004144 purine metabolism Effects 0.000 description 1
- 230000004147 pyrimidine metabolism Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及本发明涉及生物信息学中的数据挖掘,具体涉及一种通过miRNA‑基因调控模块识别癌症相关的miRNA的方法。本发明的方法包括基因表达数据的差异比较;基因表达数据和miRNA表达数据的处理;miRNA‑基因交互矩阵的构建;miRNA‑基因相关系数的计算,获取miRNA‑基因相关矩阵,对miRNA进行模糊聚类;合并miRNA‑基因交互矩阵的构建、miRNA‑基因相关矩阵,计算基因与各个miRNA类的绝对平均相关度,根据绝对平均相关度将基因逐一加入miRNA类中,构建miRNA‑基因调控模块;在每个模块中计算miRNA的相关度,根据相关度对其进行排序。其主要流程如图1所示。本发明可用于获取癌症相关的miRNA以研究其在癌症发展发生过程中的作用机理,筛选癌症早期诊断所用的miRNA生物标记,获取癌症靶向治疗中所需的靶标等。
Description
技术领域
本发明涉及生物信息学中的数据挖掘,特别是涉及一种对癌症生物信息学数据的挖掘。具体涉及通过miRNA-基因调控模块识别癌症相关的miRNA的方法。
背景技术
MicroRNA (miRNA)是一类长约20-24个核苷酸的非编码小RNA,参与细胞增殖、发育和凋亡等多种生物学过程。它们通过识别mRNA非翻译区的互补靶位点,通过切割或翻译抑制来调节基因的表达。越来越多的证据表明,miRNAs在乳腺癌、卵巢癌、肺癌等多种癌症的发生发展过程中起着重要的作用。因此,识别癌症相关的miRNA的可用于癌症诊断、预后和药物靶点的发现。虽然实验方法,如微阵列分析和QRT-PCR已经被用来确定癌症与miRNA的关系。但是,微阵列的假阳性结果和昂贵的实验成本限制了这些方法的应用。而生物信息学的计算方法能够系统地识别与癌症相关的miRNAs,但miRNA涉及到广泛的生物学过程,而且miRNA和基因之间的调控关系可能在不同的生物条件下发生变化,这导致生物信息学的方法仍有许多亟待解决的难题。
目前通过生物信息学计算识别与癌症相关的miRNAs的方法可分为三类:第一类方法主要使用统计学方法来识别与癌症相关的miRNAs。这类方法主要通过统计学验检,比如T检验,检测癌组织和正常组织中差异表达的miRNAs。然而,但这类方法不能消除表达数据中异常值,使得识别的准确率不高;第二类方法是通过检测与癌症发生相关的基因,并将这些基因与miRNAs相关联,进而识别与癌症相关的miRNAs。如癌症相关基因和miRNA靶基因之间的语义相似水平来显示miRNAs与癌症之间的相关性。然而,这些方法忽略了miRNA与其目标基因之间复杂的相互作用,而且本身癌症相关的基因的筛选就有着一定的误差,导致其识别精度不能令人满意;最后一类方法主要是通过整合mRNAs表达数据、蛋白质表达数据和miRNA表达数据集,分析miRNAs与靶基因的相关值,进而识别癌症相关的miRNA。这种方法建立在与癌症相关的miRNA将与表达异常的基因有更高的相关值的基础上。这种方法显著地提高了识别性能,但它们只考虑了单个miRNA与它们的目标基因之间的简单相关性,忽略了一种情况,即多个miRNAs共同调节一个基因的表达,降低这类方法的性能。
综上所述,现有的方法没有充分考虑到癌症发生过程中miRNA与基因复杂的调控关系,极少从miRNA与基因复杂的调控关系这个关系开展癌症相关miRNA鉴别相关的。
发明内容
本发明针对以上方法存在的问题和基因与miRNA调控的复杂性,我们提出了基于miRNA-基因交互模块识别癌症相关miRNA的方法。通过miRNA-基因交互模块可以准确的描述miRNA与其靶基因之间的复杂关系:在一个模块中,一个miRNA调节多个基因的表达,一个基因可能受多个miRNA的调控。在这些模块的基础上,对各个模块中的miRNA依据其与相应模块中的基因的相关度计算其相关值。主要步骤流程如图1所示,具体方法步骤包括:
1.基因表达数据的差异比较
使用患病样本的基因表达数据集和对照样本(未患病的正常样本)基因表达数据集,通过Edger和Limma两个R语言包,获得有表达差异的基因,结果为一个基因列表,缩小基因的计算范围,提高计算的效率和准确率。
2.数据预处理阶段
处理对象为行为患病样本基因表达矩阵、患病样本miRNA表达矩阵,其中,行为名称(基因/miRNA)、列为样本名称。根据基因表达数据的差异比较结果所得的基因列表,剔除患病样本基因表达数据中那些没有表达差异的数据。对miRNA表达数据、修正后的基因表达数据进行样本一致性处理,使二者的样本名顺序一致。删除患病样本的miRNA表达数据、修正后的基因表达数据中存在缺失值的行。去掉平均表达值小于1的miRNA和基因表达数据以降噪。通过Z-Score方法对数据集进行标准化。计算公式为:
其中x为样本值,x*为标准化后的样本值,μ为所有样本数据的均值,σ为所有样本数据的标准差。
3.构建miRNA-基因交互矩阵阶段
为提高识别的准确率,本方法中使用已被验证的人类miRNA-基因关系数据,其样式为miRNA -基因对。删除未包含在miRNA表达数据、修正后的基因表达数据的中的miRNA-基因对。将得到的miRNA-基因对转换成一个miRNA-基因交互矩阵,其行未miRNA,列为基因,矩阵中1表示该行对应的miRNA与该列对应基因有调节关系,0则表示没有调控关系。
4.miRNA聚类
在预处理后的基因表达数据、miRNA表达数据的基础上,计算miRNA与基因之间的皮尔森相关性,计算公式为:
得到miRNA-基因相关矩阵,矩阵中的值即为对应行的miRNA与列的基因的皮尔森相关系系数。在miRNA-基因相关矩阵的基础上,调用R语言的clusters依赖包中funny函数对miRNA进行模糊聚类,将miRNA归属到各个类中。
5.构建miRNA-基因调控模块
将miRNA-基因交互矩阵和miRNA-基因相关矩阵进行合并,合并miRNA-基因交互矩阵和miRNA-基因相关矩阵,计算公式为:
S*=Smi-m*(1+Smi-gene)
在合并后的矩阵S*基础上,计算每个基因与每个miRNA类中的miRNA中的绝对平均相关度,即对基因与类中miRNA相关系数取绝对值,再求平均所得的值。计算公式为:
其中AkCij是基因k与miRNA类Ci的绝对平均相关度,S*kj是该基因与类中miRNAj之间的相关值,Count(Ci)是模块Ci中miRNA的个数。再将基因逐添加到绝对平均相关度最大的miRNA类中,构成一系列miRNA-基因交互模块。
6.计算miRNA 的相关度
在每个模块中,基于矩阵S*,计算模块内每个miRNA与模块内的基因的平均相关度,由于miRNA对基因的调控主要启抑制作用,因此只考虑相关系数为负的情况,相关系数为正,或者相关系数绝对值小于设定阈值的不参与计算,计算公式为:
其中RSi是miRNA i与该类癌症的平均相关度,S*ij是该miRNA与模块中基因j之间的相关度,Countn是模块Ci中参与计算的基因的个数。对所得的RSi取绝对值,由大到小,对miRNA进行排序。越靠前,表明越相关。
附图说明
图1:去除差异比较和数据预处理后的主要流程图
图2:乳腺癌三种方法结果对比
图3:前列腺癌三种方法结果对比
图4:肺癌三种方法结果对比
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实验,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
硬件环境主要是一台PC主机。其中,PC主机的CPU为Intel(R)Core(TM)i7-6700,3.40GHz,内存为32GB RAM,64位操作系统。软件以Windows 7为平台,在RStudio环境下用R语言实现,RStudio版本为1.1.142,R语言版本为3.5.0。
所用数据是TCGA中下载的三种数据相对完善的癌症数据集,乳腺癌(BreastInvasive Carcinoma,BRCA),前列腺癌(Prostate Adenocarcinoma,PRAD),肺腺癌(LungAdenocarcinoma,LUAD),这三种癌症相关的miRNA研究相对较多,在用于验证的HMDDv2数据库中,可用于验证结果的数据较完备。样本的信息如表1所示。此处需要说明的是,三种癌症数据是分别执行所有步骤计算的,只是为了简化,在此处一起进行说明。
1.基因表达数据的差异比较
使用Edger和Limma两个R语言包,对患病样本和正常样本的基因表达数据进行差异分析,获取具有表达差异的基因。
2.数据预处理阶段
根据基因表达数据的差异比较结果所得的基因列表,剔除患病样本基因表达数据中那些没有表达差异的数据;对miRNA表达数据、修正后的基因表达数据进行样本一致性处理,使二者的样本名顺序一致;删除患病样本的miRNA表达数据、修正后的基因表达数据中存在缺失值的行;去掉平均表达值小于1的miRNA和基因表达数据以降噪。使用Z-Score方法对数据集进行标准化,计算公式如下:
所得到结果如表1所示:
表1:样本及获取的基因、miRNA数据信息
3.构建miRNA-基因交互矩阵阶段
此处使用miRTarBase数据库中已被验证的人类miRNA-基因关系数据,删除未包含在miRNA表达数据、修正后的基因表达数据的中的miRNA-基因对。将得到的miRNA-基因对转换成一个miRNA-基因交互矩阵。
4.miRNA聚类在预处理后的基因表达数据、miRNA表达数据的基础上,计算miRNA与基因之间的皮尔森相关性,得到miRNA-基因相关矩阵,矩阵中的值即为对应行的miRNA与列的基因的皮尔森相关系系数。在miRNA-基因相关矩阵的基础上,调用R语言的clusters依赖包中funny函数对miRNA进行模糊聚类,将miRNA归属到各个类中。由于聚类的数目作为一个计算参数,决定了下一步构建的调控模块数目,进而影响到结果,此处给出寻优后的三种癌症的聚类数目,如表3所示:
表2:三种癌症的聚类数目
癌症类型 | 乳腺癌 | 前列腺癌 | 肺腺癌 |
聚类数目 | 69 | 80 | 70 |
5.构建miRNA-基因调控模块
将miRNA-基因交互矩阵和miRNA-基因相关矩阵进行合并,合并miRNA-基因交互矩阵和miRNA-基因相关矩阵,合并公式如下:
S*=Smi-m*(1+Smi-gene)
在合并后的矩阵基础上,计算每个基因与每个miRNA类中的miRNA中的绝对平均相关度,即对基因与类中miRNA相关系数取绝对值,再求平均所得的值,计算公式如下:
再将基因逐添加到绝对平均相关度最大的miRNA类中,构成一系列miRNA-基因交互模块。
6.计算miRNA的相关度
在每个模块中,基于合并后的矩阵,计算模块内每个miRNA与模块内的基因的平均相关度,由于miRNA对基因的调控主要启抑制作用,因此只考虑相关系数为负的情况,相关系数为正,或者相关系数绝对值小于设定阈值的不参与计算,计算公式如下:
再根据所得的相关度对miRNA进行排序。越靠前,表明越相关。所设定的阈值如表3所示:
表3:三种癌症计算相关度所需的阈值
癌症类型 | 乳腺癌 | 前列腺癌 | 肺腺癌 |
聚类数目 | 0.2 | 0.12 | 0.2 |
所得三种癌症相关miRNA列表的前10个miRNA统计如表4所示。其中每种癌症种第二列的1表示对应的miRNA已被实验验证与该癌症相关,被收录在HMDDv2数据库中。
表4:三种癌症计算结果的前10个miRNA
为进一步展示本发明的实际效果,我们将三种癌症计算结果,用HMDD数据库中已被实验验证的与对应癌症有关的miRNA,分别对计算结果的前60个miRNA,以10个为步长,统计相应的准确率。结果如表5所示。
表5:三种癌症计算结果前60的准确率
癌症类型 | 前10个 | 前20个 | 前30个 | 前40个 | 前50个 | 前60个 |
乳腺癌 | 0.9 | 0.9 | 0.9 | 0.8 | 0.74 | 0.73 |
前列腺癌 | 0.9 | 0.85 | 0.67 | 0.63 | 0.62 | 0.62 |
肺腺癌 | 1 | 0.95 | 0.83 | 0.7 | 0.64 | 0.68 |
进一步的我们与现有的两种方法进行了结果对比,一种是在实际中应用的比较广的基于统计学中T检验的方法,此处简称DEA,另一种是由文献《Identification ofcandidate miRNA biomarkers from miRNA regulatory network with application toprostate cancer》中提出的基于癌症基因与miRNA关联的方法。如图2、图3、图4所示可以看出本发明的方法从识别的准确率和效果来看都显著好于参照的两种方法。
为进一步的验证结果的可靠性,我们对表3中,标志为0的两个miRNA进行了文献调查。在乳腺癌的计算结果中,hsa-mir-130b未被HDMM数据库所收录,但搜索文献,我们可以发现hsa-mir-130,广泛参与多种癌症的发生过程,涉及到结肠癌、胃癌、干细胞癌、前列腺癌等,其中在文献《miR-130b-3p inhibits cell invasion and migration by targetingthe Notch ligand Delta-like 1in breast carcinoma》首次报道了hsa-mir-130-3p参与乳腺癌的发生过程,文中miR-130b-3p即为hsa-mir-130的一种成熟形态。根据该文的报道,miR-130b-3p在早期非侵袭性MCF-7人乳腺癌细胞和侵袭性晚期MDA-MB-231细胞中呈现出差异表达。在功能获得和功能丧失研究中,该文证明miR-130b-3p可通过直接靶向Notch配体Delta-like 1(DLL1)来抑制乳腺癌细胞的侵袭和迁移。此外该文的数据还表明miR-130b-3p通过调节MMP-9,MMP-13和VEGF,抑制乳腺癌细胞的侵袭和迁移。可见其与乳腺癌的发生相关。
在HDMM数据库中,hsa-mir-19b-1未被实验验证与前列腺癌的发生有关。但根据文献《Hsa-miR-19b-1-5p在前列腺癌中的作用及其机制的研究》,hsa-mir-19b-1的成熟形态hsa-mir-19b-1,在前列腺癌组织和良性前列腺组织的表达量呈现出显著的差异,hsa-mir-19b-1低在前列腺癌的发生过程中起抑制作用,抑制DU145、PC-3的细胞增殖能力,诱导其凋亡,降低侵袭及迁移能力。hsa-mir-19b-1可作为前列腺癌诊断及评价预后的新的生物学标记物。证实了hsa-mir-19b-1与前列腺癌相关。
当然为了进一步验证这两个miRNA与对应的癌症相关,我们对hsa-mir-130b,hsa-mir-19b-1所在的基因-miRNA调控模块中的基因进行KEGG通路分析分析。hsa-mir-130b位于乳腺癌基因-miRNA调控模块中的第19个模块,我们对第19模块中的基因进行通路富集分析,选取前10个通路,如下表6所示:
表6:乳腺癌中第19调控模块基因通路富集分析前的10项
前列腺癌中hsa-mir-19b-1位于第12个调控模块,同样我们利用GeneCodis3分析系统对该模块中的基因进行通路富集分析,选取前10个通路,如下表7所示:
表7:前列腺癌中第12调控模块基因通路富集分析的前10项
两个表中的第三列为进行FDR校正后的P值,其值基本都在10-4的水平,可见模块中的基因富集效果明显。表中的第二列展示了这些基因涉及到的通路,除了明确标明的涉及癌症的通路,像Purine metabolism,Pyrimidine metabolism,DNA replication,Nucleotide excision repair等涉及核酸的代谢合成过程,早已被许多文献证实与癌症发生相关,而Apoptosis这一细胞凋亡通路更是与密切相关。Jak-STAT signaling pathway业已被证实在实体瘤及血液系统瘤中参与肿瘤细胞的增殖、分化、血管生成及机体免疫调节等过程,该通路的异常表达及活话对肿瘤的发生和发展有重要作用。MAPK signalingpathway异常激活信号传导涉及乳腺癌、结肠癌、膀胱癌等许多癌症,并被开发为癌症靶向治疗的靶标。这表明模块中的基因在癌症相关的通路中产生了显著的富集,进一步证实了计算结果的可靠性。
Claims (7)
1.一种基于基因-miRNA调控模块的癌症相关MicroRNA识别方法,其特征在于实施步骤为:
(1)对基因表达进行差异比较,使用患病样本的基因表达数据集和对照样本(未患病样本)基因表达数据集,通过Edger和Limma两个R语言包,获得有表达差异的基因;
(2)对样本数据进行预处理,预处理包括样本匹配、缺失值处理、数据标准化三个步骤,获得miRNA和基因表达数据,其行为miRNA或基因名称,列为样本名;
(3)使用miRTarBase数据库中已被验证的miRNA-基因关系数据,将miRNA-基因转换成一个数值为0和1的miRNA-基因交互矩阵,1表示该行对应的miRNA与该列对应基因有调节关系,0则表示没有调控关系;
(4)在预处理后的miRNA和基因表达数据的基础上,计算miRNA与基因之间的皮尔森相关性,得到miRNA-基因的相关矩阵。在miRNA-基因相关矩阵的基础上,对miRNA进行模糊聚类,将各个miRNA归属到最相近的类中;
(5)合并miRNA-基因交互矩阵和miRNA-基因相关矩阵,在合并后的矩阵基础上,计算每个基因与每个miRNA类中的miRNA中的绝对平均相关度,将基因逐一添加到最大平均相关度的miRNA类中,构成一系列miRNA-基因交互模块。
(6)在每个模块中,计算模块内每个miRNA与模块内的基因的平均相关度,只考虑相关系数为负的情况,且要求其绝对值大于设定的阈值,根据每个miRNA的相关度值对miRNA进行排序。
2.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法,其特征在于本方法在对基因表达进行差异比较阶段:
(1)对患病样本和正常样本的基因顺序进行一致化处理;
(2)使用Edger和Limma两个R语言依赖包进行差异比较;
(3)从差异比较的结果中获取具有表达差异的基因列表。
3.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法,其特征在于本方法在数据预处理阶段:
(1)根据基因表达数据的差异比较结果所得的基因列表,剔除患病样本基因表达数据中那些没有表达差异的数据;
(2)对miRNA表达数据、修正后的基因表达数据进行样本一致性处理,使二者的样本名顺序一致;
(3)删除患病样本的miRNA表达数据、修正后的基因表达数据中存在缺失值的行;
(4)去掉平均表达值小于1的miRNA和基因表达数据以降噪。
(5)使用Z-Score方法对数据集进行标准化。
4.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法,其特征在于本方法miRNA-基因调控关系转换为miRNA-基因交互矩阵阶段:
(1)从miRTarBase数据库获取人类的miRNA-基因调控数据,其样式为miRNA-基因对;
(2)删除未包含在miRNA表达数据、修正后的基因表达数据的中的miRNA-基因对;
(3)将得到的miRNA-基因对转换成一个miRNA-基因交互矩阵,其行未miRNA,列为基因,矩阵中1表示该行对应的miRNA与该列对应基因有调节关系,0则表示没有调控关系。
5.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法,其特征在于本方法miRNA聚类阶段:
(1)在预处理后的基因表达数据、miRNA表达数据的基础上,计算miRNA与基因之间的皮尔森相关性计算公式为:
得到miRNA-基因相关矩阵,矩阵中的值即为对应行的miRNA与列的基因的皮尔森相关系系数;
(2)在miRNA-基因相关矩阵的基础上,调用R语言的clusters依赖包中funny函数对miRNA进行模糊聚类,将miRNA归属到各个类中。
6.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法,其特征在于本方法在得到miRNA聚类结果之后,实施:
(1)合并miRNA-基因交互矩阵和miRNA-基因相关矩阵;
(2)在合并后的矩阵基础上,计算每个基因与每个miRNA类中的miRNA中的绝对平均相关度,计算公式为:
(3)将基因逐一添加到最大平均相关度的miRNA类中,构成一系列miRNA-基因交互模块,构建miRNA-基因交互模块。
7.根据权利要求1所述的基于基因-miRNA调控模块的癌症相关MicroRNA识别方法,其特征在于本方法在构建miRNA-基因交互模块之,计算模块内每个miRNA与模块内的基因的平均相关度,只考虑相关系数为负的情况,且其绝对值大于设定的阈值,计算公式为:
根据miRNA的相关度绝对值对miRNA进行排序,越靠前表明越相关。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811615318.5A CN109712717A (zh) | 2018-12-27 | 2018-12-27 | 一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811615318.5A CN109712717A (zh) | 2018-12-27 | 2018-12-27 | 一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109712717A true CN109712717A (zh) | 2019-05-03 |
Family
ID=66258749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811615318.5A Pending CN109712717A (zh) | 2018-12-27 | 2018-12-27 | 一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109712717A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322926A (zh) * | 2019-07-26 | 2019-10-11 | 电子科技大学 | miRNA海绵模块的识别方法和装置 |
CN113035279A (zh) * | 2021-04-13 | 2021-06-25 | 西北工业大学 | 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 |
CN113838527A (zh) * | 2021-09-26 | 2021-12-24 | 平安科技(深圳)有限公司 | 一种靶基因预测模型的生成方法及装置、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016187404A1 (en) * | 2015-05-19 | 2016-11-24 | The Wistar Institute Of Anatomy And Biology | Methods and compositions for diagnosing or detecting lung cancers |
CN106845104A (zh) * | 2017-01-19 | 2017-06-13 | 东南大学 | 利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用 |
CN107358062A (zh) * | 2017-06-02 | 2017-11-17 | 西安电子科技大学 | 一种双层基因调控网络的构建方法 |
-
2018
- 2018-12-27 CN CN201811615318.5A patent/CN109712717A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016187404A1 (en) * | 2015-05-19 | 2016-11-24 | The Wistar Institute Of Anatomy And Biology | Methods and compositions for diagnosing or detecting lung cancers |
CN106845104A (zh) * | 2017-01-19 | 2017-06-13 | 东南大学 | 利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用 |
CN107358062A (zh) * | 2017-06-02 | 2017-11-17 | 西安电子科技大学 | 一种双层基因调控网络的构建方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322926A (zh) * | 2019-07-26 | 2019-10-11 | 电子科技大学 | miRNA海绵模块的识别方法和装置 |
CN110322926B (zh) * | 2019-07-26 | 2021-06-08 | 电子科技大学 | miRNA海绵模块的识别方法和装置 |
CN113035279A (zh) * | 2021-04-13 | 2021-06-25 | 西北工业大学 | 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 |
CN113838527A (zh) * | 2021-09-26 | 2021-12-24 | 平安科技(深圳)有限公司 | 一种靶基因预测模型的生成方法及装置、存储介质 |
CN113838527B (zh) * | 2021-09-26 | 2023-09-01 | 平安科技(深圳)有限公司 | 一种靶基因预测模型的生成方法及装置、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dettling et al. | Finding predictive gene groups from microarray data | |
Muniategui et al. | Quantification of miRNA-mRNA interactions | |
Alaimo et al. | Post-transcriptional knowledge in pathway analysis increases the accuracy of phenotypes classification | |
CN109712717A (zh) | 一种基于miRNA-基因调控模块的癌症相关MicroRNA识别方法 | |
Hu et al. | Classifying the multi-omics data of gastric cancer using a deep feature selection method | |
Kontou et al. | Methods of analysis and meta-analysis for identifying differentially expressed genes | |
Lee et al. | A deep learning and similarity-based hierarchical clustering approach for pathological stage prediction of papillary renal cell carcinoma | |
Chen et al. | Identification and analysis of spinal cord injury subtypes using weighted gene co-expression network analysis | |
Fabregue et al. | Mining microarray data to predict the histological grade of a breast cancer | |
Rafique et al. | Weighted dimensionality reduction and robust Gaussian mixture model based cancer patient subtyping from gene expression data | |
CN111944902A (zh) | 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法 | |
Paul | Integration of miRNA and mRNA expression data for understanding etiology of gynecologic cancers | |
Zhou et al. | Identifying biomarkers of nottingham prognosis index in breast cancer survivability | |
CN115035951A (zh) | 一种突变签名的预测方法、装置、终端设备及存储介质 | |
Elkhani et al. | Membrane computing to model feature selection of microarray cancer data | |
Yan et al. | Identification and validation of a novel prognosis prediction model in adrenocortical carcinoma by integrative bioinformatics analysis, statistics, and machine learning | |
Guzzi et al. | A discussion on the biological relevance of clustering results | |
Gholizadeh et al. | Detection of key mRNAs in liver tissue of hepatocellular carcinoma patients based on machine learning and bioinformatics analysis | |
Madjar | Survival models with selection of genomic covariates in heterogeneous cancer studies | |
O'Connell | Differential expression, class discovery and class prediction using S-PLUS and S+ ArrayAnalyzer | |
CN113921085B (zh) | 非编码rna基因协同调控作用的预测方法 | |
Akhavan-Safar et al. | Colorectal cancer driver gene detection in human gene regulatory network using an independent cascade diffusion model | |
Puri et al. | Breast Cancer Prognosis and Prediction through Gene Expression Analysis and the Hybrid Model of SVM and Logistic Regression | |
Chen et al. | Biomarker identification by knowledge-driven multilevel ICA and motif analysis | |
Kim | Statistical learning methods for multi-omics data integration in dimension reduction, supervised and unsupervised machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190503 |