CN112391470A - 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法 - Google Patents

胰腺癌miRNA预后模型的确立及靶向基因的筛选方法 Download PDF

Info

Publication number
CN112391470A
CN112391470A CN202011257207.9A CN202011257207A CN112391470A CN 112391470 A CN112391470 A CN 112391470A CN 202011257207 A CN202011257207 A CN 202011257207A CN 112391470 A CN112391470 A CN 112391470A
Authority
CN
China
Prior art keywords
genes
mirna
analysis
gene
pancreatic cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011257207.9A
Other languages
English (en)
Inventor
黄遵楠
陈烁玲
曲玥阳
肖桂山
俞天杨
高畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Guangdong Medical University
Original Assignee
Dalian University of Technology
Guangdong Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology, Guangdong Medical University filed Critical Dalian University of Technology
Priority to CN202011257207.9A priority Critical patent/CN112391470A/zh
Publication of CN112391470A publication Critical patent/CN112391470A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/178Oligonucleotides characterized by their use miRNA, siRNA or ncRNA

Abstract

胰腺癌miRNA预后模型的确立及靶向基因的筛选方法,包括hsa‑mir‑424、hsa‑mir‑126、hsa‑mir‑3613和hsa‑mir‑4772,并鉴定了9个关键基因,包括MMP14、ITGA2、THBS2、COL1A1、COL3A1、COL11A1、COL6A3、COL12A1和COL5A2,本发明提供胰腺癌miRNA预后模型的确立方法,利用TCGA和GEO数据库,通过R语言多个安装包对数据进行多步骤分析,与临床信息结合,建立Cox比例风险回归模型寻找预后生物标志物,预测miRNA的靶基因,并利用Cytoscape找出与胰腺癌发生相关的关键基因并且通过KEGG和GO分析预测出这些关键基因的相关分子功能和作用机制,寻找胰腺癌患者的治疗新靶点和预后标志物。

Description

胰腺癌miRNA预后模型的确立及靶向基因的筛选方法
技术领域
本发明涉及基因技术和医学领域,具体涉及胰腺癌miRNA预后模型的确立及靶向基因的筛选方法。
背景技术
胰腺癌和其他肿瘤一样,受多种因素的影响。一般来说,手术切除是胰腺癌根治的唯一选择。但多年来,胰腺癌手术切除率和术后年生存率并没有明显提高,多数患者在诊断时由于广泛转移而失去手术机会,胰腺癌又对放化疗不敏感。因此,寻找新的治疗靶点,研究胰腺癌的发病机制具有重要意义。近年来,随着microRNA(microRNA)的发现及其研究的不断深入,越来越多的miRNA被证明与肿瘤的发生发展密切相关,有研究发现miRNA在胰腺癌的发生发展中有着明显的变化,并与生存率以及患者的预后密切相关。所以,许多研究者都会寻找新的miRNA治疗靶点和研究miRNA调控胰腺癌的发生发展、侵袭转移机制。
但是通过实验研究的方式来寻找新的miRNA生物标志物耗时较长且结果也不一定理想,所以当前针对miRNA与疾病的相关研究,许多研究人员提出应用生物信息学,对miRNA和疾病关联数据进行大规模系统分析,探索miRNA和疾病的规律,阐明疾病相关miRNA 生物学特性,发现新的疾病生物标记物和药物靶标,因此在过去的十年里,许多重大的人类癌症研究项目已经启动,包括癌症基因组图谱(The Cancer Genome Atlas,癌症基因图集)就是其中之一。TCGA通过大规模高通量基因组测序和芯片技术绘制人类肿瘤的基因组图谱,旨在探索肿瘤发生发展的潜在分子机制,提高人类诊断、治疗和预防肿瘤的能力。目前,数据库包括详细的临床数据、基因组突变数据、转录组数据、miRNAs测序数据等[10]。GEO(GeneExpression Omnibus,http://www.ncbi.nlm.nih.gov/geo),该数据库主要由芯片数据组成,如SNP芯片数据、比较基因组数据、microRNA芯片数据等,此外还包含一些非芯片数据,如基因表达序列分析数据、核糖体序列标签连续分析数据[11]、质谱数据、蛋白质组学数据和新一代高通量测序数据[12]等。随着人类基因组计划的完成和生物信息学的迅速发展,对这些数据库资源中相关的肿瘤数据进行搜索、处理和分析,就可以找出治疗癌症的关键靶点。
miRNA在癌症中具有生物学效应,可作为多种癌症的靶标,因此对miRNAs的深入研究将有助于了解癌症的发生发展机制及其生物学功能。
发明内容
本发明的目的是利用生物信息学的方法,通过对癌症数据库中的胰腺癌的数据进行处理分析,建立miRNA预后模型,筛选关键基因,得出与胰腺癌预后有关的生物靶标,为未来研究阐明胰腺癌的致病机理提供了理论依据,也为今后胰腺癌的诊断治疗及病人预后提供新的思路。
发明概述
一方面本发明提供胰腺癌miRNA预后模型,包括hsa-mir-424、hsa-mir-126、 hsa-mir-3613和hsa-mir-4772,并鉴定了9个关键基因,包括MMP14、ITGA2、THBS2、 COL1A1、COL3A1、COL11A1、COL6A3、COL12A1和COL5A2。
另一方面,本发明提供胰腺癌miRNA预后模型的确立方法。
本发明利用TCGA和GEO数据库,通过R语言多个安装包对数据进行多步骤分析,与临床信息结合,建立Cox比例风险回归模型寻找预后生物标志物,预测miRNA的靶基因,并利用Cytoscape找出与胰腺癌发生相关的关键基因并且通过KEGG和GO分析预测出这些关键基因的相关分子功能和作用机制,寻找胰腺癌患者的治疗新靶点和预后标志物。
发明详述
一种胰腺癌miRNA预后模型的确立方法,其包括以下步骤:
1)检索数据并处理RNA序列数据:从TCGA公共数据中(The Cancer Genome Atlas,https://portal.gdc.cancer.gov/)确认并下载183例PAAD患者的组织样本miRNA-seq 数据(level 3)和相应的临床信息;从GEO公共数据库(Gene Expression Omnibus,https:// www.ncbi.nlm.nih.gov/geo/)中确认并下载包涵胰腺癌相关组织与正常组织信息的GSE28735的表达谱,其中包含了肿瘤样本(45个)和正常胰腺组织(45个);
2)差异miRNAs和基因筛选:采用R语言中的edgeR[17],gplots和limma[18]程序包对TCGA 数据库中获得的胰腺癌与正常组织的miRNA表达矩阵进行标准化、数据拟合及差异分析,并根据|log2FC|>1,Padj<0.05的筛选标准筛选显著差异miRNA;利用limma程序包对 GEO芯片GSE28735进行分析差异表达的基因并同样根据|log2FC|>1,Padj<0.05的筛选标准筛选显著差异基因,分别绘制差异表达miRNA和基因的火山图;
3)建立Cox比例风险回归模型:运用Cox比例风险回归模型[19]分析DEMs与病人生存时间的关联性。Survival package辅助用于对DEMs进行单因素Cox分析和多因素Cox分析。对得出的DEMs分析它们与总体生存率的相关性。在单因素Cox分析中视P<0.05 的miRNA是与病人生存时间为相关性强的表现。多因素Cox分析利用逐步回归法筛选并得到与单因素模型功能相近但miRNA数量更少的,更便于临床研究的预后模型。视多因素模型中P<0.05的miRNA为患者的独立预后因子。
4)建立预后模型:结合多因素Cox分析结果,根据模型公式Risk Score=β1×Exp(miRNA1)+β2×Exp(miRNA2)+...+βn×Exp(miRNAn)计算风险分数,再根据风险分数的中位值将病人分为高风险组和低风险组,并绘制风险分数曲线和表达热图,再进行生存分析绘制患者的生存曲线和生存状态图,由此建立起联合miRNA的预后模型。制作该模型的ROC曲线[20]判断其预测能力,AUC值>0.7则说明该模型具有一定的预测能力。
5)靶基因预测:分别使用2个miRNA靶基因预测的在线网站TargetScan (http:// www.targetscan.org/),miRDB(http://miRdb.org/)对4个miRNA的靶基因根据碱基序列进行预测。为了减少假阳性,我们对预测出的靶基因取交集。然后,将共同预测的靶基因与显著差异表达基因取交集,得到共有基因。此时,共有基因表示既是 miRNAs的靶基因,又是与胰腺癌相关的显著差异表达基因。
6)构建互作网络并筛选核心网络:利用在线可视化工具STRING[23] (http:// string-db.org)对共有基因进行分析,获取蛋白-蛋白相互作用数据,选择最小互作分数大于等于0.400构建蛋白-蛋白互作网络(PPI),并隐藏网络中断开的节点。将蛋白互作数据导入Cytoscape(Version 3.7.1,https://cytoscape.org/),先使用 cytohubba中的算法MCC筛选出排名前15的关键基因,再运用Cytoscape中的Molecular Complex Detection(MCODE)插件对15个基因网络系统进行评分,Degree Cut-off=2, Haircut on,NodeScore Cut-off=0.2,k-core=2和Max.Depth=100。计算寻找 MCODE score较高的集簇,从而得到关键基因。接着,将互作网络中基因的logFC值导入Cytoscape得到基因显著差异表达情况。
7)构建miRNAs-基因-通路可视化网络
利用Cytoscape将miRNAs与关键基因的关系、共有基因与特殊KEGG通路和GO功能注释的关系进行可视化,呈现出miRNAs与关键基因的调控关系,以及共有基因在P值最小或count值最大的KEGG通路和GO功能注释上的富集情况。
8)miRNA测序数据、Cox回归模型分析、时间依赖的ROC曲线分析及热图双聚类分析、富集分析、网络分析等均使用R语言软件进行统计分析,所有结果以P<0.05作为差异有统计学意义的标准。
本发明有益效果:
本发明通过对胰腺癌miRNA及基因谱进行生物信息学分析,得到一个与PDAC相关的四miRNA预后模型,包括hsa-mir-424、hsa-mir-126、hsa-mir-3613和hsa-mir-4772,并鉴定了9个关键基因,包括MMP14、ITGA2、THBS2、COL1A1、COL3A1、COL11A1、COL6A3、 COL12A1和COL5A2。其中,hsa-mir-4772、COL12A1和COL5A2需要在PDAC中实验验证。这些miRNAs和基因在成为胰腺癌的治疗靶点和预后标志物方面具有很大潜力。本发明的研究可以为未来胰腺癌的诊断和治疗提供新的指导,并可能促进新药的开发。
附图说明
图1示胰腺癌差异表达的DEMs和DEGs的火山图,(A)绿点表示表达下调的miRNA,红点表示表达上调的miRNA;(B)绿点表示表达下调的基因,红点表示表达上调的基因。横坐标表示样本差异表达倍数的log2转化值,|log2FC|越大表示差异倍数越大。纵坐标表示FDR值的-log10转化值,转化值越大表示差异越显著。
图2示胰腺癌患者预后模型:(A)从上到下分别是风险分数曲线、生存状态图和热图; (B)低风险和高风险群体的Kaplan-Meier曲线;(C)ROC曲线用于通过风险分数预测胰腺癌患者的生存率。
图3示共有基因KEGG和GO分析图:横坐标表示P值大小,气泡的大小表示富集基因的数量。纵坐标表示共有基因参与的主要KEGG通路或GO功能注释。
图4示蛋白互作关系图:(A)PPI网络图:点的不同颜色代表DEGs的logFC值;(B)CytoHubba拓扑分析结果:点的不同颜色代表DEGs的logFC值;(C)MCODE网络模块图:点的不同颜色代表不同的MCODE Score。点与点之间连线红色的深与浅均表示互作关系CombinedScore的高与低。
图5示miRNAs-基因-通路可视化网络图:图片表示miRNA、共有基因、关键基因及KEGG 通路和GO功能注释之间的关系。红圆圈表示miRNA,绿圆圈表示共有基因,蓝圆圈表示关键基因,橘圆圈表示KEGG通路和GO功能注释。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面进一步披露一些非限制实施例对本发明作进一步的详细说明。
实施例1胰腺癌miRNA预后模型的其确立方法
1)检索数据并处理RNA序列数据:从TCGA公共数据中(The Cancer Genome Atlas,https://portal.gdc.cancer.gov/)确认并下载183例PAAD患者的组织样本miRNA-seq 数据(level 3)和相应的临床信息;从GEO公共数据库(Gene Expression Omnibus,https:// www.ncbi.nlm.nih.gov/geo/)中确认并下载包涵胰腺癌相关组织与正常组织信息的GSE28735的表达谱,其中包含了肿瘤样本(45个)和正常胰腺组织(45个);
2)差异miRNAs和基因筛选:采用R语言中的edgeR[17],gplots和limma[18]程序包对TCGA 数据库中获得的胰腺癌与正常组织的miRNA表达矩阵进行标准化、数据拟合及差异分析,并根据|log2FC|>1,Padj<0.05的筛选标准筛选显著差异miRNA;利用limma程序包对 GEO芯片GSE28735进行分析差异表达的基因并同样根据|log2FC|>1,Padj<0.05的筛选标准筛选显著差异基因,分别绘制差异表达miRNA和基因的火山图;
3)建立Cox比例风险回归模型:运用Cox比例风险回归模型[19]分析DEMs与病人生存时间的关联性。Survival package辅助用于对DEMs进行单因素Cox分析和多因素Cox分析。对得出的DEMs分析它们与总体生存率的相关性。在单因素Cox分析中视P<0.05 的miRNA是与病人生存时间为相关性强的表现。多因素Cox分析利用逐步回归法筛选并得到与单因素模型功能相近但miRNA数量更少的,更便于临床研究的预后模型。视多因素模型中P<0.05的miRNA为患者的独立预后因子。
4)建立预后模型:结合多因素Cox分析结果,根据模型公式Risk Score=β1×Exp(miRNA1)+β2×Exp(miRNA2)+...+βn×Exp(miRNAn)计算风险分数,再根据风险分数的中位值将病人分为高风险组和低风险组,并绘制风险分数曲线和表达热图,再进行生存分析绘制患者的生存曲线和生存状态图,由此建立起联合miRNA的预后模型。制作该模型的ROC曲线[20]判断其预测能力,AUC值>0.7则说明该模型具有一定的预测能力。
5)靶基因预测:分别使用2个miRNA靶基因预测的在线网站TargetScan (http:// www.targetscan.org/),miRDB(http://miRdb.org/)对4个miRNA的靶基因根据碱基序列进行预测。为了减少假阳性,我们对预测出的靶基因取交集。然后,将共同预测的靶基因与显著差异表达基因取交集,得到共有基因。此时,共有基因表示既是 miRNAs的靶基因,又是与胰腺癌相关的显著差异表达基因。
6)构建互作网络并筛选核心网络:利用在线可视化工具STRING[23] (http:// string-db.org)对共有基因进行分析,获取蛋白-蛋白相互作用数据,选择最小互作分数大于等于0.400构建蛋白-蛋白互作网络(PPI),并隐藏网络中断开的节点。将蛋白互作数据导入Cytoscape(Version 3.7.1,https://cytoscape.org/),先使用 cytohubba中的算法MCC筛选出排名前15的关键基因,再运用Cytoscape中的Molecular Complex Detection(MCODE)插件对15个基因网络系统进行评分,Degree Cut-off=2, Haircut on,NodeScore Cut-off=0.2,k-core=2和Max.Depth=100。计算寻找 MCODE score较高的集簇,从而得到关键基因。接着,将互作网络中基因的logFC值导入Cytoscape得到基因显著差异表达情况。
7)构建miRNAs-基因-通路可视化网络
利用Cytoscape将miRNAs与关键基因的关系、共有基因与特殊KEGG通路和GO功能注释的关系进行可视化,呈现出miRNAs与关键基因的调控关系,以及共有基因在P值最小或count值最大的KEGG通路和GO功能注释上的富集情况。
8)miRNA测序数据、Cox回归模型分析、时间依赖的ROC曲线分析及热图双聚类分析、富集分析、网络分析等均使用R语言软件进行统计分析,所有结果以P<0.05作为差异有统计学意义的标准。
差异表达分析结果
利用R语言并以|log2FC|>1,Padj<0.05为筛选条件,得出22个DEMs。其中显著下调的miRNA有17个,显著上调的miRNA有5个。利用limma程序包分析GSE28735表达谱并以|log2FC|>1,Padj<0.05为筛选条件,得出402个DEGs。其中显著下调的基因有234个,显著上调的基因有168个。火山图直观地展现出DEMs和DEGs的差异显著性和差异倍数分布情况(见图1)。
图1火山图:(A)绿点表示表达下调的miRNA,红点表示表达上调的miRNA;(B)绿点表示表达下调的基因,红点表示表达上调的基因。横坐标表示样本差异表达倍数的log2 转化值,|log2FC|越大表示差异倍数越大。纵坐标表示FDR值的-log10转化值,转化值越大表示差异越显著。
Cox比例风险回归模型的建立
单因素Cox分析,根据P<0.05分析得出与病人患病生存相关的6个miRNA(见表2.1);多因素Cox分析得出与病患预后相关的4个miRNA,分别是hsa-mir-424, hsa-mir-126,hsa-mir-3613,和hsa-mir-4772(见表2.2),它们在胰腺癌组织中都是下调的。多因素分析结果显示3个miRNA(hsa-mir-424,hsa-mir-126和hsa-mir-3613) 能够在胰腺癌中作为独立的预后因子但这4个miRNA能构成独立的预后模型,P值为 3.137e-07。
表1 miRNA的单因素分析结果
Figure RE-GDA0002906417630000071
注:粗体表示预后miRNA
表2 miRNA的多因素分析结果
Figure RE-GDA0002906417630000072
3.3Cox模型在疾病预后中的运用
我们从Cox回归模型中提取了miRNAs多因素Cox分析的系数,构建了一个由4个miRNAs组成的预后风险评分模型,风险评分=(0.6006xhsa-miR-424)+(0.1819x hsa-miR-4772)+(-0.6601xhsa-miR-126)+(-0.3851xhsa-miR-3613)。并根据风险分数的中位值即预后模型分数将研究中的样本分为高风险组和低风险组。风险评分曲线评估了每个样本的预后差异,高风险组的风险评分高于低风险组,风险评分越高,预后越差。生存状态图显示,风险评分越高,死亡率越高。图2.A上是风险评分曲线,图 2.A中是生存状态图,图2.A下是生存热图。生存曲线显示,低危组生存率明显高于高危组(P=6e-06;3年生存率,高风险15.21%,95%CI=7.69%-30.1%,低风险57.90%, 95%CI=46.60%-71.90%)(图2.B)。该模型ROC曲线的AUC值为0.78,大于0.7,说明此模型可信度较高,预测结果的灵敏度和特异性均较高,可以用来预测病人的生存时间(图2.C)。
图2胰腺癌患者预后模型:(A)从上到下分别是风险分数曲线、生存状态图和热图;(B)低风险和高风险群体的Kaplan-Meier曲线;(C)ROC曲线用于通过风险分数预测胰腺癌患者的生存率。
3.4靶基因预测结果
运用在线工具TargetScan,miRDB分别对4个预后miRNA进行靶基因预测,并将两个数据库预测的靶基因结果取交集作为该miRNA的候选靶基因。得出:hsa-mir-424的靶基因1081个,hsa-mir-126的靶基因1243个,hsa-mir-3613的靶基因3505个和 hsa-mir-4772的靶基因692个,得到4个miRNA的靶基因总数为6521个,排除受多个 miRNA共同调控的重复靶基因1384个,得到4个miRNA的靶基因总数为5137个。然后我们将靶基因与胰腺癌有关的显著差异表达的基因取交集,得到118个共有基因。(见表 3)
表3各miRNA与共有基因的对应表
Figure RE-GDA0002906417630000081
Figure RE-GDA0002906417630000091
Figure RE-GDA0002906417630000101
注:粗体表示4个miRNA调控的关键基因
3.5共有基因的KEGG通路分析和GO功能注释详情
通过对共有基因的KEGG通路和GO功能注释分析,结果阐明了共有基因的通路富集和功能注释情况(图3)。以P<0.05为筛选标准。KEGG pathways分析中共有基因主要富集在ECM-receptor interaction,Focal adhesion,Axon guidance,PPAR signaling pathway等。KEGG通路中P值最小的通路是ECM-receptor interaction(P=1.04E-07), count最大的通路是Focal adhesion(count=10)。在BP方面,共有基因主要富集在 cell adhesion,biological adhesion,skeletal system development,response to organicsubstance,sensory perception of mechanical stimulu等功能注释中。BP 注释中P值最小的注释是cell adhesion(P=3.72E-06),count最大的注释是cell adhesion(count=19)和biological adhesion(count=19)。在CC方面,共有基因主要富集在proteinaceousextracellular matrix,extracellular matrix, extracellular region,intrinsic toplasma membrane,plasma membrane等功能注释中。CC注释中P值最小的注释是proteinaceous extracellular matrix(P=2.30E-07), count最大的注释是plasmamembrane(count=42)。在MF方面,共有基因只富集在 extracellular matrix structuralconstituent,integrin binding,growth factor binding等功能注释中。MF注释中P值最小和count最大的注释是extracellular matrix structural constituent(P=2.65E-05,count=7)。
图3共有基因KEGG和GO分析图:横坐标表示P值大小,气泡的大小表示富集基因的数量。纵坐标表示共有基因参与的主要KEGG通路或GO功能注释。
蛋白-蛋白互作集簇分析及关键基因筛选
互作网络图展示了共同基因的蛋白-蛋白互作关系,关键基因的MCODE Score和上下调表达关系(图4A-C),其中图4.A显示的是通过STRING平台筛选得到的共同基因关系密切的互作网络,它由60个基因和107条连线构成;图4.B显示的是通过cytohubba 的MCC算法筛选得到的所有关键基因包括ITGA2,COL11A1,ITGB6,VCAN,COL12A1,MATN3, COL1A1,COL6A3,COL5A2,MMP9,TGFBI,IGFBP5,THBS2和MMP14;图4.C的网络图则是通过Cytoscape的MCODE插件在关键基因网络图(图4.B)中筛选出构成基因的MCODE Score大于5.0(分值越大,基因越关键)的一个重要模块,该模块包含ITGA2,COL11A1, COL12A1,COL1A1,COL6A3,COL5A2,COL3A1,THBS2和MMP14这九个关键基因,且这些关键基因均是显著上调的DEGs;且从连线的颜色深浅来看ITGA2,COL3A1,COL1A1, COL12A1,COL11A1和COL5A2这些基因之间联系比较紧密。
图4蛋白互作关系图:(A)PPI网络图:点的不同颜色代表DEGs的logFC值;(B)CytoHubba拓扑分析结果:点的不同颜色代表DEGs的logFC值;(C)MCODE网络模块图:点的不同颜色代表不同的MCODE Score。点与点之间连线红色的深与浅均表示互作关系 CombinedScore的高与低。
miRNAs-基因-通路和功能可视化网络
9个关键基因受到miRNAs调控,并参与多种KEGG通路和GO功能注释。其中COL12A1受hsa-mir-424靶向调控,COL12A1和ITGA2受hsa-mir-4772靶向调控,COL12A1和 COL11A1受hsa-mir-126靶向调控,COL11A1,COL6A3,COL5A2,COL3A1,COL1A1,MMP14 和TSBH2受hsa-mir-3613靶向调控。定位关键基因富集的关键的KEGG通路和GO功能注释显示,COL6A3,COL3A1,ITGA2,COL1A1,COL5A2,THBS2和COL11A1富集在关键的 ECM-receptorinteraction通路上;COL6A3,COL3A1,ITGA2,COL1A1,COL5A2,THBS2, COL11A1富集在关键的Focal adhesion通路上;9个关键基因都富集在关键的GO功能注释:具体表现为COL3A1,ITGA2,COL6A3,COL12A1,THBS2,COL11A1富集在GO-BP中的 biological adhesion和celladhesion上;COL3A1,COL12A1,,COL1A1,COL5A2和 COL11A1富集在GO-MF中的extracellular matrix structural constituent上;COL6A3, MMP14,COL1A1富集在GO-CC中的plasma membrane上;COL3A1,MMP14,COL5A2,COL6A3, COL12A1,COL1A1和COL11A1还富集在GO-CC中的proteinaceous extracellular matrix 上。(图5)
图5miRNAs-基因-通路可视化网络图:图片表示miRNA、共有基因、关键基因及KEGG通路和GO功能注释之间的关系。红圆圈表示miRNA,绿圆圈表示共有基因,蓝圆圈表示关键基因,橘圆圈表示KEGG通路和GO功能注释。
胰腺癌是一种难诊断、难治疗、预后差的消化道恶性肿瘤,其发生的具体分子机制尚未完全阐明。许多文献表明,研究肿瘤发生发展的分子机制可能是延长患者生存时间的关键,因此寻找与胰腺癌的诊断、治疗和预后相关的分子靶点非常重要[25]。miRNAs共同调控着成千上万的人类蛋白质编码基因,miRNAs被认为是细胞生长、凋亡、病毒感染和癌症发展等许多重要生物学过程的主要调控因子[26]。因此,miRNA也成为肿瘤发展领域的研究焦点。为了寻找胰腺癌新的可信的预后生物标志物以及重要的调节基因,我们在研究中从TCGA数据库和GEO数据库分别筛选了胰腺癌的22个DEMs和胰腺癌发生相关的 402个DEGs。利用Cox比例风险回归分析与生存分析得出4个与胰腺癌密切相关的miRNA,并根据这4个miRNA(hsa-miR-424,hsa-miR-4772,hsa-miR-126和hsa-miR-3613)建立疾病预后模型;接着,本发明使用TargetScan和miRDB预测到了4个miRNA的5147 个靶基因;将靶基因与DEGs取交集,得到的共有基因利用Cytoscape分析共有基因,最终得出与胰腺癌发生发展相关的MMP14,ITGA2,THBS2,COL3A1,COL1A1,COL11A1,COL6A3, COL5A2和COL12A1九个关键基因。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种作为胰腺癌预后的标志物,其特征在于,包括Hsa-mir-424,hsa-mir-126,hsa-mir-3613、hsa-mir-4772、COL12A1或COL5A2。
2.权利要求1所述作为胰腺癌预后标志物的确立方法,其包括以下步骤:
1)检索数据并处理RNA序列数据:从TCGA公共数据中确认并下载183例PAAD患者的组织样本miRNA-seq数据;从GEO公共数据库中确认并下载包涵胰腺癌相关组织与正常组织信息的GSE28735的表达谱,其中包含了45个肿瘤样本和45个正常胰腺组织;
2)差异miRNAs和基因筛选:采用R语言中的edgeR,gplots和limma程序包对TCGA数据库中获得的胰腺癌与正常组织的miRNA表达矩阵进行标准化、数据拟合及差异分析,并根据|log2FC|>1,Padj<0.05的筛选标准筛选显著差异miRNA;利用limma程序包对GEO芯片GSE28735进行分析差异表达的基因并同样根据|log2FC|>1,Padj<0.05的筛选标准筛选显著差异基因,分别绘制差异表达miRNA和基因的火山图;
3)建立Cox比例风险回归模型:运用Cox比例风险回归模型分析DEMs与病人生存时间的关联性;
4)建立预后模型:结合多因素Cox分析结果,根据模型公式Risk Score=β1×Exp(miRNA1)+β2×Exp(miRNA2)+...+βn×Exp(miRNAn)计算风险分数,再根据风险分数的中位值将病人分为高风险组和低风险组,并绘制风险分数曲线和表达热图,再进行生存分析绘制患者的生存曲线和生存状态图,由此建立起联合miRNA的预后模型,制作该模型的ROC曲线判断其预测能力,AUC值>0.7则说明该模型具有一定的预测能力;
5)靶基因预测:分别使用2个miRNA靶基因预测的在线网站TargetScan,miRDB对4个miRNA的靶基因根据碱基序列进行预测;
6)构建互作网络并筛选核心网络:利用在线可视化工具STRING对共有基因进行分析,获取蛋白-蛋白相互作用数据,选择最小互作分数大于等于0.400构建蛋白-蛋白互作网络,并隐藏网络中断开的节点,将蛋白互作数据导入Cytoscape,先使用cytohubba中的算法MCC筛选出排名前15的关键基因,再运用Cytoscape中的Molecular Complex Detection插件对15个基因网络系统进行评分,Degree Cut-off=2,Haircut on,Node Score Cut-off=0.2,k-core=2和Max.Depth=100,计算寻找MCODE score较高的集簇,从而得到关键基因,接着,将互作网络中基因的logFC值导入Cytoscape得到基因显著差异表达情况;
7)构建miRNAs-基因-通路可视化网络
利用Cytoscape将miRNAs与关键基因的关系、共有基因与特殊KEGG通路和GO功能注释的关系进行可视化,呈现出miRNAs与关键基因的调控关系,以及共有基因在P值最小或count值最大的KEGG通路和GO功能注释上的富集情况;
8)miRNA测序数据、Cox回归模型分析、时间依赖的ROC曲线分析及热图双聚类分析、富集分析、网络分析等均使用R语言软件进行统计分析,所有结果以P<0.05作为差异有统计学意义的标准。
3.如权利要求2所述作为胰腺癌预后标志物的确立方法,步骤3)中采用Survivalpackage辅助用于对DEMs进行单因素Cox分析和多因素Cox分析,对得出的DEMs分析它们与总体生存率的相关性,在单因素Cox分析中视P<0.05的miRNA是与病人生存时间为相关性强的表现,多因素Cox分析利用逐步回归法筛选并得到与单因素模型功能相近但miRNA数量更少的,更便于临床研究的预后模型,视多因素模型中P<0.05的miRNA为患者的独立预后因子。
4.如权利要求2所述作为胰腺癌预后标志物的确立方法,步骤5)为了减少假阳性,对预测出的靶基因取交集。然后,将共同预测的靶基因与显著差异表达基因取交集,得到共有基因。此时,共有基因表示既是miRNAs的靶基因,又是与胰腺癌相关的显著差异表达基因。
CN202011257207.9A 2020-11-11 2020-11-11 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法 Pending CN112391470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011257207.9A CN112391470A (zh) 2020-11-11 2020-11-11 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011257207.9A CN112391470A (zh) 2020-11-11 2020-11-11 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法

Publications (1)

Publication Number Publication Date
CN112391470A true CN112391470A (zh) 2021-02-23

Family

ID=74600110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011257207.9A Pending CN112391470A (zh) 2020-11-11 2020-11-11 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法

Country Status (1)

Country Link
CN (1) CN112391470A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053453A (zh) * 2021-03-15 2021-06-29 中国农业科学院农业质量标准与检测技术研究所 应用转录组学筛选全氟辛烷磺酸毒性枢纽基因和关键信号通路的方法
CN113130002A (zh) * 2021-04-29 2021-07-16 吉林大学 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法
CN113215261A (zh) * 2021-06-29 2021-08-06 北京泱深生物信息技术有限公司 胰腺癌的预后预测诊断用基因标记物及其用途
CN113724782A (zh) * 2021-08-19 2021-11-30 西安交通大学 一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法
CN113921084A (zh) * 2021-12-13 2022-01-11 山东大学齐鲁医院 疾病相关非编码rna调控轴多维靶向预测方法及系统
CN114203269A (zh) * 2022-02-17 2022-03-18 北京泽桥医疗科技股份有限公司 一种基于机器学习和分子对接技术的抗癌中药筛选方法
CN114203255A (zh) * 2022-02-17 2022-03-18 北京泽桥医疗科技股份有限公司 一种基于机器学习的中药抗癌关键靶标预测方法
CN114420200A (zh) * 2022-01-19 2022-04-29 时代生物科技(深圳)有限公司 一种功能性肽的筛选方法
CN115410645A (zh) * 2022-08-23 2022-11-29 北京泽桥医疗科技股份有限公司 一种识别中成药治疗新冠肺炎作用靶点的方法
CN116312814A (zh) * 2021-12-02 2023-06-23 复旦大学 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒
WO2023152664A1 (en) * 2022-02-09 2023-08-17 B.Y. Quantitative Medicine Limited Analytic platform using npm1-associated genes interaction network for identifying genetic traits
CN116913370A (zh) * 2023-09-06 2023-10-20 佛山市妇幼保健院 人脐带间充质干细胞治疗宫腔粘连的circRNA靶点筛选方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009100430A2 (en) * 2008-02-08 2009-08-13 Asuragen, Inc miRNAs DIFFERENTIALLY EXPRESSED IN LYMPH NODES FROM CANCER PATIENTS
CN103861121A (zh) * 2012-12-10 2014-06-18 中国医学科学院基础医学研究所 微小RNA分子miR491-5p在胰腺癌的治疗和/或诊断和/或预后中的用途
CN107385050A (zh) * 2017-08-04 2017-11-24 上海易毕恩生物技术有限公司 用于检测胰腺癌的基因标志物、试剂盒及胰腺癌检测方法
CN107475363A (zh) * 2017-06-26 2017-12-15 深圳大学 一种非小细胞肺癌的生物标记物组合、该生物标记物组合的筛选及其应用
CN110554189A (zh) * 2018-05-30 2019-12-10 中国科学院上海生命科学研究院 胰腺癌诊断标志物及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009100430A2 (en) * 2008-02-08 2009-08-13 Asuragen, Inc miRNAs DIFFERENTIALLY EXPRESSED IN LYMPH NODES FROM CANCER PATIENTS
CN103861121A (zh) * 2012-12-10 2014-06-18 中国医学科学院基础医学研究所 微小RNA分子miR491-5p在胰腺癌的治疗和/或诊断和/或预后中的用途
CN107475363A (zh) * 2017-06-26 2017-12-15 深圳大学 一种非小细胞肺癌的生物标记物组合、该生物标记物组合的筛选及其应用
CN107385050A (zh) * 2017-08-04 2017-11-24 上海易毕恩生物技术有限公司 用于检测胰腺癌的基因标志物、试剂盒及胰腺癌检测方法
CN110554189A (zh) * 2018-05-30 2019-12-10 中国科学院上海生命科学研究院 胰腺癌诊断标志物及其应用

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ZHI-XIN WANG ET AL.: "Identification of a 4-miRNA signature as a potential prognostic biomarker for pancreatic adenocarcinoma", 《J CELL BIOCHEM.》 *
李萍等: "基于Oncomine数据库分析COL5A2基因在胰腺癌中的表达及其临床意义", 《生物技术通讯》 *
柳兴源等: "胰腺癌诊断和预后关键生物标志物的筛选鉴定和综合分析", 《肿瘤防治研究》 *
酸菜: "常用microRNA靶基因预测工具", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/85913001》 *
高杰等: "差异表达miRNA在胰腺癌预后判断中的价值", 《癌变▪畸变▪突变》 *
黎越等: "基于生物信息学分析胰腺癌的关键基因", 《医学研究杂志》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053453A (zh) * 2021-03-15 2021-06-29 中国农业科学院农业质量标准与检测技术研究所 应用转录组学筛选全氟辛烷磺酸毒性枢纽基因和关键信号通路的方法
CN113130002A (zh) * 2021-04-29 2021-07-16 吉林大学 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法
CN113130002B (zh) * 2021-04-29 2022-11-08 吉林大学 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法
CN113215261A (zh) * 2021-06-29 2021-08-06 北京泱深生物信息技术有限公司 胰腺癌的预后预测诊断用基因标记物及其用途
CN113724782A (zh) * 2021-08-19 2021-11-30 西安交通大学 一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法
CN113724782B (zh) * 2021-08-19 2024-04-02 西安交通大学 一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法
CN116312814A (zh) * 2021-12-02 2023-06-23 复旦大学 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒
CN113921084A (zh) * 2021-12-13 2022-01-11 山东大学齐鲁医院 疾病相关非编码rna调控轴多维靶向预测方法及系统
CN114420200A (zh) * 2022-01-19 2022-04-29 时代生物科技(深圳)有限公司 一种功能性肽的筛选方法
WO2023152664A1 (en) * 2022-02-09 2023-08-17 B.Y. Quantitative Medicine Limited Analytic platform using npm1-associated genes interaction network for identifying genetic traits
CN114203269B (zh) * 2022-02-17 2022-05-10 北京泽桥医疗科技股份有限公司 一种基于机器学习和分子对接技术的抗癌中药筛选方法
CN114203255A (zh) * 2022-02-17 2022-03-18 北京泽桥医疗科技股份有限公司 一种基于机器学习的中药抗癌关键靶标预测方法
CN114203269A (zh) * 2022-02-17 2022-03-18 北京泽桥医疗科技股份有限公司 一种基于机器学习和分子对接技术的抗癌中药筛选方法
CN115410645A (zh) * 2022-08-23 2022-11-29 北京泽桥医疗科技股份有限公司 一种识别中成药治疗新冠肺炎作用靶点的方法
CN115410645B (zh) * 2022-08-23 2023-07-21 北京泽桥医疗科技股份有限公司 一种识别中成药治疗新冠肺炎作用靶点的方法
CN116913370A (zh) * 2023-09-06 2023-10-20 佛山市妇幼保健院 人脐带间充质干细胞治疗宫腔粘连的circRNA靶点筛选方法
CN116913370B (zh) * 2023-09-06 2024-01-09 佛山市妇幼保健院 人脐带间充质干细胞治疗宫腔粘连的circRNA靶点筛选方法

Similar Documents

Publication Publication Date Title
CN112391470A (zh) 胰腺癌miRNA预后模型的确立及靶向基因的筛选方法
Sun et al. Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data
Luca et al. Atlas of clinically distinct cell states and ecosystems across human solid tumors
Yang et al. Candidate biomarkers and molecular mechanism investigation for glioblastoma multiforme utilizing WGCNA
Kristensen et al. Principles and methods of integrative genomic analyses in cancer
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
Yang et al. Target discovery from data mining approaches
CN111128299B (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
Jerby-Arnon et al. DIALOGUE maps multicellular programs in tissue from single-cell or spatial transcriptomics data
Kim et al. Decomposing oncogenic transcriptional signatures to generate maps of divergent cellular states
Yang et al. Identification of hub genes and outcome in colon cancer based on bioinformatics analysis
Karagoz et al. Integration of multiple biological features yields high confidence human protein interactome
Zhao et al. Identification of pan-cancer prognostic biomarkers through integration of multi-omics data
Wang et al. Identification of important modules and hub gene in chronic kidney disease based on WGCNA
Speyer et al. Differential pathway dependency discovery associated with drug response across cancer cell lines
Wang et al. Identification of cuproptosis-related asthma diagnostic genes by WGCNA analysis and machine learning
Bhattacharjya et al. Exploring Gene Regulatory Interaction Networks and predicting therapeutic molecules for Hypopharyngeal Cancer and EGFR-mutated lung adenocarcinoma
Li et al. Identification of inflammation-related genes and exploration of regulatory mechanisms in patients with osteonecrosis of the femoral head
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
Wang et al. Using feature selection and Bayesian network identify cancer subtypes based on proteomic data
Zhou et al. Elucidating the molecular mechanisms of sepsis: identifying key aging‐related biomarkers and potential therapeutic targets in the treatment of sepsis
EP4305191A1 (en) Systems and methods for identifying microbial biosynthetic genetic clusters
Wang et al. A cancer gene module mining method based on bio-network of multi-omics gene groups
Cao et al. A subnetwork-based framework for prioritizing and evaluating prognostic gene modules from cancer transcriptome data
Xia et al. Identifying TME signatures for cervical cancer prognosis based on GEO and TCGA databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210223

WD01 Invention patent application deemed withdrawn after publication