CN107832585A - 一种RNAseq数据分析方法 - Google Patents

一种RNAseq数据分析方法 Download PDF

Info

Publication number
CN107832585A
CN107832585A CN201711184654.4A CN201711184654A CN107832585A CN 107832585 A CN107832585 A CN 107832585A CN 201711184654 A CN201711184654 A CN 201711184654A CN 107832585 A CN107832585 A CN 107832585A
Authority
CN
China
Prior art keywords
data
transcript
research
quality
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711184654.4A
Other languages
English (en)
Inventor
于思创
王海云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanning Keicheng Mdt Infotech Ltd
Original Assignee
Nanning Keicheng Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanning Keicheng Mdt Infotech Ltd filed Critical Nanning Keicheng Mdt Infotech Ltd
Priority to CN201711184654.4A priority Critical patent/CN107832585A/zh
Publication of CN107832585A publication Critical patent/CN107832585A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种RNAseq数据分析方法①原始测序数据→序列数据的质量评估(QC)→各类统计学分析和功能注释;②不同个体原始测序数据→序列数据的质量评估(QC)→各类统计学分析和功能注释。本发明采用临床样本对其进行定位定量的表达验证,寻找其与临床相关性的证据,评价临床价值,为肝癌发病学和肝癌机制研究提供新的线索。课题筛选的肝癌关键分子将为探索与早期发现、分类、评价预后相关的肝癌标志物,以及选择更加有效、准确的肝癌治疗靶位奠定研究基础。

Description

一种RNAseq数据分析方法
技术领域
本发明涉及基因转录组学和蛋白质组学领域,尤其是一种RNAseq数据分析方法。
背景技术
在生物学及医学研究中,很重要的一个领域是对生物系统和生命进程的结构、功能及调控的观察。但在过去的几百年间,生物学家一直关注于单个基因或蛋白质在生物系统内的表达变化和功能,而不能从全局的、整体的角度来研究生命体系的变化。随着医学的进步,人们发现很多疾病,特别是癌症的发生往往是多因素、多基因、多途径协同作用导致的。这就需要一个可以全面的、动态的、系统的研究生命体系的技术和手段,于是“组学”概念应运而生[3]。但随着人类基因组计划的完成,人们发现于仅仅从基因组学的角度无法完全正确预测基因转录过程中发生的剪切、拼接以及在翻译时开放阅读框架密码子的起始、终止位置和翻译后的各种修饰情况。
在基因表达研究中,广泛的基因分析可以对生理状态或者是一个细胞表型有关的基因进行系统监测,可以利用高通量分析在数据输出和获取数据快捷两方面的优势,对疾病过程中的功能候选基因进行鉴定。微阵列技术的成熟,使研究人员通过转录组测序研究,寻找感兴趣的标记基因。正如肿瘤基因表达对各种来源的组织和患者存活结果的相关性分析例子一样,通过微阵列技术进行的基因表达分析研究将在生物标记发现过程中继续扮演重要作用。
尽管微阵列的分析能力很强大,转录组学研究平台只包括那些适应生长条件变化细胞的转录物。大多数细胞内和细胞间的生物化学过程都会受到蛋白质-蛋白质或者其他蛋白质-底物相互作用的影响。蛋白质组水平的基因表达分析提供了一个快速的可控制生物合成的过程,其中大部分是由转录组学平台调控的。同时,转录组本身通过表达的蛋白质或者是细胞生化状态下其他的变化,进行反馈控制。
换句话说,基因表达不仅仅是从转录组到蛋白质组的单向流动,而是两者的相互连接。对这种功能调控的了解通常只限于特殊的信号途径,或者是新陈代谢途径。要了解转录组和蛋白质组之间的相互调控作用,需要对RNA和蛋白质的表达进行整体同步监测。
转录组学、蛋白质组学和生物信息学研究技术的进步为研究复杂生物系统开辟了崭新的途径,将三者连接到一起的整合研究可以揭示疾病发生时从基因携带的遗传信息转变为可辨别表型的整个过程中的异常,其采集的海量信息涵盖了疾病发病学和疾病机制中的关键功能节点,可用来鉴定肿瘤相关基因及其表达的蛋白质,使得数以千计的基因和蛋白质的分析成为可能,为探索早期发现、分类、评价预后的肿瘤标志物,以及选择更加有效、准确的肿瘤治疗靶位提供了可靠的保证。
新一代Ion proton测序仪采用半导体芯片技术,测序速度快,且具有极高的扩展性,通过专有的大规模并行半导体感应器,对DNA复制时产生的离子流实现直接和实时的检测。当试剂通过集成的流体通路进入芯片中,密布于芯片上的反应孔立即成为上百万个微反应体系。这种独特的流体体系、微体系机械设计和半导体的技术组合,使研究人员能够在2小时内获取从10Mb到1Gb以上的高精确度序列。此外,Ion Proton测序仪和Ion Reporter分析软件可在一台独立的服务器完成单个基因组的分析,打破了目前的数据分析瓶颈,大大降低了研究成本,提高了检测的速度和准确性,在科研和临床上均有很好的应用;到目前为止,在已发表的整合分析文章中,大多数LC-MS分析是与稳定同位素标记联合使用的,尤其是iTRAQ试剂。即便采用的技术不同,迄今为止公开发表的整合分析都指出了转录组学和蛋白组学的重要性。转录组学或蛋白组学通常只考虑调节系统和分解作用平衡态的净效应,实际上,出现的不一致性只是合成与降解两种替换过程中的一种反映,研究者对变化过程中的机制更感兴趣;此外,转录组学和蛋白组学分析要想整合成功,需要有效和精确的相互参考。研究人员需要灵活的定义自己的基因图谱,但也可能需要选择采用预定义的针对蛋白质的目标图,当新的基因组、转录组和蛋白组序列出现,研究人员需要及时注册更新,并且删除错误的信息。 生物信息学技术的发展使得肿瘤生物学过程中的基因转录、表达整个过程中的异常得以揭示,为肿瘤机制研究提供了线索。
本研究拟利用Ion Proton转录组测序和LC-MALDI差异蛋白组分析平台,开展肝癌生物学过程中的转录组和蛋白组学分析。通过构建肝癌大鼠模型,比较正常和肝癌组织中的基因转录和蛋白表达差异,对肝癌中转录组和蛋白组都出现异常的分子进行基因优化、可变剪接分析、新基因或新转录本筛选、表达量分析、差异表达分析、差异表达聚类分析和功能注释等生物信息学分析处理,筛选肝癌关键功能节点和肿瘤分子,并对其进行临床验证和临床价值评估。本研究将为肝癌发病学和肝癌机制研究提供新的线索。
RNAseq数据分析方法是该项研究中不可或缺的构成部分,地位非常重要,本发明一种RNAseq数据分析方法的技术方案,经检索国内同行业未见相同。
发明内容
本发明的目的是提供一种RNAseq数据分析方法。
这种RNAseq数据分析方法,
由以下步骤组成:
①原始测序数据→序列数据的质量评估(QC)→序列数据的预处理或者(A. QC图:碱基分布、每个循环的质量 和B.质控报告:总序列数、总碱基数、碱基Q20比例,测序的长度 )→由序列数据的预处理分别进行转录组对比或者(A去除rRNA和tRNA序列 B. 去除低质量reads)→由转录组对比分别进行基因表达水平研究或者(测序数据整体质量分析:A总reads数及mappable的reads数比例;数据质量Q20情况 B. 测序数据的饱合度水平 C. 测序reads对整个转录本的覆盖水平研究)或者(转录本结构研究、转录本结构变异研究、非编码区域功能研究)或者新转录本发现→由基因表达水平研究进行→SBC在线数据分析系统→各类统计学分析和功能注释;
②不同个体原始测序数据→序列数据的质量评估(QC)→序列数据的预处理或者(A.QC图:碱基分布、每个循环的质量 和B.质控报告:总序列数、总碱基数、碱基Q20比例,测序的长度)→由序列数据的预处理分别进行(A去除rRNA和tRNA序列 B. 去除低质量reads)或者转录组对比→转录组对分别进行(测序数据整体质量分析:A总reads数及mappable的reads数比例;数据质量Q20情况 B. 测序数据的饱合度水平 C. 测序reads对整个转录本的覆盖水平研究)或者差异表达 基因筛选→由差异表达 基因筛进行→各类统计学分析和功能注释。
所述的转录本结构研究包括: UTRs区域鉴定、Start condon鉴定、内含子边界鉴定、可变剪切研究。
转录本结构变异研究包括:融合基因鉴定、cSNP研究。
非编码区域功能研究包括:差异表达基因聚类 、差异基因GO富集、差异基因pathway富集 、蛋白质网络分析。
所述的新转录本发现包括:结构分析、功能预测。
发明有益效果:
本发明采用临床样本对其进行定位定量的表达验证,寻找其与临床相关性的证据,评价临床价值,为肝癌发病学和肝癌机制研究提供新的线索。课题筛选的肝癌关键分子将为探索与早期发现、分类、评价预后相关的肝癌标志物,以及选择更加有效、准确的肝癌治疗靶位奠定研究基础。
附图说明
图1是本发明的示意图。
具体实施方式
实施例:
这种RNAseq数据分析方法,
由以下步骤组成:
①原始测序数据→序列数据的质量评估(QC)→序列数据的预处理或者(A. QC图:碱基分布、每个循环的质量 和B.质控报告:总序列数、总碱基数、碱基Q20比例,测序的长度 )→由序列数据的预处理分别进行转录组对比或者(A去除rRNA和tRNA序列 B. 去除低质量reads)→由转录组对比分别进行基因表达水平研究或者(测序数据整体质量分析:A总reads数及mappable的reads数比例;数据质量Q20情况 B. 测序数据的饱合度水平 C. 测序reads对整个转录本的覆盖水平研究)或者(转录本结构研究、转录本结构变异研究、非编码区域功能研究)或者新转录本发现→由基因表达水平研究进行→SBC在线数据分析系统→各类统计学分析和功能注释;
②不同个体原始测序数据→序列数据的质量评估(QC)→序列数据的预处理或者(A.QC图:碱基分布、每个循环的质量 和B.质控报告:总序列数、总碱基数、碱基Q20比例,测序的长度)→由序列数据的预处理分别进行(A去除rRNA和tRNA序列 B. 去除低质量reads)或者转录组对比→转录组对分别进行(测序数据整体质量分析:A总reads数及mappable的reads数比例;数据质量Q20情况 B. 测序数据的饱合度水平 C. 测序reads对整个转录本的覆盖水平研究)或者差异表达 基因筛选→由差异表达 基因筛进行→各类统计学分析和功能注释。
所述的转录本结构研究包括: UTRs区域鉴定、Start condon鉴定、内含子边界鉴定、可变剪切研究。
转录本结构变异研究包括:融合基因鉴定、cSNP研究。
非编码区域功能研究包括:差异表达基因聚类 、差异基因GO富集、差异基因pathway富集 、蛋白质网络分析。
所述的新转录本发现包括:结构分析、功能预测。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种RNAseq数据分析方法,其特征在于:由以下步骤组成:
①原始测序数据→序列数据的质量评估(QC)→序列数据的预处理或者(A. QC图:碱基分布、每个循环的质量 和B.质控报告:总序列数、总碱基数、碱基Q20比例,测序的长度 )→由序列数据的预处理分别进行转录组对比或者(A去除rRNA和tRNA序列 B. 去除低质量reads)→由转录组对比分别进行基因表达水平研究或者(测序数据整体质量分析:A总reads数及mappable的reads数比例;数据质量Q20情况 B. 测序数据的饱合度水平 C. 测序reads对整个转录本的覆盖水平研究)或者(转录本结构研究、转录本结构变异研究、非编码区域功能研究)或者新转录本发现→由基因表达水平研究进行→SBC在线数据分析系统→各类统计学分析和功能注释;
②不同个体原始测序数据→序列数据的质量评估(QC)→序列数据的预处理或者(A.QC图:碱基分布、每个循环的质量 和B.质控报告:总序列数、总碱基数、碱基Q20比例,测序的长度)→由序列数据的预处理分别进行(A去除rRNA和tRNA序列 B. 去除低质量reads)或者转录组对比→转录组对分别进行(测序数据整体质量分析:A总reads数及mappable的reads数比例;数据质量Q20情况 B. 测序数据的饱合度水平 C. 测序reads对整个转录本的覆盖水平研究)或者差异表达 基因筛选→由差异表达 基因筛进行→各类统计学分析和功能注释。
2.根据权利要求1所述的一种RNAseq数据分析方法,其特征在于:所述的转录本结构研究包括: UTRs区域鉴定、Start condon鉴定、内含子边界鉴定、可变剪切研究。
3.根据权利要求1所述的一种RNAseq数据分析方法,其特征在于:所述的转录本结构变异研究包括:融合基因鉴定、cSNP研究。
4.根据权利要求1所述的一种RNAseq数据分析方法,其特征在于:所述的非编码区域功能研究包括:差异表达基因聚类 、差异基因GO富集、差异基因pathway富集 、蛋白质网络分析。
5.根据权利要求1所述的一种RNAseq数据分析方法,其特征在于:所述的新转录本发现包括:结构分析、功能预测。
CN201711184654.4A 2017-11-23 2017-11-23 一种RNAseq数据分析方法 Withdrawn CN107832585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711184654.4A CN107832585A (zh) 2017-11-23 2017-11-23 一种RNAseq数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711184654.4A CN107832585A (zh) 2017-11-23 2017-11-23 一种RNAseq数据分析方法

Publications (1)

Publication Number Publication Date
CN107832585A true CN107832585A (zh) 2018-03-23

Family

ID=61652498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711184654.4A Withdrawn CN107832585A (zh) 2017-11-23 2017-11-23 一种RNAseq数据分析方法

Country Status (1)

Country Link
CN (1) CN107832585A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063959A (zh) * 2018-06-22 2018-12-21 深圳弘睿康生物科技有限公司 一种样本质量控制分析方法和系统
CN111951896A (zh) * 2020-08-20 2020-11-17 杭州瀚因生命科技有限公司 基于临床样本的染色质可及性数据分析方法
CN115394360A (zh) * 2022-06-22 2022-11-25 淮南师范学院 一种用于时序生物组学大数据的穷尽分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101886114A (zh) * 2009-05-14 2010-11-17 上海聚类生物科技有限公司 基于rmi指数的高通量测序数据分析方法
CN103177197A (zh) * 2011-12-22 2013-06-26 上海聚类生物科技有限公司 基于高通量测序检测差异表达与可变剪切分析的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101886114A (zh) * 2009-05-14 2010-11-17 上海聚类生物科技有限公司 基于rmi指数的高通量测序数据分析方法
CN103177197A (zh) * 2011-12-22 2013-06-26 上海聚类生物科技有限公司 基于高通量测序检测差异表达与可变剪切分析的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
南方基因: "转录组测序概述及实验分析流程", 《HTTP://WWW.SOUTHGENE.COM.CN/NEWSSHOW.PHP?CID=54&ID=58》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063959A (zh) * 2018-06-22 2018-12-21 深圳弘睿康生物科技有限公司 一种样本质量控制分析方法和系统
CN111951896A (zh) * 2020-08-20 2020-11-17 杭州瀚因生命科技有限公司 基于临床样本的染色质可及性数据分析方法
CN111951896B (zh) * 2020-08-20 2023-10-20 杭州瀚因生命科技有限公司 基于临床样本的染色质可及性数据分析方法
CN115394360A (zh) * 2022-06-22 2022-11-25 淮南师范学院 一种用于时序生物组学大数据的穷尽分析方法
CN115394360B (zh) * 2022-06-22 2024-02-02 淮南师范学院 一种用于时序生物组学大数据的穷尽分析方法

Similar Documents

Publication Publication Date Title
US11837328B2 (en) Methods and systems for detecting sequence variants
CN107828857A (zh) 一种转录组测序及RNAseq数据分析方法
US20220411881A1 (en) Methods and systems for identifying disease-induced mutations
He et al. Systems biology of kidney diseases
Bilello The agony and ecstasy of “OMIC” technologies in drug development
Hocquette Where are we in genomics?
US10600503B2 (en) Systems medicine platform for personalized oncology
CN107918724A (zh) 一种肝癌生物学过程中转录组和蛋白组学的生物信息分析方法
CN107832585A (zh) 一种RNAseq数据分析方法
Ezzell Proteins rule
CN107942073A (zh) 一种转录组测序和基于iTRAQ联合LC‑MALDI的差异蛋白组学分析方法
CN107885974A (zh) 一种肝癌生物学过程中的转录组和蛋白组学分析方法
Guzzi et al. Automatic summarisation and annotation of microarray data
CN107831308A (zh) 一种肝癌生物学过程中转录组和蛋白组学的免疫组化方法
Chavda et al. Clinical Applications of “Omics” Technology as a Bioinformatic Tool
CN107723355A (zh) 一种转录组测序
Vermeersch et al. Single-cell RNA sequencing in yeast using the 10× Genomics chromium device
Ljungberg et al. Spatial distribution of marker gene activity in the mouse lung during alveolarization
CN107860852A (zh) 一种基于iTRAQ联合LC、MALDI的差异蛋白组学
CN107875159A (zh) 一种肝癌大鼠模型的建立方法
CN107904308A (zh) 一种肝癌生物学过程中转录组和蛋白组学的rt‑pcr方法
CN107942055A (zh) 一种肝癌生物学过程中转录组和蛋白组学的elisa方法
CN107904295A (zh) 一种肝癌关键因子的临床验证和临床价值评估方法
Sundarasekar et al. Role of Genomics and Proteomics in Drug Discovery
Giansanti et al. Scalable integration of multiomic single-cell data using generative adversarial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180323