CN108715891B - 一种转录组数据的表达定量方法及系统 - Google Patents
一种转录组数据的表达定量方法及系统 Download PDFInfo
- Publication number
- CN108715891B CN108715891B CN201810551976.6A CN201810551976A CN108715891B CN 108715891 B CN108715891 B CN 108715891B CN 201810551976 A CN201810551976 A CN 201810551976A CN 108715891 B CN108715891 B CN 108715891B
- Authority
- CN
- China
- Prior art keywords
- sequencing depth
- data
- unit
- exons
- transcriptome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Zoology (AREA)
- Biotechnology (AREA)
- Wood Science & Technology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种转录组数据的表达定量方法及系统,该转录组数据的表达定量方法包括:将转录组样品进行测序,获得数据,以及将数据比对上参考基因组,获得比对结果;处理比对结果,得到单碱基的测序深度;根据单碱基的测序深度和外显子长度计算外显子平均测序深度;根据外显子平均测序深度进行聚类,确定内参基因;根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量。
Description
技术领域
本发明涉及生物信息技术领域,具体涉及一种转录组数据的表达定量方法及系统。
背景技术
目前转录组定量的信息分析方法,主要使用以下两种方法:
1.FPKM(Fragments Per Kilobase per Million mapped reads)。代表每百万测序片断中,中来自于某基因每千碱基长度的片断数。FPKM是将map到基因的片断数除以map到基因组上的所有片断数(以million为单位)与RNA的长度(以KB为单位)。
2.基于保守基因进行相对定量,它在RNA建库时,根据细胞的含量,加入一定比例的含有保守基因的标准品,在测序完成后,会将基因的表达量和标准品进行比较,得到一份相对表达量。这个方法的成本比较高,需要购买对应的标准品。同时还要对样品的分子数进行精确测量,比如先要测量待测样品中的RNA分子总量,再根据标准品的使用说明进行操作(每含有1000个RNA分子的待测样品,需要加入0.1mL的标准品)。此外,对人员技能的要求也比较高。
发明内容
本发明的目的在于提供一种转录组数据的表达定量方法及系统,用以解决现有技术中存在的问题。
为实现上述目的,本发明的技术方案为一种转录组数据的表达定量方法,该转录数据的表达定量方法包括:将转录组样品进行测序,获得数据,以及将数据比对上参考基因组,获得比对结果;处理比对结果,得到单碱基的测序深度;根据单碱基的测序深度和外显子长度计算外显子平均测序深度;根据外显子平均测序深度进行聚类,确定内参基因;根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量。
可选的,将转录组样品进行测序,获得数据,以及将数据与参考基因组比对,获得比对结果,包括:将转录组样品通过Illumina平台进行测序,获得数据,以及将数据通过BWA与参考基因组比对,获得比对结果。
可选的,统计单碱基的测序深度,包括:通过SAMtools软件处理比对结果,得到单碱基的测序深度。
可选的,根据单碱基的测序深度和外显子长度计算外显子的平均测序深度,包括:累加外显子单碱基深度,再除以外显子长度。
可选的,根据外显子平均测序深度进行聚类,确定内参基因,包括:按外显子平均测序深度的相关性进行聚类,以及将表达稳定且平均测序深度最小的基因确定为内参基因。
可选的,根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量,包括:将外显子平均测序深度除以参考基因的外显子平均测序深度,得到专利数据的表达量。
为实现上述目的,本发明的技术方案为一种转录组数据的表达定量系统,该转录数据的表达定量系统,包括:测序单元、比对单元、处理单元、计算单元、确定单元和定量单元;其中,测序单元,用于将转录组样品进行测序,获得数据;比对单元,用于将数据比对上参考基因组,获得比对结果;处理单元,处理比对结果,得到单碱基的测序深度;计算单元,用于根据单碱基的测序深度和外显子长度计算外显子平均测序深度;确定单元,用于根据外显子平均测序深度进行聚类,确定内参基因;定量单元,用于根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量。
可选的,测序单元,具体用于将转录组样品通过Illumina平台进行测序,获得数据;比对单元,具体用于:将数据通过BWA与参考基因组比对,获得比对结果。
可选的,处理单元,具体用于:通过SAMtools软件处理比对结果,得到单碱基的测序深度。
可选的,计算单元,具体用于:累加外显子单碱基深度,再除以外显子长度。
可选的,确定单元,具体用于:按外显子平均测序深度的相关性进行聚类,以及将表达稳定且平均测序深度最小的基因确定为内参基因。
可选的,定量单元,具体用于:将外显子平均测序深度除以参考基因的外显子平均测序深度,得到专利数据的表达量。
本发明具有如下优点:
不需要加入标准品就能达到精确定量的效果,克服FPKM算法的局限性。
附图说明
图1为本发明实施例提供了一种转录组数据的表达定量方法的流程图。
图2为确定内参基因的示意图。
图3为本发明实施例提供了一种转录组数据的表达定量系统的示意图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
图1为本发明实施例提供了一种转录组数据的表达定量方法的流程图。如图1所示,该转录组数据的表达定量方法包括:
步骤S101:将转录组样品进行测序,获得数据。将数据比对上参考基因组,获得比对结果;
对转录组样品进行测序的方法包括但不限于Illumina平台,将数据与参考基因组比对上的方法包括但不限于BWA。
步骤S102:处理比对结果,统计单碱基的测序深度;
具体地,处理比对结果,通过SAMtools软件统计单碱基的测序深度,统计单碱基的测序深度的方法包括但不限于SAMtools软件。
步骤S103:根据单碱基的测序深度和外显子长度计算外显子平均测序深度;
具体地,将外显子单碱基深度进行累加,然后将累加后的单碱基深度除以外显子长度,得到外显子平均测序深度。
步骤S104:根据外显子平均测序深度进行聚类,确定内参基因。
具体地,按外显子平均测序深度的相关性进行聚类,以及将表达稳定且平均测序深度最小的基因确定为内参基因。
如图2所示,将两个样品中,平均测序深度的比值相近的聚成一类,样品1样品有3个基因(a,b,c),平均测序深度分别为1,6,3;样品2有3个基因(a,b,c),平均测序深度为2,4,6。我们可以将a,c这两个基因聚成一类。a基因,平均测序深度在样品2中是样品1的2倍(2/1),c基因也是2倍(6/3)的关系。而b基因是2/3倍(4/6),不能跟它们聚成一类。由于a基因的平均测序深度最小,进而确定a基因为内参基因。
当有多个样品时,可以先随机选择一个样品作为内参样品,与其他样品都做聚类,找到一个基因,如果这个基因在各个聚类中都存在,则选择它为内参基因;如果找到多个,则选择平均测序深度最小的。
步骤S105:根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量。
假设有两个样品A和B,都有3个基因a,b,c,样品A和B对应的平均测序深度分别为1,2,3和2,10,6,找到的内参基因为a。则对于A样品,a,b,c基因的定量为:1/1,2/1,3/1,也就是1,2,3。而B样品中,a,b,c的定量为2/2,10/2,6/2,也就是1,5,3。
本发明使用高杂合的两个小菜蛾转录组进行测试,使用cufflinks软件来计算FPKM,统计出的相关系数只有0.03,而本发明实施例提供的转录组数据的表达定量方法,相关系数可以达到0.74。
实施例2
图3本发明实施例提供了一种转录数据的表达定量系统。如图3所示,该转录数据的表达定量系统包括:测序单元31、比对单元32、处理单元33、计算单元34、确定单元35和定量单元36。
测序单元31,用于将转录组样品进行测序,获得数据;比对单元32,用于将数据比对上参考基因组,获得比对结果;处理单元33,处理比对结果,得到单碱基的测序深度;计算单元34,用于根据单碱基的测序深度和外显子长度计算外显子平均测序深度;确定单元35,用于根据外显子平均测序深度进行聚类,确定内参基因;定量单元36,用于根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量。
可选的,测序单元31,具体用于将转录组样品通过Illumina平台进行测序,获得数据。
可选的,比对单元32,具体用于:将数据通过BWA与参考基因组比对,获得比对结果。
可选的,处理单元33,具体用于:通过SAMtools软件处理比对结果,得到单碱基的测序深度。
可选的,计算单元34,具体用于:累加外显子单碱基深度,再除以外显子长度。
可选的,确定单元35,具体用于:按外显子平均测序深度的相关性进行聚类,以及将表达稳定的基因确定为内参基因。
确定单元35确定内参基因的描述可参照步骤S105中的描述。
可选的,定量单元36,具体用于:将外显子平均测序深度除以参考基因的外显子平均测序深度,得到专利数据的表达量。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (2)
1.一种转录组数据的表达定量方法,其特征在于,所述方法,包括:
将转录组样品进行测序,获得数据,以及将所述数据比对上参考基因组,获得比对结果;
处理所述比对结果,得到单碱基的测序深度;
根据所述单碱基的测序深度和外显子长度计算外显子平均测序深度;
根据所述外显子平均测序深度进行聚类,将表达稳定且平均测序深度最小的基因确定内参基因;
根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量;
所述将转录组样品进行测序,获得数据,以及将所述数据与参考基因组比对,获得比对结果,包括:
将转录组样品通过Illumina平台进行测序,获得数据,以及将所述数据通过BWA与参考基因组比对,获得比对结果;
所述统计单碱基的测序深度,包括:
通过SAMtools软件处理所述比对结果,得到单碱基的测序深度;
所述根据所述单碱基的测序深度和外显子长度计算外显子的平均测序深度,包括:
累加外显子单碱基深度,再除以所述外显子长度;
所述根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量,包括:
将外显子平均测序深度除以参考基因的外显子平均测序深度,得到转录组数据的表达量。
2.一种转录组数据的表达定量系统,其特征在于,所述系统,包括:测序单元、比对单元、处理单元、计算单元、确定单元和定量单元;其中,
所述测序单元,用于将转录组样品进行测序,获得数据;
所述比对单元,用于将所述数据比对上参考基因组,获得比对结果;
所述处理单元,处理所述比对结果,得到单碱基的测序深度;
所述计算单元,用于根据所述单碱基的测序深度和外显子长度计算外显子平均测序深度;
所述确定单元,用于根据所述外显子平均测序深度进行聚类,将表达稳定且平均测序深度最小的基因确定内参基因;
所述定量单元,用于根据外显子平均测序深度和内参基因的外显子平均测序深度,将转录组数据进行归一化定量;
所述测序单元,具体用于将转录组样品通过Illumina平台进行测序,获得数据;
所述比对单元,具体用于:将所述数据通过BWA与参考基因组比对,获得比对结果;
所述处理单元,具体用于:
通过SAMtools软件处理所述比对结果,得到单碱基的测序深度;
所述计算单元,具体用于:
累加外显子单碱基深度,再除以所述外显子长度;
所述定量单元,具体用于:
将外显子平均测序深度除以参考基因的外显子平均测序深度,得到转录组数据的表达量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810551976.6A CN108715891B (zh) | 2018-05-31 | 2018-05-31 | 一种转录组数据的表达定量方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810551976.6A CN108715891B (zh) | 2018-05-31 | 2018-05-31 | 一种转录组数据的表达定量方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108715891A CN108715891A (zh) | 2018-10-30 |
CN108715891B true CN108715891B (zh) | 2021-09-24 |
Family
ID=63911746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810551976.6A Active CN108715891B (zh) | 2018-05-31 | 2018-05-31 | 一种转录组数据的表达定量方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108715891B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111607639A (zh) * | 2020-05-08 | 2020-09-01 | 深圳华大因源医药科技有限公司 | 基于内参进行宏基因组病原定量检测的方法和装置 |
CN112992266B (zh) * | 2021-02-05 | 2021-09-21 | 深圳裕康医学检验实验室 | 一种评估肿瘤免疫耗竭状态的方法、装置和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102952877A (zh) * | 2012-08-06 | 2013-03-06 | 深圳华大基因研究院 | 检测α珠蛋白基因拷贝数的方法和系统 |
CN105695581A (zh) * | 2016-03-10 | 2016-06-22 | 东华大学 | 一种基于二代测试平台的中通量基因表达分析方法 |
CN107203703A (zh) * | 2017-05-22 | 2017-09-26 | 人和未来生物科技(长沙)有限公司 | 一种转录组测序数据计算解读方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130289890A1 (en) * | 2012-04-30 | 2013-10-31 | International Business Machines Corporation | Rank Normalization for Differential Expression Analysis of Transcriptome Sequencing Data |
WO2016182893A1 (en) * | 2015-05-08 | 2016-11-17 | Teh Broad Institute Inc. | Functional genomics using crispr-cas systems for saturating mutagenesis of non-coding elements, compositions, methods, libraries and applications thereof |
-
2018
- 2018-05-31 CN CN201810551976.6A patent/CN108715891B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102952877A (zh) * | 2012-08-06 | 2013-03-06 | 深圳华大基因研究院 | 检测α珠蛋白基因拷贝数的方法和系统 |
CN105695581A (zh) * | 2016-03-10 | 2016-06-22 | 东华大学 | 一种基于二代测试平台的中通量基因表达分析方法 |
CN107203703A (zh) * | 2017-05-22 | 2017-09-26 | 人和未来生物科技(长沙)有限公司 | 一种转录组测序数据计算解读方法 |
Non-Patent Citations (3)
Title |
---|
A survey of best practices for RNA-seq data analysis;CONESA, A. 等;《Genome Biology》;20161231;1-19 * |
Mosdepth: quick coverage calculation for genomes and exomes;PEDERSEN, B.S.;《Bioinformatics》;20171031;第34卷(第5期);867-868 * |
昆虫RNA-Seq数据的分析流程;刘金定 等;《应用昆虫学报》;20131231;第50卷(第5期);1458-1468 * |
Also Published As
Publication number | Publication date |
---|---|
CN108715891A (zh) | 2018-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sheng et al. | Multi-perspective quality control of Illumina RNA sequencing data analysis | |
Zhu et al. | Nonparametric expression analysis using inferential replicate counts | |
Lowe et al. | Transcriptomics technologies | |
Wang et al. | Genome measures used for quality control are dependent on gene function and ancestry | |
Van Verk et al. | RNA-Seq: revelation of the messengers | |
Łabaj et al. | Characterization and improvement of RNA-Seq precision in quantitative transcript expression profiling | |
Wolf | Principles of transcriptome analysis and gene expression quantification: an RNA‐seq tutorial | |
Dillies et al. | A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis | |
US11043283B1 (en) | Systems and methods for automating RNA expression calls in a cancer prediction pipeline | |
Gogol-Döring et al. | An overview of the analysis of next generation sequencing data | |
Rieder et al. | meRanTK: methylated RNA analysis ToolKit | |
Locati et al. | Improving small RNA-seq by using a synthetic spike-in set for size-range quality control together with a set for data normalization | |
Yendrek et al. | The bench scientist's guide to statistical analysis of RNA-Seq data | |
CN103984879B (zh) | 一种测定待测基因组区域表达水平的方法及系统 | |
Ramachandran et al. | MaSC: mappability-sensitive cross-correlation for estimating mean fragment length of single-end short-read sequencing data | |
Marsh et al. | Bioinformatic analysis of bacteria and host cell dual RNA-sequencing experiments | |
CN108715891B (zh) | 一种转录组数据的表达定量方法及系统 | |
Pimentel et al. | Keep me around: intron retention detection and analysis | |
CN113470743A (zh) | 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法 | |
Bickhart et al. | RAPTR-SV: a hybrid method for the detection of structural variants | |
Gombolay et al. | Ribose-Map: a bioinformatics toolkit to map ribonucleotides embedded in genomic DNA | |
Broseus et al. | TALC: transcript-level aware long-read correction | |
Meyer et al. | ReadZS detects cell type-specific and developmentally regulated RNA processing programs in single-cell RNA-seq | |
Erhard et al. | RIP-chip enrichment analysis | |
Shen et al. | Alternative strategies for development of a reference transcriptome for quantification of allele specific expression in organisms having sparse genomic resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |