CN108715891B

CN108715891B - 一种转录组数据的表达定量方法及系统

Info

Publication number: CN108715891B
Application number: CN201810551976.6A
Authority: CN
Inventors: 何玮毅; 詹东亮; 尤民生
Original assignee: Fujian Agriculture and Forestry University
Current assignee: Fujian Agriculture and Forestry University
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2021-09-24
Anticipated expiration: 2038-05-31
Also published as: CN108715891A

Abstract

本发明公开了一种转录组数据的表达定量方法及系统，该转录组数据的表达定量方法包括：将转录组样品进行测序，获得数据，以及将数据比对上参考基因组，获得比对结果；处理比对结果，得到单碱基的测序深度；根据单碱基的测序深度和外显子长度计算外显子平均测序深度；根据外显子平均测序深度进行聚类，确定内参基因；根据外显子平均测序深度和内参基因的外显子平均测序深度，将转录组数据进行归一化定量。

Description

一种转录组数据的表达定量方法及系统

技术领域

本发明涉及生物信息技术领域，具体涉及一种转录组数据的表达定量方法及系统。

背景技术

目前转录组定量的信息分析方法，主要使用以下两种方法：

1.FPKM(Fragments Per Kilobase per Million mapped reads)。代表每百万测序片断中，中来自于某基因每千碱基长度的片断数。FPKM是将map到基因的片断数除以map到基因组上的所有片断数(以million为单位)与RNA的长度(以KB为单位)。

2.基于保守基因进行相对定量，它在RNA建库时，根据细胞的含量，加入一定比例的含有保守基因的标准品，在测序完成后，会将基因的表达量和标准品进行比较，得到一份相对表达量。这个方法的成本比较高，需要购买对应的标准品。同时还要对样品的分子数进行精确测量，比如先要测量待测样品中的RNA分子总量，再根据标准品的使用说明进行操作(每含有1000个RNA分子的待测样品，需要加入0.1mL的标准品)。此外，对人员技能的要求也比较高。

发明内容

本发明的目的在于提供一种转录组数据的表达定量方法及系统，用以解决现有技术中存在的问题。

为实现上述目的，本发明的技术方案为一种转录组数据的表达定量方法，该转录数据的表达定量方法包括：将转录组样品进行测序，获得数据，以及将数据比对上参考基因组，获得比对结果；处理比对结果，得到单碱基的测序深度；根据单碱基的测序深度和外显子长度计算外显子平均测序深度；根据外显子平均测序深度进行聚类，确定内参基因；根据外显子平均测序深度和内参基因的外显子平均测序深度，将转录组数据进行归一化定量。

可选的，将转录组样品进行测序，获得数据，以及将数据与参考基因组比对，获得比对结果，包括：将转录组样品通过Illumina平台进行测序，获得数据，以及将数据通过BWA与参考基因组比对，获得比对结果。

可选的，统计单碱基的测序深度，包括：通过SAMtools软件处理比对结果，得到单碱基的测序深度。

可选的，根据单碱基的测序深度和外显子长度计算外显子的平均测序深度，包括：累加外显子单碱基深度，再除以外显子长度。

可选的，根据外显子平均测序深度进行聚类，确定内参基因，包括：按外显子平均测序深度的相关性进行聚类，以及将表达稳定且平均测序深度最小的基因确定为内参基因。

可选的，根据外显子平均测序深度和内参基因的外显子平均测序深度，将转录组数据进行归一化定量，包括：将外显子平均测序深度除以参考基因的外显子平均测序深度，得到专利数据的表达量。

为实现上述目的，本发明的技术方案为一种转录组数据的表达定量系统，该转录数据的表达定量系统，包括：测序单元、比对单元、处理单元、计算单元、确定单元和定量单元；其中，测序单元，用于将转录组样品进行测序，获得数据；比对单元，用于将数据比对上参考基因组，获得比对结果；处理单元，处理比对结果，得到单碱基的测序深度；计算单元，用于根据单碱基的测序深度和外显子长度计算外显子平均测序深度；确定单元，用于根据外显子平均测序深度进行聚类，确定内参基因；定量单元，用于根据外显子平均测序深度和内参基因的外显子平均测序深度，将转录组数据进行归一化定量。

可选的，测序单元，具体用于将转录组样品通过Illumina平台进行测序，获得数据；比对单元，具体用于：将数据通过BWA与参考基因组比对，获得比对结果。

可选的，处理单元，具体用于：通过SAMtools软件处理比对结果，得到单碱基的测序深度。

可选的，计算单元，具体用于：累加外显子单碱基深度，再除以外显子长度。

可选的，确定单元，具体用于：按外显子平均测序深度的相关性进行聚类，以及将表达稳定且平均测序深度最小的基因确定为内参基因。

可选的，定量单元，具体用于：将外显子平均测序深度除以参考基因的外显子平均测序深度，得到专利数据的表达量。

本发明具有如下优点：

不需要加入标准品就能达到精确定量的效果，克服FPKM算法的局限性。

附图说明

图1为本发明实施例提供了一种转录组数据的表达定量方法的流程图。

图2为确定内参基因的示意图。

图3为本发明实施例提供了一种转录组数据的表达定量系统的示意图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

图1为本发明实施例提供了一种转录组数据的表达定量方法的流程图。如图1所示，该转录组数据的表达定量方法包括：

步骤S101：将转录组样品进行测序，获得数据。将数据比对上参考基因组，获得比对结果；

对转录组样品进行测序的方法包括但不限于Illumina平台，将数据与参考基因组比对上的方法包括但不限于BWA。

步骤S102：处理比对结果，统计单碱基的测序深度；

具体地，处理比对结果，通过SAMtools软件统计单碱基的测序深度，统计单碱基的测序深度的方法包括但不限于SAMtools软件。

步骤S103：根据单碱基的测序深度和外显子长度计算外显子平均测序深度；

具体地，将外显子单碱基深度进行累加，然后将累加后的单碱基深度除以外显子长度，得到外显子平均测序深度。

步骤S104：根据外显子平均测序深度进行聚类，确定内参基因。

具体地，按外显子平均测序深度的相关性进行聚类，以及将表达稳定且平均测序深度最小的基因确定为内参基因。

如图2所示，将两个样品中，平均测序深度的比值相近的聚成一类，样品1样品有3个基因(a,b,c)，平均测序深度分别为1，6，3；样品2有3个基因(a,b,c)，平均测序深度为2，4，6。我们可以将a，c这两个基因聚成一类。a基因，平均测序深度在样品2中是样品1的2倍(2/1)，c基因也是2倍(6/3)的关系。而b基因是2/3倍(4/6)，不能跟它们聚成一类。由于a基因的平均测序深度最小，进而确定a基因为内参基因。

当有多个样品时，可以先随机选择一个样品作为内参样品，与其他样品都做聚类，找到一个基因，如果这个基因在各个聚类中都存在，则选择它为内参基因；如果找到多个，则选择平均测序深度最小的。

步骤S105：根据外显子平均测序深度和内参基因的外显子平均测序深度，将转录组数据进行归一化定量。

假设有两个样品A和B，都有3个基因a,b,c，样品A和B对应的平均测序深度分别为1,2,3和2,10,6，找到的内参基因为a。则对于A样品，a,b,c基因的定量为:1/1,2/1,3/1，也就是1,2,3。而B样品中，a,b,c的定量为2/2,10/2,6/2，也就是1,5,3。

本发明使用高杂合的两个小菜蛾转录组进行测试，使用cufflinks软件来计算FPKM，统计出的相关系数只有0.03，而本发明实施例提供的转录组数据的表达定量方法，相关系数可以达到0.74。

实施例2

图3本发明实施例提供了一种转录数据的表达定量系统。如图3所示，该转录数据的表达定量系统包括：测序单元31、比对单元32、处理单元33、计算单元34、确定单元35和定量单元36。

测序单元31，用于将转录组样品进行测序，获得数据；比对单元32，用于将数据比对上参考基因组，获得比对结果；处理单元33，处理比对结果，得到单碱基的测序深度；计算单元34，用于根据单碱基的测序深度和外显子长度计算外显子平均测序深度；确定单元35，用于根据外显子平均测序深度进行聚类，确定内参基因；定量单元36，用于根据外显子平均测序深度和内参基因的外显子平均测序深度，将转录组数据进行归一化定量。

可选的，测序单元31，具体用于将转录组样品通过Illumina平台进行测序，获得数据。

可选的，比对单元32，具体用于：将数据通过BWA与参考基因组比对，获得比对结果。

可选的，处理单元33，具体用于：通过SAMtools软件处理比对结果，得到单碱基的测序深度。

可选的，计算单元34，具体用于：累加外显子单碱基深度，再除以外显子长度。

可选的，确定单元35，具体用于：按外显子平均测序深度的相关性进行聚类，以及将表达稳定的基因确定为内参基因。

确定单元35确定内参基因的描述可参照步骤S105中的描述。

可选的，定量单元36，具体用于：将外显子平均测序深度除以参考基因的外显子平均测序深度，得到专利数据的表达量。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种转录组数据的表达定量方法，其特征在于，所述方法，包括：

将转录组样品进行测序，获得数据，以及将所述数据比对上参考基因组，获得比对结果；

处理所述比对结果，得到单碱基的测序深度；

根据所述单碱基的测序深度和外显子长度计算外显子平均测序深度；

根据所述外显子平均测序深度进行聚类，将表达稳定且平均测序深度最小的基因确定内参基因；

根据外显子平均测序深度和内参基因的外显子平均测序深度，将转录组数据进行归一化定量；

所述将转录组样品进行测序，获得数据，以及将所述数据与参考基因组比对，获得比对结果，包括：

将转录组样品通过Illumina平台进行测序，获得数据，以及将所述数据通过BWA与参考基因组比对，获得比对结果；

所述统计单碱基的测序深度，包括：

通过SAMtools软件处理所述比对结果，得到单碱基的测序深度；

所述根据所述单碱基的测序深度和外显子长度计算外显子的平均测序深度，包括：

累加外显子单碱基深度，再除以所述外显子长度；

所述根据外显子平均测序深度和内参基因的外显子平均测序深度，将转录组数据进行归一化定量，包括：

将外显子平均测序深度除以参考基因的外显子平均测序深度，得到转录组数据的表达量。

2.一种转录组数据的表达定量系统，其特征在于，所述系统，包括：测序单元、比对单元、处理单元、计算单元、确定单元和定量单元；其中，

所述测序单元，用于将转录组样品进行测序，获得数据；

所述比对单元，用于将所述数据比对上参考基因组，获得比对结果；

所述处理单元，处理所述比对结果，得到单碱基的测序深度；

所述计算单元，用于根据所述单碱基的测序深度和外显子长度计算外显子平均测序深度；

所述确定单元，用于根据所述外显子平均测序深度进行聚类，将表达稳定且平均测序深度最小的基因确定内参基因；

所述定量单元，用于根据外显子平均测序深度和内参基因的外显子平均测序深度，将转录组数据进行归一化定量；

所述测序单元，具体用于将转录组样品通过Illumina平台进行测序，获得数据；

所述比对单元，具体用于：将所述数据通过BWA与参考基因组比对，获得比对结果；

所述处理单元，具体用于：

所述计算单元，具体用于：

累加外显子单碱基深度，再除以所述外显子长度；

所述定量单元，具体用于：