CN107506614A

CN107506614A - 一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法

Info

Publication number: CN107506614A
Application number: CN201610412510.9A
Authority: CN
Inventors: 张翼; 陈栋; 程超
Original assignee: ABLIFE (WUHAN) Inc
Current assignee: ABLIFE (WUHAN) Inc
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2017-12-22
Anticipated expiration: 2036-06-14
Also published as: CN107506614B

Abstract

本发明属于生物信息技术领域，尤其涉及利用Illumina二代测序获得的碱基片段结合PeakCalling方法进行细菌非编码RNA的分析预测方法。该方法包括剔除rRNA的细菌二代测序数据；获得数据后，对数据进行以下分析：先对数据进行去污染和去低质量分析，获得Clean reads；然后将reads比对到细菌基因组上；进行转录单元的初步预测；过滤掉已注释的mRNA和ncRNA，获得预测的ncRNA；将ncRNA注释到已知的ncRNA数据库Rfam，获得最终的预测结果。本发明可以非常精确地预测细菌基因组中未注释的ncRNA，弥补了实验手段的不足，为后期的实验和科学研究提供很有利的支持。

Description

一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法

技术领域

本发明涉及生物信息技术领域，尤其涉及一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法。

背景技术

2004年以来，二代测序技术以迅猛的速度发展起来，二代测序技术具有一次能并行对几十万到几百万条DNA分子进行序列测定，且读长较短的特点。其为科学和医学研究提供了很好的技术手段，在基因组组装以及基因表达等方面有很广泛的应用。

2006年美国的Illumina公司提出了自主研发的基因组分析平台，测序的基本原理是边合成边测序。由于其对样品质量要求不高，而且具有高准确性、高通量、高灵敏度和低运行成本等突出优势，使其很快成为二代测序平台的一支重要力量。Illumina测序平台，每次可以获得几十Gb到上百Gb的数据量，而且在几天的时间里就可以完成测序和转格式的工作。所以Illumina高通量测序仪一直深受广大科研工作者和医务人员的喜爱，成为他们很得力的科研工具。

随着越来越多的物种基因组测序工作的完成和完善，科研人员会更加关注转录调控和表观调控，其中基于RNA研究的转录调控是人们研究的热点。RNA在生命过程中起到的作用也被越来越多的人重视。除了我们常说的编码蛋白的mRNA之外，非编码RNA(non-coding RNA，ncRNA)的调控作用越来越凸显。在细菌中，ncRNA起到了重要的转录调控作用，它会和蛋白互作，引起翻译的活跃或抑制。因此我们需要对ncRNA给予更多的关注和研究。目前细菌ncRNA的预测往往采用实验手段，存在周期长，预测范围小等缺点。尽管近年来对于细菌ncRNA的预测，也采用高通量的数据，其中包含了生物信息学的方法，但比较依赖基因组的注释，如2011年的PNAS文章(Koo,Alleyne et al.2011)，虽然也预测到了150个ncRNA，但其采用的是cluster方法，准确性会降低。

PeakCalling方法，是一种找峰(Peak)的方法，随着二代测序技术的成熟，逐渐发展起来的一种获得特殊位点的分析方法。它将二代测序获得的碱基序列比对到参考序列上，通过计算机程序结合一定的统计模型，寻找出比对上序列丰度较大的位置，也就是所谓的Peak，获得Peak的过程和方法称之为PeakCalling。由于不受众多条件的限制，且容易修改和复制，使其能够进行多种数据的分析，如ChIP-Seq，RNA-Seq和RIP-Seq等。但迄今为止PeakCalling的方法还没有用于ncRNA的预测和分析。

发明内容

针对现有技术存在的问题，本发明的主要目的在于提供一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法，包括：

通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据；

过滤所述各组原始测序数据中的不合格数据，获得所述各个转录组的待分析数据(即clean reads，它是原始测序数据经过过滤处理后留下的数据)；

对所述各转录组获得的待分析数据进行如下步骤的分析和筛选：

1)将所述各个转录组的待分析数据分别比对到所述物种的参考基因组；

2)利用bedtools等软件统计参考基因组中每个位置的比对深度，对全基因组的比对深度进行定量分析；

3)根据比对深度，利用Peak Calling方法，获得参考基因组中所有的转录单元；

4)获得转录单元后，统计每个转录单元的宽度，比对上的reads数，RPKM标准化方法获得的表达丰度，最高的深度，最高深度的位置等信息。

5)和待测细菌所属物种已知的基因注释比较，获得新的ncRNA预测结果；

6)对ncRNA进行启动子和终止子预测，获得预测结果；

7)对超过1个样品的数据，可以将2到5个样品的ncRNA预测结果进行合并，获得合并后的ncRNA预测结果；

8)将最终的ncRNA预测结果比对到Rfam数据库中，获得ncRNA的功能注释结果。

在本发明的一个实施例中，不合格数据包括：低质量的reads，其中所述低质量的reads包括，序列中超过30％的碱基质量低于20的reads；修剪掉测序接头后序列长度低于16的reads；修剪掉低质量的碱基序列后序列长度低于16的reads，其中所述低质量碱基序列是指从3’端开始，测序质量值低于20的碱基。

在本发明的又一个实施例中，第一步分析中的比对是使用bowtie或bowtie2软件进行的。

在本发明的又一个实施例中，利用所述的bowtie软件比对时，参数的具体设置如下：使用-v参数，容许2个mismatch，输出2个最佳匹配结果。

在本发明的又一个实施例中，利用bowtie2进行比对时，-N参数选择为1，采用--end-to-end比对模式，设置程序运行时的线程数为1～16；设置输出文件类型为sam格式。

在本发明的又一个实施例中，第二步分析使用bedtools的genomecov方法进行比对深度分析，选择-d参数。

在本发明的又一个实施例中，第三步分析使用PeakCalling方法预测转录单元，利用Perl编程语言的脚本进行分析和筛选，标准如下：

基因区域(Gene region)的peak的鉴定：从全基因组每条DNA序列的开始，以20bp为一个窗口(Window)，5bp为一个步长(step)，连续两个窗口的中位深度(medium depth)小于已有注释基因区的最大深度的20％则停下来，如果已经到了下一个同向基因的边界则强制停下来。

基因间区(Intergenic region)的peak的鉴定：首先通过发现一个窗口后面连续8个窗口(5bp为一个窗口)的中位深度都是其中位深度的2.5倍确定一个峰的开始，然后寻找其结束点，记录寻找过程中的中位深度最大值，直到找到连续5个窗口的中位深度小于这个最大值的8％，则停下来，如果已经找到间区的边界则强制停下来，作为峰的临时边界；然后从临时边界开始反方向查找，使用确定开始位点同样的方法找到一个终止位点，作为这个peak的起始和终止。

在本发明的又一个实施例中，第四步的分析中，获得转录单元之后，利用Perl脚本，统计每个转录单元的宽度，比对上的reads数，RPKM标准化方法获得的表达丰度，最高的深度，最高深度的位置等信息。其中，转录单元宽度为其长度，reads数为比对到此单元上的reads个数，RPKM值为标准化之后的表达丰度，最高的深度为转录单元覆盖最深的深度，最高深度所在的基因组坐标位置则为最高深度的位置。

在本发明的又一个实施例中，第六步的分析中，需要对预测获得的ncRNA进行启动子(Promoter)和终止子(Terminator)预测，所使用的软件为：启动子预测软件为bprom，终止子预测软件为findterm，在使用这两款软件时，使用默认参数即可；对每个ncRNA，可同时进行启动子和终止子预测，对于获得了启动子或终止子的ncRNA，则认为是更加可信的ncRNA，在后续的研究中，优选这样的ncRNA进行分析研究。

在本发明的又一个实施例中，第七步的分析中，对于多个样品的预测结果，如果来自于同一个参考基因组，则会根据不同样品中ncRNA的预测位置进行合并，获得最终的ncRNA列表。

在本发明的又一个实施例中，第八步的分析中，使用blastn方法，将ncRNA的核酸序列比对到ncRNA数据库Rfam中，获得每个ncRNA的注释结果。

在本发明的又一个实施例中，使用blastn进行比对时，参数设置Evalue为1e-3，输出格式为制表符分割表格，其他选择默认参数。

目前细菌ncRNA的预测往往采用实验手段，如获得一个潜在ncRNA序列后，需要进行PCR扩增，以及用Northern Blot验证，一个验证周期下来，要花费几个月的时间；而且，一次生化实验，往往只能锁定一个或几个ncRNA，效率不高；因此传统的方法具有周期长，预测范围小等缺点。采用Illumina二代测序技术，我们可以同时获得细菌所有RNA的转录情况，也就是所有的ncRNA都在我们获得的序列中，通过PeakCalling的数据分析方法，借助计算机和编程语言，可以在全基因组范围内快速预测细菌的ncRNA，并通过和已知数据库的比对，对ncRNA的功能进行注释，能很好弥补实验手段的不足，为后期的实验和科学研究提供很有利的支持。

附图说明

图1是本发明一种基于Illumina的转录组测序数据结合PeakCalling的方法预测细菌ncRNA的流程图。

图2：PeakCalling方法获得Peak的示意图。

图3：ncRNA预测结果的长度分布图。

图4：ncRNA预测的展示图。

图5：本发明预测得到的ncRNA数量和PNAS文献比较图。

根据一组鼠疫耶尔森菌的数据，我们在3个样品中，共预测得到了405个ncRNA，远远多于PNAS文献中提到的150个ncRNA。

图6：在鼠疫耶尔森菌的数据中预测的Peak和已知的ncRNA做交集分析。

共有8个已知的ncRNA，在我们的获得的Peak中，有7个是被预测到的，说明预测的准确性是很高的。

具体实施方式

通过以下详细说明结合附图可以进一步理解本发明的特点和优点。所提供的实施例仅是对本发明方法的说明，而不以任何方式限制本发明揭示的其余内容。

除非另有说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不构成对本发明的限制。对于本领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为本发明的一部分。

本发明一种基于Illumina的转录组测序数据结合PeakCalling的方法预测细菌ncRNA的流程图见图1。

【实施例1】获得所述各个转录组的待分析数据

我们获得了一种鼠疫菌的转录组数据，具体物种信息为Yersinia Pestis，共有2个转录组的数据:野生株和敲除株。对于其RNA，先剔除掉里面的rRNA，再进行建库，然后通过Illumina测序平台获取某此鼠疫菌的2组rRNA剔除的转录组的原始测序数据；

获得转录组测序数据后，过滤所述各组原始测序数据中的不合格数据，不合格数据包括：低质量的reads，其中所述低质量的reads包括，序列中超过30％的碱基质量低于20的reads；修剪掉测序接头后序列长度低于16的reads；修剪掉低质量的碱基序列后序列长度低于16的reads，其中所述低质量碱基序列是指从3’端开始，测序质量值低于20的碱基。

经过以上的数据处理步骤后，就获得了上述2个转录组的待分析数据(即cleanreads，它是原始测序数据经过过滤处理后留下的数据)，用于后续的ncRNA预测。

【实施例2】Peakcalling方法预测鼠疫菌的ncRNA

使用PeakCalling方法获得Peak的示意图，见图2。

1、将所述2个转录组的待分析数据分别比对到鼠疫菌的参考基因组；

使用bowtie或bowtie2软件进行比对，利用bowtie软件比对时，参数的具体设置如下：使用-v参数，容许2个mismatch，输出2个最佳匹配结果；利用bowtie2进行比对时，-N参数选择为1，采用--end-to-end比对模式，设置程序运行时的线程数为1～16；设置输出文件类型为sam格式。

2、获得比对结果后，利用bedtools的genomecov方法统计每个样品的参考基因组中每个位置的比对深度，对全基因组的比对深度进行定量分析，选择-d参数。

3、根据比对深度，对每个样品利用Peak Calling方法，获得参考基因组中所有的转录单元；

利用Perl编程语言的脚本进行分析和筛选，标准如下：

4、获得转录单元后，利用Perl脚本，统计每个转录单元的宽度，比对上的reads数，RPKM标准化方法获得的表达丰度，最高的深度，最高深度的位置等信息。其中，转录单元宽度为其长度，reads数为比对到此单元上的reads个数，RPKM值为标准化之后的表达丰度，最高的深度为转录单元覆盖最深的深度，最高深度所在的基因组坐标位置则为最高深度的位置。

5、根据鼠疫菌的已知基因信息，将预测获得的转录单元和鼠疫菌已知的基因注释比较，获得新的ncRNA预测结果；

获得对Peak的统计后，我们需要根据物种的已知基因注释信息，来去掉和已知基因重叠的peak，剩下的peak就是我们预测得到的ncRNA。图2展示了PeakCalling方法获得Peak的示意图，从图中可以看到，通过PeakCalling方法，共预测到3个Peak，其中左边和右边的Peak，和已知的基因是重合的，中间的一个Peak是没有基因注释的。图3展示了预测的ncRNA的长度分布统计，从图中可以看出，ncRNA长度在50到500之间，比较符合ncRNA的长度特征。图4是对预测的ncRNA的一个具体实例展示，中间红色的Peak就是一个预测的ncRNA，它和一个已知的mRNA是在相反的DNA链上，因此是一个反义的ncRNA。

6、对ncRNA进行promoter和terminator预测，获得预测结果；

需要对预测获得的ncRNA进行启动子(Promoter)和终止子(Terminator)预测，启动子预测软件为bprom，终止子预测软件为findterm，在使用这两款软件时，使用默认参数即可；对每个ncRNA，可同时进行启动子和终止子预测，对于获得了启动子或终止子的ncRNA，则认为是更加可信的ncRNA，在后续的研究中，优选这样的ncRNA进行分析研究。

7、不同样品的ncRNA预测结果进行合并，获得合并后的预测结果；

对于多个样品的预测结果，如果来自同一个物种，可以对结果进行合并。本实例共有2个转录组样品，，因为是来自于同一个物种，因此会根据两个样品中ncRNA的预测位置进行合并，获得最终的ncRNA列表。

在本实例关于鼠疫耶尔森氏菌的ncRNA预测的研究中，共获得了405个ncRNA，而之前的另一项其他团队的研究，预测到了150个ncRNA，成果发表在PNAS杂志上，我们的预测数量要远远大于已发表的成果，见图5；将这405个预测的ncRNA和耶尔森氏菌已知的ncRNA进行了比较，发现8个已知的ncRNA中，有7个在的预测结果中，见图6，充分说明了本发明预测的准确性。8、使用blastn进行比对，参数设置Evalue为1e-3，输出格式为制表符分割表格，其他选择默认参数，将最终的ncRNA的核酸序列比对到ncRNA数据库Rfam中，获得每个ncRNA的注释结果。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法，其特征在于，包括如下步骤：

过滤所述各组原始测序数据中的不合格数据，获得所述各个转录组的待分析数据；

4)获得转录单元后，统计每个转录单元的宽度，比对上的reads数，RPKM标准化方法获得的表达丰度，最高的深度，最高深度的位置等信息；

6)对ncRNA进行启动子和终止子预测，获得预测结果；

7)如果有多于1个样品，则2到5个样品的ncRNA预测结果进行合并，获得合并后的预测结果；

8)将合并后的ncRNA预测结果比对到Rfam数据库中，获得ncRNA的功能注释结果。

2.根据权利要求1所述的细菌ncRNA预测方法，其特征在于，所述各组原始测序数据中的不合格数据包括：低质量的reads，其中所述低质量的reads包括，序列中超过30％的碱基质量低于20的reads；修剪掉测序接头后序列长度低于16的reads；修剪掉低质量的碱基序列后序列长度低于16的reads，其中所述低质量碱基序列是指从3’端开始，测序质量值低于20的碱基。

3.根据权利要求1或2所述的细菌ncRNA预测方法，其特征在于，对所述各转录组获得的待分析数据进行分析和筛选的第1)步分析中的比对是使用bowtie或bowtie2软件进行的，利用bowtie软件比对时，参数的具体设置如下：使用-v参数，容许2个mismatch，输出2个最佳匹配结果；利用bowtie2进行比对时，-N参数选择为1，采用--end-to-end比对模式，设置程序运行时的线程数为1～16；设置输出文件类型为sam格式。

4.根据权利要求3所述的细菌ncRNA预测方法，其特征在于，对所述各转录组获得的待分析数据进行分析和筛选的第2)步分析中使用bedtools的genomecov方法进行比对深度分析，选择-d参数。

5.根据权利要求4所述的细菌ncRNA预测方法，其特征在于，对所述各转录组获得的待分析数据进行分析和筛选的第3)步分析中使用PeakCalling方法预测转录单元，利用Perl编程语言的脚本进行分析和筛选，标准如下：

基因区域(Gene region)的peak的鉴定：从全基因组每条DNA序列的开始，以20bp为一个窗口(Window)，5bp为一个步长(step)，连续两个窗口的中位深度(medium depth)小于已有注释基因区的最大深度的20％则停下来，如果已经到了下一个同向基因的边界则强制停下来；

6.根据权利要求5所述的细菌ncRNA预测方法，其特征在于，对所述各转录组获得的待分析数据进行分析和筛选的第4)步分析中获得转录单元之后，利用Perl脚本，统计每个转录单元的宽度，比对上的reads数，RPKM标准化方法获得的表达丰度，最高的深度，最高深度的位置等信息；其中，转录单元宽度为其长度，reads数为比对到此单元上的reads个数，RPKM值为标准化之后的表达丰度，最高的深度为转录单元覆盖最深的深度，最高深度所在的基因组坐标位置则为最高深度的位置。

7.根据权利要求6所述的细菌ncRNA预测方法，其特征在于，对所述各转录组获得的待分析数据进行分析和筛选的第6)步分析中，需要对预测获得的ncRNA进行启动子(Promoter)和终止子(Terminator)预测，所使用的软件为：启动子预测软件为bprom，终止子预测软件为findterm，在使用这两款软件时，使用默认参数即可；对每个ncRNA，可同时进行启动子和终止子预测，对于获得了启动子或终止子的ncRNA，则认为是更加可信的ncRNA，在后续的研究中，优选这样的ncRNA进行分析研究。

8.根据权利要求7所述的细菌ncRNA预测方法，其特征在于，对所述各转录组获得的待分析数据进行分析和筛选的第7)步分析中，对于多个样品的预测结果，如果来自于同一个参考基因组，则会根据不同样品中ncRNA的预测位置进行合并，获得最终的ncRNA列表。

9.根据权利要求8所述的细菌ncRNA预测方法，其特征在于，对所述各转录组获得的待分析数据进行分析和筛选的第8)步分析中，使用blastn方法，将ncRNA的核酸序列比对到ncRNA数据库Rfam中，获得每个ncRNA的注释结果，使用blastn进行比对时，参数设置Evalue为1e-3，输出格式为制表符分割表格，其他选择默认参数。