CN107506614A - 一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法 - Google Patents

一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法 Download PDF

Info

Publication number
CN107506614A
CN107506614A CN201610412510.9A CN201610412510A CN107506614A CN 107506614 A CN107506614 A CN 107506614A CN 201610412510 A CN201610412510 A CN 201610412510A CN 107506614 A CN107506614 A CN 107506614A
Authority
CN
China
Prior art keywords
ncrna
depth
prediction
bacterium
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610412510.9A
Other languages
English (en)
Other versions
CN107506614B (zh
Inventor
张翼
陈栋
程超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ABLIFE (WUHAN) Inc
Original Assignee
ABLIFE (WUHAN) Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ABLIFE (WUHAN) Inc filed Critical ABLIFE (WUHAN) Inc
Priority to CN201610412510.9A priority Critical patent/CN107506614B/zh
Publication of CN107506614A publication Critical patent/CN107506614A/zh
Application granted granted Critical
Publication of CN107506614B publication Critical patent/CN107506614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息技术领域,尤其涉及利用Illumina二代测序获得的碱基片段结合PeakCalling方法进行细菌非编码RNA的分析预测方法。该方法包括剔除rRNA的细菌二代测序数据;获得数据后,对数据进行以下分析:先对数据进行去污染和去低质量分析,获得Clean reads;然后将reads比对到细菌基因组上;进行转录单元的初步预测;过滤掉已注释的mRNA和ncRNA,获得预测的ncRNA;将ncRNA注释到已知的ncRNA数据库Rfam,获得最终的预测结果。本发明可以非常精确地预测细菌基因组中未注释的ncRNA,弥补了实验手段的不足,为后期的实验和科学研究提供很有利的支持。

Description

一种基于Illumina的转录组测序数据和PeakCalling方法的 细菌ncRNA预测方法
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法。
背景技术
2004年以来,二代测序技术以迅猛的速度发展起来,二代测序技术具有一次能并行对几十万到几百万条DNA分子进行序列测定,且读长较短的特点。其为科学和医学研究提供了很好的技术手段,在基因组组装以及基因表达等方面有很广泛的应用。
2006年美国的Illumina公司提出了自主研发的基因组分析平台,测序的基本原理是边合成边测序。由于其对样品质量要求不高,而且具有高准确性、高通量、高灵敏度和低运行成本等突出优势,使其很快成为二代测序平台的一支重要力量。Illumina测序平台,每次可以获得几十Gb到上百Gb的数据量,而且在几天的时间里就可以完成测序和转格式的工作。所以Illumina高通量测序仪一直深受广大科研工作者和医务人员的喜爱,成为他们很得力的科研工具。
随着越来越多的物种基因组测序工作的完成和完善,科研人员会更加关注转录调控和表观调控,其中基于RNA研究的转录调控是人们研究的热点。RNA在生命过程中起到的作用也被越来越多的人重视。除了我们常说的编码蛋白的mRNA之外,非编码RNA(non-coding RNA,ncRNA)的调控作用越来越凸显。在细菌中,ncRNA起到了重要的转录调控作用,它会和蛋白互作,引起翻译的活跃或抑制。因此我们需要对ncRNA给予更多的关注和研究。目前细菌ncRNA的预测往往采用实验手段,存在周期长,预测范围小等缺点。尽管近年来对于细菌ncRNA的预测,也采用高通量的数据,其中包含了生物信息学的方法,但比较依赖基因组的注释,如2011年的PNAS文章(Koo,Alleyne et al.2011),虽然也预测到了150个ncRNA,但其采用的是cluster方法,准确性会降低。
PeakCalling方法,是一种找峰(Peak)的方法,随着二代测序技术的成熟,逐渐发展起来的一种获得特殊位点的分析方法。它将二代测序获得的碱基序列比对到参考序列上,通过计算机程序结合一定的统计模型,寻找出比对上序列丰度较大的位置,也就是所谓的Peak,获得Peak的过程和方法称之为PeakCalling。由于不受众多条件的限制,且容易修改和复制,使其能够进行多种数据的分析,如ChIP-Seq,RNA-Seq和RIP-Seq等。但迄今为止PeakCalling的方法还没有用于ncRNA的预测和分析。
发明内容
针对现有技术存在的问题,本发明的主要目的在于提供一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法,包括:
通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;
过滤所述各组原始测序数据中的不合格数据,获得所述各个转录组的待分析数据(即clean reads,它是原始测序数据经过过滤处理后留下的数据);
对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:
1)将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;
2)利用bedtools等软件统计参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析;
3)根据比对深度,利用Peak Calling方法,获得参考基因组中所有的转录单元;
4)获得转录单元后,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息。
5)和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;
6)对ncRNA进行启动子和终止子预测,获得预测结果;
7)对超过1个样品的数据,可以将2到5个样品的ncRNA预测结果进行合并,获得合并后的ncRNA预测结果;
8)将最终的ncRNA预测结果比对到Rfam数据库中,获得ncRNA的功能注释结果。
在本发明的一个实施例中,不合格数据包括:低质量的reads,其中所述低质量的reads包括,序列中超过30%的碱基质量低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基。
在本发明的又一个实施例中,第一步分析中的比对是使用bowtie或bowtie2软件进行的。
在本发明的又一个实施例中,利用所述的bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果。
在本发明的又一个实施例中,利用bowtie2进行比对时,-N参数选择为1,采用--end-to-end比对模式,设置程序运行时的线程数为1~16;设置输出文件类型为sam格式。
在本发明的又一个实施例中,第二步分析使用bedtools的genomecov方法进行比对深度分析,选择-d参数。
在本发明的又一个实施例中,第三步分析使用PeakCalling方法预测转录单元,利用Perl编程语言的脚本进行分析和筛选,标准如下:
基因区域(Gene region)的peak的鉴定:从全基因组每条DNA序列的开始,以20bp为一个窗口(Window),5bp为一个步长(step),连续两个窗口的中位深度(medium depth)小于已有注释基因区的最大深度的20%则停下来,如果已经到了下一个同向基因的边界则强制停下来。
基因间区(Intergenic region)的peak的鉴定:首先通过发现一个窗口后面连续8个窗口(5bp为一个窗口)的中位深度都是其中位深度的2.5倍确定一个峰的开始,然后寻找其结束点,记录寻找过程中的中位深度最大值,直到找到连续5个窗口的中位深度小于这个最大值的8%,则停下来,如果已经找到间区的边界则强制停下来,作为峰的临时边界;然后从临时边界开始反方向查找,使用确定开始位点同样的方法找到一个终止位点,作为这个peak的起始和终止。
在本发明的又一个实施例中,第四步的分析中,获得转录单元之后,利用Perl脚本,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息。其中,转录单元宽度为其长度,reads数为比对到此单元上的reads个数,RPKM值为标准化之后的表达丰度,最高的深度为转录单元覆盖最深的深度,最高深度所在的基因组坐标位置则为最高深度的位置。
在本发明的又一个实施例中,第六步的分析中,需要对预测获得的ncRNA进行启动子(Promoter)和终止子(Terminator)预测,所使用的软件为:启动子预测软件为bprom,终止子预测软件为findterm,在使用这两款软件时,使用默认参数即可;对每个ncRNA,可同时进行启动子和终止子预测,对于获得了启动子或终止子的ncRNA,则认为是更加可信的ncRNA,在后续的研究中,优选这样的ncRNA进行分析研究。
在本发明的又一个实施例中,第七步的分析中,对于多个样品的预测结果,如果来自于同一个参考基因组,则会根据不同样品中ncRNA的预测位置进行合并,获得最终的ncRNA列表。
在本发明的又一个实施例中,第八步的分析中,使用blastn方法,将ncRNA的核酸序列比对到ncRNA数据库Rfam中,获得每个ncRNA的注释结果。
在本发明的又一个实施例中,使用blastn进行比对时,参数设置Evalue为1e-3,输出格式为制表符分割表格,其他选择默认参数。
目前细菌ncRNA的预测往往采用实验手段,如获得一个潜在ncRNA序列后,需要进行PCR扩增,以及用Northern Blot验证,一个验证周期下来,要花费几个月的时间;而且,一次生化实验,往往只能锁定一个或几个ncRNA,效率不高;因此传统的方法具有周期长,预测范围小等缺点。采用Illumina二代测序技术,我们可以同时获得细菌所有RNA的转录情况,也就是所有的ncRNA都在我们获得的序列中,通过PeakCalling的数据分析方法,借助计算机和编程语言,可以在全基因组范围内快速预测细菌的ncRNA,并通过和已知数据库的比对,对ncRNA的功能进行注释,能很好弥补实验手段的不足,为后期的实验和科学研究提供很有利的支持。
附图说明
图1是本发明一种基于Illumina的转录组测序数据结合PeakCalling的方法预测细菌ncRNA的流程图。
图2:PeakCalling方法获得Peak的示意图。
图3:ncRNA预测结果的长度分布图。
图4:ncRNA预测的展示图。
图5:本发明预测得到的ncRNA数量和PNAS文献比较图。
根据一组鼠疫耶尔森菌的数据,我们在3个样品中,共预测得到了405个ncRNA,远远多于PNAS文献中提到的150个ncRNA。
图6:在鼠疫耶尔森菌的数据中预测的Peak和已知的ncRNA做交集分析。
共有8个已知的ncRNA,在我们的获得的Peak中,有7个是被预测到的,说明预测的准确性是很高的。
具体实施方式
通过以下详细说明结合附图可以进一步理解本发明的特点和优点。所提供的实施例仅是对本发明方法的说明,而不以任何方式限制本发明揭示的其余内容。
除非另有说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不构成对本发明的限制。对于本领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为本发明的一部分。
本发明一种基于Illumina的转录组测序数据结合PeakCalling的方法预测细菌ncRNA的流程图见图1。
【实施例1】获得所述各个转录组的待分析数据
我们获得了一种鼠疫菌的转录组数据,具体物种信息为Yersinia Pestis,共有2个转录组的数据:野生株和敲除株。对于其RNA,先剔除掉里面的rRNA,再进行建库,然后通过Illumina测序平台获取某此鼠疫菌的2组rRNA剔除的转录组的原始测序数据;
获得转录组测序数据后,过滤所述各组原始测序数据中的不合格数据,不合格数据包括:低质量的reads,其中所述低质量的reads包括,序列中超过30%的碱基质量低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基。
经过以上的数据处理步骤后,就获得了上述2个转录组的待分析数据(即cleanreads,它是原始测序数据经过过滤处理后留下的数据),用于后续的ncRNA预测。
【实施例2】Peakcalling方法预测鼠疫菌的ncRNA
使用PeakCalling方法获得Peak的示意图,见图2。
1、将所述2个转录组的待分析数据分别比对到鼠疫菌的参考基因组;
使用bowtie或bowtie2软件进行比对,利用bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果;利用bowtie2进行比对时,-N参数选择为1,采用--end-to-end比对模式,设置程序运行时的线程数为1~16;设置输出文件类型为sam格式。
2、获得比对结果后,利用bedtools的genomecov方法统计每个样品的参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析,选择-d参数。
3、根据比对深度,对每个样品利用Peak Calling方法,获得参考基因组中所有的转录单元;
利用Perl编程语言的脚本进行分析和筛选,标准如下:
基因区域(Gene region)的peak的鉴定:从全基因组每条DNA序列的开始,以20bp为一个窗口(Window),5bp为一个步长(step),连续两个窗口的中位深度(medium depth)小于已有注释基因区的最大深度的20%则停下来,如果已经到了下一个同向基因的边界则强制停下来。
基因间区(Intergenic region)的peak的鉴定:首先通过发现一个窗口后面连续8个窗口(5bp为一个窗口)的中位深度都是其中位深度的2.5倍确定一个峰的开始,然后寻找其结束点,记录寻找过程中的中位深度最大值,直到找到连续5个窗口的中位深度小于这个最大值的8%,则停下来,如果已经找到间区的边界则强制停下来,作为峰的临时边界;然后从临时边界开始反方向查找,使用确定开始位点同样的方法找到一个终止位点,作为这个peak的起始和终止。
4、获得转录单元后,利用Perl脚本,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息。其中,转录单元宽度为其长度,reads数为比对到此单元上的reads个数,RPKM值为标准化之后的表达丰度,最高的深度为转录单元覆盖最深的深度,最高深度所在的基因组坐标位置则为最高深度的位置。
5、根据鼠疫菌的已知基因信息,将预测获得的转录单元和鼠疫菌已知的基因注释比较,获得新的ncRNA预测结果;
获得对Peak的统计后,我们需要根据物种的已知基因注释信息,来去掉和已知基因重叠的peak,剩下的peak就是我们预测得到的ncRNA。图2展示了PeakCalling方法获得Peak的示意图,从图中可以看到,通过PeakCalling方法,共预测到3个Peak,其中左边和右边的Peak,和已知的基因是重合的,中间的一个Peak是没有基因注释的。图3展示了预测的ncRNA的长度分布统计,从图中可以看出,ncRNA长度在50到500之间,比较符合ncRNA的长度特征。图4是对预测的ncRNA的一个具体实例展示,中间红色的Peak就是一个预测的ncRNA,它和一个已知的mRNA是在相反的DNA链上,因此是一个反义的ncRNA。
6、对ncRNA进行promoter和terminator预测,获得预测结果;
需要对预测获得的ncRNA进行启动子(Promoter)和终止子(Terminator)预测,启动子预测软件为bprom,终止子预测软件为findterm,在使用这两款软件时,使用默认参数即可;对每个ncRNA,可同时进行启动子和终止子预测,对于获得了启动子或终止子的ncRNA,则认为是更加可信的ncRNA,在后续的研究中,优选这样的ncRNA进行分析研究。
7、不同样品的ncRNA预测结果进行合并,获得合并后的预测结果;
对于多个样品的预测结果,如果来自同一个物种,可以对结果进行合并。本实例共有2个转录组样品,,因为是来自于同一个物种,因此会根据两个样品中ncRNA的预测位置进行合并,获得最终的ncRNA列表。
在本实例关于鼠疫耶尔森氏菌的ncRNA预测的研究中,共获得了405个ncRNA,而之前的另一项其他团队的研究,预测到了150个ncRNA,成果发表在PNAS杂志上,我们的预测数量要远远大于已发表的成果,见图5;将这405个预测的ncRNA和耶尔森氏菌已知的ncRNA进行了比较,发现8个已知的ncRNA中,有7个在的预测结果中,见图6,充分说明了本发明预测的准确性。8、使用blastn进行比对,参数设置Evalue为1e-3,输出格式为制表符分割表格,其他选择默认参数,将最终的ncRNA的核酸序列比对到ncRNA数据库Rfam中,获得每个ncRNA的注释结果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围。

Claims (9)

1.一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法,其特征在于,包括如下步骤:
通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;
过滤所述各组原始测序数据中的不合格数据,获得所述各个转录组的待分析数据;
对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:
1)将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;
2)利用bedtools等软件统计参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析;
3)根据比对深度,利用Peak Calling方法,获得参考基因组中所有的转录单元;
4)获得转录单元后,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息;
5)和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;
6)对ncRNA进行启动子和终止子预测,获得预测结果;
7)如果有多于1个样品,则2到5个样品的ncRNA预测结果进行合并,获得合并后的预测结果;
8)将合并后的ncRNA预测结果比对到Rfam数据库中,获得ncRNA的功能注释结果。
2.根据权利要求1所述的细菌ncRNA预测方法,其特征在于,所述各组原始测序数据中的不合格数据包括:低质量的reads,其中所述低质量的reads包括,序列中超过30%的碱基质量低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基。
3.根据权利要求1或2所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第1)步分析中的比对是使用bowtie或bowtie2软件进行的,利用bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果;利用bowtie2进行比对时,-N参数选择为1,采用--end-to-end比对模式,设置程序运行时的线程数为1~16;设置输出文件类型为sam格式。
4.根据权利要求3所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第2)步分析中使用bedtools的genomecov方法进行比对深度分析,选择-d参数。
5.根据权利要求4所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第3)步分析中使用PeakCalling方法预测转录单元,利用Perl编程语言的脚本进行分析和筛选,标准如下:
基因区域(Gene region)的peak的鉴定:从全基因组每条DNA序列的开始,以20bp为一个窗口(Window),5bp为一个步长(step),连续两个窗口的中位深度(medium depth)小于已有注释基因区的最大深度的20%则停下来,如果已经到了下一个同向基因的边界则强制停下来;
基因间区(Intergenic region)的peak的鉴定:首先通过发现一个窗口后面连续8个窗口(5bp为一个窗口)的中位深度都是其中位深度的2.5倍确定一个峰的开始,然后寻找其结束点,记录寻找过程中的中位深度最大值,直到找到连续5个窗口的中位深度小于这个最大值的8%,则停下来,如果已经找到间区的边界则强制停下来,作为峰的临时边界;然后从临时边界开始反方向查找,使用确定开始位点同样的方法找到一个终止位点,作为这个peak的起始和终止。
6.根据权利要求5所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第4)步分析中获得转录单元之后,利用Perl脚本,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息;其中,转录单元宽度为其长度,reads数为比对到此单元上的reads个数,RPKM值为标准化之后的表达丰度,最高的深度为转录单元覆盖最深的深度,最高深度所在的基因组坐标位置则为最高深度的位置。
7.根据权利要求6所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第6)步分析中,需要对预测获得的ncRNA进行启动子(Promoter)和终止子(Terminator)预测,所使用的软件为:启动子预测软件为bprom,终止子预测软件为findterm,在使用这两款软件时,使用默认参数即可;对每个ncRNA,可同时进行启动子和终止子预测,对于获得了启动子或终止子的ncRNA,则认为是更加可信的ncRNA,在后续的研究中,优选这样的ncRNA进行分析研究。
8.根据权利要求7所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第7)步分析中,对于多个样品的预测结果,如果来自于同一个参考基因组,则会根据不同样品中ncRNA的预测位置进行合并,获得最终的ncRNA列表。
9.根据权利要求8所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第8)步分析中,使用blastn方法,将ncRNA的核酸序列比对到ncRNA数据库Rfam中,获得每个ncRNA的注释结果,使用blastn进行比对时,参数设置Evalue为1e-3,输出格式为制表符分割表格,其他选择默认参数。
CN201610412510.9A 2016-06-14 2016-06-14 一种细菌ncRNA预测方法 Active CN107506614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610412510.9A CN107506614B (zh) 2016-06-14 2016-06-14 一种细菌ncRNA预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610412510.9A CN107506614B (zh) 2016-06-14 2016-06-14 一种细菌ncRNA预测方法

Publications (2)

Publication Number Publication Date
CN107506614A true CN107506614A (zh) 2017-12-22
CN107506614B CN107506614B (zh) 2021-07-02

Family

ID=60678397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610412510.9A Active CN107506614B (zh) 2016-06-14 2016-06-14 一种细菌ncRNA预测方法

Country Status (1)

Country Link
CN (1) CN107506614B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211628A (zh) * 2019-06-12 2019-09-06 湖南大学 一种基于高通量测序数据的溶源性噬菌体预测方法
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN110838341A (zh) * 2019-11-05 2020-02-25 广州基迪奥生物科技有限公司 一种ATAC-seq测序数据的生物信息分析方法
WO2020228046A1 (zh) * 2019-05-15 2020-11-19 深圳大学 一种从低质量核糖体印迹数据预测基因编码框的方法和系统
CN117198409A (zh) * 2023-09-15 2023-12-08 云南省农业科学院农业环境资源研究所 一种基于转录组数据的microRNA预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110135607A1 (en) * 2008-05-23 2011-06-09 John Sinclair Viral nucleic acid for the treatment of neurodegenerative disorders
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN105143469A (zh) * 2013-05-24 2015-12-09 株式会社日立高新技术 核酸分析装置及使用其的核酸分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110135607A1 (en) * 2008-05-23 2011-06-09 John Sinclair Viral nucleic acid for the treatment of neurodegenerative disorders
CN105143469A (zh) * 2013-05-24 2015-12-09 株式会社日立高新技术 核酸分析装置及使用其的核酸分析方法
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐杰: "布鲁氏菌转录组测序分析及sRNA功能研究", 《中国博士学位论文全文数据库医药卫生科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228046A1 (zh) * 2019-05-15 2020-11-19 深圳大学 一种从低质量核糖体印迹数据预测基因编码框的方法和系统
CN110211628A (zh) * 2019-06-12 2019-09-06 湖南大学 一种基于高通量测序数据的溶源性噬菌体预测方法
CN110211628B (zh) * 2019-06-12 2022-06-07 湖南大学 一种基于高通量测序数据的溶源性噬菌体预测方法
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN110838341A (zh) * 2019-11-05 2020-02-25 广州基迪奥生物科技有限公司 一种ATAC-seq测序数据的生物信息分析方法
CN110838341B (zh) * 2019-11-05 2021-05-18 广州基迪奥生物科技有限公司 一种ATAC-seq测序数据的生物信息分析方法
CN117198409A (zh) * 2023-09-15 2023-12-08 云南省农业科学院农业环境资源研究所 一种基于转录组数据的microRNA预测方法及系统

Also Published As

Publication number Publication date
CN107506614B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
Kotopka et al. Model-driven generation of artificial yeast promoters
CN107506614A (zh) 一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法
Efroni et al. Quantification of cell identity from single-cell gene expression profiles
JP6066924B2 (ja) Dna配列のデータ解析法
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
CN105279391A (zh) 一种宏基因组16S rRNA的高通量测序数据处理及分析流程控制方法
CN105740650A (zh) 一种快速准确鉴定高通量基因组数据污染源的方法
CN109559780A (zh) 一种高通量测序的rna数据处理方法
Todorov et al. Computational approaches for high‐throughput single‐cell data analysis
CN114708910B (zh) 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法
CN114008712A (zh) 用于蛋白质工程和生产的方法和系统
JP2016518822A (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
CN111863127A (zh) 一种构建植物转录因子对靶基因遗传调控网络的方法
CN110838341B (zh) 一种ATAC-seq测序数据的生物信息分析方法
CN114974411A (zh) 宏基因组病原微生物基因组数据库及其构建方法
CN113096737B (zh) 一种用于对病原体类型进行自动分析的方法及系统
CN103348350B (zh) 核酸信息处理装置及其处理方法
KR101506916B1 (ko) miRNA 탐색 자동화 시스템을 이용하여 시료로부터 miRNA를 자동으로 동정하는 방법
Forsberg et al. CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data
KR102440452B1 (ko) 핵산서열 분석 기반 유전자 변이 해석 방법
CN106326689A (zh) 确定群体中受到选择作用的位点的方法和装置
Menzel et al. NoPeak: k-mer-based motif discovery in ChIP-Seq data without peak calling
CN104484750B (zh) 生物信息项目的产品参数自动匹配方法及系统
Kielpinski et al. Reproducible analysis of sequencing-based RNA structure probing data with user-friendly tools
Mir et al. In vivo ChIP-Seq of nuclear receptors: a rough guide to transform frozen tissues into high-confidence genome-wide binding profiles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant