一种利用宏基因组或宏转录组检测微生物的分析方法
技术领域
本发明涉及生物检测技术领域,更具体地,涉及一种利用宏基因组或宏转录组检测微生物的分析方法。
背景技术
微生物广泛存在于自然界,多数为单细胞生物。微生物通常包括病毒、细菌、真菌、原生动物和某些藻类等。绝大多数微生物对人类和动植物有益,对工农业及药物生产有利,但也有危害人类的一面,如食品和工农业产品的霉腐变质,实验室中动植物细胞或微生物纯培养物的污染,发酵工业中杂菌的污染;动植物体受病原微生物感染而患各种传染病等。正由于微生物无所不在,且人类息息相关。只有正确地认识和鉴定微生物物种,才能为人类所用或合理进行防治。
从食品产业和环境角度思考,通过微生物检验可以判断产品加工环境及产品卫生环境,能够对产品被微生物污染的程度作出正确的评价,为各项卫生管理工作提供科学依据,提供传染病和人类、动物和食物中毒的防治措施。微生物检验是以贯彻“预防为主”的卫生方针,可以有效地防止或者减少食物中毒、人畜共患病的发生,保障人民的身体健康;同时,它对提高产品质量,避免经济损失,保证出口等方面具有政治上和经济上的重要意义。
从环境防治的角度考虑,微生物检测技术针对多种因子污染对微生物的综合效应进行检测,以判断环境污染的历史状况,能有效弥补物理、化学检测的不足,在环境检测中有得天独厚的优势。
从医疗的角度考虑,快速检测出临床样本中的病原微生物对感染性疾病的诊断、治疗和预后有重要的临床意义。
目前,针对微生物的检测主要包括涂片镜检、分离培养、生理生化反应、免疫学检测等方法。其中,涂片镜检是指染色或不染色涂片,然后利用光镜或电镜镜检,主要针对病毒(电镜检查)、细菌、真菌和寄生虫;分离培养主要是指培养后用底物色原法,质谱法进行鉴定,主要针对病毒(细胞培养)、真菌和细菌;生化反应是指糖(醇)发酵试验、糖同化试验、同化氮源试验、明胶液化试验,脲酶试验等,主要针对真菌和细菌;免疫学检测主要是指皮内试验和血清免疫试验(ELISA、空斑减少中和试验方法),主要针对病毒、细菌、真菌和寄生虫;分子生物学检测是指荧光定量RT-PCR、PCR、16sDNA PCR等,主要针对病毒、细菌、真菌。尽管检测方法很多,但各种检测方法均存在一定的局限,如检测阳性率低、灵敏度低。部分病原体微生物无法培养。检测时间较长。16s鉴定、抗原抗体检测等检测技术仅仅能针对已知的微生物进行鉴定。现今暂无有效的检测方法能一次鉴定各种病微生物,为进一步防治或利用提供思路。
随着技术的发展,高通量测序技术的产生为一次快速鉴定多种类型微生物提出了新的方法。在国外,宏基因组测序技术已开始运用于微生物鉴定。利用宏基因组进行微生物的鉴定则无需进行培养、鉴定覆盖所有微生物、检测样本范围广、检测速度快、灵敏度高等优势。然而目前利用宏基因组的检测方法下机数据分析时间长、假阳性高、微生物检出率低,不利于利用宏基因组测序检测微生物的方法的推广和应用。
现有宏基因组数据分析一般是用单一的软件对序列进行组装,不会综合运用多种软件进行分析,综合评判分析结果。目前,普通宏基因组分析数据流程只单独运用单一软件进行序列组装,组装成Contigs/Scaffold后比对数据库进行物种注释。没有考虑不同测序数据类型的特点,而产生较多的假阳性结果。
二代测序序列组装常用De Bruijn Graph。De Bruijn Graph组装方法是首先将reads打断成长度为K(Kmer)的核酸片段,再利用Kmer间的(重叠)overlap关系构建DeBruijn Graph,再通过De Bruijn Graph得到较长的基因序列。De Bruijn Graph算法最早应用于细菌类小基因组的组装上,与OLC算法相比,De Bruijn Graph更适合于短序列的denovo组装。而OLC算法则更适合于长序列组装。但De Bruijn Graph组装算法将reads逐bp打断成长度为K的连续核酸序列,若这条reads中间由于测序错误有一个错误的碱基,那么在得到的Kmer中,也会有一些错误Kmer或者低频Kmer。再者根据短Kmer拼接而成,若一个碱基出错,后续拼接的序列出错的几率放大,所以通过De Bruijn Graph算法可能会出现由于组装错误而产生假阳性结果。此外,De Bruijn Graph算法难以对重复序列区域进行分析。
Megahit软件是一个简单易用,且内存需求低,对assembly N50表现都比较优异的组装软件。部分微生物的序列具有多重复序列,而单一组装方法后对序列进行分析是无法避免组装错误的发生。
综上所述现今宏基因组的数据分析方面仍然存在瓶颈,具体表现为:(1)高通量宏基因组检测具有灵敏性,但单一组装方式往往造成检测结果中的假阳性过多,特异性差,不能满足特异性要求高的鉴定方法的需求;(2)现有的宏基因组数据分析方法数据兼容性差,不能普遍适用于各测序类型;(3)现有的宏基因组测序数据分析方法尚难以兼顾不同测序数据类型的基础上,保证鉴定结果的准确性;(4)现有的宏基因组测序数据分析方法尚难以在保证鉴定结果准确性的基础上,大幅度加快分析速度,缩短分析时间。以上问题严重的制约宏基因组在微生物的检测中的发展和应用,
发明内容
本发明的目的是为了现有对样本快速确地检测样本中微生物的分析方法的不足,提供一种利用宏基因组测序快速准确检测样本微生物的分析方法。
本方法通过将样本宏基因组测序数据或宏转录组测序数据与微生物参考数据库进行比对,运用特定的质控标准组合不同方法的分析结果,过滤比对质量低、非特异性扩增、覆盖度低、低复杂度的序列,从而快速准确获得样本中微生物信息及其丰度信息,为非特定样本中非特定微生物检测提供快速准确及全面的结果。
为了实现上述目的,本发明是通过以下技术方案予以实现的:
本发明运用Megahit v1.1.1软件组装序列的同时,并行使用QIIME2软件双端拼接的脚本(qiime.join_paired_ends.py),将双端测序数据根据两端序列的重叠区进行配对连接。具体的,通过reads关系,根据两端reads进行两两比对,然后找到两端片段的重叠信息(overlap),利用overlap进行两两拼接,从而合并两端序列,延伸片段长度。若数据类型为单端(single-end,SE)测序数据,则不进行拼接。上述处理所得序列能真实还原插入片段序列信息。有利于精确分析微生物DNA的拷贝数目。通过双端拼接及序列组装方式延长序列信息,比对微生物多数据系统鉴定物种信息。并进一步过滤低质量结果,有效降低假阳性结果,提高结果准确性。最后综合考虑不同数据类型特点的分析结果,根据评估质量标准整合最优的分析结果。该方法有效兼顾不同测序数据类型的基础上,保证鉴定结果准确性。再者组装与两端序列合并的程序是并行,因此不会增加分析时间。在保证鉴定结果准确性的基础上,大幅度加快分析速度,缩短分析时间。
这里首先解释后文出现的相关词语的意思,
reads数指对比上的该微生物序列的片段数;reads的占比指对比上的该微生物序列片段数占比对上同类型微生物的总序列片段数的比例。
覆盖度:测序序列覆盖长度占具有参考序列大小的比例。
深度:测序得到该物种的bases数与参考基因组大小的比值。
物种丰度:该物种存在于样品中的相对数量及其相对比例。
因此本发明要求保护一种基于宏基因组或宏转录组测序的微生物检测鉴定分析方法,包括以下步骤:
S1创建微生物参考数据库,包括非关系型的微生物参考序列数据库及关系型微生物注释数据库;
S2.进行高通量测序,对测序数据进行数据质检及质控,得到高质量数据;
S3.高质量数据的物种比对,包括以下步骤:
S31对S2得到高质量数据进行组装,评估组装质量,将组装后数据比对到步骤S1中的微生物参考数据库,比对上微生物参考数据库的序列作为数据集1,统计数据集1所比对到的微生物物种信息、物种reads、reads占该物种比例、覆盖度、深度信息;
S32对S2得到高质量数据,高通量测序为双端测序,数据进行双端拼接,评估拼接效果,拼接后数据比对到步骤S1中的微生物参考数据库,比对上微生物参考数据库作为数据集2,
对S2得到高质量数据,高通量测序为单端测序,数据不进行拼接,比对到步骤S1中的微生物参考数据库,比对上微生物参考数据库作为数据集2,
统计数据集2所比对到的微生物物种信息、物种reads、reads占该物种比例、覆盖度、深度信息;
S4过滤数据集1、数据集2中比对质量低的序列、非特异性扩增序列、覆盖度低的序列及低复杂度序列;
S5.结果整合:
数据集1及数据集2能通过质量评估标准,则以数据集1的物种信息和数据集2的物种信息的交集为物种信息结果,数据集2的物种reads、reads占该物种比例、覆盖度、深度为对应物种的定量结果;
数据集1未能通过质量标准,而数据集2通过质量标准,则选用数据集2的微生物物种信息、物种reads、reads占该物种比例、覆盖度、深度结果为鉴定结果;
数据集2未能通过质量标准,数据1集通过质量标准,则选用数据集1的微生物物种信息、物种reads、reads占该物种比例、覆盖度、深度结果为鉴定结果;
数据集1、数据集2均未能通过质量标准,则该检测结果无效。
优选地,步骤S1中,微生物参考数据库由两个数据库组成,包括非关系型微生物参考序列数据库及关系型微生物注释数据库,两个数据库之间有严密的层级关系,包括应用层级和注释层级:
(1)微生物参考序列数据库属于应用层级,主要用于宏基因组测序的微生物检测分析比对的参考基因组数据库。该层级只包含微生物参考基因组序列,避免冗余搜索,降低搜索速度。微生物参考序列数据库序列主要从NCBI的NT库及NR库(ftp://ftp.ncbinlm.nih.gov/genomes)、Ensemble据库(http://ensemblgenomes.org/)、病毒变异资源数据库(Virus Variation Resource)及JGI Fungi Porta(http://genome.jgi.doe.gov)等多个权威数据库中获取,同时去除冗余重复,可信度低较短的基因组序列。以确保微生物序列的完整性、全面性及权威性、准确性。
(2)微生物注释数据库属于注释层级,主要用于对所鉴定的物种的属、种、亚型、拉丁文名、基因组大小、功能等进行注释。微生物注释数据库根据参考序列类型按照细菌、RNA病毒、DNA病毒、真菌、原生生物归类,并整理了所有物种的参考基因组的注释信息,包括病原微生物的属、种、亚型、拉丁文名、中文名、基因组大小、百科信息等相关信息。
优选地,步骤S1中,微生物参考序列数据库包含全面完整的细菌、真菌、病毒、寄生虫及其他微生物的基因组序列。
优选地,所述病原微生物数据库在NCBI数据库(ftp://ftp.ncbi.nlm.nih.gov/genomes/)上下载序列信息。
更优选地,所述微生物参考数据库整合多个权威数据库中微生物的较完整的基因组核酸序列,并进一步去除重复冗余或完整性较低的参考序列,既保证参考基因组序列的完整、全面,又能减少冗余的比对,提高搜索速度。
更优选地,步骤S1中,微生物多数据系统具有层次结构,分别设置微生物参考序列数据库和对应的微生物参考注释数据库,方便检索,缩短检索时间。
优选地,步骤S2中,所述数据质控为质检、低质量碱基过滤和接头过滤。
优选地,步骤S2中,FastQCv0.11.5对来自高通量测序的原始数据进行质检,并自动生成质检报告。以Q30作为每个碱基的测序质量质控标准。若Q30高于75%,才能通过质控。SOAPnuke v1.6.0对下机数据(raw data)进行质控过滤,去adapter和去低quality碱基(序列50%以上碱基质量低于20)过滤后得到cleandata。最后,根据FastQC v0.11.5作一步质检。
更优选地,根据不同数据类型利用SOAPnuke.filter选择适合过滤模式过滤低质量碱基。单端测序选择SE模式,双端测序选择PE模式。在SE模式下,若序列碱基质量不低于Q30的碱基比例小于整条序列的50%,则此read会被过滤掉,否则被保留。在PE模式下,只要有任意一端的read碱基质量不低于Q30的碱基比例小于50%,则这对reads一起被过滤,反之保留。
优选地,步骤S3中,同时运用组装法和双端拼接方法延长序列片段后再进行物种比对。
优选地,步骤S3中,所述的比对的标准均为FLAG≠4。
在BWA中自有一套算法去计算是否比对上,以及是怎么样的比对结果,因此用FLAG作为比对结果的评判:FLAG分别为以下几个标准,本发明选用的是不是4的所有结果。
FLAG的一览表:
0:比对到参考序列的正链上;
1:是paired-end或mate pair中的一条;
2:双末端比对的一条;
4:没有比对到参考序列上;
8:是paired-end或mate pair中的一条,且无法比对到参考序列上;
16:比对到参考序列的负链上;
32:双末端reads的另一条(mate)比对到参考序列的负链上;
64:这条read是mate 1;
128:这条read是mate 2。
优选地,步骤S3中,分别对数据集1和数据集2进行质量监控。
对于步骤S31,利用Quast软件以contigs、N50作为评价指标对组装质量进行监控,但由于测序数据量及测序片段长度的差异,组装指标的阈值会根据测序数据量及测序片段长度而制定,一般以测序总长度的1/3作为N50的组装质控指标。
对于步骤S32,双端测序数据则通过samtools统计拼接后reads,拼接后reads数大于双端reads数的25%为双端拼接的质控标准。单端测序数据,则不进行拼接及拼接质控。
优选地,步骤S31和步骤S32并行进行。
优选地,步骤S31中,运用Megahit对经过质控的数据以De Bruijn Graph算法组装成contigs,得到数据集1。
优选地,步骤S32中,利用QIIME根据数据类型进行拼接或不拼接:单端测序数据不进行拼接,双端测序数据进行拼接。
优选地,步骤S31中,数据集1使用BWA软件基于BWT提供的索引进行快速搜索,与微生物参考序列数据库进行比对,进行微生物物种鉴定。
对于步骤S4中,本发明对数据集1、数据集2过滤比对质量低的序列、过滤非特异性扩增序列、过滤覆盖度低的序列及过滤低复杂度序列,提高结果准确性。
优选地,步骤S4中,包括以下步骤:
S41.过滤低比对质量的序列;
S42.过滤非特异性扩增序列;
S43.覆盖率较低的序列;
S44.低复杂度的序列。
更优选地,步骤S4中,比对质量的序列为:MAPQ<37的序列。
更优选地,步骤S4中,非特异性扩增序列为:比对上物种的序列匹配度大于50%的序列长度低于该段序列的50%的序列。
比对上物种的序列匹配度大于50%的序列长度低于该段序列的50%的序列,该序列可能是由于建库过程中的PCR扩增引入的非特异性扩增等序列,因此需要过滤掉。
更优选地,步骤S4中,覆盖率较低的序列为:coverage≤0.01的序列。
低复杂度序列:指具极少信息含量的核苷酸段(例如:CACACACACA)。比对此类序列通常匹配分数较高,但没有生物学意义。
更优选地,步骤S4中,低复杂度序列为:DUST值>5的序列。
对于步骤S5,根据数据集1的组装质量及数据集2的拼接质量情况,整合检测分析结果,充分考虑数据类型的特点选择适合结果。
优选地,步骤S5中所述的质量评估标准为用Quast评估组装质量,质量标准:N50大于测序总长度的1/3。就是是说组装集的N50低于总长度的1/3,则不通过标准。用SHELL统计拼接后reads条数。质量标准:拼接后reads数大于双端reads数的25%,即是当拼接的reads数大于双端reads的25%,才能通过质量标准。单端测序数据,则不进行拼接及拼接质控。
优选地,步骤S31和步骤S32结果均需质控,过滤低质量结果后根据质控结果整合报告结果。
与现有技术相比,本发明具有如下有益效果:
本发明方法适用范围广,能检测多种类型微生物,兼容多种主流测序平台,兼顾单端、双端测序数据及长读长、短读长序列数据特点,可从各类型测序数据准确地分析样本内微生物物种及其丰度。本发明方法能够有效降低假阳性,克服大部分微生物无法培养的难点,准确、快速、全面检测各类型样本内微生物。
(1)结果更准确
本发明所述方法能对测序数据的质控去除低质量数据,能够进一步提高数据分析的准确性、降低数据的处理量,缩短处理时间。
本发明所述方法基于组装和拼接两种不同原理的方法对序列进行延伸,再进行比对。通过组装方式能把短序列组装延长还原物种序列,组装序列与微生物参考序列数据库比对,鉴定样本所含物种。但组装方式一定程度上存在组装误差,容易产生物种定量偏差。两端序列拼接能有效还原插入片段序列。本发明运用组装和拼接方法对序列信息进行延长,并根据质控结果整合报告结果。该方法一方面能校正组装误差,另一方面提高物种丰度信息准确度。此外,本发明结合两个软件的优势,充分考虑到各数据类型的特点,设定对应的质量评估标准,根据数据集的质量整合两种方法的结果。
更进一步,本发明还对低质量结果进行过滤,过滤两数据集中比对质量低的序列、非特异性扩增序列、覆盖度低的序列和低复杂度序列,降低假阳性结果,提高结果准确度。
(2)运算速度更快
本发明选用快速且相对准确的组装软件——Megahit,且采取Megahit组装与双端拼接并行的方式,减少运算时间。
此外,本发明所述微生物多数据库系统,具有层次清晰的逻辑结构,微生物参考序列数据库作为应用层级,用于比对。微生物注释数据库属于注释层级,用于注释。微生物参考序列数据库整合多个权威数据库中微生物的较完整的基因组核酸序列,进一步去除重复冗余或完整性较低的序列及物种相关信息。既保证参考基因组序列的完整、全面,又减少冗余比对,减少搜索时间。微生物注释数据库根据微生物参考序列数据库整理参考序列微生物的物种注释信息并构建微生物注释数据库的索引,减少注释搜索时间,提高数据访问性能,降低计算机运算负担。本发明微生物多数据库技术提供了一种集成多个异构数据源、实现序列及注释信息快速共享的有效方法。
(3)应用范围更广
本发明所述方法通过算法的选取以及参数调整、质控结果控制等设计可以适用于各类主流第二代测序平台(如Illumina、BGI、Ion Proton等),适用于分析宏基因组测序数据或宏转录组测序数据。更进一步,本发明充分考虑各主流平台的数据类型特点,考虑双端及单端测序数据类型,设计流程参数适用于各类型测序数据,并且充分考虑长读长序列或短读长序列特点进行分析。组装和拼接方法也助于适应各数据类型的特点。本发明应用场景更为普遍,兼顾不同测序数据类型特点的基础上,保证鉴定结果的准确性。
(4)检测范围更全
本发明所述方法有效解决了无法培养的微生物检测问题,无需预判未知微生物再进行检测。本发明所述方法微生物的鉴定具有无需培养、鉴定覆盖所有微生物范围广、检测速度快、灵敏度高、准确率高等优势。能一次快速从样本中检测各类型微生物。
附图说明
图1为本发明宏基因组数据获取路线。
图2为本发明宏基因组数据分析路线。
图3为普通宏基因组分析分析流程。
具体实施方式
下面结合说明书附图和具体实施例对本发明作出进一步地详细阐述,所述实施例只用于解释本发明,并非用于限定本发明的范围。下述实施例中所使用的试验方法如无特殊说明,均为常规方法;所使用的材料、试剂等,如无特殊说明,为可从商业途径得到的试剂和材料。
实施例1一种基于宏基因组测序的微生物检测鉴定分析方法
一、获得标本核酸
流程如图1所示,采集标准品标本,根据需求分别进行RNA提取及DNA提取(期望检测DNA为遗传物质的样本时候,提取DNA;期望检测RNA为遗传物质的样本时候,提取RNA)。利用QIAamp cador Pathogen Mini Kit(54104,giagen)提取DNA核酸,利用miRNeasy Serum/Plasma Kit(217184,giagen)提取RNA核酸。提取核酸后,会对核酸进行质量检测,若核酸质量不满足质控标准(表1),则需要重新提取核酸。
样本提取核酸后,使用超声波进行DNA片段化,通过高盐处理对RNA进行片段化。接着通过琼脂糖凝胶电泳检测,检验核酸完整性及纯度,然后再利用Qubit检测核酸质量和浓度,最后使用安捷伦2100检测核酸片段的分布及核酸浓度。按照DNA宏基因文库建库步骤及RNA宏基因组建库方式进行文库构建。
表1 核酸质控标准:
二、获得微生物的宏基因组测序数据
采用Illumina Novaseq 6000平台进行PE150测序。使用Illumina公司的bcl2fastq v2.18.0.12软件将测序生成的原始bcl文件转化成每个样本的fastq文件。
三、微生物参考数据库的构建
微生物参考数据库由两个数据库组成,包括非关系型微生物参考序列数据库及关系型微生物注释数据库,两个数据库之间有严密的层级关系,包括应用层级和注释层级:
(1)微生物参考序列数据库属于应用层级,主要用于宏基因组测序的微生物检测分析比对的参考基因组数据库。该层级只包含微生物参考基因组序列,避免冗余搜索,降低搜索速度。微生物参考序列数据库序列主要从NCBI的NT库及NR库(ftp://ftp.ncbinlm.nih.gov/genomes)、Ensemble据库(http://ensemblgenomes.org/)、病毒变异资源数据库(Virus Variation Resource)及JGI Fungi Porta(http://genome.jgi.doe.gov)等多个权威数据库中获取,同时去除冗余重复,可信度低较短的基因组序列。以确保微生物序列的完整性、全面性及权威性、准确性。
(2)微生物注释数据库属于注释层级,主要用于对所鉴定的物种的属、种、亚型、拉丁文名、基因组大小、功能等进行注释。微生物注释数据库根据参考序列类型按照细菌、RNA病毒、DNA病毒、真菌、原生生物归类,并整理了所有物种的参考基因组的注释信息,包括病原微生物的属、种、亚型、拉丁文名、中文名、基因组大小、百科信息等相关信息。
微生物参考序列数据库包含全面完整的细菌、真菌、病毒、寄生虫及其他微生物的基因组序列。病原微生物数据库在NCBI数据库(ftp://ftp.ncbi.nlm.nih.gov/genomes/)上下载序列信息。微生物参考数据库整合多个权威数据库中微生物的较完整的基因组核酸序列,并进一步去除重复冗余或完整性较低的参考序列,既保证参考基因组序列的完整、全面,又能减少冗余的比对,提高搜索速度。微生物多数据系统具有层次结构,分别设置微生物参考序列数据库和对应的微生物参考注释数据库,方便检索,缩短检索时间。
四、宏基因组数据分析
宏基因组数据分析流程如图2所示。
1,对测序数据进行数据质检及质控
FastQCv0.11.5对上述数据进行质检,并自动生成质检报告。以Q30作为每个碱基的测序质量质控标准。若Q30高于75%,才能通过质控。
SOAPnuke v1.6.0对经过质检的数据进行质控。
由于本次测序建库方式为PE150,因此选择PE模式过滤。在PE模式下,只要有任意一端的read碱基质量不低于Q30的碱基比例小于50%,则这对read一起被过滤,反之保留。此外,还过滤低质量序列,即序列50%以上碱基质量低于20。接着,根据misMatch和matchRatio FLOAT参数匹配序列中的接头序列,匹配上接头序列后,则从匹配的起始位置开始剪除序列。接头过滤后进一步对高质量序列的长度进行判断,若长度过短(低于18bp)则会被过滤,反之保留。
最后,根据FastQC v0.11.5作一步质检。
2,物种比对
经过质控获得高质量碱基序列后,高质量碱基序列同时进行组装和双端序列拼接然后再进行比对。
使用Megahit对过滤后的高质量碱基序列以De Bruijn Graph算法组装成contigs得到数据集1,组装后使用Quast(Copyright(c)2015-2017Saint Petersburg StateUniversity)以测序总长度的1/3作为N50的质控指标评估数据集1的组装质量。数据集1用BWA(alignment via Burrows-Wheeler transformation)比对到微生物参考数据库,获得数据集1的物种信息;比对上序列的标准:FLAG≠4;以samtools stat统计比对结果的物种reads、覆盖度、reads占该物种比例。
同时,高质量序列运用QIIME根据两端序列末端的重叠区把两端序列进行拼接,获得数据集2。两端拼接后,统计数据集2双端拼接的reads数目,评估拼接效果。当拼接获得的reads数大于双端reads数的25%则能通过双端拼接的质控。数据集2利用BWA(alignmentvia Burrows-Wheeler transformation)比对到微生物参考数据库,获得数据集2的物种信息;比对上序列的标准:FLAG≠4;以samtools stat进行比对结果的物种reads、覆盖度、reads占该物种比例的统计。
3,结果过滤
过滤比对质量低的序列,过滤标准为:过滤MAPQ<37的序列。过滤非特异性扩增序列,过滤标准:比对上物种的序列匹配度大于50%的序列长度低于该段序列总长度的50%的序列。过滤覆盖率较低的序列,过滤标准:coverage≤0.01的序列。过滤低复杂度序列,过滤标准:DUST值>5的序列。
4,结果整合
根据数据集1及数据集2的质控结果整合分析结果:
若数据集1及数据集2的质量均能通过质量评估标准,则以数据集1的物种信息和数据集2的物种信息的交集为物种信息结果,数据集2的物种reads、reads占该物种比例、覆盖度、深度为微生物定量结果;
若数据集1未能通过质量标准,而数据集2通过质量标准,则选用数据集2的微生物物种信息、物种reads、reads占该物种比例、覆盖度、深度结果为鉴定结果;
若数据集2未能通过质量标准,数据1集通过质量标准,则选用数据集1的微生物物种信息、物种reads、reads占该物种比例、覆盖度、深度结果为鉴定结果;
若数据集1、数据集2均未能通过质量标准,则该检测结果无效。最后展示样本中微生物的物种及定量结果。
这里所述的质量评估标准为用Quast评估组装质量,质量标准:N50大于测序总长度的1/3。就是是说组装集的N50低于总长度的1/3,则不通过标准。用SHELL统计拼接后reads条数。
质量标准:拼接后reads数大于双端reads数的25%,即是当拼接的reads数大于双端reads的25%,才能通过质量标准。单端测序数据,则不进行拼接及拼接质控。
实施例2一种基于宏基因组测序的微生物检测鉴定分析方法
一、实验方法
1、样本配制
配置混合样本Mix1,Mix1是经过培养、浓度测定、混合及鉴定,样本中加入滴度为3.2×108TCID50/mL的人类副流感病毒2、3.2×107TCID50/mL的人类副流感病毒1、6.3×105TCID50/mL的人呼吸道合胞病毒B型、3.2×108TCID50/mL的人呼吸道合胞病毒A型混合而成。Mix1掺入人源干扰:Hela细胞,浓度为2.5×105个/ml。
Mix1参考品按照浓度梯度稀释(原液、1:101稀释、1:102稀释、1:103稀释)进行4个样本检测(命名为Mix1-0、Mix1-1、Mix1-2和Mix1-3),测序数据量均为13.6M reads。然后,再以原液浓度样本进行数据量梯度分析(包括原始数据Mix1-0-1、1/10数据量Mix1-0-2、1/100数据量Mix1-0-3、1/1000数据量Mix1-0-4)共计8个分析。具体各样本信息见表2。
表2 Mix1文库质控情况:
2、样本检测
按照实施例1的方法对表2中的个样本进行宏基因组测序及分析。
二、实验结果及分析
各样本的测序数据质控基本信息如表3所示。不同实验稀释浓度样本中微生物的鉴定结果如表4所示。不同梯度数据量样本中微生物的鉴定结果如表5所示。
根据表3可知,测序质量Q30均达90%以上,本次测序质量较好且稳定,本次实验数据可进一步进行分析。
根据表4,表5可知,8个不同浓度梯度样本进行检测分析,对人类副流感病毒2、人类副流感病毒1、人呼吸道合胞病毒B型、人呼吸道合胞病毒A型的检出率均为100%。本方法可以一次性检测样本中所有微生物,具有更好的时效性、准确性。
根据表4可知,在相同测序数据量下,由于微生物之间存在种属差异,不同微生物的检出数量存在差异。总体而言样本中微生物浓度越低,检出难度越高。
但本方法能从Mix1-3混合样本中检出滴度低至6.3×102TCID50/mL的B型人呼吸道合胞病毒,本发明检出微生物的灵敏度较高。
根据表5可知,样本微生物浓度相同,Mix1-0-4样本低至1k reads测序数据量下也能有效检出目标微生物。而表4,表5每套数据的数据量均在1k至13M reads的数据水平,在数据量较少的情况下,本方法仍能分析得到准确的检出结果。
表3 Mix1样本数据质控信息:
表4 不同浓度Mix1样本检出情况:
表5 梯度数据量样本检出情况:
实施例3方法适用范围检测
一、实验方法
1、样本配制
以四类标准品来检测本发明对中低浓度目标微生物的检出率。四类标准品分为:RNA病毒类标准品、DNA病毒类标准品、细菌类标准品、真菌类标准品。
RNA病毒类标准品以2.5×105个/mL Hela细胞为基质,加入3.2×102TCID50/L的呼吸道合胞病毒B,3.2×103TCID50/L的副流感病毒1型(PIV1),3.2×103TCID50/L的副流感病毒2型(PIV2)三种RNA病毒制作RNA类病毒标准品。
DNA病毒类标准品以2.5×105个/mL Hela为基质,加入3.8×103TCID50/L腺病毒C。
细菌类标准品以2.5×105个/mL Hela细胞为基质,加入4.9×103CFU/mL的屎肠球菌,7.8×103CFU/mL的大肠埃希氏菌,1.6×103CFU/mL的无乳链球菌,1.0×103CFU/mL的粘质沙雷氏菌,1.1×103CFU/mL的奇异变形杆菌,1.0×102CFU/mL的肺炎链球菌。
真菌类标准品以2.5×105个/mL Hela细胞为基质,加入9.6×102CFU/mL的白色念珠菌。
2、样本检测
对上述RNA病毒类标准品、DNA病毒类标准品、细菌类标准品及真菌类标准品,每个样本平行重复4次构建双端测序长度150bp的文库,共16个样本。采用Illumina Novaseq6000平台进行PE150测序。
此外再对上述RNA病毒类标准品、DNA病毒类标准品、细菌类标准品及真菌类标准品,每个样本平行重复4次构建SE75的文库,共16个样本,采用Illumina Novaseq 6000平台进行SE75测序。
实验组,按照实施例1中的方法进行微生物检测分析(PE数据选择PE模式对PE150测序数据进行低质量碱基过滤。SE75测序数据则选择SE模式进行低质量碱基过滤)。
根据上述数据设置三个分析对照组:对照组1,与实施例1的区别在于仅进行组装,不进行两端合并;对照组2,与实施例1的区别在于仅进行两端合并,不进行组装。对照组3,既不进行组装也不进行两端合并,高质量数据直接进行比对。两组数据数据量均统一截取13M reads作为分析数据量。然后统计128个分析结果中目标微生物的检出率。
二、实验结果分析
根据表6可知,SE75单端测序无法拼接,且组装效果较差,因此不拼接结果作为最终结果。本发明可根据测序数据类型,进行拼接或不拼接,再进行比对,普遍适用于各测序类型数据。
根据表6到表9可知,本实验所加入标准品浓度较低,在13M reads数据量下本发明仍能高概率检出目标微生物,可见本发明检测灵敏度较高。此外,本发明能有效检出RNA病毒、DNA病毒、细菌、真菌等各类型微生物并对其进行定量,本发明检测微生物范围较广。
根据表10可知,本发明既能分析单端测序数据,也能分析双端测序,能根据数据类型,测序片段的长短等特点,整合分析结果。此外,在PE150条件下,双端拼接分析效果比不拼接的分析效果好,阳性率相对较高。单端测序则无法进行拼接,不拼接的真阳性率达86.84%,假阳性率也高达65.58%。对于双端数据和单端数据,组装结果偏保守,因此结合两种方法延长测序序列长度,能充分两种软件的优势,降低假阳性,提高准确度。
本发明能根据不同数据类型,选择适合的分析模式,整合分析结果,既保证真阳性率达85%以上,又能降低假阳性率至30%以下。为鉴定样本内微量微生物提供灵敏而准确的分析结果。
表6 不同软件对RNA病毒的检出率:
表7 不同软件对DNA病毒的检出率:
表8 不同软件针对不同数据鉴定细菌的检出率:
表9 不同软件对真菌的检出率:
表10 不同软件阳性率的统计结果:
实施例4方法准确性的检测
为了评价本发明分析流程与普通宏基因组分析流程的分析准确度,使用实施例2中的四类标准品进行4次重复实验的数据,利用本发明分析流程和普通宏基因组分分析流程进行分析比较。
一、实验方法
每个样品均使用13M reads测序数据量分别按照普通宏基因组流程分析方法进行分析和本发明实施例1的方法进行宏基因组测序及分析。
普通宏基因组分析过程测序得到的原始数据(Raw Data)进行低质量数据的过滤。然后进行Metagenome单样品组装,并将各样品未被利用上的reads放在一起进行混合组装;从单样品和混合组装后的contigs/Scaffold出发,进行基因预测,获得预测基因在各样品中的丰度信息;组装序列Contigs与微生物数据库(核酸库)进行比对的物种,得到物种注释信息。普通宏基因组流程分析使用的是NCBI的NR和NT数据库细菌(Bacteria)、真菌(Fungi)、古菌(Archaea)和病毒(Viruses)的数据库。流程图如图3。
然后统计样本各个样本中真阳性结果的检出率及假阳性结果的检出率。
二、实验结果
结果如表11所示,普通宏基因组对于RNA病毒的鉴定能力相对较弱。而本发明检测范围较广,对RNA病毒的检出率也相对较高。
结果如表11~15所示,普通宏基因组组装后进行物种注释,由于结果没有进行低质量结果过滤,普通宏基因组结果总体假阳性率高达到71.02%。
从表16可知,通过低质量结果过滤,能有效降低假阳性物种的检出,减少假阳性结果对结果判断的干扰。本发明数据库有收录了较完整的微生物的基因组序列,且对比对结果进行多重过滤,因此有效地提高真阳性率,也大幅度降了低假阳性率。
表11 不同分析流程对RNA病毒检出率:
表12 不同分析流程对DNA病毒检出率:
表13 不同分析流程对细菌类标准品的检出率:
表14 不同软件对真菌类标准品检出率:
表15 宏基因分析流程阳性率统计结果:
表16 检测物种数目比较:
实施例5方法的时效性检测
一、实验方法
为了测试本发明实施例1的运算时间,运用6个PE150,数据量为6G的宏基因组数据进行测试,比较本发明(如实施例4)的分析时间及普通利用宏基因组测序检测微生物的方法(如实施例4)的分析时间。
二、实验结果
从表13可了解到两种分析方法均以相同核数分析约6G数据量的样本,普通宏基因组测序流程比本发明分析方法耗时多3倍。
本发明通过设计多数据库系统、精心选用特定分析软件和参数调节等节省了分析时长,达到快速且准确检测宏基因组测序数据中微生物的效果。
表17 普通宏基因组与本发明时效性比较:
实施例5平台兼容性检测
为了评价本发明分析流程对各主流测序平台的兼容性,使用实施例2中的Mix1进行样本检测,利用本发明分析流程分析BGI测序平台产出数据及Ion Proton测序平台产出的数据。
一、实验方法
以实例1中的Mix1参考品进行4个样本检测(原液、1:101稀释、1:102稀释、1:103稀释)提取基因组核酸并构建文库,片段长度为为125bp,共4个样本。采用BGISEQ100平台进行SE125测序。同时再以上述四个样本提取基因组核酸并构建文库,片段长度为150bp,共4个样本。采用Ion Proton的DA8600平台进行测序。上述BGI及Ion Proton平台测序数据则均按照实施例1中的方法进行微生物检测分析,且两组数据分析数据量为13.6M reads。
二、实验结果分析
如表18~21所示,不同平台下,样本Mix1-0、Mix1-1、Mix1-2、Mix1-3的检出情况可知标准品中阳性微生物在不同平台中检出的占比基本一致。采用本发明的方法对不同数据集进行物种鉴定,虽然由于建库长度、测序平台和平台测序质量的不同,导致各平台微生物定量结果存在差异,但样本微生物物种的检出情况(定性结果)是相对一致。
表18 Mix1-0样本在各平台的检出情况:
表19 Mix1-1样本在各平台的检出情况:
表20 Mix1-2样本在各平台的检出情况
表21 Mix1-3样本在各平台的检出情况: