确定微生物种类的方法和装置
技术领域
本发明涉及微生物检测领域,具体的,本发明涉及一种确定样本中包含的微生物种类的方法、一种检测病源微生物的方法和一种确定样本中包含的微生物种类的装置。
背景技术
宏基因组(Metagenomics,以下简称meta)用来研究未培养微生物样本的基因组。它快速,成本低,它正在扩展我们对于微生物世界的理解。从上百万条序列中提取有用的信息,对于生物信息学分析是个很严重的挑战。在培养样本的微生物中,基因组数据来源于单个克隆(clone),无论是序列组装还是物种分类,都比较容易。而在宏基因组的数据中,序列来源于异质性的微生物菌落,使得序列具有较大的噪音。
另外一方面,微生物全基因组测序(WGS)在提高临床症状检测效率和公共健康微生物防护方面又有极大的优势,它较大的价值体现在能帮助我们理解细菌进化、爆发和转移。快速的诊断验证和致病病原的特征化描述对于病人的用药指导治疗有着至关重要的作用。当前的临床微生物诊断方法主要基于传统的培养方法,接着检验敏感药物。根据致病病原的不同,这个过程通常需要1-2天去培养,1-2天的物种分类、敏感性检验和分子分型。而且当前的临床方法在病原检测效率上存在较大问题,不能一次性给出样本中存在的微生物菌落分类信息。这就使得研究者迫切需要一种可以快速、高效的检出样本中菌落的分类信息的技术手段。
发明内容
依据本发明的一方面,本发明提供一种确定样本中包含的微生物种类的方法,该方法包括:对待测样本中的至少一部分核酸进行测序,获得测序数据,所述测序数据包括多个读段;将所述测序数据与第一参考序列比对,所述第一参考序列为所述待测样本来源的个体所属生物类别的已知序列,获得满足以下(1)-(3)至少之一的读段,(1)未比对上所述第一参考序列,(2)与所述第一参考序列的相似性低于预定比例,(3)比对上所述第一参考序列且比对质量低于阈值;将获得的读段与微生物参考序列进行比对,依据获得的比对结果确定所述待测样本中包含的微生物种类,所述微生物参考序列包括细菌参考序列、真菌参考序列、病毒参考序列和原生生物参考序列中的至少两种。利用该方法能够快速、高效、一次性的检出样本中菌落的物种分类信息。
待测样本来源的个体所属生物类别为哺乳动物,例如为来自哺乳动物皮肤、肠道、尿液、粪便或唾液等的核酸样本。如此,待测样本中的核酸为混合核酸,包含宿主(哺乳动物)本身的核酸和微生物核酸,且样本中包含的微生物种类会因来源的宿主的部位不同而不同。根据本发明的一个实施例,待测样本来自人,为人源宏基因组样本(人源meta样本),包括但不限于来自人的唾液、皮肤、肠道、粪便和尿液,对应的第一参考序列为人参考基因组,人参考基因组可选择NCBI的HG19。
为根据微生物核酸序列确定人源meta样本中包含的微生物种类,对样本中的混合核酸进行序列测定,序列测定可利用测序进行,测序包括测序文库构建以及将测序文库上机,测序文库的制备可依据所选择的测序平台进行单端或者双末端、链状或环状测序文库构建,可选择的测序方法根据所选择的测序平台包括但不限于Illumina Hiseq2000/2500、LifeTechnologies Ion Torrent、Complete Genomics CGA和Roche 454。
下机获得测序数据,测序数据由多个读段(reads)组成,根据本发明的一个实施例,利用Proton测序平台进行测序,获得长短不一的读段,过滤掉其中的长度小于35bp的读段,利于提高测序数据整体质量。
具体比对时,可使用各种比对软件,比对可以选择但不限于利用软件SOAP(ShortOligonucleotideAnalysis Package),bwa和GATK进行,本发明对此不作限制。在比对过程中,根据比对参数的设置,一条/一对reads最多允许有n个碱基错配(mismatch),n优选为1或2,若reads中有超过n个碱基发生错配,则视为该条/对reads无法比对到参考序列,或者,若错配的n个碱基全部位于一对reads中的一个read,则视为该对reads中的该条reads无法比对到参考序列。所称的预定比例和阈值是发明人根据待测样本来源的个体所属生物类别的序列与微生物序列的差异,即宿主与微生物之间序列的差异,以及根据比对软件中关于估计序列间的定量关系和比对质量的参数来设置的,差异包括序列相似性,序列相似性是指序列比对过程中待测序列(读段)和参考序列之间相同碱基或相同氨基酸残基所占比例。在本发明的一个实施例中,利用TMAP或者BWA,依照其默认参数进行比对,获得未比对上第一参考序列的读段,设定预定比例为0.5,阈值为1,利于从测序数据中获得微生物核酸序列。
微生物参考序列指已知的微生物序列,可以是预先获得的微生物基因组或者片段,例如,可以为自己测定组装出的或者从公开数据库能够获取的多种微生物的基因组或者片段的组合。进一步地,根据人源meta样本来源的部位,可能包含的主要菌种或者菌种,可以预先配置包含更多参考序列的序列库,有助于获得更准确的鉴定结果。在本发明的一个实施例中,微生物参考序列包括细菌参考序列、真菌参考序列、病毒参考序列和原生生物参考序列。根据本发明的一个实施例,获得微生物参考序列包括:收集微生物基因组序列,包括细菌基因组序列、真菌基因组序列、病毒基因组序列和原生生物基因组序列,接着对微生物基因组序列进行以下(a)-(c)处理,以获得微生物参考序列,(a)过滤掉其中与哺乳动物感染不相关的序列,其中包括,过滤掉线粒体序列、质粒序列和植物类感染的序列,(b)对于有多种亚型的微生物,只保留基因组序列最长或者组装质量最好的亚型的基因组序列,(c)去冗余。收集的微生物基因组序列为公众可获取的微生物序列,在本发明的一个实施例中,从National Center for Biotechnology Information(NCBI)官方网站上下载细菌、真菌、病毒、原生生物的基因组序列。(b)处理中所称的组装质量最好依据序列来源的网站或数据库提供的对该序列的评价。如此,能够获得高质量的哺乳动物微生物感染相关的病原微生物参考序列,使用高质量的微生物参考序列有利于高效的检出样本中微生物的物种分类信息,也利于快速筛检出未知病原和发现可疑致病微生物。
根据本发明的一个实施例,当测序数据包含的数据量不小于1×,比对结果中比对上一种微生物参考序列的读段不少于10条,则确定待测样本包含该种微生物。进一步的,可以结合样本来源个体的感染表征进行判断待测样本包含的微生物种类。
本领域普通技术人员可以理解,上述实施例中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质包括:只读存储器、随机存储器、磁盘或光盘等。
依据本发明的另一方面,还提供一种确定样本中包含的微生物种类的装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行程序;处理器,与所述数据输入单元、数据输出单元和存储单元连接,用于执行存储单元中存储的可执行程序,执行所说的可执行程序包括完成上述实施例中各种方法的全部或部分步骤。
依据本发明的又一方面,本发明提供一种检测病原微生物的方法,该方法包括:利用上述本发明一方面或者任一实施例中的方法确定待测样本中包含的微生物种类,基于待测样本包含的微生物种类,检测所说的病原微生物。根据本发明的一个实施例,平均测序深度为1~2×时,比对上某物种的参考序列的读段(reads)的数目不少于10个,就判定该样本包含该物种。前述对本发明一方面的确定微生物种类的方法的技术特征和优点的描述,同样适用本发明这一方面的方法,在此不再赘述。该方法利用对样本中的菌群进行宏基因组序列分析,通过微生物基因组序列的本质特征,来鉴定样本中菌群的分类情况。这种分析方法,对于样本中未知病原微生物的快速鉴定具有重大价值。该方法检测样本中的菌落的结果准确度高,速度快,成本低,全过程能够实现自动化,以原始测序数据为数据源,生成高质量的结果数据,能够辅助临床医生做出用药指导。根据本发明的一个实施例,将该方法整合成一个软件包,全过程自动化实现,对计算机I/O资源、内存资源有很好控制,并且将输入数据文件切割成几块并行运行该软件,提高数据计算速度,理论上,本方法软件系统适应任何Unix/Linux的操作系统环境。另外,该方法产生的共享的数据结果,为后期的变异检测和耐药性分析等提供了可能。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例中的检测未知病原的方法的流程图。
具体实施方式
图1为利用本发明方法检测未知病原的流程图,一般包括以下部分:
1)数据库文件的整理
从National Center for Biotechnology Information(NCBI)官方网站上下载细菌、真菌、病毒、原生生物的基因组序列。对下载下来的序列做如下处理:
方面一:过滤其中和人感染不相关的序列。比如线粒体序列,质粒序列,植物类感染的序列。
方面二:一个微生物物种如果有多种亚型,选取基因组长度最长或者组装质量最好的亚型作为这个微生物物种的基因组参考序列。
方面三:对每个分类中的序列去冗余,按照字母顺序排序。
这样就构成了我们自己的微生物参考序列数据库,包括细菌、真菌、病毒、原生生物的基因组文件,这是微生物快速检测的基础。
2)参数选择
详细的参数配置如下:
3)数据预处理
包括两个步骤:
步骤一:检测涉及的数据库文件、程序文件等是否可用。
步骤二:输入数据或文件如果是Binary Alignment/Mapping(BAM)或者FASTA格式则将其转换为FASTQ格式。
4)输入数据的过滤和切割
从两个方面来过滤数据,即过滤下机数据:
方面一:过滤输入序列(reads)中长度低于一定阈值(该阈值可以在配置文件中指定,默认35bp)的序列。
方面二:过滤低质量序列,例如过滤掉包含测序接头的reads、含N超过10%的reads和含低质量碱基的比例大于0.5的reads,其中,N指读段中的不确定的碱基,碱基质量为测序平台对读测的碱基的评判,碱基质量为-10*lg(p),这里,p为测错的概率。
将过滤后的数据,按照配置文件中的设置,将其切割为固定块大小的一系列子文件,例如,每个子文件包含500000条读段,便于后续的快速分析。
5)宿主比对
将4)中的一系列子文件,并行的比对到宿主的参考基因组文件上。等所有的子文件都比对完成后,将每个子文件的比对结果进行合并。比对软件可以通过配置文件来选择,可以是Tmap或者Bwa。
6)提取病原序列和质量过滤
针对5)比对产出的Bam格式的结果,提取微生物数据。
方面一:提取那些没有比对上宿主的Reads。
方面二:对于比对结果文件中的每一条Reads,Reads的序列相似性阈值低于一定比例(阈值可以在配置文件中指定,默认0.5),则将其归纳到微生物/病原的序列集合中。序列相似性阈值指的是,针对一条比对上的Reads,其比对上的碱基数占整条Reads的长度的比例。
方面三:根据比对结果中的“最小比对质量得分”(该值可以在配置文件中设置,默认是1)来过滤那些比对质量较低的序列。
这步的结果暂定认为是病原的数据集合。
7)微生物/病原分类
将6)的暂定是病原的数据集合分别、并行的比对到细菌、真菌、病毒、原生生物四个参考基因组文件上。比对软件同样是通过配置文件来选择。这个步骤将产生四个比对文件。
8)数据再处理
将7)步产生的四个结果文件,分别进行去重复(Duplication),采用华大基因自主研发工具soap.coverage(http://soap.genomics.org.cn/about.html#resource2)对结果中的每一个物种进行深度和覆盖度统计。
9)报告产生
将8)的结果进行整理,将文本文件转为Office下的Excel文件,输出。
基于上述一般方法的介绍,可看出本方法系统采用对样本中的菌群进行宏基因组序列分析,通过基因组序列的本质特征,来鉴定样本中菌群的分类情况,对于样本中未知病原微生物的快速鉴定具有重大价值,能够辅助临床医生作出用药指导,而这种辅助指导在个体化医疗的水平上格外有用。本方法系统检测样本中的菌落的结果准确度高,速度快,成本低,可全过程实现自动化,以原始测序数据为数据源,自动生成高质量的结果报告。本系统现可整合成一个软件包,全过程自动化实现,对计算机I/O资源,内存资源有很好控制。以管道技术代替以往以文件作为信息交换的方式,以文件块切割的方式作为大数据计算慢的解决方案,在理论上可以使本系统适应任何Unix/Linux的操作系统环境。另外,分析方法产生的共享的数据结果,为后期的变异检测和耐药性分析等提供了可能。
为了使本发明技术方案及优点更加清楚明白,以下结合具体实施例对本发明方法和/或装置进行详细的描述。应当理解,下面示例用于解释本发明,不是对本发明的限制。需要说明的是在本文中所使用的术语“第一”、“第二”等仅为方便描述,不能理解为指示或暗示相对重要性,也不能理解为之间有先后顺序关系。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
实施例
从医院获得一名临床病人的尿液样本(样品名:UPUR14GY0001),对经测序产生的数据做数据预处理,将其产生的数据转为标准的FASTQ格式。然后将其比对到宿主的参考基因组上,提取那些没有比对上的序列及其相似性阈值低于指定阈值的序列。然后再将这些提取出来的序列比对到细菌、真菌、病毒、原生生物四种数据库文件上,做病原微生物的分类处理。再将各比对结果(比对文件)去重复,计算覆盖度及其他的统计值,最终产生可读的结果文件。
将本检测系统各步骤流程整合为一个软件包,命名为UPMD(Unknown PathogenMicroorganism Detection),本软件的运行环境为Unix/Linux操作系统,通过Unix/Linux命令行运行。
具体操作步骤如下:
1、在LINUX操作系统计算机终端中输入以下命令:
upmd<parameter file><sample information file><output directory>
UPMD命令行参数含义:
<parameter file>指定的参数配置文件,文件中涵盖了所有的分析参数
<sample information>样本信息,包含样本名称、样本的数据文件
<output directory>结果的输出目录
待分析数据:
测序数据:9_rawlib.bam(BGISEQ-100测序平台对尿液样本核酸的测序结果)。
参考序列:hg19.fa(宿主物种参考序列),Bacteria.fa(细菌物种的参考序列),Virus.fa(病毒物种的参考序列),Fungi.fa(真菌物种的参考序列),Protozoa.fa(原生生物物种的参考序列)。
样品初始信息(sample information):样本名称UPUR14GY0001,制备得的文库名称UPUR14GY0001,样本数据9_rawlib.bam。
2、分析结果
表1显示各样本测序数据的比对情况,其中各比对率为比对上某类参考序列的读段数目与总读段数目的比值。表2显示部分检测结果,比对上某物种的参考序列的reads数大于10的则表示该样本包含该物种,从表2可看出所测样本包含的菌种。
表1
Sample |
Total |
Human比对率 |
Bac比对率 |
Fungi比对率 |
Virus比对率 |
Protozoa比对率 |
sample1 |
19,357,152 |
99.90227385 |
0.092265639 |
0.001446494 |
0.003068633 |
0.000945387 |
sample2 |
7,912,837 |
25.5276205 |
73.17183458 |
0.045798997 |
1.225894076 |
0.028851852 |
sample3 |
7,810,651 |
29.01971936 |
69.75206036 |
0.043709545 |
1.157880438 |
0.026630303 |
sample4 |
6,909,958 |
27.75877943 |
71.30175031 |
0.050217382 |
0.854230952 |
0.035021921 |
sample5 |
6,264,834 |
65.10818962 |
34.44285994 |
0.024709354 |
0.408741876 |
0.015499214 |
sample6 |
9,015,747 |
77.56218093 |
18.06703316 |
2.775654641 |
1.472013356 |
0.123117918 |
表2