CN101748213B - 一种环境微生物检测方法和系统 - Google Patents

一种环境微生物检测方法和系统 Download PDF

Info

Publication number
CN101748213B
CN101748213B CN200910258132.3A CN200910258132A CN101748213B CN 101748213 B CN101748213 B CN 101748213B CN 200910258132 A CN200910258132 A CN 200910258132A CN 101748213 B CN101748213 B CN 101748213B
Authority
CN
China
Prior art keywords
sequence label
characteristic sequences
dna
dna sequence
species
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910258132.3A
Other languages
English (en)
Other versions
CN101748213A (zh
Inventor
覃俊杰
李瑞强
张秀清
王俊
杨焕明
汪建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CNA2008102183410A external-priority patent/CN101429559A/zh
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN200910258132.3A priority Critical patent/CN101748213B/zh
Publication of CN101748213A publication Critical patent/CN101748213A/zh
Application granted granted Critical
Publication of CN101748213B publication Critical patent/CN101748213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明适用于生物工程领域,提供了一种环境微生物检测方法和系统,所述方法包括下述步骤:采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列;去除所述DNA标签序列中存在的载体污染;将所述DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列的所属分类。本发明实施例可以检测到环境样本中可能存在哪些微生物物种或哪一类微生物物种。

Description

一种环境微生物检测方法和系统
技术领域
本发明属于生物工程领域,尤其涉及一种环境微生物检测方法和系统。
背景技术
决定生物性状的蛋白质和RNA分子都是以DNA四种碱基的编码序列形式,将信息储存于生物细胞中。这种DNA分子包含了生物体的全套遗传信息。为了从整体角度去了解遗传信息的功能和作用,最重要的一步是将该生物的全套遗传信息测定出来,即知道该生物所有的DNA碱基排列顺序。传统的基因组测序主要采用“Sanger”法测序技术,也称作“末端终止法”测序技术。这种测序方法的最大缺点是:成本高、产量低。近年来,以Solexa为代表的“新一代高通量测序技术”悄然兴起。以“边合成边测序”为原理的Solexa测序技术,有效地改进了传统Sanger测序法的不足,具有成本低、通量高、时间短、测序准确率高、操作简便等诸多优点。
微生物在自然界中是无处不在,无处不有的,数目巨大。微生物对于地球上的生命是至关重要的,它们可以将重要的元素转换为能量,保持大气中的化学平衡,为植物和动物提供养分。微生物还可以用于实现许多商业目的,如制造抗生素、提高农业效率以及生产生物燃料。此外还有一小部分微生物对人有害,导致各种疾病的发生。从历史观点来看,微生物研究主要集中于研究个体物种。但大多数微生物是以群落的形式存在于各种环境中(生物内环境、外环境、极端环境等),而无法在实验室里单独培养。对于环境中复杂的微生物群落,传统的研究方法是针对特定的保守基因(如16S rRNA等)使用PCR技术扩增后进行测序。通过对这些保守基因的进化分类分析,从而将环境微生物进行分类。这是从物种、甚至较高的分类级别来对环境微生物进行检测的方法。这种方法可以检测出环境中未知的微生物,并且具有操作简单、技术完备、成本低廉等优点。但是随着微生物研究的不断深入、已公布的微生物基因组数目日益增多,我们发现基于保守基因测序的检测方法存在如下局限性:
1、无法识别痕量的物种。通过PCR扩增测序得到的都是丰度较高物种的基因序列。对于丰度较低的物种,需要大量的Sanger测序才能发现。
2、不能简单地由几个基因来对物种进行检测。通过对现有703种细菌基因组序列的比较分析和对真实环境样品的16S rRNA测序分析后发现:很多近缘物种的16S rRNA基因非常保守,几乎不存在差异,但是在表型上、功能上却差异显著。
3、检测只能在物种或更高的分类级别上,所得到较高级别的分类信息对以后的功能研究没有太大的作用。而即使是同一种细菌,不同菌株之间也会存在很大差异。
发明内容
本发明的目的在于提供一种环境微生物检测方法和系统,旨在解决现有的环境微生物检测方法难以识别痕量的物种的问题。
本发明是这样实现的,一种环境微生物检测方法,所述方法包括下述步骤:
采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列;
去除所述DNA标签序列中存在的载体污染;
将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。
作为一个实施例,该方法还包括下述步骤:
对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;
计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;
计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度;
计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;
根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度。
本发明的另一目的在于提供一种环境微生物检测系统,所述系统包括:
DNA测序单元,用于采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列;
载体污染去除单元,用于去除所述DNA标签序列中存在的载体污染;
所属分类确定单元,用于将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类。
作为一个实施例,该系统还包括:
已知序列预处理单元,用于对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;
测序深度计算单元,用于计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;
覆盖度计算单元,用于计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度,并计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;
可信度判断单元,用于根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度的高低。
本发明提供的环境微生物检测方法和系统,在对环境样本中提取的DNA进行测序过程中引入了高通量的测序技术,并在序列比对时,首先去除载体污染,再将该DNA标签序列与已知数据库中的已知序列进行全面比对,可以对环境采样中更多的DNA测序,甚至能够实现对全部DNA进行测序,并更加全面地对DNA序列进行比对,从而能够有效地识别痕量的物种。可以检测到环境样本中可能存在哪些微生物物种或哪一类微生物物种。进一步通过在已知数据库中对更多的,甚至所有特有序列进行处理得到平均测序深度、覆盖度以及整条序列的覆盖度来确定特有序列代表的物种被发现的可信度的高低,从而将检测精度细致到可以区分近缘物种、甚至不同菌株。
附图说明
图1是本发明实施例提供的环境微生物检测方法的实现流程图;
图2是本发明实施例提供的将DNA标签序列与已知序列进行比对,确定DNA标签序列的所述分类的示意图;
图3是本发明实施例提供的连续的映射到唯一位置的模拟标签序列确定特有序列的示意图;
图4是本发明实施例提供的环境微生物检测系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列,去除该DNA标签序列中可能存在的载体污染后,将该DNA标签序列与已知数据库中的已知序列进行比对,从而得到该DNA标签序列的所属分类。
图1示出了本发明实施例提供的环境微生物检测方法的实现流程,详述如下:
在步骤S101中,采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列。
其中高通量的测序技术为以Solexa、Solid等为代表的第二代测序技术。由于采用高通量的测序技术对DNA进行测序的具体过程是现有技术,因此,在本发明实施例中,仅简述采用高通量的测序技术对从环境样本中提取的DNA进行测序的过程:
a、从环境样本中提取DNA样品。在提取DNA样品时,需要保证样品中DNA的高质量和微生物的多样性。
b、对上述DNA样品进行文库制备。在本发明实施例中,如果需要构建双向测序文库,则为了有效的解决高GC含量物种的测序难题,在文库制备过程中,插入片段的长度一般小于200bp较为合适。
c、进行高通量的DNA测序反应,得到大量的DNA标签序列(也称为测序片段,可用reads表示)。
本步骤中,为提高检测的精确性,优选可以对从环境样本中提取的全部DNA进行测序。
在步骤S102中,去除步骤S101得到的该DNA标签序列中可能存在的载体污染。
由于在测序反应中所使用的载体序列是特定的,因此,由测序反应得到的DNA标签序列中可能包含这些特定的载体序列或者特定的载体序列的一部分。通过在DNA标签序列中搜索特定的载体序列字串,即可判断该DNA标签序列是否被特定的载体序列污染,进而去除该DNA标签序列中存在的载体污染。
在步骤S103中,将经去除污染后的该DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果得到该DNA标签序列的所属分类。
其中已知数据库包括但不限于细菌基因组数据库、真菌基因组数据库、病毒Genbank数据库、核糖体数据库(RDP数据库)、环境微生物的非冗余核酸序列数据库(Env nt数据库)、非冗余核酸序列数据库(nt数据库)。在本发明实施例中,可以根据环境微生物的检测需求,从上述多个已知数据库中选择一个或者多个已知数据库中的已知序列与该DNA标签序列进行比对。而当环境样本较复杂时,则可以选择将所有的已知数据库中的已知序列与DNA标签序列进行比对。
在本发明实施例中,采用短串序列的映射方法将DNA标签序列与已知数据库中的已知序列进行比对,将DNA标签序列与已知序列之间的最佳匹配序列所属的分类确定为该DNA标签序列的所属分类。其中DNA标签序列与已知序列之间的最佳匹配序列是指DNA标签序列比对到已知序列上具有最少碱基错配的序列。当采用短串序列的映射方法将DNA标签序列与已知数据库中的已知序列进行比对时,可能得到的多个最佳匹配序列,即DNA标签序列可以同时以最佳的匹配形式比对上多条已知序列,此时,将该DNA标签序列比对上的多条已知序列的最近的共同所属分类作为该DNA的所属分类。
请参阅图2,当DNA标签序列同时比对上已知数据库中的多条已知序列,分别为种(species):橙色绿屈挠菌(Chloroflexusaurantiacus)、species:绿色糸状细菌(Roseiflexus castenholzii)和species:Roseiflexus sp.RS-1时,由于上述多条已知序列的最近的共同所属分类为科(family):绿屈挠菌科(Chloroflexaceae),因此,将上述多条已知序列的最近的共同所属分类family:Chloroflexaceae作为DNA标签序列的所属分类。
由于微生物基因组的突变率较高,所以在将DNA标签序列与已知数据库中的已知序列进行比对时,允许预设个数的错配以及小的插入缺失序列。其中预设个数的错配可以根据经验设置。
通过上述步骤,可以得到环境样品在不同分类水平上的多样性信息。
通过上述微生物检测方法可以检测到环境样本中可能存在哪些微生物物种或哪一类微生物物种,但难以检测到物种存在的可信度,以及在物种存在的可信度高时,该物种在环境中所占的比例。
因此为了合理地解决上述两个问题,在本发明另一实施例中,可以进一步包括如下步骤S104-S107。其中,步骤S104在步骤S103将DNA标签序列与已知数据库中的已知序列进行比对之前执行,也可以与步骤S103同步或在步骤S103之后进行,步骤S105-S107在步骤S103之后进行。
在步骤S104中,对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的特有序列。其具体步骤如下:
a、根据已知数据库中的已知序列产生模拟标签序列。其具体过程如下:
从已知序列的第一位碱基开始,取预设长度(一般取44bp)的DNA序列作为第一个模拟标签序列,接着从已知序列的第二位碱基开始,取同样长度的DNA序列作为第二个模拟标签序列,依此类推,从已知序列的每一位碱基开始,取同样长度的DNA序列作为模拟标签序列。
b、将得到的各模拟标签序列映射到已知序列上,并记录映射到唯一位置的模拟标签序列。
在本发明实施例中,可以采用任意一种序列映射方法,例如SOAP比对方法,将模拟标签序列映射到已知序列上,因此,在此不再赘述。将模拟标签序列映射到已知序列上时,由于经测序得到的测序片段总会有一定的错误率存在,为了避免在实际操作中因为该测序错误而将真实DNA标签序列映射到另一位置,在本发明实施例中,在允许测序错误的前提下,将模拟标签序列映射到已知序列上。
c、查找连续的映射到唯一位置的模拟标签序列,得到能唯一代表一个物种的特有序列。其中特有序列是指能唯一代表一个物种的DNA序列片段。一般,特有序列的个数会有多个,为提高检测的精确性,本实施例中优选找出所有的特有序列。所述特有序列的测序深度代表该物种在样品中的含量。其具体过程如下:
查找连续的映射到唯一位置的模拟标签序列,得到唯一映射的模拟标签序列的连续区域。将该连续区域的头尾两部分各去掉(模拟标签序列长度-1)个位点后的连续区域内的序列作为特有序列。因为该连续区域的头尾两部分中只被部分的模拟标签序列唯一映射,而理想的情况是每一个位点都被模拟标签序列的长度个序列唯一映射的连续区域才能唯一的代表一个物种。因此,需要将上述连续区域的头尾两部分各去掉(模拟标签序列长度-1)个位点后的连续区域作为特有序列。最后,将已知序列上全部特有序列的连接起来,做为能唯一代表这个物种DNA序列片段的“特有序列”。在本发明实施例中,当需要了解所有从环境样本中检测到的微生物物种的存在的可信度和在环境中所占的比例时,则需要对已知数据库中的所有已知序列进行上述预处理,得到能唯一代表一个物种的特有区域,由于已知数据库中可能包括多个物种,因此经预处理后,得到能唯一代表一个物种的特有区域有多个,分别唯一代表不同的物种。
请参阅图3,当查找到的连续的映射到唯一位置的模拟标签序列为短序列1至短序列n,将查找到的连续的唯一比对上的区域的头尾两部分各去掉(模拟标签序列长度-1)个位点后的连续区域作为特有序列。
在步骤S105中,计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度(记为d)。其中,本步骤所述DNA标签序列对应于步骤S102经去除污染后的该DNA标签序列。根据试验结果,特有序列所代表的物种在样品中的含量是随着特有序列的平均测序深度的增加而增加的,因此,当需要了解从环境样本中检测到的物种的相对含量比时,在计算特有序列的平均测序深度时,计算唯一代表每种物种的特有序列的平均测序深度,此时,该方法还包括下述步骤:
根据计算得到的唯一代表每种物种的特有序列的平均测序深度比,得到每种特有序列代表的物种的相对含量比。由于特有序列所代表的物种在样品中的含量是随着特有序列的平均测序深度的增加而增加的,因此,计算得到的唯一代表每种物种的特有序列的平均测序深度比即为每种特有序列代表的物种的相对含量比。
如假设计算得到的唯一代表物种A的特有序列的平均测序深度为20,唯一代表物种B的特有序列的平均深度为100,唯一代表物种C的特有序列的平均深度为30时,则根据上述计算结果,可以得到物种A、物种B和物种C之间的相对含量比为20∶100∶30。
在步骤S106中,计算特有序列中有多少位碱基被DNA标签序列覆盖,将被覆盖的碱基位数除以特有序列中总的碱基位数,从而得到特有序列的覆盖度(记为c)。并计算整条序列中(包括特有序列和DNA标签序列非唯一比对上的序列)有多少位碱基被DNA标签序列覆盖,将被覆盖的碱基位数除以整条序列中的碱基位数,从而得到整条序列的覆盖度(记为c’)。比如:某一序列中有100位碱基(即长度为100bp),其中80位碱基被覆盖,则计算得到该序列的覆盖度是0.8。
在步骤S107中,根据DNA标签序列的平均测序深度d、特有序列的覆盖度c以及整条序列的覆盖度c’计算特有序列代表的物种序列被发现的可信度,例如可采用如下算法计算可信度:可信度
Figure GSB00000811632800091
(当p接近1时,可信度最高;当p接近0时,可信度最低),其中θ表示测序的校正因子,不同的测序方法,θ的值可能不同。通常情况下,式c≤c′成立;如果实际数据中c>c′,则表明该物种序列有异常情况。
图4示出了本发明实施例提供的环境微生物检测系统的结构,为了便于说明,仅示出了与本发明实施例相关的部分。其中:
DNA测序单元41采用高通量的测序技术对从环境样本中提取的DNA进行测序,得到DNA标签序列。其中高通量的测序技术为以Solexa、Solid等为代表的第二代测序技术。该DNA测序单元41包括DNA样品提取模块411、文库制备模块412和测序模块413。其中DNA样品提取模块411从环境样本中提取DNA样品。在提取DNA样品时,需要保证样品中DNA的高质量和微生物的多样性。文库制备模块412对上述DNA样品进行文库制备。测序模块413进行高通量的DNA测序反应,得到大量的DNA标签序列。由于测序模块413的具体测序过程属于现有技术,因此,此处不再赘述。
载体污染去除单元42去除DNA测序单元41得到的DNA标签序列中可能存在的载体污染。在本发明实施例中,由于在测序反应中所使用的载体序列是特定的,因此,由测序反应得到的DNA标签序列中可能包含这些特定的载体序列或者特定的载体序列的一部分。通过在DNA标签序列中搜索特定的载体序列字串,即可判断该DNA标签序列是否被特定的载体序列污染,进而去除该DNA标签序列中存在的载体污染。
所属分类确定单元43将载体污染去除单元42处理后的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果得到该DNA标签序列所属的分类。其中已知数据库为细菌基因组数据库、真菌基因组数据库、病毒Genbank数据库、RDP数据库、Env nt数据库、nt数据库中一种或者多种组合。
在本发明实施例中,采用短串序列的映射方法将DNA标签序列与已知数据库中的已知序列进行比对,得到DNA标签序列与已知序列之间的最佳匹配形式。其中DNA标签序列与已知序列之间的最佳匹配形式是指DNA标签序列比对到已知序列上具有最少碱基错配的位置。根据得到的DNA标签序列与已知序列中之间的最佳匹配形式即可得到该DNA标签序列所属的分类。当采用短串序列的映射方法将DNA标签序列与已知数据库中的已知序列进行比对时,可能得到的多个最佳匹配形式,即DNA标签序列可以同时以最佳的匹配形式比对上多条已知序列,此时,将该DNA标签序列比对上的多条已知序列的最近的共同所属分类作为该DNA的所属分类。
通过上述微生物检测方法可以检测到环境样本中可能存在哪些微生物物种或哪一类微生物物种,但难以检测到物种存在的可信度,以及在物种存在的可信度高时,该物种在环境中所占的比例。因此为了合理地解决上述两个问题,在本发明另一实施例中,该系统还包括已知序列预处理单元44、测序深度计算单元45、覆盖度计算单元46和可信度判断单元47。
其中已知序列预处理单元44对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段。其包括模拟标签序列产生模块441、模拟标签序列映射模块442、特有序列获取模块443。
其中模拟标签序列产生模块441从已知序列的每一位碱基开始,取同样长度的DNA序列作为模拟标签序列。
模拟标签序列映射模块442将得到的各模拟标签序列映射到已知序列上,并记录映射到唯一位置的模拟标签序列。
特有序列获取模块443查找连续的映射到唯一位置的模拟标签序列区域,并将该区域的头尾两部分各去掉(模拟标签序列长度-1)个位点后的连续区域内的序列作为特有序列。最后,将已知序列上全部特有序列连接起来,做为能唯一代表这个物种DNA序列片段的“特有序列”。由于该区域的头尾两部分中只被部分的模拟标签序列唯一映射,而理想的情况是每一个位点都被模拟标签序列的长度个序列唯一映射的连续区域才能唯一的代表一个物种。因此,需要将上述连续区域的头尾两部分各去掉(模拟标签序列长度-1)个位点后的连续区域作为特有序列,以使该特有序列的DNA序列片段能唯一代表一个物种。
测序深度计算单元45计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度(记为d)。该特有序列的平均测序深度即为比对到该特有序列的DNA标签序列代表的物种在样品中的含量。
覆盖度计算单元46计算特有序列和整条序列的覆盖度。其包括特有序列覆盖度计算模块461和整条序列覆盖度计算模块462。特有序列覆盖度计算模块461计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度(记为c)。整条序列覆盖度计算模块462计算整条序列中(包括特有序列和DNA标签序列非唯一比对上的序列)有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度(记为c’)。
可信度判断单元47根据特有序列的平均测序深度d、特有序列的覆盖度c以及整条序列的覆盖度c’判断出该特有序列所代表的物种序列被发现的可信度。在本发明实施例中,当c近似等于
Figure GSB00000811632800111
且c≤c′时,则认为该物种序列被发现的可信度高,其中θ表示测序的校正因子,不同的测序方法,θ的值可能不同。否则认为该物种序列被发现的可信度低。
当需要了解从环境样本中检测到的物种的相对含量比时,在本发明另一实施例中,该系统还包括含量比计算单元48。该含量比计算单元48根据计算得到的唯一代表每种物种的特有序列的平均测序深度比,得到每种特有序列代表的物种的相对含量比。由于特有序列所代表的物种在样品中的含量是随着特有序列的平均测序深度的增加而增加的,因此唯一代表每种物种的特有序列的平均测序深度比即为每种特有序列代表的物种的相对含量比。在本发明实施例中,通过采用高通量的测序技术对提取的DNA样品进行测序,得到DNA标签序列,再将测序序列与已知数据库中的已知序列进行比对,根据比对结果得到DNA标签序列的所属分类,从而可以检测到环境样本中可能存在哪些微生物物种或哪一类微生物物种。通过对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的特有序列,再通过计算特有序列中每一位碱基上DNA标签序列的覆盖次数,采用泊松分布拟合得到特有序列的平均测序深度,从而检测出该特有序列代表的物种在样品中的含量。同时通过计算特有区域的覆盖度和整条序列的覆盖度,从而根据特有序列的平均测序深度、特有区域的覆盖度和整条序列的覆盖度可以判断特有序列所代表的物种被发现的可信度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种环境微生物检测方法,其特征在于,所述方法包括下述步骤:
输入从环境样本中提取的DNA数据,采用高通量的测序方法对从环境样本中提取的DNA进行测序,得到大量的DNA标签序列;
去除所述DNA标签序列中存在的载体污染;
将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类;
所述方法还包括下述步骤:
对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;
计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;
计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度;
计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;
根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度;
其中,所述对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段的步骤包括:
根据从已知序列的每一位碱基开始,取预设长度的DNA序列作为模拟标签序列;
将所述模拟标签序列映射到已知序列上,并记录映射到唯一位置的模拟标签序列;
查找连续的映射到唯一位置的模拟标签序列区域,并将所述区域的头尾两部分各去掉模拟标签序列长度-1个位点后的连续区域内的序列作为特有序列,将已知序列中的特有序列连接起来,作为能唯一代表一个物种DNA序列片段的特有序列。
2.如权利要求1所述的方法,其特征在于,将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类的步骤包括:
采用短串序列的映射方法将所述DNA标签序列与已知数据库中的已知序列进行比对,将所述DNA标签序列与已知序列之间的最佳匹配序列所属的分类确定为所述DNA标签序列的所属分类,所述DNA标签序列与已知序列之间的最佳匹配序列为所述DNA标签序列比对到已知序列上具有最少碱基错配的序列。
3.如权利要求2所述的方法,其特征在于,当所述DNA标签序列与已知序列之间的最佳匹配序列有多个时,将该多个最佳匹配序列的最近的共同所属分类确定为所述DNA标签序列的所述分类。
4.如权利要求1所述的方法,其特征在于,根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度的步骤具体为:
可信度
Figure FSB00000942945600021
当p接近1时,可信度最高;当p接近0时,可信度最低,其中c为特有序列的覆盖度,d为特有序列的平均测序深度,c’为整条序列的覆盖度,θ为测序的校正因子。
5.如权利要求1所述的方法,其特征在于,所述计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度还包括下述步骤:
根据计算得到的唯一代表每种物种的特有序列的平均测序深度比,得到每种特有序列代表的物种的相对含量比。
6.如权利要求1-5任意一项所述的方法,其特征在于,所述采用高通量的测序技术对从环境样本中提取的DNA进行测序过程为对环境样本中提取的全部DNA进行测序。
7.一种环境微生物检测系统,其特征在于,所述系统包括:
DNA测序单元,用于采用高通量的测序技术对输入的从环境样本中提取的DNA进行测序,得到DNA标签序列;
载体污染去除单元,用于去除所述DNA标签序列中存在的载体污染;
所属分类确定单元,用于将去除载体污染后得到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对结果确定所述DNA标签序列所属的分类;
所述系统还包括:
已知序列预处理单元,用于对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种的DNA序列片段;
测序深度计算单元,用于计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有序列的平均测序深度;
覆盖度计算单元,用于计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特有序列的覆盖度,并计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整条序列的覆盖度;
可信度判断单元,用于根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特有序列代表的物种被发现的可信度的高低;
其中,所述已知序列预处理单元包括:
模拟标签序列产生模块,用于根据从已知序列的每一位碱基开始,取预设长度的DNA序列作为模拟标签序列;
模拟标签序列映射模块,用于将所述模拟标签序列映射到已知序列上,并记录映射到唯一位置的模拟标签序列;
特有序列获取模块,用于查找连续的映射到唯一位置的模拟标签序列区域,并将所述区域的头尾两部分各去掉模拟标签序列长度-1个位点后的连续区域内的序列作为特有序列,将已知序列中的特有序列连接起来,作为能唯一代表一个物种DNA序列片段的特有序列。
8.如权利要求7所述的系统,其特征在于,所述可信度判断单元判断可信度
Figure FSB00000942945600031
当p接近1时,可信度最高;当p接近0时,可信度最低,其中c为特有序列的覆盖度,d为特有序列的平均测序深度,c’为整条序列的覆盖度,θ为测序的校正因子。
9.如权利要求8所述的系统,其特征在于,所述系统还包括:
含量比计算单元,用于根据计算得到的唯一代表每种物种的特有序列的平均测序深度比,得到每种特有序列代表的物种的相对含量比。
10.如权利要求7-9任意一项所述的系统,其特征在于,所述DNA测序单元对环境样本中提取的全部DNA进行测序。
CN200910258132.3A 2008-12-12 2009-12-14 一种环境微生物检测方法和系统 Active CN101748213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910258132.3A CN101748213B (zh) 2008-12-12 2009-12-14 一种环境微生物检测方法和系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200810218341.0 2008-12-12
CNA2008102183410A CN101429559A (zh) 2008-12-12 2008-12-12 一种环境微生物检测方法和系统
CN200910258132.3A CN101748213B (zh) 2008-12-12 2009-12-14 一种环境微生物检测方法和系统

Publications (2)

Publication Number Publication Date
CN101748213A CN101748213A (zh) 2010-06-23
CN101748213B true CN101748213B (zh) 2013-05-08

Family

ID=42475824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910258132.3A Active CN101748213B (zh) 2008-12-12 2009-12-14 一种环境微生物检测方法和系统

Country Status (1)

Country Link
CN (1) CN101748213B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409045B (zh) * 2010-09-21 2013-09-18 深圳华大基因科技服务有限公司 一种基于dna接头连接的标签文库构建方法及其所使用标签和标签接头
CN102409044B (zh) * 2010-09-21 2014-05-07 深圳华大基因科技服务有限公司 用于数字基因表达谱的标签及其使用方法
CN101967476B (zh) * 2010-09-21 2012-11-14 深圳华大基因科技有限公司 一种基于接头连接的DNA PCR-Free标签文库构建方法
CN102831330A (zh) * 2011-11-30 2012-12-19 北京诺禾致源生物信息科技有限公司 测序数据的处理方法及装置
KR101506371B1 (ko) * 2012-10-29 2015-03-26 삼성에스디에스 주식회사 중복을 고려한 염기 서열 재조합 시스템 및 방법
KR101482011B1 (ko) * 2012-10-29 2015-01-14 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101508816B1 (ko) * 2012-10-29 2015-04-07 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101525303B1 (ko) * 2013-06-20 2015-06-02 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
CN103744880B (zh) * 2013-12-20 2018-07-31 浪潮(北京)电子信息产业有限公司 一种基于云计算的dna数据管理方法及系统
CN105603081B (zh) * 2016-01-29 2019-12-06 北京工商大学 一种非诊断目的的肠道微生物定性与定量的检测方法
CN106555008A (zh) * 2016-12-11 2017-04-05 天津福德信泰生物科技有限公司 一种微生物的检测识别方法和系统
CN106650311A (zh) * 2016-12-23 2017-05-10 基努里(天津)生物科技有限公司 一种微生物的检测识别方法和系统
CN109337967A (zh) * 2018-09-27 2019-02-15 华中科技大学鄂州工业技术研究院 一种实验室的微生物污染鉴别方法
CN109767813B (zh) * 2018-12-27 2021-06-22 北京优迅医学检验实验室有限公司 测序深度的矫正方法及装置
CN111462821B (zh) * 2020-04-10 2022-02-22 广州微远医疗器械有限公司 病原微生物分析鉴定系统及应用
CN111599413B (zh) * 2020-05-12 2021-03-16 江苏先声医学诊断有限公司 一种测序数据的分类单元组分计算方法
CN115019892B (zh) * 2022-06-13 2023-04-07 郑州大学第一附属医院 环境微生物群宏基因组测序中序列覆盖度的置信测定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S.米赛诺 等.检测生物模式:整合数据库、模型和算法.《生物信息学方法指南》.2005,363-372. *
孙栋.高盐极端环境土壤宏基因组文库的构建及一个新的淀粉酶基因的克隆.《中国优秀博硕士学位论文全文数据库(硕士) 基础科学辑》.2005,(第07期),A006-38. *

Also Published As

Publication number Publication date
CN101748213A (zh) 2010-06-23

Similar Documents

Publication Publication Date Title
CN101748213B (zh) 一种环境微生物检测方法和系统
Steinmetz et al. Dissecting the architecture of a quantitative trait locus in yeast
Dumolin et al. Introducing SPeDE: High-throughput dereplication and accurate determination of microbial diversity from matrix-assisted laser desorption–ionization time of flight mass spectrometry data
CN106868116B (zh) 一种桑树病原菌高通量鉴定及种属分类方法及其应用
CN107937502B (zh) 一种筛选微生物高多态性分子标记位点的方法
CN106701914A (zh) 一种基于dna条形码的细菌核酸测序鉴定方法
Tsykun et al. A new multilocus approach for a reliable DNA-based identification of Armillaria species
CN101429559A (zh) 一种环境微生物检测方法和系统
CN105420375A (zh) 一种环境微生物基因组草图的构建方法
CN103981256A (zh) 一种沙门氏菌crispr分型方法
Brown et al. Don't put all your eggs in one basket: a cost‐effective and powerful method to optimize primer choice for rRNA environmental community analyses using the Fluidigm Access Array
US20150310168A1 (en) Method for predicting gene cluster including secondary metabolism-related genes, prediction program, and prediction device
US20060019295A1 (en) Genomic barcoding for organism identification
CN112331268B (zh) 目标物种特有序列的获取方法及目标物种检测方法
CN106555008A (zh) 一种微生物的检测识别方法和系统
CN106650311A (zh) 一种微生物的检测识别方法和系统
CN105907860B (zh) 一种利用|Δ(SNP-index)|进行性状定位的QTL-seq方法及其应用
CN115976235B (zh) 德氏乳杆菌cicc 6047菌株的鉴定方法及其引物、试剂盒和应用
Milne et al. Molecular evidence indicates that subarctic willow communities in Scotland support a diversity of host-associated Melampsora rust taxa
Xu Extracting haplotypes from diploid organisms
Owen Bacterial taxonomics: finding the wood through the phylogenetic trees
CN101565744B (zh) 一种三疣梭子蟹多元高通量遗传标记系统及遗传分析方法
CN102831331A (zh) 基于酶切建库双末端测序的长度多态性标记的引物设计开发方法
Srivastava et al. To develop strain specific molecular marker for easy and proper identification of fungal species based on molecular characters: A Review
CN114277164B (zh) 一种肺炎链球菌的mnp标记组合、引物对组合、试剂盒及其应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen

Patentee after: BGI SHENZHEN

Patentee after: Shenzhen Huada Gene Technology Co., Ltd.

Address before: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen

Patentee before: BGI SHENZHEN

Patentee before: Shenzhen Huada Gene Technology Co., Ltd.

CP01 Change in the name or title of a patent holder