一种利用IIB型限制性内切酶进行微生物群落鉴定的方法
技术领域
本发明涉及微生物检测技术领域,更具体的说是涉及一种利用IIB型限制性内切酶进行微生物群落鉴定的方法。
背景技术
人类对微生物的认识伴随技术手段的革新而不断深入,近年来的研究指出人体共生微生物深刻影响着人体健康,因此以微生态为基础诊断和预警人体健康,已经成为未来医疗的重要发展方向。然而宏基因组测序技术(扩增子测序和鸟枪测序)作为现有研究微生物组最成熟、最主要的技术手段,在开展大规模人群实验,尤其是面向临床医疗时,表现出一定的局限性。
扩增子测序(amplicon sequencing)的局限性包括:(1)扩增子测序根据研究对象的不同(细菌或真菌),分为16S、18S、ITS测序等,无法在一次测序中鉴别所有对象(而多次测序使得样本利用率低,污染风险高,测序成本增加);并且扩增子测序会因扩增区域的不同,造成测定结果的不同:比如同一样本的16S测序中,V1-V3区的测序结果与V4-V5区的测序结果有显著差异,这就造成了不同研究之间的可比性差,制约了微生态与人体健康研究的发展。(2)对不同细菌存在明显的扩增偏好性,无法准确重现样品的微生物群落结构,影响后续分析和研究,以及临床诊断等环节。(3)分辨率低,一般只能分辨到属或种,无法有效区分株水平的差异,而株水平差异往往对疾病的研究具有重要意义。
宏基因组鸟枪测序(shotgun sequencing)弥补了扩增子测序的部分不足,能够较为准确的重现微生物群落的结构和功能,分辨率可达到株水平,一次测序的鉴别对象可包含古菌、真菌、细菌、病毒和部分宿主基因信息。但仍存在许多局限性,包括:(1)对样本DNA含量有较高要求,无法处理痕量DNA,而人体部分菌群样本(如皮肤和唾液)DNA含量稀少,难以满足测序需求。(2)测序成本高昂,按照目前测序市场报价来看,一般情况下一个样本由Illumina Hiseq2500产生10GB数据(约33M reads)的单纯测序费用为5000元(而扩增子测序方面,一个样本由Illumina Miseq300产生15MB数据约50K reads的单纯测序费用仅为500元人民币)。这一点严重阻碍了人体微生态相关领域使用宏基因组鸟枪测序为手段进行研究,制约了相关成果向临床医疗的转化。(3)仍然存在一定程度的扩增偏好性。
因此,提供一种微生物群落鉴定的方法,既能保留宏基因组鸟枪测序优点,又能解决成本问题,使其具备处理痕量DNA的能力,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种利用IIB型限制性内切酶进行微生物群落鉴定的方法,该方法在低成本的情况下能够同时测定真菌,细菌,古菌和病毒,是一种分辨率高(株水平),灵敏性高(可以应对痕量DNA),准确性高的微生物测序技术。
为了实现上述目的,本发明采用如下技术方案:
一种利用IIB型限制性内切酶进行微生物群落鉴定的方法,具体步骤如下:
(1)利用选定的IIB型限制性内切酶对样品所提取的基因组DNA进行酶切;
(2)DNA酶切片段连接相应数目种类的接头,然后对连接产物进行PCR扩增,扩增产物通过再次酶切扩增得到相应数目的DNA文库,将质检合格的DNA文库进行高通量测序;
(3)根据微生物基因组信息和IIB型限制性内切酶的酶切特点,建立“微生物IIB酶切组”数据库,并找到针对物种在不同分类级上的特有序列(只属于该物种基因组而与其他物种基因组无任何重复的DNA序列),建立“微生物IIB酶切特有序列数据库”;
(4)对测序获得的序列数据进行质量控制,保留含有酶切特异性位点的25bp-35bp的碱基片段,根据公式:
并结合利用“微生物IIB酶切特有序列数据库”对菌群样品的组成成分及其比例进行鉴定分析,包括真菌,细菌,古菌和病毒的相对含量,以及样品所含物种在株水平的定量结果;其中,Rx是指某一物种的相对丰度,U指微生物IIB酶切特有序列数据库中该物种的特有序列数,u指测序数据中被匹配为该物种特有序列的序列数,n为所有鉴定得到的物种种类。
对DNA片段≥50bp的痕量降解样品,利用步骤(1)-(4)所述方法,仍能够检出其菌群结构和相对含量。
对微生物含量≥500cfu/ml的样品,利用步骤(1)-(4)所述方法,仍能够检出其菌群结构和相对含量。
优选地,步骤(1)中所述的IIB型限制性内切酶,包括AlfI、AloI、BaeI、BcgI、BplI、BsaXI、BslFI、Bsp24I、CspCI、CjeI、CjePI、FalI、HaeIV、Hin4I、PpiI或PsrI,所述内切酶的识别序列和酶切后产生的片段长度是固定的,参见表1。
本发明共涉及上述多种IIB型限制性核酸内切酶,根据实际情况对不同类型样品的基因组DNA进行IIB酶切。IIB型限制性内切酶在基因组上识别特定的碱基序列(一般为5-7碱基),然后在识别位点两侧进行双链酶切,在全基因组范围内切出的标签片段长度相等(如:内切酶BcgI切出等长的32bp片段)。
表1 IIB型限制性核酸内切酶列表
优选地,所述步骤(2)中,允许1-7个样品同时构建DNA文库,添加接头后依次连接为一条序列进行测序,能够大幅降低测序成本。
进一步,所述步骤(3)中,根据IIB型限制性内切酶的酶切特点,对所有微生物基因组进行电子酶切,集合所有电子酶切片段,建立“微生物IIB酶切组”数据库;对上述酶切片段,在物种的不同分类层(taxonomy)之间进行相互比对,筛选出只属于某一物种而与其他物种无重复的DNA酶切片段,以此建立“微生物IIB酶切特有序列数据库”。
进一步,在步骤(4)中,对测序获得的序列数据进行质量控制,保留PHRED平均值≥25的序列,然后对串联而成的序列根据步骤(2)中对应的样品数进行拆分;然后参照“微生物IIB酶切特有序列数据库”中的特有序列,并利用公式:
对样品中所含有的真菌、细菌、古菌和病毒的组成及其比例(相对含量)进行株水平的鉴定。
进一步,与微生物相关的样品,其基因组DNA需满足如下条件:DNA主带≥50bp,DNA总量不低于1ng,细胞数大于等于500cfu/ml,即能进行菌群鉴定。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种利用IIB型限制性内切酶进行微生物群落鉴定的方法,(1)在控制测序成本方面,相比于shotgun测序,2b-RAD技术可简化原基因组大小(根据所选IIB酶的不同,将基因组大小缩减94%到99%),即在相同测序深度的情况下,shotgun测序花费5000元(产生10GB bases约33M reads),而单标签2b-RAD技术所需测序成本仅为250元(2M reads),其价格还要便宜于扩增子测序,经过技术优化,最终做到成本约50元/每个样本,这将对人体微生态研究开展大规模人群实验奠定基础。另外,2b-RAD对测序平台并无依赖性,因此即使高通量测序平台不断更新换代,2b-RAD宏基因组测序将在实时测序价格的基础上大幅节省测序成本。
(2)在痕量DNA的鉴定方面,鸟枪测序因为建库问题无法对低浓度DNA进行测序,扩增子测序则因为涉及PCR过程,所以对DNA浓度要求较低,但是痕量DNA往往具有浓度低和DNA片段化严重的特点,而扩增子测序面对片段化DNA则缺乏解析能力(另外扩增子测序还存在扩增偏好性等技术局限性);本发明的方法由于包含IIB酶切位点的PCR过程,并且扩增片段只有约30bp,所以对痕量DNA具备特殊的处理能力,可以应对如皮肤、唾液等DNA含量稀少或因久置而降解的病理切片等样品。
(3)在分辨率和兼容性方面,本发明的方法与宏基因组鸟枪测序一样,可达到株水平分辨率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的鉴定方法与传统微生物鉴定方法的准确性比较;其中,1:Acinetobacter baumannii;2:Actinomyces odontolyticus;3:Bacillus cereus;4:Bacteroides vulgatus;5:Clostridium beijerinckii;6:Deinococcus radiodurans;7:Enterococcusfaecalis;8:Escherichia coli;9:Helicobacterpylori;10:Lactobacillusgasseri;11:Listeria monocytogenes;12:Neisseria meningitidis;13:Propionibacterium acnes;14:Pseudomonas aeruginosa;15:Rhodobacter sphaeroides;16:Staphylococcus aureus;17:Staphylococcus epidermidis;18:Streptococcusagalactiae;19:Streptococcus mutans;20:Streptococcus pneumoniae;
图2附图为本发明降解DNA的检测;其中,1:DL2000marker;2-5:降解DNA<100bp。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
以美国人体微生物计划(HMP)所用标准品MOCK-MSA1002为对象(该标准品中预先混合了20种等16S比例的细菌)进行实验检验:选择IIB型限制性内切酶BcgI进行酶切建库,将生物学重复的3个样品进行串联,在Hiseq2000平台上进行测序,并最终计算出该样品的物种组成及其比例,与传统方法16S扩增子测序,和鸟枪法测序进行比较,该方法的准确性更高(如图1所示),成本更低。
实施例2
以美国人体微生物计划(HMP)所用标准品MOCK-MSA1002为对象(该标准品中预先混合了20种等16S比例的细菌),对基因组DNA进行超声打断,DNA打断大小分别为100bp和50bp、100-400bp、<100bp,然后选择IIB型限制性内切酶BcgI进行酶切建库,将生物学重复的3个样品进行串联,在HiseqXten平台上进行测序,并最终计算出DNA打断至不同大小和完整DNA样品的物种组成及其比例。DNA被打断至100bp以上的样品用此方法,其结果与DNA保持完整的样品菌群定量分析结果高度相似;DNA被打断至几十至数百bp左右样品,应用此方法能够还原完整DNA样品结构的70%。结果如图2所示,该方法对降解和低浓度样品也能进行微生物检测。
实施例3
人体相关微生物样本包括人的肠道(粪便和直肠)、口腔、皮肤(头皮和眼部)、唾液、羊水、痰液、胃液、尿液和阴道、人体组织等临床样本相关的微生物样本。
本实施例以人体粪便样品为实验材料,详细叙述本实施例在人体样品中的微生物鉴定方法。
(1)人体粪便样品的采集和基因组DNA的提取
在取样对象排便完成后,采集第一次擦拭时留在卫生纸上的粪便,使用带有螺盖的无菌采样管旋转抹取适量,分别取样三次,取样后的棉棒或小勺仍放回原采样管拧紧(管中存有90%的酒精用于常温保存粪便样品)。
样品预处理过程为:取1g粪便分别装入50mL离心管,其中一管加入0.1mol/L磷酸钠缓冲液15mL,充分涡旋震荡10min后,再加入15mL缓冲液。200×g离心5分钟,收集上清转移至新管,重复清洗三次。9000×g高速离心5分钟,弃上清,重悬沉淀于35mL缓冲液并重复三次,最后一次悬浮在5mL缓冲液中,震荡混匀。混匀后的样品分装至5个1.5mL EP管,存放于-80度冰箱保存备用。利用粪便基因组DNA提取试剂盒(DP328,天根生化科技(北京)有限公司)提取人体粪便基因组DNA。
(2)基因组DNA的酶切
采用BcgI对5个人体粪便基因组DNA进行酶切,酶切体系为20μL,包含200ng基因组DNA,2U的内切酶(NEB),1×buffer3.1和0.01mM的SAM。37℃酶切反应60min。
(3)DNA文库的构建
1)对五份酶切产物分别连接不同的接头,连接反应体系为25μL,包含15μL步骤(2)中的酶切产物,200U T4DNA连接酶(NEB),1×T4Ligase Buffer,1.5mM Slx-AdaA,1.5mMSlx-AdaB。20℃连接1h。
2)对连接产物进行PCR扩增,切胶回收目的片段,并以其为模板再次扩增富集PCR产物,然后采用QIAquick PCR kit(Qiagen)将5份PCR产物混合纯化。PCR扩增反应体系均为50μL,包含18μL连接产物,0.1mM PrimerA,0.1mM PrimerB,0.3mM dNTPs(NEB),0.8UPhusion DNA polymerase(NEB),1×HF buffer。反应条件为98℃变性5s,60℃退火20s,72℃延伸10s,进行16个循环,72℃延伸10min,4℃保温。
3)用LguI酶对PCR纯化产物进行酶切,以去除PCR产物两端多余的接头序列,酶切体系为20μL,包含10μL纯化后的PCR产物,5U LguI酶(NEB),1×Thermo Tango buffer。将剩余5个样品的标签连接在一起,然后切胶回收目的片段,最后通过PCR扩增引入Barcode序列得到多标签文库,PCR扩增反应体系为50μL,包含10μL连接产物,0.1mM PrimerA,0.1mMPrimerB,0.3mM dNTPs(NEB),0.8U Phusion DNA polymerase(NEB),1×HF buffer。反应条件为98℃变性5s,60℃退火20s,72℃延伸10s,进行6-10个循环,72℃延伸10min,4℃保温。
(4)DNA文库的测序:
Illumina Hiseq/Miseq/Nextseq测序平台、IlluminaNova/Xten测序平台、Iontorrent测序平台、Pacbio测序平台和BGIseq测序平台等都可以进行选择,本实验利用Illunima HiseqXten测序平台进行PE150测序。
(5)数据分析:
1)根据微生物基因组信息和IIB限制性内切酶酶切位点的特异性,建立“微生物IIB酶切组”数据库,并找到针对每一个基因组在不同分类级上的特有序列,特有序列是指只属于某一物种基因组而不与其他物种基因组有任何重复的DNA序列,每个微生物基因组约有35%的IIB酶切片段在种水平上具有特异性,根据上述原理建立“微生物IIB酶切特有序列数据库”,用于后续该菌株的定性和定量分析。
2)针对每一个样品的测序数据,首先进行切割和质控,保留含有酶切特异性位点的25bp至35bp的碱基片段,去除PHRED平均值在25以下的序列,形成用于后续分析的可用序列(clean reads)。
3)以微生物IIB酶切特有序列数据库中的序列作为参照,将clean reads与其进行搜索匹配。比对时利用SOAP2,或者Centrifuge、BWA、Bowtie1/2、Stack和Mega-balst等序列搜索匹配软件,本实验利用SOAP2进行比对,并提取特有序列的匹配情况。
(4)利用公式:
进行计算,最终形成该样品的微生物组结构鉴定结果(生成鉴定报告),包括该样品中所含有真菌的组成成分及其比例,细菌的组成成分及其比例,古菌的组成成分及其比例,病毒组的组成成分及其比例,具体如下表所示。
实施例4
环境样本包括土壤(根际土、污泥、沙土)、水体(海水、河水、污水、油田)、发酵液等。
本实施例以土壤样品为实验材料,详细叙述本实施例在环境样品中的微生物鉴定方法。
(1)土壤样品的采集和基因组DNA的提取
首先对取样器具进行消毒灭菌处理,去除表面浮土,使用乙醇火烧的铲子挖取地下5~20cm的土层;去除可见杂质后,土壤过2mm筛网,每个样品从3个及以上采样点采集并混合而成,每5~10g分为一份;保存于无菌离心管中,置于0℃以下运回实验室,用于抽提DNA;如不能马上提取,置于-80℃保存。利用MOBIO PowerSoil DNA isolation kit提取土壤基因组DNA。
(2)基因组DNA的酶切
采用CspCI对5个土壤基因组DNA进行酶切,酶切体系为20μL,包含200ng基因组DNA,2U的内切酶(NEB),1×buffer3.1和0.01mM的SAM。37℃酶切反应60min。
(3)DNA文库的构建
1)对五份酶切产物分别连接不同的接头,连接反应体系为25μL,包含15μL步骤(2)中的酶切产物,200U T4DNA连接酶(NEB),1×T4Ligase Buffer,1.5mM Slx-AdaA,1.5mMSlx-AdaB。20℃连接1h。
2)对连接产物进行PCR扩增,切胶回收目的片段,并以其为模板再次扩增富集PCR产物,然后采用QIAquick PCR kit(Qiagen)将5份PCR产物混合纯化。PCR扩增反应体系均为50μL,包含18μL连接产物,0.1mM PrimerA,0.1mM PrimerB,0.3mM dNTPs(NEB),0.8UPhusion DNA polymerase(NEB),1×HF buffer。反应条件为98℃变性5s,60℃退火20s,72℃延伸10s,进行16个循环,72℃延伸10min,4℃保温。
3)用LguI酶对PCR纯化产物进行酶切,以去除PCR产物两端多余的接头序列,酶切体系为20μL,包含10μL纯化后的PCR产物,5U LguI酶(NEB),1×Thermo Tango buffer。将剩余5个样品的标签连接在一起,然后切胶回收目的片段,最后通过PCR扩增引入Barcode序列得到多标签文库,PCR扩增反应体系为50μL,包含10μL连接产物,0.1mM PrimerA,0.1mMPrimerB,0.3mM dNTPs(NEB),0.8U Phusion DNA polymerase(NEB),1×HF buffer。反应条件为98℃变性5s,60℃退火20s,72℃延伸10s,进行6-10个循环,72℃延伸10min,4℃保温。
(4)DNA文库的测序:
Illumina Hiseq/Miseq/Nextseq测序平台、IlluminaNova/Xten测序平台、Iontorrent测序平台、Pacbio测序平台和BGIseq测序平台等都可以进行选择,本实验利用Iontorrent测序平台进行测序。
(5)数据分析:
1)根据微生物基因组信息和IIB限制性内切酶酶切位点的特异性,建立“微生物IIB酶切组”数据库,并找到针对每一个基因组在不同分类级上的特有序列,特有序列是指只属于某一物种基因组而不与其他物种基因组有任何重复的DNA序列,每个微生物基因组约有35%的IIB酶切片段在种水平上具有特异性,根据上述原理建立“微生物IIB酶切特有序列数据库”,用于后续该菌株的定性和定量分析。
2)针对每一个样品的测序数据,首先进行切割和质控,保留含有酶切特异性位点的25bp至35bp的碱基片段,去除PHRED平均值在25以下的序列,形成用于后续分析的可用序列(clean reads)。
(3)以微生物IIB酶切特有序列数据库中的序列作为参照,将clean reads与其进行搜索匹配。比对时利用SOAP2,或者Centrifuge、BWA、Bowtie1/2、Stack和Mega-balst等序列搜索匹配软件,本实验利用Centrifuge进行比对,并提取特有序列的匹配情况。
(4)利用公式:
进行计算,最终形成该样品的微生物组结构鉴定结果(生成鉴定报告),包括该样品中所含有真菌的组成成分及其比例,细菌的组成成分及其比例,古菌的组成成分及其比例,病毒组的组成成分及其比例,具体如下表所示。
实施例5
降解样本包括病理切片(石蜡切片)、化石、标本、酒精保存样本等,物种涉及动物(尤其是人)和植物。
本实施例以石蜡切片样品为实验材料,详细叙述本实施例在降解样本中的微生物鉴定方法。
(1)石蜡切片样品的处理和基因组DNA的提取
10片10μm石蜡切片样本,首先进行脱蜡,然后采用TIANquick FFPE DNA Kit提取基因组DNA。
(2)基因组DNA的酶切
采用BaeI对5个人体粪便基因组DNA进行酶切,酶切体系为20μL,包含200ng基因组DNA,2U的内切酶(NEB),1×buffer3.1和0.01mM的SAM。37℃酶切反应60min。
(3)DNA文库的构建
1)对五份酶切产物分别连接不同的接头,连接反应体系为25μL,包含15μL步骤(2)中的酶切产物,200U T4DNA连接酶(NEB),1×T4Ligase Buffer,1.5mM Slx-AdaA,1.5mMSlx-AdaB。20℃连接1h。
2)对连接产物进行PCR扩增,切胶回收目的片段,并以其为模板再次扩增富集PCR产物,然后采用QIAquick PCR kit(Qiagen)将5份PCR产物混合纯化。PCR扩增反应体系均为50μL,包含18μL连接产物,0.1mM PrimerA,0.1mM PrimerB,0.3mM dNTPs(NEB),0.8UPhusion DNA polymerase(NEB),1×HF buffer。反应条件为98℃变性5s,60℃退火20s,72℃延伸10s,进行16个循环,72℃延伸10min,4℃保温。
3)用LguI酶对PCR纯化产物进行酶切,以去除PCR产物两端多余的接头序列,酶切体系为20μL,包含10μL纯化后的PCR产物,5U LguI酶(NEB),1×Thermo Tango buffer。将剩余5个样品的标签连接在一起,然后切胶回收目的片段,最后通过PCR扩增引入Barcode序列得到多标签文库,PCR扩增反应体系为50μL,包含10μL连接产物,0.1mM PrimerA,0.1mMPrimerB,0.3mM dNTPs(NEB),0.8U Phusion DNA polymerase(NEB),1×HF buffer。反应条件为98℃变性5s,60℃退火20s,72℃延伸10s,进行6-10个循环,72℃延伸10min,4℃保温。
(4)DNA文库的测序:
Illumina Hiseq/Miseq/Nextseq测序平台、IlluminaNova/Xten测序平台、Iontorrent测序平台、Pacbio测序平台和BGIseq测序平台等都可以进行选择,本项目利用BGIseq测序平台进行PE150测序。
(5)数据分析:
1)根据微生物基因组信息和IIB限制性内切酶酶切位点的特异性,建立“微生物IIB酶切组”数据库,并找到针对每一个基因组在不同分类级上的特有序列,特有序列是指只属于某一物种基因组而不与其他物种基因组有任何重复的DNA序列,每个微生物基因组约有35%的IIB酶切片段在种水平上具有特异性,根据上述原理建立“微生物IIB酶切特有序列数据库”,用于后续该菌株的定性和定量分析。
2)针对每一个样品的测序数据,首先进行切割和质控,保留含有酶切特异性位点的25bp至35bp的碱基片段,去除PHRED平均值在25以下的序列,形成用于后续分析的可用序列(clean reads)。
3)以微生物IIB酶切特有序列数据库中的序列作为参照,将clean reads与其进行搜索匹配。比对时利用SOAP2,或者Centrifuge、BWA、Bowtie1/2、Stack和Mega-balst等序列搜索匹配软件,本实验利用BWA进行比对,并提取特有序列的匹配情况。
4)利用公式:
进行计算,最终形成该样品的微生物组结构鉴定结果(生成鉴定报告),包括该样品中所含有真菌的组成成分及其比例,细菌的组成成分及其比例,古菌的组成成分及其比例,病毒组的组成成分及其比例,具体如下表所示。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。