CN111944914A

CN111944914A - 一种基于抗性基因及毒力因子基因评价水体健康风险的方法

Info

Publication number: CN111944914A
Application number: CN202010684761.9A
Authority: CN
Inventors: 柏耀辉; 王巧娟; 梁金松; 廖恺玲俐; 曲久辉
Original assignee: Research Center for Eco Environmental Sciences of CAS
Current assignee: Research Center for Eco Environmental Sciences of CAS
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-17

Abstract

本发明提供了一种基于抗性基因及毒力因子基因评价水体健康风险的方法，该方法基于宏基因组测序分析，通过对测序数据的组装和分箱，得到微生物基因组草图，从中识别出潜在的耐药性致病菌(PARB)，并评价样品中潜在PARB的丰度、多样性和风险等级，对PARB含有ARGs和VFGs的数量及类型进行评估，从而确定环境中潜在的PARB的量及健康风险水平。本发明方法基于宏基因组测序，能够在基因组层面上识别出潜在的PARB，且呈现出较高的可信度，避免了传统纯培养法耗时且易受培养条件影响的限制，能够广泛应用于水体健康风险评价。

Description

一种基于抗性基因及毒力因子基因评价水体健康风险的方法

技术领域

本发明属于污水处理技术领域，具体涉及一种基于抗性基因及毒力因子基因评价水体健康风险的方法。

背景技术

受人类活动的影响，河湖水质逐渐恶化，污染水体对人类带来的健康风险已经引起了越来越多的关注。目前水环境中健康风险评价的一个重要内容是对微生物中病原菌分布的评估。通常用于检测病原菌的方法有纯培养法和基于PCR的分子检测。传统纯培养法耗费时间且易受培养条件的影响，难以应用于大规模生态调查；基于PCR的检测方法则严重受限于扩增目的基因引物的特异性，而很难准确获得病原菌的种类分布。因此，现阶段需要一种新的检测方法用于快速、准确检测环境病原菌的种类及数量。

携带毒力因子基因(VFGs)的细菌作为潜在的病原菌能入侵人或动物而使之患病，而随着抗生素的大量使用，抗生素抗性基因(ARGs)通过基因水平转移等方式转移到病原菌中，由这些含有ARGs的病原菌引起的疾病更难以治疗，因此ARGs及VFGs对于评价环境微生物风险是至关重要的。现阶段已有大量研究旨在通过量化环境中的ARG基因评价水环境中病原微生物的健康风险，然而健康风险水平不仅仅依赖于ARG的数量，更与其遗传背景相关。当ARGs与VFGs共存于生物染色体、质粒等遗传因子中时，其对人类及动物的潜在风险将会上升。基因组中同时携带了ARGs和VFGs的潜在的耐药性致病菌(PARB)，既存在潜在的致病风险，且能在一定程度上降低抗生素的治疗效果。因此，相比于抗生素耐药菌，PARB更合适作为一项评价水环境中微生物健康风险的指标。

发明内容

针对现有技术的不足，本发明将提供一种基于抗性基因(ARGs)及毒力因子基因(VFGs)评价水体健康风险的方法，通过对水体样品的宏基因组测序，识别出样品中潜在的PARB，并对PARB含有的ARGs和VFGs的数量及类型进行分析，从而评价水体健康风险水平。

为了实现上述目的，本发明的技术方案概述如下：该方法基于宏基因组测序分析，通过对测序数据的组装和分箱，得到微生物基因组草图，从中识别出潜在的耐药性致病菌(PARB)，并评价样品中潜在PARB的丰度、多样性和风险等级，对PARB含有的ARGs和VFGs的数量及类型进行评估，从而确定环境中潜在的PARB的量及健康风险水平。

本发明技术方案进一步详述，所述方法包括如下步骤：

(1)采集水体样品，提取获得样品的宏基因组测序数据，并对原始测序数据(rawreads)进行质量过滤，得到高质量读段(clean reads)；

(2)对每个样品获得的clean reads进行组装，获得重叠群(contigs)；

(3)根据contigs的核酸组成和丰度变化模式，对序列进行聚类、分箱，得到微生物基因组草图(metagenomic assembled genomes,MAGs)，对所有的MAGs根据完整度和污染率进行评估，选择出符合要求的高质量代表性MAGs，对高质量代表性MAGs进行去冗余，获得非冗余MAGs集；

(4)对所述非冗余MAGs集的所有contigs预测开放阅读框(ORF)，对所有ORF依次与抗生素抗性基因数据库和毒力因子数据库比对，识别出同时含有ARG序列和VFG序列的MAGs即定义为潜在的PARB，并统计这些潜在的PARB携带ARG和VFG的种类及数量；

(5)样品中属于潜在的PARB的MAGs丰度的计算：使用基于映射(mapping)的方法获得每个样品中能与非冗余MAGs集中所有MAGs成功比对上的reads的数目占该样品reads总数的百分比，以及非冗余基因集中每个MAG在各个样品中的覆盖度，每个样品中每个PARB的丰度根据公式(1)计算：

其中，样品中reads映射的百分比代表一个样品中能与非冗余MAGs集成功比对上的reads的数目占该样品reads总数的百分比，单个PARB覆盖度即一个属于潜在的PARB的MAG在一个样品中的覆盖度，所有MAG覆盖度之和代表所有MAGs在一个样品中的覆盖度之和。

(6)单个PARB健康风险率的计算：将由步骤(4)得到的每个PARB携带的ARGs的数量、ARGs的类型、VFGs的数量和VFGs的类型数据，利用主成分分析(PCA)方法，获得一个主成分，并对该主成分的值进行归一化，归一化后的各个PARB主成分的值即为各个PARB的健康风险率；

(7)水体健康风险的计算：PARB的健康风险率与各个采样点PARB丰度乘积之和即可代表水体健康风险水平。

本发明产生的有益效果如下：

(1)本发明方法基于宏基因组测序，能够在基因组层面上识别出潜在的耐药性致病菌(PARB)，且呈现出较高的可信度；避免了传统纯培养法耗时且易受培养条件影响的限制，能够广泛应用于水体健康风险评价。

(2)本发明方法不仅能鉴定环境中与人体健康相关的致病菌，同时还可以准确获得这些致病菌的种类及数量分布。

(3)本发明方法可以明确水体中潜在的耐药性致病菌携带的抗性基因和毒力因子基因类型及数量，有助于了解其致病机理及抗性类型，进一步准确评价水体健康风险情况。

(4)本发明方法可以针对大量样品进行快速、准确地检测环境病原菌的种类及数量，同时考虑了具有耐药性的病原菌在健康风险上的影响。

附图说明

图1：具体实施方式中本发明方法的流程示意图。

图2：具体实施方式中通惠河和清河水体健康风险分布。

图3：具体实施方式中通惠河和清河水体中总氮(TN)浓度分布。

具体实施方式

下面参照具体的实施例进一步描述本发明，但是本领域技术人员应该理解，本发明并不限于这些具体的实施例。

下述实施例中的方法，如无特别说明，均为常规方法，其中所用的试剂，如无特别说明，均为常规市售试剂。

1样品采集及数据分析方法

1.1样品采集

选取北京市高碑店污水处理厂的受纳河流通惠河作为研究对象，高碑店污水处理厂于2017年4月升级改造结束，在升级前(2015年12月、2016年3月、2016年9月)和升级后(2018年9月、2018年12月、2019年3月)对通惠河进行了采样。同时选取了清河污水处理厂(2013年12月升级改造结束)的受纳河流清河作为对照在同样时间段内进行了采样。每条河每次采集5个样品(清河在2015年12月只采集了4个样品)，两条河共采集了59个样品。

1.2 DNA提取及宏基因组测序

使用水样DNA提取试剂盒(DNeasy PowerWater Kit,QIAGEN,Hilden,NorthRhine-Westphalia,Germany)，按照试剂盒说明书对样品进行总DNA的提取。提取后的DNA采用浓度为1％的琼脂糖进行琼脂糖凝胶电泳，以此鉴定样品中DNA片段的长度和浓度，出现明亮而清晰的条带说明该样品DNA提取成功。

将所有DNA样品送至华大基因公司，使用Illumina Hiseq X-Ten平台进行宏基因组测序(150个配对末端读数)。

1.3宏基因组数据分析

对得到的原始的测序数据(raw reads)进行如下处理：去除质量值连续≤20的碱基数达到40％的reads；去除含N的碱基数目总和达到10％的reads；去除adapter污染；去除duplication污染，最终获得高质量读段(clean reads)。

使用软件MEGAHIT(v1.1.3)将每个样品进行单独组装以及分组混合组装获得重叠群(contigs)，而后根据contigs的丰度变化模式，利用软件MetaWRAP(v1.2)进行分箱，其内置MetaBAT 2、MaxBin 2和CONCOCT三种方法计算contigs之间的相关性，进行聚类、分箱，得到微生物基因组草图(metagenomic assembled genomes,MAGs)。通过这三种软件得到的MAGs利用MetaWRAP中的bin_refinement模块根据完整度和污染率进行评估，选出高质量代表性的MAGs(完整度>60％、污染率<10％)。最后，利用dRep工具基于默认参数识别高度相似的MAGs组，并为每个MAGs组选择最具代表性的MAG，对MAGs进行去冗余，获得非冗余MAGs集。

对每个MAG所包含的所有contigs用软件Prodigal(v2.6.3)预测开放阅读框(openreading frame,ORF)，并利用BLASTP工具将所有的ORFs与ARG-OAP v2中的抗生素抗性基因数据库(http://smile.hku.hk/SARGs)比对，根据相似度>80％，长度>top hit的70％的筛选条件，提取出所有被认为是潜在的ARG序列的ORFs。使用相同的方法，利用BLASTP工具将所有的ORFs与毒力因子数据库(VFDB)中的蛋白序列VFDB_setA_pro.fas(http://www.mgc.ac.cn/VFs/download.htm)比对，根据相似度>80％，长度>top hit的70％的筛选条件，识别出所有被认为是潜在的VFG序列的ORFs。既含有ARG序列，又含有VFG序列的MAGs即被认为是潜在的PARB。同时根据比对结果，获得每个PARB携带的ARGs和VFGs的种类和数量。

样品中属于潜在的PARB的MAGs丰度的计算：利用软件BBMap(v38.43)使用基于映射(mapping)的方法获得每个样品中能与非冗余MAGs集成功比对上的reads的数目占该样品reads总数的百分，以及非冗余基因集中每个MAG在各个样品中的覆盖度。每个样品中每个PARB的丰度根据公式(1)计算：

其中，样品中reads映射的百分比代表一个样品中能与非冗余MAGs集成功比对上的reads的数目占该样品reads总数的百分比，单个PARB覆盖度即一个属于潜在的PARB的MAG在一个样品的覆盖度，所有MAG覆盖度之和代表所有MAGs在一个样品中的覆盖度之和。

1.4健康风险评估

首先计算单个PARB的健康风险率。当PARB携带的ARGs和VFGs的数量及类型越多时，健康风险越高。将由1.3得到的每个PARB携带的ARGs的数量、ARGs的类型数、VFGs的数量和VFGs的类型数，在R语言(v3.6.3)中利用主成分分析(PCA)方法，将ARGs的数量、ARGs的类型数、VFGs的数量和VFGs的类型数这四个属性降维，获得一个能代表该四个属性的主成分特征，并对该主成分的值进行归一化，归一化后的各个PARB主成分的值即为各个PARB的健康风险率。水体健康风险水平根据公式(2)计算，即为PARB的健康风险率与各个采样点PARB丰度乘积之和。

1.5统计检验

采用非参数检验的统计方法检验不同区域水体健康风险是否有限制差异，数据的统计分析通过R进行。对于显著性差异结果，*代表差异显著度p<0.05，**代表p<0.01，***代表p<0.001。

2试验结果及水体健康风险评价

如1中所述，对通惠河和清河进行了采样，将基于抗性基因及毒力因子基因的方法应用到实际水体的健康风险评价中去。

2.1污水处理厂升级前后河流健康风险情况

通过1.3，获得了每个PARB携带的ARGs的数量、ARGs的类型数、VFGs的数量和VFGs的类型数，以及样品中PARB的丰度。基于1.4所述方法，获得了各个PARB的健康风险率。每个样品中所有PARB的健康风险率与其对应的丰度数据乘积之和即为该样品的水体健康风险水平(见表1)。

表1

注：采样点的名称，前四个数字代表采样时间，第一个字母G代表通惠河，Q代表清河。

根据样品采集时的设计，将通惠河在2015年12月、2016年3月、2016年9月采集的共15个样品作为升级前的样品，在2018年9月、2018年12月、2019年3月采集的共15个样品作为升级后的样品，对污水处理厂升级前和升级后通惠河的水体健康风险水平进行比较，并进行统计检验。同样的，将清河在2015年12月、2016年3月、2016年9月采集的共14个样品作为升级后短时间的样品，在2018年9月、2018年12月、2019年3月采集的共15个样品作为升级后长时间的样品，对污水处理厂升级短时间和升级长时间后受纳河流清河的水体健康风险水平进行比较，并进行统计检验(见图2)。

测定结果分析：从图2可以看出，高碑店污水处理厂升级前后，通惠河的健康风险并没有明显下降，而同样时间段清河的健康风险显著下降，这说明污水处理厂的升级在短时间内不会明显降低受纳河流的健康风险，但升级长时间后受纳河流的健康风险会有明显降低。

2.2污水处理厂升级前后受纳河流主要的健康风险PARB

根据单个PARB的健康风险及其在河流中的丰度，分别挑选了两条河流中健康风险前10的PARB来代表河流中的高健康风险PARB，如表2所示。发现两条河流中健康风险前10的PARB中有7个是一致的，这7个PARB分别属于气单胞菌属Aeromonas、假单胞菌属Pseudomonas和动胶菌属Zoogloea。此外，通惠河中的高健康风险PARB还有3个分别属于气单胞菌属Aeromonas、不动杆菌属Acinetobacter和Malikia属，而清河中的其他3个高风险PARB仍是属于假单胞菌属Pseudomonas。两条河流的高风险PARB中假单胞菌属Pseudomonas、气单胞菌属Aeromonas和不动杆菌属Acinetobacter都是已知的机会致病菌。

两条河流的高风险PARB均大量携带多药耐药抗性基因和进攻型毒力因子基因及运动型毒力因子基因，表明这些PARB对人体具有较强的侵袭力，同时还对多种抗生素具有耐药性，对人类健康有很大的威胁。

表2

2.3对本发明评价方法有效性的验证

将本方法分析鉴定出的PARB与VFDB数据库(http://www.mgc.ac.cn/VFs/main.htm)中的机会致病菌比较来验证本方法的准确性。本方法鉴定出了123个PARB，其中有60个(48.8％)是VFDB数据库中已知的机会致病菌，分别是病原假单胞菌属Pseudomonas31个、不动杆菌属Acinetobacter 20个、气单胞菌属Aeromonas 8个以及军团菌属Legionella 1个，这些PARB基因组内同时含有多个ARGs和VFGs。这说明本方法能较好识别水环境样品中的机会致病菌。

此外，本方法鉴定出的123个PARB中，还有63个并不是已知的机会致病菌，如有15个属于Methyloversatilis属，该属的微生物一般认为是反硝化功能菌，5个属于对污染物有降解能力的功能菌Dechloromonas属，通过本方法鉴定出河流中的Methyloversatilis属和Dechloromonas属等不是机会致病菌的微生物也携带了抗性基因和毒力因子基因，这说明微生物之间可能发生了抗性基因和毒力因子基因的水平转移，使得部分菌的健康风险变高。

为进一步验证本方法提出的评价水体健康风险水平的方法，我们对河流水体总氮(TN)浓度进行了分析，结果见图3。通过对总氮浓度的分析发现，高碑店污水处理厂升级后，通惠河的TN浓度有明显下降，从20～30mg/L下降到10mg/L左右。而清河污水处理厂早已升级改造，故清河的TN浓度在采样期间内并没有明显下降。我们发现，仅仅从TN这一营养物质浓度来看，污水处理厂的升级会使得受纳河流水质得到明显改善，但通过本方法对耐药性致病微生物的分析发现，污水处理厂的升级经过较长时间之后，受纳河流的健康风险才会明显下降，通过这一结果的比较，说明了本发明方法具有较高的可靠性，能够更为准确地反映出水环境中潜在的微生物健康风险。

上述实例表明本发明所述的基于抗性基因及毒力因子基因评价水体健康风险的方法能够在基因组层面上较为准确识别出水体中潜在的耐药性致病菌，并能给出水体健康风险水平的量化，能较好地应用在水环境健康风险评价中。

尽管已经示出和描述了本发明的实施例，但对于本领域的普通技术人员而言，应该理解在不脱离本发明的精神和原理的情况下可以对这些实施例进行各种形式和细节的变化、修改、替换和变型，本发明的范围由权利要求及其等同物所限定。

Claims

1.一种基于抗性基因及毒力因子基因评价水体健康风险的方法，其特征在于，所述方法包括如下步骤：

(1)采集水体样品，提取获得样品的宏基因组测序数据，并对原始测序数据raw reads进行质量过滤，得到高质量读段clean reads；

(2)对每个样品获得的clean reads进行组装，获得重叠群contigs；

(3)根据contigs的核酸组成和丰度变化模式，对序列进行聚类、分箱，得到微生物基因组草图MAGs，对所有的MAGs根据完整度和污染率进行评估，选择出符合要求的高质量代表性MAGs，对高质量代表性MAGs进行去冗余，获得非冗余MAGs集；

(4)对所述非冗余MAGs集的所有contigs预测开放阅读框ORF，将所有ORF依次与抗生素抗性基因数据库和毒力因子数据库比对，识别出同时含有ARG序列和VFG序列的MAGs即定义为潜在的PARB，并统计这些潜在的PARB携带的ARG和VFG的种类及数量；

(5)样品中属于潜在的PARB的MAGs丰度的计算：使用基于映射的方法获得每个样品中能与非冗余MAGs集中所有MAGs成功比对上的reads的数目占该样品reads总数的百分比，以及非冗余MAGs集中每个MAG在各个样品中的覆盖度，每个样品中每个PARB的丰度根据公式(1)计算：

其中，样品中reads映射的百分比代表一个样品中能与非冗余MAGs集成功比对上的reads的数目占该样品reads总数的百分比，单个PARB覆盖度即一个属于潜在的PARB的MAG在一个样品中的覆盖度，所有MAG覆盖度之和代表所有MAGs在一个样品中的覆盖度之和；

(6)单个PARB健康风险率的计算：将步骤(4)得到的每个PARB携带的ARGs的数量、ARGs的类型、VFGs的数量和VFGs的类型数据，利用主成分分析的方法，获得一个主成分，并对该主成分的值进行归一化，归一化后的各个PARB主成分的值即为各个PARB的健康风险率；

2.根据权利要求1所述的一种基于抗性基因及毒力因子基因评价水体健康风险的方法，其特征在于，所述步骤(3)中对所有的MAGs根据完整度和污染率进行评估，根据完整度>60％、污染率<10％选择高质量代表性MAGs。

3.根据权利要求1所述的一种基于抗性基因及毒力因子基因评价水体健康风险的方法，其特征在于，所述步骤(4)中所述抗生素抗性基因数据库使用ARGs_OAP_v2.0，所述毒力因子数据库使用VFDB。

4.根据权利要求1所述的一种基于抗性基因及毒力因子基因评价水体健康风险的方法，其特征在于，所述步骤(4)中所有ORF依次与抗生素抗性基因数据库和毒力因子数据库比对，符合相似度>80％、长度>top hit的70％的条件即被认为是潜在的ARG序列或VFG序列。

5.根据权利要求1所述的一种基于抗性基因及毒力因子基因评价水体健康风险的方法，其特征在于，所述步骤(6)中利用R语言进行主成分分析和归一化处理。