CN113077845A

CN113077845A - 一种大气气溶胶微生物群落组成的分析方法

Info

Publication number: CN113077845A
Application number: CN202110394632.0A
Authority: CN
Inventors: 陈彬; 蕫笑菲
Original assignee: Institute of Atmospheric Physics of CAS
Current assignee: Institute of Atmospheric Physics of CAS
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-06

Abstract

本发明提供一种大气气溶胶微生物群落组成的分析方法，包括以下步骤：获得大气气溶胶样本，提取得到所述大气气溶胶样本中的微生物DNA；以微生物DNA为模板，进行PCR扩增；对扩增产物进行高通量双端测序，得到双端测序结果；进行数据剪切过滤处理、序列拼接处理和物种注释，对群落结构多样性进行讨论与检验。(1)本发明通过简化分析步骤，系统化分析流程，能够高效快捷地完成整套分析，获得可靠准确的群落结构特征。(2)本发明针对性地根据大气环境中的微生物特性，选择质控方法，匹配合适的数据库，选用恰当的注释方法，生成预期图像结果，大大减少了不同平台交替切换的繁琐，将各个步骤紧密衔接，形成系统化的操作过程。

Description

一种大气气溶胶微生物群落组成的分析方法

技术领域

本发明属于微生物群落组成分析技术领域，具体涉及一种大气气溶胶微生物群落组成的分析方法。

背景技术

大气气溶胶是大气中存在的各种固态和液态颗粒状物质的总称，由各种颗粒状物质均匀地分散在空气中，从而构成一个相对稳定的庞大的悬浮体系。大气气溶胶的构成十分复杂，是大气环境中重要的组成部分。其中，含有微生物或生物大分子等生命活性物质的微粒称之为生物气溶胶。生物气溶胶种类很多、粒径范围很广，粒径大小可以从1nm变化到100μm。生物气溶胶可以作为冰核和云凝结核,影响云滴和冰晶的形成，从而间接影响全球气候变化，并对大气化学和大气物理过程有着重要的潜在影响。此外，由于生物气溶胶可以借助空气介质扩散和传输，一定程度上会引发人类的急、慢性疾病。因此，针对大气气溶胶中微生物的研究具有重要的科学意义。

现有的微生物群分析技术方法多样，但普遍具有分析过程繁琐以及分析结果准确性不高的问题，从而限制了其推广使用。

发明内容

针对现有技术存在的缺陷，本发明提供一种大气气溶胶微生物群落组成的分析方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种大气气溶胶微生物群落组成的分析方法，包括以下步骤：

步骤1，获得大气气溶胶样本，提取得到所述大气气溶胶样本中的微生物DNA；

步骤2，采用细菌通用引物515F/806R，以步骤1的所述微生物DNA为模板，进行PCR扩增，得到扩增产物；

步骤3，对所述扩增产物进行高通量双端测序，得到双端测序结果；

步骤4，对所述双端测序结果进行质量过滤，去除非生物核酸序列，包括引物序列和接头序列，得到质量过滤后的双端测序结果；所述质量过滤后的双端测序结果，包括多个双端测序序列；每个所述双端测序序列包括成对的正向测序序列和反向测序序列；其中，对于成对的正向测序序列和反向测序序列，通过标记序列进行标记；

步骤5，将双端测序结果中的所有正向测序序列存入到一个正向序列文件中；

将双端测序结果中的所有反向测序序列存入到一个反向序列文件中；

步骤6，对于正向序列文件中的每个正向测序序列，均进行数据剪切过滤处理；

其中，数据剪切过滤方法为：

步骤6.1，设置过滤参数，包括序列最小长度a，数据前端剪切掉的碱基数量b；

步骤6.2，对于当前的正向测序序列，表示为正向测序序列seq(L₀)，判断其前端剪切掉b个碱基后，剩余序列长度是否大于a，如果大于，则执行步骤6.3；否则，执行步骤6.4；

步骤6.3，将正向测序序列seq(L)的前端剪切掉b个碱基，得到过滤后的正向测序序列seq(L₁)；

步骤6.4，不对正向测序序列seq(L₀)进行剪切过滤处理，输出正向测序序列seq(L₀)；

步骤7，经步骤6处理，得到多个正向测序序列；每个正向测序序列作为一个正向样本，从而形成正向样本池；

对正向样本池进行错误率识别，剔除错误的正向测序序列，保留真实的正向测序序列，从而得到所有真实的正向测序序列形成的正向真实样本池；

步骤8，对正向真实样本池中的各个正向测序序列进行冗余识别，去除重复的正向测序序列，从而得到冗余处理后的正向真实样本池；

步骤9，对于步骤5得到的反向序列文件，采用步骤6-步骤8的方式处理，得到冗余处理后的反向真实样本池；

步骤10，从冗余处理后的正向真实样本池和冗余处理后的反向真实样本池中，根据标记序列，识别到成对的正向测序序列和反向测序序列；

对成对的正向测序序列和反向测序序列，采用以下方式进行序列拼接处理：

判断成对的正向测序序列和反向测序序列是否满足以下序列拼接条件：正向测序序列和反向测序序列具有重叠区域；并且，重叠区域中的碱基数量大于设定阈值；

如果不满足，则不进行序列拼接，并将本对正向测序序列和反向测序序列剔除；

如果满足，则使正向测序序列和反向测序序列在重叠区域拼接，得到合并序列；

步骤11，由此得到由多个合并序列组成的合并序列文件；

对合并序列文件中的各个合并序列进行物种注释，物种注释方法为：

步骤11.1，读取基因数据库；其中，所述基因数据库存储已知的基因名称以及基因DNA序列的对应关系；

步骤11.2，从基因数据库中提取与测序引物匹配的多个基因，得到基因参考数据库；

步骤11.3，以基因参考数据库中的各个已知分类的参考序列作为训练集，将训练集作为输入，对预建立的分类器进行训练，得到训练完成的分类器；

步骤11.4，以步骤10输出的每个合并序列作为样本，输入到分类器，分类模型输出对每个合并序列的物种分类结果，对物种分类结果进行注释，从而得到对各个合并序列的注释结果文件；

步骤11.5，将合并序列的注释结果可视化显示；

步骤12，基于步骤11得到的各个合并序列的注释结果，对注释结果进行过滤，得到过滤后的注释结果，过滤方法为：

基于物种注释结果，去除线粒体和叶绿体物种，保留属于细菌门的序列；

步骤13，基于步骤12得到的过滤后的注释结果，对群落结构多样性进行讨论与检验；具体的，通过系统发育分析、组间差异分析以及稀释曲线绘制，获得大气气溶胶微生物群落结构特征信息。

本发明提供的一种大气气溶胶微生物群落组成的分析方法具有以下优点：

(1)本发明提供的一种大气气溶胶微生物群落组成的分析方法，通过简化分析步骤，系统化分析流程，能够高效快捷地完成整套分析，获得可靠准确的群落结构特征。

(2)本发明针对性地根据大气环境中的微生物特性，选择质控方法，匹配合适的数据库，选用恰当的注释方法，生成预期图像结果，大大减少了不同平台交替切换的繁琐，将各个步骤紧密衔接，形成系统化的操作过程。

附图说明

图1为本发明提供的一种大气气溶胶微生物群落组成的分析方法的流程示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明应用于大气科学、环境科学、生物信息技术领域，本发明提供一种大气气溶胶微生物群落组成的分析方法，参考图1，包括以下步骤：

其中，数据剪切过滤方法为：

具体的，数据裁剪，需要序列足够长的重叠，以便双端序列可以连接，所以本发明设计中，正向测序序列的前b个碱基被修剪(相似情况下可以理解为默认值)，对正向测序序列的末端不再进行修剪，以避免将读数长度减少太多而无法重叠连接，大大提升了质控的准确性。

例如，正向测序序列包括225个碱基，设计修剪正向测序序列的前13个碱基。

其中，对正向样本池进行错误率识别，具体为：建立错误率模型，衡量扩增子序列是否来自模板，从而自动校正不确定序列中的错误直接产生特征表。

错误率模型认为：每个扩增子序列样品都具有不同的误差比率，通过交替估计错误率和对参考样本序列错误模型进行学习，达到学习模型同真实错误率收敛于一致。和通过查找样品中物种的组成，比较OTU数据库的Deblur聚类算法不同，本发明错误率模型采用无监督学习模型，使用机器学习构建参数误差模型。算法假定数据中的最大可能错误率就是只有最丰富的序列是正确的，其余是错误的。在此基础上处理流程具体步骤包括：数据裁剪、可视化，得到特征表。

通过以上降噪步骤处理后，能够去除受污染、低质量数据影响，获得代表序列丰度表(每个菌属的原始丰度除以该菌所在样本的总菌属丰度得到相对丰度)。

步骤11，由此得到由多个合并序列组成的合并序列文件；

步骤11.2，从基因数据库Silva Database中提取与测序引物匹配的多个基因，得到基因参考数据库；

双端合并序列的长度通常是可变的。针对双端合并序列读取的物种分类，本发明从测序引物位置处提取与基因数据库匹配区域，但不将比对序列剪裁成等长的序列，来进行分类器训练。

分类器的分类对象是包含数百个碱基的双端序列，这些读长是用515F/806R引物对16S rDNA基因序列进行扩增的产物。

训练分类器是通过从基因数据库中提取与测序引物匹配的区域，将结果截取至获得的碱基对此进行优化。选取的基因数据库是一个包含三域微生物(细菌、古菌、真核)rRNA基因序列的综合数据库。因为不同实验的扩增区域不同，鉴定物种分类的精度不同，根据测序数据长度获得对应的基因参考数据库，采用低于碱基数长度，提前训练，可以让分类结果更准确。

对物种分类结果进行注释时，注释方法为：选择相似性搜索程序，利用局部比对找出序列彼此间的关系。比对的要点是片段对。片段对是指两个给定序列中的一对子序列，如果长度相等，且可以形成无空格的完全匹配。首先局部比对即找出查询序列和目标序列间所有匹配程度超过一定阈值的片段对，然后对片段对根据给定的相似性阈值进行延伸，得到一定长度的相似性片段，最后给出高分值片段对。避免了额外训练步骤，不会占用大量内存，准确度更高。

采用该注释方法可以有效的缩短注释时间，提升效率。

步骤11.5，将合并序列的注释结果可视化显示；

以图表的形式展现注释结果，能够及时编辑修改，降低过程错误。

具体的，基于物种注释结果，过滤特征表，过滤后保存细菌门类生物序列。可以应用于保留特定的分类和删除特定的分类表。保留属于细菌门的序列，去除线粒体和叶绿体表残留。根据提供的多个搜索词，可以在逗号分隔的列表中，同时删除多个与搜索词匹配的特征表。

基于物种注释，过滤包含线粒体的代表序列，精确匹配，去除线粒体序列干扰，防止删除其它与线粒体相近的物种。

保留和去除参数同时组合在一起，做到一步操作既可以保留包含任意分类级(门、纲、目)注释的所有物种，又能够排除分类注释中包含线粒体或叶绿体的所有序列。筛选16S扩增目标对象，且排除宿主污染。

a)系统发育分析：可视化表示进化关系。

i)采用流程化的处理方法，将所有的命令有序集合压缩，命令执行过程中采用默认选项配置。

步骤包括：1)使用MAFFT(多重变换傅里叶对齐方法)创建序列，删去序列中无效信息，屏蔽产生歧义的比对序列。对序列比对，将去噪后序列与MAFFT方法创建序列对齐。产生的新对齐序列将用于推断发育树，并在中点处确定系统发育树的根。2)使用FastTree方法建树。FastTree可以从成千上万条序列中快速推断形成近似最大似然的系统发生树。短时间内构建进化树，对每一个节点提供一个节点的可信度。3)无根树转化为有根树。

b)Alpha多样性分析

i)利用core-metrics-phylogenetic方法，指定最小样本序列长度为深度(p-sampling-depth)进行抽样，从而计算多样性矩阵。

ii)计算Faith_Phylogenetic Diversity(系统发育多样性)矩阵:每个样品长度分类单元之和，群落丰富度的定性指标，考虑各个特征之间的系统发育关系。

iii)Evenness(均匀度)指数:描述物种中个体的相对丰度或所占比例，用Pielou均一度指数J表示，J＝H'/H'max，H'为香农指数，H'max为香农指数最大值。

c)Beta多样性分析

i)unweighted_Unifrac_distanc(非加权Unifrac距离)：对于系统发生树种的所有枝，考查其指向的叶节点是否只存在于同一群落，叶节点只存在于同一群落的枝的枝长和，占整个树的值长和的比例。只考虑了物种有无的变化,结果中，0表示两个微生物群落间OTU的种类一致。群落相异性(群落多样性)的定性指标，考虑系统发育的组间差异。

ii)Emperor工具，进行PCoA可视化个性分析。

改变传统处理过程中数据导出再次转换导入出图的繁琐，对探究时间序列数据十分有用。

iii)Bray-Curits distance(Bray-Curit距离)：基于OTUs的计数统计，比较两个群落微生物的组成差异，定量群落多样性。

d)稀释曲线绘制

i)从样本中随机抽取一定数量的个体，统计出这些个体所代表物种数目，并以个体数与物种数来构建稀释曲线。

具体为：从样本中随机抽取一定数量的序列，统计出这些序列所能覆盖的物种数目，随后根据不同序列条数下对应的物种数目来构建的曲线.

ii)通过对优化序列进行随机抽样，比较测序数量不同的样本物种的丰富度，判断样本的取样深度是否合理。

本发明提供的一种大气气溶胶微生物群落组成的分析方法，具有以下优点：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种大气气溶胶微生物群落组成的分析方法，其特征在于，包括以下步骤：

其中，数据剪切过滤方法为：

步骤11，由此得到由多个合并序列组成的合并序列文件；

步骤11.5，将合并序列的注释结果可视化显示；