CN113077845A - 一种大气气溶胶微生物群落组成的分析方法 - Google Patents

一种大气气溶胶微生物群落组成的分析方法 Download PDF

Info

Publication number
CN113077845A
CN113077845A CN202110394632.0A CN202110394632A CN113077845A CN 113077845 A CN113077845 A CN 113077845A CN 202110394632 A CN202110394632 A CN 202110394632A CN 113077845 A CN113077845 A CN 113077845A
Authority
CN
China
Prior art keywords
sequence
sequencing
sequences
reverse
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110394632.0A
Other languages
English (en)
Inventor
陈彬
蕫笑菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Atmospheric Physics of CAS
Original Assignee
Institute of Atmospheric Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Atmospheric Physics of CAS filed Critical Institute of Atmospheric Physics of CAS
Priority to CN202110394632.0A priority Critical patent/CN113077845A/zh
Publication of CN113077845A publication Critical patent/CN113077845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Signal Processing (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种大气气溶胶微生物群落组成的分析方法,包括以下步骤:获得大气气溶胶样本,提取得到所述大气气溶胶样本中的微生物DNA;以微生物DNA为模板,进行PCR扩增;对扩增产物进行高通量双端测序,得到双端测序结果;进行数据剪切过滤处理、序列拼接处理和物种注释,对群落结构多样性进行讨论与检验。(1)本发明通过简化分析步骤,系统化分析流程,能够高效快捷地完成整套分析,获得可靠准确的群落结构特征。(2)本发明针对性地根据大气环境中的微生物特性,选择质控方法,匹配合适的数据库,选用恰当的注释方法,生成预期图像结果,大大减少了不同平台交替切换的繁琐,将各个步骤紧密衔接,形成系统化的操作过程。

Description

一种大气气溶胶微生物群落组成的分析方法
技术领域
本发明属于微生物群落组成分析技术领域,具体涉及一种大气气溶胶微生物群落组成的分析方法。
背景技术
大气气溶胶是大气中存在的各种固态和液态颗粒状物质的总称,由各种颗粒状物质均匀地分散在空气中,从而构成一个相对稳定的庞大的悬浮体系。大气气溶胶的构成十分复杂,是大气环境中重要的组成部分。其中,含有微生物或生物大分子等生命活性物质的微粒称之为生物气溶胶。生物气溶胶种类很多、粒径范围很广,粒径大小可以从1nm变化到100μm。生物气溶胶可以作为冰核和云凝结核,影响云滴和冰晶的形成,从而间接影响全球气候变化,并对大气化学和大气物理过程有着重要的潜在影响。此外,由于生物气溶胶可以借助空气介质扩散和传输,一定程度上会引发人类的急、慢性疾病。因此,针对大气气溶胶中微生物的研究具有重要的科学意义。
现有的微生物群分析技术方法多样,但普遍具有分析过程繁琐以及分析结果准确性不高的问题,从而限制了其推广使用。
发明内容
针对现有技术存在的缺陷,本发明提供一种大气气溶胶微生物群落组成的分析方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种大气气溶胶微生物群落组成的分析方法,包括以下步骤:
步骤1,获得大气气溶胶样本,提取得到所述大气气溶胶样本中的微生物DNA;
步骤2,采用细菌通用引物515F/806R,以步骤1的所述微生物DNA为模板,进行PCR扩增,得到扩增产物;
步骤3,对所述扩增产物进行高通量双端测序,得到双端测序结果;
步骤4,对所述双端测序结果进行质量过滤,去除非生物核酸序列,包括引物序列和接头序列,得到质量过滤后的双端测序结果;所述质量过滤后的双端测序结果,包括多个双端测序序列;每个所述双端测序序列包括成对的正向测序序列和反向测序序列;其中,对于成对的正向测序序列和反向测序序列,通过标记序列进行标记;
步骤5,将双端测序结果中的所有正向测序序列存入到一个正向序列文件中;
将双端测序结果中的所有反向测序序列存入到一个反向序列文件中;
步骤6,对于正向序列文件中的每个正向测序序列,均进行数据剪切过滤处理;
其中,数据剪切过滤方法为:
步骤6.1,设置过滤参数,包括序列最小长度a,数据前端剪切掉的碱基数量b;
步骤6.2,对于当前的正向测序序列,表示为正向测序序列seq(L0),判断其前端剪切掉b个碱基后,剩余序列长度是否大于a,如果大于,则执行步骤6.3;否则,执行步骤6.4;
步骤6.3,将正向测序序列seq(L)的前端剪切掉b个碱基,得到过滤后的正向测序序列seq(L1);
步骤6.4,不对正向测序序列seq(L0)进行剪切过滤处理,输出正向测序序列seq(L0);
步骤7,经步骤6处理,得到多个正向测序序列;每个正向测序序列作为一个正向样本,从而形成正向样本池;
对正向样本池进行错误率识别,剔除错误的正向测序序列,保留真实的正向测序序列,从而得到所有真实的正向测序序列形成的正向真实样本池;
步骤8,对正向真实样本池中的各个正向测序序列进行冗余识别,去除重复的正向测序序列,从而得到冗余处理后的正向真实样本池;
步骤9,对于步骤5得到的反向序列文件,采用步骤6-步骤8的方式处理,得到冗余处理后的反向真实样本池;
步骤10,从冗余处理后的正向真实样本池和冗余处理后的反向真实样本池中,根据标记序列,识别到成对的正向测序序列和反向测序序列;
对成对的正向测序序列和反向测序序列,采用以下方式进行序列拼接处理:
判断成对的正向测序序列和反向测序序列是否满足以下序列拼接条件:正向测序序列和反向测序序列具有重叠区域;并且,重叠区域中的碱基数量大于设定阈值;
如果不满足,则不进行序列拼接,并将本对正向测序序列和反向测序序列剔除;
如果满足,则使正向测序序列和反向测序序列在重叠区域拼接,得到合并序列;
步骤11,由此得到由多个合并序列组成的合并序列文件;
对合并序列文件中的各个合并序列进行物种注释,物种注释方法为:
步骤11.1,读取基因数据库;其中,所述基因数据库存储已知的基因名称以及基因DNA序列的对应关系;
步骤11.2,从基因数据库中提取与测序引物匹配的多个基因,得到基因参考数据库;
步骤11.3,以基因参考数据库中的各个已知分类的参考序列作为训练集,将训练集作为输入,对预建立的分类器进行训练,得到训练完成的分类器;
步骤11.4,以步骤10输出的每个合并序列作为样本,输入到分类器,分类模型输出对每个合并序列的物种分类结果,对物种分类结果进行注释,从而得到对各个合并序列的注释结果文件;
步骤11.5,将合并序列的注释结果可视化显示;
步骤12,基于步骤11得到的各个合并序列的注释结果,对注释结果进行过滤,得到过滤后的注释结果,过滤方法为:
基于物种注释结果,去除线粒体和叶绿体物种,保留属于细菌门的序列;
步骤13,基于步骤12得到的过滤后的注释结果,对群落结构多样性进行讨论与检验;具体的,通过系统发育分析、组间差异分析以及稀释曲线绘制,获得大气气溶胶微生物群落结构特征信息。
本发明提供的一种大气气溶胶微生物群落组成的分析方法具有以下优点:
(1)本发明提供的一种大气气溶胶微生物群落组成的分析方法,通过简化分析步骤,系统化分析流程,能够高效快捷地完成整套分析,获得可靠准确的群落结构特征。
(2)本发明针对性地根据大气环境中的微生物特性,选择质控方法,匹配合适的数据库,选用恰当的注释方法,生成预期图像结果,大大减少了不同平台交替切换的繁琐,将各个步骤紧密衔接,形成系统化的操作过程。
附图说明
图1为本发明提供的一种大气气溶胶微生物群落组成的分析方法的流程示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明应用于大气科学、环境科学、生物信息技术领域,本发明提供一种大气气溶胶微生物群落组成的分析方法,参考图1,包括以下步骤:
步骤1,获得大气气溶胶样本,提取得到所述大气气溶胶样本中的微生物DNA;
步骤2,采用细菌通用引物515F/806R,以步骤1的所述微生物DNA为模板,进行PCR扩增,得到扩增产物;
步骤3,对所述扩增产物进行高通量双端测序,得到双端测序结果;
步骤4,对所述双端测序结果进行质量过滤,去除非生物核酸序列,包括引物序列和接头序列,得到质量过滤后的双端测序结果;所述质量过滤后的双端测序结果,包括多个双端测序序列;每个所述双端测序序列包括成对的正向测序序列和反向测序序列;其中,对于成对的正向测序序列和反向测序序列,通过标记序列进行标记;
步骤5,将双端测序结果中的所有正向测序序列存入到一个正向序列文件中;
将双端测序结果中的所有反向测序序列存入到一个反向序列文件中;
步骤6,对于正向序列文件中的每个正向测序序列,均进行数据剪切过滤处理;
其中,数据剪切过滤方法为:
步骤6.1,设置过滤参数,包括序列最小长度a,数据前端剪切掉的碱基数量b;
步骤6.2,对于当前的正向测序序列,表示为正向测序序列seq(L0),判断其前端剪切掉b个碱基后,剩余序列长度是否大于a,如果大于,则执行步骤6.3;否则,执行步骤6.4;
步骤6.3,将正向测序序列seq(L)的前端剪切掉b个碱基,得到过滤后的正向测序序列seq(L1);
步骤6.4,不对正向测序序列seq(L0)进行剪切过滤处理,输出正向测序序列seq(L0);
具体的,数据裁剪,需要序列足够长的重叠,以便双端序列可以连接,所以本发明设计中,正向测序序列的前b个碱基被修剪(相似情况下可以理解为默认值),对正向测序序列的末端不再进行修剪,以避免将读数长度减少太多而无法重叠连接,大大提升了质控的准确性。
例如,正向测序序列包括225个碱基,设计修剪正向测序序列的前13个碱基。
步骤7,经步骤6处理,得到多个正向测序序列;每个正向测序序列作为一个正向样本,从而形成正向样本池;
对正向样本池进行错误率识别,剔除错误的正向测序序列,保留真实的正向测序序列,从而得到所有真实的正向测序序列形成的正向真实样本池;
其中,对正向样本池进行错误率识别,具体为:建立错误率模型,衡量扩增子序列是否来自模板,从而自动校正不确定序列中的错误直接产生特征表。
错误率模型认为:每个扩增子序列样品都具有不同的误差比率,通过交替估计错误率和对参考样本序列错误模型进行学习,达到学习模型同真实错误率收敛于一致。和通过查找样品中物种的组成,比较OTU数据库的Deblur聚类算法不同,本发明错误率模型采用无监督学习模型,使用机器学习构建参数误差模型。算法假定数据中的最大可能错误率就是只有最丰富的序列是正确的,其余是错误的。在此基础上处理流程具体步骤包括:数据裁剪、可视化,得到特征表。
步骤8,对正向真实样本池中的各个正向测序序列进行冗余识别,去除重复的正向测序序列,从而得到冗余处理后的正向真实样本池;
步骤9,对于步骤5得到的反向序列文件,采用步骤6-步骤8的方式处理,得到冗余处理后的反向真实样本池;
通过以上降噪步骤处理后,能够去除受污染、低质量数据影响,获得代表序列丰度表(每个菌属的原始丰度除以该菌所在样本的总菌属丰度得到相对丰度)。
步骤10,从冗余处理后的正向真实样本池和冗余处理后的反向真实样本池中,根据标记序列,识别到成对的正向测序序列和反向测序序列;
对成对的正向测序序列和反向测序序列,采用以下方式进行序列拼接处理:
判断成对的正向测序序列和反向测序序列是否满足以下序列拼接条件:正向测序序列和反向测序序列具有重叠区域;并且,重叠区域中的碱基数量大于设定阈值;
如果不满足,则不进行序列拼接,并将本对正向测序序列和反向测序序列剔除;
如果满足,则使正向测序序列和反向测序序列在重叠区域拼接,得到合并序列;
步骤11,由此得到由多个合并序列组成的合并序列文件;
对合并序列文件中的各个合并序列进行物种注释,物种注释方法为:
步骤11.1,读取基因数据库;其中,所述基因数据库存储已知的基因名称以及基因DNA序列的对应关系;
步骤11.2,从基因数据库Silva Database中提取与测序引物匹配的多个基因,得到基因参考数据库;
步骤11.3,以基因参考数据库中的各个已知分类的参考序列作为训练集,将训练集作为输入,对预建立的分类器进行训练,得到训练完成的分类器;
双端合并序列的长度通常是可变的。针对双端合并序列读取的物种分类,本发明从测序引物位置处提取与基因数据库匹配区域,但不将比对序列剪裁成等长的序列,来进行分类器训练。
分类器的分类对象是包含数百个碱基的双端序列,这些读长是用515F/806R引物对16S rDNA基因序列进行扩增的产物。
训练分类器是通过从基因数据库中提取与测序引物匹配的区域,将结果截取至获得的碱基对此进行优化。选取的基因数据库是一个包含三域微生物(细菌、古菌、真核)rRNA基因序列的综合数据库。因为不同实验的扩增区域不同,鉴定物种分类的精度不同,根据测序数据长度获得对应的基因参考数据库,采用低于碱基数长度,提前训练,可以让分类结果更准确。
步骤11.4,以步骤10输出的每个合并序列作为样本,输入到分类器,分类模型输出对每个合并序列的物种分类结果,对物种分类结果进行注释,从而得到对各个合并序列的注释结果文件;
对物种分类结果进行注释时,注释方法为:选择相似性搜索程序,利用局部比对找出序列彼此间的关系。比对的要点是片段对。片段对是指两个给定序列中的一对子序列,如果长度相等,且可以形成无空格的完全匹配。首先局部比对即找出查询序列和目标序列间所有匹配程度超过一定阈值的片段对,然后对片段对根据给定的相似性阈值进行延伸,得到一定长度的相似性片段,最后给出高分值片段对。避免了额外训练步骤,不会占用大量内存,准确度更高。
采用该注释方法可以有效的缩短注释时间,提升效率。
步骤11.5,将合并序列的注释结果可视化显示;
以图表的形式展现注释结果,能够及时编辑修改,降低过程错误。
步骤12,基于步骤11得到的各个合并序列的注释结果,对注释结果进行过滤,得到过滤后的注释结果,过滤方法为:
基于物种注释结果,去除线粒体和叶绿体物种,保留属于细菌门的序列;
具体的,基于物种注释结果,过滤特征表,过滤后保存细菌门类生物序列。可以应用于保留特定的分类和删除特定的分类表。保留属于细菌门的序列,去除线粒体和叶绿体表残留。根据提供的多个搜索词,可以在逗号分隔的列表中,同时删除多个与搜索词匹配的特征表。
基于物种注释,过滤包含线粒体的代表序列,精确匹配,去除线粒体序列干扰,防止删除其它与线粒体相近的物种。
保留和去除参数同时组合在一起,做到一步操作既可以保留包含任意分类级(门、纲、目)注释的所有物种,又能够排除分类注释中包含线粒体或叶绿体的所有序列。筛选16S扩增目标对象,且排除宿主污染。
步骤13,基于步骤12得到的过滤后的注释结果,对群落结构多样性进行讨论与检验;具体的,通过系统发育分析、组间差异分析以及稀释曲线绘制,获得大气气溶胶微生物群落结构特征信息。
a)系统发育分析:可视化表示进化关系。
i)采用流程化的处理方法,将所有的命令有序集合压缩,命令执行过程中采用默认选项配置。
步骤包括:1)使用MAFFT(多重变换傅里叶对齐方法)创建序列,删去序列中无效信息,屏蔽产生歧义的比对序列。对序列比对,将去噪后序列与MAFFT方法创建序列对齐。产生的新对齐序列将用于推断发育树,并在中点处确定系统发育树的根。2)使用FastTree方法建树。FastTree可以从成千上万条序列中快速推断形成近似最大似然的系统发生树。短时间内构建进化树,对每一个节点提供一个节点的可信度。3)无根树转化为有根树。
b)Alpha多样性分析
i)利用core-metrics-phylogenetic方法,指定最小样本序列长度为深度(p-sampling-depth)进行抽样,从而计算多样性矩阵。
ii)计算Faith_Phylogenetic Diversity(系统发育多样性)矩阵:每个样品长度分类单元之和,群落丰富度的定性指标,考虑各个特征之间的系统发育关系。
iii)Evenness(均匀度)指数:描述物种中个体的相对丰度或所占比例,用Pielou均一度指数J表示,J=H'/H'max,H'为香农指数,H'max为香农指数最大值。
c)Beta多样性分析
i)unweighted_Unifrac_distanc(非加权Unifrac距离):对于系统发生树种的所有枝,考查其指向的叶节点是否只存在于同一群落,叶节点只存在于同一群落的枝的枝长和,占整个树的值长和的比例。只考虑了物种有无的变化,结果中,0表示两个微生物群落间OTU的种类一致。群落相异性(群落多样性)的定性指标,考虑系统发育的组间差异。
ii)Emperor工具,进行PCoA可视化个性分析。
改变传统处理过程中数据导出再次转换导入出图的繁琐,对探究时间序列数据十分有用。
iii)Bray-Curits distance(Bray-Curit距离):基于OTUs的计数统计,比较两个群落微生物的组成差异,定量群落多样性。
d)稀释曲线绘制
i)从样本中随机抽取一定数量的个体,统计出这些个体所代表物种数目,并以个体数与物种数来构建稀释曲线。
具体为:从样本中随机抽取一定数量的序列,统计出这些序列所能覆盖的物种数目,随后根据不同序列条数下对应的物种数目来构建的曲线.
ii)通过对优化序列进行随机抽样,比较测序数量不同的样本物种的丰富度,判断样本的取样深度是否合理。
本发明提供的一种大气气溶胶微生物群落组成的分析方法,具有以下优点:
(1)本发明提供的一种大气气溶胶微生物群落组成的分析方法,通过简化分析步骤,系统化分析流程,能够高效快捷地完成整套分析,获得可靠准确的群落结构特征。
(2)本发明针对性地根据大气环境中的微生物特性,选择质控方法,匹配合适的数据库,选用恰当的注释方法,生成预期图像结果,大大减少了不同平台交替切换的繁琐,将各个步骤紧密衔接,形成系统化的操作过程。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (1)

1.一种大气气溶胶微生物群落组成的分析方法,其特征在于,包括以下步骤:
步骤1,获得大气气溶胶样本,提取得到所述大气气溶胶样本中的微生物DNA;
步骤2,采用细菌通用引物515F/806R,以步骤1的所述微生物DNA为模板,进行PCR扩增,得到扩增产物;
步骤3,对所述扩增产物进行高通量双端测序,得到双端测序结果;
步骤4,对所述双端测序结果进行质量过滤,去除非生物核酸序列,包括引物序列和接头序列,得到质量过滤后的双端测序结果;所述质量过滤后的双端测序结果,包括多个双端测序序列;每个所述双端测序序列包括成对的正向测序序列和反向测序序列;其中,对于成对的正向测序序列和反向测序序列,通过标记序列进行标记;
步骤5,将双端测序结果中的所有正向测序序列存入到一个正向序列文件中;
将双端测序结果中的所有反向测序序列存入到一个反向序列文件中;
步骤6,对于正向序列文件中的每个正向测序序列,均进行数据剪切过滤处理;
其中,数据剪切过滤方法为:
步骤6.1,设置过滤参数,包括序列最小长度a,数据前端剪切掉的碱基数量b;
步骤6.2,对于当前的正向测序序列,表示为正向测序序列seq(L0),判断其前端剪切掉b个碱基后,剩余序列长度是否大于a,如果大于,则执行步骤6.3;否则,执行步骤6.4;
步骤6.3,将正向测序序列seq(L)的前端剪切掉b个碱基,得到过滤后的正向测序序列seq(L1);
步骤6.4,不对正向测序序列seq(L0)进行剪切过滤处理,输出正向测序序列seq(L0);
步骤7,经步骤6处理,得到多个正向测序序列;每个正向测序序列作为一个正向样本,从而形成正向样本池;
对正向样本池进行错误率识别,剔除错误的正向测序序列,保留真实的正向测序序列,从而得到所有真实的正向测序序列形成的正向真实样本池;
步骤8,对正向真实样本池中的各个正向测序序列进行冗余识别,去除重复的正向测序序列,从而得到冗余处理后的正向真实样本池;
步骤9,对于步骤5得到的反向序列文件,采用步骤6-步骤8的方式处理,得到冗余处理后的反向真实样本池;
步骤10,从冗余处理后的正向真实样本池和冗余处理后的反向真实样本池中,根据标记序列,识别到成对的正向测序序列和反向测序序列;
对成对的正向测序序列和反向测序序列,采用以下方式进行序列拼接处理:
判断成对的正向测序序列和反向测序序列是否满足以下序列拼接条件:正向测序序列和反向测序序列具有重叠区域;并且,重叠区域中的碱基数量大于设定阈值;
如果不满足,则不进行序列拼接,并将本对正向测序序列和反向测序序列剔除;
如果满足,则使正向测序序列和反向测序序列在重叠区域拼接,得到合并序列;
步骤11,由此得到由多个合并序列组成的合并序列文件;
对合并序列文件中的各个合并序列进行物种注释,物种注释方法为:
步骤11.1,读取基因数据库;其中,所述基因数据库存储已知的基因名称以及基因DNA序列的对应关系;
步骤11.2,从基因数据库中提取与测序引物匹配的多个基因,得到基因参考数据库;
步骤11.3,以基因参考数据库中的各个已知分类的参考序列作为训练集,将训练集作为输入,对预建立的分类器进行训练,得到训练完成的分类器;
步骤11.4,以步骤10输出的每个合并序列作为样本,输入到分类器,分类模型输出对每个合并序列的物种分类结果,对物种分类结果进行注释,从而得到对各个合并序列的注释结果文件;
步骤11.5,将合并序列的注释结果可视化显示;
步骤12,基于步骤11得到的各个合并序列的注释结果,对注释结果进行过滤,得到过滤后的注释结果,过滤方法为:
基于物种注释结果,去除线粒体和叶绿体物种,保留属于细菌门的序列;
步骤13,基于步骤12得到的过滤后的注释结果,对群落结构多样性进行讨论与检验;具体的,通过系统发育分析、组间差异分析以及稀释曲线绘制,获得大气气溶胶微生物群落结构特征信息。
CN202110394632.0A 2021-04-13 2021-04-13 一种大气气溶胶微生物群落组成的分析方法 Pending CN113077845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110394632.0A CN113077845A (zh) 2021-04-13 2021-04-13 一种大气气溶胶微生物群落组成的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110394632.0A CN113077845A (zh) 2021-04-13 2021-04-13 一种大气气溶胶微生物群落组成的分析方法

Publications (1)

Publication Number Publication Date
CN113077845A true CN113077845A (zh) 2021-07-06

Family

ID=76617488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110394632.0A Pending CN113077845A (zh) 2021-04-13 2021-04-13 一种大气气溶胶微生物群落组成的分析方法

Country Status (1)

Country Link
CN (1) CN113077845A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937472A (zh) * 2022-03-03 2022-08-23 上海市食品药品检验研究院 一种基于扩增子测序的微生物群落多样性分析方法及其系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1376206A (zh) * 1999-09-24 2002-10-23 生物技术检测股份有限公司 检测与酿造有关的微生物的方法和可用于此方法的核酸分子
CN101210270A (zh) * 2006-12-31 2008-07-02 陕西北美基因股份有限公司 病毒病原高通量快速排查检测方法
CN101633954A (zh) * 2009-08-03 2010-01-27 中国人民解放军军事医学科学院卫生学环境医学研究所 用于分析活性污泥微生物群落结构及动态变化的群落芯片
CN101838700A (zh) * 2010-05-28 2010-09-22 中国海洋大学 一种浮游植物群落结构的检测方法
CN102154450A (zh) * 2010-12-23 2011-08-17 深圳华大基因科技有限公司 一种检测肠炎致病菌的方法
CN102477460A (zh) * 2010-11-24 2012-05-30 深圳华大基因科技有限公司 对宏基因组16s高可变区v6进行测序聚类分析的方法
CN102559661A (zh) * 2012-01-18 2012-07-11 厦门基科生物科技有限公司 一种新型连接酶反应介导的扩增方法及用途
CN105525025A (zh) * 2016-02-17 2016-04-27 南京大学 基于16SrDNA深度测序检测不同大豆根际土壤原核微生物的方法
CN109706235A (zh) * 2019-01-29 2019-05-03 广州康昕瑞基因健康科技有限公司 一种肠道微生物菌群的检测和分析方法及其系统
US10597736B2 (en) * 2016-01-29 2020-03-24 Washington University Compositions and methods for detecting viruses in a sample

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1376206A (zh) * 1999-09-24 2002-10-23 生物技术检测股份有限公司 检测与酿造有关的微生物的方法和可用于此方法的核酸分子
CN101210270A (zh) * 2006-12-31 2008-07-02 陕西北美基因股份有限公司 病毒病原高通量快速排查检测方法
CN101633954A (zh) * 2009-08-03 2010-01-27 中国人民解放军军事医学科学院卫生学环境医学研究所 用于分析活性污泥微生物群落结构及动态变化的群落芯片
CN101838700A (zh) * 2010-05-28 2010-09-22 中国海洋大学 一种浮游植物群落结构的检测方法
CN102477460A (zh) * 2010-11-24 2012-05-30 深圳华大基因科技有限公司 对宏基因组16s高可变区v6进行测序聚类分析的方法
CN102154450A (zh) * 2010-12-23 2011-08-17 深圳华大基因科技有限公司 一种检测肠炎致病菌的方法
CN102559661A (zh) * 2012-01-18 2012-07-11 厦门基科生物科技有限公司 一种新型连接酶反应介导的扩增方法及用途
US10597736B2 (en) * 2016-01-29 2020-03-24 Washington University Compositions and methods for detecting viruses in a sample
CN105525025A (zh) * 2016-02-17 2016-04-27 南京大学 基于16SrDNA深度测序检测不同大豆根际土壤原核微生物的方法
CN109706235A (zh) * 2019-01-29 2019-05-03 广州康昕瑞基因健康科技有限公司 一种肠道微生物菌群的检测和分析方法及其系统

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
ADMIN: "干货|扩增子-物种注释四部曲", 《HTTP://WWW.MAGIGENE.COM/ARTICLE/SHOW/256.HTML》 *
EDDY J. DOWLE 等: "Targeted gene enrichment and high-throughput sequencing for environmental biomonitoring: a case study using freshwater macroinvertebrates", 《MOLECULAR ECOLOGY RESOURCES (2015)》 *
WANGCHUANG2017: "序列比对-BLAST", 《HTTPS://BLOG.CSDN.NET/U010608296/ARTICLE/DETAILS/90344929》 *
WOODCORPSE的个人博客: "QIIME 2教程. 12数据筛选Filtering data(2020.2)", 《HTTP://BLOG.SCIENCENET.CN/BLOG-3334560-1231006.HTML》 *
WOODCORPSE的个人博客: "QIIME2教程.13训练特征分类器Training feature classifier", 《科学网》 *
Y大宽: "双序列比对(1)", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1388481》 *
ZHIDONG ZHOU 等: "Bacterial community structure shifts induced by biochar amendment to karst calcareous soil in southwestern areas of China", 《JOURNAL OF SOILS AND SEDIMENTS (2019)》 *
刘永鑫ADAM: "DADA2中文教程v1.8", 《CSDN》 *
刘永鑫ADAM: "QIIME 2教程. 12数据筛选Filtering data(2021.2)", 《HTTPS://BLOG.CSDN.NET/WOODCORPSE/ARTICLE/DETAILS/115302126》 *
国家海洋局极地专项办公室: "《南极周边海域海洋生物多样性与生态考察》", 31 May 2016 *
张书泰 等: "酱油酿造过程中微生物多样性分析方法研究进展", 《中国调味品》 *
流泪鱼的博客: "Blast 与 FastA", 《HTTP://BLOG.SINA.COM.CN/S/BLOG_4BE5711F01015SSR.HTML》 *
许光素 等: "高通量测序技术应用于污水处理厂细菌气溶胶群落结构分析", 《环境 科学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937472A (zh) * 2022-03-03 2022-08-23 上海市食品药品检验研究院 一种基于扩增子测序的微生物群落多样性分析方法及其系统

Similar Documents

Publication Publication Date Title
CN114121160B (zh) 一种检测样本中宏病毒组的方法和系统
CN112908414A (zh) 一种大规模单细胞分型方法、系统及存储介质
CN107292123A (zh) 一种基于高通量测序的微生物群落组成的方法和装置
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN111180013B (zh) 检测血液病融合基因的装置
CN113077845A (zh) 一种大气气溶胶微生物群落组成的分析方法
CN104573701B (zh) 一种玉米雄穗性状的自动检测方法
CN112182257A (zh) 一种基于神经网络的人工智能数据清洗方法
CN116664944A (zh) 一种基于属性特征知识图谱的葡萄园害虫识别方法
US20180039728A1 (en) Operating method of apparatus for analyzing genome sequences using distributed processing
CN111916151B (zh) 一种苜蓿黄萎病菌的溯源检测方法及应用
CN111218518B (zh) 微生物群落特定功能基因多样性分析引物对及分析方法
CN109817280B (zh) 一种测序数据组装方法
US20170147744A1 (en) System for analyzing sequencing data of bacterial strains and method thereof
CN114496089B (zh) 一种病原微生物鉴定方法
CN110232951A (zh) 判断测序数据饱和的方法、计算机可读介质和应用
Yao et al. A two-stage multi-fidelity design optimization for K-mer-based pattern recognition (KPR) in image processing
Belot et al. High Throughput Information Extraction of Printed Specimen Labels from Large-Scale Digitization of Entomological Collections using a Semi-Automated Pipeline
Al-Barhamtoshy et al. DNA sequence error corrections based on TensorFlow
CN113656565B (zh) 一种基于大数据预测核心微生物组的方法
CN117746997B (zh) 一种基于多模态先验信息的顺式调控模体识别方法
CN101320404B (zh) 一种生物病毒的计算机自动分类方法
Kerandel et al. Method for automatically processing outliers of a quantitative variable
JP7560199B1 (ja) 配列のクラスタリング方法
Gustafsson et al. Clustering genomic signatures A new distance measure for variable length Markov chains

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Chen Bin

Inventor after: Dong Xiaofei

Inventor before: Chen Bin

Inventor before: Sheng Xiaofei

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210706