CN113077845A - 一种大气气溶胶微生物群落组成的分析方法 - Google Patents
一种大气气溶胶微生物群落组成的分析方法 Download PDFInfo
- Publication number
- CN113077845A CN113077845A CN202110394632.0A CN202110394632A CN113077845A CN 113077845 A CN113077845 A CN 113077845A CN 202110394632 A CN202110394632 A CN 202110394632A CN 113077845 A CN113077845 A CN 113077845A
- Authority
- CN
- China
- Prior art keywords
- sequence
- sequencing
- sequences
- reverse
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 230000000813 microbial effect Effects 0.000 title claims abstract description 29
- 239000005427 atmospheric aerosol Substances 0.000 title claims abstract description 27
- 239000000203 mixture Substances 0.000 title claims abstract description 17
- 238000012163 sequencing technique Methods 0.000 claims abstract description 135
- 238000000034 method Methods 0.000 claims abstract description 37
- 241000894007 species Species 0.000 claims abstract description 36
- 238000001914 filtration Methods 0.000 claims abstract description 26
- 238000010008 shearing Methods 0.000 claims abstract description 10
- 230000003321 amplification Effects 0.000 claims abstract description 9
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 9
- 238000012408 PCR amplification Methods 0.000 claims abstract description 4
- 230000002441 reversible effect Effects 0.000 claims description 39
- 108090000623 proteins and genes Proteins 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 12
- 108020004414 DNA Proteins 0.000 claims description 6
- 241000894006 Bacteria Species 0.000 claims description 5
- 210000003763 chloroplast Anatomy 0.000 claims description 5
- 238000010790 dilution Methods 0.000 claims description 5
- 239000012895 dilution Substances 0.000 claims description 5
- 230000002438 mitochondrial effect Effects 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 5
- 238000013081 phylogenetic analysis Methods 0.000 claims description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 150000007523 nucleic acids Chemical group 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 11
- 244000005700 microbiome Species 0.000 abstract description 6
- 238000003908 quality control method Methods 0.000 abstract description 4
- 230000009897 systematic effect Effects 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 34
- 210000003470 mitochondria Anatomy 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 108091093088 Amplicon Proteins 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108020004465 16S ribosomal RNA Proteins 0.000 description 1
- 208000030090 Acute Disease Diseases 0.000 description 1
- 241000203069 Archaea Species 0.000 description 1
- 241000606125 Bacteroides Species 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241000566145 Otus Species 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 239000000926 atmospheric chemistry Substances 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000000975 bioactive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 108700022487 rRNA Genes Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Organic Chemistry (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Signal Processing (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种大气气溶胶微生物群落组成的分析方法,包括以下步骤:获得大气气溶胶样本,提取得到所述大气气溶胶样本中的微生物DNA;以微生物DNA为模板,进行PCR扩增;对扩增产物进行高通量双端测序,得到双端测序结果;进行数据剪切过滤处理、序列拼接处理和物种注释,对群落结构多样性进行讨论与检验。(1)本发明通过简化分析步骤,系统化分析流程,能够高效快捷地完成整套分析,获得可靠准确的群落结构特征。(2)本发明针对性地根据大气环境中的微生物特性,选择质控方法,匹配合适的数据库,选用恰当的注释方法,生成预期图像结果,大大减少了不同平台交替切换的繁琐,将各个步骤紧密衔接,形成系统化的操作过程。
Description
技术领域
本发明属于微生物群落组成分析技术领域,具体涉及一种大气气溶胶微生物群落组成的分析方法。
背景技术
大气气溶胶是大气中存在的各种固态和液态颗粒状物质的总称,由各种颗粒状物质均匀地分散在空气中,从而构成一个相对稳定的庞大的悬浮体系。大气气溶胶的构成十分复杂,是大气环境中重要的组成部分。其中,含有微生物或生物大分子等生命活性物质的微粒称之为生物气溶胶。生物气溶胶种类很多、粒径范围很广,粒径大小可以从1nm变化到100μm。生物气溶胶可以作为冰核和云凝结核,影响云滴和冰晶的形成,从而间接影响全球气候变化,并对大气化学和大气物理过程有着重要的潜在影响。此外,由于生物气溶胶可以借助空气介质扩散和传输,一定程度上会引发人类的急、慢性疾病。因此,针对大气气溶胶中微生物的研究具有重要的科学意义。
现有的微生物群分析技术方法多样,但普遍具有分析过程繁琐以及分析结果准确性不高的问题,从而限制了其推广使用。
发明内容
针对现有技术存在的缺陷,本发明提供一种大气气溶胶微生物群落组成的分析方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种大气气溶胶微生物群落组成的分析方法,包括以下步骤:
步骤1,获得大气气溶胶样本,提取得到所述大气气溶胶样本中的微生物DNA;
步骤2,采用细菌通用引物515F/806R,以步骤1的所述微生物DNA为模板,进行PCR扩增,得到扩增产物;
步骤3,对所述扩增产物进行高通量双端测序,得到双端测序结果;
步骤4,对所述双端测序结果进行质量过滤,去除非生物核酸序列,包括引物序列和接头序列,得到质量过滤后的双端测序结果;所述质量过滤后的双端测序结果,包括多个双端测序序列;每个所述双端测序序列包括成对的正向测序序列和反向测序序列;其中,对于成对的正向测序序列和反向测序序列,通过标记序列进行标记;
步骤5,将双端测序结果中的所有正向测序序列存入到一个正向序列文件中;
将双端测序结果中的所有反向测序序列存入到一个反向序列文件中;
步骤6,对于正向序列文件中的每个正向测序序列,均进行数据剪切过滤处理;
其中,数据剪切过滤方法为:
步骤6.1,设置过滤参数,包括序列最小长度a,数据前端剪切掉的碱基数量b;
步骤6.2,对于当前的正向测序序列,表示为正向测序序列seq(L0),判断其前端剪切掉b个碱基后,剩余序列长度是否大于a,如果大于,则执行步骤6.3;否则,执行步骤6.4;
步骤6.3,将正向测序序列seq(L)的前端剪切掉b个碱基,得到过滤后的正向测序序列seq(L1);
步骤6.4,不对正向测序序列seq(L0)进行剪切过滤处理,输出正向测序序列seq(L0);
步骤7,经步骤6处理,得到多个正向测序序列;每个正向测序序列作为一个正向样本,从而形成正向样本池;
对正向样本池进行错误率识别,剔除错误的正向测序序列,保留真实的正向测序序列,从而得到所有真实的正向测序序列形成的正向真实样本池;
步骤8,对正向真实样本池中的各个正向测序序列进行冗余识别,去除重复的正向测序序列,从而得到冗余处理后的正向真实样本池;
步骤9,对于步骤5得到的反向序列文件,采用步骤6-步骤8的方式处理,得到冗余处理后的反向真实样本池;
步骤10,从冗余处理后的正向真实样本池和冗余处理后的反向真实样本池中,根据标记序列,识别到成对的正向测序序列和反向测序序列;
对成对的正向测序序列和反向测序序列,采用以下方式进行序列拼接处理:
判断成对的正向测序序列和反向测序序列是否满足以下序列拼接条件:正向测序序列和反向测序序列具有重叠区域;并且,重叠区域中的碱基数量大于设定阈值;
如果不满足,则不进行序列拼接,并将本对正向测序序列和反向测序序列剔除;
如果满足,则使正向测序序列和反向测序序列在重叠区域拼接,得到合并序列;
步骤11,由此得到由多个合并序列组成的合并序列文件;
对合并序列文件中的各个合并序列进行物种注释,物种注释方法为:
步骤11.1,读取基因数据库;其中,所述基因数据库存储已知的基因名称以及基因DNA序列的对应关系;
步骤11.2,从基因数据库中提取与测序引物匹配的多个基因,得到基因参考数据库;
步骤11.3,以基因参考数据库中的各个已知分类的参考序列作为训练集,将训练集作为输入,对预建立的分类器进行训练,得到训练完成的分类器;
步骤11.4,以步骤10输出的每个合并序列作为样本,输入到分类器,分类模型输出对每个合并序列的物种分类结果,对物种分类结果进行注释,从而得到对各个合并序列的注释结果文件;
步骤11.5,将合并序列的注释结果可视化显示;
步骤12,基于步骤11得到的各个合并序列的注释结果,对注释结果进行过滤,得到过滤后的注释结果,过滤方法为:
基于物种注释结果,去除线粒体和叶绿体物种,保留属于细菌门的序列;
步骤13,基于步骤12得到的过滤后的注释结果,对群落结构多样性进行讨论与检验;具体的,通过系统发育分析、组间差异分析以及稀释曲线绘制,获得大气气溶胶微生物群落结构特征信息。
本发明提供的一种大气气溶胶微生物群落组成的分析方法具有以下优点:
(1)本发明提供的一种大气气溶胶微生物群落组成的分析方法,通过简化分析步骤,系统化分析流程,能够高效快捷地完成整套分析,获得可靠准确的群落结构特征。
(2)本发明针对性地根据大气环境中的微生物特性,选择质控方法,匹配合适的数据库,选用恰当的注释方法,生成预期图像结果,大大减少了不同平台交替切换的繁琐,将各个步骤紧密衔接,形成系统化的操作过程。
附图说明
图1为本发明提供的一种大气气溶胶微生物群落组成的分析方法的流程示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明应用于大气科学、环境科学、生物信息技术领域,本发明提供一种大气气溶胶微生物群落组成的分析方法,参考图1,包括以下步骤:
步骤1,获得大气气溶胶样本,提取得到所述大气气溶胶样本中的微生物DNA;
步骤2,采用细菌通用引物515F/806R,以步骤1的所述微生物DNA为模板,进行PCR扩增,得到扩增产物;
步骤3,对所述扩增产物进行高通量双端测序,得到双端测序结果;
步骤4,对所述双端测序结果进行质量过滤,去除非生物核酸序列,包括引物序列和接头序列,得到质量过滤后的双端测序结果;所述质量过滤后的双端测序结果,包括多个双端测序序列;每个所述双端测序序列包括成对的正向测序序列和反向测序序列;其中,对于成对的正向测序序列和反向测序序列,通过标记序列进行标记;
步骤5,将双端测序结果中的所有正向测序序列存入到一个正向序列文件中;
将双端测序结果中的所有反向测序序列存入到一个反向序列文件中;
步骤6,对于正向序列文件中的每个正向测序序列,均进行数据剪切过滤处理;
其中,数据剪切过滤方法为:
步骤6.1,设置过滤参数,包括序列最小长度a,数据前端剪切掉的碱基数量b;
步骤6.2,对于当前的正向测序序列,表示为正向测序序列seq(L0),判断其前端剪切掉b个碱基后,剩余序列长度是否大于a,如果大于,则执行步骤6.3;否则,执行步骤6.4;
步骤6.3,将正向测序序列seq(L)的前端剪切掉b个碱基,得到过滤后的正向测序序列seq(L1);
步骤6.4,不对正向测序序列seq(L0)进行剪切过滤处理,输出正向测序序列seq(L0);
具体的,数据裁剪,需要序列足够长的重叠,以便双端序列可以连接,所以本发明设计中,正向测序序列的前b个碱基被修剪(相似情况下可以理解为默认值),对正向测序序列的末端不再进行修剪,以避免将读数长度减少太多而无法重叠连接,大大提升了质控的准确性。
例如,正向测序序列包括225个碱基,设计修剪正向测序序列的前13个碱基。
步骤7,经步骤6处理,得到多个正向测序序列;每个正向测序序列作为一个正向样本,从而形成正向样本池;
对正向样本池进行错误率识别,剔除错误的正向测序序列,保留真实的正向测序序列,从而得到所有真实的正向测序序列形成的正向真实样本池;
其中,对正向样本池进行错误率识别,具体为:建立错误率模型,衡量扩增子序列是否来自模板,从而自动校正不确定序列中的错误直接产生特征表。
错误率模型认为:每个扩增子序列样品都具有不同的误差比率,通过交替估计错误率和对参考样本序列错误模型进行学习,达到学习模型同真实错误率收敛于一致。和通过查找样品中物种的组成,比较OTU数据库的Deblur聚类算法不同,本发明错误率模型采用无监督学习模型,使用机器学习构建参数误差模型。算法假定数据中的最大可能错误率就是只有最丰富的序列是正确的,其余是错误的。在此基础上处理流程具体步骤包括:数据裁剪、可视化,得到特征表。
步骤8,对正向真实样本池中的各个正向测序序列进行冗余识别,去除重复的正向测序序列,从而得到冗余处理后的正向真实样本池;
步骤9,对于步骤5得到的反向序列文件,采用步骤6-步骤8的方式处理,得到冗余处理后的反向真实样本池;
通过以上降噪步骤处理后,能够去除受污染、低质量数据影响,获得代表序列丰度表(每个菌属的原始丰度除以该菌所在样本的总菌属丰度得到相对丰度)。
步骤10,从冗余处理后的正向真实样本池和冗余处理后的反向真实样本池中,根据标记序列,识别到成对的正向测序序列和反向测序序列;
对成对的正向测序序列和反向测序序列,采用以下方式进行序列拼接处理:
判断成对的正向测序序列和反向测序序列是否满足以下序列拼接条件:正向测序序列和反向测序序列具有重叠区域;并且,重叠区域中的碱基数量大于设定阈值;
如果不满足,则不进行序列拼接,并将本对正向测序序列和反向测序序列剔除;
如果满足,则使正向测序序列和反向测序序列在重叠区域拼接,得到合并序列;
步骤11,由此得到由多个合并序列组成的合并序列文件;
对合并序列文件中的各个合并序列进行物种注释,物种注释方法为:
步骤11.1,读取基因数据库;其中,所述基因数据库存储已知的基因名称以及基因DNA序列的对应关系;
步骤11.2,从基因数据库Silva Database中提取与测序引物匹配的多个基因,得到基因参考数据库;
步骤11.3,以基因参考数据库中的各个已知分类的参考序列作为训练集,将训练集作为输入,对预建立的分类器进行训练,得到训练完成的分类器;
双端合并序列的长度通常是可变的。针对双端合并序列读取的物种分类,本发明从测序引物位置处提取与基因数据库匹配区域,但不将比对序列剪裁成等长的序列,来进行分类器训练。
分类器的分类对象是包含数百个碱基的双端序列,这些读长是用515F/806R引物对16S rDNA基因序列进行扩增的产物。
训练分类器是通过从基因数据库中提取与测序引物匹配的区域,将结果截取至获得的碱基对此进行优化。选取的基因数据库是一个包含三域微生物(细菌、古菌、真核)rRNA基因序列的综合数据库。因为不同实验的扩增区域不同,鉴定物种分类的精度不同,根据测序数据长度获得对应的基因参考数据库,采用低于碱基数长度,提前训练,可以让分类结果更准确。
步骤11.4,以步骤10输出的每个合并序列作为样本,输入到分类器,分类模型输出对每个合并序列的物种分类结果,对物种分类结果进行注释,从而得到对各个合并序列的注释结果文件;
对物种分类结果进行注释时,注释方法为:选择相似性搜索程序,利用局部比对找出序列彼此间的关系。比对的要点是片段对。片段对是指两个给定序列中的一对子序列,如果长度相等,且可以形成无空格的完全匹配。首先局部比对即找出查询序列和目标序列间所有匹配程度超过一定阈值的片段对,然后对片段对根据给定的相似性阈值进行延伸,得到一定长度的相似性片段,最后给出高分值片段对。避免了额外训练步骤,不会占用大量内存,准确度更高。
采用该注释方法可以有效的缩短注释时间,提升效率。
步骤11.5,将合并序列的注释结果可视化显示;
以图表的形式展现注释结果,能够及时编辑修改,降低过程错误。
步骤12,基于步骤11得到的各个合并序列的注释结果,对注释结果进行过滤,得到过滤后的注释结果,过滤方法为:
基于物种注释结果,去除线粒体和叶绿体物种,保留属于细菌门的序列;
具体的,基于物种注释结果,过滤特征表,过滤后保存细菌门类生物序列。可以应用于保留特定的分类和删除特定的分类表。保留属于细菌门的序列,去除线粒体和叶绿体表残留。根据提供的多个搜索词,可以在逗号分隔的列表中,同时删除多个与搜索词匹配的特征表。
基于物种注释,过滤包含线粒体的代表序列,精确匹配,去除线粒体序列干扰,防止删除其它与线粒体相近的物种。
保留和去除参数同时组合在一起,做到一步操作既可以保留包含任意分类级(门、纲、目)注释的所有物种,又能够排除分类注释中包含线粒体或叶绿体的所有序列。筛选16S扩增目标对象,且排除宿主污染。
步骤13,基于步骤12得到的过滤后的注释结果,对群落结构多样性进行讨论与检验;具体的,通过系统发育分析、组间差异分析以及稀释曲线绘制,获得大气气溶胶微生物群落结构特征信息。
a)系统发育分析:可视化表示进化关系。
i)采用流程化的处理方法,将所有的命令有序集合压缩,命令执行过程中采用默认选项配置。
步骤包括:1)使用MAFFT(多重变换傅里叶对齐方法)创建序列,删去序列中无效信息,屏蔽产生歧义的比对序列。对序列比对,将去噪后序列与MAFFT方法创建序列对齐。产生的新对齐序列将用于推断发育树,并在中点处确定系统发育树的根。2)使用FastTree方法建树。FastTree可以从成千上万条序列中快速推断形成近似最大似然的系统发生树。短时间内构建进化树,对每一个节点提供一个节点的可信度。3)无根树转化为有根树。
b)Alpha多样性分析
i)利用core-metrics-phylogenetic方法,指定最小样本序列长度为深度(p-sampling-depth)进行抽样,从而计算多样性矩阵。
ii)计算Faith_Phylogenetic Diversity(系统发育多样性)矩阵:每个样品长度分类单元之和,群落丰富度的定性指标,考虑各个特征之间的系统发育关系。
iii)Evenness(均匀度)指数:描述物种中个体的相对丰度或所占比例,用Pielou均一度指数J表示,J=H'/H'max,H'为香农指数,H'max为香农指数最大值。
c)Beta多样性分析
i)unweighted_Unifrac_distanc(非加权Unifrac距离):对于系统发生树种的所有枝,考查其指向的叶节点是否只存在于同一群落,叶节点只存在于同一群落的枝的枝长和,占整个树的值长和的比例。只考虑了物种有无的变化,结果中,0表示两个微生物群落间OTU的种类一致。群落相异性(群落多样性)的定性指标,考虑系统发育的组间差异。
ii)Emperor工具,进行PCoA可视化个性分析。
改变传统处理过程中数据导出再次转换导入出图的繁琐,对探究时间序列数据十分有用。
iii)Bray-Curits distance(Bray-Curit距离):基于OTUs的计数统计,比较两个群落微生物的组成差异,定量群落多样性。
d)稀释曲线绘制
i)从样本中随机抽取一定数量的个体,统计出这些个体所代表物种数目,并以个体数与物种数来构建稀释曲线。
具体为:从样本中随机抽取一定数量的序列,统计出这些序列所能覆盖的物种数目,随后根据不同序列条数下对应的物种数目来构建的曲线.
ii)通过对优化序列进行随机抽样,比较测序数量不同的样本物种的丰富度,判断样本的取样深度是否合理。
本发明提供的一种大气气溶胶微生物群落组成的分析方法,具有以下优点:
(1)本发明提供的一种大气气溶胶微生物群落组成的分析方法,通过简化分析步骤,系统化分析流程,能够高效快捷地完成整套分析,获得可靠准确的群落结构特征。
(2)本发明针对性地根据大气环境中的微生物特性,选择质控方法,匹配合适的数据库,选用恰当的注释方法,生成预期图像结果,大大减少了不同平台交替切换的繁琐,将各个步骤紧密衔接,形成系统化的操作过程。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (1)
1.一种大气气溶胶微生物群落组成的分析方法,其特征在于,包括以下步骤:
步骤1,获得大气气溶胶样本,提取得到所述大气气溶胶样本中的微生物DNA;
步骤2,采用细菌通用引物515F/806R,以步骤1的所述微生物DNA为模板,进行PCR扩增,得到扩增产物;
步骤3,对所述扩增产物进行高通量双端测序,得到双端测序结果;
步骤4,对所述双端测序结果进行质量过滤,去除非生物核酸序列,包括引物序列和接头序列,得到质量过滤后的双端测序结果;所述质量过滤后的双端测序结果,包括多个双端测序序列;每个所述双端测序序列包括成对的正向测序序列和反向测序序列;其中,对于成对的正向测序序列和反向测序序列,通过标记序列进行标记;
步骤5,将双端测序结果中的所有正向测序序列存入到一个正向序列文件中;
将双端测序结果中的所有反向测序序列存入到一个反向序列文件中;
步骤6,对于正向序列文件中的每个正向测序序列,均进行数据剪切过滤处理;
其中,数据剪切过滤方法为:
步骤6.1,设置过滤参数,包括序列最小长度a,数据前端剪切掉的碱基数量b;
步骤6.2,对于当前的正向测序序列,表示为正向测序序列seq(L0),判断其前端剪切掉b个碱基后,剩余序列长度是否大于a,如果大于,则执行步骤6.3;否则,执行步骤6.4;
步骤6.3,将正向测序序列seq(L)的前端剪切掉b个碱基,得到过滤后的正向测序序列seq(L1);
步骤6.4,不对正向测序序列seq(L0)进行剪切过滤处理,输出正向测序序列seq(L0);
步骤7,经步骤6处理,得到多个正向测序序列;每个正向测序序列作为一个正向样本,从而形成正向样本池;
对正向样本池进行错误率识别,剔除错误的正向测序序列,保留真实的正向测序序列,从而得到所有真实的正向测序序列形成的正向真实样本池;
步骤8,对正向真实样本池中的各个正向测序序列进行冗余识别,去除重复的正向测序序列,从而得到冗余处理后的正向真实样本池;
步骤9,对于步骤5得到的反向序列文件,采用步骤6-步骤8的方式处理,得到冗余处理后的反向真实样本池;
步骤10,从冗余处理后的正向真实样本池和冗余处理后的反向真实样本池中,根据标记序列,识别到成对的正向测序序列和反向测序序列;
对成对的正向测序序列和反向测序序列,采用以下方式进行序列拼接处理:
判断成对的正向测序序列和反向测序序列是否满足以下序列拼接条件:正向测序序列和反向测序序列具有重叠区域;并且,重叠区域中的碱基数量大于设定阈值;
如果不满足,则不进行序列拼接,并将本对正向测序序列和反向测序序列剔除;
如果满足,则使正向测序序列和反向测序序列在重叠区域拼接,得到合并序列;
步骤11,由此得到由多个合并序列组成的合并序列文件;
对合并序列文件中的各个合并序列进行物种注释,物种注释方法为:
步骤11.1,读取基因数据库;其中,所述基因数据库存储已知的基因名称以及基因DNA序列的对应关系;
步骤11.2,从基因数据库中提取与测序引物匹配的多个基因,得到基因参考数据库;
步骤11.3,以基因参考数据库中的各个已知分类的参考序列作为训练集,将训练集作为输入,对预建立的分类器进行训练,得到训练完成的分类器;
步骤11.4,以步骤10输出的每个合并序列作为样本,输入到分类器,分类模型输出对每个合并序列的物种分类结果,对物种分类结果进行注释,从而得到对各个合并序列的注释结果文件;
步骤11.5,将合并序列的注释结果可视化显示;
步骤12,基于步骤11得到的各个合并序列的注释结果,对注释结果进行过滤,得到过滤后的注释结果,过滤方法为:
基于物种注释结果,去除线粒体和叶绿体物种,保留属于细菌门的序列;
步骤13,基于步骤12得到的过滤后的注释结果,对群落结构多样性进行讨论与检验;具体的,通过系统发育分析、组间差异分析以及稀释曲线绘制,获得大气气溶胶微生物群落结构特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110394632.0A CN113077845A (zh) | 2021-04-13 | 2021-04-13 | 一种大气气溶胶微生物群落组成的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110394632.0A CN113077845A (zh) | 2021-04-13 | 2021-04-13 | 一种大气气溶胶微生物群落组成的分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113077845A true CN113077845A (zh) | 2021-07-06 |
Family
ID=76617488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110394632.0A Pending CN113077845A (zh) | 2021-04-13 | 2021-04-13 | 一种大气气溶胶微生物群落组成的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113077845A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114937472A (zh) * | 2022-03-03 | 2022-08-23 | 上海市食品药品检验研究院 | 一种基于扩增子测序的微生物群落多样性分析方法及其系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1376206A (zh) * | 1999-09-24 | 2002-10-23 | 生物技术检测股份有限公司 | 检测与酿造有关的微生物的方法和可用于此方法的核酸分子 |
CN101210270A (zh) * | 2006-12-31 | 2008-07-02 | 陕西北美基因股份有限公司 | 病毒病原高通量快速排查检测方法 |
CN101633954A (zh) * | 2009-08-03 | 2010-01-27 | 中国人民解放军军事医学科学院卫生学环境医学研究所 | 用于分析活性污泥微生物群落结构及动态变化的群落芯片 |
CN101838700A (zh) * | 2010-05-28 | 2010-09-22 | 中国海洋大学 | 一种浮游植物群落结构的检测方法 |
CN102154450A (zh) * | 2010-12-23 | 2011-08-17 | 深圳华大基因科技有限公司 | 一种检测肠炎致病菌的方法 |
CN102477460A (zh) * | 2010-11-24 | 2012-05-30 | 深圳华大基因科技有限公司 | 对宏基因组16s高可变区v6进行测序聚类分析的方法 |
CN102559661A (zh) * | 2012-01-18 | 2012-07-11 | 厦门基科生物科技有限公司 | 一种新型连接酶反应介导的扩增方法及用途 |
CN105525025A (zh) * | 2016-02-17 | 2016-04-27 | 南京大学 | 基于16SrDNA深度测序检测不同大豆根际土壤原核微生物的方法 |
CN109706235A (zh) * | 2019-01-29 | 2019-05-03 | 广州康昕瑞基因健康科技有限公司 | 一种肠道微生物菌群的检测和分析方法及其系统 |
US10597736B2 (en) * | 2016-01-29 | 2020-03-24 | Washington University | Compositions and methods for detecting viruses in a sample |
-
2021
- 2021-04-13 CN CN202110394632.0A patent/CN113077845A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1376206A (zh) * | 1999-09-24 | 2002-10-23 | 生物技术检测股份有限公司 | 检测与酿造有关的微生物的方法和可用于此方法的核酸分子 |
CN101210270A (zh) * | 2006-12-31 | 2008-07-02 | 陕西北美基因股份有限公司 | 病毒病原高通量快速排查检测方法 |
CN101633954A (zh) * | 2009-08-03 | 2010-01-27 | 中国人民解放军军事医学科学院卫生学环境医学研究所 | 用于分析活性污泥微生物群落结构及动态变化的群落芯片 |
CN101838700A (zh) * | 2010-05-28 | 2010-09-22 | 中国海洋大学 | 一种浮游植物群落结构的检测方法 |
CN102477460A (zh) * | 2010-11-24 | 2012-05-30 | 深圳华大基因科技有限公司 | 对宏基因组16s高可变区v6进行测序聚类分析的方法 |
CN102154450A (zh) * | 2010-12-23 | 2011-08-17 | 深圳华大基因科技有限公司 | 一种检测肠炎致病菌的方法 |
CN102559661A (zh) * | 2012-01-18 | 2012-07-11 | 厦门基科生物科技有限公司 | 一种新型连接酶反应介导的扩增方法及用途 |
US10597736B2 (en) * | 2016-01-29 | 2020-03-24 | Washington University | Compositions and methods for detecting viruses in a sample |
CN105525025A (zh) * | 2016-02-17 | 2016-04-27 | 南京大学 | 基于16SrDNA深度测序检测不同大豆根际土壤原核微生物的方法 |
CN109706235A (zh) * | 2019-01-29 | 2019-05-03 | 广州康昕瑞基因健康科技有限公司 | 一种肠道微生物菌群的检测和分析方法及其系统 |
Non-Patent Citations (13)
Title |
---|
ADMIN: "干货|扩增子-物种注释四部曲", 《HTTP://WWW.MAGIGENE.COM/ARTICLE/SHOW/256.HTML》 * |
EDDY J. DOWLE 等: "Targeted gene enrichment and high-throughput sequencing for environmental biomonitoring: a case study using freshwater macroinvertebrates", 《MOLECULAR ECOLOGY RESOURCES (2015)》 * |
WANGCHUANG2017: "序列比对-BLAST", 《HTTPS://BLOG.CSDN.NET/U010608296/ARTICLE/DETAILS/90344929》 * |
WOODCORPSE的个人博客: "QIIME 2教程. 12数据筛选Filtering data(2020.2)", 《HTTP://BLOG.SCIENCENET.CN/BLOG-3334560-1231006.HTML》 * |
WOODCORPSE的个人博客: "QIIME2教程.13训练特征分类器Training feature classifier", 《科学网》 * |
Y大宽: "双序列比对(1)", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1388481》 * |
ZHIDONG ZHOU 等: "Bacterial community structure shifts induced by biochar amendment to karst calcareous soil in southwestern areas of China", 《JOURNAL OF SOILS AND SEDIMENTS (2019)》 * |
刘永鑫ADAM: "DADA2中文教程v1.8", 《CSDN》 * |
刘永鑫ADAM: "QIIME 2教程. 12数据筛选Filtering data(2021.2)", 《HTTPS://BLOG.CSDN.NET/WOODCORPSE/ARTICLE/DETAILS/115302126》 * |
国家海洋局极地专项办公室: "《南极周边海域海洋生物多样性与生态考察》", 31 May 2016 * |
张书泰 等: "酱油酿造过程中微生物多样性分析方法研究进展", 《中国调味品》 * |
流泪鱼的博客: "Blast 与 FastA", 《HTTP://BLOG.SINA.COM.CN/S/BLOG_4BE5711F01015SSR.HTML》 * |
许光素 等: "高通量测序技术应用于污水处理厂细菌气溶胶群落结构分析", 《环境 科学学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114937472A (zh) * | 2022-03-03 | 2022-08-23 | 上海市食品药品检验研究院 | 一种基于扩增子测序的微生物群落多样性分析方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114121160B (zh) | 一种检测样本中宏病毒组的方法和系统 | |
CN112908414A (zh) | 一种大规模单细胞分型方法、系统及存储介质 | |
CN107292123A (zh) | 一种基于高通量测序的微生物群落组成的方法和装置 | |
CN114420212B (zh) | 一种大肠杆菌菌株鉴定方法和系统 | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
CN113077845A (zh) | 一种大气气溶胶微生物群落组成的分析方法 | |
CN104573701B (zh) | 一种玉米雄穗性状的自动检测方法 | |
CN112182257A (zh) | 一种基于神经网络的人工智能数据清洗方法 | |
CN116664944A (zh) | 一种基于属性特征知识图谱的葡萄园害虫识别方法 | |
US20180039728A1 (en) | Operating method of apparatus for analyzing genome sequences using distributed processing | |
CN111916151B (zh) | 一种苜蓿黄萎病菌的溯源检测方法及应用 | |
CN111218518B (zh) | 微生物群落特定功能基因多样性分析引物对及分析方法 | |
CN109817280B (zh) | 一种测序数据组装方法 | |
US20170147744A1 (en) | System for analyzing sequencing data of bacterial strains and method thereof | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
CN110232951A (zh) | 判断测序数据饱和的方法、计算机可读介质和应用 | |
Yao et al. | A two-stage multi-fidelity design optimization for K-mer-based pattern recognition (KPR) in image processing | |
Belot et al. | High Throughput Information Extraction of Printed Specimen Labels from Large-Scale Digitization of Entomological Collections using a Semi-Automated Pipeline | |
Al-Barhamtoshy et al. | DNA sequence error corrections based on TensorFlow | |
CN113656565B (zh) | 一种基于大数据预测核心微生物组的方法 | |
CN117746997B (zh) | 一种基于多模态先验信息的顺式调控模体识别方法 | |
CN101320404B (zh) | 一种生物病毒的计算机自动分类方法 | |
Kerandel et al. | Method for automatically processing outliers of a quantitative variable | |
JP7560199B1 (ja) | 配列のクラスタリング方法 | |
Gustafsson et al. | Clustering genomic signatures A new distance measure for variable length Markov chains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Chen Bin Inventor after: Dong Xiaofei Inventor before: Chen Bin Inventor before: Sheng Xiaofei |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210706 |