CN109686406A - 一种系统发生树图制作方法及系统 - Google Patents
一种系统发生树图制作方法及系统 Download PDFInfo
- Publication number
- CN109686406A CN109686406A CN201811340677.4A CN201811340677A CN109686406A CN 109686406 A CN109686406 A CN 109686406A CN 201811340677 A CN201811340677 A CN 201811340677A CN 109686406 A CN109686406 A CN 109686406A
- Authority
- CN
- China
- Prior art keywords
- phylogenetic tree
- sequence
- data
- file
- generates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 32
- 241000566145 Otus Species 0.000 claims abstract description 40
- 230000000813 microbial effect Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 25
- 244000005700 microbiome Species 0.000 claims abstract description 17
- 238000012268 genome sequencing Methods 0.000 claims abstract description 16
- 238000000429 assembly Methods 0.000 claims abstract description 14
- 230000000712 assembly Effects 0.000 claims abstract description 14
- 238000012163 sequencing technique Methods 0.000 claims description 27
- 235000008730 Ficus carica Nutrition 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 19
- 238000000034 method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 241000894007 species Species 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 108020004465 16S ribosomal RNA Proteins 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 230000002906 microbiologic effect Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 210000001035 gastrointestinal tract Anatomy 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 208000004926 Bacterial Vaginosis Diseases 0.000 description 2
- 208000037009 Vaginitis bacterial Diseases 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 101150009249 MAP2 gene Proteins 0.000 description 1
- 108700005443 Microbial Genes Proteins 0.000 description 1
- 101100075995 Schizosaccharomyces pombe (strain 972 / ATCC 24843) fma2 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 244000005702 human microbiome Species 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本公开提供了一种系统发生树图制作方法及系统。其中,一种系统发生树图制作方法,包括:聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;筛选OTUs表数据中的代表序列;将筛选的代表序列与参考序列数据进行比对,若相似性大于或等于预设阈值,则判断比对成功;否则,判断比对失败;将比对成功的代表序列和比对失败的序列分别存储至比对成功集合和比对失败集合内;从比对成功集合内筛选包含预设信息的比对成功序列,生成系统发育树文件;对系统发育树文件进行图形化处理,生成系统发生树图。
Description
技术领域
本公开涉及数据处理领域,尤其涉及一种系统发生树图制作方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
细菌16S rRNA基因(16S rDNA或16S rRNA gene)是编码原核生物核糖体小亚基的基因,长度约为1542bp,在细菌进化过程中的突变率相对较小,并且其分子大小适中,是细菌系统分类学研究中最常用和最有用的分子标志。16srDNA包含9个可变区(V1-V9)和与之连续相间分布的10个保守区,如果对V3-V4单(或双)可变区域进行扩增和二代测序(Next-generation"sequencing technology,NGS),可以通过测序数据预测标本中微生物群落的种属信息和种属的相对构成比,并进一步研究标本中微生物群落的种属多样性,微生物与环境因子的相互关系,以及微生物功能基因组与宿主和环境因子之间的相互依存关系。这些均是目前微生物学、环境科学和医学研究中的重要课题。为了实现上述研究目的,需要借助计算生物学和生物信息学的方法处理微生物基因扩增子二代测序数据,并通过大量的生物信息学软件和方法进行统计分析和统计结果的图形化展示。
通过系统树形图(dendrogram/phylogenetic tree)展示微生物种群之间在进化或种系发生上的相互关系情况,dendrogram/phylogenetic tree图分三种类型:进化分支图(cladogram),仅有拓扑结构,不能从数量上说明各分支间进化距离的大小;系统发生图(phylogram),各分枝长度表示碱基替换数,因而能从数量上说明各分支间进化距离的大小;时序图(chronogram),各分枝长度表示进化时间,其中系统发生图(phylogram)无疑是微生物分子遗传学研究最常用到的图形化方法。
发明人发现,现有的系统发生树图的绘制过程复杂,生成系统发生树图耗费时间较多。
发明内容
根据本公开的一个或多个实施例的一个方面,提供了一种系统发生树图制作方法,其绘制过程简单,能够便捷快速准确地生成系统发生树图。
本公开的一个或多个实施例,提供的一种系统发生树图制作方法,包括:
聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
筛选OTUs表数据中的代表序列;
将筛选的代表序列与参考序列数据进行比对,若相似性大于或等于预设阈值,则判断比对成功;否则,判断比对失败;
将比对成功的代表序列和比对失败的序列分别存储至比对成功集合和比对失败集合内;
从比对成功集合内筛选包含预设信息的比对成功序列,生成系统发育树文件;
对系统发育树文件进行图形化处理,生成系统发生树图。
在一个或多个实施例中,聚类微生物基因组二代测序数据之前,还包括:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
对完整的序列赋予唯一编号和样品归属信息。
在一个或多个实施例中,筛选OTUs表数据中的代表序列之前,还包括:
过滤掉丰度小于预设阈值的OUT;
将OTUs表数据转换为纯文本。
在一个或多个实施例中,利用FigTree软件对系统发育树文件进行图形化处理,生成系统发生树图。
在一个或多个实施例中,R语言的ggtree包对系统发育树文件进行图形化处理,生成系统发生树图。
本公开还提供了一种系统发生树图制作系统。
本公开的一种系统发生树图制作系统,包括微生物二代测序数据采集装置、处理器和显示装置,所述处理器,包括:
聚类模块,其被配置为聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
代表序列筛选模块,其被配置为筛选OTUs表数据中的代表序列;
代表序列比对模块,其被配置为将筛选的代表序列与参考序列数据进行比对,若相似性大于或等于预设阈值,则判断比对成功;否则,判断比对失败;
比对结果存储模块,其被配置为将比对成功的代表序列和比对失败的序列分别存储至比对成功集合和比对失败集合内;
系统发育树文件生成模块,其被配置为从比对成功集合内筛选包含预设信息的比对成功序列,生成系统发育树文件;
系统发育树文件绘制模块,其被配置为对系统发育树文件进行图形化处理,生成系统发生树图。
在一个或多个实施例中,所述处理器,还包括:
预处理模块,其被配置为:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
对完整的序列赋予唯一编号和样品归属信息。
在一个或多个实施例中,所述处理器,还包括:
过滤模块,其被配置为:过滤掉丰度小于预设阈值的OUT;
转换模块,其被配置为:将OTUs表数据转换为纯文本。
在一个或多个实施例中,在所述系统发育树文件绘制模块中,利用FigTree软件对系统发育树文件进行图形化处理,生成系统发生树图。
在一个或多个实施例中,在所述系统发育树文件绘制模块中,R语言的ggtree包对系统发育树文件进行图形化处理,生成系统发生树图。
本公开的有益效果是:
(1)本公开的一种系统发生树图制作方法,绘制过程简易可行,能够便捷快速准确地生成系统发生树图。
(2)本公开的一种系统发生树图制作方法适应性强,除了用于微生物基因组二代测序数据,还可用于一代、三代甚至刚出现的四代测序技术所产出的数据,也可以用于其它物种分子遗传和进化分析。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开的一种系统发生树图制作方法流程图。
图2为ggtree包绘制基于数据来源2的斜形树图。
图3为ggtree包绘制基于数据来源2的矩形树图。
图4为ggtree包绘制基于数据来源2的环状树图。
图5为ggtree包绘制基于数据来源2的无根树图。
图6(a)为ggtree包绘制基于数据来源2的物种分类信息注释的系统发生矩形树图。
图6(b)为ggtree包绘制基于数据来源2的物种分类信息注释的系统发生斜线树图。
图7为基于数据来源2的系统发生和OTU在不同标本中的丰度分布情况图。
图8(a)为基于数据来源2的系统发生树和OTU在不同标本组(取样部位)中的丰度分布情况图。
图8(b)为基于数据来源2的系统发生树和OTU在全部标本中的丰度分布情况图。
图9为本公开的一种系统发生树图制作系统结构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:
二代测序:以能一次并行对几十万到几百万条DNA分子进行序列测定。
barcode序列:基因条形码,是指生物体内能够代表该物种的、标准的、有足够变异的、易扩增且相对较短的DNA片段。
FigTree软件:是一款用于进化生物学的进化树作图软件,主要用于制作生物进化系统树,并且支持多种形式进化树,支持有颜色设置、名称更改等功能,帮助进化生物学科研人员制作轻松完成进化树的制作,以用户相关学术文献的撰写。
R语言作为开源的,面向对象的交互式语言,除了能进行常规的数据处理和统计学分析,近年来有众多作者针对分子生物学实验数据处理的要求开发了大量的数据处理工具,并将这些工具连同部分实验数据以包的形式放置到R语言环境当中,使用者通过相应代码(命令)调用这些包完成相应的分析任务。
本公开实施例的数据来源为:
数据来源1:
分析数据来自文献:Caporaso JG,Lauber CL,Costello EK,et al.Movingpictures of the human microbiome.Genome Biol.2011,12(5)(doi:10.1186/gb-2011-12-5-r50)所用的原始测序数据,该研究旨在探讨人体微生物在不同部位并随时间推移的变化。只选取了其中的部分数据,即每天分别从其中两人的舌部、左手手掌、右手手掌和肠道共取得34个标本,在Illumina HiSeq 2000平台上进行微生物16s rDNA扩增子测序。
数据来源2:
本研究从研究队列随机抽取17份细菌性阴道病(B1-B17,均合并霉菌感染)、21份单纯霉菌感染(F1-F21)和30份正常育龄妇女(N1-N30)组成微生物二代测序样本,与之对应的68份标本经过前期处理后提取基因组DNA,由苏州GENEWIZ公司通过Illumina平台测序获得原始测序数据。测序得到的原始二进制basecalling数据经Illumina bcl2fastq软件转化为序列数据,即PF data,或称Raw data,结果以fastq文件格式存储(文件名:*.fastq.gz)。
图1为本公开的一种系统发生树图制作方法流程图。
如图1所示,本公开实施例提供的一种系统发生树图制作方法,包括:
S110:聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
OTUs表格的文件格式为otu_table.biom,OTUs表格中还记录有每个操作分类单元(operational taxonomic units,OTUs)在每个样品(微生物群落标本)中被观察到的次数。
(1)对于数据来源1的数据的预处理:
该数据包含2个部分:已经合并为一个.fna格式的测序数据文件(包含barcode序列)、包含研究设计分组等信息的metadata文件。
(2)对于数据来源2的数据的预处理
该数据由68个标本分别测序所得的fastq格式的序列文件,以及metadata文件(map.txt)、测序质量报告文件共70个文件。
在具体实施中,聚类微生物基因组二代测序数据之前,对于数据来源2的数据的预处理,还包括:
a.从原始微生物基因组二代测序数据中提取barcode序列;
提取barcode序列是指将barcode序列从原始reads信息中提取出来,并生成barcodes.fastq文件,并与合并后的fastq文件output.fastq以及元数据(metadata)文件map2.txt一起作为接下来的割库操作的输入文件。
割库是指跟据barcode文件将每一条序列归类到不同的样品(标本)中去,生成的文件是一个归类完毕的fasta格式(*.fna)序列文件。
其中所有序列都有重新编码的唯一编号和样品归属信息。如前所述,这个操作需要以前操作生成的条码序列文件barcodes.fastq、合并后的序列文件output.fastq,metadata文件map2.txt。
在文件拼接之前,还可进行reads拼接。
此项操作的目的在于将双向测序的reads通过overlap区域进行识别并组装成一条完整的序列,生成拼接完毕的fastq文件,用于后续分析。
此步骤不是必须的,为方便起见,本公开采用未经序列拼接的单向测序数据。
b.利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
c.对完整的序列赋予唯一编号和样品归属信息。
S120:筛选OTUs表数据中的代表序列;
具体地,筛选OTUs表数据中的代表序列之前,还包括:
过滤掉丰度小于预设阈值的OUT;
将OTUs表数据转换为纯文本。
例如:过滤OTUs表数据文件中的OTU,只保留丰度值>0.001的OTU所代表的微生物种属。
表1未合并的数据来源1的OTUs表数据
表2未合并的数据来源2的OTUs表数据
表3已合并的数据来源1的OTUs表数据
表4已合并的数据来源2的OTUs表数据
其中:
表1是已经转换为文本格式的数据来源1的OTUs表数据,各个分组的标本未合并;
表2是已经转换为文本格式的数据来源2的OTUs表数据,各个分组的标本未合并;
表3是已经转换为文本格式的数据来源1的OTUs表数据,各个分组的标本已合并为肠道(gut)、左手掌(Left palm)、右手掌(right palm)、舌部(tongue)共4个分组,分别代表不同的微生物群落的来源;
表4是已经转换为文本格式的数据来源2的OTUs表数据,各个分组的标本已合并为细菌性阴道病患者(B)、霉菌性阴道炎患者(F)、正常对照(N)共3个分组,分别表示不同的微生物标本所来自的人群。
S130:将筛选的代表序列与参考序列数据进行比对,若相似性大于或等于预设阈值,则判断比对成功;否则,判断比对失败。
具体地,可采用QIIME系统的align_seqs.py脚本通过PyNAST算法将输入序列与提供的参考序列数据比对,在数据库中找到最高匹配的序列,命令代码:
align_seqs.py-i sample_rep_set3.fna-t core_set_aligned.fasta-opynast_aligned_defaults/
参数说明:-i,输入的代表性序列文件(fasta格式)
-o,比对后结果输出文件夹(文件夹中生成2个fasta格式的序列文件sample_rep_set3_aligned和sample_rep_set3_failed,分别为比对成功和比对失败的序列,另外还有一个txt格式的运行日志文件)。
-t,指定参比的已对齐序列文件,指定参比的已对齐序列文件,一般该数据库为Greengenes core set,并从http://greengenes.lbl.gov/数据库获得。
其中,QIIME全称Quantitative Insights Into Microbial Ecology,主要由美国科罗拉多大学Rob Knight实验室的开发的,编程语言主要为Python。
S140:将比对成功的代表序列和比对失败的序列分别存储至比对成功集合和比对失败集合内。
由于可采用QIIME系统的align_seqs.py脚本通过将长度200-400bp的目的序列和16S rRNA基因的全序列比对,因此,生成的代表性序列包含空缺(gaps)。为了保留代表性序列中的有用信息以构建系统发育树,需要通过filter_alignment.py脚本对上述代表性序列进行筛选,去除碱基空缺等无用信息。
S150:从比对成功集合内筛选包含预设信息的比对成功序列,生成系统发育树文件;
例如:采用QIIME系统生成的系统发育树文件为Newick格式。
S160:对系统发育树文件进行图形化处理,生成系统发生树图。
在一个或多个实施例中,在步骤S160中,利用FigTree软件对系统发育树文件进行图形化处理,生成系统发生树图。
在一个或多个实施例中,在步骤S160中,R语言的ggtree包对系统发育树文件进行图形化处理,生成系统发生树图。
为了使树文件中包含更少的树枝以增加图形的可分辨性,筛选OTUs的丰度阈值定为0.5%。
读取Newick格式的树文件,调用R语言的ggtree包绘图。定义树形图的颜色(例如:砖红色)、线条的形状(点线)和树形图布局(斜线图),显示物种间进化距离及比例尺,标注内部节点和树枝末端,显示OTUs编号。
基于数据来源2的斜形树图、基于数据来源2的矩形树图、基于数据来源2的环状树图和基于数据来源2的无根树图分别如图2-图5所示。
图6(a)为ggtree包绘制基于数据来源2的物种分类信息注释的系统发生矩形树图。图6(b)为ggtree包绘制基于数据来源2的物种分类信息注释的系统发生斜线树图。如图6(a)和图6(b),可以比较方便的查看微生物种类间进化亲缘关系的远近。
经过0.5%丰度过滤后的OTU发育树文件,表5所示,其中第一列taxa即为≥0.5%丰度的OTU编号,其它列为不同标本,表中的数字为每个OTU在不同标本中的丰度(数量)。
表5数据来源2转换为文本格式的经过丰度过滤后的OTUs数据表
taxa | L1S140 | L1S208 | L1S8 | L1S281 | L3S242 | L4S112 | LS309 | L2S357 | L2S155 | L2S382 | L4S63 |
505587 | 11 | 0 | 0 | 0 | 0 | 107 | 47 | 49 | 78 | 45 | 419 |
1060621 | 0 | 1 | 1 | 0 | 0 | 112 | 13 | 55 | 22 | 76 | 42 |
1042479 | 0 | 0 | 2 | 0 | 1 | 3 | 1 | 0 | 1 | 11 | 6 |
1066621 | 0 | 0 | 0 | 0 | 0 | 1 | 2 | 1 | 0 | 3 | 2 |
364926 | 345 | 504 | 0 | 414 | 0 | 1 | 2 | 1 | 0 | 1 | 0 |
1047041 | 0 | 0 | 0 | 0 | 0 | 232 | 21 | 68 | 164 | 15 | 172 |
579608 | 0 | 7 | 23 | 3 | 2 | 200 | 5 | 46 | 23 | 15 | 20 |
968675 | 1 | 5 | 3 | 1 | 2 | 109 | 21 | 25 | 21 | 55 | 65 |
1078207 | 0 | 2 | 1 | 0 | 2 | 955 | 144 | 253 | 206 | 323 | 320 |
813617 | 0 | 0 | 0 | 0 | 0 | 355 | 16 | 197 | 8 | 3 | 41 |
1086274 | 1 | 0 | 2 | 0 | 1 | 51 | 12 | 12 | 16 | 27 | 50 |
517548 | 1 | 0 | 0 | 0 | 0 | 196 | 15 | 65 | 12 | 48 | 41 |
1097208 | 0 | 4 | 0 | 1 | 0 | 1346 | 284 | 331 | 85 | 119 | 1206 |
708680 | 52 | 217 | 62 | 105 | 7 | 0 | 1 | 1 | 0 | 0 | 1 |
970138 | 0 | 0 | 0 | 0 | 0 | 25 | 8 | 8 | 8 | 18 | 17 |
851865 | 642 | 346 | 111 | 261 | 13 | 41 | 9 | 6 | 0 | 0 | 2 |
633252 | 0 | 0 | 0 | 0 | 0 | 256 | 5 | 101 | 1 | 1 | 58 |
通过ggtree包进行系统发生与微生物丰度联合作图,基于数据来源2的系统发生和OTU在不同标本中的丰度分布情况图,如图7所示,可以比较方便的查看不同OTU间进化亲缘关系的远近以及OTU数量在标本中的分布情况。
如果按研究设计的标本分组情况将取样标本进行合并,例如本公开实施例中所使用的数据来源1的数据,可以按不同的取样部位将标本合并为肠道(gut)、手掌(palm)和舌部(tongue)来源共3个组,或者将所有标本合并,数据结构如表6和表7。
表6数据来源2中按取样部位合并后的OTUs数据表
taxa | gut | palm | tongue |
505587 | 13 | 962 | 1 |
1060621 | 2 | 1075 | 2888 |
1042479 | 2 | 260 | 2129 |
1066621 | 1 | 64 | 894 |
364926 | 1587 | 69 | 9 |
1047041 | 1 | 1996 | 1 |
579608 | 37 | 708 | 499 |
968675 | 11 | 1596 | 4686 |
1078207 | 5 | 4537 | 1609 |
813617 | 1 | 1908 | 5 |
1086274 | 3 | 934 | 975 |
表7数据来源2中按全部标本合并后的OTUs数据表
taxa | OTUs |
505587 | 976 |
1060621 | 3965 |
1042479 | 2391 |
1066621 | 959 |
364926 | 1665 |
1047041 | 1998 |
579608 | 1244 |
968675 | 6293 |
1078207 | 6151 |
813617 | 1914 |
1086274 | 1912 |
得到的基于数据来源2的系统发生树和OTU在不同标本组(取样部位)中的丰度分布情况图,如图8(a)所示;基于数据来源2的系统发生树和OTU在全部标本中的丰度分布情况图,如图8(b)所示。
图9为本公开的一种系统发生树图制作系统结构示意图。
如图9所示,本公开的一种系统发生树图制作系统,包括微生物二代测序数据采集装置、处理器和显示装置。
具体地,微生物二代测序数据采集装置用于采集微生物二代测序数据,其可采用现有的采集装置来实现。
具体地,显示装置可为LED显示屏、LCD显示屏、触摸屏或具有显示功能的终端。
具体地,处理器,包括:
(1)聚类模块,其被配置为聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
(2)代表序列筛选模块,其被配置为筛选OTUs表数据中的代表序列;
(3)代表序列比对模块,其被配置为将筛选的代表序列与参考序列数据进行比对,若相似性大于或等于预设阈值,则判断比对成功;否则,判断比对失败;
(4)比对结果存储模块,其被配置为将比对成功的代表序列和比对失败的序列分别存储至比对成功集合和比对失败集合内;
(5)系统发育树文件生成模块,其被配置为从比对成功集合内筛选包含预设信息的比对成功序列,生成系统发育树文件;
(6)系统发育树文件绘制模块,其被配置为对系统发育树文件进行图形化处理,生成系统发生树图。
在一个或多个实施例中,所述处理器,还包括:
预处理模块,其被配置为:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
对完整的序列赋予唯一编号和样品归属信息。
在一个或多个实施例中,所述处理器,还包括:
过滤模块,其被配置为:过滤掉丰度小于预设阈值的OUT;
转换模块,其被配置为:将OTUs表数据转换为纯文本。
在一个或多个实施例中,在所述系统发育树文件绘制模块中,利用FigTree软件对系统发育树文件进行图形化处理,生成系统发生树图。
在一个或多个实施例中,在所述系统发育树文件绘制模块中,R语言的ggtree包对系统发育树文件进行图形化处理,生成系统发生树图。
本公开的一种系统发生树图制作方法,绘制过程简易可行,能够便捷快速准确地生成系统发生树图。
本公开的一种系统发生树图制作方法适应性强,除了用于微生物基因组二代测序数据,还可用于一代、三代甚至刚出现的四代测序技术所产出的数据,也可以用于其它物种分子遗传和进化分析。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种系统发生树图制作方法,其特征在于,包括:
聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
筛选OTUs表数据中的代表序列;
将筛选的代表序列与参考序列数据进行比对,若相似性大于或等于预设阈值,则判断比对成功;否则,判断比对失败;
将比对成功的代表序列和比对失败的序列分别存储至比对成功集合和比对失败集合内;
从比对成功集合内筛选包含预设信息的比对成功序列,生成系统发育树文件;
对系统发育树文件进行图形化处理,生成系统发生树图。
2.如权利要求1所述的一种系统发生树图制作方法,其特征在于,聚类微生物基因组二代测序数据之前,还包括:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
对完整的序列赋予唯一编号和样品归属信息。
3.如权利要求1所述的一种系统发生树图制作方法,其特征在于,筛选OTUs表数据中的代表序列之前,还包括:
过滤掉丰度小于预设阈值的OUT;
将OTUs表数据转换为纯文本。
4.如权利要求1所述的一种系统发生树图制作方法,其特征在于,利用FigTree软件对系统发育树文件进行图形化处理,生成系统发生树图。
5.如权利要求1所述的一种系统发生树图制作方法,其特征在于,R语言的ggtree包对系统发育树文件进行图形化处理,生成系统发生树图。
6.一种系统发生树图制作系统,包括微生物二代测序数据采集装置、处理器和显示装置,其特征在于,所述处理器,包括:
聚类模块,其被配置为聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
代表序列筛选模块,其被配置为筛选OTUs表数据中的代表序列;
代表序列比对模块,其被配置为将筛选的代表序列与参考序列数据进行比对,若相似性大于或等于预设阈值,则判断比对成功;否则,判断比对失败;
比对结果存储模块,其被配置为将比对成功的代表序列和比对失败的序列分别存储至比对成功集合和比对失败集合内;
系统发育树文件生成模块,其被配置为从比对成功集合内筛选包含预设信息的比对成功序列,生成系统发育树文件;
系统发育树文件绘制模块,其被配置为对系统发育树文件进行图形化处理,生成系统发生树图。
7.如权利要求6所述的一种系统发生树图制作系统,其特征在于,所述处理器,还包括:
预处理模块,其被配置为:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
对完整的序列赋予唯一编号和样品归属信息。
8.如权利要求1所述的一种系统发生树图制作系统,其特征在于,所述处理器,还包括:
过滤模块,其被配置为:过滤掉丰度小于预设阈值的OUT;
转换模块,其被配置为:将OTUs表数据转换为纯文本。
9.如权利要求6所述的一种系统发生树图制作系统,其特征在于,在所述系统发育树文件绘制模块中,利用FigTree软件对系统发育树文件进行图形化处理,生成系统发生树图。
10.如权利要求6所述的一种系统发生树图制作系统,其特征在于,在所述系统发育树文件绘制模块中,R语言的ggtree包对系统发育树文件进行图形化处理,生成系统发生树图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811340677.4A CN109686406A (zh) | 2018-11-12 | 2018-11-12 | 一种系统发生树图制作方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811340677.4A CN109686406A (zh) | 2018-11-12 | 2018-11-12 | 一种系统发生树图制作方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109686406A true CN109686406A (zh) | 2019-04-26 |
Family
ID=66185321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811340677.4A Pending CN109686406A (zh) | 2018-11-12 | 2018-11-12 | 一种系统发生树图制作方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109686406A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112071367A (zh) * | 2020-09-02 | 2020-12-11 | 吉林大学 | 一种流形进化图构建方法、装置、设备及可存储介质 |
WO2021121295A1 (zh) * | 2019-12-17 | 2021-06-24 | 深圳市鹰硕技术有限公司 | 基于进化树的模拟生物教学方法以及装置 |
CN116741274A (zh) * | 2023-02-07 | 2023-09-12 | 杭州联川基因诊断技术有限公司 | 一种确定靶向测序数据中代表性序列的方法、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815492A (zh) * | 2016-12-20 | 2017-06-09 | 上海派森诺生物科技股份有限公司 | 一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法 |
US20180363031A1 (en) * | 2015-12-04 | 2018-12-20 | Biome Makers Inc. | Microbiome based identification, monitoring and enhancement of fermentation processes and products |
-
2018
- 2018-11-12 CN CN201811340677.4A patent/CN109686406A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180363031A1 (en) * | 2015-12-04 | 2018-12-20 | Biome Makers Inc. | Microbiome based identification, monitoring and enhancement of fermentation processes and products |
CN106815492A (zh) * | 2016-12-20 | 2017-06-09 | 上海派森诺生物科技股份有限公司 | 一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法 |
Non-Patent Citations (3)
Title |
---|
企鹅号: "16s分析之Qiime聚类OTU", 《腾讯云》 * |
游策: "Process NGS data in QIIME", 《百度文库》 * |
组学生物: "做微生物研究必懂的OUT table相关知识", 《新浪博客》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021121295A1 (zh) * | 2019-12-17 | 2021-06-24 | 深圳市鹰硕技术有限公司 | 基于进化树的模拟生物教学方法以及装置 |
CN112071367A (zh) * | 2020-09-02 | 2020-12-11 | 吉林大学 | 一种流形进化图构建方法、装置、设备及可存储介质 |
CN112071367B (zh) * | 2020-09-02 | 2023-04-07 | 吉林大学 | 一种流形进化图构建方法、装置、设备及可存储介质 |
CN116741274A (zh) * | 2023-02-07 | 2023-09-12 | 杭州联川基因诊断技术有限公司 | 一种确定靶向测序数据中代表性序列的方法、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nissen et al. | Improved metagenome binning and assembly using deep variational autoencoders | |
Props et al. | Measuring the biodiversity of microbial communities by flow cytometry | |
Jovel et al. | Characterization of the gut microbiome using 16S or shotgun metagenomics | |
Washburne et al. | Phylogenetic factorization of compositional data yields lineage-level associations in microbiome datasets | |
Touw et al. | Data mining in the Life Sciences with Random Forest: a walk in the park or lost in the jungle? | |
Burke et al. | A method for high precision sequencing of near full-length 16S rRNA genes on an Illumina MiSeq | |
VanInsberghe et al. | Non-symbiotic Bradyrhizobium ecotypes dominate North American forest soils | |
Arndt et al. | METAGENassist: a comprehensive web server for comparative metagenomics | |
Giongo et al. | PANGEA: pipeline for analysis of next generation amplicons | |
Brady et al. | Phymm and PhymmBL: metagenomic phylogenetic classification with interpolated Markov models | |
Chappidi et al. | Using Mothur to determine bacterial community composition and structure in 16S ribosomal RNA datasets | |
Tikhonov et al. | Interpreting 16S metagenomic data without clustering to achieve sub-OTU resolution | |
Birkebak et al. | A systematic, morphological and ecological overview of the Clavariaceae (Agaricales) | |
Brealey et al. | Dental calculus as a tool to study the evolution of the mammalian oral microbiome | |
Bhargava et al. | DNA barcoding in plants: evolution and applications of in silico approaches and resources | |
Haro-Moreno et al. | Enhanced recovery of microbial genes and genomes from a marine water column using long-read metagenomics | |
CN107292123A (zh) | 一种基于高通量测序的微生物群落组成的方法和装置 | |
CN109686406A (zh) | 一种系统发生树图制作方法及系统 | |
Hu et al. | A rarefaction-without-resampling extension of PERMANOVA for testing presence–absence associations in the microbiome | |
Hickl et al. | Binny: an automated binning algorithm to recover high-quality genomes from complex metagenomic datasets | |
Christensen et al. | 16S rRNA amplicon sequencing for metagenomics | |
Tripp et al. | Sleepless nights: When you can't find anything to use but molecules to describe new taxa | |
CN115472298A (zh) | 基于ai的高通量测序数据智能分析系统及方法 | |
Marini et al. | The K-mer antibiotic resistance gene variant analyzer (KARGVA) | |
Yang et al. | Evolink: a phylogenetic approach for rapid identification of genotype–phenotype associations in large-scale microbial multispecies data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |