CN109727644B - 基于微生物基因组二代测序数据的Venn图制作方法及系统 - Google Patents
基于微生物基因组二代测序数据的Venn图制作方法及系统 Download PDFInfo
- Publication number
- CN109727644B CN109727644B CN201811339248.5A CN201811339248A CN109727644B CN 109727644 B CN109727644 B CN 109727644B CN 201811339248 A CN201811339248 A CN 201811339248A CN 109727644 B CN109727644 B CN 109727644B
- Authority
- CN
- China
- Prior art keywords
- data
- otus
- otu
- generation sequencing
- microbial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本公开提供了一种基于微生物基因组二代测序数据的Venn图制作方法及系统。其中,一种基于微生物基因组二代测序数据的Venn图制作方法,包括:聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;合并OTUs表数据中具有相同来源的标本;将合并后的OTUs表数据导入Excel表中,通过Excel函数生成可被R语言VennDiagram包所识别的向量;通过R语言VennDiagram包绘制Venn图。
Description
技术领域
本公开涉及数据处理领域,尤其涉及一种基于微生物基因组二代测序数据的Venn图制作方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
Venn图是在所谓的集合论(或者类的理论)数学分支中,在不太严格的意义下用以表示集合(或类)的一种草图。它们用于展示在不同的事物群组(集合)之间的数学或逻辑联系,尤其适合用来表示集合(或)类之间的“大致关系”,它也常常被用来帮助推导(或理解推导过程)关于集合运算(或类运算)的一些规律。
细菌16S rRNA基因(16S rDNA或16S rRNA gene)是编码原核生物核糖体小亚基的基因,长度约为1542bp,在细菌进化过程中的突变率相对较小,并且其分子大小适中,是细菌系统分类学研究中最常用和最有用的分子标志。16s rDNA包含9个可变区(V1-V9)和与之连续相间分布的10个保守区,如果对V3-V4单(或双)可变区域进行扩增和二代测序(Next-generation"sequencing technology,NGS),可以通过测序数据预测标本中微生物群落的种属信息和种属的相对构成比,并进一步研究标本中微生物群落的种属多样性,微生物与环境因子的相互关系,以及微生物功能基因组与宿主和环境因子之间的相互依存关系。
微生物16S rRNA基因扩增子二代测序数据分析的任务之一就是通过Venn图展示微生物种群数量在不同组别的分布情况,即通过数学上集合论的方法分析哪些种群或种群数量是不同分组的微生物标本所共有的,哪些种群或种群数量是某个组别所特有的。
发明人发现,现有的绘制Venn图的过程复杂,而且微生物基因组二代测序数据无法与R语言兼容,生成Venn图耗费时间较多。
发明内容
根据本公开的一个或多个实施例的一个方面,提供了一种基于微生物基因组二代测序数据的Venn图制作方法,其绘制过程简单且微生物基因组二代测序数据能够与R语言兼容,能够便捷地生成Venn图。
本公开的一个或多个实施例,提供的一种基于微生物基因组二代测序数据的Venn图制作方法,包括:
聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
合并OTUs表数据中具有相同来源的标本;
将合并后的OTUs表数据导入Excel表中,通过Excel函数生成可被R语言VennDiagram包所识别的向量;
通过R语言VennDiagram包绘制Venn图。
在一个或多个实施例中,聚类微生物基因组二代测序数据之前,还包括:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
对完整的序列赋予唯一编号和样品归属信息。
在一个或多个实施例中,合并OTUs表数据中具有相同来源的标本之前,还包括:
过滤掉丰度小于预设阈值的OUT。
在一个或多个实施例中,通过R语言命令代码将OTUs表数据中具有相同来源的标本进行合并。
在一个或多个实施例中,通过R语言命令代码将OTUs表数据中具有相同来源的标本进行合并的过程,包括:
用R语言代码将纯文本格式的OTUs表数据中代表不同标本的列数据合并为不同分组数据;
若分组后的OTUs表中的行数小于或等于预设值时,将OTUs表每个分组数据转换为相应的向量;否则,通过Excel表计算每个分组及相互之间交集的大小。
在一个或多个实施例中,若OTUs表中的任一OTU检出数目≤预设数值时,为判断该OTU未检出,用数字“0”表示;否则,该OTU检出,用数字“1”表示。
本公开还提供了一种基于微生物基因组二代测序数据的Venn图制作系统,其绘制过程简单且微生物基因组二代测序数据能够与R语言兼容,能够便捷地生成Venn图。
本公开的一种基于微生物基因组二代测序数据的Venn图制作系统,包括微生物二代测序数据采集装置、处理器和显示装置,所述处理器,包括:
聚类模块,其被配置为聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
合并模块,其被配置为合并OTUs表数据中具有相同来源的标本;
向量生成模块,其被配置为将合并后的OTUs表数据导入Excel表中,通过Excel函数生成可被R语言VennDiagram包所识别的向量;
Venn图绘制模块,其被配置为通过R语言VennDiagram包绘制Venn图。
在一个或多个实施例中,所述处理器,还包括:
预处理模块,其被配置为:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
对完整的序列赋予唯一编号和样品归属信息。
在一个或多个实施例中,所述处理器,还包括:
过滤模块,其被配置为:过滤掉丰度小于预设阈值的OUT。
在一个或多个实施例中,在合并模块中,通过R语言命令代码将OTUs表数据中具有相同来源的标本进行合并,其过程,包括:
用R语言代码将纯文本格式的OTUs表数据中代表不同标本的列数据合并为不同分组数据;
若分组后的OTUs表中的行数小于或等于预设值时,将OTUs表每个分组数据转换为相应的向量;否则,通过Excel表计算每个分组及相互之间交集的大小。
在一个或多个实施例中,若OTUs表中的任一OTU检出数目≤预设数值时,为判断该OTU未检出,用数字“0”表示;否则,该OTU检出,用数字“1”表示。
本公开的有益效果是:
(1)本公开将合并后的OTUs表数据导入Excel表中,通过Excel函数生成可被R语言VennDiagram包所识别的向量,通过Excel函数对OTUs表格数据进行预计算后作为VennDiagram程序包的输入数据,并开发基于R语言的绘制Venn图的操作代码,绘制过程简单且微生物基因组二代测序数据与R语言兼容,便捷地生成Venn图。
(2)本公开所涉及的绘制Venn图的流程适应性强,除了用于微生物基因组二代测序数据,还可用于一代、三代甚至刚出现的四代测序技术所产出的数据,也可以用于外显子测序和基因芯片技术所产生的表征基因表达强度的二维表数据。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开的一种基于微生物基因组二代测序数据的Venn图制作方法流程图。
图2为R语言VennDiagram包绘制数据来源2的Venn图,用OTUs数量表示的集合大小。
图3为R语言VennDiagram包绘制数据来源1的Venn图,用OTUs数量表示的集合大小。
图4为R语言VennDiagram包绘制数据来源1的Venn图,用OTUs种类数表示的集合大小。
图5为R语言VennDiagram包绘制数据来源2的Venn图,用OTUs种类数表示的集合大小。
图6为本公开的一种基于微生物基因组二代测序数据的Venn图制作系统结构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:
二代测序:以能一次并行对几十万到几百万条DNA分子进行序列测定。
barcode序列:基因条形码,是指生物体内能够代表该物种的、标准的、有足够变异的、易扩增且相对较短的DNA片段。
R语言作为开源的,面向对象的交互式语言,除了能进行常规的数据处理和统计学分析,近年来有众多作者针对分子生物学实验数据处理的要求开发了大量的数据处理工具,并将这些工具连同部分实验数据以包的形式放置到R语言环境当中,使用者通过相应代码(命令)调用这些包完成相应的分析任务。
制作Venn图的R语言包为“VennDiagram”,其基本算法为针对不同数据集进行集合运算,以图形的方式显示不同数据集(或称分组)间元素的交、并情况。
本公开实施例的数据来源为:
数据来源1:
分析数据来自文献:Caporaso JG,Lauber CL,Costello EK,et al.Movingpictures of the human microbiome.Genome Biol.2011,12(5)(doi:10.1186/gb-2011-12-5-r50)所用的原始测序数据,该研究旨在探讨人体微生物在不同部位并随时间推移的变化。只选取了其中的部分数据,即每天分别从其中两人的舌部、左手手掌、右手手掌和肠道共取得34个标本,在Illumina HiSeq 2000平台上进行微生物16s rDNA扩增子测序。
数据来源2:
本研究从研究队列随机抽取17份细菌性阴道病(B1-B17,均合并霉菌感染)、21份单纯霉菌感染(F1-F21)和30份正常育龄妇女(N1-N30)组成微生物二代测序样本,与之对应的68份标本经过前期处理后提取基因组DNA,由苏州GENEWIZ公司通过Illumina平台测序获得原始测序数据。测序得到的原始二进制basecalling数据经Illumina bcl2fastq软件转化为序列数据,即PF data,或称Raw data,结果以fastq文件格式存储(文件名:*.fastq.gz)。
图1为本公开的一种基于微生物基因组二代测序数据的Venn图制作方法流程图。
如图1所示,本公开实施例提供的一种基于微生物基因组二代测序数据的Venn图制作方法,包括:
S110:聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据。
OTUs表格的文件格式为otu_table.biom,OTUs表格中还记录有每个操作分类单元(operational taxonomic units,OTUs)在每个样品(微生物群落标本)中被观察到的次数。
在具体实施中,聚类微生物基因组二代测序数据之前,还包括:
a.从原始微生物基因组二代测序数据中提取barcode序列;
提取barcode序列是指将barcode序列从原始reads信息中提取出来,并生成barcodes.fastq文件,并与合并后的fastq文件output.fastq以及元数据(metadata)文件map2.txt一起作为接下来的割库操作的输入文件。
割库是指跟据barcode文件将每一条序列归类到不同的样品(标本)中去,生成的文件是一个归类完毕的fasta格式(*.fna)序列文件。
其中所有序列都有重新编码的唯一编号和样品归属信息。如前所述,这个操作需要以前操作生成的条码序列文件barcodes.fastq、合并后的序列文件output.fastq,metadata文件map2.txt。
在文件拼接之前,还可进行reads拼接。
此项操作的目的在于将双向测序的reads通过overlap区域进行识别并组装成一条完整的序列,生成拼接完毕的fastq文件,用于后续分析。
此步骤不是必须的,为方便起见,本公开采用未经序列拼接的单向测序数据。
b.利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
c.对完整的序列赋予唯一编号和样品归属信息。
S120:合并OTUs表数据中具有相同来源的标本。
具体地,合并OTUs表数据中具有相同来源的标本之前,还包括:
过滤掉丰度小于预设阈值的OUT。
例如:
过滤OTUs表数据文件中的OTU,只保留丰度值>0.001的OTU所代表的微生物种属。
过滤后,将OTUs表文件格式转换,目的是将上一步生成的biom格式的OTUs表文件转换为纯文本(csv、tsv或txt格式)文件,利于下一步数据处理。
S130:将合并后的OTUs表数据导入Excel表中;
通过Excel函数生成可被R语言VennDiagram包所识别的向量。
表1未合并的数据来源1的OTUs表数据
表2未合并的数据来源2的OTUs表数据
表3已合并的数据来源1的OTUs表数据
表4已合并的数据来源2的OTUs表数据
其中:
表1是已经转换为文本格式的数据来源1的OTUs表数据,各个分组的标本未合并;
表2是已经转换为文本格式的数据来源2的OTUs表数据,各个分组的标本未合并;
表3是已经转换为文本格式的数据来源1的OTUs表数据,各个分组的标本已合并为肠道(gut)、左手掌(Left palm)、右手掌(right palm)、舌部(tongue)共4个分组,分别代表不同的微生物群落的来源;
表4是已经转换为文本格式的数据来源2的OTUs表数据,各个分组的标本已合并为细菌性阴道病患者(B)、霉菌性阴道炎患者(F)、正常对照(N)共3个分组,分别表示不同的微生物标本所来自的人群。
通过R语言命令代码将表1和表2所示的OTUs表中具有相同来源(或分组)的标本进行合并,合并后的数据导入Excel表中通过Excel函数生成可被R语言VennDiagram包所识别的向量,包括以下步骤:
1)用R语言代码将纯文本格式的如表1和表2所示的OTUs表数据中代表不同标本的列数据合并为不同分组数据;
2)按分组合并后的数据表如表3和表4所示,若分组后的OTUs表中的行数小于或等于预设值(例如:10)时,将OTUs表每个分组数据转换为相应的向量。
否则,通过Excel表计算每个分组及相互之间交集的大小,此时表3和表4单元格中的数字为相应列所代表的分组中的相应行所代表的OTU(用该OTU的代表性微生物种属表示)的数目。
表4所示的数据的行数较少,利用Excel表相关函数将OTUs表每组数据转换为相应的表示OUT序数的向量作为VennDiagram包的输入数据。例如构建附图4中细菌性阴道病患者组OUT序数向量的Excel函数如下:
1&":"&B2
(max(B2,C2,D2)+1)&":"&(max(B2,C2,D2)+B3)
(max(B2,C2,D2)+max(B3,C3,D3)+1)&":"&(max(B2,C2,D2)+max(B3,C3,D3)+B4)
(max(B2,C2,D2)+max(B3,C3,D3)+max(B4,C4,D4)+1)&":"&(max(B2,C2,D2)+max(B3,C3,D3)+max(B4,C4,D4)+B5)
(max(B2,C2,D2)+max(B3,C3,D3)+max(B4,C4,D4)+max(B5,C5,D5)+1)&":"&(max(B2,C2,D2)+max(B3,C3,D3)+max(B4,C4,D4)+max(B5,C5,D5)+B6)
(max(B2,C2,D2)+max(B3,C3,D3)+max(B4,C4,D4)+max(B5,C5,D5)+max(B6,C6,D6)+1)&":"&(max(B2,C2,D2)+max(B3,C3,D3)+max(B4,C4,D4)+max(B5,C5,D5)+max(B6,C6,D6)+B7)
……
(max(B2,C2,D2)+…+max(Bn-1,Cn-1,Dn-1)+1)&":"&(max(B2,C2,D2)+…+max(Bn-1,Cn-1,Dn-1)+Bn)
相应计算结果如下:
分组B:
1:455842,677990:912061,1031374:1034804,1086498:1097861,1097862:1109111,1109112:1137325,1137326:1177693,1439472:1457559,1682267:1695267,1695268:1695268,1707005:1780951,1783040:1786118,1786119:1786145,1798339:1800586,1805514:1806765,1812759:1816494,1821629:1823909,1826306:1826314,1856500:1856583,1899037:1902093,1902094:1903896,1909251:1936499,1936500:1940295,1941909:1942537,1944583:1944605,1954249:1959417
分组F
1:674919,677990:1031373,1031374:1032242,1086498:1086502,1097862:1105149,1109112:1119105,1137326:1439471,1439472:1509425,1682267:1689410,1695268:1695271,1707005:1707230,1783040:1783316,1786119:1786148,1798339:1798625,1805514:1812758,1812759:1821628,1821629:1826305,1826306:1826313,1856500:1856617,1899037:1900175,1902094:1909250,1909251:1923329,1936500:1941908,1941909:1944264,1944583:1944843,1954249:1975704
分组N:
1:677989,677990:934522,1031374:1086497,1086498:1092010,1097862:1100955,1109112:1123652,1137326:1284168,1439472:1682266,1682267:1682884,1695268:1707004,1707005:1783039,1783040:1785249,1786119:1798338,1798339:1805513,1895514:1806983,1812759:1821194,1821629:1821635,1826306:1856499,1856500:1899036,1899037:1901333,1902094:1902940,1909251:1911503,1936500:1937018,1941909:1944582,1944583:1954248,1954249:1957989
上述结果中“:”左侧的数值表示OTU序数的下限;
“:”右侧数值表示OTU序数的上限;
计算其它分组OTU数量向量的Excel函数与此类似。
表3所示的数据来源1中的OTUs数据的行数较多,利用Excel表相关函数计算每个分组所代表的集合的大小,以及不同集合相互之间交集的大小作为VennDiagram包的输入数据:
首先计算gut、left palm、right palm、tongue 4个组所代表的4个集合的大小,即计算图3中上述4个列的行合计值;然后计算每2个集合的交集大小,即取每个行上这2个集合的最小值后求和,其次计算每3个集合的交集大小,即取每个行上这3个集合的最小值后求和;最后计算所有4个集合的交集大小,即取每个行上这4个集合的最小值后求和。
S140:通过R语言VennDiagram包绘制Venn图。
针对向量格式的数据,通过书写代码调用VennDiagram()函数绘制Venn图;用各分组各OTU的序数向量表示的数据,绘制的Venn图,如图2所示。
2)针对预先计算所得每个集合及相互之间交集的大小数据,通过书写代码调用draw.pairwise.venn()、draw.triple.venn()、draw.quad.venn()、draw.quintuple.venn()函数分别绘制2个、3个、4个和5个集合的Venn图。
用各分组各OTU集合大小及各分组交集大小表示的数据,利用数据来源1得到的Venn图,如图3所示。
用各分组OTU(或OTU所代表的微生物)检出类别数表示的数据:
对于数据来源1的数据,如表3所示,分组gut数据位于B2~B64,分组left palm数据位于C2~C64,分组right palm数据位于D2~D64,分组tongue数据位于E2~E64,规定OTU数≥20表示与之对应的种属被检出,用数值“1”表示,OTU数<20表示与之对应的种属未被检出(具体检出限值不是固定的),用数值“0”表示,绘制出的Venn图,如图4所示。
对于数据来源2的数据,如表4所示,细菌性阴道病(B)分组数据位于B2~B27,霉菌性阴道炎分组(F)数据位于C2~C27,正常分组(N)数据位于D2~D27,规定OTU数≥1000表示与之对应的种属被检出,用数值“1”表示,OTU数<1000表示与之对应的种属未被检出(具体检出限值不是固定的),用数值“0”表示,绘制出的Venn图,如图5所示。
图6为本公开的一种基于微生物基因组二代测序数据的Venn图制作系统结构示意图。
如图6所示,本公开的一种基于微生物基因组二代测序数据的Venn图制作系统,包括微生物二代测序数据采集装置、处理器和显示装置。
具体地,微生物二代测序数据采集装置用于采集微生物二代测序数据,其可采用现有的采集装置来实现。
具体地,显示装置可为LED显示屏、LCD显示屏、触摸屏或具有显示功能的终端。
具体地,处理器,包括:
(1)聚类模块,其被配置为聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
(2)合并模块,其被配置为合并OTUs表数据中具有相同来源的标本;
在合并模块中,通过R语言命令代码将OTUs表数据中具有相同来源的标本进行合并,其过程,包括:
用R语言代码将纯文本格式的OTUs表数据中代表不同标本的列数据合并为不同分组数据;
若分组后的OTUs表中的行数小于或等于预设值时,将OTUs表每个分组数据转换为相应的向量;否则,通过Excel表计算每个分组及相互之间交集的大小。
在一个或多个实施例中,若OTUs表中的任一OTU检出数目≤预设数值时,为判断该OTU未检出,用数字“0”表示;否则,该OTU检出,用数字“1”表示。
(3)向量生成模块,其被配置为将合并后的OTUs表数据导入Excel表中,通过Excel函数生成可被R语言VennDiagram包所识别的向量;
(4)Venn图绘制模块,其被配置为通过R语言VennDiagram包绘制Venn图。
在一个或多个实施例中,所述处理器,还包括:
预处理模块,其被配置为:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;
对完整的序列赋予唯一编号和样品归属信息。
在一个或多个实施例中,所述处理器,还包括:
过滤模块,其被配置为:过滤掉丰度小于预设阈值的OUT。
本公开将合并后的OTUs表数据导入Excel表中,通过Excel函数生成可被R语言VennDiagram包所识别的向量,通过Excel函数对OTUs表格数据进行预计算后作为VennDiagram程序包的输入数据,并开发基于R语言的绘制Venn图的操作代码,绘制过程简单且微生物基因组二代测序数据与R语言兼容,便捷地生成Venn图。
本公开所涉及的绘制Venn图的流程适应性强,除了用于微生物基因组二代测序数据,还可用于一代、三代甚至刚出现的四代测序技术所产出的数据,也可以用于外显子测序和基因芯片技术所产生的表征基因表达强度的二维表数据。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (2)
1.一种基于微生物基因组二代测序数据的Venn图制作方法,其特征在于,包括:
聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
合并OTUs表数据中具有相同来源的标本;通过R语言命令代码将OTUs表数据中具有相同来源的标本进行合并;通过R语言命令代码将OTUs表数据中具有相同来源的标本进行合并的过程,包括:用R语言代码将纯文本格式的OTUs表数据中代表不同标本的列数据合并为不同分组数据;若分组后的OTUs表中的行数小于或等于预设值时,将OTUs表每个分组数据转换为相应的向量;否则,通过Excel表计算每个分组及相互之间交集的大小;
将合并后的OTUs表数据导入Excel表中,通过Excel函数生成可被R语言VennDiagram包所识别的向量;
通过R语言VennDiagram包绘制Venn图;
聚类微生物基因组二代测序数据之前,还包括:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;对完整的序列赋予唯一编号和样品归属信息;
合并OTUs表数据中具有相同来源的标本之前,还包括:过滤掉丰度小于预设阈值的OUT;
若OTUs表中的任一OTU检出数目≤预设数值时,为判断OTU未检出,用数字“0”表示;否则,该OTU检出,用数字“1”表示。
2.一种基于微生物基因组二代测序数据的Venn图制作系统,包括微生物二代测序数据采集装置、处理器和显示装置,其特征在于,所述处理器,包括:
聚类模块,其被配置为聚类微生物基因组二代测序数据,相似性高于预设阈值的微生物基因组序列聚类为一个OTU,每个OTU对应一个微生物品种,生成OTUs表数据;
合并模块,其被配置为合并OTUs表数据中具有相同来源的标本;
向量生成模块,其被配置为将合并后的OTUs表数据导入Excel表中,通过
Excel函数生成可被R语言VennDiagram包所识别的向量;
Venn图绘制模块,其被配置为通过R语言VennDiagram包绘制Venn图;
所述处理器,还包括:
预处理模块,其被配置为:
从原始微生物基因组二代测序数据中提取barcode序列;
利用双向测序来识别所有barcode序列并组装成若干条完整的序列;对完整的序列赋予唯一编号和样品归属信息;
所述处理器,还包括:
过滤模块,其被配置为:过滤掉丰度小于预设阈值的OUT;
在合并模块中,通过R语言命令代码将OTUs表数据中具有相同来源的标本进行合并,其过程,包括:
用R语言代码将纯文本格式的OTUs表数据中代表不同标本的列数据合并为不同分组数据;
若分组后的OTUs表中的行数小于或等于预设值时,将OTUs表每个分组数据转换为相应的向量;否则,通过Excel表计算每个分组及相互之间交集的大小;
若OTUs表中的任一OTU检出数目≤预设数值时,为判断该OTU未检出,用数字“0”表示;否则,该OTU检出,用数字“1”表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811339248.5A CN109727644B (zh) | 2018-11-12 | 2018-11-12 | 基于微生物基因组二代测序数据的Venn图制作方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811339248.5A CN109727644B (zh) | 2018-11-12 | 2018-11-12 | 基于微生物基因组二代测序数据的Venn图制作方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109727644A CN109727644A (zh) | 2019-05-07 |
CN109727644B true CN109727644B (zh) | 2021-09-07 |
Family
ID=66295458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811339248.5A Active CN109727644B (zh) | 2018-11-12 | 2018-11-12 | 基于微生物基因组二代测序数据的Venn图制作方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109727644B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051321B (zh) * | 2019-12-26 | 2024-05-28 | 航天信息股份有限公司 | 一种数据导入方法、装置、设备及存储介质 |
CN111767256B (zh) * | 2020-05-22 | 2023-10-20 | 北京和瑞精湛医学检验实验室有限公司 | 一种从fastq文件分离出样本read数据的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022001A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种肿瘤突变位点筛选及互斥基因挖掘的系统 |
WO2018015572A1 (en) * | 2016-07-22 | 2018-01-25 | Microbion S.R.L. | Highly polymorphic and modular extragenic (h.p.m.e.) markers within specific taxa of microorganisms and use thereof for their differentiation, identification and quantification |
CN107868837A (zh) * | 2017-12-12 | 2018-04-03 | 苏州普瑞森基因科技有限公司 | 一种用于分析肠道微生物的引物组合物及其应用 |
CN107893116A (zh) * | 2017-12-12 | 2018-04-10 | 北京雅康博生物科技有限公司 | 用于检测基因突变的引物对组合、试剂盒以及构建文库的方法 |
KR20180042819A (ko) * | 2016-10-18 | 2018-04-26 | 재단법인 아산사회복지재단 | Hsp90 억제제 내성 세포주 및 이를 이용한 항암제 스크리닝 방법 |
CN108073791A (zh) * | 2017-12-12 | 2018-05-25 | 元码基因科技(北京)股份有限公司 | 基于二代测序数据检测目标基因结构变异的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815492B (zh) * | 2016-12-20 | 2019-02-12 | 上海派森诺生物科技股份有限公司 | 一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法 |
-
2018
- 2018-11-12 CN CN201811339248.5A patent/CN109727644B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022001A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种肿瘤突变位点筛选及互斥基因挖掘的系统 |
WO2018015572A1 (en) * | 2016-07-22 | 2018-01-25 | Microbion S.R.L. | Highly polymorphic and modular extragenic (h.p.m.e.) markers within specific taxa of microorganisms and use thereof for their differentiation, identification and quantification |
KR20180042819A (ko) * | 2016-10-18 | 2018-04-26 | 재단법인 아산사회복지재단 | Hsp90 억제제 내성 세포주 및 이를 이용한 항암제 스크리닝 방법 |
CN107868837A (zh) * | 2017-12-12 | 2018-04-03 | 苏州普瑞森基因科技有限公司 | 一种用于分析肠道微生物的引物组合物及其应用 |
CN107893116A (zh) * | 2017-12-12 | 2018-04-10 | 北京雅康博生物科技有限公司 | 用于检测基因突变的引物对组合、试剂盒以及构建文库的方法 |
CN108073791A (zh) * | 2017-12-12 | 2018-05-25 | 元码基因科技(北京)股份有限公司 | 基于二代测序数据检测目标基因结构变异的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109727644A (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | Adage-based integration of publicly available pseudomonas aeruginosa gene expression data with denoising autoencoders illuminates microbe-host interactions | |
Pylro et al. | Data analysis for 16S microbial profiling from different benchtop sequencing platforms | |
Klenk et al. | En route to a genome-based classification of Archaea and Bacteria? | |
CN109273053B (zh) | 一种高通量测序的微生物数据处理方法 | |
Ji et al. | MetaSort untangles metagenome assembly by reducing microbial community complexity | |
Gu et al. | Multivariate analyses of codon usage of SARS-CoV-2 and other betacoronaviruses | |
Lebeis et al. | Culturing a plant microbiome community at the cross-Rhodes | |
CN109727644B (zh) | 基于微生物基因组二代测序数据的Venn图制作方法及系统 | |
May et al. | Unraveling the outcome of 16S rDNA-based taxonomy analysis through mock data and simulations | |
Abdelkareem et al. | VirNet: Deep attention model for viral reads identification | |
WO2016124600A1 (en) | Method of typing nucleic acid or amino acid sequences based on sequence analysis | |
Escalas et al. | A unifying quantitative framework for exploring the multiple facets of microbial biodiversity across diverse scales | |
Arjen de Groot et al. | Molecular identification of soil eukaryotes and focused approaches targeting protist and faunal groups using high-throughput metabarcoding | |
CN112151117A (zh) | 一种基于时间序列宏基因组数据的动态观测装置及其检测方法 | |
Camargo et al. | Microbiomes of Velloziaceae from phosphorus-impoverished soils of the campos rupestres, a biodiversity hotspot | |
Wang et al. | rRNAFilter: a fast approach for ribosomal RNA read removal without a reference database | |
Gao et al. | Accounting for 16S rRNA copy number prediction uncertainty and its implications in bacterial diversity analyses | |
Casaril et al. | Macrogeographic genetic structure of Lutzomyia longipalpis complex populations using Next Generation Sequencing | |
Coordinators et al. | A global ocean atlas of eukaryotic genes | |
Agler et al. | New insights in host-associated microbial diversity with broad and accurate taxonomic resolution | |
Borgman et al. | Deep learning encoding for rapid sequence identification on microbiome data | |
Sangal et al. | Revolutionizing prokaryotic systematics through next-generation sequencing | |
CN106326689A (zh) | 确定群体中受到选择作用的位点的方法和装置 | |
Iranzadeh et al. | Bacterial pan-genomics | |
Mesa | Rhizosphere and Endosphere Bacterial Communities Survey by Metagenomics Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |