CN107463800B

CN107463800B - 一种肠道微生物信息分析方法及系统

Info

Publication number: CN107463800B
Application number: CN201710588863.9A
Authority: CN
Inventors: 糜庆丰; 黄铨飞; 夏渝东; 王群
Original assignee: CapitalBio Genomics Co Ltd
Current assignee: CapitalBio Genomics Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2018-05-11
Anticipated expiration: 2037-07-19
Also published as: CN107463800A

Abstract

本发明公开了一种肠道微生物信息分析方法及系统，方法包括：对测序完成后的样本下机数据进行拆分和过滤，得到过滤后的样本序列；对过滤后的样本序列进行聚类比对和物种注释分类；对物种注释分类的结果进行谱分析；根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读，并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核。系统包括拆分和过滤模块、聚类比对和分类模块、谱分析模块、自动解读与可视化展示模块。本发明具有能方便地进行流程化和批量化操作，人工解读工作量小，直观和方便的优点，可广泛应用于生物信息分析领域。

Description

一种肠道微生物信息分析方法及系统

技术领域

本发明涉及生物信息分析领域，尤其是一种肠道微生物信息分析方法及系统。

背景技术

随着人类微生物组计划(HMP)和人类肠道宏基因组学(MetaHIT)项目的开展，越来越多研究表明，人体的生理代谢和生长发育不仅受自身基因控制，有许多现象，如对疾病的易感性、药物反应等，无法全部用人体基因的差异来解释。这是因为，人体内生活着大量微生物，它们的组成和活动与人的生长发育、生老病死息息相关。宏基因组(metagenome)，又称“元基因组”，是指某个特定环境中全部微小生物遗传物质的总和。宏基因组的测序方法以特定环境中的整个微生物群落作为研究的对象，不需要对微生物进行分离培养，而是提取环境微生物总DNA进行研究，采用新一代高通量测序技术对环境微生物样本的DNA直接测序。肠道微生物检测研究也采用了宏基因组的测序方法，通过研究肠道微生物宏基因组(即肠道所有微生物遗传物质的总和)借助大规模测序结合生物信息学分析，了解微生物群落组成及其功能，该项研究可通过监控、调节微生物组等途径为健康生活提供新思路、新方法。

肠道微生物检测研究通常需要借助权威的QIIME(Quantitative Insights IntoMicrobial Ecology)软件来进行肠道微生物信息分析，但受QIIME软件自身缺陷的影响，当前肠道微生物信息分析技术存在着以下缺陷或不足：

1)需一步一步在QIIME软件中进行手动操作，不适合用来进行流程化和批量化操作；

2)在分析结果中并不会给出细菌功能以及与疾病关联的相关信息，导致解读人员每出具一份报告都需要阅读文献来对所测细菌的功能来进行注释，增加了人工解读工作量；

3)缺乏可视化的展示平台，难以直观对结果进行处理和审核，不够直观和方便。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种能方便地进行流程化和批量化操作，人工解读工作量小，直观和方便的，肠道微生物信息分析方法及系统。

本发明所采取的技术方案是：

一种肠道微生物信息分析方法，包括以下步骤：

对测序完成后的样本下机数据进行拆分和过滤，得到过滤后的样本序列；

对过滤后的样本序列进行聚类比对和物种注释分类；

对物种注释分类的结果进行谱分析，所述谱分析包括alpha多样性分析、beta多样性分析以及益生菌含量和病原菌含量分析；

根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读，并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核。

进一步，所述对测序完成后的样本下机数据进行拆分和过滤，得到过滤后的样本序列这一步骤，具体包括：

对原始输入文件进行文件分割，所述原始输入文件包含有测序完成后的样本下机数据；

根据设定的过滤参数对文件分割后的文件进行数据拆分和数据过滤，得到过滤后的样本序列。

进一步，所述对过滤后的样本序列进行聚类比对和物种注释分类这一步骤，具体包括：

根据序列相似性对过滤后的样本序列进行聚类，得到最小分类单元；

从每一个最小分类单元随机挑选1条序列作为代表序列，使用基因数据库中已有的数据作为参考与该代表序列进行比对和分类注释，其中，基因数据库用于存储序列及其对应的属性信息。

进一步，所述对物种注释分类的结果进行谱分析这一步骤，具体包括：

对物种注释分类后的结果进行假阳性去除处理，以去除物种注释分类的结果中只分到一个序列的文件；

对假阳性去除处理后的文件进行均一化处理，得到均一化处理后的文件；

采用稀疏法对均一化处理后的文件进行alpha多样性分析，得到样本的丰富度指数、多样性指数、测序深度指数和观察到的物种个数；

根据设定的健康参考集采用Unifrac算法对均一化处理后的文件进行beta多样性分析，得到样本与健康参考集间的weighted unifrac距离和unweighted unifrac距离；

根据设定的健康参考集对均一化处理后的文件进行益生菌含量和病原菌含量分析，得到样本与健康参考集间的益生菌含量和病原菌含量差异，其中，益生菌包括双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属和芽孢杆菌属。

进一步，所述根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读，并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核这一步骤，具体包括：

根据菌群功能及疾病关联数据库对谱分析出的菌属进行相关的功能和疾病注释，以对益生菌和病原菌进行自动临床解读；

将自动临床解读的结果和谱分析的结果作为分析结果数据自动提交给可视化平台；

在可视化平台中对分析结果数据进行可视化展示和审核。

进一步，所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤，具体包括：

在可视化平台的样本信息界面进行样本基本信息和临床信息的输入和展示；

在可视化平台的实验记录界面进行实验情况记录，所述实验情况记录包括实验记录搜索、实验记录操作和实验记录展示；

在可视化平台的数据审核界面进行数据审核，所述数据审核包括下机数据搜索、下机数据展示和受检样本检测结果展示；

在可视化平台的数据中心界面展示所有的样本信息；

在可视化平台的检测报告界面进行检测报告预览和打印，生成一个包含图文解释和临床解读的肠道微生物检测报告；

在可视化平台的统计界面统计和展示已收录的样本数、已审核的样本数和已打印的样本数。

进一步，所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤，还具体包括将生成的肠道微生物检测报告以网页或PDF的形式进行展示的步骤。

本发明所采取的另一技术方案是：

一种肠道微生物信息分析系统，包括：

拆分和过滤模块，用于对测序完成后的样本下机数据进行拆分和过滤，得到过滤后的样本序列；

聚类比对和分类模块，用于对过滤后的样本序列进行聚类比对和物种注释分类；

谱分析模块，用于对物种注释分类的结果进行谱分析，所述谱分析包括alpha多样性分析、beta多样性分析以及益生菌含量和病原菌含量分析；

自动解读与可视化展示模块，用于根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读，并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核。

进一步，所述谱分析模块具体包括：

假阳性去除单元，用于对物种注释分类后的结果进行假阳性去除处理，以去除物种注释分类的结果中只分到一个序列的文件；

均一化单元，用于对假阳性去除处理后的文件进行均一化处理，得到均一化处理后的文件；

alpha多样性分析单元，用于采用稀疏法对均一化处理后的文件进行alpha多样性分析，得到样本的丰富度指数、多样性指数、测序深度指数和观察到的物种个数；

beta多样性分析单元，用于根据设定的健康参考集采用Unifrac算法对均一化处理后的文件进行beta多样性分析，得到样本与健康参考集间的weighted unifrac距离和unweighted unifrac距离；

菌属含量分析单元，用于根据设定的健康参考集对均一化处理后的文件进行益生菌含量和病原菌含量分析，得到样本与健康参考集间的益生菌含量和病原菌含量差异，其中，益生菌包括双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属和芽孢杆菌属。

进一步，所述自动解读与可视化展示模块具体包括：

自动临床解读单元，用于根据菌群功能及疾病关联数据库对谱分析出的菌属进行相关的功能和疾病注释，以对益生菌和病原菌进行自动临床解读；

自动提交单元，用于将自动临床解读的结果和谱分析的结果作为分析结果数据自动提交给可视化平台；

可视化展示和审核单元，用于在可视化平台中对分析结果数据进行可视化展示和审核。

本发明的方法有益效果是：包括对测序完成后的样本下机数据进行拆分和过滤，对过滤后的样本序列进行聚类比对和物种注释分类，对物种注释分类的结果进行谱分析的步骤，通过数据拆分和过滤、聚类比对和物种注释分类以及谱分析方便了流程化和批量化操作，不再需要一步一步在QIIME软件中进行手动操作；增设了根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读的步骤，能在分析结果中自动给出细菌功能以及与疾病关联的相关信息，降低了人工解读工作量；增设了将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核的步骤，能直观地对结果进行处理和审核，更加直观和方便。

本发明的系统有益效果是：包括拆分和过滤模块、聚类比对和分类模块、谱分析模块以及自动解读与可视化展示模块，通过拆分和过滤模块的数据拆分和过滤、聚类比对和分类模块的聚类比对和物种注释分类以及谱分析模块的谱分析方便了流程化和批量化操作，不再需要一步一步在QIIME软件中进行手动操作；在自动解读与可视化展示模块中增设了根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读的过程，能在分析结果中自动给出细菌功能以及与疾病关联的相关信息，降低了人工解读工作量；在自动解读与可视化展示模块中增设了将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核的过程，能直观地对结果进行处理和审核，更加直观和方便。

附图说明

图1为本发明一种肠道微生物信息分析方法的整体流程图；

图2为本发明一种肠道微生物信息分析系统的整体结构框图；

图3为本发明实施例一肠道微生物信息分析技术的具体流程图。

具体实施方式

参照图1，一种肠道微生物信息分析方法，包括以下步骤：

对过滤后的样本序列进行聚类比对和物种注释分类；

其中，菌群功能及疾病关联数据库为根据先验知识预先建立的数据库，用于存储细菌功能以及与疾病关联的相关信息。

进一步作为优选的实施方式，所述对测序完成后的样本下机数据进行拆分和过滤，得到过滤后的样本序列这一步骤，具体包括：

进一步作为优选的实施方式，所述对过滤后的样本序列进行聚类比对和物种注释分类这一步骤，具体包括：

其中，根据序列相似性对过滤后的样本序列进行聚类时采用的聚类方法为uclust聚类方法。

进一步作为优选的实施方式，所述对物种注释分类的结果进行谱分析这一步骤，具体包括：

其中，健康参考集，为进行肠道微生物信息分析前预先设定的数值，其可根据健康人群(符合某种或某几种特定要求的人群)经16S测序和谱分析后得到的结果进行设置。

进一步作为优选的实施方式，所述根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读，并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核这一步骤，具体包括：

在可视化平台中对分析结果数据进行可视化展示和审核。

进一步作为优选的实施方式，所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤，具体包括：

在可视化平台的数据中心界面展示所有的样本信息；

进一步作为优选的实施方式，所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤，还具体包括将生成的肠道微生物检测报告以网页或PDF的形式进行展示的步骤。

参照图2，一种肠道微生物信息分析系统，包括：

进一步作为优选的实施方式，所述谱分析模块具体包括：

进一步作为优选的实施方式，所述自动解读与可视化展示模块具体包括：

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。

实施例一

针对现有技术不能方便地进行流程化和批量化操作，人工解读工作量大，不够直观和方便的问题，本发明提出了一种新的肠道微生物信息分析方法及系统。

本发明的肠道微生物生物信息分析方法及系统主要由肠道微生物信息分析流程和可视化平台(即用户使用界面模块)组成。肠道微生物信息分析流程主要的编写语言为perl+python，用户使用界面模块的编写语言主要为php。

肠道微生物信息分析流程主要包括成年人肠道微生物分析模块(针对18岁以上人群)和青少年肠道微生物分析模块(针对6-18岁人群)这两部分。本发明可根据受检者的具体年龄调用不同的分析模块，每个分析模块可调用与之相应的数据库和指定参数进行分析，这些分析模块是灵活可扩增的，随着数据库的完善，可增加新的分析模块，也可对新的分析模块进行灵活调整。

参照图3，本发明生物信息分析流程的不同分析模块均具体包含以下分析步骤：

一、质量控制：去除接头序列，进行下机数据质控过滤

本发明高通量测序技术采用了微生物测序经常使用的16S rDNA测序方法，需要进行pooling(重叠组装)测序，为此需要根据标签序列(barcode)信息将下机数据拆分到各样本中。本发明可通过接口调用QIIME软件中的“split_libraries.py”来实现数据拆分和数据过滤的双重目的，以实现下机数据的输入输出和整合，具体过程包括：

(1)文件分割

文件分割的输入和输出文件具体格式为：

1)输入文件：bam文件；

2)输出文件：fna文件、fq文件、qual文件、mapping文件。

2、数据拆分和数据过滤

数据拆分和数据过滤的指定参数为：library reads:>＝8000条；length：100-500；min mean qual score:15；max primer mismatches：4；Max homopolymer：6。其中，read为读长，测序序列中每一条序列为一个read。

数据拆分和数据过滤的输入文件具体格式为：mapping文件、fna文件、qual文件；

数据拆分和数据过滤的输出文件具体格式为：log文件、histogram文件、重命名的fna文件。

二、聚类比对及物种注释分类

本发明先根据序列相似性对reads进行聚类，得到最小分类单元otu，然后从每一个最小分类单元随机挑选1条序列作为代表序列，并使用已有的数据库(16S rDNA对应的数据库为greengene)作为参考与代表序列进行比对和分类注释。

本发明聚类比对及物种注释分类的相关内容包括：

1)输入文件：重命名的fna文件

2)参考数据库：greengene；

3)otu界定策略：close refrence；

4)聚类方法：uclust；

5)序列相似度：97％(精确到属水平)；

6)输出文件：otu table。

三、去除假阳性reads和均一化

为了使结果更为可靠，需要去除只分到了1条序列的otu。此外，测序深度不理想和不均匀时会影响alpha多样性和beta多样性，为了保证后续分析的准确性，需要对数据进行均一化处理。

去除假阳性reads和均一化的输入和输出文件具体格式为：

1)输入文件：原始的otu table；

2)输出文件：均一化后的otu table。

四、alpha多样性分析

alpha多样性主要反映的是物种内部的菌群差异。alpha多样性分析使用均一化后的otu table进行rarefection(稀疏)后分别计算样本的丰富度指数(chao1)、多样性指数(shannon)、测序深度指数(goods_coverage)和观察到的物种个数(observed_species)。

alpha多样性分析的具体内容包括：

1)输入文件：均一化后的otu table；

2)分析参数：随机抽取20000条，迭代10次；

3)输出文件：每个样本的chao1、shannon、goods_coverage、observed_species值。

五、beta多样性分析

beta多样性主要反映的是不同样本之间的差异度。beta多样性分析通过将受检样本与设定参考集进行比较，分别采用Unifrac算法计算受检样本与设定参考集的weightedunifrac距离和unweighted unifrac距离。

beta多样性分析的输入和输出文件具体格式为：

1)输入文件：均一化后的otu table；

2)输出文件：受检样本与不同参考集间的距离矩阵。

六、益生菌及病原菌含量分析

根据先验知识，本发明确定了六个益生菌属(即双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属、芽孢杆菌属)和一些病原菌，并比较受检样本和给定的健康参考集之间的含量差异。

本发明益生菌及病原菌含量分析的输入和输出文件具体格式为：

1)输入文件：属水平的丰度矩阵；

2)输出文件：差异菌属的丰度矩阵。

七、自动结果解读

本发明预先构建了菌群功能及疾病关联数据库，可以根据该菌群功能及疾病关联数据库对所有菌属谱分析的结果进行自动临床解读。

而本发明的用户使用界面模块(即可视化平台)是用于进行分析结果展示和审核的可视化界面，一共由样本信息界面、实验记录界面、数据审核界面、检测报告界面、数据中心界面和统计界面这六个部分构成。

(1)样本信息界面

样本信息界面用于进行样本信息(包括样本基本信息和临床信息)的输入和展示。其中，样本信息包含了受检者信息、样本基本信息、饮食习惯信息、血常规信息、尿常规信息、血生化信息。样本信息在按照用户使用界面模块提供的表格填入后保存即可点击用户使用界面模块导航栏左侧的【样本信息】链接，直接进入样本信息界面，方便了用户快速、直接地管理待测样本信息。用户可通过样本信息界面的【收样日期】、【样本编号】和【姓名】这3个参数对自己感兴趣的样本进行快速搜索；还可通过点击样本信息界面的【新增】和【导入】按钮，进行样本信息的添加和批量样本的添加。

(2)实验记录界面

实验记录界面会对实验情况做一个基本的记录，该记录包含了DNA提取、文库构建、文库定量、上机测序等的相关信息。点击用户使用界面模块导航栏左侧的【实验记录】链接，可直接进入实验记录界面，方便了用户轻松实现实验记录的管理。实验记录界面的整个界面可分为三大区域，即实验记录搜索区域、实验记录操作区域和实验记录展示区域。用户可点击实验记录操作区域的【导入】按钮批量导入实验记录。

(3)数据审核界面

点击用户使用界面模块导航栏左侧的【数据审核】链接，可直接进入数据审核界面，方便了用户轻松实现检测数据的审核管理。数据审核界面的整个界面可分为三大区域：下机数据搜索区域、下机数据展示区域和受检样本检测结果展示区域。数据审核界面会对正在运行的信息和样本的下机数据进行质量审核，并结合样本信息对肠道微生物信息分析流程给出的结果进行展示和审核。

(4)检测报告界面

点击用户使用界面模块导航栏左侧的【检测报告】链接，可直接进入检测报告界面，该检测报告界面显示所有审核通过的样本结果报告的一个预览，选中样本再单击检测报告界面的【打印】按钮，即可以实现样本检测报告打印。

(5)数据中心界面

点击用户使用界面模块导航栏左侧的【数据中心】链接，可直接进入数据中心界面，该数据中心界面展示的是所有样本信息，单击样本可查看受检者的所有信息，包括受检者信息、样本基本信息、实验数据和质控项目等。

(6)统计界面

点击用户使用界面模块导航栏左侧的【统计】链接，可直接进入统计界面，该统计界面显示了系统收录的样本数、已审核的样本数和已打印的样本数等。

本发明的肠道微生物信息分析方法及系统包含了自动化的系统分析流程和分析报告自动生成的方法，可一步完成环境配置和系统安装，使用起来十分方便；使得用户可以根据样本情况输入对应的过滤参数，根据预设的参数配置运用统一的过滤标准对经测序仪测序完成后的样本下机数据进行过滤和分析，能方便地进行流程化和批量化操作；分析完成后结果数据会自动提交到网站等可视化平台，使得用户可根据需要对结果进行审核和修改，并可生成网页版或/和PDF版的分析结果报告。而且，本发明能根据菌群功能及疾病关联数据库进行自动解读，可以根据指定的某些菌属或者筛查出来的异常菌属进行相关的功能和疾病注释，从而达到对特定益生菌和异常菌属自动解读的目的，减少了人工解读工作量。

此外，本发明的用户不需要懂得生物信息分析的深层原理，也不需要知道该系统后台的运行命令，只需了解该可视化平台的使用方法，通过简单的几步操作便可以轻松得到一份肠道微生物基因检测报告，更加方便。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种肠道微生物信息分析方法，其特征在于：包括以下步骤：

对过滤后的样本序列进行聚类比对和物种注释分类；

根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读，并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核；

所述对物种注释分类的结果进行谱分析这一步骤，具体包括：

2.根据权利要求1所述的一种肠道微生物信息分析方法，其特征在于：所述对测序完成后的样本下机数据进行拆分和过滤，得到过滤后的样本序列这一步骤，具体包括：

3.根据权利要求1所述的一种肠道微生物信息分析方法，其特征在于：所述对过滤后的样本序列进行聚类比对和物种注释分类这一步骤，具体包括：

4.根据权利要求1所述的一种肠道微生物信息分析方法，其特征在于：所述根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读，并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核这一步骤，具体包括：

在可视化平台中对分析结果数据进行可视化展示和审核。

5.根据权利要求4所述的一种肠道微生物信息分析方法，其特征在于：所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤，具体包括：

在可视化平台的数据中心界面展示所有的样本信息；

6.根据权利要求5所述的一种肠道微生物信息分析方法，其特征在于：所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤，还具体包括将生成的肠道微生物检测报告以网页或PDF的形式进行展示的步骤。

7.一种肠道微生物信息分析系统，其特征在于：包括：

自动解读与可视化展示模块，用于根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读，并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核；

所述谱分析模块具体包括：

beta多样性分析单元，用于根据设定的健康参考集采用Unifrac算法对均一化处理后的文件进行beta多样性分析，得到样本与健康参考集间的weighted unifrac距离和unweightedunifrac距离；

8.根据权利要求7所述的一种肠道微生物信息分析系统，其特征在于：所述自动解读与可视化展示模块具体包括：