CN107463800B - 一种肠道微生物信息分析方法及系统 - Google Patents

一种肠道微生物信息分析方法及系统 Download PDF

Info

Publication number
CN107463800B
CN107463800B CN201710588863.9A CN201710588863A CN107463800B CN 107463800 B CN107463800 B CN 107463800B CN 201710588863 A CN201710588863 A CN 201710588863A CN 107463800 B CN107463800 B CN 107463800B
Authority
CN
China
Prior art keywords
analysis
result
sample
file
spectrum analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710588863.9A
Other languages
English (en)
Other versions
CN107463800A (zh
Inventor
糜庆丰
黄铨飞
夏渝东
王群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CapitalBio Genomics Co Ltd
Original Assignee
CapitalBio Genomics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CapitalBio Genomics Co Ltd filed Critical CapitalBio Genomics Co Ltd
Priority to CN201710588863.9A priority Critical patent/CN107463800B/zh
Publication of CN107463800A publication Critical patent/CN107463800A/zh
Application granted granted Critical
Publication of CN107463800B publication Critical patent/CN107463800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种肠道微生物信息分析方法及系统,方法包括:对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列;对过滤后的样本序列进行聚类比对和物种注释分类;对物种注释分类的结果进行谱分析;根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核。系统包括拆分和过滤模块、聚类比对和分类模块、谱分析模块、自动解读与可视化展示模块。本发明具有能方便地进行流程化和批量化操作,人工解读工作量小,直观和方便的优点,可广泛应用于生物信息分析领域。

Description

一种肠道微生物信息分析方法及系统
技术领域
本发明涉及生物信息分析领域,尤其是一种肠道微生物信息分析方法及系统。
背景技术
随着人类微生物组计划(HMP)和人类肠道宏基因组学(MetaHIT)项目的开展,越来越多研究表明,人体的生理代谢和生长发育不仅受自身基因控制,有许多现象,如对疾病的易感性、药物反应等,无法全部用人体基因的差异来解释。这是因为,人体内生活着大量微生物,它们的组成和活动与人的生长发育、生老病死息息相关。宏基因组(metagenome),又称“元基因组”,是指某个特定环境中全部微小生物遗传物质的总和。宏基因组的测序方法以特定环境中的整个微生物群落作为研究的对象,不需要对微生物进行分离培养,而是提取环境微生物总DNA进行研究,采用新一代高通量测序技术对环境微生物样本的DNA直接测序。肠道微生物检测研究也采用了宏基因组的测序方法,通过研究肠道微生物宏基因组(即肠道所有微生物遗传物质的总和)借助大规模测序结合生物信息学分析,了解微生物群落组成及其功能,该项研究可通过监控、调节微生物组等途径为健康生活提供新思路、新方法。
肠道微生物检测研究通常需要借助权威的QIIME(Quantitative Insights IntoMicrobial Ecology)软件来进行肠道微生物信息分析,但受QIIME软件自身缺陷的影响,当前肠道微生物信息分析技术存在着以下缺陷或不足:
1)需一步一步在QIIME软件中进行手动操作,不适合用来进行流程化和批量化操作;
2)在分析结果中并不会给出细菌功能以及与疾病关联的相关信息,导致解读人员每出具一份报告都需要阅读文献来对所测细菌的功能来进行注释,增加了人工解读工作量;
3)缺乏可视化的展示平台,难以直观对结果进行处理和审核,不够直观和方便。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种能方便地进行流程化和批量化操作,人工解读工作量小,直观和方便的,肠道微生物信息分析方法及系统。
本发明所采取的技术方案是:
一种肠道微生物信息分析方法,包括以下步骤:
对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列;
对过滤后的样本序列进行聚类比对和物种注释分类;
对物种注释分类的结果进行谱分析,所述谱分析包括alpha多样性分析、beta多样性分析以及益生菌含量和病原菌含量分析;
根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核。
进一步,所述对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列这一步骤,具体包括:
对原始输入文件进行文件分割,所述原始输入文件包含有测序完成后的样本下机数据;
根据设定的过滤参数对文件分割后的文件进行数据拆分和数据过滤,得到过滤后的样本序列。
进一步,所述对过滤后的样本序列进行聚类比对和物种注释分类这一步骤,具体包括:
根据序列相似性对过滤后的样本序列进行聚类,得到最小分类单元;
从每一个最小分类单元随机挑选1条序列作为代表序列,使用基因数据库中已有的数据作为参考与该代表序列进行比对和分类注释,其中,基因数据库用于存储序列及其对应的属性信息。
进一步,所述对物种注释分类的结果进行谱分析这一步骤,具体包括:
对物种注释分类后的结果进行假阳性去除处理,以去除物种注释分类的结果中只分到一个序列的文件;
对假阳性去除处理后的文件进行均一化处理,得到均一化处理后的文件;
采用稀疏法对均一化处理后的文件进行alpha多样性分析,得到样本的丰富度指数、多样性指数、测序深度指数和观察到的物种个数;
根据设定的健康参考集采用Unifrac算法对均一化处理后的文件进行beta多样性分析,得到样本与健康参考集间的weighted unifrac距离和unweighted unifrac距离;
根据设定的健康参考集对均一化处理后的文件进行益生菌含量和病原菌含量分析,得到样本与健康参考集间的益生菌含量和病原菌含量差异,其中,益生菌包括双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属和芽孢杆菌属。
进一步,所述根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核这一步骤,具体包括:
根据菌群功能及疾病关联数据库对谱分析出的菌属进行相关的功能和疾病注释,以对益生菌和病原菌进行自动临床解读;
将自动临床解读的结果和谱分析的结果作为分析结果数据自动提交给可视化平台;
在可视化平台中对分析结果数据进行可视化展示和审核。
进一步,所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤,具体包括:
在可视化平台的样本信息界面进行样本基本信息和临床信息的输入和展示;
在可视化平台的实验记录界面进行实验情况记录,所述实验情况记录包括实验记录搜索、实验记录操作和实验记录展示;
在可视化平台的数据审核界面进行数据审核,所述数据审核包括下机数据搜索、下机数据展示和受检样本检测结果展示;
在可视化平台的数据中心界面展示所有的样本信息;
在可视化平台的检测报告界面进行检测报告预览和打印,生成一个包含图文解释和临床解读的肠道微生物检测报告;
在可视化平台的统计界面统计和展示已收录的样本数、已审核的样本数和已打印的样本数。
进一步,所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤,还具体包括将生成的肠道微生物检测报告以网页或PDF的形式进行展示的步骤。
本发明所采取的另一技术方案是:
一种肠道微生物信息分析系统,包括:
拆分和过滤模块,用于对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列;
聚类比对和分类模块,用于对过滤后的样本序列进行聚类比对和物种注释分类;
谱分析模块,用于对物种注释分类的结果进行谱分析,所述谱分析包括alpha多样性分析、beta多样性分析以及益生菌含量和病原菌含量分析;
自动解读与可视化展示模块,用于根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核。
进一步,所述谱分析模块具体包括:
假阳性去除单元,用于对物种注释分类后的结果进行假阳性去除处理,以去除物种注释分类的结果中只分到一个序列的文件;
均一化单元,用于对假阳性去除处理后的文件进行均一化处理,得到均一化处理后的文件;
alpha多样性分析单元,用于采用稀疏法对均一化处理后的文件进行alpha多样性分析,得到样本的丰富度指数、多样性指数、测序深度指数和观察到的物种个数;
beta多样性分析单元,用于根据设定的健康参考集采用Unifrac算法对均一化处理后的文件进行beta多样性分析,得到样本与健康参考集间的weighted unifrac距离和unweighted unifrac距离;
菌属含量分析单元,用于根据设定的健康参考集对均一化处理后的文件进行益生菌含量和病原菌含量分析,得到样本与健康参考集间的益生菌含量和病原菌含量差异,其中,益生菌包括双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属和芽孢杆菌属。
进一步,所述自动解读与可视化展示模块具体包括:
自动临床解读单元,用于根据菌群功能及疾病关联数据库对谱分析出的菌属进行相关的功能和疾病注释,以对益生菌和病原菌进行自动临床解读;
自动提交单元,用于将自动临床解读的结果和谱分析的结果作为分析结果数据自动提交给可视化平台;
可视化展示和审核单元,用于在可视化平台中对分析结果数据进行可视化展示和审核。
本发明的方法有益效果是:包括对测序完成后的样本下机数据进行拆分和过滤,对过滤后的样本序列进行聚类比对和物种注释分类,对物种注释分类的结果进行谱分析的步骤,通过数据拆分和过滤、聚类比对和物种注释分类以及谱分析方便了流程化和批量化操作,不再需要一步一步在QIIME软件中进行手动操作;增设了根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读的步骤,能在分析结果中自动给出细菌功能以及与疾病关联的相关信息,降低了人工解读工作量;增设了将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核的步骤,能直观地对结果进行处理和审核,更加直观和方便。
本发明的系统有益效果是:包括拆分和过滤模块、聚类比对和分类模块、谱分析模块以及自动解读与可视化展示模块,通过拆分和过滤模块的数据拆分和过滤、聚类比对和分类模块的聚类比对和物种注释分类以及谱分析模块的谱分析方便了流程化和批量化操作,不再需要一步一步在QIIME软件中进行手动操作;在自动解读与可视化展示模块中增设了根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读的过程,能在分析结果中自动给出细菌功能以及与疾病关联的相关信息,降低了人工解读工作量;在自动解读与可视化展示模块中增设了将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核的过程,能直观地对结果进行处理和审核,更加直观和方便。
附图说明
图1为本发明一种肠道微生物信息分析方法的整体流程图;
图2为本发明一种肠道微生物信息分析系统的整体结构框图;
图3为本发明实施例一肠道微生物信息分析技术的具体流程图。
具体实施方式
参照图1,一种肠道微生物信息分析方法,包括以下步骤:
对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列;
对过滤后的样本序列进行聚类比对和物种注释分类;
对物种注释分类的结果进行谱分析,所述谱分析包括alpha多样性分析、beta多样性分析以及益生菌含量和病原菌含量分析;
根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核。
其中,菌群功能及疾病关联数据库为根据先验知识预先建立的数据库,用于存储细菌功能以及与疾病关联的相关信息。
进一步作为优选的实施方式,所述对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列这一步骤,具体包括:
对原始输入文件进行文件分割,所述原始输入文件包含有测序完成后的样本下机数据;
根据设定的过滤参数对文件分割后的文件进行数据拆分和数据过滤,得到过滤后的样本序列。
进一步作为优选的实施方式,所述对过滤后的样本序列进行聚类比对和物种注释分类这一步骤,具体包括:
根据序列相似性对过滤后的样本序列进行聚类,得到最小分类单元;
从每一个最小分类单元随机挑选1条序列作为代表序列,使用基因数据库中已有的数据作为参考与该代表序列进行比对和分类注释,其中,基因数据库用于存储序列及其对应的属性信息。
其中,根据序列相似性对过滤后的样本序列进行聚类时采用的聚类方法为uclust聚类方法。
进一步作为优选的实施方式,所述对物种注释分类的结果进行谱分析这一步骤,具体包括:
对物种注释分类后的结果进行假阳性去除处理,以去除物种注释分类的结果中只分到一个序列的文件;
对假阳性去除处理后的文件进行均一化处理,得到均一化处理后的文件;
采用稀疏法对均一化处理后的文件进行alpha多样性分析,得到样本的丰富度指数、多样性指数、测序深度指数和观察到的物种个数;
根据设定的健康参考集采用Unifrac算法对均一化处理后的文件进行beta多样性分析,得到样本与健康参考集间的weighted unifrac距离和unweighted unifrac距离;
根据设定的健康参考集对均一化处理后的文件进行益生菌含量和病原菌含量分析,得到样本与健康参考集间的益生菌含量和病原菌含量差异,其中,益生菌包括双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属和芽孢杆菌属。
其中,健康参考集,为进行肠道微生物信息分析前预先设定的数值,其可根据健康人群(符合某种或某几种特定要求的人群)经16S测序和谱分析后得到的结果进行设置。
进一步作为优选的实施方式,所述根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核这一步骤,具体包括:
根据菌群功能及疾病关联数据库对谱分析出的菌属进行相关的功能和疾病注释,以对益生菌和病原菌进行自动临床解读;
将自动临床解读的结果和谱分析的结果作为分析结果数据自动提交给可视化平台;
在可视化平台中对分析结果数据进行可视化展示和审核。
进一步作为优选的实施方式,所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤,具体包括:
在可视化平台的样本信息界面进行样本基本信息和临床信息的输入和展示;
在可视化平台的实验记录界面进行实验情况记录,所述实验情况记录包括实验记录搜索、实验记录操作和实验记录展示;
在可视化平台的数据审核界面进行数据审核,所述数据审核包括下机数据搜索、下机数据展示和受检样本检测结果展示;
在可视化平台的数据中心界面展示所有的样本信息;
在可视化平台的检测报告界面进行检测报告预览和打印,生成一个包含图文解释和临床解读的肠道微生物检测报告;
在可视化平台的统计界面统计和展示已收录的样本数、已审核的样本数和已打印的样本数。
进一步作为优选的实施方式,所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤,还具体包括将生成的肠道微生物检测报告以网页或PDF的形式进行展示的步骤。
参照图2,一种肠道微生物信息分析系统,包括:
拆分和过滤模块,用于对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列;
聚类比对和分类模块,用于对过滤后的样本序列进行聚类比对和物种注释分类;
谱分析模块,用于对物种注释分类的结果进行谱分析,所述谱分析包括alpha多样性分析、beta多样性分析以及益生菌含量和病原菌含量分析;
自动解读与可视化展示模块,用于根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核。
进一步作为优选的实施方式,所述谱分析模块具体包括:
假阳性去除单元,用于对物种注释分类后的结果进行假阳性去除处理,以去除物种注释分类的结果中只分到一个序列的文件;
均一化单元,用于对假阳性去除处理后的文件进行均一化处理,得到均一化处理后的文件;
alpha多样性分析单元,用于采用稀疏法对均一化处理后的文件进行alpha多样性分析,得到样本的丰富度指数、多样性指数、测序深度指数和观察到的物种个数;
beta多样性分析单元,用于根据设定的健康参考集采用Unifrac算法对均一化处理后的文件进行beta多样性分析,得到样本与健康参考集间的weighted unifrac距离和unweighted unifrac距离;
菌属含量分析单元,用于根据设定的健康参考集对均一化处理后的文件进行益生菌含量和病原菌含量分析,得到样本与健康参考集间的益生菌含量和病原菌含量差异,其中,益生菌包括双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属和芽孢杆菌属。
进一步作为优选的实施方式,所述自动解读与可视化展示模块具体包括:
自动临床解读单元,用于根据菌群功能及疾病关联数据库对谱分析出的菌属进行相关的功能和疾病注释,以对益生菌和病原菌进行自动临床解读;
自动提交单元,用于将自动临床解读的结果和谱分析的结果作为分析结果数据自动提交给可视化平台;
可视化展示和审核单元,用于在可视化平台中对分析结果数据进行可视化展示和审核。
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。
实施例一
针对现有技术不能方便地进行流程化和批量化操作,人工解读工作量大,不够直观和方便的问题,本发明提出了一种新的肠道微生物信息分析方法及系统。
本发明的肠道微生物生物信息分析方法及系统主要由肠道微生物信息分析流程和可视化平台(即用户使用界面模块)组成。肠道微生物信息分析流程主要的编写语言为perl+python,用户使用界面模块的编写语言主要为php。
肠道微生物信息分析流程主要包括成年人肠道微生物分析模块(针对18岁以上人群)和青少年肠道微生物分析模块(针对6-18岁人群)这两部分。本发明可根据受检者的具体年龄调用不同的分析模块,每个分析模块可调用与之相应的数据库和指定参数进行分析,这些分析模块是灵活可扩增的,随着数据库的完善,可增加新的分析模块,也可对新的分析模块进行灵活调整。
参照图3,本发明生物信息分析流程的不同分析模块均具体包含以下分析步骤:
一、质量控制:去除接头序列,进行下机数据质控过滤
本发明高通量测序技术采用了微生物测序经常使用的16S rDNA测序方法,需要进行pooling(重叠组装)测序,为此需要根据标签序列(barcode)信息将下机数据拆分到各样本中。本发明可通过接口调用QIIME软件中的“split_libraries.py”来实现数据拆分和数据过滤的双重目的,以实现下机数据的输入输出和整合,具体过程包括:
(1)文件分割
文件分割的输入和输出文件具体格式为:
1)输入文件:bam文件;
2)输出文件:fna文件、fq文件、qual文件、mapping文件。
2、数据拆分和数据过滤
数据拆分和数据过滤的指定参数为:library reads:>=8000条;length:100-500;min mean qual score:15;max primer mismatches:4;Max homopolymer:6。其中,read为读长,测序序列中每一条序列为一个read。
数据拆分和数据过滤的输入文件具体格式为:mapping文件、fna文件、qual文件;
数据拆分和数据过滤的输出文件具体格式为:log文件、histogram文件、重命名的fna文件。
二、聚类比对及物种注释分类
本发明先根据序列相似性对reads进行聚类,得到最小分类单元otu,然后从每一个最小分类单元随机挑选1条序列作为代表序列,并使用已有的数据库(16S rDNA对应的数据库为greengene)作为参考与代表序列进行比对和分类注释。
本发明聚类比对及物种注释分类的相关内容包括:
1)输入文件:重命名的fna文件
2)参考数据库:greengene;
3)otu界定策略:close refrence;
4)聚类方法:uclust;
5)序列相似度:97%(精确到属水平);
6)输出文件:otu table。
三、去除假阳性reads和均一化
为了使结果更为可靠,需要去除只分到了1条序列的otu。此外,测序深度不理想和不均匀时会影响alpha多样性和beta多样性,为了保证后续分析的准确性,需要对数据进行均一化处理。
去除假阳性reads和均一化的输入和输出文件具体格式为:
1)输入文件:原始的otu table;
2)输出文件:均一化后的otu table。
四、alpha多样性分析
alpha多样性主要反映的是物种内部的菌群差异。alpha多样性分析使用均一化后的otu table进行rarefection(稀疏)后分别计算样本的丰富度指数(chao1)、多样性指数(shannon)、测序深度指数(goods_coverage)和观察到的物种个数(observed_species)。
alpha多样性分析的具体内容包括:
1)输入文件:均一化后的otu table;
2)分析参数:随机抽取20000条,迭代10次;
3)输出文件:每个样本的chao1、shannon、goods_coverage、observed_species值。
五、beta多样性分析
beta多样性主要反映的是不同样本之间的差异度。beta多样性分析通过将受检样本与设定参考集进行比较,分别采用Unifrac算法计算受检样本与设定参考集的weightedunifrac距离和unweighted unifrac距离。
beta多样性分析的输入和输出文件具体格式为:
1)输入文件:均一化后的otu table;
2)输出文件:受检样本与不同参考集间的距离矩阵。
六、益生菌及病原菌含量分析
根据先验知识,本发明确定了六个益生菌属(即双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属、芽孢杆菌属)和一些病原菌,并比较受检样本和给定的健康参考集之间的含量差异。
本发明益生菌及病原菌含量分析的输入和输出文件具体格式为:
1)输入文件:属水平的丰度矩阵;
2)输出文件:差异菌属的丰度矩阵。
七、自动结果解读
本发明预先构建了菌群功能及疾病关联数据库,可以根据该菌群功能及疾病关联数据库对所有菌属谱分析的结果进行自动临床解读。
而本发明的用户使用界面模块(即可视化平台)是用于进行分析结果展示和审核的可视化界面,一共由样本信息界面、实验记录界面、数据审核界面、检测报告界面、数据中心界面和统计界面这六个部分构成。
(1)样本信息界面
样本信息界面用于进行样本信息(包括样本基本信息和临床信息)的输入和展示。其中,样本信息包含了受检者信息、样本基本信息、饮食习惯信息、血常规信息、尿常规信息、血生化信息。样本信息在按照用户使用界面模块提供的表格填入后保存即可点击用户使用界面模块导航栏左侧的【样本信息】链接,直接进入样本信息界面,方便了用户快速、直接地管理待测样本信息。用户可通过样本信息界面的【收样日期】、【样本编号】和【姓名】这3个参数对自己感兴趣的样本进行快速搜索;还可通过点击样本信息界面的【新增】和【导入】按钮,进行样本信息的添加和批量样本的添加。
(2)实验记录界面
实验记录界面会对实验情况做一个基本的记录,该记录包含了DNA提取、文库构建、文库定量、上机测序等的相关信息。点击用户使用界面模块导航栏左侧的【实验记录】链接,可直接进入实验记录界面,方便了用户轻松实现实验记录的管理。实验记录界面的整个界面可分为三大区域,即实验记录搜索区域、实验记录操作区域和实验记录展示区域。用户可点击实验记录操作区域的【导入】按钮批量导入实验记录。
(3)数据审核界面
点击用户使用界面模块导航栏左侧的【数据审核】链接,可直接进入数据审核界面,方便了用户轻松实现检测数据的审核管理。数据审核界面的整个界面可分为三大区域:下机数据搜索区域、下机数据展示区域和受检样本检测结果展示区域。数据审核界面会对正在运行的信息和样本的下机数据进行质量审核,并结合样本信息对肠道微生物信息分析流程给出的结果进行展示和审核。
(4)检测报告界面
点击用户使用界面模块导航栏左侧的【检测报告】链接,可直接进入检测报告界面,该检测报告界面显示所有审核通过的样本结果报告的一个预览,选中样本再单击检测报告界面的【打印】按钮,即可以实现样本检测报告打印。
(5)数据中心界面
点击用户使用界面模块导航栏左侧的【数据中心】链接,可直接进入数据中心界面,该数据中心界面展示的是所有样本信息,单击样本可查看受检者的所有信息,包括受检者信息、样本基本信息、实验数据和质控项目等。
(6)统计界面
点击用户使用界面模块导航栏左侧的【统计】链接,可直接进入统计界面,该统计界面显示了系统收录的样本数、已审核的样本数和已打印的样本数等。
本发明的肠道微生物信息分析方法及系统包含了自动化的系统分析流程和分析报告自动生成的方法,可一步完成环境配置和系统安装,使用起来十分方便;使得用户可以根据样本情况输入对应的过滤参数,根据预设的参数配置运用统一的过滤标准对经测序仪测序完成后的样本下机数据进行过滤和分析,能方便地进行流程化和批量化操作;分析完成后结果数据会自动提交到网站等可视化平台,使得用户可根据需要对结果进行审核和修改,并可生成网页版或/和PDF版的分析结果报告。而且,本发明能根据菌群功能及疾病关联数据库进行自动解读,可以根据指定的某些菌属或者筛查出来的异常菌属进行相关的功能和疾病注释,从而达到对特定益生菌和异常菌属自动解读的目的,减少了人工解读工作量。
此外,本发明的用户不需要懂得生物信息分析的深层原理,也不需要知道该系统后台的运行命令,只需了解该可视化平台的使用方法,通过简单的几步操作便可以轻松得到一份肠道微生物基因检测报告,更加方便。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种肠道微生物信息分析方法,其特征在于:包括以下步骤:
对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列;
对过滤后的样本序列进行聚类比对和物种注释分类;
对物种注释分类的结果进行谱分析,所述谱分析包括alpha多样性分析、beta多样性分析以及益生菌含量和病原菌含量分析;
根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核;
所述对物种注释分类的结果进行谱分析这一步骤,具体包括:
对物种注释分类后的结果进行假阳性去除处理,以去除物种注释分类的结果中只分到一个序列的文件;
对假阳性去除处理后的文件进行均一化处理,得到均一化处理后的文件;
采用稀疏法对均一化处理后的文件进行alpha多样性分析,得到样本的丰富度指数、多样性指数、测序深度指数和观察到的物种个数;
根据设定的健康参考集采用Unifrac算法对均一化处理后的文件进行beta多样性分析,得到样本与健康参考集间的weighted unifrac距离和unweighted unifrac距离;
根据设定的健康参考集对均一化处理后的文件进行益生菌含量和病原菌含量分析,得到样本与健康参考集间的益生菌含量和病原菌含量差异,其中,益生菌包括双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属和芽孢杆菌属。
2.根据权利要求1所述的一种肠道微生物信息分析方法,其特征在于:所述对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列这一步骤,具体包括:
对原始输入文件进行文件分割,所述原始输入文件包含有测序完成后的样本下机数据;
根据设定的过滤参数对文件分割后的文件进行数据拆分和数据过滤,得到过滤后的样本序列。
3.根据权利要求1所述的一种肠道微生物信息分析方法,其特征在于:所述对过滤后的样本序列进行聚类比对和物种注释分类这一步骤,具体包括:
根据序列相似性对过滤后的样本序列进行聚类,得到最小分类单元;
从每一个最小分类单元随机挑选1条序列作为代表序列,使用基因数据库中已有的数据作为参考与该代表序列进行比对和分类注释,其中,基因数据库用于存储序列及其对应的属性信息。
4.根据权利要求1所述的一种肠道微生物信息分析方法,其特征在于:所述根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核这一步骤,具体包括:
根据菌群功能及疾病关联数据库对谱分析出的菌属进行相关的功能和疾病注释,以对益生菌和病原菌进行自动临床解读;
将自动临床解读的结果和谱分析的结果作为分析结果数据自动提交给可视化平台;
在可视化平台中对分析结果数据进行可视化展示和审核。
5.根据权利要求4所述的一种肠道微生物信息分析方法,其特征在于:所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤,具体包括:
在可视化平台的样本信息界面进行样本基本信息和临床信息的输入和展示;
在可视化平台的实验记录界面进行实验情况记录,所述实验情况记录包括实验记录搜索、实验记录操作和实验记录展示;
在可视化平台的数据审核界面进行数据审核,所述数据审核包括下机数据搜索、下机数据展示和受检样本检测结果展示;
在可视化平台的数据中心界面展示所有的样本信息;
在可视化平台的检测报告界面进行检测报告预览和打印,生成一个包含图文解释和临床解读的肠道微生物检测报告;
在可视化平台的统计界面统计和展示已收录的样本数、已审核的样本数和已打印的样本数。
6.根据权利要求5所述的一种肠道微生物信息分析方法,其特征在于:所述在可视化平台中对分析结果数据进行可视化展示和审核这一步骤,还具体包括将生成的肠道微生物检测报告以网页或PDF的形式进行展示的步骤。
7.一种肠道微生物信息分析系统,其特征在于:包括:
拆分和过滤模块,用于对测序完成后的样本下机数据进行拆分和过滤,得到过滤后的样本序列;
聚类比对和分类模块,用于对过滤后的样本序列进行聚类比对和物种注释分类;
谱分析模块,用于对物种注释分类的结果进行谱分析,所述谱分析包括alpha多样性分析、beta多样性分析以及益生菌含量和病原菌含量分析;
自动解读与可视化展示模块,用于根据菌群功能及疾病关联数据库对谱分析的结果进行自动解读,并将自动解读的结果和谱分析的结果自动提交给可视化平台进行可视化展示和审核;
所述谱分析模块具体包括:
假阳性去除单元,用于对物种注释分类后的结果进行假阳性去除处理,以去除物种注释分类的结果中只分到一个序列的文件;
均一化单元,用于对假阳性去除处理后的文件进行均一化处理,得到均一化处理后的文件;
alpha多样性分析单元,用于采用稀疏法对均一化处理后的文件进行alpha多样性分析,得到样本的丰富度指数、多样性指数、测序深度指数和观察到的物种个数;
beta多样性分析单元,用于根据设定的健康参考集采用Unifrac算法对均一化处理后的文件进行beta多样性分析,得到样本与健康参考集间的weighted unifrac距离和unweightedunifrac距离;
菌属含量分析单元,用于根据设定的健康参考集对均一化处理后的文件进行益生菌含量和病原菌含量分析,得到样本与健康参考集间的益生菌含量和病原菌含量差异,其中,益生菌包括双歧杆菌属、普拉梭菌、乳酸菌属、罗氏菌属、拟杆菌属和芽孢杆菌属。
8.根据权利要求7所述的一种肠道微生物信息分析系统,其特征在于:所述自动解读与可视化展示模块具体包括:
自动临床解读单元,用于根据菌群功能及疾病关联数据库对谱分析出的菌属进行相关的功能和疾病注释,以对益生菌和病原菌进行自动临床解读;
自动提交单元,用于将自动临床解读的结果和谱分析的结果作为分析结果数据自动提交给可视化平台;
可视化展示和审核单元,用于在可视化平台中对分析结果数据进行可视化展示和审核。
CN201710588863.9A 2017-07-19 2017-07-19 一种肠道微生物信息分析方法及系统 Active CN107463800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710588863.9A CN107463800B (zh) 2017-07-19 2017-07-19 一种肠道微生物信息分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710588863.9A CN107463800B (zh) 2017-07-19 2017-07-19 一种肠道微生物信息分析方法及系统

Publications (2)

Publication Number Publication Date
CN107463800A CN107463800A (zh) 2017-12-12
CN107463800B true CN107463800B (zh) 2018-05-11

Family

ID=60546916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710588863.9A Active CN107463800B (zh) 2017-07-19 2017-07-19 一种肠道微生物信息分析方法及系统

Country Status (1)

Country Link
CN (1) CN107463800B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111575358A (zh) * 2020-05-11 2020-08-25 菏泽市疾病预防控制中心(挂市卫生检测检验中心牌子) 非诊断目的的肠道微生物定性与定量检测方法及检测系统

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171013A (zh) * 2017-12-19 2018-06-15 北京荣之联科技股份有限公司 一种可视化生物信息分析流程的调试方法及系统
CN109166602B (zh) * 2018-08-29 2022-04-12 苏州微宏生物科技有限公司 厨余废弃物好氧堆肥的微生物宏基因分析系统及方法
CN111161794B (zh) * 2018-12-30 2024-03-22 深圳碳云智能数字生命健康管理有限公司 肠道微生物测序数据处理方法、装置、存储介质及处理器
CN110010220A (zh) * 2019-04-16 2019-07-12 北京中佰耀因医药科技有限公司 一种半自动生成用于指导精准用药的基因检测报告的方法
CN110349630B (zh) * 2019-06-21 2023-03-14 深圳华大因源医药科技有限公司 血液宏基因组测序数据的分析方法、装置及其应用
CN110751984B (zh) * 2019-10-31 2020-07-14 广州微远医疗器械有限公司 宏基因组或宏转录组测序数据自动化分析方法及系统
CN111261231A (zh) * 2019-12-03 2020-06-09 康美华大基因技术有限公司 肠道菌群宏基因组数据库构建方法、分析方法及装置
CN111462819A (zh) * 2020-02-26 2020-07-28 康美华大基因技术有限公司 肠道微生物检测数据分析方法、自动化解读系统及介质
CN111383730A (zh) * 2020-03-09 2020-07-07 圣湘生物科技股份有限公司 检测报告的生成方法、装置、设备及存储介质
CN112151118B (zh) * 2020-08-11 2022-06-28 康美华大基因技术有限公司 一种多时间序列肠道菌群数据分析流程控制方法
CN112489753B (zh) * 2020-12-17 2024-09-17 深圳谱元科技有限公司 病原微生物检测本地化分析与交互式报告系统及实现方法
CN114420205A (zh) * 2021-01-29 2022-04-29 杭州联川基因诊断技术有限公司 基于二代测序的高通量微单倍型检测分型系统和方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622534A (zh) * 2012-04-11 2012-08-01 哈尔滨工程大学 一种用于基因表达检测的dna高通测序数据校正方法
CN105447336A (zh) * 2015-12-29 2016-03-30 北京百迈客生物科技有限公司 基于生物云平台的微生物多样性分析方法及系统
CN105550536A (zh) * 2015-12-29 2016-05-04 北京百迈客生物科技有限公司 一种基于生物云平台的外显子测序数据分析方法及系统
CN105937053A (zh) * 2015-12-02 2016-09-14 广州赛哲生物科技股份有限公司 一种基于高通量基因测序建立粪便菌群基因文库的方法
CN106055924A (zh) * 2016-05-19 2016-10-26 完美(中国)有限公司 微生物操作分类单元确定和序列辅助分离
CN106815492A (zh) * 2016-12-20 2017-06-09 上海派森诺生物科技股份有限公司 一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104603283B (zh) * 2012-08-01 2017-09-19 深圳华大基因研究院 确定异常状态相关生物标志物的方法及系统
CN105046094B (zh) * 2015-08-26 2018-08-14 深圳谱元科技有限公司 肠道菌群的检测系统及其方法和动态式数据库
CN105603081B (zh) * 2016-01-29 2019-12-06 北京工商大学 一种非诊断目的的肠道微生物定性与定量的检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622534A (zh) * 2012-04-11 2012-08-01 哈尔滨工程大学 一种用于基因表达检测的dna高通测序数据校正方法
CN105937053A (zh) * 2015-12-02 2016-09-14 广州赛哲生物科技股份有限公司 一种基于高通量基因测序建立粪便菌群基因文库的方法
CN105447336A (zh) * 2015-12-29 2016-03-30 北京百迈客生物科技有限公司 基于生物云平台的微生物多样性分析方法及系统
CN105550536A (zh) * 2015-12-29 2016-05-04 北京百迈客生物科技有限公司 一种基于生物云平台的外显子测序数据分析方法及系统
CN106055924A (zh) * 2016-05-19 2016-10-26 完美(中国)有限公司 微生物操作分类单元确定和序列辅助分离
CN106815492A (zh) * 2016-12-20 2017-06-09 上海派森诺生物科技股份有限公司 一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
16S rRNA测序技术在肠道微生物中的应用研究进展;李东萍等;《生物技术通报》;20150228;第31卷(第2期);正文第3节 *
QIIME allows analysis of high-throughput community sequencing data;J Gregory Caporaso et al;《Nature Methods》;20100531;第7卷(第5期);参见图1 *
人类肠道微生物组与相关疾病研究进展;张泽等;《生命科学》;20140731;第26卷(第7期);第768-772页 *
高通量16SrRNA标签测序法比较人与不同动物肠道微生物组多样性;邓冠华等;《生态科学》;20140930;第33卷(第5期);第851-857页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111575358A (zh) * 2020-05-11 2020-08-25 菏泽市疾病预防控制中心(挂市卫生检测检验中心牌子) 非诊断目的的肠道微生物定性与定量检测方法及检测系统

Also Published As

Publication number Publication date
CN107463800A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463800B (zh) 一种肠道微生物信息分析方法及系统
Jarvis Statistical aspects of the microbiological examination of foods
Smith et al. Applications of artificial intelligence in clinical microbiology diagnostic testing
CN107368700A (zh) 基于计算云平台的微生物多样性交互分析系统及其方法
Culverhouse et al. An empirical assessment of the consistency of taxonomic identifications
US20060282222A1 (en) Data analysis system and data analysis method
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
CN108345768B (zh) 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN111462819A (zh) 肠道微生物检测数据分析方法、自动化解读系统及介质
Schwabe et al. Research grade marijuana supplied by the National Institute on Drug Abuse is genetically divergent from commercially available Cannabis
CN111312393A (zh) 一种结合主动学习的时序深度生存分析系统
CN107169259A (zh) 基于协同过滤和建议的个性化医学决定支持系统
Brinkman Improving the rigor and reproducibility of flow cytometry-based clinical research and trials through automated data analysis
CN111445991A (zh) 一种基于细胞转录组数据进行临床免疫监测的方法
CN112434032B (zh) 一种自动特征生成系统和方法
Fomicheva et al. Mastering DNA content estimation by flow cytometry as an efficient tool for plant breeding and biodiversity research
CN110008427B (zh) 一种整合多组学知识库的交互式生物信息云分析平台
CN112185467A (zh) 检查辅助方法、第一检查辅助装置、第二检查辅助装置和存储介质
Danila et al. Leaf geometric morphometric analyses of Callicarpa and Geunsia (Lamiaceae) in the Malesian region
Leonelli Process-Sensitive Naming: Trait Descriptors and the Shifting Semantics of Plant (Data) Science
Cheung Defining confidence in flow cytometry automated data analysis software platforms
CN110782997A (zh) 一种基于不良反应监测报告的药品风险评估模型
JP2008148798A (ja) 心理検査結果のデータ処理方法、その表示方法及びデータ処理プログラム並びにコンピュータ読み取り可能な記録媒体
CN105349643B (zh) 预测睡眠剥夺后5-羟色胺变化的方法与microRNAs标志物
Trostle et al. MECP2pedia: a comprehensive transcriptome portal for MECP2 disease research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant