CN211578386U

CN211578386U - 一种宏基因组分析装置

Info

Publication number: CN211578386U
Application number: CN201921468717.3U
Authority: CN
Inventors: 刘三阳; 陈鹏燕; 刘涛; 李志民; 李大为; 玄兆伶; 王海良; 王娟
Original assignee: Anoroad Institute Of Life Science; Anouta Gene Technology Beijing Co ltd; Beijing Annoroad Medical Laboratory Co ltd; Zhejiang Annoroad Biotechnology Co ltd; Annoroad Yiwu Medical Inspection Co ltd
Current assignee: Annoroad Gene Technology Beijing Co ltd; Beijing Annoroad Medical Laboratory Co ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-09-25
Anticipated expiration: 2029-09-05

Abstract

本实用新型涉及一种宏基因组分析装置，其包括：测序组件，用于获取两组以上核酸样本的核酸序列；数据库比对组件，其设置在测序组件的下游，用于将所述核酸序列与参照数据库进行比对进而得到比对后的核酸序列；综合分析组件，其设置在数据库比对组件的下游，用于分析比对后的核酸序列和收集组间差异信息；以及分析结果输出组件，其设置在综合分析组件的下游，用于输出所述差异信息。

Description

一种宏基因组分析装置

技术领域

本实用新型涉及一种宏基因组分析装置，其普遍适用于多种研究对象，能够用于多种研究对象的差异基因和差异物种分析，并可以实现通路富集。

背景技术

宏基因组：宏基因组(Metagenome)(也称微生物环境基因组MicrobialEnvironmental Genome,或元基因组)是由Handelsman等1998年提出的新名词，其定义为“the genomes of the total microbiota found in nature”,即环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因，目前主要指环境样本中的细菌和真菌的基因组总和。

宏基因组学(或元基因组学，metagenomics)是一种以环境样本中的微生物群体基因组为研究对象，以功能基因筛选和/或测序分析为研究手段，以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。一般包括从环境样本中提取基因组DNA,进行高通量测序分析，或克隆DNA到合适的载体，导入宿主菌体，筛选目的转化子等工作。

16S:16SrRNA(16S)为核糖体的RNA的一个亚基，16SrDNA就是编码该亚基的基因。细菌rRNA(核糖体RNA)按沉降系数分为3种，分别为5S、16S和23S rRNA。16S rDNA是细菌染色体上编码rRNA相对应的DNA序列，存在于所有细菌染色体基因中。16S rDNA是细菌的系统分类研究中最有用的和最常用的分子钟，其种类少，含量大(约占细菌RNA含量的80％)，分子大小适中，存在于所有的生物中，其进化具有良好的时钟性质，在结构与功能上具有高度的保守性，素有“细菌化石”之称。在大多数原核生物中rDNA都具有多个拷贝，5S、16S、23SrDNA的拷贝数相同。16S rDNA由于大小适中，约1.5Kb左右，其既能体现不同菌属之间的差异，又能利用测序技术较容易地得到其序列，故被细菌学家和分类学家接受。

如上所述，宏基因组是一种非常重要的分子生物研究领域，其以环境样本中的微生物群体基因组为研究对象，环境样本主要包括水体、土壤和生物体等。然而由于环境样本间的性质存在较大差异。目前尚没有可以普遍适用于多种研究对象的宏基因组分析装置，导致宏基因组分析的效能不高。此外，对人类肠道宏基因组的研究因其环境样本的特殊复杂性，也存在分析效能不高的问题。

实用新型内容

肠道宏基因组与人类健康息息相关，是重要的研究对象之一。本实用新型以生物体中人类肠道宏基因组为研究基础，开发了一种能够普遍适用于多种研究对象的宏基因组分析装置。

相比对其它研究对象，人类肠道宏基因组的特点如下：(1)存在少量宿主DNA污染；(2)多数菌体已知；(3)以大肠杆菌为主；(4)多为case-control型设计，以寻找生物标记物种或者基因为目的。基于上述特点，本实用新型在宏基因组的分析过程中：首先，结合全基因组鸟枪法的测序片段及其对参考物种基因组序列的覆盖情况，判断物种信息更具参考价值。其次，采用本地数据库存储参考物种基因组序列，与此同时，当研究对象混有本地数据库没有记载的物种时，通过调用本地数据库以外的其他收录有本地数据库没有记载的物种的数据库进行处理，并且将本地数据库没有记载的物种的数据收录进本地数据库，在提高分析效率的同时，也使本地数据库不断完善和丰富。此外，不仅在物种与基因层面寻找生物标记，还通过通路富集，把某一个代谢通路作为研究对像，更方便把握样本间的整体变化情况。第四，并非所有检测得到的生物标记都有效，生物标记无效的原因在于，部分差异物种或差异基因是在研究对象中惯常存在的，即无效的生物标记虽然在具有不同表征的研究对象间存在差异，但这些差异(如差异物种或差异基因)并不是引起研究对象具有不同表征的原因，因此需要排除无效的生物标记来提高检测结果的准确度和检测效率。

具体来说，本实用新型涉及一种宏基因组分析装置，其包括：测序组件，用于获取两组以上核酸样本的核酸序列；数据库比对组件，其设置在测序组件的下游，用于将所述核酸序列与参照数据库进行比对进而得到比对后的核酸序列；综合分析组件，其设置在数据库比对组件的下游，用于分析比对后的核酸序列和收集所述两组以上核酸样本的组间差异信息；以及

分析结果输出组件，其设置在综合分析组件的下游，用于输出所述组间差异信息，其中，所述数据库比对组件包括：数据库存储单元、第一比对单元和第二比对单元，所述数据库存储单元，其设置在测序组件的下游，用于存储参照数据库，所述参照数据库为第一数据库和第二数据库，

所述第一比对单元，其设置在测序组件的下游，与数据库存储单元相连接，用于将所述核酸序列通过数据库存储单元与第一数据库进行比对，并收集与第一数据库不相匹配的核酸序列；

所述第二比对单元，其设置在第一比对单元的下游，与数据库存储单元相连接，用于将所述与第一数据库不匹配的核酸序列通过数据库存储单元与第二数据库进行比对，并收集与第二数据库相匹配的核酸序列，得到比对后的核酸序列；

所述综合分析组件包括组间差异统计单元、差异物种收集单元和差异基因收集单元，

所述组间差异统计单元，其设置在数据库比对组件的下游，用于获取获取组间差异信息。所述组间差异信息包括任一物种的组间差异信息。

所述差异物种收集单元和差异基因收集单元，其并列设置在组间差异统计单元的下游，用于收集所述组间差异信息中的差异物种和差异基因。

在本实用新型的一个具体的宏基因组分析装置中，所述数据库比对组件还包括数据库调用单元和补充比对单元，

所述数据库调用单元，其与所述数据库存储单元并列设置，用于调取所述数据库存储单元没有存储的第三数据库，

所述补充比对单元，其设置在第二比对单元的下游，与数据库存储单元和数据库调用单元相连接，用于将所述与第二数据库不相匹配的核酸序列通过数据库调用单元与第三数据库进行比对，并收集与第三数据库相匹配的核酸序列，得到比对后的核酸序列，以及与第三数据库相匹配的核酸序列所对应的物种和基因数据。

在本实用新型的另一个具体的宏基因组分析装置中，所述补充比对单元还用于将所述与第三数据库相匹配的核酸序列所对应的物种和基因数据补充到第二数据库中。

在本实用新型的另一个具体的宏基因组分析装置中，所述差异物种收集单元包括指定物种排除元件，所述指定物种排除元件，其用于消除指定物种的核酸序列。所述指定物种为组内差异统计值和组间差异统计值没有显著统计学差异的物种。

在本实用新型的另一个具体的宏基因组分析装置中，所述第一数据库为宿主基因组数据库。所述第二数据库为微生物基因组数据库。或者，所述第一数据库为宿主基因组数据库和所述第二数据库为微生物基因组数据库。

在本实用新型的另一个具体的宏基因组分析装置中，该宏基因组分析装置还包括：过滤组件，其设置在测序组件的下游，以及数据库比对组件的上游，用于对测序组件获取的核酸序列进行过滤处理，以去除不符合测序质量要求的核酸序列。

在本实用新型的另一个具体的宏基因组分析装置中，该宏基因组分析装置还包括：修正组件，其设置在数据库比对组件的下游，以及综合分析组件的上游，用于对通过第二比对单元获得的比对后的核酸序列进行定量修正。

在本实用新型的另一个具体的宏基因组分析装置中，综合分析组件还包括：注释单元，其设置在差异物种收集单元和差异基因收集单元的下游，用于对所述差异物种信息或差异基因信息进行注释，从而进行富集分析。

具体来说，所述富集分析包括通路富集。通路可以是例如脂类代谢通路、糖类代谢通路等。

在本实用新型的另一个具体的宏基因组分析装置中，该宏基因组分析装置还包括：核酸提取组件，其设置在测序组件的上游，其用于获取两组以上核酸样本，所述两组核酸样本来自于待测对象，所述待测对象为两组以上具有相近来源并且具有不同表征的样本。

在本实用新型的另一个具体的宏基因组分析装置中，该宏基因组分析装置还包括：打断组件，其设置在核酸提取组件的下游，以及测序组件的上游，用于对所述核酸样本进行打断处理。

在本实用新型的另一个具体的宏基因组分析装置中，所述待测对象为两组以上具有相近来源并且具有不同表征的样本，优选的待测对象为分别从具有差异表征的两组以上人群采集的样本。例如，可以是分别采集自肥胖人群和标准体重人群的唾液样本、粪便样本等。

实用新型的效果

与现有技术中的同类产品相比，本实用新型的宏基因组分析装置：仅通过将测序数据与参考基因组序列进行比对而不需要对测序数据进行组装，可以对宏基因组进行更准确的描绘，同时提高宏基因组的分析效率；采用本地数据库存储单元存储参照物种基因组序列，并且可以将本地数据库以外的其他收录有本地数据库没有记载的物种的数据收录进本地数据库存储单元，在提高分析效率的同时使本地数据库不断丰富和完善；设置有宿主基因组数据库和宿主基因组数据库比对组件，可以除去宿主基因组数据从而降低作为分析基础的整体数据量，同时也有效地排除宿主基因组对宏基因组分析的干扰，进一步提高宏基因组分析的效率；增加屏蔽指定物种的元件，提高组间差异信息分析的准确度；增加注释单元，从而能够对差异物种和差异基因进行进一步的富集分析，特别是进行诸如代谢通路等的通路富集分析。本实用新型的宏基因组分析装置在应用于人类肠道宏基因组的研究时，上述效果更为显著。

附图说明

图1示出了本实用新型的宏基因组分析装置的一种实施方式的示意图；

图2示出了本实用新型的宏基因组分析装置的数据库比对组件的另一种实施方式的示意图；

图3示出了本实用新型的宏基因组分析装置的另一种实施方式的示意图；

图4示出了本实用新型的宏基因组分析装置的又一种实施方式的示意图；

图5示出了本实用新型的宏基因组分析装置的再又一种实施方式的示意图；

图6示出了本实用新型的宏基因组分析装置的再另一种实施方式的示意图；

附图标记说明

1-核酸提取组件，2-测序组件，3-数据库比对组件，4-综合分析组件，5-分析结果输出组件，6-过滤组件，7-修正组件，8-打断组件，

31-数据库存储单元，32-第一比对单元，33-第二比对单元，34-补充比对单元，35-数据库调用单元，

41-组间差异统计单元，42-差异物种收集单元，43-差异基因收集单元，44-注释单元。

具体实施方式

以下采用实施例和附图来详细说明本实用新型的具体实施方式，借此对本实用新型如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。

本实用新型中涉及如下定义。

高通量测序：高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology)，能一次并行对几十万到几百万条DNA分子进行序列测定。

“第一”和“第二”仅用于描述目的，而不能理解为指示或者暗示相对重要性或者隐含指明所指示的技术特征的数量。例如，本新型所述待测对象为两组以上具有相近来源并且具有不同表征的样本。当来源近似并且具有不同表征的待测对象为两组时，待测对象即为“第一对象”和“第二对象”。

“第一对象”和“第二对象”意在表示两种不同的群体，例如第一对象表示具有一类表征的某一来源的群组，第二对象表示具有与第一对象不同的具有另一表征的与第一对象的来源具有相近来源的群组。

物种是指是生物分类学的基本单位。物种是互交繁殖的相同生物形成的自然群体，与其他相似群体在生殖上相互隔离，并在自然界占据一定的生态位。

组间差异信息是指应用统计学上的假设检验方法检验两组或多组间存在的差异及其差异程度，例如可以采用Wilcoxon检验方法检验两组数据，通常p值小于0.05，一般认为差异存在。

在本实用性型中，组间差异信息是指针对两组以上核酸样本，其利用应用统计学上的假设检验方法检验两组或多组间的核酸样本之间存在的差异及其差异程度。

差异物种是指两组或多组样本之间，它们之间的物种的丰度经过上述组间差异分析，结果为显著存在差异的物种。

差异基因是指两组或多组样本之间，它们之间的基因的丰度经过上述组间差异分析，结果显著存在差异的基因。

具有不同的表征可以指待测对象，如第一对象和第二对象，之间的任何不同，例如可以是第一对象具有某种生理上的异常，而第二对象不具有该种异常，或者是第二对象具有某种心理上的异常，而第二对象不具有该种异常。具体来说，在本实用新型中，第一对象患有某种疾病的一类群体，第二对象则表示不患有该疾病的另一类人群。

此外，疾病可以是任何类型的疾病，可以是肿瘤、自身免疫性疾病、遗传类疾病和代谢类疾病等中的任意一种或两种以上的组合。

如图1所示，本实用新型涉及一种宏基因组分析装置，其包括：核酸提取组件1，其用于获取待测对象的核酸样本，所述待测对象为具有相近来源并且具有不同表征的两组以上的核酸样本；测序组件2，其设置在核酸提取组件1的下游，用于获取上述核酸样本的核酸序列；数据库比对组件3，其设置在测序组件2的下游，用于将所述核酸序列与参照数据库进行比对进而得到比对后的核酸序列；综合分析组件4，其设置在数据库比对组件3的下游，用于分析比对后的核酸序列和收集所述待测对象的差异信息；以及分析结果输出组件5，其设置在综合分析组件4的下游，用于输出所述差异信息。

在本实用新型的一个具体的实施方式中，核酸提取组件1，其用于获取待测对象的核酸样本，所述待测对象为具有相近来源并且具有不同表征的两组以上样本。具体来说，核酸提取组件1采用任何常规的元器件从生物样本中提取核酸样本，例如，在核酸提取组件1中，放置装有化学试剂或酶试剂的盛装元器件，以裂解来自至少两个待测对象的细胞，由此提取出DNA样本。或者在核酸提取组件1中，可以设置有电极或探头的元器件从而可以向来自至少两个待测对象的细胞施加物理压力，从而通过物理方法将细胞裂解。常用物理刺激方法包括例如煮沸，冻融，微波，超声，研磨等。化学试剂包括高盐处理试剂、表面活性剂试剂、酚处理试剂等，酶试剂包括裂解酶处理试剂、溶菌酶处理试剂、以及蛋白酶K处理试剂等。此外，还可以列举通过在核酸提取组件1中设置离心柱、以及磁珠等元器件用来获取至少来自两个待测对象的核酸样本。

在本实用新型的一个具体的实施方式中，待测对象为具有相近来源并且具有不同表征的两组以上样本，例如，是采集自水体、土壤和生物体等特定环境下的微生物群体样本。基于此得到的核酸样本的核酸序列包括待测对象所有的DNA信息。例如，当待测对象为取自人类粪便样本时，核酸样本的核酸序列一般会包括人类基因组的序列以及微生物基因组序列，即人类基因组序列为宿主基因组序列。在本实用新型中，宿主包括水体、土壤和生物体等特定环境。待测对象通常至少包括来自第一对象和第二对象的核酸样本，其中，第一对象和第二对象具有相近来源，但其具有不同表征。例如来自第一对象的核酸样本和来自第二对象的核酸样本是分离来自不同对象的相同类型的样本，例如相同类型的样本是指来自第一对象的核酸样本是来自第一对象的血清的核酸样本，来自第二对象的核酸样本是来自第二对象的血清的核酸样本，或者来自第一对象的核酸样本是来自第一对象的粪便的核酸样本，来自第二对象的核酸样本是来自第二对象的粪便的核酸样本。第一对象和第二对象具有相近来源，例如都来自水体、土壤和生物体等特定环境。优选的待测对象为人类。在本实用新型中，具有不同的表征通常是指该物种具有不同的状态，例如，第一对象罹患某种疾病，而第二对象为健康的受试者。其中，核酸为基因组DNA，16SrDNA，RNA中的任意。

在本实用新型的一个具体的实施方式中，测序组件2，其设置在核酸提取组件1的下游，用于获取所述核酸样本的核酸序列。在本实用新型测序组件2可以采用Illumina、Pacbio、Nanopore等测序仪器，从而可以获取待测对象核酸样本的核酸序列，例如来自第一对象和第二对象的核酸序列，即获取第一测序结果和第二测序结果。在本实用新型中，利用测序组件2获得的核酸序列通常是指下机的原始测序数据。

在一个具体的实施方式中，数据库比对组件3，其设置在测序组件2的下游，用于将所述核酸序列与参照数据库进行比对进而得到比对后的核酸序列。比对后的核酸序列通常包括片段数量、片段参考序列的位置，片段分类信息等。具体来说，数据库比对组件3包括：数据库存储单元31、第一比对单元32和第二比对单元33。其中，数据库存储单元31，其设置在测序组件2的下游，用于存储参照数据库，所述参照数据库为第一数据库和第二数据库。

在一个具体的实施方式中，第一数据库为宿主基因组数据库，可以是例如，动物基因组数据库、植物基因组数据库、人类基因组数据库，优选为人类基因组数据库。在本实用新型中，宿主通常包括个体或环境，环境可以是例如水体和土壤等特定环境；个体可以是例如生物体等特定个体。具体的，例如，当待测对象为取自人类的粪便样本时，宿主为人类，宿主数据库为人类基因组数据库。

在一个具体的实施方式中，第二数据库为微生物基因组数据库，微生物基因组数据库通常包括，微生物基因组数据库，如细菌基因组数据库和/或病毒基因组数据库等。优选的第二数据库为细菌基因组数据库，进一步优选的第二数据库为肠道细菌基因组数据库。

在一个具体的实施方式中，数据库存储单元31只要是可以用于存储参照数据库的载体即可，没有其他的限定，通常其用于存储参照数据库和测序组件2获得的核酸序列。其中，参照数据库包括但不限于其收录物种的序列和其他序列相关信息；核酸序列包括但不限于其序列信息以及和序列信息相关的其他信息。

在一个具体的实施方式中，第一比对单元32其设置在测序组件2的下游，与数据库存储单元31相连接，用于将所述核酸序列通过数据库存储单元31与第一数据库进行比对，并收集与第一数据库不相匹配的核酸序列。在第一比对单元32中上述在测序组件2获取的至少两个待测对象的核酸样本的核酸序列与第一数据库中的参照序列进行比对，将与第一数据库中的数据比对上的序列去除。具体来说，在第一比对单元32中可以安装有bwa、blasr、bowtie等工具将第一待测对象的测序结果和第二待测对象的测序结果与第一数据库，例如人类基因组数据库进行比对，通常比对上的序列为宿主基因组序列，将比对上的序列，即宿主污染去除。

在一个具体的实施方式中，第二比对单元33，其设置在第一比对单元32的下游，与数据库存储单元31相连接，用于将所述与第一数据库不匹配的核酸序列通过数据库存储单元31与第二数据库进行比对，并收集与第二数据库相匹配的核酸序列，得到比对后的核酸序列。具体来说，将上述与第一数据库比对之后去除污染的序列导入第二比对单元33，在第二比对单元33中与第二数据库进行比较。第二比对单元33中可以安装有bwa、blasr、bowtie等工具，将与第一数据库进行比对之后，去除了与第一数据库相匹配的核酸序列之后剩余的核酸序列与第二数据库，例如肠道细菌基因组数据库进行比对。肠道细菌基因组数据库可以是来自NCBI的肠道菌genome数据库，也可以是从其它渠道获得的肠道微生物基因组数据库，例如可以是fasta格式。

在本实用新型中，通过数据库比对组件3获得的比对后的核酸序列包括多种比对后的核酸序列信息，所述核酸序列信息包括核酸的排列顺序，每个核酸的测序深度，核酸序列对应的物种和基因以及可以用于统计物种或基因的丰度信息和相对丰度信息，其中相对丰度包含物种相对丰度和基因功能相对丰度。

在一个具体的实施方式中，如图2所示，数据库比对组件3还包括数据库调用单元35和补充比对单元34。其中，数据库调用单元35，其与所述数据库存储单元31并列设置，用于调取所述数据库存储单元31没有存储的第三数据库。补充比对单元34，其设置在第二比对单元33的下游，与数据库存储单元31和数据库调用单元35相连接，用于将与第二数据库不相匹配的核酸序列通过数据库调用单元35与第三数据库进行比对，并收集与第三数据库相匹配的核酸序列，得到比对后的核酸序列，以及数据库存储单元31未存储的物种信息和基因信息。

在本具体的实施方式中，第三数据库是指上述第一数据库和第二数据库以外的其他数据库，包括例如酵母基因组数据库、真菌基因组数据库、病毒基因组数据库等等。

在一个具体的实施方式中，补充比对单元34还用于将所述数据库存储单元31未存储的物种和基因补充到第二数据库中。所述未存储的物种和基因来自于与第三数据库相匹配的核酸序列所对应的物种的所有数据，包括该物种的物种信息以及该物种的所有基因数据。所述数据库存储单元31未存储的物种数据也可以通过数据库调用单元35直接补充至数据库存储单元31的第二数据库中。

在上述包括数据库调用单元35和补充比对单元34的实施方式中，由于数据库调用单元35能够调取所述数据库存储单元31没有存储的第三数据库。补充比对单元34能够将所述与第二数据库不相匹配的核酸序列通过数据库调用单元35与第三数据库进行比对，并收集与第三数据库相匹配的核酸序列，得到比对后的核酸序列以及数据库存储单元31未存储的物种和基因，这样一来，本实用新型的装置可以利用开放资源中丰富的参照数据库，并不断完善本装置中已存储的数据库(如第二数据库)。

在一个具体的实施方式中，综合分析组件4设置在数据库比对组件3的下游，用于分析比对后的核酸序列和收集两组以上待测对象的组间差异信息。所述组间差异信息包括差异物种信息和差异基因信息。所述组间差异信息优选为任一物种的组间差异信息，如硫酸盐还原细菌或产甲烷古菌等厌氧细菌在两组待测对象中呈现出的不同的物种丰度和基因丰度。所述差异是指具有统计学意义上的差异。综合分析组件4包括组间差异统计单元41、差异物种收集单元42和差异基因收集单元43。其中，组间差异统计单元41，其设置在数据库比对组件3的下游，用于获取待测对象的组间差异统计值。差异物种收集单元42和差异基因收集单元43，其并列设置在组间差异统计单元41的下游，用于收集具有显著统计学差异的物种和基因。

具体来说，在本文中，组间差异统计值包括物种的相对丰度或基因的相对丰度，组间差异统计值可以用于表征具有不同表征的两组以上样本之间具有差异的物种或基因的相对丰度信息。例如，在组间差异统计单元41可以安装有Lefse工具等进行差异基因组或差异物种的鉴定。

在一个具体的实施方式中，差异物种收集单元42和差异基因收集单元43分别用于根据组间差异统计单元41获得的组间差异统计值收集具有显著统计学差异的物种和基因。

一个具体的实施方式中，可以在差异物种收集单元42和差异基因收集单元43中安装metageneMarkers等工具，预测基因序列，结合片段的丰度信息，得到物种与基因的相对丰度信息。还可以在差异物种收集单元42和差异基因收集单元43中安装R语言脚本分析差异物种或者差异基因信息。

在一个具体的实施方式中，差异物种收集单元42包括指定物种排除元件。指定物种排除元件设置在组间差异统计元件41下游，用于消除指定物种的核酸序列。其中，指定物种为组内差异统计值和组间差异统计值没有显著统计学差异的物种。例如，大肠杆菌的组内差异统计值和组间差异统计值没有显著统计学差异，则将大肠杆菌作为指定物种通过指定物种排除元件将大肠杆菌的核酸序列予以消除处理。在本实施方式中，由于有效地排除不具有分析意义的组间差异物种，同时降低作为分析基础的数据量，因此能够提高分析效率，缩短分析周期。

在一个具体的实施方式中，在指定物种排除元件中，除去指定物种是指将组内差异统计值和组间差异统计值没有显著统计学差异的物种信息屏蔽。具体来说，在物种排除元件中，所述指定物种的选择标准是：例如在正常(阴性)样本之间存在差异值A，在正常(阴性)与患病(阳性)样本之间存在差异值B，如果指定物种排除元件确定差异值A和差异值B之间无显著差异时，则可以确定该物种为指定物种，从而将该指定物种除去。

在一个具体的实施方式中，分析结果输出组件5设置在综合分析组件4的下游，用于输出综合分析组件4中获取的差异信息。在本文中，对于分析结果输出组件5没有具体的限定，只要可以用于从综合分析组件4中调取相应的分析结果并输出即可。

在本实用新型中，上游和下游是指在分析器操作流程上的上游和下游，在本实用新型中，组件或元件或单元A设置在组件或元件或单元B的下游是指在宏基因组分析装置整体的操作流程上，先通过组件或元件或单元B对样本进行处理，然后再通过组件或元件或单元A对样本进行处理。此外，组件或元件或单元A只要设置在组件或元件或单元B的下游即可，并不排除组件或元件或单元A和组件或元件或单元B中还可以包括其他的组件或元件或单元。同理，组件或元件或单元A设置在组件或元件或单元B的上游是指在宏基因组分析装置整体的操作流程上，先通过组件或元件或单元B对样本进行处理，然后再通过组件或元件或单元A对样本进行处理。此外，组件或元件或单元A只要设置在组件或元件或单元B的上游即可，并不排除组件或元件或单元A和组件或元件或单元B中还可以包括其他的组件或元件或单元。组件或元件或单元A和组件或元件或单元B并列设置是在整个装置的分析的过程中，对来自于处理过程的是上游的数据同时流入到组件或元件或单元A和组件或元件或单元B，分别在组件或元件或单元A和组件或元件或单元B中进行分析和处理，而不再需要将组件或元件或单元A或组件或元件或单元B处理过的样本再次通过组件或元件或单元B或组件或元件或单元A。

组件或元件或单元A和组件或元件或单元B可以各自任意指代上述本实用新型中提及的核酸提取组件、测序组件、数据库比对组件、综合分析组件、修正组件、打断组件等等。也可以指代数据库存储单元、第一对比单元、第二对比单元、组间差异统计单元、差异物种收集单元、差异基因收集单元、数据库调用单元、补充比对单元、过滤组件、以及注释单元。也可以指代指定物种排除元件。

如图3所示，本实用新型涉及一种宏基因组分析装置，其包括：核酸提取组件1，其用于获取待测对象的核酸样本，所述待测对象为具有相同来源并且具有不同表征的两组以上样本；测序组件2，其设置在核酸提取组件1的下游，用于获取所述核酸样本的核酸序列；过滤组件6，其设置在测序组件2的下游，以及数据库比对组件3的上游，用于对测序组件2获取的核酸序列进行过滤处理，以去除不符合质量要求的核酸序列；数据库比对组件3，其设置在测序组件2(过滤组件6)的下游，用于将所述核酸序列与参照数据库进行比对进而得到比对后的核酸序列；综合分析组件4，其设置在数据库比对组件3的下游，用于分析比对后的核酸序列和收集所述待测对象的差异信息；以及分析结果输出组件5，其设置在综合分析组件4的下游，用于输出所述差异信息。

在本具体实施方式中，除了设置了过滤组件6之外，与图1涉及的实施方式的各部件的描述完全相同。过滤组件6设置在测序组件2和数据库比对组件3之间，用于对测序组件2获取的核酸序列进行过滤处理，以去除不符合质量要求的核酸序列。在一个具体的实施方式中，过滤组件6对上述第一测序结果和第二测序结果进行过滤处理以去除不符合要求的测序数据从而获得经过滤的第一测序结果和经过滤的第二测序结果，具体来说，对测序数据进行过滤，去除掉不符合要求的测序数据。所述不符合要求的测序数据包括测序接头序列、低质量序列等。过滤组件6中可以安装fqtools工具对测序数据进行过滤，以除去接头污染的序列(Reads)，低质量的序列(Reads)和含N比例大于5％的序列(Reads)。在如图3所示的具体的实施方式中，经过过滤组件6过滤处理的数据进入到数据库比对组件3进行后续处理。通过设置过滤组件6可以去除掉测序数据中的噪音，可以进一步提高宏基因组分析装置的分析准确度和分析效率。

如图4所示，核酸提取组件1，其用于获取待测对象的核酸样本，所述待测对象为具有相近来源并且具有不同表征的两组以上样本；测序组件2，其设置在核酸提取组件1的下游，用于获取所述核酸样本的核酸序列；数据库比对组件3，其设置在测序组件2的下游，用于将所述核酸序列与参照数据库进行比对进而得到比对后的核酸序列；修正组件7，其设置在数据库比对组件3的下游，以及综合分析组件4的上游，用于对通过第二比对单元33获得的比对后的核酸序列进行修正；综合分析组件4，其设置在数据库比对组件3(修正组件7)的下游，用于分析比对后的核酸序列和收集所述待测对象的差异信息；以及分析结果输出组件5，其设置在综合分析组件4的下游，用于输出所述差异信息。

在本具体的实施方式中，除了设置了修正组件7之外，与图1涉及的实施方式的各部件的描述完全相同。修正组件7设置在数据库比对组件3和综合分析组件4之间，用于对通过第二比对单元33获得的比对后的核酸序列进行修正。在一个具体的实施方式中，在修正组件7中将经过第二比对单元33的数据与参照数据库进行聚类比对，例如在修正组件7中可以安装RDP-classifie、mothur、qiime等工具来针对16S扩增子数据进行聚类比对，或者也可以在修正组件7中安装metaphlan2、mOTU、PanPhlAn等工具来针对宏基因组全基因组测序数据进行聚类对比，并且在该修正组件7中还安装有Perl语言脚本从而对对结果进行修正。

在如图4所示的具体的实施方式中，经过修正组件7修正处理的数据进入到综合分析组件4中进行进一步分析。通过修正组件7来对通过第二比对单元33获得的比对后的核酸序列进行修正，可以屏蔽来自指定物种的信息，从而进一步提高在后续综合分析组件4中进行分析的效率。

如图5所示，本实用新型涉及一种宏基因组分析装置，在该装置的综合分析组件4还包括注释单元44，其设置在差异物种收集单元42和差异基因收集单元43的下游，用于对所述差异物种信息或差异基因信息进行注释，从而进行富集分析。所述富集分析包括通路富集。通路可以是例如脂类代谢通路、糖类代谢通路等。

在该具体的实施方式中，除了在综合分析组件4中设置了注释单元44之外，与图1涉及的实施方式的各部件的描述完全相同。注释单元44设置在差异物种收集单元42和差异基因收集单元43的下游，用于对所述差异物种信息或差异基因信息进行者注释，从而进行富集分析。在一个具体的实施方式中，例如在注释单元44中安装R语言脚本对差异基因进行注释，在获取marker物种与基因信息的基础上，进一步富集上述信息得到通路信息，从而能够在了解基因层面变化情况的基础上还能进一步了解这些基因来自于哪些通路，例如哪些代谢通路，代谢通路包括脂类代谢通路和糖类代谢通路等。

如图6所示，本实用新型涉及一种宏基因组分析装置，其包括：核酸提取组件1，其用于获取待测对象的核酸样本，所述待测对象为具有相近来源并且具有不同表征的两组以上样本；打断组件8，其设置在核酸提取组件1的下游，以及测序组件2的上游，用于对所述核酸样本进行打断处理；测序组件2，其设置在核酸提取组件1(打断组件8)的下游，用于获取所述核酸样本的核酸序列；数据库比对组件3，其设置在测序组件2的下游，用于将所述核酸序列与参照数据库进行比对进而得到比对后的核酸序列；综合分析组件4，其设置在数据库比对组件3的下游，用于分析比对后的核酸序列和收集所述待测对象的差异信息；以及分析结果输出组件5，其设置在综合分析组件4的下游，用于输出所述差异信息。

在本具体实施方式中，除了设置了打断组件8之外，与图1涉及的实施方式的各部件的描述完全相同。设置打断组件8用于对核酸样本进行打断处理。在一个具体的实施方式中，在打断组件8中设置有超声探头或者酶试剂进一步将核酸提取组件获取的核酸样本打断成为更小的核酸样本片段，从而形成可以利用高通量测序装置进行测序的核酸片段。

上述图1到图6描述了几种具体的实施方式，本领域技术人员当然可以理解，这些实施方式中涉及的各组件、单元和元件等可以任意组合，例如在又一个具体的实施方式中，本实用新型涉及的宏基因组分析装置可以包括：核酸提取组件1、打断组件8、测序组件2、过滤组件6、数据库比对组件3、修正组件7、综合分析组件4以及分析结果输出组件5。

实施例

在本实施例中，针对来自4个罹患糖尿病的患者与4个正常受试者，利用本实施例的宏基因组分析装置进行分析，将上述受试者分为患病组和正常组两组，每组样本各4个。

使用核酸提取组件1分别提取上述8个待测对象的DNA(核酸样本)。将提取的核酸样本送入到打断组件8中，利用超声探头将提取的DNA样本进行打断处理。然后经打断处理的样本送入到测序组件2中，利用Illumina测序组件进行测序，得到经过测序的核酸序列。然后将核酸序列送入到过滤组件6，在本实施例中的过滤组件6中安装有fqtools，对测序数据进行过滤，过滤标准如下：去除接头污染的序列(序列中接头污染的碱基数大于5bp)；去除低质量的序列(数量超过15％的碱基的质量值低于19的序列)；去除含N比例大于5％的序列。

然后将经过过滤的样本送入到数据库比对组件3中，在第一比对单元32中，在本实施例中的第一比对单元32中安装有bwa工具将经过过滤的测序数据与存储在数据库存储单元31的人类基因序列hg19(第一数据库)进行比对。然后保留没有与人类基因组比对上的序列，即除去与人类基因组比对上的序列。

再将没有与人类基因组比对上的序列送入到在第二比对单元33中，在本实施例中的在第二比对单元33中安装有bwa工具，将没有与人类基因组比对上的序列与存储在数据库存储单元31的肠道细菌基因组数据库(第二数据库，来自NCBI)进行比对。然后保留与肠道细菌基因组数据库相匹配的序列。第二数据库可以是来自NCBI的肠道细菌基因组数据库，也可以是其它渠道的肠道菌数据库，如fasta格式即可。

本实施例中经过第二比对单元33处理之后的结果如下表1所示：

表1

将经过第二比对单元33的数据送入修正组件7中，在本实施例的修正组件7中使用metaphlan2工具取经第二比对单元33比对上的序列在数据库中的物种与基因信息，使用Perl语言脚本对结果进行修正；同时perl语言脚本将物种与基因信息转制成mOTU表格(宏基因组操作分类单元，每一个单元视为一类菌种，但它与生物学上的种属概念并不一一对应，可能多个分类单元均是同一个种下的菌或者一个分类单元对应一个属的菌)或基因丰度表格，如下表2所示。

表2

在本实施例中，利用本实用新型的宏基因组分析装置可以进行如下分析差异物种和/或差异基因信息的方法：

通过核酸提取组件1从第一对象和第二对象提取DNA(核酸样本)。

通过测序组件2对来自第一对象和第二对象的核酸样本进行核酸测序，以获得属于第一对象的第一测序结果和属于第二对象的第二测序结果。

利用过滤组件6对所述第一测序结果和第二测序结果进行过滤处理以去除不符合要求的测序数据从而获得经过滤的第一测序结果和经过滤的第二测序结果。

利用数据库比对组件3的第一比对单元32将经过滤的第一测序结果和经过滤的第二测序结果与第一数据库中的序列进行比对，将与第一数据库中的数据比对上的序列去除。

利用数据库比对组件3的第二比对单元33，将经过上一步骤去除处理后剩余的序列与第二数据库中的序列进行比对。

提取上一步骤中与第二数据库中的序列比对成功的片段序列的物种与基因的信息，并通过修正组件7对该结果进行修正。

最后，通过综合分析组件4对经过修正的结果进行分析、基因预测获得物种与基因的丰度信息；并基于丰度信息分析第一对象和第二对象之间的差异获得差异物种信息或差异基因信息。

此外，还可以利用综合分析组件4在获得了第一对象和第二对象之间的差异获得差异物种信息或差异基因信息之后，对所述差异物种信息或差异基因信息进行注释，从而进行富集分析，获得基于目标物种与基因的富集信息，如通路信息等。

如上所述，利用本实施例的宏基因组分析装置仅通过将测序数据与参考基因组序列进行比对而不需要对测序数据进行组装，可以对宏基因组进行更准确的描绘，同时提高宏基因组的分析效率。

进一步地，本实施例的宏基因组分析装置采用本地数据库存储单元存储参照物种基因组序列，并且可以将本地数据库以外的其他收录有本地数据库没有记载的物种的数据收录进本地数据库存储单元，在提高分析效率的同时，还能使使本地数据库不断的丰富和完善。

进一步地，本实施例的宏基因组分析装置设置有宿主基因组数据库和宿主基因组数据库比对组件，可以除去宿主基因组数据从而降低作为分析基础的整体数据量，同时也有效地排除宿主基因组对宏基因组分析的干扰，进一步提高宏基因组分析的效率。

进一步地，本实施例的宏基因组分析装置设置有注释单元，能够对差异物种和差异基因进行富集分析，特别是进行诸如代谢通路等的通路富集分析。

本实施例的宏基因组分析装置，可以在差异物种收集单元42中设置有指定物种排除元件。指定物种排除元件设置在组间差异统计元件41下游，用于消除指定物种的核酸序列。增加了指定物种排除元件的宏基因组分析装置可以进一步提高组间差异信息分析的准确度。

尽管以上结合附图对本实用新型的实施方案进行了描述，但本实用新型并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员可以理解：在不脱离本实用新型的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型。

Claims

1.宏基因组分析装置，其特征在于，包括：

测序组件，用于获取两组以上核酸样本的核酸序列；

数据库比对组件，其设置在测序组件的下游，用于将所述核酸序列与参照数据库进行比对进而得到比对后的核酸序列；

综合分析组件，其设置在数据库比对组件的下游，用于分析比对后的核酸序列和收集所述两组以上核酸样本的组间差异信息；以及

分析结果输出组件，其设置在综合分析组件的下游，用于输出所述组间差异信息，

其中，

所述数据库比对组件包括：数据库存储单元、第一比对单元和第二比对单元，

所述数据库存储单元，其设置在测序组件的下游，用于存储参照数据库，所述参照数据库为第一数据库和第二数据库，

所述第二比对单元，其设置在第一比对单元的下游，与数据库存储单元相连接，用于将所述与第一数据库不相匹配的核酸序列通过数据库存储单元与第二数据库进行比对，并收集与第二数据库相匹配的核酸序列，得到比对后的核酸序列；

所述组间差异统计单元，其设置在数据库比对组件的下游，用于获取组间差异信息，

所述差异物种收集单元和差异基因收集单元，其并列设置在组间差异统计单元的下游，分别用于收集所述组间差异信息中的差异物种和差异基因。

2.根据权利要求1所述的宏基因组分析装置，其特征在于，所述数据库比对组件还包括数据库调用单元和补充比对单元，

所述补充比对单元，其设置在第二比对单元的下游，与数据库存储单元和数据库调用单元相连接，用于将与第二数据库不相匹配的核酸序列通过数据库调用单元与第三数据库进行比对，并收集与第三数据库相匹配的核酸序列，得到比对后的核酸序列，以及与第三数据库相匹配的核酸序列所对应的物种和基因数据。

3.根据权利要求2所述的宏基因组分析装置，其特征在于，所述补充比对单元还用于将所述与第三数据库相匹配的核酸序列所对应的物种数据补充到第二数据库中。

4.根据权利要求1所述的宏基因组分析装置，其特征在于，所述差异物种收集单元包括指定物种排除元件，

所述指定物种排除元件，其用于消除指定物种的核酸序列。

5.根据权利要求1～4中任一项所述的宏基因组分析装置，其特征在于，

所述第一数据库为宿主基因组数据库，和/或

所述第二数据库为微生物基因组数据库。

6.根据权利要求1～4中任一项所述的宏基因组分析装置，其特征在于，还包括：

过滤组件，其设置在测序组件的下游，以及数据库比对组件的上游，用于对测序组件获取的核酸序列进行过滤处理，以去除不符合测序质量要求的核酸序列。

7.根据权利要求1～4中任一项所述的宏基因组分析装置，其特征在于，还包括：

修正组件，其设置在数据库比对组件的下游，以及综合分析组件的上游，用于对通过第二比对单元获得的比对后的核酸序列进行定量修正。

8.根据权利要求1～4中任一项所述的宏基因组分析装置，其特征在于，综合分析组件还包括：

注释单元，其设置在差异物种收集单元和差异基因收集单元的下游，用于对所述差异物种信息或差异基因信息进行注释，从而进行富集分析。

9.根据权利要求8所述的宏基因组分析装置，其特征在于，所述的富集分析为通路富集。

10.根据权利要求1～4中任一项所述的宏基因组分析装置，其特征在于，还包括：

核酸提取组件，其设置在测序组件的上游，其用于获取两组以上核酸样本，所述两组以上核酸样本来自于待测对象，所述待测对象为两组以上具有相近来源并且具有不同表征的样本。

11.根据权利要求10所述的宏基因组分析装置，其特征在于，还包括：

打断组件，其设置在核酸提取组件的下游，以及测序组件的上游，用于对所述核酸样本进行打断处理。