CN114121167B

CN114121167B - 一种微生物基因数据库的构建方法及系统

Info

Publication number: CN114121167B
Application number: CN202111443169.0A
Authority: CN
Inventors: 徐晓强; 夏炎; 王晓凯; 谢海亮
Original assignee: Shenzhen Zero One Life Technology Co ltd
Current assignee: Shenzhen Zero One Life Technology Co ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-07-01
Anticipated expiration: 2041-11-30
Also published as: CN114121167A; CN116802740A; WO2023098152A1

Abstract

本发明公开了一种微生物基因数据库的构建方法及系统，属于基因数据库构建技术领域。所述方法包括以下步骤：获取目标微生物基因组数据，对获取的基因组数据进行基因预测，获得包含序列和物种注释的基因注释文件；获得每种目标微生物的代表基因；将所述代表基因中的每个基因分别比对到核酸序列数据库，获得比对结果；过滤比对结果，获得基因注释物种信息，保留注释物种与来源物种相同的基因，进而构建所述微生物基因数据库。利用本发明的构建方法构建微生物基因数据库，可以根据目标微生物的变化对数据库进行更新，实时性更强，利用本发明构建的微生物数据库，仅包含目标微生物基因序列，对比时间更短。

Description

一种微生物基因数据库的构建方法及系统

技术领域

本发明属于基因数据库构建技术领域，具体地，涉及一种微生物基因数据库的构建方法及系统。

背景技术

近年来，伴随着人体微生物组研究的不断深入，科学家发现了肠道微生物在人体的健康中发挥了很大的促进作用，目前的一些亚健康问题也是因为肠道微生态的平衡被打破导致的。益生菌作为对人体有益的一类微生物，可以很好地帮助恢复肠道微生态平衡，目前已经被普遍应用于膳食补充剂中。然而，由于益生菌种类繁多，不同国家均出台了相应的政策对可食用益生菌的种类进行规定。

传统的用于微生物的研究是通过对微生物进行培养，再进行生化表型的观察，这样要花费数十天的时间去完成。对于微生物的菌种进行鉴定，近年来发展起来的宏基因组学技术可以直接提取样本DNA进行全基因组测序，通过对这些DNA测序的结果进行分析和解读，已经可以做到对环境中微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等进行研究。伴随着高通量测序技术的发展，目前已经可以做到在单次对至少几百个样本进行同时检测；同时，由于不需要进行培养，也就大大缩短了检测分析时间。

然而，基于宏基因组测序技术的微生物鉴定分析需要依赖于参考基因集，即通过将测序读长比对到参考基因集，以分析样品中的微生物的种类和基因含量。因此存在不同物种，不同地域的微生物参考基因集。对人类肠道的目标益生菌进行分析，也需要用到参考基因集，通常情况下有两种方法，使用整合基因集(IGC)或者宏基因组系统发育分析(MetaPhlAn)基因库。

整合基因集(IGC)发表于2014年，包含1267个肠道宏基因组，9879896个基因。IGC存在以下问题：(1)基因数目多，注释微生物种类多，比对时间也非常长，效率较低；(2)基因注释信息长时间未更新，准确性低；(3)公开的基因注释信息只到属水平，无法分析目标益生菌。

宏基因组系统发育分析(MetaPhlAn)是一种物种注释工具，可从二代测序数据中分析微生物群落的组成。虽然MetaPhlAn有一直更新，但也存在以下局限性：(1)使用序列比对标志基因，来获得相对丰度信息，相对于其他策略而言，假阳性较低，但读数利用率低；(2)物种检出较少，只能检出数据库内的物种；(3)物种注释只到种水平，需要使用配套的StrainPhlAn工具才能分析株水平结果。

因此，目前应用最为广泛的两种方法都不适合用于分析目标益生菌。但是传统的直接把益生菌的基因组构建成参考数据库，会有大量的重复信息，导致效率不高；另外，由于微生物基因组之间有很多共有片段，如果直接用全基因组作为参考基因组也会影响到检测结果的精度。

发明内容

为了解决上述技术问题中的至少一个，本发明采用的技术方案如下：

本发明第一方面提供一种微生物基因数据库的构建方法，包括以下步骤：

S1，获取目标微生物组合中每种目标微生物的基因组数据，其中，所述目标微生物组合包括N种目标微生物，N≥1；

S2，对步骤S1获取的基因组数据进行基因预测，获得基因注释文件；

S3，利用步骤S2获得的所述基因注释文件获得每种目标微生物的代表基因；

S4，将所述代表基因中的每个基因分别比对到核酸序列数据库，获得比对结果；

S5，对于每个基因的对比结果，获取该基因的注释物种，若所述注释物种与来源物种相同，则保留该基因；

S6，利用所有被保留的基因构成所述微生物基因数据库。

在本发明中，所述目标微生物可以是任一微生物，包括但不限于细菌、真菌、病毒，均适用于本发明的方法。在本发明的一些具体实施方案中，所述目标微生物为细菌，在本发明的一些更具体实施方案中，所述目标微生物为可用于食品的细菌。

在本发明的一些实施方案中，步骤S1中，所述获取目标微生物组合中每种目标微生物的基因组数据，可以获得存储于商业或非商业数据库中的基因组数据，也可以是利用高通量测序方法获得的基因组数据。在本发明的一些具体实施方案中，所述基因组数据从NCBI数据库下载而来。具体地，首先获得目标微生物的在NCBI中的物种名称和分类学编号；然后，根据物种名称，获取该物种在NCBI中的基因组。在本发明的另一种具体实施方案中，所述基因组数据为利用二代测序技术测序得到。

在本发明的一些优选实施方案中，还包括过滤掉组装成长序列片段(Scaffolds)数目≥100的基因组，使得获得的每种目标微生物的各基因组中的长序列片段数目均小于100。

在本发明的一些实施方案中，步骤S2中，可以使用任意能够实现基因预测功能的软件、程序或算法完成所述基因预测。在本发明的一些具体实施方案中，利用Prokka软件对基因组数据进行基因预测。

在本发明的一些实施方案中，步骤S3中，针对所述目标微生物组合中的目标微生物n，其中，所述目标微生物n表示目标微生物组合中第n种目标微生物，1≤n≤N，所述目标微生物n的基因组数目M，根据M的大小获得所述目标微生物n的代表基因：

(1)若M＝1，则所述目标微生物n的基因组的所有基因为代表基因；

(2)若M≥2，则所有基因组的共有基因为代表基因。

在本发明的一些实施方案中，进一步在，针对上述第(2)种情况，若M≥MA，则判断是否有基因组偏离总体，若有，则剔除偏离总体的基因组，再判断剩余基因组中是否有基因组偏离总体，若有，则再剔除偏离总体的基因组，直至剩余基因组中没有基因组偏离总体或者剩余基因组数目M<MA，则提取剩余基因组的共有基因，作为所有基因组修正的共有基因，并作为所述目标微生物n的代表基因，其中，MA≥3，例如MA＝3，4，5，6，7，8，9，10或更大。

在本发明的一些实施方案中，按如下标准判断基因组是否偏离总体：若剔除某个基因组后，剩余基因组的共有基因数目比未剔除前增加30％以上，例如30％、35％、40％、50％，则该基因组偏离总体。

在本发明的一些实施方案中，当剔除或未剔除偏离基因组的基因组数目M≥MB，其中，MB≥3，例如MB＝3，4，5，6，7，8，9，10或更大，则进一步根据以下步骤重新确定共有基因，即确定是否需要对共有基因进行修正：

S31，根据所述目标微生物n的M个基因组中各基因的来源基因组情况组成m种基因组合，其中，

也就是说，对于一个基因，要么只来源于1个基因组，共有

个组合；要么只来源于其中2个基因组，共有

个组合；……；要么只来源于其中M-1个基因组，共有

个组合；要么来源于M个基因组，共有

个组合，因此共有

个组合。换一种说法，对于基因组合，每个基因组要么包含该基因组合里的基因，要么不包含来源于这个基因组合的基因，即每个基因组都有2种情况，则会有2^M个组合，去除一个空集(所有基因组均不包含来自该基因组合里的基因)，则是2^M-1个组合，与上述计算结果相同。因此，在原理不变的情况下，无论如何解释或理解，不影响组合的数量。

例如，目标微生物n的基因组为4个，即M＝4，则所述目标微生物n的4个基因组中各基因的来源基因组情况有

种，如下表所示：

基因组合编号	基因组1	基因组2	基因组3	基因组4
					1	√
2		√
					3			√
4				√
					5	√	√
6	√		√
					7	√			√
8		√	√
					9		√		√
10			√	√
					11	√	√	√
12	√	√		√
					13	√		√	√
14		√	√	√
					15	√	√	√	√

S32，统计每种基因组合中的基因数目，并按从大到小顺序将所述基因数目进行排序并获得位于第S位的基因数目Q，其中，2≤S≤5，例如S＝2，3，4或5。

S33，判断来源于M个基因组的基因组合的基因数目是否小于Q：

①若来源于M个基因组的基因组合的基因数目不小于Q，则直接提取M个基因组的共有基因，即不需要进行修正；

②若来源于M个基因组的基因组合的基因数目小于Q，则需要按照以下步骤对共有基因进行修正：

S331，选取基因数目最多的基因组合的来源基因组作为亚群，提取亚群的共有基因；

S332，剔除所述亚群包含的基因组，若剩余的基因组数目<MB，则提取剩余基因组的共有基因，特别地，若剩余基因组数目为1，则提取该剩余基因组的所有基因作为共有基因；若剩余的基因组数目≥MB，则重复S31-S33步骤再次提取代表基因；

S34，将所有共有基因合并到一起，作为所有基因组修正的共有基因，并进一步作为所述目标微生物n的代表基因。

在本发明的另一些实施方案中，根据以下步骤重新确定共有基因，即确定是否需要对共有基因进行修正：

剔除任意一个基因组，得到M个基因组数目为M-1的亚群，若任意一个亚群的共有基因数目大于M个基因组的共有基因数目，则对共有基因数目最多的亚群再剔除一个得到M-1个子亚群，若任意一个子亚群的共有基因数目大于亚群的基因数目，则对子亚群进行同样的处理，直到得到的基因组组合再剔除任意基因组后，得到的新的基因组组合的共有基因数目不会比未剔除前更多，以这样的基因组组合的共有基因作为修正后的共有基因。值得注意的是，利用该步骤重新确定的共有基因与前面得到的结果相同，由此，只要是能够实现本发明构思，无论使用何种步骤，都应落入本发明保护范围。

在本发明的一些实施方案中，所述代表基因进一步包括除共有基因外剩余基因中基因组出现率按从大到小排序前Y个的基因。其中，基因组出现率是指该基因出现在所有基因组的百分比，100≤Y≤300，例如Y＝100、120、150、180、200、250、300。在本发明的一些优选实施方案中，只有在代表基因数量小于X时，才需要按基因组出现率纳入剩余基因，其中50≤X≤100。这里的共有基因除可以是狭义的所有基因组的共有的基因外，还可以是广义的上述经过修正的共有基因，以使得代表基因更加真实地代表目标微生物。

在本发明的一些实施方案中，在步骤S4之前，进一步包括对步骤S3获得的所述代表基因进行过滤的步骤：过滤序列长度小于200的基因。在本发明的一些具体实施方案中，使用基于局部比对算法的搜索工具BLAST+(v2.11.0)软件将基因比对到所述核酸序列数据库，evalue阈值为1e-5。

在本发明的一些实施方案中，在步骤S4之后，步骤S5之前，进一步包括所述对比对结果进行过滤的步骤：将低于预设覆盖度阈值和/或低于预设同一性阈值的对比对结果去除。在本发明的一些具体实施方案中，所述预设覆盖度阈值为80％；所述预设同一性阈值为65％。

在本发明的一些实施方案中，步骤S5中，对于每个基因，获得其注释物种的步骤为：按同一性排序选取前a％的比对结果，若选取的比对结果中b％以上注释到同一物种且同一性不小于c％，则该物种为所述基因的注释物种，其中，a＝5～20，b＝40～60，c＝90～98。在本发明的一些具体实施方案中，a＝10，b＝50，c＝95。

在本发明的一些实施方案中，在步骤S4之前或步骤S5之后进一步包括对基因进行去冗余的步骤。任选地，若在步骤S4之前进行基因去冗余，则是对每种目标微生物的代表基因进行去冗余。任选地，若在步骤S5之后进行基因去冗余，则是对所有被保留的基因进行去冗余。

在本发明的一些实施方案中，可以利用任意能够实现去冗余功能的软件、程序或算法完成，例如任意基于序列相似性原理实现去冗余的软件、程序或算法。在本发明的一些具体实施方案中，利用CD-HIT(v4.8.1)软件进行去冗余。在本发明的一些具体实施方案中，利用以下步骤进行去冗余：

对每个物种，分别进行去冗余：过滤基因数目大于1的序列类的所有基因，所有留下的基因为该物种的唯一比对单拷贝基因；

合并所有物种的去冗余基因，同样过滤基因数目大于1的序列类的所有基因。

在本发明的一些实施方案中，如果更新数据库，则对各新增物种重复上述去冗余步骤。

本发明第二方面提供一种微生物基因数据库的构建系统，包括以下模块：

基因组数据获取存储模块，用于获取并存储目标微生物组合中每种目标微生物的基因组数据，其中，所述目标微生物组合包括N种目标微生物，N≥1；

基因预测模块，与所述基因组数据获取存储模块连接，用于对所述基因组数据获取模块中获取的基因组数据进行基因预测，获得包含序列和物种注释的基因注释文件并输出；

代表基因获取模块，与所述基因预测模块连接，用于接收所述基因预测模块输出的所述基因注释文件，并利用所述基因注释文件获得每种目标微生物的代表基因并输出；

核酸序列数据库存储模块，用于接收并存储核酸序列数据库；

基因比对模块，分别与所述代表基因组分析模块和所述核酸序列数据库模块连接，用于接收所述代表基因获取模块输出的代表基因，并将所述代表基因中的每个基因分别比对到核酸序列数据库，获得比对结果并输出；

基因验证模块，与所述基因比对模块，用于验证基因的注释物种是否与来源物种相同：对于每个基因的对比结果，获取该基因的注释物种，若所述注释物种与来源物种相同，则保留该基因，所述基因验证模块还用于输出所有被保留的基因以构建微生物基因数据库。

进一步地，所述构建系统还包括：基因去冗余模块；

任选地，所述基因去冗余模块与所述基因验证模块连接，用于接收所述基因验证模块输出的被保留的基因，并对每种目标微生物中被保留的基因进行去冗余；

任选地，所述基因去冗余模块与所述代表基因获取模块连接，用于接收所述代表基因获取模块输出的代表基因，并对每种目标微生物的代表基因进行去冗余。

在本发明的一些实施方案中，在所述代表基因获取模块和所述基因比对模块之间，进一步包括基因过滤模块，分别与所述代表基因组分析模块和所述基因比对模块连接，用于接收所述代表基因获取模块输出的代表基因并进行过滤：过滤序列长度小于200的基因，再将过滤后的代表基因输出至所述基因比对模块。

在本发明的一些实施方案中，在所述基因比对模块和所述基因验证模块之间，进一步包括比对结果过滤模块，分别与所述基因比对模块和所述基因验证模块连接，用于接收所述基因比对模块输出的比对结果并进行过滤：将低于预设覆盖度阈值和/或低于预设同一性阈值的对比对结果去除。

在本发明中，本发明第二方面所述的构建系统中的所有模块能够实现本发明第一方面所述方法中的相应步骤相同的或相应地功能，在此不再赘述。

本发明的有益效果

相对于现有技术，本发明具有以下有益效果：

本发明的微生物基因数据库构建方法，通过对微生物的基因组进行多重信息整合，并通过交叉验证的方法，能够建立模块化的涵盖种水平微生物、检索快、定性准确、非冗余的基因数据库。

本发明的微生物基因数据库构建方法，首先获得目标微生物的代表基因，再由NT库进行来源-注释的验证，比对结果更可靠，分类信息更准确。

本发明的微生物基因数据库构建系统，由不同模块独立构成，彼此独立又彼此关联，即方便在各模块之间添加/删除模块，又能够通过各模块之间的配合，完成数据库构建。

利用本发明构建的微生物数据库，通过建立简单的搜索索引，即可做到通过基因测序数据快速定位到目标益生菌，比对时间更短。同时兼顾了数据库的更新迭代便捷的需要，可以快速更新已有的微生物基因组数据库的数据，也可以做到快速添加新的微生物基因组的信息进入数据库中。

利用本发明构建的微生物数据库，可以用于辅助高通量测序技术更精准得检测益生菌的种类和含量。

附图说明

图1示出了本发明实施例1的构建系统#1示意图。

图2示出了本发明实施例4的构建系统#8示意图。

图3示出了本发明实施例6中一个益生菌的基因按基因组来源的组合情况。

具体实施方式

除非另有说明、从上下文暗示或属于现有技术的惯例，否则本申请中所有的份数和百分比都基于重量，且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下，本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考，且其等价的同族专利也引入作为参考，特别这些文献所披露的关于本领域中的相关术语的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致，则以本申请中提供的术语定义为准。

本申请中的数字范围是近似值，因此除非另有说明，否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值，条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。

实施例

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白，下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术，因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白，这里所公开的特定实施例可以做很多修改，仍然能得到相同的或者类似的结果，而非背离本发明的精神或范围。

除非另有定义，所有在此使用的技术和科学的术语，和本发明所属领域内的技术人员所通常理解的意思相同，在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

下述实施例中未作具体说明的实验方法，均为常规方法。下述实施例中所用的仪器设备，如无特殊说明，均为实验室常规仪器设备；下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。

实施例1微生物基因数据库构建系统

如图1所示，本实施例提供一种微生物基因数据库的构建系统，即构建系统#1包括以下模块：

基因组数据获取存储模块，用于获取并存储目标微生物组合中每种目标微生物的基因组数据，其中，目标微生物组合包括N种目标微生物，N≥1；

基因预测模块，与基因组数据获取存储模块连接，用于对基因组数据获取模块中获取的基因组数据进行基因预测，获得包含序列和注释的基因注释文件并输出；

代表基因获取模块，与基因预测模块连接，用于接收基因预测模块输出的基因注释文件，并利用所述基因注释文件获得每种目标微生物的代表基因并输出；

基因比对模块，分别与代表基因获取模块和核酸序列数据库模块连接，用于接收代表基因获取模块输出的代表基因，并利用基因比对软件将代表基因中的每个基因分别比对到核酸序列数据库，获得比对结果并输出；

实施例2升级的微生物基因数据库构建系统

本实施例针对实施例1的构建系统#1进行升级，得到构建系统#2，改进点为进一步包括基因去冗余模块，与基因验证模块连接，用于接收基因验证模块输出的被保留的基因，并利用基因去冗余软件对被保留的基因进行去冗余，提取单拷贝比对基因，获得非冗余微生物基因数据库。

其中，提取单位拷贝对比基因的步骤如下：

实施例3升级的微生物基因数据库构建系统

本实施例分别针对实施例1的构建系统#1或实施例2的构建系统#2进行升级，得到构建系统#3和构建系统#4，改进点为：在代表基因组分析模块和基因比对模块之间，进一步包括基因过滤模块，分别与代表基因获取模块和基因比对模块连接，用于接收代表基因获取模块输出的代表基因并进行过滤：过滤序列长度小于200的基因，再将过滤后的代表基因输出至基因比对模块。

实施例4升级的微生物基因数据库构建系统

本实施例分别针对实施例1的构建系统#1、实施例2的构建系统#2和实施例3的构建系统#3和构建系统#4进行升级，得到构建系统#5、构建系统#6、构建系统#7和构建系统#8，改进点为：在基因比对模块和基因验证模块之间，进一步包括比对结果过滤模块，分别与基因比对模块和基因验证模块连接，用于接收基因比对模块输出的比对结果并进行过滤：将低于预设覆盖度阈值和/或低于预设同一性阈值的对比对结果去除。

升级后的构建系统#8如图2所示。

实施例5构建益生菌干酪乳杆菌的代表基因的方法

1.目标益生菌及基因组序列

本实施例选取干酪乳杆菌作为目标益生菌，获取该目标益生菌在美国国家生物信息中心(NCBI)的物种名称(Organism Name)或者分类学编号(Taxid)，分别为Lactobacillus casei和1582。

根据物种名称，获得NCBI中Complete或者Scaffold水平的基因组，共27个，过滤当中组装成长序列片段(Scaffolds)数目过多(≥200)的基因组(共21个)，过滤后物种基因组数目为6，基因组的登记号分别是：GCA_000309565(基因组1)、GCA_000829055(基因组2)、GCA_002091975(基因组3)、GCA_002192215(基因组4)、GCA_011754305(基因组5)和GCA_012932835(基因组6)，并获得基因组下载路径，下载基因组数据。

2.基因预测

使用Prokka(v1.14.6)软件对每个基因组进行基因预测，获得包含序列和注释的基因注释文件。

3.获取代表基因

首先，选定MA＝3，按如下标准判断某个基因组是否偏离总体：剔除该基因组后剩余基因组的共有基因数目比未剔除前增加50％以上。结果发现没有基因组偏离总体，保留全部6个基因组。

选定MB＝3，针对该6个基因组，共有7436个基因，根据基因的基因组来源情况共有63种基因组合，每种基因组合的基因数目如表1和图3所示(只展示基因数目大于总体1％的基因组合)：

表1益生菌干酪乳杆菌基因组合及基因数目

其中，第2列中，第几位数字为1，表明为来源于第几个基因组。如基因组合1中的基因只来源于基因组6，基因组合3中的基因只来源于基因组4，基因组合12中的基因只来源于基因组1、基因组3和基因组6，基因组合13中的基因来源于全部基因组。

统计每种基因组合中的基因数目，并按从大到小顺序将所述基因数目进行排序并获得位于第2位的基因数目Q，Q＝1577，即基因组合9中的基因数目。

判断来源于6个基因组的基因组合的基因数目为289，小于Q：

选取基因数目最多的基因组合(即组合12)，来源基因组包括基因组1、基因组3和基因组6，将该基因组合作为新的亚群，提取其共有基因，即2253个基因为共有基因。

剔除所述亚群包含的基因组，剩余的基因组数目为3，则提取剩余基因组的共有基因，即基因组合9，共1880个基因作为共有基因。

合并两次获得的共有基因，共计3844个基因，作为干酪乳杆菌修正的共有基因，远远比直接提取所有基因组的共有基因数目高。

4.基因过滤

首先，将修正后共有基因进行过滤，即过滤长度低于200的基因，仍剩余3727个基因。

5.基因验证

使用基于局部比对算法的搜索工具BLAST+(v2.11.0)软件将基因比对到核酸序列数据库(NT库)，evalue阈值为1e-5，获得比对结果。针对比对结果，通过以下条件判断基因的注释物种：首先用覆盖度(coverage)阈值为80％和同一性(identity)阈值为65％过滤比对结果；然后单个基因按identity排序选取前10％的比对结果，如果有50％以上结果满足identity大于等于95％且注释为同一个物种S，则认为该基因的注释结果为前述物种S。然后过滤注释物种不是来源物种的基因，保留注释物种与来源物种相同的基因。

通过该步骤，剩余1184个基因。

6.基因去冗余

使用CD-HIT(v4.8.1)软件对过滤后的基因进行去冗余分析。

本步骤过滤基因数目大于1的序列类的所有基因，所有留下的基因为干酪乳杆菌的唯一比对单拷贝代表基因，共计1166个基因。

经过上述步骤，获得的代表基因数目更多，使得对比结果更加精确。

实施例6构建益生菌干酪乳杆菌的代表基因的另一种方法

本实施例针对实施例5进行调整，先利用步骤4和步骤6的方法对对步骤2获得的基因进行过滤和去冗余，再获取代表基因并进行验证，同样得到1166个唯一比对单拷贝代表基因。

实施例7构建益生菌肉葡萄球菌的代表基因的方法

本实施例选取肉葡萄球菌作为目标益生菌，获取该目标益生菌在美国国家生物信息中心(NCBI)的物种名称(Organism Name)或者分类学编号(Taxid)，分别为Staphylococcus carnosus和1281。

获得NCBI中Complete或者Scaffold水平的基因组，共11个，过滤当中组装成长序列片段(Scaffolds)数目过多(≥200)的基因组(共8个)，过滤后物种基因组数目为3，基因组的登记号分别是：GCA_000009405(基因组1)、GCA_001701005(基因组2)、GCA_003970565(基因组3)，并获得基因组下载路径，下载基因组数据。根据基因的基因组来源情况共有7种基因组合，每种基因组合的基因数目如表2所示(未列举组合为0)。

表2益生菌肉葡萄球菌基因组合及基因数目

基因组合编号	基因组组合	基因数目
			1	001	2323
2	010	373
			3	100	191
4	110	2270
			5	111	30

3个基因组的共有基因有30。选定MA＝3，按如下标准判断某个基因组是否偏离总体：剔除该基因组后剩余基因组的共有基因数目比未剔除前增加50％以上。结果发现基因组3偏离总体，保留2个基因组，基因组1和基因组2的共有基因为组合4和组合5的基因，因此，肉葡萄球菌修正后的共有基因一共2300个。

过滤、验证、去冗余步骤参考实施例5，此处不赘述，最后得到1842个唯一比对单拷贝代表基因。

实施例8多种益生菌的基因数据库

利用同样的方法分别获得构建表3全部益生菌的唯一比对单拷贝代表代表基因，并构建基因数据库。

表3目标益生菌列表

上述益生菌的基因信息如表4：

表4非冗余基因数据库基因信息

由上表可知，经过本发明的方法建立的基因库，虽然大部分目标微生物的唯一比对单拷贝代表基因≥500，但部分目标微生物(如动物双歧杆菌和婴儿双歧杆菌)的唯一比对单拷贝代表基因≤200，为了使得对比结果更加准备，发明人将这两个目标微生物的剩余基因中基因组出现率靠前的200个基因随机纳入到代表基因中，使得唯一比对单拷贝代表基因数目分别达到274和210。代表基因数目更多，使得对比结果更加精确，达标基因数目越少，比对效率越高。

本实施例构建的益生菌数据库仅包含目标益生菌物种序列，与Metaphlan比对和IGC比对相比，对比所需时间显著缩短，比对时间见下表5。

表5不同数据库所需比对时间

样本	碱基数量	Metaphlan比对时间	IGC比对时间	本数据库比对时间
					ERR1190551	5.43G	19m46.927s	48m39.494s	8m37.203s
ERR1190552	5.30G	19m8.401s	49m9.145s	8m6.807s
					ERR1190553	4.47G	16m28.369s	39m53.330s	6m23.361s
ERR1190554	5.09G	18m32.386s	45m0.594s	7m26.207s
					ERR1190555	5.07G	19m0.234s	41m59.191s	7m20.326s

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种微生物基因数据库的构建方法，其特征在于，包括以下步骤：

S3，利用步骤S2获得的所述基因注释文件获得每种目标微生物的代表基因：针对所述目标微生物组合中目标微生物n，其中，1≤n≤N，所述目标微生物n的基因组数目M，根据M的大小获得所述目标微生物n的代表基因：

(1)若M＝1，则所述目标微生物n的基因组的所有基因为代表基因，

(2)若M≥2，则所有基因组的共有基因为代表基因；

S6，利用所有被保留的基因构成所述微生物基因数据库。

2.根据权利要求1所述的一种微生物基因数据库的构建方法，其特征在于，在步骤S4之前或步骤S5之后进一步包括对基因进行去冗余的步骤。

3.根据权利要求1所述的一种微生物基因数据库的构建方法，其特征在于，在第(2)种情况，若M≥3，则判断是否有基因组偏离总体，若有，则剔除偏离总体的基因组，再判断剩余基因组中是否有基因组偏离总体，若有，则再剔除偏离总体的基因组，直至剩余基因组中没有基因组偏离总体或者剩余基因组数目M<3，则提取剩余基因组的共有基因，作为所有基因组修正的共有基因，并作为所述目标微生物n的代表基因。

4.根据权利要求1所述的一种微生物基因数据库的构建方法，其特征在于，若M≥3，进一步根据以下步骤重新确定共有基因：

S32，统计每种基因组合中的基因数目，并按从大到小顺序将所述基因数目进行排序并获得位于第S位的基因数目Q，

①若来源于M个基因组的基因组合的基因数目不小于Q，则直接提取M个基因组的共有基因；②若来源于M个基因组的基因组合的基因数目小于Q，则：

S332，剔除S331中亚群中的基因组，若剩余的基因组数目<3，则提取剩余基因组的共有基因；若剩余的基因组数目≥3，则重复S31-S33步骤再次提取共有基因；

S34，将步骤S33得到的所有共有基因合并到一起，作为所有基因组修正的共有基因，并进一步作为所述目标微生物n的代表基因，

其中2≤S≤5。

5.根据权利要求1-4任一所述的一种微生物基因数据库的构建方法，其特征在于，在第(2)种情况下，所述代表基因进一步包括除共有基因外剩余基因中基因组出现率按从大到小排序前Y个的基因，其中100≤Y≤300。

6.一种微生物基因数据库的构建系统，其特征在于，包括以下模块：

代表基因获取模块，与所述基因预测模块连接，用于接收所述基因预测模块输出的所述基因注释文件，并利用所述基因注释文件获得每种目标微生物的代表基因并输出，针对所述目标微生物组合中目标微生物n，其中，1≤n≤N，所述目标微生物n的基因组数目M，根据M的大小获得所述目标微生物n的代表基因：

(2)若M≥2，则所有基因组的共有基因为代表基因；

基因比对模块，分别与所述代表基因获取模块和所述核酸序列数据库模块连接，用于接收所述代表基因获取模块输出的代表基因，并将所述代表基因中的每个基因分别比对到核酸序列数据库，获得比对结果并输出；

基因验证模块，与所述基因比对模块连接，用于验证基因的注释物种是否与来源物种相同：对于每个基因的对比结果，获取该基因的注释物种，若所述注释物种与来源物种相同，则保留该基因，所述基因验证模块还用于输出所有被保留的基因以构建微生物基因数据库。

7.根据权利要求6所述的一种微生物基因数据库的构建系统，其特征在于，还包括：

基因去冗余模块，与所述基因验证模块连接，用于接收所述基因验证模块输出的被保留的基因，并对每种目标微生物中被保留的基因进行去冗余；或者

基因去冗余模块，与所述代表基因获取模块连接，用于接收所述代表基因获取模块输出的代表基因，并对每种目标微生物的代表基因进行去冗余。

8.根据权利要求6或7所述的一种微生物基因数据库的构建系统，其特征在于，在所述代表基因获取模块和所述基因比对模块之间，进一步包括基因过滤模块，分别与所述代表基因获取模块和所述基因比对模块连接，用于接收所述代表基因获取模块块输出的代表基因并进行过滤：过滤序列长度小于200的基因，再将过滤后的代表基因输出至所述基因比对模块。

9.根据权利要求7或7所述的一种微生物基因数据库的构建系统，其特征在于，在所述基因比对模块和所述基因验证模块之间，进一步包括比对结果过滤模块，分别与所述基因比对模块和所述基因验证模块连接，用于接收所述基因比对模块输出的比对结果并进行过滤：将低于预设覆盖度阈值和/或低于预设同一性阈值的对比对结果去除。