CN116564423B

CN116564423B - 一种微生物宏基因组数据库构建方法及系统

Info

Publication number: CN116564423B
Application number: CN202310813478.5A
Authority: CN
Inventors: 张勇
Original assignee: Guangzhou Yuanguji Technology Co ltd
Current assignee: Guangzhou Yuanguji Technology Co ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-15
Anticipated expiration: 2043-07-05
Also published as: CN116564423A

Abstract

本申请提供一种微生物宏基因组数据库构建方法及系统，通过结合短片段序列AI识别算法以及共有特异AI判别算法的协同解析思路，可以实现对微生物基因组资源的双重存储目录分析，从而提高微生物基因组资源的存储目录确定准确性和可靠性。通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果，可以实现粗略的解析操作，利用短片段序列识别结果进行进一步的共有/特异分析处理能够准确得到共有特异判别变量，可以利用短片段序列识别结果和共有特异判别变量进行协同解析操作，得到结构化数据库存储目录，以便通过该结构化数据库存储目录进行高质量且有序的数据库构建。

Description

一种微生物宏基因组数据库构建方法及系统

技术领域

本申请涉及数据库和生物信息技术领域，尤其涉及一种微生物宏基因组数据库构建方法及系统。

背景技术

宏基因组（Meta genomics），也称元基因组，利用新一代高通量测序技术（NGS）以特定环境下微生物群体基因组为研究对象，在分析微生物多样性、种群结构、进化关系的基础上，可进一步探究微生物群体功能活性、相互协作关系及与环境之间的关系，发掘潜在的生物学意义。

与传统微生物研究方法相比，宏基因组测序技术规避了绝大部分微生物不能培养、痕量菌无法检测的缺点，因此近年来在环境微生物学研究中得到了广泛应用。

为了对微生物的宏基因组数据进行存储，相关数据库的构建必不可少，但是传统的数据库构建技术难以准确、有序地构建微生物宏基因组数据库。

发明内容

本申请提供一种微生物宏基因组数据库构建方法及系统，为实现上述技术目的，本申请采用如下技术方案。

第一方面是一种微生物宏基因组数据库构建方法，应用于数据库构建系统，方法包括：

通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果；

通过共有特异AI判别算法以及短片段序列识别结果确定所述第一微生物基因组资源的共有特异判别变量；

结合所述短片段序列识别结果以及所述共有特异判别变量确定结构化数据库存储目录。

在一些优选的实施例中，所述通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果，包括：

获取包含G组第一微生物物种宏基因组信息的数字化微生物基因组测序结果；其中，各个所述第一微生物物种宏基因组信息中具有最少一个第一微生物基因组资源；

将各个所述第一微生物物种宏基因组信息传入至短片段序列AI识别算法，获得各个所述第一微生物物种宏基因组信息中最少一个第一微生物基因组资源的短片段序列识别结果。

在一些优选的实施例中，所述通过共有特异AI判别算法以及短片段序列识别结果确定所述第一微生物基因组资源的共有特异判别变量，包括：将各个所述第一微生物物种宏基因组信息中最少一个所述短片段序列识别结果对应的第一物种短片段序列簇传入至共有特异AI判别算法，获得所述第一物种短片段序列簇中第一微生物基因组资源的共有特异判别变量；

其中，所述结合所述短片段序列识别结果以及所述共有特异判别变量确定结构化数据库存储目录，包括：利用各个所述第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得结构化数据库存储目录，所述结构化数据库存储目录中具有最少一个第一微生物基因组资源对应的结构化存储标签，以及各个所述结构化存储标签对应的短片段序列识别结果；其中，所述短片段序列AI识别算法和所述共有特异AI判别算法通过增设的算法调校样例集调校所得，所述增设的算法调校样例集具有最少一个包括第二微生物基因组资源的第二微生物物种宏基因组信息，以及各个所述第二微生物物种宏基因组信息中最少一个所述第二微生物基因组资源的过往共有特异判别变量和过往结构化存储标签。

在一些优选的实施例中，所述利用各个所述第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得结构化数据库存储目录包括：

利用各个所述第一微生物物种宏基因组信息在所述数字化微生物基因组测序结果中的先后，逐一对连续第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得连续第一微生物物种宏基因组信息中一致的第一微生物基因组资源；

为各个第一微生物基因组资源绑定对应的结构化存储标签，并利用连续第一微生物物种宏基因组信息中一致的第一微生物基因组资源，确定各个所述结构化存储标签对应的第一微生物基因组资源在各个所述第一微生物物种宏基因组信息中的短片段序列识别结果；

利用反映各个第一微生物基因组资源的结构化存储标签，以及各个所述结构化存储标签对应的最少一个短片段序列识别结果确定结构化数据库存储目录。

在一些优选的实施例中，所述利用各个所述第一微生物物种宏基因组信息在所述数字化微生物基因组测序结果中的先后，逐一对连续第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得连续第一微生物物种宏基因组信息中一致的第一微生物基因组资源包括：

利用各个所述第一微生物物种宏基因组信息在所述数字化微生物基因组测序结果中的先后逐一确定关联宏基因组信息，以及所述关联宏基因组信息后一组的目标宏基因组信息；

确定所述关联宏基因组信息的最少一个第一微生物基因组资源对应的关联短片段序列识别结果和关联共有特异判别变量；

确定所述目标宏基因组信息的最少一个第一微生物基因组资源对应的目标短片段序列识别结果和目标共有特异判别变量；

对于所述关联宏基因组信息中的各个所述第一微生物基因组资源，利用对应的所述关联短片段序列识别结果和对应的关联共有特异判别变量分别与各个所述目标短片段序列识别结果和对应目标共有特异判别变量进行协同解析，获得所述目标宏基因组信息中一致的第一微生物基因组资源。

在一些优选的实施例中，所述增设的算法调校样例集的获得步骤如下：

获取包含第二微生物基因组资源的增设数据库构建任务；

通过宏基因组信息收集组件在所述增设数据库构建任务中进行宏基因组信息收集，获得最少一个携带所述第二微生物基因组资源的第二微生物物种宏基因组信息；

确定各个所述第二微生物物种宏基因组信息中所述第二微生物基因组资源的过往共有特异判别变量和过往结构化存储标签。

在一些优选的实施例中，所述获取包含第二微生物基因组资源的增设数据库构建任务，包括：

确定第二微生物基因组资源图谱和对应的基因组要素向量，所述第二微生物基因组资源图谱为有向拓扑，所述基因组要素向量包括宿主表型要素向量、基因组状态向量和过往结构化存储标签；

生成增设数据库构建任务，并利用所述基因组要素向量将所述第二微生物基因组资源图谱传输至所述增设数据库构建任务，获得携带所述第二微生物基因组资源的增设数据库构建任务，所述第二微生物基因组资源利用所述基因组要素向量优化所述第二微生物基因组资源图谱确定。

在一些优选的实施例中，所述通过宏基因组信息收集组件在所述增设数据库构建任务中进行宏基因组信息收集，获得最少一个携带所述第二微生物基因组资源的第二微生物物种宏基因组信息，包括：确定所述第二微生物基因组资源对应的第一检测状态特征，所述第一检测状态特征用于反映所述第二微生物基因组资源在所述增设数据库构建任务中的动态表征矩阵；确定所述宏基因组信息收集组件对应的第二检测状态特征，所述第二检测状态特征用于反映所述宏基因组信息收集组件在所述增设数据库构建任务中的动态表征矩阵；在宏基因组信息收集开始的前提下，利用所述第一检测状态特征和所述第二检测状态特征触发所述第二微生物基因组资源和所述宏基因组信息收集组件；在所述第二微生物基因组资源和所述宏基因组信息收集组件的触发状态下中进行宏基因组信息收集，获得最少一个携带所述第二微生物基因组资源的第二微生物物种宏基因组信息；

其中，所述第一检测状态特征中具有多个用作确定所述第二微生物基因组资源分布以及基因组状态向量的结构化关键词的不间断第一特征数组集，所述第二检测状态特征中具有多个用作确定所述宏基因组信息收集组件分布和结构化关键词的不间断第二特征数组集；所述利用所述第一检测状态特征和所述第二检测状态特征触发所述第二微生物基因组资源和所述宏基因组信息收集组件包括：利用多个连续的所述第一特征数组集按序调整所述第二微生物基因组资源在所述增设数据库构建任务中的分布变量以及结构化关键词；利用多个连续的所述第二特征数组集按序调整所述宏基因组信息收集组件在所述增设数据库构建任务中的分布变量以及结构化关键词；

其中，所述宏基因组信息收集组件还用作获得反映所述第二微生物基因组资源在所述增设数据库构建任务中分布变量的显著性标注信息；所述确定各个所述第二微生物物种宏基因组信息中所述第二微生物基因组资源的过往共有特异判别变量和过往结构化存储标签，包括：利用与各个所述第二微生物物种宏基因组信息并行获得的显著性标注信息确定对应的过往共有特异判别变量；获得各个所述第二微生物物种宏基因组信息中第二微生物基因组资源基因组要素向量中的过往结构化存储标签。

在一些优选的实施例中，所述共有特异AI判别算法的调校步骤为：

将所述增设的算法调校样例集中的所述第二微生物物种宏基因组信息中第二微生物基因组资源所对应的物种短片段序列簇作为调校依据，将各个所述第二微生物基因组资源所对应的物种短片段序列簇中第二微生物基因组资源的过往结构化存储标签作为目标依据调校机器学习算法，所述机器学习算法中具有共有特异挖掘组件和多元回归处理组件；

获得调校所得的所述机器学习算法中的共有特异挖掘组件作为共有特异AI判别算法。

第二方面是一种数据库构建系统，包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；其中，当所述处理器执行所述计算机指令时，使得所述数据库构建系统执行第一方面的方法。

第三方面是一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在运行时执行第一方面的方法。

根据本申请的一个实施例，通过结合短片段序列AI识别算法以及共有特异AI判别算法的协同解析思路，可以实现对微生物基因组资源的双重存储目录分析，从而提高微生物基因组资源的存储目录确定准确性和可靠性。首先通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果，可以实现粗略的解析操作，其次利用短片段序列识别结果进行进一步的共有/特异分析处理，能够准确得到共有特异判别变量，这样可以利用短片段序列识别结果和共有特异判别变量进行协同解析操作，从而得到尽可能全面准确合理的结构化数据库存储目录，以便于后续通过该结构化数据库存储目录进行高质量且有序的数据库构建。

附图说明

图1为本申请实施例提供的一种微生物宏基因组数据库构建方法的流程示意图。

图2为本申请实施例提供的一种微生物宏基因组数据库构建装置的模块框图。

具体实施方式

以下，术语“第一”、“第二”和“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。

图1示出了本申请实施例提供的一种微生物宏基因组数据库构建方法的流程示意图，微生物宏基因组数据库构建方法可以通过数据库构建系统实现，数据库构建系统可以包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；其中，当所述处理器执行所述计算机指令时，使得所述数据库构建系统执行步骤10-步骤40。

本申请实施例的总体设计思路如下：通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果；通过共有特异AI判别算法以及短片段序列识别结果确定所述第一微生物基因组资源的共有特异判别变量；结合所述短片段序列识别结果以及所述共有特异判别变量确定结构化数据库存储目录。

如此一来，通过结合短片段序列AI识别算法以及共有特异AI判别算法的协同解析思路，可以实现对微生物基因组资源的双重存储目录分析，从而提高微生物基因组资源的存储目录确定准确性和可靠性。首先通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果，可以实现粗略的解析操作，其次利用短片段序列识别结果进行进一步的共有/特异分析处理，能够准确得到共有特异判别变量，这样可以利用短片段序列识别结果和共有特异判别变量进行协同解析操作，从而得到尽可能全面准确合理的结构化数据库存储目录，以便于后续通过该结构化数据库存储目录进行高质量且有序的数据库构建。

在一些示例性实施例中，通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果，可以包括如下内容：获取包含G组第一微生物物种宏基因组信息的数字化微生物基因组测序结果；其中，各个所述第一微生物物种宏基因组信息中具有最少一个第一微生物基因组资源；将各个所述第一微生物物种宏基因组信息传入至短片段序列AI识别算法，获得各个所述第一微生物物种宏基因组信息中最少一个第一微生物基因组资源的短片段序列识别结果。进一步地，通过共有特异AI判别算法以及短片段序列识别结果确定所述第一微生物基因组资源的共有特异判别变量，可以包括如下内容：将各个所述第一微生物物种宏基因组信息中最少一个所述短片段序列识别结果对应的第一物种短片段序列簇传入至共有特异AI判别算法，获得所述第一物种短片段序列簇中第一微生物基因组资源的共有特异判别变量。再者，结合所述短片段序列识别结果以及所述共有特异判别变量确定结构化数据库存储目录，可以包括如下内容：利用各个所述第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得结构化数据库存储目录，所述结构化数据库存储目录中具有最少一个第一微生物基因组资源对应的结构化存储标签，以及各个所述结构化存储标签对应的短片段序列识别结果。

在本申请实施例中，所述短片段序列AI识别算法和所述共有特异AI判别算法通过增设的算法调校样例集调校所得，所述增设的算法调校样例集具有最少一个包括第二微生物基因组资源的第二微生物物种宏基因组信息，以及各个所述第二微生物物种宏基因组信息中最少一个所述第二微生物基因组资源的过往共有特异判别变量和过往结构化存储标签。

在一些可选的设计思路中，可以通过以下介绍对上述技术方案进行展开介绍。

步骤10：获取包含G组第一微生物物种宏基因组信息的数字化微生物基因组测序结果。

在一些实施例中，通过数据库构建系统确定数字化微生物基因组测序结果，该方式可以是接收宏基因组测序终端收集后传输的数字化微生物基因组测序结果，或者通过相关的宏基因组信息收集线程直接获得数字化微生物基因组测序结果。举例而言，数字化微生物基因组测序结果中具有G组第一微生物物种宏基因组信息，各个第一微生物物种宏基因组信息中具有最少一个第一微生物基因组资源。其中，数字化微生物基因组测序结果可以通过一个宏基因组信息收集线程不间断地收集最少一个第一微生物基因组资源，获得的G组具有先后的第一微生物物种宏基因组信息组成。此外，还可以由多个宏基因组信息收集组件分别采集第一微生物基因组资源获得第一微生物物种宏基因组信息，再利用多个第一微生物物种宏基因组信息的收集时刻先后获得数字化微生物基因组测序结果。

举例而言，第一微生物物种宏基因组信息中的第一微生物基因组资源可以利用具体测序信息确定，比如可以包括微生物宏基因组数据和宿主表型数据。

步骤20：将各个所述第一微生物物种宏基因组信息传入至短片段序列AI识别算法，获得各个所述第一微生物物种宏基因组信息中最少一个第一微生物基因组资源的短片段序列识别结果。

在一些实施例中，对数字化微生物基因组测序结果中的各个第一微生物物种宏基因组信息进行分析，获得各个第一微生物物种宏基因组信息中的第一微生物基因组资源的短片段序列识别结果，短片段序列识别结果反映对应的第一微生物基因组资源在第一微生物物种宏基因组信息中的分布变量（比如第一微生物基因组资源在第一微生物物种宏基因组信息中的定位情况）。例如，可以对数字化微生物基因组测序结果进行分析获得各个第一微生物物种宏基因组信息中第一微生物基因组资源所对应的分布区域。举例而言，本申请实施例可以通过将各个第一微生物物种宏基因组信息传入至短片段序列AI识别算法的思路，获得各个第一微生物物种宏基因组信息中最少一个第一微生物基因组资源的短片段序列识别结果。短片段序列AI识别算法可以是任意进行短片段序列识别的机器学习算法，比如残差网络、深度学习网络等。

进一步地，各个短片段序列识别结果还携带对应的确定度参数（可信因子），确定度参数用于反映短片段序列识别结果中具有第一微生物基因组资源的可能性。当确定度参数超过设定参数时确定该短片段序列识别结果中具有对应的第一微生物基因组资源，在确定度参数未超过设定参数时确定该短片段序列识别结果中不包含对应的第一微生物基因组资源。

在本申请实施例中，短片段序列AI识别算法可以通过增设的算法调校样例集（比如衍生样例集，也可以理解为推演得到的样例集）调校所得。其中，增设的算法调校样例集具有最少一个包括第二微生物基因组资源的第二微生物物种宏基因组信息，以及各个第二微生物物种宏基因组信息中最少一个第二微生物基因组资源的过往共有特异判别变量（比如已知的共有特异判别变量）和过往结构化存储标签（比如已知的结构化存储标签）。

可以理解的是，在短片段序列AI识别算法的调校过程中，各个第二微生物物种宏基因组信息作为调校依据，各个第二微生物物种宏基因组信息中第二微生物基因组资源的过往共有特异判别变量作为目标依据（正样本）。例如，将增设的算法调校样例集中的第二微生物物种宏基因组信息传入至短片段序列AI识别算法，再利用短片段序列AI识别算法生成的短片段序列识别结果和第二微生物物种宏基因组信息对应的过往共有特异判别变量确定短片段序列AI识别算法的偏移（算法偏移指标），利用该偏移优化所述短片段序列AI识别算法直至符合设定指标。

在一些实施例中，本申请实施例的增设的算法调校样例集可以通过根据样例增设程序获取的若干组第二微生物物种宏基因组信息、各个第二微生物物种宏基因组信息的过往共有特异判别变量和过往结构化存储标签确定。

在一些优选的实施例中，确定增设的算法调校样例集的过程可以包括如下步骤301-步骤303。

步骤301：获取包含第二微生物基因组资源的增设数据库构建任务。

步骤302：通过宏基因组信息收集组件在增设数据库构建任务中进行宏基因组信息收集，获得最少一个包括第二微生物基因组资源的第二微生物物种宏基因组信息。

步骤303：确定各个第二微生物物种宏基因组信息中第二微生物基因组资源的过往共有特异判别变量和过往结构化存储标签。

在本申请实施例中，第二微生物基因组资源可以是通过资源增设线程生成的增设微生物基因组资源。增设数据库构建任务可以是通过资源增设线程生成的程序任务，比如肠道菌群数据增设任务等。举例而言，第二微生物基因组资源可以是二维特征或者三维特征的资源信息，增设数据库构建任务可以是二维特征或者三维特征的任务。

在一些优选的实施例中，通过资源增设线程生成第二微生物基因组资源和增设数据库构建任务的过程可以包括如下内容。

步骤3011：确定第二微生物基因组资源图谱和对应的基因组要素向量。

在本申请实施例中，第二微生物基因组资源图谱为有向拓扑（通过将微生物基因组资源进行有向拓扑化处理得到的可视化模型），基因组要素向量包括宿主表型要素向量、基因组状态向量和过往结构化存储标签。基因组要素向量可以理解为第二微生物基因组资源图谱对应的基因组属性特征。

步骤3012：生成增设数据库构建任务，并利用基因组要素向量将第二微生物基因组资源图谱传输至增设数据库构建任务，获得包括第二微生物基因组资源的增设数据库构建任务，第二微生物基因组资源利用基因组要素向量优化第二微生物基因组资源图谱确定。

在本申请实施例中，基因组要素向量中的基因组状态向量、宿主表型要素向量和有向拓扑可以通过相同的程序生成确定，或者相异的程序生成确定。第二微生物基因组资源图谱对应的基因组状态向量用于作为第二微生物基因组资源处理的参考，由多个拓扑单元（如拓扑节点）和有向指针组成。第二微生物基因组资源图谱对应的宿主表型要素向量用于反映第二微生物基因组资源的基因组资源特征。过往结构化存储标签用于反映第二微生物基因组资源，可以是第二微生物基因组资源的多级分类标签。第二微生物基因组资源图谱的有向拓扑用于反映第二微生物基因组资源的有向拓扑，并包括多个映射成员。在利用基因组要素向量将第二微生物基因组资源图谱传输至设定的增设数据库构建任务的同时，可以将基因组状态向量中的向量元素与有向拓扑中的多个映射成员对应。

进一步地，设定的增设数据库构建任务可以是延时任务或者实时任务，其中可包括多个任务环节以及对应的生成功能模块。通过以上思路确定的第二微生物基因组资源和第二微生物基因组资源所对应的任务可以调整，便可以通过确定包括相异的多级分类标签信息、相异的结构化关键词的第二微生物基因组资源的多种任务进行宏基因组信息样例的收集，获得资源信息多级分类标签和任务多级分类标签都较为全面的增设的算法调校样例集。同时，由于第二微生物基因组资源和增设数据库构建任务通过资源增设线程确定，因而可以提高全流程的时效性。

在一些实施例中，在宏基因组信息收集的过程中，宏基因组信息收集组件和第二微生物基因组资源中最少一个处于实时进程。在一些优选的实施例中，宏基因组信息收集过程可以如下步骤3021-步骤3024。

步骤3021：确定第二微生物基因组资源对应的第一检测状态特征。

在本申请实施例中，第一检测状态特征用于反映第二微生物基因组资源在增设数据库构建任务中的动态表征矩阵（资源数据更新情况）。

步骤3022：确定宏基因组信息收集组件对应的第二检测状态特征。

在本申请实施例中，第二检测状态特征用于反映宏基因组信息收集组件在增设数据库构建任务中的动态表征矩阵。

步骤3023：在宏基因组信息收集开始的前提下，利用第一检测状态特征和第二检测状态特征触发第二微生物基因组资源和宏基因组信息收集组件。

步骤3024：在第二微生物基因组资源和宏基因组信息收集组件的触发状态下中，指示宏基因组信息收集组件进行宏基因组信息收集，获得最少一个包括第二微生物基因组资源的第二微生物物种宏基因组信息。

在一些优选的实施例中，第一检测状态特征中具有多个用作确定第二微生物基因组资源分布以及基因组状态向量的结构化关键词的不间断第一特征数组集，第二检测状态特征中具有多个用作确定宏基因组信息收集组件分布和结构化关键词（存储类别）的不间断第二特征数组集。通过此，利用第一检测状态特征和第二检测状态特征触发第二微生物基因组资源和宏基因组信息收集组件，可以包括如下步骤30231和步骤30232。

步骤30231：利用多个连续的第一特征数组集按序调整第二微生物基因组资源在增设数据库构建任务中的分布变量以及结构化关键词。

步骤30232：利用多个连续的第二特征数组集按序调整宏基因组信息收集组件在增设数据库构建任务中的分布变量以及结构化关键词。

在一些实施例中，本申请实施例指示第二微生物基因组资源和宏基因组信息收集组件运行的过程还可以利用设定的第一执行策略和第二执行策略确定，可以理解，第二微生物基因组资源可以在最先宏基因组信息收集时利用第一执行策略优化在特征矩阵中的分布变量，宏基因组信息收集组件可以利用第二执行策略优化在特征矩阵中的分布变量。进一步地，在第二微生物基因组资源和宏基因组信息收集组件利用第一检测状态特征和第二检测状态特征按序调整分布变量和结构化关键词时，第一检测状态特征中每一个第一特征数组集和第二检测状态特征中各个第二特征数组集都携带相应的时序特征，用于反映第二微生物基因组资源或宏基因组信息收集组件从上一个特征数组集切换至当前特征数组集的耗时。

在一些优选的实施例中，在通过宏基因组信息收集组件进行宏基因组信息收集后，获得最少一个第二微生物物种宏基因组信息Genome information_20。其中，第二微生物物种宏基因组信息Genome information_20中具有增设数据库构建任务结构structure_21和第二微生物基因组资源source_22。鉴于宏基因组信息收集组件在增设数据库构建任务中进行宏基因组信息收集，采集到第二微生物物种宏基因组信息Genome information_20中的增设数据库构建任务结构structure_21可以是第二微生物基因组资源source_22所在增设数据库构建任务中的局部物种短片段序列簇，或整体物种短片段序列簇。

在一些实施例中，在收集获得最少一个第二微生物物种宏基因组信息后，确定各个第二微生物物种宏基因组信息中第二微生物基因组资源的过往共有特异判别变量和过往结构化存储标签。进一步地，过往结构化存储标签可以通过采集的第二微生物物种宏基因组信息中增设基因组资源的基因组要素向量直接获得。同时，在本申请实施例的增设数据库构建任务和增设基因组资源通过预配置的计算机程序等资源增设线程生成的基础上，通过资源增设线程的特征，宏基因组信息收集组件还用作获得反映增设基因组资源在增设数据库构建任务中分布变量的显著性标注信息。举例而言，该显著性标注信息可以通过宏基因组信息收集组件预配置的第二微生物基因组资源的影响系数为零之外的影响系数，除了第二微生物基因组资源之外的影响系数为零。可以理解，在获得宏基因组信息样例的同时，还获得一个除了第二微生物基因组资源之外的其他物种短片段序列簇对应的影响系数皆为0的显著性标注信息。由此，可以在获得宏基因组信息样例的基础上同时获得过往共有特异判别变量。

在一些优选的实施例中，确定各个第二微生物物种宏基因组信息中第二微生物基因组资源的过往共有特异判别变量和过往结构化存储标签，可以包括如下描述内容：利用与各个第二微生物物种宏基因组信息并行获得的显著性标注信息确定对应的过往共有特异判别变量，获得各个第二微生物物种宏基因组信息中第二微生物基因组资源基因组要素向量中的过往结构化存储标签。

在本申请实施例中，过往共有特异判别变量还可以利用宏基因组信息收集组件采集第二微生物物种宏基因组信息时的分布变量、结构化关键词以及采集第二微生物物种宏基因组信息时第二微生物基因组资源的分布变量和结构化关键词确定第二微生物基因组资源在第二微生物物种宏基因组信息中的过往共有特异判别变量。在真实实施时，可以利用采集增设延时宏基因组信息时宏基因组信息收集组件的结构化关键词确定宏基因组信息收集组件的第一组件参数，可以理解为宏基因组信息收集组件在特征矩阵的收集评估数据和误差评估数据。通过宏基因组信息收集组件的第一组件参数将第二微生物基因组资源在特征矩阵区域中的分布变量值，转换为在宏基因组信息收集组件的组件区域中的分布变量值。再通过第二微生物基因组资源在宏基因组信息收集组件的组件区域中的分布变量值以及宏基因组信息收集组件的第二组件参数，将第二微生物基因组资源在宏基因组信息收集组件的组件区域中的分布变量值转换为描述值的数值对，获得第二微生物基因组资源在第二微生物物种宏基因组信息中的过往共有特异判别变量。其中，共有特异判别变量可以理解为进行共有序列和特异序列判别的特征向量。

步骤30：将各个所述第一微生物物种宏基因组信息中最少一个所述短片段序列识别结果对应的第一物种短片段序列簇传入至共有特异AI判别算法，获得所述第一物种短片段序列簇中第一微生物基因组资源的共有特异判别变量。

在一些实施例中，在确定各个真实基因组资源宏基因组信息的最少一个短片段序列识别结果后，挖掘各个短片段序列识别结果反映的内容作为一个第一物种短片段序列簇，并且将第一物种短片段序列簇传入至调校所得的共有特异AI判别算法，获得第一物种短片段序列簇中第一微生物基因组资源的共有特异判别变量。举例而言，共有特异判别变量可以表示为一个特征向量或一个共有特异判别变量集。

举例而言，共有特异AI判别算法通过增设的算法调校样例集调校所得，增设的算法调校样例集具有最少一个包括第二微生物基因组资源的第二微生物物种宏基因组信息，以及各个第二微生物物种宏基因组信息中最少一个第二微生物基因组资源的过往共有特异判别变量和过往结构化存储标签。其中，在共有特异AI判别算法的调校过程中，各个第二微生物物种宏基因组信息中第二微生物基因组资源所对应的物种短片段序列簇作为调校依据，各个第二微生物基因组资源所对应的物种短片段序列簇中第二微生物基因组资源的过往结构化存储标签作为目标依据。该增设的算法调校样例集的确定过程与步骤20中相似。

在一些优选的实施例中，共有特异AI判别算法的调校过程可以包括步骤401和步骤402

步骤401：将增设的算法调校样例集中的第二微生物物种宏基因组信息中第二微生物基因组资源所对应的物种短片段序列簇作为调校依据，将各个第二微生物基因组资源所对应的物种短片段序列簇中第二微生物基因组资源的过往结构化存储标签作为目标依据调校机器学习算法。

例如，将增设的算法调校样例集中的第二微生物物种宏基因组信息中第二微生物基因组资源所对应的物种短片段序列簇传入至机器学习算法，再利用机器学习算法生成的处理结果和各个第二微生物基因组资源所对应的物种短片段序列簇中第二微生物基因组资源的过往结构化存储标签确定机器学习算法的算法损失偏移，利用该算法损失偏移优化机器学习算法直至符合设定指标。其中，机器学习算法中具有共有特异挖掘组件和多元回归处理组件。

步骤402：在机器学习算法调校完成后，获得调校所得的机器学习算法中的共有特异挖掘组件作为共有特异AI判别算法。

步骤40：利用各个所述第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得结构化数据库存储目录。

在一些实施例中，在确定数字化微生物基因组测序结果中各个第一微生物物种宏基因组信息的短片段序列识别结果和共有特异判别变量后，利用各个第一微生物物种宏基因组信息的短片段序列识别结果和共有特异判别变量进行配对，可获得结构化数据库存储目录。进一步地，结构化数据库存储目录中具有最少一个第一微生物基因组资源对应的结构化存储标签，以及各个结构化存储标签对应的短片段序列识别结果。结构化数据库存储目录为数字化微生物基因组测序结果中具有的每一个第一微生物基因组资源在不同第一微生物物种宏基因组信息中的分布变量，通过不同第一微生物物种宏基因组信息的先后，结构化数据库存储目录实现了对各个第一微生物基因组资源的处理。

在一些优选的实施例中，对多个第一微生物物种宏基因组信息的短片段序列识别结果和共有特异判别变量进行协同解析获得结构化数据库存储目录的过程可以包括步骤501-步骤503。

步骤501：利用各个第一微生物物种宏基因组信息在数字化微生物基因组测序结果中的先后，逐一对连续第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得连续第一微生物物种宏基因组信息中一致的第一微生物基因组资源。

步骤502：为各个第一微生物基因组资源绑定对应的结构化存储标签，并利用连续第一微生物物种宏基因组信息中一致的第一微生物基因组资源，确定各个结构化存储标签对应的第一微生物基因组资源在各个第一微生物物种宏基因组信息中的短片段序列识别结果。

步骤503：利用反映各个第一微生物基因组资源的结构化存储标签，以及各个结构化存储标签对应的最少一个短片段序列识别结果确定结构化数据库存储目录。

在一些优选的实施例中，利用各个第一微生物物种宏基因组信息在数字化微生物基因组测序结果中的先后，逐一对连续第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得连续第一微生物物种宏基因组信息中一致的第一微生物基因组资源，可以包括如下步骤5011-步骤5014所记录的内容。

步骤5011：利用各个第一微生物物种宏基因组信息在数字化微生物基因组测序结果中的先后逐一确定关联宏基因组信息，以及关联宏基因组信息后一组的目标宏基因组信息。

步骤5012：确定关联宏基因组信息的最少一个第一微生物基因组资源对应的关联短片段序列识别结果和关联共有特异判别变量。

步骤5013：确定目标宏基因组信息的最少一个第一微生物基因组资源对应的目标短片段序列识别结果和目标共有特异判别变量。

步骤5014：对于关联宏基因组信息中的各个第一微生物基因组资源，利用对应的关联短片段序列识别结果和对应的关联共有特异判别变量分别与各个目标短片段序列识别结果和对应目标共有特异判别变量进行协同解析，获得目标宏基因组信息中一致的第一微生物基因组资源。

例如，关联宏基因组信息为目标宏基因组信息在数字化微生物基因组测序结果中存在联系的上一组宏基因组信息，用于与目标宏基因组信息进行相同第一微生物基因组资源的匹配。

在一些实施例中，利用关联短片段序列识别结果和各个目标短片段序列识别结果进行协同解析的过程可以包括如下内容：利用数字化微生物基因组测序结果中在关联宏基因组信息之前的最少一个第一微生物物种宏基因组信息中，与关联短片段序列识别结果中一致的第一微生物基因组资源对应的短片段序列识别结果，以及关联短片段序列识别结果协同推算真实基因组资源在目标宏基因组信息中可能的分布变量，获得评估短片段序列识别结果。再进一步确定评估短片段序列识别结果和各个目标短片段序列识别结果反映物种短片段序列簇的差异度，当差异度大于第一判定门槛值时确定关联短片段序列识别结果和该目标短片段序列识别结果配对，即关联短片段序列识别结果和该目标短片段序列识别结果中的真实基因组资源可能为相同真实基因组资源。举例而言，该评估短片段序列识别结果可结合卡尔曼滤波技术实现，在此不作赘述。

进一步地，利用关联共有特异判别变量和各个目标共有特异判别变量进行协同解析的过程可以是直接确定关联共有特异判别变量和各个目标共有特异判别变量的相关性度量，比如：确定特征距离值，当特征距离值小于第二判定门槛值时确定关联共有特异判别变量与该目标共有特异判别变量配对，即关联共有特异判别变量对应的真实基因组资源与该目标共有特异判别变量对应的第一微生物基因组资源可能为相同第一微生物基因组资源。

举例而言，对于关联宏基因组信息中一个关联第一微生物基因组资源的关联短片段序列识别结果和关联共有特异判别变量，当目标宏基因组信息中存在一个目标真实基因组资源的目标短片段序列识别结果与该关联短片段序列识别结果配对，且该真实基因组资源的目标共有特异判别变量与该关联共有特异判别变量配对时，确定该关联第一微生物基因组资源与该目标第一微生物基因组资源为相同第一微生物基因组资源。

在确定存在联系的两个第一微生物物种宏基因组信息中一致的第一微生物基因组资源后，为各个第一微生物基因组资源绑定对应的结构化存储标签，并利用连续第一微生物物种宏基因组信息中一致的第一微生物基因组资源，确定各个结构化存储标签对应的第一微生物基因组资源在各个第一微生物物种宏基因组信息中的短片段序列识别结果。结构化存储标签与各个第一微生物基因组资源一一对应，比如：在确定各个连续第一微生物物种宏基因组信息中相同第一微生物基因组资源后获得K组一致的第一微生物基因组资源，确定结构化存储标签逐一为“第一微生物基因组资源data_1”、“第一微生物基因组资源data_2”直至“第一微生物基因组资源K”。并且利用各个结构化存储标签以及各个结构化存储标签反映的第一微生物基因组资源在各个第一微生物物种宏基因组信息中的短片段序列识别结果确定结构化数据库存储目录，实现对数字化微生物基因组测序结果中各个第一微生物基因组资源的处理。

进一步地，还可以利用数字化微生物基因组测序结果中前K组第一微生物物种宏基因组信息中每一个第一微生物基因组资源的短片段序列识别结果，确定第K+1组第一微生物物种宏基因组信息中该参考宏基因组信息的评估短片段序列识别结果，再利用第K+1组第一微生物物种宏基因组信息中该第一微生物基因组资源的短片段序列识别结果与预存短片段序列识别结果进行协同解析。进一步地，再对第K组第一微生物物种宏基因组信息和第K+1组参考宏基因组信息中每两个匹配的第一微生物基因组资源对应的共有特异判别变量进行协同解析，以确定短片段序列识别结果和共有特异判别变量都匹配的第一微生物基因组资源为同一第一微生物基因组资源。

在一些可能的示例下，数据库构建系统在确定数字化微生物基因组测序结果result40后，将数字化微生物基因组测序结果result40中各个第一微生物物种宏基因组信息传入至短片段序列AI识别算法algorithm41，获得对应的短片段序列识别结果Shortclip42。进一步地，各个短片段序列识别结果Short clip42具有对应的确定度参数，在对应的确定度参数大于设定参数时，确定该短片段序列识别结果Short clip42中具有第一微生物基因组资源。利用各个包括第一微生物物种宏基因组信息的短片段序列识别结果Shortclip42提取其中的第一物种短片段序列簇set43，将第一物种短片段序列簇set43传入至共有特异AI判别算法algorithm44获得各个第一物种短片段序列簇set43对应的共有特异判别变量feature45。按各个第一微生物物种宏基因组信息在数字化微生物基因组测序结果result40中的先后，逐一对连续的第一微生物物种宏基因组信息最少一个第一微生物基因组资源的短片段序列识别结果Short clip42和共有特异判别变量feature45进行配对处理，获得结构化数据库存储目录catalogue。

举例而言，数据库构建系统在确定数字化微生物基因组测序结果后，通过短片段序列AI识别算法获得短片段序列识别结果，并通过共有特异AI判别算法提取获得确定度参数大于确定度参数阈值的短片段序列识别结果中第一微生物基因组资源的共有特异判别变量。逐一将数字化微生物基因组测序结果中每一个第一微生物物种宏基因组信息的短片段序列识别结果和共有特异判别变量传入至监测组件中进行特征配对获得结构化数据库存储目录。其中，监测组件在获取到第一个第一微生物物种宏基因组信息后将其中各个短片段序列识别结果中的第一微生物基因组资源作为一组第一微生物基因组资源并生成对应的结构化存储标签，并行确定各个结构化存储标签对应的短片段序列识别结果和共有特异判别变量。在获取到后一组第一微生物物种宏基因组信息后，利用其中各个第一微生物基因组资源的短片段序列识别结果和共有特异判别变量与上一组中每一组第一微生物基因组资源的短片段序列识别结果和共有特异判别变量进行协同解析。在一个第一微生物基因组资源与上一组中的一组第一微生物基因组资源匹配时，确定该当前组中该第一微生物基因组资源对应的短片段序列识别结果和共有特异判别变量与该组第一微生物基因组资源匹配，并将该第一微生物基因组资源对应的短片段序列识别结果和共有特异判别变量与结构化存储标签的映射列表传递至监测组件中。同时，还可以在当前组存在不与上一组中任意的一个多级分类标签第一微生物基因组资源匹配的第一微生物基因组资源时，确定该第一微生物基因组资源为新增的第一微生物基因组资源多级分类标签，生成新增的结构化存储标签，并将新增的结构化存储标签和对应第一微生物基因组资源的共有特异判别变量和短片段序列识别结果优化至监测组件中。直至数字化微生物基因组测序结果中的全部第一微生物基因组资源完成配对，监测组件确定各个结构化存储标签对应的最少一个短片段序列识别结果作为最后的结构化数据库存储目录。

本申请实施例通过生成增设数据库构建任务和第二微生物基因组资源确定调校依据量大且丰富的增设的算法调校样例集，并利用增设的算法调校样例集调校所得优质的短片段序列AI识别算法以及共有特异AI判别算法，从而保障短片段序列AI识别算法和共有特异AI判别算法的调校效率和准确性。进一步地，通过短片段序列AI识别算法和共有特异AI判别算法对数字化微生物基因组测序结果进行处理，实现了对第一微生物基因组资源的处理，从而保障结构化数据库存储目录识别的可信度。

举例而言，在结合所述短片段序列识别结果以及所述共有特异判别变量确定结构化数据库存储目录之后，该方法还可以包括如下内容：通过所述结构化数据库存储目录确定所述第一微生物物种宏基因组信息的数据存储计划；通过所述数据存储计划进行数据库构建。

在本申请实施例中，结构化数据库存储目录记载了第一微生物基因组资源对应的结构化存储标签，以及各个所述结构化存储标签对应的短片段序列识别结果，也即包括了第一微生物基因组资源对应的多级分类标签以及相对位置，因此可以通过第一微生物基因组资源对应的多级分类标签以及相对位置针对性地确定数据存储计划，并结合第一微生物物种宏基因组信息对应的电子设备的算力进行计划实施，比如第一微生物物种宏基因组信息对应的电子设备为云服务器，因而可以将数据存储计划在云服务器中运行，从而实现数据库构建，并将相关数据按照结构化数据库存储目录存入数据库中，方便后期快速、准确调用。

举例而言，通过所述结构化数据库存储目录确定所述第一微生物物种宏基因组信息的数据存储计划，可以包括如下内容：通过所述结构化数据库存储目录中各所述第一微生物基因组资源对应的结构化存储标签以及各所述结构化存储标签对应的短片段序列识别结果确定第一数据库导入决策特征；通过采用完成优化的第一数据存储分析网络对所述第一数据库导入决策特征进行处理，得到所述第一数据库导入决策特征的数据存储计划。

如此设计，通过进行数据库导入决策处理，能够准确得到数据库导入决策特征，然后利用第一数据存储分析网络精准可靠地确定出数据存储计划。

举例而言，所述第一数据存储分析网络包括级联的特征提取组件和计划生成组件，所述第一数据存储分析网络的优化步骤包括：获取第一网络训练样例，所述第一网络训练样例包括多个第一过往决策特征；将每个所述第一过往决策特征中包含的至少一个特征块进行优化，得到各所述第一过往决策特征对应的第二过往决策特征；通过各所述第一过往决策特征和各所述第二过往决策特征，对通用特征提取组件进行优化，直至所述通用特征提取组件对应的算法偏移指标处于收敛状态，得到预优化后的特征提取组件，其中，所述通用特征提取组件的输入信息包括各所述第二过往决策特征，生成信息包含各所述第二过往决策特征对应的存储-调用预测特征，所述算法偏移指标的损失值表征了各所述第一过往决策特征的存储-调用预测特征和对应的第二过往决策特征的存储-调用预测特征之间的差异；获取第二网络训练样例，通过所述第二网络训练样例对所述预优化后的特征提取组件和通用计划生成组件进行优化，得到所述第一数据存储分析网络。

举例而言，所述通过采用完成优化的第一数据存储分析网络对所述第一数据库导入决策特征进行处理，得到所述第一数据库导入决策特征的数据存储计划，包括：将所述第一数据库导入决策特征输入至所述第一数据存储分析网络的特征提取组件，得到所述第一数据库导入决策特征的存储-调用预测特征；将所述第一数据库导入决策特征的存储-调用预测特征输入至所述第一数据存储分析网络的计划生成组件，得到所述第一数据库导入决策特征的数据存储计划；其中，所述第一数据库导入决策特征的存储-调用预测特征由所述特征提取组件通过实施如下步骤得到的：提取所述第一数据库导入决策特征包含的各特征块的通用数据加载描述；对于每一特征块的通用数据加载描述，由最少一个第一特征处理单元通过该特征块的通用数据加载描述以及处于该特征块的预设范围内的各特征块的通用数据加载描述，提取得到该特征块的第一数据加载描述；通过各所述特征块对应的第一数据加载描述得到所述存储-调用预测特征。

通过同样的发明构思，图2示出了本申请实施例提供的微生物宏基因组数据库构建装置的模块框图，微生物宏基因组数据库构建装置可以包括实施图1所示的相关方法步骤的片段序列识别模块21，用于通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果；共有特异判别模块22，用于通过共有特异AI判别算法以及短片段序列识别结果确定所述第一微生物基因组资源的共有特异判别变量；存储目录确定模块23，用于结合所述短片段序列识别结果以及所述共有特异判别变量确定结构化数据库存储目录。

应用于本申请的相关实施例可以达到如下技术效果：通过结合短片段序列AI识别算法以及共有特异AI判别算法的协同解析思路，可以实现对微生物基因组资源的双重存储目录分析，从而提高微生物基因组资源的存储目录确定准确性和可靠性。首先通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果，可以实现粗略的解析操作，其次利用短片段序列识别结果进行进一步的共有/特异分析处理，能够准确得到共有特异判别变量，这样可以利用短片段序列识别结果和共有特异判别变量进行协同解析操作，从而得到尽可能全面准确合理的结构化数据库存储目录，以便于后续通过该结构化数据库存储目录进行高质量且有序的数据库构建。

以上所述，仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式，可想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种微生物宏基因组数据库构建方法，其特征在于，应用于数据库构建系统，方法包括：

结合所述短片段序列识别结果以及所述共有特异判别变量确定结构化数据库存储目录；

所述通过短片段序列AI识别算法确定第一微生物物种宏基因组信息对应的第一微生物基因组资源的短片段序列识别结果，包括：

获取包含G组第一微生物物种宏基因组信息的数字化微生物基因组测序结果；其中，各个所述第一微生物物种宏基因组信息中具有最少一个第一微生物基因组资源，G为正整数；

将各个所述第一微生物物种宏基因组信息传入至短片段序列AI识别算法，获得各个所述第一微生物物种宏基因组信息中最少一个第一微生物基因组资源的短片段序列识别结果；

所述通过共有特异AI判别算法以及短片段序列识别结果确定所述第一微生物基因组资源的共有特异判别变量，包括：将各个所述第一微生物物种宏基因组信息中最少一个所述短片段序列识别结果对应的第一物种短片段序列簇传入至共有特异AI判别算法，获得所述第一物种短片段序列簇中第一微生物基因组资源的共有特异判别变量；

2.如权利要求1所述的方法，其特征在于，所述利用各个所述第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得结构化数据库存储目录包括：

3.如权利要求2所述的方法，其特征在于，所述利用各个所述第一微生物物种宏基因组信息在所述数字化微生物基因组测序结果中的先后，逐一对连续第一微生物物种宏基因组信息对应的短片段序列识别结果和共有特异判别变量进行协同解析，获得连续第一微生物物种宏基因组信息中一致的第一微生物基因组资源包括：

4.如权利要求1所述的方法，其特征在于，所述增设的算法调校样例集的获得步骤如下：

获取包含第二微生物基因组资源的增设数据库构建任务；

5.如权利要求4所述的方法，其特征在于，所述获取包含第二微生物基因组资源的增设数据库构建任务，包括：

6.如权利要求5所述的方法，其特征在于，所述通过宏基因组信息收集组件在所述增设数据库构建任务中进行宏基因组信息收集，获得最少一个携带所述第二微生物基因组资源的第二微生物物种宏基因组信息，包括：确定所述第二微生物基因组资源对应的第一检测状态特征，所述第一检测状态特征用于反映所述第二微生物基因组资源在所述增设数据库构建任务中的动态表征矩阵；确定所述宏基因组信息收集组件对应的第二检测状态特征，所述第二检测状态特征用于反映所述宏基因组信息收集组件在所述增设数据库构建任务中的动态表征矩阵；在宏基因组信息收集开始的前提下，利用所述第一检测状态特征和所述第二检测状态特征触发所述第二微生物基因组资源和所述宏基因组信息收集组件；在所述第二微生物基因组资源和所述宏基因组信息收集组件的触发状态下中进行宏基因组信息收集，获得最少一个携带所述第二微生物基因组资源的第二微生物物种宏基因组信息；

7.如权利要求1所述的方法，其特征在于，所述共有特异AI判别算法的调校步骤为：

8.一种数据库构建系统，其特征在于，包括：存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；其中，当所述处理器执行所述计算机指令时，使得所述数据库构建系统执行如权利要求1-7中任意一项所述的方法。