CN111710364B

CN111710364B - 一种菌群标记物的获取方法、装置、终端及存储介质

Info

Publication number: CN111710364B
Application number: CN202010384622.4A
Authority: CN
Inventors: 蔡云鹏; 陈允文
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2022-02-15
Anticipated expiration: 2040-05-08
Also published as: WO2021223449A1; CN111710364A

Abstract

本申请适用于生物技术领域，提供一种菌群标记物的获取方法、装置、终端及存储介质，其中方法包括：获取菌群样本数据，所述菌群样本数据包括N个菌种分类单元在M个菌群样本中的丰度，N及M为正整数；以N个菌种分类单元为叶子节点，以N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树；按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为M个菌群样本的菌群标记物。该方案可以降低高维度菌群样本数据的计算复杂度，更高效地实现对目标菌群标记物的确定，减少计算量。

Description

一种菌群标记物的获取方法、装置、终端及存储介质

技术领域

本申请属于生物技术领域，尤其涉及一种菌群标记物的获取方法、装置、终端及存储介质。

背景技术

菌群基因检测是一种疾病检测手段，通过对人体中的菌群分布的样本检测，可以获知人体内菌群的结构，给予疾病趋势预警或找出复杂疾病的真实原因。

在实际应用中，由于菌群结构十分复杂，分析起来较为困难，在做机器学习预测的时候，容易出现维数灾难。因此筛选出有效的菌群标记物，对于我们探索菌群的结构，以及菌群对于人类健康的影响，具有非常重要的意义。

现有技术中，通常采用系统发育树对菌群数据进行特征分析。系统发育树是一种呈现不同物种或是同物种不同族群的个体之间亲缘关系的树状图。系统发育树的叶子节点，就是我们可以观测到的物种，在菌群数据里也就是指菌种分类单元，而系统发育树的非叶子节点(包括根节点)则是记录根据已有的系统发育树算法推测出来的下级节点的共同祖先。通过该系统发育树可以获知不同叶子节点所代表的菌种分类单元之间的系统发育距离。

在基于系统发育树筛选菌群标记物时，通常为基于系统发育距离来确定各菌种分类单元的菌群权重，将菌群权重较大的菌种分类单元作为更有效的菌群标记物。而这一有效的菌群标记物的筛选过程需要计算系统发育树中所有分支的权重才能实现不同菌种分类单元所在分支之间的权重比较，该过程计算量巨大，严重影响数据计算速度，无法高效的从高维的菌群数据中检测出稳定的菌群标记物。

发明内容

本申请实施例提供了一种菌群标记物的获取方法、装置、终端及存储介质，以解决现有技术基于系统发育树筛选菌群标记物时数据计算量巨大，数据计算速度效率较低的问题。

本申请实施例的第一方面提供了一种菌群标记物的获取方法，包括：

获取菌群样本数据，所述菌群样本数据包括N个菌种分类单元在M个菌群样本中的丰度，N及M为正整数；

以所述N个菌种分类单元为叶子节点，以所述N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树，2≤J＜N；

按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物；

其中，所述至少一个目标节点包括目标中间节点和/或目标叶子节点，所述目标中间节点的得分数值大于所述目标中间节点的子节点的平均得分数值，所述目标叶子节点所在的节点搜索分支上，各个中间节点的得分数值均小于或等于各自的子节点的平均得分数值；所述系统发育树中每个非叶子节点的得分数值是根据所述每个非叶子节点对应的菌种分类单元在所述M个菌群样本中的丰度计算得到。

本申请实施例的第二方面提供了一种菌群标记物的获取装置，包括：

获取模块，用于获取菌群样本数据，所述菌群样本数据包括N个菌种分类单元在M个菌群样本中的丰度，N及M为正整数；

生成模块，用于以所述N个菌种分类单元为叶子节点，以所述N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树，2≤J＜N；

搜索模块，用于按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物；

本申请实施例的第三方面提供了一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

本申请的第五方面提供了一种计算机程序产品，当所述计算机程序产品在终端上运行时，使得所述终端执行上述第一方面所述方法的步骤。

由上可见，本申请实施例中，通过获取包括N个菌种分类单元在M个菌群样本中的丰度的菌群样本数据，以该N个菌种分类单元为叶子节点，以该N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树，并按照由根节点至叶子节点的方向，利用贪心算法对系统发育树进行节点搜索，得到至少一个目标节点作为M个菌群样本的菌群标记物。该过程中，结合了系统发育树中信息，引入了贪心搜索的思想，采用贪心算法对系统发育树中不同的节点搜索分支上分别进行节点搜索，从高维的菌群样本数据中，提取出了有意义的菌群标记物，降低高维度菌群样本数据的计算复杂度，更高效地实现对目标菌群标记物的确定，减少计算量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种菌群标记物的获取方法的流程图一；

图2是本申请实施例提供的一种菌种分类单元表的示例图；

图3是本申请实施例提供的一种系统发育树的示例图；

图4是本申请实施例提供的一种菌群标记物的获取方法的流程图二；

图5是本申请实施例提供的一种菌群标记物的获取装置的结构图；

图6是本申请实施例提供的一种终端的结构图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

应理解，本实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在说明本申请方案之前，为了便于读者理解，先对本方案中所涉及的名词进行解释说明。

菌种分类单元：微生物学中一般用操作分类单元作为细菌的菌种分类单元。其中，操作分类单元(Operational Taxonomic Units，OTU)是在系统发生学研究或群体遗传学研究中，为了便于进行分析，人为给某一个分类单元(品系，种，属，分组等)设置的同一标志。在生物信息分析中，一般来说，测序得到的每一条序列来自一个菌。要了解一个样品测序结果中的菌种、菌属等数目信息，就需要对序列进行归类操作(cluster)。通过归类操作，将序列按照彼此的相似性分归为许多小组，一个小组就是一个OTU。通常按97％的相似度，对所有序列进行OTU划分并进行生物信息统计分析。

菌群样本：一个菌群的样本数据。例如将从一个健康者体内采集的菌群数据作为一个菌群样本，将从一个高血压病人体内采集的菌群数据作为一个菌群样本。

菌群标记物：一个菌群中的生物标记物。其中，生物标记物(Biomarker)一般是指可供客观测定和评价的一个普通生理或病理或治疗过程中的某种特征性的生化指标,通过对它的测定可以获知机体当前所处的生物学过程中的进程。

系统发育树,又称分子进化树，是一种呈现不同物种或是同物种不同族群的个体之间亲缘关系的树状图。系统发育树的叶子节点，就是我们可以观测到的物种，在菌群数据里也就是指OTU，非叶子节点(包括根节点)是根据已有的系统发育树算法推测出来的OTU的共同祖先。一般情况下，系统发育树的枝长，可以理解为进化时间，枝长越长则代表亲缘关系越疏远。

根节点：是树的一个组成部分，也叫树根。它是同一棵树中除本身外所有结点的祖先，没有父结点。

叶子节点：一棵树当中没有子结点(即度为0)的结点称为叶子结点，简称“叶子”。叶子是指出度为0的结点，又称为终端结点。

中间节点：树中除根节点及叶子节点之外的节点。

菌种分类单元表，即OTU-table，为丰度矩阵，具体记载有若干个菌种分类单元在不同的菌群样本中的丰度(即数量)。

贪心算法(也叫贪婪算法)不是某种特定的算法，而是一类抽象的算法，或者说只是一种思想，它的具体表现在，对解空间进行搜索时，不是机械地搜索，而是对局部进行择优选取，贪心算法的目的不是为了找到全部解或者找到最优解，而是找出一种可行解，得到计算的高效性。

本申请实施例中提供一种菌群标记物的获取方法、装置、终端及存储介质，通过以菌群样本数据中N个菌种分类单元为叶子节点，以N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树，利用贪心算法对系统发育树进行节点搜索，得到至少一个目标节点作为M个菌群样本的菌群标记物，可以降低高维度菌群样本数据的计算复杂度，更高效地实现对目标菌群标记物的确定，减少计算量。

下面通过具体实施例对本申请提供的菌群标记物的获取方法进行示例性的说明。

参见图1，图1是本申请实施例提供的一种菌群标记物的获取方法的流程图一。如图1所示，一种菌群标记物的获取方法，该方法包括以下步骤：

步骤101，获取菌群样本数据，所述菌群样本数据包括N个菌种分类单元在M个菌群样本中的丰度。

该菌群样本数据中可以包含多个菌群样本。例如，可以包括从正常人体中采集的第一菌群样本，从亚健康人体中采集的第二菌群样本，从糖尿病患者体内采集的第三菌群样本等。

其中，该N个菌种分类单元为在各个菌群样本中不同菌种所属的菌种分类单元。

一个菌种分类单元表示一个种类的细菌。一个菌群样本中会包括有多个菌种分类单元。一个菌群样本中会包含许多菌种，在同一个菌群样本中，不同的菌种对应有不同的菌种分类单元，不同的菌种分类单元所表示的菌种的分布数量是不同的。因此，每一菌群样本中，不同的所述菌种分类单元均具有相对应的丰度，该丰度指的是不同的菌种分类单元所对应的菌种在一个菌群样本中的数量的多少。

例如，健康的人体内的菌种可能会对应于某种菌种的分布数量较多，其他菌种的分布数量较少，而生病的人则分布状况相反或相差很大。

其中，N及M为正整数。

步骤102，以所述N个菌种分类单元为叶子节点，以所述N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树。

其中，2≤J＜N。

菌群样本数据可以具体为一个菌种分类单元表，即OUT-table。结合图2所示，该表中横向表头所包含的OTU3、OTU4、OTU5、OTU6代表不同的菌种分类单元，竖向表头所包含的样本1、样本2、样本3为3个样本的编号，表中的数值则代表对应的菌种分类单元在不同菌群样本中的丰度，例如，第一行第一列的数值1，代表菌种分类单元OTU3在样本1中的丰度值为1，其他则同理。

基于该菌种分类单元表，生成系统发育树，结合图3所示，系统发育树的叶子节点，即为菌群样本数据中所包含的各种菌种分类单元(OTU3、OTU4、OTU5、OTU6)，而系统发育树的中间节点(Node1、Node2、Node3)则是记录根据已有的系统发育树算法推测出来的下级节点的共同祖先(即N个菌种分类单元中J个菌种分类单元的共同祖先)，不同的节点之间具有枝长，如图3中Node1和Node2之间的枝长为5，Node1和Node3之间的枝长为2，枝长越长则代表亲缘关系越疏远。

通过该系统发育树可以获知不同叶子节点所代表的菌种分类单元之间的系统发育距离。

该生成以不同的菌种分类单元为叶子节点的系统发育树的步骤的实现，可以是：使用系统发育树生成软件(包括但不限于QIIME或者Fasttree等)将菌种分类单元的代表序列作为输入，生成系统发育树。

基于该系统发育树，可以从中提取出稳定的具有代表意义的菌群标记物，作为医生在诊断、治疗疾病时的一种辅助手段。

步骤103，按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物。

其中，该目标节点包括目标中间节点和/或目标叶子节点。其中，该至少一个目标节点包括目标中间节点和/或目标叶子节点。该目标中间节点的得分数值大于目标中间节点的子节点的平均得分数值，目标叶子节点所在的节点搜索分支上，各个中间节点的得分数值均小于或等于各自的子节点的平均得分数值。系统发育树中每个非叶子节点的得分数值是根据每个非叶子节点对应的菌种分类单元在M个菌群样本中的丰度计算得到。

其中，非叶子节点对应的菌种分类单元具体为：非叶子节点的子孙节点中所包含的所有叶子节点所代表的菌种分类单元；或者非叶子节点对应的菌种分类单元具体为基于系统发育树中的枝长所确定的节点亲缘远近关系，所确定的与该非叶子节点的亲缘远近关系满足设定条件的菌种分类单元。

该节点搜索分支具体为在利用贪心算法对系统发育树中节点进行搜索时，依照贪心算法搜索要求所确定的在系统发育树中的一个分支。

贪心算法在对问题求解时，不从整体最优上加以考虑，它所做出的是在某种意义上的局部最优解。在采用贪心算法对系统发育树进行节点搜索以筛选出目标菌群标记物时，需要与对节点计算得到的得分数值相结合来实施。节点的得分数值为基于菌种分类单元在不同菌群样本中的丰度计算得到。通过该得分数值来判断此时的节点(可能是代表菌种分类单元的叶子节点，可能是代表菌种分类单元的共同祖先的中间节点)是否为更稳定的且更具有代表意义的菌群标记物。

在将该得分数值与贪心算法相结合应用时，若判断一个节点搜索分支中存在中间节点的得分数值大于其子节点的平均得分数值，则将该中间节点确定为目标节点，若判断一个节点搜索分支中不存在中间节点的得分数值大于其子节点的平均得分数值，则将该节点搜索分支中的叶子节点确定为目标节点。

即，该目标节点包括：所述系统发育树的第一节点搜索分支中得分数值大于子节点的得分数值的平均值的中间节点，和/或，所述系统发育树的第二节点搜索分支中中间节点的得分数值均小于子节点的得分数值的平均值的情况下的叶子节点。

在具体实施过程时，该按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物，包括：

按照由根节点至叶子节点的方向，对所述系统发育树进行节点搜索，在当前搜索节点不为叶子节点的情况下，分别计算所述当前搜索节点的第一得分数值及所述当前搜索节点的子节点的第二得分数值的平均值；在所述第一得分数值大于所述平均值的情况下，将所述当前搜索节点作为目标节点；在当前搜索节点为叶子节点的情况下，将所述当前搜索节点作为目标节点。

上述贪心搜索过程，结合图3所示，从Node1开始搜索，若当前节点Node1相比其子节点Node2及Node3的得分数值的平均值具有更高的得分数值时，则认为该当前节点Node1即为筛选出的目标菌群标记物，则停止在当前节点搜索分支中的节点搜索，不继续对Node2、Node3、OTU3、OTU4、OTU5及OTU6进行节点搜索，否则继续搜索。可以更高效地实现对目标菌群标记物的确定，减少计算量。

本申请实施例中的该菌群标记物的获取方法，通过获取包括N个菌种分类单元在M个菌群样本中的丰度的菌群样本数据，以该N个菌种分类单元为叶子节点，以该N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树，并按照由根节点至叶子节点的方向，利用贪心算法对系统发育树进行节点搜索，得到至少一个目标节点作为M个菌群样本的菌群标记物。该过程中，结合了系统发育树中信息，引入了贪心搜索的思想，采用贪心算法对系统发育树中不同的节点搜索分支上分别进行节点搜索，从高维的菌群样本数据中，提取出了有意义的菌群标记物，降低高维度菌群样本数据的计算复杂度，更高效地实现对目标菌群标记物的确定，减少计算量。

本申请实施例中还提供了菌群标记物的获取方法的不同实施方式。

参见图4，图4是本申请实施例提供的一种菌群标记物的获取方法的流程图二。如图4所示，一种菌群标记物的获取方法，该方法包括以下步骤：

步骤401，获取菌群样本数据，所述菌群样本数据包括N个菌种分类单元在M个菌群样本中的丰度。

N及M为正整数。

该步骤的实现过程与前述实施方式中步骤101的实现过程相同，此处不再赘述。

步骤402，以所述N个菌种分类单元为叶子节点，以所述N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树。

其中，2≤J＜N。

该步骤的实现过程与前述实施方式中步骤102的实现过程相同，此处不再赘述。

步骤403，按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物。

其中，该至少一个目标节点包括目标中间节点和/或目标叶子节点。该目标中间节点的得分数值大于所述目标中间节点的子节点的平均得分数值，所述目标叶子节点所在的节点搜索分支上，各个中间节点的得分数值均小于或等于各自的子节点的平均得分数值；所述系统发育树中每个非叶子节点的得分数值是根据所述每个非叶子节点对应的菌种分类单元在所述M个菌群样本中的丰度计算得到。

该步骤的实现过程与前述实施方式中步骤103的实现过程相同，此处不再赘述。

作为一可选的实施方式，依照如下得分函数计算所述系统发育树中每个非叶子节点的得分数值：

Score(Node)＝coe f₁×mean(abun)+coe f₂×GI+coe f₃×std(abun)；

其中，abun表示非叶子节点所对应的菌种分类单元在所述M个菌群样本中的丰度，mean()为均值计算，std()为方差计算，coef₁、coef₂、coef₃为随机系数；GI为非叶子节点所对应的菌种分类单元在所述M个菌群样本中的丰度的数值分布均匀度。

该过程中，利用节点所对应的菌种分类单元在不同菌群样本中的丰度，结合节点所对应的菌种分类单元在不同菌群样本中的丰度的数值分布均匀度实现对系统发育树中不同节点的得分数值的计算。

该数值分布均匀度指的是节点所对应的菌种分类单元在不同菌群样本中的丰度的数值的均匀程度。该GI的数值越大，则表示节点所对应的菌种分类单元在不同菌群样本中的丰度所组成的数据集合具有更大的数值均匀度。

此外，作为一具体的实施方式，所述按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物，包括：

根据所述系统发育树中叶子节点至根节点的路径长度，将所述系统发育树切割成L个子树，L为正整数；

按照由根节点至叶子节点的方向，利用贪心算法分别对每个所述子树进行节点搜索，将从所述L个子树中分别搜索到的目标节点作为所述M个菌群样本的菌群标记物。

这里，在对系统发育树进行节点搜索的过程中，需要先对系统发育树进行子树分割，基于分割得到的多个子树，按照由根节点至叶子节点的方向，利用贪心算法分别对每个子树进行节点搜索，从每棵子树上均得到至少一个目标节点，将从L个子树中分别搜索到的目标节点作为M个菌群样本的菌群标记物。

具体地，其中，系统发育树切割成的L个子树中，每个子树的叶子节点也均为原系统发育树中的叶子节点。根据系统发育树中叶子节点至根节点的路径长度，实现对系统发育树的子树切割，以利用系统发育信息，能够从高维的菌群样本数据中提取出具有代表意义的微生物菌群标记物，使筛选出的菌群标记物可以全面的反映菌群之间的复杂联系，提升筛选出的菌群标记物的有效性。

该过程中，采用分而治之的思想，将系统发育树切割形成多个子树，并针对每一子树采用贪心算法对该些子树中节点分别进行搜索处理，降低高维度菌群样本数据的计算复杂度，更高效地实现对目标菌群标记物的确定，减少计算量。

其中，具体地，作为一可选的实施方式，所述根据所述系统发育树中叶子节点至根节点的路径长度，将所述系统发育树切割成L个子树，包括：

根据所述系统发育树的枝长，确定所述系统发育树中从叶子节点至根节点的最长路径；将所述最长路径中的叶子节点及与所述叶子节点的距离小于切割距离的节点从系统发育树中切割，得到子树，所述切割距离为所述最长路径的长度与切割系数的乘积；切割后，若所述系统发育树中包含与所述菌种分类单元相对应的叶子结点，则返回执行所述根据所述系统发育树的枝长，确定所述系统发育树中从叶子节点至根节点的最长路径，将所述最长路径中的叶子节点及与所述叶子节点的距离小于切割距离的节点从系统发育树中切割，得到子树的步骤。

其中，该切割系数小于1。

该过程中，先将系统发育树分割成多棵子树。在进行子树分割过程中，可以给定某个阈值α(比如0.97)，将其作为切割系数，同时执行步骤(1)：找到系统发育树中当前距离根节点最远的节点，计算其距离，然后将该距离乘以阈值α得到切割距离，把该距离最远的路径上，与叶子节点间的距离小于这个切割距离的节点都切下来，成为一个子树。不断循环(1)的步骤，直到系统进化树中不再含有菌种分类单元的叶子结点为止。于是我们就得到了多棵子树。将系统发育树切割以叶子节点为参照，按照切割距离进行节点切割并形成子树，实现贪心算法搜索过程中的数据维数的减少，减少了后续的计算量及计算复杂度。

步骤404，根据所述至少一个目标节点确定菌种分类单元表，所述菌种分类单元表包括所述菌群标记物在所述M个菌群样本中的丰度。

其中，在所述目标节点包括所述目标中间节点的情况下，所述目标中间节点代表的菌群标记物在所述M个菌群样本中的丰度，为所述目标中间节点对应的菌种分类单元在所述M个菌群样本中的丰度的和。

该过程中，在得到目标节点时，该至少一个目标节点即作为M个菌群样本的菌群标记物。在此之后，仍需要基于该至少一个目标节点即该M个菌群样本的菌群标记物生成新的菌种分类单元表，该新的菌种分类单元表中包括有不同的菌群标记物在M个菌群样本中的丰度。

这里，由于确定出的菌群标记物可能是菌种分类单元同时也可能是某些菌种分类单元的共同祖先，因此，在该菌种分类单元表中，包括所述目标中间节点的情况下(即菌群标记物为某些菌种分类单元的共同祖先的情况下)，该目标中间节点代表的菌群标记物在所述M个菌群样本中的丰度，为所述目标中间节点对应的菌种分类单元在所述M个菌群样本中的丰度的和，更具体地为该目标中间节点的子孙节点中所有叶子节点所代表的菌种分类单元在对应的菌群样本中的丰度的和。同时，也在该过程中使得新生成的菌种分类单元表相对现有菌种分类单元表实现了数据列的合并，使得本实施例中所生成的菌种分类单元表中的数据量大幅度减少，减少后续数据处理及数据利用过程中的复杂度，提升数据分析处理的计算效率。

结合图2及图3所示，例如，图3中确定出的一个目标节点为Node2，则该中间节点Node2在菌群样本1中的丰度为叶子节点OTU3在菌群样本1中的丰度值1，及OTU4在菌群样本1中的丰度值1的和，即为2。在其他菌群样本中的丰度同理可得，此处不再赘述。在得到该菌种分类单元表之后，则可以基于该表实现机器学习分类，及后续的其他处理过程。

更进一步地，作为一可选的实施方式，该菌群样本数据还包括所述M个菌群样本的样本类标。

该样本类标为用于标识一个菌群样本的类型的标签，例如可以表示健康或疾病、肥胖或瘦等。例如样本类标为“健康”，则表示该样本类标所标识的样本中的数据为一个健康身体状况下的菌群数据，当样本类标为“疾病”时也为同理。

对应地，该根据所述至少一个目标节点确定菌种分类单元表之后，还包括：

将所述菌种分类单元表及所述样本类标输入分类模型中处理，并在所述分类模型的输出结果不满足设定条件时，更新所述随机系数；返回执行所述按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物的步骤。

该过程中，将生成的菌种分类单元表及样本类标输入分类模型中处理，以能够基于选取出的菌群标记物并通过该分类模型实现菌群分类，并基于该分类模型的输出结果检测菌群标记物的选取是否足够达到理想条件，并在未达到理想条件时，重新确定得分函数中的随机系数，并返回执行按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物的步骤，即重新按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，依照随机系数修改后的得分函数计算不同节点的得分数值，选出至少一个目标节点作为M个菌群样本的菌群标记物，根据该至少一个目标节点确定菌种分类单元表，将所述菌种分类单元表及所述样本类标输入分类模型中处理，形成一个处理过程的循环执行，在每次循环中调整得分函数中的随机系数，以改变选取出的菌群标记物，进而改变每次循环执行过程中分类模型的输出结果。

这里，在该过程中，上述的设定条件包括：该循环处理过程的循环执行次数大于设定值，且最后一次循环处理过程中得到的分类模型的输出结果的评分值不超过在该最后一次循环之前的几次循环处理过程中得到的分类模型的输出结果的评分值。其中，该设定值例如为3。需要说明的是，该设定条件可以基于实际情况进行具体设置，不以此为限。

不同地，在菌群样本数据还包括所述M个菌群样本的样本类标的情况下。作为又一可选的实施方式，该根据所述至少一个目标节点确定菌种分类单元表之后，还包括：

将所述菌种分类单元表及所述样本类标输入分类模型中处理，并在所述分类模型的输出结果不满足设定条件时，更新所述切割系数；返回执行所述按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物的步骤。

该过程中，将生成的菌种分类单元表及样本类标输入分类模型中处理，以能够基于选取出的菌群标记物并通过该分类模型实现菌群分类，并基于该分类模型的输出结果检测菌群标记物的选取是否足够达到理想条件，并在未达到理想条件时，重新确定子树分割过程中的切割系数，并返回执行按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物的步骤，即重新根据系统发育树的枝长，确定系统发育树中从叶子节点至根节点的最长路径；利用基于更新后的切割系数所重新计算的切割距离，将最长路径中的叶子节点及与叶子节点的距离小于切割距离的节点从系统发育树中切割，得到子树，切割后，若所述系统发育树中包含与所述菌种分类单元相对应的叶子结点，则返回执行所述根据所述系统发育树的枝长，确定所述系统发育树中从叶子节点至根节点的最长路径，并将所述最长路径中的叶子节点及与所述叶子节点的距离小于切割距离的节点从系统发育树中切割，得到子树的步骤，若系统发育树中不包含与菌种分类单元相对应的叶子结点，则按照由根节点至叶子节点的方向，利用贪心算法分别对每个子树进行节点搜索，将从L个子树中分别搜索到的目标节点作为M个菌群样本的菌群标记物，根据该至少一个目标节点确定菌种分类单元表，将菌种分类单元表及样本类标输入分类模型中处理，形成一个循环处理过程，在每次循环处理过程中调整子树分割过程中的切割系数，以改变选取出的菌群标记物，进而改变每次循环执行过程中分类模型的输出结果。

也就是说，在菌群样本数据还包括所述M个菌群样本的样本类标的情况下，将菌种分类单元表及样本类标输入分类模型中处理后，如果分类模型的输出结果不满足设定条件，则可以同时更新切割系数和随机系数，也可以仅更新切割系数或者仅更新随机系数。对此，本申请不做限制，具体可以基于实际需要进行设置。

本申请实施例中的该菌群标记物的获取方法，通过获取包括N个菌种分类单元在M个菌群样本中的丰度的菌群样本数据，以该N个菌种分类单元为叶子节点，以该N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树，并按照由根节点至叶子节点的方向，利用贪心算法对系统发育树进行节点搜索，得到至少一个目标节点作为M个菌群样本的菌群标记物，根据该至少一个目标节点确定菌种分类单元表。该过程中，结合了系统发育树中信息，引入了贪心搜索的思想，采用贪心算法对系统发育树中不同的节点搜索分支上分别进行节点搜索，从高维的菌群样本数据中，提取出了有意义的菌群标记物，降低高维度菌群样本数据的计算复杂度，更高效地实现对目标菌群标记物的确定，减少计算量。

参见图5，图5是本申请实施例提供的一种菌群标记物的获取装置的结构图，为了便于说明，仅示出了与本申请实施例相关的部分。

所述菌群标记物的获取装置500包括：

获取模块501，用于获取菌群样本数据，所述菌群样本数据包括N个菌种分类单元在M个菌群样本中的丰度，N及M为正整数；

生成模块502，用于以所述N个菌种分类单元为叶子节点，以所述N个菌种分类单元中J个菌种分类单元的共同祖先为中间节点，生成系统发育树，2≤J＜N；

搜索模块503，用于按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物；

其中，该装置还包括：

确定模块，用于根据所述至少一个目标节点确定菌种分类单元表，所述菌种分类单元表包括所述菌群标记物在所述M个菌群样本中的丰度；

在所述目标节点包括所述目标中间节点的情况下，所述目标中间节点代表的菌群标记物在所述M个菌群样本中的丰度，为所述目标中间节点对应的菌种分类单元在所述M个菌群样本中的丰度的和。

其中，搜索模块，用于依照如下得分函数计算所述每个非叶子节点的得分数值：

Score(Node)＝coe f₁×mean(abun)+coe f₂×GI+coe f₃×std(abun)；

其中，所述菌群样本数据还包括所述M个菌群样本的样本类标，该装置还包括：

第一模型处理模块，用于将所述菌种分类单元表及所述样本类标输入分类模型中处理，并在所述分类模型的输出结果不满足设定条件时，更新所述随机系数；返回执行所述按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物的步骤。

其中，所述搜索模块503，包括：

切割子模块，用于根据所述系统发育树中叶子节点至根节点的路径长度，将所述系统发育树切割成L个子树，L为正整数；

搜索子模块，用于按照由根节点至叶子节点的方向，利用贪心算法分别对每个所述子树进行节点搜索，将从所述L个子树中分别搜索到的目标节点作为所述M个菌群样本的菌群标记物。

其中，切割子模块，具体用于：

根据所述系统发育树的枝长，确定所述系统发育树中从叶子节点至根节点的最长路径；

将所述最长路径中的叶子节点及与所述叶子节点的距离小于切割距离的节点从系统发育树中切割，得到子树，所述切割距离为所述最长路径的长度与切割系数的乘积；

切割后，若所述系统发育树中包含与所述菌种分类单元相对应的叶子结点，则返回执行所述根据所述系统发育树的枝长，确定所述系统发育树中从叶子节点至根节点的最长路径，并将所述最长路径中的叶子节点及与所述叶子节点的距离小于切割距离的节点从系统发育树中切割，得到子树的步骤。其中，所述菌群样本数据还包括所述M个菌群样本的样本类标，该装置还包括：

第二模型处理模块，用于将所述菌种分类单元表及所述样本类标输入分类模型中处理，并在所述分类模型的输出结果不满足设定条件时，更新所述切割系数；

返回执行所述按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物的步骤。

本申请实施例提供的菌群标记物的获取装置能够实现上述菌群标记物的获取方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

图6是本申请实施例提供的一种终端的结构图。如该图所示，该实施例的终端6包括：至少一个处理器60(图6中仅示出一个)、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述任意各个方法实施例中的步骤。

所述终端6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端6可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端6的示例，并不构成对终端6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述终端6的内部存储单元，例如终端6的硬盘或内存。所述存储器61也可以是所述终端6的外部存储设备，例如所述终端6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序产品来实现，当计算机程序产品在终端上运行时，使得所述终端执行时实现可实现上述各个方法实施例中的步骤。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种菌群标记物的获取方法，其特征在于，包括：

其中，所述至少一个目标节点包括目标中间节点和/或目标叶子节点，所述目标中间节点的得分数值大于所述目标中间节点的子节点的平均得分数值，所述目标叶子节点所在的节点搜索分支上，各个中间节点的得分数值均小于或等于各自的子节点的平均得分数值；所述系统发育树中每个非叶子节点的得分数值是根据所述每个非叶子节点对应的菌种分类单元在所述M个菌群样本中的丰度计算得到；

其中，依照如下得分函数计算所述每个非叶子节点的得分数值：

Score(Node)＝coef₁×mean(abun)+coef₂×GI+coef₃×std(abun)；

2.根据权利要求1所述的获取方法，其特征在于，所述按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物之后，还包括：

根据所述至少一个目标节点确定菌种分类单元表，所述菌种分类单元表包括所述菌群标记物在所述M个菌群样本中的丰度；

3.根据权利要求2所述的获取方法，其特征在于，所述菌群样本数据还包括所述M个菌群样本的样本类标，所述根据所述至少一个目标节点确定菌种分类单元表之后，还包括：

将所述菌种分类单元表及所述样本类标输入分类模型中处理，并在所述分类模型的输出结果不满足设定条件时，更新所述随机系数；

4.根据权利要求2所述的获取方法，其特征在于，所述按照由根节点至叶子节点的方向，利用贪心算法对所述系统发育树进行节点搜索，得到至少一个目标节点作为所述M个菌群样本的菌群标记物，包括：

5.根据权利要求4所述的获取方法，其特征在于，所述根据所述系统发育树中叶子节点至根节点的路径长度，将所述系统发育树切割成L个子树，包括：

切割后，若所述系统发育树中包含与所述菌种分类单元相对应的叶子结点，则返回执行所述根据所述系统发育树的枝长，确定所述系统发育树中从叶子节点至根节点的最长路径，并将所述最长路径中的叶子节点及与所述叶子节点的距离小于切割距离的节点从系统发育树中切割，得到子树的步骤。

6.根据权利要求5所述的获取方法，其特征在于，所述菌群样本数据还包括所述M个菌群样本的样本类标，所述根据所述至少一个目标节点确定菌种分类单元表之后，还包括：

将所述菌种分类单元表及所述样本类标输入分类模型中处理，并在所述分类模型的输出结果不满足设定条件时，更新所述切割系数；

7.一种菌群标记物的获取装置，其特征在于，包括：

其中，所述搜索模块，用于依照如下得分函数计算所述每个非叶子节点的得分数值：

Score(Node)＝coef₁×mean(abun)+coef₂×GI+coef₃×std(abun)；

8.一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。