CN117743954A

CN117743954A - 一种基于深度森林模型的疾病表型预测方法

Info

Publication number: CN117743954A
Application number: CN202311762345.6A
Authority: CN
Inventors: 石凯; 柳乔晖; 蒋琼
Original assignee: Guilin University of Technology
Current assignee: Guilin University of Technology
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-22

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于深度森林模型的疾病表型预测方法，包括将微生物丰度数据输入预处理模块，构造基于系统发育树的特征矩阵；将微生物丰度矩阵和基于系统发育树的特征矩阵作分别进入改进的深度森林模块中学习新的特征表示，在改进的深度森林模块的级联层中，每层的森林单元生成类向量，将生成的类向量和原始向量拼接组成新的特征向量；将新的特征向量输入学习模块，学习模块双通道的架构分别学习两种模式下新的特征表示；将两种模式的新的特征表示融合后作为预测模块的输入，预测模块对同一森林中的所有树进行平均，取最大概率的类作为模型的输出预测，得到预测结果。

Description

一种基于深度森林模型的疾病表型预测方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于深度森林模型的疾病表型预测方法。

背景技术

人体肠道微生物与人类的健康或疾病存在密切关系。对人类肠道宏基因组数据进行分析，在疾病预测及诊断治疗相关领域的科学研究和临床应用方面具有重要的意义。目前，机器学习方法在肠道微生物分析领域已广泛应用并取得了较好的效果。然而，基于当前的机器学习方法进行肠道微生物的研究还存在不足：(1)大多数方法是针对特定的研究精心设计的，在应用于其他数据集时可能由于不同的原因(例如，小规模数据集，数据集中类分布不平衡问题，噪声特征等)而遭受欠拟合。(2)肠道微生物的数据形式表现单一且存在冗余信息，缺少微生物数据组织形式深入挖掘(例如，微生物系统发育的信息)。(3)将机器学习算法运用在肠道微生物分析仅在应用层面，而缺乏对算法特异性优化和机器学习算法本身的研究。

发明内容

本发明的目的在于提供一种基于深度森林模型的疾病表型预测方法，旨在解决当前的机器学习方法进行肠道微生物的研究还存在不足的问题。

为实现上述目的，本发明提供了一种基于深度森林模型的疾病表型预测方法，包括以下步骤：

S1将微生物丰度数据输入预处理模块，构造基于系统发育树的特征矩阵；

S2将微生物丰度矩阵和所述基于系统发育树的特征矩阵作为训练数据分别进入改进的深度森林模块中训练，学习新的特征表示，在所述改进的深度森林模块的级联层中，每层的森林单元生成类向量，将生成的类向量和原始向量拼接组成新的特征向量；

S3将所述新的特征向量输入学习模块，所述学习模块双通道的架构分别学习两种模式下新的特征表示；

S4将两种模式的所述新的特征表示融合后作为预测模块的输入，组合后的特征在通过级联层进行训练，每个森林都将产生类的分布估计，所述预测模块对同一森林中的所有树进行平均，取最大概率的类作为模型的输出预测，得到预测结果。

其中，所述改进的深度森林模块得到改进方式为，在原始深度森林模块的级联层中嵌入RF-CUS森林单元和ERTs森林单元。

其中，所述改进的深度森林模块进行训练时，使用交叉验证的策略，在训练数据中再分出验证数据，用来评估模型的训练效果。

其中，所述将微生物丰度数据输入预处理模块，构造基于系统发育树的特征矩阵，包括：

S11将微生物丰度数据输入预处理模块；

S12所述预处理模块直接利用PhyIot基于微生物特征的分类将所述微生物丰度数据生成最小剪枝的系统发育树；

S13对所述系统发育树分别采用两种树的遍历的方式访问发育树中的每个节点，获得遍历后的两个向量；

S14重复步骤S12-S13，直至对所述微生物丰度数据中每个样本都获得向量，基于所述向量对所有样本获得两个矩阵；

S15将两个所述矩阵融合，得到基于系统发育树的特征矩阵。

其中，所述基于系统发育树的特征矩阵包含微生物的演化时间信息和不同层级之间的关联信息。

本发明的一种基于深度森林模型的疾病表型预测方法，通过将微生物丰度数据输入预处理模块，构造基于系统发育树的特征矩阵；将微生物丰度矩阵和所述基于系统发育树的特征矩阵作为训练数据分别进入改进的深度森林模块中训练，学习新的特征表示，在所述改进的深度森林模块的级联层中，每层的森林单元生成类向量，将生成的类向量和原始向量拼接组成新的特征向量；将所述新的特征向量输入学习模块，所述学习模块双通道的架构分别学习两种模式下新的特征表示；将两种模式的所述新的特征表示融合后作为预测模块的输入，组合后的特征在通过级联层进行训练，每个森林都将产生类的分布估计，所述预测模块对同一森林中的所有树进行平均，取最大概率的类作为模型的输出预测，得到预测结果。本发明的目的是对人体肠道微生物数据建模和分析，以构建基于肠道微生物数据预测宿主表型的方法。该方法旨在研究与人类肠道微生物密切相关疾病的机制，并为开发基于肠道微生物数据的新型诊断治疗提供借鉴，推动精准治疗的发展。当前应用机器学习方法分析肠道微生物存在上述的挑战，在本发明中，针对现有技术存在的不足，提出了以下解决方法：1、解决现有技术中忽略了数据集中类不平衡问题对机器学习模型预测的影响。2、缓解现有技术在样本量小、维度高的宏基因组数据集中造成“维度灾难”的问题。3、有效解决现有技术中未考虑相邻分类群之间的层次关系和群落中微生物存在的进化关系。因此解决了当前的机器学习方法进行肠道微生物的研究还存在不足的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于深度森林模型的疾病表型预测方法的基本流程图。

图2是构造基于系统发育树的特征矩阵的流程图。

图3是基于改进的深度森林学习模块和预测模块示意图。

图4是本发明提供的一种基于深度森林模型的疾病表型预测方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1至图4，本发明提供一种基于深度森林模型的疾病表型预测方法，我们提出的是一种基于深度学习的肠道微生物数据预测宿主表型的方法，其中包括三个部分：第一部分是预处理模块，融合微生物的丰度矩阵和基于系统发育树的特征矩阵并作为学习模块的输入。第二部分是学习模块，通过设计双通道的模式，使用改进的深度森林方法分别学习新的特征表示。第三部分是预测模块，融合两类新的特征表示并输入预测模块来预测宿主表型。本方法选取MetAML工具中的真实疾病数据集，并保留数据预处理的步骤，其基本的流程执行如图1。图2流程图展示了构造基于系统发育树矩阵的具体步骤，图3示意图描述了基于改进的深度森林模型的架构。以下详细叙述具体的步骤和方法。

具体包括以下步骤：

具体的，将所述微生物丰度数据按每个样本并行输入预处理模块。

具体方式为：

S11将所述微生物丰度数据按每个样本并行输入预处理模块；

具体的，对样本i生成的系统发育树分别采用两种树的遍历的方式访问发育树中的每个节点，获得遍历后的向量和/>

具体的，重复步骤S12-S13，直至对数据集中每个样本都获得一维向量，对数据集中所有样本，获得和/>

S15将两个所述矩阵融合，得到基于系统发育树的特征矩阵。

具体的，融合矩阵Z_l,Z_p，所述基于系统发育树的特征矩阵包含微生物的演化时间信息和不同层级之间的关联信息(界、门、纲、目、科、属、种)。

按照上述流程获得基于系统发育树的特征矩阵。根据我们提出的微生物特征表示方法，它可以保持微生物特有的系统发育关系的特征和相邻微生物的层次关系。接着，获得的矩阵作为学习模块的输入生成新的特征表示。

具体的，所述改进的深度森林模块得到改进方式为，在原始深度森林模块的级联层中嵌入RF-CUS森林单元和ERTs森林单元。在进行模型的训练时，由于验证数据取自训练数据，它不参与训练。由于样本量小、维度高，机器学习方法在训练过程中，会出现过拟合现象，如果此时使用测试数据来学习模型的参数，就相当于在训练已知部分测试数据的信息，这样会影响最终评估结果的准确性。因此，本研究方法使用交叉验证的策略，在训练数据中再分出一部分作为验证数据，用来评估模型的训练效果。这种做法有效地利用了有限的数据，并且评估结果尽可能接近模型在测试集上的表现。深度森林是借鉴神经网络的思想，深度中的级联层类似神经网络层，级联层中的森林单元类似神经网络中的神经元。对于改进的深度森林模块，级联层中嵌入了两类森林单元RF-CUS和ERTs，它们分别用于处理数据集中类分布不平衡问题和特征维度高问题。RF-CUS单元，通过聚类算法对样本聚类，使相似性高的样本极可能集中，然后使用分层采样的方式平衡训练集。ERTs单元，结合线性判别方法和贪心算法对特征选择以逼近最优特征子空间，再训练多棵决策树组成ERTs分类器，可以对数据执行降维。在所述改进的深度森林模块的级联层中，每层的森林单元生成类向量。将生成的类向量和原始向量拼接组成新的特征向量进入下一层中，直至训练终止。在所述学习模块，双通道的架构分别学习两种模式下新的特征表示，最后融合两种新的特征表示作为预测模块的输入。

技术效果

1、本发明设计了基于森林的单元RF-CUS。RF-CUS单元设计策略是应用基于AP聚类的分层欠采样方法来平衡训练集，可以减少类别不平衡对机器学习方法预测的影响，此外，与其他采样方法相比，这种策略可以尽可能地保留多数类中的有用信息。

2、本发明设计了基于森林的单元ERTs。ERTs单元提出了一种贪婪降维的方法，并结合线性判别方法排序进行特征选择以实现数据降维的目的。

3、本发明采用了遍历系统发育树的策略获得微生物的进化信息。与以往使用系统发育树预测宿主表型方法相比，之前的方法仅是将系统发育树中的叶子节点(即代表不同物种)特征嵌入丰度矩阵中，或是计算进化距离嵌入微生物丰度矩阵中，它们缺乏对系统发育树信息的充分利用。使用遍历系统发育树的方法，它能直观地反映物种进化的关系和节点之间的结构(包括节点的分支、层级以及相对位置等)。

4、本发明采用深度森林学习框架，它在中小规模的数据集上表现具有竞争力。通过在2种疾病的宏基因组数据集上，模型的AUC在85％以上，显著的优于现有的方法。在另外3中复杂的疾病数据集上，模型的AUC约73％，证明了本方法预测宿主表型的有效性。

发明点

1、本发明设计了两种类型的森林单元RF-CUS和ERTs，分别用来解决机器学习方法在微生物数据中的类不平衡问题和特征的维度高的挑战。

2、本发明融合了系统发育树的信息用于宿主表型预测任务，通过融合系统发育树信息，可以有效的提高模型预测性能。

3、本发明设计了双通道深度森林的架构，可以有效地学习特征的表示，同时减少模型的出现过拟合现象。此外，通过在平衡和不平衡微生物数据集上实验，验证了我们模型具有好的性能表现，其次，模型具有较强的泛化性能。

发明解决的技术问题及目的

本发明的目的是对人体肠道微生物数据建模和分析，以构建基于肠道微生物数据预测宿主表型的方法。该方法旨在研究与人类肠道微生物密切相关疾病的机制，并为开发基于肠道微生物数据的新型诊断治疗提供借鉴，推动精准治疗的发展。当前应用机器学习方法分析肠道微生物存在上述的挑战，在本发明中，针对现有技术存在的不足，提出了以下解决方法：

1、解决现有技术中忽略了数据集中类不平衡问题对机器学习模型预测的影响。

2、缓解现有技术在样本量小、维度高的宏基因组数据集中造成“维度灾难”的问题。

3、有效解决现有技术中未考虑相邻分类群之间的层次关系和群落中微生物存在的进化关系。

以上所揭露的仅为本发明一种基于深度森林模型的疾病表型预测方法较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于深度森林模型的疾病表型预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度森林模型的疾病表型预测方法，其特征在于，

所述改进的深度森林模块得到改进方式为，在原始深度森林模块的级联层中嵌入RF-CUS森林单元和ERTs森林单元。

3.如权利要求1所述的基于深度森林模型的疾病表型预测方法，其特征在于，

所述改进的深度森林模块进行训练时，使用交叉验证的策略，在训练数据中再分出验证数据，用来评估模型的训练效果。

4.如权利要求1所述的基于深度森林模型的疾病表型预测方法，其特征在于，

所述将微生物丰度数据输入预处理模块，构造基于系统发育树的特征矩阵，包括：

S11将所述微生物丰度数据按每个样本并行输入预处理模块；

S15将两个所述矩阵融合，得到基于系统发育树的特征矩阵。

5.如权利要求4所述的基于深度森林模型的疾病表型预测方法，其特征在于，

所述基于系统发育树的特征矩阵包含微生物的演化时间信息和不同层级之间的关联信息。