CN112837739B

CN112837739B - 基于自编码器与蒙特卡洛树的层次化特征系统发育模型

Info

Publication number: CN112837739B
Application number: CN202110126970.6A
Authority: CN
Inventors: 冯宏伟; 刘蒙; 王蓓; 侯刚; 冯筠
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-12-02
Anticipated expiration: 2041-01-29
Also published as: CN112837739A

Abstract

本发明提供了一种基于自编码器与蒙特卡洛树的层次化特征系统发育模型，该模型具体包括以下步骤：步骤一，将采集到的化石进行人工特征提取得到分类单元的特征矩阵，即得到形态学数据集；步骤二，链式方程进行多重预插补，使用缺失数据集训练自编码器，对预插补数据进行矫正；步骤三，将层次化特征导致的不可适用数据作为额外的特征进行处理，使用邻接法建立邻接树；步骤四，使用步骤三得到的邻接树对蒙特卡洛树进行初始化，然后使用步骤二得到的完整数据集，采用蒙特卡洛树搜索算法进行系统发育树构建。本发明将系统发育树构建转化为决策路径选择，能有效避免搜索陷入局部最优的问题。能有效平衡搜索的深度与广度，提高搜索速度。

Description

基于自编码器与蒙特卡洛树的层次化特征系统发育模型

技术领域

本发明属于生物信息领域，涉及系统发育学研究中的缺失插补与发育树构建，具体涉及一种基于自编码器与蒙特卡洛树的层次化特征系统发育模型。

背景技术

系统发育学研究的是种级分类单元或更高级分类单元之间的谱系关系，从而推断与评估分类单元之间的共同祖先关系，最终寻找到符合物种进化的系统发育树。由图1看出：通过对采集到的化石进行人工特征提取得到分类单元的特征矩阵；对其中的缺失数据进行合理的插补后，对形态学数据进行系统发育推断，进而得到能够反映分类单元共同祖先关系的系统发育树。

相较于研究DNA变异的分子系统发育学，形态学系统发育由于形态特征提取的局限性，发展较为缓慢，但仍是系统发育推断极为重要的技术。在早期古生物的系统发育分析研究中，只有在极为苛刻保存条件下留存的化石才可能提取到DNA序列，形态学系统发育方法就几乎成为唯一可行的技术。由于年代久远、保存环境变迁以及观察手段限制等原因，化石的形态学记录中存在大量的数据缺失和不可适用情况(注：当分类单元并不存在某个特征时，该分类在该类特征的子特征下就表现为不可适用，例如，海星没有毛发，海星在毛发颜色特征下就表现为不可适用)，不可适用数据出现的原因，在于特征之间存在层次化关系，见图2。现有的方法多是基于分子系统发育学的，不能很好地处理缺失和不可适用问题，因此难以建立稳定而准确的形态学系统发育树。

常用的缺失插补方法为随机插补或默认值插补，常用的系统发育树构建方法包括基于距离的方法和基于最优原则的方法，前者有邻接法，UPGMA；后者主要包括最大简约法、最大似然法，其过程中会使用到最优化搜索，最优化搜索方式有棘轮法，树漂移法等。现有的主流方法对缺失和不可适用的处理都相对简单，是由于在基因系统发育分析中这两者的占比较少，不会对最终结果产生过多的影响，但在古生物数据集中仍使用现有的处理方法是过于粗糙的，将导致系统发育树构建不稳定。

发明内容

针对现有技术存在的不足，本发明的目的在于，提供一种基于自编码器与蒙特卡洛树的层次化特征系统发育模型，解决现有技术中由于不能合适得处理缺失数据和层次化特征导致的系统发育树不稳定的技术问题。

为了解决上述技术问题，本发明采用如下技术方案予以实现：

一种基于自编码器与蒙特卡洛树的层次化特征系统发育模型，该模型具体包括以下步骤：

步骤一，将采集到的化石进行人工特征提取得到分类单元的特征矩阵，即得到形态学数据集；

所述的特征矩阵为D{X₁,…,X_n}，其中：

X_i(i∈[1,n])为分类单元，表示第i个分类单元的全部特征，n为分类单元个数；

分类单元X_i的特征分布为X_i(x_i1,x_i2,…,x_im)，m为特征个数；

步骤二，链式方程进行多重预插补，使用缺失数据集训练自编码器，对预插补数据进行矫正；

步骤2.1，链式方程进行多重预插补：

将特征矩阵作为缺失数据集D_incom，缺失数据集D_incom中的数据分为缺失数据与已知数据；

首先对缺失数据集D_incom进行随机插补得到数据集D′，再使用数据集D′训练关系模型，对缺失数据集D_incom中的数据进行多重更新；

令数据集D′中待插补数据x′_ij的插补类别大小为L，将数据集D′中缺失数据x′_ij对应的一行已知数据(x′_i1,…,x′_ij-1,x′_j+1,…,x′_m)设为y_i，为每个分类建立逻辑回归模型对缺失值进行插补，插补公式中引入符合正态分布的随机数，防止逻辑回归模型的过拟合；

将缺失数据集D_incom中所有缺失数据进行训练并完成回归插补后，就完成一轮插补，使用逻辑回归模型预测的新值替代原始插补值的得到新的数据集，使用新数据再重复步骤2.1建立新的逻辑回归模型，直到满足迭代次数或达到提前结束条件后，输出预插补结果；

步骤2.2，使用缺失数据集训练自编码器：

使用缺失数据集D_incom，根据如下规则得到掩码矩阵M；

i表示第i个分类单元，j表示第j个特征；

使用M盖住缺失数据集D_incom的缺失数据，以缺失数据集D_incom中的已知数据计算均方根误差，作为损失函数，对隐含层维度大于输入层维度的自编码器进行训练；

步骤2.3，对预插补数据进行矫正：

使用训练好的隐含层维度大于输入层维度的自编码器对步骤2.1中的预插补结果进行矫正，得到最终的插补结果，获得不包含缺失数据的完整数据集；

步骤三，将层次化特征导致的不可适用数据作为额外的特征状态进行处理，使用邻接法建立邻接树；

步骤四，使用步骤三得到的邻接树对蒙特卡洛树进行初始化，然后使用步骤二得到的完整数据集，采用蒙特卡洛树搜索算法进行系统发育树构建。

本发明还具有如下技术特征：

具体的，步骤三的具体方法为：

步骤3.1，设所有分类单元作为节点聚集在一起形成虚拟中心X，构成一棵星状树，将不可适用数据作为额外的特征状态，计算分类单元两两之间的杰卡德距离，公式如下：

其中：

J(A,B)为分类单元两两之间的杰卡德距离；

|A∪B|为分类单元A和B的特征总数；

|A∩B|为分类单元特征相同的个数；

再根据计算获得的分类单元两两之间的杰卡德距离得到分类单元之间的距离矩阵D，通过距离矩阵D计算出当前星状树所有分支长度总和S₀，公式如下:

其中：

n为分类单元总数，即节点总数；

L_aX是节点a到虚拟中心X的距离估计；

d_ab为第a个节点到第b个节点的距离；

计算从第a个到第b个节点的分支长度S_ab，S_ab计算公式如下：

S_ab＝(n-2)d_ab-R_a-R_b

其中：

K为第K个分类单元，即第K个节点；

d_Ka为第K个节点到第a个节点的距离；

d_Kb为第K个节点到第b个节点的距离；

找到最小的S_ab，将第a个节点和第b个节点作为邻居合并，计算新一轮距离矩阵D，直到所有节点聚合在一棵树中，得到邻接树。

具体的，步骤四的具体方法为：

步骤4.1，选择节点：

将完整数据集中的所有待分类单元作为集合放入蒙特卡洛树的根节点，使用邻接树对蒙特卡洛树进行初始化，然后选择最可能的划分分类单元的子节点，直到达到当前蒙特卡洛树的叶子节点；

步骤4.2，节点探索：

判断当前达到的叶子节点是否能产生对分类单元进行继续划分的子节点，如果能产生，将新的划分结果作为子节点添加到当前蒙特卡洛树中，将新的子节点变为当前节点；如果不能产生，则执行步骤4.3；

步骤4.3，模拟建树：

对当前节点进行模拟运行，使用随机策略生成对分类单元进行完全划分的结束节点；

步骤4.4，评估前馈：

使用不可适用Fitch算法对结束节点进行评分，将评分结果向前传播到在选择过程中遍历的所有节点，对选择过程中遍历的每个节点的评分更新方法由如下公式获得：

其中：

UCB为上置信界得分，UCB越大代表越值得探索，在步骤4.1中也越容易被选中；

为当前节点及其子节点所有模拟生成系统发育树的不可适用Fitch算法得分的均值；

Y为当前节点的不可适用Fitch算法得分；

N_k为当前节点k的访问次数；

N为所有节点的总访问次数；

c为超参数，用以平衡搜索过程中的节点搜索宽度与广度；

步骤4.5，重复步骤4.1至4.4的操作，直到满足程序结束条件，系统发育树构建完成。

本发明与现有技术相比，具有如下技术效果：

(Ⅰ)本发明的模型通过结合自编码器的多重插补，使用学习到的全局信息和局部信息对缺失数据进行插补，从而得到完整的形态学数据集；将系统发育树构建转化为决策路径选择，采用不可适用Fitch算法为包含层次化特征的决策路径进行评分，使用蒙特卡洛树搜索算法来搜索最佳的系统发育树，能有效避免搜索陷入局部最优的问题，同时相对于现有的方法，蒙特卡洛树搜索方法能有效平衡搜索的深度与广度，提高搜索速度。

(Ⅱ)缺失插补中采用传统方法与深度方法结合的新策略，使用链式方程多重插补方法进预插补，再训练自编码器对缺失部分的预插补值进行矫正。同时考虑了特征之间的线性关系与隐含维度关系，使得插补值再更接近真实值的同时，也不会改变数据集本身存在的数据分布。

(Ⅲ)针对古生物中层次化特征导致的不可适用数据难于度量分类单元间距离的问题，采用不可适用Fitch算法避开距离度量的问题，直接对最终的建树结果进行评分，同时，Fitch算法还用在对蒙特卡洛搜索的中间结果的评分中，能进一步加快搜索的速度。

(Ⅳ)在系统发育树最优化搜索方面，该方法将传统分枝交换最优化搜索的过程转变为蒙特卡洛树决策路径搜索的过程，通过UCB公式能较好地平衡搜索广度与宽度之间的关系，避免陷入局部最优解。

附图说明

图1(A～F)是化石图片。

图1(G)是从图1(A～F)的化石图片中提取的分类单元的特征矩阵。

图1(H)是最终系统发育树。

图2是不可适用特征和特征层次关系图。图2中，分类单元的特征取值：

1、尾巴：(0)不存在，(1)存在；

2、眼睛：(0)不存在，(1)存在；

3、尾巴颜色：(0)蓝色，(1)红色，(-)不可适用，特征不存在导致；

4、尾巴长度：(0)短，(1)长，(-)不可适用，特征不存在导致。

图3是基于自编码的缺失插补方法流程图。

图4是不同缺失插补方法的插补结果与原始数据在不同缺失比例下的均方根误差。

图5是不同缺失插补方法的插补结果建树与原始数据建树在不同缺失比例下的RF距离。

图6是蒙特卡洛树最优化搜索的示意图。

图7是蒙特卡洛树搜索中每个节点代表的含义，图中：a为根节点谱系树结构，b为次级节点谱系树结构，c为最终谱系树结构。

图8是处理不可适用数据的Fitch方法计算流程示意，图中：a为寻找非叶子节点可能值，b为确定非叶子节点值。

图9是基于蒙特卡洛搜索生成的树集合与TNT、Mrbayes生成的树集合的文氏图。

图10是基于自编码器与蒙特卡洛树的层次化特征系统发育模型的整体流程图。

以下结合实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

本发明中，发育模型即发育树的构建方法。

本发明中，逻辑回归模型为现有技术中已知的逻辑回归模型。

本发明中，不可适用Fitch算法为现有技术中已知的不可适用Fitch算法。为Martin D.Brazeau(2017)年所提出的。

本发明中，设p为输入层节点数，q为隐含层节点数，传统自编码器，主要用来进行特征降维，所以q<p，在缺失插补中应该增强自编码器对数据获取和表示的能力，因此，本发明中，设置自编码器的q>p。

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例：

本实施例给出一种基于自编码器与蒙特卡洛树的层次化特征系统发育模型，如图10所示，该模型具体包括以下步骤：

所述的特征矩阵为D{X₁,…,X_n}，其中：

分类单元X_i的特征分布为X_i(x_i1,x_i2,…,x_im)，m为特征个数；

步骤二，链式方程进行多重预插补，使用缺失数据集训练自编码器，对预插补数据进行矫正；步骤二中的插补具体流程参见图3。

步骤2.1，链式方程进行多重预插补：

将缺失数据集D_incom中所有缺失数据进行训练并完成回归插补后，就完成一轮插补，使用逻辑回归模型预测的新值替代原始插补值的得到新的数据集，使用新数据再重复步骤2.1建立新的逻辑回归模型，直到满足迭代次数或达到提前结束条件后，输出预插补结果。

本实施例中，步骤2.1中的迭代次数或达到提前结束条件通常为：迭代次数根据经验人工设定，一般设定为5至20轮迭代。当前后两轮迭代的数据集不存在差异时提前结束。

步骤2.1中的逻辑回归模型为二分类的逻辑回归模型，能将每个分类与基类(基类设为1)进行区分，得到如下公式：

其中：

i表示第i个分类单元；

j表示第j个特征；

l表示第l个分类；

l′表示第l′个分类；

β_l是一个维度为m-1的向量，m为特征个数，β₁＝0，令β^*为随机从后验概率β＝(β₂,…,β_L)中选择的值。

β由公式Pr(x′_ij＝l|y_i；β),(i＝1,…,n)训练得到，n为分类单元个数。

对每个缺失的变量x′_ij，令

为被划分到每个分类的概率，

对每个插补值

有：

其中：u_i为在(0,1)区间中随机抽取的值，如果u_i>c_ll为真，I(u_i>c_il)＝1，否则I(u_i>c_il)＝0。

步骤2.2，使用缺失数据集训练自编码器：

使用缺失数据集D_incom，根据如下规则得到掩码矩阵M；

i表示第i个分类单元，j表示第j个特征；

步骤2.3，对预插补数据进行矫正：

优选的，步骤2.3，所述的矫正的具体过程为：

对缺失插补后数据x_ik的矫正使用如下公式：

其中：

p为输入层节点数，q为隐含层节点数，设置自编码器的q>p；

Eⁱ为损失函数；

W_kh，W_hl分别为编码层与解码层权重；

S为激活函数；

z_il为第i个训练数据的第l个特征；

z_ik为第i个训练数据的第k个特征；

l表示第l个输出层节点；

h表示第h个隐含层节点；

k表示第k个输入层节点；

γ为超参数。

对梯度下降值向下取整，以γ作为超参数学习率；对缺失值进行多次矫正，直到满足迭代次数或达到提前结束条件后，得到最终的插补结果，获得不包含缺失数据的完整数据集。

本实施例中，步骤2.3中的迭代次数或达到提前结束条件通常为：迭代次数根据经验人工设定，一般设定为100至200轮。当前后两轮迭代的数据计算的损失函数相同时提前结束。

此处为方便表述，使用单层自编码器作为示意，实际过程中可以使用多层自编码器，这在代码层面是很容易扩展为多层的。

本实施例中，为了验证本实施例的基于自编码器与蒙特卡洛树的层次化特征系统发育模型在缺失插补中的有效性，分别在四个形态学数据上进行实验，数据来源于已发表的论文分别记录为Aguado2009，Aria2015，Dikow2009，Griswold1999。通过对形态学数据进行随机缺失生成模拟数据，缺失比例分别为5％，10％，20％，30％，40％，50％。再使用本实施例提出的方法对模拟数据进行缺失插补，得到完整数据集。同时以形态学常用的随机插补，中值插补最为对比方法，采用均方根误差作为度量指标，均方根误差的计算公式如下，

其中：n表示第n个缺失数据，N为缺失数据个数，I为原始值，A为插补值。

实验结果如图4所示，实验结果表明本实施例提出的方法在四个数据集上都表现出较低的均方根误差。

步骤三，将层次化特征导致的不可适用数据作为额外的特征状态进行处理，使用邻接法建立邻接树；具体的，步骤三的具体方法为：

其中：

J(A,B)为分类单元两两之间的杰卡德距离；

|A∪B|为分类单元A和B的特征总数；

|A∩B|为分类单元特征相同的个数；

其中：

n为分类单元总数，即节点总数；

L_aX是节点a到虚拟中心X的距离估计；

d_ab为第a个节点到第b个节点的距离；

计算从第a个到第b个节点的分支长度S_ab，S_ab计算公式如下：

S_ab＝(n-2)d_ab-R_a-R_b

其中：

K为第K个分类单元，即第K个节点；

d_Ka为第K个节点到第a个节点的距离；

d_Kb为第K个节点到第b个节点的距离；

本实施例中，需要说明的是，将不可适用数据暂时作为额外的特征状态进行处理，为了方便理解，以图2对不可适用数据进行说明。根据特征描述可知：特征1“尾巴”的取值包括“(0)不存在”、“(1)存在”；特征“尾巴颜色”的取值包括“(0)蓝色”、“(1)红色”和“(-)不可适用”，当一个物种，比如海星，当其特征“尾巴”的取值为“(0)不存在”时，“尾巴颜色”取值为“(-)不可适用”；“尾巴长短”亦为“(-)不可适用”。当需要计算海星与有尾巴物种比如猴子(长尾巴)与考拉(短尾巴)的距离时，如何正确地表示“(-)不可适用”，“(0)短”，“(1)长”相互之间的距离就是必须面对的问题，当前不存在公认的对含有不可适用数据的分类单元距离度量方法，但存在能合理度量含有不适用数据的系统发育树的方法。因此，先暂时将不可适用数据当作新特征状态(2)，不可适用数据的问题将在步骤四中解决。

本实施例中，对于缺失插补后数据集使用邻接法进行建树T₂，比较插补后所建树与真实树T₁之间的距离，采用RF距离作为度量指标，RF距离的具体计算公式如下：

其中：

n为分类单元个数；

|split(tree)|表示为tree的“二分分划(bipartition)”树集合个数；

|split(T₁)∩split(T₂)|表示T₁和T₂分划树集合交集的个数。

实验结果如图5所示，相比于其它方法，本实施例提出的方法插补后的数据集建树于真实树的距离最近。

结合图4，图5知，缺失插补越为准确，最终的建树结果与真实树的差异就越小，本实施例提出的方法在缺失插补的中能有一个较小的均方根误差，而且邻接法建树结果与真实树的差异也最小。

步骤四，使用步骤三得到的邻接树对蒙特卡洛树进行初始化，然后使用步骤二得到的完整数据集，采用蒙特卡洛树搜索算法进行系统发育树构建。具体的，步骤四的具体方法为：

步骤4.1，选择节点：

步骤4.2，节点探索：

步骤4.3，模拟建树：

步骤4.4，评估前馈：

其中：

Y为当前节点的不可适用Fitch算法得分；

N_k为当前节点k的访问次数；

N为所有节点的总访问次数；

c为超参数，用以平衡搜索过程中的节点搜索宽度与广度；

本实施例中，步骤4.5中的程序结束条件通常为：达到设定的迭代次数后停止，迭代次数越大越有可能得到更好的树，相应的计算时间也越长，在时间允许的情况下，越大越好。

本实施例中，为方便理解，见参见图6，蒙特卡洛树搜索包括选择节点，节点探索，模拟建树，评估前馈四部分，每个节点所代表的是一种对分类单元的划分方法，如图7中的a表示图6中根节点未对分类单元进行划分的方法，图7中的b表示次级节点对分类进行一次划分后的策略，图7中的c表示分类单元完成最终的划分的策略。

不可适用Fitch评分具体方法见图8。

首先，以任意节点作为起点出发进行深度优先遍历，到达任意非叶子节点时，判断该点的是否有两个邻居已被遍历，如果无则递归遍历邻居；如果有则确定当前点的可能值，两个邻居的值如果有交集，则取交集，无交集则取并集，直到所有节点都遍历完成，结果如图8中的a所示。

然后，以上一步的遍历终点作为起点，再次对系统发育树进行深度优先遍历，遍历到任意非叶子节点时，判断是否存在多个值，如果存在则检测邻居节点中是否为确定值，如果不是则递归到其邻居；如果是则选择集合中存在且邻居中出现频率最高的值设为该节点值，遍历完成如图8中的b所示。

再次对系统发育树进行遍历，找到不含不可适用数据的区域，如图8中的b中实线部分，记录实线部分节点值变化次数，将节点变化次数加上实线区域数减1得到适用于不可适用数据的Fitch得分3。

本实施例中，在四个数据集Aguado2009，Aria2015，Dikow2009，Griswold1999上进行了实验，在Dikow2009数据集上使用本方法，生成了200棵系统发育树，同时使用现有主要应用与分子的系统发育软件TNT，Mrbayes也在Dikow2009数据集上各生成200棵系统发育树，计算其算法之间相似的树的个数，用以证明本实施例提出的基于自编码器与蒙特卡洛树的层次化特征系统发育模型与现有方法的相似性，实验结果如图9所示，表明当前方法能与现有的工具产生较多的交集。

综上所述，本发明对于缺失和不可适用数据提供了专门且有效的处理方法，能够生成符合最大同源性假说的树集合，在针对形态学系统发育分析时，本实施例具有一定的应用前景。