CN112817959B

CN112817959B - 基于多度量指标权重的古生物形态系统发育树构建方法

Info

Publication number: CN112817959B
Application number: CN202110213760.0A
Authority: CN
Inventors: 冯宏伟; 张效齐; 胡景钊; 刘蒙; 冯筠
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2023-03-24
Anticipated expiration: 2041-02-25
Also published as: CN112817959A

Abstract

本发明公开了基于多度量指标权重的古生物形态系统发育树构建方法，包括：对待处理的古生物形态学数据缺失插补形成完整数据集；根据古生物形态学数据的层次特点选择度量指标；对决策点数据的度量指标生成随机权重值，获取度量指标组合；采用进化算法扩充初始种群，形成扩充后的新种群；计算古生物物种间距离，根据该距离划分当前决策点的古生物形态学数据；采用Fitch算法评估当前决策点的划分结果，保留最优分割；判断最优分割后的两个分枝是否均为单一古生物物种，是则保留，否则重新初始化权重分配；本发明可以将多个不同量纲的度量指标共同用于古生物系统发育树构建，克服了使用单一度量指标计算古生物物种间距离片面性的问题。

Description

基于多度量指标权重的古生物形态系统发育树构建方法

技术领域

本发明属于生物信息技术领域，涉及古生物形态学中发育树的构建，具体涉及一种基于多度量指标权重的古生物形态系统发育树构建方法。

背景技术

在计算生物领域中，系统发育学是一门研究物种的进化历程和亲缘关系的学科。通过构造古生物系统发育树可以辅助研究人员了解物种形成或者进化过程中哪一时间发生分歧，进而从中挖掘物种起源与生物进化的奥秘。古生物系统发育树的构造可以基于物种的形态特征的相似性和差异性来进行，通过不同古生物物种在系统发育树上的位置，推断出古生物间的亲缘关系。而且通过构造出来的古生物系统发育树，我们可以依据物种间演化情况，判断同时期地质与气候的变化。同时古生物系统发育树也有助于我们对动植物同源基因、同源器官等进行确定，对研究器官的进化过程与探索基因和性状的关系都有着重要意义。

上述这一切都依赖于古生物系统发育树的构建。构建一棵完善良好的古生物系统发育树，可以大大减少人工分析古生物物种间关系的时间耗费，同时也能为科研人员提供更多潜在信息。但是现有的古生物系统发育树构造方法大都只使用单一度量指标来计算不同古生物物种间距离。由于不同度量指标对于古生物形态学数据的侧重点不同，这会导致获得的古生物系统发育树存在一定的片面性，使结果无法达到预期情况。一些古生物系统发育树构造方法也有结合多种度量指标，但其结合方式未从古生物数据出发，使用固定度量指标权重组合，使方法的泛用性下降。综合而言目前古生物系统发育树缺少一个可以融合多种度量指标，并且可以随着古生物数据的变化改变自适应度量指标权重组合的方法。

发明内容

为解决现有技术中存在的不足，本发明提供了一种基于多度量指标权重的古生物形态系统发育树构建方法，克服现有发育树构建方法使用单一度量指标存在片面性、无法自适应古生物数据获得度量指标权重组合的问题。

为了解决上述技术问题，本发明采用如下技术方案予以实现：

基于多度量指标权重的古生物形态系统发育树构建方法，包括：

步骤1，对待处理的古生物形态学数据进行缺失插补，形成完整的数据集；根据待处理的古生物形态学数据的层次特点选择度量指标，所述度量指标的数量至少为三个；

步骤2，将步骤1得到的数据集作为古生物系统发育树的根节点，对根节点数据的每个度量指标或步骤7返回的决策点数据的每个度量指标生成随机权重值，每个度量指标取各一个权重值归一化后构成度量指标组合，获得n组度量指标权重组合，n≥5；将这些度量指标权重组合作为初始种群；

步骤3，判断当前古生物系统发育树是否存在父决策点，若不存在父决策点，转至步骤4；若存在父决策点，将初始种群中的任一度量指标权重组合替换为父决策点中最优的度量指标权重组合，得到替换后的初始种群，转至步骤4；

步骤4，采用进化算法对初始种群或替换后的初始种群进行扩充，形成扩充后的新种群；

步骤5，根据扩充后的新种群中度量指标权重值计算古生物物种间距离；根据古生物物种间距离，采用聚类方法划分当前决策点的古生物形态学数据；

步骤6，采用Fitch算法对当前决策点划分结果进行评估，保留排名靠前的n组评估值；

比较当前的n组评估值与前一次排名靠前的n组评估值的变化，若变化小于阈值，保留当前的n组评估值中最优评估值对应的度量指标权重组合，根据最优评估值对应的度量指标权重组合计算当前决策点优化后的古生物物种间距离，根据优化后的古生物物种间距离，采用聚类方法将当前决策点的古生物形态学数据进行划分，划分结果作为当前决策点的最优分割，转至步骤7；否则，将排名靠前的n组评估值对应的度量指标权重组合作为初始种群，转至步骤4；

步骤7，判断最优分割后的分枝是否均为单一古生物物种，若是保留该最优分割；否则，将该最优分割作为新的决策点放入决策点集中，转至步骤2，直至决策点集为空，转至步骤8；

步骤8：输出构建的古生物系统发育树。

具体的，所述步骤1中，使用众数插补方法对古生物形态学数据进行缺失插补；其中，对于古生物形态学数据中具有层次特征的数据的缺失首先对其上级数据进行插补，若上级数据不存在，不进行下级数据的插补。

具体的，所述步骤4对初始种群扩充的具体方法包括：随机选择初始种群中或替换后的初始种群中的一个度量指标权重组合，使用变异方法生成新的度量指标权重组合；或随机选择初始种群中或替换后的初始种群中的两个度量指标权重组合，使用交叉方法生成新的度量指标权重组合。

可选的，所述的变异方法包括：随机选择该度量指标权重组合中的两个度量指标对应的权重值进行交换。

作为另一可选的，所述的变异方法包括：随机选择该度量指标权重组合中的一个度量指标，将除被选定的度量指标外的其他度量指标对应的权重值消减，将消减的权重值总和添加到被选中的权重上。

作为另一可选的，所述的变异方法包括：锁定该度量指标权重组合中的最大权重值，将其数值变为原来的一半，将减少的权重值平均分配到该度量指标权重组合中它权重之上。

具体的，所述交叉方法包括：随机选取初始种群中或替换后的初始种群中两个度量指标权重组合中一定数量的度量指标对应的权重值，其中选取度量指标的数量小于总度量指标数量的一半；将选取的两个度量指标权重组合中对应的权重值进行交换，然后使用softmax方法对交换后的权重值进行处理，使得交换后的每个新的度量指标权重组合中的度量指标权重之和为1。

具体的，所述步骤5中根据扩充后的新种群中度量指标权重值计算古生物物种间距离具体包括：

步骤5.1，计算古生物形态学数据在第i个度量指标下的数值距离值dis_i，记录这些数值距离值dis_i中最大古生物物种距离值

与最小距离值/>

步骤5.2，按照公式(1)获得第i个度量指标对应的古生物物种间距离值进行缩放，使其量纲统一化，

步骤5.3，按照步骤5.1和步骤5.2，获得所有度量指标对应的古生物物种间距离统一量纲后的结果；

步骤5.4：将步骤5.3获得结果与步骤4扩充后新种群中对应度量指标权重按公式(2)进行计算，获得古生物物种间距离findis；

ω_i表示扩充后新种群中第i个度量指标的权重，res_i表示第i个度量指标统一量纲后的结果，i＝1,2,...,m，m为度量指标数量。

优选的，所述步骤5.1中，计算古生物形态学数据在第i个度量指标下的数值距离值dis_i时，若两个古生物形态学数据某一层次化特征的上级特征同时存在，在计算物种间距离时将上级特征数据忽略，只将下级特征数据纳入计算；若两个古生物形态学数据中一个数据的上级特征存在，另一个数据的上级特征不存在，只将上级特征纳入计算；若两个古生物形态学数据的两个上级特征都不存在，将对应的上级特征与下级特征都忽略。

与现有技术相比，本发明的有益效果是：

(1)本发明提供了一种融合多种度量指标用于古生物系统发育树构建的方法。该方法可以将多个不同量纲的度量指标共同用于古生物系统发育树构建，克服了使用单一度量指标计算古生物物种间距离片面性的问题；

(2)本发明提供了一种可以随古生物数据自适应改变度量指标权重组合的方法。使其在不同古生物形态学数据上都可以获得较优的度量指标权重组合，为古生物系统发育树构建提供保障，并提升不同度量指标组合的泛用性；

(3)本发明在构建古生物系统发育树时，在树的每一决策点都以当前最优度量指标权重组合进行古生物物种划分，改善古生物系统发育树的建树效果。

附图说明

图1是本发明方法的流程图。

图2是本发明实施例中构建的古生物系统发育树的示意图。

具体实施方式

本发明中，古生物形态学数据：是指从古生物化石中获得的描述古生物生理构成、体型形状等特征的数据。诸如是否存在头部结构，足的数量这些能反应出古生物形态特点的数据描述。

如下表1所示为一种古生物形态学数据，其中特征3依赖于特征2，一个物种必须有特征2的头部结构，才能有特征3相关的头部护甲。而特征4和特征5依赖于特征1。表1中：0表示没有该结构，1表示有该结构，N表示没有上级特征无法表示。

表1某一种古生物形态学数据

古生物形态学数据的层次特点：是指古生物形态学数据特有的结构类型。这种数据中的某些特征并不能独立存在，这些特征需要依赖于其他特征的取值来确保自身是否有意义。例如古生物形态学数据中如果“是否有眼睛”这个特征值为“否”时，此时“眼睛位置”特征就没有了意义。也即“眼睛位置”的特征依赖于“是否有眼睛”，他们之间构成一个上下级的关系，就是层次结构。

古生物系统发育树：是自上而下的决策点结构，如图2所示为本发明下面实施例中构建的古生物系统发育树的表示形式，其中不同的横线表示不同决策点，在每一决策点将古生物物种划分为两类(即同种类或不同种类)，形成发育树的两个分枝。由于古生物系统发育树是自上而下不断建立的，所以划分之后每一决策点的古生物物种信息都存在差异。

度量指标：是指用来计算不同古生物形态学数据间相似距离的方法，需有能适应层次特征的能力，如欧式距离、汉明距离、余玄距离等。

Fitch算法：是一种用来衡量系统发育树构建质量的算法，用来判定构建出的树是否更符合一般认知，该值越小说明构建出的古生物系统发育树越好。

Softmax算法：是一种归一化指数函数，意在将所有元素范围限定在(0,1)，并且所有元素和为1。

进化算法：是一种仿照生物进化模式所产生的优化算法，基于自然选择与生物遗传等机制进行，通过迭代地手段对解空间进行优化。其中交叉变异是其主要产生新的解的方法，其每次迭代解的集合被称为种群。

本发明的目的是提出一种古生物系统发育树构建方法，将多种度量指标融合并且可自适应古生物数据进行度量指标权重组合的调整，应用在古生物系统发育树的构建上。在古生物系统发育树构建过程中，在发育树的每一决策点依据当前决策点古生物物种数据动态调整度量指标权重组合，获得最优的古生物系统发育树构建效果。希望能在同时使用多种度量指标的基础上，至少满足以下特性：模型可同时处理多种度量指标，可自适应不同古生物形态学数据，可在古生物系统发育树各决策点获取最优度量指标权重组合，可以保留各度量指标的特点，优化系统发育树建树效果。因此，本发明提出一种基于多度量指标权重的古生物形态系统发育树构建方法。

以下给出本发明的具体实施例，需要说明的是，本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例

本发明的基于多度量指标权重的古生物形态系统发育树构建方法，流程如图1所示，具体包括以下步骤：

步骤1，对待处理的古生物形态学数据进行缺失插补，形成完整的数据集；根据待处理的古生物形态学数据的层次特点选择度量指标，度量指标的数量至少为三个。

本实施例的古生物形态学数据集采用文献“

M V,Sterrer W,GiribetG.Gnathostomulid phylogeny inferred from a combined approach of fourmolecular loci and morphology[J].Cladistics,2006,22(1):32-58.”中记载的数据集；本实施例中的度量指标选择为欧氏距离、汉明距离和余弦距离。

本实施例采用众数插补方法对古生物形态学数据进行缺失插补；其中，对于古生物形态学数据中具有层次特征的数据的缺失插补原则为：首先对其上级数据进行插补，若上级数据不存在，不进行下级数据的插补。

步骤2，将步骤1得到的数据集作为古生物系统发育树的根节点，对根节点数据的每个度量指标或步骤7返回的决策点数据的每个度量指标生成随机权重值，本发明优选的，使用softmax函数对生成的度量指标权重进行处理，使度量指标权重总和为1；每个度量指标均随机各取一个归一化处理后的权重值构成度量指标组合，比如选择的度量指标有三种，则一个度量指标权重组合由这三个度量指标的权重值组成；最终生成n组这样的度量指标权重组合，本发明优选的n≥5；将这些度量指标权重组合作为初始种群。

本实施例中度量指标权重组合数n＝10。

步骤3，判断当前古生物系统发育树是否存在父决策点，若不存在父决策点，转至步骤4；若存在父决策点，将初始种群中的任一度量指标权重组合替换为父决策点中最优的度量指标权重组合，得到替换后的初始种群，转至步骤4；也可将父决策点中最优的度量指标权重组合和次优度量指标权重组合与初始种群中的任两个度量指标权重组合替换。

此处的父决策点包含有的度量指标权重组合即为步骤6保留的排名靠前的n组评估值对应的度量指标权重组合，最优的度量指标权重组合是指最优的评估值对应的度量指标权重组合，最优的评估值的计算同步骤6，优选的采用Fitch算法获得。

步骤4，采用进化算法对初始种群或替换后的初始种群进行扩充，形成扩充后的新种群。

本发明的初始种群扩充的优选的采用以下两种方式中的任一种：

方式一：随机选择初始种群中或替换后的初始种群中的一个度量指标权重组合，使用变异方法生成新的度量指标权重组合；其中变异方法可采用以下三种形式中的任一种：

①随机选择该度量指标权重组合中的两个度量指标对应的权重值进行交换。

②随机选择该度量指标权重组合中的一个度量指标，将除被选定的度量指标外的其他度量指标对应的权重值消减，优选的，消减值不超过权重值的一半，将消减的权重值总和添加到被选中的权重上。

③锁定该度量指标权重组合中的最大权重值，将其数值变为原来的一半，将减少的权重值平均分配到该度量指标权重组合中它权重之上。

方式二：随机选择初始种群中或替换后的初始种群中的两个度量指标权重组合，使用交叉方法生成新的度量指标权重组合，优选的交叉方法为：

随机选取初始种群中或替换后的初始种群中两个度量指标权重组合中一定数量的度量指标对应的权重值，其中选取度量指标的数量小于总度量指标数量的一半，且两个度量指标组合中选择的度量指标数量相同；将选取的两个度量指标权重组合中对应的权重值进行交换，然后使用softmax方法对交换后的权重值进行处理，使得交换后的每个新的度量指标权重组合中的度量指标权重之和为1。

本实施例中采用的进化方法为：对于扩充度量指标权重组合的变异操作，每次增加15组新的度量指标权重组合，其中变异方式①生成5组；变异方式②生成5组，变异方式②中对于未选中的权重减少1/6再加上一个-0.05到0.05的随机值；变异方式③生成5组。对于扩充度量指标权重组合的交叉操作，每次生成5组数据，每次选取两个度量指标权重组合中的1个权重值进行交换。结束度量指标权重组合扩充后迭代次数加1。

步骤5，根据扩充后的新种群中度量指标权重值计算古生物物种间距离；根据古生物物种间距离，将当前决策点对应的古生物形态学数据划分为两个分枝，本步骤中需计算当前决策点的所有数据在所有度量指标权重组合下的物种间距离，具体包括：

与最小距离值/>

本步骤中，在计算古生物形态学数据在第i个度量指标下的数值距离值dis_i时，需要按照古生物形态学数据的层次特点做出调整，具体为：若两个古生物形态学数据某一层次化特征的上级特征同时存在，在计算物种间距离时将上级特征数据忽略，只将下级特征数据纳入计算；若两个古生物形态学数据中一个数据的上级特征存在，另一个数据的上级特征不存在，只将上级特征纳入计算；若两个古生物形态学数据的两个上级特征都不存在，将对应的上级特征与下级特征都忽略。

步骤5.2，按照公式(1)获得第i个度量指标对应的古生物物种间距离值进行缩放，使其量纲统一化，最终计算出的第i个度量指标下的古生物物种间距离值res_i在0-1的范围内；

步骤5.4：将步骤5.3获得结果与步骤4扩充后新种群中对应度量指标权重按公式(2)进行计算，获得古生物物种间距离findis，即两个同一层次的数据之间的距离；

ω_i表示扩充后新种群中第i个度量指标的权重，res_i表示第i个度量指标统一量纲后的结果，i＝1,2,...,m，m为度量指标数量，本实施例中m＝3。

步骤5.5，根据步骤5.4得到的古生物物种间距离，采用聚类方法将当前决策点对应的古生物形态学数据划分为两个分枝。

本实施例中采用k-means方法对古生物形态学数据进行聚类划分。

步骤6，采用Fitch算法对当前决策点进行评估，每个度量指标权重组合对应一个评估值，保留排名靠前的n组评估值；

比较当前的n组评估值与前一次排名靠前的n组评估值的变化，若变化小于阈值，保留当前的n组评估值中最优评估值对应的度量指标权重组合，根据最优评估值对应的度量指标权重组合计算当前决策点优化后的古生物物种间距离，本步骤中仅需计算当前决策点的所有数据在最优度量指标权重组合下的物种间距离，本发明的具体计算方法按照步骤5.1至步骤5.4的方法，然后根据优化后的古生物物种间距离，采用聚类方法将当前决策点的古生物形态学数据进行划分，划分结果作为当前决策点的最优分割，转至步骤7；否则，将排名靠前的n组评估值对应的度量指标权重组合作为初始种群，转至步骤4。

本步骤6使用的聚类方法与步骤5中采用的聚类方法相同，均为k-means方法。本发明中变化阈值为小于10的数值，本实施例中，最优评估值的差值在3以内或迭代次数到20次，即可停止迭代。

本步骤6中需要说明的是，对于根节点，要将排名靠前的n组评估值对应的度量指标权重组合作为替换后的初始种群，返回步骤4，再获得n组评估值，然后再比较阈值。

步骤7，判断最优分割后的两个分枝是否均为单一古生物物种，若是保留该最优分割；否则，将该最优分割作为新的决策点放入决策点集中，转至步骤2，直至决策点集为空，转至步骤8；

步骤8：输出构建的古生物系统发育树。

如图2所示为本实施例构建的古生物系统发育树的示意图。从发育树结果中可以直观看出相似的古生物物种被划分在一起，例如Haplognathia相关的物种都被集中在同一分枝上，说明本发明构建出的系统发育树可以正确找到古生物物种间的亲缘关系，这表明了本发明通过动态融合多种度量指标的手段，可以切实改善系统发育树的构建情况。

Claims

1.基于多度量指标权重的古生物形态系统发育树构建方法，其特征在于，包括以下步骤：

步骤4，随机选择初始种群中或替换后的初始种群中的一个度量指标权重组合，使用变异方法生成新的度量指标权重组合；或随机选择初始种群中或替换后的初始种群中的两个度量指标权重组合，使用交叉方法生成新的度量指标权重组合；形成扩充后的新种群；

所述的变异方法采用以下三种方式中的任一种：

方式一：随机选择该度量指标权重组合中的两个度量指标对应的权重值进行交换；

方式二：随机选择该度量指标权重组合中的一个度量指标，将除被选定的度量指标外的其他度量指标对应的权重值消减，将消减的权重值总和添加到被选中的权重上；

方式三：锁定该度量指标权重组合中的最大权重值，将其数值变为原来的一半，将减少的权重值平均分配到该度量指标权重组合中它权重之上；

所述交叉方法包括：随机选取初始种群中或替换后的初始种群中两个度量指标权重组合中一定数量的度量指标对应的权重值，其中选取度量指标的数量小于总度量指标数量的一半；将选取的两个度量指标权重组合中对应的权重值进行交换，然后使用softmax方法对交换后的权重值进行处理，使得交换后的每个新的度量指标权重组合中的度量指标权重之和为1；

步骤6，采用Fitch算法对当前决策点的划分结果进行评估，保留排名靠前的n组评估值；

步骤8：输出构建的古生物系统发育树。

2.如权利要求1所述的基于多度量指标权重的古生物形态系统发育树构建方法，其特征在于，所述步骤1中，使用众数插补方法对古生物形态学数据进行缺失插补；其中，对于古生物形态学数据中具有层次特征的数据的缺失首先对其上级数据进行插补，若上级数据不存在，不进行下级数据的插补。

3.如权利要求1所述的基于多度量指标权重的古生物形态系统发育树构建方法，其特征在于，所述步骤5中根据扩充后的新种群中度量指标权重值计算古生物物种间距离具体包括：

步骤5.1，计算古生物形态学数据在第i个度量指标下的数值距离值

，记录这些数值距离值

中最大古生物物种距离值

与最小距离值

；

步骤5.2，按照公式（1）获得第i个度量指标对应的古生物物种间距离值进行缩放，使其量纲统一化，

（1）

步骤5.4：将步骤5.3获得结果与步骤4扩充后新种群中对应度量指标权重按公式（2）进行计算，获得古生物物种间距离

；

（2）

表示扩充后新种群中第i个度量指标的权重，

表示第i个度量指标统一量纲后的结果，

，m为度量指标数量。

4.如权利要求3所述的基于多度量指标权重的古生物形态系统发育树构建方法，其特征在于，所述步骤5.1中，计算古生物形态学数据在第i个度量指标下的数值距离值

时，若两个古生物形态学数据某一层次化特征的上级特征同时存在，在计算物种间距离时将上级特征数据忽略，只将下级特征数据纳入计算；若两个古生物形态学数据中一个数据的上级特征存在，另一个数据的上级特征不存在，只将上级特征纳入计算；若两个古生物形态学数据的两个上级特征都不存在，将对应的上级特征与下级特征都忽略。