CN112817959B - 基于多度量指标权重的古生物形态系统发育树构建方法 - Google Patents

基于多度量指标权重的古生物形态系统发育树构建方法 Download PDF

Info

Publication number
CN112817959B
CN112817959B CN202110213760.0A CN202110213760A CN112817959B CN 112817959 B CN112817959 B CN 112817959B CN 202110213760 A CN202110213760 A CN 202110213760A CN 112817959 B CN112817959 B CN 112817959B
Authority
CN
China
Prior art keywords
ancient
data
metric
weight
measurement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110213760.0A
Other languages
English (en)
Other versions
CN112817959A (zh
Inventor
冯宏伟
张效齐
胡景钊
刘蒙
冯筠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN202110213760.0A priority Critical patent/CN112817959B/zh
Publication of CN112817959A publication Critical patent/CN112817959A/zh
Application granted granted Critical
Publication of CN112817959B publication Critical patent/CN112817959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于多度量指标权重的古生物形态系统发育树构建方法,包括:对待处理的古生物形态学数据缺失插补形成完整数据集;根据古生物形态学数据的层次特点选择度量指标;对决策点数据的度量指标生成随机权重值,获取度量指标组合;采用进化算法扩充初始种群,形成扩充后的新种群;计算古生物物种间距离,根据该距离划分当前决策点的古生物形态学数据;采用Fitch算法评估当前决策点的划分结果,保留最优分割;判断最优分割后的两个分枝是否均为单一古生物物种,是则保留,否则重新初始化权重分配;本发明可以将多个不同量纲的度量指标共同用于古生物系统发育树构建,克服了使用单一度量指标计算古生物物种间距离片面性的问题。

Description

基于多度量指标权重的古生物形态系统发育树构建方法
技术领域
本发明属于生物信息技术领域,涉及古生物形态学中发育树的构建,具体涉及一种基于多度量指标权重的古生物形态系统发育树构建方法。
背景技术
在计算生物领域中,系统发育学是一门研究物种的进化历程和亲缘关系的学科。通过构造古生物系统发育树可以辅助研究人员了解物种形成或者进化过程中哪一时间发生分歧,进而从中挖掘物种起源与生物进化的奥秘。古生物系统发育树的构造可以基于物种的形态特征的相似性和差异性来进行,通过不同古生物物种在系统发育树上的位置,推断出古生物间的亲缘关系。而且通过构造出来的古生物系统发育树,我们可以依据物种间演化情况,判断同时期地质与气候的变化。同时古生物系统发育树也有助于我们对动植物同源基因、同源器官等进行确定,对研究器官的进化过程与探索基因和性状的关系都有着重要意义。
上述这一切都依赖于古生物系统发育树的构建。构建一棵完善良好的古生物系统发育树,可以大大减少人工分析古生物物种间关系的时间耗费,同时也能为科研人员提供更多潜在信息。但是现有的古生物系统发育树构造方法大都只使用单一度量指标来计算不同古生物物种间距离。由于不同度量指标对于古生物形态学数据的侧重点不同,这会导致获得的古生物系统发育树存在一定的片面性,使结果无法达到预期情况。一些古生物系统发育树构造方法也有结合多种度量指标,但其结合方式未从古生物数据出发,使用固定度量指标权重组合,使方法的泛用性下降。综合而言目前古生物系统发育树缺少一个可以融合多种度量指标,并且可以随着古生物数据的变化改变自适应度量指标权重组合的方法。
发明内容
为解决现有技术中存在的不足,本发明提供了一种基于多度量指标权重的古生物形态系统发育树构建方法,克服现有发育树构建方法使用单一度量指标存在片面性、无法自适应古生物数据获得度量指标权重组合的问题。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
基于多度量指标权重的古生物形态系统发育树构建方法,包括:
步骤1,对待处理的古生物形态学数据进行缺失插补,形成完整的数据集;根据待处理的古生物形态学数据的层次特点选择度量指标,所述度量指标的数量至少为三个;
步骤2,将步骤1得到的数据集作为古生物系统发育树的根节点,对根节点数据的每个度量指标或步骤7返回的决策点数据的每个度量指标生成随机权重值,每个度量指标取各一个权重值归一化后构成度量指标组合,获得n组度量指标权重组合,n≥5;将这些度量指标权重组合作为初始种群;
步骤3,判断当前古生物系统发育树是否存在父决策点,若不存在父决策点,转至步骤4;若存在父决策点,将初始种群中的任一度量指标权重组合替换为父决策点中最优的度量指标权重组合,得到替换后的初始种群,转至步骤4;
步骤4,采用进化算法对初始种群或替换后的初始种群进行扩充,形成扩充后的新种群;
步骤5,根据扩充后的新种群中度量指标权重值计算古生物物种间距离;根据古生物物种间距离,采用聚类方法划分当前决策点的古生物形态学数据;
步骤6,采用Fitch算法对当前决策点划分结果进行评估,保留排名靠前的n组评估值;
比较当前的n组评估值与前一次排名靠前的n组评估值的变化,若变化小于阈值,保留当前的n组评估值中最优评估值对应的度量指标权重组合,根据最优评估值对应的度量指标权重组合计算当前决策点优化后的古生物物种间距离,根据优化后的古生物物种间距离,采用聚类方法将当前决策点的古生物形态学数据进行划分,划分结果作为当前决策点的最优分割,转至步骤7;否则,将排名靠前的n组评估值对应的度量指标权重组合作为初始种群,转至步骤4;
步骤7,判断最优分割后的分枝是否均为单一古生物物种,若是保留该最优分割;否则,将该最优分割作为新的决策点放入决策点集中,转至步骤2,直至决策点集为空,转至步骤8;
步骤8:输出构建的古生物系统发育树。
具体的,所述步骤1中,使用众数插补方法对古生物形态学数据进行缺失插补;其中,对于古生物形态学数据中具有层次特征的数据的缺失首先对其上级数据进行插补,若上级数据不存在,不进行下级数据的插补。
具体的,所述步骤4对初始种群扩充的具体方法包括:随机选择初始种群中或替换后的初始种群中的一个度量指标权重组合,使用变异方法生成新的度量指标权重组合;或随机选择初始种群中或替换后的初始种群中的两个度量指标权重组合,使用交叉方法生成新的度量指标权重组合。
可选的,所述的变异方法包括:随机选择该度量指标权重组合中的两个度量指标对应的权重值进行交换。
作为另一可选的,所述的变异方法包括:随机选择该度量指标权重组合中的一个度量指标,将除被选定的度量指标外的其他度量指标对应的权重值消减,将消减的权重值总和添加到被选中的权重上。
作为另一可选的,所述的变异方法包括:锁定该度量指标权重组合中的最大权重值,将其数值变为原来的一半,将减少的权重值平均分配到该度量指标权重组合中它权重之上。
具体的,所述交叉方法包括:随机选取初始种群中或替换后的初始种群中两个度量指标权重组合中一定数量的度量指标对应的权重值,其中选取度量指标的数量小于总度量指标数量的一半;将选取的两个度量指标权重组合中对应的权重值进行交换,然后使用softmax方法对交换后的权重值进行处理,使得交换后的每个新的度量指标权重组合中的度量指标权重之和为1。
具体的,所述步骤5中根据扩充后的新种群中度量指标权重值计算古生物物种间距离具体包括:
步骤5.1,计算古生物形态学数据在第i个度量指标下的数值距离值disi,记录这些数值距离值disi中最大古生物物种距离值
Figure BDA0002952377320000041
与最小距离值/>
Figure BDA0002952377320000042
步骤5.2,按照公式(1)获得第i个度量指标对应的古生物物种间距离值进行缩放,使其量纲统一化,
Figure BDA0002952377320000043
步骤5.3,按照步骤5.1和步骤5.2,获得所有度量指标对应的古生物物种间距离统一量纲后的结果;
步骤5.4:将步骤5.3获得结果与步骤4扩充后新种群中对应度量指标权重按公式(2)进行计算,获得古生物物种间距离findis;
Figure BDA0002952377320000051
ωi表示扩充后新种群中第i个度量指标的权重,resi表示第i个度量指标统一量纲后的结果,i=1,2,...,m,m为度量指标数量。
优选的,所述步骤5.1中,计算古生物形态学数据在第i个度量指标下的数值距离值disi时,若两个古生物形态学数据某一层次化特征的上级特征同时存在,在计算物种间距离时将上级特征数据忽略,只将下级特征数据纳入计算;若两个古生物形态学数据中一个数据的上级特征存在,另一个数据的上级特征不存在,只将上级特征纳入计算;若两个古生物形态学数据的两个上级特征都不存在,将对应的上级特征与下级特征都忽略。
与现有技术相比,本发明的有益效果是:
(1)本发明提供了一种融合多种度量指标用于古生物系统发育树构建的方法。该方法可以将多个不同量纲的度量指标共同用于古生物系统发育树构建,克服了使用单一度量指标计算古生物物种间距离片面性的问题;
(2)本发明提供了一种可以随古生物数据自适应改变度量指标权重组合的方法。使其在不同古生物形态学数据上都可以获得较优的度量指标权重组合,为古生物系统发育树构建提供保障,并提升不同度量指标组合的泛用性;
(3)本发明在构建古生物系统发育树时,在树的每一决策点都以当前最优度量指标权重组合进行古生物物种划分,改善古生物系统发育树的建树效果。
附图说明
图1是本发明方法的流程图。
图2是本发明实施例中构建的古生物系统发育树的示意图。
具体实施方式
本发明中,古生物形态学数据:是指从古生物化石中获得的描述古生物生理构成、体型形状等特征的数据。诸如是否存在头部结构,足的数量这些能反应出古生物形态特点的数据描述。
如下表1所示为一种古生物形态学数据,其中特征3依赖于特征2,一个物种必须有特征2的头部结构,才能有特征3相关的头部护甲。而特征4和特征5依赖于特征1。表1中:0表示没有该结构,1表示有该结构,N表示没有上级特征无法表示。
表1某一种古生物形态学数据
Figure BDA0002952377320000061
古生物形态学数据的层次特点:是指古生物形态学数据特有的结构类型。这种数据中的某些特征并不能独立存在,这些特征需要依赖于其他特征的取值来确保自身是否有意义。例如古生物形态学数据中如果“是否有眼睛”这个特征值为“否”时,此时“眼睛位置”特征就没有了意义。也即“眼睛位置”的特征依赖于“是否有眼睛”,他们之间构成一个上下级的关系,就是层次结构。
古生物系统发育树:是自上而下的决策点结构,如图2所示为本发明下面实施例中构建的古生物系统发育树的表示形式,其中不同的横线表示不同决策点,在每一决策点将古生物物种划分为两类(即同种类或不同种类),形成发育树的两个分枝。由于古生物系统发育树是自上而下不断建立的,所以划分之后每一决策点的古生物物种信息都存在差异。
度量指标:是指用来计算不同古生物形态学数据间相似距离的方法,需有能适应层次特征的能力,如欧式距离、汉明距离、余玄距离等。
Fitch算法:是一种用来衡量系统发育树构建质量的算法,用来判定构建出的树是否更符合一般认知,该值越小说明构建出的古生物系统发育树越好。
Softmax算法:是一种归一化指数函数,意在将所有元素范围限定在(0,1),并且所有元素和为1。
进化算法:是一种仿照生物进化模式所产生的优化算法,基于自然选择与生物遗传等机制进行,通过迭代地手段对解空间进行优化。其中交叉变异是其主要产生新的解的方法,其每次迭代解的集合被称为种群。
本发明的目的是提出一种古生物系统发育树构建方法,将多种度量指标融合并且可自适应古生物数据进行度量指标权重组合的调整,应用在古生物系统发育树的构建上。在古生物系统发育树构建过程中,在发育树的每一决策点依据当前决策点古生物物种数据动态调整度量指标权重组合,获得最优的古生物系统发育树构建效果。希望能在同时使用多种度量指标的基础上,至少满足以下特性:模型可同时处理多种度量指标,可自适应不同古生物形态学数据,可在古生物系统发育树各决策点获取最优度量指标权重组合,可以保留各度量指标的特点,优化系统发育树建树效果。因此,本发明提出一种基于多度量指标权重的古生物形态系统发育树构建方法。
以下给出本发明的具体实施例,需要说明的是,本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
实施例
本发明的基于多度量指标权重的古生物形态系统发育树构建方法,流程如图1所示,具体包括以下步骤:
步骤1,对待处理的古生物形态学数据进行缺失插补,形成完整的数据集;根据待处理的古生物形态学数据的层次特点选择度量指标,度量指标的数量至少为三个。
本实施例的古生物形态学数据集采用文献“
Figure BDA0002952377320000081
M V,Sterrer W,GiribetG.Gnathostomulid phylogeny inferred from a combined approach of fourmolecular loci and morphology[J].Cladistics,2006,22(1):32-58.”中记载的数据集;本实施例中的度量指标选择为欧氏距离、汉明距离和余弦距离。
本实施例采用众数插补方法对古生物形态学数据进行缺失插补;其中,对于古生物形态学数据中具有层次特征的数据的缺失插补原则为:首先对其上级数据进行插补,若上级数据不存在,不进行下级数据的插补。
步骤2,将步骤1得到的数据集作为古生物系统发育树的根节点,对根节点数据的每个度量指标或步骤7返回的决策点数据的每个度量指标生成随机权重值,本发明优选的,使用softmax函数对生成的度量指标权重进行处理,使度量指标权重总和为1;每个度量指标均随机各取一个归一化处理后的权重值构成度量指标组合,比如选择的度量指标有三种,则一个度量指标权重组合由这三个度量指标的权重值组成;最终生成n组这样的度量指标权重组合,本发明优选的n≥5;将这些度量指标权重组合作为初始种群。
本实施例中度量指标权重组合数n=10。
步骤3,判断当前古生物系统发育树是否存在父决策点,若不存在父决策点,转至步骤4;若存在父决策点,将初始种群中的任一度量指标权重组合替换为父决策点中最优的度量指标权重组合,得到替换后的初始种群,转至步骤4;也可将父决策点中最优的度量指标权重组合和次优度量指标权重组合与初始种群中的任两个度量指标权重组合替换。
此处的父决策点包含有的度量指标权重组合即为步骤6保留的排名靠前的n组评估值对应的度量指标权重组合,最优的度量指标权重组合是指最优的评估值对应的度量指标权重组合,最优的评估值的计算同步骤6,优选的采用Fitch算法获得。
步骤4,采用进化算法对初始种群或替换后的初始种群进行扩充,形成扩充后的新种群。
本发明的初始种群扩充的优选的采用以下两种方式中的任一种:
方式一:随机选择初始种群中或替换后的初始种群中的一个度量指标权重组合,使用变异方法生成新的度量指标权重组合;其中变异方法可采用以下三种形式中的任一种:
①随机选择该度量指标权重组合中的两个度量指标对应的权重值进行交换。
②随机选择该度量指标权重组合中的一个度量指标,将除被选定的度量指标外的其他度量指标对应的权重值消减,优选的,消减值不超过权重值的一半,将消减的权重值总和添加到被选中的权重上。
③锁定该度量指标权重组合中的最大权重值,将其数值变为原来的一半,将减少的权重值平均分配到该度量指标权重组合中它权重之上。
方式二:随机选择初始种群中或替换后的初始种群中的两个度量指标权重组合,使用交叉方法生成新的度量指标权重组合,优选的交叉方法为:
随机选取初始种群中或替换后的初始种群中两个度量指标权重组合中一定数量的度量指标对应的权重值,其中选取度量指标的数量小于总度量指标数量的一半,且两个度量指标组合中选择的度量指标数量相同;将选取的两个度量指标权重组合中对应的权重值进行交换,然后使用softmax方法对交换后的权重值进行处理,使得交换后的每个新的度量指标权重组合中的度量指标权重之和为1。
本实施例中采用的进化方法为:对于扩充度量指标权重组合的变异操作,每次增加15组新的度量指标权重组合,其中变异方式①生成5组;变异方式②生成5组,变异方式②中对于未选中的权重减少1/6再加上一个-0.05到0.05的随机值;变异方式③生成5组。对于扩充度量指标权重组合的交叉操作,每次生成5组数据,每次选取两个度量指标权重组合中的1个权重值进行交换。结束度量指标权重组合扩充后迭代次数加1。
步骤5,根据扩充后的新种群中度量指标权重值计算古生物物种间距离;根据古生物物种间距离,将当前决策点对应的古生物形态学数据划分为两个分枝,本步骤中需计算当前决策点的所有数据在所有度量指标权重组合下的物种间距离,具体包括:
步骤5.1,计算古生物形态学数据在第i个度量指标下的数值距离值disi,记录这些数值距离值disi中最大古生物物种距离值
Figure BDA0002952377320000101
与最小距离值/>
Figure BDA0002952377320000102
本步骤中,在计算古生物形态学数据在第i个度量指标下的数值距离值disi时,需要按照古生物形态学数据的层次特点做出调整,具体为:若两个古生物形态学数据某一层次化特征的上级特征同时存在,在计算物种间距离时将上级特征数据忽略,只将下级特征数据纳入计算;若两个古生物形态学数据中一个数据的上级特征存在,另一个数据的上级特征不存在,只将上级特征纳入计算;若两个古生物形态学数据的两个上级特征都不存在,将对应的上级特征与下级特征都忽略。
步骤5.2,按照公式(1)获得第i个度量指标对应的古生物物种间距离值进行缩放,使其量纲统一化,最终计算出的第i个度量指标下的古生物物种间距离值resi在0-1的范围内;
Figure BDA0002952377320000111
步骤5.3,按照步骤5.1和步骤5.2,获得所有度量指标对应的古生物物种间距离统一量纲后的结果;
步骤5.4:将步骤5.3获得结果与步骤4扩充后新种群中对应度量指标权重按公式(2)进行计算,获得古生物物种间距离findis,即两个同一层次的数据之间的距离;
Figure BDA0002952377320000112
ωi表示扩充后新种群中第i个度量指标的权重,resi表示第i个度量指标统一量纲后的结果,i=1,2,...,m,m为度量指标数量,本实施例中m=3。
步骤5.5,根据步骤5.4得到的古生物物种间距离,采用聚类方法将当前决策点对应的古生物形态学数据划分为两个分枝。
本实施例中采用k-means方法对古生物形态学数据进行聚类划分。
步骤6,采用Fitch算法对当前决策点进行评估,每个度量指标权重组合对应一个评估值,保留排名靠前的n组评估值;
比较当前的n组评估值与前一次排名靠前的n组评估值的变化,若变化小于阈值,保留当前的n组评估值中最优评估值对应的度量指标权重组合,根据最优评估值对应的度量指标权重组合计算当前决策点优化后的古生物物种间距离,本步骤中仅需计算当前决策点的所有数据在最优度量指标权重组合下的物种间距离,本发明的具体计算方法按照步骤5.1至步骤5.4的方法,然后根据优化后的古生物物种间距离,采用聚类方法将当前决策点的古生物形态学数据进行划分,划分结果作为当前决策点的最优分割,转至步骤7;否则,将排名靠前的n组评估值对应的度量指标权重组合作为初始种群,转至步骤4。
本步骤6使用的聚类方法与步骤5中采用的聚类方法相同,均为k-means方法。本发明中变化阈值为小于10的数值,本实施例中,最优评估值的差值在3以内或迭代次数到20次,即可停止迭代。
本步骤6中需要说明的是,对于根节点,要将排名靠前的n组评估值对应的度量指标权重组合作为替换后的初始种群,返回步骤4,再获得n组评估值,然后再比较阈值。
步骤7,判断最优分割后的两个分枝是否均为单一古生物物种,若是保留该最优分割;否则,将该最优分割作为新的决策点放入决策点集中,转至步骤2,直至决策点集为空,转至步骤8;
步骤8:输出构建的古生物系统发育树。
如图2所示为本实施例构建的古生物系统发育树的示意图。从发育树结果中可以直观看出相似的古生物物种被划分在一起,例如Haplognathia相关的物种都被集中在同一分枝上,说明本发明构建出的系统发育树可以正确找到古生物物种间的亲缘关系,这表明了本发明通过动态融合多种度量指标的手段,可以切实改善系统发育树的构建情况。

Claims (4)

1.基于多度量指标权重的古生物形态系统发育树构建方法,其特征在于,包括以下步骤:
步骤1,对待处理的古生物形态学数据进行缺失插补,形成完整的数据集;根据待处理的古生物形态学数据的层次特点选择度量指标,所述度量指标的数量至少为三个;
步骤2,将步骤1得到的数据集作为古生物系统发育树的根节点,对根节点数据的每个度量指标或步骤7返回的决策点数据的每个度量指标生成随机权重值,每个度量指标取各一个权重值归一化后构成度量指标组合,获得n组度量指标权重组合,n≥5;将这些度量指标权重组合作为初始种群;
步骤3,判断当前古生物系统发育树是否存在父决策点,若不存在父决策点,转至步骤4;若存在父决策点,将初始种群中的任一度量指标权重组合替换为父决策点中最优的度量指标权重组合,得到替换后的初始种群,转至步骤4;
步骤4,随机选择初始种群中或替换后的初始种群中的一个度量指标权重组合,使用变异方法生成新的度量指标权重组合;或随机选择初始种群中或替换后的初始种群中的两个度量指标权重组合,使用交叉方法生成新的度量指标权重组合;形成扩充后的新种群;
所述的变异方法采用以下三种方式中的任一种:
方式一:随机选择该度量指标权重组合中的两个度量指标对应的权重值进行交换;
方式二:随机选择该度量指标权重组合中的一个度量指标,将除被选定的度量指标外的其他度量指标对应的权重值消减,将消减的权重值总和添加到被选中的权重上;
方式三:锁定该度量指标权重组合中的最大权重值,将其数值变为原来的一半,将减少的权重值平均分配到该度量指标权重组合中它权重之上;
所述交叉方法包括:随机选取初始种群中或替换后的初始种群中两个度量指标权重组合中一定数量的度量指标对应的权重值,其中选取度量指标的数量小于总度量指标数量的一半;将选取的两个度量指标权重组合中对应的权重值进行交换,然后使用softmax方法对交换后的权重值进行处理,使得交换后的每个新的度量指标权重组合中的度量指标权重之和为1;
步骤5,根据扩充后的新种群中度量指标权重值计算古生物物种间距离;根据古生物物种间距离,采用聚类方法划分当前决策点的古生物形态学数据;
步骤6,采用Fitch算法对当前决策点的划分结果进行评估,保留排名靠前的n组评估值;
比较当前的n组评估值与前一次排名靠前的n组评估值的变化,若变化小于阈值,保留当前的n组评估值中最优评估值对应的度量指标权重组合,根据最优评估值对应的度量指标权重组合计算当前决策点优化后的古生物物种间距离,根据优化后的古生物物种间距离,采用聚类方法将当前决策点的古生物形态学数据进行划分,划分结果作为当前决策点的最优分割,转至步骤7;否则,将排名靠前的n组评估值对应的度量指标权重组合作为初始种群,转至步骤4;
步骤7,判断最优分割后的分枝是否均为单一古生物物种,若是保留该最优分割;否则,将该最优分割作为新的决策点放入决策点集中,转至步骤2,直至决策点集为空,转至步骤8;
步骤8:输出构建的古生物系统发育树。
2.如权利要求1所述的基于多度量指标权重的古生物形态系统发育树构建方法,其特征在于,所述步骤1中,使用众数插补方法对古生物形态学数据进行缺失插补;其中,对于古生物形态学数据中具有层次特征的数据的缺失首先对其上级数据进行插补,若上级数据不存在,不进行下级数据的插补。
3.如权利要求1所述的基于多度量指标权重的古生物形态系统发育树构建方法,其特征在于,所述步骤5中根据扩充后的新种群中度量指标权重值计算古生物物种间距离具体包括:
步骤5.1,计算古生物形态学数据在第i个度量指标下的数值距离值
Figure 281083DEST_PATH_IMAGE001
,记录这些数值 距离值
Figure 210993DEST_PATH_IMAGE001
中最大古生物物种距离值
Figure 171996DEST_PATH_IMAGE002
与最小距离值
Figure 66484DEST_PATH_IMAGE003
步骤5.2,按照公式(1)获得第i个度量指标对应的古生物物种间距离值进行缩放,使其量纲统一化,
Figure 872766DEST_PATH_IMAGE004
(1)
步骤5.3,按照步骤5.1和步骤5.2,获得所有度量指标对应的古生物物种间距离统一量纲后的结果;
步骤5.4:将步骤5.3获得结果与步骤4扩充后新种群中对应度量指标权重按公式(2)进 行计算,获得古生物物种间距离
Figure 922761DEST_PATH_IMAGE005
Figure 789086DEST_PATH_IMAGE006
(2)
Figure 908221DEST_PATH_IMAGE007
表示扩充后新种群中第i个度量指标的权重,
Figure 518193DEST_PATH_IMAGE008
表示第i个度量指标统一量纲后的 结果,
Figure 422696DEST_PATH_IMAGE009
m为度量指标数量。
4.如权利要求3所述的基于多度量指标权重的古生物形态系统发育树构建方法,其特 征在于,所述步骤5.1中,计算古生物形态学数据在第i个度量指标下的数值距离值
Figure 991080DEST_PATH_IMAGE001
时, 若两个古生物形态学数据某一层次化特征的上级特征同时存在,在计算物种间距离时将上 级特征数据忽略,只将下级特征数据纳入计算;若两个古生物形态学数据中一个数据的上 级特征存在,另一个数据的上级特征不存在,只将上级特征纳入计算;若两个古生物形态学 数据的两个上级特征都不存在,将对应的上级特征与下级特征都忽略。
CN202110213760.0A 2021-02-25 2021-02-25 基于多度量指标权重的古生物形态系统发育树构建方法 Active CN112817959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110213760.0A CN112817959B (zh) 2021-02-25 2021-02-25 基于多度量指标权重的古生物形态系统发育树构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110213760.0A CN112817959B (zh) 2021-02-25 2021-02-25 基于多度量指标权重的古生物形态系统发育树构建方法

Publications (2)

Publication Number Publication Date
CN112817959A CN112817959A (zh) 2021-05-18
CN112817959B true CN112817959B (zh) 2023-03-24

Family

ID=75863899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110213760.0A Active CN112817959B (zh) 2021-02-25 2021-02-25 基于多度量指标权重的古生物形态系统发育树构建方法

Country Status (1)

Country Link
CN (1) CN112817959B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613426B (zh) * 2022-01-26 2023-10-31 西北大学 一种基于动态多目标优化的系统发育树构建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573405A (zh) * 2014-12-22 2015-04-29 中国科学院计算机网络信息中心 一种基于大树构建子树的系统进化树重建方法
CN106446531A (zh) * 2016-09-08 2017-02-22 西北大学 一种基于先验决策模型的谱系树构建方法
CN108509764A (zh) * 2018-02-27 2018-09-07 西北大学 一种基于遗传属性约简的古生物谱系演化分析方法
CN109326328A (zh) * 2018-11-02 2019-02-12 西北大学 一种基于谱系聚类的古生物谱系演化分析方法
CN111240353A (zh) * 2020-01-07 2020-06-05 南京航空航天大学 基于遗传模糊树的无人机协同空战决策方法
CN111462812A (zh) * 2020-03-11 2020-07-28 西北大学 一种基于特征层次的多目标系统发育树构建方法
WO2020206896A1 (zh) * 2019-04-09 2020-10-15 山东省农业科学院奶牛研究中心 一种筛选牛高原低氧适应分子标记的方法及其应用

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573405A (zh) * 2014-12-22 2015-04-29 中国科学院计算机网络信息中心 一种基于大树构建子树的系统进化树重建方法
CN106446531A (zh) * 2016-09-08 2017-02-22 西北大学 一种基于先验决策模型的谱系树构建方法
CN108509764A (zh) * 2018-02-27 2018-09-07 西北大学 一种基于遗传属性约简的古生物谱系演化分析方法
CN109326328A (zh) * 2018-11-02 2019-02-12 西北大学 一种基于谱系聚类的古生物谱系演化分析方法
WO2020206896A1 (zh) * 2019-04-09 2020-10-15 山东省农业科学院奶牛研究中心 一种筛选牛高原低氧适应分子标记的方法及其应用
CN111240353A (zh) * 2020-01-07 2020-06-05 南京航空航天大学 基于遗传模糊树的无人机协同空战决策方法
CN111462812A (zh) * 2020-03-11 2020-07-28 西北大学 一种基于特征层次的多目标系统发育树构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A New Phylogenetic Inference Based on Genetic Attribute Reduction for Morphological Data;Jun Feng;《MDPI》;20190322;第1-17页 *
含有缺失和不可适用数据的古生物谱系树构建方法研究;杜丽媛;《中国优秀硕士学位论文全文数据库》;20190115;第A006-789页 *

Also Published As

Publication number Publication date
CN112817959A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN110889434B (zh) 一种基于活动的社交网络活动特征提取方法
JP4790590B2 (ja) 収束基準を利用する多目的最適化のためのモデルベースおよび遺伝ベースの子孫生成の組み合わせ
CN111368891B (zh) 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
WO2018166270A2 (zh) 一种基于指标和方向向量相结合的多目标优化方法及系统
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
CN106845536B (zh) 一种基于图像缩放的并行聚类方法
CN113708969A (zh) 一种基于深度强化学习的云数据中心虚拟网络的协同嵌入方法
CN107092812A (zh) 一种在ppi网络中基于遗传算法识别关键蛋白质的方法
CN112817959B (zh) 基于多度量指标权重的古生物形态系统发育树构建方法
CN113555062A (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
CN111626321A (zh) 一种图像数据的聚类方法及装置
Rengasamy et al. PSO based data clustering with a different perception
CN116170328A (zh) 图形编码的使用带宽预测方法及装置
CN115374106A (zh) 一种基于知识图谱技术的数据智能分级方法
CN110930030A (zh) 医生技术水平评级方法
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN109390032A (zh) 一种基于进化算法在全基因组关联分析的数据中探索与疾病相关的snp组合的方法
CN108280548A (zh) 基于网络传输的智能处理方法
CN110309424A (zh) 一种基于粗糙聚类的社会化推荐方法
CN116014764A (zh) 一种分布式储能优化处理方法及装置
CN110297977B (zh) 一种面向众筹平台的个性化推荐单目标进化方法
CN114334168A (zh) 结合协同学习策略的粒子群混合优化的特征选择算法
CN113807005A (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法
CN105426910B (zh) 一种基于改进abc算法与de变异策略的自适应聚类方法
CN109727150B (zh) 一种用于多人在线学习平台的社区识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant