CN108052796B

CN108052796B - 基于集成学习的全球人类mtDNA发育树分类查询方法

Info

Publication number: CN108052796B
Application number: CN201711426265.8A
Authority: CN
Inventors: 周维; 彭旻晟; 贾俊燕; 王文智; 向文坤; 张亚平
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2021-07-13
Anticipated expiration: 2037-12-26
Also published as: CN108052796A

Abstract

本发明公开了一种基于集成学习的全球人类mtDNA发育树分类查询方法，采用人工测得的mtDNA数据训练神经网络分类器，采用mtDNA发育树数据计算朴素贝叶斯分类器的参数，将待分类查询的mtDNA的变异位点序列输入神经网络分类器，得到前Q个可能分类，将待分类查询的mtDNA的变异位点序列和前Q个可能分类的所对应的变异位点序列合并得到朴素贝叶斯分类器的输入变异位点序列，并计算得到该输入变异位点序列中各个变异位点的权重，通过朴素贝叶斯分类器得到前Q个可能分类，然后将两组Q个可能分类的概率进行加权，得到前Q个可能分类作为最终分类结果。本发明综合利用神经网络分类器和朴素贝叶斯分类器的优势，提高了全球人类mtDNA发育树分类查询的正确率。

Description

基于集成学习的全球人类mtDNA发育树分类查询方法

技术领域

本发明属于机器学习技术领域，更为具体地讲，涉及一种基于集成学习的全球人类mtDNA发育树分类查询方法。

背景技术

我国是一个人口众多的国家，基于这样的大国基数，并且在历史的长河中各地域不断的交流融合，以及基于地缘关系的隔离和迁徙，逐渐形成了我国多民族的人口特色，为研究者提供了丰富多样的基因宝库。但是如何利用这样的基因宝库来研究人类起源，迁徙，发展以及遗传结构是我们面临的一个问题。对于各族的起源、迁徙和进化的研究不仅是大的科学问题，还涉及到对各自民族的自我认同，都具有重要的人文内涵。

从生物学角度来说，不同种族、不同民族、同一个种族但不属于同一群体之间的差别，其实也可以说成是DNA分子的不同。原因在于线粒体基因组(mtDNA)的改变速度比核DNA快10～20倍，并且具有母系遗传、缺乏重组、mtDNA分子呈环状结构、不易分解等特点，所以可以通过分析这些差异来探讨不同人群的源流和迁移情况，而mtDNA也是在探讨不同人群间的血缘关系和不同人群内遗传分化的一个好的遗传标识。

二十世纪末，随着专家对起源问题的深入研究，mtDNA问题逐渐进入了相关学者的视野。mtDNA主要有三个特点：母系遗传方式严谨、重组方式缺乏、基于群体变异程度大。基于这样的特点，mtDNA为研究人员提供了很好的遗传标记，从而为人类亲缘关系和群体内遗传分化的研究提供了标记基础，进一步推动了这方面的研究。在进入二十一世纪后，研究人员展开了对全球不同国家不同民族的mtDNA序列的分析。基于PCR技术和DNA序列测定技术，如何发掘未知mtDNA信息并且快速地找到个体的mtDNA信息在全球人类mtDNA进化树上所属的分类也显得至关重要。

就目前的全球人类mtDNA发育树分类查询方法而言，由于算法设计的问题，其正确率较低，难以满足实际所需，并且无法更新数据，实用性不足。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于集成学习的全球人类mtDNA发育树分类查询方法，综合利用神经网络分类器和朴素贝叶斯分类器的优势，提高分类查询的准确率。

为实现上述发明目的，本发明基于集成学习的全球人类mtDNA发育树分类查询方法，包括以下步骤：

S1：人工测得若干mtDNA数据，每条数据包含mtDNA的变异位点序列及对应的最有可能的分类，然后获取全球人类mtDNA发育树数据，包括分类信息及每个分类对应的mtDNA变异位点序列；

S2：采用mtDNA数据中的变异位点序列作为输入，对应分类作为期望输出，训练得到神经网络分类器；

S3：采用mtDNA发育树数据计算得到朴素贝叶斯分类器的参数，包括第i个分类target_i出现的概率P(target_i)、第j个变异位点mutation_j在第i个分类target_i中出现的概率P(mutation_j|target_i)，i＝1,2,…,T，T表示分类数量，j＝1,2,…,M，M表示变异位点数量；

S4：将待分类查询的mtDNA的变异位点序列mutations_c输入神经网络分类器，得到前Q个可能分类，记该变异位点序列mutations_c属于这Q个可能分类的概率为α_q，查询得到这Q个可能分类对应的变异位点序列

其中q＝1,2,…,Q；

将待分类查询的变异位点序列mutations_c与神经网络分类器前Q个可能分类所对应的变异位点序列合并得到变异位点序列mutations′_c，计算变异位点序列mutations′_c中各个变异位点的权重ω_d：

其中，d＝1,2,…,D，D表示待分类查询的变异位点序列mutations_c中变异位点数量，β_d,c表示变异位点序列mutations′_c中第d个变异位点是否属于变异位点序列mutations_c，如果是β_d,c＝1，否则β_d,c＝0；β_d,q表示变异位点序列mutations′_c中第d个变异位点是否属于Q个可能分类中第q个分类，如果是β_d,q＝1，否则β_d,q＝0；

将变异位点序列mutations′_c及D个权重ω_d输入朴素贝叶斯分类器，根据以下公式计算每个分类target_i对应的分类评价值R_i：

将分类评价值R_i进行降序排列，取前Q个可能分类，记变异位点序列mutations′_c属于这Q个可能分类的概率为α′_q；

按照预设权重对得到的两组Q个可能分类的概率进行加权，按照概率从大到小输出前Q个可能分类。

本发明基于集成学习的全球人类mtDNA发育树分类查询方法，采用人工测得的mtDNA数据训练得到神经网络分类器，采用mtDNA发育树数据计算得到朴素贝叶斯分类器的参数，将待分类查询的mtDNA的变异位点序列输入神经网络分类器，得到前Q个可能分类，将待分类查询的mtDNA的变异位点序列和前Q个可能分类的所对应的变异位点序列合并得到朴素贝叶斯分类器的输入变异位点序列，并计算得到该输入变异位点序列中各个变异位点的权重，通过朴素贝叶斯分类器得到前Q个可能分类，然后将两组Q个可能分类的概率进行加权，得到前Q个可能分类作为最终分类结果。本发明综合利用神经网络分类器对数据模型的强大抽象表达能力和朴素贝叶斯分类器对稀疏数据的分析能力，提高全球人类mtDNA发育树分类查询的正确率。

附图说明

图1是本发明基于集成学习的全球人类mtDNA发育树分类查询方法的具体实施方式流程图；

图2是mtDNA原始数据示例图；

图3是mtDNA数据示例图；

图4是本实施例中采用的全球人类mtDNA发育树系谱图；

图5是本实施例中全球人类mtDNA发育树数据示例图；

图6是采用BKDRHash算法对变异位点序列数值化的示例图；

图7是本发明中分类查询的流程图；

图8是本发明和两种对比方法的分类正确率对比图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于集成学习的全球人类mtDNA发育树分类查询方法的具体实施方式流程图。如图1所示，本发明全球人类mtDNA发育树分类查询方法，其具体步骤如下。

S101：获取训练数据：

首先人工测得若干mtDNA数据，每条数据包含mtDNA的变异位点序列及对应的最有可能的分类，每个变异位点序列中包含若干个变异位点的具体信息，然后获取全球人类mtDNA发育树数据，包括所有分类及每个分类对应的mtDNA变异位点序列。

本实施例中所采用的mtDNA数据从中国科学院西南生物多样性实验室提供的人类各地区的真实的mtDNA原始数据中选取得到。图2是mtDNA原始数据示例图。如图2所示，每条原始数据中包含简名(Sample Name)、单倍型类群(Haplogroup)、数据段1(HVS-1)、数据段2(HVS-2)和选取的数据段(Start-End)。从图3可以看出，该数据中的DNA序列并不是一条完整的DNA序列，每个位点是在完整DNA序列中抽取的变异位点，是16024-16569/1-576这两段的数据。在选取训练数据时，需要排除分类不明确、突变位点信息有误的数据，然后从每条mtDNA原始数据中整理得到mtDNA的变异位点序列和其对应的最有可能的分类。图3是mtDNA数据示例图。如图3所示，图中mutations表示mtDNA的变异位点序列，target表示分类。

图4是本实施例中采用的全球人类mtDNA发育树系谱图。如图4所示，该全球人类mtDNA发育树存在25个大类，共计5437个target。由于本实施例所采用的变异位点序列是16024-16569/1-576这两段的数据，因此获取全球人类mtDNA发育树每个分类中这两个区域的数据。由于每一个突变点都有相应的父节点、子节点以及兄弟节点，因此根据遗传规律将每一个突变点的父节点和子节点合并到一起。图5是本实施例中全球人类mtDNA发育树数据示例图。

S102：训练神经网络分类器：

采用mtDNA数据中的变异位点序列作为输入，分类作为期望输出，训练得到神经网络分类器。显然，由于本发明中针对的是全球人类mtDNA发育树，神经网络分类器是多类分类器，其分类数为全球人类mtDNA发育树中的分类数量。

本实施例中采用的神经网络是一个三层神经网络，即包含输入层、一个中间隐藏层和输出层，隐藏层与输出层之间采用Softmax回归模型。神经网络分类器是一种较为常用的分类器，其具体结构和训练过程在此不再赘述。

由于本发明中不同mtDNA数据中变异位点的数量不一定一致，如果直接采用原始数据进行神经网络训练对硬件要求较高，时间复杂度也较高，为了解决这一问题，在进行神经网络分类器训练之前，可以对mtDNA数据进行预处理，其具体方法为：采用哈希算法对每条数据的变异位点序列进行数值化，存入预设长度的数组中，得到变异位点向量，将分类转化为独热(one hot)向量得到分类向量。

哈希算法有很多类别，经实验发现，针对本发明的应用场景，BKDRHash算法的效果较好，因此本实施例中采用BKDRHash算法来对变异位点序列进行数值化。图6是采用BKDRHash算法对变异位点序列数值化的示例图。如图6所示，以图2中第1个HSV-1数据段“126 233 234 290 319 519”为例，经BKDRHash算法数值化后得到一个数组，从而得到变异位点向量。

S103：计算朴素贝叶斯分类器参数：

对于全球人类mtDNA发育树数据，由于其数据量较大，本发明选用朴素贝叶斯分类器对其进行处理，以降低整个分类查询方法的复杂度。朴素贝叶斯算法(Naive BayesAlgorithm)是一类很容易理解并实现的基于特征条件独立假设与贝叶斯定理的分类算法，朴素贝叶斯的基本思想也是很简明易懂的：提供一个待分类项，然后求解这个分类项存在的状态下各类别出现的比例是多少，比例较高的类别便是要求解的分类项所属的类别。

对于如图4所示的全球人类mtDNA发育树数据而言，整棵mtDNA发育树共有5437个分类target，每个分类target中含有一个变异位点序列mutations，该变异位点序列mutations即为target的特征向量。朴素贝叶斯分类器的主要思想是通过统计的方式计算出每个训练样本的特征属性对应的分类的频率，即在采用加权朴素贝叶斯分类器进行分类时，输入一条变异位点序列mutations，将这个变异位点序列mutations和各个分类target对应的变异位点序列mutations对比，用朴素贝叶斯方法计算概率并分类。

针对本发明中的全球人类mtDNA发育树，其在朴素贝叶斯中最基本的模型如下：

其中公式(1)中P(target_i)为第i个分类target_i出现的概率，target_i.n代表第i个分类target_i出现的次数，i＝1,2,…,T，T表示分类数量，N代表所有分类出现的总次数，即训练数据总条数。

公式(2)中P(mutation_j|target_i)为第j个变异位点mutation_j在第i个分类target_i中出现的概率，j＝1,2,…,M，M表示变异位点数量，其中target_i.mutation_j.n代表第j个变异位点mutation_j在第i个分类target_i中出现的次数。

P(target_i)和P(mutation_j|target_i)即本发明朴素贝叶斯分类器所需要计算的参数。

根据贝叶斯公式P(A|B)*P(B)＝P(B|A)*P(A)可以得到

使用第k个变异位点序列mutations_k和分类target_i替换这里的A和B，可以得到公式(3)，P(target_i|mutations_k)表示当变异位点序列mutations_k所有变异位点同时出现时分类为target_i的概率，P(mutations_k|target_i)表示变异位点序列mutations_k所有变异位点同时在分类target_i中出现的概率，P(mutations_k)表示变异位点序列mutations_k所有变异位点同时出现的概率。k＝1,2,…,K，K表示变异位点序列数量。

这里，假设计算的变异位点mutation_j相互独立，那么概率P(mutations_k|target_i)等于该变异位点序列mutations_k中各个变异位点概率的乘积，即可得到：

其中，M_k表示该变异位点序列mutations_k中变异位点数量。

对于一个待分类的变异位点序列mutations_c，记其中变异位点数量为D，则分类公式可以表示如下：

利用公式(5)分别计算出每个分类target_i对应的分类评价值R_i，其中最大值对应的分类即为该变异位点序列mutations_c最可能的分类，即分类

由于mtDNA的分类较多，分类的时间复杂度较大，因此本实施例中根据mtDNA数据的特点，对上述全球人类mtDNA发育树的朴素贝叶斯模型进行优化，以提高计算效率和准确度。

由于小概率事件具有较大信息熵，因此认为在整个mtDNA树中，出现次数少的变异位点mutation应该具有较高的权重。因此，可以加入权重参数来对全球人类mtDNA发育树的朴素贝叶斯模型进行优化，得到加权朴素贝叶斯模型。其中权重可以表示如下：

其中mutation_j.n表示变异位点mutation_j出现的总次数，则

即为

由于mutation_j.n取值范围为[1,T]，计算可得

值的范围为[0,log₂T]。然而这个公式存在两个问题：(1)对值为0的数据需要特殊处理；(2)对不同的变异位点，权值变化太大，对最终的计算影响太大。因此对公式(6)进行修改，得到如下公式：

此时权重值的范围为[1,log₂(1+T)]，实验结果表明此结果可以区分不同变异位点的重要程度，同时不会让重要程度较低的变异位点因计算值很低而被忽略。

加入权值后，变异位点mutation_j在target_i中出现的概率可修改为：

假如输入的变异位点序列mutations_k不在target_i拥有的变异位点序列中，那么对于该变异位点序列mutations_k中的每个变异位点mutation_m，其

的值将会是0，这将导致最后的计算结果

的值为0，显然不合理。一般处理存在概率为0的情况，需要用到拉普拉斯平滑，可以使得所有的概率值均大于0。根据该原理，将公式(8)进一步修改得到公式(9)：

由于W(mutation_j)≥1，因此只要target_i.mutation_j.n≥1，上式大于等于1；而当target_i.mutation_j.n＝0时，上式小于1(但大于0)。这也意味着，在最后的计算结果

中，某个mutation_m在target_i中出现(即target_i.mutation_m.n≥1)，会让R_i增大；mutation_m未在target_i中出现，则会让R_i减小。

经过上述优化，本实施例中加权朴素贝叶斯分类器的参数计算公式如下：

S104：分类查询：

经过实验发现，单独使用神经网络分类器或朴素贝叶斯分类器进行mtDNA发育树分类查询，其准确率都不太理想，因此本发明借鉴了集成学习的思想，在对mtDNA数据进行分类查询时，采用神经网络分类器和朴素贝叶斯分类器合作进行分类查询。图7是本发明中分类查询的流程图。如图7所示，本发明中分类查询的具体步骤包括：

S701：神经网络分类器分类：

将待分类查询的mtDNA的变异位点序列mutations_c输入神经网络分类器，得到前Q个可能分类，记该变异位点序列mutations_c属于这Q个可能分类的概率为α_q，查询得到这Q个可能分类对应的变异位点序列，其中q＝1,2,…,Q。

S702：生成朴素贝叶斯分类器输入：

将待分类查询的变异位点序列与这Q个可能分类所对应的变异位点序列合并得到变异位点序列mutations′_c，即将变异位点序列视为变异位点集合，对这些结合求并集。计算变异位点序列mutations′_c中各个变异位点的权重ω_d：

其中，d＝1,2,…,D，D表示待分类查询的变异位点序列mutations_c中变异位点数量，β_d,c表示变异位点序列mutations′_c中第d个变异位点是否属于变异位点序列mutations_c，如果是β_d,c＝1，否则β_d,c＝0；β_d,q表示变异位点序列mutations′_c中第d个变异位点是否属于Q个可能分类中第q个分类，如果是β_d,q＝1，否则β_d,q＝0。

假设待分类查询的mtDNA的变异位点序列有3个变异位点(x1,x2,x3)。经过神经网络预测得到前3个分类，α₁＝60％、α₂＝21％、α₃＝12％，对应的变异位点序列分别为(x1,x2,x3,x4),(x1,x3,x5,x6),(x1,x2,x7,x8)，合并得到的变异位点序列为(x1,x2,x3,x4,x5,x6,x7,x8)，x1的权重为ω₁＝1+60％+21％+12％＝193％，以此类推，其他各个变异位点的权重分别为ω₂＝1+60％+12％＝172％、ω₃＝1+60％+21％＝181％、ω₄＝60％、ω₅＝21％、ω₆＝21％、ω₇＝12％、ω₈＝12％。

S703：朴素贝叶斯分类器分类：

将变异位点序列mutations′_c及D个权重ω_d输入朴素贝叶斯分类器。由于本发明中朴素贝叶斯分类器输入的变异位点序列mutations′_c外，还包含了变异位点序列mutations′_c中每个变异位点的权重，因此需要分类评价值R_i的计算公式进行适应性的修改。

此外，分析mtDNA数据发现，由于分类target的属性具有继承关系，会出现大量相似的分类target。需要寻找的分类target，应该是尽可能满足变异位点序列的同时，包含尽量少的信息。这里可以简单的使用信息的长短(即变异位点的数量)来判断信息量大小，综合考虑后，采用

作为权值。由于这个值的范围是(0,1]，某些情况下，这个权值的影响太大，将其修改为

基于该权值对P(target_i|mutations_k)的计算公式进行修改，得到计算公式如下：

则分类评价值R_i的计算公式为：

将变异位点序列mutations′_c及D个权重ω_d输入朴素贝叶斯分类器，根据公式(14)计算每个分类target_i对应的分类评价值R_i，将分类评价值R_i进行降序排列，取前Q个可能分类，记变异位点序列mutations′_c属于这Q个可能分类的概率为α′_q。

S704：获取最终分类：

按照预设权重对步骤S701和步骤S703得到的两组Q个可能分类的概率进行加权，按照加权概率从大到小输出前Q个可能分类。加权概率

的计算公式如下：

其中，g＝1,2,…,G，G表示神经网络分类器和朴素贝叶斯分类器得到的所有可能分类数量。由于两种分类器得到的前Q个可能分类不一定全部相同，因此G≥Q。λ表示预设的权重，取值范围为0＜λ＜1。α_g、α′_g分别表示第g个分类在神经网络分类器和朴素贝叶斯分类器分类结果中的概率，如果第g个分类不在神经网络分类器或朴素贝叶斯分类器的前Q个可能分类中，则α_g或α′_g等于0。

根据以上描述可知，本发明采用不同训练数据训练出神经网络分类器和朴素贝叶斯分类器，然后将这两个分类器结合进行分类查询。在分类查询的过程中，可能得到的分类并非最为理想的分类。因此为了对分类模型进行持续性学习，不断提高分类准确率，还可以进行增量学习。本实施例中增量学习分为两种方式：

(1)分类查询过程中增量学习：

当某个mtDNA数据进行分类查询后，输出其前Q个可能分类及每个分类的概率，人工判断概率最高的分类是否是正确分类，如果正确则不作任何操作，如果不正确，则从剩余可能分类中指定正确分类，按照这个正确分类更新计算朴素贝叶斯分类器参数时所使用的数据，更新朴素贝叶斯分类器的参数。

(2)本地数据增量学习：

如果获得了mtDNA数据，或全球人类mtDNA发育树系谱图存在更新，即采用新的变异位点序列及对应分类更新计算朴素贝叶斯分类器参数时所使用的数据，更新朴素贝叶斯分类器的参数。

为了更好地说明本发明的技术效果，采用具体数据对本发明进行了实验验证。本次实验采用普通PC机，操作系统采用64位的Ubuntu 14.10，主要软件环境为python2.7，tensorflow0.8，CPU为Intel Core i7-3770 3.40GHz*8，内存为8G(1600MHz)，硬盘为1T。首先根据本实施例选用的训练数据训练得到神经网络分类器和朴素贝叶斯分类器，然后采用测试数据进行分类查询。

此处采用单独的神经网络分类器进行分类查询和单独的朴素贝叶斯分类器进行分类查询作为对比方法，与本发明的技术效果进行对比。图8是本发明和两种对比方法的分类正确率对比图。如图8所示，本次实验验证采用两种测试方式来统计分类正确率，一种是交叉验证方式，一种是普通测试方式。可以看出，本发明的分类正确率优于两种对比方法，可见采用本发明可以有效提高mtDNA的分类正确率。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于集成学习的全球人类mtDNA发育树分类查询方法，其特征在于，包括以下步骤：

其中q＝1,2,…,Q；

将待分类查询的变异位点序列mutations_c与神经网络分类器前Q个可能分类所对应的变异位点序列合并得到变异位点序列mutations′_c，计算变异位点序列修改中各个变异位点的权重ω_d：

按照预设权重对得到的两组Q个可能分类的概率α_q和α′_q进行加权，按照概率从大到小输出前Q个可能分类。

2.根据权利要求1所述的全球人类mtDNA发育树分类查询方法，其特征在于，所述步骤S2中，在对神经网络分类器进行训练之前，先对mtDNA数据进行预处理，其具体方法为：采用哈希算法对mtDNA数据中的每条数据的变异位点序列进行数值化，存入预设长度的数组中，得到变异位点向量，将分类转化为独热向量得到分类向量。

3.根据权利要求2所述的全球人类mtDNA发育树分类查询方法，其特征在于，所述哈希算法为BKDRHash算法。

4.根据权利要求1所述的全球人类mtDNA发育树分类查询方法，其特征在于，所述步骤S4中朴素贝叶斯分类器的概率P(target_i)和概率P(mutation_j|target_i)的计算方法为：

其中，

mutation_j.n表示变异位点mutation_j出现的总次数，target_i.n代表第i个分类target_i出现的次数，target_i.mutation_j.n代表第j个变异位点mutation_j在第i个分类target_i中出现的次数。

5.根据权利要求1所述的全球人类mtDNA发育树分类查询方法，其特征在于，还包括对朴素贝叶斯分类器进行增量学习，分为两种方式：

(1)分类查询过程中增量学习：

当某个mtDNA数据进行分类查询后，输出其前Q个可能分类及每个分类的概率，人工判断概率最高的分类是否是正确分类，如果正确则不作任何操作，如果不正确，则从剩余可能分类中指定正确分类，按照这个正确分类更新更新计算朴素贝叶斯分类器参数时所使用的数据，更新朴素贝叶斯分类器的参数；

(2)本地数据增量学习：