CN108052796B - 基于集成学习的全球人类mtDNA发育树分类查询方法 - Google Patents

基于集成学习的全球人类mtDNA发育树分类查询方法 Download PDF

Info

Publication number
CN108052796B
CN108052796B CN201711426265.8A CN201711426265A CN108052796B CN 108052796 B CN108052796 B CN 108052796B CN 201711426265 A CN201711426265 A CN 201711426265A CN 108052796 B CN108052796 B CN 108052796B
Authority
CN
China
Prior art keywords
classification
mtdna
mutation
data
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711426265.8A
Other languages
English (en)
Other versions
CN108052796A (zh
Inventor
周维
彭旻晟
贾俊燕
王文智
向文坤
张亚平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201711426265.8A priority Critical patent/CN108052796B/zh
Publication of CN108052796A publication Critical patent/CN108052796A/zh
Application granted granted Critical
Publication of CN108052796B publication Critical patent/CN108052796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于集成学习的全球人类mtDNA发育树分类查询方法,采用人工测得的mtDNA数据训练神经网络分类器,采用mtDNA发育树数据计算朴素贝叶斯分类器的参数,将待分类查询的mtDNA的变异位点序列输入神经网络分类器,得到前Q个可能分类,将待分类查询的mtDNA的变异位点序列和前Q个可能分类的所对应的变异位点序列合并得到朴素贝叶斯分类器的输入变异位点序列,并计算得到该输入变异位点序列中各个变异位点的权重,通过朴素贝叶斯分类器得到前Q个可能分类,然后将两组Q个可能分类的概率进行加权,得到前Q个可能分类作为最终分类结果。本发明综合利用神经网络分类器和朴素贝叶斯分类器的优势,提高了全球人类mtDNA发育树分类查询的正确率。

Description

基于集成学习的全球人类mtDNA发育树分类查询方法
技术领域
本发明属于机器学习技术领域,更为具体地讲,涉及一种基于集成学习的全球人类mtDNA发育树分类查询方法。
背景技术
我国是一个人口众多的国家,基于这样的大国基数,并且在历史的长河中各地域不断的交流融合,以及基于地缘关系的隔离和迁徙,逐渐形成了我国多民族的人口特色,为研究者提供了丰富多样的基因宝库。但是如何利用这样的基因宝库来研究人类起源,迁徙,发展以及遗传结构是我们面临的一个问题。对于各族的起源、迁徙和进化的研究不仅是大的科学问题,还涉及到对各自民族的自我认同,都具有重要的人文内涵。
从生物学角度来说,不同种族、不同民族、同一个种族但不属于同一群体之间的差别,其实也可以说成是DNA分子的不同。原因在于线粒体基因组(mtDNA)的改变速度比核DNA快10~20倍,并且具有母系遗传、缺乏重组、mtDNA分子呈环状结构、不易分解等特点,所以可以通过分析这些差异来探讨不同人群的源流和迁移情况,而mtDNA也是在探讨不同人群间的血缘关系和不同人群内遗传分化的一个好的遗传标识。
二十世纪末,随着专家对起源问题的深入研究,mtDNA问题逐渐进入了相关学者的视野。mtDNA主要有三个特点:母系遗传方式严谨、重组方式缺乏、基于群体变异程度大。基于这样的特点,mtDNA为研究人员提供了很好的遗传标记,从而为人类亲缘关系和群体内遗传分化的研究提供了标记基础,进一步推动了这方面的研究。在进入二十一世纪后,研究人员展开了对全球不同国家不同民族的mtDNA序列的分析。基于PCR技术和DNA序列测定技术,如何发掘未知mtDNA信息并且快速地找到个体的mtDNA信息在全球人类mtDNA进化树上所属的分类也显得至关重要。
就目前的全球人类mtDNA发育树分类查询方法而言,由于算法设计的问题,其正确率较低,难以满足实际所需,并且无法更新数据,实用性不足。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于集成学习的全球人类mtDNA发育树分类查询方法,综合利用神经网络分类器和朴素贝叶斯分类器的优势,提高分类查询的准确率。
为实现上述发明目的,本发明基于集成学习的全球人类mtDNA发育树分类查询方法,包括以下步骤:
S1:人工测得若干mtDNA数据,每条数据包含mtDNA的变异位点序列及对应的最有可能的分类,然后获取全球人类mtDNA发育树数据,包括分类信息及每个分类对应的mtDNA变异位点序列;
S2:采用mtDNA数据中的变异位点序列作为输入,对应分类作为期望输出,训练得到神经网络分类器;
S3:采用mtDNA发育树数据计算得到朴素贝叶斯分类器的参数,包括第i个分类targeti出现的概率P(targeti)、第j个变异位点mutationj在第i个分类targeti中出现的概率P(mutationj|targeti),i=1,2,…,T,T表示分类数量,j=1,2,…,M,M表示变异位点数量;
S4:将待分类查询的mtDNA的变异位点序列mutationsc输入神经网络分类器,得到前Q个可能分类,记该变异位点序列mutationsc属于这Q个可能分类的概率为αq,查询得到这Q个可能分类对应的变异位点序列
Figure GDA0003044206240000021
其中q=1,2,…,Q;
将待分类查询的变异位点序列mutationsc与神经网络分类器前Q个可能分类所对应的变异位点序列合并得到变异位点序列mutations′c,计算变异位点序列mutations′c中各个变异位点的权重ωd
Figure GDA0003044206240000022
其中,d=1,2,…,D,D表示待分类查询的变异位点序列mutationsc中变异位点数量,βd,c表示变异位点序列mutations′c中第d个变异位点是否属于变异位点序列mutationsc,如果是βd,c=1,否则βd,c=0;βd,q表示变异位点序列mutations′c中第d个变异位点是否属于Q个可能分类中第q个分类,如果是βd,q=1,否则βd,q=0;
将变异位点序列mutations′c及D个权重ωd输入朴素贝叶斯分类器,根据以下公式计算每个分类targeti对应的分类评价值Ri
Figure GDA0003044206240000031
将分类评价值Ri进行降序排列,取前Q个可能分类,记变异位点序列mutations′c属于这Q个可能分类的概率为α′q
按照预设权重对得到的两组Q个可能分类的概率进行加权,按照概率从大到小输出前Q个可能分类。
本发明基于集成学习的全球人类mtDNA发育树分类查询方法,采用人工测得的mtDNA数据训练得到神经网络分类器,采用mtDNA发育树数据计算得到朴素贝叶斯分类器的参数,将待分类查询的mtDNA的变异位点序列输入神经网络分类器,得到前Q个可能分类,将待分类查询的mtDNA的变异位点序列和前Q个可能分类的所对应的变异位点序列合并得到朴素贝叶斯分类器的输入变异位点序列,并计算得到该输入变异位点序列中各个变异位点的权重,通过朴素贝叶斯分类器得到前Q个可能分类,然后将两组Q个可能分类的概率进行加权,得到前Q个可能分类作为最终分类结果。本发明综合利用神经网络分类器对数据模型的强大抽象表达能力和朴素贝叶斯分类器对稀疏数据的分析能力,提高全球人类mtDNA发育树分类查询的正确率。
附图说明
图1是本发明基于集成学习的全球人类mtDNA发育树分类查询方法的具体实施方式流程图;
图2是mtDNA原始数据示例图;
图3是mtDNA数据示例图;
图4是本实施例中采用的全球人类mtDNA发育树系谱图;
图5是本实施例中全球人类mtDNA发育树数据示例图;
图6是采用BKDRHash算法对变异位点序列数值化的示例图;
图7是本发明中分类查询的流程图;
图8是本发明和两种对比方法的分类正确率对比图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于集成学习的全球人类mtDNA发育树分类查询方法的具体实施方式流程图。如图1所示,本发明全球人类mtDNA发育树分类查询方法,其具体步骤如下。
S101:获取训练数据:
首先人工测得若干mtDNA数据,每条数据包含mtDNA的变异位点序列及对应的最有可能的分类,每个变异位点序列中包含若干个变异位点的具体信息,然后获取全球人类mtDNA发育树数据,包括所有分类及每个分类对应的mtDNA变异位点序列。
本实施例中所采用的mtDNA数据从中国科学院西南生物多样性实验室提供的人类各地区的真实的mtDNA原始数据中选取得到。图2是mtDNA原始数据示例图。如图2所示,每条原始数据中包含简名(Sample Name)、单倍型类群(Haplogroup)、数据段1(HVS-1)、数据段2(HVS-2)和选取的数据段(Start-End)。从图3可以看出,该数据中的DNA序列并不是一条完整的DNA序列,每个位点是在完整DNA序列中抽取的变异位点,是16024-16569/1-576这两段的数据。在选取训练数据时,需要排除分类不明确、突变位点信息有误的数据,然后从每条mtDNA原始数据中整理得到mtDNA的变异位点序列和其对应的最有可能的分类。图3是mtDNA数据示例图。如图3所示,图中mutations表示mtDNA的变异位点序列,target表示分类。
图4是本实施例中采用的全球人类mtDNA发育树系谱图。如图4所示,该全球人类mtDNA发育树存在25个大类,共计5437个target。由于本实施例所采用的变异位点序列是16024-16569/1-576这两段的数据,因此获取全球人类mtDNA发育树每个分类中这两个区域的数据。由于每一个突变点都有相应的父节点、子节点以及兄弟节点,因此根据遗传规律将每一个突变点的父节点和子节点合并到一起。图5是本实施例中全球人类mtDNA发育树数据示例图。
S102:训练神经网络分类器:
采用mtDNA数据中的变异位点序列作为输入,分类作为期望输出,训练得到神经网络分类器。显然,由于本发明中针对的是全球人类mtDNA发育树,神经网络分类器是多类分类器,其分类数为全球人类mtDNA发育树中的分类数量。
本实施例中采用的神经网络是一个三层神经网络,即包含输入层、一个中间隐藏层和输出层,隐藏层与输出层之间采用Softmax回归模型。神经网络分类器是一种较为常用的分类器,其具体结构和训练过程在此不再赘述。
由于本发明中不同mtDNA数据中变异位点的数量不一定一致,如果直接采用原始数据进行神经网络训练对硬件要求较高,时间复杂度也较高,为了解决这一问题,在进行神经网络分类器训练之前,可以对mtDNA数据进行预处理,其具体方法为:采用哈希算法对每条数据的变异位点序列进行数值化,存入预设长度的数组中,得到变异位点向量,将分类转化为独热(one hot)向量得到分类向量。
哈希算法有很多类别,经实验发现,针对本发明的应用场景,BKDRHash算法的效果较好,因此本实施例中采用BKDRHash算法来对变异位点序列进行数值化。图6是采用BKDRHash算法对变异位点序列数值化的示例图。如图6所示,以图2中第1个HSV-1数据段“126 233 234 290 319 519”为例,经BKDRHash算法数值化后得到一个数组,从而得到变异位点向量。
S103:计算朴素贝叶斯分类器参数:
对于全球人类mtDNA发育树数据,由于其数据量较大,本发明选用朴素贝叶斯分类器对其进行处理,以降低整个分类查询方法的复杂度。朴素贝叶斯算法(Naive BayesAlgorithm)是一类很容易理解并实现的基于特征条件独立假设与贝叶斯定理的分类算法,朴素贝叶斯的基本思想也是很简明易懂的:提供一个待分类项,然后求解这个分类项存在的状态下各类别出现的比例是多少,比例较高的类别便是要求解的分类项所属的类别。
对于如图4所示的全球人类mtDNA发育树数据而言,整棵mtDNA发育树共有5437个分类target,每个分类target中含有一个变异位点序列mutations,该变异位点序列mutations即为target的特征向量。朴素贝叶斯分类器的主要思想是通过统计的方式计算出每个训练样本的特征属性对应的分类的频率,即在采用加权朴素贝叶斯分类器进行分类时,输入一条变异位点序列mutations,将这个变异位点序列mutations和各个分类target对应的变异位点序列mutations对比,用朴素贝叶斯方法计算概率并分类。
针对本发明中的全球人类mtDNA发育树,其在朴素贝叶斯中最基本的模型如下:
Figure GDA0003044206240000061
Figure GDA0003044206240000062
Figure GDA0003044206240000063
其中公式(1)中P(targeti)为第i个分类targeti出现的概率,targeti.n代表第i个分类targeti出现的次数,i=1,2,…,T,T表示分类数量,N代表所有分类出现的总次数,即训练数据总条数。
公式(2)中P(mutationj|targeti)为第j个变异位点mutationj在第i个分类targeti中出现的概率,j=1,2,…,M,M表示变异位点数量,其中targeti.mutationj.n代表第j个变异位点mutationj在第i个分类targeti中出现的次数。
P(targeti)和P(mutationj|targeti)即本发明朴素贝叶斯分类器所需要计算的参数。
根据贝叶斯公式P(A|B)*P(B)=P(B|A)*P(A)可以得到
Figure GDA0003044206240000064
使用第k个变异位点序列mutationsk和分类targeti替换这里的A和B,可以得到公式(3),P(targeti|mutationsk)表示当变异位点序列mutationsk所有变异位点同时出现时分类为targeti的概率,P(mutationsk|targeti)表示变异位点序列mutationsk所有变异位点同时在分类targeti中出现的概率,P(mutationsk)表示变异位点序列mutationsk所有变异位点同时出现的概率。k=1,2,…,K,K表示变异位点序列数量。
这里,假设计算的变异位点mutationj相互独立,那么概率P(mutationsk|targeti)等于该变异位点序列mutationsk中各个变异位点概率的乘积,即可得到:
Figure GDA0003044206240000071
其中,Mk表示该变异位点序列mutationsk中变异位点数量。
对于一个待分类的变异位点序列mutationsc,记其中变异位点数量为D,则分类公式可以表示如下:
Figure GDA0003044206240000072
利用公式(5)分别计算出每个分类targeti对应的分类评价值Ri,其中最大值对应的分类即为该变异位点序列mutationsc最可能的分类,即分类
Figure GDA0003044206240000077
由于mtDNA的分类较多,分类的时间复杂度较大,因此本实施例中根据mtDNA数据的特点,对上述全球人类mtDNA发育树的朴素贝叶斯模型进行优化,以提高计算效率和准确度。
由于小概率事件具有较大信息熵,因此认为在整个mtDNA树中,出现次数少的变异位点mutation应该具有较高的权重。因此,可以加入权重参数来对全球人类mtDNA发育树的朴素贝叶斯模型进行优化,得到加权朴素贝叶斯模型。其中权重可以表示如下:
Figure GDA0003044206240000073
其中mutationj.n表示变异位点mutationj出现的总次数,则
Figure GDA0003044206240000074
即为
Figure GDA0003044206240000075
由于mutationj.n取值范围为[1,T],计算可得
Figure GDA0003044206240000076
值的范围为[0,log2T]。然而这个公式存在两个问题:(1)对值为0的数据需要特殊处理;(2)对不同的变异位点,权值变化太大,对最终的计算影响太大。因此对公式(6)进行修改,得到如下公式:
Figure GDA0003044206240000081
此时权重值的范围为[1,log2(1+T)],实验结果表明此结果可以区分不同变异位点的重要程度,同时不会让重要程度较低的变异位点因计算值很低而被忽略。
加入权值后,变异位点mutationj在targeti中出现的概率可修改为:
Figure GDA0003044206240000082
假如输入的变异位点序列mutationsk不在targeti拥有的变异位点序列中,那么对于该变异位点序列mutationsk中的每个变异位点mutationm,其
Figure GDA0003044206240000083
的值将会是0,这将导致最后的计算结果
Figure GDA0003044206240000084
的值为0,显然不合理。一般处理存在概率为0的情况,需要用到拉普拉斯平滑,可以使得所有的概率值均大于0。根据该原理,将公式(8)进一步修改得到公式(9):
Figure GDA0003044206240000085
由于W(mutationj)≥1,因此只要targeti.mutationj.n≥1,上式大于等于1;而当targeti.mutationj.n=0时,上式小于1(但大于0)。这也意味着,在最后的计算结果
Figure GDA0003044206240000086
中,某个mutationm在targeti中出现(即targeti.mutationm.n≥1),会让Ri增大;mutationm未在targeti中出现,则会让Ri减小。
经过上述优化,本实施例中加权朴素贝叶斯分类器的参数计算公式如下:
Figure GDA0003044206240000087
Figure GDA0003044206240000091
Figure GDA0003044206240000092
S104:分类查询:
经过实验发现,单独使用神经网络分类器或朴素贝叶斯分类器进行mtDNA发育树分类查询,其准确率都不太理想,因此本发明借鉴了集成学习的思想,在对mtDNA数据进行分类查询时,采用神经网络分类器和朴素贝叶斯分类器合作进行分类查询。图7是本发明中分类查询的流程图。如图7所示,本发明中分类查询的具体步骤包括:
S701:神经网络分类器分类:
将待分类查询的mtDNA的变异位点序列mutationsc输入神经网络分类器,得到前Q个可能分类,记该变异位点序列mutationsc属于这Q个可能分类的概率为αq,查询得到这Q个可能分类对应的变异位点序列,其中q=1,2,…,Q。
S702:生成朴素贝叶斯分类器输入:
将待分类查询的变异位点序列与这Q个可能分类所对应的变异位点序列合并得到变异位点序列mutations′c,即将变异位点序列视为变异位点集合,对这些结合求并集。计算变异位点序列mutations′c中各个变异位点的权重ωd
Figure GDA0003044206240000093
其中,d=1,2,…,D,D表示待分类查询的变异位点序列mutationsc中变异位点数量,βd,c表示变异位点序列mutations′c中第d个变异位点是否属于变异位点序列mutationsc,如果是βd,c=1,否则βd,c=0;βd,q表示变异位点序列mutations′c中第d个变异位点是否属于Q个可能分类中第q个分类,如果是βd,q=1,否则βd,q=0。
假设待分类查询的mtDNA的变异位点序列有3个变异位点(x1,x2,x3)。经过神经网络预测得到前3个分类,α1=60%、α2=21%、α3=12%,对应的变异位点序列分别为(x1,x2,x3,x4),(x1,x3,x5,x6),(x1,x2,x7,x8),合并得到的变异位点序列为(x1,x2,x3,x4,x5,x6,x7,x8),x1的权重为ω1=1+60%+21%+12%=193%,以此类推,其他各个变异位点的权重分别为ω2=1+60%+12%=172%、ω3=1+60%+21%=181%、ω4=60%、ω5=21%、ω6=21%、ω7=12%、ω8=12%。
S703:朴素贝叶斯分类器分类:
将变异位点序列mutations′c及D个权重ωd输入朴素贝叶斯分类器。由于本发明中朴素贝叶斯分类器输入的变异位点序列mutations′c外,还包含了变异位点序列mutations′c中每个变异位点的权重,因此需要分类评价值Ri的计算公式进行适应性的修改。
此外,分析mtDNA数据发现,由于分类target的属性具有继承关系,会出现大量相似的分类target。需要寻找的分类target,应该是尽可能满足变异位点序列的同时,包含尽量少的信息。这里可以简单的使用信息的长短(即变异位点的数量)来判断信息量大小,综合考虑后,采用
Figure GDA0003044206240000101
作为权值。由于这个值的范围是(0,1],某些情况下,这个权值的影响太大,将其修改为
Figure GDA0003044206240000102
基于该权值对P(targeti|mutationsk)的计算公式进行修改,得到计算公式如下:
Figure GDA0003044206240000103
则分类评价值Ri的计算公式为:
Figure GDA0003044206240000104
将变异位点序列mutations′c及D个权重ωd输入朴素贝叶斯分类器,根据公式(14)计算每个分类targeti对应的分类评价值Ri,将分类评价值Ri进行降序排列,取前Q个可能分类,记变异位点序列mutations′c属于这Q个可能分类的概率为α′q
S704:获取最终分类:
按照预设权重对步骤S701和步骤S703得到的两组Q个可能分类的概率进行加权,按照加权概率从大到小输出前Q个可能分类。加权概率
Figure GDA0003044206240000111
的计算公式如下:
Figure GDA0003044206240000112
其中,g=1,2,…,G,G表示神经网络分类器和朴素贝叶斯分类器得到的所有可能分类数量。由于两种分类器得到的前Q个可能分类不一定全部相同,因此G≥Q。λ表示预设的权重,取值范围为0<λ<1。αg、α′g分别表示第g个分类在神经网络分类器和朴素贝叶斯分类器分类结果中的概率,如果第g个分类不在神经网络分类器或朴素贝叶斯分类器的前Q个可能分类中,则αg或α′g等于0。
根据以上描述可知,本发明采用不同训练数据训练出神经网络分类器和朴素贝叶斯分类器,然后将这两个分类器结合进行分类查询。在分类查询的过程中,可能得到的分类并非最为理想的分类。因此为了对分类模型进行持续性学习,不断提高分类准确率,还可以进行增量学习。本实施例中增量学习分为两种方式:
(1)分类查询过程中增量学习:
当某个mtDNA数据进行分类查询后,输出其前Q个可能分类及每个分类的概率,人工判断概率最高的分类是否是正确分类,如果正确则不作任何操作,如果不正确,则从剩余可能分类中指定正确分类,按照这个正确分类更新计算朴素贝叶斯分类器参数时所使用的数据,更新朴素贝叶斯分类器的参数。
(2)本地数据增量学习:
如果获得了mtDNA数据,或全球人类mtDNA发育树系谱图存在更新,即采用新的变异位点序列及对应分类更新计算朴素贝叶斯分类器参数时所使用的数据,更新朴素贝叶斯分类器的参数。
为了更好地说明本发明的技术效果,采用具体数据对本发明进行了实验验证。本次实验采用普通PC机,操作系统采用64位的Ubuntu 14.10,主要软件环境为python2.7,tensorflow0.8,CPU为Intel Core i7-3770 3.40GHz*8,内存为8G(1600MHz),硬盘为1T。首先根据本实施例选用的训练数据训练得到神经网络分类器和朴素贝叶斯分类器,然后采用测试数据进行分类查询。
此处采用单独的神经网络分类器进行分类查询和单独的朴素贝叶斯分类器进行分类查询作为对比方法,与本发明的技术效果进行对比。图8是本发明和两种对比方法的分类正确率对比图。如图8所示,本次实验验证采用两种测试方式来统计分类正确率,一种是交叉验证方式,一种是普通测试方式。可以看出,本发明的分类正确率优于两种对比方法,可见采用本发明可以有效提高mtDNA的分类正确率。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种基于集成学习的全球人类mtDNA发育树分类查询方法,其特征在于,包括以下步骤:
S1:人工测得若干mtDNA数据,每条数据包含mtDNA的变异位点序列及对应的最有可能的分类,然后获取全球人类mtDNA发育树数据,包括分类信息及每个分类对应的mtDNA变异位点序列;
S2:采用mtDNA数据中的变异位点序列作为输入,对应分类作为期望输出,训练得到神经网络分类器;
S3:采用mtDNA发育树数据计算得到朴素贝叶斯分类器的参数,包括第i个分类targeti出现的概率P(targeti)、第j个变异位点mutationj在第i个分类targeti中出现的概率P(mutationj|targeti),i=1,2,…,T,T表示分类数量,j=1,2,…,M,M表示变异位点数量;
S4:将待分类查询的mtDNA的变异位点序列mutationsc输入神经网络分类器,得到前Q个可能分类,记该变异位点序列mutationsc属于这Q个可能分类的概率为αq,查询得到这Q个可能分类对应的变异位点序列
Figure FDA0003044206230000011
其中q=1,2,…,Q;
将待分类查询的变异位点序列mutationsc与神经网络分类器前Q个可能分类所对应的变异位点序列合并得到变异位点序列mutations′c,计算变异位点序列修改中各个变异位点的权重ωd
Figure FDA0003044206230000012
其中,d=1,2,…,D,D表示待分类查询的变异位点序列mutationsc中变异位点数量,βd,c表示变异位点序列mutations′c中第d个变异位点是否属于变异位点序列mutationsc,如果是βd,c=1,否则βd,c=0;βd,q表示变异位点序列mutations′c中第d个变异位点是否属于Q个可能分类中第q个分类,如果是βd,q=1,否则βd,q=0;
将变异位点序列mutations′c及D个权重ωd输入朴素贝叶斯分类器,根据以下公式计算每个分类targeti对应的分类评价值Ri
Figure FDA0003044206230000021
将分类评价值Ri进行降序排列,取前Q个可能分类,记变异位点序列mutations′c属于这Q个可能分类的概率为α′q
按照预设权重对得到的两组Q个可能分类的概率αq和α′q进行加权,按照概率从大到小输出前Q个可能分类。
2.根据权利要求1所述的全球人类mtDNA发育树分类查询方法,其特征在于,所述步骤S2中,在对神经网络分类器进行训练之前,先对mtDNA数据进行预处理,其具体方法为:采用哈希算法对mtDNA数据中的每条数据的变异位点序列进行数值化,存入预设长度的数组中,得到变异位点向量,将分类转化为独热向量得到分类向量。
3.根据权利要求2所述的全球人类mtDNA发育树分类查询方法,其特征在于,所述哈希算法为BKDRHash算法。
4.根据权利要求1所述的全球人类mtDNA发育树分类查询方法,其特征在于,所述步骤S4中朴素贝叶斯分类器的概率P(targeti)和概率P(mutationj|targeti)的计算方法为:
Figure FDA0003044206230000022
Figure FDA0003044206230000023
其中,
Figure FDA0003044206230000024
mutationj.n表示变异位点mutationj出现的总次数,targeti.n代表第i个分类targeti出现的次数,targeti.mutationj.n代表第j个变异位点mutationj在第i个分类targeti中出现的次数。
5.根据权利要求1所述的全球人类mtDNA发育树分类查询方法,其特征在于,还包括对朴素贝叶斯分类器进行增量学习,分为两种方式:
(1)分类查询过程中增量学习:
当某个mtDNA数据进行分类查询后,输出其前Q个可能分类及每个分类的概率,人工判断概率最高的分类是否是正确分类,如果正确则不作任何操作,如果不正确,则从剩余可能分类中指定正确分类,按照这个正确分类更新更新计算朴素贝叶斯分类器参数时所使用的数据,更新朴素贝叶斯分类器的参数;
(2)本地数据增量学习:
如果获得了mtDNA数据,或全球人类mtDNA发育树系谱图存在更新,即采用新的变异位点序列及对应分类更新计算朴素贝叶斯分类器参数时所使用的数据,更新朴素贝叶斯分类器的参数。
CN201711426265.8A 2017-12-26 2017-12-26 基于集成学习的全球人类mtDNA发育树分类查询方法 Active CN108052796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711426265.8A CN108052796B (zh) 2017-12-26 2017-12-26 基于集成学习的全球人类mtDNA发育树分类查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711426265.8A CN108052796B (zh) 2017-12-26 2017-12-26 基于集成学习的全球人类mtDNA发育树分类查询方法

Publications (2)

Publication Number Publication Date
CN108052796A CN108052796A (zh) 2018-05-18
CN108052796B true CN108052796B (zh) 2021-07-13

Family

ID=62131320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711426265.8A Active CN108052796B (zh) 2017-12-26 2017-12-26 基于集成学习的全球人类mtDNA发育树分类查询方法

Country Status (1)

Country Link
CN (1) CN108052796B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019241948A1 (zh) * 2018-06-21 2019-12-26 云南大学 非编码rna的电化学传感器的制备方法及其应用
CN110796153B (zh) * 2018-08-01 2023-06-20 阿里巴巴集团控股有限公司 一种训练样本的处理方法、装置
CN114512185B (zh) * 2022-01-13 2024-04-05 湖南大学 一种变异数据降维输入的驴种群自然选择分类系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256641A (zh) * 2008-03-11 2008-09-03 浙江大学 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法
CN101320404A (zh) * 2007-06-06 2008-12-10 中国科学院半导体研究所 一种生物病毒的计算机自动分类方法
CN101847179A (zh) * 2010-04-13 2010-09-29 中国疾病预防控制中心病毒病预防控制所 通过模型预测流感抗原的方法及应用
CN101901345A (zh) * 2009-05-27 2010-12-01 复旦大学 一种差异蛋白质组学的分类方法
CN104573013A (zh) * 2015-01-09 2015-04-29 上海大学 结合类别权重的集成学习分类方法
CN105095494A (zh) * 2015-08-21 2015-11-25 中国地质大学(武汉) 一种对分类数据集进行测试的方法
CN106503196A (zh) * 2016-10-26 2017-03-15 云南大学 云环境下可扩展存储索引结构的构建和查询方法
CN107301323A (zh) * 2017-08-14 2017-10-27 安徽医科大学第附属医院 一种与银屑病相关的分类模型的构建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320404A (zh) * 2007-06-06 2008-12-10 中国科学院半导体研究所 一种生物病毒的计算机自动分类方法
CN101256641A (zh) * 2008-03-11 2008-09-03 浙江大学 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法
CN101901345A (zh) * 2009-05-27 2010-12-01 复旦大学 一种差异蛋白质组学的分类方法
CN101847179A (zh) * 2010-04-13 2010-09-29 中国疾病预防控制中心病毒病预防控制所 通过模型预测流感抗原的方法及应用
CN104573013A (zh) * 2015-01-09 2015-04-29 上海大学 结合类别权重的集成学习分类方法
CN105095494A (zh) * 2015-08-21 2015-11-25 中国地质大学(武汉) 一种对分类数据集进行测试的方法
CN106503196A (zh) * 2016-10-26 2017-03-15 云南大学 云环境下可扩展存储索引结构的构建和查询方法
CN107301323A (zh) * 2017-08-14 2017-10-27 安徽医科大学第附属医院 一种与银屑病相关的分类模型的构建方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Mitochondrial DNA sequence variation in Finnish patients with matrilineal diabetes mellitus;Heidi K Soini等;《BMC Res Notes》;20120710;1-12 *
基于人类线粒体基因功能网络的 线粒体蛋白功能预测;赵培虎等;《四川大学学报(自然科学版)》;20130328;第50卷(第2期);391-398 *
基于特征加权的朴素贝叶斯分类器;程克非等;《计算机仿真》;20061030;第23卷(第10期);92-94、150 *
基于贝叶斯分类算法的木马程序流量识别方法;张鑫等;《第 27 次全国计算机安全学术交流会论文集》;20120820;115-117 *
改善朴素贝叶斯在文本分类中的稳定性;石志伟等;《NCIRCS2004第一届全国信息检索与内容安全学术会议论文集中国中文信息学会会议论文集》;20041101;137-146 *
数据挖掘方法本体研究;邹力鹍等;《计算机科学》;20050323;第32卷(第03期);197-199 *
线粒体DNA在分子进化研究中的应用;陈星等;《动物学研究》;20120630;第33卷(第06期);566-573 *
集成学习算法在增量学习中的应用研究;文益民等;《万方数据》;20070130;222-227 *

Also Published As

Publication number Publication date
CN108052796A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
Duò et al. A systematic performance evaluation of clustering methods for single-cell RNA-seq data
CN107862179A (zh) 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法
CN108052796B (zh) 基于集成学习的全球人类mtDNA发育树分类查询方法
Li et al. A novel unsupervised Levy flight particle swarm optimization (ULPSO) method for multispectral remote-sensing image classification
CN107480441B (zh) 一种儿童脓毒性休克预后预测的建模方法及系统
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
Boogaard et al. Improved point-cloud segmentation for plant phenotyping through class-dependent sampling of training data to battle class imbalance
Balamurugan et al. A new hybrid cuckoo search algorithm for biclustering of microarray gene-expression data
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
Cao et al. Link weight prediction using weight perturbation and latent factor
CN108388769A (zh) 基于边驱动的标签传播算法的蛋白质功能模块识别方法
Shao et al. Reference-free cell-type annotation for single-cell transcriptomics using deep learning with a weighted graph neural network
Maitra et al. UMINT: unsupervised neural network for single cell multi-omics integration
Upadhyay et al. Exploratory Data Analysis and Prediction of Human Genetic Disorder and Species Using DNA Sequencing
Jayasurya et al. Feature selection for microarray data using WGCNA based fuzzy forest in map reduce paradigm
Bhat et al. OTU clustering: A window to analyse uncultured microbial world
Mahapatra et al. Gene Selection Using Integrative Analysis of Multi‐Level Omics Data: A Systematic Review
Li et al. An interpretable Bayesian clustering approach with feature selection for analyzing spatially resolved transcriptomics data
Dutta et al. Identifying dynamical persistent biomarker structures for rare events using modern integrative machine learning approach
Novoselova et al. Optimized leaf ordering with class labels for hierarchical clustering
Saadati et al. Mining children ever born data; classification tree approach
van Dongen Fast multi-resolution consensus clustering
WO2023044931A1 (zh) Rna-蛋白质相互作用预测方法、装置、介质及电子设备
Wang et al. Model-Based Clustering of Single-Cell Omics Data
Gao et al. Unified cross-modality integration and analysis of T-cell receptors and T-cell transcriptomes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant