CN101320404B - 一种生物病毒的计算机自动分类方法 - Google Patents

一种生物病毒的计算机自动分类方法 Download PDF

Info

Publication number
CN101320404B
CN101320404B CN200710100246A CN200710100246A CN101320404B CN 101320404 B CN101320404 B CN 101320404B CN 200710100246 A CN200710100246 A CN 200710100246A CN 200710100246 A CN200710100246 A CN 200710100246A CN 101320404 B CN101320404 B CN 101320404B
Authority
CN
China
Prior art keywords
virus
sequence
sample
computer automatic
biological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200710100246A
Other languages
English (en)
Other versions
CN101320404A (zh
Inventor
王守觉
貊睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Semiconductors of CAS
Original Assignee
Institute of Semiconductors of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Semiconductors of CAS filed Critical Institute of Semiconductors of CAS
Priority to CN200710100246A priority Critical patent/CN101320404B/zh
Publication of CN101320404A publication Critical patent/CN101320404A/zh
Application granted granted Critical
Publication of CN101320404B publication Critical patent/CN101320404B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本发明涉及生物信息学技术领域,公开了一种生物病毒的计算机自动分类方法,该方法包括:A、对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;B、对所述特征空间的某类病毒类型样本构建种系进化树;C、根据所述种系进化树反映的同类型病毒样本之间的相互关系,采用超椭球对每类样本子空间进行近似覆盖;D、形成封闭的同类病毒的样本子空间。利用本发明,使利用计算机实现生物病毒的自动分类成为了可能,为病毒的研究提供了更便捷的方式和更广阔的空间,不再必须依靠直接的生物试验。

Description

一种生物病毒的计算机自动分类方法
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种生物病毒的计算机自动分类方法。
背景技术
随着基因组计划的实施,产生了海量生物序列数据,研究如何去组织、分类和分析那些随着基因工程而产生的海量的生物序列数据是一项重要的工作。
虽然确定生物分子结构和功能最可靠的方式依然是通过直接的生物实验,但是因为获得DNA基因序列以及相应的RNA和蛋白质序列比通过生物试验确定它们的结构和功能容易的多,所以研究如何能从这些生物序列获取生物信息的计算方法就变得十分有意义。
长期以来病毒的分类主要依靠形态学方法,随着分子生物学和生物信息学的发展,从分子水平上研究物种进化成为可能,这为研究病毒分类提供了新的途径。
早期的研究工作主要是利用不同物种中同一基因序列的异同或其编码的氨基酸序列的异同来研究生物的进化,以及通过对比不同物种中同一蛋白质的结构来研究生物的进化,取得了相当的成果。因为生物的所有遗传信息都包含在其全基因组序列中,所以如果能从完整基因组的角度来研究物种进化,将会取得更好的效果。
近年来,由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。
目前,最流行的研究病毒进化关系的办法是通过多重序列比对(MSA)的方法。然而使用这种方法无论是去研究全基因组序列还是研究基因序列中编码氨基酸的区域,都有非常明显的缺陷。
如果研究编码区,进行序列分析的时候将被限定在基因序列中特定的区域。为此,我们必须首先知道基因序列中,哪一部分是编码区,而且我们还必须通过主观决定选择哪些区域来比较,选择不同的区域将会产生不同的进化树。如果参与比对的多个序列在长度上差异很大或者序列之间的相似程度很低,都会导致多重序列比对得到的结果质量很差,从而产生不可信的进化树。病毒在进化过程中通常会有基因重组的现象出现,这进一步使得多重序列比对的结果变得不可信。更重要的是,对很长的序列进行多序列比对,计算时间复杂度将会非常大,在实际中经常是不可能实现的。
尽管多重序列比对方法有可能为病毒种系分析提供很好的基准,它却不适于被用来研究病毒分类问题,因为构建多重序列比对本身就是一个让人困惑的问题。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于提供一种生物病毒的计算机自动分类方法,使利用计算机实现生物病毒的自动分类成为可能,为病毒的研究提供更便捷的方式和更广阔的空间。
(二)技术方案
为达到上述目的,本发明提供了一种生物病毒的计算机自动分类方法,该方法包括:
A、对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;
B、对所述特征空间的某类病毒类型样本构建种系进化树;
C、根据所述种系进化树反映的同类型病毒样本之间的相互关系,采用超椭球对每类样本子空间进行近似覆盖;
D、形成封闭的同类病毒的样本子空间。
上述方案中,所述步骤A包括:通过统计多核苷酸出现频率及全基因组序列长度,将不同长度的病毒全基因组序列映射到同一特征空间中。
上述方案中,所述步骤B包括:通过计算病毒在特征空间的欧式距离,近似描述同类病毒在进化上的远近关系。
上述方案中,所述步骤C包括:按照构建的种系进化树关系,采用超椭球这一几何形体对该类病毒样本子空间进行近似覆盖。
上述方案中,所述步骤D包括:所有映射点落在这个封闭子空间里的病毒都属于同一类,而映射点落在封闭子空间以外的病毒都属于其它类。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
1、本发明提出了基于序列特征来进行全基因组序列比较的方法,使利用计算机实现生物病毒的自动分类成为了可能,为病毒的研究提供了更便捷的方式和更广阔的空间,不再必须依靠直接的生物试验。
2、利用本发明,只需知道病毒的全基因组序列即可,这在病毒研究中几乎是最容易获得的数据。
3、利用本发明,通过训练样本得到的样本子空间是一个封闭的有限空间,这符合知道的是“有限的”,未知的是“无限的”这一基本事实。
4、利用本发明,在构建某一类病毒的识别系统的时候,只用到了本类的样本,这就保证了,在继续往系统中添加新的需要识别的病毒类的时候,不用改变以前已经构建好的部分,这是一个可以增量学习的分类系统。
附图说明
图1为本发明提供的生物病毒的计算机自动分类的方法流程图;
图2为依照本发明实施例对序列进行特征提取的示意图;
图3为依照本发明实施例生成的进化树的示意图;
图4为依照本发明实施例对样本子空间进行近似覆盖的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,图1为本发明提供的生物病毒的计算机自动分类的方法流程图,该方法包括以下步骤:
步骤101:对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;
步骤102:对所述特征空间的某类病毒类型样本构建种系进化树;
步骤103:根据所述种系进化树反映的同类型病毒样本之间的相互关系,采用超椭球对每类样本子空间进行近似覆盖;
步骤104:形成封闭的同类病毒的样本子空间。
上述步骤101包括:通过统计多核苷酸出现频率及全基因组序列长度,将不同长度的病毒全基因组序列映射到同一特征空间中。
如图2所示,图2为依照本发明实施例对序列进行特征提取的示意图。对于一个长度为n的病毒全基因序列,它是由字符集A={a,g,c,t}构成的字符序列,这个字符集的长度是r=4。设L-tuple代表一个由字符集A构成的长度为L的片断序列,满足L<N。L-tuple所有可能的值组成的集合W???L可以描绘如下:
WL={WL1,WL2...,WLK}
其中K满足下式:
K=rL
选择一个长度为L的窗口(长度为L指的是该窗口能容下的最多字符数)从序列的起始段开始以步长为S的速度向后滑动,直到(n-L-S+1)th的位置为止(满足n-L-S+1>0)。通过这种方法我们可以得到:
M = [ n - L - 1 S ]
个序列片断L-tuple,其中运算符号“[]”表示向上取整,而且这M个L-tuple都是属于集合WL的元素。如果依次对WL中元素的出现次数做个统计,可以得到如下结果:
C L X = ( C L , 1 X , . . . . . . , C L , K X )
使用出现频率描述可以得到
Figure S071A0246620070706D000043
f L X = C L X &Sigma; j = 1 K c L , j X < = > f L , i X = C L , i X n - L + 1
这样我们便得到了序列X的有关集合WL中K个元素出现的频率,用它们作为元素X的K个特征,再加上序列中含有的核苷酸数量这一特征,就可以把冠状病毒全基因组序列X映射到这个K+1维的特征空间了。
上述步骤102包括:通过计算病毒在特征空间的欧式距离,近似描述同类病毒在进化上的远近关系。
上述步骤103包括:按照构建的种系进化树关系,采用超椭球这一几何形体对该类病毒样本子空间进行近似覆盖。
上述步骤104包括:所有映射点落在这个封闭子空间里的病毒都属于同一类,而映射点落在封闭子空间以外的病毒都属于其它类。
基于上述图1所示的生物病毒的计算机自动分类的方法流程图,以下将本发明提供的方法应用于研究“疱疹病毒科病毒”的分类问题。使用从GenBank获得的病毒数据库做为研究对象,在该数据库中共有1077个病毒的全基因组序列,其中疱疹病毒科病毒有27个。我们取其中的14个作为已知病毒(具体信息见表1),将其作为训练样本。
Figure S071A0246620070706D000051
表1 14个疱疹病毒科病毒的有关信息
首先我们按照方法的第一步研究三核苷酸的出现频率,从而得到K=rL=43,即64维特征,再加上核苷酸的总数共得到病毒序列的65个特征。通过得到的特征向量,我们研究得到这14个疱疹病毒科病毒的种系进化树(如图3所示)。之后我们按照种系进化树所描述的样本关系,采用超椭球神经元对样本子空间进行覆盖(如图4所示),从而得到疱疹病毒科病毒样本空间的一个近似覆盖,这就是我们得到的封闭的疱疹病毒科病毒的样本子空间。构建好这个疱疹病毒科病毒的分类系统后,我们通过数据库中剩下的1063个病毒来测试系统的效率。这1063个病毒中,还有13个是疱疹病毒科本类的病毒,其它的都是异类病毒,试验的结果如表2所示,其中对本类病毒的正确识别率达到了100%,而对异类病毒的正确拒识率达到了96.58%。
 
正确识别率 错误识别率 错误拒识率 正确拒识率
100% 0% 3.42% 96.58%
表2 本发明方法用于疱疹病毒科病毒分类的试验结果
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种生物病毒的计算机自动分类方法,其特征在于,该方法包括:
A、根据长度为N的基因全序列字符集中K种片段序列出现的频率作为K个特征,再加上全基因组序列长度这一特征,将全基因组序列映射到K+1维的同一特征空间;
B、对所述特征空间的某类病毒类型样本构建种系进化树;
C、根据所述种系进化树反映的同类型病毒样本之间的相互关系,采用超椭球对每类样本子空间进行近似覆盖;
D、形成封闭的同类病毒的样本子空间,所有映射点落在这个封闭子空间里的病毒都属于同一类,而映射点落在封闭子空间以外的病毒都属于其它类。
2.根据权利要求1所述的生物病毒的计算机自动分类方法,其特征在于,所述步骤B包括:
通过计算病毒在特征空间的欧式距离,近似描述同类病毒在进化上的远近关系。
3.根据权利要求1所述的生物病毒的计算机自动分类方法,其特征在于,所述步骤C包括:
按照构建的种系进化树关系,采用超椭球这一几何形体对该类病毒样本子空间进行近似覆盖。
CN200710100246A 2007-06-06 2007-06-06 一种生物病毒的计算机自动分类方法 Expired - Fee Related CN101320404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710100246A CN101320404B (zh) 2007-06-06 2007-06-06 一种生物病毒的计算机自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710100246A CN101320404B (zh) 2007-06-06 2007-06-06 一种生物病毒的计算机自动分类方法

Publications (2)

Publication Number Publication Date
CN101320404A CN101320404A (zh) 2008-12-10
CN101320404B true CN101320404B (zh) 2010-05-26

Family

ID=40180450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710100246A Expired - Fee Related CN101320404B (zh) 2007-06-06 2007-06-06 一种生物病毒的计算机自动分类方法

Country Status (1)

Country Link
CN (1) CN101320404B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052796B (zh) * 2017-12-26 2021-07-13 云南大学 基于集成学习的全球人类mtDNA发育树分类查询方法
CN111785328B (zh) * 2020-06-12 2021-11-23 中国人民解放军军事科学院军事医学研究院 基于门控循环单元神经网络的冠状病毒序列识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1833247A (zh) * 2003-08-13 2006-09-13 美国西门子医疗解决公司 为分类引入空间知识
EP1593967A3 (en) * 1998-12-28 2007-04-25 Illumina, Inc. Composite arrays utilising microspheres
CN1952954A (zh) * 2005-10-09 2007-04-25 欧姆龙株式会社 特定被摄体检测装置及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1593967A3 (en) * 1998-12-28 2007-04-25 Illumina, Inc. Composite arrays utilising microspheres
CN1833247A (zh) * 2003-08-13 2006-09-13 美国西门子医疗解决公司 为分类引入空间知识
CN1952954A (zh) * 2005-10-09 2007-04-25 欧姆龙株式会社 特定被摄体检测装置及方法

Also Published As

Publication number Publication date
CN101320404A (zh) 2008-12-10

Similar Documents

Publication Publication Date Title
CN106203377B (zh) 一种煤粉尘图像识别方法
Feldesman Classification trees as an alternative to linear discriminant analysis
Kumar et al. Root phenotyping by root tip detection and classification through statistical learning
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN107292249A (zh) 一种基于结构化分段网络的时间动作检测方法
CN103258147A (zh) 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
CN104946740A (zh) 一种海洋褐潮生物群落结构的检测方法
CN110826624A (zh) 一种基于深度强化学习的时间序列分类方法
CN113593714A (zh) 一种多分类新冠肺炎病例的检测方法、系统、设备及介质
De Stefano et al. Layout measures for writer identification in mediaeval documents
Anaissi et al. Feature selection of imbalanced gene expression microarray data
CN101320404B (zh) 一种生物病毒的计算机自动分类方法
CN106874705B (zh) 基于转录组数据确定肿瘤标记物的方法
Fuda et al. Artificial intelligence in clinical multiparameter flow cytometry and mass cytometry–key tools and progress
Arthur et al. An automated approach to the classification of impact spatter and cast-off bloodstain patterns
CN109448842A (zh) 人体肠道微生态失衡的确定方法、装置及电子设备
CN113160886A (zh) 基于单细胞Hi-C数据的细胞类型预测系统
CN114048320B (zh) 一种基于课程学习的多标签国际疾病分类训练方法
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
CN108960347A (zh) 一种卷积神经网络手写体识别排序稳定性的效果评估系统及方法
Nguyen et al. Efficient and accurate OTU clustering with GPU-based sequence alignment and dynamic dendrogram cutting
JP3936851B2 (ja) クラスタリング結果評価方法及びクラスタリング結果表示方法
Wei et al. A hybrid SOM-SVM method for analyzing zebra fish gene expression
Pfundstein Hidden markov models with generalised emission distribution for the analysis of high-dimensional, non-euclidean data
Varghese Diversity Analysis using R

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20120606