CN106529212B - 基于序列依赖频率矩阵的生物序列进化信息提取方法 - Google Patents

基于序列依赖频率矩阵的生物序列进化信息提取方法 Download PDF

Info

Publication number
CN106529212B
CN106529212B CN201610911060.8A CN201610911060A CN106529212B CN 106529212 B CN106529212 B CN 106529212B CN 201610911060 A CN201610911060 A CN 201610911060A CN 106529212 B CN106529212 B CN 106529212B
Authority
CN
China
Prior art keywords
sequence
biological
biological sequence
sdfm
frequency matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610911060.8A
Other languages
English (en)
Other versions
CN106529212A (zh
Inventor
刘滨
陈俊杰
郭明月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201610911060.8A priority Critical patent/CN106529212B/zh
Publication of CN106529212A publication Critical patent/CN106529212A/zh
Application granted granted Critical
Publication of CN106529212B publication Critical patent/CN106529212B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;然后统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到如式(1)所示的序列依赖频率矩阵SDFM。本发明的技术方案考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征,使得统计的概率分布信息包含了序列位点依赖关系信息。

Description

基于序列依赖频率矩阵的生物序列进化信息提取方法
技术领域
本发明属于生物信息学技术领域,尤其涉及一种基于序列依赖频率矩阵的生物序列进化信息提取方法。
背景技术
如何从生物序列中提取更多的进化信息是生物信息学领域中最重要的基础任务之一。基于多序列比对提取出来的表示生物序列的位置特异性打分矩阵PSSM(PositionSpecific Scoring Matrix,位点特异性打分矩阵)是目前常用的一种生物序列进化信息提取技术。多序列比对通过插入空位的方法将两条以上的生物序列对齐。然后PSSM统计多序列比对中不同位置出现的核苷酸(DNA、RNA)或氨基酸(Protein)出现的频率。根据统计的不同位置的概率分布情况发现与序列进化相关的保守区域,从而发现不同序列之间的相似部分和探索导致它们产生共同功能的序列模式,来推断它们在结构和功能上的相似性。
从多序列比对中提取位置特异性打分矩阵PSSM是在序列位点相互独立的假设前提下,基于核苷酸或氨基酸在每一列上出现的频率来计算矩阵中相应位置的打分。然而依据生物序列相邻位点进行独立性检验的结果得知相邻位点的具有相关性的。PSSM没有考虑到生物序列中不同位置的依懒关系,损失了多序列比对中大量的生物进化信息。
随着已知序列与已知结构和功能的生物分子数目之间的差距越来越大,需要更高效且准确的方法来解决生物序列比对的问题,需要从生物序列上提取更多的生物进化信息。现有的方法从生物序列上提取的信息量不够,没有包含生物序列位点的依赖关系信息,影响了比对的有效性和准确性。
发明内容
针对以上技术问题,本发明公开了一种基于序列依赖频率矩阵的生物序列进化信息提取方法,考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征。克服了现有技术PSSM无法提取相邻位置依赖信息的缺陷,本发明改进了已有技术从多序列比对中统计不同位置出现的核苷酸或氨基酸出现的频率的方法,使得统计的概率分布信息包含了序列位点依赖关系信息。
对此,本发明采用的技术方案为:
一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:
步骤S1:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA(multiple sequence alignment,多序列比对);
步骤S2:统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到该生物序列的序列依赖频率矩阵SDFM,所述SDFM为如式(1)所示的Sk×(L-k+1)维的矩阵:
其中,S是生物序列字母表的大小,k表示生物序列子串的长度,Sk表示长度为k的生物序列子串种类的数量,L表示生物序列的长度,矩阵的各个元素为mi,j,ni,j代表第i个生物序列子串在多序列比对MSA的第j列上出现的打分,mi,j的计算公式如下:
其中,ni,j是多序列比对MSA中第i个生物序列子串在第j列上出现的频率,Nj是多序列比对MSA中第j列上所有生物序列子串出现的总频率,bi,j是生物序列子串的背景概率,Bj为第j列上所有bi,j的总和。
其中,对于DNA、RNA,S为4;对于蛋白质,S为20。
进一步的,所述生物序列为基于不同长度生物序列子串生成的多个SDFM组合在一起得到。
进一步的,所述序列比对工具为PSI-BLAST、Clustal或HHblits。
进一步的,所述生物序列为蛋白质、DNA或RNA的生物序列。所述生物序列数据库为蛋白质、DNA或RNA的生物序列数据库。
优选的,所述蛋白质数据库为NRdb90或UniRef50。
本发明还提供了一种如上所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用,其包括:应用所述SDFM,并利用统计信息量方法发现生物序列的保守区域。
本发明还提供了一种如上所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用,其包括:应用所述SDFM,并利用谱-谱比对方法判断两条生物序列的进化关系。
本发明还提供了一种如上所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用,其包括:应用所述SDFM,并利用top-n-grams方法生成伪生物序列。
本发明的有益效果为:
本发明为基于序列依赖频率矩阵SDFM(Sequence-order Dependent FrequencyMatrix,序列依赖频率矩阵)的生物序列进化信息提取方法,其能从生物序列的多序列比对中提取出包含序列位置依赖关系的生物进化信息。该方法可用于DNA、RNA和Protein的生物序列信息提取,并能根据提取的信息可进一步用于序列模体和保守区域识别、分子系统发育分析、蛋白质结构与功能预测和基因识别等方面的研究。
其应用方式包括但不限于,利用统计信息量方法发现生物序列的保守区域,利用谱-谱比对方法判断两条生物序列的进化关系,利用top-n-grams方法生成伪生物序列。
附图说明
图1是本发明一种实施例的蛋白质序列的序列依赖频率矩阵(k=3)的生成过程图。
图2是本发明一种实施例的蛋白质序列的序列依赖频率矩阵的组合示意图。
具体实施方式
下面结合附图,对本发明的较优的实施例作进一步的详细说明。
对任意的生物序列S,首先利用序列比对工具搜索对应的大规模生物序列数据库DB,生成对应的多序列比对MSA。然后用概率统计的方法统计在多序列比对中每个位点生物序列子串kmer出现的频率。任意生物序列的序列依赖频率矩阵SDFM可以表示成一个Sk×(L-k+1)维的矩阵,具体形式如下:
其中,S是生物序列字母表的大小,对于DNA,RNA字母表为4,对于蛋白质字母表大小为20;k表示生物序列子串的长度;Sk表示长度为k的生物序列子串kmer种类的数量;L表示生物序列的长度;mi,j代表第i个生物序列子串kmer在多序列比对MSA的第j列上出现的打分,其具体计算公式如下:
其中,ni,j是多序列比对MSA中第i个生物序列子串kmer在第j列上出现的频率,Nj是多序列比对MSA中第j列上所有生物序列子串kmer出现的总频率。bi,j是生物序列子串的背景概率,即该生物序列子串在大规模生物序列数据库中出现的概率;Bj为第j列上所有bi,j的总和。
实施例1
以蛋白质序列为例,对于任意一条蛋白质序列,首先利用序列比对工具如PSI-BLAST搜索大规模的蛋白质数据库如NRdb90,得到该查询蛋白质的多序列比对MSA。然后统计多序列比对MSA中每个位点上出现长度为3的氨基酸序列子串的频率。如图1所示,每一列的柱状图表示氨基酸子串在该位置出现的概率分布,每一行的标识为氨基酸子串的类型。对于一个长度为L的蛋白质,生成对应的SDFM大小为20k×(L-2)。蛋白质序列的序列依赖频率矩阵k=3的生成过程如图1所示。
当只统计多序列比对中长度为1的生物子串出现的概率,即公式(1)中k=1,序列依赖频率矩阵SDFM矩阵就弱化成原始的位置特异性打分矩阵PSSM。随着k值的增大,SDFM能够包含更多的序列依赖信息。
实施例2
在实施例1的基础上,我们可以把基于不同长度生物序列子串生成的多个SDFM组合在一起,包含更多的生物序列进化信息。以蛋白质的SDFM为例,我们可以把k=1,2,3的SDFM组合成一个矩阵,具体蛋白质序列的序列依赖频率矩阵的组合示意图如图2所示。首先分别生成不同长度生物子串的SDFM,然后按相应的氨基酸位置对齐拼接形成一个更大维度的矩阵。
本发明的技术方案考虑到了生物序列位点间的相互依赖关系,在基于原有的特异性打分矩阵PSSM的基础上增加了生物序列位点依赖关系的信息,采用基于序列依赖频率矩阵SDFM进行生物序列进化信息提取,SDFM是一种从多序列比对中提取出的包含更多生物进化信息的打分矩阵。该方法可用于DNA、RNA和Protein的生物序列信息提取。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其特征在于:其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:
步骤S1:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;
步骤S2:统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到该生物序列的序列依赖频率矩阵SDFM,所述SDFM为如式(1)所示的Sk×(L-k+1)维的矩阵:
其中,S是生物序列字母表的大小,k表示生物序列子串的长度,Sk表示长度为k的生物序列子串种类的数量;L表示生物序列的长度,mi,j代表第i个生物序列子串在多序列比对MSA的第j列上出现的打分,mi,j的计算公式如下:
其中,ni,j是多序列比对MSA中第i个生物序列子串在第j列上出现的频率,Nj是多序列比对MSA中第j列上所有生物序列子串出现的总频率,bi,j是生物序列子串的背景概率,即该生物序列子串在大规模生物序列数据库中出现的概率,Bj为第j列上所有bi,j的总和。
2.根据权利要求1所述的基于序列依赖频率矩阵的生物序列进化信息提取方法,其特征在于:所述生物序列为基于不同长度生物序列子串生成的多个SDFM的组合。
3.根据权利要求1或2所述的基于序列依赖频率矩阵的生物序列进化信息提取方法,其特征在于:对于DNA、RNA,S为4;对于蛋白质,S为20。
4.根据权利要求1或2所述的基于序列依赖频率矩阵的生物序列进化信息提取方法,其特征在于:所述序列比对工具为PSI-BLAST、Clustal或HHblits。
5.根据权利要求1或2所述的基于序列依赖频率矩阵的生物序列进化信息提取方法,其特征在于:所述生物序列为蛋白质、DNA或RNA的生物序列。
6.权利要求1~5任意一项所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用,其特征在于:应用所述SDFM,并利用统计信息量方法发现生物序列的保守区域。
7.权利要求1~5任意一项所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用,其特征在于:应用所述SDFM,并利用谱-谱比对方法判断两条生物序列的进化关系。
8.权利要求1~5任意一项所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用,其特征在于:应用所述SDFM,并利用top-n-grams方法生成伪生物序列。
CN201610911060.8A 2016-10-19 2016-10-19 基于序列依赖频率矩阵的生物序列进化信息提取方法 Expired - Fee Related CN106529212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610911060.8A CN106529212B (zh) 2016-10-19 2016-10-19 基于序列依赖频率矩阵的生物序列进化信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610911060.8A CN106529212B (zh) 2016-10-19 2016-10-19 基于序列依赖频率矩阵的生物序列进化信息提取方法

Publications (2)

Publication Number Publication Date
CN106529212A CN106529212A (zh) 2017-03-22
CN106529212B true CN106529212B (zh) 2019-01-25

Family

ID=58332670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610911060.8A Expired - Fee Related CN106529212B (zh) 2016-10-19 2016-10-19 基于序列依赖频率矩阵的生物序列进化信息提取方法

Country Status (1)

Country Link
CN (1) CN106529212B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176272B (zh) * 2019-04-18 2021-05-18 浙江工业大学 一种基于多序列联配信息的蛋白质二硫键预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845049A (en) * 1996-03-27 1998-12-01 Board Of Regents, The University Of Texas System Neural network system with N-gram term weighting method for molecular sequence classification and motif identification
CN101497924A (zh) * 2008-01-30 2009-08-05 中国农业大学 一种基于间隙谱的生物序列分析方法
CN102750461A (zh) * 2012-06-14 2012-10-24 东北大学 一种可得到完全解的生物序列局部比对方法
CN104881592A (zh) * 2015-02-11 2015-09-02 哈尔滨工业大学深圳研究生院 一种dna序列比对中的打分方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7424369B2 (en) * 2003-04-04 2008-09-09 Board Of Regents, The University Of Texas System Physical-chemical property based sequence motifs and methods regarding same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845049A (en) * 1996-03-27 1998-12-01 Board Of Regents, The University Of Texas System Neural network system with N-gram term weighting method for molecular sequence classification and motif identification
CN101497924A (zh) * 2008-01-30 2009-08-05 中国农业大学 一种基于间隙谱的生物序列分析方法
CN102750461A (zh) * 2012-06-14 2012-10-24 东北大学 一种可得到完全解的生物序列局部比对方法
CN104881592A (zh) * 2015-02-11 2015-09-02 哈尔滨工业大学深圳研究生院 一种dna序列比对中的打分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
生物序列特征信息提取方法及其应用;余宏杰;《中国博士学位论文全文数据库(基础科学辑)》;20131015(第10期);第A006-34页

Also Published As

Publication number Publication date
CN106529212A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
US11335435B2 (en) Identifying ancestral relationships using a continuous stream of input
Zou et al. miRClassify: an advanced web server for miRNA family classification and annotation
CN107168955B (zh) 利用基于词上下文的字嵌入与神经网络的中文分词方法
Sinha et al. A statistical method for finding transcription factor binding sites.
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
Heyne et al. GraphClust: alignment-free structural clustering of local RNA secondary structures
Sul et al. Bacterial community comparisons by taxonomy-supervised analysis independent of sequence alignment and clustering
Zhang et al. Prospects of using DNA barcoding for species identification and evaluation of the accuracy of sequence databases for ticks (Acari: Ixodida)
Liao et al. A new unsupervised binning approach for metagenomic sequences based on n-grams and automatic feature weighting
Louloudis et al. Icfhr 2012 competition on writer identification challenge 1: Latin/greek documents
Bhargava et al. DNA barcoding in plants: evolution and applications of in silico approaches and resources
CN103617203B (zh) 基于查询驱动的蛋白质-配体绑定位点预测方法
CN102929930A (zh) 小样本自动化Web文本数据抽取模板生成与抽取方法
US20180247016A1 (en) Systems and methods for providing assisted local alignment
US20220336050A1 (en) Primer design using indexed genomic information
CN106228035A (zh) 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
Biswal et al. Phylogenetic reconstruction in the Order Nymphaeales: ITS2 secondary structure analysis and in silico testing of maturase k (matK) as a potential marker for DNA bar coding
CN109344233B (zh) 一种中文人名识别方法
Uddin et al. A fast and efficient algorithm for DNA sequence similarity identification
CN106529212B (zh) 基于序列依赖频率矩阵的生物序列进化信息提取方法
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
CN109684460A (zh) 一种基于深度学习的负面网络舆情指数的计算方法及系统
CN106557668A (zh) 基于lf熵的dna序列相似性检验方法
Fu et al. WEDeepT3: predicting type III secreted effectors based on word embedding and deep learning
Fan et al. VIP B arcoding: composition vector‐based software for rapid species identification based on DNA barcoding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190125

Termination date: 20191019