CN106529212B

CN106529212B - 基于序列依赖频率矩阵的生物序列进化信息提取方法

Info

Publication number: CN106529212B
Application number: CN201610911060.8A
Authority: CN
Inventors: 刘滨; 陈俊杰; 郭明月
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2016-10-19
Filing date: 2016-10-19
Publication date: 2019-01-25
Anticipated expiration: 2036-10-19
Also published as: CN106529212A

Abstract

本发明提供了一种基于序列依赖频率矩阵的生物序列进化信息提取方法，其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取，所述SDFM采用以下步骤获得：对于任意的生物序列，首先利用序列比对工具搜索对应的生物序列数据库，生成对应的多序列比对MSA；然后统计在多序列比对MSA中每个位点生物序列子串出现的频率，得到如式（1）所示的序列依赖频率矩阵SDFM。本发明的技术方案考虑到了生物序列中相邻位点的依赖关系，能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征，使得统计的概率分布信息包含了序列位点依赖关系信息。

Description

基于序列依赖频率矩阵的生物序列进化信息提取方法

技术领域

本发明属于生物信息学技术领域，尤其涉及一种基于序列依赖频率矩阵的生物序列进化信息提取方法。

背景技术

如何从生物序列中提取更多的进化信息是生物信息学领域中最重要的基础任务之一。基于多序列比对提取出来的表示生物序列的位置特异性打分矩阵PSSM(PositionSpecific Scoring Matrix，位点特异性打分矩阵)是目前常用的一种生物序列进化信息提取技术。多序列比对通过插入空位的方法将两条以上的生物序列对齐。然后PSSM统计多序列比对中不同位置出现的核苷酸(DNA、RNA)或氨基酸(Protein)出现的频率。根据统计的不同位置的概率分布情况发现与序列进化相关的保守区域，从而发现不同序列之间的相似部分和探索导致它们产生共同功能的序列模式，来推断它们在结构和功能上的相似性。

从多序列比对中提取位置特异性打分矩阵PSSM是在序列位点相互独立的假设前提下，基于核苷酸或氨基酸在每一列上出现的频率来计算矩阵中相应位置的打分。然而依据生物序列相邻位点进行独立性检验的结果得知相邻位点的具有相关性的。PSSM没有考虑到生物序列中不同位置的依懒关系，损失了多序列比对中大量的生物进化信息。

随着已知序列与已知结构和功能的生物分子数目之间的差距越来越大,需要更高效且准确的方法来解决生物序列比对的问题，需要从生物序列上提取更多的生物进化信息。现有的方法从生物序列上提取的信息量不够，没有包含生物序列位点的依赖关系信息，影响了比对的有效性和准确性。

发明内容

针对以上技术问题，本发明公开了一种基于序列依赖频率矩阵的生物序列进化信息提取方法，考虑到了生物序列中相邻位点的依赖关系，能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征。克服了现有技术PSSM无法提取相邻位置依赖信息的缺陷，本发明改进了已有技术从多序列比对中统计不同位置出现的核苷酸或氨基酸出现的频率的方法，使得统计的概率分布信息包含了序列位点依赖关系信息。

对此，本发明采用的技术方案为：

一种基于序列依赖频率矩阵的生物序列进化信息提取方法，其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取，所述SDFM采用以下步骤获得：

步骤S1：对于任意的生物序列，首先利用序列比对工具搜索对应的生物序列数据库，生成对应的多序列比对MSA(multiple sequence alignment，多序列比对)；

步骤S2：统计在多序列比对MSA中每个位点生物序列子串出现的频率，得到该生物序列的序列依赖频率矩阵SDFM，所述SDFM为如式(1)所示的S^k×(L-k+1)维的矩阵：

其中，S是生物序列字母表的大小，k表示生物序列子串的长度，S^k表示长度为k的生物序列子串种类的数量，L表示生物序列的长度，矩阵的各个元素为m_i，j，n_i，j代表第i个生物序列子串在多序列比对MSA的第j列上出现的打分，m_i，j的计算公式如下：

其中，n_i，j是多序列比对MSA中第i个生物序列子串在第j列上出现的频率，N_j是多序列比对MSA中第j列上所有生物序列子串出现的总频率，b_i，j是生物序列子串的背景概率，B_j为第j列上所有b_i,j的总和。

其中，对于DNA、RNA，S为4；对于蛋白质，S为20。

进一步的，所述生物序列为基于不同长度生物序列子串生成的多个SDFM组合在一起得到。

进一步的，所述序列比对工具为PSI-BLAST、Clustal或HHblits。

进一步的，所述生物序列为蛋白质、DNA或RNA的生物序列。所述生物序列数据库为蛋白质、DNA或RNA的生物序列数据库。

优选的，所述蛋白质数据库为NRdb90或UniRef50。

本发明还提供了一种如上所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用，其包括：应用所述SDFM，并利用统计信息量方法发现生物序列的保守区域。

本发明还提供了一种如上所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用，其包括：应用所述SDFM，并利用谱-谱比对方法判断两条生物序列的进化关系。

本发明还提供了一种如上所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用，其包括：应用所述SDFM，并利用top-n-grams方法生成伪生物序列。

本发明的有益效果为：

本发明为基于序列依赖频率矩阵SDFM(Sequence-order Dependent FrequencyMatrix，序列依赖频率矩阵)的生物序列进化信息提取方法，其能从生物序列的多序列比对中提取出包含序列位置依赖关系的生物进化信息。该方法可用于DNA、RNA和Protein的生物序列信息提取，并能根据提取的信息可进一步用于序列模体和保守区域识别、分子系统发育分析、蛋白质结构与功能预测和基因识别等方面的研究。

其应用方式包括但不限于，利用统计信息量方法发现生物序列的保守区域，利用谱-谱比对方法判断两条生物序列的进化关系，利用top-n-grams方法生成伪生物序列。

附图说明

图1是本发明一种实施例的蛋白质序列的序列依赖频率矩阵(k＝3)的生成过程图。

图2是本发明一种实施例的蛋白质序列的序列依赖频率矩阵的组合示意图。

具体实施方式

下面结合附图，对本发明的较优的实施例作进一步的详细说明。

对任意的生物序列S，首先利用序列比对工具搜索对应的大规模生物序列数据库DB，生成对应的多序列比对MSA。然后用概率统计的方法统计在多序列比对中每个位点生物序列子串kmer出现的频率。任意生物序列的序列依赖频率矩阵SDFM可以表示成一个S^k×(L-k+1)维的矩阵，具体形式如下：

其中，S是生物序列字母表的大小，对于DNA,RNA字母表为4，对于蛋白质字母表大小为20；k表示生物序列子串的长度；S^k表示长度为k的生物序列子串kmer种类的数量；L表示生物序列的长度；m_i，j代表第i个生物序列子串kmer在多序列比对MSA的第j列上出现的打分，其具体计算公式如下：

其中，n_i，j是多序列比对MSA中第i个生物序列子串kmer在第j列上出现的频率，N_j是多序列比对MSA中第j列上所有生物序列子串kmer出现的总频率。b_i，j是生物序列子串的背景概率，即该生物序列子串在大规模生物序列数据库中出现的概率；B_j为第j列上所有b_i,j的总和。

实施例1

以蛋白质序列为例，对于任意一条蛋白质序列，首先利用序列比对工具如PSI-BLAST搜索大规模的蛋白质数据库如NRdb90，得到该查询蛋白质的多序列比对MSA。然后统计多序列比对MSA中每个位点上出现长度为3的氨基酸序列子串的频率。如图1所示，每一列的柱状图表示氨基酸子串在该位置出现的概率分布，每一行的标识为氨基酸子串的类型。对于一个长度为L的蛋白质，生成对应的SDFM大小为20^k×(L-2)。蛋白质序列的序列依赖频率矩阵k＝3的生成过程如图1所示。

当只统计多序列比对中长度为1的生物子串出现的概率，即公式(1)中k＝1，序列依赖频率矩阵SDFM矩阵就弱化成原始的位置特异性打分矩阵PSSM。随着k值的增大，SDFM能够包含更多的序列依赖信息。

实施例2

在实施例1的基础上，我们可以把基于不同长度生物序列子串生成的多个SDFM组合在一起，包含更多的生物序列进化信息。以蛋白质的SDFM为例，我们可以把k＝1,2,3的SDFM组合成一个矩阵，具体蛋白质序列的序列依赖频率矩阵的组合示意图如图2所示。首先分别生成不同长度生物子串的SDFM，然后按相应的氨基酸位置对齐拼接形成一个更大维度的矩阵。

本发明的技术方案考虑到了生物序列位点间的相互依赖关系，在基于原有的特异性打分矩阵PSSM的基础上增加了生物序列位点依赖关系的信息，采用基于序列依赖频率矩阵SDFM进行生物序列进化信息提取，SDFM是一种从多序列比对中提取出的包含更多生物进化信息的打分矩阵。该方法可用于DNA、RNA和Protein的生物序列信息提取。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于序列依赖频率矩阵的生物序列进化信息提取方法，其特征在于：其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取，所述SDFM采用以下步骤获得：

步骤S1：对于任意的生物序列，首先利用序列比对工具搜索对应的生物序列数据库，生成对应的多序列比对MSA；

其中，S是生物序列字母表的大小，k表示生物序列子串的长度，S^k表示长度为k的生物序列子串种类的数量；L表示生物序列的长度，m_i，j代表第i个生物序列子串在多序列比对MSA的第j列上出现的打分，m_i，j的计算公式如下：

其中，n_i，j是多序列比对MSA中第i个生物序列子串在第j列上出现的频率，N_j是多序列比对MSA中第j列上所有生物序列子串出现的总频率，b_i，j是生物序列子串的背景概率，即该生物序列子串在大规模生物序列数据库中出现的概率，B_j为第j列上所有b_i,j的总和。

2.根据权利要求1所述的基于序列依赖频率矩阵的生物序列进化信息提取方法，其特征在于：所述生物序列为基于不同长度生物序列子串生成的多个SDFM的组合。

3.根据权利要求1或2所述的基于序列依赖频率矩阵的生物序列进化信息提取方法，其特征在于：对于DNA、RNA，S为4；对于蛋白质，S为20。

4.根据权利要求1或2所述的基于序列依赖频率矩阵的生物序列进化信息提取方法，其特征在于：所述序列比对工具为PSI-BLAST、Clustal或HHblits。

5.根据权利要求1或2所述的基于序列依赖频率矩阵的生物序列进化信息提取方法，其特征在于：所述生物序列为蛋白质、DNA或RNA的生物序列。

6.权利要求1～5任意一项所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用，其特征在于：应用所述SDFM，并利用统计信息量方法发现生物序列的保守区域。

7.权利要求1～5任意一项所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用，其特征在于：应用所述SDFM，并利用谱-谱比对方法判断两条生物序列的进化关系。

8.权利要求1～5任意一项所述的基于序列依赖频率矩阵的生物序列进化信息提取方法的应用，其特征在于：应用所述SDFM，并利用top-n-grams方法生成伪生物序列。