CN1598821A

CN1598821A - 基于特征的基因组序列数据库的搜索方法

Info

Publication number: CN1598821A
Application number: CN 200410041883
Authority: CN
Inventors: 孙啸; 焦典
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2004-09-07
Filing date: 2004-09-07
Publication date: 2005-03-23

Abstract

基于特征的基因组序列数据库的搜索方法，是一种根据序列的统计特征在数据库范围内搜索近似序列的方法搜索方法为：根据序列统计特征间的距离来搜索相似序列，即把不同物种的基因组序列数据的基本信息——即序列在基因库的数据库登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据、以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性统计特征值存储到数据库里；对于客户提交的任何一个基因片段，首先根据客户的要求计算它的一个特征值，再依次计算该序列的特征值与数据库内所有序列的相应特征值之间的距离，比较相似序列；按照距离由小到大，排列显示出数据库里和用户提交的序列最相似的一部分序列。

Description

基于特征的基因组序列数据库的搜索方法

技术领域

本发明是一个基于特征的基因组序列数据库的搜索方法，更确切地说，是一种根据序列的统计特征在数据库范围内搜索近似序列的方法。

背景技术

随着人类基因组计划(HGP)的实施和完成，模式生物(Model Organisms)基因组计划和微生物基因组计划(Microbial Genome Project，MGP)也在进行。目前，结构基因组的工作已基本完成，但是对于整个基因组的研究来说，得到序列仅仅是第一步，对这些象天书一样的序列进行收集、整理、检索，分析序列及其表达蛋白质结构与功能的信息，找出规律，揭开生命的秘密，才是最终目的。这些工作是所谓的后基因组时代(post-genome era)的任务。生物信息学也正是因此而产生和发展起来的一门新兴科学，它在后基因组时代研究中的扮演着至关重要的角色，它的理论和研究将渗透到基因组研究的各个方面。而系统发生分析是整个生物学研究的基础，从新的分子(DNA和蛋白质)的基因组的角度，再次重新研究生物的进化发展，将是一件非常有意义的工作，它是后基因组研究的一个重要组成部分。

所谓基因组序列的特征提取，是指运用数学和信息科学的理论和方法，从天书一样由A、T、C、G四种字符构成的序列中，获取一些体现其特征的具有代表性的信息。通过对这些特征量的计算分析，把数据中隐藏的生物学特征挖掘出来，从而为基因识别，对基因的调控表达，蛋白质结构和功能预测，以及生物系统发生学的研究，开辟了一条新的道路。

后基因组时代的到来，使得如今生物学的研究已经离不开生物学数据库，生物学的研究也不再是单纯地用传统的实验方法，建立生物数据库并且在其上开发各种分析工具进行数据分析和挖掘，已经成为了生物学研究的一种方式方法。

目前，国际上流行的序列数据库搜索方法是基于序列比对的，通过序列比对搜索核酸和蛋白质序列。对于小片段序列，这种方法可以说是比较好的，但是它不能处理长序列片段，并且序列比对的方法只考虑了两个序列在字母排列上的相似性，虽然现在的理论认为，相似的序列有相似的结构，相似的功能，但是这样分析的结果使得当我们想要查找相似功能的序列时，会遗漏那些功能上相似但序列在字母排列上却不是很相似的序列。

发明内容

技术问题：本发明的目的是提出一种基于特征的基因组序列数据库的搜索方法，既能够弥补现有方法的缺陷，又能够准确有效地发现相似的基因组序列。

技术方案：本发明的核心是提出一种全新的基于序列特征的数据库搜索方法，把不同物种的基因组序列数据的基本信息——即序列在Genbank(基因库)数据库的登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据，以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性等统计特征值存储到数据库里；对于客户提交的任何一个基因片段，首先根据客户的要求计算它的一个特征值，再用程序依次计算该序列特征值与数据库内所有序列的相应特征值之间的距离。如果两条序列特征值之间的距离越短，则表明这两条序列相似度越高，因此按照距离由小到大，排列显示出数据库里和用户提交的序列最相似的一部分序列。

具体搜索方法为：根据序列统计特征间的距离来搜索相似序列，即把不同物种的基因组序列数据的基本信息——即序列在基因库的数据库登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据、以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性统计特征值存储到数据库里；对于客户提交的任何一个基因片段，首先根据客户的要求计算它的一个特征值，再依次计算该序列的特征值与数据库内所有序列的相应特征值之间的距离，比较相似序列；按照距离由小到大，排列显示出数据库里和用户提交的序列最相似的一部分序列。

把不同物种的基因组序列数据的基本信息存储到数据库里的方法是：对于序列登录号、物种名称、物种染色体号按照字符串类型存储；序列原始数据由于数据量很大，用大型对象存储类型(clob)这个特殊类型存储；计算好的每一组序列特征值存放到一个变长数组(VARRAY)里。

计算提交序列的特征值的方法为：首先根据BBC特征的定义；

C_{xy} (L) = Σ_{k = 1}^{L} P_{xy} (k) \log_{2} \frac{P_{xy} (k)}{P_{x} P_{y}}

其中C_xy(L)为P_x和P_y分别表示单个核苷酸x和y(x、y∈{A，G，C，T})出现的频率，P_xy(k)表示一对间距为k的核苷酸x和y出现的频率，实现这个算法编制计算该特征的程序，用户提交序列并指定特征后，就调用相应的程序，对序列的特征进行计算。

比较相似序列的方法为：计算好用户提交序列的特征后，到数据库里对每条记录进行遍历，依次计算数据库里每条序列和提交序列该特征值之间的空间距离，同时根据距离的大小由小到大进行排序，距离越小的说明两条序列的特征值匹配程度越高，也就是说这两条序列越相似。

有益效果：

(1)当序列很长(几百K或几M)时，计算速度的优势是很明显的，因为我们只需要计算一次序列的特征，然后一条序列就可以用一个几维或者十几维的特征向量来表示，在数据量巨大的数据库中，计算特征向量间的距离远比进行序列比对要快得多，这样就大大提高了数据库搜索的效率；

(2)不同的特征可能代表序列不同方面的信息，这样就可以从不同的方面来了解一条序列的含义，并且还可以将几个特征结合起来，配合优先级加权值，作为搜索的条件，其结果将对实际研究和应用很有意义；

(3)通过基因组相似序列的搜索，对研究物种之间的关系、生物进化和系统发生分析等有很大的帮助；

(4)基于序列特征信息的搜索符合后基因组研究的目标，并且这样设计的数据库，其可扩展性也相当的大。

附图说明

图1是基因组序列特征数据库总体设计的框架图。大体来说可以分为三个部分：客户端查询程序、后台基因组特征数据库和特征量的计算。客户网页查询系统1、数据库管理与接口程序2、基因组数据下载程序3、基因组特征数据库4、特征计算5、6、7。

图2是数据库表的设计图。第一张表是序列信息表seq_info，这里只列出一条序列的相关信息，包括登录号、物种类别、物种名称、染色体号、序列数据和特征向量等；第二张表是特征量信息表feature_info，包括每个特征的名称及其维数。

图3～图7是选取人第7号染色体上的一段序列，选择碱基关联性特征在数据库内进行搜索，显示的前100条最相似的序列，绝大部分仍为人基因组的序列，也有少量小鼠基因组的片段。

具体实施方式

本发明的基于特征的基因组序列数据库的搜索方法为：根据序列统计特征间的距离来搜索相似序列，即把不同物种的基因组序列数据的基本信息——即序列在基因库的数据库登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据、以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性统计特征值存储到数据库里；对于客户提交的任何一个基因片段，首先根据客户的要求计算它的一个特征值，再依次计算该序列的特征值与数据库内所有序列的相应特征值之间的距离，比较相似序列；按照距离由小到大，排列显示出数据库里和用户提交的序列最相似的一部分序列。

计算提交序列的特征值的方法为：首先根据BBC特征的定义：

C_{xy} (L) = Σ_{k = 1}^{L} P_{xy} (k) \log_{2} \frac{P_{xy} (k)}{P_{x} P_{y}}

(1)基因组序列特征的提取

序列的统计特征常应用于序列分析方面研究，用来识别与基因相关的特殊序列信号，如启动子、起始密码子，以及预测基因的编码区域，或预测外显子所在的区域等。本发明选择的特征主要有两类，一类是基因组序列的碱基组成，包括单碱基、双碱基和三联碱基在序列中的出现频率；另一类是碱基的相关性，主要包括碱基对的关联性(Base-Base correlation，BBC)特征。

BBC特征是本发明人提出的，碱基x与y在距离L之间的相关性的计算公式如下：

C_{xy} (L) = Σ_{k = 1}^{L} P_{xy} (k) \log_{2} \frac{P_{xy} (k)}{P_{x} P_{y}}

其中，C_xy(L)为P_x和P_y分别表示单个核苷酸x和y(x、y∈{A，G，C，T})出现的频率，P_xy(k)表示一对间距为k的核苷酸x和y出现的频率。

(2)特征数据库的数据组织

本发明的总体结构主要分为两大块，如图1所示。一部分是后台的Oracle(甲骨文)数据库，运行于后台；另一部分是网页查询Jsp(服务器端动态网页)，运行于服务器端。这两块用一个接口作为桥梁连接起来，并控制计算特征量的小程序的运行。

数据库包括两张表，见图2。一张是序列信息表，包括这样几个数据项：序列登录号，序列所属物种的分类，序列所属的物种名称，序列所在的染色体号，序列原始数据，序列的各特征值等，其中序列特征可以有很多个，每个特征占一个数据项，动态添加。现在已有的序列特征包括：碱基对关联性，单碱基、双碱基、三碱基频率，核苷酸相对丰度等。另一张表是特征信息表，包括两个数据项：特征量名称和维数。对于序列信息表里的特征量根据特征信息表中该特征的维数建立相应大小的数组，以存放计算好的特征值。

数据库序列数据来源于公共数据库，通过程序从官方网站获取原始序列，读入并提取其登录号、物种名和染色体号的等基本信息，然后计算序列的各个特征，加入本数据库中。

(3)数据库中按特征量搜索方法的实现

搜索方法实现的基本步骤如下：

a.用户提交一段序列。序列可以从本地文件读取也可以连接到公共数据库提取。

b.用户设置搜索的参数，包括选择用于匹配的特征，序列格式以及搜索相似序列的条数。

c.调用计算该特征的小程序完成对提交序列特征的向量值的计算。

d.依次计算数据库中每条序列与提交序列的特征值之间的欧氏距离，并对其进行排序，距离越小，说明序列相似性越高。

e.按用户的要求显示搜索的结果。

实施例1：在数据库内搜索与某段序列的碱基关联性特征相近的100条序列。

在人的第7号染色体上，选取了一段序列，对它的碱基关联性特征值在数据库内进行搜索得到100条最相似的序列，如图3～图7所示，发现这100条序列中绝大部分都是人基因组的，只有从第73条开始才出现了部分小鼠基因组的序列，说明人基因组内的序列在碱基关联性这个特征上还是具有相当高相似程度的，而小鼠基因组的部分片段与人基因组也有一定的相似性。

Claims

1、一种基于特征的基因组序列数据库的搜索方法，其特征在于搜索方法为：根据序列统计特征间的距离来搜索相似序列，即把不同物种的基因组序列数据的基本信息——即序列在基因库的数据库登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据、以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性统计特征值存储到数据库里；对于客户提交的任何一个基因片段，首先根据客户的要求计算它的一个特征值，再依次计算该序列的特征值与数据库内所有序列的相应特征值之间的距离，比较相似序列；按照距离由小到大，排列显示出数据库里和用户提交的序列最相似的一部分序列。

2、根据权利要求1所述的基于特征的基因组序列数据库的搜索方法，其特征在于把不同物种的基因组序列数据的基本信息存储到数据库里的方法是：对于序列登录号、物种名称、物种染色体号按照字符串类型存储；序列原始数据由于数据量很大，用大型对象存储类型这个特殊类型存储；计算好的每一组序列特征值存放到一个变长数组(VARRAY)里。

3、根据权利要求1所述的基于特征的基因组序列数据库的搜索方法，其特征在于计算提交序列的特征值的方法为：首先根据BBC特征的定义：

C_{xy} (L) = Σ_{k = 1}^{L} P_{xy} (k) \log_{2} \frac{P_{xy} (k)}{P_{x} P_{y}}

其中C_xy(L)为P_x和P_y分别表示单个核苷酸x和y出现的频率，P_xy(k)表示一对间距为k的核苷酸x和y出现的频率，实现这个算法编制计算该特征的程序，用户提交序列并指定特征后，就调用相应的程序，对序列的特征进行计算；其中x、y∈{A，G，C，T}

4、根据权利要求1所述的基于特征的基因组序列数据库的搜索方法，其特征在于比较相似序列的方法为：计算好用户提交序列的特征后，到数据库里对每条记录进行遍历，依次计算数据库里每条序列和提交序列该特征值之间的空间距离，同时根据距离的大小由小到大进行排序，距离越小的说明两条序列的特征值匹配程度越高，也就是说这两条序列越相似。