CN1598821A - 基于特征的基因组序列数据库的搜索方法 - Google Patents

基于特征的基因组序列数据库的搜索方法 Download PDF

Info

Publication number
CN1598821A
CN1598821A CN 200410041883 CN200410041883A CN1598821A CN 1598821 A CN1598821 A CN 1598821A CN 200410041883 CN200410041883 CN 200410041883 CN 200410041883 A CN200410041883 A CN 200410041883A CN 1598821 A CN1598821 A CN 1598821A
Authority
CN
China
Prior art keywords
sequence
database
feature
distance
species
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410041883
Other languages
English (en)
Inventor
孙啸
焦典
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN 200410041883 priority Critical patent/CN1598821A/zh
Publication of CN1598821A publication Critical patent/CN1598821A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于特征的基因组序列数据库的搜索方法,是一种根据序列的统计特征在数据库范围内搜索近似序列的方法搜索方法为:根据序列统计特征间的距离来搜索相似序列,即把不同物种的基因组序列数据的基本信息——即序列在基因库的数据库登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据、以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性统计特征值存储到数据库里;对于客户提交的任何一个基因片段,首先根据客户的要求计算它的一个特征值,再依次计算该序列的特征值与数据库内所有序列的相应特征值之间的距离,比较相似序列;按照距离由小到大,排列显示出数据库里和用户提交的序列最相似的一部分序列。

Description

基于特征的基因组序列数据库的搜索方法
                           技术领域
本发明是一个基于特征的基因组序列数据库的搜索方法,更确切地说,是一种根据序列的统计特征在数据库范围内搜索近似序列的方法。
                           背景技术
随着人类基因组计划(HGP)的实施和完成,模式生物(Model Organisms)基因组计划和微生物基因组计划(Microbial Genome Project,MGP)也在进行。目前,结构基因组的工作已基本完成,但是对于整个基因组的研究来说,得到序列仅仅是第一步,对这些象天书一样的序列进行收集、整理、检索,分析序列及其表达蛋白质结构与功能的信息,找出规律,揭开生命的秘密,才是最终目的。这些工作是所谓的后基因组时代(post-genome era)的任务。生物信息学也正是因此而产生和发展起来的一门新兴科学,它在后基因组时代研究中的扮演着至关重要的角色,它的理论和研究将渗透到基因组研究的各个方面。而系统发生分析是整个生物学研究的基础,从新的分子(DNA和蛋白质)的基因组的角度,再次重新研究生物的进化发展,将是一件非常有意义的工作,它是后基因组研究的一个重要组成部分。
所谓基因组序列的特征提取,是指运用数学和信息科学的理论和方法,从天书一样由A、T、C、G四种字符构成的序列中,获取一些体现其特征的具有代表性的信息。通过对这些特征量的计算分析,把数据中隐藏的生物学特征挖掘出来,从而为基因识别,对基因的调控表达,蛋白质结构和功能预测,以及生物系统发生学的研究,开辟了一条新的道路。
后基因组时代的到来,使得如今生物学的研究已经离不开生物学数据库,生物学的研究也不再是单纯地用传统的实验方法,建立生物数据库并且在其上开发各种分析工具进行数据分析和挖掘,已经成为了生物学研究的一种方式方法。
目前,国际上流行的序列数据库搜索方法是基于序列比对的,通过序列比对搜索核酸和蛋白质序列。对于小片段序列,这种方法可以说是比较好的,但是它不能处理长序列片段,并且序列比对的方法只考虑了两个序列在字母排列上的相似性,虽然现在的理论认为,相似的序列有相似的结构,相似的功能,但是这样分析的结果使得当我们想要查找相似功能的序列时,会遗漏那些功能上相似但序列在字母排列上却不是很相似的序列。
                          发明内容
技术问题:本发明的目的是提出一种基于特征的基因组序列数据库的搜索方法,既能够弥补现有方法的缺陷,又能够准确有效地发现相似的基因组序列。
技术方案:本发明的核心是提出一种全新的基于序列特征的数据库搜索方法,把不同物种的基因组序列数据的基本信息——即序列在Genbank(基因库)数据库的登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据,以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性等统计特征值存储到数据库里;对于客户提交的任何一个基因片段,首先根据客户的要求计算它的一个特征值,再用程序依次计算该序列特征值与数据库内所有序列的相应特征值之间的距离。如果两条序列特征值之间的距离越短,则表明这两条序列相似度越高,因此按照距离由小到大,排列显示出数据库里和用户提交的序列最相似的一部分序列。
具体搜索方法为:根据序列统计特征间的距离来搜索相似序列,即把不同物种的基因组序列数据的基本信息——即序列在基因库的数据库登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据、以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性统计特征值存储到数据库里;对于客户提交的任何一个基因片段,首先根据客户的要求计算它的一个特征值,再依次计算该序列的特征值与数据库内所有序列的相应特征值之间的距离,比较相似序列;按照距离由小到大,排列显示出数据库里和用户提交的序列最相似的一部分序列。
把不同物种的基因组序列数据的基本信息存储到数据库里的方法是:对于序列登录号、物种名称、物种染色体号按照字符串类型存储;序列原始数据由于数据量很大,用大型对象存储类型(clob)这个特殊类型存储;计算好的每一组序列特征值存放到一个变长数组(VARRAY)里。
计算提交序列的特征值的方法为:首先根据BBC特征的定义;
C xy ( L ) = Σ k = 1 L P xy ( k ) log 2 P xy ( k ) P x P y
其中Cxy(L)为Px和Py分别表示单个核苷酸x和y(x、y∈{A,G,C,T})出现的频率,Pxy(k)表示一对间距为k的核苷酸x和y出现的频率,实现这个算法编制计算该特征的程序,用户提交序列并指定特征后,就调用相应的程序,对序列的特征进行计算。
比较相似序列的方法为:计算好用户提交序列的特征后,到数据库里对每条记录进行遍历,依次计算数据库里每条序列和提交序列该特征值之间的空间距离,同时根据距离的大小由小到大进行排序,距离越小的说明两条序列的特征值匹配程度越高,也就是说这两条序列越相似。
有益效果:
(1)当序列很长(几百K或几M)时,计算速度的优势是很明显的,因为我们只需要计算一次序列的特征,然后一条序列就可以用一个几维或者十几维的特征向量来表示,在数据量巨大的数据库中,计算特征向量间的距离远比进行序列比对要快得多,这样就大大提高了数据库搜索的效率;
(2)不同的特征可能代表序列不同方面的信息,这样就可以从不同的方面来了解一条序列的含义,并且还可以将几个特征结合起来,配合优先级加权值,作为搜索的条件,其结果将对实际研究和应用很有意义;
(3)通过基因组相似序列的搜索,对研究物种之间的关系、生物进化和系统发生分析等有很大的帮助;
(4)基于序列特征信息的搜索符合后基因组研究的目标,并且这样设计的数据库,其可扩展性也相当的大。
                           附图说明
图1是基因组序列特征数据库总体设计的框架图。大体来说可以分为三个部分:客户端查询程序、后台基因组特征数据库和特征量的计算。客户网页查询系统1、数据库管理与接口程序2、基因组数据下载程序3、基因组特征数据库4、特征计算5、6、7。
图2是数据库表的设计图。第一张表是序列信息表seq_info,这里只列出一条序列的相关信息,包括登录号、物种类别、物种名称、染色体号、序列数据和特征向量等;第二张表是特征量信息表feature_info,包括每个特征的名称及其维数。
图3~图7是选取人第7号染色体上的一段序列,选择碱基关联性特征在数据库内进行搜索,显示的前100条最相似的序列,绝大部分仍为人基因组的序列,也有少量小鼠基因组的片段。
                       具体实施方式
本发明的基于特征的基因组序列数据库的搜索方法为:根据序列统计特征间的距离来搜索相似序列,即把不同物种的基因组序列数据的基本信息——即序列在基因库的数据库登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据、以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性统计特征值存储到数据库里;对于客户提交的任何一个基因片段,首先根据客户的要求计算它的一个特征值,再依次计算该序列的特征值与数据库内所有序列的相应特征值之间的距离,比较相似序列;按照距离由小到大,排列显示出数据库里和用户提交的序列最相似的一部分序列。
把不同物种的基因组序列数据的基本信息存储到数据库里的方法是:对于序列登录号、物种名称、物种染色体号按照字符串类型存储;序列原始数据由于数据量很大,用大型对象存储类型(clob)这个特殊类型存储;计算好的每一组序列特征值存放到一个变长数组(VARRAY)里。
计算提交序列的特征值的方法为:首先根据BBC特征的定义:
C xy ( L ) = Σ k = 1 L P xy ( k ) log 2 P xy ( k ) P x P y
其中Cxy(L)为Px和Py分别表示单个核苷酸x和y(x、y∈{A,G,C,T})出现的频率,Pxy(k)表示一对间距为k的核苷酸x和y出现的频率,实现这个算法编制计算该特征的程序,用户提交序列并指定特征后,就调用相应的程序,对序列的特征进行计算。
比较相似序列的方法为:计算好用户提交序列的特征后,到数据库里对每条记录进行遍历,依次计算数据库里每条序列和提交序列该特征值之间的空间距离,同时根据距离的大小由小到大进行排序,距离越小的说明两条序列的特征值匹配程度越高,也就是说这两条序列越相似。
(1)基因组序列特征的提取
序列的统计特征常应用于序列分析方面研究,用来识别与基因相关的特殊序列信号,如启动子、起始密码子,以及预测基因的编码区域,或预测外显子所在的区域等。本发明选择的特征主要有两类,一类是基因组序列的碱基组成,包括单碱基、双碱基和三联碱基在序列中的出现频率;另一类是碱基的相关性,主要包括碱基对的关联性(Base-Base correlation,BBC)特征。
BBC特征是本发明人提出的,碱基x与y在距离L之间的相关性的计算公式如下:
C xy ( L ) = Σ k = 1 L P xy ( k ) log 2 P xy ( k ) P x P y
其中,Cxy(L)为Px和Py分别表示单个核苷酸x和y(x、y∈{A,G,C,T})出现的频率,Pxy(k)表示一对间距为k的核苷酸x和y出现的频率。
(2)特征数据库的数据组织
本发明的总体结构主要分为两大块,如图1所示。一部分是后台的Oracle(甲骨文)数据库,运行于后台;另一部分是网页查询Jsp(服务器端动态网页),运行于服务器端。这两块用一个接口作为桥梁连接起来,并控制计算特征量的小程序的运行。
数据库包括两张表,见图2。一张是序列信息表,包括这样几个数据项:序列登录号,序列所属物种的分类,序列所属的物种名称,序列所在的染色体号,序列原始数据,序列的各特征值等,其中序列特征可以有很多个,每个特征占一个数据项,动态添加。现在已有的序列特征包括:碱基对关联性,单碱基、双碱基、三碱基频率,核苷酸相对丰度等。另一张表是特征信息表,包括两个数据项:特征量名称和维数。对于序列信息表里的特征量根据特征信息表中该特征的维数建立相应大小的数组,以存放计算好的特征值。
数据库序列数据来源于公共数据库,通过程序从官方网站获取原始序列,读入并提取其登录号、物种名和染色体号的等基本信息,然后计算序列的各个特征,加入本数据库中。
(3)数据库中按特征量搜索方法的实现
搜索方法实现的基本步骤如下:
a.用户提交一段序列。序列可以从本地文件读取也可以连接到公共数据库提取。
b.用户设置搜索的参数,包括选择用于匹配的特征,序列格式以及搜索相似序列的条数。
c.调用计算该特征的小程序完成对提交序列特征的向量值的计算。
d.依次计算数据库中每条序列与提交序列的特征值之间的欧氏距离,并对其进行排序,距离越小,说明序列相似性越高。
e.按用户的要求显示搜索的结果。
实施例1:在数据库内搜索与某段序列的碱基关联性特征相近的100条序列。
在人的第7号染色体上,选取了一段序列,对它的碱基关联性特征值在数据库内进行搜索得到100条最相似的序列,如图3~图7所示,发现这100条序列中绝大部分都是人基因组的,只有从第73条开始才出现了部分小鼠基因组的序列,说明人基因组内的序列在碱基关联性这个特征上还是具有相当高相似程度的,而小鼠基因组的部分片段与人基因组也有一定的相似性。

Claims (4)

1、一种基于特征的基因组序列数据库的搜索方法,其特征在于搜索方法为:根据序列统计特征间的距离来搜索相似序列,即把不同物种的基因组序列数据的基本信息——即序列在基因库的数据库登录号、序列所属的物种名称、序列所在该物种的染色体号和序列原始数据、以及从统计学角度体现序列特征的包括碱基组成特性、碱基对相关性统计特征值存储到数据库里;对于客户提交的任何一个基因片段,首先根据客户的要求计算它的一个特征值,再依次计算该序列的特征值与数据库内所有序列的相应特征值之间的距离,比较相似序列;按照距离由小到大,排列显示出数据库里和用户提交的序列最相似的一部分序列。
2、根据权利要求1所述的基于特征的基因组序列数据库的搜索方法,其特征在于把不同物种的基因组序列数据的基本信息存储到数据库里的方法是:对于序列登录号、物种名称、物种染色体号按照字符串类型存储;序列原始数据由于数据量很大,用大型对象存储类型这个特殊类型存储;计算好的每一组序列特征值存放到一个变长数组(VARRAY)里。
3、根据权利要求1所述的基于特征的基因组序列数据库的搜索方法,其特征在于计算提交序列的特征值的方法为:首先根据BBC特征的定义:
C xy ( L ) = Σ k = 1 L P xy ( k ) log 2 P xy ( k ) P x P y
其中Cxy(L)为Px和Py分别表示单个核苷酸x和y出现的频率,Pxy(k)表示一对间距为k的核苷酸x和y出现的频率,实现这个算法编制计算该特征的程序,用户提交序列并指定特征后,就调用相应的程序,对序列的特征进行计算;其中x、y∈{A,G,C,T}
4、根据权利要求1所述的基于特征的基因组序列数据库的搜索方法,其特征在于比较相似序列的方法为:计算好用户提交序列的特征后,到数据库里对每条记录进行遍历,依次计算数据库里每条序列和提交序列该特征值之间的空间距离,同时根据距离的大小由小到大进行排序,距离越小的说明两条序列的特征值匹配程度越高,也就是说这两条序列越相似。
CN 200410041883 2004-09-07 2004-09-07 基于特征的基因组序列数据库的搜索方法 Pending CN1598821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410041883 CN1598821A (zh) 2004-09-07 2004-09-07 基于特征的基因组序列数据库的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410041883 CN1598821A (zh) 2004-09-07 2004-09-07 基于特征的基因组序列数据库的搜索方法

Publications (1)

Publication Number Publication Date
CN1598821A true CN1598821A (zh) 2005-03-23

Family

ID=34665300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410041883 Pending CN1598821A (zh) 2004-09-07 2004-09-07 基于特征的基因组序列数据库的搜索方法

Country Status (1)

Country Link
CN (1) CN1598821A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902817A (zh) * 2012-10-14 2013-01-30 湖南农业大学东方科技学院 一种公共动物双歧杆菌益生菌密码子数据库管理方法
CN103038773A (zh) * 2010-04-08 2013-04-10 生命技术公司 通过角度配置搜索的用于基因分型的系统和方法
CN103810229A (zh) * 2012-11-01 2014-05-21 辉达公司 用于实施字符串搜索的系统、方法和计算机程序产品
CN105678110A (zh) * 2016-01-29 2016-06-15 东南大学 一种样本组合分析核酸序列的方法
CN106202994A (zh) * 2016-07-04 2016-12-07 上海交通大学 一种生物物种或组织的全息化鉴定方法及系统
CN106755378A (zh) * 2016-12-13 2017-05-31 北京林业大学 一种检测miRNA来源的方法
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统
CN106971088A (zh) * 2017-03-28 2017-07-21 泽塔生物科技(上海)有限公司 一种真核生物来源成分的分子鉴定方法及系统
CN107301329A (zh) * 2016-04-15 2017-10-27 泽塔生物科技(上海)有限公司 一种微生物识别方法及系统
CN110299964A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 数据传输方法及其装置、计算机可存储介质
CN111326215A (zh) * 2020-02-07 2020-06-23 厦门大学 一种基于k-tuple频度的核酸序列搜索方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103038773A (zh) * 2010-04-08 2013-04-10 生命技术公司 通过角度配置搜索的用于基因分型的系统和方法
CN103038773B (zh) * 2010-04-08 2016-06-08 生命技术公司 通过角度配置搜索的用于基因分型的系统和方法
CN102902817A (zh) * 2012-10-14 2013-01-30 湖南农业大学东方科技学院 一种公共动物双歧杆菌益生菌密码子数据库管理方法
CN102902817B (zh) * 2012-10-14 2015-05-06 湖南农业大学东方科技学院 一种公共动物双歧杆菌益生菌密码子数据库管理方法
CN103810229A (zh) * 2012-11-01 2014-05-21 辉达公司 用于实施字符串搜索的系统、方法和计算机程序产品
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统
CN106886689B (zh) * 2015-12-15 2018-12-21 浙江大学 一种病原微生物基因组快速分析方法及系统
CN105678110A (zh) * 2016-01-29 2016-06-15 东南大学 一种样本组合分析核酸序列的方法
CN105678110B (zh) * 2016-01-29 2019-03-29 东南大学 一种样本组合分析核酸序列的方法
CN107301329A (zh) * 2016-04-15 2017-10-27 泽塔生物科技(上海)有限公司 一种微生物识别方法及系统
CN106202994A (zh) * 2016-07-04 2016-12-07 上海交通大学 一种生物物种或组织的全息化鉴定方法及系统
CN106202994B (zh) * 2016-07-04 2018-10-16 上海交通大学 一种生物物种或组织的全息化鉴定方法及系统
CN106755378A (zh) * 2016-12-13 2017-05-31 北京林业大学 一种检测miRNA来源的方法
CN106971088A (zh) * 2017-03-28 2017-07-21 泽塔生物科技(上海)有限公司 一种真核生物来源成分的分子鉴定方法及系统
CN110299964A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 数据传输方法及其装置、计算机可存储介质
CN111326215A (zh) * 2020-02-07 2020-06-23 厦门大学 一种基于k-tuple频度的核酸序列搜索方法及系统
CN111326215B (zh) * 2020-02-07 2022-04-29 厦门大学 一种基于k-tuple频度的核酸序列搜索方法及系统

Similar Documents

Publication Publication Date Title
Baú et al. Distill: a suite of web servers for the prediction of one-, two-and three-dimensional structural features of proteins
Bailey Discovering novel sequence motifs with MEME
US20080256070A1 (en) Data Collection Cataloguing and Searching Method and System
Liu et al. PNN-curve: A new 2D graphical representation of DNA sequences and its application
US7809510B2 (en) Positional hashing method for performing DNA sequence similarity search
Li et al. Sequence clustering strategies improve remote homology recognitions while reducing search times
CN1598821A (zh) 基于特征的基因组序列数据库的搜索方法
US20160019339A1 (en) Bioinformatics tools, systems and methods for sequence assembly
Bates et al. Meeting report: fungal ITS workshop (October 2012)
Bushel et al. MAPS: a microarray project system for gene expression experiment information and data validation
CN105468934B (zh) 一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法
Gattiker et al. Ashbya Genome Database 3.0: a cross-species genome and transcriptome browser for yeast biologists
Mäkinen et al. Applying the positional Burrows–Wheeler transform to all-pairs hamming distance
CN113053461B (zh) 一种基于靶标的基因簇定向挖掘方法
WO2001020535A9 (en) Graphical user interface for display and analysis of biological sequence data
CN115240775B (zh) 基于stacking集成学习策略的Cas蛋白预测方法
Mao et al. On optimizing distance-based similarity search for biological databases
Reneker et al. Refined repetitive sequence searches utilizing a fast hash function and cross species information retrievals
Esmat et al. A parallel hash‐based method for local sequence alignment
Nicolas et al. Finding and characterizing repeats in plant genomes
CN105653892A (zh) 一种基于距离谱知识的正态分布距离接收概率模型构建方法
Haritha et al. A Comprehensive Review on Protein Sequence Analysis Techniques
Khitmoh et al. Stretch Profile: A pruning technique to accelerate DNA sequence search
Navathe et al. Genomic and proteomic databases: Foundations, current status and future applications
Jaber et al. A framework for decision tree-based method to index data from large protein sequence databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication