CN101233509A - 对双标记序列进行处理和/或基因组定位的方法 - Google Patents

对双标记序列进行处理和/或基因组定位的方法 Download PDF

Info

Publication number
CN101233509A
CN101233509A CNA2006800275826A CN200680027582A CN101233509A CN 101233509 A CN101233509 A CN 101233509A CN A2006800275826 A CNA2006800275826 A CN A2006800275826A CN 200680027582 A CN200680027582 A CN 200680027582A CN 101233509 A CN101233509 A CN 101233509A
Authority
CN
China
Prior art keywords
double
tagging
sequence
end mark
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800275826A
Other languages
English (en)
Inventor
邱国平
阮一骏
卫嘉玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Agency for Science Technology and Research Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency for Science Technology and Research Singapore filed Critical Agency for Science Technology and Research Singapore
Publication of CN101233509A publication Critical patent/CN101233509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了用于对双标记核苷酸序列进行处理和/或基因组定位的方法和系统,所述双标记序列包括核酸分子、核酸分子的片段或者基因组片段的5’末端标记和3’末端标记。所述处理方法包括建立包括至少一种双标记序列的数据库或文件。所述定位的方法包括建立双标记的数据库或文件,并将至少一种双标记序列定位于基因组,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。

Description

对双标记序列进行处理和/或基因组定位的方法
技术领域
本发明是关于一种用于对双标记序列(ditag sequence)进行处理的方法和系统。尤其是关于一种用于建立双标记序列的数据库或文件(file)的方法和系统。本发明还提供了用于对双标记序列进行基因组定位(genomemapping)的方法和系统。
背景技术
自人类和几种其它生物体的基因组序列完成之后,注意力已经被引向对包括基因编码转录本单位在内的功能元件和调整基因表达水平的调控顺式作用元件进行基因组注释。
主要挑战之一是鉴定人类和模式生物体内的所有基因和由基因表达的所有转录本。在基因的注释中,全长cDNA克隆和测序是最决定性的,并且被看作转录本分析的黄金标准(gold standard)。然而,当用于跨越大量物种和生物条件(biological condition)的大量转录本时,这种方法昂贵且缓慢。有基于短标记(short tag)的方法,例如基因表达系列分析(serial analysis ofgene expression,SAGE)和大规模平行测序技术(massively parallel signaturesequence,MPSS)。这些基于短标记的方法提取出14-20碱基对(bp)的标签(signature)用于代表每个转录本。然而,常规的SAGE途径依赖于例如NlaIII的限制酶(restriction enzyme,RE)识别位点的存在,并且缺乏限定基因组中基因分界的能力。而且,标记的特异性通常很差,产生的关于转录本结构的信息经常不完整且很模糊。
基因鉴别标签(Gene Identification Signature,GIS)分析,或者末端成对的双标记(Paired-End diTag,PET)分析,是一种新的方法学,其能够精确鉴别基因组中被表达的基因的转录起始位点(transcription start site,TSS)(也称为转录启动作用位点(transcription initiation site,TIS))和多腺苷酸化位点(polyadenylation site,PAS),从而有助于基因组范围内的转录子组布图(US 2005/0059022)。作为5’长SAGE(5’LongSAGE,5’LS)和3’长SAGE(3’LongSAGE,3’LS)分析方法的改良,开发了GIS(或PET)分析(Wei,C-L.Ng,P.Chiu,K.P.Wong,C.H.Ang,C.C.Lipovich,L.Liu,E.and Ruan Y.2004,5’LongSAGE and 3’LongSAGE for transcriptomecharacterization and genome annotation.Proc.Natl.Acad.Sci.USA 101,11701-11706)。起始于全长cDNA克隆,GIS以同样的顺序和取向将每个全长cDNA分子的最初~18bp(5’标记)和最终~18bp(3’标记)连接,大小的变化由II型限制酶消化的天然不精确性引起,以这样的方式保持了链、顺序(由5’至3’)和取向。以这样的方式建立并排序了包括GIS双标记(GISditag)(也称作PET、GIS ditag或双标记)的库(library)。然而,目前尚未发现有效的方法用于从所述库中鉴定GIS双标记以及构建GIS双标记数据库。
需要对GIS双标记进行定位以发现它们在基因组中相对应的基因。然而,还没有具体公开过对GIS双标记进行定位的方法。而且尚不存在容易适用于对基因组的GIS双标记进行定位的计算算法。过去,SAGE和MPSS标记匹配于由已知序列得到的病毒数据库中的标记基因对(tag-gene pair)。使用该方法,将不能对在病毒数据库中不存在的新的转录本进行定位。两种最常用的序列比对工具为基本的局部比对检索工具(basic local alignmentsearch tool,BLAST)和类似于BLAST的比对工具(BLAST-like alignmenttool,BLAT)。然而它们不是为短标记序列设计的。而且,BLAT经常导致结果很差或不正确,BLAST则要求时间长并且因此不适于大规模定位。
因此在该技术领域需要新的方法和系统来组织并分析GIS双标记数据,以及用于将双标记序列定位于基因组的有效方法和系统。
发明内容
本发明阐述了上述问题,并且提供了对双标记核苷酸序列进行处理的新的方法和/或系统。进而本发明提供了将双标记核苷酸序列定位于基因组的方法和/或系统。
根据第一方面,本发明提供了对双标记核苷酸序列进行处理的方法,该双标记序列包括核酸分子或核酸分子的片段或者基因组片段的5’末端标记和3’末端标记,该方法包括建立至少包括一种双标记序列的数据库或文件。
根据具体的方面,所述双标记序列的数据库或文件是通过从包括双标记的至少一个库的序列中提取双标记序列而建立的。
所述库可以为包括至少一种双标记序列的核酸序列库。所述库可以包括至少一种双标记多联体(concatemer)。特别地,所述多联体包括一种或多种双标记。更特别地,双标记的库的每个双标记序列以间隔子(spacer)核苷酸序列为侧翼(flank),并且通过输入所述间隔子核苷酸序列从所述库中提取双标记序列。当所述双标记的库包括至少一种两个或两个以上双标记的多联体时,所述多联体在5’-3’方向上包括第一个双标记上游侧翼的间隔子、最后一个双标记下游侧翼的间隔子,并且其中每两个相邻的双标记被位于它们之间的间隔子间隔开。在图19中表示了带侧翼的且被间隔子序列间隔开的双标记多联体的例子。双标记的库可以包括一种或多种间隔子序列,每个间隔子序列的核苷酸序列与其它间隔子序列不同。间隔子序列的大小(以碱基对计)以及它们的核苷酸序列可以取决于在所述库的建立中所使用的限制酶。也可以取决于所使用的实验条件。进而,不同的间隔子序列可以用于构建不同的库、不同的组织、不同的物种、不同的多联体等。
所述库可以包括任何类型核酸的双标记序列,例如单链和/或双链的DNA和/或RNA。双标记可以由基因或外显子的转录本制备,或者它们可以由基因组的部分(或部位)制备。优选地,双标记由全长cDNA的5’标记和3’标记制备。对包括双标记的库的核酸序列进行测序。一个或多个双标记库的这些序列可以用作提取双标记序列以及建立双标记的数据库或文件的序列源。
更特别地,本发明的方法包括:
-由双标记的库提供核苷酸序列,其中,所述双标记库的每个双标记序列以间隔子核苷酸序列为侧翼;以及
-通过输入所述间隔子核苷酸序列来提取所述双标记序列,以建立双标记的数据库或文件。
更特别地,通过输入下列参数来提取所述双标记序列:
-至少一种间隔子核苷酸序列;
-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内的数;以及
-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内的数。
优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对数目为40。
特别地,根据本发明,所述双标记序列可以包括至少为16个碱基对的5’末端标记和至少为14个碱基对的3’末端标记。此外,所述双标记序列可以包括基因、外显子、部分基因组、或者它们的片段的转录本的5’末端标记和3’末端标记。更特别地,所述双标记序列可以包括全长cDNA的5’末端标记和3’末端标记。
根据另一方面,本发明的方法还包括对所述数据库或文件的双标记序列进行质量控制检查。所述质量控制检查可以在库、板(plate)、孔(well)、序列和/或双标记水平上进行。所述质量控制检查可以在将双标记序列定位于基因组之前执行。通过控制检查,操作者可以通过考虑来决定除去导致错误并且与双标记序列不相符的序列。
根据任何已知的定位方法,可以进行包括将双标记定位于基因组的步骤。特别地,本发明的方法还包括在匹配的至少一个5’末端和至少一个3’末端之间沿着基因组序列鉴定至少一个区段;以及鉴定至少一个染色体位置(chromosomal location)、基因、它们的片段、或者外显子位置。
根据另一方面,本发明的方法还包括将双标记定位于基因组的步骤。特别地,所述定位的步骤包括将至少一种双标记序列定位于基因组,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
更具体地,本发明提供了一种用于将双标记核苷酸序列定位于基因组的方法,该方法包括:
-建立包括至少一种双标记序列的数据库或文件,所述双标记序列包括核酸分子或核酸分子片段的5’末端标记和3’末端标记;
-选择性地,对所述数据库或文件的双标记序列进行质量控制检查;以及
-将所述至少一种双标记序列定位于基因组,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
特别地,所述双标记库的每个双标记序列以间隔子核苷酸序列为侧翼并且通过输入所述间隔子核苷酸序列从所述库中提取所述双标记序列。
因此,本发明提供了一种将双标记在基因组定位的方法,其中,在建立数据库和/或文件的步骤过程中,通过输入下列参数来提取所述双标记序列:
-至少一种间隔子核苷酸序列;
-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内的数;以及
-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内的数。
优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对数目为40。
所述定位步骤还可以包括在匹配的至少一个5’末端和至少一个3’末端之间沿着基因组序列鉴定至少一个区段;以及鉴定至少一种染色体位置(chromosomal location)、基因、外显子位置、或者它们的片段。被鉴定出来的基因位置可以导致发现新的基因位置。
因此,本发明还提供了一种用于发现新基因的方法,该方法包括:
-建立包括至少一种双标记序列的数据库;
-将所述至少一种双标记序列定位于基因组,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分;以及
-将发现的位置或序列与现有的数据库或数据进行比较,以确定所述发现的位置或序列是否是新的位置和/或新的基因。
特别地,根据本发明的任一方面的方法中,双标记序列包括至少为16个碱基对(bp)的5’末端标记和至少为14个碱基对(bp)的3’末端标记。特别地,16-18bp。优选地,18bp的5’末端标记和16bp的3’末端标记。
根据本发明的任一方面的方法中,双标记序列的提取和/或基因组定位可以通过因特网在计算机上执行和/或介质支持(medium support)的因特网而执行。
根据另一方面,本发明提供了一种用于处理双标记序列的系统。根据另一方面,本发明还提供了一种对双标记序列进行基因组定位的系统(双标记至基因组的定位系统(ditag-to-genome mapping system))。根据具体的方面,本发明任一方面的系统也被称为GIS双标记工具(GISditagTool)。
因此,本发明提供了用于对双标记核苷酸序列进行处理的系统,该系统包括用于建立包括至少一种双标记序列的数据库或文件的至少一个模块,所述双标记序列包括核酸分子或核酸分子的片段或者基因组的片段的5’末端标记和3’末端标记。
特别地,双标记序列的数据库和文件是通过从包括双标记序列的至少一个库的序列中提取双标记序列而建立的。
特别地,双标记的库的每个双标记序列以间隔子核苷酸序列为侧翼并且通过输入所述间隔子核苷酸序列从所述库中提取双标记序列。如上所述并具体如图19中所示,当所述双标记的库包括至少一种两个或两个以上双标记的多联体时,所述多联体在5’-3’方向上包括第一个双标记上游侧翼的间隔子、最后一个双标记下游侧翼的间隔子,并且每两个相邻双标记被位于它们之间的间隔子间隔开。
特别地,本发明的系统中,操作者选择至少一种链接,该链接激活所述模块,所述模块启动至少一个用户界面,并且其中所述操作者将以下参数输入该用户界面:
-至少一种间隔子核苷酸序列;
-最小的双标记碱基对(bp)数目,其中,所述数目是选自32-38范围内的数;以及
-最大的双标记碱基对(bp)数目,其中,所述数目是选自36-42范围内的数;并且
由此产生被提取的双标记的数据库或文件。
优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对数目为40。所述用户界面可以为图形用户界面。
特别地,本发明的系统中,所述双标记序列包括基因、外显子、基因组的部分、或者它们的片段的转录本的5’末端标记和3’末端标记。
根据另一方面,本发明的系统还包括双标记序列的数据库或文件的质量控制模块。所述用于质量控制的模块可以在库、板、孔、序列和/或双标记水平上使用。所述质量控制检查可以在将双标记序列定位于基因组之前执行。由于控制检查,操作者可以通过考虑来决定去除导致错误并且与双标记序列不相符的序列。
根据另一方面,本发明的系统还包括用于将至少一种双标记序列定位于基因组的模块,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
因此,本发明还提供了用于对双标记序列进行基因组定位的系统(双标记至基因组的定位系统),该系统包括:
-用于建立(创建)包括至少一种双标记序列的数据库和/或文件的模块,所述双标记序列包括核酸分子或它们的片段的5’末端标记和3’末端标记;
-选择性地包括的用于对双标记序列的数据库或文件进行质量控制的模块;以及
-另外的用于将至少一种双标记序列定位于基因组的模块,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
根据另一方面,本发明的系统至少包括:
-第一用户界面,该第一用户界面至少包括用于提取(提取器)双标记序列的链接和用于将双标记定位于基因组的链接;
-第二用户界面,该第二用户界面由操作者通过选择或点击提取器而被激活,该第二用户界面包括用于输入最小双标记碱基对(bp)数目、最大标记碱基对(bp)数目、以及至少一种间隔子序列的核苷酸序列的字段(field);
-第三用户界面,该第三用户界面用于将双标记序列在基因组或染色体位置中定位;以及
-第四用户界面,该第四用户界面显示定位结果,其中,所述双标记与基因组比对。
本发明任一方面的系统能够由操作者在电脑上操作,并且所述操作通过因特网在计算机上执行和/或通过介质支持的因特网执行。
根据另一方面,本发明提供了一种包括计算机程序的计算机可读介质,该计算机程序在与计算机关联时为可操作的,并且其中所述计算机程序包括本发明任一方面的系统。
关于定位步骤,如上所述,可以使用任何已知的定位方法。然而,根据具体实施方式,为了调整双标记数据,可以使用Suffix Array-based Tag toGenome(SAT2G)算法将双标记序列在基因组序列中定位,所述基因组序列在高级数据结构Compressed Suffix Array(CSA)上建立并索引。
因此,根据本发明的一方面,本发明的方法或系统还提供了包括以下步骤的定位方法和/或系统:
-建立包括至少一种双标记序列的数据库,所述双标记序列包括来自核酸分子或核酸分子的片段的5’末端标记和3’末端标记,例如来自基因转录本;
-将5’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个5’位点,至少一个5’位点的每个都具有与5’末端标记匹配的序列;
-将3’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个3’位点,至少一个3’位点的每个都具有与3’末端标记匹配的序列;
-鉴别至少一段存在的区段,所述至少一段存在的区段的每段为沿着基因组序列在所述至少一个5’位点之一和至少一个3’位点之一之间的序列区段,所述至少一段存在的区段的每段都具有序列长度;以及
-鉴别至少一个可行的基因位置,所述可行的基因位置的每个为所述至少一种存在的区段之一,所述区段的序列长度不超过预定的基因长度。
根据本发明的另一方面,提供了一种定位系统,该系统包括:
-用于通过提取至少一种双标记而建立数据库的装置,所述双标记包括来自核酸分子或核酸分子的片段的5’末端标记和3’末端标记,例如来自基因转录本;
-用于将5’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定至少一个5’位点的装置,至少一个5’位点的每个都具有与5’末端标记匹配的序列;
-用于将3’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定至少一个3’位点的装置,至少一个3’位点的每个都具有与3’末端标记匹配的序列;
-用于鉴别至少一段存在的区段的装置,所述至少一段存在的区段的每段为在沿着基因组序列所述至少一个5’位点之一和至少一个3’位点之一之间的序列区段,所述至少一段存在的区段的每段都具有序列长度;以及
-用于鉴别至少一个可行的基因位置的装置,所述可行的基因位置的每个为所述至少一种存在的区段之一,所述区段的序列长度不超过预定的基因长度。
根据本发明的另一方面,提供了一种定位方法,该方法包括下列步骤:
-建立双标记的数据库,包括提取至少一种双标记,例如来自双标记库或来自现有的双标记数据库,所述双标记序列包括来自核酸分子或核酸分子的片段的5’末端标记和3’末端标记,例如来自基因转录本;
-将5’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个5’位点,至少一个5’位点的每个都具有与5’末端标记匹配的序列;
-将3’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个3’位点,至少一个3’位点的每个都具有与3’末端标记匹配的序列;
-鉴别至少一段存在的区段,所述至少一段存在的区段的每段为在所述至少一个5’位点之一和至少一个3’位点之一之间沿着基因组序列的序列区段,所述至少一段存在的区段的每段都具有序列长度;以及
-从至少一种存在的区段鉴定出至少一种可行的基因位置,每一至少一种所述可行的基因位置为至少一种序列长度不超过该区段预定的基因长度的所述至少一种存在的区段之一,它的序列顺序以及其中对应的与5’-存在的区段-3’结构一致的至少一个5’位点之一和至少一个3’位点之一跟基因组序列相应部分的序列顺序相匹配,5’位点与其中对应的至少一个5’位点之一以及至少一个3’位点之一具有5’-3’取向,并且与每一存在的区段相对应的至少一个5’位点之一以及至少一个3’位点之一被定位于同一染色体中。
附图说明
图1:GIS双标记的结构和GIS双标记至基因组的定位。在此图所示的例子中,GIS双标记产生于全长cDNA库。每个双标记[SEQ ID NO:1]包括与全长克隆的末端一致的5’和3’标记(每个约18bp)。双标记的直接的GIS双标记至基因组的定位确定染色体中相应基因的边界;
图2显示了应用于基因组注释中的GIS双标记(这里也称为双标记)技术的5’和3’末端标记的示意图。该图还显示了双标记多联体的制备;
图3显示了根据本发明实施方式的转录本定位方法的流程图;
图4显示了用于实施图3的转录本定位技术的GIS双标记[SEQ ID NO:1]的示意图;
图5显示了GIS双标记[SEQ ID NO:2](PET)至基因组的定位。用SAT2G分两步进行PET序列的定位。首先,5’标记和3’标记分别与基因组集合(genome assembly)比对;对于5’标记要求16bp的正确匹配长度并且对于3’标记要求14bp。然后,在第二步骤中,在染色体中的靶定位的检索中将所述5’比对与相应的3’比对配对。如果5’和3’标记都在同一染色体、同一链、同一方向,在5’至3’的顺序中,并且在一百万bp距离内,则所述靶得以鉴定;
图6显示了图3的转录本定位方法的伪代码(pseudo code)“Find_Sites”,用于从基因组序列中正向和反向检索5’位点和3’位点;
图7显示了图3的转录本定位方法的伪代码“Match_sites_1”,用于鉴别存在的区段的序列长度,随后所述序列长度与预定的长度相比较从而用于鉴别可行的基因位置;
图8显示了图3的转录本定位方法的伪代码“Match_sites_2”,用于鉴别存在的区段,当满足不同的条件时,随后从中得到可行的基因位置;
图9:GIS双标记工具(GISditagTool)的数据管理实体关系图。所述实体关系描述了结构化查询语言(mySQL)表的系统结构(architecture)。所述系统结构依次由项目(project)、库、板、孔(各自代表序列)、双标记和基因组位置组成。提取历史(extractHistory)表和定位历史(mapHistory)表分别记录双标记提取和定位的行为。生物体、组织、状态、基因组以及序列中心(sequenceCenter)表提供了该过程所需的背景信息;
图10:GISditagTool模块和mySQL数据库。根据一种实施方式,GISditagTool包括四个模块,即项目模块、提取器模块、检查器模块和定位模块。它们中的每一个起到不同的作用。项目用于数据和文件组建;提取器用于双标记提取;检查器用于质量控制;以及定位用于标记至基因组的定位。mySQL有理数数据库(DB)管理系统为那些模块之间的活动提供了从容的运输(trafficking);
图11至图14显示了根据本发明一个方面的四个GISditagTool模块的流程图。具体地,图11显示了项目模块流程图,图12显示了提取器模块流程图,图13显示了检查器模块流程图,以及图14显示了定位模块流程图;
图15:GISditagTool的提取和质量控制(QC)用户界面(从A至F)。可以通过提取器模块(B)上传序列读取,用于双标记提取。提取参数可以在此阶段得到修改。QC以序列顺序进行。最上面的面板(A)显示所有项目的统计。当激活检查器模块时,用于所有库的双标记统计得到展示(C)。点击库、库中的板,以及接着板中的孔,用户能分别评估板(D)、孔(E)和序列(F)的质量;
图16显示了图15的GISditagTool的用户界面(A)和(B);
图17显示了图15的GISditagTool的用户界面(C)和(D);
图18显示了图15的GISditagTool的用户界面(E);
图19显示了图15的GISditagTool的用户界面(F);
图20:GISditagTool中显示的定位结果。用户界面(G)和(H)。定位模块比对双标记和基因组,并通过UCSC浏览器提供定位概要(G)以及浏览能力(H)。基于发现于基因组中的靶的数目,双标记被分组成不同的类(例如PET0、PET1、PET2等)。
具体实施方式
定义
-双标记:GIS双标记,也称为双标记,根据US 2005/0059022定义并制备,在此其全部的内容引入作为参考。
-数据:以任何形式在电脑程序中运行的信息。这里所用的数据包括任何有关双标记的信息,特别是有关双标记的碱基对和双标记的核苷酸序列。
-数据管理系统:也被称为DBMS或dbms,是一种软件系统,该软件系统为用于具体应用或一组相关应用的数据体组建和管理提供便利。
-数据库:为了本发明的目的,双标记数据集合(或一般为信息),在DBMS中至少包括双标记的核苷酸序列。它还可以包括进一步的信息例如所用的一个或多个间隔子的碱基对(bp)大小和核苷酸序列、双标记的方向、库或序列鉴别(ID)号等。所述数据或信息得到采集、存取和/或存储在计算机系统和/或计算机可读介质内。所述数据库还可以在因特网上获得。数据库的定义还包括信息或数据体,使用数据库管理系统的设备将所述信息或数据体容纳在计算机系统和/或计算机可读介质中。
-文件(也称为计算机文件):信息的集合,参考文件名,例如,用户创建的文件、程序数据或程序本身。为了本发明的目的,文件定义为至少包括双标记的核苷酸序列的双标记数据集合(或者一般为信息)。它还可以包括进一步的信息例如所用的一个或多个间隔子的碱基对(bp)大小和核苷酸序列、双标记的方向、库或序列鉴别(ID)号、数目(拷贝数)等。数据或信息得到采集、存取和/或存储在计算机系统和/或计算机可读介质内。所述文件还可以在因特网上获得。双标记的一个或多个文件可以收集到文件的索引中。
完整基因组注释依赖于精确地鉴定通过转录本起始位点(transcriptioninitiation site,TIS)和多腺苷酸化位点(PAS)结合的转录本单位。为此,开发了一对互补的方法,即5’LongSAGE(基因表达的长系列分析)和3’LongSAGE(Wei et al.2004,参见以上)。所述方法基于原始SAGE(基因表达的系列分析)和LongSAGE方法,所述LongSAGE方法利用典型的全长cDNA克隆技术以能够高通量地提取每个转录本的最初的20个碱基对(bp)和最后的20个碱基对(bp)。将5’和3’LongSAGE标记定位于基因组能够定位TIS和PAS。
然而,使得自基因组序列中同样转录本的5’和3’标记匹配并不总是直截了当的,有时可以十分模糊。一种解决方案是通过使5’和3’标记相互连接来克隆相同转录本的5’和3’标记。为了实现上述方案,包括克隆适配体(adapter)和载体的特别设计的装置将得自相同转录本的5’标记和3’标记连接到双标记中。
使用代表个体转录本的每个双标记,可以将多个双标记连接来用于克隆和测序。不像单一的标记序列,当在基因组序列中定位时,可以用精确限定的转录本框将成对的双标记序列特定地增殖。该方法命名为基因鉴别标签(GIS)分析,其可以准确对由基因或基因的核酸分子或它们的片段编码的转录本单位的5’和3’末端进行定位,在公开号为US 2005/0059022的美国专利申请中得以描述(其全部内容此处并入作为参考)。
图1和图2中展示了GIS分析(也被称为GIS技术或方法)的例子。根据GIS分析的具体方面,常规的cap-trapper法应用于富集在cDNA片段的每一末端具有Mme I限制位点的全长cDNA和合并的适配体序列。然后在克隆载体中克隆cDNA片段以构建GIS flcDNA(全长cDNA)库。然而,GIS方法不限于flcDNA,而是可以用于任何核酸分子或其片段,例如用于部分基因组。从所述库中制备的质粒被MmeI(II型限制酶)消化并在其结合位点下游20bp处断裂。然而,任何识别不对称限制位点的限制酶可以用在GIS方法中。特别地,可以使用任何适于GIS方法目的的II型限制酶。消化之后,用已知的克隆载体,将库的flcDNA嵌入物从质粒上放出,以留下5’和3’末端的18bp标签。载体的再环化将产生GIS单一双标记库。然后将所述库的双标记切下来并纯化用于多联体化和克隆以产生最终用于测序分析的GIS双标记库。通常GIS双标记克隆的每一序列读取展示15个双标记。双标记序列的每一单位包括至少为16个碱基对(bp)的5’末端标签和至少为14个碱基对(bp)的3’末端标签,具有间隔子以间隔开一个双标记序列与另一个双标记序列。特别地,所述双标记包括18bp的5’末端标签和18bp的3’末端标签。更特别地,所述双标记包括18bp的5’末端标签和16bp的3’末端标签。间隔子序列的长度取决于所使用的酶或者取决于所使用的实验条件,例如所述间隔子可以为12bp。
因此包括GIS双标记(也简略表示为双标记)的库可以如以上所述建立。然后对包括双标记的所述库的核酸分子的序列进行测序。所述序列信息可以在一个或多个数据库中采集。然而,目前还没有公开有效的方法用于从所述库中选择双标记序列,也没有公开双标记数据库的构建。
而且,双标记需要定位以发现它们在基因组上对应的基因。然而没有具体公开用于双标记的定位方法。再者,没有现成的容易适用于将双标记序列定位于基因组的计算机算法。
因此,本发明提供了对双标记序列进行处理的新的方法和/或系统。进而,本发明提供了用于将双标记核苷酸序列定位于基因组的方法和/或系统。根据具体的方面,本发明的方法和系统将用具体的参考得以解释,但不限于称为GISditagTool的方法和系统。特别地,GISditagTool将参考图10至图20得到更详细地解释。
根据第一方面,本发明提供了一种对双标记核苷酸序列进行处理的方法,该双标记序列包括核酸分子或核酸分子的片段或者基因组片段的5’末端标记和3’末端标记,该方法包括建立至少包括一种双标记序列的数据库或文件。
根据具体的方面,所述双标记序列的数据库或文件是通过从包括双标记的至少一个库的序列中提取双标记序列而建立的。
所述库可以为包括至少一种双标记序列的核酸序列库。所述库可以包括至少一种双标记多联体(concatemer)。特别地,所述多联体包括一种或多种双标记。更特别地是,双标记库的每个双标记序列以间隔子核苷酸序列为侧翼,并且通过输入间隔子核苷酸序列从所述库中提取双标记序列。当所述双标记库包括至少一种两个或两个以上双标记的多联体时,所述多联体在5’-3’方向上包括第一个双标记上游侧翼的间隔子、最后一个双标记下游侧翼的间隔子,并且其中每两个相邻双标记被位于它们之间的间隔子间隔开。在图19中表示了带侧翼的且被间隔子序列间隔开的双标记多联体的例子。5’侧翼间隔子和/或3’侧翼间隔子的长度可以不同。特别地,它们的长度可以在双标记的多联体之间或者一个库或者更多库的双标记的多联体内变化。双标记的库可以包括一种或多种间隔子序列,每个间隔子序列的核苷酸序列与其它间隔子序列不同。间隔子序列的大小(以碱基对计)以及它们的核苷酸序列可以取决于在所述库的建立中所使用的限制酶。也取决于所使用的实验条件。进而,不同的间隔子序列可以用于构建不同的库、不同的组织、不同的物种、不同的多联体等。
在图19中,提供了双标记多联体中双标记与间隔子的排列例子。特别地,图19显示了双标记以间隔子为侧翼并由间隔子间隔。特别地,在图19中显示的所使用的间隔子都具有相同的核苷酸序列和12bp的大小。然而,也可以使用具有互不相同的核苷酸序列的间隔子。在5’-3’方向上,图19显示了载体部分(58bp),以第一间隔子为侧翼。第一间隔子为第一双标记(38bp)上游的侧翼。第一双标记(38bp)和第二双标记(37bp)通过间隔子间隔开。同样的情况直至右边的双标记。然后第八双标记(36bp)的下游接着(为侧翼)最末间隔子,其下游以载体(52bp)部分为侧翼。对本领域技术人员很明显,多联体可以包括数目可变的双标记,其并不限于在图19中作为例子的8个双标记。而且,还可以使用一个或多个具有互不相同的核苷酸序列的间隔子。如上述所解释的,所述间隔子的大小也可以变化。
所述库可以包括任何类型核酸的双标记序列,例如单链和/或双链的DNA和/或RNA。双标记可以由基因或外显子的转录本制备,或者它们可以由基因组的部分(或部位)制备。优选地,双标记由全长cDNA的5’标记和3’标记制备。对包括双标记的库的核酸序列进行测序。一个或多个双标记库的这些序列可以用作提取双标记序列以及建立双标记的数据库或文件的序列源。
更特别地,本发明的方法包括:
-提供双标记库的核苷酸序列,其中,所述双标记的库的每一双标记序列以间隔子核苷酸序列为侧翼;以及
-通过输入所述间隔子核苷酸序列来提取双标记序列,建立双标记的数据库或文件。
更特别地,通过输入下列参数来提取所述双标记序列:
-至少一种间隔子核苷酸序列;
-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内的数;以及
-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内的数。
优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对数目为40。
特别地,根据本发明,所述双标记序列可以包括至少为16个碱基对的5’末端标记和至少为14个碱基对的3’末端标记。进而,所述双标记序列可以包括基因、外显子、部分基因组、或者它们的片段的转录本的5’末端标记和3’末端标记。更特别地,所述双标记序列可以包括全长cDNA的5’末端标记和3’末端标记。
根据另一方面,本发明的方法还包括对所述数据库或文件的双标记序列进行质量控制检查。所述质量控制检查可以在库、板、孔、序列和/或双标记水平上进行。所述质量控制检查可以在将双标记序列定位于基因组之前执行。通过控制检查,操作者可以经过考虑来决定除去导致错误并且与双标记序列不相符的序列。
根据任何已知的定位方法,可以进行包括将双标记定位于基因组的步骤。特别地,本发明的方法还包括在匹配的至少一个5’末端和至少一个3’末端之间沿着基因组序列鉴定至少一个区段;以及鉴定至少一种染色体位置、一个基因、它们的片段,或者外显子位置。
根据具体方面,本发明提供了称为SAT2G(基于后缀数组的标记至基因组)的定位步骤,其将在以下进行更加详细的描述。
根据另一方面,本发明的方法还包括将双标记定位于基因组的步骤。特别地,所述定位的步骤包括将至少一种双标记序列定位于基因组,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
更具体地,本发明提供了一种用于将双标记核苷酸序列定位于基因组的方法,所述方法包括:
-建立包括至少一种双标记序列的数据库或文件,所述双标记序列包括核酸分子或核酸分子片段的5’末端标记和3’末端标记;
-选择性地,对所述数据库或文件的双标记序列进行质量控制检查;以及
-将至少一种双标记序列定位于基因组,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
特别地,所述双标记库的每个双标记序列以间隔子核苷酸序列为侧翼并且通过输入所述间隔子核苷酸序列从所述库中提取双标记序列。
因此,本发明提供了一种将双标记定位于基因组的方法,其中,在建立数据库和/或文件的步骤中,通过输入下列参数来提取所述双标记序列:
-至少一种间隔子核苷酸序列;
-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内的数;以及
-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内的数。
优选地,所述最小双标记碱基对数目为34和/或最大双标记碱基对数目为40。
所述定位步骤还可以包括在匹配的至少一个5’末端和至少一个3’末端之间沿着基因组序列鉴定至少一个区段;以及鉴定至少一种染色体位置、基因、外显子位置,或者它们的片段。被鉴定出来的基因位置可以导致发现新的基因位置。
因此,本发明还提供了一种用于发现新基因的方法,该方法包括:
-建立包括至少一种双标记序列的数据库;
-将至少一种双标记序列定位于基因组,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分;以及
-将发现的位置或序列与现有的数据库或数据进行比较,以确定发现的位置或序列是否是新的位置和/或新的基因。
特别地,根据本发明的任一方面的方法中,双标记序列包括至少为16个碱基对(bp)的5’末端标记和至少为14个碱基对(bp)的3’末端标记。特别地,16-18bp。优选18bp的5’末端标记和16bp的3’末端标记。
根据本发明的任一方面的方法中,双标记序列的提取和/或基因组定位可以通过因特网在计算机上执行和/或通过介质支持的因特网执行。
根据另一方面,本发明提供了一种用于处理双标记序列的系统。根据另一方面,本发明还提供了一种对双标记序列进行基因组定位的系统(双标记至基因组的定位系统)。根据具体的方面,本发明任一方面的系统也被称为GIS双标记工具(GISditagTool)。更特别地,所述GISditagTool为软件程序系统。可以在介质支持上提供GISditagTool,安装到硬驱动盘上,或者通过因特网获得。因此,本发明还提供了GISditagTool软件程序包(工具包)。
因此,本发明提供了用于对双标记核苷酸序列进行处理的系统,该系统包括用于建立包括至少一种双标记序列的数据库或文件的至少一个模块,所述双标记序列包括核酸分子或核酸分子的片段或者基因组的片段的5’末端标记和3’末端标记。
特别地,双标记序列的数据库和文件是通过从至少一个包括双标记序列的库的序列中提取双标记序列而建立的。
特别地,所述双标记库的每个双标记序列以间隔子核苷酸序列为侧翼并且通过输入间隔子核苷酸序列从所述库中提取双标记序列。如上所述并具体如图19中所示,当所述双标记库包括至少一种两个或两个以上双标记的多联体时,所述多联体在5’-3’方向上包括第一个双标记上游侧翼的间隔子、最后一个双标记下游侧翼的间隔子,并且每两个相邻双标记被位于它们之间的间隔子间隔开。
特别地,本发明的系统中,操作者选择至少一种链接,该链接激活所述模块,所述模块启动至少一个用户界面,并且其中所述操作者将以下参数输入到该用户界面:
-至少一种间隔子核苷酸序列;
-最小的双标记碱基对(bp)数目,其中,所述数目为选自32-38范围内的数;以及
-最大的双标记碱基对(bp)数目,其中,所述数目为选自36-42范围内的数;以及
由此产生被提取的双标记的数据库或文件。
优选地,所述最小的双标记碱基对数目为34和/或最大的双标记碱基对数目为40。所述用户界面可以为图形用户界面。
特别地,本发明的系统中,所述双标记序列包括基因、外显子、基因组的一部分、或者它们的片段的转录本的5’末端标记和3’末端标记。
根据另一方面,本发明的系统还包括双标记序列的数据库或文件的质量控制模块。用于质量控制的模块可以在库、板、孔、序列和/或双标记水平上使用。所述质量控制检查可以在将双标记序列定位于基因组之前执行。由于控制检查,操作者可以通过考虑来决定去除导致错误并且与双标记序列不相符的序列。
根据另一方面,本发明的系统还包括用于将至少一种双标记序列定位于基因组的模块,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
因此,本发明还提供了用于对双标记序列进行基因组定位的系统(双标记至基因组的定位系统),该系统包括:
-用于建立(产生)包括至少一种双标记序列的数据库和/或文件的模块,所述双标记序列包括核酸分子或核酸分子的片段的5’末端标记和3’末端标记;
-选择性地包括的用于对双标记序列的数据库或文件进行质量控制的模块;以及
-另外的用于将至少一种双标记序列定位于基因组的模块,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
根据另一方面,本发明的系统至少包括:
-第一用户界面,该第一用户界面至少包括用于提取(提取器)双标记序列的链接以及用于将双标记定位于基因组的链接;
-第二用户界面,该第二用户界面由操作者通过选择或点击提取器而被激活,第二用户界面包括用于输入最小的双标记碱基对(bp)数目、最大的标记碱基对(bp)数目、以及至少一种间隔子序列的核苷酸序列的字段(field);
-第三用户界面,该第三用户界面用于将双标记序列定位于基因组或染色体位置;以及
-第四用户界面,该第四用户界面显示定位结果,其中,所述双标记与基因组比对。
根据本发明任一方面的系统可以通过操作者在电脑上操作,并且所述操作通过因特网在计算机和/或介质支持的计算机上执行。
根据另一方面,本发明提供了一种包括计算机程序的计算机可读介质,该计算机程序与计算机联合时是可操作的,并且其中所述计算机程序包括本发明任一方面的系统。
定位步骤
将双标记定位于基因组类似于在基因组序列中检索模式的发生率(occurrence)。用于模式检索(pattern searching)的方法包括常规的局部比对检索工具(basic local alignment search tool,BLAST)和类似BLAST的比对工具(BLAST-like alignment tool,BLAT)的方法。BLAST和BLAT方法都很慢,因为它们的每一个都需要通过扫描全部基因组检索到的模式。而且如果要求具有小的错配容限的模式的确切发生率,通常应用常规的全文索引(full-text indexing)。有效的全文索引的数据结构包括后缀树和后缀数组。
如上所述,可以使用任何已知的定位方法。然而,根据具体实施方式,为了调整双标记数据,基于标记至基因组的后缀数组(SAT2G)算法可以用于将双标记序列定位于基因组序列,所述基因组序列在高级数据结构压缩后缀数组(Compressed Suffix Array,CSA)上建立并索引。图5中展示了使用SAT2G将GIS双标记(PET)定位于基因组的示意性例子。所述SAT2G系统在图6至图8中更详细地公开。
因此,根据本发明的一个方面,本发明的方法或系统还提供了包括以下步骤的定位方法和/或系统:
-建立包括至少一种双标记序列的数据库,所述双标记序列包括来自核酸分子或其片段的5’末端标记和3’末端标记,例如来自基因转录本;
-将5’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个5’位点,至少一个5’位点的每个都具有与5’末端标记匹配的序列;
-将3’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个3’位点,至少一个3’位点的每个都具有与3’末端标记匹配的序列;
-鉴别至少一段存在的区段,所述至少一段存在的区段的每段为沿着基因组序列在所述至少一个5’位点之一和至少一个3’位点之一之间的序列区段,所述至少一段存在的区段的每段都具有序列长度;以及
-鉴别至少一个可行的基因位置,所述可行的基因位置的每个为所述至少一种存在的区段之一,所述区段的序列长度不超过预定的基因长度。
在核酸(例如转录本)定位方法中,所述将5’末端标记匹配到基因组序列的至少一部分的步骤可以包括以下步骤:
-将5’末端标记匹配到染色体序列。
在定位方法中,所述将3’末端标记匹配到基因组序列的至少一部分的步骤可以包括以下步骤:
-将3’末端标记匹配到染色体序列。
所述转录本定位方法还可以包括产生用于索引基因组序列的数据结构的步骤。
所述定位方法还可以包括产生用于索引基因组序列的树形结构和有序数组中的至少一种的步骤。
所述定位方法还可以包括产生用于索引基因组序列的后缀数组、后缀树、二叉树和压缩后缀数组中的至少一种的步骤。
在所述定位方法中,将5’末端标记匹配到基因组序列的至少一部分的步骤可以包括以下步骤:
-正向通过(traversing)或反向通过基因组序列中的至少一种,用于将5’末端标记与基因组序列的至少一部分进行比较以得到至少一个5’位点。
在所述转录本定位方法中,所述将3’末端标记匹配到基因组序列的至少一部分的步骤可以包括以下步骤:
-正向通过(traversing)或反向通过基因组序列中的至少一种,用于将3’末端标记与基因组序列的至少一部分进行比较以得到至少一个3’位点。
在所述转录本定位方法中,鉴定至少一种可行的基因位置的步骤可以包括将至少一段存在的区段的每段以及其相应的至少一个5’位点之一和至少一个3’位点之一的序列顺序与基因组序列的至少一部分进行比较的步骤,用于从中得到至少一个可行的基因位置。
在转录本定位方法中,将至少一段存在的区段的每段以及其相应的至少一个5’位点之一和至少一个3’位点之一的序列顺序进行比较的步骤,可以包括比较至少一段存在的区段的每段以及其相应的至少一个5’位点之一和至少一个3’位点之一的序列顺序,与5’-存在的区段-3’结构一致。
在转录本定位方法中,所述鉴定至少一种可行的基因位置的步骤可以包括鉴定至少一段存在的区段的每段的5’-3’方向的步骤,用于从它们中得到至少一个可行的基因位置。
在转录本定位方法中,所述鉴定5’-3’方向的步骤可以包括鉴定残基AA核苷酸(residual AA nucleotide)的步骤,所述残基AA核苷酸构成了3’末端标记的一部分。
在转录本定位方法中,所述鉴定至少一种可行的基因位置的步骤可以包括以下步骤:
-鉴定染色体,其中将与存在的每个区段相对应的至少一个5’位点之一和至少一个3’位点之一中的每一位点进行定位,用于从中鉴定至少一个可行的基因位置。
在转录本定位方法中,所述将5’末端标记匹配到基因组序列的至少一部分的步骤可以包括以下步骤:
-鉴定所述至少一个5’位点的量,以及
将3’末端标记匹配到基因组序列的至少一部分的步骤包括以下步骤:
-鉴定所述至少一个3’位点的量。
在转录本定位方法中,所述鉴定至少一段存在的区段的步骤可以包括以下步骤:
-从至少一个5’位点的每个朝向两个末端之一沿着基因组序列往返移动(traverse),用于鉴定至少一个3’位点的至少一个。
在转录本定位方法中,所述鉴定至少一种可行的基因位置的步骤可以包括以下步骤:
-作为对用于至少一个5’位点的每个鉴定到至少一个可行的基因位置之一的回应,结束沿着基因组序列的往返移动(traversal)。
在转录本定位方法中,所述鉴定至少一段存在的区段的步骤可以包括以下步骤:
-从至少一个3’位点的每个朝向两个末端之一沿着基因组序列往返移动,用于鉴定至少一个5’位点的至少一个。
在转录本定位方法中,所述鉴定至少一种可行的基因位置的步骤可以包括以下步骤:
-作为对用于至少一个3’位点的每个鉴定到至少一个可行的基因位置之一的回应,结束沿着基因组序列的往返移动。
根据本发明的另一方面,提供了一种定位系统,该系统包括:
-用于通过提取至少一种双标记而建立数据库的装置,所述双标记包括来自核酸分子或核酸分子片段的5’末端标记和3’末端标记,例如来自基因的转录本;
-用于将5’末端标记匹配到基因组序列的至少一部分以由此从中鉴定至少一个5’位点的装置,所述至少一个5’位点的每个具有与5’末端标记相匹配的序列;
-用于将3’末端标记匹配到基因组序列的至少一部分以由此从中鉴定至少一个3’位点的装置,所述至少一个3’位点的每个具有与3’末端标记相匹配的序列;
-用于鉴定至少一段存在的区段的装置,所述至少一段存在的区段的每个为沿着基因组序列在至少一个5’位点之一和至少一个3’位点之一之间的序列区段,所述至少一段存在的区段的每个具有序列长度;以及
-用于鉴别至少一个可行的基因位置的装置,所述可行的基因位置为所述至少一段存在的区段之一,所述区段的序列长度不超过预定的基因长度。
在所述定位系统中,所述用于鉴别5’末端标记和3’末端标记的装置可以包括:
-用于提供具有至少16个碱基对的核苷酸序列的装置,用于形成5’末端标记;以及
-用于提供具有至少16个碱基对的核苷酸序列的装置,用于形成3’末端标记。
在所述定位系统中,用于将5’末端标记匹配到基因组序列的至少一部分的装置可以包括:
-用于将5’末端标记匹配到染色体序列的装置。
在所述定位系统中,用于将3’末端标记匹配到基因组序列的至少一部分的装置可以包括:
-用于将3’末端标记匹配到染色体序列的装置。
所述定位系统还可以包括:
-用于产生数据结构的装置,用于索引基因组序列。
所述定位系统还可以包括:
-用于产生树形结构和有序数组中的至少一种的装置,用于索引基因组序列。
所述定位系统还可以包括:
-用于产生后缀数组、后缀树、二叉树和压缩后缀数组至少一种的装置,用于索引基因组序列。
在所述定位系统中,用于将5’末端标记匹配到基因组序列的至少一部分的装置可以包括:
-用于正向通过和反向通过基因组序列中的至少一种的装置,用于将5’末端标记和基因组序列的至少一部分进行比较以得到至少一个5’位点。
在所述定位系统中,用于将3’末端标记匹配到基因组序列的至少一部分的装置可以包括:
-用于正向通过和反向通过基因组序列中的至少一种的装置,用于将3’末端标记和基因组序列的至少一部分进行比较以得到至少一个3’位点。
在所述定位系统中,用于鉴定至少一个可行的基因位置的装置可以包括:
-用于将至少一段存在的区段的每段以及其相应的至少一个5’位点之一和至少一个3’位点之一的序列顺序与基因组序列的至少一部分进行比较的装置,用于从中得到至少一个可行的基因位置。
在所述定位系统中,用于将至少一段存在的区段的每段以及其相应的至少一个5’位点之一和至少一个3’位点之一的序列顺序进行比较的装置可以包括至少一段存在的区段的每段以及与其相应的至少一个5’位点之一和至少一个3’位点之一的序列顺序进行比较的装置,与5’-存在的区段-3’结构一致。
在所述定位系统中,用于鉴定至少一个可行的基因位置的装置可以包括:
-用于鉴定至少一段存在的区段的每个的5’-3’方向的装置,用于从中得到至少一种可行的基因位置。
在所述定位系统中,用于鉴定至少一段存在的区段的每个的5’-3’方向的装置可以包括:
-用于鉴定残基AA核苷酸(residual AA nucleotide)的装置,所述氨基酸残基核苷酸构成了3’末端标记的一部分。
在所述定位系统中,用于鉴定至少一个可行的基因位置的装置可以包括:
-用于鉴定染色体的装置,其中与存在的区段的每个相对应的至少一个5’位点之一和至少一个3’位点之一中的每一位点得到定位,用于从中鉴定至少一个基因位置。
在所述定位系统中,用于将5’末端标记匹配到基因组序列的至少一部分的装置可以包括:
-用于鉴定至少一种5’位点的量的装置,以及
用于将3’末端标记匹配到基因组序列的至少一部分的装置包括:
-用于鉴定至少一种3’位点的量的装置。
在所述定位系统中,用于鉴定至少一段存在的区段的装置可以包括:
-用于从至少一个5’位点的每个朝向两个末端之一沿着基因组序列往返移动的装置,用于鉴定所述至少一个3’位点的至少一个。
在所述定位系统中,所述鉴定至少一个可行的基因位置的装置可以包括:
-用于作为对用于至少一个5’位点的每个鉴定到至少一个可行的基因位置之一的回应,结束沿着基因组序列的往返移动的装置。
在所述定位系统中,所述用于鉴定至少一段存在的区段的装置可以包括:
-用于从至少一个3’位点的每个朝向两个末端之一沿着基因组序列往返移动的装置,用于鉴定所述至少一个5’位点的至少一个。
在所述定位系统中,所述用于鉴定至少一个可行的基因位置的装置可以包括:
-用于作为对用于至少一个3’位点的每个鉴定到至少一个可行的基因位置之一的回应,结束沿着基因组序列的往返移动的装置。
根据本发明的另一方面,提供了一种定位方法,该方法包括下列步骤:
-建立双标记的数据库,包括提取至少一种双标记,例如来自双标记库或来自现有的双标记数据库,所述双标记序列包括来自核酸分子或核酸分子的片段的5’末端标记和3’末端标记,例如来自基因转录本;
-将5’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个5’位点,至少一个5’位点的每个都具有与5’末端标记匹配的序列;
-将3’末端标记匹配到基因组序列的至少一部分以由此从基因组序列中鉴定出至少一个3’位点,至少一个3’位点的每个都具有与3’末端标记匹配的序列;
-鉴别至少一段存在的区段,所述至少一段存在的区段的每段为在所述至少一个5’位点之一和至少一个3’位点之一之间沿着基因组序列的序列区段,所述至少一段存在的区段的每段都具有序列长度;以及
-从至少一种存在的区段鉴定出至少一种可行的基因位置,每一至少一种所述可行的基因位置为至少一种序列长度不超过该区段预定的基因长度的所述至少一种存在的区段之一,它的序列顺序以及其中对应的与5’-存在的区段-3’结构一致的至少一个5’位点之一和至少一个3’位点之一跟基因组序列相应部分的序列顺序相匹配,5’位点与其中对应的至少一个5’位点之一以及至少一个3’位点之一具有5’-3’取向,并且与每一存在的区段相对应的至少一个5’位点之一以及至少一个3’位点之一被定位于同一染色体中。
根据以上所述,有效全正文索引数据-结构包括后缀树和后缀数组。后缀树为树样数据结构,具有起源于根的分枝,每个分枝结束于编码基因组序列后缀的叶。所述后缀数组是根据字典编辑顺序对所有基因组的后缀分类的序列。所述后缀数组表示为数组SA[i],其中i=1...n并且SA[i]=j表示j-后缀(j-suffix)(从字母j开始的后缀)在字典编辑顺序中为第i个最小后缀。
后缀树和后缀数组都允许快速模式检索。给定长度X的模式(pattern),对于后缀树和后缀数组,它在基因组G[1...n]中的存在可以分别在O(x)时间和O(x log n)时间内得到报告。虽然询问时间很快,但建立后缀树和后缀数组不总是可行的,因为它们需要很大空间。例如,对于小鼠基因组,所述后缀数和后缀数组分别需要40千兆字节(Gigabytes,GB)和13GB。所述存储要求远远超过了普通电脑的存储能力。为了解决存储空间问题,我们使用了空间有效的压缩后缀数组(compressed suffix array,CSA)索引数据结构。CSA是后缀数组的压缩形式。其可以得到有效建立而没有了使用已知算法时的巨大存储要求。同时,建立好的CSA非常小。例如鼠基因组(mm3)的CSA只占大约1.3GB。此外,CSA也能够支持有效检索。长度X的检索方式只需要O(x log n)时间。
本发明的第一种实施方式,参考图3描述转录本定位方法20,图3显示了转录本定位方法100的过程流程图。转录本定位方法100用于从基因获得转录本。从图4中可以看出,在转录本定位方法100的步骤110中,从转录本获得5’末端标记24和3’末端标记26。
结合起来,5’末端标记24和3’末端标记26形成如上所述的GIS双标记30并在图4中得到展示。GIS双标记30的双标记长度32为36bp,具有来自5’末端标记24的18bp核苷酸序列,以及来自3’末端标记26的另外18bp核苷酸序列。由于在分子克隆过程中某些酶的变异,GIS双标记30的双标记长度32可以在34bp至38bp之间变化。
变异经常发生在靠近5’末端标记24和3’末端标记26的末端,而内部的核苷酸的结构保持不变。3’末端标记26中,两个残基核苷酸34(AA)在从其中除去聚合A尾的过程中被保留。该AA残基核苷酸34然后用作取向指示子(orientation indicator)。因此在GIS双标记30中,只有16bp的3’末端标记26可用于定位于基因组序列36。
接着步骤110,5’末端标记24和3’末端标记26的每一个在步骤112中与基因组序列36匹配。在步骤112中,当5’末端标记24和3’末端标记26分别与基因组序列36匹配时,5’位点38和3’位点40得到鉴定。每一5’位点38和每一3’位点40是基因组序列36的一部分,具有基本上分别与5’末端标记24和3’末端标记26匹配的序列。
在步骤114中,至少一段存在的区段42从基因组序列36中鉴定出来。每一至少一段存在的区段42是沿基因组序列36的位于一个5’位点38和一个3’位点40之间的序列区段。每一至少一段存在的区段42具有序列长度44。
给定GIS双标记30(P)用于转录本(R),在基因组序列36(G)中定位R的计算问题被称为转录本位置鉴定问题。因此给定G[1...n]和P[1...m],鉴别存在的区段42作为P的可行性基因位置,当:序列长度44(j-i)小于预定的基因长度(最大长度),对已知基因而言其长度通常小于1百万碱基对;5’末端标记24和3’末端标记26分别长于预定的最小长度5和最小长度3(其中最小长度5=16bp且最小长度3=14bp);以及R的5’末端标记24和3’末端标记26分别为P[1...边界5]和P[边界3...m]的子串(其中边界5=19边界3=18)。
基因组序列36优选使用压缩的后缀数组(CSA)进行索引。优选通过将二元检索(binary search)应用于压缩的后缀数组,5’末端标记24和3’末端标记26匹配于基因组序列36。用于匹配5’末端标记24和3’末端标记26的二元检索取决于两个主题(lemmas),即主题1用于在压缩的后缀数组上执行正向检索,主题2用于在压缩的后缀数组上执行反向检索。
主题1(正向检索):给定用于基因组G[1..n]的CSA以及在G中一组模式Q的出现,用于任何碱基c∈{腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)},在O(log n)时间内可得到一组模式Qc的出现。正向二元检索通过改良常规的二元检索算法来完成,当与在二元检索中的模式Q比较时,使用在压缩后缀数组和后缀数组中的值,取代用于基因组序列36内的后缀的外在正文。
主题2(反向检索):给定用于基因组G[1..n]的CSA以及在G中一组模式Q的出现,用于任何碱基c∈{腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)},使用O(log n)时间,我们可以发现一组模式cQ的出现。
图6中展示了用于正向和反向检索的伪代码(pseudo code)“Find_Sites”。与在步骤114中先后应用正向检索和反向检索不同,可选的途径是只将主题1的正向检索或者主题2的反向检索应用于基因组序列36以鉴定至少一段存在的区段42。
GIS双标记30可以正义或反义地出现在基因组序列36中。为说明这个问题,对每一正义基因组序列和反义基因组序列创设了索引。可以创设反义GIS双标记,而不是创设两个独立的索引数组。对于每一5’末端标记24和3’末端标记26,后缀数组在步骤110中被检索两次,一次使用正义GIS双标记30,第二次使用反义GIS双标记(未标识)。
此外,基因组序列36可以被天然地分配到多条染色体中。这使得对于每一染色体的序列区段创设出压缩的后缀数组。通过这样做,对于具体的染色体而不是整个基因组序列36,可获得5’位点38和3’位点40。
除了压缩的后缀数组、后缀数组、后缀树、二元的或者其它,索引数据结构可以用于索引如上所述的基因组序列36。
接着步骤114,5’位点38和3’位点40经历用于鉴定可行基因位置的系列检查。所述检查包括长度、位置、方向以及顺序检查。
在步骤116中,通过将每一至少一段存在的区段42的序列长度44与步骤116中预定的基因长度进行比较,执行长度检查。起初,优选以升序对5’位点38和3’位点40进行分类。然后,序列长度44不超过预先定义的基因长度(最大长度)的每一至少一段存在的区段42被鉴定为潜在的可行基因位置。图7中展示了用于步骤116的伪代码“Match_sites_1”。
在步骤118中,进行定位检查,由此分析对应于每一至少一段存在的区段42的5’位点38和3’位点40,以鉴定它们中的每一个定位于哪条染色体内。只有当存在的区段42的5’位点38和3’位点40属于同一染色体时,存在的区段42才鉴定潜在的可行基因位置。
步骤120中,通过鉴定相对于每一存在的区段42的5’位点38和3’位点40的方向,进行方向检查。5’位点38和3’位点的取向通过确定残基核苷酸34的位置可以得到鉴定。优选地,5’位点38和3’位点40对于它们的存在的区段42具有5’-3’的取向以鉴定潜在的可行基因位置。
在步骤122中,通过将每一存在的区段42以及相应的5’位点38和3’位点40与基因组序列36进行比较,进行顺序检查。优选地,每一存在的区段42以及相应的5’位点38和3’位点40的排序应遵循用于成为潜在可行位点的5’-存在的区段-3’结构。
转录本定位方法的步骤116-122可以联合地或独立地发生在任何序列中。
在没有从GIS双标记30发现可行的基因位置的情况下,当在步骤112中将3’末端标记26匹配到基因序列36时,放宽限制以允许至少一个错配。
可选择地,在步骤112中5’位点38和3’位点40匹配到基因组序列36之前,可以首先获得5’位点38的量和3’位点40的量。这样能鉴定5’位点38和3’位点40之间的量的差异,例如当只存在少于10个的5’位点38和多于好几万的3’位点40时,或者反之亦然。
当5’位点38和3’位点40之间存在巨大的量的差异时,所述转录本定位方法20经历在基因组序列36中过剩定位的多重迭代。因此,当产生巨大的量的差异时,转录本定位方法100需要改进的方法。为了鉴定该量的差异,差异条件确定如下:
Figure A20068002758200411
其中,计数5为5’位点38的量,计数3为3’位点40的量,并且阈值5,3为预定的阈值,例如阈值5,3=10000,用于限定计数5和计数3之间的定量差异。无需枚举任何5’位点38或任何3’位点,CSA能够获得计数5和计数3二者。
在满足上述差异条件时,应用图8的伪代码“Match_sites_2”中描述的方法。在伪代码“Match_sites_2”中,在基因组序列36中定位所需要的迭代的数目由计数5和计数3中较小的一个决定。例如,如果只存在两个5’位点38,在基因组序列36中定位或沿着基因组序列36往返移动只迭代两次以获得相应的3’位点40之一,对两个5’位点38的每一个迭代一次,用于从它们中获得存在的区段42。
然而,如果不满足上述差异条件,计数5和计数3之间量的差异不大,因此转录本定位方法100复原成“Match_sites_1”所述的方法用于获得存在的区段42。
在上述的方式中,描述了根据本发明的一个实施方式的转录本定位方法,用于阐明常规定位方法的前述缺点。虽然本发明只公开了一种实施方式,但是本领域技术人员能够在不背离本发明范围和精神的情况下很容易进行很多变化和/或改进。
现已对本发明进行了一般描述,通过参考有关GISditagTool的具体实施例,在下列以图解方式提供的附图的辅助下本发明将更容易被理解,并且所述具体实施例和附图并不是为了限定本发明。
GISditagTool-系统和方法
1、数据管理(Data Management)
为了满足大规模数据分析的要求,数据和结果以项目、库、板和孔的分级结构进行组织,附上作用(action)记录和它们对应的参数(图9)。基于数据特征,可以使用平面文件系统和关系数据库管理系统(RDBMS)的杂交体(hybrid)。上传的序列读数可以用记录在关系数据库管理系统中的位置索引存储为平面文件以支持快速检索。剩余的信息和处理的结果可以保留在RDBMS以便咨询。所述信息和结果包括各种统计结果、处理结果、追踪属性以及定位结果。
图10中展示了GISditagTool模块和mySQL数据库。GISditagTool可以包括一个或多个模块。特别地,GISditagTool可以包括两个或两个以上模块,例如,四个模块:即项目模块、提取器模块、检查器模块和定位模块。它们中的每一个用于不同的目的:项目用于组建数据和文件;提取器用于提取双标记;检查器用于质量控制;以及定位用于标记至基因组的定位。mySQL合理的数据库(DB)管理系统提供了用于那些模块之间的活动的从容运输(trafficking);
2、GIS双标记(PET)分析工作流程、方法和系统
完整的GIS双标记分析工作流程包括,例如,五个连续的步骤:1)用户创建项目,然后在项目中创建一个库或者多个库。输入具体的库信息包括提取和定位的参数。2)从局域终端将单一或多个文件中的序列上传至相应的库,并且使用事先定义的参数从所述序列中提取双标记。3)可以在项目、库、板、孔/序列、或者双标记水平上进行质量控制(QC)。4)然后用UCSC基因组数据库对双标记对进行定位,例如通过使用SAT2G,并且定位结果以UCSC图像形式展示。5)用定位结果对相应的数据库的双标记进行注释。
步骤1-4分别由GISditagTool用项目模块、提取器模块、检查器模块和定位模块进行。步骤5可以并入GISditagTool或者作为补充的独立的步骤执行。
GISditagTool模块的流程图如图11至图14所示。具体地,图11显示了项目模块的流程图,图12显示了提取器模块的流程图,图13显示了检查器模块的流程图,以及图14显示了定位模块的流程图。
3、双标记提取
提取器模块的流程图如图11所示。图15中展示了GISditagTool的提取及质量控制窗口和用户界面。序列读数可以通过提取器模块(B)(在图16也有显示)被上传来用于提取双标记。提取参数可以在此阶段得到修改。QC依次进行。图15最上面的面板(A)显示所有项目的统计(在图16也有显示)。当激活检查器模块时,用于所有库的双标记统计得到展示(C)。点击库、库中的板,以及接着板中的孔,用户能分别评估板(D)、孔(E)和序列(F)的质量。
输入序列(以fasta格式)用phredPhrap进行碱基命名和评测以保证质量。所述fasta格式为科学团体在处理科学数据时使用的主要格式(http://ngfnblast.gbf.de/docs/fasta.html)。Phred和Phrap由Phil Green’s小组在华盛顿大学制出,并不断提高或改良(http://www.phrap.org/phredphrap/phrap.html)。序列ID一般包括库、板、孔、测序引物等信息,以制成唯一的组合;然而顺序和特性可以在不同机构中变化。为了调整不同联盟的命名规则,系统为每个联盟存储了命名的Perl小片,用于合适的序列ID检索。在双标记提取过程中,新的唯一双标记用增大的运行序号进行分配,以避免ID与在将来上传中可以被提取的双标记冲突。提取算法包括下列选择标准或参数:最小双标记长度,34bp;最大双标记长度,40bp;最大序列长度,1000bp;以及确定的5’、3’和间隔所述双标记的内部间隔子序列(图15-B)。所有合格的双标记在3’末端应该具有AA-尾。我们将以“TT”开始的双标记倒转到它们各自的互补链,因为它们从相反的链进行测序。去除了在’或3’标记区域内含有多聚腺苷酸(9bp)或者多聚胸腺嘧啶(9bp)的双标记,因为它们或者是污染的序列,或者是真实序列但具有潜在的定位难度。含有“N”的双标记也被去除。最后去除AA-尾以防止在定位中的复杂化。
4、质量检查
质量检查是为了在各种水平上对提取结果进行评估,以提供可以帮助在湿实验室材料(wet-lab material)、实验设计或技术中精确地找到问题的线索。其通过使用“检查器”模块执行。在项目水平上(图15A),其展示了每个项目的项目开始时间、总的好的读数(total good read)和总双标记。在库水平上(图15-C和图17-C),所述界面展示了有关好的读数(good read)的总数、唯一双标记和每库已经被提取的总双标记的信息。快速浏览可以确定库的状态和性能以及各种库之间的差异。为了更深层次的质量检查,允许用户点击具体的库以显示该库中所有的板(图15-D和17-D)。这里,统计以板为基准。如果用户对质量不满意,用户可以删除任何板并且系统将立即更新变化。当选择了具体的板,GISditagTool显示所有384个孔的生动视图(代表相应的序列),其上显示了被提取双标记的数目(图15-E和图18-E)。点击孔,用户可以更近地观看5’和3’侧翼序列、间隔子以及合格及不合格两种双标记的分布。
5、定位
因SAT2G的速度和精度,本发明的发明人采用了SAT2G用于定位。本发明的发明人将5’标记的亚序列(subsequence)定义为第一18±1bp,并允许它们起始于位置1、2或3。双标记其余的部分形成3’标记的亚序列。这些亚序列独立地定位于基因组数据库。然后5’比对与3’比对配对以鉴定可行的基因组靶(图5)。成功的配对必须满足以下标准:5’和3’比对必须在同一染色体、同一链、同一方向上,在一百万bp距离内,并且在5’接着3’的顺序中;5’和3’比对分别需要有至少16和14bp的完全匹配。没有成功配对的双标记收集到PET0中,单一配对的在PET 1中,双重配对的在PET 2中等(图20G)。如所期待的,上述参数设定将把非标准处理(例如反剪接)产生的双标记推入PET 0类别;然而所述双标记可以在以后从PET0中回收用于进一步分析。
定位出的位置可以链接到局域或遥远的用于基因注释和其他相关信息的UCSC基因组浏览器(图20-H)。可选地,用户可以用其他数据库进行进一步分析。在我们的情况下,这些双标记使用具有镜像UCSC注释数据库的T2G流水线进一步与基因或转录本联合。这些联合可以使用局域化的UCSC基因组浏览器从T2G网址获得。
RDBMS中的双标记的提取和/或存储以及用SAT2G的基因组定位与GISditagTool的功能相关。RDBMS提供了快速有效的数据运输。SAT2G对GISditagTool的强大定位能力作出贡献。对于BLAST(不配对),用常规的750兆赫的Solaris机器处理100K双标记将需要大约2个月,而CSA在相同或详细的定位标准下运行只花几个小时。所述速度允许有效数据分析。除此之外,GISditagTool允许和支持每个双标记库对不同基因组组合的定位。用户可以使用新近可供的基因组组合,同时保留早期定位用于比较。直接的PET至基因组的定位途径不仅绕开对病毒数据库的需要,它还允许发现新的基因,因为染色体定位可以被连接到库中用于进一步挖掘数据。
6、结果
本发明的发明人具有如此开发的GISditagTool,其为用于大规模双标记(PET)加工以及基因组定位的多组件、基于网络、数据库支持(例如mySQL-支持)的应用程序。其包括两个或两个以上的模块,优选四个模块:用于数据组建的项目模块、用于双标记提取的提取器模块、用于质量检查的检查器模块,以及使用定位系统例如SAT2G(基于标记对基因组的后缀数组)的用于鉴定PET的染色体位置的定位模块。可以在库、板、孔、序列和双标记水平上评估数据的质量。它有能力提取一百万个PET并在一天内完成基因定位。定位结果可以展示在任何已知基因组浏览器中,例如,加州大学圣克鲁兹分校(UC Santa Cruz,UCSC)基因浏览器。
新型GISditagTool技术要求参数形式的用于PET提取的新算法。所述参数至少包括:最小双标记长度、最大双标记长度以及间隔子序列。提取后,我们预期选择直接的PET至基因组的注释途径,并将该算法整合到软件程序包中。
GISditagTool已经被用于分析超过20个产生自各种生物体的库。使用小鼠胚胎肝细胞系作为例子,从37,754个序列读数中提取总共248,234个双标记,相当于135,328个唯一的双标记。不允许错配,71.90%的总双标记已经成功定位于UCSC小鼠基因组组合(assembly)mm3的位置中,52.29%的总双标记具有单一的定位位置。在实践中已证明,GISditagTool具有超常且可信的性能,并且是非常用户友好的。
序列表
SEQUENCE LISTING
<110>新加坡科技研究局
<120>对双标记序列进行处理和/或基因组定位的方法
<130>P8946LLS
<150>US 11/151,591
<151>2005-06-14
<160>31
<170>PatentIn version 3.3
<210>1
<211>36
<212>DNA
<213>小家鼠(Mus musculus)
<400>1
gcgctagagg cggcggcact acaagtttaa tatgaa     36
<210>2
<211>37
<212>DNA
<213>小家鼠(Mus musculus)
<400>2
gccttttcct gtgggagcaa acatgtggtg acaagaa    37
<210>3
<211>12
<212>DNA
<213>小家鼠(Mus musculus)
<400>3
gtcggatccg ac                               12
<210>4
<211>12
<212>DNA
<213>小家鼠(Mus musculus)
<400>4
agtggatccg ac    12
<210>5
<211>                                                                12
<212>DNA
<213>小家鼠(Mus musculus)
<400>5
gtcggatccg ag                                                        12
<210>6
<211>462
<212>DNA
<213>小家鼠(Mus musculus)
<400>6
tggtaccgag ctcggatccg acttgtgatt gagatttctc gccgagacgt gacccctcgt    60
cggatccgac gcgaacggcg agcagcggca taaagtgatc tcgttcaagt cggatccgac   120
gcttcccttt aagggggcgg cgtcccttcc tcattaagtc ggatccgact tagattttta   180
gaaatcaacg cacgctgcac tcccgcgtcg gatccgactt ccttttaaaa taatttatgc   240
cgccgccgct gcccgtcgga tccgacgtgg aagaggagga aacttagttc gctgcaccca   300
ctaagtcgga tccgacttgc agtaacattc ccgtttttcc tgcctaagcc gtcggatccg   360
acgagcgcct tggaggtccc aagctttttg agacagaagt cggatccgac ttggtgtttg   420
cttttattac cgcgcgcccc agactcgtcg gatccactag ta                      462
<210>7
<211>58
<212>DNA
<213>小家鼠(Mus musculus)
<400>7
tggtaccgag ctcggatccg acttgtgatt gagatttctc gccgagacgt gacccctc   58
<210>8
<211>38
<212>DNA
<213>小家鼠(Mus musculus)
<400>8
gcgaacggcg agcagcggca taaagtgatc tcgttcaa                         38
<210>9
<211>37
<212>DNA
<213>小家鼠(Mus musculus)
<400>9
gcttcccttt aagggggcgg cgtcccttcc tcattaa                          37
<210>10
<211>37
<212>DNA
<213>小家鼠(Mus musculus)
<400>10
ttagattttt agaaatcaac gcacgctgca ctcccgc                          37
<210>11
<211>36
<212>DNA
<213>小家鼠(Mus musculus)
<400>11
ttccttttaa aataatttat gccgccgccg ctgccc                          36
<210>12
<211>38
<212>DNA
<213>小家鼠(Mus musculus)
<400>12
gtggaagagg aggaaactta gttcgctgca cccactaa                    38
<210>13
<211>34
<212>DNA
<213>小家鼠(Mus musculus)
<400>13
ttgcagtaac attcccgttt ttcctgccta agcc                        34
<210>14
<211>36
<212>DNA
<213>小家鼠(Mus musculus)
<400>14
gagcgccttg gaggtcccaa gctttttgag acagaa                      36
<210>15
<211>52
<212>DNA
<213>小家鼠(Mus musculus)
<400>15
ttggtgtttg cttttattac cgcgcgcccc agactcgtcg gatccactag ta    52
<210>16
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>16
gctttccggt ggaggagtct tgctttgtgt aagcc                       35
<210>17
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>17
cctttctgag ccccggcgaa atcgtcttaa tggtc    35
<210>18
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>18
ggtctttccg gacctggcca aaaaaacatt ggacg    35
<210>19
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>19
tctcggctgc ggactgagaa tactttttgc atcct    35
<210>20
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>20
gagcgccgta gccagccccc agctgctgac aaccc    35
<210>21
<211>33
<212>DNA
<213>小家鼠(Mus musculus)
<400>21
gatgtggtgc ggaaggagaa atatttgttt gtg      33
<210>22
<211>34
<212>DNA
<213>小家鼠(Mus musculus)
<400>22
ggcggccgcg tggttcctgc taaggcgaaa acgt    34
<210>23
<211>34
<212>DNA
<213>小家鼠(Mus musculus)
<400>23
ggaatccgag gggttgggtt aaaacttgaa atgg    34
<210>24
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>24
gagtctccac ccggattcta aagtatatac ccccc   35
<210>25
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>25
gctttccttt cagcggcgct aataaaatct tgaac   35
<210>26
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>26
gggggccggg ggcggcggag taaagactac agacc   35
<210>27
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>27
ggggcgacct cttcctgcga aacgtgaatt ctgag    35
<210>28
<211>34
<212>DNA
<213>小家鼠(Mus musculus)
<400>28
ggccttctgc caatccagta catttgaaat tacc     34
<210>29
<211>35
<212>DNA
<213>小家鼠(Mus musculus)
<400>29
ggtctttctg cggaatccgt ggacattttc ctgcg    35
<210>30
<211>34
<212>DNA
<213>小家鼠(Mus musculus)
<400>30
gctctcgaac caggctgcgc gagactgact ggcc     34
<210>31
<211>34
<212>DNA
<213>小家鼠(Mus musculus)
<400>31
gctccccaac ccgctcgcgc aaacttttag tacc     34

Claims (29)

1.一种处理双标记核苷酸序列的方法,该双标记序列包括核酸分子、核酸分子片段、或者基因组片段的5’末端标记和3’末端标记,该方法包括建立包括至少一种双标记序列的数据库或文件。
2.根据权利要求1所述的方法,其中,所述双标记序列的数据库或文件是通过从至少一个包括双标记的库的序列中提取双标记序列而建立的。
3.根据权利要求1或2所述的方法,其中,双标记库的每个双标记序列以间隔子核苷酸序列为侧翼,并且通过输入所述间隔子核苷酸序列而从所述库中提取双标记序列。
4.根据权利要求1-3中任意一项所述的方法,其中,所述双标记库包括至少一种两个或两个以上双标记的多联体,所述多联体在5’-3’方向上包括第一个双标记上游侧翼的间隔子、最后一个双标记下游侧翼的间隔子,并且其中每两个相邻双标记被位于它们之间的间隔子间隔开。
5.根据权利要求3或4所述的方法,其中,所述双标记库包括一种或多种间隔子序列,每个间隔子序列具有与其它间隔子序列不同的核苷酸序列。
6.根据权利要求1-5中任意一项所述的方法,该方法包括:
-由双标记库提供核苷酸序列,其中,所述双标记库的每个双标记序列以间隔子核苷酸序列为侧翼;以及
-通过输入所述间隔子核苷酸序列来提取所述双标记序列,以建立双标记的数据库或文件。
7.根据权利要求1-6中任意一项所述的方法,其中,通过输入下列参数来提取所述双标记序列:
-至少一种间隔子核苷酸序列;
-最小的双标记碱基对数目,其中,该数目为选自32-38范围内的数;以及
-最大的双标记碱基对数目,其中,该数目为选自36-42范围内的数。
8.根据权利要求7所述的方法,其中,所述最小的双标记碱基对数目为34和/或所述最大的双标记碱基对数目为40。
9.根据权利要求1-8中任意一项所述的方法,其中,所述双标记序列包括基因、外显子、部分基因组、或者它们的片段的转录本的5’末端标记和3’末端标记。
10.根据权利要求1-9中任意一项所述的方法,其中,所述双标记序列包括全长cDNA的5’末端标记和3’末端标记。
11.根据权利要求1-10中任意一项所述的方法,其中,所述双标记序列包括至少为16个碱基对的5’末端标记和至少为14个碱基对的3’末端标记。
12.根据权利要求1-11中任意一项所述的方法,其中,该方法还包括对所述数据库或文件的双标记序列进行质量控制检查。
13.根据权利要求1-12中任意一项所述的方法,其中,该方法用于将双标记核苷酸序列定位于基因组,该方法包括:
-建立包括至少一种双标记序列的数据库或文件;以及
-将至少一种双标记序列定位于基因组,包括将双标记序列的5’和3’末端标记匹配到基因组的至少一部分。
14.根据权利要求13所述的方法,其中,双标记库的每个双标记序列以间隔子核苷酸序列为侧翼,并且通过输入所述间隔子核苷酸序列而从所述库中提取所述双标记序列。
15.根据权利要求1-14中任意一项所述的方法,其中,通过输入下列参数来提取所述双标记序列:
-至少一种间隔子核苷酸序列;
-最小的双标记碱基对数目,其中,该数目为选自32-38范围内的数;以及
-最大的双标记碱基对数目,其中,该数目为选自36-42范围内的数。
16.根据权利要求13所述的方法,其中,所述定位的步骤还包括在匹配的至少一个5’末端和至少一个3’末端之间沿着基因组序列鉴定至少一个区段;以及鉴定至少一种染色体位置、基因、外显子位置、或者它们的片段。
17.根据权利要求16所述的方法,其中,鉴定出的基因位置为新发现的基因位置。
18.根据权利要求13所述的方法,其中,所述双标记序列的提取和/或基因组定位通过因特网在计算机上执行和/或通过介质支持的因特网执行。
19.一种用于处理双标记核苷酸序列的系统,该系统至少包括用于建立包括至少一种双标记序列的数据库或文件的模块,所述双标记序列包括核酸分子、核酸分子的片段或基因组的片段的5’末端标记和3’末端标记。
20.根据权利要求19所述的系统,其中,所述双标记序列的数据库或文件是通过至少一个包括双标记的库的序列中提取双标记序列而建立的。
21.根据权利要求20所述的系统,其中,双标记库的每个双标记序列以间隔子核苷酸序列为侧翼,并且通过输入所述间隔子核苷酸序列而从所述库中提取所述双标记序列。
22.根据权利要求21所述的系统,其中,操作者选择至少一种链接,该链接激活模块,所述模块启动至少一个用户界面,并且其中所述操作者将以下参数输入该用户界面:
-至少一种间隔子核苷酸序列;
-最小的双标记碱基对数目,其中,该数目为选自32-38范围内的数;以及
-最大的双标记碱基对数目,其中,该数目为选自36-42范围内的数,
由此产生被提取的双标记的数据库或文件。
23.根据权利要求22所述的系统,其中,所述最小的双标记碱基对数目为34和/或所述最大的双标记碱基对数目为40。
24.根据权利要求19-23中任意一项所述的系统,其中,所述双标记序列包括基因、外显子、部分基因组、或者它们的片段的转录本的5’末端标记和3’末端标记。
25.根据权利要求19-24中任意一项所述的系统,其中,所述系统还包括双标记序列的数据库或文件的质量控制模块。
26.根据权利要求19-25中任意一项所述的系统,其中,所述系统还包括用于将至少一种双标记序列定位于基因组的模块,包括将双标记的5’和3’末端标记匹配到基因组的至少一部分。
27.根据权利要求19-26中任意一项所述的系统,其中,所述系统至少包括:
-第一用户界面,该第一用户界面包括至少一个用于提取(提取器)双标记序列的链接、以及用于将双标记定位于基因组的链接;
-第二用户界面,该第二用户界面由操作者通过选择或点击所述提取器而被激活,该第二用户界面包括用于输入最小的双标记碱基对数目、最大的标记碱基对数目、以及至少一种间隔子序列的核苷酸序列的字段;
-第三用户界面,该第三用户界面用于将双标记序列定位于基因组;以及
-第四用户界面,该第四用户界面显示所述定位的结果,其中,所述双标记与基因组进行比对。
28.根据权利要求19-27中任意一项所述的系统,其中,所述系统能够由操作者在电脑上操作,并且所述操作通过因特网在计算机上执行和/或通过介质支持的因特网执行。
29.一种包括计算机程序的计算机可读介质,该计算机程序在与计算机关联时是可操作的,并且其中所述计算机程序包括权利要求19所述的系统。
CNA2006800275826A 2005-06-14 2006-06-12 对双标记序列进行处理和/或基因组定位的方法 Pending CN101233509A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/151,591 US8428882B2 (en) 2005-06-14 2005-06-14 Method of processing and/or genome mapping of diTag sequences
US11/151,591 2005-06-14

Publications (1)

Publication Number Publication Date
CN101233509A true CN101233509A (zh) 2008-07-30

Family

ID=37524501

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800275826A Pending CN101233509A (zh) 2005-06-14 2006-06-12 对双标记序列进行处理和/或基因组定位的方法

Country Status (10)

Country Link
US (1) US8428882B2 (zh)
EP (1) EP1899860A4 (zh)
JP (1) JP2008547080A (zh)
KR (1) KR20080026153A (zh)
CN (1) CN101233509A (zh)
AU (1) AU2006258264B2 (zh)
BR (1) BRPI0611624A2 (zh)
CA (1) CA2611951A1 (zh)
TW (1) TW200712204A (zh)
WO (1) WO2006135342A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0514935D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Methods for sequencing a polynucleotide template
GB0514910D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Method for sequencing a polynucleotide template
US20090156431A1 (en) * 2007-12-12 2009-06-18 Si Lok Methods for Nucleic Acid Mapping and Identification of Fine Structural Variations in Nucleic Acids
CN101415839B (zh) 2006-02-08 2012-06-27 亿明达剑桥有限公司 对多核苷酸模板进行测序的方法
US8071296B2 (en) * 2006-03-13 2011-12-06 Agency For Science, Technology And Research Nucleic acid interaction analysis
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
US8263367B2 (en) * 2008-01-25 2012-09-11 Agency For Science, Technology And Research Nucleic acid interaction analysis
US9074244B2 (en) * 2008-03-11 2015-07-07 Affymetrix, Inc. Array-based translocation and rearrangement assays
WO2010104608A2 (en) * 2009-03-13 2010-09-16 Life Technologies Corporation Computer implemented method for indexing reference genome
EP2669387B1 (en) 2009-08-25 2016-07-20 Illumina, Inc. Methods for selecting and amplifying polynucleotides
KR20110027533A (ko) 2009-09-09 2011-03-16 엘지전자 주식회사 다중 안테나 시스템에서 제어정보 전송 방법 및 장치
WO2011053864A2 (en) * 2009-10-30 2011-05-05 The Regents Of The University Of California Bacterial metastructure and methods of use
CN102789553B (zh) * 2012-07-23 2015-04-15 中国水产科学研究院 利用长转录组测序结果装配基因组的方法及装置
JP6198659B2 (ja) * 2014-04-03 2017-09-20 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法
TWI571763B (zh) * 2014-12-01 2017-02-21 財團法人資訊工業策進會 次世代定序分析系統及其次世代定序分析方法
WO2017044609A1 (en) 2015-09-08 2017-03-16 Cold Spring Harbor Laboratory Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides
US11031092B2 (en) 2017-11-01 2021-06-08 International Business Machines Corporation Taxonomic annotation of variable length metagenomic patterns
ES2965266T3 (es) 2020-03-09 2024-04-11 Illumina Inc Métodos para la secuenciación de polinucleótidos
CN113517026B (zh) * 2021-06-16 2022-08-19 苏州拉索生物芯片科技有限公司 应用于生物制品的标签序列的生成方法、系统、智能终端及计算机可读存储介质
AU2022409487A1 (en) 2021-12-16 2024-01-18 Illumina, Inc. Hybrid clustering
AU2022413263A1 (en) 2021-12-17 2024-01-18 Illumina, Inc. Orthogonal hybridization
EP4341425A2 (en) 2022-03-15 2024-03-27 Illumina, Inc. Concurrent sequencing of forward and reverse complement strands on concatenated polynucleotides for methylation detection
WO2023175024A1 (en) 2022-03-15 2023-09-21 Illumina, Inc. Paired-end sequencing
WO2024061799A1 (en) 2022-09-19 2024-03-28 Illumina, Inc. Deformable polymers comprising immobilised primers
US20240102067A1 (en) 2022-09-26 2024-03-28 Illumina, Inc. Resynthesis Kits and Methods
US20240124929A1 (en) 2022-09-30 2024-04-18 Illumina, Inc. Mesophilic compositions for nucleic acid amplification
US20240124914A1 (en) 2022-09-30 2024-04-18 Illumina, Inc. Thermophilic compositions for nucleic acid amplification
US20240110221A1 (en) 2022-09-30 2024-04-04 Illumina, Inc. Methods of modulating clustering kinetics
US20240110234A1 (en) 2022-09-30 2024-04-04 Illumina, Inc. Amplification Compositions and Methods

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69913092T2 (de) * 1999-01-27 2004-09-09 Commissariat à l'Energie Atomique Microassay zur Serienanalyse der Genexpression und Anwendungen davon
US6816867B2 (en) * 2001-03-12 2004-11-09 Affymetrix, Inc. System, method, and user interfaces for mining of genomic data
US20040018506A1 (en) 2002-01-25 2004-01-29 Koehler Ryan T. Methods for placing, accepting, and filling orders for products and services
GB0228289D0 (en) 2002-12-04 2003-01-08 Genome Inst Of Singapore Nat U Method
US8222005B2 (en) 2003-09-17 2012-07-17 Agency For Science, Technology And Research Method for gene identification signature (GIS) analysis
EP2202322A1 (en) 2003-10-31 2010-06-30 AB Advanced Genetic Analysis Corporation Methods for producing a paired tag from a nucleic acid sequence and methods of use thereof
US8005621B2 (en) 2004-09-13 2011-08-23 Agency For Science Technology And Research Transcript mapping method

Also Published As

Publication number Publication date
EP1899860A4 (en) 2008-08-06
KR20080026153A (ko) 2008-03-24
JP2008547080A (ja) 2008-12-25
BRPI0611624A2 (pt) 2010-09-21
US20060281097A1 (en) 2006-12-14
TW200712204A (en) 2007-04-01
AU2006258264B2 (en) 2012-03-08
WO2006135342A1 (en) 2006-12-21
US8428882B2 (en) 2013-04-23
AU2006258264A1 (en) 2006-12-21
EP1899860A1 (en) 2008-03-19
CA2611951A1 (en) 2006-12-21

Similar Documents

Publication Publication Date Title
CN101233509A (zh) 对双标记序列进行处理和/或基因组定位的方法
EP2718862B1 (en) Method for assembly of nucleic acid sequence data
US20060286566A1 (en) Detecting apparent mutations in nucleic acid sequences
KR20070083641A (ko) 전사 맵핑을 위한 유전자 식별 기호 분석방법
Ranzani et al. Next-generation sequencing analysis of long noncoding RNAs in CD4+ T cell differentiation
CN103348350A (zh) 核酸信息处理装置及其处理方法
Gan et al. A pattern-based nearest neighbor search approach for promoter prediction using DNA structural profiles
WO1996038589A1 (en) Method for analyzing partial gene sequences
MXPA05010276A (es) Perfil genomico de sitios de enlace al factor regulador.
Papatsenko et al. Conservation patterns in different functional sequence categories of divergent Drosophila species
Dobin STAR manual 2.7. 0a
KR101911307B1 (ko) 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술
George et al. Customized genomes for human and mouse ribosomal DNA mapping
CN113284552B (zh) 一种微单倍型的筛选方法及装置
Schattner Genomes, browsers and databases: data-mining tools for integrated genomic databases
TW201920682A (zh) 多型之檢測方法
Fletcher et al. AFLAP: Assembly-Free Linkage Analysis Pipeline using k-mers from whole genome sequencing data
AU780824B2 (en) DNA marker profile data analysis
CN117012285B (zh) 一种高通量测序数据处理及分析流程管控系统
CN115391284B (zh) 基因数据文件快速识别方法、系统和计算机可读存储介质
Porter Mapping bisulfite-treated short DNA reads
Bolognini Unraveling tandem repeat variation in personal genomes with long reads
Rachappanavar et al. Analytical Pipelines for the GBS Analysis
Chuang et al. GABOLA: A Reliable Gap-Filling Strategy for de novo Chromosome-Level Assembly
JP2005250615A (ja) 遺伝子解析支援システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080730