CN101142479A - 用于非二进制序列比较的系统、方法和计算机程序 - Google Patents

用于非二进制序列比较的系统、方法和计算机程序 Download PDF

Info

Publication number
CN101142479A
CN101142479A CNA2006800087494A CN200680008749A CN101142479A CN 101142479 A CN101142479 A CN 101142479A CN A2006800087494 A CNA2006800087494 A CN A2006800087494A CN 200680008749 A CN200680008749 A CN 200680008749A CN 101142479 A CN101142479 A CN 101142479A
Authority
CN
China
Prior art keywords
module
sequence
dna
analysis
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800087494A
Other languages
English (en)
Inventor
杰弗里·M·克拉克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BioInformatica LLC
Original Assignee
BioInformatica LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BioInformatica LLC filed Critical BioInformatica LLC
Publication of CN101142479A publication Critical patent/CN101142479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于进行生物序列的非二进制比较的系统和方法包括新的测量值Cω0,其为用在称为VaSSA-I的独立模块中的非二进制计数测量值。与通过常规生物信息学技术收集的相比,该测量值得到多得多的关于序列及它们之间比较的信息。

Description

用于非二进制序列比较的系统、方法和计算机程序
领域
本发明要求于2005年3月18日提交的第60/662,943号美国临时申请的优先权。通过引用的方式将该申请整体并入本文。
本发明总体涉及生物信息学,更具体地涉及用于确定遗传序列之间的相似和差异程度的方法。
背景
目前正在快速确定不同物种的全部基因组DNA序列。理解这些基因组的结构变化和功能是生物信息学领域的职责。此外,某些基因组数据的完成版本含有无法获得其中数据的空位。多个基因组序列数据的草图可能由多组数据组成,这些数据的相对顺序和方向难以确定。处理这些不完整数据产生对综合系统工具的新需求,特别是当比较两个或更多个基因组时。生物信息学领域需要能够更有效地处理空位。
在常规方法中,处理跨基因组比较是主要问题。对于极其相似的序列,存在计算最优比对的称为“贪婪”比对方法。这些算法允许比对中的空位且极其有效,但只对非常简单的比对计分方案有良好作用。对于更丰富的计分(涉及单一基因组的大段序列和比较多个基因组),这些贪婪方法的效率边际输于动态规化。
用于三个或更多序列的常规比对方法几乎全部转向基于公认密码子的蛋白质序列的比较,密码子为编码单一氨基酸的三个一组的核酸碱基。这可能由于很少存在来自相似物种的基因组序列数据这一现实。此外,在二进制基础上完成序列比较和同源性分析。这节约了计算资源,但忽视生物化学信息。
亟需克服常规序列比对相似性和基因序列比较工具的缺点的改进方法。
概述
用于序列分析的系统包括适于计算第一核苷酸序列和第二核苷酸序列之间的非二进制相似性得分的分析模块、文件管理模块和作图模块。
在一个实施方案中,所述系统还包括报告模块、用户选项模块和/或用户帮助模块。
在另一个实施方案中,所述文件管理模块包括适于加载至少一个序列文件的加载序列模块;适于从内存清空序列的清空当前序列模块;以及适于从内存清空加载序列的清空加载序列模块。
在另一个实施方案中,所述加载序列模块包括加载序列显示模块,其适于当序列被加载时生成和显示概要报告笔记页面,其中该概要报告笔记页面适于显示序列文件名称和多个序列。
在另一个实施方案中,所述报告模块适于生成和显示序列概要、每一加载序列的内容的列表和/或关于每一加载序列的统计信息。
在另一个实施方案中,所述分析模块包括适于比对靶序列和基本序列且适于显示比对报告的比对序列模块;适于计算序列的ω0得分且适于显示该ω0得分的ω0模块;适于定位靶序列在基本序列中的多次出现且适于显示该多次出现的查询重复模块;适于确定何时重复核苷酸是复制物的查询ω重复模块;适于计算基本序列中每一核苷酸位置的斜率并适于显示斜率报告的计算斜率模块;以及适于比较靶序列和基本序列且适于显示相似性报告的比较序列模块。
在另一个实施方案中,所述作图模块包括光谱阵列模块,其适于将基本序列和靶序列的比对系数作图;适于将基本序列和靶序列的单链作图的单链模块;适于计算基本序列中每一核苷酸位置的斜率并适于显示该斜率的图的斜率模块;以及适于计算基本序列的ωN并适于显示该ωN的图的ωN模块。
本发明的另一方面涉及序列分析的方法。该方法包括以下步骤:读取序列文件;从所述文件中选择靶序列和基本序列;进行靶序列和基本序列之间的非二进制比较,其中该非二进制比较生成比较值;以及根据该比较值确定靶序列和基本序列之间的相似性。
在一个实施方案中,所述方法还包括将比对完成的序列写入序列文件并计算对齐百分比的步骤。
在另一个实施方案中,所述方法还包括生成至少一个二维光谱阵列图或二维单链图的步骤。
在另一个实施方案中,进行非二进制比较的步骤包括使用查找表,该查找表含有两个序列元件之间的多种可能比较的非二进制相似性得分值。
根据下文中本发明优选实施方案的更具体描述,本发明的前述和其它特征及优点会更加明显,所述实施方案如附图所示,其中相似的参考标号一般指相同的、功能相似的和/或结构相似的元件。
附图的简要说明
图1描述根据本发明的示例性方法的流程图。
图2描述根据本发明的DNA分析模块的子模块的示例性实施方案。
图3描述变化序列软件(Variation Sequence Software Application)(下文称为“VaSSA”)中GUI主窗口的示例性实施方案。
图4描述VaSSA中的文件菜单(FILE MENU)窗口的示例性实施方案。
图5描述VaSSA中的笔记阅读器(NOTEBOOK VIEWER)窗口的示例性实施方案。
图6描述VaSSA中的序列概要报告(SEQUENCE SUMMARYREPORT)窗口的示例性实施方案。
图7描述VaSSA中的序列视图报告(SEQUENCE VIEW REPORT)窗口的示例性实施方案。
图8描述VaSSA中的序列视图统计(SEQUENCE VIEW STATS)窗口的示例性实施方案。
图9描述VaSSA中的比对序列(ALIGN SEQUENCE)菜单窗口的示例性实施方案。
图10描述VaSSA中的已比对的序列报告(ALIGNED SEQUENCEREPORT)窗口的示例性实施方案。
图11描述VaSSA中的查询重复(QUERY REPEAT)窗口的示例性实施方案。
图12描述VaSSA中的查询重复报告(QUERY REPEAT REPORT)窗口的示例性实施方案。
图13描述VaSSA中的ω0(OMEGA SUBZERO)窗口的示例性实施方案。
图14描述VaSSA中的ω0报告(OMEGA SUBZERO REPORT)窗口的示例性实施方案
图15描述VaSSA中的查询ω重复菜单(QUERY OMEGA REPEATMENU)窗口的示例性实施方案。
图16描述VaSSA中的查询ω重复报告(QUERY OMEGA REPEATREPORT)的示例性实施方案。
图17描述VaSSA中的计算斜率(CALCULATE SLOPE)窗口的示例性实施方案。
图18描述VaSSA中的计算斜率报告(CALCULATE SLOPEREPORT)的示例性实施方案。
图19描述VaSSA中的比较序列(COMPARE SEQUENCE)窗口的示例性实施方案。
图20描述VaSSA中的比较序列报告(COMPARE SEQUENCEREPORT)窗口的示例性实施方案。
图21描述VaSSA中的光谱阵列(SPECTRAL ARRAY)窗口的示例性实施方案。
图22描述VaSSA中的光谱阵列图(SPECTRAL ARRAY PLOT)窗口的示例性实施方案。
图23描述光谱阵列公式(SPECTRAL ARRAY FORMULA)的图片。
图24描述光谱阵列公式实例的示意图。
图25描述光谱阵列三角形结构(SPECTRAL ARRAY TRIANGLESTRUCTURE)的图片。
图26描述VaSSA中的单链(SINGLE STRAND)窗口的示例性实施方案。
图27描述VaSSA中的单链图报告(SINGLE STRAND PLOT REPORT)窗口的示例性实施方案,VaSSA比较两个含有360个碱基的序列的光谱阵列图(上图),以及比较该序列的从第250位至第295位的区域的光谱阵列图(下图),具有单碱基分辨率。
图28描述VaSSA中的其它单链图报告(SINGLE STRAND PLOTREPORT)窗口的示例性实施方案,显示单链序列之间的比较。
图29描述VaSSA中的作图斜率窗口的示例性实施方案。
图30描述单个序列的斜率图。
图31描述VaSSA中的ωN(OMEGA SUBN)窗口的示例性实施方案。
图32描述VaSSA中的ωN图(OMEGA SUBNPLOT)窗口的示例性实施方案。
图33描述核酸的四个碱基鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶的化学结构,以及在RNA中取代胸腺嘧啶的尿嘧啶的化学结构。
图34A描述涉及A\G比较的不同元素的图。
图34B描述涉及G\A比较的不同元素的图。
图34C描述涉及A\C比较的不同元素的图。
图35描述根据本发明的DNA拓扑共轭性模块的示例性实施方案。
图36描述根据本发明的DNA近似模块的示例性实施方案。
图37描述根据本发明的DNA轨道模块的示例性实施方案。
图38描述根据本发明的混沌区域分类模块的示例性实施方案。
图39描述根据本发明的DNA分岔模块的示例性实施方案。
图40描述根据本发明的DNA衍生模块的示例性实施方案。
图41描述根据本发明的DNA分析行为解析器模块的示例性实施方案。
图42描述根据本发明的结构稳定区域模块的示例性实施方案。
图43描述根据本发明的不可分解区域模块的示例性实施方案。
图44描述根据本发明的DNA复杂性碱基模块的示例性实施方案。
图45描述根据本发明的DNA比对器模块的示例性实施方案。
图46描述根据本发明的非二进制序列比较系统的示例性实施方案。
发明的详细描述
本发明的实施方案提供用于分析和确定不连续拓扑空间中序列的结构行为的综合系统。其中,该技术提供新的改进的可测量方法,包括标准化、压缩技术、结构分类和拓扑学共轭性方法。分析方法的这些结合考虑生物学、化学和生成数字控制特性的计算数学技术,和/或基因组数据的结构行为模式。
本发明能够用在广泛的生物信息学应用中。本发明的综合系统和方法提供基本上任何长度(例如从50个碱基至200万个碱基)的核苷酸序列的单序列图和其它数据。因为有效的处理步骤,本发明的综合系统和方法能够提供大量序列的比较数据。例如,已经证明所述系统对于长度为500个碱基的500个序列运行非常迅速。1000、10,000、100,000、1,000,000或更多序列的比较在本发明的范围内。
本发明的系统使用在0%(无同一性)至100%(完全相同)的同源范围内生成有意义的比较信息的非二进制方法。本发明的非二进制方法比典型二进制方法有大得多的识别力且能够解决在二进制方法中不能够区分的序列差异程度。
本发明的系统和方法有效地比较序列,不论存在任何长度的插入或删除。比对模块提供全局和局部优化以允许有意义的比较。能够在编码区域(可分解的)和含有混沌序列或ω重复的非编码(不可分解的)区域中生成单链图和比较。
在下文的说明中使用DNA碱基(A、T、G和C)。然而,应当理解本发明的系统和方法不仅可应用于DNA还可应用于所有的核苷酸,包括RNA(用尿嘧啶代替胸腺嘧啶)、LNA、PNA和其它合成核苷酸变体。
附图所示的展示通常只描述核苷酸序列。明显地,对于编码区,使用本领域技术人员公知的常规技术还能够展示对应密码子的氨基酸序列。
本发明的方法涉及分析、检索和显示基因组信息。本发明的系统和方法提供用于收集、存储、分析和检索基因组学、蛋白质组学和医学数据、数据挖掘以及数据可视化和展示;序列比对和模式识别;以及结构预测。例如,本发明的系统和方法能够用于电子化测定(in siliconassay)中的预言性生化模型、分布计算、诊断以及治疗方案的设计。
本发明的系统由一个或多个模块组成。本发明的模块和系统能够由个人操作的独立计算机或者由作为多人操作的分布式计算“系统”的一部分来实践。本发明还包括所述系统的不同方面,例如硬件、软件、子系统、子系统的组件和使用该系统生成、编译或汇编的数据的结构。此外,本发明包括用于收集、生成和显示相关数据的方法和设备,以及相关的分析仪器,以及操作和使用该仪器的方法。还预想使用本发明的系统和方法的商业方法,例如对序列分析工具订阅的销售。
除非另外指出,在下文中更加详细描述的实施方案的实践使用本领域技术内的微生物学、分子生物学和免疫学的常规方法。文献中详细描述了这些技术。在此通过引用的方式整体包括本文的上文或下文中引用的所有出版物、专利和专利申请。
定义
在对本发明的描述中使用以下术语,并且按照下文指出的定义。
“VaSSA”指变化序列软件应用(Variation Sequence SoftwareApplication)。
“计算机”指任何能够接受结构化的输入、按照预定规则处理结构化的输入并且生成所述处理的结果作为输出的装置。计算机例如能够包括接受数据、根据一个或多个储存的软件程序处理数据、生成结果的任何装置,一般包括输入、输出、存储、运算、逻辑和控制单元。计算机的实例包括:计算机、一般目的计算机、超级计算机、大型机、超小型计算机、小型计算机、工作站、微型计算机、服务器、交互式电视、网络设备、带有因特网接入的电讯设备、计算机和交互式电视的混合组合、便携式计算机、个人数字助理(PDA)、便携式电话、仿效计算机和/或软件的专一应用硬件,例如可编程门阵列(PGA)或编程的数字信号处理器(DSP)。计算机可以是固定的或便携的。计算机可以具有单处理器或多处理器,该多处理器能够并行和/或非并行运行。计算机还指通过用于传输或接受计算机之间的信息的网络连接在一起的两个或多个计算机。这样的计算机的实例包括用于通过由网络连接的计算机处理信息的分布式计算机系统。
“机器可存取介质”指任何用于存储计算机可存取数据的存储设备。计算机可读介质的实例包括:磁性硬盘、软盘、诸如CD-ROM和DVD等光盘、磁带、存储芯片、用于携带计算机可读电子数据的载波,例如那些用于传输和接收电子邮件或登录网络的。
“软件”指操作计算机的指定规则。软件的实例包括:软件、代码段、指令、软件程序、计算机程序和被编程的逻辑。
“计算机系统”指包括计算机的系统,其中该计算机包括包含操作计算机的软件的计算机可读介质。
“信息存储设备”指用于存储信息的制品。信息存储设备具有不同的形式,例如,纸件形式和电子形式。在纸件形式中,该信息存储设备包括印有信息的纸。在电子形式中,该信息存储设备包括存储信息的计算机可读介质,所述信息为软件,例如,为数据。
以下术语不包括在遗传学和生物信息学的标准词汇中。
“字符串”是字符的序列。序列可以被认为是称为目标(字符)的n元组的n×1矩阵。在核苷酸序列的情况下,例如DNA、RNA或合成的或其它变体,每一核苷酸元件在字符串中有独特的位置,该字符串为离散集。
实例:AGCAATATAGGA是长度为12的字符串。
字符串S的“子序列”指在S中不一定连续但保持它们在S中的顺序的S的字符的序列。
实例:ACG是ACTCGT的子序列。
“f(n)=O(g(n))”:f(n)和g(n)是函数。当且仅当存在常数c使得当n足够大时|f(n)|≤cg(n),那么f(n)=O(g(n))。
“S4”是四个核苷酸A、C、G和T上的DNA序列组。
σ k , L ( s 0 s 1 s 2 · · · s n · · · ) = s 0 s 1 s 2 · · · s n · · · ‾ 给出σL:S4→S4,其中k=1(其表示移动1位)且L表示从左至右移动。因此σL是定义在S4上的连续的取值于DNA的函数。可视化该映射的一种方式是其简单地“忘记”序列中的第一项且专注于其右侧的所有其它项(即上述序列的下划线部分)。通过陈述S4中任何位置DNA子序列的小范围邻近区域上的上述渐近语言变化与该位置相比仅有轻微变化能够描述DNA连续性的直观概念。通过减小或增大邻近区域的大小能够使所述变化成为如人们所希望的一样小或一样大。
σt,R是上述的类似映射,其从左侧以t个单位移动并从右侧读取。这些映射的连续性使得映射能够被组合。
子序列的前向轨道和反向轨道:子序列z的前向轨道是点z,σL(z),σL 2(z),σL 3(z),…的点集并用O+(z)表示。子序列z的反向轨道是点z,σR(z),σR 2(z),σR 3(z),…的点集并用O-(z)表示。
固定的和周期性的子序列:如果σL(s)=s,则DNA子序列s是σL的固定子序列。如果σn L(s)=s,则DNA子序列s是σL是的周期n的周期性子序列。最小的正值n被称为s的最小周期。周期性点的所有重复的点集形成周期性轨道。
最终周期性的:如果s是非周期的但存在m>0使得对于每一个t≥m, σ L n + l ( s ) = σ l ( s ) , 则DNA序列s是周期n的最终周期性的。
前向渐近:使s为周期n的周期性DNA子序列。如果 lim i → ∞ σ L in ( s ) = s , 子序列x前向渐近至s。用Ss(s)表示的s的稳定点集由所有前向渐近至s的子序列组成。
“比对器”是多个序列比对分析的一个版本。
“ω比较器”是基于ω0测量值的单个和多个序列碱基搜索。
“光谱阵列”是一系列计算,其允许比较多个字符串中的所有核苷酸,生成关于ω0测量值的独特结构使得能够找到最优语言行为。
“DNAω0遗传代码阅读器”是使用ω0测量的遗传代码的更详细分类。
“稳定分析解析器(profiler)”是定义前向渐近至靶子序列的所有子序列的集的技术。
“不稳定分析解析器”是定义反向渐近至靶子序列的所有子序列的点集的技术。
“混沌”:如果(1)σL(z)具有关于靶子序列的敏感依赖性;(2)σL(z)是拓扑传递的;以及(3)周期性子序列关于字符串或数据组是密集的,那么σL(z)就称为混沌的。
“符号DNA轨道”是重复过程中靶子序列在序列中的渐近符号行为。
“分析DNA轨道”是靶子序列在序列中的渐近语言行为。
“DNA近似分析”是对低复杂性子序列给出精确结构行为的一系列技术。
“混沌区域分类”是将子序列靶标独特地分成以下三类的技术:(1)敏感地依赖初始条件的靶标,(2)拓扑学可传递的靶标,以及(3)在其DNA序列中密集的周期性子序列。
“DNA衍生”是使得能够定性地观察DNA序列中从一个核苷酸至下一个核苷酸的变化的测量。
“DNA分岔”是在不同参数下观察子序列中变化的技术。
“DNA拓扑共轭”是显示何时σL(z)的不同映射完全等价的技术。
“置信度评分”是将一族序列按距靶序列最近至最远分类的测量值。ω相似性得分或ω0测量值被定义为 ω 0 ( s , t ) = Σ i = 0 N s i / t i 16 * N , 其中si/ti是非二进制函数,在表1和表2中定义了其实例,并且N是被比较的两个序列中较短一个的核苷酸的数目。ω相似性得分是任何两个核苷酸字符串s和t在碱基位置i处、使用查找表给出的比较的值的非二进制比较。
下文中详细讨论了本发明的实施方案。虽然讨论了具体的示例性实施方案,应当理解这仅是出于说明目的。相关领域的技术人员会认识到在不偏离本发明的精神和范围下,能够使用其它组件和配置。
图1是示例性实施方案。本发明的方法100可以包括步骤:读取序列文件(101);从该文件中选择靶序列和基本序列(103);使用非二进制比较将该靶序列和基本序列进行比较(105)并生成相似性得分(107);以及将比对的序列写入文件(109)。任选地,方法100还可以包括生成所述比较的可视表示(111)、计算对齐百分比的步骤;和/或生成二维单链图或光谱阵列图(113)、多链报告(115)或其它图(117)。
序列文件可以是含有一个或多个遗传序列的机器可读文件。DNA序列有多种可接受的形式。EMBL形式是可接受的。此形式的序列文件可以含有几个序列。一个序列条目以标识符(“ID”)行起始,其后有其它注释行。可以用行起始“SQ”标记序列的开始,并且用双斜线(“//”)标记序列的结束。FASTA形式也是可以接受的。FASTA形式的序列以单行描述开始,其后有序列数据行。描述行必须在第一列以大于号(“>”)开始。诸如GCG、GenBank和IG等许多其它形式也是可以接受的。
序列数据可以是例如ASCII的文本形式或执行本发明方法的计算机可读的某些其它表示。读取序列文件可以包括直接将序列打字录入、从磁盘读取或使用例如Entrez的公知界面访问公共域。该文件能够被“在空中”存储并分析,或分析。用户可以选择读取单一文件或多个文件,或整个数据库,或文件或多个文件或整个数据库的任意长度的子序列。
靶序列是任意长度的子序列。用户可以选择在数据库上或在使其能够观察结构行为的文件上进行分析。靶之间的相互区分通过两个步骤来进行。第一个生物学联系是组成子序列靶的字母表。第二个联系是ω0生物学联系。
在一个实施方案中,生成光谱阵列图的步骤包括计算ωN;进行基本分析;提取比对系数;和将比对系数作图的步骤。
在另一个实施方案中,生成光谱阵列图的步骤还包括反转基本序列或靶序列之一,以及反转模数。
在另一个实施方案中,进行非二进制比较的步骤包括使用查找表的步骤,该查找表包含两个序列元件之间的多种可能比较的非二进制相似性得分值。
在另一个实施方案中,本发明的方法含有比较第一核苷酸和第二核苷酸的分子结构;根据所述比较确定第一非二进制相似性得分;使用每一核苷酸的相似性得分来组合查找表;以及使用该查找表计算第二非二进制相似性得分的步骤,该第二非二进制相似性得分比较靶序列(t)的核苷酸和基本序列(s)的核苷酸。
图46描述本发明的非二进制序列比较系统10的实施方案。系统10包括适于计算第一核苷酸序列和第二核苷酸序列之间的非二进制相似性得分的分析模块200、文件管理模块300、作图模块400以及任选地,报告模块500、用户选择模块600和/或用户帮助模块700。
非二进制序列比较系统10的文件管理模块300管理序列文件。在一个实施方案中,文件管理模块300包括适于加载至少一个序列文件的加载序列模块310、适于从内存中清空序列文件的清空当前序列模块320以及适于从内存中清空加载的序列文件的清空加载序列模块330。在另一个实施方案中,加载序列模块310包括加载序列显示模块312,其适于在序列被加载后生成和显示概要报告笔记页面。该概要报告笔记页面适于显示序列文件名称和一些序列。
在另一个实施方案中,非二进制序列比较系统10的作图模块400包括适于作图基本序列和靶序列的比对系数的光谱阵列模块410;适于将基本序列和靶序列的单链作图的单链作图模块420;斜率模块430,其适于计算基本序列中每一核苷酸位置的斜率和显示该序列的图;以及ωN模块440,其适于计算基本序列的ωN和显示ωN的图。在优选实施方案中,光谱阵列模块410还适于计算基本比较的ωN值和提取比对系数。在另一个优选实施方案中,单链作图模块420适于计算基本序列和靶序列的ωN值。
在另一个实施方案中,本发明的非二进制序列比较系统10的报告模块500适于生成和显示序列概要、每一加载序列的内容的列表和/或关于每一加载序列的统计信息。
在另一个实施方案中,非二进制序列比较系统10的分析模块200包括适于比对靶序列和基本序列和显示比对报告的比对序列模块201;适于计算序列的ω0得分和显示该ω0得分的ω0模块203;查询重复模块205,其适于定位靶序列在基本序列中的多次出现和显示该多次出现;适于确定重复核苷酸何时是复制体的查询ω重复模块207;计算斜率模块209,其适于计算基本序列中每一核苷酸位置的斜率和显示斜率报告;以及比较序列模块211,其适于将靶序列和基本序列进行比较并显示相似性报告。
在优选实施方案中,比对序列模块201还适于进行反转所述基本序列、反转模数、比对基本序列和靶序列至最短长度、计算比对百分比和/或计算ω相似性得分的行为。
在另一优选实施方案中,比较序列模块211还适于进行反转所述基本序列、反转靶序列、反转模数、计算每一基本序列和靶序列的ωN值,转换基本序列和靶序列至二进制、计算基本序列和靶序列之间的距离和确定该距离是否超出限度。
图2描述VaSSA结构的DNA分析部分的优选模块分解的设计图。下文更详细地讨论了分解中的模块。在图35至45中以流程图的形式描述了子模块。
VaSSA结构的模块分解
DNA分析模块组200
SSDA(单链DNA分析)模块组210
MSDA(多链DNA分析)模块组240
                                                         
SSDA(单链DNA分析)(图2)
DNA近似模块212
混沌区域分类模块214
DNA衍生模块216
DNA分岔模块218
DNA轨道模块220
分析行为解析器模块222
DNA拓扑共轭性模块224
结构稳定区域模块226
不可分解区域模块228
DNA复杂性碱基模块230
DNA比对器模块232
MSDA(多链DNA分析)(图2)
DNA近似模块242
混沌区域分类模块244
DNA衍生模块246
DNA分岔模块248
DNA轨道模块250
分析行为解析器模块252
DNA拓扑共轭性模块254
结构稳定区域模块256
不可分解区域模块258
DNA复杂性碱基模块260
DNA比对器模块262
                                                   
DNA拓扑共轭性模块224和254(图35)
a.分析解析器模块3501
b.分析映射程序模块(分析映射的产生)3503
c.共扼性比较模块3505
d.第一叠代分析模块3507
e.相图发生器模块3511
                                                    
DNA近似模块212和242(图36)
a.全息形式发生器模块3601
b.近似构造器模块3603
c.P&Q系数计算器模块3605
d.JC-DNA曲线发生器模块3607
e.低复杂性发生器模块3609
f.靶分类器模块3611
g.符号DNA轨道模块(也是SSDA和MSDA的子段)3613
h.分析DNA轨道模块(也是SSA和MSDA的子段)3615
                                                     
DNA轨道模块220和250(分析DNA轨道模块,图37)
符号DNA轨道模块3701
a.符号流发生器模块3703
b.低差异发生器模块3705
c.轨道发生器模块3707
分析DNA轨道模块3709
a.分析前向解析器模块3711
b.分析后向解析器模块3713
c.DNA吸引发生器模块3715
d.DNA排斥发生器模块3717
                                                      
混沌区域分类模块214和244(图38)
混沌区域分类器3801
a.DNA灵敏度发生器模块3803
b.DNA传递性发生器模块3805
c.密集周期性序列DNA发生器模块3807
                                                       
DNA分岔模块218和248(图39)
分路器分类器3901
a.DNA传递性分路器解析器模块3903
b.DNA密集分路器解析器模块3905
                                                  
DNA衍生模块216和246(图40)
衍生发生器模块4001
单调发生器模块4003
a.正测量模块4005
b.负测量模块4007
                                                
分析行为解析器模块222和252(图41)
DNA近似模块4101
混沌区域分类模块4103
DNA衍生模块4105
DNA分岔模块4107
DNA轨道模块4109
分析行为解析器模块4111
DNA拓扑共轭性模块4113
结构稳定区域模块4115
不可分解区域模块4117
DNA复杂性碱基模块4119
DNA比对模块4121
代数结构发生器模块4123
a.组发生器模块4125
b.半组发生器模块4127
c.环发生器模块4129
d.分析集发生器模块4131
同态发生器模块4133
异态发生器模块4135
                                            
结构稳定区域模块226和256(图42)
重复发生器模块4201
前向渐近模块4203
稳定性解析器模块4205
                                             
不可分解区域模块228和258(图43)
DNA轨道分析模块4301
非重复发生器模块4303
不可分解解析器模块4305
                                             
DNA复杂性碱基模块230和260(图44)
重复发生器模块4401
通用DNA基本发生器模块4403
密集发生器模块4405
                                              
DNA比对器模块232和262(图45)
符号比对模块4501
a.单链发生器模块4503
b.多单链发生器模块4505
ω比较比对器模块4507
a.ω单链发生器模块4509
b.多单链发生器模块4511
                                            
VaSSA主要模块的描述
DNA近似模块212或242:此模块减少VaSSA中的多项式类型构建。其显示并不需要所有的f的系数来进行计算。此外,近似生成能够被用于可视化低复杂性子序列的语言结构行为的数据。进行此过程而不丢失任何生物信息。近似是处于较少的状态,其提供更快、更准确的分析且计算给出对原始函数的更好拟合。
混沌区域分类模块214或244:此模块具有3个成分:不可预测性、规律性元件和不能够被分解成更小的子序列的元件。
DNA衍生模块216或246:此模块创造了一个环境,其中当从左至右和/或从右至左读取DNA字符串时能够观察到内容中的单调变化。当DNA衍生是正的时,传递的信息增加。当DNA衍生是负的时,传递的信息减少。当DNA衍生为零时,传递的信息不变。
DNA分岔模块218或248:此模块分析当参数变化时DNA图的变化。这些变化通常涉及DNA的周期性子序列,但也涉及其它变化。
DNA轨道模块220或250:尽管DNA序列分析本质上是数学,此模块创造了一个环境,其回答不那么数学的问题:子序列去哪里了以及当它们到达那里时它们做什么?此模块意味着将一个子序列移动至另一个处的几何学过程,假设DNA序列是不连续的点集。
分析行为解析器模块222或252:此模块考虑所有其子模块且随后通过不丢失生物内容的代数函数方法将它们连接。然后其还通过详细分析从子模块到代数等价类的动态信息来提炼信息。
DNA拓扑共轭性模块224或254:此模块联系数据集与数据集、DNA序列与DNA序列、以及多个DNA序列与DNA序列。其创造了将完全等价和不等价的序列分类的环境。
结构稳定区域模块226或256:此模块涉及理解全部轨道,以及鉴别周期性、最终周期性渐近等等的轨道集。实施定量和/或几何学技术以理解给定的数据集。
不可分解区域模块228或258:此模块涉及理解全部非轨道,以及鉴别非周期性、最终周期性或渐近等等的非轨道集。实施定量和/或几何学技术以理解给定的数据集。
DNA复杂性碱基模块230或260:此模块创造通用DNA点集,其中能够观察非周期性子序列是如何任意地靠近另一序列的。此模块创造了一个环境,其中语言行为在大量位置一致,其创造语言密集轨道。这些轨道被称为拓扑学传递的。
DNA比对器模块232或262:此模块是分析序列比对的工具包系统的VaSSA版本。此外,可以使用诸如符号DNA轨道等其它生物信息模块来增强该模块。
图3-图28描述在VaSSA执行期间使用VaSSA的图形用户界面(GUI)的示例性实施方案。
然后已比对的序列可以被写回到序列文件中或写入不同文件中。然后可以计算对齐的百分比,其显示对齐的两个序列的百分比。
还可以计算ω相似性得分(其为ω0)。ω0的代数结构被定义为 ω 0 ( s , t ) = Σ i = 0 N s i / t i 16 * N . 该ω相似性得分,或ω0测量,是任何两个核苷酸字符串s和t的非二进制比较。这通过在上述等式中用si/si+1代替si/ti能够被容易地修饰为对单字符串的分析。
可以通过若干种方法计算ω相似性得分。si/ti比较的值是基于DNA的核苷酸的化学结构。在DNA中有四种可能的碱基:腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。在RNA中,胸腺嘧啶被尿嘧啶代替(U)。在图33中显示这些碱基的结构。嘌呤,腺嘌呤和鸟嘌呤,具有双环结构,而嘧啶,胞嘧啶、胸腺嘧啶和鸟嘧啶,具有单环结构。si/ti值代表不同碱基间结构上的不同。在嘌呤碱基结构中有两个环,它们可以被认为是大的六元环和小的五元环。嘧啶结构只有一个环。所述测量可以被分解成四类:嘌呤\嘌呤、嘧啶\嘧啶、嘌呤\嘧啶和嘧啶\嘌呤。
比较DNA序列的传统方法通过以二进制方式比较碱基序列运行,即简单评价碱基相同还是不同。一方面,本发明是比较DNA序列的方法,其不仅考虑碱基不同,还测量该不同的量级。因此,本发明包括比较DNA序列的非二进制方法。
在第一个实施方案中,主要考虑空间因素。在此实施方案中,如果碱基相同则赋值为0,嘌呤\嘌呤、嘧啶\嘧啶排列即当碱基不同但环大小不变时则赋值为1,嘌呤\嘧啶和嘧啶\嘌呤即当碱基的环大小变化时赋值为2。因此,ω0不仅反映碱基身份的不同,还反映嘌呤和嘧啶的化学结构之间不同的程度。
在表1中说明第一实施方案。
表1
                     S
T s/t A G C T
A 0 1 2 2
G 1 0 2 2
C 2 2 0 1
T 2 2 1 0
本发明的第二个实施方案还考虑不在碱基ti中分子结构的各自位置存在的碱基si中的元素的数目。嘌呤/嘌呤测量既比较大环也比较小环。这是分子排列最相似以及两个嘌呤分子关于大小和它们的化学元素的排列的行为相似的情况。在一个实施方案中通过计数在第一序列中存在而不在第二序列中存在的原子的数目来计算本文中称为ω0的测量值。例如,如果第一序列s在位置i具有鸟嘌呤(“G”)核苷酸且第二序列t在相应位置具有腺嘌呤(“A”)核苷酸,那么通过确定si中在ti中不存在和/或在ti的不同位置存在的原子的数目来计算位置i处的ω0测量值(本文中称为si/ti)。现在参见图33,在鸟嘌呤分子中,键合到大环上的氧原子(1)、氢原子(2)和NH2基团的原子(3、4、5),小环中与双键碳原子相对的氢(6)和碳(7)原子或者不存在于腺嘌呤分子中或者在腺嘌呤分子的不同位置上。因此,si/ti=7,其中si=G且ti=A。因此,ω0反映嘌呤的化学结构的不同和相似性的程度。认为这些不同和相似性在核苷酸序列的编码和非编码区具有生物学显著性。在其它实施方案中可以使用每一化学元素在成健水平上的更精确信息来修饰ω0的计算。
在ω测量值的计算中,当ω测量值同一地为0时,化学同一地相同。当ω测量值不同一地为0时,ω测量值给出代表不同化学元素的数目的数值。在下文表2中显示对四个核苷酸的完全分析。以与嘌呤/嘌呤类似的方式进行嘧啶/嘧啶分析中的si/ti值,除了只考虑单环。在嘌呤/嘧啶或嘧啶/嘌呤测量中,比较嘌呤的大环与嘧啶的环,但是该比较以嘌呤的大环的逆时针方向和嘧啶环的顺时针方向进行(或相反方向)。图33中显示分子的结构。然而,测量值并不改变,因为核苷酸元素结构的结构确实与两环对单环等等相关。
使用本发明的第二个实施方案能够生成确定si/ti的值的矩阵,如表2所示:
表2
                       S
T s/t A G C T
A 0 7 4 9
G 6 0 7 7
C 6 10 0 6
T 9 8 4 0
图34A-34C显示ω计数的结构的一些实例以及涉及的化学元素。这些附图图示地证明了为什么A/G比A/C和A/T更相似,以及为什么G/A比G/C和G/T更相似等等。尽管ω测量对G/C和G/T生成相同的数值,涉及的化学元素是不同的。由附图澄清所述表的元素的冗余,该图描述了涉及的元素。这些相似性或不同的真实显著性能够描述一组序列有多么相似或有多么不同,并且不丢失目前序列比对检索中存在的传统生物学相关性的完整性。可以使用基于碱基间其它化学比较的其它差异矩阵。
由于本发明的公开,本领域技术人员将能够对RNA和蛋白构建相应的表。
在一个实施方案中,将两个可选择的序列t和r:
t=AAGCC
r=AAGAC
与天然序列s比较:
s=ATAGC
观察到r和t与s有三个碱基不同。然而,r和s不相同,要考虑的问题是:r和t中哪一个与s更相似?
使用传统方法,可以定义量S(s,t)和S(s,r)以将t和r分别与s进行比较。使用普通BLAST系统,其中S(xi,yj)=s(xi,yj)={+1,xi=yj;-μ,xi≠yj S ( x , y ) = Σ i , j n , m s ( xi , yi ) , 其中μ是常数,对s和t的相似性得分是:
S(s,t)=2-3μ
S(s,r)=2-3μ
未观察到明显差异。
使用在上文连同表1描述的本发明的第一个实施方案,如下确定ω0(s,r)和ω0(s,t):
ω0(s,r)=(0+2+1+1+0)=4
ω0(s,t)=(0+2+1+2+0)=5。
因此,我们看到存在差异。
使用如上所述的本发明的第二个实施方案,使用
ω 0 ( s , t ) = Σ i = 0 N s i / t i 16 * N
确定ω0(s,r)和ω0(s,t)(其中N代表比较的两个序列中较短一个的长度)如下:
ω 0 ( s , r ) = ( 0 + 9 + 6 + 7 + 0 ) 80 = 22 / 80 = 0.275
ω 0 ( s , t ) = ( 0 + 9 + 6 + 10 + 0 ) 80 = 25 / 80 = 0.3125
区段r比t与s更相似。
由于第二实施方案中的整数的冗余,有可能出现具有相同值的序列,例如A/G对A/C,然而,看到计数中涉及的化学非常不同。这指示分子是如何不同地交流且因此并不传递相同的信息。
对于整个基因组的序列,使用下文中等式(2)代表的标准化技术。因此,在DNA序列中,核苷酸的每一个位置代表字符串中的独特地址。在短链中,使用分母测量不同的强度。对于较长的链,使用下文中讨论的与等式(2)相关地标准化技术,其中清除该分母的指数增长。这使得VaSSA对每一位置相对其独特地址作图。关于这些独特位置的ω测量生成与每一核苷酸相关的独特结构行为以及如何关于其所在链进行特征分类。
计算机程序产品
在示例性实施方案中,本发明的方法可以被包含在机器可读介质中,当被机器读取时造成例如计算机的该机器执行如上所述的方法。此外,本发明的实施方案可以提供允许用户比较遗传材料的序列并进一步分析序列和比较结果的图形用户界面(GUI)。
例如,如图3所示,GUI可以提供用于文件管理、报告、分析、作图、设置用户选项以及用户帮助的模块。
如图4所示,文件管理模块300还可以包括加载序列的模块,其可以加载一个或多个序列文件。文件可以包含单个序列或多个序列。这些序列可以从磁盘、CD等等读取。这些序列不一定要储存,当收到它们时可以进行“空中”分析。序列文件可以是FASTA格式或任何其它格式。当加载时,能够对每一序列分配唯一的参考号码,并且可以检查以确保所有的字符是有效的。
文件管理模块300还可以包括清空当前序列的模块,其可以从内存移除或“清空”当前序列。当清空时,序列的参考号码被保留。文件管理模块300还可以包括从内存中清空加载序列的模块。当前序列是在其中进行分析的序列,加载序列是也在内存中但目前没有对其进行分析的序列。
用来加载序列的模块还包括显示加载序列的模块,其当序列被加载时可以生成和显示概要报告笔记页面。如图5所示,该概要报告笔记页面可以显示序列文件名称和多个序列。
报告模块500可以生成和显示所有加载序列的序列概要,包括唯一参考号码、序列标题和序列长度(图6);每一加载序列的内容列表,包括唯一参考号码和FASTA格式的序列内容(图7);和/或关于每一加载序列的统计信息,包括唯一参考号码、序列标题和每一标准序列字符的计数(图8)。如果序列字符未被识别,则报告模块生成错误信号,列出在关于每一加载序列的统计信息的“错误”列(图8)。
分析模块200可以包括许多子模块。例如,比对序列子模块可以比对靶序列和基本序列并显示比对报告(图9)。比对序列模块还可以反转基本序列、反转模式、比对基本序列和靶序列至最短的长度、计算对齐百分比或计算ω相似性得分(图10)。ω相似性得分可以被用于确定靶序列和基本序列是否相似以及相似到何种程度。如果ω相似性得分值小于1/2n,其中n是两个序列s和t的最大长度,则所述两个序列可以被称为相似。如果ω相似性得分值大于1/2n,则所述两个序列被称为不相似。
VaSSA分析菜单中的菜单选项的任务包括但不限于:
1.反转序列
在VaSSA的分析菜单下有反转碱基选项。反转碱基的一个功能是使得用户能够旋转改变序列。例如如果序列是5’至3’方向,那么反转碱基功能从3’至5’方向读取(但不是互补链方向)。
2.反转模数
反转模数选项的功能是使得能够反转模数计算。“反转模数计算”指将si/ti改变为ti/si。这是重要的,因为根据定义ω0不是对称运算。
3.将基本序列和靶序列比对至最短长度
基本序列和靶序列是不同长度或相同长度的两个序列字符串。如果所述字符串长度不同,那么分析的第一部分是比对且在最短序列的末端停止。如果它们长度相同,则进行序列分析直至每一字符串的末端。
4.计算α数字对齐百分比和ω相似性得分
α数字比对是一种比对,其给出对齐的核苷酸总数相对于核苷酸总数的百分比。如图13所示,ω00)模块可以计算序列的ω0得分和显示该ω0得分。可以选择一个碱基或全部加载的序列。可以通过参考号码、长度或ω得分将报告分类(图14)。基本序列和模数可以各自被反转。
还可以通过基本序列和靶序列的单链模块计算ω0值。考虑以下单链等式,其是等式6的简化版本(该等式的多链形式将在下文讨论):
C 1 ( z 1 ) = Σ λ i = l c λ i z 1 λ i , l = 0,1,2 , . . . - - - ( 2 )
其中,
z1代表单链。也就是,z1=s0s1°°°sk°°°其中每一sk是A、G、C或T。
z1 λi对应第λi位置和λi+1位置的核苷酸,其中i是变址组l=1,2,3......中的数。
系数 c λ i = s i / s i + 1 ‾ λ第i位置和第i+1位置,其中i是变址组l=1,2,3......中的数。
因此,对于示例性四核苷酸链z1=ACGT,C1(z1)是系数[c0,c1,c2]的阵列,其中通过确定所述链中位置i的z1 λi/z1 λi+1(除了最后位置)来计算每一系数,其等于[A/C,C/G,G/T]=[6,7,8]。这些系数能够被用来形成链z1的单链图,其中在x轴上表示在链中的位置(换句话说,l的值)并在y轴上表示对应系数的值(在图27中显示两条链的单链图的实例)。
查询重复模块可以定位用户指定的靶序列在基本序列中的多次出现并显示该多次出现。本文中将靶序列的多次出现称为重复。VaSSA有两种类型的重复:重复和ω重复。重复只是使用符号的移位功能,ω重复使用ω相似性测量的移位功能。如图11中所示,用户可以选择进行检索的基本序列以及被搜索的靶序列。用户可以指定阀值以放松或收紧搜索。还可以反转基本序列和靶序列。然后当用户指定阀值时,查询重复模块可以生成子靶序列并确定靶序列或子靶序列在基本序列中出现的位置。在一个实施方案中,如果靶序列是AGCT,查询重复模块可以生成子序列AGC和GCT。如图12中所示,在GUI窗口页面的上部指明重复靶序列和子靶序列以及检测到的重复靶序列和子靶序列的次数。使用帽子符号1201指明靶序列的出现,使用星号1202指明子靶序列的出现。
如图15和16中所示,查询ω重复模块得到关于查询重复模块的上述所有事物。然而,此外,它挑出字符串区段的重复序列如何可以和该字符串的另一区段不同地交流(至少关于ω测量值)。因此查询ω重复能够挑出何时重复是复制体何时不是。
如图17和18中所示,计算斜率模块可以计算基本序列中每一核苷酸位置的斜率并显示斜率报告。在示例性实施方案中,可以使用下式计算斜率:
Ωk=Sk/Sk+1-Sk-1/Sk    (3)
其中k代表核苷酸在DNA序列中的独特位置。ωk=sk/Sk+1,ωk是ω0系列的第k项。可以使用该等式生成2-D概图的曲率信息。当Ωk是正的时,被传递的信息增加且连接双链的键更长(并且因此比较短的键倾向于更弱)。当Ωk是负的时,被传递的信息减少且连接双螺旋的键更短(并且倾向于更强)。因此,在正值和负值的图中是从序列的一个位置向下一个位置流动的信息概图。斜率图是变化信息流的图。其显示在序列中信息变化相同(符号表中为0)和不同的位置。其还显示信息完全相同但处于相反方向的位置。为了生成图,(图30中显示的实例)将核苷酸的位置对斜率的值作图。因此,等式3就是在VaSSA中生成符号表和斜率图的。在两个情况中,核酸在链中的独特位置对应x轴且Ωk的值对应y轴。
在一个实施方案中,在序列AGC中,如下计算从A到G的变化:A在位置k-1,G在k,C在k+1。那么根据表2中的值ω(k)是G/C-A/G=10-6=4。因此从A到G的变化是正的,且在斜率报告中可以用“+”代表。
如图19和20中所示,比较序列子模块可以比较靶序列和基本序列并显示相似性报告。该比较序列子模块还可以反转基本序列、反转靶序列、反转模式、计算每一基本序列和靶序列的ωn值、转化基本序列和靶序列至二进制、计算基本序列和靶序列之间的距离以及确定该距离是否超出限度。
如图21-25所示,作图模块可以包括许多作图子模块。例如,光谱阵列子模块可以将基本序列和靶序列的比对系数作图。光谱阵列子模块还可以计算基本比较的ωn,并提取比对系数。在基本比较中,光谱阵列子模块可以使用公式:
f ( z → ) = Σ l = 0 ∞ C 1 ( z → ) - - - ( 4 )
其中,
c 1 ( z → ) = Σ λ 1 + λ 2 + . . . + λ n = 1 c λ 1 λ 3 . . . λ n z 1 λ l z 2 λ 2 l · · · z n λ nl , l = 0,1,2 , . . . - - - ( 5 )
此公式用于多个序列。其使得独特光谱分析的生成是用于关于l的倍数和的注释。这些是在每一序列中关于ω0和它们的位置生成的系数。每一序列位置中的核苷酸用Z1 λlZ2 λ2l…Zn λnl表示。
等式4和5的组成使得能够在VaSSA中生成图。公式的系数结构可以被记录在图25中所示的三角形结构中。光谱结构是三角形使得能够不插入或删除DNA链中的空位而观察优化。图24用两条链说明当公式被使用时系数是如何生成的。单链图具有相同的结构但有不同的值。由于非二进制测量,能够精确地观察图在何处是等价的以及在何处它们是不同的。还可以观察到何处是周期性的。由于所述函数是分析的,其可以是被公式化的变化而不影响核苷酸位置的独特性。图27中显示了一个实施方案。VaSSA中的光谱图使用图25的三角形结构中心右下角的系数。图22是这种图的实例。这些具有信息,其中它们有直接的对齐因为图那是0。图中还有特定高度的峰。类似信息能够作为单链图被观察。但是在此能够根据峰的高度可观察到差异的量级。此外使用三角形的尖角我们能够完成相图,其是进行优化的不同方法。
如图26-28中所示,单链子模块可以对基本序列和靶序列的单链作图。单链子模块还可以计算基本序列和靶序列的ωn值。单链子模块可以使用等式(4)作图,其中
C 1 ( z → ) = Σ λ 1 l = 1 c λ l z 1 λ l , l = 0,1,2 , · · · - - - ( 6 )
是公式(5)的简化版本。然而,此公式允许图解单链。
如图29-30所示,斜率模块可以计算基本序列中每一核苷酸位置的序列并显示斜率的图。ωn模块可以计算基本序列的ωn并显示ωn的图。ωn模块可以使用等式(6)。
生成斜率图会生成图30的图。斜率图是信息流的单调性的图。这类图使得用户能够确定局部和全面最大值,以及单链图的最小值位置。其还使得用户能够确定单链图的局部区域以及全面区域的凹度。
尽管上文描述了本发明的多种实施方案,应当理解只是出于说明目的提出它们,而非限制。因此,本发明的广度和范围不应被任何上述示例性实施方案所限制,应当只根据所附的权利要求及其等价物来定义。

Claims (38)

1.用于序列分析的系统,其包括:
分析模块,其适于计算第一核苷酸序列和第二核苷酸序列之间的非二进制相似性得分;以及
与分析模块通信的用于输出所述相似性得分的输出。
2.根据权利要求1所述的系统,其中所述相似性得分基于每一碱基对的相似性得分的组合。
3.根据权利要求2所述的系统,其中所述碱基对的相似性得分依赖于所述碱基对的化学结构的相似性。
4.根据权利要求3所述的系统,其中如果所述碱基对的核苷酸匹配则碱基对的相似性得分是第一值,如果所述碱基对的核苷酸不匹配但具有相同的结构,则碱基对的相似性得分是第二值,并且其中所述第一值、第二值和第三值不同。
5.根据权利要求3所述的系统,其中根据所述碱基对的相对位置来确定碱基对的相似性得分。
6.根据权利要求3所述的系统,其中所述碱基对的相似性得分基于在所述第一序列的核苷酸中存在但不在所述第二序列的核苷酸中存在的多个元素。
7.根据权利要求1所述的系统,其还包括报告模块、文件管理模块和作图模块。
8.根据权利要求7所述的系统,其还包括用户选项模块或用户帮助模块或既包括用户选项模块又包括用户帮助模块。
9.根据权利要求1所述的系统,其中所述文件管理模块包括:
加载序列模块,其适于加载至少一个序列文件;
清空当前序列模块,其适于从内存中清空序列文件;以及
清空加载序列模块,其适于从所述内存中清空加载序列文件。
10.根据权利要求9所述的系统,其中所述加载序列模块包括:
加载序列显示模块,其适于当序列被加载时生成和显示概要报告笔记页面,其中所述概要报告笔记页面适于显示序列文件名称和一些序列。
11.根据权利要求1所述的系统,其中所述报告模块适于生成和显示序列概要、每一加载序列的内容列表或关于每一加载序列的统计信息中的至少一种。
12.根据权利要求1所述的系统,其中所述分析模块包括:
比对序列模块,其适于比对靶序列和基本序列并显示比对报告;
ω0模块,其适于计算序列的ω0得分并显示所述ω0得分;
查询重复模块,其适于定位所述靶序列在所述基本序列中的多次出现并显示所述多次出现;
查询ω重复模块,其适于确定重复的核苷酸何时是复制体;
计算斜率模块,其适于计算所述碱基序列中每一核苷酸位置的斜率并显示斜率报告;以及
比较序列模块,其适于比较所述靶序列和所述基本序列并显示相似性报告。
13.根据权利要求12所述的系统,其中所述比对序列模块还适于进行反转所述基本序列、反转模数、比对所述基本序列和所述靶序列至最短长度、计算对齐百分比或计算ω相似性得分中的至少一种。
14.根据权利要求12所述的系统,其中所述比较序列模块还适于进行下列中至少一种:
反转所述基本序列;
反转所述靶序列;
反转模数;以及
计算每一所述基本序列和所述靶序列的ω0值。
15.根据权利要求1所述的系统,其中所述作图模块包括:
光谱阵列模块,其适于将基本序列和靶序列的比对系数作图;
单链模块,其适于将所述基本序列和所述靶序列将单链作图;
斜率模块,其适于对所述基本序列中每一核苷酸位置计算斜率并显示所述斜率的图;以及
ωN模块,其适于对所述基本序列计算ωN并显示所述ωN的图。
16.根据权利要求15所述的系统,其中所述光谱阵列模块还适于:
计算基本比较的ωN值;以及
提取比对系数。
17.根据权利要求15所述的系统,其中所述单链模块还适于对所述基本序列和所述靶序列计算ωN值。
18.根据权利要求1所述的系统,其中所述分析模块包括单链DNA分析模块和多链DNA分析模块。
19.根据权利要求18所述的系统,其中每一所述单链DNA分析模块和所述多链DNA分析模块包括选自下列的至少一个模块:DNA近似模块、混沌区域分类模块、DNA衍生模块、DNA分岔模块、DNA轨道模块、分析行为解析器模块、DNA拓扑共轭性模块、结构稳定区域模块、不可分解区域模块、DNA复杂性碱基模块和DNA比对器模块。
20.根据权利要求19所述的系统,其中所述DNA近似模块还包括选自下列的至少一个模块:全息形式发生器模块、近似构建器模块、P&Q系数计算器模块、JC-DNA曲线发生器模块、低复杂性发生器模块、靶分类器模块、符号DNA轨道模块和分析DNA轨道模块。
21.根据权利要求19所述的系统,其中所述混沌区域分类模块还包括选自下列的至少一个模块:DNA敏感度发生器模块、DNA传递性发生器模块和密集周期性序列发生器模块。
22.根据权利要求19所述的系统,其中所述DNA衍生模块还包括选自衍生发生器模块和单调发生器模块中的至少一个模块,其中所述单调发生器模块包括正测量模块和负测量模块。
23.根据权利要求19所述的系统,其中所述DNA分岔模块还包括选自DNA传递性分路器解析器模块和DNA密集分路器解析器模块中的至少一个模块。
24.根据权利要求19所述的系统,其中所述DNA轨道模块还包括选自符号DNA轨道模块和分析DNA轨道模块中的至少一个模块。
25.根据权利要求24所述的系统,其中所述符号DNA轨道模块包括符号流发生器模块、行差异发生器模块和轨道发生器模块,并且其中所述分析DNA轨道模块包括分析前向解析器模块、分析后向分离器模块、DNA吸引物发生器模块和DNA排斥物发生器模块。
26.根据权利要求19所述的系统,其中所述分析行为解析器模块还包括选自代数结构发生器模块、同态发生器模块和异态发生器模块中的至少一个模块。
27.根据权利要求19所述的系统,其中所述DNA拓扑共轭性模块还包括选自下列的至少一个模块:分析解析器模块、分析映射程序模块、共轭性比较模块、第一叠代分析模块以及相图发生器模块。
28.根据权利要求19所述的系统,其中所述结构稳定区域模块还包括选自重复发生器模块、前向渐近模块和稳定性解析器模块中的至少一个模块。
29.根据权利要求19所述的系统,其中所述不可分解区域模块还包括选自DNA轨道分析模块、非重复发生器模块和不可分解解析器模块中的至少一个模块。
30.根据权利要求19所述的系统,其中所述DNA复杂性碱基模块还包括选自重复发生器模块、通用DNA基本发生器模块和密度发生器模块中的至少一个模块。
31.根据权利要求19所述的系统,其中所述DNA比对模块还包括符号比对器模块和ω比较比对器模块中的至少一个模块。
32.用于序列分析的方法,其包括:
读取序列文件;
从所述序列文件中选择靶序列和基本序列;
进行所述靶序列和所述基本序列的每一碱基对之间的非二进制比较,其中所述非二进制比较生成每一碱基对的比较值;以及
根据所述比较值确定所述靶序列和所述基本序列之间的相似性。
33.根据权利要求32所述的方法,其还包括:
将已比对的序列写入所述文件;以及
计算对齐百分比。
34.根据权利要求32所述的方法,其还包括生成二维光谱阵列图或二维单链图中的至少一个。
35.根据权利要求34所述的方法,其中所述光谱阵列图包括:
计算ωN
进行基本比较;
提取比对系数;以及
将所述比对系数作图。
36.根据权利要求35所述的方法,其还包括反转所述基本序列或所述靶序列之一,以及反转计算。
37.根据权利要求32所述的方法,其中所述进行非二进制比较包括使用查找表,所述查找表含有两个序列元件之间的多个可能比较的非二进制相似性分值。
38.根据权利要求32所述的方法,其中所述相似性通过下式确定:
Σ i = 0 N S i / t i 16 * N .
CNA2006800087494A 2005-03-18 2006-03-20 用于非二进制序列比较的系统、方法和计算机程序 Pending CN101142479A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US66294305P 2005-03-18 2005-03-18
US60/662,943 2005-03-18

Publications (1)

Publication Number Publication Date
CN101142479A true CN101142479A (zh) 2008-03-12

Family

ID=37024441

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800087494A Pending CN101142479A (zh) 2005-03-18 2006-03-20 用于非二进制序列比较的系统、方法和计算机程序

Country Status (8)

Country Link
US (5) US7263444B2 (zh)
EP (2) EP2031533A1 (zh)
JP (1) JP2008533619A (zh)
KR (1) KR20070115964A (zh)
CN (1) CN101142479A (zh)
AU (1) AU2006227410A1 (zh)
CA (1) CA2601890A1 (zh)
WO (1) WO2006102128A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887493A (zh) * 2010-08-05 2010-11-17 湖州瑞万思信息技术有限公司 一种基于单比特化的基因比对处理方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5532719B2 (ja) * 2009-07-22 2014-06-25 凸版印刷株式会社 核酸配列の検査方法
WO2011137368A2 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
US8412462B1 (en) 2010-06-25 2013-04-02 Annai Systems, Inc. Methods and systems for processing genomic data
US9268903B2 (en) 2010-07-06 2016-02-23 Life Technologies Corporation Systems and methods for sequence data alignment quality assessment
WO2012031029A2 (en) 2010-08-31 2012-03-08 Lawrence Ganeshalingam Method and systems for processing polymeric sequence data and related information
US20120236861A1 (en) 2011-03-09 2012-09-20 Annai Systems, Inc. Biological data networks and methods therefor
EP2864896A4 (en) 2012-06-22 2016-07-20 Dan Maltbie SYSTEM AND METHOD FOR THE SAFE HIGH-SPEED TRANSMISSION OF HUGE FILES
CN102968577A (zh) * 2012-11-27 2013-03-13 广州中国科学院先进技术研究所 一种基因蛋白质序列关系分析系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040018535A1 (en) * 2002-06-10 2004-01-29 Rangarajan Sampath Detection of RNA structural elements
WO2005024562A2 (en) * 2003-08-11 2005-03-17 Eloret Corporation System and method for pattern recognition in sequential data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887493A (zh) * 2010-08-05 2010-11-17 湖州瑞万思信息技术有限公司 一种基于单比特化的基因比对处理方法
CN101887493B (zh) * 2010-08-05 2013-02-20 湖州瑞万思信息技术有限公司 一种基于布尔逻辑的基因比对处理方法

Also Published As

Publication number Publication date
US20070129900A1 (en) 2007-06-07
US20130297640A1 (en) 2013-11-07
US20080040048A1 (en) 2008-02-14
US7263444B2 (en) 2007-08-28
US7734427B2 (en) 2010-06-08
JP2008533619A (ja) 2008-08-21
EP1859268A2 (en) 2007-11-28
US8483971B2 (en) 2013-07-09
US20100094889A1 (en) 2010-04-15
EP1859268A4 (en) 2008-08-06
WO2006102128A3 (en) 2007-03-15
AU2006227410A1 (en) 2006-09-28
WO2006102128A2 (en) 2006-09-28
CA2601890A1 (en) 2006-09-28
US20060223095A1 (en) 2006-10-05
KR20070115964A (ko) 2007-12-06
EP2031533A1 (en) 2009-03-04
US7805254B2 (en) 2010-09-28

Similar Documents

Publication Publication Date Title
CN101142479A (zh) 用于非二进制序列比较的系统、方法和计算机程序
Qi et al. A novel model for DNA sequence similarity analysis based on graph theory
Korostensky et al. Using traveling salesman problem algorithms for evolutionary tree construction
Gonnet et al. Evaluation measures of multiple sequence alignments
Rasheed et al. A map-reduce framework for clustering metagenomes
Liang et al. MetaVelvet-DL: a MetaVelvet deep learning extension for de novo metagenome assembly
Coons et al. Toric geometry of the Cavender-Farris-Neyman model with a molecular clock
Rasheed et al. LSH-Div: Species diversity estimation using locality sensitive hashing
Chang et al. A hash trie filter method for approximate string matching in genomic databases
Chen et al. CGAP-align: a high performance DNA short read alignment tool
Chen et al. Efficient retrieval of approximate palindromes in a run-length encoded string
Kim et al. Metabuli: sensitive and specific metagenomic classification via joint analysis of amino acid and DNA
Wright Accurately clustering biological sequences in linear time by relatedness sorting
Cai et al. Efficient Algorithms for Finding the Closest $ l $ l-Mers in Biological Data
Naghibzadeh et al. A Novel Multi-head Algorithm to Discover all Tandem Repeats in One Scan of DNA Sequences
Bryant A lower bound for the breakpoint phylogeny problem
Zhang Efficient methods for read mapping.
Othman et al. Genetic algorithms and scalar product for pairwise sequence alignment
Gilbert et al. Techniques for comparison, pattern matching and pattern discovery: from sequences to protein topology
Purohit et al. Correlation-Based Analysis of COVID-19 Virus Genome Versus Other Fatal Virus Genomes
Tran Algorithmic methods for large-scale genomic and metagenomic data analysis
Vanitha et al. An Improved Alignment-Free Method for Oculocutaneous Albinism Sequence Analysis
Kiirala Safe and Complete Prediction of RNA Secondary Structure
Sović Algorithms for de novo genome assembly from third generation sequencing data
Böcker Sequencing from compomers: The puzzle

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1114421

Country of ref document: HK

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080312

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1114421

Country of ref document: HK