CN104272311B

CN104272311B - Dna序列的数据分析

Info

Publication number: CN104272311B
Application number: CN201380008411.9A
Authority: CN
Inventors: L·萨斯特里-登特; S·斯里拉姆; N·埃兰戈; Z·曹; K·N·穆瑟兰曼
Original assignee: Dow AgroSciences LLC
Current assignee: Corteva Agriscience LLC
Priority date: 2012-02-08
Filing date: 2013-02-07
Publication date: 2018-08-28
Anticipated expiration: 2033-02-07
Also published as: TWI596493B; IL233819A0; TW201337618A; US20130211729A1; IN2014DN05963A; AR089934A1; JP6314091B2; JP2015509623A; WO2013119770A1; HK1201951A1; EP2812831A4; CN104272311A; EP2812831A1; KR20140119723A; CA2863524A1; AU2013217079B2; AU2013217079A1; BR112014019047A2

Abstract

提供了用于数据分析的系统和方法。在一实施方案中，提供了一种分析方法，包括：电子接收序列数据；电子接收一个或多个与至少一个表达载体相关的参比数据序列；将所述序列数据与所述参比数据序列中的至少一个关联以鉴定转基因侧翼序列；在基因组中搜索所述转基因侧翼序列的一个或多个插入位点；以及当在所述搜索步骤中找到一个或多个插入位点时，注释所述基因组及该基因组内的所述一个或多个插入位点。

Description

DNA序列的数据分析

对相关申请的交叉援引

本申请要求2012年2月8日提交的美国临时专利申请流水号61/596,540以及2012年2月21日提交的美国临时专利申请流水号61/601,090的权益。明确将它们的公开内容全部通过提述并入本申请。

公开领域

本申请部分地涉及测序数据的计算机化分析。更具体地，本公开部分地涉及鉴定和分析基因组修饰，例如转基因插入位点的计算机化方法。

公开背景

转基因侧翼序列的鉴定和表征对于含有转基因序列的产品的商品化和注册而言可能是必需的。对于其他类型的活动，如通过EXZACT^TMPrecision Technology牌基因组修饰技术产生的事件的表征而言，转基因侧翼序列的鉴定和表征也可能是重要的。例如，EXZACT^TMPrecision Technology牌基因组修饰技术是一项尖端、多用途而且鲁棒的基因组修饰工具包。它以设计和使用锌指核酸酶(“ZFN”)为基础，锌指核酸酶是能够被设计为结合序列特异性DNA序列的蛋白质。EXZACT^TM牌技术能够用来在生物体的基因组内产生ZFN促使的双链断裂，从而导致转基因在DNA序列中感兴趣的特定座位处的靶向插入。

转基因侧翼序列由基因组整合位点的染色体侧翼区域和整合的转基因组成。转基因侧翼序列可包含由于转基因整合入染色体的特定位置而导致的缺失、倒位、或插入。在转基因DNA、测序中使用的克隆载体、用于分离转基因侧翼区域序列的引物和/或衔接子、已经整合有转基因的染色体序列、以及已通过预料之外的重排而插入到基因组中的其他不相关DNA片段之间，可能存在具有核酸相似性的区域。

多种方法可以用来分离转基因侧翼区域序列。然后可以使用传统的双脱氧测序法、链终止测序法，或通过下一代测序法(Next Generation Sequencing methods)对该转基因侧翼区域序列进行测序。

如Brautigma et al.,2010所述，可以使用DNA序列分析来确定经分离和扩增的片段的核苷酸序列。可以分离经扩增的片段，亚克隆到载体中，并使用链终止法(又称Sanger测序)或染料终止子测序法来加以测序。此外，扩增子可以使用下一代测序法进行测序。NGS技术不需要亚克隆步骤，而且多个测序读段可以在一个反应中完成。市售有三种NGS平台，即来自454Life Sciences/Roche的Genome Sequencer FLX、来自Solexa的IlluminaGenome Analyser，以及Applied Biosystems的SOLiD(寡聚物连接与检测测序(Sequencingby Oligo Ligation and Detection)的首字母连词)。此外，有两种单分子测序方法正在开发中。它们包括来自Helicos Bioscience的真实单分子测序(true Single MoleculeSequencing(tSMS))，和来自Pacific Biosciences的单分子实时测序(Single MoleculeReal Time sequencing(SMRT))。

由454Life Sciences/Roche市场化的Genome Sequencer FLX是一种长读段NGS(long read NGS)，使用乳液PCR和焦磷酸测序(pyrosequencing)来产生测序读段(reads)。可以使用300-800bp的DNA片段或者含有3-20kbp的片段的文库。反应每次运行可以产生超过100万个大约250至400碱基的读段，总产量为250-400兆碱基。这种技术产生的读段最长，但与其他的NGS技术相比每次运行的总序列输出不高。

由Solexa市场化的Illumina Genome Analyser是一种短读段NGS，其利用合成法测序，使用荧光染料标记的可逆性终止物核苷酸，并且以固相桥式PCR(bridge PCR)为基础。可以利用含有最长达10kb的DNA片段的配对末端测序文库的构建。反应产生超过1亿个长度为35-76个碱基的短读段。该数据每次运行可产生3-6千兆碱基。

由Applied Biosystems市场化的通过寡聚物连接和检测的测序(SOLiD)系统是一种短读段技术。此NGS技术使用长度上至10kbp的片段化双链DNA。该系统使用通过连接经染料标记的寡核苷酸引物的测序和乳剂PCR来产生10亿个短读段，导致每次运行的总序列输出多达30千兆碱基。

Helicos Bioscience的tSMS和Pacific Biosciences的SMRT则应用另一不同方法，使用单DNA分子进行序列反应。tSMS Helicos系统产生多至8亿个短读段，每次运行产生21千兆碱基。使用经荧光染料标记的虚终止物核苷酸(virtual terminator nucleotide)完成这些反应，其称为“合成测序(sequencing by synthesis)”方法。

由Pacific Biosciences市场化的SMRT下一代测序系统使用实时合成测序(realtime sequencing by synthesis)。此技术由于不受可逆终止物限制，可以产生长度高达1000bp的读段。使用此技术每天可以产生相当于一个二倍体人类基因组的一倍覆盖(one-fold coverage)的原始读取通量。

分析DNA测序数据，其中将转基因DNA序列与染色体DNA侧翼序列以及任何染色体重排区分开来，如果用人力完成的话是费时的，对于大量数据集而言尤为如此。用人力鉴定和注释转基因DNA序列并将这些序列与基因组内由转基因整合导致的重排、缺失和插入区分是费力而困难的任务，且其结果容易受到人为错误的影响。

概要

为了确认转基因整合入基因组，以及为了在转基因通过随机重组而插入或藉由同源重组靶向位点特异性座位时鉴定转基因的具体染色体位置，需要高通量的方法。提供了一种灵活、高通量的转基因侧翼序列分析系统来分析序列数据并界定生物体基因组内的转基因插入位点。该方法在一个实施方案中包括在连续的DNA片段(例如而不限于完整基因组的连续DNA片段)内鉴定和注释转基因及转基因侧翼序列、包括染色体侧翼序列的步骤。该分析系统在一个实施方案中包括图形用户界面、分析管道(analysis pipeline)、以及输入序列(input sequences)用的汇总展示(summary display)。

在一个示例性的实施方案中，本公开包括一种分析方法。该方法包括：电子接收序列数据，电子接收一个或多个至少与表达载体相关的参考数据序列，将所述序列数据与至少一个所述参考数据序列关联以鉴定出转基因侧翼序列，对基因组搜索该转基因侧翼序列的一个或多个插入位点，以及当找到一个或多个插入位点时，注释该基因组及该基因组内的该一个或多个插入位点。

在上述任何实施方案的一个进一步的实施方案中，所述序列数据还与至少一个引物相关。在上述任何实施方案的至少一个进一步的实施方案中，所述序列数据还与至少一个衔接子相关。在上述任何实施方案的至少一个进一步的实施方案中，所述序列数据与至少一个引物以及衔接子相关。在上述任何实施方案的至少一个进一步的实施方案中，所述序列数据还与至少一个克隆载体相关。在上述任何实施方案的至少一个进一步的实施方案中，所述序列数据还与右克隆载体及左克隆载体相关。

在上述任何实施方案的至少一个进一步的实施方案中，所述序列数据还与左克隆载体、引物、衔接子、右克隆载体、以及转基因表达载体序列中的至少一者相关。

在上述任何实施方案的另一个进一步的实施方案中，参考数据还与克隆载体、引物和衔接子相关。在上述任何实施方案的另一个进一步的实施方案中，参考数据还与左克隆载体、右克隆载体、引物、以及衔接子相关。

在上述任何实施方案的至少一个进一步的实施方案中，所述方法还包括对所述序列数据搜索第一参考数据序列，以及当定位了所述第一参考数据序列时，对所述序列数据搜索第二参考数据序列。在上述任何实施方案的至少一个进一步的实施方案中，所述第一参考数据序列选自下组：表达载体、衔接子、引物、以及克隆载体序列。在上述任何实施方案的至少一个进一步的实施方案中，所述第二参考数据序列选自下组：表达载体、衔接子、引物、以及克隆载体序列，第二参考数据序列的选择独立于所述第一参考数据序列。在上述任何实施方案的至少一个进一步的实施方案中，所述第一参考数据序列是表达载体，且所述第二参考数据序列是衔接子。在上述任何实施方案的至少一个进一步的实施方案中，所述第一和第二参考数据序列独立地选自下组：引物和衔接子。

在上述任何实施方案的至少一个进一步的实施方案中，将序列数据与参考数据序列关联包括找到参考数据序列的确切序列。在上述任何实施方案的另一个进一步的实施方案中，将序列数据与参考数据序列关联包括以参考数据序列的碱基对的百分之五以内的误差限找到该序列。

在又一个示例性的实施方案中，本公开包括用于分析的系统。在该实施方案中，该系统包括用于接收数据的模块、用于接收一个或多个与至少表达载体相关的参考序列的模块，以及计算模块，该计算模块可操作用以：将序列数据与至少一个参考数据序列关联以鉴定转基因侧翼序列，对基因组搜索所述转基因侧翼序列的一个或多个插入位点、和当找到一个或多个插入位点时，注释该基因组和该基因组内的该一个或多个插入位点。

在上述任何实施方案的至少一个进一步的实施方案中，所述参考序列还与至少一个引物相关。在上述任何实施方案的至少一个进一步的实施方案中，所述参考序列还与至少一个衔接子相关。在上述任何实施方案的至少一个进一步的实施方案中，所述参考序列至少与引物和衔接子相关。在上述任何实施方案的至少一个进一步的实施方案中，所述参考序列还与至少一个表达载体序列相关。在上述任何实施方案的至少一个进一步的实施方案中，所述参考序列还与至少一个克隆载体相关。在上述任何实施方案的至少一个进一步的实施方案中，所述参考序列还与右克隆载体和左克隆载体相关。

在上述任何实施方案的至少一个进一步的实施方案中，所述参考序列还与左克隆载体、引物、衔接子、右克隆载体、以及表达载体序列中的至少一者相关。

在上述任何实施方案的另一个进一步的实施方案中，所述参考序列还至少与克隆载体、引物和衔接子相关。在上述任何实施方案的另一个进一步的实施方案中，所述参考序列还至少与右克隆载体、左克隆载体、引物、以及衔接子相关。

在上述任何实施方案的至少一个进一步的实施方案中，所述计算模块还可操作用以：对所述序列数据搜索第一参考数据序列；并且当定位了所述第一参考数据序列时，对该序列数据搜索第二参考数据序列。在上述任何实施方案的至少一个进一步的实施方案中，所述第一参考数据序列选自下组：表达载体、衔接子、引物、和克隆载体序列。在上述任何实施方案的至少一个进一步的实施方案中，所述第二参考数据序列选自下组：表达载体、衔接子、引物、和克隆载体序列，所述第二参考数据序列的选择独立于所述第一参考数据序列。在上述任何实施方案的至少一个进一步的实施方案中，所述第一参考数据序列是表达载体，且所述第二参考数据序列是衔接子。在上述任何实施方案的至少一个进一步的实施方案中，所述第一和第二参考数据序列独立地选自下组：引物和衔接子。

在考虑下面关于示例性实施方案的详细说明的基础上，本领域技术人员会容易想到本公开的其他特点和优势，这些示例性实施方案例示了实施本发明的最佳模式。

附图简要说明

附图详细说明具体涉及随附的图，其中：

图1A是一幅示例性的示意图，显示依照本公开的一个实施方案产生的典型序列，其包含左克隆载体、引物、表达载体、转基因侧翼区域序列、衔接子、以及右克隆载体。

图1B是一幅示例性的示意图，显示依照本公开的一个实施方案的基因组内转基因插入，其包括表达载体、引物序列、以及转基因侧翼区域序列，插入在基因组序列的节段之间。

图2A显示依照本公开的一个实施方案的从样品输入到分析系统的数据及样品流程。

图2B显示一幅流程图，该图展示依照本公开的一个实施方案的数据分析方法。

图3是依照本公开的一个实施方案的数据分析器的系统示意图。

图4是展示依照本公开的一个实施方案的数据分析方法的流程图。

图5A是一幅流程图，显示依照图4的流程图的侧翼序列鉴定处理序列或方法。

图5B是一幅流程图，显示鉴定和标识转基因侧翼序列的方法。

图5C是一幅流程图，显示依照图5A的流程图的鉴定转基因侧翼序列的方法的另一个实施方案。

图6是依照本公开的一个实施方案的一个示例性序列。

图7是依照本公开的一个实施方案的鉴定系统的示例性输入屏幕。

图8是依照本公开的一个实施方案的分析系统的示例性输出。

图9A是显示表达载体、衔接子、引物、及转基因侧翼序列的位置的示例性屏幕。

图9B是在图9A中图形鉴定的输入序列。

图9C是在图9A中图形鉴定的转基因表达载体103序列。

图9D是在图9A中图形鉴定的衔接子序列。

图9E是在图9A中图形鉴定的引物序列。

图9F是从图9B的输入序列鉴定出的侧翼于转基因的基因组序列。

图10是一个示例性屏幕，显示有引物、但无右克隆载体的转基因侧翼序列。

图11是一个示例性截屏，显示有表达载体序列，但无克隆载体的转基因侧翼序列。

在各个视图中相应的索引字符表示相应的部分。此处的示例是阐明说明本公开的示例性实施方案，这样的示例不应解释为以任何方式限制本公开的范围。

附图详细说明

本文中描述的本公开的实施方案并不意在穷举或者将本公开限定到说公开的具体形式。选择进行的描述的实施方案是为了使本领域技术人员有能力实施本公开的主题而选择的。尽管本公开描述的是分析系统的具体构造，但应当理解的是，本文提出的构思可以采用与本公开一致的多种多样的其他构造。此外，尽管讨论的是对转基因侧翼序列的分析，但本文的教导可以应用于其他序列的分析。所描述的系统和方法可能可应用于来自任何用于鉴定和表征转基因侧翼序列的分子方法的输出，且这些系统和方法提供了在基因组内定位转基因插入位点的自动化途径。在一个实施方案中，这些方法和系统还提供插入位点周围的邻近序列及局部环境，以便确定在插入位点处或附近的局部环境中是否有重排。

一种理想的分离的插入序列，根据图1A所示的实施方案，包括左克隆载体101、引物105、转基因侧翼区域序列107、转基因表达载体序列103、衔接子109、和右克隆载体111。左克隆载体101和右克隆载体111是克隆载体的一部分，克隆载体是第一DNA序列，其中可插入第二DNA序列。第二DNA序列的插入将克隆载体分为右(3’部分)克隆载体111和左(5’部分)克隆载体101。在一个实施方案中，克隆载体的消化是由限制酶或通过另一种本领域已知的方法完成的，从而产生被切割的DNA片段。在单个特定位点处消化克隆载体一般产生已知的左克隆载体101和右克隆载体111序列。对于图1B示出了插入到基因组序列中的插入序列。表达载体103是用于将基因导入靶细胞的序列。引物105是用于起始DNA合成过程的短DNA序列。表达载体103一般是用于将转基因整合到基因组中的序列。转基因侧翼区域序列107是转基因插入位点直接上游或下游的基因组序列；在该实施方案中该序列可以是已知的或者是未知的。衔接子109是短的寡核苷酸序列，其与转基因侧翼序列107的末端连接或退火。在该实施方案中，衔接子109的序列是已知的，并被用来标识序列的末端，而且还可以用来扩增或测序未知的转基因侧翼序列107。转基因侧翼序列107由位于整合的转基因侧翼的基因组整合位点的染色体侧翼区构成。转基因侧翼序列可包含由于该转基因整合到染色体的特定位置中而导致的缺失、倒位或插入。在一个实施方案中，该分离的序列排序如下：左克隆载体101、引物105、表达载体序列103、转基因侧翼区域序列107、衔接子109、以及右克隆载体111，如图1A所示，但是该序列的顺序不限于图1A和图1B所示的顺序。

如图1B中所示，引物105、表达载体103、转基因侧翼区域序列107被插入基因组序列，并出现在基因组序列内。衔接子序列随后作为用于分离转基因侧翼序列的方法的一部分被纳入。随后将所得的转基因侧翼序列，如图1A所示，利用下文所示的数据分析方法进行分析。在该理想的序列中，左克隆载体101、表达载体103、引物105、衔接子109、以及右克隆载体111的序列都是已知的。在实践中，该理想序列的一个或多个节段可以缺少或者可以含有改变。

图2A显示数据和样品从样品输入到分析系统207的流动。图2B显示流程图220，其展示了根据本公开的一个实施方案的一种数据分析方法。在框221中，利用(例如但不限于)ZFN引发的转基因插入规程制备输入样品201。在该规程中，一个或多个序列已知的部分，例如引物105或衔接子109，被添加到靶基因组，靶基因组的序列也是已知的。样品也可以通过其他转基因插入方法来制备。该转基因插入过程生成修饰的序列，其中在基因组中的一个或多个位点处有插入。图1B中提供了一个示例性的修饰序列。

在框223中，一个或多个测序器(sequencer)205从一个或多个输入样品201产生序列数据。测序器205确定用于鉴定基因组中的插入位置的转基因侧翼区域序列，并确认转基因插入的具体序列。在该实施方案中，样品数据的形式是一个或多个包含序列数据的文本文件。

输入样品201根据测序器205的规程或操作说明被加载到测序器205中。例如，可以使用Solexa ILLUMINA牌测序机或Roche 454牌测序机。测序器205产生与序列201相关的数据。该数据可包括，但不限于，一个或多个文本文件、标准流程图格式(Standard FlowgramFormat("SFF"))或类似文件、图像文件、或其他含有与输入样品201中的DNA链的序列相关的信息的数据文件。在一个实施方案中，所述数据信息还包括置信度(confidence)数据，使得序列中的每个碱基可具有与之相关的置信限，或者每个序列具有与之相关的置信限。置信限是由所述测序器计算的数学计算结果，且可以包括测序器205对特定碱基的读取的强度。在一个示例中，置信限是1-9的整数。在该例子中，置信限为1表示测序器205对于“报道的碱基就是DNA链中的碱基”的置信度相对较低。置信限为9表明测序器205对于“报道的碱基就是DNA链中的碱基”的置信度相对较高。在一个实施方案中，除了置信限之外，测序器205还报道其他信息。例如，测序器205可以报道何时碱基无法读取。

来自测序器205的数据被提供给分析系统207。在一个实施方案中，数据是通过测序器与分析系统207之间的网络或专用连接，或者是通过可移动存储器，从测序器提供给分析系统207的。在一个实施方案中，测序器将数据打印到屏幕或打印机，且该数据被输入到分析系统207，例如但不限于从键盘或扫描仪输入到分析系统207。在一个实施方案中，分析系统207是测序器的一部分。

在框225中，参考样品信息203被传输到分析系统207。所述参考样品信息203可包括，但不限于，下述的序列：左克隆载体和右克隆载体(二者可作为单一序列提供)、表达载体103、引物105、以及衔接子109。在一个实施方案中，序列信息通过网络被转移到分析系统207。在另一个实施方案中，参考样品信息203与来自测序器205的序列信息一起被传输到分析系统207。

在框227中，分析系统207从一个或多个测序器205接收序列数据，并分析所述序列数据，如下文更详细地说明的。分析系统207也将参考样品数据203作为输入。参考样品数据203可包括，例如而不限于，衔接子109、引物105、左克隆载体103和/或右克隆载体111、表达载体103的序列信息；或目标基因组序列信息。在一个实施方案中，将全部靶基因组序列数据提供给分析系统207。在另一个实施方案中，将全部目标基因组序列的子集提供给分析系统207。在又一个实施方案中，分析系统207将对靶基因组序列的全部或一部分的请求发送给另一系统。匹配的序列数据以及该分析系统207产生的其他数据接受补充处理。补充处理可包括，但不限于，可视化、定量化、与来自其他样品或其他试验的数据归并、或者与目标基因组序列比较。在一个实施方案中，补充处理由另一系统实施。在另一实施方案中，分析系统207实施所述补充处理的全部或一部分。补充处理在下文中描述。

图3展示了依照本公开的一个实施方案的分析系统207的组件视图。分析系统207可包括输入模块303、计算模块305、输出模块307、以及可视化模块311，在一个实施方案中，它们驻留于分析系统207的存储器(memor_y)315中。这些模块可以由分析系统207的控制器325来运行。在一个实施方案中，控制器325是一个或多个处理器，且控制器325包括用于控制对控制器325及存储器315的访问的操作系统软件。存储器315包括计算机可读介质。计算机可读介质可以是任何能够被分析系统207的一个或多个处理器访问的可用介质，且包括易失性介质和非易失性介质。此外，计算机可读介质可以是可移动介质和/或不可移动介质。举例而言，计算机可读介质可包括，但不限于RAM、ROM、EEPROM、闪速存储器或其他存储技术，CD-ROM、数字通用光盘(DVD)或其他光盘存储器，磁带盒、磁带、磁盘存储器或其他磁存储设备、或任何能够用于存储期望的信息、且能够被分析系统207所访问的其他介质。分析系统207可以是单一系统，或者可以是互相通信的两个或多个系统。在一个实施方案中，分析系统207包括一个或多个输入设备、一个或多个输出设备、一个或多个处理器、以及与所述一个或多个处理器关联的存储器。与一个或多个处理器关联的存储器可以包括，但不限于：与模块的运行关联的存储器，以及与数据的储存关联的存储器。在一个实施方案中，分析系统207与一个或多个网络关联，且通过该一个或多个网络与一个或多个其他系统通信。模块可以由硬件或软件、或者硬件与软件的结合来实现。在一个实施方案中，分析系统207还包括额外的硬件和/或软件以便容许分析系统207访问所述输入设备、输出设备、处理器、存储器以及模块。所述模块，或者模块的组合，可以与另一不同的(例如在不同的系统上的)处理器和/或存储器关联，且各系统的位置可以彼此分开。在一个实施方案中，各模块在同一系统上作为一个或多个过程或服务来运行。各模块可操作以彼此通信并分享信息。虽然将各模块描述为彼此分离且不同，但两个或更多个模块的功能可以在同一过程中，或者在同一系统中运行。

输入模块303从输入设备301接收数据。输入模块303还可以通过网络从另一系统接收数据。例如但不构成限制，输入模块303通过一个或多个网络从计算机接收一个或多个信号。输入模块303从输入设备301接收数据，并且可以将数据重排或重加工成计算模块305可识别的格式，使得该数据能够被计算模块305所解释。输入设备301在一个实施方案中可以是客户端304，使用者与其交互以向分析系统207发送信号和从分析系统207接收信号。客户端304可通过一个或多个网络302与分析系统207通信。

网络302可包括下述中的一个或多个：局域网络、广域网络、无线网络例如使用IEEE 802.11x通信协议的无线网络、有线网络、光纤网络或其他光学网络、令牌环网络，或者可以使用任何其他类型的包交换网络。网络302可包括互联网，或者可包括任何其他类型的公用网络或私人网络。术语“网络”的使用并不将网络限定于单一形式或类型的网络，也不暗示使用的是一个网络。可以使用任何通信协议或类型的网络的组合。例如，可以使用两个或更多个包交换网络，或者包交换网络可以与无线网络通信。

输入设备301可通过专用连接或任何其他类型的连接与输入模块303通信。例如，但不限于，输入设备301可藉由通用串行总线(“USB”)连接、通过与输入模块303的串行或并行连接，或可藉由与输入模块303的光学或无线联接与输入模块303通信。传输也可藉由一个或多个物理对象发生。例如，测序器产生一个或多个文件，且测序器或使用者将该一个或多个文件拷贝到可移动存储设备，例如USB存储设备或硬盘驱动器，且使用者可以将该可移动存储设备从测序器移除并将其附接到分析系统207的输入模块303。可以使用任何通信协议来在输入设备301和输入模块303之间通信。例如，但不限于，可以使用USB协议或蓝牙协议。

在一个实施方案中，输入设备301是测序器。测序器分析一个或多个样品并生成关于该一个或多个样品的序列数据。测序器可以通过无线或有线连接将序列数据传送给输入模块303。

在一个实施方案中，数据是一个或多个文件的形式，或者测序器可以将数据打印到屏幕或打印机，且该数据通过，例如或不限于，键盘、鼠标或扫描仪被输入分析系统207。在一个实施方案中，测序器还包括额外的描述所述样品的数据。

计算模块305从输入模块303接收输入，并基于该输入运行一个或多个处理序列。例如，且不限于，计算模块305接收用于这些序列的序列信息和参考样品信息。样品数据包括序列信息、例如但不限于，引物105、左和/或右克隆载体111、表达载体103、和/或目标基因组。样品数据可以由使用者、测序器、第三方系统、与分析系统207关联的另一系统、这些输入中两种或更多种的组合、或其他合适来源提供给分析系统207。样品数据可以作为标准格式的文本文件提供给分析系统207。例如，但不限于，文本文件可以格式化为FASTA格式。在另一个实施方案中，样品数据信息可以通过将数据打字或粘贴到一个或多个文本输入域来输入分析系统207。信息可以格式化为FASTA格式，或者另一种标准化格式。在另一种实施方案中，可以使用其他格式。例如，可以使用格式，或另一种格式。分析系统207可接收特定格式的样品数据，并且可将该数据重新格式化以供分析系统207分析。

计算模块305应用一种或多种算法来鉴定输入序列内的载体和/或衔接子109，基于输入序列内的载体和/或衔接子109来鉴定输入序列的朝向、定位输入序列内的转基因侧翼序列，如果可能，接收与输入序列相关的基因组信息，并且尝试将转基因侧翼序列定位到该基因组。这些算法生成额外的与输入序列相关的定性和定量数据。此外，在一个实施方案中，输入序列被注释并分析和/或可视化。参考图4、5A、5B和5C中所示的流程图对用于鉴定和注释输入序列的算法和过程加以说明。

计算模块305提供，例如，关于序列及其在基因组中的位置的数据，和/或供可视化模块使用来可视化一个或多个序列的额外数据，来作为输出。

可视化模块311从计算模块305接收关于输入序列和注释的数据作为输入。可视化模块311容许使用者可视化和/或操作序列和/或注释。在一个实施方案中，可视化模块311可使用Gbrowse，或者Gbrowse的修改版本。在别的实施方案中可以使用其他序列可视化软件程序。使用者可具有操作目标序列的视觉表示(visual representation)，或目标序列和基因组的视觉表示的能力。可视化模块容许使用者审视目标序列在基因组中的位置，或者其他感兴趣的序列在基因组内的位置。可视化步骤允许使用者确定目标序列在基因组内的位置，以及确定基因组的其他序列的位置或改变。该可视化可能有助于提供对转基因侧翼序列的分析。

输入模块307接收输入，并将该输入传输到输出设备309。在一个实施方案中，输出模块307从计算模块305、可视化设备311、或计算模块305和可视化设备311二者接收输入。接收到的数据可以是字母数字数据的形式，并将数据重新格式化为对输出设备309而言可理解的格式，并将数据传输给输出设备309。输出模块307和输出设备309互相通信。例如，但不限于，输出模块307和输出设备309通过网络互相通信，或者通过专用连接(如有线或无线联接)互相通信。输出模块307也可以将从计算模块305接收的数据重新格式化为输出设备309能够使用的格式。例如，输出模块307可生成一个或多个可以被输出设备309读取的文件。

在一个实施方案中，输出设备309是可视化系统、另一个分析系统207、或数据存储系统。输出模块307通过传送一个或多个电子文件到输出设备309来与输出设备309通信。该传输可通过专用联接，例如USB连接或串口连接发生，或可以通过一个或多个网络连接发生。传输也可藉由一个或多个物理对象发生。例如，输出模块307可生成一个或多个文件，并可以将一个或多个文件拷贝到可移动存储设备，例如USB存储设备或硬盘驱动器，然后使用者可将该可移动存储设备从分析系统207移除，并将其附接到可视化系统、另一个分析系统207、或数据存储系统。

图4显示了一幅流程图，其显示依照本公开的一个实施方案的数据分析方法。在框401中，根据一种或多种制备规程制备样品，产生具有转基因插入的未知样品。

在框403中，未知样品被测序。测序可依照规程或测序器的操作说明来进行。例如，可使用Solexa ILLUMINA牌测序机或Roche 454牌测序机。测序器生成与序列相关的数据。数据可包括，但不限于，含有与样品中的DNA链的序列相关的信息的一个或多个文本文件或其他数据文件。在一个实施方案中，所述序列信息还包括置信度数据，使得序列中的每个碱基可具有与之关联的置信限，或每个序列具有与之关联的置信限。置信限是由测序器计算出的数学计算结果，可包括测序器对具体碱基的读出的强度。在一个实施方案中，置信限是1至9的整数。在该例子中，置信限为1表示测序器对于“报道的碱基就是DNA链中的碱基”的置信度相对较低。置信限为9表明测序器对于“报道的碱基就是DNA链中的碱基”的置信度相对较高。在一个实施方案中，除了置信限之外，测序器还报道其他信息。例如，测序器可以报道何时碱基无法读取。

在框405中，来自测序器的数据被输入分析系统207，该系统定位并鉴定每个被测序的输入序列中的侧翼序列。侧翼序列可能不存在于每个输入序列中，或者该系统可能不能鉴定输入序列中侧翼序列的位置。侧翼序列被定位并鉴定的序列被系统记录，而侧翼序列未被定位、或者被定位但未被鉴定的序列也被系统记录。基于序列数据和系统所实施的分析，系统生成输出数据。下面援引图5A-5C也描述了序列数据的示例分析。

在框407中，系统对序列数据以及由系统确定的侧翼序列位置信息进行处理后分析。序列数据、目标基因组、和/或侧翼序列位置信息可以被可视化，可以用该数据进行定性测量，和/或可以用该数据进行定量测量。

图5A是一幅流程图，显示由分析系统207运行的一个用于侧翼序列鉴定的示例性方法。在框501中，表达载体103，其用作产生输入序列的规程的一部分，被输入系统。在某些实施方案中，还提供下列中的一个或多个的序列：右克隆载体和左克隆载体、引物105、和/或衔接子109。在一个更具体的实施方案中，还提供下列中的每一个的序列：右克隆载体和左克隆载体、引物105、和衔接子109。克隆载体、表达载体103、引物105、以及衔接子109的序列通常是已知的，以便在基因组内鉴定并定位它们。将已知序列的信息输入系统，以便在与输入序列比较时能鉴定出这些序列。

在框503中，从测序器或从一个或多个文件接收输入序列。所述一个或多个文件可以例如藉由网络传输给系统，或者可以以其他方式提供给系统。如果序列信息是从测序器接收的，其可以是例如藉由网络来传输给系统的。在一个实施方案中，序列信息是能够被传输给系统并能被系统读取的电子形式。在一个实施方案中，序列信息可以包括验证数据或其他额外数据，来保证序列信息在传输过程中未出错或改变。在另一实施方案中，序列信息存储在一个或多个数据库中，且序列信息藉由例如网络从一个或多个数据库被传输给系统。此外，基因组信息可以通过网络从另一个数据库接收。例如，基因组信息可存储在公众可访问的数据库、或私人可访问的数据库中，系统可请求基因组信息，并且至少部分地基于该请求，可将整个基因组或基因组的被请求的部分传输给系统。

在框505中，分析系统207对输入序列搜索与已知序列(包括表达载体103)的相似性。如果在步骤501中提供，分析系统207还可以搜索与克隆载体、引物105、和/或衔接子109序列的相似性。如果这些序列中的一个或多个在步骤501中未提供，则分析系统207将这些序列作为未找到处理。分析系统207可使用不同的搜索参数来搜索不同的序列。例如，在一个实施方案中，分析系统207可使用一组更严格的搜索参数来鉴定引物105和衔接子109，因为它们是较短的序列，且已被修饰的可能性更低。分析系统207可使用相比之下较不严格的搜索参数来搜索输入序列中的其他序列，因为它们更长和/或更有可能已经在转基因整合到基因组的过程中被改变。在一个实施方案中，分析系统207必须找到确切的序列方可鉴定表达载体103。在另一个实施方案中，分析系统207如果发现表达载体103的序列在误差限内，则分析系统207鉴定表达序列103。例如，误差限可以是表达载体103序列中的碱基对的百分之五。在另一个实施方案中，误差限大于或小于百分之五。

在一个实施方案中，分析系统207使用LASTZ比对程序和算法来搜索输入序列与由克隆载体、转基因表达载体表达载体103、引物105、和/或衔接子109序列组成的已知序列之间的序列相似性。LASTZ程序在Harris,R.S.(2007)Improved pairwise alignment ofgenomic DNA.Ph.D.Thesis,The Pennsylvania State University中有描述，在此通过提述并入其全部公开内容。LASTZ程序进行两种序列相似性搜索。第一种序列相似性搜索是“确切搜索”，其是LASTZ程序的一个特定的参数设置。“确切搜索”要求95％同一性，序列中没有开口，且序列内有至少15个完美的字符匹配(character match)。使用打分矩阵来为序列确定“得分”，该矩阵包括1(对于与目标序列的匹配)和-10(对于与目标序列的不匹配)。该搜索用来鉴定输入序列(如果被提供的话)内的引物105和衔接子109，因为预期输入序列中的引物105和衔接子109与样品序列中的引物105和衔接子109完全一致，这是由于引物105和衔接子109序列短，故不大可能已在实验过程中被修饰。第二种序列相似性搜索是“宽松搜索”。“宽松搜索”没有与“确切搜索”一样的严格要求。该搜索使用LASTZ的缺省参数，并被部署用来在输入序列中找到转基因表达载体103和克隆载体序列相似性。“宽松搜索”用于转基因表达载体103和克隆载体序列，这是因为它们更长，故更有可能在实验过程中已被修饰。

输入序列中的亚序列，它们与参考数据序列享有序列相似性，被标记为一种“类型”。在该实施方案中，有四种可能的“类型”：引物105、衔接子109、转基因表达载体103、和克隆载体。当步骤501中未提供引物105、衔接子109、转基因表达载体103及克隆载体中的一个或多个时，跳过该类型的步骤503和505。例如，输入序列与任何选定的引物105序列之间的高度相似的序列标记为“引物105类型”或与该类型相关联。类似地，如果使用者选择15个转基因表达载体103序列以供纳入分析中，且每个序列对输入序列内的亚序列具有30个同源物(homologies)，则所有450个序列都将与类型“转基因表达载体103”关联。

如框507中显示的，将以最高水平的序列相似性和比对长度与引物105序列比对的序列归类为“引物105类型”。类似地，将以最高水平的序列相似性和比对长度与衔接子109序列对齐的序列归类为“衔接子109类型”。在输入序列中衔接子109与引物105的比对长度和比对分数相同的情况下，则从所有的联系序列(tied sequences)中任意选择序列“类型”。这两种序列，“引物105类型”和“衔接子109类型”，首先被鉴定。首先鉴定它们是因为它们的基序的位置表明什么序列被扩增了，以及它的朝向如何。如果能够定位这两种序列类型，则它们的位置将会表明转基因和克隆载体序列的位置。

如框509中所示，一旦完成对引物105和衔接子109序列相似性的搜索，分析系统207就在输入序列中搜索具有最多序列相似性的转基因表达载体103。该搜索以两种不同方式之一进行，取决于是否已鉴定出了与引物105相似的序列。如果在输入序列中已鉴定出了引物105序列，则鉴定含有引物105的最佳匹配。在一个实施方案中，如果在步骤501中未提供引物105，或者在步骤507中未鉴定出引物105，或者如果没有任何转基因表达载体103序列含有与“引物105类型”享有相似性的序列，则考虑最佳总体匹配并选择序列相似性最高的转基因表达载体103。“最佳总体匹配”在此语境下意思是选择具有最高水平的序列相似性和比对长度的匹配。

一旦定位并鉴定了转基因表达载体103，就尝试藉由与已知克隆载体的序列相似性比对来定位和鉴定克隆载体序列。一旦鉴定了推断的转基因表达载体103序列，则进一步表征该序列上游和下游的序列。查询上游克隆载体序列以鉴定在起始和结束坐标处有序列相似性的克隆载体。先前已被注释的序列(转基因表达载体103、引物105和衔接子109)不查询。如此，分析系统207对所有可能的克隆载体搜索与先前鉴定的特征的上游区域的序列相似性。然后分析系统207以相似的方式对鉴定出的克隆载体序列信息搜索与先前鉴定的特征的下游区域的序列相似性。通过选择具有最高的序列相似性水平和序列长度的匹配来鉴定载体。

如框511中所示，鉴定输入序列的朝向，如果可能的话。为了便于比较和进一步的计算，分析系统207尝试将输入序列按从左到右的朝向排序；即，序列的5’端位于左侧，序列的3’端位于右侧。在某些情况下，测序器可能已测序了DNA的反义链，在此情况下需要对序列进行反向互补。一旦鉴定了输入序列中每种“类型”(即引物105、衔接子109、克隆载体、和转基因表达载体103)的序列，系统就利用该信息来鉴定输入序列和/或确定其朝向。朝向由引物105及衔接子109序列的位置所决定。因为便于可视化，正向朝向，其中引物105位于衔接子109前方，是优选的。

图6中显示了来自反义链的输入序列的一个例子。在图6中，引物105的序列对分析系统207而言是已知的，为“TAAACA”。在一个实施方案中，如果输入序列605被分析系统207所读取，分析系统207最开始可能无法找到输入序列605中的引物603序列。分析系统207反向互补输入序列605以解析出反向互补的序列607，并将引物105与该反向互补序列607比较。在该例子中，分析系统207系统找到了引物603对反向互补序列607内的亚序列的确切匹配。分析系统207将该序列609与已知引物603分离，并继续进行对反向互补的序列607的分析。在一个实施方案中，分析系统207取而代之地针对已知引物序列603比较反向互补序列与序列605，并且在鉴定了反向互补的引物序列603之后，可反向互补整个序列以产生反向互补的序列607，并可继续对反向互补序列607进行处理。

如框513中所示，转基因侧翼序列位于输入序列内，或者如果该序列在前一步骤中被反向互补，则位于反向互补序列内。针对图5B和5C更完整地描述了示例性的定位方法。

如框515中所示，转基因侧翼序列，如果在前一步骤中被找到的话，位于基因组内。转基因侧翼序列位于基因组内的一个整合位点中，且位于转基因插入位点的上游或下游，并与表达载体序列邻接。插入位点使用匹配算法确定。例如可以使用Basic LocalAlignment Search Tool(BLAST)算法。BLAST在Altschul S.F,et al.,"Basic localalignment search tool."J Mol Biol.1990Oct5；215(3):403-10中描述，在此通过提述并入其全部公开内容。BLAST搜索的输入是转基因侧翼序列与基因组。BLAST搜索定位(如果可能的话)转基因侧翼序列在基因组中的一个或多个整合位点。BLAST搜索的输出是可能的插入位点的列表和契合度(fit)的得分。对于该同源性搜索关闭所有的遮蔽(masking)和低复杂度过滤(low complexity filtering)，以鉴定尽可能多的整合位点。在进行了搜索之后，对输入进行解析以找到最佳命中，即契合度得分最高者。一旦鉴定了最佳命中，就将该区域视为推断的转基因整合位点。

对于给定的转基因整合位点，使用计算机脚本鉴定在基因组中有注释的连锁的内源上游和下游基因。解析基因组注释的输入文件，对各基因按照染色体进行标引并按照起始坐标排序。当确定了插入位点时，系统鉴定合适的基因坐标列表，并实施二分搜索来为插入位点鉴定出正确的插入点。将会出现转基因插入位点的经排序的坐标列表。从这点开始向前搜索该列表，直到定位出距插入位点大于10千碱基对的序列。然后向后搜索该列表直到定位出距插入位点大于10千碱基(kb)对的序列。按照此方式，注释基因组中插入位点上游和下游的基因以便进一步分析。距离参数可以改变，例如但不限于，改变到插入位点的>10kb或<10kb。也可使用其他距离插入位点的范围。

如果为插入序列找到了转基因整合位点，重要的是确定转基因和染色体侧翼序列之间的序列是否含有重排、插入或缺失。为了给予使用者插入位点在转基因整合过程中未被改变(即整合位点的序列未被重排或修饰而导致缺失或插入)的确信，分析系统207计算染色体侧翼序列与任何先前提到的过程之中使用的任何其他序列“类型”之间存在的重叠的量。这种量度作为输入序列相似度(input sequence similarity)中独特的且不被其他序列相似度重叠的碱基的数目(独特_碱基)与输入序列相似度中碱基的总数(总_碱基)的比例来计算。

该比例赋予整合位点定量值。

来自前述图5A中的框的经注释的数据在一个实施方案中可被提供用于框517中的目测检查。可视化的例子示于图9A和10。此外，输入序列、转基因侧翼序列和/或额外的关于克隆载体、表达载体103、引物105、衔接子109、或输入序列的信息，被提供用于可视化。关于转基因侧翼序列、克隆载体、表达载体103、引物105、衔接子109、或输入序列的数据也被保存到一个或多个电子文件。

图5B是一幅流程图，显示标识转基因侧翼序列850的一种一般化方法。在框852中，将用作生成输入序列的规程的一部分的表达载体103输入系统。在某些实施方案中，还提供下述中的一个或多个：右克隆载体和左克隆载体、引物105、转基因表达载体序列103、以及衔接子109的序列。在一个更具体的实施方案中，还提供下述中的每一个：右克隆载体和左克隆载体、引物105、转基因表达载体序列103、以及衔接子109的序列。克隆载体、表达载体103、引物105和衔接子109的序列通常是已知的，以便能够在输入的未知序列内鉴定并定位它们。将已知序列的信息输入到系统以容许在与输入序列比较时鉴定出这些序列。

在框854中，从测序器或从一个或多个文件接收输入序列。所述一个或多个文件可以例如藉由网络传输给系统，或者可以以其他方式提供给系统。如果序列信息是从测序器接收的，其可以是例如藉由网络来传输给系统的。在一个实施方案中，序列信息是能够被传输给系统并能被系统读取的电子形式。在一个实施方案中，序列信息可以包括验证数据或其他额外数据，来保证序列信息在传输过程中未出错或改变。在另一实施方案中，序列信息存储在一个或多个数据库中，且序列信息藉由例如网络从一个或多个数据库被传输给系统。此外，基因组信息可以通过网络从另一个数据库接收。例如，基因组信息可存储在公众可访问的数据库、或私人可访问的数据库中，系统可请求基因组信息，并且至少部分地基于该请求，可将整个基因组或基因组的被请求的部分传输给系统。

在框856中，分析系统207对输入序列搜索与已知的序列，包括第一参考序列，例如表达载体103的相似性。如果在框858中未找到表达载体103，则方法推进到框860。缺少表达载体103可能表明输入序列的生成或处理中有错误。在框860中，输入序列被标识为失败，并且不将其与基因组匹配。在一个实施方案中，当各序列被可视化时，该序列被标识为红色。

如果在框858中找到了表达载体103，则方法850推进到框862。在一个实施方案中，分析系统207必须找到表达载体103的确切序列方能推进到框862。在另一个实施方案中，如果发现表达载体103的序列处于误差限之内，分析系统207就可以推进到框862。例如，误差限可以是表达载体103序列中的碱基对的百分之五。在另一个实施方案中，误差限大于或小于百分之五。

在框862中，分析系统207对输入序列搜索与已知的序列，包括第二参考序列，例如衔接子109的相似性。如果找到衔接子109，则在框864中方法推进到框866。如果未找到衔接子109，则在框864中方法推进到框880。在一个实施方案中，分析系统207必须找到衔接子109的确切序列方能推进到框866。在另一个实施方案中，如果发现衔接子109的序列处于误差限之内，分析系统207就可以推进到框866。例如，误差限可以是衔接子109序列中的碱基对的百分之五。在另一个实施方案中，误差限大于或小于百分之五。

如果找到了衔接子序列，则方法550推进到框866。在框866中，分析系统207试图鉴定框854中的未知序列输入。在一个实施方案中，在进一步处理之前从未知序列移除已知的衔接子。在另一个实施方案中，在进一步处理之前不从未知序列移除已知的衔接子。如果未知序列被鉴定，则方法推进到框870。如果未知序列未被鉴定，则方法推进到框878。未能鉴定未知序列可能表明序列的生成或处理中有错误。在框878中，输入序列被标识为处理失败。在一个实施方案中，当各序列被可视化时，该序列被标识为红色。

在框870中，对基因组搜索该输入序列。在一个实施方案中，利用BLAST搜索算法来试图将缩减的输入序列与基因组匹配。在框872中，如果输入序列与基因组匹配，则方法推进到框874。如果缩减的输入序列未与基因组中的任何位置匹配，则方法推进到框876。

在框874中，输入序列与基因组的一部分匹配。分析系统207记录输入序列在基因组中的位置，也记录该位置的相邻区域中感兴趣的区域。在一个实施方案中，分析系统207记录距所述位置200千碱基对范围内的感兴趣的区域。在其他实施方案中，分析系统207记录更大或更小量碱基对范围内的感兴趣的区域。在一个实施方案中，使用者能够规定分析系统207记录的所述位置周围的相近区域的大小。在一个实施方案中，当各序列被可视化时，该序列被标识成绿色。

在框876中，输入序列被标识为未能与基因组匹配。该缩减的输入序列可能在测序过程中已被破坏，或者测序不正确。在一个实施方案中，当各序列被可视化时，该序列被标识成橙色。

如前文所述，如果在框864中未找到衔接子序列109，则方法850推进到框880。在框880中，分析系统207试图鉴定框854中的未知序列输入。如果在框882中鉴定出了未知序列，则方法推进到框886。如果未鉴定出未知序列，则方法推进到框884。未能鉴定出未知序列可表明在序列的生成或处理中有错误。在框884中，输入序列被标识为处理失败。在一个实施方案中，当各序列被可视化时，该序列被标识成红色。

在框886中，对基因组搜索该输入序列。在一个实施方案中，利用BLAST搜索算法来试图将缩减的输入序列与基因组匹配。在框888中，如果输入序列与基因组匹配，则方法推进到框890。如果缩减的输入序列未与基因组中的任何位置匹配，则方法推进到框892。

在框890中，输入序列与基因组的一部分匹配。分析系统207记录输入序列在基因组中的位置，也记录该位置的相邻区域中感兴趣的区域。在一个实施方案中，分析系统207记录距所述位置200千碱基对范围内的感兴趣的区域。在其他实施方案中，分析系统207记录更大或更小量碱基对范围内的感兴趣的区域。在一个实施方案中，使用者能够规定分析系统207记录的所述位置周围的相近区域的大小。在一个实施方案中，当各序列被可视化时，该序列被标识成绿色。

在框892中，输入序列被标识为未能与基因组匹配。该缩减的输入序列可能在测序过程中已被破坏，或者测序不正确。在一个实施方案中，当各序列被可视化时，该序列被标识成橙色。

图5C是一幅流程图，显示另一个根据图5A的流程图标识转基因侧翼序列507的方法，其中引物105、衔接子109或二者的已知序列在步骤501中提供。在框551中，分析系统207在输入序列中搜索被鉴定为引物105和衔接子109的序列。

在框553中，分析系统207在输入序列中搜索衔接子109和引物105。如果衔接子109和引物105都在步骤501中被提供并在输入序列内被找到，则方法推进到框559。如果衔接子109或引物105序列未在输入序列内被找到，或者如果衔接子109或引物105序列未在步骤501中被提供，则方法推进到框555。在一个实施方案中，分析系统207必须找到衔接子109和引物105的确切序列方可推进到框559。在另一个实施方案中，如果发现衔接子109和引物105的序列处于误差限之内，分析系统207就可以推进到框559。例如，误差限可以是衔接子109或引物105序列中的碱基对的百分之五。在另一个实施方案中，误差限大于或小于百分之五。在另一个实施方案中，引物105的误差限与衔接子109的误差限是不同的。

在框559中，已知的衔接子109和引物105的序列被从输入序列中移除，使得输入序列被缩减为衔接子109与引物105之间的序列。对基因组搜索该缩减的输入序列。在一个实施方案中，使用BLAST搜索算法来试图将该缩减的输入序列与基因组匹配。

在框563中，如果缩减的输入序列与基因组匹配，则方法推进到框571。如果缩减的输入序列未与基因组中的任何位置匹配，则方法推进到框565，且将输入序列标识为未能与基因组匹配。该缩减的输入序列可能在测序过程中已经被破坏，或者可能测序不正确，或者衔接子109与引物105在序列中相互毗邻，从而不留下缩减的输入序列。在一个实施方案中，当各序列被可视化时，该序列被标识为橙色。

在框571中，输入序列与基因组的一部分匹配。分析系统207记录输入序列在基因组中的位置，也记录该位置的相邻区域中感兴趣的区域。在一个实施方案中，分析系统207记录距所述位置200千碱基对范围内的感兴趣的区域。在其他实施方案中，分析系统207记录更大或更小量碱基对范围内的感兴趣的区域。在一个实施方案中，使用者能够规定分析系统207记录的所述位置周围的相近区域的大小。在一个实施方案中，当各序列被可视化时，该序列被标识成绿色。

如果衔接子109和引物105二者均未在输入序列内被找到，或者衔接子109和引物105未在分析系统207或使用者设定的容忍度内被找到，则方法从框553推进到框555。在框555中，分析系统207确定是否衔接子109或引物105序列在输入序列中被找到。如果衔接子109或引物105序列在输入序列中被找到，则方法推进到框561。如果衔接子109和引物105序列均未在输入序列内被找到，在方法推进到框557。

在框557中，衔接子109和引物105都未在输入序列中被找到。缺少引物105和衔接子109可能表明在输入序列的生成和处理中有错误。将输入序列标识为失败，并不与基因组匹配。在一个实施方案中，当各序列被可视化时，将该序列标识为红色。

在框561中，衔接子109或引物105序列在输入序列内被找到。在一个实施方案中，在输入序列中找到的衔接子109或引物105序列在一定的误差限以内。缺失的衔接子109或引物105序列表明输入序列的输入序列延伸到输入序列的5’或3’端，因而输入序列可能无法捕捉输入序列的全部序列。将已知的衔接子109或已知的引物105，无论哪一个存在于输入序列中，从输入序列中移除，使得输入序列被缩减为衔接子109与引物105之间的序列。对基因组搜索该缩减的输入序列，如框567所示。在一个实施方案中，使用BLAST搜索算法来试图将该缩减的输入序列与基因组匹配。

在框567中，如果缩减的输入序列与基因组匹配，则方法推进到框573。如果缩减的输入序列未与基因组中的任何位置匹配，则方法推进到框569，且将输入序列标识为未能与基因组匹配。该缩减的输入序列可能在测序过程中已经被破坏，或者可能测序不正确，或者衔接子109与引物105在序列中相互毗邻，从而不留下缩减的输入序列。在一个实施方案中，当各序列被可视化时，该序列被标识为橙色。

在框573中，输入序列与基因组的一部分匹配。分析系统207记录输入序列在基因组中的位置，也记录该位置的相邻区域中感兴趣的区域。在一个实施方案中，分析系统207记录距所述位置200千碱基对范围内的感兴趣的区域。在其他实施方案中，分析系统207记录更大或更小量碱基对范围内的感兴趣的区域。在一个实施方案中，使用者能够规定分析系统207记录的所述位置周围的相近区域的大小。感兴趣的区域可包括编码基因或其他基因组信息的序列。感兴趣的区域可能是从第三方系统，例如分析系统207从其接收基因组序列信息的系统接收的。在一个实施方案中，当各序列被可视化时，该序列被标识为黄色。

图7显示了分析系统207的样品输入屏幕。使用者可在框701中选择一系列输入序列。输入序列可以是用于提供序列信息的标准形式，或者可以是分析系统207能够解析并鉴定的形式。使用者也可以选择用于将输入序列对其定位的生物体基因组。基因组可以由分析系统207提供，以便使用者鉴定对于分析系统207而言可用的一个或多个基因组，或者使用者可以提供通向含有该生物体的基因组的序列信息的电子文件的路径。基因组可以是完整的或者部分的。在框705中，使用者选择一个或多个在实验中使用了的、且应当存在于输入序列中的表达载体103。在框707、709和711中，使用者分别选择在实验中使用了的、且应当存在于输入序列中的载体序列、引物105序列、和衔接子109序列。然后使用者按“提交”按钮以开始数据导入过程和分析。

图8显示依照本公开的一个实施方案的分析系统207的示例性输出。在该实施方案中，标记为“1”的表格的横排表示其中的染色体侧翼序列已经被分析系统207正确鉴定的输入序列。可以对这些横排进行颜色编码，例如颜色编码为绿色，以便与其他横排区分。标记为“2”的表格的横排表示这样的输入序列，其中鉴定了染色体侧翼序列，但分析中包含异常，因为无法鉴定所有被搜索的已知序列，使得例如衔接子109无法在输入序列中定位。这些横排可以编码为与标记“1”的表格的横排不同的颜色。标记“3”的表格的横排表示无法鉴定其中的染色体侧翼序列的输入序列。这些横排颜色编码为红色。“相邻者”(neighbors)列标明了来自与整合位点最接近的基因组序列的基因。

图9A显示分析系统207的一个汇总展示，其提供了对来自示例性的大豆事件416的一个特定输入序列的整合位点分析的图形展示。在图像的最上方显示了输入序列的坐标。该汇总展示中显示的其他序列相对于这些坐标进行了注释。在示例性的屏幕中，输入参考序列的朝向使得引物105和转基因表达载体103出现在屏幕的左侧，而基因组侧翼序列和衔接子109出现在屏幕的右侧。该图形展示显示了事件416(SEQ ID NO:1)的输入序列(如图9B所示)，其已被注释以鉴定其中的转基因表达载体103("pDAB4468"；SEQ ID NO:2)(如图9C所示)、衔接子109("Soybe-"；SEQ ID NO:3)(如图9D所示)和引物105("大豆_引物"；SEQ IDNO:4)(如图9E所示)序列。鉴定出的染色体侧翼序列被注释为实线(SEQ ID NO:5)(如图9F所示)。在该实例中，分析系统207已将该染色体侧翼序列与大豆(Glycine max)基因组比对。该染色体侧翼序列与染色体4的区域46003248、46004030对齐，序列相似度得分为780；与染色体6的区域11825430、11825559对齐，序列相似度得分为96；与染色体15的区域24517407、24517435对齐，序列相似度得分为29；与染色体5的区域37323425、37323452对齐，序列相似度得分为28。在图中图形显示了输入序列、转基因表达载体103、衔接子109和引物105。

图10显示了分析系统207用于拟南芥(Arabidopsis thaliana)中的应用。图示的是分析系统207的一个汇总展示，其提供了对一个输入序列的整合位点分析的直观图形展示。在图像的最上方显示了输入序列的坐标。该汇总展示中显示的其他序列相对于这些坐标进行了注释。该图形展示显示了已经被注释以鉴定克隆载体("pCR2.1-TOP")和衔接子109("1mAdp-Pri")的事件的输入序列。将鉴定出的染色体侧翼序列注释为实线。分析系统207已经将该染色体侧翼序列与拟南芥基因组序列比对。该染色体侧翼序列与拟南芥基因组序列标识物1229090、1230015的一个特定区域对齐，报道的序列相似度得分为913。图10显示了一条有引物105但没有右克隆载体111的转基因侧翼序列。

图11显示分析系统207用于玉米中的应用。图示的是分析系统207的一个汇总展示，其提供了对一个输入序列的整合位点分析的直观图形展示。在图像的最上方显示了输入序列的坐标。该汇总展示中显示的其他序列相对于这些坐标进行了注释。该图形展示显示了已经被注释以鉴定表达载体103("pEPS1027")的事件的输入序列。将鉴定出的染色体侧翼序列注释为实线。分析系统207已经将该染色体侧翼序列与玉米基因组序列比对。该染色体侧翼序列与玉米基因组序列标识物5337731、5338124的一个特定区域对齐，报道的序列相似度得分为728。图11显示了一条有表达载体103，但没有右克隆载体或左克隆载体101、111的转基因侧翼序列。

已经描述了本公开具有示例性的设计，但本公开还可以在本公开的精神和范围内进一步修改。因此本申请意图涵盖利用本公开的基本原理对其进行的任何变化、使用或转用。此外，本申请还意图涵盖属于本公开的相关领域中已知或常规的做法、且落入随附的权利要求的界限的对本公开的偏离。

Claims

1.一种分析方法，包括：

电子接收序列数据；

电子接收一个或多个至少与表达载体相关的参考数据序列，所述一个或多个参考序列数据选自下组：衔接子、引物、和克隆载体；

将所述序列数据与至少一个所述参考数据序列关联而为该至少一个参考数据序列中的每一个参考数据序列确定位置；

响应于该至少一个参考数据序列中每一个参考数据序列的被确定的位置鉴定出转基因侧翼序列；

对基因组搜索该鉴定出的转基因侧翼序列，以确定该转基因的一个或多个插入位点中每一个插入位点的位置；和

当在所述搜索步骤中找到所述一个或多个插入位点中每一个插入位点的被确定的位置时，注释所述基因组和所述一个或多个插入位点，并

提供包括所述注释的注释数据用于进一步分析和/或可视化。

2.如权利要求1所述的方法，其中所述参考数据还与下列中至少一个相关：左克隆载体、引物、衔接子、和右克隆载体。

3.如权利要求1所述的方法，其中所述参考数据还与左克隆载体、引物、衔接子、和右克隆载体相关。

4.如权利要求1所述的方法，还包括：

对所述序列数据搜索第一参考数据序列；和

当定位了所述第一参考数据序列时，对所述序列数据搜索第二参考数据序列。

5.如权利要求4所述的方法，其中所述第二参考数据序列选自下组：表达载体、衔接子、引物、和克隆载体，所述第二参考数据序列的选择独立于所述第一参考数据序列。

6.如权利要求4所述的方法，其中所述第一参考数据序列是表达载体，且所述第二参考数据序列是衔接子。

7.如权利要求4所述的方法，其中所述第一和第二参考数据序列独立地选自下组：引物和衔接子。

8.如权利要求1所述的方法，还包括可视化所述转基因侧翼序列和所述参考数据。

9.如权利要求1所述的方法，还包括可视化所述基因组内的一个或多个插入位点。

10.如权利要求1所述的方法，还包括表征所述插入位点上游和下游的基因组的序列信息。

11.如权利要求10所述的方法，其中表征所述插入位点10千碱基对上游和10千碱基对下游的基因组的序列信息。

12.如权利要求1所述的方法，还包括：

将所述序列数据与一个或多个参考数据序列比对，和

对被比对的序列进行定性分析。

13.如权利要求1所述的方法，还包括：

将所述序列数据与一个或多个参考数据序列比对，和

对被比对的序列进行定量分析。

14.如权利要求1所述的方法，其中所述基因组是植物基因组的至少一部分。

15.如权利要求1所述的方法，其中将所述序列数据与至少一个所述参考数据序列关联包括使用算法将至少一个所述参考数据序列与所述序列数据匹配。

16.如权利要求15所述的方法，其中所述算法是LASTZ算法。

17.如权利要求1所述的方法，其中对基因组搜索所述转基因侧翼序列的一个或多个插入位点包括使用算法在所述基因组中定位所述至少一个插入位点上游和下游的序列。

18.如权利要求17所述的方法，其中所述算法是BLAST算法。

19.一种核苷酸分析系统，包括：

构造为用于接收与序列相关的序列数据的输入模块；和

计算模块，其构造为用于：

接收与至少表达载体相关的一个或多个参考数据序列，所述一个或多个参考序列数据选自下组：衔接子、引物、和克隆载体；

将所述序列数据与至少一个所述参考数据序列关联；

利用序列数据与至少一个参考数据序列之间的关联为该至少一个参考数据序列中的每一个数据参考序列确定位置；

对基因组搜索该鉴定出的转基因侧翼序列；

基于该鉴定出的转基因侧翼序列的搜索结果，为该转基因的一个或多个插入位点中的每一个插入位点确定位置；和

当找到该一个或多个插入位点的被确定的位置时，注释所述基因组和该基因组内的该一个或多个插入位点，并

提供包括所述注释的注释数据用于进一步分析和/或可视化。

20.如权利要求19所述的系统，其中所述参考序列还与下列中至少一个相关：左克隆载体、引物、衔接子、和右克隆载体。

21.如权利要求19所述的系统，其中所述参考序列还与左克隆载体、引物、衔接子、和右克隆载体相关。

22.如权利要求19所述的系统，其中所述计算模块还可操作用以：

对所述序列数据搜索第一参考数据序列；和

当定位了所述第一参考序列时，对所述序列数据搜索第二参考数据序列。

23.如权利要求22所述的系统，其中所述第二参考数据序列选自下组：表达载体、衔接子、引物、和克隆载体，所述第二参考数据序列的选择独立于所述第一参考数据序列。

24.如权利要求22所述的系统，其中所述第一参考数据序列是表达载体，且所述第二参考数据序列是衔接子。

25.如权利要求22所述的系统，其中所述第一和第二参考数据序列独立地选自下组：引物和衔接子。

26.如权利要求19所述的系统，还包括可视化模块，其构造为用于令使用者能够可视化所述转基因侧翼序列和下列至少之一的模块：左克隆载体、表达载体、引物、衔接子、和右克隆载体。

27.如权利要求19所述的系统，还包括可视化模块，其构造为用于令使用者能够用于可视化所述基因组内的所述一个或多个插入位点的模块。

28.如权利要求19所述的系统，其中所述计算模块还可操作用以表征所述插入位点上游和下游的基因组的序列信息。

29.如权利要求28所述的系统，其中所述计算模块可操作用以表征所述插入位点10千碱基对上游和10千碱基对下游的基因组的序列信息。

30.如权利要求19所述的系统，其中所述计算模块可操作用以：

将所述序列数据与一个或多个参考数据序列比对，和

对被比对的序列进行定性分析。

31.如权利要求19所述的系统，其中所述计算模块可操作用以：

将所述序列数据与一个或多个参考数据序列比对，和

对被比对的序列进行定量分析。

32.如权利要求19所述的系统，其中所述基因组是植物基因组的至少一部分。

33.如权利要求19所述的系统，其中将所述序列数据与至少一个所述参考数据序列关联包括使用算法将至少一个所述参考数据序列与所述序列数据匹配。

34.如权利要求33所述的系统，其中所述算法是LASTZ算法。

35.如权利要求19所述的系统，其中对基因组搜索所述转基因侧翼序列的一个或多个插入位点包括使用算法在所述基因组中定位所述至少一个插入位点上游和下游的序列。

36.如权利要求35所述的系统，其中所述算法是BLAST算法。