CN104871164A

CN104871164A - 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统

Info

Publication number: CN104871164A
Application number: CN201380067867.2A
Authority: CN
Inventors: 朱莉·亚当斯; 米尔科·布霍尔泽
Original assignee: Callida Genomics Inc
Current assignee: Nantomics LLC
Priority date: 2012-10-24
Filing date: 2013-10-24
Publication date: 2015-08-26
Anticipated expiration: 2033-10-24
Also published as: US20190311784A1; US10347361B2; WO2014066635A1; HK1213330A1; US20140115515A1; CN104871164B; EP2912587A4; EP2912587A1

Abstract

本公开提供了一种通过解释全基因组为用户掌握第一手知识和经验的技术。所述技术以可扩大显示的方式通过图形描绘了基因组序列中的变化，并提供了平台，由此用户可以查找和研究这些变体的生物学意义。该技术还提供了设计为获取和提高参与社区的集体知识的独特的协作环境。

Description

处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统

相关申请的交叉引用

本申请是于2012年10月24日提交的美国临时申请61/717,773的非临时申请并要求该临时申请的优先权。该优先申请其全部内容并入本文用于所有目的。

技术领域

本公开总体涉及基因组序列分析领域。更具体地，描述了提供序列变化的图形显示以及能够与网络整合以促进公布和社区反馈的计算机系统和方法。

背景技术

例如在美国专利7,910,354(arrays of amplified polynucleotides)，美国专利8,278,039(random array DNA analysis by hybridization)；美国2009/0318304 A1(efficient shotgun sequencing methods)；和美国2011/0033854 A1(long fragment read sequencing)中已经描述了用于全基因组测序的方法。用于将DNA序列片段组装到扩大的基因组序列的方法包括(但不限于)在美国专利8,053,191(iterative nucleic acid assembly using activationof vector-encoded traits)；美国2011/0004413 A1(calling variations in asample polynucleotide sequence with respect to a reference polynucleotidesequence)；美国2009/0105961 A1(methods of nucleic acid identification inlarge-scale sequencing)；和美国2008/0221832 A1(methods for computingpositional base probabilities)中描述的方法。

除了确定基因组以外，能够以高效和直观的方式可视化基因组是有益的。

发明内容

本公开提供了用于确定、显示和讨论不同的个体之间的基因序列中出现的变化的计算机系统和方法。

本发明的一个方面是用于显示相同物种的不同的个体之间的基因组之间的变化，以及其他复杂序列之间的差异的方法。针对测试样本和参考样本接收序列数据，使用计算机系统对准样本，并且识别序列中的变化。然后在表示变化位于何处的比较基因序列图谱上可以显示所述变化。可以给用户提供用于控制所述比较基因序列图谱的显示的界面。用户可以从界面选择基因序列图谱内区域(有时少于整个比较基因序列图谱的一半)的选择，从而所述显示被重新配置，使得该区域被放大，任选与所述区域尺寸成比例：例如是原来的显示的至少2倍，跨越所述显示的宽度的至少约一半呈现所述区域。

根据本发明的显示系统可以被配置为以多种格式显示序列和变体数据。所述格式可包括染色体组型视图、细胞基因组视图、染色体连锁图、染色体视图、线性图谱、或序列视图、典型地利用这些可用格式和用户可选择的格式中的若干或所有的任意组合。

基因图谱可以提供低到单个碱基的等级的分辨率。因此，该方法包括确定所述区域是否小于规定的尺寸，如果是的话，则显示跨越所述区域的核苷酸序列，和(如果在指定的尺寸处的所选择的跨度内发生确定的变化中的至少一个)，则显示相对于所述核苷酸序列的变体的位置。根据所述方法显示的基因变化包括但不限于拷贝数变化(CNV)，小核苷酸变化(SNV)，杂合性丢失(LOH)，以及在本发明的其它地方列出的其它变化类型。

显示的丰富度可适于提供者和/或使用者的喜好。例如，显示可以针对拷贝数、等位基因特定拷贝数和蛋白质编码序列在整个感兴趣的区域呈现独立的图。用户可以被给予选择染色体组型视图、跨越一个或多个染色体的圆形视图、或感兴趣的区域的线性视图的能力，其中任何一个表示在复杂序列中的变化发生在何处。

为了提供对测试样本的复杂序列的安全访问，所述方法可以包括：接收标识用户的第一标识符和标识测试样本的第二标识符，确定用户是否有权访问试验样本的序列数据，并且如果是的话，则从安全数据库中检索测试样本的复杂序列，所述安全数据库包括多个不同的样本的基因组。所述方法还可以包括使用任何合适的方法，诸如那些在本公开别处列出的方法，进行包含在测试样本中DNA的实际测序。参考序列可以任选地从这种序列的数据库中选择，例如，通过搜索在参考数据库中的多个参考样本中的任何一个的复杂序列的来源；比较测试样本的复杂序列与参考序列，并且如果参考序列根据预先设定的标准与测试样本相匹配，则选择所述参考序列。

数据的过滤可通过以下方法来进行：接收指定要显示的序列变化的特性的过滤器的选择；以及调整所述显示以突出具有所述特性的变化和/或移除不具有由所述过滤器所指定的特征的变化。所述方法可以包括预测序列变化对蛋白质表达、蛋白质功能、临床表现、或疾病的风险的一个或多个影响，并利用所述基因序列图谱提供有关所述影响的信息。所述方法还包括将所述变化中的至少一些与已知变体相比较，并可选地从外部数据库利用所述基因序列图谱提供有关所述已知变体的信息。通过接收DNA序列中的一个或多个变化的选择，以及指示所述比较基因图谱上的一个或多个变化，某些变体可以由用户突出显示或牵制。所述方法可以包括接收DNA序列中的一个或多个所述变化的选择，确定在所述人类基因组中所选择的变化中的每个的所述位置，获得关于在至少一些所选择的变化的位置处或附近针对其他样本观察到的DNA序列变化的信息，和提供包含所述信息的显示。

本发明的另一个方面是包括非临时性计算机可读介质的计算机产品，所述非临时性计算机可读介质存储多个指令，所述多个指令当被执行时控制计算机系统以执行前述方法的任何方面。

本发明的另一个方面是配置成计算和提供根据本文描述的方法的测试样本的复杂序列数据相对于参考样本的复杂序列数据的变化的显示的系统。所述系统可以包括计算机处理器、存储所述参考DNA序列数据的数据库、和DNA测序装置。所述系统被配置为使得所述用户可以与他人共享关于一个或多个变化的信息。

本发明的另一个方面是一种用于在客户端之间共享复杂序列中的变化的服务器系统。所述系统包括一个或多个处理器，所述一个或多个处理器被配置为组装例如示出测试样本的样本复杂序列和参考样本的参考复杂序列之间的多个变化的基因序列图谱之类的显示。所述处理器提供所述基因序列图谱给多个客户端；提供第一用户界面给第一客户端，其中所述用户界面被配置成：接收指示以使所述基因序列图谱能提供给其他的客户端；以及接收关于能提供给其他客户端的一个或多个变化的第一信息。所述系统被配置成提供第二用户界面给一个或多个第二客户端；从所述一个或多个第二客户端接收关于能提供的所述一个或多个变化的回复信息；以及提供所述一个或多个变化的所述回复信息给所述第一客户端。

所述系统利用从一个或多个变化到第一信息和用于相应的变化的回复信息的链接可提供基因序列图谱给多个客户端。利用链接到所述基因序列图谱上的所述一个或多个变化的指示的超链接，关于由第一客户端用户提供的一个或更多的变化的第一信息能提供给其他客户端。所述第一信息可以被显示在提要中作为一个或多个条目，所述提要能提供给多个用户，其中每个条目对应于相应的变化。有关所述一个或多个变体的所述第一信息通过因特网上的信息网站的方式能提供给其他用户。所述服务器可被配置为将来自其他用户的有关一个或多个变化的回复信息编译成关于所述变化是致病性的还是良性的的评估。

从下面的描述本发明的其他方面将是显而易见的。

定义

如本发明中所用的术语“复杂序列”、“序列汇编”或“靶序列”是指任何物种的个体或个体的组合的核苷酸序列组。序列数据可以通过测序来自特定个体的生物样本获得，或者其可以被构造用于人的个体或群体的人工序列数据或共有序列数据。复杂序列可以是完全或部分的基因组序列数据，它可以是来自表达文库的cDNA序列数据，它可以是序列集合，如外显子组或生物群落，或者它可能是用户感兴趣的另一DNA编译。除非明确说明，否则已经从其获得复杂序列的合适的个体可以从人、其它哺乳动物、其他脊椎动物、其它真核生物、原核生物，或它们的组合选择，合适的个体包括但不限于：来自特定源或来自特定人的亚分类的人或其它生物样本的库，来自特定的环境的单细胞有机体，或生物体或其部件的假设序列或共有序列的汇编。

如下面所解释的，如在本公开中使用的“参考样本”是用户可以将测试样本与其比较的任何样本。参考样本可以具有参考复杂序列，例如，参考基因组。来自测试样本的核酸分子的序列(因此相应于测试样本的基因组)可以与参考序列对准。

“比较基因序列图谱”是其中两个或两个以上的复杂序列之间的变化沿DNA结构(如染色体)在遗传位置指标(如碱计数或已知标记物)之间被图谱化(mapped)的图形描绘。除非另有说明，否则提供用于显示的基因序列图谱是“可扩大的”，在这个意义上，用户可以请求非常详细的概要(如整个染色体)或其区段的描述，最终归结到所选择的区段中的序列中的实际核苷酸。

核苷酸序列“变化”包括一个样本的复杂序列(例如，基因组)与另一样本的复杂序列之间的任何差异，如从相应样本的序列读取中确定的，这在下面说明和举例说明。

“显示”是I/O装置(诸如显示器或触摸屏设备)上示出的视觉描绘，或由装置所描绘的框或窗口内的视觉描绘。例如，通过使项目在可操作地连接到系统的适当的输出装置上呈现，或者通过将数据集发送到外部装置(如客户端)使该装置能够在本地呈现项目，计算机系统可以对项目“提供显示”。

附图说明

图1A是根据本发明的基因浏览器系统的示例性配置的框图。图1B是显示用户通过其可以对系统进行分析并显示序列数据的过程的流程图。

图2A是示出来自特定患者的基因组序列数据的染色体组型视图的显示的屏幕截图。图2B示出了与参考序列进行比较的整个基因组的细胞基因组视图。

图3A是示出式图的形式的患者样本的整个基因组序列的概况的显示，其示出了序列变化和表观染色体间结的分析。图3B是图谱化通过将测试序列与参考序列比较来确定的核苷酸变化的更详细的视图。

图4A是染色体1的线性视图的显示，其可通过移动标记402到较窄区域进行扩大以更详细地观察。图4B示出了其中用户调用键盘以输入感兴趣的特定基因的名称的用于分解视图的屏幕截图。图4C示出了染色体17的亚区域，其表明基因TP53和WRAP53、和单核苷酸变化(SNV)的位置。图4D示出了在染色体14上的特定基因的进一步的放大视图。在该放大等级，示出了基因组序列的单个核苷酸。测试序列和参考序列是相同的，除非存在变化：在这种情况下，SNV 437。

图5A示出了朝向感兴趣的或潜在重要性的特定基因或特定染色体位置过滤所述分析的菜单。图5B示出了用于组装基因面板的菜单。图5C示出了用户通过核苷酸序列的功能选择染色体区域(例如，编码区，基因内非编码区，和基因之间的序列)的菜单。图5D示出使用户能够根据对所编码的蛋白质的影响选择变化的菜单。

图6示出了具有针对以核苷酸变化对所编码的蛋白质的影响为特征的用于选择的基因的分析数据的概要的显示。

图7示出了其中特定的序列变化已由社区的用户评估的显示。

图8示出了已被配置为促进已分析根据本发明的变化的序列的用户与可能对所观察到的变化或对已经发生变化的基因有兴趣的其他用户之间的对话的社交联网门户。

图9是示出了本发明的示例性过程的流程图，用户通过该示例性过程可以提交序列用于处理并获得具有所得分析的显示。

图10示出了计算机的子系统结构，通过该计算机可以实现根据本发明的基因浏览器系统。

具体实施方式

本公开为解译全基因组提供了一种用于用户掌握第一手知识和经验的技术。该技术在可扩大的显示中以图形方式描绘了基因组序列中的变化，并提供了一个平台，用户通过该平台可以查找和研究这些变体的生物学意义。该技术还提供了设计为获得和提高参与社区的集体知识的独特协作环境。

举例而言，每个用户可以以下面的方式分析一个或多个复杂序列。在呈现他们的证书之后，用户从客户端调用测试样本获得的并储存在由服务器可访问的安全数据库中的复杂序列。系统将测试序列与选定的参考序列匹配。将测试序列和参考序列对准，确定序列变化。变化被图谱化在图形显示中的序列上，该图形显示以客户端的方式提供给用户。用户可通过指示系统围绕所述显示移动并扩大所述显示在图谱上感兴趣的区域探索。用户可以在核苷酸等级深入审查基因变化。用户还可以请求针对特定基因或特定类型的变化进行过滤该数据。

计算机系统还提供了一个平台，用户通过该平台可以授权其他用户访问该测试样本序列，并由此确定遗传变化。主用户和其他用户都可以注释变化并在被集成到系统中的社交网络交换评论。

I.概述

人类全基因组测序极有可能成为人类健康的管理诊断和预测性辅助手段。然而，解译全基因组数据以获得临床指导意义的信息提出了很大的挑战。在开发这里描述的技术之前，分析和解译基因组序列数据的专门技术已经分布在各种基因组数据库中，使得很难集合不同种类的信息并通过协商一致解决未决的问题。这里所描述的技术通过整合来自多个来源的信息解决了这些问题，并为更多的用户了解和共享有关解译基因组变化的知识提供了平台。

这里描述的技术提供了超过以前可用的技术的许多重要的优点。首先，这里所描述的序列分析系统可与用于确定生物样本的基因组序列的服务器相结合。新的序列数据可以与来自多个来源的信息合并，来源包括来自外部基因组数据库的预测算法和交叉引用的注释。其次，该技术通过易于使用的界面通过给用户提供重要的和指导性信息帮助用户解释基因组。

第三，该技术允许专家跨平台协作。在传统的现代电子网络中，人们交接和分享商业创意和他们的个人生活，这里描述的技术有专门集中于基因组序列变化的解释的协作功能。这在基因组学创造了充满活力的知识基础，以造福各个地方的临床医生研究人员以及他们照顾的病人。

图1A是示出根据本发明的基因浏览器系统100的说明性配置的框图。第一用户通过可操作地连接到本地或网络可访问的服务器104的第一客户端计算机或终端103访问系统。客户端103能够访问并提供来自数据库102的序列数据。通常，数据库102是保密的以保护从测序服务器101获得的序列数据的保密性或控制访问该序列数据，序列数据例如通过测序一种或多种生物测试样本获得。安全样本序列数据库102可独立地连接到客户端计算机103，或者它可以是与服务器104连接的共享数据库的一部分，用户控制访问服务器104。服务器处理来自数据库102的数据，以便在客户端计算机103上创建用于呈现的显示。所述处理通常包括将测试序列与一个或多个参考序列相比较，参考序列如关于特定疾病或病症的在感兴趣的区域中的共有序列。在分析中所使用的参考序列可以存储在由服务器编译的和/或从外部源108获得的参考序列数据库107中。

测试样本和参考样本之间确定的每一个变化可以利用多个过滤器或算法由服务器104分析(例如，以确定它是否会导致所编码的蛋白质中的变化)，并且相应地被注释。每个变化可以与以前已知的变化相比较并根据先前已知的变体的临床或学术意义注释。注释(或其选择)各自设置在显示在客户端计算机103上的相应的序列变化处或其附近。在本发明的一些配置中，用户具有使测试序列能提供给一个或多个其它用户的选项，一个或多个其它用户具有连接到服务器104的他们自己的客户端105。每一个其他用户可以或可以不从客户特定的数据库106取出他们自己感兴趣的序列，用于比较或分析的目的。可以由服务器104使用来自其他客户端105的信息以注释在第一客户端103上呈现的显示。服务器104还可以提供论坛，第一用户和其他用户通过该论坛可以交换关于在测试样本观察到的变化的书面评论。

图1B是表示过程的流程图，用户通过该过程可以提交序列进行处理，并获得根据本发明的显示。这个过程的特征在下文第III节描述。

此处描述的方法和系统可用于多种研究目的和技术。一种这样的应用是帮助用户评估可能在特定的个体的基因组、病变组织，或表达文库中存在的遗传变化。这样的信息在个体的基础疾病状况的临床管理中可能是有益的。

因此，在分析之前用户可以获取来自测试样本的复杂序列并上传来自测试样本的复杂序列到系统。该技术的另一个应用是将分析工具与DNA测序服务整合，由此从特定个体获得的序列信息成为分析的主题。

适于与本发明一起使用的测序方法包括但不限于美国专利No.7,910,354；美国专利No.8,278,039；美国专利2009/0318304 A1；和美国2011/0033854 A1中描述的方法。通常，复杂序列在被用于识别这里所描述的序列变化之前被完全组装。适合于组装DNA序列片段到扩大的基因组序列的方法包括但不限于在美国专利8,053,191；US 2011/0004413 A1；US2009/0105961 A1；和US 2008/0221832 A1中描述的内容，在这里它们的全部内容通过引用并入本文用于所有目的。

来自测试样本的复杂序列可以通过系统操作员或通过最终用户从测序装置自动地装载到这种技术的分析系统。该系统可以配置有安全系统使得每个用户可以控制访问来自每个样本的复杂序列。可以向用户提供电子形式的序列数据，然后将源数据从服务器中清除。更方便地，服务器可以提供数据的储存库，以便用户可以通过云计算访问服务器上的数据，并且之后在用户方便时应用本发明的分析工具到来自每个测试样本的数据。

为了保持访问控制，例如，服务器可以被编程为接收识别用户的第一标识符和识别测试样本的第二标识符。然后将标识符与所存储的信息相比较以确定用户是否有权限访问测试样本的序列数据。如果请求的用户有这样的权限，则然后服务器从安全数据库中检索测试样本的复杂序列，并允许用户查看数据、分析数据和任选地下载数据。用户还可以具有权限以改变许可，使得对复杂序列数据和/或随后的分析的访问对其它指定的用户或用户类、服务器上的数据具有访问权限的其他成员或广大公众开放。

II.序列变化的识别和显示

为了确定序列中的变化，该系统可以比较来自测试样本的复杂序列与来自参考标准的复杂序列。在接收测试样本的复杂序列后，系统对准测试样本的复杂序列与一个或多个参考样本的复杂序列，使得序列的基本上相同的部分被比较。通过系统将测试序列和参考标准之间的差异识别作为变化，然后可以如下所述进行过滤作为评估他们的生物学和临床意义的辅助手段。

用于该分析的参考标准可在一段时间的运行期间对于所有的测试样本是一致的。替代地，针对特定的测试样本的分析可以由用户提供或识别参考标准。这例如，在来自肿瘤的组织的分析中可能是有用的，其中来自同一人的正常或未感染的组织可以作为最接近的参考。

在一些实施方式中，服务器将能够访问多个可能的参考标准，并且服务器将识别拟用于由系统分析的每个测试样本的一个或多个参考。在该实施方式中，系统将搜索参考数据库中多个标准样本中的任何一个的复杂序列的来源。它将比较测试样本的复杂序列与从参考库中调用的复杂序列。然后，如果根据预设的标准，标准样本与测试样本相匹配，则它可以从数据库选择标准。

A.序列变化的识别

本发明的方法和系统可用于标识复杂序列中的变化。一个或多个测试样本和一个或多个参考样本的复杂序列之间存在差异。

核苷酸序列变化包括针对一个样本确定的序列和另一个样本的基因组之间的任何差异，另一个样本的基因组如从相应的样本的序列读数确定。明显的变化可以从测序和/或序列组装中的错误产生。在变体是已知的或怀疑是测序错误的情况下，在显示给用户的图谱中变体可以被抑制或减弱。测试样本和(那些在重测序时可再现或其他被怀疑或确认的)之间的真正的序列变化包括但不限于以下内容：

●小的核苷酸变化(SNV)和单核苷酸多态性(SNP)。SNV包括在变化的区域中或其周围一个或多个核苷酸的改变、添加或缺失。SNP是SNV的子集，其中单核苷酸的变化发生伴随不同个体或不同类型的同种样本之间已知的规律性。SNP包括伴随已知的规律性发生的病变组织中的会遗传的等位基因和突变。

●拷贝数变化(CNV)，其中复杂序列的特定基因或其它功能元件被复制或与参考样本相比较减少复制，如可以通过基因复制和/或易位发生。

●杂合性缺失(LOH)，染色体三体和基因重排(置换)。

本发明的实施方式可以导致这些类型的变体中的任何一种、一些或所有以任何组合的形式显示。

参考样本可以是任何用户可以将其与测试样本进行比较的样本。它可以是另一个体的样本，但是更通常地是共有序列或假设序列，诸如可通过合并多个个体的相应序列来创建，和/或为了比较的目的通过编辑以排除或包括所述一个或多个核苷酸变化来创建。该比较可以通过将测试序列与参考序列对准来完成，以便最小化变化的数量。例如，测试序列可以对准到导致来自基准序列的最少错配或变化的位置。

可以从参考样本数据库中选择参考样本以匹配被分析的样本。如果根据一个或多个预先设定的标准条件，参考样本充分类似于测试样本，则选择参考样本以匹配测试样本。举例而言，确定匹配可包括任意组合形式的如下标准中的任何一个或多个：同一性的程度，存在或不存在所关注的特定的序列变化，和源信息，例如种族背景、家庭相关性和临床病症。

B.序列变化的显示

这里描述的技术提供了一个平台，用户通过该平台可以在一个合并工具中可视化、过滤和分析的基因组序列数据的变化。例如，小的核苷酸变化(SNV)，拷贝数变化(CNV)和杂合性丢失(LOH)的事件都可以在同一显示上被观看。提供内置的基因组浏览器以可视化和浏览基因组，基因组宽的视图缩小到碱基对等级视图，使得用户可以查询与他们的特定临床情况相关的序列变化。

作为对分析结果以及定向用户的引入，该系统可以提供给用户作为整体的基因组或表达文库的各种视图的选择。

举例而言，图2A是示出了来自一特定病人的基因组序列数据的显示的屏幕截图200。右侧是染色体组型视图210，根据其带型212描绘的每个染色体211的右边示出复制数量的变化。每个染色体的右侧示出复制数量变化：拷贝数增益，显示为向下指向V形标记213，拷贝数丢失，显示为向上指向V形标记214，和异质性丢失，显示为水平井字号215。

在左侧220的显示提供用户已经选择用于分析的在感兴趣的基因面板221中特定变化的列表，下面的总结评估222关于是否是致病性或良性的。参考图5A和5B，如下所述选择基因面板。根据在参考序列的图谱化位置，以及进行的改变，每个变化被命名221。因此，c.29085809A＞G是在图谱化到位置29085809的参考序列的染色体22上检测到的变体，其中，在参考序列中的核苷酸A(丙氨酸)改变成在测试序列中的G(谷氨酰胺)。根据编码的蛋白质序列的预期的改变，在其它情况下遭遇的这种改变，或任何组合的其他类型的预测分析，做出特定的变化是否可能是致病性的的预测222。该显示还包括图标223，通过图标223用户可以调用进一步的细节，如测试序列登录号，参考序列登录号或者称号，位置，所述基因或序列共同的名字或称号，其符号，序列变化或SNV的类型上进一步的信息，和接合性(纯合或半)。

图2B是示出包括细胞基因组视图的屏幕截图230的另一个非限制性说明。右侧是整个基因组的细胞基因组视图240。这里，对于每个患者的数据与从CGI的数据库获得的序列标准相比较。顶部路径241是相对覆盖范围数据的拷贝数，其是各区域的序列读数的数量作为样本的覆盖范围的比率。由于基因缺失或重组事件(例如，在癌细胞中)，下个路径242是可以在特定区域显示杂合性(LOH)的损失的等位基因特定拷贝数。第三路径243示出在由用户选择的基因面板中发生的小的核苷酸变化的计数(包括SNPs，插入，缺失和小的取代)。基因路径244示出在整个基因组的基因的浓度。由于用户放大到感兴趣的特定区域，他们将看到实际基因名称以及外显子和内含子。在左侧(如在图2A)，存在已被选择作为用于评估特定病症的基因面板的感兴趣的某些基因251中已知变化的显示250，以及关于变化是否被预测为致病性或良性的图形评估252。

图3A是以圆形或式图的形式的所述患者的样本的整个基因组序列的概述显示300(M.Krzywinski等人，Genome Res.19：1639-1645，2009)。该显示示出在整个染色体图谱的位置的结构变化的频率。中部301中的曲线显示明显的染色体间连接。图3B提供了染色体4的细节310。从外到内，这些层显示出染色体图谱311，调用倍性312，较小的等位基因部分313(含有以≤50％的样本存在的等位基因的样本的部分)，杂合SNP密度314(作为单倍型的SNP的发生的密度)，以及纯合SNP密度315(纯合SNP的发生的密度)。

III.可扩大显示

本发明的一个方面是用于测量和分析复杂序列数据的显示系统。返回参考图1B，显示系统可以接收序列数据151，例如，从已经确定感兴趣的一个或多个生物样本的序列的测序服务输入或发送新数据到系统。一个或两个以上的测试序列与一个或多个参考序列152对准，一个或多个参考序列152是分析的标准，或由系统或由用户作为与测试样本的合适的匹配选定。这样的参考可被存储在已由系统存储或汇编的和/或从一个或多个外部源检索的参考序列的数据库内。该系统可以在现有基础上，作为关于由系统处理的测试序列的学习功能来任选更新在数据库中的一个或多个参考序列。

一旦样本被对准，然后系统处理数据，以确定哪里存在测试序列和参考序列之间的变化153。变化包括但不限于：小核苷酸变化(SNV)、拷贝数变化(CNV)、杂合性丢失(LOH)、和易位。由系统确定的变化可以任选地过滤154以便于分析的解释。例如，可以实现一个或多个过滤器，以排除经识别的或怀疑是序列读取错误或组装误差的变化。如本公开内容其它部分所描述的，可通过用户的选择实现的其它的过滤器包括但不限于聚焦所述显示在特定基因或基因区上的过滤器，根据变化对序列的功能的影响选择变化的过滤器(例如，对编码的氨基酸序列的影响)，以及根据特定感兴趣的先前已知的变体或临床意义选择变化的过滤器。这种过滤器可单独使用或以任何有效组合的形式使用，并且用户审查所显示的数据期间可以由用户选择接通和关断。

然后显示由系统155提供给用户客户端，其示出了在复杂序列的图谱上它们的位置处的经过滤的变化：从整个序列的概述图(诸如针对基因组序列的染色体组型视图)以不同的详细程度缩小到实际核苷酸序列。该显示某种意义上(取决于系统如何配置)是用户可控的，用户可以请求一个或多个以下项的任何组合：放大或细节的改变，施加或去除过滤器，突出或注释由系统或包含一个或多个感兴趣的变化的基因区标识的特定变体，并允许其他系统用户在所述显示上或在链接的论坛中直接提供他们自己的注释。在此处所示的结构中，用户界面接收更大的序列图谱156内的区域的选择，因此系统重新配置显示，以放大或集中于由用户选择的区域。用户界面还可以接收请求，以减少被分析的区域范围的放大率或扩大被分析的区域范围，随后系统重新配置显示以将先前观看的区域压缩或按比例缩小成较小的空间，以便为复杂序列的邻近的区域在显示上出现提供空间。

图4A、4B和4C示出了显示深入到用户感兴趣的子区域以检查每个序列变化的细节的能力。可扩大显示的好处是，它响应于用户输入实时重新配置，以便提供感兴趣的特定的区域的放大图。因此，基因组概况(例如图2A，图2B或图3A)可扩大以详述特定染色体(图4A)，在这里以水平线性描绘的方式所示。这进而可以扩大到特定子区域或基因簇(图4C)，然后扩大到感兴趣的一个或多个序列变化的附近或周围的区域(图4D)。系统保持序列数据作为图形显示的基础。因此，如果选择足够窄的感兴趣的区域，则显示会跨越感兴趣的窄的区域以逐个核苷酸为基础地呈现核苷酸序列。在该显示中，小的核苷酸变化(SNV)437可被识别为相对于参考序列的特定核苷酸缺失、添加、或取代。

在视图之间的导航可以以与底层代码和硬件兼容的任何方式来实现。例如，用户可以被提供数字输入或滑动刻度以指定从原始描绘缩放的程度。如果I/O装置具有触摸屏，则该视图可通过在先前的视图的适当位置触摸、捏、变焦、或敲击进行扩大、收缩、或上移或下移。该界面还可以提供有让用户可以指定特定的区域、基因、变化、或其他染色体特征的链接或菜单的选择，并且被带到让所选特征占有至少10％、20％、40％、多数、或基本上所有的显示的宽度的视图。该系统还可以配置成使得用户具有的拉起键盘(图4B)的选项，通过键盘输入显示应聚焦在其上的特定的基因或区域的名称。

IV.过滤和数据解释

来自不必然相关的不同个体的基因组包括一系列的序列变化，该一系列的序列变化为他们的个体特征提供遗传基础，但不一定预示着特定表型或疾病易感性。根据测序的质量，还会存在产生噪声潜在模糊重要数据的测序错误。为了帮助临床医生研究者集中在更可能在临床上有意义的变化，该系统可以提供过滤能力以缩小搜索的范围。

图5A、5B、5C和5D提供了可实现的过滤器的类型的一些非限制性实例。在图5A中，用户可集中在对某些基因501或特定染色体位置502的分析。

在图5B中，用户从广泛的或全面的编码区的列表当中明确地选择特别感兴趣的特定的基因或基因类别，从而形成了“基因面板”。在该图中，已选择已知是与某些疾病或临床病症相关的15种基因面板。用户具有选择介于1和10000个基因之间，介于3和10000个基因之间，介于5和1,000个基因之间，或介于10和100个基因之间的列表的选择。代替或附加于选择与特定疾病或病症相关的基因，可以根据所选择的功能针对面板选择基因：例如，编码细胞表面受体的基因，或编码特异于某种配体的细胞表面受体的基因。该系统可以被配置以帮助用户选择特定的基因或者允许用户能选择整个类别。以类似的方式，过滤器可以允许用户集中在被认为参与基因调控、DNA处理、或生物表型的另一个方面的非编码区。作为另一种选择，用户或系统可利用与所关注的特定疾病或病症相关联的预定的基因面板，而不是逐个地选择基因。

图5C是由系统提供的另一种类型的过滤器，其允许用户根据它们的功能集中于特定的染色体区域-或者是明确选择作为面板的一部分的基因，或整个基因组。因此，用户可以选择编码区域(CDS)，外显子，在5′端的端非翻译区(UTR)，在3′端的UTR，或在5′端和3′端两者的UTR，转录调节物如启动子或增强子区域，等等。图5D是过滤器，其使用户能够集中于特定类型的遗传变化在它们对编码的蛋白质的预测影响方面。例如，在编码序列中的小的变化可以分类如下：

●基因改变，其导致同义密码子的选择(因此编码的氨基酸没有改变)，

●非移码影响-例如，导致点变化的替换、缺失或插入，但使所编码的蛋白质序列保留不变，或

●更大的变化，它们可能危及蛋白质功能，特别是如果它们发生在编码序列的早期时(例如，移码突变或插入终止密码子)。

进一步举例而言，可根据预测的致病性、基因区、对编码的氨基酸序列的影响、SNV类型(例如，单核苷酸多态性、缺失、插入、多核苷酸取代)、接合性(纯合或杂合的)，过滤小核苷酸变化(SNV)，无论其是否在特定的数据库(诸如dbSNP数据库)中被发现，或者以排除在健康群体中的常见变体。可以根据预测的致病性、基因区、拷贝数、重复类别重叠，过滤拷贝数变化(CNV)，或者不论它是否在特定的数据库(诸如DGV)中被发现。任何质量过滤器，如倍性质量分数，和CNV类型质量分数。可针对测序的质量或可信度和/或所述序列组装过滤不同类型的变体以便测序错误不混淆分析。这种过滤器可以由用户选择用于任何有效组合，任选地用于与已经构建或装载到该系统的用户自己设计的过滤器的组合。

本发明的计算机系统和方法可被实现，从而提供注释和进一步的信息以帮助从在过滤之后呈现的遗传变化的存在中作出结论。例如，服务器可以提供算法来预测任意组合的蛋白质表达、蛋白质功能、临床表现、和/或疾病的风险。根据对经编码的氨基酸序列的影响，可以预测蛋白质表达。根据预测的三维结构，以及对催化和结合位点的影响，可以预测蛋白质功能。根据在相同的位置或相同的位置附近的其他已知的变化的累积历史和它们的已知的影响，可以预测临床表现和疾病风险。这样的预测算法可以被编程到系统中，或者来源于外部服务器，例如，在互联网上。

也可以实现本发明的计算机系统和方法，以便提供与以前报道的发生在相同的基因中或具有相似的生物学和/或临床效果的基因变化的比较。该系统可以从其自身在相同的客户和参考数据库中的其他复杂序列进行的相似分析的记录提供这样的信息。该系统还可以从对所述系统来说是外部的其他系统和数据库(例如，通过因特网)提供这样的信息。一旦这种其它已知的变化被识别，系统可以指示相同的基因图谱上每个变化的位置和/或提供关于彼此已知变体的已知信息的附近链接。注释功能可以被提供既作为被动工具又作为主动工具。因而，一旦接收用户偏好的信息，该系统可以自然地按照用户的偏好使用内部和/或外部获得的信息用有关附近的或相关的遗传变化的信息注释基因图谱。可替代地或另外地，该系统可以被设置有查询功能。因此，用户可以在测试序列中选择一个或多个遗传变化，或者在测试或参考序列中选择一个或多个基因区域。该系统然后可以根据来自用户的请求被提示运行它自身的算法和/或寻求外部信息。

这里所描述的技术允许用户采取充分的变化注释的优势。这可以包括：(1)遵循HGVS标准的临床意义的变化名称；(2)通过转录的基因注释，包括功能影响和来自预测算法(诸如Polyphen和SIFT)的分数；(3)来自若干基因组数据库(如dbSNP数据库和DGV)的交叉参考注释，以及(4)整个若干数据集(如1000个基因组)中的等位基因频率的信息。从而可以给用户提供具有与其他资源的智能链接的统一的信息。信息包括变化属性，变化和基因注释，技术性能摘要和包括与NCBI、PubMed和普及公共基因组浏览器链接的背景敏感链接。统一视图有助于缩短变化分析和研究过程。

V.社交网络

可在本发明的计算机系统和方法中实现的另一个特征是用于与其他用户进行交互以便改进知识库的平台，两者都相对于特定的测试序列，并且通常在特定类型或类别的变化的研究中。

这可以通过使用提供信息给多个客户端的服务器来实现。参考图1A，其他客户端105中的每一个设置有由服务器104组装的基因序列图的显示以供呈现给用户，该基因序列图谱表示针对测试样本的复杂序列中的变化与针对一个或多个参考样本的复杂序列中的变化的比较(如在图2A和2B中)。提供界面，通过该界面，第一客户端用户103可以指示服务器提供基因序列图谱，特定的序列数据，或特定的遗传变化体给其他客户端用户105。可选地，第一用户注释或选择感兴趣的特定的遗传变化或基因区和/或提出特定的问题，例如，相对于一个或多个识别的遗传变化的可能的生物学或临床效果，或通常寻求有关具有与他们已经选择或研究的遗传变化或基因区域有类似性质的遗传变化或基因区域的其他经验。该信息被注释或链接到在变化已经被图谱化到其上的座位处或附近的显示。

已被授权访问来自特定测试样本或特定基因变体的图谱或信息的在系统105上的其他用户(由第一用户选择的成员，通常是订阅成员，或能访问系统的公众成员)可以在核苷酸变化或由所述第一用户提出的问题上反映。如果他们希望在答复中提供信息，则该系统提供门户，该回复信息通过该门户被私下地发送到第一客户端用户，或发送到由第一客户端用户选择的用户的社区用于为主题的一般性讨论。门户可以被实现，以便允许进行回复的用户将位置标志和/或注释添加到基因序列图谱，或者附加信息到由第一用户做出的注释。门户也可以被实现，以便允许通过链接到图谱或先前的评论的交换帖子，或提供为单独的显示进行讨论，由此所述第一客户端的用户可以接收服务器从一个或多个其他客户端的用户获得的关于一个或多个变化的回复信息。

图8是根据本发明的已被配置用于推广这样的对话框的序列分析系统的屏幕截图。在此配置中，存在窗口或门户804，其中所述第一用户公布关于正在显示的序列的信息的概要，如其中检测到变化的存在和引入。在另一窗口或门户803中，其他用户被授权以访问回复后的信息，从而可以激起来自第一用户和其他人的进一步解说。第一用户可任选由系统授权来控制访问和/或节制和编辑所述讨论。

更广泛地说，系统可以提供各种类型的论坛，通过该论坛，用户可以就特定的遗传变化、特定的基因区域、特定的生物效应、或者特定临床问题进行交互。这样的论坛可以是公告板或博客的形式，任选地具有到基因图谱的链接、复杂序列数据，或以任何组合的其它讨论，根据隐私问题或基因序列数据的专有方面和/或其专家解读，任选地具有不同级别的受控访问。这些论坛也可以是新闻馈送的形式，具有到基因图谱的链接、复杂序列数据、或以任何组合的其他讨论，任选具有各种级别的受控访问。新闻馈送将典型地通过订阅来提供，从而某些用户或某类用户可以被给予访问，并且可以选择或退出以接收周期性或根据需要所选择的推送。

这样的论坛也可能是无源知识库或维基(wiki)的形式，其中系统提供了可用于研究特定主题或遗传变化的信息库。知识库可具有到基因图谱的链接，复杂序列数据，或以任何组合的其他讨论，任选具有不同级别的受控访问，并且可选地还提供了一种方法，其中每个条目的发起用户或其他用户根据他们的访问级别通过该方法可有权更新。

因此，本发明的社交网络方面可以被实现，以便当用户过滤和搜索变体时，他们可通过突出显示或注释感兴趣的变体以标记它们从而容易地返回到它们。社区评估允许用户对贡献和利用有关变体的致病性的社区知识。当用户使用该技术创造变体评估时，他们可以选择与社区分享该评估。然后，用户可以相互评论对方的评估。在案例的背景中观察到变体的下一次，用户观察到所有共享评估的总结以及每个评估的细节，所述细节包括谁做评估，何时以及所有支持记录、证据和评论。新闻馈送提供一种方法让用户留在最新活动顶部并与其他用户进行协作。同事可以直接通过新闻馈送互相评论和协作以交换信息，解决案例并评估变化的致病性。

VI.说明性实施例

本说明书所附的附图示出了本发明的某些方面的非限制性说明。用于分析在该图中所示的遗传变化的所述系统已经由Complete Genomics Inc.开发以Voyager^TM或Voyager Genome Explorer^TM为服务标志用于商业。

Voyager提供了在计算机站、个人数字助理、触摸板、或与配置成提供序列信息和显示的服务器交互的其它客户端上使用的应用平台。该平台可以在标准的操作系统(如iPad^TM、iOS^TM、Android^TM和Windows^TM)上实现。用户打开应用程序，登录，并从该登录的用户被允许访问的服务器获得到案例的访问权。Voyager与Complete Genomics的基因测序服务无缝集成。因此，有证书的用户将可以访问来自他们提供的样本的序列数据，Voyager订阅者和/或公众通常可获得的已经取得的序列数据。

一旦复杂序列可从基因测序服务获得，有他们想要分析的复杂序列的用户登录到系统。序列标有关于测试样本的信息：例如，样本(例如外周血)的性质、取样日期、和特定样本的身份标识(ID)。该序列被给予其自己的内部保藏号，并运行测序，该内部保藏号对样本是唯一的。因此，来自不同的患者的样本，来自在不同天的同一病人的多个样本，和相同的序列的不同的序列运行被分别识别。

一旦启动或探寻有关来自特定的患者的复杂序列，用户首先提供临床背景：差别诊断，表型(从SNOmed使用标准实体在订货时收集的)；可获得的额外的临床信息；系谱信息；治疗型和/或解译型临床医生的身份。也存在附加额外信息的领域(例如，实验室结果，和/或临床史或家族史)。用户还可以查看技术摘要以观察序列数据的质量：例如，关于受试者的信息，质量控制报告，以及有关数据更详细的统计信息，如基因组与外显子组的覆盖范围，或各种维度的变化的概要。

图2A是示出了染色体组型视图中在右侧210的来自特定患者的基因组序列数据的显示的屏幕截图200。每个染色体被编号211，并根据其带型212描绘，每个染色体的旁边是图谱化(map)由测试序列的分析确定的变化的标记。左侧220的显示提供在用户已经选择了用于分析的感兴趣的基因面板221中特定变化的列表，下面总结评估222关于是否是致病或良性的。图2B是包括整个基因组的细胞基因组视图240的屏幕截图230。这里，将每个病人的数据与从CGI的数据库取得的序列标准相比较。图3A是圆形或式图的形式的患者样本的整个基因组序列的概述显示300(M.Krzywinski et al.，Genome Res.19：1639-1645，2009)，在中间301的曲线描绘表观染色体间联结。在本实施例图3B提供了染色体4的细节310。

图4A是示出由用户选择用于更详细地查看的染色体1的染色体视图400的显示(例如，通过从图2A中的染色体组型显示选择特定染色体)。图4A中的显示示出了在顶部的所选择的染色体401，有示出在下面的图形中所示的区域的标记和拇指控制402。线性曲线403、404、405和406提供所计算的拷贝数403的选定的区域内的图谱(预计为2，除了区域间重复)，所计算的等位基因特定拷贝数404(纯合子的拷贝数预计为2，杂合子的拷贝数预计为1)，小核苷酸变化405的出现，和基因位置406(出现开放阅读框)。从这个视图中，用户可以使用顶部的拇指控制402放大和缩小。双击放大，而手指双击缩小。通过调整拇指控制402的位置，用户可以朝着先前范围内的感兴趣的子区域放大。替代地，用户可以使用右侧的+和-按钮407，从染色体区域缩放。

图4B示出了用户可通过其放大到特定基因的替代方法。屏幕截图410示出了由用户调用的键盘412，键盘412然后可以用来输入感兴趣的基因的名称或位置到搜索框中411。然后，系统选择合适的染色体并放大到基因所处位置的染色体内区域。放大倍率由系统选择，以适应基因(包括内含子，外显子，和控制序列)的已知长度，将基因置于每一侧的旁侧序列之间的中心。

图4C是显示出左侧的标记422之间的染色体17 421的较窄的区域的扩大视图420。用户可以通过扩大完整染色体17的视图，在特定的基因放大，或者通过按照其名称(TP53)搜索基因来获得该视图。该显示示出两个重叠的基因的图谱：TP53 426，其被定向从左至右426，和WRAP53的部分，其恰好部分地与TP53重叠，并且被定向从右向左427。每一个基因被描绘为具有在5′端和3′端的垂直线和指示方向的方向指示(“＜”或“＞”)的水平线。未处理的翻译产物的编码区在每个基因内的相应位置处以框的形式指示。

图4D是示出在染色体14 431上的特定基因的进一步的放大图的显示430。用户可以通过如之前从较低的分辨率放大达到这种放大的等级，或者可以通过点击较低的分辨率的显示中的特定SNV(对应于图4C的带425中所示的SNV)达到这种放大的等级。同样，显示出拷贝数433和等位基因特定的拷贝数434。在该放大的等级，基因组序列显示为单个碱基435。测试序列和参考序列是相同的，除非存在变化：在该案例中，SNV 437。最底层的图形436是使用单字母代码描绘的编码氨基酸序列。

图5A、5B、5C和5D示出用于选择可应用于数据的过滤器的菜单，以便简化和聚焦所选择的区域内所示的变化。使特别感兴趣的序列变化在显示上显示，而其他不太感兴趣的变化或测序噪音被过滤掉，并不会出现。

图5A显示过滤器500的菜单，以集中在对潜在的感兴趣的或具有重要性的某些变化的分析。用户可以选择特定基因501或特定染色体位置502用于分析。小核苷酸变化(SNV)可以根据预测的致病性、基因区、对编码的氨基酸序列的影响，SNV类型(例如，单核苷酸多态性、缺失、插入、多核苷酸置换)，接合性(纯合或杂合)进行过滤，不论它是否在特定的数据库(如dbSNP数据库)中发现，以排除在健康人群中常见的变化，以及测序质量过滤器(如VQHIGH与VQLOW，和最小读数)。标记为VQHIGH的杂合子变化通常需要每个等位基因至少两个高质量的、图谱化的读取。标记为VQHIGH的纯合子变化通常需要至少七个读取。标记为VQLOW的变化可能有更少的支持调用的读取，并伴随着表示在调用中较低信心的较低的评分。拷贝数变化(CNV)可以根据预测的致病性、基因区、拷贝数、重复类别重叠进行过滤，无论它是否在特定的外部数据库(如DGV)中发现，以及测序质量过滤器，如倍体质量分数，和CNV类型质量分数。

图5B示出了菜单505，通过菜单505用户可以装配特别感兴趣的基因面板。在这个案例中，选择了15个基因的面板。图5C示出了菜单510，其中用户通过应包含在分析中的功能511选择基因区域。用户可以选择显示编码区域(CDS)、上游转录起始位点(TSS)、内含子、在5′和/或3′端重叠的外显子、剪接供体和受体位点的mRNA，以及在5′和/或3′端的非翻译区(UTR)，而不是显示整个基因序列。

图5D示出了允许用户根据它们在所编码的蛋白质或它以下的表达上的效果521选择SNV的菜单：例如，没有改变，同义变化(即导致编码的氨基酸序列没有改变的沉默突变)，无义变化(导致过早终止密码子)，错义变化(导致单个氨基酸的机会)，错始(misstart)变化(导致起始密码子的错位)，非移码插入或缺失(导致氨基酸序列的小变化，但保留大部分蛋白质完整)，移码插入或缺失(导致下游核酸序列在框架外，由此编码完全不同的氨基酸序列)，剪接位点破坏(防止正常转录后处理)，和未知或不确定的变化。

在该实施方式中，用户有选项以施用过滤器到单核苷酸变化(SNV)或拷贝数变化(CNV)，或两者。对于SNV，用户可以限制对变化的其中在系统中的一些信息表明其致病性的分析。其他SNV过滤器包括基因区域(变化落入哪个地区，如CDS、5′UTR、3′UTR)，功能性影响(如同义、错义、无义、或移码)，SNV类型(例如，插入、删除、或替代)，结合性(纯合子或杂合子)，dbSNP(是否在dbSNP中找到)，1000个基因组的次要等位基因频率，以潜在过滤出在健康群体中常见的变化，并针对序列的质量和最小计数过滤。对于CNV，用户可以针对CNV选择过滤器：是否应包括它们(例如，CNV大于给定数目)、致病性、拷贝数状态、重复类别重叠(例如DNA，LINE，Low_Complexity，SINE，Satellite，SegDup，Self-chain，Simple_Repeats，scRNA，tRNA，snRNA)、它是否会出现在遗传变化的数据库(DGV)和质量过滤器(如倍体质量得分，CNV类型质量分数)。Voyager系统允许用户可以创建他们自己的具有他们期望的过滤特性过滤器。

图6示出具有以各种感兴趣尺寸为特征的分析的数据的概要的显示600。每种基因601针对其预期功能影响列表：SNV是否是同义602，是否引起没有变化603，具有未知的或不确定的结果604，构成错义突变605和总计606。表中的号码被设置为链接。如果用户点击号码，该变体列表被过滤，以显示所选择的变体。用户可以在点击功能影响行旁边的基因以导航回到前一个画面，进行搜索并呈现所选的基因的扩大显示。

该系统还提供了与外部数据库的链接和浏览器，如UCSC或Ensembl，以便用户可以更详细研究感兴趣的基因区域的基因结构或保存信息，查找在GeneReviews中的信息或进行更全球化的NCBI搜索。

图7示出显示700具有通过将测试序列与参考序列进行比较已经检测的特定序列变化的社区评估。在任何时候，用户可以创建评估以获得研究笔记和所收集的其他证据。当准备好后，用户可以指示服务器与该系统的其他用户共享评估。由于用户创建和共享评估，然后Voyager针对整个案例的特定的变化聚总评估并提供针对所述变化的平均社区评估。当在特定案例中再次观察到所述变化时，用户可以使用该总评估作为在过滤、分类和评估变化中的附加信息以适应具体案例的背景。

条形图表701显示社区评估按排名的分配。在图表的下方，用户可以访问来自每个评估的贡献者书面评论702。随着创建新的评估或对评估发布评论，社区的其他成员得到通知，有新的活动。在用户尚未登录到Voyager的情况下，他们会看到iPad通知。如果用户已经在Voyager，他们将会看到呈现为显示的部分的新闻馈送图标上的指示。在用户是在特定的案例的背景中的情况下，新闻馈送被自动过滤到针对给定的案例的社区活动。在主页上还有显示所有案例的活动的新闻馈送。

图8示出包括第一窗口801的屏幕截图800，第一窗口801用变化的数目总结案例，并指示何时有新的评论。第二窗口802示出了与其他用户共享的序列变化的图谱。第三窗口804提供了从第一用户输入的信息，典型地该用户提供正在讨论的序列。第四窗口803被编程和被配置为交换评注，其中系统的其他用户公布答复信息，它可以发起来自第一用户和其他人的进一步的对话。

VII.信息的流

图9是表示系统和过程的流程图，通过该过程用户可以提交用于处理的序列并获得具有所得分析的显示。在用户已安全登录到系统921之后，他们呈现来自存储在安全的样本序列数据库923中的测试样本922的序列。然后，用户可以从参考数据库925选择匹配测试序列的一个或多个特定参考序列924，或让服务器选择合适的参考序列。然后对准测试和参考序列926，和识别序列变化927。

然后，服务器创建变化的图谱931，其中，所述测试样本和参考样本之间的差异相对于已知的染色体标记物被定位。然后，服务器编译该变化中的图形显示932，然后将其呈现给客户端933。该显示可以在感兴趣的特定预选染色体区域中被呈现。替代地，如下面更详细描述的，该差异可以根据测试序列的范围(例如，染色体组型或染色体视图)呈现，该用户从该范围可放大以聚焦特定区域934的细节，或缩小回到该范围。显示被调整935，并根据请求呈现给客户端933。如下所述，用户也可以要求一个或多个过滤器936，其用于选择测试和参考样本937之间是显著特别感兴趣的变化。然后过滤之后剩余的变化用于创建图谱931和用于显示给客户端933的图形显示932。用户可以为各变化提供他们自己的注释941，将其引入942到显示932。在多用户系统中，其他用户可回复943第一用户的注释。回复信息随后作为直接注释或作为链接注释并入显示942。

VIII.计算机实施

作为一般事项，在本发明的上下文中提到的计算机系统、其设计、制造、控制和编程可以根据任何合适的技术进行。任何在此公开内容中提到的计算机系统可以使用任何适当的数目的子系统。计算机系统可包括单个计算机装置，其中所述子系统可以是计算机装置的部件。替代地，计算机系统可以包括多个计算机装置，每个计算机装置都是具有内部组件的子系统。

在图10中所示的子系统经由系统总线1012互连。示出另外的子系统，诸如打印机1004、键盘1008、固定磁盘1009、耦合到显示适配器1005的监视器1006，以及其他装置。耦合到I/O控制器1001的外围设备和输入/输出(I/O)设备通过任何数目的本领域中已知的方法可以连接到计算机系统，如串行端口1007(例如USB)。例如，串行端口1007或外部接口1011可以用于将计算机系统1000连接到广域网(例如因特网)、鼠标输入设备、或扫描仪。通过系统总线1012的互连允许中央处理器1003能与每个子系统进行通信，并控制来自系统存储器1002或固定磁盘1009的指令的执行，以及子系统之间的信息交换。系统存储器1002和/或固定磁盘1009可以具体表现为计算机可读介质。本文提及的任何值都可以是从一个组件到另一组件的输出并可被输出给用户。

计算机系统可包括多个通过外部接口1011或通过内部接口连接在一起的相同的部件或子系统。任选地，计算机系统、子系统或装置可以通过网络进行通信。在这种情况下，一台计算机可以被认为是客户端，另一台计算机可以被认为是服务器，其中每个可以是相同的计算机系统的一部分。客户端和服务器可以各自包括多个系统、子系统、或组件。

本发明的任何实施方式可以使用硬件和/或使用模块化或集成形式的计算机软件以控制逻辑的形式来实现。本公开中的软件组件或功能可被实现为使用任何适当的计算机语言由处理器执行的软件代码，计算机语言例如使用例如传统的或面向对象的技术的Java，C++或Perl。软件代码可以被存储为计算机可读介质上的用于存储和/或传输的一系列指令或命令，合适的介质包括随机存取存储器(RAM)，只读存储器(ROM)，例如硬盘或软盘之类的磁介质，或如高密度盘(CD)或DVD(数字多功能盘)之类光介质，或闪存。该计算机可读介质可以是例如存储或传输设备的任意组合。

计算机程序还可以被编码并经由有线、光学和/或符合各种协议的无线网络(包括因特网)使用适于传输的载波信号传输。因此，计算机可读介质可以采用编码有这样的程序的数据信号来创建。编码有该程序代码的计算机可读介质可以与兼容设备一起包装或与其它设备(例如经由因特网下载)分开设置。任何这样的计算机可读介质可以驻留在单个计算机程序产品(例如硬盘、CD、或整个计算机系统)上或者其内部，并且可以驻留于系统或网络内的不同的计算机程序产品上或其内部。计算机系统可包括显示器、打印机、或用于提供给用户交互和显示的其它合适的监视器。

在本公开中提到的任何的方法可完全或部分用包括处理器的计算机系统执行，处理器可以被配置成执行下列步骤。因此，实施方式可被引导到配置为可能利用执行相应步骤或相应步骤组的不同的组件执行任何此处描述的方法的步骤的计算机系统。虽然表示为编号的步骤，在此可以在同时间或以不同的顺序来执行步骤的方法。这些步骤的部分可以与其他方法的其它步骤的部分一起使用。此外，步骤的全部或部分可以是可选的。另外，任何方法的任何步骤可用用于执行这些步骤的模块、电路、或其他装置来进行。

在本公开中参考特定的实施方式为了读者的利益和便利性已经描述和示出了本发明。除非明确指示，否则产品和方法的各个方面的讨论并不限制所要求保护的发明的制造或用途。

本发明的装置和方法可以被取代，并适于在针对不同目标的使用不同的材料、元件和步骤的不同背景下使用，而无需过度实验，从而实现了本发明任何的益处或全部的益处，而不背离其主张的范围。

在美国和其他国家中如法律所允许的，在本公开中引用的每一公布和专利文献其全部内容通过引用被结合到本公开用于各种目的。

Claims

1.一种用于显示复杂序列之间的变化的方法，所述方法包括：

(a)接收测试样本的样本复杂序列；

(b)利用计算机系统对准所述样本复杂序列与参考样本的参考复杂序列；

(c)利用所述计算机系统识别所述样本复杂序列和所述参考复杂序列之间的多个变化；

(d)提供用于控制比较基因序列图谱的显示的用户界面，所述显示示出所述多个变化位于何处；

(e)在所述用户界面接收所述基因序列图谱内的区域的选择，所述区域小于整个所述比较基因序列图谱的一半；以及

(f)重新配置所述比较基因序列图谱的所述显示，使得所述区域被放大。

2.根据权利要求1所述的方法，其中所述区域被放大与所述区域的尺寸成比例。

3.根据权利要求1所述的方法，其中所述区域被放大至少两倍。

4.根据权利要求1所述的方法，其中所述区域被放大，使得跨过所述显示的宽度的至少约一半呈现所述区域。

5.根据前述任一权利要求所述的方法，其还包括：

确定所述区域是否小于指定尺寸；

如果所述区域小于所述指定尺寸：

则显示跨过所述区域的核苷酸序列，以及

显示所述核苷酸序列中的一个或多个变体的位置。

6.根据前述任一权利要求所述的方法，其中所述多个变化包括拷贝数变化(CNV)、小核苷酸变化(SNV)、和杂合性丢失(LOH)。

7.根据前述任一权利要求所述的方法，其中所述显示针对拷贝数、等位基因特定拷贝数、和蛋白质编码序列在整个感兴趣的所述区域呈现独立的图表。

8.根据前述任一权利要求所述的方法，其中，用户能够选择染色体组型视图，跨越一个或多个染色体的圆形视图，或感兴趣的区域的线性视图，其中任何一种指示复杂序列中的变化发生在何处。

9.根据权利要求1至8中的任何一项所述的方法，其中步骤(a)包括：

(i)接收标识用户的第一标识符和标识测试样本的第二标识符；

(ii)确定所述用户是否有权访问所述测试样本的序列数据；如果是这样，则

(iii)从安全数据库检索所述测试样本的复杂序列，所述安全数据库包括多个不同的样本的基因组。

10.根据权利要求1至8中的任何一项所述的方法，其中步骤(a)包括在所述测试样本中包含的测序DNA，从而获得所述测试样本的复杂序列。

11.根据前述任一权利要求所述的方法，其中步骤(b)重复地包括：

(i)在参考数据库中搜索多个参考样本中的任何一个的复杂序列的来源；

(ii)比较所述测试样本的所述复杂序列与在步骤(i)中来源被搜索的所述复杂序列；

(iii)如果根据预设的标准，在步骤(i)中来源被搜索的所述参考与所述测试样本相匹配，则选择在步骤(i)中来源被搜索的所述参考作为分析所述测试样本的所述复杂序列的合适的参考。

12.根据前述任一权利要求所述的方法，其还包括接收指定拟显示的序列变化的特性的过滤器的选择；以及调整所述显示以突出具有所述特性的变化和/或移除不具有由所述过滤器所指定的特征的变化。

13.根据前述任一权利要求所述的方法，其还包括预测在步骤(c)中识别的所述变化中的至少一些中的每个对蛋白质表达、蛋白质功能、临床表现、和/或疾病风险的一个或多个影响，并利用在步骤(d)中的所述基因序列图谱提供有关所述影响的信息。

14.根据前述任一权利要求所述的方法，其还包括将在步骤(c)中识别的所述变化中的至少一些与已知变体相比较，并利用在步骤(d)中的所述基因序列图谱提供有关所述已知变体的信息。

15.根据权利要求14所述的方法，其中至少部分地从外部数据库已获得有关所述已知变体的信息。

16.根据前述任一权利要求所述的方法，其还包括接收在步骤(c)中识别的DNA序列中的所述一个或多个变化的选择，以及指示在步骤(d)中显示的所述比较基因图谱上的所述一个或多个变化。

17.根据前述任一权利要求所述的方法，其还包括：接收在步骤(c)中识别的DNA序列中的所述一个或多个变化的选择，确定在所述人类基因组中所选择的变化中的每个的所述位置，获得关于在至少一些所选择的变化的位置处或附近针对其他样本观察到的DNA序列变化的信息，以及提供包含所述信息的显示。

18.根据前述任一权利要求所述的方法，其还包括：

在所述用户界面接收在步骤(c)中识别的DNA序列中的一个或多个变化的注释；以及

显示在步骤(d)中显示的所述比较基因图谱上的所述注释。

19.根据前述任一权利要求所述的方法，其还包括：

从第二用户界面接收在步骤(c)中识别的DNA序列中的所述一个或多个变化的注释；以及指示在步骤(d)中显示的所述比较基因图谱上的所述注释。

20.根据权利要求18或权利要求19所述的方法，其还包括：

在步骤(c)中识别的DNA序列中的一个或多个变化中的每个处或附近在步骤(d)中显示所述比较基因图谱上提供到论坛的超链接，能够访问所述复杂序列的多个用户能够通过该论坛交换第一信息并回复有关所述相应变化的信息。

21.一种包括非临时性计算机可读介质的计算机产品，所述非临时性计算机可读介质存储多个指令，所述多个指令当被执行时控制计算机系统以执行前述任一权利要求所述的方法。

22.一种配置成计算和提供根据权利要求1至21中的任一项所述方法的测试样本的复杂序列数据相对于参考样本的复杂序列数据的变化的显示的系统。

23.根据权利要求22所述的系统，其包括计算机处理器、存储所述参考DNA序列数据的数据库、和DNA测序装置。

24.根据权利要求22或23所述的系统，其中所述系统被配置为使得所述用户能够与他人共享关于在步骤(d)中识别的一个或多个变化的信息。

25.一种用于在客户端之间共享复杂序列中的变化的服务器系统，所述服务器系统包括一个或多个处理器，所述一个或多个处理器被配置为：

组装示出测试样本的样本复杂序列和参考样本的参考复杂序列之间的多个变化的基因序列图谱；

提供所述基因序列图谱给多个客户端；

提供第一用户界面给第一客户端，其中所述用户界面被配置成：

接收指示以使所述基因序列图谱能提供给其他的客户端；以及

接收关于能提供给其他客户端的一个或多个变化的第一信息；

提供第二用户界面到一个或多个第二客户端；

从所述一个或多个第二客户端接收关于能提供的所述一个或多个变化的回复信息；以及

提供所述一个或多个变化的所述回复信息给所述第一客户端。

26.根据权利要求25所述的服务器系统，其中利用从一个或多个所述变化到第一信息以及相应的变化的回复信息的链接，将所述基因序列图谱提供给所述多个客户端。

27.根据权利要求25所述的服务器系统，其中利用链接到所述基因序列图谱上的所述一个或多个变化的指示的超链接，关于由所述第一客户端的用户所提供的所述一个或多个变化的所述第一信息能提供给其他客户端。

28.根据权利要求27所述的服务器系统，其中所述第一信息被显示在提要中作为一个或多个条目，所述提要能提供给多个用户，其中，每个条目对应于相应的变化。

29.根据权利要求27所述的服务器系统，其中有关所述一个或多个变化的所述第一信息通过因特网上的信息网站能提供给其他用户。

30.根据权利要求28或29所述的服务器系统，其中所述服务器被配置为将来自其他用户的有关一个或多个变化的回复信息编译成关于所述变化是致病性的还是良性的的评估。