CN110603596A - 基因组数据分析系统和方法 - Google Patents

基因组数据分析系统和方法 Download PDF

Info

Publication number
CN110603596A
CN110603596A CN201880030285.XA CN201880030285A CN110603596A CN 110603596 A CN110603596 A CN 110603596A CN 201880030285 A CN201880030285 A CN 201880030285A CN 110603596 A CN110603596 A CN 110603596A
Authority
CN
China
Prior art keywords
genetic variation
data
variation
genetic
translocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880030285.XA
Other languages
English (en)
Other versions
CN110603596B (zh
Inventor
安德鲁·沃伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Priority to CN202311136456.6A priority Critical patent/CN117116360A/zh
Publication of CN110603596A publication Critical patent/CN110603596A/zh
Application granted granted Critical
Publication of CN110603596B publication Critical patent/CN110603596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

实施例涉及用于分析例如遗传变异等基因组数据的方法和系统。一些实施例涉及个体的某些遗传变异的有效分析和呈现。

Description

基因组数据分析系统和方法
相关申请的交叉引用
本申请要求2017年3月30日提交的标题为“基因组数据分析系统和方法”的第62/479,058号美国临时申请的优先权,所述美国临时申请以全文引用的方式并入本文中。
技术领域
实施例涉及用于分析例如遗传变异等基因组数据的方法和系统。一些实施例涉及个体的某些遗传变异的有效分析和呈现。
背景技术
已经开发了越来越复杂的系统,来确定基因组信息并分析所述信息以确定感兴趣特性的范围。此类系统可以允许处理遗传物质的样品,从而对所述物质执行核苷酸测序,例如下一代测序。这些系统还可以包括信息部件,所述信息部件被设计成将来自遗传物质的核苷酸序列的延伸区段拼凑在一起,并最终确定个体的整个染色体和基因组的序列。
遗传分析的一个方面涉及确定遗传变异。不同类型的变异包括插入、缺失、置换、重复、易位和反演。目前,基因组分析面临的挑战包括遗传变异的识别和分类、向人类研究人员和临床医生呈现遗传变异以及以对用户最有益和最具指导性的方式操纵数据。
发明内容
一些实施例包括用于显示遗传变异数据的计算机实施方法,包括:从个体的基因组序列数据接收遗传变异数据;针对所确定的遗传变异数据的文档创建索引;接收来自用户的选择,以从多个过滤器中选择至少一个过滤器,所述多个过滤器用于遗传变异数据中的感兴趣特征;基于选择的过滤器搜索索引,以生成个体的经过滤的遗传变异;识别是易位的遗传变异以及第一点和第二点,第一点是在第一轴上的易位的第一断裂点的位置,第二点是易位定位在第二轴上的第二断裂点的位置,第二轴包括基因组的线性表示;以及在显示装置上显示浏览器页面,浏览器页面显示个体的经过滤的遗传变异,其中,浏览器页面包括具有第一轴的第一图谱,第一轴包括这样的基因组的线性表示,即,该基因组具有遗传变异定位在第一轴上的位置,以及其中,不同类型的遗传变异由不同图标识别,其中对于易位遗传变异,浏览器页面显示使用直线或曲线连接的第一点与第二点。一些实施例还包括确定来自个体的遗传变异数据。
一些实施例还包括显示第二图谱,第二图谱包括第一轴的放大视图和第二轴的非放大视图。在一些实施例中,从第一图谱直接切换到第二图谱。在一些实施例中,不同图标各自是可选择的,用于启动第二图谱。
一些实施例还包括在用户悬停于对应易位上或选择对应易位时突出显示易位。一些实施例还包括在用户选择用于遗传变异的图标时,显示用于遗传变异的细节的弹出窗口。
在一些实施例中,遗传变异数据存储在远离服务器的位置处,所述服务器执行搜索。
在一些实施例中,确定遗传变异数据包括调用多个变异识别工具。一些实施例还包括利用变异识别工具来创建带注释遗传变异数据,其中带注释遗传变异数据包括选自由以下各项组成的组中的至少一个特征:遗传变异的类型、遗传变异的基因座和遗传变异的质量得分。
在一些实施例中,过滤器选择性地提供与由以下各项组成的组中的至少一个特征关联的遗传变异:全基因组、染色体、遗传变异的类型、质量度量、临床适应症、种群频率和重叠数据库变异。在一些实施例中,临床适应症是与遗传变异相关的表型。
在一些实施例中,创建索引包括创建倒排索引。在一些实施例中,搜索索引包括搜索倒排索引。
在一些实施例中,遗传变异包括选自由以下各项组成的组中的至少一种变异:反演、缺失、插入、重复、置换和易位。
一些实施例包括用于分析遗传变异数据的电子系统,包括:信息模块,在处理器上运行并且适于根据来自个体的基因组序列数据确定遗传变异数据;索引模块,适于针对所确定的遗传变异数据在存储器中创建文档的索引;选择模块,适于呈现浏览器页面,浏览器页面显示可用于遗传变异数据中的感兴趣特征的多个过滤器,并且选择模块接收来自用户的选择,以从多个过滤器中选择至少一个过滤器;搜索模块,适于基于所选择的过滤器搜索索引并生成个体的经过滤的遗传变异;识别模块,适于识别是易位的遗传变异以及第一点和第二点,第一点是易位在第一轴上的第一断裂点的位置,并且第二点是易位定位在第二轴上的第二断裂点的位置,第二轴包括基因组的线性表示;以及浏览器模块,适于返回浏览器页面,浏览器页面显示个体的经过滤的遗传变异,其中浏览器页面包括具有第一轴的第一图谱,第一轴包括这样的基因组的线性表示,即,该基因组具有经过滤的遗传变异定位在第一轴上的位置,以及其中不同类型的经过滤的遗传变异由不同图标识别,其中对于易位遗传变异,浏览器页面显示使用直线或曲线连接的第一点与第二点。
在一些实施例中,所返回的浏览器页面显示第二图谱,第二图谱包括第一轴的放大视图和第二轴的非放大视图。在一些实施例中,从第一图谱直接切换到第二图谱。在一些实施例中,不同图标是可选择的,用于启动第二图谱。
在一些实施例中,所返回的浏览器页面在用户悬停于对应易位上或选择对应易位时突出显示易位。在一些实施例中,所返回的浏览器页面在用户选择用于遗传变异的图标时显示遗传变异的细节的弹出窗口。
在一些实施例中,遗传变异数据存储在远离服务器的定位处,服务器执行搜索。
在一些实施例中,信息模块适于调用多个变异识别工具。
在一些实施例中,变异识别工具创建带注释遗传变异数据,带注释遗传变异数据包括选自由以下各项组成的组中的至少一个特征:遗传变异的类型、遗传变异的基因座和遗传变异的质量得分。
在一些实施例中,过滤器选择性地提供与由以下各项组成的组中的至少一个特征相关的遗传变异:全基因组、染色体、遗传变异的类型、质量度量、临床适应症、种群频率和重叠数据库变异。在一些实施例中,临床适应症是与遗传变异相关的表型。
在一些实施例中,索引模块适于创建倒排索引。在一些实施例中,索引模块适于搜索倒排索引。
在一些实施例中,遗传变异包括选自由以下各项组成的组中的至少一种变异:反演、缺失、插入、重复、置换和易位。
一些实施例包括用于显示概述遗传变异的浏览器页面的电子方法,包括:根据个体的全基因组的基因组序列数据确定遗传变异数据;针对所确定的全基因组的遗传变异数据的文档创建全基因组索引;呈现浏览器,浏览器包括可用于遗传变异数据中的感兴趣特征的多个过滤器;接收用于选择至少一个过滤器的用户选择;基于所选择的一个或多个过滤器搜索全基因组索引;以及响应于所选择的一个或多个过滤器显示浏览器页面,以概述遗传变异。
在一些实施例中,遗传变异数据存储于远离服务器的位置处,服务器执行搜索。
在一些实施例中,遗传变异包括至少一个结构变异。在一些实施例中,结构变异包括反演、缺失、插入、重复和易位中的至少一者。
在一些实施例中,确定遗传变异数据包括调用多个变异识别工具来识别可能的变异和变异基因座。在一些实施例中,变异识别工具创建在搜索中使用的带注释遗传变异数据,带注释遗传变异数据至少包括变异的类型、每个变异的基因座以及每个所识别变异的质量得分。
在一些实施例中,多个过滤器包括可选择性地适用于一个或多个染色体以及直到全基因组的过滤器,并且包括变异的类型、质量度量、重叠数据库变异、临床过滤器和种群频率中的至少一者。
在一些实施例中,通过创建文档的倒排索引并对倒排索引执行搜索来执行搜索。
在一些实施例中,显示浏览器页面包括:通过使用针对每种类型的变异的图标表示变异的类型和定位来格式化浏览器页面。在一些实施例中,在所述个体的全基因组的图谱上的、用于每个被表示为变异的基因座处放置所述图标。在一些实施例中,对于每个易位变异,图谱包括指示变异断裂端的基因座的轴、指示匹配断裂端的基因座的轴、以及连接两个断裂端的线或曲线。一些实施例还包括自动绘制连接每个易位变异的每个预期基因座与每个实际基因座的贝塞尔曲线。一些实施例还包括在用户悬停于对应易位变异上或选择对应易位变异时突出显示易位变异图谱。一些实施例还包括在基于用户输入来缩放图谱,以及其中,缩放改变断裂端基因座轴的比例,而不会改变匹配的断裂端基因座轴的比例。一些实施例还包括在用户选择用于特定变异的图标时显示特定变异的细节的弹出窗口。
附图说明
图1描绘了确定并报告基因组信息的遗传分析系统的实施例。
图2描绘了遗传信息分析系统的实施例。
图3描绘了图2的系统的某些部件的实施例。
图4是示出经由系统获得并分析遗传信息中的示例逻辑的流程图。
图5是示出经由系统搜索并报告遗传信息中的示例逻辑的流程图。
图6A描绘了包括过滤器选择窗口的浏览器屏幕的一部分,所述过滤器选择窗口包括常规过滤器、结果过滤器以及所有融合结果过滤器。
图6B描绘了包括过滤器选择窗口的浏览器屏幕的一部分,所述过滤器选择窗口包括用于选择具体基因组区的过滤器。
图6C描绘了包括过滤器选择窗口的浏览器屏幕的一部分,所述过滤器选择窗口包括各种种群过滤器。
图7描绘了在浏览器页面中显示沿着全基因组的基因组变异的发生的图谱,并且包括针对第一基因座处的某些遗传变异的指示以及针对与第一基因座相关的某些第二基因座的指示。
图8描绘了浏览器页面,所述浏览器页面包括图7中描绘的浏览器页面的一部分的放大图。
图9描绘了浏览器页面的一部分,所述浏览器页面包括图8中描绘的浏览器页面的一部分的放大图并包括显示结构变异的信息的弹出窗口。
图10描绘了浏览器页面的一部分,所述浏览器页面包括图9中描绘的浏览器页面的一部分的放大图并包括不同类型的所识别遗传变异的不同图标。
图11描绘了浏览器页面的一部分,所述浏览器页面包括图10中描绘的浏览器页面的一部分的放大图并包括所识别遗传变异的示出为倒三角形的图标。
图12描绘了浏览器页面的一部分,所述浏览器页面包括图10中描绘的浏览器页面的一部分的放大图并包括所识别遗传变异的示出为三角形的图标。
图13描绘了浏览器页面的一部分,所述浏览器页面包括图10中描绘的浏览器页面的一部分的放大图并包括所识别遗传变异的示出为倒半圆形的图标。
图14描绘了浏览器页面的一部分,所述浏览器页面包括图10中描绘的浏览器页面的一部分的放大图并包括所识别遗传变异的示出为十字形的图标。
图15描绘了浏览器页面的一部分,所述浏览器页面包括图10中描绘的浏览器页面的一部分的放大图并包括所识别遗传变异的示出为圆形的图标。
图16描绘了浏览器页面的一部分,所述浏览器页面包括图10中描绘的浏览器页面的一部分的放大图并包括所识别遗传变异的示出为菱形的图标。
具体实施方式
实施例涉及用于分析并呈现例如指示遗传变异的数据等基因组数据的方法和系统。一些实施例包括:根据个体的全基因组的基因组序列数据确定遗传变异数据,并针对所确定的全基因组的遗传变异数据创建全基因组文档的索引。在一些实施例中,系统可以包括具有浏览器的图形用户接口,所述浏览器呈现可用于遗传变异数据中的感兴趣特征的多个过滤器。在一些实施例中,从过滤器中的至少一个的浏览器接收用户选择,并且基于选定的一个或多个过滤器搜索全基因组索引。在一些实施例中,随后返回浏览器页面,概述对一个或多个过滤器作出响应的遗传变异。
某些实施例涉及对来自个体的复杂遗传变异数据的有效分析和呈现。用以使基因组中的遗传变异可视化的传统技术通常不能够以高分辨率呈现某些遗传变异,同时保持此类变异与基因组内其他定位的相关的可视化。例如易位等遗传变异包括在基因组中的第一位置处的第一断裂点和基因组中的第二位置处的第二断裂点。在一些实施例中,基因组中的遗传变异的图谱可以包括在第一轴上的基因组的线性表示。图谱还可以包括第二轴。易位的第一断裂点可以定位到第一轴,并且易位的第二断裂点可以定位到第二轴,以及这两个断裂点可以在可视化中通过线或曲线连接。在一些实施例中,可以扩大或放大定位在第一轴上的易位的第一断裂点,以在第一轴上以更高的分辨率观察其特征和在基因组中的位置。在一些此类实施例中,第二轴的比例可以不变。因此,可以容易且有效地以高分辨率可视化第一断裂点,同时在基因组内的另一位置处保持易位与其第二断裂点的相关的可视化。
在图1中描绘了遗传分析系统的实施例。在图1中,遗传分析系统10确定个体12的信息。如本文使用,“个体”可以提供样品16的来源,并且可以包括单个受试者,例如动物、哺乳动物、人、植物或微生物。在一些实施例中,样品可从多种来源获得,例如细胞、细胞系、组织、诸如种群等多个个体、或环境来源。为了首先获得被执行分析的遗传信息,可以利用遗传数据获取系统14,在遗传数据获取系统14中提交来自个体的样品16以进行分析。在一些实施例中,样品可以准备用于例如经由图案化阵列的处理。在所示实施例中,系统被设计为将例如核苷酸、寡核苷酸和其他生物活性试剂等分子引入流动池,例如样品16已经经由处理/制备系统18在制备操作中预先安置于流动池中。系统可以被设计为用于从样品合成生物聚合物,例如DNA链,并且有利地可以对样品的个别供体的全基因组进行测序。然而,应记住,本技术不以任何方式限于任何特定的测序操作、基因表达操作、诊断应用或这些中的任何一者,而是可以与它们中的任何一者一起用于分析所收集的样本的基因组数据。然而,在所示实施例中,示例生物聚合物可以包括但不限于核酸,例如DNA、RNA或DNA或RNA的类似物。
还应记住,本文中公开的分析和报告方面,例如与遗传变异的确定、分析、搜索、报告等有关的方面,可以基于已经例如从任何种类的获取系统(包括此处简要描述的获取系统)获取并存储的数据而完全在后处理中加以执行。
在图1的图解表示中,数据获取系统14可以包括测序系统20,所述测序系统被设计为例如在生物图案化阵列上接收并处理所制备样品,并产生代表图案化阵列上的个别位点的图像数据。具有测序系统的数据分析系统接收图像数据并处理图像数据,以从成像数据提取有意义的信息。可以存储图像数据、处理后的数据或两者,如由图1中的数据块22表示。下游处理系统,例如图1中示出的信息系统24,可以进一步分析图像数据或从图像数据导出的数据,以便确定构成样品分析物的分子序列,例如核苷酸序列和/或例如DNA或RNA等核酸的长度,并编译测序列表。在一些实施例中,一个或多个信息系统确定受试者基因组的分子的延伸序列,例如核苷酸序列,并产生全基因组列表,包括个体的所有染色体的列表,如在本文中描述,根据全基因组列表确定并分析遗传变异。
在一些实施例中,样品16包括核酸。在一些实施例中,处理/制备样品可以包括制备包括来自样品的核酸片段的核酸文库。在一些实施例中,测序系统20可以包括与核酸片段杂交的延伸引物以获得包括核酸序列数据的数据22。在一些实施例中,使用信息部件24来对核酸序列数据执行信息学可以产生基因组数据26。在一些实施例中,对核酸序列数据执行信息学可以包括根据核酸序列数据确定共有核酸序列,和/或将核酸序列数据与模型核酸序列进行比较。在一些实施例中,模型核酸序列可以包括基因组的至少一部分,例如染色体的核酸序列。模型核酸序列可以是参考基因组。在一些实施例中,对核酸序列数据执行信息学可包括确定单倍型核酸序列。在一些实施例中,基因组数据可以例如以数字形式存储于本地或远程存储媒体上。
针对系统14可以使用许多不同测序和信息系统,并且这些系统在技术、样品制备、样品处理、检测技术等方面可以有所不同。在此类系统的实施例中,测序系统20可以采用基于流动池的样品处理系统,其中,流控系统将试剂和其他流体引入到流动池中,所制备的样品安置在所述流动池中。随着对每个位点处的遗传物质的杂交长度进行测序,流动池中阵列中的位点处的反应得以促进,并且针对位点的图像得以连续获得。此类操作可以是循环的,并且包括多个后续循环中的每个循环的延伸、冲洗、成像和解块等等,直到测序完成。可与本文所提供的实施例一起使用的核酸测序系统的示例公开于第2012/0270305A1号、第2013/0023422A1号、和第2013/0260372A1号美国专利申请公开以及第5,528,050号、第5,719,391号、第8,158,926号和第8,241,573号美国专利中,所述专利各自以全文引用的方式并入本文中。此外,可用于此类测序和数据分析的可商购设备的名称为MiSeq、HiSeq、NovaSeq、NextSeq和MiniSeq(加利福尼亚·圣地亚哥,ILLUMINA公司)。
所得基因组数据26可以放置于本地或远程位置处的数据存储库中的存储器28中,例如放置于云服务中。从数据存储库,可以执行基因组数据的进一步分析,例如确定、分析并报告如下文描述的遗传变异。变异分析工具30可以用以进一步分析基因组数据。变异分析工具可以是系统的本地部件,或者可以是通过例如因特网等网络可用的远程部件,并且可以提供作为针对特定分析访问的服务。变异分析工具准许对存储的基因组数据进行分析,以识别基因组中的变异。分析可以包括使用包括软件或硬件例程32的工具,所述工具执行调用以识别基因组数据中的变异。在一些实施例中,可以针对多个调用执行多个软件例程,以识别基因组数据中的变异。在一些实施例中,可以使用一个或多个此类软件例程,并且可以执行成千上万个调用。在一些实施例中,包括软件例程的工具可以包括可商购工具,例如Manta结构变异调用器(加利福尼亚·圣地亚哥,ILLUMINA公司)。在一些实施例中,此类工具可在线获得,并且可以执行多种不同的分析技术以根据例如将在所存储基因组数据中提供的定位的配对端序列读数来识别结构变异。在一些实施例中,此类工具可以根据不一致对和分割读比对识别候选结构变异,接着执行局部组装和重新对准以改进候选。用于识别遗传变异的其他工具可以包括Canvas拷贝数变异调用器(加利福尼亚·圣地亚哥,ILLUMINA公司),其允许根据二倍体样品或配对的肿瘤和正常样品对来识别拷贝数变异。在此过程中使用的另一“调用器”或工具可以包括例如Strelka(Sunders,CT.等人,Bioinformatics.2012 28:1811-7),其可以识别单核苷酸和其他小型遗传变异,以及许多其他调用器,例如有时以如下商品名指代的那些调用器:包括单倍型调用器的GATK(马萨诸塞·剑桥,Broad Institute)、Platypus(Rimmer,A.等人,Nature Genetics(2014)doi:10.1038/ng.3036)、MuTect(马萨诸塞·剑桥,Broad Institute)以及Delly(Rausch T.等人,Bioinformatics.2012 28:i333-i339.)。有利地,一些实施例可以包括多个调用或工具以识别基因组数据中的结构变异,由此允许汇编非常多的所识别结构变异,验证或比较此类识别的质量和概率等。
在一些实施例中,由图1的例程32标识的“调用”将产生变异数据。变异数据可以包括多种类型的所识别结构变异,其也可被称作“调用”。这些调用对应于某些染色体中的所识别结构变异的定位,包括某些易位的多于一个基因座,以及每个所识别变异中的可选质量度量。基于此类变异数据,基因组数据吸收包括变异识别数据和相关元数据的注释34,从而产生带注释变异数据36。还可以通过可商购工具进行此类注释,例如临床级变异注释资源NImble和稳健变异注释器(Robust VAriant aNnotAtor,Nirvana)工具(加利福尼亚·圣地亚哥,ILLUMINA公司)。此类工具可以提供结构化的JavaScript对象标记(JavaScriptObject Notation,JSON)数据交换格式。在一些实施例中,带注释变异数据36中的注释可以包括例如以下各项的指示:重叠基因、重叠数据库基因组变异(DGV)、重叠1000G结构变异、来自例如ClinGen(可从美国国立卫生研究院获得)等资源的致病性调用,例如易位断裂端等变异类型、例如碱基长度等变异大小、变异过滤器、成对读(paired reads)、分割读(split reads)、体细胞质量得分等。可以将这种带注释变异数据存储于任何所需位置或多个位置中,以供稍后访问和分析,如下文所阐述。
在一些实施例中,索引和搜索系统38可以基于带注释变异数据36而创建有用的数据库、索引。索引/搜索系统38可以在数据库和索引中搜索变异识别的识别、理解和用途和相关数据。在一些实施例中,索引和搜索系统可以是本地的或远程的,例如在线访问资源,例如基于Apache Lucene的专用索引、搜索和分析工具,例如可购自加利福尼亚·山景城的Elastic的Elasticsearch。如本文中描述,带注释变异数据的索引可以包括针对个别变异创建许多(例如数百万个)文档以及索引的倒排以有利于搜索,包括基于可以由用户定义或选择的许多不同过滤器而进行搜索。
在一些实施例中,为了促进易于访问索引和搜索工具,一个或多个服务器40可以在工作站42处托管为用户提供基于浏览器的接口的位点。工作站可以通过任何所需网络协议和技术(例如,通过因特网网站)访问服务器。在需要时,可以基于受控访问、基于订阅、基于使用付费或任何其他有用的社区或业务结构或方案而提供此访问和/或搜索。工作站产生基因组浏览器,并且服务器提供内容,包括用于访问特定个体、种群或遗传样品的任何其他来源的基因组数据的页面和用于选择搜索参数、过滤器等的页面,以及随后用于进一步访问关于供体的基因组变异的有关信息的页面。
在图2中描绘了索引和搜索系统38以及工作站42的实施例。在图2中,系统38可以存储或访问带注释变异数据36,并对所述数据执行操作,包括通过使用索引46进行索引。此类索引可以在索引46中创建与由识别工具确定并由注释和相关元数据识别的不同变异对应的单独文档48。在一些实施例中,文档可以是JavaScript对象标记(JSON)文档类型,且索引应用程序编程接口(API)可以在索引中添加或更新文档以便于搜索。在全基因组分析且特别是个体全基因组中的变异的一些实施例中,索引中可以包括数十万或数百万个文档,并且可以针对样本的每个个体或供体创建包含此类文档的索引。
在一些实施例中,索引可以被倒排并存储于倒排索引50中。此类倒排可以创建索引数据结构,所述索引数据结构存储文档到磁盘上或文件中的位置的定位。如本文中描述,此类倒排可以极大地促进根据可以由用户选择的各种过滤器的快速搜索。
在一些实施例中,索引和搜索系统38还包括一个或多个搜索引擎52。此类搜索引擎可以是本地的,也可以是远程且在线访问的,和/或可以是专用系统中的工具。例如,尽管可以使用其他来源和工具,但是基于开源信息检索软件库可用的搜索工具已经示出为提供快速而可靠的搜索,软件库例如是可从例如Elasticsearch等来源获得的Apache Lucene。在一些实施例中,搜索引擎将构造或接收由用户感兴趣的标准定义的搜索,并具体是由一个或多个过滤器54定义的搜索。例如,搜索可以引用感兴趣的索引或个体、日期、数据集、源或任何其他可用元数据,并且可以基于一个或多个选定过滤器而引用所有或仅部分文档或带注释数据。基于搜索标准,搜索引擎访问索引并对其起作用,并且在提供倒排索引的情况下可以有利地访问来自此索引的数据以识别并选择对应于搜索条件的文档,并产生变异搜索结果56。此类搜索结果可以被提供为数据结构,所述数据结构可以通过本文描述的基因组浏览器被存储、捕获和至少部分地传输给用户。接着可以将搜索结果传输到系统的服务器/接口58,以准许递送给工作站处的用户,并具体地递送给在工作站42上实例化并运行的基因组浏览器。在图2中描绘的实施例中,同一服务器从工作站接收搜索请求,并通过基因组浏览器提供结果。一些实施例还可以包括多个服务器、各种网络架构以及提供所描述功能性的各种或不同参与者。在一些实施例中,搜索跨越多个服务器分布以增强性能。
在一些实施例中,工作站42为用户提供主要接口,并且可以包括通用计算机、膝上型计算机、平板电脑、智能手机或允许用户访问本文中描述的全基因组变异数据的任何其他工作站。在所示实施例中,基因组浏览器44在工作站上运行,并且此浏览器可以包括任何合适的接口,通常是使用页面、图像、视频、超链接以及可以被显示并用于用户交互的其他工具的网络接口。在一些实施例中,浏览器可以包括用于定义用户期望的搜索的过滤器和选择工具60。浏览器的页面或一个或多个输入可以允许选择特定索引62,例如与个体、搜索识别、例如会话等接口识别、新的或保存的搜索、或对搜索结果报告的发起、执行和跟踪或查看有用的任何其他元数据相关的索引。还可以包括变异报告页面定义64以查看并概括搜索结果。在一些实施例中,可以提供各种交互或可视化工具66,所述工具准许与搜索结果一起进行许多高度指导性且有用的活动,例如如本文中描述的“缩放”、突出显示、访问关于变异的额外细节等等。
在图3中描绘了系统38和工作站42的功能部件。系统38可以访问一个或多个存储器装置或服务器68,在一个或多个存储器装置或服务器68中存储了全基因组数据70或全基因组带注释的数据72,例如概括所识别变异的数据。此类资源可以是本地的或远程的,例如在机构内、在基于云的服务或存储库中、或基于按使用量付费或订阅而提供。在一些实施例中,为了限制对某些用户或类或用户的访问和使用,且出于某些受控目的,数据被存储于访问控制的存储库中。系统38可以包括可以形成通用计算系统的一部分的一个或多个处理器74。在一些实施例中,可以在被设计为提供网络访问和交互并执行预期的复杂搜索和结果递送的服务器或其他计算机中提供处理器。处理器将访问存储器76,所述存储器在此处也可以属于任何合适的类型,并且设置于一个或多个定位处。在一些实施例中,存储器可以存储许多不同类型的数据,包括起作用的数据以及用于执行搜索和递送结果的例程。在图3中,数据可包括全基因组带注释数据78(与数据72相似或相同,或仅是此类数据的部分),索引和文档包括这些数据,如由附图标记80表示。存储器还可以存储可以在单个物理系统中提供或者作为外包服务提供的搜索协议和例程84。过滤器定义86和浏览器页面定义88还可被存储,并且可以是被递送给基因组浏览器的页面的主要基础。在一些实施例中,此类过滤器和网页将被预定义为具有期望外观和感觉,并提供预期用于全基因组变异可视化和分析的所有或大部分选项。当改进的技术或数据可用时,或者当确定新的见解可将系统用户提供优势时,当然可以将其他、更改或新的过滤器和页面添加到这些过滤器和页面中。
在一些实施例中,一组网络和接口90允许系统38与可以使用全基因组变异数据的许多工作站42之间的交互。此类网络可以包括例如因特网等开放网络,以及内部网络、受控访问网络或根据任何期望业务方案而访问的网络。
在一些实施例中,工作站42可以包括一个或多个处理器92以及存储器94。处理器可以利用任何期望操作系统,并与存储器交互以访问浏览器内容96以及任何其他工作站软件或固件98。在工作站中存在用户接口100(例如,监视器、触摸屏、键盘),以及用于显示基因组数据的浏览器112。
在图4中描绘了用于执行分析并报告全基因组变异数据的搜索的操作的工作流程的实施例。在一些实施例中,工作流或“流水线”包括访问由初级分析软件(例如分析由遗传测序系统产生的图像数据的实时分析软件)产生的全基因组数据,诸如利用次级分析工具(例如Isaac(加利福尼亚·圣地亚哥,ILLUMINA公司))等对准器对准基因组数据,使用例如Manta(加利福尼亚·圣地亚哥,ILLUMINA公司)等一个或多个变异的调用器来调用变异,接着使用例如Nirvana等注释程序来注释调用数据。每个阶段产生文件,所述文件被用作下一阶段的输入。当然,可以使用其他工作流程和工具。
在图4中所示的初始阶段114中,如由参考标记116表示,对感兴趣的受试者的基因组进行测序,并且如在118处表示,存储所得全基因组数据。在注释阶段,在122处例如从数据库、基于云的资源或任何其他定位访问全基因组数据。接着,如由124表示,例如通过一个或多个“调用器”的变异调用分析所访问数据,以识别全基因组中的变异。因此,将识别这些变异的数据创建为带注释的全基因组变异数据126,其可以包括有关个体的元数据,以及与特定结构变异、其定位、类型、调用可靠性的可能性等有关的许多不同类型的数据。如本文所述,可出于此目的使用一个或多个工具,并且在一些实施例中,此冗余可以在稍后用以增强信息的可靠性。接着可以如在128处例如永久地或暂时地存储全基因组变异数据,例如在创建索引时在索引中的文档。
接着,对从全基因组数据上的变异分析产生的注释数据执行索引阶段130。此过程包括访问全基因组变异数据(如由132表示),并对数据进行索引以创建用于搜索的文档——例如针对每个识别出的变异的文档(如在134处表示)。在一些实施例中,可以使用各种工具来创建索引并定义或改进与每个文档相关的数据、如何对数据进行制定或编码等等。在一些实施例中,在需要时,索引一旦被创建就可以被倒排,如136处表示,以促进快速且准确地搜索每个文档中的多个字段或数据点。
接着,在查询阶段140中,如142处表示,在工作站处操作的用户可以访问托管基因组信息的位点的一个或多个服务器,并且向工作站服务包括一个或多个页面的浏览器内容。接着,在144处接收并显示基因组浏览器内容、以及用于输入访问代码的定位、定义搜索的元数据等以及搜索标准。这些标准可以至少部分地由一或多个过滤器定义。基于输入数据,在146处制定搜索或查询,并且在148处将查询传输到服务器。
在搜索阶段150中,接收并分析查询,以识别待搜索索引以及待采用标准。在一些实施例中,可执行一个或多个操作以验证用户访问索引、执行搜索等的权限。一旦在152处接收到查询,那么服务器或相关联计算机在154处执行对所识别索引的搜索,并在156处例如以基因组浏览器页面的形式返回搜索结果。接着,在158处将此浏览器页面返回到工作站,在所述工作站处浏览器页面可以被查看、与之交互、用以制定其他搜索或访问其他数据等。
在图5中描绘了可以基于通过基因组浏览器的全基因组变异数据搜索而对工作站执行的操作的实施例。由参考标号160表示的操作可以包括例如通过选择一个或多个索引以及一个或多个过滤器(如162处表示)来定义搜索。在图6A至图6C中描绘并在本文中描述了过滤器的实施例。基于搜索定义,工作站在164处发送查询。一旦执行搜索并且例如以基因组浏览器内容的形式返回了结果,那么在166处接收并显示结果。
在一些实施例中,基因组浏览器的实用性通过某些报告和可视化技术得到增强,这些技术利用了注释数据、索引、搜索和报告是基于全基因组变异数据这一事实。如168处表示,搜索的结果可以包括沿表示变异的基因座的轴的变异的有用定位、例如用于易位的断裂末端的基因座、检测到结构变异的染色体和区域等。在一些实施例中,可以将独特的图标或符号用于不同类型的结构变异,并且可以将此类图标放置在定位上以有效地将其定位于基因组或其部分中。在一些实施例中,还可以提供其他数据,并且这些数据中的一些可以沿着平行轴以帮助理解变异发生的定位以及发生方式、变异的调用质量等。
在一些实施例中,可以通过使用工作站输入装置来有效地执行其他操作。工作站输入装置可以包括允许用户向工作站输入信息的任何机制或机制的组合。例如,工作站输入装置可以包括键盘、鼠标、触敏显示装置、麦克风、基于笔的定点装置、无线输入装置(例如使用蓝牙和/或红外通信协议的无线输入装置)、和/或生物统计输入装置(例如语音辨识装置和/或指纹扫描装置)。在图5中,这些装置可用以例如通过使用光标或指针“悬停”在特征上(如在170处表示)、通过单击、选择、拖动、延伸、缩小、移动和任何其他有用操作(如在172和174处表示)来与浏览器内容进行交互。基于此类操作,分析和/或可视化技术可以包括:如176处表示的突出显示特征或关系,在178处的呈现关于一个或多个选定变异的额外信息或细节,在180处的在呈现或定位的一个或多个方面上延伸或缩放(放大或缩小),在182处的访问一个或多个其他报告选项。从这些步骤中的任何一个,用户都可以返回其他页面或信息,或者可以执行新的搜索或精确搜索,如184处表示。
已经发现,前述技术允许非常快速地访问全基因组变异数据并搜索。实际上,可以执行搜索并且非常快地返结果,以至于在单个会话中可以应用许多不同的搜索和过滤器,并且可以检索许多细节以提供大大增强的实用性和数据交互性。这在此处同样特别有用,因为数据允许分析个体的全基因组,而不仅仅是其一部分。
在一些实施例中,可以使用任意数目个重置搜索和过滤器来帮助使搜索和结果聚焦于特定感兴趣特征。在一些实施例中,此类搜索可以包括按染色体、坐标、区域、区域列表、基因、基因列表等进行过滤。此外,可以对例如质量过滤器等质量控制度量和例如躯体质量得分等得分执行过滤。确实,任何带注释数据可以形成过滤器的基础,例如基因组变异数据库(DGV)和1000个基因组种群频率数据、ClinGen致病性分配数据等。过滤器还可以包括结构变异的结果和类型,例如反演、缺失、插入、串联重复、易位、基因融合、单向基因融合、双向基因融合等。
在6A至图6C中描绘了包括选择此类过滤器的浏览器页面的部分的实施例。在图6A中,过滤器选择窗口在188处识别过滤器的一般类型或类别,并在190处识别不同“结果”过滤器。用户可以通过选择相关位置或框来选择这些过滤器中的一个或多个。在此示例中还提供了一组“全融合结果”过滤器,如192处表示。在图6B中,另一过滤器选择窗口194提供用于选择具体基因组区域196的数个过滤器,包括按区域类型划分的过滤器类别,如参考标记198表示。用户可以在需要时选择一个或多个具体染色体,如由200表示。如在202处表示,可以过滤质量指标,例如通过参考如204处表示的指示调用质量分数的元数据以及质量分数的级别。在一些实施例中,窗口可以提供具体的基因列表,如206处表示(尽管在此示例中没有可用的基因列表)。图6C示出另一个过滤器选择窗口208,用户可以在其中选择各种种群过滤器、ClinGen过滤器和种群频率过滤器。应注意,所示过滤器和任何其他可用过滤器可以“堆叠”或组合,以使得搜索和返回的结果将基于对所有选定过滤器作出积极响应的数据(文档或变异)的交集。因此,过滤器是用于了解全基因组变异数据的强大工具,尤其是在与快速搜索和报告技术结合时。
在图7中描绘了沿着全基因组的基因组变异发生的图谱的呈现的实施例。可以在基因组浏览器页面中提供此类图谱以及其他数据、图谱、元数据等。在图7中,图谱212包括基因组的表示,如214处表示,以及用以表示每个变异的可能基因座的基因座轴216。对于某些类型的结构变异,图谱可以包括指示与变异有关的第二基因座的第二轴218。举例来说,对于易位,第一轴216可以识别变异断裂端的基因座,而第二轴218可以指示匹配的断裂端的基因座。直线或曲线220可以与基因座连接以帮助理解易位。在一些实施例中,此类曲线被自动绘制为连接两个断裂端的贝塞尔曲线(Bezier curves)。
实际上,应注意,在一些实施例中,显示或可视化是由定义基因组浏览器页面的代码自动产生的。也就是说,所返回数据可以定义许多不同结构变异,并且与相应变异对应的每个文档的数据可以在全基因组、区域、染色体等中定义变异的类型和变异的基因座。此数据用以自动填充图谱,并提供本文中说明并描述的视觉提示。接着针对某些用户交互,可以如本文中描述而提供额外功能性。例如,通过将光标悬停于具体变异或关系上,这些具体变异或关系中的一个或多个可以被突出显示,如在图7的“缩放”视图226中的222处表示。在一些实施例中,可以以类似方式执行放大和缩小。在图8中描绘的实施例中,如在222处表示,已经选择了也在图7中示出的易位,并且已经执行“缩放”操作以更详细或更高分辨率地呈现基因座轴216。在一些实施例中,此类缩放可以是选择性的,以使得上轴218未缩放,从而提供沿下轴的一个断裂端的清晰指示,但借助于“未缩放”上轴218提供沿全基因组的匹配易位基因座的清晰指示。
一些实施例还包括交互式特征,例如将独特的图标用于不同类型的结构变异,以及将这些图标放置于全基因组的同一图谱中。例如,如图8中示出,图标228和230可以被指定用于不同类型的变异,并且沿着图谱轴(或多个轴)放置这些变异。此外,额外数据可以类似地放置并通过沿轴的位置进行引用,例如计数变异等。有利地,这些可以被“堆叠”,以使得可以在同一视图中提供许多不同类型的信息和细节。当然,应注意,当用户执行其他搜索或应用不同过滤器时,数据将在大多数情况下发生改变,结果的自动可视化也会发生改变。
在图9中描绘了用于全基因组变异浏览器的高度有用的工具的实施例包括提供额外信息的“弹出”窗口。在图9中,已经选择并突出显示窗口232、如在图8的先前视图中表示的变异230,从而定位上基因座轴216与下基因座轴218之间的关系。然而,在此状况下,用户已经悬停于与特定类型的结构变异(在此状况下易位)相关的图标230上或选择所述图标。如由光标234的定位表示,此类选择致使浏览器访问关于特定选定变体的详细信息,并在“弹出”窗口236中呈现所述信息。在一些实施例中,可以使用任何其他工具或表示,例如单独的浏览器页面、文本数据、图谱、插图、到其他文件或文档的链接等。
在一些实施例中,图标可以用以指示沿着全基因组或基因组的部分的所识别结构变异的特性。图10至图16出于此目的而示出图标的实施例。如这些图中所示,可以将不同的简单、易于识别的形状用于变异类型,例如和反演、缺失、插入、重复、易位、融合等。在所示出的示例中,图标或符号由附图标记228、230、238、240、242和244表示。可以通过定义浏览器内容的代码(例如,通过参考识别变异类型的搜索结果数据选择的定义形状)自动选择这些图标或符号。接着,图标可以沿着一个或多个图谱轴(例如,所示出的示例中的轴216)自动定位。
某些方法
一些实施例包括用于分析并显示遗传变异数据的方法。一些此类实施例包括计算机实施方法。一些实施例包括显示个体的某些遗传变异的概述。在一些实施例中,概述可以显示于显示装置上、屏幕上、窗口中、浏览器中、浏览器页面中。在一些实施例中,概述可包括具有第一轴的第一图谱,所述第一轴包括例如个体的基因组等基因组的线性表示。可以将在个体中识别的某些遗传变异定位到第一图谱上,并且可以通过不同图标识别不同类型的遗传变异。不同遗传变异的示例包括反演、缺失、插入、重复、置换和易位。
在一些实施例中,遗传变异包含易位。易位是基因组内的具有非同源位置的染色体部分的重排。易位包括在基因组中原始位置处的第一断裂点和基因组中新位置处的第二断裂点。在未排列基因组中,与断裂点并列的序列将彼此相邻。在一些实施例中,包括易位的遗传变异可以在概述中由直线或曲线识别,所述直线或曲线连接所述易位在第一轴上的第一断裂点的位置与所述易位定位在第二轴上的第二断裂点的位置,所述第二轴包括基因组的线性表示。图7中在222处描绘实施例。
在一些实施例中,可以在第二图谱的显示中呈现概述的一部分。在一些实施例中,可以从所述第一图谱直接切换到所述第二图谱。在一些实施例中,在第一图谱中识别遗传变异的图标可以是可选择的,以启动第二图谱的显示并显示与选定图标相关的其他数据。在一些实施例中,在第一图谱中识别遗传变异的每个图标可以是可选择的,以启动第二图谱的显示并显示与选定图标相关的其他数据。
在一些实施例中,连接所述易位在第一轴上的第一断裂点的位置与定位在第二轴上的所述易位的第二断裂点的位置的直线或曲线可以被重新绘制在第二图谱中,所述第二轴包括第一图谱中的基因组的线性表示。图8中在222处描绘实施例。第二图谱可以包括第一轴的放大视图和第二轴的非放大视图。在一些实施例中,此选择性扩大可以提供定位在第一轴上的遗传变异信息的更详细视图,同时提供定位在第一轴和第二轴两者的相关易位信息的内容。一些实施例还包括在用户悬停于对应易位上或选择对应易位时突出显示易位。一些实施例还包括在用户针对所述遗传变异选择图标时显示所述遗传变异的细节的弹出窗口。
在呈现个体的某些遗传变异的概述之前,一些实施例包括获得个体的某些遗传变异的概述。一些此类实施例可以包括根据来自个体的基因组序列数据确定遗传变异数据。例如,可以从个体获得基因组序列数据,并且可以确定基因组序列数据中的遗传变异。在一些实施例中,确定遗传变异数据可以包括例如通过调用多个变异识别工具来使用各种工具。一些实施例还包括利用变异识别工具创建带注释遗传变异数据。在一些实施例中,带注释遗传变异数据可以包括遗传变异的类型、遗传变异的基因座和/或遗传变异的质量得分。一些实施例包括针对确定的遗传变异数据的文档创建索引。在一些实施例中,索引可以呈倒排索引。
一些实施例包括识别是易位的遗传变异以及第一点和第二点,所述第一点是所述易位在第一轴上的第一断裂点的位置,所述第二点是所述易位定位在第二轴上的第二断裂点的位置,所述第二轴包括基因组的线性表示。一些实施例包括识别多个易位以及与每个易位相关的第一点和第二点。一些实施例包括针对所述多个易位以及与每个易位相关的第一点和第二点产生索引。
一些实施例包括向用户呈现与遗传变异数据中的感兴趣特征有关的过滤器的选择。在一些此类实施例中,过滤器可以选择性地提供遗传变异数据相关特征,包括全基因组、染色体或染色体的一部分中某些变异的关联;遗传变异的类型、质量度量、临床适应症、种群频率和重叠数据库变异。在一些实施例中,临床适应症可以与某一遗传变异的表型相关。在一些实施例中,可以从用户接收对一个或多个过滤器的选择。在一些实施例中,可以使用选定过滤器来搜索索引或倒排索引。在一些实施例中,可以提供个体的经过滤遗传变异的概述。在一些此类实施例中,可以如本文所描述的呈现个体的经过滤遗传变异的概述。在一些实施例中,概述可以呈现于显示装置上、屏幕上、窗口中、浏览器中、浏览器页面中。
一些实施例包括用于显示遗传变异数据的计算机实施方法,所述方法包括:从个体的基因组序列数据接收遗传变异数据;针对所确定的遗传变异数据的文档创建索引;从用户接收选择,以从多个过滤器中选择至少一个过滤器,多个过滤器针对遗传变异数据中的感兴趣的特征;基于所述选定过滤器搜索所述索引,以产生所述个体的经过滤遗传变异;识别是易位的遗传变异以及第一点和第二点,所述第一点是所述易位在第一轴上的第一断裂点的位置,以及所述第二点是定位在第二轴上的易位的第二断裂点的位置,所述第二轴包括基因组的线性表示;以及在显示装置上显示浏览器页面,所述浏览器页面显示所述个体的经过滤遗传变异,其中所述浏览器页面包括具有所述第一轴的第一图谱,所述第一轴包括基因组的线性表示,具有定位在第一轴上的遗传变异的位置,并且其中不同类型的遗传变异由不同图标识别,其中对于易位遗传变异,所述浏览器页面显示使用直线或曲线连接的第一点与第二点。一些实施例还包括确定来自所述个体的所述遗传变异数据。
某些系统
一些实施例包括用于显示并分析遗传变异数据的系统。一些此类实施例包括电子系统。一些实施例包括信息模块,例如在处理器上运行的信息模块,信息模块适于根据来自个体的基因组序列数据确定遗传变异数据。在一些实施例中,信息模块适于调用多个变异识别工具。在一些实施例中,变异识别工具创建带注释遗传变异数据,并且可以包括遗传变异的类型、遗传变异的基因座和遗传变异的质量得分。
一些实施例包括索引模块,索引模块适于针对确定的遗传变异数据而创建文档的索引。在一些实施例中,索引模块适于创建倒排索引。
一些实施例包括选择模块,选择模块适于呈现包括可用于遗传变异数据中的感兴趣特征的多个过滤器的浏览器,并从用户接收选择,以从多个过滤器中选择至少一个过滤器。在一些实施例中,过滤器可以选择性地提供遗传变异数据相关特征,包括全基因组、染色体或染色体的一部分中某些变异的关联;遗传变异的类型、质量度量、临床适应症、种群频率和重叠数据库变异。在一些实施例中,临床适应症可以与某一遗传变异的表型相关。
一些实施例包括搜索模块,搜索模块适于基于选定过滤器而搜索索引并产生个体的经过滤遗传变异。在一些实施例中,索引模块适于搜索倒排索引。
一些实施例包括适于识别例如易位等遗传变异的识别模块。在一些实施例中,识别模块识别易位以及第一点和第二点,第一点是易位在第一轴上的第一断裂点的位置,第二点是易位定位在第二轴上的第二断裂点的位置,第二轴包括基因组的线性表示。一些实施例包括识别多个易位以及与每个易位相关的第一点和第二点。一些实施例包括针对多个易位以及与每个易位相关的第一点和第二点产生索引。
一些实施例包括浏览器模块,浏览器模块适于返回浏览器页面,所述浏览器页面显示对选定过滤器作出响应的遗传变异,例如个体的经过滤遗传变异。在一些实施例中,所返回浏览器页面提供包括第一轴的第一图谱,第一轴包括基因组的线性表示、具有定位在第一轴上的遗传变异的位置,其中不同类型的遗传变异由不同图标识别。在一些实施例中,包括易位的遗传变异由线或曲线识别,线或曲线连接易位在第一轴上的第一断裂点的位置与定位在第二轴上的易位的第二断裂点的位置,第二轴包括基因组的线性表示。在一些实施例中,返回的浏览器页面提供第二图谱,第二图谱包括第一轴的放大视图和第二轴的非放大视图。在一些实施例中,返回的浏览器页面在用户悬停于对应易位上或选择对应易位时突出显示易位。在一些实施例中,可以从所述第一图谱直接切换到所述第二图谱。在一些实施例中,在第一图谱中识别遗传变异的图标可以是可选择的,以启动第二图谱的显示并显示与选定图标相关的其他数据。在一些实施例中,在第一图谱中识别遗传变异的每个图标可以是可选择的,以启动第二图谱的显示并显示与选定图标相关的其他数据。在一些实施例中,返回的浏览器页面在用户针对遗传变异选择图标时提供遗传变异的细节的弹出窗口。
如本文中所使用的,术语“包括”与“具有”、“包含”或“由...表征”同义并且是包括性的或开放性的,并且不排除额外未叙述的元件或方法步骤。
以上描述公开了本发明的数个方法和材料。本发明易受方法和材料的修改以及制造方法和设备的改变的影响。通过考虑本公开或本文中公开的本发明的实践,此类修改对于本领域技术人员将变得显而易见。因此,并不意图将本发明限制于本文中公开的特定实施例,而是本发明涵盖落入本发明的真实范围和精神内的所有修改和替代。
本文中引用的所有参考文献,包括但不限于已公开和未公开的申请、专利和参考文献,均以全文引用的方式并入本文中,并因此成为本说明书的一部分。就通过引用并入的出版物和专利或专利申请与说明书中含有的公开内容相抵触来说,说明书意图取代和/或优先于任何此类矛盾的材料。

Claims (44)

1.一种用于显示遗传变异数据的计算机实施方法,包括:
从个体的基因组序列数据接收遗传变异数据;
针对确定的遗传变异数据的文档创建索引;
接收来自用户的选择以从多个过滤器中选择至少一个过滤器,所述多个过滤器用于所述遗传变异数据中的感兴趣的特征;
基于所选择的过滤器搜索所述索引,以生成所述个体的经过滤的遗传变异;
识别是易位的遗传变异以及第一点和第二点,所述第一点是所述易位在第一轴上的第一断裂点的位置,所述第二点是所述易位定位在所述第二轴上的第二断裂点的位置,所述第二轴包括基因组的线性表示;以及
在显示装置上显示浏览器页面,所述浏览器页面显示所述个体的经过滤的遗传变异,其中,所述浏览器页面包括具有所述第一轴的第一图谱,所述第一轴包括这样的基因组的线性表示,即,基因组具有所述遗传变异定位在所述第一轴上的位置,以及其中,不同类型的遗传变异由不同图标识别,其中对于易位遗传变异,所述浏览器页面显示使用直线或曲线连接的所述第一点与所述第二点。
2.根据权利要求1所述的方法,还包括:
确定来自所述个体的所述遗传变异数据。
3.根据权利要求1或2所述的方法,还包括显示第二图谱,所述第二图谱包括所述第一轴的放大视图和所述第二轴的非放大视图。
4.根据权利要求3所述的方法,其中,从所述第一图谱直接切换到所述第二图谱。
5.根据权利要求1至4中任一项所述的方法,其中,所述不同图标各自是可选择的,用于启动所述第二图谱。
6.根据权利要求1至5中任一项所述的方法,还包括在用户悬停于对应易位上或选择对应易位时突出显示易位。
7.根据权利要求1至6中任一项所述的方法,还包括:
在用户选择针对遗传变异的图标时,显示用于所述遗传变异的细节的弹出窗口。
8.根据权利要求1至7中任一项所述的方法,其中,所述遗传变异数据存储于远离服务器的位置,所述服务器执行所述搜索。
9.根据权利要求2至8中任一项所述的方法,其中,确定遗传变异数据包括调用多个变异识别工具。
10.根据权利要求9所述的方法,还包括:
利用所述变异识别工具来创建带注释遗传变异数据,其中,所述带注释遗传变异数据包括选自由以下各项组成的组中的至少一个特征:遗传变异的类型、遗传变异的基因座和遗传变异的质量得分。
11.根据权利要求1至10中任一项所述的方法,其中,所述过滤器选择性地提供与由以下各项组成的组中的至少一个特征相关的遗传变异:全基因组、染色体、遗传变异的类型、质量度量、临床适应症、种群频率和重叠数据库变异。
12.根据权利要求11所述的方法,其中,所述临床适应症是与遗传变异相关的表型。
13.根据权利要求1至12中任一项所述的方法,其中,创建索引包括创建倒排索引。
14.根据权利要求13所述的方法,其中,搜索所述索引包括搜索所述倒排索引。
15.根据权利要求1至14中任一项所述的方法,其中,所述遗传变异包括选自由以下各项组成的组中的至少一种变异:反演、缺失、插入、重复、置换和易位。
16.一种用于分析遗传变异数据的电子系统,包括:
信息模块,所述信息模块在处理器上运行并且适于根据来自个体的基因组序列数据确定遗传变异数据;
索引模块,所述索引模块适于针对所确定的遗传变异数据在存储器中创建文档的索引;
选择模块,所述选择模块适于呈现浏览器页面,所述浏览器页面显示能够用于所述遗传变异数据中的感兴趣特征的多个过滤器,并且所述选择模块接收来自用户的选择,以从所述多个过滤器中选择至少一个过滤器;
搜索模块,所述搜索模块适于基于所选择的过滤器搜索所述索引并生成所述个体的经过滤的遗传变异;
识别模块,所述识别模块适于识别是易位的遗传变异以及第一点和第二点,所述第一点是所述易位在第一轴上的第一断裂点的位置,并且所述第二点是所述易位定位在第二轴上的第二断裂点的位置,所述第二轴包括基因组的线性表示;以及
浏览器模块,所述浏览器模块适于返回浏览器页面,所述浏览器页面显示所述个体的经过滤的遗传变异,其中,所述浏览器页面包括具有第一轴的第一图谱,所述第一轴包括这样的基因组的线性表示,即,基因组具有经过滤的遗传变异定位在所述第一轴上的位置,以及其中,不同类型的经过滤的遗传变异由不同图标识别,其中,对于易位遗传变异,所述浏览器页面显示使用直线或曲线连接的第一点与第二点。
17.根据权利要求16所述的系统,其中,所返回的浏览器页面显示第二图谱,所述第二图谱包括所述第一轴的放大视图和所述第二轴的非放大视图。
18.根据权利要求17所述的系统,其中,从所述第一图谱直接切换到所述第二图谱。
19.根据权利要求17或18所述的系统,其中,所述不同图标各自是可选择的,用于启动所述第二图谱。
20.根据权利要求16至19中任一项所述的系统,其中,所返回的浏览器页面在用户悬停于对应易位上或选择对应易位时突出显示所述易位。
21.根据权利要求16至20中任一项所述的系统,其中,所返回的浏览器页面在用户选择用于所述遗传变异的图标时显示所述遗传变异的细节的弹出窗口。
22.根据权利要求16至21中任一项所述的系统,其中,所述遗传变异数据存储于远离服务器的位置,所述服务器执行所述搜索。
23.根据权利要求16至22中任一项所述的系统,其中,所述信息模块适于调用多个变异识别工具。
24.根据权利要求23所述的系统,其中,所述变异识别工具创建带注释遗传变异数据,所述带注释遗传变异数据包括选自由以下各项组成的组中的至少一个特征:遗传变异的类型、遗传变异的基因座和遗传变异的质量得分。
25.根据权利要求16至24中任一项所述的系统,其中,所述过滤器选择性地提供与由以下各项组成的组中的至少一个特征相关的遗传变异:全基因组、染色体、遗传变异的类型、质量度量、临床适应症、种群频率和重叠数据库变异。
26.根据权利要求25所述的系统,其中,所述临床适应症是与遗传变异相关的表型。
27.根据权利要求16至26中任一项所述的系统,其中,所述索引模块适于创建倒排索引。
28.根据权利要求27所述的系统,其中,所述索引模块适于搜索所述倒排索引。
29.根据权利要求16至28中任一项所述的系统,其中,所述遗传变异包括选自由以下各项组成的组中的至少一种变异:反演、缺失、插入、重复、置换和易位。
30.一种用于显示概述遗传变异的浏览器页面的电子方法,包括:
根据个体的全基因组的基因组序列数据确定遗传变异数据;
针对所确定的全基因组的遗传变异数据的文档创建全基因组索引;
呈现浏览器,所述浏览器包括能够用于所述遗传变异数据中的感兴趣特征的多个过滤器;
接收用于选择至少一个过滤器的用户选择;
基于所选择的一个或多个过滤器搜索所述全基因组索引;以及
响应于所选择的一个或多个过滤器显示浏览器页面以概述遗传变异。
31.根据权利要求30所述的方法,其中,遗传变异数据存储于远离服务器的位置处,所述服务器执行所述搜索。
32.根据权利要求30所述的方法,其中,所述遗传变异包括至少一种结构变异。
33.根据权利要求32所述的方法,其中,所述结构变异包括反演、缺失、插入、重复和易位中的至少一者。
34.根据权利要求30所述的方法,其中,确定遗传变异数据包括调用多个变异识别工具来识别可能的变异和变异基因座。
35.根据权利要求34所述的方法,其中,所述变异识别工具创建在所述搜索中使用的带注释遗传变异数据,所述带注释遗传变异数据至少包括变异的类型、每个变异的基因座以及每个所识别变异的质量得分。
36.根据权利要求30所述的方法,其中,所述多个过滤器包括可选择性地适用于一个或多个染色体以及直到所述全基因组的过滤器,并且包括变异的类型、质量度量、重叠数据库变异、临床过滤器和种群频率中的至少一者。
37.根据权利要求30所述的方法,其中,通过创建所述文档的倒排索引并对所述倒排索引执行所述搜索来执行所述搜索。
38.根据权利要求30所述的方法,其中,显示所述浏览器页面包括:通过使用针对每种类型的变异的图标表示所述变异的类型和位置来格式化所述浏览器页面。
39.根据权利要求38所述的方法,其中,在所述个体的全基因组的图谱上的、用于每个被表示为变异的基因座处放置所述图标。
40.根据权利要求30所述的方法,其中,对于每个易位变异,所述图谱包括指示所述变异的断裂端的基因座的轴、指示匹配断裂端的基因座的轴、以及连接两个断裂端的线或曲线。
41.根据权利要求40所述的方法,包括自动绘制连接每个易位变异的每个预期基因座与每个实际基因座的贝塞尔曲线。
42.根据权利要求30所述的方法,包括在用户悬停于对应易位变异上或选择对应易位变异时突出显示易位变异图谱。
43.根据权利要求30所述的方法,包括基于用户输入来缩放所述图谱,以及其中,所述缩放改变断裂端基因座轴的比例,而不会改变匹配断裂端基因座轴的比例。
44.根据权利要求30所述的方法,包括在用户选择用于特定变异的图标时显示所述特定变异的细节的弹出窗口。
CN201880030285.XA 2017-03-30 2018-03-29 基因组数据分析系统和方法 Active CN110603596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311136456.6A CN117116360A (zh) 2017-03-30 2018-03-29 基因组数据分析系统和方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762479058P 2017-03-30 2017-03-30
US62/479,058 2017-03-30
PCT/US2018/025249 WO2018183745A1 (en) 2017-03-30 2018-03-29 Genomic data analysis system and method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311136456.6A Division CN117116360A (zh) 2017-03-30 2018-03-29 基因组数据分析系统和方法

Publications (2)

Publication Number Publication Date
CN110603596A true CN110603596A (zh) 2019-12-20
CN110603596B CN110603596B (zh) 2023-09-29

Family

ID=62067780

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201880030285.XA Active CN110603596B (zh) 2017-03-30 2018-03-29 基因组数据分析系统和方法
CN202311136456.6A Pending CN117116360A (zh) 2017-03-30 2018-03-29 基因组数据分析系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311136456.6A Pending CN117116360A (zh) 2017-03-30 2018-03-29 基因组数据分析系统和方法

Country Status (4)

Country Link
US (1) US20200013485A1 (zh)
EP (1) EP3602362A1 (zh)
CN (2) CN110603596B (zh)
WO (1) WO2018183745A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110612351A (zh) * 2017-03-20 2019-12-24 Illumina公司 用于制备核酸文库的方法和组合物
CN113628680A (zh) * 2021-09-06 2021-11-09 哈尔滨师范大学 一种基于基准集的基因组结构变异性能检测方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200104463A1 (en) 2018-09-28 2020-04-02 Chris Glode Genomic network service user interface
WO2023122363A1 (en) * 2021-12-23 2023-06-29 Illumina Software, Inc. Dynamic graphical status summaries for nucelotide sequencing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140115515A1 (en) * 2012-10-24 2014-04-24 Complete Genomics, Inc. Genome Explorer System to Process and Present Nucleotide Variations in Genome Sequence Data
CN104428425A (zh) * 2012-05-04 2015-03-18 考利达基因组股份有限公司 测定复杂肿瘤全基因组绝对拷贝数变异的方法
US20160292356A1 (en) * 2013-10-07 2016-10-06 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69530072T2 (de) 1994-12-08 2004-03-04 Molecular Dynamics, Sunnyvale System zur fluoreszenzabbildung unter verwendung eines objektivs mit makroabtastung
US5528050A (en) 1995-07-24 1996-06-18 Molecular Dynamics, Inc. Compact scan head with multiple scanning modalities
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
EP2018622B1 (en) 2006-03-31 2018-04-25 Illumina, Inc. Systems for sequence by synthesis analysis
US8039817B2 (en) 2008-05-05 2011-10-18 Illumina, Inc. Compensator for multiple surface imaging
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
BR112014024789B1 (pt) 2012-04-03 2021-05-25 Illumina, Inc aparelho de detecção e método para formação de imagem de um substrato

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104428425A (zh) * 2012-05-04 2015-03-18 考利达基因组股份有限公司 测定复杂肿瘤全基因组绝对拷贝数变异的方法
US20140115515A1 (en) * 2012-10-24 2014-04-24 Complete Genomics, Inc. Genome Explorer System to Process and Present Nucleotide Variations in Genome Sequence Data
US20160292356A1 (en) * 2013-10-07 2016-10-06 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖晓兰等: "基因突变和单核苷酸多态性分析技术新进展", 《湖南农业大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110612351A (zh) * 2017-03-20 2019-12-24 Illumina公司 用于制备核酸文库的方法和组合物
CN110612351B (zh) * 2017-03-20 2023-08-11 Illumina公司 用于制备核酸文库的方法和组合物
CN113628680A (zh) * 2021-09-06 2021-11-09 哈尔滨师范大学 一种基于基准集的基因组结构变异性能检测方法

Also Published As

Publication number Publication date
US20200013485A1 (en) 2020-01-09
EP3602362A1 (en) 2020-02-05
CN110603596B (zh) 2023-09-29
CN117116360A (zh) 2023-11-24
WO2018183745A1 (en) 2018-10-04

Similar Documents

Publication Publication Date Title
CN110603596B (zh) 基因组数据分析系统和方法
Blascheck et al. VA 2: a visual analytics approach for evaluating visual analytics applications
US10229245B2 (en) Method for biological data analysis
Aniba et al. Issues in bioinformatics benchmarking: the case study of multiple sequence alignment
Shaer et al. G-nome surfer: a tabletop interface for collaborative exploration of genomic data
US20060020398A1 (en) Integration of gene expression data and non-gene data
US20050039123A1 (en) Method and system for importing, creating and/or manipulating biological diagrams
Sallaberry et al. Sequential patterns mining and gene sequence visualization to discover novelty from microarray data
EP3430545A1 (en) Relevance feedback to improve the performance of clustering model that clusters patients with similar profiles together
EP4354445A1 (en) Methods and systems for knowledge discovery using biological data
Skrzypek et al. Using the Candida genome database
Giachelle et al. Searching for reliable facts over a medical knowledge base
AU781841B2 (en) Graphical user interface for display and analysis of biological sequence data
JP2002269114A (ja) 知識データベース及び知識データベースの構築方法
Vogogias et al. Mlcut: Exploring multi-level cuts in dendrograms for biological data
Shi et al. Medchemlens: An interactive visual tool to support direction selection in interdisciplinary experimental research of medicinal chemistry
US20050066276A1 (en) Methods for identifying, viewing, and analyzing syntenic and orthologous genomic regions between two or more species
Boyle et al. Methods for visual mining of genomic and proteomic data atlases
US20240079094A1 (en) Method and system for providing genetic information analysis results
KR102623609B1 (ko) 유전 정보 분석 결과 제공 방법 및 시스템
Reiske et al. Multi-Focus Querying of the Human Genome Information on Desktop and in Virtual Reality: an Evaluation
Kim et al. Geneshelf: A web-based visual interface for large gene expression time-series data repositories
Qu Using Machine Learning to Support Better and Intelligent Visualisation for Genomic Data
Masoumi SigTools: An exploratory visualization tool for genomic signals
Zhang et al. PAGWAS: a manually curated web-based knowledge database of GWAS pathway analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant