CN112236824A

CN112236824A - 使用基于图的参考基因组的等位基因解读的系统和方法

Info

Publication number: CN112236824A
Application number: CN201980036515.8A
Authority: CN
Inventors: 毛勇; K·沃良斯基; N·迪米特罗娃
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-05-31
Filing date: 2019-05-20
Publication date: 2021-01-15
Also published as: WO2019228833A1; EP3803881A1; JP7428660B2; BR112020024028A2; MX2020012672A; JP2021525407A; US20210158902A1

Abstract

一种用于生成基于图的参考基因组的方法(100)，包括：(i)接收(120)当前参考基因组的一个或多个较旧版本，每个版本包括多个节点，所述多个节点识别考基因组的版本以及该版本中各个节点的位置；(ii)将参考基因组的每个较旧版本与当前参考基因组比对(130)以生成基于图的参考基因组，其中，所述比对基于所述位置信息；(iii)从参考文集中提取(140)一个等位基因和与该等位基因相关联的背景信息，其中，相应的文献识别参考基因组的版本以及等位基因在该版本中的位置；并且(iv)基于所述参考基因组的所识别版本和所提取的等位基因在该版本内的位置，将所述等位基因和相关联的背景信息映射(150)到所述基于图的参考基因组的节点上。

Description

使用基于图的参考基因组的等位基因解读的系统和方法

技术领域

本公开总体上涉及用于生成注释的基于图的参考基因组的方法和系统。

背景技术

个人基因组学是健康护理日益重要的方面。由于测序技术的日趋成熟，不断提出针对个人基因组信息的新应用。这些新的应用程序通常旨在根据患者的个人资料(包括遗传信息(例如测序信息、甲基化、转录组和/或其他遗传/基因组信息)和临床资料(例如年龄、性别、诊断、状况、病史和/或其他临床信息))来识别针对特定患者的治疗选择和/或定制治疗选择。

尽管获得基因组图谱的逐渐可负担，但是由于缺乏可用或积累的知识，解读基因组图谱的结果通常要昂贵得多。自第一个测序仪开始获得遗传信息以来，已经生成了非常庞大的医学文献文集，以解释针对许多不同人群的生物医学功能和突变频率。尽管有信息的大量的文集，但是没有简单或有效的方法或框架来对齐信息的文集。

例如，在2000年代初期发表的文献使用了人类参考基因组的早期版本，而最近的出版物可能使用了诸如GRCH37或GRCH38的最新版本。2005年和2015年讨论的突变可能对应于沿不同参考基因组的不同坐标。因此，为了解释突变的功能或对突变进行优先排序，通常要求研究人员或临床医师手动地积累和查阅医学文献。在识别罕见疾病病例的原因时尤其如此。如果有可能围绕特定表型或诊断来积累参考基因组所有不同版本的文献和相关参考文献，那么个性化医学将得到显著提高。

对于参考基因组而言，单个、单倍体或线性参考基因组是一个较差的通用参考结构，因为它仅代表小分数的变化，并且仅在使用参考基因组特定版本的时间段内。为了支持沿参考基因组进行的更改并期待基因组的未来版本，基于图的参考基因组提供了一个综合框架，可在等位基因水平上对齐知识。基于图的参考基因组具有整合跨人群和单个个体的多态性和突变的能力，以及许多其他好处。

发明内容

仍然需要使得能够将关于参考基因组的先前版本的文献收集和组织到参考基因组的当前的基于图的版本上的工具和方法。

本公开涉及用于生成注释的基于图的参考基因组的创造性方法和系统。本文中的各种实施例和实施方式针对一种系统，所述系统使得能够报告从多个版本的参考基因组组织的等位基因和背景信息。所述系统将参考基因组的较旧版本与参考基因组的当前版本对齐，以创建基于图的参考基因组。所述基于图的参考基因组包括节点，所述节点具有关于节点在参考基因组的旧版本中的先前位置的信息。然后，所述系统从科学文献中提取或接收有关等位基因的信息，以及与该等位基因相关联的背景信息，包括关于在参考基因的哪个旧版本中识别出所述等位基因的信息以及等位基因在该旧版本的参考基因组中的位置。然后，通过在基于图的参考基因组中搜索针对包含所提取的版本的参考基因组和所提取的位置的节点，将提取的等位基因和背景信息映射到基于图的参考基因组上。

通常，在一个方面中，提供了一种用于生成注释的基于图的参考基因组的方法。所述方法包括：(i)接收参考基因组的一个或多个版本，所述一个或多个版本是当前参考基因组的较旧版本，所述参考基因组的所述一个或多个版本中的每个版本均包含多个节点，所述节点中的至少一些包含识别所述参考基因组的版本以及相应节点在该版本的参考基因组中的位置的信息；(ii)将所述参考基因组的所述一个或多个接收的较旧版本中的每个版本当前参考基因组比对，以生成基于图的参考基因组，其中，所述比对至少部分地基于来自所接收的参考基因组的较旧版本的节点的位置信息；(iii)从文献的文集中提取等位基因和与等位基因相关联的背景信息，所述文献中的至少一些文献均包括关于等位基因的信息和与该等位基因相关的背景信息，其中，相应的文献识别一个或多个接收到的参考基因组的较旧版本中的一个，以及所述等位基因在所识别的参考基因组的较旧版本中的位置；并且(iv)基于所识别的参考基因组的较旧版本以及所提取的等位基因在所识别的参考基因组的较旧版本内的位置，将提取的等位基因和相关联的背景信息映射到所述基于图的参考基因组的节点上。

根据一个实施例，所述方法还包括生成报告，所述报告总结与基于图的参考基因组的节点相关联的所有背景信息；并且经由用户接口将所生成的报告提供给用户。

根据一个实施例，所述报告包括等位基因频率、出现信息、周围突变信息和/或共突变率中的一个或多个。

根据一个实施例，映射包括用所提取的等位基因和相关联的背景信息来注释节点。根据一个实施例，映射包括用对从其提取等位基因的文献的识别来注释所述节点。

根据一个实施例，背景信息包括关于与所述等位基因相关联的特点或医学状况的信息。根据一个实施例，背景信息包括对从其识别或提取了等位基因的文献的识别。根据一个实施例，背景信息包括关于在其中识别了等位基因的一个或多个人的信息。

根据一个实施例，所述方法还包括将与所述基于图的参考基因组的节点相关联的多个等位基因标准化。

根据另一方面的是一种用于生成注释的基于图的参考基因组的系统。所述系统包括：(i)比对模块，其被置为将多个接收到的参考基因组的较旧版本中的每个与当前参考基因组进行比对，以生成基于图的参考基因组，其中，所述比对至少部分地基于来自所接收的参考基因组的较旧版本的节点的信息，所述节点中的至少一些包括识别参考基因组的版本以及针对相应节点的在该版本的参考基因组中的位置的信息；(ii)映射模块，其被配置为基于所识别的参考基因组的较旧版本以及所提取的等位基因在所识别的较早版本中的位置，将多个所识别的等位基因映射到基于图的参考基因组的一个或多个节点上，其中，所述多个所识别的等位基因中的每个还包括背景信息，所述背景信息与相应的等位基因一起被映射到相应的节点上；(iii)报告模块，被配置为生成报告，所述报告总结与基于图的参考基因组的节点相关联的所有背景信息；以及(iv)用户接口，其被配置为向用户提供所生成的报告。

根据一个实施例，所述系统还包括提取模块，所述提取模块被配置为从文献的文集中提取等位基因和与所述等位基因相关的背景信息，所述文献中的至少一些均包括关于等位基因的信息和与该等位基因相关联的背景信息，其中，相应的文献识别：(i)所述一个或多个所接收的参考基因组的较旧版本中的一个，以及(ii)等位基因在所识别的参考基因组的较旧版本中的位置。

根据另一方面的是基于图的参考基因组。所述基于图的参考基因组包括：(i)参考基因组当前版本的多个注释的节点，其中，所述多个注释的节点中的每个节点包括关于等位基因的信息以及与来自所述参考基因组的一个或多个先前版本的该等位基因相关联的背景信息，所述背景信息至少包括对从其提取等位基因的参考基因组的先前版本的识别，以及关于等位基因在从其提取等位基因的参考基因组的先前版本中的基因组坐标的信息；以及(ii)多条边，每条边经由所述两个节点中的每个节点的第一端或第二端来连接两个节点。

在各种实施方案中，处理器或控制器可以与一个或多个存储介质(这里通常称为“存储器”，例如易失性和非易失性计算机存储器，例如RAM，PROM，EPROM和EEPROM，压缩盘，光盘，光盘，磁带等)相关联。在一些实现方式中，所述存储介质可以编码有一个或多个程序，所述一个或多个程序当在一个或多个处理器和/或控制器上执行时，执行本文中所讨论的功能中的至少一些功能。各种存储介质可以固定在处理器或控制器内，或者可以是可转移的，使得其上存储的一个或多个程序可以被加载到处理器或控制器中，以便实现本文所讨论的各实施例的各个方面。术语“程序”或“计算机程序”在本文中在一般意义上使用以指代可以被采用来对一个或多个处理器或控制器进行编程的任何类型的计算机代码(例如，软件或微代码)。

应当理解，上述概念和以下更详细讨论的额外概念的所有组合(假设的这些概念不是相互不一致的)被预期为是本文中公开的发明主题的一部分。尤其地，权利要求的主题的所有组合均预期为本文公开的发明主题的部分。还应该理解，本文中明确采用的术语，其也可以出现在通过引用并入的任何公开中，应该赋予与本文中公开的具体概念最符合的含义。

参考下文描述的(一个或多个)实施例，各实施例的这些和其他方面将变得显而易见并得以阐述。

附图说明

在附图中，相同的附图标记一般指不同视图中的相同部分。同样，附图不一定按比例，而是重点在于图示各实施例的原理。

图1是根据一个实施例的用于生成注释的基于图的参考基因组的方法的流程图。

图2是根据一个实施例的用于生成注释的基于图的参考基因组的系统的示意图。

图3是根据一个实施例的注释的基于图的参考基因组的示意图。

具体实施方式

本公开描述了用于生成注释的基于图的参考基因组的系统和方法的各种实施例。更一般而言，申请人已经认识并意识到，提供一种用于报告从多个版本的参考基因组组织的等位基因和背景信息的系统将是有益的。所述系统将参考基因组的较旧版本与参考基因组的当前版本对齐，以创建基于图的参考基因组。所述系统从科学文献中提取或接收有关等位基因的信息，以及与该等位基因相关联的背景信息，包括关于在参考基因的哪个旧版本中识别出所述等位基因的信息以及等位基因在该旧版本的参考基因组中的位置。然后，通过在基于图的参考基因组中搜索针对包含所提取的版本的参考基因组和所提取的位置的节点，将提取的等位基因和背景信息映射到基于图的参考基因组上。所述系统生成总结与基于图的参考基因组的节点相关联的所有背景信息的报告，并将所生成的报告提供给用户。

参考图1，在一个实施例中，其是用于生成基于注释图的参考基因组的方法100的流程图。在步骤110，提供了一种用于生成注释的基于图的参考基因组的系统。所述系统可以是本文描述或以其他方式设想的任何系统，并且可以包括本文描述或以其他方式设想的任何部件或模块。

在该方法的步骤120，参考基因组的一个或多个先前版本被系统接收或提供给系统。这些先前版本中的每一个均包括多个节点，这些节点中的至少一些包括识别所述节点来自的参考基因组版本的信息，以及所述节点位于该参考基因组版本内的位置。根据一个实施例，节点表示SNP、突变、等位基因和/或长度为k的k聚体。

参考基因组可以是人类参考基因组，也可以是来自任何其他生物的参考基因组。可以从任何来源获得或接收参考基因组的先前版本，包括但不限于先前版本的数据库。例如，参考基因组的一个或多个版本可以是私有的或公开可用的，并且可以存储在私有或公共存储库或数据库中以供检索。通常，参考基因组是数字的，并且可以存储在数据库中，并且可以经由有线和/或无线通信系统从数据库电子地传送到注释的基于图的参考基因组生成系统。

通常，参考基因组版本之间的差异包括特定位置的更可靠数据，特定序列的坐标或位置的变化，关于序列中先前缺口的新信息以及许多其他差异。与本公开相关的最大差异之一是序列坐标的修改。例如，第5号染色体上的序列k(可以是单个核苷酸或SNP，也可以是核苷酸序列)可以在参考基因组第一个版本中位于第一个位置，但是其他测序和分析可能会揭示该序列k更正确地位于5号染色体的第二个位置。因此，参考基因组的后续版本将序列k移至第二位置。参考基因组的先前版本以及讨论序列k的公开文献仍将序列k定位在5号染色体上的第一位置。

在该方法的步骤130，将所接收的参考基因组的较旧版本中的每个与当前参考基因组比对，以生成基于图的参考基因组。该比对至少部分地基于来自所接收的参考基因组的较旧版本的节点的位置信息。由于所接收的参考基因组的较旧版本的节点包括位置信息，因此可以利用该位置信息来识别在参考基因组的当前版本中可以找到该位置之处。在一些情况下，位置的坐标不会发生变化，而在许多情况下，位置的坐标将发生显著变化。

根据一个实施例，所述系统包括比较系统或模块或与比较系统或模块通信，所述比较系统或模块包括或提供关于在参考基因组的当前版本中何处可以找到参考基因组的先前版本中的位置的信息。例如，在所述系统内，参考基因组的当前版本可以在多个节点处包括关于该节点在参考基因组的先前版本中位于何处的信息。额外地或替代地，参考基因组的先前版本可以用关于参考基因组的该版本的节点可以在参考基因组的当前版本中的何处被发现的信息注释或以其他方式包括该信息。

例如，2013年从基因组参考协会发布的人类参考基因组的当前版本是GRCh38，有时也称为构建38，但是随后发布了GRCh38的修改。因此，可以使用本文描述或以其他方式设想的方法将任何先前版本或内部版本映射到GRCh38。将来可能会发布新版本，例如GRCh39，并且可以将以前的版本或内部版本映射到GRCh39。无论将哪个版本或构建用作人类参考基因组的当前版本，本文所述的方法和系统均起作用。另外，本文描述的方法和系统对具有具有多个版本或构建的参考基因组的任何生物起作用。

过去，研究人类遗传学某个方面的科学文献使用了当前版本GRCh38之前发布的一个或多个版本的人类基因组。因此，科学文献通常将参考用于分析或研究的人类参考基因组的特定版本。但是，在科学文献未能引用用于分析或研究的人类参考基因组的特定版本的情况下，发表和/或研究的日期(可以从出版物引文或出版物元数据中收集或导出)可以用来推断人类参考基因组的哪个版本可能用于分析或研究。

根据一个实施例，为了表达一条链的信息，并且从而区分正向或反向读取DNA，可以以双向方法或格式构建基于图的参考基因组。有几种方法可用于构建基于图的参考基因组，包括基于系统进化树的多基因组比对，De Bruijn图构建以及许多其他方法。例如，当用于基因组组装时，De Bruijn图通常包含一个表示k聚体的节点，它的有向边表示两个节点之间k-1个碱基的重叠，但是许多其他变化也是可能的，如许多其他图构建方法是可能的。

根据一个实施例，所述方法可以使用参考基因组的所有先前版本，包括任何补丁或其他修改，以及任何累积的多态性，作为基于图的参考基因组的构建期间的输入。根据另一实施例，所述方法可以仅在构建基于图的参考基因组期间使用参考基因组的一些先前版本作为输入。

根据一个实施例，对于来自与参考基因组的当前版本比对的参考基因组的先前版本的每个等位基因，可以构建数据结构或利用数据结构来标记参考基因组的哪个版本包括所述等位基因，以及等位基因在参考基因组的该版本中的坐标，包括染色体数和位置。因此，参考基因组的当前版本的多个节点或等位基因将包括用于生成基于图的参考基因组的参考基因组的先前版本中的一些或所有中的关于该节点或等位基因的信息。

在该方法的步骤140，系统从科学文献中提取、识别和/或接收关于一个或多个等位基因的信息。例如，所述系统可以包括或可以访问文献和参考文献的文集，其可以是公共和/或私人数据库。当前有许多不同的科学文献数据库，并且可以使用任何这些数据库。从文献和参考文献的该文集中，可以识别和/或提取关于等位基因的信息。与等位基因的识别一起，可以识别和/或提取其他信息，包括但不限于：(1)识别等位基因的参考SNP簇ID号或其他访问号；(2)等位基因坐标，包括染色体数量和位置；(3)针对坐标使用的参考基因组；和/或(4)关于等位基因的背景信息。

根据一个实施例，背景信息可以包括例如被识别为由等位基因关联或受其影响的医学或特征信息，针对等位基因识别的多态性，与等位基因相关的人群，关于等位基因的研究信息，针对等位基因的引用信息和/或关于等位基因、参考文献和/或研究的任何其他信息。

根据一个实施例，等位基因信息可以用结构化和/或非结构化格式在文献中报告。结构化格式更容易与基于图的参考基因组比对。但是，对于非结构化信息，可以使用明确的ETL(提取、转换和加载)过程。该系统可以包括同义词表，以考虑针对参考基因组的先前版本使用的各种名称。例如，hg19和GRCH37指的是人类参考基因组的相同先前版本。所述系统还可以包括模块或算法，所述模块或算法被配置或设计为提取相关的突变/等位基因信息作为元组，例如文献识别、染色体数、坐标、参考和替代等位基因、链信息、体细胞/种系、测序方式(例如芯片、WGS或WES)、(一个或多个)表型、诊断、解剖位置、年龄、性别、种族、病史和/或患者ID等信息。根据一个实施例，所述信息是通过基于医学本体的自然语言处理管线来解析的。等位基因、表型、元数据和任何其他信息之间的关系可以保存在诸如RDBMS(关系数据库管理系统)的数据结构中，还可以保存在其他可能的数据结构中。

根据一个实施例，所述方法的该步骤和其他步骤将必然包括大量的计算工作。例如，所述步骤可以包括查阅数千或数百万篇文献，包括总结所有相关信息。可以实施方法或系统以促进计算工作。例如，通过Hadoop/MapReduce进行的基础架构设置可以全部或部分满足需求。可以利用许多其他方法和系统来促进这种计算密集的分析。

在该方法的步骤150，系统将提取、接收或识别的等位基因和相关的背景信息映射到基于图的参考基因组的节点上。该映射至少部分基于在参考基因组的较旧版本内提取的等位基因的位置。例如，来自参考基因组的先前版本的等位基因可以被映射到基于图的参考基因组的节点。与等位基因一起，与等位基因相关联的背景信息可以被映射到节点，包括在本文中公开或者设想的任何或所有背景信息。所述映射至少部分地基于与所提取、接收或识别的等位基因相关联的位置信息，并且可以与基于图的参考基因组的位置信息交叉引用。根据一个实施例，等位基因可以具有来自参考基因组的一个或多个先前版本的多个对应坐标。系统可以检查它们中的每个，并在映射期间查询RDBMS。

在该方法的任选步骤160，系统标准化与基于图的参考基因组的节点相关联的多个等位基因或结果。根据一个实施例，许多报道的等位基因不是突变而是正常多态性，并且标准化将识别这些正常多态性。可以使用任何标准化方法。

在该方法的步骤170，系统生成报告，所述报告总结与基于图的参考基因组的节点相关的所有背景信息。系统可以针对一个节点或多个节点执行此操作。根据一个实施例，系统可以查询RDBMS或其他数据结构以采集关于节点、等位基因、基于图的参考基因组中的位置和/或参考基因组的先前版本中的位置的信息。可以将不同基因组版本的结果汇总为一个或多个类别，包括：等位基因频率、出现时间、周围突变率、共突变率、表型组和/或任何其他信息。

在该方法的步骤180，系统经由系统的用户接口将所生成的报告提供给用户。该报告可以包括任何格式，并且优选地是易于查看和解读的格式。可以通过任何机制来提供报告，包括但不限于显示、读取、下载、上传、打印、电子邮件和许多其他过程。

根据一个实施例，基于图的参考基因组的生成和使用是对现有参考基因组格式的显著改进，并且解决了本领域中许多长期以来的问题。例如，对于大多数生物医学研究和应用，很少有基因组区域带有积累的临床和/或生物学知识。为了解释未知的基因组领域，必须建立一个开放的学习框架，用于面向突变的知识积累。例如，如果在癌症患者中检测到未知的体细胞突变，则对这些突变进行优先级排序可能影响下游的临床决策。确定优先级的一种方法是检查每个突变的等位基因频率以及已报告突变的次数，尽管这是一种效率低下且不受指导的分析方法。在基于图的参考基因组的背景下，文献中的等位基因的总结提供了更有价值和可操作的信息。因此，与先前的参考基因组方法和系统相比，本文公开的方法和系统可以显著改善患者护理和结果。根据另一个实施例，从文献文集组装并映射到基于图的参考基因组上的数据也可以促进生物标记物发现过程。

根据另一个实施例，基于图的参考基因组基础结构可以允许第三方实体，例如生物制药公司或诊断公司，以维护专有的突变表型数据库，而不管参考基因组如何进化。例如，客户可能具有检测到的突变，但指的是参考基因组的不同版本，例如hg18或hg19。可以将这些突变容纳到基于图的参考基因组中。例如，如果用户参考了参考基因组的特定先前版本查询特定基因组坐标，则可以从基于图的参考基因组中提取与那些坐标相关联的信息，而与使用或引用了参考基因组的哪个版本无关。

参考图2是用于生成如本文所述或者设想的基于注释的图的参考基因组的系统和方法的示意图200。系统200包括经由一个或多个系统总线210互连的处理器220、存储器226、用户接口240、通信接口250和存储器260中的一个或多个。在一些实施例中，例如其中系统包括或实现测序器或测序平台的那些实施例，硬件可以包括额外的测序硬件215，其可以是任何测序器或测序平台。应该理解，图2在一些方面构成抽象，并且系统400的部件的实际组织可能与图示的不同并且更复杂。

根据一个实施例，系统200包括能够执行存储在存储器226或存储设备260中的指令或以其他方式处理数据的处理器220。处理器220执行该方法的一个或多个步骤，并且可以包括在本文中描述或以其他方式设想的一个或多个模块。处理器220可以由一个或多个模块形成，并且可以包括例如存储器226。处理器220可以采取任何合适的形式，包括但不限于微处理器、微控制器、多个微控制器、电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、单个处理器或多个处理器。

存储器226可以采用任何合适的形式，包括非易失性存储器和/或RAM。存储器226可以包括各种存储器，例如高速缓存或系统存储器。这样，存储器226可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪存、只读存储器(ROM)或其他类似的存储器设备。存储器可以存储操作系统等。处理器使用RAM来临时存储数据。根据一个实施例，操作系统可以包含代码，所述代码在由处理器执行时控制系统200的一个或多个部件的操作。显而易见的是，在处理器以硬件实现本文描述的一个或多个功能的实施例中，可以省略在其他实施例中描述为与此类功能相对应的软件。

用户接口240可以包括用于实现与诸如管理员的用户的通信的一个或多个设备。用户接口可以是允许传达和/或接收信息的任何设备或系统，并且可以包括用于接收用户命令的显示器、鼠标和/或键盘。在一些实施例中，用户接口240可以包括命令行接口或图形用户接口，其可以经由通信接口250呈现给远程终端。用户接口可以与系统的一个或多个其他部件一起定位，或者可以位于远离系统的位置并且经由有线和/或无线通信网络进行通信。

通信接口250可以包括用于实现与其他硬件设备的通信的一个或多个设备。例如，通信接口250可以包括被配置为根据以太网协议进行通信的网络接口卡(NIC)。另外，通信接口250可以实现TCP/IP栈，用于根据TCP/IP协议进行通信。用于通信接口250的各种替代或附加硬件或配置将是显而易见的。

存储设备260可以包括一个或多个机器可读存储介质，诸如只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质，光存储介质，闪存设备或类似的存储介质。在各种实施例中，存储设备260可以存储用于由处理器220执行的指令或者处理器220可以操作的数据。例如，存储设备260可以存储用于控制系统200的各种操作的操作系统261。在系统200实现测序器并且包括测序硬件215的情况下，存储设备260可以包括用于操作测序硬件215的测序指令262。根据一个实施例，存储设备260可以包括根据本文描述或以者设想的方法生成或填充的提取的等位基因数据库464。根据一个实施例，存储设备260可以包括根据本文描述或者设想的方法生成的基于图的参考基因组265。

显而易见的是，存储在存储器260中的各种信息可以额外地或替代地存储在存储器226中。在这方面，存储器226还可以被认为构成存储设备，并且存储设备460可以被认为是存储器。各种其他布置将是显而易见的。此外，存储器226和存储器260都可以被认为是非瞬态机器可读介质。如本文中所使用的，术语非瞬态将被理解为排除瞬态信号但包括所有形式的存储设备，包括易失性和非易失性存储器。

系统200还可以包括文献文集270。该文集可以是单个数据库或多个数据库。该数据库可以是系统200的部件，或者系统200可以处于通信或以其他方式访问文献270的文集。该数据库可以包括可以在私人和/或公共资源中获得或找到的多个文章、论文、海报、摘要或其他信息。

虽然系统200被示出为包括每个所描述的部件中的一个，但是在各种实施例中各种部件可以是多个。例如，处理器220可以包括多个微处理器，所述多个微处理器被配置为独立地执行本文描述的方法，或者被配置为执行本文描述的方法的步骤或子例程，使得多个处理器协作以实现本文中描述的功能。此外，在云计算系统中实现系统200的情况下，各种硬件组件可以属于单独的物理系统。例如，处理器220可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。许多其他变型和配置是可能的。

根据一个实施例，处理器220包括一个或多个模块以执行本文中描述或以其他方式设想的方法的一个或多个功能或步骤。例如，处理器220可以包括比对模块222、提取模块223、映射模块224和/或报告模块225。

根据一个实施例，比对模块222比对或促进比对接收或识别的参考基因组的较旧版本与当前参考基因组的比对，以生成基于图的参考基因组。该比对可以至少部分地基于来自所接收的参考基因组的较旧版本的节点的位置信息。由于所接收的参考基因组的较旧版本的节点包括位置信息，因此可以利用该位置信息来识别在参考基因组的当前版本中可以找到该位置之处。在一些情况下，位置的坐标不会发生变化，而在许多情况下，位置的坐标将发生显著变化。根据一个实施例，比对模块222包括或提供关于在参考基因组的当前版本中何处可以找到参考基因组的先前版本中的位置的信息。

根据一个实施例，提取模块223从在文献文集270中发现的科学文献中提取、识别和/或接收关于一个或多个等位基因的信息。所提取的等位基因信息264可以被存储在例如存储器260中或各种其他位置或数据库中。与等位基因的识别一起，可以识别和/或提取其他信息，包括但不限于：(1)识别等位基因的参考SNP簇ID号或其他访问号；(2)等位基因坐标，包括染色体数量和位置；(3)针对坐标使用的参考基因组；和/或(4)关于等位基因的背景信息。根据一个实施例，背景信息可以包括例如被识别为由等位基因关联或受其影响的医学或特征信息，针对等位基因识别的多态性，与等位基因相关的人群，关于等位基因的研究信息，针对等位基因的引用信息和/或关于等位基因、参考文献和/或研究的任何其他信息。

根据一个实施例，映射模块224将提取、接收或识别的等位基因和相关的背景信息映射到基于图的参考基因组265的节点上。该映射至少部分基于在参考基因组的较旧版本内提取的等位基因的位置。例如，来自参考基因组的先前版本的等位基因可以被映射到基于图的参考基因组的节点。与等位基因一起，与等位基因相关联的背景信息可以被映射到节点，包括在本文中公开或者设想的任何或所有背景信息。所述映射至少部分地基于与所提取、接收或识别的等位基因相关联的位置信息，并且可以与基于图的参考基因组的位置信息交叉引用。根据一个实施例，等位基因可以具有来自参考基因组的一个或多个先前版本的多个对应坐标。系统可以检查它们中的每个，并在映射期间查询RDBMS。

根据一个实施例，报告模块225系统生成报告，所述报告总结与基于图的参考基因组的节点相关联的所有背景信息。模块可以针对一个节点或多个节点执行此操作。根据一个实施例，模块可以查询RDBMS或其他数据结构以采集关于节点、等位基因、基于图的参考基因组中的位置和/或参考基因组的先前版本中的位置的信息。可以将不同基因组版本的结果汇总为一个或多个类别，包括：等位基因频率、出现时间、周围突变率、共突变率、表型组和/或任何其他信息。根据一个实施例，报告模块225还经由系统的用户接口向系统提供或指导系统向用户提供所生成的报告。

根据一个实施例，是如本文所述或设想的基于图的参考基因组。参考图3，在一个实施例中，其是基于图的参考基因组300，其基于参考基因组的当前版本，并且编码来自参考基因组的多个不同版本的信息。基于图的参考基因组300包括例如多个节点310，其可以如本文中所述或者设想的那样用序列、等位基因信息和/或背景信息被标记、识别或者注释。基于图的参考基因组300还包括例如多条边320，其通过两个节点的相应末端中的任一个连接两个节点。基于图的参考基因组300还可以包括路径330，路径330通过两个节点各自的末端之一连接两个节点，但是提供替代的测序、坐标或其他修改。例如，路径可以提供相对于图中编码的基因组的坐标系，从而即使改变图的结构也可以生成稳定的映射。

根据一个实施例，基于图的参考基因组的多个节点310包括来自参考基因组的一个或多个先前版本的信息。该信息可以包括例如等位基因，从其提取或识别等位基因的参考基因组的标识，关于该参考基因组中等位基因的坐标的信息和/或背景信息，以及其他可能的信息。参考图3，例如，其是与节点310相关联的表或数据结构340。可以用表或数据结构340中的信息直接给节点注释，或者可以将节点310在存储器中与表或数据结构340相关联，和/或节点310可以包括指向表或数据结构340的指针或其他链接。尽管该表显示了参考基因组的三个先前版本，但该表可能包含有关一个、几个或所有参考基因组的先前版本的信息。

本文中定义并使用的所有定义，均应被理解为支配词典定义、通过引用并入的文件中的定义和/或所定义术语的普通意义。

如在本文中在说明书和权利要求书中使用的词语“一”和“一个”，除非明确地另行指出，应被理解为意指“至少一个”。

如在本文中说明书和权利要求书中使用的短语“和/或”应当理解为是指如此结合的元件中的“一个或两者”，即元件在某些情况下结合存在，并且在其他情况中分离地存在。以“和/或”列出的多个元件应以相同的方式来解释，即如此连接的“一个或多个”元件。任选地可以存在除“和/或”子句特别标识的元素之外的其它元素，无论是与专门标识的那些元件相关或不相关。

如在本文中在说明书和权利要求中所使用的，“或”应理解为具有与以上定义的“和/或”相同的含义。例如，当分离列表中的项目时，“或”或者“和/或”应被解释为包含性的，即，包括若干元件或元件的列表中的至少一个，但也包括多于一个，以及任选地，额外的未列出的项目。只有明确指出相反的项，例如“只有一个”或“确切地一个”，或者在权利要求书中使用“由……组成”时，将指的是包括若干元件或元件的列表中的确切的一个元件。一般来说，本文中使用的术语“或”仅在以排他性项(即“一个或另一个但不是两者”)为前序时应被解释为指示排他性的替代方案，例如“任一”，“中的一个”，“中的仅一个”或“中的确切的一个”。

本文在说明书和权利要求书中使用的，短语“至少一个”，在对一个或多个元件的列举的引用中，应被理解为意指选自所述列举的元件中的所述元件的一个或多个的至少一个元件，但不必须包含所述元件的列举中具体列出的每个和每一个元件中的至少一个，并且不排除所述列举的元件中元件的任意组合。该定义还允许任选地存在除了在短语“至少一个”所指的元素列表中具体标识的元素之外的元素，无论是与专门识别的元素相关或不相关的元素。

还应当理解，除非明确地指出相反，否则在本文所主张的任何包括多于一个步骤或动作的方法中，方法的步骤或动作的顺序不一定限制到方法的步骤或动作被记载的顺序。

在权利要求书以及上述说明书中，所有过渡性短语如“包括”，“包含”，“承载”，“具有”，“含有”，“涉及”，“持有”将被理解为开放式的，即意味着包括但不限于此。只有过渡短语“由……组成”和“基本上由……组成”应分别是封闭或半封闭的过渡短语。

尽管本文中已描述并图示了几个创新实施例，但本领域技术人员将容易地预想多种其他方式和/或结构，用于执行所述功能和/或获得所述结果和/或本文描述的优点中的一个或多个，并且这样的变型和/或更改中的每个均被示为在本文描述的创新实施例的范围内。更一般地，本领域技术人员将容易地认识到，本文描述的所有参数、尺寸、材料和配置均意图为示范性的，并且实际参数、尺寸、材料和/或配置将取决于特定的应用或所述创新的教导被用于的应用。本领域技术人员将认识到或能够使用不超过常规实验来确定本文所述的具体创造性实施例的许多等价方案。因此，应当理解，前述实施例仅以示例的方式呈现，并且在所附权利要求及其等价方案的范围内，创造性实施例可以以与具体描述和要求保护的不同的方式来实践。本公开的创新实施例涉及本文描述的每个个体特征、系统、物品、材料、成套设备和/或方法。此外，两个或多个这样的特征、系统、物品、材料、成套设备和/或方法的任意组合，如果这样的特征、系统、物品、材料、成套设备和/或方法不相互抵触的话，均被包括在本公开的创新范围内。

Claims

1.一种用于生成注释的基于图的参考基因组的方法(100)，包括：

接收(120)参考基因组的一个或多个版本，所述一个或多个版本是当前参考基因组的较旧版本，所述参考基因组的所述一个或多个版本中的每个版本均包括多个节点，所述多个节点中的至少一些包括识别所述参考基因组的版本以及相应节点在所述参考基因组的该版本中的位置的信息；

将所述参考基因组的所述一个或多个所接收的较旧版本中的每个版本与所述当前参考基因组进行比对(130)，以生成基于图的参考基因组，其中，所述比对至少部分地基于来自所接收的所述参考基因组的较旧版本的节点的位置信息；

从文献的文集中提取(140)等位基因和与所述等位基因相关联的背景信息，所述文献中的至少一些文献均包括关于等位基因的信息和与该等位基因相关联的背景信息，其中，相应的文献识别：(i)所述一个或多个所接收的所述参考基因组的较旧版本中的一个，以及(ii)等位基因在所识别的所述参考基因组的较旧版本中的位置；以及

基于所识别的所述参考基因组的较旧版本以及所提取的等位基因在所识别的所述参考基因组的较旧版本内的所述位置，将所提取的等位基因和相关联的背景信息映射(150)到所述基于图的参考基因组的节点上。

2.根据权利要求1所述的方法，还包括：

生成(170)报告，所述报告总结与所述基于图的参考基因组的节点相关联的所有背景信息；以及

经由用户接口将所生成的报告提供(180)给用户。

3.根据权利要求2所述的方法，其中，所述报告包括等位基因频率、出现信息、周围突变信息和/或共突变率中的一个或多个。

4.根据权利要求1所述的方法，其中，映射包括利用所提取的等位基因和相关联的背景信息来注释所述节点。

5.根据权利要求1所述的方法，其中，映射包括利用对从其提取所述等位基因的文献的识别来注释所述节点。

6.根据权利要求1所述的方法，其中，所述背景信息包括关于与所述等位基因相关联的特点或医学状况的信息。

7.根据权利要求1所述的方法，其中，所述背景信息包括对从其识别或提取所述等位基因的文献的识别。

8.根据权利要求1所述的方法，其中，所述背景信息包括关于一个或多个人的信息，所述等位基因在所述关于一个或多个人的信息中被识别。

9.根据权利要求1所述的方法，还包括将与所述基于图的参考基因组的节点相关联的多个等位基因标准化(160)。

10.一种用于生成注释的基于图的参考基因组的系统(200)，包括：

比对模块(222)，其被置为将多个接收到的参考基因组的较旧版本中的每个版本与当前参考基因组进行比对，以生成基于图的参考基因组，其中，所述比对至少部分地基于来自所接收的所述参考基因组的较旧版本的节点的信息，所述节点中的至少一些节点包括识别所述参考基因组的版本以及针对相应节点的在所述参考基因组的该版本中的位置的信息；

映射模块(224)，其被配置为基于所识别的所述参考基因组的较旧版本以及所提取的等位基因在所识别的所述参考基因组的较旧版本中的位置，将多个所识别的等位基因映射至所述基于图的参考基因组的一个或多个节点上，其中，所述多个所识别的等位基因中的每个还包括背景信息，所述背景信息与相应的等位基因一起被映射到相应的节点上；

报告模块(225)，其被配置为生成报告，所述报告总结与所述基于图的参考基因组的节点相关联的所有背景信息；以及

用户接口(240)，其被配置为将所生成的报告提供给用户。

11.根据权利要求10所述的系统，还包括提取模块(223)，所述提取模块被配置为从文献的文集提取等位基因和与所述等位基因相关联的背景信息，所述文献中的至少一些均包括关于等位基因的信息和与该等位基因相关联的背景信息，其中，相应的文献识别：(i)所述一个或多个所接收的参考基因组的较旧版本中的一个，以及(ii)等位基因在所识别的所述参考基因组的较旧版本中的位置。

12.根据权利要求10所述的系统，其中，所述背景信息包括关于与所述等位基因相关联的特点或医学状况的信息。

13.根据权利要求10所述的系统，其中，所述背景信息包括对从其识别或提取所述等位基因的文献的识别。

14.一种基于图的参考基因组(300)，包括：

参考基因组当前版本的多个注释的节点(310)，其中，所述多个注释的节点中的每个节点包括关于等位基因的信息(340)以及与来自所述参考基因组的一个或多个先前版本的该等位基因相关联的背景信息，所述背景信息至少包括对从其提取所述等位基因的参考基因组的先前版本的识别，以及关于所述等位基因在从其提取所述等位基因的所述参考基因组的先前版本中的基因组坐标的信息；以及

多条边(320)，每条边经由所述两个节点中的每个节点的第一端或第二端来连接两个节点。

15.根据权利要求14所述的基于图的参考基因组，其中，所述背景信息包括关于文献的信息，所述等位基因从所述文献中被提取或识别。