JP2021525407A

JP2021525407A - グラフベースの参照ゲノムを使用した対立遺伝子解釈のためのシステムおよび方法

Info

Publication number: JP2021525407A
Application number: JP2020560925A
Authority: JP
Inventors: ヨンマオ; コスチャンティンヴォルヤンスキー; ネヴェンカディミトロヴァ
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-05-31
Filing date: 2019-05-20
Publication date: 2021-09-24
Anticipated expiration: 2039-05-20
Also published as: WO2019228833A1; JP7428660B2; CN112236824A; BR112020024028A2; MX2020012672A; US20210158902A1; EP3803881A1

Abstract

グラフベースの参照ゲノムを生成するための方法100であって、(i)現在の参照ゲノムの古いバージョンである参照ゲノムの１つ以上のバージョンを受信するステップであって、参照ゲノムの前記1つ以上のバージョンのそれぞれは複数のノードを有し、前記ノードの少なくとも幾つかは、参照ゲノムのバージョンと、そのバージョンの参照ゲノム内の各ノードの位置とを同定する情報を有する、ステップと、(ii) グラフベースの参照ゲノムを生成するために、前記参照ゲノムの受信された前記1つ以上の古いバージョンの各々を、現在の参照ゲノムにアラインメントするステップであって、前記アラインメントは、参照ゲノムの受信された古いバージョンのノードからの位置情報に少なくとも部分的に基づく、ステップと、(iii)少なくとも一部の各々が対立遺伝子に関する情報およびその対立遺伝子に関連付けられた文脈情報を有する参照のコーパスから、対立遺伝子およびその対立遺伝子に関連付けられた文脈情報を抽出するステップであって、それぞれの前記参照は、参照ゲノムの受信された前記１つ以上の古いバージョンのうちの１つを同定し、前記同定された古いバージョンの前記参照ゲノム内の対立遺伝子の位置を同定する、ステップと、(iv) 参照ゲノムの同定された古いバージョンと、同定された古いバージョンの参照ゲノム内の抽出された対立遺伝子の位置に基づいて、抽出された対立遺伝子および関連する文脈情報をグラフベースの参照ゲノムのノードにマッピングするステップとを有する。

Description

本開示は、概して、注釈付きグラフベースの参照ゲノムを生成するための方法およびシステムを対象とする。

個人向けのゲノミクスは、ヘルスケアのますます重要な側面となっている。シークエンシング技術の成熟化により、個人のゲノム情報のための新しい応用が絶えず提案されている。これらの新たな応用は、典型的には遺伝子情報（配列決定情報、メチル化、トランスクリプトーム、および/または他の遺伝子/ゲノム情報など）および臨床プロファイル（年齢、性別、診断、状態、病歴、および/または他の臨床情報など）の両方を含む患者の個人プロファイルに基づいて、特定の患者に対して治療選択肢を同定することおよび/または治療選択肢を調整することを目的とする。

ゲノムプロファイルを得ることはますます手頃な価格となっているが、ゲノムプロファイルの結果を解釈することは、利用可能な知識または蓄積された知識の欠如に起因して、通常はるかに高価である。最初のシークエンサが遺伝子情報を得始めて以来、多くの異なる集団に対する生物医学的機能と突然変異頻度を説明するために、非常に大きな医学文献のコーパスが作成されてきた。膨大な情報コーパスが存在するが、情報コーパスをアライメントさせるための単純なまたは効率的な方法論またはフレームワークは存在しない。

例えば、2000年代初期に公開された文献はヒト参照ゲノムの初期バージョンを利用したが、最近の公開はGRCH37またはGRCH38のような最近のバージョンを利用する。2005年および2015年に議論された変異は、異なる参照ゲノムに沿った異なる配位に対応し得る。したがって、突然変異の機能を解釈したり、突然変異の優先順位を付けたりするためには、通常、研究者または臨床医が手で医学文献を蓄積し、見直すことが要求される。これは特に、まれな疾患症例の原因を同定する場合に当てはまる。もし、特異的な表現型や診断に関する参考ゲノムのすべての異なるバージョンから論文や関連する参考文献を蓄積することができれば、オーダーメイド医療が大幅に強化されるだろう。

単一の、単倍数のまたは線形の参照ゲノムは、参照ゲノムのためのあまり普遍的でない参照構造である。なぜなら、それは、参照ゲノムの特定のバージョンが利用される期間のみについての、ごく一部の変異しか表さないからである。参照ゲノムに沿ってなされた変化を支援し、ゲノムの将来のバージョンを期待するために、グラフベースの参照ゲノムは、対立遺伝子のレベルで知識をアライメントさせるための包括的な枠組みを提供する。グラフベースの参照ゲノムは、多くの他の利点の中でも、集団および単一個体にわたる多型および突然変異を統合する能力を有する。

参照ゲノムの以前のバージョンに関する文献を、参照ゲノムの現在のグラフベースのバージョン上に収集および編成することを可能にするツールおよび方法が引き続き必要とされている。

本開示は、注釈付きグラフベースの参照ゲノムを生成するための本発明の方法およびシステムを対象とする。本明細書の様々な実施形態および実装は、参照ゲノムの複数のバージョンから編成された対立遺伝子および文脈情報の報告を可能にするシステムを対象とする。このシステムは、参照ゲノムの古いバージョンを参照ゲノムの現在のバージョンにアライメントさせて、グラフベースの参照ゲノムを生成する。グラフベースの参照ゲノムは、参照ゲノムの古いバージョンにおけるノードの以前の位置に関する情報を有するノードを含む。次に、システムは、対立遺伝子に関する科学文献およびその対立遺伝子に関連する文脈情報（対立遺伝子がどの旧バージョンの参照ゲノムで同定されたか、およびその旧バージョンの参照ゲノムにおける対立遺伝子の位置に関する情報を含む）を抽出するか、または受信する。次いで、抽出された対立遺伝子および文脈情報は、参照ゲノムの抽出されたバージョンおよび抽出された位置を含むノードについてグラフベースの参照ゲノムを検索することによって、グラフベースの参照ゲノム上にマッピングされる。

一般に、一態様では、注釈付きグラフベースの参照ゲノムを生成するための方法が提供される。この方法は、(i)現在の参照ゲノムの古いバージョンである参照ゲノムの１つ以上のバージョンを受信するステップであって、参照ゲノムの前記1つ以上のバージョンのそれぞれは複数のノードを有し、前記ノードの少なくとも幾つかは、参照ゲノムのバージョンと、そのバージョンの参照ゲノム内の各ノードの位置とを同定する情報を有する、ステップと、(ii) グラフベースの参照ゲノムを生成するために、前記参照ゲノムの受信された前記1つ以上の古いバージョンの各々を、現在の参照ゲノムにアラインメントするステップであって、前記アラインメントは、参照ゲノムの受信された古いバージョンのノードからの位置情報に少なくとも部分的に基づく、ステップと、(iii)少なくとも一部の各々が対立遺伝子に関する情報およびその対立遺伝子に関連付けられた文脈情報を有する参照のコーパスから、対立遺伝子およびその対立遺伝子に関連付けられた文脈情報を抽出するステップであって、それぞれの前記参照は、参照ゲノムの受信された前記１つ以上の古いバージョンのうちの１つを同定し、前記同定された古いバージョンの前記参照ゲノム内の対立遺伝子の位置を同定する、ステップと、(iv) 参照ゲノムの同定された古いバージョンと、同定された古いバージョンの参照ゲノム内の抽出された対立遺伝子の位置に基づいて、抽出された対立遺伝子および関連する文脈情報をグラフベースの参照ゲノムのノードにマッピングするステップと、を有する。

一実施形態によれば、この方法は、グラフベースの参照ゲノムのノードに関連するすべての文脈情報を要約するレポートを生成するステップと、ユーザインタフェイスを介して、生成されたレポートをユーザに提供するステップとをさらに含む。

一実施形態によれば、レポートは、対立遺伝子頻度、出現情報、周囲の突然変異情報、および/または共突然変異率(co-mutation rate)のうちの1つまたは複数を含む。

一実施形態によれば、マッピングは、抽出された対立遺伝子および関連する文脈情報でノードに注釈を付けることを含む。一実施形態によれば、マッピングは、対立遺伝子がそこから抽出された参照の識別子でノードに注釈を付けることを含む。

一実施形態によれば、文脈情報は、対立遺伝子に関連する形質または医学的状態に関する情報を含む。一実施形態によれば、文脈情報は、対立遺伝子がそこから同定または抽出された参照の識別子を含む。一実施形態によれば、文脈情報は、対立遺伝子が同定された1人以上の人に関する情報を含む。

一実施形態によれば、この方法は、グラフベースの参照ゲノムのノードに関連する複数の対立遺伝子を正規化することをさらに含む。

別の態様によれば、注釈付きグラフベースの参照ゲノムを生成するためのシステムが提供される。当該システムは、ｉ）グラフベースの参照ゲノムを生成するために、受信された複数の古いバージョンの参照ゲノムの各々を現在の参照ゲノムにアラインメントするように構成されたアラインメントモジュールであって、前記アラインメントは、参照ゲノムの受信された古いバージョンのノードからの情報に少なくとも部分的に基づいており、前記ノードの少なくとも幾つかは、前記参照ゲノムのバージョンを同定する情報と、各々の前記ノードについての前記参照ゲノムの前記バージョン内の位置を同定する情報とを有する、アライメントモジュールと、(ii) 前記参照ゲノムの同定された古いバージョンと、前記参照ゲノムの同定された古いバージョン内の抽出された対立遺伝子の位置とに基づいて、複数の同定された対立遺伝子を前記グラフベースの参照ゲノムの１つ以上のノードにマッピングするように構成されたマッピングモジュールであって、複数の同定された対立遺伝子の各々は、それぞれの対立遺伝子に関するそれぞれのノードにマッピングされた文脈情報を有する、マッピングモジュールと、(iii) グラフベースの参照ゲノムのノードに関連するすべての文脈情報を要約するレポートを生成するように構成された報告モジュールと、(iv) 生成されたレポートをユーザに提供するように構成されたユーザインタフェイスと、を有する。

一実施形態によれば、システムはさらに、その少なくとも一部がそれぞれ対立遺伝子に関する情報およびその対立遺伝子に関連付けられた文脈情報を有する参照のコーパスから、対立遺伝子およびその対立遺伝子に関連付けられた文脈情報を抽出するように構成された抽出モジュールを有し、それぞれの参照は、 (i)参照ゲノムの1つ以上の受信された古いバージョンのうちの1つ、および(ii)参照ゲノムの同定された古いバージョン内の対立遺伝子の位置を同定する。

別の態様によれば、グラフベースの参照ゲノムである。グラフベースの参照ゲノムは、(i) 参照ゲノムの現在のバージョンの複数の注釈付けされたノードであって、当該複数の注釈付けされたノードの各々は、対立遺伝子に関する情報と、参照ゲノムの1つ以上の前のバージョンからのその対立遺伝子に関連する文脈情報を有し、前記文脈情報は、少なくとも、前記対立遺伝子がそこから抽出された参照ゲノムの前のバージョンの識別情報と、前記対立遺伝子がそこから抽出された参照ゲノムの前のバージョンにおける前記対立遺伝子のゲノム座標に関する情報とを有する、ノードと、ｉｉ）２つのノードの各々である第１の端部または第２の端部を介して前記２つのノードを各々が接続する複数のエッジとを有する、グラフベースの参照ゲノム。

様々な実装において、プロセッサまたはコントローラは1つ以上の記憶媒体（ここでは総称して「メモリ」、例えば、RAM、PROM、EPROMおよびEEPROMなどの揮発性および不揮発性コンピュータメモリ、フロッピーディスク、コンパクトディスク、光ディスク、磁気テープなどと称される）に関連付けられてもよい。一部の実装では、記憶媒体は、1つ以上のプロセッサおよび/またはコントローラ上で実行されるとき、本明細書で説明する機能の少なくとも一部を実行する1つ以上のプログラムで符号化されてもよい。様々な記憶媒体は、プロセッサまたはコントローラ内に固定されてもよく、または、本明細書で説明される様々な実施形態の様々な態様を実装するように、そこに記憶された1つまたは複数のプログラムをプロセッサまたはコントローラにロードすることができるように、移送可能であってもよい。「プログラム」または「コンピュータプログラム」という用語はここでは1つ以上のプロセッサまたはコントローラをプログラムするために使用可能な任意の種類のコンピュータコード（例えば、ソフトウェアまたはマイクロコード）を総称して使用される。

前述の概念と、以下でより詳細に論じられる追加の概念とのすべての組合せ（そのような概念が相互に矛盾しないという条件で）が、本明細書で開示される本発明の主題の一部であると考えられることを理解されたい。特に、本開示の末尾にあるクレームの対象は、本明細書に開示される発明対象の一部であることが意図される。同様に当然のことながら、本明細書に明示的に用いられ、参照として組み込まれている任意の開示にも現れるのであろう専門用語は、本明細書に開示された特定の概念と最も整合する意味を有するものとする。

様々な実施形態のこれらおよび他の態様は以下に記載される実施形態から明らかになり、それを参照して説明される。

図面において、同様の参照符号は概して異なる図面を通じて同一の部分を指す。また、図面は必ずしも縮尺通りではなく、代わりに、様々な実施形態の原理を示すことに重点が置かれている。
一実施形態による、注釈付きグラフベースの参照ゲノムを生成するための方法のフローチャート。一実施形態による、注釈付きグラフベースの参照ゲノムを生成するためのシステムの概略図。一実施形態による、注釈付きグラフベースの参照ゲノムの概略図。

本開示は、注釈付きグラフベースの参照ゲノムを生成するためのシステムおよび方法の様々な実施形態を説明する。より一般的には、本出願人は、参照ゲノムの複数のバージョンから編成された対立遺伝子および文脈情報を報告するためのシステムを提供することが有益であることを認識し、理解した。このシステムは、参照ゲノムの古いバージョンを参照ゲノムの現在のバージョンにアライメントさせて、グラフベースの参照ゲノムを生成する。システムは、対立遺伝子およびその対立遺伝子に関連する文脈情報についての科学文献からの情報を抽出するか、または受信する。これには、対立遺伝子がどの古いバージョンの参照ゲノムにおいて同定されたか、およびその古いバージョンの参照ゲノムにおける対立遺伝子の位置に関する情報が含まれる。次いで、抽出された対立遺伝子および文脈情報は、参照ゲノムの抽出されたバージョンおよび抽出された位置を含むノードについてグラフベースの参照ゲノムを検索することによって、グラフベースの参照ゲノム上にマッピングされる。システムは、グラフベースの参照ゲノムのノードに関連するすべての文脈情報を要約するレポートを生成し、生成されたレポートをユーザに提供する。

図1を参照すると、一実施形態では、注釈付きグラフベースの参照ゲノムを生成するための方法100のフローチャートが示されている。ステップ110において、注釈付きグラフベースの参照ゲノムを生成するためのシステムが提供される。システムは、本明細書に記載され、または他の方法で想定されるシステムのいずれかであってもよく、本明細書に記載され、または他の方法で想定される構成要素またはモジュールのいずれかを含んでもよい。

本方法のステップ120において、参照ゲノムの1つ以上の前のバージョンが、システムによって受信されるか、またはシステムに提供される。これらの前のバージョンの各々は複数のノードを含み、これらのノードの少なくともいくつかは、ノードが由来する参照ゲノムのバージョン、ならびにそのノードが位置する参照ゲノムのそのバージョン内の位置を同定する情報を含む。一実施形態によれば、ノードは、SNP、突然変異、対立遺伝子、および/または長さkのk量体を表す。

参照ゲノムは、ヒト参照ゲノム、または任意の他の生物由来の参照ゲノムであり得る。参照ゲノムの前のバージョンは、前のバージョンのデータベースを含むが、これに限定されない、任意の供給源から入手または受け取ることができる。例えば、参照ゲノムの1つ以上のバージョンは、使用のために私的または公的に利用可能であり得、そして検索のために私的または公的なリポジトリまたはデータベースに保存され得る。典型的には、参照ゲノムはデジタルであり、データベースに記憶することができ、有線および/または無線通信システムを介してデータベースから注釈付きグラフベース参照ゲノム生成システムに電子的に通信されることができる。

典型的には、参照ゲノムのバージョン間の差異は、特定の位置についてのより信頼できるデータ、特定の配列の座標または位置の変化、配列中の以前のギャップについての新しい情報、および多くの他の差異を含む。本開示に関連する最大の差異の1つは、配列の座標の変異である。例えば、第5染色体上のシーケンスk（単一ヌクレオチドまたはSNPであっても、ヌクレオチドのシーケンスであってもよい）は、参照ゲノムの最初のバージョンでは第1位置に位置するかもしれないが、さらなるシーケンス決定および分析は、シーケンスkが第5染色体上の第2位置により適切に位置することを明らかにし得る。従って、参照ゲノムの次のバージョンは、シーケンスkを第2の位置に移動させる。参照ゲノムの前のバージョン、および配列kを考察している公表文献では、依然として、配列kは第5染色体上の最初の位置に位置するであろう。

本方法のステップ130において、参照ゲノムの受信された古いバージョンの各々は、グラフベースの参照ゲノムを生成するために、現在の参照ゲノムとアライメントされる。このアラインメントは、参照ゲノムの受信された古いバージョンのノードからの位置情報に少なくとも部分的に基づいている。参照ゲノムの受信された古いバージョンのノードは位置情報を含むので、この位置情報は、参照ゲノムの現在のバージョンにおいて、その位置が見出され得る場所を同定するために利用され得る。場合によっては位置の座標は変化していないが、多くの場合、位置の座標は著しく変化している。

一実施形態によれば、システムは、参照ゲノムの以前のバージョンにおける位置が参照ゲノムの現在のバージョンにおいて見出され得る場所についての情報を含むかもしくは提供する比較システムまたはモジュールを含むか、またはそれと通信している。例えば、システム内では、参照ゲノムの現在のバージョンは、複数のノードにおいて、そのノードが参照ゲノムの以前のバージョンのどこに位置したかについての情報を含むことができる。加えて、または代替として、参照ゲノムの以前のバージョンは、参照ゲノムのそのバージョンからのノードが参照ゲノムの現在のバージョンにおいて見出され得る場所についての情報で注釈付けされ得るか、またはそうでなければその情報を含み得る。

例えば、2013年にGenome Reference Consortiumからリリースされたヒト参照ゲノムの最新バージョンはGRCh38（ビルド38と呼ばれることもある）であり、後にGRCh38の修正がリリースされている。したがって、以前のバージョンまたはビルドのいずれも、本明細書で説明されるか、または想定される方法を使用して、GRCh38上にマッピングされ得る。将来、GRCh39 などの新しいバージョンがリリースされ、以前のバージョンまたはビルドがGRCh39 にマップされる可能性がある。本明細書に記載の方法およびシステムは、どのバージョンまたはビルドがヒト参照ゲノムの現在のバージョンとして利用されるかにかかわらず、機能する。さらに、本明細書中に記載される方法およびシステムは、複数のバージョンまたはビルドに関する参照ゲノムを有する任意の生物に対して機能する。

過去に、ヒト遺伝学の態様を検討する科学文献では、現在のバージョンのGRCh38より前にリリースされたヒトゲノムの1つ以上のバージョンが用いられていた。従って、その科学文献は、典型的には、分析または研究に使用されるヒト参照ゲノムの特定のバージョンを参照する。しかしながら、科学文献が、分析または研究に使用されたヒト参照ゲノムの特定のバージョンを参照しない場合、公表および/または研究の日付（公表引用または公表メタデータから収集または推論することができる）を利用して、ヒト参照ゲノムのどのバージョンが分析または研究に使用された可能性が高いかを推論することができる。

一実施形態によれば、鎖についての情報を発現させ、したがって、順方向または逆方向でDNAを読み取ることを区別するために、グラフベースの参照ゲノムは、双方向の方法またはフォーマットで構築されることができる。系統樹に基づく多重ゲノムアラインメント、De Bruijnグラフ構築、および多くの他の方法を含む、いくつかの方法論が、グラフに基づく参照ゲノムを構築するために利用可能である。例えば、ゲノムアセンブリのために使用される場合、De Bruijnグラフは、典型的には、2つのノード間のk‐1塩基の重複を表す有向辺を有するk量体を表すノードを含むが、多くの他の変形が可能であり、グラフ構築の多くの他の方法も同様である。

一実施形態によれば、この方法は、グラフベースの参照ゲノムの構築中の入力として、任意のパッチまたは他の変異、および任意の蓄積された多型を含む、参照ゲノムのすべての以前のバージョンを使用し得る。別の実施形態によれば、この方法は、グラフベースの参照ゲノムの構築中に入力として参照ゲノムのいくつかの以前のバージョンのみを使用し得る。

一実施形態によれば、参照ゲノムの現在のバージョンにアライメントされた参照ゲノムの以前のバージョンからの各対立遺伝子について、参照ゲノムのどのバージョンがその対立遺伝子を含んでいたか、ならびに、染色体番号および位置を含む、参照ゲノムのそのバージョンにおけるその対立遺伝子の座標をマークするために、データ構造を構築または利用することができる。したがって、参照ゲノムの現在のバージョンの複数のノードまたは対立遺伝子は、グラフベースの参照ゲノムを生成するために利用される参照ゲノムのいくつかまたはすべての以前のバージョンにおけるそのノードまたは対立遺伝子に関する情報を含む。

本方法のステップ140において、システムは、科学文献から1つ以上の対立遺伝子についての情報を抽出し、同定し、および/または受信する。例えば、システムは、公開データベースおよび/またはプライベートデータベースであってもよい、論文および参考文献のコーパスを備えてもよく、またはそれらにアクセスすることができる。現在、科学文献の多くの異なるデータベースが存在し、これらのデータベースのいずれかを利用することができる。この論文および参考文献のコーパスから、対立遺伝子に関する情報を同定および/または抽出することができる。対立遺伝子の同定と共に、（1）対立遺伝子を同定する参照SNPクラスターID番号または他の受託番号;（2）染色体番号および位置を含む対立遺伝子の座標;（3）座標に利用される参照ゲノム;、ならびに/または（4）対立遺伝子に関する文脈情報を含む（但しこれらに限定されない）他の情報を同定および/または抽出することができる。

実施形態によれば、文脈情報は例えば、対立遺伝子に関連している、または影響を受けていると同定された医学的または形質情報、対立遺伝子について同定された多型、対立遺伝子に関連した集団、対立遺伝子に関する研究情報、対立遺伝子に関する引用情報、ならびに/または、対立遺伝子、参考文献および/もしくは研究に関するその他の情報を含むことができる。

一実施形態によれば、対立遺伝子情報は、構造化および/または非構造化フォーマットで文献に報告されることができる。構造化されたフォーマットは、グラフベースの参照ゲノム上により容易にアライメントされる。しかしながら、構造化されていない情報については、明示的なETL(抽出、変換およびロード）プロセスを利用することができる。システムは、参照ゲノムの以前のバージョンに利用された様々な名前を説明するための同義語テーブルを備えてもよい。例えば、hg19およびGRCH37は、ヒト参照ゲノムの同じ以前のバージョンを指す。システムはまた、可能性のある他の情報の中でも特に、参照識別、染色体数、座標、参照および代替対立遺伝子、鎖情報、体細胞/生殖細胞系列、配列決定モダリティ（マイクロアレイ、WGS、またはWESなど）、表現型、診断、解剖学的位置、年齢、性別、人種、病歴、および/または患者IDなどのタプルとして、関連する突然変異/対立遺伝子情報を抽出するように構成または設計されたモジュールまたはアルゴリズムを含んでいてもよい。一実施形態によれば、情報は、医療オントロジに基づく自然言語処理パイプラインを介して解析される。対立遺伝子、表現型、メタデータ、および任意の他の情報間の関係は、他の可能なデータ構造の中でも、RDBMS(リレーショナルデータベース管理システム）などのデータ構造に保存されることができる。

一実施形態によれば、本方法のこのステップおよび他のステップは必然的に、かなりの計算作業を含む。例えば、このステップは、全ての関連情報を要約することを含む、何千又は何百万もの文献の見直しを含むことができる。計算作業を容易にするための方法またはシステムを実施することができる。たとえば、Hadoop/MapReduceを介したインフラストラクチャの設定で、ニーズの全体または一部が解決される場合がある。多くの他の方法およびシステムを利用して、この計算集約的な分析を容易にすることができる。

本方法のステップ150において、システムは、抽出された、受信された、または同定された対立遺伝子および関連する文脈情報を、グラフベースの参照ゲノムのノード上にマッピングする。マッピングは、少なくとも部分的には、参照ゲノムの古いバージョン内の抽出された対立遺伝子の位置に基づいている。例えば、参照ゲノムの以前のバージョンからの対立遺伝子が、グラフベースの参照ゲノムのノードにマッピングされ得る。対立遺伝子と共に、対立遺伝子に関連する文脈情報が、本明細書中に開示されるかまたは想定される文脈情報のいずれかまたはすべてを含めて、ノードにマッピングされ得る。マッピングは、抽出された、受け取られた、または同定された対立遺伝子に関連する位置情報に少なくとも部分的に基づいており、グラフベースの参照ゲノムの位置情報と相互参照されることができる。一実施形態によれば、対立遺伝子は、参照ゲノムの1つ以上の以前のバージョンからの複数の対応する座標を有し得る。システムは、それらのそれぞれを確認し、マッピング中にRDBMSを照会できる。

本方法の任意選択のステップ160で、システムは、グラフベースの参照ゲノムのノードに関連する複数の対立遺伝子または結果を正規化する。一実施形態によると、報告される対立遺伝子の多くは突然変異ではなく、正常な多型であり、正規化はこれらの正常な多型を同定する。正規化のための任意の方法を利用することができる。

本方法のステップ170において、システムは、グラフベースの参照ゲノムのノードに関連する全ての文脈情報を要約するレポートを生成する。システムは、1 つのノードまたは複数のノードに対してこれを実行できる。一実施形態によれば、システムは、ノード、対立遺伝子、グラフベースの参照ゲノム内の位置、および/または参照ゲノムの以前のバージョン内の位置に関する情報について、RDBMSまたは他のデータ構造に問い合わせることができる。その結果は、異なるゲノムバージョンにわたって、対立遺伝子頻度、出現回数、周囲の突然変異率、共突然変異率、表現型グループ、および/または他のあらゆる情報を含む、1つ以上のカテゴリーに要約することができる。

本方法のステップ180で、システムは、システムのユーザインタフェイスを介して、生成されたレポートをユーザに提供する。レポートは、任意のフォーマットからなることができ、好ましくは、レビューおよび解釈が容易なフォーマットである。レポートはディスプレイ、読み出し、ダウンロード、アップロード、プリントアウト、電子メール、および多くの他のプロセスを含むが、他に限定されない、任意のメカニズムを介して提供され得る。

一実施形態によれば、グラフベースの参照ゲノムの生成および使用は、従来の参照ゲノムフォーマットを超える有意な改善であり、当技術分野で長年感じられてきた多くの問題を解決する。例えば、ほとんどの生物医学的研究および適用のために、蓄積された臨床的および/または生物学的知識で注釈付けされたゲノム領域はほとんどない。未知のゲノム領域を説明するためには、突然変異指向の知識蓄積のためにオープン学習の枠組みを整える必要がある。例えば、がん患者において未知の体細胞突然変異が検出された場合、それらの突然変異を優先することは、下流の臨床的意思決定に影響しうる。優先順位付けの1つの方法は、各突然変異の対立遺伝子頻度と、その突然変異が何回報告されたかを調べることである。ただし、これは非効率でガイドのない解析方法である。文献からの対立遺伝子の要約は、グラフベースの参照ゲノムとの関連において、はるかに貴重で役に立つ情報を提供する。従って、本明細書中に開示される方法およびシステムは、従来の参照ゲノム方法およびシステムと比較して、患者のケアおよび転帰を有意に改善し得る。別の実施形態によれば、文献のコーパスから組み立てられ、グラフベースの参照ゲノム上にマッピングされたデータはまた、バイオマーカ発見プロセスを容易にし得る。

別の実施形態によれば、グラフベースの参照ゲノムインフラストラクチャは、バイオ医薬品会社または診断会社のような第三者エンティティが、参照ゲノムがどのように進化するかにかかわらず、独自の突然変異表現型データベースを維持することを可能にする。例えば、顧客は、検出されるが、hg18またはhg19のような参照ゲノムの異なるバージョンを参照する突然変異を有し得る。これらの突然変異は、グラフベースの参照ゲノム上に収容されることができる。例えば、ユーザが参照ゲノムの特定の以前のバージョンを参照して特定のゲノム座標に問い合わせる場合、それらの座標に関連する情報は、参照ゲノムのどのバージョンが利用または参照されているかにかかわらず、グラフベースの参照ゲノムから抽出され得る。

図2を参照すると、本明細書に記載されるか、または想定されるような、注釈付きグラフベースの参照ゲノムを生成するためのシステムおよび方法の概略図200が示されている。システム200は、1つ以上のシステムバス210を介して相互接続されたプロセッサ220、メモリ226、ユーザインタフェイス240、通信インターフェース250および記憶装置260のうちの1つ以上を含む。システムがシーケンサまたはシーケンシングプラットフォームを備えるか、または実装するようないくつかの実施形態では、ハードウェアは、任意のシーケンサまたはシーケンシングプラットフォームであることができるそのような追加のシーケンシングハードウェア215を含んでもそのような。図2はいくつかの点で抽象的概念を構成し、システム400の構成要素の実際の編成は図示されたものとは異なり、より複雑であり得ることが理解されるのであろう。

一実施形態によれば、システム200は、メモリ226または記憶装置260に記憶された命令を実行することができ、あるいはデータを処理することができるプロセッサ220を備える。プロセッサ220は、本方法の1つまたは複数のステップを実行し、本明細書で説明または想定されるモジュールのうちの1つまたは複数を備えることができる。プロセッサ220は、1つまたは複数のモジュールから形成されることができ、例えば、メモリ226を備えることができる。プロセッサ220は、マイクロプロセッサ、マイクロコントローラ、複数のマイクロコントローラ、回路、フィールドプログラマブルゲートアレイ（FPGA）、特定用途向け集積回路（ASIC）、単一のプロセッサ、または複数のプロセッサを含むが、これらに限定されない、任意の適切な形態をとることができる。

メモリ226は、不揮発性メモリおよび/またはRAMを含む任意の適切な形態をとることができる。メモリ226は、例えばキャッシュ又はシステムメモリのような様々なメモリを含んでもよい。このように、メモリ226は、スタティック・ランダム・アクセス・メモリ（SRAM）、ダイナミックRAM、フラッシュ・メモリ、リード・オンリー・メモリ（ROM）、または他の同様のメモリ・デバイスを含むことができる。メモリは、とりわけ、オペレーティングシステムを記憶することができる。RAMは、データを一時的に保存するためにプロセッサによって使用される。一実施形態によれば、オペレーティングシステムは、プロセッサによって実行されると、システム200の1つまたは複数の構成要素の動作を制御するコードを含むことができる。プロセッサが本明細書で説明される機能のうちの1つまたは複数をハードウェアで実装する実施形態では、他の実施形態におけるそのような機能に対応するものとして説明されるソフトウェアを省略することができることは明らかであろう。

ユーザインタフェイス240は、管理者のようなユーザとの通信を可能にするための1つ以上の装置を含んでもよい。ユーザインタフェイスは、情報の伝達および/または受信を可能にする任意の装置またはシステムとすることができ、ユーザコマンドを受信するためのディスプレイ、マウス、および/またはキーボードを含むことができる。ある実施形態では、ユーザインタフェイス240は、通信インターフェース250を介して遠隔端末に提示されてもよいコマンドラインインターフェースまたはグラフィカルユーザインターフェースを含んでもよい。ユーザインタフェイスは、システムの1つ以上の他の構成要素と一緒に配置されてもよく、またはシステムから離れた場所に配置され、有線および/または無線通信ネットワークを介して通信することもできる。

通信インターフェース250は、他のハードウェア装置との通信を可能にするための1つ以上の装置を含んでもよい。例えば、通信インターフェース250は、イーサネットプロトコルに従って通信するように構成されたネットワークインターフェースカード（NIC）を含んでもよい。さらに、通信インターフェース250は、TCP/IPプロトコルに従って通信するためのTCP/IPスタックを実装してもよい。通信インターフェース250のための様々な代替又は追加のハードウェア又は構成が明らかであろう。

記憶装置260は、読取り専用メモリ（ROM）、ランダム・アクセス・メモリ（RAM）、磁気ディスク記憶媒体、光学記憶媒体、フラッシュ・メモリ・デバイス、または同様の記憶媒体のような1つ以上の機械可読記憶媒体を含むことができる。様々な実施形態では、記憶装置260は、プロセッサ220による実行のための命令、またはプロセッサ220が動作することができるデータを格納することができる。例えば、記憶装置260は、システム200の様々な動作を制御するためのオペレーティングシステム261を格納することができる。システム200がシーケンサを実装し、シーケンシングハードウェア215を含む場合、記憶装置260は、シーケンシングハードウェア215を動作させるためのシーケンシング命令262を含むことができる。一実施形態によれば、記憶装置260は、本明細書に記載されるかまたは想定される方法に従って生成または追加される抽出された対立遺伝子データベース464を含むことができる。一実施形態によれば、記憶装置260は、本明細書に記載されるか、または想定される方法に従って生成されるグラフベースの参照ゲノム265を含むことができる。

記憶装置260に記憶されるものとして説明された種々の情報は、追加的に又は代替的にメモリ226に記憶されてもよいことは明らかであろう。この点に関して、メモリ226は記憶装置を構成すると考えることもでき、記憶装置460は、メモリと考えることができる。種々の他の構成が明らかであろう。さらに、メモリ226および記憶装置260は、両方とも、非一時的機械可読媒体であると考えることができる。本明細書で使用されるように、用語「非一時的」は一時的な信号を除外するが、揮発性メモリおよび不揮発性メモリの両方を含む、すべての形態の記憶装置を含むものと理解されるのであろう。

システム200はまた、文献270のコーパスを含んでもよい。このコーパスは、単一のデータベースまたは複数のデータベースの場合がある。データベースは、システム200の構成要素であってもよく、またはシステム200は、文献270のコーパスと通信することができ、あるいは、文献270のコーパスにアクセスすることができる。データベースは、複数の記事、論文、ポスター、抄録、または他の情報を含むことができ、これらの情報は、個人および/または公共の情報源から入手または見つけることができる。

システム200は、説明された各構成要素のうちの1つを含むものとして示されているが、様々な構成要素は様々な実施形態において重複することができる。例えば、プロセッサ220は、本明細書で説明された方法を独立して実行するように構成されるか、または複数のプロセッサが協働して本明細書で説明された機能を達成するように、本明細書で説明された方法のステップまたはサブルーチンを実行するように構成された複数のマイクロプロセッサを含むことができる。さらに、システム200がクラウドコンピューティングシステムに実装される場合、様々なハードウェア構成要素は、別個の物理システムに属してもよい。例えば、プロセッサ220は、第1のサーバ内に第1のプロセッサを含み、第2のサーバ内に第2のプロセッサを含むことができる。多くの他の変形および構成が可能である。

一実施形態によれば、プロセッサ220は、本明細書で説明されるか、または想定される方法の1つまたは複数の機能またはステップを実行するための1つまたは複数のモジュールを備える。例えば、プロセッサ220は、アライメントモジュール222、抽出モジュール223、マッピングモジュール224、および/または報告モジュール225を含むことができる。

一実施形態によれば、アラインメントモジュール222は、グラフベースの参照ゲノムを生成するために、参照ゲノムの受け取られたまたは同定された古いバージョンと現在の参照ゲノムとをアライメントするか、またはアラインメントを容易にする。このアラインメントは、参照ゲノムの受信された古いバージョンのノードからの位置情報に少なくとも部分的に基づくことができる。参照ゲノムの受信された古いバージョンのノードは位置情報を含むので、この位置情報は、参照ゲノムの現在のバージョンにおいて、その位置が見出され得る場所を同定するために利用され得る。場合によっては位置の座標は変化していないが、多くの場合、位置の座標は著しく変化している。一実施形態によれば、アラインメントモジュール222は、参照ゲノムの以前のバージョンにおける位置が参照ゲノムの現在のバージョンにおいて見出され得る場所についての情報を含むか、または提供する。

一実施形態によれば、抽出モジュール223は、文献のコーパス270に見られる科学文献から1つまたは複数の対立遺伝子に関する情報を抽出、特定および/または受信する。抽出された対立遺伝子情報264は、例えば、記憶装置260、または種々の他の位置もしくはデータベースに記憶され得る。対立遺伝子の同定と共に、（1）対立遺伝子を同定する参照SNPクラスターID番号または他の受託番号;（2）染色体番号および位置を含む対立遺伝子の座標;（3）座標に利用される参照ゲノム;および/または（4）対立遺伝子に関する文脈情報を含むが、これらに限定されない、他の情報を同定および/または抽出することができる。実施形態によれば、文脈情報は例えば、対立遺伝子に関連している、または影響を受けていると同定された医学的または形質情報、対立遺伝子について同定された多型、対立遺伝子に関連した集団、対立遺伝子に関する研究情報、対立遺伝子に関する引用情報、ならびに/または、対立遺伝子、参考文献および/もしくは研究に関するその他の情報を含むことができる。

一実施形態によれば、マッピングモジュール224は、抽出された対立遺伝子、受信された対立遺伝子、または同定された対立遺伝子、および関連する文脈情報を、グラフベースの参照ゲノム265のノード上にマッピングする。マッピングは、少なくとも部分的には参照ゲノムの古いバージョン内の抽出された対立遺伝子の位置に基づいている。例えば、参照ゲノムの以前のバージョンからの対立遺伝子が、グラフベースの参照ゲノムのノードにマッピングされ得る。対立遺伝子と共に、本明細書中に開示されるかまたは想定される文脈情報のいずれかまたはすべてを含む、対立遺伝子に関連する文脈情報がノードにマッピングされ得る。マッピングは、抽出された、受け取られた、または同定された対立遺伝子に関連する位置情報に少なくとも部分的に基づいており、グラフベースの参照ゲノムの位置情報に相互参照することができる。一実施形態によれば、対立遺伝子は、参照ゲノムの1つ以上の以前のバージョンからの複数の対応する座標を有し得る。システムはそれらのそれぞれを確認し、マッピング中にRDBMSを照会できる。

一実施形態によれば、報告モジュール225は、グラフベースの参照ゲノムのノードに関連するすべての文脈情報を要約するレポートを生成する。このモジュールは、1 つのノードまたは複数のノードに対してこれを行うことができる。一実施形態によれば、モジュールは、ノード、対立遺伝子、グラフベースの参照ゲノム内の位置、および/または参照ゲノムの以前のバージョン内の位置に関する情報について、RDBMSまたは他のデータ構造に問い合わせることができる。その結果は、異なるゲノムバージョンにわたって、対立遺伝子頻度、出現回数、周囲の突然変異率、共突然変異率、表現型グループ、および/または他のあらゆる情報を含む1つ以上のカテゴリーに要約されることができる。一実施形態によれば、報告モジュール225はまた、システムのユーザインタフェイスを介して、生成されたレポートをユーザに提供するか、システムに提供するように指示する。

一実施形態は、本明細書に記載されるかまたは想定されるグラフベースの参照ゲノムである。図3を参照すると、一実施形態では、参照ゲノムの現在のバージョンに基づく、参照ゲノムの複数の異なるバージョンからの情報をコードするグラフベースの参照ゲノム300が示されている。グラフベースの参照ゲノム300は、例えば、本明細書中に記載されるかまたは他の方法で想定されるように、配列、対立遺伝子情報、および/または文脈情報でラベル付け、同定、または注釈付けされ得る複数のノード310を含む。グラフベースの参照ゲノム300はまた、例えば、2つのノードをそれらのそれぞれの末端のいずれかを介して接続する複数のエッジ320を含む。グラフベースの参照ゲノム300はまた、経路330を含み得、これは2つのノードを、それらのそれぞれの末端のいずれかを介して接続するが、代替的な配列決定、座標または他の改変を提供する。例えば、経路は、グラフにエンコードされたゲノムに対する座標系を提供することができ、それによって、グラフの構造が変更された場合であっても、安定したマッピングが生成されることを可能にする。

一実施形態によれば、グラフベースの参照ゲノムの複数のノード310は、参照ゲノムの1つ以上の以前のバージョンからの情報を含む。情報は、他の可能な情報の中でもとりわけ、例えば、対立遺伝子、対立遺伝子が抽出または同定された参照ゲノムの同定、その参照ゲノムにおける対立遺伝子の座標に関する情報、および/または文脈情報を含み得る。図3を参照すると、例えば、ノード310に関連するテーブルまたはデータ構造340が示されている。ノードは、テーブルまたはデータ構造340内の情報で直接注釈を付けられることができ、または、ノード310は、テーブルまたはデータ構造340とメモリ内で関連付けられることができ、および/または、ノード310は、テーブルまたはデータ構造340へのポインタまたは他のリンクを含むことができる。テーブルは、参照ゲノムの3つの以前のバージョンを示すが、参照ゲノムの1つの、いくつかのまたは全ての以前のバージョンについての情報を含み得る。

全ての定義は、本明細書中で定義されかつ用いられるように、辞書的定義、引用により援用された文書中の定義、および/または定義された用語の通常の意味を支配すると理解されるべきである。

不定冠詞「a」および「an」は、明細書および特許請求の範囲において用いられるとき、明瞭に反対のことが示されるのでなければ、「少なくとも1つ」を意味すると理解されるべきである。

本明細書および特許請求の範囲で使用される「および/または」という語句はそのように結合された要素、すなわち、いくつかの場合には結合的に存在し、他の場合には分離的に存在する要素の「いずれかまたは両方」を意味すると理解されるべきである。「および/または」で列挙された複数の要素は同じ様式で、すなわち、そのように結合された要素の「1つまたは複数」で解釈されるべきである。他の要素は、特に特定されたそれらの要素に関連するか、または関連しないかにかかわらず、「および/または」によって具体的に特定された要素以外に任意に存在してもよい。

本明細書および特許請求の範囲で使用されるように、「または」は上記で定義した「および/または」と同じ意味を有すると理解されるべきである。例えば、リスト中の項目を分離する場合、「または」および/または「および/または」は包括的であると解釈されるべきであり、すなわち、いくつかの要素またはリストのうちの少なくとも1つを含むだけでなく、いくつかの要素またはリストのうちの2つ以上を含むものと解釈されるべきであり、場合によって反対に明確に示された「のうちの1つのみ」または「のうちの正確に1つ」などの用語が特許請求の範囲で使用される場合にのみ、「からなる」はいくつかの要素またはリストのうちの正確に1つの要素を含むことを指す。

本明細書および特許請求の範囲で使用されるように、1つまたは複数の要素のリストを参照する「少なくとも1つの」という語句は、要素のリスト内の任意の1つまたは複数の要素から選択される少なくとも1つの要素を意味すると理解されるべきであるが、必ずしも、要素のリスト内に具体的に列挙されたあらゆる要素の少なくとも1つを含む必要はなく、要素のリスト内の要素の任意の組合せを排除するものではない。この定義は、要素が特に特定された要素に関連するかまたは関連しないかにかかわらず、語句「少なくとも1つの」が言及する要素のリスト内で具体的に特定された要素以外が任意に存在することも可能にする。

また、明瞭に反対のことが示されているのでなければ、1を超える工程または動作を含む本明細書中において、特許請求されたいずれの方法においても、該方法の工程または動作の順番は、該方法の工程または動作は、言及された順番に必ずしも限定されないことも理解されるべきである。

特許請求の範囲及び明細書において、「有する」、「含む」、「担持する」、「持つ」、「備える」、「含有する」、「関与する」、「保持する」、「で構成される」等の全ての移行句は制約がない解されるべきであり、すなわち、限定されないが、「からなる」及び「から本質的になる」という移行句のみが、それぞれ閉鎖型又は半閉鎖型の移行句である。

いくつかの発明の実施形態を記載し説明してきたが、当業者であれば、機能を実施し、および/または、本明細書中で記載された結果および/または利点の1以上を得るために、種々の他の手段および/または構造を容易に考え付き、そのような変形および/または修正の各々は本明細書中で記載された発明の実施形態の範囲内にあるとみなされる。より一般的には当業者であれば、本明細書中で記載された全てのパラメータ、寸法、材料、および構成は例示的であることを意図し、および現実のパラメータ、寸法、材料、および/または構成は具体的な適用、または発明の教示が用いられる適用に依存するのであろうことは容易に認識するのであろう。当業者であれば、ルーチン的実験を超えないものを用いて、本明細書中で記載された具体的な発明の実施形態に対する多くの同等物を認識し、またはそれを確認することができよう。従って、これまでの実施形態は単に例として提示され、添付の特許請求の範囲およびその均等物の範囲内で、発明の実施形態は、具体的に記載されて特許請求されたものとは異なるように実施されることができると理解されるべきである。本開示の発明の実施形態は、本明細書中で記載された個々の特徴、システム、製品、材料、キットおよび/または方法を対象とする。加えて、2以上のそのような特徴、システム、製品、材料、キット、および/または方法のいずれの組合せも、もしそのような特徴、システム、製品、材料、キット、および/または方法が相互に矛盾しないならば、本明細書の発明の範囲内に含まれる。

Claims

グラフベースの参照ゲノムを生成するための方法であって、
現在の参照ゲノムの古いバージョンである参照ゲノムの１つ以上のバージョンを受信するステップであって、参照ゲノムの前記1つ以上のバージョンのそれぞれは複数のノードを有し、前記複数のノードの少なくとも幾つかは、参照ゲノムのバージョンと、そのバージョンの参照ゲノム内の各ノードの位置とを同定する情報を有する、ステップと、
グラフベースの参照ゲノムを生成するために、前記参照ゲノムの受信された前記1つ以上の古いバージョンの各々を前記現在の参照ゲノムにアラインメントするステップであって、前記アラインメントは、参照ゲノムの受信された古いバージョンのノードからの位置情報に少なくとも部分的に基づく、ステップと、
少なくとも一部の各々が対立遺伝子に関する情報およびその対立遺伝子に関連付けられた文脈情報を有する参照のコーパスから、対立遺伝子および当該対立遺伝子に関連付けられた文脈情報を抽出するステップであって、それぞれの前記参照は、(i)参照ゲノムの受信された前記１つ以上の古いバージョンのうちの１つを同定し、(ii)前記同定された古いバージョンの前記参照ゲノム内の前記対立遺伝子の位置を同定する、ステップと、
参照ゲノムの前記同定された古いバージョンと、前記同定された古いバージョンの参照ゲノム内の前記抽出された対立遺伝子の前記位置に基づいて、前記抽出された対立遺伝子および関連する文脈情報をグラフベースの参照ゲノムのノードにマッピングするステップと、
を有する方法。
前記グラフベースの参照ゲノムのノードに関連する全ての前記文脈情報を要約するレポートを生成するステップと、
ユーザインタフェイスを介して前記生成されたレポートをユーザに提供するステップと、
を有する請求項１に記載の方法。
前記レポートが、対立遺伝子頻度、出現情報、周囲の突然変異情報および共突然変異率のうちの1つ以上を含む、請求項２に記載の方法。
前記マッピングが、前記抽出された対立遺伝子および関連する文脈情報で前記ノードに注釈付けすることを含む、請求項１に記載の方法。
前記マッピングが、前記対立遺伝子がそこから抽出された前記参照の識別子で前記ノードに注釈付けすることを含む、請求項１に記載の方法。
前記文脈情報が、前記対立遺伝子に関連する形質または医学的状態についての情報を含む、請求項１に記載の方法。
前記文脈情報が、前記対立遺伝子がそこから同定または抽出された参照の識別子を含む、請求項１に記載の方法。
前記文脈情報が、前記対立遺伝子がそこから同定された一人以上の人に関する情報を含む、請求項１に記載の方法。
前記グラフベースの参照ゲノムのノードに関連する複数の対立遺伝子を正規化することを含む、請求項１に記載の方法。
注釈付きグラフベースの参照ゲノムを生成するためのシステムであって、
グラフベースの参照ゲノムを生成するために、参照ゲノムの受信された複数の古いバージョンの各々を現在の参照ゲノムにアラインメントするように構成されたアラインメントモジュールであって、前記アラインメントは、参照ゲノムの前記受信された古いバージョンのノードからの情報に少なくとも部分的に基づいており、前記ノードの少なくとも幾つかは、前記参照ゲノムのバージョンを同定する情報と、各々の前記ノードについての前記参照ゲノムの前記バージョン内の位置を同定する情報とを有する、アライメントモジュールと、
前記参照ゲノムの前記同定された古いバージョンと、前記参照ゲノムの前記同定された古いバージョン内の抽出された対立遺伝子の位置とに基づいて、複数の同定された対立遺伝子を前記グラフベースの参照ゲノムの１つ以上のノードにマッピングするように構成されたマッピングモジュールであって、複数の同定された対立遺伝子の各々は、それぞれの対立遺伝子に関するそれぞれのノードにマッピングされた文脈情報を有する、マッピングモジュールと、
前記グラフベースの参照ゲノムのノードに関連するすべての文脈情報を要約するレポートを生成するように構成された報告モジュールと、
生成されたレポートをユーザに提供するように構成されたユーザインタフェイスと、
を有するシステム。
少なくとも一部がそれぞれ対立遺伝子に関する情報およびその対立遺伝子に関連付けられた文脈情報を有する参照のコーパスから、対立遺伝子および当該対立遺伝子に関連付けられた文脈情報を抽出するように構成された抽出モジュールを有し、それぞれの前記参照は、(i)参照ゲノムの1つ以上の受信された古いバージョンのうちの1つを同定し、(ii)参照ゲノムの前記同定された古いバージョン内の前記対立遺伝子の位置を同定する、請求項１０に記載のシステム。
前記文脈情報が、前記対立遺伝子に関する形質または医学的状態に関する情報を含む、請求項１０に記載のシステム。
前記文脈情報が、前記対立遺伝子がそこから同定または抽出された参照の識別子を含む、請求項１０に記載のシステム。
グラフベースの参照ゲノムであって、
参照ゲノムの現在のバージョンの複数の注釈付けされたノードであって、当該複数の注釈付けされたノードの各々は、対立遺伝子に関する情報と、参照ゲノムの1つ以上の以前のバージョンからのその対立遺伝子に関連する文脈情報を有し、前記文脈情報は、少なくとも、前記対立遺伝子がそこから抽出された参照ゲノムの前記以前のバージョンの識別子と、前記対立遺伝子がそこから抽出された参照ゲノムの前記以前のバージョンにおける前記対立遺伝子のゲノム座標に関する情報とを有する、ノードと、
２つのノードの各々である第１の端部または第２の端部を介して前記２つのノードを各々が接続する複数のエッジとを有する、グラフベースの参照ゲノム。
前記文脈情報が、前記対立遺伝子がそこから抽出または同定された参照に関する情報を有する、請求項１４に記載のグラフベースの参照ゲノム。