JP6902104B2

JP6902104B2 - バイオインフォマティクス情報表示のための効率的データ構造

Info

Publication number: JP6902104B2
Application number: JP2019540489A
Authority: JP
Inventors: ダニエーレレンツィ; ジョルジョゾイア
Original assignee: Genomsys SA
Current assignee: Genomsys SA
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2021-07-14
Anticipated expiration: 2036-10-11
Also published as: WO2018068827A1; KR20190062544A; AU2016426569B2; NZ753247A; CO2019003583A2; CL2019000954A1; ES2922420T3; PL3526709T3; IL265908A; BR112019007296A2; MX2019004125A; FI4075438T3; EP4075438A1; SG11201903175VA; CA3039688C; EP4075438B1; IL265908B1; ES2973590T3; CN110088839A; EA201990933A1

Description

本発明は、ゲノムデータ構造を定義するゲノム情報保存レイヤ（ゲノムファイルフォーマット）を開示する。ゲノムデータ構造は、ゲノムデータ処理の異なるステージ（いわゆる、「ゲノム情報ライフサイクル」）の間におけるゲノムシークエンシング（配列決定）、処理及び解析に関連するデバイス及びアプリケーションにより生成された情報に対応する異種データの収集を含む。

ＤＮＡ、ＲＮＡ、又はタンパク質シークエンシング装置により生成されたゲノム又はプロテオーム情報は、データ処理上の異なるステージの間、異種データを生成するために転送される。従来技術の解決法では、これらのデータは、現在、異なる無関係の構造を有するコンピュータ上のファイルに保存される。したがって、上記情報のアーカイブへの保存、転送及び加工は極めて困難である。

本発明におけるゲノム又はプロテオーム配列は、例えば、ヌクレオチド配列、デオキシリボ核酸（ＤＮＡ）配列、リボ核酸（ＲＮＡ）及びアミノ酸配列を含むが、これに限定されない。本明細書ではヌクレオチド配列の形態であるゲノム情報について詳細に記載する。しかし、当業者であれば理解されるように、保存のための方法及びシステムは、いくつかのバリエーションがあるが、他のゲノム又はプロテオーム配列についても同様に実施することができる。

図１は、データの生成（シークエンシング）から解析までのゲノム又はプロテオーム情報ライフサイクルを示すとともに、ゲノムライフサイクルの異なるフェーズ及び対応する中間ファイルフォーマットを示す。図１に示すように、ゲノム情報ライフサイクルの典型的なステップは、配列リード抽出、マッピング及びアライメント、バリアント検出、バリアントアノテーション（注釈付け）、並びに機能及び構造解析を含む。

配列リード抽出は、人間のオペレータ又は機械によって実行されるプロセスであり、生体サンプルを構成する分子を表す記号の配列の形式で遺伝情報の断片を表示するプロセスである。核酸の場合、そのような分子は、「ヌクレオチド」と呼ばれる。抽出により生成される記号の配列は、一般的に「リード」と呼ばれる。この情報は、従来技術では、通常、テキストヘッダ及び配列された分子を表す記号の配列を含む「ＦＡＳＴＡ」ファイルとして符号化される。

生物のＤＮＡを抽出し、生体サンプルのシークエンシングを行うとき、アルファベット（Ａ、Ｃ、Ｇ、Ｔ、Ｎ）が記号として用いられる。

生物のＲＮＡを抽出し、生体サンプルのシークエンシングを行うとき、アルファベット（Ａ、Ｃ、Ｇ、Ｕ、Ｎ）が記号として用いられる。

ＩＵＰＡＣ拡張記号セットの場合、いわゆる「あいまいコード（ａｍｂｉｇｕｉｔｙｃｏｄｅｓ）」がシークエンシング装置によって生成され、リードを構成する記号にはアルファベット（Ａ、Ｃ、Ｇ、Ｔ、Ｕ、Ｗ、Ｓ、Ｍ、Ｋ、Ｒ、Ｙ、Ｂ、Ｄ、Ｈ、Ｖ、Ｎ又は−）が用いられる。

ＩＵＰＡＣのあいまいコードを用いない場合、品質スコアの配列が各々の配列リードに関連付けられる。そのような場合、従来の解決法では、結果として得られる情報を「ＦＡＳＴＱ」ファイルとして符号化する。

配列アライメントは、配列間の機能的、構造的又は進化的な関係の結果である類似性を有する領域を見つけることにより、配列リードをアレンジするプロセスに関する。「参照（リファレンス）配列」と呼ばれる既存のヌクレオチド配列を参照してアライメントを実行する場合、この処理は「マッピング」と呼ばれる。また、配列アライメントは、既存の配列（すなわち、参照ゲノム）なしに実行され得る。従来のこのプロセスは、「デノボ（ｄｅｎｏｖｏ）」アライメントとして知られる。従来技術の解決法では、「ＳＡＭ」、「ＢＡＭ」又は「ＣＲＡＭ」ファイルにおけるそのような情報が保存される。図２には、部分的又は完全なゲノムを再構築するための配列のアライメントの概念が示される。

バリアント検出（バリアントコーリングともいう）は、ゲノムシークエンシング装置の整列した出力を、他の既存の配列には見られないか又はいくつかの既存の配列だけに見られる、配列決定される生物に固有の特徴の要旨に翻訳するプロセスである。これらの特徴は「バリアント」と呼ばれる。これは、バリアントが調査中の生物のゲノムと参照ゲノム（リファレンスゲノム）との間における相違として表されるためである。従来技術の解決法では、この情報を「ＶＣＦ」ファイルと呼ばれる特定のファイルフォーマットで保存する。

バリアントアノテーションは、機能的情報をゲノムバリアントに割り当てるプロセスである。これは、ゲノムにおけるコード配列に対する関係に応じるとともに、コード配列及び遺伝子プロダクトに対する影響に応じたバリアントの分類を意味する。これは、従来技術では通常「ＭＡＦ」ファイルに保存される。

遺伝子（及びタンパク質）の機能及び構造とのそれらの関係を定義するためのＤＮＡ鎖（バリアント、ＣＮＶ＝コピー数多型、メチル化など）の解析は、機能的及び構造的解析と呼ばれる。従来技術では、このデータを保存するためのいくつかの異なる解決方法が存在する。

図３は、ゲノム処理パイプラインに用いられるファイルフォーマット間の関係を簡潔に示す。この図では、ファイルへの包含は、入れ子になったファイル構造の存在を示すものではなく、各フォーマットに符号化できる情報のタイプ及び量を表すだけである（すなわち、ＳＡＭはＦＡＳＴＱにおける全ての情報を含むが、異なるファイル構造で編成される）。ＣＲＡＭは、ＳＡＭ／ＢＡＭと同じゲノム情報を含むが、使用可能な圧縮の種類がより柔軟であるため、ＳＡＭ／ＢＡＭのスーパーセットとして表される。

ゲノム情報の保存のために様々なファイルフォーマットを利用することは、極めて非効率でありコストがかかる。ゲノム情報ライフサイクルの異なるステージにおいて異なるファイルフォーマットを有することは、増分情報がシークエンシングデータの初期値と比べて非常に小さいとしても、利用するストレージのスペースが線形に増加する。これは、スペース及び発生するコストの両方の観点から持続可能ではなく、したがって、ゲノムが広く活用されることが妨げられてしまう。さらに、公知である従来技術の解決法のデメリットを以下に記載する。

１．圧縮されたＦＡＳＴＱファイル又は任意に組み合わせたファイルに保存された未加工データにアクセスし、解析し、あるいはアノテーション（メタデータ）を追加することは、計算時間及びリソースの過度の使用に加えて、ファイル全体の復元及び再圧縮を必要とする。

２．リードマッピング位置、リードバリアント位置及びタイプ、インデル位置及びタイプ、あるいは、ＢＡＭファイルに保存される整列されたデータに含まれる任意の他のメタデータ及びアノテーション（注釈）などの特定のタイプの情報を読み出すためには、各リードに関連する全データにアクセスする必要がある。従来技術の解決法では単一クラスのメタデータに選択的にアクセスすることはできない。

３．従来のファイルフォーマットでは、処理が開始可能となる前に、エンドユーザがファイル全体を受信することが必要となる。例えば、適切なデータ表示に依存してシークエンシングプロセスが完了する前に、リードのアライメントを開始することができる。シークエンシング、アライメント及び解析は並行して進行し得る。

４．異なるシークエンシングプロセスにより得られたゲノムデータを、特定の生成セマンティック（ｇｅｎｅｒａｔｉｏｎｓｅｍａｎｔｉｃ）（例えば、同一の個体の異なる生存期間に得られるシークエンシング）に従って構造化し、区別可能にすることができるようにすることは、従来技術の解決法では不可能である。同じ個体の異なる種類の生体サンプルによって得られるシークエンシングについても同様である。

５．データの全体又は選択された部分の暗号化は、従来技術の解決法ではサポートされていない。例えば、選択されたＤＮＡ領域の暗号化、バリアントを含む配列だけの暗号化、キメラ配列だけの暗号化、マッピングされていない配列だけの暗号化、特定のメタデータ（例えば、配列決定されたサンプルの出所、配列決定された個体の同一性、サンプルの種類）の暗号化は不可能である。

６．所与のリファレンス（すなわち、ＳＡＭ／ＢＡＭファイル）に整列されたシークエンシングデータから新しいリファレンスへのトランスコーディングでは、新しいリファレンスが以前のリファレンスと単一ヌクレオチド位置だけ異なる場合であっても全データ量を処理する必要がある。

７．ゲノムデータの転送は遅くかつ非効率的である。これは、現在使用されるデータフォーマットが、処理のため受信側に完全に転送する必要がある最大数百ギガバイトのサイズのモノリシックファイルに編成されるためである。このことは、データの小さなセグメントの解析についても、処理能力及び待機時間に関してかなりの費用をかけて、ファイル全体を転送しなければならないことを意味する。多くの場合、オンラインによる転送は、大量のデータを転送するには不向きであり、このため、ハードディスクドライブやストレージサーバなどの記憶媒体をある場所から他の場所に物理的に移動させることによってデータの転送が行われる。

８．一般的に使用される解析アプリケーションに要求される異なるクラスのデータ及びメタデータの部分を、そのデータ全体にアクセスすることなく読み出すことができるように情報が構成されていないため、データの処理が遅くかつ非効率的である。上記の事実は、共通の解析パイプラインが、特定の解析目的に関するデータ部分が小さいものであっても、各段階における大量のデータへのアクセス、パーシング及びフィルタリングの必要性のために、貴重で高価な処理リソースを浪費しながら何日又は何週間も稼働することを必要とすることを暗示する。上記の制限は、医療専門家がタイムリーにゲノム解析レポートを入手すること及び発病に対して迅速に対応することを妨げる。

データ及びメタデータの圧縮が最大化され、選択的なアクセスや増分更新のサポートなどのいくつかの機能性並びにゲノムデータライフサイクルの異なるステージにおいて有用な他のデータ処理上の機能性が効果的に実現し得るように、データを編成しかつ分割することにより、適切なゲノムシークエンシングデータ及びメタデータ表示（ゲノムファイルフォーマット）を提供することが明確に要求される。
開示する解決法の主な態様は以下の通りである。
１．アライメントの結果に関する基準に従って符号化されたデータに対する選択的なアクセスを可能にするための、参照配列に対するアライメントの結果に従った異なるクラスにおける配列リードの分類。これは、圧縮形式で構造化されたデータエレメントを「含む」ファイルフォーマットの指定を意味する。そのようなアプローチは、データが非圧縮形式で構造化され、ファイル全体が圧縮される従来技術のアプローチ、例えば、ＳＡＭ及びＢＡＭと異なるものと見ることができる。上記アプローチの第１の明確な利点は、従来技術の手法では不可能であるか又は極めて扱いにくい、圧縮されたドメインにおけるデータエレメントに対する様々な形態の選択的なアクセスを効率的かつ自然に提供できることである。
２．情報エントロピを可能な限り少なくするための、分類されたリードの均質なメタデータレイヤへの分解。ゲノム情報を均質なデータ及びメタデータの特定の「レイヤ」に分解することは、低エントロピを特徴とする情報源の異なるモデルの定義を可能にするという大きな利点をもたらす。そのようなモデルは、レイヤごとに異ならせることができるだけでなく、各レイヤ内においても異ならせることができる。この構造化により、データ又はメタデータ及びそれらの一部の各クラスに対する最も適切な特定の圧縮の利用が可能となり、従来技術のアプローチと比べて符号化効率が大幅に向上する。
３．上記レイヤのアクセスユニット、すなわち、グローバルに利用可能なパラメータ（例えば、デコーダ構成）だけを用いることにより独立して、又は他のアクセスユニットに含まれる情報を用いることにより復号可能なゲノム情報への構造化。レイヤ内における圧縮されたデータがアクセスユニットに含まれるデータブロックに分割される場合、低エントロピを特徴とする異なるモデルの情報源を定義することができる。
４．ゲノム解析アプリケーションに使用されるデータの任意の関連サブセットが適切なインタフェースを介して効率的かつ選択的にアクセス可能であるように、情報が構造化される。これらの機能により、データへのアクセスが速くなるとともに、より効率的な処理が可能となる。マスターインデックステーブル及びローカルインデックステーブルにより、圧縮データの全容量を復号することなく、符号化された（すなわち圧縮された）データのレイヤにより運ばれる情報への選択的なアクセスが可能となる。さらに、全てのレイヤを復号する必要のない、意味的に関連付けられたデータ及び／又はメタデータレイヤのサブセットの任意の可能な組み合わせへの選択的なアクセスを可能にするため、種々のデータレイヤの間の関連付けメカニズムが指定される。
５．マスターインデックステーブル及びアクセスユニットの共同ストレージ。

請求項１の特徴は、以下を提供することにより、従来技術の解決方法の問題を解消する。
ゲノムファイルフォーマットでゲノム配列データの表示を保存するための方法であって、前記ゲノム配列データは、ヌクレオチド配列のリードを含み、前記リードを一つ又は複数の参照配列に対して整列させ、整列したリードを生成するステップと、前記一つ又は複数の参照配列との一致の精度に応じて、前記整列したリードを分類し、整列したリードのクラスを生成するステップと、シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップと、シンタックス要素の前記レイヤをヘッダ情報で構築し、連続アクセスユニットを形成するステップと、マスターインデックステーブルを作成するステップであって、各クラスの整列したリードについて１つのセクションを含み、各クラスのデータの各アクセスユニットにおける第１のリードの参照配列にマッピング位置を含む、マスターインデックステーブル作成ステップと、前記マスターインデックステーブル及び前記アクセスユニットデータを一緒に保存するステップと、を含む、方法。

上記ライフサイクルの説明で述べたように、ゲノム配列データの各データタイプのための異なる別々のファイルの代わりに、インデックステーブル及び上記ゲノム配列データの表示を一緒に保存することによって、多くの利点が直ちに明らかになる。具体的には以下の通りである：
・ゲノム配列データ処理の中間段階の結果は、異なるファイルフォーマットに変換する必要なく、既存のデータに増分的に追加することができる。例えば、既存のファイルフォーマットを変更する必要なく、未加工データにアライメント情報を追加することができる。増分更新により既存の整列した配列データにバリアントの呼び出し結果を含めることができる。
・ゲノム配列データは、クエリーの基準に一致しないファイル全体又はその領域にアクセスする必要なしに、特定の特徴に従って読み出される。例えば、クエリーは、選択的にアクセスするように実行され得る：
・・一つ又は複数の参照ゲノムにおいて完全に一致する配列リード
・・実際のヌクレオチド又はアミノ酸記号の代わりに「Ｎ」の記号が存在する不一致だけを含む配列リード
・・一つ又は複数のゲノムに関して、記号の置換の形で任意のタイプの不一致を含む配列リード
・・不一致及び挿入又は欠失（インデル）を含む配列リード
・・不一致、挿入又は欠失（インデル）及び一つ又は複数の参照ゲノムに関してソフトクリップされた記号を含む配列リード
・・考慮される参照ゲノムに関してマッピングすることができない配列リード
・・指定された深さの閾値の間に存在する全一塩基多型（ＳＮＰｓ）
・・全キメラ配列リード
・・指定された閾値を超える品質スコアを有する全配列リード
・・指定された一連の配列リードに対応する全メタデータ
参照配列との一致の信頼度に応じて整列したリードを分類することによって、アライメントの結果に関する基準に従って符号化されたデータへの選択的アクセスが実現する。
分類された整列したリードをシンタックス要素のレイヤとして符号化することによって、レイヤによって運ばれるデータ又はメタデータの特定の特徴及びその統計的特性により符号化を適合させることができる。
連続したアクセスユニットにおいてヘッダ情報を用いてシンタックス要素のレイヤを構造化することによって、データの性質に応じて、符号化、保存及び伝送を適合させることができる。例えば、エントロピの最小化の観点から、各データレイヤに最も効率的なソースモデルを使用するように、アクセスユニットごとに符号化を適合させることができる。
開示した一態様によれば、ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する方法であって、前記ゲノムファイルは、本開示の原理により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、前記方法は、抽出するリードのタイプを特定するユーザ入力を受けるステップと、ゲノムファイルから前記マスターインデックステーブルを読み出すステップと、抽出するリードのタイプに対応する前記アクセスユニットを読み出すステップと、一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列のリードを再構築するステップと、を含む方法。

さらに本発明は、ゲノムシークエンシング装置を開示する。ゲノムシークエンシング装置は、生体サンプルからヌクレオチド配列のリードを出力するように構成されたゲノムシークエンシングユニットと、リードを一つ又は複数の参照配列に対して整列させ、整列したリードを生成するように構成されたアライメントユニットと、一つ又は複数の参照配列との一致の精度に応じて、整列したリードを分類し、整列したリードのクラスを生成するように構成された分類ユニットと、シンタックス要素のレイヤとして前記分類された整列したリードを符号化するように構成された符号化ユニットと、シンタックス要素のレイヤをヘッダ情報で構築し、連続アクセスユニットを形成するように構成された再分割ユニットと、マスターインデックステーブルを作成するように構成されたインデックステーブル処理ユニットであって、各クラスの整列したリードについて１つのセクションを含み、各クラスのデータの各アクセスユニットにおける第１のリードの一つ又は複数の参照配列にマッピング位置を含む、インデックステーブル処理ユニットと、マスターインデックステーブル及び前記アクセスユニットデータを一緒に保存するように構成されたストレージユニットと、を備える。
開示する一態様によれば、ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する抽出器であって、ゲノムファイルは、本開示の原理により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、抽出器は、抽出するリードのタイプを特定する入力を受けるように構成されたユーザ入力手段と、ゲノムファイルからマスターインデックステーブルを読み出すように構成された読み出し手段と、抽出するリードのタイプに対応するアクセスユニットを読み出すように構成された読み出し手段と、一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列のリードを再構築するように構成された再構築手段と、を備える。

開示する一態様によれば、デジタル処理装置は、直前の段落に記載した方法を実行するようにプログラムされる。開示する他の態様によれば、非一時的記憶媒体は、デジタル処理装置によってアクセスされ、前段落に記載された方法を実行するためにデジタル処理装置によって実行可能な命令を保存する。

開示する他の態様によれば、非一時的な記憶媒体は、デジタルプロセッサによって読み取り可能であり、バイオインフォマティクス（生命情報科学）の文字セットを含むゲノム又はプロテオーム文字列として表されるゲノム又はプロテオームデータを処理するためのソフトウェアを保存する。ここで、ゲノム又はプロテオミクスデータの各塩基又はペプチドは、前段落に記載されたフォーマットで表される。一実施例では、ソフトウェアは、デジタル信号処理変換を用いてゲノム又はプロテオームデータを処理する。

典型的なゲノム情報ライフサイクルのブロック図である。部分的又は完全なゲノムを再構築するために配列を整列させる概念を示した図である。ゲノム処理パイプラインにおいて用いられるファイルフォーマット間の関係を簡潔に示した概念図である。参照配列にマッピングされたリードペアを示す図である。本開示の原理によるアクセスユニットの例を示す図である。データブロックにより構成されたヘッダ及びレイヤを含むアクセスを示す図である。ゲノム「データパケット」、「ブロック」、アクセスユニット、レイヤ及びストリームリードクラス間の関係を示す図である。各アクセスユニットに含まれる第１のリードのマッピング遺伝子座のベクトルを有するマスターインデックステーブルを示す図である。メインヘッダの一般的な構造及びクラスＰの各ｐｏｓＡＵにおける第１のリードのマッピング位置を示すＭＩＴの部分的な表示を示す図である。ＭＩＴにおける第２のタイプのデータを示す図である。Ｔ１ｐベクトルに含まれる値を使用してアクセスされる、位置１５０，０００と２５０，０００との間において参照配列２にマッピングされたクラスＰのリードを含むアクセスユニットを示す図である。ＭリードをＰリードに変換することができる参照配列の改変を示す図である。本発明の原理によるゲノム情報ライフサイクルを示すブロック図である。本発明の原理による配列リード抽出器を示す図である。本発明の原理によるゲノムエンコーダ２０１０を示す図である。本発明の原理によるゲノムデコーダ２１８を示す図である。

分類及び配列リード
シークエンシング装置により生成された配列リードは、一つ又は複数の参照配列（リファレンスシークエンス）に対するアライメントの結果に従い、開示の発明によって５つの異なる「クラス」に分類される。
参照配列に関してヌクレオチドのＤＮＡ配列を整列させるとき、５つの結果が生じ得る。
１．参照配列における領域が、エラーなく配列リードと一致することが判明する場合（完全マッピング）。そのようなヌクレオチドの配列は、「完全一致リード」と呼ばれるか、あるいは「クラスＰ」と表される。
２．参照配列における領域が、シークエンシング装置が塩基（又はヌクレオチド）を呼び出せなかった、多数の位置によって構成される多数の不一致を含む配列リードと一致することが判明する場合。そのような不一致は「Ｎ」で示される。そのような配列は「Ｎミスマッチリード」又は「クラスＮ」と表される。
３．参照配列における領域が、シークエンシング装置が塩基（又はヌクレオチド）を呼び出せなかったか、あるいは参照ゲノムにおいて報告されたものとは異なる塩基が呼び出された、多数の位置によって構成される多数の不一致を含む配列リードと一致することが判明する場合。そのようなタイプの不一致は、一塩基変異（ＳＮＶ）又は一塩基多型（ＳＮＰ）と呼ばれる。この配列は、「Ｍミスマッチリード」又は「クラスＭ」と表される。
４．第４のクラスは、クラスＭと同じ不一致及び挿入又は欠失（インデルともいう）の存在を含むミスマッチのタイプを表すシークエンシングリードにより構成される。挿入は、リファレンスには存在しないがリード配列に存在する一つ又は複数のヌクレオチドの配列によって表される。挿入された配列が配列のエッジにある場合、「ソフトクリップ」と呼ばれる（すなわち、「ハードクリップされた」ヌクレオチドと対照的なものであって、ヌクレオチドがリファレンスと一致していないが、整列したリードに保持される）。欠失は、リファレンスに対して整列したリードにおける「穴」（欠落したヌクレオチド）である。そのような配列は、「Ｉミスマッチリード」又は「クラスＩ」と表される。
５．第５のクラスは、特定されたアライメント制約に従って参照ゲノムにおける任意の有効なマッピングを見出した全てのリードを含む。そのような配列は、アンマップ（マッピングされていない）と呼ばれ、「クラスＵ」に属する。
マッピングされていないリードは、デノボアセンブリアルゴリズムを使用して単一の配列にアセンブルされ得る。新しい配列が作成されると、それに対してマッピングされていないリードがさらにマッピングされ、４つのクラスＰ、Ｎ、Ｍ、Ｉのいずれかに分類され得る。

レイヤへのゲノム情報の分解
リードの分類がクラスの定義を用いて完了すると、更なる処理の本質は、所与の参照配列にマッピングされて表される場合、ＤＮＡリード配列の再構築を可能にする残りの情報を表す一連の別個のシンタックス要素を定義することにある。所与の参照配列を参照するＤＮＡセグメントは、以下によって完全に表現することができる。
・参照ゲノムにおける開始位置（ｐｏｓ）。
・リードがリファレンスから逆相補として見なす必要があるときのフラグシグナリング（ｒｃｏｍｐ）。
・ペアになったリードの場合、メイトペアへの距離（ｐａｉｒ）。
・シークエンシング技術が可変長リードを生成する場合、リード長の値。一定リード長の場合、各リードに関連付けられたリード長は明らかに省くことができ、リード長をメインファイルヘッダに保存することができる。
・リードの特定の特性を記載する追加のフラグ（重複リード、ペアをなす第１及び第２のリードなど）。
・各不一致について：
・不一致の位置（クラスＮについてはｎｍｉｓ、クラスＭについてはｓｎｐｐ、クラスＩについてはｉｎｄｐ）
・不一致のタイプ（クラスＮには存在せず、クラスＭではｓｎｐｔ、クラスＩではｉｎｄｔ）
・存在する場合、オプションでソフトクリップされたヌクレオチドのストリング（クラスＩではｉｎｄｃ）。
この分類は、ゲノム配列リードを単意で表すのに使用することができる記述子（シンタックス要素）のグループを作成する。以下の表において、整列したリードの各クラスに必要なシンタックス要素をまとめる。

クラスＰに属するリードは、メイトペア、いくつかのフラグ及びリード長をもたらすシークエンシング技術によって得られた場合、位置、逆相補情報、及びメイト間の距離のみによって特徴づけられるとともに完全に再構築され得る。
図４は、（イルミナ株式会社から利用可能な最も一般的なシークエンシング技術に従って）リードがどのようにペアとして結合され、参照配列上にマッピングされ得るかを示す。参照配列上にマッピングされたリードペアは、同種の記述子の多数のレイヤに符号化される（すなわち、位置、１ペアにおけるリード間の距離、不一致など）。
レイヤは、参照配列上にマッピングされたリードを一意に識別するために必要な多数の要素のうちの１つに関する記述子のベクトルとして定義される。以下は記述子のベクトルをそれぞれ運ぶレイヤの例である。
・リード位置レイヤ
・逆相補レイヤ
・ペアリング情報レイヤ
・不一致位置レイヤ
・不一致型レイヤ
・インデルレイヤ
・クリップされたベースレイヤ
・リード長レイヤ（可変リード長の場合のみ存在）
・ＢＡＭフラグレイヤ

データブロック、アクセスユニット及びゲノムデータレイヤ
本発明によりさらに開示するデータ構造は、以下の概念に基づく：
データブロックは、レイヤを構成する同じタイプ（例えば、位置、距離、逆相補フラグ、不一致の位置及びタイプ）の一連の記述子ベクトル要素として定義される。１つのレイヤは、通常、多数のデータブロックにより構成される。データブロックは、通信チャネル要件に従って通常規定されるサイズを有する伝送ユニットからなるゲノムデータパケットに分割され得る。そのような分割機能は、通常のネットワーク通信プロトコルを使用して転送効率を実現するために望ましい。
アクセスユニットは、グローバルに利用可能なデータ（例えば、デコーダの形態）のみを使用するか、あるいは他のアクセスユニットに含まれる情報を使用することによって、他のアクセスユニットから独立して完全に復号化できるゲノムデータのサブセットとして定義される。アクセスユニットは、ヘッダにより、及び異なるレイヤの多重化されたデータブロックの結果により構成される。同じタイプの複数のパケットは、１つのブロックにカプセル化され、複数のブロックが１つのアクセスユニットにおいて多重化される。これらの概念を図５に示す。図６は、ヘッダ及び同じ性質を有する一つ又は複数のレイヤのデータブロックからなるアクセスユニットを示す。図６は、図５に示した一般的なアクセスユニット構造の一例を示しており、当該構造のデータブロックは以下の通りである。
・レイヤ１のデータブロックは、参照配列上のリードの位置に関する情報を含む。
・レイヤ２のデータブロックは、リードの逆相補に関する情報を含む。
・レイヤ３のデータブロックは、リードペアリング情報に関する情報を含む。
・レイヤ４のデータブロックは、リード長に関する情報を含む。
ゲノムデータレイヤは、同一タイプである一連のゲノムデータブロック符号化データの集合として定義される（例えば、参照ゲノムにおいて完全に一致するリードの位置ブロックは同一のレイヤにおいて符号化される）。
ゲノムデータストリームは、ヘッダに付加的なサービスデータを含むゲノムデータパケットのペイロードとして符号化されたゲノムデータが運ばれる、パケット化バージョンのゲノムデータレイヤである。３つのゲノムデータレイヤの３つのゲノムデータストリームへのパケット化の例については図７を参照されたい。
ゲノムデータの多重化（マルチプレックス）は、ゲノムシークエンシング、解析又は処理を含む一つ又は複数のプロセスに関するゲノムデータを運ぶために使用されるゲノムアクセスユニットの配列として定義される。図７は、アクセスユニットにおいて分解された３つのゲノムデータストリームを運ぶゲノムマルチプレックス間の関係を示す概略図である。アクセスユニットは、３つのストリームに属するデータブロックを、カプセル化するとともに、伝送ネットワークに送信されるようにゲノムパケットに分割する。

ソースモデル、エントロピ符号器及び符号化モード
本発明に開示する各レイヤのゲノムデータ構造について、レイヤが運ぶデータ又はメタデータの具体的な特徴及びその統計的性質に応じて、異なる符号化アルゴリズムを採用してもよい。「符号化アルゴリズム」は、記述子の特定の「ソースモデル」と特定の「エントロピコーダ」との関連付けを意図したものでなければならない。特定の「ソースモデル」は、ソースエントロピの最小化に関してデータの最も効率的な符号化を得るために特定され選択され得る。エントロピコーダの選択は、符号化効率の検討及び／又は確率分布の特徴及び関連する実装上の問題に左右される。特定の符号化アルゴリズムの各々の選択は、アクセスユニットに含まれる「レイヤ」全体又は全「データブロック」に適用される「符号化モード」と呼ばれる。符号化モードに関する各「ソースモデル」の特徴は以下の通りである：
・各ソース（例えば、リード位置、リードペアリング情報、参照配列などに対する不一致）から発せられたシンタックス要素の定義
・関連する確率モデルの定義
・関連するエントロピコーダの定義
各データレイヤについて、１つのアクセスユニットに採用されるソースモデルは、同じデータレイヤについて他のアクセスユニットにより使用されるソースモデルから独立している。これにより、各アクセスユニットは、エントロピの最小化の観点から各データレイヤについて最も効率的なソースモデルを使用することが可能となる。

テーブル
マスターインデックステーブル
整列したデータの特定の領域への選択的なアクセスをサポートするため、本明細書に記載したデータ構造は、マスターインデックステーブル（ＭＩＴ）と呼ばれるインデックスツールを実装する。これは２つのクラスのデータを含む多次元配列である：
１．使用される参照配列に特定のリードが位置する遺伝子座。ＭＩＴに含まれるこれらの値は、各ｐｏｓアクセスユニットにおける第１のリードのマッピング位置であり、これにより、各アクセスユニットに対する非連続的なアクセスがサポートされる。ＭＩＴのこれらのセクションは、データの各クラス（Ｐ、Ｎ、Ｍ及びＩ）ごと及び各参照配列ごとに１つのセクションを含む。
２．上記ポイント１で述べた位置ベクトルにマッピング位置が保存されるものに続く、リードのブロックを再構成するのに必要なデータを含むアクセスユニットへのポインタ。ポインタの各ベクトルは、ローカルインデックステーブルと呼ばれる。

アクセスユニットマッピング位置
図８は、各クラスのデータの（例えば複数の）各アクセスユニットの参照配列におけるマッピング位置を含む４つのベクトルを強調してＭＩＴを概略的に示す。
ＭＩＴは、符号化されたデータのメインヘッダに含まれる。図９は、メインヘッダの一般的な構造、及びクラスＰの符号化リードに対するＭＩＴベクトルの例を示す。
図９に示したＭＩＴに含まれる値は、圧縮されたドメインにおける関心領域（及び対応するアクセスユニット）に直接アクセスするために使用される。
例えば、図９を参照すると、アナリストが、参照番号２における位置１５０，０００と２５０，０００との間の領域でマッピングされた完全に一致するリードへのアクセスを要求した場合、復号化アプリケーションは、ＭＩＴにおけるクラスＰ位置ベクトル及び第２の参照をスキップし、ｋ１＜１５０，０００及びｋ２＞２５０，０００となるように２つの値ｋ１及びｋ２を探す。図９の例では、これは、クラスＰのマッピング位置を参照するＭＩＴベクトルの２番目のブロック（２番目の参照）の位置３，４になる。次のセクションで説明するように、次いで、これらの戻り値は、ｐｏｓレイヤから適切なアクセスユニットの位置を取得するために、復号化アプリケーションにより使用される。

アクセスユニットポインタ
ＭＩＴ（図８）の残りのベクトルに含まれる第２のタイプのデータは、符号化されたビットストリームにおける各アクセスユニットの物理的位置へのポインタのベクトルからなる。各ベクトルは、その範囲が符号化された情報の一様なクラスに限定されるので、ローカルインデックステーブルと呼ばれる。
４つのクラスのマッピングされたリード（Ｐ、Ｎ、Ｍ、Ｉ）の各々について、符号化されたリード（ｐａｉｒｓ）を再構築するため、いくつかのタイプのアクセスユニットが必要とされる。前述のように、各クラスのデータに関する特定のタイプのアクセスユニットは、一つ又は複数の参照配列に関して、各クラスにおけるリードに適用されたマッチング関数の結果に依存する。
図９の前記例では、参照配列２において整列したリードの領域１５０，０００〜２５０，０００にアクセスするため、復号化アプリケーションはＭＩＴにおけるクラスＰの位置ベクトルから位置３，４を読み出した（検索した）。これらの値は、（この場合は２番目の）ＭＩＴの対応するアクセスユニットベクトルの３番目及び４番目の要素にアクセスするため、復号化プロセスによって使用されなければならない。図１１に示した例では、メインヘッダに含まれるトータルアクセスユニットカウンタは、参照１に関するアクセスユニットの位置をスキップするために使用される（この例では４）。したがって、符号化されたストリームにおける要求されたアクセスユニットの物理的位置を含むインデックスは、以下のように計算される：
要求されたＡＵの位置＝スキップする参照１のＡＵ＋ＭＩＴを用いて読み出した位置
すなわち、
最初のＡＵ位置：４＋３＝７
最後のＡＵ位置：４＋４＝８
これは、位置１５０，０００と２５０，０００との間で参照配列２にマッピングされた関心領域（クラスＰリードが、マスターインデックステーブルの７列目及び８列目、列Ｔ１ｐ（タイプｐのタイプ１アクセスユニット）に保存されるポインタが指すアクセスユニットに含まれる、ことを意味する。
図１１は、ＭＩＴ（例えば、クラスＰｐｏｓ）の１つのベクトルの要素がどのように１つのＬＩＴ（図１１の例におけるタイプ１ｐｏｓベクトル）の要素を指すかを図示する。

参照配列の適合
クラスＮ、Ｍ、Ｉについて符号化された不一致は、「修正されたゲノム」を生成するために使用され、「適合された」ゲノムＲ_１に関してＮ、Ｍ又はＩレイヤ（第１の参照ゲノム、Ｒ_０に関して）においてｐリードとして再符号化されたリードに使用され得る。

図１２は、参照配列１（ＲＳ１）に対して不一致を含むリード（Ｍリード）が、不一致の位置を修正することによりＲＳ１から得られる参照配列２（ＲＳ２）に対して完全に一致したリード（Ｐリード）に変換し得るかを示す図である。この変換は以下のように表すことができる。
ＲＳ２＝Ａ（ＲＳ１）
ＲＳ１からＲＳ２への変換Ａの表示がＭリードに存在する不一致の表示についてより少ないビットを必要とする場合、この符号化方法は、より小さい情報エントロピ及びより良好な圧縮をもたらす。
ある状況では、参照ゲノムにおける一つ又は複数の修正は、一連のＮ、Ｍ又はＩリードをＰリードに変換することにより全体の情報エントロピを減少させることができる。

図１３を参照して本発明の原理によるシステムの構造を説明する。ソースでは、一つ又は複数のゲノムシークエンシングデバイス１３０及び／又はアプリケーションは、以下を含むフォーマットでゲノム情報１３１を生成して表示する。
・核酸を表す記号の一つ又は複数の配列
・ゲノム配列ごとに一意の識別子
・記号ごとの任意の品質値
・任意のメタデータ
・生成されたゲノム配列をさらに処理するために使用される一つ又は複数の任意的な参照配列

リードアライメントユニット１３２は、未加工配列データを受け、「デノボ」アセンブリとして知られる方法を適用して重複するプレフィクス（接頭辞）及びサフィックス（接頭辞）を探すことによって、当該データをより長い配列にアセンブルするか、あるいは、前記データを一つ又は複数の利用可能な参照配列上に整列させる。

リード分類ユニット１３４は、整列したゲノム配列データ１３３を受け、以下のものに関して各配列にマッチング関数を適用する。
・一つ又は複数の利用可能な参照配列、又は
・アライメント処理中に構築された内部参照（「デノボ」アセンブリの場合）

レイヤエンコードユニット１３６は、分類ユニット１３４により生成されたリードクラス１３５を受けて、シンタックス要素１３７のレイヤを生成する。

ヘッダ及びアクセスユニットエンコードユニット１３８は、アクセスユニットにおけるシンタックス要素レイヤ１３７をカプセル化し、各アクセスユニットにヘッダを加える。

マスターインデックステーブルエンコードユニット１３１０は、受け取ったアクセスユニット１３９へのポインタのインデックスを作成する。

圧縮ユニット１３１２は、使用するストレージスペースを削減するため、前記表示の出力をよりコンパクトな（圧縮された）フォーマット１３１５に変換する。

ローカル又はリモート記憶デバイス１３１６は、圧縮された情報１３１５を保存する。

復元ユニット１３１３は、ゲノム情報１３１に相当する復元されたデータ１３１７を読み出すため、圧縮された情報１３１５を復元する。

さらに、解析ユニット１３１４は、包含されるメタデータを増分的に更新することによりゲノム情報１３１７を処理する。

一つ又は複数のゲノムシークエンシングデバイス又はアプリケーション１３１８は、既存のゲノム情報を再符号化することなく、さらなるゲノムシークエンシングプロセスの結果を加えることにより既存のゲノムデータにさらなる情報を加え、更新されたデータ１３１９を生成する。新たに生成されたゲノムデータを既存のデータと結合する前に、新たに生成されたゲノムデータに対してアライメント及び圧縮を行う。

前述の実施例における複数の利点のうちの１つは、データにアクセスする必要があるゲノム解析装置及びアプリケーションが、一つ又は複数のインデックステーブルを使用することにより必要な情報を照会及び検索する（読み出す）ことができることである。

本発明の原理による配列リード抽出器１４０を図１４に示す。

抽出器１４０は、本開示によるゲノムファイルフォーマットに保存された任意の配列リードに対してランダムにアクセスするため、本開示において説明したマスターインデックステーブを利用する。抽出器１４０は、ユーザ入力から読み出される特定のデータに関する情報１４２を受けるユーザ入力手段１４１を備える。例えば、ユーザは以下を特定することができる：
ａ．以下に関するゲノム領域：
ｉ．参照ゲノムにおける絶対位置の開始及び終了
ｉｉ．１つの全体参照配列（例えば、染色体）
ｂ．以下のような、１つの特定のタイプの符号化された配列リード：
ｉ．一つ又は複数の参照配列において完全に一致する配列リード
ｉｉ．一つ又は複数の参照配列に関して正確にＮ個の不一致を示す配列リード
ｉｉｉ．一つ又は複数の参照配列に関して、特定された閾値を超えるか又は閾値を超えないいくつかの不一致を示す配列リード
ｉｖ．参照配列に関して挿入及び削除を示す配列リード
図１４のＭＩＴ抽出器１４３は、図９に示すように、含まれる情報にアクセスするためのゲノムファイルのメインヘッダをパーシング（解析）する：
ｃ．一意の識別子
ｄ．使用するシンタックスのバージョン
ｅ．メインヘッダのバイト単位でのサイズ
ｆ．配列リードの復号化に用いる参照配列の数
ｇ．ストリームに含まれるデータブロックの数
ｈ．参照識別子
ｉ．マスターインデックステーブル
ＭＩＴパーサー及びＡＵ抽出器１４５は、以下のマスターインデックステーブルの情報を利用して、要求されたアクセスユニットを読み出す。
ｊ．各アクセスユニットにおける第１のリードの参照ゲノムにおける位置のベクトル。図９は、符号化デバイスが、どのようにそのような位置を読み取り、どのアクセスユニットに要求された領域内でマッピングされた符号化されたリードが含まれるかを見つけ出す方法を示す。
ｋ．各々の符号化されたレイヤのローカルインデックステーブル。これらのベクトルは、ユーザに要求されたゲノム領域にマッピングされた配列リードを含む、ステップａで識別されたアクセスユニットの物理的位置を読み出すために用いられる。
ｌ．ローカルインデックステーブルは、各クラスのデータごとに定義され、したがって、抽出器はユーザが要求した配列リードを参照しているクラスだけを抽出する。例えば、完全に一致するリードだけを要求する場合、抽出器は、図８に示すように、クラスＰに関するＬＩＴのみにアクセスする。
読み出されたアクセスユニット及びゲノムビットストリームにおいて符号化された又は抽出器において利用可能な一つ又は複数の参照配列において見つかった情報を用いることにより、リード再構築器１４７は、オリジナルの配列リードを再構築することができる。
図１５は、本発明の原理による符号化装置２０７を示す。符号化装置は、図１３のシステムアーキテクチャの圧縮の側面をさらに明確にする。しかし、メタデータ及び構造化情報なしに圧縮されたストリームを生成する、図１５のエンコーダではマスターインデックステーブル及びアクセスユニットの作成を省略する。符号化装置２０７は、例えば、ゲノムシークエンシング装置２００によって生成された未加工配列データ２０９を入力として受け取る。ゲノムシークエンシング装置２００は、当業界では周知であり、例えば、イルミナ社製のＨｉＳｅｑ２５００又はサーモフィッシャー社製のイオントレント（ＩｏｎＴｏｒｒｅｎｔ）デバイス等である。未加工配列データ２０９は、アライナユニット２０１に供給され、アライナユニット２０１は、リードを参照配列に整列させることにより符号化のための配列を準備する。代替例では、デノボアセンブラ２０２は、プレフィクス及びサフィックスを探すことにより、利用可能なリードから参照配列を生成するために使用され得る。これにより、より長いセグメント（「コンティグ」という）がリードからアセンブルされ得る。デノボアセンブラ２０２により処理された後、リードは得られたより長い配列にマッピングされ得る。次いで、整列した配列はデータ分類モジュール２０４により分類される。その後、データクラス２０８がレイヤエンコーダ２０５−２０７に供給される。次いで、ゲノムレイヤ２０１１は、レイヤが運ぶデータ又はメタデータの統計的性質に応じてレイヤを符号化する算術エンコーダ２０１２−２０１４に供給される。その結果がゲノムストリーム２０１５である。
図１６は、対応する復号装置２１８を示す。復号装置２１８は、多重化されたゲノムビットストリーム２１１０をネットワーク又はストレージエレメントから受け取る。ゲノムビットストリーム２１１０は、別個のストリーム２１１を生成するためにデマルチプレクサー２１０に供給され、ストリーム２１１は、ゲノムレイヤ２１５を生成するためにエントロピデコーダ２１２−２１４に供給される。抽出されたゲノムレイヤは、さらにレイヤをクラスのデータに復号するため、レイヤデコーダ２１６−２１７に供給される。さらに、クラスデコーダ２１９は、ゲノム記述子を処理し、配列の圧縮されていないリードを生成するため結果を結合して、さらに当業界において周知のフォーマット、例えば、テキストファイル又はＺＩＰ圧縮されたファイル、あるいはＦＡＳＴＱ又はＳＡＭ／ＢＡＭファイルに保存される。クラスデコーダ２１９は、一つ又は複数のゲノムストリームにより運ばれるオリジナルの参照配列における情報を活用することにより、オリジナルのゲノム配列を再構築することができる。参照配列がゲノムストリームにより転送されない場合、参照配列はデコード側で利用可能であり、かつクラスデコーダによってアクセス可能でなければならない。

一つ又は複数の例では、本明細書に開示した本発明の技術は、ハードウェア、ソフトウェア、ファームウェア又は任意の組み合わせで実装され得る。ソフトウェアに実装される場合、前記技術はコンピュータに保存され、ハードウェア処理装置によって実行されてもよい。ハードウェア処理装置は、一つ又は複数のプロセッサ、デジタル信号プロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路又は他の個別論理回路を含んでいてもよい。
本開示の技術は、携帯電話、デスクトップコンピュータ、サーバ、タブレットなどを含む様々なデバイス又は装置に実装することができる。

他の利点は特許請求の範囲に記載される。

Claims

ゲノムファイルフォーマットでゲノム配列データの表示を保存するためのコンピュータ実装方法であって、前記ゲノム配列データは、ヌクレオチド配列のリードを含み、
前記リードを一つ又は複数の参照配列に対して整列させ、これにより整列したリードを生成するステップと、
前記整列したリードを分類するステップであって、
前記一つ又は複数の参照配列に対する完全なマッピングが発見されたか否か、
前記一つ又は複数の参照配列に対する不一致の数、
記号の置換の存在、
前記一つ又は複数の参照配列に関して前記整列したリードにおける挿入又は削除及びソフトクリップされた記号の存在、
マッピングされていないリードの存在、
に応じて前記整列したリードを分類し、これにより整列したリードのクラスを生成する、ステップと、
シンタックス要素のレイヤとして分類された整列したリードを符号化するステップであって、前記シンタックス要素のレイヤは、前記分類された整列したリードを一意に識別する同種の複数の記述子を含む、ステップと、
前記シンタックス要素のレイヤをヘッダ情報とともに構築し、これにより連続アクセスユニットを形成するステップと、
マスターインデックステーブルを作成するステップであって、前記マスターインデックステーブルは、各クラスの整列したリードについて１つのセクションを含むとともに、各クラスのデータの各アクセスユニットにおける第１のリードの前記一つ又は複数の参照配列のマッピング位置を含む、ステップと、
前記マスターインデックステーブル及びアクセスユニットデータを一緒に保存するステップと、
を含む、方法。
前記マスターインデックステーブルは、各々の後続のアクセスユニットの物理的位置に対するポインタのベクトルをさらに含む、ことを特徴とする請求項１に記載の方法。
前記マスターインデックステーブルは、各々の参照配列について１つのセクションをさらに含む、ことを特徴とする請求項１に記載の方法。
シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップは、前記レイヤにより運ばれる同種のデータに従って適合される、ことを特徴とする請求項１に記載の方法。
シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップは、前記レイヤにより運ばれる前記同種のデータの統計的特性に従ってさらに適合される、ことを特徴とする請求項４に記載の方法。
シンタックス要素のレイヤとして前記分類された整列したリードを符号化するステップは、前記同種のデータのソースモデルを特定のエントロピコーダと関連付ける、ことを特徴とする請求項５に記載の方法。
１つのアクセスユニットに採用される前記ソースモデルは、同一のデータレイヤについて他のアクセスユニットに使用されるソースモデルから独立している、ことを特徴とする請求項６に記載の方法。
ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する方法であって、
前記ゲノムファイルは、請求項１に記載の方法により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、
前記方法は、
抽出するリードのタイプを特定するユーザ入力を受けるステップと、
前記ゲノムファイルから前記マスターインデックステーブルを読み出すステップと、
前記抽出するリードのタイプに対応する前記アクセスユニットを読み出すステップと、
一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列のリードを再構築するステップと、
を含む、方法。
前記ゲノムファイルは一つ又は複数の参照配列をさらに含む、ことを特徴とする請求項８に記載の方法。
生体サンプルからヌクレオチド１３１の配列のリードを出力するように構成されたゲノムシークエンシングユニット１３０と、
前記リードを一つ又は複数の参照配列に対して整列させ、これにより整列したリード１３３を生成するように構成されたアライメントユニット１３２と、
分類ユニット１３４であって、
前記一つ又は複数の参照配列に対する完全なマッピングが発見されたか否か、
前記一つ又は複数の参照配列に対する不一致の数、
記号の置換の存在、
前記一つ又は複数の参照配列に関して前記整列したリードにおける挿入又は削除及びソフトクリップされた記号の存在、
マッピングされていないリードの存在、
前記一つ又は複数の参照配列、
に応じて前記整列したリードを分類し、これにより整列したリード１３５のクラスを生成するように構成された分類ユニット１３４と、
シンタックス要素１３７のレイヤとして、分類された整列したリードを符号化するように構成された符号化ユニット１３６であって、前記シンタックス要素のレイヤは、前記分類された整列したリードを一意に識別する同種の複数の記述子を含む、符号化ユニット１３６と、
前記シンタックス要素のレイヤをヘッダ情報とともに構築し、これにより連続アクセスユニット１３９を形成するように構成された再分割ユニット１３８と、
マスターインデックステーブルを作成するように構成されたインデックステーブル処理ユニット１３１０であって、各クラスの整列したリードについて１つのセクションを含み、各クラスのデータの各アクセスユニットにおける第１のリードの前記参照配列にマッピング位置を含む、インデックステーブル処理ユニット１３１０と、
前記マスターインデックステーブル及びアクセスユニットデータ１３１１を一緒に保存するように構成されたストレージユニット１３１２−１３１６と、
を備える、ゲノムシークエンシング装置。
前記マスターインデックステーブルは、各々の後続のアクセスユニットの物理的位置に対するポインタのベクトルをさらに含む、ことを特徴とする請求項１０に記載のゲノムシークエンシング装置。
シンタックス要素のレイヤとして前記分類された整列したリードを符号化することは、前記レイヤにより運ばれる同種のデータに従って適合される、ことを特徴とする請求項１０に記載のゲノムシークエンシング装置。
ゲノムファイルに保存されたヌクレオチド配列のリードを抽出する抽出器１４０であって、
前記ゲノムファイルは、請求項１に記載の方法により保存されたマスターインデックステーブル及びアクセスユニットデータを含み、
前記抽出器１４０は、
抽出するリードのタイプを特定する入力パラメータ１４２を受けるように構成されたユーザ入力手段１４１と、
前記ゲノムファイルからマスターインデックステーブル１４４を読み出すように構成された読み出し手段１４３と、
前記抽出するリードのタイプに対応するアクセスユニット１４６を読み出すように構成された読み出し手段１４５と、
一つ又は複数の参照配列における読み出されたアクセスユニットをマッピングするヌクレオチド配列１４８の前記リードを再構築するように構成された再構築手段１４７と、
を備える、抽出器。
複数の命令を含み、コンピューティングデバイスにおける実行に応答して、前記コンピューティングデバイスに請求項１〜９の方法を行わせる機械可読媒体。