JP6949970B2

JP6949970B2 - バイオインフォマティクスデータを送信する方法及びシステム

Info

Publication number: JP6949970B2
Application number: JP2019540490A
Authority: JP
Inventors: ジョルジョゾイア; ダニエーレレンツィ
Original assignee: Genomsys SA
Current assignee: Genomsys SA
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2021-10-13
Anticipated expiration: 2036-10-11
Also published as: BR112019007313A2; CN110178183B; CA3039692A1; EA201990931A1; PE20191059A1; WO2018068830A1; JP2019537170A; CO2019003580A2; EP3526712B1; EP3526712A1; SG11201903174SA; PH12019500795A1; ES2867874T3; WO2018068830A9; KR20190062543A; MX2019004126A; US20200051668A1; CL2019000955A1; CN110178183A; AU2016426572A1

Description

本願は、バイオインフォマティクスデータ、特にゲノム配列データを効率的に記憶、アクセス、送信、及び多重化する新しい方法を提供する。

ゲノム配列データの適切な表現は、ゲノムデータの効率的な処理、記憶、及び伝送を可能にし、ゲノムバリアントコール等の解析用途及び配列データ及びメタデータを処理することにより様々な目的で実行される全ての解析を可能にし、促進するための基本である。今日、ゲノム配列情報は、定義されたボキャブラリからの文字列で表されるヌクレオチド（別名、塩基）の配列の形態で、高スループットシーケンシング（ＨＴＳ）機によって生成されている。

これらのシーケンシング機は、ゲノム又は遺伝子全体を読み出さず、配列リードとして知られるヌクレオチド配列の短いランダムな断片を生成する。

クオリティスコアが、配列リード内の各ヌクレオチドに関連付けられる。そのような数字は、ヌクレオチド配列内の特定の位置における特定のヌクレオチドのリードに機械によって与えられる信頼度を表す。

ＮＧＳ機によって生成されるこの生の配列データは一般に、ＦＡＳＴＱファイル（図１も参照）に記憶される。

シーケンシングプロセスによって得られるヌクレオチドの配列を表す最小のボキャブラリは、ＤＮＡに存在する４種のヌクレオチド、すなわち、アデニン、シトシン、グアニン、及びチミンに加えて、シーケンシング機が十分な信頼度でいかなる塩基もコールできず、したがって、そのような位置における塩基の種類がリードプロセスで未特定のままであることを示す記号Ｎを表す５つの記号｛Ａ，Ｃ，Ｇ，Ｔ，Ｎ｝によって構成される。ＲＮＡでは、チミンはウラシル（Ｕ）で置換される。シーケンシング機によって生成されるヌクレオチド配列は「リード」と呼ばれる。ペアリードの場合、用語「鋳型」が、リードペアが抽出された元の配列を示すのに使用される。配列リードは、数十から最高で数千の範囲の数のヌクレオチドで構成することができる。幾つかの技術は、配列リードをペアで生成し、その場合、各リードは２つのＤＮＡ鎖の一方からのものである。

ゲノム配列分野では、用語「カバレッジ」は、参照ゲノムに対する配列データの冗長性レベルを表すために使用されている。例えば、ヒトゲノム（３２億塩基長）で３０ｘのカバレッジに達するには、シーケンシング機は、参照での各位置が平均で３０回「カバー」されるように、合計で約３０×３２億塩基を生成する。

現況水準での解決策
配列データの最も使用されるゲノム情報表現は、ＦＡＳＴＱ及びＳＡＭファイルフォーマットに基づき、これらのファイルは一般に、元のサイズを低減するために、圧縮された形態で提供される。非アラインメント及びアラインメント配列データの従来のファイルフォーマットであるＦＡＳＴＱ及びＳＡＭはそれぞれ、平文文字によって構成され、したがって、ＬＺ（Ｌｅｍｐｅｌ及びＺｉｖから）方式（周知のｚｉｐ、ｇｚｉｐ等）等の汎用手法を使用することによって圧縮される。ｇｚｉｐ等の汎用圧縮器が使用される場合、圧縮の結果は通常、二進データの１つのブロブである。そのようなモノリシック形態の情報は、特に高スループットシーケンシングの場合、データ量が極めて大きいとき、アーカイブ、転送、及び詳述するのが極めて困難になる。

シーケンシング後、ゲノム情報処理パイプラインの各段は、現実では、生成されたデータの小さな部分のみが、前段と比較して新しいということにも拘わらず、完全に新しいデータ構造（ファイルフォーマット）によって表されるデータを生成する。

図１は、ａｓｓｏｃｉａｔｅｄｆｉｌｅフォーマット表現の表示を用いた典型的なゲノム情報処理パイプラインの主段を示す。

一般に使用されている解決策は幾つかの欠点を呈する：ゲノム情報処理パイプラインの各段で異なるファイルフォーマットが使用されるという点で、データアーカイブが非効率的であり、これは、データの複数の複製を暗に示し、その結果、必要とされる記憶空間が急増する。これは非効率的かつ不必要であり、また、ＨＴＳ機によって生成されるデータ量の増大に耐えられなくなりつつある。これは実際に、利用可能な記憶空間及び生成されるコストの点で重大であり、また、医療でのゲノム解析の恩恵が人口の大部分に達するのを妨げもする。記憶し解析する配列データの指数的増大によって生み出されるＩＴコストの影響は現在、科学界及び医療業界が直面する必要がある主な難題の１つである（ＳｃｏｔｔＤ．Ｋａｈｎ “Ｏｎｔｈｅｆｕｔｕｒｅｏｆｇｅｎｏｍｉｃｄａｔａ”−Ｓｃｉｅｎｃｅ３３１，７２８（２０１１）及びＰａｖｌｉｃｈｉｎ，Ｄ．Ｓ．，Ｗｅｉｓｓｍａｎ，Ｔ．及びＧ．Ｙｏｎａ．２０１３． “Ｔｈｅｈｕｍａｎｇｅｎｏｍｅｃｏｎｔｒａｃｔｓａｇａｉｎ” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２９（１７）：２１９９−２２０２参照）。同時に、幾人かは、選択された数人の個人から多くの人々までゲノム配列をスケーリングしようとする先導者である（ＪｏｓｈＰ．Ｒｏｂｅｒｔｓ “ＭｉｌｌｉｏｎＶｅｔｅｒａｎｓＳｅｑｕｅｎｃｅｄ”−ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ３１，４７０（２０１３）参照）。

ゲノムデータの転送は遅く、非効率的であり、その理由は、現在使用されているデータフォーマットが、処理のために受信側で全体的に転送される必要がある数百ギガバイトのサイズまでのモノリシックファイルに編成されるためである。これは、データの小さなセグメントの解析がファイル全体の転送を必要とし、消費される帯域幅及び待ち時間に関して大きなコストがあることを暗に示す。多くの場合、オンライン転送は、大量のデータの転送には法外であり、データの輸送は、ハードディスクドライブ又はストレージサーバ等の記憶媒体をある場所から別の場所に物理的に移動させることによって実行される。

現況水準の手法を利用する場合に生じるこれらの制約は、本発明によって解消される。情報が、一般に使用される解析アプリケーションによって必要とされる異なるクラスのデータ及びメタデータの部分が、データ全体にアクセスする必要なくしては検索できないように構造化されないため、データの処理は遅く、非効率的である。このことは、特定の解析目的で関連するデータの部分ははるかに小さい場合であっても、各段で、大量のデータにアクセスし、解析し、フィルタリングする必要性により、共通の解析パイプラインを数日又は数週間にわたって実行させる必要があり得、貴重でコストがかかる処理リソースを無駄にすることを暗に示す。

これらの制約は、医療専門家がゲノム解析リポートを適時に取得し、病気の発生に対して即座に対応するのを妨げている。本発明は、このニーズへの解決策を提供する。

本発明によって解決される別の技術的制約がある。

実際に、本発明は、データ及びメタデータの圧縮が最大化され、選択的アクセス等の幾つかの機能及び増分的更新へのサポートが効率的に可能になるようにデータを編成し分割することにより、適切なゲノム配列データ及びメタデータ表現を提供することを目的とする。

本発明の主要態様は、特定のレイヤに構造化されることにより別個に符号化（すなわち、圧縮）される適切なソースモデルによって表現されるデータ及びメタデータのクラスの特定の定義である。既存の現況水準の方法からの本発明の最も重要な達成は、
・各クラスのデータ又はメタデータに効率的なモデルを提供することによって構成される情報ソースエントロピーの低減に起因した圧縮性能の増大、
・任意の更なる処理目的で、圧縮されたデータ及びメタデータの部分への選択的アクセスの実行が可能なこと、
・新しい配列データ及び／又はメタデータ及び／又は新しい解析結果を用いて、符号化されたデータ及びメタデータを増分的に（再符号化の必要なく）更新し追加することが可能なこと、
・シーケンシング又はアラインメントプロセスの終了を待つ必要なく、シーケンシング機又はアラインメントツールによってデータが生成されるとすぐに、効率的データ処理が可能なこと
にある。

本願は、多重化技法と組み合わせた構造化アクセスユニット手法を利用することにより、膨大な量のゲノム配列データを効率的に操作、記憶、送信する問題に対処する方法及びシステムを開示する。

本願は、効率的な圧縮と組み合わせて、ゲノムデータアクセス可能性の機能、データサブセットの効率的な処理、伝送及びストリーミング機能に関連する従来技術による手法の全ての制約を解消する。

今日、ゲノムデータに最も使用されている表現フォーマットは、配列アラインメントマッピング（ＳＡＭ）テキストフォーマット及びそのバイナリに対応するＢＡＭである。ＳＡＭファイルは人間可読のＡＳＣＩＩテキストであり、一方、ＢＡＭはｇｚｉｐのブロックベースのバリアントを採用する。ＢＡＭファイルは索引付けることができ、ランダムアクセスの限られた様相を可能にする。これは、別個のインデックスファイルの作成によってサポートされる。

ＢＡＭフォーマットは、以下の理由により、不良な圧縮性能を特徴とする。
１．ＳＡＭファイルによって伝達される実際のゲノム情報を抽出し、その圧縮に適切なモデルを使用することにフォーカスするのではなく、非効率的で冗長なＳＡＭファイルフォーマットの圧縮にフォーカスしている。
２．各データソース（ゲノム情報自体）の特性を利用するのではなく、ｇｚｉｐ等の汎用テキスト圧縮アルゴリズムを利用している。
３．特定のクラスのゲノムデータへの選択的アクセスを可能にするデータ分類に関連するいかなる概念も有さない。

あまり一般に使用されないが、ＢＡＭよりも効率的なゲノムデータ圧縮へのより高度な手法は、ＣＲＡＭ（ＣＲＡＭ仕様：ｈｔｔｐｓ：／／ｓａｍｔｏｏｌｓ．ｇｉｔｈｕｂ．ｉｏ／ｈｔｓ−ｓｐｅｃｓ／ＣＲＡＭｖ３．ｐｄｆ）である。ＣＲＡＭは、既存の参照に対する差分符号化を採用して、より効率的な圧縮を提供する（部分的にデータソース冗長性を利用する）が、それでもなお、増分的更新、ストリーミングへのサポート、特定のクラスの圧縮データへの選択的アクセス等の特徴を欠く。

ＣＲＡＭは、ＣＲＡＭレコードの概念に頼る。各ＣＲＡＭレコードは、再構築に必要な全ての要素を符号化することにより、１つのマッピングされた又はマッピングされないリードを符号化する。

ＣＲＡＭ手法との本発明の主な違いは以下である。
１．ＣＲＡＭでは、データ索引付けは仕様の範囲外であり（ＣＲＡＭ仕様ｖ３．０のセクション１２参照）、別個のファイルとして実装される。本発明では、データ索引付けは符号化プロセスと統合され、インデックスは符号化ビットストリームに埋め込まれる。
２．ＣＲＡＭでは、全てのコアデータブロックは、任意のタイプのマッピングされたリード（完全に一致するリード、置換のみを有するリード、インデルを有するリード）を含むことができる。本発明では、参照配列に関するマッピングの結果によるリードの分類及びクラス内のリードのグループ化の観念はない。
３．記載される本発明では、各リードの再構築に必要なデータは「レイヤ」と呼ばれる幾つかのデータコンテナに散乱するため、各リードをカプセル化するレコードの観念はない。これにより、特徴を調べるために各リード（のブロック）を復号化する必要なく、特定の生物学的特性を有するリードの組（例えば、置換を有するが、インデルを有さないリード又は完全にマッピングされるリード）により効率的にアクセスすることができる。
４．ＣＲＡＭレコードでは、各タイプのデータは特定のフラグで示される。本発明では、ＣＲＡＭと異なり、これはデータが属する「レイヤ」によって本質的に定義されるため、データを示すフラグの観念はない。これは、使用される記号の数が大幅に低減し、その結果、情報ソースエントロピーが低減し、それにより、より効率的な圧縮に繋がることを暗に示す。これは、異なる「レイヤ」の使用により、エンコーダが、異なる意味を有する各レイヤにわたり同じ記号を再使用することができることに起因する。ＣＲＡＭでは、コンテキストの観念がなく、各ＣＲＡＭレコードは任意のタイプのデータを含むことができるため、各フラグは常に同じ意味を有さなければならない。
５．ＣＲＡＭでは、置換、挿入、欠失は異なるシンタックスに従って表現されるが、本発明は、置換、挿入、及び欠失に１つの英字及び符号化を使用する。これにより、符号化プロセス及び復号化プロセスはより単純になり、エントロピーのより低いソースモデルを生成し、この符号化はより高い圧縮性能を特徴とするビットストリームを生成する。

現況水準で使用されるゲノム圧縮アルゴリズムは、これらのカテゴリに分類することができる：
・形質転換ベース
- ＬＺベース
- リード再配列
・アセンブリベース
- 統計学的モデリング

最初の２つのカテゴリは、データソース（ゲノム配列リード）の特定の特性を利用しないという欠点を共有し、そのような種類の情報（例えば、リード間の冗長性、既存の試料への参照）の特定の属性を考慮せずに圧縮されるテキスト列としてゲノムデータを処理する。ゲノムデータ圧縮の最も高度なツールキットの２つ、すなわち、ＣＲＡＭ及びＧｏｂｙ（“Ｃｏｍｐｒｅｓｓｉｏｎｏｆｓｔｒｕｃｔｕｒｅｄｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔｓｅｑｕｅｎｃｉｎｇｄａｔａ”，Ｆ．Ｃａｍｐａｇｎｅ，Ｋ．Ｃ．Ｄｏｒｆｆ，Ｎ．Ｃｈａｍｂｗｅ，Ｊ．Ｔ．Ｒｏｂｉｎｓｏｎ，Ｊ．Ｐ．Ｍｅｓｉｒｏｖ，Ｔ．Ｄ．Ｗｕ）は、独立しており、幾何分布によって同一に分布するものとしてデータを暗黙的にモデリングするため、算術符号化の利用が不十分である。Ｇｏｂｙは、全フィールドを整数のリストに変換し、各リストは、いかなるコンテキストも使用せずに、算術符号化を使用して独立して符号化されるため、わずかにより洗練されている。最も効率的な動作モードでは、Ｇｏｂｙは、整数リストに対して何らかのリスト間モデリングを実行し圧縮率を改善することが可能である。これらの従来技術による解決策は、不良な圧縮率、及び圧縮されると選択的なアクセス及び操作が不可能とは言えないまでも困難なデータ構造をもたらす。下流の解析段は、単純な動作の実行でさえも、又はゲノムデータセットの選択された領域へアクセスするために、大量の柔軟性のないデータ構造の取り扱いが必要なことに起因して、非効率的で非常に低速になり得る。

ゲノム処理パイプラインで使用されるファイルフォーマットの関係を単純化した図を図１に示す。この図では、ファイルの取り込みは、入れ子ファイル構造の存在を暗示せず、各フォーマットで符号化することができる情報のタイプ及び量のみを表す（すなわち、ＳＡＭはＦＡＳＴＱでの全情報を含むが、異なるファイル構造で編成される）。ＣＲＡＭは、ＳＡＭ／ＢＡＭと同じゲノム情報を含むが、使用することができる圧縮のタイプにより柔軟性があり、したがって、ＳＡＭ／ＢＡＭの上位集合として表される。

ゲノム情報の記憶に多数のファイルフォーマットを使用することは、非常に非効率的であり、かつコストがかかる。ゲノム情報の寿命サイクルの異なる段階で異なるファイルフォーマットを有することは、増分情報が最小である場合であっても、利用される記憶空間の線形増大を暗示する。従来技術による解決策の更なる欠点を以下に列挙する。
１．注釈（メタデータ）へのアクセス、解析、若しくは圧縮ＦＡＳＴＱファイルに記憶された生データへの注釈（メタデータ）の追加、又はその組合せは、計算リソース及び時間を大量に使用してのファイル全体の圧縮解除及び再圧縮を必要とする。
２．ＢＡＭファイルに記憶されたアラインメントデータに含まれるリードマッピング位置、リードバリアントの位置及びタイプ、インデルの位置及びタイプ、又は任意の他のメタデータ及び注釈等の情報の特定のサブセットの検索は、各リードに関連付けられたデータボリューム全体にアクセスする必要がある。１つのクラスのメタデータへの選択的アクセスは、従来技術による解決策では可能ではない。
３．従来技術によるファイルフォーマットでは、処理を開始するには、その前に、エンドユーザでファイル全体を受信している必要がある。例えば、シーケンシングプロセスが完了する前、適切なデータ表現に依拠して、リードのアラインメントを開始することができる。シーケンシング、アラインメント、及び解析は、並列に処理し実行することができる。
４．従来技術による解決策は、構造化をサポートせず、特定の生成セマンティック（例えば、同じ個人の寿命の異なる時間において得られたシーケンシング）に従って異なるシーケンシングプロセスによって得られたゲノムデータを区別することができない。同じ制約が、同じ個人の異なるタイプの生体試料によって得られるシーケンシングに対しても生じる。
５．従来技術による解決策により、データの全体部分又は選択部分の暗号化はサポートされていない。例えば、
ａ．選択されたＤＮＡ領域、
ｂ．バリアントを含む配列のみ、
ｃ．キメラ配列のみ、
ｄ．非マッピング配列のみ、
ｅ．特定のメタデータ（例えば、シーケンシングされた試料の出所、シーケンシングされた個人の身元情報、試料のタイプ）
の暗号化。
６．所与の参照（すなわち、ＳＡＭ／ＢＡＭファイル）にアラインメントされた配列データから新しい参照へのトランスコードは、新しい参照が前の参照から１つのヌクレオチド位置のみだけ異なる場合であっても、データボリューム全体を処理する必要がある。

したがって、効率的な圧縮を可能にし、圧縮領域での選択的アクセスをサポートし、ゲノムデータ処理の様々な段の全レベルで圧縮領域での異種メタデータの増分的追加をサポートする適切なゲノム情報記憶レイヤ（ゲノムファイルフォーマット）が必要とされている。

本発明は、添付の１組の特許請求項において請求される方法、デバイス、及びコンピュータプログラムを利用することにより、現況水準の制約への解決策を提供する。

典型的なゲノムパイプラインの主要ステップ及び関連するファイルフォーマットを示す。最も使用されるゲノムファイルフォーマット間の相互関係を示す。ゲノム配列リードが、ｄｅ−ｎｏｖｏアセンブリ又は参照ベースのアラインメントを介して全体又は部分ゲノムにいかにアセンブルされるかを示す。参照配列上のリードマッピング位置がいかに計算されるかを示す。リードペアリング距離がいかに計算されるかを示す。ペアリングエラーがいかに計算されるかを示す。リードメイトペアが異なる染色体にマッピングされる場合、ペアリング距離がいかに符号化されるかを示す。配列リードがいかに、ゲノムの第１又は第２のＤＮＡ鎖から来ることができるかを示す。鎖２にマッピングされたリードがいかに、鎖１上に対応する逆補足リードを有するかを示す。リードペアを構成するリードの４つの可能な組合せ及びｒｃｏｍｐレイヤでの各符号化を示す。Ｎ個のミスマッチがｎｍｉｓレイヤでいかに符号化されるかを示す。マッピングされたリードペアでの置換の一例を示す。置換位置をいかに、絶対値又は差分値のいずれかとして計算することができるかを示す。ＩＵＰＡＣコードなしで置換を符号化する記号がいかに、計算されるかを示す。置換タイプがいかに、ｓｎｐｔレイヤにおいて符号化されるかを示す。ＩＵＰＡＣコードを用いて置換を符号化する記号がいかに計算されるかを示す。位置のみが符号化されるが、置換タイプごとに１つのレイヤが使用される代替の置換ソースモデルを示す。ＩＵＰＡＣコードが使用されない場合、クラスＩのリードペアにおける置換、挿入、及び欠失をいかに符号化するかを示す。ＩＵＰＡＣコードが使用される場合、クラスＩのリードペアにおける置換、挿入、及び欠失をいかに符号化するかを示す。ゲノム情報データ構造のヘッダの構造を示す。マスタインデックステーブルがいかに、各アクセスユニットにおける最初のリードの参照配列上の位置を含むかを示す。クラスＰの各ｐｏｓＡＵにおける最初のリードのマッピング位置を示す部分ＭＩＴの一例を示す。レイヤヘッダにおけるローカルインデックステーブルがいかに、ペイロード内のＡＵへのポインタのベクトルであるかを示す。ローカルインデックステーブルの一例を示す。マスタインデックステーブルとローカルインデックステーブルとの機能関係を示す。アクセスユニットがいかに、幾つかのレイヤに属するデータブロックによって構成されるかを示す。レイヤはパケットに細分されるブロックによって構成される。タイプ１のゲノムアクセスユニット（位置情報、ペアリング情報、逆補足情報、及びリード長情報を含む）がいかに、ゲノムデータマルチプレックスにおいてパケット化されカプセル化されるかを示す。アクセスユニットがいかに、同種データの１つ又は複数のレイヤに属するヘッダ及び多重化ブロックによって構成されるかを示す。各ブロックは、ゲノム情報の実際の記述子を含む１つ又は複数のパケットで構成することができる。アクセス又は復号化及びアクセスのために、他のアクセスユニットからのいかなる情報も参照する必要がないタイプ０のアクセスユニットの構造を示す。タイプ１のアクセスユニットの構造を示す。タイプ１のアクセスユニットを参照するデータを含むタイプ２のアクセスユニットの構造を示す。これらは符号化されたリードにおけるＮの位置である。タイプ１のアクセスユニットを参照するデータを含むタイプ３のアクセスユニットの構造を示す。これらは、符号化されたリードにおけるミスマッチの位置及びタイプである。タイプ１のアクセスユニットを参照するデータを含むタイプ４のアクセスユニットの構造を示す。これらは、符号化されたリードにおけるミスマッチの位置及びタイプである。アクセスユニットの最初の５つのタイプを示す。タイプ１のアクセスユニットが、復号化するタイプ０のアクセスユニットを参照することを示す。タイプ２のアクセスユニットが、復号化するタイプ０及び１のアクセスユニットを参照することを示す。タイプ３のアクセスユニットが、復号化するタイプ０及びタイプ１のアクセスユニットを参照することを示す。タイプ４のアクセスユニットが、復号化するタイプ０及びタイプ１のアクセスユニットを参照することを示す。参照配列（ＡＵ０−２）の第２のセグメントにマッピングされたミスマッチを有する配列リードの復号化に必要なアクセスユニットを示す。利用可能になる生のゲノム配列データをいかに、予め符号化されたゲノムデータに増分的に追加することができるかを示す。シーケンシングプロセスが完了する前、アクセスユニットに基づくデータ構造がいかに、ゲノムデータ解析の開始を可能にするかを示す。既存のデータに対して実行される新しい解析がいかに、リードがタイプ４のＡＵからタイプ３のＡＵに移ることを暗示することができるかを示す。新たに生成された解析データがいかに、タイプ６の新しいＡＵにカプセル化されるか及び対応するインデックスがＭＩＴにおいて作成されることを示す。新しい参照配列（ゲノム）の公開に起因してデータをいかにコード変換するかを示す。よりよい品質（例えば、インデルなし）の新しいゲノム領域にマッピングされたリードがいかに、タイプ４のＡＵからタイプ３のＡＵに移るかを示す。新しいマッピング位置（例えば、ミスマッチがより少ない）が見つかる場合、関連するリードをあるＡＵから同じタイプの別のＡＵに移すことができることを示す。タイプ４のアクセスユニットは保護すべき機密情報を含むという理由のみで、選択的暗号化をタイプ４のアクセスユニットにいかに適用することができるかを示す。ゲノムマルチプレックスへのデータカプセル化を示し、ここでは、１つ又は複数のゲノムデータセット４８２〜４８３は、ゲノムストリーム４８４及びゲノムデータセットリスト４８１のストリーム、ゲノムデータセットマッピングテーブル４８５、並びに参照識別子マッピングテーブル４８７を含み、各ゲノムストリームは、ヘッダ４８８及びアクセスユニット４８６によって作られている。アクセスユニットは、パケット４８１０によって作られるブロック４８９をカプセル化する。生のゲノム配列データ又はアラインメントされたゲノムデータがいかに処理されて、ゲノムマルチプレックスにおいてカプセル化されるかを示す。アラインメント段、再アラインメント段、及びアセンブリ段は、符号化に向けてデータを準備するのに必要であり得、生成されたレイヤは、アクセスユニットにカプセル化され、ゲノムマルチプレクサによって多重化される。ゲノムデマルチプレクサ（５０１）がいかに、ゲノムマルチプレックスからアクセスユニットレイヤを抽出するかを示し、ＡＵタイプ（５０２）ごとに１つのデコーダが、ゲノム記述子を抽出し、ゲノム記述子は次に、例えば、ＦＡＳＴＱ及びＳＡＭ／ＢＡＭ等の様々なゲノムフォーマットに復号化される（５０３）。

本発明は、分子を表す記号の配列の形態のゲノム情報又はプロテオーム情報を記憶、輸送、アクセス、及び処理するのに使用される多重化ファイルフォーマット及び関連するアクセスユニットを記載する。

これらの分子には、例えば、ヌクレオチド、アミノ酸、及びタンパク質がある。記号の配列として表現される最も重要な情報の１つは、高スループットゲノムシーケンシングデバイスによって生成されるデータである。

任意の生物のゲノムは通常、その生物を特徴付ける核酸（塩基）の鎖を表す記号の列として表される。現況水準のゲノムシーケンシング技術は、メタデータ（識別子、正確レベル等）に関連付けられた核酸の幾つかの（数十億まで）列の形態のゲノムの断片化された表現しか生成することができない。そのような列は通常、「配列リード」又は「リード」と呼ばれる。

ゲノム情報寿命サイクルの典型的なステップは、配列リードの抽出、マッピング、及びアラインメント、バリアントの検出、バリアントの注釈付け、機能的及び構造的解析を含む（図１参照）。配列リードの抽出は、生体試料を構成する分子を表す記号の配列の形態の遺伝情報の断片の表現のプロセス−人間のオペレータ又は機械によって実行される−である。核酸の場合、そのような分子は「ヌクレオチド」と呼ばれる。抽出によって生成される記号の配列は一般に「リード」と呼ばれる。従来技術では、この情報は通常、テキストヘッダと、配列された分子を表す記号の配列とを含むＦＡＳＴＡファイルとして符号化される。

生体試料が配列化されて、生物のＤＮＡを抽出する場合、記号（Ａ，Ｃ，Ｇ，Ｔ，Ｎ）によって英字が作られる。

生体試料が配列化されて、生物のＲＮＡを抽出する場合、記号（Ａ，Ｃ，Ｇ，Ｕ，Ｎ）によって英字が作られる。

ＩＵＰＡＣ拡張記号セットの場合、いわゆる「曖昧コード」もシーケンシング機によって生成され、リードを構成する記号に使用される英字は（Ａ，Ｃ，Ｇ，Ｔ，Ｕ，Ｗ，Ｓ，Ｍ，Ｋ，Ｒ，Ｙ，Ｂ，Ｄ，Ｈ，Ｖ，Ｎ、又は−）である。

ＩＵＰＡＣ曖昧コードが使用されない場合、クオリティスコア配列を各配列リードに関連付けることができる。そのような場合、従来技術による解決策は、ＦＡＳＴＱファイルとして生成された情報を符号化する。シーケンシングデバイスは、
１．配列化された試料に実際に存在する核酸を表す誤った記号（すなわち、異なる核酸を表す）の識別、これは通常、「置換エラー」（ミスマッチ）と呼ばれる、
２．実際に存在するいかなる核酸も参照しない追加の記号の１つの配列リードへの挿入、これは通常、「挿入エラー」と呼ばれる、
３．配列化された試料に実際に存在する核酸を表す記号の１つの配列リードからの削除、これは通常、「欠失エラー」と呼ばれる、
４．元の配列の現実性を反映しない１つの断片への１つ又は複数の断片の再結合
等のエラーを配列リードに導入する恐れがある。

用語「カバレッジ」は本明細書において、利用可能な配列リードによって参照ゲノム又はその一部をカバーすることができる程度を定量化するのに使用される。カバレッジは、
・参照ゲノムの幾つかの部分が、利用可能ないかなる配列リードによってもマッピングされない場合、部分的（１Ｘ未満）、
・参照ゲノムの全ヌクレオチドが、配列リードに存在するただ１つのみの記号によってマッピングされる場合、シングル（１Ｘ）、
・参照ゲノムの各ヌクレオチドが複数回マッピングされる場合、マルチプル（２Ｘ、３Ｘ、ＮＸ）
であると言える。

配列アラインメントは、配列間の機能的関係、構造的関係、又は進化的関係の結果であり得る類似領域を見つけることによって配列リードを配置するプロセスを指す。アラインメントが、「参照ゲノム」と呼ばれる予め存在するヌクレオチド配列を参照して実行される場合、プロセスは「マッピング」と呼ばれる。配列アラインメントは、プロセスが「ｄｅｎｏｖｏ」アラインメントとして従来技術において既知であるような場合、予め存在する配列（すなわち、参照ゲノム）なしで実行することもできる。従来技術による解決策は、この情報をＳＡＭ、ＢＡＭ、又はＣＲＡＭファイルに記憶する。配列をアラインメントして部分又は完全なゲノムを再構築することの概念を図３に示す。

バリアント検出（別名、バリアントコール）は、ゲノムシーケンシング機のアラインメントされた出力（ＮＧＳデバイスによって生成され、アラインメントされた配列リード）を、他の予め存在する配列に見ることができないか、又は少数の予め存在する配列にのみ見出すことができる、配列化中の有機体の独自の特性のサマリに翻訳するプロセスである。これらの特性は「バリアント」と呼ばれ、その理由は、研究中の有機体のゲノムと参照ゲノムとの相違として表現されるためである。従来技術による解決策は、この情報をＶＣＦファイルと呼ばれる特定のファイルフォーマットで記憶する。

バリアント注釈付けは、バリアントコールのプロセスによって識別されたゲノムバリアントに機能的情報を割り当てるプロセスである。これは、ゲノムのコード配列へのバリアントの関係並びにコード配列及び遺伝子産物へのバリアントの影響に従ったバリアントの分類を暗示する。これは、従来技術では通常、ＭＡＦファイルに記憶される。

ＤＮＡ（バリアント、ＣＮＶ＝コピー数多型、メチル化等）鎖を解析して、遺伝子（及びタンパク質）機能及び構造との関係を定義するプロセスは、機能的又は構造的解析と呼ばれる。従来技術では、このデータを記憶する幾つかの異なる解決策が存在する。

ゲノムファイルフォーマット
本明細書に開示される本発明の本質は、少なくとも以下の点で従来技術と異なるゲノム配列データを表現、処理、操作、及び送信する圧縮データ構造の定義にある：
−ゲノム情報のいかなる従来技術による表現フォーマット（すなわち、ＦＡＳＴＱ、ＳＡＭ）にも依拠しない。
−ゲノムデータ及びメタデータの特定の特性に従ったゲノムデータ及びメタデータの新しい独自の分類を実施する。配列リードは参照配列にマッピングされ、アラインメントプロセスの結果に従って別個のクラスにグループ化される。これにより、異なる特定の圧縮アルゴリズムを適用してより効率的に符号化することができる、情報エントロピーがより低いデータクラスになる。
−シンタックス要素並びに配列リード及びアラインメント情報を伝達する、関連する符号化／復号化プロセスを、下流解析アプリケーションでの処理により効率的な表現に定義する。

マッピングの結果に従ってリードを分類し、記述子を使用して符号化して、レイヤ（位置レイヤ、メイト距離レイヤ、ミスマッチタイプレイヤ等々）に記憶することは、以下の利点を呈する：
・異なるシンタックス要素が特定のソースモデルによってモデリングされる場合、情報エントロピーの低減。
・下流解析段にとって特定の意味を有し、別個に独立してアクセスすることができるグループ／レイヤに既に編成されたデータへのより効率的なアクセス。
・データコンテンツ全体を復号化する必要なく、必要とされる情報のみにアクセスすることにより増分的に更新することができるモジュールデータ構造の存在。
・シーケンシング機によって生成されるゲノム情報は、情報自体の性質及びシーケンシングプロセスに本質的なエラーを軽減する必要性に起因して、本質的に高い冗長性を有する。これは、識別し解析する必要がある関連ゲノム情報（参照からのバリエーション）が、生成されるデータのわずかな部分のみであることを暗示する。従来技術によるゲノムデータ表現フォーマットは、解析用途に即座に利用可能にするように、所与の解析段における意味ある情報を残りの情報から「分離」するとは考えられない。
・開示される本発明によってもたらされる解決策は、データの任意の関連部分が、データ全体にアクセスし圧縮解除する必要なく、解析用途に容易に利用可能であり、効率的な圧縮によりデータの冗長性が効率的に低減し、必要とされる記憶空間及び送信帯域幅を最小化するようにゲノムデータを表すことである。

本発明の主要要素は、以下である。
１．圧縮形態の構造化され選択的にアクセス可能なデータ要素（アクセスユニット（ＡＵ）を「含む」ファイルフォーマットの仕様。そのような手法は、データが非圧縮形態で構造化され、次に、ファイル全体が圧縮される従来技術による手法、例えば、ＳＡＭ及びＢＡＭの逆として見ることができる。この手法の第１の明確な利点は、圧縮領域でのデータ要素への様々な形態の構造化された選択的アクセスを効率的にかつ自然に提供可能なことであり、これは、従来技術による手法で不可能であるか、又は極めて扱いにくい。
２．同種データ及びメタデータの特定の「レイヤ」へのゲノム情報の構造化は、低エントロピーを特徴とする情報ソースの異なるモデルの定義を可能にするというかなりの利点を呈する。そのようなモデルは、レイヤごとに異なることができるのみならず、レイヤ内の圧縮データが、アクセスユニットに含まれるデータブロックに分割される場合、各レイヤ内部で異なることもできる。この構造化により、従来技術の手法と比べて符号化効率における大きな利得をもって、データ若しくはメタデータ及びそれらの一部の各クラスに最も適切な圧縮を使用することができる。
３．情報はアクセスユニット（ＡＵ）に構造化され、それにより、適切なインターフェースを手段として、ゲノム解析アプリケーションによって使用されるデータの任意の関連サブセットに効率的かつ選択的にアクセスすることができる。これらの特徴は、データへのより高速なアクセスを可能にし、より効率的な処理をもたらす。
４．マスタインデックステーブル及びローカルインデックステーブルの定義により、圧縮データの全体容量を復号化する必要なく、符号化（すなわち、圧縮）されたデータのレイヤによって運ばれる情報に選択的にアクセスすることができる。
５．新たに公開された参照ゲノムに対してアラインメントし直す必要がある場合、圧縮領域内の選択されたデータ部分の効率的なコード変換により、既にアラインメントされ圧縮されたゲノムデータの再アラインメントを実行することが可能である。新しい参照ゲノムの頻繁なリリースは現在、コード変換プロセスが、既に圧縮され記憶されたゲノムデータを新たに公開された参照と再アラインメントするプロセスに、リソースの消費及び時間を必要とし、その理由は、全データ容量を処理する必要があるためである。

本明細書に記載される方法は、ゲノムデータの利用可能な事前知識を利用して、エントロピーを低減してシンタックス要素の英字を定義することを目的とする。ゲノミクスでは、利用可能な知識は、通常−しかし必ずしもそうであるわけではない−処理されるものと同じ種の既存のゲノム配列によって表される。一例として、異なる個人のヒトゲノムは、わずか１％だけ異なる。他方、その小量のデータが、診断の容易化、薬剤の個人化、医薬品の合成のカスタマイズ等を可能にするのに十分な情報を含む。本発明は、関連情報に効率的にアクセス可能であり、関連情報が効率的に輸送可能であり、冗長情報のウェイトが低減するゲノム情報表現フォーマットを定義することを目的とする。

本発明において使用される技術的特徴は以下である。
１．可能な限り情報エントロピーを低減するために、ゲノム情報を同種のメタデータの「レイヤ」に分解する。
２．コード化された情報全体を復号化する必要なく、符号化情報のレイヤに選択的なアクセスできるようにするマスタインデックステーブル及びローカルインデックステーブルの定義。
３．ポイント１において定義された異なるレイヤに属するシンタックス要素をコード化するための異なるソースモデル及びエントロピーコーダの採用。
４．必要ない場合、レイヤを全て復号化する必要なく、データへの選択的アクセスを可能にするための依存レイヤ間の対応性。
５．エントロピーを低減するように変更することができる、１つ又は複数の適応参照配列への差分符号化。最初の参照ベースの符号化後、記録されたミスマッチを使用して、参照配列を「適応／変更」し、情報エントロピーを更に低減することができる。これは、情報エントロピーの低減が有意味である限り、反復的に実行することができるプロセスである。

従来技術の上記問題の全て（ファイル内のランダムな位置への効率的なアクセス、効率的な送信及び記憶、効率的な圧縮の点で）を解決するために、本願は、より同種であり、かつ／又は処理の容易さに意味論的に有意なデータを並べ直し、一緒にパックする。

本発明はまた、アクセスユニットの概念及び関連データの多重化に基づくデータ構造を採用する。

ゲノムデータは、異なるアクセスユニットに構造化され符号化される。以下、異なるアクセスユニットに含まれるゲノムデータの説明が続く。

ゲノムデータ分類
シーケンシング機によって生成される配列リードは、１つ又は複数の参照配列又はゲノムへのアラインメントの結果に従って、開示される本発明により５つの異なる「クラス」に分類される。

参照配列とのヌクレオチドのＤＮＡ配列をアラインメントする場合、５つが可能な結果である。
１．参照配列内の領域は、いかなるエラーもなく配列リードに一致する（完全マッピング）ことが発見される。ヌクレオチドのそのような配列は、「完全マッチングリード」と呼ばれるか、又は「クラスＰ」と記される。
２．参照配列内の領域は、シーケンシング機がいかなる塩基（又はヌクレオチド）もコールすることができなかった幾つかの位置により構成される幾つかのミスマッチを有して、配列リードに一致することが発見される。そのようなミスマッチは「Ｎ」で記される。そのような配列は「Ｎミスマッチリード」又は「クラスＮ」と呼ばれる。
３．参照配列内の領域は、シーケンシング機がいかなる塩基（又はヌクレオチド）もコールすることができなかったか、又は参照配列内で報告されるものとは異なる塩基がコールされた幾つかの位置により構成される幾つかのミスマッチを有して、配列リードに一致することが発見される。そのようなタイプのミスマッチは、シングルヌクレオチドバリエーション（ＳＮＶ）又はシングルヌクレオチド多型（ＳＮＰ）と呼ばれる。配列は、「Ｍミスマッチリード」又は「クラスＭ」と呼ばれる。
４．第４のクラスは、クラスＭと同じミスマッチに、挿入又は欠失（別名、インデル）の存在が加わったミスマッチタイプを表す配列リードによって構成される。挿入は、参照に存在しないが、リード配列には存在する１つ又は複数のヌクレオチドの配列によって表される。文献では、挿入された配列が配列のエッジである場合、「ソフトクリップ」と呼ばれる（すなわち、ヌクレオチドは参照と一致しないが、破棄される「ハードクリップ」ヌクレオチドとは対照的に、アラインメントされたリードに保持される）。ヌクレオチドの保持又は廃棄は通常、アラインメントツールの構成として実施されるユーザの判断である。欠失は、参照からのアラインメントされたリードにおける「穴」（欠損ヌクレオチド）である。そのような配列は、「Ｉミスマッチリード」又は「クラスＩ」と呼ばれる。
５．第５のクラスは、指定されたアラインメント制約に従って参照配列においていかなる有効なマッピングも発見現在全てのリードを含む。そのような配列はマッピングされないと言え、「クラスＵ」に属すると言えるアンマップリードは、ｄｅ−ｎｏｖｏアセンブリアルゴリズムを使用して１つの配列にアセンブルすることができる。新しい配列が作成されると、アンマップリードをそれに対して更にマッピングし、４つのクラスＰ、Ｎ、Ｍ、及びＩの１つに分類することができる。

上記ゲノムデータのデータ構造では、復号化エンジンが使用するために、グローバルパラメータ及びメタデータを記憶する必要がある。これらのデータは、以下の表に記載される主要ヘッダにおいて構造化される。

リードの分類がクラスの定義を用いて完了すると、更なる処理の本質は、所与の参照配列にマッピングされて表される場合、ＤＮＡリード配列の再構築を可能にする残りの情報を表す１組の別個のシンタックス要素を定義することにある。所与の参照配列を参照するＤＮＡセグメントは、以下によって完全に表現することができる。
・参照配列ｐｏｓでの開始位置（２９２）。
・リードが参照ｒｃｏｍｐから逆相補として見なされる必要がある場合、フラグシグナリング（２９３）。
・ペアになったリードのペアの場合、メイトペアへの距離（２９４）。
・シーケンシング技術が可変長リードを生成する場合、リード長の値（２９５）。一定リード長の場合、各リードに関連付けられたリード長は明らかに省くことができ、主要ファイルヘッダに記憶することができる。
・ミスマッチごとに、
・クラスＮの場合、ミスマッチ位置ｎｍｉｓ（３００）、クラスＭの場合、ｓｎｐｐ（３１１）、及びクラスＩの場合、ｉｎｄｐ（３２１））。
・ミスマッチタイプ（クラスＮの場合、存在せず、クラスＭの場合、ｓｎｐｔ（３１２）、クラスＩの場合、ｉｎｄｔ（３２２））。
・フラグ（２９６）であって、
・シーケンシングにおいて複数のセグメントを有する鋳型、
・アライナに従って適宜アラインメントされた各セグメント、
・アンマップセグメント、
・アンマップ鋳型内の次のセグメント、
・最初又は最後のセグメントのシグナル伝達、
・品質制御失敗、
・ＰＣＲ又は光学複製、
・二次アラインメント、
・補足的アラインメント
等の配列リードの特定の特性を示すフラグ（２９６）。
・クラスＩに存在する場合、ヌクレオチド列をソフトクリップ（３２３）。

この分類は、ゲノム配列リードを単意で表すのに使用することができる記述子（シンタックス要素）のグループを作成する。以下の表に、アラインメントされたリードの各クラスに必要なシンタックス要素をまとめる。

クラスＰに属するリードは、メイトペア、幾つかのフラグ、及びリード長をもたらすシーケンシング技術によって得られた場合、位置、逆相補情報、及びメイト間のオフセットのみを特徴とし、それらのみで完全に再構築することができる。

次のセクションにおいて、これらの記述子がいかに定義されるかを詳述する。

位置記述子レイヤ
各アクセスユニットにおいて、最初の符号化リードのマッピング位置のみが、参照ゲノム上の絶対位置としてＡＵヘッダに記憶される。他の全ての位置は、前の位置からの差として表現され、特定のレイヤに記憶される。情報ソースのこのモデリングは、リード位置の配列によって定義され、一般に、特にシーケンシングプロセスが高カバレッジ結果を生成する場合、エントロピーの低減を特徴とする。最初のアラインメントの絶対位置が記憶されると、他のリードの全ての位置は、最初の位置からの差（距離）として表現される。

例えば、図４は、参照配列における位置「１００００」として最初のアラインメントの開始位置を符号化した後、位置１０１８０において開始する次のリードの位置がいかに、「１８０」としてコード化されるかを示す。高カバレッジデータ（＞５０Ｘ）の場合、位置ベクトルの記述子の大半は、０及び１並びに他の小さな整数等の低値の非常に高い発生を示す。図４は、３つのリードペアの位置がいかにｐｏｓレイヤにおいて符号化されるかを示す。

クラスＮ、Ｍ、Ｐ、及びＩに属するリードの位置に同じソースモデルが使用される。データへの任意の組合せの選択的アクセスを可能にするために、４つのクラスに属するリードの位置は、表１に示される別個のレイヤに符号化される。

ペア記述子レイヤ
ペア記述子はｐａｉｒレイヤに記憶される。そのようなレイヤは、利用されるシーケンシング技術がペアでリードを生成する場合、元のリードペアの再構築に必要な情報を符号化する記述子を記憶する。本発明の開示日では、配列データの大多数は、ペアリードを生成する技術を使用することによって生成されるが、全ての技術でそうであるわけではない。これは、考慮されるゲノムデータのシーケンシング技術がペアリード情報を生成しない場合、このレイヤの存在が、全配列データ情報の再構築に必要であるわけではないことの理由である。

定義：
・メイトペア：リードペア内の別のリードに関連付けられたリード（例えば、リード２は、図４の例において、リード１のメイトペアである）。
・ペア距離：第１のリード（ペアアンカー、例えば、最初のリードの最後のヌクレオチド）における１つの位置を第２のリード（例えば、２番目のリードの最初のヌクレオチド）の１つの位置から隔てる参照配列上のヌクレオチド位置の数。
・最確ペア距離（ＭＰＰＤ）：これは、ヌクレオチド位置数で表現される最確ペア距離である。
・位置ペア距離（ＰＰＤ）：ＰＰＤは、特定の位置記述子レイヤに存在する各メイトからあるリードを隔てるリード数単位のペア距離を表現する方法である。
・最確位置ペア距離（ＭＰＰＰＤ）：特定の位置記述子レイヤに存在するメイトペアからあるリードを隔てる最も確率の高いリード数である。
・位置ペアリングエラー（ＰＰＥ）：ＭＰＰＤとＭＰＰＰＤとメイトの実際の位置との差として定義される。
・ペアアンカー：ヌクレオチド位置数又はリード位置数を単位としてメイトペアの距離を計算するための参照として使用されるペア内の最初のリードの最後のヌクレオチドの位置である。

図５は、リードペア間のペア距離がいかに計算されるかを示す。

ペア記述子レイヤは、定義された復号化ペア距離に関してペアの最初のリードのメイトペアに達するまでにスキップされるリードの数として計算されるペアリングエラーのベクトルである。

図６は、ペアリングエラーがいかに、絶対値及び差分ベクトルの両方として計算されるかの一例を示す（高カバレッジの場合、低エントロピーを特徴とする）。

同じ記述子が、クラスＮ、Ｍ、Ｐ、及びＩに属するリードのペア情報に使用される。異なるデータクラスへの選択的アクセスを可能にするために、４つのクラスに属するリードのペア情報は、示されるように異なるレイヤに符号化される。

異なる参照にマッピングされるリードの場合のペア情報
参照配列に配列リードをマッピングするプロセスでは、ペア内の最初のリードがある参照（例えば、染色体１）にマッピングされ、２番目のリードが異なる参照（例えば、染色体４）にマッピングされることは希ではない。この場合、上述したペア情報は、リードの一方のマッピングに使用される参照配列に関連する追加の情報によって統合される必要がある。これは、
１．ペアが２つの異なる配列にマッピングされることを示す予約値（フラグ）（異なる値が、リード１又はリード２が現在符号化されていない配列にマッピングされるかどうかを示す）、
２．表１に記載される主要ヘッダ構造において符号化される参照識別子を参照する一意の参照識別子、
３．ポイント２において識別された参照へのマッピング情報を含み、最後の符号化位置からのオフセットとして表現される第３の要素
をコードすることにより達成される。

図７は、このシナリオの一例を提供する。

図７では、リード４は現在符号化される参照配列にマッピングされないため、このゲノムエンコーダは、ペアレイヤにおいて追加の記述子を作ることによってこの情報をシグナリングする。図７に示される例では、ペア２のリード４は、参照番号４にマッピングされ、一方、現在符号化される参照はナンバー１である。この情報は、次の３つの構成要素を使用して符号化される。
１）１つの特別な予約値は、ペア距離（この場合、０ｘｆｆｆｆｆｆ）として符号化される。
２）第２の記述子は、主要ヘッダに列挙される参照ＩＤを提供する（この場合、４）。
３）第３の要素は、考慮される参照上のマッピング情報を含む（１７０）。

逆相補記述子レイヤ
シーケンシング技術によって生成されるリードペアの各リードは、配列化された有機試料のいずれかのゲノム鎖からのものであることができる。しかしながら、２本鎖のうちの１本のみが参照配列として使用される。図８は、リードペアにおいて、あるリード（リード１）がいかに、１本の鎖から来ることができ、他（リード２）が他方の鎖から来ることができるかを示す。

鎖１が参照配列として使用される場合、リード２は、鎖１の対応する断片の逆相補として符号化することができる。これを図９に示す。

結合されたリードの場合、４が、直接及び逆相補メイトペアの可能な組合せである。これを図１０に示す。ｒｃｏｍｐレイヤは４つの可能な組合せをコード化する。

同じコード化が、クラスＰ、Ｎ、Ｍ、Ｉに属するリードの逆相補情報に使用される。データへの強化された選択的アクセスを可能にするために、４つのクラスに属するリードの逆相補情報は、表２に示される異なるレイヤにコード化される。

クラスＮのミスマッチ
クラスＮは、ミスマッチを示す全てのリードを含み、「Ｎ」は塩基コールの代わりに存在する。全ての他のベースは、参照配列に完全に一致する。

リード１におけるＮの位置は、
・リード１における絶対位置又は
・同じリード内の前のＮからの差分位置（最低のエントロピーを有するいずれか）
として符号化される。

リード２におけるＮの位置は、
・リード２における絶対位置＋リード１長又は
・前のＮからの差分位置（最低のエントロピーを有するいずれか）
として符号化される。

ｎｍｉｓレイヤでは、各リードペアの符号化は、特別な「セパレータ」「Ｓ」記号で終わる。これを図１１に示す。

置換（ミスマッチ又はＳＮＰ）の符号化
置換は、同じ位置における参照配列に存在するものとは異なるヌクレオチドの、マッピングされたリード上での存在として定義される（図１２参照）。

各置換は、
・「位置」（ｓｎｐｐレイヤ）又は「タイプ」（ｓｎｐｔレイヤ）として、図１３、図１４、図１６、及び図１５参照、又は
・「位置」のみであるが、ミスマッチタイプごとに１つのｓｎｐｐレイヤを使用、図１７参照、
として符号化することができる。

置換位置
置換位置は、ｎｍｉｓレイヤの値として計算され、すなわち：
リード１において、置換は、
・リード１における絶対位置として又は
・リード２における同じリードにおける前の置換からの差分位置として置換が符号化される
として符号化され、
リード２において、置換は、
・リード２における絶対位置＋リード１長又は
・前の置換からの差分位置
として符号化される。図１３は、置換位置がいかにレイヤｓｎｐｐにおいて符号化されるかを示す。置換位置は、絶対値又は差分値のいずれかとして計算することができる。

ｓｎｐｐレイヤでは、各リードペアの符号化は、特別な「セパレータ」記号によって終わる。

置換タイプ記述子
クラスＭ（及び次のセクションで説明されるように、クラスＩ）の場合、ミスマッチは、参照に存在する実際の記号から、リードに存在する対応する置換記号｛Ａ，Ｃ，Ｇ，Ｔ，Ｎ，Ｚ｝までインデックス（右から左に移動する）によってコード化される。例えば、アラインメントされたリードが、参照における同じ位置に存在するＴの代わりにＣを提示する場合、ミスマッチインデックスは「４」と記される。復号化プロセスは、符号化されたシンタックス要素、参照上の所与の位置におけるヌクレオチドを読み出し、左から右に移動して、復号化された記号を検索する。例えば、参照においてＧが存在する位置に対して「２」を受信することは、「Ｎ」として復号化されることになる。図１４は、ＩＵＰＡＣ曖昧コードが使用されない場合に可能な全ての置換及び各符号化記号を示し、図１５は、ｓｎｐｔレイヤにおける置換タイプの符号化の一例を提供する。ＩＵＰＡＣ曖昧コードが存在する場合、置換インデックスは図１６に示されるように変わる。

上述した置換タイプの符号化が高い情報エントロピーを示す場合、置換符号化の代替の方法の本質は、図１７に示されるように、ヌクレオチドごとに１つずつ、ミスマッチ位置のみを別個のレイヤに記憶することにある。

挿入及び欠失のコード化
クラスＩの場合、ミスマッチ及び欠失は、参照に存在する実際の記号から、リードに存在する対応する置換記号｛Ａ，Ｃ，Ｇ，Ｔ，Ｎ，Ｚ｝までインデックス（右から左に移動する）によりコード化される。例えば、アラインメントされたリードが、参照における同じ位置に存在するＴの代わりにＣを提示する場合、ミスマッチインデックスは「４」と記される。リードが、参照においてＡが存在する場所に欠失を提示する場合、コード化される記号は「５」である。復号化プロセスは、コード化されたシンタックス要素、参照上の所与の位置におけるヌクレオチドを読み出し、左から右に移動して、復号化された記号を検索する。例えば、参照においてＧが存在する位置に対して「３」を受信することは、配列リードにおける欠失の存在を示す「Ｚ」として復号化される。

挿入は、挿入されたＡ、Ｃ、Ｇ、Ｔ、Ｎに対してそれぞれ６、７、８、９、１０としてコード化される。

ＩＵＰＡＣ曖昧コードを採用する場合、置換メカニズムの結果は全く同じであるが、置換ベクトルは、Ｓ＝｛Ａ，Ｃ，Ｇ，Ｔ，Ｎ，Ｚ，Ｍ，Ｒ，Ｗ，Ｓ，Ｙ，Ｋ，Ｖ，Ｈ，Ｄ，Ｂ｝として拡張される。

図１８及び図１９は、クラスＩのリードペアにおける置換、挿入、及び欠失を符号化する方法の例を示す。

続くファイルフォーマット構造であるアクセスユニット及び多重化について、本明細書において上記開示したコード化要素を参照して説明する。しかしながら、アクセスユニット、ファイルフォーマット、及び多重化は、他の異なるアルゴリズムのソースモデリング及びゲノムデータ圧縮を用いても、同じ技術的利点を生み出す。

ファイルフォーマット：ゲノムデータの領域への選択的アクセス
マスタインデックステーブル
アラインメントされたデータの特定の領域への選択的アクセスをサポートするために、本明細書に記載されるデータ構造は、マスタインデックステーブル（ＭＩＴ）と呼ばれる索引付けツールを実装する。これは、特定のリードが、使用される参照配列にマッピングされる座位を含む多次元アレイである。ＭＩＴに含まれる値は、各ｐｏｓレイヤにおける最初のリードのマッピング位置であり、したがって、各アクセスユニットへの非順次アクセスがサポートされる。ＭＩＴは、データのクラスごと（Ｐ、Ｎ、Ｍ、及びＩ）並びに参照配列ごとに１つのセクションを含む。ＭＩＴは、符号化データの主要ヘッダに含まれる。図２０は、主要ヘッダの一般構造を示し、図２１は、ＭＩＴの一般的な視覚表現を示し、図２２は、符号化リードのクラスＰのＭＩＴの一例を示す。

図２２に示されるＭＩＴに含まれる値は、圧縮領域において関心領域（及び対応するＡＵ）に直接アクセスするのに使用される。

例えば、図２２を参照して、参照２において位置１５０，０００と２５０，０００との間に含まれる領域にアクセスする必要がある場合、復号化アプリケーションは、ＭＩＴにおける第２の参照にスキップし、ｋ１＜１５０，０００かつｋ２＞２５０，０００であるような２つの値ｋ１及びｋ２を探す。ここで、ｋ１及びｋ２は、ＭＩＴからの読み出された２つのインデックスである。図２２の例では、これは、ＭＩＴの第２のベクトルの位置３及び４になる。これらの戻り値は次に、復号化アプリケーションによって使用されて、次のセクションに説明するように、ｐｏｓレイヤローカルインデックステーブルから適切なデータの位置をフェッチする。

上述したゲノムデータの４つのクラスに属するデータを含むレイヤへのポインタと一緒に、ＭＩＴは、ゲノムデータの寿命サイクル中、ゲノムデータに追加される追加のメタデータ及び／又は注釈のインデックスとして使用することができる。

ローカルインデックステーブル
上述した各データレイヤは、ローカルヘッダと呼ばれるデータ構造が前置される。ローカルヘッダは、レイヤの一意の識別子、参照配列ごとのアクセスユニットカウンタのベクトル、ローカルインデックステーブル（ＬＩＴ）、及び任意選択的な何らかのレイヤに固有のメタデータを含む。ＬＩＴは、レイヤペイロードにおける各ＡＵに属するデータの物理的な位置へのポインタのベクトルである。図２３は、ＬＩＴが非順次的に符号化データの特定の領域にアクセスするのに使用される一般的なレイヤヘッダ及びペイロードを示す。

前の例では、参照配列番号２にアラインメントされたリードの領域１５０，０００〜２５０，０００にアクセスするために、復号化アプリケーションは、ＭＩＴから位置３及び４を検索した。これらの値は、ＬＩＴの対応するセクションの３番目及び４番目の要素にアクセスするのに復号化プロセスによって使用されるものとする。図２４に示される例では、レイヤヘッダに含まれる合計アクセスユニットカウンタを使用して、参照１に関連するＡＵに関連するＬＩＴインデックス（本例では５）をスキップする。したがって、符号化ストリーム内の要求されたＡＵの物理的位置を含むインデックスは、
要求されたＡＵに属するデータブロックの位置＝スキップすべき参照１のＡＵに属するデータブロック＋ＭＩＴを使用して検索された位置、すなわち、
最初のブロック位置：５＋３＝８
最後のブロック位置：５＋４＝９
として計算される。

ローカルインデックステーブルと呼ばれる索引付けメカニズムを使用して検索されたデータのブロックは、要求されたアクセスユニットの一部である。

図２６は、ＭＩＴ及びＬＩＴを使用して検索されたデータブロックがいかに１つ又は複数のアクセスユニットを作るかを示す。

アクセスユニット
データクラスに分類され、圧縮又は非圧縮レイヤに構造化されたゲノムデータは、異なるアクセスユニットに編成される。

ゲノムアクセスユニット（ＡＵ）は、ヌクレオチド配列を再構築するゲノムデータ（圧縮又は非圧縮形態）、及び／又は関連するメタデータ、及び／又はＤＮＡ／ＲＮＡの配列（例えば、仮想参照）、及び／又はゲノムシーケンシング機、及び／又はゲノム処理デバイス、又は解析アプリケーションによって生成された注釈データのセクションとして定義される。

アクセスユニットは、大域的にのみ利用可能なデータ（例えば、デコーダ構成）のみを使用することによって他のアクセスユニットから独立して、又は他のアクセスユニットに含まれる情報を使用することによって復号化することができるデータのブロックである。アクセスユニットは、位置情報（絶対及び／又は相対）、逆相補及び恐らくはペアリングに関連する情報、及び追加のデータの形態のゲノムデータに関連するデータ情報を含む。幾つかのタイプのアクセスユニットを識別することが可能である。

アクセスユニットは、
・アクセスユニットが運ぶゲノムデータ及びデータセットの性質及びアクセスすることができる方法を特徴付けるタイプ、
・同じタイプに属するアクセスユニットへの一意の順序を提供する順序
によって区別される。

任意のタイプのアクセスユニットは、異なる「カテゴリ」に更に分類することができる。

以下、ゲノムアクセスユニットの異なるタイプの定義の非網羅的リストが続く。
１）タイプ０のアクセスユニットは、アクセスされるために又は復号化されアクセスされるために、他のアクセスユニットからのいかなる情報も参照する必要がない（図２９参照）。それらが含むデータ又はデータセットによって伝達される情報全体は、復号化デバイス又は処理アプリケーションによって独立して読み出され、処理することができる。
２）タイプ１のアクセスユニットは、タイプ０のアクセスユニットによって伝達されるデータを参照するデータを含む（図３０参照）。タイプ１のアクセスユニットに含まれるデータの読み出し又は復号化及び処理は、タイプ０の１つ又は複数のアクセスユニットへのアクセスが必要である。このタイプのアクセスユニットは、タイプ０のアクセスユニットに含まれる情報からのミスマッチ、非類似、又は非対応の情報を含むことができる。
３）タイプ２、３、及び４のアクセスユニットは、タイプ１のアクセスユニットを参照するデータを含む（図３１、図３２、及び図３３参照）。タイプ２、３、及び４のアクセスユニットによって含まれるデータ又はデータセットの読み出し又は復号化及び処理は、タイプ０及びタイプ１のアクセスユニットに含まれるデータ又はデータセットによって伝達される情報を必要とする。タイプ２、３、及び４のアクセスユニットの違いは、含まれる情報の性質にある。
４）タイプ５のアクセスユニットは、タイプ１のアクセスユニットに含まれるデータ又はデータセットに関連付けられたメタデータ（例えば、クオリティスコア）及び／又は注釈データを含む。タイプ５のアクセスユニットは、異なるレイヤに分類されラベリングし得る。
５）タイプ６のアクセスユニットは、注釈データとして分類されるデータ又はデータセットを含む。タイプ６のアクセスユニットはレイヤにおいて分類されラベリングし得る。
６）追加のタイプのアクセスユニットは、本明細書に記載される構造及びメカニズムを拡張することができる。限定ではなく一例として、ゲノムバリアントコール、構造的及び機能的解析の結果は、新しいタイプのアクセスユニットに符号化することができる。本明細書に記載されるアクセスユニットにおけるデータ編成は、アクセスユニットにカプセル化されたいかなるタイプのデータも、符号化データの性質に関して完全にトランスペアレントなメカニズムにすることを妨げない。このタイプのアクセスユニットは、タイプ０のアクセスユニットに含まれる情報からのミスマッチ、非類似、又は非対応の情報を含むことができる。

図２８は、アクセスユニットがいかに、ヘッダ及び同種データの１つ又は複数のレイヤによって作られるかを示す。各レイヤは、１つ又は複数のブロックで作ることができる。各ブロックは幾つかのパケットを含み、パケットは、例えば、リード位置、ペアリング情報、逆相補情報、ミスマッチ位置、及びタイプ等を表す上記で紹介した記述子の構造化配列である。

各アクセスユニットは、各ブロックに異なる数のパケットを有することができるが、アクセスユニット内では、全てのブロックは同数のパケットを有する。

各データパケットは、３つの識別子ＸＹＺの組合せによって識別することができ、ここで、
・Ｘは属するアクセスユニットを識別し、
・Ｙは属するブロック（すなわち、カプセル化するデータタイプ）を識別し、
・Ｚは、同じブロック内の他のパケットに対するパケット順序を表現する識別子である。

図２８は、アクセスユニット及びパケットラベリングの一例を示す。

図３４〜図３８は幾つかのタイプのアクセスユニットを示し、それらを記す一般的なシンタックスは以下である：ＡＵ＿Ｔ＿Ｎは、アクセスユニットタイプに従って順序の表記を暗示することもあれば、又はないこともある識別子Ｎを有するタイプＴのアクセスユニットである。識別子は、あるタイプのアクセスユニットを、伝達されるゲノムデータの完全な復号化に必要とされる他のタイプのアクセスユニットに一意に関連付けるのに使用される。

任意のタイプのアクセスユニットは、異なるシーケンシングプロセスに従って異なる「カテゴリ」に分類しラベリングすることができる。限定ではなく例として、分類及びラベリングは、
−同じ有機体を異なる時間にシーケンシングする場合（アクセスユニットは、「一時的」含意のゲノム情報を含む）、
−同じ有機体の異なる性質の有機体試料（例えば、ヒト試料の皮膚、血液、毛髪）のシーケンシングの場合、
行うことができる。これらは、「生物的」含意があるアクセスユニットである。

タイプ１、２、３、及び４のアクセスユニットは、参照するタイプ０のアクセスユニットに符号化される参照配列に関して、ゲノム配列断片（別名、リード）に適用された照合関数の結果に従って構築される。

例えば、タイプ１のアクセスユニット（ＡＵ）（図３０参照）は、照合関数がタイプ０のＡＵに符号化された参照配列の特定の領域に適用される場合、完全な一致（又は選択された照合関数に対応する可能な限り最大のスコア）をもたらすリードの位置及び逆相補フラグを含み得る。タイプ０のＡＵに含まれるデータと共に、そのような照合関数情報は、タイプ１のアクセスユニットによって伝達されるデータセットによって表される全てのゲノム配列リードを完全に再構築するのに十分である。

本明細書において上述したゲノムデータ分類を参照して、上述したタイプ１のアクセスユニットは、クラスＰ（完全一致）のゲノム配列リードに関連する情報を含む。

可変リード長及びペアリードの場合、前の例で述べたタイプ１のＡＵに含まれるデータは、リードペア関連性を含むゲノムデータを完全に再構築することを可能にするためには、リードペア及びリード長についての情報を表すデータと統合される必要がある。本明細書において先に紹介したデータ分類に関して、ｐａｉｒ及びｒｌｅｎレイヤはタイプ１のＡＵに符号化される。

タイプ２、３、及び４のＡＵの内容を分類するためにタイプ１のアクセスユニットに関して適用される照合関数は、
−タイプ１のＡＵに含まれる各配列は、指定された位置に対応するタイプ０のＡＵに含まれる配列に完全に一致し、
−タイプ２のＡＵに含まれる各配列は、指定された位置に対応するタイプ０のＡＵに含まれる配列に完全に一致するが、タイプ２のＡＵにおける配列には「Ｎ」記号が存在し（塩基がシーケンシングデバイスによってコールされない）、
−タイプ３のＡＵに含まれる各配列は、指定された位置に対応するタイプ０のＡＵに含まれる配列から置換記号（バリアント）の形態のバリアントを含み、
−タイプ４のＡＵに含まれる各配列は、指定された位置に対応するタイプ０のＡＵに含まれる配列からの置換記号（バリアント）、挿入、及び／又は欠失の形態のバリアントを含む
等の結果を提供することができる。

タイプ０のアクセスユニットは順序付けられる（例えば、付番される）が、順序付けられて記憶及び／又は送信される必要はない（技術的利点：並行処理／並行ストリーミング、多重化）。

タイプ１、２、３、及び４のアクセスユニットは、順序付けられる必要はなく、順序付けられて記憶及び／又は送信される必要はない（技術的利点：並行処理／並行ストリーミング）。

技術的効果
本明細書に記載されるアクセスユニットにゲノム情報を構造化することの技術的効果は、ゲノムデータが、
１．
−ゲノムデータ全体又はデータセット全体及び／又は関連するメタデータを圧縮解除する必要なく、データの特定の「カテゴリ」（例えば、特定の一時的又は生物学的含意を有する）、
−ゲノムの他の領域を圧縮解除する必要なく、全ての「カテゴリ」、「カテゴリ」のサブセット、１つの「カテゴリ」（関連付けられたメタデータあり又はなし）のゲノムの特定の領域
にアクセスするために選択的に問い合わせることができ、
２．
−新しい解析がゲノムデータ又はデータセットに対して実行される場合、
−新しいゲノムデータ又はデータセットが、同じ有機体をシーケンシングすることによって生成される（異なる生体試料、同じタイプの異なる生体試料、例えば、血液試料であるが異なる時間に取得されたもの等）場合、
利用可能であることができる新しいデータで増分的に更新することができ、
３．
−新しい参照として（例えば、タイプ０のＡＵによって伝達される新しい参照ゲノム）使用すべき新しいゲノムデータ又はデータセット、
−符号化フォーマット仕様の更新
の場合、新しいデータフォーマットに効率的にコード変換することができること
であることである。

ＳＡＭ／ＢＡＭ等の従来技術による解決策に関して、上記技術的特徴は、データ全体が検索され、符号化フォーマットから圧縮解除された場合、アプリケーションレベルで生じるデータフィルタリングを必要とする問題に対処する。

以下、アクセスユニット構造が技術的利点にとって役立つアプリケーションシナリオの例が続く。

選択的アクセス
特に、開示される異なるタイプのアクセスユニットに基づくデータ構造は、
−関連付けられたメタデータ情報も圧縮解除する必要（現況水準の制約：異なるカテゴリ又はレイヤの区別さえもサポートすることができないＳＡＭ／ＢＡＭ）なく、全「カテゴリ」の全シーケンシング、サブセット（すなわち、１つ又は複数のレイヤ）、又は１つの「カテゴリ」のみのリード情報（データ又はデータセット）抽出、
−ゲノムの他の領域も圧縮解除する必要（現況水準の制約：ＳＡＭ／ＢＡＭ）なく、全てのカテゴリ、カテゴリのサブセット、１つのカテゴリの仮定される参照配列の特定の領域にアラインメントされた全てのリード（関連付けられたメタデータあり又はなし）の抽出
を可能にする。

図３９は、ミスマッチを有する参照配列（ＡＵ０−２）の第２のセグメントにマッピングされたゲノム情報へのアクセスがいかに、ＡＵ０−２、１−２、及び３−２のみの復号化だけを必要とするかを示す。これは、マッピング領域（すなわち、参照配列上の位置）に関連する基準及び参照配列からの符号化配列リードに適用される照合関数に関連する基準（例えば、この例ではミスマッチのみ）の両方による選択的アクセスの一例である。

更なる技術的利点は、適用されるクエリの基準及びその任意の組合せに一致するタイプ１、２、３、４のアクセスユニットの選択された「カテゴリ」、より長いゲノム配列の特定の領域、及び特定のレイヤのみのアクセス及び復号化に基づくことができるため、データアクセス可能性及び実行速度に関してデータへの問い合わせがはるかに効率的であることである。

タイプ１、２、３、４のアクセスユニットのレイヤへの編成により、
−１つ又は複数の参照ゲノムから特定のバリエーション（例えば、ミスマッチ、挿入、欠失）を有する、
−考慮される参照ゲノムのいずれにもマッピングされない、
−１つ又は複数の参照ゲノムに完全にマッピングされる、
−１つ又は複数の正確性レベルでマッピングされる
ヌクレオチド配列の効率的な抽出が可能である。

増分的更新
タイプ５及び６のアクセスユニットは、ファイル全体をデパケット化／復号化／圧縮解除する必要なく、注釈を容易に挿入できるように、それにより、従来技術の制約であるファイルの効率的な取り扱い性を高める。既存の圧縮解決策は、所望のゲノムデータにアクセスできるようになるには、先に大量の圧縮データにアクセスし処理する必要があり得る。これは、非効率的なＲＡＭ帯域幅利用及びハードウェア実装においてもより多くの消費電力を生じさせる。消費電力及びメモリアクセス問題は、本明細書に記載されるアクセスユニットに基づく手法を使用することによって軽減し得る。

マスタインデックステーブル（図２１参照）に記載されるデータ索引付けメカニズムは、アクセスユニットの利用と共に、後述する符号化コンテンツの増分的更新を可能にする。

追加データの挿入
新しいゲノム情報は、幾つかの理由により既存のゲノムデータに定期的に追加することができる。例えば、
・有機体が異なる瞬間にシーケンシングされる場合
・同じ個人の幾つかの異なる試料が同時にシーケンシングされる場合、
・シーケンシングプロセスによって生成される新しいデータ（ストリーミング）の場合。

上述した状況では、本明細書に記載されるアクセスユニット及びファイルフォーマットセクションに記載されるデータ構造を使用してデータを構造化することは、既存データを再符号化する必要なく、新たに生成されたデータの増分的統合を可能にする。増分的更新プロセスは、以下のように実施することができる。
１．新たに生成されたＡＵは単に、予め存在するＡＵを用いてファイルに連結することができ、
２．新たに生成されたデータ又はデータセットの索引付けは、本明細書のファイルフォーマットセクションに記載されるマスタインデックステーブルに含まれる。１つのインデックスは、新たに生成されたＡＵを既存の参照配列上に位置決めするものとし、他のインデックスの本質は、新たに生成されたＡＵへの直接かつ選択的なアクセスを可能にするための物理的ファイル内の新たに生成されたＡＵのポインタにある。

このメカニズムを図４０に示し、図４０では、タイプ１の３つのＡＵ及び２〜４からのタイプごとに４つのＡＵに符号化された予め存在するデータが、例えば、同じ個人の新しいシーケンシング実行からの符号化データを用いて、タイプごとに３つのＡＵで更新される。

圧縮形態でゲノムデータ及びデータセットをストリーミングする特定の使用の場合、予め存在するデータセットの増分的更新は、データがシーケンシング機によって生成されるとすぐに、実際のシーケンシングが完了する前にデータを解析する場合、有用であり得る。符号化エンジン（圧縮器）は、選択された参照配列の同じ領域にマッピングされる配列リードを「集団化」することにより、幾つかのＡＵを並行してアセンブルすることができる。最初のＡＵが、予め構成される閾値／パラメータを超えるリード数を含むと、そのＡＵを解析アプリケーションに送信する準備ができる。新たに符号化されたアクセスユニットと共に、符号化エンジン（圧縮器）は、新しいＡＵが依存する全てのアクセスユニットが、受信側に既に送信されているか、又はそれと一緒に送信されることを確実にする。例えば、タイプ３のＡＵを適宜復号化するためには、受信側にタイプ０及びタイプ１の適切なＡＵが存在する必要がある。

記載されるメカニズムにより、受信側のバリアントコールアプリケーションは、シーケンシングプロセスが送信側で完了する前、受信したＡＵに対してバリアントコールを開始することが可能である。このプロセスの概略を図４１に示す。

結果の新しい解析
ゲノム処理寿命サイクル中、ゲノム解析の幾つかの反復を同じデータ（例えば、異なる処理アルゴリズムを使用した異なるバリアントコール）に適用することができる。本明細書において定義されるＡＵ及び本明細書のファイルフォーマットセクションに記載されるデータ構造の使用は、新しい解析の結果を用いて既存の圧縮データを増分的に更新できるようにする。

例えば、既存の圧縮データに対して実行される新しい解析は、これらの場合、新しいデータを生成することができる：
１．新しい解析は、符号化データに既に関連付けられた既存の結果を変更することができる。この使用事例を図４２に示し、これは、１つのアクセスユニットの内容を全体的又は部分的にあるタイプから別のタイプに移すことによって実施される。新しいＡＵを作成する必要がある（ＡＵごとに予め定義される最大サイズに起因して）場合、マスタインデックステーブル内に関連するインデックスを作成しなければならず、関連するベクトルは、必要な場合、ソートされる。
２．新しいデータは、新しい解析から生成され、既存の符号化データに関連付けられる必要がある。この場合、タイプ５の新しいＡＵを生成し、同じタイプのＡＵの既存のベクトルと連結することができる。マスタインデックステーブルのこの更新及び関連する更新を図４３に示す。

上述され、図４２及び図４３に示されている使用事例は、
１．不良なマッピング品質を有するデータ（例えば、タイプ４のＡＵ）のみに直接アクセスを有することが可能であり、
２．恐らくは新しいタイプに属する新しいアクセスユニットを単に作成することにより、新しいゲノム領域にリードを再マッピング可能であり（例えば、タイプ４のＡＵに含まれていたリードを、ミスマッチがより少ない新しい領域（タイプ２−３）に再マッピングし、新たに作成されたＡＵに含めることができる）、
３．新たに作成された解析結果及び／又は関連する注釈のみを含むタイプ６のＡＵを作成可能であることであって、この場合、新たに作成されるＡＵは、参照する既存のＡＵへの「ポインタ」のみを含む必要がある、タイプ６のＡＵを作成可能であること
により可能になる。

コード変換
圧縮ゲノムデータは、例えば、以下の状況においてコード変化する必要があり得る：
・新しい参照配列の公開、
・異なるマッピングアルゴリズムの使用（再マッピング）。

ゲノムデータが既存の公開参照ゲノムにマッピングされる場合、上記参照配列の新バージョンが公開されるとき又は異なる処理アルゴリズムを使用してデータをマッピングしたいときは、今日、再マッピングのプロセスが必要とされる。ＳＡＭ又はＣＲＡＭ等の従来技術によるファイルフォーマットを使用して圧縮データを再マッピングする場合、新たに利用可能になった参照配列への参照を用いて又は異なるマッピングアルゴリズムを使用して再びマッピングするためには、圧縮データ全体を圧縮解除して「生」の形態にする必要がある。これは、新たに公開された参照が前の参照とわずかにのみ異なる場合又は使用される異なるマッピングアルゴリズムが、前のマッピングと非常に近い（又は同一の）マッピングを生成する場合であっても該当する。

本明細書に記載されるアクセスユニットを使用して構造化されたゲノムデータをコード変換することの利点は、以下である。
１．マッピングと新しい参照ゲノムで必要とされるのは、変更されたゲノム領域にマッピングされるＡＵのデータの再符号化（圧縮解除及び圧縮）のみである。さらに、ユーザは、任意の理由で、元々、変更された領域にマッピングされていない場合であっても、再マッピングする必要があり得る圧縮リードを選択し得る（これは、前のマッピングの品質がよくないとユーザが信じる場合、生じ得る）。この使用事例を図４４に示す。
２．新たに公開された参照ゲノムが、領域全体が異なるゲノム位置（「座位」）にシフトされたという点でのみ前と異なる場合、コード変換動作は特に単純で効率的である。実際に、「シフトされた」領域にマッピングされた全てのリードを移動させるには、関連する（１組の）ＡＵヘッダに含まれる絶対位置の値のみを変更するだけで十分である。各ＡＵヘッダは、ＡＵに含まれる最初のリードが参照配列にマッピングされる絶対位置を含み、一方、他の全てのリード位置は、その最初の位置からの差として符号化される。したがって、最初のリードの絶対位置の値を単に更新することで、ＡＵ内の全てのリードはそれに従って移動する。このメカニズムは、ＣＲＡＭ及びＢＡＭなどの現況水準の手法によって実施することができず、その理由は、ゲノムデータ位置が圧縮されたペイロードに符号化され、したがって、全てのゲノムデータセットの完全な圧縮解除及び再圧縮が必要なためである。
３．異なるマッピングアルゴリズムが使用される場合、よくない品質でマッピングされたと思われる圧縮リードの部分のみに適用することが可能である。例えば、参照ゲノムに完全には一致しなかったリードのみに新しいマッピングアルゴリズムを適用することが適切であり得る。今日、既存のフォーマットを使用した場合、マッピング品質（すなわち、ミスマッチの存在及び数）に従ってリードを抽出することは可能ではない（又は幾つかの制約付きで部分的にのみ可能である）。新しいマッピング結果が新しいマッピングツールによって返される場合、関連するリードは、あるＡＵから同じタイプの別のＡＵに（図４６）又はあるタイプのあるＡＵから別のタイプのＡＵに（図４５）コード変換することができる。

さらに、従来技術による圧縮解決策は、所望のゲノムデータにアクセスするには、先に大量の圧縮データにアクセスし処理する必要があり得る。これは、非効率的なＲＡＭ帯域幅の利用及びより大きな消費電力を生じさせる及びハードウェア実装において。消費電力及びメモリアクセスの問題は、本明細書に記載されるアクセスユニットに基づく手法を使用することによって軽減し得る。

本明細書に記載されるゲノムアクセスユニットの採用の更なる利点は、並行処理の促進及びハードウェア実装の適切性である。ＳＡＭ／ＢＡＭ及びＣＲＡＭ等の現在の解決策は、シングルスレッドソフトウェア実装に向けて考えられている。

選択的暗号化
本明細書に記載される幾つかのタイプレイヤに編成されるアクセスユニットに基づく手法は、現況水準のモノリシックな解決策では可能ではないコンテンツ保護メカニズムの実装を可能にする。

当業者は、有機体の遺伝プロファイルに関連するゲノム情報の大半が、既知の配列（例えば、参照ゲノム又はゲノムの母集団）との違い（バリアント）に依拠することを知っている。したがって、不正アクセスから保護すべき個人の遺伝プロファイルは、本明細書に記載されるタイプ３及び４のアクセスユニットに符号化される。したがって、シーケンシング及び解析プロセスによって生成される最も機密的なゲノム情報への制御されたアクセスの実施は、タイプ３及び４のＡＵ（一例として図４７を参照のこと）のペイロードのみを暗号化することによって実現することができる。これは、リソースを消費する暗号化プロセスがデータのサブセットのみに適用され得るため、処理能力及び帯域幅の両方の点で大きな節約を生み出す。

ゲノムアクセスユニットの輸送
ゲノムデータマルチプレックス
ゲノムアクセスユニットは、ゲノムデータマルチプレックス内で通信ネットワークを解して輸送することができる。ゲノムデータマルチプレックスは、本発明の一環として開示されるデータ分類に従って表され、パケット損失等のエラーが生じ得るネットワーク環境において送信される、パッケージされたゲノムデータ及びメタデータの配列として定義される。

ゲノムデータマルチプレックスは、異なる環境（通常、ネットワーク環境）を介したゲノムコード化データの輸送を容易にしより効率的にすると考えられ、現況水準の解決策には存在しない以下の利点を有する。
１．ゲノムデータ（後述）のストリーム若しくは配列又は符号化ツールによって生成されたゲノムファイルフォーマットを１つ又は複数のゲノムデータマルチプレックスにカプセル化して、ネットワーク環境を介して搬送し、次に、有効な同一のストリーム又はファイルフォーマットを回復して、送信及び情報へのアクセスをより効率的にすることができる。
２．復号化及び提示のために、カプセル化されたゲノムデータストリームから符号化ゲノムデータを選択的に検索できるようにする。
３．輸送のために幾つかのゲノムデータセットを１つの情報コンテナに多重化できるようにし、搬送された情報のサブセットを新しいゲノムデータマルチプレックスに逆多重化できるようにする。
４．異なるソース（結果として別個のアクセスを有する）及び／又はシーケンシング／解析プロセスによって生成されたデータ及びメタデータを多重化できるようにし、ネットワーク環境を介して、生成されたゲノムデータマルチプレックスを送信する。
５．パケット損失等のエラーの識別をサポートする。
６．ネットワーク遅延に起因して順序違いで到着し得るデータの適切な並べ替えをサポートし、したがって、現況水準の解決策と比較した場合、ゲノムデータの送信をより効率的にする。

ゲノムデータ多重化の一例を図４９に示す。

ゲノムデータセット
本発明の文脈においては、ゲノムデータセットは、例えば、生物のゲノムデータ、ゲノムデータ処理の幾つかのステップによって生成された１つ若しくは複数の配列及びメタデータ、又は生物のゲノムシーケンシングの結果を含む構造化された１組のゲノムデータとして定義される。１つのゲノムデータマルチプレックスは、複数のゲノムデータセットを含み得（マルチチャネルシナリオと同様に）、その場合、各データセットは異なる有機体を参照する。幾つかのデータセットを１つのゲノムデータマルチプレックスに多重化するメカニズムは、ゲノムデータセットリスト（ＧＤＬ）及びゲノムデータセットマッピングテーブル（ＧＤＭＴ）と呼ばれるデータ構造に含まれる情報によって支配される。

ゲノムデータセットリスト
ゲノムデータセットリスト（ＧＤＬ）は、ゲノムデータマルチプレックスにおいて利用可能な全てのゲノムデータセットを列挙するデータ構造として定義される。列挙された各ゲノムデータセットは、ゲノムデータセットＩＤ（ＧＩＤ）と呼ばれる一意の値によって識別される。

ＧＤＬに列挙される各ゲノムデータセットは、
・１つのゲノムデータセットマッピングテーブル（ＧＤＭＴ）を搬送し、特定の値のストリームＩＤ（ｇｅｎｏｍｉｃ＿ｄａｔａｓｅｔ＿ｍａｐ＿ＳＩＤ）によって識別される１つのゲノムデータストリーム、
・１つの参照ＩＤマッピングテーブル（ＲＩＤＭＴ）を搬送し、特定の値のストリームＩＤ（ｒｅｆｅｒｅｎｃｅ＿ｉｄ＿ｍａｐ＿ＳＩＤ）によって識別される１つのゲノムデータストリーム
に関連付けられる。

ＧＤＬは、ゲノムデータストリーム送信の開始時に１つの輸送パケットのペイロードとして送信され、次に、ストリームへのランダムアクセスを可能にするために、定期的に再送信することができる。

ＧＤＬデータ構造のシンタックスは、各シンタックス要素に関連付けられたデータ型の表示と共に以下の表に提供される。

上述したＧＤＬを作るシンタックス要素は、以下の意味及び機能を有する。

ゲノムデータセットマッピングテーブル
ゲノムデータセットマッピングテーブル（ＧＤＭＴ）は、ストリーミングプロセスの開始時に生成され送信される（恐らく、ストリーミングされたデータ内の対応点及び関連依存性の更新を可能にするために、定期的に再送信されるか、更新されるか、又は同一である）。ＧＤＭＴは、ゲノムデータセットリストに続き１つのパケットで搬送され、１つのゲノムデータセットを作るゲノムデータストリームを識別するＳＩＤを列挙する。ＧＤＭＴは、ゲノムマルチプレックスによって搬送される１つのゲノムデータセットを作るゲノムデータストリーム（例えば、ゲノム配列、参照ゲノム、メタデータ等）の全ての識別子の完全な集まりである。ゲノムデータセットマッピングテーブルは、各ゲノムデータセットに関連付けられたゲノムデータのストリームの識別子を提供することにより、ゲノム配列へのランダムアクセスを可能にするのに役立つ。

上述したＧＤＭＴを作るシンタックス要素は以下の意味及び機能を有する。

ｅｘｔｅｎｓｉｏｎ＿ｆｉｅｌｄは、ゲノムデータセット又は１つのゲノムデータセット構成要素のいずれかを更に記述するのに使用し得る任意選択的な記述子である。

参照ＩＤマッピングテーブル
参照ＩＤマッピングテーブル（ＲＩＤＭＴ）は、ストリーミングプロセスの開始時に生成され送信される。ＲＩＤＭＴは、ゲノムデータセットリストに続き１つのパケットによって搬送される。ＲＩＤＭＴは、アクセスユニットのブロックヘッダに含まれる参照配列の数値識別子（ＲＥＦＩＤ）と、表１において指定される主要ヘッダに含まれる（通常、文字の）参照識別子との間のマッピングを指定する。

ＲＩＤＭＴは、
・ストリーミングされたデータ内の対応点及び関連依存性の更新を可能にするため、
・予め存在する参照配列に追加される新しい参照配列の統合（例えば、ｄｅ−ｎｏｖｏアセンブリプロセスによって作成される合成参照）をサポートするため
に、定期的に再送信することができる。

ＲＩＤＭＴデータ構造のシンタックスは、各シンタックス要素に関連付けられるデータ型の表示と共に以下の表に提供される。

上述したＲＩＤＭＴを作るシンタックス要素は以下の意味及び機能を有する。

ゲノムデータストリーム
ゲノムデータマルチプレックスは、１つ又は幾つかのゲノムデータストリームを含み、各ストリームは、
・輸送情報（例えば、ゲノムデータセットリスト、ゲノムデータセットマッピングテーブル等）を含むデータ構造、
・本発明に記載されるゲノムデータレイヤの１つに属するデータ、
・ゲノムデータに関連するメタデータ、
・任意の他のデータ
を輸送することができる。

ゲノムデータを含むゲノムデータストリームは基本的に、ゲノムデータレイヤをパケット化したものであり、各パケットは、パケットの内容及びマルチプレックスの他の要素といかに関連するかを記述したヘッダが前置される。

本明細書に記載されるゲノムデータストリームフォーマット及び本発明において定義されるファイルフォーマットは同義である。完全なファイルフォーマットは、全てのデータを受信した後でのみ、完全に再構築することができるが、ストリーミングの場合、復号化ツールは、任意のときに部分データを再構築し、アクセスし、処理を開始することができる。

ゲノムデータストリームは、それぞれが１つ又は複数のゲノムデータパケットを含む幾つかのゲノムデータブロックによって構成される。ゲノムデータブロック（ＧＤＢ）は、１つのゲノムＡＵを構成するゲノム情報のコンテナである。ＧＤＢは、通信チャネル要件に従って幾つかのゲノムデータパケットに分割することができる。ゲノムアクセスユニットは、異なるゲノムデータストリームに属する１つ又は複数のゲノムデータブロックによって構成される。

ゲノムデータパケット（ＧＤＰ）は、１つのＧＤＢを構成する送信ユニットである。パケットサイズは通常、通信チャネル要件に従って設定される。

図２７は、本発明において定義されるＰに属するデータを符号化する場合、ゲノムマルチプレックス、ストリーム、アクセスユニット、ブロック、及びパケットの関係を示す。この例では、３つのゲノムストリームが、配列リードの位置、ペア、及び逆相補についての情報をカプセル化する。

ゲノムデータブロックは、ヘッダ、圧縮データのペイロード、及びパディング情報によって構成される。以下の表に、各フィールド及び典型的なデータ型の説明と共に、ＧＤＢヘッダの実装の一例を提供する。

ＡＵＩＤ、ＰＯＳ、及びＢＳの使用は、本発明においてマスタインデックステーブル（ＭＩＴ）及びローカルインデックステーブル（ＬＩＴ）と呼ばれるデータ索引付けメカニズムをデコーダが再構築できるようにする。データストリーミングシナリオでは、ＡＵＩＤ及びＢＳの使用は、追加データを送信する必要なく、受信側がＬＩＴをローカルに動的に再作成できるようにする。ＡＵＩＤ、ＢＳ、及びＰＯＳの使用は、追加データを送信する必要なく、ＭＩＴをローカルに再作成できるようにする。

これには、
・ＬＩＴ全体が送信される場合、大きいことがある符号化オーバーヘッドを低減し、
・通常、ストリーミングシナリオでは利用可能ではない、ゲノム位置とアクセスユニットとの間の完全なマッピングの必要性をなくす
という技術的利点を有する。

ゲノムデータブロックは、最大パケットサイズ、パケット損失率等のネットワークレイヤ制約に応じて、１つ又は複数のゲノムデータパケットに分割することができる。ゲノムデータパケットは、以下の表に記載されるように、ヘッダと、符号化又は暗号化されたゲノムデータのペイロードとで構成される。

ゲノムマルチプレックスは、あらゆるパケットを特定のゲノムデータセット構成要素にマッピングできるようにする少なくとも１つのゲノムデータセットリスト、１つのゲノムデータセットマッピングテーブル、及び１つの参照ＩＤマッピングテーブルを受信した場合のみ、適宜復号化することができる。

マルチプレックス符号化プロセス
図４９は、本発明において提示されるデータ構造で変換される前、生のゲノム配列データがいかに、事前に既知の１つ又は複数の参照配列にマッピングされる必要があるかを示す（４９３）。参照配列が利用可能ではない場合、合成参照を生の配列データから構築することができる（４９０）。このプロセスはｄｅ−ｎｏｖｏアセンブリとして知られている。既にアラインメントされたデータは、情報エントロピーを低減するために、再アラインメントすることができる（４９２）。アラインメント後、ゲノム分類器（４９４）は、１つ又は複数の参照配列上の配列リードの照合関数に従ってデータクラスを作成し、メタデータ（４３２）（例えば、クオリティ値）及び注釈データ（４３１）をゲノム配列から分離する。次に、データパーサ（４９５）が、本発明に記載されるアクセスユニットを生成し、ゲノムマルチプレクサ（４９６）に送信し、ゲノムマルチプレクサ（４９６）はゲノムマルチプレックスを生成する。

Claims

多重化データストリームとしてゲノムデータを送信する方法であって、
前記多重化データストリームは、
ゲノムストリーム内で利用可能なゲノムデータを含む全てのゲノムデータセットのリストを提供するゲノムデータセットリストデータ構造と、
各ゲノムデータセットに関連付けられた前記ゲノムデータの各ストリームの識別子を提供するゲノムデータセットマッピングテーブルと、
ランダムにアクセス可能なアクセスユニットに分割されたゲノムデータセットと、
を含み、
前記ゲノムストリームは、ゲノム配列リードを単意的に表す同種データ記述子の複数のレイヤに編成される符号化されたアラインメントリードを含み、
各アクセスユニットのヘッダには、参照ゲノムに対する絶対位置として最初のリードのマッピング位置が記憶され、
他の全ての位置は、前の位置からの差分として表現されて特定のレイヤに記憶され、
前記方法は、同種データ記述子の前記複数のレイヤを圧縮し、前記データストリームを送信することを更に含む、方法。
更に、前記アクセスユニットのブロックヘッダに含まれる参照配列の数値識別子と、前記ストリームのメインヘッダに含まれる参照識別子との間のマッピングを提供する参照ＩＤマッピングテーブルとを生成して送信する、請求項１に記載の方法。
前記ゲノムデータセットはアクセスユニットに分割される、請求項２に記載の方法。
前記アクセスユニットはブロックに分割される、請求項３に記載の方法。
前記ブロックはパケットに分割される、請求項４に記載の方法。
前記ゲノムデータセットリストは、各ゲノムデータセットに関連付けられ、前記多重化ストリームにおいて多重化される前記ストリームを識別する情報を含む、請求項１〜５のいずれか一項に記載の方法。
前記ゲノムデータセットマッピングテーブルは、各ゲノムデータセットに関連付けられた前記ゲノムデータのストリームを識別する情報を含むことにより、ゲノム配列へのランダムアクセスを可能とする、請求項１〜５のいずれか一項に記載の方法。
各ゲノムデータセットに関連付けられた前記ゲノムデータのストリームは、ゲノム配列、参照ゲノム配列、メタデータを含む、請求項７に記載の方法。
前記ゲノムデータセットマッピングテーブルは、前記ゲノムデータセットリストに続けて１つのパケットで送信される、請求項１に記載の方法。
前記ゲノムデータセットリストデータ構造は、１つの輸送パケットのペイロードとして送信される、請求項１に記載の方法。
前記ゲノムデータセットリストデータ構造は、前記ストリームへのランダムアクセスを可能にするために定期的に再送信される、請求項１０に記載の方法。
請求項１〜１１のいずれか一項に記載の方法を実行する、送信装置。
請求項１〜１１のいずれか一項に記載の方法を実行する命令セットを含むプログラムを記録したコンピュータ可読記録媒体。
前記ゲノムデータをファイルフォーマットを形成するように編成する、請求項１〜１１のいずれか一項に記載の方法。
請求項１２に記載される送信装置を含む多重化ゲノムデータを伝送するシステム。