JP2020505702A

JP2020505702A - 保存または送信されたバイオインフォマティクスデータへの選択的アクセスのための方法およびシステム

Info

Publication number: JP2020505702A
Application number: JP2019540510A
Authority: JP
Inventors: ゾイア，ジョルジョ; レンジ，ダニエル; コソバルチ，モハメド
Original assignee: ゲノムシスエスエー
Priority date: 2016-10-11
Filing date: 2017-02-14
Publication date: 2020-02-20
Also published as: CL2019000973A1; BR112019007357A2; PH12019550057A1; CN110168651A; CO2019009922A2; CN110121577B; JP7079786B2; CA3040145A1; PE20200226A1; CN110678929B; IL265972A; US20200051665A1; PE20191057A1; PH12019501879A1; BR112019007359A2; CO2019003639A2; PE20200323A1; KR20190073426A; CO2019003842A2; CN110121577A

Abstract

ゲノムデータの保存または送信は、ファイルまたはゲノムデータのストリームに構造化された圧縮ゲノムデータセットを採用することによって実現される。特定のゲノム領域に対応するデータまたはデータのサブセットへの選択的なアクセスは、データ分類および特定のインデックスメカニズムに基づいてユーザ定義のラベルを使用することによって達成される。【選択図】図４８

Description

本出願は、ゲノムデータセットを構成する異なるデータカテゴリの効率的な選択的アクセスおよび選択的保護を可能にする、バイオインフォマティクスデータ、特にゲノム配列データの圧縮形式での効率的な保存、送信および多重化のための新しい方法を提供する。

ゲノムシーケンスデータの適切な表示は、シーケンスデータおよびメタデータを処理することによって、様々な目的で行われるゲノムバリアントの決定および全ての分析のような分析アプリケーションを可能にし、容易にするために、ゲノムデータの効率的な処理、保存、送信を可能にすることが重要である。現在、ゲノム配列情報は、定義された語彙からの文字列によって表されるヌクレオチド（別名：塩基）配列の形でハイスループットシーケンシング（ＨＴＳ）装置によって生成される。

これらのシーケンシング装置は全てのゲノムまたは遺伝子を読み出すのではないが、それらはシーケンスリードとして知られるヌクレオチド配列の短いランダム断片を生成する。品質スコアは、シーケンスリードの各ヌクレオチドに関連付けられている。そのような数値は、ヌクレオチド配列中の特定の位置における特定のヌクレオチドの読み取りに対して装置によって与えられる信頼水準を示す。

ＮＧＳ装置によって生成されたこの生のシーケンスデータは、通常ＦＡＳＴＱファイルに保存されている（図１参照）。

シーケンスプロセスによって得られたヌクレオチドの配列を示す最小の語彙は、ＤＮＡに存在するアデニン、シトシン、グアニン、チミンを示す４種類のヌクレオチドと、シーケンシング装置が十分なレベルの信頼度で任意の塩基をもたらすことができなかったことを示し、このような位置のベースの種類は読取プロセスにおいて未確定のままであるシンボルＮとの５個のシンボル[Ａ、Ｃ、Ｇ、Ｔ、Ｎ]によって構成される。ＲＮＡにおいてチミンはウラシル（Ｕ）に置換される。シーケンシング装置によって生成されたヌクレオチド配列は、「リード」と呼ばれる。ペアのリードの場合、リードペアが抽出された元の配列を示すために「テンプレート」という用語が使用される。シーケンスリードは数十から数千までの範囲の数のヌクレオチドで構成することができる。いくつかの技術は、各リードがＤＮＡ２本鎖の内の1つから生じることができるペアでシーケンスリードを生成する。

ゲノムシーケンシングの分野において、「カバレッジ」という用語は、参照ゲノムに対する配列データの冗長性のレベルを示すために使用される。例えば、ヒトゲノム（３．２億ベース長）の３０倍のカバレッジに達するためには、シーケンシング装置は、参照内の各位置が平均３０回「カバーされる」ように、合計約３０×３．２億ベース生成しなければならない。

先行技術の解決策
最も使用されている配列データのゲノム情報表示は、オリジナルのサイズを縮小することを試みるために、ジップ形式で一般に利用可能であるＦＡＳＴＱおよびＳＡＭファイルフォーマットに基づいている。従来のファイルフォーマットである、非整列および整列された配列データそれぞれのためのＦＡＳＴＱおよびＳＡＭは、プレーンテキスト文字で構成されるため、ＬＺ(ＬｅｍｐｅｌとＺｉｖから)方式(周知のｚｉｐ、ｇｚｉｐ等)などの汎用アプローチを使用して圧縮される。Ｇｚｉｐなどの汎用コンプレッサを使用する場合、圧縮の結果は通常、単一のバイナリデータのブロブである。このようなモノリシック形式の情報は、データのボリュームが非常に大きい高スループットシーケンシングの場合には、アーカイブ、転送、が非常に困難である。

シーケンシング後、ゲノム情報処理パイプラインの各段階は、実際には生成されたデータのごく一部が前の段階に対して新しいという事実にもかかわらず、全く新しいデータ構造（ファイルフォーマット）によって表されるデータを生成する。

図１は、典型的なゲノム情報処理パイプラインの主要な段階を関連するファイルフォーマット表現の表示と共に示す。

一般的に使用される解決法は、いくつかの欠点を提示する。ゲノム情報処理パイプラインの各段階で異なるファイルフォーマットが使用され、それがデータの多重複製を意味し、その結果必要な記憶スペースが急速に増加するので、一般的にデータアーカイブは非効率的である。これは非効率的で不必要であり、また、ＨＴＳ装置によって生成されるデータ量の増加に対して維持不可能になりつつある。実際に、これは利用可能な保存スペースおよび発生コストの点で結果を招き、また、医療におけるゲノム分析の利益が人口の大部分に達することを妨げている。保存および分析されるべき配列データの指数的な増加によって生じるＩＴコストの影響は、現在、科学的コミュニティ及びヘルスケア業界が直面しなければならない主な課題の一つである(ＳｃｏｔｔＤ．Ｋａｈｎ「ゲノムデータの将来について」Ｓｃｉｅｎｃｅ３３１、７２８（２０１１）およびＰａｖｌｉｃｈｉｎ，Ｄ.Ｓ.、Ｗｅｉｓｓｍａｎ，Ｔ.、およびＧ.Ｙｏｎａ．２０１３．「ヒトゲノムは、再び縮小する」Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２９（１７）：２１９９−２２０２を参照）。同時に、いくつかは、少数の選択された個体から大きな集団へとゲノム配列決定をスケールすることを試みる先駆けである。（ＪｏｓｈＰ．Ｒｏｂｅｒｔｓ「シーケンスのミリオンベテラン」ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ３１、４７０（２０１３）を参照）

現在使用されているデータフォーマットは、処理するために受信側で完全に転送される必要がある最大数百ギガバイトのサイズのモノリシックファイルに編成されているので、ゲノムデータの転送は低速でかつ非効率的である。これは、データの小さなセグメントの分析に、消費される帯域幅および待機時間の観点からかなりのコストをかけてファイル全体の転送を必要とすることを意味する。多くの場合、オンライン転送は大容量のデータを転送するのには無理があり、データの転送は、ハードディスクドライブやストレージサーバ等の記憶媒体をある場所から別の場所に物理的に移動することによって行われる。

当技術手法を採用する際に生じるこれらの制限は、本発明によって克服される。

データの処理は時間がかかり、一般的に使用される分析アプリケーションで必要とされる一部の異なるクラスのデータおよびメタデータを、全データにアクセスする必要なしに取り出すことができないように情報が構築されていないという事実に関しては非効率的である。この事実は、特定の分析目的に関連するデータの部分がはるかに小さくても、アクセスの各段階で大量のデータを解析およびフィルタリングする必要があるため、一般的な分析パイプラインは数日又は数週間実行し、貴重で高価な処理資源を浪費する必要があることを意味する。

これらの制限は、ヘルスケアの専門家がタイムリーにゲノム分析レポートを取得し、疾患に迅速に対応することを防げる。本発明は、この必要性に対する解決策を提供する。

本発明によって克服される他の技術的制限がある。

実際、本発明は、データおよびメタデータの圧縮が最大化され、増分更新のための選択的アクセスおよびサポートのようないくつかの機能が効率的に可能になるように、データを編成および分割することによって、適切なゲノム配列データおよびメタデータの表示を提供することを目的とする。

本発明の主な態様は、特定のレイヤに構造化することによって別々にコード化(すなわち圧縮)された適切なソースモデルによって表されるデータおよびメタデータのクラスの特定の定義である。従来の先行技術の方法に関する本発明の最も重要な効果は、以下のものからなる。
・データ又はメタデータの各クラスに対して効率的なモデルを提供することにより構成される情報ソースエントロピーの低減による圧縮性能の向上・圧縮されたドメインにおいて直接的にさらなる処理の目的のために圧縮されたデータおよびメタデータの一部への選択的なアクセスを実行する可能性
・ゲノムファイルヘッダに含まれる「ラベルリスト」を解析することによって圧縮データへの効率的な選択的アクセスを可能にするために、ゲノム領域もしくはサブ領域、または領域もしくはサブ領域の集合体を識別するユーザ指定の「ラベル」を定義する可能性
・ラベルによって識別される異なるゲノム領域またはサブ領域へのアクセス制御および保護を実施する可能性
・新たなシーケンスデータおよび/またはメタデータおよび/または新たな分析結果を有するコード化データおよびメタデータをさらに(再コード化することなく)更新および追加する可能性
・シーケンシングまたはアライメントプロセスの終了を待たずに、シーケンシング装置またはアライメントツールによって生成されたらすぐにデータを効率的に処理する可能性

本出願は、多重化技術と組み合わせた構造化アクセスユニットアプローチを採用することによって、非常に大量のゲノム配列データの効率的な操作、保存および送信の問題に対処する方法およびシステムを開示する。

本出願は、ゲノムデータのアクセス可能性、選択的データ保護、データサブセットの効率的な処理、効率的な圧縮と組み合わされた送信およびストリーミング機能の機能性に関する従来技術のアプローチのすべての制限を克服する。

現在、ゲノムデータのための最も使用されている表現フォーマットは、シーケンスアライメントマッピング(ＳＡＭ)テキストフォーマットおよびそのバイナリ対応ＢＡＭである。ＳＡＭファイルは人間が読めるＡＳＣＩＩテキストファイルであるが、ＢＡＭはｇｚｉｐのブロックベースバリアントを採用する。ＢＡＭファイルは、ランダムアクセスの限定された様式を可能にするためにインデックスを付けることができる。これは、別のインデックスファイルの作成によってサポートされる。

ＢＡＭフォーマットは、以下の理由により、圧縮性能が不十分であることを特徴とする。
１．ＳＡＭファイルによって伝達された実際のゲノム情報を抽出し、それを圧縮するための適切なモデルを使用するのではなく、非効率的かつ冗長なＳＡＭファイルフォーマットを圧縮することに焦点を当てている。
２．各データソース（ゲノム情報自体）の固有の性質を開発するのではなく、ｇｚｉｐなどの汎用テキスト圧縮アルゴリズムを採用している。
３. いかなる概念も欠いており、特定のクラスのゲノムデータへの選択的アクセスを提供するメカニズムの実行を可能にするであろうデータ分類に関連するいかなる機能性もサポートしない。

あまり一般的ではないがＢＡＭよりも効率的なゲノムデータ圧縮に対するより洗練されたアプローチはＣＲＡＭ(ＣＲＡＭ仕様：https://samtools.github.io/hts-specs/CRAMv3.pdf)である。ＣＲＡＭは、既存の基準に対して差分コード化を採用するためのより効率的な圧縮を提供する(これは、データソースの冗長性を部分的に利用する)が、追加の更新、ストリーミングのためのサポート、および特定のクラスの圧縮されたデータへの選択的なアクセスのような機能は欠けている。

ＣＲＡＭは、ＣＲＡＭレコードの概念に依存する。各ＣＲＡＭレコードは、それを再構成するために必要なすべての要素をコード化することによって、単一のマップされたまたはマッピングされていないリードをコード化する。

ＣＲＡＭは、本明細書に記載された本発明によって解決され除去される以下の欠点および制限を提示する。

１．ＣＲＡＭは、特定の特徴を共有するデータサブセットへのデータのインデックス作成およびランダムアクセスをサポートしない。データインデックス作成は、仕様の範囲外であり(ＣＲＡＭ仕様ｖ３．０のセクション１２参照)、別のファイルとして実装される。逆に、この明細書に記載されている本発明のアプローチは、コード化プロセスと統合されており、インデックスがコード化された（すなわち、圧縮された）ビットストリームに埋め込まれているデータインデックス方法を採用する。
２．ＣＲＡＭは、選択的アクセスが効率的であり、ランの分離（すなわち、実際の有機サンプルからゲノム情報を抽出するプロセス）が維持されるように、いくつかのシークエンスランに関連するデータの集約をサポートしない。ＣＲＡＭはリードを異なるグループに属するものとして分類する可能性を提供するが、これはリードごとのリードベースで提供され、異なるグループからのリードはファイル構造内で混合される。本発明では、効率的な選択的アクセスが利用可能となるように、異なるシーケンシングラン間の分離を維持するようにデータを構造化するための方法が記載される。
３．ＣＲＡＭは、あらゆるタイプのマップされたリード（完全一致リード、置換のみのリード、挿入または欠失のあるリード（「インデル」とも呼ばれる））を含むことができるコアデータブロックによって構築される。参照シーケンスに対するマッピングの結果に応じた、クラス内のリードのデータ分類およびグループ化の概念は存在しない。これは、特定の特徴を有するリードのみが検索された場合でも、全てのデータを検査する必要があることを意味する。このような制限は、コード化の前にデータをクラスに分類し、分割することによって、本発明によって解決される。
４．ＣＲＡＭは、各リードを「ＣＲＡＭレコード」にカプセル化するという概念に基づく。これは、特定の生物学的特徴を特徴とするリード（例えば、置換はあるが「インデル」は含まないリード、または完全にマッピングされたリード）を検索するときに、それぞれの完全な「レコード」を調べる必要があることを意味する。
逆に、本発明では、別個の情報レイヤで別々にコード化されたデータクラスの概念があり、各リードをカプセル化するレコードの概念はない。これは、その特徴を検査するために各（複数の）ブロックのリードを必要とせずに、特定の生物学的特性を有する一連のリード（例えば、置換を伴うが「インデル」なしのリード、または完全にマッピングされたリード）へのより効率的なアクセスを可能にする。
５．ＣＲＡＭレコードにおいて、各ＣＲＡＭレコードが任意の異なるタイプのデータを含むことができるので、レコード内の各フィールドは特定のフラグに関連付けられ、各フラグはコンテキストの概念がないので常に同じ意味を有していなければならない。このコーディングメカニズムは、冗長な情報を導入し、効率的なコンテキストベースのエントロピーコーディングの使用を防げる。
逆に、本発明では、データが属する情報「レイヤ」によって本質的に定義されているので、データを示すフラグの概念は存在しない。これは、使用されるシンボルの数が大幅に削減され、結果として情報ソースのエントロピーが減少し、結果としてより効率的な圧縮がもたらされることを意味する。このような改善は、異なる「レイヤ」を使用することにより、エンコーダはコンテキストに応じて異なる意味を有する各レイヤにわたって同一のシンボルを再利用することによって可能である。ＣＲＡＭでは、コンテキストの概念が存在しないので、各フラグは常に同じ意味を有していなければならず、各ＣＲＡＭレコード、任意のタイプのデータを含むことができる。
６．ＣＲＡＭにおいて、置換、挿入および欠失は、異なる構文要素、情報ソースアルファベットのサイズを増大させ、より高いソースエントロピーをもたらすオプションを使用することによって表される。逆に、開示された本発明のアプローチは、単一のアルファベットを使用し、置換、挿入および欠失をコード化する。これにより、コード化およびデコード化プロセスが単純化され、コード化がもたらす高い圧縮性能を特徴とするビットストリームである低エントロピーソースモデルが生成される。
７．ＣＲＡＭは、ゲノムデータの特定の領域もしくは部分領域またはそれらの集合体を独自に識別するためのいかなるメカニズムも提供しない。ＣＲＡＭ仕様によれば、参照シーケンス上の開始位置および終了位置に関する遺伝子座の定義とは別に、以下の方法はない。
―― 領域にラベルを付け、ゲノムの開始位置と終了位置の代わりに定義されたラベルを使用してアクセスする。同じゲノム領域の開始位置および終了位置は、新しい参照シーケンスが公表されると変化する可能性があるが、定義されたラベルはそのような変化をいかなるエンドユーザーにも隠すであろう。コード化およびデコード化システムは、ラベルによって識別された実際の領域を新たに公開された参照シーケンスに適合させるように注意を払うであろう。
―― エンドユーザーが複雑にネスト化したクエリを含まない単一のクエリで必要なデータを選択できるように、同じラベルの下に複数の領域またはサブ領域を集約する。この明細書で説明されているように、全体の集約メカニズムはコード化およびデコード化システムに組み込まれる。
８. ＣＲＡＭは、そのような領域が予め定義されている場合も、それらがユーザが適切な"ラベル"を挿入することによって指定されている場合も、ゲノムデータまたはその集合体の特定の領域またはサブ領域に対する選択的な保護およびアクセス制御を実施するための任意のメカニズムを提供またはサポートしない。

ＣＲＡＭの他に、ゲノムデータ圧縮及び処理に対する他のアプローチも、所望の機能の大部分に対して強力な制限を与えるものであり、明細書の以下に記載され特定されるような本発明の開示によって提供される特徴をサポートしない。
従来技術で使用されるゲノム圧縮アルゴリズムは、これらのカテゴリに分類することができる。
・変換ベース
・ＬＺ‐ベース
・リード並べ替え
・アセンブリ‐ベース
・統計的モデリング

最初の２つのカテゴリーは、データソース（ゲノムシーケンスのリード）の特定の特性を利用しないという欠点を共有し、そのような種類の情報（例えば、リード間の冗長性、既存のサンプルへの参照）の特定の特性を考慮せずに圧縮されるテキストの文字列としてゲノムデータを処理する。ゲノムデータ圧縮のための最も進歩した２つのツールキット、すなわちＣＲＡＭとＧｏｂｙ（「構造化ハイスループットシーケンシングデータの圧縮」、Ｆ．Ｃａｍｐａｇｎｅ、Ｋ．Ｃ．Ｄｏｒｆｆ、Ｎ．Ｃｈａｍｂｗｅ、Ｊ．Ｔ．Ｒｏｂｉｎｓｏｎ、Ｊ．Ｐ．Ｍｅｓｉｒｏｖ、Ｔ．Ｄ．Ｗｕ）は、データを幾何学的分布によって独立した同一の分布として暗黙的にモデル化するため、算術コード化をうまく利用していない。Ｇｏｂｙは、すべてのフィールドを整数のリストに変換し、各リストは、コンテキストを使用することなく算術コード化を使用して独立にコード化されるので、わずかに洗練されている。最も効率的な動作モードでは、Ｇｏｂｙは、圧縮を改善するために整数リストにわたっていくつかのインターリストモデリングを実行することができる。これらの先行技術の解決策は、圧縮率およびデータ構造が貧弱であり、一度圧縮されると選択的にアクセスし操作することが不可能ではないにしても困難である。下流の分析ステージは、単純な操作を行うため、またはゲノムデータセットの選択された領域にアクセスするためであっても、大型で剛性のあるデータ構造を取り扱う必要があるため、非効率的で非常に遅くなり得る。

ゲノム処理パイプラインで使用されるファイルフォーマット間の関係の簡略図が図１に示されている。この図では、ファイルの包含はネスト化されたファイル構造の存在を意味するのではなく、各フォーマットに対してコード化できる情報のタイプと量を表すだけである（つまり、ＳＡＭはＦＡＳＴＱのすべての情報を含み、異なるファイル構造で編成される）。ＣＲＡＭはＳＡＭ／ＢＡＭと同じゲノム情報を含むが、使用可能な圧縮のタイプにおいてより柔軟性があり、それはＳＡＭ／ＢＡＭのスーパーセットとして表される。

ゲノム情報の保存のための複数のファイルフォーマットの使用は、非常に非効率であり、コストがかかる。ゲノム情報ライフサイクルの異なる段階で異なるファイルフォーマットを有することは、増分情報が最小であっても、利用される記憶空間の線形成長を意味する。先行技術の解決策のさらなる欠点を以下に列挙する。

1．圧縮されたＦａｓｔＱファイルまたはそれらの任意の組み合わせに格納された生データにアクセスし、分析し、または注釈（メタデータ）を追加することは、計算リソースおよび時間の広範な使用と共にファイル全体の解凍および再圧縮を必要とする。
２. リードマッピング位置、リードバリアント位置およびタイプ、インデル位置およびタイプ、ＢＡＭファイルに格納されたアライメントされたデータに含まれる任意の他のメタデータおよび注釈のような情報の特定のサブセットを取得するには、各リードに関連付けられたデータボリューム全体にアクセスする必要がある。単一のクラスのメタデータへの選択的アクセスは、先行技術の解決策では不可能である。
３. 従来技術のファイルフォーマットは、処理が開始できる前に、ファイル全体がエンドユーザに受信されることを必要とする。例えば、適切なデータ表現に基づいて、シーケンシングプロセスが完了する前に、リードのアライメントを開始することができる。シーケンシング、アライメントおよび分析は、並行して進行し、実行することができる。
４. 先行技術の解決策は、構造化をサポートしておらず、異なるシーケンシングプロセスによって得られたゲノムデータを、それらの特定の生成セマンティックに従って識別することができない（例えば、同じ個体の一生の異なる時点で得られたシーケンシング)。同じ個体の異なる種類の生物学的サンプルによって得られるシーケンシングについても同様の制限が生じる。
５. データの全部または選択された部分のアクセス制御メカニズム(例えば、暗号化、透かし、電子署名、ハッシング)による保護は、先行技術の解決策ではサポートされていない。例えば、以下の保護は先行技術の解決策のファイルおよびデータフォーマットにおいてサポートされていない。
ａ．選択されたＤＮＡ領域
ｂ．バリアントを含む配列のみ
ｃ．キメラ配列のみ
ｄ．マッピングされていない配列のみ
ｅ．ユーザ定義ラベルで識別される領域またはサブ領域、あるいは領域またはサブ領域の集合体
ｆ．特定メタデータ(例えば、シーケンスされたサンプルの起源、シーケンスされた個人のアイデンティティ、サンプルのタイプ)
６. 与えられた参照（ＳＡＭ／ＢＡＭファイル）に整列した配列データから新しい参照へのトランスコーディングは、以前の参照から単一のヌクレオチドの位置だけが異なる場合であっても、データボリューム全体を処理することを必要とする。

従って、ローカルおよびリモートに格納されたデータの効率的な圧縮、圧縮されたドメインにおける選択的なアクセスおよび保護機能のサポートを可能にし、ゲノムデータ処理のさまざまな段階のすべてのレベルで、圧縮されたドメインに異種メタデータを段階的に追加することをサポートする適切なゲノム情報記憶フォーマット(ゲノムファイルフォーマット)と、トランスポートメカニズムの明確な必要性がある。

本発明は、添付の特許請求の範囲に記載の方法、装置およびコンピュータプログラムを使用することによって先行技術の限界に対する解決策を提供する。

図１は、一般的なゲノムパイプラインの主要なステップと関連するファイルフォーマットを示す。図２は、最も使用されているゲノムファイルフォーマット間の相互関係を示す。図３は、デノボアセンブリまたは基準ベースのアライメントを介してゲノム配列のリードが全体または部分的なゲノム内でどのように組み立てられるかを示す。図４は、参照シーケンス上のどのようにしてリードマッピング位置が計算されるかを示す。図５は、ペアリング距離がどのように計算されるかを示す。図６は、ペアリングエラーがどのように計算されるかを示す。図７は、リードメイトペアが異なる染色体上にマッピングされるときに、ペアリング距離がどのようにコード化されるかを示す。図８は、ゲノムの第１または第２のＤＮＡ鎖からどのようにシーケンスリードを生成することができるかを示す。図９は、ストランド２にマッピングされたリードが、ストランド１上で対応する逆相補リードを有する様子を示している。図１０は、リードペアを構成するリードとｒｃｏｍｐレイヤにおけるそれぞれのコード化との４つの可能な組合せを示す。図１１は、「ｎタイプ」ミスマッチがｎｍｉｓレイヤにおいてどのようにコード化されるかを示す図である。図１２は、マッピングされたリードペアにおける置換の例を示す。図１３は、置換位置を絶対値または差分値としてどのように計算することができるかを示す図である。図１４は、ＩＵＰＡＣコードなしで、置換をコードするシンボルがどのように計算されるかを示す図である。図１５は、ｓｎｐｔレイヤにおいて置換タイプがどのようにコード化されるかを示す。図１８は、ＩＵＰＡＣコードによって置換をコードするシンボルがどのように計算されるかを示す図である。図１７は、位置のみがコード化されているが、置換タイプごとに１つのレイヤが使用される場合の置換のための代替的なソースモデルを示す。図１８は、ＩＵＰＡＣコードが使用されない場合に、クラスＩのリードペアにおける置換、挿入および欠失をどのようにコード化するかを示す。図１９は、ＬＵＰＡＣコードが使用される場合、クラスＩのリードペアにおける置換、挿入および欠失をどのようにコード化するかを示す。図２０は、本発明によって開示されるゲノム情報データ構造のゲノムデータセットヘッダの構造を示す。図２１は、マスターインデックステーブルが、各アクセスユニットにおける最初のリードの参照シーケンス上の位置をどのように含むかを示す。図２２は、クラスＰの各位置ＡＵにおける最初のリードのマッピング位置を示す部分ＭＩＴの例を示す。図２３は、レイヤヘッダ内のローカルインデックステーブルがペイロード内のＡＵｓに対するポインタのベクトルであることを示す。図２４は、ローカルインデックステーブルの例を示す。図２５は、マスターインデックステーブルとローカルインデックステーブルとの間の機能的関係を示す。図２６は、アクセスユニットがいくつかのレイヤに属するデータのブロックによってどのように構成されるかを示す。レイヤは、パケットに分割されたブロックによって構成される。図２７は、タイプ１のゲノムアクセスユニット（位置情報、対情報、逆相補情報、およびリードの長さ情報を含む）がどのようにパケット化され、そしてゲノムデータマルチプレックス中にカプセル化されるかを示す。図２８は、同種データの1つまたは複数のレイヤに属するヘッダおよび多重化されたブロックによって、アクセスユニットがどのように構成されるかを示す。各ブロックは、ゲノム情報の実際の記述子を含む1つ以上のパケットによって構成することができる。図２９は、アクセスされるまたはデコード化されアクセスされる他のアクセスユニットから来る任意の情報を参照する必要がないタイプ０のアクセスユニットの構造を示す。図３０は、タイプ１のアクセスユニットの構造を示す。図３１は、タイプ１のアクセスユニットを参照するデータを含むタイプ２のアクセスユニットの構造を示す。これらは、コード化されたリードにおけるＮ塩基の位置である。図３２は、タイプ１のアクセスユニットを参照するデータを含むタイプ３のアクセスユニットの構造を示す。これらは、コード化されたリードにおけるミスマッチの位置およびタイプである。図３３は、タイプ１のアクセスユニットを参照するデータを含むタイプ４のアクセスユニットの構造を示す。これらは、コード化されたリードにおけるミスマッチの位置およびタイプである。図３４は、最初の５種類のアクセスユニットを示す。図３５は、タイプ１のアクセスユニットが、デコード化されたタイプ０のアクセスユニットを参照することを示す。図３６は、タイプ２のアクセスユニットが、デコード化されたタイプ０および1のアクセスユニットを参照することを示す。図３７は、タイプ３のアクセスユニットが、デコード化されたタイプ０および1のアクセスユニットを参照することを示す。図３８は、タイプ４のアクセスユニットが、デコードかされたタイプ０および1のアクセスユニットを参照することを示す。図３９は、参照シーケンスの第２のセグメント（ＡＵ０〜２）にマッピングされたミスマッチを有するシーケンスリードをデコード化するのに必要なアクセスユニットを示す。図４０は、利用可能な生ゲノム配列データを予めコード化されたゲノムデータにどのように増分的に追加できるかを示す。図４１は、アクセスユニットに基づくデータ構造が、シーケンシングプロセスが完了する前に、ゲノムデータ分析を開始することを可能にする方法を示す。図４２は、既存のデータに対して行われた新しい分析が、リードをタイプ４のＡＵからタイプ３のＡＵに移動することを示していることを示す。図４３は、新たに生成された分析データが、タイプ８の新しいＡＵにカプセル化され、対応するインデックスがＭＩＴにおいてどのように作成されるかを示す。図４４は、新しい参照シーケンス(ゲノム)の公表によるデータのトランスコード方法を示す。図４５は、より良い品質（例えばインデルなし）で新しいゲノム領域にマッピングされたリードが、タイプ４のＡＵからタイプ３のＡＵにどのように移動されるかを示す。図４６は、新しいマッピング位置が発見された場合に（例えば、ミスマッチがより少ない場合）、関連するリードを１つのＡＵから同じタイプの別のＡＵにどのように移動させることができるかを示す。図４７は、保護すべき機密情報を含む場合にのみ、タイプ４のアクセスユニットに選択的な暗号化をどのように適用できるかを示す。図４８は、ゲノムストリーム４８４およびゲノムデータセットマッピングテーブルリスト４８１、ゲノムデータセットマッピングテーブル４８５、参照識別子マッピングテーブル４８７のストリームを含む１つまたは複数のゲノムデータセット４８２〜４８３の、ゲノムマルチプレックス内へのデータカプセル化を示す。各ゲノムストリームは、ヘッダ４８８およびアクセスユニット４８６によって構成される。アクセスユニットは、パケット４８１０によって構成されるブロック４８９をカプセル化する。図４９は、生のゲノム配列データ（４９９）または整列されたゲノムデータ（要素４９１によって生成される）がどのように処理されてゲノムマルチプレックスにカプセル化されるかを示す。アライメント（４９１）および参照ゲノム構築（４９２）段階は、コード化のためのデータを調製するために必要であり得る。データ分類ユニット（４９４）によって生成されるデータクラス（４９８）は、参照変換ユニット（４９１９）によって生成された１つまたは複数の変換された参照に関してさらに分類することができる。変換されたクラス（４９１８）は次にレイヤエンコーダ（４９５〜４９７）に送られる。生成されたレイヤ（４９１１）は、ゲノムマルチプレクサ（４９１６）に供給されるアクセスユニット（４９１５）のゲノムストリームを生成するエントロピーコーダ（４９１２〜４９１４）によってコード化される。図５０は、ゲノムデマルチプレクサ（５００）がどのようにゲノムマルチプレクス（５０１０）からゲノムストリーム（５０１）を抽出し、ＡＵタイプ（５０２〜５０４）ごとに１つのデコーダがどのように、例えばＦＡＳＴＱおよびＳＡＭ／ＢＡＭのようなゲノムフォーマットを再構築するためにクラスデコーダ（５０９）によって使用される様々なデータクラス（５０１１）にデコード（５０６〜５０７）されるゲノムレイヤを抽出するかを示す。マルチプレックスビットストリーム（５０１０）に存在するとき、１つまたは複数の参照変換を含むゲノムストリームがエントロピーデコーダ（５０４）によってデコードされて参照変換記述子（５０１２）を生成する。参照変換記述子は、クラスデコーダ（５０９）によって使用される１つ以上の変換された参照（５０１４）を生成するために１つ以上の「外部」参照を変換するために参照変換ユニット（５０１３）によって処理される。図５１は、６つのレイヤの記述子を使用して自己生成参照シーケンスを使用してクラスＵに属するシーケンスリードをコード化するプロセスを示す。４つのレイヤは他のクラスＰ、Ｎ、Ｍ、Ｉに使用されているものと同じだが、２つのレイヤはクラスＵのリードに固有のものである。図５２は、２つの異なる参照に属するゲノム領域を集約するためにどのようにラベルが構築されるかを示す。図５３は、新たな分析結果が既存のもの（Ｒ１、Ｒ２およびＲ３）に追加の領域４を追加する必要がある場合に既存のラベルを更新する方法を示す。図５４は、特定のゲノム領域またはサブ領域にアクセス制御とデータ保護を実行するためにどのようにラベリングメカニズムを使用するかを示している。単純なケースでは、1つのラベルで識別されるすべてのゲノム領域に対して1つのアクセス制御ルール（ＡＣ）と1つの保護メカニズム（暗号化など）を使用する。図５５は、同じラベルによって識別される異なるゲノム領域が、いくつかの異なるアクセス制御ルール（ＡＣ）と、いくつかの異なる暗号キーによってどのように保護されるかを示す。図５６は、計算された参照に対するリードのマッピング位置をコード化するために、コード付きＰＯＳ記述子を使用して、クラスＵのリードの代替的なコード化の方法を示す図５７は、ハーフマッピングされたリードペアが、マッピングされていないリードでより長い連続を組み立てることによって、参照シーケンスの未知の領域を埋めるのにどのように役立つかを示す。図５８は、本発明に記載された構造に従って保存されるゲノムデータのヘッダの階層構造を示す。図５９は、本発明により記載されたラベリングメカニズムを実施する装置が、データベースの異なるレコードに格納されるとき、いくつかのゲノム領域に関連するデータへの同時アクセスを可能にする方法を示す。これは、アクセスが制御されているかどうかにかかわらず発生する可能性がある。図６０は、データの分離されたサブクラスを生成するために、クラスＮ、Ｍ、Ｉのエンコーダにおいて、閾値のベクトルがどのように使用されるかを示す。図６１は、ミスマッチのすべてまたはサブセットが除去されたときに、参照変換がクラスリードをどのように変更できるかの例を示す(すなわち、変換前のクラスＭに属するリードは、参照の変換が適用された後にクラスＰに割り当てられる)。図６２は、リードからミスマッチ(ＭＭＳ)を除去するためにどのように参照変換が適用され得るかを示す。場合によっては、参照変換によって新しいミスマッチが生成されたり、変換が適用される前に参照を参照したときに検出されたミスマッチのタイプが変更されることがある。図６３は、同じ参照変換Ａ０をすべてのクラスのデータに対して使用することができ、また異なる変換ＡＮ、Ａ_M、Ａ_Iを各クラスＮ、Ｍ、Ｉに使用することができる。

下記の特許請求の範囲の特徴は、ラベルを使用することによってゲノムデータの領域に選択的にアクセスする方法を提供することにより、既存の先行技術の解決策の問題を解決する。前記ラベルは、ゲノムデータの参照ゲノムシーケンスの識別子（５２１）、前記ゲノム領域の識別子（５２２）、およびゲノムデータのデータクラスの識別子（５２３）を含む。

本方法の別の態様において、前記ゲノムデータはゲノムリードの配列である。

本方法の別の態様において、データクラスは、以下のタイプのものであってもよく、またはそれらのサブセットであってもよい。
・参照シーケンスに対していかなるミスマッチも存在しないゲノムリードを含む「クラスＰ」
・シーケンシング装置がいずれの「塩基」とも呼ぶことができなかった位置におけるミスマッチのみを含み、前記ミスマッチの数は所与の閾値を超えないゲノムリードを含む「クラスＮ」
・「n型」ミスマッチと呼ばれるシーケンシング装置がいずれの塩基をももたらせなかった位置におけるミスマッチ、および／または「ｓ型」と呼ばれる参照シーケンスとは異なる塩基をもたらしたもの、そして前記ミスマッチの数は「n型」、「ｓ型」ミスマッチ数に対する所与の閾値を超えず、閾値は所与の関数（ｆ（ｎ、ｓ））から得られるゲノムリードを含む「クラスＭ」
・ゲノムリードが、「クラスＭ」と同じタイプのミスマッチを有する可能性があり、さらに少なくとも１つの「挿入」（「i型」)、「欠失」(「ｄ型」)、ソフトクリップ(「c型」)タイプのミスマッチが付加され、各タイプのミスマッチの数が所与の閾値を超えず、閾値は所与の関数(w(n、s、i、d、c)から得られるゲノムリードを含む「クラスＩ」
クラスＰ、Ｎ、Ｍ、Ｉに分類が見つからないすべてのリードを含む「クラスＵ」

本方法の別の態様において、ペアのリードのデータクラスは、以下のタイプのものであってもよく、またはそれらのサブセットであってもよい。

・参照シーケンスに対していかなるミスマッチも存在しないゲノムリードペアを含む「クラスＰ」
・シーケンシング装置がいずれの「塩基」とも呼ぶことができなかった位置におけるミスマッチのみを含み、ミスマッチの数は所与の閾値を超えないゲノムリードペアを含む「クラスＮ」
・「n型」ミスマッチと呼ばれるシーケンシング装置がいずれの塩基をももたらせなかった位置におけるミスマッチだけを含み、前記ミスマッチの数は所与の閾値を超えず、および／または「ｓ型」と呼ばれる参照シーケンスとは異なる塩基をもたらしたもの、そして前記ミスマッチの数は「n型」、「ｓ型」ミスマッチ数に対する所与の閾値を超えず、閾値は所与の関数（ｆ（ｎ、ｓ））から得られるゲノムリードペアを含む「クラスＭ」
・ゲノムリードペアが、「クラスＭ」と同じタイプのミスマッチを有する可能性があり、さらに少なくとも１つの「挿入」（「i型」)、「欠失」(「ｄ型」)、ソフトクリップ(「c型」)タイプのミスマッチが付加され、各タイプのミスマッチの数が所与の閾値を超えず、閾値は所与の関数（w（n、s、i、d、c））から得られるリードペアを含む「クラスＩ」
・１つのリードメイトのみがクラスＰ、Ｎ、Ｍ、Ｉのいずれかに分類されるためのマッチングルールを満たさないリードペアを含む「クラスＨＭ」
両方のリードがクラスＰ、Ｎ、Ｍ、Ｉに分類されるためのマッチングルールを満たさないすべてのリードペアを含む「クラスＵ」

本方法の別の態様において、前記ゲノム領域の前記識別子は、マスターインデックステーブルに含まれる。

前記方法の別の態様において、前記ゲノムデータおよび前記ラベルは、エントロピコード化される。

本方法の別の態様において、前記マスターインデックステーブル（４８１２）は、ゲノムデータセットヘッダ（４８１３）に含まれる。

本方法の別の態様において、前記ゲノムデータ領域は、別個のアクセスユニット（５２４、４８６）の間に分散される。

本方法の別の態様において、ファイル内の前記ゲノムデータ領域の位置は、ローカルインデックステーブル（５２５）に示されている。

本方法の別の態様において、前記ラベルはユーザ指定である。

本方法の別の態様において、前記領域は、ゲノムファイル全体を暗号化することなく、別個の方法で保護および/または暗号化される。

本方法の別の態様において、前記ラベルはゲノムラベルリスト（ＧＬＬ）に保存される。

別の態様では、本方法は、前に定義されたゲノムデータの領域への選択的アクセスを用いてゲノムデータをコード化することをさらに含む。

本方法の別の態様では、前記ゲノムラベルリストは、複数の同期ポイントを可能にするために定期的に再送信または更新される。

別の態様では、本方法は、前に定義されたゲノムデータの領域への選択的アクセスを用いてゲノムデータのストリームまたはファイルをデコードすることをさらに含む。

本発明は、さらに、前に定義されたゲノムデータをコード化するための装置を提供する。

本発明は、さらに、前に定義されたゲノムデータをデコードするための装置を提供する。

本発明は、さらに、前に定義されたコード化されたゲノムデータを記憶するための記憶手段を提供する。

本発明はさらに、実行されると、少なくとも１つのプロセッサが予め定義されたコード化方法を実行させる命令を含むコンピュータ可読媒体を提供する。

本発明は、さらに、実行されると、少なくとも１つのプロセッサが予め定義されたデコード方法を実行させる命令を含むコンピュータ可読媒体を提供する。

本発明は、分子を表すシンボルのシーケンス形式であるゲノミックまたはプロテオミック情報の保存、送信、アクセスおよび処理をするために使用される、ファイルフォーマットおよび/または関連するアクセスユニットに記憶されたゲノム領域またはサブ領域または圧縮されたゲノムデータの領域またはサブ領域の集合体に対する選択的アクセスおよび選択的アクセス制御を提供するラベリングメカニズムが記載される。

これらの分子には、例えば、ヌクレオチド、アミノ酸およびタンパク質が含まれる。シンボルのシーケンスとして表される最も重要な情報の一つは、ハイスループットのゲノムシーケンシングデバイスによって生成されたデータである。

あらゆる生物のゲノムは通常、その生物を特徴付ける核酸（塩基）の鎖を表す一連のシンボルとして表される。現在の先行技術のゲノムシーケンシング技術は、メタデータ（識別子、正確さのレベルなど）に関連する核酸のいくつかの（数十億までの）文字列の形でゲノムの断片的な表現のみを生成することができる。このような文字列は、通常、「シーケンスリード」または「リード」と呼ばれる。
ゲノム情報ライフサイクルの典型的なステップは、シーケンスリード抽出、マッピングおよびアライメント、バリアントの検出、バリアントの注釈および機能的および構造的分析から成る(図１を参照)。

シーケンスリード抽出は、ヒトオペレーターまたは機械によって、生物学的試料を構成する分子を表すシンボルの配列の形で遺伝情報の断片を表すプロセスである。核酸の場合、そのような分子は「ヌクレオチド」と呼ばれる。抽出によって生成されたシンボルのシーケンスは、一般に「リード」と呼ばれる。この情報は通常、テキストヘッダと配列された分子を表す一連のシンボルとを含むＦＡＳＴＡファイルとして従来技術においてコード化されている。

生物のＤＮＡを抽出して生物学的サンプルがシーケンスされるとき、アルファベットはシンボル（Ａ、Ｃ、Ｇ、Ｔ、Ｎ）によって構成される。

生物のＲＮＡを抽出して生物学的サンプルがシーケンスされるとき、アルファベットはシンボル（Ａ、Ｃ、Ｇ、Ｕ、Ｎ）によって構成される。

ＩＵＰＡＣがシンボルセットを拡張する場合、いわゆる「あいまいさコード」もシーケンシング装置によって生成され、リードを構成するシンボルに使用されるアルファベットは（Ａ、Ｃ、Ｇ、Ｔ、Ｕ、Ｗ、Ｓ、Ｍ、Ｋ、Ｒ、Ｙ、Ｂ、Ｄ、Ｈ、Ｖ、Ｎまたは−）である。

ＩＵＰＡＣあいまいさコードが使用されないとき、品質スコアのシーケンスは、各シーケンスリードに関連付けられる。そのような場合、先行技術の解決策は、結果として得られる情報をＦＡＳＴＱファイルとしてコード化する。シーケンシング装置は、シーケンスリードに以下のようなエラーを導入することがある。
１．シーケンスされた試料中に実際に存在する核酸を表すのに間違ったシンボル（すなわち異なる核酸を表す）の同定。これは通常「置換エラー」（ミスマッチ）と呼ばれる。
２. 実際に存在する核酸を反映していない追加のシンボルである１つの配列リードの挿入。これは通常「挿入エラー」と呼ばれる。
３．配列決定された試料中に実際に存在する核酸を表すシンボルである１つの配列リードの欠失。これは通常「欠失エラー」と呼ばれる。
４．実際のオリジナルのシーケンスを反映しない1つ以上のフラグメントの単一のフラグメントへの組換え。

用語「カバレッジ」は、参照ゲノムまたはその一部が利用可能な配列リードによってカバーされ得る程度を定量化するために明細書において使用される。対象範囲は次のようになる。
部分的（１未満）参照ゲノムの一部が利用可能などのシーケンスリードによってもマッピングされていない場合
シングル（１）参照ゲノムの全ヌクレオチドが１回マッピングされ、１つのシーケンスリードに１つのシンボルが存在する場合
マルチプル（２）参照ゲノムの各ヌクレオチドが複数回マッピングされる場合。

シーケンスアラインメントは、配列間の機能的、構造的、または進化的関係の因果関係であり得る類似性の領域を見つけることによって、シーケンスリードを配置するプロセスを指す。「参照ゲノム」と呼ばれる既存のヌクレオチド配列を参照してアラインメントを実施する場合、このプロセスは「マッピング」と呼ばれる。配列アラインメントは既存の配列（すなわち参照ゲノム）なしでも実施することができ、その方法は「デノボ」アラインメントとして先行技術において知られている。先行技術の解決策はこの情報をＳＡＭ、ＢＡＭまたはＣＲＡＭファイルに記憶する。部分的または完全なゲノムを再構築するためにシーケンスをアラインさせるという概念を図３に示す。

バリアント検出（別名バリアントコール）は、ゲノムシーケンシング装置のアラインメントされた出力（ＮＧＳデバイスによって生成され、アラインメントされたシーケンスリード）を、他の既存の配列には見られないか、またはいくつかの既存の配列にのみ見いだすことができる、シーケンスされる生物の独特の特徴のサマリーに変換するプロセスである。これらの特徴は、それらが研究中の生物のゲノムと参照ゲノムとの間の差異として表されるので、「バリアント」と呼ばれる。先行技術の解決策は、この情報をＶＣＦファイルと呼ばれる特定のファイルフォーマットで記憶する。

バリアントアノテーションは、バリアントコールのプロセスによって識別されたゲノムバリアントに機能情報を割り当てるプロセスである。これは、ゲノム内のコードシーケンスに対するそれらの関係に従って、およびコードシーケンスおよび遺伝子産物に対するそれらの影響によるバリアントの分類を意味する。これは従来技術では通常ＭＡＦファイルに格納されている。

遺伝子（およびタンパク質）の機能および構造とのそれらの関係を定義するためのＤＮＡ（バリアント、ＣＮＶ＝コピー数の変化、メチル化など）鎖の分析プロセスは、機能分析または構造分析と呼ばれる。このデータを記憶するための先行技術にはいくつかの異なる解決策が存在する。

ゲノムファイルフォーマット
本明細書に開示される発明は、少なくとも以下の態様に関して先行技術の解決策とは異なる、ゲノム配列決定データを表し、処理し、送信するための圧縮データ構造に適用される選択的制御データアクセスの定義からなる。
− それはゲノム情報のいかなる従来技術の表示フォーマット（すなわち、ＦＡＳＴＱ、ＳＡＭ）にも依存しない。
− 複数のゲノムデータセットとして構築された複数のシーケンスランによって生成されたデータへの効率的な取り扱いと選択的なランダムアクセスをサポートする。異なるシーケンシングランからのデータを同じデータ構造に分割することで、アナリストは集団遺伝学研究に大きな利点を持ってそれらに対して同時にクエリを実行することができる。
− それはそれらの特定の特性に従ってゲノムデータとメタデータの新しい独自の分類を実行する。シーケンスリードは参照シーケンスにマッピングされ、そしてアラインメントプロセスの結果に従って異なるクラスに分類される。これは、ハフマンコード化、算術コード化（ＣＡＢＡＣ、ＣＡＶＬＡＣ）、非対称数値システム、ＬｅｍｐｅｌＺｉｖおよびその派生のような異なる特定の圧縮アルゴリズムを適用してより効率的にコード化され得るより低い情報エントロピーを有するデータクラスをもたらす。
− それは、特定のゲノム領域、またはサブ領域または領域もしくはサブ領域の集合体に対応する圧縮データクラスの選択的アクセスおよび保護を可能にするユーザ定義ラベルによって、データクラスまたはデータクラスのサブセットを特定のゲノム領域、またはサブ領域または領域もしくはサブ領域の集合体に関連付ける新しい方法を実装する。
− それは、構文解析要素と、関連するシーケンスリードおよびアライメント情報を下流の分析アプリケーションのために処理するのにより効率的な表現に変換するコード化／デコード化プロセスとを定義する。

マッピングの結果に従ってリードを分類し、レイヤ（位置レイヤ、メイト距離レイヤ、ミスマッチタイプレイヤなど）に格納される記述子を使用してそれらをコーディングすると、次のような利点がある。
・異なる構文要素が、より高い圧縮パフォーマンスをもたらす特定のソースモデルによってモデル化されるときの情報エントロピーの削減。
・下流の分析段階に特定の意味を有し、圧縮ドメイン内で個別に独立して直接アクセスできる、すでにグループ/レイヤーに編成されているデータへのより効率的なアクセス。
・データコンテンツ全体をデコード化（すなわち解凍）する必要なしに、必要な情報のみにアクセスすることによって増分的に更新することができるモジュール式データ構造の存在。
・シーケンシング装置によって生成されたゲノム情報は、情報自体の性質およびシーケンシングプロセスに内在するエラーを軽減する必要性のために、本質的に非常に冗長である。これは、同定され分析される必要がある関連遺伝情報（参照に関する変動）は、生成されたデータのごく一部にすぎないことを意味する。先行技術のゲノムデータ表示フォーマットは、分析アプリケーションによって迅速に利用可能で理解可能になるように、所与の分析段階で意味のある情報を残りの情報から「分離する」ようには考えられていない。
・開示された発明によってもたらされる解決策は、必要な記憶スペースと伝送帯域幅を最小にするための効率的な圧縮によって、データ全体にアクセスして解凍する必要なしに、データの任意の関連部分が分析アプリケーションに容易に利用可能であり、データの冗長性が効率的に低減されるようにゲノムデータを表すことである。

本発明の重要な要素は、以下の通りである。
１. 圧縮形式のアクセスユニット（ＡＵ）と呼ばれる、構造化されたユーザー定義の選択的にアクセス可能なデータ要素を「含む」ファイル形式の仕様。そのようなアプローチは、データが非圧縮形式で構造化され、次いでファイル全体が圧縮される、従来技術のアプローチ、例えばＳＡＭおよびＢＡＭとは反対と見なすことができる。このアプローチの最初の明白な利点は、従来技術のアプローチでは不可能であるかまたは極めて扱いにくい、圧縮ドメイン内のデータ要素への様々な形態のユーザ定義構造化選択的アクセスを効率的かつ自然に提供できることである。
２. 均一なデータおよびメタデータの特定の「レイヤ」へのゲノム情報の構造化は、低エントロピーを特徴とする情報ソースの異なるモデルの定義を可能にするという、かなりの利点を提示する。このようなモデルは、レイヤごとに異なるだけでなく、レイヤ内の圧縮されたデータがアクセスユニットに含まれるデータブロックに分割されている場合に、各レイヤ内でも異なる可能性がある。この構造化は、データまたはメタデータの各クラスおよびそれらの一部に対して、最も適切な圧縮を使用することを可能にし、従来技術のアプローチと比べて、コード化効率が大幅に向上する。
３. 情報はアクセスユニット(ＡＵ)で構造化されるため、ゲノム解析アプリケーションで使用されるデータの関連サブセットには、適切なインターフェースを使用して効率的かつ選択的にアクセス可能である。これらの機能により、より高速なデータへのアクセスを可能にし、より効率的な処理が可能になる。
４. マスターインデックステーブルおよびローカルインデックステーブルの定義は、圧縮データの全ボリュームをデコードする必要なく、コード化（すなわち圧縮）データのレイヤによってもたらされる情報への選択的アクセスを可能にする。
５. ファイルヘッダに存在する「ラベルリスト」を解析することによって、特定のユーザ定義のゲノム領域またはサブ領域、あるいは領域またはサブ領域の集合体およびデータクラスに対応するＡＵのみにアクセスする可能性。
６. 関連するゲノム領域を識別するユーザー定義の「ラベル」に従って、異なるＡＵおよびＡＵに含まれるデータの一部に異なるタイプのアクセス制御を提供する可能性。
７. 圧縮ドメインにおいて選択されたデータ部分の効率的なトランスコーディングを実行することによって、それらが新たに公開された参照ゲノムに対してリアライメントされる必要があるときに、既にアライメントされ圧縮されたゲノムデータセットのリアライメントを実行する可能性。新しい参照ゲノムの頻繁なリリースは現在、トランスコードプロセスが新たに公開された参照に対してすでに圧縮され記憶されているゲノムデータをリアライメントさせるためにリソース消費と時間を必要とする。

本明細書に記載された方法は、エゲノムデータに関する利用可能な事前知識を利用して、低減されたエントロピーを有する構文要素のアルファベットを定義することを目的とする。ゲノミクスでは、利用可能な知識は通常、必ずではないが、処理されるものと同じ種の既存のゲノム配列によって表される。一例として、異なる個体のヒトゲノムはわずか１％の割合でしか異ならない。しかし、そのような少量のデータには、早期診断、個別化医療、カスタマイズ薬の合成などを可能にするのに十分な情報が含まれている。本発明は、関連情報が効率的にアクセス可能であり、アクセスが選択的に制御されそしてデータ保護され、情報が効率的に輸送可能でありそして全てのそのような処理が圧縮データ構造を処理して行われるゲノム情報表現フォーマットを定義することを目的とする。

本発明で使用される技術的特徴は以下の通りである。
１．１つ以上の利用可能なデータセットを照会するときに効率的なデータ検索および処理を可能にするために、異なるシーケンシングによって生成されたゲノム情報を異なるゲノムデータセットに分割する。
２．共通の特徴を共有する「クラス」におけるゲノムシーケンスデータおよびメタデータのパーティション。
３．情報エントロピーをできるだけ低減するために、ゲノムデータが記述された一連の「レイヤ」の記述子に分割される各データクラスによって運ばれるゲノム情報の構造の定義。
４．コード化ゲノム情報全体をデコード化する必要なしにコード化情報（すなわち圧縮）の所望のレイヤのみにアクセスすることによって、データクラスおよび関連情報への選択的アクセスを可能にするマスターインデックステーブルおよびローカルインデックステーブルの定義。
５．ポイント２で指定されたように定義されたデータクラスの異なるレイヤに属する構文要素をコード化するための異なるソースモデルおよびエントロピーコーダの使用。
６．必要ではない、または望まれない場合、すべてのレイヤをデコードする必要なしにデータへの選択的アクセスを可能にするために従属レイヤ間の対応を確立する特定のメカニズムの定義。

７．特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に対応する圧縮データおよび対応するデータ「クラス」またはデータクラスのサブセットを「ラベル」によってラベル付けして効率的な選択的アクセスを可能にするメカニズムの定義。
８．特定のゲノム領域もしくはサブ領域もしくは領域もしくはサブ領域の集合体および対応するデータ「クラス」もしくはデータクラスのサブセットならびにそれらの任意の組み合わせの選択的保護のためのメカニズムの定義。
９．シーケンスデータ表現のエントロピーを減らすためにさらに変換することができる１つまたは複数の既存のまたは構築された参照シーケンスに関するデータセットまたはデータ「クラス」のコーディング。

先行技術の全ての言及した問題を解決するために、特定のデータ「クラス」、特定のゲノム領域もしくはサブ領域または領域もしくはサブ領域の集合体への効率的な選択的アクセスおよび選択的アクセス制御の観点から、効率的な圧縮表現によって効率的な伝送と保存を維持しながら、本発明は、最新のゲノムデータ分析アプリケーションによって要求されるシームレスなアクセスおよび処理を可能にする、均質および／または意味的に重要なデータのアクセス可能な単位への適切なデータ並べ替えを実施する特定のデータ構造の仕様を提供する。

特に、本発明は、従来技術のゲノムデータフォーマットの全てには存在しないアクセスユニット、「ラベル」、および関連データの多重化という概念に基づくデータ構造を採用する。

ゲノムデータは、異なるアクセスユニットに構造化され、コード化される。異なるアクセスユニットに含まれ、ゲノムデータを特定のゲノム領域もしくはサブ領域または領域もしくはサブ領域の集合体と参照ゲノムとを関連付ける「ラベル」によって識別することができるゲノムデータの説明を以下に示す。

マッチングルールに従ったゲノムデータの分類
シーケンシング装置によって生成されたシーケンスリードは、開示された発明によって、１つ以上の既存の参照シーケンスに関するアラインメントのマッチング結果に従って５つの異なる「クラス」に分類される。

参照シーケンスに対してヌクレオチドのＤＮＡ配列をアライメントさせる場合、以下のケースが同定されうる。
１．参照シーケンス内の領域が、エラーなしに（すなわち、完全なマッピング)シーケンスリードと一致することが判明する。このようなヌクレオチド配列は、「完全に一致するリード」と呼ばれ、または「クラスＰ」として示される。

２．参照シーケンス内の領域は、リードを生成するシーケンシング装置がいずれの塩基（またはヌクレオチド）ももたらせなかった位置の数によってのみ決定されるタイプおよび数のミスマッチを有するシーケンスリードと一致することが判明する。このようなタイプのミスマッチは、未定義のヌクレオチド塩基を示すのに使用される「Ｎ」の文字で表される。この明細書では、このタイプのミスマッチを「nタイプ」ミスマッチと呼ぶ。このような配列は、「Ｎミスマッチリード」または「クラスＮ」と呼ぶ。リードが「クラスＮ」に属すると分類されたら、一致の不正確さの程度を所定の上限に制限し、有効な一致と見なされるものとそうでないものとの間に境界を設定することが有用である。したがって、クラスＮに割り当てられたリードは、リードに含めることができる未定義の塩基（つまり「Ｎ」と呼ばれる塩基）の最大数を定義する閾値（ＭＡＸＮ）を設定することによっても制約を受ける。そのような分類は、対応する参照シーケンスを参照したときにクラスＮ共有に属するすべてのリードが圧縮データに選択的データ検索を適用するための有用な基準を構成する要求最小マッチング精度（または最大ミスマッチ度）を暗黙的に定義する。

３．参照シーケンス内の領域は、存在する場合、リードを生成するシーケンシング装置がいかなるヌクレオチド塩基ももたらすことができなかった位置の数によって決定されるタイプおよび数のミスマッチ（すなわち「ｎタイプ」ミスマッチ）に加えて、参照に存在するものとは異なる塩基がもたらされた数のミスマッチとを有するシーケンスリードと一致することが判明する。「置換」として示されるそのようなタイプのミスマッチはまた、一塩基変異（ＳＮＶ）または一塩基変異多型（ＳＮＰ）とも呼ばれる。この明細書では、このタイプのミスマッチは「sタイプ」のミスマッチとも呼ばれる。次いで、シーケンスリードを「Ｍミスマッチリード」と呼び、そして「クラスＭ」に割り当てる。「クラスＮ」の場合と同様に、「クラスＭ」に属するすべてのリードについても、一致の不正確さの程度を所定の上限に制限し、有効な一致と見なされるものとそうでないものとの間に境界を設定することが有用である。したがって、クラスＭに割り当てられたリードは、1つは存在する場合「ｎタイプ」のミスマッチである「ｎ」の数（ＭＡＸＮ）、もう1つは置換「ｓ」の数（ＭＡＸＳ）の閾値のセットを定義することによっても制約を受ける。第３の制約は、数値「ｎ」と「ｓ」の両方の関数ｆ（ｎ、ｓ）によって定義される閾値である。そのような第３の制約は、任意の意味のある選択的アクセス基準に従ってマッチングの不正確さの上限を有するクラスを生成することを可能にする。例えば、限定するわけではなく、ｆ（ｎ、ｓ）は、（ｎ＋ｓ）１／２または（ｎ＋ｓ）、あるいは「クラスＭ」に属するリードに対して認めらる最大マッチング不正確レベルに境界を設定する任意の線形または非線形の式とすることができる。そのような境界は、一方または他方に適用される単純な閾値を超えて「ｎタイプ」のミスマッチ「ｎ」の数および「ｓタイプ」のミスマッチ（置換）「ｓ」の数の任意の可能な組み合わせに対するさらなる境界を設定することを可能にするので、様々な目的のためのシーケンスリードの分析時に所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。

４．第４のクラスは、「挿入」、「欠失」（別名「インデル」）および「切り取られた」のうちのいずれかのタイプの少なくとも１つのミスマッチ、さらに存在する場合はクラスＮまたはＭに属する任意のミスマッチタイプを提示するシーケンスリードによって構成される。そのような配列は、「Ｉミスマッチリード」と称され、そして「クラスＩ」に割り当てられる。挿入は、参照には存在しないがリードシーケンスには存在する1つまたは複数のヌクレオチドのさらなるシーケンスによって構成される。この明細書では、このタイプのミスマッチを「iタイプ」ミスマッチと呼ぶ。挿入されたシーケンスがシーケンスの端にある場合、参照では「ソフトクリップ」とも呼ぶ（すなわち、ヌクレオチドは参照と一致しないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的にアラインされたリードに保持される）。この明細書では、このタイプのミスマッチを「ｃタイプ」のミスマッチと呼ぶ。ヌクレオチドの保持または廃棄はアライナ段階によって行われる決定であり、シーケンシング装置または次のアライメント段階によって決定されるリードを受け取りそして処理する本発明に開示されるリードの分類子によっては行われない。欠失は、参照に対してリードにある「ホール」（欠けているヌクレオチド）である。この明細書では、このタイプのミスマッチを「ｄタイプ」ミスマッチと呼ぶ。クラス「Ｎ」および「Ｍ」の場合と同様に、マッチングの不正確さに対する制限を定義することは可能であり適切である。「クラスＩ」に対する制約のセットの定義は、「クラスＭ」に対して使用されたのと同じ原理に基づいており、そしてテーブル１の表の最後の行に報告する。クラスＩデータに許容される各タイプのミスマッチについての閾値に加えて、さらなる制約は、ミスマッチの数「ｎ」、「ｓ」、「ｄ」、「ｉ」および「ｃ」の任意の関数ｗ（ｎ、ｓ、ｄ、ｉ、ｃ）によって決定される閾値によって定義される。そのような追加の制約は、任意の意味のあるユーザ定義の選択的アクセス基準に従って、マッチングの不正確さの上限を有するクラスを生成することを可能にする。例えば、限定するわけではなく、ｗ（ｎ、ｓ、ｄ、ｉ、ｃ）は、（ｎ＋ｓ＋ｄ＋ｉ＋ｃ）１／５または（ｎ＋ｓ＋ｄ＋ｉ＋ｃ）または「クラスI」に属するリードに対して認められる最大マッチング不正確レベルに境界を設定する任意の線形または非線形の式とすることができる。そのような境界は、「クラスＩ」のリードで許容されるミスマッチの数のあらゆる可能な組み合わせに対して、各タイプの許容されるミスマッチに適用される単純な閾値を超えてさらなる境界を設定することを可能にするので、様々な目的のためのシーケンスリードの分析時に所望の選択的データ検索を圧縮データに適用するための非常に有用な基準を構成する。

５．第５のクラスは、参照を参照するときに各データクラスについて有効であると見なされる（すなわち、テーブル１に規定される最大マッチング不正確さに対する上限を定義するマッチングルールのセットを満たさない）マッチングを見出すすべてのリードを含む。そのようなシーケンスは、参照シーケンスを参照するとき「マッピングされていない」と言われ、「クラスＵ」に属すると分類される。

マッチングルールに従ったリードペアの分類
前のセクションで指定された分類はシングルシーケンスリードに関するものである。２つのリードが可変長の未知のシーケンスで区切られていることがわかっている、ペアでリードを生成するシーケンステクノロジ（例：ＩｌｌｕｍｉｎａＩｎｃ.）の場合、ペア全体を単一のデータクラスに分類することを検討するのが適切である。互いに結合されているリードは、その「メイト」と呼ばれる。

両方のペアのリードが同じクラスに属する場合、ペア全体のクラスへの割り当ては明白であり、ペア全体は任意のクラスに対して同じクラスに割り当てられる（すなわち、Ｐ、Ｎ、Ｍ、Ｉ、Ｕ）。２つのリードが異なるクラスに属しているが、どちらも「クラスＵ」には属していない場合、ペア全体が次の式に従って定義される最も高い優先順位を持つクラスに割り当てられる。
Ｐ<Ｎ<Ｍ<Ｉ
「クラスＰ」が最も低い優先順位を有し、「クラスＩ」が最も高い優先順位を有する。

リードのうちの1つのみが「クラスＵ」に属し、そのメイトがクラスＰ、Ｎ、Ｍ、Ｉのいずれかに一致する場合、第６のクラスは「ハーフマップ」を表す「クラスＨＭ」として定義される。

そのような特定のクラスのリードの定義は、それが参照ゲノムに存在するギャップまたは未知の領域（別名、ほとんど知られていないまたは未知の領域）を決定することを試みるために使用されるという事実によって動機付けられる。そのような領域は、既知の領域にマッピングすることができるペアリードを使用して、エッジでペアをマッピングすることによって再構築される。図５７に示すように、それからマッピングされていないメイトを使用して、未知の領域のいわゆる「コンティグ」を構築する。したがって、そのようなタイプのリードペアのみへの選択的アクセスを提供することにより、先行技術の解決策を使用することは完全に検査されることを必要とするであろう大量のデータセットによって生じるそのようなデータの非常に効率的な処理を可能にする関連する計算の負担を大幅に減らす。

以下のテーブルは、各リードが属するデータのクラスを定義するために、リードに適用されるマッチングルールを要約する。ルールは、ミスマッチのタイプ（n、s、d、i、およびcタイプミスマッチ）の有無によって、表の最初の５列に定義される。第６列は、各ミスマッチタイプおよび可能性のあるミスマッチタイプの任意の関数f(n、s)およびｗ(n、s、d、i、c)についての最大閾値に関するルールを提供する。

テーブル１．本発明の開示において定義される、各シーケンスリードがデータクラスに分類されるために満たさなければならないミスマッチのタイプと制約のセット。

シーケンスリードデータ・クラスＮ、Ｍ、およびIをさまざまな程度のマッチング精度でサブクラスに分割するマッチングルール
前のセクションで定義されたタイプＮ、Ｍ、およびＩのデータクラスはさらに、異なる程度のマッチング精度を有する任意の数の別個のサブクラスに分解することができる。そのような選択肢は、より細かい精度、そして結果として各データクラスへのはるかに効率的な選択的アクセスを提供することにおける重要な技術的利点である。限定するわけではなく例として、クラスＮをｋ個のサブクラス（サブクラスＮ₁、・・・、サブクラスＮ_k）に分割するためには、ＭＡＸＮ₁＜ＭＡＸＮ₂＜・・・＜ＭＡＸＮ_(k-1)＜ＭＡＸＮの条件で、対応するコンポーネントＭＡＸＮ₁、ＭＡＸＮ₂、・・・、ＭＡＸＮ_(k-1)、ＭＡＸＮ_(k)を有するベクトルを定義し、そしてベクトルの各要素について評価したときに、テーブル1に指定された制約を満たす最も低いランクのサブクラスにそれぞれのリードを割り当てる必要がある。これは図６０に示されており、データ分類ユニット６０１は、クラスＰ、Ｎ、Ｍ、ＩＵ、ＨＭエンコーダ、ならびに注釈およびメタデータ用のエンコーダを含む。クラスＮエンコーダは、Ｎデータのｋ個のサブクラス（６０６）を生成する閾値ベクトルであるＭＡＸＮ₁からＭＡＸＮ_k６０２によって構成される。

タイプＭとＩのクラスの場合、ＭＡＸＭとＭＡＸＴＯＴのそれぞれに対して同じ特性を持つベクトルを定義し、関数f（n、s）とｗ（ｎ、ｓ、ｄ、ｉ、ｃ）が制約を満たすかどうかをチェックするための閾値として各ベクトルコンポーネントを使用することによって同じ原理が適用される。タイプＮのサブクラスの場合と同様に、割り当ては、制約が満たされる最も低いサブクラスに与えられる。各クラスタイプのサブクラスの数は独立しており、サブディビジョンの任意の組み合わせを使用できる。図６０に示すように、ここではクラスＭエンコーダとクラスＩエンコーダがそれぞれ閾値ベクトルＭＡＸＭ₁からＭＡＸＭ_j（６０３）とＭＡＸＴＯＴ₁からＭＡＸＴＯＴ_h（６０４）で構成される。２つのエンコーダは、Ｍデータのｊ個のサブクラス（６０７）およびＩデータのｈ個のサブクラス（６０８）をそれぞれ生成する。ペア内の２つのリードが同じサブクラスに分類される場合、そのペアは同じサブクラスに属する。

ペア内の２つのリードが、異なるクラスのサブクラスに分類される場合には、そのペアは以下の式に従って、より高い優先順位の高いクラスのサブクラスに属する。
Ｎ<Ｍ<Ｉ
ここで、Ｎは最も低い優先順位を有し、iは最も高い優先順位を有する。

２つのリードが、クラスＮ、Ｍ、またはＩのうち１つの異なるサブクラスに属する場合、そのペアは以下の式に従って、最も高い優先順位を有するサブクラスに属する。
Ｎ₁＜Ｎ₂＜・・・＜Ｎ_k
Ｍ₁＜Ｍ₂＜・・・＜Ｍ_j
Ｉ₁＜Ｉ₂＜・・・＜Ｉ_h
最も高いインデックスが最も高い優先順位を有する。

「外部」参照シーケンスの変換
クラスＮ、Ｍ、およびＩに分類されたリードについて見いだされたミスマッチは、リード表現をより効率的に圧縮するために使用される「変換された参照」を作成するために使用され得る。

クラスＮ、ＭまたはＩに属すると分類された（ＲＳ₀として示される既存の（すなわち「外部の））参照シーケンスに関して）リードは、変換された参照との実際のミスマッチの発生に従って「変換された」参照シーケンスＲＳ₁に関してコード化することができる。

例えば、クラスＭに属するリード^M _in（クラスＭのｉ番目のリードとして示される）が参照シーケンスＲＳ_nに関してミスマッチを含む場合、
「変換」の後、リード^M _in＝リード^P _i(n+1)は、Ａ（Ｒｅｆ_n）＝Ｒｅｆ_n+1で得ることができる。ここで、Ａは参照シーケンスＲＳ_nから参照シーケンスＲＳ_n+1への変換を示す。

図６１は、参照シーケンス１（ＲＳ₁）に関してミスマッチ（クラスＭに属する）を含むリードを、ミスマッチの位置に対応する塩基を修飾することによってＲＳ₁から得られた参照シーケンス１（ＲＳ₂）に関して完全にマッチングするリードに変換する方法の例を示す。それらは分類されたままで、同じデータクラスアクセスユニット内の他のリードと一緒にコード化されるが、コーディングはクラスＰリードに必要な記述子と記述子値のみを使用して行われる。この変換は次のように表すことができる。
ＲＳ₂＝Ａ（ＲＳ₁）

ＲＳ₁に適用されたときにＲＳ₂を生成する変換Ａの表現とリードペアＲＳ₂の表現とが、クラスＭのリードペアＲＳ₁の表現よりも低いエントロピーに対応するとき、データ表現のより高い圧縮が達成されるので、変換Ａの表現およびリードペアＲＳ₂の対応する表現を送信することは有利である。

圧縮ビットストリームにおける伝送のための変換Ａのコード化は、以下の表に定義されるように２つの追加の構文要素の定義を必要とする。

図６２は、マッピングされたリードにおいてコード化されるべきミスマッチの数を減らすために参照変換が適用される方法の例を示す。
いくつかの場合には、参照に変換が適用されることに注意する必要がある。
・変換を適用する前に参照を参照するときに存在しなかったリードの表現にミスマッチが生じる可能性がある。
・ミスマッチの種類が変更される可能性がある。リードにＧの代わりにＡが含まれ、他のすべてのリードにＧの代わりにＣが含まれる場合があるが、ミスマッチは同じ位置に残る。
・異なるデータクラスおよび各データクラスのデータのサブセットは、同じ変換された参照シーケンス、または同じ既存の参照シーケンスに異なる変換を適用することによって得られる参照シーケンスを参照することができる。

図６１は、参照変換が適用され、リードは変換された参照を使用して表されるとき、適切な記述子のセットを使用して（たとえばクラスＰの記述子を使用してクラスＭのリードをコードするなど）、リードがデータクラスから別のクラスにコード化タイプを変更する方法の例を示す。これは、例えば、変換が実際にリードに存在する塩基のリードのミスマッチに対応するすべての塩基を変更し、したがって、（元の変換されていない参照シーケンスを参照するときは）クラスＭに属するリードを、（変換された参照を参照するときは）クラスＰの仮想リードに仮想的に変換する。各クラスのデータに使用される記述子のセットの定義は、次のセクションで説明される。

図６３は、リードを再エンコードするために、異なるクラスのデータが同じ「変換された」参照Ｒ₁＝Ａ₀（Ｒ₀）（６３０）を使用する、または異なる変換Ａ_N（６３１）、Ａ_M（６３２）、ＡＩ（６３３）を各データクラスに別々に適用する方法を示す。

グローバルパラメータ用のゲノムデータヘッダ
ゲノムデータのデータ構造は、デコーディングエンジンによって使用されるグローバルパラメータおよびメタデータの記憶を必要とする。これらのデータは、以下の構造で編成される。
ファイルベースのストレージの場合：
・データセットマルチプレックスヘッダ
・データセットヘッダ
・ディスクリプタレイヤヘッダ
・ブロックヘッダ

これらのヘッダ間の階層関係は、図５８に示される。
ストリーミングシナリオにおけるトランスポートの場合
・データセットマッピングテーブルリスト
・データセットマッピングテーブル
・トランスポートブロックヘッダ
・パケットヘッダ

データセットは、単一のゲノムシーケンシングランおよび以下のすべての分析に関連するゲノム情報を再構築するために必要なコード要素の集合として定義される。同じゲノムサンプルが２つの異なるランで２回シーケンスされる場合、得らるデータは２つの異なるデータセットにコード化される。

データセットマルチプレックスヘッダ
これは、「マルチプレックス」に集約された1つ以上のデータセットの先頭に付加されるデータ構造である。

これは、コード化されたデータセットの先頭に付加されるデータ構造である

テーブル２−ゲノムデータセットヘッダ構造

記述子レイヤヘッダ
記述子(構文要素を含む)は、この明細書の以下のセクションに記載されており、本発明により記載されるゲノム情報表現の構築ブロックである。それらは、各記述子の特定の統計的性質に従って分割された均一な要素のレイヤ(別名記述子ストリーム)に編成される。これにより、各レイヤのエントロピーを低減し、圧縮効率を改善するという利点がある。
各レイヤの前には、以下に説明される記述子レイヤヘッダが付加される。

ブロックヘッダ
各記述子レイヤは、１つまたは複数のゲノムデータブロックによって構成される。異なるレイヤからの1つ以上のブロックは、データのクラスに応じて、アクセスユニットを構成する。

アクセスユニットは、グローバルに利用可能なデータのみを使用すること（例えばデコーダ構成）によって、または他のアクセスユニットに含まれる情報を使用することによって、他のアクセスユニットから独立してデコードすることができるゲノムブロックのセットである。

記述子のレイヤへのシーケンスリードを表現するのに必要な情報の定義
クラスの定義を用いてリードの分類が完了すると、さらなる処理は、所与の参照シーケンス上にマップされていると表現されたときに、ＤＮＡリードシーケンスの再構成を可能にする残りの情報を表す別個の構文要素のセットを定義することからなる。

所与の参照シーケンスと呼ばれるシーケンスリード(例えば、ＤＮＡセグメント)は、以下のように完全に表現することができる。
・参照シーケンス上の開始位置ｐｏｓ（２９２）
・リードが参照ｒｃｏｍｐに対する逆相補として考慮されなければならない場合にシグナリングするフラグ（２９３）。
・対のリードペアの場合のメイトペアの距離（２９４）。
・シーケンス技術が可変長リードを生成する場合のリード長の値（２９５）。リード長が一定の場合、各リードに関連するリード長を明らかに省略することができ、ゲノムデータセットヘッダに記憶することができる。
・各ミスマッチごとに、
・ミスマッチの位置クラスＮのｎｍｉｓ（３００）、クラスＭのｓｎｐｐ（３１１）、クラスＩのｉｎｄｎ（３２１））
・ミスマッチタイプ（クラスＮ、クラスＭのｓｎｐｔ（３１２）、クラスＩのｉｎｄｔ（３２２）に存在しない)
・シーケンスリードの特定の特性を示すフラグ（２９６）
・シーケンシングにおいて複数のセグメントを有するテンプレート
・アライナによって適切にアラインされた各セグメント
・マッピングされていないセグメント
・マッピングされていないテンプレートにおける次のセグメント
・最初又は最後のセグメントの信号化
・品質管理障害
・ＰＣＲまたは光学的複製
・二次アライメント
・補助アライメント
・クラスＩに存在する場合、ソフトクリップされたヌクレオチドストリング（３２３）
・適用可能な場合、アライメントと圧縮に使用される参照（クラスＵの内部参照など）を示すフラグ（記述子ｒｔｙｐｅ）。
・クラスＵの場合、記述子ｉｎｄｃは、指定されたマッチング精度の制約のセットと「内部」参照シーケンスと一致しないリードの部分（通常はエッジ）を識別する。
・記述子ｕリードは、「外部」（すなわち、実際の参照ゲノムのように既存の）参照シーケンスまたは「内部」参照シーケンスである利用可能な参照にマッピングすることができないリードを逐語的にコード化するために使用される。

この分類は、ゲノムシーケンスリードを一義的に表現するために使用することができる記述子(構文要素)のグループを作成する。以下のテーブルは、「既存の」（すなわち「外部」）または「構築された」(すなわち「内部」)参照とアラインされたリードの各クラスに必要とされる構文要素を要約する。

テーブル３−データのクラスごとに定義されたレイヤ

クラスＰに属するリードは特徴付けられ、それらがメイトペア、いくつかのフラグおよびリード長をもたらすシーケンス技術によって得られた場合、位置、逆補数情報およびメイト間のオフセットのみによって完全に再構築することができる。

次のセクションでは、クラスＰ、Ｎ、Ｍ、及びＩに対してこれらの記述子がどのように定義されるのかを詳しく説明する。クラスＵの場合、これらの記述子は後のセクションで説明する。

クラスＨＭはリードペアにのみ適用され、一方のリードがクラスＰ、Ｎ、Ｍ、又はＩに属し、もう一方がクラスＵに属するという特別な場合です。

位置記述子レイヤ
各アクセスユニットにおいて、最初にコード化されたリードのマッピング位置のみが参照ゲノム上の絶対位置としてＡＵヘッダに格納される。他のすべての位置は、前の位置に対する差として表され、特定のレイヤに格納される。リード位置のシーケンスによって定義される情報ソースのこのモデリングは、一般的に、特に高いカバレッジ結果を生成するシーケンシングプロセスの低減エントロピーによって特徴付けられる。最初のアライメントの絶対位置が保存されると、他のリードのすべての位置は最初のアライメントとの差（距離）として表される。
例えば、図４に示した参照上の位置「１００００」である第1のアライメントの開始位置をコード化した後、第２のリードの開始位置１０１８０は「１８０」としてコード化される。高いカバレッジデータ（＞５０倍）の大部分の位置ベクトルの記述子は、０と１と他の小さな整数のような低い値に非常に高い発生を示すであろう。図１０は、３つのリードペアの位置がｐｏｓレイヤーにエンコードされる方法を示している。

同じソースモデルがクラスＮ、Ｍ、ＰおよびＩに属するリードの位置に使用される。テーブル１に示すように、データへの選択的アクセスの任意の組み合わせを可能にするために、４つのクラスに属するリードの位置は別々のレイヤにコード化される。

逆相補記述子レイヤ
シーケンシング技術によって生成されたリードペアの各々のリードは、シーケンスされた有機サンプルのゲノムストランドのいずれかに由来する。しかし、２本鎖のストランドのうちの１つのみが参照シーケンスとして使用される。図８は、リードペアで、一方のリード（リード１）が一方のストランドから発生し、他方（リード２）が他方のストランドから発生することを示す。

ストランド１を参照シーケンスとして使用する場合、リード２は、ストランド１の対応するフラグメントの逆相補としてコード化することができる。これは、図９に示されている。

結合されたリードの場合、直接および逆相補のメイトペアの可能な組合せは４つある。これは、図１０に示す。ｒｃｏｍｐレイヤは、４つの可能な組み合わせをコードする。

クラスＰ、Ｎ、Ｍ、Ｉに属するリードの逆相補情報には、同じコード化が用いられる。テーブル３に示すとおり、データへの選択的アクセスの強化を可能にするために、４つのクラスに属するリードの逆相補情報は異なるレイヤにコード化される。

ペアリング記述子レイヤ
ペアリング記述子は、ペアレイヤに格納される。このようなレイヤは、使用されたシーケンシング技術がペアでリードを生成するときに、発信リードペアを再構築するために必要な情報をコード化する記述子を記憶する。本発明の開示の日現在、大多数のシーケンシングデータはペアのリードを生成する技術を使用することによって生成されるが、それはすべての技術の場合というわけではない。これが、考慮されるゲノムデータのシーケンシング技術がペアリード情報を生成しない場合、このレイヤがすべてのシーケンシングデータ情報を再構築するのに必要ではない理由である

定義：
・メイトペア：リードペアの別のリードに関連付けられたリード（例：図４の例では、リード２はリード１のメイトペア）
・ペアリング距離：最初のリードの位置（ペアリングアンカー、たとえば最初のリードの最後のヌクレオチド）から分離する、第２のリードの位置（たとえば２番目のリードの最初のヌクレオチド）の参照シーケンス上のヌクレオチドの位置の数。
・最も確率の高いペアリング距離（ＭＰＰＤ）：これは、ヌクレオチド位置の数で表される最も確率の高いペアリング距離
・位置ペアリング距離（ＰＰＤ）：ＰＰＤは、特定の位置記述子レイヤ内に存在するそれぞれのメイトから１つのリードを分離するリードの数に関して、ペアリング距離を表現する方法
・最も可能性の高い位置ペアリング距離（ＭＰＰＰＤ）：は、特定の位置記述子レイヤに存在するメイトペアから１つのリードを分離する最も可能性の高いリード数である
・位置ペアリングエラー（ＰＰＥ）：ＭＰＰＤまたはＭＰＰＰＤと相手の実際の位置との差として定義する
・ペアリングアンカー：ヌクレオチドの位置の数またはリード位置の数に関してメイトペアの距離を計算するために参照として使用される、ペアにおける最初に読み取られた最後のヌクレオチドの位置。

図５は、リードペア間のペアリング距離がどのように計算されるかを示す。
ペア記述子レイヤは、定義されたデコーディングペアリング距離に関して最初のリードのペアのメイトペアに到達するためにスキップされるリードの数として計算されたペアリングエラーのベクトルである。

図６は、絶対値および差分ベクトル(高いカバレッジのためにより低いエントロピーを特徴とする)の両方として、ペアリングエラーがどのように計算されるかの例を示す。

クラスＮ、Ｍ、Ｐ、Ｉに属するリードのペアリング情報には、同一の記述子が使用される。異なるデータクラスへの選択的なアクセスを可能にするために、４つのクラスに属するリードのペアリング情報は、示されるように異なるレイヤでコード化される。

リードが異なる参照にマップされる場合のペアリング情報
参照シーケンス上にシーケンスリードをマッピングするプロセスにおいて、ペアにおける第１のリードを１つの参照（例えば第１染色体）にマッピングし、そして第２を別の参照（例えば第４染色体）にマッピングすることは珍しくない。この場合、上記のペア情報は、リードのうちの１つをマッピングするために使用される参照シーケンスに関連する追加の情報によって統合されなければならない。これはコーディングによって達成される。
１. ペアが２つの異なるシーケンスにマッピングされていることを示す予約値（フラグ）（異なる値は、リード１またはリード２が現在エンコードされていないシーケンスにマッピングされていることを示す）
２. テーブル２で説明したゲノムデータセットヘッダ構造にエンコードされた参照識別子を参照する固有の参照識別子
３. ポイント２で識別され、最後のコード化位置に対するオフセットとして表現された参照に関するマッピング情報を含む第３の要素。

図７にこのシナリオの例を示す。
図７は、リード４が、現在コード化されている参照シーケンスにマッピングされていないため、ゲノムエンコーダーはペアレイヤに追加の記述子を作成することによってこの情報を通知する。図７に示す例では、ペア２のリード４が、現在コード化されている参照番号は１だけど、参照番号４にマップされたことを示す。この情報は３つの要素を使ってエンコードされる。
１）１つの特別な予約値が対距離としてコード化される（この場合はＯｘｆｆｆｆｆｆ）。
２）第２の記述子は、ゲノムデータセットヘッダにリストされている参照ＩＤを提供する（この場合は４）。
３）第３の要素は、当該参照に関するマッピング情報を含む（１７０）。

クラスＮには、Ａ、Ｃ、Ｇ、又はＴの塩基の位置にＮがもたらされる「nタイプ」ミスマッチのみが存在する。リードの他のすべての塩基は、参照シーケンスと完全に一致する。

図１１はその方法を示す。
リード１における「Ｎ」の位置には、次のようにコード化される
・リード１中の絶対位置、または
・同じリードの前の「Ｎ」に対する差分位置として
リード２における「Ｎ」の位置には、次のようにコード化される
・リード２中の絶対位置＋リード１の長さ、または
・同じリードの前のＮに対する差分位置
ｎｍｉｓレイヤでは、各リードペアのコード化は、特別な「セパレーター」記号によって終了する。

置換コード化(ミスマッチまたはＳＮＰｓ)
置換は、マップされたリード内において、同じ位置で参照シーケンス中に存在するものに対して異なるヌクレオチドの存在として定義される（図１２参照）。
各置換は、以下のようにコード化することができる
・「位置」(ｓｎｐｐレイヤ)および「タイプ」(ｓｎｐｔレイヤ)。図１３、図１４、図１６および図１５を参照。
または、
・「位置」だけだが、ミスマッチタイプごとに１つのｓｎｐｐレイヤを使用する。図１７参照

置換位置
置換位置は、ｎｍｉｓレイヤの値と同じように計算される。すなわち、
リード１において置換は次のようにコード化される
・リード１中の絶対位置、または
・同じリードの前の置換に対する差分位置としてリード２における置換は次のようにコード化される
リード１において置換は次のようにコード化される
・リード２中の絶対位置＋リード１の長さ、または
・同じリードの前の置換に対する差分位置図１３は、置換位置がレイヤｓｎｐｐでどのようにエンコードされるかを示す。置換位置は、絶対値または差分値として計算することができる。
ｓｎｐｐレイヤでは、各リードペアのコード化は、特別な「セパレーター」記号によって終了する。

置換タイプ記述子
クラスＭ(及び次のセクションで説明するようにＩ)の場合、ミスマッチは、参照にある実際のシンボルから、リードに存在する対応する置換シンボル｛Ａ、Ｃ、Ｇ、Ｔ、Ｎ、Ｚ｝へ、インデックス（右から左への移動）によってコード化される。例えば、アラインされたリードが、参照内の同じ位置に存在するＴの代わりにＣを提示する場合、ミスマッチインデックスは「４」として示される。デコード化プロセスは、コード化された構文要素、参照上の所与の位置にあるヌクレオチドを読み取り、デコード化されたシンボルを取り出すために左から右に移動する。例えば、参照内にＧが存在する位置に対して受信した「２」は、「Ｎ」としてデコードされる。図１４は、ＩＵＰＡＣあいまいさコードが使用されていない場合のすべての可能な置換およびそれぞれのコード化シンボルを示し、図１５は、ｓｎｐｔレイヤにおける置換タイプのコード化の例を提供する。

ＩＵＰＡＣあいまいさコードが存在する場合、置換インデックスは、図１６に示されるように変化する。
上述した置換タイプのコード化が高い情報エントロピーを示す場合、置換コード化の代替的な方法は、図１７に示されるように、ミスマッチ位置のみをヌクレオチドごとに別個のレイヤに記憶することからなる。

挿入および欠失のコード化
クラスＩの場合、ミスマッチおよび欠失は、参照にある実際のシンボルから、リードに存在する対応する置換シンボル｛Ａ、Ｃ、Ｇ、Ｔ、Ｎ、Ｚ｝へ、インデックス（右から左への移動）によってコード化される。例えば、アラインされたリードが、参照内の同じ位置に存在するＴの代わりにＣを提示する場合、ミスマッチインデックスは「４」になる。参照内にＡが存在する位置に、リードは欠失が存在する場合、コード化シンボルは「５」になる。デコード化プロセスは、コード化された構文要素、参照上の所与の位置にあるヌクレオチドを読み取り、デコード化されたシンボルを取り出すために左から右に移動する。例えば、参照中にＧが存在する位置について受信された「３」は、リード配列中に欠失の存在を示す「Ｚ」としてデコードされる。

挿入は、挿入物Ａ、Ｃ、Ｇ、Ｔ、Ｎに対してそれぞれ６、７、８、９、１０としてコード化される。

ＩＵＰＡＣあいまいさコードを採用する場合、置換メカニズムは正確に同じになるが、置換ベクトルは次のように拡張される。Ｓ＝｛Ａ、Ｃ、Ｇ、Ｔ、Ｎ、Ｚ、Ｍ、Ｒ、Ｗ、Ｓ、Ｙ、Ｋ、Ｖ、Ｈ、Ｄ、Ｂ｝そして挿入は、異なるコード１６、１７、１８、１９、２０を使用する。

図１８および図１９は、クラスＩのリードペアにおける置換、挿入および欠失をどのようにコード化するかの例を示す。

ここで開示されたコード化要素を参照して、ファイルフォーマット、アクセスユニットおよび多重化の以下の構造が説明される。しかし、アクセスユニット、ファイルフォーマット、および多重化は、ソースモデリングおよびゲノムデータ圧縮の他のおよび異なるアルゴリズムによっても同じ技術的利点を生み出す。

「クラスＵ」と「クラスＨＭ」のマッピングされていないリードのための「内部」参照の構築
クラスＵ、またはマップされていないペアの「クラスＨＭ」に属するリードの場合、それらはクラスＰ、Ｎ、Ｍ、またはＩのいずれかに属するための指定されたマッチング精度の制約のセットを満たすどの「外部」参照シーケンスにもマッピングできないため、１つまたは複数の「内部」参照シーケンスが構築され、これらのデータクラスに属するリードの圧縮表現のために使用される。
限定するわけではなく、例えば、適切な「内部」参照を構築するためのいくつかのアプローチなどが可能である。
・マッピングされていないリードを、少なくとも最小サイズの共通の連続ゲノムシーケンス（シグネチャ）を共有するリードを含むクラスターに分割すること。各クラスタは、そのシグネチャによって固有に識別することができる。
・任意の意味のある順序(例えば、辞書式の順序)でのリードの分類、および最後のＮの使用は、Ｎ＋１のコード化のための「内部」参照として読み出される。この方法は、図５１に示す。
・指定されたマッチング精度の制約または新たな制約のセットに従って前記クラスに属するリードの全部または関連するサブセットをアラインおよびコード化することができるように、クラスＵのリードのサブセットに対していわゆる「デノボアセンブリ」を実行する。

指定されたマッチング精度の制約のセットを満足する「内部」参照に、コード化されているリードがマッピングできる場合、圧縮後にリードを再構成するために必要な情報は、以下のタイプの構文要素を使用してコード化される
１．内部参照(ｐｏｓレイヤ)におけるリード番号に関して、内部参照上の一致部分の開始位置の決定。この位置は、以前にコード化されたリードに対して絶対値または差分値としてコード化することができる。
２．内部参照(ペアレイヤ)における対応するリードの先頭からの開始位置のオフセット。例えば、一定のリード長の場合、実際の位置は、ｐｏｓ＊長さ＋ペアである。
３．ミスマッチ位置(ｓｎｐｐレイヤ)およびタイプ(ｓｎｐｔレイヤ)としてコード化された存在するかもしれないミスマッチ
４．内部基準と一致しない（または一致するが、定義された閾値を超える多数のミスマッチがある）リードの部分（通常はペアで識別されるエッジ）は、ｉｎｄｃレイヤでエンコードされる。図５１に示すように、ｉｎｄｃレイヤーでエンコードされたミスマッチのエントロピーを減らすために、使用される内部参照の一部のエッジに対してパディング操作を実行できる。最も適切なパディング戦略は、処理されているゲノムデータの統計的性質に従ってエンコーダによって選択され得る。可能なパディング戦略は以下を含む
ａ．パディングなし
ｂ．現在コード化されているデータの頻度に従って選択された定数パディングパターン
ｃ．最新のn個のコード化されたリードに関して定義された現在のコンテキストの統計的特性に従った変数パディングパターン
特定のタイプのパディング方式は、ｉｎｄレイヤヘッダ内の特別な値によって通知される。
５．内部の自己生成、外部、または参照なし（ｒｔｙｐｅレイヤ)のいずれかを用いてリードがコード化されたかどうかを示すフラグ
６．逐語的にエンコードされたリード（ｕｒｅａｄｓ）
図５１は、そのようなコード化プロセスの例を提供する。
図５６は、ｐｏｓ＋ペア構文要素がコード付きｐｏｓに置き換えられている内部参照上のマップされていないリードの代替のエンコードを示す。この場合、ｐｏｓは、参照配列上の位置に関して、リードｎ−1の最も左のヌクレオチドの位置に対するリードｎの最も左のヌクレオチド位置の距離を表す。このコーディング手法は、リードごとにＮ個の開始位置をサポートするように拡張することができ、それによってリードを２つ以上の参照位置にわたって分割することができる。これは、シーケンシング方法論においてループによって生成される繰り返しパターンを通常示す非常に長いリード（５０Ｋ＋の塩基）を生成する（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅの）シーケンシング技術によって生成されるリードをコード化するのに特に有用である。同じアプローチを同様に使用して、ほとんどまたは全く重複することなくゲノムの２つの異なる部分にアラインするリードとして定義されるキメラシーケンスリードをコードすることができる。

上記のアプローチは、単純なクラスＵを超えて明確に適用することができ、リード位置に関連する構文要素を含む任意のレイヤ（ｐｏｓレイヤ）に適用することができる。

ファイルフォーマット：マスターインデックステーブルを使用したゲノムデータの領域への選択的アクセス
アラインされたデータの特定の領域への選択的なアクセスをサポートするために、この明細書に記載されたデータ構造は、マスターインデックステーブル（ＭＩＴ）と呼ばれるインデックスツールを実装する。これは、特定のリードが使用される参照シーケンス上にマップされる、遺伝子座を含む多次元アレイである。ＭＩＴに含まれる値は、各ｐｏｓレイヤにおける最初のリードのマッピング位置であり、各アクセスユニットへの非シーケンシャルアクセスがサポートされる。ＭＩＴは、各クラスのデータ（Ｐ、Ｎ、Ｍ、Ｉ、Ｕ、およびＨＭ）および各参照シーケンスごとに、１つのセクションを含む。ＭＩＴは、コード化されたデータのゲノムデータセットヘッダに含まれる。図２０は、ゲノムデータセットヘッダの構造を示し、図２１はＭＩＴの一般的な視覚的表現を示し、図２２は、コード化されたクラスＰのリードについてのＭＩＴの例を示す。

図に示されたＭＩＴに含まれる値は、圧縮ドメイン内の関心領域（および対応するＡＵ）に直接アクセスするために使用される。

例えば、図２２を参照すると、参照２上の位置１５０，０００と２５０，０００の間に含まれる領域にアクセスする必要がある場合、デコード化アプリケーションはＭＩＴ内の第２の参照にスキップし、ｋ１＜１５０，０００、ｋ２＞２５０，０００となる２つの値ｋ１およびｋ２を探す。ここで、ｋ１およびｋ２はＭＩＴから読み出された２つのインデックスである。図２２の例では、これはＭＩＴの第２のベクトルの位置３および４をもたらす。これらの帰ってきた値は、次のセクションで説明するように、ｐｏｓレイヤのローカルインデックステーブルから適切なデータの位置を取得するために、デコードアプリケーションによって使用される。

上述の４つのクラスのゲノムデータに属するデータを含むレイヤへのポインタと共に、ＭＩＴは、そのライフサイクルの間にゲノムデータに追加される追加のメタデータおよび／または注釈のインデックスとして使用することができる。

ローカルインデックステーブル
上述の各データレイヤには、ローカルヘッダと呼ばれるデータ構造が予め固定されている。ローカルヘッダは、レイヤの一意の識別子、各参照シーケンスごとのアクセスユニットカウンタのベクトル、ローカルインデックステーブル（ＬＩＴ）、および任意選択でいくつかのレイヤ固有のメタデータを含む。ＬＩＴは、レイヤペイロード内の各ＡＵに属するデータの物理位置へのポインタのベクトルである。図２３は、ＬＩＴがコード化データの特定の領域に非順次的方法でアクセスするために使用される一般的なレイヤヘッダおよびペイロードを示す。

前の例では、参照シーケンス番号２にアラインした領域１５０，０００から２５０，０００のリードにアクセスするために、デコード化アプリケーションはＭＩＴから位置３および４を検索した。これらの値は、ＬＩＴの対応するセクションの第３および第４の要素にアクセスするためにデコード化プロセスによって使用される。図２４に示す例では、レイヤヘッダに含まれるトータルアクセスユニットカウンタは、参照１に関連するＡＵに関連するＬＩＴインデックス（この例では５）をスキップするために使用される。コード化されたストリーム内の要求されたＡＵの物理的位置を含むインデックスは、それ故、以下のように計算される。

要求されたＡＵに属するデータブロックの位置＝スキップされる参照１のＡＵに属するデータブロック＋ＭＩＴを使用して検索された位置。
最初のブロック位置：５＋３＝８
最後のブロック位置：５＋４＝９

ローカルインデックステーブルと呼ばれるインデックス機構を用いて検索されたデータのブロックは、要求されたアクセスユニットの一部である。
図２６は、ＭＩＴおよびＬＩＴを使用して検索されたデータブロックが1つ以上のアクセスユニットを構成する方法を示す

アクセスユニット
データクラスに分類され、圧縮されたまたは圧縮されていないレイヤで構造化されたゲノムデータは、異なるアクセスユニットに編成される。

ゲノムアクセスユニット（ＡＵ）は、ヌクレオチド配列および／または関連メタデータ、および／またはＤＮＡ／ＲＮＡの配列（例えば仮想参照）および／またはゲノムシーケンス装置および／またはゲノム処理装置または分析アプリケーションによって生成された注釈データを再構築するゲノムデータのセクション（圧縮または非圧縮形式）として定義される。アクセスユニットの例を図２６に示す。

アクセスユニットは、グローバルに利用可能なデータのみを使用すること（例えば、デコーダ構成）によって、または他のアクセスユニットに含まれる情報を使用することによって、他のアクセスユニットから独立してデコードすることができるデータのブロックである。
アクセスユニットは、以下のように区別される。
・タイプ、それらが保有するゲノムデータおよびデータセットの性質およびそれらにアクセスすることができる方法によって特徴つけられる。
・順序、同じタイプに属するアクセスユニットに一意の順序を提供する。

任意のタイプのアクセスユニットは、さらに異なる「カテゴリ」に分類することができる。

以下に、異なるタイプのゲノムアクセスユニットの定義の非網羅的なリストを説明する。
１）タイプ０のアクセスユニットは、アクセスまたはデコード化されアクセスされるために他のアクセスユニットから来る情報を参照する必要はない。データまたはそれらが含むデータセットによってもたらされる全情報は、デコーダ装置または処理アプリケーションによって独立して読み取られ、処理されることができる。
２）タイプ１のアクセスユニットは、タイプ０のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ１のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ０の１つ以上のアクセスユニットにアクセスする必要がある。タイプ1のアクセスユニットは「クラスＰ」のシーケンスリードに関連するゲノムデータをコードする。
３）タイプ２のアクセスユニットは、タイプ０のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ２のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ０の１つ以上のアクセスユニットにアクセスする必要がある。タイプ２のアクセスユニットは「クラスＮ」のシーケンスリードに関連するゲノムデータをコードする。
４）タイプ３のアクセスユニットは、タイプ０のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ３のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ０の１つ以上のアクセスユニットにアクセスする必要がある。タイプ３のアクセスユニットは「クラスＭ」のシーケンスリードに関連するゲノムデータをコードする。
５）タイプ４のアクセスユニットは、タイプ０のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ４のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ０の１つ以上のアクセスユニットにアクセスする必要がある。タイプ４のアクセスユニットは「クラスＩ」のシーケンスリードに関連するゲノムデータをコードする。
６）タイプ５のアクセスユニットは、いずれの利用可能な参照シーケンス（「クラスＵ」）にマッピングすることができず、内部的に構築された参照シーケンスを用いてコード化されるリードを含む。タイプ５のアクセスユニットは、タイプ０のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ５のアクセスユニットに含まれるデータを読み取りまたはコード化し処理するには、タイプ０の１つ以上のアクセスユニットにアクセスする必要がある。
７）タイプ６のアクセスユニットはリードペアを含み、一方のリードは４つのクラスＰ、Ｎ、Ｍ、Ｉのいずれにも属することができ、他方はいずれの利用可能な参照シーケンスにもマッピングできない（「クラスＨＭ」）。タイプ６のアクセスユニットは、タイプ０のアクセスユニットによってもたらされるデータを参照するデータを含む。タイプ６のアクセスユニットに含まれるデータを読み取りまたはデコード化し処理するには、タイプ０の１つ以上のアクセスユニットにアクセスする必要がある。
８）タイプ７のアクセスユニットは、タイプ１のアクセスユニットに含まれるデータまたはデータセットに関連するメタデータ（例えば品質スコア）および／または注釈データを含む。タイプ７のアクセスユニットは、異なるレイヤに分類されラベルされてもよい。
９）タイプ８のアクセスユニットは、注釈データとして分類されるデータまたはデータセットを含む。タイプ８のアクセスユニットは、レイヤに分類されラベルされてもよい。
１０）追加のタイプのアクセスユニットは、本明細書で説明される構造およびメカニズムを拡張することができる。一例として、限定するわけではなく、ゲノムバリアントの決定、構造的および機能的解析の結果は、新しいタイプのアクセスユニットにコード化することができる。本明細書に記載のアクセスユニット内のデータ編成は、アクセスユニット内にカプセル化されるいかなる種類のデータも、コード化データの性質に関して完全に透過的なメカニズムであることを妨げるものではない。

タイプ０のアクセスユニットは順序付けられている（例えば番号付けされている）が、それらは順序付けられた方法で格納および／または送信される必要はない（技術的利点：並列処理／並列ストリーミング、多重化）。

タイプ１、２、３、４、５および６のアクセスユニットは、順序付けされる必要はなく、順序付けられた方法で格納および／または送信される必要もない（技術的利点：並列処理／並列ストリーミング）。

図２６は、アクセスユニットが、ヘッダと、均一なデータの１つ以上のレイヤとによってどのように構成されるかを示す。各レイヤは1つ以上のブロックで構成することができる。各ブロックはいくつかのパケットを含み、パケットは、例えばリード位置、ペアリング情報、逆相補情報、ミスマッチ位置およびタイプなどを表すために上述した記述子の構造化されたシーケンスである。

各アクセスユニットは各ブロック内に異なる数のパケットを持つことができるが、アクセスユニット内ではすべてのブロックは同じ数のパケットを有する。

各データパケットは、３つの識別子ＸＹＺの組み合わせによって識別することができる。
・Ｘは、それが属するアクセスユニットを識別する
・Ｙは、それが属するブロックを識別する。（すなわち、カプセル化されているデータタイプ)
・Ｚは、同一のブロック中の他のパケットに対するパケット順序を表す識別子である。

図２８は、ＡＵ＿Ｔ＿Ｎは識別子Ｎを有するタイプＴのアクセスユニットであり、アクセスユニットタイプによる順序の概念を暗示してもしなくてもよい、アクセスユニットおよびパケットラベリングの例を示す。識別子は、もたらされたゲノムデータを完全に解読するのに必要とされるあるタイプのアクセスユニットを他のタイプのアクセスユニットと一意に関連付けるために使用される。

任意のタイプのアクセスユニットは、異なるシークエンシングプロセスに従って、異なる「カテゴリ」でさらに分類され、ラベルされることができる。例えば、限定するわけではなく、分類およびラベリングを行うことができる。
１. 同一の生物を異なる時点でシークエンシングする(アクセスユニットは、「時間的」な含意を有するゲノム情報を含む)
２. 同一の生物の異なる性質の有機サンプル（例えば、ヒトサンプルの皮膚、血液、毛髪)のシークエンシング。これらは「生物学的」意味を有するアクセスユニットである。

タイプ１、２、３、４、５および６のアクセスユニットは、それらが参照するタイプ０のアクセスユニットにコード化された参照配列に関してゲノム配列フラグメントに適用されるマッチング機能の結果（別名リード）に従って構築される。

例えば、タイプ１のアクセスユニット（ＡＵｓ）（図３０参照）は、マッチング機能が実行されるときに完全なマッチング（または選択されたマッチング機能に対応する最大限可能なスコア）をもたらすそれらのリードの位置および逆相補フラグを含み得る。タイプ０のＡＵｓでコード化された参照シーケンスの特定の領域に適用される。タイプ０のＡＵｓに含まれるデータと共に、そのようなマッチング機能情報は、タイプ１のアクセスユニットによってもたらされるデータセットによって表されるすべてのゲノムシーケンスリードを完全に再構築するのに十分である。

本明細書で前述したゲノムデータ分類を参照すると、上記のタイプ１のアクセスユニットは、クラスＰのゲノムシーケンスリードに関する情報(完全一致)を含むであろう。

可変長リードおよびペアリードの場合、リードペアの関連付けを含むゲノムデータを完全に再構築することができるようにするために、先の例で述べたタイプ１のＡＵｓに含まれるデータをリードペアリングおよびリード長に関する情報を表すデータと統合する必要がある。先に本明細書で導入されたデータ分類に関して、ペアおよびｒｌｅｎレイヤはタイプ１のＡＵでコード化されるであろう。

タイプ１のアクセスユニットに関して適用されたマッチング機能は、タイプ２、３および４のＡＵの内容を分類するために、以下のような結果を提供することができる。
１. タイプ１のＡＵに含まれる各シーケンスは、指定された位置に対応してタイプ０のＡＵに含まれるシーケンスと完全に一致する。
２. タイプ２のＡＵに含まれる各シーケンスは、指定された位置に対応してタイプ０のＡＵに含まれるシーケンスと完全に一致する。
ただし、タイプ２のＡＵ内のシーケンスに「Ｎ」シンボルが存在することを除いて（シーケンス装置によってもたらされない塩基）
３. タイプ３のＡＵに含まれる各シーケンスは、指定された位置に対応してタイプ０のＡＵに含まれるシーケンスに関して置換シンボルの形のバリアント（バリアント）を含む。
４. タイプ４のＡＵに含まれる各シーケンスは、指定された位置に対応してタイプ０のＡＵに含まれるシーケンスに関して置換シンボルの形のバリアント（バリアント）、挿入および／または欠失を含む。
５. タイプ５のＡＵに含まれる各シーケンスは、タイプ０のＡＵに含まれる任意のシーケンスをマッピングしない。
６. タイプ６のＡＵに含まれる各シーケンスペアは、クラスＰ、Ｎ、Ｍ、及びＩ（上記の１から４）に属することができる一方のシーケンスを表すが、他方のシーケンスはタイプ０のＡＵに含まれるシーケンスをマッピングしない。

特定のゲノム領域に関連する「ラベル」を使用したアクセスユニットの識別
開示された発明によって、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体を参照するデータクラスへのユーザ定義の選択的なアクセスを可能にする追加の機構が提供される。

「ラベル」は、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に割り当てられる識別子である。ラベルは、参照シーケンスｉｄ(「ｒｅｆｉｄ」)、参照シーケンスの所望の領域に対応するＭＩＴのインデックス、およびデータクラスを特定することによってゲノム領域を識別する。図５２に一例を示す。

単一、サブセット、またはすべてのデータクラスは、ラベルによって参照することができ、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に関連するデータのサブセットのみに選択的にアクセスすることを可能にする。

ラベルリストは、保存シナリオまたはストリーミングシナリオにおいて、ゲノムラベルジェネレータ（４９１７図４９）によって作成される必要がある。保存またはストリーミングされたデータへの選択的なアクセスを適用して、分析アプリケーションに利用可能なラベルを提供する。

ラベルリストは、以下の要素を含むことができる
・ラベル数
・リスト中の各ラベル
・ラベルＩＤ
・ラベルが関与する参照シーケンスの数
・各参照シーケンス
■ 参照識別子
■ ラベルでの対象となる領域の数
■ 各領域について：
・クラスＩＤ
・ゲノム範囲の開始位置
・ゲノム範囲の終了位置

以下のテーブルは、一般的な「ラベルリスト」の擬似構文を報告する。

テーブル４．一般的な「ラベルリスト」データフォーマットの構文

ゲノムデータが圧縮されストリーミングされる場合、１つまたは複数のアクセスユニットは、現在のブロックが属する「ラベルリスト」における「ラベル」の識別子として機能するブロックヘッダフィールド（「ラベルＩＤ」）によって特定の「ラベル」を使用して識別することができる。このようなフィールドは、ストリーミングシナリオに典型的な「ラベル」へのブロックの動的マッピングを可能にする。

ゲノムファイルフォーマットでは、「ｓｔａｒｔ＿ｐｏｓ」フィールドおよび「ｅｎｄ＿ｐｏｓ」フィールドは、次のように特定の「ラベル」に属するすべての「ブロック」を参照するブロック番号で置き換えることがでる。

テーブル５．圧縮ファイルの場合の「ラベルリスト」構文データフォーマットの効率的な実装

「ｓｔａｒｔ＿ｐｏｓ」および「ｅｎｄ＿ｐｏｓ」の代わりにブロック番号を使用することは、「ｒｅｆ＿ｎｕｍ」、「ｃｌａｓｓ＿ｉｄ」および「ｂｌｏｃｋ＿ｎｕｍ」からなる３次元ベクトルがＭＩＴ自体を直接アドレス指定する座標として使用できることを考慮すると、「マスターインデックステーブル」（ＭＩＴ）への直接アクセスを可能にするので、関連する技術的利点を示す。

保存のシナリオでは、「ラベルリスト」はゲノムラベルジェネレータ（４９１７）によって作成され、ゲノムマルチプレクサーに送信される（図４９も参照）。デマルチプレクサは、ラベルリスト構文を解析し、利用可能なラベルをデータアクセスアプリケーションに公開し、それは必要とされる特定のデータアクセスに従って「ラベル」のサブセットに対応するアクセスユニットを選択する。

特定のゲノム領域に関連するアクセスユニットを識別するために「ラベル」を使用する可能性は、ランダムデータアクセス機能を達成するために「ラベル」なしでＭＩＴおよびＬＩＴのようなインデックスツールを使用することを妨げない。一般的なランダムアクセスは、対象となるＭＩＴ座標とＬＩＴ座標（参照ＩＤ、位置範囲、クラス）を決定し、ラベルリストに含まれる情報を無視することで、３次元ベクトルを指定することで実現できる。

図５１は、ＭＩＴに含まれているインデックスを使用して、ラベルを使用していくつかのゲノム領域を集約して一意に識別する方法を示す。

図５９は、本発明によって開示されたラベリングメカニズムを実施する装置（５９２）がデータベース（５９５）に格納されたデータ（５９６）のいくつかのレコードへの同時アクセスをどのように可能にすることができるかを示す。同じラベルによって識別された１つまたは複数の領域の選択的保護は、クエリ（５９１）を解析し、アクセス制御の実施を担当するセキュリティモジュール（５９４）に必要なメタデータをディスパッチすることを担当する専用モジュール（５９１）によってもサポートされる。ラベルデコーダ（５９３）は、ラベル構文を保護することができる（したがって、アクセスはセキュリティモジュール５９４によって制御される）ことができるオブジェクト識別子に変換することを担当する。

技術的効果
本明細書に記載のラベルによって識別されるアクセスユニットまたはアクセスユニット内のゲノム情報を構造化する技術的効果は、ゲノムデータが：
１. アクセスするために選択的に照会することができる。
・全ゲノムデータまたはデータセットおよび／または関連メタデータを解凍する必要なしに、データの特定の「カテゴリ」（例えば、特定の時間的または生物学的含意を伴う）。
・ゲノムの他の領域を解凍する必要なく、すべての「カテゴリ」、「カテゴリ」のサブセット、単一の「カテゴリ」（関連するメタデータの有無にかかわらず）のゲノムの特定の領域
・「ラベルリスト」メインヘッダのみを解析し、対応するアクセスユニットのみにアクセス（すなわち検索および解凍）することによってユーザ定義の「ラベル」によって識別される、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体
２. 次の場合に、利用可能になる可能性がある新しいデータで増分更新することができる。
・ゲノムデータまたはデータセットに対して新しい分析が行われる。
・同じ生物（異なる生物学的試料、同じ種類の異なる生物学的試料、例えば異なる時間に取得された血液試料など）をシーケンシングすることによって新しいゲノムデータまたはデータセットが生成される。
３. 次の場合、新しいデータフォーマットに効率的にトランスコードすることができる
・新しい参照として使用される新しいゲノムデータまたはデータセット（例えば、タイプ０のＡＵが保有する新しい参照ゲノム）
・コード化フォーマット仕様の更新
４．アクセス制御（暗号化など）と許可の実施の両方に関して、さまざまなレベルの細分性で保護できる。たとえば、これらのシナリオは有効になる。
・１つのラベルで識別されるすべてのゲノム領域またはサブ領域に同じアクセス制御ルールと暗号化キーを適用することができる（例については図５４を参照）。
・同じラベルの下に集約された各単一領域またはサブ領域を保護するために、異なるアクセス制御ルールと異なる暗号鍵を使用することができる（例については図５５を参照）。

ＳＡＭ／ＢＡＭのような先行技術の解決策に関して、記載された技術的特徴は、全データが検索され符号化フォーマットから解凍されたときにアプリケーションレベルでデータフィルタリングを行うことを要求する問題に対処する。

以下は、アクセスユニット構造、ファイルフォーマット、およびラベリングメカニズムの関連付けが技術的利点にとって有益となるアプリケーションシナリオの例に続く。

選択的アクセス
特に、ユーザが定義した「ラベル」を含む異なるタイプのアクセスユニットに基づく開示されたデータ構造は、以下のことを可能にする。
・関連するメタデータ情報も解凍する必要なく、すべての「カテゴリ」またはサブセット（つまり1つ以上のレイヤ）または単一の「カテゴリ」のシーケンス全体のリード情報（データまたはデータセット）のみを抽出する（従来技術の限界：異なるカテゴリーまたはレイヤの間の区別さえもサポートできないＳＡＭ／ＢＡＭ）。
・ゲノムの他の領域を解凍する必要なく、（関連するメタデータの有無にかかわらず）すべてのカテゴリ、サブセットのカテゴリ、単一のカテゴリのために想定された参照シーケンスの特定領域上にアラインされたすべてのリードを抽出する（従来技術の限界：ＳＡＭ／ＢＡＭ）。
・ゲノムの他の領域に関連する他のデータも解凍する必要なく、（関連するメタデータの有無にかかわらず）すべてのカテゴリー、カテゴリーのサブセットについて、ユーザーが指定した「ラベル」によって特定された特定のゲノム領域またはサブ領域または領域またはサブ領域の集合にアラインした単一、サブセットまたはすべてのデータ「クラス」に属するすべてのリードを抽出する（従来技術の限界：ＳＡＭ／ＢＡＭ）。

図３９は、ミスマッチを有する参照シーケンスの第２のセグメント（ＡＵ０-２）にマッピングされたゲノム情報へのアクセスが、ＡＵ０-２、１-２および３-２のみのデコード化のみを必要とする方法を示す。これは、マッピング領域に関する基準（すなわち、基準シーケンス上の位置）と、参照シーケンスに関するコード化されたシーケンスリードに適用されるマッチング機能に関する基準（例えば、この例ではミスマッチ）の両方に関連する選択アクセスの一例である。

さらなる技術的な利点は、データに対するクエリが、適用されたクエリとそれらの任意の組み合わせの「ラベル」と関連する選択された「カテゴリ」、より長いゲノム配列の特定の領域、およびタイプ１、２、３、４のアクセスユニットのための特定のレイヤのみにアクセスおよびデコードすることに基づくことができるので、データのアクセス性および実行速度の点で、より効率的であることである。

タイプ１、２、３、４のアクセスユニットのレイヤへの組織化は、ヌクレオチド配列の効率的な抽出を可能にする。
・１つ以上の参照ゲノムに関して特定のバリエーション（例えば、ミスマッチ、挿入、欠失）を伴う
・考慮されているいずれの参照ゲノムにもマッピングされない
・1つ以上の参照ゲノムに完全にマッピングされる
・1つ以上の精度レベルでマップする

図５２は、ユーザ定義の「ラベル」に関連する特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体のみに関連するゲノム情報へのアクセスする方法を示す。ラベルの構文は３つの座標系に基づき、ここでラベルに関連する各領域またはサブ領域は、以下のように一意に識別することができる。
１．参照ＩＤ、
２. データタイプ(クラス)
３. ＭＩＴ(ゲノム領域に対応する)におけるブロック番号

これらの３つの座標は識別に使用することができる
・対応する参照上の領域のゲノム位置を含むＭＩＴ位置
・対応する基準上の領域のゲノム位置を含む
・各ゲノム領域またはサブ領域を表すデータの物理的位置を含むＬＩＴ位置

特定のゲノム領域に関連するデータにアクセスする場合のように、さらなる技術的な利点は、ラベルされた特定の領域の選択された「カテゴリ」、および適用されたクエリの「ラベル」およびそれらの任意の組み合わせに対応するタイプ１、２、３、４のアクセスユニットの特定の層のみのアクセスおよびデコードに基づくことができるため、データの問い合わせがデータのアクセス可能性および実行速度に関してはるかに効率的になることである。

このラベリングメカニズムの別の技術的利点は、参照ゲノム上の位置、参照に対するミスマッチのタイプなどのその特徴のためにいくつかのアクセスユニット間に散在しているコード化ゲノム情報を効率的に検索する可能性である（５２４）。

マッピングされたリードの特性（例えば、完全一致、置換のみなど）に従ってゲノムデータをフィルタリングすることは、ＢＡＭおよびＣＲＡＭなどの伝統的なフォーマットを使用するときに数時間かかることがある。これは、データが圧縮フォーマット内でまばらであり、コマンドのパイプラインを使用した解凍およびフィルタリングを必要とするという事実によるものである。本発明は、ほんの数秒でデータフィルタリングを可能にするデータ構造を説明する。本発明はファイル全体のデコード化（すなわちメモリ割り当て）を必要としないので、メモリ使用量はファイルサイズに比例するファクタ（１０倍から１００倍）によっても同様に減らすことができる。

「ストレージ」および「ストリーミング」シナリオでユーザー指定の「ラベル」によって識別された特定のゲノム領域への選択的アクセス
たとえば、シーケンスデータが圧縮されており、「ＧｅｎｅＸＹ」と「ＧｅｎｅＷＺ」への選択的なアクセスが必要であるとする。圧縮ファイル形式または圧縮ストリーム内の「ＧｅｎｅＸＹ」および「ＧｅｎｅＷＺ」に対応する２つのゲノム領域にはラベルを付ける必要がある。圧縮データファイルが格納のために生成されるか、または圧縮データストリームがストリーミングのために生成されるかに応じて、２つの方法が使用される。

圧縮データファイルの場合、マルチプレクサは、「Ｌａｂｅｌ＿ＩＤ」＝ＧｅｎｅＸＹおよび「Ｌａｂｅｌ＿ＩＤ」＝ＧｅｎｅＷＺの２つのラベルを含む「ラベルリスト」を作成する。ラベルパラメータ「Ｌａｂｅｌ＿ｌｅｎｇｈｔ＿ｉｎ＿ｂｌｏｃｋｓ」および各ブロックについてのパラメータ「ｒｅｆ＿ｎｕｍ」、「ｃｌａｓｓ＿ＩＤ」、「ｂｌｏｃｋ＿ｎｕｍ」は、「ＧｅｎｅＸＹ」領域および「ＧｅｎｅＷＺ」領域の参照上の位置ならびに選択的アクセスが望まれるデータのクラスに基づいてマルチプレクサによって決定される。完全な構文は、テーブル５に報告されている。

圧縮ストリームの場合、マルチプレクサは、「Ｌａｂｅｌ＿ＩＤ」＝ＧｅｎｅＸＹ及び「Ｌａｂｅｌ＿ＩＤ」＝ＧｅｎｅＷＺの２つのラベルを含む「ラベルリスト」を作成する。ラベルパラメータ「ｒｅｆＩＤ」、「ｃｌａｓｓ＿ＩＤ」、「ｓｔａｒｔ＿ｐｏｓ」および「ｅｎｄ＿ｐｏｓ」は、「ＧｅｎｅＸＹ」および「ＧｅｎｅＷＺ」領域の参照上の位置ならびに選択的アクセスが望まれるデータのクラスに基づいてマルチプレクサによって決定される。完全な構文は、テーブル４に報告されている。

圧縮ストリームの場合に使用される方法は一般的であり、格納のために圧縮ファイルの場合にも使用されることができるが、説明したように圧縮ファイルの場合ブロック番号の使用により「マスターインデックステーブル」（ＭＩＴ）への直接アクセスを可能にするので、対応する実行では効率が低下する。

上記の両方の場合（ストリーミングおよび保存）において、以下のラベルによって識別されるゲノムデータの検索機構は同じである。
ラベルを解析するとき、デコーディング装置は以下のようになる。
１. ラベルの第１の要素から参照シーケンスを識別する
２. ラベルの第２の要素からのデータのクラスを識別する
３. ラベルの第３の要素からＭＩＴ(ゲノム領域に対応する)のブロックを識別する
４. １および２で解析された２つの座標は、デコーダが必要なゲノムストリーム（４８４）を識別することを可能にする
５. 各ゲノムストリームは、各ゲノム領域にマッピングされたデータをコードする記述子へのポインタを含むＬＩＴ（５２５）を含むヘッダから始まる。３で解析された第３の座標は、各ゲノムストリームのＬＩＴ内の正しいポインタにアクセスするために使用される
６. デコーダは、たとえそれらが異なるアクセスユニット（５２４）の間に散在していても、デコードされたゲノムラベルによって識別されたゲノムデータをデコードするためにすべての記述子を効率的に検索することができる

増分の更新
タイプ７、８のアクセスユニットは、ファイル全体のデパケット化/デコード化/解凍を必要とせずに、注釈を容易に挿入することを可能にし、それによって、従来技術のアプローチの制限であるファイルの効率的な処理を追加することができる。既存の圧縮ソリューションは、所望のゲノムデータにアクセスすることができる前に大量の圧縮データにアクセスして処理する必要がある。これは、非効率的なＲＡＭ帯域幅の利用と、ハードウェア実装においてもより多くの電力消費を引き起こす。ここで説明されるアクセスユニットに基づくアプローチを使用することによって、消費電力およびメモリアクセスの問題を軽減することができる。

マスターインデックステーブル（図２１を参照）にアクセスユニットの利用および特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に関連するユーザ定義の「ラベル」を用いてアクセスユニットを識別することが可能なデータインデックスメカニズムは、以下に説明するようにコード化コンテンツの増分更新を可能にする。このメカニズムは、図５３の例で示す。

付加的なデータの挿入
いくつかの理由で、新しいゲノム情報を、既存のゲノムデータに定期的に追加することができる。例えば、以下の通りである
・生物が異なる時点でシーケンスされる
・同じ固体のいくつかの異なるサンプルが同時にシーケンスされる
・シーケンシングプロセス(ストリーミング)によって生成された新しいデータ

上記の状況では、ここで説明されているアクセスユニットとファイル形式のセクションで説明されているデータ構造を使用してデータを構造化することで、既存のデータを再エンコードする必要なしに、新しく生成されたデータの増分の統合を可能にする。増分の更新プロセスは次のように実行できる。
１. 新たに生成されたＡＵｓは、既存のＡＵｓとファイル内で単に連結することができる
２. 新たに生成されたデータまたはデータセットのインデックス付けは、この明細書のファイルフォーマットセクションに記述されるマスターインデックステーブルに含まれる。１つのインデックスは、新たに生成されたＡＵを既存の参照シーケンス上に位置付けされ、他のインデックスは、それらに対する直接的かつ選択的なアクセスを可能にするために物理ファイル中の新たに生成されたＡＵｓのポインタからなる。
３．既存及び/又は新規に生成されたＡＵは、特定のゲノム領域またはサブ領域または領域またはサブ領域の集合体に対応するユーザが定義した「ラベル」を用いて識別することができ、「ラベルリスト」を含める、または更新することができる。

このメカニズムは図４０に示されており、ここで、タイプ１の３ＡＵおよび各タイプ２から４の４ＡＵｓでコード化された既存のデータは、例えば、同じ個人に対して実行される新しいシーケンスから来るコード化データを用いて、タイプごとに３ＡＵで更新される。「ラベル」および「ラベルリスト」を作成または更新するメカニズムを図５２および図５３に示す。

ストリーミング形式のゲノムデータおよびデータセットを圧縮形式でストリーミングする特定の使用例では、既存のデータセットの増分更新は、それらがシーケンス装置によって生成されるとすぐに実際のシーケンスが完了する前にデータを分析するときに有用であり得る。コード化エンジン（コンプレッサ）は、選択された参照シーケンスの同じ領域にマッピングするシーケンスリードを「クラスタリング」することによって、いくつかのＡＵを並列に組み立てることができる。最初のＡＵが事前設定された閾値/パラメータを超える数のリードを含むと、ＡＵは分析アプリケーションに送信する準備が整う。新たにコード化されたアクセスユニットと共に、コード化エンジン（コンプレッサ）は、新しいＡＵが依存するすべてのアクセスユニットがすでに受信側に送信されているか、それと一緒に送信されていることを確認しなければならない。例えば、タイプ３のＡＵは、正しくデコードされるために、受信側に存在するタイプ０およびタイプ１の適切なＡＵを必要とする。

記述されたメカニズムによって、受信バリアントコールアプリケーションは、送信側でシーケンス処理が完了する前に受信されたＡＵ上でバリアントコールを開始することができるであろう。このプロセスの概略図を図４１に示す。

結果の新しい分析
ゲノム処理ライフサイクルの間に、同じデータに対して数回のゲノム解析の反復を適用することができる（例えば、異なる処理アルゴリズムを使用した異なるバリアントコール）。この明細書で定義されるＡＵｓの使用とこの明細書のファイルフォーマットのセクションで説明されているデータ構造は、新しい分析の結果を伴う既存の圧縮データの増分更新を可能にする。たとえば、既存の圧縮データに対して新しい分析を実行すると、次のような場合に新しいデータを生成することができる。
１. 新しい分析は、すでにコード化されたデータに関連付けられた既存の結果を修正することができる。この使用例は図４２に示されており、1つのアクセスユニットのコンテンツを1つのタイプから別のタイプに完全にまたは部分的に移動させることによって実行される。新しいＡＵｓを作成する必要がある場合（ＡＵ当たりの事前定義された最大サイズのために）には、マスタインデックステーブル内の関連インデックスを作成しなければならず、必要なときに関連ベクトルをソートしなければならない。
２. 新しいデータは、新しい分析から生成され、既存のコード化データに関連付ける必要がある。この場合、タイプ７の新たなＡＵｓを生成して、同じタイプのＡＵｓの既存のベクトルと連結することができる。これと、それに関連したマスターインデックステーブルの更新を図４３に示す。

図４２および図４３に示した上記の使用例は、以下によって有効になる。
１．マッピング品質が低いデータ（例：タイプ４のＡＵ）のみに直接アクセスする可能性。
２. 新しいタイプに属する可能性がある新しいアクセスユニットを作成するだけで、新しいゲノム領域にリードを再マッピングすることができる（たとえば、タイプ４のＡＵｓに含まれるリードは、より少ないミスマッチ（タイプ２−３）で新しい領域に再マッピングでき、新しく作成されたＡＵに含むことができる）。
３. 新しく作成された分析結果および/または関連する注釈のみを含むタイプ８（４３３）のＡＵを作成する可能性。この場合、新しく作成されたＡＵには、それらが参照している既存のＡＵへの「ポインタ」を含めるだけで済む。
４．各単一ゲノム領域またはサブ領域に対して分析を繰り返す必要なしに、同じラベルによって識別されるいくつかのゲノム領域およびサブ領域に対して一回の分析で新しい分析を実行する可能性。この明細書に記載されているようなラベルは、あたかもそれらが単一のゲノムシーケンスであるかのように、ユーザが非隣接ゲノムセグメントを操作することを可能にする。
５. 新しい分析で更新する可能性は、単一のラベルによって識別されたいくつかのゲノム領域またはサブ領域をもたらす。新しい結果（通常はメタデータの形で表現される）は、結果から各ゲノム領域またはサブ領域へのいくつかのリンクを作成する必要なしに、潜在的にいくつかのゲノム領域およびサブ領域の集合を識別するラベルにリンクされる。

トランスコーディング
圧縮されたゲノムデータは、例えば、以下の状況において、トランスコーディングを必要とすることがある
・新しい参照シーケンスの公開
・異なるマッピングアルゴリズム(再マッピング)の使用
ゲノムデータが既存の公的な参照ゲノム上にマッピングされる場合には、そのゲノムデータは、前記参照シーケンスの新しいバージョンの公開または異なる処理アルゴリズムを使用してデータをマッピングすることを望むことは、今日、再マッピングのプロセスを必要とする。ＳＡＭまたはＣＲＡＭなどの従来技術のファイルフォーマットを使用して圧縮データを再マッピングする場合、新たに利用可能な参照シーケンスを参照して、または異なるマッピングアルゴリズムを使用して、再びマッピングされるために、圧縮されたデータ全体はその「生」形式に解凍されなければならない。これは、新しく公開された参照が以前のものとわずかに異なるだけであったり、使用された別のマッピングアルゴリズムが以前のマッピングに非常に近い（または同一の）マッピングを生成する場合でも同様である。

ここで説明されるアクセスユニットを使用して構造化されたゲノムデータをトランスコードする利点は、以下のものである。
１. 新たな参照ゲノムに対するマッピングは、変化を有するゲノム領域上にマッピングされたＡＵｓのデータを再コード化(解凍及び圧縮)することがのみを必要とすると、を含む。さらに、ユーザは、任意の理由のために、変更された領域上で最初にマップしていない場合でさえ、何らかの理由で再マッピングされる必要があるかもしれない圧縮されたリードを選択することができる(これは、ユーザが、以前のマッピングが不良な品質であると考える場合に起こり得る)。この使用例を図４４に示す。

２. 新たに公開された参照ゲノムが、異なるゲノム位置(「遺伝子座」)にシフトされた全領域に関してのみ以前と異なる場合、トランスコーディング操作は、特に単純で効率的である。実際には、「シフト」領域にマップされた全てのリードを移動させるために、関連する（セットの）ＡＵ（ｓ）ヘッダに含まれる絶対位置の値のみを変更すれば十分である。各ＡＵヘッダは、ＡＵに含まれる最初のリードが参照シーケンス上にマッピングされる絶対位置を含み、一方、他のすべてのリード位置は、最初のリードに対して差分的にコード化される。したがって、最初のリードの絶対位置の値を単純に更新することによって、ＡＵ内のすべてのリードがそれに応じて移動する。ゲノムデータ位置は圧縮されたペイロードにコード化されているので、このメカニズムは、ＣＲＡＭおよびＢＡＭのような従来技術では実施できず、したがってすべてのゲノムデータセットの完全な解凍および再圧縮が必要である。

３．異なるマッピングアルゴリズムが使用されるとき、それは質が悪いとマッピングされたとみなされた圧縮されたリードの部分だけにそれを適用することが可能である。例えば、参照ゲノム上で完全には一致しなかったリードに対してのみ新しいマッピングアルゴリズムを適用することが適切であり得る。現在の既存のフォーマットでは、それらのマッピング品質（すなわち、ミスマッチの存在および数）に従ってリードを抽出することは不可能である（またはいくつかの制限を伴って部分的にしか可能ではない）。新しいマッピングツールによって新しいマッピング結果が返された場合、関連するリードは、あるＡＵから同じタイプの別のＡＵへ、またはあるタイプの１つのＡＵから別のタイプのＡＵへとトランスコードできる（図４５）。

さらに、従来技術の圧縮ソリューションは、所望のゲノムデータにアクセスすることができる前に大量の圧縮データにアクセスして処理しなければならないかもしれない。これは、非効率的なＲＡＭ帯域幅の利用と、ハードウェア実装においてもより多くの電力消費を引き起こす。ここで説明されるアクセスユニットに基づくアプローチを使用することによって、消費電力およびメモリアクセスの問題を軽減することができる。
本明細書に記載のゲノムアクセスユニットを採用することのさらなる利点は、並列処理の促進およびハードウェア実装への適合性である。ＳＡＭ／ＢＡＭおよびＣＲＡＭのような現在の解決策は、シングルスレッドソフトウェア実装のために考えられている。

選択的保護
この明細書に記載されているように、いくつかのタイプのレイヤに編成されたアクセスユニットに基づくアプローチは、当業界のモノリシックソリューションの状態では不可能であったコンテンツ保護メカニズムの実装を可能にする。

当業者は、生物の遺伝的プロフィールに関連するゲノム情報の大部分が、既知のシーケンス（例えば、参照ゲノムまたはゲノムの集団）に関する差異（バリアント）に依存していることを知っている。したがって、無許可のアクセスから保護される個々の遺伝的プロファイルは、この明細書で説明されているようにタイプ３および４のアクセスユニットにエンコードされる。したがって、シーケンスおよび分析プロセスによって生成された最も賢明なゲノム情報へのアクセス制御の実装は、タイプ３および４のＡＵのペイロードのみを暗号化することによって実現できる（例については図４７を参照）。リソースを消費する暗号化プロセスはデータのサブセットにのみ適用されるので、これは処理能力と帯域幅の両方の点でかなりの節約を生み出す。

「ラベル」によって識別される特定のゲノム領域の選択的保護
ラベリングメカニズムは、データ保護およびアクセス制御の異なるメカニズムを可能にする。例えば図５４は、１つの保護メカニズム（例：暗号化）と１つのアクセス制御ルール（ＡＣ）を、同じラベルで識別されるいくつかのゲノム領域にどのように適用できるかを示す。より洗練されたシナリオでは、ラベルによって識別される各領域に異なるアクセス制御ルールと異なる保護メカニズム（暗号化）を適用することによってデータ保護を実装できる。これを図５５に示す。

さらに、異なる「ラベル」によって識別されるゲノム領域もしくはサブ領域または領域もしくはサブ領域の集合体の選択的暗号化は、ファイルシナリオおよびストリーミングシナリオの両方に対して「ラベル」に対応する圧縮データのみに暗号化を適用することによって容易に実施できる。例えば、セクションの例のように「ＧｅｎｅＸＹ」及び「ＧｅｎｅＷＺ」とラベル付けされた２つのゲノム領域において、「「ストレージ」および「ストリーミング」シナリオにおけるユーザ指定の「ラベル」によって識別される特定のゲノム領域への選択的アクセス」は「ＧｅｎｅＸＹ」というラベルの付いたデータを暗号化し、「ＧｅｎｅＷＺ」というラベルの付いた圧縮データを平文のままにしておくことで区別することができる。暗号化規則は、メタデータフィールド（ストレージとストリーミングの両方のシナリオで）によって運ばれ、「ラベルリスト」の各要素に関連付けられる。

ゲノムアクセスユニットの輸送
ゲノムデータマルチプレックス
ゲノムアクセスユニットは、ゲノムデータマルチプレックス内の通信ネットワークを介して伝送することができる。ゲノムデータマルチプレックスは、本発明の一部として開示されたデータ分類に従って表されるパケット化されたゲノムデータおよびメタデータのシーケンスとして定義される、パケット損失のようなエラーが発生し得るネットワーク環境で伝送される。

ゲノムデータマルチプレックスは、異なる環境(典型的にはネットワーク環境)上でのゲノムコード化データの輸送を容易にし、より効率的にすると考えられる当該技術分野の解決策の状態では存在しない以下の利点を有する。
１. それは、ネットワーク環境上でそれを運ぶために、コード化ツールによってストリームまたは一連のゲノムデータ（後述）またはゲノムファイルフォーマットのいずれか１つ以上をゲノムデータマルチプレックスにカプセル化することを可能にし、情報の伝送とアクセスをより効率的にするための同一のストリームまたはファイル形式を回復する。
２．それは、デコード化および提示のために、カプセル化されたゲノムデータストリームからのコード化ゲノムデータの選択的検索を可能にする。
３. それは、輸送のためにいくつかのゲノムデータセットを情報の単一のコンテナに多重化することを可能にし、そして運ばれる情報のサブセットを新しいゲノムデータ多重に逆多重化することを可能にする。
４. それは、（結果として別々のアクセスを伴う）異なるソースによって生成されたデータおよびメタデータの多重化および／またはシーケンシング／分析プロセスを可能にし、結果として生じるゲノムデータマルチプレックスをネットワーク環境上で送信する。
５．パケット損失などのエラーの識別をサポートする。
６．それは、ネットワーク遅延のために順序が乱れて到着する可能性がある適切な並べ替えデータをサポートし、それゆえ、先行技術の解決策と比較した場合、ゲノムデータの送信をより効率的にする。
ゲノムデータマルチプレックスの例は、図４９に示されている

ゲノムデータセット
本発明の明細書において、ゲノムデータセットは、例えば、生物のゲノムデータ、いくつかのステップのゲノムデータ処理によって生成された１つまたは複数のシーケンスおよびメタデータ、または生物のゲノムシーケンシングの結果を含む、ゲノムデータの構造セットとして定義される。１つのゲノムデータマルチプレックスは、（マルチチャネルシナリオにおけるように）複数のゲノムデータセットを含み得、各データセットは異なる生物を指す。単一のゲノムデータマルチプレックスへのいくつかのデータセットのマルチプレックスメカニズムは、ゲノムデータセットリスト（ＧＤＬ）、ゲノムデータセットマッピングテーブルリスト（ＧＤＭＴＬ）、およびゲノムデータセットマッピングテーブル（ＧＤＭＴ）と呼ばれるデータ構造に含まれる情報によって支配される。

ゲノムデータセットリスト
ゲノムデータセットリスト（ＧＤＬ）は、ゲノムデータマルチプレックスにおいて利用可能な全てのゲノムデータセットを列挙するデータ構造として定義される。列挙されたゲノムデータセットの各々は、ゲノムデータセットＩＤ（ＧＩＤ）と呼ばれるユニークな値によって識別される。

ＧＤＬにリストされた各ゲノムデータセットは、以下のように関連付けられる
・１つのゲノムデータストリームが１つのゲノムデータセットマッピングテーブル（ＧＤＭＴ）をもたらし、ストリームＩＤの特定の値（ｇｅｎｏｍｉｃ＿ｄａｔａｓｅｔ＿ｍａｐ＿ＳＩＤ）によって識別される。
・１つのゲノムデータストリームが１つの参照ＩＤマッピングテーブル(ＲＩＤＭＴをもたらし、ストリームＩＤの特定の値（ｒｅｆｅｒｅｎｃｅ＿ＩＤ＿ｍａｐ＿ＳＩＤ）によって識別される。
ＧＤＬは、ゲノムデータストリーム送信の開始時に単一のトランスポートパケットのペイロードとして送られる；そしてそれはストリームへのランダムアクセスを可能にするために、周期的に再送信することができる。

ＧＤＬデータ構造の構文は、各構文要素に関連付けられたデータタイプの表示と共に以下の表に提供されている。

上述したＧＤＬを構成する構文要素は、以下の意味および機能を有する。

ゲノムデータセットマッピングテーブル
ゲノムデータセットマッピングテーブル（ＧＤＭＴ）は、ストリーミングプロセスの開始時に生成および送信される（そして、対応点およびストリーミングデータ内の関連する依存関係の更新を可能にするために、おそらく定期的に再送信、更新または同一）。ＧＤＭＴは、ゲノムデータセットリストに続く単一のパケットによって運ばれ、１つのゲノムデータセットを構成するゲノムデータストリームを識別するＳＩＤをリストする。ＧＤＭＴは、ゲノムマルチプレックスによって運ばれる１つのゲノムデータセットを構成するゲノムデータストリームのすべての識別子（例えば、ゲノム配列、参照ゲノム、メタデータなど）の完全な集まりである。ゲノムデータセットマッピングテーブルは、各ゲノムデータセットに関連するゲノムデータのストリームの識別子を提供することによってゲノム配列へのランダムアクセスを可能にするのに役立つ。
ＧＤＭＴデータ構造の構文は、各構文要素に関連するデータタイプの表示と共に下の表に提供される。

上述のＧＤＭＴを構成する構文要素は、以下の意味および機能を有する。

ｅｘｔｅｎｓｉｏｎ＿ｆｉｅｌｄｓは、ゲノムデータセットまたは１つのゲノムデータセットコンポーネントのいずれかを詳細に説明するために使用できるオプションの記述子である。
ｄａｔａ＿ｔｙｐｅフィールドは、以下の値を有することができる

ゲノムデータセットマッピングテーブルリスト
この構造は、ゲノムデータセットマルチプレックスに関連する全てのデータセットマッピングテーブルに関する情報を伝達する。

参照ＩＤマッピングテーブル
参照ＩＤマッピングテーブル（ＲＩＤＭＴ）は、ストリーミングプロセスの開始時に生成され、送信される。ＲＩＤＭＴは、ゲノムデータセットリストに続く単一のパケットによって運ばれる。ＲＩＤＭＴは、アクセスユニットのブロックヘッダに含まれる参照シーケンスの数値識別子（ＲＥＦＩＤ）とテーブル２に指定されるゲノムデータセットヘッダに含まれる（典型的にはリテラル）参照識別子との間のマッピングを特定する。

ＲＩＤＭＴは、以下のために周期的に再送信することができる。
・ストリーミングされたデータ内の対応点および関連する依存関係の更新を可能にする。
・既存のものに追加された新しい参照シーケンスの統合をサポートする（例：ｄｅｎｏｖｏアセンブリプロセスによって作成された合成参照）

ＲＩＤＭＴデータ構造の構文は、各構文要素に関連するデータタイプの表示と共に以下の表に提供されている。

上述したＲＩＤＭＴを構成する構文要素は、以下の意味及び機能を有する。

ゲノムラベルリスト
上述したように、ラベルは、特定のゲノム領域もしくはサブ領域または領域もしくはサブ領域の集合体に割り当てられる識別子である。

ラベルは、参照シーケンスＩＤ、参照シーケンスに対する位置範囲、およびそれらが同定するデータクラスを特定することによってゲノム領域を同定する。そのような目的のために、ゲノムラベルリスト（ＧＬＬ）は、パケット化プロセス中にマルチプレクサによって作成され、送信される。
デマルチプレクサのデパケタイザは、gll構文を解析し、利用可能な"ラベル"をデータアクセスアプリケーションに公開する、データの所望のサブセットを選択しアクセスする可能性を有する。

デマルチプレクサのデパケッタイザは、ＧＬＬ構文を解析し、利用可能な「ラベル」をデータアクセスアプリケーションに公開し、それは所望のデータのサブセットを選択しアクセスする可能性を有する。ＧＬＬは（任意に）ストリームの始めに生成され送信され、通常は複数の同期点を有効にするために定期的に送信され（４８１１）、そしてｍｕｌｔｉｐｌｅｘ＿ｉｄおよびｄａｔａｓｅｔ＿ｉｄフィールドによって識別されるマルチプレックスおよびデータセットに関連する「ラベル」のリストを提供する。

ＧＬＬは（任意に）ストリームの始めに生成され送信され、通常は複数の同期点を有効にするために定期的に送信され（４８１１）、そしてｍｕｌｔｉｐｌｅｘ＿ｉｄおよびｄａｔａｓｅｔ＿ｉｄフィールドによって識別されるマルチプレックスおよびデータセットに関連する「ラベル」のリストを提供する。。

ＧＬＬデータ構造の構文は、各構文要素に関連するデータタイプの表示と共に以下の表に提供されている。

テーブル６テーブルは、ストリーム化された圧縮データシナリオのための「ラベルリスト」データフォーマットの完全な構文を示す。

上述のＧＬＬを構成する構文要素は、以下の意味および機能を有する。

テーブル７−テーブル６の構文要素の説明

ゲノムデータストリーム
ゲノムデータマルチプレックスは、各ストリームがトランスポートすることができる１つまたは複数のゲノムデータストリームを含む。
・トランスポート情報を含むデータ構造（例えば、ゲノムデータセットリスト、ゲノムデータセットマッピングテーブルなど）
・本発明で説明したゲノムデータレイヤの１つに属するデータ
・ゲノムデータに関連するメタデータ
・その他のデータ

ゲノムデータを含むゲノムデータストリームは、本質的に、ゲノムデータレイヤのパケット化されたバージョンであり、ここで、各パケットは、パケット内容を記述するヘッダと、それがマルチプレックスの他の要素に関連する方法とを記述している。

この明細書に記載されたゲノムデータストリーム形式と、この明細書に記述されたファイルフォーマットとは相互に変換可能である。全ファイルフォーマットは、全てのデータが受信された後にのみ完全に再構成することができる、デコード化ツールが再構築およびアクセスを可能にし、任意の時点で部分データの処理を開始することができるようにする。

ゲノムデータストリームは、１つ以上のゲノムデータパケットを含む複数のゲノムデータブロックで構成される。ゲノムデータブロック（ＧＤＢｓ）は、１つのゲノムＡＵを構成するゲノム情報のコンテナである。ＧＤＢは、通信チャネルの要件に従って、複数のゲノムデータパケットに分割することができる。

ゲノムアクセスユニットは、異なるゲノムデータストリームに属する1つ以上のゲノムデータブロックで構成されている。
ゲノムデータパケット（ＧＤＰＳ）は、１つのＧＤＢを構成する伝送ユニットである。パケットサイズは、通常、通信チャネル要件に従って設定される。
図２７は、本発明で定義されているようにＰクラスに属するデータをコード化するときのゲノムマルチプレックス、ストリーム、アクセスユニット、ブロックおよびパケットの間の関係を示す。この例では、３つのゲノムストリームが位置、ペアリング、およびシーケンスリードの逆相補性に関する情報をカプセル化している。

ゲノムデータブロックは、ヘッダと、圧縮データのペイロードと、パディング情報とによって構成される。
以下の表は、各フィールドおよび典型的なデータタイプの記述を有するＧＤＢヘッダの実装例を提供する。

テーブル８ゲノムデータブロック構文要素の記述

ＡＵＩＤ、ＰＯＳおよびＢＳの使用は、本発明においてマスターインデックステーブル（ＭＩＴ）およびローカルインデックステーブル（ＬＩＴ）と呼ばれるデータインデックス付けメカニズムをデコーダが再構築することを可能にする。データストリーミングのシナリオでは、ＡＵＩＤとＢＳを使用することで、受信側は余分なデータを送信する必要なく、ＬＩＴをローカルに動的に再作成できる。ＡＵＩＤ、ＢＳおよびＰＯＳを使用すると、追加のデータを送信する必要なく、ＭＩＴをローカルに再作成できる。

これには技術的な利点がある。
・ＬＩＴ全体が送信される場合に大きくなる可能性があるコード化オーバーヘッドを減らす。
ストリーミングのシナリオでは通常利用できない、ゲノム位置とアクセスユニットの間の完全なマッピングの必要性を回避する。

ゲノムデータブロックは、最大パケットサイズ、パケット損失率などのネットワークレイヤの制約に応じて、1つ以上のゲノムデータパケットに分割できる。ゲノムデータパケットは、以下の表に示すように、ヘッダーと、エンコードまたは暗号化されたゲノムデータのペイロードで構成される。

テーブル９ゲノムデータパケットの構文要素の説明

ゲノムマルチプレックスは、特定のゲノムデータセットコンポーネントに、少なくとも１つのゲノムデータセットリスト、１つのゲノムデータセットマッピングテーブル、および１つの参照ＩＤマッピングテーブルが受信された場合にのみ正しくデコードでき、すべてのパケットを特定のゲノムデータセットコンポーネントにマッピングすることができる。

ゲノムパケットヘッダ
各ゲノムデータブロックは、パケットロス率、プロトコル最大パケットサイズなどのチャネル要件に応じて、ゲノムデータパケットのペイロードで送信され得るフラグメントに分割され得る。
ゲノムデータパケットは以下のように定義される。

マルチプレックスコード化プロセス
図４９は、本発明で提示されるデータ構造に変換される前に、生のゲノムシーケンスデータをアプリオリに知られている１つ以上の参照シーケンスにマッピングする必要がある方法（４９２０）を示す。参照シーケンスが利用可能でない場合、「構築された」参照は生のシーケンスデータから構築され得る（４９２）。情報のエントロピーを減らすために、すでに位置合わせされたデータを位置合わせし直すことができる。アラインメント後、ゲノム分類器（４９４）は、表１に記載されているマッチング機能に従ってデータクラスを作成し、ゲノムシーケンスからメタデータ（例えば品質値）および注釈データを分離する。生成されたデータのクラスのエントロピーをさらに減らすために、参照変換（４９１９）を外部参照（４９２０）に適用することができる（４９８）。変換されたデータクラス（４９１８）は、レイヤエンコーダ（４９５〜４９７）に供給されて、次にエントロピーエンコーダ（４９１２〜４９１４）によってエンコードされるゲノムレイヤ（４９１）を生成する。エントロピーエンコーダによって生成されたゲノムストリームは、次に、ゲノムマルチプレックスを生成するゲノムマルチプレックサ（４９１６）に送信される。ゲノムラベルジェネレータ（４９１７）によって生成されたゲノムラベルは、マルチプレクサ（４９１６）によってゲノムストリーム（４９１５）に関連付けることができる。

Claims

ラベルを使用することによってゲノムデータの領域に選択的にアクセスするための方法であって、前記ラベルは、参照ゲノムシーケンスの識別子（５２１）、前記ゲノム領域の識別子（５２２）、およびゲノムデータのデータクラスの識別子（５２３）を含む方法。
前記ゲノムデータがゲノムリードの配列である、請求項１に記載の方法。
前記データクラスは、以下のタイプまたはそれらのサブセットであり得る、請求項２に記載の方法。
・参照シーケンスに対していかなるミスマッチも存在しないゲノムリードを含む「クラスＰ」
・シーケンシング装置がいずれの「塩基」とも呼ぶことができなかった位置におけるミスマッチのみを含み、前記ミスマッチの数は所与の閾値を超えないゲノムリードを含む「クラスＮ」
・「n型」ミスマッチと呼ばれるシーケンシング装置がいずれの塩基をももたらせなかった位置におけるミスマッチ、および／または「ｓ型」と呼ばれる参照シーケンスとは異なる塩基をもたらしたもの、そして前記ミスマッチの数は「n型」、「ｓ型」ミスマッチ数に対する所与の閾値を超えず、閾値は所与の関数（ｆ（ｎ、ｓ））から得られるゲノムリードを含む「クラスＭ」
・ゲノムリードが、「クラスＭ」と同じタイプのミスマッチを有する可能性があり、さらに少なくとも１つの「挿入」（「i型」)、「欠失」(「ｄ型」)、ソフトクリップ(「c型」)タイプのミスマッチが付加され、各タイプのミスマッチの数が所与の閾値を超えず、閾値は所与の関数(w(n、s、i、d、c)から得られるゲノムリードを含む「クラスＩ」
・クラスＰ、Ｎ、Ｍ、Ｉに分類が見つからないすべてのリードを含む「クラスＵ」
前記ゲノムデータはゲノムリードのペア配列である、請求項２に記載の方法。
ペアリードの前記データクラスは、以下のタイプまたはそれらのサブセットであり得る、請求項４に記載の方法。
・参照シーケンスに対していかなるミスマッチも存在しないゲノムリードペアを含む「クラスＰ」
・シーケンシング装置がいずれの「塩基」とも呼ぶことができなかった位置におけるミスマッチのみを含み、ミスマッチの数は所与の閾値を超えないゲノムリードペアを含む「クラスＮ」
・「n型」ミスマッチと呼ばれるシーケンシング装置がいずれの塩基をももたらせなかった位置におけるミスマッチだけを含み、前記ミスマッチの数は所与の閾値を超えず、および／または「ｓ型」と呼ばれる参照シーケンスとは異なる塩基をもたらしたもの、そして前記ミスマッチの数は「n型」、「ｓ型」ミスマッチ数に対する所与の閾値を超えず、閾値は所与の関数（ｆ（ｎ、ｓ））から得られるゲノムリードペアを含む「クラスＭ」
・ゲノムリードペアが、「クラスＭ」と同じタイプのミスマッチを有する可能性があり、さらに少なくとも１つの「挿入」（「i型」)、「欠失」(「ｄ型」)、ソフトクリップ(「c型」)タイプのミスマッチが付加され、各タイプのミスマッチの数が所与の閾値を超えず、閾値は所与の関数（w（n、s、i、d、c））から得られるリードペアを含む「クラスＩ」
・１つのリードメイトのみがクラスＰ、Ｎ、Ｍ、Ｉのいずれかに分類されるためのマッチングルールを満たさないリードペアを含む「クラスＨＭ」
・両方のリードがクラスＰ、Ｎ、Ｍ、Ｉに分類されるためのマッチングルールを満たさないすべてのリードペアを含む「クラスＵ」
前記ゲノム領域の前記識別子は、マスターインデックステーブルに含まれる、請求項３および５に記載の方法。
前記ゲノムデータおよび前記ラベルは、エントロピコード化される請求項６に記載の方法。
前記マスターインデックステーブル（４８１２）は、ゲノムデータセットヘッダ（４８１３）に含まれる、請求項７に記載の方法。
前記ゲノムデータ領域は、別個のアクセスユニット（５２４、４８６）の間に分散される、請求項１乃至８に記載の方法。
ファイル内の前記ゲノムデータ領域の位置は、ローカルインデックステーブル（５２５）に示されている、請求項９に記載の方法。
前記ラベルはユーザ指定である、請求項１乃至１０に記載の方法。
前記領域は、ゲノムファイル全体を暗号化することなく、別個の方法で保護および/または暗号化される、請求項１乃至１１に記載の方法。
前記ラベルはゲノムラベルリスト（ＧＬＬ）に保存される、請求項１乃至１２に記載の方法。
請求項１乃至１３に記載のゲノムデータの領域への選択的アクセスを用いてゲノムデータをコード化するための方法。
前記ゲノムラベルリストは、複数の同期ポイントを可能にするために定期的に再送信または更新される請求項１４に記載の方法。
請求項１乃至１３および１５に記載のゲノムデータの領域への選択的アクセスを用いてゲノムデータのストリームまたはファイルをデコードする方法。
請求項１４および１５に記載のゲノムデータをコード化するための装置。
請求項１６に記載のゲノムデータをデコード化するための装置。
請求項１４および１５に記載のコード化されたゲノムデータを保存するための保存手段。
実行されると、少なくとも１つのプロセッサに請求項１４および１５の何れか一項に記載のコード化方法を実行させる命令を含むコンピュータ可読媒体。
実行されると少なくとも１つのプロセッサに請求項１６の何れか一項に記載のデコード方法を実行させる命令を含むコンピュータ可読媒体。