JP2020509474A

JP2020509474A - 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム

Info

Publication number: JP2020509474A
Application number: JP2019542724A
Authority: JP
Inventors: コソバルチ，モハメド; アルベルティ，クラウディオ
Original assignee: ゲノムシスエスエー
Priority date: 2016-10-11
Filing date: 2017-12-14
Publication date: 2020-03-26
Also published as: JP7362481B2; JP2020509473A; EA201991906A1

Abstract

本開示で説明される方法および装置は、リファレンスゲノムとアライメントされたゲノムシーケンスとの間の違いを記述する構文要素に関してリファレンスゲノムを表すことを含む。前記ゲノムシーケンスは、前記リファレンスゲノムと共に前もってアライメントされている。アライメントされた各ゲノムシーケンスは、構文要素のサブセットによって記述される。全てゲノムシーケンスを記述する構文要素は、統計的特性に従ってブロックに分割される。構文要素の各ブロックはエントロピーコード化される。エントロピーコード化されたブロックは、連結されて圧縮ビットストリームを形成する。リファレンスゲノムとアライメントされたシーケンスの違いは、構文要素の観点から表される。前記構文要素は、その統計的特性に従ってブロックに分割され、各ブロックはエントロピーコード化される。エントロピーコード化された構文要素は、アライメントされたリードを記述する構文要素のコード化されたブロックのビットストリームに埋め込まれる。開示された方法は、圧縮されたデータのランダムアクセスの異なるオプションを維持し、効率的な圧縮を可能にしながら、圧縮されたゲノムシーケンスをデコード化する際のアライメントに使用されるリファレンスゲノムの再構築を可能にする。【選択図】図５

Description

本開示は、関連するアライメント情報及びリファレンスゲノム、又はその一部を用いて前記ゲノムシーケンスをアライメントする、アライメントされたゲノムシーケンスリードの無損失圧縮に関する。ゲノムシーケンスは、一般に、デオキシリボ核酸（ＤＮＡ）又はリボ核酸（ＲＮＡ）の断片を形成するヌクレオチドと呼ばれる分子の連結によって意味付けられている。本発明は、同じアルファベットを使用してより短いシーケンスをアライメントさせるために使用される記号を、任意のリファレンスシーケンスに適用することができる。
［関連出願の相互参照］

この出願は、特許出願ＰＣＴ／ＵＳ２０１７／０４１５７９及びＰＣＴ／ＵＳ１７／１７８４２の優先権及びその利益を主張する。

本発明は、リファレンスレス圧縮法により圧縮されたリファレンスゲノムシーケンスに適用される。この指針における最初の試みは、フォーゲス，Ｊ．、ムンダロー，Ｍ．、オスターマン，Ｊ．（Voges, J., Munderloh, M., Ostermann, J.）らによる「アラインメントされた次世代シーケンシングデータの予測コーディング（Predictive Coding of Aligned Next-Generation Sequencing Data）」（２０１６、データコンプレッションコンファレンス（Data Compression Conference：DCC））、又はブノワ，Ｇ．（Benoit, G.）らによる「確率的ド・ブラウングラフによる高スループット配列決定データのリファレンス無しの圧縮（Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph）」（ビーエムシーバイオインフォマティクス（BMC Bioinformatics）２０１５、１６、２８８）により論じられているが、しかし、本発明で対処されるいくつかの制限を有している。

本開示の背景において、アライメントされたゲノムシーケンスのリファレンスレス圧縮は、アライメントに使用されるリファレンスゲノムの隣接又は重複領域にマッピングされたゲノムシーケンスを重複及び連結することにより構築される「コンティグ」と名付けられた１つ以上の局所的なリファレンスシーケンスの作成を含む。コンティグの詳細な説明は、https：//en.wikipedia.org/wiki/Contigを参照されたい。このコンティグは、デコーディングプロセスの一部としてデコーディングエンドで再構築されるため、圧縮ビットストリームに含める必要はない。１つ以上のゲノムシーケンスがマッピングされているゲノム領域に対してコンティグが構築されると、リファレンスベースの圧縮は、ゲノム記述子に関してそれらを記述し、特定のエントロピーコーダで同じ種類のゲノム記述子の各ブロックを圧縮することにより、そのゲノムシーケンスに適用される。このアプローチにより、ＧＺＩＰ、ＬＺＭＡ、ＢＺ等の汎用圧縮方式よりも優れた圧縮率を達成でき、ランダムアクセスが維持される。

アライメントされたゲノムシーケンスのリファレンスベースの圧縮は、前述の位置及び差異のみをアライメントおよびコード化するために使用される１つ以上のリファレンスシーケンスに関して、マッピング位置および差異に関してアライメントされたシーケンスを表すことに基づく。そのようなアプローチでは非常に高い圧縮率に到達することができるが（カバレッジとともにほぼ直線的に増加し、ここで、カバレッジという用語は、リファレンスゲノムの各ヌクレオチドを含むリードの平均数を意味している）、エンコードとデコードの両方のプロセスで、アライメントと圧縮に使用される特定のリファレンスシーケンスの利用可能性を必要とする。このアプローチの欠点は、アライメントと圧縮に使用されるリファレンスシーケンスがデコード側で利用できない場合（例えば、リファレンスゲノム又はその変形をユニークに識別できないため、又は元のデータソースが利用できなくなった場合）、圧縮されたコンテンツを復元できないことである。保存又は伝送のために圧縮表示にリファレンスゲノムを含めることに基づくソリューションは、圧縮効率の点で有害となりえる。

このような問題に対処するために、アライメントに使用されるリファレンスゲノムを使用せず、アライメントされたゲノムシーケンスリードの圧縮および解凍（decompress）を可能にするリファレンスレス圧縮方法が存在する。これらの方法のいくつかは、ＧＺＩＰ、ＢＺＩＰ２、ＬＺＭＡのような汎用コンプレッサを適用しており、３：１までの低い圧縮率に達している。より効率的な方法は、「アセンブリ」と呼ばれるプロセスを使用して、アライメントされたリード自体から１つ以上のリファレンスシーケンスを構築することであり、アラインメントに使用されるリファレンスゲノムに隣接するゲノム区間にマップされたリードを使用して、共有サブシーケンスを見つけて連結することにより、より長いシーケンスを構築している。短いシーケンスの連結又は結合から得られる長いシーケンスは、「コンティグ」と呼ばれる。そのような方法は、フォーゲス，Ｊ．、ムンダロー，Ｍ．、オスターマン，Ｊ．（Voges, J., Munderloh, M., Ostermann, J.）らによる「アラインメントされた次世代シーケンシングデータの予測コーディング（Predictive Coding of Aligned Next-Generation Sequencing Data）」（２０１６、データコンプレッションコンファレンス（Data Compression Conference：DCC））、及びブノワ，Ｇ．（Benoit, G.）らによる「確率的ド・ブラウングラフによる高スループット配列決定データのリファレンス無しの圧縮（Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph）」（ビーエムシーバイオインフォマティクス（BMC Bioinformatics）２０１５、１６、２８８）という論文において既に引用されている。

フォーゲス，Ｊ．、ムンダロー，Ｍ．、オスターマン，Ｊ．ら、「アラインメントされた次世代シーケンシングデータの予測コーディング」、２０１６、データコンプレッションコンファレンス（Data Compression Conference：DCC）ブノワ，Ｇ．（Benoit, G.）ら、「確率的ド・ブラウングラフによる高スループット配列決定データのリファレンス無しの圧縮（Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph）」、ビーエムシーバイオインフォマティクス（BMC Bioinformatics）２０１５、１６、２８８

本開示は、ゲノムシーケンスのリファレンスレス圧縮を併用する場合、ゲノムシーケンス読み取りのアラインメントに使用されるリファレンスゲノムの効率的な圧縮を課題とする。

以下に示す請求項に記載された特徴は、ゲノムシーケンスのリファレンスレス圧縮の場合におけるリファレンスゲノムの可逆圧縮のための方法を提供することによって、既存の先行技術の課題解決の問題を解決するものであり、前記方法は、
・リードを１つ以上のリファレンスシーケンスにアライメントさせ、それによってアライメントされたリードを作成し、
前記整列されたリードをアセンブリし、それによってコンティグを作成し、
・前記リファレンスシーケンスと前記コンティグとを比較して、ミスマッチの位置及びミスマッチの類型に関する情報を取得し、
・エントロピーコード化は、ミスマッチの位置及びミスマッチの類型に関連する前記情報をコード化する、
ことを含む。

圧縮方法の別の態様において、前記アライメントされたリードをアセンブリする方法は、前記リファレンスシーケンス上の各位置について、その位置で前記アライメントされたリードで最も高い頻度で存在する前記ヌクレオチドを選択する段階を含む。

圧縮方法の別の態様において、前記ミスマッチの位置及び前記ミスマッチの類型に関する前記情報は、それぞれ第１の記述子（２０３）及び第２の記述子（２０４）を用いて示される。

圧縮方法の別の態様において、前記第１の記述子及び第２の記述子は、同じアクセスユニットにカプセル化され、デコード化装置において前記アライメントに使用される前記リファレンスシーケンスの選択的な再構築を可能にする、

圧縮方法の別の態様において、前記コンティグの長さは、エンコーダへの入力パラメータとして又は前記エンコーダによって動的に適用されるものとして定義される。

圧縮方法の別の態様において、前記第１の記述子は、分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）バイナリ化を用いてバイナリ化され、前記分割ユニット単位切捨単項は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化される値のＮビット長の部分に適用され、前記Ｎは予め選択されたパラメータである。

圧縮方法の別の態様において、前記第２の記述子は、切捨単項バイナリ化を用いてバイナリ化され、前記第２の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の０ビットは破棄される。

圧縮方法の別の態様において、前記方法は、特定のリファレンスゲノムの使用をシグナリング（signaling）する情報をコード化しない。

圧縮方法の別の態様において、前記コンティグの長さは構文ヘッダに含まれている。

ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータをコード化するための装置であって、前記装置は、
・前記リードを１つ以上のリファレンスシーケンスにアライメントさせ、それによってアラメントされたリードを作成するための手段と、
・前記アライメントされたリードをアセンブリして、コンティグを作成するための手段と、
・前記リファレンスシーケンスと前記コンティグとを比較して、ミスマッチの位置及びミスマッチの類型に関する情報を取得する手段と、
・前記ミスマッチの位置と前記ミスマッチの類型に関連した前記情報をエントロピーコード化する手段と
を含む。

ゲノムシーケンスデータをコード化するための装置であって、前記アライメントリードをアセンブリするための手段は、リファレンスシーケンス上の各位置について、その位置での前記アライメントリードにおいて最も高い頻度で存在するヌクレオチドを選択するための手段をさらに含む。

ゲノムシーケンスデータをコード化するための装置であって、ミスマッチの位置及びミスマッチの類型に関連する前記情報を、それぞれ第１の記述子（２０３）及び第２の記述子（２０４）によって示す手段をさらに含む。

ゲノムシーケンスデータをコード化するための装置であって、デコード化装置でのアライメントに使用されるエリファレンスシーケンスの選択的な再構築を可能にするために、同じアクセスユニットに前記第１の記述子と第２の記述子をカプセル化する手段をさらに含む。

ゲノム配列データをエンコードするための装置であって、入力パラメータとして前記コンティグの長さを受信する手段と、前記コンティグの長さを動的に適応させる手段をさら含む。

ゲノムシーケンスデータをコード化するための装置であって、分割ユニットワイズ切捨単項（Split Unit-wise Truncated Unary）バイナリ化を採用することにより、前記第１の記述子をバイナリ化するバイナリ化手段をさらに備え、前記分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化されるべき値のＮビット長の部分に適用され、Ｎは予め選択されたパラメータである。

ゲノムシーケンスデータをコード化するための装置であって、切捨単項バイナリ化を用いることにより前記第2の記述子をバイナリ化するバイナリ化手段をさらに含み、前記第２の記述子の値の後にゼロが続き、前記値がバイナリ化される最大値に等しい場合、後続の０ビットは破棄される。

ゲノムシーケンスデータをコード化するための装置であって、構文ヘッダ内の前記コンティグの前記長さをコード化するための手段をさらに含む。

コード化されたゲノムシーケンスデータをデコード化する方法であって、
前記コード化された入力ファイルを解析し、コンティグシーケンスを取得し、
コンティグ内のミスマッチの位置とミスマッチの類型に関連する情報をエントロピーデコード化し、
前記コンティグ内のミスマッチの位置及びミスマッチの類型に関する前記情報を使用することによりコンティグを逆アセンブリ（disassembling）し、それによりヌクレオチドのゲノム配列を取得する、
各ステップを含む。

前記デコード化方法の別の態様において、コンティグ内のミスマッチの位置及びミスマッチの類型に関連する情報を使用することにより、コンティグを逆アセンブリ（disassembling）することを含み、それにより、ヌクレオチドのゲノムシーケンスを取得することは、第１の記述子（２０３）及び第２の記述子（２０４）のエントロピーコード化をすることをさらに含む。

別の態様において、前記デコード化方法は、ヌクレオチドのゲノムシーケンスの選択的な再構築を得るために、同じアクセスユニットから前記第１の記述子及び第２の記述子のカプセル化解除することをさらに含む。

別の態様において、前記デコード化方法は、入力ファイルに含まれる構文ヘッダから前記コンティグの長さをデコード化することをさらに含む。

別の態様において、前記デコード化方法は、前記第１の記述子の逆バイナリ化をさらに含み、前記第１の記述子は、分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）バイナリ化を用いてバイナリ化され、前記分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化されるべき値のＮビット長の部分に適用され、Ｎは予め選択されたパラメータである。

別の態様において、前記デコード化方法は、前記第２の記述子の逆バイナリ化をさらに含み、前記第２の記述子は、切捨単項バイナリ化を使用してバイナリ化され、前記第２の記述子の値の後にゼロが続き、前記値がバイナリ化される可能性のある最大値に等しい場合、後続の０ビットは破棄される。

前記デコード化方法の別の態様において、前記入力ファイルは、特定のリファレンスゲノムの使用をシグナリング（signaling）する情報を含まない。

コード化されたゲノムシーケンスデータをデコード化するための装置であって、
コード化された入力ファイルを解析し、コンティグシーケンスを取得する手段と、
コンティグ内のミスマッチの位置とミスマッチの類型に関する情報をエントロピーデコード化する手段と、
コンティグ内のミスマッチの位置及びミスマッチの類型に関する前記情報を使用することによりコンティグを逆アセンブリ（disassembling）し、それによりヌクレオチドのゲノム配列を取得する手段と、
を含む。

コード化されたゲノムシーケンスデータをデコード化する装置であって、前記コンティグ内のミスマッチの位置及びミスマッチの類型に関する前記情報を使用することによりコンティグを逆アセンブリ（disassembling）し、それによりヌクレオチドのゲノム配列を取得する手段は、第１の記述子（２０３）および第２の記述子（２０４）のエントロピー復号化のための手段をさらに含む。

コード化されたゲノムシーケンスデータをデコード化する装置であって、
同じアクセスユニットから前記第１の記述子および第２の記述子を脱カプセル化することにより、ヌクレオチドのゲノムシーケンスの選択的な再構築のための手段をさらに含む。

コード化されたゲノムシーケンスデータをデコードする装置であって、入力ファイルに含まれる構文ヘッダから前記コンティグの長さに関する情報をデコードする手段をさらに含む。

コード化されたゲノムシーケンスデータをデコードする装置であって、前記第１の記述子の逆バイナリ化のための手段をさらに備え、前記第１の記述子は、分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）バイナリ化を使用してバイナリ化され、前記分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化される値のＮビット長の部分に適用され、Ｎは予め選択されたパラメータである。

コード化されたゲノムシーケンスデータをデコードする装置であって、前記第２の記述子の逆バイナリ化のための手段をさらに含み、前記第２の記述子は、切捨単項バイナリ化を使用してバイナリ化され、第２番目の記述子の値の後にゼロが続き、前記値がバイナリ化される最大値に等しい場合、後続の０ビットは破棄される。

ゲノムシーケンスがリファレンスシーケンスにマッピングされ、それを使用して、マージおよび連結操作によってアセンブリを構築する方法を示す。構築されたアセンブリは、アライメントされたゲノムシーケンスが、リファレンスシーケンスに存在するものとは異なるヌクレオチドが存在する位置で、リファレンスシーケンスと異なっていてもよい。リファレンスシーケンスとコンティグとの間のミスマッチが、位置およびミスマッチの類型に関してどのように表され、次いで、本開示において定義されるように、異なるバイナリ化及び変換を実施するエントロピーコーダを用いてコード化されるかを示す。ゲノムシーケンスをリファレンスゲノムに対してアライメントし、アライメントされたシーケンスを結合させ（merging）及び連結（concatenating）することによってコンティグを構築し、コンティグに関してゲノムシーケンスを表す記述子を生成し、記述子の各ブロックを専用エントロピーコーダで圧縮するステップを含むコード化装置を示す。エントロピーコード化記述子を抽出するために入力ビットストリームを逆多重化するステップと、各種の記述子のエントロピーデコード化と、コンティグの構築と、構築されたコンティグを使用してアライメントされたシーケンスリードのデコード化と、コンティグおよびコンティグのミスマッチの位置及び類型を使用してリファレンスゲノムを再構築するステップとを含む、圧縮ビットストリームのデコード化プロセスを示す。リファレンスシーケンス上の座標Ｎと、座標Ｍの間にマッピングされたシーケンスリードが、長さＭ−Ｎのヌクレオチドのコンティグを構築するためにどのように使用されるかを示す。次に、構成されたコンティグを使用して、マッピングされたシーケンスリードにリファレンスベースの圧縮が適用される。マッピングされたシーケンスリードを表すゲノム記述子は、アライメントに使用されるリファレンスシーケンスと構築されたコンティグとの違いを表すエントロピーコード化されたゲノム記述子と同じアクセスユニット内でエントロピーコード化および多重化される。アクセスユニットが、リファレンスシーケンスの連続した間隔にマッピングされたシーケンスリードを表す圧縮記述子をどのようにカプセル化するかを示す。データ解析を有効にするために、圧縮された記述子の前にヘッダ情報が付加される。タイプＰのアクセスユニットが、ヘッダと、リードマッピングの位置（ｐｏｓ）、逆補完情報（ｒｃｏｍｐ）、ペアになったエンドリードの場合のペア情報（ｐａｉｒ）、可変リード長の場合のリード長（ｒｌｅｎ）、及びマッピングフラグ（ｆｌａｇｓ）を表す記述子のブロックの多重化によってどのように構成されるかを示す。クラスＰのリードをコード化するために使用される。リファレンスシーケンスの座標系と、リファレンスシーケンスのリード及びリードペアのマッピングを示す。リファレンスシーケンスのギャップを埋めるコンティグを構築するために、リードペアのマッピングされていないメイト（mate）をアセンブリする方法を示す。さらに、前もってマッピングされていないリードペアを、新しくアセンブリされたコンティグにマッピングされることができる。リファレンスゲノムとアセンブリされたコンティグ間の５つのミスマッチ変換とバイナリ化の例を示す。シーケンスリードがマッピングされていないアライメントに使用されるリファレンスゲノムの領域が、デコードエンドでのリファレンスゲノムの完全な再構築を可能にするために専用のアクセスユニットでコード化される様子を示す。

本発明に係るゲノム又はプロテオミックシーケンスは、例えば、限定としてではなく、ヌクレオチドシーケンス、デオキシリボ核酸（ＤＮＡ）シーケンス、リボ核酸（ＲＮＡ）、およびアミノ酸シーケンスが含まれる。本明細書の説明は、ヌクレオチドシーケンスの形のゲノム情報に関してかなり詳細であるが、当業者によって理解されるように、いくつかのバリエーションがあり、圧縮のための方法およびシステムは、他のゲノムまたはプロテオームシーケンスについても同様に適用できることが理解されるであろう。

ゲノムシーケンスの情報は、定義済みの語彙（vocabulary）からの文字列で表されるヌクレオチドシーケンス（別名「塩基」）の形式で、高スループットシーケンシング（ＨＴＳ）装置によって生成される。最小の語彙は、ＤＮＡに存在する４種類のヌクレオチド、つまりアデニン、シトシン、グアニン、およびチミンを表す５つの記号｛Ａ、Ｃ、Ｇ、Ｔ、Ｎ｝で表される。ＲＮＡにおいて、チミンはウラシル（Ｕ）に置き換えられる。Ｎは、シーケンシング装置が塩基を呼び出すことができないことにより、その位置のヌクレオチドの実際の性質が不明であることを示す。ＩＵＰＡＣ曖昧性コードが語彙としてシーケンシング装置に採用されている場合、記号に使用されるアルファベットは次の記号で構成される：｛Ａ、Ｃ、Ｇ、Ｔ、Ｕ、Ｗ、Ｓ、Ｍ、Ｋ、Ｒ、Ｙ、Ｂ、Ｄ、Ｈ、Ｖ、Ｎ、又は−｝。アミノ酸の場合、サポートされる記号は次のとおりである：｛Ａ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、Ｈ、Ｉ、Ｋ、Ｌ、Ｍ、Ｎ、Ｐ、Ｑ、Ｒ、Ｓ、Ｔ、Ｖ、Ｗ、Ｙ｝。
［用語］

本開示のコンテキストにおいて、シーケンシング装置により生成されるヌクレオチドシーケンスはリードと呼ばれる。シーケンスリードは、数十から数千の範囲の多数のヌクレオチドで構成される。一部のシーケンシングテクノロジーでは、１つのリードが１つのＤＮＡ鎖から発生し、もう１つのリードが他の鎖から発生するペアで構成されるシーケンスリードを生成する。ペアを生成するシーケンスプロセスで別のリードに関連付けられたリードは、そのメイト（mate）と呼ばれる。

ゲノムシーケンスのリードの圧縮に対する効率的アプローチにおける共通要素は、リファレンスシーケンスに関するシーケンスデータの相関の利用である。ヒト集団の体細胞プロファイルが極端に多様であっても、ヒトによって異なるヌクレオチド数の実際の部分は、ゲノム全体を構成する全ヌクレオチド数の約０．１％にすぎない。したがって、個々の個体を特徴づける特徴的なゲノム情報は、ゲノム全体に含まれる全情報に関して非常に限られている。既存のリファレンスゲノムが利用可能な場合、それが以前のシーケンス決定のためのものであれ、公表された「平均」コンセンサスリファレンスとしてのものであれ、現在、情報をコード化する最も一般的な方法は、リファレンスゲノムに関する差異のみを同定し、コード化することである。

一般に、ＦＡＳＱデータファイルの形で表現される測定されたままのシーケンスリードでこれを行うために、予備的な前処理段階でリファレンスゲノム上のマッピングが行われる。適切なリファレンスゲノムが利用できない場合、又は特定のリファレンスの使用によって導入されたバイアスが望ましくない場合には、手元にあるシーケンスリードを、コンティグと呼ばれるより長いシーケンスにアセンブリすることによる新たなリファレンスシーケンスの構築は、可能な代替策である。

本開示において、リファレンスシーケンスは、各整数座標が単一ヌクレオチドに関連する一次元整数座標系に関連するヌクレオチドのシーケンスである。
座標値は０以上でなければならない。本発明のコンテキストにおけるこの座標系は、ゼロベース（すなわち、最初のヌクレオチドは座標０を持ち、位置０にあるという）であり、左から右へ直線的に増加する。

マッピングシーケンスがリファレンスシーケンスを読み取る場合、そのリファレンスシーケンスは、左端の位置が位置０として示される単次元座標系の軸として使用される。リファレンスシーケンスにマッピングされた、各シーケンスリードについて、最小の座標番号によって識別されたリファレンスシーケンスの位置にマッピングされたヌクレオチドは、通常、「左端の」ヌクレオチドと呼ばれ、最大の座標番号によって識別されたリファレンスシーケンスの位置にマッピングされたヌクレオチドは、「右端の」ヌクレオチドと呼ばれる。これを図８に示す。本開示を通して、ヌクレオチドは塩基とも呼ばれる。

シーケンスリードがリファレンスシーケンスにマッピングされるとき、左端にマッピングされた塩基の座標は、リファレンスシーケンス上のリードのマッピング位置を表すと言われる。

アライメントされたリードに存在し、リファレンスシーケンスには存在しない塩基（挿入とも呼ばれる）及びアライメントプロセスによって保存されているがリファレンスシーケンスにマッピングされていない塩基（ソフトクリップとも呼ばれる）には、マッピング位置を有しない。

シーケンスリードが、指定されたマッチング規則に従って使用されたリファレンスシーケンスのマッピングされた位置にマッピングできない場合、それはマッピングされていないと言われる。

シーケンスリードの間で重複する領域を探すことによって、より長いゲノムシーケンスを構築するプロセスは、アセンブリと呼ばれる。

短いリードを集めてアセンブリして構築された長いゲノムシーケンスはコンティグと呼ばれる(https://en.wikipedia.org/wiki/Contig)。

アセンブリプロセス中にコンティグの構築に失敗したシーケンスリードは、アライメントされていないと言われる。

リファレンスゲノムは、１つ以上のリファレンスシーケンスで構成され、ある種の遺伝子群の代表例として科学者によってアセンブリされる。例えば、ＧＲＣｈ３７は、ゲノム・リファレンス・コンソーシアム（Genome Reference Consortium）のヒトゲノム（build 37）が、ニューヨーク州バッファローの１３人の匿名のボランティアから得られている。但し、リファレンスシーケンスは、それらの更なる処理の観点からリードの圧縮性を改善するために考えられ、単に構築された合成シーケンスで構築することもできる。

本開示では、リファレンスシーケンス上の最小座標上に塩基のマッピングを有するリードペアを構成するリードを、「リード１」と呼び、そのメイトを「リード２」と呼ぶ。

ヌクレオチド（又は塩基）の数として表される、ペアとして生成された２つのリードを分離する距離は、現在の技術の最新のシーケンシング技術を使用するシーケンシング装置によって知ることはできず、それは、ペア（すなわち、適切なマッチング関数の最小化）を構成する両方のリードをリファレンスシーケンスにマッピングすることによって決定される。

本開示全体を通して、アクセスユニット（ＡＵ）は、ビットストリームのアクセス及び操作を容易にするために、ゲノム情報又は関連メタデータのコード化された表現を含む論理データ構造として定義される。これは、本開示に記載された本発明を実施するデコード化装置によってデコード化できる最小のデータ編成である。

コード化情報の種類に応じて、ＡＵは、他のＡＵとは独立してデコード化することも、他のＡＵに含まれる情報を用いてデコード化することもできる。

ＡＵｓは、コード化されたシーケンスデータの性質に従って、多数の種類に分類することができる。アクセスユニットは、リファレンスシーケンス又はその一部、又は単一クラスのデータに属するコード化されたリード又はリードペアのいずれかを含む。１つのＡＵに２つ以上の種類のシーケンスデータを含めることはできない。例えば、アクセスユニットは、ＧＲＣｈ３７（build 37）の第１染色体全体を含むことができる。別のアクセスユニットは、座標５０，０００と１５０，０００の間に位置するＧＲＣｈ３７の第１染色体のヌクレオチドのコード化された表示を含むことができる。別のアクセスユニットは、いかなるミスマッチもなくリファレンスシーケンス上に完全にマッピングされるリード又はリードペアのみを含むことができる。別のアクセスユニットは、リファレンスシーケンスに関するミスマッチとして「Ｎ」記号のみを含むリード又はリードペアを含むことができる。別のアクセスユニットには、任意の種類の置換（例えば、リード又はリードペアに存在する１つの塩基が、リファレンスシーケンスの対応するマッピング位置の塩基と異なる）を含むリード又はリードペアを含めることができる。別のアクセスユニットは、ミスマッチ、挿入、削除、及びソフトクリップされた塩基を含むリード又はリードペアを含むことがある。別のアクセスユニットは、リファレンスシーケンス上にマッピングされないリード又はリードペアのみを含むことができる。別のアクセスユニットは、一方のリードがマッピングされ、他方のリードがリファレンスシーケンスにマッピングされないリードペアのみを含むことができる。別の種類のアクセスユニットは、一つ以上のリファレンスシーケンス（例えば染色体）によって構成されるリファレンスゲノムのコード化されたセグメントのみを含むことができる。

アクセスユニットの本質的な特徴は、それが、シーケンスリード又はリードペアのゲノム情報、リファレンスシーケンス、関連するアラインメント情報、及びリード又はリードペアのメタデータを再構築するために、必要な全てのエレメントを圧縮形式で含むことである。換言すれば、リード又はリードペア、又はアクセスユニットによって伝送されるリファレンスシーケンス及び関連情報を完全に再構成するためには、アクセスユニット自体、及び該当する場合には、アクセスユニットが参照するリファレンスシーケンスを含むアクセスユニットを検索して解凍（decompress）するだけでよい。

各アクセスユニットで、次のセクションに掲載され、コード化されたリード又はリードペアの情報を表す記述子は、高性能のエントロピーコード化を達成し、それらの均質な統計特性を活用するために、種類ごとに１つの個別のデータブロックに集約される。

各アクセスユニットは、リファレンスシーケンス上のゲノム領域にマッピングされた同じデータクラスに属するシーケンスリード又はリードペアを表す記述子の圧縮サブセットを含む。このようなリファレンスシーケンス上のゲノム領域は、開始座標（又は開始位置）及び終了座標（又は終了位置）によって定義される。

アクセスユニットの例を図６に示す。アクセスユニットは、次のセクションで述べるように、コード化されたゲノム記述子のブロックによって構成される。ネットワーク上での転送を可能にするために、ブロックはさらにパケットに分解される。ゲノムシーケンスのリードを圧縮する場合、各アクセスユニットには、リファレンスシーケンスのゲノム区間（genomic interval）にマッピングされたシーケンスリード又はマッピングされていないシーケンスリードのいずれかを表す圧縮記述子が含まれる。アクセスユニットは、リファレンスゲノム又はその一部を伝送するために使用される。リファレンスシーケンスは、ヌクレオチドの単一の長いシーケンスとしてコード化されるか、マッピングされていないゲノムシーケンスリードとしてコード化された短いシーケンスに分割される。

本開示のコンテキストにおいて、ゲノム記述子は、コード化されたリファレンスシーケンス、シーケンスリード、及び関連するマッピング情報を再構築（すなわち、デコード化）するのに必要な情報の一部（及びファイル形式及び／又はビットストリームの構文構造（syntax structure）の要素）を表す構文要素（syntax elements）である。

本発明で開示されるゲノム記述子を表１に列挙する。

表１．ゲノム記述子とその意味

本発明に開示された方法によれば、リファレンスシーケンス又はその一部、シーケンスリード、及び関連するアラインメント情報は、上記に列挙された記述子のサブセットを使用してコード化され、次いで、各記述子固有の統計的特性に従って、複数のエントロピーコーダ（entropy coders）を使用してエントロピーコード化される。均質な統計的特性を有する圧縮された記述子のブロックは、本開示に記載される本発明を実施する装置によって操作することができる１つ以上のゲノムシーケンスの最小のコード化表現を表すアクセスユニットにおいて構造化される。

本開示で述べられる本発明は、ゲノムシーケンスリードをアライメントさせるために使用されるリファレンスシーケンスを、ゲノム記述子に関して表す方法を定義する。このようなゲノム記述子は、特定のエントロピーコーダを用いて圧縮される。次いで、圧縮された記述子のブロックを、圧縮されたゲノム記述子を含む同じアクセスユニット内にカプセル化し、効率的な移送及び選択的なアクセスを可能にするように、リファレンスシーケンス上にマッピングされたシーケンスリードの再構築を可能にする。

一実施形態では、本発明の原理は、関連するアラインメント情報を有するゲノムシーケンスリード及びアラインメントに使用されるリファレンスシーケンスの両方に対する可逆的な圧縮に関する。効率的な圧縮は、リファレンスシーケンスの連続領域にマッピングされたシーケンスリードを結合又は連結してコンティグと呼ばれる長いシーケンスを構築し、構築されたコンティグに関してシーケンスリードのリファレンスベース（reference-based）の圧縮を実行することによって得られる。より良好な圧縮は、「ゲノム記述子」と呼ばれる個別の構文要素を用いて、リファレンスシーケンス上にマッピングされたゲノムシーケンスリードを特徴付ける全ての特徴を表すことによって得られる。ＳＡＭフォーマットは、ヌクレオチドシーケンスとのアラインメント情報、及び塩基ペアに関連する品質スコア、ペアエンドリード（paired end reads）の場合のペアリング情報等の他のメタデータを記憶する。本発明の原理によれば、マッピングされた又はマッピングされていないゲノムシーケンスリードに関連する各々の特徴は、ゲノム記述子によって表される。同じ種類のゲノム記述子は、異なるエントロピーコーダを用いて圧縮されるブロックに連結される。本発明は、ＣＩＧＡＲ文字列、マッピングフラグ、ヌクレオチド文字列又は品質値文字列等のＳＡＭフィールドはいずれも圧縮しないが、１６ゲノム記述子又はそれらの特定のサブセットを使用して同じ種類の情報を表すことを理解されたい。ＳＡＭの１１個の必須フィールドでは、ＳＡＭと提示された形式との間の往復トランスコーディング（Round-trip transcoding）が可能である。

最先端のソリューションは、各リファレンスシーケンス（染色体等）が４つのヌクレオチドを表す一連の記号として、格納されている圧縮されたＦＡＳＴＡファイルの形式でアセンブリされたゲノムを格納する。各リファレンスシーケンスは、圧縮されてデータベースに保存されるリファレンスゲノム（ゲノムアセンブリとも呼ばれる）の一部である。同じ生物又は個体に属する有機物から時間的に異なる時点で得られたいくつかのゲノム集合体は、その遺伝的な歴史を表すために保存される。ゲノム分析がゲノムシーケンスデータを既存のリファレンスゲノムと比較することを必要とする場合、ゲノム分析アプリケーションは、１つ以上の関心のあるリファレンスゲノムを検索し、ゲノム分析を行うためにデータベースへの照会を行う。

好ましい実施形態では、本発明に開示された原理を適用して、圧縮されたゲノムを個別のリソースとして保存する必要なく、圧縮されたゲノムシーケンスデータに埋め込まれたリファレンスゲノムのコレクションの効率的な保存を実施することができる。ゲノムシーケンスデータからの個別のデータ構造としてゲノムアセンブリを記憶する代わりに、本発明に開示される方法及び原理は、アラインメントのために使用されるゲノムの再構築を可能にする関連メタデータとともにゲノムシーケンスデータのみを記憶することを可能にする。
［ゲノムシーケンスリード及びリファレンスシーケンスの圧縮された表示］

シーケンスリードが、既存の又は構築されたリファレンスシーケンスに関してマッピングされている場合、それぞれのシーケンスリードは、本開示において「ゲノム記述子」又は単に「記述子」として示されるいくつかの要素によって完全に表現することができる。

例えば、リファレンスシーケンスのセグメントと完全にマッチングするシーケンスリードの場合、シーケンスリードを表すのに必要な記述子のサブセットは、リファレンス上のマッピング位置の座標（通常、シーケンスリードの左端の塩基のマッピング位置の座標）、シーケンスリード自体の長さ、及び、シーケンスリードがリファレンスシーケンスの鎖（strand）に関して直接または逆方向のＤＮＡ鎖上でマッピングしているかどうかを示す情報によって構成される。

シーケンスリードの全ての塩基がリファレンスリードの全ての塩基と一致するマッピング位置を見つけることができない場合、最小の数のミスマッチを有するマッピング（又はマッピング）が保持される。シーケンスリードの全ての塩基がリファレンスシーケンスのすべての塩基とマッチングするマッピング位置を見つけることができない場合、最小数のミスマッチを有するマッピング（又は複数のマッピング）が保持される。そのような場合には、置換、挿入、欠落及びクリップされた塩基を表現するために、異なる記述子のサブセットが必要とされ、これらは、ミスマッチの最小数又は最小数に近いマッピング位置に対応して発生する。このような記述子のサブセットを用いて、シーケンスリードは、記述子によって伝えられる情報及びリファレンスシーケンスによって伝えられる情報を用いて再構成することができる。

ゲノムシーケンシングプロセスは、２つの主な物理的な理由から、重複するリード（すなわち、同じゲノムシーケンスの２つ以上の正確なコピー）が生じることがある：
・ポリメラーゼ連鎖反応による重複の発生
・データ収集プロセスにおける光学的複製の発生。リードは、リードのペアが両方とも同じタイル上にあり、リード間の距離が実験に応じて所定の構成パラメータ未満である場合、光学的複製と呼ばれる。

マッピングプロセスは、複数の可能なマッピング位置及び関連スコア、マッピングの品質、スプライスされたリードの明示、ペアに属するリードの２つの異なるリファレンス（通常染色体）上のマッピング、シーケンシングプロセスの特徴（例えばＰＣＲ又は光学的複製）等の他の種類の情報を生成することができる。このような全ての情報は、それぞれのサブセットを拡張する特定の追加の記述子を必要とし、次いで、記述子の各サブセットに対して適切なエントロピーコード化アルゴリズムを適用することによって圧縮される。

従って、各リード又はリードペアは、マッピングプロセスの結果に従って、記述子の特定のサブセットによって、ユニークに表すことができる。
［マッチング規則によるシーケンスリードの分類］

シーケンシング装置によって生成されたシーケンスリードは、開示された発明によって、１つ以上の「既存の」リファレンスシーケンスに関するアラインメントのマッチング結果に従って、６つの異なる「クラス」に分類される。

ヌクレオチドのＤＮＡシーケンスを、リファレンスシーケンスに対してアライメントさせる場合、以下の場合を特定することができる：
・リファレンスシーケンス内の領域は、いかなるエラーもなくシーケンスリードとマッチングすることがわかる（すなわちパーフェクトマッチング）。そのようなヌクレオチドのシーケンスは、「パーフェクトマッチングリード」と呼ばれるか、又は「クラスＰ」と表示される。
・リファレンスシーケンスの領域は、シーケンスリードと、リードを生成するシーケンシング装置がいずれの塩基（又はヌクレオチド）を呼び出すことができなかった位置の数によってのみ決定される、ミスマッチの数及び類型と一致することがわかる。このような種類のミスマッチは、未定義のヌクレオチド塩基を示すために用いられる文字である「Ｎ」によって示される。本明細書では、この種類のミスマッチを「ｎタイプ」ミスマッチと呼ぶ。このようなシーケンスは「クラスＮ」のリードに属する。リードが「クラスＮ」に属するように分類されると、マッチングの不正確さの程度を所定の上限に制限し、有効なマッチングと見なされるものとそうでないものとの境界を設定することが有用である。したがって、クラスＮに割り当てられたリードも、リードに含めることができる未定義の塩基（すなわち、「Ｎ」と呼ばれる塩基）の最大数を定義するしきい値（ＭＡＸＮ）を設定することにより制限される。このような分類は、クラスＮに属する全てのリードが、対応するリファレンスシーケンスを参照するときに共有する必要な最小マッチング精度（又は最大ミスマッチ度）を黙示的に定義し、これは、選択的なデータ検索を圧縮データに適用するための有用な基準を構成する。限定ではなく一例として、一部の分析アプリケーションでは、リファレンスゲノムにマッピングする際に、マッピングされたリードに最大３つの未決定（「Ｎ」）塩基のみを含めることを要求する。ＳＡＭ／ＢＡＭのような既存のフォーマットで、パイプライン処理はデータセット全体を解凍し、全ての解凍されたレコードを解析して、３より大きい「Ｎ」符号を持つリードを破棄し、３より小さい「Ｎ」符号を持つリードのみを保持してから、さらに分析を進める必要がある。本発明の原理の一態様によれば、コード化アプリケーションは、パイプライン処理が追加の処理又は記憶の必要無しにそれらをデコードして使用することができるように、３以下「Ｎ」の符号で個別にリードを圧縮することができる。
・リファレンスシーケンスの領域は、シーケンスリードと、シーケンスリードを生成するシーケンシング装置が、ヌクレオチド塩基を呼び出すことができなかった位置の数、それに加え、それが存在するならば（すなわち「ｎタイプ」のミスマッチ）、リファレンスに存在する塩基とは異なる塩基が呼び出されたミスマッチの数、によって決定されるミスマッチの数及び類型と一致することがわかる。「置換」として示されるこのようなミスマッチの類型は、一塩基変異（ＳＮＶ）又は一塩基多型（ＳＮＰ）とも呼ばれる。本明細書では、このタイプのミスマッチを「ｓタイプ」ミスマッチとも呼ぶ。シーケンスリードは「Ｍミスマッチリード」として参照され、「クラスＭ」に割り当てられる。「クラスＮ」の場合と同様に、「クラスＭ」に属する全てのリードについても、マッチングの不正確さの程度を特定の上限に制限し、有効なマッチングと見なされるものとそうでないものとの境界を設定することが有用である。したがって、クラスＭに割り当てられるリードも、しきい値のセットを定義することによって制限され、しきい値のセットは、それが存在する場合、「ｎタイプ」（ＭＡＸＮ）のミスマッチの数「ｎ」に対するしきい値と、置換の数「ｓ」に対するしきい値（ＭＡＸＳ）である。第３の制限は、「ｎ」と「ｓ」の数、ｆ（ｎ，ｓ）の両方の関数によって定義されるしきい値である。このような第３の制限は、任意の意味のある選択的なアクセス基準に従ってマッチングの不正確さの上限を持つクラスを生成することを可能にする。例えば、限定されないが、ｆ（ｎ，ｓ）は、（ｎ＋ｓ）１／２又は（ｎ＋ｓ）、又は「クラスＭ」に属するリードに対して許容される最大マッチング不正確レベル（maximum matching inaccuracy level）に境界を設定する任意の線形式又は非線形式であってもよい。このような境界は、様々な目的のためにシーケンスリードを解析するとき、圧縮データに対して高度な選択的なデータ検索を実行するための非常に強力な基準を構成する。限定されないが、一例として、これは、一方又は他方に適用される単純しきい値を超えて、「ｎタイプ」ミスマッチ及び「ｓタイプ」ミスマッチ（置換）の数のあらゆる可能な組み合わせを含む圧縮ゲノムリードの選択を可能にする。ＳＡＭ／ＢＡＭフォーマットのような既存のソリューションは、リファレンスゲノムに関してユーザ定義された数のミスマッチを有するアライメントされたシーケンスリードの選択をネイティブにサポートしない。リファレンスゲノムに関して最大で「Ｎ」個の置換を持つゲノムシーケンスリードを選択するには、以下が必要である。
１．ＢＡＭファイル全体をテキスト形式のＳＡＭファイルに解凍すること
２．目的のリードを選択するように構成されたテキストパーサーを使用して、デコードされたＳＡＭを解析すること
このアプローチでは、非常に大きなストレージ領域（ＳＡＭテキストはＢＡＭより約２．５倍大きい）と、３０倍のカバレッジで数時間という長い処理時間が必要になる。本原理の一態様によれば、データセット全体を解凍する必要なしに解凍を利用可能にするために、任意の数のミスマッチを示すゲノムシーケンスリードを個別に圧縮することができる。
・第４のクラスは、「挿入」、「削除」、（インデル（indels）とも呼ばれる）及び「クリップ」のうちのいずれかのタイプのミスマッチを少なくとも一つ提示し、さらに、存在する場合には、クラスＮ又はＭに属するいずれかのミスマッチの種類を提示するシーケンスリードプロセッシングによって構成される。このようなシーケンスは「Ｉミスマッチングリード」と呼ばれ、「クラスＩ」に割り当てられる。挿入は、リファレンス中には存在しないが、リードシーケンス中に存在する１以上のヌクレオチドの付加的なシーケンスによって構成される。本明細書では、このような類型のミスマッチを「ｉタイプ」ミスマッチと呼ぶ。文献では、挿入されたシーケンスがシーケンスの端にある場合、それは「ソフトクリップ」とも呼ばれる（すなわち、ヌクレオチドは基準に一致していないが、廃棄される「ハードクリップ」ヌクレオチドとは対照的に、アライメントされたリードにおいて保持される）。本明細書では、このタイプのミスマッチを「ｃタイプ」のミスマッチと呼ぶ。削除は、リファレンスに対するリードで「ホール」（ヌクレオチド欠落）である。本明細書では、このような類型のミスマッチを「ｄタイプ」のミスマッチと呼ぶ。クラス「Ｎ」及び「Ｍ」の場合と同様に、マッチングの不正確さに対する制限を定義することは可能かつ適切である。「クラスＩ」に対する一連の制限の定義は、「クラスＭ」に使用されたものと同じ原則に基づいており、表１の最後の行に示されている。クラスＩのデータに対して許容される各タイプのミスマッチに対するしきい値の他に、さらなる制限は、ミスマッチの数「ｎ」、「ｓ」、「ｄ」、「ｉ」及び「ｃ」、ｗ（ｎ，ｓ，ｄ，ｉ，ｃ）の関数によって決定されるしきい値によって定義される。このような付加的制限により、意味のあるユーザ定義の選択的なアクセス基準に従って、マッチングの不正確さの上限を持つクラスを生成できる。例えば、これに限定されるものではないが、ｗ（ｎ，ｓ，ｄ，ｉ，ｃ）は、（ｎ＋ｓ＋ｄ＋ｉ＋ｃ）１／５又は（ｎ＋ｓ＋ｄ＋ｉ＋ｃ）、又は「クラスＩ」に属するリードに対して許容される最大マッチング不正確レベルに境界を設定する任意の線形式又は非線形式であってもよい。このような境界は、様々な目的のためにシーケンスリードを解析するときに、所望の選択的なデータ検索を圧縮データに適用するための非常に有用な基準を構成する。なぜならば、この境界は、許容可能なミスマッチの各タイプに適用される単純なしきい値を超えて、「クラスＩ」のリードにおいて許容可能なミスマッチの数の任意の可能な組み合わせに対して、さらなる境界を設定することを可能にするからである。
・第５のクラスには、リファレンスシーケンスを参照するとき、各データクラスの有効と見なされるマッピングが見つからない（つまり、表１で指定される最大一致の不正確さの上限を定義するマッチング規則のセットを満たさない）全てのリードが含まれる。このようなシーケンスは、リファレンスシーケンスを参照するときに「マッピングされていない」と呼ばれ、「クラスＵ」に属するものとして分類される。
［マッチング規則によるリードペアの分類］

前のセクションで指定した分類は、単一のシーケンスリードに関するものである。２つのリードが可変長の未知のシーケンスによって分離されることが知られている、ペアでリードを生成するシーケンシング技術の場合（すなわち、イルミナ社）、全てのペアの単一データクラスへの分類を考慮することが適切である。他のリードと結合したリードは、「メイト（mate）」と呼ばれる。

ペアリードの両方が同じクラスに属している場合、ペア全体のクラスへの割り当ては明白である。つまり、ペア全体が任意のクラスの同じクラスに割り当てられる（Ｐ、Ｎ、Ｍ、Ｉ、Ｕ等）。２つのリードが異なるクラスに属しているが、いずれも「クラスＵ」に属していない場合、ペア全体が、次の式に従って定義された最も高い優先順位を持つクラスに割り当てられる。
Ｐ＜Ｎ＜Ｍ＜Ｉ
この中で「クラスＰ」の優先度が最も低く、「クラスＩ」の優先度が最も高くなる。

１つのリードのみが「クラスＵ」に属し、そのメイトがクラスＰ、Ｎ、Ｍ、Ｉのいずれかに属している場合、第６番目のクラスは「ＨＭクラス」を表す「ハーフマッピング」として定義される。

このような特定のリードのクラスの定義は、それがリファレンスゲノムに存在するギャップ又は未知の領域を決定しようとするために用いられるという事実によって動機づけられる（ほとんど知られていない又は未知の領域とも呼ばれる）。このような領域は、既知の領域にマッピングすることができるペアリードを使用してエッジでペアをマッピングすることによって再構成される。マッピングされていないメイトは、図９に示すように、未知の領域のいわゆる「コンティグ」を作成するために使用される。したがって、そのようなタイプのリードペアのみに選択的なアクセスを提供すると、関連する計算の負担が大幅に軽減され、最新のソリューションを使用して完全に検査する必要がある場合よりも、大量のデータセットに起因するそのようなデータの非常に効率的な処理が可能になる。

次の表は、各リードが属するデータのクラスを定義するためにリードに適用されるマッチング規則を示す。規則は、ミスマッチの類型（ｎ、ｓ、ｄ、ｉ、ｃ型のミスマッチ）の有無に関して、表の最初の５列で定義される。第６列は、それぞれのミスマッチの類型に対する最大しきい値、及び起こり得るミスマッチの類型の任意の関数ｆ（ｎ，ｓ）及びｗ（ｎ，ｓ，ｄ，ｉ，ｃ）に関する規則を提供する。

表２．各シーケンスリードが、本発明の開示において定義されるデータクラスに分類されるために満足しなければならないミスマッチの類型及び制限のセット

［最先端のアプローチとの比較］

ＳＡＭ及びＣＲＡＭのような一般的に使用されるアプローチは、それらのマッピング情報を表すのに必要な記述子の特定のサブセットに従ってリード又はリードペアをコード化しない。ＳＡＭ及びＣＲＡＭは、それらがマッピングされるリファレンスシーケンスに関して、それらが含むミスマッチの数及び類型に従って、シーケンスリードをデータクラスに分類しない。
さらに、これらのフォーマットは、単一のデータクラスに属するシーケンスリードのみを圧縮形式で含むアクセスユニットに、シーケンスリードを個別にコード化しない。ペアで生成されたシーケンスリードの場合、最新のアプローチでは、リファレンスシーケンスに対するマッピング精度に従ってクラスに分割された単一の要素としてコードをコード化しない。このような最先端のアプローチは、以下の制限及び欠点を有する。
１．リファレンスシーケンスに対するマッピング結果に従って、シーケンスリードを別々のデータクラスに分類することなく、また記述子のユニークなスーパーセットを使用してリード又はリードペアをコーディングすることは、圧縮性能が低い非効率的なアプローチである。
２．圧縮データのソースモデリングの欠如と、ＺＩＰ、ＧＺＩＰ、ＬＺＭＡ等の汎用コンプレッサの使用により、圧縮率が低下する。
３．リードペアを別々のシーケンスリードとしてコード化するには、リード識別子（リード名等）等の、同じ情報を保持する複数の記述子を複製する必要があるため、効率が悪く、圧縮パフォーマンスが低下する。
４．リードペアを再構成するために必要な情報の検索は、複雑で非効率的な結果となり、なぜなら、このプロセスでは、おそらくデータセット全体での総当たり逐次検索が必要になるためであり、これは、次世代シーケンシング（ＮＧＳ）テクノロジーの場合、非常に大規模になる可能性があるためである。
５．特定のゲノム領域にマッピングされたリード又はリードペアへの選択的なアクセスは、全てのリード又はリードペアが検索されることを保証するために、データセット全体を検索することを必要とする。

単一のサブセットの記述子を用いてリードペアをコード化する場合、当業者にとって以下の技術的利点が明らかである。
１．明らかに重複している両方のリードに共通する情報は、ペアを単一要素としてコード化しても複製されない（例えば、リードペア識別子、マッピング距離、マッピングリファレンス識別子、ＳＡＭファイルフォーマットにおける特定のフラグによって、現在コード化されている様々なマッピング品質情報）。
２．相互ペアリング情報（つまり、どのリードが現在のリードとマッチングするかを示す情報）の検索は簡単であり、それ以上の処理を必要としない。逆に、最先端のアプローチでは、データの全ボリュームを解析する必要がある場合がある。

シーケンシングデータの特定部分への効率的な選択的なアクセスを可能にし、それらをデジタル・データ・ネットワーク上で転送することができるようにするために、リファレンスにアライメントされたシーケンスリードを表すために使用される記述子のセットは、アクセス・ユニット（ＡＵ）と呼ばれる論理的に分離した独立したデータブロックで構成される。各アクセスユニットには、単一のデータクラスの圧縮表現のみが含まれ、他のアクセスユニットとは独立して、又はマッピングに使用されるリファレンスシーケンス領域のコード化表現を保持するアクセスユニットのみを使用してデコード化できる。これにより、選択的なアクセスと順不同の転送機能が可能になる。

圧縮効率を高めるために、本発明は、同じリファレンスシーケンス上にマッピングされた両方のペアを有する各リードペアに対して「マッピングリファレンス識別子」という記述子を指定する必要性を排除する。各アクセスユニットには、同じリファレンスにマッピングされるリード又はペアのみを含めることができる。そのような解決策を使用して、リファレンスシーケンス識別子を表す記述子は、各アクセスユニット又はアクセスユニットのセット（ＳＡＭ／ＢＡＭ形式で現在行われているように、リードごとに繰り返されない)ごとに一度だけコード化される必要がある。

上記の規則の唯一の例外は、異なるリファレンスシーケンス（例えば染色体）上にマッピングされた２つのリードを有するリードペアの場合である。この場合、ペアは分割され、２つのリードは２つの別々のゲノムレコードとしてコード化され、それぞれのコード化されたリードは、そのペアがマッピングされるリファレンスシーケンスの識別子を含む。

実験データは、ゲノム記述子の統計的性質に適したエントロピーコーダの開発が、不均一なデータセットに適用される汎用コンプレッサ（例えばＬＺ型アルゴリズム）の使用に関して、より良い圧縮性能を提供することを実証する。結果として、記述子の特定のサブセットを用いてゲノムシーケンスをコード化する際には、記述子の各個別のサブセットを特徴付けるエントロピーがより低く、リードペアを再構築及び検索する際の処理効率がより高いため、より高い圧縮が達成される。

本発明により開示されたアプローチによって、提供される達成可能な圧縮率に関する利点は、次のセクションで説明され、エントロピーコード化の前にゲノム記述子の異なるブロックに適用される異なるバイナリ化及び変換は、関連する性能とともに説明される。
［リファレンスデータを使用したリファレンスゲノムのコード化］

本原理の一実施形態は、アライメントされたシーケンスデータの、リファレンスレスの圧縮が実行される場合の、リファレンスゲノム又はゲノムアセンブリ等のリファレンスシーケンスの無損失圧縮に関する。フォーゲス，Ｊ．、ムンダロー，Ｍ．、オスターマン，Ｊ．（Voges, J., Munderloh, M., Ostermann, J.）らによる「アラインメントされた次世代シーケンシングデータの予測コーディング（Predictive Coding of Aligned Next-Generation Sequencing Data）」（２０１６、データコンプレッションコンファレンス（Data Compression Conference：DCC））によるアライメントされたシーケンスデータのリファレンスレス圧縮は、本開示の表１に定義された１から１２までのゲノム記述子を使用して実装できる。フォーゲス（Voges）は、コード化されたシーケンスリードを順次格納し、アライメントされた各シーケンスに関連付けられたＳＡＭＣＩＧＡＲ文字列を使用して関連するコンティグを構築するために、循環バッファを使用する。この言及されたアプローチは、リファレンスシーケンス１００にマッピングされたゲノムシーケンスデータ１０１の効率的な圧縮を実現でき、デコードエンジンはコンティグと圧縮されたゲノムシーケンスのリードのみを再構築できるが、アライメントに使用された元のリファレンスゲノムは圧縮されたデータに含まれていないため、リファレンスシーケンス１００自体の表現と圧縮はサポートされていない。本開示は、表１のゲノム記述子のＮｏ．１３及び１４を使用して、リファレンスレス圧縮がゲノムシーケンスデータに適用される場合、アライメントに使用されるリファレンスゲノムの効率的な圧縮を達成することを目的とする。これは、圧縮プロセス中でアセンブリされたコンティグと、アラインメントに使用されたリファレンスゲノムとの差を圧縮データに保存することによって達成される。デコード化の終了時において、デコード化プロセスは、ゲノムシーケンスリードの解凍に使用されるコンティグを再構築し、−記述子１３及び１４により−、アライメントに使用されるリファレンスゲノムを再構築できる。

図１は、リファレンスベースの圧縮を実行するために使用されるコンティグと呼ばれるより長いシーケンス１０２を構築するために、アライメントされたシーケンスリード１０１がどのように使用されるかを示す。コンティグは、リファレンスゲノム上のそれぞれの位置ごとに、アライメントされたリードにおいて最も高い頻度で存在するヌクレオチドをその位置で選択することによってアセンブリされる。そのようなヌクレオチドがリファレンスシーケンス中のものと同じであれば、これを「マッチング」といい、そうでなければ、それは「ミスマッチ」という。これは、バッファが先験的に固定されなければならないフォーゲス（Voges）のアプローチでは不可能であり、これもまた、所定の設計選択が行われているためである。

さらに、本発明では、コンティグの長さは、ユーザによって（入力パラメータファイル等）定義されるか、又はエンコーダによって動的に更新される。コンティグの長さに関する情報は、表１８に示すような圧縮されたゲノム情報を保存又は送信するために使用されるファイルフォーマットに含まれるデータ構造でエンコーダからデコーダに送信することができる。そのような新しい特徴は、それがパラメータによって定義され、様々なエンコーダ及びデコーダのアーキテクチャ及びそれらの関連する制限に適合することができ、また、ゲノムシーケンスをコード化及びデコード化するために使用される様々なアーキテクチャの進化及びコード化されるシーケンスの計算複雑性に適合可能であるというかなりの利点を有する。

コンティグの長さは、ヌクレオチド数及び／又はコード化及びデコード化プロセスで使用されるリード数の両方で表現できる。このプロセスは図に示される。

さらに、図２は、リファレンスシーケンス２００とコンティグ２０１との間の前記「ミスマッチ」（２０２）が、表１の記述子Ｎｏ．１３及びＮｏ．１４を用いてどのようにコード化されるかを示す。そのような記述子をエントロピーコード化し、アラインメントされたシーケンスリードを圧縮するために使用される記述子を含む同じアクセスユニットにカプセル化することによって、アラインメントに使用されるリファレンスゲノムのデコーディング装置での再構築が可能になる。

本発明の別の実施形態において、マッピングに使用されるリファレンスゲノムの領域のうち、マッピングされたリードのいずれにも含まれない領域は、圧縮（すなわちエントロピーコード化）、カプセル化、及び特定のアクセスユニットで伝送することができる。このようなアクセスユニットには、アライメントに使用されるリファレンスゲノムの圧縮表現のみが含まれ、シーケンスリードがマッピングされていないゲノム領域をカバーする。これを図１１に示す。ここでは、アライメントに使用されているがリードがマッピングされていないリファレンスゲノムの領域が特定のアクセスユニットでコード化されている。このような発明の技術的優位点は、リファレンスゲノムの全体積に対応する量のデータを記憶する必要なしに、アラインメントに使用されるリファレンスゲノムを解読終了時に完全に再構築することが可能であることである。

ここで引用した、フォーゲス（Voges）らのソリューションに対するこのようなアプローチの技術的な利点は次のとおりである。
１．アラインメントに使用されるリファレンスゲノムは、追加データのオフバンド送信なしで、デコーディング装置で使用できる（例えば、圧縮されたゲノム又は外部リポジトリへの他のリファレンス）
２．リファレンスゲノムは、各アクセスユニットによってカバーされるゲノム領域に等しい粒度で、デコーディングデバイスにおいて選択的に再構築され得る。リファレンスゲノムの部分領域は、ランダムアクセス機構によってアクセスすることができる。これは、分析がはるかに小さなゲノム領域に制限される場合でさえ、ヒト基準ゲノムを構成する全３２億個のヌクレオチドの減圧及び操作を必要とする既存のソリューションに関するはるかに効率的なデータ処理を可能にする。
３．本発明で開示されるｒｆｔｐ及びｒｆｔｔ記述子は、アライメントに使用されるリファレンスゲノムが、圧縮シーケンスデータが属する同じ個体に属する場合、圧縮シーケンスデータに存在する新しい一塩基多型（別名ＳＮＰ、https://en.wikipedia.org/wiki/Single-nucleotide_polymorphismを参照）の指標としてゲノム解析パイプラインによって使用され得る。非常に高い（３０×を超える）カバレッジで、リファレンスなしの圧縮プロセスの間で構築されたコンティグ１０２は、個人のゲノムの新しいアセンブリとして考えられ得ることを理解されたい。コンティグを同じ個体に属する前もって取得されたリファレンスゲノム１００と比較すると、発見された違いは、単一ヌクレオチド多型の存在の可能性を示している（ＳＮＰとも呼ばれる、https：//en.wikipedia.org/wiki/Single-nucleotide_polymorphismを参照）。
［ゲノム記述子のエントロピーコーディング］

本開示において定義されるゲノム記述子のサブセットは、本発明の原理に従って定義される６つのクラスに属するゲノムデータを表すために使用される。図６及び７は、リファレンスシーケンスの隣接領域にマップされたゲノムシーケンスリードが、１つのアクセスユニットにカプセル化されたゲノム記述子のブロックによって表されることを示す。記述子のブロックは、各記述子の統計的特性に特に適合された異なるエントロピーコーダを用いてエントロピーコード化される。このアプローチは、ゲノム記述子の各ブロックがＳＡＭ又はＣＲＡＭレコードよりも効率的にモデル化され得る情報ソースを表すので、ＳＡＮ／ＢＡＭ又はＣＲＡＭのような他のアプローチよりも良好な圧縮比を提供する。ＳＡＭ及びＣＲＡＭレコードは、本開示において定義されるゲノム記述子と同じ統計的特性を共有しない異種エレメントのグループである。

記述子に適用される変換及びバイナリ化は、当該記述子のエントロピーコーダのために必要な構成パラメータと共に適用され、技術水準の解決よりも良好な圧縮率を提供し、以下に報告するように本発明によって開示される。
［記述子の変換］

記述子の変換は、より良い圧縮性能を達成するために、ゲノムシーケンス内のミスマッチの位置又はミスマッチの類型等のゲノムの特徴を表す記述子の値を、異なる対応する値に変換するプロセスである。一実施形態において、本開示の原理に従って、ｒｆｔｐ記述子によって表されるミスマッチの位置は、以下のステップに従って変換される。
１．変換プロセスへの入力は、シーケンスリードの最初のヌクレオチドからのヌクレオチド単位の距離として表されるミスマッチの位置である。これは、図２に示されており、リファレンスシーケンスに関するアセンブリされたコンティグの４つのミスマッチ２０３は、位置４、６、１０、及び１３にある。
２．次に、各絶対位置は、以前のミスマッチに関する微分位置に変換される。最初のミスマッチは同じ値を維持する。４つの位置の値は４、２、４、３に変換される。これらの値は、次に説明するｒｆｔｐ記述子のバイナリ化プロセスへの入力である。

一実施形態において、本開示の原理に従って、ｒｆｔｔ記述子によって表されるミスマッチの類型は、以下のステップに従って変換される。
１．変換プロセスへの入力は、ヌクレオチドの記号として表される類型のミスマッチである。これは、図２に示されており、ここで、アセンブリされたコンティグのリファレンスシーケンスに関する４つのミスマッチ２０４は、タイプＡ、Ａ、Ｇ、Ａである。
２．次いで、各ヌクレオチドは、可能な全ての記号を含むベクター２０９内のヌクレオチドの位置を表す整数値に変換される。これを図１０に示す。４つのミスマッチの類型は０，０，２，０に変換される。これらの値は、以下で説明するｒｆｔｔ記述子のバイナリ化プロセスへの入力である。
［記述子のバイナリ化］

一実施形態において、本発明は、ゲノム記述子の圧縮のためにコンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ）を使用する。ＣＡＢＡＣはまず、コード化される全ての記号をバイナリ表現に変換する。バイナリ化プロセスは、算術コード化に先立って、非バイナリ記号（たとえば、マッピング位置、マッピングされたリードの長さ、又はミスマッチの類型）をバイナリコードに変換する。

各記述子の統計的性質に適合した適切なバイナリ化の選択は、異種要素のブロックに適用された汎用コンプレッサに基づく既存フォーマットよりも良好な圧縮率を提供する。

以下のセクションにおいてこれらの変数は次のように定義される。
・ｓｙｍＶａｌ：バイナリ化されるゲノム記述子の非バイナリ値
・ｃＬｅｎｇｔｈ：バイナリ化される値のビット数を表す
・ｃＭａｘ：バイナリ化される最大値である。大きな値は切り捨てられる。

以下のバイナリ化テーブルは、これらの変数の固定値について計算されるが、本発明の原理はこれらの値に限定されず、従って、本発明の原理の趣旨を維持しつつ、他の値も本発明の原理に従って使用することができることを理解されたい。

本開示で使用されるそれぞれのバイナリ化のアルゴリズムは、表３に示す識別子によって識別される。

表３．バイナリ化の種類とそれぞれの識別子

［バイナリコード化（ＢＩ）］

これは、各数値がバイナリ表現でコード化される標準のバイナリ表現である。表１５に示す変数ｃＬｅｎｇｔｈ−ｂｉｎａｒｉｚａｔｉｏｎ＿ｉｄ＝０の場合を表１５に示す−は、値を表すときのビット数を示す。
［切捨単項（ＴＵ）バイナリ化］

ＴＵバイナリ文字列は、ｓｙｍＶａｌの後に１つのゼロが続くものを連結したものである。仮に、ｓｙｍＶａｌ＝ｃＭａｘの場合、末尾の０ビットは破棄される。表４は、ｃＭａｘ＝３と共に切捨単項バイナリ化のバイナリ文字列を示す。

表４．ｃＭａｘ＝３のときの切捨単項バイナリ化のバイナリ文字列

このバイナリ化プロセスと算術的なデコード化の構文を以下に説明する。

ｂｉｎＶａｌｕｅはバイナリ化された値で、０又は１のいずれかである。
［指数ゴロム（ＥＧ）とバイナリ化］

この技術を使用してバイナリ化されたゲノム記述子のための構文解析プロセスは、ビットストリーム内の現在の位置から始まり、最初の非ゼロビットまでのビットを読み取り、０に等しい先行ビットの数をカウントすることから始まる。

このプロセスは次のように指定される：

変数ｓｙｍＶａｌは次のように割り当てられる。

ここで、関数を呼び出すｒｅａｄｂｉｔｓは、入力として渡されたパラメータに等しいビット数を記憶媒体から読み出す。ｒｅａｄ＿ｂｉｔ（ｌｅａｄｉｎｇＺｅｒｏＢｉｔｓ）から返された値は、最上位ビットが最初に書き込まれる符号なし整数のバイナリ表現として解釈される。

表５は、ビット文字列を「ｐｒｅｆｉｘ」ビットと「ｓｕｆｆｉｘ」ビットに分けることによって、Ｅｘｐ−Ｇｏｌｏｍｂコードの構造を示す。「ｐｒｅｆｉｘ」ビットは、ｌｅａｄｉｎｇＺｅｒｏＢｉｔｓの計算のために上記のように解析されるビットであり、表５のビット文字列において０又は１のいずれかとして示される。「ｓｕｆｆｉｘ」ビットは、ｓｙｍＶａｌの計算において解析されるビットであり、表５においてｘ_ｉとして示され、ｉは０からｌｅａｄｉｎｇＺｅｒｏＢｉｔｓ−１の範囲内にある。各ｘ_ｉは、０又は１に等しくなる。

表５．０〜６２のｓｙｍVａｌの値のバイナリ表現

表６は、ビット文字列のｓｙｍＶａｌ値への明示的な割り当てを示す。

表６．明示的形式のＥｘｐ−Ｇｏｌｏｍｂビット文字列とｓｙｍＶａｌ

ゲノム記述子に応じて、バイナリ化された構文要素の値は、次のいずれかの方法を使用してデコード化される。
１．デコードされたゲノム記述子の値は、バイナリ化された記述子に対応するｓｙｍＶａｌの値に等しい
２．デコードされたゲノム記述子の値は、例えばhttps://en.wikipedia.org/wiki/Exponential-Golomb_codingで定義されたように、ｓｙｍＶａｌを入力として符号付き０次指数ゴロムデコード化を適用することによって計算される。
［符号付指数ゴロム（ＳＥＧ）のバイナリ化］

このバイナリ化方法によれば、ゲノム記述子は、構文要素をその絶対値で昇順に並べ、与えられた絶対値に対する正の値をより低いｓｙｍＶａｌで表すことによって、ｓｙｍＶａｌに関連付けられる。表７に割当て規則を示す。

表７．符号付きＥｘｐ−Ｇｏｌｏｍｂコード化されたゲノム記述子のｓｙｍＶａｌへの構文要素の割り当て

［切捨指数ゴロム（ＴＥＧ）のバイナリ化］

このバイナリ化プロセスでは、バイナリ化の計算方法を定義する追加の入力パラメータｔｅｇＰａｒａｍを使用する必要がある。このプロセスによる出力は、構文要素のＴＥＧのバイナリ化である。

ＴＥＧバイナリ文字列は、１（ｓｙｍＶａｌ＝０の場合）又は２（ｓｙｍＶａｌ＞０の場合）のバイナリ化の連結である。
１．Ｍｉｎ（ｓｙｍＶａｌ，ｔｅｇＰａｒａｍ）に対するｃＭａｘ＝ｔｅｇＰａｒａｍの切捨単項バイナリ化
２．ｓｙｍＶａｌ！＝０の場合、値Ａｂｓ（ｓｙｍＶａｌ）−ｔｅｇＰａｒａｍの指数ゴロムバイナリ化

表８は、ｔｅｇＰａｒａｍ＝２を使用したこの切捨指数ゴロムバイナリ化のバイナリ文字列を示す。

表８．ｔｅｇＰａｒａｍ＝２の切捨指数ゴロムバイナリ化のバイナリ文字列

［符号付切捨指数ゴロム（ＳＴＥＧ）のバイナリ化］

このバイナリ化プロセスでは、追加の入力パラメータｓｔｅｇＰａｒａｍを使用する必要がある。

ＳＴＥＧバイナリ文字列は、１（ｓｙｍＶａｌ＝０の場合）又は２（他の場合）のバイナリ化の連結である。

表９．ｓｔｅｇＰａｒａｍ＝２での符号付切捨指数ゴロムバイナリ化のバイナリ文字列

［分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）（ＳＵＴＵ）バイナリ化］

このバイナリ化プロセスでは、２つの入力パラメータｓｐｌｉｔＵｎｉｔＳｉｚｅ及びｏｕｔｐｕｔＳｙｍＳｉｚｅを使用する必要がある。ｏｕｔｐｕｔＳｙｍＳｉｚｅは常にｓｐｌｉｔＵｎｉｔＳｉｚｅの倍数でなければならない。ＳＵＴＵバイナリ文字列は、繰り返されるＴＵバイナリ化の連結であり、各ＴＵバイナリ化は、ｓｙｍＶａｌのｓｐｌｉｔＵｎｉｔＳｉｚｅのビット長の部分に適用される。言い換えると、ｓｙｍＶａｌは、ＴＵバイナリ化で取得したｘバイナリ文字列で表され、ここで、ｘ＝ｏｕｔｐｕｔＳｙｍＳｉｚｅ／ｓｐｌｉｔＵｎｉｔＳｉｚｅである。各バイナリ文字列のｃＭａｘパラメータは、ｃＭａｘ＝（１＜＜ｓｐｌｉｔＵｎｉｔＳｉｚｅ）−１として定義される。

表１０は、ｓｐｌｉｔＵｎｉｔＳｉｚｅ＝２及びｏｕｔｐｕｔＳｙｍＳｉｚｅ＝８での、分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）バイナリ化のバイナリ文字列を示す。

表１０．ｓｐｌｉｔＵｎｉｔＳｉｚｅ＝２、ｏｕｔｐｕｔＳｙｍＳｉｚｅ＝８での分割ユニット単位切捨単項バイナリ化のバイナリ文字列

このバイナリ化プロセスのビットストリームの構文については、以下で説明する。

表１１．ＴＵバイナリ化のＣＡＢＡＣデコード化プロセス

［符号付分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）（ＳＳＵＴＵ）バイナリ化］

このバイナリ化プロセスでは、２つの入力パラメータｓｐｌｉｔＵｎｉｔＳｉｚｅ及びｏｕｔｐｕｔＳｙｍＳｉｚｅを使用する必要がある。ＳＳＵＴＵバイナリ文字列は、ｓｙｍＶａｌのコードを別のフラグとしてコード化したＳＵＴＵバイナリ化プロセスの拡張によって取得される。
・値Ａｂｓ（ｓｙｍＶａｌ）に対するＳＵＴＵのバイナリ化。
・ｓｙｍＶａｌ！＝０の場合、１（ｓｙｍＶａｌ＜０の場合）又は０（ｓｙｍＶａｌ＞０の場合）に等しい１ビットのフラグ。

表１２は、ｓｐｌｉｔＵｎｉｔＳｉｚｅ＝２、ｏｕｔｐｕｔＳｙｍＳｉｚｅ＝８を使用した符号付分割ユニットワイズ切捨単項（Signed Split Unit-wise Truncated Unary）バイナリ化の文字列を示す。

表１２．ｓｐｌｉｔＵｎｉｔＳｉｚｅ＝２、ｏｕｔｐｕｔＳｙｍＳｉｚｅ＝８での符号付分割ユニット単位切捨単項バイナリ文字列

このバイナリ化プロセスの構文規則（syntax）は次のとおりである。

ｓｉｇｎ＿ｆｌａｇは、ｃｔｘＩｄｘで識別されるコンテキスト変数のビットのｃａｂａｃデコード化を表す。
ｄｅｃｏｄｅ＿ｃａｂａｃ＿ＳＵＴＵ（）は、ＳＵＴＵのバイナリ化のためのｃａｂａｃデコード化プロセスを表す。
［二重切捨単項（ＤＴＵ）によるバイナリ化］

このバイナリ化プロセスは、２つの入力パラメータｓｐｌｉｔＵｎｉｔＳｉｚｅとｏｕｔｐｕｔＳｙｍＳｉｚｅを使用する必要がある。

ＤＴＵバイナリ文字列は、２つのバイナリ化、すなわちＴＵバイナリ化及びＳＵＴＵバイナリ化の連結である。ＴＵバイナリ化にはパラメータｃＭａｘが使用され、ＳＵＴＵバイナリ化にはパラメータｓｐｌｉｔＵｎｉｔＳｉｚｅとｏｕｔｐｕｔＳｙｍＳｉｚｅが使用される（ここで、ｃＭａｘは内部的に派生する）。
・Ｍｉｎ（Ａｂｓ（ｓｙｍＶａｌ）,ｃＭａｘ）の値に対するＴＵバイナリ化の第１のインスタンス
・Ａｂｓ（ｓｙｍＶａｌ）＞ｃＭａｘの場合、Ａｂｓ（ｓｙｍＶａｌ）−ｃＭａｘのＳＵＴＵバイナリ化の第２のインスタンス。

表１３はｃＭａｘ＝１、ｓｐｌｉｔＵｎｉｔＳｉｚｅ＝２、ｏｕｔｐｕｔＳｙｍＳｉｚｅ＝８の二重切捨単項バイナリ化のバイナリ文字列を示す。

表１３．ｃＭａｘ＝１、ｓｐｌｉｔＵｎｉｔＳｉｚｅ＝２、ｏｕｔｐｕｔＳｙｍＳｉｚｅ＝８の二重切捨単項バイナリ値化のバイナリ文字列。

バイナリ化プロセスを以下に説明する。

ｄｅｃｏｄｅ＿ｃａｂａｃ＿ＴＵ（）は、ＴＵのバイナリ化のためのｃａｂａｃデコード化プロセスを表す。
ｄｅｃｏｄｅ＿ｃａｂａｃ＿ＳＵＴＵ（）は、ＳＵＴＵバイナリ化のｃａｂａｃデコード化プロセスを表す。
［符号付二重切捨単項（ＳＤＴＵ）バイナリ化］

このバイナリ化プロセスは、２つの追加入力パラメータｓｐｌｉｔＵｎｉｔＳｉｚｅとｏｕｔｐｕｔＳｙｍＳｉｚｅを使用する必要がある。ＳＤＴＵバイナリ文字列は、フラグとしてコード化されたｓｙｍＶａｌのコードをもつＤＴＵバイナリ化プロセスの拡張により得られる。
・Ａｂｓ（ｓｙｍＶａｌ）値のＤＴＵバイナリ化
・ｓｙｍＶａｌ！＝０の場合、１（ｓｙｍＶａｌ＜０の場合）又は０（ｓｙｍＶａｌ＞０の場合）に等しい１ビットのフラグ。

表１４は、ｃＭａｘ＝１、ｓｐｌｉｔＵｎｉｔＳｉｚｅ＝２、ｏｕｔｐｕｔＳｙｍＳｉｚｅ＝８を使用した、二重切捨単項バイナリ化のバイナリ文字列を示す。

表１４．ｃＭａｘ＝１、ｓｐｌｉｔＵｎｉｔＳｉｚｅ＝２、ｏｕｔｐｕｔＳｙｍＳｉｚｅ＝８の場合の符号付二重切捨単項バイナリ化のバイナリ文字列

このバイナリ化プロセスの構文を以下に説明する。

ｓｉｇｎ＿ｆｌａｇは、ｃｔｘＩｄｘで識別されるコンテキスト変数のビットのｃａｂａｃデコード化を表す。
ｄｅｃｏｄｅ＿ｃａｂａｃ＿ＤＴＵ（）は、ＤＴＵのバイナリ化によるｃａｂａｃデコード化を表す。
［バイナリ化パラメータ］

前のセクションで紹介したそれぞれのバイナリ化アルゴリズムは、コード化及びデコード化の終了時に構成パラメータを必要とする。一実施形態では、前記構成パラメータは、表１５に記載のデータ構造にカプセル化される。それぞれのバイナリ化アルゴリズムは、表３に列挙される識別子によって識別される。

表１５．バイナリ化パラメータの構造

表１５は、次のセマンティクス（semantics）が適用される：
ｃＭａｘは、バイナリ化される最大値を表す。大きい値は切り捨てられる。
ｃＬｅｎｇｔｈは、値がバイナリ化されるビット数を表す。
ｔｅｇＰａｒａｍは、本明細書でＴＥＧのバイナリ化用に定義されているｔｅｇＰａｒａｍ変数を表す。
ｓｔｅｇＰａｒａｍは、本明細書でＳＴＥＧのバイナリ化用に定義されているｓｔｅｇＰａｒａｍ変数を表す。
ｓｐｌｉｔＵｎｉｔＳｉｚｅは、本明細書でＳＵＴＵ、ＳＵＴＵ、及びＤＴＵのバイナリ化用に定義されているｓｐｌｉｔＵｎｉｔＳｉｚｅ変数を表す。
ｏｕｔｐｕｔＳｙｍＳｉｚｅは、本明細書でＳＵＴＵ、ＳＳＵＴＵ、ＤＴＵ、及びＳＤＴＵバイナリ化用に定義されているｏｕｔｐｕｔＳｙｍＳｉｚｅ変数を表す。
［本発明の技術的利点の証拠］

表１６に示されるように、表示されたＣＡＢＡＣバイナリ化をそれぞれのゲノム記述子に適用することによって、表１７に示される圧縮性能を得ることができる。本開示で説明される方法の圧縮性能の改善は、ＢＡＭ及びＣＲＡＭアプローチの対応するファイルサイズと、ＤｅｅＺ（ヌマヤギッチ，Ｉ．（Numanagic, I.）、他、「高スループットシーケンシングデータ圧縮ツールの比較（Comparison of high-throughput sequencing data compression tools）」、ネイチャーメソッド（Nature Methods）（ISSN:1548-7091）、ｖｏｌ．１３、ｐ．１００５−１００８、ロンドン：ネイチャーパブリッシンググループ、２０１６）として知られる文献の最良のコンプレッサの１つとの比較により理解することができる。ＤｅｅＺ、ＢＡＭ及びＣＲＡＭの圧縮性能は、圧縮ゲノムシーケンスデータのサイズにアラインメントに使用される圧縮リファレンスゲノムのサイズを追加することによって計算されることを理解する必要がある。本開示の原理によれば、リファレンスゲノムは圧縮ファイルに埋め込まれている。今日では、圧縮リファレンスゲノムは、ＧＺＩＰ、ＬＺＭＡ、Ｂｚｉｐ２等の汎用コンプレッサを用いて圧縮されたＦＡＳＴＡ（ＡＳＣＩＩテキスト）ファイルであると述べられている。提案された比較例では、リファレンスゲノムｈｓ３７ｄ４．ｆａを最大圧縮（−９）のオプション付きのｘｚＬｉｎｕｘ（登録商標）コマンドを使って圧縮した。

表１６．各ゲノム記述子に関連付けられたバイナリ化

［記述子ｒｆｔｐ及びｒｆｔｔに適用されるバイナリ化］

ｒｆｔｐ及びｒｆｔｔのバイナリ化の例が示され、図１０に表示されている。コンティグとアラインメントに用いたリファレンスゲノムとの間の５つのミスマッチに関連する記述子を以下に示す。

各ヌクレオチドの記号は整数コードに関連付けられる。

変換後の値は次のようになる。

ｒｆｔｐのバイナリ化された値は次のように計算される。
１．ターミネータの値は、０又は１としてバイナリ化できる。この例では、０を選択する。
２．ターミネータ＝０の場合、ｓｐｌｉｔＵｎｉｔＳｉｚｅ＝４、ｏｕｔｐｕｔＳｙｍｂｏｌｅＳｉｚｅ＝１２のバイナリ化Ｎｏ．６が使用され、次のバイナリ文字列がｒｆｔｐの値に関連付けられる。
ａ．５＝１１１１０
ｂ．２＝１１０
ｃ．５＝１１１１０
ｄ．１＝１０
ｅ．２＝１１０

ｒｆｔｔのバイナリ化された値は、次のように計算される。
１．リファレンスゲノム中に存在するヌクレオチドを知っていれば、コード化される可能性のある記号から対応する記号を取り除く。すなわち、この例の第１のミスマッチでは、リファレンス内の対応する記号が「Ｇ」である場合、コード化される可能性のある記号のスペースは０、１、３、４である。
２．コード化されるデータ上のミスマッチの類型の記号の頻度が測定され、０から３までインデックス付けされる。インデックス０は最も頻度の高いミスマッチに影響され、インデックス３はより頻度の低いミスマッチに影響される。
この例では、インデックス作成は次のようになる：｛０＝＞３、１＝＞０、２＝＞４、３＝＞１｝
３．与えられた例では、５つのミスマッチは以下のようにＴＵバイナリ化を使用してバイナリ化されることができる：

上記のバイナリ化のアプローチでは、次の圧縮結果が得られる。

表１７．最先端のソリューションに関する圧縮パフォーマンス（バイト単位のサイズ）

＊本開示の原則に従って圧縮表現で既に利用可能であるため、追加情報は必要ではない。
［コンティグのパラメータ］

一実施形態において、各アクセスユニットをコード化及びデコード化するのに必要なパラメータは、表１８に定義されるような名前のデータ構造にカプセル化される。

表１８．ゲノム記述子のコード化パラメータ

［コード化装置］

図３は、本発明の原理に基づくコード化装置を示す。コード化装置は、入力として、例えばゲノムシーケンシング装置によって生成されたリファレンスゲノム３０２及び非アライメントゲノムシーケンス３００を受信する。イルミナＨｉＳｅｑ２５００、Ｔｈｅｒｍｏ−ＦｉｓｃｈｅｒＩｏｎＴｏｒｒｅｎｔｄｅｖｉｃｅ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＭｉｎＩＯＮ等のゲノムシーケンシング装置は、当技術分野で知られている。アライメントされていないシーケンスデータ３００は、シーケンスをリファレンスゲノム３０２にマッピングするリードアライメントユニット３０１に供給される。アライメントされたゲノムシーケンス３０３は、アセンブリ装置３０４によって使用され、１つ又は複数のコンティグ３０５を構築する。コンティグの構築は、コンティグの長さや各コンティグを構築するために使用されるシーケンスリードの数等のパラメータ３１３をコード化することにより構成することができる。構築されたコンティグ３０５を使用して、アライメントされたゲノムシーケンス３０３に対して、リファレンスベースの圧縮を実行する。リファレンスベースのコンプレッサ３０６は、マッピングされたゲノムシーケンスとマッピングされていないゲノムシーケンスの両方を表す記述子という名前の構文要素を生成する。アライメントに使用されるリファレンスゲノム３０２及び構築されたコンティグ３０５は、リファレンスゲノム３０２とコンティグ３０５との間のミスマッチの位置及び類型を表す記述子を生成するリファレンスゲノム微分コード化装置３０７に供給される。リファレンスベースのコンプレッサ３０６及びリファレンスゲノム微分コード化装置３０７によって生成されたゲノム記述子３０８は、最初にいくつかのバイナリ化ユニット３１２によってバイナリ化され、次にいくつかのエントロピーコーダ３０９によってエントロピーコード化される。エントロピーコード化ゲノム記述子は、多重化装置３１０に供給されて、圧縮ビットストリーム３１１を構成する１つ以上のアクセスユニットを構築する。多重化ビットストリームは、コード化パラメータエンコーダ３１４によって構築されたコード化パラメータ構造３１３を含む。各アクセスユニットは、本開示で定義されるデータの１つのクラスに属するアライメント情報及びシーケンスリードを表すエントロピーコード化された記述子を含む。
［デコード化装置］

図４は、本開示の原理によるデコード化装置を示す。逆多重化ユニット４０１は、ネットワーク又は記憶素子から多重化ビットストリーム４００を受信し、前記ビットストリームを構成するアクセスユニットのエントロピーコード化されたペイロードを抽出する。エントロピーデコーダ４０２は、抽出されたペイロードを受け取り、異なる種類のゲノム記述子をそれらのバイナリ表現にデコードする。前記バイナリ表現は、ゲノム記述子４０３、４０９を生成するいくつかのバイナリデコーダ４１０に供給される。コード化パラメータデコーダ４１１は、ゲノム情報と多重化されたコード化パラメータを受信し、それらをシーケンスリードコード化のためのコンティグの構築を担当するユニット４０４に供給する。ゲノムシーケンスリード４０９を表すゲノム記述子は、デコード化プロセスの一部として１つ以上のコンティグ４０５を構築し、アライメントされたゲノムシーケンス４０７を再構築するシーケンスリード再構築ユニット４０４に供給される。コンティグ４０５と、コンティグとアラインメントに使用されるリファレンスゲノムとの差を表すエントロピーデコード化記述子４０３は、アラインメントに使用されるリファレンスゲノム４０８を再構成するリファレンスゲノム再構成ユニット４０６に送られる。

本明細書で開示される本発明の技術は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせで実装され得る。ソフトウェアで実装される場合、これらはコンピュータ媒体に保存され、ハードウェア処理ユニットによって実行される。ハードウェア処理ユニットは、１つ以上のプロセッサ、デジタル信号プロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路又は他の個別の論理回路を備えてもよい。

本開示の技術は、携帯電話、デスクトップコンピュータ、サーバ、タブレット、及び類似のデバイスを含む、さまざまなデバイス又は装置に実装され得る。

Claims

ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータの、前記ゲノムシーケンスデータをコード化する方法であって、
・前記リードを１つ以上のリファレンスシーケンスにアライメントさせ、アライメントされたリードを作成し、
・前記アライメントされたリードをアセンブリし、それによってコンティグを生成し、
・前記リファレンスシーケンスと前記コンティグとを比較することにより、ミスマッチの位置及びミスマッチの類型に関する情報を取得し、
・ミスマッチの位置及びミスマッチの類型に関連する前記情報をエントロピーコード化する、
ことを含む方法。
前記アライメントされたリードをアセンブリすることは、前記リファレンスシーケンスの各位置について、その位置で前記アライメントされたリードで最も高い頻度で存在する前記ヌクレオチドを選択するステップを含む、
請求項１に記載の方法。
前記ミスマッチの位置及び前記ミスマッチの類型に関する前記情報は、それぞれ第１の記述子（２０３）及び第２の記述子（２０４）を用いて示される、
請求項２に記載の方法。
前記第１の記述子及び第２の記述子は、同じアクセスユニットにカプセル化され、デコード化装置において前記アライメントに使用される前記リファレンスシーケンスの選択的な再構成を可能にする、
請求項３に記載の方法。
前記コンティグの長さは、エンコーダへの入力パラメータとして又は前記エンコーダによって動的に適用されるものとして定義される、
請求項４に記載の方法。
前記第１の記述子は、分割ユニットワイズ切捨単項バイナリ化を用いてバイナリ化され、前記分割ユニットワイズ切捨単項は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化される値のＮビット長の部分に適用され、前記Ｎは予め選択されたパラメータである、
請求項５に記載の方法。
前記第２の記述子は、切捨単項バイナリ化を用いてバイナリ化され、前記第２の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の０ビットは破棄される、
請求項５に記載の方法。
前記方法は、特定のリファレンスゲノムの使用をシグナリングする情報をコード化しない、
請求項５に記載の方法。
前記コンティグの長さは構文ヘッダに含まれている、
請求項６に記載の方法。
ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータをコード化するための装置であって、
・前記リードを１つ以上のリファレンスシーケンスにアライメントさせ、それによってアラメントされたリードを作成するための手段と、
・前記アライメントされたリードをアセンブリして、コンティグを作成するための手段と、
・前記リファレンスシーケンスと前記コンティグを比較することにより、ミスマッチの位置及びミスマッチの類型に関する情報を取得するための手段と、
・ミスマッチの位置及びミスマッチの類型に関連する前記情報をエントロピーコード化する手段と、
を含む装置。
前記アライメントされたリードをアセンブリするための前記手段は、前記リファレンスシーケンスの各位置について、その位置でアライメントされたリードで最も高い頻度で存在するヌクレオチドを選択する手段をさらに含む、
請求項１０に記載の装置。
ミスマッチの位置及びミスマッチの類型に関連する前記情報を、それぞれ第１の記述子（２０３）及び第２の記述子（２０４）によって示す手段をさらに含む、
請求項１１に記載の装置。
前記第１の記述子及び第２の記述子を同じアクセスユニットにカプセル化して、デコード化装置において前記アライメントに使用される前記リファレンスシーケンスの選択的な再構成を可能にする手段をさらに含む、
請求項１２に記載の装置。
入力パラメータとして前記コンティグの長さを受信する手段と、前記コンティグの長さを動的に適応させる手段とをさらに含む、
請求項１３に記載の装置。
分割ユニットワイズ切捨単項バイナリ化を適用することにより前記第１の記述子をバイナリ化するバイナリ化手段をさらに備え、前記分割ユニットワイズ切捨単項は、繰り返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化されるべき値のＮビット長の部分に適用され、Ｎは予め選択されたパラメータである、
請求項１４に記載の装置。
切捨単項バイナリ化を使用することにより、前記第２の記述子をバイナリ化するバイナリ化手段をさらに備え、前記第２の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の０ビットが破棄される、
請求項１４に記載の装置。
構文ヘッダ内の前記コンティグの長さをコード化するための手段をさらに備える、
請求項１６に記載の装置。
コード化されたゲノムシーケンスデータをデコード化する方法であって、
前記コード化された入力ファイルを解析し、コンティグシーケンスを取得し、
コンティグ内のミスマッチの位置とミスマッチの類型に関連する情報をエントロピーデコード化し、
ミスマッチの位置および類型に関する前記情報を用いて前記コンティグを修正し、それにより圧縮前のアラインメントに使用されるリファレンスゲノムを表すヌクレオチドのゲノムシーケンスを取得する、
ことを含む方法。
ミスマッチの位置及び類型に関する前記情報を用いてコンティグを修正し、それによりヌクレオチドの前記ゲノムシーケンスを取得することは、第１の記述子（２０３）及び第２の記述子（２０４）のエントロピーデコード化をすることをさらに含む、
請求項１８に記載の方法。
ヌクレオチドの前記ゲノムシーケンスの選択的な再構築を得るために、同じアクセスユニットから前記第１の記述子及び第２の記述子を脱カプセル化することをさらに含む、
請求項１９に記載の方法。
入力ファイルに含まれる構文ヘッダから、前記コンティグの長さをデコード化することをさらに含む、
請求項２０に記載の方法。
前記第１の記述子の逆バイナリ化をさらに含み、
前記第１の記述子は、分割ユニットワイズ切捨単項バイナリ化を使用してバイナリ化され、
前記分割ユニットワイズ切捨単項は、繰返し切捨単項バイナリ化の連結であり、
各切捨単項バイナリ化は、バイナリ化される値のＮビット長の部分に適用され、Ｎは予め選択されたパラメータである、
請求項１９に記載の方法。
前記第２の記述子の逆バイナリ化をさらに含み、前記第２の記述子は切捨単項バイナリ化を用いてバイナリ化され、前記第２の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の０ビットは破棄される、
請求項１９に記載の方法。
前記入力ファイルは、特定のリファレンスゲノムの使用をシグナリングする情報を含まない、
請求項１９に記載の方法。
コード化されたゲノムシーケンスデータをデコード化するための装置であって、
コード化された入力ファイルを解析し、コンティグシーケンスを取得する手段と、
コンティグ内のミスマッチの位置とミスマッチの類型に関する情報をエントロピーデコード化する手段と、
ミスマッチの位置及び類型に関する前記情報を用いて前記コンティグを修正し、それにより圧縮前のアラインメントに使用されるリファレンスゲノムを表すヌクレオチドのゲノムシーケンスを取得する手段と、
を含む装置。
コンティグ内のミスマッチの位置及び類型に関する前記情報を用いて前記コンティグを修正する手段は、ヌクレオチドのゲノムシーケンスを取得し、第１の記述子（２０３）及び第２の記述子（２０４）のエントロピーデコード化手段、
をさらに含む、請求項２５に記載の装置。
同じアクセスユニットから前記第１の記述子及び第２の記述子を脱カプセル化することにより、ヌクレオチドのゲノムシーケンスの選択的な再構築のための手段、
をさらに含む、請求項２６に記載の装置。
入力ファイルに含まれる構文ヘッダから、前記コンティグの長さに関する情報をデコード化する手段、
をさらに含む、請求項２７に記載の装置。
前記第１の記述子の逆バイナリ化のための手段をさらに備え、前記第１の記述子は、分割ユニットワイズ切捨単項バイナリ化を用いてバイナリ化され、前記分割ユニットワイズ切捨単項は、繰返し切捨単項バイナリ化の連結であり、各切捨単項バイナリ化は、バイナリ化される値のＮビット長の部分に適用され、前記Ｎは予め選択されたパラメータである、
請求項２６に記載の装置。
前記第２の記述子の逆バイナリ化のための手段をさらに含み、前記第２の記述子は切捨単項バイナリ化を用いてバイナリ化され、前記第２の記述子の値の後にゼロが続き、前記値がバイナリ化されることが可能な最大値に等しい場合、後続の０ビットは破棄される、
請求項２６に記載の装置。