JP2022552779A

JP2022552779A - ゲノム配列データの圧縮のための方法

Info

Publication number: JP2022552779A
Application number: JP2022515895A
Authority: JP
Inventors: ギヨーム・アレクサンドル・パスカル・リツク
Original assignee: イルミナインコーポレイテッド
Priority date: 2019-09-11
Filing date: 2020-09-11
Publication date: 2022-12-20
Also published as: MX2022002930A; AU2020346961A1; KR20220061991A; ES2964351T3; DK4029023T3; AU2020347285A1; CN114402314A; EP4318479A2; US20220415441A1; IL291012A; CA3148960A1; WO2021051019A1; FI4029023T3; CN114341988A; EP4029022A1; BR112022003488A2; IL291011A; JP2022549580A; WO2021051021A1; CA3148976A1

Abstract

本発明は、配列決定マシンによって生成されたゲノム配列データの圧縮のための参照ベースの方法に関する。参照配列に以前にアラインメントされているヌクレオチド又は塩基の配列は、参照配列で完全にマッピングされているか、不完全にマッピングされているか、又はマッピングされていないと決定され、次いで、当該決定によってコードされる。決定する工程は、不完全にマッピングされた各配列について、配列決定マシンによって生成されたゲノム配列データの圧縮のための当該比較方法の結果に応じて、当該参照配列と参照配列との間のミスマッチ数を参照閾値と比較することと、別個の符号化プロセスにより、不完全にマッピングされた配列を符号化することとを含む。

Description

本分野は、概ね、配列決定マシンによって生成されたゲノム配列決定データの表示方法に関し、より詳細には、このようなゲノム配列決定データの圧縮のためのコンピュータ実装方法に関する。本開示は、参照ベースの圧縮方法であって、情報の喪失を引き起こさない一方で高速の圧縮及び解凍を可能にし、高い圧縮比を有する、圧縮方法、を提供する。

次世代配列決定マシンは今日では、安価に膨大な量の配列決定データを生成する。最近のシステムは、２０個の全ヒトゲノムの配列決定に十分な、６０億個を超える１５０ヌクレオチド長の配列を３６時間の単回実行で生成する。このことは、人々のゲノム特異性に基づいて治療を採用することを目的とした、遺伝性疾患の診断のための、かつ個別化医療の開発のための多くの新たな展望を開く。

しかしながら、このことはまた、新しい課題、特に膨大な量のデータの記憶に関するコストも伴う。生の（アラインメントされていない）配列データの最も使用されるファイル形式は、配列データ（リードとも呼ばれるＡ、Ｃ、Ｔ、Ｇヌクレオチドからなる鎖）、クオリティ値（各ヌクレオチドについて配列決定プラットフォームが配列決定エラーを作った確率）及び配列名を保持する、ＦＡＳＴＱ形式である。これは、通常、汎用テキスト圧縮スキームＬＺ（Ｌｅｍｐｅｌ－Ｚｉｖスキーム、ｇｚｉｐソフトウェア内に実装）で圧縮された単純なＡＳＣＩＩテキストファイルである。しかしながら、このような圧縮方法の使用は、いくつかの問題、
－データの冗長性が完全には使用されていないことによる、低い圧縮比
－遅い圧縮及び解凍
を伴う。

参照ベース又は非参照ベースの方法で分割された、ＦＡＳＴＱ符号化に特化した圧縮方法もまた存在する。しかしながら、ａ）参照ベースの方法は、良好な圧縮比を有するが遅く、ｂ）非参照ベースの方法は、より高速だが、圧縮比がより低いので、いずれも完全に条件を満たすものではない。このような非参照ベースの方法の例は、ソフトウェアＳＰＲＩＮＧによって提供されており、このソフトウェアは、ＦＡＳＴＱファイルのための参照非含有コンプレッサ（ワールドワイドウェブアドレス：github.com/shubhamchandak94/SPRING）である。しかしながら、ソフトウェアＳＰＲＩＮＧによって提供される圧縮方法は、低い圧縮比を有する。

参照ベースの圧縮方法のうち、配列アラインメントを使用し、良好な圧縮比でより高速であることを目的としたいくつかの方法が提案されてきた。しかしながら、このような方法は、いくつかの問題に悩まされているが、特に、主要な課題は、これらの問題が完全にはなくならないことである。このような公知の参照ベースの圧縮方法は、例えば、特許文書の国際公開第２０１８／０６８８２９（Ａ１）号に説明されている。説明された方法では、１つ以上の参照配列にアラインメントされた後、ヌクレオチドの配列は、精度の程度を一致させること（それにより、アラインメントされたリードのクラスを作成すること）によって分類され、次いで、データが分割される各層について異なるソースモデル及びエントロピーコーダを使用して、多数の層の構文要素としてコードされる。したがって、データのクラスは別々に符号化され、異なる層の構文要素で構成されており、各層は、当該層の分類かつアラインメントされたリードを一意的に表示する記述子を含む。本方法は、情報エントロピーの低減に伴う別個の情報ソースを取得することを意図しており、それによって、圧縮性能の増大と、圧縮データのうちの特定のクラスへの選択的アクセスと、を可能にする。しかしながら、このような圧縮方法は、リードアラインメント工程の終了時に取得された順序とは異なる順序で、リードを再順序付けする（すなわち、リードは、これらのクラスにより再順序付けされる）。次いで、いくつかの情報は、圧縮プロセス、特に、最初の配列順序付けにおいて失われる。それゆえに、いくつかの解析結果の再現性が影響を受ける可能性があるのは、いくつかの下流解析ソフトウェアは、リードの順序に依存する可能性があるからである。このほか、リードの初期順序とは異なる順序でデータを解凍することにより、非圧縮ファイルが初期ファイルと同一であることを確認することがはるかにより困難となる。更に、このような圧縮方法は、特に最新技術の非参照ベースの圧縮方法と比較するとき、比較的遅い。

以下の独立請求項の特徴は、ゲノム配列データの圧縮のための方法を提供することによって、既存の先行技術の解決策の問題を解決する。一態様では、配列決定マシンによって生成されたゲノム配列データの圧縮のためのコンピュータ実装方法であって、当該ゲノム配列データが、参照配列に対してアラインメントされたヌクレオチド又は塩基の配列のリードを含み、それによって、アラインメントされたリードを作成し、当該アラインメントされたリードが、初期ファイル内のリードのリストとして記憶される、方法であって、コンピュータ実装方法は、
－各アラインメントされたリードについて、当該リードが当該参照配列で完全に若しくは不完全にマッピングされているかどうか、又は当該リードが当該参照配列でマッピングされていないかどうかを決定することと、
－当該決定によってリードを符号化することであって、完全にマッピングされていると決定されたリードは、第１の符号化プロセスによって符号化され、マッピングされていないと決定されたリードは、第２の符号化プロセスによって符号化される、符号化することと、を含み、
－決定する工程は、各不完全にマッピングされたリードについて、当該リードと当該参照配列との間のミスマッチ数を閾値と比較することを含み、
－符号化する工程において、不完全にマッピングされていると決定されたリードは、第２の符号化プロセス又は第３の符号化プロセスによって符号化され、不完全にマッピングされたリードは、当該ミスマッチ数が閾値よりも大きいとき、第２の符号化プロセスによって符号化され、不完全にマッピングされたリードは、当該ミスマッチ数が閾値よりも小さいとき、第３の符号化プロセスによって符号化され、
－当該第２の符号化プロセスにおいて、リードの各ヌクレオチド又は塩基は、個別に符号化され、
－当該第１の符号化プロセス及び当該第３の符号化プロセスは、別個のセットの記述子を含み、各セットの記述子は、対応する符号化プロセスに関連付けられたリードを一意的に表示し、当該第１の符号化プロセス及び当該第３の符号化プロセスの各々は、情報ソースエントロピー低減の符号化プロセスである。

本発明は、情報の喪失を引き起こさない一方で、高速の圧縮及び解凍を可能にすること、並びに高い圧縮比を提供することによって、従来の圧縮方法の欠点を克服する。より詳細には、本発明は、最も高頻度の事例を最もコンパクトな方法で符号化することに焦点を当てており、このことが、稀有な最も低頻度の事例について、低下させた符号化モードを採用することを意味する場合であってもそうである。このことは、圧縮性能の多大なる上昇につながる。更に、本発明において使用されるゲノム情報表示形式により、本発明による方法によって実行される圧縮はより高速となる。最後になったが、本発明による方法は、リードの初期順序をそのように保持し、リードのクラスによってリードを再順序付けしない。結果として、プロセスの間に情報が喪失されず、これにより、解凍工程後のより容易な下流解析と、効率的な整合性チェックが可能となる。

本発明のこれらの特徴及び利点並びに他の特徴及び利点は、添付の図面及び後続の発明を実施するための形態からより明らかとなるであろう。加えて、閾値は、本明細書では超過されているか又は超過されていないものであるとして称され得るが、このような閾値は、それらの閾値評価を実施するために使用される数字又は値が正又は負の値を使用して説明されているかどうかに関係なく、このような閾値が満たされるか、合致するか、又はそうでなければ検出されるかどうかを決定するように、概念的に採用することができることが理解される。

本開示の１つの革新的な態様に従って、ゲノム配列データを圧縮するための方法が開示される。一態様では、本方法は、１つ以上のコンピュータによるソフトウェア命令の実行を介した１つ以上の演算の実行を含むことができ、演算は、１つ以上のコンピュータによって、リード記録を取得することと、１つ以上のコンピュータによって、リード記録が、参照配列に対して完全にマッピングされているか又は参照配列に対して不完全にマッピングされているリードに相当するかどうかを、１つ以上のコンピュータによって、リード記録が参照配列に対して不完全にマッピングされたリードに相当すると決定することに基づいて決定することと、１つ以上のコンピュータによって、不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数を満たしているかどうかを決定することと、ミスマッチ数が所定のミスマッチ閾値数を満たしていると決定することに基づいて、１つ以上のコンピュータによって、不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することと、を含むことを含む。

他の態様は、コンピュータ可読記憶デバイス上に符号化された命令によって定義されるような、本明細書に開示されるような方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。

これらの及び他のバージョンは、任意選択で、以下の特徴のうちの１つ以上を含んでもよい。例えば、いくつかの実装形態では、１つ以上のコンピュータによって、不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数を満たすかどうかを決定することは、１つ以上のコンピュータによって、不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数よりも大きいかどうかを決定することを含むことができる。

いくつかの実装形態では、各リード記録は、参照配列に関してアラインメントされたリードの絶対開始位置を示すデータと、リードの長さを示すデータと、リードが完全にマッピングされたか又は不完全にマッピングされたかを示すデータと、リード内で特定されたミスマッチ数を示すデータと、リード内の当該可能なミスマッチの各々の相対的な位置を示すデータと、を含むことができる。

いくつかの実装形態では、不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することは、各特定のミスマッチについて、１つ以上のコンピュータによって、参照配列における対応する参照ヌクレオチド又は参照塩基の代わりに、リード内に存在する代替のヌクレオチド又は塩基を表示するデータを含むように、１バイトのうちの最初の２ビットを符号化することと、参照配列におけるミスマッチの位置を表示するデータを含むように、１バイトのうちの残りの６ビットを符号化することと、を含み、当該位置は、リードの先行ミスマッチからのオフセットとして計算される。

いくつかの実装形態では、本方法は更に、１つ以上のコンピュータによって、オフセットが最大符号化可能値よりも大きいかどうかを決定することと、オフセットが最大符号化値よりも大きいと決定することに基づいて、１つ以上のコンピュータによって、特定のミスマッチと先行ミスマッチとの間に少なくとも１個の偽ミスマッチを挿入することと、を含むことができる。

いくつかの実装形態では、本方法は更に、ミスマッチ数が所定のミスマッチ閾値数を満たしていないと決定することに基づいて、１つ以上のコンピュータによって、情報エントロピー低減の符号化プロセスを用いて、参照配列に対するミスマッチの各々の位置に対応する参照配列の位置のリストを符号化することを含むことができる。

いくつかの実装形態では、本方法は更に、リード記録が参照配列に完全にマッピングされたリードに相当すると決定することに基づいて、１つ以上のコンピュータによって、情報エントロピー低減の符号化を用いて、リード記録の少なくとも一部分を符号化することを更に含むことができる。

いくつかの実装形態では、１つ以上のコンピュータは、１つ以上のハードウェアプロセッサを含むことができる。

いくつかの実装形態では、１つ以上のハードウェアプロセッサは、１つ以上のフィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）を含むことができる。

いくつかの実装形態では、ゲノム配列データを圧縮するための方法は、１つ以上のハードウェアプロセッサによって実行することができる。このような実装形態では、ハードウェアプロセッサは、１つ以上の演算を実行するように構成されたハードウェア処理回路を含むことができる。一態様では、演算は、ハードウェア処理回路によって、リード記録を取得することと、ハードウェア処理回路によって、リード記録が、参照配列に対して完全にマッピングされているか又は参照配列に対して不完全にマッピングされているリードに相当するかどうかを決定することと、ハードウェア処理回路によって、リード記録が参照配列に対して不完全にマッピングされたリードに相当すると決定することに基づいて、１つ以上のコンピュータによって、不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数を満たしているかどうかを決定することと、ミスマッチ数が所定のミスマッチ閾値数を満たしていると決定することに基づいて、ハードウェア処理回路によって、不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することと、を含むことができる。

本発明のこれらの特徴及び利点並びに他の特徴及び利点は、添付の図面及び後続の発明を実施するための形態からより明らかとなるであろう。

いくつかの実装形態では、各リード記録は、参照配列に関してアラインメントされたリードの絶対開始位置を示すデータと、リードの長さを示すデータと、リードが完全にマッピングされたか又は不完全にマッピングされたかを示すデータと、リード内で特定されたミスマッチ数を示すデータと、リード内の当該可能なミスマッチの相対的な位置を示すデータと、を含むことができる。

いくつかの実装形態では、ハードウェア処理回路によって、不完全にマッピングされたリードのミスマッチ数が所定のミスマッチ閾値数を満たすかどうかを決定することは、ハードウェア処理回路によって、不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数よりも大きいかどうかを決定することを含むことができる。

いくつかの実装形態では、不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することは、各特定のミスマッチ符号化について、ハードウェア処理回路によって、参照配列における対応する参照ヌクレオチド又は参照塩基の代わりに、リード内に存在する代替のヌクレオチド又は塩基を表示するデータを含むように、１バイトのうちの最初の２ビットを符号化することと、参照配列におけるミスマッチの位置を表示するデータを含むように、１バイトのうちの残りの６ビットを符号化することと、を含むことができ、当該位置は、リードの先行ミスマッチからのオフセットとして計算される。

いくつかの実装形態では、ハードウェアプロセッサ回路は更に、１つ以上のハードウェア処理回路によって、オフセットが最大符号化可能値よりも大きいかどうかを決定することと、オフセットが最大符号化値よりも大きいと決定することに基づいて、ハードウェア処理回路によって、特定のミスマッチと先行ミスマッチとの間に少なくとも１個の偽ミスマッチを挿入することと、を含む演算を実行するように構成されている。

いくつかの実装形態では、ハードウェアプロセッサ回路は更に、ミスマッチ数が所定のミスマッチ閾値数を満たしていないと決定することに基づいて、ハードウェア処理回路によって、情報エントロピー低減の符号化プロセスを用いて、参照配列に対するミスマッチの各々の位置に対応する参照配列の位置のリストを符号化することを含む演算を実行するように構成されている。

いくつかの実装形態では、ハードウェアプロセッサ回路は更に、リード記録が参照配列に完全にマッピングされたリードに相当すると決定することに基づいて、ハードウェア処理回路によって、情報エントロピー低減の符号化を用いて、リード記録の少なくとも一部分を符号化することを含む演算を実行するように構成されている。

いくつかの実装形態では、ハードウェア処理回路は、１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を含む。

本開示の別の革新的な態様によると、配列決定マシンによって生成されたゲノム配列データの圧縮のためのコンピュータ実装方法であって、当該ゲノム配列データは、参照配列に対してアラインメントされたヌクレオチド又は塩基の配列のリードを含み、それによって、アラインメントされたリードを作成し、当該アラインメントされたリードが、初期ファイル内のリードのリストとして記憶される、方法。一態様では、本方法は、アラインメントされた各リードについて、当該リードが、当該参照配列と完全にマッピングされているか若しくは不完全にマッピングされているか、又は当該リードが、当該参照配列でマッピングされていないかどうかを決定することと、当該決定によってリードを符号化することと、のアクションを含むことができ、完全にマッピングされていると決定されたリードは、第１の符号化プロセスによって符号化され、マッピングされていないと決定されたリードは、第２の符号化プロセスによって符号化され、決定する工程は、不完全にマッピングされた各リードについて、当該リードと当該参照配列との間のミスマッチ数を閾値と比較することを含み、符号化する工程において、不完全にマッピングされていると決定されたリードは、第２の符号化プロセス又は第３の符号化プロセスによって符号化され、当該ミスマッチ数が閾値よりも大きいとき、不完全にマッピングされたリードは、第２の符号化プロセスによって符号化され、当該ミスマッチ数が閾値よりも小さいとき、不完全にマッピングされたリードは、第３の符号化プロセスによって符号化され、当該第２の符号化プロセスでは、リードの各ヌクレオチド又は塩基は、個別に符号化され、当該第１の符号化プロセス及び当該第３の符号化プロセスは、別個のセットの記述子を含み、各セットの記述子は、対応する符号化プロセスに関連付けられたリードを一義的に表示し、当該第１の符号化プロセス及び当該第３の符号化プロセスの各々は、情報源エントロピー低減の符号化プロセスである。

これらの及び他のバージョンは、任意選択で、以下の特徴のうちの１つ以上を含んでもよい。例えば、いくつかの実装形態では、決定する工程は、リードが参照配列で不完全にマッピングされていると決定され、閾値よりも小さいミスマッチ数を有するとき、リードが当該参照配列でグローバルマッピングされているか又はローカルマッピングされているかに関する更なる決定を含むことができ、第３の符号化プロセスは、第１の符号化サブプロセス及び第２の符号化サブプロセスを含み、グローバルマッピングされていると決定されたリードは、第１の符号化サブプロセスによって符号化され、ローカルマッピングされていると決定されたリードは、第２の符号化サブプロセスによって符号化され、当該第１の符号化サブプロセス及び当該第２の符号化サブプロセスは、別個のセットの記述子を含み、各セットの記述子は、対応する符号化サブプロセスに関連付けられたリードを一義的に表示する。

いくつかの実装形態では、当該第１の符号化サブプロセスの当該記述子は、参照配列におけるアラインメント開始位置と、リード長と、記号の置換によるミスマッチのリストと、を含むことができ、当該第２の符号化サブプロセスの当該記述子は、参照配列におけるローカルアラインメント開始位置と、リード長と、記号の置換によるミスマッチのリストと、アラインメントの一部ではないリードのクリップされた部分の長さと、を含む。

いくつかの実装形態では、符号化する工程において、第２の符号化サブプロセスによって符号化されることになるリードのクリップされた部分は、連結されており、当該クリップされた部分の各ヌクレオチド又は塩基は、個別に符号化される。

いくつかの実装形態では、符号化する工程において、不完全にマッピングされたリードの各ミスマッチは、１バイトへ符号化される。

いくつかの実装形態では、符号化する工程において、不完全にマッピングされたリードの各ミスマッチは、１バイトのうちの２つの最初のビットが、参照配列内の対応する参照ヌクレオチド又は参照塩基の代わりに、リード内に存在する代替のヌクレオチド又は塩基を符号化するために使用され、１バイトのうちの６つの最後のビットが、参照配列内のミスマッチの位置を符号化するために使用されて符号化され、当該位置は、リードの先行ミスマッチからのオフセットとして計算される。

いくつかの実装形態では、符号化する工程において、付与されたミスマッチと先行ミスマッチとの間で計算されたオフセットが最大符号化可能値よりも大きな場合、少なくとも１個の偽ミスマッチは、当該ミスマッチの各々と少なくとも１個の偽ミスマッチとの間のあらゆるオフセットが当該最大符号化可能値よりも低くなるまで当該２つのミスマッチ間に挿入され、偽ミスマッチは、ミスマッチを符号化するために、又は参照配列内の対応する参照ヌクレオチド若しくは参照塩基に等しいヌクレオチド若しくは塩基を符号化するために１バイトのうちのビットが使用されるミスマッチとして定義される。

いくつかの実装形態では、リードのリストをリードのブロックへと分割する初期工程は、各ブロックが、ブロックを解読するために必要とされる情報を含有するヘッダで始まり、当該圧縮方法は、ブロックごとに実行される。

いくつかの実装形態では、リードのブロックは、同じブロックサイズを有する。

いくつかの実装形態では、圧縮ファイルを提供する最終工程は、符号化されたリードのリストを含み、当該符号化されたリードは、初期ファイル内に記憶されたリードの順序と同じ順序で圧縮ファイル内に記憶される。

いくつかの実装形態では、当該閾値は、３１に等しい。

いくつかの実装形態では、アラインメントされた各リードについて、当該リードが配列決定マシンがいかなる塩基又はヌクレオチドもコールすることができなかった場合に対応する、少なくとも１個のミスマッチを含むかどうかを決定する工程。

いくつかの実装形態では、配列決定マシンがいかなる塩基又はヌクレオチドもコールすることができなかった場合に対応する、少なくとも１個のミスマッチを含む各リードについて、このようなミスマッチ数を決定する工程、及び当該数を参照閾値と比較する工程。

いくつかの実装形態では、符号化する工程において、このようなミスマッチ数が参照閾値よりも大きい場合、第２の符号化プロセスによって符号化されることになるリードの各ヌクレオチド又は塩基は、４ビットへ個別に符号化され、このようなミスマッチ数が参照閾値よりも小さい場合、第２の符号化プロセスによって符号化されることになるリードの各ヌクレオチド又は塩基は、２ビットへ個別に符号化され、符号化する工程は、参照配列に沿った位置のリストを符号化することを更に含み、当該位置は、参照配列内のこのようなミスマッチの位置に対応する。

本発明による圧縮方法の工程を示すフロー図である。本発明による圧縮方法の工程を実施するための装置を示す図である。参照配列でグローバルマッピングされたリードの第１の例を示す図である。偽ミスマッチが挿入されなければならない場合の、参照配列でグローバルマッピングされたリードの第２の例を示す図である。

本発明において言及されるゲノム配列は、例えば、限定としてではないが、ヌクレオチド配列、デオキシリボ核酸（Deoxyribonucleic acid、ＤＮＡ）配列、リボ核酸（Ribonucleic acid、ＲＮＡ）、及びアミノ酸配列を含む。本明細書における説明は、ヌクレオチド配列の形態のゲノム情報に関してかなり詳細であるが、当業者によって理解されるように、いくつかの変形例があるものの、本発明による圧縮方法が、他のゲノム配列について実施することができることは理解されよう。

ゲノム配列決定情報は、定義されたボキャブラリからの文字列によって表されるヌクレオチド（又はより一般的には、塩基）の配列の形態で配列決定マシンによって生成される。最小のボキャブラリは、ＤＮＡ中に存在する４つの種類のヌクレオチド、すなわち、アデニン、シトシン、グアニン、及びチミンを表す５つの記号（Ａ、Ｃ、Ｇ、Ｔ、Ｎ）によって表される。ＲＮＡでは、チミンはウラシル（Ｕ）によって置き換えられている。Ｎは、配列決定マシンがいかなる塩基もコールすることができなかったことを示し、そのため、その位置の実体は決定されない。

配列決定マシンによって生成されたヌクレオチド配列は、「リード」と呼ばれる。配列リードは、数十から数千のヌクレオチド長であり得る。いくつかの技術は、配列リードを対にして生成し、対の１つのリードが１つのＤＮＡ鎖由来であり、第２のリードが他の鎖由来である。本開示の全体を通して、「参照配列」は、配列決定マシンによって生成されたヌクレオチド又は塩基配列をアラインメント／マッピングする任意の配列である。このような参照配列の一例は、実際には参照ゲノム、すなわち、遺伝子の種のセットの代表例として科学者によって組み立てられた配列であり得る。しかしながら、参照配列はまた、リードの更なる処理を考慮して、リードの圧縮性を単に改善するよう作られた合成配列からなる場合もある。配列決定マシンは、配列リードにエラーを導入し、特に、配列決定された試料中に実際に存在する核酸又は塩基を表すために（すなわち、異なる核酸を表す）誤った記号の使用を導入する可能性がある。これは通常、置換エラー又は「ミスマッチ」と呼ばれる。

本発明は、入力としてヌクレオチド又は塩基の配列のリードを受信する参照ベースの圧縮方法であり、このようなリードは、参照配列に既にアラインメントされることによってアラインメントされたリードを作成する。次いで、アラインメントされたリードは、初期ファイル内のリードのリストとして記憶される。リードをアラインメントし、いったんアラインメントされればリードを初期ファイル内に記憶する方法は、本発明にとって重要ではなく、本開示の目的ではない。次いで、各リードは、参照配列上の位置及び当該参照配列との差異のリストとして符号化される。次いで、各リードは、本発明により構成された適切な解凍ソフトウェアによって、アラインメント符号化情報及び参照配列から再構成することができる。

好ましくは、リードを圧縮ソフトウェア及び装置に入力として提供する前に、リードを処理し、リードを参照配列に整列させるアライメントソフトウェアは、例えば、挿入エラー又は欠失エラーなど、配列リードにおいて導入された特定のタイプのエラーを考慮しない。挿入エラーは、実際に存在するいかなる核酸も指すものではない１つ以上の追加の記号の１つの配列リードにおける挿入にある。欠失エラーは、配列決定された試料中に実際に存在する核酸を表す１つ以上の記号からなる１つ以上の配列リードからの欠失にある。より正確には、付与された配列リード内の挿入エラー又は欠失エラーの場合、アラインメントソフトウェアは、結果として生じる誤った核酸を、「ミスマッチ」とも呼ばれる置換エラーとみなすこととなる。アラインメントソフトウェア構成についてのこの優先的選択によって、より迅速な後続のコード化が可能となり、速度と圧縮比との間のより良好な妥協点を提供する。

アラインメントソフトウェアは、各リードに対して、対応するリード記録を圧縮ソフトウェア及び装置に提供する。各リード記録は、少なくとも以下の情報：参照配列に関するアラインメントされたリードの絶対開始位置、リードの長さ、リードのアラインメントのタイプ、リード内で特定されたミスマッチ数、及びリード内の当該可能なミスマッチの相対的な位置（必要に応じて）などを含有する。

ここで、本発明による圧縮方法を図１を参照して説明する。方法は、例えば、図２に示される装置２０によって実行される。装置は、コンピューティングデバイスを形成するために、少なくとも１つのプロセッサ２２と、プロセッサ２２に動作可能に連結された１つのメモリ２４と、を備える。メモリ２４は、コンピュータ実行可能命令を含むコンピュータプログラムコード又はソフトウェア２６を記憶してもよく、コンピュータ実行可能命令は、プロセッサ２２によって実行されると、プロセッサ２２に、本発明による圧縮方法の工程を含む動作を実行させる。

アラインメントされたリードがリードのリストとして記憶される初期ファイルは、例えば、装置２０のメモリに記憶される。図１に戻ると、方法は、好ましくは、アラインメントされたリードの初期リストをリードのブロックに分割する初期工程２を含む。典型的には、アラインメントされたリードのリストは、５０，０００個のリードのブロックに分割され、この特定の値は、他の値と同じように適用され得る本発明の範囲を限定するものとして解釈されるものではない。好ましくは、リードのブロックは、同じブロックサイズを有する。リードの各ブロックは、例えば、ブロックの内容のバイトのサイズ、及び／又はブロック若しくはその内容の識別子、及び／又はブロックに含有されるリードの数など、ブロックを復号するために必要な情報を含有するヘッダで開始する。これにより、圧縮ファイルの連結のための支持、及びストリーミング能力（リードの各ブロックが、ブロックのリードを復号するために必要なすべての情報を含有する）が可能となる。そのほか、圧縮方法は次いで、何ブロックも実行することができるので、これにより、リードのブロックにおけるマルチスレッド処理も可能となり、それによって、処理時間における並列化及び結果として生じるいくらかの利得が可能となる。与えられたブロックのすべてのリードが同じ長さを有する場合、リード長もまたヘッダ内に記憶され、そうでなければ、各リード長のリストは、圧縮方法の間に明示的に記憶される。

各リード記録は、リードのアラインメントのタイプについての情報を含有する。典型的には、２つの主要なタイプのアラインメント、すなわち、完全なアラインメント及び不完全なアラインメント、並びに「マッピングされていない」リードに対応する追加のタイプを特定することができる。「不完全なアラインメント」とは、リードがＮ以外の少なくとも１つのミスマッチを含む一方で、リードの少なくとも一部が参照配列の一部と一致することを意味する（この定義によれば、不完全にマッピングされたリードは、１つ以上の他のミスマッチもまた含有する場合、１つ以上のＮを含有し得る）。例示的な実施形態では、各リード記録は、以下のビットフラグから始まり、各ビットフラグは、２つの可能な値の間の１つの値を有する：
－参照配列に対する順向き又は逆向きを示す第１のビットフラグ、
－完全なアラインメントか又はそうでないかを示す第２のビットフラグ、
－リードが少なくとも１個のＮを含有するかどうかを示す第３のビットフラグ、
－位置情報が１６ビット又は３２ビットで符号化されているかどうかを示す第４のビットフラグ。

以下の工程４～１２は、リードのブロックに対して次々と実行され、ブロック内のリードに対して次々と実行される。

方法は、各アラインメントされたリードに対して、当該リードが参照配列で完全にマッピングされているか若しくは不完全にマッピングされているかどうか、又は当該リードが参照配列でマッピングされていないかどうかを決定する次の工程４を含む。この決定する工程４は、不完全にマッピングされた各リードについて、当該リードと参照配列との間のミスマッチ数を閾値と比較すること（４Ａ）を含むことができる。好ましい実施形態では、本発明の範囲を限定するものとして解釈されるべきではないが、当該閾値は３１に等しい。この特定値は、工程１２に関して後により良く理解されるように、十分にコンパクトにミスマッチ数を記憶するために、最良の可能な妥協点を提供するように意図的に選択されている。実際、大部分の事例では、不完全にマッピングされたリードが３１個未満のミスマッチを有することが統計的に観察されている。その選択の背後にある原理は、最もコンパクトな方法で、いくらか非常に少数の低下させた事例を有したままである最も高頻度の事例を符号化することにある。リードが、閾値よりも小さいミスマッチ数で不完全にマッピングされていると決定された場合、決定する工程４はまた、リードが、参照配列でグローバルマッピングされているか又はローカルマッピングされているかに関する更なる決定を含む。「グローバルマッピングされたリード」とは、リードの開始及び終止を含む配列全体が、参照配列で不完全にマッピングされている、不完全にマッピングされたリードである。「ローカルマッピングされたリード」とは、参照配列で不完全にマッピングされたヌクレオチド又は塩基のセグメントを含有する、不完全にマッピングされたリードである。したがって、ヌクレオチド又は塩基の当該セグメントは、最初のリードの一部に相当する。

好ましくは、方法は、各アラインメントされたリードについて、当該リードが少なくとも１個のＮを含むかどうか、すなわち、当該リードが、配列決定マシンがいかなる塩基又はヌクレオチドもコールすることができなかった事例に相当する少なくとも１個のミスマッチを含むかどうかを決定する工程６を更に含む。次いで、本方法は、少なくとも１個のＮを含む各リードについて、このようなＮミスマッチの数を決定する工程８と、Ｎミスマッチの当該数を参照閾値と比較する工程１０と、を含む。好ましい実施形態では、本発明の範囲を限定するものとして解釈されるべきではないが、当該参照閾値は３１に等しい。

決定する工程４の結果が何であれ、本方法は、少なくとも当該決定によってリードを符号化する次の工程１２を含む。より正確には、参照配列で完全にマッピングされていると決定されたリードは、Ｎを含まないにせよ、又は参照閾値よりも小さいＮの数を有するにせよ、第１の符号化プロセスによって符号化される。マッピングされていないと決定されたリード、又は完全にマッピングされていると決定されているが、参照閾値よりも大きいＮの数を有するリードは、各ヌクレオチド又は塩基が個々に符号化される第２の符号化プロセスによって、当該ヌクレオチド又は塩基がアラインメントされているか又はアラインメントされていないかにかかわらず、符号化される。不完全にマッピングされていると決定されたリードは、第２の符号化プロセス又は第３の符号化プロセスによって符号化される。より正確には、閾値よりも大きいミスマッチ数で不完全にマッピングされていると決定されたリードは、第２の符号化プロセスによって符号化される。リードが、閾値よりも小さいミスマッチ数で不完全にマッピングされていると決定された場合、当該リードがＮを含まないか又は参照閾値よりも小さいＮの数を有する場合、当該リードは、第３の符号化プロセスによって符号化される。そうでない場合、すなわち、リードが参照閾値よりも大きいＮの数を有する場合、当該リードは、第２の符号化プロセスによって符号化される。

与えられたリードが完全にマッピングされている、不完全にマッピングされている、又はマッピングされていないと決定されるにせよ、当該リードが少なくとも１個のＮを含むが、参照閾値よりも小さいＮの数を有する場合、符号化する工程１２は、参照配列に沿った位置のリストを符号化することを含み、当該位置は、参照配列内のＮの位置に対応する。次いで、位置のリストは、コンピューティングデバイスのメモリ内に記憶され、当該デバイスは、圧縮方法を実装する。リードが少なくとも１個のＮを含むが、参照閾値よりも小さいＮの数を有し、第２の符号化プロセスによって符号化されることになる場合、リードの各ヌクレオチド又は塩基は、２ビットで個別に符号化される。

リードが少なくとも１個のＮを含むが、参照閾値よりも大きいＮの数を有する場合、当該リードは、いずれの事例においても、第２の符号化プロセスによって符号化され、リードの各ヌクレオチド又は塩基は、４ビットで個別に符号化される。この場合、符号化する工程１２は、参照配列内のＮの位置のリストを符号化し、記憶することを含まない。実際、各Ｎミスマッチは、リードの他のヌクレオチド又は塩基と非常に同じ方法で、第２の符号化プロセスによって直接符号化される。

第１の符号化プロセス及び第３の符号化プロセスは、別個のセットの記述子を含む。各セットの記述子は、対応する符号化プロセスに関連付けられたリードを一意的に表示し、第１の符号化プロセス及び第３の符号化プロセスの各々は、情報エントロピー低減の符号化プロセスである。より正確には、第３の符号化プロセスは、第１の符号化サブプロセスと、第２のコード化サブプロセスと、を含む。工程４の間にグローバルマッピングされていると決定された不完全にマッピングされたリードは、第１の符号化サブプロセスによって符号化される。工程４の間にローカルマッピングされていると決定された不完全にマッピングされたリードは、第２の符号化サブプロセスによって符号化される。第１の符号化サブプロセス及び第２の符号化サブプロセスは、別個のセットの記述子を含み、各セットの記述子は、対応する符号化サブプロセスに関連付けられたリードを一意的に表示する。

各リードについて符号化し、リード配列全体の再構成をデータの解凍の間に可能にするアラインメント情報は次いで、当該リードについて使用される対応する符号化プロセス又はサブプロセスに依存する。例えば、第１の符号化プロセスに使用される記述子は、
○ １６ビット又は３２ビットで符号化された）参照配列に関して完全にマッピングされたリードの絶対開始位置と、
○ （２ビット～３４ビットの範囲の可変長コードを有する、先行リードの長さに対して差分コード化で符号化された）リードの長さと、
であり得る。

第１の符号化サブプロセスに使用される記述子は、
○ （１６ビット又は３２ビットで符号化された）参照配列に関して不完全にマッピングされたリードの絶対開始位置と、
○ （２ビット～３４ビットの範囲の可変長コードを有する、先行リードの長さに対して差分コード化で符号化された）リードの長さと、
○ リードのミスマッチのリストと、
であり得る。

第２の符号化サブプロセスに使用される記述子は、
○ （１６ビット又は３２ビットで符号化された）、ローカルアラインメント開始位置とも称する、参照配列に関してリードの不完全にマッピングされた部分の絶対開始位置と、
○ （２ビット～３４ビットの範囲の可変長コードを有する、先行リードの長さに対して差分コード化で符号化された）リードの長さと、
○ リードのミスマッチのリストと、
○ （各クリップされた部分について８ビットで符号化された）アラインメントの一部ではないリードのクリップされた部分の長さと、
であり得る。

好ましくは、第１及び第２のサブプロセスで符号化されたミスマッチのリストは、ヘッダ（１バイトで符号化されたビットフラグ）を含む。１バイトのうちの５つの最初のビットを使用して、リードに含まれるミスマッチの数を符号化する（閾値が３１に等しい好ましい実施形態において、当該数は［０～３１］の範囲内である）。その後、１つのビットを使用して、不完全にマッピングされたリードがグローバルマッピングされているか又はローカルマッピングされているかを符号化することができる。別のビットを使用して、２ビットモードが第２の符号化プロセスについて有効化されているかどうかを符号化することができる。最後のビットを使用して、４ビットモードが第２の符号化プロセスについて有効化されているかどうかを符号化することができる。好ましくは、符号化する工程１２の間に第２の符号化サブプロセスにより符号化される各リードについて、当該リードのクリップされた部分（すなわち、ローカルアラインメントの一部ではない部分）が連結され、当該クリップされた部分の各ヌクレオチド又は塩基は、個別に符号化される。好ましい実装形態では、リードのこのようなクリップされた部分の各ヌクレオチド又は塩基は、２ビットで個別に符号化される。

好ましい実装形態では、不完全にマッピングされたリードのミスマッチのリストにおいて符号化された（すなわち、第１の符号化サブプロセス又は第２の符号化サブプロセスによって符号化された）各ミスマッチは、１バイトで符号化される。より正確には、第１の符号化サブプロセス又は第２の符号化サブプロセスによって符号化されることになる不完全にマッピングされたリードの各ミスマッチは、以下のように符号化されてもよい。
○ １バイトのうちの２つの最初のビットが、参照配列内の対応する参照ヌクレオチド又は参照塩基の代わりに、リード内に存在する代替のヌクレオチド又は塩基を符号化するために使用され、
○ ６つの最後のビットが、参照配列におけるミスマッチの位置を符号化するために使用され、当該位置は、リードの先行ミスマッチからのオフセットとして計算される（絶対位置が符号化されるリードの第１のミスマッチを除く、ミスマッチの相対位置）。それゆえ、６ビットで符号化されたこのオフセットの範囲は、［０～６３］である。

図３は、第１の符号化サブプロセスによるリードのミスマッチの符号化の例を提供する。このリードは、参照配列でグローバルマッピングされた、不完全にマッピングされたリードである。このリードは、２つのミスマッチ、
○ リード内のＴヌクレオチドによる参照配列内のＡヌクレオチドの置換にある、リード内の１２番目の位置に配置された第１のミスマッチと、
○ リード内のＧヌクレオチドによる参照配列内のＣヌクレオチドの置換にある、リード内の２１番目の位置に配置された第２のミスマッチと、
を有する。

次いで、リードのミスマッチのリストは、
○ ＜１２，Ｔ＞、つまりリード内の第１のミスマッチの絶対位置に対応する値「１２」、及び
○ ＜９，Ｇ＞、つまりリード内の第２のミスマッチの相対位置に対応する値「９」、すなわち第２のミスマッチと第１のミスマッチとの間のオフセット、
として符号化される。

＜１２，Ｔ＞は、例えば、（１バイトで符号化された）値「５１」へと変換されてもよく、＜９，Ｇ＞は、（１バイトで符号化された）値「３８」へと変換されてもよい。このような１バイト符号化は、
オフセット位置×４＋ヌクレオチド値（Ａ＝０、Ｃ＝１、Ｇ＝２、Ｔ＝３）
により取得される。

好ましくは、第１の符号化サブプロセス又は第２の符号化サブプロセスによって符号化される各不完全にマッピングされたリードについて、リードの与えられたミスマッチと先行ミスマッチとの間で計算されたオフセットが、最大符号化可能値よりも大きな場合、当該２つのミスマッチの各々と少なくとも１個の「偽」ミスマッチ」との間のあらゆるオフセットが当該最大符号化可能値よりも低くなるまで、当該２つのミスマッチ間に少なくとも１個の「偽」ミスマッチが挿入される。「偽」ミスマッチは、ミスマッチを符号化するために使用されるバイトのビットが、参照配列中の対応する参照ヌクレオチド又は塩基に等しいヌクレオチド又は塩基を符号化するミスマッチとして定義される。好ましい実施形態では、本発明の範囲を限定するものとして解釈されるべきではないが、最大符号化可能値は、６３に等しく、６ビットで符号化可能な最大値に対応する。

図４は、「偽」ミスマッチを挿入する必要がある事例における、第１の符号化サブプロセスによるリードのミスマッチの符号化の例を提供する。このリードは、参照配列でグローバルマッピングされた、不完全にマッピングされたリードである。このリードは、２つのミスマッチ、
○ リード内のＴヌクレオチドによる参照配列内のＡヌクレオチドの置換にある、リード内の２２番目の位置に配置された第１のミスマッチと、
○ リード内のＧヌクレオチドによる参照配列内のＣヌクレオチドの置換にある、リード内の１３４番目の位置に配置された第２のミスマッチと、
を有する。

第２のミスマッチと第１のミスマッチとの間の位置オフセットは、１１２であり、これは、６３という最大符号化可能値よりも大きい。それゆえ、「偽」ミスマッチは、２つのミスマッチ間に挿入される必要があり、それにより、ミスマッチの各々と「偽」ミスマッチとの間のあらゆるオフセットは、当該最大符号化可能値よりも小さい。Ｔヌクレオチド（参照配列内の「実際の」Ｔヌクレオチドに相当）を用いる「偽」ミスマッチは、例えば、リード内の８５番目の位置に挿入される。「偽」ミスマッチと第１のミスマッチとの間で計算された位置オフセットは、最大符号化可能値に相当する６３である。第２のミスマッチと「偽」ミスマッチとの間で計算された位置オフセットは、４９であり、これは６３よりも小さい。

次いで、リードのミスマッチのリストは、
○ ＜２２，Ｔ＞、つまりリード内の第１のミスマッチの絶対位置に対応する値「２２」、
○ ＜６３，Ｔ＞、つまりリード内の「偽」ミスマッチの相対位置に対応する値「６３」、すなわち「偽」ミスマッチと第１のミスマッチとの間のオフセット、及び
○ ＜４９，Ｇ＞、つまりリード内の第２のミスマッチの相対位置に対応する値「４９」、すなわち第２のミスマッチと「偽」ミスマッチとの間のオフセット、
として符号化される。

＜２２，Ｔ＞は、例えば、（１バイトで符号化された）値「９１」へと変換されてもよく、＜６３，Ｔ＞は、（１バイトで符号化された）値「２５５」へと変換されてもよく、＜４９，Ｇ＞は、（１バイトで符号化された）値「１９８」へと変換されてもよい。このような１バイト符号化は、
オフセット位置×４＋ヌクレオチド値（Ａ＝０、Ｃ＝１、Ｇ＝２、Ｔ＝３）
により取得される。

本方法は、符号化されたリードのリストを含む圧縮ファイルを提供する最終工程１４を含む。符号化されたリードは、初期非圧縮ファイル内に記憶されたリードと同じ順序で圧縮ファイル内に記憶される。次いで、各リードは、本発明により構成された適切な解凍ソフトウェア及び／又は方法によって、アラインメント符号化情報及び参照配列から再構成することができる。

（例示目的のために図２に示した）コンピューティングデバイス２０の例示的なアーキテクチャに関して説明したが、本明細書で開示される本発明の技術は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせにおいて実装されてもよい。ソフトウェア内に実装されるとき、コンピュータプログラムコードは、コンピュータ媒体に記憶され、図２のデバイス２０を用いる場合のように、１つ以上のプロセッサを含むハードウェア処理ユニットによって実行されてもよい。本明細書で使用する場合、「プロセッサ」という用語は、信号プロセッサ、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路（application-specific integrated circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のタイプの処理回路、及びこのような回路要素の部分又は組み合わせを含む、１つ以上の処理デバイスを含むことを意図するものと理解すべきである。また、本明細書で使用される場合の「メモリ」という用語は、ランダムアクセスメモリ（random access memory、ＲＡＭ）、読み出し専用メモリ（read-only memory、ＲＯＭ）、又は他のタイプのメモリなどの、プロセッサに関連付けられた電子メモリを任意の組み合わせで含むことを意図している。

したがって、本明細書に説明する方法論及びプロトコルを実行するためのソフトウェア命令又はコードは、関連付けられたメモリデバイス、例えば、ＲＯＭ、固定式又は取り外し可能なメモリのうちの１つ以上に記憶され得、利用される準備ができたときに、ＲＡＭ内にロードされて、プロセッサによって実行され得る。

本開示の技術は、例えば、携帯電話、コンピュータ、サーバ、タブレット、及び同様のデバイスを含む、広範な種々のデバイス又は装置内に実装され得る。

本発明の例示的な実施形態は、添付の図面を参照して本明細書で説明されてきたが、本発明は、当該図面の精確な実施形態に限定されず、様々な他の変更及び修正が、本発明の範囲又は趣旨から逸脱することなく、当業者によって行われ得ると理解するものとする。

本発明による圧縮方法の統計的及び数値的な例
以下の比較例は、ヌクレオチドの４８００万個のリード又は配列を含有する非圧縮データファイルに関して実行された。
○ 非圧縮データファイルのサイズ：３５，７７０ＭＢ（メガバイト）
○ ｇｚｉｐソフトウェアで圧縮されたファイルのサイズ：６，６４９ＭＢ
○ 非参照ベースのＳＰＲＩＮＧソフトウェアで圧縮されたファイルのサイズ：１，４０２ＭＢ
○ 本発明による参照ベースの圧縮方法で圧縮されたファイルのサイズ：１，１７９ＭＢ
○ 非参照ベースのＳＰＲＩＮＧソフトウェアでの圧縮時間：１，７２２秒
○ 本発明による参照ベースの圧縮方法での圧縮時間：１８１秒
○ 非圧縮データファイル（ＡＳＣＩＩ符号化）のビット／ヌクレオチドの平均サイズ：８ビット／ヌクレオチド
○ ４つの可能な文字Ａ、Ｔ、Ｃ、Ｇに適合したコーディングで圧縮されたファイルのビット／ヌクレオチドの平均サイズ：２ビット／ヌクレオチド
○ 本発明による参照ベースの圧縮方法で圧縮されたファイルのビット／ヌクレオチドの平均サイズ：０．３３ビット／ヌクレオチド

先に示した数値の例は、本発明が、高い圧縮比を提供しながら、高速の圧縮及び解凍を可能にすることを示している。

Claims

配列決定マシンによって生成されたゲノム配列データの圧縮のためのコンピュータ実装方法であって、前記ゲノム配列データは、参照配列に対してアラインメントされたヌクレオチド又は塩基の配列のリードを含み、それによって、アラインメントされたリードを作成し、前記アラインメントされたリードが、初期ファイル内のリードのリストとして記憶される、方法であって、前記方法は、
各アラインメントされたリードについて、前記リードが、前記参照配列で完全に若しくは不完全にマッピングされているかどうか、又は前記リードが、前記参照配列でマッピングされていないかどうかを決定することと、
前記決定によって前記リードを符号化することであって、完全にマッピングされていると決定された前記リードが、第１の符号化プロセスによって符号化され、前記マッピングされていないと決定されたリードが、第２の符号化プロセスによって符号化される、符号化することと、を含み、
前記決定する工程は、各不完全にマッピングされたリードについて、前記リードと前記参照配列との間のミスマッチ数を閾値と比較することを含み、
前記符号化する工程において、前記不完全にマッピングされていると決定されたリードは、前記第２の符号化プロセス又は第３の符号化プロセスによって符号化され、前記不完全にマッピングされたリードは、前記ミスマッチ数が前記閾値よりも大きいとき、前記第２の符号化プロセスによって符号化され、前記不完全にマッピングされたリードは、前記ミスマッチ数が閾値よりも小さいとき、前記第３の符号化プロセスによって符号化され、
前記第２の符号化プロセスにおいて、前記リードの各ヌクレオチド又は塩基は、個別に符号化され、
前記第１の符号化プロセス及び前記第３の符号化プロセスは、別個のセットの記述子を含み、各セットの記述子は、前記対応する符号化プロセスに関連付けられたリードを一意的に表示し、前記第１の符号化プロセス及び前記第３の符号化プロセスの各々は、情報ソースエントロピー低減の符号化プロセスである、方法。
前記決定する工程は、リードが参照配列で不完全にマッピングされていると決定され、前記閾値よりも小さいミスマッチ数を有するとき、前記リードが前記参照配列でグローバルマッピングされているか又はローカルマッピングされているかに関する更なる決定を含み、前記第３の符号化プロセスは、第１の符号化サブプロセス及び第２の符号化サブプロセスを含み、前記グローバルマッピングされていると決定されたリードは、前記第１の符号化サブプロセスによって符号化され、前記ローカルマッピングされていると決定されたリードは、前記第２の符号化サブプロセスによって符号化され、前記第１の符号化サブプロセス及び前記第２の符号化サブプロセスは、別個のセットの記述子を含み、各セットの記述子は、前記対応する符号化サブプロセスに関連付けられたリードを一義的に表示する、請求項１に記載の方法。
前記第１の符号化サブプロセスの前記記述子は、前記参照配列におけるアラインメント開始位置と、リード長と、記号の置換によるミスマッチのリストと、を含み、前記第２の符号化サブプロセスの前記記述子は、前記参照配列におけるローカルアラインメント開始位置と、リード長と、記号の置換によるミスマッチのリストと、アラインメントの一部ではない前記リードのクリップされた部分の長さと、を含む、請求項２に記載の方法。
前記符号化する工程において、前記第２の符号化サブプロセスによって符号化されることになる、前記リードのクリップされた部分は、連結されており、前記クリップされた部分の各ヌクレオチド又は塩基は、個別に符号化される、請求項３に記載の方法。
前記符号化する工程において、不完全にマッピングされたリードの各ミスマッチは、１バイトへ符号化される、請求項１～４のいずれか一項に記載の方法。
前記符号化する工程において、不完全にマッピングされたリードの各ミスマッチは、
・前記１バイトのうちの２つの最初のビットが、前記参照配列内の対応する参照ヌクレオチド又は参照塩基の代わりに、前記リード中に存在する代替のヌクレオチド又は塩基を符号化するために使用され、
・前記１バイトのうちの６つの最後のビットを使用して、前記参照配列内の前記ミスマッチの位置を符号化し、前記位置が、前記リードの先行ミスマッチからのオフセットとして計算されて、符号化される、請求項５に記載の方法。
前記符号化する工程において、与えられたミスマッチと前記先行ミスマッチとの間で計算された前記オフセットが、最大符号化可能値よりも大きい場合、少なくとも１個の偽ミスマッチは、前記ミスマッチの各々と前記少なくとも１個の偽ミスマッチとの間のあらゆるオフセットが前記最大符号化可能値よりも小さくなるまで前記２つのミスマッチ間に挿入され、偽ミスマッチは、前記ミスマッチを符号化するために、又は前記参照配列内の前記対応する参照ヌクレオチド若しくは参照塩基に等しいヌクレオチド若しくは塩基を符号化するために前記１バイトのうちのビットが使用されるミスマッチとして定義される、請求項６に記載の方法。
各ブロックが、前記ブロックを解読するために必要とされる情報を含有するヘッダで始まる、前記リードのリストをリードのブロックへと分割する初期工程を更に含み、前記圧縮方法は、ブロックごとに実行される、請求項１～７のいずれか一項に記載の方法。
前記リードのブロックは、同じブロックサイズを有する、請求項８に記載の方法。
符号化されたリードのリストを含む圧縮ファイルを提供する最終工程を更に含み、前記符号化されたリードは、前記初期ファイル内に記憶された前記リードの順序と同じ順序で前記圧縮ファイル内に記憶される、請求項１～９のいずれか一項に記載の方法。
前記閾値は、３１に等しい、請求項１～１０のいずれか一項に記載の方法。
アラインメントされた各リードについて、前記リードが、前記配列決定マシンがいかなる塩基又はヌクレオチドもコールすることができなかった場合に対応する少なくとも１個のミスマッチを含むかどうかを決定する工程を更に含む、請求項１～１１のいずれか一項に記載の方法。
前記配列決定マシンがいかなる塩基又はヌクレオチドもコールすることができなかった場合に対応する少なくとも１個のミスマッチを含む各リードについて、このようなミスマッチの数を決定する工程と、前記数を参照閾値と比較する工程と、を更に含む、請求項１２に記載の方法。
前記符号化する工程において、このようなミスマッチの前記数が前記参照閾値よりも大きい場合、前記第２の符号化プロセスによって符号化されることになるリードの各ヌクレオチド又は塩基は、４ビットへ個別に符号化され、前記このようなミスマッチ数が前記参照閾値よりも小さい場合、前記第２の符号化プロセスによって符号化されることになるリードの各ヌクレオチド又は塩基は、２ビットへ個別に符号化され、前記符号化する工程は、前記参照配列に沿った位置のリストを符号化することを更に含み、前記位置は、前記参照配列内のこのようなミスマッチの位置に相当する、請求項１３に記載の方法。
コンピュータ可読記憶媒体で具現化されたコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プロセッサによって実行されると、前記プロセッサに、請求項１～１４のいずれか一項に記載の方法の工程を含む演算を実行させるコンピュータ実行可能命令を含む、コンピュータプログラム製品。
プロセッサによって実行されると、前記プロセッサに、請求項１～１４のいずれか一項に記載の方法の工程を含む演算を実行させるコンピュータ実行可能命令を有する、コンピュータ可読記憶媒体。
装置であって、
プロセッサと、
前記プロセッサに動作可能に連結されてコンピューティングデバイスを形成するメモリであって、前記メモリが、少なくとも前記プロセッサ上で実行されることに基づいて、前記プロセッサに、請求項１に記載の方法の工程を含む演算を実行させる、プロセッサ実行可能命令を記憶する、メモリと、を備える、装置。
ゲノム配列データを圧縮するための方法であって、前記方法は、
１つ以上のコンピュータによって、リード記録を取得することと、
前記１つ以上のコンピュータによって、前記リード記録が、参照配列に完全にマッピングされたか又は前記参照配列に不完全にマッピングされたリードに相当するかどうかを決定することと、
前記１つ以上のコンピュータによって、前記リード記録が前記参照配列に不完全にマッピングされたリードに相当すると決定することに基づいて、前記１つ以上のコンピュータによって、前記不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数を満たすかどうかを決定することと、
前記ミスマッチ数が、前記所定のミスマッチ閾値数を満たすと決定することに基づいて、前記１つ以上のコンピュータによって、前記不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することと、を含む、方法。
前記１つ以上のコンピュータによって、前記不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数を満たすかどうかを決定することは、
前記１つ以上のコンピュータによって、前記不完全にマッピングされたリードの前記ミスマッチ数が、前記所定のミスマッチ閾値数よりも大きいかどうかを決定することを含む、請求項１８に記載の方法。
各リード記録は、
前記参照配列に関してアラインメントされたリードの絶対開始位置を示すデータと、
前記リードの長さを示すデータと、
前記リードが完全にマッピングされているか又は不完全にマッピングされているかを示すデータと、
前記リードにおいて特定されたミスマッチ数を示すデータと、
前記リードにおける前記可能なミスマッチの各々の相対的な位置を示すデータと、を含む、請求項１８に記載の方法。
前記不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することは、各特定のミスマッチについて、
前記１つ以上のコンピュータによって、前記参照配列内の対応する参照ヌクレオチド又は塩基の代わりに、前記リード中に存在する代替のヌクレオチド又は塩基を表示するデータを含むように、前記１バイトのうちの最初の２ビットを符号化することと、
１つ以上のコンピュータによって、前記参照配列内のミスマッチの位置を表示するデータを含むように、前記１バイトのうちの残りの６ビットを符号化することと、を含み、前記位置は、前記リードの先行ミスマッチからのオフセットとして計算される、請求項１８に記載の方法。
前記方法は、
１つ以上のコンピュータによって、前記オフセットが最大符号化可能値よりも大きいかどうかを決定することと、
前記オフセットが前記最大符号化値よりも大きいと決定することに基づいて、１つ以上のコンピュータによって、前記特定のミスマッチと前記先行ミスマッチとの間に少なくとも１個の偽ミスマッチを挿入することと、を更に含む、請求項２１に記載の方法。
前記方法は、
前記ミスマッチ数が、前記所定のミスマッチ閾値数を満たしていないと決定することに基づいて、１つ以上のコンピュータによって、情報エントロピー低減の符号化プロセスを用いて、前記参照配列に対する前記ミスマッチの各々の位置に対応する前記参照配列の位置のリストを符号化することを更に含む、請求項１８に記載の方法。
前記方法は、
前記リード記録が前記参照配列に完全にマッピングされたリードに相当すると決定することに基づいて、１つ以上のコンピュータによって、情報エントロピー低減の符号化を用いて、前記リード記録の少なくとも一部分を符号化することを更に含む、請求項１８に記載の方法。
前記１つ以上のコンピュータは、１つ以上のハードウェアプロセッサを備える、請求項１８に記載の方法。
前記１つ以上のハードウェアプロセッサは、１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を含む、請求項２５に記載の方法。
１つ以上の演算を実行するように構成されたハードウェア処理回路を含むハードウェアプロセッサであって、前記１つ以上の演算は、
前記ハードウェア処理回路によって、リード記録を取得することと、
前記ハードウェア処理回路によって、前記リード記録が、参照配列に完全にマッピングされたか又は前記参照配列に不完全にマッピングされたリードに相当するかどうかを決定することと、
前記ハードウェア処理回路によって、前記リード記録が、前記参照配列に不完全にマッピングされたリードに相当すると決定することに基づいて、前記１つ以上のコンピュータによって、前記不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数を満たすかどうかを決定することと、
前記ミスマッチ数が前記所定のミスマッチ閾値数を満たすと決定することに基づいて、前記ハードウェア処理回路によって、前記不完全にマッピングされたリードの各ミスマッチを、１ビットのサイズを有する記録へと符号化することと、を含む、ハードウェアプロセッサ。
各リード記録は、
前記参照配列に関して前記アラインメントされたリードの絶対開始位置を示すデータと、
前記リードの長さを示すデータと、
前記リードが完全にマッピングされているか又は不完全にマッピングされているかを示すデータと、
前記リードにおいて特定されたミスマッチ数を示すデータと、
前記リードにおける前記可能なミスマッチの相対的な位置を示すデータと、を含む、請求項２７に記載のハードウェアプロセッサ。
前記不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することは、各特定のミスマッチについて、
前記ハードウェア処理回路によって、前記参照配列内の対応する参照ヌクレオチド又は参照塩基の代わりに、前記リード中に存在する代替のヌクレオチド又は塩基を表示するデータを含むように、前記１バイトのうちの最初の２ビットを符号化することと、
前記ハードウェア処理回路によって、前記参照配列内のミスマッチの位置を表示するデータを含むように、前記１バイトのうちの残りの６ビットを符号化することと、を含み、前記位置は、前記リードの先行ミスマッチからのオフセットとして計算される、請求項２７に記載のハードウェアプロセッサ。
前記ハードウェアプロセッサ回路は、
前記ハードウェア処理回路によって、前記オフセットが最大符号化可能値よりも大きいかどうかを決定することと、
前記オフセットが前記最大符号化値よりも大きいと決定することに基づいて、前記ハードウェア処理回路によって、前記特定のミスマッチと前記先行ミスマッチとの間に少なくとも１個の偽ミスマッチを挿入することと、を含む演算を実行するように更に構成されている、請求項２９に記載のハードウェアプロセッサ。
前記ハードウェアプロセッサ回路は、
前記ミスマッチ数が前記所定のミスマッチ閾値数を満たしていないと決定することに基づいて、前記ハードウェア処理回路によって、情報エントロピー低減の符号化プロセスを用いて、前記参照配列に対する前記ミスマッチの各々の位置に対応する前記参照配列の位置のリストを符号化することを含む演算を実行するように更に構成されている、請求項２７に記載のハードウェアプロセッサ。
前記ハードウェアプロセッサ回路は、
前記リード記録が前記参照配列に完全にマッピングされたリードに相当すると決定することに基づいて、前記ハードウェア処理回路によって、情報エントロピー低減の符号化を用いて、前記リード記録の少なくとも一部分を符号化することを含む演算を実行するように更に構成されている、請求項２７に記載のハードウェアプロセッサ。
前記ハードウェア処理回路は、１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を含む、請求項２４に記載のハードウェアプロセッサ。
前記ハードウェア処理回路によって、前記不完全にマッピングされたリードのミスマッチ数が所定のミスマッチ閾値数を満たすかどうかを決定することは、
前記ハードウェア処理回路によって、前記不完全にマッピングされたリードの前記ミスマッチ数が、前記所定のミスマッチ閾値数よりも大きいかどうかを決定することを含む、請求項１８に記載のハードウェアプロセッサ。
ゲノム配列データを圧縮するためのシステムであって、前記システムは、
１つ以上のコンピュータと、命令を記憶する１つ以上の記憶デバイスと、を含み、前記命令は、前記１つ以上のコンピュータによって実行されると、前記１つ以上のコンピュータに、
前記１つ以上のコンピュータによって、リード記録を取得することと、
前記１つ以上のコンピュータによって、前記リード記録が、参照配列に完全にマッピングされたか又は前記参照配列に不完全にマッピングされたリードに相当するかどうかを決定することと、
前記１つ以上のコンピュータによって、前記リード記録が前記参照配列に不完全にマッピングされたリードに相当すると決定することに基づいて、前記１つ以上のコンピュータによって、前記不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数を満たすかどうかを決定することと、
前記ミスマッチ数が、前記所定のミスマッチ閾値数を満たすと決定することに基づいて、前記１つ以上のコンピュータによって、前記不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することと、を含む演算を実行させるように動作可能である、システム。
各リード記録は、
前記参照配列に関してアラインメントされたリードの絶対開始位置を示すデータと、
前記リードの長さを示すデータと、
前記リードが完全にマッピングされているか又は不完全にマッピングされているかを示すデータと、
前記リードにおいて特定されたミスマッチ数を示すデータと、
前記リードにおける前記可能なミスマッチの各々の相対的な位置を示すデータと、を含む、請求項３５に記載のシステム。
前記不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することは、各特定のミスマッチについて、
１つ以上のコンピュータによって、前記参照配列内の対応する参照ヌクレオチド又は参照塩基の代わりに、前記リード中に存在する代替のヌクレオチド又は塩基を表示するデータを含むように、前記１バイトのうちの最初の２ビットを符号化することと、
１つ以上のコンピュータによって、前記参照配列内のミスマッチの位置を表示するデータを含むように、前記１バイトのうちの残りの６ビットを符号化することと、を含み、前記位置は、前記リードの先行ミスマッチからのオフセットとして計算される、請求項３５に記載のシステム。
前記演算は、
前記１つ以上のコンピュータによって、前記オフセットが最大符号化可能値よりも大きいかどうかを決定することと、
前記オフセットが前記最大符号化値よりも大きいと決定することに基づいて、１つ以上のコンピュータによって、前記特定のミスマッチと前記先行ミスマッチとの間に少なくとも１個の偽ミスマッチを挿入することと、を更に含む、請求項３７に記載のシステム。
前記演算は、
前記ミスマッチ数が、前記所定のミスマッチ閾値数を満たしていないと決定することに基づいて、１つ以上のコンピュータによって、情報エントロピー低減の符号化プロセスを用いて、前記参照配列に対する前記ミスマッチの各々の位置に対応する前記参照配列の位置のリストを符号化することを更に含む、請求項３５に記載のシステム。
前記演算は、
前記リード記録が前記参照配列に完全にマッピングされたリードに相当すると決定することに基づいて、１つ以上のコンピュータによって、情報エントロピー低減の符号化を用いて、前記リード記録の少なくとも一部分を符号化することを更に含む、請求項３５に記載のシステム。
前記１つ以上のコンピュータは、１つ以上のハードウェアプロセッサを含む、請求項３５に記載のシステム。
前記１つ以上のハードウェアプロセッサは、１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を含む、請求項４１に記載のシステム。
命令を記憶したコンピュータ可読記憶デバイスであって、前記命令は、データ処理装置によって実行されると、前記データ処理装置に、ゲノム配列データを圧縮するための演算を実行させ、前記演算は、
リード記録を取得することと、
前記リード記録が、参照配列に完全にマッピングされたか又は前記参照配列に不完全にマッピングされたリードに相当するかどうかを決定することと、
前記リード記録が前記参照配列に不完全にマッピングされたリードに相当すると決定することに基づいて、前記不完全にマッピングされたリードのミスマッチ数が、所定のミスマッチ閾値数を満たすかどうかを決定することと、
前記ミスマッチ数が前記所定のミスマッチ閾値数を満たすと決定することに基づいて、前記不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することと、を含む、コンピュータ可読記憶デバイス。
各リード記録は、
前記参照配列に関してアラインメントされたリードの絶対開始位置を示すデータと、
前記リードの長さを示すデータと、
前記リードが完全にマッピングされているか又は不完全にマッピングされているかを示すデータと、
前記リードにおいて特定されたミスマッチ数を示すデータと、
前記リードにおける前記可能なミスマッチの各々の相対的な位置を示すデータと、を含む、請求項４３に記載のコンピュータ可読記憶デバイス。
前記不完全にマッピングされたリードの各ミスマッチを、１バイトのサイズを有する記録へと符号化することは、各特定のミスマッチについて、
１つ以上のコンピュータによって、前記参照配列内の対応する参照ヌクレオチド又は参照塩基の代わりに、前記リード中に存在する代替のヌクレオチド又は塩基を表示するデータを含むように、前記１バイトのうちの最初の２ビットを符号化することと、
１つ以上のコンピュータによって、前記参照配列内のミスマッチの位置を表示するデータを含むように、前記１バイトのうちの残りの６ビットを符号化することと、を含み、前記位置は、前記リードの先行ミスマッチからのオフセットとして計算される、請求項４３に記載のコンピュータ可読記憶デバイス。
前記演算は、
前記１つ以上のコンピュータによって、前記オフセットが最大符号化可能値よりも大きいかどうかを決定することと、
前記オフセットが前記最大符号化値よりも大きいと決定することに基づいて、前記１つ以上のコンピュータによって、前記特定のミスマッチと前記先行ミスマッチとの間に少なくとも１個の偽ミスマッチを挿入することと、を更に含む、請求項４５に記載のコンピュータ可読記憶デバイス。
前記演算は、
前記ミスマッチ数が前記所定のミスマッチ閾値数を満たしていないと決定することに基づいて、情報エントロピー低減の符号化プロセスを用いて、前記参照配列に対する前記ミスマッチの各々の位置に対応する前記参照配列の位置のリストを符号化することを更に含む、請求項４３に記載のコンピュータ可読記憶デバイス。
前記演算は、
前記リード記録が前記参照配列に完全にマッピングされたリードに相当すると決定することに基づいて、情報エントロピー低減の符号化を用いて、前記リード記録の少なくとも一部分を符号化することを更に含む、請求項４３に記載のコンピュータ可読記憶デバイス。