JP2023547973A

JP2023547973A - 質スコア圧縮

Info

Publication number: JP2023547973A
Application number: JP2022575435A
Authority: JP
Inventors: ギヨーム・アレクサンドル・パスカル・リツク
Original assignee: イルミナインコーポレイテッド
Priority date: 2020-11-05
Filing date: 2021-11-05
Publication date: 2023-11-15
Also published as: AU2021376411A1; IL298981A; EP4241276A1; US20240062853A1; BR112022025042A2; MX2022016020A; US20230040143A1; WO2022099097A1; CA3174208A1; CN115668384A; US12080385B2; KR20230101760A; US20220139502A1; US11527307B2; US11776663B2; ZA202304367B

Abstract

核酸配列データを圧縮するための方法、システム、及びコンピュータプログラム。方法は、（ｉ）読み取り配列と、（ｉｉ）複数の質スコアと、を表す核酸配列データを取得することと、読み取り配列が少なくとも１つのＮ塩基を含むかどうかを決定することと、読み取り配列が少なくとも１つのＮ塩基を含まないという決定に基づいて、第１のコード化プロセスを使用して、（ｘマイナス１）進法の数を使用して読み取り配列の質スコアの各々をコード化することによって、第１のコード化データセットを生成することであって、ｘが、核酸配列決定デバイスによって使用される異なる質スコアの数を表す整数である、生成することと、第２のコード化プロセスを使用して、第１のコード化データセットをコード化し、それによって、圧縮されるべきデータを圧縮することと、を含むことができる。

Description

（関連出願の相互参照）
本出願は、２０２０年１１月５日に出願された米国特許出願第６３／１１０，３０８号の利益を主張し、その全内容は参照により本明細書に組み込まれる。
（技術分野）
本発明は、質スコア圧縮に関する。

場合によっては、ゲノム配列決定は、ゲノムデータのヌクレオチド又は他の成分部分を識別する方法を記載する。コンピュータを使用して、ゲノムデータの１つ以上のセットを分析し、ヌクレオチドなどの成分部分の集合体を、所与の参照ゲノム内のそれらのそれぞれの位置に相関させることができる。このようにして、コンピュータは、分子マーカーの集合体を参照ゲノム上に「マッピング」することができる。

一般に、本開示は、ゲノムデータに基づいて配列決定エンジンによって生成された質スコアの圧縮のための方法、システム、及びコンピュータプログラムに関する。一実装形態では、ゲノムデータに基づいて配列決定エンジンによって生成された質スコアは、最初に、質スコアのセットを表すデータ項目の配列内の単一のデータ項目に１個以上の質スコアをグループ化することによって圧縮され得る。次いで、データ項目の配列を、最終的な圧縮形態に更に圧縮又はコード化することができる。

本開示の１つの革新的な態様によると、核酸配列データを圧縮するための方法が開示される。一態様では、方法は、１つ以上のコンピュータによって、（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、（ｉｉ）複数の質スコアであって、複数の質スコアの各質スコアは、読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく生成された尤度を示す、複数の質スコアと、を表す、核酸配列データを取得することと、１つ以上のコンピュータによって、読み取り配列が少なくとも１つの「Ｎ」塩基を含むかどうかを決定することと、読み取り配列が少なくとも１つの「Ｎ」塩基を含まないという決定に基づいて、１つ以上のコンピュータによって、第１のコード化プロセスを使用して、（ｘマイナス１）進法の数を使用して読み取り配列の質スコアの各々をコード化することによって、第１のコード化データセットを生成することであって、ｘが、核酸配列決定デバイスによって使用される異なる質スコアの数を表す整数である、生成することと、１つ以上のコンピュータによって、第２のコード化プロセスを使用して、第１のコード化データセットをコード化し、それによって、圧縮されるべきデータを圧縮することと、を含むことができる。

他のバージョンは、コンピュータ可読記憶デバイス上に符号化された命令によって定義される方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。

これらの及び他のバージョンは、任意選択で、以下の特徴のうちの１つ以上を含んでもよい。例えば、一部の実装形態では、ｘは３に等しい。

一部の実装形態では、第１のコード化プロセスは、１つ以上のコンピュータによって、読み取り配列の複数の質スコアのうちの５個の質スコアの各セットを、３進法の数として５個の質スコアのセットの各質スコアを表すことによって、単一のバイトにコード化することを含むことができる。

一部の実装形態では、方法は、読み取り配列が少なくとも１つの「Ｎ」塩基を含むという決定に基づいて、１つ以上のコンピュータによって、第３のコード化プロセスを使用して、読み取り配列の４個の質スコアの各セットをメモリの単一のバイトにコード化することによって、第２のコード化データセットを生成することと、１つ以上のコンピュータによって、第４のコード化プロセスを使用して、第２のコード化データをコード化することと、を更に含むことができる。

一部の実装形態では、第２のコード化プロセスと第４のコード化プロセスは、同じである。

一部の実装形態では、取得されたデータは、ＦＡＳＴＱファイルを含むことができる。

一部の実装形態では、第１のコード化データセットは、複数の質スコアの圧縮バージョンである。

一部の実装形態では、第２のコード化プロセスは、圧縮プロセスである。

一部の実装形態では、圧縮プロセスは、範囲エンコーダの部分的マッチングによる予測（ＰＰＭＤ）の実装を含む。

一部の実装形態では、第１のコード化データセットの所与の値について、所与の値は、第１のコード化データセット内の所与の値の位置に対して４ビットコンテキストに従って圧縮される。

本開示の別の革新的な態様によると、核酸配列データを圧縮するための別の方法が開示される。一態様では、方法は、１つ以上のコンピュータによって、（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、（ｉｉ）複数の質スコアであって、複数の質スコアの各質スコアは、読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく生成された尤度を示す、複数の質スコアと、を表す、取得することと、１つ以上のコンピュータによって、複数の質スコアにおける各質スコアグループの発生頻度を決定することであって、各質スコアグループが、複数の質スコアのうちの質スコアのサブセットを含む、決定することと、複数の質スコアの第１のサブセットにおける各特定の質スコアについて、１つ以上のコンピュータによって、質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであると決定すること、質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであるという決定に基づいて、１つ以上のコンピュータによって、かつ所定のグループマッピングを使用して、低減された配列内の単一のエントリとして使用される第１のデータを生成することであって、低減された配列内の単一のエントリとして使用される第１のデータが、特定の質スコアグループを表す、生成すること、を行うことと、１つ以上のコンピュータによって、特定の質スコアグループの各々について生成された第１のデータを集約することによって低減された配列を生成することと、を含むことができる。

これらの及び他のバージョンは、任意選択で、以下の特徴のうちの１つ以上を含んでもよい。例えば、一部の実装形態では、取得されたデータは、ＦＡＳＴＱファイルを含む。

一部の実装形態では、複数の質スコアにおける各質スコアは、質スコアのＡＳＣＩＩ値を表すデータである。

一部の実装形態では、方法は、複数の質スコアの第２のサブセットにおける各特定の質スコアについて、１つ以上のコンピュータによって、質スコアの配列の第２のサブセットにおける特定の質スコアが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではないと決定することと、１つ以上のコンピュータによって、かつ所定の単一のマッピングを使用して、低減された配列内の単一のエントリとして使用される第２のデータを生成することであって、低減された配列内の単一のエントリとして使用される第２のデータが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない質スコアを表し、所定の単一のマッピングが、複数の単一の質スコアの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、生成することと、を更に含む。

一部の実装形態では、１つ以上のコンピュータによって、低減された配列を生成することは、１つ以上のコンピュータによって、特定の質スコアグループの各々について生成された第１のデータを集約することと、１つ以上のコンピュータによって、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない質スコアの各々について生成された第２のデータを集約することと、を含むことができる。

一部の実装形態では、方法は、１つ以上のコンピュータによって、複数の質スコアにおける複数の質スコアグループを識別することを更に含むことができる。

一部の実装形態では、所定のグループマッピングは、複数の異なる質スコアグループの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する。

本開示の別の革新的な態様によると、核酸配列データを圧縮するための別の方法が開示される。一態様では、方法は、１つ以上のコンピュータによって、（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、（ｉｉ）複数の質スコアであって、複数の質スコアの各質スコアは、読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく識別された尤度を示す、複数の質スコアと、を表す、核酸配列データを取得することと、１つ以上のコンピュータによって、複数の質スコアにおける各質スコアグループの発生頻度を決定することであって、各質スコアグループが、複数の質スコアのうちの質スコアのサブセットを含む、決定することと、複数の質スコアの第１のサブセット内の各特定の質スコアについて、１つ以上のコンピュータによって、複数の質スコアの第１のサブセットにおける特定の質スコアが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではないと決定すること、及び１つ以上のコンピュータによって、かつ所定の単一のマッピングを使用して、低減された配列内の単一のエントリとして使用される第１のデータを生成することであって、低減された配列内の単一のエントリとして使用される第１のデータが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない質スコアを表す、生成すること、を行うことと、１つ以上のコンピュータによって、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない質スコアの各々について生成された第１のデータを集約することによって低減された配列を生成することと、を含むことができる。

一部の実装形態では、方法は、複数の質スコアの第２のサブセットにおける各特定の質スコアについて、１つ以上のコンピュータによって、質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであると決定することと、質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであるという決定に基づいて、１つ以上のコンピュータによって、かつ所定のグループマッピングを使用して、低減された配列内の単一のエントリとして使用される第２のデータを生成することであって、低減された配列内の単一のエントリとして使用される第２のデータが、特定の質スコアグループを表し、所定のグループマッピングが、複数の異なる質スコアグループの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、生成することと、を更に含むことができる。

一部の実装形態では、１つ以上のコンピュータによって、低減された配列を生成することは、１つ以上のコンピュータによって、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない質スコアの各々について生成された第１のデータを集約することと、１つ以上のコンピュータによって、特定の質スコアグループの各々について生成された第２のデータを集約することと、を含むことができる。

一部の実装形態では、所定の単一のマッピングは、複数の単一の質スコアの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する。

本開示のこれら及び他の革新的な態様は、発明を実施するための形態、図面、及び添付の特許請求の範囲を参照しながら、本明細書で以下に説明される。

第１のデータ形式を有する質スコアの配列をコード化する、例えば、圧縮するためのシステムの一実施例を示す図である。第１のデータ形式を有する質スコアの配列をコード化する、例えば、圧縮するためのプロセスの一実施例を示すフロー図である。第２のデータ形式を有する質スコアの配列をコード化する、例えば、圧縮するためのシステムの一実施例を示す図である。第２のデータ形式を有する質スコアの配列をコード化する、例えば、圧縮するためのプロセスの一実施例を示すフロー図である。第１のデータ形式を有する質スコアの配列を復元するためのプロセスの一実施例を示すフロー図である。第２のデータ形式を有する質スコアの配列を復元するためのプロセスの一実施例を示すフロー図である。質スコアの圧縮方法を決定するためのプロセスの一実施例を示すフロー図である。第１のデータ形式を有する質スコアの配列をコード化するためのプロセスの実験結果のグラフ表示である。第２のデータ形式を有する質スコアの配列をコード化するためのプロセスの実験結果のグラフ表示である。第１のデータ形式を有する質スコアの配列をコード化するためのプロセスを実装するために使用され得る、コンピュータシステム構成要素の図である。

様々な図面における同様の参照番号及び名称は、同様の要素を示す。
本開示は、核酸配列決定デバイスによって生成された読み取り配列の質スコアの配列を表すデータの圧縮のための方法、システム、及びコンピュータプログラムを対象とする。質スコアの配列における各質スコアは、読み取り配列中の対応する塩基が核酸配列決定デバイスによって正しく配列決定された尤度の指標を提供する。本明細書に開示される方法及びシステムは、本明細書に記載の技術を利用しない従来の方法と比較して、より速い圧縮速度及びより小さい圧縮比を可能にする。より速い圧縮速度及びより小さい圧縮比は、圧縮エンジンによって処理される質スコアの配列を表す入力データのサイズを低減するために、事前圧縮コード化ステップを実施することによって達成される。圧縮エンジンは、質スコアの配列を表す低減されたサイズ入力を受信し、かつ処理するため、圧縮エンジンは、従来の方法と比較して、入力データの圧縮をより速く、かつサイズが小さい圧縮ファイルを達成することができる。したがって、本開示の圧縮方法は、従来のシステムよりも高い圧縮比を達成することができ、ここで、圧縮比は、圧縮されていないファイルサイズを圧縮ファイルサイズで割ったものに等しい。

一般に、本開示は、質スコア配列を表すデータを圧縮エンジンに入力する前に、質スコア配列を表すデータ上の初期コード化段階を実行する、システム及び方法を記載する。このアプローチの利点は、特定の例に関して説明することができる。１つ以上の第１の実装形態では、質スコアの配列内の各質スコアは、８ビット（又は１つのバイト）ＡＳＣＩＩ値として表され得る。本明細書に記載のそのような第１の実装形態では、本開示は、質スコアの配列におけるそのような８ビット表現の質スコアに対して、８ビット表現の質スコアを２ビット表現又は１．６ビット表現の質スコアに低減させ、したがって、それぞれ４個の質スコア又は５個の質スコアを、単一のバイトにコード化することを可能にする、初期コード化を実施することができる。したがって、そのような初期コード化段階は、質スコアの初期表現のサイズの１／４又は５分の１だけ、入力データサイズを圧縮エンジンに大幅にかつ予測可能に低減することができる。

しかしながら、本開示は、圧縮エンジンへの入力に対して、８ビット表現の質スコアを、２ビット表現の質スコア又は１．６ビット表現の質スコアのいずれかに低減することに限定されない。むしろ、同様の比率の低減を、質スコアの他のサイズの表現で達成することができる。これらの実施例は、部分的には、本開示によって達成される技術的改善を強調するために提供される。

更に、本開示の他の第２の実装態様は、質スコアの配列を表すデータに対する動作を実施して、圧縮エンジンへの入力のための低減された配列セットを生成する、他の初期段階コード化エンジンを説明する。そのような第２の実装態様は、上述の実装形態と同様の技術的利益（例えば、従来の方法と比較してより速い圧縮速度及びより高い圧縮比）を提供する。しかしながら、可変であり、かつ自発的なグループ化又は質スコアの非グループ化に関連する圧縮エンジンへの入力前の入力データの初期サイズ低減により、依然として従来の方法よりも速い圧縮速度、より低い圧縮ファイルのサイズ、及びより高い圧縮比をもたらすこれらの第２の実装形態は、最終的に、各段階で定義されたデータサイズを有することができる上述の本開示の第１の実装形態よりも予測しにくいより速い速度及び圧縮比を有し得る。

全般的に、本明細書で使用される「コード化」という用語は、１つ以上のソフトウェアエンジン、１つ以上のハードウェアエンジン（例えば、プロセッサ）、又はそれらの組み合わせによって実施されるプロセスを指し、データの第１のセットを受信し、データの第１のセットを処理して、異なる形態のデータの第１のセットを表すデータの第２のセットを生成することを含む。一部の実施形態では、データの第２のセットは、受信されたデータの第１のセットよりも少ないメモリに記憶され得る。例えば、コード化データの１つの形態は、例えば、圧縮エンジンを用いて、圧縮前のデータのサイズよりも小さいサイズにデータを圧縮することを含むことができる。

図１は、第１のデータ形式を有する質スコアの配列を圧縮するためのシステム１００の一実施例を示す図である。第１のデータ形式は、「Ｘ」個の異なる質スコアを読み取り配列内の対応する塩基に割り当てることができ、ここで、「Ｘ」は、所与の閾値よりも小さい任意の正の整数である。所与の閾値は、図３に示されるシステム３００などの他のシステムよりも効果的又は実用的である、図１に示されるシステム１００を使用して作製する固有の質スコアの数に基づいて、決定され得る。例えば、所与の閾値は、８であることができる。「Ｘ」が８未満である場合、対応する質スコアは、システム１００によって処理され得る。特定の実施例として、一部の実装形態では、「Ｘ」は、第１のデータ形式が４個の異なる質スコアのうちのいずれか１個を使用して、核酸配列決定デバイスによって生成された読み取り配列の１つ以上の塩基コールが正しい尤度を示すことができることを示す、４に等しくてもよい。一部の実装形態では、尤度は、質スコアに対応する１つ以上の塩基コールで配列決定エラーが発生した確率を含むことができる。一部の実施形態では、配列決定エラーは、間違っている読み取り配列内の特定の場所についての核酸配列決定デバイスによって作製された塩基コールを含むことができる。例えば、配列決定デバイスは、実際に正しい塩基コールが文字Ｃで表されるシトシンであるべきである場合、読み取り配列における特定の場所について文字Ａで表されるアデニンの塩基コールを決定し得る。所与の塩基コールの低質スコアは、そのようなエラーがより可能性が高いことを示し得るが、高質スコアは、そのようなエラーがより低いことを示すことができる。塩基コールは、読み取り配列の特定のヌクレオチドを表す核酸配列決定デバイスによって生成される、データを含むことができる。

システム１００は、１つ以上のデータソースから入力データ１０２を受信するように構成されている。一部の実装形態では、１つ以上のデータソースは、核酸配列決定デバイスを含むことができる。核酸配列決定デバイスは、Ｎｏｖａｓｅｑ（登録商標）６０００、Ｎｅｘｔｓｅｑ（登録商標）２０００などのような次世代配列決定デバイスであり得る。他の実装形態では、１つ以上のデータソースは、タブレットコンピュータ、デスクトップコンピュータ、１つ以上のサーバコンピュータ、又はそれらの組み合わせなどのコンピューティングデバイス上で動作する１つ以上のプロセッサを含むことができる。一部の実装形態では、入力データ１０２は、１つ以上のネットワークを介して１つ以上のデータソースから受信され得る。１つ以上のネットワークは、有線Ｅｔｈｅｒｎｅｔネットワーク、有線光ネットワーク、無線ネットワーク、ＬＡＮ、ＷＡＮ、Ｗｉ－Ｆｉネットワーク、セルラーネットワーク、インターネット、又はそれらの任意の組み合わせを含むことができる。一部の実装形態では、入力データ１０２は、ＵＳＢケーブル接続、ＵＳＢ－Ｃケーブル接続などの直接接続を介して１つ以上のデータソースから受信され得る。更に他の実装形態では、システム１００全体は、１つ以上のデータソース内でホストされ得る。例えば、一部の実装形態では、システム１００全体は、核酸配列決定デバイスによってホストされ得る。

システム１００は、入力データ１０２を受信する入力エンジンを含むことができる。入力データ１０２は、一連の塩基コールに対応するデータ、並びに一連のヌクレオチド又は塩基の質スコアを記述するデータを含む読み取り配列を記述するデータを各々含む、複数の記録を含むことができる。塩基コールは、核酸シーケンサデバイスによって配列決定されたＤＮＡ断片のヌクレオチドに対応するか、又はそれを表す、核酸シーケンサデバイスによって生成されたデータを含むことができる。しかしながら、本開示の目的のために、塩基コール及びヌクレオチドという用語は、読み取り配列のＡ、Ｃ、Ｔ、又はＧなどの文字に対応する核酸シーケンサによって生成されたデータを指すために、全体を通して互換的に使用され得る。そのような文字の意味は、以下でより詳細に説明される。

各記録では、質スコアの配列における各質スコアは、読み取り配列における特定のヌクレオチド又は塩基に対応することができる。例えば、図１の実施例では、質スコアの配列「Ｆ＃ＦＦＦＦ．．．Ｆ；ＦＦ」の第１の質スコア「Ｆ」は、読み取り配列「ＣＮＴＧＴＡ．．．ＡＴＡＡＧ」の第１のヌクレオチド又は塩基に対応する。一部の実装形態では、入力データ１０２は、１つ以上のＦＡＳＴＱファイルを含むことができ、複数の記録の各記録は、本明細書でＦＡＳＴＱ記録と呼ばれるＦＡＳＴＱファイルの一部分を含むことができる。ＦＡＳＴＱファイルの各部分は、１つの読み取り配列及び読み取り配列の質スコアの対応する配列を含むことができる。

各読み取り配列は、１つ以上の核酸シーケンサによる生体試料の配列決定から、１つ以上の核酸配列決定デバイスによって事前に生成され得る。生体試料は、ヒト、動物、又は植物などの任意の生物の核酸試料を含むことができる。各読み取り配列は、定義された語彙から文字のストリングを含む。例えば、最小の語彙は、５つのシンボルのセット：｛Ａ、Ｃ、Ｇ、Ｔ、Ｎ｝で表すことができる。文字Ａ、Ｃ、Ｇ、及びＴは、デオキシリボ核酸（ＤＮＡ）中に存在する４つのタイプのヌクレオチド、すなわちアデニン、シトシン、グアニン、及びチミンを表す。リボ核酸（ＲＮＡ）では、チミンは、ウラシル（Ｕ）によって置き換えられる。文字「Ｎ」は、核酸配列決定デバイスによって、配列決定デバイスが「Ｎ」によって占められる読み取り配列の特定の場所でいかなる塩基も判定することができなかったことを示すために使用され得、その結果、読み取り配列内の位置の実及び正確な性質は決定されない。文字Ａ、Ｃ、Ｇ、及びＴ又はＵの使用は、これらの文字がそれぞれのヌクレオチドの各々の最初の文字を表すため、一般的である。しかしながら、本開示は、決定されていない生成された読み取り配列内の位置を表すための文字「Ｎ」の使用に限定されない。代わりに、核酸配列決定デバイスは、核酸配列決定デバイスが正しい塩基を正確に判定することができない読み取り配列内の場所を表すのに、任意の文字又は記号を使用することができる。本明細書に記載の実装形態では、未確認の塩基を表すために使用される文字又は記号は、文字「Ｎ」の使用と同等であることが理解される。

読み取り配列の塩基の質スコアを記憶することは、多くの有用な用途を有することができる。しかしながら、ヒトなどの生物の配列決定されたゲノムを考えると、３０億個以上の塩基及び対応する３０億個以上の対応する質スコアが含まれ得る。得られた質スコアのセットに対応するデータは、非常に大きい場合があり（例えば、配列決定の深度に応じて、数ギガバイトから数テラバイト）、質スコア情報を効率的に記憶、送信、又はアーカイブするために圧縮を必要とする場合がある。図１を参照して説明される本開示の態様は、圧縮エンジンのための入力データセットを準備するための初期コード化エンジンに依存する多段圧縮方法を提供する。圧縮エンジンの後の段階の使用前の入力データ１０２の固有の特性に基づいてデータを最初にコード化することにより、システム１００は、高速圧縮速度を維持しながら高い圧縮比を達成することができる。得られた圧縮質スコアは、関連するメモリ記憶の動作コストを低減することができるメモリフットプリントを低減するだけでなく、結果として生じる圧縮質スコアにアクセスするか、又はそれを分析するときの処理速度を増加させることができる。本開示の目的のために、「エンジン」は、１つ以上のソフトウェアモジュール、１つ以上のハードウェアモジュール、又はそれらの任意の組み合わせを含むことができる。

段階Ａでは、分類器エンジン１０４は、入力データ１０２を取得し、入力データ１０２の標的又は特定の部分を、入力データ１０２の特定の部分の属性に基づいて異なる初期質スコアコード化エンジンに転送することができる。本開示の文脈内で、取得するプロセスは、受信、取り出し、又は別様に得るプロセスを指す。一部の実装形態では、分類器エンジン１０４は、入力データ１０２の各特定の部分が初期質スコアコード化エンジンＶ１１０６又は初期質スコアコード化エンジンｖ２１１８に提供されるべきかどうかを決定する、決定エンジンとして機能することができる。それらが受信する入力データ１０２の部分に対してそれぞれの初期コード化動作を実施した後、初期コード化エンジンＶ１、Ｖ２の各々は、それぞれのコード化出力１１４、１２６を圧縮エンジン１１６への入力として提供することができる。圧縮エンジンは、入力として受信し、入力データ１０２の圧縮バージョンである最終出力１２８を生成することができる、コード化出力１１４、１２６を処理することができる。

図１の段階Ａでより詳細には、分類器エンジン１０４によって取得された入力データ１０２は、第１の記録１０２ａ、第２の記録１０２ｂ、及びｉ番目の記録１０２ｃを含むことができる。図１の実施例では、第１の記録１０２ａ、第２の記録１０２ｂ、及びｉ番目の記録１０２ｃは、本明細書ではＦＡＳＴＱ記録とも呼ばれる、ＦＡＳＴＱファイルの部分であり得る。ＦＡＳＴＱ記録は、ＦＡＳＴＱ記録が由来するＦＡＳＴＱファイルを識別し、ＦＡＳＴＱ記録を他のＦＡＳＴＱ記録と区別する、記録ヘッダ（例えば、「＠Ａ０：９０：Ｈ４６：１．．．」）を含むことができる。ＦＡＳＴＱ記録は、核酸シーケンサによって生成された読み取り配列を表すデータを含むことができる。ＦＡＳＴＱ記録はまた、ＦＡＳＴＱ記録の配列に対応する質スコアの配列も含むことができる。ＦＡＳＴＱ記録は、１つ以上のデータ構成要素、例えば、記録ヘッダ、質スコア配列、配列などを分離するために、１つ以上のデリミタを更に含むことができる。

図１の実施例では、入力データ１０２は３つのデータ記録で示されているが、入力データ１０２内には任意の数の記録が含まれ得る。これらの３つのデータ記録が、図１の後のプロセスに示されているが、任意の数の記録を同様の様式で処理することができる。段階Ｂでは、分類器エンジン１０４は、１つ以上の分類ルールに基づいて、入力データ１０２の第１の記録１０２ａ、第２の記録１０２ｂ、及びｉ番目の記録１０２ｃの各々の分類を決定することができる。一部の実装形態では、分類は、それぞれのＦＡＳＴＱ記録内の読み取り配列の判定に基づいて決定され得る。

一部の実装形態では、例えば、分類器エンジン１０４は、ＦＡＳＴＱ記録内の読み取り配列が少なくとも１つの「Ｎ」塩基を含むかどうかに基づいて、初期質スコアコード化エンジンＶ１、Ｖ２に各ＦＡＳＴＱ記録を分類又は転送することができる。ＦＡＳＴＱ記録の読み取り配列が少なくとも１つの「Ｎ」塩基を含むと決定された場合、ＦＡＳＴＱ記録は、初期質スコアコード化エンジンＶ１１０６に転送することができる。あるいは、ＦＡＳＴＱ記録の読み取り配列が少なくとも１つの「Ｎ」塩基を含まないと決定された場合、ＦＡＳＴＱ記録は、初期質スコアコード化エンジンＶ２１１８に転送することができる。しかしながら、これは、分類器ルールの単なる一実施例であり、本開示に従って他のタイプの分類ルールを使用して、初期質スコアコード化エンジンＶ１と、初期質スコアコード化エンジンＶ２との間のＦＡＳＴＱ記録を分類及び転送することができると考えられる。一部の実装形態では、分類器エンジン１０４は、入力データの他の要素を使用して、入力データを分類する。例えば、「Ｎ」塩基の有無に基づく分類の代わりに、分類器エンジン１０４は、「Ｎ」塩基又は他の塩基のパーセンテージ又は決定された部分に基づいて分類することができる。更に、分類器エンジン１０４は、他の塩基コール又は対応するデータ、例えば、質スコアを使用して、１つ以上のＦＡＳＴＱ記録又は関連データを分類又は転送することができる。

図１の実施例では、分類器エンジン１０４は、段階Ｂで、かつ第１のＦＡＳＴＱ記録１０２ａ及びｉ番目のＦＡＳＴＱ記録１０２ｃのそれぞれの読み取り配列の塩基コールに基づいて、第１のＦＡＳＴＱ記録１０２ａ及びｉ番目のＦＡＳＴＱ記録１０２ｃの両方が少なくとも１つの「Ｎ」塩基を有する読み取り配列を表すデータを含むと決定することができる。第１のＦＡＳＴＱ記録１０２ａ及びｉ番目のＦＡＳＴＱ記録１０２ｃが各々、少なくとも１つの「Ｎ」塩基を有するという決定に基づいて、分類器エンジン１０４は、第１のＦＡＳＴＱ記録１０２ａ及びｉ番目のＦＡＳＴＱ記録１０２ｃを初期質スコアコード化エンジンｖ１１０６に転送することができる。一部の実装形態では、分類器エンジン１０４は、例えば、第１のＦＡＳＴＱ記録１０２ａ又はｉ番目のＦＡＳＴＱ記録１０２ｃに対応する１つ以上の完全なＦＡＳＴＱ記録を送信することなく、第１のＦＡＳＴＱ記録１０２ａ及びｉ番目のＦＡＳＴＱ記録１０２ｃに対応するデータを転送する。第１のＦＡＳＴＱ記録１０２ａ及びｉ番目のＦＡＳＴＱ記録１０２Ｃに対応するデータを初期質スコアコード化エンジンｖ１１０６に転送した後、システム１００の実行は、段階Ｃに継続することができる。

段階Ｃでは、初期質スコアコード化エンジンｖ１１０６は、それぞれ、第１のＦＡＳＴＱ記録１０２ａ及びｉ番目のＦＡＳＴＱ記録１０２ｃの読み取り配列に対応する、第１のＦＡＳＴＱ記録１０２ａ及びｉ番目のＦＡＳＴＱ記録１０２ｃのそれぞれの質スコア配列を取得することができる。この実施例では、初期質スコアコード化エンジンｖ１１０６によって受信された質スコア配列は、４個の質スコアを含むことができ、４個の質スコアの各々は、８ビットのＡＳＣＩＩ値「Ｆ」、「：」、「，」、及び「＃」によって表され、「＃」は、「Ｎ」塩基の質スコアを表す。しかしながら、他の実装形態では、同様の情報を表すために使用することができる他の文字又は記号を用いて、質スコアが４個より少ない場合も多い場合もある。

初期質スコアコード化エンジンｖ１１０６は、段階Ｃで、第１の記録１０２ａにおける質スコアの配列に対する初期コード化を実施することができる。初期質スコアコード化エンジンｖ１１０６によって実施されるこの初期コード化は、第１のＦＡＳＴＱ記録１０２ａの質スコアの配列から各質スコアをコード化することができる。この初期コード化は、質スコア「Ｆ」、「：」、「，」、又は「＃」の各々の８ビットＡＳＣＩＩ表現を、各それぞれの質スコアの２ビット表現にコード化することを含むことができる。一部の実装形態では、第１のＦＡＳＴＱ記録１０２ａの質スコア配列の各質スコアの各８ビットのＡＳＣＩＩ表現のコード化は、初期質スコアコード化エンジン１０６がバイト当たり４個の質スコアを含む出力データ１１４を生成することをもたらし得る。初期質スコアコード化エンジンｖ１１０６によって生成されたこのコード化比は、圧縮エンジン１１６への入力データ記録のサイズを４分の１に減少させる。他の実装形態では、他の圧縮比は、より大きい若しくはより少ない質スコア、又は異なるデータサイズの質スコアを、１ビット以上の情報に圧縮することによって実現され得る。

初期質スコアコード化エンジンｖ１１０６は、初期質スコアパッキングエンジンｖ１１０６に転送された各ＦＡＳＴＱ記録に対して初期コード化プロセスを実施し続けることができる。例えば、初期質スコアコード化エンジンｖ１１０６は、ｉ番目のＦＡＳＴＱ記録１０２ｃを受信し、質スコアの配列からの質スコアを、８ビットＡＳＣＩＩ値から質スコアの２ビット表現にコード化することができる。このプロセスは、初期質スコアパッキングエンジンｖ１によって受信された質スコアの配列が各々処理されて、２ビットの質スコアへの初期コード化を生成するまで継続することができる。

より詳細には、初期質スコアコード化エンジンｖ１１０６は、項目１０８、１１０、及び１１２に示されるプロセスを実行することによって、２ビットの質スコアの出力バイナリストリーム１１４への８ビットの質スコアのコード化を実施することができる。質スコアコード化エンジンｖ１１０６は、第１の記録１０２ａから第１の４個の質スコアを取得することができる。一部の実装形態では、これは、初期質スコアコード化エンジンｖ１１０６が、質スコアのそれぞれのＡＳＣＩＩ値を取得することを含むことができる。他の実装形態では、これは、質スコアの他の表現を取得し、それぞれの質スコアを、１１０に示すように対応するＡＳＣＩＩ値にマッピングすることを含むことができる。例えば、第１の４個の質スコア「Ｆ」、「＃」、「Ｆ」、及び「Ｆ」は、初期質スコアコード化エンジンｖ１１０６によって、それらの対応するＡＳＣＩＩ値７０、３５、７０、及び７０にマッピングされ得る。「Ｎ」を有する第１のデータ形式を使用した他の質スコアのマッピングを表１１０に示す。次いで、質スコアのＡＳＣＩＩ表現は、質スコアの各カテゴリに対応する１つのカテゴリがある、それぞれの質スコアカテゴリにマッピングすることができる。この実施例では、質スコアカテゴリは、４個の可能な質スコアの範囲があるため、０、１、２、及び３によって表される。しかしながら、使用中の質スコアリングシステムに基づいて、より多く（例えば、０、１、２、３、４、５など）のカテゴリ又はより少ないカテゴリ（例えば、０、１）があり得る。この実施例では、０は未確認の塩基に対応し、３は高塩基質スコアに対応するが、本開示はこの実装形態に限定されない。むしろ、例えば、整数の代わりに、１００％に対するパーセンテージ、言語ベースのスコア値、例えば、低、中、及び高、又は当該技術分野で既知の他の指示値を使用して、質スコアを表すことができる。

図１の実施例では、初期質スコアコード化エンジンｖ１１０６は、４つのＡＳＣＩＩベースの質スコア「Ｆ」、「＃」、「Ｆ」、及び「Ｆ」に対応する、質スコア値３、０、３、及び３を使用して計算を実施することができる。初期質スコアコード化エンジンｖ１１０６は、ｑ_１＋４^＊ｑ_２＋４^２＊ｑ_３＋４^３＊ｑ_４などの式を使用して質コード化スコアを計算することができ、式中、ｑ_１、ｑ_２、ｑ_３、及びｑ_４の各々は、質スコア値を表す。３、０、３、及び３の質スコア値の場合、式は、項目１１２に示されるように２４３に等しい３＋４^＊０＋４^２＊３＋４^３＊３として評価され得る。初期質スコアコード化エンジンｖ１１０６は、数２４３のバイナリ表現を生成することによって、これらの４個の質スコアの対応するバイナリ表現を生成することができる。このバイナリ表現は、１１１１００１１であり、次いで、このバイナリ表現は、出力バイナリストリーム１１４に追加され得る。このプロセスは、第１のＦＡＳＴＱ記録１０２ａの質スコアの配列内の質スコアの各々が最初に出力バイナリストリーム１１４にコード化されるまで繰り返し続行することができる。

第１のＦＡＳＴＱ記録１０２ａの質スコアの配列の初期コード化後、初期質スコアコード化エンジンｖ１１０６は、受信された後続の各ＦＡＳＴＱ記録に対して初期コード化プロセスを実施し続けることができる。例えば、初期質スコアコード化エンジンｖ１１０６は、第１のＦＡＳＴＱ記録１０２ａを参照して上述したのと同じ様式でｉ番目のＦＡＳＴＱ記録１０２ｃの初期コード化を実施し続けることができる。初期質スコアコード化エンジンｖ１１０６は、後続の質スコアを取得し、項目１０８に示される４個の初期質スコアと同様の様式で初期コード化を実行し続けることができる。

段階Ｄでは、初期質スコアコード化エンジンｖ１１０６は、出力バイナリストリーム１１４を圧縮エンジン１１６に送信することができる。次いで、圧縮エンジン１１６は、所定の圧縮方法に対応する出力バイナリストリーム１１４上でその後の圧縮を実施することができる。一般に、任意の圧縮プロセスを圧縮エンジン１１６によって使用して、出力バイナリストリーム１１４のサイズを更に圧縮又は圧縮することができる。例えば、一部の実装形態では、圧縮エンジン１１６は、Ｚｓｔａｎｄａｒｄ（ＺＳＴＤ）ライブラリのレベル１１を使用して圧縮を実施することができる。ただし、本開示は、そのように限定されない。代わりに、一部の実装形態では、ＺＳＴＤライブラリ並びに他の圧縮ライブラリの他のレベルを含む、他の圧縮方法が使用され得る。一般に、当該技術分野で既知の任意の圧縮方法又は圧縮方法の組み合わせを使用することができる。

他の実例では、分類器エンジン１０４は、１つ以上の分類ルールを適用することによって、受信したＦＡＳＴＱ記録が、少なくとも１つの「Ｎ」を含まない読み取り配列を含むと決定することができる。受信されたＦＡＳＴＱ記録が少なくとも１つの「Ｎ」を含まないという決定に基づいて、分類器エンジン１０４は、第２のＦＡＳＴＱ記録１０２ｂに対応するデータを初期質スコアコード化エンジンｖ２１１８に転送することができる。

第２のＦＡＳＴＱ記録１０２ｂは、いかなるＮも含まないため、質スコア候補の範囲は、質スコア候補の数マイナス１であり得る。すなわち、分類器エンジン１０４が、第２のＦＡＳＴＱ記録が「Ｘ」の質スコア候補を含むと決定した場合、初期質スコアコード化エンジンｖ２１１８で処理され得る質スコア候補は、「Ｘ」－１である。この実装形態では、質スコア配列は、わずか３個の異なる質スコアを有する。したがって、この実施例では、より高い圧縮比を実現するために、部分的に、わずか３個の別個の質スコアが別々に圧縮されることとなる。

段階Ｅでは、初期質スコアコード化エンジンｖ２１１８は、第２の記録１０２ｂの質スコア配列を取得することができる。項目１２０は、第２の記録１０２ｂの質スコア配列の質スコアのサブセットを示す。より詳細には、初期質スコアコード化エンジンｖ２１１１８は、項目１２０、１２２、及び１２４に示されるプロセスを実行することによって、１．６ビットの質スコアの出力バイナリストリーム１２６への８ビットの質スコアのコード化を実施することができる。初期質スコアコード化エンジンｖ２１１８は、第２のＦＡＳＴＱ記録１０２ｂから決定された数の質スコア、例えば、５個の質スコアを取得することができる。一部の実装形態では、これは、初期質スコアコード化エンジンｖ２１１８が質スコアのそれぞれのＡＳＣＩＩ値を取得することに過ぎないことを含むことができる。他の実装形態では、これは、質スコアの別の表現を取得し、かつ各それぞれの質スコアを、１２２に示すように対応するＡＳＣＩＩ値にマッピングすることを含むことができる。例えば、第１の５個の質スコア「：，」「Ｆ，」「：，」「，，」及び「Ｆ，」は、初期質スコアコード化エンジンｖ２１１８によって、それらの対応するＡＳＣＩＩ値５８、７０、５８、４４、及び７０にマッピングされ得る。

次いで、質スコアのＡＳＣＩＩ表現は、質スコアの各カテゴリに対応する１つのカテゴリがある、それぞれの質スコアカテゴリにマッピングすることができる。この実施例では、質スコアカテゴリは、３個の可能な質スコア（すなわち、初期質スコアコード化エンジンｖ２１１８に転送されたＦＡＳＴＱ記録に「Ｎ」塩基がないため、Ｘ個の可能な質スコア－１）の範囲があるため、０、１、及び２で表される。この実施例では、初期質スコアコード化エンジンｖ２１１８は、８ビットのＡＳＣＩＩ質スコアを３進法の数として表すことによって、８ビットのＡＳＣＩＩ質スコアを１．６ビットの質スコアにコード化することができる。ここでは、質スコアの特有のカテゴリが３つ存在するため、３進法が使用される。

ただし、本開示は上述の実施例に限定されない。代わりに、合計８つの固有の質スコアカテゴリなどのより多くの質スコアカテゴリがある実装形態では、初期質スコアコード化エンジンｖ２１１８は、元の８つの固有の質スコアカテゴリが「Ｎ」塩基の質スコアを含む、７つの固有の質スコアカテゴリを有する配列を取得することができる。そのような実装形態では、７進法の数を使用して、初期質スコアコード化エンジンｖ２１１８の初期コード化を表すことができる。

項目１１２と同様に、項目１２４は、質スコアの第１のセットに関連する初期コード化エンジン１１８によって実施される計算を示す。この場合、初期質スコアパッキングエンジンｖ２１１８は、式中、ｑ_１、ｑ_２、ｑ_３、ｑ_４、及びｑ_５の各々が質スコア値を表す、ｑ_１＋３^＊ｑ_２＋３^２＊ｑ_３＋３^３＊ｑ_４＋３^４＊ｑ_５などの式を使用して質パッキング化スコアを計算する。１、２、１、０、及び２の質スコア値の場合、式は、項目１２４に示されるように１７８に等しい１＋３^＊２＋３^２＊１＋３^３＊０＋３^４＊２として評価され得る。次いで、１７８のバイナリ表現、例えば、１０１１００１０を出力バイナリストリーム１２６に追加することができる。

図１の実施例では、初期質スコアパッキングエンジンｖ２１１８は、５個の８ビットの質スコアを１バイトの単一のＡＳＣＩＩ特徴にコード化し、それによって第２の記録１０２ｂの各質スコアを５分の１に圧縮することができる。他の実装形態では、他の圧縮比は、より大きい若しくはより少ない質スコア、又は異なるデータサイズの質スコアを、１ビット以上の情報に圧縮することによって実現され得る。

初期質スコアコード化エンジンｖ１１０６と同様に、初期質スコアコード化エンジンｖ２１１８は、その後の質スコアを取得し、項目１２０に示される初期の５個の質スコアと同様の様式でコード化を実行し続けることができる。段階Ｆでは、初期質スコアコード化エンジンｖ２１１８は、圧縮エンジン１１６への入力として出力バイナリストリーム１２６を提供することができる。次いで、圧縮エンジン１１６は、所定の圧縮方法に対応する出力バイナリストリーム１２６上でその後の圧縮を実施することができる。例えば、場合によっては、圧縮エンジン１１６は、バイトストリングを圧縮するための範囲エンコーダの部分的マッチングによる予測（ＰＰＭＤ）の実装に基づいて圧縮を実施する。一部の実装形態では、ＰＰＭＤ実装の代わりに、又はそれに加えて、当該技術分野で既知の他の圧縮方法を使用することができる。一般に、圧縮エンジン１１６は、任意の圧縮、又は当技術分野で知られている任意の圧縮方法などの圧縮方法の組み合わせを使用することができる。

一部の実装形態では、範囲エンコーダに供給される出力バイナリストリーム１２６の各シンボルは、４ビットコンテキストに従って計算され得、前のスコアにおける最高質スコア値の数を表す。例えば、４ビットのコンテキストは、３０の前の質スコアの最高質スコアの総数を２で割ったものとして計算され得る。この特定の４ビットのコンテキスト式は、４ビットのコンテキストに適合する０～１５の範囲の値を得ることができる。４ビットのコンテキスト又は他のコンテキストベースのコード化アプローチを使用することにより、システム１００は、特定の質スコア、例えば、最高スコア「Ｆ」の複数の隣接するインスタンスを考慮に入れることができ、これは、後のスコアの良好な予測子であり得る。一部の実装形態では、メモリ、計算、又は他の要件に応じて、より大きい又はより小さいコンテキストが使用される。例えば、より大きいコンテキストは、より高い圧縮比をもたらし得るが、より多くのメモリ及び計算時間を必要とする可能性がある。

一部の実装形態では、他のコード化エンジンをシステム１００内で使用することができる。例えば、初期質スコアコード化エンジンｖ１１０６及び初期質スコアコード化エンジンｖ２１１８に加えて、実装形態は、分類器エンジン１０４によって定義された特定の基準に基づいて、第３のコード化エンジンを含むことができる。一部の実装形態では、３つより多くのエンジンが使用され得る。一部の実装形態では、分類器エンジン１０４は、２個の異なる質スコアのみを使用する入力データ１０２内の記録の第３のセットを決定することができる。このようにして、システム１００は、２個の異なる質スコアのみを有するグループについて更に高い圧縮比を実現することができる。

説明を容易にするために、段階Ａ～Ｇを使用する。システム１００によって実施されるプロセスは、段階Ａ～Ｇで示される順序で発生し得るが、他の実装形態では、特定の段階の順序は異なり得る。一部の実装形態では、２つ以上の段階が同時に起こり得る。

図２は、第１の入力データ形式に基づく質スコア圧縮のためのプロセス２００の一実施例を示すフローチャートである。プロセス２００は、１つ以上の電子システム、例えば、図１のシステム１００によって実施され得る。

プロセス２００は、遺伝的配列決定デバイスによって生成された遺伝的読み取り配列を取得すること（２０２）を含む。例えば、図１に示すように、入力データ１０２が取得され、システム１００に提供される。入力データ１０２は、核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列を表すデータ、並びに複数の塩基コールの質スコアを記述するデータを各々が含む、１つ以上の記録を含むことができる。質スコアの各質スコアは、読み取り配列の特定の塩基コールに対応する。

一部の実装形態では、文字は、入力データ１０２内の質スコアを表すために使用される。例えば、第１のＦＡＳＴＱ記録１０２ａの質スコアの配列「Ｆ＃ＦＦＦＦ．．．Ｆ；ＦＦ」の第１の質スコア「Ｆ」は、第１のＦＡＳＴＱ記録１０２ａの読み取り配列「ＣＮＴＧＴＡ．．．ＡＴＡＡＧ」において、第１のヌクレオチド又は塩基（以下、「塩基」と称される）に対応する。一部の実装形態では、入力データ１０２は、１つ以上のＦＡＳＴＱファイルを含むことができ、複数の記録の各記録は、本明細書でＦＡＳＴＱ記録と呼ばれるＦＡＳＴＱ記録の一部分を含むことができる。ＦＡＳＴＱファイルの各部分は、１つの読み取り配列及び読み取り配列の質スコアの対応する配列を含むことができる。

プロセス２００は、遺伝的読み取り配列に対応する複数の質スコアを取得すること（２０４）を含むことができる。例えば、図１に示すように、入力データ１０２は、第１の記録１０２ａ、第２の記録１０２ｂ、及びｉ番目の記録１０２ｃを含む。第１の記録１０２ａ、第２の記録１０２ｂ、及びｉ番目の記録１０２ｃの各々は、遺伝的配列、及び遺伝的配列に対応する質スコア配列の両方を含む。例えば、第１の記録１０２ａは、遺伝的配列「ＣＮＴＧＴＡ．．．ＡＴＡＡＧ」及び「Ｆ＃ＦＦＦＦ．．．Ｆ：，ＦＦ」の対応する質スコア配列を含み、ここで、質スコア配列の各値は、対応する遺伝的配列の特定の場所での配列決定エラーの尤度を示す。

プロセス２００は、遺伝的読み取り配列が少なくとも１つの「Ｎ」塩基を含むと決定すること（２０６）を含む。例えば、図１に示すように、分類器エンジン１０４は、１つ以上の遺伝的読み取り配列を含む入力データ１０２を取得する。入力データ１０２は、第１の記録１０２ａを含む。第１の記録１０２ａは、遺伝的配列「ＣＮＴＧＴＡ...ＡＴＡＡＧ」を含む。遺伝的配列「ＣＮＴＧＴＡ．．．ＡＴＡＡＧ」は、塩基「Ｎ」を含む。分類器エンジン１０４は、第１の記録１０２ａの遺伝的配列「ＣＮＴＧＴＡ．．．ＡＴＡＡＧ」が塩基「Ｎ」を含むと決定することができ、第１の記録１０２ａに対応するデータを初期質スコアコード化エンジンｖ１１０６に転送することができる。同様に、分類器エンジン１０４は、第２の記録１０２ｂを取得することができる。第２の記録１０２ｂは、塩基「Ｎ」を含まない遺伝的配列「ＧＴＣＴＡＧ．．．ＣＡＣＴＴ」を含む。分類器エンジン１０４は、第２の記録１０２ｂの遺伝的配列「ＧＴＣＴＡＧ．．．ＣＡＣＴＴ」が、塩基「Ｎ」を含まないと決定することができ、第２の記録１０２ｂに対応するデータを初期質スコアコード化エンジンｖ２１１８に転送することができる。

プロセス２００は、ｘ進法の数を使用して質スコアの各々をコード化することによって第１のコード化データセットを生成することを含み、ここで、ｘは、遺伝的配列決定デバイスによって使用される異なる質スコアの数を表す整数番号である（２０８）。例えば、初期質スコアコード化エンジンｖ１１０６は、第１の記録１０２ａの質スコア配列を取得する。第１の記録１０２ａの質スコア配列は、４の固有の質スコア「Ｆ」、「：」、「，」、及び「＃」を含む。他の好適な記号又は値を他の実装形態で使用することができる。初期質スコアコード化エンジンｖ１１０６は、次に４進法の数に基づいて整数を計算することができる。例えば、図１の項目１０８に示されるように、初期質スコアコード化エンジンｖ１１０６は、項目１１０に示されるマッピングに基づいて、遺伝的質スコア「Ｆ＃ＦＦ」に対応する値３０３３を生成する。次いで、初期質スコアコード化エンジンｖ１１０６は、値３０３３が４進法の表記の形態で書かれたかのように、値３０３３に基づいて整数を生成する。項目１１２に示すように、結果として生じる整数は２４３に等しく、これは、８のバイナリビットで「１１１１００１１」として書き込むことができる。質スコア「Ｆ＃ＦＦ」などの質スコアのグループのバイナリ形式を生成するために使用される式は、整数値が８以下のビットを使用して表すことができるように構築され得る。例えば、初期質スコアコード化エンジンｖ１１０６によって使用される式は、整数値が２５５未満になるように構築され得る。

別の実施例では、初期質スコアコード化エンジンｖ２１１８は、第２の記録１０２ｂの質スコア配列を取得する。第１の記録１０２ａの質スコア配列とは対照的に、第２の記録１０２ｂの質スコア配列は、３つの固有の質スコア：「Ｆ」、「：」、及び「，」を含む。他の好適な記号又は値を他の実装形態で使用することができる。初期質スコアコード化エンジンｖ２１１８は、次に３進法の数に基づいて整数を計算することができる。固有の質スコアが少ないため、初期質スコアコード化エンジンｖ２１１８は、追加の質スコア（例えば、４の代わりに５）を、８ビットのバイナリにコード化することができる。例えば、図１の項目１２４に示されるように、初期質スコアコード化エンジンｖ２１１８は、項目１２２に示されるマッピングに基づいて、遺伝的質スコア「：Ｆ：，Ｆ」に対応する値１２１０２を生成する。次いで、初期質スコアコード化エンジンｖ２１１８は、値１２１０２が３進法の表記の形態で書かれたかのように、値１２１０２に基づいて整数を生成する。項目１２４に示すように、結果として生じる整数は１７８に等しく、これは、８のバイナリビットで「１０１１００１０」として書き込むことができる。質スコア「：Ｆ：，Ｆ」などの質スコアのグループのバイナリ形式を生成するために使用される式は、整数値が８以下のビットを使用して表すことができるように構築され得る。例えば、初期質スコアコード化エンジンｖ２１１８によって使用される式は、整数値が２５５未満になるように構築され得る。

プロセス２００は、第２のコード化アルゴリズムを使用して第１のコード化データセットをコード化することによって、第２のコード化データセットを生成すること（２１０）を含む。例えば、図１に示すように、圧縮エンジン１１６は、初期質スコアコード化エンジンｖ１１０６又は初期質スコアコード化エンジンｖ２１１８によって提供される入力に基づいて、出力１２８を生成する。一部の実装形態では、圧縮エンジン１１６は、異なる圧縮プロセスからの複数の出力を組み合わせて、出力１２８を生成する。例えば、初期質スコアコード化エンジンｖ１１０６及び初期質スコアコード化エンジンｖ２１１８の両方は、コード化出力１１４及び１２６に示されるように、圧縮エンジン１１６についてのデータを生成することができる。

一部の実装形態では、圧縮エンジン１１６は、取得されたデータに基づいて１つ以上のタイプの圧縮を実施する。例えば、初期質スコアコード化エンジンｖ１１０６の出力を圧縮するために使用される圧縮プロセスは、初期質スコアコード化エンジンｖ２１１８の出力を圧縮するために使用される圧縮プロセスとは異なり得る。本明細書で論じられるように、初期質スコアコード化エンジンｖ１１０６のコード化出力１１４の圧縮は、Ｚ標準（ＺＳＴＤ）ライブラリのレベル１１を使用する圧縮、又は他の形態の圧縮を含むことができる。初期質スコアコード化エンジンｖ２１１８のコード化出力１２６の圧縮は、範囲エンコーダの部分的マッチングによる予測（ＰＰＭＤ）の実装を使用する圧縮、又は他の形態の圧縮を含むことができる。一部の実装形態では、配列の所与の値の周りのコンテキストを使用して、所与の配列を圧縮することができる。例えば、前のスコアにおける最高質スコア値の数を表す４ビットのコンテキストは、圧縮エンジン１１６によって使用され得る。場合によっては、複数の圧縮プロセスを組み合わせて、圧縮出力を生成することができる。

図３は、第２のデータ形式を有する質スコアの配列を圧縮するためのシステムの一実施例を示す図である。システム３００は、Ｑ４０データ形式に基づいてフォーマットされた質スコア配列３０２を含む。質スコア配列３０２は、グループ識別エンジン３０４、頻度カウンタエンジン３１０、低減された配列生成エンジン３１６、単一のマッピングエンジン３２０、グループマッピングエンジン３２６、及び圧縮エンジン３３４によって処理されて、質スコア配列３０２の圧縮バージョンを表す低減された配列３３２及びその後の出力３３６が生成される。

図３の段階Ａでは、質スコア配列３０２が、生成され、かつグループ識別エンジン３０４に送信される。図３の実施例では、質スコア配列３０２は、上述のように塩基に関連する質スコアをコード化するためにＱ４０データ形式を使用する、シーケンサによって生成される。一般に、閾値数を超える固有の質スコアを使用するいくつかのシーケンサは、図３に示されるシステム３００によって実施されるプロセス又は同様のプロセスを使用して、結果として生じる出力データを圧縮することができる。例えば、シーケンサが、遺伝的配列に対応する質スコアをコード化するために８を超える固有の質スコアを使用する場合、シーケンサは、図３を参照して考察されたコード化及び圧縮プロセスを使用することができる。

段階Ｂでは、グループ識別エンジン３０４は、質スコア配列３０２を取得し、項目３０６に示されるように質スコア配列３０２に基づいて１つ以上のグループを生成する。この実装形態では、グループ識別エンジン３０４は、３のグループの隣接する質スコアをグループ化する。他の実装形態では、他の数の質スコアが、１つ以上のグループ内に含まれ得る。項目３１６に示すように、３の質スコアの第１の群は、質スコア配列３０２の文字に対応する、「＠」、「Ｃ」、及び「＠」の文字である。図３の実施例では、質スコア配列３０２の各文字は、配列決定エラーの尤度を示す質スコアを表す。

グループ識別エンジン３０４は、質スコアグループ３０８を生成し、質スコアグループ３０８を頻度カウンタエンジン３１０に送信する。段階Ｃでは、頻度カウンタエンジン３１０は、質スコアグループ３０８を取得し、項目３１２に示されるように、質スコアグループ３０８内のグループの各々についての発生数を決定する。

一部の実装形態では、グループ識別エンジン３０４及び頻度カウンタエンジン３１０は、少なくとも部分的に並列に作動する。例えば、グループ識別エンジン３０４は、質スコア配列３０２に基づいて単一のグループを識別することができる。次いで、グループ識別エンジン３０４は、識別された単一のグループを頻度カウンタエンジン３１０に送信することができる。次いで、頻度カウンタエンジン３１０は、質スコアの識別された単一グループの発生数を決定することができる。場合によっては、質スコア配列３０２からグループを生成することは、質スコア配列３０２の１個以上の質スコアを識別することを含むことができる。一般に、本明細書内で説明される任意のプロセスは、別のプロセスと同時にスレッド化又は実行され得、２つ以上のプロセスは、１つ以上のデバイス又はソフトウェアのインスタンスで実行され得る。

頻度カウンタエンジン３１０は、質スコアグループ頻度３１４を生成し、質スコアグループ頻度３１４を低減された配列生成エンジン３１６に送信する。質スコアグループ頻度３１４は、質スコア配列３０２における１個以上の質スコアの発生数を含むことができる。段階Ｄでは、低減された配列生成エンジン３１６は、質スコアグループ頻度３１４を取得し、単一のマッピングエンジン３２０及びグループマッピングエンジン３２６の両方と通信することができる。すなわち、低減された配列生成エンジン３１６は、質スコア配列３２０の質スコアが質スコアの閾値数を超える質スコアのグループの一部ではない場合、段階Ｅで、単一のマッピングエンジン３２０を使用して、低減された配列３３２におけるエントリを生成することができる。あるいは、低減された配列生成エンジン３１６は、質スコア配列３２０の質スコアが質スコアの閾値数を超える質スコアのグループの一部である場合、段階Ｆでグループマッピングエンジン３２６を使用することができる。本開示の目的のために、低減された配列３３２の「エントリ」又は「単一のエントリ」は、単一の質スコア又は質スコアのグループを置き換えるために使用された、低減された配列３３２における「７２」などの単一の値を含むことができる。

本明細書の目的のために、質スコアの閾値数及びグループ内の質スコアの数の正又は負の表現を使用することによって、質スコアのグループが質スコアの閾値数を超えるかどうかを決定することができる。したがって、単に質スコアの数が閾値よりも多いかどうかではなく、質スコアのグループにおける質スコアの数が閾値を「満たす」かどうかを決定することは、本明細書と一致している。これは、そのような関係が、３個の質スコアの閾値を超える４個の質スコアを有する質スコアのグループ、又は負の３個の質スコアの閾値以下の負の４個の質スコアを有する質スコアのグループとして説明され得るためである。いずれの場合でも、質スコアのグループは、閾値がどのように実装されるかに関係なく、３つを超える質スコアを有する。

説明を容易にするために、本明細書は、グループマッピングエンジン３２６のプロセスを説明する前の単一のマッピングエンジン３２０のプロセスを説明する。しかしながら、同時処理及び他の同様の方法を使用して、グループマッピングエンジン３２６がグループマッピングプロセスを完了する前に、単一のマッピングエンジン３２０が完全な単一のマッピングプロセスを必要としないようにしてもよい。代わりに、低減された配列生成エンジン３１６が単一のマッピングエンジン３２０又はグループマッピングエンジン３２６を呼び出すかどうかは、低減された配列生成エンジン３２６によって処理される質スコア３０２の配列の特定の質スコアに基づいて決定される。

段階Ｅでは、単一のマッピングエンジン３２０は、質スコア配列３０２を取得する。単一のマッピングエンジン３２０は、項目３２１に示すように、質スコア配列３０２及び単一のマッピング文字リスト３２２を使用して、所定の単一のマッピング３２４を生成する。図３の実施例では、単一のマッピング文字リスト３２２は、整数値０～６３を含む。質スコア配列３０２のＡＳＣＩＩ値は、値３３～９６を含む。このようにして、質スコア配列３０２の各値は、０～６３の特定の値にマッピングされ得る。例えば、ＡＳＣＩＩ値６４に対応する質スコア配列３０２の「＠」文字は、整数値３１にマッピングされ得る。同様に、ＡＳＣＩＩ値６５に対応する所与の質スコア配列における「Ａ」文字は、整数値３３などにマッピングされ得る。

所定の単一のマッピング３２４に示されるように、３３の値に対応するＡＳＣＩＩ文字「！」は、０～６３の内の０の値にマッピングされる。３４の値に対応するＡＳＣＩＩ文字「”」は、１の値にマッピングされる。同様に、９５の値に対応するＡＳＣＩＩ文字「＿」は、６２の値にマッピングされ、９６の値に対応するＡＳＣＩＩ文字「｀」は、６３の値にマッピングされる。所定の単一のマッピング３２４に示されていない他のマッピングがまた、単一のマッピングエンジン３２０によって生成され得る。

他の実施態様では、他のマッピングを使用することができる。例えば、０～６３の代わりに、３３～９６のＡＳＣＩＩ値などの質スコア配列３０２の値が３３～９６の値にマッピングされる、より小さい又はより大きい範囲が使用され得る。グループマッピングエンジン３２６によって生成されたマッピングなどの他のマッピングは、３３～９６の値以外の値範囲を占めることができる。一部の実装形態では、質スコア配列３０２の固有の質スコアの数を使用して、質スコア配列３０２の質スコアをマッピングする範囲を決定する。例えば、質スコア配列３０２が６３個の固有の質スコアを含む場合、質スコア配列３０２の質スコアをマッピングする範囲は、６３の値を含むことができる。一部の実装形態では、他の範囲が使用される。例えば、質スコア配列３０２が第１の数の固有の質スコアを含む場合、範囲は、例えば、単一のマッピングエンジン３２０によって、第１の数の固有の質スコアを２で割ったもの、又は第１の数の固有の質スコアに基づく他の計算結果を含むように計算され得る。一部の実装形態では、その後の動作は、マッピング範囲を決定するために使用される処理結果に適用される。例えば、第１の数の固有の質スコアが奇数であり、第１の数の固有の質スコアに適用される第１の動作が、整数２によって除算され、第２の動作は、実装形態に応じて、対応する処理結果の切り上げ又は切り下げを含むことができる。

段階Ｆでは、グループマッピングエンジン３２６は、質スコアグループ頻度３１４を取得する。グループマッピングエンジン３２６は、質スコアグループ頻度３１４又は質スコア配列３０２に関連する他のデータをグループマッピング文字リスト３２８と一緒に使用して、項目３２７に示されるように、所定のグループマッピング３３０を生成する。図３の実施例では、グループマッピング文字リスト３２８は、１９０の最も頻繁に発生するグループに対応する整数値６４～２４５を含む。一部の実装形態では、グループマッピングエンジン３２６によってより多くの又はより少ないグループがマッピングされ得る。例えば、１９０の最も頻繁に発生するグループを含む所定のグループマッピング３３０を生成する代わりに、グループマッピングエンジン３２６は、２００、２３０、１８５又は任意の他の数の最も頻繁に発生するグループを含む、マッピングを生成することができる。質スコアグループ頻度３１４に対応するＡＳＣＩＩ値は、値３３～９６を含む。グループマッピングエンジン３２６は、質スコアグループ頻度３１４に基づいて、マッピングのためのグループの一部分を決定することができる。例えば、グループマッピングエンジン３２６は、特定の数の最も頻繁に発生するグループ（例えば、１９０の頻繁に発生するグループ）を決定し、最も頻繁に発生するグループの各グループに、値（例えば、６４～２５４の整数値）を割り当てることができる。

所定のグループマッピング３３０に示されるように、図３の実施例では、文字「ＡＣＤ」によって表される質スコアグループは、値６４にマッピングされる。文字「ＦＦＦ」によって表される質スコアグループは、値７２にマッピングされる。文字「ＨＩＪ」によって表される質スコアグループは、値７３にマッピングされる。所定のグループマッピング３３０に示されていない他のマッピングがまた、グループマッピングエンジン３２６によって生成され得る。

他の実施態様では、他のマッピングを使用することができる。例えば、６４～２５４の代わりに、質スコアグループ頻度３１４内のグループがマッピングされるより小さい又はより大きい範囲を使用することができる。例えば、質スコアグループ頻度３１４内のグループは、０～２５５の値にマッピングされ得る。単一のマッピングエンジン３２０によって生成されたマッピングなどの他のマッピングは、０～２５５のグループマッピングに使用される値以外の値を占めることができる。

低減された配列生成エンジン３１６は、グループマッピングエンジン３２６及び単一のマッピングエンジン３２０を使用して、質スコア配列３０２を処理して、低減された配列３３２を生成する。質スコア配列３０２から導出されたデータは、質スコア配列３３２自体を含むことができる。あるいは、質スコア配列３０２から導出されたデータは、頻度カウンタエンジン３１０によって出力されるデータを含むことができる。頻度カウンタエンジン３１０によって出力されるデータは、質スコアグループ頻度３１４を含むことができる。低減された配列３３２は、所定の単一のマッピング３２４及び所定のグループマッピング３３０からの値の組み合わせである。

低減された配列生成エンジン３１６は、質スコア配列３０２、質スコアグループ頻度、又はその両方を処理し、かつ単一のマッピングエンジン３２０又はグループマッピングエンジン３２６を使用して、低減された配列３３２内のエントリを生成するかどうかを決定することができる。所定のグループマッピング３３０内のグループに属する質スコア配列３０２内のグループの発生は、所定のグループマッピング３３０からの値で置き換えられる。例えば、「Ａ」質スコアとそれに続く「Ｃ」質スコアとそれ続く「Ｄ」質スコアの発生は、低減された配列３３２内の値６４によって置き換えられる。

所定のグループマッピング３３０のグループのうちの１つのメンバーではない質スコアの場合、所定の単一のマッピング３２４が使用される。例えば、質スコア配列３０２の第１の値は、ＡＳＣＩＩ値６４に対応する文字「＠」である。質スコア配列３０２内に現れるとき、文字「＠」は、所定のグループマッピング３３０内のグループのメンバーではない。次いで、文字「＠」は、所定の単一のマッピング３２４に基づいてマッピングされる。所定の単一のマッピング３２４に基づく「＠」のマッピングは、値３１である。低減された配列生成エンジン３１６は、低減された配列３３２内の「＠」の位置に対応する値３１を追加する。

段階Ｇでは、低減された配列生成エンジン３１６は、上述のように、かつ項目３３１に示されるように、所定のグループマッピング３３０、所定の単一のマッピング３２４、及び質スコア配列３０２から導出されたデータを使用して、低減された配列３３２を生成する。低減された配列生成エンジン３１６は、低減された配列３３２を圧縮エンジン３３４に送信する。

段階Ｈでは、圧縮エンジン３３４は、所定の圧縮方法に対応する、低減された配列３３２上でその後の圧縮を実施する。例えば、場合によっては、圧縮エンジン３３４は、低減された配列３３２を圧縮するための範囲エンコーダの部分的マッチングによる予測（ＰＰＭＤ）の実装に基づいて圧縮を実施する。一部の実装形態では、ＰＰＭＤ実装の代わりに、又はそれに加えて、当該技術分野で既知の他の圧縮方法を使用することができる。一般に、圧縮エンジン３３４は、任意の圧縮、又は当技術分野で知られている任意の圧縮方法のような圧縮方法の組み合わせを使用することができる。圧縮エンジン３３４は、圧縮エンジン３３４によって使用される圧縮方法への入力として、低減された配列３３２に基づいて出力３３６を生成する。出力３３６は、質スコア配列３０２の圧縮バージョンを表す。

一部の実装形態では、圧縮エンジン３３４に供給される低減された配列３３２の各値は、１バイトのコンテキストに従って圧縮される。例えば、低減された配列３３２の所与の値について、低減された配列３３２の前の値は、低減された配列３３２の所与の値を圧縮するために、文脈として使用され得る。１バイトのコンテキストを使用して、範囲エンコーダ又は別の圧縮若しくはコード化方法のＰＰＭＤ実装に従って、低減された配列３３２を圧縮することができる。速度、得られた圧縮出力、又は他のパラメータのバランスを取るために、より大きい又はより小さいコンテキストを使用することができる。場合によっては、出力３３６の結果として生じる圧縮比は、質スコアあたり２ビット以上であり得る。例えば、４個以上の質スコアを、メモリ空間の１バイト又は８ビットに圧縮することができる。一般に、図１の出力１２８と同様の出力３３６は、任意のさらなるプロセスで使用され得、又は実装に応じて記憶され得る。

説明を容易にするために、段階Ａ～Ｈを使用する。システム３００によって実施されるプロセスは、段階Ａ～Ｈで示される順序で発生し得るが、他の実装形態では、特定の段階の順序は異なり得る。一部の実装形態では、２つ以上の段階が同時に起こり得る。

図４は、第２のデータ形式を有する質スコアの配列を圧縮するためのプロセスの一実施例を示すフロー図である。プロセス４００は、１つ以上の電子システム、例えば、図３のシステム３００によって実施され得る。

プロセス４００は、遺伝的配列決定デバイスによって生成された遺伝的読み取り配列を取得すること（４０２）と、遺伝的読み取り配列に対応する複数の質スコアを取得すること（４０４）と、を含む。例えば、図３に示すように、質スコア配列３０２は、遺伝的データ配列に基づいてシーケンサによって生成され、グループ識別エンジン３０４に送信される。図３の実施例では、質スコア配列３０２は、上述のように塩基に関連する質スコアをコード化するためにＱ４０データ形式を使用する、シーケンサによって生成される。一般に、閾値数を超える固有の質スコアを使用する任意のシーケンサは、図３に示されるシステム３００によって実施されるプロセス又は同様のプロセスを使用して、結果として生じる出力データを圧縮することができる。例えば、シーケンサが、遺伝的配列に対応する質スコアをコード化するために８を超える固有の質スコアを使用する場合、シーケンサは、図３を参照して考察されたコード化及び圧縮プロセスを使用することができる。

プロセス４００は、複数の質スコアの各質スコアグループについての発生頻度を決定すること（４０６）を含む。例えば、図３に示すように、グループ識別エンジン３０４は、質スコア配列３０２を取得し、かつ質スコア配列３０２内の複数の質スコアに基づいて、いくつかの質スコアグループを生成する。一部の実装形態では、質スコアのグループは、質スコア配列３０２内で互いに隣接する質スコアを含む。例えば、質スコア配列３０２が質スコア「＠Ｃ＠ＤＦＦＦＦ．．．」を含む場合、グループ識別エンジン３０４によって決定されたグループは、３の質スコアがグループを生成するために使用される実装における質スコア「＠Ｃ＠」を含むことができる。

一部の実装形態では、グループ識別エンジン３０４は、１つ以上のグループを頻度カウンタエンジン３１０に送信し、頻度カウンタエンジン３１０は、各質スコアグループの発生頻度を決定する。例えば、頻度カウンタエンジン３１０は、グループ識別エンジン３０４によって決定された各グループについて、グループの発生が質スコア配列３０２内にどれだけ存在するかを決定することができる。図３の実施例では、質スコア配列３０２の質スコアを３のグループにグループ化する。しかしながら、他の実装形態では、他の数の質スコアを使用することができる。例えば、グループ識別エンジン３０４は、４の質スコア、２質スコア、又は任意の他の数の質スコアのグループを決定して、質スコアグループを生成することができる。

プロセス４００は、複数の質スコアの各質スコアについて、質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであるかどうかを決定すること（４０８）を含む。例えば、図３に示すように、低減された配列生成エンジン３１６、単一のマッピングエンジン３２０、及びグループマッピングエンジン３２６は、所定の単一のマッピング３２４及び所定のグループマッピング３３０に基づいて、低減された配列３３２を生成する。低減された配列３３２の各質スコアについて、低減された配列生成エンジン３１６は、質スコアが所定のグループマッピング３３０に含まれるグループのメンバーであるかどうかを決定する。質スコアが所定のグループマッピング３３０に含まれるグループのメンバーである場合、質スコアは、グループの他の質スコアと共に、低減された配列３３２内の単一のエントリとしてコード化される。

一部の実装形態では、所定のグループマッピング３３０の各グループは、所定の閾値を満たす。例えば、所定のグループマッピング３３０の各グループは、グループマッピングに含まれる所定の回数の質スコア配列３０２内で生じ得る。所定のグループマッピング３３０の各グループは、質スコア配列３０２内の他のグループよりも頻繁に発生する所定の数のグループに属することができる。図３の実施例では、所定のグループマッピング３３０は、１９０の最も頻繁に発生する質スコアグループを含む。次いで、閾値は、とりわけ実装形態に応じて、１９１番目に最も頻繁に発生する質スコアグループ、１９０番目に最も頻繁に発生する質スコアグループに対応する発生数として定義され得る。次いで、所定のグループマッピング３３０の１９０の最も頻繁に発生する質スコアグループは、全てこの閾値を満たす。

一部の実装形態では、異なる量の質スコアグループを使用して、所定のグループマッピング３３０を生成することができる。例えば、所定のグループマッピング３３０のグループの数は、シーケンサによって使用される質スコアの数に基づいて決定され得る。次いで、マッピングを生成して、最適化プロセスを満たすことができる。例えば、最適化プロセスは、単一の値としてコード化されるグループの数を最大化することと、所定のグループマッピング３３０の質スコアグループに属さず、かつ単一の値としてコード化される質スコアの数を最小化することと、を含むことができる。最適化するパラメータは、図３の所定のグループマッピング３３０などのグループマッピングに含まれるグループの数、並びに所定のグループマッピング３３０内の１つ以上のグループを生成するために使用される質スコアの数を含むことができる。図３の所定の単一のマッピング３２４などの単一のマッピングにおける質スコアの数は、遺伝的配列読み取りに対応する質スコアを表すためにシーケンサによって使用される固有の質スコアの数に対応し得る。

一部の実装形態では、質スコアグループは、質スコア配列内で一緒に現れる隣接する質スコアに基づく。例えば、「＠Ｃ＠ＤＦＦＦＦ．．．」として表される質スコア配列３０２は、隣接する質スコアのグループ「ＦＦＦ」を含む。隣接する質スコアのグループ「ＦＦＦ」は、所定のグループマッピング３３０に含まれる。所定のグループマッピング３３０によれば、隣接する質スコアのグループ「ＦＦＦ」は、単一の値７２として、低減された配列生成エンジン３１６によってコード化されるべきである。もちろん、他の実装形態では、マッピング又はコード化の目的で他の値を使用することができる。

一部の実装形態では、質スコアグループのメンバーではないスコアは、低減された配列内の単一のエントリとしてマッピングされる。例えば、３個の質スコアを使用して質スコアのグループを生成する実装形態では、「＠Ｃ＠ＤＦＦＦＦ．．．」として表される質スコア配列３０２の第１の値「＠」は、特定の質スコアグループのメンバーではない。したがって、第１の値「＠」は、所定の単一のマッピング３２４に従って、低減された配列３３２に単一の値３１としてコード化される。図３の実施例では、所定の単一のマッピング３２４は、質スコア配列３０２及び同じ長さの新しい範囲の質スコアを表すために使用される値の１対１の一致であり、その結果、所定のグループマッピング３３０内のグループの一部ではない任意の質スコアは、所定の単一のマッピング３２４を生成するために使用される元の値プラス又はマイナスのシフト値として低減された配列３３２にコード化される。例えば、図３では、質スコアグループのメンバーではない質スコアに対応する単一の値は、３３の値だけシフトされる。シフトを使用して、グループマッピング又は単一のマッピングのいずれかの専用の連続的な値の範囲を生成することができる。

プロセス４００は、質スコアが特定の質スコアグループのメンバーであるという決定に基づいて、特定の質スコアグループの表現として、低減された配列に含めるための単一のエントリを生成すること（４１０）を含む。例えば、低減された配列生成エンジン３１６は、「＠Ｃ＠ＤＦＦＦＦ．．．」として表される質スコア配列３０２が質スコアのグループ「ＦＦＦ」を含むと決定することができる。質スコアのグループ「ＦＦＦ」は、所定のグループマッピング３３０に含まれる。所定のグループマッピング３３０によれば、隣接する質スコアのグループ「ＦＦＦ」は、単一の値７２として、低減された配列生成エンジン３１６によってコード化されるべきである。しかしながら、本開示は、質スコアのグループを単一のエントリ又は値と置き換えることに限定されない。他の実装形態では、単一の質スコアを、所定の単一のマッピングを使用して、単一のエントリ又は値で置き換えることができる。そのような単一の質スコアの置換は、単一のエントリ又は値が単一の質スコアよりも小さいビットサイズを有する単一の質スコアを表すように選択され得るため、有益であり得る。

プロセス４００は、生成されたエントリの各々を集約することによって、低減された配列を生成すること（４１２）を含む。例えば、低減された配列生成エンジン３１６は、「＠Ｃ＠ＦＦＦＦ．．．」として表される質スコア配列３０２の質スコア「＠」に対応する３１の第１のコード化値、質スコア「Ｃ」に対応する３４の第２のコード化値は、質スコア「＠」に対応する３１の第３のコード化値、質スコア「Ｄ」に対応する３５のさらなるコード化値、及び質スコアグループ「ＦＦＦ」に対応する７２の第５のコード化値を集約することができる。低減された配列生成エンジン３１６は、質スコア配列３０２のその後の値に基づいて、その後のコード化値を生成することができる。低減された配列生成エンジン３１６は、質スコア配列３０２の全ての値が低減された配列３３２内に表されるまで継続することができる。

一部の実装形態では、低減された配列３３２に基づいて、さらなる圧縮ステップが実施される。例えば、図３に示すように、低減された配列３３２は、圧縮エンジン３３４に送信され得る。次いで、圧縮エンジン３３４は、低減された配列３３２上で１つ以上の圧縮プロセスを実施して、出力３３６を生成することができる。図１に示されるプロセスと同様に、圧縮エンジン３３４によって実施されるその後の圧縮ステップの前に生成される低減された配列３３２によって表される第１のコード化は、出力３３６の結果として生じる圧縮を改善するのに有利であり得る。低減された配列３３２の形態は、圧縮エンジン３３４が元の質スコア配列３０２よりも迅速又は効果的にデータを圧縮することができるような形態であり得る。例えば、低減された配列３３２は、質スコア配列３０２の圧縮バージョンとすることができ、圧縮エンジン３３４によって実施される圧縮の持続時間又は質は、入力のサイズに依存することができる。このようにして、低減された配列３３２を生成するための初期コード化ステップは、圧縮エンジン３３４によって達成される圧縮の質を圧縮及び増加させるのにかかる時間を減少させることができる。

図５は、第１のデータ形式を有する質スコアの配列を復元するためのプロセス５００の一実施例を示すフロー図である。プロセス５００は、１つ以上の電子システム、例えば、図１のシステム１００によって実施され得る。

プロセス５００は、ｘ進法の数を使用して複数の質スコアの各々をコード化することによって生成された第１のコード化データセットを取得することを含み、ここで、ｘは、遺伝的配列決定デバイスによって使用される異なる質スコアの数を表す整数番号である（５０２）。例えば、復号化エンジンは、バイナリ出力１１４又はバイナリ出力１２６を取得することができる。

プロセス５００は、ｘ進法の数を使用して、第１の復号化データセットを生成すること（５０４）を含む。例えば、項目１０８及び１２０に示されるプロセスと同様に、第１のコード化データセットは、コード化に使用されるｘ進法の数に基づいて復号化され得、ここで、ｘは、複数の質スコアに存在する固有の質スコアの数に対応する整数である。一部の実装形態では、第１の復号化データのバイナリ表現の整数値は、ｘ進法の数のｘで繰り返し除算されて、ｘ進法の数が生成され得る。

プロセス５００は、１つ以上の他の復号化データセット内で第１の復号化データセットを順序付けること（５０６）を含む。一部の実装形態では、順序付けエンジンは、復号化データセット及び１つ以上の他の復号化データセットを取得し、第１のコード化データセットに基づいて、第１の復号化データを順序付けることができる。例えば、順序付けエンジンは、第１のコード化データセットの一部分を決定することができ、それは、次に、第１の復号化データセットを生成するために復号化される。順序付けエンジンはまた、１つ以上の他の復号化データセットを生成するために復号化される、第１のコード化データセットの部分を決定することができる。第１の復号化データセットの元の場所及び第１のコード化データセット内の１つ以上の他の復号化データセットに基づいて、順序付けエンジンは、第１の復号化データセットを１つ以上の他の復号化データセット内に順序付けすることができる。

プロセス５００は、第１の復号化データセット及び１つ以上の他の復号化データセットに基づいて、集約復号化データセットを生成すること（５０８）を含む。例えば、１つ以上の他の復号化データセット内の第１の復号化データセットの順序付けに基づいて、集約復号化データセットエンジンは、第１の復号化データセット及び１つ以上の他の復号化データセットを含む、集約復号化データセットを生成することができる。集約復号化データセットは、第１のコード化データセットを生成するために使用されるデータと同様のデータを含むことができる。集約復号化データセットは、実装形態に応じて他のプロセス又は動作で使用され得る。

図６は、第２のデータ形式を有する質スコアの配列を復元するためのプロセス６００の一実施例を示すフロー図である。プロセス６００は、１つ以上の電子システム、例えば、図３のシステム３００によって実施され得る。

プロセス６００は、単一のマッピングデータベース及びグループマッピングデータベースに基づいて生成された低減された配列を取得すること（６０２）を含む。例えば、復号化エンジンは、システム３００又は他のシステムからの低減された配列３３２又は他の関連データを取得することができる。次いで、低減された配列生成エンジン３１６に対応して示されるプロセスを逆に実施して、質スコア配列３０２を生成することができる。

プロセス６００は、低減された配列及び単一のマッピングデータベース及びグループマッピングデータベースに基づいて、第１の復号化データセットを生成すること（６０４）を含む。上述のように、復号化エンジンは、低減された配列生成エンジン３１６と同様であるが、質スコア配列３０２を生成するために逆順序で動作を実施することができる。例えば、復号化エンジンは、低減された配列３３２を取得し、所定のグループマッピング３３０及び所定の単一のマッピング３２４を使用して、低減された配列３３２を復号化し、質スコア配列３０２の少なくとも一部分に対応する第１の復号化データセットを生成することができる。

プロセス６００は、１つ以上の他の復号化データセット内で第１の復号化データセットを順序付けること（６０６）を含む。例えば、復号化エンジンは、低減された配列３３２の第１の部分を復号化し、低減された配列３３２の第１の部分に対応する第１の順序を決定することができる。一部の実装形態では、低減された配列３３２の順序を使用して、第１の復号化データセット及び１つ以上の他の復号化データセットの順序を決定することができる。例えば、第１の復号化データセットは、低減された配列３３２の第１の部分に対応することができる。結果として、第１の復号化データセットは、最終的に集約された復号化データセットの開始時に順序付けられ得る。次いで、その後の１つ以上の他の復号化データセットが、１つ以上の他の復号化データセットを生成するために使用される低減された配列３３２に対応するデータの順序に基づいて順序付けられ得る。

プロセス６００は、第１の復号化データセット及び１つ以上の他の復号化データセットに基づいて、集約復号化データセットを生成すること（６０８）を含む。例えば、集約復号化データセットエンジンを使用して、上述のように１つ以上の他の復号化データセット内で第１の復号化データセットを順序付けることに基づいて、集約復号化データセットを生成することができる。集約復号化データセットは、低減された配列３３２などの低減された配列を生成するために使用されるデータと同様のデータを含むことができる。集約復号化データセットは、実装形態に応じて他のプロセス又は動作で使用され得る。

図７は、質スコアの圧縮方法を決定するためのプロセス７００の一実施例を示すフロー図である。プロセス７００は、１つ以上の電子システム、例えば、図３のシステム３００又は図１のシステム１００によって実施され得る。

プロセス７００は、遺伝的シーケンサから遺伝的データを取得すること（７０２）を含む。様々な形態の遺伝的シーケンサは、当業者に知られている。例えば、決定エンジンは、所与の遺伝的シーケンサによって生成された１個以上の質スコアに対応する遺伝的データを取得することができる。

プロセス７００は、遺伝的データ内の固有の質スコアの数を決定すること（７０４）を含む。例えば、所与のシーケンサのタイプ、モデル、又は特定のソフトウェアに応じて、塩基コールの質スコアは、１つ以上の記号又は値によって表され得る。次いで、１個以上の質スコアを表すために使用される固有の記号又は値の数を使用して、遺伝的データの質スコアのためにどの圧縮方法が使用されるかを決定することができる。

プロセス７００は、遺伝的シーケンサから取得された遺伝的データ内に８以下の固有の質スコアが存在するという決定に対応する第１の決定経路、及び遺伝的シーケンサから取得された遺伝的データ内に８を超える固有の質スコアが存在するという決定に対応する第２の決定経路を含む。遺伝的データ内に８以下の固有の質スコアが存在する場合、図２に記載のプロセス２００に対応するプロセスを実施して、遺伝的データの質スコアを圧縮することができる。遺伝的データ内に８を超える固有の質スコアが存在する場合、図４に記載のプロセス４００に対応するプロセスを実施して、遺伝的データの質スコアを圧縮することができる。

一部の実装形態では、他の閾値を使用して、どの圧縮方法を使用するかを決定する。例えば、８の固有の質スコアの代わりに、システムは、図４に記載のプロセス４００に対応するプロセスを遂行するために、７、９、又は１０の固有の質スコアが必要であると決定することができる。一般に、システムは、任意の好適な閾値又は決定モデリングを使用して、質スコアの所与のセットなどのデータの所与のセットを圧縮するために複数の異なる圧縮方法のうちのどれが使用されるかを決定することができる。

本開示によって言及されるゲノムデータ（例えば、入力データ１０２など）は、例えば、限定としてではないが、ヌクレオチド配列、デオキシリボ核酸（deoxyribonucleic acid、ＤＮＡ）配列、リボ核酸（Ribonucleic acid、ＲＮＡ）、及びアミノ酸配列を含むことができる。本明細書における説明は、ヌクレオチド配列の形態のゲノム情報に関してかなり詳細であるが、当業者によって理解されるように、いくつかの変形例があるものの、この明細書の順序付けられたデータ配列が、他のゲノムデータについて実施することができることは理解されよう。

図８は、第１のデータ形式を有する質スコアの配列をコード化する（例えば、圧縮する）ためのプロセスの実験結果のグラフ表示である。図８は、データセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の圧縮からの結果を示す。データセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」は、上述のＱ４形式を使用してフォーマットされる。データセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の質スコアは、４個の固有の質スコアを含む。チャート８０２は、データセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」に対応する生データの相対サイズ、並びにｇｚｉｐレベル９の圧縮、ｚｓｔｄレベル１１の圧縮、及びレナＱ４圧縮を含む様々な技術を使用した圧縮後のデータセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の圧縮バージョンを示す。レナＱ４圧縮は、図１に示されるプロセス１００及び本明細書に記載の方法に対応する。

チャート８０２は、データセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の生データが７４０２３３５８５６バイトであり、ｇｚｉｐレベル９の圧縮を使用するデータセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の圧縮バージョンが４１７５１２３９５バイトであり、ｚｓｔｄレベル１１の圧縮を使用するデータセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の圧縮バージョンが４５２７３３６８９バイトであり、かつレナＱ４圧縮を使用するデータセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の圧縮バージョンが２５９８６５９９１バイトであることを示す。データセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」のレナＱ４圧縮によって得られた圧縮は、他の代替圧縮方法によって達成される圧縮よりも大きい。凡例８０６は、どのバーがどの圧縮方法に対応し、どのバーがデータセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の生データに対応することを示す。

チャート８０４は、データセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」で使用される圧縮方法の各々についての圧縮時間を示す。チャート８０４は、ｇｚｉｐレベル９の圧縮を使用するデータセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の圧縮バージョンの生成のために１９８０秒かかり、ｚｓｔｄレベル１１の圧縮を使用するデータセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の圧縮バージョンの生成のために１０８秒かかり、かつレナＱ４圧縮を使用するデータセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」の圧縮バージョンの生成のために３６秒かかることを示す。レナＱ４圧縮を使用してデータセット「ＳＲＲ６８８２９０９＿１．ｆａｓｔｑ」を圧縮するための時間は、他の代替圧縮方法によって達成される圧縮時間未満である。

図９は、第２のデータ形式を有する質スコアの配列をコード化する（例えば、圧縮する）ためのプロセスの実験結果のグラフ表示である。図９は、データセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の圧縮からの結果を示す。データセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」は、上述のＱ４０形式を使用してフォーマットされる。データセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の質スコアは、４を超える固有の質スコアを含む。チャート９０２は、データセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」に対応する生データの相対サイズ、並びにｇｚｉｐレベル９の圧縮、ｚｓｔｄレベル１１の圧縮、及びレナＱ４０圧縮を含む様々な技術を使用した圧縮後のデータセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の圧縮バージョンを示す。レナＱ４０圧縮は、図３に示されるプロセス３００に対応する。

チャート９０２は、データセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の生データが５０３３５９２１７８バイトであり、ｇｚｉｐレベル９の圧縮を使用するデータセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の圧縮バージョンが１２８９５６４６９０バイトであり、ｚｓｔｄレベル１１の圧縮を使用するデータセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の圧縮バージョンが１２９０８２８６６５バイトであり、かつレナＱ４０圧縮を使用するデータセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の圧縮バージョンが１２２８５１８４５６バイトであることを示す。データセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」のレナＱ４０圧縮によって得られた圧縮は、他の代替圧縮方法によって達成される圧縮よりも大きい。凡例９０６は、どのバーがどの圧縮方法に対応し、どのバーがデータセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の生データに対応することを示す。

チャート９０４は、データセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」で使用される圧縮方法の各々についての圧縮時間を示す。チャート９０４は、ｇｚｉｐレベル９の圧縮を使用するデータセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の圧縮バージョンの生成のために３７６２秒かかり、ｚｓｔｄレベル１１の圧縮を使用するデータセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の圧縮バージョンの生成のために３０６秒かかり、かつレナＱ４０圧縮を使用するデータセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」の圧縮バージョンの生成のために１０１秒かかることを示す。レナＱ４０圧縮を使用してデータセット「ＥＲＲ１７４４７００＿１．ｆａｓｔｑ」を圧縮するための時間は、他の代替圧縮方法によって達成される圧縮時間未満である。

図１０は、多変量序データに基づいて、関節モデルを使用して医学分析を生成するためのシステムを実装するために使用され得る、コンピュータシステム１０００の構成要素の図である。

コンピューティングデバイス１０００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。コンピューティングデバイス１０５０は、パーソナルデジタルアシスタント、携帯電話（cellular telephone）、スマートフォン、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことが意図されている。加えて、コンピューティングデバイス１０００又は１０５０は、ユニバーサルシリアルバス（Universal Serial Bus、ＵＳＢ）フラッシュドライブを含むことができる。ＵＳＢフラッシュドライブは、オペレーティングシステム及び他のアプリケーションを記憶することができる。ＵＳＢフラッシュドライブは、別のコンピューティングデバイスのＵＳＢポートに挿入できる無線送信機又はＵＳＢコネクタなどの入力／出力構成要素を含むことができる。本明細書に示される構成要素、この構成要素の接続及び関係、並びにこの構成要素の機能は、単なる例であることを意味し、本文書に記載及び／又は特許請求される発明の実装形態を限定することを意味するものではない。

コンピューティングデバイス１０００は、プロセッサ１００２、メモリ１００４、記憶デバイス１００８、メモリ１００４及び高速拡張ポート１０１０に接続する高速インターフェース１００８、並びに低速バス１０１４及び記憶デバイス１００８に接続する低速インターフェース１０１２を含む。構成要素１００２、１００４、１００８、１００８、１０１０、及び１０１２の各々は、様々なバスを使用して相互接続されており、共通のマザーボード上に、又は適宜他の様式で装着することができる。プロセッサ１００２は、メモリ１００４内に又は記憶デバイス１００８上に記憶した命令を含む、コンピューティングデバイス１０００内での実行のための命令を処理して、高速インターフェース１００８に連結されたディスプレイ１０１６などの外部入力／出力デバイス上でＧＵＩ用のグラフィカル情報を表示することができる。他の実装形態では、複数のプロセッサ及び／又は複数のバスを、適宜、複数のメモリ及び複数種類のメモリと共に使用できる。また、複数のコンピューティングデバイス１０００を接続して、各デバイスが、例えば、サーババンク、ブレードサーバ群、又はマルチプロセッサシステムとして、必要な演算の部分を提供するようにすることができる。

メモリ１００４は、計算デバイス１０００内に情報を格納する。一実装形態では、メモリ１００４は、揮発性メモリユニット又は複数の揮発性メモリユニットである。別の実装形態では、メモリ１００４は、不揮発性メモリユニット又は複数の不揮発性メモリユニットである。メモリ１００４はまた、磁気ディスク又は光ディスクなどの、別の形態のコンピュータ可読媒体であり得る。

記憶デバイス１００８は、計算デバイス１０００のための大容量ストレージを提供することができる。一実装形態では、記憶デバイス１００８は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、若しくはテープデバイス、フラッシュメモリ若しくは他の類似のソリッドステートメモリデバイス、又はストレージエリアネットワーク若しくは他の構成内のデバイスを含むデバイスのアレイなど、コンピュータ可読媒体とすることができるか、又はそれを内包することができる。コンピュータプログラム製品は、情報キャリア内に、有形に実施できる。コンピュータプログラム製品はまた、実行されると、上述したものなどの１つ以上の方法を実行する命令を内包することができる。情報キャリアとは、メモリ１００４、記憶デバイス１００８、又はプロセッサ１００２上のメモリなど、コンピュータ可読媒体又はマシン可読媒体である。

高速コントローラ１００８は、コンピューティングデバイス１０００の帯域幅集約演算を管理する一方、低速コントローラ１０１２は、低帯域幅集約演算を管理する。このような機能の割り当ては、一実施例に過ぎない。一実装形態では、高速コントローラ１００８は、例えば、グラフィックプロセッサ又はアクセラレータを経てメモリ１００４、ディスプレイ１０１６へ、及び様々な拡張カード（非表示）を受け入れることができる高速拡張ポート１０１０へ連結されている。この実装形態では、低速コントローラ１０１２は、記憶デバイス１００８及び低速拡張ポート１０１４に連結されている。様々な通信ポート、例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、Ｅｔｈｅｒｎｅｔ、無線Ｅｔｈｅｒｎｅｔを含むことができる低速拡張ポートは、例えば、ネットワークアダプタを介して、キーボード、ポインティングデバイス、マイクロフォン／スピーカペア、スキャナ、又はスイッチ若しくはルータなどのネットワーキングデバイスなどの１つ以上の入力／出力デバイスに結合できる。コンピューティングデバイス１０００は、図に示されるように、いくつかの異なる形態で実装することができる。例えば、コンピューティングデバイスは標準サーバ１０２０として実装することができ、又はかかるサーバ群において複数回実装することができる。コンピューティングデバイスはまた、ラックサーバシステム１０２４の一部として実装できる。加えて、コンピューティングデバイスは、ラップトップコンピュータ１０２２などのパーソナルコンピュータに実装できる。あるいは、コンピューティングデバイス１０００からの構成要素を、デバイス１０５０などのモバイルデバイス（非表示）内の他の構成要素と組み合わせることができる。このようなデバイスの各々は、コンピューティングデバイス１０００、１０５０のうちの１つ以上を内包することができ、システム全体を、互いに通信する複数のコンピューティングデバイス１０００、１０５０から構成することができる。

コンピューティングデバイス１０００は、図に示されるように、いくつかの異なる形態で実装することができる。例えば、コンピューティングデバイスは標準サーバ１０２０として実装することができ、又はかかるサーバ群において複数回実装することができる。コンピューティングデバイスはまた、ラックサーバシステム１０２４の一部として実装できる。加えて、コンピューティングデバイスは、ラップトップコンピュータ１０２２などのパーソナルコンピュータに実装できる。あるいは、コンピューティングデバイス１０００からの構成要素を、デバイス１０５０などのモバイルデバイス（非表示）内の他の構成要素と組み合わせることができる。このようなデバイスの各々は、コンピューティングデバイス１０００、１０５０のうちの１つ以上を内包することができ、システム全体を、互いに通信する複数のコンピューティングデバイス１０００、１０５０から構成することができる。

コンピューティングデバイス１０５０は、構成要素の中でもとりわけ、プロセッサ１０５２、メモリ１０６４、並びにディスプレイ１０５４、通信インターフェース１０６６、及び送受信機１０６８などの入出力デバイスを含む。デバイス１０５０はまた、追加のストレージを設けるために、マイクロドライブ又は他のデバイスなどの、記憶デバイスを設けることができる。構成要素１０５０、１０５２、１０６４、１０５４、１０６６、及び１０６８の各々は、様々なバスを使用して相互接続されており、構成要素はのうちのいくつかは、共通のマザーボード上に、又は適宜他の様式で実装できる。

プロセッサ１０５２は、メモリ１０６４に記憶された命令を含む、コンピューティングデバイス１０５０内の命令を実行することができる。プロセッサは、別個及び複数のアナログ及びデジタルプロセッサを含むチップのチップセットとして実装できる。これに加えて、プロセッサは、いくつかのアーキテクチャのうちのいずれかを使用して実装できる。例えば、プロセッサ１０１０を、ＣＩＳＣ（Complex Instruction Set Computers、複合命令セットコンピュータ）プロセッサ、ＲＩＳＣ（Reduced Instruction Set Computer、縮小命令セットコンピュータ）プロセッサ、又はＭＩＳＣ（Minimal Instruction Set Computer、最小命令セットコンピュータ）プロセッサとすることができる。プロセッサは、例えば、ユーザインターフェースの制御、デバイス１０５０によって実行されるアプリケーション、及びデバイス１０５０による無線通信など、デバイス１０５０の他の構成要素の協調を提供することができる。

プロセッサ１０５２は、制御インターフェース１０５８と、ディスプレイ１０５４に連結されたディスプレイインターフェース１０５６とを経て、ユーザと通信することができる。ディスプレイ１０５４を、例えば、ＴＦＴ（Thin-Film-Transistor Liquid Crystal Display、薄膜トランジスタ液晶ディスプレイ）ディスプレイ、ＯＬＥＤ（Organic Light Emitting Diode、有機発光ダイオード）ディスプレイ、又は他の適切なディスプレイ技術とすることができる。ディスプレイインターフェース１０５６は、ディスプレイ１０５４を駆動してグラフィカル情報及び他の情報をユーザに提示するための適切な回路を備えることができる。制御インターフェース１０５８は、ユーザからコマンドを受信し、このコマンドをプロセッサ１０５２への投入のために変換することができる。加えて、デバイス１０５０と他のデバイスとの近距離無線通信を可能にするために、外部インターフェース１０６２を、プロセッサ１０５２との通信に提供することができる。外部インターフェース１０６２を、例えば、一部の実装形態では有線通信用に、又は他の実装形態では無線通信用に提供することができ、多重インターフェースもまた使用することができる。

メモリ１０６４は、計算デバイス１０５０内に情報を記憶する。メモリ１０６４は、コンピュータ可読媒体（複数可）、揮発性メモリユニット（複数可）、又は不揮発性メモリユニット（複数可）のうちの１つ以上として実装され得る。また、例えばＳＩＭＭ（Single In Line Memory Module、シングルインラインメモリモジュール）カードインターフェースを含むことができる、拡張インターフェース１０７２を介して、デバイス１０５０に拡張メモリ１０７４を提供及び接続することができる。このような拡張メモリ１０７４は、デバイス１０５０のための増設記憶空間を提供することができるか、又は、デバイス１０５０のためのアプリケーション若しくは他の情報を記憶することもできる。具体的には、拡張メモリ１０７４は、上述したプロセスを実行又は補完する命令を含むことができ、セキュアな情報を含むこともできる。したがって、例えば、拡張メモリ１０７４は、デバイス１０５０のためのセキュリティモジュールとして設けることができ、デバイス１０５０のセキュアな使用を可能にする命令を用いてプログラムすることができる。加えて、セキュアなアプリケーションは、ＳＩＭＭカードを介して、ハッキング不能な様式でＳＩＭＭカード上に識別情報を配置するなど、追加情報と共に提供できる。

メモリは、例えば、後述するように、フラッシュメモリ及び／又はＮＶＲＡＭメモリを含むことができる。一実装形態では、コンピュータプログラム製品は、情報キャリア内で有形に実施される。コンピュータプログラム製品は、実行されると、上述したものなどの１つ以上の方法を実行する命令を内包する。情報キャリアは、例えば、送受信機１０６８又は外部インターフェース１０６２を介して受信できるメモリ１０６４、拡張メモリ１０７４又はプロセッサ１０５２上のメモリなどの、コンピュータ可読媒体又はマシン可読媒体である。

デバイス１０５０は、必要な場合、デジタル信号処理回路を含むことができる通信インターフェース１０６６を経て無線通信することができる。通信インターフェース１０６６はとりわけ、ＧＳＭ音声通話、ＳＭＳ、ＥＭＳ、又はＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、又はＧＰＲＳなど、様々なモード又はプロトコルの下での通信を提供することができる。このような通信は、例えば、無線周波数トランシーバ１０６８を経て行うことができる。加えて、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ－Ｆｉ、又は他のこのような送受信機（図示せず）を使用するなど、短距離通信が行われることが可能である。加えて、ＧＰＳ（Global Positioning System、全地球測位システム）受信機モジュール１０７０が、デバイス１０５０に追加のナビゲーション関連及び位置関連の無線データを提供することができ、デバイス１０５０上で動作するアプリケーションによって適宜使用できる。

デバイス１０５０はまた、オーディオコーデック１０６０を使用して可聴的に通信することができ、オーディオコーデック１０６０は、ユーザから発話情報を受信し、この発話情報を使用可能なデジタル情報に変換することができる。オーディオコーデック１０６０は同じく、例えば、デバイス１０５０のハンドセット内の、スピーカを経るなど、ユーザのために可聴音を生成することができる。このような音は、音声電話通話からの音を含むことができ、録音された音、例えば、音声メッセージ、音楽ファイルなどを含むことができ、また、デバイス１０５０上で動作するアプリケーションによって生成される音を含むこともできる。

コンピューティングデバイス１０５０は、図に示されるように、いくつかの異なる形態で実装することができる。例えば、コンピューティングデバイスは、携帯電話１０８０として実装できる。また、コンピューティングデバイスを、スマートフォン１０８２、パーソナルデジタルアシスタント、又は他の同様のモバイルデバイスの一部として実装することもできる。

本明細書に記載されるシステム及び方法の様々な実装形態は、デジタル電子回路、集積回路、専用に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこのような実装形態の組み合わせで実現できる。これらの様々な実装形態は、専用又は汎用であり、記憶システム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受信し、かつこれらにデータ及び命令を送信するように結合された少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能及び／又は解釈可能である１つ以上のコンピュータプログラムでの実装形態を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られている）は、プログラム可能なプロセッサのためのマシン命令を含み、高水準手続き型及び／又はオブジェクト指向プログラミング言語で、及び／又はアセンブリ／マシン言語で実装できる。本明細書で使用されるとき、用語「マシン可読媒体」「コンピュータ可読媒体」は、任意のコンピュータプログラム製品、装置、及び／又はデバイス、例えば、磁気ディスク、光ディスク、メモリ、マシン命令及び／又はデータをプログラム可能なプロセッサに提供するために使用されるプログラマブルロジックデバイス（Programmable Logic Device、ＰＬＤ）を指し、マシン可読信号としてマシン命令を受信するマシン可読媒体を含む。用語「マシン可読信号」は、プログラム可能なプロセッサにマシン命令及び／又はデータを提供するために使用される任意の信号を指す。

ユーザとのインタラクションを提供するために、本明細書に記載されるシステム及び技術は、ユーザに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（cathode ray tube、陰極線管）又はＬＣＤ（liquid crystal display、液晶ディスプレイ）モニタ、並びにユーザがコンピュータに入力を提供することができるキーボード及びポインティング装置、例えばマウス又はトラックボールを有するコンピュータ上に実装することができる。他の種類のデバイスを使用して、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックとすることができ、ユーザからの入力は、音響入力、発話入力、又は触覚入力を含む任意の形態で受信することができる。

本明細書に記載されるシステム及び技術は、例えばデータサーバとしての、バックエンド構成要素を含むコンピューティングシステムで、又はミドルウェアコンポーネント、例えば、アプリケーションサーバを含むコンピューティングシステムで、又はフロントエンド構成要素、例えばユーザが介して本明細書に記載されるシステム及び技術の実装形態とインタラクトすることができるグラフィカルユーザインターフェース又はウェブブラウザを有するクライアントコンピュータを含むコンピューティングシステムで、又はこのようなバックエンド、ミドルウェア、又はフロントエンドの構成要素の任意の組み合わせで、実装できる。システムの構成要素は、デジタルデータ通信、例えば通信ネットワークの任意の形態又は媒体によって相互接続できる。通信ネットワークの例として、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、及びインターネットが挙げられる。

計算システムは、クライアント及びサーバを含むことができる。クライアント及びサーバは一般に、互いにリモートであり、通常、通信ネットワークを介してインタラクトする。クライアントとサーバとの関係は、それぞれのコンピュータ上で作動し、かつ互いにクライアント－サーバ関係を有するコンピュータプログラムによって生じる。

いくつかの実施形態を記載してきた。しかしながら、本発明の趣旨及び範囲から逸脱することなく、様々な変更を行うことができることが理解されるであろう。加えて、図に描示される論理フローは、所望の結果を達成するために、示される特定の順序、又は連続的な順序を必要としない。加えて、他の工程を提供することができ、又は記載されたフローから工程を排除することができ、記載されたシステムに他の構成要素を追加するか、又は記載されたシステムから除去することができる。したがって、他の実施形態は、以下の特許請求の範囲内にある。

本明細書に記載の本発明の実施形態、及び機能動作の全ては、本明細書に開示されている構造、及びこれらの構造的同等物を含む、デジタル電子回路、若しくはコンピュータソフトウェア、ファームウェア若しくはハードウェア、又はこれらのうちの１つ以上の組み合わせに実装することができる。本発明の実施形態は、１つ以上のコンピュータプログラム製品、例えば、データ処理装置による実行のために、又はデータ処理装置の動作を制御するためにコンピュータ可読媒体にコード化されるコンピュータプログラム命令のうちの１つ以上のモジュールとして実装することができる。コンピュータ可読媒体は、機械可読格納デバイス、機械可読格納基板、メモリデバイス、機械可読伝搬信号に影響を及ぼす組成物（composition of matter）、又はこれらのうちの１つ以上の組み合わせであり得る。「データ処理装置」という用語は、例としてプログラマブルプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む、データを処理するための全ての装置、デバイス、及び機械を包含する。装置は、ハードウェアに加えて、問題のコンピュータプログラムのための実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はこれらのうちの１つ以上の組み合わせを構成するコードを含むことができる。伝播信号は、人工的に生成された信号、例えば、適切な受信装置への伝送のための情報をコード化するために生成される機械生成された電気、光学、又は電磁信号である。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、又はコードとしても知られる）は、コンパイル型言語又はインタープリタ型言語を含む任意の形式のプログラミング言語で記述することができ、スタンドアロンプログラムとして、又はモジュール、コンポーネント、サブルーチンとして、又は計算環境での使用に適した他のユニットとしてを含む任意の形態で展開することができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応しない。プログラムを、他のプログラム若しくはデータを保持するファイルの一部（例えば、マークアップ言語のドキュメントに格納される１つ以上のスクリプト）に、問題のプログラム専用の単一のファイルに、又は複数の連携ファイル（例えば、１つ以上のモジュール、サブプログラム又はコードの一部を保存するファイル）に格納できる。コンピュータプログラムを展開して、１つの場所にある、若しくは複数の場所に分散して、通信網によって相互接続される、１つのコンピュータ又は複数のコンピュータ上で実行することができる。

本明細書に記載のプロセス、動作、及び／又は論理フローは、本明細書に記載のプロセス、動作、及び／又は論理フローの機能を実現するために１つ以上のコンピュータソフトウェア命令を実行する１つ以上の中央処理ユニット（ＣＰＵ）又はグラフィック処理ユニット（ＧＰＵ）によって実施され得る。プロセス、動作、及び／又は論理フローはまた、ハードウェア回路内で実施され得る。例えば、一部の実装形態では、本開示の動作は、本明細書に記載されるプロセス、動作、及び／又は論理フローの機能を実現するようにプログラム的に構成されたフィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）の論理ゲートを使用して実装される処理エンジンによって実行され得る。別の実施例として、本開示の動作は、本明細書に記載のプロセス、動作、及び／又は論理フローの機能を実現するように構成された特定用途向け集積回路（application-specific integrated circuit、ＡＳＩＣ）の論理ゲートを使用して実施される処理エンジンによって実行され得る。更に他の実装形態では、プロセス、動作、及び／又は論理フローの部分のうちのいくつかは、１つ以上のＣＰＵ又は１つ以上のＧＰＵによって実装され得、プロセス、動作、及び／又は論理フローの部分のうちのいくつかは、ハードウェア回路及び任意の順序で実装され得る。

コンピュータプログラムの実行に適しているプロセッサは、例えば汎用及び特殊用途両方のマイクロプロセッサ、並びに任意の種類のデジタルコンピュータのうちの１つ以上の任意のプロセッサを含む。一般にプロセッサは、命令及びデータを、読み取り専用メモリ若しくはランダムアクセスメモリ、又は両方から受け取る。コンピュータの必須の要素は、命令を実行するためのプロセッサ、並びに命令及びデータを格納するための１つ以上のメモリデバイスである。一般に、コンピュータはまた、データを格納するための１つ以上の大容量記憶デバイス、例えば、磁気、光磁気ディスク若しくは光ディスクからデータを受け取る、大容量記憶デバイスへデータを送信する、若しくは両方のために、大容量記憶デバイスを含む、又は大容量記憶デバイスに動作可能に連結される。しかし、コンピュータはこのようなデバイスを備えている必要はない。更にコンピュータは、別のデバイス、例えば、いくつか例を挙げてみると、タブレットコンピュータ、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、携帯オーディオプレーヤ、全地球測位システム（ＧＰＳ）受信器に組み込むことができる。コンピュータプログラム命令及びデータを記憶するのに適したコンピュータ可読媒体には、不揮発性メモリ、媒体、及びメモリデバイスの全ての形態が含まれ、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスなどの半導体メモリデバイス、例えば、内部ハードディスク又は取り外し可能なディスクなどの磁気ディスク、磁気光学ディスク、並びにＣＤＲＯＭ及びＤＶＤ－ＲＯＭディスクなどが含まれる。プロセッサ及びメモリは、特殊用途論理回路により補うことができる、又は特殊用途論理回路に組み込むことができる。

ユーザとのインタラクションを提供するために、本発明の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（cathode ray tube、陰極線管）又はＬＣＤ（liquid crystal display、液晶ディスプレイ）モニタ、並びにユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス、例えばマウス又はトラックボールを有するコンピュータ上に実装することができる。他の種類のデバイスを使用して、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックとすることができ、ユーザからの入力は、音響入力、発話入力、又は触覚入力を含む任意の形態で受信することができる。

本発明の実施形態は、例えばデータサーバとしての、バックエンド構成要素を含む計算システムで、又はミドルウェア構成要素、例えば、アプリケーションサーバを含む計算システムで、又はフロントエンド構成要素、例えばユーザが本発明の実装形態とインタラクションできるグラフィカルユーザインターフェース若しくはウェブブラウザを有するクライアントコンピュータを含む計算システムで、又はこのようなバックエンド、ミドルウェア、若しくはフロントエンドの構成要素の任意の組み合わせで、実装できる。システムの構成要素は、デジタルデータ通信、例えば通信ネットワークの任意の形態又は媒体によって相互接続できる。通信ネットワークの例として、ローカルエリアネットワーク（local area network、「ＬＡＮ」）、及び広域ネットワーク（wide area network、「ＷＡＮ」）、例えば、インターネットが挙げられる。

本明細書は多くの詳細を含むが、これらは、本発明の、又は特許請求され得るものの範囲を制限するとして解釈されてはならず、むしろ本発明の特定の実施形態に特有の特徴の説明として解釈されるべきである。別個の実施形態の文脈において本明細書に記載されている特定の特徴はまた、単一の実施形態において組み合わせて実装され得る。逆に、単一の実施形態の文脈で説明される様々な特徴はまた、複数の実施形態で別々に、又は任意の好適な部分組み合わせで実装され得る。更に、特徴が特定の組み合わせで機能するものと上述される場合があり、最初にそのように特許請求されていたとしても、特許請求された組み合わせからの１つ以上の特徴は、場合によっては組み合わせから削除することができ、特許請求された組み合わせは、部分的組み合わせ、又は部分的組み合わせの変形に関し得る。

同様に、動作は、特定の順序で図面に表されるが、このような動作が、所望の結果を得るために、示される特定の順序で若しくは順次実行される、又は全ての例示の動作が実行される必要があると理解されるべきではない。特定の状況では、マルチタスク及び並列処理が有利であり得る。更に、上述の実施形態の種々のシステム構成要素の分離は、全ての実施形態でこのような分離を必要とするとして理解されてはならず、記載したプログラムコンポーネント及びシステムは通常、単一のソフトウェア製品に一緒に統合することができる、又は複数のソフトウェア製品内にパッケージ化することができることを理解すべきである。

特定のファイル形式が言及されている各例では、他のファイルタイプ又はフォーマットで置換され得る。例えば、ＨＴＭＬファイルは、ＸＭＬ、ＪＳＯＮ、プレーンテキスト、又は他のタイプのファイルによって置き換えられ得る。更に、テーブル又はハッシュテーブルが言及されている場合、他のデータ構造（スプレッドシート、リレーショナルデータベース、又は構造ファイルなど）を使用することができる。

本発明の特定の実施形態を記載してきた。他の実施形態は、以下の特許請求の範囲内にある。例えば、特許請求の範囲に列挙される工程は、異なる順序で実行することができ、それでも望ましい結果を達成することができる。

他の実施形態
本発明の特定の実施形態を記載してきた。他の実施形態は、以下の特許請求の範囲内にある。例えば、特許請求の範囲に列挙される工程は、異なる順序で実行することができ、それでも望ましい結果を達成することができる。

１００、３００システム
１０００コンピューティングデバイス

Claims

核酸配列データを圧縮するための方法であって、前記方法が、
１つ以上のコンピュータによって、
（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、
（ｉｉ）複数の質スコアであって、前記複数の質スコアの各質スコアは、前記読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく生成された尤度を示す、複数の質スコアと、を表す、核酸配列データを取得することと、
１つ以上のコンピュータによって、前記読み取り配列が少なくとも１つの「Ｎ」塩基を含むかどうかを決定することと、
前記読み取り配列が少なくとも１つの「Ｎ」塩基を含まないという決定に基づいて、１つ以上のコンピュータによって、第１のコード化プロセスを使用して、（ｘマイナス１）進法の数を使用して前記読み取り配列の前記質スコアの各々をコード化することによって、第１のコード化データセットを生成することであって、ｘが、前記核酸配列決定デバイスによって使用される異なる質スコアの数を表す整数である、生成することと、
１つ以上のコンピュータによって、第２のコード化プロセスを使用して、前記第１のコード化データセットをコード化し、それによって、圧縮されるべき前記データを圧縮することと、を含む、方法。
ｘが、３に等しい、請求項１に記載の方法。
前記第１のコード化プロセスが、１つ以上のコンピュータによって、前記読み取り配列の前記複数の質スコアのうちの５個の質スコアの各セットを、３進法の数として前記５個の質スコアのセットの各質スコアを表すことによって、単一のバイトにコード化することを含む、請求項２に記載の方法。
前記読み取り配列が少なくとも１つの「Ｎ」塩基を含むという決定に基づいて、１つ以上のコンピュータによって、第３のコード化プロセスを使用して、前記読み取り配列の４個の質スコアの各セットをメモリの単一のバイトにコード化することによって、第２のコード化データセットを生成することと、
１つ以上のコンピュータによって、第４のコード化プロセスを使用して、前記第２のコード化データをコード化することと、を更に含む、請求項１に記載の方法。
前記第２のコード化プロセスと前記第４のコード化プロセスが、同じである、請求項４に記載の方法。
取得された前記データが、ＦＡＳＴＱファイルを含む、請求項１に記載の方法。
前記第１のコード化データセットが、前記複数の質スコアの圧縮バージョンである、請求項１に記載の方法。
前記第２のコード化プロセスが、圧縮プロセスである、請求項１に記載の方法。
前記圧縮プロセスが、範囲エンコーダの部分的マッチングによる予測（ＰＰＭＤ）の実装を含む、請求項８に記載の方法。
前記第１のコード化データセットの所与の値について、前記所与の値が、前記第１のコード化データセット内の前記所与の値の位置に対して４ビットコンテキストに従って圧縮される、請求項９に記載の方法。
核酸配列データを圧縮するためのシステムであって、前記システムが、
１つ以上のデータ処理装置と、
命令を記憶した１つ以上のコンピュータ可読記憶デバイスであって、前記命令が、前記１つ以上のデータ処理装置によって実行されると、前記１つ以上のデータ処理装置に動作を実施させ、前記動作が、
１つ以上のコンピュータによって、
（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、
（ｉｉ）複数の質スコアであって、前記複数の質スコアの各質スコアは、前記読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく生成された尤度を示す、複数の質スコアと、を表す核酸配列データを取得することと、
前記１つ以上のコンピュータによって、前記読み取り配列が少なくとも１つの「Ｎ」塩基を含むかどうかを決定することと、
前記読み取り配列が少なくとも１つの「Ｎ」塩基を含まないという決定に基づいて、前記１つ以上のコンピュータによって、第１のコード化プロセスを使用して、（ｘマイナス１）進法の数を使用して前記読み取り配列の前記質スコアの各々をコード化することによって、第１のコード化データセットを生成することであって、ｘが、前記核酸配列決定デバイスによって使用される異なる質スコアの数を表す整数である、生成することと、
前記１つ以上のコンピュータによって、第２のコード化プロセスを使用して、前記第１のコード化データセットをコード化し、それによって、圧縮されるべき前記データを圧縮することと、を含む、１つ以上のコンピュータ可読記憶デバイスと、を備える、システム。
ｘが、３に等しい、請求項１１に記載のシステム。
前記第１のコード化プロセスが、前記１つ以上のコンピュータによって、前記読み取り配列の前記複数の質スコアのうちの５個の質スコアの各セットを、３進法の数として前記５個の質スコアのセットの各質スコアを表すことによって、単一のバイトにコード化することを含む、請求項１２に記載のシステム。
前記動作が、
前記読み取り配列が少なくとも１つの「Ｎ」塩基を含むという決定に基づいて、前記１つ以上のコンピュータによって、第３のコード化プロセスを使用して、前記読み取り配列の４個の質スコアの各セットをメモリの単一のバイトにコード化することによって、第２のコード化データセットを生成することと、
前記１つ以上のコンピュータによって、第４のコード化プロセスを使用して、前記第２のコード化データをコード化することと、を更に含む、請求項１１に記載のシステム。
前記第２のコード化プロセスと前記第４のコード化プロセスが、同じである、請求項１４に記載のシステム。
取得された前記データが、ＦＡＳＴＱファイルを含む、請求項１１に記載のシステム。
前記第１のコード化データセットが、前記複数の質スコアの圧縮バージョンである、請求項１１に記載のシステム。
前記第２のコード化プロセスが、圧縮プロセスである、請求項１１に記載のシステム。
前記圧縮プロセスが、範囲エンコーダの部分的マッチングによる予測（ＰＰＭＤ）の実装を含む、請求項１８に記載のシステム。
前記第１のコード化データセットの所与の値について、前記所与の値が、前記第１のコード化データセット内の前記所与の値の位置に対して４ビットコンテキストに従って圧縮される、請求項１９に記載のシステム。
命令を記憶したコンピュータ可読記憶デバイスであって、前記命令が、データ処理装置によって実行されると、前記データ処理装置に動作を実施させ、前記動作が、
核酸配列データを取得することであって、前記核酸配列データが、
（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、
（ｉｉ）複数の質スコアであって、前記複数の質スコアの各質スコアは、前記読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく生成された尤度を示す、複数の質スコアと、を表す、取得することと、
１つ以上のコンピュータによって、前記読み取り配列が少なくとも１つの「Ｎ」塩基を含むかどうかを決定することと、
前記読み取り配列が少なくとも１つの「Ｎ」塩基を含まないという決定に基づいて、第１のコード化プロセスを使用して、（ｘマイナス１）進法の数を使用して前記読み取り配列の前記質スコアの各々をコード化することによって、第１のコード化データセットを生成することであって、ｘが、前記核酸配列決定デバイスによって使用される異なる質スコアの数を表す整数である、生成することと、
第２のコード化プロセスを使用して、前記第１のコード化データセットをコード化し、それによって、圧縮されるべき前記データを圧縮することと、を含む、コンピュータ可読記憶デバイス。
ｘが、３に等しい、請求項２１に記載のコンピュータ可読記憶デバイス。
前記第１のコード化プロセスが、前記読み取り配列の前記複数の質スコアのうちの５個の質スコアの各セットを、３進法の数として前記５個の質スコアのセットの各質スコアを表すことによって、単一のバイトにコード化することを含む、請求項２２に記載のコンピュータ可読記憶デバイス。
前記動作が、
前記読み取り配列が少なくとも１つの「Ｎ」塩基を含むという決定に基づいて、第３のコード化プロセスを使用して、前記読み取り配列の４個の質スコアの各セットをメモリの単一のバイトにコード化することによって、第２のコード化データセットを生成することと、
第４のコード化プロセスを使用して、前記第２のコード化データをコード化することと、を更に含む、請求項２１に記載のコンピュータ可読記憶デバイス。
前記第２のコード化プロセスと前記第４のコード化プロセスが、同じである、請求項２４に記載のコンピュータ可読記憶デバイス。
取得された前記データが、ＦＡＳＴＱファイルを含む、請求項２１に記載のコンピュータ可読記憶デバイス。
前記第１のコード化データセットが、前記複数の質スコアの圧縮バージョンである、請求項２１に記載のコンピュータ可読記憶デバイス。
前記第２のコード化プロセスが、圧縮プロセスである、請求項２１に記載のコンピュータ可読記憶デバイス。
前記圧縮プロセスが、範囲エンコーダの部分的マッチングによる予測（ＰＰＭＤ）の実装を含む、請求項２８に記載のコンピュータ可読記憶デバイス。
前記第１のコード化データセットの所与の値について、前記所与の値が、前記第１のコード化データセット内の前記所与の値の位置に対して４ビットコンテキストに従って圧縮される、請求項２９に記載のコンピュータ可読記憶デバイス。
核酸配列データを圧縮するための方法であって、前記方法が、
１つ以上のコンピュータによって、
（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、
（ｉｉ）複数の質スコアであって、前記複数の質スコアの各質スコアは、前記読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく生成された尤度を示す、複数の質スコアと、を表す核酸配列データを取得することと、
１つ以上のコンピュータによって、前記複数の質スコアにおける各質スコアグループの発生頻度を決定することであって、各質スコアグループが、前記複数の質スコアのうちの質スコアのサブセットを含む、決定することと、
前記複数の質スコアの第１のサブセットにおける各特定の質スコアについて、
１つ以上のコンピュータによって、前記質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであると決定すること、及び
前記質スコアが前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであるという決定に基づいて、１つ以上のコンピュータによって、かつ所定のグループマッピングを使用して、低減された配列内の単一のエントリとして使用される第１のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第１のデータが、前記特定の質スコアグループを表す、生成すること、を行うことと、
１つ以上のコンピュータによって、前記特定の質スコアグループの各々について生成された前記第１のデータを集約することによって前記低減された配列を生成することと、を含む、方法。
取得された前記データが、ＦＡＳＴＱファイルを含む、請求項３１に記載の方法。
前記複数の質スコアにおける各質スコアが、前記質スコアのＡＳＣＩＩ値を表すデータである、請求項３１に記載の方法。
前記複数の質スコアの第２のサブセットにおける各特定の質スコアについて、
１つ以上のコンピュータによって、前記質スコアの前記配列の前記第２のサブセットにおける前記特定の質スコアが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではないと決定することと、
１つ以上のコンピュータによって、かつ所定の単一のマッピングを使用して、低減された配列内の単一のエントリとして使用される第２のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第２のデータが、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアを表し、前記所定の単一のマッピングが、複数の単一の質スコアの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、生成することと、を更に含む、請求項３１に記載の方法。
１つ以上のコンピュータによって、前記低減された配列を生成することが、
１つ以上のコンピュータによって、前記特定の質スコアグループの各々について生成された前記第１のデータを集約することと、
１つ以上のコンピュータによって、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアの各々について生成された前記第２のデータを集約することと、を含む、請求項３４に記載の方法。
１つ以上のコンピュータによって、前記複数の質スコアにおける複数の質スコアグループを識別することを更に含む、請求項３１に記載の方法。
前記所定のグループマッピングが、複数の異なる質スコアグループの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、請求項３１に記載の方法。
核酸配列データを圧縮するためのシステムであって、前記システムが、
１つ以上のデータ処理装置と、
命令を記憶した１つ以上のコンピュータ可読記憶デバイスであって、前記命令が、前記１つ以上のデータ処理装置によって実行されると、前記１つ以上のデータ処理装置に動作を実施させ、前記動作が、
１つ以上のコンピュータによって、
（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、
（ｉｉ）複数の質スコアであって、前記複数の質スコアの各質スコアは、前記読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく生成された尤度を示す、複数の質スコアと、を表す核酸配列データを取得することと、
前記１つ以上のコンピュータによって、前記複数の質スコアにおける各質スコアグループの発生頻度を決定することであって、各質スコアグループが、前記複数の質スコアのうちの質スコアのサブセットを含む、決定することと、
前記複数の質スコアの第１のサブセットにおける各特定の質スコアについて、
前記１つ以上のコンピュータによって、前記質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであると決定すること、
前記質スコアが前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであるという決定に基づいて、前記１つ以上のコンピュータによって、かつ所定のグループマッピングを使用して、低減された配列内の単一のエントリとして使用される第１のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第１のデータが、前記特定の質スコアグループを表す、生成すること、を行うことと、
前記１つ以上のコンピュータによって、前記特定の質スコアグループの各々について生成された前記第１のデータを集約することによって前記低減された配列を生成することと、を含む、１つ以上のコンピュータ可読記憶デバイスと、を備える、システム。
取得された前記データが、ＦＡＳＴＱファイルを含む、請求項３８に記載のシステム。
前記複数の質スコアにおける各質スコアが、前記質スコアのＡＳＣＩＩ値を表すデータである、請求項３８に記載のシステム。
前記動作が、
前記複数の質スコアの第２のサブセットにおける各特定の質スコアについて、
前記１つ以上のコンピュータによって、前記質スコアの前記配列の前記第２のサブセットにおける前記特定の質スコアが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではないと決定することと、
前記１つ以上のコンピュータによって、かつ所定の単一のマッピングを使用して、低減された配列内の単一のエントリとして使用される第２のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第２のデータが、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアを表し、前記所定の単一のマッピングが、複数の単一の質スコアの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、生成することと、を更に含む、請求項３８に記載のシステム。
前記１つ以上のコンピュータによって、前記低減された配列を生成することが、
前記１つ以上のコンピュータによって、前記特定の質スコアグループの各々について生成された前記第１のデータを集約することと、
前記１つ以上のコンピュータによって、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアの各々について生成された前記第２のデータを集約することと、を含む、請求項４１に記載のシステム。
前記１つ以上のコンピュータによって、前記複数の質スコアにおける複数の質スコアグループを識別することを更に含む、請求項３８に記載のシステム。
前記所定のグループマッピングが、複数の異なる質スコアグループの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、請求項３８に記載のシステム。
命令を記憶したコンピュータ可読記憶デバイスであって、前記命令が、データ処理装置によって実行されると、前記データ処理装置に動作を実施させ、前記動作が、
核酸配列データを取得することであって、前記核酸配列データが、
（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、
（ｉｉ）複数の質スコアであって、前記複数の質スコアの各質スコアは、前記読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく生成された尤度を示す、複数の質スコアと、を表す、取得することと、
前記複数の質スコアにおける各質スコアグループの発生頻度を決定することであって、各質スコアグループが、前記複数の質スコアのうちの質スコアのサブセットを含む、決定することと、
前記複数の質スコアの第１のサブセットにおける各特定の質スコアについて、
前記質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであると決定すること、
前記質スコアが前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであるという決定に基づいて、所定のグループマッピングを使用して、低減された配列内の単一のエントリとして使用される第１のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第１のデータが、前記特定の質スコアグループを表す、生成すること、を行うことと、
前記特定の質スコアグループの各々について生成された前記第１のデータを集約することによって前記低減された配列を生成することと、を含む、コンピュータ可読記憶デバイス。
取得された前記データが、ＦＡＳＴＱファイルを含む、請求項４５に記載のコンピュータ可読記憶デバイス。
前記複数の質スコアにおける各質スコアが、前記質スコアのＡＳＣＩＩ値を表すデータである、請求項４５に記載のコンピュータ可読記憶デバイス。
前記動作が、
前記複数の質スコアの第２のサブセットにおける各特定の質スコアについて、
前記質スコアの前記配列の前記第２のサブセットにおける前記特定の質スコアが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではないと決定することと、
所定の単一のマッピングを使用して、低減された配列内の単一のエントリとして使用される第２のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第２のデータが、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアを表し、前記所定の単一のマッピングが、複数の単一の質スコアの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、生成することと、を更に含む、請求項４５に記載のコンピュータ可読記憶デバイス。
前記低減された配列を生成することが、
前記特定の質スコアグループの各々について生成された前記第１のデータを集約することと、
前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアの各々について生成された前記第２のデータを集約することと、を含む、請求項４８に記載のコンピュータ可読記憶デバイス。
前記動作が、前記複数の質スコアにおける複数の質スコアグループを識別することを更に含む、請求項４５に記載のコンピュータ可読記憶デバイス。
前記所定のグループマッピングが、複数の異なる質スコアグループの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、請求項４５に記載のコンピュータ可読記憶デバイス。
核酸配列データを圧縮するための方法であって、前記方法が、
１つ以上のコンピュータによって、
（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、
（ｉｉ）複数の質スコアであって、前記複数の質スコアの各質スコアは、前記読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく識別された尤度を示す、複数の質スコアと、を表す核酸配列データを取得することと、
１つ以上のコンピュータによって、前記複数の質スコアにおける各質スコアグループの発生頻度を決定することであって、各質スコアグループが、前記複数の質スコアのうちの質スコアのサブセットを含む、決定することと、
前記複数の質スコアの第１のサブセット内の各特定の質スコアについて、１つ以上のコンピュータによって、前記複数の質スコアの前記第１のサブセットにおける前記特定の質スコアが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではないと決定すること、及び
１つ以上のコンピュータによって、かつ所定の単一のマッピングを使用して、低減された配列内の単一のエントリとして使用される第１のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第１のデータが、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアを表す、生成すること、を行うことと、
１つ以上のコンピュータによって、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアの各々につい生成されたて前記第１のデータを集約することによって前記低減された配列を生成することと、を含む、方法。
取得された前記データが、ＦＡＳＴＱファイルを含む、請求項５２に記載の方法。
前記複数の質スコアにおける各質スコアが、前記質スコアのＡＳＣＩＩ値を表すデータである、請求項５２に記載の方法。
前記方法が、
前記複数の質スコアの第２のサブセットにおける各特定の質スコアについて、
１つ以上のコンピュータによって、前記質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであると決定することと、
前記質スコアが前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであるという決定に基づいて、１つ以上のコンピュータによって、かつ所定のグループマッピングを使用して、低減された配列内の単一のエントリとして使用される第２のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第２のデータが、前記特定の質スコアグループを表し、前記所定のグループマッピングが、複数の異なる質スコアグループの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、生成することと、を更に含む、請求項５２に記載の方法。
１つ以上のコンピュータによって、前記低減された配列を生成することが、
１つ以上のコンピュータによって、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアの各々について生成された前記第１のデータを集約することと、
１つ以上のコンピュータによって、前記特定の質スコアグループの各々について生成された前記第２のデータを集約することと、を含む、請求項５５に記載の方法。
前記方法が、
１つ以上のコンピュータによって、前記複数の質スコアにおける複数の質スコアグループを識別することを更に含む、請求項５２に記載の方法。
前記所定の単一のマッピングが、複数の単一の質スコアの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、請求項５２に記載の方法。
核酸配列データを圧縮するためのシステムであって、前記システムが、
１つ以上のデータ処理装置と、
命令を記憶した１つ以上のコンピュータ可読記憶デバイスであって、前記命令が、前記１つ以上のデータ処理装置によって実行されると、前記１つ以上のデータ処理装置に動作を実施させ、前記動作が、
１つ以上のコンピュータによって、
（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、
（ｉｉ）複数の質スコアであって、前記複数の質スコアの各質スコアは、前記読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく識別された尤度を示す、複数の質スコアと、を表す核酸配列データを取得することと、
前記１つ以上のコンピュータによって、前記複数の質スコアにおける各質スコアグループの発生頻度を決定することであって、各質スコアグループが、前記複数の質スコアのうちの質スコアのサブセットを含む、決定することと、
前記複数の質スコアの第１のサブセットにおける各特定の質スコアについて、
前記１つ以上のコンピュータによって、前記複数の質スコアの前記第１のサブセットにおける前記特定の質スコアが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではないと決定すること、及び
前記１つ以上のコンピュータによって、かつ所定の単一のマッピングを使用して、低減された配列内の単一のエントリとして使用される第１のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第１のデータが、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアを表す、生成すること、を行うことと、
前記１つ以上のコンピュータによって、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアの各々について生成された前記第１のデータを集約することによって前記低減された配列を生成することと、を含む、１つ以上のコンピュータ可読記憶デバイスと、を備える、システム。
取得された前記データが、ＦＡＳＴＱファイルを含む、請求項５９に記載のシステム。
前記複数の質スコアにおける各質スコアが、前記質スコアのＡＳＣＩＩ値を表すデータである、請求項５９に記載のシステム。
前記動作が、
前記複数の質スコアの第２のサブセットにおける各特定の質スコアについて、
前記１つ以上のコンピュータによって、前記質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであると決定することと、
前記質スコアが前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであるという決定に基づいて、前記１つ以上のコンピュータによって、かつ所定のグループマッピングを使用して、低減された配列内の単一のエントリとして使用される第２のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第２のデータが、前記特定の質スコアグループを表し、前記所定のグループマッピングが、複数の異なる質スコアグループの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、生成することと、を更に含む、請求項５９に記載のシステム。
前記１つ以上のコンピュータによって、前記低減された配列を生成することが、
前記１つ以上のコンピュータによって、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアの各々について生成された前記第１のデータを集約することと、
前記１つ以上のコンピュータによって、前記特定の質スコアグループの各々について生成された前記第２のデータを集約することと、を含む、請求項６２に記載のシステム。
前記システムが、
前記１つ以上のコンピュータによって、前記複数の質スコアにおける複数の質スコアグループを識別することを更に含む、請求項５９に記載のシステム。
前記所定の単一のマッピングが、複数の単一の質スコアの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、請求項５９に記載のシステム。
命令を記憶したコンピュータ可読記憶デバイスであって、前記命令が、データ処理装置によって実行されると、前記データ処理装置に動作を実施させ、前記動作が、
核酸配列データを取得することであって、前記核酸配列データが、
（ｉ）核酸配列決定デバイスによって生成された複数の塩基コールに対応するデータを含む読み取り配列と、
（ｉｉ）複数の質スコアであって、前記複数の質スコアの各質スコアは、前記読み取り配列の特定の塩基コールが核酸配列決定デバイスによって正しく識別された尤度を示す、複数の質スコアと、を表す、取得することと、
前記複数の質スコアにおける各質スコアグループの発生頻度を決定することであって、各質スコアグループが、前記複数の質スコアのうちの質スコアのサブセットを含む、決定することと、
前記複数の質スコアの第１のサブセットにおける各特定の質スコアについて、
前記複数の質スコアの前記第１のサブセットにおける前記特定の質スコアが、所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではないと決定すること、及び
１つ以上のコンピュータによって、かつ所定の単一のマッピングを使用して、低減された配列内の単一のエントリとして使用される第１のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第１のデータが、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアを表す、生成すること、を行うことと、
１つ以上のコンピュータによって、前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアの各々について生成された前記第１のデータを集約することによって前記低減された配列を生成することと、を含む、コンピュータ可読記憶デバイス。
取得された前記データが、ＦＡＳＴＱファイルを含む、請求項６６に記載のコンピュータ可読記憶デバイス。
前記複数の質スコアにおける各質スコアが、前記質スコアのＡＳＣＩＩ値を表すデータである、請求項６６に記載のコンピュータ可読記憶デバイス。
前記動作が、
前記複数の質スコアの第２のサブセットにおける各特定の質スコアについて、
前記質スコアが所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであると決定することと、
前記質スコアが前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーであるという決定に基づいて、所定のグループマッピングを使用して、低減された配列内の単一のエントリとして使用される第２のデータを生成することであって、前記低減された配列内の前記単一のエントリとして使用される前記第２のデータが、前記特定の質スコアグループを表し、前記所定のグループマッピングが、複数の異なる質スコアグループの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、生成することと、を更に含む、請求項６６に記載のコンピュータ可読記憶デバイス。
前記低減された配列を生成することが、
前記所定の閾値を満たす発生頻度を有する特定の質スコアグループのメンバーではない前記質スコアの各々につい生成されたて前記第１のデータを集約することと、
前記特定の質スコアグループの各々について生成された前記第２のデータを集約することと、を含む、請求項６９に記載のコンピュータ可読記憶デバイス。
前記動作が、
前記複数の質スコアにおける複数の質スコアグループを識別することを更に含む、請求項６６に記載のコンピュータ可読記憶デバイス。
前記所定の単一のマッピングが、複数の単一の質スコアの各々と、対応する単一のエントリとの間の１対１のマッピングを定義する、請求項６６に記載のコンピュータ可読記憶デバイス。