JP2020509473A5

JP2020509473A5 -

Info

Publication number: JP2020509473A5
Application number: JP2019542715A
Authority: JP
Filing date: 2018-02-14
Publication date: 2021-03-25
Anticipated expiration: 2038-02-14

Claims

ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータをコード化する方法であって、前記方法は、
前記リードを１つ又以上のリファレンスシーケンスにアライメントさせ、それによってアライメントリードを作成し、
指定されたマッチング規則に従って、前記１つ以上のリファレンスシーケンスを使用して前記アライメントリードを分類し、それによってアライメントリードのクラスを作成し、
前記分類されたアライメントリードを記述子の複数のブロックとしてコード化し、
前記分類されたアライメントリードを前記記述子の多数のブロックとしてコード化することは、前記アライメントリードの前記クラスに従って前記記述子を選択することを含み、
前記記述子のブロックをヘッダ情報で構造化し、それにより連続したアクセスユニットを作成することを含む、コード化方法。
前記指定されたマッチング規則を満たさない前記リードをマッピングされていないリードのクラスに分類することをさらに含み、
少なくともいくつかの前記マッピングされていないリードを使用してリファレンスシーケンスのセットを構築し、
前記マッピングされていないリードのクラスを、構築された前記リファレンスシーケンスのセットにアライメントし、
前記分類されたアライメントリードを記述子の複数のブロックとしてコード化し、
前記構築されたリファレンスシーケンスのセットをコード化し、
前記記述子のブロック及び前記コード化されたリファレンスシーケンスをヘッダ情報で構築し、それにより連続するアクセスユニットを作成する、
請求項１に記載のコード化方法。
前記分類は、マッピングに使用される前記リファレンスシーケンスに関して前記マッピングされたリードにミスマッチが存在しない場合、前記リファレンスシーケンスにミスマッチのないゲノムリードを第１番目の「クラスＰ」として分類することを含み、
前記分類することは、シーケンシング装置がいずれの「塩基」も呼び出すことができず、かつ各リードにおけるミスマッチの数が所定のしきい値を超えない位置においてのみミスマッチが見出される場合に、ゲノムリードを第２番目の「クラスＮ」として分類することをさらに含み、
前記分類は、前記シーケンシング装置がいかなる「塩基」も呼び出すことができなかった位置でミスマッチが見つかった場合、ゲノムリードを第３番目の「クラスＭ」として識別することをさらに含み、「ｎタイプ」のミスマッチと名付けら、及び／又はリファレンスシーケンスとは異なる「塩基」と呼ばれ、「ｓタイプ」のミスマッチと名付けられ、及び前記ミスマッチの数は、前記「ｎタイプ」のミスマッチ、前記「ｓタイプ」のミスマッチの数に対して所定のしきい値を超えず、前記しきい値は関数（ｆ（ｎ，ｓ））で与えられ、
前記分類は、前記「クラスＭ」と同じ種類のミスマッチが発生する可能性がある場合、
ゲノムリードを第４番目の「クラスＩ」と識別することをさらに含み、少なくとも１つのミスマッチの類型：「挿入」（「ｉタイプ」）、「削除」（「ｄタイプ」）、ソフトクリップ（「ｃタイプ」）が加えられ、ここで、各タイプの前記ミスマッチの数は、対応する所定のしきい値を超えず、しきい値は関数（ｗ（ｎ，ｓ，ｉ，ｄ，ｃ））で与えられ、
前記分類することは、クラスＰ、Ｎ、Ｍ、Ｉのいずれの分類も見出さない全てのリードを含むものとして、ゲノムリードを第５番目の「クラスＵ」として識別することをさらに含む、
請求項２に記載のコード化方法。
コード化されたゲノムシーケンスのリードはペアになっており、
前記分類は、前記分類することが、１つのリードがクラスＰ、Ｎ、Ｍ又はＩに属し、他のリードが「クラスＵ」に属するすべてのリードペアを含むものとして、ゲノムリードを第６番目の「クラスＨＭ」として識別することをさらに含む、
請求項３に記載のコード化方法。
前記２つのメイトのリードが同じクラス（Ｐ、Ｎ、Ｍ、Ｉ、Ｕのそれぞれ）に分類されているかどうかを識別し、前記ペアを同じ識別されたクラスに割り当て、
前記２つのメイトのリードが異なるクラスに分類されているかどうかを識別し、それらがいずれも「クラスＵ」に属していない場合、前記ペアのリードを次式に従って最も優先度の高いクラスに割り当て：
Ｐ＜Ｎ＜Ｍ＜Ｉ
ここで、「クラスＰ」の優先度が最も低く、「クラスＩ」の優先度が最も高く、
前記２つのメイトのリードのうち一方のみが「クラスＵ」に属すると分類されたかどうかを識別し、前記ペアのリードを「クラスＨＭ」のシーケンスに属すると分類すること、
をさらに含む、
請求項４に記載のコード化方法。
リードＮ、Ｍ、Ｉの各クラスは、「ｎタイプ」のミスマッチの数（２９２）、関数ｆ（ｎ，ｓ）（２９３）及び関数ｗ（ｎ，ｓ，ｉ，ｄ，ｃ）（２９４）によって、各クラスＮ、Ｍ、Ｉに対してそれぞれ定義されたしきい値のベクトル（２９２、２９３、２９４）に従って、２つ以上のサブクラス（２９６、２９７、２９８）にさらに分割され、
前記２つのメイトのリードが同じサブクラスに分類されているかどうかを識別し、前記ペアを同じサブクラスに割り当て、
前記２つのメイトのリードが異なるクラスのサブクラスに分類されているかどうかを識別し、前記ペアを、次の式に従って、優先度の高い前記クラスに属する前記サブクラスに割り当て、
Ｎ＜Ｍ＜Ｉ
ここで、Ｎが最も優先度が低く、Ｉが最も優先度が高く、
前記２つのメイトのリードが同じクラスに分類されており、そのクラスがＮ、Ｍ、又はＩであるが、サブクラスが異なるかどうかを識別し、前記ペアを、次の式に従って、最も優先度が高いサブクラスに割り当てる、
Ｎ１＜Ｎ２＜・・・＜Ｎｋ
Ｍ１＜Ｍ２＜・・・Ｍｊ
Ｉ１＜Ｉ２＜・・・＜Ｉｈ
ここで、最も高いインデックスが最も高い優先度を持つ、
請求項５に記載のコード化方法。
各リードのマッピング位置に関する情報は、「ｐｏｓ」記述子ブロックによってコード化され、
各リードのストランド性（すなわち、ＤＮＡ鎖のリードが由来するシーケンス）に関する情報は、ｒｃｏｍｐ記述子ブロックによってコード化され、
ペアエンドリードのペアリング情報は、「ｐａｉｒ」記述子ブロックによってコード化される、
請求項６に記載のコード化方法。
前記リードが適切なペアでマッピングされているか否か、プラットフォーム／ベンダーの品質チェックの失敗、ＰＣＲ又は光学複製であること、又は補助的なアライメントである付加的なアライメント情報は、「ｆｌａｇｓ」記述子ブロックによってコード化され、
請求項７に記載のコード化方法。
未知の塩基に関する情報が、「ｍｍｉｓ」記述子ブロックによってコード化される、
請求項８に記載のコード化方法。
置換の位置に関する情報が、「ｓｎｐｐ」記述子ブロックによってコード化され、
置換の類型に関する情報が、特定の「ｓｎｐｔ」記述子ブロックによってコード化される、
請求項９に記載のコード化方法。
ミスマッチの位置、置換、挿入又は削除に関する情報が、「ｉｎｄｐ」記述子ブロックによってコード化され、
置換、挿入、又は削除のミスマッチの類型に関する情報が、「ｉｎｄｔ」記述子ブロックによってコード化され、
マッピングされたリードのクリップされた塩基に関する情報が、「ｉｎｄｃ」記述子ブロックによってコード化される、
請求項１０に記載のコード化方法。
マッピングされていないリードに関する情報が、「ｕｒｅａｄｓ」記述子ブロックによってコード化され、
コード化に使用されるリファレンスシーケンスの種類に関する情報が、「ｒｔｙｐｅ」記述子ブロックによってコード化され、
前記マッピングされたリードのマルチプルアライメントに関する情報が、「ｍｍａｐ」記述子ブロックによってコード化され、
前記同じリードのスプライスされたアライメント及びマルチプルアライメントに関する情報が、「ｍｓａｒ」記述子ブロック及び「ｍｍｐ」記述子ブロックによってコード化され、
リードのアライメントスコアに関する情報が、「ｍｓｃｏｒｅ」記述子ブロックによってコード化され、
リードが属するグループに関する情報が、「ｒｇｒｏｕｐ」記述子ブロックによってコード化される、
請求項１１に記載のコード化方法。
クラスＰのアクセスユニットが、タイプ「ｐｏｓ」、「ｒｃｏｍｐ」、及び「ｆｌａｇｓ」の記述子のブロックを使用して構築され、
クラスＰの前記アクセスユニットは、「ｐａｉｒ」記述子のブロックを使用して、ペアエンドのリードのペアリング情報をコード化する、
請求項１２に記載のコード化方法。
クラスＮのアクセスユニットが、未知の塩基の位置に関する情報のための「ｎｍｉｓ」記述子ブロックを使用することに加え、クラスＰのアクセスユニットの記述子の同じブロックを使用して構築される、
請求項１３に記載のコード化方法。
クラスＭのアクセスユニットが、置換の位置及びタイプに関する情報のための「ｓｎｐｐ」及び「ｓｎｐｔ」記述子のブロックに加え、クラスＰのアクセスユニットの記述子の同じブロックを使用して構築される、
請求項１４に記載のコード化方法。
クラスＩのアクセスユニットが、置換、挿入、欠損及びクリップ塩基の位置及び類型に関する情報に関する「ｉｎｄｐ」、「ｉｎｄｔ」及び「ｉｎｄｃ」記述子のブロックに加え、クラスＰのアクセスユニットの記述子の同じブロックを使用して構築される、
請求項１５に記載のコード化方法。
クラスＨＭのアクセスユニットが、前記マッピングされたリードに対する前記クラスＩのアクセスユニットの記述子の同じブロック、及び前記マッピングされていないリードに対する前記「ｕｒｅａｄｓ」記述子のブロックを使用して構築される、
請求項１６に記載のコード化方法。
マルチプルアラインメントに関する情報が、「ｍｍａｐ」及び「ｍｓａｒ」記述子のブロックを使用して伝達される、
請求項１７に記載のコード化方法。
スプライスされたアラインメントに関する情報が、
・マッチング塩基の表示するための記号＝
・挿入の表示するための記号＋
・削除を表示するための記号
・順方向のストランドのスプライスを表示するための記号／
・逆方向のストランドのスプライスを表示するための記号％
・無方向のスプライスを表示するための記号＊
・置換を表示すためのＤＮＡに対するＩＵＰＡＣコードからのテキスト文字
・ｎ個のソフトクリップ塩基を表示するための記号（ｎ）、ここでｎは整数
・ｎ個のハードクリップされた塩基を表示する記号［ｎ］、ここでｎは整数
を含む以下を含む拡張シガーストリングで伝送される、
請求項１８に記載のコード化方法。
前記記述子のブロックは、アライメントされたリードの各クラス及びサブクラスごとに１つのセクションを含む「マスターインデックステーブル」を含み、前記セクションは、「マスターインデックステーブル」及び前記アクセスユニットの両方でコード化しているデータの各クラス又はサブクラスの各アクセスユニットの第１のリードの前記１つ以上のリファレンスシーケンス上の前記マッピング位置を含む、
請求項１９に記載のコード化方法。
前記記述子の前記ブロックが、使用される参照の種類（既存又は構築された）、及び前記リファレンスシーケンスにマッピングされない前記リードの前記セグメントに関する情報をさらに含み、
前記リファレンスシーケンスは、置換、挿入、削除、及びクリッピングを適用することにより異なるリファレンスシーケンスに第１の変換がされ、記述子の多数のブロックとしての前記分類されたアライメントリードのコード化は前記変換されたリファレンスシーケンスを参照する、
請求項２０に記載のコード化方法。
同じ変換が、全てのクラスのデータに対して使用される前記リファレンスシーケンスに適用され、又は
異なる変換が、データの各クラスに対して使用される前記リファレンスシーケンスに適用され、
前記リファレンスシーケンスの変換が記述子のブロックとしてコード化され、ヘッダ情報で構造化され、それにより連続するアクセスユニットを構成する、
請求項２１に記載のコード化方法。
前記分類されたアラメントリードの前記コード化及び記述子のブロックの多重化としての前記関連するリファレンスシーケンス変換は、特定の記述子ブロック及び特定のソースモデルに関連付けをするステップを含み、
前記エントロピーコーダは、コンテキスト適応算術コーダ、可変長コーダ又はゴロムコーダのうちいずれか１つである、
請求項２２に記載のコード化方法。
コード化されたゲノムデータをデコード化する方法であって、前記方法は、
ヘッダ情報を用いて記述子の多重化されたブロックを抽出するために前記コード化されたゲノムデータを含むアクセスユニットを解析し、
１つ以上のリファレンスシーケンスに関する分類を定義する特定のマッチング規則に従ってリードを抽出するために、記述子の前記多重化されたブロックをデコード化することを含む、デコード化方法。
関連する関連マッピング位置及びリードの各クラスに対して１つのセクションを含むマスターインデックステーブルをデコード化することをさらに含む、
請求項２４に記載のデコード化方法。
使用されるリファレンスの種類：既存、変換、又は構築、に関連する情報をデコード化することをさらに含み、
前記既存のリファレンスシーケンスに適用される１以上の変換に関連する情報をデコード化することをさらに含み、
前記記述子のブロックがエントロピーデコード化される、
請求項２５に記載のデコード化方法。
クラスＰのリードは、「ｐｏｓ」、「ｒｃｏｍｐ」、「ｆｌａｇｓ」、及び「ｒｌｅｎ」の各種類の記述子のブロックをデコード化することにより取得され、
クラスＮのリードは、「ｐｏｓ」、「ｒｃｏｍｐ」、「ｆｌａｇｓ」、「ｒｌｅｎ」、「ｎｍｉｓ」の各種類の記述子のブロックをデコード化することにより取得され、
クラスＭのリードは、「ｐｏｓ」、「ｒｃｏｍｐ」、「ｆｌａｇｓ」、「ｒｌｅｎ」、「ｓｎｐｐ」、及び「ｓｎｐｔ」の各種類の記述子のブロックをデコード化することにより取得され、
クラスＩのリードは、「ｐｏｓ」、「ｒｃｏｍｐ」、「ｆｌａｇｓ」、「ｒｌｅｎ」、「ｉｎｄｐ」、「ｉｎｄｔ」、及び「ｉｎｄｃ」各種類の記述子のブロックをデコードすることによって取得され、
クラスＵのリードは、「ｐｏｓ」、「ｒｃｏｍｐ」、「ｆｌａｇｓ」、「ｒｌｅｎ」、「ｓｎｐｐ」、「ｓｎｐｔ」、「ｉｎｄｃ」、「ｕｒｅａｄｓ」、及び「ｒｔｙｐｅ」の各種類の記述子のブロックをデコード化することによって取得される、
請求項２６に記載のデコード化方法。
クラスＰ、Ｎ、Ｍ、及びＩは、「ｐａｉｒ」の記述子のブロックをデコード化することによっても取得され、
クラスＨＭは、「ｐｏｓ」、「ｒｃｏｍｐ」、「ｆｌａｇｓ」、「ｒｌｅｎ」、「ｉｎｄｐ」、「indt」、「ｉｎｄｃ」、及び「ｕｒｅａｄｓ」の記述子のブロックをデコード化することによっても取得される、
請求項２７に記載のデコード化方法。
ゲノムシーケンスデータ２０９、ヌクレオチドシーケンスのリードを含む前記ゲノムシーケンスデータ２０９を圧縮するためのゲノムエンコーダ（２１０）であって、前記方法は、
前記ゲノムエンコーダ（２１０）は、
前記リードを１つ以上のリファレンスシーケンスにアライメントさせ、それによりアライメントリードを作成するように構成された、アライナユニット（２０１）と、
構築されたリファレンスシーケンスを生成するように構成された構築された、リファレンス生成ユニット（２０２）と、
１つ以上の既存のリファレンスシーケンス又は構築されたリファレンスシーケンスを使用して、特定のマッチング規則に従って前記アライメントリードを分類し、それによってアライメントリード（２０８）のクラスを作成するように構成された、データ分類ユニット（２０４）と、
前記分類されたアライメントリードに従って前記記述子を選択することにより記述子のブロックとして前記分類されたアライメントリードをコード化するように構成された、１つ以上のブロックコード化ユニット（２０５−２０７）と、
前記圧縮されたゲノムデータ及びメタデータを多重化するためのマルチプレクサ（２０１６）と、を含む。
既存のリファレンス及びデータクラス（２０８）を変換済みデータクラス（２０１８）に変換するように構成された、リファレンスシーケンス変換ユニット（２０１９）をさらに含み、
前記データ分類ユニット（２０４）が、データクラスＮ、Ｍ及びＩのサブクラスを生成するしきい値のベクトルで構成されたデータクラスＮ、Ｍ及びＩのエンコーダを含む、
請求項２９に記載のゲノムエンコーダ。
前記リファレンス変換ユニット（２０１９）は、データの全てのクラス及びサブクラスに対して同じリファレンス変換（３００）を適用し、又は
前記リファレンス変換ユニット（２０１９）は、データの異なるクラス及びサブクラスに対して異なるリファレンス変換（３０１、３０２、３０３）を適用する、
請求項３０に記載のゲノムエンコーダ。
請求項６に記載のコード化方法を実行するのに適したコード化手段をさらに含む、請求項３１に記載のゲノムエンコーダ。
圧縮されたゲノムストリーム（２１１）を復元するためのゲノムデコーダ（２１８）であって、前記ゲノムデコーダ（２１８）は、
圧縮されたゲノムデータとメタデータを逆多重化するためのデマルチプレクサ（２１０）と、
前記圧縮されたゲノムストリームを記述子のゲノムブロック（２１５）に構文解析するように構成された解析手段（２１２−２１４）と、
記述子のゲノムブロックをヌクレオチド（２１１）のシーケンスの分類されたリードにデコードするように構成された１つ以上のブロックデコーダ（２１６−２１７）と、
ヌクレオチドのシーケンスの非圧縮リードを生成するために、１つ以上のリファレンスシーケンス上のヌクレオチドのシーケンスの前記分類されたリードを選択的にデコード化するように構成されたゲノムデータクラスデコーダー（２１９）と、を含む、ゲノムデコーダ。
リファレンス変換記述子（２１１２）をデコード化し、ゲノムデータクラスデコーダ（２１９）によって使用される変換済みのリファレンス（２１１４）を生成するように構成されたリファレンス変換デコーダ（２１１３）をさらに含む、
請求項３３に記載のゲノムデコーダ。
前記１つ以上のリファレンスシーケンスが、圧縮されたゲノムストリーム（２１１）に記憶され、
前記１以上のリファレンスシーケンスが、帯域外（out of band）メカニズムを介して前記デコーダに提供され、
前記１つ以上のリファレンスシーケンスが、デコーダで構築され、又はリファレンス変換デコーダ（２１１３）によってデコーダで変換される、
請求項３４に記載のゲノムデコーダ。
請求項１乃至２３のいずれか一項に記載のコード化方法又は請求項２４乃至２８のいずれか一項に記載のデコード化方法を実行するための少なくとも１つのプロセッサを実行させる命令を含むコンピュータ可読媒体。
請求項６の方法に従ってコード化されたゲノムを保存するサポートデータ。