JP2020509473A5 - - Google Patents

Download PDF

Info

Publication number
JP2020509473A5
JP2020509473A5 JP2019542715A JP2019542715A JP2020509473A5 JP 2020509473 A5 JP2020509473 A5 JP 2020509473A5 JP 2019542715 A JP2019542715 A JP 2019542715A JP 2019542715 A JP2019542715 A JP 2019542715A JP 2020509473 A5 JP2020509473 A5 JP 2020509473A5
Authority
JP
Japan
Prior art keywords
class
descriptor
block
information
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019542715A
Other languages
English (en)
Other versions
JP2020509473A (ja
JP7362481B2 (ja
Filing date
Publication date
Priority claimed from PCT/US2017/017842 external-priority patent/WO2018071055A1/en
Application filed filed Critical
Priority claimed from PCT/US2018/018092 external-priority patent/WO2018152143A1/en
Publication of JP2020509473A publication Critical patent/JP2020509473A/ja
Publication of JP2020509473A5 publication Critical patent/JP2020509473A5/ja
Application granted granted Critical
Publication of JP7362481B2 publication Critical patent/JP7362481B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (37)

  1. ヌクレオチドシーケンスのリードを含むゲノムシーケンスデータをコード化する方法であって、前記方法は、
    前記リードを1つ又以上のリファレンスシーケンスにアライメントさせ、それによってアライメントリードを作成し、
    指定されたマッチング規則に従って、前記1つ以上のリファレンスシーケンスを使用して前記アライメントリードを分類し、それによってアライメントリードのクラスを作成し、
    前記分類されたアライメントリードを記述子の複数のブロックとしてコード化し、
    前記分類されたアライメントリードを前記記述子の多数のブロックとしてコード化することは、前記アライメントリードの前記クラスに従って前記記述子を選択することを含み、
    前記記述子のブロックをヘッダ情報で構造化し、それにより連続したアクセスユニットを作成することを含む、コード化方法
  2. 前記指定されたマッチング規則を満たさない前記リードをマッピングされていないリードのクラスに分類することをさらに含み、
    少なくともいくつかの前記マッピングされていないリードを使用してリファレンスシーケンスのセットを構築し、
    前記マッピングされていないリードのクラスを、構築された前記リファレンスシーケンスのセットにアライメントし、
    前記分類されたアライメントリードを記述子の複数のブロックとしてコード化し、
    前記構築されたリファレンスシーケンスのセットをコード化し、
    前記記述子のブロック及び前記コード化されたリファレンスシーケンスをヘッダ情報で構築し、それにより連続するアクセスユニットを作成する、
    請求項1に記載のコード化方法。
  3. 前記分類は、マッピングに使用される前記リファレンスシーケンスに関して前記マッピングされたリードにミスマッチが存在しない場合、前記リファレンスシーケンスにミスマッチのないゲノムリードを第1番目の「クラスP」として分類することを含み、
    前記分類することは、シーケンシング装置がいずれの「塩基」も呼び出すことができず、かつ各リードにおけるミスマッチの数が所定のしきい値を超えない位置においてのみミスマッチが見出される場合に、ゲノムリードを第2番目の「クラスN」として分類することをさらに含み、
    前記分類は、前記シーケンシング装置がいかなる「塩基」も呼び出すことができなかった位置でミスマッチが見つかった場合、ゲノムリードを第3番目の「クラスM」として識別することをさらに含み、「nタイプ」のミスマッチと名付けら、及び/又はリファレンスシーケンスとは異なる「塩基」と呼ばれ、「sタイプ」のミスマッチと名付けられ、及び前記ミスマッチの数は、前記「nタイプ」のミスマッチ、前記「sタイプ」のミスマッチの数に対して所定のしきい値を超えず、前記しきい値は関数(f(n,s))で与えられ、
    前記分類は、前記「クラスM」と同じ種類のミスマッチが発生する可能性がある場合、
    ゲノムリードを第4番目の「クラスI」と識別することをさらに含み、少なくとも1つのミスマッチの類型:「挿入」(「iタイプ」)、「削除」(「dタイプ」)、ソフトクリップ(「cタイプ」)が加えられ、ここで、各タイプの前記ミスマッチの数は、対応する所定のしきい値を超えず、しきい値は関数(w(n,s,i,d,c))で与えられ、
    前記分類することは、クラスP、N、M、Iのいずれの分類も見出さない全てのリードを含むものとして、ゲノムリードを第5番目の「クラスU」として識別することをさらに含む、
    請求項2に記載のコード化方法。
  4. コード化されたゲノムシーケンスのリードはペアになっており
    前記分類は、前記分類することが、1つのリードがクラスP、N、M又はIに属し、他のリードが「クラスU」に属するすべてのリードペアを含むものとして、ゲノムリードを第6番目の「クラスHM」として識別することをさらに含む、
    請求項に記載のコード化方法。
  5. 前記2つのメイトのリードが同じクラス(P、N、M、I、Uのそれぞれ)に分類されているかどうかを識別し、前記ペアを同じ識別されたクラスに割り当て、
    前記2つのメイトのリードが異なるクラスに分類されているかどうかを識別し、それらがいずれも「クラスU」に属していない場合、前記ペアのリードを次式に従って最も優先度の高いクラスに割り当て:
    P<N<M<I
    ここで、「クラスP」の優先度が最も低く、「クラスI」の優先度が最も高く、
    前記2つのメイトのリードのうち一方のみが「クラスU」に属すると分類されたかどうかを識別し、前記ペアのリードを「クラスHM」のシーケンスに属すると分類すること、
    をさらに含む、
    請求項に記載のコード化方法。
  6. リードN、M、Iの各クラスは、「nタイプ」のミスマッチの数(292)、関数f(n,s)(293)及び関数w(n,s,i,d,c)(294)によって、各クラスN、M、Iに対してそれぞれ定義されたしきい値のベクトル(292、293、294)に従って、2つ以上のサブクラス(296、297、298)にさらに分割され、
    前記2つのメイトのリードが同じサブクラスに分類されているかどうかを識別し、前記ペアを同じサブクラスに割り当て、
    前記2つのメイトのリードが異なるクラスのサブクラスに分類されているかどうかを識別し、前記ペアを、次の式に従って、優先度の高い前記クラスに属する前記サブクラスに割り当て、
    N<M<I
    ここで、Nが最も優先度が低く、Iが最も優先度が高く、
    前記2つのメイトのリードが同じクラスに分類されており、そのクラスがN、M、又はIであるが、サブクラスが異なるかどうかを識別し、前記ペアを、次の式に従って、最も優先度が高いサブクラスに割り当てる、
    N1<N2<・・・<Nk
    M1<M2<・・・Mj
    I1<I2<・・・<Ih
    ここで、最も高いインデックスが最も高い優先度を持つ、
    請求項に記載のコード化方法。
  7. 各リードのマッピング位置に関する情報は、「pos」記述子ブロックによってコード化され、
    各リードのストランド性(すなわち、DNA鎖のリードが由来するシーケンス)に関する情報は、rcomp記述子ブロックによってコード化され、
    ペアエンドリードのペアリング情報は、「pair」記述子ブロックによってコード化される、
    請求項に記載のコード化方法。
  8. 前記リードが適切なペアでマッピングされているか否か、プラットフォーム/ベンダーの品質チェックの失敗、PCR又は光学複製であること、又は補助的なアライメントである付加的なアライメント情報は、「flags」記述子ブロックによってコード化され、
    請求項に記載のコード化方法。
  9. 未知の塩基に関する情報が、「mmis」記述子ブロックによってコード化される、
    請求項に記載のコード化方法。
  10. 置換の位置に関する情報が、「snpp」記述子ブロックによってコード化され、
    置換の類型に関する情報が、特定の「snpt」記述子ブロックによってコード化される、
    請求項に記載のコード化方法。
  11. ミスマッチの位置、置換、挿入又は削除に関する情報が、「indp」記述子ブロックによってコード化され、
    置換、挿入、又は削除のミスマッチの類型に関する情報が、「indt」記述子ブロックによってコード化され、
    マッピングされたリードのクリップされた塩基に関する情報が、「indc」記述子ブロックによってコード化される、
    請求項10に記載のコード化方法。
  12. マッピングされていないリードに関する情報が、「ureads」記述子ブロックによってコード化され、
    コード化に使用されるリファレンスシーケンスの種類に関する情報が、「rtype」記述子ブロックによってコード化され、
    前記マッピングされたリードのマルチプルアライメントに関する情報が、「mmap」記述子ブロックによってコード化され、
    前記同じリードのスプライスされたアライメント及びマルチプルアライメントに関する情報が、「msar」記述子ブロック及び「mmp」記述子ブロックによってコード化され、
    リードのアライメントスコアに関する情報が、「mscore」記述子ブロックによってコード化され、
    リードが属するグループに関する情報が、「rgroup」記述子ブロックによってコード化される、
    請求項11に記載のコード化方法。
  13. クラスPのアクセスユニットが、タイプ「pos」、「rcomp」、及び「flags」の記述子のブロックを使用して構築され、
    クラスPの前記アクセスユニットは、「pair」記述子のブロックを使用して、ペアエンドのリードのペアリング情報をコード化する、
    請求項12に記載のコード化方法。
  14. クラスNのアクセスユニットが、未知の塩基の位置に関する情報のための「nmis」記述子ブロックを使用することに加え、クラスPのアクセスユニットの記述子の同じブロックを使用して構築される、
    請求項13に記載のコード化方法。
  15. クラスMのアクセスユニットが、置換の位置及びタイプに関する情報のための「snpp」及び「snpt」記述子のブロックに加え、クラスPのアクセスユニットの記述子の同じブロックを使用して構築される、
    請求項14に記載のコード化方法。
  16. クラスIのアクセスユニットが、置換、挿入、欠損及びクリップ塩基の位置及び類型に関する情報に関する「indp」、「indt」及び「indc」記述子のブロックに加え、クラスPのアクセスユニットの記述子の同じブロックを使用して構築される、
    請求項15に記載のコード化方法。
  17. クラスHMのアクセスユニットが、前記マッピングされたリードに対する前記クラスIのアクセスユニットの記述子の同じブロック、及び前記マッピングされていないリードに対する前記「ureads」記述子のブロックを使用して構築される、
    請求項16に記載のコード化方法。
  18. マルチプルアラインメントに関する情報が、「mmap」及び「msar」記述子のブロックを使用して伝達される、
    請求項17に記載のコード化方法。
  19. スプライスされたアラインメントに関する情報が、
    ・ マッチング塩基の表示するための記号=
    ・ 挿入の表示するための記号+
    ・ 削除を表示するための記号
    ・ 順方向のストランドのスプライスを表示するための記号/
    ・ 逆方向のストランドのスプライスを表示するための記号%
    ・ 無方向のスプライスを表示するための記号*
    ・ 置換を表示すためのDNAに対するIUPACコードからのテキスト文字
    ・ n個のソフトクリップ塩基を表示するための記号(n)、ここでnは整数
    ・ n個のハードクリップされた塩基を表示する記号[n]、ここでnは整数
    を含む以下を含む拡張シガーストリングで伝送される、
    請求項18に記載のコード化方法。
  20. 前記記述子のブロックは、アライメントされたリードの各クラス及びサブクラスごとに1つのセクションを含む「マスターインデックステーブル」を含み、前記セクションは、「マスターインデックステーブル」及び前記アクセスユニットの両方でコード化しているデータの各クラス又はサブクラスの各アクセスユニットの第1のリードの前記1つ以上のリファレンスシーケンス上の前記マッピング位置を含む、
    請求項19に記載のコード化方法。
  21. 前記記述子の前記ブロックが、使用される参照の種類(既存又は構築された)、及び前記リファレンスシーケンスにマッピングされない前記リードの前記セグメントに関する情報をさらに含み
    前記リファレンスシーケンスは、置換、挿入、削除、及びクリッピングを適用することにより異なるリファレンスシーケンスに第1の変換がされ、記述子の多数のブロックとしての前記分類されたアライメントリードのコード化は前記変換されたリファレンスシーケンスを参照する、
    請求項20に記載のコード化方法。
  22. 同じ変換が、全てのクラスのデータに対して使用される前記リファレンスシーケンスに適用され、又は
    異なる変換が、データの各クラスに対して使用される前記リファレンスシーケンスに適用され、
    前記リファレンスシーケンスの変換が記述子のブロックとしてコード化され、ヘッダ情報で構造化され、それにより連続するアクセスユニットを構成する、
    請求項21に記載のコード化方法。
  23. 前記分類されたアラメントリードの前記コード化及び記述子のブロックの多重化としての前記関連するリファレンスシーケンス変換は、特定の記述子ブロック及び特定のソースモデルに関連付けをするステップを含み
    前記エントロピーコーダは、コンテキスト適応算術コーダ、可変長コーダ又はゴロムコーダのうちいずれか1つである、
    請求項22に記載のコード化方法。
  24. コード化されたゲノムデータをデコード化する方法であって、前記方法は、
    ヘッダ情報を用いて記述子の多重化されたブロックを抽出するために前記コード化されたゲノムデータを含むアクセスユニットを解析し、
    1つ以上のリファレンスシーケンスに関する分類を定義する特定のマッチング規則に従ってリードを抽出するために、記述子の前記多重化されたブロックをデコード化することを含む、デコード化方法
  25. 関連する関連マッピング位置及びリードの各クラスに対して1つのセクションを含むマスターインデックステーブルをデコード化することをさらに含む、
    請求項24に記載のデコード化方法。
  26. 使用されるリファレンスの種類:既存、変換、又は構築、に関連する情報をデコード化することをさらに含み
    前記既存のリファレンスシーケンスに適用される1以上の変換に関連する情報をデコード化することをさらに含み、
    前記記述子のブロックがエントロピーデコード化される、
    請求項25に記載のデコード化方法。
  27. クラスPのリードは、「pos」、「rcomp」、「flags」、及び「rlen」の各種類の記述子のブロックをデコード化することにより取得され、
    クラスNのリードは、「pos」、「rcomp」、「flags」、「rlen」、「nmis」の各種類の記述子のブロックをデコード化することにより取得され、
    クラスMのリードは、「pos」、「rcomp」、「flags」、「rlen」、「snpp」、及び「snpt」の各種類の記述子のブロックをデコード化することにより取得され、
    クラスIのリードは、「pos」、「rcomp」、「flags」、「rlen」、「indp」、「indt」、及び「indc」各種類の記述子のブロックをデコードすることによって取得され、
    クラスUのリードは、「pos」、「rcomp」、「flags」、「rlen」、「snpp」、「snpt」、「indc」、「ureads」、及び「rtype」の各種類の記述子のブロックをデコード化することによって取得される、
    請求項26に記載のデコード化方法。
  28. クラスP、N、M、及びIは、「pair」の記述子のブロックをデコード化することによっても取得され、
    クラスHMは、「pos」、「rcomp」、「flags」、「rlen」、「indp」、「indt」、「indc」、及び「ureads」の記述子のブロックをデコード化することによっても取得される、
    請求項27に記載のデコード化方法。
  29. ゲノムシーケンスデータ209、ヌクレオチドシーケンスのリードを含む前記ゲノムシーケンスデータ209を圧縮するためのゲノムエンコーダ(210)であって、前記方法は、
    前記ゲノムエンコーダ(210)は、
    前記リードを1つ以上のリファレンスシーケンスにアライメントさせ、それによりアライメントリードを作成するように構成された、アライナユニット(201)と、
    構築されたリファレンスシーケンスを生成するように構成された構築された、リファレンス生成ユニット(202)と、
    1つ以上の既存のリファレンスシーケンス又は構築されたリファレンスシーケンスを使用して、特定のマッチング規則に従って前記アライメントリードを分類し、それによってアライメントリード(208)のクラスを作成するように構成された、データ分類ユニット(204)と、
    前記分類されたアライメントリードに従って前記記述子を選択することにより記述子のブロックとして前記分類されたアライメントリードをコード化するように構成された、1つ以上のブロックコード化ユニット(205−207)と、
    前記圧縮されたゲノムデータ及びメタデータを多重化するためのマルチプレクサ(2016)と、を含む。
  30. 既存のリファレンス及びデータクラス(208)を変換済みデータクラス(2018)に変換するように構成された、リファレンスシーケンス変換ユニット(2019)をさらに含み
    前記データ分類ユニット(204)が、データクラスN、M及びIのサブクラスを生成するしきい値のベクトルで構成されたデータクラスN、M及びIのエンコーダを含む、
    請求項29に記載のゲノムエンコーダ。
  31. 前記リファレンス変換ユニット(2019)は、データの全てのクラス及びサブクラスに対して同じリファレンス変換(300)を適用し又は
    前記リファレンス変換ユニット(2019)は、データの異なるクラス及びサブクラスに対して異なるリファレンス変換(301、302、303)を適用する、
    請求項30に記載のゲノムエンコーダ。
  32. 請求項に記載のコード化方法を実行するのに適したコード化手段をさらに含む、請求項31に記載のゲノムエンコーダ。
  33. 圧縮されたゲノムストリーム(211)を復元するためのゲノムデコーダ(218)であって、前記ゲノムデコーダ(218)は、
    圧縮されたゲノムデータとメタデータを逆多重化するためのデマルチプレクサ(210)と、
    前記圧縮されたゲノムストリームを記述子のゲノムブロック(215)に構文解析するように構成された解析手段(212−214)と、
    記述子のゲノムブロックをヌクレオチド(211)のシーケンスの分類されたリードにデコードするように構成された1つ以上のブロックデコーダ(216−217)と、
    ヌクレオチドのシーケンスの非圧縮リードを生成するために、1つ以上のリファレンスシーケンス上のヌクレオチドのシーケンスの前記分類されたリードを選択的にデコード化するように構成されたゲノムデータクラスデコーダー(219)と、を含む、ゲノムデコーダ
  34. リファレンス変換記述子(2112)をデコード化し、ゲノムデータクラスデコーダ(219)によって使用される変換済みのリファレンス(2114)を生成するように構成されたリファレンス変換デコーダ(2113)をさらに含む、
    請求項33に記載のゲノムデコーダ。
  35. 前記1つ以上のリファレンスシーケンスが、圧縮されたゲノムストリーム(211)に記憶され、
    前記1以上のリファレンスシーケンスが、帯域外(out of band)メカニズムを介して前記デコーダに提供され、
    前記1つ以上のリファレンスシーケンスが、デコーダで構築され、又はリファレンス変換デコーダ(2113)によってデコーダで変換される、
    請求項34に記載のゲノムデコーダ。
  36. 請求項1乃至23のいずれか一項に記載のコード化方法又は請求項24乃至28のいずれか一項に記載のデコード化方法を実行するための少なくとも1つのプロセッサを実行させる命令を含むコンピュータ可読媒体。
  37. 請求項の方法に従ってコード化されたゲノムを保存するサポートデータ。
JP2019542715A 2016-10-11 2018-02-14 ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体 Active JP7362481B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US2016074297 2016-10-11
US2016074307 2016-10-11
US2016074301 2016-10-11
US2016074311 2016-10-11
USPCT/US2017/017842 2017-02-14
PCT/US2017/017842 WO2018071055A1 (en) 2016-10-11 2017-02-14 Method and apparatus for the compact representation of bioinformatics data
PCT/US2017/041591 WO2018071080A2 (en) 2016-10-11 2017-07-11 Method and systems for the representation and processing of bioinformatics data using reference sequences
USPCT/US2017/041591 2017-07-11
PCT/US2018/018092 WO2018152143A1 (en) 2017-02-14 2018-02-14 Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors

Publications (3)

Publication Number Publication Date
JP2020509473A JP2020509473A (ja) 2020-03-26
JP2020509473A5 true JP2020509473A5 (ja) 2021-03-25
JP7362481B2 JP7362481B2 (ja) 2023-10-17

Family

ID=69374523

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019542724A Withdrawn JP2020509474A (ja) 2016-10-11 2017-12-14 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム
JP2019542715A Active JP7362481B2 (ja) 2016-10-11 2018-02-14 ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019542724A Withdrawn JP2020509474A (ja) 2016-10-11 2017-12-14 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム

Country Status (2)

Country Link
JP (2) JP2020509474A (ja)
EA (1) EA201991906A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102883B (zh) * 2020-08-20 2023-12-08 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统
CN113285720B (zh) * 2021-05-28 2023-07-07 中科计算技术西部研究院 基因数据无损压缩方法、集成电路及无损压缩设备
CN115862744B (zh) * 2022-12-28 2023-07-04 哈尔滨因极科技有限公司 一种基于关系图建立的全基因组并行拼接方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences

Similar Documents

Publication Publication Date Title
CN110603595B (zh) 用于从压缩的基因组序列读段重建基因组参考序列的方法和系统
JP2020500383A5 (ja)
JP2020509473A5 (ja)
CA3039688C (en) Efficient data structures for bioinformatics information representation
WO2018151786A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
JP7362481B2 (ja) ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体
JP6949970B2 (ja) バイオインフォマティクスデータを送信する方法及びシステム
KR20190113971A (ko) 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치
US20200051664A1 (en) Method and apparatus for compact representation of bioinformatics data
CA3052772A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
CN110663022B (zh) 使用基因组描述符紧凑表示生物信息学数据的方法和设备
NZ757185B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
EA040022B1 (ru) Способ и устройство для компактного представления данных биоинформатики
NZ753247B2 (en) Efficient data structures for bioinformatics information representation