JP2023535131A

JP2023535131A - 構成可能な機械学習ベースの算術コード化によるゲノム情報圧縮

Info

Publication number: JP2023535131A
Application number: JP2023500391A
Authority: JP
Inventors: シュブハムチャンダク; イーヒムチャン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2020-07-10
Filing date: 2021-06-30
Publication date: 2023-08-16
Also published as: CN116018647A; EP4179539A1; US20230253074A1; WO2022008311A1

Abstract

ゲノム情報のＭＰＥＧ－Ｇ符号化されたデータを復号するための方法及びシステムであって、ＭＰＥＧ－Ｇ符号化されたデータを受け取ることと、符号化パラメータを抽出することと、抽出された符号化パラメータに基づいて、算術復号タイプを選択することと、抽出された符号化パラメータに基づいて、データを算術的に符号化するために使用されたシンボルの確率を取得するための方法を指定する予測子タイプを選択することと、抽出された符号化パラメータに基づいて、算術コード化コンテキストを選択することと、選択された予測子及び選択された算術コード化コンテキストを使用して、符号化されたデータを復号することとを含む。

Description

[0001] 本明細書で開示される様々な例示的実施形態は、一般に、ＭＰＥＧ－Ｇのためのコンテキスト選択、モデルトレーニング、及び機械学習ベースの算術コード化向けの拡張可能なフレームワークのためのシステム及び方法に関する。

[0002] ハイスループット配列決定により、遺伝物質を、これまでにない低コストでスキャンできるようになり、これにより、遺伝データの量が増え続け、このデータを効率的に圧縮する必要性が生じたが、想定される用途に適合するように圧縮することが好ましい。例えば、医学（病気の検出）、集団の監視（例えば、ＳＡＲＳ－ＣＯＶ－２検出）、法医学などで用途がある。

[0003] ＤＮＡ（デオキシリボ核酸）及びＲＮＡ（リボ核酸）は、４つの異なる核酸塩基（それぞれ、ＤＮＡの場合、シトシン［Ｃ］、グアニン［Ｇ］、アデニン［Ａ］、及びチミン［Ｔ］、ＲＮＡの場合、アデニン、シトシン、グアニン、及びウラシル［Ｕ］）のみから構築されるので、符号化は容易であろうと素朴に考えることができる。しかしながら、ゲノム情報はこれまでにない新しい形態で提供される。例えば、生データは、第２世代対ロングリードシーケンスなどの様々な配列技法から取得され、これにより、リードの長さが異なることになるだけでなく、塩基コールの確実性も異なり、塩基コールは、塩基配列又は複数の配列に、品質スコアなどの品質情報として追加され、同様に符号化する必要がある。更に、ＤＮＡの下流分析において、基準配列と比較した差異など、ＤＮＡの特性に関する情報が生成される。その後、例えば、基準と比較して１つ又は複数の塩基が欠落していることに注釈を付けることができる。単一塩基変異体は、病気や他の遺伝的に決定された特性につながることが知られており、これには、符号化されたデータの別のユーザが、情報を簡単に見つけられるように、注釈を付けることができる。ＤＮＡ配列への外部的な変形を研究する構成学は、ここでも、例えば、メチル化や、細胞内のクロマチンの空間構成を明らかにする染色体接触マトリクスなど、大量の追加データを生成する。これらアプリケーションはすべて、将来的に、強力な符号化技法を必要とする豊富なデータセットを作成する。

[0004] ＭＰＥＧ－Ｇは、ユーザの様々なニーズの徹底的な議論に基づいて、ゲノム情報の普遍的な表現に到達しようとする動画像専門家グループの最近のイニシアチブである。現在、ＭＰＥＧ－Ｇで記述子を圧縮するためのエントロピコード化メカニズムとして、コンテキスト適応バイナリ算術コード化（ＣＡＢＡＣ）が使用されている。しかしながら、現在の規格は、ほとんどの場合、コンテキストとして以前のシンボルしか許可しない。

[0005] 様々な例示的実施形態の概要が、以下に提示される。以下の概要では、いくつかの簡略化及び省略が行われているが、これは、様々な例示的な実施形態のいくつかの態様を強調及び紹介することが意図されているが、本発明の範囲を限定することは意図されていない。当業者が本発明の概念を作成及び使用することを可能にするのに適切な例示的な実施形態の詳細な説明は、後述される。

[0006] 様々な実施形態は、ＭＰＥＧ－Ｇ符号化されたデータを受け取ることと、符号化されたデータから、符号化パラメータを抽出することと、抽出された符号化パラメータに基づいて、算術コード化タイプを選択することと、抽出された符号化パラメータに基づいて、予測子タイプを選択することと、抽出された符号化パラメータに基づいて、コンテキストを選択することと、選択された予測子と、選択されたコンテキストとを使用して、符号化されたデータを復号することとを含む、ＭＰＥＧ－Ｇ符号化されたデータを復号するための方法に関する。技術要素符号化パラメータは、受取復号器が、その復号プロセスを決定するために必要な、そのようなパラメータを含み、特に、様々な代替復号アルゴリズムの選択又は構成を制御するパラメータを含む。符号化されたデータは、具体的には、算術的に符号化されたデータを意味する。算術符号化は、シンボル（例えば、Ａ，Ｔ，Ｃ，Ｇ）の配列を、それらのシンボルの発生の確率に基づいて［０．０－１．０］の範囲の間隔にマップする。発生する可能性が低いシンボルには、符号化されたビット列のビットを増やし、可能性の高いシンボルには、ビットを減らすことで、必要なビット量を最適化できること、すなわち、この原理を導くために確率推定を使用することが、確率ベースの符号化の特性である。確率は、経時的に、つまり実行中の復号処理中に変更できる。コンテキスト適応算術符号化は、様々な状況、つまり、様々なコンテキスト（コンテキストという用語を使用する場合、算術符号化、つまり算術符号化コンテキストという意味で意図している）の識別に基づいて、確率を更に最適化することができる。従来、コンテキストは、以前に復号されたシンボルの結果によって形成された。例えば、以前の塩基で一連の低い品質スコアが見つかった場合、現在のリード塩基の読み取りは、まだあまり確実ではない、即ち、ゲノム情報でも品質スコアが低いと仮定するのが合理的である。それゆえに、低いスコア値の確率を高く設定することもでき、高いスコア値は、現在の塩基について、高い確実性を示す。しかしながら、本発明者によれば、現在復号されている染色体のゲノム位置のような、品質スコア以外の量の復号された値などの他のデータも考慮できる、より多くの異なるコンテキストを定義することが可能である。

[0007] 算術符号化タイプは、通信された符号化されたＭＰＥＧ－Ｇデータ信号に存在する符号化パラメータで通信されるように、データの算術符号化の様々な可能な方式のどのタイプが、符号化されたデータを生成した符号化器によって使用されたかを復号器に指定する。算術符号化タイプがバイナリコード化及びマルチシンボルコード化のうちの１つである、様々な実施形態が説明される。マルチシンボルコード化では、コード化されていない信号で遭遇するシンボルのアルファベットを定義する。例えば、ＤＮＡ核酸塩基の場合、これらシンボルには、例えばチミンのＴのように、明確なリード塩基のシンボル、又は、不確実なリード塩基のシンボルを含むことができ、品質スコアの場合、スコアの量子化された値のセットを定義できる。バイナリ算術コード化では、これらＮ個のアルファベットシンボルは、前処理ステップとして、選択されたバイナリスキームによって２進数に変換され、例えば、Ｎ個のシンボルは、例えば、Ｔ＝０，Ｃ＝１０，Ｇ＝１１０，Ａ＝１１１０のように、後に０が続く２進数のセットの増加によって表すことができる。

[0008] 発明者はまた、より良いコンテキストの選択及び通信とともに、又はそれとは別に、使用されているあらゆるコンテキストに基づいて、様々なシンボルの固定された、又は常に変化する確率を予測するために、例えば、使用されている予測子が、特定のニューラルネットワーク（通信されるトポロジ及び／又は最適化された重み）などのカウントベースのタイプ又は機械学習モデルタイプのいずれであるかを示すｍｏｄｅｌＴｙｐｅパラメータを使用して、いくつかの異なる予測子タイプのうちの１つを選択することによっても最適化できることを発見した。これらコンテンツは、ニューラルネットワークへの入力として使用したり、複数の代替ニューラルネットワークのうちの１つを選択したり、ニューラルネットワークの特性に影響を与えるために使用できる。或いは、他の機械学習技法を使用して確率を予測する、即ち、予測子モデル又はタイプを形成する。したがって、予測子タイプは、メインのタイプ（ニューラルネットワーク対従来のカウントベースの確率再推定）と、（特にニューラルネットワークのための）より詳細なサブタイプとを示すことができる。

[0009] 予測子タイプが、機械学習モデルを識別するとき、符号化パラメータが更に、機械学習モデルの定義を含む、様々な実施形態が説明される。機械学習モデルを定義するパラメータ（例えば、隠れ層との接続、接続のための固定重み又は初期重みなどのトポロジを指定するパラメータ）を通信することにより、符号化器は、非常に良好なモデルを選択し、選択したモデルを復号器に通信でき、復号器は、到来する符号化されたデータの復号を開始する前に、このモデルを構成できる。また、符号化されたデータ信号のパラメータは、モデルを繰り返しリセット又は再構成する。

[0010] 抽出された符号化パラメータが、トレーニングモードデータを含む、様々な実施形態が説明される。トレーニングモードとは、モデルがモデル自体を、変化するデータに動的に適応させる（つまり、符号化されたデータで使用されるように、元のコード化されていないデータの様々な確率に合わせてモデル自体をトレーニングする）、又は、比較的固定された状態を維持する（例えば、データセット全体に対して符号化器によって一度最適化され、復号全体中に使用されるように復号器に通信される重みを有するニューラルネットワーク）方式を称する。例えば、ニューラルネットワークは、最初の２０００個のシンボルにわたって外部処理ループでトレーニングされ、その後、２００１番目の符号化されたビットを復号する前に、新しい最適な重みに置き換える。

[0011] トレーニングモードデータが、静的トレーニングモード、準適応トレーニングモード、及び適応トレーニングモードのうちの１つを含む初期化タイプを含む、様々な実施形態が説明される。静的モードの典型的な例は、符号化器と復号器との両方で使用される標準モデルのセットから潜在的に選択可能な、標準的な事前定義されたモデルが存在する場合であり、選択されたモデルは、例えば、選択されたモデルを指定するモデル番号によって、復号器へ通信される。準適応モデルの例は、圧縮されたデータを使用してモデルがトレーニングされる場合である。この場合、重みは、この特定のデータセットに対して最適化される。

[0012] トレーニングモードデータが、トレーニングアルゴリズム定義、トレーニングアルゴリズムパラメータ、トレーニング頻度、及びトレーニングエポックのうちの１つを含む、様々な実施形態が説明される。トレーニング頻度は、例えば、１０００シンボルごとに、（復号側で）モデルを更新する頻度である。トレーニングエポックは、機械学習の概念であり、モデルを更新するために機械学習アルゴリズムによってトレーニングデータセット全体が処理される回数を指定する。

[0013] 抽出された符号化パラメータがコンテキストデータを含む、様々な実施形態が説明される。

[0014] コンテキストデータが、コード化順序、使用される追加のコンテキストの数、コンテキストタイプ、及び範囲のうちの１つを含む、様々な実施形態が説明される。

[0015] コンテキストデータが範囲フラグを含む、様々な実施形態が説明される。

[0016] コンテキストデータが、コンテキスト記述子、コンテキスト出力変数、コンテキスト内部変数、コンテキスト計算変数、及びコンテキスト計算関数のうちの１つを含む、様々な実施形態が説明される。

[0017] 更なる様々な実施形態は、データを符号化するために使用される符号化パラメータを受け取ることと、受け取られた符号化パラメータに基づいて、算術符号化タイプを選択することと、受け取られた符号化パラメータに基づいて、予測子タイプを選択することと、受け取られた符号化パラメータに基づいて、トレーニングモードを選択することと、受け取られた符号化パラメータに基づいて、コンテキストを選択することと、受け取られた符号化パラメータに基づいて、符号化器をトレーニングすることと、トレーニングされた符号化器を使用して、データを符号化することとを含む、ＭＰＥＧ－Ｇ符号化されたデータを符号化するための方法に関する。

[0018] 算術符号化タイプが、バイナリコード化及びマルチシンボルコード化のうちの１つである、様々な実施形態が説明される。

[0019] 予測子タイプが、カウントベースのタイプ又は機械学習モデルタイプのうちの１つである、様々な実施形態が説明される。

[0020] 予測子タイプが、機械学習モデルを識別するとき、符号化パラメータが更に、機械学習モデルの定義を含む、様々な実施形態が説明される。

[0021] 抽出された符号化パラメータが、トレーニングモードデータを含む、様々な実施形態が説明される。

[0022] トレーニングモードデータが、静的トレーニングモード、準適応トレーニングモード、及び適応トレーニングモードのうちの１つを含む初期化タイプを含む、様々な実施形態が説明される。

[0023] トレーニングモードデータが、トレーニングアルゴリズム定義、トレーニングアルゴリズムパラメータ、トレーニング頻度、及びトレーニングエポックのうちの１つを含む、様々な実施形態が説明される。

[0024] 抽出された符号化パラメータがコンテキストデータを含む、様々な実施形態が説明される。

[0025] コンテキストデータが、コード化順序、使用される追加のコンテキストの数、コンテキストタイプ、及び範囲のうちの１つを含む、様々な実施形態が説明される。

[0026] コンテキストデータが範囲フラグを含む、様々な実施形態が説明される。

[0027] コンテキストデータが、コンテキスト記述子、コンテキスト出力変数、コンテキスト内部変数、コンテキスト計算変数、及びコンテキスト計算関数のうちの１つを含む、様々な実施形態が説明される。

[0028] 更に様々な実施形態は、メモリと、メモリに結合されたプロセッサとを含み、プロセッサは更に、ＭＰＥＧ－Ｇ符号化されたデータを受け取り、符号化されたデータから、符号化パラメータを抽出し、抽出された符号化パラメータに基づいて、算術符号化タイプを選択し、抽出された符号化パラメータに基づいて、予測子タイプを選択し、抽出された符号化パラメータに基づいて、コンテキストを選択し、選択された予測子と、選択されたコンテキストとを使用して、符号化されたデータを復号するように構成された、ＭＰＥＧ－Ｇ符号化されたデータを復号するためのシステムに関する。

[0029] 算術符号化タイプが、バイナリコード化及びマルチシンボルコード化のうちの１つである、様々な実施形態が説明される。

[0030] 予測子タイプが、カウントベースのタイプ又は機械学習モデルタイプのうちの１つである、様々な実施形態が説明される。

[0031] 予測子タイプが、機械学習モデルを識別するとき、符号化パラメータが更に、機械学習モデルの定義を含む、様々な実施形態が説明される。

[0032] 抽出された符号化パラメータが、トレーニングモードデータを含む、様々な実施形態が説明される。

[0033] トレーニングモードデータが、静的トレーニングモード、準適応トレーニングモード、及び適応トレーニングモードのうちの１つを含む初期化タイプを含む、様々な実施形態が説明される。

[0034] トレーニングモードデータが、トレーニングアルゴリズム定義、トレーニングアルゴリズムパラメータ、トレーニング頻度、及びトレーニングエポックのうちの１つを含む、様々な実施形態が説明される。

[0035] 抽出された符号化パラメータが、コンテキストデータを含む、様々な実施形態が説明される。

[0036] コンテキストデータが、コード化順序、使用される追加のコンテキストの数、コンテキストタイプ、及び範囲のうちの１つを含む、様々な実施形態が説明される。

[0037] コンテキストデータが範囲フラグを含む、様々な実施形態が説明される。

[0038] コンテキストデータが、コンテキスト記述子、コンテキスト出力変数、コンテキスト内部変数、コンテキスト計算変数、及びコンテキスト計算関数のうちの１つを含む、様々な実施形態が説明される。

[0039] 更に様々な実施形態は、メモリと、メモリに結合されたプロセッサとを含み、プロセッサは更に、データを符号化するために使用される符号化パラメータを受け取り、受け取られた符号化パラメータに基づいて、算術符号化タイプを選択し、受け取られた符号化パラメータに基づいて、予測子タイプを選択し、受け取られた符号化パラメータに基づいて、トレーニングモードを選択し、受け取られた符号化パラメータに基づいて、コンテキストを選択し、受け取られた符号化パラメータに基づいて、符号化器をトレーニングし、トレーニングされた符号化器を使用して、データを符号化するように構成された、ＭＰＥＧ－Ｇ符号化されたデータを符号化するためのシステムに関する。

[0040] 算術符号化タイプが、バイナリコード化及びマルチシンボルコード化のうちの１つである、様々な実施形態が説明される。

[0041] 予測子タイプが、カウントベースのタイプ又は機械学習モデルタイプのうちの１つである、様々な実施形態が説明される。

[0042] 予測子タイプが、機械学習モデルを識別するとき、符号化パラメータが更に、機械学習モデルの定義を含む、様々な実施形態が説明される。

[0043] 抽出された符号化パラメータが、トレーニングモードデータを含む、様々な実施形態が説明される。

[0044] トレーニングモードデータが、静的トレーニングモード、準適応トレーニングモード、及び適応トレーニングモードのうちの１つを含む初期化タイプを含む、様々な実施形態が説明される。

[0045] トレーニングモードデータが、トレーニングアルゴリズム定義、トレーニングアルゴリズムパラメータ、トレーニング頻度、及びトレーニングエポックのうちの１つを含む、様々な実施形態が説明される。

[0046] 抽出された符号化パラメータが、コンテキストデータを含む、様々な実施形態が説明される。

[0047] コンテキストデータが、コード化順序、使用される追加のコンテキストの数、コンテキストタイプ、及び範囲のうちの１つを含む、様々な実施形態が説明される。

[0048] コンテキストデータが範囲フラグを含む、様々な実施形態が説明される。

[0049] コンテキストデータが、コンテキスト記述子、コンテキスト出力変数、コンテキスト内部変数、コンテキスト計算変数、及びコンテキスト計算関数のうちの１つを含む、様々な実施形態が説明される。

[0050] 様々な例示的な実施形態をより良く理解するために、添付の図面が参照される。

[0051] 図１は、ＣＡＢＡＣのブロック図である。 [0052] 図２は、予測子モデル、符号化モード、トレーニングモード及び予測コンテキスト、並びにそれらに関連するパラメータの選択の方式のブロック図である。 [0053] 図３は、変更されたＭＰＥＧ－Ｇ規格を使用してデータを符号化するための方法を示す図である。 [0054] 図４は、変更されたＭＰＥＧ－Ｇ規格を使用してデータを復号するための方法を示す図である。 [0055] 図５は、符号化／復号システムのための例示的なハードウェア図である。 [0056] 図６は、確率モデルとしてニューラルネットワークを使用する実施形態のサブ回路のスキームを示す図である。

[0057] 理解を容易にするために、実質的に同一又は類似の構造及び／又は実質的に同一又は類似の機能を有する要素を示すために、同一の参照番号が使用される。

[0058] 説明及び図面は、本発明の原理を示している。したがって、当業者は、本明細書では明示的に説明も図示もされていないが、本発明の原理を具現化し、その範囲内に含まれる様々な構成を考案できることが理解されよう。更に、本明細書に記載されたすべての例は、原則として、本発明の原理及び発明者が当技術を促進するために貢献した概念を読者が理解するのを助けるための教育目的であることが明示的に意図されており、そのような具体的に列挙された例及び条件に限定されるものではないと解釈されるべきである。それに加えて、「又は」という用語は、本明細書で使用される場合、特に（例えば、「又はそうでなければ」又は「又は代替的に」と）明記されていない限り、非排他的な又は（即ち、及び／又は）を指す。また、いくつかの実施形態を、１つ又は複数の他の実施形態と組み合わせて、新しい実施形態を形成できるため、本明細書で説明される様々な実施形態は、必ずしも相互に排他的ではない。

[0059] コンテキスト適応バイナリ算術コード化（ＣＡＢＡＣ）は現在、ＭＰＥＧ－Ｇにおける記述子の圧縮のためのエントロピコード化メカニズムとして使用されている。しかしながら、現在の規格は、コンテキストの選択に関して厳しく制限されており、ほとんどの場合、以前のシンボルのみをコンテキストとして許可する。これにより、圧縮率を高める別の記述子など、他のコンテキストを使用できない。更に、現在のフレームワークは、ニューラルネットワークや様々なトレーニングモードなどの、より強力な予測子をサポートしていない。これら追加機能をＭＰＥＧ－Ｇ規格に組み込み、より高い柔軟性と改善された圧縮を可能にするためのフレームワークが本明細書で説明される。本明細書で説明される実施形態は、ＭＰＥＧ－Ｇ規格に限定されず、他の圧縮ファイル形式にも同様に適用される。

[0060] ゲノムデータのＭＰＥＧ－Ｇ規格は、異なる記述子に関してゲノムデータを圧縮する。圧縮エンジンは、算術コード化に基づくコンテキスト適応バイナリ算術コード化（ＣＡＢＡＣ）である。算術コード化は、データのために、（場合によっては適応型の）確率モデルの下で、最適な圧縮を実行する、データ圧縮のための標準的なアプローチである。モデルが、データをより適切に予測するほど、圧縮も向上する。モデルは、圧縮されるデータとの統計的相関関係を有する様々なコンテキストを組み込み、現在の規格では、算術コード化に必要な確率モデルのコンテキストとして、以前のシンボルを使用できる。図１は、ＣＡＢＡＣのブロック図を示す。算術符号化器５は、次のシンボル１０を、入力（即ち、ｘ∈｛０，１，２，・・・｝）として受け取る。算術符号化器５は、特定のコンテキストで特定のシンボルが発生する確率を提供する確率テーブルを使用する。その後、これら入力を使用して、符号化器５は、圧縮ビットストリーム２０を生成する。ｍｍｔｙｐｅのような特定の記述子の場合、規格は、基準塩基などの追加のコンテキストの使用も許可するが、一般に、他の記述子をコンテキストとして使用したり、他の追加のコンテキストを使用したりすることはサポートされていない。これは、リード内の位置が、品質値圧縮のためのコンテキストとして使用される場合など、そのような追加のコンテキストを含めることによって圧縮が改善されるという事実にも関わらずである。同様に、ナノポアデータの場合、品質値圧縮を改善するためのコンテキストとして、配列塩基が使用される。圧縮を改善するために利用される記述子間で、より多くのそのような相関関係が存在することが予想される。

[0061] 更に、現在の規格は、適応算術コード化セットアップのみを許可するが、算術コード化には、以下に説明するようにいくつかのモードが存在する。１つの可能なモードは、符号化器及び復号器にアクセス可能な固定モデルを使用する静的モデリングである。この静的モデルは、多くの同様のデータがトレーニングのために利用可能である場合に適している。別の可能なモードは、モデルが、圧縮されるデータから学習され、モデルパラメータが、圧縮ファイルの一部として格納される準適応モデリングである。この準適応モデルは、モデルトレーニングのために同様のデータが利用可能ではない場合に適している。最後に、符号化器／復号器が同じランダムモデルで開始し、現在までに見られたデータに基づいてモデルが適応的に更新される適応モデリングがある。その結果、モデルの更新は対称的であるため、モデルを格納する必要はない。この適応モードは、同様のデータが利用可能ではない場合、及び／又は単純な予測子（例えば、カウントベースの予測子）を使用する場合に適している。したがって、異なる状況では、以前のトレーニングデータの可用性に応じて、異なるモデリング技法が、より適切である。モデルへの適応的な更新は、静的及び準適応設定でも行われることに留意されたい。

[0062] 現在の規格の別の制限は、ニューラルネットワーク又は他の機械学習モデルなど、より複雑な確率予測子に対するサポートがないことである。現在、次のシンボルの確率が、カウントからの経験的確率に基づいて計算されるカウントベースのフレームワークのみがサポートされている。これらカウントは、コンテキスト及び次のシンボルに基づいて、すべてのステップで更新される。しかしながら、そのようなカウントベースのアプローチには、２つの大きな制限がある。

[0063] 第１に、カウントベースのアプローチは、コンテキスト全体の類似性及び依存性を利用できない。例えば、コンテキスト（Ａ，Ａ，Ａ，Ａ）及びコンテキスト（Ａ，Ａ，Ａ，Ｃ）のカウントは、いくつかの類似点があると予想される場合でも、独立しているものとして取り扱われる。同様に、以前の品質が、コンテキストとして使用される場合、３９又は４０の値は、それらの近さを利用せずに独立して取り扱われる。第２に、コンテキストセットが、データサイズに比べて非常に大きい（又は数えられない）場合、カウントベースのアプローチはうまく機能しない。これは、カウントの配列が非常にまばらになり、データが不十分になり、確率モデリングが貧弱になるためである。これは、より優れた予測及び圧縮をもたらす強力なコンテキストの使用を制限する。

[0064] これら問題は両方とも、より自然な予測フレームワークを提供するニューラルネットワーク／機械学習ベースのアプローチを使用して克服される。更に、ニューラルネットワーク／機械学習ベースのアプローチは、数値、カテゴリ、及び序数など、異なるタイプのコンテキストで機能できる。場合によっては、特に特殊なハードウェア又は並列計算が利用可能な場合、この圧縮の改善は、計算の複雑さの増加に見合う価値がある。ニューラルネットワークは、圧縮サイズに直接対応するエントロピ間の損失を使用してトレーニングできることに留意されたい。

[0065] ２つのアプローチの利点を要約すると、カウントベースのアプローチは計算コストが低く、適応モデルをトレーニングすることが容易である。一方、カウントベースのアプローチは、各コンテキスト値を個別に取り扱い（そうではない場合があり、貴重な洞察を提供する可能性がある）、様々なシンボルやコンテキストのカウントが不十分な場合に問題が発生する。ニューラルネットワーク／機械学習アプローチは、コンテキスト値全体の複雑な相互依存性を捉えることができ、大規模な／数え切れないほどの接触セットでうまく機能する。一方、ニューラルネットワーク／機械学習ベースのアプローチは、計算コストが高く、適応モデリングでのトレーニングが困難である。

[0066] 最後に、バイナリＣＡＢＡＣエントロピコーダと比較して、通常ははるかに優れた圧縮を提供し、はるかに少ないパラメータしか必要としない現在の規格では、マルチシンボル算術コード化のサポートがない。ＣＡＢＡＣ符号化器には、計算に関して利点があるが、マルチシンボル算術コード化のサポートを提供すると、圧縮率と速度とのトレードオフが改善される可能性がある。

[0067] ＭＰＥＧ－Ｇ規格に対する変形の実施形態は、算術コード化と、ニューラルネットワーク又は機械学習ベースの予測モデリングと、静的、準適応、及び適応モデリングのためのサポートと、マルチシンボル算術コード化とのために使用される異なる記述子に基づいて、複数のコンテキストに対応するために提案される。全体として、これは、圧縮を改善するために記述子間の相関関係を捉えることができる、拡張性の高いフレームワークを提供する。静的モードは、データセットの集合からトレーニング済みのモデルを進化させ、その後、それを使用して圧縮を改善することもできる。

[0068] 簡略のために、説明ではマルチシンボル算術コード化が使用されているが、バイナリ算術コード化も、同様にして行うことができる。参照されているすべてのＭＰＥＧ－Ｇという句は、ＭＰＥＧ－Ｇパート２（ＤＩＳＩＳＯ／ＩＥＣ２３０９２－２２ｎｄＥｉｄｔｉｏｎＣｏｄｉｎｇｏｆＧｅｎｏｍｉｃＩｎｆｏｒｍａｔｉｏｎ）に属する。

[0069] 第１の変更は、算術コード化がバイナリであるかマルチシンボルであるかを示す算術コード化タイプを追加することである。通常、マルチシンボルは一度に１バイトを符号化することに対応するが、これは場合によっては変更できる。現在、ＭＰＥＧ－Ｇ規格復号器構成は、シングルモードのみを含む（ＣＡＢＡＣ）。マルチシンボル算術コード化の追加モードは、ｅｎｃｏｄｉｇＭｏｄｅ＝１によって示される。そうではなくｅｎｃｏｄｉｇＭｏｄｅ＝０の場合、ＣＡＢＡＣコード化が示される。

[0070] 別の変更は、予測子が、カウントベース、ニューラルネットワーク、又は機械学習ベースのいずれであるかを示す予測子タイプを追加することである。追加のフラグであるｍｏｄｅｌＴｙｐｅは、ＭＰＥＧ－Ｇ復号器構成に追加される。値０は、カウントベースのモデルを表す一方、値１は、ニューラルネットワークベースのモデルを表す。様々なアーキテクチャ及びモデルを包含する一般的なカテゴリとしてニューラルネットワークは、ロジスティック回帰やＳＶＭなどの他のいくつかの機械学習フレームワークを包含することに留意されたい。このフレームワークは、決定木やランダムフォレストなどの（ニューラルネットワーク以外の）機械学習予測子を追加することで、より更に拡張される。これら異なるアプローチのおのおのは、使用される予測子のタイプを示すｍｏｄｅｌＴｙｐｅ値を関連付けている。

[0071] ｍｏｄｅｌＴｙｐｅが１、即ちニューラルネットワークベースのモデルである場合、モデルアーキテクチャも、復号器構成の一部として指定される。モデルアーキテクチャは、ＭＰＥＧ－Ｇ規格からのｇｅｎ＿ｉｎｆｏデータタイプを使用してＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ（ＪＳＯＮ）を使用して格納され、これによって、任意のデータを格納して、７ｚｉｐで圧縮することができる。例として、Ｋｅｒａｓ関数ｍｏｄｅｌ．ｔｏ＿ｊｓｏｎ（）は、モデルアーキテクチャを表すＪＳＯＮ文字列を生成する。ニューラルネットワークの出力サイズは、算術符号化器に供給されるため、算術コード化におけるシンボル数と等しい必要があることに留意されたい。入力サイズは、使用されているコンテキストに依存する。ニューラルネットワークベースのモデルと同様に、他の機械学習モデルが、復号器構成の一部として指定される。

[0072] 別の変更は、トレーニングモードが、静的、準適応、又は適応のいずれであるかを示すトレーニングモードを追加することである。これによって、トレーニングモードを選択することが可能となる。

[0073] トレーニングモードは、追加フラグｉｎｉｔｉａｌｉｚａｔｉｏｎＴｙｐｅ及びａｄａｐｔｉｖｅＬｅａｒｎｉｎｇを、復号器構成に追加することによって指定できる。可能な値と、それぞれの説明とが、以下に与えられる。

[0074] ｉｎｉｔｉａｔｉｏｎＴｙｐｅ＝０のとき、静的初期化が示される。この場合、符号化器と復号器との両方に利用可能な標準モデルが、圧縮のための初期モデルとして使用される。追加の変数ｍｏｄｅｌＵＲＩ（モデルユニフォームリソース識別子）を使用して、通常は標準モデルリポジトリの一部であるモデルパラメータ（重み）にアクセスする。これは、知られているシードを用いてランダムに初期化されたモデルをも指す。前述のように、モデルアーキテクチャは（例えば、ＪＳＯＮフォーマットで）既に指定されていることに留意されたい。

[0075] ｉｎｉｔｉａｌｉｚａｔｉｏｎＴｙｐｅ＝１の場合、準適応初期化が示される。この場合、モデルは、圧縮ファイルの一部として、変数ｓａｖｅｄＭｏｄｅｌに格納される。モデルは、（例えば、Ｋｅｒａｓで使用されているように）ニューラルネットワークのためのＨｉｅｒａｒｃｈｉｃａｌＤａｔａＦｏｒｍａｔバージョン５（ＨＤＦ５）形式である。カウントベースのフレームワークの場合、モデルは各（コンテキスト、シンボル）ペアのカウントだけで構成される。ｓａｖｅｄＭｏｄｅｌ変数は、ｇｅｎ＿ｉｎｆｏタイプであり、７－ｚｉｐで圧縮され、モデルサイズを縮小することができる。

[0076] 圧縮／伸張プロセス中に適応学習が使用されるか否かを制御するために、フラグａｄａｐｔｉｖｅＬｅａｒｎｉｎｇが使用される。１（真）に設定され、ｍｏｄｅｌＴｙｐｅが１（ニューラルネットワーク）である場合、以下の追加の変数を使用して、トレーニング手順と頻度を記述し、ｔｒａｉｎｉｎｇＡｌｇｏｒｉｔｈｍは、トレーニングのためのアルゴリズム（例えば、Ａｄａｍ、確率的勾配降下法（ＳＧＤ）、Ａｄａｇｒａｄなど）を選択し、ｔｒａｉｎｉｎｇＡｌｇｏｒｉｔｈｍＰａｒａｍｅｔｅｒｓは、ＪＳＯＮフォーマットのトレーニングアルゴリズム、特に学習率のパラメータのセットであり、ｔｒａｉｎｉｎｇＦｒｅｑｕｅｎｃｙは、モデル更新ステップの頻度（例えば、シンボル毎後、１０００シンボル毎後など）であり、各トレーニングステップで、前の「ｔｒａｉｎｉｎｇＦｒｅｑｕｅｎｃｙ」シンボル（例えば、ｔｒａｉｎｉｎｇＦｒｅｑｕｅｎｃｙ＝１０００の場合、前の１０００シンボル）は、トレーニングデータとして使用されるため、効率的な更新が可能であり、また、ｔｒａｉｎｉｎｇＥｐｏｃｈｓは、各モデル更新ステップで実行されるトレーニングのエポック数を示す。初期モデルが既にトレーニングされている場合は、学習率を低く保つ必要があることに留意されたい。そのような場合、モデルの微調整に、適応学習を使用する必要がある。

[0077] ｍｏｄｅｌＴｙｐｅが、カウントベースのモデルを示す０である場合、更新は、ステップ毎に実行され、（コンテキスト、シンボル）ペアに対応するカウントは、１つインクリメントされる。高速な選択的アクセスを可能にするために、トレーニングは、各アクセスユニットで独立して実行されることに留意されたい。

[0078] 現在、許可されている唯一のコンテキストは、前のシンボルであり、復号のために使用されるこれらの数は、０，１又は２であるＭＰＥＧ－Ｇ規格におけるｃｏｄｉｎｇ＿ｏｒｄｅｒ変数によって決定される。ｃｏｄｉｎｇ＿ｏｒｄｅｒは、状態変数として内部的に保持されている以前に復号されたシンボルの数を通知し、次のシンボルを復号するために使用される。変数ｍｍｔｙｐｅ及びｒｆｔｔの特別なケースでは、特別な依存関係が、ＭＰＥＧ－Ｇ規格で定義されているが、これはあまり体系的ではなく、これら依存関係は、コード化順序を制限する前のシンボルとして取り扱われ、意味的に正しくない。

[0079] ＭＰＥＧ－Ｇ規格において、新しい変数を導入することによって多数のコンテキストを組み込む方法は、以下の変数、ｃｏｄｉｎｇ＿ｏｒｄｅｒ，ｎｕｍ＿ａｄｄｉｔｉｏｎａｌ＿ｃｏｎｔｅｘｔｓ，ｃｏｎｔｅｘｔ＿ｔｙｐｅ及びｒａｎｇｅを含む。変数ｃｏｄｉｎｇ＿ｏｒｄｅｒは、以前と同じ意味である。ニューラルネットワークベースの予測子は、より大きなコンテキストで非常にうまく機能するため、変数ｃｏｄｉｎｇ＿ｏｒｄｅｒは、２より大きい。変数ｎｕｍ＿ａｄｄｉｔｉｏｎａｌ＿ｃｏｎｔｅｘｔｓは、使用される追加のコンテキストの数を示す。

[0080] 変数ｃｏｎｔｅｘｔ＿ｔｙｐｅは、コンテキストのタイプを示し、追加のコンテキスト毎に、追加の値が追加される。コンテキストのタイプは、以下の可能なカテゴリ、即ち、ｄｅｓｃｒｉｐｔｏｒ，ｏｕｔｐｕｔ＿ｖａｒｉａｂｌｅ，ｉｎｔｅｒｎａｌ＿ｖａｒｉａｂｌｅ及びｃｏｍｐｕｔｅｄ＿ｖａｒｉａｂｌｅを含む。変数記述子は、コンテキストが別の記述子（例えば、ｐｏｓ又はｒｃｏｍｐ）の値であることを示す。この場合、特定の記述子ＩＤ及びサブ配列ＩＤも指定される。変数ｏｕｔｐｕｔ＿ｖａｒｉａｂｌｅは、コンテキストが、復号されたＭＰＥＧ－Ｇレコード内の、例えばｓｅｑｕｅｎｃｅ，ｑｕａｌｉｔｙ＿ｖａｌｕｅｓ等の変数のうちの１つの値であることを示す。ｏｕｔｐｕｔ＿ｖａｒｉａｂｌｅの名前が指定される。変数ｉｎｔｅｒｎａｌ＿ｖａｒｉａｂｌｅは、コンテキストが、復号プロセス中に計算された内部変数（例えば、ｍｉｓｍａｔｃｈＯｆｆｓｅｔｓ）であることを示す。内部変数の名前が指定される。標準テキストで定義された内部変数のみが認識されることに留意されたい。変数ｃｏｍｐｕｔｅｄ＿ｖａｒｉａｂｌｅは、内部変数から計算される変数であるが、それ自体は規格で指定されていない。この場合、この変数を計算する関数がｃｏｎｔｅｘｔＣｏｍｐｕｔａｔｉｏｎＦｕｎｃｔｉｏｎとして含まれている（この関数の実行可能ファイルは、コンピューティングプラットフォーム間の相互運用性を可能にするために、標準化された仮想マシンで実行できる）。悪意のあるコードを防止するために、この関数は、信頼できる機関からのデジタル署名を含む。これは、「現在のゲノム位置にマッピングされた以前に復号されたすべての塩基の平均品質スコア」などの複雑なコンテキストを実施するのに役立つ。

[0081] 可変範囲は、適用可能な場合はいつでも、各追加コンテキストの範囲を示す。これは、変数が配列であり、値のサブセットのみが復号に使用される場合に適用可能である。開始位置及び終了位置に加えて、可変範囲は、ｒａｎｇｅＦｌａｇを使用して、範囲が配列の開始に対して説明されているか、又は配列内の現在位置に対して説明されているかを示す。配列の境界位置では、範囲が制限を超える場合、（ｄｅｆａｕｌｔＣｏｎｔｅｘｔ変数で指定されるような）デフォルト値が使用される。例えば、リードシーケンスの基準配列が、品質値の圧縮のためのコンテキストとして使用される場合、範囲は、現在位置に関して指定でき、［－３，３］の範囲は、現在位置を中心としたサイズ７のコンテキストを使用していることを意味する。

[0082] 異なる変数の依存性グラフは、循環を含むべきではなく、即ち、依存性グラフは、有向非巡回グラフ（ＤＡＧ）であるべきであることに留意されたい。有効な依存性グラフの例として、変数１は、依存関係なしで符号化され、変数２は、コンテキストとして変数１に依存して符号化され、変数３は、変数１及び変数２に依存して符号化され、変数４は、変数２に依存して符号化される。

[0083] ＭＰＥＧ－Ｇ規格に対する変更は、記述子の良好な予測子であるコンテキストを選択することによって、様々な記述子の圧縮を改善するために使用される。計算リソースが利用可能な場合、ニューラルネットワークベースの予測を使用して、より良好な予測子を構築し、大規模なコンテキストセットを、より効率的に処理することもできる。トレーニングのための類似データの可用性に応じて、静的トレーニング手順又は準適応トレーニング手順を使用できる。これに加えて、適応トレーニングを追加して、モデルを更に微調整でき、これは、カウントベースのモデルに特に役立つ。図２は、予測子モデル、符号化モード、トレーニングモード及び予測コンテキスト、並びにそれらに関連するパラメータの選択のブロック図を示す。この図の目的は、主要なパラメータの役割を示すことであり、ブロックは、必ずしも正確に同じ順序である必要はないことに留意されたい。ブロック図は、予測子モデル２０５、符号化モード２１０、トレーニングモード２１５、及び予測コンテキスト設定２２０を示す。予測子モデル２０５におけるこの例では、ｍｏｄｅｌＴｙｐｅ＝０（即ち、カウントベース、適応）（２２５）のとき、符号化モード２１０に入る。符号化モード２１０において、ｅｎｃｏｄｉｎｇＭｏｄｅ＝０（２３５）の場合、符号化はバイナリである。符号化モード２１０において、ｅｎｃｏｄｉｎｇＭｏｄｅ＝１（２４０）の場合、符号化はマルチシンボルである。その後、符号化モード２１０は、様々な予測コンテキスト設定２２０を格納する。予測コンテキスト設定２２０は、ｃｏｄｉｎｇ＿ｏｒｄｅｒ，ｎｕｍ＿ａｄｄｉｔｉｏｎａｌ＿ｃｏｎｔｅｘｔｓ，ｃｏｎｔｅｘｔ＿ｔｙｐｅ（ｄｅｓｃｒｉｐｔｏｒ，ｏｕｔｐｕｔ＿ｖａｒｉａｂｌｅ，ｉｎｔｅｒｎａｌ＿ｖａｒｉａｂｌｅ，ｃｏｍｐｕｔｅｄ＿ｖａｒｉａｂｌｅ）、及び／又は範囲を含む。

[0084] 更に、ｍｏｄｅｌＴｙｐｅ＝１（２３０）（即ち、機械学習）の場合、トレーニングモード２１５に入る。この場合、機械学習モデルアーキテクチャは、例えばＪＳＯＮ表現を使用して指定される。ＩｎｉｔｉａｌｉｚａｔｉｏｎＴｙｐｅ＝０（２４５）の場合、トレーニングモード２１５では、静的初期化が示され、ｍｏｄｅｌＵＲＩは、モデルパラメータを指す。ＩｎｉｔｉａｌｉｚａｔｉｏｎＴｙｐｅ＝１（２５０）の場合、トレーニングモード２１５では、準適応型の初期化が示され、ｓａｖｅｄＭｏｄｅｌは、モデルパラメータを、圧縮ファイルの一部として含む。次に、ａｄａｐｔｉｖｅＬｅａｒｎｉｎｇ＝０（２５５）の場合、モデルのトレーニングに適応学習は使用されない。ａｄａｐｔｉｖｅＬｅａｒｎｉｎｇ＝１（２６０）の場合、モデルのトレーニングに適応学習が使用され、以下のパラメータ、即ち、ｔｒａｉｎｉｎｇＡｌｇｏｒｉｔｈｍ，ｔｒａｉｎｉｎｇＡｌｇｏｒｉｔｈｍＰａｒａｍｅｔｅｒｓ，ｔｒａｉｎｉｎｇＦｒｅｑｕｅｎｃｙ及びｔｒａｉｎｉｎｇＥｐｏｃｈｓが指定される。その後、トレーニングモード２１５は、必要なパラメータを、予測コンテキスト設定２２０に格納する。

[0085] ２０２０年２月７日に出願された「Ｉｍｐｒｏｖｅｄｑｕａｌｉｔｙｖａｌｕｅｃｏｍｐｒｅｓｓｉｏｎｆｒａｍｅｗｏｒｋｉｎａｌｉｇｎｅｄｓｅｑｕｅｎｃｉｎｇｄａｔａｂａｓｅｄｏｎｎｏｖｅｌｃｏｎｔｅｘｔｓ」という名称の別の米国特許出願第６２／９７１，２９３号（これは、あたかも本明細書に含まれているかのように、すべての目的のために本明細書に組み込まれる）で説明されているように、品質値圧縮は、リード内の位置、リード内の近くの塩基、基準内の近くの塩基、塩基におけるエラーの存在とタイプ、ゲノム座標における平均品質値、及び整列情報から取得された他のコンテキストのようなコンテキストを組み込むことによって改善される。その特許出願では、コンテキストを選択する方法論と、ニューラルネットワークベースの予測ではなくカウントベースの予測を使用することとの長所及び短所についても詳しく説明している。その開示における結果は、計算コストが高くなるが、ＣＡＢＡＣと比較してパラメータ最適化に関して、はるかに単純なマルチシンボル算術コード化に基づく。

[0086] 図３は、変更されたＭＰＥＧ－Ｇ規格を使用してデータを符号化するための方法を示す。これは汎用符号化器の典型的な方法である。いくつかの実施形態では、いくつかのステップがデフォルトである。例えば、算術符号化タイプの選択は、様々なオプションから選択する代わりに、例えばバイナリ算術コード化のようなデフォルト選択を使用する。また、トレーニングモードは、常に複雑な選択を伴うとは限らず、例えば、静的トレーニングの場合、少なくとも部分的に付け加えられる。しかしながら、トレーニングモードに関するいくつかの指標値は、普遍的な定義に従って設定される。符号化方法２００は、２０５で開始し、その後、符号化方法２００は、符号化されるデータを受け取る（２１０）。本願では、そのようなデータは、様々なゲノムデータ、関連するメタデータ、品質値などである。次に、符号化パラメータが、受け取られる（２１５）。符号化パラメータは、ユーザによって選択され、符号化方法２００に提供され、構成ファイルに含まれるか、又は、符号化されるデータのタイプ及び／又は利用可能な計算リソースを解析することに基づいて決定される（例えば、算術コード化タイプｅｎｃｏｄｉｎｇＭｏｄｅは、符号化されるデータのフォーマットに基づいて選択されるか、又は、ｍｏｄｅｌＴｙｐｅは、トレーニングのために利用可能なデータ量と、利用可能な処理リソースとに基づいて選択される）。次に、符号化方法２００は、算術符号化タイプを選択する（２２０）。これは、受け取った符号化パラメータに基づき、変数ｅｎｃｏｄｉｎｇＭｏｄｅによって示されるように、バイナリ又はマルチシンボル算術符号化を含む。

[0087] その後、符号化方法２００は、変数ｍｏｄｅｌＴｙｐｅに基づいて予測子タイプを選択する（２２５）。上記で説明したように、これはＣＡＢＡＣ、ニューラルネットワークベースの予測子、又は他のタイプの機械学習又は他のタイプの予測子を示す。次に、符号化方法２００は、変数ｉｎｉｔｉａｌｉｚａｔｉｏｎＴｙｐｅに基づいてトレーニングモードを選択する（２３０）。また、変数ａｄａｐｔｉｖｅＬｅａｒｎｉｎｇは、符号化中に適応学習が使用されるか否かを示す。その後、方法２００は、トレーニングモードを選択する（２３０）。トレーニングモードは、前述した様々なトレーニングパラメータによって定義される。次に、方法２００は、上記で定義された様々な変数に基づいてコンテキストを選択する（２３５）。

[0088] 次に、方法２００は、符号化器をトレーニングする（２４０）。このトレーニングは、予測子タイプに依存し、つまり、カウントベース又はニューラルネットワークベースである。更に、様々なトレーニングパラメータは、トレーニングがどのように進行するかのみならず、使用されるトレーニング方法も定義する。その後、データを符号化するために、トレーニングされた符号化器が使用される（２４５）。適応予測子が使用される場合、符号化が進行すると予測子が更新される。更に、符号化されたデータには、上記で定義された様々な符号化パラメータが付加される。その後、方法２００は、２５０で停止する。

[0089] 図４は、変更されたＭＰＥＧ－Ｇ規格を使用してデータを復号するための方法を示す。これは例示的な復号である。符号化と同様に、一部のステップをデフォルトとできることに留意されたい。例えば、算術復号タイプが、マルチレベル（又はバイナリ）に固定され、予測タイプとコンテキスト情報のみが、符号化器によって実際に通信され、復号器によって事前に構成される。そのような場合、符号化パラメータは通常、予測タイプ及びコンテキストを規定するが、算術復号タイプを規定しない。復号方法３００は３０５で開始し、その後、復号方法３００は、復号されるデータを受け取る（３１０）。符号化されたデータは、様々なゲノムデータ、関連するメタデータ、品質値等を含む。次に、符号化されたデータから、符号化パラメータが抽出される（３１５）。復号方法３００は、算術符号化タイプを選択する（３２０）。これは、抽出された符号化パラメータに基づき、変数ｅｎｃｏｄｉｎｇＭｏｄｅによって示されるように、バイナリ又はマルチシンボル算術符号化を含む。

[0090] 復号方法３００は、その後、抽出された変数ｍｏｄｅｌＴｙｐｅに基づいて予測子タイプを選択する（３２５）。上記で説明したように、これは、カウントベースの予測子、ニューラルネットワークベースの予測子、又は他のタイプの機械学習又は他のタイプの予測子を示す。ニューラルネットワーク又は機械学習ベースの予測子が使用される場合、これらモデルの定義も、符号化パラメータから抽出される。次に、方法３００は、上記で定義された様々な変数に基づいてコンテキストを選択する（３３０）。

[0091] その後、復号器を使用して、様々な符号化パラメータ及び予測子モデルに基づいて、データを復号する（３３５）。適応予測子が使用される場合、予測子は、復号が進行するにつれて更新される。その後、方法３００は３４０で停止する。

[0092] 図５は、符号化／復号システムのための例示的なハードウェア図４００を示す。図示されるように、デバイス４００は、１つ又は複数のシステムバス４１０を介して相互接続された、プロセッサ４２０、メモリ４３０、ユーザインターフェース４４０、ネットワークインターフェース４５０、及びストレージ４６０を含む。図５は、いくつかの点で抽象化を構成し、デバイス４００の構成要素の実際の構成は、例示されているよりも複雑であると理解される。

[0093] プロセッサ４２０は、メモリ４３０又はストレージ４６０に格納された命令を実行できるか、又はデータを処理できる、任意のハードウェアデバイスである。したがって、プロセッサは、マイクロプロセッサ、グラフィック処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、並列計算が可能な任意のプロセッサ、又は他の同様のデバイスを含む。プロセッサは、機械学習モデルを実施する特別なプロセッサでもある。

[0094] メモリ４３０は、例えば、Ｌ１，Ｌ２又はＬ３のキャッシュ又はシステムメモリなどの様々なメモリを含む。したがって、メモリ４３０は、静的ランダムアクセスメモリ（ＳＲＡＭ）、動的ＲＡＭ（ＤＲＡＭ）、フラッシュメモリ、読取専用メモリ（ＲＯＭ）、又は他の同様のメモリデバイスを含む。

[0095] ユーザインターフェース４４０は、ユーザとの通信を可能にするための１つ又は複数のデバイスを含み、ユーザに情報を提示する。例えば、ユーザインターフェース４４０は、ユーザコマンドを受け取るためのディスプレイ、タッチインターフェース、マウス、及び／又はキーボードを含む。いくつかの実施形態では、ユーザインターフェース４４０は、ネットワークインターフェース４５０を介してリモート端末に提示されるコマンドラインインターフェース又はグラフィカルユーザインターフェースを含む。

[0096] ネットワークインターフェース４５０は、他のハードウェアデバイスとの通信を可能にするための１つ又は複数のデバイスを含む。例えば、ネットワークインターフェース４５０は、イーサネットプロトコル、又はワイヤレスプロトコルを含む他の通信プロトコルに従って通信するように構成されたネットワークインターフェースカード（ＮＩＣ）を含む。それに加えて、ネットワークインターフェース４５０は、ＴＣＰ／ＩＰプロトコルに従って通信するためのＴＣＰ／ＩＰスタックを実施する。ネットワークインターフェース４５０のための様々な代替又は追加のハードウェア又は構成が明らかとなろう。

[0097] ストレージ４６０は、読取専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、又は同様の記憶媒体などの１つ又は複数の機械可読記憶媒体を含む。様々な実施形態において、ストレージ４６０は、プロセッサ４２０による実行のための命令、又はプロセッサ４２０が動作するデータを格納する。例えば、ストレージ４６０は、ハードウェア４００の様々な基本動作を制御するための基本オペレーティングシステム４６１を格納する。ストレージ４６２は、変更されたＭＰＥＧ－Ｇ規格に従って、データの符号化又は復号を実施するための命令を格納する。

[0098] ストレージ４６０に格納されると説明された様々な情報は、追加的又は代替的にメモリ４３０に格納されることが明らかであろう。この点において、メモリ４３０は「ストレージデバイス」を構成すると考えられ、ストレージ４６０は、「メモリ」と考えられる。他の様々な構成が明らかになる。更に、メモリ４３０及びストレージ４６０は両方とも、「非一時的な機械可読媒体」と見なされる。本明細書で使用されるように、「非一時的」という用語は、一時的な信号を除外するが、揮発性メモリと不揮発性メモリとの両方を含むすべての形式のストレージを含むと理解される。

[0099] システム４００は、説明された各構成要素のうちの１つを含むものとして図示されているが、様々な構成要素が、様々な実施形態で複製される。例えば、プロセッサ４２０は、複数のプロセッサが協働して、本明細書に記載の機能を達成するように、本明細書で説明された方法を独立して実行するように構成された、又は、本明細書で説明された方法のステップ又はサブルーチンを実行するように構成された、複数のマイクロプロセッサを含む。そのような複数のプロセッサは、同じ又は異なるタイプのものである。更に、デバイス４００が、クラウドコンピューティングシステムで実施される場合、様々なハードウェア構成要素は、別個の物理システムに属する。例えば、プロセッサ４２０は、第１のサーバに第１のプロセッサを含み、第２のサーバに第２のプロセッサを含む。

[00100] 本明細書で説明された符号化／復号方法及びシステムは、現在のＭＰＥＧ－Ｇ規格に対する技術的改善を提供する。本明細書で説明された方法及びシステムは、異なる予測子モデルを追加するための、異なるタイプの算術符号化を可能にするための、及び遺伝子データの符号化／復号のための予測モデルのトレーニングに、追加のコンテキストを含める機能を提供するための、機能を含む。本明細書で説明された、これら及び他の追加機能により、データ内の他の追加情報を利用して、データの圧縮率を高めることができる。これにより、遺伝子データのストレージを低減することができ、更なる分析のために、より完全なゲノムを格納する際に、大きな利点を有する。また、追加の柔軟性により、圧縮の増加と、圧縮の増加を達成するために必要な追加の計算リソースとの間のバランスをとるために利用可能な計算リソース及びストレージリソースに基づいて、符号化の決定を行うことが可能となる。

[00101] 本発明の実施形態を実施するためにプロセッサにおいて実行される特定のソフトウェアの任意の組合せは、特定の専用マシンを構成する。

[00102] 本明細書で使用されるように、「非一時的な機械可読記憶媒体」という用語は、一時的な搬送信号を除外するが、揮発性及び不揮発性のメモリのすべての形態を含むと理解される。

[00103] 図６は、機械学習ベースの適応確率モデルの一般的な概念を説明するために、品質値（Ｑ１～Ｑ４）のための４つの可能な値のアルファベットにおけるシンボルの確率の予測子として、ニューラルネットワークを使用する、コンテキスト適応算術復号器の例を示す。一般に、アルファベットにおけるシンボルは、様々な量子化された品質レベルに対応し、例えば、Ｑ１が、最低の品質で、Ｑ４が、最高の品質である。算術復号回路６０１は、符号化されたデータＳ＿ｅｎｃを、復号されたデータＳ＿ｄｅｃに復号できるように、４つの可能な出力シンボル（Ｐ（Ｑ１）～Ｐ（Ｑ４））の現在の確率を再度知る必要がある。したがって、算術復号の原理を使用して、正規化された間隔［０．０－１．０］の位置と、対応する分数のバイナリ表現とから、現在の入力ビットのセットが、Ｑ１などの現在の品質レベルを符号化することがわかる。カウントしている場合、復号器は、通常、次のシンボル復号のモデルの確率を更新する（例えば、Ｑ１が復号されたため、品質スコアＱ１及び品質スコアＱ２が低いほど、次の復号の可能性が高くなる）。出力シンボルの確率は、ニューラルネットワーク回路６０２によって推測される。説明したように、データの符号化及び復号に何が最も有益であるかに応じて、様々なトポロジ及び様々な更新手法が使用される。この例における説明のために、コンテキストは、例えば、正規化された間隔におけるように、入力表現への適切な変換の後、入力ノード６１０から入力ノード６１４に供給される入力のいくつかのカテゴリからなる。これは、非常に一般的なコンテキストを使用できる。例えば、現在復号されている量の、単に前の２つの復号された値の代わりに、品質スコアトラック、前のスコアＱ（－１）、及び５つ前の位置のスコアＱ（－５）は、ニューラルネットワークへの入力として、コンテキストの一部である。いくつかの実施形態では、どの量を入力ノードに送るかを設定する更なる回路（図示せず）が存在するが、これはニューラルネットワークであり、ニューラルネットワークは、（ほぼ）ゼロである重みを最適化することにより、一部の入力が予測にとって重要ではないことを学習できるため、大量の入力量のセットを直ちに入力できる。また、一部の入力ノードが、まったく異なるコンテキスト量を取得することもわかり、例えば、入力ノード６１２及び入力ノード６１３は、前の復号されたシンボル位置Ｂ（－１）及び前の位置Ｂ（－２）で決定された核酸塩基を得る。このようにして、ネットワークは、特定の配列決定技術が、例えば、Ｎ個の連続するチミン塩基の実行を正確に決定することが困難であるか否かを知ることができ、これは、（符号化側と復号側との両方で）生の品質データ、及び、最適なコード化の統計に表れる。コンテキストを決定する無関係なパラメータ、即ち現在の塩基のセットが復号される染色体上の位置ＰＯＳ＿Ｃの例も図示される。当業者は、異なるコンテキストに対して、同じフレームワークがどのように使用されるかを理解する。

[00104] ニューラルネットワーク構成回路６５０は、必要に応じて、ニューラルネットワークが、データセットの異なる確率的挙動に対して最適化できるように、ニューラルネットワークを定期的に設定することができる（例えば、染色体の下部は、上部とは異なって最適化されたニューラルネットワークで、より良好に符号化される）。構成に応じて、この回路は、対応するサブユニットで異なるタスクを実行する。例えば、（例えば、特に最後の１０００の復号された核酸塩基と、その品質スコアのために）最近の一連のコンテキストで、まったく同じニューラルネットワークトポロジのトレーニングフェーズを並行して実行する。その後、現在のシンボルを復号する前に、すべての重みを最適値に置き換える。ニューラルネットワーク構成回路６５０は、通常、符号化パラメータデータパーサ６６０へのアクセスを有する。塩基の配列全体に適した静的ニューラルネットワークの場合、このパーサは、符号化されたデータ信号から重みを読み取り、ニューラルネットワーク構成回路６５０を介して、復号の開始前にそれらをニューラルネットワーク回路６０２に一度ロードする。ニューラルネットワーク確率モデル、又は継続的に更新、つまり再最適化を行う他の機械学習モデルの場合、パーサは、最初のいくつかの符号化されたシンボルを復号するために、ニューラルネットワーク回路６０２による確率計算のための開始重みを同様に設定する。

[00105] このネットワークトポロジには、１つの隠れ層（ノード６２０～ノード６２３）が図示されている。入力ノードの値を、それぞれの重みｗ１，１などで重み付けし、結果を合計する。このように、１つ又は場合によっては多くの隠れ層を使用することによって、ネットワークは、様々な相互依存性を学習でき、次のシンボルを予測するための非常に高品質の確率モデルにつなげることができる。出力ノードは通常、活性化関数６３０の後に続き、確率を表す。例えば。出力ノード６３１は、現在の品質が、第１の品質（例えば、最悪の品質スコア）となる確率を表し、例えば、それは０．２５である。この例は、本明細書に提示された技術的原理に従って同様に設計できるいくつかの変形のうちの１つを例として図示しているに過ぎない。また、算術符号化は、純粋なデータ、つまりバイナリ又は非バイナリのアルファベットシンボルの無損失の符号化として機能するため、生データと、初期予測アルゴリズムによって既に予測されているデータとの両方で使用できることに留意されたい（つまり、初期予測のモデルパラメータ、及び／又は、予測と実際の生データとの間の残差、の両方に対する算術符号化器及び復号器を実行できる）。

[00106] 様々な例示的な実施形態が、その特定の例示的態様を特に参照して詳細に説明されたが、本発明は他の実施形態が可能であり、その詳細は様々な明白な観点で変形可能であることを理解されたい。当業者に容易に明らかなように、本発明の精神及び範囲内に留まりながら、変更及び変形を行うことができる。したがって、前述の開示、説明、及び図は、例示のみを目的としており、特許請求の範囲によってのみ定義される本発明を決して限定するものではない。

Claims

ゲノム情報のＭＰＥＧ－Ｇ符号化されたデータを復号するための方法であって、
ＭＰＥＧ－Ｇ符号化されたデータを受け取るステップと、
ＭＰＥＧ－Ｇ符号化された前記データから、符号化パラメータを抽出するステップと、
抽出された前記符号化パラメータに基づいて、算術復号タイプを選択するステップと、
抽出された前記符号化パラメータに基づいて、前記データを算術的に符号化するために使用されたシンボルの確率を取得するための方法を指定する予測子タイプを選択するステップと、
抽出された前記符号化パラメータに基づいて、算術コード化コンテキストを選択するステップと、
選択された予測子と、選択された前記算術コード化コンテキストとを使用して、符号化された前記データを復号するステップとを有する、方法。
算術符号化タイプは、バイナリコード化及びマルチシンボルコード化のうちの１つである、請求項１に記載の方法。
前記予測子タイプは、カウントベースのタイプ又は機械学習モデルタイプのうちの１つである、請求項１に記載の方法。
前記予測子タイプは、機械学習モデルを識別するとき、前記符号化パラメータは更に、前記機械学習モデルの定義を含む、請求項３に記載の方法。
抽出された前記符号化パラメータは、トレーニングモードデータを含み、前記トレーニングモードデータは、算術的に符号化されるシンボルの確率を予測するためのモデルが、復号時に経時的にどのように変化するのかを指定する、請求項１に記載の方法。
前記トレーニングモードデータは、静的トレーニングモード、準適応トレーニングモード、及び適応トレーニングモードのうちの１つを含む初期化タイプを含む、請求項５に記載の方法。
前記トレーニングモードデータは、トレーニングアルゴリズム定義、トレーニングアルゴリズムパラメータ、トレーニング頻度、及びトレーニングエポックのうちの１つを含む、請求項５に記載の方法。
抽出された前記符号化パラメータは、コンテキストデータを含む、請求項１に記載の方法。
前記コンテキストデータは、コード化順序、使用される追加のコンテキストの数、コンテキストタイプ、及び範囲のうちの１つを含む、請求項８に記載の方法。
前記コンテキストデータは範囲フラグを含む、請求項８に記載の方法。
前記コンテキストデータは、コンテキスト記述子、コンテキスト出力変数、コンテキスト内部変数、コンテキスト計算変数、及びコンテキスト計算関数のうちの１つを含む、請求項８に記載の方法。
ＭＰＥＧ－Ｇ符号化されたデータを符号化するための方法であって、前記方法は、
データを符号化するために使用される符号化パラメータを受け取るステップであって、符号化パラメータは、コード化されていないゲノム情報が、どのように符号化されるのかを指定する、当該受け取るステップと、
受け取られた前記符号化パラメータに基づいて、算術符号化タイプを選択するステップと、
受け取られた前記符号化パラメータに基づいて、前記データを算術的に符号化するために使用されるシンボルの確率を取得するための方法を指定する予測子タイプを選択するステップと、
受け取られた前記符号化パラメータに基づいて、トレーニングモードを選択するステップと、
受け取られた前記符号化パラメータに基づいて、算術符号化コンテキストを選択するステップと、
受け取られた前記符号化パラメータに基づいて、符号化器をトレーニングするステップと、
トレーニングされた前記符号化器を使用して、前記データを符号化するステップとを有する、方法。
前記算術符号化タイプは、バイナリコード化及びマルチシンボルコード化のうちの１つである、請求項１２に記載の方法。
前記予測子タイプは、カウントベースのタイプ又は機械学習モデルタイプのうちの１つである、請求項１２に記載の方法。
前記予測子タイプが機械学習モデルを識別するとき、前記符号化パラメータは更に、前記機械学習モデルの定義を含む、請求項１４に記載の方法。
抽出された前記符号化パラメータは、トレーニングモードデータを含む、請求項１２に記載の方法。
前記トレーニングモードデータは、静的トレーニングモード、準適応トレーニングモード、及び適応トレーニングモードのうちの１つを含む初期化タイプを含む、請求項１６に記載の方法。
前記トレーニングモードデータは、トレーニングアルゴリズム定義、トレーニングアルゴリズムパラメータ、トレーニング頻度、及びトレーニングエポックのうちの１つを含む、請求項１６に記載の方法。
抽出された前記符号化パラメータは、コンテキストデータを含む、請求項１２に記載の方法。
前記コンテキストデータは、コード化順序、使用される追加のコンテキストの数、コンテキストタイプ、及び範囲のうちの１つを含む、請求項１９に記載の方法。
前記コンテキストデータは、範囲フラグを含む、請求項１９に記載の方法。
前記コンテキストデータは、コンテキスト記述子、コンテキスト出力変数、コンテキスト内部変数、コンテキスト計算変数、及びコンテキスト計算関数のうちの１つを含む、請求項１９に記載の方法。
ＭＰＥＧ－Ｇ符号化されたデータを復号するためのシステムであって、
メモリと、
前記メモリに結合されたプロセッサとを備え、前記プロセッサは更に、
ＭＰＥＧ－Ｇ符号化されたデータを受け取り、
符号化された前記データから符号化パラメータを抽出し、
抽出された前記符号化パラメータに基づいて、算術符号化タイプを選択し、
抽出された前記符号化パラメータに基づいて、前記データを算術的に符号化するために使用されたシンボルの確率を取得するための方法を指定する予測子タイプを選択し、
抽出された前記符号化パラメータに基づいて、算術符号化コンテキストを選択し、
選択された前記予測子タイプと、選択された前記算術符号化コンテキストとを使用して、符号化された前記データを復号する、システム。
前記算術符号化タイプは、バイナリコード化及びマルチシンボルコード化のうちの１つである、請求項２３に記載のシステム。
前記予測子タイプは、カウントベースのタイプ又は機械学習モデルタイプのうちの１つである、請求項２３に記載のシステム。
前記予測子タイプが機械学習モデルを識別するとき、前記符号化パラメータは更に、前記機械学習モデルの定義を含む、請求項２５に記載のシステム。
抽出された前記符号化パラメータは、トレーニングモードデータを含む、請求項２３に記載のシステム。
前記トレーニングモードデータは、静的トレーニングモード、準適応トレーニングモード、及び適応トレーニングモードのうちの１つを含む初期化タイプを含む、請求項２７に記載のシステム。
前記トレーニングモードデータは、トレーニングアルゴリズム定義、トレーニングアルゴリズムパラメータ、トレーニング頻度、及びトレーニングエポックのうちの１つを含む、請求項２７に記載のシステム。
抽出された前記符号化パラメータは、コンテキストデータを含む、請求項２３に記載のシステム。
前記コンテキストデータは、コード化順序、使用される追加のコンテキストの数、コンテキストタイプ、及び範囲のうちの１つを含む、請求項３０に記載のシステム。
前記コンテキストデータは、範囲フラグを含む、請求項３０に記載のシステム。
前記コンテキストデータは、コンテキスト記述子、コンテキスト出力変数、コンテキスト内部変数、コンテキスト計算変数、及びコンテキスト計算関数のうちの１つを含む、請求項３０に記載のシステム。
ＭＰＥＧ－Ｇ符号化されたデータを符号化するためのシステムであって、
メモリと、
前記メモリに結合されたプロセッサとを備え、前記プロセッサは更に、
データを符号化するために使用される符号化パラメータを受け取り、ここで、符号化パラメータは、コード化されていないゲノム情報がどのように符号化されるのかを指定し、
受け取った前記符号化パラメータに基づいて、算術符号化タイプを選択し、
受け取った前記符号化パラメータに基づいて、前記データを算術的に符号化するために使用されるシンボルの確率を取得するための方法を指定する予測子タイプを選択し、
受け取った前記符号化パラメータに基づいて、トレーニングモードを選択し、
受け取った前記符号化パラメータに基づいて、算術符号化コンテキストを選択し、
受け取った前記符号化パラメータに基づいて、符号化器をトレーニングし、
トレーニングされた前記符号化器を使用して、前記データを符号化する、システム。
前記算術符号化タイプは、バイナリコード化及びマルチシンボルコード化のうちの１つである、請求項３４に記載のシステム。
前記予測子タイプは、カウントベースのタイプ又は機械学習モデルのタイプのうちの１つである、請求項３４に記載のシステム。
前記予測子タイプが機械学習モデルを識別するとき、前記符号化パラメータは更に、前記機械学習モデルの定義を含む、請求項３６に記載のシステム。
抽出された前記符号化パラメータは、トレーニングモードデータを含む、請求項３４に記載のシステム。
前記トレーニングモードデータは、静的トレーニングモード、準適応トレーニングモード、及び適応トレーニングモードのうちの１つを含む初期化タイプを含む、請求項３８に記載のシステム。
前記トレーニングモードデータは、トレーニングアルゴリズム定義、トレーニングアルゴリズムパラメータ、トレーニング頻度、及びトレーニングエポックのうちの１つを含む、請求項３８に記載のシステム。
抽出された前記符号化パラメータは、コンテキストデータを含む、請求項３４に記載のシステム。
前記コンテキストデータは、コード化順序、使用される追加のコンテキストの数、コンテキストタイプ、及び範囲のうちの１つを含む、請求項４１に記載のシステム。
前記コンテキストデータは、範囲フラグを含む、請求項４１に記載のシステム。
前記コンテキストデータは、コンテキスト記述子、コンテキスト出力変数、コンテキスト内部変数、コンテキスト計算変数、及びコンテキスト計算関数のうちの１つを含む、請求項４１に記載のシステム。
データ通信チャネルに接続可能なデータ出力を備え、前記データ出力を介して符号化された前記データ及び前記符号化パラメータを出力する、請求項３４に記載のシステム。