JP2023546392A

JP2023546392A - マルチレイヤ信号符号化の分散解析

Info

Publication number: JP2023546392A
Application number: JP2023522481A
Authority: JP
Inventors: メルディ，グイド; ベナー，ローレンス
Original assignee: ブイ－ノバインターナショナルリミテッド
Priority date: 2020-10-16
Filing date: 2021-10-15
Publication date: 2023-11-02
Also published as: CN116458163A; GB2601990A; GB202016457D0; GB2601990B; WO2022079450A1; US20230370624A1; EP4229870A1

Abstract

本開示は、複数のビデオカメラフィードを分析する方法であって、第１の位置で、レイヤベースの符号化を使用して、レイヤベースの符号化内の複数のレイヤの各々について符号化されたデータストリームを生成することを含めて、複数のビデオカメラフィードを符号化することであって、複数のレイヤ中の異なるレイヤは、異なる空間解像度に対応し、より高位のレイヤは、より高い空間解像度を表す、符号化することと、第１の位置からリモートの第２の位置に、複数のビデオカメラフィードの１つ以上の最下位レイヤの符号化されたデータストリームを送信することと、第２の位置で、符号化されたデータストリームを復号化して、第１の空間解像度で複数のビデオカメラフィードの再構成のセットを生成することと、再構成のセットに１つ以上のビデオ分析機能を適用して、更なる分析のための１つ以上のビデオカメラフィードを識別することと、更なる分析のための識別された１つ以上のビデオカメラフィードの第１の位置に、１つ以上の最下位レイヤよりも上の１つ以上のレイヤの更なる符号化されたデータストリームに対する要求を伝送することと、要求に応答して、第２の位置に、１つ以上の最下位レイヤよりも上の１つ以上のレイヤの更なる符号化されたデータストリームを送信することと、第２の位置で、更なる符号化されたデータストリームを復号化して、第２の空間解像度で、識別された１つ以上のビデオカメラフィードの再構成のセットを生成することと、第２の空間解像度の再構成のセットに１つ以上のビデオ分析機能を適用することと、を含む。【選択図】図１０

Description

本開示は、デジタル信号の自動分析を実行するためのシステム、例えば、画像のシーケンスにおける物体分析及び／又はシーン分類を実行するための人工知能（「ＡＩ」）システムに関する。更に、本開示は、データの分析を実行するシステムの位置とは異なる位置で、キャプチャ、符号化、及び／又はアーカイブされるデータの分析を実行するための、上述のシステムを動作させるための方法に関する。更に、本開示は、コンピュータ可読命令が記憶された非一時的コンピュータ可読記憶媒体を備えるコンピュータプログラム製品に関し、コンピュータ可読命令は、上述の方法を実行するための処理ハードウェアを備えるコンピュータ化デバイスによって実行可能である。本明細書において説明される特定の実施例は、非限定的な実施例として、音声、画像、ビデオ、及び没入型メディア信号などの、複雑な信号のシーン及び／又は物体の検出、分類、認識、及びタグ付けを実行するための自動深層学習分析を採用する。簡潔にするために、本開示は、ビデオ信号の場合に焦点を当てるが、当業者は、ビデオ信号以外のタイプの信号の自動分析に同じ概念をどのように適用することができるかを容易に導出することができる。

ビデオ信号などの時間発展する信号は、典型的には、定時間刻みのサンプルのシーケンス（例えば、定時間刻みのサンプルのシーケンス、６０Ｈｚのレート、又は毎秒６０サンプル）によって表され、各サンプル（例えば、ビデオフレーム）は、複数の色平面（例えば、ＲＧＢ、ＹＵＶ、ＨＳＶなど）を含み、各色平面は、多数の絵素（例えば、３８４０×２１６０絵素、又は超ＨＤフル解像度平面の約８００万画素）を含み、各絵素値は、所与のビット深度（例えば、８ビット、１０ビットなど）の値で表されることが理解されよう。全体として、非圧縮ビデオ信号は、ある所与の位置から別の位置まで、４：２：２ＵＨＤ１０ビットビデオ信号のわずか１秒間の１２ギガビット（すなわち、１．５ＧＢ）などの極めて高い量のビット毎秒が伝達されることを必要とすることが理解されよう。

人工知能及びニューラルネットワークのアルゴリズムの能力に関して大いに沸き立っているが、信号の分析は、依然として、分散の基本的な問題に悩まされている。多くの組織が、複雑なニューラルネットワークアーキテクチャで推論を実行することができる多くのグラフィカル処理ユニット又はテンソル処理ユニットを有する大規模なデータセンタを有する。しかしながら、これらの複雑なニューラルネットワークアーキテクチャは、高解像度の画像又はビデオフィードなどの高解像度信号を受信及び処理するように構成されている。遭遇した問題の１つは、これらのデータセンタに、分析への入力を形成する高解像度の画像又はビデオフィードを効率的に提供する方法であり、特に、これらのフィードのソースが地理的にリモートである場合である。実施例として、スポーツの試合又は音楽イベントは、高解像度でビデオデータをキャプチャしている多くのカメラを有し得るが、このビデオデータを処理及びミキシングするために、任意のデータセンタへの高速接続が必要とされる。このため、複雑なビデオ分析又はビデオミキシングをオンサイトで実行する必要があるが、高度なニューラルネットワーク分析のための処理リソースは、試合又はイベントのサイトに移植可能でない場合がある（サイトは、サッカー場のサイズの高度な冷却処理機器を含み得るため）。同様の問題が、リモートイベント及び／又はエッジセンサネットワークからの高品質音声信号に適用される。

より詳細には、分析する信号が、この信号を分析するように図られた計算リソースの位置とは異なる位置に配置されると必ず、画像フレームのＡＩ分析を実行するための従来の手法の著しい制限がつきまとう。このケースは、ビデオ信号は軽量カメラ及び／又はエッジデバイスを介して「現場で」キャプチャされることが多いことから、ビデオ信号には非常に頻繁であるが、洗練されたＡＩ分析は、典型的にはデータセンタで利用可能である処理リソースを必要とする（多くの場合、ニューラルネットワークアルゴリズムはまた、データが複数の位置から到来することに起因して、定期的に再トレーニングされる）。この課題に取り組むために、最も一般的な手法は、ＡＩ処理の容量をエッジデバイスに転送する（これにより、処理リソースの制限とニューラルネットワークのトレーニング及び機械学習目的のためのローカルデータのみの可用性とに起因して、コスト効率が低下し、分析の恩恵が犠牲になる）か、又は何らかの形で全ての分析するビデオデータをエッジからデータセンタに転送することである。

人工知能分析のための特徴量を送信することに焦点を当てたソリューションが議論されてきた。しかしながら、これらの「特徴量」がどのようなものであるべきかについての指針のないことが多い。典型的には、提案されたソリューションは、オンサイトでの特定の局所特徴量抽出のいくつかの形態を有し、このデータは、より複雑な分析のための処理リソースを有するデータセンタに送信される。しかしながら、このアプローチは柔軟ではなく、例えば、特徴量抽出を変更することが困難である。このアプローチは、追加の問題を生じさせるニューラルネットワークアーキテクチャの一部分の局所実装を必要とすることが多い。また、分析の前に、どのような特徴量が分析に有用であり得るかを知ることが困難である。

本発明の態様及び変形例が、添付の特許請求の範囲に記載されている。

特定の特許請求されていない態様が、以下の詳細な説明に更に記載されている。

マルチレイヤ又は階層符号化及び復号化プロセスの高度な概略図を示す。マルチレイヤデコンストラクションプロセスの高度な概略図を示す。マルチレイヤデコンストラクションプロセスの代替的な高度な概略図を示す。ティア化された出力の残差を符号化するのに好適な符号化プロセスの高度な概略図を示す。図４からの各出力レベルを復号化するのに好適なマルチレイヤ復号化プロセスの高度な概略図を示す。マルチレイヤコード化技術の符号化プロセスの高度な概略図を示す。図６の出力を復号化するのに好適な復号化プロセスの高度な概略図を示す。マルチレイヤコード化フォーマットの高度な概略図を示す。局所的にキャプチャされた信号のリモート分析のための第１の例示的なプロセスの高度な概略図を示す。局所的にキャプチャされた信号のリモート分析のための第２の例示的なプロセスの高度な概略図を示す。局所的にキャプチャされた信号のリモート分析のための第２の例示的なプロセスの高度な概略図を示す。本明細書において説明される実施例を実装するための例示的な装置を示す。１つの例示的なカメラについてのビデオデータのティア化された送信の例示的なプロセスを示す。１つの例示的なカメラについてのビデオデータのティア化された送信の例示的なプロセスを示す。１つの例示的なカメラについてのビデオデータのティア化された送信の例示的なプロセスを示す。１つの例示的なカメラについてのビデオデータのティア化された送信の例示的なプロセスを示す。比較演算と比較した改善を示す表を示す。

本明細書において説明される特定の実施例は、信号を符号化するための方法に関する。データの処理は、データを取得すること、導出すること、出力すること、受信すること、及び再構成することを含み得るが、これらに限定されない。

本明細書において説明される特定の例は、信号の分散処理に関する。特に、実施例は、種々のレイヤが種々の品質レベルを表す、マルチレイヤ符号化（ティアベース符号化及び／又は階層符号化とも称される）を使用して信号を符号化することに関する。これらの品質レベルは、種々の空間解像度、送信のための種々のビットレート、種々の量子化レベル、種々のサンプリングレベル、及び／又は種々のビット深度を含み得る。

ＩＳＯ／ＩＥＣＭＰＥＧ－５Ｐａｒｔ２ＬＣＥＶＣ（以後、「ＬＣＥＶＣ」）又はＳＭＰＴＥＶＣ－６２１１７（以後、「ＶＣ－６」）などのティアベースのコード化フォーマットでは、信号は、元の信号のサンプリングレートの最上層から、典型的には、元の信号よりも低いサンプリングレートを有する最下層まで、各々が信号の「品質レベル」（「ＬｏＱ」）に対応する複数の「階層」（「階層ティア」としても知られている）に分解される。信号がビデオストリームのフレームである非限定的な実施例では、最下層は、元のフレームのサムネイルであり得るか、又は更には単に単一の絵素であり得る。他の階層は、最終出力を生成するために、再構成されたレンディションに適用される補正に関する情報を内有する。階層は、特定の品質レベルの元の信号のバージョンと同じ品質レベルの信号の再構成されたバージョンとの間の差異などの残差情報に基づき得る。最下層は、残差情報を含まなくてもよいが、元の信号の最下サンプリングを含み得る。所与の品質レベルの復号化された信号は、まず最下層を復号化し（したがって、第１の（最も低い）品質レベルの信号を再構成し）、次に第２の（次のより高い）品質レベルの信号のレンディションを予測し、次に、対応する、再構成データの第２の階層（第２の品質レベルの「残差データ」としても知られている）を復号化し、次に、予測結果を再構成データと結合して第２の（より高い）品質レベルの信号のレンディションを再構成することを、所与の品質レベルが再構成されるまで以下同様に行うことによって再構成される。信号を再構成することは、残差データを復号化し、これを使用して、より低い品質レベルからの信号のバージョンから導出された特定の品質レベルのバージョンを補正することを含み得る。異なるデータ階層は異なるコード化フォーマットを使用してコード化され得、異なる品質レベルは異なるサンプリングレートを有し得る（例えば、画像又はビデオ信号の場合、解像度）。後続の階層は、信号の同じ信号解像度（すなわち、サンプリングレート）を指し得、又は漸進的に高くなる信号解像度を指し得る。

好ましい実施例では、マルチレイヤコード化方式は、ビデオコード化標準ＶＣ－６を含み得る：ＰＣＴ／ＧＢ２０１８／０５３５５２（及び関連付けられた公開された標準の文書）において説明されているＳＭＰＴＥＶＣ－６ＳＴ－２１１７であり、その全てが参照により本明細書に援用される。特定の実施例はまた、ＬＣＥＶＣ等の他のマルチレイヤコード化方式を使用し得る：ＰＣＴ／ＧＢ２０２０／０５０６９５（及び関連付けられた公開された標準の文書）において説明されているＭＰＥＧ－５Ｐａｒｔ２ＬＣＥＶＣ（「低複雑性強化ビデオコード化」）であり、これらの文書も、参照により本明細書に援用される。しかしながら、本明細書に例示される概念をこれらの具体的なマルチレイヤコード化方式に限定する必要はない。他の実施例では、マルチレイヤコード化方式は、（スケーラブルな）ウェーブレットベースのコード化方式を含み得る。

特定の実施例では、ビデオカメラ及び／又はマイクロフォンなどのネットワークのエッジの信号源は、フル品質の信号のセットを出力し、次いで、これらの信号は、ＶＣ－６などのマルチレイヤコード化フォーマットを使用してエッジで符号化される。マルチレイヤコード化階層又はピラミッドの下位レベルに関連する符号化されたデータストリームは、分析のために少なくとも１つのネットワークを介してリモートコンピューティングデバイスに送信される。このリモートコンピューティングデバイスは、いわゆる「クラウド」サーバ又はデータ処理センタを含み得る。マルチレイヤコード化階層又はピラミッドの下位レベルの符号化されたデータは、復号化され、削除コンピューティングデバイスに供給され、次いで、削除コンピューティングデバイスは、下位レベルの符号化されたデータから取得された再構成に対して第１のレベルの分析を実行することができる。例えば、これらの再構成は、低解像度の「サムネイル」フレーム又はフレームのセットであり得る。次いで、リモートコンピューティングデバイスは、第１のレベルの分析の出力を基にして、信号の更なる分析を行い得る。このことは、マルチレイヤコード化階層又はピラミッドにおける高位レベルを表す更なる符号化されたデータを要求することを含み得る。ネットワークのエッジからこの符号化されたデータを受信すると、リモートコンピューティングデバイスは、更なる符号化されたデータを復号化し、かつより高い品質レベルでの再構成（例えば、より高い空間解像度での再構成）に基づいて信号の更なる分析を実行することが可能であり得る。このアプローチは、各カメラが異なる姿勢、角度、及び／又は位置からアクションをキャプチャしているスポーツイベント又は音楽イベントを記録するビデオカメラの大規模なセットなどの、複数の信号源にわたって適用され得る。したがって、本方法を使用して、ネットワークを介して容易に送信され得る複数のより小さい符号化されたデータストリーム（例えば、全てのキャプチャデバイスからの）に対して迅速な分析を実行し、次いで、関心のあるフレーム及び／又はキャプチャデバイスの追加の符号化されたデータのサブセットのみを要求し得る。例えば、サッカーボールの位置は、複数のカメラからの再構成のセットの分析に基づいて判定され得、次いで、分析から、サッカーボールを包含するとみなされるカメラに対して、更なるデータが要求され得る。このようにして、人工知能ミキシングアプリケーションが提供され得る。それゆえ、効率的に伝達され、かつ再構成された信号データに対して、高度かつ複雑なデータセンタ処理がリモートで実行され得る。

例えば、畳み込みニューラルネットワークは、一般的に、リモートコンピューティングデバイスでのビデオ分析機能の一部として適用される（例えば、いわゆる「クラウドベースの物体認識」）。マルチレイヤコード化フォーマットは、このビデオ分析を何倍にも加速することを可能にし、エッジビデオのクラウドベースの分析を可能にする。ＶＣ－６などのマルチレイヤコード化フォーマットは、画像認識アルゴリズムに対してネイティブに「フレンドリ」であり、処理を５～１０倍高速化することができる。

本明細書において説明される特定の実施例は、毎秒６０フレーム（ＵＨＤｐ６０）で超高精細（ＵＨＤ）のデータをストリーミングする２０台のビデオカメラなどの、複数のカメラを有することの問題に対処するが、そのストリーミングされるデータに対してビデオ分析を実行することを必要とし得る。例えば、サッカースタジアム又はコンサート会場などのキャプチャの地点と、物体を認識するための畳み込みニューラルネットワークアーキテクチャを実装したデータセンタなどの、高度なビデオ分析のためのサイトと、の間に、利用可能な帯域幅がないことが多い。データセンタをフットボールスタジアムに持ち込むことも可能ではなく、程々の処理のインフラストラクチャでさえ、時折使用するにはコストがかかり、かつ／又は大量の固定処理ハードウェアの移動を必要とする。しかしながら、本実施例を使用して、マルチレイヤフォーマットの符号化がオンサイトで実行され得、分析のためにレイヤのサブセットのみが送信される（典型的には、複数のソースデバイスの下位レイヤ又は最下位レイヤ）。下位レイヤ又は最下位レイヤが送信される場合、この位置の符号化されたストリームは、複数の低ビットレートの符号化されたストリーム、例えば、既存の帯域幅を使用して容易に収まり得る低解像度ストリームを含み得る。次いで、高位レイヤの符号化データの種々のセットが、更なる処理のために、ネットワークを介してオンデマンドでデータセンタに送信され得る。

本明細書で説明される例は、伝送制約及び処理能力制約の両方に対処するための比較アプローチに勝る利点を有する。例えば、１つの比較アプローチは、分析の前にビデオフレームをデシメートすることである。しかしながら、これには、有用なフレームを、これらのフレームのコンテンツを分析する機会を得る前に潜在的にプルーニングするという欠点がある。デシメーションに起因する分析データの連続するセット間の大きな離散的な変化はまた、ニューラルネットワークアーキテクチャを「混乱」させ、かつ／又は種々のサンプリングレートに対してそれらの柔軟性を失わせ得る（例えば、１／１０のプルーニングで訓練されたシステムは、１／５のプルーニングに適応できない場合がある）。対照的に、本実施例は、下位レイヤ信号が小さく、かつ制約された帯域幅接続を介して送信され得るため、より高い周波数の信号ストリームがリモート位置によって受信されることを可能にする（例えば、定時間刻みの強いデシメーションの必要性を回避する）。それゆえ、リモート処理位置は、フレームのほぼ連続するセットを受信し得る。別の比較アプローチは、分析された各フレームを、例えば、リモート処理位置への伝送に先立って、より低い解像度にダウンスケールすることである。しかしながら、このアプローチは、リモート位置での処理が、より低解像度の再構成に限定されることを意味し、例えば、分類正解率を改善するであろう詳細を潜在的に失うことを意味する。このことは、最終的に、システムの全体的な分類性能を制限する可能性がある。本実施例では、第１の符号化されたデータストリームが、初期分析のために低解像度で提供されるが、更なる詳細が、例えば、完全無損失符号化に使用され得るマルチレイヤ符号化への適応なしに、効率的に要求及び送信され得る。例えば、更なる符号化されたデータが、リモート処理位置によって要求され得、リモート処理位置での既存の低解像度再構成を強化する、より高い解像度の残留データを含み得る。複数のレイヤを有するソース信号を符号化する実装態様では、正解率を選択的に改善するために、異なるレイヤが要求及び送信され、これにより、ＡＩ処理アルゴリズムが、エッジデータ信号を好適に分析するために、最小量のデータを「オンデマンド」で要求することが効果的に可能になる。

序論
更なる背景として、本明細書において説明される実施例は、信号処理に関連する。信号は、サンプルのシーケンス（すなわち、二次元画像、ビデオフレーム、ビデオフィールド、サウンドフレームなど）とみなされ得る。説明において、「画像」、「ピクチャ」、又は「平面」（「超平面」の最も広い意味、すなわち、任意の数の次元及び所与のサンプリンググリッドを有する要素の配列が意図される）という用語が、サンプルのシーケンスに沿った信号のサンプルのデジタルレンディションを識別するためにしばしば使用され、各平面は、平面の次元（例えば、Ｘ及びＹ）の各々について所与の解像度を有し、１つ以上の「値」又は「設定」（例えば、非限定的な実施例として、好適な色空間における色設定、濃度レベルを示す設定、温度レベルを示す設定、オーディオピッチを示す設定、振幅を示す設定、アルファチャンネル透明度レベルを示す設定、など）によって特徴付けられる平面要素（又は「要素」、又は「画像素子」、又は、「画素」と呼ばれることが多い二次元画像の、「ボクセル」と呼ばれることが多いボリュメトリック画像の表示要素など）のセットを含む。各平面要素は、画像のサンプリンググリッドにおける当該要素の整数位置を示す好適な座標のセットによって識別される。信号の次元は、空間次元のみを含むこともできる（例えば、画像の場合）か、又は時間次元を含むこともできる（例えば、ビデオ信号などの、経時的に発展する信号の場合）。

実施例として、信号は、画像、音声信号、マルチチャネル音声信号、テレメトリ信号、ビデオ信号、３ＤｏＦ／６ＤｏＦビデオ信号、ボリュメトリック信号（例えば、医療イメージング、科学的イメージング、ホログラフィックイメージングなど）、ボリュメトリックビデオ信号、又は更には４次元を超える信号であり得る。

簡潔にするために、本明細書において説明される実施例は、例えばビデオ信号などの、設定の２Ｄ平面（例えば、好適な色空間内の２Ｄ画像）として表示される信号を指すことが多い。「フレーム」又は「フィールド」という用語は、ビデオ信号の定時間刻みのサンプルを示すために、「画像」という用語と互換的に使用され、ビデオ信号について例示される任意の概念及び方法は、フィールドからなるビデオ信号（インターレース式ビデオ信号）にも容易に適用可能であり得、逆も同様である。本明細書に例示される実施形態の焦点は、画像及びビデオ信号に当てられているが、当業者は、同じ概念及び方法を、任意の他のタイプの多次元信号（例えば、音声信号、ボリュメトリック信号、立体ビデオ信号、３ＤｏＦ／６ＤｏＦビデオ信号、プレノプティック信号、点群など）にも適用可能であることを容易に理解することができる。

本明細書において説明される特定のティアベースの階層フォーマットは、オリジナルに最良に相似する（又は、ロスなく再構成される）所与の品質レベルの信号の再構成を生成するために、（例えば、「残差データ」又は単に「残差」の形態の）可変補正量を使用する。補正量は、所与の品質レベルの予測レンディションの忠実度に基づき得る。

ティアベースの階層コード化方式又はフォーマットの例
好ましい実施例では、エンコーダ又はデコーダは、ティアベースの階層コード化方式又はフォーマットの一部である。ティアベースの階層コード化方式の例は、ＬＣＥＶＣ：ＭＰＥＧ－５Ｐａｒｔ２ＬＣＥＶＣ（「ＬｏｗＣｏｍｐｌｅｘｉｔｙＥｎｈａｎｃｅｍｅｎｔＶｉｄｅｏＣｏｄｉｎｇ」）及びＶＣ－６：ＳＭＰＴＥＶＣ－６ＳＴ－２１１７を含み、前者はＰＣＴ／ＧＢ２０２０／０５０６９５（及び関連する規格文書）に説明されており、後者はＰＣＴ／ＧＢ２０１８／０５３５５２（及び関連する規格文書）に説明されており、これらは全て参照により本明細書に援用される。しかしながら、本明細書に例示される概念をこれらの具体的な階層コード化方式に限定する必要はない。本明細書において説明される特定の実施例は、ＶＣ－６符号化を用いて最適に動作する。

図１～図７は、種々の例示的なティアベースの階層コード化フォーマットの概要を提供する。これらは、図７に続く図に記載される更なる信号処理動作を追加するためのコンテキストとして提供される。図１～図５は、ＳＭＰＴＥＶＣ－６ＳＴ－２１１７の実装態様と類似する実施例を提供するのに対して、図６及び図７は、ＭＰＥＧ－５Ｐａｒｔ２ＬＣＥＶＣの実装態様と類似する実施例を提供する。どちらの例のセットも、共通の基礎動作（例えば、ダウンサンプリング、アップサンプリング、及び残差生成）を利用し、モジュール実装技術を共有し得ることが分かり得る。

図１は、階層コード化方式をごく一般的に例示している。符号化されるデータ１０１は、符号化されたデータ１０３を出力する階層的エンコーダ１０２によって取り出される。その後、符号化されたデータ１０３は、階層デコーダ１０４によって受信され、階層デコーダ１０４は、データを復号化し、復号化されたデータ１０５を出力する。

典型的には、本明細書の実施例で使用される階層コード化方式は、基本レベル又はコアレベルを作成し、これは、より低い品質レベルでの元のデータの表現であり、基本レベルデータの復号化されたバージョンを使用してより高い品質レベルで元のデータを再現するために使用され得る１つ以上の残差レベルである。概して、本明細書で使用される「残差」という用語は、基準配列又は基準フレームの値と、実際のデータ配列又はデータフレームとの間の差異を指す。配列は、コード化単位を表す一次元又は二次元配列であり得る。例えば、コード化ユニットは、入力ビデオフレームの同様のサイズの領域に対応する２×２又は４×４残差値セットであり得る。

この一般化された実施例は、入力信号の性質に関して不可知論的であることに留意されたい。本明細書で使用される場合、「残差データ」への言及は、残差のセット、例えば、残差自体のセット、又は残差のセットに対して実行されるデータ処理演算のセットの出力などから導出されデータを指す。本明細書全体を通して、一般に、残差のセットは、複数の残差又は残差要素を含み、各残差又は残差要素は、信号要素、すなわち、信号又は元のデータの要素に対応する。

特定の実施例では、データは、画像又はビデオであり得る。これらの実施例では、残差のセットは、ビデオの画像又はフレームに対応し、各残差は、信号の画素と関連付けられ、画素は、信号要素である。

本明細書において説明される方法は、ビデオ信号の種々の色成分を反映する、いわゆるデータの平面に適用され得る。例えば、方法は、異なるカラーチャネルを反映するＹＵＶデータ又はＲＧＢデータの種々の平面に適用され得る。異なるカラーチャネルは、並行して処理され得る。各ストリームの成分は、任意の論理的順序で照合され得る。

ここで、本発明の概念が展開され得る階層コード化方式について説明する。この方式は、図２～図５に概念的に例示されており、上記のＶＣ－６に概ね対応する。そのような符号化技術では、残差データは、漸進的により高いレベルの品質において使用される。この提案された技術において、コアレイヤは、第１の解像度で画像を表し、ティア化階層における後続のレイヤは、復号化側がより高い解像度で画像を再構成するために必要な残差データ又は調整レイヤである。各レイヤ又はレベルは階層インデックスと称され得、残差データは、より低い階層インデックスに存在する低品質情報を補正するために必要なデータである。この階層手法における各レイヤ又は階層インデックス、特に各残差レイヤは、多くのゼロ値要素を有する比較的疎なデータセットであることが多い。階層インデックスに言及する場合、全ての階層又はそのレベルの全ての成分セットをまとめて指しており、例えば、その品質レベルで行われる変換ステップから生じる全てのサブセットをまとめて指す。

この特定の階層的な様式では、説明されているデータ構造は、前の又は進行中の品質レベルに対するあらゆる要件又は依存関係を取り除く。品質レベルは別々に符号化及び復号化され得、また他の層を参照することなく符号化及び復号化され得る。したがって、より高い品質レベルを復号化するために最も低い品質レベルを復号化する必要がある多くの既知の他の階層符号化方式とは対照的に、説明される方法論はいかなる他のレイヤの復号化も必要としない。それにもかかわらず、以下に説明する情報交換の原理は、他の階層コード化方式にも適用可能であり得る。

図２に示されるように、符号化されたデータは、本明細書では概して階層インデックスと称されるレイヤ又はレベルのセットを表す。基本レベル又はコアレベルは、最も低い品質レベル又は解像度においてではあるが、元のデータフレーム２１０を表し、後続の残差データ階層は、コア階層インデックスのデータと結合して、漸進的に高くなる解像度で元の画像を再現することができる。

コア階層インデックスを作成するには、その階層コード化演算で使用されるレベルの数又は階層インデックスの数に対応する数のダウンサンプリング演算２０１を使用して、入力データフレーム２１０がダウンサンプリングされ得る。階層構造内のレベルの数よりも１つ少ない数のダウンサンプリング演算２０１が必要とされる。本明細書に例示される全ての例において、４つの出力符号化データのレベル又は階層インデックス、及びこれに対応して３つのダウンサンプリング演算が存在するが、当然ながら、これらは例示のためのものにすぎないことが理解されるであろう。ここで、ｎはレベルの数を示し、ダウンサンプラの数はｎ－１である。コアレベルＲ_1-nは第３のダウンサンプリング演算の出力である。上記に示されるように、コアレベルＲ_1-nは、最も低い品質レベルでの入力データフレームの表現に対応する。

ダウンサンプリング演算２０１を区別するために、各ダウンサンプリング演算は、動作が入力データ２１０に対して行われる順番で、又は動作の出力が表すデータによって呼称される。例えば、例における第３のダウンサンプリング演算２０１_1-nは、その出力がコア階層インデックス又は階層_1-nを生成するので（すなわち、このレベルの全ての階層のインデックスが１－ｎ）、コアダウンサンプラとも称され得る。したがって、この例では、第１のダウンサンプリング演算２０１_-1はＲ_-1ダウンサンプラに対応し、第２のダウンサンプリング演算２０１_-2はＲ_-2ダウンサンプラに対応し、第３のダウンサンプリング演算２０１_1-nはコア又はＲ_-3ダウンサンプラに対応する。

図２に示されるように、コア品質レベルＲ_1-nを表すデータに対して、本明細書ではコアアップサンプラと称されるアップサンプリング動作２０２_1-nが実行される。第２のダウンサンプリング演算２０１_-2の出力（Ｒ_-2ダウンサンプラの出力、すなわち、コアダウンサンプラへの入力）とコアアップサンプラ２０２_1-nの出力との間の差２０３_-2が第１の残差データＲ_-2として出力される。したがって、この第１の残差データＲ_-2は、コアレベルＲ_-3と、そのレベルを作成するために使用された信号との間の誤差を表す。この実施例では、信号が２つのダウンサンプリング演算を施されているため、第１の残差データＲ_-2は、コア品質レベルよりも高いレベルであるが、入力データフレーム２１０よりも低いレベルで元の信号を再現するのに使用することができる調整レイヤである。

より高い品質レベルを表す残差データを作成する方法のバリエーションが図２及び図３に概念的に例示されている。

図２では、第２のダウンサンプリング演算２０１_-2（又はＲ_-2ダウンサンプラ、すなわち、第１の残差データＲ_-2を作成するために使用される信号）の出力がアップサンプリング２０２_-2され、第２のダウンサンプリング演算２０１_-2（又はＲ_-2ダウンサンプラ、すなわち、Ｒ_-1ダウンサンプラの出力）への入力との間の差２０３_-1が、第１の残差データＲ_-2の作成とほぼ同じ方法で計算される。したがって、この差は、第２の残差データＲ_-1であり、より低いレイヤからのデータを使用してより高い品質レベルで元の信号を再現するために使用することができる調整レイヤを表す。

しかしながら、図３のバリエーションでは、第２のダウンサンプリング演算２０１_-2（又はＲ_-2ダウンサンプラ）の出力を第１の残差データＲ_-2と結合するか、又は足し合わせる３０４_-2ことでコアアップサンプラ２０２_1-nの出力が再現される。このバリエーションでは、ダウンサンプリングされたデータではなく、この再現されたデータがアップサンプリング２０２_-2される。アップサンプリングされたデータは、同様に、第２のダウンサンプリング演算（又はＲ_-2ダウンサンプラ、すなわち、Ｒ_-1ダウンサンプラの出力）への入力と比較２０３_-1され、第２の残差データＲ_-1を作成する。

図２及び図３の実装間の違いの結果、２つの実装間で残差データがわずかに異なる。図２は、並列化のより大きなポテンシャルからの利益を享受する。

第３の残差Ｒ₀を作成するためにプロセス又はサイクルが繰り返される。図２及び図３の例では、出力残差データＲ₀（すなわち、第３の残差データ）は、最も高いレベルに対応し、入力データフレームを再現するためにデコーダにおいて使用される。このレベルでは、差分演算は、第１のダウンサンプリング演算への入力と同じ入力データフレームに基づくものである。

図４は、データの各レベル又は階層インデックスを符号化して、階層インデックスを有するデータの符号化された階層のセットを生成するための符号化プロセス４０１の例を例示する。この符号化プロセスは、各レベルを符号化するための好適な符号化プロセスの例にすぎないが、任意の好適な符号化プロセスが使用され得ることが理解されよう。プロセスへの入力は、図２又は図３から出力される残差データのそれぞれのレベルであり、出力は、符号化された残差データの階層のセットであり、符号化された残差データの階層は合わせて、符号化されたデータを階層的に表す。

第１のステップでは、変換４０２が実行される。変換は、ＷＯ２０１３／１７１１７３において説明されているような方向性分解変換、又はウェーブレット若しくは離散コサイン変換であり得る。方向性分解変換を使用する場合、４つの成分のセット（変換された係数とも称される）が出力され得る。階層インデックスに言及するとき、それは、全ての方向（Ａ、Ｈ、Ｖ、Ｄ）、すなわち、４つの階層にまとめて言及している。次いで、エントロピー符号化の前に、成分のセットが量子化される４０３。この例では、エントロピー符号化動作４０４はスパース化ステップ４０５に結合され、スパース化ステップ４０５は、残差データのスパース性を利用して全体的なデータサイズを減少させ、データ要素を順序付けされた四分木にマッピングすることを伴う。エントロピーコード化及びスパース化のかかる結合は、ＷＯ２０１９／１１１００４で更に説明されているが、かかるプロセスの正確な詳細は本発明の理解には関連しない。各残差配列を階層とみなすことができる。

以上の処理は、ＳＭＰＴＥＳＴ２１１７，ＶＣ－６ＭｕｌｔｉｐｌａｎａｒＰｉｃｔｕｒｅＦｏｒｍａｔに従う再構成のためのデータの符号化に好適な符号化プロセスに対応する。ＶＣ－６は、それぞれ独立したサイズの任意の整数要素グリッドの順序付けされたセットを圧縮することができる、柔軟な多重解像度Ｉｎｔｒａ－Ｏｎｌｙビットストリームフォーマットであるが、ピクチャ圧縮のためにも設計されている。圧縮にデータ非依存技術を採用しており、低ビット深度ピクチャ又は高ビット深度ピクチャを圧縮することができる。ビットストリームのヘッダは、ピクチャに関する様々なメタデータを含むことができる。

各階層又は階層インデックスは、別個のエンコーダ又は符号化動作を使用して実装され得ることが理解されよう。同様に、符号化モジュールは、残差データを生成し、その後、残差を符号化するために、ダウンサンプリングステップ及び比較ステップに分割され得、又は代替的に、階層の各ステップが結合された符号化モジュールとして実装され得る。したがって、プロセスは、例えば、各階層インデックスのために１つずつの４つのエンコーダ、１つのエンコーダ及び並列若しくは直列に動作する複数の符号化モジュール、又は複数の異なるデータセットに対して繰り返し動作する１つのエンコーダを使用して実装され得る。

次に、上記の例示的なプロセスを使用して符号化された元のデータフレームを再構成する実施例を示す。この再構成プロセスはピラミッド型再構成とも称され得る。有利なことに、この方法は、例えば、異なる画像サイズ又は解像度レベルに対応する異なる成分セットを個別に復号化し、１つの復号化された成分セットからの画像詳細を、より低い解像度の成分セットからのアップスケールされた復号化されたデータと結合することによって、データストリームによって受信され得る、受信されたデータセットに符号化された画像を再構成するための効率的な技術を提供する。したがって、２つ以上の成分セットに対してこのプロセスを実行することによって、最も高い解像度の成分セットの全画像詳細又は完全な画像詳細を受信することを必要とせずに、漸進的に高くなる解像度又は多くなる画素数に合わせて、構造におけるデジタル画像又はデジタル画像の詳細が再構成され得る。むしろ、この方法は、より低い解像度の成分セットから画像を段階的に再構成しながら、徐々に高くなる解像度の詳細を漸進的に追加することを容易にする。

更に、各成分セットの復号化は、受信される成分セットの並列処理を別々に容易にし、したがって、複数のプロセスが利用可能である実装での再構成速度及び効率を向上させる。

各解像度レベルは、品質レベル又は階層インデックスに対応している。これは総称であり、全ての新しい入力又は受信された成分セットを記述する平面（この例では、整数値要素のグリッドの表現）、及びインデックスｍのサイクルのための出力再構成画像に関連付けられている。例えば、階層インデックスゼロの再構成画像は、ピラミッド型再構成の最終サイクルの出力である。

ピラミッド型再構成は、初期階層インデックスから開始し、新しい残差によって、階層インデックスゼロの最大品質（品質ゼロ）まで、より高い階層インデックスを導出するためにサイクルを使用して逆ピラミッドを再構成するプロセスであり得る。サイクルは、そのようなピラミッド再構成におけるステップと考えることができ、ステップはインデックスｍによって識別される。ステップは、典型的には、存在し得る前のステップから出力されたデータをアップサンプリングすること、例えば、復号化された第１の成分セットをアップスケーリングすることを含み、存在し得る次のステップでアップサンプリングされる出力データを取得するために、更なる入力として新しい残差データを使用する。第１及び第２の成分セットのみが受信される場合、階層インデックスの数は２であり、存在し得る次のステップは存在しない。しかしながら、成分セット又は階層インデックスの数が３以上である例では、出力データは後続するステップにおいて漸進的にアップサンプリングされ得る。

第１の成分セットは、典型的には、階層インデックス１－Ｎによって示され得る初期階層インデックスに対応し、ここで、Ｎは平面内の階層インデックスの数である。

典型的には、復号化された第１の成分セットのアップスケーリングは、初期階層インデックスの復号化手順の出力にアップサンプラを適用することを含む。実施例では、このことは、初期階層インデックス成分セットの復号化からの再構成ピクチャ出力の解像度を、２－Ｎに対応する第２の成分セットの解像度に適合させることを伴う。典型的には、より低い階層インデックス成分セットからのアップスケールされた出力は、より高い階層インデックス解像度の予測画像に対応する。より低い解像度の初期階層インデックス画像及びアップサンプリングプロセスに起因して、予測画像は、典型的には、平滑化された又はぼかされたピクチャに対応する。

この予測ピクチャに追加されることで、上の階層インデックスからのより高い解像度の詳細は、結合された再構成平面セットを提供する。有利にも、１つ以上のより高い階層インデックス成分セットのための受信された成分セットが残差画像データ、又はアップスケールされた予測ピクチャと、元の圧縮されていないか、若しくは符号化前の画像と、の間の画素値差を示すデータを含む場合、所与の解像度又は品質のデータセットを再構成するために必要とされる受信データの量は、他の技術を使用して同じ品質データ表現を受信するために必要とされるであろうデータの量又はレートよりも大幅に少なくなり得る。したがって、この方法に従って、より低い解像度で受信された詳細度が低い画像データと、徐々に高くなる解像度で受信される、漸進的に詳細度が高くなる画像データと、を結合することによって、データレート要件が低減される。

典型的には、符号化されたデータのセットは１つ以上の更なる成分セットを含み、１つ以上の更なる成分セットの各々は、第２の成分セットよりも高い画像解像度に対応し、また、１つ以上の更なる成分セットの各々は、漸進的に高くなる画像解像度に対応し、方法は、１つ以上の更なる成分セットの各々について、成分セットを復号化して、復号化されたセットを取得することを含み、この方法は、１つ以上の更なる成分セットの各々について、対応する画像解像度の昇順に、更なる成分セットの対応する画像解像度に等しくなるように、再構成されたセットの対応する画像解像度を増加させるために、最も高い対応する画像解像度を有する再構成されたセットをアップスケーリングすることと、再構成されたセットを更なる成分セットと互いに結合して、更なる再構成されたセットを生成することと、を更に含む。

このようにして、方法は、所与の成分セットレベル又は階層インデックスの再構成された画像出力を取得することと、その再構成されたセットをアップスケーリングすることと、アップスケーリングしたものを、上の成分セット又は階層インデックスの復号化された出力と結合して、新しいより高い解像度の再構成されたピクチャを生成することと、を伴い得る。受信されたセット内の成分セットの総数に応じて、漸進的に高くなる階層インデックスのために、これが繰り返し実行され得ることが理解されよう。

典型的な実施例では、成分セットの各々は、漸進的に高くなる画像解像度に対応し、漸進的に高くなる各画像解像度は、対応する画像内の画素の数の４倍に対応する。したがって、典型的には、所与の成分セットに対応するデータ画像サイズは、下の成分セット、すなわち、当該階層インデックスよりも１つ少ない階層インデックスを有する成分セットに対応する画像の画素のサイズ若しくは数の４倍、又は高さの２倍及び幅の２倍である。例えば、各対応する画像が、下の画像サイズに対して２倍である受信された成分セットのセットは、より単純なアップスケーリング演算を容易にし得る。

例示される例では、更なる成分セットの数は、２である。したがって、受信されたセット内の成分セットの総数は４である。これは、初期の階層インデックスが階層－３であることに対応する。

第１の成分セットは、画像データに対応し得、第２の成分セット及び任意の更なる成分セットは、残差画像データに対応する。上述したように、方法は、最も低い階層インデックス、すなわち第１の成分セットが、画像の低い解像度のバージョン、又はダウンサンプリングされたバージョンが送信されることを含む場合に、所与の画像サイズに対して特に有利なデータレート要件の低減を提供する。このようにして、低い解像度の画像から出発する再構成の各サイクルを用いて、その画像がアップスケールされて、平滑化されてはいるが高解像度のバージョンが生成され、次いで、そのアップスケールされた予測ピクチャと、その解像度で送信される実際の画像と、の間の差を加算することによって、その画像が改善され、この加法的改善は、サイクルごとに繰り返され得る。したがって、元の画像を最も低い階層インデックスにダウンサンプリングする際に失われ得る情報を再導入するために、初期階層インデックスの各成分セットよりも上の各成分セットは、残差データを含むだけでよい。

この方法は、圧縮されたデータを含むセットを受信したとき、例えば、分解、量子化、エントロピー符号化、及びスパース化によって、残差データであり得る画像データを取得する方法を提供する。スパース化ステップは、元のデータ又は送信前のデータが、典型的には残差画像データに対応し得る疎であったセットに関して使用される場合、特に有利である。残差は、典型的には同じ位置の、第１の画像の要素と第２の画像の要素との間の差であり得る。そのような残差画像データは、典型的には、高いスパース性を有し得る。このことを、詳細が最小であるか、無視できるか、又は存在しない領域のうち、詳細の領域が疎に分布している画像に対応すると考えることができる。そのような疎なデータは、データが、少なくとも二次元構造（例えば、グリッド）に編成され、そのように編成されるデータの大部分がゼロ（論理的又は数値的に）であるか、又は特定の閾値未満であると考えられるデータの配列として記述され得る。残差データは、一例にすぎない。更に、メタデータは、疎であり得、かつこのプロセスによって大幅にサイズが縮小され得る。スパース化されたデータを伝送することは、そのような疎な領域を伝送することを省き、代わりに、デコーダにおいて、受信されたバイトセット内の適切な位置にそれらを再導入することによって、要求されるデータレートの大幅な低減を達成することを可能にする。

典型的には、エントロピー復号化、逆量子化、及び方向性合成変換ステップは、受信される符号化されたデータセットを伝送するエンコーダ又はノードによって定義されたパラメータに従って実行される。各階層インデックス又は成分セットについて、ステップは、各レベルについてのセットをデータ効率の良い様式で伝送することを可能にすると同時に、上記で開示された技術に従って異なる階層インデックスと結合され得るセットに到達するように画像データを復号化する役割を果たす。

上記で開示された方法に従って、符号化されたデータのセットを再構成する方法も提供され得、第１及び第２の成分セットの各々の復号化が上記で開示された方法に従って実行される。したがって、本開示の有利な復号化方法は、受信された画像データのセット内の各成分セット又は階層インデックスに対して利用され、それに応じて再構成され得る。

次に、図５を参照して復号化例を説明する。符号化されたデータのセット５０１が受信され、セットは４つの階層インデックスを含み、各階層インデックスが、最も高い解像度又は品質レベルである階層₀から、初期階層である階層_-3までの４つの階層を含む。階層_-3成分セット内で運ばれる画像データは、画像データに対応し、他の成分セットは、その送信された画像データの残差データを含む。レベルの各々は、残差とみなすことができるデータを出力し得るが、初期階層レベル、すなわち階層_-3である残差は、実際の再構成された画像に事実上対応する。ステージ５０３では、各成分セットが並列処理され、その符号化されたセットが復号化される。

初期階層インデックス、すなわちコア階層インデックスを参照して、各成分セット階層_-3～階層₀について以下の復号化ステップが実行される。

ステップ５０７では、成分セットの逆スパース化が行われる。逆スパース化は、他のティアベースの階層フォーマットでは実行されない任意のステップであり得る。この例では、逆スパース化により、疎な二次元配列が、各階層で受信された符号化されたバイトセットから再現される。このプロセスにより、受信されなかった、二次元配列内のいくつかの位置においてグループ化されたゼロ値（伝送データ量を減らすために伝送バイトセットからこれらが省かれたため）が再入力される。配列内の非ゼロ値は、再現された二次元配列において各々の正しい値及び位置を保持し、逆スパース化ステップは、それらの間の適切な位置又は位置群に伝送されたゼロ値を再入力する。

ステップ５０９において、配列内の符号化されたシンボルを画素値で置き換えるために、伝送データを伝送する前に符号化する際に使用されたパラメータに対応する構成されたパラメータを有するレンジデコーダが、各階層の逆スパース化されたセットに適用される。受信されたセット内の符号化されたシンボルは、画像の画素値分布の近似に従って、画素値に代用される。真の分布ではなく、画像内の全ての画素値にわたる各値の相対頻度の分布の近似を使用することは、セットを復号化するために必要なデータの量を減らすことを可能にし、これは、このステップを実行するためにレンジデコーダが必要とするのは分布情報だからである。本開示において説明されるように、逆スパース化のステップ及びレンジ復号化のステップは逐次的ではなく相互依存的である。これは、フロー図の矢印で形成されたループによって示されている。

ステップ５１１において、値の配列が逆量子化される。このプロセスは、ここでも、分解された画像を送信する前に量子化する際に使用されたパラメータに従って行われる。

逆量子化後、ステップ５１３において、逆量子化された配列に逆方向性分解動作を適用することを含む合成変換によって、セットが変換される。これにより、平均演算子、水平演算子、垂直演算子、及び対角演算子を含む演算子セットに従う方向性フィルタリングの逆転が起こり、結果として生じる配列は、階層_-3にとっての画像データであり、階層_-2～階層₀にとっての残差データである。

ステージ５０５は、各階層成分セット５０１についての合成変換の出力を利用する再構成に伴ういくつかのサイクルを例示している。ステージ５１５は、デコーダ５０３から出力される初期階層用の再構成された画像データを示している。ある実施例では、再構成されたピクチャ５１５は、６４×６４の解像度を有する。５１６において、この再構成されたピクチャは、ピクチャの構成画素数が４倍になるようにアップサンプリングされ、それにより、１２８×１２８の解像度を有する予測ピクチャ５１７が生成される。ステージ５２０において、予測ピクチャ５１７が、階層_-2におけるデコーダの出力から復号化された残差５１８に加算される。これらの２つの１２８×１２８サイズの画像を加算することにより、初期階層からの平滑化された画像詳細が、階層_-2からの残差のより高い解像度の詳細によって拡張されたものを含む１２８×１２８サイズの再構成画像が生成される。この結果として生じる再構成されたピクチャ５１９は、必要とされる出力解像度が階層_-2に対応する解像度である場合、出力又は表示され得る。本実施例では、再構成されたピクチャ５１９は、更なるサイクルのために使用される。ステップ５１２において、再構成された画像５１９は、２５６×２５６サイズの予測ピクチャ５２４を生成するように、ステップ５１６と同様にアップサンプリングされる。次いでステップ５２８において、これが、復号化された階層_-1の出力５２６と結合され、残差５２６のより高い解像度の詳細によって拡張された予測５１９のアップスケールされたバージョンである２５６×２５６サイズの再構成されたピクチャ５２７が生成される。５３０において、このプロセスの最後の繰り返しが行われ、再構成されたピクチャ５２７が５１２×５１２の解像度にアップスケールされ、ステージ５３２において階層０の残差と結合される。これにより、５１２ｘ５１２の再構成された画像５３１が取得される。

本発明の原理を利用することができる更なる階層コード化技術を図６及び図７に例示する。この技術は、異なるビデオコード化フォーマット、基本コーデック（例えば、ＡＶＣ、ＨＥＶＣ、又は任意の他の現在若しくは将来のコーデック）をコード化データの少なくとも２つの拡張レベルと組み合わせる、柔軟性があり、適応可能であり、高効率であり、かつ計算上安価なコード化フォーマットである。

符号化方式の一般的な構造は、基本コーデックで符号化されたダウンサンプリングソース信号を使用し、基本コーデックの復号化出力に第１のレベルの補正データを追加して、補正ピクチャを生成し、次いで、補正ピクチャのアップサンプリングバージョンに更なるレベルの拡張データを追加するものである。このため、ストリームは基本ストリーム及び拡張ストリームと考えられ、これらのストリームは、符号化されたデータストリームを生成するために更に多重化されるか、又は他の方法で結合され得る。特定の場合では、基本ストリーム及び拡張ストリームは、別々に伝送され得る。本明細書において説明される符号化されたデータへの言及は、拡張ストリーム、又は基本ストリーム及び拡張ストリームの組み合わせを指し得る。基本ストリームは、ハードウェアデコーダによって復号化され得る一方、拡張ストリームは、好適な消費電力を伴うソフトウェア処理実装に好適であり得る。この汎用符号化構造は、複数の自由度を生み出し、多くの状況への柔軟性及び適応性を可能にし、コード化フォーマットを、ＯＴＴ伝送、ライブストリーミング、ライブ超高精細度（ＵＨＤ）ブロードキャストなど、多くのユースケースに好適なものにする。基本コーデックの復号化された出力は、視聴を意図されていないが、より低い解像度の完全に復号化されたビデオであり、出力を既存のデコーダと互換性があるものにし、適切と考えられる場合には、より低い解像度の出力としても使用可能である。

特定の例では、各拡張ストリーム又は両方の拡張ストリームは、ネットワーク抽象化レイヤユニット（ＮＡＬＵ）のセットを使用して、１つ以上の拡張ビットストリームにカプセル化され得る。ＮＡＬＵは、拡張を正しい基本再構成フレームに適用するために、拡張ビットストリームをカプセル化することを意味する。ＮＡＬＵは、例えば、強化が適用されなければならない基本デコーダ再構成フレームビットストリームを含むＮＡＬＵへの参照インデックスを含み得る。このようにして、拡張は、基本ストリームに同期され得、各ビットストリームのフレームは、復号化された出力ビデオを生成するように組み合わされる（すなわち、拡張レベルの各フレームの残存部分は、基本復号化ストリームのフレームと組み合わされる）。ピクチャのグループは、複数のＮＡＬＵを表し得る。

上で説明される初期プロセスに戻ると、基本ストリームは、拡張ストリーム内の２つのレベル（又はサブレベル）の拡張とともに提供され、一般化された符号化プロセスの例が図６のブロック図に描写されている。初期解像度での入力ビデオ６００は、様々な符号化ストリーム６０１、６０２、６０３を生成するように処理される。第１の符号化ストリーム（符号化された基本ストリーム）は、基本コーデック（例えば、ＡＶＣ、ＨＥＶＣ、又は任意の他のコーデック）に入力ビデオのダウンサンプリングされたバージョンを供給することによって生成される。符号化基本ストリームは、基本レイヤ又は基本レベルと称されることがある。第２の符号化ストリーム（符号化されたレベル１ストリーム）は、再構成された基本コーデックビデオと、入力ビデオのダウンサンプリングされたバージョンとの間の差異を取ることによって得られた残差を処理することによって生成される。第３の符号化ストリーム（符号化されたレベル２ストリーム）は、再構成された基本符号化ビデオの補正されたバージョンのアップサンプリングされたバージョンと、入力ビデオとの間の差異を取ることによって得られた残差を処理することによって生成される。特定の場合では、図６のコンポーネントは、汎用低複雑性エンコーダを提供し得る。特定の場合では、拡張ストリームは、低複雑性エンコーダの一部を形成する符号化プロセスによって生成され得、低複雑性エンコーダは、（例えば、基本コーデックとしてパッケージ化された）独立した基本エンコーダ及びデコーダを制御するように構成され得る。他の場合では、基本エンコーダ及びデコーダは低複雑性エンコーダの一部として供給され得る。ある場合では、図６の低複雑性エンコーダは、基本コーデックの一ラッパーの形態とみなされ得、基本コーデックの機能性は、低複雑性エンコーダを実装するエンティティから隠され得る。

ダウンサンプリングコンポーネント１０５によって例示されるダウンサンプリング演算が、入力ビデオに適用されて、基本コーデックの基本エンコーダ６１３によって符号化されるダウンサンプリングされたビデオを生成し得る。ダウンサンプリングは、垂直方向及び水平方向の両方、又は代替的に水平方向のみのいずれかで行われ得る。基本エンコーダ６１３及び基本デコーダ６１４は、基本コーデックによって（例えば、共通コーデックの異なる機能として）実装され得る。基本コーデック、並びに／又は基本エンコーダ６１３及び基本デコーダ６１４のうちの１つ以上は、好適に構成された電子回路（例えば、ハードウェアエンコーダ／デコーダ）及び／又はプロセッサによって実行される好適に構成されたコンピュータプログラムコードを含み得る。

各拡張ストリーム符号化プロセスは、必ずしもアップサンプリングステップを含むとは限らない場合がある。例えば、図６では、第１の拡張ストリームは概念的に補正ストリームであり、第２の拡張ストリームは、あるレベルの拡張を提供するためにアップサンプリングされる。

拡張ストリームを生成するプロセスをより詳細に考察すると、符号化レベル１ストリームを生成するために、基本デコーダ６１４によって符号化基本ストリームが復号化される（すなわち、復号化基本ストリームを生成するために符号化基本ストリームに復号化動作が適用される）。復号化は、基本コーデックの復号化機能又はモードによって実行され得る。次いで、復号化された基本ストリームと、ダウンサンプリングされた入力ビデオとの間の差異が、レベル１の比較器６１０で作成される（すなわち、減算演算が、ダウンサンプリングされた入力ビデオ及び復号化された基本ストリームに適用されて、残差の第１のセットを生成する）。比較器６１０の出力は、残差の第１のセット、例えば、残差データのフレームの表面と称され得、残差値が、基本エンコーダ６１３、基本デコーダ６１４、及びダウンサンプリングブロック６０５の出力の解像度で、各絵素について決定される。

その後、差が第１のエンコーダ６１５（すなわち、レベル１エンコーダ）によって符号化され、符号化レベル１ストリーム６０２が生成される（すなわち、符号化動作は、第１の拡張ストリームを生成するために第１のセットの残差に適用される）。

上述したように、拡張ストリームは、第１のレベルの拡張６０２及び第２のレベルの拡張６０３を含み得る。第１のレベルの強化６０２は、補正されたストリーム、例えば、入力ビデオ６００よりも低い解像度で基本符号化／復号化されたビデオ信号に、あるレベルの補正を提供するストリームであるとみなされ得る。第２のレベルの拡張６０３は、補正ストリームを元の入力ビデオ６００に変換する更なるレベルの拡張とみ得なされ、例えば、補正ストリームから再構成された信号に対してあるレベルの拡張又は補正を適用する。

図６の例では、更なる残差のセットを符号化することによって第２のレベルの拡張６０３が作成される。更なる残差のセットは、レベル２比較器６１９によって生成される。レベル２比較器６１９は、復号化されたレベル１ストリームのアップサンプリングされたバージョン、例えば、アップサンプリングコンポーネント６１７の出力と、入力ビデオ６００と、の間の差異を決定する。アップサンプリングコンポーネント６１７への入力は、第１のデコーダ（すなわち、レベル１デコーダ）を第１のエンコーダ６１５の出力に適用することによって生成される。これにより、復号化されたレベル１残差のセットが生成される。次いで、これらは、総和コンポーネント６２０において基本デコーダ６１４の出力と結合される。これにより、基本デコーダ６１４の出力に対してレベル１残差が効果的に適用される。これにより、レベル１符号化及び復号化プロセスにおけるロスをレベル２残差によって補正することが可能になる。総和コンポーネント６２０の出力は、デコーダにおいて、符号化基本ストリーム６０１及び符号化レベル１ストリーム６０２に対してレベル１処理を適用した結果の出力を表すシミュレーション信号とみなされ得る。

上記のように、アップサンプリングストリームは入力ビデオと比較され、更なる残差のセットが作成される（すなわち、差分演算がアップサンプリングされた再現ストリームに適用され、更なる残差のセットが生成される）。次いで、更なる残差のセットは、第２のエンコーダ６２１（すなわち、レベル２エンコーダ）によって符号化レベル２拡張ストリームとして符号化される（すなわち、次いで符号化動作が更なる残差のセットに適用され、符号化された更なる拡張ストリームが生成される）。

したがって、図６に例示されるように、また上記のように、符号化プロセスの出力は、基本ストリーム６０１及び１つ以上の拡張ストリーム６０２、６０３であり、１つ以上の拡張ストリームは、好ましくは第１のレベルの拡張及び更なるレベルの拡張を含む。３つのストリーム６０１、６０２、及び６０３は、制御ヘッダなどの追加情報を伴って、又は伴わずに組み合わされて、入力ビデオ６００を表す、ビデオ符号化フレームワークのための組み合わされたストリームを生成し得る。図６に示される構成要素は、例えば、特定のレベルの解像度でのフレームの２×２又は４×４部分に対応する、データのブロック又は符号化単位上で動作し得ることに留意されたい。構成要素は、いかなるブロック間依存性もなく動作し、したがって、構成要素は、フレーム内の複数のブロック又はコード化単位に並列に適用され得る。これは、ブロック間に依存関係（例えば、空間的依存関係又は時間的依存関係）が存在する比較ビデオ符号化方式とは異なる。比較ビデオ符号化方式の依存関係は並列性のレベルを制限し、はるかに高い複雑性を要求する。

対応する一般化された復号化プロセスが図７のブロック図に描写されている。図７は、図６の低複雑性エンコーダに対応する低複雑性デコーダを示すと言うことができる。低複雑性デコーダは、低複雑性エンコーダによって生成された３つのストリーム６０１、６０２、６０３を、更なる復号化情報を含むヘッダ７０４とともに受信する。符号化基本ストリーム６０１は、低複雑性エンコーダで使用される基本コーデックに対応する基本デコーダ７１０によって復号化される。符号化レベル１ストリーム６０２は、第１のデコーダ７１１（すなわち、レベル１デコーダ）によって受信され、第１のデコーダ７１１は、第１のセットの残差を、図１の第１のエンコーダ６１５によって符号化されたように復号化する。第１の総和コンポーネント７１２において、基本デコーダ７１０の出力が、第１のデコーダ７１１から取得された復号化された残差と結合される。レベル１の再構成ビデオ信号であると言われ得る組み合わせられたビデオが、アップサンプリング構成要素７１３によってアップサンプリングされる。符号化レベル２ストリーム１０３が第２のデコーダ７１４（すなわち、レベル２デコーダ）によって受信される。第２のデコーダ７１４は、図１の第２のエンコーダ６２１によって符号化されたように第２のセットの残差を復号化する。図７では、第２のデコーダ７１４によってヘッダ７０４が使用されるものとして示されているが、第１のデコーダ７１１及び基本デコーダ７１０によってヘッダ７０４が使用され得る。第２のデコーダ７１４の出力は、復号化された第２の残差のセットである。これらは、第１の残差のセット及びアップサンプリングコンポーネント７１３への入力よりも高い解像度を有し得る。第２の総和コンポーネント７１５において、第２のデコーダ７１４からの第２のセットの残差が、アップサンプリングコンポーネント７１３の出力、すなわちアップサンプリングされた再構成レベル１信号と結合され、復号化されたビデオ７５０が再構成される。

低複雑性エンコーダのように、図７の低複雑性デコーダは、ビデオ信号の所与のフレームの異なるブロック又は符号化単位上で並行して動作し得る。また、基本デコーダ７１０、第１のデコーダ７１１、及び第２のデコーダ７１４のうちの２つ以上による復号化が、並列に実行され得る。これは、ブロック間の依存関係がないために可能となる。

復号化プロセスでは、デコーダは、（グローバル構成情報、ピクチャ又はフレーム構成情報、及びデータブロック構成情報を含み得る）ヘッダ７０４を解析し、それらのヘッダに基づいて、低複雑性デコーダを構成し得る。入力ビデオを再作成するために、低複雑性デコーダは、基本ストリーム、第１の強化ストリーム、及び更なる又は第２の強化ストリームの各々を復号化し得る。ストリームのフレームは、同期され、次いで組み合わされて、復号化されたビデオ７５０を導出し得る。復号化されたビデオ７５０は、低複雑性エンコーダ及びデコーダの構成に応じて、元の入力ビデオ１００の損失あり、又は損失なしの再構成であり得る。多くの場合、復号化されたビデオ７５０は、損失が、復号化されたビデオ７５０の知覚に低減された又は最小限の影響を有する、元の入力ビデオ６００の損失ありの再構成であり得る。

図６及び図７の各々において、レベル２符号化動作及びレベル１符号化動作は、変換、量子化、及びエントロピー符号化のステップを含み得る（例えば、この順番で）。これらのステップは、図４及び図５に示される動作と同様に実装され得る。符号化動作はまた、残差ランキング、重み付け、及びフィルタリングを含み得る。同様に、復号化ステージにおいて、残差はエントロピーデコーダ、逆量子化器、及び逆変換モジュールを通過し得る（例えば、この順番で）。任意の好適な符号化動作及び対応する復号動作が使用され得る。しかしながら、好ましくは、レベル２符号化ステップ及びレベル１符号化ステップは、ソフトウェアで実施され得る（例えば、符号化デバイス内の１つ以上の中央処理装置又は画像処理装置によって実行される）。

本明細書において説明される変換は、アダマールベースの変換などの方向性分解変換を使用し得る。両方とも、平坦化された残差のコード化単位（すなわち、残差の２×２又は４×４ブロック）に適用される小さいカーネル又は行列を含み得る。変換の更なる詳細は、例えば、参照により本明細書に組み込まれるＰＣＴ／ＥＰ２０１３／０５９８４７又はＰＣＴ／ＧＢ２０１７／０５２６３２に見出すことができる。エンコーダは、使用される異なる変換間で、例えば、適用されるカーネルのサイズ間で選択し得る。

変換は、残差情報を４つの表面に変換し得る。例えば、変換は、平均、垂直、水平、及び対角の成分又は変換された係数を生成し得る。特定の表面は、特定の成分の全ての値を含み得、例えば、第１の表面は全ての平均値を含み、第２の全ての垂直値を含み得るなどである。本開示において上記のように、変換によって出力されるこれらの成分は、そのような実施形態では、説明される方法に従って量子化される係数として使用され得る。量子化方式は、特定の変数が特定の離散的な大きさのみを取り得るように、残差信号を量子として作成するために有用であり得る。この例では、エントロピー符号化はランレングス符号化（ＲＬＥ）を含み得、その後、符号化された出力を処理することは、ハフマンエンコーダを使用して処理される。特定の場合では、エントロピー符号化が望ましい場合、これらの方式のうちの１つのみが使用され得る。

要約すると、本明細書における方法及び装置は、異なる符号化及び／又は復号化手法に従って動作する拡張レイヤのベースラインとして動作する既存の符号化及び／又は復号化アルゴリズム（ＡＶＣ／Ｈ．２６４、ＨＥＶＣ／Ｈ．２６５などのＭＰＥＧ規格、及びＶＰ９、ＡＶ１などの規格外のアルゴリズムなど）の上に構築される全体的な手法に基づいている。実施例の全体的なアプローチの背景にある考え方は、ＭＰＥＧファミリーのアルゴリズムで使用されるようなブロックベースのアプローチの使用とは対照的に、ビデオフレームを階層的に符号化／復号化することである。フレームを階層的に符号化することは、フルフレーム、その後、間引かれたフレームなどについて、残差を生成することを含む。

上記に示されるように、ブロック間依存関係がないため、フレームの色成分のコード化単位又はブロックに対してプロセスを並列に適用することができる。色成分のセット内の各色成分の符号化も、（例えば、演算が、（フレーム数）＊（色成分の数）＊（フレーム当たりのコード化単位の数）に従って繰り返されるように）並行して実行され得る。また、異なる色成分は、異なる数のフレーム当たりのコード化単位を有し得、例えば、人間の視覚は、色の変化よりも明度の変化をより多く検出し得るため、輝度（例えば、Ｙ）成分は、色度（例えば、Ｕ又はＶ）成分のセットよりも高い解像度で処理され得ることに留意されたい。

したがって、上で例示及び説明されるように、復号化プロセスの出力は、（任意選択的な）基本再構成、及びより高いレベルの元の信号の再構成である。この実施例は、異なるフレーム解像度で符号化及び復号化されたビデオを作成するのに特に適している。例えば、入力信号３０は、１９２０×１０８０の解像度のフレームを含むＨＤビデオ信号であり得る。場合によっては、基本再構成及びレベル２再構成の両方が、ディスプレイデバイスによって使用され得る。例えば、ネットワークトラフィックの場合、レベル２ストリームは、レベル１ストリーム及び基本ストリームよりも大きな程度で中断され得る（レベル２ストリームは、ダウンサンプリングが各方向の次元数を２ずつ減少させるデータを最大４倍の量を含み得るため）。この場合、トラフィックが発生すると、ディスプレイデバイスは、レベル２ストリームが中断されている間（例えば、レベル２再構成が利用できない間）、基本再構成を表示することに戻り、ネットワーク状態が改善されたときに、レベル２再構成を表示することに戻り得る。復号化デバイスがリソースの制約を被っているとき、同様のアプローチが適用され得、例えば、システムの更新を実行するセットトップボックスは、基本再構成を出力するためのオペレーション基本デコーダ２２０を有し得るが、レベル２再構成を計算するための処理能力を有さないことがある。

また、符号化構成は、ビデオ配信者が異種デバイスのセットにビデオを配信することを可能にし、基本デコーダ７２０のみを有するデバイスは、基本再構成を視聴する一方、強化レベルを有するデバイスは、より高品質のレベル２再構成を視聴し得る。比較事例では、デバイスの両方のセットにサービスするために、別々の解像度の２つのフルビデオストリームが必要であった。レベル２及びレベル１の強化ストリームが、残差データを符号化するので、レベル２及びレベル１の強化ストリームは、より効率的に符号化され得、例えば、残差データの分布は、典型的には、それらの質量の大部分を０の周りに有し（すなわち、差異がない）、典型的には、小さな範囲の約０の値を取る。これは、特に、量子化後の場合であり得る。対照的に、異なる解像度のフルビデオストリームは、デコーダへの送信のためにより高いビットレートを必要とする、非ゼロの平均又は中央値を有する異なる分布を有するであろう。本明細書において説明される例では、残差は符号化パイプラインによって符号化される。これは、変換、量子化、及びエントロピー符号化動作を含み得る。また、残差ランキング、重み付け、及びフィルタリングが含まれ得る。その後、残差は、例えば、ハイブリッドストリームとして基本ストリームと結合され得る（又は別々に伝送され得る）Ｌ－１及びＬ－２拡張ストリームとして、デコーダに伝送される。ある場合では、基本ストリーム及び２つの拡張ストリームを含むハイブリッドデータストリームに対してあるビットレートが設定され、その後、設定されたビットレートを満たすように、処理されるデータに基づいて、異なる適応型ビットレートが個別ストリームに適用される（例えば、画像データが変わると変化し得る、最も影響力のある個別ストリームによって制約されたデータが使用され得るように、場合によってはフレームごとに、複数の異なる個別ストリームに対してビットレートを適応的に割り当てることによって、低アーティファクトレベルを有すると知覚される高品質のビデオが構築され得る）。

本明細書に記載されるような残差のセットは、スパースデータとみなされ得、例えば、多くの場合、所与の画素又は領域で差異がなく、結果得られる残差値は、ゼロである。残差の分布を見ると、確率質量の多くは、ゼロ付近の小さな残差値に割り当てられ、例えば、特定のビデオの場合は－２、－１、０、１、２などの値が最も頻繁に発生する。特定の場合では、残差値の分布は０に関して対称又はほぼ対称である。特定の試験ビデオの場合には、残差値の分布は、０に対して（例えば、対称的又はほぼ対称的に）対数分布又は指数分布に類似した形状を採ることが見出された。残差値の正確な分布は、入力ビデオストリームの内容に依存し得る。

残差は、それ自体が二次元画像として、例えば、差のデルタ画像として扱われ得る。このように見れば、データのスパース性は、残差画像で可視である「ドット」、小さい「ライン」、「エッジ」、「角」などの特徴を物語るとみなされ得る。これらの特徴は、通常、完全には相関しないことが見出されている（例えば、空間及び／又は時間において）。それらは、それらから導出される画像データの特性（例えば、元のビデオ信号の画素特性）とは異なる特性を有する。

残差の特性は、それらが導出される画像データの特性とは異なるため、従来のムービングピクチャエクスパーツグループ（ＭＰＥＧ）の符号化及び復号化標準に見出されるものなどの標準的な符号化アプローチを適用することは、一般的に不可能である。例えば、多くの比較方式は、大きな変換（例えば、通常のビデオフレーム内の画素の大きな領域の変換）を使用する。例えば上記のような、残差の特性に起因して、これらの比較的大きな変換を残差画像に使用することは、非常に非効率的であろう。例えば、通常の画像の領域のために設計された大きなブロックを使用して、残差画像内の小さなドットを符号化することは、非常に困難であろう。

本明細書において説明される特定の実施例は、代わりに、小さく単純な変換カーネル（例えば、本明細書で提示されるような、２×２又は４×４のカーネル、方向分解（ＤｉｒｅｃｔｉｏｎａｌＤｅｃｏｍｐｏｓｉｔｉｏｎ）及び方向分解二乗（ＤｉｒｅｃｔｉｏｎａｌＤｅｃｏｍｐｏｓｉｔｉｏｎＳｑｕａｒｅｄ）を使用することによって、これらの問題に対処する。本明細書において説明される変換は、アダマール行列（例えば、平坦化された２×２コード化ブロックのための４×４行列、又は平坦化された４×４コード化ブロックのための１６×１６行列）を使用して適用され得る。これは、比較ビデオ符号化アプローチとは異なる方向に動く。これらの新しいアプローチを残差のブロックに適用すると、圧縮効率が発生する。例えば、特定の変換は、効率的に圧縮され得る（例えば、空間内の）無相関の変換された係数を生成する。変換された係数間の相関は、例えば、残差画像内の線に対して利用され得るが、レガシーデバイス及び低リソースデバイスに実装することが困難である符号化複雑性をもたらし得、補正を必要とする他の複雑なアーチファクトを生成することが多い。特定の残差値を０に設定する（すなわち、これらを処理のために転送しない）ことによって残差を事前処理することは、ビットレート及びストリーム帯域幅、並びにリソースの使用を管理するための制御可能で柔軟な方式を提供し得る。

マルチレイヤ信号のリモート分析に関連する実施例
図８は、種々の品質レベルでの再構成のセットを示す。この実施例では、異なる品質レベルは、異なる空間解像度に対応する。図８には、４つのレイヤが示されている：標準以下の定義又はサムネイル解像度レイヤ８０１、小解像度レイヤ８０２、中解像度レイヤ８０３、及び大解像度レイヤ８０４。大解像度レイヤ８０４の再構成は、最高解像度（例えば、ＵＨＤ）及び最高フレームレート（毎秒６０フレーム）でのデータのフルフレームを含み得る。中解像度レイヤ８０３の再構成は、高解像度（ＨＤ）などのより低い解像度であり得る。また、これらの再構成は、毎秒３０フレームなどのより低いフレームレートを有してもよい。小レイヤ８０２での再構成は、標準定義（ＳＤ）解像度であり、中レイヤ８０３と同じ又はこれよりも低いフレームレートであり得る。最下位レイヤ８０１の再構成は、サブＨＤレベル、例えば、ｎＨＤ又はＶＧＡスタイルの解像度であり得、同じく、小レイヤ８０２と同じ又はこれよりも低いフレームレートであり得る。これらの解像度は、実施例としてのみ提供され、異なる実装態様は、要件に応じて異なる解像度ティアを有し得ることに留意されたい。

図８の様々なティア又はレイヤは、上記の図１～図５を参照して説明されるように、信号を符号化及び復号化することによって生成され得る。リモートコンピューティングデバイスで、サムネイルレイヤ８０１又はサムネイル及び小レイヤ８０１、８０２に関連する符号化されたデータのみが、最初にカメラのセットから受信され、復号化され、使用されて、図の点線８０５よりも下の表現を再構成し得る。リモートコンピューティングデバイスは、１つ以上の最下位レイヤに関連する再構成に対して１つ以上のビデオ分析機能を実行し得る。１つ以上のビデオ分析機能は、図８に示されるように、物体検出及びローカライゼーションを含み得る。

実施例では、リモートコンピューティングデバイスで実行される１つ以上のビデオ分析機能が、特定の信号ソースが関心のものであることを示す場合、例えば、物体が初期再構成中に検出及び／又はローカライズされる場合、要求が、追加のティア又はレイヤに関連付けられた符号化されたデータを送信するように信号が符号化されるネットワークのエッジに行われ得る。例えば、リモートコンピューティングデバイスは、中レイヤの解像度で再構成を構築するために、中レイヤ８０３に関連付けられた符号化されたデータを要求し得る。上記の符号化実施例では、最下位レイヤよりも上のレイヤは、中レイヤ８０３の符号化されたデータが中解像度の符号化された残差データのみを含むように、残差データを含み得、残差データは、復号化され、リモートコンピューティングデバイスで、アップサンプリング又はアップスケールされた既存の再構成に追加され得ることが分かり得る。それゆえ、中レイヤ８０３の符号化されたデータは、中レイヤ解像度のフル信号ストリームを含まないため、効率的に送信及び復号化され得る。

図８では、中レイヤ８０３で構築される更なる符号化されたデータに基づく再構成が、信号内の１つ以上の関心の領域を識別するために使用される。このことは、中レイヤ８０３又は１つの又はより下位のレイヤで実行され得る。関心の領域は、検出された物体の周りの領域を含み得る。この実施例では、リモートコンピュータデバイスは、中レイヤ８０３での再構成における関心の領域を識別し、これを使用して、より高位のレイヤ（例えば、大レイヤ８０４）での関心の領域に関連する符号化されたデータに対する更なる要求を条件的に行うように構成され得る。ＶＣ－６などのコード化フォーマットは、関心の領域のみの部分的な復号化を可能にし、関心の領域の符号化されたデータのみが符号化サイトから送信され得る。

図９は、２つの位置にわたる分散信号処理の実施例を示す。第１の位置９１０は、これが信号源のセットに最も近いため、「エッジ」位置と呼ばれ得る。第２の位置９２０は、第１の位置９１０からリモートであり、例えば、１つ以上のデータ通信ネットワーク９１５を介して第１の位置９１０に通信可能に結合されている。第２の位置９２０は、「リモート」位置と称され得る。図９では、第２の位置９２０は、クラウドデータセンタを含む。他の実施例では、第２の位置９２０は、ビデオ分析機能の任意の他のサイトを含み得る。典型的には、データ通信ネットワーク９１５を介したデータ通信の帯域幅は、第１及び第２の位置９１０、９２０の各々におけるデータ通信の帯域幅よりも制約され、例えば、データ通信ネットワーク９１５は、インターネットなどを含み得る。

第１の位置９１０は、信号源のセットを含む。この実施例では、これらは、複数のビデオカメラフィード９３５を提供するビデオカメラ９３０のセットを含む。他の実施例では、信号源は、とりわけ、マイクロフォン、センサなどを含み得る。第１の位置９１０は、例えば、スポーツスタジアム及び／又は芸術（音楽、劇場又は映画）会場を含み得る。第１の位置９１０はまた、符号化プラットフォーム９４０を含んでもよい。これは、複数のビデオカメラフィード９３５に通信可能に結合された１つ以上のコンピューティングデバイス（又は専用のハードウェアエンコーダ）を含み得る。信号源のセットからのストリームは、例えば、有線カップリングを介した複数のＵＨＤｐ６０ストリームなどの、高解像度の原信号及び／又は非圧縮信号を含み得る。符号化プラットフォーム９４０は、レイヤベースの符号化内の複数のレイヤの各々について符号化されたデータストリームを生成するように構成されており、複数のレイヤ内の異なるレイヤは、異なる品質レベル（例えば、異なる空間解像度）に対応し、より高いレイヤは、より高い品質レベルを表す。例えば、図１～図５のコンテキストでは、下位レイヤは、０番目の階層よりも下の階層を含み得、最下位レイヤは、Ｒ_1-nレイヤである。これらのレイヤはまた、図８に示されるレイヤに対応する。符号化プラットフォーム９４０での符号化にＶＣ－６などの標準が使用される場合、各ビデオフィードは、ＶＣ－６データストリームとして符号化される。

比較実施例では、符号化プラットフォーム９４０での符号化に続いて、符号化されたデータストリームは、復号化のための別の位置に送信される。この別の位置では、フル品質の信号ストリームを再構成することを望み、次いで、各レイヤの符号化されたデータがこの別の位置に送信され、信号は、各レイヤの符号化されたデータを復号化することによって再構成される（例えば、図５及び図７において説明される）。

ただし、本実施例では、全てのレイヤの符号化されたデータストリームのフルセットを第２の位置に送信するための好適なネットワーク又は処理帯域幅がない場合がある。加えて、好適な帯域幅が利用可能であっても、ビデオ分析機能は、複数の信号源の全てについて（例えば、リアルタイムで）信号を同時に処理することができない場合がある。

それゆえ、本実施例では、複数の信号源についての１つ以上の最下位レイヤの符号化されたデータストリームのみが、第１の位置９１０から第２の位置９２０に送信される。例えば、階層構造の最下位レイヤの少なくとも符号化されたデータストリームは、復号化プラットフォーム９５０による受信及び復号化のために第２の位置９２０に送信され得る。マルチレイヤ符号化（例えば、上記のような）に起因して、このことは、符号化プロセス又は復号化プロセスを適応させることなく可能であり、第１の位置は、所望の下位レイヤの符号化されたデータストリームを単に送信し、高位レイヤ（例えば、より高い品質レベルに関連付けられたレイヤ）の符号化されたデータストリームを（少なくとも最初に）送信しない。

図９では、ブロック９４２によって示されるように、最初に、ビデオカメラ９３０のセットに対して、各マルチレイヤピラミッドの「先端」のみが送信される。これは、サムネイル解像度レイヤ８１０の送信された符号化されたデータのみを含み得る。他の場合には、サムネイル解像度レイヤ８０１及び小レイヤ８０２（例えば、線８０５よりも下のレイヤ）の両方などの、定義された数の最下位レイヤを送信することを含み得る。選択される最下位レイヤの数は、データ通信ネットワーク９１５を介して利用可能な帯域幅及び／又は第２の位置９３０での処理リソースなどの、静的ユーザ定義パラメータ及び／又は動的パラメータに依存し得る。この場合に、処理リソースは、復号化プラットフォーム９５０からの出力に対して１つ以上のビデオ分析機能を実行する１つ以上のプロセッサに関連し得る。復号化プラットフォーム９５０は、一般に、符号化プラットフォーム９４０の符号化プロセスに対応する復号化プロセスを実装する。例えば、復号化プラットフォーム９５０は、ＶＣ－６復号化プロセスを実装し得る。

本実施例では、ブロック９４２を介して送信される最下位レイヤの符号化されたデータは、復号化プラットフォーム９５０によって復号化されて、第１の品質レベルで複数のビデオカメラフィードの再構成のセットを生成する。例えば、このことは、各ビデオカメラフィードについて、図５の５２０などの再構成を生成することを含み得る。第２の位置において、１つ以上のビデオ分析機能が、再構成に適用される。上記のように、これらは、シーン分析、顔検出、ポーズ検出、物体検出などを含み得る。ビデオ分析機能は、ＡＩ又はニューラルネットワークアプローチに基づき得る。

図９の実施例では、１つ以上のビデオ分析機能の出力は、更なる分析のための再構成の１つ以上の部分の識別である。これは、１つ以上の符号化されたデータストリームの識別、すなわち、１つ以上の特定のビデオカメラフィードの識別を含み得る。これは、また、又は代替的に、より多くのフレーム（例えば、定時間刻みの画像）及び／又は１つ以上の関心の領域（例えば、フレーム内の空間領域及び／又はフレームのための画素及び／又はコード化単位の特定のセットによって定義される）のうちの１つの識別を含み得る。この識別は、第２の位置９２０で（例えば、リモート処理デバイスが復号化プラットフォーム９５０の出力に対して演算することによって）実行され得る。したがって、第２の位置９２０は、識別されたビデオカメラフィード、フレーム、及び／又は関心の領域の異なるデータを要求し得る。このことは、図９の双方向矢印及びブロック９４４によって示されている。

ビデオカメラフィード、フレーム、及び／又は関心の領域を識別する要求を受信すると、符号化プラットフォーム９４０（又は符号化プラットフォーム９４０に結合された第１の位置９１０のデバイス）は、識別されたビデオカメラフィード、フレーム、及び／又は関心の領域に対応する追加の又は更なる符号化されたデータを送信する。このことは、第１の位置９１０における符号化プラットフォーム９４０（又は結合されたデバイス）から部分的なファイル呼び出し動作を実行することを含み得る。例えば、図５の残差データ５２６を取得するための符号化されたデータのみが必要とされ得、これは、下位レイヤ再構成のアップサンプリングされたバージョンと結合され得る（例えば、図５の５２０からの５２４）。この符号化されたデータは、同じレイヤ品質（例えば、解像度）でフルビデオフィードよりも少ない帯域幅を使用して効率的に伝達され得る。例えば、符号化プラットフォーム９４０は、中レイヤ８０３のデータを送信し得る。ある場合では、符号化プラットフォーム９４０は、フレーム内の位置のサブセットについての符号化された残差データのみを送信し得、例えば、識別された関心の領域内にある画素及び／又はコード化単位の残差データのみを送信し得る。ＶＣ－６などのコード化方式は、例えば、独自のＳ木コード化構造に起因して、ビデオフレームの部分的部分の効率的な復号化を可能にする。例えば、上述のアダマール変換などの算術的に単純な変換と組み合わされたＳ木は、単一命令複数データ（ＳＩＭＤ）コンピューティング要素の使用を可能にするため、符号化及び／又は復号化は、グラフィック処理装置（ＧＰＵ）及びフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの、ＳＩＭＤ及びベクトルユニットを有する最新のハードウェアに特に適している。加えて、本明細書で説明するマルチレイヤコード化は、比較ＪＰＥＧ／ＭＰＥＧコーデックにしばしば必要とされるアプリケーション固有の加速を必要としない。復号化はまた、データのフレーム全体に対して演算する比較残差データコード化方式よりも高速である。ある場合では、更なる符号化されたデータは、成分のセットのサブセット（例えば、Ｙなどの１つの色成分、又は１つのメイン／中央音声チャネルのみ）に関連し得る。

したがって、第２の位置９５０は、例えば、以前に受信された符号化されたデータよりも高い品質レベルに関連付けられた、識別された信号源、フレーム、及び／又は関心の領域の更なる符号化されたデータを受信する。次いで、この更なる符号化されたデータは、復号化プラットフォーム９５０によって復号化されて、再構成の第２のセットを生成する。これらは、例えば、図５に５２８として示される再構成（又はこれらの再構成の一部分）を含み得る。次いで、第２の位置９２０は、再構成の第２のセットからのデータに対する１つ以上のビデオ分析機能を命令することが可能であり、ビデオ分析機能は、少なくとも関心の領域のより高い空間解像度での更なる分析、例えば、図８の中レイヤ８０３での分析を含み得る。

この段階的な分析のプロセスは、符号化に存在するのと同じ数のレイヤについて、又はビデオ分析機能からのメトリックが所定の閾値を超えるまで、継続し得る。例えば、品質レベルの増加に関連付けられた符号化されたデータは、正解率閾値を超えるまで、かつ／又は最高の品質レベルに達するまで、反復して要求、送信、復号化、及び分析され得る。最も低い品質レベルからの昇格に関して実施例が説明されているが、当業者であれば、同様のアプローチが、第１のレイヤが第２のレイヤよりも低い品質レベルにあるマルチレイヤ符号化の任意の２つのレイヤに適用され得ることを理解するであろう。

図９では、ブロック９４６に示されるように、フル品質の再構成（例えば、階層構造内の全てのレイヤ）の差分データ又は残差データに対する要求が、ビデオカメラフィードのサブセットに対して、例えば、現在のビデオ分析に関連する信号源のうちの１つ以上に対して行われ得る。ビデオカメラフィードのサブセットのこの選択は、前のブロック（例えば、９４２及び９４４）の一部として実行された分析に基づいて行われ得る。例えば、サッカーボールの位置、バンド内のリードシンガー、及び／又はステージ上の俳優などのライブイベントからのアクションを現時点でキャプチャしているビデオカメラに対して、フル品質の再構成が所望され得る。現時点でビデオ分析に有用ではないビデオカメラフィード（例えば、これらのビデオカメラフィードに人々及び／又はアクションがないため）の符号化されたデータストリームは、第２の位置９２０に送信される必要がない。ブロック９４６の一部として選択されるビデオカメラがイベントの過程で絶えず変化し得るように、プロセス全体が、ライブイベント中に動的に適用され得る。

段階的なデータ交換及び分析のプロセスは、図１３Ａ～図１３Ｄの１つの信号源について示されている。図１３Ａは、信号源１３３０、信号ストリーム１３３５（例えば、フル品質の）、エンコーダ１３４０、通信ネットワーク１３１５、デコーダ１３５０、及びビデオ分析モジュール１３０８を例示している。エンコーダ１３４０は、信号ストリーム１３３５を受信する。次いで、信号ストリーム１３３５は、符号化されて、符号化された小レイヤ８０２、符号化された中レイヤ８０３、及び符号化された大レイヤ８０４を形成する。また、符号化された小レイヤ８０２は、通信ネットワーク１３１５を介してデコーダ１３５０（例えば、リモート位置の）に伝送される（１３０９）ことが示されている。線１３０９は、符号化された小レイヤがデコーダに伝送されることを示す。デコーダ１３５０は、符号化された小レイヤ８０２を復号化して、復号化された小レイヤ８０２’を生成し、小レイヤ８０２’は、ビデオ分析モジュール１３０８に送信される。復号化された小レイヤ８０２’はまた、エンコーダ１３４０で実行される信号ストリーム１３３５の量子化によって決まり得るある程度の歪みにさらされ得る。ビデオ分析モジュール１３０８は、復号化された小レイヤ８０２’に対するビデオ分析を実行する。いくつかのシナリオでは、ビデオ分析モジュール１３０８は、符号化された小レイヤ８０２に対する分析を（すなわち、復号化された小レイヤ８０２’に対する分析に加えて、又はその代替として）実行し得る。ビデオ分析モジュール１３０８は、符号化された情報の特定の属性を判定することが可能であり得る。このシナリオでは、符号化された小レイヤ８０２及び復号化された小レイヤ８０２’は、両方とも、ビデオ分析モジュール１３０８に送信され得るが、符号化された小レイヤ８０２は、デコーダ１３５０を通過しない。

図１３Ｂに示されるように、復号化された小レイヤ８０２’がビデオ分析モジュール１３０８によって受信されると、ビデオ分析モジュールは、符号化された信号ストリーム１３３５の別のレイヤをエンコーダ１３４０からデコーダ１３５０に送信することに対する要求１３１０を、通信ネットワーク１３１５を介して、エンコーダ１３４０に伝送する。要求１３１０は、復号化された小レイヤ８０２’が分析された後に伝送され得る。特に、要求１３１０は、復号化された小レイヤ８０２’の分析の結果に応答して伝送され得る。例えば、復号化された小レイヤ８０２’の分析に応答して、ビデオ分析モジュール１３０８は、別のレイヤ（例えば、復号化された中レイヤ８０３’）に対する分析を実行することが有利であると判定し得、そのような実施例では、ビデオ分析モジュール１３０８は、符号化された信号ストリーム１３３５の別のレイヤ（例えば、符号化された中レイヤ８０３）をエンコーダ１３４０からデコーダ１３５０に送信することに対する要求１３１０をエンコーダ１３４０に伝送する。

図１３Ｃに示されるように、（図１３Ｂに例示されるように）エンコーダ１３４０が要求１３１０を受信した後、符号化された中レイヤ８０３は、（図１３Ｃに示されるように）通信ネットワーク１３１５を介してデコーダ１３５０に伝送される（１３１１）。線１３１１は、符号化された中レイヤ８０３がデコーダに伝送されることを示す。デコーダ１３５０は、符号化された中レイヤ８０３を復号化して、復号化された中レイヤ８０３’を生成する。復号化された中レイヤ８０３’は、デコーダ１３５０からビデオ分析モジュール１３０８に伝送される。次のフレームの小レイヤは、符号化された中レイヤ８０３と並行してエンコーダ及びデコーダを通って進行する信号ストリーム１３３５であることも可能であるが、これは示されていない。

図１３Ｄに例示されるように、エンコーダ１３４０は、通信ネットワーク１３１５を介して、符号化された大レイヤ８０４をデコーダ１３５０に伝送する。点線１３１２は、符号化された大レイヤ８０４が必ずしもデコーダに伝送されないことを示す。符号化された大レイヤ８０４を必ずしも伝送しないことの利点を以下に説明する。

本明細書において説明される方法及びシステムは、１つの信号源に、又は複数の信号源に適用され得る。図９の構成は、オンプレミスデータのクラウドベースのＡＩ分析を可能にするＡＩ支援送信ファネルとみなされ得る。この実施例では、全ての信号源のフル品質の信号ストリームは、エッジ位置で利用可能であり得、第２のＡＩ分析位置によって段階的に取得され得る。図１３Ｄに示されるように、レイヤのフルセットの符号化されたデータが送信されない信号ソースの場合、これは、アーカイブ目的のために後で（例えば、非リアルタイム設定で）送信され得る。例えば、このことは、フル品質のビデオカメラフィードが、ライブイベントの後に第２の位置９２０で（例えば、アーカイブし、かつ／又は配信のために使用／編集するために）利用可能であるように、ライブイベントからの追加の符号化されたデータについて一晩実行され得る。このようにして、ビデオフィードについて、ビデオデータの強化されたＡＩベースのデリバリが実行され得、全てのビデオデータが、ライブイベント中及びライブイベント後の両方で余分の帯域幅を必要とすることなく、リモートで利用可能であり得る。本明細書において説明される特定の場合では、アーカイブは、完全な品質又は解像度未満で、例えば、中レイヤ８０３に、又はＵＨＤ品質レベルではなくＨＤで格納され得る。この場合に、図１３Ｄの動作は実行されない場合があり、符号化されたデータの中レベルレイヤのみが、ビデオカメラフィードのためにリモート位置に送信される必要があり得る。

図１０は、分散信号処理システムの別の実施例を示す。これは、図９の実施例の代替的な変形例とみなされ得る。図１０は、符号化されたデータストリームの識別が、第２の位置ではなく第１の位置９１０で実行されるハイブリッドアプローチの実施例である。それゆえ、本アプローチは、符号化された信号のセットの特定の処理がどこで実行されるかについての柔軟性を提供する。

図１０は、図９に記載されるような、信号源９３０のセット、信号ストリーム９３５のセット（例えば、フル品質）、及び符号化プラットフォーム９４０を示す。この実施例では、符号化プラットフォーム９４０の出力に対して実行される２つの追加の処理演算がある。これらの追加の処理演算は、前処理コンピューティングデバイス１００５によって実行される。第１の演算は、フレーム識別１０１０を含み、第２の演算は、カメラ識別１０２０を含む。図１０では１つの順序で示されているが、これらの演算はまた、他の実装態様において演算１０２０から１０１０で実行されてもよい。前処理コンピューティングデバイス１００５は、第１の位置９１０に示されているが、前処理コンピューティングデバイス１００５は、代替的に、リモート位置（例えば、図９の第２の位置）に、又は中間位置にあってもよい。フレーム識別１０１０及びカメラ識別１０２０は、各信号源９３０について特定の上位品質レベルを判定するように演算し得る。このことは、図９に示されるプロセスと同様のプロセスを使用して実行され得る。代替的に、フレーム識別１０１０及びカメラ識別１０２０の演算が第１の位置９１０で、コンピューティングデバイス上で実行される場合、これらの演算は、レイヤのフルスタック、例えば、符号化された信号ストリームの全て又は大部分にアクセスし得る。例えば、信号源のセットは、優先クラスを割り当てられ得る。フレーム識別１０１０及びカメラ識別１０２０によって識別される低優先度の信号源は、マルチレイヤフォーマット（例えば、図８のサムネイル及び／又は小解像度レイヤ８０１及び８０２）の１つ以上の最下位レイヤに関連付けられ得、フレーム識別１０１０及びカメラ識別１０２０によって識別される高優先度の信号源は、マルチレイヤフォーマットのレイヤのフルセット又はほぼフルセットに関連付けられ得る。図１０のブロック１０３０では、各ビデオカメラフィードに割り当てられた優先クラスであり得る、フレーム識別１０１０及びカメラ識別１０２０の出力を使用して、各信号源９３０の送信する品質のレベルのセットを定義する。

図１０の例では、エッジ位置９１０は、リモートサーバ１０５０及び配信センタ１０６０の両方と通信する。リモートサーバ１０５は、図９及び図１３Ａ～図１３Ｄを参照して説明されるように、リモートの復号化及びビデオ分析を実行し得る。通信１０３５によって示されるように、リモートサーバ１０５０は、（例えば、ライブイベントに関連するビデオ及び／又は音声のリアルタイム配信のために）配信センタ１０６０に送信される符号化されたデータストリームの優先クラスを割り当てるか、又はこれらの符号化されたデータストリームのデータパケットを別様に示すために、リモートビデオ分析を提供し得る。したがって、配信センタ１０６０は、配信センタ１０６０に伝送される符号化されたデータ、及び主（ライブ）配信のために選択される信号源が、自動化されたビデオ分析に基づいてライブイベント中に変動する、信号源のサブセットについてのフル品質レベルでＡＩ選択されたビデオフィードを受信し得る。これにより、例えば、自動化されたサッカー又は俳優追跡、自動化された全顔追跡、自動化されたアクション追跡、自動化されたクローズキャプションカメラレビューなどが可能になり得る。配信センタ１０６０は、復号化された信号をレンダリングするために、例えばビデオフィードを視聴するために、符号化されたデータを１つ以上のエンドユーザデバイスに配信し得る。図１１は、本明細書において説明される方法及びシステムが、ライブスポーツイベントのコンテキストにおいてどのように適用され得るかの更なる実施例である。図１１に示される構成は、図９及び図１０に示される構成と同様である。スタジアム１１１０は、第１の位置に位置し、配信センタ１１２０は、異なるリモート位置に位置する。複数のビデオカメラ１１３０は、異なる位置、角度、及び姿勢からスポーツイベントをキャプチャするように、スタジアム１１１０の周りに配置されている。ビデオカメラ１１３０は、エッジシャーシ１１４０にフル品質のビデオストリームのセットを提供する。エッジシャーシ１１４０は、前の実施例の符号化プラットフォームを実装するためのコンピューティングデバイスを含む。コンピューティングデバイスは、図１２に示されるように構成され得、サーバコンピューティングデバイスを備え得る。

スタジアム１１１０及び配信センタ１１２０は、図９のクラウドデータセンタ９２０、図１０のリモートサーバ１０５０、及びデータ通信ネットワークのセットのうちの１つ以上を使用して実装され得る、インテリジェント相互接続１１１５によって通信可能に結合されている。サーバコンピューティングデバイスは、リアルタイム配信のために配信センタ１１２０に伝送される符号化されたビデオストリームを制御するためのインテリジェントミキサ１１５０の一部を形成し得る。

この実施例では、全てのビデオストリームは、第１の（エッジ）位置を形成するスタジアム１１１０で符号化（例えば、圧縮）される。エッジシャーシ１１４０は、ＶＣ－６などのマルチレイヤ符号化を使用して、ビデオストリーム１１３５のセットを符号化する符号化プラットフォームを実装し得る。ビデオストリーム１１３５のセットは、最大ｉｎｔｒａ－ｏｎｌｙ品質で符号化され得る。

リアルタイムで（すなわち、フレームが最小の遅延で、エンドデバイスで適切にレンダリング及び表示され得るように）、ビデオカメラ１１３０のセットからの主要カメラの符号化されたデータが、フル品質で、すなわち、符号化内の全てのレイヤで送信され、ビデオカメラ１１３０のセット内の他のカメラは、符号化の下位レイヤのみを使用して、例えば、図８のレイヤ８０１及び８０２のうちの１つ以上に関連付けられたデータなどのより低い解像度データのみを使用して、伝送される。

図１１では、プロキシフィード１１５２が、マルチレイヤ符号化における少なくとも最下位レイヤの符号化されたデータを含む配信センタ１１２０（及び任意のリモート処理サーバデバイス）によって受信される。これは、図５の再構成５１５又は図８のサムネイル解像度レイヤ８０１を復号化するために使用されるような符号化されたデータを含み得る。配信センタ１１２０はまた、主フィード１１５４の形態で全てのレイヤの符号化されたデータを受信し、例えば、これは、現時点で配信されているビデオフィード（例えば、視聴デバイスによって受信されているサッカーの試合のために現時点で選択されているカメラ）を表すフル（例えば、４Ｋ）品質の信号を再構成するための符号化されたデータを含み得る。他の主要フィード１１５６がまた、フル品質の再構成（例えば、アクションの現時点のセットの代替カメラ位置）を可能にするために伝送されてもよい。主フィード１１５４及び主要フィード１１５６は、インテリジェントミキサ１１５０によるインテリジェントミキシングに基づいて選択され得る。例えば、リモート処理デバイスは、図９及び図１３Ａを参照して説明されるように、プロキシフィード１１５２を受信し得、これを使用して、副フィード１１５８を介して送信される１つ以上のより高位のレイヤの符号化されたデータを選択し得る。リモート処理デバイスは、プロキシフィード１１５２及び／又は副フィード１１５８を使用して、関連するモーメント（例えば、アクションが行われていた３０～５０分などの期間）及び／又は関連するカメラを識別し得、この識別を使用して、追加のレイヤが、送信され、かつ配信センタ１１２０によって受信されて、フル高品質の符号化されたストリームを構成するように指示し得る。

ある場合では、リモート処理デバイスが配信センタ１１２０に位置する場合には、リモート処理デバイス及び配信センタ１１２０の両方が、同じプロキシフィード１１５２を受信し得、リモート処理デバイスによって要求された任意の副フィード１１５８が、配信センタ１１２０にアクセス可能であり得る（例えば、渡され得る）。この場合に、リモート処理デバイスが別のカメラフィードへの切り替えを示し、かつプロキシフィード１１５２及び副フィード１１５８が既に受信されている場合、フル品質フィード１１５４又は１１５６を受信するために必要であるのは、副フィード１１５８で搬送されたレイヤよりも上のレイヤの残差データだけである。これにより、フィードのデルタ又はレイヤの差分セットのみが必要とされるため、フィード間の効率的なかつ速い切り替えが可能になり得る。これにより、リアルタイムのミキシング及びカメラ／フレーム切り替えが可能になる。図１３Ｄに示されるように、イベントの終了時に、ライブイベントの配信の一部として使用されなかったが、エッジシャーシ１１４０で符号化及び格納されている高位レイヤの残りのデータパケットは、次いで、アーカイブのために（例えば、非リアルタイム式で）配信センタ１１２０に送信され得る。

特定の実装態様では、ビデオキャプチャ位置で、信号源９３０又は１１３０は、第１の位置９１０又は１１１０でフル品質のビデオストリーム（すなわち、ビデオカメラのデフォルト出力）をサーバコンピューティングデバイスに伝達する複数のビデオカメラを含み得、符号化プラットフォーム９４０又は１１４０は、コントリビューション標準で全ての受信されたビデオフィードを圧縮する。圧縮又は符号化されたデータは、成長するファイルのセットとしてディスクにローカルに保存され得る。図１０の場合には、オンロケーション処理を実行して、符号化されたデータにインデックス付けし得、図１１の場合には、このことは、ローカルに又はリモートで実行され得る。インデックス付けは、ライブビデオフィードを選択し、各カメラの品質レベルを選択することを可能にし得る。選択は、手動で、例えば、ユーザがローカル又はリモートミキシングアプリケーション又はデスクを操作することによって、及び／又はリモート又はローカルビデオ分析機能によって自動的に、実行され得る。特定の場合では、最低の又は非常に低い解像度（例えば、図８の８０１又は８０２）に関連付けられた符号化されたデータが、高度なビデオ分析機能（例えば、ＡＩアプリケーション）を使用する自動インデックス付けのために伝送され得る。特定の場合では、Ｙ成分又は輝度成分などの１つの色成分のみが、リモート分析のために送信され得、かつ／又はフレームレートが、低減され得る（例えば、Ｎフレーム中の１フレームが送信され得、これは、時間分割多重化又はフレーム分割多重化を使用して多重化され得る）。すぐに送信されない符号化されたデータは、ファイルのセットとしてローカルに格納され得る。この符号化されたデータは、後で、例えばライブイベントの後に、送信され、かつ／又は物理的な輸送若しくはローカルアーカイブのために記憶媒体に保存され得る。

本明細書において説明される実施例によれば、比較コード化及び分析方法で見出される遅延の利点は著しく低減され得、例えば、ビデオ分析機能は、オンプレミス処理と比較してわずかな追加の遅延を有してリモートで実行され得る。特定のビデオカメラフィードのインデックス付けは、将来的に配信するビデオカメラフィード、例えば、リプレイ及び／又はビデオアシスタントレフェリー（ＶＡＲ）に関連するフッテージを選択するために実行され得る。ビデオ分析機能を使用して、人間によるレビュー及び／又は好ましい視聴のための特定のビデオカメラフィードを識別し得る。例えば、ビデオ分析機能は、人間のレフェリーによるレビューのために、ビデオの１つ以上の部分（例えば、格納された符号化されたファイル内の特定のフレーム及び／又は特定のカメラのいずれか）を識別し得る。更に、関心の領域（サッカーボールがゴールラインを横切ったかどうかなど）が識別され得、これらの領域の高品質の再構成のための符号化されたデータは、完全なフレームよりも速くリモート位置に送信され得る。

本明細書において説明される特定の実施例は、イベント中の種々のモードとして適用され得る。

第１のイベントモードでは、イベント位置とリモートスタジオ及び／又はデータセンタとの間のデータ通信リンクは、人間又はＡＩが選択したビデオカメラフィード（例えば、図１１のフィード１１５４及び１１５６）と、符号化されたデータ又は関心の領域に関連付けられた符号化されたデータの要求されたランダムアクセス階層と、に優先順位を付けるように構成され得る。図１１におけるように、低解像度プロキシフィード１１５２は、リモート分析を可能にするために１つ以上のカメラについて連続的に送信され得る。副フィード１１５８などのデータ通信リンクの残りの予備容量は、リモート位置での分析のための符号化されたデータの自動選択に基づいて使用され得る。これは、自動「ギャップフィリング」の形態とみなされ得る。これは、送信のために階層、平面、色成分、及び／又はフレームに優先順位を付けるために実行され得る。優先順位が付けられたデータは、イベントのハイライトを生成するための後の時点で復号化され得る。したがって、このことは、イベントの間に、符号化されたデータをイベント位置からリモート位置に効率的に輸送することができ、その結果、リモート位置（例えば、配信センタ１１２０）で、ビデオの有用な部分の符号化されたデータが利用可能である可能性が高くなる。ある場合では、ＨＤ視聴可能なビデオを生成するために必要である符号化されたデータの階層のみが転送されて、ニュース及びハイライトなどの更なるビデオを生成し得る。

第２のイベントモードは、スポーツの試合におけるハーフタイム又はフルタイムなどのイベントの開始、終了、及び／又は中間に関連付けられ得る。このモードでは、符号化の圧縮比がより高い場合があり（外部では、高品質のアクションフィードは、必要とされないため）、必要とされるフィード（すなわち、アクティブカメラ）の数がより少ない場合がある。例えば、オンプレミスコメンタリーボックスからの１つ又は２つのカメラのみがあり得る。この第２のイベントモードでは、データ通信リンクは、本明細書において説明されるような自動優先順位付けに基づいて、大幅に小密度化され得、したがって、上記のギャップファイルが増加し得る。

最後に、イベントが終了したときのポストイベントモードがあり得る。この場合に、視聴者に積極的に配信されているカメラフィードがない場合がある。この場合に、データ通信リンクの全ての帯域幅は、上記の「ギャップフィリング」優先順位付けに専用であり得る。これは、全ての符号化されたデータがリモート位置で受信されるまで（例えば、図１３Ｄに示されるアーカイブのために）、及び／又はコンピューティングデバイスのローカルセットがオフになるまで継続し得る。

特定の場合では、第１の位置にあるコンピューティングデバイスは、イベントの前に第１の位置に駆動される移動ユニット（生産トラックなど）内に位置し得る。この場合に、データ通信リンクを介して送信されない任意の符号化されたデータが、移動ユニット内に位置する記憶媒体内に格納され得、移動ユニットは、この移動ユニットに記憶されたコンテンツがアップロードされ得るリモート位置に物理的に駆動され得る。

本実施例は、はるかに速いリモート処理を可能にする。これにより、高度なニューラルネットワークアーキテクチャによるリアルタイム推論が可能になり得る。図１４は、比較アプローチにおいてＪＰＥＧ画像に適用される様々な処理演算（１４０５）と、本明細書において説明されるマルチレイヤコード化を使用して生成される再構成（１４１０）と、の比較を示す。３つの処理演算がある：復号化、検出、及び認識。復号化は、符号化されたストリームを復号化して、再構成内の画素データへのアクセスを取得することを含み得る。検出は、顔検出を含み得、認識は、顔認識を含み得る。図は、ＨＤフレームごとの様々なアクティビティの時間（ミリ秒単位）を示す。分かるように、復号化時間が大幅に減少している（２６倍の短縮）。検出時間及び認識時間も、倍数分又は２～３倍短縮される。比較は、一般的なテレビチャンネルのビデオフィードに基づく。４％の正解率の増加も記録された（例えば、正解率及び再現率のメトリックの組み合わせであるＦ１スコアの０．０２の増加）。

改善の理由は様々である。第１に、ＶＣ－６などのマルチレイヤコード化方式は、非常に効率的かつ迅速な復号化を可能にする（例えば、上記の図５の実施例を参照して考察される）。このことは、符号化されたデータが、リモート処理デバイスによって非常に迅速に復号化され、かつ再構成の種々のティアへのアクセスが取得され得ることを意味する。検出及び認識の高速化は、必要に応じて下位レベルのティアのみを使用することによって達成され得る。これにより、検出及び認識アルゴリズムが、ニューラルネットワークアーキテクチャの観点から「ノイズ」であり得る高周波詳細にも存在しない低解像度フレームに対してより堅牢に演算することを可能にし得る。また、そのような処理は、高解像度の画素コンテンツを操作する敵対的な攻撃に対してより耐性があるという利点もある。

より詳細には、比較ビデオフィードは、フル解像度のＵＨＤｐ６０ビデオフィードなどを含み得る。このビデオフィードが比較ビデオコーデックを使用して符号化されると、再構成されたフレームがフル解像度で生成され、ビデオ分析機能に適切な解像度にダウンスケールされる必要がある。これには追加の時間がかかるのに対して、ＶＣ－６などのマルチレイヤコード化アプローチでは、符号化の性質に起因して、データの下位階層（すなわち、下位レイヤ）に直接アクセス可能である。比較アプローチは、解像度変換がビデオ又は画像データの復号化されたフレームに適用される必要があるため、種々の解像度入力に対して演算するビデオ分析機能によって検出及び認識が実行される場合に損なわれ得るのに対して、マルチレイヤアプローチでは、種々も解像度がアクセス可能である。更に、復号化プロセス内でのアップスケーリングのティアの使用により、ユーザ定義の解像度及び超解像度へのアップスケーリング（例えば、予測的アップスケーラを使用する）が容易に可能になる。それゆえ、様々なモジュール式ビデオ分析機能をサポートすることが容易である。

特定の実施例では、検出及び／又は認識は、最大公約数解像度で実行され得る。ＶＣ－６などのマルチレイヤアプローチでは、この公約数解像度に最も近い階層が選択され得る。特定の場合では、物体認識又は顔認識などの認識は、ビデオ分析の検出段階によって出力される関心の領域に対して実行される。例えば、顔検出又は物体検出機能は、関心の領域を識別するために使用され得る境界ボックスを定義するパラメータを出力し得る。この関心の領域は、後続の物体認識又は顔認識機能によって分析され得る（例えば、境界ボックス内の物体又は顔が認識され得る）。本実施例では、下位レイヤ再構成からの関心の領域のみがアップサンプリングされる必要があり（例えば、図５による）、アップサンプリングされた関心の領域をカバーする残差データは、受信及び復号化されるだけでよい。このことは、フル画像再構成が比較的必要とされ得るため、処理を高速化し得、フル画像再構成は、典型的には、最高品質でフルフレームを再構成し、かつ認識のために必要とされる解像度までフルフレームをダウンサンプリングすることによって、取得される。更に、ＶＣ－６などのマルチレイヤアプローチの使用により、関心の領域のデータの更なる階層を要求し、かつ所望される場合（例えば、認識正解率が閾値を下回る場合）に追加の詳細及び解像度を追加するために送信することが可能になる。それゆえ、本アプローチでは、検出は、より低解像度のレイヤに対して実行され得るが、認識は、１つ以上のより高位のレイヤを使用して再構成されたより高解像度のデータに対して実行され得る。これらの利点は、データのＹ平面又は輝度平面などの１つの成分に対する１つ以上のビデオ分析機能（ここで考察される検出及び認識など）を実行することによって、更に強化され得る。ここでも、正解率がＹ平面データ又は輝度平面データに対して低い場合、更なる色成分（Ｕ又はＶなど）のデータが要求され、モジュール式で送信及び受信され得る。

例示的な態様
本明細書において説明される発明の一態様によれば、入力信号内の１つ以上の要素を分類するためのシステムを使用する方法が提供される。この方法は、第１の位置で入力信号を受信し、かつティアベースの階層コード化方法（非限定的な実施例として、コード化標準ＳＭＰＴＥＶＣ－６ＳＴ－２１１７又はＭＰＥＧ－５Ｐａｒｔ２ＬＣＥＶＣＩＳＯ／ＩＥＣ２３０９４－２など）で入力信号を圧縮する第１のステップを含む。ティアベース又はレイヤベースのコード化方法は、復号化されたときに、それぞれの品質レベルまで信号の再構成を可能にする階層内の少なくとも２つの圧縮されたデータのセットを生成することを含む。この方法では、入力信号に対応する圧縮されたデータの第１のセットが、第２の位置の分析システムに送信される。分析システムは、圧縮されたデータの第１のセットを復号化して第１の再構成された信号を生成することによって、信号の圧縮されたバージョンを第１の品質レベルまで復号化し、第１の再構成された信号に対する第１の分類演算を実行する。当該第１の分類演算に少なくとも部分的に基づいて、信号の関連領域が識別され得る。これらは、例えば、非限定的な例として、当該フレーム内の関心のフレーム及び領域を含み得る。これらの関連領域は、第２の分類演算をどこで実行すべきかを示し得る。これに応答して、分析システムは、第１の位置のシステムからの部分的なファイル呼び出し動作を実行する。これは、追加の圧縮されたデータ、例えば、追加のデータのティア又はレイヤに対する要求を含み得る。次いで、第１の位置のシステムは、信号の当該関連領域に対応する圧縮されたデータの第２のセットを第２の位置の分析システムに送信し得る。次いで、第２の位置の分析システムは、圧縮されたデータの当該第２のセットを復号化して第２の再構成された信号を生成することによって、信号の圧縮されたバージョンを第２の品質レベルまで復号化し得る。次いで、分析システムは、第２の再構成された信号に対する１つ以上の第２の分類演算を実行し得る。本明細書において説明される態様では、用語分類は、より一般の信号分析の一実施例とみなされ得、「圧縮された」及び「符号化された」という用語は、互換的に使用され得、信号は、信号を圧縮する量子化及び／又はエントロピー符号化を使用することによって符号化され得る。

第２の態様によれば、複数のビデオカメラフィードを分析する方法は、
第１の位置で、レイヤベースの符号化を使用して、レイヤベースの符号化内の複数のレイヤの各々について符号化されたデータストリームを生成することを含めて、複数のビデオカメラフィードを符号化することであって、複数のレイヤ中の異なるレイヤは、異なる空間解像度に対応し、より高位のレイヤは、より高い空間解像度を表す、符号化することと、
第１の位置からリモートの第２の位置に、複数のビデオカメラフィードの１つ以上の最下位レイヤの符号化されたデータストリームを送信することと、
第２の位置で、符号化されたデータストリームを復号化して、第１の空間解像度で複数のビデオカメラフィードの再構成のセットを生成することと、
再構成のセットに１つ以上のビデオ分析機能を適用して、更なる分析のための１つ以上のビデオカメラフィードを識別することと、
更なる分析のための識別された１つ以上のビデオカメラフィードの第１の位置に、１つ以上の最下位レイヤよりも上の１つ以上のレイヤの更なる符号化されたデータストリームに対する要求を伝送することと、
要求に応答して、第２の位置に、１つ以上の最下位レイヤよりも上の１つ以上のレイヤの更なる符号化されたデータストリームを送信することと、
第２の位置で、更なる符号化されたデータストリームを復号化して、第２の空間解像度で、識別された１つ以上のビデオカメラフィードの再構成のセットを生成することと、
第２の空間解像度の再構成のセットに１つ以上のビデオ分析機能を適用することと、を含む。

第３の態様によれば、リモート信号分析の方法は、
少なくとも１つのネットワークを介したコンピューティングデバイスで、複数の入力信号に対応する複数の符号化された信号ストリームの符号化されたデータを受信することであって、複数の入力信号の符号化は、コンピューティングデバイスからリモートの符号化位置で実行され、符号化された信号ストリームは、レイヤベースの符号化を使用して符号化され、レイヤベースの符号化における異なるレイヤは、異なる品質レベルに対応し、より高位のレイヤは、より高い品質レベルを表し、受信された符号化されたデータは、レイヤベースの符号化内の１つ以上の最下位レイヤに関連付けられた符号化されたデータを含む、受信することと、
受信された符号化されたデータを復号化して、１つ以上の最下位レイヤでの複数の入力信号の複数の再構成を取得することと、
複数の入力信号の再構成のうちの少なくとも１つを処理して、更なる処理のための、符号化された信号ストリームの部分を判定することと、
符号化位置から、符号化された信号ストリームの判定された部分に関連付けられた、１つ以上の最下位レイヤよりも上の１つ以上のレイヤの符号化されたデータを要求することと、を含む。

この方法は、他の実装態様の中で、図９のクラウドデータセンタ９２０、図１０のリモートサーバ１０６０、又は図１１２０の配信センタ１１２０のうちの１つ以上によって適用され得る。

第４の態様によれば、例えば第１の位置で実行される、符号化方法は、
第１の位置で、複数の入力信号に対応する複数の符号化された信号ストリームの符号化されたデータを生成することであって、符号化された信号ストリームは、レイヤベースの符号化を使用して符号化され、レイヤベースの符号化における異なるレイヤは、異なる品質レベルに対応し、より高位のレイヤは、より高い品質レベルを表し、受信された符号化されたデータは、レイヤベースの符号化内の１つ以上の最下位レイヤに関連付けられた符号化されたデータを含む、生成することと、
符号化されたデータを復号化のために第１の位置からリモートの第２の位置に送信することと、
１つ以上の最下位レイヤよりも上の１つ以上のレイヤの更なる符号化されたデータに対する要求を受信することであって、要求は、複数の入力信号のうちの１つ以上に関連する、受信することと、
更なる符号化されたデータを第２の位置に送信することと、を含む。

この方法は、例えば、図９及び図１０の符号化プラットフォーム９４０、又は図１１のエッジシャーシによって適用され得る。

任意選択で、上記の方法のうちの１つ以上では、方法は、第１の位置のシステムにおいて、第２の位置のシステムへのデータ送信のための利用可能な帯域幅が、圧縮されたデータの第１のセットの全てを送信するのに十分ではないことを検出すると、圧縮されたデータの第１のセットのサブセットを送信することを含み、第２の位置のシステムは、圧縮されたデータの第１のセットの受信されたサブセットに基づいて、信号を第１の品質レベルで再構成する。非限定的な実施形態では、システムが圧縮されたデータの第１のセットのサブセットを受信すると生成される第１の品質レベルでの信号のレンディションの解像度及び色平面は、システムが圧縮されたデータのフルの第１のセットを受信すると生成されるレンディションの解像度及び色平面と同じである。

任意選択で、上記方法のうちの１つ以上では、方法は、第２の位置のシステムにおけるビデオ分析タスクの出力に少なくとも部分的に基づいて、第１の位置のシステムに信号伝達して、第３の品質レベルでの再構成に対応する信号の圧縮されたデータを送信することを含み、第３の品質レベルは、第１の品質レベルよりも高い。

任意選択で、上記方法のうちの１つ以上では、方法は、第２の位置のシステムにおけるビデオ分析タスクの出力に少なくとも部分的に基づいて、第１の位置のシステムに信号伝達して、第４の品質レベルでの再構成に対応する信号の圧縮されたデータを送信することを含み、第４の品質レベルは、第１の品質レベルよりも低い。

任意選択で、上記の方法のうちの１つ以上では、第２の位置のシステムは、第１の位置で利用可能な複数の信号について本明細書において説明される方法に従って分析及び／又は分類を実行し、第３の品質レベルで送信するための１つ以上の信号であって、第３の品質レベルは第１の品質レベルよりも高い、１つ以上の信号と、第４の品質レベルで送信するための１つ以上の信号であって、第４の品質レベルは第１の品質レベルよりも低い、１つ以上の信号と、を識別する。このことは、分析システムが、より高い忠実度で第２の位置に送信する信号（分類の出力に基づいて任意の時点でより高い関連性を判断される）、及びプロキシ品質で送信するための信号（分類の出力に基づいて任意の時点でより低い関連性を判断される）をリアルタイムで制御することができ、したがって、利用可能なネットワーク容量の使用を最適化することができるという点で有利である。

任意選択で、上記の方法のうちの１つ以上では、方法は、余分のネットワーク容量が利用可能である場合、ビデオ分析タスクの目的のために今までに転送されなかった信号に関連する圧縮されたデータの第２の位置セットに送信することを含む。このことは、アーカイブ目的及び／又は将来の分類タスクに有利であり、オンサイトで利用可能な圧縮されたデータの全てから恩恵を受けることができるであろう。

任意選択で、上記の方法のうちの１つ以上では、信号分析を復号化及び実行するステップは、同じ処理装置及びローカルメモリ（例えば、非限定的な例として、１つ以上のグラフィック処理装置のセット）、例えば、リモート処理位置での処理装置及びメモリのセットを使用して実行される。

任意選択で、上記の方法のうちの１つ以上では、ビデオ分析タスクは、分類を含み、第１の分類、１つ以上の第２の分類、及び１つ以上の第３の分類は、階層的な様式で（例えば、非限定的な実施例として、ベイズ条件付き確率分析方法を利用することによって）編成され、第１の分類が、入力信号におけるいくつかの要素の粗い分類であり、かつ１つ以上の第２の分類又は１つ以上の第３の分類のいずれかが、入力信号における要素の粗い分類を更に精緻化するようになっている。更に任意選択で、方法は、粗い分類に基づいて、更なる分類を必要とすると判定された圧縮されたデータの第２のセットのそれらの部分のみを選択し、取り出し、及び復号化し、それらの復号化された部分に基づいて、第２の再構成された信号を生成することを更に含み得る。

任意選択で、上記の方法のうちの１つ以上では、１つ以上の分類が、１つ以上のニューラルネットワーク検出器（例えば、複数のニューラルネットワーク検出器）を使用して実行される。任意選択で、ニューラル検出器は、データ正規化段階及び後続のデータ比較段階を含む。任意選択で、ニューラルネットワーク検出器は、デジタルハードウェア（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ニューラルネットワーク機能性を実装するためのソフトウェア製品を実行するように構成されたコンピューティングハードウェア）、又はその両方の組み合わせで実装される。

第５の態様によれば、入力信号内の１つ以上の要素を分類する方法（すなわち、するための方法）が提供され、この方法は、
入力信号の第１のバージョンに対する分類タスクの第１の分類サブタスクを実行することと、
第１の分類サブタスクの出力に少なくとも部分的に基づいて、第１の位置から圧縮されたデータの第２のセットを識別し、かつ呼び出すことと、
圧縮されたデータの当該第２のセットに少なくとも部分的に基づいて、入力信号の第２のバージョンを再構成することと、
入力信号の第２のバージョンに対する分類タスクの１つ以上の第２の分類サブタスクを実行することと、を含み、
信号の第１及び第２のバージョンは、リモート位置から段階的にフェッチされる。

任意選択で、上記の方法は、入力信号の第３のバージョンに対する分類タスクの１つ以上の第３の分類サブタスクを実行することを更に含み、当該第３のバージョンは、第１の位置から呼び出された圧縮されたデータの第３のセットに基づいて生成され、圧縮されたデータの当該第３のセットは、１つ以上の第２の分類サブタスクの出力に基づいて識別される。任意選択で、上記の方法では、第１の分類サブタスクの出力に基づいて、第２のバージョンは、入力信号の一部分のみを含む。

任意選択で、上記の方法のうちの１つ以上では、圧縮されたデータの取り出された第２のセットは、入力信号を形成する色平面のサブセットのデータのみである。別の実施例では、信号の第２のバージョンは、依然として、信号の第１のバージョンを形成する色平面の全てを含む。

任意選択で、上記の方法のうちの１つ以上では、異なる品質レベルの参照は、異なる空間解像度に対応し、より高いレイヤは、より高い空間解像度を表す。

任意選択で、上記の方法のうちの１つ以上において、レイヤベースの符号化は、最も低い空間解像度の基本レイヤと、基本レイヤよりも上のより高い空間解像度の複数の残差レイヤと、を含み、複数の残差レイヤ中の所与の残差レイヤは、レイヤの解像度の入力信号から導出されたデータと、より下位のレイヤから導出されたデータと、の比較に基づいて判定される。

任意選択で、上記の方法のうちの１つ以上では、１つ以上の最下位レイヤでの複数の入力信号の再構成のうちの少なくとも１つにおける関心の領域を判定する更なるステップと、関心の領域に関連する更なる符号化されたデータを要求する更なるステップと、がある。このことは、更なる符号化されたデータを使用して、１つ以上の最下位レイヤよりも上の１つ以上のレイヤにおける、関心の領域のための再構築のセットを生成することを含み得る。ある場合では、このことは、最も高い品質レベルで再構成を生成するために必要とされる差分の符号化されたデータを判定することであって、差分の符号化されたデータは、受信された符号化されたデータ及び受信された更なる符号化されたデータを除外する、判定することと、差分の符号化されたデータを第１の位置から要求することと、を含み得る。

任意選択で、上記の方法のうちの１つ以上では、方法は、１つ以上の最下位レイヤで、複数の入力信号の再構成のうちの少なくとも１つ内で物体検出を実行することを含む。特定の場合では、方法は、１つ以上の最下位レイヤよりも上の１つ以上のレイヤで、複数の入力信号の再構成のうちの少なくとも１つ内で物体検出を実行することを含み得る。

任意選択で、上記の方法のうちの１つ以上では、方法は、更なる分析のための、複数の入力信号のうちの１つ以上のフレームの１つ以上のセットを識別することと、更なる分析のための１つ以上の入力源を識別することと、を更に含み、当該識別は、第１の、符号化、位置、及び第２の、分析位置のうちの１つ以上で実行される。この場合に、方法は、識別されたフレーム又は識別された入力源の１つ以上の最下位レイヤよりも上のレイヤの符号化されたデータを送信することを更に含み得る。

任意選択で、上記の方法のうちの１つ以上では、方法は、符号化されたデータを信号分析のためのリモートサーバに送信することと、符号化されたデータを複数のユーザに送信することと、を更に含む。符号化されたデータを複数のユーザに送信することは、符号化されたデータを複数のユーザへの配信のための配信センタに送信することを含み得る。このことは、リモートサーバで再構築のセットを分析して、配信センタに送信される１つ以上の入力源の符号化されたデータのレイヤのセットを判定することを含み得る。

任意選択で、上記の方法のうちの１つ以上では、複数の入力信号又は複数のビデオ入力フィードは、ライブイベントをキャプチャするための複数のビデオカメラに関連付けられ、リモートサーバは、複数のビデオカメラのうちのいずれを複数のユーザへの送信のために選択するかと、選択されたビデオカメラについて複数のユーザに送信するための符号化されたデータの品質レベルと、を判定する。

任意選択で、上記の方法のうちの１つ以上では、各品質レベルは、異なる符号化ビットレートを有する。

任意選択で、上記の方法のうちの１つ以上では、第１の、符号化位置から送信された符号化されたデータは、符号化された信号成分のサブセットの符号化されたデータを含む。これらは、ビデオ信号の異なる色成分を含み得、符号化された成分のサブセットは、少なくとも明度成分又は輝度成分を含み得る。

任意選択で、上記の方法のうちの１つ以上では、方法は、第２の、リモート、位置で、アーカイブするための１つ以上の最下位レイヤよりも上の１つ以上のレイヤの符号化されたデータを受信することを更に含む。

任意選択で、上記の方法のうちの１つ以上では、方法は、受信された符号化されたデータを復号化して、１つ以上の最下位レイヤでの複数の入力信号の複数の再構成を取得することと、複数の再構成をアップスケールすることと、アップスケールされた再構成に対する分析を実行することと、を更に含む。例えば、図５のアップサンプラ５２６、５２２、及び５３０は、アップサンプリングされた再構成５２０、５２８、及び５３１のコンテンツを予測するように作用するニューラルネットワークアップサンプラを含み得る。特定の場合では、アップサンプリングされた再構成５１７、５２４、及び／又は５３２は、各レイヤの追加の残差データ（５１８、５２６など）がなくても、改善されたビデオ分析を提供し得る。この場合に、マルチレイヤ信号の復号化を表す図５の配置は、推論のための固定された入力解像度を有する種々のモジュール式ビデオ分析機能（例えば、分類のためのニューラルネットワークアーキテクチャ）に対応するために有利であり得る。このことは、ネットワーク輻輳がある場合、又は帯域幅が別様に制限されている場合に、有利であり得、すなわち、アップスケーリングは、超えるものが利用不可能なより高い解像度で、１つ以上のレイヤの符号化されたデータに応答して実行される。これらの場合に、ビデオ分析機能は、依然として、固定された品質レベルで適用され得、帯域幅が利用可能な場合、１つ以上のレイヤの残差データは、再び符号化、受信、及び復号化され、したがって、ビデオ分析機能の出力の改善につながり得る。これらの場合に、より低い解像度での再構成をより高い解像度での再構成にマッピングするためのパラメータ値を学習するために、アップスケールすることは、任意選択で、２つの空間解像度の画像上のバージョンを含む訓練セットで訓練されたニューラルネットワークアーキテクチャを使用する。

任意選択で、上記の方法のうちの１つ以上では、マルチレイヤ符号化は、ＳＭＰＴＥＶＣ－６２１１７に基づく符号化を含む。

任意選択で、上記の方法のうちの１つ以上では、マルチレイヤ符号化は、ＩＳＯ／ＩＥＣＭＰＥＧ－５Ｐａｒｔ２ＬＣＥＶＣに基づく符号化を含む。

以上の適切な方法は、第１の位置で符号化システムによって実装され得る。方法のうちの他のものは、第２の位置でリモート分析システムによって実装され得る。

本開示の実施形態は、従来技術における前述の問題を実質的に除去するか、又はこれに少なくとも部分的に対処し、当該分類が分類システムの位置にそれらの信号の全てを送信することを必要とすることなく、分散型深層学習分類システムが、異なる位置においてフル解像度及び品質で利用可能である信号の正確かつ効率的な分析を実行することを可能にする。

本明細書において説明される特定の実施例は、イベントサイトにおいて、無損失ＵＨＤｐ６０に近いフル品質で、信号源のセット、例えば複数の全てのカメラを、非常に効率的に符号化することを可能にする。これらの実施例を使用すると、所与のＬＯＱまでの品質に対応するバイトのみをリアルタイムでリモートサイトに送信することが可能である。ＶＣ－６の実施例では、これは、ＬＯＱ－４（マイナス４）であり得、場合によっては、輝度などの１つの色成分のみが送信され得る。クラウドデータセンタ又は配信センタのリモート処理デバイス及び／又は処理デバイスなどの、リモートサイトでは、効率的な検出パスが、これらの下位レベルの「プロキシビデオ」（すなわち、下位レベルのビデオからの再構成）に対して実行され得、関心のフレーム及び領域が、自動分析アルゴリズムに基づいて識別され得る。任意の識別された関心の部分を使用して、イベントサイトから、より高い品質及び／又は解像度の再構成を有するために必要である残差バイト又は差分バイトのセットをフェッチして、高品質レベル（例えば、最高で元のフル品質又はフル解像度の信号フィード）の再構成の部分に対して更なるビデオ分析を実行することを可能にし得る。

本明細書において説明される特定の実施例は、とりわけ、リモート／自宅での生成アプリケーション、メディアアーカイブ分析及び／若しくは配信、産業用アプリケーション、セキュリティ／監視アプリケーション、並びに／又はモノのインターネットアプリケーション、のためのアプリケーションを有し得る。これらの実施例では、高度なビデオ分析を「オンサイト」で実行する必要があることと、非常に低品質のフィードに対してクラウドで実行する必要があることと、の間の誤選択を回避する。代わりに、本実施例は、分析が、並列化されたＡＩ処理パイプラインに容易に組み込まれ得るリアルタイムのインタラクティブな様式で、「リモートから」漸進的に実行されることを可能にする部分的なファイル呼び出しのメカニズムを提供する。

エッジ又はリモート処理デバイスを実装するための例示的な装置
図１２を参照すると、装置１２００の実施例の概略ブロック図が示されている。装置１２００は、本明細書において説明される符号化演算を実行するエッジコンピューティングデバイスと、本明細書において説明されるリモート信号分析を実行するリモートコンピューティングデバイスと、のうちの１つ以上を実装するために使用され得る。ある場合では、エッジ位置及びリモート（すなわち、「クラウド」）位置のうち１つ以上に、複数の装置１２００があり得る。

装置１２００の実施例は、モバイルコンピュータ、パーソナルコンピュータシステム、無線デバイス、基地局、電話デバイス、デスクトップコンピュータ、ラップトップ、ノートブック、ネットブックコンピュータ、メインフレームコンピュータシステム、ハンドヘルドコンピュータ、ワークステーション、ネットワークコンピュータ、アプリケーションサーバ、ストレージデバイス、コンシューマエレクトロニクスデバイス（カメラ、カムコーダ、モバイルデバイス、ビデオゲームコンソール、ハンドヘルドビデオゲームデバイスのような）、周辺機器デバイス（スイッチ、モデム、ルータ、車両などのような）、又は一般に任意のタイプのコンピューティング若しくは電子デバイスを含むが、これらに限定されない。好ましい実施例では、装置は、サーバコンピューティングデバイスを含む。

この実施例では、装置１２００は、情報及び／又は命令を処理するように構成された１つ以上のプロセッサ１２０１を備える。１つ以上のプロセッサ１２０１は、中央処理装置（ＣＰＵ）を含み得る。１つ以上のプロセッサ１２０１は、バス１２０２と結合されている。１つ以上のプロセッサ１２０１によって実行される動作は、ハードウェア及び／又はソフトウェアによって実行され得る。１つ以上のプロセッサ１２０１は、複数の同じ位置にあるプロセッサ又は複数の別異に位置するプロセッサを含み得る。

この実施例では、装置１２００は、１つ以上のプロセッサ１２０１の情報及び／又は命令を記憶するように構成された、コンピュータ使用可能な揮発性メモリ１２０３を備える。コンピュータ使用可能な揮発性メモリ１２０３は、バス１２０２と結合されている。コンピュータ使用可能な揮発性メモリ１２０３は、ランダムアクセスメモリ（ＲＡＭ）を含み得る。

この実施例では、装置１２００は、１つ以上のプロセッサ５０１の情報及び／又は命令を記憶するように構成された、コンピュータ使用可能な不揮発性メモリ１２０４を備える。コンピュータ使用可能な不揮発性メモリ１２０４は、バス１２０２と結合されている。コンピュータ使用可能な不揮発性メモリ１２０４は、読み取り専用メモリ（ＲＯＭ）を含み得る。

この実施例では、装置１２００は、情報及び／又は命令を記憶するように構成された１つ以上のデータ記憶ユニット１２０５を備える。１つ以上のデータ記憶ユニット１２０５は、バス１２０２と結合されている。１つ以上のデータ記憶ユニット１２０５は、例えば、磁気ディスク若しくは光学ディスク及びディスクドライブ、又はソリッドステートドライブ（ＳＳＤ）を含み得る。

この実施例では、装置１２００は、１つ以上のプロセッサ１２０１に、及び／又は１つ以上のプロセッサ１２０１から情報を伝達するように構成された１つ以上の入力／出力（Ｉ／Ｏ）デバイス１２０６を備える。１つ以上のＩ／Ｏデバイス５０６は、バス１２０２と結合されている。１つ以上のＩ／Ｏデバイス５０６は、少なくとも１つのネットワークインターフェースを含む。少なくとも１つのネットワークインターフェースは、装置１２００が１つ以上のデータ通信ネットワークを介して通信することを可能にする。データ通信ネットワークの実施例としては、広域ネットワーク（インターネットなどのＷＡＮ）及びローカルエリアネットワーク（ＬＡＮ）が挙げられるが、これらに限定されない。多くのデータ通信リンクは、当該技術分野で知られている複数の相互接続されたネットワークを介した通信を含み得る。１つ以上のＩ／Ｏデバイス１２０６は、ユーザが１つ以上の入力デバイス（図示せず）を介して装置１２００に入力を提供することを可能にし得る。１つ以上のＩ／Ｏデバイス１２０６は、１つ以上の出力デバイス（図示せず）を介して、情報がユーザに提供されることを可能にし得る。

様々な他のエンティティが、装置１２００のために描写されている。例えば、存在する場合、オペレーティングシステム１２０７、データ処理モジュール１２０８、１つ以上の更なるモジュール１２０９、及びデータ１２１０が、コンピュータ使用可能な揮発性メモリ１２０３、コンピュータ使用可能な不揮発性メモリ１２０４、及び１つ以上のデータ記憶ユニット１２０５のうちの１つ又は組み合わせに存在するものとして示されている。信号処理モジュール１２０８は、コンピュータ使用可能な不揮発性メモリ１２０４内のメモリ位置に格納されたコンピュータプログラムコード、１つ以上のデータ記憶ユニット１２０５内のコンピュータ可読記憶媒体、及び／又は他の有形のコンピュータ可読記憶媒体によって実装され得る。有形のコンピュータ可読記憶媒体の実施例としては、光学媒体（例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ又はＢｌｕ－ｒａｙ（登録商標））、フラッシュメモリカード、フロッピーディスク若しくはハードディスク、又は少なくとも１つのＲＯＭ若しくはＲＡＭ若しくはプログラマブルＲＯＭ（ＰＲＯＭ）チップ内に、又は特定用途向け集積回路（ＡＳＩＣ）として、ファームウェア若しくはマイクロコードなどのコンピュータ可読命令を記憶することができる任意の他の媒体が挙げられるが、これらに限定されない。

したがって、装置１２００は、１つ以上のプロセッサ１２０１によって実行され得るデータ処理モジュール１２０８を備え得る。データ処理モジュール１２０８は、本明細書において説明される動作のうちの少なくともいくつかを実装するための命令を含むように構成され得る。動作中、１つ以上のプロセッサ１２０１は、データ処理モジュール１２０８において命令を起動、ラン、実行、解釈、又は別様に実行する。

図面を参照して本明細書で説明される実施例の少なくとも一部の態様は、処理システム又はプロセッサで実行されるコンピュータプロセスを含むが、本明細書で説明される実施例は、実施例を実施するように適合されたコンピュータプログラム、例えば、キャリア上又はキャリア内のコンピュータプログラムにも及ぶ。キャリアは、プログラムを保持できる任意のエンティティ又はデバイスであり得る。

装置１２００は、図１２に描写されるものから、より多い、より少ない、及び／又は異なる構成要素を備え得ることが理解されよう。エッジ及びクラウドの位置の各々で、装置１２００は、単一のエンティティとして、又は分散コンピューティングプラットフォームとして実装され得る。例えば、リモート処理デバイスは、高速データ通信リンクと相互接続される複数の処理デバイスを備え得る（例えば、エッジとリモート処理デバイスとの間のより限定されたリンクと比較して）。同様に、エッジ位置での処理は、複数の相互接続されたデバイス（例えば、ＬＡＮを介して結合された）によって実行され得る。

本明細書において説明される技術は、ソフトウェア又はハードウェアとして実装され得るか、又はソフトウェア及びハードウェアの組み合わせを使用して実装され得る。これらは、本明細書において説明される技術のいずれか又は全てを実行及び／又はサポートするように装置を構成することを含み得る。

上記の実施形態は、例示的な例として理解されるべきである。更なる実施形態が想定される。特定の特徴の省略を含む、説明されるオプション及び特徴の異なる組み合わせは、明示的に可能とされ、異なる実装態様で提供され得る。例えば、任意の１つの実施例に関連して説明される任意の特徴が、単独で、又は説明される他の特徴と組み合わせて使用され得、また、実施例のうちの任意の他のものの１つ以上の特徴、又は実施例のうちの任意の他の任意の組み合わせと組み合わせて使用され得ることを理解されたい。更に、添付の特許請求の範囲において定義されている本発明の範囲から逸脱することなく、上で説明されていない均等物及び改変形態が採用され得る。

Claims

複数のビデオカメラフィードを分析する方法であって、
第１の位置で、レイヤベースの符号化を使用して、前記レイヤベースの符号化内の複数のレイヤの各々について符号化されたデータストリームを生成することを含めて、前記複数のビデオカメラフィードを符号化することであって、前記複数のレイヤ中の異なるレイヤは、異なる空間解像度に対応し、より高位のレイヤは、より高い空間解像度を表す、符号化することと、
前記第１の位置からリモートの第２の位置に、前記複数のビデオカメラフィードの１つ以上の最下位レイヤの符号化されたデータストリームを送信することと、
前記第２の位置で、前記符号化されたデータストリームを復号化して、第１の空間解像度で前記複数のビデオカメラフィードの再構成のセットを生成することと、
前記再構成のセットに１つ以上のビデオ分析機能を適用して、更なる分析のための１つ以上のビデオカメラフィードを識別することと、
前記更なる分析のための識別された１つ以上のビデオカメラフィードの前記第１の位置に、前記１つ以上の最下位レイヤよりも上の１つ以上のレイヤの更なる符号化されたデータストリームに対する要求を伝送することと、
前記要求に応答して、前記第２の位置に、前記１つ以上の最下位レイヤよりも上の１つ以上のレイヤの前記更なる符号化されたデータストリームを送信することと、
前記第２の位置で、前記更なる符号化されたデータストリームを復号化して、第２の空間解像度で、前記識別された１つ以上のビデオカメラフィードの再構成のセットを生成することと、
前記第２の空間解像度の前記再構成のセットに１つ以上のビデオ分析機能を適用することと、を含む、方法。
リモート信号分析の方法であって、
少なくとも１つのネットワークを介したコンピューティングデバイスで、複数の入力信号に対応する複数の符号化された信号ストリームの符号化されたデータを受信することであって、
前記複数の入力信号の前記符号化は、前記コンピューティングデバイスからリモートの符号化位置で実行され、
前記符号化された信号ストリームは、レイヤベースの符号化を使用して符号化され、
前記レイヤベースの符号化における異なるレイヤは、異なる品質レベルに対応し、より高位のレイヤは、より高い品質レベルを表し、
前記受信された符号化されたデータは、前記レイヤベースの符号化内の１つ以上の最下位レイヤに関連付けられた符号化されたデータを含む、受信することと、
前記受信された符号化されたデータを復号化して、前記１つ以上の最下位レイヤでの前記複数の入力信号の複数の再構成を取得することと、
前記複数の入力信号の再構成のうちの少なくとも１つを処理して、更なる処理のための、前記符号化された信号ストリームの部分を判定することと、
前記符号化位置から、前記符号化された信号ストリームの前記判定された部分に関連付けられた、前記１つ以上の最下位レイヤよりも上の１つ以上のレイヤの符号化されたデータを要求することと、を含む、方法。
符号化方法であって、
第１の位置で、複数の入力信号に対応する複数の符号化された信号ストリームの符号化されたデータを生成することであって、
前記符号化された信号ストリームは、レイヤベースの符号化を使用して符号化され、
前記レイヤベースの符号化における異なるレイヤは、異なる品質レベルに対応し、より高位のレイヤは、より高い品質レベルを表し、
前記受信された符号化されたデータは、前記レイヤベースの符号化内の１つ以上の最下位レイヤに関連付けられた符号化されたデータを含む、生成することと、
前記符号化されたデータを復号化のために前記第１の位置からリモートの第２の位置に送信することと、
前記１つ以上の最下位レイヤよりも上の１つ以上のレイヤの更なる符号化されたデータに対する要求を受信することであって、前記要求は、前記複数の入力信号のうちの１つ以上に関連する、受信することと、
前記更なる符号化されたデータを前記第２の位置に送信することと、を含む、符号化方法。
異なる空間解像度に異なる品質レベルが対応し、より高位のレイヤは、より高い空間解像度を表す、請求項２又は３に記載の方法。
前記レイヤベースの符号化は、最も低い空間解像度の基本レイヤと、前記基本レイヤよりも上のより高い空間解像度の複数の残差レイヤと、を含み、前記複数の残差レイヤ中の所与の残差レイヤは、前記レイヤの解像度の入力信号から導出されたデータと、より下位のレイヤから導出されたデータと、の比較に基づいて判定される、請求項１又は４に記載の方法。
前記１つ以上の最下位レイヤでの前記複数の入力信号の再構成のうちの少なくとも１つにおける関心の領域を判定することと、
前記関心の領域に関連する更なる符号化されたデータを要求することと、を含む、先行請求項のいずれか一項に記載の方法。
前記更なる符号化されたデータを使用して、前記１つ以上の最下位レイヤよりも上の１つ以上のレイヤにおける、前記関心の領域のための再構成のセットを生成することを更に含む、請求項６に記載の方法。
最も高い品質レベルで再構成を生成するために必要とされる差分の符号化されたデータを判定することであって、前記差分の符号化されたデータは、前記受信された符号化されたデータ及び前記受信された更なる符号化されたデータを除外する、判定することと、
前記差分の符号化されたデータを前記第１の位置から要求することと、を含む、請求項６又は７に記載の方法。
前記１つ以上の最下位レイヤで、前記複数の入力信号の再構成のうちの少なくとも１つ内で物体検出を実行することを含む、先行請求項のいずれか一項に記載の方法。
前記１つ以上の最下位レイヤよりも上の１つ以上のレイヤで、前記複数の入力信号の再構成のうちの少なくとも１つ内で物体検出を実行することを含む、先行請求項のいずれか一項に記載の方法。
前記方法は、
更なる分析のための、前記複数の入力信号のうちの１つ以上のフレームの１つ以上のセットを識別することと、
更なる分析のための１つ以上の入力源を識別することと、のうちの１つ以上を含み、
前記識別は、前記第１の、符号化、位置、及び前記第２の、分析位置のうちの１つ以上で実行される、先行請求項のいずれか一項に記載の方法。
前記識別されたフレーム又は前記識別された入力源の前記１つ以上の最下位レイヤよりも上のレイヤの符号化されたデータを送信することを含む、請求項１１に記載の方法。
符号化されたデータを信号分析のためのリモートサーバに送信することと、
符号化されたデータを複数のユーザに送信することと、を含む、先行請求項のいずれか一項に記載の方法。
符号化されたデータを複数のユーザに送信することは、符号化されたデータを前記複数のユーザへの配信のための配信センタに送信することを含む、請求項１３に記載の方法。
前記リモートサーバで再構成のセットを分析して、前記配信センタに送信される１つ以上の入力源の符号化されたデータのレイヤのセットを判定することを含む、請求項１４に記載の方法。
前記複数の入力信号又は前記複数のビデオ入力フィードは、ライブイベントをキャプチャするための複数のビデオカメラに関連付けられ、前記リモートサーバは、前記複数のビデオカメラのうちのいずれを前記複数のユーザへの送信のために選択するかと、前記選択されたビデオカメラについて前記複数のユーザに送信するための前記符号化されたデータの前記品質レベルと、を判定する、請求項１５に記載の方法。
各品質レベルは、異なる符号化ビットレートを有する、請求項２又は３に記載の方法。
前記第１の、符号化位置から送信された前記符号化されたデータは、符号化された信号成分のサブセットの符号化されたデータを含む、先行請求項のいずれか一項に記載の方法。
前記符号化された信号成分は、前記ビデオ信号の異なる色成分を含み、符号化された成分の前記サブセットは、少なくとも明度成分又は輝度成分を含む、請求項１８に記載の方法。
前記第２の、リモート、位置で、アーカイブするための前記１つ以上の最下位レイヤよりも上の１つ以上のレイヤの符号化されたデータを受信することを含む、先行請求項のいずれか一項に記載の方法。
前記受信された符号化されたデータを復号化して、前記１つ以上の最下位レイヤでの前記複数の入力信号の複数の再構成を取得することと、
前記複数の再構成をアップスケールすることと、
前記アップスケールされた再構成に対する分析を実行することと、を含む、先行請求項のいずれか一項に記載の方法。
より低い解像度での再構成をより高い解像度での再構成にマッピングするためのパラメータ値を学習するために、前記アップスケールすることは、２つの空間解像度の画像上のバージョンを含む訓練セットで訓練されたニューラルネットワークアーキテクチャを使用する、請求項２１に記載の方法。
前記アップスケーリングは、超えるものが利用不可能な前記より高い解像度で、１つ以上のレイヤの符号化されたデータに応答して実行される、請求項２２に記載の方法。
前記マルチレイヤ符号化は、ＳＭＰＴＥＶＣ－６２１１７に基づく符号化を含む、先行請求項のいずれか一項に記載の方法。
前記マルチレイヤ符号化は、ＩＳＯ／ＩＥＣＭＰＥＧ－５Ｐａｒｔ２ＬＣＥＶＣに基づく符号化を含む、請求項１～２４のいずれか一項に記載の方法。
請求項３に従属する場合の請求項４～２５のいずれか一項に記載の方法を実装する符号化システム。
請求項２に従属する場合の請求項４～２５のいずれか一項に記載の方法を実装するリモート分析システム。