JP2023546392A - マルチレイヤ信号符号化の分散解析 - Google Patents

マルチレイヤ信号符号化の分散解析 Download PDF

Info

Publication number
JP2023546392A
JP2023546392A JP2023522481A JP2023522481A JP2023546392A JP 2023546392 A JP2023546392 A JP 2023546392A JP 2023522481 A JP2023522481 A JP 2023522481A JP 2023522481 A JP2023522481 A JP 2023522481A JP 2023546392 A JP2023546392 A JP 2023546392A
Authority
JP
Japan
Prior art keywords
encoded data
layers
data
layer
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023522481A
Other languages
English (en)
Inventor
メルディ,グイド
ベナー,ローレンス
Original Assignee
ブイ-ノバ インターナショナル リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブイ-ノバ インターナショナル リミテッド filed Critical ブイ-ノバ インターナショナル リミテッド
Publication of JP2023546392A publication Critical patent/JP2023546392A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本開示は、複数のビデオカメラフィードを分析する方法であって、第1の位置で、レイヤベースの符号化を使用して、レイヤベースの符号化内の複数のレイヤの各々について符号化されたデータストリームを生成することを含めて、複数のビデオカメラフィードを符号化することであって、複数のレイヤ中の異なるレイヤは、異なる空間解像度に対応し、より高位のレイヤは、より高い空間解像度を表す、符号化することと、第1の位置からリモートの第2の位置に、複数のビデオカメラフィードの1つ以上の最下位レイヤの符号化されたデータストリームを送信することと、第2の位置で、符号化されたデータストリームを復号化して、第1の空間解像度で複数のビデオカメラフィードの再構成のセットを生成することと、再構成のセットに1つ以上のビデオ分析機能を適用して、更なる分析のための1つ以上のビデオカメラフィードを識別することと、更なる分析のための識別された1つ以上のビデオカメラフィードの第1の位置に、1つ以上の最下位レイヤよりも上の1つ以上のレイヤの更なる符号化されたデータストリームに対する要求を伝送することと、要求に応答して、第2の位置に、1つ以上の最下位レイヤよりも上の1つ以上のレイヤの更なる符号化されたデータストリームを送信することと、第2の位置で、更なる符号化されたデータストリームを復号化して、第2の空間解像度で、識別された1つ以上のビデオカメラフィードの再構成のセットを生成することと、第2の空間解像度の再構成のセットに1つ以上のビデオ分析機能を適用することと、を含む。【選択図】図10

Description

本開示は、デジタル信号の自動分析を実行するためのシステム、例えば、画像のシーケンスにおける物体分析及び/又はシーン分類を実行するための人工知能(「AI」)システムに関する。更に、本開示は、データの分析を実行するシステムの位置とは異なる位置で、キャプチャ、符号化、及び/又はアーカイブされるデータの分析を実行するための、上述のシステムを動作させるための方法に関する。更に、本開示は、コンピュータ可読命令が記憶された非一時的コンピュータ可読記憶媒体を備えるコンピュータプログラム製品に関し、コンピュータ可読命令は、上述の方法を実行するための処理ハードウェアを備えるコンピュータ化デバイスによって実行可能である。本明細書において説明される特定の実施例は、非限定的な実施例として、音声、画像、ビデオ、及び没入型メディア信号などの、複雑な信号のシーン及び/又は物体の検出、分類、認識、及びタグ付けを実行するための自動深層学習分析を採用する。簡潔にするために、本開示は、ビデオ信号の場合に焦点を当てるが、当業者は、ビデオ信号以外のタイプの信号の自動分析に同じ概念をどのように適用することができるかを容易に導出することができる。
ビデオ信号などの時間発展する信号は、典型的には、定時間刻みのサンプルのシーケンス(例えば、定時間刻みのサンプルのシーケンス、60Hzのレート、又は毎秒60サンプル)によって表され、各サンプル(例えば、ビデオフレーム)は、複数の色平面(例えば、RGB、YUV、HSVなど)を含み、各色平面は、多数の絵素(例えば、3840×2160絵素、又は超HDフル解像度平面の約800万画素)を含み、各絵素値は、所与のビット深度(例えば、8ビット、10ビットなど)の値で表されることが理解されよう。全体として、非圧縮ビデオ信号は、ある所与の位置から別の位置まで、4:2:2UHD10ビットビデオ信号のわずか1秒間の12ギガビット(すなわち、1.5GB)などの極めて高い量のビット毎秒が伝達されることを必要とすることが理解されよう。
人工知能及びニューラルネットワークのアルゴリズムの能力に関して大いに沸き立っているが、信号の分析は、依然として、分散の基本的な問題に悩まされている。多くの組織が、複雑なニューラルネットワークアーキテクチャで推論を実行することができる多くのグラフィカル処理ユニット又はテンソル処理ユニットを有する大規模なデータセンタを有する。しかしながら、これらの複雑なニューラルネットワークアーキテクチャは、高解像度の画像又はビデオフィードなどの高解像度信号を受信及び処理するように構成されている。遭遇した問題の1つは、これらのデータセンタに、分析への入力を形成する高解像度の画像又はビデオフィードを効率的に提供する方法であり、特に、これらのフィードのソースが地理的にリモートである場合である。実施例として、スポーツの試合又は音楽イベントは、高解像度でビデオデータをキャプチャしている多くのカメラを有し得るが、このビデオデータを処理及びミキシングするために、任意のデータセンタへの高速接続が必要とされる。このため、複雑なビデオ分析又はビデオミキシングをオンサイトで実行する必要があるが、高度なニューラルネットワーク分析のための処理リソースは、試合又はイベントのサイトに移植可能でない場合がある(サイトは、サッカー場のサイズの高度な冷却処理機器を含み得るため)。同様の問題が、リモートイベント及び/又はエッジセンサネットワークからの高品質音声信号に適用される。
より詳細には、分析する信号が、この信号を分析するように図られた計算リソースの位置とは異なる位置に配置されると必ず、画像フレームのAI分析を実行するための従来の手法の著しい制限がつきまとう。このケースは、ビデオ信号は軽量カメラ及び/又はエッジデバイスを介して「現場で」キャプチャされることが多いことから、ビデオ信号には非常に頻繁であるが、洗練されたAI分析は、典型的にはデータセンタで利用可能である処理リソースを必要とする(多くの場合、ニューラルネットワークアルゴリズムはまた、データが複数の位置から到来することに起因して、定期的に再トレーニングされる)。この課題に取り組むために、最も一般的な手法は、AI処理の容量をエッジデバイスに転送する(これにより、処理リソースの制限とニューラルネットワークのトレーニング及び機械学習目的のためのローカルデータのみの可用性とに起因して、コスト効率が低下し、分析の恩恵が犠牲になる)か、又は何らかの形で全ての分析するビデオデータをエッジからデータセンタに転送することである。
人工知能分析のための特徴量を送信することに焦点を当てたソリューションが議論されてきた。しかしながら、これらの「特徴量」がどのようなものであるべきかについての指針のないことが多い。典型的には、提案されたソリューションは、オンサイトでの特定の局所特徴量抽出のいくつかの形態を有し、このデータは、より複雑な分析のための処理リソースを有するデータセンタに送信される。しかしながら、このアプローチは柔軟ではなく、例えば、特徴量抽出を変更することが困難である。このアプローチは、追加の問題を生じさせるニューラルネットワークアーキテクチャの一部分の局所実装を必要とすることが多い。また、分析の前に、どのような特徴量が分析に有用であり得るかを知ることが困難である。
本発明の態様及び変形例が、添付の特許請求の範囲に記載されている。
特定の特許請求されていない態様が、以下の詳細な説明に更に記載されている。
マルチレイヤ又は階層符号化及び復号化プロセスの高度な概略図を示す。 マルチレイヤデコンストラクションプロセスの高度な概略図を示す。 マルチレイヤデコンストラクションプロセスの代替的な高度な概略図を示す。 ティア化された出力の残差を符号化するのに好適な符号化プロセスの高度な概略図を示す。 図4からの各出力レベルを復号化するのに好適なマルチレイヤ復号化プロセスの高度な概略図を示す。 マルチレイヤコード化技術の符号化プロセスの高度な概略図を示す。 図6の出力を復号化するのに好適な復号化プロセスの高度な概略図を示す。 マルチレイヤコード化フォーマットの高度な概略図を示す。 局所的にキャプチャされた信号のリモート分析のための第1の例示的なプロセスの高度な概略図を示す。 局所的にキャプチャされた信号のリモート分析のための第2の例示的なプロセスの高度な概略図を示す。 局所的にキャプチャされた信号のリモート分析のための第2の例示的なプロセスの高度な概略図を示す。 本明細書において説明される実施例を実装するための例示的な装置を示す。 1つの例示的なカメラについてのビデオデータのティア化された送信の例示的なプロセスを示す。 1つの例示的なカメラについてのビデオデータのティア化された送信の例示的なプロセスを示す。 1つの例示的なカメラについてのビデオデータのティア化された送信の例示的なプロセスを示す。 1つの例示的なカメラについてのビデオデータのティア化された送信の例示的なプロセスを示す。 比較演算と比較した改善を示す表を示す。
本明細書において説明される特定の実施例は、信号を符号化するための方法に関する。データの処理は、データを取得すること、導出すること、出力すること、受信すること、及び再構成することを含み得るが、これらに限定されない。
本明細書において説明される特定の例は、信号の分散処理に関する。特に、実施例は、種々のレイヤが種々の品質レベルを表す、マルチレイヤ符号化(ティアベース符号化及び/又は階層符号化とも称される)を使用して信号を符号化することに関する。これらの品質レベルは、種々の空間解像度、送信のための種々のビットレート、種々の量子化レベル、種々のサンプリングレベル、及び/又は種々のビット深度を含み得る。
ISO/IEC MPEG-5 Part 2 LCEVC(以後、「LCEVC」)又はSMPTE VC-6 2117(以後、「VC-6」)などのティアベースのコード化フォーマットでは、信号は、元の信号のサンプリングレートの最上層から、典型的には、元の信号よりも低いサンプリングレートを有する最下層まで、各々が信号の「品質レベル」(「LoQ」)に対応する複数の「階層」(「階層ティア」としても知られている)に分解される。信号がビデオストリームのフレームである非限定的な実施例では、最下層は、元のフレームのサムネイルであり得るか、又は更には単に単一の絵素であり得る。他の階層は、最終出力を生成するために、再構成されたレンディションに適用される補正に関する情報を内有する。階層は、特定の品質レベルの元の信号のバージョンと同じ品質レベルの信号の再構成されたバージョンとの間の差異などの残差情報に基づき得る。最下層は、残差情報を含まなくてもよいが、元の信号の最下サンプリングを含み得る。所与の品質レベルの復号化された信号は、まず最下層を復号化し(したがって、第1の(最も低い)品質レベルの信号を再構成し)、次に第2の(次のより高い)品質レベルの信号のレンディションを予測し、次に、対応する、再構成データの第2の階層(第2の品質レベルの「残差データ」としても知られている)を復号化し、次に、予測結果を再構成データと結合して第2の(より高い)品質レベルの信号のレンディションを再構成することを、所与の品質レベルが再構成されるまで以下同様に行うことによって再構成される。信号を再構成することは、残差データを復号化し、これを使用して、より低い品質レベルからの信号のバージョンから導出された特定の品質レベルのバージョンを補正することを含み得る。異なるデータ階層は異なるコード化フォーマットを使用してコード化され得、異なる品質レベルは異なるサンプリングレートを有し得る(例えば、画像又はビデオ信号の場合、解像度)。後続の階層は、信号の同じ信号解像度(すなわち、サンプリングレート)を指し得、又は漸進的に高くなる信号解像度を指し得る。
好ましい実施例では、マルチレイヤコード化方式は、ビデオコード化標準VC-6を含み得る:PCT/GB2018/053552(及び関連付けられた公開された標準の文書)において説明されているSMPTE VC-6 ST-2117であり、その全てが参照により本明細書に援用される。特定の実施例はまた、LCEVC等の他のマルチレイヤコード化方式を使用し得る:PCT/GB2020/050695(及び関連付けられた公開された標準の文書)において説明されているMPEG-5 Part2 LCEVC(「低複雑性強化ビデオコード化」)であり、これらの文書も、参照により本明細書に援用される。しかしながら、本明細書に例示される概念をこれらの具体的なマルチレイヤコード化方式に限定する必要はない。他の実施例では、マルチレイヤコード化方式は、(スケーラブルな)ウェーブレットベースのコード化方式を含み得る。
特定の実施例では、ビデオカメラ及び/又はマイクロフォンなどのネットワークのエッジの信号源は、フル品質の信号のセットを出力し、次いで、これらの信号は、VC-6などのマルチレイヤコード化フォーマットを使用してエッジで符号化される。マルチレイヤコード化階層又はピラミッドの下位レベルに関連する符号化されたデータストリームは、分析のために少なくとも1つのネットワークを介してリモートコンピューティングデバイスに送信される。このリモートコンピューティングデバイスは、いわゆる「クラウド」サーバ又はデータ処理センタを含み得る。マルチレイヤコード化階層又はピラミッドの下位レベルの符号化されたデータは、復号化され、削除コンピューティングデバイスに供給され、次いで、削除コンピューティングデバイスは、下位レベルの符号化されたデータから取得された再構成に対して第1のレベルの分析を実行することができる。例えば、これらの再構成は、低解像度の「サムネイル」フレーム又はフレームのセットであり得る。次いで、リモートコンピューティングデバイスは、第1のレベルの分析の出力を基にして、信号の更なる分析を行い得る。このことは、マルチレイヤコード化階層又はピラミッドにおける高位レベルを表す更なる符号化されたデータを要求することを含み得る。ネットワークのエッジからこの符号化されたデータを受信すると、リモートコンピューティングデバイスは、更なる符号化されたデータを復号化し、かつより高い品質レベルでの再構成(例えば、より高い空間解像度での再構成)に基づいて信号の更なる分析を実行することが可能であり得る。このアプローチは、各カメラが異なる姿勢、角度、及び/又は位置からアクションをキャプチャしているスポーツイベント又は音楽イベントを記録するビデオカメラの大規模なセットなどの、複数の信号源にわたって適用され得る。したがって、本方法を使用して、ネットワークを介して容易に送信され得る複数のより小さい符号化されたデータストリーム(例えば、全てのキャプチャデバイスからの)に対して迅速な分析を実行し、次いで、関心のあるフレーム及び/又はキャプチャデバイスの追加の符号化されたデータのサブセットのみを要求し得る。例えば、サッカーボールの位置は、複数のカメラからの再構成のセットの分析に基づいて判定され得、次いで、分析から、サッカーボールを包含するとみなされるカメラに対して、更なるデータが要求され得る。このようにして、人工知能ミキシングアプリケーションが提供され得る。それゆえ、効率的に伝達され、かつ再構成された信号データに対して、高度かつ複雑なデータセンタ処理がリモートで実行され得る。
例えば、畳み込みニューラルネットワークは、一般的に、リモートコンピューティングデバイスでのビデオ分析機能の一部として適用される(例えば、いわゆる「クラウドベースの物体認識」)。マルチレイヤコード化フォーマットは、このビデオ分析を何倍にも加速することを可能にし、エッジビデオのクラウドベースの分析を可能にする。VC-6などのマルチレイヤコード化フォーマットは、画像認識アルゴリズムに対してネイティブに「フレンドリ」であり、処理を5~10倍高速化することができる。
本明細書において説明される特定の実施例は、毎秒60フレーム(UHDp60)で超高精細(UHD)のデータをストリーミングする20台のビデオカメラなどの、複数のカメラを有することの問題に対処するが、そのストリーミングされるデータに対してビデオ分析を実行することを必要とし得る。例えば、サッカースタジアム又はコンサート会場などのキャプチャの地点と、物体を認識するための畳み込みニューラルネットワークアーキテクチャを実装したデータセンタなどの、高度なビデオ分析のためのサイトと、の間に、利用可能な帯域幅がないことが多い。データセンタをフットボールスタジアムに持ち込むことも可能ではなく、程々の処理のインフラストラクチャでさえ、時折使用するにはコストがかかり、かつ/又は大量の固定処理ハードウェアの移動を必要とする。しかしながら、本実施例を使用して、マルチレイヤフォーマットの符号化がオンサイトで実行され得、分析のためにレイヤのサブセットのみが送信される(典型的には、複数のソースデバイスの下位レイヤ又は最下位レイヤ)。下位レイヤ又は最下位レイヤが送信される場合、この位置の符号化されたストリームは、複数の低ビットレートの符号化されたストリーム、例えば、既存の帯域幅を使用して容易に収まり得る低解像度ストリームを含み得る。次いで、高位レイヤの符号化データの種々のセットが、更なる処理のために、ネットワークを介してオンデマンドでデータセンタに送信され得る。
本明細書で説明される例は、伝送制約及び処理能力制約の両方に対処するための比較アプローチに勝る利点を有する。例えば、1つの比較アプローチは、分析の前にビデオフレームをデシメートすることである。しかしながら、これには、有用なフレームを、これらのフレームのコンテンツを分析する機会を得る前に潜在的にプルーニングするという欠点がある。デシメーションに起因する分析データの連続するセット間の大きな離散的な変化はまた、ニューラルネットワークアーキテクチャを「混乱」させ、かつ/又は種々のサンプリングレートに対してそれらの柔軟性を失わせ得る(例えば、1/10のプルーニングで訓練されたシステムは、1/5のプルーニングに適応できない場合がある)。対照的に、本実施例は、下位レイヤ信号が小さく、かつ制約された帯域幅接続を介して送信され得るため、より高い周波数の信号ストリームがリモート位置によって受信されることを可能にする(例えば、定時間刻みの強いデシメーションの必要性を回避する)。それゆえ、リモート処理位置は、フレームのほぼ連続するセットを受信し得る。別の比較アプローチは、分析された各フレームを、例えば、リモート処理位置への伝送に先立って、より低い解像度にダウンスケールすることである。しかしながら、このアプローチは、リモート位置での処理が、より低解像度の再構成に限定されることを意味し、例えば、分類正解率を改善するであろう詳細を潜在的に失うことを意味する。このことは、最終的に、システムの全体的な分類性能を制限する可能性がある。本実施例では、第1の符号化されたデータストリームが、初期分析のために低解像度で提供されるが、更なる詳細が、例えば、完全無損失符号化に使用され得るマルチレイヤ符号化への適応なしに、効率的に要求及び送信され得る。例えば、更なる符号化されたデータが、リモート処理位置によって要求され得、リモート処理位置での既存の低解像度再構成を強化する、より高い解像度の残留データを含み得る。複数のレイヤを有するソース信号を符号化する実装態様では、正解率を選択的に改善するために、異なるレイヤが要求及び送信され、これにより、AI処理アルゴリズムが、エッジデータ信号を好適に分析するために、最小量のデータを「オンデマンド」で要求することが効果的に可能になる。
序論
更なる背景として、本明細書において説明される実施例は、信号処理に関連する。信号は、サンプルのシーケンス(すなわち、二次元画像、ビデオフレーム、ビデオフィールド、サウンドフレームなど)とみなされ得る。説明において、「画像」、「ピクチャ」、又は「平面」(「超平面」の最も広い意味、すなわち、任意の数の次元及び所与のサンプリンググリッドを有する要素の配列が意図される)という用語が、サンプルのシーケンスに沿った信号のサンプルのデジタルレンディションを識別するためにしばしば使用され、各平面は、平面の次元(例えば、X及びY)の各々について所与の解像度を有し、1つ以上の「値」又は「設定」(例えば、非限定的な実施例として、好適な色空間における色設定、濃度レベルを示す設定、温度レベルを示す設定、オーディオピッチを示す設定、振幅を示す設定、アルファチャンネル透明度レベルを示す設定、など)によって特徴付けられる平面要素(又は「要素」、又は「画像素子」、又は、「画素」と呼ばれることが多い二次元画像の、「ボクセル」と呼ばれることが多いボリュメトリック画像の表示要素など)のセットを含む。各平面要素は、画像のサンプリンググリッドにおける当該要素の整数位置を示す好適な座標のセットによって識別される。信号の次元は、空間次元のみを含むこともできる(例えば、画像の場合)か、又は時間次元を含むこともできる(例えば、ビデオ信号などの、経時的に発展する信号の場合)。
実施例として、信号は、画像、音声信号、マルチチャネル音声信号、テレメトリ信号、ビデオ信号、3DoF/6DoFビデオ信号、ボリュメトリック信号(例えば、医療イメージング、科学的イメージング、ホログラフィックイメージングなど)、ボリュメトリックビデオ信号、又は更には4次元を超える信号であり得る。
簡潔にするために、本明細書において説明される実施例は、例えばビデオ信号などの、設定の2D平面(例えば、好適な色空間内の2D画像)として表示される信号を指すことが多い。「フレーム」又は「フィールド」という用語は、ビデオ信号の定時間刻みのサンプルを示すために、「画像」という用語と互換的に使用され、ビデオ信号について例示される任意の概念及び方法は、フィールドからなるビデオ信号(インターレース式ビデオ信号)にも容易に適用可能であり得、逆も同様である。本明細書に例示される実施形態の焦点は、画像及びビデオ信号に当てられているが、当業者は、同じ概念及び方法を、任意の他のタイプの多次元信号(例えば、音声信号、ボリュメトリック信号、立体ビデオ信号、3DoF/6DoFビデオ信号、プレノプティック信号、点群など)にも適用可能であることを容易に理解することができる。
本明細書において説明される特定のティアベースの階層フォーマットは、オリジナルに最良に相似する(又は、ロスなく再構成される)所与の品質レベルの信号の再構成を生成するために、(例えば、「残差データ」又は単に「残差」の形態の)可変補正量を使用する。補正量は、所与の品質レベルの予測レンディションの忠実度に基づき得る。
ティアベースの階層コード化方式又はフォーマットの例
好ましい実施例では、エンコーダ又はデコーダは、ティアベースの階層コード化方式又はフォーマットの一部である。ティアベースの階層コード化方式の例は、LCEVC:MPEG-5 Part2 LCEVC(「Low Complexity Enhancement Video Coding」)及びVC-6:SMPTE VC-6ST-2117を含み、前者はPCT/GB2020/050695(及び関連する規格文書)に説明されており、後者はPCT/GB2018/053552(及び関連する規格文書)に説明されており、これらは全て参照により本明細書に援用される。しかしながら、本明細書に例示される概念をこれらの具体的な階層コード化方式に限定する必要はない。本明細書において説明される特定の実施例は、VC-6符号化を用いて最適に動作する。
図1~図7は、種々の例示的なティアベースの階層コード化フォーマットの概要を提供する。これらは、図7に続く図に記載される更なる信号処理動作を追加するためのコンテキストとして提供される。図1~図5は、SMPTE VC-6 ST-2117の実装態様と類似する実施例を提供するのに対して、図6及び図7は、MPEG-5 Part2 LCEVCの実装態様と類似する実施例を提供する。どちらの例のセットも、共通の基礎動作(例えば、ダウンサンプリング、アップサンプリング、及び残差生成)を利用し、モジュール実装技術を共有し得ることが分かり得る。
図1は、階層コード化方式をごく一般的に例示している。符号化されるデータ101は、符号化されたデータ103を出力する階層的エンコーダ102によって取り出される。その後、符号化されたデータ103は、階層デコーダ104によって受信され、階層デコーダ104は、データを復号化し、復号化されたデータ105を出力する。
典型的には、本明細書の実施例で使用される階層コード化方式は、基本レベル又はコアレベルを作成し、これは、より低い品質レベルでの元のデータの表現であり、基本レベルデータの復号化されたバージョンを使用してより高い品質レベルで元のデータを再現するために使用され得る1つ以上の残差レベルである。概して、本明細書で使用される「残差」という用語は、基準配列又は基準フレームの値と、実際のデータ配列又はデータフレームとの間の差異を指す。配列は、コード化単位を表す一次元又は二次元配列であり得る。例えば、コード化ユニットは、入力ビデオフレームの同様のサイズの領域に対応する2×2又は4×4残差値セットであり得る。
この一般化された実施例は、入力信号の性質に関して不可知論的であることに留意されたい。本明細書で使用される場合、「残差データ」への言及は、残差のセット、例えば、残差自体のセット、又は残差のセットに対して実行されるデータ処理演算のセットの出力などから導出されデータを指す。本明細書全体を通して、一般に、残差のセットは、複数の残差又は残差要素を含み、各残差又は残差要素は、信号要素、すなわち、信号又は元のデータの要素に対応する。
特定の実施例では、データは、画像又はビデオであり得る。これらの実施例では、残差のセットは、ビデオの画像又はフレームに対応し、各残差は、信号の画素と関連付けられ、画素は、信号要素である。
本明細書において説明される方法は、ビデオ信号の種々の色成分を反映する、いわゆるデータの平面に適用され得る。例えば、方法は、異なるカラーチャネルを反映するYUVデータ又はRGBデータの種々の平面に適用され得る。異なるカラーチャネルは、並行して処理され得る。各ストリームの成分は、任意の論理的順序で照合され得る。
ここで、本発明の概念が展開され得る階層コード化方式について説明する。この方式は、図2~図5に概念的に例示されており、上記のVC-6に概ね対応する。そのような符号化技術では、残差データは、漸進的により高いレベルの品質において使用される。この提案された技術において、コアレイヤは、第1の解像度で画像を表し、ティア化階層における後続のレイヤは、復号化側がより高い解像度で画像を再構成するために必要な残差データ又は調整レイヤである。各レイヤ又はレベルは階層インデックスと称され得、残差データは、より低い階層インデックスに存在する低品質情報を補正するために必要なデータである。この階層手法における各レイヤ又は階層インデックス、特に各残差レイヤは、多くのゼロ値要素を有する比較的疎なデータセットであることが多い。階層インデックスに言及する場合、全ての階層又はそのレベルの全ての成分セットをまとめて指しており、例えば、その品質レベルで行われる変換ステップから生じる全てのサブセットをまとめて指す。
この特定の階層的な様式では、説明されているデータ構造は、前の又は進行中の品質レベルに対するあらゆる要件又は依存関係を取り除く。品質レベルは別々に符号化及び復号化され得、また他の層を参照することなく符号化及び復号化され得る。したがって、より高い品質レベルを復号化するために最も低い品質レベルを復号化する必要がある多くの既知の他の階層符号化方式とは対照的に、説明される方法論はいかなる他のレイヤの復号化も必要としない。それにもかかわらず、以下に説明する情報交換の原理は、他の階層コード化方式にも適用可能であり得る。
図2に示されるように、符号化されたデータは、本明細書では概して階層インデックスと称されるレイヤ又はレベルのセットを表す。基本レベル又はコアレベルは、最も低い品質レベル又は解像度においてではあるが、元のデータフレーム210を表し、後続の残差データ階層は、コア階層インデックスのデータと結合して、漸進的に高くなる解像度で元の画像を再現することができる。
コア階層インデックスを作成するには、その階層コード化演算で使用されるレベルの数又は階層インデックスの数に対応する数のダウンサンプリング演算201を使用して、入力データフレーム210がダウンサンプリングされ得る。階層構造内のレベルの数よりも1つ少ない数のダウンサンプリング演算201が必要とされる。本明細書に例示される全ての例において、4つの出力符号化データのレベル又は階層インデックス、及びこれに対応して3つのダウンサンプリング演算が存在するが、当然ながら、これらは例示のためのものにすぎないことが理解されるであろう。ここで、nはレベルの数を示し、ダウンサンプラの数はn-1である。コアレベルR1-nは第3のダウンサンプリング演算の出力である。上記に示されるように、コアレベルR1-nは、最も低い品質レベルでの入力データフレームの表現に対応する。
ダウンサンプリング演算201を区別するために、各ダウンサンプリング演算は、動作が入力データ210に対して行われる順番で、又は動作の出力が表すデータによって呼称される。例えば、例における第3のダウンサンプリング演算2011-nは、その出力がコア階層インデックス又は階層1-nを生成するので(すなわち、このレベルの全ての階層のインデックスが1-n)、コアダウンサンプラとも称され得る。したがって、この例では、第1のダウンサンプリング演算201-1はR-1ダウンサンプラに対応し、第2のダウンサンプリング演算201-2はR-2ダウンサンプラに対応し、第3のダウンサンプリング演算2011-nはコア又はR-3ダウンサンプラに対応する。
図2に示されるように、コア品質レベルR1-nを表すデータに対して、本明細書ではコアアップサンプラと称されるアップサンプリング動作2021-nが実行される。第2のダウンサンプリング演算201-2の出力(R-2ダウンサンプラの出力、すなわち、コアダウンサンプラへの入力)とコアアップサンプラ2021-nの出力との間の差203-2が第1の残差データR-2として出力される。したがって、この第1の残差データR-2は、コアレベルR-3と、そのレベルを作成するために使用された信号との間の誤差を表す。この実施例では、信号が2つのダウンサンプリング演算を施されているため、第1の残差データR-2は、コア品質レベルよりも高いレベルであるが、入力データフレーム210よりも低いレベルで元の信号を再現するのに使用することができる調整レイヤである。
より高い品質レベルを表す残差データを作成する方法のバリエーションが図2及び図3に概念的に例示されている。
図2では、第2のダウンサンプリング演算201-2(又はR-2ダウンサンプラ、すなわち、第1の残差データR-2を作成するために使用される信号)の出力がアップサンプリング202-2され、第2のダウンサンプリング演算201-2(又はR-2ダウンサンプラ、すなわち、R-1ダウンサンプラの出力)への入力との間の差203-1が、第1の残差データR-2の作成とほぼ同じ方法で計算される。したがって、この差は、第2の残差データR-1であり、より低いレイヤからのデータを使用してより高い品質レベルで元の信号を再現するために使用することができる調整レイヤを表す。
しかしながら、図3のバリエーションでは、第2のダウンサンプリング演算201-2(又はR-2ダウンサンプラ)の出力を第1の残差データR-2と結合するか、又は足し合わせる304-2ことでコアアップサンプラ2021-nの出力が再現される。このバリエーションでは、ダウンサンプリングされたデータではなく、この再現されたデータがアップサンプリング202-2される。アップサンプリングされたデータは、同様に、第2のダウンサンプリング演算(又はR-2ダウンサンプラ、すなわち、R-1ダウンサンプラの出力)への入力と比較203-1され、第2の残差データR-1を作成する。
図2及び図3の実装間の違いの結果、2つの実装間で残差データがわずかに異なる。図2は、並列化のより大きなポテンシャルからの利益を享受する。
第3の残差R0を作成するためにプロセス又はサイクルが繰り返される。図2及び図3の例では、出力残差データR0(すなわち、第3の残差データ)は、最も高いレベルに対応し、入力データフレームを再現するためにデコーダにおいて使用される。このレベルでは、差分演算は、第1のダウンサンプリング演算への入力と同じ入力データフレームに基づくものである。
図4は、データの各レベル又は階層インデックスを符号化して、階層インデックスを有するデータの符号化された階層のセットを生成するための符号化プロセス401の例を例示する。この符号化プロセスは、各レベルを符号化するための好適な符号化プロセスの例にすぎないが、任意の好適な符号化プロセスが使用され得ることが理解されよう。プロセスへの入力は、図2又は図3から出力される残差データのそれぞれのレベルであり、出力は、符号化された残差データの階層のセットであり、符号化された残差データの階層は合わせて、符号化されたデータを階層的に表す。
第1のステップでは、変換402が実行される。変換は、WO2013/171173において説明されているような方向性分解変換、又はウェーブレット若しくは離散コサイン変換であり得る。方向性分解変換を使用する場合、4つの成分のセット(変換された係数とも称される)が出力され得る。階層インデックスに言及するとき、それは、全ての方向(A、H、V、D)、すなわち、4つの階層にまとめて言及している。次いで、エントロピー符号化の前に、成分のセットが量子化される403。この例では、エントロピー符号化動作404はスパース化ステップ405に結合され、スパース化ステップ405は、残差データのスパース性を利用して全体的なデータサイズを減少させ、データ要素を順序付けされた四分木にマッピングすることを伴う。エントロピーコード化及びスパース化のかかる結合は、WO2019/111004で更に説明されているが、かかるプロセスの正確な詳細は本発明の理解には関連しない。各残差配列を階層とみなすことができる。
以上の処理は、SMPTE ST 2117,VC-6 Multiplanar Picture Formatに従う再構成のためのデータの符号化に好適な符号化プロセスに対応する。VC-6は、それぞれ独立したサイズの任意の整数要素グリッドの順序付けされたセットを圧縮することができる、柔軟な多重解像度Intra-Onlyビットストリームフォーマットであるが、ピクチャ圧縮のためにも設計されている。圧縮にデータ非依存技術を採用しており、低ビット深度ピクチャ又は高ビット深度ピクチャを圧縮することができる。ビットストリームのヘッダは、ピクチャに関する様々なメタデータを含むことができる。
各階層又は階層インデックスは、別個のエンコーダ又は符号化動作を使用して実装され得ることが理解されよう。同様に、符号化モジュールは、残差データを生成し、その後、残差を符号化するために、ダウンサンプリングステップ及び比較ステップに分割され得、又は代替的に、階層の各ステップが結合された符号化モジュールとして実装され得る。したがって、プロセスは、例えば、各階層インデックスのために1つずつの4つのエンコーダ、1つのエンコーダ及び並列若しくは直列に動作する複数の符号化モジュール、又は複数の異なるデータセットに対して繰り返し動作する1つのエンコーダを使用して実装され得る。
次に、上記の例示的なプロセスを使用して符号化された元のデータフレームを再構成する実施例を示す。この再構成プロセスはピラミッド型再構成とも称され得る。有利なことに、この方法は、例えば、異なる画像サイズ又は解像度レベルに対応する異なる成分セットを個別に復号化し、1つの復号化された成分セットからの画像詳細を、より低い解像度の成分セットからのアップスケールされた復号化されたデータと結合することによって、データストリームによって受信され得る、受信されたデータセットに符号化された画像を再構成するための効率的な技術を提供する。したがって、2つ以上の成分セットに対してこのプロセスを実行することによって、最も高い解像度の成分セットの全画像詳細又は完全な画像詳細を受信することを必要とせずに、漸進的に高くなる解像度又は多くなる画素数に合わせて、構造におけるデジタル画像又はデジタル画像の詳細が再構成され得る。むしろ、この方法は、より低い解像度の成分セットから画像を段階的に再構成しながら、徐々に高くなる解像度の詳細を漸進的に追加することを容易にする。
更に、各成分セットの復号化は、受信される成分セットの並列処理を別々に容易にし、したがって、複数のプロセスが利用可能である実装での再構成速度及び効率を向上させる。
各解像度レベルは、品質レベル又は階層インデックスに対応している。これは総称であり、全ての新しい入力又は受信された成分セットを記述する平面(この例では、整数値要素のグリッドの表現)、及びインデックスmのサイクルのための出力再構成画像に関連付けられている。例えば、階層インデックスゼロの再構成画像は、ピラミッド型再構成の最終サイクルの出力である。
ピラミッド型再構成は、初期階層インデックスから開始し、新しい残差によって、階層インデックスゼロの最大品質(品質ゼロ)まで、より高い階層インデックスを導出するためにサイクルを使用して逆ピラミッドを再構成するプロセスであり得る。サイクルは、そのようなピラミッド再構成におけるステップと考えることができ、ステップはインデックスmによって識別される。ステップは、典型的には、存在し得る前のステップから出力されたデータをアップサンプリングすること、例えば、復号化された第1の成分セットをアップスケーリングすることを含み、存在し得る次のステップでアップサンプリングされる出力データを取得するために、更なる入力として新しい残差データを使用する。第1及び第2の成分セットのみが受信される場合、階層インデックスの数は2であり、存在し得る次のステップは存在しない。しかしながら、成分セット又は階層インデックスの数が3以上である例では、出力データは後続するステップにおいて漸進的にアップサンプリングされ得る。
第1の成分セットは、典型的には、階層インデックス1-Nによって示され得る初期階層インデックスに対応し、ここで、Nは平面内の階層インデックスの数である。
典型的には、復号化された第1の成分セットのアップスケーリングは、初期階層インデックスの復号化手順の出力にアップサンプラを適用することを含む。実施例では、このことは、初期階層インデックス成分セットの復号化からの再構成ピクチャ出力の解像度を、2-Nに対応する第2の成分セットの解像度に適合させることを伴う。典型的には、より低い階層インデックス成分セットからのアップスケールされた出力は、より高い階層インデックス解像度の予測画像に対応する。より低い解像度の初期階層インデックス画像及びアップサンプリングプロセスに起因して、予測画像は、典型的には、平滑化された又はぼかされたピクチャに対応する。
この予測ピクチャに追加されることで、上の階層インデックスからのより高い解像度の詳細は、結合された再構成平面セットを提供する。有利にも、1つ以上のより高い階層インデックス成分セットのための受信された成分セットが残差画像データ、又はアップスケールされた予測ピクチャと、元の圧縮されていないか、若しくは符号化前の画像と、の間の画素値差を示すデータを含む場合、所与の解像度又は品質のデータセットを再構成するために必要とされる受信データの量は、他の技術を使用して同じ品質データ表現を受信するために必要とされるであろうデータの量又はレートよりも大幅に少なくなり得る。したがって、この方法に従って、より低い解像度で受信された詳細度が低い画像データと、徐々に高くなる解像度で受信される、漸進的に詳細度が高くなる画像データと、を結合することによって、データレート要件が低減される。
典型的には、符号化されたデータのセットは1つ以上の更なる成分セットを含み、1つ以上の更なる成分セットの各々は、第2の成分セットよりも高い画像解像度に対応し、また、1つ以上の更なる成分セットの各々は、漸進的に高くなる画像解像度に対応し、方法は、1つ以上の更なる成分セットの各々について、成分セットを復号化して、復号化されたセットを取得することを含み、この方法は、1つ以上の更なる成分セットの各々について、対応する画像解像度の昇順に、更なる成分セットの対応する画像解像度に等しくなるように、再構成されたセットの対応する画像解像度を増加させるために、最も高い対応する画像解像度を有する再構成されたセットをアップスケーリングすることと、再構成されたセットを更なる成分セットと互いに結合して、更なる再構成されたセットを生成することと、を更に含む。
このようにして、方法は、所与の成分セットレベル又は階層インデックスの再構成された画像出力を取得することと、その再構成されたセットをアップスケーリングすることと、アップスケーリングしたものを、上の成分セット又は階層インデックスの復号化された出力と結合して、新しいより高い解像度の再構成されたピクチャを生成することと、を伴い得る。受信されたセット内の成分セットの総数に応じて、漸進的に高くなる階層インデックスのために、これが繰り返し実行され得ることが理解されよう。
典型的な実施例では、成分セットの各々は、漸進的に高くなる画像解像度に対応し、漸進的に高くなる各画像解像度は、対応する画像内の画素の数の4倍に対応する。したがって、典型的には、所与の成分セットに対応するデータ画像サイズは、下の成分セット、すなわち、当該階層インデックスよりも1つ少ない階層インデックスを有する成分セットに対応する画像の画素のサイズ若しくは数の4倍、又は高さの2倍及び幅の2倍である。例えば、各対応する画像が、下の画像サイズに対して2倍である受信された成分セットのセットは、より単純なアップスケーリング演算を容易にし得る。
例示される例では、更なる成分セットの数は、2である。したがって、受信されたセット内の成分セットの総数は4である。これは、初期の階層インデックスが階層-3であることに対応する。
第1の成分セットは、画像データに対応し得、第2の成分セット及び任意の更なる成分セットは、残差画像データに対応する。上述したように、方法は、最も低い階層インデックス、すなわち第1の成分セットが、画像の低い解像度のバージョン、又はダウンサンプリングされたバージョンが送信されることを含む場合に、所与の画像サイズに対して特に有利なデータレート要件の低減を提供する。このようにして、低い解像度の画像から出発する再構成の各サイクルを用いて、その画像がアップスケールされて、平滑化されてはいるが高解像度のバージョンが生成され、次いで、そのアップスケールされた予測ピクチャと、その解像度で送信される実際の画像と、の間の差を加算することによって、その画像が改善され、この加法的改善は、サイクルごとに繰り返され得る。したがって、元の画像を最も低い階層インデックスにダウンサンプリングする際に失われ得る情報を再導入するために、初期階層インデックスの各成分セットよりも上の各成分セットは、残差データを含むだけでよい。
この方法は、圧縮されたデータを含むセットを受信したとき、例えば、分解、量子化、エントロピー符号化、及びスパース化によって、残差データであり得る画像データを取得する方法を提供する。スパース化ステップは、元のデータ又は送信前のデータが、典型的には残差画像データに対応し得る疎であったセットに関して使用される場合、特に有利である。残差は、典型的には同じ位置の、第1の画像の要素と第2の画像の要素との間の差であり得る。そのような残差画像データは、典型的には、高いスパース性を有し得る。このことを、詳細が最小であるか、無視できるか、又は存在しない領域のうち、詳細の領域が疎に分布している画像に対応すると考えることができる。そのような疎なデータは、データが、少なくとも二次元構造(例えば、グリッド)に編成され、そのように編成されるデータの大部分がゼロ(論理的又は数値的に)であるか、又は特定の閾値未満であると考えられるデータの配列として記述され得る。残差データは、一例にすぎない。更に、メタデータは、疎であり得、かつこのプロセスによって大幅にサイズが縮小され得る。スパース化されたデータを伝送することは、そのような疎な領域を伝送することを省き、代わりに、デコーダにおいて、受信されたバイトセット内の適切な位置にそれらを再導入することによって、要求されるデータレートの大幅な低減を達成することを可能にする。
典型的には、エントロピー復号化、逆量子化、及び方向性合成変換ステップは、受信される符号化されたデータセットを伝送するエンコーダ又はノードによって定義されたパラメータに従って実行される。各階層インデックス又は成分セットについて、ステップは、各レベルについてのセットをデータ効率の良い様式で伝送することを可能にすると同時に、上記で開示された技術に従って異なる階層インデックスと結合され得るセットに到達するように画像データを復号化する役割を果たす。
上記で開示された方法に従って、符号化されたデータのセットを再構成する方法も提供され得、第1及び第2の成分セットの各々の復号化が上記で開示された方法に従って実行される。したがって、本開示の有利な復号化方法は、受信された画像データのセット内の各成分セット又は階層インデックスに対して利用され、それに応じて再構成され得る。
次に、図5を参照して復号化例を説明する。符号化されたデータのセット501が受信され、セットは4つの階層インデックスを含み、各階層インデックスが、最も高い解像度又は品質レベルである階層0から、初期階層である階層-3までの4つの階層を含む。階層-3成分セット内で運ばれる画像データは、画像データに対応し、他の成分セットは、その送信された画像データの残差データを含む。レベルの各々は、残差とみなすことができるデータを出力し得るが、初期階層レベル、すなわち階層-3である残差は、実際の再構成された画像に事実上対応する。ステージ503では、各成分セットが並列処理され、その符号化されたセットが復号化される。
初期階層インデックス、すなわちコア階層インデックスを参照して、各成分セット階層-3~階層0について以下の復号化ステップが実行される。
ステップ507では、成分セットの逆スパース化が行われる。逆スパース化は、他のティアベースの階層フォーマットでは実行されない任意のステップであり得る。この例では、逆スパース化により、疎な二次元配列が、各階層で受信された符号化されたバイトセットから再現される。このプロセスにより、受信されなかった、二次元配列内のいくつかの位置においてグループ化されたゼロ値(伝送データ量を減らすために伝送バイトセットからこれらが省かれたため)が再入力される。配列内の非ゼロ値は、再現された二次元配列において各々の正しい値及び位置を保持し、逆スパース化ステップは、それらの間の適切な位置又は位置群に伝送されたゼロ値を再入力する。
ステップ509において、配列内の符号化されたシンボルを画素値で置き換えるために、伝送データを伝送する前に符号化する際に使用されたパラメータに対応する構成されたパラメータを有するレンジデコーダが、各階層の逆スパース化されたセットに適用される。受信されたセット内の符号化されたシンボルは、画像の画素値分布の近似に従って、画素値に代用される。真の分布ではなく、画像内の全ての画素値にわたる各値の相対頻度の分布の近似を使用することは、セットを復号化するために必要なデータの量を減らすことを可能にし、これは、このステップを実行するためにレンジデコーダが必要とするのは分布情報だからである。本開示において説明されるように、逆スパース化のステップ及びレンジ復号化のステップは逐次的ではなく相互依存的である。これは、フロー図の矢印で形成されたループによって示されている。
ステップ511において、値の配列が逆量子化される。このプロセスは、ここでも、分解された画像を送信する前に量子化する際に使用されたパラメータに従って行われる。
逆量子化後、ステップ513において、逆量子化された配列に逆方向性分解動作を適用することを含む合成変換によって、セットが変換される。これにより、平均演算子、水平演算子、垂直演算子、及び対角演算子を含む演算子セットに従う方向性フィルタリングの逆転が起こり、結果として生じる配列は、階層-3にとっての画像データであり、階層-2~階層0にとっての残差データである。
ステージ505は、各階層成分セット501についての合成変換の出力を利用する再構成に伴ういくつかのサイクルを例示している。ステージ515は、デコーダ503から出力される初期階層用の再構成された画像データを示している。ある実施例では、再構成されたピクチャ515は、64×64の解像度を有する。516において、この再構成されたピクチャは、ピクチャの構成画素数が4倍になるようにアップサンプリングされ、それにより、128×128の解像度を有する予測ピクチャ517が生成される。ステージ520において、予測ピクチャ517が、階層-2におけるデコーダの出力から復号化された残差518に加算される。これらの2つの128×128サイズの画像を加算することにより、初期階層からの平滑化された画像詳細が、階層-2からの残差のより高い解像度の詳細によって拡張されたものを含む128×128サイズの再構成画像が生成される。この結果として生じる再構成されたピクチャ519は、必要とされる出力解像度が階層-2に対応する解像度である場合、出力又は表示され得る。本実施例では、再構成されたピクチャ519は、更なるサイクルのために使用される。ステップ512において、再構成された画像519は、256×256サイズの予測ピクチャ524を生成するように、ステップ516と同様にアップサンプリングされる。次いでステップ528において、これが、復号化された階層-1の出力526と結合され、残差526のより高い解像度の詳細によって拡張された予測519のアップスケールされたバージョンである256×256サイズの再構成されたピクチャ527が生成される。530において、このプロセスの最後の繰り返しが行われ、再構成されたピクチャ527が512×512の解像度にアップスケールされ、ステージ532において階層0の残差と結合される。これにより、512x512の再構成された画像531が取得される。
本発明の原理を利用することができる更なる階層コード化技術を図6及び図7に例示する。この技術は、異なるビデオコード化フォーマット、基本コーデック(例えば、AVC、HEVC、又は任意の他の現在若しくは将来のコーデック)をコード化データの少なくとも2つの拡張レベルと組み合わせる、柔軟性があり、適応可能であり、高効率であり、かつ計算上安価なコード化フォーマットである。
符号化方式の一般的な構造は、基本コーデックで符号化されたダウンサンプリングソース信号を使用し、基本コーデックの復号化出力に第1のレベルの補正データを追加して、補正ピクチャを生成し、次いで、補正ピクチャのアップサンプリングバージョンに更なるレベルの拡張データを追加するものである。このため、ストリームは基本ストリーム及び拡張ストリームと考えられ、これらのストリームは、符号化されたデータストリームを生成するために更に多重化されるか、又は他の方法で結合され得る。特定の場合では、基本ストリーム及び拡張ストリームは、別々に伝送され得る。本明細書において説明される符号化されたデータへの言及は、拡張ストリーム、又は基本ストリーム及び拡張ストリームの組み合わせを指し得る。基本ストリームは、ハードウェアデコーダによって復号化され得る一方、拡張ストリームは、好適な消費電力を伴うソフトウェア処理実装に好適であり得る。この汎用符号化構造は、複数の自由度を生み出し、多くの状況への柔軟性及び適応性を可能にし、コード化フォーマットを、OTT伝送、ライブストリーミング、ライブ超高精細度(UHD)ブロードキャストなど、多くのユースケースに好適なものにする。基本コーデックの復号化された出力は、視聴を意図されていないが、より低い解像度の完全に復号化されたビデオであり、出力を既存のデコーダと互換性があるものにし、適切と考えられる場合には、より低い解像度の出力としても使用可能である。
特定の例では、各拡張ストリーム又は両方の拡張ストリームは、ネットワーク抽象化レイヤユニット(NALU)のセットを使用して、1つ以上の拡張ビットストリームにカプセル化され得る。NALUは、拡張を正しい基本再構成フレームに適用するために、拡張ビットストリームをカプセル化することを意味する。NALUは、例えば、強化が適用されなければならない基本デコーダ再構成フレームビットストリームを含むNALUへの参照インデックスを含み得る。このようにして、拡張は、基本ストリームに同期され得、各ビットストリームのフレームは、復号化された出力ビデオを生成するように組み合わされる(すなわち、拡張レベルの各フレームの残存部分は、基本復号化ストリームのフレームと組み合わされる)。ピクチャのグループは、複数のNALUを表し得る。
上で説明される初期プロセスに戻ると、基本ストリームは、拡張ストリーム内の2つのレベル(又はサブレベル)の拡張とともに提供され、一般化された符号化プロセスの例が図6のブロック図に描写されている。初期解像度での入力ビデオ600は、様々な符号化ストリーム601、602、603を生成するように処理される。第1の符号化ストリーム(符号化された基本ストリーム)は、基本コーデック(例えば、AVC、HEVC、又は任意の他のコーデック)に入力ビデオのダウンサンプリングされたバージョンを供給することによって生成される。符号化基本ストリームは、基本レイヤ又は基本レベルと称されることがある。第2の符号化ストリーム(符号化されたレベル1ストリーム)は、再構成された基本コーデックビデオと、入力ビデオのダウンサンプリングされたバージョンとの間の差異を取ることによって得られた残差を処理することによって生成される。第3の符号化ストリーム(符号化されたレベル2ストリーム)は、再構成された基本符号化ビデオの補正されたバージョンのアップサンプリングされたバージョンと、入力ビデオとの間の差異を取ることによって得られた残差を処理することによって生成される。特定の場合では、図6のコンポーネントは、汎用低複雑性エンコーダを提供し得る。特定の場合では、拡張ストリームは、低複雑性エンコーダの一部を形成する符号化プロセスによって生成され得、低複雑性エンコーダは、(例えば、基本コーデックとしてパッケージ化された)独立した基本エンコーダ及びデコーダを制御するように構成され得る。他の場合では、基本エンコーダ及びデコーダは低複雑性エンコーダの一部として供給され得る。ある場合では、図6の低複雑性エンコーダは、基本コーデックの一ラッパーの形態とみなされ得、基本コーデックの機能性は、低複雑性エンコーダを実装するエンティティから隠され得る。
ダウンサンプリングコンポーネント105によって例示されるダウンサンプリング演算が、入力ビデオに適用されて、基本コーデックの基本エンコーダ613によって符号化されるダウンサンプリングされたビデオを生成し得る。ダウンサンプリングは、垂直方向及び水平方向の両方、又は代替的に水平方向のみのいずれかで行われ得る。基本エンコーダ613及び基本デコーダ614は、基本コーデックによって(例えば、共通コーデックの異なる機能として)実装され得る。基本コーデック、並びに/又は基本エンコーダ613及び基本デコーダ614のうちの1つ以上は、好適に構成された電子回路(例えば、ハードウェアエンコーダ/デコーダ)及び/又はプロセッサによって実行される好適に構成されたコンピュータプログラムコードを含み得る。
各拡張ストリーム符号化プロセスは、必ずしもアップサンプリングステップを含むとは限らない場合がある。例えば、図6では、第1の拡張ストリームは概念的に補正ストリームであり、第2の拡張ストリームは、あるレベルの拡張を提供するためにアップサンプリングされる。
拡張ストリームを生成するプロセスをより詳細に考察すると、符号化レベル1ストリームを生成するために、基本デコーダ614によって符号化基本ストリームが復号化される(すなわち、復号化基本ストリームを生成するために符号化基本ストリームに復号化動作が適用される)。復号化は、基本コーデックの復号化機能又はモードによって実行され得る。次いで、復号化された基本ストリームと、ダウンサンプリングされた入力ビデオとの間の差異が、レベル1の比較器610で作成される(すなわち、減算演算が、ダウンサンプリングされた入力ビデオ及び復号化された基本ストリームに適用されて、残差の第1のセットを生成する)。比較器610の出力は、残差の第1のセット、例えば、残差データのフレームの表面と称され得、残差値が、基本エンコーダ613、基本デコーダ614、及びダウンサンプリングブロック605の出力の解像度で、各絵素について決定される。
その後、差が第1のエンコーダ615(すなわち、レベル1エンコーダ)によって符号化され、符号化レベル1ストリーム602が生成される(すなわち、符号化動作は、第1の拡張ストリームを生成するために第1のセットの残差に適用される)。
上述したように、拡張ストリームは、第1のレベルの拡張602及び第2のレベルの拡張603を含み得る。第1のレベルの強化602は、補正されたストリーム、例えば、入力ビデオ600よりも低い解像度で基本符号化/復号化されたビデオ信号に、あるレベルの補正を提供するストリームであるとみなされ得る。第2のレベルの拡張603は、補正ストリームを元の入力ビデオ600に変換する更なるレベルの拡張とみ得なされ、例えば、補正ストリームから再構成された信号に対してあるレベルの拡張又は補正を適用する。
図6の例では、更なる残差のセットを符号化することによって第2のレベルの拡張603が作成される。更なる残差のセットは、レベル2比較器619によって生成される。レベル2比較器619は、復号化されたレベル1ストリームのアップサンプリングされたバージョン、例えば、アップサンプリングコンポーネント617の出力と、入力ビデオ600と、の間の差異を決定する。アップサンプリングコンポーネント617への入力は、第1のデコーダ(すなわち、レベル1デコーダ)を第1のエンコーダ615の出力に適用することによって生成される。これにより、復号化されたレベル1残差のセットが生成される。次いで、これらは、総和コンポーネント620において基本デコーダ614の出力と結合される。これにより、基本デコーダ614の出力に対してレベル1残差が効果的に適用される。これにより、レベル1符号化及び復号化プロセスにおけるロスをレベル2残差によって補正することが可能になる。総和コンポーネント620の出力は、デコーダにおいて、符号化基本ストリーム601及び符号化レベル1ストリーム602に対してレベル1処理を適用した結果の出力を表すシミュレーション信号とみなされ得る。
上記のように、アップサンプリングストリームは入力ビデオと比較され、更なる残差のセットが作成される(すなわち、差分演算がアップサンプリングされた再現ストリームに適用され、更なる残差のセットが生成される)。次いで、更なる残差のセットは、第2のエンコーダ621(すなわち、レベル2エンコーダ)によって符号化レベル2拡張ストリームとして符号化される(すなわち、次いで符号化動作が更なる残差のセットに適用され、符号化された更なる拡張ストリームが生成される)。
したがって、図6に例示されるように、また上記のように、符号化プロセスの出力は、基本ストリーム601及び1つ以上の拡張ストリーム602、603であり、1つ以上の拡張ストリームは、好ましくは第1のレベルの拡張及び更なるレベルの拡張を含む。3つのストリーム601、602、及び603は、制御ヘッダなどの追加情報を伴って、又は伴わずに組み合わされて、入力ビデオ600を表す、ビデオ符号化フレームワークのための組み合わされたストリームを生成し得る。図6に示される構成要素は、例えば、特定のレベルの解像度でのフレームの2×2又は4×4部分に対応する、データのブロック又は符号化単位上で動作し得ることに留意されたい。構成要素は、いかなるブロック間依存性もなく動作し、したがって、構成要素は、フレーム内の複数のブロック又はコード化単位に並列に適用され得る。これは、ブロック間に依存関係(例えば、空間的依存関係又は時間的依存関係)が存在する比較ビデオ符号化方式とは異なる。比較ビデオ符号化方式の依存関係は並列性のレベルを制限し、はるかに高い複雑性を要求する。
対応する一般化された復号化プロセスが図7のブロック図に描写されている。図7は、図6の低複雑性エンコーダに対応する低複雑性デコーダを示すと言うことができる。低複雑性デコーダは、低複雑性エンコーダによって生成された3つのストリーム601、602、603を、更なる復号化情報を含むヘッダ704とともに受信する。符号化基本ストリーム601は、低複雑性エンコーダで使用される基本コーデックに対応する基本デコーダ710によって復号化される。符号化レベル1ストリーム602は、第1のデコーダ711(すなわち、レベル1デコーダ)によって受信され、第1のデコーダ711は、第1のセットの残差を、図1の第1のエンコーダ615によって符号化されたように復号化する。第1の総和コンポーネント712において、基本デコーダ710の出力が、第1のデコーダ711から取得された復号化された残差と結合される。レベル1の再構成ビデオ信号であると言われ得る組み合わせられたビデオが、アップサンプリング構成要素713によってアップサンプリングされる。符号化レベル2ストリーム103が第2のデコーダ714(すなわち、レベル2デコーダ)によって受信される。第2のデコーダ714は、図1の第2のエンコーダ621によって符号化されたように第2のセットの残差を復号化する。図7では、第2のデコーダ714によってヘッダ704が使用されるものとして示されているが、第1のデコーダ711及び基本デコーダ710によってヘッダ704が使用され得る。第2のデコーダ714の出力は、復号化された第2の残差のセットである。これらは、第1の残差のセット及びアップサンプリングコンポーネント713への入力よりも高い解像度を有し得る。第2の総和コンポーネント715において、第2のデコーダ714からの第2のセットの残差が、アップサンプリングコンポーネント713の出力、すなわちアップサンプリングされた再構成レベル1信号と結合され、復号化されたビデオ750が再構成される。
低複雑性エンコーダのように、図7の低複雑性デコーダは、ビデオ信号の所与のフレームの異なるブロック又は符号化単位上で並行して動作し得る。また、基本デコーダ710、第1のデコーダ711、及び第2のデコーダ714のうちの2つ以上による復号化が、並列に実行され得る。これは、ブロック間の依存関係がないために可能となる。
復号化プロセスでは、デコーダは、(グローバル構成情報、ピクチャ又はフレーム構成情報、及びデータブロック構成情報を含み得る)ヘッダ704を解析し、それらのヘッダに基づいて、低複雑性デコーダを構成し得る。入力ビデオを再作成するために、低複雑性デコーダは、基本ストリーム、第1の強化ストリーム、及び更なる又は第2の強化ストリームの各々を復号化し得る。ストリームのフレームは、同期され、次いで組み合わされて、復号化されたビデオ750を導出し得る。復号化されたビデオ750は、低複雑性エンコーダ及びデコーダの構成に応じて、元の入力ビデオ100の損失あり、又は損失なしの再構成であり得る。多くの場合、復号化されたビデオ750は、損失が、復号化されたビデオ750の知覚に低減された又は最小限の影響を有する、元の入力ビデオ600の損失ありの再構成であり得る。
図6及び図7の各々において、レベル2符号化動作及びレベル1符号化動作は、変換、量子化、及びエントロピー符号化のステップを含み得る(例えば、この順番で)。これらのステップは、図4及び図5に示される動作と同様に実装され得る。符号化動作はまた、残差ランキング、重み付け、及びフィルタリングを含み得る。同様に、復号化ステージにおいて、残差はエントロピーデコーダ、逆量子化器、及び逆変換モジュールを通過し得る(例えば、この順番で)。任意の好適な符号化動作及び対応する復号動作が使用され得る。しかしながら、好ましくは、レベル2符号化ステップ及びレベル1符号化ステップは、ソフトウェアで実施され得る(例えば、符号化デバイス内の1つ以上の中央処理装置又は画像処理装置によって実行される)。
本明細書において説明される変換は、アダマールベースの変換などの方向性分解変換を使用し得る。両方とも、平坦化された残差のコード化単位(すなわち、残差の2×2又は4×4ブロック)に適用される小さいカーネル又は行列を含み得る。変換の更なる詳細は、例えば、参照により本明細書に組み込まれるPCT/EP2013/059847又はPCT/GB2017/052632に見出すことができる。エンコーダは、使用される異なる変換間で、例えば、適用されるカーネルのサイズ間で選択し得る。
変換は、残差情報を4つの表面に変換し得る。例えば、変換は、平均、垂直、水平、及び対角の成分又は変換された係数を生成し得る。特定の表面は、特定の成分の全ての値を含み得、例えば、第1の表面は全ての平均値を含み、第2の全ての垂直値を含み得るなどである。本開示において上記のように、変換によって出力されるこれらの成分は、そのような実施形態では、説明される方法に従って量子化される係数として使用され得る。量子化方式は、特定の変数が特定の離散的な大きさのみを取り得るように、残差信号を量子として作成するために有用であり得る。この例では、エントロピー符号化はランレングス符号化(RLE)を含み得、その後、符号化された出力を処理することは、ハフマンエンコーダを使用して処理される。特定の場合では、エントロピー符号化が望ましい場合、これらの方式のうちの1つのみが使用され得る。
要約すると、本明細書における方法及び装置は、異なる符号化及び/又は復号化手法に従って動作する拡張レイヤのベースラインとして動作する既存の符号化及び/又は復号化アルゴリズム(AVC/H.264、HEVC/H.265などのMPEG規格、及びVP9、AV1などの規格外のアルゴリズムなど)の上に構築される全体的な手法に基づいている。実施例の全体的なアプローチの背景にある考え方は、MPEGファミリーのアルゴリズムで使用されるようなブロックベースのアプローチの使用とは対照的に、ビデオフレームを階層的に符号化/復号化することである。フレームを階層的に符号化することは、フルフレーム、その後、間引かれたフレームなどについて、残差を生成することを含む。
上記に示されるように、ブロック間依存関係がないため、フレームの色成分のコード化単位又はブロックに対してプロセスを並列に適用することができる。色成分のセット内の各色成分の符号化も、(例えば、演算が、(フレーム数)*(色成分の数)*(フレーム当たりのコード化単位の数)に従って繰り返されるように)並行して実行され得る。また、異なる色成分は、異なる数のフレーム当たりのコード化単位を有し得、例えば、人間の視覚は、色の変化よりも明度の変化をより多く検出し得るため、輝度(例えば、Y)成分は、色度(例えば、U又はV)成分のセットよりも高い解像度で処理され得ることに留意されたい。
したがって、上で例示及び説明されるように、復号化プロセスの出力は、(任意選択的な)基本再構成、及びより高いレベルの元の信号の再構成である。この実施例は、異なるフレーム解像度で符号化及び復号化されたビデオを作成するのに特に適している。例えば、入力信号30は、1920×1080の解像度のフレームを含むHDビデオ信号であり得る。場合によっては、基本再構成及びレベル2再構成の両方が、ディスプレイデバイスによって使用され得る。例えば、ネットワークトラフィックの場合、レベル2ストリームは、レベル1ストリーム及び基本ストリームよりも大きな程度で中断され得る(レベル2ストリームは、ダウンサンプリングが各方向の次元数を2ずつ減少させるデータを最大4倍の量を含み得るため)。この場合、トラフィックが発生すると、ディスプレイデバイスは、レベル2ストリームが中断されている間(例えば、レベル2再構成が利用できない間)、基本再構成を表示することに戻り、ネットワーク状態が改善されたときに、レベル2再構成を表示することに戻り得る。復号化デバイスがリソースの制約を被っているとき、同様のアプローチが適用され得、例えば、システムの更新を実行するセットトップボックスは、基本再構成を出力するためのオペレーション基本デコーダ220を有し得るが、レベル2再構成を計算するための処理能力を有さないことがある。
また、符号化構成は、ビデオ配信者が異種デバイスのセットにビデオを配信することを可能にし、基本デコーダ720のみを有するデバイスは、基本再構成を視聴する一方、強化レベルを有するデバイスは、より高品質のレベル2再構成を視聴し得る。比較事例では、デバイスの両方のセットにサービスするために、別々の解像度の2つのフルビデオストリームが必要であった。レベル2及びレベル1の強化ストリームが、残差データを符号化するので、レベル2及びレベル1の強化ストリームは、より効率的に符号化され得、例えば、残差データの分布は、典型的には、それらの質量の大部分を0の周りに有し(すなわち、差異がない)、典型的には、小さな範囲の約0の値を取る。これは、特に、量子化後の場合であり得る。対照的に、異なる解像度のフルビデオストリームは、デコーダへの送信のためにより高いビットレートを必要とする、非ゼロの平均又は中央値を有する異なる分布を有するであろう。本明細書において説明される例では、残差は符号化パイプラインによって符号化される。これは、変換、量子化、及びエントロピー符号化動作を含み得る。また、残差ランキング、重み付け、及びフィルタリングが含まれ得る。その後、残差は、例えば、ハイブリッドストリームとして基本ストリームと結合され得る(又は別々に伝送され得る)L-1及びL-2拡張ストリームとして、デコーダに伝送される。ある場合では、基本ストリーム及び2つの拡張ストリームを含むハイブリッドデータストリームに対してあるビットレートが設定され、その後、設定されたビットレートを満たすように、処理されるデータに基づいて、異なる適応型ビットレートが個別ストリームに適用される(例えば、画像データが変わると変化し得る、最も影響力のある個別ストリームによって制約されたデータが使用され得るように、場合によってはフレームごとに、複数の異なる個別ストリームに対してビットレートを適応的に割り当てることによって、低アーティファクトレベルを有すると知覚される高品質のビデオが構築され得る)。
本明細書に記載されるような残差のセットは、スパースデータとみなされ得、例えば、多くの場合、所与の画素又は領域で差異がなく、結果得られる残差値は、ゼロである。残差の分布を見ると、確率質量の多くは、ゼロ付近の小さな残差値に割り当てられ、例えば、特定のビデオの場合は-2、-1、0、1、2などの値が最も頻繁に発生する。特定の場合では、残差値の分布は0に関して対称又はほぼ対称である。特定の試験ビデオの場合には、残差値の分布は、0に対して(例えば、対称的又はほぼ対称的に)対数分布又は指数分布に類似した形状を採ることが見出された。残差値の正確な分布は、入力ビデオストリームの内容に依存し得る。
残差は、それ自体が二次元画像として、例えば、差のデルタ画像として扱われ得る。このように見れば、データのスパース性は、残差画像で可視である「ドット」、小さい「ライン」、「エッジ」、「角」などの特徴を物語るとみなされ得る。これらの特徴は、通常、完全には相関しないことが見出されている(例えば、空間及び/又は時間において)。それらは、それらから導出される画像データの特性(例えば、元のビデオ信号の画素特性)とは異なる特性を有する。
残差の特性は、それらが導出される画像データの特性とは異なるため、従来のムービングピクチャエクスパーツグループ(MPEG)の符号化及び復号化標準に見出されるものなどの標準的な符号化アプローチを適用することは、一般的に不可能である。例えば、多くの比較方式は、大きな変換(例えば、通常のビデオフレーム内の画素の大きな領域の変換)を使用する。例えば上記のような、残差の特性に起因して、これらの比較的大きな変換を残差画像に使用することは、非常に非効率的であろう。例えば、通常の画像の領域のために設計された大きなブロックを使用して、残差画像内の小さなドットを符号化することは、非常に困難であろう。
本明細書において説明される特定の実施例は、代わりに、小さく単純な変換カーネル(例えば、本明細書で提示されるような、2×2又は4×4のカーネル、方向分解(Directional Decomposition)及び方向分解二乗(Directional Decomposition Squared)を使用することによって、これらの問題に対処する。本明細書において説明される変換は、アダマール行列(例えば、平坦化された2×2コード化ブロックのための4×4行列、又は平坦化された4×4コード化ブロックのための16×16行列)を使用して適用され得る。これは、比較ビデオ符号化アプローチとは異なる方向に動く。これらの新しいアプローチを残差のブロックに適用すると、圧縮効率が発生する。例えば、特定の変換は、効率的に圧縮され得る(例えば、空間内の)無相関の変換された係数を生成する。変換された係数間の相関は、例えば、残差画像内の線に対して利用され得るが、レガシーデバイス及び低リソースデバイスに実装することが困難である符号化複雑性をもたらし得、補正を必要とする他の複雑なアーチファクトを生成することが多い。特定の残差値を0に設定する(すなわち、これらを処理のために転送しない)ことによって残差を事前処理することは、ビットレート及びストリーム帯域幅、並びにリソースの使用を管理するための制御可能で柔軟な方式を提供し得る。
マルチレイヤ信号のリモート分析に関連する実施例
図8は、種々の品質レベルでの再構成のセットを示す。この実施例では、異なる品質レベルは、異なる空間解像度に対応する。図8には、4つのレイヤが示されている:標準以下の定義又はサムネイル解像度レイヤ801、小解像度レイヤ802、中解像度レイヤ803、及び大解像度レイヤ804。大解像度レイヤ804の再構成は、最高解像度(例えば、UHD)及び最高フレームレート(毎秒60フレーム)でのデータのフルフレームを含み得る。中解像度レイヤ803の再構成は、高解像度(HD)などのより低い解像度であり得る。また、これらの再構成は、毎秒30フレームなどのより低いフレームレートを有してもよい。小レイヤ802での再構成は、標準定義(SD)解像度であり、中レイヤ803と同じ又はこれよりも低いフレームレートであり得る。最下位レイヤ801の再構成は、サブHDレベル、例えば、nHD又はVGAスタイルの解像度であり得、同じく、小レイヤ802と同じ又はこれよりも低いフレームレートであり得る。これらの解像度は、実施例としてのみ提供され、異なる実装態様は、要件に応じて異なる解像度ティアを有し得ることに留意されたい。
図8の様々なティア又はレイヤは、上記の図1~図5を参照して説明されるように、信号を符号化及び復号化することによって生成され得る。リモートコンピューティングデバイスで、サムネイルレイヤ801又はサムネイル及び小レイヤ801、802に関連する符号化されたデータのみが、最初にカメラのセットから受信され、復号化され、使用されて、図の点線805よりも下の表現を再構成し得る。リモートコンピューティングデバイスは、1つ以上の最下位レイヤに関連する再構成に対して1つ以上のビデオ分析機能を実行し得る。1つ以上のビデオ分析機能は、図8に示されるように、物体検出及びローカライゼーションを含み得る。
実施例では、リモートコンピューティングデバイスで実行される1つ以上のビデオ分析機能が、特定の信号ソースが関心のものであることを示す場合、例えば、物体が初期再構成中に検出及び/又はローカライズされる場合、要求が、追加のティア又はレイヤに関連付けられた符号化されたデータを送信するように信号が符号化されるネットワークのエッジに行われ得る。例えば、リモートコンピューティングデバイスは、中レイヤの解像度で再構成を構築するために、中レイヤ803に関連付けられた符号化されたデータを要求し得る。上記の符号化実施例では、最下位レイヤよりも上のレイヤは、中レイヤ803の符号化されたデータが中解像度の符号化された残差データのみを含むように、残差データを含み得、残差データは、復号化され、リモートコンピューティングデバイスで、アップサンプリング又はアップスケールされた既存の再構成に追加され得ることが分かり得る。それゆえ、中レイヤ803の符号化されたデータは、中レイヤ解像度のフル信号ストリームを含まないため、効率的に送信及び復号化され得る。
図8では、中レイヤ803で構築される更なる符号化されたデータに基づく再構成が、信号内の1つ以上の関心の領域を識別するために使用される。このことは、中レイヤ803又は1つの又はより下位のレイヤで実行され得る。関心の領域は、検出された物体の周りの領域を含み得る。この実施例では、リモートコンピュータデバイスは、中レイヤ803での再構成における関心の領域を識別し、これを使用して、より高位のレイヤ(例えば、大レイヤ804)での関心の領域に関連する符号化されたデータに対する更なる要求を条件的に行うように構成され得る。VC-6などのコード化フォーマットは、関心の領域のみの部分的な復号化を可能にし、関心の領域の符号化されたデータのみが符号化サイトから送信され得る。
図9は、2つの位置にわたる分散信号処理の実施例を示す。第1の位置910は、これが信号源のセットに最も近いため、「エッジ」位置と呼ばれ得る。第2の位置920は、第1の位置910からリモートであり、例えば、1つ以上のデータ通信ネットワーク915を介して第1の位置910に通信可能に結合されている。第2の位置920は、「リモート」位置と称され得る。図9では、第2の位置920は、クラウドデータセンタを含む。他の実施例では、第2の位置920は、ビデオ分析機能の任意の他のサイトを含み得る。典型的には、データ通信ネットワーク915を介したデータ通信の帯域幅は、第1及び第2の位置910、920の各々におけるデータ通信の帯域幅よりも制約され、例えば、データ通信ネットワーク915は、インターネットなどを含み得る。
第1の位置910は、信号源のセットを含む。この実施例では、これらは、複数のビデオカメラフィード935を提供するビデオカメラ930のセットを含む。他の実施例では、信号源は、とりわけ、マイクロフォン、センサなどを含み得る。第1の位置910は、例えば、スポーツスタジアム及び/又は芸術(音楽、劇場又は映画)会場を含み得る。第1の位置910はまた、符号化プラットフォーム940を含んでもよい。これは、複数のビデオカメラフィード935に通信可能に結合された1つ以上のコンピューティングデバイス(又は専用のハードウェアエンコーダ)を含み得る。信号源のセットからのストリームは、例えば、有線カップリングを介した複数のUHDp60ストリームなどの、高解像度の原信号及び/又は非圧縮信号を含み得る。符号化プラットフォーム940は、レイヤベースの符号化内の複数のレイヤの各々について符号化されたデータストリームを生成するように構成されており、複数のレイヤ内の異なるレイヤは、異なる品質レベル(例えば、異なる空間解像度)に対応し、より高いレイヤは、より高い品質レベルを表す。例えば、図1~図5のコンテキストでは、下位レイヤは、0番目の階層よりも下の階層を含み得、最下位レイヤは、R1-nレイヤである。これらのレイヤはまた、図8に示されるレイヤに対応する。符号化プラットフォーム940での符号化にVC-6などの標準が使用される場合、各ビデオフィードは、VC-6データストリームとして符号化される。
比較実施例では、符号化プラットフォーム940での符号化に続いて、符号化されたデータストリームは、復号化のための別の位置に送信される。この別の位置では、フル品質の信号ストリームを再構成することを望み、次いで、各レイヤの符号化されたデータがこの別の位置に送信され、信号は、各レイヤの符号化されたデータを復号化することによって再構成される(例えば、図5及び図7において説明される)。
ただし、本実施例では、全てのレイヤの符号化されたデータストリームのフルセットを第2の位置に送信するための好適なネットワーク又は処理帯域幅がない場合がある。加えて、好適な帯域幅が利用可能であっても、ビデオ分析機能は、複数の信号源の全てについて(例えば、リアルタイムで)信号を同時に処理することができない場合がある。
それゆえ、本実施例では、複数の信号源についての1つ以上の最下位レイヤの符号化されたデータストリームのみが、第1の位置910から第2の位置920に送信される。例えば、階層構造の最下位レイヤの少なくとも符号化されたデータストリームは、復号化プラットフォーム950による受信及び復号化のために第2の位置920に送信され得る。マルチレイヤ符号化(例えば、上記のような)に起因して、このことは、符号化プロセス又は復号化プロセスを適応させることなく可能であり、第1の位置は、所望の下位レイヤの符号化されたデータストリームを単に送信し、高位レイヤ(例えば、より高い品質レベルに関連付けられたレイヤ)の符号化されたデータストリームを(少なくとも最初に)送信しない。
図9では、ブロック942によって示されるように、最初に、ビデオカメラ930のセットに対して、各マルチレイヤピラミッドの「先端」のみが送信される。これは、サムネイル解像度レイヤ810の送信された符号化されたデータのみを含み得る。他の場合には、サムネイル解像度レイヤ801及び小レイヤ802(例えば、線805よりも下のレイヤ)の両方などの、定義された数の最下位レイヤを送信することを含み得る。選択される最下位レイヤの数は、データ通信ネットワーク915を介して利用可能な帯域幅及び/又は第2の位置930での処理リソースなどの、静的ユーザ定義パラメータ及び/又は動的パラメータに依存し得る。この場合に、処理リソースは、復号化プラットフォーム950からの出力に対して1つ以上のビデオ分析機能を実行する1つ以上のプロセッサに関連し得る。復号化プラットフォーム950は、一般に、符号化プラットフォーム940の符号化プロセスに対応する復号化プロセスを実装する。例えば、復号化プラットフォーム950は、VC-6復号化プロセスを実装し得る。
本実施例では、ブロック942を介して送信される最下位レイヤの符号化されたデータは、復号化プラットフォーム950によって復号化されて、第1の品質レベルで複数のビデオカメラフィードの再構成のセットを生成する。例えば、このことは、各ビデオカメラフィードについて、図5の520などの再構成を生成することを含み得る。第2の位置において、1つ以上のビデオ分析機能が、再構成に適用される。上記のように、これらは、シーン分析、顔検出、ポーズ検出、物体検出などを含み得る。ビデオ分析機能は、AI又はニューラルネットワークアプローチに基づき得る。
図9の実施例では、1つ以上のビデオ分析機能の出力は、更なる分析のための再構成の1つ以上の部分の識別である。これは、1つ以上の符号化されたデータストリームの識別、すなわち、1つ以上の特定のビデオカメラフィードの識別を含み得る。これは、また、又は代替的に、より多くのフレーム(例えば、定時間刻みの画像)及び/又は1つ以上の関心の領域(例えば、フレーム内の空間領域及び/又はフレームのための画素及び/又はコード化単位の特定のセットによって定義される)のうちの1つの識別を含み得る。この識別は、第2の位置920で(例えば、リモート処理デバイスが復号化プラットフォーム950の出力に対して演算することによって)実行され得る。したがって、第2の位置920は、識別されたビデオカメラフィード、フレーム、及び/又は関心の領域の異なるデータを要求し得る。このことは、図9の双方向矢印及びブロック944によって示されている。
ビデオカメラフィード、フレーム、及び/又は関心の領域を識別する要求を受信すると、符号化プラットフォーム940(又は符号化プラットフォーム940に結合された第1の位置910のデバイス)は、識別されたビデオカメラフィード、フレーム、及び/又は関心の領域に対応する追加の又は更なる符号化されたデータを送信する。このことは、第1の位置910における符号化プラットフォーム940(又は結合されたデバイス)から部分的なファイル呼び出し動作を実行することを含み得る。例えば、図5の残差データ526を取得するための符号化されたデータのみが必要とされ得、これは、下位レイヤ再構成のアップサンプリングされたバージョンと結合され得る(例えば、図5の520からの524)。この符号化されたデータは、同じレイヤ品質(例えば、解像度)でフルビデオフィードよりも少ない帯域幅を使用して効率的に伝達され得る。例えば、符号化プラットフォーム940は、中レイヤ803のデータを送信し得る。ある場合では、符号化プラットフォーム940は、フレーム内の位置のサブセットについての符号化された残差データのみを送信し得、例えば、識別された関心の領域内にある画素及び/又はコード化単位の残差データのみを送信し得る。VC-6などのコード化方式は、例えば、独自のS木コード化構造に起因して、ビデオフレームの部分的部分の効率的な復号化を可能にする。例えば、上述のアダマール変換などの算術的に単純な変換と組み合わされたS木は、単一命令複数データ(SIMD)コンピューティング要素の使用を可能にするため、符号化及び/又は復号化は、グラフィック処理装置(GPU)及びフィールドプログラマブルゲートアレイ(FPGA)などの、SIMD及びベクトルユニットを有する最新のハードウェアに特に適している。加えて、本明細書で説明するマルチレイヤコード化は、比較JPEG/MPEGコーデックにしばしば必要とされるアプリケーション固有の加速を必要としない。復号化はまた、データのフレーム全体に対して演算する比較残差データコード化方式よりも高速である。ある場合では、更なる符号化されたデータは、成分のセットのサブセット(例えば、Yなどの1つの色成分、又は1つのメイン/中央音声チャネルのみ)に関連し得る。
したがって、第2の位置950は、例えば、以前に受信された符号化されたデータよりも高い品質レベルに関連付けられた、識別された信号源、フレーム、及び/又は関心の領域の更なる符号化されたデータを受信する。次いで、この更なる符号化されたデータは、復号化プラットフォーム950によって復号化されて、再構成の第2のセットを生成する。これらは、例えば、図5に528として示される再構成(又はこれらの再構成の一部分)を含み得る。次いで、第2の位置920は、再構成の第2のセットからのデータに対する1つ以上のビデオ分析機能を命令することが可能であり、ビデオ分析機能は、少なくとも関心の領域のより高い空間解像度での更なる分析、例えば、図8の中レイヤ803での分析を含み得る。
この段階的な分析のプロセスは、符号化に存在するのと同じ数のレイヤについて、又はビデオ分析機能からのメトリックが所定の閾値を超えるまで、継続し得る。例えば、品質レベルの増加に関連付けられた符号化されたデータは、正解率閾値を超えるまで、かつ/又は最高の品質レベルに達するまで、反復して要求、送信、復号化、及び分析され得る。最も低い品質レベルからの昇格に関して実施例が説明されているが、当業者であれば、同様のアプローチが、第1のレイヤが第2のレイヤよりも低い品質レベルにあるマルチレイヤ符号化の任意の2つのレイヤに適用され得ることを理解するであろう。
図9では、ブロック946に示されるように、フル品質の再構成(例えば、階層構造内の全てのレイヤ)の差分データ又は残差データに対する要求が、ビデオカメラフィードのサブセットに対して、例えば、現在のビデオ分析に関連する信号源のうちの1つ以上に対して行われ得る。ビデオカメラフィードのサブセットのこの選択は、前のブロック(例えば、942及び944)の一部として実行された分析に基づいて行われ得る。例えば、サッカーボールの位置、バンド内のリードシンガー、及び/又はステージ上の俳優などのライブイベントからのアクションを現時点でキャプチャしているビデオカメラに対して、フル品質の再構成が所望され得る。現時点でビデオ分析に有用ではないビデオカメラフィード(例えば、これらのビデオカメラフィードに人々及び/又はアクションがないため)の符号化されたデータストリームは、第2の位置920に送信される必要がない。ブロック946の一部として選択されるビデオカメラがイベントの過程で絶えず変化し得るように、プロセス全体が、ライブイベント中に動的に適用され得る。
段階的なデータ交換及び分析のプロセスは、図13A~図13Dの1つの信号源について示されている。図13Aは、信号源1330、信号ストリーム1335(例えば、フル品質の)、エンコーダ1340、通信ネットワーク1315、デコーダ1350、及びビデオ分析モジュール1308を例示している。エンコーダ1340は、信号ストリーム1335を受信する。次いで、信号ストリーム1335は、符号化されて、符号化された小レイヤ802、符号化された中レイヤ803、及び符号化された大レイヤ804を形成する。また、符号化された小レイヤ802は、通信ネットワーク1315を介してデコーダ1350(例えば、リモート位置の)に伝送される(1309)ことが示されている。線1309は、符号化された小レイヤがデコーダに伝送されることを示す。デコーダ1350は、符号化された小レイヤ802を復号化して、復号化された小レイヤ802’を生成し、小レイヤ802’は、ビデオ分析モジュール1308に送信される。復号化された小レイヤ802’はまた、エンコーダ1340で実行される信号ストリーム1335の量子化によって決まり得るある程度の歪みにさらされ得る。ビデオ分析モジュール1308は、復号化された小レイヤ802’に対するビデオ分析を実行する。いくつかのシナリオでは、ビデオ分析モジュール1308は、符号化された小レイヤ802に対する分析を(すなわち、復号化された小レイヤ802’に対する分析に加えて、又はその代替として)実行し得る。ビデオ分析モジュール1308は、符号化された情報の特定の属性を判定することが可能であり得る。このシナリオでは、符号化された小レイヤ802及び復号化された小レイヤ802’は、両方とも、ビデオ分析モジュール1308に送信され得るが、符号化された小レイヤ802は、デコーダ1350を通過しない。
図13Bに示されるように、復号化された小レイヤ802’がビデオ分析モジュール1308によって受信されると、ビデオ分析モジュールは、符号化された信号ストリーム1335の別のレイヤをエンコーダ1340からデコーダ1350に送信することに対する要求1310を、通信ネットワーク1315を介して、エンコーダ1340に伝送する。要求1310は、復号化された小レイヤ802’が分析された後に伝送され得る。特に、要求1310は、復号化された小レイヤ802’の分析の結果に応答して伝送され得る。例えば、復号化された小レイヤ802’の分析に応答して、ビデオ分析モジュール1308は、別のレイヤ(例えば、復号化された中レイヤ803’)に対する分析を実行することが有利であると判定し得、そのような実施例では、ビデオ分析モジュール1308は、符号化された信号ストリーム1335の別のレイヤ(例えば、符号化された中レイヤ803)をエンコーダ1340からデコーダ1350に送信することに対する要求1310をエンコーダ1340に伝送する。
図13Cに示されるように、(図13Bに例示されるように)エンコーダ1340が要求1310を受信した後、符号化された中レイヤ803は、(図13Cに示されるように)通信ネットワーク1315を介してデコーダ1350に伝送される(1311)。線1311は、符号化された中レイヤ803がデコーダに伝送されることを示す。デコーダ1350は、符号化された中レイヤ803を復号化して、復号化された中レイヤ803’を生成する。復号化された中レイヤ803’は、デコーダ1350からビデオ分析モジュール1308に伝送される。次のフレームの小レイヤは、符号化された中レイヤ803と並行してエンコーダ及びデコーダを通って進行する信号ストリーム1335であることも可能であるが、これは示されていない。
図13Dに例示されるように、エンコーダ1340は、通信ネットワーク1315を介して、符号化された大レイヤ804をデコーダ1350に伝送する。点線1312は、符号化された大レイヤ804が必ずしもデコーダに伝送されないことを示す。符号化された大レイヤ804を必ずしも伝送しないことの利点を以下に説明する。
本明細書において説明される方法及びシステムは、1つの信号源に、又は複数の信号源に適用され得る。図9の構成は、オンプレミスデータのクラウドベースのAI分析を可能にするAI支援送信ファネルとみなされ得る。この実施例では、全ての信号源のフル品質の信号ストリームは、エッジ位置で利用可能であり得、第2のAI分析位置によって段階的に取得され得る。図13Dに示されるように、レイヤのフルセットの符号化されたデータが送信されない信号ソースの場合、これは、アーカイブ目的のために後で(例えば、非リアルタイム設定で)送信され得る。例えば、このことは、フル品質のビデオカメラフィードが、ライブイベントの後に第2の位置920で(例えば、アーカイブし、かつ/又は配信のために使用/編集するために)利用可能であるように、ライブイベントからの追加の符号化されたデータについて一晩実行され得る。このようにして、ビデオフィードについて、ビデオデータの強化されたAIベースのデリバリが実行され得、全てのビデオデータが、ライブイベント中及びライブイベント後の両方で余分の帯域幅を必要とすることなく、リモートで利用可能であり得る。本明細書において説明される特定の場合では、アーカイブは、完全な品質又は解像度未満で、例えば、中レイヤ803に、又はUHD品質レベルではなくHDで格納され得る。この場合に、図13Dの動作は実行されない場合があり、符号化されたデータの中レベルレイヤのみが、ビデオカメラフィードのためにリモート位置に送信される必要があり得る。
図10は、分散信号処理システムの別の実施例を示す。これは、図9の実施例の代替的な変形例とみなされ得る。図10は、符号化されたデータストリームの識別が、第2の位置ではなく第1の位置910で実行されるハイブリッドアプローチの実施例である。それゆえ、本アプローチは、符号化された信号のセットの特定の処理がどこで実行されるかについての柔軟性を提供する。
図10は、図9に記載されるような、信号源930のセット、信号ストリーム935のセット(例えば、フル品質)、及び符号化プラットフォーム940を示す。この実施例では、符号化プラットフォーム940の出力に対して実行される2つの追加の処理演算がある。これらの追加の処理演算は、前処理コンピューティングデバイス1005によって実行される。第1の演算は、フレーム識別1010を含み、第2の演算は、カメラ識別1020を含む。図10では1つの順序で示されているが、これらの演算はまた、他の実装態様において演算1020から1010で実行されてもよい。前処理コンピューティングデバイス1005は、第1の位置910に示されているが、前処理コンピューティングデバイス1005は、代替的に、リモート位置(例えば、図9の第2の位置)に、又は中間位置にあってもよい。フレーム識別1010及びカメラ識別1020は、各信号源930について特定の上位品質レベルを判定するように演算し得る。このことは、図9に示されるプロセスと同様のプロセスを使用して実行され得る。代替的に、フレーム識別1010及びカメラ識別1020の演算が第1の位置910で、コンピューティングデバイス上で実行される場合、これらの演算は、レイヤのフルスタック、例えば、符号化された信号ストリームの全て又は大部分にアクセスし得る。例えば、信号源のセットは、優先クラスを割り当てられ得る。フレーム識別1010及びカメラ識別1020によって識別される低優先度の信号源は、マルチレイヤフォーマット(例えば、図8のサムネイル及び/又は小解像度レイヤ801及び802)の1つ以上の最下位レイヤに関連付けられ得、フレーム識別1010及びカメラ識別1020によって識別される高優先度の信号源は、マルチレイヤフォーマットのレイヤのフルセット又はほぼフルセットに関連付けられ得る。図10のブロック1030では、各ビデオカメラフィードに割り当てられた優先クラスであり得る、フレーム識別1010及びカメラ識別1020の出力を使用して、各信号源930の送信する品質のレベルのセットを定義する。
図10の例では、エッジ位置910は、リモートサーバ1050及び配信センタ1060の両方と通信する。リモートサーバ105は、図9及び図13A~図13Dを参照して説明されるように、リモートの復号化及びビデオ分析を実行し得る。通信1035によって示されるように、リモートサーバ1050は、(例えば、ライブイベントに関連するビデオ及び/又は音声のリアルタイム配信のために)配信センタ1060に送信される符号化されたデータストリームの優先クラスを割り当てるか、又はこれらの符号化されたデータストリームのデータパケットを別様に示すために、リモートビデオ分析を提供し得る。したがって、配信センタ1060は、配信センタ1060に伝送される符号化されたデータ、及び主(ライブ)配信のために選択される信号源が、自動化されたビデオ分析に基づいてライブイベント中に変動する、信号源のサブセットについてのフル品質レベルでAI選択されたビデオフィードを受信し得る。これにより、例えば、自動化されたサッカー又は俳優追跡、自動化された全顔追跡、自動化されたアクション追跡、自動化されたクローズキャプションカメラレビューなどが可能になり得る。配信センタ1060は、復号化された信号をレンダリングするために、例えばビデオフィードを視聴するために、符号化されたデータを1つ以上のエンドユーザデバイスに配信し得る。図11は、本明細書において説明される方法及びシステムが、ライブスポーツイベントのコンテキストにおいてどのように適用され得るかの更なる実施例である。図11に示される構成は、図9及び図10に示される構成と同様である。スタジアム1110は、第1の位置に位置し、配信センタ1120は、異なるリモート位置に位置する。複数のビデオカメラ1130は、異なる位置、角度、及び姿勢からスポーツイベントをキャプチャするように、スタジアム1110の周りに配置されている。ビデオカメラ1130は、エッジシャーシ1140にフル品質のビデオストリームのセットを提供する。エッジシャーシ1140は、前の実施例の符号化プラットフォームを実装するためのコンピューティングデバイスを含む。コンピューティングデバイスは、図12に示されるように構成され得、サーバコンピューティングデバイスを備え得る。
スタジアム1110及び配信センタ1120は、図9のクラウドデータセンタ920、図10のリモートサーバ1050、及びデータ通信ネットワークのセットのうちの1つ以上を使用して実装され得る、インテリジェント相互接続1115によって通信可能に結合されている。サーバコンピューティングデバイスは、リアルタイム配信のために配信センタ1120に伝送される符号化されたビデオストリームを制御するためのインテリジェントミキサ1150の一部を形成し得る。
この実施例では、全てのビデオストリームは、第1の(エッジ)位置を形成するスタジアム1110で符号化(例えば、圧縮)される。エッジシャーシ1140は、VC-6などのマルチレイヤ符号化を使用して、ビデオストリーム1135のセットを符号化する符号化プラットフォームを実装し得る。ビデオストリーム1135のセットは、最大intra-only品質で符号化され得る。
リアルタイムで(すなわち、フレームが最小の遅延で、エンドデバイスで適切にレンダリング及び表示され得るように)、ビデオカメラ1130のセットからの主要カメラの符号化されたデータが、フル品質で、すなわち、符号化内の全てのレイヤで送信され、ビデオカメラ1130のセット内の他のカメラは、符号化の下位レイヤのみを使用して、例えば、図8のレイヤ801及び802のうちの1つ以上に関連付けられたデータなどのより低い解像度データのみを使用して、伝送される。
図11では、プロキシフィード1152が、マルチレイヤ符号化における少なくとも最下位レイヤの符号化されたデータを含む配信センタ1120(及び任意のリモート処理サーバデバイス)によって受信される。これは、図5の再構成515又は図8のサムネイル解像度レイヤ801を復号化するために使用されるような符号化されたデータを含み得る。配信センタ1120はまた、主フィード1154の形態で全てのレイヤの符号化されたデータを受信し、例えば、これは、現時点で配信されているビデオフィード(例えば、視聴デバイスによって受信されているサッカーの試合のために現時点で選択されているカメラ)を表すフル(例えば、4K)品質の信号を再構成するための符号化されたデータを含み得る。他の主要フィード1156がまた、フル品質の再構成(例えば、アクションの現時点のセットの代替カメラ位置)を可能にするために伝送されてもよい。主フィード1154及び主要フィード1156は、インテリジェントミキサ1150によるインテリジェントミキシングに基づいて選択され得る。例えば、リモート処理デバイスは、図9及び図13Aを参照して説明されるように、プロキシフィード1152を受信し得、これを使用して、副フィード1158を介して送信される1つ以上のより高位のレイヤの符号化されたデータを選択し得る。リモート処理デバイスは、プロキシフィード1152及び/又は副フィード1158を使用して、関連するモーメント(例えば、アクションが行われていた30~50分などの期間)及び/又は関連するカメラを識別し得、この識別を使用して、追加のレイヤが、送信され、かつ配信センタ1120によって受信されて、フル高品質の符号化されたストリームを構成するように指示し得る。
ある場合では、リモート処理デバイスが配信センタ1120に位置する場合には、リモート処理デバイス及び配信センタ1120の両方が、同じプロキシフィード1152を受信し得、リモート処理デバイスによって要求された任意の副フィード1158が、配信センタ1120にアクセス可能であり得る(例えば、渡され得る)。この場合に、リモート処理デバイスが別のカメラフィードへの切り替えを示し、かつプロキシフィード1152及び副フィード1158が既に受信されている場合、フル品質フィード1154又は1156を受信するために必要であるのは、副フィード1158で搬送されたレイヤよりも上のレイヤの残差データだけである。これにより、フィードのデルタ又はレイヤの差分セットのみが必要とされるため、フィード間の効率的なかつ速い切り替えが可能になり得る。これにより、リアルタイムのミキシング及びカメラ/フレーム切り替えが可能になる。図13Dに示されるように、イベントの終了時に、ライブイベントの配信の一部として使用されなかったが、エッジシャーシ1140で符号化及び格納されている高位レイヤの残りのデータパケットは、次いで、アーカイブのために(例えば、非リアルタイム式で)配信センタ1120に送信され得る。
特定の実装態様では、ビデオキャプチャ位置で、信号源930又は1130は、第1の位置910又は1110でフル品質のビデオストリーム(すなわち、ビデオカメラのデフォルト出力)をサーバコンピューティングデバイスに伝達する複数のビデオカメラを含み得、符号化プラットフォーム940又は1140は、コントリビューション標準で全ての受信されたビデオフィードを圧縮する。圧縮又は符号化されたデータは、成長するファイルのセットとしてディスクにローカルに保存され得る。図10の場合には、オンロケーション処理を実行して、符号化されたデータにインデックス付けし得、図11の場合には、このことは、ローカルに又はリモートで実行され得る。インデックス付けは、ライブビデオフィードを選択し、各カメラの品質レベルを選択することを可能にし得る。選択は、手動で、例えば、ユーザがローカル又はリモートミキシングアプリケーション又はデスクを操作することによって、及び/又はリモート又はローカルビデオ分析機能によって自動的に、実行され得る。特定の場合では、最低の又は非常に低い解像度(例えば、図8の801又は802)に関連付けられた符号化されたデータが、高度なビデオ分析機能(例えば、AIアプリケーション)を使用する自動インデックス付けのために伝送され得る。特定の場合では、Y成分又は輝度成分などの1つの色成分のみが、リモート分析のために送信され得、かつ/又はフレームレートが、低減され得る(例えば、Nフレーム中の1フレームが送信され得、これは、時間分割多重化又はフレーム分割多重化を使用して多重化され得る)。すぐに送信されない符号化されたデータは、ファイルのセットとしてローカルに格納され得る。この符号化されたデータは、後で、例えばライブイベントの後に、送信され、かつ/又は物理的な輸送若しくはローカルアーカイブのために記憶媒体に保存され得る。
本明細書において説明される実施例によれば、比較コード化及び分析方法で見出される遅延の利点は著しく低減され得、例えば、ビデオ分析機能は、オンプレミス処理と比較してわずかな追加の遅延を有してリモートで実行され得る。特定のビデオカメラフィードのインデックス付けは、将来的に配信するビデオカメラフィード、例えば、リプレイ及び/又はビデオアシスタントレフェリー(VAR)に関連するフッテージを選択するために実行され得る。ビデオ分析機能を使用して、人間によるレビュー及び/又は好ましい視聴のための特定のビデオカメラフィードを識別し得る。例えば、ビデオ分析機能は、人間のレフェリーによるレビューのために、ビデオの1つ以上の部分(例えば、格納された符号化されたファイル内の特定のフレーム及び/又は特定のカメラのいずれか)を識別し得る。更に、関心の領域(サッカーボールがゴールラインを横切ったかどうかなど)が識別され得、これらの領域の高品質の再構成のための符号化されたデータは、完全なフレームよりも速くリモート位置に送信され得る。
本明細書において説明される特定の実施例は、イベント中の種々のモードとして適用され得る。
第1のイベントモードでは、イベント位置とリモートスタジオ及び/又はデータセンタとの間のデータ通信リンクは、人間又はAIが選択したビデオカメラフィード(例えば、図11のフィード1154及び1156)と、符号化されたデータ又は関心の領域に関連付けられた符号化されたデータの要求されたランダムアクセス階層と、に優先順位を付けるように構成され得る。図11におけるように、低解像度プロキシフィード1152は、リモート分析を可能にするために1つ以上のカメラについて連続的に送信され得る。副フィード1158などのデータ通信リンクの残りの予備容量は、リモート位置での分析のための符号化されたデータの自動選択に基づいて使用され得る。これは、自動「ギャップフィリング」の形態とみなされ得る。これは、送信のために階層、平面、色成分、及び/又はフレームに優先順位を付けるために実行され得る。優先順位が付けられたデータは、イベントのハイライトを生成するための後の時点で復号化され得る。したがって、このことは、イベントの間に、符号化されたデータをイベント位置からリモート位置に効率的に輸送することができ、その結果、リモート位置(例えば、配信センタ1120)で、ビデオの有用な部分の符号化されたデータが利用可能である可能性が高くなる。ある場合では、HD視聴可能なビデオを生成するために必要である符号化されたデータの階層のみが転送されて、ニュース及びハイライトなどの更なるビデオを生成し得る。
第2のイベントモードは、スポーツの試合におけるハーフタイム又はフルタイムなどのイベントの開始、終了、及び/又は中間に関連付けられ得る。このモードでは、符号化の圧縮比がより高い場合があり(外部では、高品質のアクションフィードは、必要とされないため)、必要とされるフィード(すなわち、アクティブカメラ)の数がより少ない場合がある。例えば、オンプレミスコメンタリーボックスからの1つ又は2つのカメラのみがあり得る。この第2のイベントモードでは、データ通信リンクは、本明細書において説明されるような自動優先順位付けに基づいて、大幅に小密度化され得、したがって、上記のギャップファイルが増加し得る。
最後に、イベントが終了したときのポストイベントモードがあり得る。この場合に、視聴者に積極的に配信されているカメラフィードがない場合がある。この場合に、データ通信リンクの全ての帯域幅は、上記の「ギャップフィリング」優先順位付けに専用であり得る。これは、全ての符号化されたデータがリモート位置で受信されるまで(例えば、図13Dに示されるアーカイブのために)、及び/又はコンピューティングデバイスのローカルセットがオフになるまで継続し得る。
特定の場合では、第1の位置にあるコンピューティングデバイスは、イベントの前に第1の位置に駆動される移動ユニット(生産トラックなど)内に位置し得る。この場合に、データ通信リンクを介して送信されない任意の符号化されたデータが、移動ユニット内に位置する記憶媒体内に格納され得、移動ユニットは、この移動ユニットに記憶されたコンテンツがアップロードされ得るリモート位置に物理的に駆動され得る。
本実施例は、はるかに速いリモート処理を可能にする。これにより、高度なニューラルネットワークアーキテクチャによるリアルタイム推論が可能になり得る。図14は、比較アプローチにおいてJPEG画像に適用される様々な処理演算(1405)と、本明細書において説明されるマルチレイヤコード化を使用して生成される再構成(1410)と、の比較を示す。3つの処理演算がある:復号化、検出、及び認識。復号化は、符号化されたストリームを復号化して、再構成内の画素データへのアクセスを取得することを含み得る。検出は、顔検出を含み得、認識は、顔認識を含み得る。図は、HDフレームごとの様々なアクティビティの時間(ミリ秒単位)を示す。分かるように、復号化時間が大幅に減少している(26倍の短縮)。検出時間及び認識時間も、倍数分又は2~3倍短縮される。比較は、一般的なテレビチャンネルのビデオフィードに基づく。4%の正解率の増加も記録された(例えば、正解率及び再現率のメトリックの組み合わせであるF1スコアの0.02の増加)。
改善の理由は様々である。第1に、VC-6などのマルチレイヤコード化方式は、非常に効率的かつ迅速な復号化を可能にする(例えば、上記の図5の実施例を参照して考察される)。このことは、符号化されたデータが、リモート処理デバイスによって非常に迅速に復号化され、かつ再構成の種々のティアへのアクセスが取得され得ることを意味する。検出及び認識の高速化は、必要に応じて下位レベルのティアのみを使用することによって達成され得る。これにより、検出及び認識アルゴリズムが、ニューラルネットワークアーキテクチャの観点から「ノイズ」であり得る高周波詳細にも存在しない低解像度フレームに対してより堅牢に演算することを可能にし得る。また、そのような処理は、高解像度の画素コンテンツを操作する敵対的な攻撃に対してより耐性があるという利点もある。
より詳細には、比較ビデオフィードは、フル解像度のUHDp60ビデオフィードなどを含み得る。このビデオフィードが比較ビデオコーデックを使用して符号化されると、再構成されたフレームがフル解像度で生成され、ビデオ分析機能に適切な解像度にダウンスケールされる必要がある。これには追加の時間がかかるのに対して、VC-6などのマルチレイヤコード化アプローチでは、符号化の性質に起因して、データの下位階層(すなわち、下位レイヤ)に直接アクセス可能である。比較アプローチは、解像度変換がビデオ又は画像データの復号化されたフレームに適用される必要があるため、種々の解像度入力に対して演算するビデオ分析機能によって検出及び認識が実行される場合に損なわれ得るのに対して、マルチレイヤアプローチでは、種々も解像度がアクセス可能である。更に、復号化プロセス内でのアップスケーリングのティアの使用により、ユーザ定義の解像度及び超解像度へのアップスケーリング(例えば、予測的アップスケーラを使用する)が容易に可能になる。それゆえ、様々なモジュール式ビデオ分析機能をサポートすることが容易である。
特定の実施例では、検出及び/又は認識は、最大公約数解像度で実行され得る。VC-6などのマルチレイヤアプローチでは、この公約数解像度に最も近い階層が選択され得る。特定の場合では、物体認識又は顔認識などの認識は、ビデオ分析の検出段階によって出力される関心の領域に対して実行される。例えば、顔検出又は物体検出機能は、関心の領域を識別するために使用され得る境界ボックスを定義するパラメータを出力し得る。この関心の領域は、後続の物体認識又は顔認識機能によって分析され得る(例えば、境界ボックス内の物体又は顔が認識され得る)。本実施例では、下位レイヤ再構成からの関心の領域のみがアップサンプリングされる必要があり(例えば、図5による)、アップサンプリングされた関心の領域をカバーする残差データは、受信及び復号化されるだけでよい。このことは、フル画像再構成が比較的必要とされ得るため、処理を高速化し得、フル画像再構成は、典型的には、最高品質でフルフレームを再構成し、かつ認識のために必要とされる解像度までフルフレームをダウンサンプリングすることによって、取得される。更に、VC-6などのマルチレイヤアプローチの使用により、関心の領域のデータの更なる階層を要求し、かつ所望される場合(例えば、認識正解率が閾値を下回る場合)に追加の詳細及び解像度を追加するために送信することが可能になる。それゆえ、本アプローチでは、検出は、より低解像度のレイヤに対して実行され得るが、認識は、1つ以上のより高位のレイヤを使用して再構成されたより高解像度のデータに対して実行され得る。これらの利点は、データのY平面又は輝度平面などの1つの成分に対する1つ以上のビデオ分析機能(ここで考察される検出及び認識など)を実行することによって、更に強化され得る。ここでも、正解率がY平面データ又は輝度平面データに対して低い場合、更なる色成分(U又はVなど)のデータが要求され、モジュール式で送信及び受信され得る。
例示的な態様
本明細書において説明される発明の一態様によれば、入力信号内の1つ以上の要素を分類するためのシステムを使用する方法が提供される。この方法は、第1の位置で入力信号を受信し、かつティアベースの階層コード化方法(非限定的な実施例として、コード化標準SMPTE VC-6 ST-2117又はMPEG-5 Part2 LCEVC ISO/IEC 23094-2など)で入力信号を圧縮する第1のステップを含む。ティアベース又はレイヤベースのコード化方法は、復号化されたときに、それぞれの品質レベルまで信号の再構成を可能にする階層内の少なくとも2つの圧縮されたデータのセットを生成することを含む。この方法では、入力信号に対応する圧縮されたデータの第1のセットが、第2の位置の分析システムに送信される。分析システムは、圧縮されたデータの第1のセットを復号化して第1の再構成された信号を生成することによって、信号の圧縮されたバージョンを第1の品質レベルまで復号化し、第1の再構成された信号に対する第1の分類演算を実行する。当該第1の分類演算に少なくとも部分的に基づいて、信号の関連領域が識別され得る。これらは、例えば、非限定的な例として、当該フレーム内の関心のフレーム及び領域を含み得る。これらの関連領域は、第2の分類演算をどこで実行すべきかを示し得る。これに応答して、分析システムは、第1の位置のシステムからの部分的なファイル呼び出し動作を実行する。これは、追加の圧縮されたデータ、例えば、追加のデータのティア又はレイヤに対する要求を含み得る。次いで、第1の位置のシステムは、信号の当該関連領域に対応する圧縮されたデータの第2のセットを第2の位置の分析システムに送信し得る。次いで、第2の位置の分析システムは、圧縮されたデータの当該第2のセットを復号化して第2の再構成された信号を生成することによって、信号の圧縮されたバージョンを第2の品質レベルまで復号化し得る。次いで、分析システムは、第2の再構成された信号に対する1つ以上の第2の分類演算を実行し得る。本明細書において説明される態様では、用語分類は、より一般の信号分析の一実施例とみなされ得、「圧縮された」及び「符号化された」という用語は、互換的に使用され得、信号は、信号を圧縮する量子化及び/又はエントロピー符号化を使用することによって符号化され得る。
第2の態様によれば、複数のビデオカメラフィードを分析する方法は、
第1の位置で、レイヤベースの符号化を使用して、レイヤベースの符号化内の複数のレイヤの各々について符号化されたデータストリームを生成することを含めて、複数のビデオカメラフィードを符号化することであって、複数のレイヤ中の異なるレイヤは、異なる空間解像度に対応し、より高位のレイヤは、より高い空間解像度を表す、符号化することと、
第1の位置からリモートの第2の位置に、複数のビデオカメラフィードの1つ以上の最下位レイヤの符号化されたデータストリームを送信することと、
第2の位置で、符号化されたデータストリームを復号化して、第1の空間解像度で複数のビデオカメラフィードの再構成のセットを生成することと、
再構成のセットに1つ以上のビデオ分析機能を適用して、更なる分析のための1つ以上のビデオカメラフィードを識別することと、
更なる分析のための識別された1つ以上のビデオカメラフィードの第1の位置に、1つ以上の最下位レイヤよりも上の1つ以上のレイヤの更なる符号化されたデータストリームに対する要求を伝送することと、
要求に応答して、第2の位置に、1つ以上の最下位レイヤよりも上の1つ以上のレイヤの更なる符号化されたデータストリームを送信することと、
第2の位置で、更なる符号化されたデータストリームを復号化して、第2の空間解像度で、識別された1つ以上のビデオカメラフィードの再構成のセットを生成することと、
第2の空間解像度の再構成のセットに1つ以上のビデオ分析機能を適用することと、を含む。
第3の態様によれば、リモート信号分析の方法は、
少なくとも1つのネットワークを介したコンピューティングデバイスで、複数の入力信号に対応する複数の符号化された信号ストリームの符号化されたデータを受信することであって、複数の入力信号の符号化は、コンピューティングデバイスからリモートの符号化位置で実行され、符号化された信号ストリームは、レイヤベースの符号化を使用して符号化され、レイヤベースの符号化における異なるレイヤは、異なる品質レベルに対応し、より高位のレイヤは、より高い品質レベルを表し、受信された符号化されたデータは、レイヤベースの符号化内の1つ以上の最下位レイヤに関連付けられた符号化されたデータを含む、受信することと、
受信された符号化されたデータを復号化して、1つ以上の最下位レイヤでの複数の入力信号の複数の再構成を取得することと、
複数の入力信号の再構成のうちの少なくとも1つを処理して、更なる処理のための、符号化された信号ストリームの部分を判定することと、
符号化位置から、符号化された信号ストリームの判定された部分に関連付けられた、1つ以上の最下位レイヤよりも上の1つ以上のレイヤの符号化されたデータを要求することと、を含む。
この方法は、他の実装態様の中で、図9のクラウドデータセンタ920、図10のリモートサーバ1060、又は図1120の配信センタ1120のうちの1つ以上によって適用され得る。
第4の態様によれば、例えば第1の位置で実行される、符号化方法は、
第1の位置で、複数の入力信号に対応する複数の符号化された信号ストリームの符号化されたデータを生成することであって、符号化された信号ストリームは、レイヤベースの符号化を使用して符号化され、レイヤベースの符号化における異なるレイヤは、異なる品質レベルに対応し、より高位のレイヤは、より高い品質レベルを表し、受信された符号化されたデータは、レイヤベースの符号化内の1つ以上の最下位レイヤに関連付けられた符号化されたデータを含む、生成することと、
符号化されたデータを復号化のために第1の位置からリモートの第2の位置に送信することと、
1つ以上の最下位レイヤよりも上の1つ以上のレイヤの更なる符号化されたデータに対する要求を受信することであって、要求は、複数の入力信号のうちの1つ以上に関連する、受信することと、
更なる符号化されたデータを第2の位置に送信することと、を含む。
この方法は、例えば、図9及び図10の符号化プラットフォーム940、又は図11のエッジシャーシによって適用され得る。
任意選択で、上記の方法のうちの1つ以上では、方法は、第1の位置のシステムにおいて、第2の位置のシステムへのデータ送信のための利用可能な帯域幅が、圧縮されたデータの第1のセットの全てを送信するのに十分ではないことを検出すると、圧縮されたデータの第1のセットのサブセットを送信することを含み、第2の位置のシステムは、圧縮されたデータの第1のセットの受信されたサブセットに基づいて、信号を第1の品質レベルで再構成する。非限定的な実施形態では、システムが圧縮されたデータの第1のセットのサブセットを受信すると生成される第1の品質レベルでの信号のレンディションの解像度及び色平面は、システムが圧縮されたデータのフルの第1のセットを受信すると生成されるレンディションの解像度及び色平面と同じである。
任意選択で、上記方法のうちの1つ以上では、方法は、第2の位置のシステムにおけるビデオ分析タスクの出力に少なくとも部分的に基づいて、第1の位置のシステムに信号伝達して、第3の品質レベルでの再構成に対応する信号の圧縮されたデータを送信することを含み、第3の品質レベルは、第1の品質レベルよりも高い。
任意選択で、上記方法のうちの1つ以上では、方法は、第2の位置のシステムにおけるビデオ分析タスクの出力に少なくとも部分的に基づいて、第1の位置のシステムに信号伝達して、第4の品質レベルでの再構成に対応する信号の圧縮されたデータを送信することを含み、第4の品質レベルは、第1の品質レベルよりも低い。
任意選択で、上記の方法のうちの1つ以上では、第2の位置のシステムは、第1の位置で利用可能な複数の信号について本明細書において説明される方法に従って分析及び/又は分類を実行し、第3の品質レベルで送信するための1つ以上の信号であって、第3の品質レベルは第1の品質レベルよりも高い、1つ以上の信号と、第4の品質レベルで送信するための1つ以上の信号であって、第4の品質レベルは第1の品質レベルよりも低い、1つ以上の信号と、を識別する。このことは、分析システムが、より高い忠実度で第2の位置に送信する信号(分類の出力に基づいて任意の時点でより高い関連性を判断される)、及びプロキシ品質で送信するための信号(分類の出力に基づいて任意の時点でより低い関連性を判断される)をリアルタイムで制御することができ、したがって、利用可能なネットワーク容量の使用を最適化することができるという点で有利である。
任意選択で、上記の方法のうちの1つ以上では、方法は、余分のネットワーク容量が利用可能である場合、ビデオ分析タスクの目的のために今までに転送されなかった信号に関連する圧縮されたデータの第2の位置セットに送信することを含む。このことは、アーカイブ目的及び/又は将来の分類タスクに有利であり、オンサイトで利用可能な圧縮されたデータの全てから恩恵を受けることができるであろう。
任意選択で、上記の方法のうちの1つ以上では、信号分析を復号化及び実行するステップは、同じ処理装置及びローカルメモリ(例えば、非限定的な例として、1つ以上のグラフィック処理装置のセット)、例えば、リモート処理位置での処理装置及びメモリのセットを使用して実行される。
任意選択で、上記の方法のうちの1つ以上では、ビデオ分析タスクは、分類を含み、第1の分類、1つ以上の第2の分類、及び1つ以上の第3の分類は、階層的な様式で(例えば、非限定的な実施例として、ベイズ条件付き確率分析方法を利用することによって)編成され、第1の分類が、入力信号におけるいくつかの要素の粗い分類であり、かつ1つ以上の第2の分類又は1つ以上の第3の分類のいずれかが、入力信号における要素の粗い分類を更に精緻化するようになっている。更に任意選択で、方法は、粗い分類に基づいて、更なる分類を必要とすると判定された圧縮されたデータの第2のセットのそれらの部分のみを選択し、取り出し、及び復号化し、それらの復号化された部分に基づいて、第2の再構成された信号を生成することを更に含み得る。
任意選択で、上記の方法のうちの1つ以上では、1つ以上の分類が、1つ以上のニューラルネットワーク検出器(例えば、複数のニューラルネットワーク検出器)を使用して実行される。任意選択で、ニューラル検出器は、データ正規化段階及び後続のデータ比較段階を含む。任意選択で、ニューラルネットワーク検出器は、デジタルハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)、ニューラルネットワーク機能性を実装するためのソフトウェア製品を実行するように構成されたコンピューティングハードウェア)、又はその両方の組み合わせで実装される。
第5の態様によれば、入力信号内の1つ以上の要素を分類する方法(すなわち、するための方法)が提供され、この方法は、
入力信号の第1のバージョンに対する分類タスクの第1の分類サブタスクを実行することと、
第1の分類サブタスクの出力に少なくとも部分的に基づいて、第1の位置から圧縮されたデータの第2のセットを識別し、かつ呼び出すことと、
圧縮されたデータの当該第2のセットに少なくとも部分的に基づいて、入力信号の第2のバージョンを再構成することと、
入力信号の第2のバージョンに対する分類タスクの1つ以上の第2の分類サブタスクを実行することと、を含み、
信号の第1及び第2のバージョンは、リモート位置から段階的にフェッチされる。
任意選択で、上記の方法は、入力信号の第3のバージョンに対する分類タスクの1つ以上の第3の分類サブタスクを実行することを更に含み、当該第3のバージョンは、第1の位置から呼び出された圧縮されたデータの第3のセットに基づいて生成され、圧縮されたデータの当該第3のセットは、1つ以上の第2の分類サブタスクの出力に基づいて識別される。任意選択で、上記の方法では、第1の分類サブタスクの出力に基づいて、第2のバージョンは、入力信号の一部分のみを含む。
任意選択で、上記の方法のうちの1つ以上では、圧縮されたデータの取り出された第2のセットは、入力信号を形成する色平面のサブセットのデータのみである。別の実施例では、信号の第2のバージョンは、依然として、信号の第1のバージョンを形成する色平面の全てを含む。
任意選択で、上記の方法のうちの1つ以上では、異なる品質レベルの参照は、異なる空間解像度に対応し、より高いレイヤは、より高い空間解像度を表す。
任意選択で、上記の方法のうちの1つ以上において、レイヤベースの符号化は、最も低い空間解像度の基本レイヤと、基本レイヤよりも上のより高い空間解像度の複数の残差レイヤと、を含み、複数の残差レイヤ中の所与の残差レイヤは、レイヤの解像度の入力信号から導出されたデータと、より下位のレイヤから導出されたデータと、の比較に基づいて判定される。
任意選択で、上記の方法のうちの1つ以上では、1つ以上の最下位レイヤでの複数の入力信号の再構成のうちの少なくとも1つにおける関心の領域を判定する更なるステップと、関心の領域に関連する更なる符号化されたデータを要求する更なるステップと、がある。このことは、更なる符号化されたデータを使用して、1つ以上の最下位レイヤよりも上の1つ以上のレイヤにおける、関心の領域のための再構築のセットを生成することを含み得る。ある場合では、このことは、最も高い品質レベルで再構成を生成するために必要とされる差分の符号化されたデータを判定することであって、差分の符号化されたデータは、受信された符号化されたデータ及び受信された更なる符号化されたデータを除外する、判定することと、差分の符号化されたデータを第1の位置から要求することと、を含み得る。
任意選択で、上記の方法のうちの1つ以上では、方法は、1つ以上の最下位レイヤで、複数の入力信号の再構成のうちの少なくとも1つ内で物体検出を実行することを含む。特定の場合では、方法は、1つ以上の最下位レイヤよりも上の1つ以上のレイヤで、複数の入力信号の再構成のうちの少なくとも1つ内で物体検出を実行することを含み得る。
任意選択で、上記の方法のうちの1つ以上では、方法は、更なる分析のための、複数の入力信号のうちの1つ以上のフレームの1つ以上のセットを識別することと、更なる分析のための1つ以上の入力源を識別することと、を更に含み、当該識別は、第1の、符号化、位置、及び第2の、分析位置のうちの1つ以上で実行される。この場合に、方法は、識別されたフレーム又は識別された入力源の1つ以上の最下位レイヤよりも上のレイヤの符号化されたデータを送信することを更に含み得る。
任意選択で、上記の方法のうちの1つ以上では、方法は、符号化されたデータを信号分析のためのリモートサーバに送信することと、符号化されたデータを複数のユーザに送信することと、を更に含む。符号化されたデータを複数のユーザに送信することは、符号化されたデータを複数のユーザへの配信のための配信センタに送信することを含み得る。このことは、リモートサーバで再構築のセットを分析して、配信センタに送信される1つ以上の入力源の符号化されたデータのレイヤのセットを判定することを含み得る。
任意選択で、上記の方法のうちの1つ以上では、複数の入力信号又は複数のビデオ入力フィードは、ライブイベントをキャプチャするための複数のビデオカメラに関連付けられ、リモートサーバは、複数のビデオカメラのうちのいずれを複数のユーザへの送信のために選択するかと、選択されたビデオカメラについて複数のユーザに送信するための符号化されたデータの品質レベルと、を判定する。
任意選択で、上記の方法のうちの1つ以上では、各品質レベルは、異なる符号化ビットレートを有する。
任意選択で、上記の方法のうちの1つ以上では、第1の、符号化位置から送信された符号化されたデータは、符号化された信号成分のサブセットの符号化されたデータを含む。これらは、ビデオ信号の異なる色成分を含み得、符号化された成分のサブセットは、少なくとも明度成分又は輝度成分を含み得る。
任意選択で、上記の方法のうちの1つ以上では、方法は、第2の、リモート、位置で、アーカイブするための1つ以上の最下位レイヤよりも上の1つ以上のレイヤの符号化されたデータを受信することを更に含む。
任意選択で、上記の方法のうちの1つ以上では、方法は、受信された符号化されたデータを復号化して、1つ以上の最下位レイヤでの複数の入力信号の複数の再構成を取得することと、複数の再構成をアップスケールすることと、アップスケールされた再構成に対する分析を実行することと、を更に含む。例えば、図5のアップサンプラ526、522、及び530は、アップサンプリングされた再構成520、528、及び531のコンテンツを予測するように作用するニューラルネットワークアップサンプラを含み得る。特定の場合では、アップサンプリングされた再構成517、524、及び/又は532は、各レイヤの追加の残差データ(518、526など)がなくても、改善されたビデオ分析を提供し得る。この場合に、マルチレイヤ信号の復号化を表す図5の配置は、推論のための固定された入力解像度を有する種々のモジュール式ビデオ分析機能(例えば、分類のためのニューラルネットワークアーキテクチャ)に対応するために有利であり得る。このことは、ネットワーク輻輳がある場合、又は帯域幅が別様に制限されている場合に、有利であり得、すなわち、アップスケーリングは、超えるものが利用不可能なより高い解像度で、1つ以上のレイヤの符号化されたデータに応答して実行される。これらの場合に、ビデオ分析機能は、依然として、固定された品質レベルで適用され得、帯域幅が利用可能な場合、1つ以上のレイヤの残差データは、再び符号化、受信、及び復号化され、したがって、ビデオ分析機能の出力の改善につながり得る。これらの場合に、より低い解像度での再構成をより高い解像度での再構成にマッピングするためのパラメータ値を学習するために、アップスケールすることは、任意選択で、2つの空間解像度の画像上のバージョンを含む訓練セットで訓練されたニューラルネットワークアーキテクチャを使用する。
任意選択で、上記の方法のうちの1つ以上では、マルチレイヤ符号化は、SMPTE VC-6 2117に基づく符号化を含む。
任意選択で、上記の方法のうちの1つ以上では、マルチレイヤ符号化は、ISO/IEC MPEG-5 Part2 LCEVCに基づく符号化を含む。
以上の適切な方法は、第1の位置で符号化システムによって実装され得る。方法のうちの他のものは、第2の位置でリモート分析システムによって実装され得る。
本開示の実施形態は、従来技術における前述の問題を実質的に除去するか、又はこれに少なくとも部分的に対処し、当該分類が分類システムの位置にそれらの信号の全てを送信することを必要とすることなく、分散型深層学習分類システムが、異なる位置においてフル解像度及び品質で利用可能である信号の正確かつ効率的な分析を実行することを可能にする。
本明細書において説明される特定の実施例は、イベントサイトにおいて、無損失UHDp60に近いフル品質で、信号源のセット、例えば複数の全てのカメラを、非常に効率的に符号化することを可能にする。これらの実施例を使用すると、所与のLOQまでの品質に対応するバイトのみをリアルタイムでリモートサイトに送信することが可能である。VC-6の実施例では、これは、LOQ-4(マイナス4)であり得、場合によっては、輝度などの1つの色成分のみが送信され得る。クラウドデータセンタ又は配信センタのリモート処理デバイス及び/又は処理デバイスなどの、リモートサイトでは、効率的な検出パスが、これらの下位レベルの「プロキシビデオ」(すなわち、下位レベルのビデオからの再構成)に対して実行され得、関心のフレーム及び領域が、自動分析アルゴリズムに基づいて識別され得る。任意の識別された関心の部分を使用して、イベントサイトから、より高い品質及び/又は解像度の再構成を有するために必要である残差バイト又は差分バイトのセットをフェッチして、高品質レベル(例えば、最高で元のフル品質又はフル解像度の信号フィード)の再構成の部分に対して更なるビデオ分析を実行することを可能にし得る。
本明細書において説明される特定の実施例は、とりわけ、リモート/自宅での生成アプリケーション、メディアアーカイブ分析及び/若しくは配信、産業用アプリケーション、セキュリティ/監視アプリケーション、並びに/又はモノのインターネットアプリケーション、のためのアプリケーションを有し得る。これらの実施例では、高度なビデオ分析を「オンサイト」で実行する必要があることと、非常に低品質のフィードに対してクラウドで実行する必要があることと、の間の誤選択を回避する。代わりに、本実施例は、分析が、並列化されたAI処理パイプラインに容易に組み込まれ得るリアルタイムのインタラクティブな様式で、「リモートから」漸進的に実行されることを可能にする部分的なファイル呼び出しのメカニズムを提供する。
エッジ又はリモート処理デバイスを実装するための例示的な装置
図12を参照すると、装置1200の実施例の概略ブロック図が示されている。装置1200は、本明細書において説明される符号化演算を実行するエッジコンピューティングデバイスと、本明細書において説明されるリモート信号分析を実行するリモートコンピューティングデバイスと、のうちの1つ以上を実装するために使用され得る。ある場合では、エッジ位置及びリモート(すなわち、「クラウド」)位置のうち1つ以上に、複数の装置1200があり得る。
装置1200の実施例は、モバイルコンピュータ、パーソナルコンピュータシステム、無線デバイス、基地局、電話デバイス、デスクトップコンピュータ、ラップトップ、ノートブック、ネットブックコンピュータ、メインフレームコンピュータシステム、ハンドヘルドコンピュータ、ワークステーション、ネットワークコンピュータ、アプリケーションサーバ、ストレージデバイス、コンシューマエレクトロニクスデバイス(カメラ、カムコーダ、モバイルデバイス、ビデオゲームコンソール、ハンドヘルドビデオゲームデバイスのような)、周辺機器デバイス(スイッチ、モデム、ルータ、車両などのような)、又は一般に任意のタイプのコンピューティング若しくは電子デバイスを含むが、これらに限定されない。好ましい実施例では、装置は、サーバコンピューティングデバイスを含む。
この実施例では、装置1200は、情報及び/又は命令を処理するように構成された1つ以上のプロセッサ1201を備える。1つ以上のプロセッサ1201は、中央処理装置(CPU)を含み得る。1つ以上のプロセッサ1201は、バス1202と結合されている。1つ以上のプロセッサ1201によって実行される動作は、ハードウェア及び/又はソフトウェアによって実行され得る。1つ以上のプロセッサ1201は、複数の同じ位置にあるプロセッサ又は複数の別異に位置するプロセッサを含み得る。
この実施例では、装置1200は、1つ以上のプロセッサ1201の情報及び/又は命令を記憶するように構成された、コンピュータ使用可能な揮発性メモリ1203を備える。コンピュータ使用可能な揮発性メモリ1203は、バス1202と結合されている。コンピュータ使用可能な揮発性メモリ1203は、ランダムアクセスメモリ(RAM)を含み得る。
この実施例では、装置1200は、1つ以上のプロセッサ501の情報及び/又は命令を記憶するように構成された、コンピュータ使用可能な不揮発性メモリ1204を備える。コンピュータ使用可能な不揮発性メモリ1204は、バス1202と結合されている。コンピュータ使用可能な不揮発性メモリ1204は、読み取り専用メモリ(ROM)を含み得る。
この実施例では、装置1200は、情報及び/又は命令を記憶するように構成された1つ以上のデータ記憶ユニット1205を備える。1つ以上のデータ記憶ユニット1205は、バス1202と結合されている。1つ以上のデータ記憶ユニット1205は、例えば、磁気ディスク若しくは光学ディスク及びディスクドライブ、又はソリッドステートドライブ(SSD)を含み得る。
この実施例では、装置1200は、1つ以上のプロセッサ1201に、及び/又は1つ以上のプロセッサ1201から情報を伝達するように構成された1つ以上の入力/出力(I/O)デバイス1206を備える。1つ以上のI/Oデバイス506は、バス1202と結合されている。1つ以上のI/Oデバイス506は、少なくとも1つのネットワークインターフェースを含む。少なくとも1つのネットワークインターフェースは、装置1200が1つ以上のデータ通信ネットワークを介して通信することを可能にする。データ通信ネットワークの実施例としては、広域ネットワーク(インターネットなどのWAN)及びローカルエリアネットワーク(LAN)が挙げられるが、これらに限定されない。多くのデータ通信リンクは、当該技術分野で知られている複数の相互接続されたネットワークを介した通信を含み得る。1つ以上のI/Oデバイス1206は、ユーザが1つ以上の入力デバイス(図示せず)を介して装置1200に入力を提供することを可能にし得る。1つ以上のI/Oデバイス1206は、1つ以上の出力デバイス(図示せず)を介して、情報がユーザに提供されることを可能にし得る。
様々な他のエンティティが、装置1200のために描写されている。例えば、存在する場合、オペレーティングシステム1207、データ処理モジュール1208、1つ以上の更なるモジュール1209、及びデータ1210が、コンピュータ使用可能な揮発性メモリ1203、コンピュータ使用可能な不揮発性メモリ1204、及び1つ以上のデータ記憶ユニット1205のうちの1つ又は組み合わせに存在するものとして示されている。信号処理モジュール1208は、コンピュータ使用可能な不揮発性メモリ1204内のメモリ位置に格納されたコンピュータプログラムコード、1つ以上のデータ記憶ユニット1205内のコンピュータ可読記憶媒体、及び/又は他の有形のコンピュータ可読記憶媒体によって実装され得る。有形のコンピュータ可読記憶媒体の実施例としては、光学媒体(例えば、CD-ROM、DVD-ROM又はBlu-ray(登録商標))、フラッシュメモリカード、フロッピーディスク若しくはハードディスク、又は少なくとも1つのROM若しくはRAM若しくはプログラマブルROM(PROM)チップ内に、又は特定用途向け集積回路(ASIC)として、ファームウェア若しくはマイクロコードなどのコンピュータ可読命令を記憶することができる任意の他の媒体が挙げられるが、これらに限定されない。
したがって、装置1200は、1つ以上のプロセッサ1201によって実行され得るデータ処理モジュール1208を備え得る。データ処理モジュール1208は、本明細書において説明される動作のうちの少なくともいくつかを実装するための命令を含むように構成され得る。動作中、1つ以上のプロセッサ1201は、データ処理モジュール1208において命令を起動、ラン、実行、解釈、又は別様に実行する。
図面を参照して本明細書で説明される実施例の少なくとも一部の態様は、処理システム又はプロセッサで実行されるコンピュータプロセスを含むが、本明細書で説明される実施例は、実施例を実施するように適合されたコンピュータプログラム、例えば、キャリア上又はキャリア内のコンピュータプログラムにも及ぶ。キャリアは、プログラムを保持できる任意のエンティティ又はデバイスであり得る。
装置1200は、図12に描写されるものから、より多い、より少ない、及び/又は異なる構成要素を備え得ることが理解されよう。エッジ及びクラウドの位置の各々で、装置1200は、単一のエンティティとして、又は分散コンピューティングプラットフォームとして実装され得る。例えば、リモート処理デバイスは、高速データ通信リンクと相互接続される複数の処理デバイスを備え得る(例えば、エッジとリモート処理デバイスとの間のより限定されたリンクと比較して)。同様に、エッジ位置での処理は、複数の相互接続されたデバイス(例えば、LANを介して結合された)によって実行され得る。
本明細書において説明される技術は、ソフトウェア又はハードウェアとして実装され得るか、又はソフトウェア及びハードウェアの組み合わせを使用して実装され得る。これらは、本明細書において説明される技術のいずれか又は全てを実行及び/又はサポートするように装置を構成することを含み得る。
上記の実施形態は、例示的な例として理解されるべきである。更なる実施形態が想定される。特定の特徴の省略を含む、説明されるオプション及び特徴の異なる組み合わせは、明示的に可能とされ、異なる実装態様で提供され得る。例えば、任意の1つの実施例に関連して説明される任意の特徴が、単独で、又は説明される他の特徴と組み合わせて使用され得、また、実施例のうちの任意の他のものの1つ以上の特徴、又は実施例のうちの任意の他の任意の組み合わせと組み合わせて使用され得ることを理解されたい。更に、添付の特許請求の範囲において定義されている本発明の範囲から逸脱することなく、上で説明されていない均等物及び改変形態が採用され得る。

Claims (27)

  1. 複数のビデオカメラフィードを分析する方法であって、
    第1の位置で、レイヤベースの符号化を使用して、前記レイヤベースの符号化内の複数のレイヤの各々について符号化されたデータストリームを生成することを含めて、前記複数のビデオカメラフィードを符号化することであって、前記複数のレイヤ中の異なるレイヤは、異なる空間解像度に対応し、より高位のレイヤは、より高い空間解像度を表す、符号化することと、
    前記第1の位置からリモートの第2の位置に、前記複数のビデオカメラフィードの1つ以上の最下位レイヤの符号化されたデータストリームを送信することと、
    前記第2の位置で、前記符号化されたデータストリームを復号化して、第1の空間解像度で前記複数のビデオカメラフィードの再構成のセットを生成することと、
    前記再構成のセットに1つ以上のビデオ分析機能を適用して、更なる分析のための1つ以上のビデオカメラフィードを識別することと、
    前記更なる分析のための識別された1つ以上のビデオカメラフィードの前記第1の位置に、前記1つ以上の最下位レイヤよりも上の1つ以上のレイヤの更なる符号化されたデータストリームに対する要求を伝送することと、
    前記要求に応答して、前記第2の位置に、前記1つ以上の最下位レイヤよりも上の1つ以上のレイヤの前記更なる符号化されたデータストリームを送信することと、
    前記第2の位置で、前記更なる符号化されたデータストリームを復号化して、第2の空間解像度で、前記識別された1つ以上のビデオカメラフィードの再構成のセットを生成することと、
    前記第2の空間解像度の前記再構成のセットに1つ以上のビデオ分析機能を適用することと、を含む、方法。
  2. リモート信号分析の方法であって、
    少なくとも1つのネットワークを介したコンピューティングデバイスで、複数の入力信号に対応する複数の符号化された信号ストリームの符号化されたデータを受信することであって、
    前記複数の入力信号の前記符号化は、前記コンピューティングデバイスからリモートの符号化位置で実行され、
    前記符号化された信号ストリームは、レイヤベースの符号化を使用して符号化され、
    前記レイヤベースの符号化における異なるレイヤは、異なる品質レベルに対応し、より高位のレイヤは、より高い品質レベルを表し、
    前記受信された符号化されたデータは、前記レイヤベースの符号化内の1つ以上の最下位レイヤに関連付けられた符号化されたデータを含む、受信することと、
    前記受信された符号化されたデータを復号化して、前記1つ以上の最下位レイヤでの前記複数の入力信号の複数の再構成を取得することと、
    前記複数の入力信号の再構成のうちの少なくとも1つを処理して、更なる処理のための、前記符号化された信号ストリームの部分を判定することと、
    前記符号化位置から、前記符号化された信号ストリームの前記判定された部分に関連付けられた、前記1つ以上の最下位レイヤよりも上の1つ以上のレイヤの符号化されたデータを要求することと、を含む、方法。
  3. 符号化方法であって、
    第1の位置で、複数の入力信号に対応する複数の符号化された信号ストリームの符号化されたデータを生成することであって、
    前記符号化された信号ストリームは、レイヤベースの符号化を使用して符号化され、
    前記レイヤベースの符号化における異なるレイヤは、異なる品質レベルに対応し、より高位のレイヤは、より高い品質レベルを表し、
    前記受信された符号化されたデータは、前記レイヤベースの符号化内の1つ以上の最下位レイヤに関連付けられた符号化されたデータを含む、生成することと、
    前記符号化されたデータを復号化のために前記第1の位置からリモートの第2の位置に送信することと、
    前記1つ以上の最下位レイヤよりも上の1つ以上のレイヤの更なる符号化されたデータに対する要求を受信することであって、前記要求は、前記複数の入力信号のうちの1つ以上に関連する、受信することと、
    前記更なる符号化されたデータを前記第2の位置に送信することと、を含む、符号化方法。
  4. 異なる空間解像度に異なる品質レベルが対応し、より高位のレイヤは、より高い空間解像度を表す、請求項2又は3に記載の方法。
  5. 前記レイヤベースの符号化は、最も低い空間解像度の基本レイヤと、前記基本レイヤよりも上のより高い空間解像度の複数の残差レイヤと、を含み、前記複数の残差レイヤ中の所与の残差レイヤは、前記レイヤの解像度の入力信号から導出されたデータと、より下位のレイヤから導出されたデータと、の比較に基づいて判定される、請求項1又は4に記載の方法。
  6. 前記1つ以上の最下位レイヤでの前記複数の入力信号の再構成のうちの少なくとも1つにおける関心の領域を判定することと、
    前記関心の領域に関連する更なる符号化されたデータを要求することと、を含む、先行請求項のいずれか一項に記載の方法。
  7. 前記更なる符号化されたデータを使用して、前記1つ以上の最下位レイヤよりも上の1つ以上のレイヤにおける、前記関心の領域のための再構成のセットを生成することを更に含む、請求項6に記載の方法。
  8. 最も高い品質レベルで再構成を生成するために必要とされる差分の符号化されたデータを判定することであって、前記差分の符号化されたデータは、前記受信された符号化されたデータ及び前記受信された更なる符号化されたデータを除外する、判定することと、
    前記差分の符号化されたデータを前記第1の位置から要求することと、を含む、請求項6又は7に記載の方法。
  9. 前記1つ以上の最下位レイヤで、前記複数の入力信号の再構成のうちの少なくとも1つ内で物体検出を実行することを含む、先行請求項のいずれか一項に記載の方法。
  10. 前記1つ以上の最下位レイヤよりも上の1つ以上のレイヤで、前記複数の入力信号の再構成のうちの少なくとも1つ内で物体検出を実行することを含む、先行請求項のいずれか一項に記載の方法。
  11. 前記方法は、
    更なる分析のための、前記複数の入力信号のうちの1つ以上のフレームの1つ以上のセットを識別することと、
    更なる分析のための1つ以上の入力源を識別することと、のうちの1つ以上を含み、
    前記識別は、前記第1の、符号化、位置、及び前記第2の、分析位置のうちの1つ以上で実行される、先行請求項のいずれか一項に記載の方法。
  12. 前記識別されたフレーム又は前記識別された入力源の前記1つ以上の最下位レイヤよりも上のレイヤの符号化されたデータを送信することを含む、請求項11に記載の方法。
  13. 符号化されたデータを信号分析のためのリモートサーバに送信することと、
    符号化されたデータを複数のユーザに送信することと、を含む、先行請求項のいずれか一項に記載の方法。
  14. 符号化されたデータを複数のユーザに送信することは、符号化されたデータを前記複数のユーザへの配信のための配信センタに送信することを含む、請求項13に記載の方法。
  15. 前記リモートサーバで再構成のセットを分析して、前記配信センタに送信される1つ以上の入力源の符号化されたデータのレイヤのセットを判定することを含む、請求項14に記載の方法。
  16. 前記複数の入力信号又は前記複数のビデオ入力フィードは、ライブイベントをキャプチャするための複数のビデオカメラに関連付けられ、前記リモートサーバは、前記複数のビデオカメラのうちのいずれを前記複数のユーザへの送信のために選択するかと、前記選択されたビデオカメラについて前記複数のユーザに送信するための前記符号化されたデータの前記品質レベルと、を判定する、請求項15に記載の方法。
  17. 各品質レベルは、異なる符号化ビットレートを有する、請求項2又は3に記載の方法。
  18. 前記第1の、符号化位置から送信された前記符号化されたデータは、符号化された信号成分のサブセットの符号化されたデータを含む、先行請求項のいずれか一項に記載の方法。
  19. 前記符号化された信号成分は、前記ビデオ信号の異なる色成分を含み、符号化された成分の前記サブセットは、少なくとも明度成分又は輝度成分を含む、請求項18に記載の方法。
  20. 前記第2の、リモート、位置で、アーカイブするための前記1つ以上の最下位レイヤよりも上の1つ以上のレイヤの符号化されたデータを受信することを含む、先行請求項のいずれか一項に記載の方法。
  21. 前記受信された符号化されたデータを復号化して、前記1つ以上の最下位レイヤでの前記複数の入力信号の複数の再構成を取得することと、
    前記複数の再構成をアップスケールすることと、
    前記アップスケールされた再構成に対する分析を実行することと、を含む、先行請求項のいずれか一項に記載の方法。
  22. より低い解像度での再構成をより高い解像度での再構成にマッピングするためのパラメータ値を学習するために、前記アップスケールすることは、2つの空間解像度の画像上のバージョンを含む訓練セットで訓練されたニューラルネットワークアーキテクチャを使用する、請求項21に記載の方法。
  23. 前記アップスケーリングは、超えるものが利用不可能な前記より高い解像度で、1つ以上のレイヤの符号化されたデータに応答して実行される、請求項22に記載の方法。
  24. 前記マルチレイヤ符号化は、SMPTE VC-6 2117に基づく符号化を含む、先行請求項のいずれか一項に記載の方法。
  25. 前記マルチレイヤ符号化は、ISO/IEC MPEG-5 Part2 LCEVCに基づく符号化を含む、請求項1~24のいずれか一項に記載の方法。
  26. 請求項3に従属する場合の請求項4~25のいずれか一項に記載の方法を実装する符号化システム。
  27. 請求項2に従属する場合の請求項4~25のいずれか一項に記載の方法を実装するリモート分析システム。
JP2023522481A 2020-10-16 2021-10-15 マルチレイヤ信号符号化の分散解析 Pending JP2023546392A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB2016457.0 2020-10-16
GB2016457.0A GB2601990A (en) 2020-10-16 2020-10-16 Distributed analysis of a multi-layer signal encoding
PCT/GB2021/052685 WO2022079450A1 (en) 2020-10-16 2021-10-15 Distributed analysis of a multi-layer signal encoding

Publications (1)

Publication Number Publication Date
JP2023546392A true JP2023546392A (ja) 2023-11-02

Family

ID=73598383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023522481A Pending JP2023546392A (ja) 2020-10-16 2021-10-15 マルチレイヤ信号符号化の分散解析

Country Status (6)

Country Link
US (1) US20230370624A1 (ja)
EP (1) EP4229870A1 (ja)
JP (1) JP2023546392A (ja)
CN (1) CN116458163A (ja)
GB (1) GB2601990A (ja)
WO (1) WO2022079450A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024016106A1 (en) * 2022-07-18 2024-01-25 Intel Corporation Low-complexity enhancement video coding using multiple reference frames
GB202215675D0 (en) * 2022-10-21 2022-12-07 V Nova Int Ltd Distributed analysis of a multi-layer signal encoding
GB2620655A (en) 2022-11-01 2024-01-17 V Nova Int Ltd Image processing using residual frames and differential frames

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA201492099A1 (ru) 2012-05-14 2015-04-30 Лука Россато Разложение остаточных данных при кодировании, декодировании и реконструкции сигнала в многоуровневой иерархии
US20150373341A1 (en) * 2014-06-23 2015-12-24 Cisco Technology, Inc. Techniques for Interactive Region-Based Scalability
WO2018037665A1 (ja) * 2016-08-22 2018-03-01 日本電気株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム
US20190034734A1 (en) * 2017-07-28 2019-01-31 Qualcomm Incorporated Object classification using machine learning and object tracking
US10891525B1 (en) * 2017-09-15 2021-01-12 Amazon Technologies, Inc. Streaming-based deep learning models for computer vision tasks
US11042770B2 (en) * 2017-10-09 2021-06-22 EagleSens Systems Corporation Artificial intelligence based image data processing method and image sensor
EP3721624A1 (en) 2017-12-06 2020-10-14 V-Nova International Limited Methods and apparatuses for hierarchically encoding and decoding a bytestream
EP3633990B1 (en) * 2018-10-02 2021-10-27 Nokia Technologies Oy An apparatus and method for using a neural network in video coding
GB201908045D0 (en) * 2019-06-05 2019-07-17 V Nova Int Ltd Object analysis

Also Published As

Publication number Publication date
GB2601990A (en) 2022-06-22
WO2022079450A1 (en) 2022-04-21
US20230370624A1 (en) 2023-11-16
CN116458163A (zh) 2023-07-18
GB202016457D0 (en) 2020-12-02
EP4229870A1 (en) 2023-08-23

Similar Documents

Publication Publication Date Title
US10750179B2 (en) Decomposition of residual data during signal encoding, decoding and reconstruction in a tiered hierarchy
US10771796B2 (en) Encoding and decoding based on blending of sequences of samples along time
GB2619627A (en) Low complexity enhancement video coding
US20220385911A1 (en) Use of embedded signalling for backward-compatible scaling improvements and super-resolution signalling
US10136147B2 (en) Efficient transcoding for backward-compatible wide dynamic range codec
JP2023546392A (ja) マルチレイヤ信号符号化の分散解析
EP2698997A1 (en) Encoder and method
JP7432032B2 (ja) ビデオエンコードおよびデコード方法、および装置
TW201415897A (zh) 解碼器及解碼方法
US20240048738A1 (en) Methods, apparatuses, computer programs and computer-readable media for processing configuration data
US20220182654A1 (en) Exchanging information in hierarchical video coding
EP4252426A2 (en) Video decoding using post-processing control
US20240040160A1 (en) Video encoding using pre-processing
WO2024084248A1 (en) Distributed analysis of a multi-layer signal encoding
WO2023111574A1 (en) Digital image processing
EA040379B1 (ru) Способ и устройство кодирования, декодирования видеосигнала в иерархии уровней качества