JP2019512938A - 量子化パラメータに基づくビデオ処理のためのシステム及び方法 - Google Patents

量子化パラメータに基づくビデオ処理のためのシステム及び方法 Download PDF

Info

Publication number
JP2019512938A
JP2019512938A JP2018547306A JP2018547306A JP2019512938A JP 2019512938 A JP2019512938 A JP 2019512938A JP 2018547306 A JP2018547306 A JP 2018547306A JP 2018547306 A JP2018547306 A JP 2018547306A JP 2019512938 A JP2019512938 A JP 2019512938A
Authority
JP
Japan
Prior art keywords
image
neural network
image block
circuits
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018547306A
Other languages
English (en)
Other versions
JP6717385B2 (ja
Inventor
ペン イェ
ペン イェ
シュン シュ
シュン シュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JP2019512938A publication Critical patent/JP2019512938A/ja
Application granted granted Critical
Publication of JP6717385B2 publication Critical patent/JP6717385B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本明細書では、量子化パラメータに基づくビデオ処理のためのシステム及び方法の様々な態様を開示する。ある実施形態では、方法が、画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出することを含む。抽出された複数の特徴をマッピングして最適な量子化パラメータを決定するようにニューラルネットワーク回帰器を訓練する。決定された最適な量子化パラメータを用いて画像ブロックを符号化する。【選択図】図5A

Description

〔関連出願との相互参照/引用による組み入れ〕
なし
本開示の様々な実施形態は、ビデオ処理に関する。具体的には、本開示の様々な実施形態は、量子化パラメータに基づくビデオ処理に関する。
ビデオ処理技術分野の進歩は、デジタル産業、並びにその関連する装置及びアプリケーションに革命をもたらした。高解像度ビデオコンテンツサービスの人気と共に、ビデオ符号化技術の発展が重要性を増してきた。
シナリオによっては、ビデオコンテンツの1又は2以上の画像ブロックを符号化するために使用するビット数を減少させながら異なる画像ブロック及び/又は画像フレームにわたってビデオコンテンツの一定の品質レベルを維持することが困難な場合がある。異なる画像ブロック及び/又は画像フレームにわたってビデオ品質が変動しないようにして符号化ビデオの全体的なビデオ品質を最適化できるように、高度な系統的技術が必要となり得る。
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら説明する本開示のいくつかの態様との比較を通じて、従来の伝統的な方法のさらなる制限及び不利点が明らかになるであろう。
実質的に少なくとも1つの図に示し、及び/又はこれらの図に関連して説明し、特許請求の範囲にさらに完全に示すような、量子化パラメータに基づくビデオコンテンツ処理のためのシステム及び方法。
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
本開示の実施形態による、開示する量子化パラメータに基づくビデオ処理システム及び方法を実装するためのネットワーク環境を示すブロック図である。 本開示の実施形態による例示的なビデオ処理装置を示すブロック図である。 本開示の実施形態による、開示する量子化パラメータに基づくビデオ処理システム及び方法を実装するための例示的な最適量子化パラメータ予測技術を示す図である。 本開示の実施形態による、開示する量子化パラメータに基づくビデオ処理システム及び方法を実装するためのフィードフォワードニューラルネットワークの例示的な概要を示す図である。 本開示の実施形態による、量子化パラメータに基づく例示的なビデオ処理方法を示すフローチャートである。 本開示の実施形態による、量子化パラメータに基づく例示的なビデオ処理方法を示すフローチャートである。
開示する量子化パラメータに基づくビデオ処理システム及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出できる方法を含むことができる。ニューラルネットワーク回帰器を、抽出された複数の特徴をマッピングして最適な量子化パラメータ(QP)を決定するように訓練することができる。決定された最適なQPを用いて画像ブロックを符号化することができる。
ある実施形態によれば、第1の画像フレームの画像ブロックのための複数の再構成画像ブロックを生成するために使用される複数のQPを用いて、第1の画像フレームの画像ブロックを符号化することができる。複数の再構成画像ブロックの各々に画像品質尺度を利用して、画像ブロックのための最適なQPを決定することができる。
ある実施形態によれば、画像品質尺度は、畳み込みニューラルネットワークに基づく全参照型画像品質尺度(full−reference image quality measure)とすることができる。この画像品質尺度を用いて、複数の再構成画像ブロックの各々のスコアを生成することができる。このスコアは、複数の再構成画像ブロックの各々の視覚的品質尺度を示すことができる。
ある実施形態によれば、決定された最適なQPの値は、画像ブロックのための複数の再構成画像ブロックを生成するために使用される複数のQPの値の中で最も高いものとすることができる。また、決定された最適なQPの値は、予め指定された品質閾値以上とすることもできる。
ある実施形態によれば、画像ブロックの決定された最適なQPに対応する抽出された複数の特徴に基づいて訓練データセットを生成することができる。生成された訓練データセットは、ビデオの第1の画像フレームの他の画像ブロックの複数の特徴と、対応する最適なQPとを含むことができる。他の画像ブロックの複数の特徴は、この他の画像ブロックのテクスチャ情報を捕獲するために抽出することができる。
ある実施形態によれば、生成された訓練データセットを利用してニューラルネットワーク回帰器を訓練することができる。訓練されたニューラルネットワーク回帰器に基づいて、画像ブロックの抽出された複数の特徴と決定された最適なQPとの間のマッピング関数を決定することができる。ある実施形態によれば、ニューラルネットワーク回帰器は、フィードフォワードニューラルネットワークベースの回帰モデルとすることができる。訓練されたニューラルネットワーク回帰器に基づいて、第2の画像フレームの別の画像ブロックのための別の最適なQPを予測することができる。
図1は、本開示の実施形態による、開示する量子化パラメータに基づくビデオ処理システム及び方法を実装するためのネットワーク環境を示すブロック図である。図1には、ビデオ処理装置102と、ディスプレイ装置104と、通信ネットワーク106と、ビデオ108と、ユーザ110などの1又は2以上のユーザとを示す。
ある実施形態によれば、ビデオ処理装置102は、通信ネットワーク106を介してディスプレイ装置104及び1又は2以上のサーバ(図示せず)に通信可能に結合することができる。ある実施形態によれば、ユーザは、ディスプレイ装置104及び/又はビデオ処理装置102に関連することができる。
ビデオ処理装置102は、ビデオ108などの1又は2以上のビデオコンテンツを処理して符号化ビデオを生成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ビデオ処理装置102の例としては、以下に限定するわけではないが、デジタルカメラ、ビデオカメラ、ビデオコーデック、スマートフォン、プロジェクタ、タブレットコンピュータ、ラップトップ、サーバ、ゲーム装置、メディアストリーミング装置、ビデオ会議装置、及び/又はエンコーダ、及び/又はその他のコンピュータ装置を挙げることができる。
ディスプレイ装置104は、復号後の符号化ビデオを表示するように構成された好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ディスプレイ装置104の例としては、以下に限定するわけではないが、(高精細テレビ(HDTV)などの)テレビ、超高精細テレビ(UHDTV)、インターネットプロトコルテレビ(IPTV)、デジタルメディア受信機、メディア再生装置、ビデオコーデック、スマートフォン、ゲーム装置、ビデオ会議装置、及び/又はデコーダ、及び/又はその他のコンピュータ装置を挙げることができる。
通信ネットワーク106は、ビデオ処理装置102がディスプレイ装置104などの1又は2以上のディスプレイ装置及び1又は2以上のサーバと通信できるようにする媒体を含むことができる。通信ネットワーク106の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、無線ローカルエリアネットワーク(WLAN)、ローカルエリアネットワーク(LAN)、旧式電話回線(POTS)、及び/又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク106に接続することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ロングタームエボリューション(LTE)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、赤外線(IR)、IEEE802.11、802.16、セルラー通信プロトコル、及び/又はBluetooth(登録商標)(BT)通信プロトコルを挙げることができる。
ビデオ処理装置102は、動作時にビデオ108の画像シーケンスを受け取るように構成することができる。ビデオ処理装置102は、画像ブロックのテクスチャ情報を捕獲するための(図2で説明する)複数の特徴を抽出するように構成することができる。この画像ブロックは、ビデオ108の第1の画像フレームの入力画像ブロックを意味することができる。ビデオ処理装置102は、複数のQPを用いて第1の画像フレームの画像ブロックを符号化して、第1の画像フレームの入力画像ブロックのための複数の再構成画像ブロックを生成するように構成することができる。
ある実施形態によれば、ビデオ処理装置102は、複数の再構成画像ブロックの各々のスコアを生成するように構成することができる。スコアは、画像品質尺度を用いて生成することができる。画像品質尺度は、畳み込みニューラルネットワークに基づく全参照型画像品質尺度(FRCNN)とすることができる。しかしながら、画像品質尺度は、本開示の範囲から逸脱することなく、他の全参照法(full reference method)、減参照法(reduced reference method)及び/又は無参照法(no reference method)などの、客観的画像品質評価のための他のいずれかの方法とすることもできる。生成されたスコアは、複数の再構成画像ブロックの各々の視覚的品質尺度を示すことができる。
ある実施形態によれば、ビデオ処理装置102は、(図3に示して詳述する)複数のQP値の中から、画像ブロックのための最適な量子化パラメータを決定するように構成することができる。画像ブロックのための最適なQPは、複数の再構成画像ブロックの各々のためのFRCNNなどの画像品質尺度と品質閾値とを用いて決定することができる。決定された最適なQPの値は、複数のQPの値の中で最も高いものとすることができる。決定された最適なQPの値は、予め指定された画像品質閾値以上とすることができる。
ある実施形態によれば、ビデオ処理装置102は、決定された最適な量子化パラメータを用いて画像ブロックを符号化するように構成することができる。ビデオ処理装置102は、ビデオ108の第1の画像フレームの別の画像ブロックの複数の特徴を抽出するように構成することができる。ビデオ処理装置102は、この別の画像ブロックのための最適なQPを決定するようにさらに構成することができる。この決定は、FRCNNなどの画像品質尺度と品質閾値とを用いて、上述した過程と同様の過程で行うことができる。
ある実施形態によれば、ビデオ処理装置102は、訓練データセットを生成するように構成することができる。訓練データセットは、画像ブロックの抽出された複数の特徴と、対応する決定された最適なQPとに基づくことができる。同様に、他の画像ブロックの抽出された複数の特徴と対応する決定された最適なQPとを利用して訓練データセットを形成することもできる。ビデオ108の少なくとも第1の画像フレームなどの1又は2以上の画像フレームの様々な画像ブロックの複数の特徴と関連する最適なQPとを使用することにより、大量の訓練データセットを生成することができる。
ある実施形態によれば、ビデオ処理装置102は、生成された訓練データセットに基づいてニューラルネットワーク回帰器を訓練するように構成することができる。ある実施形態によれば、ニューラルネットワーク回帰器は、フィードフォワードニューラルネットワークに基づく回帰モデルとすることができる。ビデオ処理装置102は、ニューラルネットワーク回帰器の訓練において、(画像ブロック及び他の画像ブロックなど)様々な画像ブロックの抽出された複数の特徴と決定された最適なQPとの間のマッピング関数及び/又はマッピング関係を決定するように構成することができる。
ある実施形態によれば、ビデオ処理装置102は、ニューラルネットワーク回帰器の訓練後に、ビデオ108又は別のビデオの第2の画像フレームなどの後続の画像フレームの画像ブロックを処理するように構成することができる。ビデオ処理装置102は、訓練されたニューラルネットワーク回帰器を用いて、第2の画像フレームの画像ブロックのための別の最適なQPを決定(又は予測)するように構成することができる。同様に、関連する最適なQPを用いて、ビデオ108の第2の画像フレーム及び他の画像フレームの様々な画像ブロックを効率的に素早く符号化することもできる。最適なQPは、訓練されたニューラルネットワーク回帰器に基づいて予測することができ、この最適なQPを用いて符号化ビデオを生成することができる。上述したような符号化技術を用いて符号化されたビデオ108は、符号化ビデオの異なる画像ブロック及び/又は符号化画像フレームにわたって一貫した視覚的品質を保つことができる。
ある実施形態によれば、符号化ビデオは、ビデオ108を記憶するために必要な記憶スペースと比べて少ない記憶スペースで記憶することができる。量子化動作は非可逆圧縮であるため、異なる画像ブロック及び/又は画像フレームにわたってビデオ品質の一貫性を保ちながら高圧縮を達成することができる。この圧縮は、上述したような符号化技術を用いて実現することができる。ビデオ処理装置102は、符号化ビデオをビデオ処理装置102の又はコンテンツサーバ(図示せず)の(メモリなどの)ローカルストレージに記憶することができる。ある実施形態によれば、符号化ビデオと共に、符号化で使用した最適なQPの値を記憶することもできる。
ある実施形態によれば、ビデオ処理装置102において、符号化中に使用した同じ最適なQPを用いて符号化ビデオを復号することができる。再生中には、異なる画像ブロック及び/又は画像フレームにわたってビデオ品質が変動しないようにすることができる。さらに、ユーザ110などのユーザが視聴する際に全体的なビデオ品質を最適化することもできる。ある実施形態によれば、符号化ビデオは、通信ネットワーク106を介してディスプレイ装置104などの1又は2以上のディスプレイ装置に送信することができる。このような場合、符号化ビデオは、ディスプレイ装置104において復号した後に表示することができる。再生中にユーザ110が知覚するような全体的なビデオ品質を高度に最適化することができる。
図2は、本開示の実施形態による例示的なビデオ処理装置を示すブロック図である。図2には、ビデオ処理装置102を示す。ビデオ処理装置102は、プロセッサ202などの1又は2以上のプロセッサと、メモリ204と、ネットワークインターフェイス206とを含むことができる。プロセッサ202は、メモリ204及びネットワークインターフェイス206に通信可能に結合することができる。ネットワークインターフェイス206は、通信ネットワーク106を介してディスプレイ装置104及び1又は2以上のサーバと通信するように構成することができる。
プロセッサ202は、メモリ204に記憶された命令セットを実行するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。プロセッサ202は、ビデオプロセッサと呼ぶこともできる。プロセッサ202は、当業で周知の多くのプロセッサ技術に基づいて実装することができる。プロセッサ202の例は、X86ベースプロセッサ、X86−64ベースプロセッサ、縮小命令セットコンピュータ(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピュータ(CISC)プロセッサ、中央処理装置(CPU)、明示的並列命令コンピュータ(EPIC)プロセッサ、超長命令語(VLIW)プロセッサ、及び/又はその他のプロセッサ又は回路とすることができる。
メモリ204は、プロセッサ202が実行できる機械コード及び/又は命令セットを記憶するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。メモリ204は、ビデオ108などのビデオコンテンツ、符号化ビデオ及び/又はその他のデータをさらに記憶することができる。メモリ204は、オペレーティングシステム及び関連するアプリケーションをさらに記憶することができる。メモリ204の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電子的消去可能プログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、CPUキャッシュ及び/又はセキュアデジタル(SD)カードを挙げることができる。
ネットワークインターフェイス206は、通信ネットワーク106を介してディスプレイ装置104及び1又は2以上のサーバと通信するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス208は、ビデオ処理装置102と通信ネットワーク110との間の有線又は無線通信を支援する既知の技術を実装することができる。ネットワークインターフェイス208は、以下に限定するわけではないが、アンテナ、トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、加入者アイデンティティモジュール(SIM)カード及び/又はローカルバッファなどの様々なコンポーネントを含むことができる。ネットワークインターフェイス206は、図1で通信ネットワーク106に関して上述したような様々な通信プロトコルを用いて有線又は無線通信を介して通信することができる。
プロセッサ202は、動作時にビデオ108の画像シーケンスを受け取るように構成することができる。プロセッサ202は、ビデオ108の第1の画像フレームの画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出するように構成することができる。ある実施形態によれば、テクスチャ情報を捕獲するために使用される複数の特徴を、Haralickテクスチャ記述子、トータルバリエーション(total−variation)及び分散特徴(variance feature)とすることができる。Haralickテクスチャ記述子は、グレーレベル同時生起行列(GLCM)から計算されて、当業で周知の角二次モーメント(ASM)、コントラスト、相関、二乗和、逆差分モーメント、和平均、和分散、和エントロピ、エントロピ、差分分散、差分エントロピ、相関1の情報尺度及び相関2の情報尺度などの伝統的な13種類のテクスチャ特徴を提供することができる。GLCMは、画素の「N」個のグレーレベル及び(上、隣、斜めの関係などの)空間関係について、所与の空間関係の下で2つのグレーレベルが同時に発生し得る確率を捕獲する「N×N」の行列である。GLCM特徴は、GLCM行列に基づいて統計的に計算することができる。ある実施形態によれば、GLCMを計算するために使用するグレーレベルの数を様々な要件に応じて適切に変化させることができる。トータルバリエーション及び分散特徴は、処理できる画像又は画像ブロック内の画素値の統計をもたらすことができる。
ある実施形態によれば、複数の特徴を様々な粒度で抽出するために、入力画像ブロックを一連の格子状のさらに小さな部分画像に順次分割することができる。格子のサイズは、1×1(元々の画像ブロック)、2×2、4×4及び8×8のうちの1つとすることができる。グリッドの各々について、上述した複数の特徴を部分画像毎に抽出し、その後にこれらの部分特徴を連結して、(図4に示すフィードフォワードニューラルネットワークなどの)QP予測ニューラルネットワーク内に供給するために後で使用できる最終的な特徴ベクトルにする。テクスチャ情報を捕獲するための複数の特徴は、QP予測ニューラルネットワークの入力層を構成することができる。例えば、この例では、QP予測ニューラルネットワークの入力層を構成できる特徴を全部で15個(Haralickテクスチャ記述子からの13個のテクスチャ特徴と、トータルバリエーション及び分散から1つずつの特徴)抽出することができる。(図4のフィードフォワードニューラルネットワークなどの)QP予測ニューラルネットワークに使用される複数の特徴は、基礎を成すテクスチャ特徴を素早く計算して(図3及び図4で説明するような)QPマッピング戦略に効果的に近づけることができる。
図3に、本開示の実施形態による、開示するQPに基づくビデオ処理システム及び方法を実装するための例示的な最適QP予測技術を示す。図3には、未圧縮画像ブロックとすることができる画像ブロック302と、複数のQP値304と、再構成画像ブロック306a〜306nなどの複数の再構成画像ブロック306と、画像品質尺度308と、複数のスコア310とを示す。
ブロックベースのビデオ符号化技術では、画像ブロック302などの画像ブロックを符号化するために使用されるビット数がQPによって決まる。さらに、画像ブロック302の再構成画像ブロック306a〜306nなどの1又は2以上の再構成ブロックの視覚的品質もQPによって制御される。一般に、QPが小さければ小さいほど高い視覚的品質が得られる。しかしながら、こうして確定されるこのような高い視覚的品質は、高ビットレートを犠牲にして生じることもある。理想は、QP=「1」などの小さなQPを用いて最適な視覚的品質を達成できることである。しかしながら、ビットレートは、通信ネットワーク106などのネットワークの帯域幅などの外部リソースによって制限されることがある。所与のレートでは、ビデオ品質が一貫性を有し、従ってビデオ108などのビデオの異なる画像ブロック及び画像フレームにわたって変動しないように、画像ブロック毎にQPが正しく割り当てられることが必要となり得る。
ある実施形態によれば、プロセッサ202を、ビデオ108の第1の画像フレームの画像ブロック302を符号化するように構成することができる。このような例では、QP値「1」〜「N」(QP1〜QPN)などの複数のQP値304を用いて再構成画像ブロック306a〜306nを生成することができる。例えば、「N」=「1」〜「52」の時には、「1」〜「52」の範囲のQP値を用いて画像ブロック302を符号化することができる。この処理では、全部で「52」個の再構築(又は劣化)画像ブロックを取得することができる。次に、再構成画像ブロック306a〜306nの各々の視覚的品質を測定することができる。画像品質尺度は、主観テストを通じて人間が割り当てることが望ましいと考えられる。しかしながら、このような大規模な主観テストの実行には時間もコストも掛かり得る。
画像歪みの測定には、ピーク信号対雑音比(PSNR)又は平均二乗誤差(MSE)などの信号忠実性尺度(signal fidelity meaures)が広く使用されている。しかしながら、人間の知覚は、このような尺度と良好に相関しない。例えば、同じPSNRを有する2つのブロックが、大きく異なる知覚品質を有することもある。従って、不十分な品質尺度を使用すると、ブロック及びフレームにわたって品質が変動してしまう恐れがある。このような変動は、視覚又は視覚的品質を著しく悪化させる可能性がある。主観的品質に近くなるように適切な画像品質尺度を使用することができる。
ある実施形態によれば、プロセッサ202を、畳み込みニューラルネットワークに基づく全参照型画像品質尺度(FRCNN)を利用して再構成画像ブロック306a〜306nの各々の視覚的品質を決定するように構成することができる。FRCNN品質尺度は、主観的品質に近く、信頼性、計算効率及びコスト効率の高い画像品質尺度とすることができる。
ある実施形態によれば、プロセッサ202を、FRCNNなどの画像品質尺度を用いて、複数の再構成画像ブロック306の各々について「S1〜SN」などのスコアを生成するように構成することができる。生成されるスコアは、複数の再構成画像ブロック306の各々の視覚的品質尺度を示すことができる。スコアが高ければ高いほど品質が高いことを示すことができる。次に、再構成ビデオにおいて達成する必要がある品質レベルを表す品質閾値を指定することができる。プロセッサ202は、品質閾値と、FRCNNなどの画像品質尺度を用いて生成される複数のスコア310とに基づいて最適なQPを決定するように構成することができる。最適なQPは、品質閾値を満たす複数のQP304の中で最も高いQP値とすることができる。ある実施形態によれば、品質閾値を、予め指定された閾値とすることができる。例えば、画像ブロック302(未圧縮画像ブロック)「I」及び品質閾値「θ」について、画像ブロック302に割り当てられるQP値を以下の数式によって表すことができる。
ある実施形態によれば、プロセッサ202を、上述した処理と同様にビデオ108の特徴を抽出して第1の画像フレーム(ビデオフレーム)の全ての画像ブロックを符号化するように構成することができる。従って、この例では、ビデオ108の第1の画像フレーム及び後続の画像フレームなどの画像フレームの視覚的品質を保つことができるQP値に各画像ブロックを自動的にマッピングすることができる。
従来、QPは、包括的に割り当てられることが多い。例えば、一律なQP値を用いて1つの画像フレーム内の全ての画像ブロックを符号化することができる。この結果、一様なビット割り当て戦略を得ることができる。しかしながら、異なる画像ブロックの視覚的特性を考慮していな場合がある。異なる画像ブロックでは、これらのブロックの様々な外観に起因して、符号化(圧縮)処理によって生じる歪みを隠す能力が異なる。この結果、一部の画像ブロックが圧縮の影響を受けやすくなり得る。すなわち、これらの異なる画像ブロックでは、圧縮アーチファクトが観察されやすくなることがある。このような画像ブロックには、符号化のために多くのビットを割り振るか、或いは同じ意味で低いQPを割り当てるべきである。異なる画像ブロックの視覚的特性を考慮していない一様なビット割り当てでは、上述したようにその様々な視覚的特性に起因して圧縮後に異なる画像ブロックが異なる視覚的品質を有するようになるので、画像フレームにわたって一貫した視覚的品質を保てないことがある。従って、本開示において図1、図2及び図3に関して説明したように、より合理的なQP割り当て技術又は戦略は、一律なビット数ではなく一様な視覚的品質を保つことである。開示するビデオ処理システム及び方法は、符号化画像フレームにわたって一貫した視覚的品質を保つことができるQPマッピング戦略をもたらすことができる。このシステム及び方法は、圧縮歪みの影響を受けやすい画像ブロックへのより多くのビットの自動割り当てを可能にすることができる。ある実施形態によれば、このような最適なQPの決定を、処理性能の向上と共にさらに加速させることができる。フィードフォワードニューラルネットワークなどのディープニューラルネットワークを回帰に使用することで、計算コストの削減を達成することができる。
図4に、本開示の実施形態による、開示する量子化パラメータに基づくビデオ処理システム及び方法を実装するためのフィードフォワードニューラルネットワークの例示的な概要を示す。図4には、入力層402と、複数の隠れ層404と、出力層406とを含むことができるフィードフォワードニューラルネットワーク400を示す。
フィードフォワードニューラルネットワーク400の入力層402は、入力画像ブロックから抽出されたテクスチャ情報に関連する複数の特徴を含むことができる。この例における3つの隠れ層などの複数の隠れ層404は、複数のノードを含むことができる。この例では、各層が80個のノードを含むことができる。正規化線形関数(rectified linear unit)「ReLU」は、各隠れ層において使用できる活性化関数「f(x)」を実現することができる。活性化関数「f(x)」は、以下の数式(2)に基づいて決定することができる。
ReLU f(x)=max(x,0) (2)
フィードフォワードニューラルネットワーク400の出力層406は、それぞれが考えられるQP値のうちの1つに対応する「52」個のノードを含むことができる。出力ノードは、「−1」〜「1」の間の活性化値を有し、最も高い活性化を有するノードは、目標最適QP値を予測することができる。
(図3に示すような)ビデオ108の第1の画像フレームの画像ブロックを符号化するための各画像ブロックの最適QP予測手順は、大量の訓練画像ブロックについて繰り返すことができる。これを行って、訓練データセットを生成することができる。生成された訓練データセットを用いてフィードフォワードニューラルネットワーク400(ニューラルネットワーク回帰器)を訓練して、学習した(又は訓練された)ニューラルネットワーク回帰器を生成することができる。学習したニューラルネットワーク回帰器は、所与の画像ブロックの抽出されたテクスチャ特徴を最適なQPに素早く確実にマッピングする処理において使用することができる。全ての考えられるQP値を用いて各画像ブロックを複数回符号化するために必要な計算リソース及び関連コストは高くなり得るので、実用的用途では、このような最適なQPの予測をさらに最適化して単純化することができる。この最適化及び単純化は、フィードフォワードニューラルネットワークベースの回帰モデルに基づくことができるフィードフォワードニューラルネットワーク400を用いて行うことができる。
ある実施形態によれば、フィードフォワードニューラルネットワーク400を教師なし方式で訓練して自己組織化することができる。このような例では、訓練画像ブロックから抽出された大量の画像テクスチャ特徴を入力層402に供給することができる。訓練(又は予備訓練)は、フィードフォワードニューラルネットワーク400のパラメータを考えられる最良の方法で訓練入力を形成できるように同調させることができる自動符号化フレームワークによって実行することができる。ある実施形態によれば、誤差逆伝搬アルゴリズムを用いてこれを達成することができる。例えば、訓練サンプルの数を「K」とし、そのテクスチャ特徴ベクトルを「fk」とし、QP値を「yk」とし、「k=1、...、K」とすることができる。この時、以下の目的関数(3)を最小化することによって、(フィードフォワードニューラルネットワーク400のパラメータなどの)ネットワークパラメータ「(W)」を最適化することができ、
ここでの「F」は、フィードフォワードニューラルネットワーク400によって指定される関数を表し、「F(fk;W)」は、入力「fk」に対するネットワークの出力である。最適化は、誤差逆伝搬法によって達成することができる。
ある実施形態によれば、図3に示すような最適QP予測技術を用いて、大量の抽出されたテクスチャ特徴の対(図2及び図3に示すような)と、その関連する決定された最適なQP値とを供給することにより、フィードフォワードニューラルネットワーク400を改善することができる。ある実施形態によれば、プロセッサ202を、訓練画像ブロックに関連するテクスチャ特徴などの複数の特徴と決定された最適なQP値との間のマッピング関数を決定するように構成することができる。従って、フィードフォワードニューラルネットワーク400は、訓練中に(異なる訓練画像ブロックのテクスチャ情報を捕獲するために抽出された複数の特徴などの)異なる入力と(決定された対応する画像ブロックの最適なQP値などの)出力との間の関係を学習することができる。
ある実施形態によれば、訓練中に、フィードフォワードニューラルネットワーク400を分類のために訓練することができる。このような例では、ニューラルネットワーク分類子を用いて、ビデオ符号化のために画像ブロックの最適なQPを予測することができる。分類スキームは、異なるQP値「(1〜52)」を、順序を有する実数ではなくカテゴリ値又はカテゴリラベルとして取り扱う。例えば、分類では、QP=「1」の画像ブロックをQP=「2」に誤分類したペナルティと、QP=「52」に誤分類したペナルティとが同等になることがある。しかしながら、QP=「1」のブロックでは、QP=「2」という誤った予測の方がQP=「52」という誤った予測に比べてはるかに実際のラベルに近く、従ってこれらの2つの誤りについてのペナルティは異なるべきであり、QP=「1」をQP=「52」に誤分類した方に重いペナルティが課せられるべきである。
ある実施形態によれば、訓練中に、フィードフォワードニューラルネットワーク400を分類ではなく回帰のために訓練することができる。ある実施形態によれば、訓練中にフィードフォワードニューラルネットワーク400を回帰のために訓練する(「ニューラルネットワーク回帰器」と呼ぶ)際には、QP値を順序のある実数として取り扱う。この例では、ニューラルネットワーク回帰器の場合と同様に、QP=「1」をQP=「2」に誤分類するよりもQP=「1」をQP=「52」に誤分類するペナルティの方が重い。このような場合は、QP値を順序のある実数として取り扱う。
ある実施形態によれば、ビデオ108の第2の画像フレームなどの後続の画像フレームの別の画像ブロックが符号化される予定である時には、プロセッサ202を、この別の画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出するように構成することができる。プロセッサ202は、訓練された(又は学習した)フィードフォワードニューラルネットワーク400(ニューラルネットワーク回帰器)を用いて、抽出された別の画像ブロックの特徴を素早くマッピングして最適なQPを決定するように構成することができる。複数の隠れ層404内の完全に接続されたノードは、Haralickテクスチャ記述子、トータルバリエーション及び分散特徴などの抽出された特徴に基づいて、数式(2)に従って活性化関数を使用することができる。図示のように、出力層406内の1つのノードは、「1」などの最も高い活性化値を有することができる。最も高い値の発生は、抽出された別の画像ブロックの特徴のための最適なQP値を示すことができる。
ある実施形態によれば、プロセッサ202を、訓練された(学習した)フィードフォワードニューラルネットワーク400(学習したニューラルネットワーク回帰器)に基づいて、第2の画像フレームの他の画像ブロックのための最適なQP値を予測するように構成することができる。プロセッサ202は、予測された最適なQPを用いて他の画像ブロックを符号化するように構成することができる。従って、ニューラルネットワーク回帰器を使用する方法を用いて、テクスチャ特徴などの画像コンテンツと最適なQPとの間の関係を確立する系統的かつ効率的な機構を提供することができる。ビデオ108又は別の入力ビデオの一連の画像フレームの異なる画像ブロックは、訓練されたニューラルネットワーク回帰器を用いて符号化することができ、この場合、符号化画像ブロックでは圧縮アーチファクトが確認されないようにすることができる。ビデオ品質は、ビデオ108又は他の入力ビデオなどの入力ビデオの異なる画像ブロック及び画像フレームにわたって一貫したもの(及び変動しないもの)となり得る。
ある実施形態によれば、ニューラルネットワーク回帰器が訓練されると、プロセッサ202は、素早くビデオを処理して、異なる画像ブロックにわたって一貫した品質を有することができる符号化ビデオを生成することができる。このような最適化されたビデオ処理及び符号化技術は、UHDTV又は4KTVなどの高精細ビデオサービス、及び4Kコンテンツストリーミングサービスにおいて使用されるビデオを符号化するために非常に有用なものとなり得る。開示するビデオ処理システム及び方法は、ビデオ会議、ビデオ電話、デジタルビデオ放送、ビデオ・オン・インターネット及びデジタル画像産業に応用することもできる。開示するビデオ処理システム及び方法は、人間が知覚できるビデオ品質などのビデオ品質に妥協することなく記憶スペースを低減し、及び/又は通信ネットワーク106などの通信ネットワークを介したデータ伝送レートを最適化するためにビデオの符号化を必要とする、メディアエンコーダ又はメディアプレーヤなどのビデオ処理装置及びビデオコーデック用途に応用することもできる。
図5A及び図5Bは、共に本開示の実施形態による、QPに基づく例示的なビデオ処理方法を示すフローチャートである。図5A及び図5Bにはフローチャート500を示す。フローチャート500の説明は、図1、図2、図3及び図4に関連して行う。方法は、ステップ502から開始してステップ504に進む。
ステップ504において、ビデオ108などのビデオの画像シーケンスを受け取ることができる。ステップ506において、(ビデオ108などの)ビデオの第1の画像フレームの入力画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出することができる。ある実施形態によれば、テクスチャ情報を捕獲するための複数の特徴は、(図2において上述したような)Haralickテクスチャ記述子、トータルバリエーション及び分散とすることができる。
ステップ508において、複数のQP値(QP「1」〜「N」など)を用いて第1の画像フレームの(画像ブロック302などの)画像ブロックを符号化して、第1の画像フレームの画像ブロックのための(再構成画像ブロック306a〜306nなどの)複数の再構成画像ブロックを生成することができる。ステップ510において、FRCNNなどの画像品質尺度を利用して、(再構成画像ブロック306a〜306nなどの)複数の再構成画像ブロックの各々の視覚的品質を決定することができる。FRCNN品質尺度は、主観的品質に近く、QP予測に使用される信頼性、計算効率及びコスト効率の高い画像品質尺度とすることができる。
ステップ512において、(再構成画像ブロック306a〜306nなどの)複数の再構成画像ブロックの各々のスコアを生成することができる。このような(「S1〜SN」によって示される複数のスコア310などの)スコアは、FRCNNなどの画像品質尺度を用いて生成することができる。生成されたスコアは、複数の再構成画像ブロックの各々の視覚的品質尺度を示すことができる。ステップ514において、(FRCNNなどの)画像品質尺度及び品質閾値を用いて、複数のQP値の中から最適なQPを決定することができる。最適なQPは、品質閾値を満たす複数のQP値の中で最も高いQP値とすることができる。
ステップ516において、第1の画像フレームの画像ブロックなどの1又は2以上の画像ブロックのテクスチャ情報を捕獲するために使用される抽出された複数の特徴と、関連する決定された最適なQPとが、予め指定された閾値を上回るかどうかを判定することができる。例えば、予め指定された閾値は、特定の予め指定された画像ブロック数、及び/又はその関連する処理された可能性のある決定された最適なQPに対応することができる。1又は2以上の画像ブロックのテクスチャ情報を捕獲するために使用する抽出された複数の特徴と関連する決定された最適なQPとが予め指定された閾値を下回る場合、制御はステップ518に進むことができる。1又は2以上の画像ブロックのテクスチャ情報を捕獲するために使用する抽出された複数の特徴と関連する決定された最適なQPとが予め指定された閾値以上である場合、制御はステップ520に進むことができる。
ステップ518において、ビデオ108の第1の画像フレームの別の画像ブロックなどの別の入力画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出することができる。制御はステップ508に戻り、ステップ508〜514を繰り返して、入力画像ブロックのための最適なQPを決定することができる。
ステップ520において、上述したように、1又は2以上の画像ブロックの抽出された複数の特徴と、対応する決定された1又は2以上の画像ブロックの最適なQPとに基づいて訓練データセットを生成することができる。大量の訓練データセットを生成するために、ビデオの少なくとも第1の画像フレームの全ての画像ブロックの複数の特徴及び関連する最適なQPを使用することができる。ステップ522において、(図4で説明したように)生成された訓練データセットに基づいてニューラルネットワーク回帰器を訓練することができる。
ステップ524において、ニューラルネットワーク回帰器が訓練されている間に、1又は2以上の画像ブロックの抽出された複数の特徴と決定された最適なQPとの間のマッピング関数及び/又はマッピング関係を決定することができる。ニューラルネットワーク回帰器は、図4に示すようなフィードフォワードニューラルネットワークベースの回帰モデルとすることができる。ステップ526において、(ビデオ108などの)ビデオの第2の画像フレームなどの後続の画像フレームの画像ブロックの別の入力を受け取ることができる。
ステップ528において、訓練されたニューラルネットワーク回帰器を用いて、第2の画像フレームの画像ブロックなどの入力画像ブロックのための最適なQPを動的に予測することができる。ステップ530において、予測された最適なQPを用いて、第2の画像フレームの画像ブロックなどの入力画像ブロックを符号化することができる。
ステップ532において、受け取ったビデオの一連の画像の全ての画像ブロックが符号化されたかどうかを判定することができる。受け取ったビデオの一連の画像の全ての画像ブロックが符号化されている場合、制御はステップ534に進むことができる。受け取ったビデオの一連の画像の全ての画像ブロックが符号化されていない場合、制御はステップ526に戻ることができる。ビデオの第2の画像フレーム及び後続の画像フレームの様々な画像ブロックは、訓練されたニューラルネットワーク回帰器に基づいて、関連する予測された最適なQPを用いて符号化することができる。
ステップ534において、符号化ビデオを生成することができる。符号化ビデオでは、圧縮アーチファクトが確認されないようにすることができる。ビデオ品質は、ビデオ108などの入力ビデオの異なる画像ブロック及び画像フレームにわたって一貫したもの(及び変動しないもの)となり得る。制御は、ステップ536に進んで終了する。
本開示の実施形態によれば、QPに基づくビデオ処理システムが開示される。ビデオ処理装置102(図1)などの装置は、(以下、プロセッサ202(図2)と呼ぶ)1又は2以上のプロセッサを含むことができる。プロセッサ202は、画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出するように構成することができる。プロセッサ202は、抽出された複数の特徴をマッピングして最適な量子化パラメータを決定するようにニューラルネットワーク回帰器を訓練するようさらに構成することができる。プロセッサ202は、決定された最適な量子化パラメータを用いて画像ブロックを符号化するようにさらに構成することができる。
本開示の様々な実施形態は、量子化パラメータに基づいてビデオを処理するように機械及び/又はコンピュータによって実行可能な命令セットを記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体、及び/又は非一時的機械可読媒体及び/又は記憶媒体を提供することができる。ビデオ処理装置102(図1)などのビデオプロセッサにおける命令セットは、画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出することを含むステップを機械及び/又はコンピュータに実行させることができる。抽出された複数の特徴をマッピングして最適な量子化パラメータを決定するようにニューラルネットワーク回帰器を訓練することができる。決定された最適な量子化パラメータを用いて画像ブロックを符号化することができる。
本開示は、ハードウェアの形で実現することも、又はハードウェアとソフトウェアの組み合わせの形で実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアの形で実現することができる。
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに、特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲に該当する全ての実施形態を含むように意図されている。

Claims (20)

  1. ビデオ処理システムであって、
    ビデオプロセッサ内の1又は2以上の回路を備え、該1又は2以上の回路は、
    画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出し、
    前記抽出された複数の特徴をマッピングして最適な量子化パラメータを決定するようにニューラルネットワーク回帰器を訓練し、
    前記決定された最適な量子化パラメータを用いて前記画像ブロックを符号化する、
    ように構成される、
    ことを特徴とするシステム。
  2. 前記1又は2以上の回路は、複数の量子化パラメータを用いて第1の画像フレームの前記画像ブロックを符号化して、前記第1の画像フレームの前記画像ブロックについての複数の再構成画像ブロックを生成するように構成される、
    請求項1に記載のシステム。
  3. 前記1又は2以上の回路は、前記複数の再構成画像ブロックの各々に画像品質尺度を利用して、前記画像ブロックのための前記最適な量子化パラメータの前記決定を行うように構成される、
    請求項2に記載のシステム。
  4. 前記画像品質尺度は、畳み込みニューラルネットワークに基づく全参照型画像品質尺度である、
    請求項3に記載のシステム。
  5. 前記1又は2以上の回路は、前記画像品質尺度を用いて前記複数の再構成画像ブロックの各々のスコアを生成するように構成され、前記スコアは、前記複数の再構成画像ブロックの各々の視覚的品質尺度を示す、
    請求項3に記載のシステム。
  6. 前記決定された最適な量子化パラメータの値は、前記複数の量子化パラメータの値の中で最も高いものであり、前記決定された最適な量子化パラメータの前記値は、予め指定された品質閾値以上である、
    請求項5に記載のシステム。
  7. 前記1又は2以上の回路は、前記画像ブロックの前記抽出された複数の特徴と、対応する前記決定された最適な量子化パラメータとに基づいて訓練データセットを生成するように構成される、
    請求項1に記載のシステム。
  8. 前記生成された訓練データセットは、ビデオコンテンツの第1の画像フレームの他の画像ブロックの複数の特徴と、対応する最適な量子化パラメータとを含み、前記他の画像ブロックの複数の特徴は、前記他の画像ブロックのテクスチャ情報を捕獲するために抽出される、
    請求項7に記載のシステム。
  9. 前記1又は2以上の回路は、前記生成された訓練データセットを利用して前記ニューラルネットワーク回帰器の前記訓練を行うように構成される、
    請求項7に記載のシステム。
  10. 前記1又は2以上の回路は、前記訓練されたニューラルネットワーク回帰器に基づいて、前記画像ブロックの前記抽出された複数の特徴と前記決定された最適な量子化パラメータとの間のマッピング関数を決定するように構成される、
    請求項1に記載のシステム。
  11. 前記ニューラルネットワーク回帰器は、フィードフォワードニューラルネットワークベースの回帰モデルである、
    請求項1に記載のシステム。
  12. 前記1又は2以上の回路は、前記訓練されたニューラルネットワーク回帰器に基づいて、第2の画像フレームの別の画像ブロックのための別の最適な量子化パラメータを予測するように構成される、
    請求項1に記載のシステム。
  13. ビデオ処理方法であって、
    ビデオプロセッサ内の1又は2以上の回路が、画像ブロックのテクスチャ情報を捕獲するための複数の特徴を抽出するステップと、
    前記1又は2以上の回路が、前記抽出された複数の特徴をマッピングして最適な量子化パラメータを決定するようにニューラルネットワーク回帰器を訓練するステップと、
    前記1又は2以上の回路が、前記決定された最適な量子化パラメータを用いて前記画像ブロックを符号化するステップと、
    を含むことを特徴とする方法。
  14. 前記1又は2以上の回路が、複数の量子化パラメータを用いて第1の画像フレームの前記画像ブロックを符号化して、前記第1の画像フレームの前記画像ブロックについての複数の再構成画像ブロックを生成するステップ、をさらに含む、
    請求項13に記載の方法。
  15. 前記1又は2以上の回路が、前記複数の再構成画像ブロックの各々に画像品質尺度を利用して、前記画像ブロックのための前記最適な量子化パラメータの前記決定を行うステップ、をさらに含む、
    請求項14に記載の方法。
  16. 前記1又は2以上の回路が、前記画像品質尺度を用いて前記複数の再構成画像ブロックの各々のスコアを生成するステップ、をさらに含み、前記スコアは、前記複数の再構成画像ブロックの各々の視覚的品質尺度を示す、
    請求項15に記載の方法。
  17. 前記1又は2以上の回路が、前記画像ブロックの前記抽出された複数の特徴と、対応する前記決定された最適な量子化パラメータとに基づいて訓練データセットを生成するステップ、をさらに含み、前記生成された訓練データセットは、前記ニューラルネットワーク回帰器の前記訓練のために使用される、
    請求項13に記載の方法。
  18. 前記1又は2以上の回路が、前記訓練されたニューラルネットワーク回帰器に基づいて、前記画像ブロックの前記抽出された複数の特徴と前記決定された最適な量子化パラメータとの間のマッピング関数を決定するステップ、をさらに含む、
    請求項13に記載の方法。
  19. 前記ニューラルネットワーク回帰器は、フィードフォワードニューラルネットワークベースの回帰モデルである、
    請求項13に記載の方法。
  20. 前記1又は2以上の回路が、前記訓練されたニューラルネットワーク回帰器に基づいて、第2の画像フレームの別の画像ブロックのための別の最適な量子化パラメータを予測するステップ、をさらに含む、
    請求項13に記載の方法。
JP2018547306A 2016-03-09 2017-03-02 量子化パラメータに基づくビデオ処理のためのシステム及び方法 Active JP6717385B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/065,248 2016-03-09
US15/065,248 US10499056B2 (en) 2016-03-09 2016-03-09 System and method for video processing based on quantization parameter
PCT/US2017/020468 WO2017155786A1 (en) 2016-03-09 2017-03-02 System and method for video processing based on quantization parameter

Publications (2)

Publication Number Publication Date
JP2019512938A true JP2019512938A (ja) 2019-05-16
JP6717385B2 JP6717385B2 (ja) 2020-07-01

Family

ID=59788758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018547306A Active JP6717385B2 (ja) 2016-03-09 2017-03-02 量子化パラメータに基づくビデオ処理のためのシステム及び方法

Country Status (4)

Country Link
US (1) US10499056B2 (ja)
JP (1) JP6717385B2 (ja)
CN (1) CN108780499B (ja)
WO (1) WO2017155786A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022512023A (ja) * 2019-07-19 2022-02-01 深▲セン▼市商▲湯▼科技有限公司 バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体
JP7498377B2 (ja) 2021-05-28 2024-06-11 ディープマインド テクノロジーズ リミテッド 強化学習を通してレート制御ニューラルネットワークを訓練すること

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10748062B2 (en) 2016-12-15 2020-08-18 WaveOne Inc. Deep learning based adaptive arithmetic coding and codelength regularization
CN106686385B (zh) * 2016-12-30 2018-09-25 平安科技(深圳)有限公司 视频压缩感知重构方法及装置
CA3060578C (en) 2017-04-21 2020-07-21 Zenimax Media Inc. Systems and methods for encoder-guided adaptive-quality rendering
US10728553B2 (en) * 2017-07-11 2020-07-28 Sony Corporation Visual quality preserving quantization parameter prediction with deep neural network
JP6867273B2 (ja) * 2017-10-31 2021-04-28 日本電信電話株式会社 符号量推定装置及び符号量推定プログラム
US10559093B2 (en) * 2018-01-13 2020-02-11 Arm Limited Selecting encoding options
US10499081B1 (en) * 2018-06-19 2019-12-03 Sony Interactive Entertainment Inc. Neural network powered codec
US10560696B2 (en) * 2018-06-25 2020-02-11 Tfi Digital Media Limited Method for initial quantization parameter optimization in video coding
CN110870310A (zh) * 2018-09-04 2020-03-06 深圳市大疆创新科技有限公司 图像编码方法和装置
WO2020067592A1 (ko) * 2018-09-28 2020-04-02 한국과학기술원 컨텐츠 인지 신경망을 이용하여 실시간으로 적응형 비디오를 전송하는 방법 및 장치
CN109447952B (zh) * 2018-10-10 2021-12-17 嘉兴学院 一种基于Gabor差分盒加权维数的半参考型图像质量评价方法
CN111182301A (zh) * 2018-11-12 2020-05-19 北京眼神科技有限公司 一种图像压缩时选择最优量化参数的方法、装置、设备及系统
US11689726B2 (en) * 2018-12-05 2023-06-27 Google Llc Hybrid motion-compensated neural network with side-information based video coding
US10997717B2 (en) * 2019-01-31 2021-05-04 Siemens Healthcare Gmbh Method and system for generating a confidence score using deep learning model
CN110198444B (zh) * 2019-04-16 2021-07-09 浙江大华技术股份有限公司 视频帧编码方法、视频帧编码设备及具有存储功能的装置
CN110113609B (zh) * 2019-04-26 2020-09-08 深圳市华星光电技术有限公司 图像压缩方法及装置
US10992331B2 (en) * 2019-05-15 2021-04-27 Huawei Technologies Co., Ltd. Systems and methods for signaling for AI use by mobile stations in wireless networks
US20220345721A1 (en) * 2019-09-30 2022-10-27 Sony Interactive Entertainment Inc. Image data transfer apparatus, image display system, and image compression method
CN110971784B (zh) * 2019-11-14 2022-03-25 北京达佳互联信息技术有限公司 一种视频处理方法、装置、电子设备及存储介质
US11648467B2 (en) 2020-02-14 2023-05-16 Microsoft Technology Licensing, Llc Streaming channel personalization
CN111314698A (zh) * 2020-02-27 2020-06-19 浙江大华技术股份有限公司 一种图像编码处理方法及装置
CN111726613B (zh) * 2020-06-30 2021-07-27 福州大学 一种基于最小可觉差的视频编码优化方法
KR20220043694A (ko) * 2020-09-29 2022-04-05 삼성전자주식회사 영상을 처리하는 디바이스 및 그 동작 방법
US11263796B1 (en) 2020-11-11 2022-03-01 Sony Interactive Entertainment Inc. Binocular pose prediction
US11368756B1 (en) * 2021-03-26 2022-06-21 Retrocausal, Inc. System and method for correlating video frames in a computing environment
EP4145394A1 (en) * 2021-09-06 2023-03-08 Nokia Technologies Oy Personalized perceptual video encoder for mission-critical tasks
CN114745556B (zh) * 2022-02-07 2024-04-02 浙江智慧视频安防创新中心有限公司 编码方法、装置、数字视网膜系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0879748A (ja) * 1994-07-08 1996-03-22 Samsung Electron Co Ltd 神経網を用いた量子化ステップサイズ制御装置
JP2006505853A (ja) * 2002-11-06 2006-02-16 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ 画像又は映像の品質を評価する品質志向重要度マップの生成方法
JP2010541386A (ja) * 2007-09-28 2010-12-24 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション ビデオ圧縮技法及びビデオ伝達技法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5241383A (en) 1992-05-13 1993-08-31 Bell Communications Research, Inc. Pseudo-constant bit rate video coding with quantization parameter adjustment
US6574279B1 (en) * 2000-02-02 2003-06-03 Mitsubishi Electric Research Laboratories, Inc. Video transcoding using syntactic and semantic clues
EP2320661B8 (en) * 2001-11-29 2015-09-02 Godo Kaisha IP Bridge 1 Coding distortion removal method
KR100529311B1 (ko) * 2003-01-21 2005-11-17 삼성전자주식회사 신경 회로망을 이용하여 가변 길이 부호화 비트 스트림의길이를 선택하는 장치 및 방법
HUP0301368A3 (en) * 2003-05-20 2005-09-28 Amt Advanced Multimedia Techno Method and equipment for compressing motion picture data
CN100563341C (zh) * 2004-03-30 2009-11-25 浙江大学 图像和视频编码中多尺度兼容处理装置及其方法
US7995649B2 (en) 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US8612237B2 (en) * 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
US8665948B2 (en) 2007-11-23 2014-03-04 Stmicroelectronics International N.V. Adaptive rate control to cover multiple encoding standards
US8542730B2 (en) * 2008-02-22 2013-09-24 Qualcomm, Incorporated Fast macroblock delta QP decision
US8515182B2 (en) * 2009-02-11 2013-08-20 Ecole De Technologie Superieure Method and system for determining a quality measure for an image using multi-level decomposition of images
TW201134223A (en) * 2010-03-29 2011-10-01 Univ Nat Taiwan Perceptual video encoding system and circuit thereof
CN101895752B (zh) * 2010-07-07 2012-12-19 清华大学 基于图像视觉质量的视频传输方法、系统及装置
CN101924943B (zh) * 2010-08-27 2011-11-16 郭敏 一种实时的基于h.264的低比特率视频转码方法
JP5875236B2 (ja) * 2011-03-09 2016-03-02 キヤノン株式会社 画像符号化装置、画像符号化方法及びプログラム、画像復号装置、画像復号方法及びプログラム
EP3057326A1 (en) * 2011-06-10 2016-08-17 MediaTek, Inc Method and apparatus of scalable video coding
ES2716933T3 (es) * 2011-06-28 2019-06-18 Nec Corp Decodificación de un parámetro de cuantificación de vídeo
CN103313047B (zh) * 2012-03-13 2016-12-14 中国移动通信集团公司 一种视频编码方法及装置
CN102595142B (zh) * 2012-03-15 2014-03-26 国网北京经济技术研究院 一种电网全息数字地图视频编码方法及系统
CN104350746A (zh) * 2012-05-31 2015-02-11 汤姆逊许可公司 基于局部幅度和相位谱的图像质量测量
WO2014032162A1 (en) * 2012-08-28 2014-03-06 Solink Corporation Transaction verification system
WO2014052602A1 (en) * 2012-09-28 2014-04-03 Vid Scale, Inc. Method and apparatus of edge guided processing for video coding
CN105049949A (zh) * 2015-06-19 2015-11-11 美国掌赢信息科技有限公司 一种即时视频的编码方法和电子设备
CN105163121B (zh) * 2015-08-24 2018-04-17 西安电子科技大学 基于深度自编码网络的大压缩比卫星遥感图像压缩方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0879748A (ja) * 1994-07-08 1996-03-22 Samsung Electron Co Ltd 神経網を用いた量子化ステップサイズ制御装置
JP2006505853A (ja) * 2002-11-06 2006-02-16 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ 画像又は映像の品質を評価する品質志向重要度マップの生成方法
JP2010541386A (ja) * 2007-09-28 2010-12-24 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション ビデオ圧縮技法及びビデオ伝達技法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANYING ZHU ET AL.: "A Novel Quantization Parameter Estimation Model Based on Neural Network", PROCEEDINGS OF 2012 INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS (ICSAI2012), JPN6019031739, 25 June 2012 (2012-06-25), pages 2020 - 2023, ISSN: 0004097073 *
LE KANG ET AL.: "Convolutional Neural Networks for No-Reference Image Quality Assessment", PROCEEDINGS OF 2014 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6019031741, 25 September 2014 (2014-09-25), pages 1733 - 1740, ISSN: 0004097074 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022512023A (ja) * 2019-07-19 2022-02-01 深▲セン▼市商▲湯▼科技有限公司 バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体
JP7498377B2 (ja) 2021-05-28 2024-06-11 ディープマインド テクノロジーズ リミテッド 強化学習を通してレート制御ニューラルネットワークを訓練すること

Also Published As

Publication number Publication date
CN108780499A (zh) 2018-11-09
US10499056B2 (en) 2019-12-03
WO2017155786A1 (en) 2017-09-14
CN108780499B (zh) 2024-02-02
US20170264902A1 (en) 2017-09-14
JP6717385B2 (ja) 2020-07-01

Similar Documents

Publication Publication Date Title
JP6717385B2 (ja) 量子化パラメータに基づくビデオ処理のためのシステム及び方法
US11310509B2 (en) Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (VQA)
CN110637460B (zh) 利用深层神经网络的视觉质量保持量化参数预测
CN109218727B (zh) 视频处理的方法和装置
CN110267045B (zh) 一种视频处理及编码的方法、装置及可读存储介质
US9282330B1 (en) Method and apparatus for data compression using content-based features
WO2023016155A1 (zh) 图像处理方法、装置、介质及电子设备
CN104160703A (zh) 经对象检测所通知的编码
US10021398B2 (en) Adaptive tile data size coding for video and image compression
US20240080495A1 (en) Iteratively updating a filtering model
US11303916B2 (en) Motion compensation techniques for video
JP7125559B2 (ja) ビットレート削減のためのビデオストリーム適応フィルタリング
JP6195404B2 (ja) 処理システム、前処理装置、後処理装置、前処理プログラム及び後処理プログラム
US20150098512A1 (en) Image processing apparatus and method thereof
US11825088B2 (en) Adaptively encoding video frames based on complexity
JP2014036260A (ja) 画質評価装置、画質評価方法及び画質評価プログラム
CN107945108A (zh) 视频处理方法及装置
CN109906610B (zh) 使用滤波和子空间投影的视频编译的恢复
CN111885378B (zh) 多媒体数据编码方法、装置、设备以及介质
Nami et al. Lightweight Multitask Learning for Robust JND Prediction using Latent Space and Reconstructed Frames
KR102604657B1 (ko) 영상 압축 성능 개선 방법 및 장치
US20230396783A1 (en) Data processing method and apparatus, device, and readable storage medium
US20220222864A1 (en) Image compression apparatus and learning apparatus and method for the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190821

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200525

R151 Written notification of patent or utility model registration

Ref document number: 6717385

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151