JP2023505310A

JP2023505310A - コンテキストと特徴に基づくビデオエンコードの事前解析のビットバジェッティング

Info

Publication number: JP2023505310A
Application number: JP2022534254A
Authority: JP
Inventors: サイーディメーディ; イバノビッチボリス
Original assignee: ATI Technologies ULC
Current assignee: ATI Technologies ULC
Priority date: 2019-12-06
Filing date: 2020-12-04
Publication date: 2023-02-08
Also published as: WO2021111406A1; EP4070543A4; CN114930815A; KR20220106830A; EP4070543A1; US20210176467A1; US11843772B2

Abstract

コンテキスト及び特徴に基づくビデオエンコードの事前解析におけるビットバジェッティング用のシステム、装置及び方法が開示されている。プリエンコーダは、ビデオフレームを受信し、フレームの各ブロックを評価していくつかのコンテキストインジケータの存在を確認する。コンテキストインジケータには、記憶色、テキスト、被写界深度及び他の特定のオブジェクトを含むことができる。検出されたコンテキストインジケータごとに係数が生成され、他の係数と加算されて、ブロックの最終的な重要度の値が生成される。画像の定義された部分のみが重要であると見なされるように、係数を調整することができる。ブロックの最終的な重要度の値は、ブロックのビットバジェットを決定するために使用される。ブロックビットバジェットはエンコーダに提供され、ブロックの符号化に使用される量子化パラメータ等に影響を与えるために使用される。【選択図】図９

Description

（関連技術の説明）
様々なアプリケーションは、画像又はビデオコンテンツの符号化及び復号を実行する。例えば、ビデオトランスコーディング、デスクトップ共有、クラウドゲーミング、ゲーミング観戦は、コンテンツの符号化及び復号に対するサポートを含むアプリケーションのうちいくつかである。エンコーダには、通常、所定のビデオストリームを符号化する際にエンコーダが達成しようとしているターゲットビットレートがある。ターゲットビットレートは、所定のビデオストリームの符号化バージョンの各フレームのターゲットビットサイズに大まかに変換される。例えば、一実施形態では、ターゲットビットレートはビット／秒（例えば、３メガビット／秒（Ｍｂｐｓ））で指定され、ビデオシーケンスのフレームレートはフレーム／秒（ｆｐｓ）（例えば、６０ｆｐｓ、２４ｆｐｓ）で指定される。この例では、好ましいビットレートをフレームレートで割って、符号化ビデオフレームの好ましいビットサイズを計算する。ここで、ビットレートの軌道が線形であると仮定する。線形でない場合は、同様の手法を使用して、符号化フレームの好ましいビットサイズを概算することができる。

各ビデオフレームは、通常、複数のブロックに分割される。ブロックの例は、高効率ビデオコーディング（ＨＥＶＣ）規格と使用するためのコーディングツリーブロック（ＣＴＢ）又はＨ．２６４規格と使用するためのマクロブロックを含む。他のタイプのビデオ及び画像圧縮規格で使用する他のタイプのブロックも考えられる。エンコーダは、符号化されているブロックの測定されたプロパティ（例えば、詳細レベル、コントラスト等）に基づいて、フレームの各ブロックがどのように符号化されるかを調整することができる。ただし、フレームのコンテンツがほぼ均一である場合、１つのブロックに使用される調整をフレーム全体に適用することは好ましくない。例えば、エンコーダは、非常に詳細なブロックに高いビットバジェットを割り当てることを決定することができる。ただし、ほとんどのブロックが非常に詳細である場合、エンコーダはバジェット内の使用可能なビットをすぐに使い果す。自然のシーン（森、草等）もビデオゲームも、画像全体又は画像の大部分が詳細及び／又は均一である代表的な例である。

添付図面と併せて以下の説明を参照することによって、本明細書で説明する方法及びメカニズムの利点をより良く理解し得る。

コンテンツを符号化及び復号するためのシステムの一実施形態のブロック図である。サーバの一実施形態のブロック図である。テーブルに結合されたプリエンコーダの一実施形態のブロック図である。複数の検出器を備えたプリエンコーダの一実施形態のブロック図である。重要度テーブルを生成するプリエンコーダの一実施形態のブロック図である。ビットバジェットテーブルを生成するプリエンコーダの一実施形態のブロック図である。プリエンコーダによって解析されているフレームの１つの可能な例を示す図である。プリエンコーダによって解析されているフレームの１つの可能な例を示す図である。ブロックごとのビットバジェットを生成するプリエンコーダ用の方法の一実施形態を示す一般化されたフロー図である。フレーム全体のコンテキストインジケータの希少性に基づいてフレームのブロックのコンテキストインジケータ係数を調整する方法の一実施形態を示す一般化されたフロー図である。

以下の説明では、本明細書で提示される方法及びメカニズムの十分な理解をもたらすために、多数の特定の詳細が示されている。しかしながら、当業者は、これらの特定の詳細を用いないで、様々な実施形態を実施し得ることを認識するはずである。いくつかの例では、本明細書で説明する手法を不明瞭にすることを回避するために、周知の構造、構成要素、信号、コンピュータプログラム命令、及び、技術が詳細に示していない。説明を簡潔及び明瞭にするために、図面に示す要素は必ずしも縮尺通りに描かれていないことを理解されたい。例えば、いくつかの要素の寸法は、他の要素に対して誇張される場合がある。

コンテキスト及び特徴に基づくビデオエンコードの事前解析におけるビットバジェッティング用のシステム、装置及び方法が本明細書に開示されている。一実施形態では、システムは、ビデオストリームを符号化するためのプリエンコーダ及びエンコーダを含む。一実施形態では、プリエンコーダは、ビデオフレームを受信し、フレームの各ブロックを評価していくつかのコンテキストインジケータの存在を確認する。ブロックの階調（graduality）は、事前に定義されてもよいし、適応的に設定されてもよい。各ブロックに対して、プリエンコーダは、複数の異なるタイプのコンテキストインジケータのうち何れかがブロックに存在するか否かを決定する。コンテキストインジケータには、記憶色、テキスト、被写界深度、及び、他の特定のオブジェクトを含むことができるが、これらに限定されない。検出されたコンテキストインジケータごとに係数が生成され、他の係数と加算されて、ブロックの最終的な重要度の値が生成される。係数は、画像の定義された部分のみが重要であると見なされるように調整され、重要であると見なされるブロックには、使用可能なビットバジェット全体の特定の割合が割り当てられる。ブロックの最終的な重要度の値は、他のブロックの最終的な重要度の値も考慮しながら、ブロックのビットバジェットに影響を与えるために使用される。ブロックビットバジェットはエンコーダに提供され、ブロックの符号化に使用される量子化パラメータ等に影響を与えるために使用される。注意すべきこととして、コンテキストインジケータに基づくビットバジティングを１つ以上の他の手法と組み合わせて、フレームのブロックに使用される全体的なビットバジェットを決定することができる。一実施形態では、エンコーダは、プリエンコーダによってブロックに割り当てられたビットバジェットに基づいて各ブロックを符号化する際に使用する量子化強度（例えば、量子化パラメータ（ＱＰ））を選択する。

図１を参照すると、コンテンツを符号化及び復号するためのシステム１００の一実施形態のブロック図が示されている。システム１００は、サーバ１０５と、ネットワーク１１０と、クライアント１１５と、ディスプレイ１２０と、を含む。他の実施形態では、システム１００は、ネットワーク１１０を介してサーバ１０５に接続される複数のクライアントを含むことができ、複数のクライアントは、サーバ１０５によって生成される同一のビットストリーム又は異なるビットストリームを受信する。また、システム１００は、複数のクライアントのために複数のビットストリームを生成する１つ以上のサーバ１０５を含むことができる。

一実施形態では、システム１００は、ビデオコンテンツを符号化及び復号する。様々な実施形態では、ビデオゲームアプリケーション、クラウドゲームアプリケーション、仮想デスクトップインフラストラクチャアプリケーション、自動運転車アプリケーション、オンラインストリーミングアプリケーション、画面共有アプリケーション、又は、他のタイプのアプリケーション等の様々なアプリケーションがシステム１００によって実行される。一実施形態では、サーバ１０５は、ビデオ又は画像フレームをレンダリングし、次いで、フレームを符号化ビットストリームに符号化する。一実施形態では、サーバ１０５は、符号化プロセスを管理するためのプリエンコーダ及びエンコーダを含む。プリエンコーダは、本明細書では「事前解析ユニット」と呼ばれることもある。

一実施形態では、プリエンコーダは、フレームのブロックを解析して、コンテキストインジケータを検出する。本明細書で使用される場合、「コンテキストインジケータ」は、システムによって実行されている特定のアプリケーションに対して知覚的に重要であると見なされる特徴として定義される。一実施形態では、コンテキストインジケータには、標識、テキスト、顔、体、日常のオブジェクト（車、街路、街灯等）、記憶色等の特徴が含まれる。本明細書で使用される場合、「記憶色」は、フレームに提示されるシーンに関連する見慣れた色として定義される。「記憶色」の一例は、肌色である。他の実施形態では、他のアプリケーションは、他のタイプのコンテキストインジケータを有することができる。

ブロックごとに、ブロック内で検出されたコンテキストインジケータと、コンテキストインジケータに割り当てられたスコアに基づいて、重要度の値が生成される。重要度の値は、検出されたコンテキストインジケータの希少性等の１つ以上の他の変数に基づいて適宜調整される。プリエンコーダは、ブロックに対して生成された重要度の値に基づいて、各ブロックにビットバジェットを割り当てる。一実施形態では、ブロックの重要度の値は、全てのブロックに割り当てられたビットの総数が、ターゲットビットレートを満たす符号化ビットストリームに基づいて計算されたビットサイズ範囲内にあるようにスケーリングされる。次に、エンコーダは、プリエンコーダによってブロックに割り当てられたビットバジェットに一致するようにブロックをエンコードする。一実施形態では、エンコーダは、ブロックを符号化するために使用される量子化パラメータ（ＱＰ）を調整して、符号化ブロックが割り当てられたビットバジェットの閾値量内に収まるようにする。符号化ビットストリームが生成された後、サーバ１０５は、符号化ビットストリームを、ネットワーク１１０を介してクライアント１１５に伝達する。クライアント１１５は、符号化ビットストリームを復号し、ビデオ又は画像フレームを生成してディスプレイ１２０又はディスプレイコンポジタに送る。

ネットワーク１１０は、無線接続、直接ローカルエリアネットワーク（ＬＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、イントラネット、インターネット、ケーブルネットワーク、パケット交換網、光ファイバネットワーク、ルータ、ストレージエリアネットワーク、又は、他のタイプのネットワークを含む、任意のタイプのネットワーク又はネットワークの組み合わせを表す。ＬＡＮの例は、イーサネット（登録商標）ネットワーク、ファイバ分散データインタフェース（ＦＤＤＩ）ネットワーク、及び、トークンリングネットワークを含む。様々な実施形態では、ネットワーク１１０は、リモートダイレクトメモリアクセス（ＲＤＭＡ）ハードウェア及び／又はソフトウェア、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）ハードウェア及び／又はＴＣＰ／ＩＰソフトウェア、ルータ、リピータ、スイッチ、グリッド、及び／又は、他の構成要素を含む。

サーバ１０５は、ビデオ／画像フレームをレンダリングし、これらのフレームをビットストリームに符号化するためのソフトウェア及び／又はハードウェアの任意の組み合わせを含む。一実施形態では、サーバ１０５は、１つ以上のサーバの１つ以上のプロセッサ上で実行する１つ以上のソフトウェアアプリケーションを含む。また、サーバ１０５は、ネットワーク通信機能、１つ以上の入出力デバイス、及び／又は、他の構成要素を含む。サーバ１０５のプロセッサ（複数可）には、任意の数及びタイプのプロセッサ（グラフィックスプロセッシングユニット（ＧＰＵ）、中央処理装置（ＣＰＵ）、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）等）が含まれる。プロセッサ（複数可）は、プロセッサ（複数可）によって実行可能なプログラム命令を記憶する１つ以上のメモリデバイスに結合されている。同様に、クライアント１１５は、ビットストリームを復号し、フレームをディスプレイ１２０に送るためのソフトウェア及び／又はハードウェアの任意の組み合わせを含む。一実施形態では、クライアント１１５は、１つ以上のコンピューティングデバイスの１つ以上のプロセッサ上で実行される１つ以上のソフトウェアアプリケーションを含む。様々な実施形態では、クライアント１１５は、コンピューティングデバイス、ゲームコンソール、モバイルデバイス、ストリーミングメディアプレーヤー、又は、他のタイプのデバイスである。

図２を参照すると、ビデオのフレームを符号化するためのサーバ２００の構成要素の一実施形態のブロック図が示されている。ビデオの新しいフレーム２１０は、サーバ２００によって受信され、プリエンコーダ２２０及びエンコーダ２３０に提供される。プリエンコーダ２２０及びエンコーダ２３０の各々は、ハードウェア及び／又はソフトウェアの任意の適切な組み合わせを使用して実装される。様々な実施形態では、プリエンコーダ２２０及び／又はエンコーダ２３０を実装するためのソフトウェア命令は、メモリ２４０に記憶される。メモリ２４０は、任意の数及びタイプのメモリデバイスを表す。一実施形態では、プリエンコーダ２２０は、新しいフレーム２１０のブロックの解析に基づいて、新しいフレーム２１０のブロックのブロックビットバジェット２２５を生成する。一実施形態では、レートコントローラ２３２は、現在のバジェット条件（即ち、軌道上のバジェット軌道）に基づいて、プリエンコーダによって生成されたブロックビットバジェット２２５を調整する。次に、エンコーダ２３０は、符号化ビットストリーム２３５を生成する際に、符号化ブロックが割り当てられたブロックビットバジェット２２５を満たすか又は厳密に近似するように符号化パラメータを調整する。一実施形態では、サーバ２００の構成要素は、（図１の）サーバ１０５内に含まれる。注意すべきこととして、他の実施形態では、サーバ２００は、他の構成要素を含み、及び／又は、図２に示す以外の他の適切な方法で構成される。

一実施形態では、プリエンコーダ２２０は、ブロック単位で新しいフレーム２１０を処理する。各ブロックに対して、プリエンコーダ２２０は、何れのコンテキストインジケータがブロックに存在するかを決定する。一実施形態では、コンテキストインジケータは、標識、テキスト及び記憶色を含む。他の実施形態では、プリエンコーダ２２０は、他のタイプのコンテキストインジケータを検索する。プリエンコーダ２２０は、ブロック内で検出されたコンテキストインジケータに基づいて、ブロックの相対的な重要度の値を生成する。次に、重要度の値を使用して、エンコーダ２３０に伝達されるブロックビットバジェット２２５を生成する。別の実施形態では、プリエンコーダ２２０は、提案されたビットバジェットをレートコントローラ２３２に提供し、次に、レートコントローラ２３２は、提案されたビットバジェットを調整して、新しいフレーム２１０のブロックを符号化するために使用される最終的なビットバジェットを生成する。さらなる実施形態では、プリエンコーダ２２０は、重要度の値をレートコントローラ２３２に伝達し、次に、レートコントローラ２３２は、それらの重要度の値に基づいてビットバジェットをブロックに割り当てる。

様々な実施形態では、プリエンコーダ２２０及びレートコントローラ２３２は、様々な異なる方法で連携して、新しいフレーム２１０のブロックを符号化するために使用される最終的なビットバジェットを決定する。一実施形態では、プリエンコーダ２２０は、レートコントローラ２３２がブロックビットバジェット２２５への調整を実行することなく、ブロックビットバジェット２２５をブロックに割り当てる。別の実施形態では、プリエンコーダ２２０は、ブロックビットバジェット２２５をブロックに割り当て、次に、これらのブロックビットバジェット２２５は、現在のバジェット条件に基づいてレートコントローラ２３２によって改良される。さらなる実施形態では、レートコントローラ２３２はビットバジェットを生成し、プリエンコーダ２２０は、特定の個々のブロックのビットバジェットへの調整に関するガイダンスを提供する。他の実施形態では、他のテクノロジーは、高速モーション、異なる動きベクトルを有する領域等の特定の状況で人間の視覚システムがうまく認識できない効果に基づいて、ビットバジェットに影響を与えることができる。

一実施形態では、エンコーダ２３０は、ブロックに割り当てられたビットバジェットに基づいて、新しいフレーム２１０の各ブロックを符号化するために使用される量子化強度を決定する。他の実施形態では、エンコーダ２３０は、ブロックに割り当てられたビットバジェットに基づいて新しいフレーム２１０の各ブロックを符号化する際に使用される他の設定を調整する。一実施形態では、量子化強度は、量子化パラメータ（ＱＰ）を指す。本明細書内でＱＰという用語が使用されている場合、この用語は、任意のタイプのコーディング規格と共に使用される他のタイプの量子化強度設定に適用されることを意図していると理解すべきである。所定のブロックを符号化する場合、エンコーダ２３０はＱＰを選択し、その結果、ブロックのビットサイズは、プリエンコーダ２２０によって計算されたビットバジェットに厳密に一致する。プリエンコーダ２２０によってブロックに割り当てられたビットバジェットを一致させることにより、エンコーダ２３０は、符号化ビットストリーム２３５の所望のビットレートを満たすことができる。

図３を参照すると、テーブル３１０に結合されたプリエンコーダ３０５の一実施形態のブロック図が示されている。プリエンコーダ３０５は、符号化されているフレームの個々のブロックのビットバジェットの生成に影響を与える様々な設定を指定する任意の数のテーブル３１０に結合される。例えば、コンテキストインジケータテーブル３１０Ａは、高い値を有し、これらのコンテキストインジケータのうち何れかを含むフレームのブロックの相対的な重要度を高める複数のコンテキストインジケータを指定する。また、コンテキストインジケータテーブル３１０Ａは、各コンテキストインジケータに適用するスコアを含む。あるいは、別の実施形態では、フレーム内で検出された各コンテキストインジケータに適用するスコアを指定するために、個別のスコアリングテーブルがテーブル３１０に含まれる。

記憶色テーブル３１０Ｂは、これらの記憶色のうち１つの画素の閾値量を超える量を含むフレームのブロックの相対的な重要度を高める特定の記憶色を識別する。例えば、一実施形態では、肌色は、記憶色テーブル３１０Ｂの１つのバージョンにおいて記憶色として識別される。別の実施形態では、青空は、記憶色テーブル３１０Ｂの別のバージョンにおいて記憶色として識別される。他のタイプの記憶色は、他の実施形態でも指定することができる。また、記憶色テーブル３１０Ｂは、記憶色が第１の属性の存在下でより多くの値を有することができ、及び／又は、記憶色が第２の属性の存在下でより少ない値を有することができることを指定することができる。例えば、一実施形態では、肌色は、フレームの明るい領域でより多い値を有する。また、一実施形態では、肌色は、動きの速い領域でより少ない値を有する。別の実施形態では、被写界深度の影響を受ける場合、草及び樹木はそれほど重要ではない。記憶色の相対値に影響を与える属性の他の例が可能であり、考えられる。

一実施形態では、ホストコンピューティングシステム（例えば、図１のシステム１００）によって実行される各アプリケーションは、プリエンコーダ３０５のために新しいセットのテーブル３１０をロードする。例えば、自動運転車アプリケーションは、自動運転車アプリケーションの実行中にキャプチャされたフレームを解析する際にプリエンコーダ３０５によって使用される第１セットのテーブル３１０をロードする。また、ビデオゲームアプリケーションは、ビデオゲームアプリケーションによってレンダリングされたフレームを解析する際にプリエンコーダ３０５によって使用される第２セットのテーブルをロードする。また、ビデオゲームストリーミングアプリケーションは、ビデオゲームストリーミングアプリケーションによってストリーミングされているフレームを解析する際にプリエンコーダ３０５によって使用される第３セットのテーブルをロードする。他のタイプのアプリケーションも、生成及び／又はキャプチャされるフレームのタイプに最適化されたプリエンコーダ３０５用の特定のセットのテーブル３１０をロードすることができる。また、単一のアプリケーションは、ビデオコンテンツがフェーズごとに変化する際に、アプリケーションの異なるフェーズに対して異なるセットのテーブル３１０をロードすることができる。

例えば、ビデオゲームアプリケーション又は映画では、ビデオゲーム又は映画の第１のシーンに対して第１のテーブルがロードされる。第１のシーンは、他のタイプのコンテキストインジケータよりも重要であると見なされる特定のタイプのコンテキストインジケータを有することができる。次に、第２のシーンでは、第２のテーブルには、新しいセットのコンテキストインジケータがロードされる。このテーブルのリロードは、ビデオゲーム又は映画の後続のシーンで続行することができる。別の実施形態では、自動運転車アプリケーションは、現在の状況に応じて異なるテーブルをロードする。例えば、車両が比較的高速で走行している高速道路を走行している際に、コンテキストインジケータの第１のテーブルがロードされる。又は、住宅地又は学校の近くにおいて、コンテキストインジケータの第２のテーブルがロードされる。自動運転車が他の状況（例えば、駐車場、高速道路ランプ、燃料補給ステーション、充電ステーション、料金所等）にある場合に、他のテーブルをロードすることができる。ユースケースシナリオ（駐車場又は高速道路の検出等）を検出するには、既知の手法を使用することができる。この手法は、ＧＰＳデータとビデオ解析からのデータの解析等の異なる解析の組み合わせにすることができる。

図４を参照すると、複数の検出器４１５Ａ～４１５Ｎを備えたプリエンコーダ４１０の一実施形態のブロック図が示されている。一実施形態では、プリエンコーダ４１０は、フレーム４０５を受信し、フレーム４０５で事前解析プロセスを実行する。図４に示すように、プリエンコーダ４１０は、複数の検出器４１５Ａ～４１５Ｎを含む。注意すべきこととして、検出器４１５Ａ～４１５Ｎは、検出器の論理表現であり、検出器４１５Ａ～４１５Ｎは、ソフトウェア及び／又はハードウェアの任意の適切な組み合わせを使用して実装される。例えば、一実施形態では、各検出器４１５Ａ～４１５Ｎは、訓練されたニューラルネットワークであり、各訓練されたニューラルネットワークは、特定のタイプのコンテキストインジケータを検出するように設計される。また、いくつかの実施形態では、単一の検出器が複数の検出器４１５Ａ～４１５Ｎの機能を実行できることを理解すべきである。例えば、別の実施形態では、単一の訓練されたニューラルネットワークが複数の異なるタイプのコンテキストインジケータを検出するように設計される。

一実施形態では、各検出器４１５Ａ～４１５Ｎは、フレーム４０５のブロックを解析して、ブロックが対応するコンテキストインジケータを含むか否かを決定する役割を果たす。例えば、第１の検出器４１５Ａはフレーム４０５のブロック内の標識を検索し、第２の検出器４１５Ｂはフレーム４０５のブロック内のテキストを検索し、第３の検出器４１５Ｎはフレーム４０５のブロック内の記憶色を検索する。他の実施形態では、検出器４１５Ａ～４１５Ｎは、フレーム４０５のブロック内の他のタイプのコンテキストインジケータを検索することができる。検出器４１５Ａ～４１５Ｎを使用してフレーム４０５を事前解析した後、プリエンコーダ４１０は、フレーム４０５のどのブロックで何れのコンテキストインジケータが発見されたかを記録するために結果テーブル４２０を生成する。例えば、一実施形態では、結果テーブル４２０は、フレーム４０５の各ブロックの行を含み、結果テーブル４２０の各列は、特定の検出器４１５Ａ～４１５Ｎに対応する。

結果テーブル４２０は、フレーム４０５の事前解析フェーズの結果の一例を表す。結果テーブル４２０に示すように、ブロック４０５Ａは、列４１５Ａ及び４１５Ｎに「Ｎｏ」を有し、列４１５Ｂに「Ｙｅｓ」を有する。これは、フレーム４０５のブロック４０５Ａが、検出器４１５Ｂに対応するコンテキストインジケータを含むが、検出器４１５Ａ及び４１５Ｎに対応するコンテキストインジケータを含むことが発見されなかったことを示す。また、ブロック４０５Ｂ～４０５Ｃのエントリも結果テーブル４２０に示されている。結果テーブル４２０は、結果テーブルの一例を単に示していることを理解すべきである。他の実施形態では、結果テーブル４２０は、他の適切な方法で構造化することができる。例えば、別の実施形態では、結果テーブル４２０は、Ｙｅｓ又はＮｏではなく、各フィールドに重要度の値又はメトリックを含むことができる。また、別のテーブル又はマトリックスを結果テーブル４２０に適用して、Ｙｅｓ及びＮｏの値を重要度の値に変換することができる。次に、重要度の値は、プリエンコーダ４１０又はエンコーダ（図示省略）によって対応するビットバジェットに変換することができる。場合によっては、プリエンコーダ４１０は、ケースバイケースで、あるコンテキストインジケータの存在が別のコンテキストインジケータの存在下で発見される場合に重要度の値を増減するために、結果テーブル４２０の列を相互相関させる。

図５を参照すると、フレームのブロックの重要度テーブル５３０を生成するプリエンコーダ５２０の一実施形態のブロック図が示されている。一実施形態では、プリエンコーダは、図４に関連して上述したように、フレームのブロックの結果テーブル５０５を生成する。次に、プリエンコーダ５２０は、スコアリングテーブル（複数可）５１０から検索された値を結果テーブル５０５の値と組み合わせることによって、重要度テーブル５３０を生成する。例えば、一実施形態では、結果テーブル５０５の各行は、複数のフィールドを有し、各フィールドは、対応するコンテキストインジケータの存在又は不在をそれぞれ示すために「Ｙｅｓ」又は「Ｎｏ」を含む。このタイプの結果テーブルの例は、（図４の）結果テーブル４２０として示されている。

一実施形態では、スコアリングテーブル（複数可）５１０は、所定のブロックのエントリの列の各「Ｙｅｓ」値に適用するスコアフィールド５４５を含む。次に、スコアを合計して、重要度テーブル５３０のブロック５００Ａ～５００Ｃについて示される重要度の値を生成する。一実施形態によるスコアリングテーブル５１０の一例が、図５の下部に拡張された形で示されている。一実施形態では、コンテキストインジケータごとに１行があり、エントリフィールド５３５、コンテキストインジケータフィールド５４０、スコアフィールド５４５は別々の列にあり、このコンテキストインジケータフィールド５５０が存在する場合にはスコアが増加し、このコンテキストインジケータフィールド５５５が存在する場合にはスコアが減少する。

一実施形態では、このコンテキストインジケータがフィールド５５０で指定されたコンテキストインジケータの存在下にある場合、フィールド５４０で指定されたコンテキストインジケータに適用されるスコアを増加させる必要がある。例えば、フレームの明るい領域で記憶色が発見される場合、フィールド５４５のスコアを増加させる必要がある。フィールド５４５を増加させる量は、固定量（例えば、１０％）であってもよいし、別の実施形態では、フィールド５４５を増加させる量は、テーブル５１０の列で指定されてもよい。また、フィールド５４０で指定されたコンテキストインジケータがフィールド５５０で指定されたコンテキストインジケータの存在下にある場合には、スコアを減少させる必要がある。例えば、動きの閾値量を超えるフレームの領域で記憶色が発見された場合、記憶色に対してフィールド５４５のスコアを減少させる必要がある。スコアを減少させる量は、テーブル５１０で指定された固定量であってもよいし、他の方法で指定された量であってもよい。

ブロック５００Ａ～５００Ｃは、プリエンコーダ５２０によって解析されているフレームのブロックを表す。一実施形態では、重要度テーブル５３０はエンコーダ（例えば、図２のエンコーダ２３０）に提供される。エンコーダは、ブロックに対応する重要度テーブル５３０の値に基づいて、フレームの各ブロックにビットバジェットを割り当てる。例えば、所定のブロックの重要度テーブル５３０の値が高いほど、所定のブロックに割り当てられるビットバジェットが高くなる。

図６を参照すると、ビットバジェットテーブル６３０を生成するプリエンコーダ６２０の一実施形態のブロック図が示されている。一実施形態では、プリエンコーダ６２０は、重要度テーブル（例えば、重要度テーブル５３０）を生成するのではなく、結果テーブル６０５及びスコアリングテーブル（複数可）６１０に基づいてビットバジェットテーブル６３０を生成する。次に、ビットバジェットテーブル６３０が、対応するフレームを符号化する際にブロックごとのビットバジェットを満たすようにブロックを符号化するエンコーダ（例えば、図２のエンコーダ２３０）に提供される。ビットバジェットテーブル６３０は、図５で説明した重要度テーブル５３０と同じ方法で生成される。図示するように、ブロック６００Ａ～６００Ｃの各々には、重要度の値に基づいて対応するビット数が割り当てられる。場合によっては、プリエンコーダ６２０は、最初に重要度テーブルを生成し、次に重要度テーブルを使用してビットバジェットテーブル６３０を生成する。別の実施形態では、プリエンコーダ６２０は、エンコーダに重要度テーブルを提供し、次に、エンコーダは、重要度テーブルに基づいてビットバジェットテーブル６３０を生成する。

図７を参照すると、一実施形態に従ってプリエンコーダによって解析されているフレーム７００の例が示されている。フレーム７００は、プリエンコーダによって解析されているビデオフレームの例を表すものである。この説明のために、プリエンコーダは、標識及びテキスト等のコンテキストインジケータを検索していると仮定される。一実施形態では、ホストコンピューティングシステムは、自動運転車アプリケーションを実行している。別の実施形態では、ホストコンピューティングシステムはビデオゲームアプリケーションを実行している。他の実施形態では、フレーム７００と同様のフレームを生成可能な他のタイプのホストアプリケーションを実行することができる。

図７に示すように、フレーム７００は、標識７０５、７１０及び７１５を含む。一実施形態では、プリエンコーダによる解析の第１のステップにおいて、標識７０５、７１０及び７１５は、標識として識別され、またテキストを有するものとして識別されるため、より高い重要度が与えられる。ただし、フレーム７００の希少性解析は、標識及び／又はテキストを含むブロックの数が多いため、標識７０５、７１０及び７１５の重要度の減少をもたらすであろう。さらなる解析は、焦点が合っている標識７０５に基づいて、標識７０５に最も高い重要度を割り当てる。他の標識７１０と７１５の焦点が合っていない場合、それらの重要度スコアが低下する。

標識７０５～７１５の外側の領域には、樹木と道路が含まれる。樹木のあるフレーム７００の領域はビジーである（即ち、空間周波数が比較的高い）と見なされるため、これにより、従来のアルゴリズムでは、これらの領域のブロックに比較的高い重要度と比較的大きなビットバジェットが割り当てられる。ただし、ユーザがフレーム７００の何処に注意を向ける可能性が高いかという点では、樹木は標識７０５～７１５ほど重要ではない。したがって、樹木を含むブロックを符号化するために使用されるビットバジェットのビット数が少ないため、樹木の詳細度が低くなり、ユーザが認識したり気づいたりすることがほとんどない。したがって、標識７０５～７１５を含むブロックに対してより多くのビットを使用する方が適切な手法である。しかしながら、標識７０５～７１５の重要度は同じではないため、図４～図６で説明する手法を使用して、標識７０５を含むブロックには標識７１０～７１５を含むブロックよりも高い重要度が割り当てられる。このより高い重要度は、これらのブロックがエンコーダによって符号化される際に、標識７０５を含むブロックへのより大きなビットバジェット割り当てに変換される。

図８を参照すると、一実施形態に従ってプリエンコーダによって解析されているフレーム８００の例が示されている。フレーム８００は、プリエンコーダによって解析されているビデオフレームの例を表すものである。図示するように、フレーム８００のほとんどは樹木と葉で構成される。これらの特徴は、葉及び枝等の色の変化が頻繁に発生するため、「ビジー」として検出される傾向がある。その結果、一般的なエンコーダは、樹木及び葉を含むブロックに多数のビットを割り当てる。ただし、フレーム８００の場合、これは、ユーザが見ている可能性が高い場所に基づいたビットの誤割り当てになる。ユーザの注意は、標識８０５に集中する可能性が高い。一実施形態では、標識８０５は、３つの個別のコンテキストインジケータの基準を満たし、第１の基準は標識であり、第２の基準はテキストを含み、第３の基準は焦点が合っている。したがって、プリエンコーダ（例えば、図２のプリエンコーダ２２０）が、本明細書に記載の技術を使用してフレーム８００を解析する場合、標識８０５を含むブロックには比較的高い重要度が割り当てられ、フレーム８００に割り当てられたビットバジェットの比較的高いシェアを受ける。

図９を参照すると、ブロックごとのビットバジェットを生成するプリエンコーダ用の方法９００の一実施形態が示されている。説明のために、本実施形態のステップ及び図１０のステップが順番に示されている。しかしながら、注意すべきこととして、説明する方法の様々な実施形態では、説明する要素のうち１つ以上が同時に実行されてもよいし、図示した順序と異なる順序で実行されてもよいし、完全に省略されてもよい。他の追加の要素も必要に応じて実行される。本明細書に記載される様々なシステム又は装置の何れも、方法９００を実施するように構成されている。

プリエンコーダは、符号化されるフレームを受信する（ブロック９０５）。プリエンコーダは、ブロック単位でフレームを解析して、各ブロックに存在するコンテキストインジケータを決定する（ブロック９１０）。コンテキストインジケータは、実施形態によって異なる。一実施形態では、プリエンコーダは、１つ以上の訓練されたニューラルネットワークを使用して、ブロック内の異なるコンテキストインジケータを検出する。次に、プリエンコーダは、指定されたコンテキストインジケータの有無、及び、各コンテキストインジケータに割り当てられたスコアに基づいて、各ブロックの相対的な重要度の値を生成する（ブロック９１５）。一実施形態では、コンテキストインジケータは、ホストシステムによって実行されている特定のアプリケーションに固有の第１のテーブルで識別される。一実施形態では、各コンテキストインジケータに関連付けられたスコアは、ホストシステムによって実行されている特定のアプリケーションに固有の第２のテーブルに記憶される。次に、プリエンコーダは、１つ以上の他の変数に基づいて重要度の値を調整する（ブロック９２０）。例えば、他の変数は、フレーム全体内の特定のコンテキストインジケータの希少性、ブロックの被写界深度、及び／又は、他の要因を含むことができる。

次に、プリエンコーダにより、ブロックに割り当てられたビットバジェットが各ブロックの重要度の値の影響を受ける（ブロック９２５）。一実施形態では、プリエンコーダは、各ブロックの重要度の値に基づいてビットバジェットを計算し、ブロックに割り当てる。別の実施形態では、プリエンコーダは、レートコントローラ及び／又はエンコーダに重要度の値を提供し、レートコントローラ及び／又はエンコーダは、各ブロックの重要度の値に基づいてビットバジェットを計算し、ブロックに割り当てる。次に、エンコーダは、ブロックに割り当てられたビットバジェットを満たすようにブロックをエンコードする（ブロック９３０）。一実施形態では、エンコーダは、所定のブロックに割り当てられたビットバジェットに基づいて、所定のブロックを符号化するために使用される量子化パラメータ（ＱＰ）を調整する。他の実施形態では、エンコーダは他のパラメータを調整して、特定のブロックに割り当てられたビットバジェットに一致するか、それに近似するビット数で所定のブロックを符号化する。ブロック９３０の後に、方法９００を終了する。注意すべきこととして、方法９００は、フレームのブロックがどのように符号化されるかに影響を与えるビットバジェット又は重要度の値を生成するための１つ以上の他の技術と組み合わせて使用することができる。

図１０を参照すると、フレーム全体のコンテキストインジケータの希少性に基づいてフレームのブロックのコンテキストインジケータ係数を調整する方法１０００の一実施形態が示されている。プリエンコーダは、フレームの所定のブロックで第１のコンテキストインジケータを検出する（ブロック１００５）。実施形態に応じて、第１のコンテキストインジケータは、標識、テキスト、記憶色、又は、他のコンテキストインジケータである。次に、プリエンコーダは、第１のコンテキストインジケータがフレームの他のブロックで検出されたか否かを決定する（ブロック１０１０）。次に、プリエンコーダは、フレームの他のブロックにおける第１のコンテキストインジケータの発生回数に比例又は反比例する所定のブロックの係数を生成する（ブロック１０１５）。反比例の場合、フレーム内で第１のコンテキストインジケータが検出される頻度が低いほど、所定のブロックに対して生成される係数値が高くなる。次に、プリエンコーダは、所定のブロックに対して生成された合計スコアに係数を追加する（ブロック１０２０）。一実施形態では、合計スコアは、所定のブロックの重要度の値として使用される。次に、合計スコアを使用して、所定のブロックのビットバジェットを計算する（ブロック１０２５）。ブロック１０２５の後、方法１０００を終了する。注意すべきこととして、方法１０００は、フレームの各ブロックだけでなく、複数のコンテキストインジケータの各コンテキストインジケータに対して実行することができる。

様々な実施形態では、ソフトウェアアプリケーションのプログラム命令は、本明細書で説明する方法及び／又はメカニズムを実施するために使用される。例えば、汎用又は専用プロセッサによって実行可能なプログラム命令が企図される。様々な実施形態において、そのようなプログラム命令は、高水準のプログラミング言語によって表現される。他の実施形態では、プログラム命令は、高レベルプログラミング言語からバイナリ形式、中間形式又は他の形式にコンパイルされる。或いは、プログラム命令は、ハードウェアの動作又は設計を記述するように書かれる。このようなプログラム命令は、Ｃ等の高水準のプログラミング言語によって表現される。或いは、Ｖｅｒｉｌｏｇ等のハードウェア設計言語（ＨＤＬ）が使用される。様々な実施形態では、プログラム命令は、様々な非一時的なコンピュータ可読記憶媒体のうち何れかに記憶される。記憶媒体は、プログラム実行のためにプログラム命令をコンピューティングシステムに提供するために、使用中にコンピューティングシステムによってアクセス可能である。一般的に、そのようなコンピューティングシステムは、少なくとも１つ以上のメモリと、プログラム命令を実行するように構成された１つ以上のプロセッサと、を含む。

上述した実施形態が、実施形態の非限定的な例に過ぎないことを強調しておきたい。上記の開示が十分に理解されれば、多くの変形及び修正が当業者に明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形及び修正を包含するように解釈されることが意図される。

Claims

装置であって、
プリエンコーダと、
エンコーダと、を備え、
前記プリエンコーダは、
符号化されるフレームを受信することであって、前記フレームは複数のブロックを含む、ことと、
各ブロック内の指定されたコンテキストインジケータの有無に基づいて、各ブロックの重要度の値を生成することと、
前記ブロックに対して生成された重要度の値に少なくとも部分的に基づいて、各ブロックにビットバジェットを割り当てることと、
を行うように構成されており、
前記エンコーダは、
前記ブロックに割り当てられた前記ビットバジェットを満たすように各ブロックを符号化するように構成されている、
装置。
前記プリエンコーダは、
前記フレーム全体を通した各コンテキストインジケータの希少性を決定することと、
検出された各コンテキストインジケータの希少性に基づいて、各ブロックの重要度の値を調整することと、
を行うように構成されている、
請求項１の装置。
前記複数のコンテキストインジケータは、記憶色、テキスト及び標識を含む、
請求項１の装置。
前記プリエンコーダは、前記ブロック内で検出された各コンテキストインジケータに割り当てられたスコアに基づいて、各ブロックの重要度の値を生成するように構成されている、
請求項１の装置。
前記プリエンコーダは、前記ブロック内の第２のコンテキストインジケータを検出したことに応じて、第１のコンテキストインジケータに割り当てられた第１のスコアを調整するように構成されている、
請求項４の装置。
前記プリエンコーダは、前記フレームの前記複数のブロックにおいて検索される複数のコンテキストインジケータを指定するテーブルにアクセスするように構成されている、
請求項１の装置。
前記プリエンコーダは、
第１のアプリケーションに対応する第１の複数のコンテキストインジケータを指定する第１のテーブルを受信することと、
前記第１のアプリケーションが、符号化される第１のフレームを生成することに応じて、前記第１のフレームにおいて前記第１の複数のコンテキストインジケータを検索することと、
第２のアプリケーションに対応する第２の複数のコンテキストインジケータを指定する第２のテーブルを受信することと、
前記第２のアプリケーションが、符号化される第２のフレームを生成することに応じて、前記第２のフレームにおいて前記第２の複数のコンテキストインジケータを検索することと、
を行うように構成されている、
請求項１の装置。
方法であって、
プリエンコーダが、符号化されるフレームを受信することであって、前記フレームは複数のブロックを含む、ことと、
各ブロック内の指定されたコンテキストインジケータの有無に基づいて、各ブロックの重要度の値を生成することと、
前記ブロックに対して生成された重要度の値に少なくとも部分的に基づいて、各ブロックにビットバジェットを割り当てることと、
エンコーダが、前記ブロックに割り当てられた前記ビットバジェットを満たすように各ブロックを符号化することと、を含む、
方法。
前記フレーム全体を通した各コンテキストインジケータの希少性を決定することと、
検出された各コンテキストインジケータの希少性に基づいて、各ブロックの重要度の値を調整することと、を含む、
請求項８の方法。
前記複数のコンテキストインジケータは、記憶色、テキスト及び標識を含む、
請求項８の方法。
前記ブロック内で検出された各コンテキストインジケータに割り当てられたスコアに基づいて、各ブロックの重要度の値を生成することを含む、
請求項８の方法。
前記ブロック内の第２のコンテキストインジケータを検出したことに応じて、第１のコンテキストインジケータに割り当てられた第１のスコアを調整することを含む、
請求項１１の方法。
前記フレームの前記複数のブロックにおいて検索される複数のコンテキストインジケータを指定するテーブルにアクセスすることを含む、
請求項８の方法。
第１のアプリケーションに対応する第１の複数のコンテキストインジケータを指定する第１のテーブルを受信することと、
前記第１のアプリケーションが、符号化される第１のフレームを生成することに応じて、前記第１のフレームにおいて前記第１の複数のコンテキストインジケータを検索することと、
第２のアプリケーションに対応する第２の複数のコンテキストインジケータを指定する第２のテーブルを受信することと、
前記第２のアプリケーションが、符号化される第２のフレームを生成することに応じて、前記第２のフレームにおいて前記第２の複数のコンテキストインジケータを検索することと、を含む、
請求項８の方法。
システムであって、
メモリと、
前記メモリに結合されたプリエンコーダと、を備え、
前記プリエンコーダは、
符号化されるフレームを受信することであって、前記フレームは複数のブロックを含む、ことと、
各ブロック内の指定されたコンテキストインジケータの有無に基づいて、各ブロックの重要度の値を生成することと、
前記ブロックに対して生成された重要度の値に少なくとも部分的に基づいて、各ブロックにビットバジェットを割り当てることと、
前記ビットバジェットをエンコーダに伝達して、前記ブロックに割り当てられた前記ビットバジェットを満たすように各ブロックを符号化させることと、
を行うように構成されている、
システム。
前記プリエンコーダは、
前記フレーム全体を通した各コンテキストインジケータの希少性を決定することと、
検出された各コンテキストインジケータの希少性に基づいて、各ブロックの重要度の値を調整することと、
を行うように構成されている、
請求項１５のシステム。
前記複数のコンテキストインジケータは、記憶色、テキスト及び標識を含む、
請求項１５のシステム。
前記プリエンコーダは、前記ブロック内で検出された各コンテキストインジケータに割り当てられたスコアに基づいて、各ブロックの重要度の値を生成するように構成されている、
請求項１５のシステム。
前記プリエンコーダは、前記フレームの前記複数のブロックにおいて検索される複数のコンテキストインジケータを指定するテーブルにアクセスするように構成されている、
請求項１５のシステム。
前記プリエンコーダは、
第１のアプリケーションに対応する第１の複数のコンテキストインジケータを指定する第１のテーブルを受信することと、
前記第１のアプリケーションが、符号化される第１のフレームを生成することに応じて、前記第１のフレームにおいて前記第１の複数のコンテキストインジケータを検索することと、
第２のアプリケーションに対応する第２の複数のコンテキストインジケータを指定する第２のテーブルを受信することと、
前記第２のアプリケーションが、符号化される第２のフレームを生成することに応じて、前記第２のフレームにおいて前記第２の複数のコンテキストインジケータを検索することと、
を行うように構成されている、
請求項１５のシステム。