JP6867273B2

JP6867273B2 - 符号量推定装置及び符号量推定プログラム

Info

Publication number: JP6867273B2
Application number: JP2017211270A
Authority: JP
Inventors: 忍工藤; 正樹北原; 清水　淳; 淳清水
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2021-04-28
Anticipated expiration: 2037-10-31
Also published as: JP2019083491A

Description

本発明は、符号量推定装置及び符号量推定プログラムに関する。

映像を符号化するにあたり、画質を保ちつつ発生する符号量を所望のビットレートあるいはファイルサイズに収まるように符号量を制御することが望まれる。例えば、ＭＰＥＧ(Moving Picture Experts Group)２ｔｅｓｔＭｏｄｅｌ５（以下「背景技術１」という。）では符号化対象ピクチャに割り当てられた符号量をピクチャ内の各符号化ブロック画像に均等に割り当て、ピクチャ内の各ブロック画像を順次符号化していく。その過程において、目標符号量と実際に発生した符号量の差分に応じて量子化ステップを制御することで符号量制御を実現している（例えば、非特許文献１参照）。以下に具体的な計算手法について説明する。まず、ｊ番目のブロック画像を符号化する前に仮想的なバッファの充満度ｄ（ｊ）を次式（１）により算出する。

式（１）においてｄ（０）は、バッファ初期値であり、Ｂ（ｊ）は、ｊ番目を含んでそれまでの全てのブロック画像の符号化発生ビット数である。また、Ｔは、符号化対象ピクチャの目標ビット数であり、Ｂｌｋ＿ｃｎｔは、符号化対象ピクチャ内のブロック数である。初期量子化ステップＱ（ｊ）は、次式（２）により求められる。

式（２）においてｒは、次式（３）により求められる。

式（３）において、Ｂｉｔ＿ｒａｔｅは、映像信号のビットレートであり、Ｐｉｃｔｕｒｅ＿ｒａｔｅは、映像信号の１秒間に含まれるピクチャ数である。ピクチャ１枚のみを符号化する場合は、Ｂｉｔ＿ｒａｔｅ＝Ｔであり、Ｐｉｃｔｕｒｅ＿ｒａｔｅ＝１である。

そして、以下の式（４）のようにブロック画像毎のアクティビティによって変化させた値を最終的な量子化ステップＭ_ｑ（ｊ）として求める。

式（４）において、Ｎ_ａｃｔ（ｊ）は、次式（５）により求められる。

式（５）において、ａｃｔ（ｊ）は、次式（６）によって求められ、ａｖｇ_ａｃｔは、前の時刻のピクチャのａｃｔ（ｊ）の平均値である。なお、次式（６）において、Ｐ_ｋは、ブロック画像に含まれる画素の画素値である。

しかし、上記の背景技術１の構成は、符号化対象ピクチャに割り当てられた符号量を各ブロック画像に当分配する構成に相当する。そのため、ピクチャ内で符号化が簡単な領域と、難しい領域が混在する場合、同一の画質に対する必要な符号量が異なるにも関わらず同一の符号量を割り当ててしまうことになる。なお、領域とは、例えば、分割したブロック画像で分けられる領域である。

その結果、背景技術１においては、ピクチャ内の画質を均一に保つことができないという問題があった。そこで、この問題を解決する手法（以下「背景技術２」という。）が提案されている（例えば、非特許文献２参照）。

背景技術２では、以下のような計算手法を採用している。

Ｓｔｅｐ１：ブロック画像毎の画素値差分ノルムＧＰＰを次式（７）により算出し、ブロック画像の各々に対応するＧＰＰをＧＰＰ（ｋ）（ただし、ｋ＝１〜Ｂｌｋ＿ｃｎｔ）とする。次式（７）において、Ｈは、画像の高さであり、Ｗは、画像の幅である。ｌ_ｉ，ｊは、座標ｉ，ｊに位置する画素値を表す。なお、画素値差分ノルムＧＰＰ（ｋ）は、符号化難度を示す値である。

Ｓｔｅｐ２：次式（８）に基づいて各ブロック画像に符号化難度に応じた符号量を割り当てる。

Ｓｔｅｐ３：ブロック割当量と符号化難度から次式（９）に基づいて、量子化パラメータ（以下「ＱＰ」（Quantization Parameter）という。）を算出する。

Ｓｔｅｐ４：式（１０）に示すように関数fを更新する。

このように、背景技術２では各ブロック画像の符号化難度の大きさに応じて符号量を割り当てるため、符号化難度が大きいブロック画像には多めの符号量が割り当てられ、符号化難度が小さいブロック画像には少なめの符号量が割り当てられる。それにより、画質を均一化しようとしている。

安田浩、渡辺裕、"ディジタル画像圧縮の基礎"、日経ＢＰ社、1996年1月20日、pp192-195 Miaohui Wang, King Ngi Ngan, and Hongliang Li, "An Efficient Frame-Content Based Intra Frame Rate Control for High Efficiency Video Coding,", IEEE SIGNAL PROCESSING LETTERS, Vol. 22, No. 7, pp896-pp900, July 2015

しかしながら、上記の背景技術２では、各ブロック画像の符号化難度を画素値差分によって算出しているが、ブロック画像の符号化難度は符号化対象ピクチャに割り当てる符号量によって変わる場合がある。そのため、割り当てる符号量が適切でなくなり、符号量制御が正しく行えない場合があるという問題がある。

上記事情に鑑み、本発明は、符号化対象の画像情報の画質を均一に保ちつつ、より正確な符号量の割り当てを可能にすることができる技術の提供を目的としている。

本発明の一態様は、第一の画像情報と、符号化において要求する所望の要求符号量とに基づいて、前記第一の画像情報に適用する量子化パラメータを推定する量子化パラメータ推定部と、前記量子化パラメータと、前記第一の画像情報における符号量推定領域とに基づいて、前記符号量推定領域毎の目標符号量を推定する符号量推定部と、を備え、前記符号量推定部は、第二の画像情報における符号量推定領域と、前記量子化パラメータと、前記符号量推定領域を前記量子化パラメータで符号化した際の複雑度との関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す関係性情報を生成し、生成した前記関係性情報を用いて、符号化対象の前記符号量推定領域と、当該符号量推定領域を含む符号化対象の前記第一の画像情報及び当該第一の画像情報に対して要求する所望の前記要求符号量に基づいて前記量子化パラメータ推定部が算出する前記量子化パラメータとから複雑度を算出し、算出した複雑度と、当該符号量推定領域を含む符号化対象の前記第一の画像情報の前記要求符号量とから前記符号化対象の符号量推定領域毎の前記目標符号量を算出する符号量推定装置である。

本発明の一態様は、第一の画像情報と、符号化において要求する所望の要求符号量とに基づいて、前記第一の画像情報に適用する量子化パラメータを推定する量子化パラメータ推定部と、前記量子化パラメータと、前記第一の画像情報における符号量推定領域とに基づいて、前記符号量推定領域毎の目標符号量を推定する符号量推定部と、を備え、前記第一の画像情報が、動画像を構成する連続した画像情報である場合、前記量子化パラメータ推定部は、前記動画像から選択される連続した複数の前記第一の画像情報のセットと、前記動画像に対して要求する所望の前記要求符号量と、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報に対応するピクチャタイプと、前記複数の第一の画像情報のセットに対して適用する第１量子化パラメータとの関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第１の関係性情報を生成し、前記符号量推定部は、複数の前記第一の画像情報のセットと、前記ピクチャタイプと、前記第１量子化パラメータと、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報を前記第１量子化パラメータで符号化した際のピクチャ複雑度の関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第２の関係性情報を生成し、前記量子化パラメータ推定部は、更に、第一の画像情報と、前記第一の画像情報に対応するピクチャタイプと、前記第一の画像情報に対して要求する所望の前記要求符号量と、前記第一の画像情報の各々に適用する第２量子化パラメータとの関係性を前記所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第３の関係性情報を生成し、前記量子化パラメータ推定部は、生成した前記第１の関係性情報を用いて、符号化対象の前記複数の第一の画像情報のセットと、前記要求符号量と、当該複数の第一の画像情報のセットに含まれる前記第一の画像情報の各々のピクチャタイプとから前記第１量子化パラメータを算出し、前記符号量推定部は、生成した前記第２の関係性情報を用いて、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報と、前記量子化パラメータ推定部により算出された前記第１量子化パラメータと、前記ピクチャタイプとからピクチャ複雑度を算出し、算出した前記ピクチャ複雑度と、前記動画像に対して要求する所望の前記要求符号量とから前記第一の画像情報毎の前記要求符号量を算出し、前記量子化パラメータ推定部は、生成した前記第３の関係性情報を用いて、前記複数の第一の画像情報のセットと、前記符号量推定部が算出した前記第一の画像情報毎の前記要求符号量と、当該複数の第一の画像情報のセットに含まれる前記第一の画像情報の各々のピクチャタイプとから前記第２量子化パラメータを算出する符号量推定装置である。

本発明の一態様は、コンピュータに、第一の画像情報と、符号化において要求する所望の要求符号量とに基づいて、前記第一の画像情報に適用する量子化パラメータを推定する手順、前記量子化パラメータと、前記第一の画像情報における符号量推定領域とに基づいて、前記符号量推定領域毎の目標符号量を推定する手順、を実行させ、前記第一の画像情報が、動画像を構成する連続した画像情報である場合、前記量子化パラメータを推定する手順において、前記動画像から選択される連続した複数の前記第一の画像情報のセットと、前記動画像に対して要求する所望の前記要求符号量と、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報に対応するピクチャタイプと、前記複数の第一の画像情報のセットに対して適用する第１量子化パラメータとの関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第１の関係性情報を生成し、前記目標符号量を推定する手順において、複数の前記第一の画像情報のセットと、前記ピクチャタイプと、前記第１量子化パラメータと、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報を前記第１量子化パラメータで符号化した際のピクチャ複雑度の関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第２の関係性情報を生成し、前記量子化パラメータを推定する手順において、更に、第一の画像情報と、前記第一の画像情報に対応するピクチャタイプと、前記第一の画像情報に対して要求する所望の前記要求符号量と、前記第一の画像情報の各々に適用する第２量子化パラメータとの関係性を前記所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第３の関係性情報を生成し、前記量子化パラメータを推定する手順において、生成した前記第１の関係性情報を用いて、符号化対象の前記複数の第一の画像情報のセットと、前記要求符号量と、当該複数の第一の画像情報のセットに含まれる前記第一の画像情報の各々のピクチャタイプとから前記第１量子化パラメータを算出し、前記目標符号量を推定する手順において、生成した前記第２の関係性情報を用いて、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報と、前記量子化パラメータを推定する手順において算出された前記第１量子化パラメータと、前記ピクチャタイプとからピクチャ複雑度を算出し、算出した前記ピクチャ複雑度と、前記動画像に対して要求する所望の前記要求符号量とから前記第一の画像情報毎の前記要求符号量を算出し、前記量子化パラメータを推定する手順において、生成した前記第３の関係性情報を用いて、前記複数の第一の画像情報のセットと、前記目標符号量を推定する手順において算出された前記第一の画像情報毎の前記要求符号量と、当該複数の第一の画像情報のセットに含まれる前記第一の画像情報の各々のピクチャタイプとから前記第２量子化パラメータを算出するための符号量推定プログラムである。

本発明により、符号化対象の画像情報の画質を均一に保ちつつ、より正確な符号量の割り当てを可能にすることが可能となる。

本発明の第１の実施形態における映像符号化装置の構成を示すブロック図である。同実施形態の初期ＱＰ推定部の構成を示すブロック図である。同実施形態のブロック目標符号量推定部の構成を示すブロック図である。同実施形態の符号量制御部による処理の流れを示すフローチャートである。同実施形態における符号量制御部の他の構成例を示す図である。第２の実施形態における映像符号化装置の構成を示すブロック図である。同実施形態のＧＯＰ初期ＱＰ推定部の構成を示すブロック図である。同実施形態のＧＯＰ目標符号量推定部の構成を示すブロック図である。同実施形態の初期ＱＰ推定部の構成を示すブロック図である。同実施形態のブロック目標符号量推定部の構成を示すブロック図である。同実施形態の符号量制御部による処理の流れを示すフローチャートである。同実施形態における符号量制御部の他の構成例を示す図である。同実施形態における映像符号化装置の他の構成例を示す図である。

（第１の実施形態）
以下、本発明の実施形態について図面を参照して説明する。図１は、第１の実施形態における映像符号化装置Ｃの構成を示すブロック図である。映像符号化装置Ｃは、例えば、Ｈ．２６５／ＨＥＶＣ（High Efficiency Video Coding）の標準規格に準拠する装置である。

映像符号化装置Ｃは、符号量制御部１及び符号化部３を備え、符号量制御部１が出力するＱＰに従って符号化部３が符号化対象の画像情報の符号化を行い、符号化データを出力する。ここで、画像情報は、例えば、静止画像情報であり、以下の説明において、画像情報のことをピクチャともいう。

符号化部３は、ブロック分割部３０、減算器３１、直交変換・量子化部３２、可変長符号化部３３、逆量子化・逆直交変換部３４、加算器３５及びイントラ予測部３６を備える。符号化部３において、ブロック分割部３０は、映像符号化装置Ｃに外部から与えられる符号化対象画像情報をブロック画像情報に分割し、分割した符号化対象ブロック画像情報をブロック目標符号量推定部１１と減算器３１に出力する。

減算器３１は、ブロック分割部３０が出力する符号化対象ブロック画像情報の各々の画素の画素値と、イントラ予測部３６が出力する予測画像情報の各々の画素の画素値との差を算出して差分ブロック画像情報を生成する。また、減算器３１は、生成した差分ブロック画像情報を直交変換・量子化部３２に出力する。

直交変換・量子化部３２は、減算器３１が出力する差分ブロック画像情報に対して直交変換を行い、直交変換した差分ブロック画像情報に対して、最終ＱＰ算出部１６が出力するＱＰに基づいて量子化を行うことによって量子化係数を生成する。また、直交変換・量子化部３２は、生成した量子化係数を可変長符号化部３３と、逆量子化・逆直交変換部３４に出力する。

可変長符号化部３３は、直交変換・量子化部３２が出力する量子化係数を可変長符号化して符号化データを生成し、生成した符号化データを映像符号化装置Ｃの外部に出力する。また、可変長符号化部３３は、符号化データを生成する際に得られるブロック画像情報の発生符号量（以下「ブロック発生符号量」という。）を累積発生符号量算出部１３に出力する。また、可変長符号化部３３は、符号化データを生成する際に得られる符号化対象画像情報内の符号化処理が終了した符号化済みブロック数の値を最終ＱＰ算出部１６に出力する。

逆量子化・逆直交変換部３４は、直交変換・量子化部３２が出力する量子化係数に対して逆量子化と逆直交変換を行うことにより差分ブロック画像情報を復号して加算器３５に出力する。

加算器３５は、逆量子化・逆直交変換部３４が出力する復号差分ブロック画像情報の各々の画素の画素値と、イントラ予測部３６が出力する予測画像情報の各々の画素の画素値の和を算出して参照画像情報を生成する。また、加算器３５は、生成した参照画像情報をイントラ予測部３６に出力する。

イントラ予測部３６は、加算器３５が出力する参照画像情報に基づいて符号化対象ブロック画像情報に対応するイントラ予測による予測画像情報を生成し、生成した予測画像情報を減算器３１に出力する。

符号量制御部１は、量子化パラメータ推定部２０、符号量推定部２１及び量子化パラメータ補正部２２を備える。

量子化パラメータ推定部２０は、ＱＰの初期値を算出する。量子化パラメータ推定部２０は、初期ＱＰ推定部１０を備える。初期ＱＰ推定部１０は、符号化対象画像情報と、当該符号化対象画像情報に対して要求する所望の要求符号量であるピクチャ目標符号量とに基づいて、初期ＱＰ（ＱＰ_ｉｎｉｔ）を算出する。ここで、所望の要求符号量であるピクチャ目標符号量とは、例えば、符号化後の１画像情報当たりのビット数である。ただし、１画像情報当たりのビット数に限られるものではなく、１画素当たりのビット数やファイルサイズ等で示される値であってもよい。

符号量推定部２１は、ブロック画像情報毎の目標符号量を算出する。符号量推定部２１は、ブロック目標符号量推定部１１を備える。ブロック目標符号量推定部１１は、初期ＱＰ推定部１０が出力する初期ＱＰと、符号化対象ブロック画像情報と、ピクチャ目標符号量とに基づいて、符号化対象ブロック画像情報毎の目標符号量であるブロック目標符号量を算出する。

量子化パラメータ補正部２２は、ＱＰを補正する。量子化パラメータ補正部２２は、累積目標符号量算出部１２、累積発生符号量算出部１３、符号量誤差算出部１４、平均ＱＰ算出部１５及び最終ＱＰ算出部１６を備える。量子化パラメータ補正部２２において、累積目標符号量算出部１２は、ブロック目標符号量推定部１１が出力する符号化済みのブロック画像情報のブロック目標符号量の累積値、すなわち符号化対象のブロック画像情報の直前までのブロック目標符号量の和を算出する。

累積発生符号量算出部１３は、可変長符号化部３３が出力する符号化済みのブロック画像情報のブロック発生符号量の累積値、すなわち符号化対象のブロック画像情報の直前までのブロック発生符号量の和を算出する。符号量誤差算出部１４は、累積目標符号量算出部１２が出力するブロック目標符号量の累積値と、累積発生符号量算出部１３が出力するブロック発生符号量の累積値との差を算出し、当該差を符号量誤差として出力する。

平均ＱＰ算出部１５は、初期ＱＰ推定部１０が出力する初期ＱＰを初期値として、符号化対象のブロック画像情報の直前までのＱＰの平均値である平均ＱＰを算出する。ここで、符号化対象のブロック画像情報の直前までのＱＰの平均値とは、符号化対象のブロック画像情報の直前までのＱＰの合計値を、当該ＱＰの個数で除算した値である。

最終ＱＰ算出部１６は、符号量誤差算出部１４が算出した符号量誤差と、平均ＱＰ算出部１５が出力する平均ＱＰと、可変長符号化部３３が出力する符号化対象画像情報内の符号化済みブロック数の値とに基づいて、符号化対象のブロック画像情報に適用するＱＰを算出する。

図２は、初期ＱＰ推定部１０の内部の構成を示すブロック図である。初期ＱＰ推定部１０は、例えば、機械学習モデルに従って、画像情報と、ピクチャ目標符号量と、初期ＱＰとの関係性を学習処理により推定し、推定した関係性を示す関係性情報を学習済みデータとして生成する。

初期ＱＰ推定部１０は、符号化処理の運用時において、生成した関係性情報を用いて、符号化対象画像情報と、当該符号化対象画像情報に対して要求する所望のピクチャ目標符号量Ｂ_{ｔａｒｇｅｔ}から初期ＱＰを算出する。

初期ＱＰ推定部１０は、演算部１００、切替部１３０、誤差算出部１３１、教師ＱＰ情報記憶部１３２及び学習処理部１３３を備える。演算部１００は、特徴抽出部１１０、全結合層１２０及び学習データ記憶部１２１を備える。

学習データ記憶部１２１は、全結合層１２０の入出力ノード間の重み係数、特徴抽出部１１０における畳み込み層部１１１−１〜１１１−Ｎの演算の際に用いられるフィルタ係数等の学習データを記憶する。

特徴抽出部１１０は、特徴抽出部１１０−１〜１１０−Ｎを備える。特徴抽出部１１０−１は、畳み込み層部１１１−１、ダウンサンプリング部１１２−１及び非線形変換部１１３−１を備える。特徴抽出部１１０−２〜１１０−Ｎは、特徴抽出部１１０−１と同一の内部構成を有しており、各々が、畳み込み層部１１１−２〜１１１−Ｎ、ダウンサンプリング部１１２−２〜１１２−Ｎ及び非線形変換部１１３−２〜１１３−Ｎを備える。

畳み込み層部１１１−１〜１１１−Ｎは、入力情報に対して、学習データ記憶部１２１に記憶されるフィルタ係数を適用して、畳み込み演算を行う。ダウンサンプリング部１１２−１〜１１２−Ｎは、各々に対応する畳み込み層部１１１−１〜１１１−Ｎが出力する情報に対してダウンサンプリングを行う。非線形変換部１１３−１〜１１３−Ｎは、各々に対応するダウンサンプリング部１１２−１〜１１２−Ｎが出力する情報に対して非線形変換処理を行う。

すなわち、特徴抽出部１１０は、画像情報に対して畳み込み演算、ダウンサンプリング及び非線形変換処理をＮ回繰り返して画像情報の特徴量を算出する。なお、Ｎの値は、１以上の整数である。

全結合層１２０は、１つの出力ノードと、複数の入力ノードとを有しており、特徴抽出部１１０が出力する特徴量を取り込む入力ノードと、ピクチャ目標符号量が与えられる入力ノードとを出力ノードに全結合する。また、全結合層１２０は、特徴抽出部１１０が出力する特徴量と、ピクチャ目標符号量とに対して学習データ記憶部１２１に記憶される重み係数を乗じる演算を行い、演算した結果に基づく出力値を出力する。

切替部１３０は、スイッチを備えており、学習処理を行う際、全結合層１２０の出力端子を誤差算出部１３１に接続する端子に接続し、符号化処理の運用時には、全結合層１２０の出力端子をブロック目標符号量推定部１１に接続する端子に接続する。

教師ＱＰ情報記憶部１３２は、教師情報としてのＱＰの情報を予め記憶する。誤差算出部１３１は、切替部１３０が出力する全結合層１２０の出力値と、教師ＱＰ情報記憶部１３２に記憶されている教師情報との誤差を算出する。また、誤差算出部１３１は、算出した誤差が予め定められる閾値以下となった場合、切替部１３０に対して指示情報を出力してスイッチを切り替えさせ、全結合層１２０の出力端子をブロック目標符号量推定部１１に接続する端子に接続させる。

学習処理部１３３は、誤差算出部１３１が算出した誤差に基づいて、当該誤差を小さくするように新たな学習データを算出し、学習データ記憶部１２１に記憶されている学習データを、算出した学習データに書き換えて更新する。誤差を小さくする演算手法としては、例えば、誤差逆伝播法等が適用される。

図３は、ブロック目標符号量推定部１１の内部の構成を示すブロック図である。ブロック目標符号量推定部１１は、例えば、機械学習モデルに従って、ブロック画像情報と、初期ＱＰと、当該ブロック画像情報の複雑度合いを示す指数である複雑度との関係性を学習処理により推定し、推定した関係性を示す情報を学習済みモデルとして生成する。ここで、複雑度とは、ブロック画像情報を初期ＱＰで符号化した際に発生するブロック発生符号量のことである。

ブロック目標符号量推定部１１は、符号化処理の運用時において、生成した関係性情報を用いて、符号化対象ブロック画像情報と、初期ＱＰ推定部１０が出力する初期ＱＰと、当該符号化対象ブロック画像情報を含む符号化対象画像情報のピクチャ目標符号量とに基づいて、ブロック目標符号量を算出する。

ブロック目標符号量推定部１１は、演算部２００、切替部２３０、誤差算出部２３１、教師複雑度情報記憶部２３２、学習処理部２３３及び符号量算出部２３４を備える。演算部２００は、特徴抽出部２１０、全結合層２２０及び学習データ記憶部２２１を備える。

学習データ記憶部２２１は、全結合層２２０の入出力ノード間の重み係数、特徴抽出部２１０における畳み込み層部２１１−１〜２１１−Ｎの演算の際に用いられるフィルタ係数等の学習データを記憶する。

特徴抽出部２１０は、特徴抽出部２１０−１〜２１０−Ｎを備える。特徴抽出部２１０−１は、畳み込み層部２１１−１、ダウンサンプリング部２１２−１及び非線形変換部２１３−１を備える。特徴抽出部２１０−２〜２１０−Ｎは、特徴抽出部２１０−１と同一の内部構成を有しており、各々が、畳み込み層部２１１−２〜２１１−Ｎ、ダウンサンプリング部２１２−２〜２１２−Ｎ及び非線形変換部２１３−２〜２１３−Ｎを備える。

畳み込み層部２１１−１〜２１１−Ｎは、入力情報に対して、学習データ記憶部２２１に記憶されるフィルタ係数を適用して、畳み込み演算を行う。ダウンサンプリング部２１２−１〜２１２−Ｎは、各々に対応する畳み込み層部２１１−１〜２１１−Ｎが出力する情報に対してダウンサンプリングを行う。非線形変換部２１３−１〜２１３−Ｎは、各々に対応するダウンサンプリング部２１２−１〜２１２−Ｎが出力する情報に対して非線形変換処理を行う。

すなわち、特徴抽出部２１０は、ブロック分割部３０から与えられるブロック画像情報に対して畳み込み演算、ダウンサンプリング及び非線形変換処理をＮ回繰り返してブロック画像情報の特徴量を算出する。なお、Ｎの値は、１以上の整数である。

全結合層２２０は、１つの出力ノードと、複数の入力ノードとを有しており、特徴抽出部２１０が出力する特徴量を取り込む入力ノードと、初期ＱＰが与えられる入力ノードとを出力ノードに全結合する。また、全結合層２２０は、特徴抽出部２１０が出力する特徴量と、初期ＱＰとに対して学習データ記憶部２２１に記憶される重み係数を乗じる演算を行い、演算した結果に基づく出力値を出力する。

符号量算出部２３４は、全結合層２２０が出力する出力値をブロック画像情報の複雑度Ｘ（ｊ）とし、当該複雑度Ｘ（ｊ）と、ピクチャ目標符号量Ｂ_{ｔａｒｇｅｔ}とに基づいて、ブロック画像情報の目標符号量Ｔ（ｊ）を次式（１１）により算出する。

式（１１）において、Ｂｌｋ＿ｃｎｔは、対象としているブロック画像情報を含む画像情報に含まれるブロック数、すなわち分割数である。また、符号量算出部２３４は、算出したブロック目標符号量Ｔ（ｊ）を累積目標符号量算出部１２に出力する。

切替部２３０は、スイッチを備えており、学習処理を行う際、全結合層２２０の出力端子を誤差算出部２３１に接続する端子に接続し、符号化処理の運用時には、全結合層２２０の出力端子を符号量算出部２３４に接続する端子に接続する。

教師複雑度情報記憶部２３２は、教師情報としての複雑度を予め記憶する。誤差算出部２３１は、切替部２３０が出力する全結合層２２０の出力値と、教師複雑度情報記憶部２３２に記憶されている教師情報との誤差を算出する。また、誤差算出部２３１は、算出した誤差が予め定められる閾値以下となった場合、切替部２３０に対して指示情報を出力してスイッチを切り替えさせ、全結合層２２０の出力端子を符号量算出部２３４に接続する端子に接続させる。

学習処理部２３３は、誤差算出部２３１が算出した誤差に基づいて、当該誤差を小さくするように新たな学習データを算出し、学習データ記憶部２２１に記憶されている学習データを、算出した学習データに書き換えて更新する。誤差を小さくする演算手法としては、例えば、誤差逆伝播法等が適用される。

（第１の実施形態におけるＱＰ算出処理）
次に、符号量制御部１によるＱＰの算出処理について説明する。図４は、ＱＰの算出処理の流れを示すフローチャートである。図４に示す処理は、学習処理と符号化処理に分かれており、ステップＳａ１及びステップＳａ２における学習処理が完了して学習済みデータを生成した後、ステップＳａ３以降の処理において映像符号化装置Ｃは、符号化対象画像情報を取り込んで符号化処理を行う。初期ＱＰ推定部１０は、画像情報と、当該画像情報に対応するピクチャ目標符号量と、初期ＱＰとの関係性を示す関係性情報を学習処理により生成する（ステップＳａ１）。

初期ＱＰ推定部１０に対して、学習済みデータ、すなわち関係性情報を生成する学習処理を行わせるために、事前に、学習用の画像情報の確率分布情報と、ピクチャ目標符号量の確率分布情報とを組み合わせた情報を入力情報として用意しておく。また、当該画像情報を符号化した際に、対応するピクチャ目標符号量に最も近くなるＱＰの確率分布情報を教師情報として用意しておく。

ＱＰの確率分布情報を教師情報として教師ＱＰ情報記憶部１３２に記憶させておき、切替部１３０のスイッチを、予め全結合層１２０の出力端子が、誤差算出部１３１に接続する端子に接続するように切り替えておく。特徴抽出部１１０が、学習用の画像情報の確率分布情報を取り込み、全結合層１２０が、学習用のピクチャ目標符号量の確率分布情報を取り込むことにより初期ＱＰ推定部１０は、学習処理を開始する。

誤差算出部１３１が算出する誤差が、例えば、予め定められる閾値以下となった場合、学習処理を終了し、誤差算出部１３１が指示情報を切替部１３０に出力する。切替部１３０は、当該指示情報を受けてスイッチを切り替え、全結合層１２０の出力端子の接続先をブロック目標符号量推定部１１にする。このタイミングで、学習データ記憶部１２１に記憶されている学習済みデータが、上述した画像情報と、ピクチャ目標符号量と、初期ＱＰとの関係性を示す関係性情報となる。

ブロック目標符号量推定部１１は、ブロック画像情報と、当該ブロック画像情報に対応する初期ＱＰと、複雑度との関係性を示す関係性情報を学習処理により生成する（ステップＳａ２）。

ブロック目標符号量推定部１１に対して、学習済みデータ、すなわち関係性情報を生成する学習処理を行わせるために、事前に、学習用のブロック画像情報の確率分布情報と、初期ＱＰの確率分布情報とを組み合わせた情報を入力情報として用意しておく。また、当該ブロック画像情報を、対応する初期ＱＰで符号化した際に発生する複雑度の確率分布情報を教師情報として用意しておく。

複雑度の確率分布情報を教師情報として教師複雑度情報記憶部２３２に記憶させておき、切替部２３０のスイッチを、予め全結合層２２０の出力端子が、誤差算出部２３１に接続する端子に接続するように切り替えておく。特徴抽出部２１０が、学習用のブロック画像情報の確率分布情報を取り込み、全結合層２２０が、学習用の初期ＱＰの確率分布情報を取り込むことによりブロック目標符号量推定部１１は、学習処理を開始する。

誤差算出部２３１が算出する誤差が、例えば、予め定められる閾値以下となった場合、学習処理を終了し、誤差算出部２３１が指示情報を切替部２３０に出力する。切替部２３０は、当該指示情報を受けてスイッチを切り替え、全結合層２２０の出力端子の接続先を符号量算出部２３４とする。このタイミングで、学習データ記憶部２２１に記憶されている学習済みデータが、上述したブロック画像情報と、初期ＱＰと、複雑度との関係性を示す関係性情報となる。

映像符号化装置Ｃは、符号化対象画像情報と、当該符号化対象画像情報に対して要求する所望のピクチャ目標符号量とを取り込む（ステップＳａ３）。符号量制御部１の初期ＱＰ推定部１０の演算部１００は、符号化対象画像情報と、ピクチャ目標符号量とを取り込む。特徴抽出部１１０は、学習データ記憶部１２１に記憶されている学習済みデータを用いて、取り込んだ符号化対象画像情報の特徴量を算出する。

全結合層１２０は、特徴抽出部１１０が出力する特徴量と、ピクチャ目標符号量と、学習データ記憶部１２１に記憶されている学習済みデータとに基づいて、初期ＱＰを算出する。初期ＱＰ推定部１０は、算出した初期ＱＰをブロック目標符号量推定部１１に出力する（ステップＳａ４）。

ブロック目標符号量推定部１１は、ブロック分割部３０が出力する符号化対象ブロック画像情報と、初期ＱＰ推定部１０が出力する初期ＱＰとを取り込む。ブロック目標符号量推定部１１の演算部２００は、符号化対象ブロック画像情報と、初期ＱＰとを取り込む。特徴抽出部２１０は、学習データ記憶部２２１に記憶されている学習済みデータを用いて、取り込んだ符号化対象ブロック画像情報の特徴量を算出する。

全結合層２２０は、特徴抽出部２１０が出力する特徴量と、初期ＱＰと、学習データ記憶部２２１に記憶されている学習済みデータとに基づいて、ブロック目標符号量を算出する。ブロック目標符号量推定部１１は、算出したブロック目標符号量を累積目標符号量算出部１２に出力する（ステップＳａ５）。

以下、量子化パラメータ補正部２２が、符号化対象画像情報の各ブロック画像情報について、ステップＳａ６からステップＳａ９の処理を繰り返し行う（ループＬａ１ｓ〜Ｌａ１ｅ）。累積目標符号量算出部１２は、符号化部３において符号化対象となっているブロック画像情報の直前のブロック画像情報までのブロック目標符号量の累積値である累積目標符号量Ｔ_ｓｕｍを算出する。

累積発生符号量算出部１３は、可変長符号化部３３が出力するブロック発生符号量のうち、符号化部３において符号化対象となっているブロック画像情報の直前のブロック画像情報までのブロック発生符号量の累積値である累積発生符号量Ｂ_ｓｕｍを算出する（ステップＳａ６）。累積目標符号量Ｔ_ｓｕｍを式で表すと次式（１２）となり、累積発生符号量Ｂ_ｓｕｍを式で表すと次式（１３）となる。

式（１３）において、Ｂ（ｉ）は、ｉ番目のブロック画像情報のブロック発生符号量である。

符号量誤差算出部１４は、累積発生符号量算出部１３が出力する累積発生符号量Ｂ_ｓｕｍと、累積目標符号量算出部１２が出力する累積目標符号量Ｔ_ｓｕｍとに基づいて、次式（１４）により符号量誤差Ｄを算出して最終ＱＰ算出部１６に出力する。

平均ＱＰ算出部１５は、最終ＱＰ算出部１６が出力するブロック画像情報毎のＱＰを取り込み、符号化部３において符号化対象となっているブロック画像情報の直前のブロック画像情報までのＱＰの平均値である平均ＱＰ（ＱＰ_ｍｅａｎ）を次式（１５）に基づいて算出する（ステップＳａ７）。

最終ＱＰ算出部１６は、次式（１６）によりＱＰの補正値である補正ＱＰをｄｅｌｔａＱＰとして算出する（ステップＳａ８）。

式（１６）において、ＢｌｋＰｒｏｃ＿ｃｎｔは、可変長符号化部３３が出力する符号化対象画像情報内の符号化済みブロック数である。また、ｄｅｌｔａＱＰ_ｏｒｇは、次式（１７）に基づいて、符号量誤差算出部１４が算出する符号量誤差Ｄから求められる値であり、ｋは調整パラメータ係数である。

最終ＱＰ算出部１６は、平均ＱＰ算出部１５が出力する平均ＱＰ（ＱＰ_ｍｅａｎ）と、算出した補正ＱＰ（ｄｅｌｔａＱＰ）とに基づいて、次式（１８）により最終的なＱＰを算出して直交変換・量子化部３２に出力する（ステップＳａ９）。

式（１８）においてＲｏｕｎｄ（）の関数は、切り上げ、切り下げ、四捨五入等の丸め演算を行う関数を意味する。符号化部３は、符号量制御部１がブロック画像情報毎に出力するＱＰを用いて各ブロック画像情報の符号化を行い、全てのブロック画像情報の符号化が終了するまで処理を繰り返す。

上記の第１の実施形態の構成により、量子化パラメータ推定部２０は、画像情報と、符号化において要求する所望のピクチャ目標符号量とに基づいて、画像情報に適用する初期ＱＰを推定する。符号量推定部２１は、初期ＱＰと、画像情報をブロックに分割したブロック画像情報とに基づいて、ブロック画像情報毎のブロック目標符号量を推定する。

すなわち、上記の第１の実施形態の構成では、各ブロック画像情報に割り当てるブロック目標符号量の算出する際に、初期ＱＰ推定部１０が、画像情報と、当該画像情報に対応するピクチャ目標符号量と、初期ＱＰとの関係性を機械学習モデルを用いた学習処理により推定し、学習処理により得られた学習済みデータを当該関係性を示す関係性情報として予め生成しておく。また、ブロック目標符号量推定部１１は、ブロック画像情報と、初期ＱＰと、複雑度との関係性を機械学習モデルを用いた学習処理により推定し、学習処理により得られた学習済みデータを当該関係性を示す関係性情報として予め生成しておく。

初期ＱＰ推定部１０は、生成した関係性情報を用いて、符号化対象画像情報と、当該符号化対象画像情報に対して要求する所望のピクチャ目標符号量とから初期ＱＰを算出する。ブロック目標符号量推定部１１は、生成した関係性情報を用いて、符号化対象ブロック画像情報と、初期ＱＰとからブロック目標符号量を算出する。したがって、符号化対象画像情報の特徴と、所望のピクチャ目標符号量とに応じたブロック目標符号量を算出することが可能となり、ブロック画像情報毎に適切なＱＰを割り当てることができる。それにより、符号化対象の画像情報の画質を均一に保ちつつ所望の符号量、例えば、所望のファイルサイズとするより正確な符号量の割り当てを行うことが可能となる。

なお、第１の実施形態の符号量制御部１において、図５に示すように、量子化パラメータ推定部２０と、符号量推定部２１とを１つの符号量推定装置１Ａとして構成するようにしてもよい。

（第２の実施形態）
図６は、第２の実施形態における映像符号化装置Ｃａの構成を示すブロック図である。第２の実施形態の映像符号化装置Ｃａにおいて、第１の実施形態の映像符号化装置Ｃと同一の構成については、同一の符号を付し、以下、異なる構成について説明する。映像符号化装置Ｃａは、符号量制御部１ａと符号化部３ａを備え、符号量制御部１ａが出力するＱＰに従って符号化部３ａが符号化対象の映像情報の符号化を行い、符号化データを出力する。

符号化部３ａは、ＧＯＰ(Group Of Pictures)分割部４１、ブロック分割部３０、減算器３１、直交変換・量子化部３２、可変長符号化部３３、逆量子化・逆直交変換部３４、加算器３５、イントラ予測部３６、ループフィルタ部３７、復号ピクチャメモリ部３８、インター予測部３９及びイントラ・インター切替スイッチ部４０を備える。

符号化部３ａにおいて、ＧＯＰ分割部４１は、映像情報に含まれる複数の連続した画像情報を予め定められている条件に応じた所定の枚数毎に分割する。また、ＧＯＰ分割部４１は、分割した複数の画像情報のセットをＧＯＰとしてＧＯＰ初期ＱＰ推定部１７とＧＯＰ目標符号量推定部１８に出力する。また、ＧＯＰ分割部４１は、ＧＯＰに含まれる画像情報の各々を符号化順にブロック分割部３０と減算器１９と初期ＱＰ推定部１０ａに出力する。

減算器３１は、ブロック分割部３０が出力する符号化対象ブロック画像情報の各々の画素の画素値と、イントラ予測部３６、またはインター予測部３９が出力する予測画像情報の各々の画素の画素値との差を算出して差分ブロック画像情報を生成する。また、減算器３１は、生成した差分ブロック画像情報をブロック目標符号量推定部１１ａと直交変換・量子化部３２とに出力する。

加算器３５は、逆量子化・逆直交変換部３４が出力する復号差分ブロック画像情報の各々の画素の画素値と、イントラ予測部３６またはインター予測部３９が出力する予測画像情報の各々の画素の画素値の和を算出して参照画像情報を生成する。また、加算器３５は、生成した参照画像情報をイントラ予測部３６とループフィルタ部３７とに出力する。

ループフィルタ部３７は、加算器３５が出力する参照画像情報にループフィルタを適用してインター予測用の参照画像情報を生成し、生成したインター予測用の参照画像情報を復号ピクチャメモリ部３８に書き込んで記憶させる。復号ピクチャメモリ部３８は、書込み可能なＲＡＭ(Random Access Memory)などの記憶デバイスであり、ループフィルタ部３７が書き込むインター予測用の参照画像情報を記憶する。

インター予測部３９は、復号ピクチャメモリ部３８に記憶されているインター予測用の参照画像情報を用いて符号化対象ブロック画像情報のインター予測による予測画像情報を生成する。

イントラ・インター切替スイッチ部４０は、符号化対象ブロック画像情報の予測モードに応じてスイッチを切り替え、減算器３１及び加算器３５を、イントラ予測部３６、またはインター予測部３９のいずれかに接続する。

符号量制御部１ａは、量子化パラメータ推定部２０ａ、符号量推定部２１ａ及び量子化パラメータ補正部２２を備える。符号量制御部１ａにおいて、量子化パラメータ推定部２０ａは、ＧＯＰ初期ＱＰ推定部１７、減算器１９及び初期ＱＰ推定部１０ａを備える。

量子化パラメータ推定部２０ａにおいて、ＧＯＰ初期ＱＰ推定部１７は、ＧＯＰ分割部４１が出力するＧＯＰと、当該ＧＯＰに対して要求する所望の要求符号量であるビットレートと、当該ＧＯＰに含まれる画像情報のピクチャタイプをリスト化したピクチャタイプリストとに基づいて、ＧＯＰ初期ＱＰを算出する。ここで、ＧＯＰ初期ＱＰとは、ＧＯＰ毎に算出する初期ＱＰの値であり、ある１つのＧＯＰについて算出したＧＯＰ初期ＱＰは、当該ＧＯＰに含まれる画像情報に共通して適用される値である。

減算器１９は、ＧＯＰ分割部４１が出力する画像情報の各々の画素の画素値と、復号ピクチャメモリ部３８に記憶されている参照画像情報の各々の画素の画素値との差を算出して差分画像情報を生成し、生成した差分画像情報を初期ＱＰ推定部１０ａに出力する。

初期ＱＰ推定部１０ａは、減算器１９が出力する差分画像情報、またはＧＯＰ分割部４１が出力する画像情報のいずれかである入力画像情報と、当該入力画像情報に対応するピクチャタイプと、ＧＯＰ目標符号量推定部１８が出力する当該入力画像情報に対応するピクチャ目標符号量とに基づいて、初期ＱＰを算出する。

符号量推定部２１ａは、ＧＯＰ目標符号量推定部１８と、ブロック目標符号量推定部１１ａとを備える。符号量推定部２１ａにおいて、ＧＯＰ目標符号量推定部１８は、ＧＯＰ分割部４１が出力するＧＯＰと、ＧＯＰ初期ＱＰ推定部１７が出力するＧＯＰ初期ＱＰと、当該ＧＯＰに含まれる画像情報のピクチャタイプをリスト化したピクチャタイプリストと、ビットレートとに基づいて、ＧＯＰに含まれる画像情報毎のピクチャ目標符号量を算出する。

ブロック目標符号量推定部１１ａは、減算器３１が出力する差分ブロック画像情報、またはブロック分割部３０が出力するブロック画像情報のいずれかである入力ブロック画像情報と、当該入力ブロック画像情報に対応するピクチャタイプと、初期ＱＰ推定部１０ａが出力する初期ＱＰとに基づいて、符号化対象ブロック画像情報毎のブロック目標符号量を算出する。

図７は、ＧＯＰ初期ＱＰ推定部１７の内部の構成を示すブロック図である。ＧＯＰ初期ＱＰ推定部１７は、例えば、機械学習モデルに従って、ＧＯＰを構成する複数の画像情報と、当該ＧＯＰに含まれる画像情報のピクチャタイプをリスト化したピクチャタイプリストと、ビットレートと、ＧＯＰ初期ＱＰとの関係性を学習処理により推定し、推定した関係性を示す関係性情報を学習済みデータとして生成する。

ＧＯＰ初期ＱＰ推定部１７は、符号化処理の運用時において、生成した関係性情報を用いて、ＧＯＰ分割部４１が出力する符号化対象のＧＯＰと、当該符号化対象のＧＯＰに含まれる画像情報のピクチャタイプをリスト化したピクチャタイプリストと、当該符号化対象のＧＯＰに対して要求する所望のビットレートとに基づいて、ＧＯＰ初期ＱＰ（ＱＰ_{ＧＯＰｉｎｉｔ}）を算出する。

ＧＯＰ初期ＱＰ推定部１７は、演算部３００、切替部３３０、誤差算出部３３１、教師ＱＰ情報記憶部３３２及び学習処理部３３３を備える。演算部３００は、ＧＯＰ特徴抽出部３１０、全結合層３２０及び学習データ記憶部３２１を備える。

学習データ記憶部３２１は、全結合層３２０の入出力ノード間の重み係数、ＧＯＰ特徴抽出部３１０における畳み込み層部３１１−１〜３１１−Ｎの演算の際に用いられるフィルタ係数等の学習データを記憶する。

ＧＯＰ特徴抽出部３１０は、ＧＯＰ特徴抽出部３１０−１〜３１０−Ｎを備える。ＧＯＰ特徴抽出部３１０−１は、畳み込み層部３１１−１、ダウンサンプリング部３１２−１及び非線形変換部３１３−１を備える。ＧＯＰ特徴抽出部３１０−２〜３１０−Ｎは、ＧＯＰ特徴抽出部３１０−１と同一の内部構成を有しており、各々が、畳み込み層部３１１−２〜３１１−Ｎ、ダウンサンプリング部３１２−２〜３１２−Ｎ及び非線形変換部３１３−２〜３１３−Ｎを備える。

畳み込み層部３１１−１〜３１１−Ｎは、入力情報に対して、学習データ記憶部３２１に記憶されるフィルタ係数を適用して、畳み込み演算を行う。ダウンサンプリング部３１２−１〜３１２−Ｎは、各々に対応する畳み込み層部３１１−１〜３１１−Ｎが出力する情報に対してダウンサンプリングを行う。非線形変換部３１３−１〜３１３−Ｎは、各々に対応するダウンサンプリング部３１２−１〜３１２−Ｎが出力する情報に対して非線形変換処理を行う。

すなわち、ＧＯＰ特徴抽出部３１０は、ＧＯＰに含まれる各画像情報をチャネルとみなして取り込み、チャネル毎に畳み込み演算、ダウンサンプリング及び非線形変換処理をＮ回繰り返してＧＯＰの特徴量を算出する。なお、Ｎの値は、１以上の整数である。

全結合層３２０は、１つの出力ノードと、複数の入力ノードとを有しており、ＧＯＰ特徴抽出部３１０が出力する特徴量を取り込む入力ノードと、ビットレートが与えられる入力ノードと、ＧＯＰに含まれる各画像情報のピクチャタイプをリスト化したピクチャタイプリストが与えられる入力ノードとを出力ノードに全結合する。

また、全結合層３２０は、ＧＯＰ特徴抽出部３１０が出力する特徴量と、ビットレートと、ピクチャタイプリストとに対して学習データ記憶部３２１に記憶される重み係数を乗じる演算を行い、演算した結果に基づく出力値を出力する。

切替部３３０は、スイッチを備えており、学習処理を行う際、全結合層３２０の出力端子を誤差算出部３３１に接続する端子に接続し、符号化処理の運用時には、全結合層３２０の出力端子をＧＯＰ目標符号量推定部１８に接続する端子に接続する。

教師ＱＰ情報記憶部３３２は、教師情報としてのＱＰの情報を予め記憶する。誤差算出部３３１は、切替部３３０が出力する全結合層３２０の出力値と、教師ＱＰ情報記憶部３３２に記憶されている教師情報との誤差を算出する。また、誤差算出部３３１は、算出した誤差が予め定められる閾値以下となった場合、切替部３３０に対して指示情報を出力してスイッチを切り替えさせ、全結合層３２０の出力端子をＧＯＰ目標符号量推定部１８に接続する端子に接続させる。

学習処理部３３３は、誤差算出部３３１が算出した誤差に基づいて、当該誤差を小さくするように新たな学習データを算出し、学習データ記憶部３２１に記憶されている学習データを、算出した学習データに書き換えて更新する。誤差を小さくする演算手法としては、例えば、誤差逆伝播法等が適用される。

図８は、ＧＯＰ目標符号量推定部１８の内部の構成を示すブロック図である。ＧＯＰ目標符号量推定部１８は、例えば、機械学習モデルに従って、ＧＯＰを構成する複数の画像情報と、当該ＧＯＰに含まれる画像情報のピクチャタイプをリスト化したピクチャタイプリストと、ＧＯＰ初期ＱＰと、ピクチャ複雑度との関係性を学習処理により推定し、推定した関係性を示す情報を学習済みモデルとして生成する。ここで、ピクチャ複雑度とは、ＧＯＰに含まれる画像情報の各々をＧＯＰ初期ＱＰで符号化した際に発生する発生符号量のことである。

ＧＯＰ目標符号量推定部１８は、符号化処理の運用時において、生成した関係性情報を用いて、ＧＯＰ分割部４１が出力する符号化対象のＧＯＰと、当該符号化対象のＧＯＰに含まれる画像情報のピクチャタイプをリスト化したピクチャタイプリストと、ＧＯＰ初期ＱＰ推定部１７が出力するＧＯＰ初期ＱＰと、当該符号化対象のＧＯＰに対して要求する所望のビットレートとに基づいて、ＧＯＰに含まれる画像情報毎のピクチャ目標符号量を算出する。

ＧＯＰ目標符号量推定部１８は、演算部４００、切替部４３０、誤差算出部４３１、教師複雑度情報記憶部４３２、学習処理部４３３及び符号量算出部４３４を備える。演算部４００は、ＧＯＰ特徴抽出部４１０、全結合層４２０及び学習データ記憶部４２１を備える。

学習データ記憶部４２１は、全結合層４２０の入出力ノード間の重み係数、ＧＯＰ特徴抽出部４１０における畳み込み層部４１１−１〜４１１−Ｎの演算の際に用いられるフィルタ係数等の学習データを記憶する。

ＧＯＰ特徴抽出部４１０は、ＧＯＰ特徴抽出部４１０−１〜４１０−Ｎを備える。ＧＯＰ特徴抽出部４１０−１は、畳み込み層部４１１−１、ダウンサンプリング部４１２−１及び非線形変換部４１３−１を備える。ＧＯＰ特徴抽出部４１０−２〜４１０−Ｎは、ＧＯＰ特徴抽出部４１０−１と同一の内部構成を有しており、各々が、畳み込み層部４１１−２〜４１１−Ｎ、ダウンサンプリング部４１２−２〜４１２−Ｎ及び非線形変換部４１３−２〜４１３−Ｎを備える。

畳み込み層部４１１−１〜４１１−Ｎは、入力情報に対して、学習データ記憶部４２１に記憶されるフィルタ係数を適用して、畳み込み演算を行う。ダウンサンプリング部４１２−１〜４１２−Ｎは、各々に対応する畳み込み層部４１１−１〜４１１−Ｎが出力する情報に対してダウンサンプリングを行う。非線形変換部４１３−１〜４１３−Ｎは、各々に対応するダウンサンプリング部４１２−１〜４１２−Ｎが出力する情報に対して非線形変換処理を行う。

すなわち、ＧＯＰ特徴抽出部４１０はＧＯＰに含まれる各画像情報をチャネルとみなして取り込み、チャネル毎に畳み込み演算、ダウンサンプリング及び非線形変換処理をＮ回繰り返してＧＯＰの特徴量を算出する。なお、Ｎの値は、１以上の整数である。

全結合層４２０は、１つの出力ノードと、複数の入力ノードとを有しており、ＧＯＰ特徴抽出部４１０が出力する特徴量を取り込む入力ノードと、ピクチャタイプリストが与えられる入力ノードと、初期ＱＰが与えられる入力ノードとを出力ノードに全結合する。また、全結合層４２０は、ＧＯＰ特徴抽出部４１０が出力する特徴量と、初期ＱＰとに対して学習データ記憶部４２１に記憶される重み係数を乗じる演算を行い、演算した結果に基づく出力値を出力する。

符号量算出部４３４は、ＧＯＰに含まれる画像情報及び当該画像情報に対応するピクチャタイプを入力情報として与えた際の全結合層４２０が出力する出力値の各々を画像情報毎のピクチャ複雑度Ｘ_ｐｉｃ（ｊ）とし、当該ピクチャ複雑度Ｘ_ｐｉｃ（ｊ）と、ビットレートとに基づいて、各画像情報のピクチャ目標符号量Ｔ_ｐｉｃ（ｊ）を次式（１９）により算出する。

式（１９）において、ＧＯＰ＿ｒａｔｅは、ビットレートをＧＯＰに換算した際のレートであり、ＧＯＰ＿ｃｎｔは、ＧＯＰに含まれる画像情報の数である。また、符号量算出部４３４は、算出した各画像情報のピクチャ目標符号量Ｔ_ｐｉｃ（ｊ）を初期ＱＰ推定部１０ａに出力する。

切替部４３０は、スイッチを備えており、学習処理を行う際、全結合層４２０の出力端子を誤差算出部４３１に接続する端子に接続し、符号化処理の運用時には、全結合層４２０の出力端子を符号量算出部４３４に接続する端子に接続する。

教師複雑度情報記憶部４３２は、教師情報としてのピクチャ複雑度を予め記憶する。誤差算出部４３１は、切替部４３０が出力する符号量算出部４３４の出力値と、教師複雑度情報記憶部４３２に記憶されている教師情報との誤差を算出する。また、誤差算出部４３１は、算出した誤差が予め定められる閾値以下となった場合、切替部４３０に対して指示情報を出力してスイッチを切り替えさせ、全結合層４２０の出力端子を符号量算出部４３４に接続する端子に接続させる。

学習処理部４３３は、誤差算出部４３１が算出した誤差に基づいて、当該誤差を小さくするように新たな学習データを算出し、学習データ記憶部４２１に記憶されている学習データを、算出した学習データに書き換えて更新する。誤差を小さくする演算手法としては、例えば、誤差逆伝播法等が適用される。

図９は、初期ＱＰ推定部１０ａの内部の構成を示すブロック図である。第１の実施形態の初期ＱＰ推定部１０と同一の構成については同一の符号を付し、以下、異なる構成について説明する。

初期ＱＰ推定部１０ａは、例えば、機械学習モデルに従って、画像情報または差分画像情報のいずれかである入力画像情報と、当該入力画像情報に対応するピクチャタイプと、ピクチャ目標符号量と、初期ＱＰとの関係性を学習処理により推定し、推定した関係性を示す関係性情報を学習済みモデルとして生成する。

初期ＱＰ推定部１０は、符号化処理の運用時において、生成した関係性情報を用いて、符号化対象の入力画像情報と、当該符号化対象の入力画像情報のピクチャタイプと、ＧＯＰ目標符号量推定部１８が出力するピクチャ目標符号量とに基づいて、初期ＱＰを算出する。

初期ＱＰ推定部１０ａは、演算部１００ａ、切替部１３０、誤差算出部１３１、教師ＱＰ情報記憶部１３２、学習処理部１３３及び画像選択部１３４を備える。演算部１００ａは、特徴抽出部１１０、全結合層１２０ａ及び学習データ記憶部１２１を備える。

全結合層１２０ａは、１つの出力ノードと、複数の入力ノードとを有しており、特徴抽出部１１０が出力する特徴量を取り込む入力ノードと、ピクチャタイプが与えられる入力ノードと、ピクチャ目標符号量が与えられる入力ノードとを出力ノードに全結合する。また、全結合層１２０ａは、特徴抽出部１１０が出力する特徴量と、ピクチャタイプと、ピクチャ目標符号量とに対して学習データ記憶部１２１に記憶される重み係数を乗じる演算を行い、演算した結果に基づく出力値を出力する。

画像選択部１３４は、画像情報のピクチャタイプが、Ｐピクチャ、またはＢピクチャの場合、減算器１９が出力する差分画像情報を選択し、選択した差分画像情報を入力画像情報として演算部１００ａに出力する。また、画像選択部１３４は、画像情報のピクチャタイプが、Ｉピクチャの場合、ＧＯＰ分割部４１が出力する画像情報を選択し、選択した画像情報を入力画像情報として演算部１００ａに出力する。

図１０は、ブロック目標符号量推定部１１ａの内部の構成を示すブロック図である。第１の実施形態のブロック目標符号量推定部１１と同一の構成については同一の符号を付し、以下、異なる構成について説明する。

ブロック目標符号量推定部１１ａは、例えば、機械学習モデルに従って、ブロック画像情報または差分ブロック画像情報のいずれかである入力ブロック画像情報と、当該入力ブロック画像情報に対応するピクチャタイプと、初期ＱＰと、複雑度との関係性を学習処理により推定し、推定した関係性を示す情報を学習済みモデルとして生成する。

ブロック目標符号量推定部１１ａは、符号化処理の運用時において、生成した関係性情報を用いて、符号化対象の入力ブロック画像情報と、当該符号化対象の入力ブロック画像情報のピクチャタイプと、初期ＱＰ推定部１０ａが出力する初期ＱＰと、ＧＯＰ目標符号量推定部１８が出力するピクチャ目標符号量とに基づいて、ブロック目標符号量を算出する。

ブロック目標符号量推定部１１ａは、演算部２００ａ、切替部２３０、誤差算出部２３１、教師複雑度情報記憶部２３２、学習処理部２３３、符号量算出部２３４及びブロック画像選択部２３５を備える。演算部２００ａは、特徴抽出部２１０、全結合層２２０ａ及び学習データ記憶部２２１を備える。

全結合層２２０ａは、１つの出力ノードと、複数の入力ノードとを有しており、特徴抽出部２１０が出力する特徴量を取り込む入力ノードと、ピクチャタイプが与えられる入力ノードと、初期ＱＰが与えられる入力ノードとを出力ノードに全結合する。また、全結合層２２０ａは、特徴抽出部２１０が出力する特徴量と、ピクチャタイプと、初期ＱＰとに対して学習データ記憶部２２１に記憶される重み係数を乗じる演算を行い、演算した結果に基づく出力値を出力する。

符号量算出部２３４は、全結合層２２０が出力する出力値をブロック画像情報の複雑度Ｘ（ｊ）とし、当該複雑度Ｘ（ｊ）と、ＧＯＰ目標符号量推定部１８が出力するピクチャ目標符号量Ｔ_ｐｉｃ（ｊ）とに基づいて、ブロック画像情報の目標符号量Ｔ（ｊ）を次式（２０）により算出する。

式（２０）において、Ｂｌｋ＿ｃｎｔは、対象としているブロック画像情報を含む画像情報に含まれるブロック数である。

ブロック画像選択部２３５は、対象のブロック画像情報を含む画像情報のピクチャタイプが、Ｐピクチャ、またはＢピクチャの場合、減算器３１が出力する差分ブロック画像情報を選択し、選択した差分ブロック画像情報を入力ブロック画像情報として演算部２００ａに出力する。また、ブロック画像選択部２３５は、画像情報のピクチャタイプが、Ｉピクチャの場合、ブロック分割部３０が出力するブロック画像情報を選択し、選択したブロック画像情報を入力ブロック画像情報として演算部２００ａに出力する。

（第２の実施形態におけるＱＰ算出処理）
次に、符号量制御部１ａによるＱＰの算出処理について説明する。図１１は、ＱＰの算出処理の流れを示すフローチャートである。図１１に示す処理は、学習処理と符号化処理に分かれており、ステップＳｂ１〜Ｓｂ４における学習処理が完了して学習済みデータを生成した後、ステップＳｂ５以降の処理において映像符号化装置Ｃａは、符号化対象の映像情報を取り込んで符号化処理を行う。ＧＯＰ初期ＱＰ推定部１７は、ＧＯＰと、ビットレートと、ピクチャタイプリストと、ＧＯＰ初期ＱＰとの関係性を示す関係性情報を学習処理により生成する（ステップＳｂ１）。

ＧＯＰ初期ＱＰ推定部１７に対して、学習済みデータ、すなわち関係性情報を生成する学習処理を行わせるために、事前に、学習用のＧＯＰの確率分布情報と、当該ＧＯＰに対応するビットレートの確率分布情報と、当該ＧＯＰに対応するピクチャタイプリストの確率分布情報とを入力情報として用意しておく。また、当該ＧＯＰを符号化した際に、対応するビットレートに最も近くなるＱＰの確率分布情報を教師情報として用意しておく。

ＱＰの確率分布情報を教師情報として教師ＱＰ情報記憶部３３２に記憶させておき、切替部３３０のスイッチを全結合層３２０の出力端子が、誤差算出部３３１に接続する端子に接続するように切り替えておく。ＧＯＰ特徴抽出部３１０が、学習用のＧＯＰの確率分布情報を取り込み、全結合層３２０が、学習用のビットレートとピクチャタイプリストの確率分布情報を取り込むことによりＧＯＰ初期ＱＰ推定部１７は、学習処理を開始する。

誤差算出部３３１が算出する誤差が、例えば、予め定められる閾値以下となった場合、学習処理を終了し、誤差算出部３３１が指示情報を切替部３３０に出力する。切替部３３０は、当該指示情報を受けてスイッチを切り替え、全結合層３２０の出力端子の接続先をＧＯＰ目標符号量推定部１８とする。このタイミングで、学習データ記憶部３２１に記憶されている学習済みデータが、上述したＧＯＰと、当該ＧＯＰに対応するビットレートと、当該ＧＯＰに対応するピクチャタイプリストと、ＧＯＰ初期ＱＰとの関係性を示す関係性情報となる。

ＧＯＰ目標符号量推定部１８は、ＧＯＰと、ピクチャタイプリストと、ＧＯＰ初期ＱＰと、ピクチャ複雑度との関係性を示す関係性情報を学習処理により生成する（ステップＳｂ２）。

ＧＯＰ目標符号量推定部１８に対して、学習済みデータ、すなわち関係性情報を生成する学習処理を行わせるために、事前に、学習用のＧＯＰの確率分布情報と、当該ＧＯＰに対応するピクチャタイプリストの確率分布情報と、当該ＧＯＰに対応するＧＯＰ初期ＱＰの確率分布情報とを入力情報として用意しておく。また、当該ＧＯＰに含まれる画像情報の各々を、対応するＧＯＰ初期ＱＰで符号化した際のピクチャ複雑度の確率分布情報を教師情報として用意しておく。

ピクチャ複雑度の確率分布情報を教師情報として教師複雑度情報記憶部４３２に記憶させておき、切替部４３０のスイッチを全結合層４２０の出力端子が、誤差算出部４３１に接続する端子に接続するように切り替えておく。ＧＯＰ特徴抽出部４１０が、学習用のＧＯＰの確率分布情報を取り込み、全結合層４２０が、学習用のピクチャタイプリストと初期ＱＰの確率分布情報を取り込むことによりＧＯＰ目標符号量推定部１８は、学習処理を開始する。

誤差算出部４３１が算出する誤差が、例えば、予め定められる閾値以下となった場合、学習処理を終了し、誤差算出部４３１が指示情報を切替部４３０に出力する。切替部４３０は、当該指示情報を受けてスイッチを切り替え、全結合層４２０の出力端子の接続先を符号量算出部４３４にする。このタイミングで、学習データ記憶部４２１に記憶されている学習済みデータが、上述したＧＯＰと、当該ＧＯＰに対応するピクチャタイプリストと、当該ＧＯＰに対応するＧＯＰ初期ＱＰと、ピクチャ複雑度との関係性を示す関係性情報となる。

初期ＱＰ推定部１０ａは、画像情報及び差分画像情報と、ピクチャタイプと、ピクチャ目標符号量と、初期ＱＰとの関係性を示す関係性情報を学習処理により生成する（ステップＳｂ３）。

初期ＱＰ推定部１０ａに対して、学習済みデータ、すなわち関係性情報を生成する学習処理を行わせるために、事前に、学習用の入力画像情報の確率分布情報と、当該入力画像情報に対応するピクチャタイプの確率分布情報と、当該入力画像情報に対応するピクチャ目標符号量の確率分布情報とを入力情報として用意しておく。また、当該入力画像情報に対応する画像情報を符号化した際に、対応するピクチャ目標符号量に最も近くなるＱＰの確率分布情報を教師情報として用意しておく。

ＱＰの確率分布情報を教師情報として教師ＱＰ情報記憶部１３２に記憶させておき、切替部１３０のスイッチを全結合層１２０ａの出力端子が、誤差算出部１３１に接続する端子に接続するように切り替えておく。画像選択部１３４が、ピクチャタイプに従って画像情報、または差分画像情報のいずれかを入力画像情報として特徴抽出部１１０に出力する。特徴抽出部１１０が、画像選択部１３４が出力する学習用の入力画像情報の確率分布情報を取り込み、全結合層１２０ａが、学習用のピクチャタイプリストとピクチャ目標符号量の確率分布情報を取り込むことにより初期ＱＰ推定部１０ａは、学習処理を開始する。

誤差算出部１３１が算出する誤差が、例えば、予め定められる閾値以下となった場合、学習処理を終了し、誤差算出部１３１が指示情報を切替部１３０に出力する。切替部１３０は、当該指示情報を受けてスイッチを切り替え、全結合層１２０ａの出力端子の接続先をブロック目標符号量推定部１１ａとする。このタイミングで、学習データ記憶部１２１に記憶されている学習済みデータが、上述した入力画像情報と、当該入力画像情報に対応するピクチャタイプと、当該入力画像情報に対応するピクチャ目標符号量と、初期ＱＰとの関係性を示す関係性情報となる。

ブロック目標符号量推定部１１ａは、ブロック画像情報と、当該ブロック画像情報に対応するピクチャタイプと、当該ブロック画像情報に対応する初期ＱＰと、複雑度との関係性を示す関係性情報を学習処理により生成する（ステップＳｂ４）。

ブロック目標符号量推定部１１ａに対して、学習済みデータ、すなわち関係性情報を生成する学習処理を行わせるために、事前に、学習用の入力ブロック画像情報の確率分布情報と、当該入力ブロック画像情報に対応するピクチャタイプの確率分布情報と、当該入力ブロック画像情報に対応する初期ＱＰの確率分布情報とを入力情報として用意しておく。また、当該入力ブロック画像情報に対応するブロック画像情報を、対応する初期ＱＰで符号化した際の複雑度の確率分布情報を教師情報として用意しておく。

複雑度の確率分布情報を教師情報として教師複雑度情報記憶部２３２に記憶させておき、切替部２３０のスイッチを符号量算出部２３４の出力端子が、誤差算出部２３１に接続する端子に接続するように切り替えておく。ブロック画像選択部２３５が、ピクチャタイプに従ってブロック画像情報、または差分ブロック画像情報のいずれかを入力ブロック画像情報として特徴抽出部２１０に出力する。特徴抽出部２１０が、ブロック画像選択部２３５が出力する学習用の入力ブロック画像情報の確率分布情報を取り込み、全結合層２２０ａが、学習用のピクチャタイプと初期ＱＰの確率分布情報を取り込むことによりブロック目標符号量推定部１１ａは、学習処理を開始する。

誤差算出部２３１が算出する誤差が、例えば、予め定められる閾値以下となった場合、学習処理を終了し、誤差算出部２３１が指示情報を切替部２３０に出力する。切替部２３０は、当該指示情報を受けてスイッチを切り替え、全結合層２２０ａの出力端子の接続先を累積目標符号量算出部１２とする。このタイミングで、学習データ記憶部２２１に記憶されている学習済みデータが、上述した入力ブロック画像情報と、当該入力ブロック画像情報に対応するピクチャタイプと、当該入力ブロック画像情報に対応する初期ＱＰと、複雑度との関係性を示す関係性情報となる。

映像符号化装置Ｃａは、符号化対象の映像情報と、当該符号化対象の映像情報に要求するビットレートと、当該符号化対象の映像情報のＧＯＰの構成に対応するピクチャタイプリストとを取り込む（ステップＳｂ５）。符号量制御部１ａは、符号化対象の映像情報に要求するビットレートと、当該符号化対象の映像情報のＧＯＰの構成に対応するピクチャタイプリストとを取り込むと、ステップＳｂ６、ステップＳｂ７及びループＬｂ２ｓ〜Ｌｂ２ｅの処理を映像情報に含まれる各ＧＯＰについて繰り返し行う（ループＬｂ１ｓ〜Ｌｂ１ｅ）。

ＧＯＰ初期ＱＰ推定部１７の演算部３００が、ＧＯＰ分割部４１が出力する符号化対象のＧＯＰと、ビットレート及びピクチャタイプリストとを取り込む。ＧＯＰ特徴抽出部３１０は、学習データ記憶部３２１に記憶されている学習済みデータを用いて、取り込んだ符号化対象のＧＯＰの特徴量を算出する。全結合層３２０は、ＧＯＰ特徴抽出部３１０が出力する特徴量と、ビットレートと、ピクチャタイプと、学習データ記憶部１２１に記憶されている学習済みデータとに基づいて、ＧＯＰ初期ＱＰを算出する。ＧＯＰ初期ＱＰ推定部１７は、算出したＧＯＰ初期ＱＰをＧＯＰ目標符号量推定部１８に出力する（ステップＳｂ６）。

ＧＯＰ目標符号量推定部１８は、ＧＯＰ分割部４１が出力する符号化対象のＧＯＰと、ＧＯＰ初期ＱＰ推定部１７が出力するＧＯＰ初期ＱＰと、ピクチャタイプリストとを取り込む。ＧＯＰ目標符号量推定部１８の演算部４００が、符号化対象のＧＯＰと、当該ＧＯＰに対応するＧＯＰ初期ＱＰと、当該ＧＯＰに対応するピクチャタイプリストとを取り込む。

ＧＯＰ特徴抽出部４１０は、学習データ記憶部４２１に記憶されている学習済みデータを用いて、取り込んだＧＯＰの特徴量を算出する。全結合層４２０は、ＧＯＰ特徴抽出部４１０が出力する特徴量と、ピクチャタイプリストと、ＧＯＰ初期ＱＰと、学習データ記憶部４２１に記憶されている学習済みデータとに基づいて、符号化対象のＧＯＰに含まれる符号化対象画像情報毎のピクチャ目標符号量を算出する。ＧＯＰ目標符号量推定部１８は、算出した符号化対象画像情報毎のピクチャ目標符号量を初期ＱＰ推定部１０ａに出力する（ステップＳｂ７）。

符号量制御部１ａの初期ＱＰ推定部１０ａ及びブロック目標符号量推定部１１ａは、ステップＳｂ８、ステップＳｂ９及びループＬｂ３ｓ〜Ｌｂ３ｅの処理をＧＯＰに含まれる各符号化対象画像情報について繰り返し行う（ループＬｂ２ｓ〜Ｌｂ２ｅ）。

初期ＱＰ推定部１０ａが、ＧＯＰ分割部４１が出力する符号化対象画像情報、または減算器１９が出力する符号化対象画像情報と参照画像情報の差分である符号化対象の差分画像情報と、当該符号化対象画像情報に対応するピクチャタイプと、ＧＯＰ目標符号量推定部１８が出力する当該符号化対象画像情報に対応するピクチャ目標符号量とを取り込む。

画像選択部１３４は、ピクチャタイプに従って、符号化対象画像情報、または符号化対象差分画像情報のいずれかを符号化対象の入力画像情報として特徴抽出部１１０に出力する。特徴抽出部１１０は、学習データ記憶部１２１に記憶されている学習済みデータを用いて、画像選択部１３４が出力する符号化対象の入力画像情報の特徴量を算出する。

全結合層１２０ａは、特徴抽出部１１０が出力する特徴量と、ピクチャタイプと、ピクチャ目標符号量と、学習データ記憶部１２１に記憶されている学習済みデータとに基づいて、初期ＱＰを算出する。初期ＱＰ推定部１０ａは、算出した初期ＱＰをブロック目標符号量推定部１１ａに出力する（ステップＳｂ８）。

ブロック目標符号量推定部１１ａは、ブロック分割部３０が出力する符号化対象ブロック画像情報、または減算器３１が出力する符号化対象ブロック画像情報と参照ブロック画像情報の差分である差分ブロック画像情報と、当該符号化対象ブロック画像情報のピクチャタイプと、初期ＱＰ推定部１０ａが出力する初期ＱＰとを取り込む。

ブロック画像選択部２３５は、ピクチャタイプに従って、符号化対象ブロック画像情報、または符号化対象差分ブロック画像情報のいずれかを入力ブロック画像情報として特徴抽出部２１０に出力する。特徴抽出部２１０は、学習データ記憶部２２１に記憶されている学習済みデータを用いて、ブロック画像選択部２３５が出力する符号化対象の入力ブロック画像情報の特徴量を算出する。

全結合層２２０ａは、特徴抽出部２１０が出力する特徴量と、初期ＱＰと、学習データ記憶部２２１に記憶されている学習済みデータとに基づいて、ブロック目標符号量を算出する。ブロック目標符号量推定部１１ａは、算出したブロック目標符号量を累積目標符号量算出部１２に出力する（ステップＳｂ９）。

以下、量子化パラメータ補正部２２が、符号化対象画像情報の各ブロック画像情報について、ステップＳｂ１０からステップＳｂ１３の処理を繰り返し行う（ループＬｂ３ｓ〜Ｌｂ３ｅ）。累積目標符号量算出部１２は、符号化部３において符号化対象となっているブロック画像情報の直前のブロック画像情報までのブロック目標符号量の累積値である累積目標符号量Ｔ_ｓｕｍを算出する。

累積発生符号量算出部１３は、可変長符号化部３３が出力するブロック発生符号量のうち、符号化部３において符号化対象となっているブロック画像情報の直前のブロック画像情報までのブロック発生符号量の累積値である累積発生符号量Ｂ_ｓｕｍを算出する（ステップＳｂ１０）。累積目標符号量Ｔ_ｓｕｍを式で表すと次式（２１）となり、累積発生符号量Ｂ_ｓｕｍを式で表すと次式（２２）となる。

式（２２）において、Ｂ（ｉ）は、ｉ番目のブロック画像情報のブロック発生符号量である。

符号量誤差算出部１４は、累積発生符号量算出部１３が出力する累積発生符号量Ｂ_ｓｕｍと、累積目標符号量算出部１２が出力する累積目標符号量Ｔ_ｓｕｍとに基づいて、次式（２３）により符号量誤差Ｄを算出して最終ＱＰ算出部１６に出力する。

平均ＱＰ算出部１５は、最終ＱＰ算出部１６が出力するブロック画像情報毎のＱＰを取り込み、符号化部３において符号化対象となっているブロック画像情報の直前のブロック画像情報までのＱＰの平均値である平均ＱＰを次式（２４）に基づいて算出する（ステップＳｂ１１）。

最終ＱＰ算出部１６は、次式（２５）により補正ＱＰであるｄｅｌｔａＱＰを算出する（ステップＳｂ１２）。

式（２５）において、ＢｌｋＰｒｏｃ＿ｃｎｔは、可変長符号化部３３が出力する符号化対象画像情報内の符号化済みブロック数である。また、ｄｅｌｔａＱＰ_ｏｒｇは、次式（２６）に基づいて、符号量誤差算出部１４が算出する符号量誤差Ｄから求められる値であり、ｋは調整パラメータ係数である。

最終ＱＰ算出部１６は、平均ＱＰ算出部１５が出力する平均ＱＰ（ＱＰ_ｍｅａｎ）と、算出した補正ＱＰ（ｄｅｌｔａＱＰ）とに基づいて、次式（２７）により最終的なＱＰを算出して直交変換・量子化部３２に出力する（ステップＳｂ１３）。

式（２７）においてＲｏｕｎｄ（）の関数は、切り上げ、切り下げ、四捨五入等の丸め演算を行う関数を意味する。符号化部３ａは、符号量制御部１ａがブロック画像情報毎に出力するＱＰを用いて各ブロック画像情報の符号化を行い、全てのブロック画像情報の符号化が終了するまで処理を繰り返す。

なお、第２の実施形態の符号量制御部１において、図１２に示すように、量子化パラメータ推定部２０ａと、符号量推定部２１ａとを１つの符号量推定装置１Ａａとして構成するようにしてもよい。

また、上記の第２の実施形態の構成では、初期ＱＰ推定部１０ａの画像選択部１３４は、Ｐピクチャ、またはＢピクチャの場合、差分画像情報を選択し、Ｉピクチャの場合、画像情報を選択するようにしている。また、ブロック目標符号量推定部１１ａのブロック画像選択部２３５は、Ｐピクチャ、またはＢピクチャの場合、差分ブロック画像情報を選択し、Ｉピクチャの場合、ブロック画像情報を選択するようにしている。しかしながら、本発明の構成は、当該実施の形態に限られない。例えば、図１３に示すような映像符号化装置Ｃｂを構成し、初期ＱＰ推定部１０ｂは、ピクチャタイプに関わらず、画像情報のみを上述した入力画像情報として処理を行うようにしてもよいし、ブロック目標符号量推定部１１ｂも、ピクチャタイプに関わらず、ブロック画像情報のみを上述した入力ブロック画像情報として処理を行うようにしてもよい。なお、この場合、初期ＱＰ推定部１０ｂの構成は、初期ＱＰ推定部１０ａから画像選択部１３４を除いた構成となり、ブロック目標符号量推定部１１ｂの構成は、ブロック目標符号量推定部１１ａからブロック画像選択部２３５を除いた構成となる。

上記の第２の実施形態の構成により、量子化パラメータ推定部２０ａは、画像情報と、符号化において要求する所望のピクチャ目標符号量とに基づいて、画像情報に適用する初期ＱＰを推定する。符号量推定部２１ａは、初期ＱＰと、画像情報をブロックに分割したブロック画像情報とに基づいて、ブロック画像情報毎のブロック目標符号量を推定する。

すなわち、上記の第２の実施形態の構成により、映像情報に含まれる各画像情報に割り当てるピクチャ目標符号量を算出する際に、ＧＯＰ初期ＱＰ推定部１７が、ＧＯＰと、ビットレートと、ピクチャタイプと、ＧＯＰ初期ＱＰとの関係性を機械学習モデルを用いた学習処理により推定し、学習処理により得られた学習済みデータを当該関係性を示す関係性情報として予め生成しておく。また、ＧＯＰ目標符号量推定部１８は、ＧＯＰと、ピクチャタイプと、ＧＯＰ初期ＱＰと、ピクチャ複雑度との関係性を機械学習モデルを用いた学習処理により推定し、学習処理により得られた学習済みデータを当該関係性を示す関係性情報として予め生成しておく。初期ＱＰ推定部１０ａが、入力画像情報と、ピクチャタイプと、ピクチャ目標符号量と、初期ＱＰとの関係性を機械学習モデルを用いた学習処理により推定し、学習処理により得られた学習済みデータを当該関係性を示す関係性情報として予め生成しておく。また、ブロック目標符号量推定部１１ａは、入力ブロック画像情報と、ピクチャタイプと、初期ＱＰと、複雑度との関係性を機械学習モデルを用いた学習処理により推定し、学習処理により得られた学習済みデータを当該関係性を示す関係性情報として予め生成しておく。

ＧＯＰ初期ＱＰ推定部１７は、生成した関係性情報を用いて、符号化対象のＧＯＰと、当該ＧＯＰに対応するビットレートと、当該ＧＯＰに対応するピクチャタイプリストとからＧＯＰ初期ＱＰを算出する。ＧＯＰ目標符号量推定部は、生成した関係性情報を用いて、符号化対象のＧＯＰと、当該ＧＯＰに対応するピクチャタイプリストと、ＧＯＰ初期ＱＰ推定部１７が出力するＧＯＰ初期ＱＰとから符号化対象のＧＯＰに含まれる符号化対象画像情報毎のピクチャ目標符号量を算出する。初期ＱＰ推定部１０ａは、予め生成した関係性情報を用いて、符号化対象の入力画像情報と、当該入力画像情報に対応するピクチャタイプと、当該入力画像情報に対応するピクチャ目標符号量とから初期ＱＰを算出する。ブロック目標符号量推定部１１ａは、予め生成した関係性情報を用いて、符号化対象の入力ブロック画像情報と、当該入力ブロック画像情報に対応するピクチャタイプと、初期ＱＰとからブロック目標符号量を算出する。

したがって、符号化対象のＧＯＰの特徴と、ビットレートに応じたピクチャ目標符号量を算出することができ、更に、当該ピクチャ目標符号量と、符号化対象画像情報の特徴とに応じたブロック目標符号量を算出することが可能となり、ＧＯＰ単位での適切な符号量制御ができるとともに、ブロック画像情報毎に適切なＱＰを割り当てることができる。それにより、符号化対象の画像情報の画質を均一に保ちつつ所望の符号量、例えば、所望のビットレートとするより正確な符号量の割り当てを行うことが可能となる。

なお、上記の第１及び第２の実施形態において、平均ＱＰ算出部１５は、最初のブロック画像情報については、初期ＱＰ推定部１０，１０ａが出力する初期ＱＰを初期値として取り込み、平均ＱＰに替えて、取り込んだ初期ＱＰをそのまま最終ＱＰ算出部１６に出力する。また、最初のブロック画像情報の場合、符号量誤差算出部１４は、符号量誤差Ｄ＝０として出力するため、式（１７）及び式（２６）によりｄｅｌｔａＱＰ_ｏｒｇ＝０となる。式（１６）及び式（２５）の２項目は、ｄｅｌｔａＱＰ_ｏｒｇが「０」であり、更に、符号化済みブロック数ＢｌｋＰｒｏｃ＿ｃｎｔも「０」となる。そのため、最初のブロック画像情報については、最終ＱＰ算出部１６は、ｄｅｌｔａＱＰ＝０とする。したがって、最終ＱＰ算出部１６は、式（１８）及び式（２７）に基づいて、最初のブロック画像情報に適用するＱＰを初期ＱＰ（ＱＰ_ｉｎｉｔ）とする。

また、上記の第１及び第２の実施形態において、学習処理は並列に行われてもよいため、図４のフローチャートのステップＳａ１及びＳａ２が並列に行われてもよく、また、図１１のステップＳｂ１，Ｓｂ２，Ｓｂ３，及びＳｂ４が並列に行われてもよい。また、図２、図３、図７〜図１０における特徴抽出部１１０，２１０及びＧＯＰ特徴抽出部３１０，４１０の個数であるＮは、１以上の整数であれば各々が異なる値であってもよい。

また、上記の第１及び第２の実施形態において、初期ＱＰ推定部１０，１０ａ、ブロック目標符号量推定部１１，１１ａ、ＧＯＰ初期ＱＰ推定部１７及びＧＯＰ目標符号量推定部１８は、例えば、機械学習モデルによって学習処理を行うとしており、図２、図３、図７から図１０は、例えば、ディープラーニングを行うディープニューラルネットワークの構成の一例を示したものである。しかしながら、本発明は、当該実施の形態に限られず、他の異なる構成のディープニューラルネットワークを用いて学習処理を行うようにしてもよく、また、学習処理を行うことなく数学的な演算手段に基づいて関係性を示す非線形関数を求めて、求めた非線形関数を関係性情報にするようにしてもよく、関係性を推定する所定の推定手段であればどのような手段を用いるようにしてもよい。

また、上記の第１及び第２の実施形態において、初期ＱＰ推定部１０，１０ａ、ブロック目標符号量推定部１１，１１ａ、ＧＯＰ初期ＱＰ推定部１７及びＧＯＰ目標符号量推定部１８は、特徴抽出部１１０，２１０及びＧＯＰ特徴抽出部３１０，４１０において特徴量及び特徴量を算出するようにしているが、本発明の構成は、当該実施の形態に限られない。十分な数の入力情報があれば、特徴量を算出することなく、入力情報をそのまま全結合層３２０に与えて学習処理を行うようにしてもよい。ここで、入力情報とは、学習処理において与える画像情報、ピクチャ目標符号量、ブロック画像情報、初期ＱＰ、ＧＯＰ、ビットレート、ピクチャタイプリスト、ＧＯＰ初期ＱＰ、入力画像情報、ピクチャタイプ、ピクチャ目標符号量、入力ブロック画像情報の情報である。

また、上記の第１及び第２の実施形態において、誤差算出部１３１，２３１，３３１，４３１は、誤差が、閾値以下になった場合に学習処理を終了するとしているが、本発明の構成は、当該実施の形態に限られるものではない。「以下であるか否かを」という判定は一例に過ぎず、閾値の定め方に応じて、「未満であるか否か」を判定するようにしてもよい。すなわち、上記の閾値判定処理については、判定対象の値が、閾値未満であるか否かを判定するようにしてもよい。

また、上記の第１及び第２の実施形態において、映像符号化装置Ｃ，Ｃａ，Ｃｂは、例えば、Ｈ．２６５／ＨＥＶＣ（High Efficiency Video Coding）の標準規格に準拠する装置として説明したが、当該標準規格に限られるものではなく、他の標準規格に準拠する装置であってもよい。

また、上記の第１及び第２の実施形態において、画像情報をブロックに分割したブロック画像情報を対象としてブロック目標符号量の推定等を行う構成としているが、本発明の構成は、当該実施の形態に限られない。ブロック画像情報を符号量の推定を行う領域とする以外に、画像情報の全ての領域、または任意の領域を符号量推定領域として、当該符号量推定領域の目標符号量の推定等を行うようにしてもよい。

上述した実施形態における符号量推定装置１Ａ，１Ａａをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１、１ａ、１ｂ…符号量制御部，１０、１０ａ、１０ｂ…初期ＱＰ推定部，１１、１１ａ、１１ｂ…ブロック目標符号量推定部，１２…累積目標符号量算出部，１３…累積発生符号量算出部，１４…符号量誤差算出部，１５…平均ＱＰ算出部，１６…最終ＱＰ算出部，１７…ＧＯＰ初期ＱＰ推定部，１８…ＧＯＰ目標符号量推定部，１９…減算器，２０、２０ａ…量子化パラメータ推定部，２１、２１ａ…符号量推定部，２２…量子化パラメータ補正部，３０…ブロック分割部，３１…減算器，３２…直交変換・量子化部，３３…可変長符号化部，３４…逆量子化・逆直交変換部，３５…加算器，３６…イントラ予測部，１００、１００ａ…演算部，１１０（１１０−１〜１１０−Ｎ）…特徴抽出部，１１１−１〜１１１−Ｎ…畳み込み層部，１１２−１〜１１２−Ｎ…ダウンサンプリング部，１１３−１〜１１３−Ｎ…非線形変換部，１２０、１２０ａ…全結合層，１２１…学習データ記憶部，１３０…切替部，１３１…誤差算出部，１３２…教師ＱＰ情報記憶部，１３３…学習処理部，１３４…画像選択部，２００、２００ａ…演算部，２１０（２１０−１〜２１０−Ｎ）…特徴抽出部，２１１−１〜２１１−Ｎ…畳み込み層部，２１２−１〜２１２−Ｎ…ダウンサンプリング部，２１３−１〜２１３−Ｎ…非線形変換部，２２０、２２０ａ…全結合層，２２１…学習データ記憶部，２３０…切替部，２３１…誤差算出部，２３２…教師複雑度情報記憶部，２３３…学習処理部，２３４…符号量算出部，２３５…ブロック画像選択部，３００…演算部，３１０（３１０−１〜３１０−Ｎ）…特徴抽出部，３１１−１〜３１１−Ｎ…畳み込み層部，３１２−１〜３１２−Ｎ…ダウンサンプリング部，３１３−１〜３１３−Ｎ…非線形変換部，３２０…全結合層，３２１…学習データ記憶部，３３０…切替部，３３１…誤差算出部，３３２…教師ＱＰ情報記憶部，３３３…学習処理部，４００…演算部，４１０（４１０−１〜４１０−Ｎ）…特徴抽出部，４１１−１〜４１１−Ｎ…畳み込み層部，４１２−１〜４１２−Ｎ…ダウンサンプリング部，４１３−１〜４１３−Ｎ…非線形変換部，４２０…全結合層，４２１…学習データ記憶部，４３０…切替部，４３１…誤差算出部，４３２…教師複雑度情報記憶部，４３３…学習処理部，４３４…符号量算出部

Claims

第一の画像情報と、符号化において要求する所望の要求符号量とに基づいて、前記第一の画像情報に適用する量子化パラメータを推定する量子化パラメータ推定部と、
前記量子化パラメータと、前記第一の画像情報における符号量推定領域とに基づいて、前記符号量推定領域毎の目標符号量を推定する符号量推定部と、
を備え、
前記符号量推定部は、
第二の画像情報における符号量推定領域と、前記量子化パラメータと、前記符号量推定領域を前記量子化パラメータで符号化した際の複雑度との関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す関係性情報を生成し、生成した前記関係性情報を用いて、符号化対象の前記符号量推定領域と、当該符号量推定領域を含む符号化対象の前記第一の画像情報及び当該第一の画像情報に対して要求する所望の前記要求符号量に基づいて前記量子化パラメータ推定部が算出する前記量子化パラメータとから複雑度を算出し、算出した複雑度と、当該符号量推定領域を含む符号化対象の前記第一の画像情報の前記要求符号量とから前記符号化対象の符号量推定領域毎の前記目標符号量を算出する符号量推定装置。
第一の画像情報と、符号化において要求する所望の要求符号量とに基づいて、前記第一の画像情報に適用する量子化パラメータを推定する量子化パラメータ推定部と、
前記量子化パラメータと、前記第一の画像情報における符号量推定領域とに基づいて、前記符号量推定領域毎の目標符号量を推定する符号量推定部と、
を備え、
前記第一の画像情報が、動画像を構成する連続した画像情報である場合、
前記量子化パラメータ推定部は、
前記動画像から選択される連続した複数の前記第一の画像情報のセットと、前記動画像に対して要求する所望の前記要求符号量と、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報に対応するピクチャタイプと、前記複数の第一の画像情報のセットに対して適用する第１量子化パラメータとの関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第１の関係性情報を生成し、
前記符号量推定部は、
複数の前記第一の画像情報のセットと、前記ピクチャタイプと、前記第１量子化パラメータと、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報を前記第１量子化パラメータで符号化した際のピクチャ複雑度の関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第２の関係性情報を生成し、
前記量子化パラメータ推定部は、
更に、第一の画像情報と、前記第一の画像情報に対応するピクチャタイプと、前記第一の画像情報に対して要求する所望の前記要求符号量と、前記第一の画像情報の各々に適用する第２量子化パラメータとの関係性を前記所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第３の関係性情報を生成し、
前記量子化パラメータ推定部は、生成した前記第１の関係性情報を用いて、符号化対象の前記複数の第一の画像情報のセットと、前記要求符号量と、当該複数の第一の画像情報のセットに含まれる前記第一の画像情報の各々のピクチャタイプとから前記第１量子化パラメータを算出し、
前記符号量推定部は、生成した前記第２の関係性情報を用いて、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報と、前記量子化パラメータ推定部により算出された前記第１量子化パラメータと、前記ピクチャタイプとからピクチャ複雑度を算出し、算出した前記ピクチャ複雑度と、前記動画像に対して要求する所望の前記要求符号量とから前記第一の画像情報毎の前記要求符号量を算出し、
前記量子化パラメータ推定部は、生成した前記第３の関係性情報を用いて、前記複数の第一の画像情報のセットと、前記符号量推定部が算出した前記第一の画像情報毎の前記要求符号量と、当該複数の第一の画像情報のセットに含まれる前記第一の画像情報の各々のピクチャタイプとから第２量子化パラメータを算出する符号量推定装置。
コンピュータに、
第一の画像情報と、符号化において要求する所望の要求符号量とに基づいて、前記第一の画像情報に適用する量子化パラメータを推定する手順、
前記量子化パラメータと、前記第一の画像情報における符号量推定領域とに基づいて、前記符号量推定領域毎の目標符号量を推定する手順、
を実行させ、
前記目標符号量を推定する手順において、
第二の画像情報における符号量推定領域と、前記量子化パラメータと、前記符号量推定領域を前記量子化パラメータで符号化した際の複雑度との関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す関係性情報を生成し、生成した前記関係性情報を用いて、符号化対象の前記符号量推定領域と、当該符号量推定領域を含む符号化対象の前記第一の画像情報及び当該第一の画像情報に対して要求する所望の前記要求符号量に基づいて算出された前記量子化パラメータとから複雑度を算出し、算出した複雑度と、当該符号量推定領域を含む符号化対象の前記第一の画像情報の前記要求符号量とから前記符号化対象の符号量推定領域毎の前記目標符号量を算出するための符号量推定プログラム。
コンピュータに、
第一の画像情報と、符号化において要求する所望の要求符号量とに基づいて、前記第一の画像情報に適用する量子化パラメータを推定する手順、
前記量子化パラメータと、前記第一の画像情報における符号量推定領域とに基づいて、前記符号量推定領域毎の目標符号量を推定する手順、
を実行させ、
前記第一の画像情報が、動画像を構成する連続した画像情報である場合、
前記量子化パラメータを推定する手順において、
前記動画像から選択される連続した複数の前記第一の画像情報のセットと、前記動画像に対して要求する所望の前記要求符号量と、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報に対応するピクチャタイプと、前記複数の第一の画像情報のセットに対して適用する第１量子化パラメータとの関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第１の関係性情報を生成し、
前記目標符号量を推定する手順において、
複数の前記第一の画像情報のセットと、前記ピクチャタイプと、前記第１量子化パラメータと、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報を前記第１量子化パラメータで符号化した際のピクチャ複雑度の関係性を所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第２の関係性情報を生成し、
前記量子化パラメータを推定する手順において、
更に、第一の画像情報と、前記第一の画像情報に対応するピクチャタイプと、前記第一の画像情報に対して要求する所望の前記要求符号量と、前記第一の画像情報の各々に適用する第２量子化パラメータとの関係性を前記所定の推定手段により推定し、前記所定の推定手段により推定した前記関係性を示す第３の関係性情報を生成し、
前記量子化パラメータを推定する手順において、生成した前記第１の関係性情報を用いて、符号化対象の前記複数の第一の画像情報のセットと、前記要求符号量と、当該複数の第一の画像情報のセットに含まれる前記第一の画像情報の各々のピクチャタイプとから前記第１量子化パラメータを算出し、
前記目標符号量を推定する手順において、生成した前記第２の関係性情報を用いて、前記複数の第一の画像情報のセットに含まれる各々の前記第一の画像情報と、前記量子化パラメータを推定する手順において算出された前記第１量子化パラメータと、前記ピクチャタイプとからピクチャ複雑度を算出し、算出した前記ピクチャ複雑度と、前記動画像に対して要求する所望の前記要求符号量とから前記第一の画像情報毎の前記要求符号量を算出し、
前記量子化パラメータを推定する手順において、生成した前記第３の関係性情報を用いて、前記複数の第一の画像情報のセットと、前記目標符号量を推定する手順において算出された前記第一の画像情報毎の前記要求符号量と、当該複数の第一の画像情報のセットに含まれる前記第一の画像情報の各々のピクチャタイプとから前記第２量子化パラメータを算出するための符号量推定プログラム。