JP7075013B2

JP7075013B2 - 符号量推定装置、符号量推定方法及び符号量推定プログラム

Info

Publication number: JP7075013B2
Application number: JP2018166304A
Authority: JP
Inventors: 志織杉本; 誠之高村; 淳清水
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2022-05-25
Anticipated expiration: 2038-09-05
Also published as: US20210329253A1; WO2020050075A1; US11595661B2; JP2020039088A

Description

本発明は、符号量推定装置、符号量推定方法及び符号量推定プログラムに関する。

一般に、動画像を符号化する際には、ストレージ又は伝送ネットワークの帯域の制約から、目標とするビットレートに合わせて符号量を制御する必要がある。一般的な符号化装置は、その内部に符号量制御機構を備えており、符号化・復号後の画質と発生符号量のバランスとを鑑みて符号量制御を行う。

一般的な動画像符号化の標準規格であるＨ．２６４／ＡＶＣ及びＨ．２６５／ＨＥＶＣでは、ＤＣＴ（Discrete Cosine Transform；離散コサイン変換）やＤＳＴ（Discrete Sine Transform；離散サイン変換）の係数を量子化する際のＱＰ（Quantization Parameter；量子化パラメータ）を調整することで、発生符号量を制御する。一方、ＱＰの上昇に伴う高周波成分の欠落、及びブロック境界に発生するブロック歪みが、画像品質に影響を与える。

ＱＰの調整を行うためには、何らかの方法を用いて発生符号量を評価する必要がある。最も単純な方法としては、動画像に対して一度符号化を行い、その符号量を評価対象とする方法がある。しかしながら、この方法では、パラメータを調整する度に再度符号化を行う必要があるため、演算コストが高くなる。そのため、より簡易に発生符号量を評価する方法が求められている。これに対し、例えば非特許文献１では、Ｈ．２６４のイントラピクチャにおける、ＱＰと発生符号量とが、及び、ＱＰと符号化対象ピクチャの隣接ピクセル間の勾配の平均値とが、それぞれ比例関係にあると仮定し、各ＱＰについての比例係数を実験的に求めておくことで、任意のピクチャについての符号量推定を行う。

X.Jing and L.P.Chau, "A Novel Intra-Rate Estimation Method for H.264 Rate Control," IEEE International Symposium on Circuits and Systems, pp.5019-5022, May 2006. L.A.Gatys, A.S.Ecker, and M.Bethge, "Image Style Transfer Using Convolutional Neural Networks," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.2414-2423, June 2016.

上述したように、発生符号量は、隣接ピクセル間の勾配等の局所的な冗長性を示す指標と相関関係がある。そのため、この相関関係を利用した符号量推定が可能である。しかしながら、一般的な動画像符号化では、イントラ予測やインター予測等の予測符号化を行うため、局所的な冗長性が高くない場合であっても低い符号量で符号化が可能である場合が多い。

例えば、図４に示す画像の右下ブロックの領域ａ１は、隣接ピクセル間の勾配の平均値が高い。しかしながら、左上ブロックの領域ａ２、右上ブロックの領域ａ３、及び左下のブロックの領域ａ４がそれぞれ既に符号化済みである場合には、イントラ予測によって効率よく符号量を予測することができる。そのため実際には、発生符号量と局所的な冗長性を示す指標との相関関係を利用した符号量推定によって推定された符号量よりも少ない符号量で、符号化することが可能である。

また、局所特徴に基づいて推定した符号量を基準にして調整を行う場合、必然的に符号量の減少とともに局所特徴が平均的に減少する。これにより、細かなテクスチャが全体的に失われ、画像品質が顕著に低下する。
このように、対象画像の局所特徴に基づいて推定した符号量を基準にして調整を行う場合、実際に調整可能な符号量よりも符号量が多くなったり、画像品質が低下したりすることがある課題がある。

本発明はこのような事情を鑑みてなされたもので、対象画像の大域的な特徴に基づいて符号量を推定することができる技術の提供を目的としている。

本発明の一態様は、推定対象画像と予め定められた少なくとも１つのフィルタとによって生成された特徴マップに基づいて特徴ベクトルを生成する特徴ベクトル生成部と、前記特徴ベクトルに基づいて前記推定対象画像の符号量を評価する符号量評価部と、を備える符号量推定装置である。

また、本発明の一態様は上記の符号量推定装置であって、前記特徴マップは、複数の前記フィルタによる階層的な畳み込み処理が行われることによって生成される。

また、本発明の一態様は上記の符号量推定装置であって、前記特徴ベクトルは、前記特徴マップの統計量に基づいて生成される。

また、本発明の一態様は上記の符号量推定装置であって、記特徴ベクトルは、前記特徴マップどうしの相互相関に基づいて生成される。

本発明の一態様は、符号量推定装置が行う符号量推定方法であって、推定対象画像と予め定められた少なくとも１つのフィルタとによって生成された特徴マップに基づいて特徴ベクトルを生成する特徴ベクトル生成ステップと、前記特徴ベクトルに基づいて前記推定対象画像の符号量を評価する符号量評価ステップと、を有する符号量推定方法である。

本発明の一態様は、上記の符号量推定装置としてコンピュータを機能させるための符号量推定プログラムである。

本発明により、予象画像の大域的な特徴に基づいて符号量を推定することができる。

本発明の一実施形態による符号量推定装置１００の機能構成を示すブロック図である。推定対象画像と生成される特徴マップの一例を示す図である。本発明の一実施形態による符号量推定装置１００の動作を示すフローチャートである。符号化対象画像の一例を示す図である。

＜実施形態＞
以下、本発明の一実施形態に係る符号量推定装置について説明する。

［符号量推定装置の機能構成］
以下、符号量推定装置の機能構成について、図面を参照しながら説明する。
図１は、本発明の一実施形態による符号量推定装置１００の機能構成を示すブロック図である。

図１に示すように、符号量推定装置１００は、画像入力部１０１と、画像記憶部１０２と、特徴マップ生成部１０３と、特徴ベクトル生成部１０４と、符号量評価部１０５と、を備えている。

画像入力部１０１は、符号量推定処理の処理対象となる画像（以下「推定対象画像」という。）の入力を受け付ける。画像入力部１０１は、入力された推定対象画像を、画像記憶部１０２へ出力する。

画像記憶部１０２は、画像入力部１０１から入力された推定対象画像を記憶する。画像記憶部１０２は、例えばＲＡＭ（Random Access Memory；読み書き可能なメモリ）等の揮発性の記録媒体である。

特徴マップ生成部１０３は、画像記憶部１０２から推定対象画像を取得する。特徴マップ生成部１０３は、推定対象画像と少なくとも１つのフィルタ（図示せず）とに基づいて、特徴マップを生成する。特徴マップ生成部１０３は、生成された特徴マップを、特徴ベクトル生成部１０４へ出力する。

なお、特徴マップとは、フィルタによって推定対象画像に対してフィルタ処理が施された画像である。
なお、ここで用いられるフィルタは、任意のフィルタで構わない。例えば、エッジ抽出フィルタ、平滑化フィルタ、先鋭化フィルタ、又は統計フィルタ等の、任意の線形又は非線形のフィルタを使用することができる。

例えば、エッジ抽出フィルタが用いられた場合における、推定対象画像と生成される特徴マップの一例を図２に示す。図２（Ａ）は、コンクリート構造物のひび割れが発生した箇所が撮像された推定対象画像である。これに対し、図２（Ｂ）は、図２（Ａ）の推定対象画像に対し、エッジ抽出フィルタによりフィルタ処理が施されることによって生成された特徴マップである。このように、エッジ抽出フィルタが用いられた場合には、特徴マップは、推定対象画像において明るさ（濃淡）あるいは色が急に変化している箇所（エッジ）を表す画像である。

特徴ベクトル生成部１０４は、特徴マップ生成部１０３から入力された特徴マップに基づいて、特徴ベクトルを生成する。特徴ベクトル生成部１０４は、生成された特徴ベクトルを、符号量評価部１０５へ出力する。

なお、ここでいう特徴ベクトルとは、特徴マップの変化領域に対応する画像が符号化されたデータに基づいて算出されるベクトル値である。

符号量評価部１０５は、特徴ベクトル生成部１０４から入力された特徴ベクトルに基づいて推定対象画像の符号量を評価し、推定符号量を決定する。符号量評価部１０５は、決定した推定符号量を、外部の装置へ出力する。
なお、上記推定対象画像の符号量評価の評価方法には、任意の方法を用いることができる。

［符号量推定装置の動作］
以下、符号量推定装置の動作の一例について、図面を参照しながら説明する。
図３は、本発明の一実施形態による符号量推定装置１００の動作を示すフローチャートである。

まず、画像入力部１０１は、推定対象画像の入力を受け付ける。画像記憶部１０２は、入力された推定対象画像を記憶する（ステップＳ１０１）。
次に、特徴マップ生成部１０３は、画像記憶部１０２に記憶された推定対象画像と少なくとも１つのフィルタとに基づいて、少なくとも１つの特徴マップを生成する（ステップＳ１０２）。

なお、ステップＳ１０２において使用されるフィルタは、上述したように、任意のフィルタで構わない。なお、使用するフィルタの数、及び使用するフィルタの組み合わせも任意である。例えば、推定対象画像に対して線形フィルタが適用された情報に対して、更に、絶対値、ステップ関数、シグモイド関数、ソフトサイン、又はランプ関数等の非線形関数が更に適用された情報を、特徴マップとする構成でもよい。

なお、特徴マップの解像度は、入力された推定対象画像と同一の解像度である必要はない。すなわち、特徴マップの解像度は、推定対象画像の解像度より高くてもよいし、低くてもよい。
なお、生成される特徴マップの数も任意である。

以下、説明を簡単にするため、推定対象画像Ｉがｎ×ｎの２階のテンソルであり、推定対象画像Ｉに対してｍ個のフィルタｆ_ｉが畳み込まれ、それぞれの結果に対して非線形関数ｇが適用された情報を特徴マップとする場合について説明する。
ｉ番目の特徴マップφ_ｉは以下の式（１）で表される。

なお、生成された特徴マップに対して更に階層的に複数の任意のフィルタを適用し、各階層におけるフィルタの適用結果の全て又は一部を、特徴マップとしてもよい。なお、階層的なフィルタ処理（畳み込み処理）によって得られる特徴マップの各階層において、上位の層にはディティールに関わる特徴が反映され、下位の層には画像のコンテキストに関わる特徴が反映されることが知られている。

再び図３に戻って説明する。
次に、特徴ベクトル生成部１０４は、特徴マップ生成部１０３によって生成された特徴マップに基づいて特徴ベクトルを生成する（ステップＳ１０３）。

なお、ステップＳ１０３において、特徴マップから特徴ベクトルを生成する方法には、任意の方法を用いることができる。
なお、特徴マップに基づいて生成される特徴ベクトルは、ベクトルではなく１階以上の任意のテンソルであってもよい。以下、説明を簡単にするため、生成される特徴ベクトルが１階のテンソルΨである場合について説明する。

最も単純な場合として、特徴マップの各要素を並べた１階のテンソルを特徴ベクトルとして使用することができる。また例えば、各特徴マップについて、特徴マップ内のテンソルの、平均値、分散値、中央値、最大値、最小値、歪度、及び尖度等の統計量を、まとめて特徴ベクトルとして使用することができる。
例えば、統計量として平均値を用いる場合、特徴ベクトルはｍ個の要素を持ち、各要素は以下の式（２）のように表される。

また例えば、要素ごとの統計量を求め、求められた統計量を全ての要素について並べたものを特徴ベクトルとして使用することができる。
例えば、統計量として平均値を用いる場合、この特徴ベクトルはｎ^２個の要素を持ち、各要素は以下の式（３）のように表される。

あるいは、特徴マップどうしの相互相関によって生成されるグラム行列の集合、又はその統計量の集合を、特徴ベクトルとして使用することができる。なお、グラム行列は、画像の大域的なスタイル特徴を反映することが知られている（非特許文献２参照）。
例えば、統計量として平均値を用いる場合、この特徴ベクトルはｍ^２個の要素を持ち、各要素は以下の式（４）のように表される。

なお、特徴マップどうしの相関が高い場合には、各特徴マップが示す特徴を同様の方法で効率的に予測符号化できる可能性が高い。この場合、符号量が削減される。

なお、特徴マップの要素をランダムサンプリングしたものを並べて特徴ベクトルとする方法、又は、特徴マップの要素どうしを所定の重み係数に基づいて加算・乗算する方法等の、その他の任意の方法が用いられてもよい。その場合のサンプリング行列や重み係数は、事前に学習によって得られたものであってもよいし、コンテキストに合わせて生成されたものでもよい。

なお、特徴マップと特徴ベクトルの生成方法には、一般的な画像識別等に用いられる特徴抽出方法を用いることができる。なお、特徴ベクトルの要素数は任意であり、要素数１のスカラー値であっても構わない。

なお、特徴マップと入力された推定対象画像とに基づく演算によって特徴ベクトルが生成される構成であってもよい。例えば、方向別の移動平均フィルタによって特徴マップを生成し、特徴マップと入力された推定対象画像との差分を二次特徴マップとする。この場合、二次特徴マップの各要素は、その要素周辺における空間方向の冗長性を表す。この二次特徴マップの要素ごとに最も低い値を選択して特徴ベクトルの要素とすることによって、イントラ予測の効果を反映した特徴ベクトルを生成することができる。

再び図３に戻って説明する。
最後に、符号量評価部１０５は、特徴ベクトル生成部１０４によって生成された特徴ベクトルに基づいて推定対象画像の符号量を評価し、推定符号量を出力する（ステップＳ１０４）。なお、推定対象画像の符号量の評価における評価方法は、任意の方法を用いることができる。また、評価値は、推定符号量でもよいし、符号量と相関のあるその他の値でもよい。最も単純には、評価値として、例えば、特徴ベクトルの各要素の重み付き線形和等が考えられる。

以上説明したように、本発明の一実施形態による符号量推定装置１００は、動画像に対してフィルタ畳み込みによる特徴抽出を行って特徴ベクトルを生成する。そして、符号量推定装置１００は、特徴ベクトルに基づいて符号量を推定する。
上記の構成を備えることにより、本発明の一実施形態による符号量推定装置１００は、対象画像の大域的な特徴に基づいて符号量を推定することができる。

上述した実施形態における符号量推定装置１００の一部又は全部を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、上述した機能の一部を実現するためのものであっても良く、さらに上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＰＬＤ（Programmable Logic Device)やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されるものであってもよい。

以上、図面を参照して本発明の実施形態を説明してきたが、上記実施形態は本発明の例示に過ぎず、本発明が上記実施形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び要旨を逸脱しない範囲で構成要素の追加、省略、置換、及びその他の変更を行ってもよい。

１００…符号量推定装置、１０１…画像入力部、１０２…画像記憶部、１０３…特徴マップ生成部、１０４…特徴ベクトル生成部、１０５…符号量評価部

Claims

推定対象画像と予め定められた少なくとも１つのフィルタとによって生成された特徴マップと、前記推定対象画像とに基づく演算によって特徴ベクトルを生成する特徴ベクトル生成部と、
前記特徴ベクトルに基づいて前記推定対象画像の符号量を評価する符号量評価部と、
を備える符号量推定装置。
前記特徴マップは、複数の前記フィルタによる階層的な畳み込み処理が行われることによって生成される
請求項１に記載の符号量推定装置。
前記フィルタは、方向別の移動平均フィルタであり、
前記特徴ベクトル生成部は、前記特徴マップと前記推定対象画像との差分を二次特徴マップとし、前記二次特徴マップの要素ごとに最も低い値を特徴ベクトルの要素とする
請求項１又は請求項２に記載の符号量推定装置。
前記特徴ベクトルは、前記特徴マップの統計量に基づいて生成される
請求項１又は請求項２に記載の符号量推定装置。
前記特徴ベクトルは、前記特徴マップどうしの相互相関に基づいて生成される
請求項１又は請求項２に記載の符号量推定装置。
符号量推定装置が行う符号量推定方法であって、
推定対象画像と予め定められた少なくとも１つのフィルタとによって生成された特徴マップと、前記推定対象画像とに基づく演算によって特徴ベクトルを生成する特徴ベクトル生成ステップと、
前記特徴ベクトルに基づいて前記推定対象画像の符号量を評価する符号量評価ステップと、
を有する符号量推定方法。
請求項１から請求項５のうちいずれか一項に記載の符号量推定装置としてコンピュータを機能させるための符号量推定プログラム。