JP6242055B2 - Image encoding device - Google Patents
Image encoding device Download PDFInfo
- Publication number
- JP6242055B2 JP6242055B2 JP2013027873A JP2013027873A JP6242055B2 JP 6242055 B2 JP6242055 B2 JP 6242055B2 JP 2013027873 A JP2013027873 A JP 2013027873A JP 2013027873 A JP2013027873 A JP 2013027873A JP 6242055 B2 JP6242055 B2 JP 6242055B2
- Authority
- JP
- Japan
- Prior art keywords
- prediction mode
- unit
- block
- subject
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Description
この発明は、画像を圧縮符号化して伝送する画像符号化装置に関するものである。 The present invention relates to an image coding apparatus for compressing and transmitting an image.
カメラなどで撮影された映像(例えば、動画像)に写っている被写体を自動的に認識する物体認識技術は、例えば、画像による監視や、画像の自動編集・分類などを実施する上で重要である。
一般的に、画像に写っている被写体を認識するには、複数のウィンドウサイズで画像を走査する処理や、画像中の特徴点を抽出する処理などが必要である。
しかし、画像を走査する処理や特徴点を抽出する処理を行うには、膨大な演算量を必要とするため、多くの処理時間を要する。このため、例えば、実時間で物体認識を行うアプリケーションにおいては、処理が間に合わないなどの不具合を生じることがある。
Object recognition technology that automatically recognizes a subject captured in a video (for example, a moving image) taken by a camera or the like is important for, for example, image monitoring or automatic image editing / classification. is there.
In general, in order to recognize a subject in an image, processing for scanning the image with a plurality of window sizes, processing for extracting feature points in the image, and the like are required.
However, performing a process of scanning an image and a process of extracting a feature point requires a large amount of calculation, and therefore requires a lot of processing time. For this reason, for example, in an application that performs object recognition in real time, there may be a problem that processing is not in time.
ところで、カメラなどで撮影された画像には、一般的に符号化処理による情報量の圧縮が施される。
MPEGやITU−T H.26x等の国際標準動画像符号化方式では、画像を一定サイズのブロックに分割し、各々のブロック毎に符号化処理を適用する。この際、ブロックを被写体に合わせて再帰的に分割することで、圧縮性能を高めている。
図11は最大のブロックサイズが64画素×64画素、再帰的な分割の階層数が3である場合のブロックの階層構造の一例を示す説明図である。
By the way, the amount of information is generally compressed by an encoding process on an image photographed by a camera or the like.
MPEG and ITU-TH In an international standard moving picture coding system such as 26x, an image is divided into blocks of a certain size, and coding processing is applied to each block. At this time, the compression performance is improved by recursively dividing the block according to the subject.
FIG. 11 is an explanatory diagram showing an example of a hierarchical structure of blocks in the case where the maximum block size is 64 pixels × 64 pixels and the number of recursive divisions is three.
ここで、符号化時に決定されるブロックのサイズに着目すると、被写体の周囲では、ブロックサイズが小さく、それ以外の背景領域では、ブロックサイズが大きくなる傾向にある。
図12は被写体の周囲でブロックサイズが小さくなっている例を示す説明図である。
したがって、符号化時に決定されるブロックのサイズを参照することで、画像に写っている被写体が存在している領域を絞り込むことができる。
物体認識処理を絞り込んだ領域に施すようにすれば、物体認識に要する演算量を大幅に削減することができる。
また、物体認識処理を不要な領域に施すことがなくなるため、物体の誤認識を削減することも可能である。
Here, focusing on the block size determined at the time of encoding, the block size tends to be small around the subject and the block size tends to be large in other background areas.
FIG. 12 is an explanatory diagram showing an example in which the block size is reduced around the subject.
Therefore, by referring to the block size determined at the time of encoding, it is possible to narrow down the area where the subject shown in the image exists.
If the object recognition process is applied to the narrowed area, the amount of calculation required for the object recognition can be greatly reduced.
In addition, since object recognition processing is not performed on unnecessary areas, it is possible to reduce erroneous recognition of objects.
例えば、以下の特許文献1には、画像の符号化時に得られる情報を利用することで、物体認識の性能を向上させている画像符号化装置が開示されている。
画像の符号化時に得られる情報として、画像の符号化の過程で決定される符号化ブロックのサイズなどが考えられるが、符号化ブロックのサイズはビットレートに依存して大きく変動する。
図13はビットレートに応じて符号化ブロックのサイズが変化する様子を示す説明図である。
符号化ブロックのサイズはビットレートに依存しており、図13に示すように、高ビットレートでは、符号化ブロックのサイズが小さくなり、低ビットレートでは、符号化ブロックのサイズが大きくなる。
For example,
As information obtained at the time of image encoding, the size of an encoded block determined in the process of image encoding can be considered. The size of the encoded block varies greatly depending on the bit rate.
FIG. 13 is an explanatory diagram showing how the size of the encoded block changes according to the bit rate.
The size of the coding block depends on the bit rate. As shown in FIG. 13, the size of the coding block decreases at a high bit rate, and the size of the coding block increases at a low bit rate.
低ビットレートでは、符号化ブロックのサイズが大きくなるため、被写体の周囲でのブロックサイズと、それ以外の背景領域でのブロックサイズとの差が小さくなっている。このため、符号化ブロックのサイズを示す情報から、被写体の形状に関する情報を得ることが困難な場合がある。 At a low bit rate, the size of the encoded block increases, so the difference between the block size around the subject and the block size in other background areas is small. For this reason, it may be difficult to obtain information on the shape of the subject from information indicating the size of the encoded block.
従来の画像符号化装置は以上のように構成されているので、高ビットレートの画像であれば、符号化時に決定されるブロックのサイズを参照することで、画像に写っている被写体が存在している領域を適正に絞り込むことができる。しかし、低ビットレートの画像の場合、画像に写っている被写体が存在している領域を適正に絞り込むことができず、物体認識に要する演算量の削減と誤認識の削減を達成することができないなどの課題があった。 Since the conventional image encoding apparatus is configured as described above, if the image has a high bit rate, there is a subject in the image by referring to the block size determined at the time of encoding. Can be narrowed down appropriately. However, in the case of an image with a low bit rate, it is not possible to properly narrow down the area where the subject in the image is present, and it is not possible to achieve a reduction in the amount of computation required for object recognition and a reduction in false recognition. There were issues such as.
この発明は上記のような課題を解決するためになされたもので、画像のビットレートが変動しても、画像に写っている被写体が存在している領域を適正に絞り込んで、物体認識に要する演算量の削減と誤認識の削減を達成することができる画像符号化装置を得ることを目的とする。 The present invention has been made to solve the above-described problems. Even if the bit rate of the image fluctuates, the present invention appropriately narrows down the area where the subject shown in the image exists and is required for object recognition. It is an object of the present invention to obtain an image coding apparatus that can achieve a reduction in the amount of calculation and a reduction in erroneous recognition.
この発明に係る画像符号化装置は、利用可能な複数の予測モードの中から、符号化対象画像に含まれている各々のブロックに対する符号化処理を実施する際に用いる予測モードをそれぞれ選択する予測モード選択部と、符号化対象画像に含まれている各々のブロックのうち、或るブロックについての予測モードとして、予測モード選択部によりインター予測モードに含まれるマージモードが選択されていれば、予測モード選択部によりイントラ予測モードが選択されるときよりも、当該ブロックのサイズが小さくなるように決定し、或るブロックについての予測モードとして、予測モード選択部によりマージモード以外のインター予測モードが選択されていれば、予測モード選択部によりマージモードが選択されるときよりも、当該ブロックのサイズが小さくなるように決定するブロックサイズ決定部と、符号化対象画像に含まれている各々のブロックのうち、予測モード選択部により選択された予測モードがマージモード以外のインター予測モードであるブロックと対応している要素、予測モード選択部により選択された予測モードがイントラ予測モードであるブロックに含まれている複数の領域のそれぞれと対応している要素及び予測モード選択部により選択された予測モードがマージモードであるブロックに含まれている複数の領域のそれぞれと対応している要素が2次元に配列されている2次元配列テーブルが用意されており、2次元配列テーブルの要素が、予測モードがマージモード以外のインター予測モードであるブロックに対応していれば、マージモード以外のインター予測モードであるブロックのサイズに対応する数値を当該要素に割り当て、2次元配列テーブルの要素が、予測モードがイントラ予測モードであるブロックに含まれている領域に対応していれば、イントラ予測モードであるブロックのサイズに対応する数値を当該要素に割り当て、2次元配列テーブルの要素が、予測モードがマージモードであるブロックに含まれている領域に対応していれば、マージモードであるブロックのサイズに対応する数値を当該要素に割り当て、2次元配列テーブルの各々の要素に割り当てた数値に対する閾値処理を実施することで、被写体が存在している領域を推定する被写体領域推定部とを設け、被写体検出部が、被写体領域推定部により推定された領域に対する物体認識処理を実施して、符号化対象画像に写っている被写体を検出するようにしたものである。 The image encoding apparatus according to the present invention selects a prediction mode to be used when performing an encoding process for each block included in an encoding target image from a plurality of available prediction modes. If the merge mode included in the inter prediction mode is selected by the prediction mode selection unit as a prediction mode for a certain block among the mode selection unit and each block included in the encoding target image, the prediction is performed. It is determined that the size of the block is smaller than when the intra prediction mode is selected by the mode selection unit, and an inter prediction mode other than the merge mode is selected by the prediction mode selection unit as a prediction mode for a certain block. If this is the case, the block is more effective than when the merge mode is selected by the prediction mode selection unit. A block size determination unit that determines the size to be reduced, and a block in which the prediction mode selected by the prediction mode selection unit is an inter prediction mode other than the merge mode among the blocks included in the encoding target image The element corresponding to each of the plurality of regions included in the block whose prediction mode selected by the prediction mode selection unit is the intra prediction mode and the prediction selected by the prediction mode selection unit A two-dimensional array table is prepared in which elements corresponding to each of a plurality of regions included in a block whose mode is merge mode are two-dimensionally arranged, and the elements of the two-dimensional array table are predicted. If the mode corresponds to a block that is in inter prediction mode other than merge mode, -Assign a numerical value corresponding to the size of the block in the prediction mode to the corresponding element, and if the element of the two-dimensional array table corresponds to the area included in the block whose prediction mode is the intra prediction mode, intra prediction A numerical value corresponding to the size of the block that is the mode is assigned to the element, and if the element of the two-dimensional array table corresponds to an area included in the block whose prediction mode is the merge mode, the block that is in the merge mode A subject area estimation unit that estimates a region where a subject exists by assigning a numerical value corresponding to the size of the object to the element and performing threshold processing on the numerical value assigned to each element of the two-dimensional array table The subject detection unit performs object recognition processing on the region estimated by the subject region estimation unit to generate an encoding target image. It is intended to detect the subject in the image.
この発明によれば、予測モード選択手段により選択された予測モードがイントラ予測モードであれば、所定のブロックサイズに決定し、その予測モードがインター予測モードであれば、所定のブロックサイズより小さなブロックサイズに決定する第2のブロックサイズ決定手段と、符号化対象画像に対応する2次元配列に対して、第2のブロックサイズ決定手段により決定されたブロックサイズに対応する数値を割り当て、その2次元配列の数値に対する閾値処理を実施することで、被写体が存在している領域を推定する被写体領域推定手段とを設け、被写体検出手段が、被写体領域推定手段により推定された領域に対する物体認識処理を実施して、符号化対象画像に写っている被写体を検出するように構成したので、符号化対象画像のビットレートが変動しても、符号化対象画像に写っている被写体が存在している領域を適正に絞り込んで、物体認識に要する演算量の削減と誤認識の削減を達成することができる効果がある。 According to this invention, if the prediction mode selected by the prediction mode selection means is the intra prediction mode, the predetermined block size is determined. If the prediction mode is the inter prediction mode, a block smaller than the predetermined block size is determined. A second block size determining means for determining the size, and a numerical value corresponding to the block size determined by the second block size determining means is assigned to the two-dimensional array corresponding to the encoding target image, and the two-dimensional Subject area estimation means for estimating the area where the subject exists is provided by performing threshold processing on the numerical values of the array, and the object detection means performs object recognition processing on the area estimated by the object area estimation means Thus, since the subject in the encoding target image is detected, the bit of the encoding target image is detected. Even if the rate fluctuates, it is possible to appropriately narrow down the area where the subject shown in the encoding target image exists, thereby reducing the amount of calculation required for object recognition and reducing erroneous recognition. .
実施の形態1.
図1はこの発明の実施の形態1による画像符号化装置を示す構成図である。
図1において、符号化制御部1は符号化効率検証部2、予測モード選択部3、ブロックサイズ決定部4及び予測差分符号化パラメータ決定部5から構成されており、インター予測処理(動き補償予測処理)又はイントラ予測処理が実施される際の処理単位となる符号化ブロックの最大サイズを決定するとともに、最大サイズの符号化ブロックが階層的に分割される際の上限の階層数を決定する処理を実施する。
また、符号化制御部1は利用可能な2以上の予測モード(1以上のイントラ予測モード及び1以上のインター予測モード)の中から、階層的に分割される各々の符号化ブロックに適する予測モードを選択する処理を実施する。ここで、この実施の形態1では、インター予測モードは通常マージモードを含むものとし、以下の説明では、マージモードを含むか、含まないかを区別する場合は明示するものとする。
さらに、符号化制御部1は変換ブロックサイズや量子化パラメータを決定し、その変換ブロックサイズや量子化パラメータを含む予測差分符号化パラメータを出力する処理を実施する。
FIG. 1 is a block diagram showing an image coding apparatus according to
In FIG. 1, an
The
Furthermore, the
符号化制御部1の符号化効率検証部2は符号化対象画像を各種のサイズのブロック(例えば、64×64画素のブロック、32×32画素のブロック、16×16画素のブロック、8×8画素のブロック)に分割して、各々のブロックに対する符号化処理を利用可能な各種の予測モードで実施した場合の符号化効率を検証する処理を実施する。なお、符号化効率検証部2は符号化効率検証手段を構成している。
符号化制御部1の予測モード選択部3は利用可能な2以上の予測モードの中で、符号化効率検証部2により検証された符号化効率が最も高い予測モードを選択するとともに、その予測モードと、その予測モードに対応する予測パラメータ(インター予測パラメータ、またはイントラ予測パラメータ)を出力する処理を実施する。なお、予測モード選択部3は予測モード選択手段を構成している。
The encoding
The prediction
符号化制御部1のブロックサイズ決定部4は各種のサイズのブロックに対して、予測モード選択部3により選択された予測モードで符号化処理が実施された場合の符号化効率(符号化効率検証部2により検証された符号化効率)を比較して、符号化効率が最も高いサイズを特定する処理を実施する。なお、ブロックサイズ決定部4は第1のブロックサイズ決定手段を構成している。
The block
符号化制御部1の予測差分符号化パラメータ決定部5は変換ブロックサイズや量子化パラメータを決定し、その変換ブロックサイズや量子化パラメータを含む予測差分符号化パラメータを出力する処理を実施する。
The prediction difference encoding
ブロック分割部6は符号化対象画像をブロックサイズ決定部4により決定されたブロックサイズの符号化ブロックに分割する処理を実施する。なお、ブロック分割部6はブロック分割手段を構成している。
予測画像生成部7はイントラ予測部及び動き補償予測部を備えており、イントラ予測部は予測モード選択部3により選択された予測モードがイントラ予測モードである場合、メモリ14により格納されている符号化済みブロックの局所復号画像(参照画像)を参照しながら、予測モード選択部3から出力されたイントラ予測パラメータを用いて、ブロック分割部6により分割された符号化ブロックに対するイントラ予測処理を実施して、予測画像を生成する処理を実施する。
動き補償予測部は予測モード選択部3により選択された予測モードがインター予測モードである場合、ブロック分割部6により分割された符号化ブロックとメモリ14により格納されている符号化済みブロックの局所復号画像(参照画像)を比較することで動き探索を実施して動きベクトルを算出し、その動きベクトルと予測モード選択部3から出力されたインター予測パラメータを用いて、その符号化ブロックに対するインター予測処理を実施して予測画像を生成する処理を実施する。
なお、予測画像生成部7は予測画像生成手段を構成している。
The
The predicted
When the prediction mode selected by the prediction
The predicted
減算部8はブロック分割部6により分割された符号化ブロックから、予測画像生成部7により生成された予測画像を減算することで、差分画像(=符号化ブロック−予測画像)を生成する処理を実施する。
直交変換部9は予測差分符号化パラメータ決定部5から出力された予測差分符号化パラメータに含まれている変換ブロックサイズ単位で、減算部8により生成された差分画像の変換処理(例えば、DCT(離散コサイン変換)や、予め特定の学習系列に対して基底設計がなされているKL変換等の直交変換処理)を実施する。
量子化部10は予測差分符号化パラメータ決定部5から出力された予測差分符号化パラメータに含まれている量子化パラメータを用いて、その差分画像の変換係数を量子化することで、量子化後の変換係数を差分画像の圧縮データとして出力する処理を実施する。
なお、減算部8、直交変換部9及び量子化部10から画像圧縮手段が構成されている。
The subtracting
The
The
The subtracting
逆量子化部11は予測差分符号化パラメータ決定部5から出力された予測差分符号化パラメータに含まれている量子化パラメータを用いて、量子化部10から出力された圧縮データを逆量子化する処理を実施する。
逆直交変換部12は予測差分符号化パラメータ決定部5から出力された予測差分符号化パラメータに含まれている変換ブロックサイズ単位で、逆量子化部11による逆量子化後の圧縮データの逆変換処理(例えば、逆DCT(逆離散コサイン変換)や、逆KL変換等の逆変換処理)を実施することで、逆変換処理後の圧縮データを局所復号予測差分信号(伸張後の差分画像を示すデータ)として出力する処理を実施する。
The inverse quantization unit 11 performs inverse quantization on the compressed data output from the
The inverse
加算部13は逆直交変換部12から出力された局所復号予測差分信号と予測画像生成部7により生成された予測画像を示す予測信号を加算することで、局所復号画像を生成する処理を実施する。
メモリ14は予測画像生成部7により次回の予測処理で用いられる画像として、加算部13により生成された局所復号画像を格納するRAMなどの記録媒体である。
The adding
The
可変長符号化部15は量子化部10から出力された圧縮データと、符号化制御部1から出力された予測モード、予測差分符号化パラメータ及び予測パラメータ(インター予測モードの場合、予測画像生成部7の動き補償予測部で探索された動きベクトルを含む)とを可変長符号化して、その圧縮データ、予測モード、予測差分符号化パラメータ、予測パラメータの符号化データが多重化されているビットストリームを生成する処理を実施する。なお、可変長符号化部15は符号化手段を構成している。
The variable
ブロックサイズ決定部21は符号化制御部1の予測モード選択部3により選択された予測モードがイントラ予測モードであれば、所定のブロックサイズ(例えば、64×64画素)に決定し、その予測モードがインター予測モードに含まれるマージモードであれば、上記のブロックサイズより小さなブロックサイズ(例えば、32×32画素)に決定し、その予測モードがマージモードを除くインター予測モードであれば、上記のブロックサイズより小さなブロックサイズ(例えば、16×16画素)に決定する処理を実施する。なお、ブロックサイズ決定部21は第2のブロックサイズ決定手段を構成している。
If the prediction mode selected by the prediction
被写体領域推定部22は符号化対象画像に対応する2次元配列に対して、ブロックサイズ決定部21により決定されたブロックサイズに対応する数値(例えば、ブロックサイズが小さい程、大きな数値)を割り当て、その2次元配列の数値に対する閾値処理を実施することで、被写体が存在している領域を推定する処理を実施する。なお、被写体領域推定部22は被写体領域推定手段を構成している。
被写体検出部23は被写体領域推定部22により推定された領域に対する物体認識処理を実施して、符号化対象画像に写っている被写体を検出する処理を実施する。なお、被写体検出部23は被写体検出手段を構成している。
The subject
The
図1では、画像符号化装置の構成要素である符号化制御部1、ブロック分割部6、予測画像生成部7、減算部8、直交変換部9、量子化部10、逆量子化部11、逆直交変換部12、加算部13、メモリ14、可変長符号化部15、ブロックサイズ決定部21、被写体領域推定部22及び被写体検出部23のそれぞれが専用のハードウェア(例えば、CPUを実装している半導体集積回路、あるいは、ワンチップマイコンなど)で構成されているものを想定しているが、画像符号化装置がコンピュータで構成されていてもよい。
画像符号化装置がコンピュータで構成される場合、メモリ14をコンピュータの内部メモリ又は外部メモリ上に構成するとともに、符号化制御部1、ブロック分割部6、予測画像生成部7、減算部8、直交変換部9、量子化部10、逆量子化部11、逆直交変換部12、加算部13、可変長符号化部15、ブロックサイズ決定部21、被写体領域推定部22及び被写体検出部23の処理内容を記述しているプログラムを当該コンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにすればよい。
In FIG. 1, a
When the image encoding device is configured by a computer, the
図2はこの発明の実施の形態1による画像符号化装置の被写体領域推定部22を示す構成図である。
図2において、ブロックサイズ前処理部31は符号化対象画像に対応する2次元配列に対して、ブロックサイズ決定部21により決定されたブロックサイズに対応する数値(例えば、ブロックサイズが小さい程、大きな数値)を割り当てる処理を実施する。
閾値メモリ32は所定の閾値を格納している記憶媒体である。
マスク生成部33はブロックサイズ前処理部31により割り当てられた2次元配列の数値と閾値メモリ32により格納されている閾値を比較し、その数値が閾値より大きければ、その数値を“1”に置き換え、その数値が閾値より小さければ、その数値を“0”に置き換える2値化処理を実施することで、2値マスクを生成する処理を実施する。
FIG. 2 is a block diagram showing the subject
In FIG. 2, the block
The
The
次に動作について説明する。
まず、符号化制御部1の符号化効率検証部2は、符号化対象画像を各種のサイズのブロック(例えば、64×64画素のブロック、32×32画素のブロック、16×16画素のブロック、8×8画素のブロック)に分割して、各々のブロックに対する符号化処理を利用可能な各種の予測モード(M種類のイントラ予測モード、N種類のインター予測モード:M,Nは1以上の整数)で実施した場合の符号化効率を検証する。
この場合、各サイズのブロック毎に、M+N個の予測モードに対応する符号化効率が検証される。
Next, the operation will be described.
First, the encoding
In this case, the encoding efficiency corresponding to M + N prediction modes is verified for each size block.
符号化制御部1の予測モード選択部3は、符号化効率検証部2が符号化効率を検証すると、利用可能な2以上の予測モード(M種類のイントラ予測モード及びN種類のインター予測モード)の中で、符号化効率検証部2により検証された符号化効率が最も高い予測モードを選択し、その予測モードをブロックサイズ決定部4,21、予測画像生成部7及び可変長符号化部15に出力する。
また、予測モード選択部3は、その予測モードに対応する予測パラメータ(インター予測パラメータまたはイントラ予測パラメータ)を予測画像生成部7及び可変長符号化部15に出力する。
When the coding
Further, the prediction
符号化制御部1のブロックサイズ決定部4は、予測モード選択部3が予測モードを選択すると、各種のサイズのブロック(例えば、64×64画素のブロック、32×32画素のブロック、16×16画素のブロック、8×8画素のブロック)に対して、その予測モードで符号化処理が実施された場合の符号化効率(符号化効率検証部2により検証された符号化効率)を比較して、符号化効率が最も高いサイズを特定する。
例えば、予測モード選択部3により選択された予測モードがインター予測モードであれば、符号化効率検証部2により検証された符号化効率のうち、インター予測モードで符号化処理が実施された場合の各種サイズのブロックの符号化効率を比較して、符号化効率が最も高いサイズを特定する。
When the prediction
For example, if the prediction mode selected by the prediction
符号化制御部1の予測差分符号化パラメータ決定部5は、変換ブロックサイズや量子化パラメータを決定し、その変換ブロックサイズや量子化パラメータを含む予測差分符号化パラメータを直交変換部9、量子化部10、逆量子化部11、逆直交変換部12及び可変長符号化部15に出力する。
変換ブロックサイズや量子化パラメータの決定方法については、公知の技術であるため詳細な説明を省略する。
The prediction difference encoding
The method for determining the transform block size and the quantization parameter is a known technique and will not be described in detail.
ブロック分割部6は、符号化制御部1のブロックサイズ決定部4からブロックサイズを受けると、符号化対象画像を当該ブロックサイズの符号化ブロックに分割する。
例えば、ブロックサイズ決定部4から出力されたブロックサイズが32×32画素のサイズであれば、符号化対象画像を32×32画素のサイズの符号化ブロックに分割し、ブロックサイズ決定部4から出力されたブロックサイズが16×16画素のサイズであれば、符号化対象画像を16×16画素のサイズの符号化ブロックに分割する。
When receiving the block size from the block
For example, if the block size output from the block
予測画像生成部7は、イントラ予測部と動き補償予測部から構成されており、予測モード選択部3により選択された予測モードがイントラ予測モードであれば、イントラ予測部が予測画像(イントラ予測画像)を生成する。
即ち、イントラ予測部は、予測モード選択部3により選択された予測モードがイントラ予測モードである場合、メモリ14により格納されている符号化済みブロックの局所復号画像(参照画像)を参照しながら、予測モード選択部3から出力されたイントラ予測パラメータを用いて、ブロック分割部6により分割された符号化ブロックに対するイントラ予測処理を実施して、予測画像を生成する。
なお、イントラ予測部のイントラ予測処理は、例えば、AVC/H.264規格(ISO/IEC 14496−10)に定められているアルゴリズムに従うが、このアルゴリズムに限定されるものではない。
The prediction
That is, when the prediction mode selected by the prediction
The intra prediction process of the intra prediction unit is, for example, AVC / H. The algorithm is defined in the H.264 standard (ISO / IEC 14496-10), but is not limited to this algorithm.
予測モード選択部3により選択された予測モードがインター予測モードであれば、動き補償予測部予測画像(インター予測画像)を生成する。
即ち、動き補償予測部は、予測モード選択部3により選択された予測モードがインター予測モードである場合、ブロック分割部6により分割された符号化ブロックとメモリ14により格納されている符号化済みブロックの局所復号画像(参照画像)を比較することで動き探索を実施して動きベクトルを算出し、その動きベクトルと予測モード選択部3から出力されたインター予測パラメータを用いて、その符号化ブロックに対するインター予測処理を実施して予測画像を生成する。
なお、予測画像生成部7は、予測画像を生成すると、その予測画像を減算部8及び加算部13に出力するが、予測モード選択部3により選択された予測モードがインター予測モードである場合、算出した動きベクトルを可変長符号化部15に出力する。
If the prediction mode selected by the prediction
That is, the motion compensation prediction unit, when the prediction mode selected by the prediction
Note that when the predicted image is generated, the predicted
減算部8は、予測画像生成部7から予測画像を受けると、ブロック分割部6により分割された符号化ブロックから当該予測画像を減算することで、差分画像(=符号化ブロック−予測画像)を生成し、その差分画像を直交変換部9に出力する。
直交変換部9は、減算部8から差分画像を受けると、予測差分符号化パラメータ決定部5から出力された予測差分符号化パラメータに含まれている変換ブロックサイズ単位で、その差分画像の変換処理(例えば、DCT(離散コサイン変換)や、予め特定の学習系列に対して基底設計がなされているKL変換等の直交変換処理)を実施し、その差分画像の変換係数を量子化部10に出力する。
量子化部10は、直交変換部9から差分画像の変換係数を受けると、予測差分符号化パラメータ決定部5から出力された予測差分符号化パラメータに含まれている量子化パラメータを用いて、その差分画像の変換係数を量子化することで、量子化後の変換係数を差分画像の圧縮データとして逆量子化部11及び可変長符号化部15に出力する。
When the
When the
When the
逆量子化部11は、量子化部10から差分画像の圧縮データを受けると、予測差分符号化パラメータ決定部5から出力された予測差分符号化パラメータに含まれている量子化パラメータを用いて、その圧縮データを逆量子化する。
逆直交変換部12は、逆量子化部11から逆量子化後の圧縮データを受けると、予測差分符号化パラメータ決定部5から出力された予測差分符号化パラメータに含まれている変換ブロックサイズ単位で、逆量子化後の圧縮データの逆変換処理(例えば、逆DCT(逆離散コサイン変換)や、逆KL変換等の逆変換処理)を実施することで、逆変換処理後の圧縮データを局所復号予測差分信号(伸張後の差分画像を示すデータ)として加算部13に出力する。
加算部13は、逆直交変換部12から出力された局所復号予測差分信号と予測画像生成部7により生成された予測画像を示す予測信号を加算することで、局所復号画像を生成すし、次回の予測画像の生成処理に備えるために、その局所復号画像をメモリ14に格納する。
When the inverse quantization unit 11 receives the compressed data of the difference image from the
When the inverse
The adding
可変長符号化部15は、量子化部10から出力された圧縮データと、符号化制御部1から出力された予測モード、予測差分符号化パラメータ及び予測パラメータ(インター予測モードの場合、予測画像生成部7の動き補償予測部で探索された動きベクトルを含む)とを可変長符号化して、その圧縮データ、予測モード、予測差分符号化パラメータ、予測パラメータの符号化データが多重化されているビットストリームを生成し、そのビットストリームを図示せぬ画像復号装置等に出力する。
The variable
ここまでの画像符号化装置の処理は、符号化対象画像を符号化する処理である。以下、符号化対象画像に映っている被写体の検出処理について説明する。
ブロックサイズ決定部21は、符号化制御部1の予測モード選択部3が予測モードを選択すると、その予測モードに応じて、被写体の検出処理で用いるブロックサイズを決定する。
ここでは、符号化制御部1のブロックサイズ決定部4と異なり、符号化対象画像のビットレートを考慮せずに、ブロックサイズを決定するので、ビットレートの変動に影響されない。
The processing of the image encoding device so far is processing for encoding the encoding target image. Hereinafter, a process for detecting a subject shown in an encoding target image will be described.
When the prediction
Here, unlike the block
以下、ブロックサイズ決定部21によるブロックサイズの決定処理を具体的に説明する。
インター予測処理は、画面間の被写体の動きに着目して予測を行う方法であり、イントラ予測処理は、画面内の符号化対象画像の近傍画素を用いて予測を行う方法である。
インター予測処理とイントラ予測処理のうち、インター予測処理は被写体の動きや形状を反映し易いため、被写体の領域推定に適した予測モードであると言える。
また、インター予測処理は、イントラ予測処理よりも、被写体が存在している領域(特に、被写体の輪郭付近)について適用される可能性が高く、イントラ予測処理は、被写体が存在していない背景領域について適用される可能性が高い。
なお、インター予測モードに含まれるマージモードは、符号化ブロックで探索された動きベクトルを利用するのではなく、周囲のベクトルをそのまま利用するインター予測処理であるが、同じ動きベクトルを持ちやすい被写体の内部領域や背景領域では、マージモードが頻繁に選択される可能性が高い。
Hereinafter, the block size determination process by the block
The inter prediction process is a method of performing prediction while paying attention to the movement of the subject between the screens, and the intra prediction process is a method of performing prediction using the neighboring pixels of the encoding target image in the screen.
Among the inter prediction processing and the intra prediction processing, the inter prediction processing is easy to reflect the motion and shape of the subject, and can be said to be a prediction mode suitable for subject region estimation.
In addition, the inter prediction process is more likely to be applied to a region where the subject exists (particularly, near the contour of the subject) than the intra prediction process, and the intra prediction process is a background region where no subject exists. Is likely to apply.
The merge mode included in the inter prediction mode is an inter prediction process that uses the surrounding vectors as they are instead of using the motion vectors searched in the coding block. The merge mode is likely to be frequently selected in the internal area and the background area.
そこで、ブロックサイズ決定部21は、予測モード選択部3によりイントラ予測モードが選択された場合、背景領域の可能性が高いので、例えば、64×64画素などの大きなブロックサイズに決定する。
ブロックサイズ決定部21は、予測モード選択部3によりマージモードを除くインター予測モードが選択された場合、被写体が存在している領域(特に、被写体の輪郭付近)の可能性が高いので、例えば、16×16画素などの小さなブロックサイズに決定する。
ブロックサイズ決定部21は、予測モード選択部3によりインター予測モードに含まれるマージモードが選択された場合、被写体の内部領域や背景領域の可能性が高いので、例えば、32×32画素など、中間サイズのブロックサイズに決定する。
Therefore, when the intra prediction mode is selected by the prediction
When the inter prediction mode excluding the merge mode is selected by the prediction
When the merge mode included in the inter prediction mode is selected by the prediction
被写体領域推定部22は、ブロックサイズ決定部21がブロックサイズを決定すると、符号化対象画像に対応する2次元配列に対して、そのブロックサイズに対応する数値(例えば、ブロックサイズが小さい程、大きな数値)を割り当て、その2次元配列の数値に対する閾値処理を実施することで、被写体が存在している領域を推定する。
以下、被写体領域推定部22による被写体が存在している領域の推定処理を具体的に説明する。
When the block
Hereinafter, the process of estimating the area where the subject exists by the subject
被写体領域推定部22のブロックサイズ前処理部31は、符号化対象画像を入力すると、その符号化対象画像に対応する2次元配列を用意する。
符号化対象画像に対応する2次元配列としては、例えば、ブロック分割部6により分割される最小のサイズ単位(例えば、8×8画素のサイズ)、最小サイズより少し大きなサイズ単位(例えば、16×16画素のサイズ)や、画素単位などで、数値を格納可能な配列が考えられる。
図3は符号化対象画像に対応する2次元配列の一例を示す説明図であり、図3の例では、16×16画素のサイズでの2次元配列を示している。
When the block
As a two-dimensional array corresponding to the encoding target image, for example, a minimum size unit (for example, a size of 8 × 8 pixels) divided by the
FIG. 3 is an explanatory diagram illustrating an example of a two-dimensional array corresponding to an encoding target image. In the example of FIG. 3, a two-dimensional array with a size of 16 × 16 pixels is illustrated.
ブロックサイズ前処理部31は、符号化対象画像に対応する2次元配列に対して、ブロックサイズ決定部21により決定されたブロックサイズに対応する数値を割り当てる。
この数値は、ブロックサイズが小さい程、大きな値であり、例えば、ブロックサイズが64×64画素のサイズであれば“0”、ブロックサイズが32×32画素のサイズであれば“1”、ブロックサイズが16×16画素のサイズであれば“2”、ブロックサイズが8×8画素のサイズであれば“3”である。
この実施の形態1では、ブロックサイズ決定部21が、被写体の境界付近でブロックサイズが小さくなるように制御しているが、例えば、ノイズや背景の影響によって、被写体とは異なる領域でブロックサイズが小さくなる場合も考えられる。
そこで、ブロックサイズ前処理部32が、数値を割り当てた2次元配列に対して、ノイズ除去処理を行うようにしてもよい。
The block
This value is larger as the block size is smaller. For example, if the block size is 64 × 64 pixels, the value is “0”, and if the block size is 32 × 32 pixels, the value is “1”. If the size is 16 × 16 pixels, it is “2”, and if the block size is 8 × 8 pixels, it is “3”.
In the first embodiment, the block
Therefore, the block
図4は数値が割り当てられている2次元配列に対するノイズ除去処理を示す説明図である。
ノイズ除去処理としては、数値が割り当てられている2次元配列に対して、平滑化フィルタを適用する方法が考えられる。
平滑化フィルタを適用することにより、被写体が存在している領域以外の領域で、ブロックサイズが小さくなっている小領域をノイズとして除去することが可能である。
FIG. 4 is an explanatory diagram showing noise removal processing for a two-dimensional array to which numerical values are assigned.
As a noise removal process, a method of applying a smoothing filter to a two-dimensional array to which numerical values are assigned can be considered.
By applying the smoothing filter, it is possible to remove a small area having a smaller block size as noise in an area other than the area where the subject exists.
マスク生成部33は、ブロックサイズ前処理部31が2次元配列に対してブロックサイズに対応する数値を割り当てると、その2次元配列の数値と閾値メモリ32により格納されている閾値を比較する。ここでは、閾値メモリ32により格納されている閾値を用いているが、外部から閾値が与えられるようにしてもよい。
なお、閾値としては、2.5などの値が用いられるが、これは一例に過ぎず、2.5の値に限定されるものではない。
マスク生成部33は、2次元配列の数値が閾値より大きければ、その数値を“1”に置き換え、その数値が閾値より小さければ、その数値を“0”に置き換える2値化処理を実施することで、2値マスクを生成する。
When the block
Note that a value such as 2.5 is used as the threshold value, but this is only an example, and the value is not limited to 2.5.
If the numerical value of the two-dimensional array is larger than the threshold value, the
図5はマスク生成部33による2値マスクの生成処理を示す説明図である。
この実施の形態1では、ブロックサイズ決定部21が、被写体の境界付近でブロックサイズが小さくなるように制御しているため、図5(a)に示すように、被写体の境界付近の数値が閾値より大きくなって“1”に置き換えられ、その他の領域の数値が閾値より小さくなって“0”に置き換えられる。図5(a)の例では、白抜きの部分が“1”であり、黒色の部分が“0”である。
被写体の内部領域については“0”に置き換えられることが多いため、マスク生成部33では、“1”に置き換えられているデータに対して輪郭追跡処理を適用し、画像中から被写体の境界を表す閉曲線を検出する。
そして、その閉曲線に囲まれている領域の内部の数値をすべて“1”に置き換えるようにする。
これにより、被写体が存在している領域の数値だけが“1”になり、他領域の数値は“0”となるような2値マスクが生成される(図5(b)を参照)。
FIG. 5 is an explanatory diagram showing a binary mask generation process by the
In the first embodiment, since the block
Since the internal area of the subject is often replaced with “0”, the
Then, all the numerical values in the area surrounded by the closed curve are replaced with “1”.
As a result, a binary mask is generated in which only the numerical value of the area where the subject exists is “1” and the numerical values of the other areas are “0” (see FIG. 5B).
なお、マスク生成部33により生成された2値マスクにおいて、ブロックサイズ前処理部31のノイズ除去処理で除去し切れなかったノイズが残る場合がある。また、本来、被写体が存在している領域であるはずの領域の一部が除去されている場合がある。
そこで、マスク生成部33は、生成した2値マスクに対して、収縮処理を施すことで、ブロックサイズ前処理部31のノイズ除去処理で除去し切れなかったノイズを除去してから、膨張処理を施すことで、除去されてしまった被写体が存在している領域の一部を復元するようにしてもよい。
図6はマスク生成部33による収縮処理と膨張処理の一例を示す説明図である。
In the binary mask generated by the
Therefore, the
FIG. 6 is an explanatory diagram illustrating an example of the contraction process and the expansion process performed by the
また、マスク生成部33では、上述の処理で生成したマスクの“0”と“1”の境界を初期境界として、例えば、動的輪郭モデルなどの他の境界検出手法を利用することで、更に被写体の境界を正確に検出するようにしてもよい。動的輪郭モデルは、被写体と背景の境界を高精度に推定することができるが、そのためには適切な初期境界(真の境界に近い境界)を必要とする。初期境界は、通常、ユーザが手動で指定する場合が多いが、上述の処理で生成したマスクの境界を利用することで、ユーザの手を介さずに適切な初期境界を与えることが可能である。
Further, the
被写体検出部23は、被写体領域推定部22が、被写体が存在している領域を推定すると、その領域を示す2値マスクに対する物体認識処理を実施して、符号化対象画像に写っている被写体を検出する。
ここで、図7は被写体検出部23が物体認識処理を適用する領域を示す説明図である。
符号化対象画像に写っている被写体を検出するには、複数のウィンドウサイズで画像を走査する処理や、画像中の特徴点を抽出する処理などが必要であり、一般的に、膨大な演算量を必要とするため、多くの処理時間を要するが、被写体検出部23では、物体認識処理を適用する領域を、被写体領域推定部22により推定された被写体が存在している領域(2値マスクの数値が“1”の領域)に限定しているため、物体認識に要する演算量を大幅に削減することができる。また、被写体以外の背景などの不要な領域に対する認識処理を省略することができるため、物体の誤認識も削減することができる。
When the subject
Here, FIG. 7 is an explanatory diagram showing a region to which the
In order to detect the subject in the image to be encoded, it is necessary to scan the image with multiple window sizes, extract the feature points in the image, and so on. However, in the
被写体検出部23による物体認識処理自体は公知の技術であるため詳細な説明を省略するが、被写体検出部23は、符号化対象画像に写っている被写体を検出すると、例えば、図8に示すように、符号化対象画像における被写体の位置を示す座標(被写体を包含する矩形の左上の位置を示す座標(X1,Y1)や(X2,Y2))、その矩形の幅W1,W2・高さH1,H2などの情報を物体認識結果として出力する。
また、検出対象の人物や車両などの写真と一緒に、その人物の名前や車両の車種名等をデータベースに登録しているような場合には、検出した被写体をデータベースに登録されている人物や車両等の写真と照合して、一致している人物や車両があれば、その人物の名前や車両の車種名等を物体認識結果として出力するようにしてもよい。
Since the object recognition process itself by the
In addition, when the person's name, vehicle model name, etc. are registered in the database together with a photograph of the person or vehicle to be detected, the detected subject or person registered in the database If there is a person or vehicle that matches the photograph of the vehicle or the like, the name of the person, the vehicle type name of the vehicle, or the like may be output as the object recognition result.
なお、被写体検出部23による物体認識結果を可変長符号化部15に出力することにより、可変長符号化部15により生成されるビットストリームに物体認識結果が含められるようにしてもいが、その物体認識結果をビットストリームと別個に出力するようにしてもよい。
物体認識結果の受信側では、例えば、画像に対する自動キーワード付けや、画像の意味内容による分類や検索などを実現することができるようになる。また、監視画像による監視業務の自動化や、人物の同定による入退室管理なども実現することができるようになる。
The object recognition result by the
On the object recognition result receiving side, for example, automatic keyword assignment for an image, classification or search based on the semantic content of an image, and the like can be realized. In addition, it is possible to realize monitoring work automation using monitoring images and entrance / exit management based on person identification.
以上で明らかなように、この実施の形態1によれば、予測モード選択部3により選択された予測モードがイントラ予測モードであれば、所定のブロックサイズに決定し、その予測モードがインター予測モードであれば、所定のブロックサイズより小さなブロックサイズに決定するブロックサイズ決定部21と、符号化対象画像に対応する2次元配列に対して、ブロックサイズ決定部21により決定されたブロックサイズに対応する数値を割り当て、その2次元配列の数値に対する閾値処理を実施することで、被写体が存在している領域を推定する被写体領域推定部22とを設け、被写体検出部23が、被写体領域推定部22により推定された領域に対する物体認識処理を実施して、符号化対象画像に写っている被写体を検出するように構成したので、符号化対象画像のビットレートが変動しても、符号化対象画像に写っている被写体が存在している領域を適正に絞り込んで、物体認識に要する演算量の削減と誤認識の削減を達成することができる効果を奏する。
As is apparent from the above, according to the first embodiment, if the prediction mode selected by the prediction
なお、ブロックサイズ決定部4の他に、ブロックサイズ決定部21を設けることで、ブロックサイズ決定部が二重化されているが、ブロックサイズ決定部は、画像符号化装置の回路規模に占める割合が小さく、二重化しても回路規模の増大は少ない。また、全く異なる被写体領域推定手法を実装する場合と比べて、通常の画像符号化装置で用いられる回路を複製するだけで済むため、設計に要する労力も大幅に小さく抑えることができる。
Although the block
実施の形態2.
図9はこの発明の実施の形態2による画像符号化装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
予測モード選択部40は符号化効率検証部2により検証された符号化効率のうち、インター予測モードで実施された場合の符号化効率に対して、1より大きな定数Aを乗算してから、利用可能な複数の予測モードの中で、符号化効率が最も高い予測モードを選択する処理を実施する。なお、予測モード選択部40は第2の予測モード選択手段を構成しており、この実施の形態1では、符号化制御部1の予測モード選択部3は第1の予測モード選択手段を構成する。
FIG. 9 is a block diagram showing an image coding apparatus according to
The prediction mode selection unit 40 multiplies the coding efficiency verified by the coding
図9では、画像符号化装置の構成要素である符号化制御部1、ブロック分割部6、予測画像生成部7、減算部8、直交変換部9、量子化部10、逆量子化部11、逆直交変換部12、加算部13、メモリ14、可変長符号化部15、予測モード選択部40、ブロックサイズ決定部21、被写体領域推定部22及び被写体検出部23のそれぞれが専用のハードウェア(例えば、CPUを実装している半導体集積回路、あるいは、ワンチップマイコンなど)で構成されているものを想定しているが、画像符号化装置がコンピュータで構成されていてもよい。
画像符号化装置がコンピュータで構成される場合、メモリ14をコンピュータの内部メモリ又は外部メモリ上に構成するとともに、符号化制御部1、ブロック分割部6、予測画像生成部7、減算部8、直交変換部9、量子化部10、逆量子化部11、逆直交変換部12、加算部13、可変長符号化部15、予測モード選択部40、ブロックサイズ決定部21、被写体領域推定部22及び被写体検出部23の処理内容を記述しているプログラムを当該コンピュータのメモリに格納し、当該コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにすればよい。
In FIG. 9, the
When the image encoding device is configured by a computer, the
次に動作について説明する。
ただし、予測モード選択部40を追加している点以外は、上記実施の形態1と同様であるため、ここでは、予測モード選択部40の処理内容だけを説明する。
インター予測処理とイントラ予測処理のうち、インター予測処理は、上述したように、被写体の動きや形状を反映し易いため、被写体の領域推定に適した予測モードであると言える。
したがって、被写体が存在している領域の推定処理では、イントラ予測モードが選択されるよりも、インター予測モードが選択される方が好ましい。
Next, the operation will be described.
However, since it is the same as that of the said
Among the inter prediction processing and the intra prediction processing, the inter prediction processing is a prediction mode suitable for subject region estimation because it easily reflects the motion and shape of the subject as described above.
Therefore, in the estimation process of the region where the subject exists, it is preferable to select the inter prediction mode rather than the intra prediction mode.
予測モード選択部40は、符号化効率検証部2が、符号化対象画像を各種のサイズのブロック(例えば、64×64画素のブロック、32×32画素のブロック、16×16画素のブロック、8×8画素のブロック)に分割して、各々のブロックに対する符号化処理を利用可能な各種の予測モード(M種類のイントラ予測モード、N種類のインター予測モード)で実施した場合の符号化効率を検証すると、イントラ予測モードで実施した場合の符号化効率INTRAEm(m=1,2,・・・,M)と、インター予測モードで実施した場合の符号化効率INTEREn(n=1,2,・・・,N)とに分類する。
In the prediction mode selection unit 40, the encoding
そして、予測モード選択部40は、インター予測モードが選択され易くするために、インター予測モードで実施した場合の符号化効率INTEREnに対して、1より大きな定数A(例えば、A=1.2や、A=1.5)を乗算することで、インター予測モードで実施した場合の符号化効率INTEREnを更新する。なお、定数Aは、ブロックサイズに応じて変更してもよい(例えば、ブロックサイズが8×8の場合はA=1.2、8×4の場合はA=1.5とする)。
INTEREn=INTEREn×A
Then, the prediction mode selection unit 40 makes a constant A larger than 1 (for example, A = 1.2) with respect to the encoding efficiency INTER n when implemented in the inter prediction mode in order to facilitate selection of the inter prediction mode. In addition, by multiplying by A = 1.5), the coding efficiency INTER n in the case of performing in the inter prediction mode is updated. The constant A may be changed according to the block size (for example, A = 1.2 when the block size is 8 × 8 and A = 1.5 when the block size is 8 × 4).
INTER n = INTER n * A
予測モード選択部40は、インター予測モードで実施した場合の符号化効率INTEREnを更新すると、更新後の符号化効率INTEREn(n=1,2,・・・,N)及びイントラ予測モードで実施した場合の符号化効率INTRAEm(m=1,2,・・・,M)の中で、最も高い符号化効率を特定し、その符号化効率に対応する予測モードを選択する。
予測モード選択部40は、最も高い符号化効率に対応する予測モードを選択すると、その予測モードをブロックサイズ決定部21に出力する。
When the prediction mode selection unit 40 updates the encoding efficiency INTERE n when implemented in the inter prediction mode, the prediction mode selection unit 40 uses the updated encoding efficiency INTERE n (n = 1, 2,..., N) and the intra prediction mode. Among the encoding efficiencies INTRAE m (m = 1, 2,..., M) when implemented, the highest encoding efficiency is specified, and a prediction mode corresponding to the encoding efficiency is selected.
When the prediction mode selection unit 40 selects a prediction mode corresponding to the highest coding efficiency, the prediction mode selection unit 40 outputs the prediction mode to the block
この実施の形態2では、予測モード選択部40が、インター予測モードが選択され易くするために、インター予測モードで実施した場合の符号化効率INTEREnに対して、1より大きな定数Aを乗算して更新するものを示したが、逆に、イントラ予測モードで実施した場合の符号化効率INTRAEmに対して、1より小さな定数B(例えば、B=0.8や、B=0.5)を乗算することで、イントラ予測モードが選択され難くなるように更新してもよい。
INTRAEm=INTRAEm×B
In the second embodiment, the prediction mode selection unit 40 multiplies the constant A larger than 1 by the encoding efficiency INTER n when the prediction mode selection unit 40 is performed in the inter prediction mode in order to facilitate the selection of the inter prediction mode. However, on the contrary, a constant B smaller than 1 (for example, B = 0.8 or B = 0.5) with respect to the coding efficiency INTRAE m when implemented in the intra prediction mode. May be updated so that it becomes difficult to select the intra prediction mode.
INTRAE m = INTRAE m × B
また、予測モード選択部40は、インター予測モードで実施した場合の符号化効率INTEREnに対して、正の定数Cを乗算するとともに、イントラ予測モードで実施した場合の符号化効率INTRAEmに対して、定数Cより小さい正の定数Dを乗算して、符号化効率INTEREn,INTRAEmの両方を更新するようにしてもよい。 In addition, the prediction mode selection unit 40 multiplies the encoding efficiency INTER n when implemented in the inter prediction mode by a positive constant C, and for the encoding efficiency INTRAE m when implemented in the intra prediction mode. Thus, both the coding efficiency INTERE n and INTRAY m may be updated by multiplying by a positive constant D smaller than the constant C.
即ち、予測モード選択部40は、インター予測モードが選択され易く、または、イントラ予測モードが選択され難くするために、インター予測モードで実施した場合の符号化効率INTEREn、または、イントラ予測モードで実施した場合の符号化効率INTRAEmの少なくとも一方に定数を乗算してから、利用可能な複数の予測モードの中で、符号化効率が最も高い予測モードを選択するようにしてもよい。 In other words, the prediction mode selection unit 40 uses the encoding efficiency INTERn n or the intra prediction mode when the inter prediction mode is selected in order to make it easy to select the inter prediction mode or to make the intra prediction mode difficult to select. A coding mode having the highest coding efficiency may be selected from among a plurality of available prediction modes after multiplying a constant by at least one of the coding efficiency INTRAE m when implemented.
以上で明らかなように、この実施の形態2によれば、予測モード選択部40が、符号化効率検証部2により検証された符号化効率のうち、インター予測モードで実施された場合の符号化効率に対して、1より大きな定数Aを乗算してから、利用可能な複数の予測モードの中で、符号化効率が最も高い予測モードを選択するように構成したので、被写体の領域推定に適しているインター予測モードが選択され易くなり、上記実施の形態1よりも、被写体が存在している領域の推定精度を高めることができる効果を奏する。
また、この実施の形態2によれば、予測モード選択部40が、符号化効率検証部2により検証された符号化効率のうち、イントラ予測モードで実施された場合の符号化効率に対して、1より小さな定数Bを乗算してから、利用可能な複数の予測モードの中で、符号化効率が最も高い予測モードを選択するように構成したので、被写体の領域推定に適しているインター予測モードが選択され易くなり、上記実施の形態1よりも、被写体が存在している領域の推定精度を高めることができる効果を奏する。
As is apparent from the above, according to the second embodiment, the encoding when the prediction mode selection unit 40 is performed in the inter prediction mode among the encoding efficiencies verified by the encoding
Further, according to the second embodiment, the prediction mode selection unit 40 is compared with the coding efficiency when the prediction efficiency selection unit 40 is implemented in the intra prediction mode among the coding efficiency verified by the coding
実施の形態3.
上記実施の形態1,2では、被写体領域推定部22のマスク生成部33が、2次元配列の数値を2値化することで、2値マスクを生成するものを示したが、2次元配列の数値を多値化することで、多値マスクを生成するようにしてもよい。
具体的な処理内容は、以下の通りである。
In the first and second embodiments, the
The specific processing content is as follows.
マスク生成部33は、ブロックサイズ前処理部31が2次元配列に対してブロックサイズに対応する数値を割り当てると、上記実施の形態1,2と同様に、その2次元配列の数値と閾値メモリ32により格納されている閾値を比較する。ここでは、閾値メモリ32により格納されている閾値を用いているが、外部から閾値が与えられるようにしてもよい。
また、マスク生成部33は、上記実施の形態1,2と同様に、2次元配列の数値が閾値より大きければ、その数値を“1”に置き換え、その数値が閾値より小さければ、その数値を“0”に置き換える2値化処理を実施することで、2値マスクを生成する。
When the block
Similarly to the first and second embodiments, the
マスク生成部33は、2値マスクを生成すると、“1”に置き換えられているデータに対して輪郭追跡処理を適用することで、画像中から被写体の境界を表す閉曲線を検出し、その閉曲線の内部領域の重心を計算する。閉曲線の内部領域の重心は、被写体の中心を表していると考えられる。
マスク生成部33は、生成した2値マスクにおける“1”の数値のうち、被写体の中心に近い位置(閉曲線の内部領域の重心に近い位置)にある数値ほど、大きな数値になるように変換する。
When the
The
図10は2値マスクと多値マスクの生成例を示す説明図であり、図1の例では、被写体の中心に近い位置にある数値は、最大の“5”の値に変換されている。
即ち、被写体の境界から被写体の中心に向かって、“1”→“2”→“3”→“4”→“5”のように変換されている。
このように、被写体の中心に近い位置(閉曲線の内部領域の重心に近い位置)にある数値ほど、大きな数値になるように変換しているのは、被写体の境界付近では誤差の影響を受け易く、背景領域を含んでいる可能性が高いからである。
FIG. 10 is an explanatory diagram showing an example of generation of a binary mask and a multi-value mask. In the example of FIG. 1, a numerical value at a position close to the center of the subject is converted to the maximum value “5”.
That is, conversion is performed in the order of “1” → “2” → “3” → “4” → “5” from the boundary of the subject toward the center of the subject.
In this way, the numerical value that is closer to the center of the subject (closer to the center of gravity of the inner area of the closed curve) is converted to a larger value because it is easily affected by errors near the boundary of the subject. This is because the possibility of including the background area is high.
被写体検出部23は、被写体領域推定部22のマスク生成部33が多値マスクを生成すると、多値マスクに対する物体認識処理を実施して、符号化対象画像に写っている被写体を検出する。
この実施の形態3では、被写体検出部23が、物体認識処理を適用する領域を多値マスクの数値が“0”以外の領域に限定することで、物体認識に要する演算量の削減と物体の誤認識の削減を実現している。
When the
In the third embodiment, the
被写体検出部23は、物体認識処理を実施するに際して、画像中の特徴点を抽出する処理などを実施して、その特徴点に対する評価値を算出し、その評価値が所定値を超えていれば、通常、その特徴点の位置は被写体が存在している位置であると判別する。
しかし、この実施の形態3では、評価値と所定値を比較する前に、その評価値に対応する特徴点の位置の数値(多値マスクの数値)を当該評価点に乗算することで、当該評価点を更新する。
評価点=評価点×(多値マスクの数値/a)
ただし、aは、(多値マスクの数値/a)の値を、例えば、1〜2の範囲内に収めるための正規化定数である。
被写体検出部23は、更新後の評価値が所定値を超えていれば、特徴点の位置は被写体が存在している位置であると判別する。
When performing the object recognition process, the
However, in the third embodiment, before the evaluation value is compared with the predetermined value, the evaluation point is multiplied by the numerical value of the position of the feature point corresponding to the evaluation value (the numerical value of the multi-value mask). Update evaluation points.
Evaluation point = Evaluation point × (Numerical value of multi-value mask / a)
However, a is a normalization constant for keeping the value of (numerical value of multi-value mask / a) within a range of 1 to 2, for example.
If the updated evaluation value exceeds the predetermined value, the
以上で明らかなように、この実施の形態3によれば、被写体領域推定部22のマスク生成部33が、2次元配列の数値を多値化することで多値マスクを生成し、被写体検出部23が、多値マスクに対する物体認識処理を実施して、符号化対象画像に写っている被写体を検出するように構成したので、ノイズや背景の影響を受け易い被写体の境界付近での認識性能の低下を防止することができる効果を奏する。
As is apparent from the above, according to the third embodiment, the
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In the present invention, within the scope of the invention, any combination of the embodiments, or any modification of any component in each embodiment, or omission of any component in each embodiment is possible. .
上記実施の形態1では、インター予測モードは通常マージモードを含むものとして説明したが、イントラ予測モードとマージモードを除外したインター予測モードとを予測モードに採用して、この発明の画像符号化装置を構成することができる。
例えば、ブロックサイズ決定部21は符号化制御部1の予測モード選択部3により選択された予測モードがイントラ予測モードであれば、所定のブロックサイズ(例えば、64×64画素)に決定し、その予測モードがインター予測モードであれば、上記のブロックサイズより小さなブロックサイズ(例えば、16×16画素)に決定する処理を実施してもよい。
この場合においても、ブロックサイズ決定部が二重化されるが、上記実施の形態1でも説明したように、ブロックサイズ決定部は、画像符号化装置の回路規模に占める割合が小さく、二重化しても回路規模の増大は少ない。また、全く異なる被写体領域推定手法を実装する場合と比べて、通常の画像符号化装置で用いられる回路を複製するだけで済むため、設計に要する労力も大幅に小さく抑えることができる。
同様に、上記実施の形態2,3においても、イントラ予測モードとマージモードを除外したインター予測モードとを予測モードに採用して、この発明の画像符号化装置を構成して実施することで、同じように効果を奏することができる。
In the first embodiment, the inter prediction mode has been described as including the normal merge mode. However, the intra prediction mode and the inter prediction mode excluding the merge mode are adopted as the prediction modes, and the image coding apparatus according to the present invention is used. Can be configured.
For example, if the prediction mode selected by the prediction
Even in this case, the block size determination unit is duplexed. However, as described in the first embodiment, the block size determination unit has a small proportion of the circuit scale of the image coding apparatus, and even if the block size determination unit is duplexed, the circuit is determined. There is little increase in scale. Further, compared with the case where a completely different subject area estimation method is implemented, it is only necessary to duplicate a circuit used in a normal image coding apparatus, so that the labor required for design can be greatly reduced.
Similarly, in the second and third embodiments, the intra prediction mode and the inter prediction mode excluding the merge mode are adopted as the prediction mode, and the image coding apparatus of the present invention is configured and implemented. The same effect can be achieved.
1 符号化制御部、2 符号化効率検証部(符号化効率検証手段)、3 予測モード選択部(予測モード選択手段、第1の予測モード選択手段)、4 ブロックサイズ決定部(第1のブロックサイズ決定手段)、5 予測差分符号化パラメータ決定部、6 ブロック分割部(ブロック分割手段)、7 予測画像生成部(予測画像生成手段)、8 減算部(画像圧縮手段)、9 直交変換部(画像圧縮手段)、10 量子化部(画像圧縮手段)、11 逆量子化部、12 逆直交変換部、13 加算部、14 メモリ、15 可変長符号化部(符号化手段)、21 ブロックサイズ決定部(第2のブロックサイズ決定手段)、22 被写体領域推定部(被写体領域推定手段)、23 被写体検出部(被写体検出手段)、31 ブロックサイズ前処理部、32 閾値メモリ、33 マスク生成部、40 予測モード選択部(第2の予測モード選択手段)。
DESCRIPTION OF
Claims (4)
前記符号化対象画像に含まれている各々のブロックのうち、或るブロックについての予測モードとして、前記予測モード選択部によりインター予測モードに含まれるマージモードが選択されていれば、前記予測モード選択部によりイントラ予測モードが選択されるときよりも、当該ブロックのサイズが小さくなるように決定し、或るブロックについての予測モードとして、前記予測モード選択部により前記マージモード以外のインター予測モードが選択されていれば、前記予測モード選択部により前記マージモードが選択されるときよりも、当該ブロックのサイズが小さくなるように決定するブロックサイズ決定部と、
前記符号化対象画像に含まれている各々のブロックのうち、前記予測モード選択部により選択された予測モードが前記マージモード以外のインター予測モードであるブロックと対応している要素、前記予測モード選択部により選択された予測モードが前記イントラ予測モードであるブロックに含まれている複数の領域のそれぞれと対応している要素及び前記予測モード選択部により選択された予測モードが前記マージモードであるブロックに含まれている複数の領域のそれぞれと対応している要素が2次元に配列されている2次元配列テーブルが用意されており、前記2次元配列テーブルの要素が、前記予測モードが前記マージモード以外のインター予測モードであるブロックに対応していれば、前記マージモード以外のインター予測モードであるブロックのサイズに対応する数値を当該要素に割り当て、前記2次元配列テーブルの要素が、前記予測モードが前記イントラ予測モードであるブロックに含まれている領域に対応していれば、前記イントラ予測モードであるブロックのサイズに対応する数値を当該要素に割り当て、前記2次元配列テーブルの要素が、前記予測モードが前記マージモードであるブロックに含まれている領域に対応していれば、前記マージモードであるブロックのサイズに対応する数値を当該要素に割り当て、前記2次元配列テーブルの各々の要素に割り当てた数値に対する閾値処理を実施することで、被写体が存在している領域を推定する被写体領域推定部と、
前記被写体領域推定部により推定された領域に対する物体認識処理を実施して、前記符号化対象画像に写っている被写体を検出する被写体検出部と
を備えた画像符号化装置。 A prediction mode selection unit that selects a prediction mode used when performing an encoding process on each block included in the encoding target image from a plurality of available prediction modes;
If the merge mode included in the inter prediction mode is selected by the prediction mode selection unit as the prediction mode for a certain block among the blocks included in the encoding target image, the prediction mode selection is performed. Is determined so that the size of the block is smaller than when the intra prediction mode is selected by the unit, and the prediction mode selection unit selects an inter prediction mode other than the merge mode as a prediction mode for a certain block. If so, a block size determination unit that determines the size of the block to be smaller than when the merge mode is selected by the prediction mode selection unit;
Of each block included in the encoding target image, an element corresponding to a block whose prediction mode selected by the prediction mode selection unit is an inter prediction mode other than the merge mode, the prediction mode selection Block corresponding to each of a plurality of regions included in the block whose prediction mode is selected as the intra prediction mode and a block whose prediction mode is selected as the merge mode A two-dimensional array table is prepared in which elements corresponding to each of a plurality of regions included in the two-dimensional array are prepared, and the prediction mode is the merge mode. Inter prediction modes other than the merge mode as long as they correspond to blocks that are inter prediction modes other than A numerical value corresponding to the size of a certain block is assigned to the element, and if the element of the two-dimensional array table corresponds to an area included in a block whose prediction mode is the intra prediction mode, the intra prediction A numerical value corresponding to the size of a block that is a mode is assigned to the element, and if the element of the two-dimensional array table corresponds to an area included in a block whose prediction mode is the merge mode, the merge Assign a number corresponding to the block size of a mode in the element, by performing the threshold processing for the numerical value assigned to each element of the two-dimensional array table, and estimates a region in which there is the Utsushitai A subject area estimation unit;
The subject area by carrying out object recognition processing for the estimated area by the estimation unit, the image coding apparatus that includes a subject detection unit for detecting an object that is reflected in the encoding target image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013027873A JP6242055B2 (en) | 2013-02-15 | 2013-02-15 | Image encoding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013027873A JP6242055B2 (en) | 2013-02-15 | 2013-02-15 | Image encoding device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014158164A JP2014158164A (en) | 2014-08-28 |
JP6242055B2 true JP6242055B2 (en) | 2017-12-06 |
Family
ID=51578792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013027873A Active JP6242055B2 (en) | 2013-02-15 | 2013-02-15 | Image encoding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6242055B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6075898B1 (en) * | 2015-08-31 | 2017-02-08 | 日本電信電話株式会社 | Video encoding apparatus, video encoding method, and program |
CN111542858B (en) | 2018-01-04 | 2023-09-08 | 株式会社索思未来 | Dynamic image analysis device, system, method, and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3272466B2 (en) * | 1993-04-02 | 2002-04-08 | 三菱電機株式会社 | Moving image analyzer |
JP4573297B2 (en) * | 2005-02-25 | 2010-11-04 | Kddi株式会社 | Moving object extraction device |
-
2013
- 2013-02-15 JP JP2013027873A patent/JP6242055B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014158164A (en) | 2014-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11546627B2 (en) | Moving picture decoding method and moving picture encoding method | |
EP2063644A2 (en) | Image encoding device and encoding method, and image decoding device and decoding method | |
KR100437187B1 (en) | Picture encoder, picture decoder, picture encoding method, picture decoding method, and medium | |
JP2015536092A5 (en) | ||
JP2015515806A5 (en) | ||
KR101449435B1 (en) | Method and apparatus for encoding image, and method and apparatus for decoding image based on regularization of motion vector | |
JP4993676B2 (en) | Image coding apparatus and image coding method | |
KR102261669B1 (en) | Artificial Neural Network Based Object Region Detection Method, Device and Computer Program Thereof | |
KR20230040285A (en) | Method and system for detecting an object region based on bitstream information of image information | |
US6594375B1 (en) | Image processing apparatus, image processing method, and storage medium | |
CN115130571A (en) | Feature encoding method, feature decoding method, feature encoding device, feature decoding device, electronic device, and storage medium | |
JP6242055B2 (en) | Image encoding device | |
EP2309452A1 (en) | Method and arrangement for distance parameter calculation between images | |
JP6468703B2 (en) | Motion detection device, motion detection method, and program | |
JP7185467B2 (en) | Image decoding device, image encoding device, image processing system and program | |
US20220078437A1 (en) | Encoding apparatus and program | |
KR102382078B1 (en) | Quantization Parameter Determination Method, Device And Non-Transitory Computer Readable Recording Medium of Face Depth Image Encoding, And Face recognition Method And device Using The Same | |
KR101670987B1 (en) | Method for endcoding image data and method for and decoding image data based on scale and angle variation information and apparatus for encoding image data and apparatus for decoding image data based on scale and angle variation information | |
Chen et al. | Nonlocal context modeling and adaptive prediction for lossless image coding | |
JP5913911B2 (en) | Image encoding device | |
JP4002212B2 (en) | Moving picture encoding method, apparatus, program, and program recording medium | |
US20200068214A1 (en) | Motion estimation using pixel activity metrics | |
JP6436846B2 (en) | Moving object detection device, video decoding device, and moving object detection method | |
JP2009033266A (en) | Motion vector search method, motion vector search device, coder and computer program | |
JPH08275120A (en) | Image signal conversion method, image signal converter and image signal transmitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6242055 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |