JP2005184114A

JP2005184114A - 画像処理装置、画像処理方法、プログラム及び記録媒体

Info

Publication number: JP2005184114A
Application number: JP2003418324A
Authority: JP
Inventors: Mitsuru Maeda; 充前田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-12-16
Filing date: 2003-12-16
Publication date: 2005-07-07

Abstract

【課題】形状データによる発生符号量を抑え、高速な処理が行なえる高能率符号化技術を提供することを課題とする。
【解決手段】複数のフレームから構成される動画像を入力する動画像入力手段（２１０１）と、入力した動画像の中から背景画像を分離する背景画像分離手段（１０１）と、背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成手段（１０３）と、複数のフレームの形状データから１種類の共通する形状データを生成する形状データ加工手段（１０４）と、入力画像を共通形状データと共に任意形状画像として符号化する任意形状画像符号化手段（２１０５）とを備える画像処理装置が提供される。
【選択図】図１

Description

本発明は、画像処理に関し、特に動画像を符号化するための画像処理に関する。

近年、デジタル技術を利用して画像を対象物（オブジェクト）毎に分離、合成する処理が注目されている。特に、動画像の符号化においては、国際標準としてＭＰＥＧ−４符号化方式が規格化されている（例えば、非特許文献１参照）。ＭＰＥＧ−４符号化方式では、任意形状の画像データが扱え、オブジェクト毎の符号化／復号化を行うことにより、符号化効率の向上、伝送路に応じたデータ配分、画像の再加工等、従来は困難であったさまざまな応用が期待されている。

また、オブジェクトと背景を別個に符号化して合成する方式については、特許文献１「動画像符号化装置及び動画像復号装置」に開示されている。本特許文献１において、その請求項に画面全体を符号化する第１の符号化方法と画像の一部を符号化する第２の符号化を持ち、復号時にこれらの画像を重畳することが開示されている。また、段落００２３にて、全体または選択された領域をＨ．２６１符号化で矩形領域を符号化することと、形状データをＭＨ，ＭＲなどで符号化することが開示されている。

また、動画像処理における対象物の抽出方法としては、一般に背景差分方式という手法が知られている。これは、予め撮影した背景画像と実際の入力画像とを比較することにより、変化点を検出する方法である。以下、簡単にその原理について説明する。

まず、画像平面上の座標（ｘ，ｙ）における点の入力画像の画素値をＰｃ（ｘ，ｙ）、背景画像の画素値をＰｂ（ｘ，ｙ）とする。このとき、Ｐｃ（ｘ，ｙ）とＰｂ（ｘ，ｙ）との差分をとり、その絶対値をある閾値Ｔｈと比較する。

判定式の例を示すと次の通りである。
ｉｆ（｜Ｐｃ（ｘ，ｙ）−Ｐｂ（ｘ，ｙ）｜ ≦ Ｔｈ）Ｓ（ｘ，ｙ）＝０；
ｅｌｓｅＳ（ｘ，ｙ）＝１； … （１）

差分絶対値が閾値Ｔｈ以下の場合、この点（ｘ，ｙ）は変化なしということで、Ｐｃ（ｘ，ｙ）は背景と判定され、Ｓ（ｘ，ｙ）＝０となる。一方、差分絶対値が閾値Ｔｈを超えている場合は、値が変化したということで抽出対象とみなされＳ（ｘ、ｙ）＝１となる。画面上のすべての点において上記の判定を行うことで、１フレーム分の抽出が完了する。

図９は、背景差分方式とＭＰＥＧ−４符号化方式を組み合わせた従来のシステムの構成を示すブロック図である。図９において、画像入力部２１０１は、例えばカメラの撮像部であり、動画像を入力する部分である。画像分離部２１０２は、背景画像として処理するフレームと任意形状画像として処理するフレームとを切り替えるスイッチ回路である。背景画像に設定したフレームは、矩形画像符号化部２１０４で、１フレーム分符号化される。形状データ生成部２１０３では、先の背景画像と現在入力された画像との比較により、形状データを生成する。一般に形状データは、オブジェクトであるか否かの２値データである。任意形状画像符号化部２１０５では、画像データと形状データを入力とし、符号化した結果をビットストリームとして出力する。多重化部２１０６では図示した矩形画像と任意形状画像の２種類のビットストリームの他に、オーディオのビットストリームなどを１本のデータにまとめるべく、多重化処理を行う。

図１１は、図９のブロック図をより具体的に説明するための図である。２３０１から２３１８は、画像入力部２１０１から入力されたフレームのデータ列であり、先頭の２３０１のフレームは背景のみが映っている画像、２３１１以降は抽出対象も映っている画像である。画像分離部２１０２では、２３０１を背景画像に、２３１１以降を任意形状画像に切り替えている。この切り替えの最も簡単な方法は、入力画像を見ながら、手動で操作するのが確実である。

実際のデータ処理の流れを、図１３を用いて説明する。２５００が背景画像２３０１、２５０１が任意形状画像２３１１に対応しているものとする。このとき、差分処理部２３５１では、２５００と２５０１の画像が入力され、先に説明した背景差分法により、対応する画素間の差が閾値以下か否かで２値化したデータを出力する。２５１１は２値化された形状データであり、黒い部分が背景、白い部分がオブジェクトを示している。同様に、２５０２、２５０３がそれぞれ２３１２、２３１３に対応しているとすると、生成される形状データは、画像２５０２、２５０３と背景画像２５００との差分閾値処理をした結果、２５１２、２５１３となる。

図１１では、任意形状画像符号化にＭＰＥＧ−４のＣｏｒｅＰｒｏｆｉｌｅのエンコーダ２３５３を用いている。以下、この符号化方式について説明する。

オブジェクトを符号化する場合には、オブジェクトの形と位置の情報を符号化する必要がある。そのために、まず、オブジェクトを内包する矩形領域を設定し、この矩形の左上位置の座標と矩形領域の大きさを符号化する。この矩形領域はバウンディングボックスと呼ばれる。また、画像データ、形状データにより表現されるオブジェクト内部の領域をＶＯＰ（ＶｉｄｅｏＯｂｊｅｃｔＰｌａｎｅ）と呼ぶ。

図１５は、図１１の符号化部２３５３の細部構成を示すブロック図である。尚、入力されるデータは画像の輝度・色差データと形状データであり、それらはマクロブロック単位で処理される。

まず、イントラモードでは、各ブロックをＤＣＴ部２７０１において離散コサイン変換（ＤＣＴ）し、量子化部２７０２で量子化する。量子化されたＤＣＴ係数と量子化幅は、可変長符号化部２７１２で可変長符号化される。また、インターモードで利用する参照画像を生成するため、一旦量子化されたデータは、逆量子化部２７０３、逆ＤＣＴ部２７０４を経て、画像データに戻される。これはローカルデコードの画像とも呼ばれる。この画像はメモリ部２７０５に保存される。

一方、インターモードでは、動き検出部２７０７においてメモリ部２７０５に保存されている時間的に隣接する別のＶＯＰの中からブロックマッチングをはじめとする動き検出方法により動きを検出し、動きベクトル予測部２７０８で対象マクロブロックに対して誤差のもっとも小さい予測マクロブロックを検出する。誤差の最も小さい予測マクロブロックへの動きを示すデータが動きベクトルである。尚、予測マクロブロックを生成するために参照する画像を参照ＶＯＰと呼ぶ。

検出された動きベクトルに基づいて、参照ＶＯＰを動き補償部２７０６において動き補償し、最適な予測マクロブロックを取得する。次に対象となるマクロブロックと対応する予測マクロブロックとの差分を求め、この差分画像に対してＤＣＴ部２７０１でＤＣＴを施し、ＤＣＴ変換係数を量子化部２７０２で量子化する。この時も量子化されたデータは、逆量子化部２７０３、逆ＤＣＴ部２７０４を経て、画像データに戻される。この時の逆ＤＣＴ部２７０４の出力は差分画像となるので、前の画像と合成した後、メモリ部２７０５に保存される。

一方、形状データは、形状符号化ＣＡＥ部２７０９で符号化される。但し、ここで実際にＣＡＥ符号化が行われるのは境界ブロックのみであり、ＶＯＰ内のブロック（ブロック内全てのデータがオブジェクト内）やＶＯＰ外のブロック（ブロック内全てのデータがオブジェクト外）はヘッダ情報のみが可変長符号化部２７１２に送られる。また、ＣＡＥ符号化が施される境界ブロックは、画像データと同様に、インターモードにおいては、動き検出部２７０７による動き検出を行い、動きベクトル予測部２７０８で動きベクトルの予測を行う。そして、動き補償した形状データと前フレームの形状データとの差分値に対しＣＡＥ符号化を行う。

また、図１１では、矩形画像符号化にＭＰＥＧ−４のＳｉｍｐｌｅＰｒｏｆｉｌｅのエンコーダ２３５２を用いている。以下、この符号化方式について説明する。ＳｉｍｐｌｅＰｒｏｆｉｌｅのエンコーダは、ＣｏｒｅＰｒｏｆｉｌｅのエンコーダと下位互換がある。図１５において、任意形状に関する処理、すなわち形状符号化ＣＡＥ部２７０９、メモリ部２７１０、動き補償部２７１１を除いたものがＳｉｍｐｌｅＰｒｏｆｉｌｅのエンコーダとなる。画像データの処理手順は、ＣｏｒｅＰｒｏｆｉｌｅの画像データの処理と同じである。背景画像は１フレーム分符号化すればよいので、必ずしも動画像の符号化方式を用いなくてもよく、静止画符号化方式でもよい。

次に復号側の処理について説明する。
図１０が、全体の概略構成ブロック図である。符号化側で１本にまとめられたビットストリームは、分離部２２０１で各デコーダが入力できるビットストリームに分離処理される。このうち、符号化された背景画像は、矩形画像復号化部２２０２により１フレームの画像データに復号される。任意形状画像復号化部２２０３では、形状データと形状データに対応した画像データを復号する。画像合成部２２０４では、形状データの値から、背景画像と任意形状画像を画素単位で切り替え、合成画像を生成する。画像出力部２２０５は、一般的にはモニタ等の画像表示装置である。

図１２と図１４を用いて、図１０のブロック図をより具体的に説明する。図１０における分離部２２０１、矩形画像復号化部２２０２、任意形状画像復号化部２２０３、画像合成部２２０４がそれぞれ、図１２におけるＤＥＭＵＸ処理２４５１、ＭＰＥＧ−４ＳｉｍｐｌｅＰｒｏｆｉｌｅのデコーダ２４５２、ＭＰＥＧ−４ＣｏｒｅＰｒｏｆｉｌｅのデコーダ２４５３、合成処理部２４５４に対応している。２４１１から２４１８は、画像出力部２２０５において表示されるフレームのデータ列であり、図１１における入力画像２３１１から２３１８に対応している。

ＭＰＥＧ−４ＳｉｍｐｌｅＰｒｏｆｉｌｅデコーダ２４５２の出力は図１４における２６００の背景画像となる。背景画像は最初に１フレーム復号するだけなので、デコーダは静止画の復号化方式でもよい。また、背景画像は必ず他の画像と合成処理されるので、背景画像がそのまま出力されることはない。

ＭＰＥＧ−４ＣｏｒｅＰｒｏｆｉｌｅデコーダ２４５３は、まず形状データとして２６０１、画像データとして２６１１を出力する。合成処理部２４５４では、形状データ２６０１で背景と判断されている画素に関しては、２６００の画素を、オブジェクトと判断されている画素に関しては、２６１１の画素を選択し、合成画像２６２１を生成する。この画像は、符号化側における２５０１の画像に対応している。２５０２に対応する復号画像は、形状データ２６０２と画像データ２６１２ならびに復号背景画像２６００から合成され、２６２２となる。同様に２５０３に対応する復号画像は、２６２３となる。

ここで、ＭＰＥＧ−４ＣｏｒｅＰｒｏｆｉｌｅデコーダ２４５３の詳細を、図１６を用いて説明する。基本的には図１５の逆の動作であり、マクロブロック単位で、画像の輝度・色差データと形状データが復号される。

まず、イントラモードでは、可変長復号化部２８０１が、量子化されたＤＣＴ係数の復号化を行い、それを逆量子化部２８０２に入力する。逆量子化部２８０２の出力は、復号したＤＣＴ係数となり、逆ＤＣＴ部２８０３の入力となる。逆ＤＣＴ部２８０３では、逆ＤＣＴ処理を行うことにより、復号画像を出力する。この時の画像は、インターモードで利用する参照画像とするため、メモリ部２８０４に保存される。

一方、インターモードでは、逆量子化部２８０２、逆ＤＣＴ部２８０３を経て復号される画像は、フレーム間の差分画像である。また、動きベクトル復号化部２８０６においては、動きベクトルを復号する。動き補償部２８０５では、復号した動きベクトルを用いてメモリ部２８０４に保存されている前フレームの画像から動き補償した画像を生成する。この画像と先の差分画像を合成することにより、インターモードにおける画像の復号が行われる。

また、形状データは、可変長復号化部２８０１から形状復号化ＣＡＥ部２８０７を経て復号される。インターモードの場合は、メモリ部２８０８に保存しておいた前フレームの形状データを動きベクトル復号化部２８０６によって復号した動きベクトルを用いて、動き補償部２８０９で動き補償した後、形状復号化ＣＡＥ部２８０７にて復号される。

図１２では、矩形画像復号化にＭＰＥＧ−４のＳｉｍｐｌｅＰｒｏｆｉｌｅのデコーダ２４５２を用いている。以下、この復号化方式について説明する。ＳｉｍｐｌｅＰｒｏｆｉｌｅのデコーダは、ＣｏｒｅＰｒｏｆｉｌｅのデコーダと下位互換がある。図１６において、任意形状に関する処理、すなわち形状復号化ＣＡＥ部２８０７、メモリ部２８０８、動き補償部２８０９を除いたものがＳｉｍｐｌｅＰｒｏｆｉｌｅのデコーダとなる。画像データの処理手順は、ＣｏｒｅＰｒｏｆｉｌｅの画像データの処理と同じである。背景画像は１フレーム分復号化すればよいので、必ずしも動画像の復号化方式を用いなくてもよく、静止画復号化方式でもよい。

ＩＳＯ１４４９６−２特開平１１−２８５００１号公報

しかしながら、上述したシステムは、各フレーム単位で細かな形状情報を符号化して送るため、符号長が増大するといった欠点があった。また、形状情報はＣＡＥ符号化を行うため、１画素ずつの符号化となり、高速化が難しいという欠点もあった。従来例の特許文献１に開示されているＭＨやＭＲなどの符号化においても変化の激しく、予想が難しい場合に符号化効率が低下する欠点が生じる。また、背景画像を別途符号化しなければならないという欠点もあった。

本発明は、このような事情を考慮してなされたものであり、形状情報による発生符号量を抑え、高速な処理が行える高能率符号化技術を提供することを目的とする。

本発明の画像処理装置は、複数のフレームから構成される動画像を入力する動画像入力手段と、入力した前記動画像の中から背景画像を分離する背景画像分離手段と、前記背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成手段と、複数のフレームの形状データから１種類の共通する形状データを生成する形状データ加工手段と、前記入力画像を前記共通形状データと共に任意形状画像として符号化する任意形状画像符号化手段とを備えることを特徴とする。
また、本発明の画像処理装置は、複数のフレームから構成される動画像を入力する動画像入力ステップと、入力した前記動画像の中から背景画像を分離する背景画像分離ステップと、前記背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成ステップと、複数のフレームの形状データから１種類の共通する形状データを生成する形状データ加工ステップと、前記入力画像を前記共通形状データと共に任意形状画像として符号化する任意形状画像符号化ステップとを備えることを特徴とする。

また、本発明のプログラムは、上記の画像処理方法のステップをコンピュータに実行させるためのプログラムである。
また、本発明の記録媒体は、上記の画像処理方法のステップをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。

形状データを複数のフレームで共通化した共通形状データを生成することにより、共通形状データによる発生符号量を減らし、汎用的な高速かつ高能率符号化技術を実現することができる。

以下、図面を参照して、本発明の好適な実施形態について詳細に説明する。
＜第１の実施形態＞
本発明の第１の実施形態について説明する。図１は、符号化側の全体構成を示すブロック図である。［背景技術］で説明した図９との大きな違いは、形状データ生成後にそれの加工部１０４を設けていること、画像データ用のメモリ部１０５、１０６、１０７を設けていること、背景補填部１０８を設けていること、などである。

画像入力部２１０１から入力された複数のフレーム列の動画像は、画像分離部１０１によって、背景とするフレームとそれ以外のフレームに分離される。画像分離部１０１は最初にオブジェクトが含まれない背景画像を入力し、これを分離してメモリ部１０７に格納する。また、これは矩形画像符号化部２１０４によって符号化され、多重化部２１０６から全てに先駆けて多重化される。形状データ生成部１０３では、フレーム画像を入力し、背景とのフレーム差分により生成したデータを二値化して任意形状符号化用の形状データを生成する。形状加工部１０４では、複数のフレームの任意形状データをまとめて１種類の形状（共通形状データ）に加工する。

メモリ部１０５では、形状加工部１０４の出力タイミングに合わせて画像データを出力するためのものである。メモリ部１０６では、各フレームの形状データを背景補填部１０８に補填するためのものである。背景補填部１０８では、メモリ部１０６の形状データと形状加工部１０４で生成された共通形状の比較結果から背景画像で形状データの領域外の共通形状の部分を補填する。任意形状画像符号化部２１０５では、先に生成した形状データとメモリ部からの出力である画像データを同じフレームのタイミングで入力し、符号化を行う。画像データの符号化および形状データの符号化の詳細は、［背景技術］で説明したとおりである。多重化部２１０６は、複数のエンコードしたビットストリームの多重化を行う。ビデオの他にオーディオのビットストリームなども多重化する部分であるが、ここでは特に本実施形態固有の処理がないため、説明を省略する。

背景補填部１０８の詳細なブロック図を図７に示す。同図において、２９０１は形状の差分をそれぞれの画素の排他的論理和をとることで求める形状差分器である。２９０２は生成された形状の差分を格納する形状メモリであり、２９０４は符号化するフレームデータを格納するフレームメモリである。２９０５は形状メモリ２９０２及び、入力される共通形状から画素毎の比較を行って、入力を選択するセレクタである。２９０６は生成されたフレームデータを格納するフレームメモリであり、２９０７は画素クロックをカウントするカウンタである。

このような構成において、形状差分器２９０１には形状加工部１０４から共通形状データとメモリ部１０６から符号化するフレームの形状データが入力される。共通形状データはセレクタ２９０５にも入力される。形状差分器２９０１は２つの形状データの排他的論理和を生成する。ここで、形状データの形状内を表す値を１、そうでない場合を０とする。その結果、共通形状の内部で符号化するフレームの形状データの外側が１になり、それ以外が０になる。この結果は形状メモリ２９０２に格納される。背景メモリ部１０７には背景画像のフレームデータが、フレームメモリ２９０４にはメモリ部１０５の処理するフレームの画像データが格納されている。カウンタ２９０７は画素単位のクロックを計数し、各メモリ上の画像データから同じ位置の画素データを読み出すように指示する。セレクタ２９０５は形状メモリ２９０２からの出力Ａと共通形状データの出力Ｂの組み合わせによって入力を切り替える。すなわち、図１７に示すように、出力を選択する。選択された画素値はフレームメモリ２９０６に格納され、任意形状画像符号化部２１０５に入力され、符号化される。

図８にその様子を示す。３００１、３００２、３００３はフレーム列である。３００１を背景とし、３００２，３００３から形状データを背景差分で抽出し、生成した共通形状は３００５、３００６となる。この形状で背景補填を行わずに抽出した場合、３００８、３００９のようになり、人の外側の部分で背景の不整合が生じることが理解できる。３０１１、３０１２は形状差分器２９０１で生成した差分形状であり、この白の部分の画素値を同じ位置の背景画素値で置き換えた場合、３０１４、３０１５のようになり、背景の不整合は起こらない。

ここでは、形状データの生成と形状加工、背景の画素補填について、図３、図５を用いて説明する。図５はそのフローチャートである。

まずステップＳ１００１で、初期設定として、フレーム数を数えるカウンタ値ｉを０にセットする。次に、ステップＳ１００２で、共通形状をクリアする。次にステップＳ１００３で、画像を入力する。ステップＳ１００４にてこのフレームと背景フレームとの間で差分検出処理を行い、ステップＳ１００５にて、このフレームの形状データを生成する。ステップＳ１００６にて、共通形状データとの論理和（ＯＲ）をとる処理を行い、ステップＳ１００７にて、このフレームの形状データを一時保存する。ステップＳ１００８にて、このフレームのデータを一時保存する。次に、ステップＳ１００９で、カウンタ値ｉをインクリメントする。

次に、ステップＳ１０１０で、このフレームがイントラフレームかどうかの判定を行う。イントラフレームでなければステップＳ１０１１へ進み、イントラフレームであればステップＳ１０１２へ進む。ステップＳ１０１１では、次フレームが存在するか否かを判定する。存在すればステップＳ１０１２へ進み、存在しなければステップＳ１００３へ戻る。ステップＳ１０１２では、これまでに差分処理して一時保存したフレーム数ｉをＮとして設定する。次に、ステップＳ１０１３で、カウンタ値ｉを０にセットする。以降ステップＳ１０１４より１からＮまでのデータを出力する。ステップＳ１０１４は共通形状の内部で形状データの外側の画素データに背景画像の画素を補填する。ステップＳ１０１５が出力処理、ステップＳ１０１６が終了判定で、ステップＳ１０１７がカウンタ値ｉのインクリメントである。Ｎフレームの処理が終わった段階で、ステップＳ１０１８の終了判定を行う。現フレームが最終フレームでない場合は、ステップＳ１００１に戻りこれまでの処理を繰り返し、最終フレームならば、一連の処理を終了する。

図３は、図５のフローチャートに従って処理した場合の画面の説明である。入力したフレーム列が５０１、５０２、５０３の順であり、５００は背景画像である。ここで、イントラフレームの間隔を３フレームとする。５０１がイントラフレームであるとする。まずカウンタ値ｉ＝０（Ｓ１００１）で、共通形状をクリア（Ｓ１００２）する。５０１のフレームが入力（Ｓ１００３）される。背景フレーム５００と現フレーム５０１の差分を検出し（Ｓ１００４）、形状データ５１１を生成する（Ｓ１００５）。共通形状と形状データとの論理和をとって共通形状を更新（Ｓ１００６）する。この時の共通形状は５２１である。形状データ５１１を一時保存（Ｓ１００７）し、画像データ５０１を一時保存（ステップＳ１００８）する。その後カウンタ値ｉを１とする（Ｓ１００９）。

５０２はイントラフレームではないので、イントラフレーム判定（Ｓ１０１０）はＮＯとなり、次フレームがあるので終了（Ｓ１０１１）せず、このフレームの処理を終え、フローのＳ１００３に戻る。続いて、５０２のフレームが入力（Ｓ１００３）される。５０１と同様に形状データ５１２を生成（Ｓ１００４〜Ｓ１００５）する。共通形状と形状データとの論理和をとって共通形状を更新（Ｓ１００６）する。この時の共通形状は５２２である。これらのデータを一時保存（Ｓ１００７〜Ｓ１００８）し、その後カウンタ値ｉを２とする（Ｓ１００９）。

５０３はイントラフレームではないので、イントラフレーム判定（Ｓ１０１０）はＮＯとなり、次フレームがあるので終了（Ｓ１０１１）せず、このフレームの処理を終え、Ｎｏで、次フレームが存在するので（Ｓ１０１１）、フローのＳ１００３に戻る。同様に５０３の処理（Ｓ１００２〜Ｓ１００９）を行なう。次のフレームはイントラフレームなので、イントラフレーム判定（Ｓ１０１０）はＹＥＳとなり、一時保存したフレーム数Ｎ＝２となる（Ｓ１０１２）。もし、次フレームがない場合（Ｓ１０１１）でも一時保存したフレーム数Ｎ＝２となる（Ｓ１０１２）。ｉ＝０（Ｓ１０１３）で画像データ５０１と形状データ５１１と共通形状５２３から共通な形状内領域の背景画像による補填（Ｓ１０１４）を行い、フレームデータ５４１を出力し（Ｓ１０１５）、ｉとＮを比較（Ｓ１０１６）し同じでないので、ｉに１を加算（Ｓ１０１７）して、Ｓ１０１４に戻る。以下、ｉ＝１（Ｓ１０１６）で画像データ５０２と共通形状データ５２３からフレームデータ５４２を出力する（Ｓ１０１４〜１０１５）。続いて、画像データ５０３と共通形状データ５２３からフレームデータ５４３を出力する（Ｓ１０１４〜１０１５）。ｉ＝２でループを抜け（Ｓ１０１６）、次のフレームの処理に移る。

ここで出力する形状データは、１からＮまですべて同じものである。したがって、最新の形状データが得られた段階で、それ以前の形状データを最新の形状データに置き換えるか、最新の形状データのみ残し、これを利用することで、他を廃棄してもよい。

先に説明したように、ＭＰＥＧ−４任意形状画像符号化方式では、フレーム内の処理を行うイントラモード（フレーム内符号化又は復号化）と、フレーム間の処理を行うインターモード（フレーム間符号化又は復号化）がある。符号化の処理モードをどう選ぶかという問題は、背景に設定するフレームをどう決めるかという問題と直接の関連はなく、自由に設定可能である。ただし、背景に設定したフレームをイントラモードにすると、効率のよい符号化が可能となる。インターモードでは、形状データもフレーム間のマッチングを取るため、各フレームが同じ形状であると、形状データにおける発生符号量を極めて小さくすることができる。５１１のフレームをイントラモードとして、５１２、５１３のフレームをインターモードとすると、５１３の発生符号量は、５１２と同じという情報のみでよいため、各マクロブロックで数ビットで済むことになる。イントラモードの間隔が長くなればなるほどこの効果は大きくなり、符号化効率は向上することになる。

任意形状画像符号化部２１０５は、フレーム内符号化とフレーム間符号化を切り替えて符号化することができる。形状データ加工部１０４は、フレーム内符号化又はフレーム間符号化の符号化モードを取得する符号化モード取得手段を備え、フレーム内符号化のフレームから次のフレーム内符号化のフレームの前のフレームまでの形状データから１種類の共通形状データを生成する。

第１の実施形態に係る他の実施形態を説明する。本実施形態にて説明したように、補填された背景画像は前後のフレームで同じ値をとるので、符号化効率は非常に高いものとなる。さらに、任意形状画像符号化では、画像データと形状データを同時に符号化するため、画像データの発生符号量と形状データの発生符号量の和がトータルの発生符号量となる。画像データは、符号化対象面積が小さいほど必要な符号量は少なくなる傾向にあり、形状データは、形状が複雑になるほど発生符号量が増える。発生符号量が最も少なくなる形状は、マクロブロック内がすべてオブジェクトとみなせる場合である。形状データをマクロブロック内で拡大すると、画像の符号化対象領域は増えるが、形状の複雑度は下がるので、トータルとして発生符号量を抑えることができる。この時、補填される背景は同じなので符号化効率の低下は最小限に抑えられる。差分処理にこの機能を加えた場合の処理の流れを以下に説明する。

図６は、形状データをブロック化するフローチャートを示している。これはフレーム内のマクロブロック単位の処理である。まず、ステップＳ１６０１にて、マクロブロック内にオブジェクトの画素があるか否かを判定する。マクロブロック内にオブジェクトの画素が存在すれば、ステップＳ１６０２にて、マクロブロック内すべてをオブジェクトの画素に設定する。すなわち、形状データのマクロブロックのサイズが１６×１６であるとすると、１６×１６＝２５６の画素すべてが２５５（ＭＰＥＧ−４の場合のオブジェクトを示す値）となる。すなわち、共通形状データは、任意形状画像符号化部２１０５における形状データの処理単位（マクロブロック）に拡張される。

図３において説明した形状データ５２１から５２３に図６の処理を加えた結果が５３１から５３３である。この図は、マクロブロック単位で任意形状データが正方形形状に拡張されていることを示している。５３１、５３２、５３３は、５２３に比べ、形状を拡大したことになるので、画像の符号化対象領域は若干増えているが、形状の複雑度は下がっており、よってトータルとして、発生符号量の削減が図られる。

次に、第１の実施形態で説明した符号化側の処理に対応する復号化側の処理について、図２、図４を用いて説明する。

図２は、復号化側の全体構成を示すブロック図である。分離部２２０１では、複数のビットストリームをデコーダ毎のビットストリームに分離する。ビットストリームの種類としては、ビデオの他にオーディオなどもあるが、ここでは本実施形態固有の処理であるビデオのビットストリームについてのみ図示している。矩形画像復号化部２２０２では、分離されたビデオのビットストリームを入力し、背景画像データを復号画像とし出力する。また、任意形状画像復号化部２２０３では、分離されたビデオのビットストリームを入力し、画像データと形状データを復号画像として出力する。矩形画像復号化部２２０２及び任意形状画像復号化部２２０３は、［背景技術］で説明したＭＰＥＧ−４ＳｉｍｐｌｅＰｒｏｆｉｌｅ及びＭＰＥＧ−４ＣｏｒｅＰｒｏｆｉｌｅのデコーダを用いるのがよい。画像合成部２０１では、入力した背景画像と現フレームの画像データおよび形状データと背景画像から合成画像を生成し、画像出力部２２０５へ出力する。画像出力部２２０５は、ディスプレイのような画像表示装置が代表的なものであり、入力したフレームを所望のタイミングで順次表示する。

図４において最初のフレームでは、６１１が任意形状の画像データ、６０１がその形状データ、６４１が合成画像データである。６０１の黒い部分はオブジェクトでないので、図３の５００の背景画像の画素を当てはめ、白い部分はオブジェクトなので、６１１の画素を当てはめる。次のフレームでは、６１２が任意形状の画像データ、６０２がその形状データ、５００が背景画像データである。６０２の黒い部分はオブジェクトでないので、５００の画素を当てはめ、白い部分はオブジェクトなので、６１２の画素を当てはめる。各画素単位で５００もしくは６１２の画素値を当てはめていくことにより、合成画像６４２を得ることができる。同様に、５００の背景画像データと６１３の任意形状画像データを６０３の形状データに基づいて処理すると、合成画像６４３を得ることができる。

したがって、復号後の画像６４１から６４３が図３の５０１から５０３に対応し、図２の復号側と図１の符号化側の処理とが完全に対応することとなる。

第１の実施形態に係る他の実施形態として説明した、図３の５３１から５３３に対応した処理を図４を用いて説明する。復号側の処理は先に説明した処理内容と何ら変わることはない。復号された形状データ６２１に対応する画像データは、６３１となる。５００の背景画像データと６３１の任意形状画像データを６２１の形状データに基づいて処理すると、合成後の画像データは６４１となる。復号された形状データ６２２に対応する画像データは、６３２となる。５００の背景画像データと６３２の任意形状画像データを６２２の形状データに基づいて処理すると、合成画像６４２を得ることができる。同様に、５００の背景画像データと６３３の任意形状画像データを６２３の形状データに基づいて処理すると、合成画像６４３を得ることができる。

上述したように、第１の実施形態に係る画像処理装置によれば、複数フレームで形状を統合して共通化することで、形状情報の符号量を抑えることが可能である。又、背景画像を補填することで、形状情報の拡大に伴う画像データの符号化効率の低下を最小限に抑えることが可能である。さらに、形状情報に関して共通化されたので、いったん算術符号で符号化するが、他のフレームでは動き補償が完全に一致するため、新たな符号が発生しないので、高速な処理が可能になる。

なお、本実施形態ではイントラフレーム間隔で形状情報の共通化を行ったが、これに限定されず、複数のイントラフレーム間隔単位で共通化を行ってももちろん構わない。また、オブジェクトの動きの大きさによって、その更新のタイミングを調整しても構わない。すなわち、動きが小さい状態から大きな状態に移行する場合、動きが小さな状態だけで形状データの共通化を行い、動きが大きくなったら、別に共通化を行うことも可能である。例えば、図５のフローチャートにおいて、ステップＳ１０１０の後に、前回の共通形状とその形状データを統合する前の共通形状とを比較するステップを設け、もしその大きさが大きく変化した場合にはステップＳ１０１２に進むことで実現が可能である。さらにはオブジェクトの動きについて動きベクトルを算出することで判断しても構わない。

＜第２の実施形態＞
図１８は、第１の実施形態をコンピュータプログラムで実現する第２の実施形態のハードウエア構成例を示す。バス１８０１には、中央処理装置（ＣＰＵ）１８０２、ＲＯＭ１８０３、ＲＡＭ１８０４、ネットワークインタフェース１８０５、入力装置１８０６、出力装置１８０７及び外部記憶装置１８０８が接続されている。

ＲＯＭ１８０３には、予めＣＰＵ１８０２の制御手順（コンピュータプログラム）を記憶させておき、このコンピュータプログラムをＣＰＵ１８０２が実行することにより、起動する。外部記憶装置１８０８にコンピュータプログラムが記憶されており、そのコンピュータプログラムがＲＡＭ１８０４にコピーされてＣＰＵ１８０２により実行される。外部記憶装置１８０８は、例えばハードディスク記憶装置やＣＤ−ＲＯＭ等であり、電源を切っても記憶内容が消えない。ＲＡＭ１８０４は、データの入出力、送受信のためのワークメモリ、各構成要素の制御のための一時記憶として用いられる。

ＣＰＵ１８０２は、コンピュータプログラムを実行することにより、データの処理又は演算を行うと共に、バス１８０１を介して接続された各種構成要素を制御するものである。ＣＰＵ１８０２は、コンピュータプログラムの実行により、上記のフローチャートの処理を行うことができる。

ネットワークインタフェース１８０５は、ネットワークに接続するためのインタフェースである。入力装置１８０６は、例えばキーボード、マウス等であり、各種指定又は入力等を行うことができる。出力装置１８０７は、ディスプレイ、スピーカー等である。

また、本実施形態の目的は、第１の実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体（または記憶媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。

尚、第１及び第２の実施形態は、複数の機器（例えば、ホストコンピュータ、インタフェース機器、カメラ、ディスプレイ等）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、カムコーダ、遠隔監視装置等）に適用してもよい。

以上説明したように、第１及び第２の実施形態によれば、形状データを複数のフレームで共通化することで、汎用的な高能率符号化システムを実現することができる。

なお、上記実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

本発明の第１の実施形態における画像処理装置の構成を示すブロック図である。復号化システムの構成を示すブロック図である。本発明の第１の実施形態における形状データと画像データの処理について説明するための図である。復号化システムにおける形状データと画像データの処理について説明するための図である。本発明の第１の実施形態に係る形状データの生成・加工手順・背景補填を説明するためのフローチャートである。本発明の第１の実施形態に係る形状データの修正手順を説明するためのフローチャートである。本発明の第１の実施形態に係る背景補填部の構成を示すブロック図である。本発明の第１の実施形態に係る符号化側の形状データと画像データの背景補填処理について説明するための図である。従来例に係る符号化側の画像処理装置の構成を示すブロック図である。従来例に係る復号化側の画像処理装置の構成を示すブロック図である。従来例に係る符号化側の画像処理装置の構成を示すブロック図であり、特に画像分離部の処理について説明するための図である。従来例に係る復号化側の画像処理装置の構成を示すブロック図であり、特に画像表示部の処理について説明するための図である。従来例に係る符号化側の形状データと画像データの処理について説明するための図である。従来例に係る復号化側の形状データと画像データの処理について説明するための図である。任意形状画像符号化部の構成を示すブロック図である。任意形状画像復号化部の構成を示すブロック図である。セレクタの動作を説明するための図である。本発明の第２の実施形態によるコンピュータプログラムで実現するハードウエア構成例を示すブロック図である。

符号の説明

１０１画像分離部
１０３形状データ生成部
１０４形状加工部
１０５〜１０７メモリ部
１０８背景補填部
２０１画像合成部
１８０１バス
１８０２ＣＰＵ
１８０３ＲＯＭ
１８０４ＲＡＭ
１８０５ネットワークインタフェース
１８０６入力装置
１８０７出力装置
１８０８外部記憶装置
２１０１画像入力部
２１０２画像分離部
２１０３形状データ生成部
２１０４矩形画像符号化部
２１０５任意形状画像符号化部
２１０６多重化部
２２０１分離部
２２０２矩形画像復号化部
２２０３任意形状画像復号化部
２２０４画像合成部
２２０５画像出力部

Claims

複数のフレームから構成される動画像を入力する動画像入力手段と、
入力した前記動画像の中から背景画像を分離する背景画像分離手段と、
前記背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成手段と、
複数のフレームの形状データから１種類の共通する形状データを生成する形状データ加工手段と、
前記入力画像を前記共通形状データと共に任意形状画像として符号化する任意形状画像符号化手段と
を備えることを特徴とする画像処理装置。
前記任意形状画像符号化手段は、
前記形状データと前記共通形状データを比較する形状比較手段と、
前記比較結果に応じて前記共通形状データを背景画像で補填する背景画像補填手段とを備え、
補填された任意形状画像及び前記共通形状データを符号化することを特徴とする請求項１記載の画像処理装置。
前記形状データ加工手段は、複数のフレームの形状データの論理和をとることにより共通形状データを生成することを特徴とする請求項１又は２記載の画像処理装置。
前記共通形状データを前記任意形状画像符号化手段における形状データの処理単位に拡張するブロック化手段をさらに備えることを特徴とする請求項１〜３のいずれか１項に記載の画像処理装置。
前記共通形状データを正方形ブロック単位に拡張するブロック化手段をさらに備えることを特徴とする請求項１〜３のいずれか１項に記載の画像処理装置。
前記任意形状画像符号化手段は、フレーム内符号化とフレーム間符号化を切り替えて符号化することを特徴とする請求項１〜５のいずれか１項に記載の画像処理装置。
前記形状データ加工手段は、フレーム内符号化又はフレーム間符号化の符号化モードを取得する符号化モード取得手段を備え、フレーム内符号化のフレームから次のフレーム内符号化のフレームの前のフレームまでの形状データから１種類の共通形状データを生成することを特徴とする請求項６記載の画像処理装置。
前記形状データ加工手段は、一つの背景画像に対し、一つの形状データを生成し、これを共通の形状データとすることを特徴とする請求項１〜７のいずれか１項に記載の画像処理装置。
複数のフレームから構成される動画像を入力する動画像入力ステップと、
入力した前記動画像の中から背景画像を分離する背景画像分離ステップと、
前記背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成ステップと、
複数のフレームの形状データから１種類の共通する形状データを生成する形状データ加工ステップと、
前記入力画像を前記共通形状データと共に任意形状画像として符号化する任意形状画像符号化ステップと
を備えることを特徴とする画像処理方法。
前記任意形状画像符号化ステップは、
前記形状データと前記共通形状データを比較する形状比較ステップと、
前記比較結果に応じて前記共通形状データを背景画像で補填する背景画像補填ステップとを備え、
補填された任意形状画像及び前記共通形状データを符号化することを特徴とする請求項９記載の画像処理方法。
前記形状データ加工ステップは、複数のフレームの形状データの論理和をとることにより共通形状データを生成することを特徴とする請求項９又は１０記載の画像処理方法。
前記共通形状データを前記任意形状画像符号化ステップにおける形状データの処理単位に拡張するブロック化ステップをさらに備えることを特徴とする請求項９〜１１のいずれか１項に記載の画像処理方法。
前記共通形状データを正方形ブロック単位に拡張するブロック化ステップをさらに備えることを特徴とする請求項９〜１１のいずれか１項に記載の画像処理方法。
前記任意形状画像符号化ステップは、フレーム内符号化とフレーム間符号化を切り替えて符号化することを特徴とする請求項９〜１３のいずれか１項に記載の画像処理方法。
前記形状データ加工ステップは、フレーム内符号化又はフレーム間符号化の符号化モードを取得する符号化モード取得ステップを備え、フレーム内符号化のフレームから次のフレーム内符号化のフレームの前のフレームまでの形状データから１種類の共通形状データを生成することを特徴とする請求項１４記載の画像処理方法。
前記形状データ加工ステップは、一つの背景画像に対し、一つの形状データを生成し、これを共通の形状データとすることを特徴とする請求項９〜１５のいずれか１項に記載の画像処理方法。
請求項９〜１６のいずれか１項に記載の画像処理方法のステップをコンピュータに実行させるためのプログラム。
請求項９〜１６のいずれか１項に記載の画像処理方法のステップをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。