JP2005184114A - 画像処理装置、画像処理方法、プログラム及び記録媒体 - Google Patents

画像処理装置、画像処理方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2005184114A
JP2005184114A JP2003418324A JP2003418324A JP2005184114A JP 2005184114 A JP2005184114 A JP 2005184114A JP 2003418324 A JP2003418324 A JP 2003418324A JP 2003418324 A JP2003418324 A JP 2003418324A JP 2005184114 A JP2005184114 A JP 2005184114A
Authority
JP
Japan
Prior art keywords
image
shape data
encoding
frame
shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003418324A
Other languages
English (en)
Inventor
Mitsuru Maeda
充 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003418324A priority Critical patent/JP2005184114A/ja
Publication of JP2005184114A publication Critical patent/JP2005184114A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】 形状データによる発生符号量を抑え、高速な処理が行なえる高能率符号化技術を提供することを課題とする。
【解決手段】 複数のフレームから構成される動画像を入力する動画像入力手段(2101)と、入力した動画像の中から背景画像を分離する背景画像分離手段(101)と、背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成手段(103)と、複数のフレームの形状データから1種類の共通する形状データを生成する形状データ加工手段(104)と、入力画像を共通形状データと共に任意形状画像として符号化する任意形状画像符号化手段(2105)とを備える画像処理装置が提供される。
【選択図】 図1

Description

本発明は、画像処理に関し、特に動画像を符号化するための画像処理に関する。
近年、デジタル技術を利用して画像を対象物(オブジェクト)毎に分離、合成する処理が注目されている。特に、動画像の符号化においては、国際標準としてMPEG−4符号化方式が規格化されている(例えば、非特許文献1参照)。MPEG−4符号化方式では、任意形状の画像データが扱え、オブジェクト毎の符号化/復号化を行うことにより、符号化効率の向上、伝送路に応じたデータ配分、画像の再加工等、従来は困難であったさまざまな応用が期待されている。
また、オブジェクトと背景を別個に符号化して合成する方式については、特許文献1「動画像符号化装置及び動画像復号装置」に開示されている。本特許文献1において、その請求項に画面全体を符号化する第1の符号化方法と画像の一部を符号化する第2の符号化を持ち、復号時にこれらの画像を重畳することが開示されている。また、段落0023にて、全体または選択された領域をH.261符号化で矩形領域を符号化することと、形状データをMH,MRなどで符号化することが開示されている。
また、動画像処理における対象物の抽出方法としては、一般に背景差分方式という手法が知られている。これは、予め撮影した背景画像と実際の入力画像とを比較することにより、変化点を検出する方法である。以下、簡単にその原理について説明する。
まず、画像平面上の座標(x,y)における点の入力画像の画素値をPc(x,y)、背景画像の画素値をPb(x,y)とする。このとき、Pc(x,y)とPb(x,y)との差分をとり、その絶対値をある閾値Thと比較する。
判定式の例を示すと次の通りである。
if(|Pc(x,y)−Pb(x,y)| ≦ Th) S(x,y)=0;
else S(x,y)=1; … (1)
差分絶対値が閾値Th以下の場合、この点(x,y)は変化なしということで、Pc(x,y)は背景と判定され、S(x,y)=0となる。一方、差分絶対値が閾値Thを超えている場合は、値が変化したということで抽出対象とみなされS(x、y)=1となる。画面上のすべての点において上記の判定を行うことで、1フレーム分の抽出が完了する。
図9は、背景差分方式とMPEG−4符号化方式を組み合わせた従来のシステムの構成を示すブロック図である。図9において、画像入力部2101は、例えばカメラの撮像部であり、動画像を入力する部分である。画像分離部2102は、背景画像として処理するフレームと任意形状画像として処理するフレームとを切り替えるスイッチ回路である。背景画像に設定したフレームは、矩形画像符号化部2104で、1フレーム分符号化される。形状データ生成部2103では、先の背景画像と現在入力された画像との比較により、形状データを生成する。一般に形状データは、オブジェクトであるか否かの2値データである。任意形状画像符号化部2105では、画像データと形状データを入力とし、符号化した結果をビットストリームとして出力する。多重化部2106では図示した矩形画像と任意形状画像の2種類のビットストリームの他に、オーディオのビットストリームなどを1本のデータにまとめるべく、多重化処理を行う。
図11は、図9のブロック図をより具体的に説明するための図である。2301から2318は、画像入力部2101から入力されたフレームのデータ列であり、先頭の2301のフレームは背景のみが映っている画像、2311以降は抽出対象も映っている画像である。画像分離部2102では、2301を背景画像に、2311以降を任意形状画像に切り替えている。この切り替えの最も簡単な方法は、入力画像を見ながら、手動で操作するのが確実である。
実際のデータ処理の流れを、図13を用いて説明する。2500が背景画像2301、2501が任意形状画像2311に対応しているものとする。このとき、差分処理部2351では、2500と2501の画像が入力され、先に説明した背景差分法により、対応する画素間の差が閾値以下か否かで2値化したデータを出力する。2511は2値化された形状データであり、黒い部分が背景、白い部分がオブジェクトを示している。同様に、2502、2503がそれぞれ2312、2313に対応しているとすると、生成される形状データは、画像2502、2503と背景画像2500との差分閾値処理をした結果、2512、2513となる。
図11では、任意形状画像符号化にMPEG−4のCore Profileのエンコーダ2353を用いている。以下、この符号化方式について説明する。
オブジェクトを符号化する場合には、オブジェクトの形と位置の情報を符号化する必要がある。そのために、まず、オブジェクトを内包する矩形領域を設定し、この矩形の左上位置の座標と矩形領域の大きさを符号化する。この矩形領域はバウンディングボックスと呼ばれる。また、画像データ、形状データにより表現されるオブジェクト内部の領域をVOP(Video Object Plane)と呼ぶ。
図15は、図11の符号化部2353の細部構成を示すブロック図である。尚、入力されるデータは画像の輝度・色差データと形状データであり、それらはマクロブロック単位で処理される。
まず、イントラモードでは、各ブロックをDCT部2701において離散コサイン変換(DCT)し、量子化部2702で量子化する。量子化されたDCT係数と量子化幅は、可変長符号化部2712で可変長符号化される。また、インターモードで利用する参照画像を生成するため、一旦量子化されたデータは、逆量子化部2703、逆DCT部2704を経て、画像データに戻される。これはローカルデコードの画像とも呼ばれる。この画像はメモリ部2705に保存される。
一方、インターモードでは、動き検出部2707においてメモリ部2705に保存されている時間的に隣接する別のVOPの中からブロックマッチングをはじめとする動き検出方法により動きを検出し、動きベクトル予測部2708で対象マクロブロックに対して誤差のもっとも小さい予測マクロブロックを検出する。誤差の最も小さい予測マクロブロックへの動きを示すデータが動きベクトルである。尚、予測マクロブロックを生成するために参照する画像を参照VOPと呼ぶ。
検出された動きベクトルに基づいて、参照VOPを動き補償部2706において動き補償し、最適な予測マクロブロックを取得する。次に対象となるマクロブロックと対応する予測マクロブロックとの差分を求め、この差分画像に対してDCT部2701でDCTを施し、DCT変換係数を量子化部2702で量子化する。この時も量子化されたデータは、逆量子化部2703、逆DCT部2704を経て、画像データに戻される。この時の逆DCT部2704の出力は差分画像となるので、前の画像と合成した後、メモリ部2705に保存される。
一方、形状データは、形状符号化CAE部2709で符号化される。但し、ここで実際にCAE符号化が行われるのは境界ブロックのみであり、VOP内のブロック(ブロック内全てのデータがオブジェクト内)やVOP外のブロック(ブロック内全てのデータがオブジェクト外)はヘッダ情報のみが可変長符号化部2712に送られる。また、CAE符号化が施される境界ブロックは、画像データと同様に、インターモードにおいては、動き検出部2707による動き検出を行い、動きベクトル予測部2708で動きベクトルの予測を行う。そして、動き補償した形状データと前フレームの形状データとの差分値に対しCAE符号化を行う。
また、図11では、矩形画像符号化にMPEG−4のSimple Profileのエンコーダ2352を用いている。以下、この符号化方式について説明する。Simple Profileのエンコーダは、Core Profileのエンコーダと下位互換がある。図15において、任意形状に関する処理、すなわち形状符号化CAE部2709、メモリ部2710、動き補償部2711を除いたものがSimple Profileのエンコーダとなる。画像データの処理手順は、Core Profileの画像データの処理と同じである。背景画像は1フレーム分符号化すればよいので、必ずしも動画像の符号化方式を用いなくてもよく、静止画符号化方式でもよい。
次に復号側の処理について説明する。
図10が、全体の概略構成ブロック図である。符号化側で1本にまとめられたビットストリームは、分離部2201で各デコーダが入力できるビットストリームに分離処理される。このうち、符号化された背景画像は、矩形画像復号化部2202により1フレームの画像データに復号される。任意形状画像復号化部2203では、形状データと形状データに対応した画像データを復号する。画像合成部2204では、形状データの値から、背景画像と任意形状画像を画素単位で切り替え、合成画像を生成する。画像出力部2205は、一般的にはモニタ等の画像表示装置である。
図12と図14を用いて、図10のブロック図をより具体的に説明する。図10における分離部2201、矩形画像復号化部2202、任意形状画像復号化部2203、画像合成部2204がそれぞれ、図12におけるDEMUX処理2451、MPEG−4 Simple Profileのデコーダ2452、MPEG−4 Core Profileのデコーダ2453、合成処理部2454に対応している。2411から2418は、画像出力部2205において表示されるフレームのデータ列であり、図11における入力画像2311から2318に対応している。
MPEG−4 Simple Profileデコーダ2452の出力は図14における2600の背景画像となる。背景画像は最初に1フレーム復号するだけなので、デコーダは静止画の復号化方式でもよい。また、背景画像は必ず他の画像と合成処理されるので、背景画像がそのまま出力されることはない。
MPEG−4 Core Profileデコーダ2453は、まず形状データとして2601、画像データとして2611を出力する。合成処理部2454では、形状データ2601で背景と判断されている画素に関しては、2600の画素を、オブジェクトと判断されている画素に関しては、2611の画素を選択し、合成画像2621を生成する。この画像は、符号化側における2501の画像に対応している。2502に対応する復号画像は、形状データ2602と画像データ2612ならびに復号背景画像2600から合成され、2622となる。同様に2503に対応する復号画像は、2623となる。
ここで、MPEG−4 Core Profileデコーダ2453の詳細を、図16を用いて説明する。基本的には図15の逆の動作であり、マクロブロック単位で、画像の輝度・色差データと形状データが復号される。
まず、イントラモードでは、可変長復号化部2801が、量子化されたDCT係数の復号化を行い、それを逆量子化部2802に入力する。逆量子化部2802の出力は、復号したDCT係数となり、逆DCT部2803の入力となる。逆DCT部2803では、逆DCT処理を行うことにより、復号画像を出力する。この時の画像は、インターモードで利用する参照画像とするため、メモリ部2804に保存される。
一方、インターモードでは、逆量子化部2802、逆DCT部2803を経て復号される画像は、フレーム間の差分画像である。また、動きベクトル復号化部2806においては、動きベクトルを復号する。動き補償部2805では、復号した動きベクトルを用いてメモリ部2804に保存されている前フレームの画像から動き補償した画像を生成する。この画像と先の差分画像を合成することにより、インターモードにおける画像の復号が行われる。
また、形状データは、可変長復号化部2801から形状復号化CAE部2807を経て復号される。インターモードの場合は、メモリ部2808に保存しておいた前フレームの形状データを動きベクトル復号化部2806によって復号した動きベクトルを用いて、動き補償部2809で動き補償した後、形状復号化CAE部2807にて復号される。
図12では、矩形画像復号化にMPEG−4のSimple Profileのデコーダ2452を用いている。以下、この復号化方式について説明する。Simple Profileのデコーダは、Core Profileのデコーダと下位互換がある。図16において、任意形状に関する処理、すなわち形状復号化CAE部2807、メモリ部2808、動き補償部2809を除いたものがSimple Profileのデコーダとなる。画像データの処理手順は、Core Profileの画像データの処理と同じである。背景画像は1フレーム分復号化すればよいので、必ずしも動画像の復号化方式を用いなくてもよく、静止画復号化方式でもよい。
ISO 14496−2 特開平11−285001号公報
しかしながら、上述したシステムは、各フレーム単位で細かな形状情報を符号化して送るため、符号長が増大するといった欠点があった。また、形状情報はCAE符号化を行うため、1画素ずつの符号化となり、高速化が難しいという欠点もあった。従来例の特許文献1に開示されているMHやMRなどの符号化においても変化の激しく、予想が難しい場合に符号化効率が低下する欠点が生じる。また、背景画像を別途符号化しなければならないという欠点もあった。
本発明は、このような事情を考慮してなされたものであり、形状情報による発生符号量を抑え、高速な処理が行える高能率符号化技術を提供することを目的とする。
本発明の画像処理装置は、複数のフレームから構成される動画像を入力する動画像入力手段と、入力した前記動画像の中から背景画像を分離する背景画像分離手段と、前記背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成手段と、複数のフレームの形状データから1種類の共通する形状データを生成する形状データ加工手段と、前記入力画像を前記共通形状データと共に任意形状画像として符号化する任意形状画像符号化手段とを備えることを特徴とする。
また、本発明の画像処理装置は、複数のフレームから構成される動画像を入力する動画像入力ステップと、入力した前記動画像の中から背景画像を分離する背景画像分離ステップと、前記背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成ステップと、複数のフレームの形状データから1種類の共通する形状データを生成する形状データ加工ステップと、前記入力画像を前記共通形状データと共に任意形状画像として符号化する任意形状画像符号化ステップとを備えることを特徴とする。
また、本発明のプログラムは、上記の画像処理方法のステップをコンピュータに実行させるためのプログラムである。
また、本発明の記録媒体は、上記の画像処理方法のステップをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
形状データを複数のフレームで共通化した共通形状データを生成することにより、共通形状データによる発生符号量を減らし、汎用的な高速かつ高能率符号化技術を実現することができる。
以下、図面を参照して、本発明の好適な実施形態について詳細に説明する。
<第1の実施形態>
本発明の第1の実施形態について説明する。図1は、符号化側の全体構成を示すブロック図である。[背景技術]で説明した図9との大きな違いは、形状データ生成後にそれの加工部104を設けていること、画像データ用のメモリ部105、106、107を設けていること、背景補填部108を設けていること、などである。
画像入力部2101から入力された複数のフレーム列の動画像は、画像分離部101によって、背景とするフレームとそれ以外のフレームに分離される。画像分離部101は最初にオブジェクトが含まれない背景画像を入力し、これを分離してメモリ部107に格納する。また、これは矩形画像符号化部2104によって符号化され、多重化部2106から全てに先駆けて多重化される。形状データ生成部103では、フレーム画像を入力し、背景とのフレーム差分により生成したデータを二値化して任意形状符号化用の形状データを生成する。形状加工部104では、複数のフレームの任意形状データをまとめて1種類の形状(共通形状データ)に加工する。
メモリ部105では、形状加工部104の出力タイミングに合わせて画像データを出力するためのものである。メモリ部106では、各フレームの形状データを背景補填部108に補填するためのものである。背景補填部108では、メモリ部106の形状データと形状加工部104で生成された共通形状の比較結果から背景画像で形状データの領域外の共通形状の部分を補填する。任意形状画像符号化部2105では、先に生成した形状データとメモリ部からの出力である画像データを同じフレームのタイミングで入力し、符号化を行う。画像データの符号化および形状データの符号化の詳細は、[背景技術]で説明したとおりである。多重化部2106は、複数のエンコードしたビットストリームの多重化を行う。ビデオの他にオーディオのビットストリームなども多重化する部分であるが、ここでは特に本実施形態固有の処理がないため、説明を省略する。
背景補填部108の詳細なブロック図を図7に示す。同図において、2901は形状の差分をそれぞれの画素の排他的論理和をとることで求める形状差分器である。2902は生成された形状の差分を格納する形状メモリであり、2904は符号化するフレームデータを格納するフレームメモリである。2905は形状メモリ2902及び、入力される共通形状から画素毎の比較を行って、入力を選択するセレクタである。2906は生成されたフレームデータを格納するフレームメモリであり、2907は画素クロックをカウントするカウンタである。
このような構成において、形状差分器2901には形状加工部104から共通形状データとメモリ部106から符号化するフレームの形状データが入力される。共通形状データはセレクタ2905にも入力される。形状差分器2901は2つの形状データの排他的論理和を生成する。ここで、形状データの形状内を表す値を1、そうでない場合を0とする。その結果、共通形状の内部で符号化するフレームの形状データの外側が1になり、それ以外が0になる。この結果は形状メモリ2902に格納される。背景メモリ部107には背景画像のフレームデータが、フレームメモリ2904にはメモリ部105の処理するフレームの画像データが格納されている。カウンタ2907は画素単位のクロックを計数し、各メモリ上の画像データから同じ位置の画素データを読み出すように指示する。セレクタ2905は形状メモリ2902からの出力Aと共通形状データの出力Bの組み合わせによって入力を切り替える。すなわち、図17に示すように、出力を選択する。選択された画素値はフレームメモリ2906に格納され、任意形状画像符号化部2105に入力され、符号化される。
図8にその様子を示す。3001、3002、3003はフレーム列である。3001を背景とし、3002,3003から形状データを背景差分で抽出し、生成した共通形状は3005、3006となる。この形状で背景補填を行わずに抽出した場合、3008、3009のようになり、人の外側の部分で背景の不整合が生じることが理解できる。3011、3012は形状差分器2901で生成した差分形状であり、この白の部分の画素値を同じ位置の背景画素値で置き換えた場合、3014、3015のようになり、背景の不整合は起こらない。
ここでは、形状データの生成と形状加工、背景の画素補填について、図3、図5を用いて説明する。図5はそのフローチャートである。
まずステップS1001で、初期設定として、フレーム数を数えるカウンタ値iを0にセットする。次に、ステップS1002で、共通形状をクリアする。次にステップS1003で、画像を入力する。ステップS1004にてこのフレームと背景フレームとの間で差分検出処理を行い、ステップS1005にて、このフレームの形状データを生成する。ステップS1006にて、共通形状データとの論理和(OR)をとる処理を行い、ステップS1007にて、このフレームの形状データを一時保存する。ステップS1008にて、このフレームのデータを一時保存する。次に、ステップS1009で、カウンタ値iをインクリメントする。
次に、ステップS1010で、このフレームがイントラフレームかどうかの判定を行う。イントラフレームでなければステップS1011へ進み、イントラフレームであればステップS1012へ進む。ステップS1011では、次フレームが存在するか否かを判定する。存在すればステップS1012へ進み、存在しなければステップS1003へ戻る。ステップS1012では、これまでに差分処理して一時保存したフレーム数iをNとして設定する。次に、ステップS1013で、カウンタ値iを0にセットする。以降ステップS1014より1からNまでのデータを出力する。ステップS1014は共通形状の内部で形状データの外側の画素データに背景画像の画素を補填する。ステップS1015が出力処理、ステップS1016が終了判定で、ステップS1017がカウンタ値iのインクリメントである。Nフレームの処理が終わった段階で、ステップS1018の終了判定を行う。現フレームが最終フレームでない場合は、ステップS1001に戻りこれまでの処理を繰り返し、最終フレームならば、一連の処理を終了する。
図3は、図5のフローチャートに従って処理した場合の画面の説明である。入力したフレーム列が501、502、503の順であり、500は背景画像である。ここで、イントラフレームの間隔を3フレームとする。501がイントラフレームであるとする。まずカウンタ値i=0(S1001)で、共通形状をクリア(S1002)する。501のフレームが入力(S1003)される。背景フレーム500と現フレーム501の差分を検出し(S1004)、形状データ511を生成する(S1005)。共通形状と形状データとの論理和をとって共通形状を更新(S1006)する。この時の共通形状は521である。形状データ511を一時保存(S1007)し、画像データ501を一時保存(ステップS1008)する。その後カウンタ値iを1とする(S1009)。
502はイントラフレームではないので、イントラフレーム判定(S1010)はNOとなり、次フレームがあるので終了(S1011)せず、このフレームの処理を終え、フローのS1003に戻る。続いて、502のフレームが入力(S1003)される。501と同様に形状データ512を生成(S1004〜S1005)する。共通形状と形状データとの論理和をとって共通形状を更新(S1006)する。この時の共通形状は522である。これらのデータを一時保存(S1007〜S1008)し、その後カウンタ値iを2とする(S1009)。
503はイントラフレームではないので、イントラフレーム判定(S1010)はNOとなり、次フレームがあるので終了(S1011)せず、このフレームの処理を終え、Noで、次フレームが存在するので(S1011)、フローのS1003に戻る。同様に503の処理(S1002〜S1009)を行なう。次のフレームはイントラフレームなので、イントラフレーム判定(S1010)はYESとなり、一時保存したフレーム数N=2となる(S1012)。もし、次フレームがない場合(S1011)でも一時保存したフレーム数N=2となる(S1012)。i=0(S1013)で画像データ501と形状データ511と共通形状523から共通な形状内領域の背景画像による補填(S1014)を行い、フレームデータ541を出力し(S1015)、iとNを比較(S1016)し同じでないので、iに1を加算(S1017)して、S1014に戻る。以下、i=1(S1016)で画像データ502と共通形状データ523からフレームデータ542を出力する(S1014〜1015)。続いて、画像データ503と共通形状データ523からフレームデータ543を出力する(S1014〜1015)。i=2でループを抜け(S1016)、次のフレームの処理に移る。
ここで出力する形状データは、1からNまですべて同じものである。したがって、最新の形状データが得られた段階で、それ以前の形状データを最新の形状データに置き換えるか、最新の形状データのみ残し、これを利用することで、他を廃棄してもよい。
先に説明したように、MPEG−4任意形状画像符号化方式では、フレーム内の処理を行うイントラモード(フレーム内符号化又は復号化)と、フレーム間の処理を行うインターモード(フレーム間符号化又は復号化)がある。符号化の処理モードをどう選ぶかという問題は、背景に設定するフレームをどう決めるかという問題と直接の関連はなく、自由に設定可能である。ただし、背景に設定したフレームをイントラモードにすると、効率のよい符号化が可能となる。インターモードでは、形状データもフレーム間のマッチングを取るため、各フレームが同じ形状であると、形状データにおける発生符号量を極めて小さくすることができる。511のフレームをイントラモードとして、512、513のフレームをインターモードとすると、513の発生符号量は、512と同じという情報のみでよいため、各マクロブロックで数ビットで済むことになる。イントラモードの間隔が長くなればなるほどこの効果は大きくなり、符号化効率は向上することになる。
任意形状画像符号化部2105は、フレーム内符号化とフレーム間符号化を切り替えて符号化することができる。形状データ加工部104は、フレーム内符号化又はフレーム間符号化の符号化モードを取得する符号化モード取得手段を備え、フレーム内符号化のフレームから次のフレーム内符号化のフレームの前のフレームまでの形状データから1種類の共通形状データを生成する。
第1の実施形態に係る他の実施形態を説明する。本実施形態にて説明したように、補填された背景画像は前後のフレームで同じ値をとるので、符号化効率は非常に高いものとなる。さらに、任意形状画像符号化では、画像データと形状データを同時に符号化するため、画像データの発生符号量と形状データの発生符号量の和がトータルの発生符号量となる。画像データは、符号化対象面積が小さいほど必要な符号量は少なくなる傾向にあり、形状データは、形状が複雑になるほど発生符号量が増える。発生符号量が最も少なくなる形状は、マクロブロック内がすべてオブジェクトとみなせる場合である。形状データをマクロブロック内で拡大すると、画像の符号化対象領域は増えるが、形状の複雑度は下がるので、トータルとして発生符号量を抑えることができる。この時、補填される背景は同じなので符号化効率の低下は最小限に抑えられる。差分処理にこの機能を加えた場合の処理の流れを以下に説明する。
図6は、形状データをブロック化するフローチャートを示している。これはフレーム内のマクロブロック単位の処理である。まず、ステップS1601にて、マクロブロック内にオブジェクトの画素があるか否かを判定する。マクロブロック内にオブジェクトの画素が存在すれば、ステップS1602にて、マクロブロック内すべてをオブジェクトの画素に設定する。すなわち、形状データのマクロブロックのサイズが16×16であるとすると、16×16=256の画素すべてが255(MPEG−4の場合のオブジェクトを示す値)となる。すなわち、共通形状データは、任意形状画像符号化部2105における形状データの処理単位(マクロブロック)に拡張される。
図3において説明した形状データ521から523に図6の処理を加えた結果が531から533である。この図は、マクロブロック単位で任意形状データが正方形形状に拡張されていることを示している。531、532、533は、523に比べ、形状を拡大したことになるので、画像の符号化対象領域は若干増えているが、形状の複雑度は下がっており、よってトータルとして、発生符号量の削減が図られる。
次に、第1の実施形態で説明した符号化側の処理に対応する復号化側の処理について、図2、図4を用いて説明する。
図2は、復号化側の全体構成を示すブロック図である。分離部2201では、複数のビットストリームをデコーダ毎のビットストリームに分離する。ビットストリームの種類としては、ビデオの他にオーディオなどもあるが、ここでは本実施形態固有の処理であるビデオのビットストリームについてのみ図示している。矩形画像復号化部2202では、分離されたビデオのビットストリームを入力し、背景画像データを復号画像とし出力する。また、任意形状画像復号化部2203では、分離されたビデオのビットストリームを入力し、画像データと形状データを復号画像として出力する。矩形画像復号化部2202及び任意形状画像復号化部2203は、[背景技術]で説明したMPEG−4 Simple Profile及びMPEG−4 Core Profileのデコーダを用いるのがよい。画像合成部201では、入力した背景画像と現フレームの画像データおよび形状データと背景画像から合成画像を生成し、画像出力部2205へ出力する。画像出力部2205は、ディスプレイのような画像表示装置が代表的なものであり、入力したフレームを所望のタイミングで順次表示する。
図4において最初のフレームでは、611が任意形状の画像データ、601がその形状データ、641が合成画像データである。601の黒い部分はオブジェクトでないので、図3の500の背景画像の画素を当てはめ、白い部分はオブジェクトなので、611の画素を当てはめる。次のフレームでは、612が任意形状の画像データ、602がその形状データ、500が背景画像データである。602の黒い部分はオブジェクトでないので、500の画素を当てはめ、白い部分はオブジェクトなので、612の画素を当てはめる。各画素単位で500もしくは612の画素値を当てはめていくことにより、合成画像642を得ることができる。同様に、500の背景画像データと613の任意形状画像データを603の形状データに基づいて処理すると、合成画像643を得ることができる。
したがって、復号後の画像641から643が図3の501から503に対応し、図2の復号側と図1の符号化側の処理とが完全に対応することとなる。
第1の実施形態に係る他の実施形態として説明した、図3の531から533に対応した処理を図4を用いて説明する。復号側の処理は先に説明した処理内容と何ら変わることはない。復号された形状データ621に対応する画像データは、631となる。500の背景画像データと631の任意形状画像データを621の形状データに基づいて処理すると、合成後の画像データは641となる。復号された形状データ622に対応する画像データは、632となる。500の背景画像データと632の任意形状画像データを622の形状データに基づいて処理すると、合成画像642を得ることができる。同様に、500の背景画像データと633の任意形状画像データを623の形状データに基づいて処理すると、合成画像643を得ることができる。
上述したように、第1の実施形態に係る画像処理装置によれば、複数フレームで形状を統合して共通化することで、形状情報の符号量を抑えることが可能である。又、背景画像を補填することで、形状情報の拡大に伴う画像データの符号化効率の低下を最小限に抑えることが可能である。さらに、形状情報に関して共通化されたので、いったん算術符号で符号化するが、他のフレームでは動き補償が完全に一致するため、新たな符号が発生しないので、高速な処理が可能になる。
なお、本実施形態ではイントラフレーム間隔で形状情報の共通化を行ったが、これに限定されず、複数のイントラフレーム間隔単位で共通化を行ってももちろん構わない。また、オブジェクトの動きの大きさによって、その更新のタイミングを調整しても構わない。すなわち、動きが小さい状態から大きな状態に移行する場合、動きが小さな状態だけで形状データの共通化を行い、動きが大きくなったら、別に共通化を行うことも可能である。例えば、図5のフローチャートにおいて、ステップS1010の後に、前回の共通形状とその形状データを統合する前の共通形状とを比較するステップを設け、もしその大きさが大きく変化した場合にはステップS1012に進むことで実現が可能である。さらにはオブジェクトの動きについて動きベクトルを算出することで判断しても構わない。
<第2の実施形態>
図18は、第1の実施形態をコンピュータプログラムで実現する第2の実施形態のハードウエア構成例を示す。バス1801には、中央処理装置(CPU)1802、ROM1803、RAM1804、ネットワークインタフェース1805、入力装置1806、出力装置1807及び外部記憶装置1808が接続されている。
ROM1803には、予めCPU1802の制御手順(コンピュータプログラム)を記憶させておき、このコンピュータプログラムをCPU1802が実行することにより、起動する。外部記憶装置1808にコンピュータプログラムが記憶されており、そのコンピュータプログラムがRAM1804にコピーされてCPU1802により実行される。外部記憶装置1808は、例えばハードディスク記憶装置やCD−ROM等であり、電源を切っても記憶内容が消えない。RAM1804は、データの入出力、送受信のためのワークメモリ、各構成要素の制御のための一時記憶として用いられる。
CPU1802は、コンピュータプログラムを実行することにより、データの処理又は演算を行うと共に、バス1801を介して接続された各種構成要素を制御するものである。CPU1802は、コンピュータプログラムの実行により、上記のフローチャートの処理を行うことができる。
ネットワークインタフェース1805は、ネットワークに接続するためのインタフェースである。入力装置1806は、例えばキーボード、マウス等であり、各種指定又は入力等を行うことができる。出力装置1807は、ディスプレイ、スピーカー等である。
また、本実施形態の目的は、第1の実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
尚、第1及び第2の実施形態は、複数の機器(例えば、ホストコンピュータ、インタフェース機器、カメラ、ディスプレイ等)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、カムコーダ、遠隔監視装置等)に適用してもよい。
以上説明したように、第1及び第2の実施形態によれば、形状データを複数のフレームで共通化することで、汎用的な高能率符号化システムを実現することができる。
なお、上記実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
本発明の第1の実施形態における画像処理装置の構成を示すブロック図である。 復号化システムの構成を示すブロック図である。 本発明の第1の実施形態における形状データと画像データの処理について説明するための図である。 復号化システムにおける形状データと画像データの処理について説明するための図である。 本発明の第1の実施形態に係る形状データの生成・加工手順・背景補填を説明するためのフローチャートである。 本発明の第1の実施形態に係る形状データの修正手順を説明するためのフローチャートである。 本発明の第1の実施形態に係る背景補填部の構成を示すブロック図である。 本発明の第1の実施形態に係る符号化側の形状データと画像データの背景補填処理について説明するための図である。 従来例に係る符号化側の画像処理装置の構成を示すブロック図である。 従来例に係る復号化側の画像処理装置の構成を示すブロック図である。 従来例に係る符号化側の画像処理装置の構成を示すブロック図であり、特に画像分離部の処理について説明するための図である。 従来例に係る復号化側の画像処理装置の構成を示すブロック図であり、特に画像表示部の処理について説明するための図である。 従来例に係る符号化側の形状データと画像データの処理について説明するための図である。 従来例に係る復号化側の形状データと画像データの処理について説明するための図である。 任意形状画像符号化部の構成を示すブロック図である。 任意形状画像復号化部の構成を示すブロック図である。 セレクタの動作を説明するための図である。 本発明の第2の実施形態によるコンピュータプログラムで実現するハードウエア構成例を示すブロック図である。
符号の説明
101 画像分離部
103 形状データ生成部
104 形状加工部
105〜107 メモリ部
108 背景補填部
201 画像合成部
1801 バス
1802 CPU
1803 ROM
1804 RAM
1805 ネットワークインタフェース
1806 入力装置
1807 出力装置
1808 外部記憶装置
2101 画像入力部
2102 画像分離部
2103 形状データ生成部
2104 矩形画像符号化部
2105 任意形状画像符号化部
2106 多重化部
2201 分離部
2202 矩形画像復号化部
2203 任意形状画像復号化部
2204 画像合成部
2205 画像出力部

Claims (18)

  1. 複数のフレームから構成される動画像を入力する動画像入力手段と、
    入力した前記動画像の中から背景画像を分離する背景画像分離手段と、
    前記背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成手段と、
    複数のフレームの形状データから1種類の共通する形状データを生成する形状データ加工手段と、
    前記入力画像を前記共通形状データと共に任意形状画像として符号化する任意形状画像符号化手段と
    を備えることを特徴とする画像処理装置。
  2. 前記任意形状画像符号化手段は、
    前記形状データと前記共通形状データを比較する形状比較手段と、
    前記比較結果に応じて前記共通形状データを背景画像で補填する背景画像補填手段とを備え、
    補填された任意形状画像及び前記共通形状データを符号化することを特徴とする請求項1記載の画像処理装置。
  3. 前記形状データ加工手段は、複数のフレームの形状データの論理和をとることにより共通形状データを生成することを特徴とする請求項1又は2記載の画像処理装置。
  4. 前記共通形状データを前記任意形状画像符号化手段における形状データの処理単位に拡張するブロック化手段をさらに備えることを特徴とする請求項1〜3のいずれか1項に記載の画像処理装置。
  5. 前記共通形状データを正方形ブロック単位に拡張するブロック化手段をさらに備えることを特徴とする請求項1〜3のいずれか1項に記載の画像処理装置。
  6. 前記任意形状画像符号化手段は、フレーム内符号化とフレーム間符号化を切り替えて符号化することを特徴とする請求項1〜5のいずれか1項に記載の画像処理装置。
  7. 前記形状データ加工手段は、フレーム内符号化又はフレーム間符号化の符号化モードを取得する符号化モード取得手段を備え、フレーム内符号化のフレームから次のフレーム内符号化のフレームの前のフレームまでの形状データから1種類の共通形状データを生成することを特徴とする請求項6記載の画像処理装置。
  8. 前記形状データ加工手段は、一つの背景画像に対し、一つの形状データを生成し、これを共通の形状データとすることを特徴とする請求項1〜7のいずれか1項に記載の画像処理装置。
  9. 複数のフレームから構成される動画像を入力する動画像入力ステップと、
    入力した前記動画像の中から背景画像を分離する背景画像分離ステップと、
    前記背景画像とするフレーム及び入力画像のフレームを比較し、その差分値から形状データを生成する形状データ生成ステップと、
    複数のフレームの形状データから1種類の共通する形状データを生成する形状データ加工ステップと、
    前記入力画像を前記共通形状データと共に任意形状画像として符号化する任意形状画像符号化ステップと
    を備えることを特徴とする画像処理方法。
  10. 前記任意形状画像符号化ステップは、
    前記形状データと前記共通形状データを比較する形状比較ステップと、
    前記比較結果に応じて前記共通形状データを背景画像で補填する背景画像補填ステップとを備え、
    補填された任意形状画像及び前記共通形状データを符号化することを特徴とする請求項9記載の画像処理方法。
  11. 前記形状データ加工ステップは、複数のフレームの形状データの論理和をとることにより共通形状データを生成することを特徴とする請求項9又は10記載の画像処理方法。
  12. 前記共通形状データを前記任意形状画像符号化ステップにおける形状データの処理単位に拡張するブロック化ステップをさらに備えることを特徴とする請求項9〜11のいずれか1項に記載の画像処理方法。
  13. 前記共通形状データを正方形ブロック単位に拡張するブロック化ステップをさらに備えることを特徴とする請求項9〜11のいずれか1項に記載の画像処理方法。
  14. 前記任意形状画像符号化ステップは、フレーム内符号化とフレーム間符号化を切り替えて符号化することを特徴とする請求項9〜13のいずれか1項に記載の画像処理方法。
  15. 前記形状データ加工ステップは、フレーム内符号化又はフレーム間符号化の符号化モードを取得する符号化モード取得ステップを備え、フレーム内符号化のフレームから次のフレーム内符号化のフレームの前のフレームまでの形状データから1種類の共通形状データを生成することを特徴とする請求項14記載の画像処理方法。
  16. 前記形状データ加工ステップは、一つの背景画像に対し、一つの形状データを生成し、これを共通の形状データとすることを特徴とする請求項9〜15のいずれか1項に記載の画像処理方法。
  17. 請求項9〜16のいずれか1項に記載の画像処理方法のステップをコンピュータに実行させるためのプログラム。
  18. 請求項9〜16のいずれか1項に記載の画像処理方法のステップをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003418324A 2003-12-16 2003-12-16 画像処理装置、画像処理方法、プログラム及び記録媒体 Pending JP2005184114A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003418324A JP2005184114A (ja) 2003-12-16 2003-12-16 画像処理装置、画像処理方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003418324A JP2005184114A (ja) 2003-12-16 2003-12-16 画像処理装置、画像処理方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2005184114A true JP2005184114A (ja) 2005-07-07

Family

ID=34780564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003418324A Pending JP2005184114A (ja) 2003-12-16 2003-12-16 画像処理装置、画像処理方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2005184114A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007158510A (ja) * 2005-12-01 2007-06-21 Canon Inc 画像処理装置及びその制御方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007158510A (ja) * 2005-12-01 2007-06-21 Canon Inc 画像処理装置及びその制御方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体

Similar Documents

Publication Publication Date Title
JP4326743B2 (ja) 予測符号化オブジェクトベース画像信号を予測符号化ブロックベース画像信号にトランスコーディングするトランスコーディング方法およびトランスコーダ
JP4114885B2 (ja) 画像符号化装置、方法、及びプログラム
KR101906614B1 (ko) 모션 보상 예제 기반 초해상도를 사용하는 비디오 디코딩
JP2007180808A (ja) 映像符号化装置、映像復号化装置、及び映像符号化方法
JP2007174634A (ja) 階層符号化装置、階層復号化装置、階層符号化方法、階層復号方法、階層符号化プログラム及び階層復号プログラム
KR20060088461A (ko) 영상신호의 엔코딩/디코딩시에 영상블록을 위한 모션벡터를베이스 레이어 픽처의 모션벡터로부터 유도하는 방법 및장치
JPWO2009078150A1 (ja) 動画像符号化装置、方法、プログラム及び集積回路
US8798379B2 (en) Image processing method, encoding device, decoding device, and image processing apparatus
WO2008072500A1 (ja) 動画像符号化装置および動画像復号装置
JP5294688B2 (ja) 動画像圧縮符号化装置
JP2010183162A (ja) 動画像符号化装置
JP2006340183A (ja) 画像符号化装置及び画像符号化方法
JP4580880B2 (ja) 画像符号化装置、画像復号装置及び画像処理システム
JP4355914B2 (ja) 多視点画像伝送システムと方法、多視点画像圧縮装置と方法、多視点画像伸長装置と方法およびプログラム
JP2004357313A (ja) 画像情報処理装置及び画像情報処理方法
JP2006101440A (ja) 情報処理装置及び情報処理方法
JP3401762B2 (ja) 画像圧縮符号化・復号化方法、画像圧縮符号化・復号化装置、画像圧縮符号化伝送方法、画像圧縮符号化伝送システムおよび画像圧縮符号化・復号化プログラムを記録した記録媒体
JP2005184114A (ja) 画像処理装置、画像処理方法、プログラム及び記録媒体
JP4415186B2 (ja) 動画像符号化装置、動画像復号化装置、コーデック装置、および、プログラム
JP2005303738A (ja) 画像処理装置
WO2017104010A1 (ja) 動画像符号化装置および動画像符号化方法
JP2008011191A (ja) 映像符号化合成装置、映像符号化合成方法及び映像伝送システム
JP2005303739A (ja) 画像処理装置
JP2005175943A (ja) 画像処理装置、画像処理方法、コンピュータプログラム及び記録媒体
JP2010062881A (ja) 画像符号化方法及び画像復号装置