JP2006013754A

JP2006013754A - 動画像符号化装置及び動画像復号化装置

Info

Publication number: JP2006013754A
Application number: JP2004186046A
Authority: JP
Inventors: Yuji Wada; 田祐司和
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2004-06-24
Filing date: 2004-06-24
Publication date: 2006-01-12

Abstract

【課題】シーンチェンジのないテレビ電話システム等の動画像において、伝送情報量に一定の制限が付されている場合でも、符号化効率を向上させることにより画質の劣化が生じるのを防止すること。
【解決手段】符号量の小さな背景領域Ｓ11，Ｓ12，Ｓ13，Ｓ14の符号データを各フレームの動き領域Ｍ1〜Ｍ4の符号データに付加することにより合計符号量を小さくする。この背景領域Ｓ11，Ｓ12，Ｓ13，Ｓ14の符号データは背景領域Ｓ1の符号データを単純に符号量を基準として４分割したものである。復号化を行う際は、４フレーム目でＳ11，Ｓ12，Ｓ13，Ｓ14の全てが揃うので、５フレーム目でこれらの合計符号データを背景領域Ｓ1と等価な符号データとして復号化を行う。
【選択図】図２

Description

本発明は、テレビ電話システム、テレビ会議システム、遠隔監視装置などのディジタル映像通信機器に用いられる動画像符号化装置及び動画像復号化装置に関するものである。

映像信号の高能率符号化方式の規格として、国際電気通信連合電気通信標準化部門（International Telecommunication Union-Telecommunication Standardzation Sector,ITU-T）により、テレビ電話システム、又はテレビ会議システムを用途として標準化された「Ｈ．２６１」、「Ｈ．２６３］がある。これらの規格に係る方式はいずれも、画像の時間軸方向の相関性を利用して動き推定を行い、予測誤差を用いるものであるため、画像の持つパワーを小さくして情報量を圧縮することができる。また、画像を動き領域と背景領域とに分け、動き領域に注力して符号化することで符号化効率を上げたり（例えば、特許文献１参照）、背景領域として予め用意した画像を用い動き領域のみを符号化することで符号化効率を上げたりすることができる。

しかし、これらの符号化方式は、時間軸方向の情報を記憶する多くのメモリを持つ必要があるため高コストとなり、また符号化装置及び復号化装置の構成が複雑となる。更に、これらの方式では、データ伝送時に欠損した符号データが発生した場合、参照フレームを参照できなくなるために符号化することができず、画質が大きく損なわれてしまう虞がある。

一方、時間軸方向の相関性を用いずに、動画像の１枚１枚のフレームに対して独立した符号化処理（フレーム内符号化）を行う符号化方式として、ＤＶ（Digital Video）規格に係る方式、事実上の標準規格（デファクトスタンダード）となっているMotion-JPEGに係る方式、あるいはMotion-JPEG2000に係る方式などがある。

これらの方式のうち、Motion-JPEG2000は、ＤＶ規格やMotion-JPEGに比べて符号化効率が良く、また、注目領域（ROI：Region of Interest）のみを高画質化する機能を持つため（例えば、特許文献２参照）、オブジェクト領域等を注目領域として符号化することにより、画面上の重要な部分の画質をある程度のレベルに保持することが可能になっている。
特開平５−３１６４６５号公報特開２００１−８６５０６号公報

上記のように、Motion-JPEG2000をはじめとするフレーム内符号化方式は、全てのフレームにおいて独立した符号化処理を行うため、データ伝送中に欠損符号データが発生しても画質が著しく劣化することはない。

ところが、テレビ電話システムやテレビ会議システムなどで生成される画像は、固定された背景の前で人物の表情や手のみが動く画像であり、シーンチェンジも殆どない画像であるのが通常である。また、監視システムにおいて監視カメラで生成される画像も、動き領域が少なく且つシーンチェンジも殆どない画像であるのが通常である。したがって、これらのシステムにおける入力画像を符号化する場合は、動きのない背景領域に対しては前フレームの符号データを用いると共に一定のフレーム数間隔で新たな符号化処理を行うこととし、動き領域のみに対して全てのフレームで通常の符号化処理を行うようにしても実用上は何ら問題はないはずである。

それにもかかわらず、Motion-JPEG2000等のフレーム内符号化方式では、動き領域と背景領域とを区別することなく、全てのフレームにおいて独立した符号化処理を行っており、符号化効率の観点からは改善の余地を有するものであった。特に、伝送路容量の関係から伝送情報量に一定の制限が付されているような環境下では、少ない符号量で符号化処理を行わなければならないため、画質の劣化が生じるのを防ぐことが困難であった。

本発明は、上記事情に鑑みてなされたものであり、シーンチェンジのないテレビ電話システム等の動画像において、伝送情報量に一定の制限が付されている場合でも、符号化効率を向上させることにより画質の劣化が生じるのを防止することが可能な動画像符号化装置及び動画像復号化装置を提供することを目的としている。

上記課題を解決するための手段として、請求項１記載の発明は、動画像データを構成する複数フレームの静止画像データを順次入力し、この静止画像データについて動き領域を各フレーム毎に検出する動き領域検出手段と、前記動き領域検出手段が検出した動き領域を各フレーム毎に符号化する動き領域符号化手段と、前記動き領域検出手段が検出した動き領域を除いた領域を背景領域とし、この背景領域をＮ（Ｎは２以上の整数）フレーム毎に符号化する背景領域符号化手段と、前記背景領域符号化手段からの背景領域符号データを、符号量を基準としてＮ分割しＮ個の分割符号データを生成する背景領域符号データ分割手段と、前記背景領域符号データ分割手段からの各分割符号データを記憶する分割符号データ記憶手段と、前記動き領域符号化手段からの各フレーム毎の動き領域符号データに対して、前記分割符号データ記憶手段からの分割符号データをそれぞれ１つずつ付加する分割符号データ付加手段と、を備えたことを特徴とする。

請求項２記載の発明は、請求項１記載の発明において、前記動き領域には、オブジェクトの領域とオブジェクトの移動により現れた新たな背景領域とを合わせた領域、又は前記動画像データの撮像手段のパンニング若しくはズーミングにより現れた新たな背景領域が含まれる、ことを特徴とする。

請求項３記載の発明は、動画像データを構成する複数フレームの静止画像データについて動き領域と背景領域とを各フレーム毎に区分して、動き領域については各フレーム毎に符号化を行い動き領域符号データを得、背景領域についてはＮ（Ｎは２以上の整数）フレーム毎に符号化を行い背景領域符号データを得、更にこの背景領域符号データを符号量を基準としてＮ分割することによりＮ個の分割符号データを生成し、各フレーム毎の前記動き領域符号データに対して、前記分割符号データをそれぞれ１つずつ付加して得た符号データを順次入力する符号データ入力手段と、前記符号データ入力手段に入来した符号データを各フレーム毎に前記動き領域符号データと前記分割符号データとに分離する符号データ分離手段と、前記符号データ分離手段により分離された前記動き領域符号データを各フレーム毎に復号化する動き領域復号化手段と、前記動き領域復号化手段により復号化された動き領域画像を記憶する動き領域画像記憶手段と、前記符号データ分離手段により分離された各フレーム毎の前記分割符号データをＮ個蓄積する度に、これらＮ個の分割符号データを出力する分割符号データ蓄積手段と、前記分割符号データ蓄積手段からのＮ個の分割符号データを背景領域符号データとしてＮフレーム毎に復号化する背景領域復号化手段と、前記背景領域復号化手段により復号化された背景領域画像をＮフレーム毎に更新しながら記憶する背景領域画像記憶手段と、前記背景領域画像記憶手段に記憶されている背景領域画像、前記分割符号データがＮ個蓄積される期間中に前記動き領域画像記憶手段に記憶されたＮフレームの動き領域画像、及び前記Ｎフレームのうちの最新のフレームの次のフレーム以降の動き領域画像であって前記動き領域復号化手段により復号化された動き領域画像を、時系列順に順次上書き合成する画像合成手段と、を備えたことを特徴とする。

本発明によれば、画像領域を動き領域と背景領域とに分けて符号化すると共に、背景領域を複数に分割し、各フレームにおいては、動き領域符号データに背景領域の分割符号データを付加するようにしているので、符号化の際には１フレーム当たりの符号量を低減することができる。そして、復号化の際には、全ての分割符号データが揃ったときのフレームで背景領域の復号化処理を行い、その他のフレームではそれ以前に得られている背景領域を用いているので、シーンチェンジがほとんどなく且つ固定された背景領域を有する動画像については実用上問題のない程度に画質劣化を防止した復号化を行うことができる。

図１は、本発明の実施形態に係る動画像符号化装置の構成を示すブロック図である。この図に示すように、本装置は、図示を省略しているビデオカメラ等の画像データ出力手段又は伝送回路上から送られてくる動画像データを入力してこの動画像データを構成する複数フレームの静止画像データを順次出力する動画像入力手段１と、動画像入力手段１からの静止画像データを各フレーム毎に記憶する画像データ記憶手段２と、動画像入力手段１からの静止画像データを順次入力し、この静止画像データについて動き領域を各フレーム毎に検出する動き領域検出手段３と、動き領域検出手段３が検出した動き領域を各フレーム毎に符号化する動き領域符号化手段４と、記動き領域検出手段３が検出した動き領域を除いた領域を背景領域とし、この背景領域をＮ（Ｎは２以上の整数）フレーム毎に符号化する背景領域符号化手段５と、背景領域符号化手段５からの背景領域符号データを、符号量を基準としてＮ分割Ｎ個の分割符号データを生成する背景領域符号データ分割手段６と、背景領域符号データ分割手段６からの各分割符号データを記憶する分割符号データ記憶手段７と、動き領域符号化手段４からの各フレーム毎の動き領域符号データに対して、分割符号データ記憶手段７からの分割符号データをそれぞれ１つずつ付加する分割符号データ付加手段８と、分割符号データ付加手段８からの符号データを各フレーム毎に入力し、これを図示を省略している復号化装置などの外部装置に出力する符号データ出力手段９と、を備えている。

図２は、本発明の技術と従来技術とを対比して示した説明図であり、（ａ）は従来技術の内容、（ｂ）は本発明の基本的な考え方を示している。

例えば、図２（ａ）は動画像データを構成する静止画像データの１〜５フレーム目までを示しているが、従来のフレーム内符号化方式では、各フレームにおいて動き領域及び背景領域の全てについて独立した符号化を行っており、復号化の際も独立した復号化処理を行っている。そのため、各フレームの符号データの符号量が伝送情報量の制限値をオーバーし、このオーバー分の情報はカットされてしまうため、その分画質劣化が生じていた。

ここで、「背景領域」とは、テレビ電話システムやテレビ会議システムの場合は、壁、カーテン、あるいはガラス窓などの背景が写っている領域を指し、「動き領域」とは背景の前に座っている人物（オブジェクト）が写っている領域を指している。したがって、動き領域Ｍ1〜Ｍ5は人物の表情や体について多少の動きに基づく相違が見られるのが通常であり、背景領域Ｓ1〜Ｓ5はどれも殆ど同じであるのが通常である。

これに対し、本発明では、図２（ｂ）に示すように、符号量の小さな背景領域Ｓ11，Ｓ12，Ｓ13，Ｓ14の符号データを各フレームの動き領域Ｍ1〜Ｍ4の符号データに付加することにより、動き領域及び背景領域の合計符号量が伝送情報量の制限値をオーバーしないようにしている。この背景領域Ｓ11，Ｓ12，Ｓ13，Ｓ14の符号データは、図２（ａ）における背景領域Ｓ1の符号データを単純に符号量を基準として４分割したものである。そして、復号化を行う際は、４フレーム目でＳ11，Ｓ12，Ｓ13，Ｓ14の全てが揃うので、５フレーム目でこれらの合計符号データを背景領域Ｓ1と等価な符号データとして復号化を行うようにしている。

つまり、本発明は、図２（ａ）における各背景領域Ｓ1〜Ｓ5はどれも同一であると見なしても実用上は差し支えないのだから、復号化の際は１〜４フレーム目まではそれ以前に得られている背景領域を用いるようにし、５フレーム目で初めて背景領域Ｓ1と等価な背景領域Ｓ11，Ｓ12，Ｓ13，Ｓ14が得られるようにしても良いではないかという考えに基づいている。

なお、テレビ電話システムやテレビ会議システムでは、背景が固定されていることが多いが、背景にある程度の変化が観察されることもあり得る。しかし、上記の例では、背景領域を全くの固定領域として扱っているわけではなく、４フレーム毎に実際の入力画像データに基づく更新を行っているので、このような背景領域の変化に対しても実用上問題のない程度に対処することが可能になっている。

次に、図１の動作を図３のフローチャートに基づき説明する。ここで、本発明では、背景領域の分割数をＮ個（Ｎは２以上の整数）とすると、この背景領域の符号化はＮフレーム毎に行われることになるが、本実施形態ではＮ＝４の場合、すなわち背景領域を４つに分割し、この背景領域を４フレーム毎に符号化する場合を例に取り説明する。

まず、動画像入力手段１が動画像データを構成する複数フレームのうちの初回フレームを今回フレームとして静止画像データを入力すると共に、画像データ記憶手段２がこの静止画像データを記憶する（ステップ１）。

動き領域検出手段３は、動画像入力手段１からの静止画像データを今回フレームのデータとして入力すると共に、画像データ記憶手段２に記憶されている静止画像データを前回フレームのデータとして入力し、両者の差に基づき動き領域を検出するものである。しかし、初回フレームの場合は前回フレームが存在しないため動き領域を検出することができないので、動き領域検出手段３は入力した静止画像データが初回フレームのものであるか否かを判別する（ステップ２）。この場合は第１回目のフレームであるから、動き領域検出手段３は初回フレームすなわち「ＹＥＳ」であると判別する。

背景領域符号化手段５は、動き領域検出手段３が初回フレームと判別したことを受けて今回フレームの全領域を背景領域と判別し（ステップ３）、背景領域の符号化を行う（ステップ４）。そして、背景領域符号データ分割手段６は、背景領域符号化手段５の符号化により生成された符号データを４分割し（ステップ５）、分割符号データ記憶手段７は、その４つの分割符号データを記憶する（ステップ６）。

なお、本実施形態では、符号化方式がMotion-JPEG2000であることを想定しており、レイヤー構造を用いて符号化するようにしている。したがって、本実施形態では４個のレイヤーを用いて符号化を行い、分割時も容易に４分割を行えるようにしている。

次いで、分割符号データ付加手段８も、今回フレームが初回フレームであることを判別するが（ステップ７）、初回フレームであれば動き領域がまだ存在しないので、分割符号データ記憶手段７に記憶されている４つの分割符号データのうちの１つのみを符号データ出力手段９に送出する。符号データ出力手段９は、分割符号データ付加手段８からの１つの分割符号データを復号化装置などの外部装置に出力する（ステップ８）。符号データ出力手段９は、今回フレームの出力を行った後、全フレームの出力を終了したか否かを判別するが（ステップ９）、この場合はまだ終了していないのでステップ１の処理に戻ることになる。

したがって、動画像入力手段１は今回フレームとして今度は第２フレーム目の静止画像データを入力し、画像データ記憶手段２はこれを記憶する（ステップ１）。そして、動き領域検出手段３は、ステップ２において今度は「ＮＯ」と判別し、動画像入力手段１からの今回フレームのデータと画像データ記憶手段２からの前回フレームのデータとの比較に基づき動き領域を検出する（ステップ１０，１１）。

ここで、動き領域の検出の仕方について説明すると、例えば、前回フレームとの間で、予め設定してある閾値よりも差の大きな画素値が今回フレームの中に有れば、そのような画素の集合領域を動き領域とする。この場合、この領域の中に「非動き画素」が有ればこの画素も動き領域の中に含めてよい。また、符号化方式の特性を考慮し、安全を見て得られた動き領域を数画素分広げるようにしてもよい。更に、動き領域は１フレーム中に複数領域現れても差し支えない。

次いで、背景領域符号化手段５は、今回フレームが所定フレーム目のものであるか否かを判別する（ステップ１２）。「所定フレーム目」とは、第１フレーム目を除いた第５フレーム目、第９フレーム目、第１３フレーム目、…等の４つ毎のフレームを指している。この場合は、今回フレームは第２フレーム目であるため、ステップ１２の判別結果は「ＮＯ」であり、背景領域の符号化は行わない。

そして、動き領域符号化手段４は、動き領域符号化手段４が検出した動き領域に対して符号化を行う。（ステップ１３）。この場合、既述したように、本実施形態ではMotion-JPEG2000に基づき符号化を行うことを想定しており、動き領域を注目領域（ROI領域）として符号化する。Motion-JPEG2000以外の符号化方式では、検出した動き領域以外の領域については、動き領域の符号化に影響を及ぼさないように、画素の値を「１２８」（ダイナミックレンジの半分の値）や「０」で置き換えるようにすると良い。

分割符号データ付加手段８は、分割符号データ記憶手段７から前回取り出したデータ以外の分割符号データを取り出し、これを動き領域符号化手段４からの動き領域符号データに付加して符号データ出力手段９に送出する（ステップ１４）。この場合、分割符号データは動き領域符号データの最終識別子（EOC：End of Codestream）の後に付加される。したがって、復号化の際には、動き領域符号データとを分割符号データとを識別し、動き領域符号データのみに対して復号化を行うことが可能になっている。符号データ出力手段９は、このような動き領域符号データ及び分割符号データを外部装置に出力する（ステップ８）。

符号データ出力手段９は、また、前回と同様に今回フレームの出力を行った後、全フレームの出力を終了したか否かを判別するが（ステップ９）、この場合もまだ終了していないのでステップ１の処理に戻ることになる。

この後、第３フレーム目及び第４フレーム目については、上記の第２フレーム目と同様の処理が行われ、背景領域の符号化は行われない。しかし、第５フレーム目になると、ステップ１，２，１０，１１の各処理が行われた後、ステップ１２の判別結果が「ＹＥＳ」となるので、背景領域の符号化（ステップ４）、背景領域符号データの分割（ステップ５）、分割符号データの記憶（ステップ６）等の処理が行われる。なお、ステップ７の判別結果は、これ以降常に「ＮＯ」となる。したがって、この後は第２〜第４フレーム目と同様の処理が行われる（ステップ１３，１４，８，９）。

このようにして、これ以降のフレームの処理も同様にして順次繰り返し行われる。そして、最後のフレームに係る動き領域符号データ及び分割符号データを符号データ出力手段９が外部装置に出力すると、ステップ９における判別結果が「ＹＥＳ」となり、全てのフレームのデータに対する処理が終了する。

上述した符号化においては、符号データ出力手段９から出力される符号データのデータ量が従来に比べて大きく低減されたものとなっている。これは、動き領域符号データに付加される分割符号データが全体の背景領域の符号データの４分の１のデータ量となっているためである。したがって、従来のように伝送情報量の制限値をオーバーすることがなく、復号化の際の画質劣化が生じるのを防止できる符号化が可能になっている。

図４は、本発明の実施形態に係る動画像復号化装置の構成を示すブロック図である。この図に示すように、本装置は、例えば、図１に示した符号データ出力手段９から符号データを順次入力する符号データ入力手段４１と、符号データ入力手段４１に入来した符号データを各フレーム毎に動き領域符号データと分割符号データとに分離する符号データ分離手段４２と、符号データ分離手段４２により分離された動き領域符号データを各フレーム毎に復号化する動き領域復号化手段４３と、動き領域復号化手段４３により復号化された動き領域画像を記憶する動き領域画像記憶手段４４と、符号データ分離手段４２により分離された各フレーム毎の分割符号データをＮ個蓄積する度に、これらＮ個の分割符号データを出力する分割符号データ蓄積手段４５と、分割符号データ蓄積手段４５からのＮ個の分割符号データを背景領域符号データとしてＮフレーム毎に復号化する背景領域復号化手段４６と、背景領域復号化手段４６により復号化された背景領域画像をＮフレーム毎に更新しながら記憶する背景領域画像記憶手段４７と、背景領域画像記憶手段４７に記憶されている背景領域画像、分割符号データがＮ個蓄積される期間中に動き領域画像記憶手段４４に記憶されたＮフレームの動き領域画像、及びＮフレームのうちの最新のフレームの次のフレーム以降の動き領域画像であって動き領域復号化手段４３により復号化された動き領域画像を、時系列順に順次上書き合成する画像合成手段４８と、画像合成手段４８により合成された合成画像を各フレーム毎に順次入力し、これを動画像データとして外部に出力する動画像データ出力手段４９と、を備えている。

上記の符号データ入力手段４１が入力する符号データは、図１に示した符号化装置が、動画像データを構成する複数フレームの静止画像データについて動き領域と背景領域とを各フレーム毎に区分して、動き領域については各フレーム毎に符号化を行い動き領域符号データを得、背景領域についてはＮ（Ｎは２以上の整数）フレーム毎に符号化を行い背景領域符号データを得、更にこの背景領域符号データを符号量を基準としてＮ分割することによりＮ個の分割符号データを生成し、各フレーム毎の前記動き領域符号データに対して、前記分割符号データをそれぞれ１つずつ付加して得たものである。

次に、図４の動作を図５のフローチャートに基づき説明する。まず、符号データ入力手段４１が図１の符号データ出力手段９から初回フレームを入力したとする（ステップ５１）。符号データ分離手段４２は、入力フレームが初回フレームであるか否かを判別し（ステップ５２）、初回フレームであれば符号化の説明において既述したように、符号データ中に動き領域が含まれていないので分割符号データのみを分割符号データ蓄積手段４５に送出する。分割符号データ蓄積手段４５は、この送られてきた分割符号データを蓄積する（ステップ５３）。初回フレームの場合は、この分割符号データの蓄積のみが行われ、動画像データ出力手段４９は再生装置などの外部装置へ動画像データの出力を行わない（このフローチャートの例では、初回フレームの分割符号データについては蓄積のみ行い、復号化をしない例について説明しているが、初回フレームの分割符号データであっても復号化することは技術的には可能である。）。

そして、動画像データ出力手段４９は全ての入力符号データに対する復号化処理が終了したか否かを判別する（ステップ５４）。この場合は、勿論まだ終了していないのでステップ５１に戻ることになる。

次いで、符号データ入力手段４１は第２フレーム目の符号データを入力し（ステップ５１）、符号データ分離手段４２は初回フレームではない旨を判別する（ステップ５２）。この第２フレーム目の符号データは、動き領域符号データ及び分割符号データである。したがって、符号データ分離手段４２は、符号データ入力手段４１からの符号データを動き領域符号データと分割符号データとに分離する（ステップ５５）。なお、当然のことながら、ステップ５２の判別結果が「ＹＥＳ」となるのは第１フレーム目の場合のみであり、第２フレーム目以降は常にステップ５２の判別結果は「ＮＯ」となる。

動き領域復号化手段４３は、符号データ分離手段４２が分離した動き領域符号データに対して復号化を行い（ステップ５６）、動き領域画像記憶手段４４はこの動き領域復号化手段４３の復号化により得られた動き領域画像を記憶する（ステップ５７）。一方、分割符号データ蓄積手段４５は、符号データ分離手段４２により分離された分割符号データを蓄積する（ステップ５８）。

次いで、背景領域復号化手段４６は、今回フレームが所定フレーム目のものであるか否かを判別する（ステップ５９）。この判別は、図３のステップ１２における背景領域符号化手段５の判別と同様のものである。つまり、「所定フレーム目」とは、第１フレーム目を除いた第５フレーム目、第９フレーム目、第１３フレーム目、…等の４つ毎のフレームを指している。この場合は、今回フレームは第２フレーム目であるため、ステップ５９の判別結果は「ＮＯ」であり、背景領域の復号化は行わず、その復号化画像の記憶処理も行われない。

この後、画像合成手段４８は、今回フレームより前のフレームに係る記憶画像が存在するかどうかを判別する（ステップ６０）。記憶画像とは、動き領域画像記憶手段４４に記憶されている動き領域画像又は背景領域画像記憶手段４７に記憶されている背景領域画像である。この場合は、前回フレームが初回フレームであり、動き領域画像記憶手段４４にも背景領域画像記憶手段４７のいずれにも記憶画像は存在していないので、ステップ６０の判別結果は「ＮＯ」である。したがって、画像合成手段４８は画像合成を行わず、動き領域復号化手段４３が復号化した動き領域画像をそのまま動画像データ出力手段４９に送出する。動画像データ出力手段４９は、この動き領域画像のみの出力を行い（ステップ６３）、ステップ５４で「ＮＯ」の判別を行う。そして、再びステップ５１に戻る。なお、ステップ６０の判別結果が「ＮＯ」となるのは第２フレーム目だけであり、第３フレーム目以降は常にステップ６０の判別結果は「ＹＥＳ」となる。

第３フレーム目の場合も、第２フレーム目の場合と同様に、ステップ５１，５２，５５，５６，５７，５８の処理が行われるが、ステップ５９で「ＮＯ」の判別が行われた後のステップ６０での判別は「ＹＥＳ」となる。第２フレーム目では、まだ背景領域画像記憶手段４７に背景領域記憶画像は存在しないものの、動き領域画像記憶手段４４には既に第２フレーム目の動き領域画像が記憶されているからである。したがって、画像合成手段４８は第３フレーム目の動き領域画像と第２フレーム目の動き領域記憶画像との合成を行う（ステップ６４）。つまり、画像合成手段４８は、動き領域画像記憶手段４４から取り出した第２フレーム目の動き領域画像に対して、動き領域復号化手段４３からの第３フレーム目の動き領域画像を上書き合成する。動画像データ出力手段４９は、この合成画像の出力を行い（ステップ６５）、ステップ５４で「ＮＯ」の判別を行う。そして、再びステップ５１に戻る。

第４フレーム目の場合も、第３フレーム目の場合と同様に、ステップ５１，５２，５５，５６，５７，５８、５９，６０，６４，６５，５４の処理が行われ、再びステップ５１に戻る。但し、ステップ６４で画像合成手段４８が行う処理は、第４フレーム目の動き領域画像と第３フレーム目及び第２フレーム目の動き領域記憶画像との合成である。つまり、画像合成手段４８は、時系列順に動き領域画像記憶手段４４から最初に第２フレーム目の動き領域記憶画像を取り出した後、これに第３フレーム目の動き領域記憶画像を上書き合成し、更に、その後これに動き領域復号化手段４３からの第４フレーム目の動き領域画像を上書き合成する。動画像データ出力手段４９は、この合成画像の出力を行い（ステップ６５）、ステップ５４で「ＮＯ」の判別を行う。そして、再びステップ５１に戻る。

第５フレーム目の場合は、ステップ５１，５２，５５，５６，５７，５８までは第２フレーム目乃至第４フレーム目と同様の処理が行われるが、ステップ５９での判別結果が「ＹＥＳ」となる。つまり、第４フレーム目で既に背景領域全体を構成し得る４つの分割符号データが揃っているので、分割符号データ蓄積手段４５はこの４つの分割符号データを背景領域復号化手段４６に出力する。背景領域復号化手段４６は、この４つの分割符号データの復号化を行い（ステップ６１）、背景領域画像記憶手段４７はその復号化された背景領域画像を記憶する（ステップ６２）。この後、画像合成手段４８は、再度ステップ６０の判別を行い、その判別結果を「ＹＥＳ」とする。

次いで、画像合成手段４８は、動き領域復号化手段４３からの第５フレーム目の動き領域画像と、背景領域画像記憶手段４７及び動き領域画像記憶手段４４からの前の記憶画像との合成を行う（ステップ６４）。つまり、画像合成手段４８は、背景領域画像記憶手段４７から背景領域記憶画像を取り出した後、これに動き領域画像記憶手段４４から取り出した第２乃至第４フレーム目の動き領域記憶画像を時系列順に順次上書き合成し、更に、その後これに動き領域復号化手段４３からの第５フレーム目の動き領域画像（動き領域画像記憶手段４４に記憶された４つのフレームのうちの最新のフレームである第４フレーム目の次のフレーム以降の動き領域画像である）を上書き合成する。動画像データ出力手段４９は、この合成画像の出力を行い（ステップ６５）、ステップ５４で「ＮＯ」の判別を行う。そして、再びステップ５１に戻る。

以下、同様にして、第６乃至第８フレーム目の場合は、第３及び第４フレーム目の場合と同様に、ステップ５１，５２，５５，５６，５７，５８、５９，６０，６４，６５，５４の処理が行われた後、再びステップ５１に戻る。第９フレーム目の場合は、第５フレーム目の場合と同様に、ステップ５１，５２，５５，５６，５７，５８、５９，６１，６２，６０，６４，６５，５４の処理が行われた後、再びステップ５１に戻る。そして、最終フレーム目において、ステップ５４での判別結果が「ＹＥＳ」となって全ての処理が終了する。

上述した復号化においては、伝送情報量の制限値をオーバーしないように、符号データ入力手段４１が各フレーム毎に入力する符号データは、動き領域符号データ及びこれに付加される分割符号データの符号量の小さなものである。そして、背景領域画像が復号化されるのは第５フレーム目、第９フレーム目、第１３フレーム目等の４フレーム毎の所定フレームだけである。しかし、テレビ電話システムやテレビ会議システム、あるいは監視システムなどでは、背景領域は固定されたものであり、また、シーンチェンジも殆どないのが通常であるため、このような一定のフレーム数間隔での復号化でも実用上は何ら問題が生じることがない。

図６は、上述した図３及び図５のフローチャートに係る処理内容をイメージ化した説明図であり、（ａ）は動画像データを構成する各フレームの静止画像データの入力タイミングを示し、（ｂ）は各フレームにおける符号化のタイミング及びその内容を示し、（ｃ）は各フレームについて伝送される符号データを示し、（ｄ）は各フレームにおける復号化のタイミング及びその内容をレイヤー構造を用いて示している。なお、これらの図において、大文字のアルファベットＡ，Ｂ，Ｃ，Ｄ，…は各フレームの動き領域画像（例えば、人物の画像）を示し、小文字のアルファベットａ，ｂ，ｃ，ｄ，…は所定フレームにおける背景（例えば、人物の後ろ側の壁等）領域を分割して得られる分割符号データを示している。この図６を用いて、各フレームにおける処理内容を簡単に説明する。

第１フレーム目の静止画像データが符号化装置に入力されると、符号化装置は全領域を背景領域として符号化を行い、分割符号データａ，ｂ，ｃ，ｄを生成する。この第１フレーム目の分割符号データａ，ｂ，ｃ，ｄは、本来は動き領域となる人物も背景領域に含めて分割したものであり、動き領域Ａを囲む点線は実際にはこの動き領域Ａが存在しないことを示している。そして、伝送路上には分割符号データａのみが送られる。復号化装置では、この分割符号データａの蓄積のみが行われ、復号化は行わない（この復号化装置の例では分割符号データａの復号化は行っていないが、技術的には行うことは可能である）。

第２フレーム目の静止画像データが符号化装置に入力されると、今度は前回フレームの画像データが存在するので、符号化装置は動き領域Ｂを符号化する。伝送路上には、動き領域Ｂ及びこれに付加された分割符号データｂが送られる。復号化装置では、動き領域Ｂを第１レイヤーを用いて復号化すると共に、分割符号データｂを蓄積する。

第３フレーム目の静止画像データが符号化装置に入力されると、符号化装置は動き領域Ｃを符号化する。伝送路上には、動き領域Ｃ及びこれに付加された分割符号データｃが送られる。復号化装置では、第１レイヤーの動き領域Ｂに対して第２レイヤーの動き領域Ｃを上書き合成して復号化すると共に、分割符号データｃを蓄積する。

第４フレーム目の静止画像データが符号化装置に入力されると、符号化装置は動き領域Ｄを符号化する。伝送路上には、動き領域Ｄ及びこれに付加された分割符号データｄが送られる。復号化装置では、第１及び第２レイヤーの動き領域Ｂ，Ｃに対して第３レイヤーの動き領域Ｄを上書き合成して復号化すると共に、分割符号データｄを蓄積する。

第５フレーム目の静止画像データが符号化装置に入力されると、符号化装置は、背景領域を符号化した後、これを４分割して分割符号データｅ，ｆ，ｇ，ｈを生成すると共に、動き領域Ｅを符号化する。伝送路上には、動き領域Ｅ及びこれに付加された分割符号データｅが送られる。復号化装置では、記憶されている分割符号データａ，ｂ，ｃ，ｄを背景領域Ｚ1として復号化を行うと共に、この第１レイヤーの背景領域Ｚ1に対して動き領域Ｂ，Ｃ，Ｄを時系列順に上書き合成して得られる第２レイヤーの画像Ｙ1を上書き合成する。そして、この第２レイヤーの画像Ｙ1に対して更に第３レイヤーの動き領域Ｅを上書き合成して復号化すると共に、分割符号データｅを蓄積する。このように、第１〜第４フレームの分割符号データａ，ｂ，ｃ，ｄは、第５フレーム目で初めて背景領域として復号化され顕在化する。

第６フレーム目の静止画像データが符号化装置に入力されると、符号化装置は動き領域Ｆを符号化する。伝送路上には、動き領域Ｆ及びこれに付加された分割符号データｆが送られる。復号化装置では、第１レイヤーの背景領域Ｚ1、第２レイヤーの画像Ｙ1、第３レイヤーの動き領域Ｅ、第４レイヤーの動き領域Ｆを時系列順に順次上書き合成して復号化すると共に、分割符号データｆを蓄積する。

第７フレーム目の静止画像データが符号化装置に入力されると、符号化装置は動き領域Ｇを符号化する。伝送路上には、動き領域Ｇ及びこれに付加された分割符号データｇが送られる。復号化装置では、第１レイヤーの背景領域Ｚ1、第２レイヤーの画像Ｙ1、第３レイヤーの動き領域Ｅ、第４レイヤーの動き領域Ｆ、第５レイヤーの動き領域Ｇを時系列順に順次上書き合成して復号化すると共に、分割符号データｇを蓄積する。

第８フレーム目の静止画像データが符号化装置に入力されると、符号化装置は動き領域Ｈを符号化する。伝送路上には、動き領域Ｈ及びこれに付加された分割符号データｈが送られる。復号化装置では、第１レイヤーの背景領域Ｚ1、第２レイヤーの画像Ｙ1、第３レイヤーの動き領域Ｅ、第４レイヤーの動き領域Ｆ、第５レイヤーの動き領域Ｇ、第６レイヤーの動き領域Ｈを時系列順に順次上書き合成して復号化すると共に、分割符号データｈを蓄積する。

第９フレーム目の静止画像データが符号化装置に入力されると、符号化装置は、背景領域を符号化した後、これを４分割して分割符号データｉ，ｊ，ｋ，ｌを生成すると共に、動き領域Ｉを符号化する。伝送路上には、動き領域Ｉ及びこれに付加された分割符号データｉが送られる。復号化装置では、記憶されている分割符号データｅ，ｆ，ｇ，ｈを背景領域Ｚ2として復号化を行うと共に、この第１レイヤーの背景領域Ｚ2に対して動き領域Ｅ，Ｆ，Ｇ，Ｈを時系列順に上書き合成して得られる第２レイヤーの画像Ｙ2を上書き合成する。そして、この第２レイヤーの画像Ｙ2に対して更に第３レイヤーの動き領域Ｉを上書き合成して復号化すると共に、分割符号データｉを蓄積する。このように、第５〜第８フレームの分割符号データｅ，ｆ，ｇ，ｈは、第９フレーム目で初めて背景領域として復号化され顕在化する。

以下同様にして、第１０フレーム目以降の静止画像データについて符号化及び復号化が行われる。ここで、上記の復号化の内容につき振り返ってみると、１フレーム目では全く復号化が行われておらず、２〜４フレーム目では動き領域のみにつき復号化が行われて背景領域は復号化されていないため画質が劣化したものである。また、５〜８フレーム目において、背景領域Ｚ1は分割符号データａ，ｂ，ｃ，ｄに基づき得られたものであるが、これらの分割符号データは、本来であれば動き領域となるべき人物をも含めてしまったものになっている。

したがって、１〜８フレーム目までの復号化により得られる画像は、正確には正規の処理に基づくものとは言えないものである。しかし、これらの画像が現れるのは当初の短時間のみであり、第９フレーム目以降は常に正規の処理に基づく画像が得られるので実用的には支障ないものと言える。

次に、上記実施形態における動き領域について図７及び図８を参照しつつ補足説明を加える。いま、図７（ａ）に示すように、あるフレームにおける画像が、壁Ｗ（背景領域）の前に人物Ｍ（動き領域）が立っているものであるとする。この後、この人物Ｍがやや右に移動したとし、そのときの画像を得ようとした場合に、右に移動した人物Ｍだけを動き領域とし、これを前のフレームの壁Ｗと合成したのでは、図７（ｂ）に示すように、前のフレームにおいてのみ人物Ｍとなっていた領域Ｒのデータが抜け落ちてしまいその部分の画質が劣化することになる。そこで、このような場合には、図７（ｃ）に示すように、今回フレームでは移動後の人物Ｍの領域と移動前の人物Ｍの領域との双方を合わせた領域を動き領域とすることにする。これにより、図７（ｄ）に示すように、領域Ｒについても壁Ｗの部分が補充された、画質劣化の生じない自然な画像を得ることができる。

図７の場合は、画面中の人物Ｍ（オブジェクト）が移動した場合を例に取り説明したが、同様のことはカメラがパンニングやズーミングを行った場合についても言えることである。例えば、図８（ａ）に示すように、あるフレームにおける画像が、風景Ｑをバックにして建物Ｐが立っているものであるとし、この後、カメラが左にパンしたとする。すると、画面中には、前のフレームでは写っていなかった風景領域Ｑ1が新たに現れることになる。したがって、この場合もこの新たな領域Ｑ1を動き領域として符号化することにすれば、画質劣化の生じない自然な画像を得ることができる。

以上説明したように、本発明に係る動画像符号化装置及び動画像復号化装置によれば、シーンチェンジのないテレビ電話システム等の動画像において、伝送情報量に一定の制限が付されている場合でも、符号化効率を向上させることにより画質の劣化が生じるのを極力防止することが可能となる。

なお、上記した動画像符号化装置及び動画像復号化装置の各機能は、プログラムによりコンピュータで実現させることができる。このプログラムは、記録媒体の読取によりコンピュータに取り込まれてもよいし、通信ネットワークを介した伝送によりコンピュータに取り込まれてもよい。

本発明の実施形態に係る動画像符号化装置の構成を示すブロック図。本発明の技術と従来技術とを対比して示した説明図であり、（ａ）は従来技術の内容、（ｂ）は本発明の基本的な考え方を示している。図１の動作を説明するためのフローチャート。本発明の実施形態に係る動画像復号化装置の構成を示すブロック図。図５の動作を説明するためのフローチャート。図３及び図５のフローチャートに係る処理内容をイメージ化した説明図であり、（ａ）は動画像データを構成する各フレームの静止画像データの入力タイミングを示し、（ｂ）は各フレームにおける符号化のタイミング及びその内容を示し、（ｃ）は各フレームについて伝送される符号データを示し、（ｄ）は各フレームにおける復号化のタイミング及びその内容をレイヤー構造を用いて示している。本発明の実施形態における動き領域についての補足説明図であり、（ａ）はあるフレームにおける画像、（ｂ）は人物Ｍがやや右に移動し領域Ｒのデータが抜け落ちた場合を示す画像、（ｃ）は移動後の人物Ｍの領域と移動前の人物Ｍの領域との双方を合わせた領域を動き領域とすることについて示した画像、（ｄ）は領域Ｒについても壁Ｗの部分が補充され画質劣化の生じない自然なものにしたことを示す画像である。本発明の実施形態における動き領域についての補足説明図であり、（ａ）はあるフレームにおける画像、（ｂ）はその後カメラが左にパンしたときに、画質劣化の生じない自然な画像を得るために新たな領域Ｑ1を動き領域として符号化することを示した画像。

符号の説明

１動画像入力手段
２画像データ記憶手段
３動き領域検出手段
４動き領域符号化手段
５背景領域符号化手段
６背景領域符号データ分割手段
７分割符号データ記憶手段
８分割符号データ付加手段
９符号データ出力手段
４１符号データ入力手段
４２符号データ分離手段
４３動き領域復号化手段
４４動き領域画像記憶手段
４５分割符号データ蓄積手段
４６背景領域復号化手段
４７背景領域画像記憶手段
４８画像合成手段
４９動画像データ出力手段

Claims

動画像データを構成する複数フレームの静止画像データを順次入力し、この静止画像データについて動き領域を各フレーム毎に検出する動き領域検出手段と、
前記動き領域検出手段が検出した動き領域を各フレーム毎に符号化する動き領域符号化手段と、
前記動き領域検出手段が検出した動き領域を除いた領域を背景領域とし、この背景領域をＮ（Ｎは２以上の整数）フレーム毎に符号化する背景領域符号化手段と、
前記背景領域符号化手段からの背景領域符号データを、符号量を基準としてＮ分割しＮ個の分割符号データを生成する背景領域符号データ分割手段と、
前記背景領域符号データ分割手段からの各分割符号データを記憶する分割符号データ記憶手段と、
前記動き領域符号化手段からの各フレーム毎の動き領域符号データに対して、前記分割符号データ記憶手段からの分割符号データをそれぞれ１つずつ付加する分割符号データ付加手段と、
を備えたことを特徴とする動画像符号化装置。
前記動き領域には、オブジェクトの領域とオブジェクトの移動により現れた新たな背景領域とを合わせた領域、又は前記動画像データの撮像手段のパンニング若しくはズーミングにより現れた新たな背景領域が含まれる、
ことを特徴とする請求項１記載の動画像符号化装置。
動画像データを構成する複数フレームの静止画像データについて動き領域と背景領域とを各フレーム毎に区分して、動き領域については各フレーム毎に符号化を行い動き領域符号データを得、背景領域についてはＮ（Ｎは２以上の整数）フレーム毎に符号化を行い背景領域符号データを得、更にこの背景領域符号データを符号量を基準としてＮ分割することによりＮ個の分割符号データを生成し、各フレーム毎の前記動き領域符号データに対して、前記分割符号データをそれぞれ１つずつ付加して得た符号データを順次入力する符号データ入力手段と、
前記符号データ入力手段に入来した符号データを各フレーム毎に前記動き領域符号データと前記分割符号データとに分離する符号データ分離手段と、
前記符号データ分離手段により分離された前記動き領域符号データを各フレーム毎に復号化する動き領域復号化手段と、
前記動き領域復号化手段により復号化された動き領域画像を記憶する動き領域画像記憶手段と、
前記符号データ分離手段により分離された各フレーム毎の前記分割符号データをＮ個蓄積する度に、これらＮ個の分割符号データを出力する分割符号データ蓄積手段と、
前記分割符号データ蓄積手段からのＮ個の分割符号データを背景領域符号データとしてＮフレーム毎に復号化する背景領域復号化手段と、
前記背景領域復号化手段により復号化された背景領域画像をＮフレーム毎に更新しながら記憶する背景領域画像記憶手段と、
前記背景領域画像記憶手段に記憶されている背景領域画像、前記分割符号データがＮ個蓄積される期間中に前記動き領域画像記憶手段に記憶されたＮフレームの動き領域画像、及び前記Ｎフレームのうちの最新のフレームの次のフレーム以降の動き領域画像であって前記動き領域復号化手段により復号化された動き領域画像を、時系列順に順次上書き合成する画像合成手段と、
を備えたことを特徴とする動画像復号化装置。