JP5063548B2

JP5063548B2 - 符号化装置および符号化方法

Info

Publication number: JP5063548B2
Application number: JP2008246592A
Authority: JP
Inventors: 大輔坂本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-09-25
Filing date: 2008-09-25
Publication date: 2012-10-31
Anticipated expiration: 2028-09-25
Also published as: JP2010081240A

Description

本発明は、動画像を符号化する符号化装置および符号化方法に関し、特には、画面内を複数の領域に分割して符号化する符号化装置および符号化方法に関する。

近年では、動画像データの高解像度化が進み、従来から用いられる７２０画素×４８０画素の映像に対して、例えば地上デジタル放送では、フルハイビジョン映像と呼ばれる１９２０画素×１０８０画素の映像が用いられることが多くなっている。このような高解像度の動画像データは、単位時間当たりに伝送されるデータ量も膨大なものになるため、従来の技術に対してより高能率な圧縮符号化技術が求められている。

これらの要求に対し、ＩＴＵ−ＴＳＧ１６やＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１の活動で、画像間の相関を利用したフレーム間予測を用いた符号化圧縮方式の標準化作業が進められている。この中でも、現状で最も高能率な符号化を実現しているといわれる符号化方式に、Ｈ．２６４／ＭＰＥＧ−４ＰＡＲＴ１０（ＡＶＣ）（以下、Ｈ．２６４と呼ぶ）がある。Ｈ．２６４の符号化および復号化の仕様については、例えば特許文献１などに記載されている。

従来から動画像データの圧縮符号化に用いられるＭＰＥＧ２方式では、１フレームまたは１フィールドをマクロブロックと呼ばれる所定画素数の領域に分割し、マクロブロックを単位にして、動き補償を用いた予測符号化や直交変換処理、量子化処理を施す。量子化処理に用いた量子化パラメータは、マクロブロック毎に順次差分を取られ、この差分が符号化される。Ｈ．２６４｜ＡＶＣ方式では、上述の従来の方式に対し、直交変換処理をアダマール変換および整数精度ＤＣＴを用いて行うことにより誤差の蓄積を抑制する。それと共に、フレーム内予測符号化および動き補償を用いたフレーム間予測符号化とを行い、より精度の高い予測符号化を実現している。

また、Ｈ．２６４では、あるマクロブロックに対して符号化を行う場合、符号化対象のマクロブロックに対して左横、左斜上、真上および右斜上にそれぞれ位置する４つのマクロブロックの処理結果を参照することができる。これにより、より適切な予測を行うことができる。

Ｈ．２６４においては、単独で復号可能な単位として、スライスが規定されている。スライスは、ピクチャ内の１または複数のマクロブロックからなる単位である。スライスのヘッダ情報には、スライス内の最初のマクロブロックの空間アドレスや、初期量子化パラメータなどが含まれる。スライス毎に量子化パラメータを初期化して符号化することで、スライス単独での復号を可能とすると共に、スライス内で発生したエラーが他のスライスに伝搬されるのが防がれ、エラー耐性が向上される。

特開２００５−１６７７２０号公報

ところで、上述のＨ．２６４においては、スライスグループおよび任意スライス順序と呼ばれる技術により、スライス分割の方法を柔軟に決めることができる。しかしながら、ピクチャ内の画像に対して適切にスライス分割が行われていないと、スライス分割によるメリットを十分に生かし切れない。

例えば、図８に例示されるように、主被写体（この例では人物の顔）を跨ぐスライス分割を行った場合について考える。上述したように、スライスは、単独で復号可能である必要があるため、スライス外のマクロブロックを用いたイントラ予測、インター予測を行うことができない。そのため、復号後の画像において、スライスの境界部分で画質が不連続となってしまい、主被写体の画質が損なわれるおそれがある。

また、図８において、スライス＃０の主被写体とは関係ない位置にあるマクロブロック３０１でエラーが発生した場合、当該スライス＃０のマクロブロック３０１以降の領域３０２全てがエラーとなってしまう。次のスライス＃１は、先頭で量子化パラメータなどが初期化され正常な復号処理に復帰できる。しかしながら、スライス途中での復帰はできないため、スライス＃０に含まれる主被写体の映像が損傷してしまうことになる。

したがって、本発明の目的は、スライス分割位置を適切に設定することができる符号化装置および符号化方法を提供することにある。

本発明は、上述した課題を解決するために、画像データに対し、それぞれ単独に復号が可能なスライスを単位に符号化を行う符号化装置であって、画像データを符号化して符号化ストリームとして出力する符号化手段と、画像データに対して顔検出を行って顔領域を検出し、検出された顔領域に含まれる顔パーツをさらに検出する顔検出手段と、顔検出手段で検出された顔領域の画像データによる画面に占める割合が閾値よりも小さいと判定したら、スライスの分割を行うスライス分割位置を顔領域を含む領域と含まない領域との境界に基づき決定し、割合が閾値以上であると判定したら、スライス分割位置を顔検出手段で顔領域から検出された顔パーツを含む領域と含まない領域との境界に基づき決定するスライス分割位置決定手段と、符号化手段による符号化を制御して、スライス分割位置決定手段で決定されたスライス分割位置で画像データに対するスライス分割を行う符号化制御手段とを有することを特徴とする符号化装置である。

また、本発明は、画像データに対し、それぞれ単独に復号が可能なスライスを単位に符号化を行う符号化装置における符号化方法であって、前記符号化装置の符号化手段が、画像データを符号化して符号化ストリームとして出力する符号化ステップと、前記符号化装置の顔検出手段が、前記画像データに対して顔検出を行って顔領域を検出し、検出された該顔領域に含まれる顔パーツをさらに検出する顔検出ステップと、前記符号化装置のスライス分割位置決定手段が、前記顔検出ステップで検出された前記顔領域の前記画像データによる画面に占める割合が閾値よりも小さいと判定したら、前記スライスの分割を行うスライス分割位置を該顔領域を含む領域と含まない領域との境界に基づき決定し、該割合が該閾値以上であると判定したら、該スライス分割位置を前記顔検出ステップで該顔領域から検出された前記顔パーツを含む領域と含まない領域との境界に基づき決定するスライス分割位置決定ステップと、前記符号化装置の符号化制御手段が、前記符号化ステップによる前記符号化を制御して、前記スライス分割位置決定ステップで決定された前記スライス分割位置で前記画像データに対する前記スライス分割を行う符号化制御ステップとを有することを特徴とする符号化方法である。

本発明は、上述した構成を有するため、スライス分割位置を適切に設定することができる。

以下、本発明の実施形態を、図面を参照しながら説明する。本発明では、動画像データを符号化する際に、符号化対象の画像フレームに対して顔検出を行い、当該画像フレームに含まれる顔画像を検出し、顔画像が含まれる顔領域を取得する。さらに、検出された顔画像から目、鼻、口などの顔パーツを検出する。そして、検出された１の顔領域が画像フレーム内で一定割合以上を占め、意味のあるスライス分割を当該顔領域を跨がずに行えないときに、スライス分割位置を、当該顔領域内で検出された顔パーツを跨がないように決定する。

ここで、スライスとは、単独に復号可能となる画像の単位であり、ピクチャ内の１または複数のマクロブロックからなる単位である。

一般的に、デジタルビデオカメラなどで撮影を行う場合、人物、特に顔が主被写体となることが多いと考えられる。さらに、顔の中でも、当該人物の表情を形成する目、鼻、口などの顔パーツは、特に重要視されると考えられる。本発明をデジタルビデオカメラなどに適用した場合、このような撮影に際して重要と考えられる部分を跨がないように、適切にスライス分割位置を決めることができる。

＜実施形態＞
図１は、本発明の実施形態に適用可能な符号化装置１００の一例の構成を示す。符号化装置１００は、供給されたベースバンドの動画像データに対し、１画面を所定サイズに分割したブロック単位で動き検出を行い、動き補償を用いたフレーム間予測符号化を行う。符号化は、アダマール変換および整数精度ＤＣＴを用いた直交変換および変換係数に対する量子化と、フレーム内予測符号化および動き補償を用いたフレーム間予測符号化とを用い、さらにエントロピー符号化を施すことで行う。

以下では、アダマール変換および整数精度ＤＣＴを用いた直交変換を整数変換と呼び、フレーム内予測符号化およびフレーム間予測符号化をそれぞれイントラ符号化、インター符号化と呼ぶ。

符号化制御部１５は、例えばＣＰＵ、ＲＯＭおよびＲＡＭを有し、ＣＰＵがＲＯＭに予め格納されたプログラムに従い、ＲＡＭをワークメモリとして用いてこの符号化装置１００の全体を制御する。

符号化装置１００に対して、ベースバンドの動画像データが画像フレーム単位で表示順で入力され、フレームメモリ１０に一時的に保存される。フレームメモリ１０に保存された画像フレームは、符号化順に並び替えられ、符号化のために、所定サイズ（例えば１６画素×１６画素）のマクロブロックに分割されて読み出される。マクロブロックは、例えば画面の左端から右端に水平方向にスキャンされ、それが垂直方向に繰り返されて読み出される。また、マクロブロックに対して、例えばスキャンの順序に従って画像フレーム内における座標情報が定義される。

さらに、フレームメモリ１０から、入力された動画像データの、マクロブロック単位で読み出された画像データに対応する画像フレームが読み出され、顔検出部３０に供給される。なお、フレームメモリ１０から符号化のためにマクロブロック単位で読み出された画像データに対応する画像フレームを、以下、符号化対象フレームと呼ぶ。

顔検出部３０は、フレームメモリ１０から供給された符号化対象フレームに対して、人間の顔が含まれる顔領域の検出を行う。顔検出部３０で検出された顔領域を示す顔領域情報は、顔パーツ検出部３１に供給される。

顔パーツ検出部３１は、顔検出部３０から供給された顔領域情報を保持すると共に、当該顔領域情報に基づき、顔に含まれる各パーツ（以下、顔パーツと呼ぶ）を検出する。ここでは、顔パーツを、顔の特徴を顕著に表すと考えられる部分であるものとする。顔の中のこのような部分としては、例えば左目、右目、鼻および口が挙げられる。例えば、顔パーツ検出部３１は、これら左目、右目、鼻および口をそれぞれ検出する。

顔パーツ検出部３１で検出された各顔パーツを示す顔パーツ情報は、スライス分割部３２に供給される。スライス分割部３２は、顔検出部３０から供給された顔領域情報と、顔パーツ検出部３１で検出された顔パーツ情報とに基づき、符号化対象フレームに対するスライス分割位置を決定する。スライス分割位置は、マクロブロックの座標を用いて表現され、量子化制御部１４に供給されると共に、符号化制御部１５に供給される。なお、スライス分割部３２によるスライス分割位置決定処理の詳細については、後述する。

なお、顔検出部３０による顔領域の検出方法は、様々に考えられるが、例えば、特開２００１−３０９２２５号公報に記載される方法を用いることができる。これは、先ず、画像データに対して、色および形状に基いて肌を含む可能性が高いと思われる中央部と、色および形状に基いて毛髪を含む可能性が高いと思われる周辺領域とを探す。その結果に基づき、第１の顔候補検出アルゴリズムにより、パターン認識オペレータを用いて顔を含む可能性の高い領域を探す。そして、第１のアルゴリズムで求められた顔候補領域中の顔の存在を、パターンマッチにより確かめる第２のアルゴリズムとを併用して顔を検出する。

また、顔パーツ検出部３１による、顔領域の各顔パーツの検出方法としては、次のような方法が考えられる。先ず、顔の肌色領域を「０」、顔の肌色領域以外を「１」として２値化する。そして、顔の肌色領域から顔の重心を検出し、その重心の斜め上方にあるホールの位置を目領域と決定する。なお、ホールが検出できない場合は、その目を閉じているものと判断する。また、人体の一般的な構造から、顔領域の重心よりも下方で右目と左目との間の垂直２等分線上の所定位置を、口領域とする。さらに、右目、左目および口の位置関係から、鼻位置を求める。

一方、フレームメモリ１０からマクロブロック単位で読み出された画像データは、減算器１１の被減算入力に入力されると共に、動き検出部２３に供給される。動き検出部２３は、後述するフレームメモリ２１から読み出した復元画像フレームを参照フレームとして、フレームメモリ１０から供給された画像データにおける動きベクトルを検出する。検出された動きベクトル情報は、インター予測部２２とエントロピー符号化部１６とに出力される。

減算器１１は、被減算入力に入力された画像データから、後述するスイッチ２６から出力される予測画像データを減算し、画像残差データを生成する。画像残差データは、直交変換部１２でアダマール変換や整数精度ＤＣＴといった直交変換処理によりＤＣＴ係数に変換される。

このＤＣＴ係数は、量子化部１３で所定の量子化パラメータを用いて量子化される。量子化パラメータは、ＤＣＴ係数を量子化する際の量子化ステップと所定の関係を有するパラメータで、例えば量子化パラメータと量子化ステップの対数が比例するように決められる。量子化ステップおよび量子化パラメータは、マクロブロック単位で変更することが可能である。例えば、エントロピー符号化部１６で発生した符号量に基づき、マクロブロック毎の符号量が一定範囲内になるように、量子化パラメータを制御する。量子化部１３から出力された量子化値は、エントロピー符号化部１６に供給される。

また、量子化部１３は、あるマクロブロックの量子化に用いた量子化パラメータと、当該マクロブロックの直前に量子化されたマクロブロックの量子化に用いた量子化パラメータとの差分を算出する。算出された量子化パラメータの差分値は、量子化値に付加されて量子化部１３から出力される。なお、量子化パラメータは、スライス分割部３２から出力されたスライス分割位置を示す情報に基づく量子化制御部１４の制御により、スライスの先頭のマクロブロックで初期化される。

量子化部１３から出力された量子化値は、逆量子化部１７にも供給される。量子化値は、逆量子化部１７で逆量子化され、逆直交変換部１８で逆直交変換され、ローカルデコード画像データとされる。ローカルデコード画像データは、スイッチ２６から出力される予測画像データが加算器１９で加算され、復元画像データが形成される。復元画像データは、フレームメモリ２４に格納されると共に、デブロッキングフィルタ２０で符号化歪を軽減されてフレームメモリ２１に格納される。

イントラ予測部２５は、フレームメモリ２４に格納された復元画像データを用いてフレーム内予測処理を行い、予測画像データを生成する。イントラ予測部２５から出力されたイントラ予測画像データは、スイッチ２６の入力端２６Ａに供給される。

動き検出部２３は、フレームメモリ２１に格納される復元画像フレームを参照フレームとして用いて、フレームメモリ１０からマクロブロック単位で供給された画像データの動き検出を行う。インター予測部２２は、フレームメモリ２１に格納された復元画像データと、動き検出部２３により検出された動きベクトルとに基づきフレーム間予測処理を行い、インター予測画像データを生成する。インター予測画像データは、スイッチ２６の入力端２６Ｂに供給される。

スイッチ２６は、イントラ予測およびインター予測の何方を用いるかを選択する。イントラ予測部２５から出力されたイントラ予測画像データと、インター予測部２２から出力されたインター予測画像データとのうち一方を選択し、選択された予測画像データを減算器１１の減算入力に供給すると共に、加算器１９に供給する。

エントロピー符号化部１６は、量子化部１３から供給された量子化パラメータおよび動き検出部２３から出力された動きベクトル情報をエントロピー符号化する。また、エントロピー符号化部１６は、イントラ符号化およびインター符号化の何れを行ったかを示す情報（マクロブロックタイプ）や、インター予測の際に用いた参照フレームを、マクロブロック単位で示す情報をさらにエントロピー符号化する。

エントロピー符号化部１６の出力は、符号化制御部１５によってマクロブロックヘッダ、スライスヘッダ、ピクチャヘッダなどストリームの階層構成における各層のヘッダ情報を所定に付加されて、符号化ストリームとして符号化装置１００から出力される。

＜実施形態によるスライス分割方法＞
次に、本発明の実施形態によるスライス分割部３２におけるスライス分割方法について、図２を用いて詳細に説明する。図２（ａ）に例示される、顔２０１が中央部に含まれる符号化対象フレーム２００を考える。なお、図２（ａ）において、便宜上、格子で示されるブロックが符号化単位のブロック（マクロブロック）であるものとし、左上隅のブロックをブロック座標（０，０）とし、右下隅のブロックをブロック座標（６，４）とする。

この符号化対象フレーム２００をフレームメモリ１０から読み出し、顔検出部３０で顔検出を行った結果、図２（ｂ）に例示されるように顔領域が検出される。すなわち、ブロック座標（１，０）、（５，０）、（１，４）および（５，４）で囲まれた矩形領域が顔領域として検出される。

顔検出部３０は、検出された顔領域を示すブロック座標を顔パーツ検出部３１に供給する。顔パーツ検出部３１は、供給されたブロック座標で示される顔領域に含まれる各顔パーツの情報を解析し、顔領域を示すブロック座標と共に保持する。上述したように、顔パーツは、顔の特徴をより顕著に表す部分とし、この例では、左目、右目、鼻および口であるものとする。なお、ここでいう左目および右目は、画面上の左右に対応する。

図２（ｃ）は、顔パーツ検出部３１による各顔パーツの解析結果の例を示す。この例では、左目２１０がブロック座標（２，２）および（３，２）で示される領域で検出され、右目２１１がブロック座標（３，２）および（３，５）で示される領域で検出される。また、口２１３がブロック座標（２，３）および（４，３）で示される領域で検出され、鼻２１２がブロック座標（３，２）で示される領域で検出される。

顔パーツ検出部３１は、顔領域の解析の結果で得られたこれら各顔パーツの座標情報と、顔検出部３０から供給された顔領域を示す座標情報とを、スライス分割部３２に出力する。

スライス分割部３２は、顔パーツ検出部３１から供給された顔領域を示す座標情報と、各顔パーツの座標情報とに基づき、符号化対象フレーム２００に対するスライス分割方法を決定する。本実施形態では、先ず、検出された顔領域の符号化対象フレーム２００に占める割合に応じて、スライス分割を顔領域に基づき行うか、顔パーツに基づき行うかを判定する。

この判定は、例えば下記に示す式（１）を用いて行う。なお、式（１）において、値Ｖ_ｍａｘは、顔領域の垂直方向の座標の最大値、値Ｖ_ｍｉｎは、垂直方向の最小値、値Ｖ_{ｔｏｔａｌ}は、符号化対象フレーム２００の垂直方向のサイズをそれぞれ示す。また、閾値ｔｈは、例えば実験的に決定することができる。
ｔｈ＞(Ｖ_ｍａｘ−Ｖ_ｍｉｎ)／Ｖ_{ｔｏｔａｌ} …（１）

閾値ｔｈの値は、スライスの分割数によって異なる。例えば符号化対象フレーム２００を３スライスに分割する場合の一例として、閾値ｔｈを０．８とすることが考えられる。ここで、「０．８」とは、顔領域が画面垂直方向の領域の８０％を占めることを示す。この場合、(Ｖ_ｍａｘ−Ｖ_ｍｉｎ)／Ｖ_{ｔｏｔａｌ}の値が０．８を超えない場合には顔領域に基づいてスライス分割を行う。また、(Ｖ_ｍａｘ−Ｖ_ｍｉｎ)／Ｖ_{ｔｏｔａｌ}の値が０．８以上の場合（閾値以上）には、顔パーツに基づきスライス分割を行う。

式（１）を満たす場合、顔領域が符号化対象フレーム２００に占める割合が小さいものと判断することができる。この場合、スライス分割部３２は、スライス分割を、顔領域を跨がないように行う。より具体的には、スライス分割部３２は、顔領域を含む領域と含まない領域との境界に基づき、スライス分割位置を決定する。

この場合の例を、図３を用いてより具体的に説明する。図３（ａ）に例示されるように、符号化対象フレーム２００から、顔領域２０２が対角をブロック座標（２，３）および（４，６）で示される矩形領域として検出され、この顔領域２０２が上述の式（１）を満たしているものとする。

スライス分割を画面の水平方向に行うものとして、この場合、顔領域２０２の上端を含むブロック座標（ｘ，３）の上端と、顔領域２０２の下端を含むブロック座標（ｘ，６）の下端とで、それぞれスライス分割を行う。すなわち、ブロック座標（ｘ，２）より上側と、ブロック座標（ｘ，７）の下側は、顔領域２０２を含まない領域である。一方、ブロック座標（ｘ，４）の上端から（ｘ，５）の下端までの範囲は、顔領域２０２を含むため、スライス分割を行わない。その結果、例えば図３（ｃ）に例示されるように、符号化対象フレーム２００がスライス＃０〜スライス＃２の３つのスライスに分割される。

一方、上述の式（１）を満たさない場合、顔領域２０２の符号化対象フレーム２００に占める割合が大きすぎて、符号化対象フレーム２００を適切にスライス分割することができないと考えられる。一例として、上述した図２（ａ）の例では、顔領域２０２が符号化対象フレーム２００の上端のブロックから下端のブロックまで占めているので、顔領域２０２を跨がないようにスライス分割を行うことができない。本実施形態では、このような場合、各顔パーツの座標情報に基づきスライス分割を行う。

一例として、上述した図２（ａ）および図２（ｃ）では、左目２１０、右目２１１および鼻２１２がブロック座標（２，２）、（３，２）、（４，２）および（５，２）に含まれている。また、口２１３がブロック座標（２，３）、（３，３）および（４，３）に含まれている。この場合、それぞれの顔パーツを含む領域と含まない領域との境界に基づき、ブロック座標（ｘ，１）および（ｘ，２）の間と、ブロック座標（ｘ，２）および（ｘ，３）の間と、ブロック座標（ｘ，３）および（ｘ，４）の間とで、それぞれスライス分割が行われる。

その結果、図２（ｄ）に例示されるように、符号化対象フレーム２００がスライス＃０〜スライス＃３の４つのスライスに分割される。

このように、顔領域の中でも顔の特徴となるパーツを跨がないようにスライス分割を行うことで、スライスを跨いだ予測符号化を行えないことによる画質の劣化が、これらのパーツ中に生じないようにすることができる。また、顔パーツに対するエラー耐性を高めることができる。

＜実施形態の第１の変形例＞
次に、本実施形態の第１の変形例について説明する。本実施形態の第１の変形例は、符号化対象フレーム２００から複数の顔領域が検出された場合の例である。図４は、本実施形態の第１の変形例に適用可能な符号化装置１０１の一例の構成を示す。なお、図４において、上述した図１と共通する部分には同一の符号を付し、詳細な説明を省略する。

図４に示される符号化装置１０１は、上述した図１に示される符号化装置１００に対して、中心近傍顔決定部３３が追加された構成となっている。すなわち、本実施形態の第１の変形例では、顔検出部３０により符号化対象フレーム２００内に複数の顔領域が検出された際に、この複数の顔領域のうち符号化対象フレーム２００の中心に最も近い顔領域（以下、中心近傍顔領域）を選択する。

そして、上述した式（１）による判定を行い、中心近傍顔領域の符号化対象フレーム２００全体に占める割合が閾値ｔｈより大きいと判定された場合には、当該中心近傍顔領域に含まれる顔パーツを跨がないようなスライス分割を行う。一方、中心近傍顔領域の符号化対象フレーム２００全体に占める割合が閾値ｔｈよりも小さいと判定された場合は、当該中心近傍顔領域を跨がないように、スライス分割を行う。

図５を用いて、より具体的に説明する。図５（ａ）に例示されるように、顔検出部３０において、符号化対象フレーム２００から顔領域２２０、２２１および２２２が検出されたものとする。顔領域２２０は、対角がブロック座標（０，０）および（２，１）で示される矩形領域として検出される。顔領域２２１は、対角がブロック座標（２，２）および（４，３）で示される矩形領域として検出される。また、顔領域２２２は、対角がブロック座標（４，０）および（６，２）で示される矩形領域として検出される。これら顔領域２２０〜２２２の検出結果は、中心近傍顔決定部３３に供給される。

中心近傍顔決定部３３は、顔検出部３０から供給された顔領域の検出結果に基づき、顔検出部３０で検出された複数の顔領域２２０〜２２２のうち符号化対象フレーム２００による画面の中心に最も近い顔領域を判定する。

この判定は、例えば次式（２）を用いて行う。なお、式（２）において値ｘ_{ｃｅｎｔｅｒ}および値ｙ_{ｃｅｎｔｅｒ}は、符号化対象フレーム２００による画面の中心の水平方向および垂直方向の座標をそれぞれ示す。また、値ｘ_ｎおよび値ｙ_ｎ（ただし４≧ｎ≧１）は、顔領域の各頂点（左上、右上、左下および右下）のｘおよびｙ座標をそれぞれ示す。
ｃｅｎｔ＿ｄｉｓｔ＝(ｘ_ｎ−ｘ_{ｃｅｎｔｅｒ})^２＋(ｙ_ｎ−ｙ_{ｃｅｎｔｅｒ})^２ …（２）

式（２）により、値ｃｅｎｔ＿ｄｉｓｔを符号化対象フレーム２００から検出された各顔領域２２０〜２２２についてそれぞれ求め、値ｃｅｎｔ＿ｄｉｓｔが最も小さくなる顔領域を、中心近傍顔領域に決定する。図５（ａ）の例では、顔領域２２０〜２２２のうち顔領域２２１について求められた値ｃｅｎｔ＿ｄｉｓｔが最も小さく、顔領域２２１が中心近傍顔領域に決定される。

そして、この中心近傍顔領域について、式（１）による顔領域の大きさの判定が行われる。判定の結果、中心近傍顔領域に決定された顔領域２２１の符号化対象フレーム２００全体に占める割合が閾値ｔｈよりも小さいと判定された場合は、顔領域２２１を跨がないように、スライス分割を行う。すなわち、顔領域２２１の上端を含むブロック座標（ｘ，２）より上側と、顔領域２２１の下端を含むブロック座標（ｘ，４）より下側は、顔領域２２１を含まない領域である。したがって、顔領域２２１を含む領域と含まない領域との境界に基づき、ブロック座標（ｘ，２）の上端と、ブロック座標（ｘ，４）の下端とでそれぞれスライス分割を行う。一方、ブロック座標（ｘ，３）の領域は、顔領域２２１を含むため、スライス分割を行わない。

その結果、例えば図５（ｂ）に例示されるように、符号化対象フレーム２００がスライス＃０〜スライス＃２の３つのスライスに分割される。このとき、この例では、中心近傍顔領域ではない顔領域２２２を跨ぐスライス分割がなされている。

本実施の形態の第１の変形例では、符号化対象フレーム２００から複数の顔領域が検出された場合に、注目度が高いと考えられる画面の中心に最も近い顔領域を跨がないようにスライス分割を行う。これにより、映像の重要度が高いと考えられる領域でスライス分割による画質の劣化を抑制することができる。また、検出された重要領域に対するエラー耐性を高めることができる。

なお、上述では、符号化対象フレーム２００から検出された複数の顔領域のうち、画面の中心に最も近い顔領域に基づきスライス分割位置を決定したが、これはこの例に限定されない。例えば、ユーザ操作などにより符号化対象フレーム２００内の位置を選択できるようにし、選択された位置に最も近い顔領域に基づきスライス分割位置を決定するようにしてもよい。

＜本実施形態の第２の変形例＞
次に、本実施形態の第２の変形例について説明する。本実施形態の第２の変形例は、上述した第１の変形例と同様に、符号化対象フレーム２００から複数の顔領域が検出された場合の例である。図６は、本実施形態の第２の変形例に適用可能な符号化装置１０２の一例の構成を示す。なお、図６において、上述した図１と共通する部分には同一の符号を付し、詳細な説明を省略する。

図６に示される符号化装置１０２は、上述した図１に示される符号化装置１００に対して、焦点近傍顔決定部３４が追加された構成となっている。合焦位置取得手段としての焦点近傍顔決定部３４は、例えばこの符号化装置１０２が適用される撮影装置の撮像光学系や撮像信号処理部から、符号化対象フレーム２００内の合焦位置を示す情報を受け取る。例えば、瞳分割位相差方式や、像鮮鋭度方式により合焦制御を行っている場合、画面内の各位置において合焦判定を行うことができ、画面内での合焦位置を取得することができる。これに限らず、例えば画像データからエッジ情報を抽出して合焦判定を行うことも可能である。

一例として、上述した図５（ａ）に例示したように、顔検出部３０において、符号化対象フレーム２００から顔領域２２０〜２２２が検出されたものとする。顔領域２２０は対角がブロック座標（０，０）および（２，１）、顔領域２２１は対角がブロック座標（２，２）および（４，３）、顔領域２２２は対角がブロック座標（４，０）および（６，２）でそれぞれ示される矩形領域として検出される。これら顔領域２２０〜２２２の検出結果は、焦点近傍顔決定部３４に供給される。

焦点近傍顔決定部３４は、顔検出部３０から供給された顔領域の検出結果に基づき、顔検出部３０で検出された複数の顔領域２２０〜２２２のうち合焦位置に最も近い顔領域を判定する。

この判定は、例えば次式（３）を用いて行う。なお、式（３）において値ｘ_{ｆｏｃｕｓ}および値ｙ_{ｆｏｃｕｓ}は、合焦位置を含むブロックの水平方向および垂直方向の座標をそれぞれ示す。また、値ｘ_ｎおよび値ｙ_ｎ（ただし４≧ｎ≧１）は、顔領域の各頂点（左上、右上、左下および右下）のｘおよびｙ座標をそれぞれ示す。
ｆｏｃｕｓ＿ｄｉｓｔ＝(ｘ_ｎ−ｘ_{ｆｏｃｕｓ})^２＋(ｙ_ｎ−ｙ_{ｆｏｃｕｓ})^２ …（３）

式（３）により、値ｆｏｃｕｓ＿ｄｉｓｔを符号化対象フレーム２００から検出された各顔領域２２０〜２２２についてそれぞれ求め、値ｆｏｃｕｓ＿ｄｉｓｔが最も小さくなる顔領域を、焦点近傍顔領域に決定する。図５（ａ）において、例えば、顔領域２２０〜２２２のうち顔領域２２２について求められた値ｆｏｃｕｓ＿ｄｉｓｔが最も小さく、顔領域２２２が焦点近傍顔領域として選択されたものとする。

そして、この焦点近傍顔領域について、式（１）による顔領域の大きさの判定が行われる。判定の結果、焦点近傍顔領域に決定された顔領域２２２の符号化対象フレーム２００全体に占める割合が閾値ｔｈよりも小さいと判定された場合は、当該顔領域２２２を跨がないように、スライス分割を行う。図５（ａ）の例では、ブロック座標（ｘ，１）の下端より下側は、顔領域２２２を含まない領域であるため、ブロック座標（ｘ，１）の下端でスライス分割を行う。一方、ブロック座標（ｘ，０）および（ｘ，１）の範囲は、顔領域２２２を含むため、スライス分割を行わない。

その結果、例えば図７に例示されるように、符号化対象フレーム２００がスライス＃０およびスライス＃１の２つのスライスに分割される。このとき、この例では、焦点近傍顔領域ではない顔領域２２１を跨ぐスライス分割がなされている。また、図７に点線で示されるように、スライス＃１をさらにスライス分割し、符号化対象フレーム２００を３つのスライス＃０〜＃２に分割してもよい。

このように、本実施の形態の第２の変形例では、符号化対象フレーム２００から複数の顔領域が検出された場合に、注目度が高いと考えられる、画面内の合焦位置に最も近い顔領域を跨がないようにスライス分割を行う。これにより、映像の重要度が高いと考えられる領域でスライス分割による画質の劣化を抑制することができる。また、検出された重要領域に対するエラー耐性を高めることができる。

なお、上述では、本発明の実施形態および実施形態の各変形例において、粋ライス分割を水平方向にのみ行うように説明したが、これはこの例に限定されない。すなわちＨ．２６４では、スライスグループと呼ばれる技術により、例えばスライス分割を矩形状に行うことが可能とされている（フォアグラウンド／レフトオーバー）。この矩形状のスライス分割を、本発明に適用することも可能である。この場合、検出された顔領域や顔パーツ領域を含む矩形領域をスライスとすることが考えられる。

＜他の実施形態＞
上述の実施形態および各変形例は、システム或は装置のコンピュータ（或いはＣＰＵ、ＭＰＵ等）によりソフトウェア的に実現することも可能である。

従って、上述の実施形態をコンピュータで実現するために、該コンピュータに供給されるコンピュータプログラム自体も本発明を実現するものである。つまり、上述の実施形態の機能を実現するためのコンピュータプログラム自体も本発明の一つである。

なお、上述の実施形態を実現するためのコンピュータプログラムは、コンピュータで読み取り可能であれば、どのような形態であってもよい。例えば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等で構成することができるが、これらに限るものではない。

上述の実施形態を実現するためのコンピュータプログラムは、記憶媒体又は有線／無線通信によりコンピュータに供給される。プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記憶媒体、ＭＯ、ＣＤ、ＤＶＤ等の光／光磁気記憶媒体、不揮発性の半導体メモリなどがある。

有線／無線通信を用いたコンピュータプログラムの供給方法としては、コンピュータネットワーク上のサーバを利用する方法がある。この場合、本発明を形成するコンピュータプログラムとなりうるデータファイル（プログラムファイル）をサーバに記憶しておく。プログラムファイルとしては、実行形式のものであっても、ソースコードであっても良い。

そして、このサーバにアクセスしたクライアントコンピュータに、プログラムファイルをダウンロードすることによって供給する。この場合、プログラムファイルを複数のセグメントファイルに分割し、セグメントファイルを異なるサーバに分散して配置することも可能である。

つまり、上述の実施形態を実現するためのプログラムファイルをクライアントコンピュータに提供するサーバ装置も本発明の一つである。

また、上述の実施形態を実現するためのコンピュータプログラムを暗号化して格納した記憶媒体を配布し、所定の条件を満たしたユーザに、暗号化を解く鍵情報を供給し、ユーザの有するコンピュータへのインストールを許可してもよい。鍵情報は、例えばインターネットを介してホームページからダウンロードさせることによって供給することができる。

また、上述の実施形態を実現するためのコンピュータプログラムは、すでにコンピュータ上で稼働するＯＳの機能を利用するものであってもよい。

さらに、上述の実施形態を実現するためのコンピュータプログラムは、その一部をコンピュータに装着される拡張ボード等のファームウェアで構成してもよいし、拡張ボード等が備えるＣＰＵで実行するようにしてもよい。

本発明の実施形態に適用可能な符号化装置の一例の構成を示すブロック図である。本発明の実施形態によるスライス分割方法を説明するための図である。スライス分割を顔領域を跨がないように行うことを説明するための図である。本実施形態の第１の変形例に適用可能な符号化装置の一例の構成を示すブロック図である。本発明の実施形態の第１の変形例によるスライス分割方法を説明するための図である。本実施形態の第２の変形例に適用可能な符号化装置の一例の構成を示すブロック図である。本発明の実施形態の第２の変形例によるスライス分割方法を説明するための図である。従来技術によるスライス分割方法を説明するための図である。

符号の説明

１０フレームメモリ
１３量子化部
１４量子化制御部
１５符号化制御部
３０顔検出部
３１顔パーツ検出部
３２スライス分割部
３３中心近傍顔決定部
３４焦点近傍顔決定部
１００，１０１，１０２符号化装置

Claims

画像データに対し、それぞれ単独に復号が可能なスライスを単位に符号化を行う符号化装置であって、
画像データを符号化して符号化ストリームとして出力する符号化手段と、
前記画像データに対して顔検出を行って顔領域を検出し、検出された該顔領域に含まれる顔パーツをさらに検出する顔検出手段と、
前記顔検出手段で検出された前記顔領域の前記画像データによる画面に占める割合が閾値よりも小さいと判定したら、前記スライスの分割を行うスライス分割位置を該顔領域を含む領域と含まない領域との境界に基づき決定し、該割合が該閾値以上であると判定したら、該スライス分割位置を前記顔検出手段で該顔領域から検出された前記顔パーツを含む領域と含まない領域との境界に基づき決定するスライス分割位置決定手段と、
前記符号化手段による前記符号化を制御して、前記スライス分割位置決定手段で決定された前記スライス分割位置で前記画像データに対する前記スライス分割を行う符号化制御手段と
を有する
ことを特徴とする符号化装置。
前記スライス分割位置決定手段は、
前記顔検出手段で複数の前記顔領域が検出され、且つ、検出された該複数の顔領域それぞれの前記画面に占める割合が前記閾値より小さいと判定したら、前記複数の顔領域のうち前記スライス分割位置を決定するための前記顔領域を前記画面の中の位置に基づき選択する
ことを特徴とする請求項１に記載の符号化装置。
前記スライス分割位置決定手段は、
前記複数の顔領域のうち前記画面の中央に最も近い位置の前記顔領域に基づき前記スライス分割位置を決定する
ことを特徴とする請求項２に記載の符号化装置。
前記画像データにおける合焦位置を取得する合焦位置取得手段をさらに有し、
前記スライス分割位置決定手段は、
前記顔検出手段で複数の前記顔領域が検出され、且つ、検出された該複数の顔領域それぞれの前記画面に占める割合が前記閾値より小さいと判定したら、前記複数の顔領域のうち前記スライス分割位置を決定するための前記顔領域を前記合焦位置取得手段で取得された前記合焦位置に基づき選択する
ことを特徴とする請求項１に記載の符号化装置。
画像データに対し、それぞれ単独に復号が可能なスライスを単位に符号化を行う符号化装置における符号化方法であって、
前記符号化装置の符号化手段が、画像データを符号化して符号化ストリームとして出力する符号化ステップと、
前記符号化装置の顔検出手段が、前記画像データに対して顔検出を行って顔領域を検出し、検出された該顔領域に含まれる顔パーツをさらに検出する顔検出ステップと、
前記符号化装置のスライス分割位置決定手段が、前記顔検出ステップで検出された前記顔領域の前記画像データによる画面に占める割合が閾値よりも小さいと判定したら、前記スライスの分割を行うスライス分割位置を該顔領域を含む領域と含まない領域との境界に基づき決定し、該割合が該閾値以上であると判定したら、該スライス分割位置を前記顔検出ステップで該顔領域から検出された前記顔パーツを含む領域と含まない領域との境界に基づき決定するスライス分割位置決定ステップと、
前記符号化装置の符号化制御手段が、前記符号化ステップによる前記符号化を制御して、前記スライス分割位置決定ステップで決定された前記スライス分割位置で前記画像データに対する前記スライス分割を行う符号化制御ステップと
を有する
ことを特徴とする符号化方法。
コンピュータを請求項１乃至請求項４の何れか１項に記載の符号化装置の各手段として機能させるプログラム。