JP5063548B2 - 符号化装置および符号化方法 - Google Patents

符号化装置および符号化方法 Download PDF

Info

Publication number
JP5063548B2
JP5063548B2 JP2008246592A JP2008246592A JP5063548B2 JP 5063548 B2 JP5063548 B2 JP 5063548B2 JP 2008246592 A JP2008246592 A JP 2008246592A JP 2008246592 A JP2008246592 A JP 2008246592A JP 5063548 B2 JP5063548 B2 JP 5063548B2
Authority
JP
Japan
Prior art keywords
face
encoding
area
slice division
slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008246592A
Other languages
English (en)
Other versions
JP2010081240A (ja
JP2010081240A5 (ja
Inventor
大輔 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008246592A priority Critical patent/JP5063548B2/ja
Publication of JP2010081240A publication Critical patent/JP2010081240A/ja
Publication of JP2010081240A5 publication Critical patent/JP2010081240A5/ja
Application granted granted Critical
Publication of JP5063548B2 publication Critical patent/JP5063548B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、動画像を符号化する符号化装置および符号化方法に関し、特には、画面内を複数の領域に分割して符号化する符号化装置および符号化方法に関する。
近年では、動画像データの高解像度化が進み、従来から用いられる720画素×480画素の映像に対して、例えば地上デジタル放送では、フルハイビジョン映像と呼ばれる1920画素×1080画素の映像が用いられることが多くなっている。このような高解像度の動画像データは、単位時間当たりに伝送されるデータ量も膨大なものになるため、従来の技術に対してより高能率な圧縮符号化技術が求められている。
これらの要求に対し、ITU−T SG16やISO/IEC JTC1/SC29/WG11の活動で、画像間の相関を利用したフレーム間予測を用いた符号化圧縮方式の標準化作業が進められている。この中でも、現状で最も高能率な符号化を実現しているといわれる符号化方式に、H.264/MPEG−4 PART10(AVC)(以下、H.264と呼ぶ)がある。H.264の符号化および復号化の仕様については、例えば特許文献1などに記載されている。
従来から動画像データの圧縮符号化に用いられるMPEG2方式では、1フレームまたは1フィールドをマクロブロックと呼ばれる所定画素数の領域に分割し、マクロブロックを単位にして、動き補償を用いた予測符号化や直交変換処理、量子化処理を施す。量子化処理に用いた量子化パラメータは、マクロブロック毎に順次差分を取られ、この差分が符号化される。H.264|AVC方式では、上述の従来の方式に対し、直交変換処理をアダマール変換および整数精度DCTを用いて行うことにより誤差の蓄積を抑制する。それと共に、フレーム内予測符号化および動き補償を用いたフレーム間予測符号化とを行い、より精度の高い予測符号化を実現している。
また、H.264では、あるマクロブロックに対して符号化を行う場合、符号化対象のマクロブロックに対して左横、左斜上、真上および右斜上にそれぞれ位置する4つのマクロブロックの処理結果を参照することができる。これにより、より適切な予測を行うことができる。
H.264においては、単独で復号可能な単位として、スライスが規定されている。スライスは、ピクチャ内の1または複数のマクロブロックからなる単位である。スライスのヘッダ情報には、スライス内の最初のマクロブロックの空間アドレスや、初期量子化パラメータなどが含まれる。スライス毎に量子化パラメータを初期化して符号化することで、スライス単独での復号を可能とすると共に、スライス内で発生したエラーが他のスライスに伝搬されるのが防がれ、エラー耐性が向上される。
特開2005−167720号公報
ところで、上述のH.264においては、スライスグループおよび任意スライス順序と呼ばれる技術により、スライス分割の方法を柔軟に決めることができる。しかしながら、ピクチャ内の画像に対して適切にスライス分割が行われていないと、スライス分割によるメリットを十分に生かし切れない。
例えば、図8に例示されるように、主被写体(この例では人物の顔)を跨ぐスライス分割を行った場合について考える。上述したように、スライスは、単独で復号可能である必要があるため、スライス外のマクロブロックを用いたイントラ予測、インター予測を行うことができない。そのため、復号後の画像において、スライスの境界部分で画質が不連続となってしまい、主被写体の画質が損なわれるおそれがある。
また、図8において、スライス#0の主被写体とは関係ない位置にあるマクロブロック301でエラーが発生した場合、当該スライス#0のマクロブロック301以降の領域302全てがエラーとなってしまう。次のスライス#1は、先頭で量子化パラメータなどが初期化され正常な復号処理に復帰できる。しかしながら、スライス途中での復帰はできないため、スライス#0に含まれる主被写体の映像が損傷してしまうことになる。
したがって、本発明の目的は、スライス分割位置を適切に設定することができる符号化装置および符号化方法を提供することにある。
本発明は、上述した課題を解決するために、画像データに対し、それぞれ単独に復号が可能なスライスを単位に符号化を行う符号化装置であって、画像データを符号化して符号化ストリームとして出力する符号化手段と、画像データに対して顔検出を行って顔領域を検出し、検出された顔領域に含まれる顔パーツをさらに検出する顔検出手段と、顔検出手段で検出された顔領域の画像データによる画面に占める割合が閾値よりも小さいと判定したら、スライスの分割を行うスライス分割位置を顔領域を含む領域と含まない領域との境界に基づき決定し、割合が閾値以上であると判定したら、スライス分割位置を顔検出手段で顔領域から検出された顔パーツを含む領域と含まない領域との境界に基づき決定するスライス分割位置決定手段と、符号化手段による符号化を制御して、スライス分割位置決定手段で決定されたスライス分割位置で画像データに対するスライス分割を行う符号化制御手段とを有することを特徴とする符号化装置である。
また、本発明は、画像データに対し、それぞれ単独に復号が可能なスライスを単位に符号化を行う符号化装置における符号化方法であって、前記符号化装置の符号化手段が、画像データを符号化して符号化ストリームとして出力する符号化ステップと、前記符号化装置の顔検出手段が、前記画像データに対して顔検出を行って顔領域を検出し、検出された該顔領域に含まれる顔パーツをさらに検出する顔検出ステップと、前記符号化装置のスライス分割位置決定手段が、前記顔検出ステップで検出された前記顔領域の前記画像データによる画面に占める割合が閾値よりも小さいと判定したら、前記スライスの分割を行うスライス分割位置を該顔領域を含む領域と含まない領域との境界に基づき決定し、該割合が該閾値以上であると判定したら、該スライス分割位置を前記顔検出ステップで該顔領域から検出された前記顔パーツを含む領域と含まない領域との境界に基づき決定するスライス分割位置決定ステップと、前記符号化装置の符号化制御手段が、前記符号化ステップによる前記符号化を制御して、前記スライス分割位置決定ステップで決定された前記スライス分割位置で前記画像データに対する前記スライス分割を行う符号化制御ステップとを有することを特徴とする符号化方法である。
本発明は、上述した構成を有するため、スライス分割位置を適切に設定することができる。
以下、本発明の実施形態を、図面を参照しながら説明する。本発明では、動画像データを符号化する際に、符号化対象の画像フレームに対して顔検出を行い、当該画像フレームに含まれる顔画像を検出し、顔画像が含まれる顔領域を取得する。さらに、検出された顔画像から目、鼻、口などの顔パーツを検出する。そして、検出された1の顔領域が画像フレーム内で一定割合以上を占め、意味のあるスライス分割を当該顔領域を跨がずに行えないときに、スライス分割位置を、当該顔領域内で検出された顔パーツを跨がないように決定する。
ここで、スライスとは、単独に復号可能となる画像の単位であり、ピクチャ内の1または複数のマクロブロックからなる単位である。
一般的に、デジタルビデオカメラなどで撮影を行う場合、人物、特に顔が主被写体となることが多いと考えられる。さらに、顔の中でも、当該人物の表情を形成する目、鼻、口などの顔パーツは、特に重要視されると考えられる。本発明をデジタルビデオカメラなどに適用した場合、このような撮影に際して重要と考えられる部分を跨がないように、適切にスライス分割位置を決めることができる。
<実施形態>
図1は、本発明の実施形態に適用可能な符号化装置100の一例の構成を示す。符号化装置100は、供給されたベースバンドの動画像データに対し、1画面を所定サイズに分割したブロック単位で動き検出を行い、動き補償を用いたフレーム間予測符号化を行う。符号化は、アダマール変換および整数精度DCTを用いた直交変換および変換係数に対する量子化と、フレーム内予測符号化および動き補償を用いたフレーム間予測符号化とを用い、さらにエントロピー符号化を施すことで行う。
以下では、アダマール変換および整数精度DCTを用いた直交変換を整数変換と呼び、フレーム内予測符号化およびフレーム間予測符号化をそれぞれイントラ符号化、インター符号化と呼ぶ。
符号化制御部15は、例えばCPU、ROMおよびRAMを有し、CPUがROMに予め格納されたプログラムに従い、RAMをワークメモリとして用いてこの符号化装置100の全体を制御する。
符号化装置100に対して、ベースバンドの動画像データが画像フレーム単位で表示順で入力され、フレームメモリ10に一時的に保存される。フレームメモリ10に保存された画像フレームは、符号化順に並び替えられ、符号化のために、所定サイズ(例えば16画素×16画素)のマクロブロックに分割されて読み出される。マクロブロックは、例えば画面の左端から右端に水平方向にスキャンされ、それが垂直方向に繰り返されて読み出される。また、マクロブロックに対して、例えばスキャンの順序に従って画像フレーム内における座標情報が定義される。
さらに、フレームメモリ10から、入力された動画像データの、マクロブロック単位で読み出された画像データに対応する画像フレームが読み出され、顔検出部30に供給される。なお、フレームメモリ10から符号化のためにマクロブロック単位で読み出された画像データに対応する画像フレームを、以下、符号化対象フレームと呼ぶ。
顔検出部30は、フレームメモリ10から供給された符号化対象フレームに対して、人間の顔が含まれる顔領域の検出を行う。顔検出部30で検出された顔領域を示す顔領域情報は、顔パーツ検出部31に供給される。
顔パーツ検出部31は、顔検出部30から供給された顔領域情報を保持すると共に、当該顔領域情報に基づき、顔に含まれる各パーツ(以下、顔パーツと呼ぶ)を検出する。ここでは、顔パーツを、顔の特徴を顕著に表すと考えられる部分であるものとする。顔の中のこのような部分としては、例えば左目、右目、鼻および口が挙げられる。例えば、顔パーツ検出部31は、これら左目、右目、鼻および口をそれぞれ検出する。
顔パーツ検出部31で検出された各顔パーツを示す顔パーツ情報は、スライス分割部32に供給される。スライス分割部32は、顔検出部30から供給された顔領域情報と、顔パーツ検出部31で検出された顔パーツ情報とに基づき、符号化対象フレームに対するスライス分割位置を決定する。スライス分割位置は、マクロブロックの座標を用いて表現され、量子化制御部14に供給されると共に、符号化制御部15に供給される。なお、スライス分割部32によるスライス分割位置決定処理の詳細については、後述する。
なお、顔検出部30による顔領域の検出方法は、様々に考えられるが、例えば、特開2001−309225号公報に記載される方法を用いることができる。これは、先ず、画像データに対して、色および形状に基いて肌を含む可能性が高いと思われる中央部と、色および形状に基いて毛髪を含む可能性が高いと思われる周辺領域とを探す。その結果に基づき、第1の顔候補検出アルゴリズムにより、パターン認識オペレータを用いて顔を含む可能性の高い領域を探す。そして、第1のアルゴリズムで求められた顔候補領域中の顔の存在を、パターンマッチにより確かめる第2のアルゴリズムとを併用して顔を検出する。
また、顔パーツ検出部31による、顔領域の各顔パーツの検出方法としては、次のような方法が考えられる。先ず、顔の肌色領域を「0」、顔の肌色領域以外を「1」として2値化する。そして、顔の肌色領域から顔の重心を検出し、その重心の斜め上方にあるホールの位置を目領域と決定する。なお、ホールが検出できない場合は、その目を閉じているものと判断する。また、人体の一般的な構造から、顔領域の重心よりも下方で右目と左目との間の垂直2等分線上の所定位置を、口領域とする。さらに、右目、左目および口の位置関係から、鼻位置を求める。
一方、フレームメモリ10からマクロブロック単位で読み出された画像データは、減算器11の被減算入力に入力されると共に、動き検出部23に供給される。動き検出部23は、後述するフレームメモリ21から読み出した復元画像フレームを参照フレームとして、フレームメモリ10から供給された画像データにおける動きベクトルを検出する。検出された動きベクトル情報は、インター予測部22とエントロピー符号化部16とに出力される。
減算器11は、被減算入力に入力された画像データから、後述するスイッチ26から出力される予測画像データを減算し、画像残差データを生成する。画像残差データは、直交変換部12でアダマール変換や整数精度DCTといった直交変換処理によりDCT係数に変換される。
このDCT係数は、量子化部13で所定の量子化パラメータを用いて量子化される。量子化パラメータは、DCT係数を量子化する際の量子化ステップと所定の関係を有するパラメータで、例えば量子化パラメータと量子化ステップの対数が比例するように決められる。量子化ステップおよび量子化パラメータは、マクロブロック単位で変更することが可能である。例えば、エントロピー符号化部16で発生した符号量に基づき、マクロブロック毎の符号量が一定範囲内になるように、量子化パラメータを制御する。量子化部13から出力された量子化値は、エントロピー符号化部16に供給される。
また、量子化部13は、あるマクロブロックの量子化に用いた量子化パラメータと、当該マクロブロックの直前に量子化されたマクロブロックの量子化に用いた量子化パラメータとの差分を算出する。算出された量子化パラメータの差分値は、量子化値に付加されて量子化部13から出力される。なお、量子化パラメータは、スライス分割部32から出力されたスライス分割位置を示す情報に基づく量子化制御部14の制御により、スライスの先頭のマクロブロックで初期化される。
量子化部13から出力された量子化値は、逆量子化部17にも供給される。量子化値は、逆量子化部17で逆量子化され、逆直交変換部18で逆直交変換され、ローカルデコード画像データとされる。ローカルデコード画像データは、スイッチ26から出力される予測画像データが加算器19で加算され、復元画像データが形成される。復元画像データは、フレームメモリ24に格納されると共に、デブロッキングフィルタ20で符号化歪を軽減されてフレームメモリ21に格納される。
イントラ予測部25は、フレームメモリ24に格納された復元画像データを用いてフレーム内予測処理を行い、予測画像データを生成する。イントラ予測部25から出力されたイントラ予測画像データは、スイッチ26の入力端26Aに供給される。
動き検出部23は、フレームメモリ21に格納される復元画像フレームを参照フレームとして用いて、フレームメモリ10からマクロブロック単位で供給された画像データの動き検出を行う。インター予測部22は、フレームメモリ21に格納された復元画像データと、動き検出部23により検出された動きベクトルとに基づきフレーム間予測処理を行い、インター予測画像データを生成する。インター予測画像データは、スイッチ26の入力端26Bに供給される。
スイッチ26は、イントラ予測およびインター予測の何方を用いるかを選択する。イントラ予測部25から出力されたイントラ予測画像データと、インター予測部22から出力されたインター予測画像データとのうち一方を選択し、選択された予測画像データを減算器11の減算入力に供給すると共に、加算器19に供給する。
エントロピー符号化部16は、量子化部13から供給された量子化パラメータおよび動き検出部23から出力された動きベクトル情報をエントロピー符号化する。また、エントロピー符号化部16は、イントラ符号化およびインター符号化の何れを行ったかを示す情報(マクロブロックタイプ)や、インター予測の際に用いた参照フレームを、マクロブロック単位で示す情報をさらにエントロピー符号化する。
エントロピー符号化部16の出力は、符号化制御部15によってマクロブロックヘッダ、スライスヘッダ、ピクチャヘッダなどストリームの階層構成における各層のヘッダ情報を所定に付加されて、符号化ストリームとして符号化装置100から出力される。
<実施形態によるスライス分割方法>
次に、本発明の実施形態によるスライス分割部32におけるスライス分割方法について、図2を用いて詳細に説明する。図2(a)に例示される、顔201が中央部に含まれる符号化対象フレーム200を考える。なお、図2(a)において、便宜上、格子で示されるブロックが符号化単位のブロック(マクロブロック)であるものとし、左上隅のブロックをブロック座標(0,0)とし、右下隅のブロックをブロック座標(6,4)とする。
この符号化対象フレーム200をフレームメモリ10から読み出し、顔検出部30で顔検出を行った結果、図2(b)に例示されるように顔領域が検出される。すなわち、ブロック座標(1,0)、(5,0)、(1,4)および(5,4)で囲まれた矩形領域が顔領域として検出される。
顔検出部30は、検出された顔領域を示すブロック座標を顔パーツ検出部31に供給する。顔パーツ検出部31は、供給されたブロック座標で示される顔領域に含まれる各顔パーツの情報を解析し、顔領域を示すブロック座標と共に保持する。上述したように、顔パーツは、顔の特徴をより顕著に表す部分とし、この例では、左目、右目、鼻および口であるものとする。なお、ここでいう左目および右目は、画面上の左右に対応する。
図2(c)は、顔パーツ検出部31による各顔パーツの解析結果の例を示す。この例では、左目210がブロック座標(2,2)および(3,2)で示される領域で検出され、右目211がブロック座標(3,2)および(3,5)で示される領域で検出される。また、口213がブロック座標(2,3)および(4,3)で示される領域で検出され、鼻212がブロック座標(3,2)で示される領域で検出される。
顔パーツ検出部31は、顔領域の解析の結果で得られたこれら各顔パーツの座標情報と、顔検出部30から供給された顔領域を示す座標情報とを、スライス分割部32に出力する。
スライス分割部32は、顔パーツ検出部31から供給された顔領域を示す座標情報と、各顔パーツの座標情報とに基づき、符号化対象フレーム200に対するスライス分割方法を決定する。本実施形態では、先ず、検出された顔領域の符号化対象フレーム200に占める割合に応じて、スライス分割を顔領域に基づき行うか、顔パーツに基づき行うかを判定する。
この判定は、例えば下記に示す式(1)を用いて行う。なお、式(1)において、値Vmaxは、顔領域の垂直方向の座標の最大値、値Vminは、垂直方向の最小値、値Vtotalは、符号化対象フレーム200の垂直方向のサイズをそれぞれ示す。また、閾値thは、例えば実験的に決定することができる。
th>(Vmax−Vmin)/Vtotal …(1)
閾値thの値は、スライスの分割数によって異なる。例えば符号化対象フレーム200を3スライスに分割する場合の一例として、閾値thを0.8とすることが考えられる。ここで、「0.8」とは、顔領域が画面垂直方向の領域の80%を占めることを示す。この場合、(Vmax−Vmin)/Vtotalの値が0.8を超えない場合には顔領域に基づいてスライス分割を行う。また、(Vmax−Vmin)/Vtotalの値が0.8以上の場合(閾値以上)には、顔パーツに基づきスライス分割を行う。
式(1)を満たす場合、顔領域が符号化対象フレーム200に占める割合が小さいものと判断することができる。この場合、スライス分割部32は、スライス分割を、顔領域を跨がないように行う。より具体的には、スライス分割部32は、顔領域を含む領域と含まない領域との境界に基づき、スライス分割位置を決定する。
この場合の例を、図3を用いてより具体的に説明する。図3(a)に例示されるように、符号化対象フレーム200から、顔領域202が対角をブロック座標(2,3)および(4,6)で示される矩形領域として検出され、この顔領域202が上述の式(1)を満たしているものとする。
スライス分割を画面の水平方向に行うものとして、この場合、顔領域202の上端を含むブロック座標(x,3)の上端と、顔領域202の下端を含むブロック座標(x,6)の下端とで、それぞれスライス分割を行う。すなわち、ブロック座標(x,2)より上側と、ブロック座標(x,7)の下側は、顔領域202を含まない領域である。一方、ブロック座標(x,4)の上端から(x,5)の下端までの範囲は、顔領域202を含むため、スライス分割を行わない。その結果、例えば図3(c)に例示されるように、符号化対象フレーム200がスライス#0〜スライス#2の3つのスライスに分割される。
一方、上述の式(1)を満たさない場合、顔領域202の符号化対象フレーム200に占める割合が大きすぎて、符号化対象フレーム200を適切にスライス分割することができないと考えられる。一例として、上述した図2(a)の例では、顔領域202が符号化対象フレーム200の上端のブロックから下端のブロックまで占めているので、顔領域202を跨がないようにスライス分割を行うことができない。本実施形態では、このような場合、各顔パーツの座標情報に基づきスライス分割を行う。
一例として、上述した図2(a)および図2(c)では、左目210、右目211および鼻212がブロック座標(2,2)、(3,2)、(4,2)および(5,2)に含まれている。また、口213がブロック座標(2,3)、(3,3)および(4,3)に含まれている。この場合、それぞれの顔パーツを含む領域と含まない領域との境界に基づき、ブロック座標(x,1)および(x,2)の間と、ブロック座標(x,2)および(x,3)の間と、ブロック座標(x,3)および(x,4)の間とで、それぞれスライス分割が行われる。
その結果、図2(d)に例示されるように、符号化対象フレーム200がスライス#0〜スライス#3の4つのスライスに分割される。
このように、顔領域の中でも顔の特徴となるパーツを跨がないようにスライス分割を行うことで、スライスを跨いだ予測符号化を行えないことによる画質の劣化が、これらのパーツ中に生じないようにすることができる。また、顔パーツに対するエラー耐性を高めることができる。
<実施形態の第1の変形例>
次に、本実施形態の第1の変形例について説明する。本実施形態の第1の変形例は、符号化対象フレーム200から複数の顔領域が検出された場合の例である。図4は、本実施形態の第1の変形例に適用可能な符号化装置101の一例の構成を示す。なお、図4において、上述した図1と共通する部分には同一の符号を付し、詳細な説明を省略する。
図4に示される符号化装置101は、上述した図1に示される符号化装置100に対して、中心近傍顔決定部33が追加された構成となっている。すなわち、本実施形態の第1の変形例では、顔検出部30により符号化対象フレーム200内に複数の顔領域が検出された際に、この複数の顔領域のうち符号化対象フレーム200の中心に最も近い顔領域(以下、中心近傍顔領域)を選択する。
そして、上述した式(1)による判定を行い、中心近傍顔領域の符号化対象フレーム200全体に占める割合が閾値thより大きいと判定された場合には、当該中心近傍顔領域に含まれる顔パーツを跨がないようなスライス分割を行う。一方、中心近傍顔領域の符号化対象フレーム200全体に占める割合が閾値thよりも小さいと判定された場合は、当該中心近傍顔領域を跨がないように、スライス分割を行う。
図5を用いて、より具体的に説明する。図5(a)に例示されるように、顔検出部30において、符号化対象フレーム200から顔領域220、221および222が検出されたものとする。顔領域220は、対角がブロック座標(0,0)および(2,1)で示される矩形領域として検出される。顔領域221は、対角がブロック座標(2,2)および(4,3)で示される矩形領域として検出される。また、顔領域222は、対角がブロック座標(4,0)および(6,2)で示される矩形領域として検出される。これら顔領域220〜222の検出結果は、中心近傍顔決定部33に供給される。
中心近傍顔決定部33は、顔検出部30から供給された顔領域の検出結果に基づき、顔検出部30で検出された複数の顔領域220〜222のうち符号化対象フレーム200による画面の中心に最も近い顔領域を判定する。
この判定は、例えば次式(2)を用いて行う。なお、式(2)において値xcenterおよび値ycenterは、符号化対象フレーム200による画面の中心の水平方向および垂直方向の座標をそれぞれ示す。また、値xおよび値y(ただし4≧n≧1)は、顔領域の各頂点(左上、右上、左下および右下)のxおよびy座標をそれぞれ示す。
cent_dist=(x−xcenter)+(y−ycenter) …(2)
式(2)により、値cent_distを符号化対象フレーム200から検出された各顔領域220〜222についてそれぞれ求め、値cent_distが最も小さくなる顔領域を、中心近傍顔領域に決定する。図5(a)の例では、顔領域220〜222のうち顔領域221について求められた値cent_distが最も小さく、顔領域221が中心近傍顔領域に決定される。
そして、この中心近傍顔領域について、式(1)による顔領域の大きさの判定が行われる。判定の結果、中心近傍顔領域に決定された顔領域221の符号化対象フレーム200全体に占める割合が閾値thよりも小さいと判定された場合は、顔領域221を跨がないように、スライス分割を行う。すなわち、顔領域221の上端を含むブロック座標(x,2)より上側と、顔領域221の下端を含むブロック座標(x,4)より下側は、顔領域221を含まない領域である。したがって、顔領域221を含む領域と含まない領域との境界に基づき、ブロック座標(x,2)の上端と、ブロック座標(x,4)の下端とでそれぞれスライス分割を行う。一方、ブロック座標(x,3)の領域は、顔領域221を含むため、スライス分割を行わない。
その結果、例えば図5(b)に例示されるように、符号化対象フレーム200がスライス#0〜スライス#2の3つのスライスに分割される。このとき、この例では、中心近傍顔領域ではない顔領域222を跨ぐスライス分割がなされている。
本実施の形態の第1の変形例では、符号化対象フレーム200から複数の顔領域が検出された場合に、注目度が高いと考えられる画面の中心に最も近い顔領域を跨がないようにスライス分割を行う。これにより、映像の重要度が高いと考えられる領域でスライス分割による画質の劣化を抑制することができる。また、検出された重要領域に対するエラー耐性を高めることができる。
なお、上述では、符号化対象フレーム200から検出された複数の顔領域のうち、画面の中心に最も近い顔領域に基づきスライス分割位置を決定したが、これはこの例に限定されない。例えば、ユーザ操作などにより符号化対象フレーム200内の位置を選択できるようにし、選択された位置に最も近い顔領域に基づきスライス分割位置を決定するようにしてもよい。
<本実施形態の第2の変形例>
次に、本実施形態の第2の変形例について説明する。本実施形態の第2の変形例は、上述した第1の変形例と同様に、符号化対象フレーム200から複数の顔領域が検出された場合の例である。図6は、本実施形態の第2の変形例に適用可能な符号化装置102の一例の構成を示す。なお、図6において、上述した図1と共通する部分には同一の符号を付し、詳細な説明を省略する。
図6に示される符号化装置102は、上述した図1に示される符号化装置100に対して、焦点近傍顔決定部34が追加された構成となっている。合焦位置取得手段としての焦点近傍顔決定部34は、例えばこの符号化装置102が適用される撮影装置の撮像光学系や撮像信号処理部から、符号化対象フレーム200内の合焦位置を示す情報を受け取る。例えば、瞳分割位相差方式や、像鮮鋭度方式により合焦制御を行っている場合、画面内の各位置において合焦判定を行うことができ、画面内での合焦位置を取得することができる。これに限らず、例えば画像データからエッジ情報を抽出して合焦判定を行うことも可能である。
一例として、上述した図5(a)に例示したように、顔検出部30において、符号化対象フレーム200から顔領域220〜222が検出されたものとする。顔領域220は対角がブロック座標(0,0)および(2,1)、顔領域221は対角がブロック座標(2,2)および(4,3)、顔領域222は対角がブロック座標(4,0)および(6,2)でそれぞれ示される矩形領域として検出される。これら顔領域220〜222の検出結果は、焦点近傍顔決定部34に供給される。
焦点近傍顔決定部34は、顔検出部30から供給された顔領域の検出結果に基づき、顔検出部30で検出された複数の顔領域220〜222のうち合焦位置に最も近い顔領域を判定する。
この判定は、例えば次式(3)を用いて行う。なお、式(3)において値xfocusおよび値yfocusは、合焦位置を含むブロックの水平方向および垂直方向の座標をそれぞれ示す。また、値xおよび値y(ただし4≧n≧1)は、顔領域の各頂点(左上、右上、左下および右下)のxおよびy座標をそれぞれ示す。
focus_dist=(x−xfocus)+(y−yfocus) …(3)
式(3)により、値focus_distを符号化対象フレーム200から検出された各顔領域220〜222についてそれぞれ求め、値focus_distが最も小さくなる顔領域を、焦点近傍顔領域に決定する。図5(a)において、例えば、顔領域220〜222のうち顔領域222について求められた値focus_distが最も小さく、顔領域222が焦点近傍顔領域として選択されたものとする。
そして、この焦点近傍顔領域について、式(1)による顔領域の大きさの判定が行われる。判定の結果、焦点近傍顔領域に決定された顔領域222の符号化対象フレーム200全体に占める割合が閾値thよりも小さいと判定された場合は、当該顔領域222を跨がないように、スライス分割を行う。図5(a)の例では、ブロック座標(x,1)の下端より下側は、顔領域222を含まない領域であるため、ブロック座標(x,1)の下端でスライス分割を行う。一方、ブロック座標(x,0)および(x,1)の範囲は、顔領域222を含むため、スライス分割を行わない。
その結果、例えば図7に例示されるように、符号化対象フレーム200がスライス#0およびスライス#1の2つのスライスに分割される。このとき、この例では、焦点近傍顔領域ではない顔領域221を跨ぐスライス分割がなされている。また、図7に点線で示されるように、スライス#1をさらにスライス分割し、符号化対象フレーム200を3つのスライス#0〜#2に分割してもよい。
このように、本実施の形態の第2の変形例では、符号化対象フレーム200から複数の顔領域が検出された場合に、注目度が高いと考えられる、画面内の合焦位置に最も近い顔領域を跨がないようにスライス分割を行う。これにより、映像の重要度が高いと考えられる領域でスライス分割による画質の劣化を抑制することができる。また、検出された重要領域に対するエラー耐性を高めることができる。
なお、上述では、本発明の実施形態および実施形態の各変形例において、粋ライス分割を水平方向にのみ行うように説明したが、これはこの例に限定されない。すなわちH.264では、スライスグループと呼ばれる技術により、例えばスライス分割を矩形状に行うことが可能とされている(フォアグラウンド/レフトオーバー)。この矩形状のスライス分割を、本発明に適用することも可能である。この場合、検出された顔領域や顔パーツ領域を含む矩形領域をスライスとすることが考えられる。
<他の実施形態>
上述の実施形態および各変形例は、システム或は装置のコンピュータ(或いはCPU、MPU等)によりソフトウェア的に実現することも可能である。
従って、上述の実施形態をコンピュータで実現するために、該コンピュータに供給されるコンピュータプログラム自体も本発明を実現するものである。つまり、上述の実施形態の機能を実現するためのコンピュータプログラム自体も本発明の一つである。
なお、上述の実施形態を実現するためのコンピュータプログラムは、コンピュータで読み取り可能であれば、どのような形態であってもよい。例えば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等で構成することができるが、これらに限るものではない。
上述の実施形態を実現するためのコンピュータプログラムは、記憶媒体又は有線/無線通信によりコンピュータに供給される。プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記憶媒体、MO、CD、DVD等の光/光磁気記憶媒体、不揮発性の半導体メモリなどがある。
有線/無線通信を用いたコンピュータプログラムの供給方法としては、コンピュータネットワーク上のサーバを利用する方法がある。この場合、本発明を形成するコンピュータプログラムとなりうるデータファイル(プログラムファイル)をサーバに記憶しておく。プログラムファイルとしては、実行形式のものであっても、ソースコードであっても良い。
そして、このサーバにアクセスしたクライアントコンピュータに、プログラムファイルをダウンロードすることによって供給する。この場合、プログラムファイルを複数のセグメントファイルに分割し、セグメントファイルを異なるサーバに分散して配置することも可能である。
つまり、上述の実施形態を実現するためのプログラムファイルをクライアントコンピュータに提供するサーバ装置も本発明の一つである。
また、上述の実施形態を実現するためのコンピュータプログラムを暗号化して格納した記憶媒体を配布し、所定の条件を満たしたユーザに、暗号化を解く鍵情報を供給し、ユーザの有するコンピュータへのインストールを許可してもよい。鍵情報は、例えばインターネットを介してホームページからダウンロードさせることによって供給することができる。
また、上述の実施形態を実現するためのコンピュータプログラムは、すでにコンピュータ上で稼働するOSの機能を利用するものであってもよい。
さらに、上述の実施形態を実現するためのコンピュータプログラムは、その一部をコンピュータに装着される拡張ボード等のファームウェアで構成してもよいし、拡張ボード等が備えるCPUで実行するようにしてもよい。
本発明の実施形態に適用可能な符号化装置の一例の構成を示すブロック図である。 本発明の実施形態によるスライス分割方法を説明するための図である。 スライス分割を顔領域を跨がないように行うことを説明するための図である。 本実施形態の第1の変形例に適用可能な符号化装置の一例の構成を示すブロック図である。 本発明の実施形態の第1の変形例によるスライス分割方法を説明するための図である。 本実施形態の第2の変形例に適用可能な符号化装置の一例の構成を示すブロック図である。 本発明の実施形態の第2の変形例によるスライス分割方法を説明するための図である。 従来技術によるスライス分割方法を説明するための図である。
符号の説明
10 フレームメモリ
13 量子化部
14 量子化制御部
15 符号化制御部
30 顔検出部
31 顔パーツ検出部
32 スライス分割部
33 中心近傍顔決定部
34 焦点近傍顔決定部
100,101,102 符号化装置

Claims (6)

  1. 画像データに対し、それぞれ単独に復号が可能なスライスを単位に符号化を行う符号化装置であって、
    画像データを符号化して符号化ストリームとして出力する符号化手段と、
    前記画像データに対して顔検出を行って顔領域を検出し、検出された該顔領域に含まれる顔パーツをさらに検出する顔検出手段と、
    前記顔検出手段で検出された前記顔領域の前記画像データによる画面に占める割合が閾値よりも小さいと判定したら、前記スライスの分割を行うスライス分割位置を該顔領域を含む領域と含まない領域との境界に基づき決定し、該割合が該閾値以上であると判定したら、該スライス分割位置を前記顔検出手段で該顔領域から検出された前記顔パーツを含む領域と含まない領域との境界に基づき決定するスライス分割位置決定手段と、
    前記符号化手段による前記符号化を制御して、前記スライス分割位置決定手段で決定された前記スライス分割位置で前記画像データに対する前記スライス分割を行う符号化制御手段と
    を有する
    ことを特徴とする符号化装置。
  2. 前記スライス分割位置決定手段は、
    前記顔検出手段で複数の前記顔領域が検出され、且つ、検出された該複数の顔領域それぞれの前記画面に占める割合が前記閾値より小さいと判定したら、前記複数の顔領域のうち前記スライス分割位置を決定するための前記顔領域を前記画面の中の位置に基づき選択する
    ことを特徴とする請求項1に記載の符号化装置。
  3. 前記スライス分割位置決定手段は、
    前記複数の顔領域のうち前記画面の中央に最も近い位置の前記顔領域に基づき前記スライス分割位置を決定する
    ことを特徴とする請求項2に記載の符号化装置。
  4. 前記画像データにおける合焦位置を取得する合焦位置取得手段をさらに有し、
    前記スライス分割位置決定手段は、
    前記顔検出手段で複数の前記顔領域が検出され、且つ、検出された該複数の顔領域それぞれの前記画面に占める割合が前記閾値より小さいと判定したら、前記複数の顔領域のうち前記スライス分割位置を決定するための前記顔領域を前記合焦位置取得手段で取得された前記合焦位置に基づき選択する
    ことを特徴とする請求項1に記載の符号化装置。
  5. 画像データに対し、それぞれ単独に復号が可能なスライスを単位に符号化を行う符号化装置における符号化方法であって、
    前記符号化装置の符号化手段が、画像データを符号化して符号化ストリームとして出力する符号化ステップと、
    前記符号化装置の顔検出手段が、前記画像データに対して顔検出を行って顔領域を検出し、検出された該顔領域に含まれる顔パーツをさらに検出する顔検出ステップと、
    前記符号化装置のスライス分割位置決定手段が、前記顔検出ステップで検出された前記顔領域の前記画像データによる画面に占める割合が閾値よりも小さいと判定したら、前記スライスの分割を行うスライス分割位置を該顔領域を含む領域と含まない領域との境界に基づき決定し、該割合が該閾値以上であると判定したら、該スライス分割位置を前記顔検出ステップで該顔領域から検出された前記顔パーツを含む領域と含まない領域との境界に基づき決定するスライス分割位置決定ステップと、
    前記符号化装置の符号化制御手段が、前記符号化ステップによる前記符号化を制御して、前記スライス分割位置決定ステップで決定された前記スライス分割位置で前記画像データに対する前記スライス分割を行う符号化制御ステップと
    を有する
    ことを特徴とする符号化方法。
  6. コンピュータを請求項1乃至請求項4の何れか1項に記載の符号化装置の各手段として機能させるプログラム。
JP2008246592A 2008-09-25 2008-09-25 符号化装置および符号化方法 Expired - Fee Related JP5063548B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008246592A JP5063548B2 (ja) 2008-09-25 2008-09-25 符号化装置および符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008246592A JP5063548B2 (ja) 2008-09-25 2008-09-25 符号化装置および符号化方法

Publications (3)

Publication Number Publication Date
JP2010081240A JP2010081240A (ja) 2010-04-08
JP2010081240A5 JP2010081240A5 (ja) 2011-10-27
JP5063548B2 true JP5063548B2 (ja) 2012-10-31

Family

ID=42211196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008246592A Expired - Fee Related JP5063548B2 (ja) 2008-09-25 2008-09-25 符号化装置および符号化方法

Country Status (1)

Country Link
JP (1) JP5063548B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5485851B2 (ja) 2010-09-30 2014-05-07 日本電信電話株式会社 映像符号化方法,映像復号方法,映像符号化装置,映像復号装置およびそれらのプログラム
JP2013012996A (ja) * 2011-06-30 2013-01-17 Sony Corp 画像処理装置および方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10300048B4 (de) * 2002-01-05 2005-05-12 Samsung Electronics Co., Ltd., Suwon Verfahren und Vorrichtung zur Bildcodierung und -decodierung
CN101053258A (zh) * 2004-11-04 2007-10-10 皇家飞利浦电子股份有限公司 用于处理编码的视频数据的方法和设备
JP2007013771A (ja) * 2005-07-01 2007-01-18 Matsushita Electric Ind Co Ltd 画像符号化装置及び画像符号化方法
JP2007041866A (ja) * 2005-08-03 2007-02-15 Canon Inc 情報処理装置及び情報処理方法並びにプログラム
JP2007235314A (ja) * 2006-02-28 2007-09-13 Sanyo Electric Co Ltd 符号化方法

Also Published As

Publication number Publication date
JP2010081240A (ja) 2010-04-08

Similar Documents

Publication Publication Date Title
JP4372197B2 (ja) 画像符号化装置及び画像復号装置
KR102032771B1 (ko) 화상 예측 부호화 장치, 화상 예측 부호화 방법, 화상 예측 복호 장치, 및 화상 예측 복호 방법
JP4703449B2 (ja) 符号化方法
JP5195032B2 (ja) 符号化装置/復号化装置、符号化方法/復号化方法及びプログラム
KR102162856B1 (ko) 비디오 모션 보상을 위한 장치 및 방법
JP2006114979A (ja) 画像符号化装置及びその方法
EP3818713B1 (en) Apparatus for block-based predictive video coding
JP3823767B2 (ja) 動画像の前景背景領域分離方法、及びその方法を用いた条件付画素補填による動画像符号化方法
KR101623064B1 (ko) 영상 부호화 장치, 영상 부호화 방법 및 영상 부호화 프로그램
JP2007336468A (ja) 再符号化装置、再符号化方法およびプログラム
US9930352B2 (en) Reducing noise in an intraframe appearance cycle
JP5063548B2 (ja) 符号化装置および符号化方法
JP2009218965A (ja) 画像処理装置、それを搭載した撮像装置、および画像再生装置
KR101668133B1 (ko) 화상 데이터의 블록을 예측하는 방법, 이 방법을 실행하는 복호 장치 및 부호화 장치
JP6200220B2 (ja) 画像処理装置、符号化装置、復号装置、及びプログラム
JP6313614B2 (ja) 動画像符号化装置及びその制御方法
EP2981082A1 (en) Method for encoding a plurality of input images and storage medium and device for storing program
JP5171675B2 (ja) 画像処理装置、およびそれを搭載した撮像装置
US11336889B2 (en) Moving image encoding device and method for reducing flicker in a moving image
JP2008199521A (ja) 画像処理装置およびその方法
KR100728032B1 (ko) 워핑 기반의 인트라 예측 방법
JP5274181B2 (ja) 動画像符号化装置および動画像符号化方法
WO2012153440A1 (ja) 予測ベクトル生成方法、予測ベクトル生成装置、予測ベクトル生成プログラム、画像符号化方法、画像符号化装置、画像符号化プログラム、画像復号方法、画像復号装置、及び画像復号プログラム
JP2012191450A (ja) 画像符号化装置
JP2011166357A (ja) 画像符号化装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110912

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120709

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120807

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees