JP2008278467A

JP2008278467A - 画像処理装置および画像処理方法

Info

Publication number: JP2008278467A
Application number: JP2008046562A
Authority: JP
Inventors: Shigeyuki Okada; 茂之岡田; Tsugio Mori; 次男森; Hideto Fujita; 日出人藤田; Masahiko Yamada; 晶彦山田
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2007-03-30
Filing date: 2008-02-27
Publication date: 2008-11-13
Also published as: CN101276410A; JP2008278466A

Abstract

【課題】オブジェクト検出技術を様々なアプリケーションに有効に利用したい。
【解決手段】制御部１４は、動画像が符号化または復号化される際にピクチャ単位で生成され、動画像に含まれるピクチャ内で検出された特定のオブジェクトに関する情報を含むオブジェクト検出情報を取得し、そのオブジェクト検出情報をもとに所定の表示を生成する。表示部１７は、制御部１４により生成された所定の表示を画面内に表示する。オブジェクト検出情報には、同一ピクチャ内で検出されたオブジェクトの数が含まれてもよい。
【選択図】図１

Description

本発明は、顔検出など、特定のオブジェクト検出を行うことができる画像処理装置および画像処理方法に関する。

デジタルビデオカメラが広く普及してきており、今まで以上に、一般ユーザが動画を手軽に撮影できるようになってきている。一般ユーザは、子供の運動会など人物を被写体とすることが多い。

特許文献１は、人物の顔が最も良く写っている画像のみを高解像度で記録する技術を開示する。
特開２００６−２５４３０８号公報

上記特許文献１に開示されているように、顔など特定のオブジェクトの検出技術は記録容量の最適化に利用されたり、また、オートフォーカス制御に利用されたりする。本発明者は、これらの用途以外で、オブジェクト検出技術を利用した有効な用途を見出した。

本発明はこうした状況に鑑みなされたものであり、その総括的な目的は、オブジェクト検出技術を利用して有効なアプリケーションを実現することができる画像処理装置および画像処理方法を提供することにある。

本発明のある態様の画像処理装置は、動画像を符号化する符号化部と、符号化部により生成された符号化データから符号化ストリームを生成するストリーム生成部と、動画像に含まれるピクチャ内から特定のオブジェクトを検出し、同一ピクチャ内で検出されたオブジェクトの数を少なくとも含むオブジェクト検出情報をピクチャ単位で生成するオブジェクト検出部と、を備える。ストリーム生成部は、符号化ストリーム内の所定の領域にオブジェクト検出情報を記述する。

本発明によれば、オブジェクト検出技術を利用して、有効なアプリケーションを実現することができる。

まず、本発明を詳細に説明する前に、代表的な実施態様について説明する。
本発明のある態様の画像処理装置は、動画像を符号化する符号化部と、符号化部により生成された符号化データから符号化ストリームを生成するストリーム生成部と、動画像に含まれるピクチャ内から特定のオブジェクトを検出し、同一ピクチャ内で検出されたオブジェクトの数を少なくとも含むオブジェクト検出情報をピクチャ単位で生成するオブジェクト検出部と、を備える。ストリーム生成部は、符号化ストリーム内の所定の領域にオブジェクト検出情報を記述する。「ピクチャ」は符号化の単位であり、その概念にはフレーム、フィールド、ＶＯＰ（Video Object Plane）などが含まれてもよい。「特定のオブジェクト」は、人間の顔であってもよいし、人間以外の動物の顔であってもよいし、自動車などの物体であってもよい。

この態様によると、オブジェクト検出情報を符号化ストリーム内に記述することにより、このオブジェクト検出情報を利用して、検索処理などの有効なアプリケーションを実現することができる。

オブジェクト検出部は、オブジェクトの数に加えて、オブジェクトの大きさ、オブジェクトの位置、オブジェクトの超解像処理用の、冗長データの有無、ユーザ登録されているオブジェクトの検出の有無、および検出したオブジェクトの確からしさのうち、少なくとも一つをオブジェクト検出情報に含めてもよい。ユーザ登録されているオブジェクトとして、たとえば特定人物の顔やペットの顔などが該当する。

上述した特定のオブジェクトが顔の場合、オブジェクト検出部は、オブジェクトとして検出した顔の数を、正面顔の数と側面顔の数に分けてオブジェクト検出情報に含めてもよい。ここで、顔を人の顔と設定する場合、人の顔であれば誰の顔であれ一つとカウントされる。

上述した特定のオブジェクトが顔の場合、オブジェクト検出部は、オブジェクトとして検出した顔の数に加えて、オブジェクトとして検出した顔の笑顔度をオブジェクト検出情報に含めてもよい。

ストリーム生成部は、オブジェクト検出情報を、符号化ストリーム内の対応するピクチャのヘッダ領域またはユーザの書き込みが許可されている領域に記述してもよい。ストリーム生成部は、オブジェクト検出情報に含まれるオブジェクトの数が変化したとき、そのオブジェクト検出情報を対応するピクチャのヘッダ領域またはユーザの書き込みが許可されている領域に記述し、オブジェクト検出情報に含まれるオブジェクトの数が変化しないとき、そのオブジェクト検出情報の記述処理をスキップしてもよい。これによると、オブジェクト検出情報の付加に必要な容量を低減することができる。

本発明の別の態様もまた、画像処理装置である。この装置は、動画像を符号化する符号化部と、動画像に含まれるピクチャ内から特定のオブジェクトを検出し、同一ピクチャ内で検出されたオブジェクトの数を少なくとも含むオブジェクト検出情報をピクチャ単位で生成するオブジェクト検出部と、符号化部により生成された符号化データから動画像ファイルを生成し、その動画像ファイルと別に、オブジェクト検出部により生成されたオブジェクト検出情報からオブジェクト検出情報ファイルを生成するファイル生成部と、を備える。

この態様によると、オブジェクト検出情報ファイルを生成することにより、このファイルを利用して、検索処理などの有効なアプリケーションを実現することができる。

本発明のさらに別の態様は、撮像装置である。この装置は、動画像を撮像する撮像素子と、撮像素子により撮像された動画像を処理する、上述したいずれかの態様の画像処理装置と、を備える。

この態様によると、検索処理などの有効なアプリケーションを実現することができる撮像装置を構築することができる。

上述した画像処理装置により処理された動画像を表示する表示部と、動画像に含まれるピクチャと、そのピクチャに対応するオブジェクト検出情報を関連付けて表示部に表示させる制御部と、をさらに備えてもよい。制御部は、表示させるべきピクチャと、そのピクチャに対応するオブジェクト検出数を関連付けて表示させてもよい。これによると、ユーザの検索作業を支援することができる。

オブジェクト検出情報を参照して、指定された条件を満たすピクチャを検索する制御部をさらに備えてもよい。これによると、検索効率を向上させることができる。

本発明の別の態様もまた、画像処理装置である。この装置は、符号化された動画像を復号して表示する画像処理装置であって、ピクチャ単位で生成され、動画像に含まれるピクチャ内で検出された特定のオブジェクトに関するオブジェクト検出情報を取得し、そのオブジェクト検出情報をもとに動画像の時間軸上でオブジェクトが含まれるピクチャを識別可能な表示を生成する制御部と、制御部により生成された表示を画面内に表示する表示部と、を備える。オブジェクト検出情報は、動画像が符号化または復号化される際に生成されてもよい。

オブジェクト検出情報には、同一ピクチャ内で検出されたオブジェクトの数、オブジェクトの大きさ、オブジェクトの位置、オブジェクトの超解像処理用の、冗長データの有無、オブジェクト（顔に設定される場合）の笑顔度、ユーザ登録されているオブジェクトの検出の有無、および検出したオブジェクトの確からしさのうち、少なくとも一つが含まれる。

オブジェクト検出情報に、同一ピクチャ内で検出されたオブジェクトの数が含まれる場合、制御部は、動画像の時間軸上でオブジェクトの数が変化する位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの数が変化する位置にインデックスを表示してもよい。また、インデックスの近傍にオブジェクトの数を表示してもよい。オブジェクトが人物の場合で、正面顔と側面顔の数が別々に記録されている場合、正面顔および側面顔のそれぞれについて当該インデックスと顔の数を表示してもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの大きさが含まれる場合、制御部は、動画像の時間軸上でオブジェクトの大きさが所定の設定値より大きいピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの大きさが所定の設定値より大きいピクチャの位置にインデックスを表示してもよい。所定の設定値はユーザにより調整されてもよい。

オブジェクト検出情報に、ユーザ登録されているオブジェクトのピクチャ内での検出の有無が含まれる場合、制御部は、動画像の時間軸上でユーザ登録されているオブジェクトが検出された位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトが検出された位置にインデックスを表示してもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの超解像処理用の、冗長データの有無が含まれる場合、制御部は、動画像の時間軸上でその冗長データを用いた超解像処理が可能なピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、上記冗長データを用いた超解像処理が可能なピクチャの位置にインデックスを表示してもよい。また、その冗長データを用いた超解像処理が可能なピクチャが続く場合、その部分を当該バー上において他の部分と異なる色や模様で表示してもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの位置が含まれる場合、制御部は、動画像の時間軸上でオブジェクトの位置が所定の領域（たとえば、画面内の中央領域）に含まれるピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの位置が所定の領域に含まれるピクチャの位置にインデックスを表示してもよい。所定の領域はユーザにより調整されてもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの笑顔度が含まれる場合、制御部は、動画像の時間軸上でオブジェクトの笑顔度が所定の設定値より大きいピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの笑顔度が所定の設定値より大きいピクチャの位置にインデックスを表示してもよい。所定の設定値はユーザにより調整されてもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの確からしさが含まれる場合、制御部は、動画像の時間軸上でオブジェクトの確からしさが所定の設定値より大きいピクチャの位置が識別可能な表示を生成してもよい。たとえば、動画像の全再生時間をバーで表示し、オブジェクトの確からしさが所定の設定値より大きいピクチャの位置にインデックスを表示してもよい。所定の設定値はユーザにより調整されてもよい。

これらの態様によれば、ユーザは視聴したい画像を簡単に検索することができる。上記インデクックスが選択されるとそのピクチャの位置にジャンプするように設計すれば、ユーザはそのインデクックスを選択することにより視聴したい画像に簡単に到達することができる。

本発明の別の態様もまた、画像処理装置である。この装置は、符号化された動画像を復号して表示する画像処理装置であって、ピクチャ単位で生成され、動画像に含まれるピクチャ内で検出された特定のオブジェクトに関するオブジェクト検出情報を取得し、そのオブジェクト検出情報をもとに動画像のダイジェストを生成する制御部と、制御部により生成されたダイジェストを再生表示する表示部と、を備える。

オブジェクト検出情報に、同一ピクチャ内で検出されたオブジェクトの数が含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、オブジェクトの数が多いピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。たとえば、１／２に設定されれば、動画像全体の再生時間の、半分の再生時間の動画ダイジェストが生成される。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの大きさが含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、オブジェクトの大きさが大きいピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。

オブジェクト検出情報に、ユーザ登録されているオブジェクトのピクチャ内での検出の有無が含まれる場合、制御部は、動画像からオブジェクトが検出されたピクチャを抽出し、それらのピクチャをつなげて動画ダイジェストを生成してもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの超解像処理用の、冗長データの有無が含まれる場合、制御部は、動画像からその冗長データを用いた超解像処理が可能なピクチャを抽出し、それらのピクチャを超解像処理した後、つなげて動画ダイジェストを生成してもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの位置が含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、オブジェクトの位置が画面内の所定位置に近いピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。所定位置は画面内の中央であってもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの位置が含まれる場合、制御部は、隣接するピクチャ間のオブジェクトの位置の差分をオブジェクトの動きとして特定し、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、前のピクチャとの比較においてオブジェクトの動きが大きいピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの笑顔度が含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、動画像からオブジェクトの笑顔度が高いピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。

オブジェクト検出情報に、ピクチャ内で検出されたオブジェクトの確からしさが含まれる場合、制御部は、動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、動画像からオブジェクトの確からしさが高いピクチャの上位から、その比率に対応する枚数分、抽出してもよい。上記比率はユーザにより調整されてもよい。

なお、オブジェクト検出情報に含まれる複数のパラメータで生成される各ダイジェストをＡＮＤ条件またはＯＲ条件で論理演算した後のダイジェストを最終的なダイジェストとしてもよい。なお、上記比率はパラメータごとに異なるものを用いることができる。

これらの態様によれば、ユーザは視聴したい画像を含むダイジェストを簡単に生成することができる。また、種々のカスタマイズが可能であり、ユーザの趣向を反映させたダイジェストを簡単に生成することができる。

本発明のさらに別の態様は、画像処理方法である。この方法は、動画像を符号化して符号化ストリームを生成するとき、動画像に含まれるピクチャ内から特定のオブジェクトを検出し、それをもとにオブジェクト検出情報をピクチャ単位で生成し、そのオブジェクト検出情報を符号化ストリーム内に、または符号化ストリームに関連付けて記録する。

この態様によると、オブジェクト検出情報を利用して、検索処理などの有効なアプリケーションを実現することができる。

本発明のさらに別の態様もまた、画像処理方法である。この方法は、ピクチャ単位で特定されたオブジェクト検出情報を利用して、動画像から所定の条件を満たしたピクチャを検索する。オブジェクト検出情報にはオブジェクト検出数が含まれ、当該オブジェクト検出数と、指定されたオブジェクトの数が対応したピクチャを検索してもよい。

この態様によると、オブジェクト検出情報を利用して検索することにより、検索効率を向上させることができる。

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

以下、実施の形態において、特定のオブジェクトとして人物の顔を検出する技術を利用した例を説明する。なお、検出対象は人間の顔に限定されるものではなく、犬や猫などのペットの顔や、自動車、電車および船舶などの物体などにも適用可能である。
図１は、実施の形態１に係る撮像装置１００の構成図である。実施の形態１に係る撮像装置１００は、撮像部１０、信号処理部１２、画像処理部２０、制御部１４、顔登録部１５、操作部１６、表示部１７および記録部１８を備える。画像処理部２０は、顔検出部２２、符号化部２４、ストリーム生成部２６および復号部２８を含む。画像処理部２０の構成は、ハードウェア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウェア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは、当業者には理解されるところである。

撮像部１０は、ＣＣＤ（Charge Coupled Devices）センサやＣＭＯＳ（Complementary Metal-Oxide Semiconductor）イメージセンサなどの撮像素子を備え、撮像素子で撮像した画像を電気信号に変換し、信号処理部１２に出力する。

信号処理部１２は、撮像部１０から出力されたＲＧＢフォーマットのアナログ信号を、ＹＵＶフォーマットのデジタル信号に変換する。信号処理部１２は、変換後の画像信号を顔検出部２２および符号化部２４にフレーム単位で並列に出力する。

顔検出部２２は、信号処理部１２から入力される画像内から人物の顔を検出する。顔検出は、公知の方法で行えばよく、とくに限定されるものではない。たとえば、エッジ検出法、ブースティング法、色相抽出法または肌色抽出法による顔検出方法を用いることができる。

エッジ検出法は、あらかじめ顔の大きさや濃淡値を正規化した顔画像の目、鼻、口、顔の輪郭などを含む顔領域から様々なエッジ特徴を抽出し、顔であるか否かを識別するのに有効な特徴量を統計的手法に基づき学習することにより顔識別器を構築する。

入力画像の中から顔を検出するために、学習の際に正規化した顔サイズで入力画像の端からラスタスキャンしながら、同様な特徴量を抽出する。その特徴量から、識別器によりその領域が顔か否か判断する。特徴量には、例えば、水平エッジ、垂直エッジ、右斜めエッジ、左斜めエッジなどを用いることができる。顔が検出されなければ、入力画像を一定の割合で縮小し、縮小後の画像に対して、上記と同様にラスタスキャンしながら顔を検索する。このような処理を繰り返すことにより、画像中から任意の大きさの顔を見つけることができる。

また、エッジ検出法より精度は低くなるが高速処理したい場合、ブースティング法を用いてもよい。ブースティング法は、エッジを用いずに、目鼻などの顔の陰影をあらかじめ登録された顔検出パターンの陰影と比較することにより、画像中から顔を検出する。

その他の顔検出方法として以下のような方法を用いてもよい。顔候補領域を抽出して、この顔候補領域を小領域に分割して、各領域の特徴量を予め設定した顔領域パターンと照合して、その確度から顔領域を抽出する方法、もしくは顔候補領域を抽出して、各候補領域の重複度から確度を評価して顔領域を抽出する方法を用いてもよい。さらに、顔候補領域を抽出して、各候補領域の濃度が所定の閾値に対応する値である場合に、胴体候補領域を抽出し、顔および胴体候補領域の濃度または彩度コントラストを用いて確度を評価して、顔領域を抽出する方法を用いてもよい。

顔検出部２２は、各フレーム内から一つ以上の顔を検出すると、その検出した顔の数と、その顔が検出されたフレームの識別情報を顔検出情報としてストリーム生成部２６に出力する。また、検出した位置も顔検出情報に含めてもよい。なお、顔検出処理は、すべてのフレームに対して行ってもよいし、数フレームおきに行ってもよい。

顔検出部２２は、正面顔と側面顔を分類して検出することができる。辞書登録データとして、両目が写った状態の正面顔のパターンと、片目しか写っていない状態の側面顔のパターンとがあらかじめ登録されていれば分類可能である。

また、顔検出部２２は、ユーザによってあらかじめ登録されたユーザ登録パターンを各フレーム内に検出した場合、その情報をストリーム生成部２６に出力するとともに、フレーム内におけるユーザ登録パターンの位置を符号化部２４に出力する。

符号化部２４は、信号処理部１２から入力される画像信号を、所定の規格に準拠し圧縮符号化する。たとえば、国際標準化機関であるＩＳＯ（International Organization for Standardization）／ＩＥＣ（International Electrotechnical Commission）によって標準化されたＭＰＥＧシリーズの規格（ＭＰＥＧ−１、ＭＰＥＧ−２およびＭＰＥＧ−４）、電気通信に関する国際標準機関であるＩＴＵ−Ｔ（International Telecommunication Union-Telecommunication Standardization Sector）によって標準化されたＨ．２６ｘシリーズの規格（Ｈ．２６１、Ｈ．２６２およびＨ．２６３）、もしくは両方の標準化機関によって合同で標準化された動画像圧縮符号化標準規格であるＨ．２６４／ＡＶＣ（両機関における正式勧告名はそれぞれMPEG-4 Part 10: Advanced Video CodingとH.264）に準拠して動画像の符号化を行う。符号化部２４は、圧縮符号化した画像信号をストリーム生成部２６に出力する。

符号化部２４は、顔検出部２２によりユーザ登録パターンが検出された場合、顔検出部２２から入力される位置情報を参照して、そのユーザ登録パターンをフレーム内にて追従する。なお、符号化部２４には、記録すべき画素数の画素領域より大きな画素領域を持つ画像信号が入力されてもよい。この画素領域の余剰領域は、手振れ補正用に利用される領域であってもよい。この場合、符号化部２４は、上記ユーザ登録パターンが記録用の画素領域からはみ出すと、そのユーザ登録パターンが記録用の画素領域に含まれるよう、上記余剰領域を使用して、記録用の画素領域を移動させる。なお、移動させても上記ユーザ登録パターンがはみ出してしまう場合、ユーザ登録パターンを構成する画素が最も多く含まれるように、記録用の画素領域を移動させる。

ストリーム生成部２６は、符号化部２４から入力されるＭＰＥＧ形式の符号化データに、顔検出部２２から入力される顔検出情報を重畳して、符号化ストリームを生成する。たとえば、各フレームのヘッダ領域や、ヘッダ領域の後に設定される機能拡張情報やコメントなどを記述するための領域などに、対応するフレームの顔検出情報を記述する。また、フレーム単位ではなく、ストリーム、シーケンス、ＧＯＰのヘッダ領域などにまとめて記述してもよい。また、スライス、マクロブロック単位で記述してもよい。

また、ストリーム生成部２６は、顔検出情報をフレームごとに特定するのではなく、顔検出情報に変化があった場合に、その情報をもとに記述すべき内容を決定してもよい。たとえば、顔を検出した最初のフレームにその顔検出数を記述した後、その顔検出数が変化しない期間のフレームについては、顔検出情報を記述しない。顔検出数が変化したフレームが出現したら、そのフレームにその顔検出数を記述する。以下同様に処理する。このような処理によれば、すべてのフレームについて顔検出情報を特定して、いずれかの領域に記述する場合より、データ容量を削減することができる。

ストリーム生成部２６は、ビデオストリームとオーディオストリームを同期させて多重化し、ＭＰＥＧ−２プログラムストリームまたはＭＰＦＧ−２トランスポートストリームを生成し、制御部１４に出力する。

顔登録部１５は、顔検出部２２で特別な顔パターンとして認識されるべき、上述したユーザ登録パターンを、制御部１４を介して顔検出部２２に登録する。たとえば、撮像部１０を用いて、子供の顔を撮像して登録することができる。操作部１６は、シャッターボタンなどの各種ボタンを含む。ユーザは、操作部１６を操作することにより、後述する検索条件などを制御部１４に指定することができる。

表示部１７は、撮像中の画像や、記録部１８に記録された画像を表示したり、各種の設定画面や各種のステータス情報などを表示する。本実施の形態では、後述するように、撮像中の動画像や再生中の動画像の画面に、顔の数などの顔検出情報を関連付けて表示する。記録部１８は、メモリーカードスロット、光ディスク、またはＨＤＤを備え、撮像された画像などを記録媒体に記録する。

制御部１４は、撮像装置１００全体を制御する。本実施の形態では、主に以下の処理を行う。撮像中の動画像や再生中の動画像を表示部１７に表示させる際、表示させるべき符号化ストリームを復号部２８に渡して、復号する。そのとき、復号部２８で抽出された顔検出情報を解読して、表示させるべき画像にその顔検出情報を付加して表示させる。

また、再生された動画像からユーザが選択したフレームを静止画ファイルとして抽出する機能を搭載している場合、そのフレームがフレーム間符号化されたフレームである場合、そのフレームの参照フレームをすべて抽出し、たとえば、ＪＰＥＧ(Joint Photographic Expert Group）ファイルとして再構築する。

次に、本実施の形態に係る撮像装置１００における顔検出情報の利用方法について説明する。まず、基本的な検索方法や表示方法について説明する。

図２（ａ）は、所定の検索条件を満たしたフレームの位置を検索する例である。制御部１４は、表示部１７に動画像を表示する際、時間経過を示す時間経過バー３２を、動画像の表示欄３０の下に合わせて表示する。図２の例では、動画像の表示欄３０には、時間経過バー３２の一番右端の状態、すなわち時間的に最も先行する画像が表示されている。時間経過バー３２の下に表示させる矢印３３は、所定の検索条件を満たしたフレームの位置を示すインデックス表示である。たとえば、所定の検索条件として、顔の数に変化があったフレームや、上記ユーザ登録パターンが検出されたフレームを検索するよう、指定することができる。図２（ａ）は、顔の数に変化があったフレームの位置を検索するよう指定された例を示しており、時間経過と共に、顔の数が三回変化したことを示す。

図２（ｂ）は、画像内の顔の数を単純に表示する例である。時間経過バー３２の下に表示させる第１数値表記３４は、各フレームで検出される顔の数を示す。図２（ｂ）の例では、時間経過と共に、顔の数が、２→３→２と遷移し、現在は２を維持している状態である。

図２（ｃ）は、画像内の顔の数を正面顔と側面顔に分類して表示する例である。時間経過バー３２の直下に表示させる第２数値表記３５は、各フレームで検出された正面顔の数を示す。第２数値表記３５の下に表示させる第３数値表記３６は、各フレームで検出された側面顔の数を示す。図２（ｃ）の例では、時間経過と共に、正面顔の数が、２→３→２と遷移し、現在は２を維持している状態である。側面顔の数が、０→１→０と遷移し、現在は０を維持している状態である。なお、顔の数の合計と、側面顔の数を表示してもよいし、正面顔の数、側面顔の数およびそれらの合計をすべて表示してもよい。

以下、顔検出情報の表示方法についてより具体的な例で説明する。
図３は、実施の形態１に係る撮像装置１００における表示例１を示す。図３は、動画像のコマ送り表示画面を示す。この動画像は、時間経過順に、第１画像４０→第２画像４２→第３画像４４と遷移していく。上述したように、時間経過バー３２の直下に表示させる第２数値表記３５は、各フレームで検出される正面顔の数を示す。第４数値表記３７は、ユーザ登録パターンの検出数を示す。

第１画像４０では、二人の人物Ａ、Ｂが写っており、ユーザ登録パターンで特定される人物Ｃが写っていないため、第２数値表記３５が２、第４数値表記３７が０と表示される。第２画像４２では、ユーザ登録パターンで特定される人物Ｃが入ってきたため、第２数値表記３５が３、第４数値表記３７が１と表示される。第３画像４４では、人物Ａが横を向いたため、第２数値表記３５が２、第４数値表記３７が１と表示される。

図４は、実施の形態１に係る撮像装置１００における表示例２を示す。表示例１と同様に、第１画像４０では、二人の人物Ａ、Ｂが写っており、ユーザ登録パターンで特定される人物Ｃが写っていないため、第２数値表記３５が２、第４数値表記３７が０と表示される。第２画像４２では、ユーザ登録パターンで特定される人物Ｃが入ってきたため、第２数値表記３５が３、第４数値表記３７が１と表示される。

点線で囲まれた画素領域を持つ第３画像４４では、人物Ｃの右半身の一部が切れている。人物Ｃの顔がユーザ登録パターンに該当する場合、符号化部２４は、顔検出部２２から人物Ｃの顔の位置情報を受けて、人物Ｃの顔を追尾する。符号化部２４は、人物Ｃの顔が記録用の画素領域内に入るように、記録用の画素領域を右に移動させる。第４画像４６は、移動された後の画素領域を持つ画像である。実際に記録され、表示される画像は、第３画像４４ではなく、第４画像４６となる。第４画像４６では、人物Ａが横を向き、人物Ｃが依然として画像内に存在するため、第２数値表記３５が２、第４数値表記３７が１と表示される。

図５は、実施の形態１に係る撮像装置１００における表示例３を示す。表示例１と同様に、第１画像４０では、二人の人物Ａ、Ｂが写っており、ユーザ登録パターンで特定される人物Ｃが写っていないため、第２数値表記３５が２、第４数値表記３７が０と表示される。第２画像４２では、ユーザ登録パターンで特定される人物Ｃが入ってきたため、第２数値表記３５が３、第４数値表記３７が１と表示される。第３画像４４では、人物Ａが横を向いたため、第２数値表記３５が２、第４数値表記３７が１と表示される。

ユーザは、操作部１６から検索条件を指定することにより、当該動画像内から所定の条件を満たしたフレームまたはシーンを検索することができる。図５は、正面顔の数が３を超えるフレームまたはシーンを検索するよう、指定された例である。時間経過バー３２の斜線で表記された期間３９が当該検索条件を満たす期間である。

以上説明したように本実施の形態によれば、顔検出情報を利用して有効なアプリケーションを実現することができる。すなわち、顔検出数を利用することにより、検索効率を向上させることができる。たとえば、ユーザが動画像中から三人で集合しているシーンを検索したい場合、顔が三つ検出されたフレームを検索するよう条件を指定することにより、そのシーンの開始位置を容易に検索することができる。また、ユーザが自分の子供の顔をユーザ登録パターンとしてあらかじめ登録した場合、そのユーザ登録パターンを含むフレームを検索するよう条件を指定することにより、目的とする子供の顔が写ったフレームを容易に検索することができる。とくに、このような検索機能は、動画像中からベストショットを抽出して、静止画像を生成する際に有効である。また、動画像を再生する際の頭出しや、編集作業にも有効である。

また、表示部１７に画像を表示させる際、顔の数も表示させることにより、検索作業を支援することができる。電子機器の取り扱いに不慣れなユーザでも、時間経過バー３２に関連付けて表示されている顔の数にもとづいて、検索すべきフレームまたはシーンの位置を直感的に実感することができる。すなわち、検索条件の入力などの煩雑な操作をしなくても、所望のフレームやシーンを容易に検索することができる。

図６は、実施の形態２に係る撮像装置１１０の構成図である。実施の形態２に係る撮像装置１１０は、実施の形態１と比較して、顔検出情報の記述方法が異なる。実施の形態２に係る撮像装置１１０の構成は、画像処理部２０を除いて実施の形態１に係る撮像装置１００の構成と同じである。

実施の形態２に係る画像処理部２０は、顔検出部２２、符号化部２４、顔検出情報ファイル生成部２５、動画像ファイル生成部２７および復号部２８を備える。ストリーム生成部２６は設けられない。顔検出情報ファイル生成部２５は、顔検出部２２で検出された顔検出情報をテーブル化して一つまたは複数の顔検出情報ファイルを生成する。たとえば、フレームの識別番号と、フレームごとの顔検出数をテーブル化してもよい。動画像ファイル生成部２７は、符号化部２４で生成された符号化データから、ＭＰＥＧファイルなどの動画像ファイルを生成する。この動画像ファイルと上記顔検出情報ファイルは、制御部１４を介して記録部１８に記録される。さらに、この動画像ファイルと上記顔検出情報ファイルは、一つのファイルに結合されて記録されてもよい。

以上説明したように実施の形態２によれば、実施の形態１と同様の効果を奏する。加えて、顔検出情報を別ファイルとして生成するため、撮像装置１１０から後述する画像再生装置２００に上記動画像ファイルを有線または無線伝送路を介して送信する場合、必要なフレームやシーンのみを通信することができ、伝送容量を削減することができる。すなわち、画像再生装置２００は、上記顔検出情報ファイルを先に受信し、その顔検出情報ファイルに記録されたテーブルを表示することができる。ユーザは、そのテーブルを参照して、所望の検索条件に該当するフレームまたはシーンを特定することができ、画像再生装置２００は、そのフレームまたはシーンのみを撮像装置１１０からダウンロードすることができる。

図７は、実施の形態３に係る画像再生装置２００の構成図である。実施の形態３に係る画像再生装置２００は、ＰＣ、ＤＶＤなどの光ディスクドライブやＨＤＤを搭載したプレーヤ、セットトップボックスなど動画像ファイルを再生する機能を持つ機器であればよい。実施の形態３に係る画像再生装置２００は、画像処理部６０、制御部５４、操作部５６、表示部５７および記録部５８を備える。画像処理部６０は、顔検出部６２、符号化部６４、ストリーム生成部６６および復号部６８を含む。

復号部６８は、上述した撮像装置１００、１１０で生成された顔検出情報が付加された符号化ストリームを復号する。制御部５４は、復号された顔検出情報をもとに、上述したような検索や表示を行う。

本実施の形態にて、顔検出情報が付加された符号化ストリームを復号して再生する処理を単純に行う場合、顔検出部６２、符号化部６４およびストリーム生成部６６は必要ない。顔検出部６２、符号化部６４およびストリーム生成部６６を設けた場合、画像処理部６０は、一般的な動画像符号化ストリームから顔検出情報が付加された符号化ストリームを生成することができる。すなわち、復号部６８は一般的な動画像符号化ストリームを復号して、顔検出部６２および符号化部６４に供給する。顔検出部６２、符号化部６４およびストリーム生成部６６は、実施の形態１の処理と同様に、顔検出情報が付加された符号化ストリームを生成する。

以上説明したように本実施の形態によれば、顔検出情報を利用して有効なアプリケーションを実現することができる。すなわち、顔検出数を利用することにより、検索効率を向上させることができる。また、一般的な動画像符号化ストリームを顔検出情報が付加された符号化ストリームに再構築することにより、検索性に優れた符号化ストリームを生成することができる。

以上、本発明をいくつかの実施形態をもとに説明した。これらの実施形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

上述した実施の形態では、顔検出部２２、６２は顔検出情報として顔検出数を用いたが、それ以外の様々なパラメータを用いることができる。たとえば、顔の大きさ、顔の位置、笑顔度、超解像処理用の冗長データの有無、および検出した顔の確からしさを用いることができる。これらのすべてを用いてもよいし、一部を用いてもよい。

図８は、実施の形態１、２に係る撮像装置１００、１１０にて撮像された画像から、複数のパラメータを含む顔検出情報を生成する場合の一例を示す。顔検出部２２、６２は、第１画像７０、第２画像７２、第３画像７４のそれぞれにおいて、顔検出数、顔の大きさ、顔の位置、笑顔度、超解像処理用の冗長データの有無、および検出した顔の確からしさを特定して、画像ごとの顔検出情報を生成する。

顔検出部２２、６２は、顔検出数を正面顔と側面顔に分けて特定する。顔検出部２２、６２は、顔の大きさ、顔の位置、笑顔度、超解像処理用の冗長データの有無、および検出した顔の確からしさを同一画像内で検出された顔ごとに特定する。図８では、顔検出部２２、６２は、顔の大きさを顔検出枠の長さおよび幅で特定する。顔検出部２２、６２は、顔の位置を顔検出枠の所定位置、たとえば中心点で特定する。顔検出部２２、６２は、たとえば笑顔度をつぎのように特定する。顔検出部２２、６２は、あらかじめ異なる笑顔度ごとに登録された辞書データと検出した顔とを照合し、最も照合度の高い辞書データの笑顔度に特定する。顔検出部２２、６２は、たとえば検出した顔の確からしさをつぎのように特定する。顔検出部２２、６２は、登録されている辞書データと検出した顔とを照合した際の、その照合度を顔の確からしさとすることができる。

超解像処理は、位置ずれのある複数の低解像度画像から高解像度画像を生成する技術である。超解像度処理のアルゴリズムは一般的なものを使用することができる。符号化部２４は、顔およびその周辺領域を含む領域（以下、顔検出領域という）を超解像処理するために、その顔検出領域の冗長データを符号化する。たとえば、時間方向に冗長データを持たせる場合、撮像部１０に高フレームレートで撮像させ、顔検出領域については高フレームレートで符号化し、他の領域については通常のフレームレートで符号化する。顔検出領域が他の領域より冗長的に持つフレームを、位置ずれのある複数の低解像度画像として使用することができる。顔検出部２２は、それぞれの顔についてこのような冗長データが符号化部２４により付加されたか否かを特定する。

上述した実施の形態では、顔検出情報としての顔検出数を時間経過バー３２の下に表示し、顔検出情報を検索ツールとして利用する例を説明した。以下の変形例では顔検出情報を動画ダイジェストを生成するために利用する例を説明する。

図９は、実施の形態１、２に係る撮像装置１００、１１０の表示部１７または実施の形態３に係る画像再生装置２００の表示部５７に表示される操作画面８０の一例を示す。この操作画面８０には、再生キー８２、ダイジェスト再生キー８４、削除キー８６、戻るキー８８およびダイジェスト設定キー９０が表示される。

図１０は、実施の形態１、２に係る撮像装置１００、１１０の表示部１７または実施の形態３に係る画像再生装置２００の表示部５７に表示されるダイジェスト設定画面９０ａの一例を示す。このダイジェスト設定画面９０ａは、ユーザが操作部１６、５６を操作することにより操作画面８０内のダイジェスト設定キー９０が選択されると出現する。

このダイジェスト設定画面９０ａには、抽出条件９１を選択するためのキーとして、人数キー９２、大きさキー９３、超解像キー９４、中央位置キー９５、笑顔キー９６、確度キー９７、動きキー９８が表示される。それに加えて圧縮率９９として圧縮率設定ゲージ９９ａ、および戻るキー８９が表示される。

抽出条件９１は、制御部１４、５４が動画像から動画ダイジェストを生成する際に参照される。
人数キー９２が選択された場合、制御部１４、５４は、圧縮率設定ゲージ９９ａで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、顔の数が多いピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。たとえば、圧縮率が１／２に設定されれば、制御部１４、５４は、動画像全体の再生時間の、半分の再生時間の動画ダイジェストを生成する。

また、大きさキー９３が選択された場合、制御部１４、５４は、圧縮率設定ゲージ９９ａで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、顔の大きさが大きいピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。また、超解像キー９４が選択された場合、制御部１４、５４は、符号化時に付加された冗長データを用いた超解像処理が可能なピクチャを動画像から抽出し、それらのピクチャを超解像処理した後、つなげて動画ダイジェストを生成する。

また、中央位置キー９５が選択された場合、制御部１４、５４は、圧縮率設定ゲージ９９ａで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、顔の位置が画面内の中央位置に近いピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。また、笑顔キー９６が選択された場合、制御部１４、５４は、圧縮率設定ゲージ９９ａで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、動画像から笑顔度が高いピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。

また、確度キー９７が選択された場合、制御部１４、５４は、圧縮率設定ゲージ９９ａで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、動画像から顔の確からしさが高いピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。また、動きキー９８が選択された場合、制御部１４、５４は、隣接するピクチャ間の顔の位置の差分を顔の動きとして特定する。そして、圧縮率設定ゲージ９９ａで設定された圧縮率で動画像からダイジェスト再生すべきピクチャを抽出する際、前のピクチャとの比較において顔の動きが大きいピクチャの上位から、その圧縮率に対応する枚数分、抽出する。抽出したピクチャをつなげて動画ダイジェストを生成する。

ユーザが操作部１６、５６を操作することにより操作画面８０内のダイジェスト再生キー８４が選択されると、制御部１４、５４は、上記のように設定された設定条件にしたがい動画ダイジェストを生成し、表示部１７、５７に表示させる。

なお、複数の抽出条件９１で生成される各動画ダイジェストをＡＮＤ条件またはＯＲ条件で論理演算した後のダイジェスト画像を最終的な動画ダイジェストとしてもよい。なお、上記圧縮率は抽出条件９１ごとに異なるものを用いることができる。

上述した実施の形態では、顔の検出対象として人物の顔を想定したが、犬や猫など動物の顔でもよい。それぞれ、犬用の顔識別器、猫用の顔識別器を構築すれば人物の顔の場合と同様の原理で実施可能である。

実施の形態１に係る撮像装置の構成図である。図２（ａ）は所定の検索条件を満たしたフレームの位置を検索する例である。図２（ｂ）は画像内の顔の数を単純に表示する例である。図２（ｃ）は画像内の顔の数を正面顔と側面顔に分類して表示する例である。実施の形態１に係る撮像装置における表示例１を示す図である。実施の形態１に係る撮像装置における表示例２を示す図である。実施の形態１に係る撮像装置における表示例３を示す図である。実施の形態２に係る撮像装置の構成図である。実施の形態３に係る画像再生装置の構成図である。実施の形態１、２に係る撮像装置にて撮像された画像から、種々のパラメータで顔検出情報を生成する場合の一例を示す。実施の形態１、２に係る撮像装置の表示部または実施の形態３に係る画像再生装置の表示部に表示される操作画面の一例を示す。実施の形態１、２に係る撮像装置の表示部または実施の形態３に係る画像再生装置の表示部に表示されるダイジェスト設定画面の一例を示す。

符号の説明

１０撮像部、１２信号処理部、１４制御部、１５顔登録部、１６操作部、１７表示部、１８記録部、２０画像処理部、２２顔検出部、２４符号化部、２５顔検出情報ファイル生成部、２６ストリーム生成部、２７動画像ファイル生成部、２８復号部、１００撮像装置。

Claims

符号化された動画像を復号して表示する画像処理装置であって、
ピクチャ単位で生成され、前記動画像に含まれるピクチャ内で検出された特定のオブジェクトに関するオブジェクト検出情報を取得し、そのオブジェクト検出情報をもとに前記動画像の時間軸上で前記オブジェクトが含まれるピクチャを識別可能な表示を生成する制御部と、
前記制御部により生成された表示を画面内に表示する表示部と、
を備えることを特徴とする画像処理装置。
前記オブジェクト検出情報には、同一ピクチャ内で検出された前記オブジェクトの数が含まれ、
前記制御部は、前記動画像の時間軸上で前記オブジェクトの数が変化する位置が識別可能な表示を生成することを特徴とする請求項１に記載の画像処理装置。
前記オブジェクト検出情報には、前記ピクチャ内で検出された前記オブジェクトの大きさが含まれ、
前記制御部は、前記動画像の時間軸上で前記オブジェクトの大きさが所定の設定値より大きいピクチャの位置が識別可能な表示を生成することを特徴とする請求項１に記載の画像処理装置。
符号化された動画像を復号して表示する画像処理装置であって、
ピクチャ単位で生成され、前記動画像に含まれるピクチャ内で検出された特定のオブジェクトに関するオブジェクト検出情報を取得し、そのオブジェクト検出情報をもとに前記動画像のダイジェストを生成する制御部と、
前記制御部により生成されたダイジェストを再生表示する表示部と、
を備えることを特徴とする画像処理装置。
前記オブジェクト検出情報には、同一ピクチャ内で検出された前記オブジェクトの数が含まれ、
前記制御部は、前記動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、前記オブジェクトの数が多いピクチャの上位から、前記比率に対応する枚数分、抽出することを特徴とする請求項４に記載の画像処理装置。
前記オブジェクト検出情報には、前記ピクチャ内で検出された前記オブジェクトの大きさが含まれ、
前記制御部は、前記動画像から設定された比率でダイジェスト再生すべきピクチャを抽出する際、前記オブジェクトの大きさが大きいピクチャの上位から、前記比率に対応する枚数分、抽出することを特徴とする請求項４に記載の画像処理装置。
ピクチャ単位で特定されたオブジェクト検出情報を利用して、動画像から所定の条件を満たしたピクチャを検索することを特徴とする画像処理方法。