JP5279520B2

JP5279520B2 - 動画像処理装置、動画像処理方法、プログラム及び記憶媒体

Info

Publication number: JP5279520B2
Application number: JP2009009769A
Authority: JP
Inventors: 慎二大西
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-01-20
Filing date: 2009-01-20
Publication date: 2013-09-04
Anticipated expiration: 2029-01-20
Also published as: JP2010171500A

Description

本発明は、動画像処理装置、動画像処理方法、プログラム及び記憶媒体に関し、特に、人物の顔を含む動画像データから、特定の表情を含む静止画像を選択することができる動画像処理装置、動画像処理方法、プログラム及び記憶媒体に関する。

デジタルカメラの分野では、フレーミングの際に撮影している動画から被写体の人物の顔を検出し、笑顔などの特定の表情を検出した場合に自動的にシャッターを切って静止画像を記録する技術が知られている。

例えば、特許文献１には、顔画像を検出する装置が開示されている。特許文献１の装置は、撮影された画像から切り出されたそれぞれの部分画像について、それが顔画像である蓋然性を示す指標値を算出する。そして、その指標値が所定の閾値以上である部分画像を顔画像の候補として抽出し、全候補について指標値の閾値判定を行って顔画像を検出する。

また、特許文献２には、撮影された画像から人物の顔を検出し、検出された顔の表情評価値を算出し、表情評価値が所定のしきい値を超えた場合に画像信号を記録媒体に記録させる装置が開示されている。表情評価値は、例えば笑顔と通常の表情などの異なる表情の間において一方の表情にどれだけ近いかの度合いを示す。

特開２００７−１０８９９０号公報特開２００８−０４２３１９号公報

しかしながら、特許文献１の装置は、画像から人物の顔を検出することはできるが、表情については判定することができず、例えば笑顔等の所定の表情になったときに静止画像を記録するような制御はできない。

一方、特許文献２の装置は、表情評価値を用いて笑顔等の所定の表情が現れたときに静止画像を記録するように制御することが可能である。しかしながら、特許文献２の装置は、表情評価値がしきい値を超えた時点で画像を記録するため、記録した後に表情評価値がさらに上昇した場合には、一連の動画像中に存在するより良好な表情の画像が記録できないという問題がある。

本発明の目的は、入力された動画像データからより表情評価値の高い静止画像を選択することができる動画像処理装置、動画像処理方法、プログラム及び記憶媒体を提供することにある。

上記目的を達成するために、請求項１記載の動画像処理装置は、動画像データを構成する複数の画像フレームデータから人物の顔を検出する顔検出部と、検出された顔の表情が特定の表情にどれだけ近いかの度合いを示す表情評価値を算出する表情評価部と、表情評価部により算出された表情評価値が高い画像フレームデータを処理対象として選択する選択部とを備える動画像処理装置において、表情評価値の極大値を検出する極大値検出部を備え、１つの画像フレームデータに複数の顔が含まれる場合、顔検出部は、複数の顔を検出し、表情評価部は、検出した複数の顔に対してそれぞれの表情評価値を算出し、極大値検出部は、前記複数の表情評価値からそれぞれの顔に対する極大値を検出し、選択部は、極大値検出部が検出した極大値に対応する画像フレームデータを処理対象として選択することを特徴とする。

上記目的を達成するために、請求項９記載の動画像処理方法は、動画像データを構成する複数の画像フレームデータから人物の顔を検出する顔検出ステップと、検出された顔の表情が特定の表情にどれだけ近いかの度合いを示す表情評価値を算出する表情評価ステップと、表情評価ステップで算出された表情評価値が高い画像フレームデータを処理対象として選択する選択ステップとを備える動画像処理方法において、表情評価値の極大値を検出する極大値検出ステップを含み、１つの画像フレームデータに複数の顔が含まれる場合、顔検出ステップでは、複数の顔を検出し、表情評価ステップでは、検出した複数の顔に対してそれぞれの表情評価値を算出し、極大値検出ステップでは、前記複数の表情評価値からそれぞれの顔に対する極大値を検出し、選択ステップでは、極大値検出ステップで検出された極大値に対応する画像フレームデータを処理対象として選択することを特徴とする。

上記目的を達成するために、請求項１０記載のプログラムは、動画像データを構成する複数の画像フレームデータから人物の顔を検出する顔検出ステップと、検出された顔の表情が特定の表情にどれだけ近いかの度合いを示す表情評価値を算出する表情評価ステップと、表情評価ステップで算出された表情評価値が高い画像フレームデータを処理対象として選択する選択ステップとを備える動画像処理方法をコンピュータに実行させるプログラムにおいて、表情評価値の極大値を検出する極大値検出ステップを含み、１つの画像フレームデータに複数の顔が含まれる場合、顔検出ステップでは、複数の顔を検出し、表情評価ステップでは、検出した複数の顔に対してそれぞれの表情評価値を算出し、極大値検出ステップでは、前記複数の表情評価値からそれぞれの顔に対する極大値を検出し、選択ステップでは、極大値検出ステップで検出された極大値に対応する画像フレームデータを処理対象として選択することを特徴とする。

本発明によれば、単にしきい値と比較して画像を選択していた従来の技術と比較して、入力された動画像データからより表情評価値の高い画像フレームを選択することができる。

本発明の第１の実施の形態に係る動画像処理装置の構成を概略的に示すブロック図である。図１における極大値検出部の動作を示すフローチャートである。図１における極大値検出部の作用を説明するための表情評価値の時間に伴う変化を示すグラフであり、しきい値が高い場合を示している。図１における極大値検出部の作用を説明するための表情評価値の時間に伴う変化を示すグラフであり、しきい値が低い場合を示している。図２の処理の対象となる動画像ファイルと、この動画像ファイルを処理することにより作成される笑顔検出ファイルの内容との関係の一例を示す説明図である。本発明の第２の実施の形態に係る動画像処理装置の構成を概略的に示すブロック図である。図６における極大値検出部の詳細な構成を示すブロック図である。図６及び図７におけるＩＤ別極大値検出部のそれぞれの動作を示すフローチャートである。図７に示される極大値統合部の処理を示すフローチャートである。図９のステップＳ３０３〜Ｓ３０５で実行されるＩＤ別極大値処理の内容を示すフローチャートである。図６の動画像処理装置の処理の具体例を説明するため、画像フレーム毎に表情評価部から出力される表情評価値の変化を３つの顔画像領域のそれぞれについてのプロットしたグラフであり、３つの顔領域に入る３人がそれぞれ異なるタイミングで笑顔になっている例を示す。図６の動画像処理装置の処理の具体例を説明するため、画像フレーム毎に表情評価部から出力される表情評価値の変化を３つの顔画像領域のそれぞれについてのプロットしたグラフであり、複数の顔領域が近いタイミングで笑顔になっている例を示す。図６の動画像処理装置の処理の具体例を説明するため、画像フレーム毎に表情評価部から出力される表情評価値の変化を３つの顔画像領域のそれぞれについてのプロットしたグラフであり、数の顔領域が近いタイミングで笑顔になっているが、一つの顔領域の笑顔が途中で検出されなくなる例を示す。本発明の第３の実施の形態に係る動画像処理装置の構成を概略的に示すブロック図である。本発明の第４の実施の形態に係る動画像処理装置の構成を概略的に示すブロック図である。

以下、本発明の実施の形態について図面を参照しながら説明する。まず、本発明の第１の実施の形態に係る動画像処理装置について説明する。

図１は、本発明の第１の実施の形態に係る動画像処理装置１００の構成を概略的に示すブロック図である。図１の動画像処理装置１００は、メモリカードやハードディスク等の記録媒体２００に記録された動画像データを入力とする。動画像処理装置１００は、この動画像データを構成する複数の画像フレームデータ（静止画像データ）から、人物を含み、かつ、その人物の表情が特定の表情、ここでは笑顔である画像フレームデータを処理対象として選択する。そして、動画像処理装置１００は、選択された画像フレームデータに関する情報を記録媒体２００上の笑顔検出ファイルに記録する機能を有する。

動画像処理装置１００は、装置全体を制御するための制御部１１０と、記録媒体２００から読み出した動画像ファイルを復号するための動画像復号部１２０とを備える。また、動画像処理装置１００は、動画像復号部１２０で復号された画像フレームデータから人物の笑顔が記録されている画像を検出するための笑顔画像検出部１３０と、画像を表示するためのＬＣＤパネル等の表示部１４０とを備える。さらに、動画像処理装置１００は、ユーザが操作するためのスイッチ類を備えた操作部１５０を備えている。

制御部１１０は、ユーザによる操作部１５０の操作に応じて、記録媒体２００へのデータの読み書きや、表示部１４０へのデータ出力を行うと共に、動画像復号部１２０や笑顔画像検出部１３０を制御する。

笑顔画像検出部１３０は、画像フレームデータから人物の顔を検出する顔検出部１３１と、検出された顔の表情評価値を算出する表情評価部１３２と、表情評価値の極大値を検出する極大値検出部１３３とを備えている。表情評価値は、表情が特定の表情（この例では笑顔）にどれだけ近いかの度合いを示す。

制御部１１０は、表情評価部１３２により算出された表情評価値が高い画像フレームデータのうち、極大値検出部１３３が検出した極大値に対応する画像フレームデータを処理対象として選択する選択部としての機能を備えている。

次に、上記のように構成された動画像処理装置１００の動作について説明する。操作部１５０を操作することによりユーザが記録媒体２００に記録されている動画像ファイルの１つを選択すると、制御部１１０は、選択された動画像ファイルに対応する笑顔検出ファイルが記録媒体２００に記録されているか否かを判別する。笑顔検出ファイルが記録されていない場合、制御部１１０は動画像ファイルを解析して動画像ファイルに対応する笑顔検出ファイルを作成する。

続いて、この笑顔検出ファイルの作成について説明する。制御部１１０は、記録媒体２００からユーザにより選択された動画像ファイルを読み出して動画像復号部１２０に入力すると共に、動画像ファイルの処理対象画像フレームのタイムコード情報を極大値検出部１３３に入力する。動画像復号部１２０は入力された動画像ファイルを復号し、生成された画像フレームデータを顔検出部１３１に入力する。

顔検出部１３１は、入力された画像フレームデータを解析し、画像フレーム（静止画像）中に人物の顔が存在するか否かを判別する（顔検出ステップ）。判別には、特許文献１に記載された手法を用いることができる。そして、顔検出部１３１は、入力画像フレームに顔が存在すると判別した場合には、顔領域を特定し、この顔領域の対象物が人物の顔である確度を示す顔信頼度値を算出する（顔信頼度算出ステップ）。

顔検出部１３１により検出された画像フレーム中の顔領域の情報は表情評価部１３２に入力され、顔領域に対する顔信頼度値は極大値検出部１３３に入力される。表情評価部１３２は、入力された顔領域の画像に対して笑顔の度合いを示す表情評価値を算出する（表情評価ステップ）。表情評価値の算出には、特許文献２に記載された手法を用いることができる。極大値検出部１３３は、入力された顔信頼度値に基づいてしきい値を調整する（しきい値設定ステップ）。具体的には、顔検出部１３１により算出された顔信頼度値が大きい場合はしきい値を小さな値に変更し、顔信頼度値が小さい場合はしきい値を大きな値に変更する。

表情評価部１３２により算出された表情評価値は、極大値検出部１３３に入力される。極大値検出部１３３は、入力された表情評価値がしきい値より大きいか否かを判別し、大きい場合には、入力された表情評価値が極大値に相当するか否かを判別し、その結果を制御部１１０に出力する。極大値検出部１３３は、極大値が検出された場合には、極大値検出情報を出力する（極大値検出ステップ）。極大値検出情報には、極大値が検出された画像フレームデータのタイムコード情報が含まれる。なお、極大値検出部１３３の詳細な動作については後述する。

制御部１１０は、極大値検出部１３３の検出結果を受け、極大値検出情報が入力された場合には、極大値検出情報内のタイムコード情報を笑顔検出ファイルに記録して処理対象の画像フレームに対する処理を終了し、次の画像フレームに対する処理を開始する。

一方、顔検出部１３１は、画像フレーム中に人物の顔が存在しないと判別した場合には、表情評価部１３２に顔領域が存在しないことを通知し、表情評価部１３２は、極大値検出部１３３に顔領域が存在しないことを通知する。極大値検出部１３３は、顔領域が画像フレーム中に存在しないため極大値非検出であることを制御部１１０に出力する。制御部１１０は、処理対象の画像フレームに対する処理を終了し、次の画像フレームに対する処理を開始する。

制御部１１０は、上記の一連の処理を選択された動画像ファイルの全ての画像フレームに対して実行し、全画像フレームに対する処理を終了すると、笑顔画像検出部１３０に処理の終了を通知する。そして、制御部１１０は、笑顔画像検出部１３０からの最終検出結果を受信した後、笑顔検出ファイルの作成を終了する（選択ステップ）。

図２は、図１における極大値検出部１３３の動作を示すフローチャートである。以下、図２のフローチャートを用いて極大値検出部１３３の動作について説明する。図２の処理は、ユーザが指定した１つの動画像ファイル毎に実行される。

極大値検出部１３３は、まず、表情評価値の極大値を保持するための内部変数である極大値変数Ｍｖをゼロに初期化する（ステップＳ１０１）。続いて、極大値検出部１３３は、表情評価部１３２から現在処理中の画像フレームに対する表情評価値が入力されているか否かを判別する（ステップＳ１０２）。画像フレームから顔領域が検出されずに表情評価値が入力されていない場合（ステップＳ１０２でＮｏ）には、後述のステップＳ１１１に進む。表情評価値が入力されている場合（ステップＳ１０２でＹｅｓ）には、極大値検出部１３３は、制御部１１０から入力された現在処理中の画像フレームのタイムコードを内部変数であるタイムコード変数ＣＴｖにセットする（ステップＳ１０３）。そして、極大値検出部１３３は、表情評価部１３２から入力された現在の処理対象の画像フレームに関する表情評価値を内部変数である評価値変数Ｅｖにセットする（ステップＳ１０４）。さらに、極大値検出部１３３は、顔検出部１３１から入力された顔信頼度値を内部変数である顔信頼度変数Ｒｖにセットする（ステップＳ１０５）。

次に、極大値検出部１３３は、顔信頼度変数Ｒｖの値に従ってしきい値ＴＨｖを決定する（ステップＳ１０６）。本実施の形態では、以下の表１に示すような対応関係に従い、顔信頼度変数Ｒｖの値に応じて定数ＴＨｖ０、ＴＨｖ１、ＴＨｖ２のいずれかの値がしきい値ＴＨｖにセットされる。すなわち、顔信頼度変数Ｒｖの値が大きい場合にはしきい値ＴＨｖは小さくなり、顔信頼度変数Ｒｖの値が小さい場合にはしきい値ＴＨｖは大きくなる。

次に、極大値検出部１３３は、評価値変数Ｅｖの値がしきい値ＴＨｖを超えているか否かを判別する（ステップＳ１０７）。本実施の形態では、評価値変数Ｅｖの値がしきい値ＴＨｖを超えていると判別された場合（ステップＳ１０７でＹｅｓ）に、検出された顔領域の表情が笑顔であると判定する。ステップ２０６で顔信頼度値に応じてしきい値をセットしており、顔信頼度値が小さい顔領域に対しては笑顔検出のしきい値が大きくなるため、誤検出率を低くすることができる。

笑顔であると判定された場合、極大値検出部１３３は、評価値変数Ｅｖの値が極大値変数Ｍｖの値より大きいか否かを判別する（ステップＳ１０８）。評価値変数Ｅｖの値が極大値変数Ｍｖの値より小さい場合（ステップＳ１０８でＮｏ）には、極大値変数Ｍｖにセットされている値がその時点での表情評価値の極大値であると判断され、後述のステップＳ１１１に進む。評価値変数Ｅｖの値が極大値変数Ｍｖの値より大きい場合（ステップＳ１０８でＹｅｓ）には、極大値変数Ｍｖに保持されている表情評価値は極大値ではない。そのため、極大値検出部１３３は、極大値変数Ｍｖの値を評価値変数Ｅｖの値で更新する（ステップＳ１０９、更新ステップ）。そして、極大値検出部１３３は、タイムコード変数ＣＴｖにセットされた現在処理中の画像フレームのタイムコード値を、極大値に対応するタイムコード値を格納する極大値タイムコード変数ＭＴｖにセットする（ステップＳ１１０）。

一方、評価値変数Ｅｖの値がしきい値ＴＨｖより小さいと判別された場合（ステップＳ１０７，Ｎｏ）には、顔領域が笑顔ではないと判断され、ステップＳ１０８〜Ｓ１１０をスキップしてステップＳ１１１に進む。

続いて極大値検出部１３３は、極大値変数Ｍｖの値がゼロであるか否かを判別する（ステップＳ１１１）。極大値変数Ｍｖがゼロでないと判別された場合（ステップＳ１１１でＮｏ）には、笑顔の顔領域が検出されていることとなる。この場合には、極大値変数Ｍｖに格納された表情評価値が検出された画像フレームのタイムコード値（極大値タイムコード変数ＭＴｖの値）と、現在処理中の画像フレームのタイムコード値（タイムコード変数ＣＴｖの値）との時間差が求められる。そして、極大値検出部１３３は、時間差が一定の時間（Ｔ０ｖ）より長いか否かを判別する（ステップＳ１１２）。

極大値変数Ｍｖの値がゼロであると判別された場合（ステップＳ１１１でＹｅｓ）には、笑顔の顔領域が検出されていないため、極大値検出部１３３は、極大値を検出していないことを示す極大値非検出情報を制御部１１０に出力する（ステップＳ１１３）。極大値変数Ｍｖの値がゼロでなくとも、時間差が一定の時間Ｔ０ｖより短い場合（ステップＳ１１２でＮｏ）には、極大値がさらに更新される可能性がある。そのため、極大値検出部１３３は、極大値を検出していないことを示す極大値非検出情報を制御部１１０に出力する（ステップＳ１１３）。

一方、時間差が一定の時間Ｔ０ｖより長い場合（ステップＳ１１２でＹｅｓ）には、一定の時間内に極大値変数Ｍｖにセットされている値が更新されていないこととなり、実際の極大値である可能性が高くなる。そのため、極大値検出部１３３は、極大値検出情報を制御部１１０に出力し（ステップＳ１１４）、極大値変数Ｍｖの値をゼロにリセットする（ステップＳ１１５）。極大値検出情報には、極大値タイムコード変数ＭＴｖの値で示される極大値が検出された時点のタイムコード情報が含まれている。

続いて極大値検出部１３３は、制御部１１０から全画像フレームに対する処理終了の通知を受信したか否かを判別する（ステップＳ１１６）。この通知を受信していない場合（ステップＳ１１６でＮｏ）には、極大値検出部１３３は、ステップＳ１０２に戻って次の画像フレームに対する処理を行う。この通知を受信している場合（ステップＳ１１６でＹｅｓ）には、極大値検出部１３３は、極大値変数Ｍｖの値がゼロであるか否かを判別する（ステップＳ１１７）。極大値変数Ｍｖの値がゼロである場合（ステップＳ１１７でＹｅｓ）には、全ての極大値検出情報を出力済みであるため、極大値検出部１３３は、極大値非検出情報を制御部１１０に出力し（ステップＳ１１８）、当該動画像データに関する処理を終了する。極大値変数Ｍｖの値がゼロでない場合（ステップＳ１１７でＮｏ）には、出力されていない極大値検出情報が存在するため、極大値検出部１３３は、極大値検出情報を制御部１１０に出力し（ステップＳ１１９）、当該動画像データに関する処理を終了する。

図２の処理によれば、選択された動画像ファイルから好適な笑顔の画像フレームが選択されて、その画像フレームに関する情報（ここではタイムコード値）が笑顔検出ファイルに記録される。

次に、図２の処理の具体例を図３及び図４に基づいて説明する。図３は、図１における極大値検出部１３３の作用を説明するための表情評価値の時間に伴う変化を示すグラフであり、しきい値が高い場合を示している。また、図４は、図１における極大値検出部１３３の作用を説明するための表情評価値の時間に伴う変化を示すグラフであり、しきい値が低い場合を示している。各図の折れ線は、表情評価部１３２から顔画像を含む画像フレーム毎に出力される表情評価値をプロットしたものであり、動画像データの中で表情評価値がどのように変化するかを示している。

まず、図３のケースについて説明する。図３のケースでは、期間（１），（２）において、表情評価値がしきい値を超えており、期間（１）では（ａ），（ｂ），（ｃ），（ｄ）の４つの時点で極大値を記録し、期間（２）では（ｅ），（ｆ），（ｇ）の３つの時点で極大値を記録している。したがって、全ての極大値に応じて画像フレームを選択すると、７つの画像フレームが選択されることとなる。

極大値変数Ｍｖの値は、表情評価値がしきい値ＴＨｖを超えた時点から値が更新され（ステップＳ１０９）、その値が更新された画像フレームのタイムコードが極大値タイムコード変数ＭＴｖにセットされる（ステップＳ１１０）。表情評価値が増加している期間は、画像フレーム毎に極大値変数Ｍｖの値が更新され、極大値タイムコード変数ＭＴｖの値も更新され、したがって、ステップＳ１１２で時間差が一定の時間Ｔ０ｖより大きいと判別されることはない。

例えば、図３の期間（１）では、（ａ）の時点で、その時点の画像フレームに対応する表情評価値が極大値変数Ｍｖにセットされ、対応するタイムコードが極大値タイムコード変数ＭＴｖにセットされる。（ａ）の時点を過ぎると、画像フレームから検出される表情評価値が一旦減少し、その後増加している。この場合、（ａ）の時点から、増加途中の（ａ’）の時点までの期間では、各画像フレームに対する表情評価値が極大値変数Ｍｖにセットされた値以下であるため、（ａ）の時点でセットされたＭｖおよびＭＴｖの値が保持される。各画像フレームの処理では、極大値タイムコード変数ＭＴｖの値と処理中の画像フレームのタイムコードがセットされたタイムコード変数ＣＴｖの値との時間差が一定の時間Ｔ０ｖを超えていないか判別する（ステップＳ１１２）。このとき、（ａ）から（ａ’）までの期間では時間Ｔ０ｖを超えないため、極大値検出部１３３は、極大値が検出されていないことを示す極大値非検出情報を制御部１１０に出力する（ステップＳ１１３）。

（ａ’）の時点の次の画像フレームに対する表情評価値は、（ａ）の時点でセットされた極大値変数Ｍｖの値より大きくなり、この時点から（ｂ）の時点までは表情評価値が漸次増加する。そのため、画像フレーム毎に極大値変数Ｍｖの値と極大値タイムコード変数ＭＴｖの値とは更新され続ける。同様に（ｂ）から（ｂ’）までの期間では、（ｂ）の時点でセットされた各変数Ｍｖ、ＭＴｖの値が保持され、（ｂ’）から（ｃ）までの期間では、画像フレーム毎に極大値変数Ｍｖの値と極大値タイムコード変数ＭＴｖの値とは更新され続ける。（ｃ）の時点での画像フレームの表情評価値とタイムコードとが各変数Ｍｖ、ＭＴｖにセットされると、それ以降、（ｄ）の時点でも極大値となるが、（ｄ）の時点での表情評価値は極大値変数Ｍｖにセットされている値よりも小さい。そのため、変数Ｍｖ及びＭＴｖの値は（ｃ）の時点の画像フレームに対する値が保持されたままとなる。

そして、（ｃ）の時点の画像フレームのタイムコード（極大値タイムコード変数ＭＴｖの値）からＴ０ｖの時間が経過した（ｘ）の時点での画像フレームに対する処理が終了する。すると、極大値検出部１３３は、（ｃ）の時点の画像フレームで極大値を検出したことを示す極大値検出情報を制御部１１０に出力し（ステップＳ１１４）、極大値変数Ｍｖをゼロにリセットする（ステップＳ１１５）。すなわち、期間（１）では、４つの極大値が得られるが、選択されるのは、表情評価値が最高値となる時点（ｃ）における画像フレームのみとなり、短時間に多数の画像フレームが選択されるのを防ぐことができる。

同様に、図３の期間（２）では、（ｙ）の時点の画像フレームの処理を終了すると、（ｇ）の時点での画像フレームに対応するタイムコード情報を含む極大値検出情報が出力される。

なお、図３の例では、表情評価値がしきい値を超えた笑顔のシーンが２箇所検出されているのに対し、図４の例では、動画像データの全体で表情評価値がしきい値を超えている。図２の処理によれば、図４のケースでも、図３のケースと同様に、（ｃ），（ｇ）の２つの時点の画像フレームのみが選択され、短期間に多数の画像が選択されるのを防止することができる。

次に、選択された画像フレームの再生処理について説明する。制御部１１０は、再生モードとして、スライドショーモードと、ダイジェスト動画再生モードとを備えており、これらのモードはユーザが操作部１５０を操作することにより選択できる。制御部１１０は、スライドショーモードでは、選択された画像フレームデータを表示部１４０上に表示させる表示制御部としての機能を果たす。また、制御部１１０は、ダイジェスト動画再生モードでは、選択された画像フレームデータより所定時間前の時点から一定時間前記動画像データを表示画面上で再生する機能を果たす。

各再生モードについて説明する前提として、動画像ファイルと笑顔検出ファイルとの間に図５のような関係があると仮定する。図５は、図２の処理の対象となる動画像ファイルと、この動画像ファイルを処理することにより作成される笑顔検出ファイルの内容との関係の一例を示す説明図である。

例えば、図５の例では、動画像ファイル中で５つの画像フレームが表情評価値が極大値をとるフレーム、すなわち、良好な笑顔が含まれるフレームとして選択されている。笑顔検出ファイルには、５箇所の表情評価値の極大値のタイムコードＴ１〜Ｔ５が記録されている。各タイムコードに対応する動画像ファイル中の画像フレームは、動画像ファイル中のタイムコードから引き出された矢印で示される位置にあるものとする。

スライドショーモードでは、制御部１１０は、記録媒体２００から笑顔検出ファイルを読み出して、記録されているタイムコードＴ１〜Ｔ５を取得する。そして、制御部１１０は、各タイムコードに対応する画像フレームを記録媒体２００に記録されている対応する動画像ファイルから読み出して動画像復号部１２０に入力し、復号された静止画を所定の時間間隔で順次表示部１４０に表示させる。

ダイジェスト動画再生モードでは、制御部１１０は、最初に笑顔検出ファイルからタイムコードＴ１を取得する。そして、制御部１１０は、記録媒体２００に記録されている対応する動画像ファイルから、タイムコードＴ１の位置より所定時間前の時点から一定時間の動画像データを読み出して動画像復号部１２０に入力し、復号された動画を表示部１４０に表示させる。この例では、タイムコードＴ１より３秒前の位置から１０秒間、動画像データを読み出して再生させる。

制御部１１０は、タイムコードＴ１に対する再生が終了すると、次に笑顔検出ファイルからタイムコードＴ２を取得し、同様にタイムコードＴ２より３秒前の位置から１０秒間動画像データを再生する。このようにして、順次タイムコードＴ３，Ｔ４，Ｔ５に対して同様に１０秒間の動画像データを連続して再生することにより、選択された笑顔を含む画像フレーム近辺の動画像をダイジェストで再生する。

なお、本実施の形態では、動画像ファイルとは別の笑顔検出ファイルを作成する例について述べたが、検出結果を選択された動画像ファイルのヘッダー領域やフッター領域等に記録することも可能である。

次に、本発明の第２の実施の形態に係る動画像処理装置について説明する。本実施の形態は、その構成、作用が上述した第１の実施の形態と基本的に同じであるので、重複した構成、作用については説明を省略し、以下に異なる構成、作用について説明する。

第１の実施の形態の動画像処理装置は、画像フレーム中の顔画像が１つである場合を想定したものであるが、第２の実施の形態の動画像処理装置は、画像フレーム中に顔画像が複数ある場合を想定したものである。

図６は、本発明の第２の実施の形態に係る動画像処理装置１００Ａの構成を概略的に示すブロック図であり、図７は、図６における極大値検出部の詳細な構成を示すブロック図である。装置全体の基本的な構成は図１と同一であるが、笑顔画像検出部１６０の構成が第１の実施形態とは異なるため、異なる符号を付している。他の構成は図１と同一であるため、同一符号を付して重複した説明は省略する。

本実施の形態の笑顔画像検出部１６０は、動画像復号部１２０で復号された動画像データから人物の笑顔が記録されている画像フレームを検出するものである。笑顔画像検出部１６０は、画像フレームデータから複数の人物の顔部分の領域を検出する顔検出部１６１と、顔検出部１６１で検出された複数の顔領域に対して笑顔の度合いを示す表情評価値をそれぞれ算出するための表情評価部１６２とを備える。また、笑顔画像検出部１６０は、連続する動画像データに含まれる画像フレームに対して表情評価部１６２で算出した連続する表情評価値から表情評価値が極大となった画像フレームを検出する極大値検出部１６３を備える。

ユーザが操作部１５０を操作して記録媒体２００に記録されている動画像ファイルの１つを選択すると、制御部１１０は、第１の実施の形態におけるのと同様に、動画像ファイルに対応する笑顔検出ファイルを作成する。

制御部１１０は、記録媒体２００から選択された動画像ファイルを読み出して動画像復号部１２０に入力すると共に、動画像ファイルの処理対象画像フレームのタイムコード情報を極大値検出部１６３に入力する。動画像複合部１２０は、入力された動画像ファイルを復号し、生成された画像フレームデータを顔検出部１６１に入力する。

顔検出部１６１は、入力された画像フレームデータから複数の顔領域を検出可能であり、入力された画像フレームデータを解析し、画像フレーム中に人物の顔が存在するか否かを判定する。また、顔検出部１６１は、入力画像フレームに顔が存在すると判別した場合には、顔領域を特定し、この顔領域の画像が人物の顔である確度を示す顔信頼度値を算出する。複数の顔が存在する場合には、複数の顔領域を特定し、それぞれの顔領域について顔信頼度値を算出する。

また、顔検出部１６１は、検出された顔領域にＩＤ番号を付加する機能を有し、連続する画像フレームで検出された顔領域に対して同一人物であると判定された顔領域に一意のＩＤ番号を付加することができる。連続する画像フレーム間で検出される顔領域に対して同一人物であることを特定するには、例えば１つ前の画像フレームで検出した顔領域の情報と、現在の画像フレームで検出された顔領域の情報とを比較するといった方法を使用することができる。この比較において、画像フレーム中での位置、大きさの差異が一定値以下の顔領域を同一人物と判定する。

顔検出部１６１により画像フレーム中に人物の顔が存在しないと判定された場合、顔検出部１６１は表情評価部１６２に顔領域が存在しないことを通知し、表情評価部１６２は極大値検出部１６３に顔領域が存在しないことを通知する。極大値検出部１６３は、顔領域が画像フレーム中に存在しないため極大値非検出であることを制御部１１０に出力し、制御部１１０は当該画像フレームに対する処理を終了して次の画像フレームに対する処理を開始する。

顔検出部１６１により画像フレーム中に人物の顔が存在すると判定された場合、顔検出部１６１により検出された画像フレーム中の各顔領域の情報と各顔領域のＩＤ番号を含む情報とは表情評価部１６２に入力される。また、各顔領域に対する顔信頼度値は極大値検出部１６３に入力される。表情評価部１６２は、入力されたそれぞれの顔領域の画像に対して笑顔の度合いを示す表情評価値を算出する。

算出された各顔領域に対する表情評価値および顔信頼度値は、それぞれＩＤ番号と関連づけられて極大値検出部１６３に入力される。極大値検出部１６３は、画像フレーム毎に入力される各顔領域の表情評価値から極大値を検出し、極大値検出結果を制御部１１０に出力する。

本実施の形態の極大値検出部１６３は、例えば、図７に示すように３領域の顔画像の表情評価値の極大値をそれぞれ独立して検出できるように、表情評価値と共に入力されるＩＤ番号を検出して入力された表情評価値を振り分けるＩＤ判別部１６３ａを備える。また、極大値検出部１６３は、ＩＤ番号にしたがって振り分けられたそれぞれの表情評価値から極大値を検出する第１のＩＤ別極大値検出部１６３ｂ、第２のＩＤ別極大値検出部１６３ｃ、第３のＩＤ別極大値検出部１６３ｄを備える。さらに、極大値検出部１６３は、ＩＤ別極大値検出部１６３ｂ，１６３ｃ，１６３ｄから出力される極大値を統合して画像全体で好適な表情評価値の極大値が得られる画像フレームのタイムコード情報を制御部１１０へ出力する極大値統合部１６３ｅを備える。

なお、ＩＤ番号に対応する顔領域が検出されていない場合は、顔領域が検出されていないことを示す情報が各ＩＤ別極大値検出部に入力される。また、制御部１１０から入力されるタイムコード情報は、各ＩＤ別極大値検出部１６３ｂ，１６３ｃ，１６３ｄに入力され、画像フレームの処理終了の通知は各ＩＤ別極大値検出部及び極大値統合部１６３ｄに入力される。

制御部１１０は、第１の実施形態におけるのと同様に、極大値検出部１６３の出力に応じて笑顔検出ファイルにタイムコードを記録し、再生時には、動画像ファイルのダイジェスト再生やスライドショー表示を行う。

図８は、図６及び図７におけるＩＤ別極大値検出部１６３ｂ，１６３ｃ，１６３ｄのそれぞれの動作を示すフローチャートである。以下、図８のフローチャートを用いて第１のＩＤ別極大値検出部１６３ｂの動作について説明する。図８の処理は、ユーザが指定した１つの動画像ファイル毎に実行される。第２のＩＤ別極大値検出部１６３ｃ、第３のＩＤ別極大値検出部１６３ｄの動作も同様である。

第１のＩＤ別極大値検出部１６３ｂは、まず、表情評価値の極大値を保持するための内部変数である極大値変数Ｍｖをゼロに初期化する（ステップＳ２０１）。続いて、第１のＩＤ別極大値検出部１６３ｂは、ＩＤ判別部１６３ａから現在処理中の画像フレームに対する表情評価値が入力されているか否かを判別する（ステップＳ２０２）。画像フレームから顔領域が検出されずに表情評価値が入力されていない場合（ステップＳ２０２でＮｏ）には、後述のステップＳ２１４に進む。表情評価値が入力されている場合（ステップＳ２０２でＹｅｓ）には、第１のＩＤ別極大値検出部１６３ｂは、制御部１１０から入力された現在処理中の画像フレームのタイムコードを内部変数であるタイムコード変数ＣＴｖにセットする（ステップＳ２０３）。そして、第１のＩＤ別極大値検出部１６３ｂは、ＩＤ判別部１６３ａから入力された現在の処理対象の画像フレームに関する表情評価値を内部変数である評価値変数Ｅｖにセットする（ステップＳ２０４）。さらに、第１のＩＤ別極大値検出部１６３ｂは、顔検出部１６１から入力されたＩＤ１の顔画像に関する顔信頼度値を内部変数である顔信頼度変数Ｒｖにセットする（ステップＳ２０５）。

次に、第１のＩＤ別極大値検出部１６３ｂは、顔信頼度変数Ｒｖの値に従ってしきい値ＴＨｖを決定する（ステップＳ２０６）。本実施の形態でも、前記の表１に示すような対応関係に従い、顔信頼度変数Ｒｖの値に従ってしきい値ＴＨｖを決定する。

次に、第１のＩＤ別極大値検出部１６３ｂは、評価値変数Ｅｖの値がしきい値ＴＨｖを超えているか否かを判別する（ステップＳ２０７）。本実施の形態では、評価値変数Ｅｖの値がしきい値ＴＨｖを超えていると判別された場合（ステップＳ２０７でＹｅｓ）に、検出された顔領域の表情が笑顔であると判定する。評価値変数Ｅｖの値がしきい値ＴＨｖより小さいと判別された場合（ステップＳ２０７でＮｏ）には、顔領域が笑顔ではないと判断され、後述のステップＳ２１４に進む。

顔画像が笑顔であると判定された場合（ステップＳ２０７でＹｅｓ）、第１のＩＤ別極大値検出部１６３ｂは、評価値変数Ｅｖの値が極大値変数Ｍｖの値より大きいか否かを判別する（ステップＳ２０８）。評価値変数Ｅｖの値が極大値変数Ｍｖの値より小さい場合（ステップＳ２０８でＮｏ）には、極大値変数Ｍｖにセットされている値がその時点での表情評価値の極大値であると判断され、後述のステップＳ２１１に進む。評価値変数Ｅｖの値が極大値変数Ｍｖの値より大きい場合（ステップＳ２０８でＹｅｓ）には、極大値変数Ｍｖに保持されている表情評価値は極大値ではない。そのため、第１のＩＤ別極大値検出部１６３ｂは、極大値変数Ｍｖを評価値変数Ｅｖの値で更新する（ステップＳ２０９）。また、第１のＩＤ別極大値検出部１６３ｂは、タイムコード変数ＣＴｖにセットされた現在処理中の画像フレームのタイムコード値を、極大値に対応するタイムコード値を格納する極大値タイムコード変数ＭＴｖにセットする（ステップＳ２１０）。

続いて第１のＩＤ別極大値検出部１６３ｂは、極大値変数Ｍｖの値がゼロであるか否かを判別する（ステップＳ２１１）。極大値変数Ｍｖがゼロでないと判別された場合（ステップＳ２１１でＮｏ）には、笑顔の顔領域が検出されていることとなる。そして、この場合には、極大値変数Ｍｖに格納された表情評価値が検出された画像フレームのタイムコード値（極大値タイムコード変数ＭＴｖの値）と、現在処理中の画像フレームのタイムコード値（タイムコード変数ＣＴｖの値）との時間差を求める。そして、第１のＩＤ別極大値検出部１６３ｂは、求めた時間差が、一定の時間（Ｔ０ｖ）より長いか否かを判別する（ステップＳ２１２）。

極大値変数Ｍｖの値がゼロであると判別された場合（ステップＳ２１１でＹｅｓ）には、笑顔の顔領域が検出されていないこととなる。そのため、第１のＩＤ別極大値検出部１６３ｂは、極大値を検出していないことを示す極大値非検出情報を極大値統合部１６３ｅに出力する（ステップＳ２１３）。極大値変数Ｍｖの値がゼロでなくとも、時間差が一定の時間Ｔ０ｖより短い場合（ステップＳ２１２でＮｏ）には、極大値がさらに更新される可能性がある。そのため、第１のＩＤ別極大値検出部１６３ｂは、極大値を検出していないことを示す極大値非検出情報を極大値統合部１６３ｅに出力する（ステップＳ２１３）。極大値変数Ｍｖの値がゼロではなく、かつ、時間差が一定の時間Ｔ０ｖより長い場合（ステップＳ２１２でＮｏ）には、後述のステップＳ２１６に処理を進める。

画像フレームから顔領域が検出されずに表情評価値が入力されていないと判別された場合（ステップＳ２０２でＮｏ）には、第１のＩＤ別極大値検出部１６３ｂは、極大値変数Ｍｖの値がゼロであるか否かを判別する（ステップＳ２１４）。評価値変数Ｅｖの値がしきい値ＴＨｖより小さく顔領域が笑顔ではないと判別された場合（ステップＳ２０７でＮｏ）にも、第１のＩＤ別極大値検出部１６３ｂは、極大値変数Ｍｖの値がゼロであるか否かを判別する（ステップＳ２１４）。

極大値変数Ｍｖがゼロであると判別された場合（ステップＳ２１４でＹｅｓ）には、笑顔の顔領域が検出されていないこととなる。そのため、第１のＩＤ別極大値検出部１６３ｂは、極大値を検出していないことを示す極大値非検出情報を極大値統合部１６３ｅに出力する（ステップＳ２２２）。極大値変数Ｍｖがゼロでないと判別された場合（ステップＳ２１４でＮｏ）には、笑顔の顔領域を以前に検出していたことを示している。具体的には、ステップＳ２０２からステップＳ２１４に進んでＮｏと判別された場合は、前画像フレームで笑顔であった顔領域が検出されなくなったことを示す。一方、ステップＳ２０７からステップＳ２１４に進んでＮｏと判別された場合は、前画像フレームで笑顔であった顔領域が現在のフレームでは笑顔でなくなったと判定されたことを示す。このような場合には、その時点で保持している極大値より大きな極大値が検出される可能性が低いため、一定の時間Ｔ０ｖ経過するまでチェックする処理（ステップＳ２１２）を打ち切る情報を極大値統合部１６３ｅに出力する（ステップＳ２１５）。そして、その時点で保持している極大値の情報を極大値統合部１６３ｅに出力し（ステップＳ２１５）、極大値変数Ｍｖの値をゼロにリセットする（ステップＳ２１７）。第１のＩＤ別極大値検出部１６３ｂは、ステップＳ２１２で極大値の検出から一定の時間Ｔ０ｖが経過したと判別した場合にも、ステップＳ２１６，Ｓ２１７の処理を行う。

続いて第１のＩＤ別極大値検出部１６３ｂは、制御部１１０から全画像フレームに対する処理終了の通知を受信したか否かを判別する（ステップＳ２１８）。この通知を受信していない場合（ステップＳ２１８でＮｏ）には、第１のＩＤ別極大値検出部１６３ｂは、ステップＳ２０２に戻って次の画像フレームに対する処理を行う。この通知を受信している場合（ステップＳ２１８でＹｅｓ）には、第１のＩＤ別極大値検出部１６３ｂは、極大値変数Ｍｖの値がゼロであるか否かを判別する（ステップＳ２１９）。極大値変数Ｍｖの値がゼロである場合（ステップＳ２１９でＹｅｓ）には、全ての極大値検出情報を出力済みである。そのため、第１のＩＤ別極大値検出部１６３ｂは、極大値非検出情報を極大値統合部１６３ｅに出力し（ステップＳ２２０）、当該動画像データに関する処理を終了する。極大値変数Ｍｖの値がゼロでない場合（ステップＳ２１９でＮｏ）には、出力されていない極大値検出情報が存在することとなる。そのため、第１のＩＤ別極大値検出部１６３ｂは、極大値検出情報を極大値統合部１６３ｅに出力し（ステップＳ２２１）、当該動画像データに関する処理を終了する。

図８の処理を第１のＩＤ別極大値検出部１６３ｂ、第２のＩＤ別極大値検出部１６３ｃ、第３のＩＤ別極大値検出部１６３ｄが実行する。これにより、選択された動画像ファイルから画像に含まれる各顔画像について、好適な笑顔の画像フレームに関する情報（ここではタイムコード値）が極大値統合部１６３ｅに出力される。

図９は、図７に示される極大値統合部１６３ｅの処理を示すフローチャートである。図９に示されるように、極大値統合部１６３ｅは、表情評価値が極大値である画像フレームのタイムコードを保持するための極大値タイムコード変数ＭＴｖを−１に初期化する（ステップＳ３０１）。また、極大値統合部１６３ｅは、各顔領域に対して検出された表情評価値が極大値であるか否かを判別する一定の時間の起点となる基準タイムコードを保持するための基準タイムコード変数ＳＴｖを−１に初期化する（ステップＳ３０２）。以下の処理では、これらの変数の値が負の値であることは、タイムコードがセットされていないことを意味する。

次に、極大値統合部１６３ｅは、図１０に示すＩＤ別極大値処理を実行してＩＤ１の顔領域に対して第１のＩＤ別極大値検出部１６３ｂから入力された極大値検出／非検出情報を処理する（ステップＳ３０３）。ここでは、第１のＩＤ別極大値検出部１６３ｂが極大値を検出した画像フレームのタイムレコード値が基準タイムコード変数ＳＴｖにセットされる。続いて、極大値統合部１６３ｅは、図１０と同様の処理により、第２のＩＤ別極大値検出部１６３ｃ及び第３のＩＤ別極大値検出部１６３ｄから入力された極大値検出／非検出情報を処理する（ステップＳ３０４，Ｓ３０５）。

各ＩＤ番号に対する極大値処理の終了後、極大値統合部１６３ｅは、基準タイムコード変数ＳＴｖが初期設定の−１のままであるか否かを判別する（ステップＳ３０６）。初期設定のままであるとき（ステップＳ３０６でＹｅｓ）は、後述のステップＳ３１０に処理を進める。基準タイムコード変数ＳＴｖが−１でない場合（ステップＳ３０６でＮｏ）には、基準タイムコード変数ＳＴｖを初期化後にＩＤ別極大値検出部１６３ｂ，１６３ｃ，１６３ｄの少なくとも１つから極大値検出情報が入力されていることを意味する。この場合には、各極大値処理部のいずれかから笑顔の顔領域が検出されなくなったことを示す打ち切り情報が入力されたか否かを判別する（ステップＳ３０７）。

極大値統合部１６３ｅは、打ち切り情報が入力されていた場合（ステップＳ３０７でＹｅｓ）には、後述のステップＳ３１１に処理を進める。入力されていない場合（ステップＳ３０７でＮｏ）には、制御部１１０から入力された現在処理中の画像フレームのタイムコードを内部変数であるタイムコード変数ＣＴｖにセットする（ステップＳ３０８）。そして、このタイムコード変数ＣＴｖの値から、極大値が検出された画像フレームのタイムレコード値（基準タイムコード変数ＳＴｖの値）との時間差が、一定の時間より長いか否かを判別する（ステップＳ３０９）。ここでの基準となる一定の時間は、図８のステップＳ２１２で使用しているＴ０ｖの値の２倍の値である。

基準タイムコードが基準タイムコード変数ＳＴｖにセットされておらずに−１である場合（ステップＳ３０６でＹｅｓ）には、極大値統合部１６３ｅは、極大値非検出情報を制御部１１０に出力する（ステップＳ３１０）。また、時間差が一定の時間より短い場合（ステップＳ３０９でＮｏ）にも、極大値統合部１６３ｅは、極大値非検出情報を制御部１１０に出力する（ステップＳ３１０）。一方、打ち切り情報が入力された場合（ステップＳ３０７でＹｅｓ）、及び、時間差が一定の時間より長い場合（ステップＳ３０９でＹｅｓ）には、極大値統合部１６３ｅは、極大値検出情報を制御部１１０に出力する（ステップＳ３１１）。そして、極大値統合部１６３ｅは、基準タイムコード変数ＳＴｖの値を−１にリセットする（ステップＳ３１２）。

続いて極大値統合部１６３ｅは、制御部１１０から全画像フレームに対する処理終了の通知を受信したか否かを判別する（ステップＳ３１３）。この通知を受信していない場合（ステップＳ３１３でＮｏ）には、極大値統合部１６３ｅは、ステップＳ３０３に戻って次の画像フレームに対する処理を行う。この通知を受信している場合（ステップＳ３１３でＹｅｓ）には、極大値統合部１６３ｅは、基準タイムコード変数ＳＴｖの値が−１であるか否かを判別する（ステップＳ３１４）。基準タイムコード変数ＳＴｖの値が−１である場合（ステップＳ３１４でＹｅｓ）には、全ての極大値検出情報を出力済みである。そのため、極大値統合部１６３ｅは、極大値非検出情報を制御部１１０に出力し（ステップＳ３１５）、当該動画像データに関する処理を終了する。基準タイムコード変数ＳＴｖの値が−１でない場合（ステップＳ３１４でＮｏ）には、出力されていない極大値検出情報が存在することとなる。そのため、極大値統合部１６３ｅは、極大値検出情報を制御部１１０に出力し（ステップＳ３１６）、当該動画像データに関する処理を終了する。

図９の処理によると、極大値統合部１６３ｅは、各ＩＤ別極大値検出部から出力された極大値に関する情報を統合し、複数の顔画像が含まれる動画像から適切な笑顔が含まれる画像フレームに関する情報を出力することができる。

図１０は、図９のステップＳ３０３〜Ｓ３０５で実行されるＩＤ別極大値処理の内容を示すフローチャートである。この処理は、各ＩＤにより識別される顔画像毎に実行される。極大値統合部１６３ｅは、対応するＩＤ番号（ここでは例えばＩＤ１）に対する極大値検出情報が入力されたか否かを判定する（ステップＳ４０１）。極大値検出情報が入力されていない場合（ステップＳ４０１でＮｏ）には、そのまま図９の処理に戻る。極大値検出情報が入力されている場合（ステップＳ４０１でＹｅｓ）には、入力された極大値検出情報に含まれる極大値に対応した極大値タイムコードをＩＤ別極大値タイムコード変数ＲＴｖにセットする（ステップＳ４０２）。

続いて極大値統合部１６３ｅは、ステップＳ４０２でセットされたＩＤ別極大値タイムコード変数ＲＴｖの値が極大値タイムコード変数ＭＴｖより大きいか否かを判別する（ステップＳ４０３）。ＩＤ別極大値タイムコード変数ＲＴｖの値の方が小さい場合（ステップＳ４０３でＮｏ）には、そのまま図９の処理に戻る。ＩＤ別極大値タイムコード変数ＲＴｖの値の方が大きい場合（ステップＳ４０３でＹｅｓ）には、極大値統合部１６３ｅは、極大値タイムコード変数ＭＴｖにＩＤ別極大値タイムコード変数ＲＴｖの値をセットする（ステップＳ４０４）。そして、極大値統合部１６３ｅは、基準タイムコード変数ＳＴｖの値が初期値である−１のままであるか否かを判別する（ステップＳ４０５）。

基準タイムコード変数ＳＴｖの値が初期値である−１でない場合（ステップＳ４０５でＮｏ）には、そのまま図９の処理に戻る。基準タイムコード変数ＳＴｖの値が初期値である−１のままである場合（ステップＳ４０５でＹｅｓ）には、極大値統合部１６３ｅは、基準タイムコード変数ＳＴｖに極大値タイムコード変数ＭＴｖの値をセットし（ステップＳ４０６）、図９の処理に戻る。

図１０の処理をＩＤにより識別される顔画像毎に実行することにより、いずれかの顔領域で極大値が検出されると、その極大値が得られた最初の画像フレームのタイムコードが基準タイムコード変数ＳＴｖにセットされる。この値は、図９における極大値検出情報の出力判断の基準となる。

以下、本実施の形態に係る動画像処理装置１００Ａの処理の具体例を図１１〜図１３に基づいて説明する。図１１〜図１３は、画像フレーム毎に表情評価部１３２から出力される表情評価値の変化を３つの顔画像領域のそれぞれについてのプロットしたグラフである。図中の折れ線は、実線がＩＤ１の顔画像の表情評価値、点線がＩＤ２の顔画像の表情評価値、二点鎖線がＩＤ３の顔画像の表情評価値の変化を示す。なお、図面中で星印を付した時点での画像フレームが選択される画像フレームである。

図１１は、３つの顔領域に入る３人がそれぞれ異なるタイミングで笑顔になっている例における表情評価値の変化を示すグラフである。第１のＩＤ別極大値検出部１６３ｂは、図８の処理において、（ａ）の時点で極大値となる表情評価値を検出してその時点のタイムコードを極大値タイムコード変数ＭＴｖにセットする（ステップＳ２１０）。その後この極大値より大きな表情評価値を検出せずに（ａ’）の時点の画像フレームに対する処理を終了して一定の時間Ｔ０ｖが経過すると（ステップＳ２１２でＹｅｓ）、（ａ）の時点のタイムコードを含む極大値検出情報を出力する（ステップＳ２１６）。極大値統合部１６３ｅは、図９の第１のＩＤ別極大値処理（ステップＳ３０３）で（ａ）の時点のタイムコードを極大値タイムコード変数ＭＴｖおよび基準タイムコード変数ＳＴｖにセットする（ステップＳ４０４，４０６）。その後、他の顔領域の極大値検出情報が入力されずに（ａ’’）の時点の画像フレームに対する処理を終了して一定の時間２Ｔ０ｖが経過したとする（ステップＳ３０９でＹｅｓ）。すると、極大値統合部１６３ｅは基準タイムコード変数ＳＴｖにセットされているタイムコードを含む極大値検出情報を制御部１１０に出力する（ステップＳ３１１）。これにより、時点（ａ）のタイムコードに対応する画像フレームが処理対象として選択される。

同様に（ｂ’’）および（ｃ’’）の時点の画像フレームに対する処理が終了した際に、極大値統合部１６３ｅは、それぞれ（ｂ）及び（ｃ）の時点のタイムコードを含む極大値検出情報を制御部１１０に出力する。

以上の処理により、図１１の例のように各顔領域が異なるタイミングで笑顔になっている場合には、各顔領域それぞれに対して好適な笑顔の画像フレームのタイムコードが制御部１１０に出力される。

図１２は、複数の顔領域が近いタイミングで笑顔になっている例における表情評価値の変化を示すグラフである。第１のＩＤ別極大値検出部１６３ｂは、（ａ）の時点で極大値となる表情評価値を検出した後、（ａ’）の時点の画像フレームに対する処理を終了すると、（ａ）の時点のタイムコードを含む極大値検出情報を出力する（ステップＳ２１６）。極大値統合部１６３ｅは、第１のＩＤ別極大値処理（ステップＳ３０３）において、（ａ）の時点のタイムコードを極大値タイムコード変数ＭＴｖおよび基準タイムコード変数ＳＴｖにセットする（ステップＳ４０４，４０６）。

第２のＩＤ別極大値検出部１６３ｃは、（ｂ）の時点で極大値となる表情評価値を検出した後、（ｂ’）の時点の画像フレームに対する処理を終了すると、（ｂ）の時点のタイムコードを含む極大値検出情報を出力する（ステップＳ２１６）。極大値統合部１６３ｅは、図９の第２のＩＤ別極大値処理（ステップＳ３０４）で極大値タイムコード変数ＭＴｖに（ｂ）の時点のタイムコードをセットする（ステップＳ４０４）。ただし、基準タイムコード変数ＳＴｖには（ａ）の時点のタイムコードがセットされているため、ＳＴｖの値はそのまま保持される。

第３のＩＤ別極大値検出部１６３ｄは、（ｃ）の時点で極大値となる表情評価値を検出した後、（ｃ’）の時点の画像フレームに対する処理を終了すると、（ｃ）の時点のタイムコードを含む極大値検出情報を出力する（ステップＳ２１６）。極大値統合部１６３ｅは、図９の第３のＩＤ別極大値処理（ステップＳ３０５）で極大値タイムコード変数ＭＴｖに（ｃ）の時点のタイムコードをセットする（ステップＳ４０４）。ただし、基準タイムコード変数ＳＴｖには（ａ）の時点のタイムコードがセットされているため、ＳＴｖの値はそのまま保持される。

その後、（ａ’’）の時点の画像フレームに対する処理を終了するまでに他の極大値検出情報が入力されない。そのため、（ａ’’）の時点の画像フレームに対する処理を終了したときに基準タイムコードからの経過時間が一定の時間２Ｔ０ｖより大きくなる（ステップＳ２１６でＹｅｓ）。このため、極大値統合部１６３ｅは、極大値タイムコード変数ＭＴｖにセットされている（ｃ）の時点のタイムコードを含む極大値検出情報を制御部１１０に出力する。

以上の処理により、図１２の例のように各顔領域が近いタイミングで笑顔になっている場合には、全ての顔領域が笑顔となっている画像フレームのタイムコードが制御部１０１に出力される。

図１３は、複数の顔領域が近いタイミングで笑顔になっているが、一つの顔領域の笑顔が途中で検出されなくなる例における表情評価値の変化を示すグラフである。第１のＩＤ別極大値検出部１６３ｂは、（ａ）の時点で極大値となる表情評価値を検出した後、（ａ’）の時点の画像フレームに対する処理を終了すると、（ａ）の時点のタイムコードを含む極大値検出情報を出力する（ステップＳ２１６）。極大値統合部１６３ｅは、第１のＩＤ別極大値処理（ステップＳ３０３）において、（ａ）の時点のタイムコードを極大値タイムコード変数ＭＴｖおよび基準タイムコード変数ＳＴｖにセットする（ステップＳ４０４，４０６）。

第２のＩＤ別極大値検出部１６３ｃは、（ｂ）の時点で極大値となる表情評価値を検出した後、（ｂ’）の時点の画像フレームに対する処理を終了すると、表情評価値がしきい値を下回る。このため、第２のＩＤ別極大値検出部１６３ｃは、極大値統合部１６３ｅに打ち切り情報を出力し（ステップＳ２１５）、（ｂ）の時点のタイムコードを含む極大値検出情報を出力する（ステップＳ２１６）。つまり、それまでしきい値を超えていたいずれかの顔の表情評価値が、しきい値を下回ったことを検出した時点で、他の顔の表情評価値に関わらずに、最後に得られた極大値検出情報を出力する。極大値統合部１６３ｅは、図９の第２のＩＤ別極大値処理（ステップＳ３０４）で極大値タイムコード変数ＭＴｖに（ｂ）の時点のタイムコードをセットする（ステップＳ４０４）。また、極大値統合部１６３ｅは、（ｂ）の時点のタイムコードを含む極大値検出情報を制御部１１０に出力し（ステップＳ３１１）、基準タイムコード変数ＳＴｖを−１に初期化する（ステップＳ３１２）。

第１のＩＤ別極大値検出部１６３ｂは、（ａ’）の時点の画像フレームを処理した後に、極大値を記録した（ａ）の時点のタイムコードを含む極大値検出情報を出力する（ステップＳ２１６）。極大値統合部１６３ｅは、（ａ）の時点のタイムコードがセットされたＩＤ別極大値タイムコード変数ＲＴｖの値が、（ｂ）の時点のタイムコードがセットされている極大値タイムコード変数ＭＴｖの値より小さいと判別する（ステップＳ４０３でＮｏ）。したがって、極大値タイムコード変数ＭＴｖの値は更新されず、（ａ）の時点のタイムコードは制御部１１０には出力されない。

第３のＩＤ別極大値検出部１６３ｄは、（ｃ）の時点で極大値となる表情評価値を検出した後、（ｃ’）の時点の画像フレームに対する処理を終了すると、（ｃ）の時点のタイムコードを含む極大値検出情報を出力する（ステップＳ２１６）。極大値統合部１６３ｅは、図９の第３のＩＤ別極大値処理（ステップＳ３０５）で極大値タイムコード変数ＭＴｖに（ｃ）の時点のタイムコードをセットする（ステップＳ４０４）。また、基準タイムコード変数ＳＴｖは、（ｂ’）の時点で−１に初期化されているため、（ｃ）の時点のタイムコードがセットされる（ステップＳ４０６）。

その後、（ｃ’’）の時点の画像フレームに対する処理を終了するまでに他の極大値検出情報が入力されない。このため、（ｃ’’）の時点の画像フレームに対する処理を終了したときに基準タイムコードからの経過時間が一定の時間２Ｔ０ｖより大きくなる（ステップＳ２１６でＹｅｓ）。そこで、極大値統合部１６３ｅは、極大値タイムコード変数ＭＴｖにセットされている（ｃ）の時点のタイムコードを含む極大値検出情報を制御部１１０に出力する。

以上の処理により、図１３の例のように複数の顔領域が近いタイミングで笑顔になっているが、いずれかの顔領域の笑顔が途中で検出されなくなる場合には、次のようなタイムレコードが制御部１１０に出力される。すなわち、笑顔が非検出となる前の表情評価値が極大値である画像フレームのタイムコードが出力された後、他の顔領域が笑顔となっている画像フレームのタイムコードが制御部１１０に出力される。図１３では、表情評価値がしきい値を下回る例を示したが、図１３中の（ｂ’）の時点の画像フレーム以降、ＩＤ２の顔領域自体が非検出となる場合も同様の処理となり、同様の効果が得られる。

次に、本発明の第３の実施の形態に係る動画像処理装置について説明する。本実施の形態は、その構成、作用が上述した第２の実施の形態と基本的に同じであるので、重複した構成、作用については説明を省略し、以下に異なる構成、作用について説明する。

第２の実施の形態の動画像処理装置は、記録媒体に記録された動画像ファイルから笑顔である画像フレームの笑顔検出ファイルを作成するものである。これに対して、本実施の形態の動画像処理装置は、撮像部により撮像される動画像により動画像ファイルを作成する時に、笑顔検出ファイルを作成するものである。

図１４は、本発明の第３の実施の形態における動画像処理装置１００Ｂの構成を概略的に示すブロック図である。装置全体の基本的な構成は図６と同一であるが、撮像部１７０を備える点、動画像復号部に代えて動画像符号化部１８０を有する点が異なる。他の構成は図６と同一であるため、同一符号を付して重複した説明は省略する。

撮像部１７０は、撮影レンズと、この撮影レンズにより形成される被写体像を検出するＣＭＯＳセンサ等の撮像素子から構成され、連続した画像フレームのデータとして動画像データを出力する。動画像データは、笑顔画像検出部１６０に入力されて笑顔が検出されると共に、動画像符号化部１８０に入力されて符号化され、記録媒体２００に動画像ファイルとして記録される。

ユーザが操作部１５０を操作して撮影の開始を指示すると、制御部１１０は動画像符号化部１８０を制御して、撮像部１７０から入力される画像フレームを符号化し、記録媒体２００に順次記録する。また、処理中の画像フレームに対するタイムコードが制御部１１０から極大値検出部１６３に入力される。

撮像部１７０から出力される画像フレームデータは、顔検出部１６１にも入力され、順次表情評価部１６２、極大値検出部１６３で処理される。極大値検出部１６３から極大値を検出したことを示す極大値検出情報が入力された場合、制御部１１０は第２の実施の形態と同様、極大値検出情報内のタイムコード情報を笑顔検出ファイルに記録する。

ユーザが操作部１５０を操作して撮影の終了を指示すると、制御部１１０は動画像ファイルの作成を終了するとともに、極大値検出部１６３に処理の終了を通知し、極大値検出部１６３からの最終検出結果を受信した後、笑顔検出ファイルの作成を終了する。

なお、本実施の形態では、動画像ファイルとは別の笑顔検出ファイルを作成する例について述べた。ただし、制御部１１０内に検出結果を保持するためのバッファを設け、動画像ファイル作成終了後に、同一動画像ファイルのヘッダー領域やフッター領域等に検出結果を記録することも可能である。この場合、制御部１１０は、動画像データを動画像ファイルとして記録媒体２００に記録し、選択された画像フレームデータに関する情報を笑顔検出ファイルとして、動画像ファイルの付加データの形で記録媒体２００に記録する記録制御部としての機能を果たす。

次に、本発明の第４の実施の形態に係る動画像処理装置について説明する。本実施の形態は、その構成、作用が上述した第３の実施の形態と基本的に同じであるので、重複した構成、作用については説明を省略し、以下に異なる構成、作用について説明する。

第３の実施の形態の動画像処理装置は、動画像データから笑顔である画像フレームのタイムコードから成る笑顔検出ファイルを作成するものであるが、本実施の形態の動画像処理装置は、笑顔である画像フレームを静止画像ファイルとして記録するものである。

図１５は、本発明の第４の実施の形態における動画像処理装置１００Ｃの構成を概略的に示すブロック図である。装置全体の基本的な構成は図１４と同一であるが、動画像符号化部に代えてフレームバッファ１９１と静止画像符号化部１９２とを備える点が異なる。他の構成は図１４と同一であるため、同一符号を付して重複した説明は省略する。

フレームバッファ１９１は、撮像部１７０から入力される画像フレームデータを一定時間分保持するＦＩＦＯ（ＦｉｒｓｔＩｎＦｉｒｓｔＯｕｔ）形のメモリである。フレームバッファ１９１は、図９のステップＳ３０９の判別に利用される一定の時間２Ｔ０ｖの期間の画像フレームを保持できる容量がある。

静止画像符号化部１９２は、フレームバッファ１９１に保持された画像フレームデータをＪＰＥＧなどの静止画像データとして符号化する機能を有する。符号化された静止画像データは、静止画像ファイルを記録するための記録媒体である。

制御部１１０は、フレームバッファ１９１に保存された画像フレームデータから選択部により選択された画像フレームデータを記録媒体２００に記録する第２の記録制御部としての機能（第２の記録制御ステップ）を果たす。

ユーザが操作部１５０を操作して撮影の開始を指示すると、制御部１１０はフレームバッファ１９１を制御して、撮像部１７０から入力される画像フレームデータを格納していく。なお、格納して２Ｔ０ｖ時間が経過した画像フレームデータは順番に破棄されていく。また、処理中の画像フレームに対するタイムコードが制御部１１０から極大値検出部１６３に入力される。

撮像部１７０から出力される画像フレームデータは、顔検出部１６１にも入力され、順次表情評価部１６２、極大値検出部１６３で処理される。極大値検出部１６３から極大値の検出を示す極大値検出情報が入力されると、制御部１１０はフレームバッファ１９１に格納した画像フレームデータから極大値検出情報が示すタイムコードに対応した画像フレームデータを静止画像符号化部１９２に入力する。そして、制御部１１０は、静止画像符号化処理が終了したデータを記録媒体２００に静止画ファイルとして記録する。

ユーザが操作部１５０を操作して撮影の終了を指示すると、制御部１１０は、極大値検出部１６３に処理の終了を通知し、極大値検出部１６３からの最終検出結果を受信した後、処理を終了する。

なお、本実施の形態では、ユーザが撮影開始を指示してから撮影終了を指示するまでの期間内で、笑顔が得られた場合には複数の静止画ファイルを記録できる。ただし、ユーザが操作部１５０を操作して撮影の開始を指示した後、最初の静止画ファイルの記録が終了した時点で制御部が極大値検出部１６３に処理の終了を通知することにより、１回の操作で１枚の静止画ファイルのみ作成することも可能である。

また、本発明の目的は、以下の処理を実行することによって達成される。即ち、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）が記憶媒体に格納されたプログラムコードを読み出す処理である。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。

また、プログラムコードを供給するための記憶媒体としては、次のものを用いることができる。例えば、フロッピー（登録商標）ディスク、ハードディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ＤＶＤ＋ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等である。または、プログラムコードをネットワークを介してダウンロードしてもよい。

また、コンピュータが読み出したプログラムコードを実行することにより、上記実施の形態の機能が実現される場合も本発明に含まれる。加えて、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

更に、前述した実施形態の機能が以下の処理によって実現される場合も本発明に含まれる。即ち、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行う場合である。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施の形態の機能が実現される場合も本発明に含まれる。加えて、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現する場合も含まれる。

この場合、上記プログラムは、該プログラムを記憶した記憶媒体から直接、又はインターネット、商用ネットワーク、若しくはローカルエリアネットワーク等に接続された不図示の他のコンピュータやデータベース等からダウンロードすることにより供給される。

１００動画像処理装置
１１０制御部
１２０動画像復号部
１３０笑顔検出部
１３１顔検出部
１３２表情評価部
１３３極大値検出部
１４０表示部
１５０操作部

Claims

動画像データを構成する複数の画像フレームデータから人物の顔を検出する顔検出部と、検出された顔の表情が特定の表情にどれだけ近いかの度合いを示す表情評価値を算出する表情評価部と、該表情評価部により算出された表情評価値が高い画像フレームデータを処理対象として選択する選択部とを備える動画像処理装置において、
前記表情評価値の極大値を検出する極大値検出部を備え、
１つの画像フレームデータに複数の顔が含まれる場合、前記顔検出部は、複数の顔を検出し、前記表情評価部は、検出した複数の顔に対してそれぞれの表情評価値を算出し、前記極大値検出部は、前記複数の表情評価値からそれぞれの顔に対する極大値を検出し、前記選択部は、前記極大値検出部が検出した極大値に対応する画像フレームデータを処理対象として選択することを特徴とする動画像処理装置。
前記極大値検出部は、所定のしきい値を超えた表情評価値の中から極大値を検出することを特徴とする請求項１記載の動画像処理装置。
前記顔検出部は、対象物が人物の顔であるか否かの信頼度を示す顔信頼度値を算出し、前記極大値検出部は、前記顔信頼度値が小さくなるにしたがって前記しきい値を大きな値に変更することを特徴とする請求項２記載の動画像処理装置。
前記極大値検出部は、極大値を検出した後、所定の時間内に当該極大値を超える表情評価値を検出した場合には、前記極大値に対応する画像フレームデータを処理対象として選択せずに前記極大値を前記表情評価値で更新し、前記所定の時間内に当該極大値を超える表情評価値を検出しなかった場合には、前記極大値に対応する画像フレームデータを処理対象として選択することを特徴とする請求項１乃至３のいずれか１項に記載の動画像処理装置。
前記選択部は、前記極大値検出部が前記顔検出部により検出された複数の顔のうち１つの顔に対して極大値を検出した後、所定の期間内に他の顔に対して極大値が検出された場合に、前記他の顔の極大値に対応する画像フレームデータを処理対象として選択することを特徴とする請求項１記載の動画像処理装置。
いずれかの顔の表情評価値が、前記所定のしきい値を超えてから前記所定のしきい値を下回った場合には、その時点で最後に得られた極大値に対応する画像フレームデータを処理対象として選択することを特徴とする請求項２または３に記載の動画像処理装置。
前記選択部により選択された画像フレームデータを表示画面上に表示させる表示制御部をさらに備えることを特徴とする請求項１乃至６のいずれか１項に記載の動画像処理装置。
前記動画像データを動画像ファイルとして記録媒体に記録する記録制御部をさらに備えることを特徴とする請求項１乃至７のいずれか１項に記載の動画像処理装置。
動画像データを構成する複数の画像フレームデータから人物の顔を検出する顔検出ステップと、検出された顔の表情が特定の表情にどれだけ近いかの度合いを示す表情評価値を算出する表情評価ステップと、該表情評価ステップで算出された表情評価値が高い画像フレームデータを処理対象として選択する選択ステップとを備える動画像処理方法において、
前記表情評価値の極大値を検出する極大値検出ステップを含み、
１つの画像フレームデータに複数の顔が含まれる場合、前記顔検出ステップでは、複数の顔を検出し、前記表情評価ステップでは、検出した複数の顔に対してそれぞれの表情評価値を算出し、前記極大値検出ステップでは、前記複数の表情評価値からそれぞれの顔に対する極大値を検出し、前記選択ステップでは、前記極大値検出ステップで検出された極大値に対応する画像フレームデータを処理対象として選択することを特徴とする動画像処理方法。
動画像データを構成する複数の画像フレームデータから人物の顔を検出する顔検出ステップと、検出された顔の表情が特定の表情にどれだけ近いかの度合いを示す表情評価値を算出する表情評価ステップと、該表情評価ステップで算出された表情評価値が高い画像フレームデータを処理対象として選択する選択ステップとを備える動画像処理方法をコンピュータに実行させるプログラムにおいて、
前記表情評価値の極大値を検出する極大値検出ステップを含み、
１つの画像フレームデータに複数の顔が含まれる場合、前記顔検出ステップでは、複数の顔を検出し、前記表情評価ステップでは、検出した複数の顔に対してそれぞれの表情評価値を算出し、前記極大値検出ステップでは、前記複数の表情評価値からそれぞれの顔に対する極大値を検出し、前記選択ステップでは、前記極大値検出ステップで検出された極大値に対応する画像フレームデータを処理対象として選択することを特徴とするプログラム。
請求項１０に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。