JP2011233974A

JP2011233974A - 電子機器及び画像処理プログラム

Info

Publication number: JP2011233974A
Application number: JP2010100116A
Authority: JP
Inventors: Yoshitaka Tobita; 義賢飛田; Sukenori Kaneko; 祐紀金子; Koetsu Wada; 光悦和田; Kohei Momozaki; 浩平桃崎; Kenichi Tanabe; 謙一田部; Tomonori Sakaguchi; 智典坂口; Junichi Takahashi; 淳一高橋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-04-23
Filing date: 2010-04-23
Publication date: 2011-11-17
Anticipated expiration: 2030-04-23
Also published as: JP5479198B2

Abstract

【課題】対象のオブジェクトを漏れ無く、且つ精度よく含む動画像を生成できる電子機器を実現する。
【解決手段】顔画像検出部２１３は静止画像５１に含まれる顔画像を検出する。第１認識部２１４は、検出された顔画像に対応する人物を認識する。注視対象選択部２２１は、第１認識部２１４による認識結果に基づいて人物毎の代表画像を選択し、提示する。第２認識部２１５は、検出された顔画像に対応する人物を認識する。素材情報抽出部２２２は、第１認識部２１４による認識結果及び第２認識部２１５による認識結果の少なくともいずれかに基づいて、オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された静止画像５１を選択する。合成動画生成部２２３は、選択された静止画像５１を用いて動画像を生成する。
【選択図】図３

Description

本発明の実施形態は、情報の編集を支援する電子機器及び当該機器で実行される画像処理プログラムに関する。

近年、一般のユーザであっても、膨大な量の素材（コンテンツ）を収集、蓄積していることは珍しくない。この一因には例えば、デジタルカメラ、デジタルビデオカメラ、カメラ付き携帯電話等の普及により、ユーザが写真やビデオを撮影する機会が増加していることが挙げられる。また、ＤＶＤレコーダ、ハードディスクレコーダ、パーソナルコンピュータ等を用いて、テレビジョン放送番組データのような各種動画像コンテンツデータを記録すること、さらには、インターネット上のウェブサイト等で提供される静止画、動画、音声等のデータをハードディスク等の記憶装置に保存することによっても、素材が収集、蓄積される。

また、収集された画像（素材）の各々に含まれるオブジェクト（例えば、顔）を認識し、認識したオブジェクトに基づいて、画像を検索する技術が提案されている。検索により、指定されたオブジェクトを含む画像が抽出され、例えば、抽出された画像がレイアウトされた画像や映像等を作成することができる。

特開２００６−４８７１１号公報

ところで、画像から対象のオブジェクトを認識する方法では、画像から対象のオブジェクト（例えば、顔画像）を漏れ無く認識する性能（再現率）と、画像から対象のオブジェクトを精度よく認識する性能（適合率）とが、トレードオフの関係にあることが多い。つまり、画像から対象のオブジェクトを漏れ無く認識することを優先した方法では、認識されたオブジェクト群に対象のオブジェクトが漏れ無く含まれる可能性が高いものの、対象でないオブジェクトが誤って含まれる可能性も高い。また、画像から対象のオブジェクトを精度よく認識することを優先した方法では、認識されたオブジェクト群に、対象のオブジェクトが精度よく含まれる可能性が高い（対象でないオブジェクトが含まれる可能性が低い）ものの、認識されるべきオブジェクトが含まれない（オブジェクトに漏れがある）可能性も高い。

対象のオブジェクトを漏れ無く、且つ精度よく含む動画像を生成できる電子機器及び画像処理プログラムが望まれている。

上述の課題を解決するため、本発明の一実施形態による電子機器は、画像に含まれるオブジェクト画像を検出する検出手段と、前記検出されたオブジェクト画像に対応するオブジェクトを認識する第１認識手段と、前記第１認識手段による認識結果に基づいてオブジェクト毎の代表画像を選択し、前記オブジェクト毎の代表画像を提示する代表画像提示手段と、前記検出されたオブジェクト画像に対応するオブジェクトを認識し、当該認識によるオブジェクトの適合率が前記第１認識手段よりも高い第２認識手段と、前記第１認識手段による認識結果及び前記第２認識手段による認識結果の少なくともいずれかに基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択する画像選択手段と、前記選択された画像を用いて動画像を生成する動画像生成手段とを具備することを特徴とする。

一実施形態に係る電子機器の外観を示す斜視図。同実施形態の電子機器のシステム構成を示すブロック図。同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムの機能構成を示すブロック図。同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムが用いる顔画像情報の例を示す図。同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムが用いる注視対象候補情報の例を示す図。同実施形態の電子機器によって実行される素材分析処理の手順の例を示すフローチャート。同実施形態の電子機器によって実行される動画生成処理の手順の例を示すフローチャート。

以下、図面を参照して実施形態を説明する。
図１は、本発明の一実施形態に係る電子機器の外観を示す斜視図である。この電子機器は、例えばノートブックタイプのパーソナルコンピュータ１０として実現されている。図１に示すように、本コンピュータ１０は、コンピュータ本体１１と、ディスプレイユニット１２とから構成されている。ディスプレイユニット１２には、ＬＣＤ（liquid crystal display）１７が組み込まれている。ディスプレイユニット１２は、コンピュータ本体１１の上面が露出される開放位置とコンピュータ本体１１の上面を覆う閉塞位置との間を回動自在にコンピュータ本体１１に取り付けられている。

コンピュータ本体１１は、薄い箱形の筐体を有しており、その上面には、キーボード１３、本コンピュータ１０を電源オン／電源オフするためのパワーボタン１４、入力操作パネル１５、タッチパッド１６、スピーカ１８Ａ，１８Ｂなどが配置されている。入力操作パネル１５上には、各種操作ボタンが設けられている。

また、コンピュータ本体１１の右側面には、例えばＵＳＢ（universal serial bus）２．０規格のＵＳＢケーブルやＵＳＢデバイスを接続するためのＵＳＢコネクタ１９が設けられている。

図２は、本コンピュータ１０のシステム構成を示す図である。
本コンピュータ１０は、図２に示されているように、ＣＰＵ（central processing unit）１０１、ノースブリッジ１０２、主メモリ１０３、サウスブリッジ１０４、ＧＰＵ（Graphics Processing Unit）１０５、ＶＲＡＭ（ビデオＲＡＭ:random access memory）１０５Ａ、サウンドコントローラ１０６、ＢＩＯＳ−ＲＯＭ（basic input/output system-read only memory）１０７、ＬＡＮ（local area network）コントローラ１０８、ハードディスクドライブ（ＨＤＤ）１０９、光ディスクドライブ（ＯＤＤ）１１０、ＵＳＢコントローラ１１１Ａ、カードコントローラ１１１Ｂ、無線ＬＡＮコントローラ１１２、エンベデッドコントローラ／キーボードコントローラ（ＥＣ／ＫＢＣ）１１３、ＥＥＰＲＯＭ（electrically erasable programmable ROM）１１４等を備える。

ＣＰＵ１０１は、本コンピュータ１０内の各部の動作を制御するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０９から主メモリ１０３にロードされる、オペレーティングシステム（ＯＳ）２０１、及び動画像再生アプリケーションプログラム２０２のような各種アプリケーションプログラムを実行する。動画像再生アプリケーションプログラム２０２は、例えばＨＤＤ１０９等に格納された各種デジタルコンテンツを再生するソフトウェアである。この動画像再生アプリケーションプログラム２０２は、動画像生成機能を有している。この動画像生成機能は、例えば、ＨＤＤ１０９等に格納された写真等の素材（デジタルコンテンツ）を用いて、合成動画（動画像）を作成する機能である。さらに、この動画像生成機能は、動画像に用いる素材を分析する機能を含む。動画像再生アプリケーションプログラム２０２は、素材を用いて作成された動画像を再生し、画面（ＬＣＤ１７）に表示する。

また、ＣＰＵ１０１は、ＢＩＯＳ−ＲＯＭ１０７に格納されたＢＩＯＳも実行する。ＢＩＯＳは、ハードウェア制御のためのプログラムである。

ノースブリッジ１０２は、ＣＰＵ１０１のローカルバスとサウスブリッジ１０４との間を接続するブリッジデバイスである。ノースブリッジ１０２には、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ１０２は、例えば、PCI EXPRESS規格のシリアルバスなどを介してＧＰＵ１０５との通信を実行する機能も有している。

ＧＰＵ１０５は、本コンピュータ１０のディスプレイモニタとして使用されるＬＣＤ１７を制御する表示コントローラである。このＧＰＵ１０５によって生成される表示信号はＬＣＤ１７に送られる。

サウスブリッジ１０４は、ＰＣＩ（Peripheral Component Interconnect）バス上の各デバイス及びＬＰＣ（Low Pin Count）バス上の各デバイスを制御する。また、サウスブリッジ１０４は、ＨＤＤ１０９及びＯＤＤ１１０を制御するためのＩＤＥ（Integrated Drive Electronics）コントローラを内蔵している。さらに、サウスブリッジ１０４は、サウンドコントローラ１０６との通信を実行する機能も有している。

サウンドコントローラ１０６は音源デバイスであり、再生対象のオーディオデータをスピーカ１８Ａ，１８Ｂに出力する。ＬＡＮコントローラ１０８は、例えばIEEE 802.3規格の有線通信を実行する有線通信デバイスであり、一方、無線ＬＡＮコントローラ１１２は、例えばIEEE 802.11g規格の無線通信を実行する無線通信デバイスである。ＵＳＢコントローラ１１１Ａは、（ＵＳＢコネクタ１９を介して接続される）例えばUSB 2.0規格に対応した外部機器との通信を実行する。例えば、ＵＳＢコントローラ１１１Ａは、例えば、デジタルカメラに格納されている画像データファイルを受信するために使用される。カードコントローラ１１１Ｂは、コンピュータ本体１１に設けられたカードスロットに挿入される、ＳＤカードのようなメモリカードに対するデータの書き込み及び読み出しを実行する。

ＥＣ／ＫＢＣ１１３は、電力管理のためのエンベデッドコントローラと、キーボード１３及びタッチパッド１６を制御するためのキーボードコントローラとが集積された１チップマイクロコンピュータである。ＥＣ／ＫＢＣ１１３は、ユーザによるパワーボタン１４の操作に応じて本コンピュータ１０を電源オン／電源オフする機能を有している。

次に、図３を参照して、以上のような構成を有するコンピュータ１０上で動作する動画像再生アプリケーションプログラム２０２の一機能構成を説明する。ここでは、動画像再生アプリケーションプログラム２０２が有する機能のうち、動画像生成機能を実現するための構成例について説明する。この動画像生成機能は、ＨＤＤ１０９に格納された静止画像データ５１だけでなく、インタフェース部（上述のＵＳＢコントローラ１１１Ａ、カードコントローラ１１１Ｂ等）を介して外部デバイス（デジタルカメラ、メモリカード等）からリードされた静止画像データ５１に対しても適用することができる。

動画像再生アプリケーションプログラム２０２は、インデキシング部２１０と動画像再生部２２０とを備える。
インデキシング部２１０は、入力された静止画像５１に含まれる顔画像を検出及び認識し、当該顔画像に対応する顔画像情報３０２ＡをＨＤＤ１０９内の素材情報データベース３０２に格納する。インデキシング部２１０は、素材入力部２１１及び素材分析部２１２を備える。

素材入力部２１１は、ＵＳＢコントローラ１１１Ａ、カードコントローラ１１１Ｂ等のインタフェース部を介して、静止画像データ５１が入力されたことに応答して、静止画像データ５１をＨＤＤ１０９内の素材データベース３０１に格納する。素材データベース３０１は、生成される合成動画（動画像）に用いられる静止画像データ５１を格納するためのデータベースである。つまり、素材データベース３０１に格納された静止画像データ５１は、合成動画の素材候補として用いられる。なお、素材入力部２１１は、所定のディレクトリに格納された静止画像データ５１を素材候補として用いてもよい。また、素材入力部２１１は、ネットワークを介して静止画像データ５１が入力されたことに応答して、静止画像データ５１をＨＤＤ１０９内の素材データベース３０１に格納してもよい。

素材入力部２１１は、静止画像データ５１が入力されたことを素材分析部２１２に通知する。

素材分析部２１２は、素材入力部２１１による通知に応答して、素材データベース３０１に格納された静止画像データ５１を分析し、分析結果を示す情報（例えば、顔画像情報３０２Ａ）を素材情報データベース３０２に格納する。素材分析部２１２は、例えば、静止画像５１に含まれる顔画像を検出し、検出した顔画像に対応する人物を認識する。なお、素材分析部２１２は、検出した顔画像を人物毎に分類してもよい。

素材分析部２１２は、顔画像検出部２１３、第１認識部２１４及び第２認識部２１５を備える。
顔画像検出部２１３は、静止画像５１に含まれる顔画像を検出する。顔画像は、例えば、静止画像５１の特徴を解析し、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって検出することができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。顔検出処理により、静止画像５１内に含まれる各顔画像の位置（座標）、サイズ、正面度等が検出される。顔画像検出部２１３は、検出した顔画像を第１認識部２１４及び第２認識部２１５に出力する。

第１認識部２１４及び第２認識部２１５は、検出された顔画像に対応する人物を認識する。第１認識部２１４及び第２認識部２１５は、例えば、検出された複数の顔画像をクラスタリングすることにより、該複数の顔画像を同一の人物と推定される顔画像別のグループに分類する。また、第１認識部２１４及び第２認識部２１５は、検出された顔画像に対応する人物を識別してもよい。その場合、第１認識部２１４及び第２認識部２１５は、例えば、識別する人物毎の顔画像特徴サンプルを用いて、検出された顔画像がいずれの人物であるかを判定する。

第１認識部２１４は、第２認識部２１５よりも顔画像を漏れ無く認識する性能を有する。一方、第２認識部２１５は、第１認識部よりも顔画像を精度良く認識する性能を有する。換言すると、第１認識部２１４は、第２認識部２１５よりもオブジェクトの再現率が高く、第２認識部２１５は、第１認識部２１４よりもオブジェクトの適合率（精度）が高い。したがって、第１認識部２１４では、認識された顔画像群に対象人物の顔画像が漏れ無く含まれる可能性が高いものの、対象人物でない顔画像が誤って含まれる可能性も高い。また、第２認識部２１５では、認識された顔画像群に対象人物の顔画像が精度よく含まれる可能性が高いものの、認識されるべき顔画像が含まれない（顔画像に漏れがある）可能性も高い。すなわち、適合率と再現率とはトレードオフの関係にある。

より具体的には、第１認識部２１４による顔画像認識（分類）の再現率Ｒｃｌ_１は、第２認識部２１５による顔画像認識の再現率Ｒｃｌ_２よりも高い。ここで、第１認識部２１４の再現率Ｒｃｌ_１は、入力された複数の静止画像５１に含まれる対象人物の顔画像数Ｃに対する、第１認識部２１４により正しく認識された該対象人物の顔画像数Ｒ_１の割合を示す。第２認識部２１５の再現率Ｒｃｌ_２は、入力された複数の静止画像５１に含まれる対象人物の顔画像数Ｃに対する、第２認識部２１５により正しく認識された該対象人物の顔画像数Ｒ_２の割合を示す。すなわち、再現率Ｒｃｌは次式により算出される。
再現率Ｒｃｌ＝正しく認識された対象人物の顔画像数Ｒ／入力画像に含まれる対象人物の顔画像数Ｃ
また、第２認識部２１５による顔画像認識の適合率Ｐｃｓ_２は、第１認識部２１４による顔画像認識の適合率Ｐｃｓ_１よりも高い。ここで、第１認識部２１４の適合率Ｐｃｓ_１は、第１認識部２１４により認識された対象人物の顔画像数Ｎ_１に対する、第１認識部２１４により正しく認識された該対象人物の顔画像数Ｒ_１の割合を示す。第２認識部２１５の適合率Ｐｃｓ_２は、第２認識部２１５により認識された対象人物の顔画像数Ｎ_２に対する、第２認識部２１５により正しく認識された該対象人物の顔画像数Ｒ_２の割合を示す。すなわち、適合率Ｐｃｓは次式により算出される。
適合率Ｐｃｓ＝正しく認識された対象人物の顔画像数Ｒ／認識された対象人物の顔画像数Ｎ
第１認識部２１４及び第２認識部２１５は、認識結果を顔画像情報３０２Ａとして素材情報データベース３０２に格納する。
図４は、顔画像情報３０２Ａの一構成例を示す。顔画像情報３０２Ａは、顔画像ＩＤ、検出元画像ＩＤ、第１認識部２１４による認識結果（再現率が高く適合率が低い方法による認識結果）、及び第２認識部２１５による認識結果（再現率が低く適合率が高い方法による認識結果）を含む。

「顔画像ＩＤ」は、顔画像検出部２１３により検出された顔画像に一意に割り当てられる識別情報を示す。「検出元画像ＩＤ」は、顔画像が検出された静止画像５１の画像ＩＤを示す。この画像ＩＤは、静止画像５１に一意に割り当てられる識別情報である。「第１認識部２１４による認識結果」は、第１認識部２１４により認識された人物を表す情報（例えば、人物名、人物を識別するＩＤ等）を示す。「第２認識部２１５による認識結果」は、第２認識部２１５により認識された人物を表す情報を示す。

図４に示す顔画像情報３０２Ａの例のように、検出された顔画像に対して、「第１認識部２１４による認識結果」と「第２認識部２１５による認識結果」とは、同じ人物を示す場合と異なる人物を示す場合とがある。「第１認識部２１４による認識結果」は、「第２認識部２１５による認識結果」よりも再現率が高く、適合率が低い認識結果を示す。また、「第２認識部２１５による認識結果」は、「第１認識部２１４による認識結果」よりも再現率が低く、適合率が高い認識結果を示す。例えば、顔画像ＩＤが“００２”である顔画像は、再現率が高い第１認識部２１４では認識されているものの、再現率が低い第２認識部２１５では認識されていない。また、例えば、顔画像ＩＤが“００６”である顔画像は、適合率が低い第１認識部２１４では“人物Ｂ”と認識され、適合率が高い第２認識部２１５では“人物Ａ”と認識されている。ここでは、顔画像ＩＤが“００６”である顔画像に対応する人物は、“人物Ａ”であると想定する。つまり、顔画像ＩＤが“００６”である顔画像は、適合率が低い第１認識部２１４では“人物Ｂ”と誤って認識され、適合率が高い第２認識部２１５では“人物Ａ”と正しく認識されている。

第１認識部２１４及び第２認識部２１５では、例えば、クラスタリングに用いるしきい値を変更することにより、第１認識部２１４に第２認識部２１５よりも高い再現率を持たせ、第２認識部２１５に第１認識部２１４よりも高い適合率を持たせることができる。例えば、第１認識部２１４によるクラスタリングのしきい値が、第２認識部２１５によるクラスタリングのしきい値よりも大きく設定されることにより、第１認識部２１４が第２認識部２１５よりも高い再現率を有し、第２認識部２１５が第１認識部２１４よりも高い適合率を有するように構成できる。

図３に戻り、第１認識部２１４による認識処理及び第２認識部２１５による認識処理が完了したことに応答して、素材分析部２１２は、動画像再生部２２０（注視対象選択部２２１）に、静止画像５１の分析が完了したことを通知する。

なお、顔画像検出部２１３は、顔画像に限らず、人物画像（顔画像を含む全身や体の一部等）、風景画像（海、山、花等）、動物画像（犬、猫、魚等）等のオブジェクト画像を検出してもよい。また、第１認識部２１４及び第２認識部２１５は、顔画像に対応する人物の認識に限らず、人物画像に対応する人物、風景画像に対応する風景、動物画像に対応する動物等のオブジェクトを認識してもよい。

次いで、動画像再生部２２０は、素材データベース３０１から抽出された静止画像５１を用いて、合成動画（動画像）を生成する。そして、動画像再生部２２０は、生成した合成動画を再生し、画面（ＬＣＤ１７）に表示する。動画像再生部２２０は、注視対象選択部２２１、素材情報抽出部２２２、合成動画生成部２２３、及び合成動画出力部２２４を備える。

注視対象選択部２２１は、第１認識部２１４による認識結果に基づいて、人物毎の代表顔画像を提示する。注視対象選択部２２１は、例えば、人物毎の代表顔画像を含む注視対象候補リストを表示する。具体的には、まず、注視対象選択部２２１は、素材情報データベース３０２に格納された顔画像情報３０２Ａの「第１認識部２１４による認識結果」に基づいて、顔画像を人物毎にグループ化する。次に、注視対象選択部２２１は、人物毎のグループに属する顔画像から、それら顔画像を代表する顔画像（代表顔画像）を選択する。注視対象選択部２２１は、例えば、顔画像を人物毎に認識した際のクラスタリング結果を用いて、クラスタ空間に分布する人物毎の顔画像のうち、分布の中心付近に位置する顔画像を代表顔画像に選択する。また、注視対象選択部２２１は、例えば、人物毎のグループに属する顔画像のうち、「第１認識部２１４による認識結果」と「第２認識部２１５による認識結果」とが一致する顔画像を代表顔画像に選択する。各グループから代表顔画像を選択することにより、注視対象選択部２２１は、誤検出された顔画像が人物毎の代表顔画像（注視対象候補）として提示される可能性を低減する。そして、注視対象選択部２２１は、注視対象候補を示す注視対象候補情報３０２Ｂを生成する。

図５は、注視対象候補情報３０２Ｂの一構成例を示す。
注視対象候補情報３０２Ｂは、例えば、候補ＩＤ、注視対象候補名、代表顔画像ＩＤを含む。「候補ＩＤ」は、注視対象候補に一意に割り当てられた識別情報を示す。「注視対象候補名」は、注視対象候補の人物の名称を示す。なお、「注視対象候補名」は、人物の名称に限らず、人物を識別する情報であればよい。また、「代表顔画像ＩＤ」は、注視対象候補リストに用いられる顔画像のＩＤを示す。つまり、「代表顔画像ＩＤ」は、注視対象選択部２２１により選択された、人物毎の代表顔画像に対応する顔画像ＩＤを示す。

図５に示す注視対象候補情報３０２Ｂの例は、図４に示す顔画像情報３０２Ａの例に基づいて生成されたものである。具体的には、まず、注視対象選択部２２１は、第１認識部２１４による認識結果に基づき、人物Ａ，Ｂ，Ｃの各々について、顔画像をグループ化する。すなわち、人物Ａのグループには、顔画像ＩＤが“０００”，“００１”及び“００２”である顔画像が分類される。人物Ｂのグループには、顔画像ＩＤが“００３”，“００４”及び“００６”である顔画像が分類される。人物Ｃのグループには、顔画像ＩＤが“００５”である顔画像が分類される。次いで、注視対象選択部２２１は、人物Ａ，Ｂ，Ｃのグループの各々に属する顔画像から、グループを代表する顔画像を選択する。注視対象選択部２２１は、例えば、人物Ａのグループを代表する顔画像として、顔画像ＩＤが“０００”である顔画像を選択し、人物Ｂのグループを代表する顔画像として、顔画像ＩＤが“００３”である顔画像を選択し、人物Ｃのグループを代表する顔画像として、顔画像ＩＤが“００５”である顔画像を選択する。そして、注視対象選択部２２１は、候補ＩＤ、注視対象候補名（人物名）、及び代表顔画像ＩＤを含む注視対象候補情報３０２Ｂを生成する。

注視対象選択部２２１は、注視対象候補情報３０２Ｂに基づいて、代表顔画像のリストを注視対象候補リストとして表示する。注視対象選択部２２１は、図５に示す注視対象候補情報３０２Ｂの例では、顔画像ＩＤが“０００”，“００３”及び“００５”である顔画像を含む注視対象候補リストを表示する。ユーザは、表示された注視対象候補リストの中から、生成される合成動画において、注視対象としたい人物を選択する。注視対象選択部２２１は、選択された人物（注視対象人物）を示す情報を素材情報抽出部２２２に出力する。

素材情報抽出部２２２は、素材情報データベース３０２に格納された顔画像情報３０２Ａを参照して、「第１認識部２１４による認識結果」及び「第２認識部２１５による認識結果」の少なくともいずれかに基づいて、素材データベース３０１から、注視対象人物の顔画像が検出された静止画像５１に対応する検出元画像ＩＤを抽出する。

具体的には、まず、素材情報抽出部２２２は、素材情報データベース３０２に格納された顔画像情報３０２Ａを参照して、「第２認識部２１５による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ＩＤ（第２画像ＩＤ群）を抽出する。次に、素材情報抽出部２２２は、抽出した検出元画像ＩＤに対応する静止画像５１の数（以下、抽出画像数という）を算出する。そして、素材情報抽出部２２２は、抽出画像数がしきい値以上であるか否かを判定する。しきい値には、例えば、合成動画の生成に必要な静止画像５１の数が設定される。

抽出画像数がしきい値以上である場合、素材情報抽出部２２２は、抽出した検出元画像ＩＤを合成動画生成部２２３に出力する。
抽出画像数がしきい値以上でない場合、素材情報抽出部２２２は、顔画像情報３０２Ａを参照して、「第１認識部２１４による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ＩＤ（第１画像ＩＤ群）をさらに抽出する。そして、素材情報抽出部２２２は、抽出した検出元画像ＩＤを合成動画生成部２２３に出力する。すなわち、素材情報抽出部２２２は、「第２認識部２１５による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ＩＤ（第２画像ＩＤ群）と、「第１認識部２１４による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ＩＤ（第１画像ＩＤ群）とを合成動画生成部２２３に出力する。

合成動画生成部２２３は、素材情報抽出部２２２から出力された検出元画像ＩＤに基づいて、素材データベース３０１から、検出元画像ＩＤに対応する静止画像５１を抽出する。そして、合成動画生成部２２３は、抽出した静止画像５１を用いて合成動画を生成する。合成動画生成部２２３は、例えば、各々が所定のタイミング（順序）で表示される複数の静止画像５１を含む合成動画を生成する。また、この合成動画は、所定のタイミングで出力される音声データを含んでもよい。

ここで、図４に示す顔画像情報３０２Ａの例において、注視対象人物が“人物Ａ”である場合を想定する。その場合、まず、素材情報抽出部２２２は、「第２認識部２１５による認識結果」に“人物Ａ”が設定された、検出元画像ＩＤ“００００”及び“０００４”を抽出する。そして、素材情報抽出部２２２は、抽出画像数がしきい値以上である場合（例えば、しきい値＝２）には、検出元画像ＩＤ“００００”及び“０００４”を合成動画生成部２２３に出力する。合成動画生成部２２３は、素材データベース３０１から、検出元画像ＩＤ“００００”及び“０００４”に対応する静止画像５１を抽出し、合成動画を生成する。

一方、抽出画像数がしきい値以上でない場合（例えば、しきい値＝３）、素材情報抽出部２２２は、「第１認識部２１４による認識結果」に“人物Ａ”が設定された、検出元画像ＩＤ“０００１”及び“０００２”を抽出する。そして、素材情報抽出部２２２は、検出元画像ＩＤ“００００”，“０００１”，“０００２”，及び“０００４”を合成動画生成部２２３に出力する。合成動画生成部２２３は、素材データベース３０１から、検出元画像ＩＤ“００００”，“０００１”，“０００２”，及び“０００４”に対応する静止画像５１を抽出し、合成動画を生成する。

なお、合成動画生成部２２３は、生成される合成動画において、第２認識部２１５により認識された、注視対象人物の顔画像を含む静止画像５１にエフェクトを施す。また、合成動画生成部２２３は、生成される合成動画において、第２認識部２１５により認識された、注視対象人物の顔画像に対応する領域にエフェクトを施してもよい。このエフェクトは、例えば、ズーム、回転、スライドイン／スライドアウト、枠等の画像の重畳表示、フェードイン／フェードアウト等である。第２認識部２１５は、上述のように第１認識部２１４よりも顔画像認識の適合率が高い。したがって、第２認識部２１５により認識された注視対象人物の顔画像を含む静止画像５１にエフェクトを施すことにより、ユーザが注視したい人物を含む静止画像５１に対して、精度良くエフェクトを施すことができる。また、第２認識部２１５により認識された注視対象人物の顔画像に対応する領域にエフェクトを施すことにより、ユーザが注視したい人物に対して、精度良くエフェクトを施すことができる。すなわち、合成動画生成部２２３は、注視対象人物が正しく強調された合成動画を生成することができる。また、合成動画生成部２２３は、生成される合成動画において、第２認識部２１５により認識された、注視対象人物以外の顔画像を含む静止画像５１、及び注視対象人物以外の顔画像に対応する領域にエフェクトを施してもよい。

さらに、合成動画生成部２２３は、生成される合成動画において、第１認識部２１４により認識され、且つ第２認識部２１５により認識されなかった顔画像に対応する領域（又は、顔画像を含む静止画像５１）に、顔画像が強調される度合いが低いエフェクト（控えめなエフェクト）を施してもよい。顔画像が強調される度合いが低いエフェクトでは、例えば、顔画像にエフェクトが施される期間を短くする。

なお、素材情報抽出部２２２は、顔画像情報３０２Ａを参照して、「第１認識部２１４による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ＩＤ（第１画像ＩＤ群）を抽出してもよい。素材情報抽出部２２２は、抽出した第１画像ＩＤ群を合成動画生成部２２３に出力する。合成動画生成部２２３は、第１画像ＩＤ群に対応する静止画像５１を抽出する。そして、合成動画生成部２２３は、抽出した静止画像５１を用いて合成動画を生成する。

その際、素材情報抽出部２２２は、「第２認識部２１５による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ＩＤ（第２画像ＩＤ群）も抽出し、合成動画生成部２２３に出力する。そして、合成動画生成部２２３は、生成される合成動画において、第２画像ＩＤ群に対応する静止画像５１にエフェクトを施す。なお、合成動画生成部２２３は、生成される合成動画において、第２画像ＩＤ群に対応する静止画像５１内の、注視対象人物の顔画像に対応する領域にエフェクトを施してもよい。

上述の処理では、再現率が高い、第１認識部２１４による認識結果に基づいて、静止画像５１を抽出することにより、注視対象人物を含む静止画像５１を漏れ無く抽出できる可能性を高めることができる。また、適合率が高い、第２認識部２１５による認識結果に基づいて、ユーザが注視したい人物（又は人物を含む静止画像５１）に対してエフェクトを施すことにより、精度良くエフェクトを施すことができる。つまり、合成動画生成部２２３は、合成動画に、適合率が低い第１認識部２１４によって誤って認識された顔画像が含まれる際にも、適合率が高い第２認識部２１５により認識された顔画像にエフェクトを施すことにより、誤った顔画像が含まれることでユーザが知覚する違和感を低減することができる。合成動画生成部２２３は、生成した合成動画を合成動画出力部２２４に出力する。

合成動画出力部２２４は、合成動画生成部２２３から入力された合成動画を出力する。合成動画出力部２２４は、合成動画を再生し、画面（ＬＣＤ１７）に表示する。また、合成動画出力部２２４は、合成動画をエンコードし、エンコードした合成動画のデータを所定の記憶装置（例えば、ＨＤＤ１０９等）に格納してもよい。

以上の構成により、動画像再生アプリケーション２０２は、注視対象の顔画像（オブジェクト）を漏れ無く、且つ精度よく含む動画像を生成できる。動画像再生アプリケーション２０２は、再現率が高い第１認識部２１４と適合率が高い第２認識部２１５のそれぞれで、検出された顔画像に対応する人物を認識する。注視対象選択部２２１は、第１認識部２１４による認識結果に基づいて、合成動画を生成するための注視対象人物を選択するための候補を生成する。これにより、ユーザに提示される注視対象候補の人物に漏れが無いようにすることができる。また、合成動画生成部２２３は、第２認識部２１５による認識結果に基づいて、素材データベース３０１から抽出された、注視対象人物の顔画像が含まれる静止画像５１を優先的に合成動画に用いる。これにより、合成動画に用いられる静止画像５１には、注視対象人物の顔画像が精度よく含まれる。

次いで、図６のフローチャートを参照して、動画像再生アプリケーション２０２によって実行される素材分析処理の手順の例を説明する。
まず、素材入力部２１０は、インタフェース部等を介して静止画像データ５１が入力されたか否かを判定する（Ｂ１０１）。静止画像データ５１が入力された場合（Ｂ１０１のＹＥＳ）、素材入力部２１０は、入力された静止画像データ５１を素材データベース３０１に格納する（Ｂ１０２）。静止画像データ５１が入力されていない場合（Ｂ１０１のＹＥＳ）、素材入力部２１０は、再度、Ｂ１０１の処理を行う。

次いで、顔画像検出部２１３は、格納された素材５１に含まれる顔画像を検出する（Ｂ１０３）。顔検出処理により、素材５１に含まれる顔画像の位置（座標）、サイズ等が検出される。そして、第１認識部２１４は、第１の認識方法で、Ｂ１０３において検出された顔画像に対応する人物を認識する（Ｂ１０４）。また、第２認識部２１５は、第２の認識方法で、Ｂ１０３において検出された顔画像に対応する人物を認識する（Ｂ１０５）。第１の認識方法による認識結果は、第２の認識方法による認識結果よりも再現率が高い。また、第２の認識方法による認識結果は、第１の認識方法による認識結果よりも適合率が高い。つまり、第１の認識方法では、静止画像５１に含まれる顔画像の人物を漏れ無く認識できる可能性が高く、一方、第２の認識方法では、静止画像５１に含まれる顔画像の人物を精度良く認識できる可能性が高い。

第１認識部２１４は、第１の認識方法による認識結果を素材情報データベース３０２に格納し、第２認識部２１５は、第２の認識方法による認識結果を素材情報データベース３０２に格納する（Ｂ１０６）。

以上の処理により、第１の認識方法による顔認識結果を示す情報と第２の認識方法による顔認識結果を示す情報とを含む顔画像情報３０２Ａが素材情報データベース３０２に格納される。動画像再生部２２０は、格納された顔画像情報３０２Ａを用いて合成動画を生成し、再生する。図７のフローチャートは、動画像再生アプリケーション２０２によって実行される動画生成処理の手順の例を示す。

まず、注視対象選択部２２１は、第１認識部２１４による認識結果（顔画像情報３０２Ａ）を用いて、顔画像を人物毎にグループ化する（Ｂ２０１）。次に、注視対象選択部２２１は、人物毎のグループに属する顔画像から、それら顔画像を代表する顔画像（代表人物画像）を選択する（Ｂ２０２）。そして、注視対象選択部２２１は、選択された代表人物画像のリストを注視対象候補リストとして表示する（Ｂ２０３）。

次いで、注視対象選択部２２１は、注視対象候補リストから代表人物画像が選択されたか否かを判定する（Ｂ２０４）。選択された代表人物画像は、注視対象に設定される人物の顔画像である。代表人物画像が選択されていない場合（Ｂ２０４のＮＯ）、注視対象選択部２２１は、再度Ｂ２０４の処理を実行する。

代表人物画像が選択されている場合（Ｂ２０４のＹＥＳ）、素材情報抽出部２２２は、第２認識部２１５による認識結果を用いて、選択された人物（代表人物画像）に対応する顔画像情報３０２Ａを素材情報データベース３０２から抽出する（Ｂ２０５）。そして、素材情報抽出部２２２は、抽出された顔画像情報３０２Ａに対応する静止画像５１の数（抽出された顔画像情報３０２Ａに対応する顔画像が検出された静止画像５１の数）が、合成動画を生成するために必要な数以上であるか否かを判定する（Ｂ２０６）。抽出された顔画像情報３０２Ａに対応する静止画像５１の数が、合成動画を生成するために必要な数以上でない場合（Ｂ２０６のＮＯ）、素材情報抽出部２２２は、第１認識部２１４による認識結果を用いて、選択された人物（代表人物画像）に対応する顔画像情報３０２Ａを素材情報データベース３０２から更に抽出する（Ｂ２０７）。

Ｂ２０７における顔画像情報３０２Ａの抽出が完了した後、又は抽出された顔画像情報３０２Ａに対応する静止画像５１の数が、合成動画を生成するために必要な数以上である場合（Ｂ２０６のＹＥＳ）、合成動画生成部２２３は、抽出された顔画像情報３０２Ａに対応する静止画像５１を素材データベース３０１から抽出する（Ｂ２０８）。具体的には、合成動画生成部２２３は、抽出された顔画像情報３０２Ａの検出元画像ＩＤに基づいて、この検出元画像ＩＤに対応する静止画像５１を素材データベース３０１から抽出する。そして、合成動画生成部２２３は、抽出した静止画像５１を用いて合成動画を生成する（Ｂ２０９）。合成動画生成部２２３は、生成した合成動画を合成動画出力部２２４に出力する。

合成動画出力部２２４は、合成動画の出力方法が再生とファイル出力のいずれであるかを判定する（Ｂ２１０）。合成動画を再生する出力方法が選択されている場合（Ｂ２１０の再生）、合成動画出力部２２４は、合成動画を再生し、画面に出力する（Ｂ２１１）。一方、合成動画をファイル出力する出力方法が選択されている場合（Ｂ２１０のファイル出力）、合成動画出力部２２４は、合成動画を所定の形式でファイルに出力する（Ｂ２１２）。

以上の処理により、第１認識部２１４による認識結果と第２認識部２１５による認識結果とを用いて、合成動画が生成される。注視対象選択部２２１は、再現率が高い第１認識部２１４による認識結果を、生成される合成動画において、注視する人物を選択する注視対象候補リストを表示するために用いる。素材情報抽出部２２２は、適合率が高い第２認識部２１５による認識結果を、注視対象候補リストから選択された人物の顔画像が認識された静止画像５１を、素材データベース３０１から抽出するために用いる。これにより、合成動画生成部２２３は、注視対象の人物の顔画像を漏れ無く、且つ精度よく含む合成動画を生成できる。

以上説明したように、本実施形態によれば、対象のオブジェクトを漏れ無く、且つ精度よく含む動画像を生成できる。動画像再生アプリケーション２０２は、再現率が高い第１認識部２１４と適合率が高い第２認識部２１５のそれぞれで、検出された顔画像に対応する人物を認識する。注視対象選択部２２１は、第１認識部２１４による認識結果に基づいて、合成動画を生成するための注視対象人物を選択するための候補を生成する。これにより、ユーザに提示される注視対象候補の人物に漏れが無いようにすることができる。また、合成動画生成部２２３は、第２認識部２１５による認識結果に基づいて、素材データベース３０１から抽出された、注視対象人物の顔画像が含まれる静止画像５１を優先的に合成動画に用いる。これにより、合成動画に用いられる静止画像５１には、注視対象人物の顔画像が精度よく含まれる。

なお、本実施形態の素材分析処理及び動画生成処理の手順は全てソフトウェアによって実行することができる。このため、素材分析処理及び合成動画生成処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。

また本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１０９…ＨＤＤ、２０２…動画像再生アプリケーションプログラム、２１０…インデキシング部、２１１…素材入力部、２１２…素材分析部、２１３…顔画像検出部、２１４…第１認識部、２１５…第２認識部、２２０…動画再生部、２２１…注視対象選択部、２２２…素材情報抽出部、２２３…合成動画生成部、２２４…合成動画出力部、３０１…素材データベース、３０２…素材情報データベース、３０２Ａ…顔画像情報、３０２Ｂ…注視対象候補情報、５１…静止画像データ。

Claims

画像に含まれるオブジェクト画像を検出する検出手段と、
前記検出されたオブジェクト画像に対応するオブジェクトを認識する第１認識手段と、
前記第１認識手段による認識結果に基づいてオブジェクト毎の代表画像を選択し、前記オブジェクト毎の代表画像を提示する代表画像提示手段と、
前記検出されたオブジェクト画像に対応するオブジェクトを認識し、当該認識によるオブジェクトの適合率が前記第１認識手段よりも高い第２認識手段と、
前記第１認識手段による認識結果及び前記第２認識手段による認識結果の少なくともいずれかに基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択する画像選択手段と、
前記選択された画像を用いて動画像を生成する動画像生成手段とを具備することを特徴とする電子機器。
前記画像選択手段は、前記第２認識手段による認識結果に基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択し、前記選択された画像が所定数以下である場合、前記第１認識手段による認識結果に基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像をさらに選択することを特徴とする請求項１記載の電子機器。
前記動画像生成手段は、前記動画像において、前記第２認識手段により認識されたオブジェクトを含む画像にエフェクトを施すことを特徴とする請求項１または請求項２記載の電子機器。
前記動画像生成手段は、前記動画像において、前記第２認識手段により認識されたオブジェクトに対応する領域にエフェクトを施すことを特徴とする請求項３記載の電子機器。
前記第１認識手段は、前記第２認識手段による認識結果よりもオブジェクトの再現率が高いことを特徴とする請求項１記載の電子機器。
前記オブジェクト画像は顔画像であり、
前記第１認識手段、及び、前記第２認識手段は、前記顔画像に対応する人物を認識することを特徴とする請求項１記載の電子機器。
動画像を生成するプログラムであって、
画像に含まれるオブジェクト画像を検出する検出処理を実行する手順と、
前記検出されたオブジェクト画像に対応するオブジェクトを認識する第１認識処理を実行する手順と、
前記第１認識処理による認識結果に基づいてオブジェクト毎の代表画像を選択し、前記オブジェクト毎の代表画像を提示する代表画像提示処理を実行する手順と、
前記検出されたオブジェクト画像に対応するオブジェクトを認識し、当該認識によるオブジェクトの適合率が前記第１認識処理よりも高い第２認識処理を実行する手順と、
前記第１認識処理による認識結果及び前記第２認識処理による認識結果の少なくともいずれかに基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択する画像選択処理を実行する手順と、
前記選択された画像を用いて前記動画像を生成する動画像生成処理を実行する手順とをコンピュータに実行させるプログラム。
前記画像選択処理は、前記第２認識処理による認識結果に基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択し、前記選択された画像が所定数以下である場合、前記第１認識処理による認識結果に基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像をさらに選択する請求項７記載のプログラム。