JP5479198B2 - 電子機器及び画像処理プログラム - Google Patents

電子機器及び画像処理プログラム Download PDF

Info

Publication number
JP5479198B2
JP5479198B2 JP2010100116A JP2010100116A JP5479198B2 JP 5479198 B2 JP5479198 B2 JP 5479198B2 JP 2010100116 A JP2010100116 A JP 2010100116A JP 2010100116 A JP2010100116 A JP 2010100116A JP 5479198 B2 JP5479198 B2 JP 5479198B2
Authority
JP
Japan
Prior art keywords
image
unit
recognition
face image
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010100116A
Other languages
English (en)
Other versions
JP2011233974A (ja
Inventor
義賢 飛田
祐紀 金子
光悦 和田
浩平 桃崎
謙一 田部
智典 坂口
淳一 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010100116A priority Critical patent/JP5479198B2/ja
Publication of JP2011233974A publication Critical patent/JP2011233974A/ja
Application granted granted Critical
Publication of JP5479198B2 publication Critical patent/JP5479198B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明の実施形態は、情報の編集を支援する電子機器及び当該機器で実行される画像処理プログラムに関する。
近年、一般のユーザであっても、膨大な量の素材(コンテンツ)を収集、蓄積していることは珍しくない。この一因には例えば、デジタルカメラ、デジタルビデオカメラ、カメラ付き携帯電話等の普及により、ユーザが写真やビデオを撮影する機会が増加していることが挙げられる。また、DVDレコーダ、ハードディスクレコーダ、パーソナルコンピュータ等を用いて、テレビジョン放送番組データのような各種動画像コンテンツデータを記録すること、さらには、インターネット上のウェブサイト等で提供される静止画、動画、音声等のデータをハードディスク等の記憶装置に保存することによっても、素材が収集、蓄積される。
また、収集された画像(素材)の各々に含まれるオブジェクト(例えば、顔)を認識し、認識したオブジェクトに基づいて、画像を検索する技術が提案されている。検索により、指定されたオブジェクトを含む画像が抽出され、例えば、抽出された画像がレイアウトされた画像や映像等を作成することができる。
特開2006−48711号公報
ところで、画像から対象のオブジェクトを認識する方法では、画像から対象のオブジェクト(例えば、顔画像)を漏れ無く認識する性能(再現率)と、画像から対象のオブジェクトを精度よく認識する性能(適合率)とが、トレードオフの関係にあることが多い。つまり、画像から対象のオブジェクトを漏れ無く認識することを優先した方法では、認識されたオブジェクト群に対象のオブジェクトが漏れ無く含まれる可能性が高いものの、対象でないオブジェクトが誤って含まれる可能性も高い。また、画像から対象のオブジェクトを精度よく認識することを優先した方法では、認識されたオブジェクト群に、対象のオブジェクトが精度よく含まれる可能性が高い(対象でないオブジェクトが含まれる可能性が低い)ものの、認識されるべきオブジェクトが含まれない(オブジェクトに漏れがある)可能性も高い。
対象のオブジェクトを漏れ無く、且つ精度よく含む動画像を生成できる電子機器及び画像処理プログラムが望まれている。
上述の課題を解決するため、本発明の一実施形態による電子機器は、画像に含まれるオブジェクト画像を検出する検出手段と、前記検出されたオブジェクト画像に対応するオブジェクトを認識する第1認識手段と、前記第1認識手段による認識結果に基づいてオブジェクト毎の代表画像を選択し、前記オブジェクト毎の代表画像を提示する代表画像提示手段と、前記検出されたオブジェクト画像に対応するオブジェクトを認識し、当該認識によるオブジェクトの適合率が前記第1認識手段よりも高い第2認識手段と、前記第1認識手段による認識結果及び前記第2認識手段による認識結果の少なくともいずれかに基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択する画像選択手段と、前記選択された画像を用いて動画像を生成する動画像生成手段とを具備することを特徴とする。
一実施形態に係る電子機器の外観を示す斜視図。 同実施形態の電子機器のシステム構成を示すブロック図。 同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムの機能構成を示すブロック図。 同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムが用いる顔画像情報の例を示す図。 同実施形態の電子機器によって実行される動画像再生アプリケーションプログラムが用いる注視対象候補情報の例を示す図。 同実施形態の電子機器によって実行される素材分析処理の手順の例を示すフローチャート。 同実施形態の電子機器によって実行される動画生成処理の手順の例を示すフローチャート。
以下、図面を参照して実施形態を説明する。
図1は、本発明の一実施形態に係る電子機器の外観を示す斜視図である。この電子機器は、例えばノートブックタイプのパーソナルコンピュータ10として実現されている。図1に示すように、本コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12には、LCD(liquid crystal display)17が組み込まれている。ディスプレイユニット12は、コンピュータ本体11の上面が露出される開放位置とコンピュータ本体11の上面を覆う閉塞位置との間を回動自在にコンピュータ本体11に取り付けられている。
コンピュータ本体11は、薄い箱形の筐体を有しており、その上面には、キーボード13、本コンピュータ10を電源オン/電源オフするためのパワーボタン14、入力操作パネル15、タッチパッド16、スピーカ18A,18Bなどが配置されている。入力操作パネル15上には、各種操作ボタンが設けられている。
また、コンピュータ本体11の右側面には、例えばUSB(universal serial bus)2.0規格のUSBケーブルやUSBデバイスを接続するためのUSBコネクタ19が設けられている。
図2は、本コンピュータ10のシステム構成を示す図である。
本コンピュータ10は、図2に示されているように、CPU(central processing unit)101、ノースブリッジ102、主メモリ103、サウスブリッジ104、GPU(Graphics Processing Unit)105、VRAM(ビデオRAM:random access memory)105A、サウンドコントローラ106、BIOS−ROM(basic input/output system-read only memory)107、LAN(local area network)コントローラ108、ハードディスクドライブ(HDD)109、光ディスクドライブ(ODD)110、USBコントローラ111A、カードコントローラ111B、無線LANコントローラ112、エンベデッドコントローラ/キーボードコントローラ(EC/KBC)113、EEPROM(electrically erasable programmable ROM)114等を備える。
CPU101は、本コンピュータ10内の各部の動作を制御するプロセッサである。CPU101は、HDD109から主メモリ103にロードされる、オペレーティングシステム(OS)201、及び動画像再生アプリケーションプログラム202のような各種アプリケーションプログラムを実行する。動画像再生アプリケーションプログラム202は、例えばHDD109等に格納された各種デジタルコンテンツを再生するソフトウェアである。この動画像再生アプリケーションプログラム202は、動画像生成機能を有している。この動画像生成機能は、例えば、HDD109等に格納された写真等の素材(デジタルコンテンツ)を用いて、合成動画(動画像)を作成する機能である。さらに、この動画像生成機能は、動画像に用いる素材を分析する機能を含む。動画像再生アプリケーションプログラム202は、素材を用いて作成された動画像を再生し、画面(LCD17)に表示する。
また、CPU101は、BIOS−ROM107に格納されたBIOSも実行する。BIOSは、ハードウェア制御のためのプログラムである。
ノースブリッジ102は、CPU101のローカルバスとサウスブリッジ104との間を接続するブリッジデバイスである。ノースブリッジ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ102は、例えば、PCI EXPRESS規格のシリアルバスなどを介してGPU105との通信を実行する機能も有している。
GPU105は、本コンピュータ10のディスプレイモニタとして使用されるLCD17を制御する表示コントローラである。このGPU105によって生成される表示信号はLCD17に送られる。
サウスブリッジ104は、PCI(Peripheral Component Interconnect)バス上の各デバイス及びLPC(Low Pin Count)バス上の各デバイスを制御する。また、サウスブリッジ104は、HDD109及びODD110を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ104は、サウンドコントローラ106との通信を実行する機能も有している。
サウンドコントローラ106は音源デバイスであり、再生対象のオーディオデータをスピーカ18A,18Bに出力する。LANコントローラ108は、例えばIEEE 802.3規格の有線通信を実行する有線通信デバイスであり、一方、無線LANコントローラ112は、例えばIEEE 802.11g規格の無線通信を実行する無線通信デバイスである。USBコントローラ111Aは、(USBコネクタ19を介して接続される)例えばUSB 2.0規格に対応した外部機器との通信を実行する。例えば、USBコントローラ111Aは、例えば、デジタルカメラに格納されている画像データファイルを受信するために使用される。カードコントローラ111Bは、コンピュータ本体11に設けられたカードスロットに挿入される、SDカードのようなメモリカードに対するデータの書き込み及び読み出しを実行する。
EC/KBC113は、電力管理のためのエンベデッドコントローラと、キーボード13及びタッチパッド16を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。EC/KBC113は、ユーザによるパワーボタン14の操作に応じて本コンピュータ10を電源オン/電源オフする機能を有している。
次に、図3を参照して、以上のような構成を有するコンピュータ10上で動作する動画像再生アプリケーションプログラム202の一機能構成を説明する。ここでは、動画像再生アプリケーションプログラム202が有する機能のうち、動画像生成機能を実現するための構成例について説明する。この動画像生成機能は、HDD109に格納された静止画像データ51だけでなく、インタフェース部(上述のUSBコントローラ111A、カードコントローラ111B等)を介して外部デバイス(デジタルカメラ、メモリカード等)からリードされた静止画像データ51に対しても適用することができる。
動画像再生アプリケーションプログラム202は、インデキシング部210と動画像再生部220とを備える。
インデキシング部210は、入力された静止画像51に含まれる顔画像を検出及び認識し、当該顔画像に対応する顔画像情報302AをHDD109内の素材情報データベース302に格納する。インデキシング部210は、素材入力部211及び素材分析部212を備える。
素材入力部211は、USBコントローラ111A、カードコントローラ111B等のインタフェース部を介して、静止画像データ51が入力されたことに応答して、静止画像データ51をHDD109内の素材データベース301に格納する。素材データベース301は、生成される合成動画(動画像)に用いられる静止画像データ51を格納するためのデータベースである。つまり、素材データベース301に格納された静止画像データ51は、合成動画の素材候補として用いられる。なお、素材入力部211は、所定のディレクトリに格納された静止画像データ51を素材候補として用いてもよい。また、素材入力部211は、ネットワークを介して静止画像データ51が入力されたことに応答して、静止画像データ51をHDD109内の素材データベース301に格納してもよい。
素材入力部211は、静止画像データ51が入力されたことを素材分析部212に通知する。
素材分析部212は、素材入力部211による通知に応答して、素材データベース301に格納された静止画像データ51を分析し、分析結果を示す情報(例えば、顔画像情報302A)を素材情報データベース302に格納する。素材分析部212は、例えば、静止画像51に含まれる顔画像を検出し、検出した顔画像に対応する人物を認識する。なお、素材分析部212は、検出した顔画像を人物毎に分類してもよい。
素材分析部212は、顔画像検出部213、第1認識部214及び第2認識部215を備える。
顔画像検出部213は、静止画像51に含まれる顔画像を検出する。顔画像は、例えば、静止画像51の特徴を解析し、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって検出することができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。顔検出処理により、静止画像51内に含まれる各顔画像の位置(座標)、サイズ、正面度等が検出される。顔画像検出部213は、検出した顔画像を第1認識部214及び第2認識部215に出力する。
第1認識部214及び第2認識部215は、検出された顔画像に対応する人物を認識する。第1認識部214及び第2認識部215は、例えば、検出された複数の顔画像をクラスタリングすることにより、該複数の顔画像を同一の人物と推定される顔画像別のグループに分類する。また、第1認識部214及び第2認識部215は、検出された顔画像に対応する人物を識別してもよい。その場合、第1認識部214及び第2認識部215は、例えば、識別する人物毎の顔画像特徴サンプルを用いて、検出された顔画像がいずれの人物であるかを判定する。
第1認識部214は、第2認識部215よりも顔画像を漏れ無く認識する性能を有する。一方、第2認識部215は、第1認識部よりも顔画像を精度良く認識する性能を有する。換言すると、第1認識部214は、第2認識部215よりもオブジェクトの再現率が高く、第2認識部215は、第1認識部214よりもオブジェクトの適合率(精度)が高い。したがって、第1認識部214では、認識された顔画像群に対象人物の顔画像が漏れ無く含まれる可能性が高いものの、対象人物でない顔画像が誤って含まれる可能性も高い。また、第2認識部215では、認識された顔画像群に対象人物の顔画像が精度よく含まれる可能性が高いものの、認識されるべき顔画像が含まれない(顔画像に漏れがある)可能性も高い。すなわち、適合率と再現率とはトレードオフの関係にある。
より具体的には、第1認識部214による顔画像認識(分類)の再現率Rclは、第2認識部215による顔画像認識の再現率Rclよりも高い。ここで、第1認識部214の再現率Rclは、入力された複数の静止画像51に含まれる対象人物の顔画像数Cに対する、第1認識部214により正しく認識された該対象人物の顔画像数Rの割合を示す。第2認識部215の再現率Rclは、入力された複数の静止画像51に含まれる対象人物の顔画像数Cに対する、第2認識部215により正しく認識された該対象人物の顔画像数Rの割合を示す。すなわち、再現率Rclは次式により算出される。
再現率Rcl=正しく認識された対象人物の顔画像数R/入力画像に含まれる対象人物の顔画像数C
また、第2認識部215による顔画像認識の適合率Pcsは、第1認識部214による顔画像認識の適合率Pcsよりも高い。ここで、第1認識部214の適合率Pcsは、第1認識部214により認識された対象人物の顔画像数Nに対する、第1認識部214により正しく認識された該対象人物の顔画像数Rの割合を示す。第2認識部215の適合率Pcsは、第2認識部215により認識された対象人物の顔画像数Nに対する、第2認識部215により正しく認識された該対象人物の顔画像数Rの割合を示す。すなわち、適合率Pcsは次式により算出される。
適合率Pcs=正しく認識された対象人物の顔画像数R/認識された対象人物の顔画像数N
第1認識部214及び第2認識部215は、認識結果を顔画像情報302Aとして素材情報データベース302に格納する。
図4は、顔画像情報302Aの一構成例を示す。顔画像情報302Aは、顔画像ID、検出元画像ID、第1認識部214による認識結果(再現率が高く適合率が低い方法による認識結果)、及び第2認識部215による認識結果(再現率が低く適合率が高い方法による認識結果)を含む。
「顔画像ID」は、顔画像検出部213により検出された顔画像に一意に割り当てられる識別情報を示す。「検出元画像ID」は、顔画像が検出された静止画像51の画像IDを示す。この画像IDは、静止画像51に一意に割り当てられる識別情報である。「第1認識部214による認識結果」は、第1認識部214により認識された人物を表す情報(例えば、人物名、人物を識別するID等)を示す。「第2認識部215による認識結果」は、第2認識部215により認識された人物を表す情報を示す。
図4に示す顔画像情報302Aの例のように、検出された顔画像に対して、「第1認識部214による認識結果」と「第2認識部215による認識結果」とは、同じ人物を示す場合と異なる人物を示す場合とがある。「第1認識部214による認識結果」は、「第2認識部215による認識結果」よりも再現率が高く、適合率が低い認識結果を示す。また、「第2認識部215による認識結果」は、「第1認識部214による認識結果」よりも再現率が低く、適合率が高い認識結果を示す。例えば、顔画像IDが“002”である顔画像は、再現率が高い第1認識部214では認識されているものの、再現率が低い第2認識部215では認識されていない。また、例えば、顔画像IDが“006”である顔画像は、適合率が低い第1認識部214では“人物B”と認識され、適合率が高い第2認識部215では“人物A”と認識されている。ここでは、顔画像IDが“006”である顔画像に対応する人物は、“人物A”であると想定する。つまり、顔画像IDが“006”である顔画像は、適合率が低い第1認識部214では“人物B”と誤って認識され、適合率が高い第2認識部215では“人物A”と正しく認識されている。
第1認識部214及び第2認識部215では、例えば、クラスタリングに用いるしきい値を変更することにより、第1認識部214に第2認識部215よりも高い再現率を持たせ、第2認識部215に第1認識部214よりも高い適合率を持たせることができる。例えば、第1認識部214によるクラスタリングのしきい値が、第2認識部215によるクラスタリングのしきい値よりも大きく設定されることにより、第1認識部214が第2認識部215よりも高い再現率を有し、第2認識部215が第1認識部214よりも高い適合率を有するように構成できる。
図3に戻り、第1認識部214による認識処理及び第2認識部215による認識処理が完了したことに応答して、素材分析部212は、動画像再生部220(注視対象選択部221)に、静止画像51の分析が完了したことを通知する。
なお、顔画像検出部213は、顔画像に限らず、人物画像(顔画像を含む全身や体の一部等)、風景画像(海、山、花等)、動物画像(犬、猫、魚等)等のオブジェクト画像を検出してもよい。また、第1認識部214及び第2認識部215は、顔画像に対応する人物の認識に限らず、人物画像に対応する人物、風景画像に対応する風景、動物画像に対応する動物等のオブジェクトを認識してもよい。
次いで、動画像再生部220は、素材データベース301から抽出された静止画像51を用いて、合成動画(動画像)を生成する。そして、動画像再生部220は、生成した合成動画を再生し、画面(LCD17)に表示する。動画像再生部220は、注視対象選択部221、素材情報抽出部222、合成動画生成部223、及び合成動画出力部224を備える。
注視対象選択部221は、第1認識部214による認識結果に基づいて、人物毎の代表顔画像を提示する。注視対象選択部221は、例えば、人物毎の代表顔画像を含む注視対象候補リストを表示する。具体的には、まず、注視対象選択部221は、素材情報データベース302に格納された顔画像情報302Aの「第1認識部214による認識結果」に基づいて、顔画像を人物毎にグループ化する。次に、注視対象選択部221は、人物毎のグループに属する顔画像から、それら顔画像を代表する顔画像(代表顔画像)を選択する。注視対象選択部221は、例えば、顔画像を人物毎に認識した際のクラスタリング結果を用いて、クラスタ空間に分布する人物毎の顔画像のうち、分布の中心付近に位置する顔画像を代表顔画像に選択する。また、注視対象選択部221は、例えば、人物毎のグループに属する顔画像のうち、「第1認識部214による認識結果」と「第2認識部215による認識結果」とが一致する顔画像を代表顔画像に選択する。各グループから代表顔画像を選択することにより、注視対象選択部221は、誤検出された顔画像が人物毎の代表顔画像(注視対象候補)として提示される可能性を低減する。そして、注視対象選択部221は、注視対象候補を示す注視対象候補情報302Bを生成する。
図5は、注視対象候補情報302Bの一構成例を示す。
注視対象候補情報302Bは、例えば、候補ID、注視対象候補名、代表顔画像IDを含む。「候補ID」は、注視対象候補に一意に割り当てられた識別情報を示す。「注視対象候補名」は、注視対象候補の人物の名称を示す。なお、「注視対象候補名」は、人物の名称に限らず、人物を識別する情報であればよい。また、「代表顔画像ID」は、注視対象候補リストに用いられる顔画像のIDを示す。つまり、「代表顔画像ID」は、注視対象選択部221により選択された、人物毎の代表顔画像に対応する顔画像IDを示す。
図5に示す注視対象候補情報302Bの例は、図4に示す顔画像情報302Aの例に基づいて生成されたものである。具体的には、まず、注視対象選択部221は、第1認識部214による認識結果に基づき、人物A,B,Cの各々について、顔画像をグループ化する。すなわち、人物Aのグループには、顔画像IDが“000”,“001”及び“002”である顔画像が分類される。人物Bのグループには、顔画像IDが“003”,“004”及び“006”である顔画像が分類される。人物Cのグループには、顔画像IDが“005”である顔画像が分類される。次いで、注視対象選択部221は、人物A,B,Cのグループの各々に属する顔画像から、グループを代表する顔画像を選択する。注視対象選択部221は、例えば、人物Aのグループを代表する顔画像として、顔画像IDが“000”である顔画像を選択し、人物Bのグループを代表する顔画像として、顔画像IDが“003”である顔画像を選択し、人物Cのグループを代表する顔画像として、顔画像IDが“005”である顔画像を選択する。そして、注視対象選択部221は、候補ID、注視対象候補名(人物名)、及び代表顔画像IDを含む注視対象候補情報302Bを生成する。
注視対象選択部221は、注視対象候補情報302Bに基づいて、代表顔画像のリストを注視対象候補リストとして表示する。注視対象選択部221は、図5に示す注視対象候補情報302Bの例では、顔画像IDが“000”,“003”及び“005”である顔画像を含む注視対象候補リストを表示する。ユーザは、表示された注視対象候補リストの中から、生成される合成動画において、注視対象としたい人物を選択する。注視対象選択部221は、選択された人物(注視対象人物)を示す情報を素材情報抽出部222に出力する。
素材情報抽出部222は、素材情報データベース302に格納された顔画像情報302Aを参照して、「第1認識部214による認識結果」及び「第2認識部215による認識結果」の少なくともいずれかに基づいて、素材データベース301から、注視対象人物の顔画像が検出された静止画像51に対応する検出元画像IDを抽出する。
具体的には、まず、素材情報抽出部222は、素材情報データベース302に格納された顔画像情報302Aを参照して、「第2認識部215による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ID(第2画像ID群)を抽出する。次に、素材情報抽出部222は、抽出した検出元画像IDに対応する静止画像51の数(以下、抽出画像数という)を算出する。そして、素材情報抽出部222は、抽出画像数がしきい値以上であるか否かを判定する。しきい値には、例えば、合成動画の生成に必要な静止画像51の数が設定される。
抽出画像数がしきい値以上である場合、素材情報抽出部222は、抽出した検出元画像IDを合成動画生成部223に出力する。
抽出画像数がしきい値以上でない場合、素材情報抽出部222は、顔画像情報302Aを参照して、「第1認識部214による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ID(第1画像ID群)をさらに抽出する。そして、素材情報抽出部222は、抽出した検出元画像IDを合成動画生成部223に出力する。すなわち、素材情報抽出部222は、「第2認識部215による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ID(第2画像ID群)と、「第1認識部214による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ID(第1画像ID群)とを合成動画生成部223に出力する。
合成動画生成部223は、素材情報抽出部222から出力された検出元画像IDに基づいて、素材データベース301から、検出元画像IDに対応する静止画像51を抽出する。そして、合成動画生成部223は、抽出した静止画像51を用いて合成動画を生成する。合成動画生成部223は、例えば、各々が所定のタイミング(順序)で表示される複数の静止画像51を含む合成動画を生成する。また、この合成動画は、所定のタイミングで出力される音声データを含んでもよい。
ここで、図4に示す顔画像情報302Aの例において、注視対象人物が“人物A”である場合を想定する。その場合、まず、素材情報抽出部222は、「第2認識部215による認識結果」に“人物A”が設定された、検出元画像ID“0000”及び“0004”を抽出する。そして、素材情報抽出部222は、抽出画像数がしきい値以上である場合(例えば、しきい値=2)には、検出元画像ID“0000”及び“0004”を合成動画生成部223に出力する。合成動画生成部223は、素材データベース301から、検出元画像ID“0000”及び“0004”に対応する静止画像51を抽出し、合成動画を生成する。
一方、抽出画像数がしきい値以上でない場合(例えば、しきい値=3)、素材情報抽出部222は、「第1認識部214による認識結果」に“人物A”が設定された、検出元画像ID“0001”及び“0002”を抽出する。そして、素材情報抽出部222は、検出元画像ID“0000”,“0001”,“0002”,及び“0004”を合成動画生成部223に出力する。合成動画生成部223は、素材データベース301から、検出元画像ID“0000”,“0001”,“0002”,及び“0004”に対応する静止画像51を抽出し、合成動画を生成する。
なお、合成動画生成部223は、生成される合成動画において、第2認識部215により認識された、注視対象人物の顔画像を含む静止画像51にエフェクトを施す。また、合成動画生成部223は、生成される合成動画において、第2認識部215により認識された、注視対象人物の顔画像に対応する領域にエフェクトを施してもよい。このエフェクトは、例えば、ズーム、回転、スライドイン/スライドアウト、枠等の画像の重畳表示、フェードイン/フェードアウト等である。第2認識部215は、上述のように第1認識部214よりも顔画像認識の適合率が高い。したがって、第2認識部215により認識された注視対象人物の顔画像を含む静止画像51にエフェクトを施すことにより、ユーザが注視したい人物を含む静止画像51に対して、精度良くエフェクトを施すことができる。また、第2認識部215により認識された注視対象人物の顔画像に対応する領域にエフェクトを施すことにより、ユーザが注視したい人物に対して、精度良くエフェクトを施すことができる。すなわち、合成動画生成部223は、注視対象人物が正しく強調された合成動画を生成することができる。また、合成動画生成部223は、生成される合成動画において、第2認識部215により認識された、注視対象人物以外の顔画像を含む静止画像51、及び注視対象人物以外の顔画像に対応する領域にエフェクトを施してもよい。
さらに、合成動画生成部223は、生成される合成動画において、第1認識部214により認識され、且つ第2認識部215により認識されなかった顔画像に対応する領域(又は、顔画像を含む静止画像51)に、顔画像が強調される度合いが低いエフェクト(控えめなエフェクト)を施してもよい。顔画像が強調される度合いが低いエフェクトでは、例えば、顔画像にエフェクトが施される期間を短くする。
なお、素材情報抽出部222は、顔画像情報302Aを参照して、「第1認識部214による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ID(第1画像ID群)を抽出してもよい。素材情報抽出部222は、抽出した第1画像ID群を合成動画生成部223に出力する。合成動画生成部223は、第1画像ID群に対応する静止画像51を抽出する。そして、合成動画生成部223は、抽出した静止画像51を用いて合成動画を生成する。
その際、素材情報抽出部222は、「第2認識部215による認識結果」に注視対象人物が設定された顔画像情報の検出元画像ID(第2画像ID群)も抽出し、合成動画生成部223に出力する。そして、合成動画生成部223は、生成される合成動画において、第2画像ID群に対応する静止画像51にエフェクトを施す。なお、合成動画生成部223は、生成される合成動画において、第2画像ID群に対応する静止画像51内の、注視対象人物の顔画像に対応する領域にエフェクトを施してもよい。
上述の処理では、再現率が高い、第1認識部214による認識結果に基づいて、静止画像51を抽出することにより、注視対象人物を含む静止画像51を漏れ無く抽出できる可能性を高めることができる。また、適合率が高い、第2認識部215による認識結果に基づいて、ユーザが注視したい人物(又は人物を含む静止画像51)に対してエフェクトを施すことにより、精度良くエフェクトを施すことができる。つまり、合成動画生成部223は、合成動画に、適合率が低い第1認識部214によって誤って認識された顔画像が含まれる際にも、適合率が高い第2認識部215により認識された顔画像にエフェクトを施すことにより、誤った顔画像が含まれることでユーザが知覚する違和感を低減することができる。合成動画生成部223は、生成した合成動画を合成動画出力部224に出力する。
合成動画出力部224は、合成動画生成部223から入力された合成動画を出力する。合成動画出力部224は、合成動画を再生し、画面(LCD17)に表示する。また、合成動画出力部224は、合成動画をエンコードし、エンコードした合成動画のデータを所定の記憶装置(例えば、HDD109等)に格納してもよい。
以上の構成により、動画像再生アプリケーション202は、注視対象の顔画像(オブジェクト)を漏れ無く、且つ精度よく含む動画像を生成できる。動画像再生アプリケーション202は、再現率が高い第1認識部214と適合率が高い第2認識部215のそれぞれで、検出された顔画像に対応する人物を認識する。注視対象選択部221は、第1認識部214による認識結果に基づいて、合成動画を生成するための注視対象人物を選択するための候補を生成する。これにより、ユーザに提示される注視対象候補の人物に漏れが無いようにすることができる。また、合成動画生成部223は、第2認識部215による認識結果に基づいて、素材データベース301から抽出された、注視対象人物の顔画像が含まれる静止画像51を優先的に合成動画に用いる。これにより、合成動画に用いられる静止画像51には、注視対象人物の顔画像が精度よく含まれる。
次いで、図6のフローチャートを参照して、動画像再生アプリケーション202によって実行される素材分析処理の手順の例を説明する。
まず、素材入力部210は、インタフェース部等を介して静止画像データ51が入力されたか否かを判定する(B101)。静止画像データ51が入力された場合(B101のYES)、素材入力部210は、入力された静止画像データ51を素材データベース301に格納する(B102)。静止画像データ51が入力されていない場合(B101のYES)、素材入力部210は、再度、B101の処理を行う。
次いで、顔画像検出部213は、格納された素材51に含まれる顔画像を検出する(B103)。顔検出処理により、素材51に含まれる顔画像の位置(座標)、サイズ等が検出される。そして、第1認識部214は、第1の認識方法で、B103において検出された顔画像に対応する人物を認識する(B104)。また、第2認識部215は、第2の認識方法で、B103において検出された顔画像に対応する人物を認識する(B105)。第1の認識方法による認識結果は、第2の認識方法による認識結果よりも再現率が高い。また、第2の認識方法による認識結果は、第1の認識方法による認識結果よりも適合率が高い。つまり、第1の認識方法では、静止画像51に含まれる顔画像の人物を漏れ無く認識できる可能性が高く、一方、第2の認識方法では、静止画像51に含まれる顔画像の人物を精度良く認識できる可能性が高い。
第1認識部214は、第1の認識方法による認識結果を素材情報データベース302に格納し、第2認識部215は、第2の認識方法による認識結果を素材情報データベース302に格納する(B106)。
以上の処理により、第1の認識方法による顔認識結果を示す情報と第2の認識方法による顔認識結果を示す情報とを含む顔画像情報302Aが素材情報データベース302に格納される。動画像再生部220は、格納された顔画像情報302Aを用いて合成動画を生成し、再生する。図7のフローチャートは、動画像再生アプリケーション202によって実行される動画生成処理の手順の例を示す。
まず、注視対象選択部221は、第1認識部214による認識結果(顔画像情報302A)を用いて、顔画像を人物毎にグループ化する(B201)。次に、注視対象選択部221は、人物毎のグループに属する顔画像から、それら顔画像を代表する顔画像(代表人物画像)を選択する(B202)。そして、注視対象選択部221は、選択された代表人物画像のリストを注視対象候補リストとして表示する(B203)。
次いで、注視対象選択部221は、注視対象候補リストから代表人物画像が選択されたか否かを判定する(B204)。選択された代表人物画像は、注視対象に設定される人物の顔画像である。代表人物画像が選択されていない場合(B204のNO)、注視対象選択部221は、再度B204の処理を実行する。
代表人物画像が選択されている場合(B204のYES)、素材情報抽出部222は、第2認識部215による認識結果を用いて、選択された人物(代表人物画像)に対応する顔画像情報302Aを素材情報データベース302から抽出する(B205)。そして、素材情報抽出部222は、抽出された顔画像情報302Aに対応する静止画像51の数(抽出された顔画像情報302Aに対応する顔画像が検出された静止画像51の数)が、合成動画を生成するために必要な数以上であるか否かを判定する(B206)。抽出された顔画像情報302Aに対応する静止画像51の数が、合成動画を生成するために必要な数以上でない場合(B206のNO)、素材情報抽出部222は、第1認識部214による認識結果を用いて、選択された人物(代表人物画像)に対応する顔画像情報302Aを素材情報データベース302から更に抽出する(B207)。
B207における顔画像情報302Aの抽出が完了した後、又は抽出された顔画像情報302Aに対応する静止画像51の数が、合成動画を生成するために必要な数以上である場合(B206のYES)、合成動画生成部223は、抽出された顔画像情報302Aに対応する静止画像51を素材データベース301から抽出する(B208)。具体的には、合成動画生成部223は、抽出された顔画像情報302Aの検出元画像IDに基づいて、この検出元画像IDに対応する静止画像51を素材データベース301から抽出する。そして、合成動画生成部223は、抽出した静止画像51を用いて合成動画を生成する(B209)。合成動画生成部223は、生成した合成動画を合成動画出力部224に出力する。
合成動画出力部224は、合成動画の出力方法が再生とファイル出力のいずれであるかを判定する(B210)。合成動画を再生する出力方法が選択されている場合(B210の再生)、合成動画出力部224は、合成動画を再生し、画面に出力する(B211)。一方、合成動画をファイル出力する出力方法が選択されている場合(B210のファイル出力)、合成動画出力部224は、合成動画を所定の形式でファイルに出力する(B212)。
以上の処理により、第1認識部214による認識結果と第2認識部215による認識結果とを用いて、合成動画が生成される。注視対象選択部221は、再現率が高い第1認識部214による認識結果を、生成される合成動画において、注視する人物を選択する注視対象候補リストを表示するために用いる。素材情報抽出部222は、適合率が高い第2認識部215による認識結果を、注視対象候補リストから選択された人物の顔画像が認識された静止画像51を、素材データベース301から抽出するために用いる。これにより、合成動画生成部223は、注視対象の人物の顔画像を漏れ無く、且つ精度よく含む合成動画を生成できる。
以上説明したように、本実施形態によれば、対象のオブジェクトを漏れ無く、且つ精度よく含む動画像を生成できる。動画像再生アプリケーション202は、再現率が高い第1認識部214と適合率が高い第2認識部215のそれぞれで、検出された顔画像に対応する人物を認識する。注視対象選択部221は、第1認識部214による認識結果に基づいて、合成動画を生成するための注視対象人物を選択するための候補を生成する。これにより、ユーザに提示される注視対象候補の人物に漏れが無いようにすることができる。また、合成動画生成部223は、第2認識部215による認識結果に基づいて、素材データベース301から抽出された、注視対象人物の顔画像が含まれる静止画像51を優先的に合成動画に用いる。これにより、合成動画に用いられる静止画像51には、注視対象人物の顔画像が精度よく含まれる。
なお、本実施形態の素材分析処理及び動画生成処理の手順は全てソフトウェアによって実行することができる。このため、素材分析処理及び合成動画生成処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。
また本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
109…HDD、202…動画像再生アプリケーションプログラム、210…インデキシング部、211…素材入力部、212…素材分析部、213…顔画像検出部、214…第1認識部、215…第2認識部、220…動画再生部、221…注視対象選択部、222…素材情報抽出部、223…合成動画生成部、224…合成動画出力部、301…素材データベース、302…素材情報データベース、302A…顔画像情報、302B…注視対象候補情報、51…静止画像データ。

Claims (8)

  1. 画像に含まれるオブジェクト画像を検出する検出手段と、
    前記検出されたオブジェクト画像に対応するオブジェクトを認識する第1認識手段と、
    前記第1認識手段による認識結果に基づいてオブジェクト毎の代表画像を選択し、前記オブジェクト毎の代表画像を提示する代表画像提示手段と、
    前記検出されたオブジェクト画像に対応するオブジェクトを認識し、当該認識によるオブジェクトの適合率が前記第1認識手段よりも高い第2認識手段と、
    前記第1認識手段による認識結果及び前記第2認識手段による認識結果の少なくともいずれかに基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択する画像選択手段と、
    前記選択された画像を用いて動画像を生成する動画像生成手段とを具備することを特徴とする電子機器。
  2. 前記画像選択手段は、前記第2認識手段による認識結果に基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択し、前記選択された画像が所定数以下である場合、前記第1認識手段による認識結果に基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像をさらに選択することを特徴とする請求項1記載の電子機器。
  3. 前記動画像生成手段は、前記動画像において、前記第2認識手段により認識されたオブジェクトを含む画像にエフェクトを施すことを特徴とする請求項1または請求項2記載の電子機器。
  4. 前記動画像生成手段は、前記動画像において、前記第2認識手段により認識されたオブジェクトに対応する領域にエフェクトを施すことを特徴とする請求項3記載の電子機器。
  5. 前記第1認識手段は、前記第2認識手段による認識結果よりもオブジェクトの再現率が高いことを特徴とする請求項1記載の電子機器。
  6. 前記オブジェクト画像は顔画像であり、
    前記第1認識手段、及び、前記第2認識手段は、前記顔画像に対応する人物を認識することを特徴とする請求項1記載の電子機器。
  7. 動画像を生成するプログラムであって、
    画像に含まれるオブジェクト画像を検出する検出処理を実行する手順と、
    前記検出されたオブジェクト画像に対応するオブジェクトを認識する第1認識処理を実行する手順と、
    前記第1認識処理による認識結果に基づいてオブジェクト毎の代表画像を選択し、前記オブジェクト毎の代表画像を提示する代表画像提示処理を実行する手順と、
    前記検出されたオブジェクト画像に対応するオブジェクトを認識し、当該認識によるオブジェクトの適合率が前記第1認識処理よりも高い第2認識処理を実行する手順と、
    前記第1認識処理による認識結果及び前記第2認識処理による認識結果の少なくともいずれかに基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択する画像選択処理を実行する手順と、
    前記選択された画像を用いて前記動画像を生成する動画像生成処理を実行する手順とをコンピュータに実行させるプログラム。
  8. 前記画像選択処理は、前記第2認識処理による認識結果に基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像を選択し、前記選択された画像が所定数以下である場合、前記第1認識処理による認識結果に基づいて、前記オブジェクト毎の代表画像から選択された代表画像に対応するオブジェクトが検出された画像をさらに選択する請求項7記載のプログラム。
JP2010100116A 2010-04-23 2010-04-23 電子機器及び画像処理プログラム Expired - Fee Related JP5479198B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010100116A JP5479198B2 (ja) 2010-04-23 2010-04-23 電子機器及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010100116A JP5479198B2 (ja) 2010-04-23 2010-04-23 電子機器及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2011233974A JP2011233974A (ja) 2011-11-17
JP5479198B2 true JP5479198B2 (ja) 2014-04-23

Family

ID=45322894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010100116A Expired - Fee Related JP5479198B2 (ja) 2010-04-23 2010-04-23 電子機器及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP5479198B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163932A (zh) * 2018-07-12 2019-08-23 腾讯数码(天津)有限公司 图像处理方法、装置、计算机可读介质及电子设备
US20200387568A1 (en) 2019-06-10 2020-12-10 Fuji Xerox Co., Ltd. Methods and systems for reporting requests for documenting physical objects via live video and object detection

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018707A (ja) * 2004-07-05 2006-01-19 Nippon Telegr & Teleph Corp <Ntt> 被写体識別装置、その識別方法とその識別プログラム、および被写体識別器設定装置、その設定方法とその設定プログラム
JP4725377B2 (ja) * 2006-03-15 2011-07-13 オムロン株式会社 顔画像登録装置、顔画像登録方法、顔画像登録プログラム、および記録媒体
JP5136819B2 (ja) * 2006-09-14 2013-02-06 カシオ計算機株式会社 画像分類装置、画像分類方法及びプログラム
JP4424389B2 (ja) * 2007-08-24 2010-03-03 ソニー株式会社 動画作成装置、動画作成方法、およびプログラム
JP2009088687A (ja) * 2007-09-27 2009-04-23 Fujifilm Corp アルバム作成装置
JP2009123095A (ja) * 2007-11-16 2009-06-04 Oki Electric Ind Co Ltd 映像解析装置及び映像解析方法

Also Published As

Publication number Publication date
JP2011233974A (ja) 2011-11-17

Similar Documents

Publication Publication Date Title
US9007524B2 (en) Techniques and apparatus for audio isolation in video processing
US8966372B2 (en) Systems and methods for performing geotagging during video playback
US8488914B2 (en) Electronic apparatus and image processing method
JP4940345B2 (ja) 電子機器及び画像処理方法
JP4988012B2 (ja) 電子機器およびインデキシング制御方法
JP2010257509A (ja) オーサリング装置、オーサリング方法およびプログラム
JP2011103588A (ja) 電子機器及び画像表示方法
JP4768846B2 (ja) 電子機器及び画像表示方法
JP5017424B2 (ja) 電子機器及び画像処理方法
US20150143530A1 (en) Method for sharing file and electronic device thereof
JP2011217183A (ja) 電子機器、画像出力方法及びプログラム
US20110304644A1 (en) Electronic apparatus and image display method
JP4940333B2 (ja) 電子機器及び動画像再生方法
JP5225330B2 (ja) 電子機器及び画像処理方法
JP5479198B2 (ja) 電子機器及び画像処理プログラム
JP5550446B2 (ja) 電子機器及び動画像生成方法
US8184945B2 (en) Authoring device and authoring method
JP5558187B2 (ja) 電子機器及び画像処理プログラム
JP2011193386A (ja) 電子機器及び画像処理方法
JP5550447B2 (ja) 電子機器及び方法
TW201805927A (zh) 利用腳本之影片編輯方法及其電子裝置
JP5414842B2 (ja) 電子機器、画像表示方法およびコンテンツ再生プログラム
JP5050115B2 (ja) 電子機器、画像表示方法およびコンテンツ再生プログラム
JP2011243212A (ja) 電子機器、画像表示方法およびコンテンツ再生プログラム
JP2011199906A (ja) 電子機器及び画像表示方法並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130208

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140212

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20140319

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20140617

LAPS Cancellation because of no payment of annual fees