JP2011215963A

JP2011215963A - 電子機器、画像処理方法及びプログラム

Info

Publication number: JP2011215963A
Application number: JP2010084557A
Authority: JP
Inventors: Tatsumi Sakaguchi; 竜己坂口; Koji Kajima; 浩司鹿島; Masayuki Ejima; 公志江島; Hiroshi Oshiryoji; 宏押領司
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-31
Filing date: 2010-03-31
Publication date: 2011-10-27
Also published as: CN102207950B; CN102207950A; US20110243452A1

Abstract

【課題】あるイベントに関する複数の画像から、当該イベントの内容を反映した代表画像として相応しい画像を選択すること。
【解決手段】ＰＣ１００は、複数の画像からそれぞれ下位メタ情報を抽出し、当該下位メタ情報を徐々に統合させて抽象化していくことで、上位のメタ情報、すなわち複数の画像を表すイベントを導出し、当該イベント毎及び当該イベントに関わる人物毎に異なるルール情報に従って、各画像に含まれるメタ情報のスコアを加算し、当該スコアが最も高い画像を複数の画像の代表画像として選択し、そのサムネイルを出力する。
【選択図】図４

Description

本発明は、あるイベントに関連する複数の動画像データや静止画像データから、そのイベントを代表する画像を決定することが可能な電子機器、当該電子機器における画像処理方法及びプログラムに関する。

従来から、複数のシーンからなる動画像や複数の静止画像を複数のグループに分類し、各グループを代表する代表画像を抽出する技術が存在する。

例えば下記特許文献１には、ユーザの指示に基づいて、複数の画像をグループ分けし、各グループに含まれる複数の画像の中から、ユーザが所望する画像をグループの代表画像として抽出することが開示されている。

また下記特許文献２には、画像から抽出される特徴量を基に、類似する画像をグループにまとめ、各グループから画像を一枚ずつ抽出して表示する画像空間表示方法が開示されている。

特開２０１０−９６０８号公報特開２００３−２０３０９０号公報

Understanding Video Events: A Survey of Methods for Automatic Interpretation of Semantic Occurrences in Video, Gal Lavee, Ehud Rivlin, and Michael Rudzsky, IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS-PART C: APPLICATIONS AND REVIEWS, VOL. 39, NO. 5, September 2009 Event Mining in Multimedia Streams: Research on identifying and analyzing events and activities in media collectionshad led to new technologies and systems, Lexing Xie, Hari Sundaram, and Murray Campbell, Proceedings of the IEEE | Vol. 96, No. 4, April 2008

しかしながら、上記特許文献１に記載の技術では、ユーザが手動で代表画像を決定しているため、ユーザの手間がかかる。

また、上記特許文献２に記載の技術では、ヒストグラム特徴、エッジ特徴、テクスチャ特徴といった特徴量（信号強度）間の距離を基準に各画像の類似度が判断される。しかし、このような信号強度のみの特徴量が用いられる場合、特徴量自体は類似していなくても、ユーザにとっては同じグループに分類したい画像もあり、当該特許文献２に記載の技術では、そのような場合に対応できない。

また、顔検出／顔識別や笑い声検出等の技術により検出された、下位の意味情報を用いることで、単に信号強度のみの特徴量を用いる場合に比べて有意義な分類処理が実行される可能性もある。しかし、例えば真剣なイベントのシーンの代表画像としては、笑い顔や笑い声に対応する画像は相応しくないことも考えられる。また、楽しいイベントのシーンであっても、例えばユーザの見ず知らずの通行人から笑い顔が検出される場合もあり、そのシーンが代表画像として抽出されるのも適当でない。

さらに、ある画像群から、代表画像の候補となるようなシーンが複数検出された場合に、そのうちのどれを代表画像とするかを判断するのは、上記下位の意味情報を用いたとしても困難である。

以上のような事情に鑑み、本発明の目的は、あるイベントに関する複数の画像から、当該イベントの内容を反映した代表画像として相応しい画像を選択することが可能な電子機器、画像処理方法及びプログラムを提供することにある。

上記目的を達成するため、本発明の一形態に係る電子機器は、記憶部と、制御部と、出力部とを有する。上記記憶部は、複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、上記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶する。上記制御部は、上記イベント特徴情報を基に、上記グループ毎の複数の画像から複数のメタ情報を抽出し、当該抽出された複数のメタ情報から上位のメタ情報を解析していくことで、上記複数の画像が、どの人物に関わる何のイベントを表しているかを導出する。さらに制御部は、当該導出されたイベントに対応する上記ルール情報を基に、上記複数の画像から、上記導出されたイベントを代表する上記代表画像を選択する。上記出力部は、上記選択された代表画像のサムネイル画像を上記グループ毎に出力する。

この構成により電子機器は、複数のメタ情報を抽象化してグループ毎の複数の画像が表すイベントを導出した上で、当該イベントに対応するルール情報を基に代表画像を選択するため、イベント内容を反映した、代表画像として相応しい画像を選択することができる。また上記ルール情報はイベントに関わる人物毎に異なっているため、例えばイベントに関わる人物とユーザとの関係の深さによって、選択される代表画像も異なってくる。したがって電子機器は、当該電子機器のユーザに最適な代表画像を選択することができる。ここで画像とは、もともとスチルカメラで撮影されたような静止画像のみならず、動画像から抽出された静止画像（フレーム）も含む。

上記記憶部は、ユーザと所定の関係を有する人物の特徴を示す人物特徴情報を記憶してもよい。この場合上記制御部は、上記人物特徴情報及び上記イベント特徴情報を基に、上記複数のメタ情報を抽出してもよい。

これにより電子機器は、特定の人物を認識することで、イベントを特定の人物に関するイベントとして導出し、それに応じて代表画像を選択することができる。

上記ルール情報は、上記イベント毎に、上記代表画像に含まれるべき複数のメタ情報と、当該各メタ情報の重要度に応じたスコアを示すスコア情報とを含んでいてもよい。この場合上記制御部は、上記優先順位情報を基に、上記複数の画像について、それぞれ上記メタ情報に応じたスコアを加算し、当該スコアが最も高い画像を上記代表画像として選択してもよい。

これにより電子機器は、メタ情報の重要度に応じたスコアをイベント毎に設定することで、各イベントを最もよく表す代表画像をより確実に選択することができる。

上記出力部は、上記サムネイル画像とともに、上記イベントがどの人物に関わる何のイベントを表しているかを示す文字情報を出力してもよい。

これにより電子機器は、単に代表画像のサムネイル画像を提示できるのみならず、当該代表画像により表されるイベントが「誰の」「何の」イベントなのかをユーザに容易に把握させることができる。

上記制御部は、上記スコアが上位の所定数の代表画像を選択し、当該複数の代表画像のサムネイル画像を、上記スコアが高いほど可視面積が大きくなるように出力してもよい。

これにより電子機器は、複数の代表画像をそのスコアに応じて出力することで、１枚の代表画像を出力する場合に比べて、イベントの内容をユーザにより容易に把握させることができる。ここで「スコアが高いほど可視面積が大きくなるように出力する」とは、例えばスコア順に複数のサムネイル画像を一部重ねて表示することや、スコア順にサムネイル画像のサイズを変えることを含む。

本発明の他の形態に係る画像処理方法は、複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、上記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶することを含む。上記上記イベント特徴情報を基に、上記グループ毎の複数の画像から複数のメタ情報が抽出される。上記抽出された複数のメタ情報から上位のメタ情報が解析されることで、上記複数の画像が、どの人物に関わる何のイベントを表しているかが導出される。上記導出されたイベントに対応する上記ルール情報を基に、上記複数の画像から、上記導出されたイベントを代表する上記代表画像が選択される。上記選択された代表画像のサムネイル画像が、上記グループ毎に出力される。

本発明のまた別の形態に係るプログラムは、電子機器に、記憶ステップと、抽出ステップと、導出ステップと、選択ステップと、出力ステップとを実行させる。上記記憶ステップでは、複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、上記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とが記憶される。上記抽出ステップでは、上記イベント特徴情報を基に、上記グループ毎の複数の画像から複数のメタ情報が抽出される。上記導出ステップでは、上記抽出された複数のメタ情報から上位のメタ情報が解析されることで、上記複数の画像が、どの人物に関わる何のイベントを表しているかが導出される。上記選択ステップでは、上記導出されたイベントに対応する上記ルール情報を基に、上記複数の画像から、上記導出されたイベントを代表する上記代表画像が選択される。上記出力ステップでは、上記選択された代表画像のサムネイル画像が上記グループ毎に出力される。

以上説明したように、本発明によれば、あるイベントに関する複数の画像から、当該イベントの内容を反映した代表画像として相応しい画像を選択することができる。

本発明の一実施形態に係るＰＣのハードウェア構成を示した図である。本発明の一実施形態に係るＰＣにおける写真表示アプリケーションが代表写真の選択のために有する機能ブロックを示した図である。図２における代表画像選択部の詳細を示す図である。本発明の一実施形態に係るＰＣによる代表画像選択処理の流れを示したフローチャートである。本発明の一実施形態に係るＰＣが、下位メタ情報から最上位メタ情報を導出する処理を概念的に示した図である。本発明の一実施形態における動画データからの代表画像選択処理の様子を概念的に示した図である。本発明の一実施形態における代表画像のサムネイルの表示例を示した図である。本発明の他の実施形態における代表画像のサムネイルの表示例を示した図である。本発明のまた別の実施形態における代表画像のサムネイルの表示例を示した図である。本発明の他の実施形態に係るＰＣによる代表画像選択処理の流れを示したフローチャートである。

以下、図面を参照しながら、本発明の実施形態を説明する。
［ＰＣのハードウェア構成］
図１は、本発明の一実施形態に係るＰＣのハードウェア構成を示した図である。同図に示すように、ＰＣ１００は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ１２（Read Only Memory）、ＲＡＭ（Random Access Memory）１３、入出力インタフェース１５、及び、これらを互いに接続するバス１４を備える。

ＣＰＵ１１は、必要に応じてＲＡＭ１３等に適宜アクセスし、各種演算処理を行いながらＰＣ１００の各ブロック全体を統括的に制御する。ＲＯＭ１２は、ＣＰＵ１１に実行させるＯＳ、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。ＲＡＭ１３は、ＣＰＵ１１の作業用領域等として用いられ、ＯＳ、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。

入出力インタフェース１５には、表示部１６、入力部１７、記憶部１８、通信部１９、ドライブ部２０等が接続される。

表示部１６は、例えば液晶、ＥＬ（Electro-Luminescence）、ＣＲＴ（Cathode Ray Tube）等を用いた表示デバイスである。当該表示部１６は、ＰＣ１００に内蔵されていてもよいし、ＰＣ１００に外部接続されていてもよい。

入力部１７は、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の操作装置である。入力部１７がタッチパネルを含む場合、そのタッチパネルは表示部１６と一体となり得る。

記憶部１８は、例えばＨＤＤ（Hard Disk Drive）や、フラッシュメモリ、その他の固体メモリ等の不揮発性メモリである。当該記憶部１８には、上記ＯＳや各種アプリケーション、各種データが記憶される。特に本実施形態では、記憶部１８には、記録媒体５から取り込まれた動画や静止画等のデータや、当該動画や静止画のサムネイルを一覧表示させるための画像表示アプリケーションも記憶される。

当該画像表示アプリケーションは、複数の動画や静止画を複数のグループに分類し、当該グループ毎に、動画や静止画によって表されるイベントを導出し、当該イベントを代表する代表画像を選択することができる。記憶部１８は、このイベントを導出するために必要な、当該ＰＣ１００のユーザと所定の関係を有する人物（親、配偶者、子供、兄弟、友人等）の特徴を示す人物特徴情報や、あるイベントに特有の物体の特徴を示すイベント特徴情報も記憶される。

ドライブ部２０は、例えばメモリカード、光学記録媒体、フロッピー（登録商標）ディスク、磁気記録テープ等、リムーバブルの記録媒体５を駆動し、当該記録媒体５に記録されたデータの読み出し及び当該記録媒体５へのデータの書き込みを行う。典型的には、当該記録媒体５は、デジタルカメラに装着されたメモリカードであり、ＰＣ１００は、デジタルカメラから取り外されドライブ部２０に装着されたメモリカードから静止画像や動画像のデータを読み出す。デジタルカメラとＰＣ１００とが例えばＵＳＢ（Universal Serial Bus）ケーブル等により接続され、デジタルカメラに装着された状態のメモリカードから静止画や動画がＰＣ１００に取り込まれてもよい。

通信部１９は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等に接続可能な、他の装置と通信するためのＮＩＣ（Network Interface Card）等である。通信部１９は、有線及び無線のどちらを利用して通信するものであってもよい。

［ＰＣのソフトウェア構成］
上述したように、上記ＰＣ１００は、上記画像表示アプリケーションにより、静止画や動画を複数のグループに分類し、当該グループ毎に代表画像（ベストショット）を選択して表示することができる。ここでグループとは、動画であれば複数フレームからなる１ショットまたは１シーンであり、静止画であれば例えば同一日時や同一時間帯に撮影された画像群である。図２は、上記ＰＣ１００における上記画像表示アプリケーションが上記代表画像の選択のために有する機能ブロックを示した図である。

同図に示すように、ＰＣ１００は、読み出し部２１、動画デコーダ２２、オーディオデコーダ２３、静止画デコーダ２４、動画解析部２５、オーディオ解析部２６、静止画解析部２７、上位意味情報解析部２８及び代表画像選択部２９を有する。

読み出し部２１は、上記記録媒体５から、動画コンテンツや静止画データを読み出す。静止画データは、上記日付や時間帯等に応じたグループ毎に読み出される。読み出されたデータが動画コンテンツの場合、読み出し部２１は、当該動画コンテンツを動画データとオーディオデータとに分割する。そして読み出し部２１は、動画データを動画デコーダ２２へ、オーディオデータをオーディオデコーダ２３へ、また静止画データを静止画デコーダ２４へ出力する。

動画デコーダ２２は、上記動画データをデコードし、動画解析部２５へ出力する。オーディオデコーダ２３は、上記オーディオデータをデコードし、オーディオ解析部２６へ出力する。静止画デコーダ２４は、上記静止画データをデコードし、静止画解析部２７へ出力する。

動画解析部２５は、動画データから、客観的な特徴情報を抽出し、当該特徴情報を基に、下位のメタ情報（意味情報）を抽出する。またオーディオ解析部２６及び静止画解析部２７も同様に、それぞれオーディオデータ及び静止画データから客観的な特徴情報を抽出し、当該特徴情報を基に、下位のメタ情報を抽出する。この下位のメタ情報の抽出には、上記人物特徴情報やイベント特徴情報が用いられる。またこの下位のメタ情報の抽出には、上記非特許文献１に記載の技術も利用される。

動画解析部２５は、特徴情報の抽出において、例えば色／テクスチャ特徴抽出、勾配算出、エッジ抽出といった画素ベースの処理や、人物／顔の検出／認識、物体の認識、人物／顔／物体の動き検出／速度検出といったオブジェクトベースの処理を実行する。人物検出において、動画解析部２５は、例えば人型を示す特徴フィルターを用いて、動画像から人物を示す領域を検出する。顔検出においては、動画解析部２５は、例えば、目・鼻・眉毛・頬等の位置関係の特徴を示す特徴フィルターや、肌色情報等を用いて、動画像から顔を示す領域を検出する。

さらに、動画解析部２５は、人物や顔の有無を認識するのみならず、上記人物特徴情報を用いて、ユーザと所定の関係を有する特定の人物を認識する。当該人物特徴情報としては、例えば、エッジ強度画像特徴、周波数強度画像特徴、高次自己相関特徴、カラー変換画像特徴等が用いられる。例えば、エッジ強度画像を用いる場合、動画解析部２５は、認識対象の人物（例えば、親、子供、配偶者、友人等のユーザの関係者）の特徴データとして、濃淡画像及びエッジ強度画像を記憶しておき、顔が検出された人物の顔画像から、同様に濃淡画像及びエッジ強度画像を抽出して、両濃淡画像及び両エッジ強度画像をパターンマッチングすることで、特定人物の顔を認識する。

また物体認識において、動画解析部２５は、上記イベント特徴情報として記憶された認識モデルを用いて、識別対象とする物体が含まれるか否かを識別する。当該認識モデルは、例えば予め学習用画像からＳＶＭ（Support Vector Machines）等の機械学習により構築される。

さらに動画解析部２５は、動画像中の人や物体以外の背景を認識することもできる。例えば動画解析部２５は、予め学習用画像からＳＶＭ等の機械学習により構築されたモデルを用いて、各動画中の背景を、例えば街、屋内、野外、海岸、水中、夜景、夕焼け、雪景色、混雑といった各シーンに分類する。

オーディオ解析部２６は、特徴情報の抽出において、オーディオデータから、例えば人の声、人以外の環境音、それらのパワー／高低等の特徴を検出する。人の声か環境音かの識別には、例えば所定パワー以上の音声の継続時間等が用いられる。

静止画解析部２７は、特徴情報の抽出において、上記動画解析部２５が実行可能な解析処理のうち、色／テクスチャ特徴抽出、勾配算出、エッジ抽出、人物／顔／物体の検出、背景の認識といった静的な処理を実行する。

また、各解析部２５〜２７は、各データにテキスト等のタグ（ラベル）情報が含まれている場合には、当該タグ情報も特徴情報として抽出する。タグ情報としては、例えば、イベント内容を示す情報や、撮影日時及び撮影場所等の情報が挙げられる。

各解析部２５〜２７は、それぞれが抽出した上記特徴情報を基に、より具体的に意味付けされた下位のメタ情報（意味情報）を抽出する。

動画解析部２５は、例えば抽出した人物特徴や顔特徴から、個人、性別、年齢、表情、姿勢、服装、人数、整列等を下位のメタ情報として識別する。また動画解析部２５は、動き特徴から、活発／不活発な動き、速い／遅い動き、人が佇んでいる／座っている／歩いている／走っている等のActivityを認識したり、人の手のジェスチャ等を認識したりする。

オーディオ解析部２６は、例えば抽出したオーディオ特徴から、拍手、歓声、スピーカーの音、声色に応じた感情、笑い声、叫び声、話声の内容、反響による空間の広がり具合等を下位のメタ情報として抽出する。

静止画解析部２７は、上記動画解析部２５で認識可能なメタ情報のうち、動き特徴に関係のないメタ情報を認識する。

上記下位のメタ情報の抽出には、例えばベイズネット、有限状態機械、条件付確率場（CRF）、隠れマルコフモデル（HMM）等の状態空間表現による手法や、ペトリネットのような離散事象システム、制約充足モデル、論理アプローチといった意味モデルによる手法や、ＳＶＭ、最近隣法、ニューラルネット等の伝統的なパターン認識／分類法等、さまざまな手法が用いられる。

上位意味情報解析部２８は、上記各解析部２５〜２７により抽出された下位のメタ情報を基に、上位のメタ情報を解析し、動画の１ショットまたは静止画の１グループ全体を説明可能な最上位のメタ情報、すなわちイベントを導出する。このイベントの導出処理には、上記非特許文献２に記載の技術も利用される。

具体的には、上位意味情報解析部２８は、各下位メタ情報から、５Ｗ１Ｈ（Who, What, When, Where, Why, How）に相当する複数の情報の抽象度を徐々に上げていき、最終的に、動画の１ショットや複数の静止画を、１つのイベントとしてカテゴライズする。

例えば、動画や静止画から、「多数の子供」「多数の親子」「体操着」等の人物に関するメタ情報、「活発な動き」「走っている姿」等の人物の動きに関するメタ情報、「学校の校舎」等の一般物体に関するメタ情報が抽出され、音声から、「スピーカーを通した人の声」「拍手」「歓声」等のメタ情報が抽出され、その他のメタ情報として、「小学校」という位置情報、「秋」という季節（日時）情報等の情報が得られた場合、上位意味情報解析部２８は、これらを統合して考えられるイベント『小学校の運動会』を導き出す。

また、５Ｗ１Ｈの要素のうち、例えば"Who"の要素に関しては、上位意味情報解析部２８は、特定個人を示す言葉によりイベントを表現することも可能である。すなわち、上位意味情報解析部２８は、"Who"を示す情報として、撮影者（ユーザ）やその家族等に関する下位メタ情報が抽出された場合、その情報は下位メタ情報のまま用いることで、『ｘｘ君の小学校の運動会』というイベントまで判断できる。

代表画像選択部２９は、上位意味情報解析部２８によりイベント（最上位のメタ情報）が導出された後、動画の１ショットや、複数の静止画から、当該イベントを最もよく表している（代表している）画像（動画の場合、フレーム）を選び出す。図３は、図２における代表画像選択部２９の詳細を示す図である。

同図に示すように、代表画像選択部２９は、ルール選択部３１、スコア算出部３２、代表画像出力部３３及びルール情報記憶部３４を有している。

ルール情報記憶部３４は、抽象化されたイベント毎に、最適な代表画像を選択するための基準として、ルール情報を記憶する。すなわち、ルール情報記憶部３４は、画像表示アプリケーションが認識可能なイベント毎及び当該イベントに関わる人物毎に、イベント抽出に使用するメタ情報（下位の意味情報や客観的特徴情報）の重要度を保持している。ここで重要度とは、代表画像を選択する際に基準となる優先順位である。

例えば、上述した「ｘｘ君の小学校の運動会」というイベントが導出された場合、優先項目としては、以下の順の項目が挙げられる。
（１）「ｘｘ君が写っていること」（顔にピントが合っており、顔がブレていないこと）
（２）「ｘｘ君がアクティブな姿勢をとっていること」（運動中を優先）
（３）「ｘｘ君が笑顔であること」

一方、導出されたイベントが単に「小学校の運動会」というだけであれば、優先項目としては、以下の順の項目が挙げられる。
（１）「なるべく多くの小学生の顔が映っていること」
（２）「アクティブな姿勢をとっていること」
（３）「笑顔が多いこと」
しかし、この場合でも、上記「ｘｘ君の小学校の運動会」というイベントに関するルールと同様に、特定の人物が写っていることがルール情報に含まれ、その結果「ｘｘ君」が含まれる画像が代表画像として選択されても問題ない。

このように、上記上位意味情報解析部２８が導出したイベント毎に代表画像選択のルール化をしておくことで、よりイベント内容を反映した、より相応しい代表画像の選択が可能となる。

そして、ルール情報記憶部３４は、ルール情報として含まれる上記優先項目について、それぞれの重要度に応じたスコアを示すスコア情報を記憶している。

ルール選択部３１は、上記ルール情報記憶部３４から、イベント毎のルール情報を読み出す。

スコア算出部３２は、各画像（静止画、フレーム）について抽出された上位／下位のメタ情報について、上記ルール情報に含まれるスコア情報に従って、スコアを算出する。例えば、上述の運動会の例では、必須条件として、「ｘｘ君が写っている写真」であることが挙げられる。スコア算出部３２は、その写真の中で、「ｘｘ君が写っていてぶれ、ぼけの無いフレーム」であれば＋１００、「アクティブな姿勢」であれば＋５０、「笑顔」であれば＋５０といったように、各メタ情報について予め設定されたスコアを加算し、各画像の合計スコアを算出する。

代表画像出力部３３は、動画の１ショット中の各フレームまたは同一グループの複数の静止画のうち、上記スコア算出部３２により、最も高いスコアを算出された画像を代表画像として選択し、出力する。

［ＰＣの動作］
次に、以上のように構成されたＰＣ１００による、代表画像選択動作について説明する。以下では、ＰＣ１００のＣＰＵ１１を動作主体として説明がなされるが、以下の動作は、その他のハードウェアや上記画像表示アプリケーション等のソフトウェアとも協働して実行される。図４は、ＰＣ１００による代表画像選択処理の流れを示したフローチャートである。

同図に示すように、まずＣＰＵ１１は、上述したように、各解析部２５〜２７により、下位メタ情報を抽出し（ステップ４１）、さらに上位意味情報解析部２８により、最上位メタ情報、すなわちイベントを導出する（ステップ４２）。図５は、当該下位メタ情報から最上位メタ情報を導出する処理を概念的に示した図である。

同図に示すように、まず、ＣＰＵ１１は、あるグループ内の複数の写真１０から、「誰」及び「何」に相当する下位のメタ情報をそれぞれ抽出する。例えば、「誰」に相当する下位メタ情報として「子供たち（ユーザの子供も含む）」や「笑顔の家族」といったメタ情報が抽出され、「何」に相当する下位メタ情報として、「運動服」「走っている」「動きのある姿勢」「料理」といったメタ情報が抽出される。

続いてＣＰＵ１１は、上記「誰」に相当する下位のメタ情報から、「ユーザの子供たち」という上位のメタ情報を抽出し、上記「何」に相当する下位のメタ情報から、「スポーツイベント」という上位のメタ情報を抽出する。

そしてＣＰＵ１１は、当該「ユーザの子供たち」というメタ情報と、「スポーツイベント」というメタ情報とから、「ユーザの子供が参加している子供のスポーツイベント」というさらに上位のメタ情報を抽出する。

さらにＣＰＵ１１は、「誰」「何」に相当するメタ情報以外のメタ情報として、各写真１０からＧＰＳ情報（位置情報）として抽出された「小学校」というメタ情報と、背景シーン解析により抽出された「運動場」というメタ情報と、カレンダー情報（日時情報）として抽出された「秋」というメタ情報とを、上記「ユーザの子供が参加している子供のスポーツイベント」というメタ情報と統合させることで、最終的に、「ユーザの子供の小学校の運動会」という最上位のメタ情報（イベント）を導出する。

図４に戻り、続いてＣＰＵ１１は、上記代表画像選択部２９のルール選択部３１により、導出されたイベントに応じて、代表画像の選択に必要なルール情報を決定する（ステップ４３）。

続いてＣＰＵ１１は、対象となるあるグループの複数の静止画や、動画の１ショットを構成する複数のフレームのそれぞれについて、上記ルール情報を基に、各メタ情報のスコアを算出し、それらスコアを加算する（ステップ４４〜４８）。

続いてＣＰＵ１１は、上記複数の静止画や動画の各フレームのうち、算出されたスコアが最も高い静止画／フレームを、代表画像として決定する（ステップ４９）。

ここで、動画データからの代表画像の選択について詳細に説明する。図６は、当該動画データからの代表画像選択処理の様子を概念的に示した図である。

動画データからの代表画像選択処理は、全ての動画中のフレームを静止画と捉えて、静止画と全く同じ手法で行われてもよいが、実際には、異なる手法で処理した方が効率がよい。

同図に示すように、ＣＰＵ１１は、例えば動きベクトル（カメラワーク）検出や被写体抽出等の処理によって抽出された客観的な特徴情報を基に、元の１ショットの動画６０を、いくつかのシーン６５に分割する。この後の処理としては２つの手法が考えられる。

同図（Ａ）に示すように、１つ目の手法では、例えばタグ情報や他のメタ情報から、当該動画６０全体によって表されるイベントが判明している場合、ＣＰＵ１１はまず、シーン６５毎に、例えば被写体の動き等、動画特有の特徴も加味して、そのイベントを表すのに最適な１つのシーン６５を選択する。その後ＣＰＵ１１は、選択したシーン６５の各フレームの中から、上述した静止画群と同様の枠組みで代表フレームを選択する。

同図（Ｂ）に示すように、２つ目の手法では、まずＣＰＵ１１は、各シーン６５内の各フレームから、客観的特徴を基にそれぞれ代表フレームを絞り込む。その後ＣＰＵ１１は、当該絞り込まれた代表フレームから、上述した静止画と同様の枠組みで代表フレームを選択する。この場合ＣＰＵ１１は、各シーン６５内で代表フレームを絞り込む処理においても、当該１シーンを１イベントと捉えて、最終的な代表フレームを選択するのと同様の処理により各代表フレームを選択してもよい。

図４に戻り、代表画像が選択されると、ＣＰＵ１１は、当該代表画像のサムネイルを作成し（ステップ５０）、当該サムネイルを表示部１６に表示する（ステップ５１）。

図７は、当該代表画像のサムネイルの表示例を示した図である。同図（Ａ）に示すように、代表画像選択前においては、写真１０のサムネイル１０ａが例えばマトリクス状に一覧表示される。当該サムネイル１０ａは、例えば日付等に基づいたグループ（フォルダ）毎に表示されてもよいが、同図（Ａ）では、複数のグループに属する写真１０のサムネイル１０ａが一覧表示されている。

この状態から、所定のタイミングで、上述した代表画像選択処理が実行されると、同図（Ｂ）に示すように、上記複数の写真１０のサムネイル１０ａに代わり、グループ毎の代表画像のサムネイル７０が表示される。当該サムネイル７０は、それが複数の写真１０の代表画像であることをユーザが把握できるように、グループ内の複数の写真１０を示唆する複数の矩形がスタックされ、その最上位にサムネイル７０が位置するように表示される。

［まとめ］
以上説明したように、本実施形態によれば、ＰＣ１００は、複数の画像（静止画／動画）から、下位のメタ情報を抽出し、当該下位のメタ情報を統合することで上位のメタ情報、すなわちイベントを導出した上で、当該イベント毎に設定されたルール情報に従って代表画像を選択する。したがってＰＣ１００は、イベントの内容を反映した、代表画像として相応しい画像をユーザに提示することができる。これによりユーザも、大量の画像から、容易にイベントを把握し、当該画像を整理することが可能となる。またＰＣ１００は、「誰」の「何」のイベントであるかを導出し、それを基に代表画像を選択しているため、ユーザのイベントの理解がさらに容易になる。

［変形例］
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。

上述の実施形態では、ＰＣ１００は、上記図７で示したように、各代表画像のサムネイル７０をスタック状の矩形の最上位に表示したが、代表画像の表示態様はこれに限られない。図８及び図９は、代表画像のサムネイル７０の他の表示態様を示した図である。

第１の例として、図８に示すように、ＰＣ１００は、複数の写真のサムネイル１０ａを例えば日付等のグループにクラスタリングし、各クラスタ内でサムネイル１０ａをランダムに重ねて表示した上で、各グループの代表画像のサムネイル７０をグループ毎のクラスタの近傍に表示してもよい。

その際、上記クラスタとしては、グループに属する全ての写真のサムネイルではなく、上述したメタ情報のスコアが高い所定数の写真が選択され、スコアが高い写真ほど前面に位置するように表示されてもよい。また、スコアが高い写真ほど可視面積が大きくなるように表示されてもよい。ここで、複数グループへの分類は、日付単位ではなく、例えば類似画像単位で行われてもよい。さらに、各クラスタの近傍に、例えば図８で表示されている日付に代えて、導出されたイベント名が表示されてもよい。当該イベント名は、「誰」の「何」のイベントであるかを示すものである。

第２の例として、図９に示すように、ＰＣ１００は、各イベントについて、代表画像のサムネイル７０のみならず、当該イベントに含まれるサブイベントを表すサブ代表画像のサムネイル７５も階層的に表示してもよい。この際、イベント名７１及びサブイベント名７２も表示されてもよい。

同図の例では、最上位層において、「○○ちゃんの運動会」というイベントについて、代表画像のサムネイル７０とイベント名７１とが表示され、第２の層において、「自宅」→「運動会本番」→「自宅」という時間経過に対応した第１のサブイベントを表すサブイベント名７２が表示され、第３の層において、上記各第１のサブイベント毎に、「朝食」「入場」「玉入れ」「徒競走」「夕食」「就寝」という第２のサブイベントを示すサブイベント名７２とそのサブ代表画像のサムネイル７５とが表示される。

このような階層的な表示方法を行うために、ＰＣ１００は、上記図５で示した手法よりもさらに詳細なイベント理解を行う必要がある。すなわち、ＰＣ１００は、サブイベント名を導き出すことができる程度に、下位のメタ情報を詳細に認識及びカテゴライズする必要がある。このための手法の一例として、ＰＣ１００は、例えば、上記図５で示した手法において、「誰」及び「何」に相当する下位のメタ情報毎にサブイベントを導出し、当該サブイベント毎に代表画像を選択してもよい。この場合に用いられるルール情報は、上述の実施形態におけるルール情報のように必ずしも特定の人物毎に用意される必要はなく（人物に関係ないサブイベントも存在しうるため）、サブイベント毎に特化されたものが用意されればよい。

上述の実施形態において、下位のメタ情報及び上位のメタ情報はいずれもＰＣ１００により抽出されたが、これらの少なくとも一部は、他の機器で抽出され、画像がＰＣ１００に入力されるときに、当該画像と共に入力されてもよい。例えば写真の下位メタ情報は、写真撮影時にデジタルカメラで抽出され、写真とともにＰＣ１００に入力され、ＰＣ１００ではそれらの下位メタ情報から上位メタ情報を抽出してもよい。また、例えば顔検出や夜景検出等、デジタルカメラで抽出可能であって比較的少ない演算量で抽出可能な下位のメタ情報はデジタルカメラで抽出され、例えば動き検出や一般物体認識等、その抽出に要する演算量が比較的多くなるようなメタ情報はＰＣ１００で抽出されてもよい。さらに、ＰＣ１００に代わり、ネットワーク上のサーバによりメタ情報が抽出され、それらが上記通信部１９を介してＰＣ１００に入力されてもよい。

さらに、上述の実施形態においてＰＣ１００により実行される処理は、例えばテレビジョン装置、デジタルスチルカメラ、デジタルビデオカメラ、携帯電話機、スマートフォン、記録再生装置、ゲーム機器、ＰＤＡ（Personal Digital Assistants）、電子ブック端末、電子辞書、携帯型ＡＶ機器等、その他のあらゆる電子機器でも同様に実行可能である。

上述の実施形態では、図４に示したように、イベントが導出された後、各メタ情報の各スコアがその都度算出されていた。しかし、当該スコアは、各画像からの下位メタ情報の抽出処理の際に併せて算出されてもよい。図１０はこの場合の代表画像選択処理の流れを示すフローチャートである。

同図に示すように、ＣＰＵ１１は、各解析部２５〜２７により、下位メタ情報を抽出するとともに、各メタ情報のスコアを算出し、画像に関連付けられて記憶しておく（ステップ８１）。そして、イベントが導出された後、ＣＰＵ１１は、それら記憶されたスコアを画像毎にロードし（ステップ８５）、それらを加算する（ステップ８６）ことで、代表画像を選択する（ステップ８８）。

上述の実施形態における各解析部２５〜２７及び上位意味情報解析部２８における下位及び上位のメタ情報抽出処理は、上述した処理に限られない。すなわち、各画像を記述するための何らかの客観的特徴としての下位メタ情報と、それらの下位メタ情報から導き出される上位メタ情報が抽出されれば、どのような処理であっても構わない。例えば、各メタ情報が、タグ情報として人間の手によって付加されたものであっても構わない。

上記代表画像選択部２９のルール選択部３１においては、画像表示アプリケーションが認識可能なイベントの全種類毎に、メタ情報の順位付けが予め行われていることが望ましいが、これは必須ではない。例えばＰＣ１００は、特に利用頻度（導出頻度）の高いイベント群についてのみ、明確なルール情報を生成しておき、その他のイベントに対しては、一般的なルールで置き換えられるようにしていてもよい。一般的なルールとは、経験的に導き出される、もしくは学習によって獲得される、「構図の良し悪し」「ブレ・ボケ」の度合い等の客観的特徴量や下位のメタ情報の優先順位である。また、利用頻度の高いイベント群のルール情報が生成される場合、ユーザが主観的に各メタ情報を重み付けしてもよいし、何らかの機械学習方法が取り入れられてもよい。

上述の実施形態において、上記スコア算出部３２は、メタ情報の「有無」により合計スコアを算出していたが、当該スコアは、「有る」「無し」の２値ではなく、例えばActive度や笑顔度などのように連続的な（段階的な）評価値であってもよい。これらメタ情報は、スコア算出部３２で計算してもよいが、図２の各解析部２５〜２７において計算してもよい。すなわち、イベントの導出に直接関連するメタ情報だけでなく、その後の代表画像選択に使用する情報も含めて、各解析部２５〜２７にて処理を行っておくことも可能である。

さらに、上述の実施形態におけるルール選択部３１とスコア算出部３２が組み合わされて、機械学習によって各イベントに対するスコアが算出されてもよい。機械学習によりスコアが決定されることで、各イベントに対して事前に主観的にスコアが設定される場合よりも、多くのメタ情報が考慮され、より高精度のイベント導出が可能となる。

上述の実施形態においては、動画の１ショットや１シーンから代表画像が選択され表示されたが、例えば動画編集処理において当該代表画像が利用されてもよい。すなわち、１ショット中のシーンの遷移を示すために、従来であれば、ユーザが指定した編集点のフレームのサムネイルが表示されていたが、それに代わって代表画像のサムネイルが表示されてもよい。また、例えばシーンサーチが行われる際に、従来のように所定フレーム間隔で抽出されたフレームが表示されるのに代わり、シーン毎の代表画像が表示されてもよい。これにより、各シーンに対するユーザのアクセス性が向上する。

５…記録媒体
１０…写真
１０ａ…サムネイル
１１…ＣＰＵ
１３…ＲＡＭ
１６…表示部
１８…記憶部
２２…動画デコーダ
２３…オーディオデコーダ
２４…静止画デコーダ
２５…動画解析部
２６…オーディオ解析部
２７…静止画解析部
２８…上位意味情報解析部
２９…代表画像選択部
３１…ルール選択部
３２…スコア算出部
３３…代表画像出力部
３４…ルール情報記憶部
６０…動画
６５…シーン
７０…代表画像サムネイル
７１…イベント名
７２…サブイベント名
７５…サブ代表画像サムネイル
１００…ＰＣ

Claims

複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、前記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶する記憶部と、
前記イベント特徴情報を基に、前記グループ毎の複数の画像から複数のメタ情報を抽出し、当該抽出された複数のメタ情報から上位のメタ情報を解析していくことで、前記複数の画像が、どの人物に関わる何のイベントを表しているかを導出し、当該導出されたイベントに対応する前記ルール情報を基に、前記複数の画像から、前記導出されたイベントを代表する前記代表画像を選択する制御部と、
前記選択された代表画像のサムネイル画像を前記グループ毎に出力する出力部と
を具備する電子機器。
請求項１に記載の電子機器であって、
前記記憶部は、ユーザと所定の関係を有する人物の特徴を示す人物特徴情報を記憶し、
前記制御部は、前記人物特徴情報及び前記イベント特徴情報を基に、前記複数のメタ情報を抽出する
電子機器。
請求項２に記載の電子機器であって、
前記ルール情報は、前記イベント毎に、前記代表画像に含まれるべき複数のメタ情報と、当該各メタ情報の重要度に応じたスコアを示すスコア情報とを含み、
前記制御部は、前記優先順位情報を基に、前記複数の画像について、それぞれ前記メタ情報に応じたスコアを加算し、当該スコアが最も高い画像を前記代表画像として選択する
電子機器。
請求項３に記載の電子機器であって、
前記出力部は、前記サムネイル画像とともに、前記イベントがどの人物に関わる何のイベントを表しているかを示す文字情報を出力する
電子機器。
請求項３に記載の電子機器であって、
前記制御部は、前記スコアが上位の所定数の代表画像を選択し、当該複数の代表画像のサムネイル画像を、前記スコアが高いほど可視面積が大きくなるように出力する
電子機器。
複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、前記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶し、
前記前記イベント特徴情報を基に、前記グループ毎の複数の画像から複数のメタ情報を抽出し、
前記抽出された複数のメタ情報から上位のメタ情報を解析していくことで、前記複数の画像が、どの人物に関わる何のイベントを表しているかを導出し、
前記導出されたイベントに対応する前記ルール情報を基に、前記複数の画像から、前記導出されたイベントを代表する前記代表画像を選択し、
前記選択された代表画像のサムネイル画像を前記グループ毎に出力する
画像処理方法。
電子機器に、
複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、前記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶するステップと、
前記前記イベント特徴情報を基に、前記グループ毎の複数の画像から複数のメタ情報を抽出するステップと、
前記抽出された複数のメタ情報から上位のメタ情報を解析していくことで、前記複数の画像が、どの人物に関わる何のイベントを表しているかを導出するステップと、
前記導出されたイベントに対応する前記ルール情報を基に、前記複数の画像から、前記導出されたイベントを代表する前記代表画像を選択するステップと、
前記選択された代表画像のサムネイル画像を前記グループ毎に出力するステップと
を実行させるプログラム。