JP2011215963A - 電子機器、画像処理方法及びプログラム - Google Patents

電子機器、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2011215963A
JP2011215963A JP2010084557A JP2010084557A JP2011215963A JP 2011215963 A JP2011215963 A JP 2011215963A JP 2010084557 A JP2010084557 A JP 2010084557A JP 2010084557 A JP2010084557 A JP 2010084557A JP 2011215963 A JP2011215963 A JP 2011215963A
Authority
JP
Japan
Prior art keywords
event
images
information
image
meta information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010084557A
Other languages
English (en)
Inventor
Tatsumi Sakaguchi
竜己 坂口
Koji Kajima
浩司 鹿島
Masayuki Ejima
公志 江島
Hiroshi Oshiryoji
宏 押領司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010084557A priority Critical patent/JP2011215963A/ja
Priority to US13/053,678 priority patent/US20110243452A1/en
Priority to CN201110075556.3A priority patent/CN102207950B/zh
Publication of JP2011215963A publication Critical patent/JP2011215963A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】あるイベントに関する複数の画像から、当該イベントの内容を反映した代表画像として相応しい画像を選択すること。
【解決手段】PC100は、複数の画像からそれぞれ下位メタ情報を抽出し、当該下位メタ情報を徐々に統合させて抽象化していくことで、上位のメタ情報、すなわち複数の画像を表すイベントを導出し、当該イベント毎及び当該イベントに関わる人物毎に異なるルール情報に従って、各画像に含まれるメタ情報のスコアを加算し、当該スコアが最も高い画像を複数の画像の代表画像として選択し、そのサムネイルを出力する。
【選択図】図4

Description

本発明は、あるイベントに関連する複数の動画像データや静止画像データから、そのイベントを代表する画像を決定することが可能な電子機器、当該電子機器における画像処理方法及びプログラムに関する。
従来から、複数のシーンからなる動画像や複数の静止画像を複数のグループに分類し、各グループを代表する代表画像を抽出する技術が存在する。
例えば下記特許文献1には、ユーザの指示に基づいて、複数の画像をグループ分けし、各グループに含まれる複数の画像の中から、ユーザが所望する画像をグループの代表画像として抽出することが開示されている。
また下記特許文献2には、画像から抽出される特徴量を基に、類似する画像をグループにまとめ、各グループから画像を一枚ずつ抽出して表示する画像空間表示方法が開示されている。
特開2010−9608号公報 特開2003−203090号公報
Understanding Video Events: A Survey of Methods for Automatic Interpretation of Semantic Occurrences in Video, Gal Lavee, Ehud Rivlin, and Michael Rudzsky, IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS-PART C: APPLICATIONS AND REVIEWS, VOL. 39, NO. 5, September 2009 Event Mining in Multimedia Streams: Research on identifying and analyzing events and activities in media collectionshad led to new technologies and systems, Lexing Xie, Hari Sundaram, and Murray Campbell, Proceedings of the IEEE | Vol. 96, No. 4, April 2008
しかしながら、上記特許文献1に記載の技術では、ユーザが手動で代表画像を決定しているため、ユーザの手間がかかる。
また、上記特許文献2に記載の技術では、ヒストグラム特徴、エッジ特徴、テクスチャ特徴といった特徴量(信号強度)間の距離を基準に各画像の類似度が判断される。しかし、このような信号強度のみの特徴量が用いられる場合、特徴量自体は類似していなくても、ユーザにとっては同じグループに分類したい画像もあり、当該特許文献2に記載の技術では、そのような場合に対応できない。
また、顔検出/顔識別や笑い声検出等の技術により検出された、下位の意味情報を用いることで、単に信号強度のみの特徴量を用いる場合に比べて有意義な分類処理が実行される可能性もある。しかし、例えば真剣なイベントのシーンの代表画像としては、笑い顔や笑い声に対応する画像は相応しくないことも考えられる。また、楽しいイベントのシーンであっても、例えばユーザの見ず知らずの通行人から笑い顔が検出される場合もあり、そのシーンが代表画像として抽出されるのも適当でない。
さらに、ある画像群から、代表画像の候補となるようなシーンが複数検出された場合に、そのうちのどれを代表画像とするかを判断するのは、上記下位の意味情報を用いたとしても困難である。
以上のような事情に鑑み、本発明の目的は、あるイベントに関する複数の画像から、当該イベントの内容を反映した代表画像として相応しい画像を選択することが可能な電子機器、画像処理方法及びプログラムを提供することにある。
上記目的を達成するため、本発明の一形態に係る電子機器は、記憶部と、制御部と、出力部とを有する。上記記憶部は、複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、上記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶する。上記制御部は、上記イベント特徴情報を基に、上記グループ毎の複数の画像から複数のメタ情報を抽出し、当該抽出された複数のメタ情報から上位のメタ情報を解析していくことで、上記複数の画像が、どの人物に関わる何のイベントを表しているかを導出する。さらに制御部は、当該導出されたイベントに対応する上記ルール情報を基に、上記複数の画像から、上記導出されたイベントを代表する上記代表画像を選択する。上記出力部は、上記選択された代表画像のサムネイル画像を上記グループ毎に出力する。
この構成により電子機器は、複数のメタ情報を抽象化してグループ毎の複数の画像が表すイベントを導出した上で、当該イベントに対応するルール情報を基に代表画像を選択するため、イベント内容を反映した、代表画像として相応しい画像を選択することができる。また上記ルール情報はイベントに関わる人物毎に異なっているため、例えばイベントに関わる人物とユーザとの関係の深さによって、選択される代表画像も異なってくる。したがって電子機器は、当該電子機器のユーザに最適な代表画像を選択することができる。ここで画像とは、もともとスチルカメラで撮影されたような静止画像のみならず、動画像から抽出された静止画像(フレーム)も含む。
上記記憶部は、ユーザと所定の関係を有する人物の特徴を示す人物特徴情報を記憶してもよい。この場合上記制御部は、上記人物特徴情報及び上記イベント特徴情報を基に、上記複数のメタ情報を抽出してもよい。
これにより電子機器は、特定の人物を認識することで、イベントを特定の人物に関するイベントとして導出し、それに応じて代表画像を選択することができる。
上記ルール情報は、上記イベント毎に、上記代表画像に含まれるべき複数のメタ情報と、当該各メタ情報の重要度に応じたスコアを示すスコア情報とを含んでいてもよい。この場合上記制御部は、上記優先順位情報を基に、上記複数の画像について、それぞれ上記メタ情報に応じたスコアを加算し、当該スコアが最も高い画像を上記代表画像として選択してもよい。
これにより電子機器は、メタ情報の重要度に応じたスコアをイベント毎に設定することで、各イベントを最もよく表す代表画像をより確実に選択することができる。
上記出力部は、上記サムネイル画像とともに、上記イベントがどの人物に関わる何のイベントを表しているかを示す文字情報を出力してもよい。
これにより電子機器は、単に代表画像のサムネイル画像を提示できるのみならず、当該代表画像により表されるイベントが「誰の」「何の」イベントなのかをユーザに容易に把握させることができる。
上記制御部は、上記スコアが上位の所定数の代表画像を選択し、当該複数の代表画像のサムネイル画像を、上記スコアが高いほど可視面積が大きくなるように出力してもよい。
これにより電子機器は、複数の代表画像をそのスコアに応じて出力することで、1枚の代表画像を出力する場合に比べて、イベントの内容をユーザにより容易に把握させることができる。ここで「スコアが高いほど可視面積が大きくなるように出力する」とは、例えばスコア順に複数のサムネイル画像を一部重ねて表示することや、スコア順にサムネイル画像のサイズを変えることを含む。
本発明の他の形態に係る画像処理方法は、複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、上記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶することを含む。上記上記イベント特徴情報を基に、上記グループ毎の複数の画像から複数のメタ情報が抽出される。上記抽出された複数のメタ情報から上位のメタ情報が解析されることで、上記複数の画像が、どの人物に関わる何のイベントを表しているかが導出される。上記導出されたイベントに対応する上記ルール情報を基に、上記複数の画像から、上記導出されたイベントを代表する上記代表画像が選択される。上記選択された代表画像のサムネイル画像が、上記グループ毎に出力される。
本発明のまた別の形態に係るプログラムは、電子機器に、記憶ステップと、抽出ステップと、導出ステップと、選択ステップと、出力ステップとを実行させる。上記記憶ステップでは、複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、上記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とが記憶される。上記抽出ステップでは、上記イベント特徴情報を基に、上記グループ毎の複数の画像から複数のメタ情報が抽出される。上記導出ステップでは、上記抽出された複数のメタ情報から上位のメタ情報が解析されることで、上記複数の画像が、どの人物に関わる何のイベントを表しているかが導出される。上記選択ステップでは、上記導出されたイベントに対応する上記ルール情報を基に、上記複数の画像から、上記導出されたイベントを代表する上記代表画像が選択される。上記出力ステップでは、上記選択された代表画像のサムネイル画像が上記グループ毎に出力される。
以上説明したように、本発明によれば、あるイベントに関する複数の画像から、当該イベントの内容を反映した代表画像として相応しい画像を選択することができる。
本発明の一実施形態に係るPCのハードウェア構成を示した図である。 本発明の一実施形態に係るPCにおける写真表示アプリケーションが代表写真の選択のために有する機能ブロックを示した図である。 図2における代表画像選択部の詳細を示す図である。 本発明の一実施形態に係るPCによる代表画像選択処理の流れを示したフローチャートである。 本発明の一実施形態に係るPCが、下位メタ情報から最上位メタ情報を導出する処理を概念的に示した図である。 本発明の一実施形態における動画データからの代表画像選択処理の様子を概念的に示した図である。 本発明の一実施形態における代表画像のサムネイルの表示例を示した図である。 本発明の他の実施形態における代表画像のサムネイルの表示例を示した図である。 本発明のまた別の実施形態における代表画像のサムネイルの表示例を示した図である。 本発明の他の実施形態に係るPCによる代表画像選択処理の流れを示したフローチャートである。
以下、図面を参照しながら、本発明の実施形態を説明する。
[PCのハードウェア構成]
図1は、本発明の一実施形態に係るPCのハードウェア構成を示した図である。同図に示すように、PC100は、CPU(Central Processing Unit)11、ROM12(Read Only Memory)、RAM(Random Access Memory)13、入出力インタフェース15、及び、これらを互いに接続するバス14を備える。
CPU11は、必要に応じてRAM13等に適宜アクセスし、各種演算処理を行いながらPC100の各ブロック全体を統括的に制御する。ROM12は、CPU11に実行させるOS、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。RAM13は、CPU11の作業用領域等として用いられ、OS、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。
入出力インタフェース15には、表示部16、入力部17、記憶部18、通信部19、ドライブ部20等が接続される。
表示部16は、例えば液晶、EL(Electro-Luminescence)、CRT(Cathode Ray Tube)等を用いた表示デバイスである。当該表示部16は、PC100に内蔵されていてもよいし、PC100に外部接続されていてもよい。
入力部17は、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の操作装置である。入力部17がタッチパネルを含む場合、そのタッチパネルは表示部16と一体となり得る。
記憶部18は、例えばHDD(Hard Disk Drive)や、フラッシュメモリ、その他の固体メモリ等の不揮発性メモリである。当該記憶部18には、上記OSや各種アプリケーション、各種データが記憶される。特に本実施形態では、記憶部18には、記録媒体5から取り込まれた動画や静止画等のデータや、当該動画や静止画のサムネイルを一覧表示させるための画像表示アプリケーションも記憶される。
当該画像表示アプリケーションは、複数の動画や静止画を複数のグループに分類し、当該グループ毎に、動画や静止画によって表されるイベントを導出し、当該イベントを代表する代表画像を選択することができる。記憶部18は、このイベントを導出するために必要な、当該PC100のユーザと所定の関係を有する人物(親、配偶者、子供、兄弟、友人等)の特徴を示す人物特徴情報や、あるイベントに特有の物体の特徴を示すイベント特徴情報も記憶される。
ドライブ部20は、例えばメモリカード、光学記録媒体、フロッピー(登録商標)ディスク、磁気記録テープ等、リムーバブルの記録媒体5を駆動し、当該記録媒体5に記録されたデータの読み出し及び当該記録媒体5へのデータの書き込みを行う。典型的には、当該記録媒体5は、デジタルカメラに装着されたメモリカードであり、PC100は、デジタルカメラから取り外されドライブ部20に装着されたメモリカードから静止画像や動画像のデータを読み出す。デジタルカメラとPC100とが例えばUSB(Universal Serial Bus)ケーブル等により接続され、デジタルカメラに装着された状態のメモリカードから静止画や動画がPC100に取り込まれてもよい。
通信部19は、LAN(Local Area Network)、WAN(Wide Area Network)等に接続可能な、他の装置と通信するためのNIC(Network Interface Card)等である。通信部19は、有線及び無線のどちらを利用して通信するものであってもよい。
[PCのソフトウェア構成]
上述したように、上記PC100は、上記画像表示アプリケーションにより、静止画や動画を複数のグループに分類し、当該グループ毎に代表画像(ベストショット)を選択して表示することができる。ここでグループとは、動画であれば複数フレームからなる1ショットまたは1シーンであり、静止画であれば例えば同一日時や同一時間帯に撮影された画像群である。図2は、上記PC100における上記画像表示アプリケーションが上記代表画像の選択のために有する機能ブロックを示した図である。
同図に示すように、PC100は、読み出し部21、動画デコーダ22、オーディオデコーダ23、静止画デコーダ24、動画解析部25、オーディオ解析部26、静止画解析部27、上位意味情報解析部28及び代表画像選択部29を有する。
読み出し部21は、上記記録媒体5から、動画コンテンツや静止画データを読み出す。静止画データは、上記日付や時間帯等に応じたグループ毎に読み出される。読み出されたデータが動画コンテンツの場合、読み出し部21は、当該動画コンテンツを動画データとオーディオデータとに分割する。そして読み出し部21は、動画データを動画デコーダ22へ、オーディオデータをオーディオデコーダ23へ、また静止画データを静止画デコーダ24へ出力する。
動画デコーダ22は、上記動画データをデコードし、動画解析部25へ出力する。オーディオデコーダ23は、上記オーディオデータをデコードし、オーディオ解析部26へ出力する。静止画デコーダ24は、上記静止画データをデコードし、静止画解析部27へ出力する。
動画解析部25は、動画データから、客観的な特徴情報を抽出し、当該特徴情報を基に、下位のメタ情報(意味情報)を抽出する。またオーディオ解析部26及び静止画解析部27も同様に、それぞれオーディオデータ及び静止画データから客観的な特徴情報を抽出し、当該特徴情報を基に、下位のメタ情報を抽出する。この下位のメタ情報の抽出には、上記人物特徴情報やイベント特徴情報が用いられる。またこの下位のメタ情報の抽出には、上記非特許文献1に記載の技術も利用される。
動画解析部25は、特徴情報の抽出において、例えば色/テクスチャ特徴抽出、勾配算出、エッジ抽出といった画素ベースの処理や、人物/顔の検出/認識、物体の認識、人物/顔/物体の動き検出/速度検出といったオブジェクトベースの処理を実行する。人物検出において、動画解析部25は、例えば人型を示す特徴フィルターを用いて、動画像から人物を示す領域を検出する。顔検出においては、動画解析部25は、例えば、目・鼻・眉毛・頬等の位置関係の特徴を示す特徴フィルターや、肌色情報等を用いて、動画像から顔を示す領域を検出する。
さらに、動画解析部25は、人物や顔の有無を認識するのみならず、上記人物特徴情報を用いて、ユーザと所定の関係を有する特定の人物を認識する。当該人物特徴情報としては、例えば、エッジ強度画像特徴、周波数強度画像特徴、高次自己相関特徴、カラー変換画像特徴等が用いられる。例えば、エッジ強度画像を用いる場合、動画解析部25は、認識対象の人物(例えば、親、子供、配偶者、友人等のユーザの関係者)の特徴データとして、濃淡画像及びエッジ強度画像を記憶しておき、顔が検出された人物の顔画像から、同様に濃淡画像及びエッジ強度画像を抽出して、両濃淡画像及び両エッジ強度画像をパターンマッチングすることで、特定人物の顔を認識する。
また物体認識において、動画解析部25は、上記イベント特徴情報として記憶された認識モデルを用いて、識別対象とする物体が含まれるか否かを識別する。当該認識モデルは、例えば予め学習用画像からSVM(Support Vector Machines)等の機械学習により構築される。
さらに動画解析部25は、動画像中の人や物体以外の背景を認識することもできる。例えば動画解析部25は、予め学習用画像からSVM等の機械学習により構築されたモデルを用いて、各動画中の背景を、例えば街、屋内、野外、海岸、水中、夜景、夕焼け、雪景色、混雑といった各シーンに分類する。
オーディオ解析部26は、特徴情報の抽出において、オーディオデータから、例えば人の声、人以外の環境音、それらのパワー/高低等の特徴を検出する。人の声か環境音かの識別には、例えば所定パワー以上の音声の継続時間等が用いられる。
静止画解析部27は、特徴情報の抽出において、上記動画解析部25が実行可能な解析処理のうち、色/テクスチャ特徴抽出、勾配算出、エッジ抽出、人物/顔/物体の検出、背景の認識といった静的な処理を実行する。
また、各解析部25〜27は、各データにテキスト等のタグ(ラベル)情報が含まれている場合には、当該タグ情報も特徴情報として抽出する。タグ情報としては、例えば、イベント内容を示す情報や、撮影日時及び撮影場所等の情報が挙げられる。
各解析部25〜27は、それぞれが抽出した上記特徴情報を基に、より具体的に意味付けされた下位のメタ情報(意味情報)を抽出する。
動画解析部25は、例えば抽出した人物特徴や顔特徴から、個人、性別、年齢、表情、姿勢、服装、人数、整列等を下位のメタ情報として識別する。また動画解析部25は、動き特徴から、活発/不活発な動き、速い/遅い動き、人が佇んでいる/座っている/歩いている/走っている等のActivityを認識したり、人の手のジェスチャ等を認識したりする。
オーディオ解析部26は、例えば抽出したオーディオ特徴から、拍手、歓声、スピーカーの音、声色に応じた感情、笑い声、叫び声、話声の内容、反響による空間の広がり具合等を下位のメタ情報として抽出する。
静止画解析部27は、上記動画解析部25で認識可能なメタ情報のうち、動き特徴に関係のないメタ情報を認識する。
上記下位のメタ情報の抽出には、例えばベイズネット、有限状態機械、条件付確率場(CRF)、隠れマルコフモデル(HMM)等の状態空間表現による手法や、ペトリネットのような離散事象システム、制約充足モデル、論理アプローチといった意味モデルによる手法や、SVM、最近隣法、ニューラルネット等の伝統的なパターン認識/分類法等、さまざまな手法が用いられる。
上位意味情報解析部28は、上記各解析部25〜27により抽出された下位のメタ情報を基に、上位のメタ情報を解析し、動画の1ショットまたは静止画の1グループ全体を説明可能な最上位のメタ情報、すなわちイベントを導出する。このイベントの導出処理には、上記非特許文献2に記載の技術も利用される。
具体的には、上位意味情報解析部28は、各下位メタ情報から、5W1H(Who, What, When, Where, Why, How)に相当する複数の情報の抽象度を徐々に上げていき、最終的に、動画の1ショットや複数の静止画を、1つのイベントとしてカテゴライズする。
例えば、動画や静止画から、「多数の子供」「多数の親子」「体操着」等の人物に関するメタ情報、「活発な動き」「走っている姿」等の人物の動きに関するメタ情報、「学校の校舎」等の一般物体に関するメタ情報が抽出され、音声から、「スピーカーを通した人の声」「拍手」「歓声」等のメタ情報が抽出され、その他のメタ情報として、「小学校」という位置情報、「秋」という季節(日時)情報等の情報が得られた場合、上位意味情報解析部28は、これらを統合して考えられるイベント『小学校の運動会』を導き出す。
また、5W1Hの要素のうち、例えば"Who"の要素に関しては、上位意味情報解析部28は、特定個人を示す言葉によりイベントを表現することも可能である。すなわち、上位意味情報解析部28は、"Who"を示す情報として、撮影者(ユーザ)やその家族等に関する下位メタ情報が抽出された場合、その情報は下位メタ情報のまま用いることで、『xx君の小学校の運動会』というイベントまで判断できる。
代表画像選択部29は、上位意味情報解析部28によりイベント(最上位のメタ情報)が導出された後、動画の1ショットや、複数の静止画から、当該イベントを最もよく表している(代表している)画像(動画の場合、フレーム)を選び出す。図3は、図2における代表画像選択部29の詳細を示す図である。
同図に示すように、代表画像選択部29は、ルール選択部31、スコア算出部32、代表画像出力部33及びルール情報記憶部34を有している。
ルール情報記憶部34は、抽象化されたイベント毎に、最適な代表画像を選択するための基準として、ルール情報を記憶する。すなわち、ルール情報記憶部34は、画像表示アプリケーションが認識可能なイベント毎及び当該イベントに関わる人物毎に、イベント抽出に使用するメタ情報(下位の意味情報や客観的特徴情報)の重要度を保持している。ここで重要度とは、代表画像を選択する際に基準となる優先順位である。
例えば、上述した「xx君の小学校の運動会」というイベントが導出された場合、優先項目としては、以下の順の項目が挙げられる。
(1)「xx君が写っていること」(顔にピントが合っており、顔がブレていないこと)
(2)「xx君がアクティブな姿勢をとっていること」(運動中を優先)
(3)「xx君が笑顔であること」
一方、導出されたイベントが単に「小学校の運動会」というだけであれば、優先項目としては、以下の順の項目が挙げられる。
(1)「なるべく多くの小学生の顔が映っていること」
(2)「アクティブな姿勢をとっていること」
(3)「笑顔が多いこと」
しかし、この場合でも、上記「xx君の小学校の運動会」というイベントに関するルールと同様に、特定の人物が写っていることがルール情報に含まれ、その結果「xx君」が含まれる画像が代表画像として選択されても問題ない。
このように、上記上位意味情報解析部28が導出したイベント毎に代表画像選択のルール化をしておくことで、よりイベント内容を反映した、より相応しい代表画像の選択が可能となる。
そして、ルール情報記憶部34は、ルール情報として含まれる上記優先項目について、それぞれの重要度に応じたスコアを示すスコア情報を記憶している。
ルール選択部31は、上記ルール情報記憶部34から、イベント毎のルール情報を読み出す。
スコア算出部32は、各画像(静止画、フレーム)について抽出された上位/下位のメタ情報について、上記ルール情報に含まれるスコア情報に従って、スコアを算出する。例えば、上述の運動会の例では、必須条件として、「xx君が写っている写真」であることが挙げられる。スコア算出部32は、その写真の中で、「xx君が写っていてぶれ、ぼけの無いフレーム」であれば+100、「アクティブな姿勢」であれば+50、「笑顔」であれば+50といったように、各メタ情報について予め設定されたスコアを加算し、各画像の合計スコアを算出する。
代表画像出力部33は、動画の1ショット中の各フレームまたは同一グループの複数の静止画のうち、上記スコア算出部32により、最も高いスコアを算出された画像を代表画像として選択し、出力する。
[PCの動作]
次に、以上のように構成されたPC100による、代表画像選択動作について説明する。以下では、PC100のCPU11を動作主体として説明がなされるが、以下の動作は、その他のハードウェアや上記画像表示アプリケーション等のソフトウェアとも協働して実行される。図4は、PC100による代表画像選択処理の流れを示したフローチャートである。
同図に示すように、まずCPU11は、上述したように、各解析部25〜27により、下位メタ情報を抽出し(ステップ41)、さらに上位意味情報解析部28により、最上位メタ情報、すなわちイベントを導出する(ステップ42)。図5は、当該下位メタ情報から最上位メタ情報を導出する処理を概念的に示した図である。
同図に示すように、まず、CPU11は、あるグループ内の複数の写真10から、「誰」及び「何」に相当する下位のメタ情報をそれぞれ抽出する。例えば、「誰」に相当する下位メタ情報として「子供たち(ユーザの子供も含む)」や「笑顔の家族」といったメタ情報が抽出され、「何」に相当する下位メタ情報として、「運動服」「走っている」「動きのある姿勢」「料理」といったメタ情報が抽出される。
続いてCPU11は、上記「誰」に相当する下位のメタ情報から、「ユーザの子供たち」という上位のメタ情報を抽出し、上記「何」に相当する下位のメタ情報から、「スポーツイベント」という上位のメタ情報を抽出する。
そしてCPU11は、当該「ユーザの子供たち」というメタ情報と、「スポーツイベント」というメタ情報とから、「ユーザの子供が参加している子供のスポーツイベント」というさらに上位のメタ情報を抽出する。
さらにCPU11は、「誰」「何」に相当するメタ情報以外のメタ情報として、各写真10からGPS情報(位置情報)として抽出された「小学校」というメタ情報と、背景シーン解析により抽出された「運動場」というメタ情報と、カレンダー情報(日時情報)として抽出された「秋」というメタ情報とを、上記「ユーザの子供が参加している子供のスポーツイベント」というメタ情報と統合させることで、最終的に、「ユーザの子供の小学校の運動会」という最上位のメタ情報(イベント)を導出する。
図4に戻り、続いてCPU11は、上記代表画像選択部29のルール選択部31により、導出されたイベントに応じて、代表画像の選択に必要なルール情報を決定する(ステップ43)。
続いてCPU11は、対象となるあるグループの複数の静止画や、動画の1ショットを構成する複数のフレームのそれぞれについて、上記ルール情報を基に、各メタ情報のスコアを算出し、それらスコアを加算する(ステップ44〜48)。
続いてCPU11は、上記複数の静止画や動画の各フレームのうち、算出されたスコアが最も高い静止画/フレームを、代表画像として決定する(ステップ49)。
ここで、動画データからの代表画像の選択について詳細に説明する。図6は、当該動画データからの代表画像選択処理の様子を概念的に示した図である。
動画データからの代表画像選択処理は、全ての動画中のフレームを静止画と捉えて、静止画と全く同じ手法で行われてもよいが、実際には、異なる手法で処理した方が効率がよい。
同図に示すように、CPU11は、例えば動きベクトル(カメラワーク)検出や被写体抽出等の処理によって抽出された客観的な特徴情報を基に、元の1ショットの動画60を、いくつかのシーン65に分割する。この後の処理としては2つの手法が考えられる。
同図(A)に示すように、1つ目の手法では、例えばタグ情報や他のメタ情報から、当該動画60全体によって表されるイベントが判明している場合、CPU11はまず、シーン65毎に、例えば被写体の動き等、動画特有の特徴も加味して、そのイベントを表すのに最適な1つのシーン65を選択する。その後CPU11は、選択したシーン65の各フレームの中から、上述した静止画群と同様の枠組みで代表フレームを選択する。
同図(B)に示すように、2つ目の手法では、まずCPU11は、各シーン65内の各フレームから、客観的特徴を基にそれぞれ代表フレームを絞り込む。その後CPU11は、当該絞り込まれた代表フレームから、上述した静止画と同様の枠組みで代表フレームを選択する。この場合CPU11は、各シーン65内で代表フレームを絞り込む処理においても、当該1シーンを1イベントと捉えて、最終的な代表フレームを選択するのと同様の処理により各代表フレームを選択してもよい。
図4に戻り、代表画像が選択されると、CPU11は、当該代表画像のサムネイルを作成し(ステップ50)、当該サムネイルを表示部16に表示する(ステップ51)。
図7は、当該代表画像のサムネイルの表示例を示した図である。同図(A)に示すように、代表画像選択前においては、写真10のサムネイル10aが例えばマトリクス状に一覧表示される。当該サムネイル10aは、例えば日付等に基づいたグループ(フォルダ)毎に表示されてもよいが、同図(A)では、複数のグループに属する写真10のサムネイル10aが一覧表示されている。
この状態から、所定のタイミングで、上述した代表画像選択処理が実行されると、同図(B)に示すように、上記複数の写真10のサムネイル10aに代わり、グループ毎の代表画像のサムネイル70が表示される。当該サムネイル70は、それが複数の写真10の代表画像であることをユーザが把握できるように、グループ内の複数の写真10を示唆する複数の矩形がスタックされ、その最上位にサムネイル70が位置するように表示される。
[まとめ]
以上説明したように、本実施形態によれば、PC100は、複数の画像(静止画/動画)から、下位のメタ情報を抽出し、当該下位のメタ情報を統合することで上位のメタ情報、すなわちイベントを導出した上で、当該イベント毎に設定されたルール情報に従って代表画像を選択する。したがってPC100は、イベントの内容を反映した、代表画像として相応しい画像をユーザに提示することができる。これによりユーザも、大量の画像から、容易にイベントを把握し、当該画像を整理することが可能となる。またPC100は、「誰」の「何」のイベントであるかを導出し、それを基に代表画像を選択しているため、ユーザのイベントの理解がさらに容易になる。
[変形例]
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。
上述の実施形態では、PC100は、上記図7で示したように、各代表画像のサムネイル70をスタック状の矩形の最上位に表示したが、代表画像の表示態様はこれに限られない。図8及び図9は、代表画像のサムネイル70の他の表示態様を示した図である。
第1の例として、図8に示すように、PC100は、複数の写真のサムネイル10aを例えば日付等のグループにクラスタリングし、各クラスタ内でサムネイル10aをランダムに重ねて表示した上で、各グループの代表画像のサムネイル70をグループ毎のクラスタの近傍に表示してもよい。
その際、上記クラスタとしては、グループに属する全ての写真のサムネイルではなく、上述したメタ情報のスコアが高い所定数の写真が選択され、スコアが高い写真ほど前面に位置するように表示されてもよい。また、スコアが高い写真ほど可視面積が大きくなるように表示されてもよい。ここで、複数グループへの分類は、日付単位ではなく、例えば類似画像単位で行われてもよい。さらに、各クラスタの近傍に、例えば図8で表示されている日付に代えて、導出されたイベント名が表示されてもよい。当該イベント名は、「誰」の「何」のイベントであるかを示すものである。
第2の例として、図9に示すように、PC100は、各イベントについて、代表画像のサムネイル70のみならず、当該イベントに含まれるサブイベントを表すサブ代表画像のサムネイル75も階層的に表示してもよい。この際、イベント名71及びサブイベント名72も表示されてもよい。
同図の例では、最上位層において、「○○ちゃんの運動会」というイベントについて、代表画像のサムネイル70とイベント名71とが表示され、第2の層において、「自宅」→「運動会本番」→「自宅」という時間経過に対応した第1のサブイベントを表すサブイベント名72が表示され、第3の層において、上記各第1のサブイベント毎に、「朝食」「入場」「玉入れ」「徒競走」「夕食」「就寝」という第2のサブイベントを示すサブイベント名72とそのサブ代表画像のサムネイル75とが表示される。
このような階層的な表示方法を行うために、PC100は、上記図5で示した手法よりもさらに詳細なイベント理解を行う必要がある。すなわち、PC100は、サブイベント名を導き出すことができる程度に、下位のメタ情報を詳細に認識及びカテゴライズする必要がある。このための手法の一例として、PC100は、例えば、上記図5で示した手法において、「誰」及び「何」に相当する下位のメタ情報毎にサブイベントを導出し、当該サブイベント毎に代表画像を選択してもよい。この場合に用いられるルール情報は、上述の実施形態におけるルール情報のように必ずしも特定の人物毎に用意される必要はなく(人物に関係ないサブイベントも存在しうるため)、サブイベント毎に特化されたものが用意されればよい。
上述の実施形態において、下位のメタ情報及び上位のメタ情報はいずれもPC100により抽出されたが、これらの少なくとも一部は、他の機器で抽出され、画像がPC100に入力されるときに、当該画像と共に入力されてもよい。例えば写真の下位メタ情報は、写真撮影時にデジタルカメラで抽出され、写真とともにPC100に入力され、PC100ではそれらの下位メタ情報から上位メタ情報を抽出してもよい。また、例えば顔検出や夜景検出等、デジタルカメラで抽出可能であって比較的少ない演算量で抽出可能な下位のメタ情報はデジタルカメラで抽出され、例えば動き検出や一般物体認識等、その抽出に要する演算量が比較的多くなるようなメタ情報はPC100で抽出されてもよい。さらに、PC100に代わり、ネットワーク上のサーバによりメタ情報が抽出され、それらが上記通信部19を介してPC100に入力されてもよい。
さらに、上述の実施形態においてPC100により実行される処理は、例えばテレビジョン装置、デジタルスチルカメラ、デジタルビデオカメラ、携帯電話機、スマートフォン、記録再生装置、ゲーム機器、PDA(Personal Digital Assistants)、電子ブック端末、電子辞書、携帯型AV機器等、その他のあらゆる電子機器でも同様に実行可能である。
上述の実施形態では、図4に示したように、イベントが導出された後、各メタ情報の各スコアがその都度算出されていた。しかし、当該スコアは、各画像からの下位メタ情報の抽出処理の際に併せて算出されてもよい。図10はこの場合の代表画像選択処理の流れを示すフローチャートである。
同図に示すように、CPU11は、各解析部25〜27により、下位メタ情報を抽出するとともに、各メタ情報のスコアを算出し、画像に関連付けられて記憶しておく(ステップ81)。そして、イベントが導出された後、CPU11は、それら記憶されたスコアを画像毎にロードし(ステップ85)、それらを加算する(ステップ86)ことで、代表画像を選択する(ステップ88)。
上述の実施形態における各解析部25〜27及び上位意味情報解析部28における下位及び上位のメタ情報抽出処理は、上述した処理に限られない。すなわち、各画像を記述するための何らかの客観的特徴としての下位メタ情報と、それらの下位メタ情報から導き出される上位メタ情報が抽出されれば、どのような処理であっても構わない。例えば、各メタ情報が、タグ情報として人間の手によって付加されたものであっても構わない。
上記代表画像選択部29のルール選択部31においては、画像表示アプリケーションが認識可能なイベントの全種類毎に、メタ情報の順位付けが予め行われていることが望ましいが、これは必須ではない。例えばPC100は、特に利用頻度(導出頻度)の高いイベント群についてのみ、明確なルール情報を生成しておき、その他のイベントに対しては、一般的なルールで置き換えられるようにしていてもよい。一般的なルールとは、経験的に導き出される、もしくは学習によって獲得される、「構図の良し悪し」「ブレ・ボケ」の度合い等の客観的特徴量や下位のメタ情報の優先順位である。また、利用頻度の高いイベント群のルール情報が生成される場合、ユーザが主観的に各メタ情報を重み付けしてもよいし、何らかの機械学習方法が取り入れられてもよい。
上述の実施形態において、上記スコア算出部32は、メタ情報の「有無」により合計スコアを算出していたが、当該スコアは、「有る」「無し」の2値ではなく、例えばActive度や笑顔度などのように連続的な(段階的な)評価値であってもよい。これらメタ情報は、スコア算出部32で計算してもよいが、図2の各解析部25〜27において計算してもよい。すなわち、イベントの導出に直接関連するメタ情報だけでなく、その後の代表画像選択に使用する情報も含めて、各解析部25〜27にて処理を行っておくことも可能である。
さらに、上述の実施形態におけるルール選択部31とスコア算出部32が組み合わされて、機械学習によって各イベントに対するスコアが算出されてもよい。機械学習によりスコアが決定されることで、各イベントに対して事前に主観的にスコアが設定される場合よりも、多くのメタ情報が考慮され、より高精度のイベント導出が可能となる。
上述の実施形態においては、動画の1ショットや1シーンから代表画像が選択され表示されたが、例えば動画編集処理において当該代表画像が利用されてもよい。すなわち、1ショット中のシーンの遷移を示すために、従来であれば、ユーザが指定した編集点のフレームのサムネイルが表示されていたが、それに代わって代表画像のサムネイルが表示されてもよい。また、例えばシーンサーチが行われる際に、従来のように所定フレーム間隔で抽出されたフレームが表示されるのに代わり、シーン毎の代表画像が表示されてもよい。これにより、各シーンに対するユーザのアクセス性が向上する。
5…記録媒体
10…写真
10a…サムネイル
11…CPU
13…RAM
16…表示部
18…記憶部
22…動画デコーダ
23…オーディオデコーダ
24…静止画デコーダ
25…動画解析部
26…オーディオ解析部
27…静止画解析部
28…上位意味情報解析部
29…代表画像選択部
31…ルール選択部
32…スコア算出部
33…代表画像出力部
34…ルール情報記憶部
60…動画
65…シーン
70…代表画像サムネイル
71…イベント名
72…サブイベント名
75…サブ代表画像サムネイル
100…PC

Claims (7)

  1. 複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、前記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶する記憶部と、
    前記イベント特徴情報を基に、前記グループ毎の複数の画像から複数のメタ情報を抽出し、当該抽出された複数のメタ情報から上位のメタ情報を解析していくことで、前記複数の画像が、どの人物に関わる何のイベントを表しているかを導出し、当該導出されたイベントに対応する前記ルール情報を基に、前記複数の画像から、前記導出されたイベントを代表する前記代表画像を選択する制御部と、
    前記選択された代表画像のサムネイル画像を前記グループ毎に出力する出力部と
    を具備する電子機器。
  2. 請求項1に記載の電子機器であって、
    前記記憶部は、ユーザと所定の関係を有する人物の特徴を示す人物特徴情報を記憶し、
    前記制御部は、前記人物特徴情報及び前記イベント特徴情報を基に、前記複数のメタ情報を抽出する
    電子機器。
  3. 請求項2に記載の電子機器であって、
    前記ルール情報は、前記イベント毎に、前記代表画像に含まれるべき複数のメタ情報と、当該各メタ情報の重要度に応じたスコアを示すスコア情報とを含み、
    前記制御部は、前記優先順位情報を基に、前記複数の画像について、それぞれ前記メタ情報に応じたスコアを加算し、当該スコアが最も高い画像を前記代表画像として選択する
    電子機器。
  4. 請求項3に記載の電子機器であって、
    前記出力部は、前記サムネイル画像とともに、前記イベントがどの人物に関わる何のイベントを表しているかを示す文字情報を出力する
    電子機器。
  5. 請求項3に記載の電子機器であって、
    前記制御部は、前記スコアが上位の所定数の代表画像を選択し、当該複数の代表画像のサムネイル画像を、前記スコアが高いほど可視面積が大きくなるように出力する
    電子機器。
  6. 複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、前記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶し、
    前記前記イベント特徴情報を基に、前記グループ毎の複数の画像から複数のメタ情報を抽出し、
    前記抽出された複数のメタ情報から上位のメタ情報を解析していくことで、前記複数の画像が、どの人物に関わる何のイベントを表しているかを導出し、
    前記導出されたイベントに対応する前記ルール情報を基に、前記複数の画像から、前記導出されたイベントを代表する前記代表画像を選択し、
    前記選択された代表画像のサムネイル画像を前記グループ毎に出力する
    画像処理方法。
  7. 電子機器に、
    複数のグループに分類された複数の画像と、イベントに特有の物体の特徴を示すイベント特徴情報と、前記グループ毎の複数の画像により表されているイベントを代表する代表画像を選択するためのルールを示す、当該イベント毎及び当該イベントに関わる人物毎に異なる複数のルール情報とを記憶するステップと、
    前記前記イベント特徴情報を基に、前記グループ毎の複数の画像から複数のメタ情報を抽出するステップと、
    前記抽出された複数のメタ情報から上位のメタ情報を解析していくことで、前記複数の画像が、どの人物に関わる何のイベントを表しているかを導出するステップと、
    前記導出されたイベントに対応する前記ルール情報を基に、前記複数の画像から、前記導出されたイベントを代表する前記代表画像を選択するステップと、
    前記選択された代表画像のサムネイル画像を前記グループ毎に出力するステップと
    を実行させるプログラム。
JP2010084557A 2010-03-31 2010-03-31 電子機器、画像処理方法及びプログラム Pending JP2011215963A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010084557A JP2011215963A (ja) 2010-03-31 2010-03-31 電子機器、画像処理方法及びプログラム
US13/053,678 US20110243452A1 (en) 2010-03-31 2011-03-22 Electronic apparatus, image processing method, and program
CN201110075556.3A CN102207950B (zh) 2010-03-31 2011-03-24 电子装置和图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010084557A JP2011215963A (ja) 2010-03-31 2010-03-31 電子機器、画像処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2011215963A true JP2011215963A (ja) 2011-10-27

Family

ID=44696788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010084557A Pending JP2011215963A (ja) 2010-03-31 2010-03-31 電子機器、画像処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20110243452A1 (ja)
JP (1) JP2011215963A (ja)
CN (1) CN102207950B (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191035A (ja) * 2012-03-14 2013-09-26 Fujifilm Corp 画像公開装置、画像公開方法、画像公開システム、および、プログラム
KR20150079064A (ko) * 2013-12-31 2015-07-08 주식회사 케이티 자동 태깅 시스템 및 그 방법
JP2015139001A (ja) * 2014-01-20 2015-07-30 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2016066177A (ja) * 2014-09-24 2016-04-28 富士フイルム株式会社 領域検出装置、領域検出方法、画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2016225679A (ja) * 2015-05-27 2016-12-28 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2016225702A (ja) * 2015-05-27 2016-12-28 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2021501508A (ja) * 2017-10-17 2021-01-14 フォト バトラー インコーポレイテッド コンテキストに基づく画像選択
JPWO2021199473A1 (ja) * 2020-03-31 2021-10-07
JP2022104178A (ja) * 2020-12-28 2022-07-08 楽天グループ株式会社 画像フレーム抽出装置、画像フレーム抽出方法およびプログラム

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215964A (ja) * 2010-03-31 2011-10-27 Sony Corp サーバ装置、クライアント装置、コンテンツ推薦方法及びプログラム
KR101851241B1 (ko) * 2011-12-06 2018-04-24 삼성전자 주식회사 휴대 단말기의 컨텐츠 통합 관리 방법 및 장치
CN102819218B (zh) * 2012-07-19 2015-04-29 西安交通大学 基于事件控制函数的离散事件系统监控器及其控制方法
CN105074641A (zh) * 2013-04-01 2015-11-18 索尼公司 显示控制装置、显示控制方法和显示控制程序
KR102106920B1 (ko) * 2013-11-26 2020-05-06 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
US9652685B2 (en) * 2014-09-30 2017-05-16 Disney Enterprises, Inc. Generating story graphs with large collections of online images
JP6883215B2 (ja) 2015-09-29 2021-06-09 ソニーグループ株式会社 計測装置および方法、並びにプログラム
WO2017057057A1 (ja) 2015-09-30 2017-04-06 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
JP6872128B2 (ja) 2015-09-30 2021-05-19 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
EP3358293A4 (en) 2015-09-30 2019-04-10 Sony Corporation IMAGE PROCESSING DEVICE, IMAGE PROCESSING AND PROGRAM
US10974920B2 (en) 2017-05-22 2021-04-13 Canon Kabushiki Kaisha Control device for controlling an image forming system
JP2018192774A (ja) 2017-05-22 2018-12-06 キヤノン株式会社 画像形成装置、情報処理端末およびコンピュータプログラム
JP6887876B2 (ja) 2017-05-22 2021-06-16 キヤノン株式会社 画像形成装置、情報処理端末およびコンピュータプログラム
CN108928140B (zh) 2017-05-22 2021-08-17 佳能株式会社 控制图像形成系统的控制装置和控制方法以及存储介质
JP7259743B2 (ja) * 2017-06-19 2023-04-18 ソニーグループ株式会社 表示制御装置、表示制御方法および表示制御プログラム
US20190180097A1 (en) * 2017-12-10 2019-06-13 Walmart Apollo, Llc Systems and methods for automated classification of regulatory reports
CN110580487A (zh) * 2018-06-08 2019-12-17 Oppo广东移动通信有限公司 神经网络的训练方法、构建方法、图像处理方法和装置
US11462037B2 (en) 2019-01-11 2022-10-04 Walmart Apollo, Llc System and method for automated analysis of electronic travel data
CN110543579A (zh) * 2019-07-26 2019-12-06 华为技术有限公司 一种图像显示方法与电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041987A (ja) * 2005-08-05 2007-02-15 Sony Corp 画像処理装置および方法、並びにプログラム
JP2007094990A (ja) * 2005-09-30 2007-04-12 Fujifilm Corp 画像分類装置および方法並びにプログラム
JP4232774B2 (ja) * 2005-11-02 2009-03-04 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7813561B2 (en) * 2006-08-14 2010-10-12 Microsoft Corporation Automatic classification of objects within images
JP4775306B2 (ja) * 2007-04-23 2011-09-21 ソニー株式会社 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
US7836093B2 (en) * 2007-12-11 2010-11-16 Eastman Kodak Company Image record trend identification for user profiles
US20100107125A1 (en) * 2008-10-24 2010-04-29 Microsoft Corporation Light Box for Organizing Digital Images
US8645287B2 (en) * 2010-02-04 2014-02-04 Microsoft Corporation Image tagging based upon cross domain context

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191035A (ja) * 2012-03-14 2013-09-26 Fujifilm Corp 画像公開装置、画像公開方法、画像公開システム、および、プログラム
KR102259207B1 (ko) * 2013-12-31 2021-05-31 주식회사 케이티 자동 태깅 시스템 및 그 방법
KR20150079064A (ko) * 2013-12-31 2015-07-08 주식회사 케이티 자동 태깅 시스템 및 그 방법
JP2015139001A (ja) * 2014-01-20 2015-07-30 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2016066177A (ja) * 2014-09-24 2016-04-28 富士フイルム株式会社 領域検出装置、領域検出方法、画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2016225679A (ja) * 2015-05-27 2016-12-28 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2016225702A (ja) * 2015-05-27 2016-12-28 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP7232478B2 (ja) 2017-10-17 2023-03-03 フォト バトラー インコーポレイテッド コンテキストに基づく画像選択
JP2021501508A (ja) * 2017-10-17 2021-01-14 フォト バトラー インコーポレイテッド コンテキストに基づく画像選択
JPWO2021199473A1 (ja) * 2020-03-31 2021-10-07
WO2021199473A1 (ja) * 2020-03-31 2021-10-07 富士フイルム株式会社 情報処理装置、情報処理方法、及びプログラム
JP7346718B2 (ja) 2020-03-31 2023-09-19 富士フイルム株式会社 情報処理装置、情報処理方法、及びプログラム
US11996122B2 (en) 2020-03-31 2024-05-28 Fujifilm Corporation Information processing apparatus, information processing method, and program
JP2022104178A (ja) * 2020-12-28 2022-07-08 楽天グループ株式会社 画像フレーム抽出装置、画像フレーム抽出方法およびプログラム
JP7225194B2 (ja) 2020-12-28 2023-02-20 楽天グループ株式会社 画像フレーム抽出装置、画像フレーム抽出方法およびプログラム
US11989943B2 (en) 2020-12-28 2024-05-21 Rakuten Group, Inc. Image frame extraction apparatus and image frame extraction method

Also Published As

Publication number Publication date
CN102207950B (zh) 2016-06-01
CN102207950A (zh) 2011-10-05
US20110243452A1 (en) 2011-10-06

Similar Documents

Publication Publication Date Title
JP2011215963A (ja) 電子機器、画像処理方法及びプログラム
US10679063B2 (en) Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
CN112740709B (zh) 一种执行用于视频分析的门控的计算机实现的方法、计算设备及计算机可读介质
US8948515B2 (en) Method and system for classifying one or more images
JP7123122B2 (ja) 認知的洞察を使用したビデオ・シーンの移動
US9646227B2 (en) Computerized machine learning of interesting video sections
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US8577962B2 (en) Server apparatus, client apparatus, content recommendation method, and program
US10248865B2 (en) Identifying presentation styles of educational videos
TW201834462A (zh) 視訊資料的推薦方法、裝置和伺服器
CN103988202A (zh) 基于索引和搜索的图像吸引力
WO2017189046A1 (en) Automatic animation triggering from video
JP2009095013A (ja) ビデオ要約システムおよびビデオ要約のためのコンピュータプログラム
KR20150046313A (ko) 증강 현실 표본 생성
Dubuisson et al. A survey of datasets for visual tracking
US20210117471A1 (en) Method and system for automatically generating a video from an online product representation
JP2014093058A (ja) 画像管理装置、画像管理方法、プログラム及び集積回路
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
US20230140369A1 (en) Customizable framework to extract moments of interest
CN112287168A (zh) 用于生成视频的方法和装置
Maybury Multimedia information extraction: Advances in video, audio, and imagery analysis for search, data mining, surveillance and authoring
CN111797850A (zh) 视频分类方法、装置、存储介质及电子设备
Demarty et al. Predicting interestingness of visual content
Lonn et al. Smartphone picture organization: A hierarchical approach
US20230066331A1 (en) Method and system for automatically capturing and processing an image of a user