JP6602245B2

JP6602245B2 - 情報処理装置

Info

Publication number: JP6602245B2
Application number: JP2016055931A
Authority: JP
Inventors: 由樹子牧野; 直治山田; 渉一岡
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2019-11-06
Anticipated expiration: 2036-03-18
Also published as: JP2017173900A

Description

本発明は、画像管理に係る情報処理装置に関する。

従来、画像に対して日時や場所を関連付けるタグ付けシステムが知られている（例えば特許文献１参照）。このようなタグ付けシステムを用いることにより、画像が検索し易くなる。

特表２０１５−５０１９８２号公報

ここで、上述したようなタグ付けシステムは、日時や場所などをそれぞれ単体で画像に関連付けるものである。このようなタグ付けシステムでは、画像検索の精度が十分に担保されているとは言い難い。

本発明は上記実情に鑑みてなされたものであり、画像検索の精度を向上させる情報処理装置を提供することを目的とする。

本発明の一態様に係る情報処理装置は、画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する取得部と、取得部により取得された複数の画像管理情報を組み合わせることにより、当該画像に係るユーザの行動を示すユーザコンテクストを導出する組み合わせ部と、を備える。

この情報処理装置では、複数の画像管理情報、すなわちいつ、どこで、何をしていたかを示す情報が組み合わされて、画像に係るユーザの行動を示すユーザコンテクストが導出される。このようなユーザコンテクストを画像検索に用いることにより、例えば、日時や場所などの情報を単体で画像に関連付けて画像検索を行う場合と比較して、より画像と整合した（画像におけるユーザの行動に則した）情報に基づいて画像検索を行うことができる。このことにより、画像検索の精度を向上させることができる。また、同じ認識対象でも、画像が取得（例えば撮像）された場所又は状況によって異なるユーザコンテクストが推定されるので、画像検索の精度を向上させることができる。

また、上記情報処理装置は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成するグループ作成部を更に備え、組み合わせ部は、画像グループ毎に、画像グループに含まれる画像の画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出してもよい。

位置及び日時を考慮したグループ単位でグループコンテクストを導出することにより、共通のイベント（出来事）に係る画像を同一の検索結果とし易くなる。画像１枚単位でのみユーザコンテクストを導出した場合においては、例えばイベントの最中に昼食をとった場合などにおいて、共通のイベントの画像であるにもかかわらず位置等が少し異なることを理由として別の検索結果となる（ばらばらに出力される）ことが問題となる。また、１日などの長いスパンで１つのユーザコンテクストを導出した場合には、異なるイベントの画像が同じ検索結果として出力されることが問題となる。この点、位置及び日時を考慮してグループ化することにより、例えば共通のイベントの画像のみを検索結果とすることができる。また、例えば画像単体のユーザコンテクストについて誤認識や推定誤り等があった場合であっても、複数の画像のユーザコンテクストを考慮することによって、一部の誤りを無視できるため、画像検索の精度をより向上させることができる。

また、上記情報処理装置は、取得部により取得された複数の画像管理情報のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する候補推定部を更に備え、組み合わせ部は、複数の画像管理情報のうち、候補推定部によりコンテクスト候補とされた画像管理情報を組み合わせることにより、ユーザコンテクスト及びグループコンテクストを導出してもよい。

組み合わせる対象の画像管理情報を無作為に選択するのではなく、画像管理情報としての精度が高いものを用いることにより、画像検索の精度をより向上させることができる。

また、複数の画像管理情報には、画像に関する画像認識結果が複数含まれており、候補推定部は、画像に関する画像認識結果に基づくコンテクスト候補である画像候補を推定する画像認識推定部を有し、画像認識推定部は、画像に関する画像認識結果において、類似度合いを示すスコアが所定の閾値以上であるオブジェクトを示す情報を、ユーザコンテクストを導出するための画像候補として推定し、同一画像グループ内における最多の画像候補を、該画像グループのグループコンテクストを導出するための画像候補として推定してもよい。

類似度合いを示すスコアが高い情報を画像候補とすることにより、画像管理情報としての精度が高いものを組み合わせてユーザコンテクストを導出することができ、画像検索の精度をより向上させることができる。すなわち、例えば撮像時にぶれてしまった画像（写真）等が画像候補とされてユーザコンテクストが導出されることを防止することができる。また、同一画像グループ内における最多の画像候補を、グループコンテクストを導出するための画像候補とすることにより、画像グループにおける代表的な画像候補を用いてグループコンテクストを導出することができ、画像グループ単位の画像検索の精度をより向上させることができる。なお、画像グループ単位での推定において、単にスコアで判断するのではなく上述したようにして画像候補を決めることにより、画像単体でのスコアが低い画像についても考慮することができる。

また、複数の画像管理情報には、画像に関するＰＯＩ情報が複数含まれており、候補推定部は、画像に関するＰＯＩ情報に基づくコンテクスト候補であるＰＯＩ候補を推定するＰＯＩ推定部を有し、ＰＯＩ推定部は、複数のＰＯＩ情報それぞれについて、ＰＯＩのチェックイン数を、該ＰＯＩから画像を記録した位置までの距離で割ったＰＯＩスコアを算出し、該ＰＯＩスコアが最も高いＰＯＩ情報を、ユーザコンテクストを導出するためのＰＯＩ候補として推定し、同一の画像グループ内における最多のＰＯＩ候補を、該画像グループのグループコンテクストを導出するためのＰＯＩ候補として推定してもよい。

ＰＯＩのチェックイン数を考慮することにより、ユーザが訪れている可能性が高いＰＯＩ情報をＰＯＩ候補として推定され易くすることができる。これにより、誤推定を抑制することができる。また、画像グループ単位での推定では、最多のＰＯＩ候補がグループコンテクストを導出するためのＰＯＩ候補とされることにより、ユーザが訪れている可能性が高いＰＯＩ情報をグループコンテクストを導出するためのＰＯＩ候補とすることができる。

また、複数の画像管理情報には、位置を示す情報及び日時を示す情報によって特定されるイベント情報が含まれており、候補推定部は、イベント情報に基づくコンテクスト候補であるイベント候補を推定するイベント推定部を有し、イベント推定部は、位置を示す情報が画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が画像を記録した日時情報と一致するイベント情報を、ユーザコンテクストを導出するためのイベント候補として推定し、画像グループに含まれる画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が、該画像グループに含まれる画像のうち日時情報が最も古い画像を記録した日時情報から、日時情報が最も新しい画像を記録した日時情報の間に含まれているイベント情報を、該画像グループのグループコンテクストを導出するためのイベント候補として推定してもよい。これにより、位置及び日時を考慮して、ユーザが訪れていたと考えられるイベント候補を適切に推定することができる。すなわち、画像検索の精度をより向上させることができる。

また、複数の画像管理情報には、画像に関する文字認識結果が含まれており、候補推定部は、画像に関する文字認識結果に基づくコンテクスト候補である文字候補を推定する文字認識推定部を有し、文字認識推定部は、文字認識結果における文字のうち予め定められた文字を、ユーザコンテクストを導出するための文字候補として推定し、同一の画像グループ内における最多の文字候補を、該画像グループのグループコンテクストを導出するための文字候補として推定してもよい。

予め定めた文字のみを文字候補とすることにより、ユーザの行動を示すキーワードとして適切なものだけを文字候補とすることができる。また、同一画像グループ内における最多の文字候補を、グループコンテクストを導出するための文字候補とすることにより、画像グループにおける代表的な文字候補を用いてグループコンテクストを導出することができ、画像グループ単位の画像検索の精度をより向上させることができる。

また、組み合わせ部は、ユーザコンテクストに応じたタグを前記画像に関連付け、グループコンテクストに応じたタグを画像グループに関連付けてもよい。これにより、従来、画像に関連付けた認識結果として１つの認識結果のみを用いていた場合と比較して、曖昧性を低減すると共に抽象度を下げてタグ付けすることができ、画像検索の精度を向上させることができる。

また、上記情報処理装置は、一又は複数のユーザコンテクストを上位概念で規定したカテゴリを画像に関連付け、一又は複数のグループコンテクストを上位概念で規定したカテゴリを画像グループに関連付ける、カテゴリ付与部を更に備えてもよい。カテゴリを画像及び画像グループに関連付けることにより、ユーザコンテクスト及びグループコンテクストよりも上位概念で画像を検索すること等が可能になる。

また、グループ作成部は、作成した画像グループのうち、含まれる画像の日時情報が所定の範囲内である複数の画像グループを、共通の新たな画像グループとし、組み合わせ部は、新たな画像グループに含まれる複数の画像グループのうち、画像数が最も多い画像グループのグループコンテクストを、新たな画像グループのグループコンテクストとしてもよい。

これにより、日時情報が類似する画像グループを更に纏めることができ、類似する画像検索結果をより容易に確認することができる。また、画像数が最も多い画像グループのグループコンテクストが新たな画像グループのグループコンテクストとされることにより、新たな画像グループに関しての画像検索の精度を向上させることができる。

本発明によれば、画像検索の精度を向上させる情報処理装置を提供することができる。

本発明の実施形態に係るタグ付けシステムの機能構成を示す図である。図１に示したタグ付けシステムに含まれるタグ付け装置のハードウェア構成を示す図である。グループ作成部によるグルーピング処理の説明図である。推定結果テーブルを示す表である。タグ付け結果テーブルを示す表である。画像単体でタグ付けを行う一例の説明図である。画像グループ単位でタグ付けを行う一例の説明図である。画像単体でタグ付けを行わない一例の説明図である。画像単体でタグ付けを行わない一例の説明図である。画像単体でタグ付けを行わない一例の説明図である。画像グループ単位でタグ付けを行わない一例の説明図である。カテゴリ付与の一例の説明図である。本発明の実施形態に係るタグ付け装置の処理を示すフローチャートである。文字認識推定部の処理の詳細を示すフローチャートである。画像認識推定部の処理の詳細を示すフローチャートである。ＰＯＩ推定部の処理の詳細を示すフローチャートである。イベント推定部の処理の詳細を示すフローチャートである。変形例に係るタグ付け装置のアルバム作成の説明図である。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。

図１は、本実施形態に係るタグ付けシステムの機能構成を示す図である。図１に示されるように、タグ付けシステム１は、画像を管理するためのシステムであり、タグ付け装置１０（情報処理装置）と、データ表示端末３０と、ＰＯＩ変換装置４０と、文字認識装置５０と、画像認識装置６０と、イベント推定装置７０と、を備えている。

タグ付け装置１０は、画像管理に係るサーバであり、データ表示端末３０、ＰＯＩ変換装置４０、文字認識装置５０、画像認識装置６０、及びイベント推定装置７０と相互に通信可能に構成されている。より詳細には、タグ付け装置１０は、データ表示端末３０が管理する画像に検索用のタグを付けることにより、画像検索の容易化を実現するものである。タグ付け装置１０の詳細については後述する。

データ表示端末３０は、画像及び、画像のタグ付け結果を記憶すると共に、当該画像を表示する端末である。画像とは、視認可能な図形又は写真である。以下では、画像はデータ表示端末３０によって撮像された写真データである、として説明する。データ表示端末３０は、撮像した画像と、該画像を撮像した地点の位置情報とを、タグ付け装置１０に送信する。データ表示端末３０は、タグ付け装置１０によって導出された当該画像に関するタグ付け結果を、タグ付け装置１０から受信し、記憶する。また、データ表示端末３０は、当該データ表示端末３０のユーザによる検索操作に応じて、該ユーザが所望する画像を検索し、表示する。当該検索には、上述したタグ付け結果が用いられる。

データ表示端末３０は、例えばユーザに所持（携帯）されて用いられる、スマートフォン等の携帯電話機、タブレット端末、又はラップトップパソコン等である。或いは、データ表示端末３０は、ユーザの自宅や職場に備え付けられたデスクトップパソコン等である。

ＰＯＩ変換装置４０は、緯度経度により示される位置情報を入力として、ＰＯＩ情報を出力するサーバである。ＰＯＩ情報には、入力された位置情報で示される位置周辺のＰＯＩ（point of interest）、ＰＯＩのカテゴリ、及び各ＰＯＩへのチェックイン数が含まれている。ＰＯＩとは、あるユーザが興味を持った特定の場所を示す情報であり、例えば、緯度経度及び名称（場所の名称）を含んだ情報である。チェックイン数とは、当該ＰＯＩを訪れたユーザの数である。ＰＯＩ変換装置４０は、例えばユーザによってＰＯＩが追加及び編集されることにより、出力対象であるＰＯＩ情報を更新している。ＰＯＩ変換装置４０は、タグ付け装置１０からのＰＯＩ変換要求に応じて、ＰＯＩ情報をタグ付け装置１０に出力する。ＰＯＩ変換装置４０は、タグ付け装置１０を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されているＰＯＩ変換に係るサーバであってもよい。

文字認識装置５０は、画像中に含まれた文字を判別するサーバである。文字認識装置５０は、例えば、文字のテンプレートを記憶しており、該テンプレートの文字との一致を判断することにより、画像中に含まれた文字を判別する。文字認識装置５０は、タグ付け装置１０から、文字認識対象の画像を含んだ文字認識要求を受け、該画像中に含まれた文字を判別し、判別結果（文字認識結果）をタグ付け装置１０に出力する。文字認識装置５０は、判別した文字であるキーワードに基づき、該キーワードに関連付けられたカテゴリを導出する。すなわち、文字認識結果には、判別した文字を示すキーワードと、該キーワードに関連付けられたカテゴリとが含まれている。文字認識装置５０は、タグ付け装置１０を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されている文字認識に係るサーバであってもよい。

画像認識装置６０は、画像中に含まれたオブジェクト又はシーンを判別するサーバである。画像認識装置６０は、例えば、オブジェクトのテンプレートを記憶しており、該テンプレートのオブジェクトとの一致を判断することにより、画像中に含まれたオブジェクトを判別する。画像認識装置６０は、タグ付け装置１０から、画像認識対象の画像を含んだ画像認識要求を受け、該画像中に含まれたオブジェクトを判別し、判別結果（画像認識結果）をタグ付け装置１０に出力する。当該画像認識結果には、判別したオブジェクトを示すラベルと、テンプレートとの一致度合い（類似度合い）を示すスコアとが含まれている。画像認識装置６０は、タグ付け装置１０を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されている画像認識に係るサーバであってもよい。

イベント推定装置７０は、画像を記録（撮像）した地点のＰＯＩ及び画像を記録した日時情報を入力として、イベント情報を出力するサーバである。イベント情報には、イベント名及びイベントカテゴリが含まれている。イベント推定装置７０は、当該イベント情報と、イベントが開催されたＰＯＩ及び日時を関連付けて記憶している。そして、イベント推定装置７０は、タグ付け装置１０から、画像を記録（撮像）した地点のＰＯＩ及び画像を記録した日時情報を含んだイベント推定要求を受け、画像に係るイベント情報を特定し、特定したイベント情報をタグ付け装置１０に出力する。イベント推定装置７０は、タグ付け装置１０を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されているイベント推定に係るサーバであってもよい。

次に、タグ付け装置１０の詳細について説明する。図２は、図１に示したタグ付けシステム１に含まれるタグ付け装置１０のハードウェア構成を示す図である。タグ付け装置１０は、物理的には、図２に示すように、１又は複数のＣＰＵ１０１、主記憶装置であるＲＡＭ１０２及びＲＯＭ１０３、入力デバイスであるキーボード及びマウス等の入力装置１０４、ディスプレイ等の出力装置１０５、ネットワークカード等のデータ送受信デバイスである通信モジュール１０６、半導体メモリ等の補助記憶装置１０７等を含むコンピュータとして構成されている。

タグ付け装置１０の各機能は、図２に示すＣＰＵ１０１、ＲＡＭ１０２等のハードウェア上に１又は複数の所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで入力装置１０４、出力装置１０５、通信モジュール１０６を動作させるとともに、ＲＡＭ１０２や補助記憶装置１０７におけるデータの読み出し及び書き込みを行うことで実現される。

図１に戻り、タグ付け装置１０は、機能構成として、通信部１１（取得部）と、グループ作成部１２と、候補推定部１３と、組み合わせ部１４と、カテゴリ付与部１５と、画像メタデータ格納部１６と、位置情報格納部１７と、推定用情報格納部１８と、を備えている。

通信部１１は、データ表示端末３０、ＰＯＩ変換装置４０、文字認識装置５０、画像認識装置６０、及びイベント推定装置７０と通信を行う機能である。通信部１１は、データ表示端末３０から、撮像した画像と該画像を撮像した地点の位置情報とを受信する。通信部１１は、受信した画像のメタデータを画像メタデータ格納部１６に格納し、受信した位置情報を位置情報格納部１７に格納する。画像のメタデータには、画像を記録した日時情報（すなわち、画像の作成日時）及び画像のファイル形式等が含まれている。位置情報格納部１７では、位置情報と画像とが関連付けられて記憶されている。該位置情報は、緯度経度を示すものであってもよいし、ＰＯＩ変換装置４０から受信したＰＯＩを示すものであってもよい。

通信部１１は、ＰＯＩ変換装置４０に対して、画像を撮像した地点の位置情報を含んだＰＯＩ変換要求を送信し、該要求に応じたＰＯＩ変換装置４０からＰＯＩ情報（画像管理情報）を取得する。通信部１１は、文字認識装置５０に対して、画像を含んだ文字認識要求を送信し、該要求に応じた文字認識装置５０から文字認識結果（画像管理情報）を取得する。通信部１１は、画像認識装置６０に対して、画像を含んだ画像認識要求を送信し、該要求に応じた画像認識装置６０から画像認識結果（画像管理情報）を取得する。通信部１１は、イベント推定装置７０に対して、画像を記録（撮像）した地点のＰＯＩ及び画像を記録した日時情報を含んだイベント推定要求を送信し、該要求に応じたイベント推定装置７０からイベント情報（画像管理情報）を取得する。このようにして、通信部１１は、画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する。通信部１１は、各画像管理情報を、コンテクスト推定に用いる推定用情報として推定用情報格納部１８に格納すると共に、候補推定部１３に推定要求を出力する。

グループ作成部１２は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成する機能である。グループ作成部１２は、最初にグルーピングの基準となる画像（基準画像）を決定する。グループ作成部１２は、位置情報格納部１７を参照することにより、基準画像との位置情報の差異が所定の範囲内である画像を抽出する。更に、グループ作成部１２は、画像メタデータ格納部１６を参照することにより、基準画像との日時情報の差異が所定の範囲内である画像を抽出する。そして、グループ作成部１２は、基準画像との位置情報及び日時情報の差異がいずれも所定の範囲内である複数の画像をグルーピングして、画像グループを作成する。グループ作成部１２は、グルーピングの結果を含んだ推定要求を、候補推定部１３に出力する。なお、グループ作成部１２は、画像に紐づく位置情報がない場合には、当該画像をグルーピングの対象から外すこととしてもよい。また、グループ作成部１２は、画像が撮像された日時を含む予定が存在する旨の情報を取得している場合、同一の予定に係る画像をグルーピングしてもよい。

図３は、グループ作成部１２によるグルーピング処理の説明図である。図３の例では、Ａ遊園地の写真である画像ｂ１，ｓ１，ｓ２，ｂ４と、Ｂ公園の写真である画像ｂ２，ｓ３がグルーピング対象の画像とされている。そして、図３中の時間軸ｔで示されるように、撮像されたタイミングは、画像ｂ１，ｓ１，ｓ２，ｂ２，ｓ３，ｂ４の順であり、全ての画像は日時情報の差異が所定の範囲内であるとする。この場合、例えば、基準画像との位置情報の差異が５００ｍ以内である場合に位置情報の差異が所定の範囲内であるとすると、基準画像である画像ｂ１と、該画像ｂ１から４００ｍ離れた場所で記録された画像ｓ１，ｓ２とが、同一の画像グループ（グループ１）とされる。一方で、画像ｂ１から１０００ｍ離れたＢ公園の写真である画像ｂ２は、グループ１ではないと判断される。そして、当該画像ｂ２が新たな基準画像とされ、該画像ｂ２と、該画像ｂ２から２００ｍ離れた場所で記録された画像ｓ３とが、同一の画像グループ（グループ２
とされる。そして、画像ｂ２から１０００ｍ離れた場所で記録された画像ｂ４は、グループ２ではないと判断され、新たなグループ３の基準画像とされる。

候補推定部１３は、通信部１１により取得されて推定用情報格納部１８に格納された複数の画像管理情報（推定用情報）のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する機能である。正確性に関する所定の条件を満たす画像管理情報とは、ユーザの行動を適切に示すことができる画像管理情報をいう。候補推定部１３は、通信部１１によって推定用情報格納部１８に格納されている推定用情報である各画像管理情報からコンテクスト候補を推定する。候補推定部１３は、推定したコンテクスト候補が関連付けられた推定結果テーブル（後述）を含んだコンテクスト導出要求を、組み合わせ部１４に出力する。候補推定部１３は、文字認識推定部１３ａと、画像認識推定部１３ｂと、ＰＯＩ推定部１３ｃと、イベント推定部１３ｄと、を有している。

文字認識推定部１３ａは、推定用情報格納部１８に格納されている文字認識結果を取得し、該文字認識結果に基づくコンテクスト候補である文字候補を推定する。具体的には、文字認識推定部１３ａは、文字認識結果に含まれているキーワードが予め定められたキーワード（対象キーワード）である場合に、該キーワードを、ユーザコンテクストを導出するための文字候補とする。対象キーワードは、ユーザの行動を適切に示すことができると考えられるキーワードとされる。例えば、図８（ａ）の画像で文字認識される「卒業式」のようなキーワードは、ユーザが参加するイベントを示しておりユーザの行動を適切に示すことができるため、対象キーワードとされる。一方で、図８（ｂ）の画像で文字認識される「さつまかわしり」のような駅名を示すキーワード等は、ユーザの行動を適切に示しにくいため、対象キーワードとされない。文字認識推定部１３ａは、同様にして、文字認識結果に含まれているカテゴリが予め定められたカテゴリ（対象カテゴリ）である場合に該文字認識結果のカテゴリ及びキーワードを文字候補とする。

また、文字認識推定部１３ａは、グループ作成部１２によって作成された画像グループ単位でも、文字認識結果から文字候補を推定する。具体的には、文字認識推定部１３ａは、同一の画像グループに含まれる画像単体の文字候補として最も数が多い文字を、該画像グループのグループコンテクスト（後述）を導出するための文字候補とする。或いは、同一の画像グループに含まれる画像単体の文字候補を全てリストアップし、全てを該画像グループのグループコンテクスト（後述）を導出するための文字候補としてもよい。

画像認識推定部１３ｂは、推定用情報格納部１８に格納されている画像認識結果を取得し、該画像認識結果に基づくコンテクスト候補である画像候補を推定する。具体的には、画像認識推定部１３ｂは、同一の画像において画像認識された複数のオブジェクトのラベル及びスコアを取得し、スコアを昇順で並び替え、最もスコアの高いラベルを当該画像のラベルに決定すると共に、上位５つのスコアのラベルを、ユーザコンテクストを導出するための画像候補とする。或いは、画像認識推定部１３ｂは、所定の閾値よりもスコアが高いラベルを画像候補としてもよい。例えば、スコアの閾値が０．９とされている場合に、図９（ａ）のコアラの写真で画像認識されたオブジェクト（ラベル：animal）のスコアが０．９２であるとすると、当該オブジェクトのラベルは画像候補とされる。一方で、図９（ｂ）のライオンとワニの置物の写真で画像認識されたオブジェクト（ラベル：animal）のスコアが０．４４であるとすると、当該オブジェクトのラベルは画像候補とされない。画像候補が存在しない画像は、others画像であると判定される。判定された結果、画像単体において、画像候補が１つまたは複数になる場合と、画像候補が存在しない場合とがある。

また、画像認識推定部１３ｂは、グループ作成部１２によって作成された画像グループ単位でも、画像認識結果からコンテクスト候補を推定する。具体的には、画像認識推定部１３ｂは、同一の画像グループ内における最多の画像候補を、該画像グループのグループコンテクスト（後述）を導出するための画像候補とする。或いは、画像認識推定部１３ｂは、同一の画像グループ内におけるスコアの総和が最も高いラベルを、該画像グループのグループコンテクスト（後述）を導出するための画像候補とする。また、画像認識推定部１３ｂは、同一の画像グループ内における最多の画像候補を、該画像グループのグループコンテクスト（後述）を導出するための画像候補とすると共に、同数の画像候補があった場合には、スコアの総和が高い方を画像候補としてもよい。画像認識推定部１３ｂは、上述したothers画像が閾値以上含まれている画像グループについては、グループコンテクスト（後述）を導出するための画像候補が存在しないと判定してもよい。例えば、スコアの閾値が０．９とされている場合に、図１１（ａ）〜図１１（ｄ）の４つの画像からなる画像グループがあった場合、スコアが０．９２の図１１（ａ）の画像のみ閾値を超え、図１１（ｂ）〜図１１（ｄ）の画像のスコアは閾値を越えなかったとする。そして、others画像が含まれている割合の閾値が０．６（６０％）であったとすると、いま、others画像が含まれている割合が０．７５（７５％）となるので、当該グループについては、グループコンテクスト（後述）を導出するための画像候補が存在しないと判定される。このように、画像グループ単位において、画像候補が１つまたは複数になる場合と、画像候補が存在しない場合とがある。

ＰＯＩ推定部１３ｃは、推定用情報格納部１８に格納されているＰＯＩ情報を取得し、該ＰＯＩ情報に基づくコンテクスト候補であるＰＯＩ候補を推定する。具体的には、ＰＯＩ推定部１３ｃは、同一の画像についての複数のＰＯＩ情報それぞれについて、ＰＯＩのチェックイン数を、ＰＯＩから画像を記録した位置までの距離で割ったＰＯＩスコアを算出し、該ＰＯＩスコアが最も高いＰＯＩ情報を、ユーザコンテクストを導出するためのＰＯＩ候補とする。より詳細には、ＰＯＩ推定部１３ｃは、ＰＯＩスコアが最も高いＰＯＩ情報のＰＯＩ名称とＰＯＩカテゴリとを、ＰＯＩ候補とする。なお、ＰＯＩ推定部１３ｃは、ＰＯＩスコアが同一のＰＯＩ情報が複数ある場合には、上記距離が短いＰＯＩ情報を当該画像のＰＯＩ候補としてもよい。或いは、ＰＯＩ推定部１３ｃは、ＰＯＩカテゴリが予め定められたキーワード（対象ＰＯＩキーワード）である場合に該ＰＯＩカテゴリをＰＯＩ候補としてもよい。例えば、対象ＰＯＩキーワードに「野球場」が含まれており「飲食店」が含まれていない場合には、図１０（ａ）の画像のＰＯＩカテゴリ「野球場」はＰＯＩ候補とされ、図１０（ｂ）の画像のＰＯＩカテゴリ「飲食店」はＰＯＩ候補とされない。

また、ＰＯＩ推定部１３ｃは、グループ作成部１２によって作成された画像グループ単位でも、ＰＯＩ情報からコンテクスト候補を推定する。具体的には、ＰＯＩ推定部１３ｃは、同一の画像グループ内における最多のＰＯＩ候補を、画像グループのグループコンテクスト（後述）を導出するためのＰＯＩ候補として推定する。なお、ＰＯＩ推定部１３ｃは、最多のＰＯＩ候補が複数ある場合には、ＰＯＩスコアの総計が高いＰＯＩ候補を、画像グループのグループコンテクスト（後述）を導出するためのＰＯＩ候補として推定してもよい。

イベント推定部１３ｄは、推定用情報格納部１８に格納されているイベント情報を取得し、該イベント情報に基づくコンテクスト候補であるイベント候補を推定する。具体的には、イベント推定部１３ｄは、位置を示す情報が画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が画像を記録した日時情報と一致するイベント情報を、ユーザコンテクストを導出するためのイベント候補として推定する。イベント推定部１３ｄは、まず推定用情報格納部１８に格納されているＰＯＩ情報から、画像を記録した地点のＰＯＩを取得すると共に、画像メタデータ格納部１６に格納されている該画像を記録した日時情報を取得する。その後、イベント推定部１３ｄは、推定用情報格納部１８に格納されているイベント情報に、ＰＯＩ及び日時情報が一致するイベント情報があるか検索し、あれば、該イベント情報のイベント名及びイベントカテゴリを、該画像のイベント候補とする。

また、イベント推定部１３ｄは、グループ作成部１２によって作成された画像グループ単位でも、イベント情報からコンテクスト候補を推定する。具体的には、イベント推定部１３ｄは、ＰＯＩ及び日時情報が一致するイベント情報があれば、該イベント名及びイベントカテゴリを、該画像グループのグループコンテクスト（後述）を導出するためのイベント候補とする。ここで、画像グループ単位で日時情報の一致を判断する際には、日時情報が、画像グループに含まれる画像のうち日時情報が最も古い画像を記録した日時情報から、日時情報が最も新しい画像を記録した日時情報の間の日時を示す情報であるイベント情報の有無を判断する。

上述したように、候補推定部１３から組み合わせ部１４に対しては、コンテクスト候補である文字候補、画像候補、ＰＯＩ候補、及びイベント候補が関連付けられた推定結果テーブルが出力される。図４は、推定結果テーブル１８０を示す表である。推定結果テーブル１８０では、画像ＩＤと、画像候補と、ＰＯＩ候補と、位置情報と、日時情報と、文字候補と、市町村名と、イベント候補と、ファイル形式とが対応付けられている。

画像ＩＤとは、該画像を一意に特定する識別子である。画像候補、ＰＯＩ候補、文字候補、及びイベント候補とは、それぞれ、上述した画像認識推定部１３ｂ、ＰＯＩ推定部１３ｃ、文字認識推定部１３ａ、及びイベント推定部１３ｄにより推定されたコンテクスト候補である。なお、例えば画像ＩＤ「Ｐ０００１」で示される画像は、ＰＯＩ候補について「Ｂ公園（公園）」とされている。当該「Ｂ公園」はＰＯＩ名称であり、「（公園）」はＰＯＩカテゴリである。位置情報とは、位置情報格納部１７に格納された該画像の位置情報と同様の情報である。日時情報とは、画像メタデータ格納部１６に格納された該画像の日時情報である。市町村名とは、位置情報に基づき導出される市町村の名称である。ファイル形式とは、画像メタデータ格納部１６に格納された該画像のファイル形式である。なお、当該推定結果テーブル１８０は、画像単体のユーザコンテクスト導出に係る推定結果テーブルであるので、グループ単位のコンテクスト候補を含んでいない。

組み合わせ部１４は、通信部１１により取得された複数の画像管理情報を組み合わせることにより、当該画像に係るユーザの行動を示すユーザコンテクストを導出する機能である。より詳細には、組み合わせ部１４は、複数の画像管理情報のうち、候補推定部１３によりコンテクスト候補とされた画像管理情報を組み合わせることにより、ユーザコンテクストを導出する。そして、組み合わせ部１４は、導出したユーザコンテクストに応じたタグを画像に関連付けたタグ付け結果テーブル（後述）を含んだカテゴリ付与要求を、カテゴリ付与部１５に出力する。タグとは、画像に関する具体的な情報要素であり、画像の検索キーとなる情報である。導出したユーザコンテクストとタグとは、同一のキーワードであってもよいし、対応する異なるキーワードであってもよい。

組み合わせ部１４は、推定結果テーブル（例えば図４参照）を参照することにより、画像に関連付けられたコンテクスト候補を特定する。例えば、図４における画像ＩＤが「Ｐ０００１」の画像については、コンテクスト候補として、画像候補である「park」、ＰＯＩ候補である「Ｂ公園（公園）」、文字候補である「運動会」が特定される。そして、これらのコンテクスト候補が組み合わせることにより、「公園」とのユーザコンテクストが導出される。このような、コンテクスト候補を組み合わせたユーザコンテクストの導出は、例えば、コンテクスト候補の組み合わせ（複数のコンテクスト候補）とユーザコンテクストとを関連付けたテーブルを用いることにより導出されてもよい。このようなテーブルを参照することにより、コンテクスト候補の組み合わせから、ユーザコンテクストを一意に定めることができる。また、導出されたユーザコンテクスト「公園」に応じて、タグ「公園」が付与される。タグは、例えばユーザコンテクストとタグとが関連付けられたテーブルに基づいて付与される。

また、組み合わせ部１４は、グループ作成部１２によりグルーピングされた画像グループ毎に、画像グループに含まれる画像の画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出する。より詳細には、組み合わせ部１４は、画像グループ単位のコンテクスト候補（文字候補、画像候補、ＰＯＩ候補、及びイベント候補）とされた画像管理情報を組み合わせることにより、グループコンテクストを導出する。そして、組み合わせ部１４は、導出したグループコンテクストに応じたタグを画像グループと関連付けたタグ付け管理テーブルを含んだカテゴリ付与要求を、カテゴリ付与部１５に出力する。

カテゴリ付与部１５は、一又は複数のユーザコンテクストを上位概念で規定したカテゴリを画像に関連付ける機能である。カテゴリ付与部１５は、組み合わせ部１４から入力されたタグ付け管理テーブルにおいて、画像にカテゴリを関連付ける。カテゴリ付与部１５は、例えば１つのカテゴリと複数のユーザコンテクストとが対応づけらられたテーブルに基づいて、ユーザコンテクストからカテゴリを導出する。なお、カテゴリ付与部１５は、複数のユーザコンテクストが関連付けられた画像に対しては複数のカテゴリを導出してもよい。

図１２は、カテゴリ付与の一例を説明する図である。例えば、図１２（ａ）〜（ｃ）の画像はいずれも「Ｂ公園」「公園」とのユーザコンテクストが関連付けられている。カテゴリ付与部１５は、これらの画像に対して、図１２（ｄ）に示す「おでかけ」カテゴリを関連付ける。また、図１２（ｂ）の画像は「ランチ」とのユーザコンテクストが関連付けられている。カテゴリ付与部１５は、この画像に対して、図１２（ｅ）に示す「食事」カテゴリを関連付ける。

また、カテゴリ付与部１５は、一又は複数のグループコンテクストを上位概念で規定したカテゴリを画像グループに関連付ける。カテゴリ付与部１５は、組み合わせ部１４から入力されたタグ付け管理テーブルにおいて、画像グループにカテゴリを関連付ける。

図５は、タグ付け結果テーブル１９０を示す表である。図５に示されるように、タグ付け結果テーブル１９０では、画像ＩＤと、画像単体のタグ付け結果と、画像単体のカテゴリと、画像候補と、ＰＯＩ候補と、文字候補と、市町村名と、イベント候補と、ファイル形式とが関連付けられている。なお、図５に示すタグ付け結果テーブル１９０では、画像単体についての各コンテクスト候補（文字候補、画像候補、ＰＯＩ候補、及びイベント候補）のみ記憶されているが、画像グループ単位でタグ付け及びカテゴリ付与を行う場合には、タグ付け結果テーブルにおいて画像グループ単位の各コンテクスト候補についても記憶される（後述）。

上述したように、タグ付け装置１０では、画像単体でのタグ付け及び画像グループ単位でのタグ付けが行われる。以下では、図６及び図７を参照して、画像単体でのタグ付け及び画像グループ単位でのタグ付けの一例を説明する。図６は、画像単体でタグ付けを行う一例の説明図である。図７は、画像グループ単位でタグ付けを行う一例の説明図である。

図６（ａ）は画像の一例を示す図であり、図６（ｂ）は図６（ａ）に示す画像（画像ＩＤ：Ｐ０００１）に関する推定結果テーブル１８１を示す表であり、図６（ｃ）は図６（ａ）に示す画像（画像ＩＤ：Ｐ０００１）に関するタグ付け結果テーブル１９１を示す表である。

図６（ｂ）の推定結果テーブル１８１に示されるように、画像ＩＤが「Ｐ０００１」の画像について、画像候補として「park」が、ＰＯＩ候補として「Ｂ公園（公園）」が、それぞれ関連付けられている。そして、当該推定結果テーブル１８１に応じて、図６（ｃ）のタグ付け結果テーブル１９１が導出されている。図６（ｃ）のタグ付け結果テーブル１９１に示されるように、画像ＩＤが「Ｐ０００１」の画像について、画像単体のタグ付け結果として「公園」が、画像単体のカテゴリとして「おでかけ」が、それぞれ関連付けられている。当該画像単体のタグ付け結果「公園」は、上述したコンテクスト候補である「park」及び「Ｂ公園（公園）」に基づいて導出されるユーザコンテクスト「公園」に応じたものである。また、当該画像単体のカテゴリである「おでかけ」は、上述したユーザコンテクスト「公園」に応じたものである。

図７（ａ）〜図７（ｃ）は画像の一例を示す図であり、図７（ｄ）は図７（ａ）〜図７（ｃ）に示す画像（画像ＩＤ：Ｐ０００１〜Ｐ０００３）に関する推定結果テーブル１８２を示す表であり、図７（ｅ）は図７（ａ）〜図７（ｃ）に示す画像（画像ＩＤ：Ｐ０００１〜Ｐ０００３）に関するタグ付け結果テーブル１９２を示す表である。画像ＩＤ：Ｐ０００１〜Ｐ０００３の各画像は、同一の画像グループ（グループＩＤ：Ｇ０００１）に含まれている。なお、図７（ｄ）及び図７（ｅ）においては、画像単体の各コンテクスト候補のみ記載しているが、実際には、これらのテーブルでは、画像グループ単位の各コンテクスト候補についても記憶されている。

図７（ｄ）の推定結果テーブル１８２に示されるように、画像ＩＤが「Ｐ０００１」「Ｐ０００３」の画像について、画像候補として「park」が、ＰＯＩ候補として「Ｂ公園（公園）」が、それぞれ関連付けられている。また、画像ＩＤが「Ｐ０００２」の画像について、画像候補として「meal」が、ＰＯＩ候補として「Ｂ公園（公園）」がそれぞれ関連付けられている。

そして、当該推定結果テーブル１８２においては、当該画像グループにおける最多の画像候補である「park」が、画像グループのグループコンテクストを導出するための画像候補とされる。また、当該推定結果テーブル１８２においては、当該画像グループにおける最多のＰＯＩ候補である「Ｂ公園（公園）」が、画像グループのグループコンテクストを導出するためのＰＯＩ候補とされる。当該画像グループのグループコンテクストを導出するための画像候補及びＰＯＩ候補は、図７（ｄ）中には記載されていないが、実際には推定結果テーブル１８２において記憶されている。

当該推定結果テーブル１８２に応じて、図７（ｅ）のタグ付け結果テーブル１９２が導出されている。図７（ｅ）のタグ付け結果テーブル１９２に示されるように、画像ＩＤが「Ｐ０００１」「Ｐ０００３」の画像については、画像単体のタグ付け結果として「公園」が、画像単体のカテゴリとして「おでかけ」が、それぞれ関連付けられている。当該画像単体のタグ付け結果「公園」は、上述したコンテクスト候補である「park」及び「Ｂ公園（公園）」に基づいて導出されるユーザコンテクスト「公園」に応じたものである。当該画像単体のカテゴリである「おでかけ」は、上述したユーザコンテクスト「公園」に応じたものである。また、画像ＩＤが「Ｐ０００２」の画像については、画像単体のタグ付け結果として「ランチ」が、画像単体のカテゴリとして「食事」が、それぞれ関連付けられている。当該画像単体のタグ付け結果「ランチ」は、上述したコンテクスト候補である「meal」及び「Ｂ公園（公園）」に基づいて導出されるユーザコンテクスト「公園」に応じたものである。当該画像単体のカテゴリ「食事」は、上述したユーザコンテクスト「ランチ」に応じたものである。

更に、図７（ｅ）のタグ付け結果テーブル１９２に示されるように、各画像を含む画像グループ単位でもタグ及びカテゴリの関連付けが行われており、画像グループのタグ付け結果として「公園」が、画像グループのカテゴリとして「おでかけ」が導出されている。当該画像グループのタグ付け結果「公園」は、上述した画像グループ単位のコンテクスト候補である「park」及び「Ｂ公園（公園」に基づいて導出されるグループコンテクスト「公園」に応じたものである。当該画像グループのカテゴリである「おでかけ」は、上述したグループコンテクスト「公園」に応じたものである。

なお、画像ＩＤが「Ｐ０００１」「Ｐ０００３」の画像については、画像単体のタグ付け結果「公園」と、画像グループ単位のタグ付け結果「公園」とが重複しており、また、画像単体のカテゴリ「おでかけ」と、画像グループ単位のカテゴリ「おでかけ」とが重複している。このように、画像単体の推定結果と画像グループ単位の推定結果とが重複している場合には、図７（ａ）及び図７（ｃ）に示されるように、重複した結果の一方が非表示とされる（図７（ａ）及び図７（ｃ）における破線部分が非表示箇所）。

次に、図１３を参照して、タグ付け装置１０によるタグ付け処理を説明する。図１３は、タグ付け装置１０の処理を示すフローチャートである。

タグ付け装置１０のタグ付け処理では、最初に、通信部１１によりコンテクスト推定に用いる推定用情報が取得される（ステップＳ１）。具体的には、通信部１１は、ＰＯＩ変換装置４０から画像のＰＯＩ情報（画像管理情報）を、文字認識装置５０から文字認識結果（画像管理情報）を、画像認識装置６０から画像認識結果（画像管理情報）を、イベント推定装置７０からイベント情報（画像管理情報）を、推定用情報として、それぞれ取得する。通信部１１は、当該推定用情報を推定用情報格納部１８に格納する。

つづいて、ＰＯＩ推定部１３ｃによりＰＯＩ推定が行われ（ステップＳ２）、画像認識推定部１３ｂにより画像認識推定が行われ（ステップＳ３）、文字認識推定部１３ａにより文字認識推定が行われる（ステップＳ４）。また、図１３中には記載していないが、イベント推定部１３ｄによりイベント推定が行われてもよい。そして、画像単位のコンテクスト候補を含む推定結果は、候補推定部１３により組み合わせ部１４に出力される（ステップＳ５）。

ここで、上述した候補推定部１３の各構成である文字認識推定部１３ａ、画像認識推定部１３ｂ、ＰＯＩ推定部１３ｃ、及びイベント推定部１３ｄの詳細な処理について、図１４〜図１７を参照して説明する。図１４は、文字認識推定部１３ａの処理の詳細を示すフローチャートである。図１５は、画像認識推定部１３ｂの処理の詳細を示すフローチャートである。図１６は、ＰＯＩ推定部１３ｃの処理の詳細を示すフローチャートである。図１７は、イベント推定部１３ｄの処理の詳細を示すフローチャートである。

図１４に示されるように、文字認識推定部１３ａでは、推定用情報格納部１８に格納されている文字認識結果が取得される（ステップＳ７０）。そして、文字認識推定部１３ａにより、予め定められたカテゴリが検索され、文字認識結果において判別されたキーワードに関連付けられたカテゴリが、予め定められたカテゴリであるか否かが判断される（ステップＳ７１）。当該予め定められたカテゴリである場合には、文字認識結果において判別されたキーワード及びカテゴリが、文字候補とされる。そして、文字認識推定部１３ａにより、予め定められたキーワードが検索され、文字認識結果において判別されたキーワードが、予め定められたキーワードであるか否かが判断される（ステップＳ７２）。当該予め定められたキーワードである場合には、文字認識結果において判別されたキーワードが、文字候補として取得される。

図１５に示されるように、画像認識推定部１３ｂでは、推定用情報格納部１８に格納されている画像認識結果のラベルとスコアが取得される（ステップＳ６０）。そして、画像認識推定部１３ｂにより、画像認識結果のラベルがスコアの昇順で並び替えられ（ステップＳ６１）、最もスコアの高いラベルが画像のラベルに決定される（ステップＳ６２）。最後に、画像認識推定部１３ｂによりスコアの上位５件の画像認識結果が、画像候補として取得される（ステップＳ６３）。

図１６に示されるように、ＰＯＩ推定部１３ｃでは、推定用情報格納部１８に格納されているＰＯＩ情報が取得される（ステップＳ５０）。そして、ＰＯＩ推定部１３ｃにより、ＰＯＩのチェックイン数を、ＰＯＩまでの距離で割ったＰＯＩスコアが算出される（ステップＳ５１）。ＰＯＩ推定部１３ｃは、最もスコアの高いＰＯＩを当該画像のＰＯＩ候補と推定する（ステップＳ５２）。より詳細には、ＰＯＩ推定部１３ｃは、ＰＯＩスコアが最も高いＰＯＩ情報のＰＯＩ名称とＰＯＩカテゴリとを、ＰＯＩ候補として取得する（ステップＳ５３）。

図１７に示されるように、イベント推定部１３ｄでは、推定用情報格納部１８に格納されているＰＯＩ情報が取得される（ステップＳ８０）。そして、イベント推定部１３ｄにより、画像メタデータ格納部１６から画像を記録した日時情報が取得されると共に、推定用情報格納部１８に格納されているイベント情報に、ＰＯＩ及び日時情報が一致するイベント情報があるか否かが判定される（ステップＳ８１）。Ｓ８１において一致するイベント情報がない場合には処理が終了する。一方で、Ｓ８１において一致するイベント情報がある場合には、イベント推定部１３ｄにより、画像に紐づくイベント情報が特定され（ステップＳ８２）、該イベント情報のイベント名及びイベントカテゴリが、該画像のイベント候補として取得される（ステップＳ８３）。以上が、候補推定部１３の各構成の処理である。

図１３に戻り、Ｓ５の処理が完了すると、組み合わせ部１４によって、候補推定部１３によりコンテクスト候補とされた画像管理情報が組み合わせられ、画像単位のユーザコンテクストが推定（導出）される（ステップＳ６）。そして、組み合わせ部１４により、ユーザコンテクストに応じたタグ付けが行われる（ステップＳ７）。具体的には、組み合わせ部１４は、導出したユーザコンテクストに応じたタグを画像に関連付けたタグ付け結果テーブルを含んだカテゴリ付与要求を、カテゴリ付与部１５に出力する。そして、カテゴリ付与部１５において、一又は複数のユーザコンテクストを上位概念で規定したカテゴリが画像に関連付けられる。ここまでの処理は、画像単位のタグ付け処理である。以下では、画像グループ単位のタグ付け処理について説明する。

タグ付け装置１０の画像グループ単位のタグ付け処理では、まず、グループ作成部１２により画像グループが作成される（ステップＳ８）。具体的には、グループ作成部１２は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成する。

つづいて、候補推定部１３の各構成により、画像グループ単位でのコンテクスト候補が推定される。すなわち、ＰＯＩ推定部１３ｃにより、同一の画像グループ内における最多のＰＯＩ候補が、画像グループのグループコンテクストを導出するためのＰＯＩ候補として特定される（ステップＳ９）。また、イベント推定部１３ｄにより、ＰＯＩ及び日時情報が一致するイベント情報が、画像グループのグループコンテクストを導出するためのイベント候補として特定される（ステップＳ１０）。また、画像認識推定部１３ｂにより、同一の画像グループ内におけるスコアの総和が最も高いラベルが、画像グループのグループコンテクストを導出するための画像候補として特定される（ステップＳ１１）。更に、文字認識推定部１３ａにより、同一の画像グループに含まれる文字候補が全てリストアップされ、画像グループのグループコンテクストを導出するための文字候補として特定される（ステップＳ１２）。

そして、組み合わせ部１４によって、候補推定部１３によりグループコンテクストを導出するためのコンテクスト候補とされた画像管理情報が組み合わせられ、グループコンテクストが推定（導出）される（ステップＳ１３）。その後、組み合わせ部１４により、グループコンテクストに応じたタグ付けが行われ（ステップＳ１４）、カテゴリ付与部１５において、一又は複数のグループコンテクストを上位概念で規定したカテゴリが画像グループに関連付けられる（ステップＳ１５）。

次に、実施形態に係るタグ付け装置１０の作用効果について説明する。

本実施形態に係るタグ付け装置１０は、画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する通信部１１と、通信部１１により取得された複数の画像管理情報を組み合わせることにより、画像に係るユーザの行動を示すユーザコンテクストを導出する組み合わせ部１４と、を備える。

このタグ付け装置１０では、複数の画像管理情報、すなわちいつ、どこで、何をしていたかを示す情報が組み合わされて、画像に係るユーザの行動を示すユーザコンテクストが導出される。このようなユーザコンテクストを画像検索に用いることにより、例えば、日時や場所などの情報を単体で画像に関連付けて画像検索を行う場合と比較して、より画像と整合した（画像におけるユーザの行動に則した）情報に基づいて画像検索を行うことができる。このことにより、画像検索の精度を向上させることができる。

タグ付け装置１０は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成するグループ作成部１２を更に備え、組み合わせ部１４は、画像グループ毎に、画像グループに含まれる画像の画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出する。

位置及び日時を考慮したグループ単位でグループコンテクストを導出することにより、共通のイベント（出来事）に係る画像を同一の検索結果とし易くなる。すなわち、例えばイベントの最中に昼食をとった場合などにおいて、共通のイベントであるにもかかわらず位置等が少し異なることを理由として別の検索結果となる（ばらばらに出力される）ことを抑制することができる。また、例えば画像単体のユーザコンテクストについて誤認識や推定誤り等があった場合であっても、複数の画像のユーザコンテクストを考慮することによって、一部の誤りを無視できるため、画像検索の精度をより向上させることができる。

タグ付け装置１０は、通信部１１により取得された複数の画像管理情報のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する候補推定部１３を更に備え、組み合わせ部１４は、複数の画像管理情報のうち、候補推定部１３によりコンテクスト候補とされた画像管理情報を組み合わせることにより、ユーザコンテクスト及びグループコンテクストを導出する。

組み合わせる対象の画像管理情報を無作為に選択するのではなく、画像管理情報としての精度が高い情報を用いることにより、画像検索の精度をより向上させることができる。

複数の画像管理情報には、画像に関する画像認識結果が複数含まれており、候補推定部１３は、画像に関する画像認識結果に基づくコンテクスト候補である画像候補を推定する画像認識推定部１３ｂを有し、画像認識推定部１３ｂは、画像に関する画像認識結果において、類似度合いを示すスコアが所定の閾値以上であるオブジェクトを示す情報を、ユーザコンテクストを導出するための画像候補として推定し、同一画像グループ内における最多の画像候補を、該画像グループのグループコンテクストを導出するための画像候補として推定する。

複数の画像管理情報には、画像に関するＰＯＩ情報が複数含まれており、候補推定部１３は、画像に関するＰＯＩ情報に基づくコンテクスト候補であるＰＯＩ候補を推定するＰＯＩ推定部１３ｃを有し、ＰＯＩ推定部１３ｃは、複数のＰＯＩ情報それぞれについて、ＰＯＩのチェックイン数を、該ＰＯＩから画像を記録した位置までの距離で割ったＰＯＩスコアを算出し、該ＰＯＩスコアが最も高いＰＯＩ情報を、ユーザコンテクストを導出するためのＰＯＩ候補として推定し、同一の画像グループ内における最多のＰＯＩ候補を、該画像グループのグループコンテクストを導出するためのＰＯＩ候補として推定する。

複数の画像管理情報には、位置を示す情報及び日時を示す情報によって特定されるイベント情報が含まれており、候補推定部１３は、イベント情報に基づくコンテクスト候補であるイベント候補を推定するイベント推定部１３ｄを有し、イベント推定部１３ｄは、位置を示す情報が画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が画像を記録した日時情報と一致するイベント情報を、ユーザコンテクストを導出するためのイベント候補として推定し、画像グループに含まれる画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が、該画像グループに含まれる画像のうち日時情報が最も古い画像を記録した日時情報から、日時情報が最も新しい画像を記録した日時情報の間に含まれているイベント情報を、該画像グループのグループコンテクストを導出するためのイベント候補として推定する。

これにより、位置及び日時を考慮して、ユーザが訪れていたと考えられるイベント候補を適切に推定することができる。すなわち、画像検索の精度をより向上させることができる。

複数の画像管理情報には、画像に関する文字認識結果が含まれており、候補推定部１３は、画像に関する文字認識結果に基づくコンテクスト候補である文字候補を推定する文字認識推定部１３ａを有し、文字認識推定部１３ａは、文字認識結果における文字のうち予め定められた文字を、ユーザコンテクストを導出するための文字候補として推定し、同一の画像グループ内における最多の文字候補を、該画像グループのグループコンテクストを導出するための文字候補として推定する。

組み合わせ部は、ユーザコンテクストに応じたタグを画像に関連付け、グループコンテクストに応じたタグを画像グループに関連付ける。これにより、従来、画像に関連付けた認識結果として１つの認識結果のみを用いていた場合と比較して、曖昧性を低減すると共に抽象度を下げてタグ付けすることができ、画像検索の精度を向上させることができる。

タグ付け装置１０は、一又は複数のユーザコンテクストを上位概念で規定したカテゴリを画像に関連付け、一又は複数のグループコンテクストを上位概念で規定したカテゴリを画像グループに関連付ける、カテゴリ付与部１５を更に備える。カテゴリを画像及び画像グループに関連付けることにより、ユーザコンテクスト及びグループコンテクストよりも上位概念で画像を検索すること等が可能になる。

以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されない。例えば、複数の画像グループについては、更に纏められた新たな画像グループ（アルバム）を構成するものであってもよい。すなわち、グループ作成部１２は、作成した画像グループのうち、含まれる画像の日時情報が所定の範囲内である複数の画像グループを、共通の新たな画像グループとし、組み合わせ部１４は、新たな画像グループに含まれる複数の画像グループのうち、画像数が最も多い画像グループのグループコンテクストを、新たな画像グループのグループコンテクストとしてもよい。

図１８は、変形例に係るタグ付け装置のアルバム作成の説明図である。図１８（ａ）のテーブル２００に示されるように、異なるグループＩＤ「Ｇ０００１」「Ｇ０００２」で示される複数の画像グループが、共通の新たな画像グループ（アルバムＩＤ「Ａ０００１」）に纏められている。そして、グループＩＤ「Ｇ０００１」の画像グループのグループコンテクストが「Ｂ公園」、グループＩＤ「Ｇ０００２」の画像グループのグループコンテクストが「Ｂ水族館」であるとすると、いま、図１８（ｂ）に示されるように、グループＩＤ「Ｇ０００１」の画像グループのほうが、画像数が１枚多いので、アルバムのタイトル（アルバムのグループコンテクスト）は、Ｂ公園とされる。

１０…タグ付け装置、１１…通信部（取得部）、１２…グループ作成部、１３…候補推定部、１３…候補推定部、１３ａ…文字認識推定部、１３ｂ…画像認識推定部、１３ｃ…ＰＯＩ推定部、１３ｄ…イベント推定部、１４…組み合わせ部、１５…カテゴリ付与部。

Claims

画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する取得部と、
前記取得部により取得された、画像に関するＰＯＩ情報が複数含まれた複数の画像管理情報を組み合わせることにより、当該画像に係るユーザの行動を示すユーザコンテクストを導出する組み合わせ部と、
画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成するグループ作成部と、
前記取得部により取得された複数の画像管理情報のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する候補推定部と、を備え、
前記組み合わせ部は、
前記画像グループ毎に、画像グループに含まれる画像の前記画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出し、
前記複数の画像管理情報のうち、前記候補推定部により前記コンテクスト候補とされた画像管理情報を組み合わせることにより、前記ユーザコンテクスト及び前記グループコンテクストを導出し、
前記候補推定部は、前記画像に関するＰＯＩ情報に基づく前記コンテクスト候補であるＰＯＩ候補を推定するＰＯＩ推定部を有し、
前記ＰＯＩ推定部は、
複数の前記ＰＯＩ情報それぞれについて、ＰＯＩのチェックイン数を、該ＰＯＩから前記画像を記録した位置までの距離で割ったＰＯＩスコアを算出し、該ＰＯＩスコアが最も高いＰＯＩ情報を、前記ユーザコンテクストを導出するための前記ＰＯＩ候補として推定し、
同一の画像グループ内における最多の前記ＰＯＩ候補を、該画像グループの前記グループコンテクストを導出するための前記ＰＯＩ候補として推定する、情報処理装置。
前記複数の画像管理情報には、画像に関する画像認識結果が複数含まれており、
前記候補推定部は、前記画像に関する画像認識結果に基づく前記コンテクスト候補である画像候補を推定する画像認識推定部を有し、
前記画像認識推定部は、
前記画像に関する画像認識結果において、類似度合いを示すスコアが所定の閾値以上であるオブジェクトを示す情報を、前記ユーザコンテクストを導出するための前記画像候補として推定し、
同一画像グループ内における最多の前記画像候補を、該画像グループの前記グループコンテクストを導出するための前記画像候補として推定する、請求項１記載の情報処理装置。
前記複数の画像管理情報には、位置を示す情報及び日時を示す情報によって特定されるイベント情報が含まれており、
前記候補推定部は、前記イベント情報に基づく前記コンテクスト候補であるイベント候補を推定するイベント推定部を有し、
前記イベント推定部は、
前記位置を示す情報が前記画像を記録した地点の位置情報と一致し、且つ、前記日時を示す情報が前記画像を記録した日時情報と一致する前記イベント情報を、前記ユーザコンテクストを導出するための前記イベント候補として推定し、
前記画像グループに含まれる画像を記録した地点の位置情報と一致し、且つ、前記日時を示す情報が、該画像グループに含まれる画像のうち前記日時情報が最も古い画像を記録した前記日時情報から、前記日時情報が最も新しい画像を記録した前記日時情報の間に含まれている前記イベント情報を、該画像グループの前記グループコンテクストを導出するための前記イベント候補として推定する、請求項１又は２記載の情報処理装置。
前記複数の画像管理情報には、画像に関する文字認識結果が含まれており、
前記候補推定部は、前記画像に関する文字認識結果に基づく前記コンテクスト候補である文字候補を推定する文字認識推定部を有し、
前記文字認識推定部は、
前記文字認識結果における文字のうち予め定められた文字を、前記ユーザコンテクストを導出するための前記文字候補として推定し、
同一の画像グループ内における最多の前記文字候補を、該画像グループの前記グループコンテクストを導出するための前記文字候補として推定する、請求項１〜３のいずれか一項記載の情報処理装置。
前記組み合わせ部は、
前記ユーザコンテクストに応じたタグを前記画像に関連付け、
前記グループコンテクストに応じたタグを前記画像グループに関連付ける、請求項１〜４のいずれか一項記載の情報処理装置。
一又は複数の前記ユーザコンテクストを上位概念で規定したカテゴリを前記画像に関連付け、
一又は複数の前記グループコンテクストを上位概念で規定したカテゴリを前記画像グループに関連付ける、カテゴリ付与部を更に備える、請求項１〜５のいずれか一項記載の情報処理装置。
前記グループ作成部は、作成した前記画像グループのうち、含まれる画像の前記日時情報が所定の範囲内である複数の前記画像グループを、共通の新たな画像グループとし、
前記組み合わせ部は、前記新たな画像グループに含まれる複数の画像グループのうち、画像数が最も多い画像グループの前記グループコンテクストを、前記新たな画像グループの前記グループコンテクストとする、請求項１〜６のいずれか一項記載の情報処理装置。