以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。
図1は、本実施形態に係るタグ付けシステムの機能構成を示す図である。図1に示されるように、タグ付けシステム1は、画像を管理するためのシステムであり、タグ付け装置10(情報処理装置)と、データ表示端末30と、POI変換装置40と、文字認識装置50と、画像認識装置60と、イベント推定装置70と、を備えている。
タグ付け装置10は、画像管理に係るサーバであり、データ表示端末30、POI変換装置40、文字認識装置50、画像認識装置60、及びイベント推定装置70と相互に通信可能に構成されている。より詳細には、タグ付け装置10は、データ表示端末30が管理する画像に検索用のタグを付けることにより、画像検索の容易化を実現するものである。タグ付け装置10の詳細については後述する。
データ表示端末30は、画像及び、画像のタグ付け結果を記憶すると共に、当該画像を表示する端末である。画像とは、視認可能な図形又は写真である。以下では、画像はデータ表示端末30によって撮像された写真データである、として説明する。データ表示端末30は、撮像した画像と、該画像を撮像した地点の位置情報とを、タグ付け装置10に送信する。データ表示端末30は、タグ付け装置10によって導出された当該画像に関するタグ付け結果を、タグ付け装置10から受信し、記憶する。また、データ表示端末30は、当該データ表示端末30のユーザによる検索操作に応じて、該ユーザが所望する画像を検索し、表示する。当該検索には、上述したタグ付け結果が用いられる。
データ表示端末30は、例えばユーザに所持(携帯)されて用いられる、スマートフォン等の携帯電話機、タブレット端末、又はラップトップパソコン等である。或いは、データ表示端末30は、ユーザの自宅や職場に備え付けられたデスクトップパソコン等である。
POI変換装置40は、緯度経度により示される位置情報を入力として、POI情報を出力するサーバである。POI情報には、入力された位置情報で示される位置周辺のPOI(point of interest)、POIのカテゴリ、及び各POIへのチェックイン数が含まれている。POIとは、あるユーザが興味を持った特定の場所を示す情報であり、例えば、緯度経度及び名称(場所の名称)を含んだ情報である。チェックイン数とは、当該POIを訪れたユーザの数である。POI変換装置40は、例えばユーザによってPOIが追加及び編集されることにより、出力対象であるPOI情報を更新している。POI変換装置40は、タグ付け装置10からのPOI変換要求に応じて、POI情報をタグ付け装置10に出力する。POI変換装置40は、タグ付け装置10を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されているPOI変換に係るサーバであってもよい。
文字認識装置50は、画像中に含まれた文字を判別するサーバである。文字認識装置50は、例えば、文字のテンプレートを記憶しており、該テンプレートの文字との一致を判断することにより、画像中に含まれた文字を判別する。文字認識装置50は、タグ付け装置10から、文字認識対象の画像を含んだ文字認識要求を受け、該画像中に含まれた文字を判別し、判別結果(文字認識結果)をタグ付け装置10に出力する。文字認識装置50は、判別した文字であるキーワードに基づき、該キーワードに関連付けられたカテゴリを導出する。すなわち、文字認識結果には、判別した文字を示すキーワードと、該キーワードに関連付けられたカテゴリとが含まれている。文字認識装置50は、タグ付け装置10を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されている文字認識に係るサーバであってもよい。
画像認識装置60は、画像中に含まれたオブジェクト又はシーンを判別するサーバである。画像認識装置60は、例えば、オブジェクトのテンプレートを記憶しており、該テンプレートのオブジェクトとの一致を判断することにより、画像中に含まれたオブジェクトを判別する。画像認識装置60は、タグ付け装置10から、画像認識対象の画像を含んだ画像認識要求を受け、該画像中に含まれたオブジェクトを判別し、判別結果(画像認識結果)をタグ付け装置10に出力する。当該画像認識結果には、判別したオブジェクトを示すラベルと、テンプレートとの一致度合い(類似度合い)を示すスコアとが含まれている。画像認識装置60は、タグ付け装置10を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されている画像認識に係るサーバであってもよい。
イベント推定装置70は、画像を記録(撮像)した地点のPOI及び画像を記録した日時情報を入力として、イベント情報を出力するサーバである。イベント情報には、イベント名及びイベントカテゴリが含まれている。イベント推定装置70は、当該イベント情報と、イベントが開催されたPOI及び日時を関連付けて記憶している。そして、イベント推定装置70は、タグ付け装置10から、画像を記録(撮像)した地点のPOI及び画像を記録した日時情報を含んだイベント推定要求を受け、画像に係るイベント情報を特定し、特定したイベント情報をタグ付け装置10に出力する。イベント推定装置70は、タグ付け装置10を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されているイベント推定に係るサーバであってもよい。
次に、タグ付け装置10の詳細について説明する。図2は、図1に示したタグ付けシステム1に含まれるタグ付け装置10のハードウェア構成を示す図である。タグ付け装置10は、物理的には、図2に示すように、1又は複数のCPU101、主記憶装置であるRAM102及びROM103、入力デバイスであるキーボード及びマウス等の入力装置104、ディスプレイ等の出力装置105、ネットワークカード等のデータ送受信デバイスである通信モジュール106、半導体メモリ等の補助記憶装置107等を含むコンピュータとして構成されている。
タグ付け装置10の各機能は、図2に示すCPU101、RAM102等のハードウェア上に1又は複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、通信モジュール106を動作させるとともに、RAM102や補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。
図1に戻り、タグ付け装置10は、機能構成として、通信部11(取得部)と、グループ作成部12と、候補推定部13と、組み合わせ部14と、カテゴリ付与部15と、画像メタデータ格納部16と、位置情報格納部17と、推定用情報格納部18と、を備えている。
通信部11は、データ表示端末30、POI変換装置40、文字認識装置50、画像認識装置60、及びイベント推定装置70と通信を行う機能である。通信部11は、データ表示端末30から、撮像した画像と該画像を撮像した地点の位置情報とを受信する。通信部11は、受信した画像のメタデータを画像メタデータ格納部16に格納し、受信した位置情報を位置情報格納部17に格納する。画像のメタデータには、画像を記録した日時情報(すなわち、画像の作成日時)及び画像のファイル形式等が含まれている。位置情報格納部17では、位置情報と画像とが関連付けられて記憶されている。該位置情報は、緯度経度を示すものであってもよいし、POI変換装置40から受信したPOIを示すものであってもよい。
通信部11は、POI変換装置40に対して、画像を撮像した地点の位置情報を含んだPOI変換要求を送信し、該要求に応じたPOI変換装置40からPOI情報(画像管理情報)を取得する。通信部11は、文字認識装置50に対して、画像を含んだ文字認識要求を送信し、該要求に応じた文字認識装置50から文字認識結果(画像管理情報)を取得する。通信部11は、画像認識装置60に対して、画像を含んだ画像認識要求を送信し、該要求に応じた画像認識装置60から画像認識結果(画像管理情報)を取得する。通信部11は、イベント推定装置70に対して、画像を記録(撮像)した地点のPOI及び画像を記録した日時情報を含んだイベント推定要求を送信し、該要求に応じたイベント推定装置70からイベント情報(画像管理情報)を取得する。このようにして、通信部11は、画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する。通信部11は、各画像管理情報を、コンテクスト推定に用いる推定用情報として推定用情報格納部18に格納すると共に、候補推定部13に推定要求を出力する。
グループ作成部12は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成する機能である。グループ作成部12は、最初にグルーピングの基準となる画像(基準画像)を決定する。グループ作成部12は、位置情報格納部17を参照することにより、基準画像との位置情報の差異が所定の範囲内である画像を抽出する。更に、グループ作成部12は、画像メタデータ格納部16を参照することにより、基準画像との日時情報の差異が所定の範囲内である画像を抽出する。そして、グループ作成部12は、基準画像との位置情報及び日時情報の差異がいずれも所定の範囲内である複数の画像をグルーピングして、画像グループを作成する。グループ作成部12は、グルーピングの結果を含んだ推定要求を、候補推定部13に出力する。なお、グループ作成部12は、画像に紐づく位置情報がない場合には、当該画像をグルーピングの対象から外すこととしてもよい。また、グループ作成部12は、画像が撮像された日時を含む予定が存在する旨の情報を取得している場合、同一の予定に係る画像をグルーピングしてもよい。
図3は、グループ作成部12によるグルーピング処理の説明図である。図3の例では、A遊園地の写真である画像b1,s1,s2,b4と、B公園の写真である画像b2,s3がグルーピング対象の画像とされている。そして、図3中の時間軸tで示されるように、撮像されたタイミングは、画像b1,s1,s2,b2,s3,b4の順であり、全ての画像は日時情報の差異が所定の範囲内であるとする。この場合、例えば、基準画像との位置情報の差異が500m以内である場合に位置情報の差異が所定の範囲内であるとすると、基準画像である画像b1と、該画像b1から400m離れた場所で記録された画像s1,s2とが、同一の画像グループ(グループ1)とされる。一方で、画像b1から1000m離れたB公園の写真である画像b2は、グループ1ではないと判断される。そして、当該画像b2が新たな基準画像とされ、該画像b2と、該画像b2から200m離れた場所で記録された画像s3とが、同一の画像グループ(グループ2
とされる。そして、画像b2から1000m離れた場所で記録された画像b4は、グループ2ではないと判断され、新たなグループ3の基準画像とされる。
候補推定部13は、通信部11により取得されて推定用情報格納部18に格納された複数の画像管理情報(推定用情報)のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する機能である。正確性に関する所定の条件を満たす画像管理情報とは、ユーザの行動を適切に示すことができる画像管理情報をいう。候補推定部13は、通信部11によって推定用情報格納部18に格納されている推定用情報である各画像管理情報からコンテクスト候補を推定する。候補推定部13は、推定したコンテクスト候補が関連付けられた推定結果テーブル(後述)を含んだコンテクスト導出要求を、組み合わせ部14に出力する。候補推定部13は、文字認識推定部13aと、画像認識推定部13bと、POI推定部13cと、イベント推定部13dと、を有している。
文字認識推定部13aは、推定用情報格納部18に格納されている文字認識結果を取得し、該文字認識結果に基づくコンテクスト候補である文字候補を推定する。具体的には、文字認識推定部13aは、文字認識結果に含まれているキーワードが予め定められたキーワード(対象キーワード)である場合に、該キーワードを、ユーザコンテクストを導出するための文字候補とする。対象キーワードは、ユーザの行動を適切に示すことができると考えられるキーワードとされる。例えば、図8(a)の画像で文字認識される「卒業式」のようなキーワードは、ユーザが参加するイベントを示しておりユーザの行動を適切に示すことができるため、対象キーワードとされる。一方で、図8(b)の画像で文字認識される「さつまかわしり」のような駅名を示すキーワード等は、ユーザの行動を適切に示しにくいため、対象キーワードとされない。文字認識推定部13aは、同様にして、文字認識結果に含まれているカテゴリが予め定められたカテゴリ(対象カテゴリ)である場合に該文字認識結果のカテゴリ及びキーワードを文字候補とする。
また、文字認識推定部13aは、グループ作成部12によって作成された画像グループ単位でも、文字認識結果から文字候補を推定する。具体的には、文字認識推定部13aは、同一の画像グループに含まれる画像単体の文字候補として最も数が多い文字を、該画像グループのグループコンテクスト(後述)を導出するための文字候補とする。或いは、同一の画像グループに含まれる画像単体の文字候補を全てリストアップし、全てを該画像グループのグループコンテクスト(後述)を導出するための文字候補としてもよい。
画像認識推定部13bは、推定用情報格納部18に格納されている画像認識結果を取得し、該画像認識結果に基づくコンテクスト候補である画像候補を推定する。具体的には、画像認識推定部13bは、同一の画像において画像認識された複数のオブジェクトのラベル及びスコアを取得し、スコアを昇順で並び替え、最もスコアの高いラベルを当該画像のラベルに決定すると共に、上位5つのスコアのラベルを、ユーザコンテクストを導出するための画像候補とする。或いは、画像認識推定部13bは、所定の閾値よりもスコアが高いラベルを画像候補としてもよい。例えば、スコアの閾値が0.9とされている場合に、図9(a)のコアラの写真で画像認識されたオブジェクト(ラベル:animal)のスコアが0.92であるとすると、当該オブジェクトのラベルは画像候補とされる。一方で、図9(b)のライオンとワニの置物の写真で画像認識されたオブジェクト(ラベル:animal)のスコアが0.44であるとすると、当該オブジェクトのラベルは画像候補とされない。画像候補が存在しない画像は、others画像であると判定される。判定された結果、画像単体において、画像候補が1つまたは複数になる場合と、画像候補が存在しない場合とがある。
また、画像認識推定部13bは、グループ作成部12によって作成された画像グループ単位でも、画像認識結果からコンテクスト候補を推定する。具体的には、画像認識推定部13bは、同一の画像グループ内における最多の画像候補を、該画像グループのグループコンテクスト(後述)を導出するための画像候補とする。或いは、画像認識推定部13bは、同一の画像グループ内におけるスコアの総和が最も高いラベルを、該画像グループのグループコンテクスト(後述)を導出するための画像候補とする。また、画像認識推定部13bは、同一の画像グループ内における最多の画像候補を、該画像グループのグループコンテクスト(後述)を導出するための画像候補とすると共に、同数の画像候補があった場合には、スコアの総和が高い方を画像候補としてもよい。画像認識推定部13bは、上述したothers画像が閾値以上含まれている画像グループについては、グループコンテクスト(後述)を導出するための画像候補が存在しないと判定してもよい。例えば、スコアの閾値が0.9とされている場合に、図11(a)〜図11(d)の4つの画像からなる画像グループがあった場合、スコアが0.92の図11(a)の画像のみ閾値を超え、図11(b)〜図11(d)の画像のスコアは閾値を越えなかったとする。そして、others画像が含まれている割合の閾値が0.6(60%)であったとすると、いま、others画像が含まれている割合が0.75(75%)となるので、当該グループについては、グループコンテクスト(後述)を導出するための画像候補が存在しないと判定される。このように、画像グループ単位において、画像候補が1つまたは複数になる場合と、画像候補が存在しない場合とがある。
POI推定部13cは、推定用情報格納部18に格納されているPOI情報を取得し、該POI情報に基づくコンテクスト候補であるPOI候補を推定する。具体的には、POI推定部13cは、同一の画像についての複数のPOI情報それぞれについて、POIのチェックイン数を、POIから画像を記録した位置までの距離で割ったPOIスコアを算出し、該POIスコアが最も高いPOI情報を、ユーザコンテクストを導出するためのPOI候補とする。より詳細には、POI推定部13cは、POIスコアが最も高いPOI情報のPOI名称とPOIカテゴリとを、POI候補とする。なお、POI推定部13cは、POIスコアが同一のPOI情報が複数ある場合には、上記距離が短いPOI情報を当該画像のPOI候補としてもよい。或いは、POI推定部13cは、POIカテゴリが予め定められたキーワード(対象POIキーワード)である場合に該POIカテゴリをPOI候補としてもよい。例えば、対象POIキーワードに「野球場」が含まれており「飲食店」が含まれていない場合には、図10(a)の画像のPOIカテゴリ「野球場」はPOI候補とされ、図10(b)の画像のPOIカテゴリ「飲食店」はPOI候補とされない。
また、POI推定部13cは、グループ作成部12によって作成された画像グループ単位でも、POI情報からコンテクスト候補を推定する。具体的には、POI推定部13cは、同一の画像グループ内における最多のPOI候補を、画像グループのグループコンテクスト(後述)を導出するためのPOI候補として推定する。なお、POI推定部13cは、最多のPOI候補が複数ある場合には、POIスコアの総計が高いPOI候補を、画像グループのグループコンテクスト(後述)を導出するためのPOI候補として推定してもよい。
イベント推定部13dは、推定用情報格納部18に格納されているイベント情報を取得し、該イベント情報に基づくコンテクスト候補であるイベント候補を推定する。具体的には、イベント推定部13dは、位置を示す情報が画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が画像を記録した日時情報と一致するイベント情報を、ユーザコンテクストを導出するためのイベント候補として推定する。イベント推定部13dは、まず推定用情報格納部18に格納されているPOI情報から、画像を記録した地点のPOIを取得すると共に、画像メタデータ格納部16に格納されている該画像を記録した日時情報を取得する。その後、イベント推定部13dは、推定用情報格納部18に格納されているイベント情報に、POI及び日時情報が一致するイベント情報があるか検索し、あれば、該イベント情報のイベント名及びイベントカテゴリを、該画像のイベント候補とする。
また、イベント推定部13dは、グループ作成部12によって作成された画像グループ単位でも、イベント情報からコンテクスト候補を推定する。具体的には、イベント推定部13dは、POI及び日時情報が一致するイベント情報があれば、該イベント名及びイベントカテゴリを、該画像グループのグループコンテクスト(後述)を導出するためのイベント候補とする。ここで、画像グループ単位で日時情報の一致を判断する際には、日時情報が、画像グループに含まれる画像のうち日時情報が最も古い画像を記録した日時情報から、日時情報が最も新しい画像を記録した日時情報の間の日時を示す情報であるイベント情報の有無を判断する。
上述したように、候補推定部13から組み合わせ部14に対しては、コンテクスト候補である文字候補、画像候補、POI候補、及びイベント候補が関連付けられた推定結果テーブルが出力される。図4は、推定結果テーブル180を示す表である。推定結果テーブル180では、画像IDと、画像候補と、POI候補と、位置情報と、日時情報と、文字候補と、市町村名と、イベント候補と、ファイル形式とが対応付けられている。
画像IDとは、該画像を一意に特定する識別子である。画像候補、POI候補、文字候補、及びイベント候補とは、それぞれ、上述した画像認識推定部13b、POI推定部13c、文字認識推定部13a、及びイベント推定部13dにより推定されたコンテクスト候補である。なお、例えば画像ID「P0001」で示される画像は、POI候補について「B公園(公園)」とされている。当該「B公園」はPOI名称であり、「(公園)」はPOIカテゴリである。位置情報とは、位置情報格納部17に格納された該画像の位置情報と同様の情報である。日時情報とは、画像メタデータ格納部16に格納された該画像の日時情報である。市町村名とは、位置情報に基づき導出される市町村の名称である。ファイル形式とは、画像メタデータ格納部16に格納された該画像のファイル形式である。なお、当該推定結果テーブル180は、画像単体のユーザコンテクスト導出に係る推定結果テーブルであるので、グループ単位のコンテクスト候補を含んでいない。
組み合わせ部14は、通信部11により取得された複数の画像管理情報を組み合わせることにより、当該画像に係るユーザの行動を示すユーザコンテクストを導出する機能である。より詳細には、組み合わせ部14は、複数の画像管理情報のうち、候補推定部13によりコンテクスト候補とされた画像管理情報を組み合わせることにより、ユーザコンテクストを導出する。そして、組み合わせ部14は、導出したユーザコンテクストに応じたタグを画像に関連付けたタグ付け結果テーブル(後述)を含んだカテゴリ付与要求を、カテゴリ付与部15に出力する。タグとは、画像に関する具体的な情報要素であり、画像の検索キーとなる情報である。導出したユーザコンテクストとタグとは、同一のキーワードであってもよいし、対応する異なるキーワードであってもよい。
組み合わせ部14は、推定結果テーブル(例えば図4参照)を参照することにより、画像に関連付けられたコンテクスト候補を特定する。例えば、図4における画像IDが「P0001」の画像については、コンテクスト候補として、画像候補である「park」、POI候補である「B公園(公園)」、文字候補である「運動会」が特定される。そして、これらのコンテクスト候補が組み合わせることにより、「公園」とのユーザコンテクストが導出される。このような、コンテクスト候補を組み合わせたユーザコンテクストの導出は、例えば、コンテクスト候補の組み合わせ(複数のコンテクスト候補)とユーザコンテクストとを関連付けたテーブルを用いることにより導出されてもよい。このようなテーブルを参照することにより、コンテクスト候補の組み合わせから、ユーザコンテクストを一意に定めることができる。また、導出されたユーザコンテクスト「公園」に応じて、タグ「公園」が付与される。タグは、例えばユーザコンテクストとタグとが関連付けられたテーブルに基づいて付与される。
また、組み合わせ部14は、グループ作成部12によりグルーピングされた画像グループ毎に、画像グループに含まれる画像の画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出する。より詳細には、組み合わせ部14は、画像グループ単位のコンテクスト候補(文字候補、画像候補、POI候補、及びイベント候補)とされた画像管理情報を組み合わせることにより、グループコンテクストを導出する。そして、組み合わせ部14は、導出したグループコンテクストに応じたタグを画像グループと関連付けたタグ付け管理テーブルを含んだカテゴリ付与要求を、カテゴリ付与部15に出力する。
カテゴリ付与部15は、一又は複数のユーザコンテクストを上位概念で規定したカテゴリを画像に関連付ける機能である。カテゴリ付与部15は、組み合わせ部14から入力されたタグ付け管理テーブルにおいて、画像にカテゴリを関連付ける。カテゴリ付与部15は、例えば1つのカテゴリと複数のユーザコンテクストとが対応づけらられたテーブルに基づいて、ユーザコンテクストからカテゴリを導出する。なお、カテゴリ付与部15は、複数のユーザコンテクストが関連付けられた画像に対しては複数のカテゴリを導出してもよい。
図12は、カテゴリ付与の一例を説明する図である。例えば、図12(a)〜(c)の画像はいずれも「B公園」「公園」とのユーザコンテクストが関連付けられている。カテゴリ付与部15は、これらの画像に対して、図12(d)に示す「おでかけ」カテゴリを関連付ける。また、図12(b)の画像は「ランチ」とのユーザコンテクストが関連付けられている。カテゴリ付与部15は、この画像に対して、図12(e)に示す「食事」カテゴリを関連付ける。
また、カテゴリ付与部15は、一又は複数のグループコンテクストを上位概念で規定したカテゴリを画像グループに関連付ける。カテゴリ付与部15は、組み合わせ部14から入力されたタグ付け管理テーブルにおいて、画像グループにカテゴリを関連付ける。
図5は、タグ付け結果テーブル190を示す表である。図5に示されるように、タグ付け結果テーブル190では、画像IDと、画像単体のタグ付け結果と、画像単体のカテゴリと、画像候補と、POI候補と、文字候補と、市町村名と、イベント候補と、ファイル形式とが関連付けられている。なお、図5に示すタグ付け結果テーブル190では、画像単体についての各コンテクスト候補(文字候補、画像候補、POI候補、及びイベント候補)のみ記憶されているが、画像グループ単位でタグ付け及びカテゴリ付与を行う場合には、タグ付け結果テーブルにおいて画像グループ単位の各コンテクスト候補についても記憶される(後述)。
上述したように、タグ付け装置10では、画像単体でのタグ付け及び画像グループ単位でのタグ付けが行われる。以下では、図6及び図7を参照して、画像単体でのタグ付け及び画像グループ単位でのタグ付けの一例を説明する。図6は、画像単体でタグ付けを行う一例の説明図である。図7は、画像グループ単位でタグ付けを行う一例の説明図である。
図6(a)は画像の一例を示す図であり、図6(b)は図6(a)に示す画像(画像ID:P0001)に関する推定結果テーブル181を示す表であり、図6(c)は図6(a)に示す画像(画像ID:P0001)に関するタグ付け結果テーブル191を示す表である。
図6(b)の推定結果テーブル181に示されるように、画像IDが「P0001」の画像について、画像候補として「park」が、POI候補として「B公園(公園)」が、それぞれ関連付けられている。そして、当該推定結果テーブル181に応じて、図6(c)のタグ付け結果テーブル191が導出されている。図6(c)のタグ付け結果テーブル191に示されるように、画像IDが「P0001」の画像について、画像単体のタグ付け結果として「公園」が、画像単体のカテゴリとして「おでかけ」が、それぞれ関連付けられている。当該画像単体のタグ付け結果「公園」は、上述したコンテクスト候補である「park」及び「B公園(公園)」に基づいて導出されるユーザコンテクスト「公園」に応じたものである。また、当該画像単体のカテゴリである「おでかけ」は、上述したユーザコンテクスト「公園」に応じたものである。
図7(a)〜図7(c)は画像の一例を示す図であり、図7(d)は図7(a)〜図7(c)に示す画像(画像ID:P0001〜P0003)に関する推定結果テーブル182を示す表であり、図7(e)は図7(a)〜図7(c)に示す画像(画像ID:P0001〜P0003)に関するタグ付け結果テーブル192を示す表である。画像ID:P0001〜P0003の各画像は、同一の画像グループ(グループID:G0001)に含まれている。なお、図7(d)及び図7(e)においては、画像単体の各コンテクスト候補のみ記載しているが、実際には、これらのテーブルでは、画像グループ単位の各コンテクスト候補についても記憶されている。
図7(d)の推定結果テーブル182に示されるように、画像IDが「P0001」「P0003」の画像について、画像候補として「park」が、POI候補として「B公園(公園)」が、それぞれ関連付けられている。また、画像IDが「P0002」の画像について、画像候補として「meal」が、POI候補として「B公園(公園)」がそれぞれ関連付けられている。
そして、当該推定結果テーブル182においては、当該画像グループにおける最多の画像候補である「park」が、画像グループのグループコンテクストを導出するための画像候補とされる。また、当該推定結果テーブル182においては、当該画像グループにおける最多のPOI候補である「B公園(公園)」が、画像グループのグループコンテクストを導出するためのPOI候補とされる。当該画像グループのグループコンテクストを導出するための画像候補及びPOI候補は、図7(d)中には記載されていないが、実際には推定結果テーブル182において記憶されている。
当該推定結果テーブル182に応じて、図7(e)のタグ付け結果テーブル192が導出されている。図7(e)のタグ付け結果テーブル192に示されるように、画像IDが「P0001」「P0003」の画像については、画像単体のタグ付け結果として「公園」が、画像単体のカテゴリとして「おでかけ」が、それぞれ関連付けられている。当該画像単体のタグ付け結果「公園」は、上述したコンテクスト候補である「park」及び「B公園(公園)」に基づいて導出されるユーザコンテクスト「公園」に応じたものである。当該画像単体のカテゴリである「おでかけ」は、上述したユーザコンテクスト「公園」に応じたものである。また、画像IDが「P0002」の画像については、画像単体のタグ付け結果として「ランチ」が、画像単体のカテゴリとして「食事」が、それぞれ関連付けられている。当該画像単体のタグ付け結果「ランチ」は、上述したコンテクスト候補である「meal」及び「B公園(公園)」に基づいて導出されるユーザコンテクスト「公園」に応じたものである。当該画像単体のカテゴリ「食事」は、上述したユーザコンテクスト「ランチ」に応じたものである。
更に、図7(e)のタグ付け結果テーブル192に示されるように、各画像を含む画像グループ単位でもタグ及びカテゴリの関連付けが行われており、画像グループのタグ付け結果として「公園」が、画像グループのカテゴリとして「おでかけ」が導出されている。当該画像グループのタグ付け結果「公園」は、上述した画像グループ単位のコンテクスト候補である「park」及び「B公園(公園」に基づいて導出されるグループコンテクスト「公園」に応じたものである。当該画像グループのカテゴリである「おでかけ」は、上述したグループコンテクスト「公園」に応じたものである。
なお、画像IDが「P0001」「P0003」の画像については、画像単体のタグ付け結果「公園」と、画像グループ単位のタグ付け結果「公園」とが重複しており、また、画像単体のカテゴリ「おでかけ」と、画像グループ単位のカテゴリ「おでかけ」とが重複している。このように、画像単体の推定結果と画像グループ単位の推定結果とが重複している場合には、図7(a)及び図7(c)に示されるように、重複した結果の一方が非表示とされる(図7(a)及び図7(c)における破線部分が非表示箇所)。
次に、図13を参照して、タグ付け装置10によるタグ付け処理を説明する。図13は、タグ付け装置10の処理を示すフローチャートである。
タグ付け装置10のタグ付け処理では、最初に、通信部11によりコンテクスト推定に用いる推定用情報が取得される(ステップS1)。具体的には、通信部11は、POI変換装置40から画像のPOI情報(画像管理情報)を、文字認識装置50から文字認識結果(画像管理情報)を、画像認識装置60から画像認識結果(画像管理情報)を、イベント推定装置70からイベント情報(画像管理情報)を、推定用情報として、それぞれ取得する。通信部11は、当該推定用情報を推定用情報格納部18に格納する。
つづいて、POI推定部13cによりPOI推定が行われ(ステップS2)、画像認識推定部13bにより画像認識推定が行われ(ステップS3)、文字認識推定部13aにより文字認識推定が行われる(ステップS4)。また、図13中には記載していないが、イベント推定部13dによりイベント推定が行われてもよい。そして、画像単位のコンテクスト候補を含む推定結果は、候補推定部13により組み合わせ部14に出力される(ステップS5)。
ここで、上述した候補推定部13の各構成である文字認識推定部13a、画像認識推定部13b、POI推定部13c、及びイベント推定部13dの詳細な処理について、図14〜図17を参照して説明する。図14は、文字認識推定部13aの処理の詳細を示すフローチャートである。図15は、画像認識推定部13bの処理の詳細を示すフローチャートである。図16は、POI推定部13cの処理の詳細を示すフローチャートである。図17は、イベント推定部13dの処理の詳細を示すフローチャートである。
図14に示されるように、文字認識推定部13aでは、推定用情報格納部18に格納されている文字認識結果が取得される(ステップS70)。そして、文字認識推定部13aにより、予め定められたカテゴリが検索され、文字認識結果において判別されたキーワードに関連付けられたカテゴリが、予め定められたカテゴリであるか否かが判断される(ステップS71)。当該予め定められたカテゴリである場合には、文字認識結果において判別されたキーワード及びカテゴリが、文字候補とされる。そして、文字認識推定部13aにより、予め定められたキーワードが検索され、文字認識結果において判別されたキーワードが、予め定められたキーワードであるか否かが判断される(ステップS72)。当該予め定められたキーワードである場合には、文字認識結果において判別されたキーワードが、文字候補として取得される。
図15に示されるように、画像認識推定部13bでは、推定用情報格納部18に格納されている画像認識結果のラベルとスコアが取得される(ステップS60)。そして、画像認識推定部13bにより、画像認識結果のラベルがスコアの昇順で並び替えられ(ステップS61)、最もスコアの高いラベルが画像のラベルに決定される(ステップS62)。最後に、画像認識推定部13bによりスコアの上位5件の画像認識結果が、画像候補として取得される(ステップS63)。
図16に示されるように、POI推定部13cでは、推定用情報格納部18に格納されているPOI情報が取得される(ステップS50)。そして、POI推定部13cにより、POIのチェックイン数を、POIまでの距離で割ったPOIスコアが算出される(ステップS51)。POI推定部13cは、最もスコアの高いPOIを当該画像のPOI候補と推定する(ステップS52)。より詳細には、POI推定部13cは、POIスコアが最も高いPOI情報のPOI名称とPOIカテゴリとを、POI候補として取得する(ステップS53)。
図17に示されるように、イベント推定部13dでは、推定用情報格納部18に格納されているPOI情報が取得される(ステップS80)。そして、イベント推定部13dにより、画像メタデータ格納部16から画像を記録した日時情報が取得されると共に、推定用情報格納部18に格納されているイベント情報に、POI及び日時情報が一致するイベント情報があるか否かが判定される(ステップS81)。S81において一致するイベント情報がない場合には処理が終了する。一方で、S81において一致するイベント情報がある場合には、イベント推定部13dにより、画像に紐づくイベント情報が特定され(ステップS82)、該イベント情報のイベント名及びイベントカテゴリが、該画像のイベント候補として取得される(ステップS83)。以上が、候補推定部13の各構成の処理である。
図13に戻り、S5の処理が完了すると、組み合わせ部14によって、候補推定部13によりコンテクスト候補とされた画像管理情報が組み合わせられ、画像単位のユーザコンテクストが推定(導出)される(ステップS6)。そして、組み合わせ部14により、ユーザコンテクストに応じたタグ付けが行われる(ステップS7)。具体的には、組み合わせ部14は、導出したユーザコンテクストに応じたタグを画像に関連付けたタグ付け結果テーブルを含んだカテゴリ付与要求を、カテゴリ付与部15に出力する。そして、カテゴリ付与部15において、一又は複数のユーザコンテクストを上位概念で規定したカテゴリが画像に関連付けられる。ここまでの処理は、画像単位のタグ付け処理である。以下では、画像グループ単位のタグ付け処理について説明する。
タグ付け装置10の画像グループ単位のタグ付け処理では、まず、グループ作成部12により画像グループが作成される(ステップS8)。具体的には、グループ作成部12は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成する。
つづいて、候補推定部13の各構成により、画像グループ単位でのコンテクスト候補が推定される。すなわち、POI推定部13cにより、同一の画像グループ内における最多のPOI候補が、画像グループのグループコンテクストを導出するためのPOI候補として特定される(ステップS9)。また、イベント推定部13dにより、POI及び日時情報が一致するイベント情報が、画像グループのグループコンテクストを導出するためのイベント候補として特定される(ステップS10)。また、画像認識推定部13bにより、同一の画像グループ内におけるスコアの総和が最も高いラベルが、画像グループのグループコンテクストを導出するための画像候補として特定される(ステップS11)。更に、文字認識推定部13aにより、同一の画像グループに含まれる文字候補が全てリストアップされ、画像グループのグループコンテクストを導出するための文字候補として特定される(ステップS12)。
そして、組み合わせ部14によって、候補推定部13によりグループコンテクストを導出するためのコンテクスト候補とされた画像管理情報が組み合わせられ、グループコンテクストが推定(導出)される(ステップS13)。その後、組み合わせ部14により、グループコンテクストに応じたタグ付けが行われ(ステップS14)、カテゴリ付与部15において、一又は複数のグループコンテクストを上位概念で規定したカテゴリが画像グループに関連付けられる(ステップS15)。
次に、実施形態に係るタグ付け装置10の作用効果について説明する。
本実施形態に係るタグ付け装置10は、画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する通信部11と、通信部11により取得された複数の画像管理情報を組み合わせることにより、画像に係るユーザの行動を示すユーザコンテクストを導出する組み合わせ部14と、を備える。
このタグ付け装置10では、複数の画像管理情報、すなわちいつ、どこで、何をしていたかを示す情報が組み合わされて、画像に係るユーザの行動を示すユーザコンテクストが導出される。このようなユーザコンテクストを画像検索に用いることにより、例えば、日時や場所などの情報を単体で画像に関連付けて画像検索を行う場合と比較して、より画像と整合した(画像におけるユーザの行動に則した)情報に基づいて画像検索を行うことができる。このことにより、画像検索の精度を向上させることができる。
タグ付け装置10は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成するグループ作成部12を更に備え、組み合わせ部14は、画像グループ毎に、画像グループに含まれる画像の画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出する。
位置及び日時を考慮したグループ単位でグループコンテクストを導出することにより、共通のイベント(出来事)に係る画像を同一の検索結果とし易くなる。すなわち、例えばイベントの最中に昼食をとった場合などにおいて、共通のイベントであるにもかかわらず位置等が少し異なることを理由として別の検索結果となる(ばらばらに出力される)ことを抑制することができる。また、例えば画像単体のユーザコンテクストについて誤認識や推定誤り等があった場合であっても、複数の画像のユーザコンテクストを考慮することによって、一部の誤りを無視できるため、画像検索の精度をより向上させることができる。
タグ付け装置10は、通信部11により取得された複数の画像管理情報のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する候補推定部13を更に備え、組み合わせ部14は、複数の画像管理情報のうち、候補推定部13によりコンテクスト候補とされた画像管理情報を組み合わせることにより、ユーザコンテクスト及びグループコンテクストを導出する。
組み合わせる対象の画像管理情報を無作為に選択するのではなく、画像管理情報としての精度が高い情報を用いることにより、画像検索の精度をより向上させることができる。
複数の画像管理情報には、画像に関する画像認識結果が複数含まれており、候補推定部13は、画像に関する画像認識結果に基づくコンテクスト候補である画像候補を推定する画像認識推定部13bを有し、画像認識推定部13bは、画像に関する画像認識結果において、類似度合いを示すスコアが所定の閾値以上であるオブジェクトを示す情報を、ユーザコンテクストを導出するための画像候補として推定し、同一画像グループ内における最多の画像候補を、該画像グループのグループコンテクストを導出するための画像候補として推定する。
類似度合いを示すスコアが高い情報を画像候補とすることにより、画像管理情報としての精度が高いものを組み合わせてユーザコンテクストを導出することができ、画像検索の精度をより向上させることができる。すなわち、例えば撮像時にぶれてしまった画像(写真)等が画像候補とされてユーザコンテクストが導出されることを防止することができる。また、同一画像グループ内における最多の画像候補を、グループコンテクストを導出するための画像候補とすることにより、画像グループにおける代表的な画像候補を用いてグループコンテクストを導出することができ、画像グループ単位の画像検索の精度をより向上させることができる。なお、画像グループ単位での推定において、単にスコアで判断するのではなく上述したようにして画像候補を決めることにより、画像単体でのスコアが低い画像についても考慮することができる。
複数の画像管理情報には、画像に関するPOI情報が複数含まれており、候補推定部13は、画像に関するPOI情報に基づくコンテクスト候補であるPOI候補を推定するPOI推定部13cを有し、POI推定部13cは、複数のPOI情報それぞれについて、POIのチェックイン数を、該POIから画像を記録した位置までの距離で割ったPOIスコアを算出し、該POIスコアが最も高いPOI情報を、ユーザコンテクストを導出するためのPOI候補として推定し、同一の画像グループ内における最多のPOI候補を、該画像グループのグループコンテクストを導出するためのPOI候補として推定する。
POIのチェックイン数を考慮することにより、ユーザが訪れている可能性が高いPOI情報をPOI候補として推定され易くすることができる。これにより、誤推定を抑制することができる。また、画像グループ単位での推定では、最多のPOI候補がグループコンテクストを導出するためのPOI候補とされることにより、ユーザが訪れている可能性が高いPOI情報をグループコンテクストを導出するためのPOI候補とすることができる。
複数の画像管理情報には、位置を示す情報及び日時を示す情報によって特定されるイベント情報が含まれており、候補推定部13は、イベント情報に基づくコンテクスト候補であるイベント候補を推定するイベント推定部13dを有し、イベント推定部13dは、位置を示す情報が画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が画像を記録した日時情報と一致するイベント情報を、ユーザコンテクストを導出するためのイベント候補として推定し、画像グループに含まれる画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が、該画像グループに含まれる画像のうち日時情報が最も古い画像を記録した日時情報から、日時情報が最も新しい画像を記録した日時情報の間に含まれているイベント情報を、該画像グループのグループコンテクストを導出するためのイベント候補として推定する。
これにより、位置及び日時を考慮して、ユーザが訪れていたと考えられるイベント候補を適切に推定することができる。すなわち、画像検索の精度をより向上させることができる。
複数の画像管理情報には、画像に関する文字認識結果が含まれており、候補推定部13は、画像に関する文字認識結果に基づくコンテクスト候補である文字候補を推定する文字認識推定部13aを有し、文字認識推定部13aは、文字認識結果における文字のうち予め定められた文字を、ユーザコンテクストを導出するための文字候補として推定し、同一の画像グループ内における最多の文字候補を、該画像グループのグループコンテクストを導出するための文字候補として推定する。
予め定めた文字のみを文字候補とすることにより、ユーザの行動を示すキーワードとして適切なものだけを文字候補とすることができる。また、同一画像グループ内における最多の文字候補を、グループコンテクストを導出するための文字候補とすることにより、画像グループにおける代表的な文字候補を用いてグループコンテクストを導出することができ、画像グループ単位の画像検索の精度をより向上させることができる。
組み合わせ部は、ユーザコンテクストに応じたタグを画像に関連付け、グループコンテクストに応じたタグを画像グループに関連付ける。これにより、従来、画像に関連付けた認識結果として1つの認識結果のみを用いていた場合と比較して、曖昧性を低減すると共に抽象度を下げてタグ付けすることができ、画像検索の精度を向上させることができる。
タグ付け装置10は、一又は複数のユーザコンテクストを上位概念で規定したカテゴリを画像に関連付け、一又は複数のグループコンテクストを上位概念で規定したカテゴリを画像グループに関連付ける、カテゴリ付与部15を更に備える。カテゴリを画像及び画像グループに関連付けることにより、ユーザコンテクスト及びグループコンテクストよりも上位概念で画像を検索すること等が可能になる。
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されない。例えば、複数の画像グループについては、更に纏められた新たな画像グループ(アルバム)を構成するものであってもよい。すなわち、グループ作成部12は、作成した画像グループのうち、含まれる画像の日時情報が所定の範囲内である複数の画像グループを、共通の新たな画像グループとし、組み合わせ部14は、新たな画像グループに含まれる複数の画像グループのうち、画像数が最も多い画像グループのグループコンテクストを、新たな画像グループのグループコンテクストとしてもよい。
図18は、変形例に係るタグ付け装置のアルバム作成の説明図である。図18(a)のテーブル200に示されるように、異なるグループID「G0001」「G0002」で示される複数の画像グループが、共通の新たな画像グループ(アルバムID「A0001」)に纏められている。そして、グループID「G0001」の画像グループのグループコンテクストが「B公園」、グループID「G0002」の画像グループのグループコンテクストが「B水族館」であるとすると、いま、図18(b)に示されるように、グループID「G0001」の画像グループのほうが、画像数が1枚多いので、アルバムのタイトル(アルバムのグループコンテクスト)は、B公園とされる。
これにより、日時情報が類似する画像グループを更に纏めることができ、類似する画像検索結果をより容易に確認することができる。また、画像数が最も多い画像グループのグループコンテクストが新たな画像グループのグループコンテクストとされることにより、新たな画像グループに関しての画像検索の精度を向上させることができる。