JP2017173900A - Information processing device - Google Patents

Information processing device Download PDF

Info

Publication number
JP2017173900A
JP2017173900A JP2016055931A JP2016055931A JP2017173900A JP 2017173900 A JP2017173900 A JP 2017173900A JP 2016055931 A JP2016055931 A JP 2016055931A JP 2016055931 A JP2016055931 A JP 2016055931A JP 2017173900 A JP2017173900 A JP 2017173900A
Authority
JP
Japan
Prior art keywords
image
group
information
candidate
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016055931A
Other languages
Japanese (ja)
Other versions
JP6602245B2 (en
Inventor
由樹子 牧野
Yukiko Makino
由樹子 牧野
直治 山田
Naoharu Yamada
直治 山田
渉 一岡
Wataru Ichioka
渉 一岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2016055931A priority Critical patent/JP6602245B2/en
Publication of JP2017173900A publication Critical patent/JP2017173900A/en
Application granted granted Critical
Publication of JP6602245B2 publication Critical patent/JP6602245B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide an information processing device that improves accuracy of image search.SOLUTION: A tagging device 10 according to the present invention includes: a communication unit 11 for obtaining multiple pieces of image management information indicating a time, a place, or an event related to an image; and a combination unit 14 for deriving context indicating an action of a user related to the image by combining the multiple pieces of image management information obtained by the communication unit 11.SELECTED DRAWING: Figure 1

Description

本発明は、画像管理に係る情報処理装置に関する。   The present invention relates to an information processing apparatus related to image management.

従来、画像に対して日時や場所を関連付けるタグ付けシステムが知られている(例えば特許文献1参照)。このようなタグ付けシステムを用いることにより、画像が検索し易くなる。   2. Description of the Related Art Conventionally, a tagging system that associates date and time with an image is known (see, for example, Patent Document 1). By using such a tagging system, it becomes easier to search for images.

特表2015−501982号公報Special table 2015-501982 gazette

ここで、上述したようなタグ付けシステムは、日時や場所などをそれぞれ単体で画像に関連付けるものである。このようなタグ付けシステムでは、画像検索の精度が十分に担保されているとは言い難い。   Here, the tagging system as described above associates a date and a place with an image individually. In such a tagging system, it is difficult to say that the accuracy of image search is sufficiently secured.

本発明は上記実情に鑑みてなされたものであり、画像検索の精度を向上させる情報処理装置を提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide an information processing apparatus that improves the accuracy of image search.

本発明の一態様に係る情報処理装置は、画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する取得部と、取得部により取得された複数の画像管理情報を組み合わせることにより、当該画像に係るユーザの行動を示すユーザコンテクストを導出する組み合わせ部と、を備える。   An information processing apparatus according to an aspect of the present invention combines an acquisition unit that acquires a plurality of image management information indicating a time, place, or event relating to an image, and a plurality of image management information acquired by the acquisition unit, A combination unit for deriving a user context indicating the user's action related to the image.

この情報処理装置では、複数の画像管理情報、すなわちいつ、どこで、何をしていたかを示す情報が組み合わされて、画像に係るユーザの行動を示すユーザコンテクストが導出される。このようなユーザコンテクストを画像検索に用いることにより、例えば、日時や場所などの情報を単体で画像に関連付けて画像検索を行う場合と比較して、より画像と整合した(画像におけるユーザの行動に則した)情報に基づいて画像検索を行うことができる。このことにより、画像検索の精度を向上させることができる。また、同じ認識対象でも、画像が取得(例えば撮像)された場所又は状況によって異なるユーザコンテクストが推定されるので、画像検索の精度を向上させることができる。   In this information processing apparatus, a plurality of pieces of image management information, that is, information indicating when, where, and what are combined is combined to derive a user context indicating the user's action related to the image. By using such a user context for image search, for example, compared to the case where image search is performed by associating information such as date and place with an image alone, it is more consistent with the image. Image retrieval can be performed on the basis of information. As a result, the accuracy of the image search can be improved. In addition, even with the same recognition target, different user contexts are estimated depending on the location or situation where an image is acquired (for example, imaged), so that the accuracy of image search can be improved.

また、上記情報処理装置は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成するグループ作成部を更に備え、組み合わせ部は、画像グループ毎に、画像グループに含まれる画像の画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出してもよい。   In addition, the information processing apparatus further includes a group creation unit that creates an image group in which a plurality of images in which the position information of the point where the image is recorded and the date and time information where the image is recorded are within a predetermined range are grouped, For each image group, the combination unit may derive a group context indicating the user's behavior based on the image management information of the images included in the image group.

位置及び日時を考慮したグループ単位でグループコンテクストを導出することにより、共通のイベント(出来事)に係る画像を同一の検索結果とし易くなる。画像1枚単位でのみユーザコンテクストを導出した場合においては、例えばイベントの最中に昼食をとった場合などにおいて、共通のイベントの画像であるにもかかわらず位置等が少し異なることを理由として別の検索結果となる(ばらばらに出力される)ことが問題となる。また、1日などの長いスパンで1つのユーザコンテクストを導出した場合には、異なるイベントの画像が同じ検索結果として出力されることが問題となる。この点、位置及び日時を考慮してグループ化することにより、例えば共通のイベントの画像のみを検索結果とすることができる。また、例えば画像単体のユーザコンテクストについて誤認識や推定誤り等があった場合であっても、複数の画像のユーザコンテクストを考慮することによって、一部の誤りを無視できるため、画像検索の精度をより向上させることができる。   By deriving a group context for each group in consideration of the position and date and time, images related to a common event (event) can be easily obtained as the same search result. When the user context is derived only for one image unit, for example, when lunch is taken during the event, it is different because the position etc. is slightly different even though it is an image of a common event. It becomes a problem that the search result becomes (outputs in pieces). Further, when one user context is derived in a long span such as one day, there is a problem that images of different events are output as the same search result. By grouping in consideration of this point, the position, and the date and time, for example, only images of common events can be set as search results. In addition, for example, even when there is a misrecognition or estimation error in the user context of a single image, some errors can be ignored by considering the user context of a plurality of images, so the accuracy of image search is improved. It can be improved further.

また、上記情報処理装置は、取得部により取得された複数の画像管理情報のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する候補推定部を更に備え、組み合わせ部は、複数の画像管理情報のうち、候補推定部によりコンテクスト候補とされた画像管理情報を組み合わせることにより、ユーザコンテクスト及びグループコンテクストを導出してもよい。   The information processing apparatus further includes a candidate estimation unit configured to estimate, as a context candidate, image management information that satisfies a predetermined condition regarding the accuracy of the image management information among the plurality of image management information acquired by the acquisition unit. The combination unit may derive the user context and the group context by combining the image management information that is determined as the context candidate by the candidate estimation unit among the plurality of image management information.

組み合わせる対象の画像管理情報を無作為に選択するのではなく、画像管理情報としての精度が高いものを用いることにより、画像検索の精度をより向上させることができる。   Rather than randomly selecting image management information to be combined, it is possible to further improve the accuracy of image search by using information having high accuracy as image management information.

また、複数の画像管理情報には、画像に関する画像認識結果が複数含まれており、候補推定部は、画像に関する画像認識結果に基づくコンテクスト候補である画像候補を推定する画像認識推定部を有し、画像認識推定部は、画像に関する画像認識結果において、類似度合いを示すスコアが所定の閾値以上であるオブジェクトを示す情報を、ユーザコンテクストを導出するための画像候補として推定し、同一画像グループ内における最多の画像候補を、該画像グループのグループコンテクストを導出するための画像候補として推定してもよい。   The plurality of image management information includes a plurality of image recognition results regarding the image, and the candidate estimation unit includes an image recognition estimation unit that estimates an image candidate that is a context candidate based on the image recognition result regarding the image. The image recognition estimation unit estimates information indicating an object whose score indicating the degree of similarity is equal to or higher than a predetermined threshold in the image recognition result regarding the image as an image candidate for deriving a user context, and within the same image group The largest number of image candidates may be estimated as image candidates for deriving the group context of the image group.

類似度合いを示すスコアが高い情報を画像候補とすることにより、画像管理情報としての精度が高いものを組み合わせてユーザコンテクストを導出することができ、画像検索の精度をより向上させることができる。すなわち、例えば撮像時にぶれてしまった画像(写真)等が画像候補とされてユーザコンテクストが導出されることを防止することができる。また、同一画像グループ内における最多の画像候補を、グループコンテクストを導出するための画像候補とすることにより、画像グループにおける代表的な画像候補を用いてグループコンテクストを導出することができ、画像グループ単位の画像検索の精度をより向上させることができる。なお、画像グループ単位での推定において、単にスコアで判断するのではなく上述したようにして画像候補を決めることにより、画像単体でのスコアが低い画像についても考慮することができる。   By using information having a high score indicating the degree of similarity as an image candidate, a user context can be derived by combining information having high accuracy as image management information, and the accuracy of image search can be further improved. That is, for example, it is possible to prevent a user context from being derived from an image (photograph) that has been blurred during imaging as an image candidate. Further, by setting the most image candidates in the same image group as image candidates for deriving the group context, the group context can be derived using the representative image candidates in the image group. The accuracy of the image search can be further improved. In addition, in the estimation for each image group, it is possible to consider an image having a low score for a single image by determining image candidates as described above, instead of simply judging by a score.

また、複数の画像管理情報には、画像に関するPOI情報が複数含まれており、候補推定部は、画像に関するPOI情報に基づくコンテクスト候補であるPOI候補を推定するPOI推定部を有し、POI推定部は、複数のPOI情報それぞれについて、POIのチェックイン数を、該POIから画像を記録した位置までの距離で割ったPOIスコアを算出し、該POIスコアが最も高いPOI情報を、ユーザコンテクストを導出するためのPOI候補として推定し、同一の画像グループ内における最多のPOI候補を、該画像グループのグループコンテクストを導出するためのPOI候補として推定してもよい。   The plurality of pieces of image management information include a plurality of pieces of POI information related to images, and the candidate estimation unit includes a POI estimation unit that estimates POI candidates that are context candidates based on the POI information about images. The unit calculates a POI score obtained by dividing the number of POI check-ins by the distance from the POI to the position where the image is recorded for each of a plurality of POI information, and the POI information having the highest POI score is calculated as a user context. It may be estimated as a POI candidate for deriving, and the most POI candidates in the same image group may be estimated as POI candidates for deriving the group context of the image group.

POIのチェックイン数を考慮することにより、ユーザが訪れている可能性が高いPOI情報をPOI候補として推定され易くすることができる。これにより、誤推定を抑制することができる。また、画像グループ単位での推定では、最多のPOI候補がグループコンテクストを導出するためのPOI候補とされることにより、ユーザが訪れている可能性が高いPOI情報をグループコンテクストを導出するためのPOI候補とすることができる。   By considering the number of POI check-ins, it is possible to easily estimate POI information that is likely to be visited by a user as a POI candidate. Thereby, erroneous estimation can be suppressed. Further, in the estimation in units of image groups, the POI for deriving the group context from the POI information that is likely to be visited by the user because the most POI candidates are the POI candidates for deriving the group context. Can be a candidate.

また、複数の画像管理情報には、位置を示す情報及び日時を示す情報によって特定されるイベント情報が含まれており、候補推定部は、イベント情報に基づくコンテクスト候補であるイベント候補を推定するイベント推定部を有し、イベント推定部は、位置を示す情報が画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が画像を記録した日時情報と一致するイベント情報を、ユーザコンテクストを導出するためのイベント候補として推定し、画像グループに含まれる画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が、該画像グループに含まれる画像のうち日時情報が最も古い画像を記録した日時情報から、日時情報が最も新しい画像を記録した日時情報の間に含まれているイベント情報を、該画像グループのグループコンテクストを導出するためのイベント候補として推定してもよい。これにより、位置及び日時を考慮して、ユーザが訪れていたと考えられるイベント候補を適切に推定することができる。すなわち、画像検索の精度をより向上させることができる。   Further, the plurality of image management information includes event information specified by information indicating a position and information indicating a date and time, and the candidate estimation unit estimates an event candidate that is a context candidate based on the event information. An event estimation unit, which includes event information whose location information matches the location information of the point where the image is recorded, and whose date and time information matches the date information where the image is recorded. As the event candidate for deriving the image, the position information that matches the position information of the point where the image included in the image group is recorded, and the date and time information is the oldest among the images included in the image group. The event information included between the date and time information when the image is recorded and the date and time information when the image with the newest date and time information is recorded It may be estimated as an event candidate for deriving the loop context. Thereby, the event candidate considered that the user was visiting can be appropriately estimated in consideration of the position and the date and time. That is, the accuracy of image search can be further improved.

また、複数の画像管理情報には、画像に関する文字認識結果が含まれており、候補推定部は、画像に関する文字認識結果に基づくコンテクスト候補である文字候補を推定する文字認識推定部を有し、文字認識推定部は、文字認識結果における文字のうち予め定められた文字を、ユーザコンテクストを導出するための文字候補として推定し、同一の画像グループ内における最多の文字候補を、該画像グループのグループコンテクストを導出するための文字候補として推定してもよい。   The plurality of image management information includes a character recognition result regarding the image, and the candidate estimation unit includes a character recognition estimation unit that estimates a character candidate that is a context candidate based on the character recognition result regarding the image, The character recognition estimation unit estimates a predetermined character among characters in the character recognition result as a character candidate for deriving a user context, and determines the most character candidate in the same image group as a group of the image group. You may estimate as a character candidate for deriving a context.

予め定めた文字のみを文字候補とすることにより、ユーザの行動を示すキーワードとして適切なものだけを文字候補とすることができる。また、同一画像グループ内における最多の文字候補を、グループコンテクストを導出するための文字候補とすることにより、画像グループにおける代表的な文字候補を用いてグループコンテクストを導出することができ、画像グループ単位の画像検索の精度をより向上させることができる。   By using only predetermined characters as character candidates, it is possible to set only appropriate characters as keywords indicating user behavior as character candidates. In addition, by setting the largest number of character candidates in the same image group as character candidates for deriving a group context, a group context can be derived using representative character candidates in an image group. The accuracy of the image search can be further improved.

また、組み合わせ部は、ユーザコンテクストに応じたタグを前記画像に関連付け、グループコンテクストに応じたタグを画像グループに関連付けてもよい。これにより、従来、画像に関連付けた認識結果として1つの認識結果のみを用いていた場合と比較して、曖昧性を低減すると共に抽象度を下げてタグ付けすることができ、画像検索の精度を向上させることができる。   The combination unit may associate a tag corresponding to the user context with the image, and associate a tag according to the group context with the image group. Thereby, compared with the case where only one recognition result is conventionally used as a recognition result associated with an image, tagging can be performed with reduced ambiguity and reduced abstraction, and the accuracy of image search is improved. Can be improved.

また、上記情報処理装置は、一又は複数のユーザコンテクストを上位概念で規定したカテゴリを画像に関連付け、一又は複数のグループコンテクストを上位概念で規定したカテゴリを画像グループに関連付ける、カテゴリ付与部を更に備えてもよい。カテゴリを画像及び画像グループに関連付けることにより、ユーザコンテクスト及びグループコンテクストよりも上位概念で画像を検索すること等が可能になる。   The information processing apparatus further includes a category assigning unit that associates one or more user contexts with a category defined by a higher concept with an image, and associates one or more group contexts with a higher concept with an image group. You may prepare. By associating a category with an image and an image group, it becomes possible to search for an image with a higher concept than a user context and a group context.

また、グループ作成部は、作成した画像グループのうち、含まれる画像の日時情報が所定の範囲内である複数の画像グループを、共通の新たな画像グループとし、組み合わせ部は、新たな画像グループに含まれる複数の画像グループのうち、画像数が最も多い画像グループのグループコンテクストを、新たな画像グループのグループコンテクストとしてもよい。   Further, the group creation unit sets a plurality of image groups in which the date and time information of the included images is within a predetermined range among the created image groups as a common new image group, and the combination unit sets the new image group as a new image group. Of the plurality of included image groups, the group context of the image group having the largest number of images may be set as the group context of the new image group.

これにより、日時情報が類似する画像グループを更に纏めることができ、類似する画像検索結果をより容易に確認することができる。また、画像数が最も多い画像グループのグループコンテクストが新たな画像グループのグループコンテクストとされることにより、新たな画像グループに関しての画像検索の精度を向上させることができる。   Thereby, image groups with similar date and time information can be further collected, and similar image search results can be confirmed more easily. In addition, since the group context of the image group having the largest number of images is set as the group context of the new image group, it is possible to improve the accuracy of the image search for the new image group.

本発明によれば、画像検索の精度を向上させる情報処理装置を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the information processing apparatus which improves the precision of an image search can be provided.

本発明の実施形態に係るタグ付けシステムの機能構成を示す図である。It is a figure which shows the function structure of the tagging system which concerns on embodiment of this invention. 図1に示したタグ付けシステムに含まれるタグ付け装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the tagging apparatus contained in the tagging system shown in FIG. グループ作成部によるグルーピング処理の説明図である。It is explanatory drawing of the grouping process by a group preparation part. 推定結果テーブルを示す表である。It is a table | surface which shows an estimation result table. タグ付け結果テーブルを示す表である。It is a table | surface which shows a tagging result table. 画像単体でタグ付けを行う一例の説明図である。It is explanatory drawing of an example which tags with a single image. 画像グループ単位でタグ付けを行う一例の説明図である。It is explanatory drawing of an example which performs tagging per image group. 画像単体でタグ付けを行わない一例の説明図である。It is explanatory drawing of an example which does not tag with a single image. 画像単体でタグ付けを行わない一例の説明図である。It is explanatory drawing of an example which does not tag with a single image. 画像単体でタグ付けを行わない一例の説明図である。It is explanatory drawing of an example which does not tag with a single image. 画像グループ単位でタグ付けを行わない一例の説明図である。It is explanatory drawing of an example which does not tag by an image group unit. カテゴリ付与の一例の説明図である。It is explanatory drawing of an example of category provision. 本発明の実施形態に係るタグ付け装置の処理を示すフローチャートである。It is a flowchart which shows the process of the tagging apparatus which concerns on embodiment of this invention. 文字認識推定部の処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of a process of a character recognition estimation part. 画像認識推定部の処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of a process of an image recognition estimation part. POI推定部の処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of a process of a POI estimation part. イベント推定部の処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of a process of an event estimation part. 変形例に係るタグ付け装置のアルバム作成の説明図である。It is explanatory drawing of album creation of the tagging apparatus which concerns on a modification.

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same reference numerals are used for the same or equivalent elements, and redundant descriptions are omitted.

図1は、本実施形態に係るタグ付けシステムの機能構成を示す図である。図1に示されるように、タグ付けシステム1は、画像を管理するためのシステムであり、タグ付け装置10(情報処理装置)と、データ表示端末30と、POI変換装置40と、文字認識装置50と、画像認識装置60と、イベント推定装置70と、を備えている。   FIG. 1 is a diagram showing a functional configuration of a tagging system according to the present embodiment. As shown in FIG. 1, the tagging system 1 is a system for managing images, and includes a tagging device 10 (information processing device), a data display terminal 30, a POI conversion device 40, and a character recognition device. 50, an image recognition device 60, and an event estimation device 70.

タグ付け装置10は、画像管理に係るサーバであり、データ表示端末30、POI変換装置40、文字認識装置50、画像認識装置60、及びイベント推定装置70と相互に通信可能に構成されている。より詳細には、タグ付け装置10は、データ表示端末30が管理する画像に検索用のタグを付けることにより、画像検索の容易化を実現するものである。タグ付け装置10の詳細については後述する。   The tagging device 10 is a server related to image management, and is configured to be able to communicate with the data display terminal 30, the POI conversion device 40, the character recognition device 50, the image recognition device 60, and the event estimation device 70. More specifically, the tagging device 10 realizes facilitation of image search by attaching a search tag to an image managed by the data display terminal 30. Details of the tagging device 10 will be described later.

データ表示端末30は、画像及び、画像のタグ付け結果を記憶すると共に、当該画像を表示する端末である。画像とは、視認可能な図形又は写真である。以下では、画像はデータ表示端末30によって撮像された写真データである、として説明する。データ表示端末30は、撮像した画像と、該画像を撮像した地点の位置情報とを、タグ付け装置10に送信する。データ表示端末30は、タグ付け装置10によって導出された当該画像に関するタグ付け結果を、タグ付け装置10から受信し、記憶する。また、データ表示端末30は、当該データ表示端末30のユーザによる検索操作に応じて、該ユーザが所望する画像を検索し、表示する。当該検索には、上述したタグ付け結果が用いられる。   The data display terminal 30 is a terminal that stores an image and a tagging result of the image and displays the image. An image is a visually recognizable figure or photograph. In the following description, it is assumed that the image is photograph data captured by the data display terminal 30. The data display terminal 30 transmits the captured image and the position information of the point where the image is captured to the tagging device 10. The data display terminal 30 receives the tagging result regarding the image derived by the tagging device 10 from the tagging device 10 and stores it. Further, the data display terminal 30 searches for and displays an image desired by the user in response to a search operation by the user of the data display terminal 30. The tagging result described above is used for the search.

データ表示端末30は、例えばユーザに所持(携帯)されて用いられる、スマートフォン等の携帯電話機、タブレット端末、又はラップトップパソコン等である。或いは、データ表示端末30は、ユーザの自宅や職場に備え付けられたデスクトップパソコン等である。   The data display terminal 30 is, for example, a mobile phone such as a smartphone, a tablet terminal, or a laptop personal computer that is used (carried) by a user. Alternatively, the data display terminal 30 is a desktop personal computer or the like installed in the user's home or workplace.

POI変換装置40は、緯度経度により示される位置情報を入力として、POI情報を出力するサーバである。POI情報には、入力された位置情報で示される位置周辺のPOI(point of interest)、POIのカテゴリ、及び各POIへのチェックイン数が含まれている。POIとは、あるユーザが興味を持った特定の場所を示す情報であり、例えば、緯度経度及び名称(場所の名称)を含んだ情報である。チェックイン数とは、当該POIを訪れたユーザの数である。POI変換装置40は、例えばユーザによってPOIが追加及び編集されることにより、出力対象であるPOI情報を更新している。POI変換装置40は、タグ付け装置10からのPOI変換要求に応じて、POI情報をタグ付け装置10に出力する。POI変換装置40は、タグ付け装置10を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されているPOI変換に係るサーバであってもよい。   The POI converter 40 is a server that outputs position information indicated by latitude and longitude and outputs POI information. The POI information includes a POI (point of interest) around the position indicated by the input position information, a POI category, and the number of check-ins to each POI. The POI is information indicating a specific place in which a certain user is interested, for example, information including latitude and longitude and a name (place name). The number of check-ins is the number of users who have visited the POI. The POI conversion device 40 updates the POI information to be output by adding and editing the POI, for example, by the user. The POI conversion device 40 outputs POI information to the tagging device 10 in response to a POI conversion request from the tagging device 10. The POI conversion device 40 may be a server managed by a telecommunications carrier that manages the tagging device 10, or may be a server related to POI conversion that has been widely publicized and used.

文字認識装置50は、画像中に含まれた文字を判別するサーバである。文字認識装置50は、例えば、文字のテンプレートを記憶しており、該テンプレートの文字との一致を判断することにより、画像中に含まれた文字を判別する。文字認識装置50は、タグ付け装置10から、文字認識対象の画像を含んだ文字認識要求を受け、該画像中に含まれた文字を判別し、判別結果(文字認識結果)をタグ付け装置10に出力する。文字認識装置50は、判別した文字であるキーワードに基づき、該キーワードに関連付けられたカテゴリを導出する。すなわち、文字認識結果には、判別した文字を示すキーワードと、該キーワードに関連付けられたカテゴリとが含まれている。文字認識装置50は、タグ付け装置10を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されている文字認識に係るサーバであってもよい。   The character recognition device 50 is a server that discriminates characters included in an image. The character recognition device 50 stores, for example, a character template, and determines a character included in the image by determining a match with the character of the template. The character recognition device 50 receives a character recognition request including an image to be recognized from the tagging device 10, discriminates characters included in the image, and uses the discrimination result (character recognition result) as the tagging device 10. Output to. The character recognition device 50 derives a category associated with the keyword based on the keyword that is the determined character. That is, the character recognition result includes a keyword indicating the determined character and a category associated with the keyword. The character recognition device 50 may be a server managed by a telecommunications carrier that manages the tagging device 10 or may be a server related to character recognition that has been widely disclosed and used.

画像認識装置60は、画像中に含まれたオブジェクト又はシーンを判別するサーバである。画像認識装置60は、例えば、オブジェクトのテンプレートを記憶しており、該テンプレートのオブジェクトとの一致を判断することにより、画像中に含まれたオブジェクトを判別する。画像認識装置60は、タグ付け装置10から、画像認識対象の画像を含んだ画像認識要求を受け、該画像中に含まれたオブジェクトを判別し、判別結果(画像認識結果)をタグ付け装置10に出力する。当該画像認識結果には、判別したオブジェクトを示すラベルと、テンプレートとの一致度合い(類似度合い)を示すスコアとが含まれている。画像認識装置60は、タグ付け装置10を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されている画像認識に係るサーバであってもよい。   The image recognition device 60 is a server that determines an object or a scene included in an image. For example, the image recognition device 60 stores a template of an object, and determines an object included in the image by determining a match with the object of the template. The image recognition device 60 receives an image recognition request including an image to be recognized from the tagging device 10, discriminates an object included in the image, and uses the discrimination result (image recognition result) as the tagging device 10. Output to. The image recognition result includes a label indicating the determined object and a score indicating the degree of matching (similarity) with the template. The image recognition device 60 may be a server managed by a telecommunications carrier that manages the tagging device 10, or may be a server related to image recognition that is widely publicized and used.

イベント推定装置70は、画像を記録(撮像)した地点のPOI及び画像を記録した日時情報を入力として、イベント情報を出力するサーバである。イベント情報には、イベント名及びイベントカテゴリが含まれている。イベント推定装置70は、当該イベント情報と、イベントが開催されたPOI及び日時を関連付けて記憶している。そして、イベント推定装置70は、タグ付け装置10から、画像を記録(撮像)した地点のPOI及び画像を記録した日時情報を含んだイベント推定要求を受け、画像に係るイベント情報を特定し、特定したイベント情報をタグ付け装置10に出力する。イベント推定装置70は、タグ付け装置10を管理する通信事業者により管理されたサーバあってもよいし、一般に広く公開されて利用されているイベント推定に係るサーバであってもよい。   The event estimation device 70 is a server that outputs the event information with the POI of the point where the image is recorded (imaged) and the date / time information when the image is recorded as inputs. The event information includes an event name and an event category. The event estimation device 70 stores the event information, the POI at which the event was held, and the date and time in association with each other. Then, the event estimation device 70 receives the event estimation request including the POI of the point where the image is recorded (captured) and the date / time information when the image is recorded from the tagging device 10, specifies event information related to the image, and specifies The event information is output to the tagging device 10. The event estimation device 70 may be a server managed by a telecommunications carrier that manages the tagging device 10, or may be a server related to event estimation that is widely disclosed and used in general.

次に、タグ付け装置10の詳細について説明する。図2は、図1に示したタグ付けシステム1に含まれるタグ付け装置10のハードウェア構成を示す図である。タグ付け装置10は、物理的には、図2に示すように、1又は複数のCPU101、主記憶装置であるRAM102及びROM103、入力デバイスであるキーボード及びマウス等の入力装置104、ディスプレイ等の出力装置105、ネットワークカード等のデータ送受信デバイスである通信モジュール106、半導体メモリ等の補助記憶装置107等を含むコンピュータとして構成されている。   Next, details of the tagging device 10 will be described. FIG. 2 is a diagram showing a hardware configuration of the tagging apparatus 10 included in the tagging system 1 shown in FIG. As shown in FIG. 2, the tagging apparatus 10 physically includes one or a plurality of CPUs 101, a RAM 102 and a ROM 103 which are main storage devices, an input device 104 such as a keyboard and a mouse which are input devices, and an output such as a display. The computer 105 includes a device 105, a communication module 106 that is a data transmission / reception device such as a network card, an auxiliary storage device 107 such as a semiconductor memory, and the like.

タグ付け装置10の各機能は、図2に示すCPU101、RAM102等のハードウェア上に1又は複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、通信モジュール106を動作させるとともに、RAM102や補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。   Each function of the tagging device 10 is loaded with one or more predetermined computer software on the hardware such as the CPU 101 and the RAM 102 shown in FIG. 2, so that the input device 104 and the output device 105 are controlled under the control of the CPU 101. This is realized by operating the communication module 106 and reading and writing data in the RAM 102 and the auxiliary storage device 107.

図1に戻り、タグ付け装置10は、機能構成として、通信部11(取得部)と、グループ作成部12と、候補推定部13と、組み合わせ部14と、カテゴリ付与部15と、画像メタデータ格納部16と、位置情報格納部17と、推定用情報格納部18と、を備えている。   Returning to FIG. 1, the tagging apparatus 10 includes a communication unit 11 (acquisition unit), a group creation unit 12, a candidate estimation unit 13, a combination unit 14, a category assignment unit 15, and image metadata as functional configurations. A storage unit 16, a position information storage unit 17, and an estimation information storage unit 18 are provided.

通信部11は、データ表示端末30、POI変換装置40、文字認識装置50、画像認識装置60、及びイベント推定装置70と通信を行う機能である。通信部11は、データ表示端末30から、撮像した画像と該画像を撮像した地点の位置情報とを受信する。通信部11は、受信した画像のメタデータを画像メタデータ格納部16に格納し、受信した位置情報を位置情報格納部17に格納する。画像のメタデータには、画像を記録した日時情報(すなわち、画像の作成日時)及び画像のファイル形式等が含まれている。位置情報格納部17では、位置情報と画像とが関連付けられて記憶されている。該位置情報は、緯度経度を示すものであってもよいし、POI変換装置40から受信したPOIを示すものであってもよい。   The communication unit 11 has a function of communicating with the data display terminal 30, the POI conversion device 40, the character recognition device 50, the image recognition device 60, and the event estimation device 70. The communication unit 11 receives the captured image and the position information of the spot where the image is captured from the data display terminal 30. The communication unit 11 stores the metadata of the received image in the image metadata storage unit 16 and stores the received position information in the position information storage unit 17. The image metadata includes date and time information (that is, image creation date and time) when the image is recorded, an image file format, and the like. In the position information storage unit 17, the position information and the image are stored in association with each other. The position information may indicate latitude and longitude, or may indicate POI received from the POI conversion device 40.

通信部11は、POI変換装置40に対して、画像を撮像した地点の位置情報を含んだPOI変換要求を送信し、該要求に応じたPOI変換装置40からPOI情報(画像管理情報)を取得する。通信部11は、文字認識装置50に対して、画像を含んだ文字認識要求を送信し、該要求に応じた文字認識装置50から文字認識結果(画像管理情報)を取得する。通信部11は、画像認識装置60に対して、画像を含んだ画像認識要求を送信し、該要求に応じた画像認識装置60から画像認識結果(画像管理情報)を取得する。通信部11は、イベント推定装置70に対して、画像を記録(撮像)した地点のPOI及び画像を記録した日時情報を含んだイベント推定要求を送信し、該要求に応じたイベント推定装置70からイベント情報(画像管理情報)を取得する。このようにして、通信部11は、画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する。通信部11は、各画像管理情報を、コンテクスト推定に用いる推定用情報として推定用情報格納部18に格納すると共に、候補推定部13に推定要求を出力する。   The communication unit 11 transmits a POI conversion request including the position information of the point where the image is captured to the POI conversion device 40, and acquires POI information (image management information) from the POI conversion device 40 according to the request. To do. The communication unit 11 transmits a character recognition request including an image to the character recognition device 50, and acquires a character recognition result (image management information) from the character recognition device 50 in response to the request. The communication unit 11 transmits an image recognition request including an image to the image recognition device 60, and acquires an image recognition result (image management information) from the image recognition device 60 in response to the request. The communication unit 11 transmits an event estimation request including the POI of the point where the image is recorded (captured) and the date / time information when the image is recorded to the event estimation device 70, and the event estimation device 70 responding to the request transmits the event estimation request. Event information (image management information) is acquired. In this way, the communication unit 11 acquires a plurality of pieces of image management information indicating the time, place, or event related to the image. The communication unit 11 stores each piece of image management information in the estimation information storage unit 18 as estimation information used for context estimation, and outputs an estimation request to the candidate estimation unit 13.

グループ作成部12は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成する機能である。グループ作成部12は、最初にグルーピングの基準となる画像(基準画像)を決定する。グループ作成部12は、位置情報格納部17を参照することにより、基準画像との位置情報の差異が所定の範囲内である画像を抽出する。更に、グループ作成部12は、画像メタデータ格納部16を参照することにより、基準画像との日時情報の差異が所定の範囲内である画像を抽出する。そして、グループ作成部12は、基準画像との位置情報及び日時情報の差異がいずれも所定の範囲内である複数の画像をグルーピングして、画像グループを作成する。グループ作成部12は、グルーピングの結果を含んだ推定要求を、候補推定部13に出力する。なお、グループ作成部12は、画像に紐づく位置情報がない場合には、当該画像をグルーピングの対象から外すこととしてもよい。また、グループ作成部12は、画像が撮像された日時を含む予定が存在する旨の情報を取得している場合、同一の予定に係る画像をグルーピングしてもよい。   The group creating unit 12 has a function of creating an image group in which a plurality of images in which the position information of the point where the image is recorded and the date information when the image is recorded are within a predetermined range are grouped. The group creating unit 12 first determines an image (reference image) to be a grouping reference. The group creating unit 12 refers to the position information storage unit 17 to extract an image in which the difference in position information from the reference image is within a predetermined range. Further, the group creation unit 12 refers to the image metadata storage unit 16 to extract an image whose date / time information difference from the reference image is within a predetermined range. Then, the group creating unit 12 creates an image group by grouping a plurality of images in which the difference in position information and date / time information from the reference image is within a predetermined range. The group creation unit 12 outputs an estimation request including the grouping result to the candidate estimation unit 13. Note that the group creation unit 12 may exclude the image from the grouping target when there is no position information associated with the image. Moreover, the group creation part 12 may group the image which concerns on the same schedule, when the information to the effect that the schedule containing the date when the image was imaged exists is acquired.

図3は、グループ作成部12によるグルーピング処理の説明図である。図3の例では、A遊園地の写真である画像b1,s1,s2,b4と、B公園の写真である画像b2,s3がグルーピング対象の画像とされている。そして、図3中の時間軸tで示されるように、撮像されたタイミングは、画像b1,s1,s2,b2,s3,b4の順であり、全ての画像は日時情報の差異が所定の範囲内であるとする。この場合、例えば、基準画像との位置情報の差異が500m以内である場合に位置情報の差異が所定の範囲内であるとすると、基準画像である画像b1と、該画像b1から400m離れた場所で記録された画像s1,s2とが、同一の画像グループ(グループ1)とされる。一方で、画像b1から1000m離れたB公園の写真である画像b2は、グループ1ではないと判断される。そして、当該画像b2が新たな基準画像とされ、該画像b2と、該画像b2から200m離れた場所で記録された画像s3とが、同一の画像グループ(グループ2
とされる。そして、画像b2から1000m離れた場所で記録された画像b4は、グループ2ではないと判断され、新たなグループ3の基準画像とされる。
FIG. 3 is an explanatory diagram of the grouping process performed by the group creation unit 12. In the example of FIG. 3, images b1, s1, s2, and b4, which are photographs of A amusement park, and images b2, s3, which are photographs of Park B, are set as grouping target images. As shown by the time axis t in FIG. 3, the captured timing is in the order of images b1, s1, s2, b2, s3, and b4, and all images have a difference in date and time information within a predetermined range. Suppose that In this case, for example, if the difference in position information from the reference image is within 500 m and the difference in position information is within a predetermined range, the image b1 that is the reference image and a location that is 400 m away from the image b1 The images s1 and s2 recorded in step 1 are set to the same image group (group 1). On the other hand, it is determined that the image b2 which is a photograph of the park B 1000 m away from the image b1 is not the group 1. Then, the image b2 is set as a new reference image, and the image b2 and the image s3 recorded at a location 200 m away from the image b2 are the same image group (group 2).
It is said. The image b4 recorded at a location 1000 m away from the image b2 is determined not to be the group 2 and is set as a new group 3 reference image.

候補推定部13は、通信部11により取得されて推定用情報格納部18に格納された複数の画像管理情報(推定用情報)のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する機能である。正確性に関する所定の条件を満たす画像管理情報とは、ユーザの行動を適切に示すことができる画像管理情報をいう。候補推定部13は、通信部11によって推定用情報格納部18に格納されている推定用情報である各画像管理情報からコンテクスト候補を推定する。候補推定部13は、推定したコンテクスト候補が関連付けられた推定結果テーブル(後述)を含んだコンテクスト導出要求を、組み合わせ部14に出力する。候補推定部13は、文字認識推定部13aと、画像認識推定部13bと、POI推定部13cと、イベント推定部13dと、を有している。   The candidate estimation unit 13 is an image that satisfies a predetermined condition regarding the accuracy of the image management information among a plurality of pieces of image management information (estimation information) acquired by the communication unit 11 and stored in the estimation information storage unit 18. This function estimates management information as a context candidate. Image management information that satisfies a predetermined condition regarding accuracy refers to image management information that can appropriately indicate a user's behavior. The candidate estimation unit 13 estimates a context candidate from each piece of image management information that is estimation information stored in the estimation information storage unit 18 by the communication unit 11. The candidate estimation unit 13 outputs a context derivation request including an estimation result table (described later) associated with the estimated context candidate to the combination unit 14. The candidate estimation unit 13 includes a character recognition estimation unit 13a, an image recognition estimation unit 13b, a POI estimation unit 13c, and an event estimation unit 13d.

文字認識推定部13aは、推定用情報格納部18に格納されている文字認識結果を取得し、該文字認識結果に基づくコンテクスト候補である文字候補を推定する。具体的には、文字認識推定部13aは、文字認識結果に含まれているキーワードが予め定められたキーワード(対象キーワード)である場合に、該キーワードを、ユーザコンテクストを導出するための文字候補とする。対象キーワードは、ユーザの行動を適切に示すことができると考えられるキーワードとされる。例えば、図8(a)の画像で文字認識される「卒業式」のようなキーワードは、ユーザが参加するイベントを示しておりユーザの行動を適切に示すことができるため、対象キーワードとされる。一方で、図8(b)の画像で文字認識される「さつまかわしり」のような駅名を示すキーワード等は、ユーザの行動を適切に示しにくいため、対象キーワードとされない。文字認識推定部13aは、同様にして、文字認識結果に含まれているカテゴリが予め定められたカテゴリ(対象カテゴリ)である場合に該文字認識結果のカテゴリ及びキーワードを文字候補とする。   The character recognition estimation unit 13a acquires a character recognition result stored in the estimation information storage unit 18, and estimates a character candidate that is a context candidate based on the character recognition result. Specifically, when the keyword included in the character recognition result is a predetermined keyword (target keyword), the character recognition estimation unit 13a sets the keyword as a character candidate for deriving a user context. To do. The target keyword is a keyword considered to be able to appropriately indicate the user's behavior. For example, a keyword such as “Graduation Ceremony” that is recognized in the image of FIG. 8A indicates an event in which the user participates and can appropriately indicate the user's behavior, and thus is a target keyword. . On the other hand, a keyword or the like indicating a station name such as “Satsukawashiri” recognized in the image of FIG. 8B is not a target keyword because it is difficult to appropriately indicate the user's action. Similarly, when the category included in the character recognition result is a predetermined category (target category), the character recognition estimation unit 13a sets the character recognition result category and keyword as character candidates.

また、文字認識推定部13aは、グループ作成部12によって作成された画像グループ単位でも、文字認識結果から文字候補を推定する。具体的には、文字認識推定部13aは、同一の画像グループに含まれる画像単体の文字候補として最も数が多い文字を、該画像グループのグループコンテクスト(後述)を導出するための文字候補とする。或いは、同一の画像グループに含まれる画像単体の文字候補を全てリストアップし、全てを該画像グループのグループコンテクスト(後述)を導出するための文字候補としてもよい。   Moreover, the character recognition estimation part 13a estimates a character candidate from the character recognition result also in the image group unit created by the group creation part 12. Specifically, the character recognition estimating unit 13a sets the character having the largest number as a single character candidate included in the same image group as a character candidate for deriving a group context (described later) of the image group. . Alternatively, all the character candidates for a single image included in the same image group may be listed, and all may be used as character candidates for deriving a group context (described later) of the image group.

画像認識推定部13bは、推定用情報格納部18に格納されている画像認識結果を取得し、該画像認識結果に基づくコンテクスト候補である画像候補を推定する。具体的には、画像認識推定部13bは、同一の画像において画像認識された複数のオブジェクトのラベル及びスコアを取得し、スコアを昇順で並び替え、最もスコアの高いラベルを当該画像のラベルに決定すると共に、上位5つのスコアのラベルを、ユーザコンテクストを導出するための画像候補とする。或いは、画像認識推定部13bは、所定の閾値よりもスコアが高いラベルを画像候補としてもよい。例えば、スコアの閾値が0.9とされている場合に、図9(a)のコアラの写真で画像認識されたオブジェクト(ラベル:animal)のスコアが0.92であるとすると、当該オブジェクトのラベルは画像候補とされる。一方で、図9(b)のライオンとワニの置物の写真で画像認識されたオブジェクト(ラベル:animal)のスコアが0.44であるとすると、当該オブジェクトのラベルは画像候補とされない。画像候補が存在しない画像は、others画像であると判定される。判定された結果、画像単体において、画像候補が1つまたは複数になる場合と、画像候補が存在しない場合とがある。   The image recognition estimation unit 13b acquires an image recognition result stored in the estimation information storage unit 18, and estimates an image candidate that is a context candidate based on the image recognition result. Specifically, the image recognition estimation unit 13b acquires labels and scores of a plurality of objects recognized in the same image, rearranges the scores in ascending order, and determines the label with the highest score as the label of the image. In addition, the labels of the top five scores are used as image candidates for deriving the user context. Or the image recognition estimation part 13b is good also considering the label whose score is higher than a predetermined threshold as an image candidate. For example, when the score threshold is 0.9 and the score of an object (label: animal) recognized in the koala photograph in FIG. 9A is 0.92, The label is an image candidate. On the other hand, if the score of the object (label: animal) recognized in the photograph of the lion and crocodile figurine in FIG. 9B is 0.44, the label of the object is not an image candidate. An image for which no image candidate exists is determined to be the others image. As a result of the determination, there may be a case where one or a plurality of image candidates exist in a single image, or a case where no image candidate exists.

また、画像認識推定部13bは、グループ作成部12によって作成された画像グループ単位でも、画像認識結果からコンテクスト候補を推定する。具体的には、画像認識推定部13bは、同一の画像グループ内における最多の画像候補を、該画像グループのグループコンテクスト(後述)を導出するための画像候補とする。或いは、画像認識推定部13bは、同一の画像グループ内におけるスコアの総和が最も高いラベルを、該画像グループのグループコンテクスト(後述)を導出するための画像候補とする。また、画像認識推定部13bは、同一の画像グループ内における最多の画像候補を、該画像グループのグループコンテクスト(後述)を導出するための画像候補とすると共に、同数の画像候補があった場合には、スコアの総和が高い方を画像候補としてもよい。画像認識推定部13bは、上述したothers画像が閾値以上含まれている画像グループについては、グループコンテクスト(後述)を導出するための画像候補が存在しないと判定してもよい。例えば、スコアの閾値が0.9とされている場合に、図11(a)〜図11(d)の4つの画像からなる画像グループがあった場合、スコアが0.92の図11(a)の画像のみ閾値を超え、図11(b)〜図11(d)の画像のスコアは閾値を越えなかったとする。そして、others画像が含まれている割合の閾値が0.6(60%)であったとすると、いま、others画像が含まれている割合が0.75(75%)となるので、当該グループについては、グループコンテクスト(後述)を導出するための画像候補が存在しないと判定される。このように、画像グループ単位において、画像候補が1つまたは複数になる場合と、画像候補が存在しない場合とがある。   In addition, the image recognition estimation unit 13b estimates context candidates from the image recognition result even in units of image groups created by the group creation unit 12. Specifically, the image recognition estimation unit 13b sets the most image candidates in the same image group as image candidates for deriving a group context (described later) of the image group. Alternatively, the image recognition estimation unit 13b sets the label having the highest score sum in the same image group as an image candidate for deriving a group context (described later) of the image group. Further, the image recognition estimating unit 13b sets the most image candidates in the same image group as image candidates for deriving a group context (described later) of the image group, and when there are the same number of image candidates. The image candidate having a higher total score may be used as the image candidate. The image recognition estimation unit 13b may determine that there is no image candidate for deriving a group context (described later) for an image group that includes the above-described others image for a threshold value or more. For example, if the threshold value of the score is 0.9 and there is an image group consisting of the four images of FIGS. 11A to 11D, the score of FIG. ) Exceeds the threshold, and the scores of the images in FIGS. 11B to 11D do not exceed the threshold. Then, if the threshold of the ratio including the others image is 0.6 (60%), the ratio including the others image is now 0.75 (75%). Is determined that there is no image candidate for deriving a group context (described later). As described above, there are cases where one or a plurality of image candidates exist in image group units, and there are cases where no image candidates exist.

POI推定部13cは、推定用情報格納部18に格納されているPOI情報を取得し、該POI情報に基づくコンテクスト候補であるPOI候補を推定する。具体的には、POI推定部13cは、同一の画像についての複数のPOI情報それぞれについて、POIのチェックイン数を、POIから画像を記録した位置までの距離で割ったPOIスコアを算出し、該POIスコアが最も高いPOI情報を、ユーザコンテクストを導出するためのPOI候補とする。より詳細には、POI推定部13cは、POIスコアが最も高いPOI情報のPOI名称とPOIカテゴリとを、POI候補とする。なお、POI推定部13cは、POIスコアが同一のPOI情報が複数ある場合には、上記距離が短いPOI情報を当該画像のPOI候補としてもよい。或いは、POI推定部13cは、POIカテゴリが予め定められたキーワード(対象POIキーワード)である場合に該POIカテゴリをPOI候補としてもよい。例えば、対象POIキーワードに「野球場」が含まれており「飲食店」が含まれていない場合には、図10(a)の画像のPOIカテゴリ「野球場」はPOI候補とされ、図10(b)の画像のPOIカテゴリ「飲食店」はPOI候補とされない。   The POI estimation unit 13c acquires the POI information stored in the estimation information storage unit 18, and estimates a POI candidate that is a context candidate based on the POI information. Specifically, for each of a plurality of POI information for the same image, the POI estimation unit 13c calculates a POI score obtained by dividing the number of POI check-ins by the distance from the POI to the position where the image is recorded, POI information having the highest POI score is set as a POI candidate for deriving a user context. More specifically, the POI estimation unit 13c sets the POI name and POI category of the POI information with the highest POI score as the POI candidate. When there are a plurality of pieces of POI information having the same POI score, the POI estimation unit 13c may use the POI information with the short distance as a POI candidate for the image. Alternatively, the POI estimation unit 13c may use the POI category as a POI candidate when the POI category is a predetermined keyword (target POI keyword). For example, when the target POI keyword includes “baseball field” and does not include “restaurant”, the POI category “baseball field” in the image of FIG. 10A is set as a POI candidate. The POI category “Restaurant” in the image of (b) is not a POI candidate.

また、POI推定部13cは、グループ作成部12によって作成された画像グループ単位でも、POI情報からコンテクスト候補を推定する。具体的には、POI推定部13cは、同一の画像グループ内における最多のPOI候補を、画像グループのグループコンテクスト(後述)を導出するためのPOI候補として推定する。なお、POI推定部13cは、最多のPOI候補が複数ある場合には、POIスコアの総計が高いPOI候補を、画像グループのグループコンテクスト(後述)を導出するためのPOI候補として推定してもよい。   The POI estimation unit 13c also estimates the context candidates from the POI information even in the image group unit created by the group creation unit 12. Specifically, the POI estimation unit 13c estimates the most POI candidates in the same image group as POI candidates for deriving a group context (described later) of the image group. If there are a plurality of POI candidates, the POI estimation unit 13c may estimate a POI candidate having a high total POI score as a POI candidate for deriving a group context (described later) of the image group. .

イベント推定部13dは、推定用情報格納部18に格納されているイベント情報を取得し、該イベント情報に基づくコンテクスト候補であるイベント候補を推定する。具体的には、イベント推定部13dは、位置を示す情報が画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が画像を記録した日時情報と一致するイベント情報を、ユーザコンテクストを導出するためのイベント候補として推定する。イベント推定部13dは、まず推定用情報格納部18に格納されているPOI情報から、画像を記録した地点のPOIを取得すると共に、画像メタデータ格納部16に格納されている該画像を記録した日時情報を取得する。その後、イベント推定部13dは、推定用情報格納部18に格納されているイベント情報に、POI及び日時情報が一致するイベント情報があるか検索し、あれば、該イベント情報のイベント名及びイベントカテゴリを、該画像のイベント候補とする。   The event estimation unit 13d acquires event information stored in the estimation information storage unit 18, and estimates event candidates that are context candidates based on the event information. Specifically, the event estimation unit 13d displays event information in which the information indicating the position matches the position information of the point where the image is recorded and the information indicating the date and time matches the date and time information where the image is recorded. As an event candidate for deriving. The event estimation unit 13d first acquires the POI of the point where the image was recorded from the POI information stored in the estimation information storage unit 18, and recorded the image stored in the image metadata storage unit 16. Get date and time information. Thereafter, the event estimation unit 13d searches the event information stored in the estimation information storage unit 18 for event information that matches the POI and date / time information. If there is, the event name and event category of the event information are found. Are event candidates for the image.

また、イベント推定部13dは、グループ作成部12によって作成された画像グループ単位でも、イベント情報からコンテクスト候補を推定する。具体的には、イベント推定部13dは、POI及び日時情報が一致するイベント情報があれば、該イベント名及びイベントカテゴリを、該画像グループのグループコンテクスト(後述)を導出するためのイベント候補とする。ここで、画像グループ単位で日時情報の一致を判断する際には、日時情報が、画像グループに含まれる画像のうち日時情報が最も古い画像を記録した日時情報から、日時情報が最も新しい画像を記録した日時情報の間の日時を示す情報であるイベント情報の有無を判断する。   Further, the event estimation unit 13d estimates context candidates from the event information even in units of image groups created by the group creation unit 12. Specifically, if there is event information whose POI and date / time information match, the event estimation unit 13d sets the event name and event category as event candidates for deriving a group context (described later) of the image group. . Here, when determining whether the date / time information matches on an image group basis, the date / time information is obtained from the date / time information in which the image with the oldest date / time information is recorded among the images included in the image group. It is determined whether or not there is event information that is information indicating the date and time between the recorded date and time information.

上述したように、候補推定部13から組み合わせ部14に対しては、コンテクスト候補である文字候補、画像候補、POI候補、及びイベント候補が関連付けられた推定結果テーブルが出力される。図4は、推定結果テーブル180を示す表である。推定結果テーブル180では、画像IDと、画像候補と、POI候補と、位置情報と、日時情報と、文字候補と、市町村名と、イベント候補と、ファイル形式とが対応付けられている。   As described above, an estimation result table in which character candidates, image candidates, POI candidates, and event candidates that are context candidates are associated is output from the candidate estimation unit 13 to the combination unit 14. FIG. 4 is a table showing the estimation result table 180. In the estimation result table 180, an image ID, an image candidate, a POI candidate, position information, date / time information, a character candidate, a municipality name, an event candidate, and a file format are associated with each other.

画像IDとは、該画像を一意に特定する識別子である。画像候補、POI候補、文字候補、及びイベント候補とは、それぞれ、上述した画像認識推定部13b、POI推定部13c、文字認識推定部13a、及びイベント推定部13dにより推定されたコンテクスト候補である。なお、例えば画像ID「P0001」で示される画像は、POI候補について「B公園(公園)」とされている。当該「B公園」はPOI名称であり、「(公園)」はPOIカテゴリである。位置情報とは、位置情報格納部17に格納された該画像の位置情報と同様の情報である。日時情報とは、画像メタデータ格納部16に格納された該画像の日時情報である。市町村名とは、位置情報に基づき導出される市町村の名称である。ファイル形式とは、画像メタデータ格納部16に格納された該画像のファイル形式である。なお、当該推定結果テーブル180は、画像単体のユーザコンテクスト導出に係る推定結果テーブルであるので、グループ単位のコンテクスト候補を含んでいない。   The image ID is an identifier that uniquely identifies the image. The image candidate, the POI candidate, the character candidate, and the event candidate are context candidates estimated by the above-described image recognition estimation unit 13b, POI estimation unit 13c, character recognition estimation unit 13a, and event estimation unit 13d, respectively. For example, the image indicated by the image ID “P0001” is “B park (park)” for the POI candidate. The “B park” is a POI name, and “(park)” is a POI category. The position information is the same information as the position information of the image stored in the position information storage unit 17. The date / time information is the date / time information of the image stored in the image metadata storage unit 16. The municipality name is the name of the municipality derived based on the location information. The file format is a file format of the image stored in the image metadata storage unit 16. Note that the estimation result table 180 is an estimation result table related to derivation of a user context of a single image, and therefore does not include group-unit context candidates.

組み合わせ部14は、通信部11により取得された複数の画像管理情報を組み合わせることにより、当該画像に係るユーザの行動を示すユーザコンテクストを導出する機能である。より詳細には、組み合わせ部14は、複数の画像管理情報のうち、候補推定部13によりコンテクスト候補とされた画像管理情報を組み合わせることにより、ユーザコンテクストを導出する。そして、組み合わせ部14は、導出したユーザコンテクストに応じたタグを画像に関連付けたタグ付け結果テーブル(後述)を含んだカテゴリ付与要求を、カテゴリ付与部15に出力する。タグとは、画像に関する具体的な情報要素であり、画像の検索キーとなる情報である。導出したユーザコンテクストとタグとは、同一のキーワードであってもよいし、対応する異なるキーワードであってもよい。   The combination unit 14 is a function for deriving a user context indicating a user's action related to the image by combining a plurality of pieces of image management information acquired by the communication unit 11. More specifically, the combination unit 14 derives a user context by combining the image management information that has been made a context candidate by the candidate estimation unit 13 among the plurality of image management information. Then, the combination unit 14 outputs a category assignment request including a tagging result table (described later) in which a tag corresponding to the derived user context is associated with an image to the category assignment unit 15. A tag is a specific information element related to an image, and is information serving as a search key for the image. The derived user context and tag may be the same keyword, or may be different corresponding keywords.

組み合わせ部14は、推定結果テーブル(例えば図4参照)を参照することにより、画像に関連付けられたコンテクスト候補を特定する。例えば、図4における画像IDが「P0001」の画像については、コンテクスト候補として、画像候補である「park」、POI候補である「B公園(公園)」、文字候補である「運動会」が特定される。そして、これらのコンテクスト候補が組み合わせることにより、「公園」とのユーザコンテクストが導出される。このような、コンテクスト候補を組み合わせたユーザコンテクストの導出は、例えば、コンテクスト候補の組み合わせ(複数のコンテクスト候補)とユーザコンテクストとを関連付けたテーブルを用いることにより導出されてもよい。このようなテーブルを参照することにより、コンテクスト候補の組み合わせから、ユーザコンテクストを一意に定めることができる。また、導出されたユーザコンテクスト「公園」に応じて、タグ「公園」が付与される。タグは、例えばユーザコンテクストとタグとが関連付けられたテーブルに基づいて付与される。   The combination unit 14 identifies a context candidate associated with the image by referring to an estimation result table (for example, see FIG. 4). For example, for the image with the image ID “P0001” in FIG. 4, “park” as the image candidate, “B park (park)” as the POI candidate, and “athletic meet” as the character candidate are specified as the context candidates. The Then, by combining these context candidates, a user context with “park” is derived. Such derivation of the user context combining the context candidates may be derived, for example, by using a table in which the combination of context candidates (a plurality of context candidates) is associated with the user context. By referring to such a table, a user context can be uniquely determined from a combination of context candidates. In addition, the tag “park” is given according to the derived user context “park”. A tag is given based on a table in which a user context and a tag are associated, for example.

また、組み合わせ部14は、グループ作成部12によりグルーピングされた画像グループ毎に、画像グループに含まれる画像の画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出する。より詳細には、組み合わせ部14は、画像グループ単位のコンテクスト候補(文字候補、画像候補、POI候補、及びイベント候補)とされた画像管理情報を組み合わせることにより、グループコンテクストを導出する。そして、組み合わせ部14は、導出したグループコンテクストに応じたタグを画像グループと関連付けたタグ付け管理テーブルを含んだカテゴリ付与要求を、カテゴリ付与部15に出力する。   Further, the combination unit 14 derives a group context indicating the user's action for each image group grouped by the group creation unit 12 based on the image management information of the images included in the image group. More specifically, the combination unit 14 derives a group context by combining image management information that is a context candidate (character candidate, image candidate, POI candidate, and event candidate) in units of image groups. Then, the combination unit 14 outputs a category assignment request including a tagging management table in which a tag corresponding to the derived group context is associated with an image group to the category assignment unit 15.

カテゴリ付与部15は、一又は複数のユーザコンテクストを上位概念で規定したカテゴリを画像に関連付ける機能である。カテゴリ付与部15は、組み合わせ部14から入力されたタグ付け管理テーブルにおいて、画像にカテゴリを関連付ける。カテゴリ付与部15は、例えば1つのカテゴリと複数のユーザコンテクストとが対応づけらられたテーブルに基づいて、ユーザコンテクストからカテゴリを導出する。なお、カテゴリ付与部15は、複数のユーザコンテクストが関連付けられた画像に対しては複数のカテゴリを導出してもよい。   The category assigning unit 15 is a function for associating an image with a category in which one or a plurality of user contexts are defined by a higher concept. The category assigning unit 15 associates a category with an image in the tagging management table input from the combination unit 14. The category assigning unit 15 derives a category from the user context based on, for example, a table in which one category is associated with a plurality of user contexts. The category assigning unit 15 may derive a plurality of categories for an image associated with a plurality of user contexts.

図12は、カテゴリ付与の一例を説明する図である。例えば、図12(a)〜(c)の画像はいずれも「B公園」「公園」とのユーザコンテクストが関連付けられている。カテゴリ付与部15は、これらの画像に対して、図12(d)に示す「おでかけ」カテゴリを関連付ける。また、図12(b)の画像は「ランチ」とのユーザコンテクストが関連付けられている。カテゴリ付与部15は、この画像に対して、図12(e)に示す「食事」カテゴリを関連付ける。   FIG. 12 is a diagram for explaining an example of category assignment. For example, all the images in FIGS. 12A to 12C are associated with user contexts “B park” and “park”. The category assigning unit 15 associates the “outing” category shown in FIG. 12D with these images. In addition, the image of FIG. 12B is associated with a user context “lunch”. The category assigning unit 15 associates the “meal” category shown in FIG.

また、カテゴリ付与部15は、一又は複数のグループコンテクストを上位概念で規定したカテゴリを画像グループに関連付ける。カテゴリ付与部15は、組み合わせ部14から入力されたタグ付け管理テーブルにおいて、画像グループにカテゴリを関連付ける。   The category assigning unit 15 associates a category that defines one or more group contexts with a superordinate concept with an image group. The category assigning unit 15 associates the category with the image group in the tagging management table input from the combination unit 14.

図5は、タグ付け結果テーブル190を示す表である。図5に示されるように、タグ付け結果テーブル190では、画像IDと、画像単体のタグ付け結果と、画像単体のカテゴリと、画像候補と、POI候補と、文字候補と、市町村名と、イベント候補と、ファイル形式とが関連付けられている。なお、図5に示すタグ付け結果テーブル190では、画像単体についての各コンテクスト候補(文字候補、画像候補、POI候補、及びイベント候補)のみ記憶されているが、画像グループ単位でタグ付け及びカテゴリ付与を行う場合には、タグ付け結果テーブルにおいて画像グループ単位の各コンテクスト候補についても記憶される(後述)。   FIG. 5 is a table showing the tagging result table 190. As shown in FIG. 5, in the tagging result table 190, the image ID, the tagging result of the single image, the category of the single image, the image candidate, the POI candidate, the character candidate, the municipality name, the event Candidates are associated with file formats. In the tagging result table 190 shown in FIG. 5, only the context candidates (character candidates, image candidates, POI candidates, and event candidates) for a single image are stored, but tagging and category assignment are performed in units of image groups. In the tagging result table, each context candidate for each image group is also stored (described later).

上述したように、タグ付け装置10では、画像単体でのタグ付け及び画像グループ単位でのタグ付けが行われる。以下では、図6及び図7を参照して、画像単体でのタグ付け及び画像グループ単位でのタグ付けの一例を説明する。図6は、画像単体でタグ付けを行う一例の説明図である。図7は、画像グループ単位でタグ付けを行う一例の説明図である。   As described above, the tagging device 10 performs tagging on an image basis and tagging on an image group basis. Hereinafter, with reference to FIGS. 6 and 7, an example of tagging in units of images and tagging in units of image groups will be described. FIG. 6 is an explanatory diagram of an example of performing tagging with a single image. FIG. 7 is an explanatory diagram of an example of performing tagging in units of image groups.

図6(a)は画像の一例を示す図であり、図6(b)は図6(a)に示す画像(画像ID:P0001)に関する推定結果テーブル181を示す表であり、図6(c)は図6(a)に示す画像(画像ID:P0001)に関するタグ付け結果テーブル191を示す表である。   6A is a diagram illustrating an example of an image, and FIG. 6B is a table illustrating an estimation result table 181 related to the image (image ID: P0001) illustrated in FIG. 6A. ) Is a table showing a tagging result table 191 related to the image (image ID: P0001) shown in FIG.

図6(b)の推定結果テーブル181に示されるように、画像IDが「P0001」の画像について、画像候補として「park」が、POI候補として「B公園(公園)」が、それぞれ関連付けられている。そして、当該推定結果テーブル181に応じて、図6(c)のタグ付け結果テーブル191が導出されている。図6(c)のタグ付け結果テーブル191に示されるように、画像IDが「P0001」の画像について、画像単体のタグ付け結果として「公園」が、画像単体のカテゴリとして「おでかけ」が、それぞれ関連付けられている。当該画像単体のタグ付け結果「公園」は、上述したコンテクスト候補である「park」及び「B公園(公園)」に基づいて導出されるユーザコンテクスト「公園」に応じたものである。また、当該画像単体のカテゴリである「おでかけ」は、上述したユーザコンテクスト「公園」に応じたものである。   As shown in the estimation result table 181 in FIG. 6B, for the image with the image ID “P0001”, “park” is associated with the image candidate and “B park (park)” is associated with the POI candidate. Yes. Then, the tagging result table 191 in FIG. 6C is derived according to the estimation result table 181. As shown in the tagging result table 191 in FIG. 6C, for the image with the image ID “P0001”, “Park” is the tagging result of the single image, and “Outing” is the category of the single image, respectively. Associated. The tagging result “park” of the image alone corresponds to the user context “park” derived based on the above-described context candidates “park” and “B park (park)”. Further, “outing” which is a category of the image alone corresponds to the above-described user context “park”.

図7(a)〜図7(c)は画像の一例を示す図であり、図7(d)は図7(a)〜図7(c)に示す画像(画像ID:P0001〜P0003)に関する推定結果テーブル182を示す表であり、図7(e)は図7(a)〜図7(c)に示す画像(画像ID:P0001〜P0003)に関するタグ付け結果テーブル192を示す表である。画像ID:P0001〜P0003の各画像は、同一の画像グループ(グループID:G0001)に含まれている。なお、図7(d)及び図7(e)においては、画像単体の各コンテクスト候補のみ記載しているが、実際には、これらのテーブルでは、画像グループ単位の各コンテクスト候補についても記憶されている。   FIGS. 7A to 7C are diagrams showing examples of images, and FIG. 7D relates to the images (image IDs: P0001 to P0003) shown in FIGS. 7A to 7C. 7E is a table showing an estimation result table 182, and FIG. 7E is a table showing a tagging result table 192 relating to images (image IDs: P0001 to P0003) shown in FIGS. 7A to 7C. The images with image IDs P0001 to P0003 are included in the same image group (group ID: G0001). 7 (d) and 7 (e), only the context candidates for the single image are described, but in reality, the context candidates for each image group are also stored in these tables. Yes.

図7(d)の推定結果テーブル182に示されるように、画像IDが「P0001」「P0003」の画像について、画像候補として「park」が、POI候補として「B公園(公園)」が、それぞれ関連付けられている。また、画像IDが「P0002」の画像について、画像候補として「meal」が、POI候補として「B公園(公園)」がそれぞれ関連付けられている。   As shown in the estimation result table 182 in FIG. 7D, for the images with the image IDs “P0001” and “P0003”, “park” is the image candidate, and “B park (park)” is the POI candidate, Associated. For the image with the image ID “P0002”, “meal” is associated with the image candidate, and “B park (park)” is associated with the POI candidate.

そして、当該推定結果テーブル182においては、当該画像グループにおける最多の画像候補である「park」が、画像グループのグループコンテクストを導出するための画像候補とされる。また、当該推定結果テーブル182においては、当該画像グループにおける最多のPOI候補である「B公園(公園)」が、画像グループのグループコンテクストを導出するためのPOI候補とされる。当該画像グループのグループコンテクストを導出するための画像候補及びPOI候補は、図7(d)中には記載されていないが、実際には推定結果テーブル182において記憶されている。   In the estimation result table 182, “park”, which is the most image candidate in the image group, is set as an image candidate for deriving the group context of the image group. In the estimation result table 182, “B park (park)” which is the most POI candidate in the image group is set as a POI candidate for deriving the group context of the image group. Image candidates and POI candidates for deriving the group context of the image group are not described in FIG. 7D, but are actually stored in the estimation result table 182.

当該推定結果テーブル182に応じて、図7(e)のタグ付け結果テーブル192が導出されている。図7(e)のタグ付け結果テーブル192に示されるように、画像IDが「P0001」「P0003」の画像については、画像単体のタグ付け結果として「公園」が、画像単体のカテゴリとして「おでかけ」が、それぞれ関連付けられている。当該画像単体のタグ付け結果「公園」は、上述したコンテクスト候補である「park」及び「B公園(公園)」に基づいて導出されるユーザコンテクスト「公園」に応じたものである。当該画像単体のカテゴリである「おでかけ」は、上述したユーザコンテクスト「公園」に応じたものである。また、画像IDが「P0002」の画像については、画像単体のタグ付け結果として「ランチ」が、画像単体のカテゴリとして「食事」が、それぞれ関連付けられている。当該画像単体のタグ付け結果「ランチ」は、上述したコンテクスト候補である「meal」及び「B公園(公園)」に基づいて導出されるユーザコンテクスト「公園」に応じたものである。当該画像単体のカテゴリ「食事」は、上述したユーザコンテクスト「ランチ」に応じたものである。   The tagging result table 192 shown in FIG. 7E is derived according to the estimation result table 182. As shown in the tagging result table 192 of FIG. 7E, for the images with the image IDs “P0001” and “P0003”, “park” as the single image tagging result and “outing” as the single image category. Are associated with each other. The tagging result “park” of the image alone corresponds to the user context “park” derived based on the above-described context candidates “park” and “B park (park)”. “Odekake” which is a category of the single image corresponds to the user context “park” described above. For the image with the image ID “P0002”, “lunch” is associated with the tagging result of the single image, and “meal” is associated with the category of the single image. The tagging result “lunch” of the image alone corresponds to the user context “park” derived based on the above-described context candidates “meal” and “B park (park)”. The category “meal” of the single image corresponds to the above-described user context “lunch”.

更に、図7(e)のタグ付け結果テーブル192に示されるように、各画像を含む画像グループ単位でもタグ及びカテゴリの関連付けが行われており、画像グループのタグ付け結果として「公園」が、画像グループのカテゴリとして「おでかけ」が導出されている。当該画像グループのタグ付け結果「公園」は、上述した画像グループ単位のコンテクスト候補である「park」及び「B公園(公園」に基づいて導出されるグループコンテクスト「公園」に応じたものである。当該画像グループのカテゴリである「おでかけ」は、上述したグループコンテクスト「公園」に応じたものである。   Furthermore, as shown in the tagging result table 192 of FIG. 7 (e), tags and categories are also associated with each image group including each image. As a result of tagging the image group, “park” “Outing” is derived as the category of the image group. The tagging result “park” of the image group corresponds to the group context “park” derived based on the above-mentioned image group unit context candidates “park” and “B park (park)”. “Odekake” which is the category of the image group corresponds to the group context “park” described above.

なお、画像IDが「P0001」「P0003」の画像については、画像単体のタグ付け結果「公園」と、画像グループ単位のタグ付け結果「公園」とが重複しており、また、画像単体のカテゴリ「おでかけ」と、画像グループ単位のカテゴリ「おでかけ」とが重複している。このように、画像単体の推定結果と画像グループ単位の推定結果とが重複している場合には、図7(a)及び図7(c)に示されるように、重複した結果の一方が非表示とされる(図7(a)及び図7(c)における破線部分が非表示箇所)。   For the images with the image IDs “P0001” and “P0003”, the tagging result “park” for the single image and the tagging result “park” for each image group overlap, and the category of the single image “Outing” and the category “outing” for each image group overlap. In this way, when the estimation result of the single image and the estimation result of the image group unit overlap, as shown in FIG. 7A and FIG. Display is made (the broken line portion in FIGS. 7A and 7C is a non-display location).

次に、図13を参照して、タグ付け装置10によるタグ付け処理を説明する。図13は、タグ付け装置10の処理を示すフローチャートである。   Next, tagging processing by the tagging device 10 will be described with reference to FIG. FIG. 13 is a flowchart showing the processing of the tagging device 10.

タグ付け装置10のタグ付け処理では、最初に、通信部11によりコンテクスト推定に用いる推定用情報が取得される(ステップS1)。具体的には、通信部11は、POI変換装置40から画像のPOI情報(画像管理情報)を、文字認識装置50から文字認識結果(画像管理情報)を、画像認識装置60から画像認識結果(画像管理情報)を、イベント推定装置70からイベント情報(画像管理情報)を、推定用情報として、それぞれ取得する。通信部11は、当該推定用情報を推定用情報格納部18に格納する。   In the tagging process of the tagging device 10, first, estimation information used for context estimation is acquired by the communication unit 11 (step S1). Specifically, the communication unit 11 receives the POI information (image management information) of the image from the POI conversion device 40, the character recognition result (image management information) from the character recognition device 50, and the image recognition result (image management information) from the image recognition device 60. Image management information) and event information (image management information) from the event estimation device 70 as information for estimation. The communication unit 11 stores the estimation information in the estimation information storage unit 18.

つづいて、POI推定部13cによりPOI推定が行われ(ステップS2)、画像認識推定部13bにより画像認識推定が行われ(ステップS3)、文字認識推定部13aにより文字認識推定が行われる(ステップS4)。また、図13中には記載していないが、イベント推定部13dによりイベント推定が行われてもよい。そして、画像単位のコンテクスト候補を含む推定結果は、候補推定部13により組み合わせ部14に出力される(ステップS5)。   Subsequently, POI estimation is performed by the POI estimation unit 13c (step S2), image recognition estimation is performed by the image recognition estimation unit 13b (step S3), and character recognition estimation is performed by the character recognition estimation unit 13a (step S4). ). Although not shown in FIG. 13, event estimation may be performed by the event estimation unit 13d. And the estimation result containing the context candidate of an image unit is output to the combination part 14 by the candidate estimation part 13 (step S5).

ここで、上述した候補推定部13の各構成である文字認識推定部13a、画像認識推定部13b、POI推定部13c、及びイベント推定部13dの詳細な処理について、図14〜図17を参照して説明する。図14は、文字認識推定部13aの処理の詳細を示すフローチャートである。図15は、画像認識推定部13bの処理の詳細を示すフローチャートである。図16は、POI推定部13cの処理の詳細を示すフローチャートである。図17は、イベント推定部13dの処理の詳細を示すフローチャートである。   Here, the detailed processing of the character recognition estimation unit 13a, the image recognition estimation unit 13b, the POI estimation unit 13c, and the event estimation unit 13d, which are the components of the candidate estimation unit 13 described above, will be described with reference to FIGS. I will explain. FIG. 14 is a flowchart showing details of processing of the character recognition estimating unit 13a. FIG. 15 is a flowchart showing details of processing of the image recognition estimation unit 13b. FIG. 16 is a flowchart showing details of the processing of the POI estimation unit 13c. FIG. 17 is a flowchart showing details of processing of the event estimation unit 13d.

図14に示されるように、文字認識推定部13aでは、推定用情報格納部18に格納されている文字認識結果が取得される(ステップS70)。そして、文字認識推定部13aにより、予め定められたカテゴリが検索され、文字認識結果において判別されたキーワードに関連付けられたカテゴリが、予め定められたカテゴリであるか否かが判断される(ステップS71)。当該予め定められたカテゴリである場合には、文字認識結果において判別されたキーワード及びカテゴリが、文字候補とされる。そして、文字認識推定部13aにより、予め定められたキーワードが検索され、文字認識結果において判別されたキーワードが、予め定められたキーワードであるか否かが判断される(ステップS72)。当該予め定められたキーワードである場合には、文字認識結果において判別されたキーワードが、文字候補として取得される。   As shown in FIG. 14, the character recognition estimation unit 13a obtains the character recognition result stored in the estimation information storage unit 18 (step S70). Then, the character recognition estimating unit 13a searches for a predetermined category, and determines whether or not the category associated with the keyword determined in the character recognition result is the predetermined category (step S71). ). In the case of the predetermined category, the keyword and category determined in the character recognition result are set as character candidates. Then, the character recognition estimating unit 13a searches for a predetermined keyword, and determines whether or not the keyword determined in the character recognition result is a predetermined keyword (step S72). In the case of the predetermined keyword, the keyword determined in the character recognition result is acquired as a character candidate.

図15に示されるように、画像認識推定部13bでは、推定用情報格納部18に格納されている画像認識結果のラベルとスコアが取得される(ステップS60)。そして、画像認識推定部13bにより、画像認識結果のラベルがスコアの昇順で並び替えられ(ステップS61)、最もスコアの高いラベルが画像のラベルに決定される(ステップS62)。最後に、画像認識推定部13bによりスコアの上位5件の画像認識結果が、画像候補として取得される(ステップS63)。   As shown in FIG. 15, in the image recognition estimation unit 13b, the label and score of the image recognition result stored in the estimation information storage unit 18 are acquired (step S60). Then, the image recognition estimation unit 13b rearranges the labels of the image recognition results in ascending order of scores (step S61), and determines the label with the highest score as the image label (step S62). Finally, the top five image recognition results of the score are acquired as image candidates by the image recognition estimation unit 13b (step S63).

図16に示されるように、POI推定部13cでは、推定用情報格納部18に格納されているPOI情報が取得される(ステップS50)。そして、POI推定部13cにより、POIのチェックイン数を、POIまでの距離で割ったPOIスコアが算出される(ステップS51)。POI推定部13cは、最もスコアの高いPOIを当該画像のPOI候補と推定する(ステップS52)。より詳細には、POI推定部13cは、POIスコアが最も高いPOI情報のPOI名称とPOIカテゴリとを、POI候補として取得する(ステップS53)。   As shown in FIG. 16, the POI estimation unit 13c acquires the POI information stored in the estimation information storage unit 18 (step S50). Then, the POI estimation unit 13c calculates a POI score obtained by dividing the number of POI check-ins by the distance to the POI (step S51). The POI estimation unit 13c estimates the POI with the highest score as a POI candidate for the image (step S52). More specifically, the POI estimation unit 13c acquires the POI name and POI category of the POI information with the highest POI score as a POI candidate (step S53).

図17に示されるように、イベント推定部13dでは、推定用情報格納部18に格納されているPOI情報が取得される(ステップS80)。そして、イベント推定部13dにより、画像メタデータ格納部16から画像を記録した日時情報が取得されると共に、推定用情報格納部18に格納されているイベント情報に、POI及び日時情報が一致するイベント情報があるか否かが判定される(ステップS81)。S81において一致するイベント情報がない場合には処理が終了する。一方で、S81において一致するイベント情報がある場合には、イベント推定部13dにより、画像に紐づくイベント情報が特定され(ステップS82)、該イベント情報のイベント名及びイベントカテゴリが、該画像のイベント候補として取得される(ステップS83)。以上が、候補推定部13の各構成の処理である。   As shown in FIG. 17, the event estimation unit 13d acquires the POI information stored in the estimation information storage unit 18 (step S80). Then, the event estimation unit 13d acquires the date / time information when the image is recorded from the image metadata storage unit 16, and the event whose POI and date / time information match the event information stored in the estimation information storage unit 18 It is determined whether there is information (step S81). If there is no matching event information in S81, the process ends. On the other hand, if there is matching event information in S81, the event estimation unit 13d specifies event information associated with the image (step S82), and the event name and event category of the event information indicate the event information of the image. Obtained as a candidate (step S83). The above is the process of each component of the candidate estimation unit 13.

図13に戻り、S5の処理が完了すると、組み合わせ部14によって、候補推定部13によりコンテクスト候補とされた画像管理情報が組み合わせられ、画像単位のユーザコンテクストが推定(導出)される(ステップS6)。そして、組み合わせ部14により、ユーザコンテクストに応じたタグ付けが行われる(ステップS7)。具体的には、組み合わせ部14は、導出したユーザコンテクストに応じたタグを画像に関連付けたタグ付け結果テーブルを含んだカテゴリ付与要求を、カテゴリ付与部15に出力する。そして、カテゴリ付与部15において、一又は複数のユーザコンテクストを上位概念で規定したカテゴリが画像に関連付けられる。ここまでの処理は、画像単位のタグ付け処理である。以下では、画像グループ単位のタグ付け処理について説明する。   Returning to FIG. 13, when the process of S5 is completed, the combination unit 14 combines the image management information that has been made the context candidate by the candidate estimation unit 13, and estimates (derived) the user context in units of images (step S6). . And the tagging according to a user context is performed by the combination part 14 (step S7). Specifically, the combination unit 14 outputs a category assignment request including a tagging result table in which a tag corresponding to the derived user context is associated with an image to the category assignment unit 15. And in the category provision part 15, the category which prescribed | regulated the one or some user context by the high-order concept is linked | related with an image. The processing so far is tagging processing in units of images. Hereinafter, tagging processing in units of image groups will be described.

タグ付け装置10の画像グループ単位のタグ付け処理では、まず、グループ作成部12により画像グループが作成される(ステップS8)。具体的には、グループ作成部12は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成する。   In the tagging process for each image group of the tagging apparatus 10, first, an image group is created by the group creation unit 12 (step S8). Specifically, the group creating unit 12 creates an image group in which a plurality of images in which the position information of the point where the image is recorded and the date and time information when the image is recorded are within a predetermined range are grouped.

つづいて、候補推定部13の各構成により、画像グループ単位でのコンテクスト候補が推定される。すなわち、POI推定部13cにより、同一の画像グループ内における最多のPOI候補が、画像グループのグループコンテクストを導出するためのPOI候補として特定される(ステップS9)。また、イベント推定部13dにより、POI及び日時情報が一致するイベント情報が、画像グループのグループコンテクストを導出するためのイベント候補として特定される(ステップS10)。また、画像認識推定部13bにより、同一の画像グループ内におけるスコアの総和が最も高いラベルが、画像グループのグループコンテクストを導出するための画像候補として特定される(ステップS11)。更に、文字認識推定部13aにより、同一の画像グループに含まれる文字候補が全てリストアップされ、画像グループのグループコンテクストを導出するための文字候補として特定される(ステップS12)。   Subsequently, context candidates for each image group are estimated by each configuration of the candidate estimation unit 13. That is, the POI estimation unit 13c identifies the most POI candidates in the same image group as POI candidates for deriving the group context of the image group (step S9). Further, the event estimation unit 13d identifies event information having the same POI and date / time information as an event candidate for deriving the group context of the image group (step S10). Further, the image recognition estimation unit 13b identifies the label having the highest total score in the same image group as an image candidate for deriving the group context of the image group (step S11). Further, the character recognition estimating unit 13a lists all the character candidates included in the same image group and specifies them as character candidates for deriving the group context of the image group (step S12).

そして、組み合わせ部14によって、候補推定部13によりグループコンテクストを導出するためのコンテクスト候補とされた画像管理情報が組み合わせられ、グループコンテクストが推定(導出)される(ステップS13)。その後、組み合わせ部14により、グループコンテクストに応じたタグ付けが行われ(ステップS14)、カテゴリ付与部15において、一又は複数のグループコンテクストを上位概念で規定したカテゴリが画像グループに関連付けられる(ステップS15)。   Then, the combination management unit 14 combines the image management information set as context candidates for deriving the group context by the candidate estimation unit 13, and estimates (derives) the group context (step S13). Thereafter, the combination unit 14 performs tagging in accordance with the group context (step S14), and the category assigning unit 15 associates a category that defines one or a plurality of group contexts with a higher concept (step S15). ).

次に、実施形態に係るタグ付け装置10の作用効果について説明する。   Next, the effect of the tagging apparatus 10 according to the embodiment will be described.

本実施形態に係るタグ付け装置10は、画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する通信部11と、通信部11により取得された複数の画像管理情報を組み合わせることにより、画像に係るユーザの行動を示すユーザコンテクストを導出する組み合わせ部14と、を備える。   The tagging apparatus 10 according to the present embodiment combines a communication unit 11 that acquires a plurality of image management information indicating time, place, or event related to an image and a plurality of image management information acquired by the communication unit 11. And a combination unit 14 for deriving a user context indicating the user's behavior related to the image.

このタグ付け装置10では、複数の画像管理情報、すなわちいつ、どこで、何をしていたかを示す情報が組み合わされて、画像に係るユーザの行動を示すユーザコンテクストが導出される。このようなユーザコンテクストを画像検索に用いることにより、例えば、日時や場所などの情報を単体で画像に関連付けて画像検索を行う場合と比較して、より画像と整合した(画像におけるユーザの行動に則した)情報に基づいて画像検索を行うことができる。このことにより、画像検索の精度を向上させることができる。   In the tagging device 10, a plurality of pieces of image management information, that is, information indicating when, where, and what is being combined is combined to derive a user context indicating the user's action related to the image. By using such a user context for image search, for example, compared to the case where image search is performed by associating information such as date and place with an image alone, it is more consistent with the image. Image retrieval can be performed on the basis of information. As a result, the accuracy of the image search can be improved.

タグ付け装置10は、画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成するグループ作成部12を更に備え、組み合わせ部14は、画像グループ毎に、画像グループに含まれる画像の画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出する。   The tagging apparatus 10 further includes a group creating unit 12 that creates an image group in which a plurality of images in which the position information of the point where the image is recorded and the date and time information when the image is recorded are within a predetermined range are combined. The unit 14 derives, for each image group, a group context indicating the user's behavior based on the image management information of the images included in the image group.

位置及び日時を考慮したグループ単位でグループコンテクストを導出することにより、共通のイベント(出来事)に係る画像を同一の検索結果とし易くなる。すなわち、例えばイベントの最中に昼食をとった場合などにおいて、共通のイベントであるにもかかわらず位置等が少し異なることを理由として別の検索結果となる(ばらばらに出力される)ことを抑制することができる。また、例えば画像単体のユーザコンテクストについて誤認識や推定誤り等があった場合であっても、複数の画像のユーザコンテクストを考慮することによって、一部の誤りを無視できるため、画像検索の精度をより向上させることができる。   By deriving a group context for each group in consideration of the position and date and time, images related to a common event (event) can be easily obtained as the same search result. In other words, for example, if you have lunch in the middle of an event, it is possible to suppress another search result (output separately) because the location is a little different even though it is a common event. can do. In addition, for example, even when there is a misrecognition or estimation error in the user context of a single image, some errors can be ignored by considering the user context of a plurality of images, so the accuracy of image search is improved. It can be improved further.

タグ付け装置10は、通信部11により取得された複数の画像管理情報のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する候補推定部13を更に備え、組み合わせ部14は、複数の画像管理情報のうち、候補推定部13によりコンテクスト候補とされた画像管理情報を組み合わせることにより、ユーザコンテクスト及びグループコンテクストを導出する。   The tagging apparatus 10 further includes a candidate estimation unit 13 that estimates, as a context candidate, image management information that satisfies a predetermined condition regarding the accuracy of the image management information among the plurality of image management information acquired by the communication unit 11. The combining unit 14 derives a user context and a group context by combining the image management information that is selected as a context candidate by the candidate estimation unit 13 among the plurality of image management information.

組み合わせる対象の画像管理情報を無作為に選択するのではなく、画像管理情報としての精度が高い情報を用いることにより、画像検索の精度をより向上させることができる。   Rather than randomly selecting image management information to be combined, the accuracy of image search can be further improved by using information with high accuracy as image management information.

複数の画像管理情報には、画像に関する画像認識結果が複数含まれており、候補推定部13は、画像に関する画像認識結果に基づくコンテクスト候補である画像候補を推定する画像認識推定部13bを有し、画像認識推定部13bは、画像に関する画像認識結果において、類似度合いを示すスコアが所定の閾値以上であるオブジェクトを示す情報を、ユーザコンテクストを導出するための画像候補として推定し、同一画像グループ内における最多の画像候補を、該画像グループのグループコンテクストを導出するための画像候補として推定する。   The plurality of image management information includes a plurality of image recognition results regarding the image, and the candidate estimation unit 13 includes an image recognition estimation unit 13b that estimates an image candidate that is a context candidate based on the image recognition result regarding the image. The image recognition estimation unit 13b estimates information indicating an object whose score indicating the degree of similarity is equal to or greater than a predetermined threshold in the image recognition result regarding the image as an image candidate for deriving the user context, and within the same image group. Are estimated as image candidates for deriving the group context of the image group.

類似度合いを示すスコアが高い情報を画像候補とすることにより、画像管理情報としての精度が高いものを組み合わせてユーザコンテクストを導出することができ、画像検索の精度をより向上させることができる。すなわち、例えば撮像時にぶれてしまった画像(写真)等が画像候補とされてユーザコンテクストが導出されることを防止することができる。また、同一画像グループ内における最多の画像候補を、グループコンテクストを導出するための画像候補とすることにより、画像グループにおける代表的な画像候補を用いてグループコンテクストを導出することができ、画像グループ単位の画像検索の精度をより向上させることができる。なお、画像グループ単位での推定において、単にスコアで判断するのではなく上述したようにして画像候補を決めることにより、画像単体でのスコアが低い画像についても考慮することができる。   By using information having a high score indicating the degree of similarity as an image candidate, a user context can be derived by combining information having high accuracy as image management information, and the accuracy of image search can be further improved. That is, for example, it is possible to prevent a user context from being derived from an image (photograph) that has been blurred during imaging as an image candidate. Further, by setting the most image candidates in the same image group as image candidates for deriving the group context, the group context can be derived using the representative image candidates in the image group. The accuracy of the image search can be further improved. In addition, in the estimation for each image group, it is possible to consider an image having a low score for a single image by determining image candidates as described above, instead of simply judging by a score.

複数の画像管理情報には、画像に関するPOI情報が複数含まれており、候補推定部13は、画像に関するPOI情報に基づくコンテクスト候補であるPOI候補を推定するPOI推定部13cを有し、POI推定部13cは、複数のPOI情報それぞれについて、POIのチェックイン数を、該POIから画像を記録した位置までの距離で割ったPOIスコアを算出し、該POIスコアが最も高いPOI情報を、ユーザコンテクストを導出するためのPOI候補として推定し、同一の画像グループ内における最多のPOI候補を、該画像グループのグループコンテクストを導出するためのPOI候補として推定する。   The plurality of image management information includes a plurality of pieces of POI information related to images, and the candidate estimation unit 13 includes a POI estimation unit 13c that estimates POI candidates that are context candidates based on the POI information about images, and performs POI estimation. The unit 13c calculates, for each of the plurality of POI information, a POI score obtained by dividing the number of POI check-ins by the distance from the POI to the position where the image is recorded, and the POI information having the highest POI score is obtained as the user context Are estimated as POI candidates for deriving and the most POI candidates in the same image group are estimated as POI candidates for deriving the group context of the image group.

POIのチェックイン数を考慮することにより、ユーザが訪れている可能性が高いPOI情報をPOI候補として推定され易くすることができる。これにより、誤推定を抑制することができる。また、画像グループ単位での推定では、最多のPOI候補がグループコンテクストを導出するためのPOI候補とされることにより、ユーザが訪れている可能性が高いPOI情報をグループコンテクストを導出するためのPOI候補とすることができる。   By considering the number of POI check-ins, it is possible to easily estimate POI information that is likely to be visited by a user as a POI candidate. Thereby, erroneous estimation can be suppressed. Further, in the estimation in units of image groups, the POI for deriving the group context from the POI information that is likely to be visited by the user because the most POI candidates are the POI candidates for deriving the group context. Can be a candidate.

複数の画像管理情報には、位置を示す情報及び日時を示す情報によって特定されるイベント情報が含まれており、候補推定部13は、イベント情報に基づくコンテクスト候補であるイベント候補を推定するイベント推定部13dを有し、イベント推定部13dは、位置を示す情報が画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が画像を記録した日時情報と一致するイベント情報を、ユーザコンテクストを導出するためのイベント候補として推定し、画像グループに含まれる画像を記録した地点の位置情報と一致し、且つ、日時を示す情報が、該画像グループに含まれる画像のうち日時情報が最も古い画像を記録した日時情報から、日時情報が最も新しい画像を記録した日時情報の間に含まれているイベント情報を、該画像グループのグループコンテクストを導出するためのイベント候補として推定する。   The plurality of image management information includes event information specified by information indicating a position and information indicating a date and time, and the candidate estimation unit 13 estimates an event candidate that is a context candidate based on the event information. The event estimation unit 13d receives event information in which the information indicating the position matches the position information of the point where the image is recorded and the information indicating the date and time matches the date and time information where the image is recorded. Estimated as an event candidate for deriving the context, and the information indicating the date and time coincides with the position information of the point where the image included in the image group is recorded, and the date and time information is the most among the images included in the image group. Event information included between the date and time information when the old image is recorded and the date and time information when the image with the newest date and time information is recorded. It estimated as the event candidate for deriving a group context of the loop.

これにより、位置及び日時を考慮して、ユーザが訪れていたと考えられるイベント候補を適切に推定することができる。すなわち、画像検索の精度をより向上させることができる。   Thereby, the event candidate considered that the user was visiting can be appropriately estimated in consideration of the position and the date and time. That is, the accuracy of image search can be further improved.

複数の画像管理情報には、画像に関する文字認識結果が含まれており、候補推定部13は、画像に関する文字認識結果に基づくコンテクスト候補である文字候補を推定する文字認識推定部13aを有し、文字認識推定部13aは、文字認識結果における文字のうち予め定められた文字を、ユーザコンテクストを導出するための文字候補として推定し、同一の画像グループ内における最多の文字候補を、該画像グループのグループコンテクストを導出するための文字候補として推定する。   The plurality of image management information includes a character recognition result regarding the image, and the candidate estimation unit 13 includes a character recognition estimation unit 13a that estimates a character candidate that is a context candidate based on the character recognition result regarding the image, The character recognition estimation unit 13a estimates a predetermined character among characters in the character recognition result as a character candidate for deriving a user context, and determines the most character candidates in the same image group as the image group. It is estimated as a character candidate for deriving a group context.

予め定めた文字のみを文字候補とすることにより、ユーザの行動を示すキーワードとして適切なものだけを文字候補とすることができる。また、同一画像グループ内における最多の文字候補を、グループコンテクストを導出するための文字候補とすることにより、画像グループにおける代表的な文字候補を用いてグループコンテクストを導出することができ、画像グループ単位の画像検索の精度をより向上させることができる。   By using only predetermined characters as character candidates, it is possible to set only appropriate characters as keywords indicating user behavior as character candidates. In addition, by setting the largest number of character candidates in the same image group as character candidates for deriving a group context, a group context can be derived using representative character candidates in an image group. The accuracy of the image search can be further improved.

組み合わせ部は、ユーザコンテクストに応じたタグを画像に関連付け、グループコンテクストに応じたタグを画像グループに関連付ける。これにより、従来、画像に関連付けた認識結果として1つの認識結果のみを用いていた場合と比較して、曖昧性を低減すると共に抽象度を下げてタグ付けすることができ、画像検索の精度を向上させることができる。   The combination unit associates a tag according to the user context with the image and associates a tag according to the group context with the image group. Thereby, compared with the case where only one recognition result is conventionally used as a recognition result associated with an image, tagging can be performed with reduced ambiguity and reduced abstraction, and the accuracy of image search is improved. Can be improved.

タグ付け装置10は、一又は複数のユーザコンテクストを上位概念で規定したカテゴリを画像に関連付け、一又は複数のグループコンテクストを上位概念で規定したカテゴリを画像グループに関連付ける、カテゴリ付与部15を更に備える。カテゴリを画像及び画像グループに関連付けることにより、ユーザコンテクスト及びグループコンテクストよりも上位概念で画像を検索すること等が可能になる。   The tagging apparatus 10 further includes a category assigning unit 15 that associates one or more user contexts with a category defined by a superordinate concept with an image, and associates one or more group contexts with a superordinate concept with an image group. . By associating a category with an image and an image group, it becomes possible to search for an image with a higher concept than a user context and a group context.

以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されない。例えば、複数の画像グループについては、更に纏められた新たな画像グループ(アルバム)を構成するものであってもよい。すなわち、グループ作成部12は、作成した画像グループのうち、含まれる画像の日時情報が所定の範囲内である複数の画像グループを、共通の新たな画像グループとし、組み合わせ部14は、新たな画像グループに含まれる複数の画像グループのうち、画像数が最も多い画像グループのグループコンテクストを、新たな画像グループのグループコンテクストとしてもよい。   As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment. For example, a plurality of image groups may constitute a new image group (album) that is further summarized. That is, the group creation unit 12 sets a plurality of image groups in which the date and time information of the included images is within a predetermined range among the created image groups as a common new image group, and the combination unit 14 creates a new image group. The group context of the image group having the largest number of images among the plurality of image groups included in the group may be set as the group context of the new image group.

図18は、変形例に係るタグ付け装置のアルバム作成の説明図である。図18(a)のテーブル200に示されるように、異なるグループID「G0001」「G0002」で示される複数の画像グループが、共通の新たな画像グループ(アルバムID「A0001」)に纏められている。そして、グループID「G0001」の画像グループのグループコンテクストが「B公園」、グループID「G0002」の画像グループのグループコンテクストが「B水族館」であるとすると、いま、図18(b)に示されるように、グループID「G0001」の画像グループのほうが、画像数が1枚多いので、アルバムのタイトル(アルバムのグループコンテクスト)は、B公園とされる。   FIG. 18 is an explanatory diagram of album creation of the tagging device according to the modification. As shown in the table 200 in FIG. 18A, a plurality of image groups indicated by different group IDs “G0001” and “G0002” are grouped into a new common image group (album ID “A0001”). . Assuming that the group context of the image group with the group ID “G0001” is “B park” and the group context of the image group with the group ID “G0002” is “B aquarium”, FIG. Thus, the image group with the group ID “G0001” has one more image, so the album title (album group context) is B park.

これにより、日時情報が類似する画像グループを更に纏めることができ、類似する画像検索結果をより容易に確認することができる。また、画像数が最も多い画像グループのグループコンテクストが新たな画像グループのグループコンテクストとされることにより、新たな画像グループに関しての画像検索の精度を向上させることができる。   Thereby, image groups with similar date and time information can be further collected, and similar image search results can be confirmed more easily. In addition, since the group context of the image group having the largest number of images is set as the group context of the new image group, it is possible to improve the accuracy of the image search for the new image group.

10…タグ付け装置、11…通信部(取得部)、12…グループ作成部、13…候補推定部、13…候補推定部、13a…文字認識推定部、13b…画像認識推定部、13c…POI推定部、13d…イベント推定部、14…組み合わせ部、15…カテゴリ付与部。   DESCRIPTION OF SYMBOLS 10 ... Tagging apparatus, 11 ... Communication part (acquisition part), 12 ... Group creation part, 13 ... Candidate estimation part, 13 ... Candidate estimation part, 13a ... Character recognition estimation part, 13b ... Image recognition estimation part, 13c ... POI Estimation part, 13d ... event estimation part, 14 ... combination part, 15 ... category assignment part.

Claims (10)

画像に係る時期、場所、又は出来事を示す画像管理情報を複数取得する取得部と、
前記取得部により取得された複数の画像管理情報を組み合わせることにより、当該画像に係るユーザの行動を示すユーザコンテクストを導出する組み合わせ部と、を備える情報処理装置。
An acquisition unit that acquires a plurality of image management information indicating the time, place, or event relating to the image;
An information processing apparatus comprising: a combination unit that derives a user context indicating a user action related to the image by combining a plurality of pieces of image management information acquired by the acquisition unit.
画像を記録した地点の位置情報と、画像を記録した日時情報とが所定の範囲内である複数の画像をグルーピングした画像グループを作成するグループ作成部を更に備え、
前記組み合わせ部は、前記画像グループ毎に、画像グループに含まれる画像の前記画像管理情報に基づいて、ユーザの行動を示すグループコンテクストを導出する、請求項1記載の情報処理装置。
A group creating unit that creates an image group in which a plurality of images in which the position information of the point where the image is recorded and the date and time information where the image is recorded are within a predetermined range are grouped;
The information processing apparatus according to claim 1, wherein the combination unit derives, for each image group, a group context indicating a user action based on the image management information of images included in the image group.
前記取得部により取得された複数の画像管理情報のうち、該画像管理情報の正確性に関する所定の条件を満たす画像管理情報を、コンテクスト候補として推定する候補推定部を更に備え、
前記組み合わせ部は、前記複数の画像管理情報のうち、前記候補推定部により前記コンテクスト候補とされた画像管理情報を組み合わせることにより、前記ユーザコンテクスト及び前記グループコンテクストを導出する、請求項2記載の情報処理装置。
A candidate estimation unit that estimates, as a context candidate, image management information that satisfies a predetermined condition regarding accuracy of the image management information among the plurality of image management information acquired by the acquisition unit;
3. The information according to claim 2, wherein the combination unit derives the user context and the group context by combining the image management information that is selected as the context candidate by the candidate estimation unit among the plurality of image management information. Processing equipment.
前記複数の画像管理情報には、画像に関する画像認識結果が複数含まれており、
前記候補推定部は、前記画像に関する画像認識結果に基づく前記コンテクスト候補である画像候補を推定する画像認識推定部を有し、
前記画像認識推定部は、
前記画像に関する画像認識結果において、類似度合いを示すスコアが所定の閾値以上であるオブジェクトを示す情報を、前記ユーザコンテクストを導出するための前記画像候補として推定し、
同一画像グループ内における最多の前記画像候補を、該画像グループの前記グループコンテクストを導出するための前記画像候補として推定する、請求項3記載の情報処理装置。
The plurality of image management information includes a plurality of image recognition results regarding the image,
The candidate estimation unit includes an image recognition estimation unit that estimates an image candidate that is the context candidate based on an image recognition result related to the image;
The image recognition estimation unit
In the image recognition result regarding the image, information indicating an object whose score indicating the degree of similarity is equal to or greater than a predetermined threshold is estimated as the image candidate for deriving the user context,
The information processing apparatus according to claim 3, wherein the most image candidates in the same image group are estimated as the image candidates for deriving the group context of the image group.
前記複数の画像管理情報には、画像に関するPOI情報が複数含まれており、
前記候補推定部は、前記画像に関するPOI情報に基づく前記コンテクスト候補であるPOI候補を推定するPOI推定部を有し、
前記POI推定部は、
複数の前記POI情報それぞれについて、POIのチェックイン数を、該POIから前記画像を記録した位置までの距離で割ったPOIスコアを算出し、該POIスコアが最も高いPOI情報を、前記ユーザコンテクストを導出するための前記POI候補として推定し、
同一の画像グループ内における最多の前記POI候補を、該画像グループの前記グループコンテクストを導出するための前記POI候補として推定する、請求項3又は4記載の情報処理装置。
The plurality of image management information includes a plurality of POI information related to images,
The candidate estimation unit includes a POI estimation unit that estimates a POI candidate that is the context candidate based on POI information regarding the image,
The POI estimation unit
For each of the plurality of POI information, a POI score obtained by dividing the number of POI check-ins by the distance from the POI to the position where the image was recorded is calculated. Estimate as said POI candidate for derivation,
The information processing apparatus according to claim 3 or 4, wherein the most POI candidates in the same image group are estimated as the POI candidates for deriving the group context of the image group.
前記複数の画像管理情報には、位置を示す情報及び日時を示す情報によって特定されるイベント情報が含まれており、
前記候補推定部は、前記イベント情報に基づく前記コンテクスト候補であるイベント候補を推定するイベント推定部を有し、
前記イベント推定部は、
前記位置を示す情報が前記画像を記録した地点の位置情報と一致し、且つ、前記日時を示す情報が前記画像を記録した日時情報と一致する前記イベント情報を、前記ユーザコンテクストを導出するための前記イベント候補として推定し、
前記画像グループに含まれる画像を記録した地点の位置情報と一致し、且つ、前記日時を示す情報が、該画像グループに含まれる画像のうち前記日時情報が最も古い画像を記録した前記日時情報から、前記日時情報が最も新しい画像を記録した前記日時情報の間に含まれている前記イベント情報を、該画像グループの前記グループコンテクストを導出するための前記イベント候補として推定する、請求項3〜5のいずれか一項記載の情報処理装置。
The plurality of image management information includes event information specified by information indicating a position and information indicating a date and time,
The candidate estimation unit includes an event estimation unit that estimates an event candidate that is the context candidate based on the event information,
The event estimation unit
For deriving the user context, the event information in which the information indicating the position matches the position information of the point where the image is recorded and the information indicating the date and time matches the date and time information where the image is recorded. Estimated as the event candidate,
The information that matches the position information of the point where the image included in the image group is recorded, and the information indicating the date is from the date information that recorded the image with the oldest date information among the images included in the image group. The event information included between the date and time information recording the image with the newest date and time information is estimated as the event candidate for deriving the group context of the image group. The information processing apparatus according to any one of the above.
前記複数の画像管理情報には、画像に関する文字認識結果が含まれており、
前記候補推定部は、前記画像に関する文字認識結果に基づく前記コンテクスト候補である文字候補を推定する文字認識推定部を有し、
前記文字認識推定部は、
前記文字認識結果における文字のうち予め定められた文字を、前記ユーザコンテクストを導出するための前記文字候補として推定し、
同一の画像グループ内における最多の前記文字候補を、該画像グループの前記グループコンテクストを導出するための前記文字候補として推定する、請求項3〜6のいずれか一項記載の情報処理装置。
The plurality of image management information includes a character recognition result regarding the image,
The candidate estimation unit includes a character recognition estimation unit that estimates a character candidate that is the context candidate based on a character recognition result regarding the image,
The character recognition estimation unit
Estimating a predetermined character among the characters in the character recognition result as the character candidate for deriving the user context,
The information processing apparatus according to claim 3, wherein the largest number of character candidates in the same image group is estimated as the character candidates for deriving the group context of the image group.
前記組み合わせ部は、
前記ユーザコンテクストに応じたタグを前記画像に関連付け、
前記グループコンテクストに応じたタグを前記画像グループに関連付ける、請求項2〜7のいずれか一項記載の情報処理装置。
The combination part is
Associate a tag according to the user context with the image,
The information processing apparatus according to claim 2, wherein a tag corresponding to the group context is associated with the image group.
一又は複数の前記ユーザコンテクストを上位概念で規定したカテゴリを前記画像に関連付け、
一又は複数の前記グループコンテクストを上位概念で規定したカテゴリを前記画像グループに関連付ける、カテゴリ付与部を更に備える、請求項2〜8のいずれか一項記載の情報処理装置。
Associating a category that defines one or more user contexts in a generic concept with the image;
The information processing apparatus according to claim 2, further comprising a category assigning unit that associates a category in which one or a plurality of the group contexts are defined by a superordinate concept with the image group.
前記グループ作成部は、作成した前記画像グループのうち、含まれる画像の前記日時情報が所定の範囲内である複数の前記画像グループを、共通の新たな画像グループとし、
前記組み合わせ部は、前記新たな画像グループに含まれる複数の画像グループのうち、画像数が最も多い画像グループの前記グループコンテクストを、前記新たな画像グループの前記グループコンテクストとする、請求項2〜9のいずれか一項記載の情報処理装置。
The group creation unit, among the created image groups, a plurality of the image groups in which the date and time information of included images is within a predetermined range as a common new image group,
The combination unit sets the group context of the image group having the largest number of images among the plurality of image groups included in the new image group as the group context of the new image group. The information processing apparatus according to any one of the above.
JP2016055931A 2016-03-18 2016-03-18 Information processing device Active JP6602245B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016055931A JP6602245B2 (en) 2016-03-18 2016-03-18 Information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016055931A JP6602245B2 (en) 2016-03-18 2016-03-18 Information processing device

Publications (2)

Publication Number Publication Date
JP2017173900A true JP2017173900A (en) 2017-09-28
JP6602245B2 JP6602245B2 (en) 2019-11-06

Family

ID=59972044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016055931A Active JP6602245B2 (en) 2016-03-18 2016-03-18 Information processing device

Country Status (1)

Country Link
JP (1) JP6602245B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021171652A1 (en) * 2020-02-27 2021-09-02 パナソニックIpマネジメント株式会社 Image processing device and image processing method
JP2022512269A (en) * 2019-11-13 2022-02-03 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Methods for extracting POI names, devices, devices, programs and computer storage media

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301416A (en) * 2008-06-16 2009-12-24 Kddi Corp Content classification apparatus, content retrieval apparatus, content retrieval system and computer program
JP2012093991A (en) * 2010-10-27 2012-05-17 Buffalo Inc Tag information management device, tag information management system, tag information management program, tag information management method
JP2012256171A (en) * 2011-06-08 2012-12-27 Sony Corp Information processing device and information processing method
WO2013008427A1 (en) * 2011-07-13 2013-01-17 パナソニック株式会社 Image evaluation device, image evaluation method, program, and integrated circuit
JP2014044675A (en) * 2012-08-28 2014-03-13 Toyota Mapmaster Inc Attractiveness evaluation device, attractiveness adjustment device, computer program for evaluating attractiveness, and computer program for adjusting attractiveness
JP2014130533A (en) * 2012-12-28 2014-07-10 Buffalo Inc Photographic image processing apparatus and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301416A (en) * 2008-06-16 2009-12-24 Kddi Corp Content classification apparatus, content retrieval apparatus, content retrieval system and computer program
JP2012093991A (en) * 2010-10-27 2012-05-17 Buffalo Inc Tag information management device, tag information management system, tag information management program, tag information management method
JP2012256171A (en) * 2011-06-08 2012-12-27 Sony Corp Information processing device and information processing method
WO2013008427A1 (en) * 2011-07-13 2013-01-17 パナソニック株式会社 Image evaluation device, image evaluation method, program, and integrated circuit
JP2014044675A (en) * 2012-08-28 2014-03-13 Toyota Mapmaster Inc Attractiveness evaluation device, attractiveness adjustment device, computer program for evaluating attractiveness, and computer program for adjusting attractiveness
JP2014130533A (en) * 2012-12-28 2014-07-10 Buffalo Inc Photographic image processing apparatus and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
荒川 豊: "ソーシャル観光マップ -ソーシャルデータからの観光スポット抽出-", マルチメディア,分散,協調とモバイル(DICOMO2013)シンポジウム論文集 情報処理学会シンポジ, JPN6019026806, 3 July 2013 (2013-07-03), pages 1123 - 1132, ISSN: 0004074664 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022512269A (en) * 2019-11-13 2022-02-03 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Methods for extracting POI names, devices, devices, programs and computer storage media
JP7185023B2 (en) 2019-11-13 2022-12-06 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Method, apparatus, device, program and computer storage medium for extracting POI name
US11768892B2 (en) 2019-11-13 2023-09-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting name of POI, device and computer storage medium
WO2021171652A1 (en) * 2020-02-27 2021-09-02 パナソニックIpマネジメント株式会社 Image processing device and image processing method
JPWO2021171652A1 (en) * 2020-02-27 2021-09-02
JP7291907B2 (en) 2020-02-27 2023-06-16 パナソニックIpマネジメント株式会社 Image processing device and image processing method

Also Published As

Publication number Publication date
JP6602245B2 (en) 2019-11-06

Similar Documents

Publication Publication Date Title
JP6759844B2 (en) Systems, methods, programs and equipment that associate images with facilities
US9465892B2 (en) Associating metadata with media objects using time
CN108701121B (en) Dispatching user input to multiple input fields in a user interface
JP2009526302A (en) Method and system for tagging digital data
CA2760624C (en) Server, dictionary creation method, dictionary creation program, and computer-readable recording medium recording the program
US10509963B2 (en) Discovering authoritative images of people entities
US20140359012A1 (en) Non-transitory computer readable medium, information sharing support system, and information sharing support method
JP2015069431A (en) Synthesis image creation assist device, method and program, and record medium therefor
WO2017016122A1 (en) Information pushing method and apparatus
EP3553675B1 (en) Picture-based method and apparatus for implementing service operations
US20170235793A1 (en) Retrieval device, retrieval method, and retrieval system
KR20170130538A (en) Business anchoring using geolocated images
JP6602245B2 (en) Information processing device
US20160012078A1 (en) Intelligent media management system
JP6020196B2 (en) Information providing apparatus and program
US9767097B2 (en) Disclosure range determination method, disclosure range determination apparatus, and medium
US9977793B2 (en) Information processing system, information processing method, and information processing apparatus
US20120257786A1 (en) Creating a detailed contact record from a digital image of a business card and associated company data
JP2010140355A (en) System and method for searching information
JP2010181975A (en) Information provision device, information provision method, information provision program and recording medium
JP4828653B1 (en) Server, dictionary generation method, dictionary generation program, and computer-readable recording medium for recording the program
JP5708868B1 (en) Program, information processing apparatus and method
CN107967300B (en) Method, device and equipment for retrieving organization name and storage medium
JP6081702B2 (en) Information processing apparatus, information processing method, and program
JP2019144937A (en) User information management system, user information management server, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191008

R150 Certificate of patent or registration of utility model

Ref document number: 6602245

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250