JP2018156333A - Generation device, generation method, and generation program - Google Patents
Generation device, generation method, and generation program Download PDFInfo
- Publication number
- JP2018156333A JP2018156333A JP2017051953A JP2017051953A JP2018156333A JP 2018156333 A JP2018156333 A JP 2018156333A JP 2017051953 A JP2017051953 A JP 2017051953A JP 2017051953 A JP2017051953 A JP 2017051953A JP 2018156333 A JP2018156333 A JP 2018156333A
- Authority
- JP
- Japan
- Prior art keywords
- information
- similarity
- image
- distributed
- distributed representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 46
- 230000014509 gene expression Effects 0.000 claims description 91
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 21
- 238000003860 storage Methods 0.000 description 19
- 238000003384 imaging method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 239000006185 dispersion Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、生成装置、生成方法および生成プログラムに関する。 The present invention relates to a generation device, a generation method, and a generation program.
従来、画像やテキスト等といった情報の特徴量に応じた分類技術が知られている。このような技術の一例として、トリプレットロスと呼ばれる手法が提案されている。トリプレットロスにおいては、各情報の内容を示すタグの一致度をそれぞれ算出し、算出したタグの一致度が第1閾値を超える情報を類似の情報とし、一致度が第2閾値を下回る情報を非類似の情報とする。そして、トリプレットロスにおいては、例えば、第1情報の分散表現と第1情報に類似する第2情報の分散表現との差が小さくなり、第1情報と分散表現と第1情報とは類似しない第3情報の分散表現との差が大きくなるように、各情報の分散表現を学習する。このような処理の結果、分散表現空間上において、第1情報と第2情報とが近傍に配置され、第1情報と第3情報とが離れるように配置されることとなる。 Conventionally, a classification technique corresponding to a feature amount of information such as an image or text is known. As an example of such a technique, a method called triplet loss has been proposed. In the triplet loss, the degree of coincidence of tags indicating the contents of each information is calculated, information having the calculated degree of coincidence of tags exceeding the first threshold is set as similar information, and information whose degree of coincidence is below the second threshold is not calculated. Similar information. In triplet loss, for example, the difference between the distributed representation of the first information and the distributed representation of the second information similar to the first information is small, and the first information, the distributed representation, and the first information are not similar. The distributed representation of each information is learned so that the difference from the distributed representation of the three information becomes large. As a result of such processing, the first information and the second information are arranged in the vicinity in the distributed representation space, and the first information and the third information are arranged so as to be separated from each other.
しかしながら、上述した従来技術では、情報の類似性を分散表現空間上の距離に反映させることができない場合がある。 However, in the above-described prior art, there are cases where the similarity of information cannot be reflected on the distance in the distributed expression space.
例えば、従来技術では、第1情報とのタグの一致度が第1閾値よりも小さい情報は、タグの一致度の高低によらず、全て第1情報と類似する情報として取り扱われるため、類似する情報間におけるタグの一致度が分散表現の類似度に反映されない。この結果、分散表現空間を用いた検索においては、第1情報と類似する情報を検索することができるものの、第1情報との類似度に応じたランキングの正確性を保証することができない。 For example, in the prior art, information whose tag matching degree with the first information is smaller than the first threshold is treated as information similar to the first information regardless of whether the tag matching degree is high or low. The degree of matching of tags between information is not reflected in the similarity of distributed expressions. As a result, in the search using the distributed expression space, information similar to the first information can be searched, but the accuracy of the ranking according to the similarity to the first information cannot be guaranteed.
本願は、上記に鑑みてなされたものであって、情報の類似性を分散表現空間上の距離に反映させることを目的とする。 The present application has been made in view of the above, and an object thereof is to reflect the similarity of information to the distance in the distributed expression space.
本願に係る生成装置は、第1情報と第2情報との間の類似度である第1類似度と、第1情報と第3情報との間の類似度である第2類似度とを算出する算出部と、前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成部とを有することを特徴とする。 The generation device according to the present application calculates a first similarity that is a similarity between the first information and the second information, and a second similarity that is a similarity between the first information and the third information. Based on the relationship between the calculating unit and the first similarity and the second similarity, one of the distributed representation of the second information and the third information is a distributed representation of the first information. It has a generation part which generates each distributed expression so that it may be similar and the other may not be similar.
実施形態の一態様によれば、情報の類似性を分散表現空間上の距離に反映させることができる。 According to one aspect of the embodiment, the similarity of information can be reflected in the distance on the distributed representation space.
以下に、本願に係る生成装置、生成方法および生成プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法および生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。 Hereinafter, a mode for carrying out a generation device, a generation method, and a generation program according to the present application (hereinafter referred to as “embodiment”) will be described in detail with reference to the drawings. Note that the generation device, the generation method, and the generation program according to the present application are not limited to the embodiment. In the following embodiments, the same parts are denoted by the same reference numerals, and redundant description is omitted.
[実施形態]
〔1.情報提供装置が提供する処理について〕
まず、図1を用いて、生成装置の一例となる情報提供装置が実行する生成処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。なお、以下の説明では、情報提供装置10が実行する処理として、分散表現を用いた画像検索を様にするため、画像の類似性を反映させた分散表現を生成する生成処理と、生成処理によって生成した分散表現を用いて、画像の検索を行う検索処理とについて説明する。なお、以下の説明では、情報提供装置10が各情報の分散表現を「生成」する処理について説明するが、かかる処理は、各データに対応する適切な分散表現の値を適宜「学習」することで、分散表現を「生成」する処理であるものとする。
[Embodiment]
[1. Regarding the processing provided by the information providing device]
First, an example of a generation process executed by an information providing apparatus as an example of a generation apparatus will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of processing executed by the information providing apparatus according to the embodiment. In the following description, as processing executed by the
また、以下の生成処理および検索処理は、静止画像や動画像等といった各種の画像のみならず、音声、映画、小説、ニュース記事等、任意のコンテンツの分散表現を生成し、生成した分散表現を用いてコンテンツを検索する処理に適用可能である。 In addition, the following generation processing and search processing generate not only various images such as still images and moving images but also distributed representations of arbitrary contents such as audio, movies, novels, news articles, etc. It can be applied to the process of searching for content using.
〔1−1.情報提供装置の概要〕
情報提供装置10は、インターネット等の所定のネットワークN(例えば、図2を参照。)を介して、利用者端末100と通信可能な情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。なお、情報提供装置10は、ネットワークNを介して、任意の数の利用者端末100と通信可能であってよい。
[1-1. Overview of information providing device)
The
利用者端末100は、情報の検索を要求する利用者が使用する情報処理装置であり、PC(Personal Computer)、サーバ装置、スマートデバイスといった情報処理装置により実現される。例えば、利用者端末100は、検索クエリとして、画像や画像の内容を示す情報を情報提供装置10に送信する。このような場合、情報提供装置10は、後述する生成処理により生成された分散表現を用いて、検索クエリとして受付けた画像と類似する画像を検索し、検索した画像を検索クエリとの類似度に応じたランキング形式で利用者端末100へと提供する。
The
〔1−2.生成処理について〕
ここで、画像の外見的な特徴量のみならず、撮像された撮像対象の内容に応じた画像検索を容易にするため、撮像された撮像対象の内容を示す特徴量を生成し、生成した特徴量に応じて画像を分類する技術が考えられる。例えば、画像に撮像された撮像対象の内容を示すタグ情報を画像のメタ情報として保持し、メタ情報の一致度に応じて撮像対象の特徴量に基づいた分散表現を生成する技術が考えられる。
[1-2. About generation processing)
Here, in order to facilitate not only the appearance feature amount of the image but also the image search according to the content of the imaged imaging target, the feature amount indicating the content of the imaged imaging target is generated, and the generated feature A technique for classifying images according to the amount can be considered. For example, a technique is conceivable in which tag information indicating the content of the imaging target captured in the image is held as meta information of the image, and a distributed expression based on the feature amount of the imaging target is generated according to the degree of coincidence of the meta information.
また、メタ情報の一致度に応じて分散表現を生成する技術として、トリプレットロスの技術が知られている。しかしながら、トリプレットロスの技術では、メタ情報の一致度が所定の閾値よりも高いか否かに応じて、基準画像と、正解データとなる画像と、不正解データとなる画像との組、すなわち、トリプルと呼ばれる情報を生成する。そして、トリプレットロスの技術では、基準画像と正解データとなる画像(以下、「正解ペア」と記載する。)との分散表現が類似し、基準画像と不正解データとなる画像(以下、「不正解ペア」と記載する。)との分散表現が非類似となるように、各画像の分散表現を学習する。 A triplet loss technique is known as a technique for generating a distributed representation according to the degree of coincidence of meta information. However, in the triplet loss technique, depending on whether or not the degree of coincidence of meta information is higher than a predetermined threshold, a set of a reference image, an image that is correct data, and an image that is incorrect data, that is, Generate information called triples. In the triplet loss technique, the distributed representations of the reference image and the image that is correct data (hereinafter referred to as “correct pair”) are similar, and the image that is the reference image and incorrect data (hereinafter “incorrect data”). The distributed expression of each image is learned so that the distributed expression of “correct answer pair” is dissimilar.
しかしながら、このようなトリプレットロスの技術では、メタ情報の一致度が所定の閾値よりも高い場合には、正解データとして取り扱われるので、分散表現空間上において基準画像の分散表現の近傍に、基準画像と類似する画像の分散表現が配置されるものの、基準画像の分散表現の最近傍に、基準画像と最も類似する画像の分散表現が配置されない恐れがある。すなわち、従来のトリプレットロスの技術では、類似する画像間における類似度が分散表現の類似度に反映させることができない。 However, in such triplet loss technology, when the degree of coincidence of meta information is higher than a predetermined threshold value, it is handled as correct answer data, so that the reference image is located near the distributed representation of the reference image in the distributed representation space. Although the distributed representation of the image similar to the reference image is arranged, the distributed representation of the image most similar to the reference image may not be arranged in the vicinity of the distributed representation of the reference image. That is, with the conventional triplet loss technique, the similarity between similar images cannot be reflected in the similarity of the distributed representation.
そこで、情報提供装置10は、以下の生成処理を実行する。まず、情報提供装置10は、分散表現の対象となる画像群の中から、第1情報、第2情報、および第3情報となる3つの画像を選択する。なお、以下の説明では、第1情報〜第3情報として選択された3つの画像を、それぞれ第1画像〜第3画像と記載する。
Therefore, the
続いて、情報提供装置10は、第1情報と第2情報との間の類似度である第1類似度と、第1情報と第3情報との間の類似度である第2類似度とを算出する。具体的には、情報提供装置10は、第1画像と第2画像との間の類似度を第1類似度として算出し、第1画像と第3画像との間の類似度を第2類似度として算出する。すなわち、情報提供装置10は、第1画像を基準画像とし、基準画像と第2画像の第1類似度、および基準画像と第3画像の第2類似度を算出する。
Subsequently, the
そして、情報提供装置10は、第1類似度と第2類似度との関係性に基づいて、第2画像および第3画像の分散表現のうちいずれか一方が第1画像の分散表現と類似し、他方が類似しないように、各画像の分散表現を生成する。例えば、情報提供装置10は、第1類似度が第2類似度よりも大きい場合は、第1画像の分散表現と第2画像の分散表現とが類似し、かつ第1画像の分散表現と第3画像の分散表現とが類似しないように、各分散表現を生成する。一方、情報提供装置10は、第2類似度が第1類似度よりも大きい場合は、第1画像の分散表現と第3画像の分散表現とが類似し、かつ第1画像の分散表現と第2画像の分散表現とが類似しないように、各分散表現を生成する。
Then, based on the relationship between the first similarity and the second similarity, the
すなわち、情報提供装置10は、基準画像と他の画像との間の類似度が所定の閾値よりも高いか否かに応じて、正解データや不正解データとなる画像を選定するのではなく、基準画像と第2画像との類似度、および、基準画像と第3画像との類似度に基づいて、相対的な正解データおよび不正解データとなる画像を設定する。そして、情報提供装置10は、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しないように、分散表現の学習を行う。
That is, the
すなわち、情報提供装置10は、基準画像と類似する画像が第2画像および第3画像として選択された場合にも、基準画像との類似度に応じて相対的な正解データと不正解データとを設定し、各画像の分散表現を生成する。このような処理の結果、情報提供装置10は、基準画像と相互に類似する画像間における相対的な類似度を分散表現に反映させることができるので、分散表現を用いた画像検索の際に、類似性に応じた画像のランキングを生成することができる。
That is, even when an image similar to the reference image is selected as the second image and the third image, the
また、情報提供装置10は、各画像の相対的な類似性を分散表現に反映させることができるので、距離公理を満たす距離関数が使えることが担保された分散表現空間に各画像を落とし込むことができる。例えば、ディープラーニング等に用いられる多段のニューラルネットが画像から生成した中間表現を特徴量として採用する技術では、どのような距離関数が適用可能であるかが不明なため、特徴量同士の単純な比較が困難となる。一方で、情報提供装置10は、各画像の相対的な類似度の高低を反映させるように分散表現を生成するので、分散表現空間がユークリッド空間となるように分散表現の学習が行われる。このため、情報提供装置10は、例えば、画像検索の際に、検索クエリとなる画像の分散表現と他の画像の分散表現とのユークリッド距離を算出することで、容易に類似画像検索を実現することができる。
Moreover, since the
〔1−3.類似度について〕
ここで、情報提供装置10は、各画像間の類似度を算出する際、分散表現の生成目的に応じた任意の基準により、各画像の類似度を算出してよい。例えば、情報提供装置10は、色味、ピクセル、エッジ等といった各種の構造的(外見的)な類似性に基づいて、第1類似度および第2類似度を算出してもよい。また、情報提供装置10は、各画像の意味的な類似度(すなわち、セマンティックな類似度)を算出してもよい。
[1-3. About similarity)
Here, when calculating the degree of similarity between the images, the
例えば、情報提供装置10は、ILSVRC(ImageNet Large Scale Visual Recognition Challenge)等における技術を用いて、画像から撮像対象の特徴を抽出するように学習が行われたモデルを用いて、各画像における撮像対象の特徴を抽出し、抽出した特徴の類似度を示す第1類似度および第2類似度を算出してもよい。例えば、情報提供装置10は、各画像に撮像された撮像対象の種別や色等といった特徴を特定し、特定した特徴の共通性や類似性(以下、「類似度」と記載する。)に基づいて、第1類似度および第2類似度を算出してもよい。なお、このようなモデルは、例えば、畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)等のニューラルネットワークにより実現されてもよい。また、情報提供装置10は、各画像のフィッシャーベクターに基づいて、撮像対象の分類を行うモデルを用いて、各画像の撮像対象の分類を行い、分類結果の類似性を示す第1類似度および第2類似度を算出してもよい。
For example, the
また、情報提供装置10は、撮像対象の特徴、画像が電子商取引においてどの取引対象を説明するために用いられるか等といった画像の使用目的等、画像の意味的な類似度に基づいて、第1類似度および第2類似度を算出してもよい。例えば、各画像には、撮像対象の特徴や画像の目的等、各種画像の意味を示すタグ情報が紐付けられている場合がある。また、例えば、各画像が掲載されるウェブコンテンツにおいては、その画像のキャプションや、撮像対象の名称(例えば、取引対象の名称)、撮像対象の価格等といった各種画像と紐付可能な情報が掲載されている場合がある。そこで、情報提供装置10は、各画像と紐付可能な各種の情報を画像の意味を示すメタ情報として収集する。そして、情報提供装置10は、第1画像のメタ情報と第2画像のメタ情報との類似度に基づいて、第1類似度を算出し、第1画像のメタ情報と第3画像のメタ情報との類似度に基づいて、第2類似度を算出してもよい。すなわち、情報提供装置10は、画像そのものの類似度だけではなく、画像に紐付られた情報の類似度に応じて、第1類似度および第2類似度を算出してもよい。
In addition, the
また、情報提供装置10は、第1画像のメタ情報と第2画像のメタ情報との意味または表記の類似度に基づいて、第1類似度を算出し、第1画像のメタ情報と第3画像のメタ情報との意味または表記の類似度に基づいて、第2類似度を算出してもよい。例えば、情報提供装置10は、メタ情報に含まれるテキストの一致度(すなわち、表記の類似度)を算出し、算出した一致度に基づいて、第1類似度や第2類似度を算出してもよい。また、情報提供装置10は、例えば、w2vを用いて、メタ情報に含まれるテキストの意味の類似度(すなわち、意味の類似度)を算出し、算出した類似度に基づいて、第1類似度や第2類似度を算出してもよい。
Further, the
なお、情報提供装置10は、画像に付与されたタグ情報に含まれる情報や、画像と同じウェブコンテンツに掲載された各種の情報以外にも、例えば、画像と共に利用者がマイクロブログに投稿したテキストに含まれる単語等、画像と紐付けられる情報であるならば、任意の種別の任意の情報をメタ情報として採用してよい。すなわち、情報提供装置10は、画像と紐付けられる情報であって、画像の意味的な内容を示しうる情報であるならば、任意の情報をメタ情報として採用してよい。また、情報提供装置10は、画像の色、撮像対象の形、画像のセマンティックな意味等、どのような基準に基づいて類似画像検索を行うかに応じて、任意の種別の情報を画像のメタ情報として採用して良い。
In addition to the information included in the tag information attached to the image and various types of information posted on the same web content as the image, the
〔1−4.検索クエリについて〕
また、情報提供装置10は、各画像に対応する検索クエリの内容をメタ情報として採用してもよい。例えば、情報提供装置10は、ウェブ検索を行う検索サーバ等(図示は、省略)から、利用者Uが入力した検索クエリと、その検索クエリが入力された際に、検索結果として表示された画像の中から利用者Uが選択した画像とを示す検索ログを取得する。そして、情報提供装置10は、分散表現の生成対象となる各画像について、その画像が利用者Uによって選択された際に利用者Uが入力した検索クエリをメタ情報として特定する。
[1-4. About search queries)
Further, the
そして、情報提供装置10は、第1画像が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第2画像が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第1類似度を算出する。また、情報提供装置10は、第1画像が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第3画像が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第2類似度を算出する。そして、情報提供装置10は、算出した第1類似度および第2類似度を用いて、各画像の相対的な類似度に応じた分散表現を生成する。
Then, the
ここで、利用者Uがある画像を選択した際に入力した検索クエリは、その画像を検索する際の検索意図を反映したものと言える。このため、情報提供装置10は、各画像を選択した際に各利用者Uが入力した検索クエリの類似度を算出することで、各画像を検索する際の利用者Uの検索意図の類似度を算出することができる。このような類似度が反映させるように各画像の分散表現を生成した場合には、各画像を検索する際の利用者Uの検索意図を分散表現空間上の距離に埋め込むことができる。この結果、情報提供装置10は、分散表現を用いて利用者Uの検索意図を反映した画像検索を実現することができる。
Here, it can be said that the search query input when the user U selects an image reflects the search intention when searching for the image. For this reason, the
例えば、情報提供装置10は、第1画像が選択された際に利用者Uが入力した検索クエリとして「shoes、blue、blandA、sizeA」を取得し、第2画像が選択された際に利用者Uが入力した検索クエリとして「shoes、blue、blandA、sizeB」を取得し、第3画像が選択された際に利用者Uが入力した検索クエリとして「shoes、red、blandB、sizeB」を取得したものとする。このような場合、情報提供装置10は、第1画像に対応する検索クエリと第2画像に対応する検索クエリとの間のIoU(Intersection over Union)を第1類似度として算出する。
For example, the
より具体的には、情報提供装置10は、第1画像に対応する検索クエリに含まれるトークンと、第2画像に対応する検索クエリに含まれるトークンとのうち、共通するトークンの種別の数を、各検索クエリに含まれるトークンの種別の数で除算した値を第1類似度として算出する。上述した例では、第1画像に対応する検索クエリと第2画像に対応する検索クエリとで、「shoes」、「blue」、「blandA」という3つのトークンが類似し、各クエリ中に「shoes」、「blue」、「blandA」、「sizeA」、「sizeB」という5つのトークンが出現している。このため、情報提供装置10は、共通して含まれるトークンの種別の数「3」を、各クエリ中に含まれるトークンの種別の数「5」で除算した「0.6」を第1類似度として算出する。同様に、情報提供装置10は、第1画像に対応する検索クエリと第3画像に対応する検索クエリとの間のIoU(例えば、「0.33」)を第2類似度として算出する。
More specifically, the
このような場合、第1類似度の値が第2類似度の値よりも大きくなる。このため、第1画像と第2画像とは、第1画像と第3画像よりもより類似していると言える。そこで、情報提供装置10は、第1画像の分散表現と第2画像の分散表現とが類似し、第1画像の分散表現と第3画像の分散表現とが類似しなくなるように、各画像の分散表現を学習する。
In such a case, the first similarity value is larger than the second similarity value. For this reason, it can be said that the first image and the second image are more similar than the first image and the third image. Therefore, the
ここで、情報提供装置10は、検索クエリのトークンの量を考慮して、第1類似度および第2類似度を算出してもよい。例えば、検索クエリのトークンの量が多い場合、その検索クエリは、利用者Uの検索意図を他の検索クエリよりも明確に示していると推定される。そこで、情報提供装置10は、各画像が選択された際に利用者Uが入力した検索クエリのうち、トークンの量が所定の閾値を超える検索クエリを抽出し、抽出した検索クエリの類似度に基づいて、第1類似度および第2類似度を算出してもよい。例えば、情報提供装置10は、4つ以上のトークンを含む検索クエリを抽出してもよく、外部サーバ等から取得した検索クエリのうち、トークンの数が最も多い検索クエリのみを抽出してもよい。また、情報提供装置10は、画像を選択した利用者の過半数が入力した検索クエリが含まれるように、閾値となるトークンの量を設定してもよい。
Here, the
〔1−5.複数種別の情報に基づく類似度について〕
ここで、情報提供装置10は、第1画像に紐付けられる複数種別の情報と第2画像に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、第1類似度を算出し、第1画像に紐付けられる複数種別の情報と第3画像に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、第2類似度を算出してもよい。すなわち、情報提供装置10は、複数種別の情報を含むメタ情報が画像に紐付けられている場合、メタ情報全体としての類似度に基づいて第1類似度や第2類似度を算出してもよく、種別ごとの類似度に基づいた第1類似度や第2類似度を算出してもよい。
[1-5. (Similarity based on multiple types of information)
Here, the
例えば、情報提供装置10は、画像の構造的な特徴を示す情報(以下、「構造情報」と記載する。)と、撮像対象等、画像の意味的な特徴を示す情報(以下、「意味情報」と記載する。)とが含まれるメタ情報を取得する。このような場合、情報提供装置10は、第1画像の構造情報と第2画像の構造情報との類似度(以下、「構造類似度」と記載する。)、および、第1画像の意味情報と第2画像の意味情報との類似度(以下、「意味類似度」と記載する。)とに基づいて、第1類似度を算出してもよい。
For example, the
また、情報提供装置10は、種別ごとに重みづけを考慮した第1類似度を算出してもよい。例えば、情報提供装置10は、構造類似度に第1優先度を積算した値、および、意味類似度に第2優先度を積算した値とに基づいて、第1類似度を算出してもよい。このような優先度を設定することで、情報提供装置10は、画像の構造的な類似度を重視した分散表現を生成するのか、画像の意味的な類似度を重視した分散表現を生成するのかを柔軟に設定することができる。
Moreover, the
また、情報提供装置10は、種別ごとの類似度を優先度が高い順に結合させることで、所定の桁数の第1類似度および第2類似度を算出してもよい。例えば、情報提供装置10は、第1優先度として128ビットの値を算出する場合、64ビットの構造類似度と意味類似度とを算出する。そして、情報提供装置10は、例えば、意味類似度を上位の桁とし、構造類似度を下位の桁として結合することで、意味類似度がより優先的に寄与する128ビットの第1類似度を算出してもよい。
In addition, the
なお、情報提供装置10は、10進数で構造類似度と意味類似度とを算出する場合、例えば、意味類似度に10のn乗(nは、構造類似度の桁数)を積算した値を算出し、算出した値に構造類似度を加算することで、意味類似度がより優先的に寄与する第1類似度を算出してもよい。また、情報提供装置10は、メタ情報に含まれる情報の種別の数が3つ以上の場合であっても、種別ごとの類似度を算出し、算出した類似度のうちより優先的に用いる種別の類似度をより上位の桁として、各優先度を結合することで、第1類似度および第2類似度を算出してもよい。
In addition, when the
〔1−6.画像の選択について〕
ここで、情報提供装置10は、第1画像〜第3画像を選択する場合、分散表現の生成対象となる画像から、全ての組み合わせについて、第1画像〜第3画像を選択すればよい。また、情報提供装置10は、第1画像と同じ分野(クラス)に属する画像等、第1画像との類似度が所定の閾値を超える情報を故意に選択することで、その分野に属する画像間の相対的な類似度を分散表現空間上に落とし込んでもよい。
[1-6. (Selecting images)
Here, when the
また、情報提供装置10は、分散表現の学習を効率的に進めるため、段階的に第1画像〜第3画像の選択元となる分野を狭めてもよい。例えば、情報提供装置10は、学習の初期段階については、全カテゴリに属する画像からランダムに第1画像〜第3画像を選択し、学習が進んだ場合(例えば、分散表現の精度が所定の閾値を超えた場合)は、所定のカテゴリに属する画像からランダムに第1画像〜第3画像を選択し、さらに学習が進んだ場合は、所定のカテゴリに含まれるサブカテゴリに属する画像からランダムに第1画像〜第3画像を選択してもよい。すなわち、情報提供装置10は、学習が進む度に、選択する画像の類似性を上昇させてもよい。
In addition, the
〔1−7.多段階学習について〕
また、情報提供装置10は、従来のトリプレットロスの学習手法と、上述した生成処理とを組み合わせて実行してもよい。例えば、情報提供装置10は、第1画像との類似度が第1閾値以上となる第4画像と、第1画像との類似度が第2閾値以下となる第5画像とを選択する。このような場合、情報提供装置10は、第1画像の分散表現と第4画像の分散表現とが類似し、かつ、第1画像の分散表現と第5画像の分散表現とが類似しないように、各画像の分散表現を生成する。
[1-7. (About multi-stage learning)
Further, the
そして、情報提供装置10は、第1画像から第5画像のうち3つの情報を含む全ての組について、第1類似度および第2類似度を算出する。すなわち、情報提供装置10は、基準画像と2つの画像との全組み合わせを生成し、生成した組み合わせについて第1類似度および第2類似度を算出する。そして、情報提供装置10は、第1類似度および第2類似度を用いて各組み合わせにおける正解データおよび不正解データを設定し、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しなくなるように、分散表現の学習を行う。
Then, the
例えば、情報提供装置10は、分散表現を生成する初期段階においては、基準画像と、基準画像との類似度が所定の閾値を超える正解データと、基準画像との類似度が所定の閾値を下回る不正解データとを選択し、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しなくなるように、分散表現の学習を行う。
For example, in the initial stage of generating the distributed representation, the
そして、情報提供装置10は、所定のタイミングで、分散表現の精度を算出する。例えば、情報提供装置10は、分散表現を用いて、所定の画像と類似する画像のランキングを生成するとともに、各画像のメタ情報の類似性に基づいて、所定の画像と類似する画像のランキングを生成する。そして、情報提供装置10は、分散表現を用いたランキングとメタ情報を用いたランキングとの間の一致度に基づいて、分散表現の精度を算出する。
Then, the
ここで、情報提供装置10は、分散表現の精度が所定の閾値を超えた場合や、分散表現の精度の上昇率が所定の期間の間上昇しなくなった場合には、上述した生成処理を実行する。すなわち、情報提供装置10は、第1画像〜第3画像を選択し、選択した第1画像〜第3画像間の類似度に基づいて第1類似度および第2類似度を算出し、算出した第1類似度および第2類似度の比較結果に基づいて、第2画像および第3画像を正解データおよび不正解データとする。そして、情報提供装置10は、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しなくなるように、分散表現の学習を行う。
Here, when the accuracy of the distributed representation exceeds a predetermined threshold or when the increase rate of the accuracy of the distributed representation does not increase for a predetermined period, the
〔1−8.生成について〕
ここで、情報提供装置10は、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しなくなるように、分散表現を生成するのであれば、任意の手法により分散表現を生成してよい。例えば、情報提供装置10は、第1画像の分散表現と第2画像の分散表現との差が、第1画像の分散表現と第3画像の分散表現との差よりも少なくなるように、各分散表現を生成してもよい。
[1-8. About generation)
Here, the
以下、情報提供装置10が分散表現の生成に用いる数式の一例について説明する。例えば、情報提供装置10は、式(1)を用いて、トリプレットロスの手法に従い、各画像の分散表現を生成する。
Hereinafter, an example of a mathematical expression used by the
ここで、式(1)のxa iは、基準画像を示し、xp iは、第1類似度および第2類似度に基づいて設定された正解データの画像を示し、xn iは、第1類似度および第2類似度に基づいて設定された不正解データの画像を示す。式(1)のf(x)は、画像xの分散表現であって、所定次元数の分散表現を示す。また、式(1)のαは、所定の係数である。情報提供装置10は、式(1)のLの値が最大化するように、各画像の分散表現f(x)の値を設定する。
Here, x a i in Equation (1) indicates a reference image, x p i indicates an image of correct data set based on the first similarity and the second similarity, and x n i is An image of incorrect answer data set based on the first similarity and the second similarity is shown. F (x) in Expression (1) is a distributed representation of the image x, and indicates a distributed representation of a predetermined number of dimensions. In addition, α in Expression (1) is a predetermined coefficient. The
ここで、従来のトリプレットロスにおいては、基準画像と他の画像との間の類似度に応じて、絶対的な正解データと不正解データとを設定していた。このため、画像xのメタ情報をw(x)と記載すると、従来のトリプレットロスにおける基準画像と正解データと不正解データとの関係は、以下の式(2)および式(3)で示される。 Here, in the conventional triplet loss, absolute correct data and incorrect data are set according to the degree of similarity between the reference image and another image. Therefore, when the meta information of the image x is described as w (x), the relationship between the reference image, the correct data, and the incorrect data in the conventional triplet loss is expressed by the following formulas (2) and (3). .
一方、情報提供装置10は、絶対的な正解データおよび不正解データとして学習対象となる画像を選択するのではなく、選択した画像の相対的な類似度に基づいて、選択した画像から正解データと不正解データとを設定し、各画像の分散表現を生成する。このため、情報提供装置10が選択する基準画像と正解データと不正解データとの関係は、以下の式(4)および式(5)で示されることとなる。
On the other hand, the
このような処理の結果、情報提供装置10は、基準画像と類似する画像および類似しない画像間の関係性のみならず、基準画像と類似する複数の画像間の関係性や、基準画像と類似しない複数の画像間の関係性等についても、分散表現に落とし込む。この結果、情報提供装置10は、分散表現区間上において、処理対象となる全画像の相対的な類似性を落とし込むことができるので、分散表現の精度を向上させることができる。
As a result of such processing, the
〔1−9.生成処理の一例について〕
次に、図1を用いて、情報提供装置10が実行する生成処理の一例について説明する。まず、情報提供装置10は、処理対象となる画像からランダムに第1画像P1、第2画像P2、および第3画像P3を選択し、各画像のメタ情報M1〜M3を取得する(ステップS1)。このような場合、情報提供装置10は、メタ情報同士の類似度を算出し、算出した類似度を比較する(ステップS2)。例えば、情報提供装置10は、メタ情報M1とメタ情報M2との類似度S1(すなわち、第1類似度)、およびメタ情報M1とメタ情報M3との類似度S2(すなわち、第2類似度)を算出し、算出した類似度S1および類似度S2を比較する。
[1-9. (Example of generation process)
Next, an example of a generation process executed by the
そして、情報提供装置10は、類似度の比較結果に応じて、各画像の分散表現を生成する(ステップS3)。例えば、情報提供装置10は、類似度S1の値が類似度S2の値よりも大きい場合は、第2画像を正解データとし、第3画像を不正解データとする。そして、情報提供装置10は、第1画像の分散表現P1と第2画像の分散表現P2とが類似し、第1画像の分散表現P1と第3画像の分散表現P3とが類似しないように、各分散表現P1〜P3を生成する。一方、情報提供装置10は、類似度S2の値が類似度S1の値よりも大きい場合は、第3画像を正解データとし、第2画像を不正解データとする。そして、情報提供装置10は、第1画像の分散表現P1と第3画像の分散表現P3とが類似し、第1画像の分散表現P1と第2画像の分散表現P2とが類似しないように、各分散表現P1〜P3を生成する。
And the
また、情報提供装置10は、他の画像間についても同様の処理を実行する(ステップS4)。より具体的には、情報提供装置10は、基準画像となる画像と、基準画像以外の画像を第2画像および第3画像とする全ての組み合わせのトリプルを生成する。そして、情報提供装置10は、生成した全てのトリプルについて、ステップS1〜ステップS3を実行することで、全ての画像の分散表現を生成する。
In addition, the
続いて、情報提供装置10が実行する検索処理の一例について説明する。まず、情報提供装置10は、利用者端末100から検索クエリを受付ける(ステップS5)。例えば、情報提供装置10は、利用者端末100から検索クエリとして、検索クエリq1を受付ける。
Next, an example of search processing executed by the
このような場合、情報提供装置10は、検索クエリq1と対応する画像を特定し、特定した画像の分散表現との距離に基づいて、検索クエリに応じた画像のランキングを生成する(ステップS6)。例えば、情報提供装置10は、検索クエリq1と最も関連性が高い第1画像P1を選択する。このような場合、情報提供装置10は、画像P1の分散表現P1と他の分散表現P2〜P4との間のユークリッド距離をそれぞれ算出する。
In such a case, the
そして、例えば、情報提供装置10は、分散表現P3、分散表現P2、および分散表現P4の順に、分散表現P1とのユークリッド距離が近い場合は、分散表現P3に対応する画像P3、分散表現P2に対応する画像P2、および分散表現P4に対応する画像P4の順に、各画像P2〜P4を並べたランキング形式の検索結果を生成する。そして、情報提供装置10は、生成したランキング形式の検索結果を利用者端末100へと提供する(ステップS7)。
For example, when the Euclidean distance from the distributed representation P1 is short in the order of the distributed representation P3, the distributed representation P2, and the distributed representation P4, the
〔2.情報提供装置の構成〕
続いて、上記した情報提供装置10が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
[2. Configuration of information providing device]
Subsequently, an example of a functional configuration of the
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、利用者端末100との間で情報の送受信を行う。
The
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、画像データベース31、および分散表現データベース32を記憶する。
The storage unit 30 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 30 also stores an
画像データベース31には、分散表現の生成対象となる画像が登録される。例えば、図3は、実施形態に係る画像データベースに登録される情報の一例を示す図である。図3に示すように、画像データベース31には、「画像ID(Identifier)」、「画像データ」および「メタ情報」といった項目を有する情報が登録される。また、「メタ情報」には、それぞれ異なる優先度が設定された「検索クエリ」、「タグ情報」、および「特徴情報」等といった情報が登録される。
In the
ここで、「画像ID」とは、画像の識別子である。また、「画像データ」とは、対応付けられた「画像ID」が示す画像の画像データである。また、「メタ情報」とは、対応付けられた「画像ID」が示す画像に付与されたメタ情報である。例えば、「検索クエリ」は、画像間の類似度を算出する際に最も優先して考慮される「優先度1」のメタ情報であり、対応付けられた「画像ID」が示す画像が利用者Uに選択された際に、利用者Uが入力した検索クエリである。また、「タグ情報」は、画像間の類似度を算出する際に2番目に優先して考慮される「優先度2」のメタ情報であり、対応付けられた「画像ID」が示す画像に撮像された撮像対象の特徴等、画像に予め付与されたタグ情報である。また、「特徴情報」は、画像間の類似度を算出する際に3番目に優先して考慮される「優先度3」のメタ情報であり、対応付けられた「画像ID」が示す画像の構造的(外観的)な特徴を示す特徴情報である。
Here, the “image ID” is an image identifier. The “image data” is image data of an image indicated by the associated “image ID”. The “meta information” is meta information given to the image indicated by the associated “image ID”. For example, “search query” is meta information of “
例えば、図3に示す例では、画像ID「画像ID#1」、画像データ「画像データ#1」、検索クエリ「検索クエリ#1」、タグ情報「タグ情報#1」、および特徴情報「特徴情報#1」が対応付けて登録されている。このような情報は、画像ID「画像ID#1」が示す画像の画像データが「画像データ#1」であり、その画像が選択された際に利用者Uが入力した検索クエリが「検索クエリ#1」であり、タグ情報「タグ情報#1」が付与されており、画像の外観的な特徴が「特徴情報#1」である旨を示す。なお、図3に示す例では、「画像ID#1」、「画像データ#1」、「検索クエリ#1」、「タグ情報#1」、「特徴情報#1」等といった概念的な値について記載したが、実際には、画像を識別する文字列、各種フォーマットの画像データ、検索クエリとして入力された文字列、タグ情報に含まれる文字列、特徴を示す多次元量等が登録されることとなる。
For example, in the example shown in FIG. 3, the image ID “
図2に戻り、説明を続ける。分散表現データベース32には、画像の分散表現が登録される。例えば、図4は、実施形態に係る分散表現データベースに登録される情報の一例を示す図である。図4に示す例では、分散表現データベース32には、「画像ID」と「分散表現」といった項目を有する情報が登録される。ここで、「分散表現」とは、対応付けられた「画像ID」が示す画像から生成した分散表現である。
Returning to FIG. 2, the description will be continued. In the distributed
例えば、図4に示す例では、画像ID「画像ID#1」および分散表現「分散表現#1」といった情報が対応付けて登録されている。このような情報は、画像ID「画像ID#1」が示す画像の分散表現が「分散表現#1」である旨を示す。なお、図4に示す例では、「分散表現#1」といった概念的な値を記載したが、実際には、分散表現として生成された多次元量が登録されることとなる。
For example, in the example illustrated in FIG. 4, information such as an image ID “
図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
Returning to FIG. 2, the description will be continued. The control unit 40 is a controller. For example, various programs stored in a storage device inside the
図2に示すように、制御部40は、選択部41、算出部42、比較部43、生成部44、受付部45、および検索部46を有する。選択部41は、処理対象となる画像を選択する。例えば、選択部41は、画像データベース31を参照し、基準画像となる画像を一つ選択する。また、選択部41は、基準画像に対して正解データまたは、不正解データとなる他の2つの画像の全ての組み合わせについて選択する。そして、選択部41は、選択した3つ組の画像をトリプルとして算出部42に通知する。なお、選択部41は、分散表現の学習において、全ての画像を基準画像として選択し、選択した画像を基準画像とする全てのトリプルを生成する。
As illustrated in FIG. 2, the control unit 40 includes a selection unit 41, a calculation unit 42, a comparison unit 43, a
なお、選択部41は、段階的に分散表現を生成する場合、例えば、任意の手法を用いて、基準画像との類似度が第1閾値以上となる第4画像を正解データとして選択し、基準画像との類似度が第2閾値以下となる第5画像を不正解データとして選択してもよい。また、選択部41は、第2画像および第3画像として、基準画像との類似度が所定の閾値を超える画像を選択してもよい。また、選択部41は、段階的に正解データおよび不正解データの選択元となる分野を徐々に狭めてもよい。例えば、選択部41は、各画像データのメタ情報の類似度が徐々に狭まるように、トリプルとなる画像を選択してもよい。 Note that when the distributed representation is generated step by step, the selection unit 41 selects, for example, a fourth image having a similarity with the reference image equal to or higher than the first threshold as correct data using an arbitrary technique, A fifth image having a similarity to the image equal to or lower than the second threshold value may be selected as incorrect answer data. Further, the selection unit 41 may select an image whose similarity with the reference image exceeds a predetermined threshold as the second image and the third image. Further, the selection unit 41 may gradually narrow down the field that is the source of selection of the correct answer data and the incorrect answer data step by step. For example, the selection unit 41 may select triple images so that the similarity of the meta information of each image data is gradually reduced.
算出部42は、基準画像と第2画像との間の類似度である第1類似度と、基準画像と第3画像との間の類似度である第2類似度とを算出する。例えば、算出部42は、基準画像のメタ情報と第2画像のメタ情報との類似度に基づいて、第1類似度を算出し、基準画像のメタ情報と第3画像のメタ情報との類似度に基づいて、第2類似度を算出する。 The calculation unit 42 calculates a first similarity that is a similarity between the reference image and the second image, and a second similarity that is a similarity between the reference image and the third image. For example, the calculation unit 42 calculates the first similarity based on the similarity between the meta information of the reference image and the meta information of the second image, and the similarity between the meta information of the reference image and the meta information of the third image Based on the degree, the second similarity is calculated.
例えば、算出部42は、トリプルに含まれる基準画像のメタ情報と第2画像のタグ情報とを画像データベース31から読み出す。そして、算出部42は、読み出したメタ情報の一致度やIoU等といった類似度を算出し、算出した類似度に基づいて、第1類似度を算出する。同様に、算出部42は、基準画像のタグ情報と第3画像のメタ情報との類似度から、第2類似度を算出する。
For example, the calculation unit 42 reads the meta information of the reference image and the tag information of the second image included in the triple from the
なお、算出部42は、基準画像に紐付けられる複数種別のメタ情報(例えば、検索クエリ、タグ情報、特徴情報等)と第2画像または第3画像に紐付けられる複数種別のメタ情報(例えば、検索クエリ、タグ情報、特徴情報等)とを用いて、メタ情報の種別ごとに類似度を算出し、算出した複数の類似度に基づいて、第1類似度や第2類似度を算出してもよい。また、算出部42は、種別ごとの類似度を優先度が高い順に結合させることで、所定の桁数の第1類似度および第2類似度を算出してもよい。 Note that the calculation unit 42 includes a plurality of types of meta information (for example, search query, tag information, feature information, etc.) associated with the reference image and a plurality of types of meta information (for example, associated with the second image or the third image). , Search query, tag information, feature information, etc.), the similarity is calculated for each type of meta information, and the first similarity and the second similarity are calculated based on the calculated plurality of similarities. May be. Further, the calculation unit 42 may calculate the first similarity and the second similarity with a predetermined number of digits by combining the similarity for each type in descending order of priority.
例えば、図5は、実施形態にかかる情報提供装置が算出する類似度の一例を示す図である。なお、図5に示す例では、10進数の優先度を算出する例について記載した。例えば、算出部42は、基準画像と第2画像の検索クエリ同士の類似度「AAAAA」を算出し、タグ情報同士の類似度「BBB」を算出し、特徴情報同士の類似度「CCC」を算出する。このような場合、算出部42は、優先度が最も高い検索クエリの類似度「AAAAA」に対し、タグ情報同士の類似度および特徴情報同士の類似度の桁数分の係数α「1000000」を積算する。また、算出部42は、優先度が2番目に高い検索クエリの類似度「BBB」に対し、特徴情報同士の類似度の桁数分の係数β「1000」を積算する。また、算出部42は、優先度が3番目に高い検索クエリの類似度「CCC」に対し、係数γ「1」を積算する。そして、算出部42は、各類似度に係数を積算した値「AAAAABBBCCC」を第1類似度とする。 For example, FIG. 5 is a diagram illustrating an example of the similarity calculated by the information providing apparatus according to the embodiment. In the example illustrated in FIG. 5, an example in which a decimal priority is calculated is described. For example, the calculation unit 42 calculates the similarity “AAAAA” between the search queries of the reference image and the second image, calculates the similarity “BBB” between the tag information, and calculates the similarity “CCC” between the feature information. calculate. In such a case, the calculation unit 42 calculates a coefficient α “1000000” corresponding to the number of digits of similarity between tag information and similarity between feature information with respect to the similarity “AAAAAA” of the search query having the highest priority. Accumulate. In addition, the calculation unit 42 accumulates a coefficient β “1000” corresponding to the number of digits of similarity between feature information to the similarity “BBB” of the search query having the second highest priority. In addition, the calculation unit 42 adds the coefficient γ “1” to the similarity “CCC” of the search query having the third highest priority. Then, the calculation unit 42 sets the value “AAAAAABBBCCC” obtained by adding the coefficient to each similarity as the first similarity.
例えば、算出部42は、基準画像と第3画像の検索クエリ同士の類似度「aaaaa」を算出し、タグ情報同士の類似度「bbb」を算出し、特徴情報同士の類似度「ccc」を算出する。このような場合、算出部42は、優先度が最も高い検索クエリの類似度「aaaaa」に対し係数αを積算し、優先度が2番目に高い検索クエリの類似度「bbb」に係数β「1000」をし、優先度が3番目に高い検索クエリの類似度「ccc」に対し、係数γを積算する。そして、算出部42は、各類似度に係数を積算した値「aaaaabbbccc」を第2類似度とする。 For example, the calculation unit 42 calculates the similarity “aaaaaa” between the search queries of the reference image and the third image, calculates the similarity “bbb” between the tag information, and calculates the similarity “ccc” between the feature information. calculate. In such a case, the calculation unit 42 adds the coefficient α to the similarity “aaaaaa” of the search query with the highest priority, and adds the coefficient β “to the similarity“ bbb ”of the search query with the second highest priority. 1000 ”and the coefficient γ is added to the similarity“ ccc ”of the search query having the third highest priority. Then, the calculation unit 42 sets the value “aaaaaabbbccc” obtained by adding the coefficient to each similarity as the second similarity.
このようにして算出された第1類似度および第2類似度を比較した場合、より優先度が高い種別のメタ情報がより優先的に比較結果に反映させることとなる。このため、算出部42は、優先度が異なる複数種別のメタ情報の比較を容易にすることができる。 When the first similarity and the second similarity calculated in this way are compared, the type of meta information having a higher priority is more preferentially reflected in the comparison result. For this reason, the calculation unit 42 can easily compare a plurality of types of meta information having different priorities.
なお、算出部42は、画像データベース31に登録された各種のメタ情報を用いて、各画像の類似度を判断することで、基準画像のメタ情報と第2画像のメタ情報との意味または表記の類似度に基づいて、第1類似度を算出し、基準画像のメタ情報と第3画像のメタ情報との意味または表記の類似度に基づいて、第2類似度を算出することとなる。例えば、算出部42は、基準画像が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第2画像が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第1類似度を算出し、基準画像が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第3画像が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第2類似度を算出することとなる。
Note that the calculation unit 42 determines the similarity of each image using various meta information registered in the
なお、算出部42は、各画像を選択した利用者Uの同一性によらず、各画像が選択された際に各利用者が入力した検索クエリの類似度に基づいて、第1類似度および第2類似度を算出してよい。また、算出部42は、基準画像と第2画像との構造的な類似度および基準画像と第2画像との意味的な類似度とに基づいて、第1類似度を算出し、基準画像と第3画像との構造的な類似度および基準画像と第3画像との意味的な類似度とに基づいて、第2類似度を算出することとなる。 Note that the calculation unit 42 does not depend on the identity of the user U who selected each image, but based on the similarity of the search query input by each user when each image is selected, The second similarity may be calculated. The calculating unit 42 calculates the first similarity based on the structural similarity between the reference image and the second image and the semantic similarity between the reference image and the second image, The second similarity is calculated based on the structural similarity with the third image and the semantic similarity between the reference image and the third image.
なお、算出部42は、検索クエリのうち、トークンの量が所定の閾値を超える検索クエリの類似度に基づいて、第1類似度および第2類似度を算出してもよい。また、算出部42は、段階的な学習を行う場合は、選択部41が選択した第4画像や第5画像についても、基準画像との間の第1類似度や第2類似度を算出することとなる。 Note that the calculation unit 42 may calculate the first similarity and the second similarity based on the similarity of search queries in which the amount of tokens exceeds a predetermined threshold among the search queries. In addition, when performing stepwise learning, the calculation unit 42 calculates the first similarity and the second similarity between the fourth image and the fifth image selected by the selection unit 41 and the reference image. It will be.
図2に戻り、説明を続ける。比較部43は、算出部42がトリプルごとに算出した第1類似度および第2類似度を比較し、比較結果を生成部44に通知する。例えば、比較部43は、第1類似度の値と、第2類似度の値とのいずれがより大きいかを判定し、判定結果を生成部44に通知する。
Returning to FIG. 2, the description will be continued. The comparison unit 43 compares the first similarity and the second similarity calculated for each triple by the calculation unit 42 and notifies the
生成部44は、第1類似度が第2類似度よりも大きい場合は、基準画像の分散表現と第2画像の分散表現とが類似し、かつ基準画像の分散表現と第3画像の分散表現とが類似しないように、各分散表現を生成する。また、生成部44は、第2類似度が第1類似度よりも大きい場合は、基準画像の分散表現と第3画像の分散表現とが類似し、かつ基準画像の分散表現と第2画像の分散表現とが類似しないように、各分散表現を生成する。そして、生成部44は、各画像の画像IDと、生成した分散表現とを分散表現データベース32に登録する。
When the first similarity is greater than the second similarity, the
例えば、生成部44は、第1類似度が第2類似度よりも大きい場合は、トリプルに含まれる第2画像を正解データとし、第3画像を不正解データとする。また、生成部44は、第2類似度が第1類似度よりも大きい場合は、トリプルに含まれる第3画像を正解データとし、第2画像を不正解データとする。すなわち、生成部44は、第1類似度と第2類似度との比較結果に基づいて、正解データおよび不正解データの設定を行う。そして、生成部44は、各トリプルから正解ペアと不正解ペアとを生成し、式(1)のLの値が最大化するように、各画像の分散表現を生成する。
For example, when the first similarity is greater than the second similarity, the
なお、生成部44は、段階的に分散表現を生成する場合、基準画像の分散表現と第4画像の分散表現とが類似し、かつ、基準画像の分散表現と第5画像の分散表現とが類似しないように、基準画像、第4画像および第5画像の分散表現を生成する。そして、生成部44は、生成した分散表現の精度を算出し、算出した精度が所定の閾値を超えた場合や、算出した精度が所定の期間上昇しない場合は、第1類似度および第2類似度の比較結果に基づいて、正解データおよび不正解データを設定を行い、設定結果に基づいた分散表現の修正を行ってもよい。また、生成部44は、基準画像の分散表現と第2画像の分散表現との差が、基準画像の分散表現と第3画像の分散表現との差よりも少なくなるように、各分散表現を生成してもよい。
When the
受付部45は、利用者端末100から検索クエリを受付ける。このような場合、受付部45は、検索クエリと対応する画像を特定する。例えば、受付部45は、検索クエリとしてテキストを受付けた場合、画像データベース31を参照し、検索クエリのテキストと最も一致度が高いメタ情報と対応付けられた画像を選択する。また、例えば、受付部45は、検索クエリとして画像を受付けた場合、画像データベース31を参照し、検索クエリとなる画像と類似度が最も高い画像を検索する。なお、受付部45は、例えば、画像と画像との間、もしくは、画像とテキストとの間の意味的および構造的な類似性を学習した所定の学習モデルを用いて、検索クエリと対応する画像を検索してもよい。
The accepting unit 45 accepts a search query from the
検索部46は、検索クエリと類似する画像をランキング形式で特定する。例えば、検索部46は、受付部45が検索の結果特定した画像(以下、「クエリ画像」と記載する。)の分散表現を分散表現データベース32から取得する。そして、検索部46は、取得した分散表現と、分散表現データベース32に登録された分散表現との間の距離を算出し、距離が近い方から順に所定の数の分散表現を特定する。また、検索部46は、特定した分散表現と対応付けられた画像を分散表現データベース32から特定し、特定した画像の画像データを画像データベース31から読み出す。そして、検索部46は、読み出した画像データを、クエリ画像の分散表現との間の距離が近い方から順にランキング形式で並べたコンテンツを生成し、生成したコンテンツを利用者端末100へと提供する。
The search unit 46 specifies images similar to the search query in a ranking format. For example, the search unit 46 acquires a distributed representation of the image (hereinafter referred to as “query image”) specified by the reception unit 45 as a result of the search from the distributed
〔3.情報提供装置が実行する処理の流れの一例〕
続いて、図6を用いて、情報提供装置10が実行する生成処理の流れについて説明する。図6は、実施形態に係る情報提供装置が実行する生成処理の流れの一例を示すフローチャートである。なお、情報提供装置10は、図6に示す処理を、任意の単位で、任意のタイミングにより実行可能である。
[3. Example of flow of processing executed by information providing apparatus]
Subsequently, a flow of generation processing executed by the
まず、情報提供装置10は、第1画像、第2画像、および第3画像の組を選択する(ステップS101)。そして、情報提供装置10は、第1画像のメタ情報と第2画像のメタ情報との第1類似度、および第1画像のメタ情報と第3画像のメタ情報との第2類似度を算出する(ステップS102)。
First, the
続いて、情報提供装置10は、第1類似度が第2類似度よりも大きいか否かを判定し(ステップS103)、大きい場合は(ステップS103:Yes)、第2画像を正解データとし、第3画像を不正解データとする(ステップS104)。一方、情報提供装置10は、第1類似度が第2類似度よりも大きくない場合は(ステップS103:No)、第2画像を不正解データとし、第3画像を正解データとする(ステップS105)。そして、情報提供装置10は、第1画像の分散表現と正解データの分散表現とが類似し、第1画像の分散表現と不正解データの分散表現とが類似しないように、分散表現を生成し(ステップS106)、処理を終了する。
Subsequently, the
〔4.変形例〕
上記では、情報提供装置10による生成処理や検索処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する提供処理や付与処理のバリエーションについて説明する。
[4. (Modification)
In the above, an example of generation processing and search processing by the
〔4−1.対象となる情報について〕
上述した例では、情報提供装置10は、画像間の意味的および構造的な類似度を相対的に反映させた分散表現を生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、静止画像や動画像等といった画像以外にも、音楽、映画、ニュース記事、各種の投稿、ウェブコンテンツ等、任意の情報間の意味的および構造的な類似度を相対的に反映させた分散表現を生成してもよい。このような場合、情報提供装置10は、例えば、音楽の作曲家、作詞内容、演奏時間、演奏日時、映画の監督、出演者、上映時間、ニュース記事や投稿内容の要約等をメタ情報として採用してもよい。
[4-1. (Target information)
In the example described above, the
また、情報提供装置10は、異なる種別の情報を含むトリプルを用いて、各情報の分散表現を生成してもよい。例えば、情報提供装置10は、画像と、テキストと、音楽とを含むトリプルについて、画像とテキストとの間の第1類似度、画像と音楽との間の第2類似度を算出し、算出した第1類似度および第2類似度との比較結果に応じて、正解データや不正解データとし、各情報の分散表現を生成してもよい。
Further, the
すなわち、情報提供装置10は、任意の種別の第1情報と任意の種別の第2情報との間の第1類似度と、第1情報と任意の種別の第3情報との間の第2類似度を算出し、第1類似度が第2類似度よりも大きい場合は、第1情報の分散表現と第2情報の分散表現とが類似し、かつ第1情報の分散表現と前記第3情報の分散表現とが類似しないように、各分散表現を生成すればよい。また、情報提供装置10は、第2類似度が第1類似度よりも大きい場合は、第1情報の分散表現と第3情報の分散表現とが類似し、かつ第1情報の分散表現と第2情報の分散表現とが類似しないように、各分散表現を生成すればよい。
That is, the
〔4−2.装置構成〕
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、検索処理を実現するフロントエンドサーバと、生成処理を実現するバックエンドサーバとで実現されてもよい。このような場合、フロントエンドサーバには、図2に示す受付部45および検索部46が配置され、バックエンドサーバには、選択部41、算出部42、比較部43、および生成部44が配置される。
[4-2. Device configuration〕
The
〔4−3.第1類似度と第2類似度との比較結果について〕
上述した例では、情報提供装置10は、第1類似度が第2類似度よりも大きい場合は、第2情報を正解データとし、それ以外の場合には、第3情報を正解データとした。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、第1類似度が第2類似度と等しい場合には、第2情報や第3情報を選択しなおしてもよい。
[4-3. Comparison results between first similarity and second similarity]
In the example described above, the
例えば、情報提供装置10は、第1類似度が第2類似度よりも大きい場合は、第2情報を正解データとし、第2類似度が第1類似度よりも大きい場合は、第3情報を正解データとする。一方、情報提供装置10は、第1類似度が第2類似度と同じ場合には、新たな第2情報および第3情報をランダムに選択しなおす。この際、情報提供装置10は、例えば、第1情報と同じまたは類似する分野の第2情報および第3情報をランダムに選択してもよく、第2情報または第3情報のいずれか一方を、再度選択し直してもよい。また、情報提供装置10は、第1類似度が第2類似度と同じ場合には、選択元となる分野を限定するか否かを確率的に決定し、限定すると決定した場合に、第1情報と同一または類似する分野に属する情報、すなわち、類似度が所定の閾値よりも高い情報の中から、第2情報または第3情報の少なくとも一方を選択し直してもよい。
For example, when the first similarity is greater than the second similarity, the
〔4−4.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[4-4. Others]
In addition, among the processes described in the above embodiment, all or part of the processes described as being automatically performed can be performed manually, and conversely, the processes described as being performed manually. All or a part of the above can be automatically performed by a known method. In addition, the processing procedures, specific names, and information including various data and parameters shown in the document and drawings can be arbitrarily changed unless otherwise specified. For example, the various types of information illustrated in each drawing is not limited to the illustrated information.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 In addition, the above-described embodiments can be appropriately combined within a range in which processing contents do not contradict each other.
〔4−5.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
[4-5. program〕
In addition, the
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
The arithmetic device 1030 operates based on a program stored in the primary storage device 1040 and the
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
The output IF 1060 is an interface for transmitting information to be output to an
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
The
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。 The network IF 1080 receives data from other devices via the network N and sends the data to the arithmetic device 1030, and transmits data generated by the arithmetic device 1030 to other devices via the network N.
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
The arithmetic device 1030 controls the
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
For example, when the
〔5.効果〕
上述したように、情報提供装置10は、第1情報と第2情報との間の類似度である第1類似度と、第1情報と第3情報との間の類似度である第2類似度とを算出する。そして、情報提供装置10は、第1類似度と第2類似度との関係性に基づいて、第2画像および第3画像の分散表現のうちいずれか1方が第1画像の分散表現と類似し、他方が類似しないように、各画像の分散表現を生成する。例えば、情報提供装置10は、第1類似度が第2類似度よりも大きい場合は、第1情報の分散表現と第2情報の分散表現とが類似し、かつ第1情報の分散表現と第3情報の分散表現とが類似しないように、各分散表現を生成する。また、情報提供装置10は、第2類似度が第1類似度よりも大きい場合は、第1情報の分散表現と第3情報の分散表現とが類似し、かつ第1情報の分散表現と第2情報の分散表現とが類似しないように、各分散表現を生成する。
[5. effect〕
As described above, the
このような処理の結果、情報提供装置10は、各情報の相対的な類似度を分散表現空間上に落とし込むことができるので、距離公理を満たす距離関数が使えることが担保された分散表現空間を生成することができる。すなわち、情報提供装置10は、情報の類似性を分散表現空間上の距離に反映させることができる。
As a result of such processing, the
また、情報提供装置10は、第1情報に紐付けられるメタ情報と第2情報に紐付けられるメタ情報との類似度に基づいて、第1類似度を算出し、第1情報に紐付けられるメタ情報と第3情報に紐付けられるメタ情報との類似度に基づいて、第2類似度を算出する。このため、情報提供装置10は、各情報の意味的な類似性を分散表現に反映させることができる。
The
また、情報提供装置10は、第1情報に紐付けられる複数種別の情報と第2情報に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、第1類似度を算出し、第1情報に紐付けられる複数種別の情報と第3情報に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、第2類似度を算出する。このため、情報提供装置10は、様々な観点での類似性を統合的に分散表現へと反映させることができる。
Further, the
また、情報提供装置10は、種別ごとの類似度を優先度が高い順に結合させることで、所定の桁数の第1類似度および第2類似度を算出する。このため、情報提供装置10は、各種別の階層的な優先度を考慮して、各情報の相対的な類似性を判定することができる。
Moreover, the
また、情報提供装置10は、第1情報に紐付けられる情報と第2情報に紐付けられる情報との意味または表記の類似度に基づいて、第1類似度を算出し、第1情報に紐付けられる情報と第3情報に紐付けられる情報との意味または表記の類似度に基づいて、第2類似度を算出する。このため、情報提供装置10は、各情報の意味的、構造的な類似性を分散表現に反映させることができる。
Further, the
また、情報提供装置10は、第1情報が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第2情報が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第1類似度を算出する。また、情報提供装置10は、第1情報が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第3情報が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第2類似度を算出する。このため、情報提供装置10は、利用者Uの検索意図の類似性を分散表現に反映させることができる。
In addition, the
また、情報提供装置10は、検索クエリのうち、トークンの量が所定の閾値を超える検索クエリの類似度に基づいて、第1類似度および第2類似度を算出する。このため、情報提供装置10は、利用者Uの検索意図をより精度よく分散表現に反映させることができる。
Further, the
また、情報提供装置10は、第1情報と第2情報との構造的な類似度および第1情報と第2情報との意味的な類似度とに基づいて、第1類似度を算出し、第1情報と第3情報との構造的な類似度および第1情報と第3情報との意味的な類似度とに基づいて、第2類似度を算出する。このため、情報提供装置10は、各情報の意味的な類似度および構造的な類似度を、分散表現に反映させることができる。
Further, the
また、情報提供装置10は、第2情報および第3情報として、第1情報との類似度が所定の閾値を超える情報を選択し、第1情報と、選択された第2情報および第3情報とから、第1類似度および第2類似度を算出する。このため、情報提供装置10は、相互に類似しする情報間における相対的な類似性を分散表現に反映させることができる。
Further, the
また、情報提供装置10は、第1情報との類似度が第1閾値以上となる第4情報と、第1情報との類似度が第2閾値以下となる第5情報とを選択する。また、情報提供装置10は、第1情報ないし第5情報のうち3つの情報を含む全ての組について、第1類似度および第2類似度を算出する。そして、情報提供装置10は、第1情報の分散表現と第4情報の分散表現とが類似し、かつ、第1情報の分散表現と第5情報の分散表現とが類似しないように、第1情報、第4情報および第5情報の分散表現を生成し、その後、組ごとに算出した第1類似度および第2類似度に基づいて、組に含まれる第1情報ないし第5情報の分散表現を生成する。このため、情報提供装置10は、効率的な分散表現の学習を実現することができる。
In addition, the
また、情報提供装置10は、第1情報の分散表現と第2情報の分散表現との差が、第1情報の分散表現と第3情報の分散表現との差よりも少なくなるように、各分散表現を生成する。このため、情報提供装置10は、分散表現を適切に生成することができる。
Further, the
また、情報提供装置10は、画像である第1情報と画像である第2情報との間の第1類似度と、第1情報と画像である第3情報との間の第2類似度とを算出する。このため、情報提供装置10は、画像間の相対的な類似性を各画像の分散表現に反映させることができる。
The
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 As described above, some of the embodiments of the present application have been described in detail with reference to the drawings. However, these are merely examples, and various modifications, including the aspects described in the disclosure section of the invention, based on the knowledge of those skilled in the art, It is possible to implement the present invention in other forms with improvements.
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。 Moreover, the above-mentioned “section (module, unit)” can be read as “means”, “circuit”, and the like. For example, the generation unit can be read as generation means or a generation circuit.
10 情報提供装置
20 通信部
30 記憶部
31 画像データベース
32 分散表現データベース
40 制御部
41 選択部
42 算出部
43 比較部
44 生成部
45 受付部
46 検索部
100 利用者端末
DESCRIPTION OF
Claims (16)
前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成部と
を有することを特徴とする生成装置。 A calculation unit that calculates a first similarity that is a similarity between the first information and the second information, and a second similarity that is a similarity between the first information and the third information;
Based on the relationship between the first similarity and the second similarity, one of the distributed representations of the second information and the third information is similar to the distributed representation of the first information, and the other is A generation device comprising: a generation unit configured to generate each distributed expression so as not to be similar.
ことを特徴とする請求項1に記載の生成装置。 When the first similarity is greater than the second similarity, the generation unit is configured such that the distributed representation of the first information and the distributed representation of the second information are similar, and the distributed representation of the first information The generation apparatus according to claim 1, wherein each distributed expression is generated so that the distributed expression of the third information is not similar to the distributed expression.
ことを特徴とする請求項1または2に記載の生成装置。 When the second similarity is greater than the first similarity, the distributed representation of the first information and the distributed representation of the third information are similar, and the distributed representation of the first information and the distributed of the second information The generation apparatus according to claim 1, wherein each distributed expression is generated so that the expression is not similar to the expression.
ことを特徴とする請求項1〜3のうちいずれか1つに記載の生成装置。 The calculation unit calculates the first similarity based on the similarity between the information associated with the first information and the information associated with the second information, and information associated with the first information The generation device according to any one of claims 1 to 3, wherein the second similarity is calculated based on a similarity between the first information and information associated with the third information.
ことを特徴とする請求項4に記載の生成装置。 The calculation unit calculates the first similarity based on a similarity for each type of information of a plurality of types associated with the first information and information of a plurality of types associated with the second information, The second similarity is calculated based on a similarity for each type of information of a plurality of types associated with the first information and information of a plurality of types associated with the third information. Item 5. The generating device according to Item 4.
ことを特徴とする請求項5に記載の生成装置。 6. The calculation unit according to claim 5, wherein the calculation unit calculates the first similarity and the second similarity of a predetermined number of digits by combining similarities of the types in descending order of priority. The generator described.
ことを特徴とする請求項4〜6のうちいずれか1つに記載の生成装置。 The calculation unit calculates the first similarity based on the meaning or notation similarity between the information associated with the first information and the information associated with the second information, and includes the first information in the first information. The second similarity is calculated based on the meaning or notation similarity between the information associated with the information and the information associated with the third information. The generating device described in 1.
ことを特徴とする請求項4〜7のうちいずれか1つに記載の生成装置。 The calculation unit includes a search query input by the user when the first information is selected by the user, and a search query input by the user when the second information is selected by the user. The first similarity is calculated based on the similarity, and the search query input by the user when the first information is selected by the user and the third information is selected by the user The generation apparatus according to any one of claims 4 to 7, wherein the second similarity is calculated based on a similarity with a search query input by the user.
ことを特徴とする請求項8に記載の生成装置。 The said calculation part calculates the said 1st similarity and the said 2nd similarity based on the similarity of the search query from which the amount of tokens exceeds a predetermined threshold value among the said search queries. 9. The generating device according to 8.
ことを特徴とする請求項1〜9のうちいずれか1つに記載の生成装置。 The calculation unit calculates the first similarity based on a structural similarity between the first information and the second information and a semantic similarity between the first information and the second information. And calculating the second similarity based on the structural similarity between the first information and the third information and the semantic similarity between the first information and the third information. The generation device according to claim 1, wherein the generation device is a feature.
を有し、
前記算出部は、前記第1情報と、前記第1選択部により選択された前記第2情報および前記第3情報とから、前記第1類似度および前記第2類似度を算出する
ことを特徴とする請求項1〜10のうちいずれか1つに記載の生成装置。 As the second information and the third information, a first selection unit that selects information whose similarity with the first information exceeds a predetermined threshold,
The calculation unit calculates the first similarity and the second similarity from the first information and the second information and the third information selected by the first selection unit. The generation device according to any one of claims 1 to 10.
を有し、
前記算出部は、前記第1情報ないし前記第5情報のうち3つの情報を含む全ての組について、前記第1類似度および前記第2類似度を算出し、
前記生成部は、前記第1情報の分散表現と前記第4情報の分散表現とが類似し、かつ、第1情報の分散表現と第5情報の分散表現とが類似しないように、第1情報、第4情報および第5情報の分散表現を生成し、その後、前記算出部が前記組ごとに算出した第1類似度および前記第2類似度に基づいて、当該組に含まれる第1情報ないし前記第5情報の分散表現を生成する
ことを特徴とする請求項1〜11のうちいずれか1つに記載の生成装置。 A second selection unit that selects the fourth information whose similarity to the first information is equal to or higher than a first threshold and the fifth information whose similarity to the first information is equal to or lower than a second threshold;
The calculation unit calculates the first similarity and the second similarity for all sets including three pieces of information from the first information to the fifth information,
The generation unit is configured so that the distributed representation of the first information is similar to the distributed representation of the fourth information, and the distributed representation of the first information is not similar to the distributed representation of the fifth information. , Generating a distributed representation of the fourth information and the fifth information, and then, based on the first similarity and the second similarity calculated by the calculation unit for each of the sets, the first information or the first information included in the set The generation apparatus according to claim 1, wherein a distributed representation of the fifth information is generated.
ことを特徴とする請求項1〜12のうちいずれか1つに記載の生成装置。 The generation unit is configured such that a difference between the distributed representation of the first information and the distributed representation of the second information is smaller than the difference between the distributed representation of the first information and the distributed representation of the third information. Each distributed expression is produced | generated. The production | generation apparatus as described in any one of Claims 1-12 characterized by the above-mentioned.
ことを特徴とする請求項1〜13のうちいずれか1つに記載の生成装置。 The calculation unit includes the first similarity between the first information that is an image and the second information that is an image, and the second information between the first information and the third information that is an image. The generation device according to any one of claims 1 to 13, wherein similarity is calculated.
第1情報と第2情報との間の類似度である第1類似度と、第1情報と第3情報との間の類似度である第2類似度とを算出する算出工程と、
前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成工程と
を含むことを特徴とする生成方法。 A generation method executed by a generation device,
A calculation step of calculating a first similarity that is a similarity between the first information and the second information, and a second similarity that is a similarity between the first information and the third information;
Based on the relationship between the first similarity and the second similarity, one of the distributed representations of the second information and the third information is similar to the distributed representation of the first information, and the other is A generation method characterized by including a generation step of generating each distributed expression so as not to be similar.
前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成手順と
をコンピュータに実行させることを特徴とする生成プログラム。 A calculation procedure for calculating a first similarity that is a similarity between the first information and the second information, and a second similarity that is a similarity between the first information and the third information;
Based on the relationship between the first similarity and the second similarity, one of the distributed representations of the second information and the third information is similar to the distributed representation of the first information, and the other is A generation program characterized by causing a computer to execute a generation procedure for generating each distributed expression so as not to be similar.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017051953A JP6756648B2 (en) | 2017-03-16 | 2017-03-16 | Generator, generation method and generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017051953A JP6756648B2 (en) | 2017-03-16 | 2017-03-16 | Generator, generation method and generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018156333A true JP2018156333A (en) | 2018-10-04 |
JP6756648B2 JP6756648B2 (en) | 2020-09-16 |
Family
ID=63715647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017051953A Active JP6756648B2 (en) | 2017-03-16 | 2017-03-16 | Generator, generation method and generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6756648B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7435130B2 (en) | 2019-03-29 | 2024-02-21 | 富士フイルムビジネスイノベーション株式会社 | Methods, servers and programs for indoor localization |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010250359A (en) * | 2009-04-10 | 2010-11-04 | Hitachi Ltd | Pseudo document retrieval system and pseudo document retrieval method |
US20160180151A1 (en) * | 2014-12-17 | 2016-06-23 | Google Inc. | Generating numeric embeddings of images |
WO2017037801A1 (en) * | 2015-08-28 | 2017-03-09 | 株式会社日立製作所 | Monitoring system and method for monitoring |
-
2017
- 2017-03-16 JP JP2017051953A patent/JP6756648B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010250359A (en) * | 2009-04-10 | 2010-11-04 | Hitachi Ltd | Pseudo document retrieval system and pseudo document retrieval method |
US20160180151A1 (en) * | 2014-12-17 | 2016-06-23 | Google Inc. | Generating numeric embeddings of images |
WO2017037801A1 (en) * | 2015-08-28 | 2017-03-09 | 株式会社日立製作所 | Monitoring system and method for monitoring |
Non-Patent Citations (1)
Title |
---|
SCHROFF, FLORIAN ET AL., FACENET: A UNITED EMBEDDING FOR FACE RECOGNITION AND CLUSTERING, JPN6020007803, 12 March 2015 (2015-03-12), pages 1 - 9, ISSN: 0004224603 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7435130B2 (en) | 2019-03-29 | 2024-02-21 | 富士フイルムビジネスイノベーション株式会社 | Methods, servers and programs for indoor localization |
Also Published As
Publication number | Publication date |
---|---|
JP6756648B2 (en) | 2020-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10922350B2 (en) | Associating still images and videos | |
US20220035827A1 (en) | Tag selection and recommendation to a user of a content hosting service | |
JP6767342B2 (en) | Search device, search method and search program | |
JP5794036B2 (en) | Image search apparatus, image search method, and program | |
WO2016196128A1 (en) | Task-focused search by image | |
TW201322021A (en) | Image search method and image search apparatus | |
CN110909182A (en) | Multimedia resource searching method and device, computer equipment and storage medium | |
US9558185B2 (en) | Method and system to discover and recommend interesting documents | |
JP4374902B2 (en) | Similar image search device, similar image search method, and similar image search program | |
WO2017203672A1 (en) | Item recommendation method, item recommendation program, and item recommendation apparatus | |
JP2018151800A (en) | Application device, application method and application program | |
JP6756648B2 (en) | Generator, generation method and generation program | |
CN110431550B (en) | Method and system for identifying visual leaf pages | |
JP2011100208A (en) | Action estimation device, action estimation method, and action estimation program | |
JP6310529B1 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM | |
JP4544047B2 (en) | Web image search result classification presentation method and apparatus, program, and storage medium storing program | |
JP6705763B2 (en) | Generation device, generation method, and generation program | |
JP2015036892A (en) | Information processing apparatus, information processing method, and program | |
JP2020013395A (en) | Disclosure apparatus, disclosure method, and disclosure program | |
JP7161002B1 (en) | Information processing device, information processing method and information processing program | |
JP7077464B1 (en) | Information processing equipment, information processing methods and information processing programs | |
JP7212728B1 (en) | Information processing device, information processing method and information processing program | |
JP4189251B2 (en) | Keyword analysis method and program used therefor | |
JP2002269143A (en) | System, method and program for filtering information | |
JP7023132B2 (en) | Selection device, selection method and selection program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20170417 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200303 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200827 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6756648 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |