JP6756648B2 - 生成装置、生成方法および生成プログラム - Google Patents

生成装置、生成方法および生成プログラム Download PDF

Info

Publication number
JP6756648B2
JP6756648B2 JP2017051953A JP2017051953A JP6756648B2 JP 6756648 B2 JP6756648 B2 JP 6756648B2 JP 2017051953 A JP2017051953 A JP 2017051953A JP 2017051953 A JP2017051953 A JP 2017051953A JP 6756648 B2 JP6756648 B2 JP 6756648B2
Authority
JP
Japan
Prior art keywords
information
similarity
image
distributed representation
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017051953A
Other languages
English (en)
Other versions
JP2018156333A (ja
Inventor
陸 富樫
陸 富樫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017051953A priority Critical patent/JP6756648B2/ja
Publication of JP2018156333A publication Critical patent/JP2018156333A/ja
Application granted granted Critical
Publication of JP6756648B2 publication Critical patent/JP6756648B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、生成装置、生成方法および生成プログラムに関する。
従来、画像やテキスト等といった情報の特徴量に応じた分類技術が知られている。このような技術の一例として、トリプレットロスと呼ばれる手法が提案されている。トリプレットロスにおいては、各情報の内容を示すタグの一致度をそれぞれ算出し、算出したタグの一致度が第1閾値を超える情報を類似の情報とし、一致度が第2閾値を下回る情報を非類似の情報とする。そして、トリプレットロスにおいては、例えば、第1情報の分散表現と第1情報に類似する第2情報の分散表現との差が小さくなり、第1情報と分散表現と第1情報とは類似しない第3情報の分散表現との差が大きくなるように、各情報の分散表現を学習する。このような処理の結果、分散表現空間上において、第1情報と第2情報とが近傍に配置され、第1情報と第3情報とが離れるように配置されることとなる。
特開2010−250849号公報
"Fashion Style in 128 Floats:Joint Ranking and Classification using Weak Data for Feature Extraction" Edgar Simo-Serra and Hiroshi Ishikawa, Department of Computer Science and Engineering, Waseda University, Tokyo, Japan
しかしながら、上述した従来技術では、情報の類似性を分散表現空間上の距離に反映させることができない場合がある。
例えば、従来技術では、第1情報とのタグの一致度が第1閾値よりも小さい情報は、タグの一致度の高低によらず、全て第1情報と類似する情報として取り扱われるため、類似する情報間におけるタグの一致度が分散表現の類似度に反映されない。この結果、分散表現空間を用いた検索においては、第1情報と類似する情報を検索することができるものの、第1情報との類似度に応じたランキングの正確性を保証することができない。
本願は、上記に鑑みてなされたものであって、情報の類似性を分散表現空間上の距離に反映させることを目的とする。
本願に係る生成装置は、第1情報と第2情報との間の類似度である第1類似度と、第1情報と第3情報との間の類似度である第2類似度とを算出する算出部と、前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成部とを有することを特徴とする。
実施形態の一態様によれば、情報の類似性を分散表現空間上の距離に反映させることができる。
図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。 図2は、実施形態に係る情報提供装置の構成例を示す図である。 図3は、実施形態に係る画像データベースに登録される情報の一例を示す図である。 図4は、実施形態に係る分散表現データベースに登録される情報の一例を示す図である。 図5は、実施形態にかかる情報提供装置が算出する類似度の一例を示す図である。 図6は、実施形態に係る情報提供装置が実行する生成処理の流れの一例を示すフローチャートである。 図7は、ハードウェア構成の一例を示す図である。
以下に、本願に係る生成装置、生成方法および生成プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法および生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
[実施形態]
〔1.情報提供装置が提供する処理について〕
まず、図1を用いて、生成装置の一例となる情報提供装置が実行する生成処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。なお、以下の説明では、情報提供装置10が実行する処理として、分散表現を用いた画像検索を様にするため、画像の類似性を反映させた分散表現を生成する生成処理と、生成処理によって生成した分散表現を用いて、画像の検索を行う検索処理とについて説明する。なお、以下の説明では、情報提供装置10が各情報の分散表現を「生成」する処理について説明するが、かかる処理は、各データに対応する適切な分散表現の値を適宜「学習」することで、分散表現を「生成」する処理であるものとする。
また、以下の生成処理および検索処理は、静止画像や動画像等といった各種の画像のみならず、音声、映画、小説、ニュース記事等、任意のコンテンツの分散表現を生成し、生成した分散表現を用いてコンテンツを検索する処理に適用可能である。
〔1−1.情報提供装置の概要〕
情報提供装置10は、インターネット等の所定のネットワークN(例えば、図2を参照。)を介して、利用者端末100と通信可能な情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。なお、情報提供装置10は、ネットワークNを介して、任意の数の利用者端末100と通信可能であってよい。
利用者端末100は、情報の検索を要求する利用者が使用する情報処理装置であり、PC(Personal Computer)、サーバ装置、スマートデバイスといった情報処理装置により実現される。例えば、利用者端末100は、検索クエリとして、画像や画像の内容を示す情報を情報提供装置10に送信する。このような場合、情報提供装置10は、後述する生成処理により生成された分散表現を用いて、検索クエリとして受付けた画像と類似する画像を検索し、検索した画像を検索クエリとの類似度に応じたランキング形式で利用者端末100へと提供する。
〔1−2.生成処理について〕
ここで、画像の外見的な特徴量のみならず、撮像された撮像対象の内容に応じた画像検索を容易にするため、撮像された撮像対象の内容を示す特徴量を生成し、生成した特徴量に応じて画像を分類する技術が考えられる。例えば、画像に撮像された撮像対象の内容を示すタグ情報を画像のメタ情報として保持し、メタ情報の一致度に応じて撮像対象の特徴量に基づいた分散表現を生成する技術が考えられる。
また、メタ情報の一致度に応じて分散表現を生成する技術として、トリプレットロスの技術が知られている。しかしながら、トリプレットロスの技術では、メタ情報の一致度が所定の閾値よりも高いか否かに応じて、基準画像と、正解データとなる画像と、不正解データとなる画像との組、すなわち、トリプルと呼ばれる情報を生成する。そして、トリプレットロスの技術では、基準画像と正解データとなる画像(以下、「正解ペア」と記載する。)との分散表現が類似し、基準画像と不正解データとなる画像(以下、「不正解ペア」と記載する。)との分散表現が非類似となるように、各画像の分散表現を学習する。
しかしながら、このようなトリプレットロスの技術では、メタ情報の一致度が所定の閾値よりも高い場合には、正解データとして取り扱われるので、分散表現空間上において基準画像の分散表現の近傍に、基準画像と類似する画像の分散表現が配置されるものの、基準画像の分散表現の最近傍に、基準画像と最も類似する画像の分散表現が配置されない恐れがある。すなわち、従来のトリプレットロスの技術では、類似する画像間における類似度が分散表現の類似度に反映させることができない。
そこで、情報提供装置10は、以下の生成処理を実行する。まず、情報提供装置10は、分散表現の対象となる画像群の中から、第1情報、第2情報、および第3情報となる3つの画像を選択する。なお、以下の説明では、第1情報〜第3情報として選択された3つの画像を、それぞれ第1画像〜第3画像と記載する。
続いて、情報提供装置10は、第1情報と第2情報との間の類似度である第1類似度と、第1情報と第3情報との間の類似度である第2類似度とを算出する。具体的には、情報提供装置10は、第1画像と第2画像との間の類似度を第1類似度として算出し、第1画像と第3画像との間の類似度を第2類似度として算出する。すなわち、情報提供装置10は、第1画像を基準画像とし、基準画像と第2画像の第1類似度、および基準画像と第3画像の第2類似度を算出する。
そして、情報提供装置10は、第1類似度と第2類似度との関係性に基づいて、第2画像および第3画像の分散表現のうちいずれか一方が第1画像の分散表現と類似し、他方が類似しないように、各画像の分散表現を生成する。例えば、情報提供装置10は、第1類似度が第2類似度よりも大きい場合は、第1画像の分散表現と第2画像の分散表現とが類似し、かつ第1画像の分散表現と第3画像の分散表現とが類似しないように、各分散表現を生成する。一方、情報提供装置10は、第2類似度が第1類似度よりも大きい場合は、第1画像の分散表現と第3画像の分散表現とが類似し、かつ第1画像の分散表現と第2画像の分散表現とが類似しないように、各分散表現を生成する。
すなわち、情報提供装置10は、基準画像と他の画像との間の類似度が所定の閾値よりも高いか否かに応じて、正解データや不正解データとなる画像を選定するのではなく、基準画像と第2画像との類似度、および、基準画像と第3画像との類似度に基づいて、相対的な正解データおよび不正解データとなる画像を設定する。そして、情報提供装置10は、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しないように、分散表現の学習を行う。
すなわち、情報提供装置10は、基準画像と類似する画像が第2画像および第3画像として選択された場合にも、基準画像との類似度に応じて相対的な正解データと不正解データとを設定し、各画像の分散表現を生成する。このような処理の結果、情報提供装置10は、基準画像と相互に類似する画像間における相対的な類似度を分散表現に反映させることができるので、分散表現を用いた画像検索の際に、類似性に応じた画像のランキングを生成することができる。
また、情報提供装置10は、各画像の相対的な類似性を分散表現に反映させることができるので、距離公理を満たす距離関数が使えることが担保された分散表現空間に各画像を落とし込むことができる。例えば、ディープラーニング等に用いられる多段のニューラルネットが画像から生成した中間表現を特徴量として採用する技術では、どのような距離関数が適用可能であるかが不明なため、特徴量同士の単純な比較が困難となる。一方で、情報提供装置10は、各画像の相対的な類似度の高低を反映させるように分散表現を生成するので、分散表現空間がユークリッド空間となるように分散表現の学習が行われる。このため、情報提供装置10は、例えば、画像検索の際に、検索クエリとなる画像の分散表現と他の画像の分散表現とのユークリッド距離を算出することで、容易に類似画像検索を実現することができる。
〔1−3.類似度について〕
ここで、情報提供装置10は、各画像間の類似度を算出する際、分散表現の生成目的に応じた任意の基準により、各画像の類似度を算出してよい。例えば、情報提供装置10は、色味、ピクセル、エッジ等といった各種の構造的(外見的)な類似性に基づいて、第1類似度および第2類似度を算出してもよい。また、情報提供装置10は、各画像の意味的な類似度(すなわち、セマンティックな類似度)を算出してもよい。
例えば、情報提供装置10は、ILSVRC(ImageNet Large Scale Visual Recognition Challenge)等における技術を用いて、画像から撮像対象の特徴を抽出するように学習が行われたモデルを用いて、各画像における撮像対象の特徴を抽出し、抽出した特徴の類似度を示す第1類似度および第2類似度を算出してもよい。例えば、情報提供装置10は、各画像に撮像された撮像対象の種別や色等といった特徴を特定し、特定した特徴の共通性や類似性(以下、「類似度」と記載する。)に基づいて、第1類似度および第2類似度を算出してもよい。なお、このようなモデルは、例えば、畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)等のニューラルネットワークにより実現されてもよい。また、情報提供装置10は、各画像のフィッシャーベクターに基づいて、撮像対象の分類を行うモデルを用いて、各画像の撮像対象の分類を行い、分類結果の類似性を示す第1類似度および第2類似度を算出してもよい。
また、情報提供装置10は、撮像対象の特徴、画像が電子商取引においてどの取引対象を説明するために用いられるか等といった画像の使用目的等、画像の意味的な類似度に基づいて、第1類似度および第2類似度を算出してもよい。例えば、各画像には、撮像対象の特徴や画像の目的等、各種画像の意味を示すタグ情報が紐付けられている場合がある。また、例えば、各画像が掲載されるウェブコンテンツにおいては、その画像のキャプションや、撮像対象の名称(例えば、取引対象の名称)、撮像対象の価格等といった各種画像と紐付可能な情報が掲載されている場合がある。そこで、情報提供装置10は、各画像と紐付可能な各種の情報を画像の意味を示すメタ情報として収集する。そして、情報提供装置10は、第1画像のメタ情報と第2画像のメタ情報との類似度に基づいて、第1類似度を算出し、第1画像のメタ情報と第3画像のメタ情報との類似度に基づいて、第2類似度を算出してもよい。すなわち、情報提供装置10は、画像そのものの類似度だけではなく、画像に紐付られた情報の類似度に応じて、第1類似度および第2類似度を算出してもよい。
また、情報提供装置10は、第1画像のメタ情報と第2画像のメタ情報との意味または表記の類似度に基づいて、第1類似度を算出し、第1画像のメタ情報と第3画像のメタ情報との意味または表記の類似度に基づいて、第2類似度を算出してもよい。例えば、情報提供装置10は、メタ情報に含まれるテキストの一致度(すなわち、表記の類似度)を算出し、算出した一致度に基づいて、第1類似度や第2類似度を算出してもよい。また、情報提供装置10は、例えば、w2vを用いて、メタ情報に含まれるテキストの意味の類似度(すなわち、意味の類似度)を算出し、算出した類似度に基づいて、第1類似度や第2類似度を算出してもよい。
なお、情報提供装置10は、画像に付与されたタグ情報に含まれる情報や、画像と同じウェブコンテンツに掲載された各種の情報以外にも、例えば、画像と共に利用者がマイクロブログに投稿したテキストに含まれる単語等、画像と紐付けられる情報であるならば、任意の種別の任意の情報をメタ情報として採用してよい。すなわち、情報提供装置10は、画像と紐付けられる情報であって、画像の意味的な内容を示しうる情報であるならば、任意の情報をメタ情報として採用してよい。また、情報提供装置10は、画像の色、撮像対象の形、画像のセマンティックな意味等、どのような基準に基づいて類似画像検索を行うかに応じて、任意の種別の情報を画像のメタ情報として採用して良い。
〔1−4.検索クエリについて〕
また、情報提供装置10は、各画像に対応する検索クエリの内容をメタ情報として採用してもよい。例えば、情報提供装置10は、ウェブ検索を行う検索サーバ等(図示は、省略)から、利用者Uが入力した検索クエリと、その検索クエリが入力された際に、検索結果として表示された画像の中から利用者Uが選択した画像とを示す検索ログを取得する。そして、情報提供装置10は、分散表現の生成対象となる各画像について、その画像が利用者Uによって選択された際に利用者Uが入力した検索クエリをメタ情報として特定する。
そして、情報提供装置10は、第1画像が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第2画像が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第1類似度を算出する。また、情報提供装置10は、第1画像が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第3画像が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第2類似度を算出する。そして、情報提供装置10は、算出した第1類似度および第2類似度を用いて、各画像の相対的な類似度に応じた分散表現を生成する。
ここで、利用者Uがある画像を選択した際に入力した検索クエリは、その画像を検索する際の検索意図を反映したものと言える。このため、情報提供装置10は、各画像を選択した際に各利用者Uが入力した検索クエリの類似度を算出することで、各画像を検索する際の利用者Uの検索意図の類似度を算出することができる。このような類似度が反映させるように各画像の分散表現を生成した場合には、各画像を検索する際の利用者Uの検索意図を分散表現空間上の距離に埋め込むことができる。この結果、情報提供装置10は、分散表現を用いて利用者Uの検索意図を反映した画像検索を実現することができる。
例えば、情報提供装置10は、第1画像が選択された際に利用者Uが入力した検索クエリとして「shoes、blue、blandA、sizeA」を取得し、第2画像が選択された際に利用者Uが入力した検索クエリとして「shoes、blue、blandA、sizeB」を取得し、第3画像が選択された際に利用者Uが入力した検索クエリとして「shoes、red、blandB、sizeB」を取得したものとする。このような場合、情報提供装置10は、第1画像に対応する検索クエリと第2画像に対応する検索クエリとの間のIoU(Intersection over Union)を第1類似度として算出する。
より具体的には、情報提供装置10は、第1画像に対応する検索クエリに含まれるトークンと、第2画像に対応する検索クエリに含まれるトークンとのうち、共通するトークンの種別の数を、各検索クエリに含まれるトークンの種別の数で除算した値を第1類似度として算出する。上述した例では、第1画像に対応する検索クエリと第2画像に対応する検索クエリとで、「shoes」、「blue」、「blandA」という3つのトークンが類似し、各クエリ中に「shoes」、「blue」、「blandA」、「sizeA」、「sizeB」という5つのトークンが出現している。このため、情報提供装置10は、共通して含まれるトークンの種別の数「3」を、各クエリ中に含まれるトークンの種別の数「5」で除算した「0.6」を第1類似度として算出する。同様に、情報提供装置10は、第1画像に対応する検索クエリと第3画像に対応する検索クエリとの間のIoU(例えば、「0.33」)を第2類似度として算出する。
このような場合、第1類似度の値が第2類似度の値よりも大きくなる。このため、第1画像と第2画像とは、第1画像と第3画像よりもより類似していると言える。そこで、情報提供装置10は、第1画像の分散表現と第2画像の分散表現とが類似し、第1画像の分散表現と第3画像の分散表現とが類似しなくなるように、各画像の分散表現を学習する。
ここで、情報提供装置10は、検索クエリのトークンの量を考慮して、第1類似度および第2類似度を算出してもよい。例えば、検索クエリのトークンの量が多い場合、その検索クエリは、利用者Uの検索意図を他の検索クエリよりも明確に示していると推定される。そこで、情報提供装置10は、各画像が選択された際に利用者Uが入力した検索クエリのうち、トークンの量が所定の閾値を超える検索クエリを抽出し、抽出した検索クエリの類似度に基づいて、第1類似度および第2類似度を算出してもよい。例えば、情報提供装置10は、4つ以上のトークンを含む検索クエリを抽出してもよく、外部サーバ等から取得した検索クエリのうち、トークンの数が最も多い検索クエリのみを抽出してもよい。また、情報提供装置10は、画像を選択した利用者の過半数が入力した検索クエリが含まれるように、閾値となるトークンの量を設定してもよい。
〔1−5.複数種別の情報に基づく類似度について〕
ここで、情報提供装置10は、第1画像に紐付けられる複数種別の情報と第2画像に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、第1類似度を算出し、第1画像に紐付けられる複数種別の情報と第3画像に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、第2類似度を算出してもよい。すなわち、情報提供装置10は、複数種別の情報を含むメタ情報が画像に紐付けられている場合、メタ情報全体としての類似度に基づいて第1類似度や第2類似度を算出してもよく、種別ごとの類似度に基づいた第1類似度や第2類似度を算出してもよい。
例えば、情報提供装置10は、画像の構造的な特徴を示す情報(以下、「構造情報」と記載する。)と、撮像対象等、画像の意味的な特徴を示す情報(以下、「意味情報」と記載する。)とが含まれるメタ情報を取得する。このような場合、情報提供装置10は、第1画像の構造情報と第2画像の構造情報との類似度(以下、「構造類似度」と記載する。)、および、第1画像の意味情報と第2画像の意味情報との類似度(以下、「意味類似度」と記載する。)とに基づいて、第1類似度を算出してもよい。
また、情報提供装置10は、種別ごとに重みづけを考慮した第1類似度を算出してもよい。例えば、情報提供装置10は、構造類似度に第1優先度を積算した値、および、意味類似度に第2優先度を積算した値とに基づいて、第1類似度を算出してもよい。このような優先度を設定することで、情報提供装置10は、画像の構造的な類似度を重視した分散表現を生成するのか、画像の意味的な類似度を重視した分散表現を生成するのかを柔軟に設定することができる。
また、情報提供装置10は、種別ごとの類似度を優先度が高い順に結合させることで、所定の桁数の第1類似度および第2類似度を算出してもよい。例えば、情報提供装置10は、第1優先度として128ビットの値を算出する場合、64ビットの構造類似度と意味類似度とを算出する。そして、情報提供装置10は、例えば、意味類似度を上位の桁とし、構造類似度を下位の桁として結合することで、意味類似度がより優先的に寄与する128ビットの第1類似度を算出してもよい。
なお、情報提供装置10は、10進数で構造類似度と意味類似度とを算出する場合、例えば、意味類似度に10のn乗(nは、構造類似度の桁数)を積算した値を算出し、算出した値に構造類似度を加算することで、意味類似度がより優先的に寄与する第1類似度を算出してもよい。また、情報提供装置10は、メタ情報に含まれる情報の種別の数が3つ以上の場合であっても、種別ごとの類似度を算出し、算出した類似度のうちより優先的に用いる種別の類似度をより上位の桁として、各優先度を結合することで、第1類似度および第2類似度を算出してもよい。
〔1−6.画像の選択について〕
ここで、情報提供装置10は、第1画像〜第3画像を選択する場合、分散表現の生成対象となる画像から、全ての組み合わせについて、第1画像〜第3画像を選択すればよい。また、情報提供装置10は、第1画像と同じ分野(クラス)に属する画像等、第1画像との類似度が所定の閾値を超える情報を故意に選択することで、その分野に属する画像間の相対的な類似度を分散表現空間上に落とし込んでもよい。
また、情報提供装置10は、分散表現の学習を効率的に進めるため、段階的に第1画像〜第3画像の選択元となる分野を狭めてもよい。例えば、情報提供装置10は、学習の初期段階については、全カテゴリに属する画像からランダムに第1画像〜第3画像を選択し、学習が進んだ場合(例えば、分散表現の精度が所定の閾値を超えた場合)は、所定のカテゴリに属する画像からランダムに第1画像〜第3画像を選択し、さらに学習が進んだ場合は、所定のカテゴリに含まれるサブカテゴリに属する画像からランダムに第1画像〜第3画像を選択してもよい。すなわち、情報提供装置10は、学習が進む度に、選択する画像の類似性を上昇させてもよい。
〔1−7.多段階学習について〕
また、情報提供装置10は、従来のトリプレットロスの学習手法と、上述した生成処理とを組み合わせて実行してもよい。例えば、情報提供装置10は、第1画像との類似度が第1閾値以上となる第4画像と、第1画像との類似度が第2閾値以下となる第5画像とを選択する。このような場合、情報提供装置10は、第1画像の分散表現と第4画像の分散表現とが類似し、かつ、第1画像の分散表現と第5画像の分散表現とが類似しないように、各画像の分散表現を生成する。
そして、情報提供装置10は、第1画像から第5画像のうち3つの情報を含む全ての組について、第1類似度および第2類似度を算出する。すなわち、情報提供装置10は、基準画像と2つの画像との全組み合わせを生成し、生成した組み合わせについて第1類似度および第2類似度を算出する。そして、情報提供装置10は、第1類似度および第2類似度を用いて各組み合わせにおける正解データおよび不正解データを設定し、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しなくなるように、分散表現の学習を行う。
例えば、情報提供装置10は、分散表現を生成する初期段階においては、基準画像と、基準画像との類似度が所定の閾値を超える正解データと、基準画像との類似度が所定の閾値を下回る不正解データとを選択し、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しなくなるように、分散表現の学習を行う。
そして、情報提供装置10は、所定のタイミングで、分散表現の精度を算出する。例えば、情報提供装置10は、分散表現を用いて、所定の画像と類似する画像のランキングを生成するとともに、各画像のメタ情報の類似性に基づいて、所定の画像と類似する画像のランキングを生成する。そして、情報提供装置10は、分散表現を用いたランキングとメタ情報を用いたランキングとの間の一致度に基づいて、分散表現の精度を算出する。
ここで、情報提供装置10は、分散表現の精度が所定の閾値を超えた場合や、分散表現の精度の上昇率が所定の期間の間上昇しなくなった場合には、上述した生成処理を実行する。すなわち、情報提供装置10は、第1画像〜第3画像を選択し、選択した第1画像〜第3画像間の類似度に基づいて第1類似度および第2類似度を算出し、算出した第1類似度および第2類似度の比較結果に基づいて、第2画像および第3画像を正解データおよび不正解データとする。そして、情報提供装置10は、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しなくなるように、分散表現の学習を行う。
〔1−8.生成について〕
ここで、情報提供装置10は、正解ペアの分散表現が類似し、不正解ペアの分散表現が類似しなくなるように、分散表現を生成するのであれば、任意の手法により分散表現を生成してよい。例えば、情報提供装置10は、第1画像の分散表現と第2画像の分散表現との差が、第1画像の分散表現と第3画像の分散表現との差よりも少なくなるように、各分散表現を生成してもよい。
以下、情報提供装置10が分散表現の生成に用いる数式の一例について説明する。例えば、情報提供装置10は、式(1)を用いて、トリプレットロスの手法に従い、各画像の分散表現を生成する。
Figure 0006756648
ここで、式(1)のx は、基準画像を示し、x は、第1類似度および第2類似度に基づいて設定された正解データの画像を示し、x は、第1類似度および第2類似度に基づいて設定された不正解データの画像を示す。式(1)のf(x)は、画像xの分散表現であって、所定次元数の分散表現を示す。また、式(1)のαは、所定の係数である。情報提供装置10は、式(1)のLの値が最大化するように、各画像の分散表現f(x)の値を設定する。
ここで、従来のトリプレットロスにおいては、基準画像と他の画像との間の類似度に応じて、絶対的な正解データと不正解データとを設定していた。このため、画像xのメタ情報をw(x)と記載すると、従来のトリプレットロスにおける基準画像と正解データと不正解データとの関係は、以下の式(2)および式(3)で示される。
Figure 0006756648
Figure 0006756648
一方、情報提供装置10は、絶対的な正解データおよび不正解データとして学習対象となる画像を選択するのではなく、選択した画像の相対的な類似度に基づいて、選択した画像から正解データと不正解データとを設定し、各画像の分散表現を生成する。このため、情報提供装置10が選択する基準画像と正解データと不正解データとの関係は、以下の式(4)および式(5)で示されることとなる。
Figure 0006756648
Figure 0006756648
このような処理の結果、情報提供装置10は、基準画像と類似する画像および類似しない画像間の関係性のみならず、基準画像と類似する複数の画像間の関係性や、基準画像と類似しない複数の画像間の関係性等についても、分散表現に落とし込む。この結果、情報提供装置10は、分散表現区間上において、処理対象となる全画像の相対的な類似性を落とし込むことができるので、分散表現の精度を向上させることができる。
〔1−9.生成処理の一例について〕
次に、図1を用いて、情報提供装置10が実行する生成処理の一例について説明する。まず、情報提供装置10は、処理対象となる画像からランダムに第1画像P1、第2画像P2、および第3画像P3を選択し、各画像のメタ情報M1〜M3を取得する(ステップS1)。このような場合、情報提供装置10は、メタ情報同士の類似度を算出し、算出した類似度を比較する(ステップS2)。例えば、情報提供装置10は、メタ情報M1とメタ情報M2との類似度S1(すなわち、第1類似度)、およびメタ情報M1とメタ情報M3との類似度S2(すなわち、第2類似度)を算出し、算出した類似度S1および類似度S2を比較する。
そして、情報提供装置10は、類似度の比較結果に応じて、各画像の分散表現を生成する(ステップS3)。例えば、情報提供装置10は、類似度S1の値が類似度S2の値よりも大きい場合は、第2画像を正解データとし、第3画像を不正解データとする。そして、情報提供装置10は、第1画像の分散表現P1と第2画像の分散表現P2とが類似し、第1画像の分散表現P1と第3画像の分散表現P3とが類似しないように、各分散表現P1〜P3を生成する。一方、情報提供装置10は、類似度S2の値が類似度S1の値よりも大きい場合は、第3画像を正解データとし、第2画像を不正解データとする。そして、情報提供装置10は、第1画像の分散表現P1と第3画像の分散表現P3とが類似し、第1画像の分散表現P1と第2画像の分散表現P2とが類似しないように、各分散表現P1〜P3を生成する。
また、情報提供装置10は、他の画像間についても同様の処理を実行する(ステップS4)。より具体的には、情報提供装置10は、基準画像となる画像と、基準画像以外の画像を第2画像および第3画像とする全ての組み合わせのトリプルを生成する。そして、情報提供装置10は、生成した全てのトリプルについて、ステップS1〜ステップS3を実行することで、全ての画像の分散表現を生成する。
続いて、情報提供装置10が実行する検索処理の一例について説明する。まず、情報提供装置10は、利用者端末100から検索クエリを受付ける(ステップS5)。例えば、情報提供装置10は、利用者端末100から検索クエリとして、検索クエリq1を受付ける。
このような場合、情報提供装置10は、検索クエリq1と対応する画像を特定し、特定した画像の分散表現との距離に基づいて、検索クエリに応じた画像のランキングを生成する(ステップS6)。例えば、情報提供装置10は、検索クエリq1と最も関連性が高い第1画像P1を選択する。このような場合、情報提供装置10は、画像P1の分散表現P1と他の分散表現P2〜P4との間のユークリッド距離をそれぞれ算出する。
そして、例えば、情報提供装置10は、分散表現P3、分散表現P2、および分散表現P4の順に、分散表現P1とのユークリッド距離が近い場合は、分散表現P3に対応する画像P3、分散表現P2に対応する画像P2、および分散表現P4に対応する画像P4の順に、各画像P2〜P4を並べたランキング形式の検索結果を生成する。そして、情報提供装置10は、生成したランキング形式の検索結果を利用者端末100へと提供する(ステップS7)。
〔2.情報提供装置の構成〕
続いて、上記した情報提供装置10が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、利用者端末100との間で情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、画像データベース31、および分散表現データベース32を記憶する。
画像データベース31には、分散表現の生成対象となる画像が登録される。例えば、図3は、実施形態に係る画像データベースに登録される情報の一例を示す図である。図3に示すように、画像データベース31には、「画像ID(Identifier)」、「画像データ」および「メタ情報」といった項目を有する情報が登録される。また、「メタ情報」には、それぞれ異なる優先度が設定された「検索クエリ」、「タグ情報」、および「特徴情報」等といった情報が登録される。
ここで、「画像ID」とは、画像の識別子である。また、「画像データ」とは、対応付けられた「画像ID」が示す画像の画像データである。また、「メタ情報」とは、対応付けられた「画像ID」が示す画像に付与されたメタ情報である。例えば、「検索クエリ」は、画像間の類似度を算出する際に最も優先して考慮される「優先度1」のメタ情報であり、対応付けられた「画像ID」が示す画像が利用者Uに選択された際に、利用者Uが入力した検索クエリである。また、「タグ情報」は、画像間の類似度を算出する際に2番目に優先して考慮される「優先度2」のメタ情報であり、対応付けられた「画像ID」が示す画像に撮像された撮像対象の特徴等、画像に予め付与されたタグ情報である。また、「特徴情報」は、画像間の類似度を算出する際に3番目に優先して考慮される「優先度3」のメタ情報であり、対応付けられた「画像ID」が示す画像の構造的(外観的)な特徴を示す特徴情報である。
例えば、図3に示す例では、画像ID「画像ID#1」、画像データ「画像データ#1」、検索クエリ「検索クエリ#1」、タグ情報「タグ情報#1」、および特徴情報「特徴情報#1」が対応付けて登録されている。このような情報は、画像ID「画像ID#1」が示す画像の画像データが「画像データ#1」であり、その画像が選択された際に利用者Uが入力した検索クエリが「検索クエリ#1」であり、タグ情報「タグ情報#1」が付与されており、画像の外観的な特徴が「特徴情報#1」である旨を示す。なお、図3に示す例では、「画像ID#1」、「画像データ#1」、「検索クエリ#1」、「タグ情報#1」、「特徴情報#1」等といった概念的な値について記載したが、実際には、画像を識別する文字列、各種フォーマットの画像データ、検索クエリとして入力された文字列、タグ情報に含まれる文字列、特徴を示す多次元量等が登録されることとなる。
図2に戻り、説明を続ける。分散表現データベース32には、画像の分散表現が登録される。例えば、図4は、実施形態に係る分散表現データベースに登録される情報の一例を示す図である。図4に示す例では、分散表現データベース32には、「画像ID」と「分散表現」といった項目を有する情報が登録される。ここで、「分散表現」とは、対応付けられた「画像ID」が示す画像から生成した分散表現である。
例えば、図4に示す例では、画像ID「画像ID#1」および分散表現「分散表現#1」といった情報が対応付けて登録されている。このような情報は、画像ID「画像ID#1」が示す画像の分散表現が「分散表現#1」である旨を示す。なお、図4に示す例では、「分散表現#1」といった概念的な値を記載したが、実際には、分散表現として生成された多次元量が登録されることとなる。
図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図2に示すように、制御部40は、選択部41、算出部42、比較部43、生成部44、受付部45、および検索部46を有する。選択部41は、処理対象となる画像を選択する。例えば、選択部41は、画像データベース31を参照し、基準画像となる画像を一つ選択する。また、選択部41は、基準画像に対して正解データまたは、不正解データとなる他の2つの画像の全ての組み合わせについて選択する。そして、選択部41は、選択した3つ組の画像をトリプルとして算出部42に通知する。なお、選択部41は、分散表現の学習において、全ての画像を基準画像として選択し、選択した画像を基準画像とする全てのトリプルを生成する。
なお、選択部41は、段階的に分散表現を生成する場合、例えば、任意の手法を用いて、基準画像との類似度が第1閾値以上となる第4画像を正解データとして選択し、基準画像との類似度が第2閾値以下となる第5画像を不正解データとして選択してもよい。また、選択部41は、第2画像および第3画像として、基準画像との類似度が所定の閾値を超える画像を選択してもよい。また、選択部41は、段階的に正解データおよび不正解データの選択元となる分野を徐々に狭めてもよい。例えば、選択部41は、各画像データのメタ情報の類似度が徐々に狭まるように、トリプルとなる画像を選択してもよい。
算出部42は、基準画像と第2画像との間の類似度である第1類似度と、基準画像と第3画像との間の類似度である第2類似度とを算出する。例えば、算出部42は、基準画像のメタ情報と第2画像のメタ情報との類似度に基づいて、第1類似度を算出し、基準画像のメタ情報と第3画像のメタ情報との類似度に基づいて、第2類似度を算出する。
例えば、算出部42は、トリプルに含まれる基準画像のメタ情報と第2画像のタグ情報とを画像データベース31から読み出す。そして、算出部42は、読み出したメタ情報の一致度やIoU等といった類似度を算出し、算出した類似度に基づいて、第1類似度を算出する。同様に、算出部42は、基準画像のタグ情報と第3画像のメタ情報との類似度から、第2類似度を算出する。
なお、算出部42は、基準画像に紐付けられる複数種別のメタ情報(例えば、検索クエリ、タグ情報、特徴情報等)と第2画像または第3画像に紐付けられる複数種別のメタ情報(例えば、検索クエリ、タグ情報、特徴情報等)とを用いて、メタ情報の種別ごとに類似度を算出し、算出した複数の類似度に基づいて、第1類似度や第2類似度を算出してもよい。また、算出部42は、種別ごとの類似度を優先度が高い順に結合させることで、所定の桁数の第1類似度および第2類似度を算出してもよい。
例えば、図5は、実施形態にかかる情報提供装置が算出する類似度の一例を示す図である。なお、図5に示す例では、10進数の優先度を算出する例について記載した。例えば、算出部42は、基準画像と第2画像の検索クエリ同士の類似度「AAAAA」を算出し、タグ情報同士の類似度「BBB」を算出し、特徴情報同士の類似度「CCC」を算出する。このような場合、算出部42は、優先度が最も高い検索クエリの類似度「AAAAA」に対し、タグ情報同士の類似度および特徴情報同士の類似度の桁数分の係数α「1000000」を積算する。また、算出部42は、優先度が2番目に高い検索クエリの類似度「BBB」に対し、特徴情報同士の類似度の桁数分の係数β「1000」を積算する。また、算出部42は、優先度が3番目に高い検索クエリの類似度「CCC」に対し、係数γ「1」を積算する。そして、算出部42は、各類似度に係数を積算した値「AAAAABBBCCC」を第1類似度とする。
例えば、算出部42は、基準画像と第3画像の検索クエリ同士の類似度「aaaaa」を算出し、タグ情報同士の類似度「bbb」を算出し、特徴情報同士の類似度「ccc」を算出する。このような場合、算出部42は、優先度が最も高い検索クエリの類似度「aaaaa」に対し係数αを積算し、優先度が2番目に高い検索クエリの類似度「bbb」に係数β「1000」をし、優先度が3番目に高い検索クエリの類似度「ccc」に対し、係数γを積算する。そして、算出部42は、各類似度に係数を積算した値「aaaaabbbccc」を第2類似度とする。
このようにして算出された第1類似度および第2類似度を比較した場合、より優先度が高い種別のメタ情報がより優先的に比較結果に反映させることとなる。このため、算出部42は、優先度が異なる複数種別のメタ情報の比較を容易にすることができる。
なお、算出部42は、画像データベース31に登録された各種のメタ情報を用いて、各画像の類似度を判断することで、基準画像のメタ情報と第2画像のメタ情報との意味または表記の類似度に基づいて、第1類似度を算出し、基準画像のメタ情報と第3画像のメタ情報との意味または表記の類似度に基づいて、第2類似度を算出することとなる。例えば、算出部42は、基準画像が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第2画像が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第1類似度を算出し、基準画像が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第3画像が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第2類似度を算出することとなる。
なお、算出部42は、各画像を選択した利用者Uの同一性によらず、各画像が選択された際に各利用者が入力した検索クエリの類似度に基づいて、第1類似度および第2類似度を算出してよい。また、算出部42は、基準画像と第2画像との構造的な類似度および基準画像と第2画像との意味的な類似度とに基づいて、第1類似度を算出し、基準画像と第3画像との構造的な類似度および基準画像と第3画像との意味的な類似度とに基づいて、第2類似度を算出することとなる。
なお、算出部42は、検索クエリのうち、トークンの量が所定の閾値を超える検索クエリの類似度に基づいて、第1類似度および第2類似度を算出してもよい。また、算出部42は、段階的な学習を行う場合は、選択部41が選択した第4画像や第5画像についても、基準画像との間の第1類似度や第2類似度を算出することとなる。
図2に戻り、説明を続ける。比較部43は、算出部42がトリプルごとに算出した第1類似度および第2類似度を比較し、比較結果を生成部44に通知する。例えば、比較部43は、第1類似度の値と、第2類似度の値とのいずれがより大きいかを判定し、判定結果を生成部44に通知する。
生成部44は、第1類似度が第2類似度よりも大きい場合は、基準画像の分散表現と第2画像の分散表現とが類似し、かつ基準画像の分散表現と第3画像の分散表現とが類似しないように、各分散表現を生成する。また、生成部44は、第2類似度が第1類似度よりも大きい場合は、基準画像の分散表現と第3画像の分散表現とが類似し、かつ基準画像の分散表現と第2画像の分散表現とが類似しないように、各分散表現を生成する。そして、生成部44は、各画像の画像IDと、生成した分散表現とを分散表現データベース32に登録する。
例えば、生成部44は、第1類似度が第2類似度よりも大きい場合は、トリプルに含まれる第2画像を正解データとし、第3画像を不正解データとする。また、生成部44は、第2類似度が第1類似度よりも大きい場合は、トリプルに含まれる第3画像を正解データとし、第2画像を不正解データとする。すなわち、生成部44は、第1類似度と第2類似度との比較結果に基づいて、正解データおよび不正解データの設定を行う。そして、生成部44は、各トリプルから正解ペアと不正解ペアとを生成し、式(1)のLの値が最大化するように、各画像の分散表現を生成する。
なお、生成部44は、段階的に分散表現を生成する場合、基準画像の分散表現と第4画像の分散表現とが類似し、かつ、基準画像の分散表現と第5画像の分散表現とが類似しないように、基準画像、第4画像および第5画像の分散表現を生成する。そして、生成部44は、生成した分散表現の精度を算出し、算出した精度が所定の閾値を超えた場合や、算出した精度が所定の期間上昇しない場合は、第1類似度および第2類似度の比較結果に基づいて、正解データおよび不正解データを設定を行い、設定結果に基づいた分散表現の修正を行ってもよい。また、生成部44は、基準画像の分散表現と第2画像の分散表現との差が、基準画像の分散表現と第3画像の分散表現との差よりも少なくなるように、各分散表現を生成してもよい。
受付部45は、利用者端末100から検索クエリを受付ける。このような場合、受付部45は、検索クエリと対応する画像を特定する。例えば、受付部45は、検索クエリとしてテキストを受付けた場合、画像データベース31を参照し、検索クエリのテキストと最も一致度が高いメタ情報と対応付けられた画像を選択する。また、例えば、受付部45は、検索クエリとして画像を受付けた場合、画像データベース31を参照し、検索クエリとなる画像と類似度が最も高い画像を検索する。なお、受付部45は、例えば、画像と画像との間、もしくは、画像とテキストとの間の意味的および構造的な類似性を学習した所定の学習モデルを用いて、検索クエリと対応する画像を検索してもよい。
検索部46は、検索クエリと類似する画像をランキング形式で特定する。例えば、検索部46は、受付部45が検索の結果特定した画像(以下、「クエリ画像」と記載する。)の分散表現を分散表現データベース32から取得する。そして、検索部46は、取得した分散表現と、分散表現データベース32に登録された分散表現との間の距離を算出し、距離が近い方から順に所定の数の分散表現を特定する。また、検索部46は、特定した分散表現と対応付けられた画像を分散表現データベース32から特定し、特定した画像の画像データを画像データベース31から読み出す。そして、検索部46は、読み出した画像データを、クエリ画像の分散表現との間の距離が近い方から順にランキング形式で並べたコンテンツを生成し、生成したコンテンツを利用者端末100へと提供する。
〔3.情報提供装置が実行する処理の流れの一例〕
続いて、図6を用いて、情報提供装置10が実行する生成処理の流れについて説明する。図6は、実施形態に係る情報提供装置が実行する生成処理の流れの一例を示すフローチャートである。なお、情報提供装置10は、図6に示す処理を、任意の単位で、任意のタイミングにより実行可能である。
まず、情報提供装置10は、第1画像、第2画像、および第3画像の組を選択する(ステップS101)。そして、情報提供装置10は、第1画像のメタ情報と第2画像のメタ情報との第1類似度、および第1画像のメタ情報と第3画像のメタ情報との第2類似度を算出する(ステップS102)。
続いて、情報提供装置10は、第1類似度が第2類似度よりも大きいか否かを判定し(ステップS103)、大きい場合は(ステップS103:Yes)、第2画像を正解データとし、第3画像を不正解データとする(ステップS104)。一方、情報提供装置10は、第1類似度が第2類似度よりも大きくない場合は(ステップS103:No)、第2画像を不正解データとし、第3画像を正解データとする(ステップS105)。そして、情報提供装置10は、第1画像の分散表現と正解データの分散表現とが類似し、第1画像の分散表現と不正解データの分散表現とが類似しないように、分散表現を生成し(ステップS106)、処理を終了する。
〔4.変形例〕
上記では、情報提供装置10による生成処理や検索処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する提供処理や付与処理のバリエーションについて説明する。
〔4−1.対象となる情報について〕
上述した例では、情報提供装置10は、画像間の意味的および構造的な類似度を相対的に反映させた分散表現を生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、静止画像や動画像等といった画像以外にも、音楽、映画、ニュース記事、各種の投稿、ウェブコンテンツ等、任意の情報間の意味的および構造的な類似度を相対的に反映させた分散表現を生成してもよい。このような場合、情報提供装置10は、例えば、音楽の作曲家、作詞内容、演奏時間、演奏日時、映画の監督、出演者、上映時間、ニュース記事や投稿内容の要約等をメタ情報として採用してもよい。
また、情報提供装置10は、異なる種別の情報を含むトリプルを用いて、各情報の分散表現を生成してもよい。例えば、情報提供装置10は、画像と、テキストと、音楽とを含むトリプルについて、画像とテキストとの間の第1類似度、画像と音楽との間の第2類似度を算出し、算出した第1類似度および第2類似度との比較結果に応じて、正解データや不正解データとし、各情報の分散表現を生成してもよい。
すなわち、情報提供装置10は、任意の種別の第1情報と任意の種別の第2情報との間の第1類似度と、第1情報と任意の種別の第3情報との間の第2類似度を算出し、第1類似度が第2類似度よりも大きい場合は、第1情報の分散表現と第2情報の分散表現とが類似し、かつ第1情報の分散表現と前記第3情報の分散表現とが類似しないように、各分散表現を生成すればよい。また、情報提供装置10は、第2類似度が第1類似度よりも大きい場合は、第1情報の分散表現と第3情報の分散表現とが類似し、かつ第1情報の分散表現と第2情報の分散表現とが類似しないように、各分散表現を生成すればよい。
〔4−2.装置構成〕
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、検索処理を実現するフロントエンドサーバと、生成処理を実現するバックエンドサーバとで実現されてもよい。このような場合、フロントエンドサーバには、図2に示す受付部45および検索部46が配置され、バックエンドサーバには、選択部41、算出部42、比較部43、および生成部44が配置される。
〔4−3.第1類似度と第2類似度との比較結果について〕
上述した例では、情報提供装置10は、第1類似度が第2類似度よりも大きい場合は、第2情報を正解データとし、それ以外の場合には、第3情報を正解データとした。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、第1類似度が第2類似度と等しい場合には、第2情報や第3情報を選択しなおしてもよい。
例えば、情報提供装置10は、第1類似度が第2類似度よりも大きい場合は、第2情報を正解データとし、第2類似度が第1類似度よりも大きい場合は、第3情報を正解データとする。一方、情報提供装置10は、第1類似度が第2類似度と同じ場合には、新たな第2情報および第3情報をランダムに選択しなおす。この際、情報提供装置10は、例えば、第1情報と同じまたは類似する分野の第2情報および第3情報をランダムに選択してもよく、第2情報または第3情報のいずれか一方を、再度選択し直してもよい。また、情報提供装置10は、第1類似度が第2類似度と同じ場合には、選択元となる分野を限定するか否かを確率的に決定し、限定すると決定した場合に、第1情報と同一または類似する分野に属する情報、すなわち、類似度が所定の閾値よりも高い情報の中から、第2情報または第3情報の少なくとも一方を選択し直してもよい。
〔4−4.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔4−5.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
〔5.効果〕
上述したように、情報提供装置10は、第1情報と第2情報との間の類似度である第1類似度と、第1情報と第3情報との間の類似度である第2類似度とを算出する。そして、情報提供装置10は、第1類似度と第2類似度との関係性に基づいて、第2画像および第3画像の分散表現のうちいずれか1方が第1画像の分散表現と類似し、他方が類似しないように、各画像の分散表現を生成する。例えば、情報提供装置10は、第1類似度が第2類似度よりも大きい場合は、第1情報の分散表現と第2情報の分散表現とが類似し、かつ第1情報の分散表現と第3情報の分散表現とが類似しないように、各分散表現を生成する。また、情報提供装置10は、第2類似度が第1類似度よりも大きい場合は、第1情報の分散表現と第3情報の分散表現とが類似し、かつ第1情報の分散表現と第2情報の分散表現とが類似しないように、各分散表現を生成する。
このような処理の結果、情報提供装置10は、各情報の相対的な類似度を分散表現空間上に落とし込むことができるので、距離公理を満たす距離関数が使えることが担保された分散表現空間を生成することができる。すなわち、情報提供装置10は、情報の類似性を分散表現空間上の距離に反映させることができる。
また、情報提供装置10は、第1情報に紐付けられるメタ情報と第2情報に紐付けられるメタ情報との類似度に基づいて、第1類似度を算出し、第1情報に紐付けられるメタ情報と第3情報に紐付けられるメタ情報との類似度に基づいて、第2類似度を算出する。このため、情報提供装置10は、各情報の意味的な類似性を分散表現に反映させることができる。
また、情報提供装置10は、第1情報に紐付けられる複数種別の情報と第2情報に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、第1類似度を算出し、第1情報に紐付けられる複数種別の情報と第3情報に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、第2類似度を算出する。このため、情報提供装置10は、様々な観点での類似性を統合的に分散表現へと反映させることができる。
また、情報提供装置10は、種別ごとの類似度を優先度が高い順に結合させることで、所定の桁数の第1類似度および第2類似度を算出する。このため、情報提供装置10は、各種別の階層的な優先度を考慮して、各情報の相対的な類似性を判定することができる。
また、情報提供装置10は、第1情報に紐付けられる情報と第2情報に紐付けられる情報との意味または表記の類似度に基づいて、第1類似度を算出し、第1情報に紐付けられる情報と第3情報に紐付けられる情報との意味または表記の類似度に基づいて、第2類似度を算出する。このため、情報提供装置10は、各情報の意味的、構造的な類似性を分散表現に反映させることができる。
また、情報提供装置10は、第1情報が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第2情報が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第1類似度を算出する。また、情報提供装置10は、第1情報が利用者Uにより選択された際に利用者Uが入力した検索クエリと、第3情報が利用者Uにより選択された際に利用者Uが入力した検索クエリとの類似度に基づいて、第2類似度を算出する。このため、情報提供装置10は、利用者Uの検索意図の類似性を分散表現に反映させることができる。
また、情報提供装置10は、検索クエリのうち、トークンの量が所定の閾値を超える検索クエリの類似度に基づいて、第1類似度および第2類似度を算出する。このため、情報提供装置10は、利用者Uの検索意図をより精度よく分散表現に反映させることができる。
また、情報提供装置10は、第1情報と第2情報との構造的な類似度および第1情報と第2情報との意味的な類似度とに基づいて、第1類似度を算出し、第1情報と第3情報との構造的な類似度および第1情報と第3情報との意味的な類似度とに基づいて、第2類似度を算出する。このため、情報提供装置10は、各情報の意味的な類似度および構造的な類似度を、分散表現に反映させることができる。
また、情報提供装置10は、第2情報および第3情報として、第1情報との類似度が所定の閾値を超える情報を選択し、第1情報と、選択された第2情報および第3情報とから、第1類似度および第2類似度を算出する。このため、情報提供装置10は、相互に類似しする情報間における相対的な類似性を分散表現に反映させることができる。
また、情報提供装置10は、第1情報との類似度が第1閾値以上となる第4情報と、第1情報との類似度が第2閾値以下となる第5情報とを選択する。また、情報提供装置10は、第1情報ないし第5情報のうち3つの情報を含む全ての組について、第1類似度および第2類似度を算出する。そして、情報提供装置10は、第1情報の分散表現と第4情報の分散表現とが類似し、かつ、第1情報の分散表現と第5情報の分散表現とが類似しないように、第1情報、第4情報および第5情報の分散表現を生成し、その後、組ごとに算出した第1類似度および第2類似度に基づいて、組に含まれる第1情報ないし第5情報の分散表現を生成する。このため、情報提供装置10は、効率的な分散表現の学習を実現することができる。
また、情報提供装置10は、第1情報の分散表現と第2情報の分散表現との差が、第1情報の分散表現と第3情報の分散表現との差よりも少なくなるように、各分散表現を生成する。このため、情報提供装置10は、分散表現を適切に生成することができる。
また、情報提供装置10は、画像である第1情報と画像である第2情報との間の第1類似度と、第1情報と画像である第3情報との間の第2類似度とを算出する。このため、情報提供装置10は、画像間の相対的な類似性を各画像の分散表現に反映させることができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。
10 情報提供装置
20 通信部
30 記憶部
31 画像データベース
32 分散表現データベース
40 制御部
41 選択部
42 算出部
43 比較部
44 生成部
45 受付部
46 検索部
100 利用者端末

Claims (17)

  1. 第1情報に紐付けられる情報と第2情報に紐付けられる情報との間の類似度に基づく第1類似度と、前記第1情報に紐付けられる情報と第3情報に紐付けられる情報との間の類似度に基づく第2類似度とを算出する算出部と、
    前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成部と
    を有することを特徴とする生成装置。
  2. 前記算出部は、前記第1情報に紐付けられる複数種別の情報と前記第2情報に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、前記第1類似度を算出し、前記第1情報に紐付けられる複数種別の情報と前記第3情報に紐付けられる複数種別の情報との種別ごとの類似度に基づいて、前記第2類似度を算出する
    ことを特徴とする請求項に記載の生成装置。
  3. 前記算出部は、前記種別ごとの類似度を優先度が高い順に結合させることで、所定の桁数の前記第1類似度および前記第2類似度を算出する
    ことを特徴とする請求項に記載の生成装置。
  4. 前記算出部は、前記第1情報に紐付けられる情報と前記第2情報に紐付けられる情報との意味または表記の類似度に基づいて、前記第1類似度を算出し、前記第1情報に紐付けられる情報と前記第3情報に紐付けられる情報との意味または表記の類似度に基づいて、前記第2類似度を算出する
    ことを特徴とする請求項のうちいずれか1つに記載の生成装置。
  5. 前記算出部は、前記第1情報が利用者により選択された際に当該利用者が入力した検索クエリと、前記第2情報が利用者により選択された際に当該利用者が入力した検索クエリとの類似度に基づいて、前記第1類似度を算出し、前記第1情報が利用者により選択された際に当該利用者が入力した検索クエリと、前記第3情報が利用者により選択された際に当該利用者が入力した検索クエリとの類似度に基づいて、前記第2類似度を算出する
    ことを特徴とする請求項のうちいずれか1つに記載の生成装置。
  6. 前記算出部は、前記検索クエリのうち、トークンの量が所定の閾値を超える検索クエリの類似度に基づいて、前記第1類似度および前記第2類似度を算出する
    ことを特徴とする請求項に記載の生成装置。
  7. 第1情報と第2情報との構造的な類似度および前記第1情報と前記第2情報との意味的な類似度とに基づく第1類似度と、第1情報と第3情報との構造的な類似度および前記第1情報と前記第3情報との意味的な類似度とに基づく第2類似度とを算出する算出部と、
    前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成部と
    を有することを特徴とする生成装置。
  8. 前記生成部は、前記第1類似度が前記第2類似度よりも大きい場合は、前記第1情報の分散表現と前記第2情報の分散表現とが類似し、かつ前記第1情報の分散表現と前記第3情報の分散表現とが類似しないように、各分散表現を生成する
    ことを特徴とする請求項1〜7のうちいずれか1つに記載の生成装置。
  9. 第2類似度が第1類似度よりも大きい場合は、前記第1情報の分散表現と前記第3情報の分散表現とが類似し、かつ前記第1情報の分散表現と前記第2情報の分散表現とが類似しないように、各分散表現を生成する
    ことを特徴とする請求項1〜8のうちいずれか1つに記載の生成装置。
  10. 前記第2情報および前記第3情報として、前記第1情報との類似度が所定の閾値を超える情報を選択する第1選択部
    を有し、
    前記算出部は、前記第1情報と、前記第1選択部により選択された前記第2情報および前記第3情報とから、前記第1類似度および前記第2類似度を算出する
    ことを特徴とする請求項1〜のうちいずれか1つに記載の生成装置。
  11. 前記第1情報との類似度が第1閾値以上となる第4情報と、前記第1情報との類似度が第2閾値以下となる第5情報とを選択する第2選択部
    を有し、
    前記算出部は、前記第1情報ないし前記第5情報のうち3つの情報を含む全ての組について、前記第1類似度および前記第2類似度を算出し、
    前記生成部は、前記第1情報の分散表現と前記第4情報の分散表現とが類似し、かつ、第1情報の分散表現と第5情報の分散表現とが類似しないように、第1情報、第4情報および第5情報の分散表現を生成し、その後、前記算出部が前記組ごとに算出した第1類似度および前記第2類似度に基づいて、当該組に含まれる第1情報ないし前記第5情報の分散表現を生成する
    ことを特徴とする請求項1〜1のうちいずれか1つに記載の生成装置。
  12. 前記生成部は、前記第1情報の分散表現と前記第2情報の分散表現との差が、前記第1情報の分散表現と前記第3情報の分散表現との差よりも少なくなるように、各分散表現を生成する
    ことを特徴とする請求項1〜1のうちいずれか1つに記載の生成装置。
  13. 前記算出部は、画像である前記第1情報と画像である前記第2情報との間の前記第1類似度と、当該第1情報と画像である前記第3情報との間の前記第2類似度とを算出する
    ことを特徴とする請求項1〜1のうちいずれか1つに記載の生成装置。
  14. 生成装置が実行する生成方法であって、
    第1情報に紐付けられる情報と第2情報に紐付けられる情報との間の類似度に基づく第1類似度と、前記第1情報に紐付けられる情報と第3情報に紐付けられる情報との間の類似度に基づく第2類似度とを算出する算出工程と、
    前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成工程と
    を含むことを特徴とする生成方法。
  15. 第1情報に紐付けられる情報と第2情報に紐付けられる情報との間の類似度に基づく第1類似度と、前記第1情報に紐付けられる情報と第3情報に紐付けられる情報との間の類似度に基づく第2類似度とを算出する算出手順と、
    前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成手順と
    をコンピュータに実行させることを特徴とする生成プログラム。
  16. 生成装置が実行する生成方法であって、
    第1情報と第2情報との構造的な類似度および前記第1情報と前記第2情報との意味的な類似度とに基づく第1類似度と、第1情報と第3情報との構造的な類似度および前記第1情報と前記第2情報との意味的な類似度とに基づく第2類似度とを算出する算出工程と、
    前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成工程と
    を含むことを特徴とする生成方法。
  17. 第1情報と第2情報との構造的な類似度および前記第1情報と前記第2情報との意味的な類似度とに基づく第1類似度と、第1情報と第3情報との構造的な類似度および前記第1情報と前記第2情報との意味的な類似度とに基づく第2類似度とを算出する算出手順と、
    前記第1類似度と前記第2類似度との関係性に基づいて、前記第2情報および前記第3情報の分散表現のうちいずれか一方が前記第1情報の分散表現と類似し、他方が類似しないように、各分散表現を生成する生成手順と
    をコンピュータに実行させることを特徴とする生成プログラム。
JP2017051953A 2017-03-16 2017-03-16 生成装置、生成方法および生成プログラム Active JP6756648B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017051953A JP6756648B2 (ja) 2017-03-16 2017-03-16 生成装置、生成方法および生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017051953A JP6756648B2 (ja) 2017-03-16 2017-03-16 生成装置、生成方法および生成プログラム

Publications (2)

Publication Number Publication Date
JP2018156333A JP2018156333A (ja) 2018-10-04
JP6756648B2 true JP6756648B2 (ja) 2020-09-16

Family

ID=63715647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017051953A Active JP6756648B2 (ja) 2017-03-16 2017-03-16 生成装置、生成方法および生成プログラム

Country Status (1)

Country Link
JP (1) JP6756648B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977525B2 (en) 2019-03-29 2021-04-13 Fuji Xerox Co., Ltd. Indoor localization using real-time context fusion of visual information from static and dynamic cameras

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5414334B2 (ja) * 2009-04-10 2014-02-12 株式会社日立製作所 擬似文書検索システム及び擬似文書検索方法
EP3796235A1 (en) * 2014-12-17 2021-03-24 Google LLC Generating numeric embeddings of images
JP6201079B2 (ja) * 2015-08-28 2017-09-20 株式会社日立製作所 監視システムおよび監視方法

Also Published As

Publication number Publication date
JP2018156333A (ja) 2018-10-04

Similar Documents

Publication Publication Date Title
US10394878B2 (en) Associating still images and videos
US10664515B2 (en) Task-focused search by image
Fu et al. Robust subjective visual property prediction from crowdsourced pairwise labels
Joia et al. Uncovering representative groups in multidimensional projections
JP6767342B2 (ja) 検索装置、検索方法および検索プログラム
JP5794036B2 (ja) 画像検索装置、画像検索方法、およびプログラム
US9928466B1 (en) Approaches for annotating phrases in search queries
JP6321845B1 (ja) 付与装置、付与方法および付与プログラム
JP6756648B2 (ja) 生成装置、生成方法および生成プログラム
JP2002342360A (ja) 情報提供装置、その方法、そのコンピュータ・プログラムおよびそのプログラムを記録した記録媒体
CN110431550B (zh) 用于识别可视叶页面的方法和系统
JP6310529B1 (ja) 検索装置、検索方法および検索プログラム
JP6705763B2 (ja) 生成装置、生成方法および生成プログラム
JP2020047126A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7257553B2 (ja) 化粧品製品推奨のための方法及び装置
Souza Cabral et al. Combining multiple metadata types in movies recommendation using ensemble algorithms
JP6613942B2 (ja) 情報出力システム、情報出力方法および情報出力プログラム
Özkan et al. An image-based recommender system based on image annotation
JP7372278B2 (ja) 算出装置、算出方法及び算出プログラム
JP6998349B2 (ja) 学習装置、学習方法、および学習プログラム
JP7161002B1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2020004054A (ja) 出力装置、出力方法および出力プログラム
JP7023132B2 (ja) 選択装置、選択方法および選択プログラム
JP6942028B2 (ja) 比較装置、比較方法および比較プログラム
JP2002269143A (ja) 情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラム

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20170417

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200827

R150 Certificate of patent or registration of utility model

Ref document number: 6756648

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350