JP6852114B2 - 特定装置、特定方法及び特定プログラム - Google Patents

特定装置、特定方法及び特定プログラム Download PDF

Info

Publication number
JP6852114B2
JP6852114B2 JP2019099738A JP2019099738A JP6852114B2 JP 6852114 B2 JP6852114 B2 JP 6852114B2 JP 2019099738 A JP2019099738 A JP 2019099738A JP 2019099738 A JP2019099738 A JP 2019099738A JP 6852114 B2 JP6852114 B2 JP 6852114B2
Authority
JP
Japan
Prior art keywords
search query
character information
search
transaction target
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019099738A
Other languages
English (en)
Other versions
JP2021005117A (ja
Inventor
泰介 森
泰介 森
高昌 澁川
高昌 澁川
知紘 小川
知紘 小川
寺田 幸弘
幸弘 寺田
朋美 田畑
朋美 田畑
將久 田浦
將久 田浦
洋平 新宅
洋平 新宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019099738A priority Critical patent/JP6852114B2/ja
Publication of JP2021005117A publication Critical patent/JP2021005117A/ja
Application granted granted Critical
Publication of JP6852114B2 publication Critical patent/JP6852114B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特定装置、特定方法及び特定プログラムに関する。
近年、インターネットの飛躍的な普及に伴い、例えば、インターネット上の種々の情報を用いた分析に関する技術が提供されている。例えば、ユーザが入力した検索クエリに基づいて、所定の事業者が提供する対象に対するニーズに関する情報を抽出する技術が提案されている。
特開2019−32776号公報
しかしながら、上記の従来技術では、有用な情報を得ることができるとは限らない。例えば、上記の従来技術では、所定の事業者が提供する対象に対するニーズに関する情報を抽出しているに過ぎないので、対象を所望する利用者に提案する他の対象を適切に選択できるとは言えない。
本願は、上記に鑑みてなされたものであって、有用な情報を提供することができる特定装置、特定方法及び特定プログラムを提供することを目的とする。
本願に係る特定装置は、利用者が入力した検索クエリを取得する取得部と、前記取得部により取得された検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性に基づいて、前記取得部により取得された検索クエリと所定の関連性を有する他の検索クエリを特定する特定部とを有することを特徴とする。
実施形態の一態様によれば、有用な情報を得ることができるといった効果を奏する。
図1は、実施形態に係る特定処理の一例を示す図である。 図2は、実施形態に係る特定システムの構成例を示す図である。 図3は、実施形態に係る特定装置の構成例を示す図である。 図4は、実施形態に係る利用者情報記憶部の一例を示す図である。 図5は、実施形態に係るモデル情報記憶部の一例を示す図である。 図6は、実施形態に係る特定手順を示すフローチャートである。 図7は、実施形態に係る第1モデルの生成処理の一例を示す図である。 図8は、実施形態に係る第1モデルの生成処理の一例を示す図である。 図9は、実施形態に係る生成装置の構成例を示す図である。 図10は、実施形態に係るクエリ情報記憶部の一例を示す図である。 図11は、実施形態に係るベクトル情報記憶部の一例を示す図である。 図12は、実施形態に係るモデル情報記憶部の一例を示す図である。 図13は、実施形態に係る第1モデルの一例を示す図である。 図14は、実施形態に係る第1モデルの生成処理手順を示すフローチャートである。 図15は、プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。
以下に、本願に係る特定装置、特定方法及び特定プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る特定装置、特定方法及び特定プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
〔1.特定処理の一例〕
まず、図1を用いて、実施形態に係る特定処理の一例について説明する。図1は、実施形態に係る特定処理の一例を示す図である。実施形態に係る特定処理は、図1に示す特定装置100によって行われる。図1に示す特定装置100は、クライアント(企業等)に対して、検索クエリの分析サービスを提供するサーバ装置である。
図1の説明に先立って、図2を用いて、実施形態に係る特定システムの構成について説明する。図2は、実施形態に係る特定システムの構成例を示す図である。図2に示すように、特定システム1には、端末装置10と、検索サーバ20と、生成装置50と、特定装置100とが含まれる。端末装置10と、検索サーバ20と、生成装置50と、特定装置100とは所定のネットワークNを介して、有線または無線により通信可能に接続される。なお、図2に示す特定システム1には、任意の数の端末装置10と任意の数の検索サーバ20と任意の数の生成装置50と任意の数の特定装置100とが含まれてもよい。
端末装置10は、クライアント(企業等)の担当者である利用者によって使用される情報処理装置である。端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。図1に示す例では、端末装置10はノート型PCである。なお、以下では、端末装置10を利用者と同一視する場合がある。すなわち、以下では、利用者を端末装置10と読み替えることもできる。
端末装置10は、クライアント(企業等)の担当者である利用者U10の操作に従って、利用者U10によって入力された検索クエリを特定装置100に送信する。例えば、端末装置10は、特定装置100によって提供される検索クエリの分析サービスを利用するためのユーザーインターフェースを通じて、検索クエリを特定装置100に送信する。
検索サーバ20は、検索サービスを提供するサーバ装置である。例えば、検索サーバ20が提供する検索サービスは、あらゆる情報を検索可能な総合検索サービスである。検索サーバ20は、利用者によって入力された検索クエリに関する情報を記憶する。具体的には、検索サーバ20は、利用者の検索履歴に関する情報を記憶する。また、検索サーバ20は、生成装置50の要求に応じて、利用者によって入力された検索クエリに関する情報を生成装置50に送信する。また、検索サーバ20は、特定装置100の要求に応じて、利用者によって入力された検索クエリに関する情報を特定装置100に送信する。
生成装置50は、第1モデルM1を生成するサーバ装置である。生成装置50は、後述する処理を実行することにより、第1モデルM1を生成する。第1モデルM1は、検索クエリを入力すると、検索クエリの分散表現を出力するモデルである。ここで、第1モデルM1から出力された検索クエリの分散表現には、検索クエリを入力した利用者の検索意図を示す特徴情報が含まれている。すなわち、第1モデルM1から出力された所定の検索クエリの分散表現と他の検索クエリの分散表現が類似することは、所定の検索クエリを入力した利用者の検索意図と他の検索クエリを入力した利用者の検索意図とが類似することを意味する。なお、生成装置50による第1モデルの生成処理の詳細については後述する。
特定装置100は、企業等であるクライアントに対して、クライアントが指定した分析対象を示すキーワード(文字情報)に関する一般利用者の検索動向を分析する検索クエリの分析サービスを提供するサーバ装置である。図1に示す例では、特定装置100は、利用者が入力した検索クエリを取得する。また、特定装置100は、取得した検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性に基づいて、取得した検索クエリと所定の関連性を有する他の検索クエリを特定する。
一般的に、一の対象を示す検索クエリ(例えば、「お酒」)と比較して、複数の対象を示す検索クエリ(例えば、「お酒 枝豆」)は、検索クエリを入力した利用者の検索意図が現れやすいと考えられる。例えば、対象「お酒」と対象「枝豆」の組を示す「お酒 枝豆」という文字列の並びは、「「お酒」における「枝豆」」や「「お酒」と「枝豆」との関係」という意味を想起させる。そのため、検索クエリ「お酒 枝豆」は、「「お酒」における「枝豆」」や「「お酒」と「枝豆」との関係」に関する情報を得たいという利用者の検索意図を想起させる。このように、対象の組を示す検索クエリは、第1対象を示す文字列と第2対象を示す文字列の並びを含む。そして、一般的に、(第1対象、第2対象)といった対象の組を示す検索クエリは、第1対象と第2対象との関係性に関する知識を得るという利用者の検索意図が現れやすいと考えられる。
そこで、本願発明に係る特定装置100は、検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性に基づいて、検索クエリと所定の関連性を有する他の検索クエリを特定する。例えば、本願発明に係る特定装置100は、それぞれ異なる取引対象の組を示す検索クエリ(例えば、「お酒 枝豆」)を利用者が入力した際の検索意図と、他の取引対象の組を示す他の検索クエリを利用者が入力した際の検索意図との類似性に基づいて、検索クエリ(例えば、「お酒 枝豆」)と所定の関連性を有する他の検索クエリ(例えば、「ビール 刺身」)を特定する。これにより、本願発明に係る特定装置100は、特定した他の検索クエリ(例えば、「ビール 刺身」)に基づいて、検索クエリ(例えば、「お酒 枝豆」)が示す取引対象(例えば、「お酒」や「枝豆」)に関する新たな知見を得ることができる。例えば、本願発明に係る特定装置100は、検索クエリ(例えば、「お酒 枝豆」)が示す取引対象(例えば、「お酒」や「枝豆」)の代替品(例えば、「お酒」の代替品として「ビール」、「枝豆」の代替品として「刺身」)に関する情報を得ることができる。
ここから、図1を用いて、特定処理の流れについて説明する。図1では、特定装置100は、利用者ID「U10」で識別される利用者(利用者U10)から、第1取引対象である「お酒」と第2取引対象である「枝豆」との組を示す検索クエリQ1「お酒 枝豆」を取得する(ステップS1)。なお、第1取引対象と第2取引対象は、それぞれ異なる取引対象の組を示す検索クエリに含まれる2つの取引対象を互いに区別して説明するために用いるものである。すなわち、組に含まれる2つの取引対象のうち、どちらの取引対象が第1取引対象であってもよく、どちらの取引対象が第2取引対象であってもよい。例えば、検索クエリQ1「お酒 枝豆」を例にとると、第1取引対象が「枝豆」であり、第2取引対象が「お酒」であってもよい。また、検索クエリが示す取引対象の組に含まれる2つの取引対象を示す文字列の語順は、入れ替わってもよい。例えば、図1では、第1取引対象を示す文字列「お酒」が前で第2取引対象を示す文字列「枝豆」が後に並ぶ検索クエリQ1「お酒 枝豆」の例について説明するが、第2取引対象を示す文字列「枝豆」が前で第1取引対象を示す文字列「お酒」が後に並ぶような検索クエリ「枝豆 お酒」であってもよい。
特定装置100は、検索クエリQ1「お酒 枝豆」を取得すると、検索クエリQ1「お酒 枝豆」とは異なる他の取引対象の組を示す他の検索クエリ(例えば、「ビール 刺身」等)を検索サーバ20から取得する(ステップS2)。
特定装置100は、検索クエリQ1「お酒 枝豆」と他の検索クエリとを取得すると、検索クエリとして入力された際の検索意図が、検索クエリQ1「お酒 枝豆」と類似する他の検索クエリを関連クエリとして特定する。具体的には、特定装置100は、検索クエリQ1「お酒 枝豆」と他の検索クエリとを取得すると、検索クエリQ1「お酒 枝豆」を利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性を示すスコアを算出する(ステップS3)。
より具体的には、特定装置100は、検索クエリQ1「お酒 枝豆」を取得すると、取得した検索クエリQ1「お酒 枝豆」を第1モデルM1に入力して、検索クエリQ1「お酒 枝豆」の分散表現を出力(生成)する。また、特定装置100は、他の検索クエリを取得すると、取得した他の検索クエリを第1モデルM1に入力して、他の検索クエリの分散表現を出力(生成)する。続いて、特定装置100は、検索クエリQ1「お酒 枝豆」の分散表現と他の検索クエリの分散表現とを生成すると、検索クエリQ1「お酒 枝豆」の分散表現と他の検索クエリの分散表現との類似度を算出する。
ここで、第1モデルM1から出力される検索クエリの分散表現には、検索クエリを入力した利用者の検索意図を示す特徴情報が含まれている。例えば、第1モデルM1から出力された検索クエリQ1「お酒 枝豆」の分散表現には、検索クエリQ1「お酒 枝豆」を入力した利用者の検索意図を示す特徴情報が含まれている。また、第1モデルM1から出力された他の検索クエリの分散表現には、他の検索クエリを入力した利用者の検索意図を示す特徴情報が含まれている。すなわち、第1モデルM1から出力された所定の検索クエリの分散表現と他の検索クエリの分散表現が類似することは、所定の検索クエリを入力した利用者の検索意図と他の検索クエリを入力した利用者の検索意図とが類似することを意味する。そこで、特定装置100は、検索クエリQ1「お酒 枝豆」を利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性を示すスコアとして、検索クエリQ1「お酒 枝豆」の分散表現と他の検索クエリの分散表現との類似度を算出する。
特定装置100は、スコアを算出すると、算出したスコアが所定の閾値以上である他の検索クエリを関連クエリとして特定する。図1に、特定装置100によって特定された関連クエリをスコアの高い方から順に並べた関連クエリの一覧である類似ランキングを示す。図1に示すように、特定装置100は、検索クエリとして入力された際の検索意図が、検索クエリQ1「お酒 枝豆」が示す取引対象の組と類似する他の取引対象の組を示す関連クエリを特定する(ステップS4)。
例えば、特定装置100は、取引対象「ビール」と取引対象「枝豆」の組を示す関連クエリQ11「ビール 枝豆」を特定する(類似ランキング1位)。また、特定装置100は、取引対象「ビール」と取引対象「刺身」の組を示す関連クエリQ12「ビール 刺身」を特定する(類似ランキング8位)。また、特定装置100は、取引対象「ビール」と取引対象「唐揚げ」の組を示す関連クエリQ13「ビール 唐揚げ」を特定する(類似ランキング12位)。また、特定装置100は、取引対象「ビール」と取引対象「チーズ」の組を示す関連クエリQ14「ビール チーズ」を特定する(類似ランキング14位)。
特定装置100は、関連クエリを特定すると、関連クエリが示す組に含まれる取引対象の共通性に基づいて、検索クエリQ1「お酒 枝豆」が示す組に含まれる第1取引対象である「お酒」の代替品を特定する(ステップS5)。具体的には、特定装置100は、特定した30個の関連クエリのうち、取引対象「ビール」が4個の関連クエリQ11〜Q14に共通することから、取引対象「ビール」を第1取引対象である「お酒」と近い検索意図で検索されている可能性が高いという関連性を有する第1関連取引対象として特定する。続いて、特定装置100は、第1関連取引対象として特定した「ビール」は第1取引対象である「お酒」と近い検索意図で検索されている可能性が高いので、第1関連取引対象として特定した取引対象「ビール」を第1取引対象である「お酒」の代替品として特定する。
特定装置100は、第1取引対象である「お酒」の代替品を特定すると、検索クエリQ1「お酒 枝豆」が示す組に含まれる第2取引対象である「枝豆」の代替品を特定する(ステップS6)。具体的には、特定装置100は、第1取引対象である「お酒」の代替品として特定した第1関連取引対象である「ビール」を含む組を示す関連クエリQ11〜Q14を特定する。続いて、特定装置100は、特定した関連クエリQ11〜Q14が示す組に含まれる取引対象のうち、第1関連取引対象である「ビール」とは異なる取引対象を、第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いという関連性を有する第2関連取引対象として特定する。
例えば、特定装置100は、特定した関連クエリQ12が示す組に含まれる取引対象のうち、第1関連取引対象である「ビール」とは異なる取引対象「刺身」を、第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いという関連性を有する第2関連取引対象として特定する。続いて、特定装置100は、第2関連取引対象として特定した「刺身」は第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いので、第2関連取引対象として特定した取引対象「刺身」を第2取引対象である「枝豆」の代替品として特定する。
また、特定装置100は、特定した関連クエリQ13が示す組に含まれる取引対象のうち、第1関連取引対象である「ビール」とは異なる取引対象「唐揚げ」を、第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いという関連性を有する第2関連取引対象として特定する。続いて、特定装置100は、第2関連取引対象として特定した「唐揚げ」は第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いので、第2関連取引対象として特定した取引対象「唐揚げ」を第2取引対象である「枝豆」の代替品として特定する。
また、特定装置100は、特定した関連クエリQ14が示す組に含まれる取引対象のうち、第1関連取引対象である「ビール」とは異なる取引対象「チーズ」を、第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いという関連性を有する第2関連取引対象として特定する。続いて、特定装置100は、第2関連取引対象として特定した「チーズ」は第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いので、第2関連取引対象として特定した取引対象「チーズ」を第2取引対象である「枝豆」の代替品として特定する。
また、特定装置100は、取得した検索クエリQ1と特定した関連クエリとの比較に基づいて、検索クエリQ1に関する情報を利用者U10に対して提供する(ステップS7)。例えば、特定装置100は、図1に示す検索クエリQ1と類似する関連クエリをスコア順に並べた関連クエリの一覧である類似ランキングを利用者U10に対して提供する。
また、特定装置100は、検索クエリQ1に含まれる第1取引対象「お酒」に関する所定の傾向に関する情報として、「ビール」は「お酒」に近い意図で検索されている可能性が高いという情報を提供する。
また、特定装置100は、検索クエリQ1に含まれる第2取引対象「枝豆」に関する所定の傾向に関する情報として、「刺身」と「唐揚げ」と「チーズ」は、「お酒」における「枝豆」に近い意図で検索されている可能性が高いという情報を提供する。
また、特定装置100は、特定装置100は、検索クエリQ1に含まれる第1取引対象「お酒」の代替品として「ビール」が想定されるという代替情報を提供する。また、特定装置100は、「お酒」の代替品として「ビール」が想定されるため、「お酒」に用いられているお酒つゆの商品を「ビール」にも使えるように商品開発を行うことを提案する提案情報を提供する。
また、特定装置100は、検索クエリQ1に含まれる「お酒」におけるおつまみである「枝豆」の代替品として「刺身」や「唐揚げ」や「チーズ」が想定されるという代替情報を提供する。
上述したように、特定装置100は、利用者が入力した検索クエリを取得する。また、特定装置100は、取得した検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性に基づいて、取得した検索クエリと所定の関連性を有する他の検索クエリを特定する。これにより、特定装置100は、検索クエリを利用者が入力した際の検索意図の類似性に基づいて、検索クエリが示す分析対象を所望する利用者に提案する他の対象を適切に選択することができる。したがって、特定装置100は、有用な情報を得ることができる。
〔2.特定装置の構成〕
次に、図3を用いて、実施形態に係る特定装置100の構成について説明する。図3は、実施形態に係る特定装置100の構成例を示す図である。図3に示すように、特定装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、特定装置100は、特定装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示させるための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば、端末装置10と検索サーバ20と生成装置50との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、図3に示すように、利用者情報記憶部121とモデル情報記憶部122を有する。
(利用者情報記憶部121)
利用者情報記憶部121は、検索クエリの送信元である利用者に関する各種の情報を記憶する。図4に、実施形態に係る利用者情報記憶部の一例を示す。図4に示す例では、利用者情報記憶部121は、「利用者ID」、「日時」、「クエリID」、「クエリ」といった項目を有する。
「利用者ID」は、検索クエリの送信元である利用者を識別するための識別情報を示す。「日時」は、利用者から検索クエリを取得した日時を示す。「クエリID」は、利用者から取得した検索クエリを識別するための識別情報を示す。「クエリ」は、利用者から取得した検索クエリを示す。
図4の1レコード目に示す例では、利用者ID「U10」で識別される利用者は図1に示す利用者U10に対応する。また、日時「日時#1」は、利用者U10から検索クエリを取得した日時を示す。また、クエリID「Q1」で識別されるクエリ「お酒 枝豆」は、図1に示す利用者U10から取得したクエリを示す。
(モデル情報記憶部122)
モデル情報記憶部122は、生成装置50によって生成された学習モデルに関する各種の情報を記憶する。図5に、実施形態に係るモデル情報記憶部の一例を示す。図5に示す例では、モデル情報記憶部122は、「モデルID」、「モデルデータ」といった項目を有する。
「モデルID」は、生成装置50によって生成された学習モデルを識別するための識別情報を示す。「モデルデータ」は、生成装置50によって生成された学習モデルのモデルデータを示す。例えば、「モデルデータ」には、検索クエリを分散表現に変換するためのデータが格納される。
図5の1レコード目に示す例では、モデルID「M1」で識別される学習モデルは、図1に示した第1モデルM1に対応する。また、モデルデータ「MDT1」は、生成装置50によって生成された第1モデルM1のモデルデータ(モデルデータMDT1)を示す。
モデルデータMDT1は、検索クエリが入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された検索クエリに応じて、入力層に入力された検索クエリの分散表現を出力層から出力するよう、生成装置50を機能させてもよい。
ここで、モデルデータMDT1が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。
また、モデルデータMDT1がDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
生成装置50は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルを用いて、分散表現の算出を行う。具体的には、モデルデータMDT1は、検索クエリが入力された場合に、分散表現を出力するように係数が設定される。生成装置50は、このようなモデルデータMDT1を用いて、分散表現を算出する。
なお、上記例では、モデルデータMDT1が、検索クエリが入力された場合に、検索クエリの分散表現を出力するモデル(以下、モデルX1という。)である例を示した。しかし、実施形態に係るモデルデータMDT1は、モデルX1にデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。例えば、モデルデータMDT1は、検索クエリを入力とした際に、モデルX1が出力した分散表現を入力して学習されたモデル(以下、モデルY1という。)であってもよい。または、モデルデータMDT1は、検索クエリを入力とし、モデルY1の出力値を出力とするよう学習されたモデルであってもよい。
また、生成装置50がGAN(Generative Adversarial Networks)を用いた推定処理を行う場合、モデルデータMDT1は、GANの一部を構成するモデルであってもよい。
(制御部130)
図3の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、特定装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、取得部131と、算出部132と、特定部133と、提供部134とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(取得部131)
取得部131は、利用者が入力した検索クエリを取得する。具体的には、取得部131は、それぞれ異なる取引対象の組を示す検索クエリを取得する。より具体的には、取得部131は、特定装置100によって提供される検索クエリの分析サービスを利用するためのユーザーインターフェースを通じて、利用者が入力した検索クエリを端末装置10から取得する。図1に示す例では、取得部131は、利用者U10から、第1取引対象である「お酒」と第2取引対象である「枝豆」との組を示す検索クエリQ1「お酒 枝豆」を取得する。また、取得部131は、検索クエリを取得すると、検索クエリの送信元である利用者の利用者IDと検索クエリとを対応付けて利用者情報記憶部121に格納する。
また、取得部131は、利用者から検索クエリを取得すると、取得した検索クエリとは異なる他の検索クエリを検索サーバ20から取得する。具体的には、取得部131は、検索クエリが示す取引対象の組とは異なる他の取引対象の組を示す他の検索クエリを取得する。図1に示す例では、取得部131は、検索クエリQ1「お酒 枝豆」を取得すると、検索クエリQ1「お酒 枝豆」とは異なる他の取引対象の組を示す他の検索クエリ(例えば、「ビール 刺身」等)を検索サーバ20から取得する。
また、取得部131は、生成装置50から第1モデルM1を取得する。取得部131は、第1モデルM1を取得すると、取得した第1モデルM1をモデル情報記憶部122に格納する。
(算出部132)
算出部132は、取得部131により取得された検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性を示すスコアを算出する。具体的には、算出部132は、検索クエリとして入力された文字情報に対応する分散表現と他の検索クエリとして入力された他の文字情報に対応する分散表現との類似度をスコアとして算出する。より具体的には、算出部132は、生成装置50から取得した第1モデルM1を用いて、取得部131により取得された検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性を示すスコアを算出する。
例えば、算出部132は、検索クエリとして入力された文字情報を生成装置50から取得した第1モデルM1に入力する。算出部132は、検索クエリとして入力された文字情報を第1モデルM1に入力することにより、検索クエリとして入力された文字情報に対応する分散表現を出力する。また、算出部132は、他の検索クエリとして入力された他の文字情報を生成装置50から取得した第1モデルM1に入力する。算出部132は、他の検索クエリとして入力された他の文字情報を第1モデルM1に入力することにより、他の検索クエリとして入力された他の文字情報に対応する分散表現を出力する。続いて、算出部132は、第1モデルM1から分散表現を出力すると、検索クエリとして入力された文字情報に対応する分散表現と他の検索クエリとして入力された他の文字情報に対応する分散表現との類似度をスコアとして算出する。例えば、算出部132は、検索クエリとして入力された文字情報に対応する分散表現と他の検索クエリとして入力された他の文字情報に対応する分散表現のコサイン類似度をスコアとして算出する。なお、算出部132は、コサイン類似度に限らず、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて分散表現の間の類似度を算出してもよい。例えば、算出部132は、分散表現同士のユークリッド距離や双曲空間等の非ユークリッド空間中での距離、マンハッタン距離、マハラノビス距離等といった所定の距離関数の値を算出してもよい。
図1に示す例では、算出部132は、取得部131によって検索クエリQ1「お酒 枝豆」と他の検索クエリとが取得されると、検索クエリQ1「お酒 枝豆」を利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性を示すスコアを算出する。例えば、算出部132は、取得部131によって取得された検索クエリQ1として入力された文字情報「お酒 枝豆」を生成装置50から取得した第1モデルM1に入力する。算出部132は、検索クエリQ1として入力された文字情報「お酒 枝豆」を第1モデルM1に入力することにより、検索クエリQ1として入力された文字情報「お酒 枝豆」に対応する分散表現を出力する。
また、算出部132は、取得部131によって取得された他の検索クエリとして入力された他の文字情報を生成装置50から取得した第1モデルM1に入力する。算出部132は、他の検索クエリとして入力された他の文字情報を第1モデルM1に入力することにより、他の検索クエリとして入力された他の文字情報に対応する分散表現を出力する。
続いて、算出部132は、第1モデルM1から分散表現を出力すると、検索クエリQ1として入力された文字情報「お酒 枝豆」に対応する分散表現と他の検索クエリとして入力された他の文字情報に対応する分散表現のコサイン類似度をスコアとして算出する。
なお、算出部132は、検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性を示すスコアを算出できるのであれば、どのようなモデルを用いてもよい。例えば、算出部132は、第1モデルM1の代わりに、検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性を示すスコアを算出する他のモデルを用いてもよい。また、算出部132は、検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性を示すスコアを算出できるのであれば、モデルの入力は検索クエリの分散表現でなくてもよい。例えば、モデルの入力として、検索クエリそのものを用いてもよい。
(特定部133)
特定部133は、取得部131により取得された検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性に基づいて、取得部131により取得された検索クエリと所定の関連性を有する他の検索クエリを特定する。具体的には、特定部133は、検索クエリとして入力された際の検索意図が取得部131により取得された検索クエリが示す取引対象の組と類似する他の取引対象の組を示す他の検索クエリを特定する。より具体的には、特定部133は、算出部132によって算出されたスコアに基づいて、取得部131により取得された検索クエリと所定の関連性を有する他の検索クエリを特定する。例えば、特定部133は、算出部132によって算出されたスコアと所定の閾値との比較に基づいて、他の検索クエリを特定する。
図1に示す例では、特定部133は、算出部132によってスコアが算出されると、算出部132によって算出されたスコアが所定の閾値以上である他の検索クエリを関連クエリとして特定する。図1に、特定部133によって特定された関連クエリをスコアの高い方から順に並べた関連クエリの一覧である類似ランキングを示す。図1に示すように、特定部133は、検索クエリとして入力された際の検索意図が、検索クエリQ1「お酒 枝豆」が示す取引対象の組と類似する他の取引対象の組を示す関連クエリを特定する。
例えば、特定部133は、取引対象「ビール」と取引対象「枝豆」の組を示す関連クエリQ11「ビール 枝豆」を特定する(類似ランキング1位)。また、特定部133は、取引対象「ビール」と取引対象「刺身」の組を示す関連クエリQ12「ビール 刺身」を特定する(類似ランキング8位)。また、特定部133は、取引対象「ビール」と取引対象「唐揚げ」の組を示す関連クエリQ13「ビール 唐揚げ」を特定する(類似ランキング12位)。また、特定部133は、取引対象「ビール」と取引対象「チーズ」の組を示す関連クエリQ14「ビール チーズ」を特定する(類似ランキング14位)。
また、特定部133は、検索クエリとして入力された際の検索意図が取得部131により取得された検索クエリが示す取引対象の組と類似する他の取引対象の組を示す他の検索クエリを特定し、特定した他の検索クエリが示す組に含まれる取引対象の共通性に基づいて、取得部131により取得された検索クエリが示す組に含まれる第1取引対象と所定の関連性を有する第1関連取引対象を特定する。具体的には、特定部133は、検索クエリとして入力された際の検索意図が取得部131により取得された検索クエリが示す取引対象の組と類似する他の取引対象の組を示す他の検索クエリを特定し、特定した他の検索クエリが示す組に含まれる数が所定の条件を満たす取引対象を取得部131により取得された検索クエリが示す組に含まれる第1取引対象と所定の関連性を有する第1関連取引対象として特定する。例えば、特定部133は、特定部は、第1関連取引対象を第1取引対象の代替品として特定する。
図1に示す例では、特定部133は、関連クエリを特定すると、関連クエリが示す組に含まれる取引対象の共通性に基づいて、検索クエリQ1「お酒 枝豆」が示す組に含まれる第1取引対象である「お酒」と所定の関連性を有する第1関連取引対象を特定する。具体的には、特定部133は、関連クエリを特定すると、関連クエリが示す組に含まれる数が所定の条件を満たす取引対象を取得部131により取得された検索クエリが示す組に含まれる第1取引対象と所定の関連性を有する第1関連取引対象として特定する。例えば、特定部133は、特定した30個の関連クエリのうち、取引対象「ビール」が4個の関連クエリQ11〜Q14に共通することから、取引対象「ビール」を第1取引対象である「お酒」と近い検索意図で検索されている可能性が高いという関連性を有する第1関連取引対象として特定する。続いて、特定部133は、第1関連取引対象として特定した「ビール」は第1取引対象である「お酒」と近い検索意図で検索されている可能性が高いので、第1関連取引対象として特定した取引対象「ビール」を第1取引対象である「お酒」の代替品として特定する。
また、特定部133は、特定した第1関連取引対象を含む組を示す他の検索クエリを特定する。続いて、特定部133は、第1関連取引対象を含む組を示す他の検索クエリを特定し、特定した他の検索クエリが示す組に含まれる取引対象のうち、第1関連取引対象とは異なる取引対象を、取得部131により取得された検索クエリが示す組に含まれる取引対象のうち、第1取引対象とは異なる第2取引対象と所定の関連性を有する第2関連取引対象として特定する。例えば、特定部133は、第2関連取引対象を第2取引対象の代替品として特定する。
図1に示す例では、特定部133は、第1取引対象である「お酒」の代替品として特定した第1関連取引対象である「ビール」を含む組を示す関連クエリQ11〜Q14を特定する。続いて、特定部133は、特定した関連クエリQ11〜Q14が示す組に含まれる取引対象のうち、第1関連取引対象である「ビール」とは異なる取引対象を、第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いという関連性を有する第2関連取引対象として特定する。
例えば、特定部133は、特定した関連クエリQ12が示す組に含まれる取引対象のうち、第1関連取引対象である「ビール」とは異なる取引対象「刺身」を、第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いという関連性を有する第2関連取引対象として特定する。続いて、特定部133は、第2関連取引対象として特定した「刺身」は第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いので、第2関連取引対象として特定した取引対象「刺身」を第2取引対象である「枝豆」の代替品として特定する。
また、特定部133は、特定した関連クエリQ13が示す組に含まれる取引対象のうち、第1関連取引対象である「ビール」とは異なる取引対象「唐揚げ」を、第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いという関連性を有する第2関連取引対象として特定する。続いて、特定部133は、第2関連取引対象として特定した「唐揚げ」は第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いので、第2関連取引対象として特定した取引対象「唐揚げ」を第2取引対象である「枝豆」の代替品として特定する。
また、特定部133は、特定した関連クエリQ14が示す組に含まれる取引対象のうち、第1関連取引対象である「ビール」とは異なる取引対象「チーズ」を、第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いという関連性を有する第2関連取引対象として特定する。続いて、特定部133は、第2関連取引対象として特定した「チーズ」は第2取引対象である「枝豆」と近い検索意図で検索されている可能性が高いので、第2関連取引対象として特定した取引対象「チーズ」を第2取引対象である「枝豆」の代替品として特定する。
(提供部134)
提供部134は、取得部131により取得された検索クエリと特定部133によって特定された他の検索クエリとの比較に基づいて、取得部131により取得された検索クエリに関する情報を提供する。例えば、提供部134は、算出部132によって算出されたスコア順に並べられた他の検索クエリの一覧を提供する。図1に示す例では、提供部134は、図1に示す検索クエリQ1と類似する関連クエリをスコア順に並べた関連クエリの一覧である類似ランキングを利用者U10に対して提供する。
また、提供部134は、検索クエリに含まれる取引対象に関する所定の傾向に関する情報を提供する。例えば、提供部134は、それぞれ異なる取引対象の組を示す検索クエリに含まれる第1取引対象に関する所定の傾向に関する情報を提供する。図1に示す例では、提供部134は、検索クエリQ1に含まれる第1取引対象「お酒」に関する所定の傾向に関する情報として、「ビール」は「お酒」に近い意図で検索されている可能性が高いという情報を提供する。
また、提供部134は、それぞれ異なる取引対象の組を示す検索クエリに含まれる第1取引対象と異なる第2取引対象に関する所定の傾向に関する情報を提供する。図1に示す例では、提供部134は、検索クエリQ1に含まれる第2取引対象「枝豆」に関する所定の傾向に関する情報として、「刺身」と「唐揚げ」と「チーズ」は、「お酒」における「枝豆」に近い意図で検索されている可能性が高いという情報を提供する。
また、提供部134は、検索クエリに含まれる取引対象に関連する商品又はサービスに関する提案情報を提供する。例えば、提供部134は、それぞれ異なる取引対象の組を示す検索クエリに含まれる第1取引対象に関連する商品又はサービスに関する提案情報を提供する。図1に示す例では、提供部134は、検索クエリQ1に含まれる第1取引対象「お酒」の代替品として「ビール」が想定されるという代替情報を利用者U10に対して提供する。また、提供部134は、「お酒」の代替品として「ビール」が想定されるため、「お酒」に用いられているおつまみの商品を「ビール」に合うように商品開発を行うことを提案する提案情報を提供する。
また、提供部134は、それぞれ異なる取引対象の組を示す検索クエリに含まれる第1取引対象と異なる第2取引対象に関連する商品又はサービスに関する提案情報を提供する。図1に示す例では、提供部134は、検索クエリQ1に含まれる「お酒」におけるおつまみである「枝豆」の代替品として「刺身」や「唐揚げ」や「チーズ」が想定されるという代替情報を提供する。
〔3.特定処理のフロー〕
次に、図6を用いて、実施形態に係る特定処理の手順について説明する。図6は、実施形態に係る特定処理手順を示すフローチャートである。図6に示す例では、特定装置100は、それぞれ異なる取引対象の組を示す検索クエリを利用者から取得する(ステップS101)。
続いて、特定装置100は、検索クエリを取得すると、検索クエリとして入力された際の検索意図が取得した検索クエリが示す取引対象の組と類似する他の取引対象の組を示す他の検索クエリを特定する(ステップS102)。
〔4.第1モデルの生成処理〕
次に、図7を用いて、第1モデルの生成処理の流れについて説明する。図7は、実施形態に係る第1モデルの生成処理の一例を示す図である。図7に示す例では、生成装置50は、同一のユーザU1によって所定の時間内に連続して入力された「六本木 パスタ」という検索クエリQ11と「六本木 イタリアン」という検索クエリQ12とから成る一対の検索クエリを抽出する(ステップS11)。
続いて、生成装置50は、抽出した検索クエリQ11を第1モデルM1に入力して、検索クエリQ11の分散表現であるベクトルBQV11を出力する。ここで、ベクトルBQV11は、第1モデルM1の出力層から出力されたばかりの検索クエリQ11の分散表現であって、第1モデルM1にフィードバックをかける前(学習前)の分散表現を示す。また、生成装置50は、抽出した検索クエリQ12を第1モデルM1に入力して、検索クエリQ12の分散表現であるベクトルBQV12を出力する。ここで、ベクトルBQV12は、第1モデルM1の出力層から出力されたばかりの検索クエリQ12の分散表現であって、第1モデルM1にフィードバックをかける前(学習前)の分散表現を示す。このようにして、生成装置50は、検索クエリQ11の分散表現であるベクトルBQV11と、検索クエリQ12の分散表現であるベクトルBQV12とを出力する(ステップS12)。
続いて、生成装置50は、同一のユーザU1によって所定の時間内に連続して入力された検索クエリQ11(「六本木 パスタ」)と検索クエリQ12(「六本木 イタリアン」)とから成る一対の検索クエリは、所定の検索意図(例えば、「ある場所で飲食店を探す」という検索意図)で入力された検索クエリであると推定されるため、相互に類似する特徴を有するものとして、検索クエリQ11の分散表現(ベクトルQV11)と、検索クエリQ11と対となる検索クエリQ12の分散表現(ベクトルQV12)とが、分散表現空間上で類似するように第1モデルM1を学習させる。例えば、第1モデルM1にフィードバックをかける前(学習前)の検索クエリQ11の分散表現であるベクトルBQV11と検索クエリQ12の分散表現であるベクトルBQV12との唐揚げ角度の大きさをΘとする。また、第1モデルM1にフィードバックをかけた後(学習後)の検索クエリQ11の分散表現であるベクトルQV11と検索クエリQ12の分散表現であるベクトルQV12との唐揚げ角度の大きさをΦとする。この時、生成装置50は、ΘよりもΦが小さくなるように、第1モデルM1を学習させる。例えば、生成装置50は、ベクトルBQV11とベクトルBQV12のコサイン類似度の値を算出する。また、生成装置50は、ベクトルQV11とベクトルQV12のコサイン類似度の値を算出する。続いて、生成装置50は、ベクトルBQV11とベクトルBQV12のコサイン類似度の値よりも、ベクトルQV11とベクトルQV12のコサイン類似度の値が大きくなるように(値が1に近づくように)第1モデルM1を学習させる。このように、生成装置50は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように第1モデルM1を学習させることで、検索クエリから分散表現(ベクトル)を出力する第1モデルM1を生成する(ステップS13)。なお、生成装置50は、コサイン類似度に限らず、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて分散表現(ベクトル)の間の類似度を算出してもよい。また、生成装置50は、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて第1モデルM1を学習させてもよい。例えば、生成装置50は、分散表現(ベクトル)同士のユークリッド距離や双曲空間等の非ユークリッド空間中での距離、マンハッタン距離、マハラノビス距離等といった所定の距離関数の値を算出する。続いて、生成装置50は、分散表現(ベクトル)同士の所定の距離関数の値(すなわち、分散表現空間における距離)が小さくなるように第1モデルM1を学習させてもよい。
次に、図8を用いて、第1モデルの生成処理の流れについてより詳しく説明する。なお、図8の説明では、図7の説明と重複する部分は、適宜省略する。図8は、実施形態に係る第1モデルの生成処理を示す図である。図8に示す例では、生成装置50が生成した第1モデルM1によって出力された分散表現(ベクトル)が分散表現空間にマッピングされる様子が示されている。生成装置50は、所定の検索クエリの分散表現と所定の検索クエリと対となる他の検索クエリの分散表現とが分散表現空間上で近くにマッピングされるように第1モデルM1のトレーニングを行う。
図8の上段に示す例では、生成装置50は、同一のユーザU1によって所定の時間内に連続して入力された4個の検索クエリである検索クエリQ11(「六本木 パスタ」)、検索クエリQ12(「六本木 イタリアン」)、検索クエリQ13(「赤坂 パスタ」)、検索クエリQ14(「麻布 パスタ」)を抽出する。生成装置50は、同一のユーザU1によって各検索クエリが入力された時間の間隔が所定の時間内である4個の検索クエリを抽出する。生成装置50は、同一のユーザU1によって後述する各検索クエリのペアが入力された時間の間隔が所定の時間内である複数の検索クエリを抽出する。生成装置50は、検索クエリが入力された順番に並べると、検索クエリQ11、検索クエリQ12、検索クエリQ13、検索クエリQ14の順番で入力された4個の検索クエリを抽出する。生成装置50は、4個の検索クエリを抽出すると、時系列的に隣り合う2つの検索クエリを一対の検索クエリとして、3対の検索クエリのペアである(検索クエリQ11、検索クエリQ12)、(検索クエリQ12、検索クエリQ13)、(検索クエリQ13、検索クエリQ14)を抽出する(ステップS21−1)。なお、生成装置50は、同一のユーザU1によって全ての検索クエリが所定の時間内に入力された複数の検索クエリを抽出してもよい。そして、生成装置50は、時系列的に隣り合うか否かに関わらず、抽出した複数の検索クエリの中から2つの検索クエリを選択して、選択した2つの検索クエリを一対の検索クエリとして抽出してもよい。
続いて、生成装置50は、抽出した検索クエリQ1k(k=1、2、3、4)を第1モデルM1に入力して、検索クエリQ1k(k=1、2、3、4)の分散表現であるベクトルBQV1k(k=1、2、3、4)を出力する。ここで、ベクトルBQV1k(k=1、2、3、4)は、第1モデルM1の出力層から出力されたばかりの検索クエリQ1k(k=1、2、3、4)の分散表現であって、第1モデルM1にフィードバックをかける前(学習前)の分散表現を示す(ステップS22−1)。
続いて、生成装置50は、同一のユーザU1によって所定の時間内に連続して入力された一対の検索クエリは、所定の検索意図(例えば、「ある場所(東京都港区付近)で飲食店を探す」という検索意図)で入力された検索クエリであると推定されるため、相互に類似する特徴を有するものとして、検索クエリQ11の分散表現(ベクトルQV11)と、検索クエリQ11と対となる検索クエリQ12の分散表現(ベクトルQV12)とが、分散表現空間上で類似するように第1モデルM1を学習させる。また、生成装置50は、検索クエリQ12の分散表現(ベクトルQV12)と、検索クエリQ12と対となる検索クエリQ13の分散表現(ベクトルQV13)とが、分散表現空間上で類似するように第1モデルM1を学習させる。また、生成装置50は、検索クエリQ13の分散表現(ベクトルQV13)と、検索クエリQ13と対となる検索クエリQ14の分散表現(ベクトルQV14)とが、分散表現空間上で類似するように第1モデルM1を学習させる。このように、生成装置50は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように第1モデルM1を学習させることで、検索クエリから分散表現(ベクトル)を出力する第1モデルM1を生成する(ステップS23−1)。
図8の上段に示す情報処理の結果として、検索クエリQ1k(k=1、2、3、4)の分散表現であるベクトルQV1k(k=1、2、3、4)が分散表現空間の近い位置にクラスタCL11としてマッピングされる様子が示されている。例えば、検索クエリQ1k(k=1、2、3、4)は、ユーザU1によって「ある場所(東京都港区付近)で飲食店を探す」という検索意図の下で検索された検索クエリの集合であると推定される。すなわち、検索クエリQ1k(k=1、2、3、4)は、「ある場所(東京都港区付近)で飲食店を探す」という検索意図の下で検索された検索クエリであるという点で、相互に類似する特徴を有する検索クエリであると推定される。ここで、生成装置50は、「ある場所(東京都港区付近)で飲食店を探す」という検索意図で入力された所定の検索クエリが第1モデルに入力されると、クラスタCL11の位置にマッピングされるような分散表現を出力することができる。これにより、例えば、生成装置50は、クラスタCL11の位置にマッピングされる分散表現に対応する検索クエリを抽出することにより、「ある場所(東京都港区付近)で飲食店を探す」という検索意図に応じた検索クエリを抽出することができる。したがって、生成装置50は、検索クエリの意味を適切に解釈可能とすることができる。
図8の下段に示す例では、生成装置50は、同一のユーザU2によって所定の時間内に連続して入力された3個の検索クエリである検索クエリQ21(「冷蔵庫 400L」)、検索クエリQ22(「冷蔵庫 中型」)、検索クエリQ23(「冷蔵庫 中型 おすすめ」)を抽出する。生成装置50は、検索クエリが入力された順番に並べると、検索クエリQ21、検索クエリQ22、検索クエリQ23の順番で入力された3個の検索クエリを抽出する。生成装置50は、3個の検索クエリを抽出すると、時系列的に隣り合う2つの検索クエリを一対の検索クエリとして、2対の検索クエリのペアである(検索クエリQ21、検索クエリQ22)、(検索クエリQ22、検索クエリQ23)を抽出する(ステップS21−2)。
続いて、生成装置50は、抽出した検索クエリQ2m(m=1、2、3)を第1モデルM1に入力して、検索クエリQ2m(m=1、2、3)の分散表現であるベクトルBQV2m(m=1、2、3)を出力する。ここで、ベクトルBQV2m(m=1、2、3)は、第1モデルM1の出力層から出力されたばかりの検索クエリQ2m(m=1、2、3)の分散表現であって、第1モデルM1にフィードバックをかける前(学習前)の分散表現を示す(ステップS22−2)。
続いて、生成装置50は、同一のユーザU2によって所定の時間内に連続して入力された一対の検索クエリは、所定の検索意図(例えば、「中型の冷蔵庫を調べる」という検索意図)で入力された検索クエリであると推定されるため、相互に類似する特徴を有するものとして、検索クエリQ21の分散表現(ベクトルQV21)と、検索クエリQ21と対となる検索クエリQ22の分散表現(ベクトルQV22)とが、分散表現空間上で類似するように第1モデルM1を学習させる。また、生成装置50は、検索クエリQ22の分散表現(ベクトルQV22)と、検索クエリQ22と対となる検索クエリQ23の分散表現(ベクトルQV23)とが、分散表現空間上で類似するように第1モデルM1を学習させる。このように、生成装置50は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように第1モデルM1を学習させることで、検索クエリから分散表現(ベクトル)を出力する第1モデルM1を生成する(ステップS23−2)。
図8の下段に示す情報処理の結果として、検索クエリQ2m(m=1、2、3)の分散表現であるベクトルQV2m(m=1、2、3)が分散表現空間の近い位置にクラスタCL21としてマッピングされる様子が示されている。例えば、検索クエリQ2m(m=1、2、3)は、ユーザU2によって「中型の冷蔵庫を調べる」という検索意図の下で検索された検索クエリの集合であると推定される。すなわち、Q2m(m=1、2、3)は、「中型の冷蔵庫を調べる」という検索意図の下で検索された検索クエリであるという点で、相互に類似する特徴を有する検索クエリであると推定される。ここで、生成装置50は、「中型の冷蔵庫を調べる」という検索意図で入力された所定の検索クエリが第1モデルに入力されると、クラスタCL21の位置にマッピングされるような分散表現を出力することができる。これにより、例えば、生成装置50は、クラスタCL21の位置にマッピングされる分散表現に対応する検索クエリを抽出することにより、「中型の冷蔵庫を調べる」という検索意図に応じた検索クエリを抽出することができる。したがって、生成装置50は、検索クエリの意味を適切に解釈可能とすることができる。
また、本願発明に係る生成装置50は、ランダムに抽出された複数の検索クエリは、異なる検索意図の下で検索された検索クエリであるという点で、相互に相違する特徴を有する検索クエリであるとみなして第1モデルM1を学習させる。具体的には、生成装置50は、所定の検索クエリの分散表現と、所定の検索クエリとは無関係にランダムに抽出された検索クエリの分散表現とが分散表現空間上で遠くにマッピングされるように第1モデルM1のトレーニングを行う。図8に示す例では、生成装置50は、検索クエリQ11とは無関係にランダムに検索クエリを抽出したところ、検索クエリQ21が抽出されたとする。この場合、生成装置50は、検索クエリQ11の分散表現(ベクトルQV11)と、検索クエリQ11とは無関係にランダムに抽出された検索クエリQ21の分散表現(ベクトルQV21)とが分散表現空間上で遠くにマッピングされるように第1モデルM1のトレーニングを行う。その結果として、「ある場所(東京都港区付近)で飲食店を探す」という検索意図の下で検索された検索クエリQ1k(k=1、2、3、4)の分散表現であるベクトルQV1k(k=1、2、3、4)を含むクラスタCL11と、「中型の冷蔵庫を調べる」という検索意図の下で検索された検索クエリQ2m(m=1、2、3)の分散表現であるベクトルQV2m(m=1、2、3)を含むクラスタCL21とは、分散表現空間上で遠くにマッピングされる。すなわち、本願発明に係る生成装置50は、ランダムに抽出された複数の検索クエリの分散表現が相違するように第1モデルM1を学習させることにより、検索意図が異なる検索クエリの分散表現を分散表現空間上で遠い位置に出力可能とする。
なお、生成装置50が生成した第1モデルM1によって出力された分散表現(ベクトル)が分散表現空間にマッピングされた結果として、上述したクラスタCL11とクラスタCL21の他にも、同一のユーザによって所定の時間内に入力された複数の検索クエリの分散表現(ベクトル)の集合であるクラスタCL12やクラスタCL22が生成される。
上述したように、生成装置50は、ユーザによって入力された検索クエリを取得する。また、生成装置50は、取得した検索クエリのうち、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして学習することで、所定の検索クエリから所定の検索クエリの特徴情報を予測する第1モデルを生成する。すなわち、本願発明に係る生成装置50は、所定の時間内に連続して入力された複数の検索クエリは、所定の検索意図の下で検索された検索クエリであるという点で、相互に類似する特徴を有する検索クエリであるとみなして第1モデルを学習させる。具体的には、生成装置50は、同一のユーザによって所定の時間内に入力された複数の検索クエリの分散表現が類似するように第1モデルを学習させることで、所定の検索クエリから所定の検索クエリの特徴情報を含む分散表現を出力する第1モデルを生成する。すなわち、本願発明に係る生成装置50は、所定の時間内に連続して入力された複数の検索クエリの分散表現が類似するように第1モデルM1を学習させることにより、所定の検索意図の下で検索された検索クエリの分散表現を分散表現空間上で近い位置に出力可能とする。これにより、生成装置50は、検索クエリを入力したユーザのコンテクストに応じて検索クエリの意味(検索意図)を出力(解釈)することを可能にする。したがって、生成装置50は、検索クエリの意味を適切に解釈可能とすることができる。
また、生成装置50は、所定の検索クエリの特徴情報を含む分散表現の近傍にマッピングされる分散表現に対応する検索クエリを抽出することにより、所定の検索クエリが検索された検索意図に応じた検索クエリを抽出することができる。すなわち、生成装置50は、検索クエリを入力したユーザの検索意図やコンテクストを考慮して、ユーザの検索動向を分析することを可能にする。したがって、生成装置50は、ユーザの検索動向の分析精度を高めることができる。また、生成装置50が生成した第1モデルM1を検索システムの一部として機能させることもできる。あるいは、生成装置50は、第1モデルM1によって予測された検索クエリの特徴情報を利用する他のシステム(例えば、検索エンジン)への入力情報として、第1モデルM1が出力した検索クエリの分散表現を提供することもできる。これにより、検索システムは、第1モデルM1によって予測された検索クエリの特徴情報に基づいて、検索結果として出力されるコンテンツを選択可能になる。すなわち、検索システムは、検索クエリを入力したユーザの検索意図やコンテクストを考慮して、検索結果として出力されるコンテンツを選択可能になる。さらに、検索システムは、第1モデルM1によって予測された検索クエリの特徴情報に基づいて、検索結果として出力されるコンテンツに含まれる文字情報の分散表現と検索クエリの分散表現との類似度を算出可能になる。そして、検索システムは、算出した類似度に基づいて、検索結果として出力されるコンテンツの表示順を決定可能になる。すなわち、検索システムは、検索クエリを入力したユーザの検索意図やコンテクストを考慮して、検索結果として出力されるコンテンツの表示順を決定可能になる。したがって、生成装置50は、検索サービスにおけるユーザビリティを向上させることができる。
〔5.生成装置の構成〕
次に、図9を用いて、実施形態に係る生成装置50の構成について説明する。図9は、実施形態に係る生成装置50の構成例を示す図である。図9に示すように、生成装置50は、通信部51と、記憶部53と、制御部52とを有する。なお、生成装置50は、生成装置50の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部51)
通信部51は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部51は、ネットワークと有線または無線で接続され、例えば、端末装置10と、検索サーバ20との間で情報の送受信を行う。
(記憶部53)
記憶部53は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部53は、図9に示すように、クエリ情報記憶部531と、ベクトル情報記憶部532と、モデル情報記憶部533とを有する。
(クエリ情報記憶部531)
クエリ情報記憶部531は、ユーザによって入力された検索クエリに関する各種の情報を記憶する。図10に、実施形態に係るクエリ情報記憶部の一例を示す。図10に示す例では、クエリ情報記憶部531は、「ユーザID」、「日時」、「検索クエリ」、「検索クエリID」といった項目を有する。
「ユーザID」は、検索クエリを入力したユーザを識別するための識別情報を示す。「日時」は、検索サーバがユーザから検索クエリを受け付けた日時を示す。「検索クエリ」は、ユーザによって入力された検索クエリを示す。「検索クエリID」は、ユーザによって入力された検索クエリを識別するための識別情報を示す。
図10の1レコード目に示す例では、検索クエリID「Q11」で識別される検索クエリ(検索クエリQ11)は、図14に示した検索クエリQ11に対応する。また、ユーザID「U1」は、検索クエリQ11を入力したユーザがユーザID「U1」で識別されるユーザ(ユーザU1)であることを示す。また、日時「2018/9/1 PM17:00」は、検索サーバがユーザU1から検索クエリQ11を受け付けた日時が2018年9月1日の午後17:00であることを示す。また、検索クエリ「六本木 パスタ」は、ユーザU1によって入力された検索クエリQ11を示す。具体的には、検索クエリ「六本木 パスタ」は、地名を示す「六本木」と食品の種類を示す「パスタ」の文字とが区切り文字であるスペースで区切られた文字情報であることを示す。
(ベクトル情報記憶部532)
ベクトル情報記憶部532は、検索クエリの分散表現であるベクトルに関する各種の情報を記憶する。図11に、実施形態に係るベクトル情報記憶部の一例を示す。図11に示す例では、ベクトル情報記憶部532は、「ベクトルID」、「検索クエリID」、「ベクトル情報」といった項目を有する。
「ベクトルID」は、検索クエリの分散表現であるベクトルを識別するための識別情報を示す。「検索クエリID」は、ベクトルに対応する検索クエリを識別するための識別情報を示す。「ベクトル情報」は、検索クエリの分散表現であるN次元のベクトルを示す。検索クエリの分散表現であるベクトルは、例えば、128次元のベクトルである。
図11の1レコード目に示す例では、ベクトルID「QV11」で識別されるベクトル(ベクトルQV11)は、図14に示した検索クエリQ11の分散表現であるベクトルQV11に対応する。また、検索クエリID「Q11」で識別される検索クエリ(検索クエリQ11)は、ベクトルQV11に対応する検索クエリが検索クエリQ11であることを示す。また、ベクトル情報「QVDT11」は、検索クエリQ11の分散表現であるN次元のベクトルを示す。
(モデル情報記憶部533)
モデル情報記憶部533は、生成装置50によって生成された学習モデルに関する各種の情報を記憶する。図12に、実施形態に係るモデル情報記憶部の一例を示す。図12に示す例では、モデル情報記憶部533は、「モデルID」、「モデルデータ」といった項目を有する。
「モデルID」は、生成装置50によって生成された学習モデルを識別するための識別情報を示す。「モデルデータ」は、生成装置50によって生成された学習モデルのモデルデータを示す。例えば、「モデルデータ」には、検索クエリを分散表現に変換するためのデータが格納される。
図12の1レコード目に示す例では、モデルID「M1」で識別される学習モデルは、図1に示した第1モデルM1に対応する。また、モデルデータ「MDT1」は、生成装置50によって生成された第1モデルM1のモデルデータ(モデルデータMDT1)を示す。
モデルデータMDT1は、検索クエリが入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された検索クエリに応じて、入力層に入力された検索クエリの分散表現を出力層から出力するよう、生成装置50を機能させてもよい。
ここで、モデルデータMDT1が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。
また、モデルデータMDT1がDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
生成装置50は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルを用いて、分散表現の算出を行う。具体的には、モデルデータMDT1は、検索クエリが入力された場合に、分散表現を出力するように係数が設定される。生成装置50は、このようなモデルデータMDT1を用いて、分散表現を算出する。
なお、上記例では、モデルデータMDT1が、検索クエリが入力された場合に、検索クエリの分散表現を出力するモデル(以下、モデルX1という。)である例を示した。しかし、実施形態に係るモデルデータMDT1は、モデルX1にデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。例えば、モデルデータMDT1は、検索クエリを入力とした際に、モデルX1が出力した分散表現を入力して学習されたモデル(以下、モデルY1という。)であってもよい。または、モデルデータMDT1は、検索クエリを入力とし、モデルY1の出力値を出力とするよう学習されたモデルであってもよい。
また、生成装置50がGAN(Generative Adversarial Networks)を用いた推定処理を行う場合、モデルデータMDT1は、GANの一部を構成するモデルであってもよい。
(制御部52)
図9の説明に戻って、制御部52は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、生成装置50内部の記憶装置に記憶されている各種プログラム(生成プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部52は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
また、制御部52は、モデル情報記憶部533に記憶されている第1モデルM1(モデルデータMDT1)に従った情報処理により、入力層に入力された検索クエリに対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、分散表現を出力層から出力するよう、コンピュータを機能させる。
また、制御部52は、モデル情報記憶部533に記憶されている第2モデルM2(モデルデータMDT2)に従った情報処理により、入力層に入力された検索クエリに対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、検索クエリが各カテゴリに属する確率を出力層から出力するよう、コンピュータを機能させる。
図9に示すように、制御部52は、取得部521と、抽出部522と、生成部523を有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部52の内部構成は、図9に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(取得部521)
取得部521は、種々の情報を取得する。具体的には、取得部521は、ユーザによって入力された検索クエリを検索サーバ20から取得する。取得部521は、ユーザによって入力された検索クエリを取得すると、取得した検索クエリをクエリ情報記憶部531に格納する。
また、取得部521は、検索クエリの分散表現であるベクトルに関するベクトル情報を取得する。取得部521は、ベクトル情報を取得すると、取得したベクトル情報をベクトル情報記憶部532に格納する。
また、取得部521は、第1モデルに関する情報を取得する。具体的には、取得部521は、取得部521は、生成部523によって生成された第1モデルに関する情報を取得する。取得部521は、第1モデルに関する情報を取得すると、取得した第1モデルに関する情報をモデル情報記憶部533に格納する。
(抽出部522)
抽出部522は、種々の情報を抽出する。具体的には、抽出部522は、取得部521によって取得された検索クエリのうち、同一のユーザによって所定の時間内に入力された複数の検索クエリを抽出する。例えば、抽出部522は、同一のユーザによって各検索クエリが入力された時間の間隔が所定の時間内である複数の検索クエリを抽出する。続いて、抽出部522は、同一のユーザによって所定の時間内に入力された複数の検索クエリのうち、同一のユーザによって所定の時間内に連続して入力された一対の検索クエリを抽出する。例えば、抽出部522は、同一のユーザによって各検索クエリのペアが入力された時間の間隔が所定の時間内である複数の検索クエリを抽出する。例えば、抽出部522は、取得部521によって取得された検索クエリのうち、同一のユーザU1によって所定の時間内に連続して入力された4個の検索クエリである検索クエリQ11(「六本木 パスタ」)、検索クエリQ12(「六本木 イタリアン」)、検索クエリQ13(「赤坂 パスタ」)、検索クエリQ14(「麻布 パスタ」)を抽出する。抽出部522は、検索クエリが入力された順番に並べると、検索クエリQ11、検索クエリQ12、検索クエリQ13、検索クエリQ14の順番で入力された4個の検索クエリを抽出する。続いて、抽出部522は、4個の検索クエリを抽出すると、時系列的に隣り合う2つの検索クエリを一対の検索クエリとして、3対の検索クエリのペアである(検索クエリQ11、検索クエリQ12)、(検索クエリQ12、検索クエリQ13)、(検索クエリQ13、検索クエリQ14)を抽出する。なお、抽出部522は、同一のユーザによって全ての検索クエリが所定の時間内に入力された複数の検索クエリを抽出してもよい。そして、抽出部522は、時系列的に隣り合うか否かに関わらず、抽出した複数の検索クエリの中から2つの検索クエリを選択して、選択した2つの検索クエリを一対の検索クエリとして抽出してもよい。
また、抽出部522は、取得部521によって取得された検索クエリのうち、所定の検索クエリと所定の検索クエリに無関係な他の検索クエリとを抽出する。例えば、抽出部522は、取得部521によって取得された検索クエリの中から、所定の検索クエリを抽出する。続いて、抽出部522は、取得部521によって取得された検索クエリの中から、所定の検索クエリとは無関係にランダムに他の検索クエリを抽出する。
(生成部523)
生成部523は、種々の情報を生成する。具体的には、生成部523は、取得部521によって取得された検索クエリのうち、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして学習することで、所定の検索クエリから所定の検索クエリの特徴情報を予測する学習モデルを生成する。具体的には、生成部523は、同一のユーザによって所定の時間内に入力された複数の検索クエリの分散表現が類似するように学習モデルを学習させることで、所定の検索クエリから所定の検索クエリの特徴情報を予測する学習モデルを生成する。例えば、生成部523は、所定の時間内に続けて入力された一対の検索クエリの分散表現が類似するように学習することで、学習モデルを生成する。例えば、生成部523は、一対の検索クエリの学習前の分散表現(ベクトル)の類似度の値を算出する。また、生成部523は、一対の検索クエリの学習後の分散表現(ベクトル)の類似度の値を算出する。続いて、生成部523は、学習前の分散表現(ベクトル)の類似度の値よりも、学習後の分散表現(ベクトル)の類似度の値が大きくなるように学習モデルを学習させる。このように、生成部523は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように学習モデルを学習させることで、検索クエリから分散表現(ベクトル)を出力する学習モデルを生成する。より具体的には、生成部523は、RNNの一種であるLSTMを分散表現生成に用いたDSSMの技術を用いて、検索クエリから分散表現(ベクトル)を出力する学習モデルを生成する。例えば、生成部523は、学習モデルの正解データとして、同一のユーザによって所定の時間内に入力された一対の検索クエリが類似する特徴を有するものとして、所定の検索クエリの分散表現(ベクトル)と、所定の検索クエリと対となる他の検索クエリの分散表現(ベクトル)とが、分散表現空間上で近くに存在するように学習する。また、生成部523は、第1モデルを生成すると、第1モデルを識別する識別情報と対応付けて、生成した第1モデル(モデルデータMDT1)をモデル情報記憶部533に格納する。
〔6.第1モデルの一例〕
次に、図13を用いて生成装置50が生成する第1モデルの一例について説明する。図13は、実施形態に係る第1モデルの一例を示す図である。図13に示す例では、生成装置50が生成する第1モデルM1は、3層のLSTM RNNで構成されている。図13に示す例では、抽出部522は、同一のユーザU1によって所定の時間内に連続して入力された「六本木 パスタ」という検索クエリQ11と「六本木 イタリアン」という検索クエリQ12とから成る一対の検索クエリを抽出する。生成部523は、抽出部522によって抽出されたた検索クエリQ11を第1モデルM1の入力層に入力する(ステップS41)。
続いて、生成部523は、第1モデルM1の出力層から検索クエリQ11の分散表現である256次元のベクトルBQV11を出力する。また、生成部523は、抽出部522によって抽出された検索クエリQ12を第1モデルM1の入力層に入力する。続いて、生成部523は、第1モデルM1の出力層から検索クエリQ12の分散表現である256次元のベクトルBQV12を出力する(ステップS42)。
続いて、生成部523は、連続して入力された2つの検索クエリの分散表現(ベクトル)が類似するように学習することで、検索クエリから分散表現(ベクトル)を出力する第1モデルM1を生成する(ステップS43)。例えば、第1モデルM1にフィードバックをかける前(学習前)の検索クエリQ11の分散表現であるベクトルBQV11と検索クエリQ12の分散表現であるベクトルBQV12との唐揚げ角度の大きさをΘとする。また、第1モデルM1にフィードバックをかけた後(学習後)の検索クエリQ11の分散表現であるベクトルQV11と検索クエリQ12の分散表現であるベクトルQV12との唐揚げ角度の大きさをΦとする。この時、生成部523は、ΘよりもΦが小さくなるように、第1モデルM1を学習させる。例えば、生成部523は、ベクトルBQV11とベクトルBQV12のコサイン類似度の値を算出する。また、生成部523は、ベクトルQV11とベクトルQV12のコサイン類似度の値を算出する。続いて、生成部523は、ベクトルBQV11とベクトルBQV12のコサイン類似度の値よりも、ベクトルQV11とベクトルQV12のコサイン類似度の値が大きくなるように(値が1に近づくように)学習モデルM1を学習させる。このように、生成部523は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように第1モデルM1を学習させることで、検索クエリから分散表現(ベクトル)を出力する第1モデルM1を生成する。なお、生成部523は、コサイン類似度に限らず、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて分散表現(ベクトル)の間の類似度を算出してもよい。また、生成部523は、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて学習モデルM1を学習させてもよい。例えば、生成部523は、分散表現(ベクトル)同士のユークリッド距離や双曲空間等の非ユークリッド空間中での距離、マンハッタン距離、マハラノビス距離等といった所定の距離関数の値を算出する。続いて、生成部523は、分散表現(ベクトル)同士の所定の距離関数の値(すなわち、分散表現空間における距離)が小さくなるように学習モデルM1を学習させてもよい。
また、生成部523は、同一のユーザによって所定の時間内に入力された複数の検索クエリとして、所定の区切り文字で区切られた文字情報を含む複数の検索クエリが類似する特徴を有するものとして学習することで、第1モデルを生成する。例えば、生成部523は、地名を示す「六本木」と食品の種類を示す「パスタ」の文字とが区切り文字であるスペースで区切られた検索クエリ「六本木 パスタ」と、地名を示す「六本木」と料理の種類を示す「イタリアン」の文字とが区切り文字であるスペースで区切られた検索クエリ「六本木 イタリアン」とが類似する特徴を有するものとして学習することで、第1モデルを生成する。
また、生成部523は、取得部521によって取得された検索クエリのうち、ランダムに抽出された複数の検索クエリが相違する特徴を有するものとして学習することで、第1モデルを生成する。具体的には、生成部523は、取得部521によって取得された検索クエリのうち、ランダムに抽出された一対の検索クエリの分散表現が相違するように学習することで、第1モデルを生成する。例えば、生成部523は、抽出部522によって抽出された所定の検索クエリの分散表現と、所定の検索クエリとは無関係にランダムに抽出された検索クエリの分散表現とが分散表現空間上で遠くにマッピングされるように第1モデルM1のトレーニングを行う。
〔7.第1モデルの生成処理のフロー〕
次に、図14を用いて、実施形態に係る第1モデルの生成処理の手順について説明する。図14は、実施形態に係る第1モデルの生成処理手順を示すフローチャートである。
図14に示す例では、生成装置50は、ユーザによって入力された検索クエリを取得する(ステップS1001)。
続いて、生成装置50は、同一のユーザによって所定の時間内に入力された複数の検索クエリを抽出する(ステップS1002)。
続いて、生成装置50は、抽出した複数の検索クエリが類似する特徴を有するものとして学習することで、所定の検索クエリから所定の検索クエリの特徴情報を予測する第1モデルを生成する(ステップS1003)。
〔8.効果〕
上述してきたように、実施形態に係る特定装置100は、取得部131と特定部133を有する。取得部131は、利用者が入力した検索クエリを取得する。特定部133は、取得部131により取得された検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性に基づいて、取得部131により取得された検索クエリと所定の関連性を有する他の検索クエリを特定する。
これにより、特定装置100は、検索クエリを利用者が入力した際の検索意図の類似性に基づいて、検索クエリが示す分析対象を所望する利用者に提案する他の対象を適切に選択することができる。したがって、特定装置100は、有用な情報を得ることができる。
また、取得部131は、それぞれ異なる取引対象の組を示す検索クエリを取得する。特定部133は、検索クエリとして入力された際の検索意図が取得部131により取得された検索クエリが示す取引対象の組と類似する他の取引対象の組を示す他の検索クエリを特定する。
これにより、特定装置100は、それぞれ異なる取引対象の組を示す検索クエリが示す取引対象の組(例えば、「お酒 枝豆」)に関する情報を所望する利用者に提案する他の取引対象の組(例えば、「ビール 刺身」)に関する情報を適切に選択することができる。
また、特定部133は、検索クエリとして入力された際の検索意図が取得部131により取得された検索クエリが示す取引対象の組と類似する他の取引対象の組を示す他の検索クエリを特定し、特定した他の検索クエリが示す組に含まれる取引対象の共通性に基づいて、取得部131により取得された検索クエリが示す組に含まれる第1取引対象と所定の関連性を有する第1関連取引対象を特定する。また、特定部133は、検索クエリとして入力された際の検索意図が取得部131により取得された検索クエリが示す取引対象の組と類似する他の取引対象の組を示す他の検索クエリを特定し、特定した他の検索クエリが示す組に含まれる数が所定の条件を満たす取引対象を取得部131により取得された検索クエリが示す組に含まれる第1取引対象と所定の関連性を有する第1関連取引対象として特定する。また、特定部133は、特定部は、第1関連取引対象を第1取引対象の代替品として特定する。
これにより、特定装置100は、検索クエリが示す取引対象の組(例えば、「お酒 枝豆」)に含まれる第1取引対象(例えば、「お酒」)に関する情報を所望する利用者に提案する他の取引対象(例えば、「ビール」)に関する情報を適切に選択することができる。
また、特定部133は、特定した第1関連取引対象を含む組を示す他の検索クエリを特定する。また、特定部133は、第1関連取引対象を含む組を示す他の検索クエリを特定し、特定した他の検索クエリが示す組に含まれる取引対象のうち、第1関連取引対象とは異なる取引対象を、取得部131により取得された検索クエリが示す組に含まれる取引対象のうち、第1取引対象とは異なる第2取引対象と所定の関連性を有する第2関連取引対象として特定する。また、特定部133は、第2関連取引対象を第2取引対象の代替品として特定する。
これにより、特定装置100は、検索クエリが示す取引対象の組(例えば、「お酒 枝豆」)に含まれる第1取引対象(例えば、「お酒」)とは異なる第2取引対象(例えば、「枝豆」)に関する情報を所望する利用者に提案する他の取引対象(例えば、「刺身」)に関する情報を適切に選択することができる。
また、実施形態に係る特定装置100は、算出部132をさらに有する。算出部132は、取得部131により取得された検索クエリを利用者が入力した際の検索意図と、他の検索クエリを利用者が入力した際の検索意図との類似性を示すスコアを算出する。特定部133は、算出部132によって算出されたスコアに基づいて、取得部131により取得された検索クエリと所定の関連性を有する他の検索クエリを特定する。また、算出部132は、検索クエリとして入力された文字情報に対応する分散表現と他の検索クエリとして入力された他の文字情報に対応する分散表現との類似度をスコアとして算出する。また、特定部133は、算出部132によって算出されたスコアと所定の閾値との比較に基づいて、他の検索クエリを特定する。
これにより、特定装置100は、客観的な数値に基づいて、検索クエリが示す分析対象を所望する利用者に提案する他の対象を適切に選択することができる。
また、実施形態に係る特定装置100は、提供部134をさらに有する。提供部134は、取得部131により取得された検索クエリと特定部133によって特定された他の検索クエリとの比較に基づいて、取得部131により取得された検索クエリに関する情報を提供する。また、提供部134は、検索クエリに含まれる取引対象に関する所定の傾向に関する情報を提供する。また、提供部134は、検索クエリに含まれる取引対象に関連する商品又はサービスに関する提案情報を提供する。
これにより、特定装置100は、検索クエリを利用者が入力した際の検索意図の類似性に基づいて、検索クエリが示す分析対象を所望する利用者に提案する他の対象に関する情報や対象に関連する商品又はサービスに関する提案情報を適切に選択することができる。
〔9.ハードウェア構成〕
また、上述してきた実施形態に係る特定装置100または生成装置50は、例えば図15に示すような構成のコンピュータ1000によって実現される。図15は、特定装置100または生成装置50の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が特定装置100または生成装置50として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130または制御部52の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔10.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、特定部は、特定手段や特定回路に読み替えることができる。
1 特定システム
10 端末装置
20 検索サーバ
50 生成装置
100 特定装置
110 通信部
120 記憶部
121 利用者情報記憶部
122 モデル情報記憶部
130 制御部
131 取得部
132 算出部
133 特定部
134 提供部

Claims (12)

  1. 利用者が検索クエリとして入力した文字情報であって、それぞれ異なる取引対象を示す複数の文字列と前記複数の文字列を区切る所定の区切り文字とを含む文字情報を取得する取得部と、
    前記取得部により取得された文字情報に対応する分散表現と、他の検索クエリとして入力された他の文字情報であって、それぞれ異なる取引対象を示す複数の文字列と前記複数の文字列を区切る所定の区切り文字とを含む他の文字情報に対応する他の分散表現との類似性に基づいて、前記取得部により取得された文字情報と所定の関連性を有する他の文字情報を特定し、特定した当該他の文字情報が示す組に含まれる取引対象の共通性に基づいて、特定した当該他の文字情報が示す組に含まれる取引対象の中から、当該取得部により取得された文字情報が示す組に含まれる第1取引対象と所定の関連性を有する第1関連取引対象を特定する特定部と
    を有することを特徴とする特定装置。
  2. 前記特定部は、
    前記取得部により取得された文字情報に対応する分散表現と類似する他の分散表現に対応する他の文字情報を特定し、特定した当該他の文字情報が示す組に含まれる数が所定の条件を満たす取引対象を当該取得部により取得された文字情報が示す組に含まれる第1取引対象と所定の関連性を有する第1関連取引対象として特定する
    ことを特徴とする請求項1に記載の特定装置。
  3. 前記特定部は、
    前記第1関連取引対象を前記第1取引対象の代替品として特定する
    ことを特徴とする請求項またはに記載の特定装置。
  4. 前記特定部は、
    前記第1関連取引対象を含む組を示す前記他の文字情報を特定し、特定した当該他の文字情報が示す組に含まれる取引対象のうち、当該第1関連取引対象とは異なる取引対象を、前記取得部により取得された文字情報が示す組に含まれる取引対象のうち、前記第1取引対象とは異なる第2取引対象と所定の関連性を有する第2関連取引対象として特定する
    ことを特徴とする請求項のいずれか一つに記載の特定装置。
  5. 前記特定部は、
    前記第2関連取引対象を前記第2取引対象の代替品として特定する
    ことを特徴とする請求項に記載の特定装置。
  6. 前記取得部により取得された文字情報に対応する分散表現と、前記他の文字情報に対応する他の分散表現との類似度を算出する算出部をさらに有し、
    前記特定部は、
    前記算出部によって算出された類似度に基づいて、前記取得部により取得された文字情報と所定の関連性を有する他の文字情報を特定する
    ことを特徴とする請求項1〜のいずれか一つに記載の特定装置。
  7. 前記特定部は、
    前記算出部によって算出された類似度と所定の閾値との比較に基づいて、前記他の文字情報を特定する
    ことを特徴とする請求項に記載の特定装置。
  8. 前記取得部により取得された文字情報と前記特定部によって特定された他の文字情報との比較に基づいて、前記取得部により取得された文字情報に関する情報を提供する提供部
    をさらに有することを特徴とする請求項1〜のいずれか一つに記載の特定装置。
  9. 前記提供部は、
    前記文字情報に含まれる取引対象に関する所定の傾向に関する情報を提供する
    ことを特徴とする請求項に記載の特定装置。
  10. 前記提供部は、
    前記文字情報に含まれる取引対象に関連する商品又はサービスに関する提案情報を提供する
    ことを特徴とする請求項またはに記載の特定装置。
  11. コンピュータが実行する特定方法であって、
    利用者が検索クエリとして入力した文字情報であって、それぞれ異なる取引対象を示す複数の文字列と前記複数の文字列を区切る所定の区切り文字とを含む文字情報を取得する取得工程と、
    前記取得工程により取得された文字情報に対応する分散表現と、他の検索クエリとして入力された他の文字情報であって、それぞれ異なる取引対象を示す複数の文字列と前記複数の文字列を区切る所定の区切り文字とを含む他の文字情報に対応する他の分散表現との類似性に基づいて、前記取得工程により取得された文字情報と所定の関連性を有する他の文字情報を特定し、特定した当該他の文字情報が示す組に含まれる取引対象の共通性に基づいて、特定した当該他の文字情報が示す組に含まれる取引対象の中から、当該取得工程により取得された文字情報が示す組に含まれる第1取引対象と所定の関連性を有する第1関連取引対象を特定する特定工程と
    を含むことを特徴とする特定方法。
  12. 利用者が検索クエリとして入力した文字情報であって、それぞれ異なる取引対象を示す複数の文字列と前記複数の文字列を区切る所定の区切り文字とを含む文字情報を取得する取得手順と、
    前記取得手順により取得された文字情報に対応する分散表現と、他の検索クエリとして入力された他の文字情報であって、それぞれ異なる取引対象を示す複数の文字列と前記複数の文字列を区切る所定の区切り文字とを含む他の文字情報に対応する他の分散表現との類似性に基づいて、前記取得手順により取得された文字情報と所定の関連性を有する他の文字情報を特定し、特定した当該他の文字情報が示す組に含まれる取引対象の共通性に基づいて、特定した当該他の文字情報が示す組に含まれる取引対象の中から、当該取得手順により取得された文字情報が示す組に含まれる第1取引対象と所定の関連性を有する第1関連取引対象を特定する特定手順と
    をコンピュータに実行させることを特徴とする特定プログラム。
JP2019099738A 2019-05-28 2019-05-28 特定装置、特定方法及び特定プログラム Active JP6852114B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019099738A JP6852114B2 (ja) 2019-05-28 2019-05-28 特定装置、特定方法及び特定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019099738A JP6852114B2 (ja) 2019-05-28 2019-05-28 特定装置、特定方法及び特定プログラム

Publications (2)

Publication Number Publication Date
JP2021005117A JP2021005117A (ja) 2021-01-14
JP6852114B2 true JP6852114B2 (ja) 2021-03-31

Family

ID=74097705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019099738A Active JP6852114B2 (ja) 2019-05-28 2019-05-28 特定装置、特定方法及び特定プログラム

Country Status (1)

Country Link
JP (1) JP6852114B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022249478A1 (ja) 2021-05-28 2022-12-01

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8631004B2 (en) * 2009-12-28 2014-01-14 Yahoo! Inc. Search suggestion clustering and presentation
JP6124489B1 (ja) * 2016-08-01 2017-05-10 ヤフー株式会社 クエリ提供装置、クエリ提供方法、およびクエリ提供プログラム
JP6782591B2 (ja) * 2016-09-12 2020-11-11 ヤフー株式会社 推定装置、推定方法、及び推定プログラム

Also Published As

Publication number Publication date
JP2021005117A (ja) 2021-01-14

Similar Documents

Publication Publication Date Title
US11514333B2 (en) Combining machine-learning and social data to generate personalized recommendations
JP6864107B2 (ja) 検索結果を提供する方法及び装置
US20200110842A1 (en) Techniques to process search queries and perform contextual searches
US20230153870A1 (en) Unsupervised embeddings disentanglement using a gan for merchant recommendations
US9767417B1 (en) Category predictions for user behavior
US20220051143A1 (en) Machine learning system
US9767204B1 (en) Category predictions identifying a search frequency
US20220114187A1 (en) Techniques for searching using target applications
US10474670B1 (en) Category predictions with browse node probabilities
RU2744028C2 (ru) Способ и система для хранения множества документов
JP7108740B2 (ja) ショッピング検索のための商品カテゴリ抽出方法
US9201968B2 (en) System and method for finding mood-dependent top selling/rated lists
JP6679683B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6852114B2 (ja) 特定装置、特定方法及び特定プログラム
US10387934B1 (en) Method medium and system for category prediction for a changed shopping mission
JP7071304B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2016118156A1 (en) Visually interactive identification of a cohort of data objects similar to a query object based on domain knowledge
JP6982017B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6584613B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7177013B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7154253B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7044729B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6938569B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6728445B1 (ja) 抽出装置、抽出方法及び抽出プログラム
JP6865706B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191010

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191010

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191106

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201125

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20201125

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20201204

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20201208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210310

R150 Certificate of patent or registration of utility model

Ref document number: 6852114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250