JP7071304B2 - Information processing equipment, information processing methods and information processing programs - Google Patents
Information processing equipment, information processing methods and information processing programs Download PDFInfo
- Publication number
- JP7071304B2 JP7071304B2 JP2019020767A JP2019020767A JP7071304B2 JP 7071304 B2 JP7071304 B2 JP 7071304B2 JP 2019020767 A JP2019020767 A JP 2019020767A JP 2019020767 A JP2019020767 A JP 2019020767A JP 7071304 B2 JP7071304 B2 JP 7071304B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- search
- search query
- information
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 218
- 238000003672 processing method Methods 0.000 title claims description 7
- 230000014509 gene expression Effects 0.000 claims description 130
- 238000000605 extraction Methods 0.000 claims description 120
- 239000000284 extract Substances 0.000 claims description 82
- 238000004364 calculation method Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 description 229
- 238000000034 method Methods 0.000 description 58
- 238000010586 diagram Methods 0.000 description 37
- 235000015927 pasta Nutrition 0.000 description 37
- 101001111655 Homo sapiens Retinol dehydrogenase 11 Proteins 0.000 description 35
- 102100023916 Retinol dehydrogenase 11 Human genes 0.000 description 35
- 230000008569 process Effects 0.000 description 31
- 238000012545 processing Methods 0.000 description 21
- 230000009471 action Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 230000006399 behavior Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 8
- 101710114762 50S ribosomal protein L11, chloroplastic Proteins 0.000 description 6
- 235000013305 food Nutrition 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 101710156159 50S ribosomal protein L21, chloroplastic Proteins 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003825 pressing Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101710082414 50S ribosomal protein L12, chloroplastic Proteins 0.000 description 1
- 101710087140 50S ribosomal protein L22, chloroplastic Proteins 0.000 description 1
- 101100494773 Caenorhabditis elegans ctl-2 gene Proteins 0.000 description 1
- 101100112369 Fasciola hepatica Cat-1 gene Proteins 0.000 description 1
- 101100005271 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cat-1 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。 The present invention relates to an information processing apparatus, an information processing method and an information processing program.
従来、ユーザの興味や関心にあった物品やサービスを推薦する技術が知られている。例えば、入力された自然言語要求を意味解析して、ユーザの意図を含む分脈情報を生成する。そして、生成した文脈情報に基づいて、ユーザに提示するアイテムの候補に対する順位付けを行う技術が提案されている。 Conventionally, techniques for recommending goods and services that are of interest to users have been known. For example, the input natural language request is semantically analyzed to generate segment information including the user's intention. Then, a technique for ranking the candidate items to be presented to the user based on the generated context information has been proposed.
しかしながら、上記の従来技術では、ユーザに対して適切な情報を推薦することができるとは限らない。例えば、上記の従来技術では、入力された自然言語要求を意味解析して、文脈情報を生成するにすぎず、ユーザに対して適切な情報を推薦することができるとは限らない。 However, in the above-mentioned conventional technique, it is not always possible to recommend appropriate information to the user. For example, in the above-mentioned prior art, the input natural language request is semantically analyzed to generate contextual information, and it is not always possible to recommend appropriate information to the user.
本願は、上記に鑑みてなされたものであって、ユーザに対して適切な情報を推薦することができる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。 The present application has been made in view of the above, and an object of the present application is to provide an information processing apparatus, an information processing method, and an information processing program capable of recommending appropriate information to a user.
本願に係る情報処理装置は、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして、前記複数の検索クエリが有する特徴を学習した学習モデルを用いて、所定のクエリの特徴を示す特徴情報を抽出する抽出部と、前記抽出部によって抽出された特徴情報に基づいて、前記所定のクエリを入力したユーザに対して推薦する推薦情報を決定する決定部を備えたことを特徴とする。 The information processing apparatus according to the present application uses a learning model in which the characteristics of the plurality of search queries are learned, assuming that the plurality of search queries input by the same user within a predetermined time have similar characteristics. An extraction unit that extracts feature information indicating the characteristics of a predetermined query, and a determination unit that determines recommended information to be recommended to a user who has input the predetermined query based on the feature information extracted by the extraction unit. It is characterized by being prepared.
実施形態の一態様によれば、ユーザに対して適切な情報を推薦することができるといった効果を奏する。 According to one aspect of the embodiment, there is an effect that appropriate information can be recommended to the user.
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。 Hereinafter, an information processing apparatus, an information processing method, and an embodiment for implementing an information processing program (hereinafter referred to as “embodiments”) according to the present application will be described in detail with reference to the drawings. Note that this embodiment does not limit the information processing apparatus, information processing method, and information processing program according to the present application. Further, in each of the following embodiments, the same parts are designated by the same reference numerals, and duplicate description will be omitted.
〔1.第1の実施形態〕
〔1-1.情報処理の一例〕
まず、図1を用いて、第1の実施形態に係る情報処理の一例について説明する。図1は、第1の実施形態に係る情報処理の一例を示す図である。図1に示す情報処理は、ユーザ端末10と検索サーバ20(図2参照)と生成装置50(図2参照)と情報処理装置100とによって行われる。
[1. First Embodiment]
[1-1. An example of information processing]
First, an example of information processing according to the first embodiment will be described with reference to FIG. FIG. 1 is a diagram showing an example of information processing according to the first embodiment. The information processing shown in FIG. 1 is performed by the
ユーザ端末10は、ユーザによって使用される情報処理装置である。ユーザ端末10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。なお、以下では、ユーザ端末10をユーザと同一視する場合がある。すなわち、以下では、ユーザをユーザ端末10と読み替えることもできる。
The
また、以下では、ユーザID「U11」により特定されるユーザを「ユーザU11」とする場合がある。このように、以下では、「ユーザU*(*は任意の数値)」と記載した場合、そのユーザはユーザID「U*」により特定されるユーザであることを示す。例えば、「ユーザU21」と記載した場合、そのユーザはユーザID「U21」により特定されるユーザである。 Further, in the following, the user specified by the user ID "U11" may be referred to as "user U11". As described above, in the following, when "user U * (* is an arbitrary numerical value)" is described, it means that the user is a user specified by the user ID "U *". For example, when "user U21" is described, the user is a user specified by the user ID "U21".
また、以下では、ユーザ端末10を利用するユーザに応じて、ユーザ端末10をユーザ端末10-1、10-2として説明する場合がある。例えば、ユーザ端末10-1は、ユーザU11により使用されるユーザ端末10である。また、例えば、ユーザ端末10-2は、ユーザU21により使用されるユーザ端末10である。また、以下では、ユーザ端末10-1、10-2について、特に区別なく説明する場合には、ユーザ端末10と記載する。
Further, in the following, the
検索サーバ20(図2参照)は、検索サービスを提供するサーバ装置である。例えば、検索サーバ20が提供する検索サービスは、あらゆる情報を検索可能な総合検索サービスである。検索サーバ20は、ユーザによって入力された検索クエリに関する情報を記憶する。具体的には、検索サーバ20は、ユーザの検索履歴に関する情報を記憶する。
The search server 20 (see FIG. 2) is a server device that provides a search service. For example, the search service provided by the
生成装置50(図2参照)は、第1学習モデルを生成するサーバ装置である。ここでは、生成装置50による第1学習モデルの生成処理の概要を述べる。なお、生成装置50による第1学習モデルの生成処理の詳細は後述する。具体的には、生成装置50は、ユーザによって入力された検索クエリに関する情報を検索サーバ20から取得する。続いて、生成装置50は、検索サーバ20から取得した検索クエリのうち、同一のユーザによって所定の時間内に入力された複数の検索クエリを抽出する。ここで、生成装置50は、ユーザによる1回の検索ごとに検索ボックスに入力された文字列全体をユーザによって入力された一つの検索クエリとして取り扱う。例えば、生成装置50は、ユーザU1による1回の検索で検索ボックスに「六本木 パスタ」のように複数の文字列を含む検索クエリが入力された場合は、「六本木 パスタ」全体で一つの検索クエリとして取り扱う。また、生成装置50は、同一のユーザによって各検索クエリが入力された時間の間隔が所定の時間内(例えば、2分以内)であるような複数の検索クエリを同一のユーザによって所定の時間内に入力された複数の検索クエリとして抽出する。
The generation device 50 (see FIG. 2) is a server device that generates the first learning model. Here, the outline of the generation process of the first learning model by the
続いて、生成装置50は、抽出した複数の検索クエリが類似する特徴を有するものとして学習することで、所定の検索クエリから所定の検索クエリの特徴情報を予測する第1学習モデルを生成する。具体的には、生成装置50は、抽出した複数の検索クエリの分散表現が類似するように第1学習モデルを学習させることで、所定の検索クエリから所定の検索クエリの特徴情報を含む分散表現(ベクトル)を出力する第1学習モデルを生成する。より具体的には、生成装置50は、RNN(Recurrent Neural Network)の一種であるLSTM(Long Short-Term Memory)を分散表現生成に用いたDSSM(Deep Structured Semantic Model)の技術を用いて、検索クエリから分散表現(ベクトル)を出力する第1学習モデルを生成する。例えば、生成装置50は、第1学習モデルの正解データとして、同一のユーザによって所定の時間内に入力された一対の検索クエリが類似する特徴を有するものとして、所定の検索クエリの分散表現(ベクトル)と、所定の検索クエリと対となる他の検索クエリの分散表現(ベクトル)とが、分散表現空間上で近くに存在するように学習する。なお、2つのベクトルが分散表現空間上で近くに存在するように学習することは、2つのベクトルが分散表現空間上で類似するように学習することと言い換えることができる。
Subsequently, the
情報処理装置100は、不動産情報の検索サービス(以下、適宜「不動産情報検索サービスR1」と記載する。)を提供するサーバ装置である。情報処理装置100は、第1学習モデルのモデルデータを生成装置50から取得する。なお、以下では、第1学習モデルのモデルデータを単に第1学習モデルと記載する場合がある。情報処理装置100は、第1学習モデルを用いて、ユーザから受け付けた地名に対応する不動産エリアと類似する特徴を有する他の不動産エリアをお勧めエリアとして推薦する。
The
ここから、図1を用いて、情報処理の流れについて説明する。図1では、情報処理装置100は、第1学習モデルを用いて、全国各地の地名や駅名を示す文字列(以下、適宜「地名クエリ」と記載する。)に対応する分散表現(ベクトル)を生成する(ステップS1)。図1右方に点線で示した吹き出しの中には、情報処理装置100が生成した地名クエリに対応する分散表現(ベクトル)が分散表現空間にマッピングされる様子が示されている。例えば、地名クエリ「地名#11」に対応する分散表現(ベクトル)を示す点と地名クエリ「地名#12」~「地名#14」に対応する分散表現(ベクトル)を示す点とは、分散表現空間上で相対的に近くに位置する様子が示されている。すなわちこの図は、地名クエリ「地名#11」と地名クエリ「地名#12」~「地名#14」とは、類似する特徴を有することを意味する。一方、地名クエリ「地名#11」に対応する分散表現(ベクトル)を示す点と地名クエリ「地名#21」~「地名#22」に対応する分散表現(ベクトル)を示す点とは、分散表現空間上で相対的に遠くに存在する様子が示されている。すなわちこの図は、地名クエリ「地名#11」と地名クエリ「地名#21」~「地名#22」とは、相違する特徴を有することを意味する。なお、図1では、説明のため、地名クエリを「地名#11」のように抽象的な記号で表現するが、本願発明を実施する際には、地名クエリには「武蔵小杉」や「吉祥寺」といった具体的な駅名や「港区」や「東京都」といった具体的な地名が用いられる。
From here, the flow of information processing will be described with reference to FIG. In FIG. 1, the
また、情報処理装置100は、知りたい街を検索する検索クエリを入力するための検索ボックスを含むコンテンツC11を介して、地名クエリ「地名#11」をユーザU11から受け付ける(ステップS2)。続いて、情報処理装置100は、地名クエリ「地名#11」を受け付けると、あらかじめ生成しておいた地名クエリ「地名#11」に対応する分散表現(ベクトル)と地名クエリ「地名#11」以外の他の地名クエリに対応する分散表現(ベクトル)との類似度を算出する(ステップS3)。なお、情報処理装置100は、地名クエリを受け付ける度に類似度を計算するのでなく、あらかじめ地名クエリ同士の類似度を算出してもよい。続いて、情報処理装置100は、類似度を算出すると、算出した類似度が所定の閾値を超えるか否かを判定する。続いて、情報処理装置100は、類似度が所定の閾値を超えると判定した場合に、地名クエリ「地名#11」と類似する特徴を有する類似クエリとして、他の地名クエリを抽出する(ステップS4)。
Further, the
例えば、情報処理装置100は、地名クエリ「地名#11」に対応する分散表現(ベクトル)と地名クエリ「地名#12」に対応する分散表現(ベクトル)との類似度を0.9と算出する。続いて、情報処理装置100は、地名クエリ「地名#11」に対応する分散表現(ベクトル)と地名クエリ「地名#12」に対応する分散表現(ベクトル)との類似度が所定の閾値(例えば、0.8)を超えるか否かを判定する。例えば、情報処理装置100は、類似度である0.9が所定の閾値である0.8を超えるので、地名クエリ「地名#11」の類似クエリとして、地名クエリ「地名#12」を抽出する。同様にして、情報処理装置100は、地名クエリ「地名#11」以外の他の地名クエリ全てについて、地名クエリ「地名#11」に対応する分散表現(ベクトル)との類似度を算出する。そして、情報処理装置100は、地名クエリ「地名#11」以外の他の地名クエリ全てについて、類似度が所定の閾値を超えるか否かを判定する。
For example, the
続いて、情報処理装置100は、類似クエリを抽出すると、類似クエリに基づいて、ユーザU11に対して推薦するお勧めエリアを決定する(ステップS5)。具体的には、情報処理装置100は、類似クエリとして抽出した地名クエリに対応する不動産エリアをお勧めエリアとして推薦することを決定する。例えば、情報処理装置100は、地名クエリ「地名#11」の類似クエリとして抽出した地名クエリ「地名#12」に対応する不動産エリアをユーザU11に対して推薦するお勧めエリアとして推薦することを決定する。なお、情報処理装置100は、類似クエリに対応する不動産エリアの中から、さらに類似度が上位所定数以内である地名クエリに対応する不動産エリアをお勧めエリアとして推薦することを決定してもよい。
Subsequently, when the
続いて、情報処理装置100は、お勧めエリアを決定すると、決定したお勧めエリアに関する情報(例えば、お勧めエリアの不動産物件の情報)をユーザU11に対して送信する(ステップS6)。
Subsequently, when the
上述したように、第1の実施形態に係る情報処理装置100は、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして、複数の検索クエリが有する特徴を学習した学習モデルを用いて、所定のクエリの特徴を示す特徴情報を抽出する。また、情報処理装置100は、抽出した特徴情報に基づいて、所定のクエリを入力したユーザに対して推薦する推薦情報を決定する。これにより、情報処理装置100は、所定の検索クエリに興味や関心を抱いたユーザに対して、所定の検索クエリの特徴を示す特徴情報に基づく情報を推薦可能とする。すなわち、情報処理装置100は、ユーザの興味や関心にマッチする情報を推薦可能とする。したがって、情報処理装置100は、ユーザに対して適切な情報を推薦することができる。
As described above, the
また、一般的に、検索サービスを訪れるユーザ等、特定の分野に興味や関心を抱いてはいるものの、その分野に関する知識が少ないユーザが検索によって知識を得ようとする場面においては、適切な検索クエリが思いつかないという課題がある。本願発明に係る情報処理装置100は、入力する検索クエリに対する知識が少ないユーザが入力した検索クエリに基づいて、検索意図に応じた適切な検索クエリに基づく推薦情報を推薦することができる。したがって、情報処理装置100は、ユーザに対して適切な情報を推薦することができる。
Also, in general, an appropriate search is performed when a user who has an interest or interest in a specific field, such as a user who visits a search service, but has little knowledge about that field tries to obtain knowledge by searching. The problem is that I can't think of a query. The
また、従来、概念検索に関する技術が知られている。例えば、ユーザの行動のログから概念を構築する技術が知られている。例えば、クーラーをつけるという行為と気温との相関に着目して、ユーザがクーラーをつけたという行動のログから暑い(気温が高い)という概念(例えば、検索クエリ)を構築する技術が知られている。しかしながら、従来は、クーラーをつけるという行為と暑い(気温が高い)という概念が関連するというルールを人間が登録していた(ルールベース)。また、ルールベースに寄らず、機械学習を用いた場合は、人手で大量のクエリについてラベル付けをするなどして学習データを作成する必要があった。そのため、従来は、狭義のクエリの概念検索を行うことしかできなかった。すなわち、従来は、人間によってあらかじめ答えとなる概念が付与されたクエリ(狭義のクエリ)の概念検索しか行うことができなかった。そこで、本願発明に係る情報処理装置100は、人手で大量のクエリについてラベル付けしたりすることなく、ユーザの検索セッションにおけるクエリ列をモデル化する。これにより、本願発明に係る情報処理装置100は、ごく少数のユーザによってしか検索されないようなニッチなクエリ(ロングテールなクエリ)についても、クエリと検索意図とを結び付けて学習することができる。すなわち、本願発明に係る情報処理装置100は、ユーザが自由に入力するようなニッチなクエリをもカバーする広義のクエリの概念検索を行うことができる。したがって、情報処理装置100は、ユーザに対して適切な情報を推薦することができる。
Further, conventionally, a technique related to concept search is known. For example, a technique for constructing a concept from a log of user behavior is known. For example, a technique is known that focuses on the correlation between the act of turning on the air conditioner and the temperature, and constructs the concept of hot (for example, a search query) from the log of the action of the user turning on the cooler. There is. However, in the past, humans have registered a rule that the act of turning on an air conditioner is related to the concept of being hot (high temperature) (rule base). In addition, when machine learning was used without relying on the rule base, it was necessary to manually label a large number of queries to create learning data. Therefore, in the past, it was only possible to perform a concept search for queries in a narrow sense. That is, in the past, it was only possible to perform a concept search for a query (query in a narrow sense) to which a human has given a concept to be an answer in advance. Therefore, the
〔1-2.情報処理システムの構成〕
次に、図2を用いて、第1の実施形態に係る情報処理システムの構成について説明する。図2は、第1の実施形態に係る情報処理システムの構成例を示す図である。図2に示すように、情報処理システム1には、ユーザ端末10と、検索サーバ20と、生成装置50と、情報処理装置100とが含まれる。ユーザ端末10と、検索サーバ20と、生成装置50と、情報処理装置100とは所定のネットワークNを介して、有線または無線により通信可能に接続される。なお、図2に示す情報処理システム1には、任意の数のユーザ端末10と任意の数の検索サーバ20と任意の数の生成装置50と任意の数の情報処理装置100とが含まれてもよい。
[1-2. Information processing system configuration]
Next, the configuration of the information processing system according to the first embodiment will be described with reference to FIG. FIG. 2 is a diagram showing a configuration example of the information processing system according to the first embodiment. As shown in FIG. 2, the
ユーザ端末10は、ユーザによって入力された検索クエリを検索サーバ20に送信する。具体的には、ユーザ端末10は、ユーザによる操作に従って、検索クエリを入力するための検索ボックスを含む検索ページを検索サーバ20から取得する。続いて、ユーザ端末10は、ユーザによって検索ボックスに文字が入力される操作に続いて、検索クエリを送信する操作が行われると、検索ページを介して検索ボックスに入力された文字を検索クエリとして検索サーバ20に送信する。例えば、ユーザ端末10は、ユーザによって検索ボックスに文字が入力される操作に続いて、検索クエリの送信ボタンが押下される操作やエンターキーが押下される操作が行われると、検索ページを介して検索ボックスに入力された文字を検索クエリとして検索サーバ20に送信する。
The
検索サーバ20は、ユーザ端末10から検索クエリを受け付けると、受け付けた検索クエリに応じたコンテンツであって、検索結果として出力されるコンテンツを選択する。続いて、検索サーバ20は、選択されたコンテンツを含む検索結果ページをユーザ端末10に配信する。ここで、検索サーバ20によって配信されるコンテンツは、ウェブブラウザによって表示されるウェブページに限られない。例えば、検索サーバ20によって配信されるコンテンツは、ユーザ端末10にインストールされた専用のアプリケーションによって表示されるコンテンツであってもよい。また、検索サーバ20によって配信されるコンテンツは、音楽コンテンツや画像(静止画のみならず動画を含む。)コンテンツ、テキストコンテンツ(ニュース記事やSNS(Social Networking Service)に投稿された記事を含む。)、画像とテキストを組み合わせたコンテンツ、ゲームコンテンツなど、どのようなコンテンツであってもよい。
When the
また、検索サーバ20は、ユーザ端末10から検索クエリを受け付けると、受け付けた検索クエリと検索クエリの送信元であるユーザを識別するユーザIDと検索クエリの送信日時とを対応付けてデータベースに登録する。検索サーバ20は、生成装置50の要求に応じて、ユーザによって入力された検索クエリに関する情報を生成装置50に送信する。
Further, when the
生成装置50は、後述する処理を実行することにより、第1学習モデルを生成する。生成装置50による第1学習モデルの生成処理の詳細は後述する。
The
また、ユーザ端末10は、ユーザによって入力された検索クエリを情報処理装置100に送信する。具体的には、ユーザ端末10は、ユーザによる操作に従って、知りたい街を検索する検索クエリを入力するための検索ボックスを含むコンテンツC11を情報処理装置100から取得する。続いて、ユーザ端末10は、ユーザによって検索ボックスに文字が入力される操作に続いて、検索クエリを送信する操作が行われると、コンテンツC11を介して検索ボックスに入力された地名や駅名といった文字を検索クエリとして情報処理装置100に送信する。例えば、ユーザ端末10は、ユーザによって検索ボックスに文字が入力される操作に続いて、検索クエリの送信ボタンが押下される操作やエンターキーが押下される操作が行われると、コンテンツC11を介して検索ボックスに入力された文字を検索クエリとして情報処理装置100に送信する。
Further, the
情報処理装置100は、図1で説明した情報処理を行うサーバ装置である。情報処理装置100は、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて、所定のクエリの特徴を示す特徴情報として、所定のクエリと類似する特徴を有する検索クエリである類似クエリを抽出する。また、情報処理装置100は、抽出した特徴情報である類似クエリに基づいて、所定のクエリを入力したユーザに対して推薦する推薦情報を決定する。
The
〔1-3.情報処理装置の構成〕
次に、図3を用いて、第1の実施形態に係る情報処理装置100の構成について説明する。図3は、第1の実施形態に係る情報処理装置100の構成例を示す図である。図3に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示させるための表示部(例えば、液晶ディスプレイ等)を有してもよい。
[1-3. Information processing device configuration]
Next, the configuration of the
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば、ユーザ端末10と検索サーバ20と生成装置50との間で情報の送受信を行う。
(Communication unit 110)
The communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. Then, the communication unit 110 is connected to the network by wire or wirelessly, and for example, information is transmitted / received between the
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、図3に示すように、モデル情報記憶部121とベクトル情報記憶部122と検索情報記憶部123とコンテンツ記憶部124を有する。
(Memory unit 120)
The storage unit 120 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. As shown in FIG. 3, the storage unit 120 includes a model
(モデル情報記憶部121)
モデル情報記憶部121は、生成装置50によって生成された学習モデルに関する各種の情報を記憶する。図4に、第1の実施形態に係るモデル情報記憶部の一例を示す。図4に示す例では、モデル情報記憶部121は、「モデルID」、「モデルデータ」といった項目を有する。
(Model information storage unit 121)
The model
「モデルID」は、生成装置50によって生成された学習モデルを識別するための識別情報を示す。「モデルデータ」は、生成装置50によって生成された学習モデルのモデルデータを示す。例えば、「モデルデータ」には、検索クエリを分散表現に変換するためのデータが格納される。
The "model ID" indicates identification information for identifying the learning model generated by the
図4の1レコード目に示す例では、モデルID「M1」で識別される学習モデルは、図1に示した第1学習モデルM1に対応する。また、モデルデータ「MDT1」は、生成装置50によって生成された第1学習モデルM1のモデルデータ(モデルデータMDT1)を示す。
In the example shown in the first record of FIG. 4, the learning model identified by the model ID “M1” corresponds to the first learning model M1 shown in FIG. Further, the model data "MDT1" indicates model data (model data MDT1) of the first learning model M1 generated by the
モデルデータMDT1は、検索クエリが入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された検索クエリに応じて、入力層に入力された検索クエリの分散表現を出力層から出力するよう、生成装置50を機能させてもよい。
The model data MDT1 includes an input layer into which a search query is input, an output layer, a first element which is any layer from the input layer to the output layer and belongs to a layer other than the output layer, and the first element and the first element. The output layer outputs a distributed representation of the search query input to the input layer according to the search query input to the input layer, including the second element whose value is calculated based on the weight of one element. As such, the
ここで、モデルデータMDT1が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。 Here, it is assumed that the model data MDT1 is realized by the regression model shown by "y = a1 * x1 + a2 * x2 + ... + ai * xi". In this case, the first element included in the model data MDT1 corresponds to input data (xi) such as x1 and x2. Further, the weight of the first element corresponds to the coefficient ai corresponding to xi. Here, the regression model can be regarded as a simple perceptron having an input layer and an output layer. When each model is regarded as a simple perceptron, the first element corresponds to any node of the input layer, and the second element can be regarded as the node of the output layer.
また、モデルデータMDT1がDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。 Further, it is assumed that the model data MDT1 is realized by a neural network having one or a plurality of intermediate layers such as DNN (Deep Neural Network). In this case, the first element included in the model data MDT1 corresponds to either the node of the input layer or the intermediate layer. Further, the second element corresponds to a node in the next stage, which is a node to which a value is transmitted from a node corresponding to the first element. Further, the weight of the first element corresponds to a connection coefficient which is a weight considered for the value transmitted from the node corresponding to the first element to the node corresponding to the second element.
生成装置50は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルを用いて、分散表現の算出を行う。具体的には、モデルデータMDT1は、検索クエリが入力された場合に、分散表現を出力するように係数が設定される。生成装置50は、このようなモデルデータMDT1を用いて、分散表現を算出する。
The
なお、上記例では、モデルデータMDT1が、検索クエリが入力された場合に、検索クエリの分散表現を出力するモデル(以下、モデルX1という。)である例を示した。しかし、実施形態に係るモデルデータMDT1は、モデルX1にデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。例えば、モデルデータMDT1は、検索クエリを入力とした際に、モデルX1が出力した分散表現を入力して学習されたモデル(以下、モデルY1という。)であってもよい。または、モデルデータMDT1は、検索クエリを入力とし、モデルY1の出力値を出力とするよう学習されたモデルであってもよい。 In the above example, the model data MDT1 is a model (hereinafter referred to as model X1) that outputs a distributed representation of the search query when the search query is input. However, the model data MDT1 according to the embodiment may be a model generated based on the result obtained by repeating the input / output of data to the model X1. For example, the model data MDT1 may be a model (hereinafter referred to as model Y1) learned by inputting the distributed representation output by the model X1 when the search query is input. Alternatively, the model data MDT1 may be a model trained to input a search query and output the output value of the model Y1.
また、生成装置50がGAN(Generative Adversarial Networks)を用いた推定処理を行う場合、モデルデータMDT1は、GANの一部を構成するモデルであってもよい。
Further, when the
(ベクトル情報記憶部122)
ベクトル情報記憶部122は、検索クエリの分散表現であるベクトルに関する各種の情報を記憶する。図5に、第1の実施形態に係るベクトル情報記憶部の一例を示す。図5に示す例では、ベクトル情報記憶部122は、「検索クエリ」、「ベクトル情報」といった項目を有する。
(Vector information storage unit 122)
The vector information storage unit 122 stores various information related to the vector, which is a distributed representation of the search query. FIG. 5 shows an example of the vector information storage unit according to the first embodiment. In the example shown in FIG. 5, the vector information storage unit 122 has items such as “search query” and “vector information”.
「検索クエリ」は、ユーザによって入力された検索クエリを示す。「ベクトル情報」は、検索クエリの分散表現であるN次元のベクトルを示す。検索クエリの分散表現であるベクトルは、例えば、128次元のベクトルである。 A "search query" indicates a search query entered by the user. "Vector information" indicates an N-dimensional vector which is a distributed representation of a search query. The vector, which is a distributed representation of the search query, is, for example, a 128-dimensional vector.
図5の1レコード目に示す例では、検索クエリ「地名#11」は、図1に示した地名クエリ「地名#11」に対応する。また、ベクトル情報「V11」は、図1に示した地名クエリ「地名#11」に対応する分散表現(ベクトル)を示す。 In the example shown in the first record of FIG. 5, the search query "place name # 11" corresponds to the place name query "place name # 11" shown in FIG. Further, the vector information "V11" indicates a distributed expression (vector) corresponding to the place name query "place name # 11" shown in FIG.
(検索情報記憶部123)
検索情報記憶部123は、情報処理装置100が提供する不動産情報検索サービスR1におけるユーザの検索履歴に関する各種の情報を記憶する。図6に、第1の実施形態に係る検索情報記憶部の一例を示す。図6に示す例では、検索情報記憶部123は、「ユーザID」、「日時」、「検索クエリ」といった項目を有する。
(Search information storage unit 123)
The search
「ユーザID」は、検索クエリを入力したユーザを識別するための識別情報を示す。「日時」は、情報処理装置100がユーザから検索クエリを受け付けた日時を示す。「検索クエリ」は、ユーザによって入力された検索クエリを示す。
The "user ID" indicates identification information for identifying the user who entered the search query. The "date and time" indicates the date and time when the
図6の1レコード目に示す例では、検索クエリ「地名#11」は、図1に示した地名クエリ「地名#11」に対応する。また、ユーザID「U11」は、地名クエリ「地名#11」を入力したユーザがユーザID「U11」で識別されるユーザ(ユーザU11)であることを示す。また、日時「2019/1/1 PM17:00」は、情報処理装置100がユーザU11から地名クエリ「地名#11」を受け付けた日時が2019年1月1日の午後17:00であることを示す。
In the example shown in the first record of FIG. 6, the search query "place name # 11" corresponds to the place name query "place name # 11" shown in FIG. Further, the user ID "U11" indicates that the user who has entered the place name query "place name # 11" is the user (user U11) identified by the user ID "U11". Further, the date and time "2019/1/1 PM 17:00" means that the date and time when the
(コンテンツ記憶部124)
コンテンツ記憶部124は、コンテンツに関する各種の情報を記憶する。具体的には、コンテンツ記憶部124は、情報処理装置100が提供する不動産情報検索サービスR1に関するコンテンツを格納する。例えば、コンテンツ記憶部124は、図1に示す知りたい街を検索する検索クエリを入力するための検索ボックスを含むコンテンツC11を格納する。
(Content storage unit 124)
The content storage unit 124 stores various information related to the content. Specifically, the content storage unit 124 stores the content related to the real estate information search service R1 provided by the
(制御部130)
図3の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(Control unit 130)
Returning to the description of FIG. 3, the
図3に示すように、制御部130は、取得部131と、生成部132と、提供部133と、算出部134と、抽出部135と、決定部136とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
As shown in FIG. 3, the
(取得部131)
取得部131は、第1学習モデルを取得する。より具体的には、取得部131は、生成装置50によって生成された第1学習モデルを生成装置50から取得する。取得部131は、第1学習モデルを取得すると、取得した第1学習モデルをモデル情報記憶部121に格納する。
(Acquisition unit 131)
The acquisition unit 131 acquires the first learning model. More specifically, the acquisition unit 131 acquires the first learning model generated by the
(生成部132)
生成部132は、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして、複数の検索クエリが有する特徴を学習した学習モデルを用いて、所定の検索クエリの分散表現を生成する。具体的には、生成部132は、取得部131によって取得された第1学習モデルに検索クエリを入力して、検索クエリに対応する分散表現(ベクトル)を生成する。例えば、生成部132は、全国各地の地名や駅名の一覧データをオープンデータベースや辞書等から取得する。このようにして、生成部132は、全国各地の地名や駅名を示す文字列である地名クエリを取得する。続いて、生成部132は、取得部131によって取得された第1学習モデルに地名クエリを入力して、地名クエリに対応する分散表現(ベクトル)を生成する。生成部132は、分散表現(ベクトル)を生成すると、生成した分散表現のベクトル情報を検索クエリと対応付けてベクトル情報記憶部122に格納する。
(Generation unit 132)
The generation unit 132 assumes that a plurality of search queries input by the same user within a predetermined time have similar characteristics, and uses a learning model that learns the characteristics of the plurality of search queries to obtain a predetermined search query. Generate a distributed representation of. Specifically, the generation unit 132 inputs a search query into the first learning model acquired by the acquisition unit 131, and generates a distributed expression (vector) corresponding to the search query. For example, the generation unit 132 acquires list data of place names and station names from all over the country from an open database, a dictionary, or the like. In this way, the generation unit 132 acquires a place name query which is a character string indicating a place name or a station name in various parts of the country. Subsequently, the generation unit 132 inputs a place name query to the first learning model acquired by the acquisition unit 131, and generates a distributed expression (vector) corresponding to the place name query. When the generation unit 132 generates the distributed expression (vector), the generated unit 132 stores the generated vector information of the distributed expression in the vector information storage unit 122 in association with the search query.
(提供部133)
提供部133は、不動産情報検索サービスR1を提供する。具体的には、提供部133は、不動産情報検索サービスR1に関するコンテンツをユーザ端末10に配信する。例えば、提供部133は、知りたい街を検索する検索クエリを入力するための検索ボックスを含むコンテンツC11を配信する。また、提供部133は、コンテンツC11を介して、検索クエリをユーザから受け付ける。例えば、提供部133は、地名クエリをユーザから受け付ける。提供部133は、ユーザから検索クエリを受け付けると、受け付けた検索クエリをクエリの受け付け日時とクエリの送信元であるユーザのユーザIDと対応付けて検索情報記憶部123に格納する。
(Providing Department 133)
The provision unit 133 provides the real estate information search service R1. Specifically, the providing unit 133 distributes the content related to the real estate information search service R1 to the
提供部133は、ユーザから受け付けた地名に対応する不動産エリアと類似する特徴を有する他の不動産エリアをお勧めエリアとして推薦するサービスを提供する。具体的には、提供部133は、決定部136によって決定されたお勧めエリアに関する情報をユーザ端末10に送信する。
The provision unit 133 provides a service of recommending another real estate area having characteristics similar to the real estate area corresponding to the place name received from the user as a recommended area. Specifically, the providing unit 133 transmits information regarding the recommended area determined by the determination unit 136 to the
(算出部134)
算出部134は、生成部132によって生成された所定の検索クエリの分散表現と、生成部132によって生成された所定の検索クエリとは異なる他の検索クエリの分散表現との類似度を算出する。具体的には、算出部134は、提供部133によって所定の検索クエリが受け付けられると、生成部132によってあらかじめ生成された所定の検索クエリに対応する分散表現(ベクトル)と受け付けた所定の検索クエリ以外の他の検索クエリに対応する分散表現(ベクトル)との類似度を算出する。例えば、算出部134は、分散表現(ベクトル)同士のコサイン類似度を算出する。なお、算出部134は、コサイン類似度に限らず、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて分散表現(ベクトル)の間の類似度を算出してもよい。例えば、算出部134は、分散表現(ベクトル)同士のユークリッド距離や双曲空間等の非ユークリッド空間中での距離、マンハッタン距離、マハラノビス距離等といった所定の距離関数の値を算出してもよい。なお、算出部134は、提供部133によって所定の検索クエリが受け付けられる度に類似度を計算するのでなく、あらかじめ検索クエリに対応する分散表現(ベクトル)同士の類似度を算出しておいてもよい。例えば、算出部134は、あらかじめ地名クエリに対応する分散表現(ベクトル)同士の類似度を算出する。
(Calculation unit 134)
The calculation unit 134 calculates the similarity between the distributed representation of the predetermined search query generated by the generation unit 132 and the distributed representation of another search query different from the predetermined search query generated by the generation unit 132. Specifically, when a predetermined search query is received by the providing unit 133, the calculation unit 134 receives a distributed expression (vector) corresponding to the predetermined search query generated in advance by the generating unit 132 and the predetermined search query. Calculate the similarity with the distributed representation (vector) corresponding to other search queries other than. For example, the calculation unit 134 calculates the cosine similarity between the distributed representations (vectors). The calculation unit 134 is not limited to the cosine similarity, and can calculate the similarity between the distributed representations (vectors) based on any index as long as it is an index applicable as a distance scale between vectors. good. For example, the calculation unit 134 may calculate the value of a predetermined distance function such as the Euclidean distance between distributed representations (vectors), the distance in a non-Euclidean space such as hyperbolic space, the Manhattan distance, the Mahalanobis distance, and the like. Note that the calculation unit 134 does not calculate the similarity every time a predetermined search query is received by the provision unit 133, but may calculate the similarity between the distributed expressions (vectors) corresponding to the search query in advance. good. For example, the calculation unit 134 calculates in advance the degree of similarity between the distributed expressions (vectors) corresponding to the place name query.
(抽出部135)
抽出部135は、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして、複数の検索クエリが有する特徴を学習した学習モデルを用いて、所定のクエリの特徴を示す特徴情報を抽出する。具体的には、抽出部135は、特徴情報として、所定のクエリと類似する特徴を有する検索クエリである類似クエリを抽出する。より具体的には、抽出部135は、算出部134によって分散表現(ベクトル)同士の類似度が算出されると、算出した類似度が所定の閾値を超えるか否かを判定する。例えば、算出部134によって算出された分散表現(ベクトル)同士のコサイン類似度が所定の閾値を超えるか否かを判定する。続いて、抽出部135は、算出部134によって算出された類似度が所定の閾値を超えると判定した場合に、所定の検索クエリと類似する特徴を有する類似クエリとして、他の地名クエリを抽出する。なお、算出部134は、分散表現(ベクトル)同士の所定の距離関数の値(すなわち、分散表現空間における距離)が所定の閾値を下回るか否かを判定してもよい。続いて、抽出部135は、算出部134によって算出された類似度が所定の閾値を下回ると判定した場合に、所定の検索クエリと類似する特徴を有する類似クエリとして、他の地名クエリを抽出する。
(Extractor 135)
Assuming that a plurality of search queries input by the same user within a predetermined time have similar characteristics, the extraction unit 135 uses a learning model that learns the characteristics of the plurality of search queries to obtain a predetermined query. Extract feature information that indicates features. Specifically, the extraction unit 135 extracts similar queries, which are search queries having characteristics similar to those of a predetermined query, as feature information. More specifically, when the similarity between the distributed expressions (vectors) is calculated by the calculation unit 134, the extraction unit 135 determines whether or not the calculated similarity exceeds a predetermined threshold value. For example, it is determined whether or not the cosine similarity between the distributed expressions (vectors) calculated by the calculation unit 134 exceeds a predetermined threshold value. Subsequently, the extraction unit 135 extracts another place name query as a similar query having characteristics similar to the predetermined search query when it is determined that the similarity calculated by the calculation unit 134 exceeds a predetermined threshold value. .. The calculation unit 134 may determine whether or not the value of a predetermined distance function between the distributed representations (vectors) (that is, the distance in the distributed representation space) is below a predetermined threshold value. Subsequently, the extraction unit 135 extracts another place name query as a similar query having characteristics similar to the predetermined search query when it is determined that the similarity calculated by the calculation unit 134 is below a predetermined threshold value. ..
また、抽出部135は、所定のクエリと属性が共通する類似クエリを抽出する。例えば、抽出部135は、所定のクエリと属性が共通する類似クエリとして、不動産エリアを示す所定のクエリと類似する特徴を有する検索クエリであって、不動産エリアを示す類似クエリを抽出する。 Further, the extraction unit 135 extracts a similar query having the same attributes as a predetermined query. For example, the extraction unit 135 extracts a search query having characteristics similar to a predetermined query indicating a real estate area as a similar query having the same attributes as a predetermined query, and extracts a similar query indicating the real estate area.
また、抽出部135は、入力情報として所定の検索クエリが入力された際に、出力情報として所定の検索クエリの分散表現を出力する学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135は、入力情報として所定の検索クエリが入力された際に、出力情報として所定の検索クエリの分散表現を出力する第1学習モデルを用いて、特徴情報として類似クエリを抽出する。 Further, the extraction unit 135 extracts feature information by using a learning model that outputs a distributed representation of the predetermined search query as output information when a predetermined search query is input as input information. For example, the extraction unit 135 extracts a similar query as feature information by using a first learning model that outputs a distributed representation of the predetermined search query as output information when a predetermined search query is input as input information. ..
また、抽出部135は、所定の時間内に続けて入力された一対の検索クエリの分散表現が類似するように学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135は、所定の時間内に続けて入力された一対の検索クエリの分散表現が類似するように学習することで、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて、特徴情報として類似クエリを抽出する。 Further, the extraction unit 135 uses a learning model that learns the characteristics of a plurality of search queries by learning so that the distributed expressions of a pair of search queries that are continuously input within a predetermined time are similar. Extract feature information. For example, the extraction unit 135 uses a first learning model that learns the characteristics of a plurality of search queries by learning so that the distributed expressions of a pair of search queries that are continuously input within a predetermined time are similar. Then, a similar query is extracted as feature information.
また、抽出部135は、同一のユーザによって所定の時間内に入力された複数の検索クエリとして、所定の区切り文字で区切られた文字列を含む複数の検索クエリが類似する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135は、同一のユーザによって所定の時間内に入力された複数の検索クエリとして、所定の区切り文字で区切られた文字列を含む複数の検索クエリが類似する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて、特徴情報として類似クエリを抽出する。 Further, the extraction unit 135 learns that a plurality of search queries including a character string separated by a predetermined delimiter have similar characteristics as a plurality of search queries input by the same user within a predetermined time. By doing so, feature information is extracted using a learning model that has learned the features of a plurality of search queries. For example, the extraction unit 135 learns that, as a plurality of search queries input by the same user within a predetermined time, a plurality of search queries including a character string separated by a predetermined delimiter have similar characteristics. By doing so, similar queries are extracted as feature information using the first learning model that has learned the features of the plurality of search queries.
また、抽出部135は、ランダムに抽出された複数の検索クエリが相違する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135は、ランダムに抽出された複数の検索クエリが相違する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて、特徴情報として類似クエリを抽出する。 Further, the extraction unit 135 extracts feature information using a learning model that has learned the features of the plurality of search queries by learning that the plurality of randomly extracted search queries have different features. .. For example, the extraction unit 135 uses a first learning model that learns the characteristics of a plurality of search queries by learning that a plurality of randomly extracted search queries have different characteristics, and uses the first learning model as feature information. Extract similar queries.
また、抽出部135は、ランダムに抽出された一対の検索クエリの分散表現が相違するように学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135は、ランダムに抽出された一対の検索クエリの分散表現が相違するように学習することで、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて、特徴情報として類似クエリを抽出する。 Further, the extraction unit 135 extracts feature information using a learning model that has learned the features of a plurality of search queries by learning so that the distributed expressions of a pair of randomly extracted search queries are different. .. For example, the extraction unit 135 uses a first learning model that learns the features of a plurality of search queries by learning so that the distributed expressions of a pair of randomly extracted search queries are different, and uses the first learning model as feature information. Extract similar queries.
(決定部136)
決定部136は、抽出部135によって抽出された特徴情報に基づいて、所定のクエリを入力したユーザに対して推薦する推薦情報を決定する。具体的には、決定部136は、抽出部135によって抽出された類似クエリに基づいて、所定のクエリを入力したユーザに対して推薦する推薦情報を決定する。より具体的には、決定部136は、抽出部135によって抽出された類似クエリに基づいて、推薦情報である不動産エリアに関する情報を決定する。例えば、決定部136は、抽出部135によって抽出された類似クエリが示す不動産エリアをお勧めエリアとして推薦することを決定する。
(Decision unit 136)
The determination unit 136 determines the recommendation information to be recommended to the user who has input the predetermined query based on the feature information extracted by the extraction unit 135. Specifically, the determination unit 136 determines the recommendation information to be recommended to the user who has input the predetermined query based on the similar query extracted by the extraction unit 135. More specifically, the determination unit 136 determines the information regarding the real estate area, which is the recommendation information, based on the similar query extracted by the extraction unit 135. For example, the determination unit 136 determines to recommend the real estate area indicated by the similar query extracted by the extraction unit 135 as the recommended area.
〔1-4.生成処理のフロー〕
次に、図7を用いて、第1の実施形態に係る生成処理の手順について説明する。図7は、第1の実施形態に係る生成処理手順を示すフローチャートである。図7に示す例では、情報処理装置100は、検索クエリと第1学習モデルを取得する(ステップS101)。続いて、情報処理装置100は、検索クエリと第1学習モデルを取得すると、第1学習モデルを用いて、検索クエリの分散表現(ベクトル)を生成する(ステップS102)。
[1-4. Generation process flow]
Next, the procedure of the generation process according to the first embodiment will be described with reference to FIG. 7. FIG. 7 is a flowchart showing a generation processing procedure according to the first embodiment. In the example shown in FIG. 7, the
〔1-5.情報処理のフロー〕
次に、図8を用いて、第1の実施形態に係る情報処理の手順について説明する。図8は、第1の実施形態に係る情報処理手順を示すフローチャートである。図8に示す例では、情報処理装置100は、検索クエリを受け付けたか否かを判定する(ステップS201)。情報処理装置100は、検索クエリを受け付けていない場合(ステップS201;No)、検索クエリを受け付けるまで待機する。
[1-5. Information processing flow]
Next, the procedure of information processing according to the first embodiment will be described with reference to FIG. FIG. 8 is a flowchart showing an information processing procedure according to the first embodiment. In the example shown in FIG. 8, the
一方、情報処理装置100は、検索クエリを受け付けた場合(ステップS201;Yes)、検索クエリに対応する分散表現(ベクトル)同士の類似度を算出する(ステップS202)。具体的には、情報処理装置100は、受け付けた検索クエリに対応するベクトルと他の検索クエリに対応するベクトルとの類似度をベクトル毎に算出する。
On the other hand, when the
続いて、情報処理装置100は、ベクトル同士の類似度を算出すると、算出した類似度が所定の閾値を超えるか否かを判定する(ステップS203)。情報処理装置100は、算出した類似度が所定の閾値を超えない場合(ステップS203;No)、処理を終了する。
Subsequently, when the
一方、情報処理装置100は、算出した類似度が所定の閾値を超える場合(ステップS203;Yes)、受け付けた検索クエリと類似する特徴を有する類似クエリを抽出する(ステップS204)。具体的には、情報処理装置100は、受け付けた検索クエリに対応するベクトルと他の検索クエリに対応するベクトルとの類似度が所定の閾値を超える場合、類似クエリとして、他の検索クエリを抽出する。続いて、情報処理装置100は、類似クエリを抽出すると、抽出した類似クエリに基づいてお勧めエリアを決定する(ステップS205)。
On the other hand, when the calculated similarity exceeds a predetermined threshold value (step S203; Yes), the
〔1-6.変形例〕
上述した第1の実施形態に係る情報処理システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム1の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。
[1-6. Modification example]
The
〔1-6-1.概念的なクエリに基づく不動産エリアの推薦〕
次に、図9を用いて、変形例に係る情報処理について説明する。図9は、変形例に係る情報処理の一例を示す図である。図9では、生成部132は、第1学習モデルを用いて、不動産検索で想定される概念的なキーワード(以下、適宜「概念クエリ」と記載する。)に対応する分散表現(ベクトル)を生成する(ステップS1-A)。ここで、不動産検索で想定される概念的なキーワードの例としては、「治安が良い」、「学園都市」、「日当たりが良い」、「花火がきれい」、「間取りが広い」等が挙げられる。
[1-6-1. Real estate area recommendations based on conceptual queries]
Next, the information processing related to the modified example will be described with reference to FIG. FIG. 9 is a diagram showing an example of information processing according to a modified example. In FIG. 9, the generation unit 132 uses the first learning model to generate a distributed expression (vector) corresponding to a conceptual keyword assumed in a real estate search (hereinafter, appropriately referred to as “concept query”). (Step S1-A). Here, examples of conceptual keywords assumed in real estate search include "security", "school city", "sunny", "fireworks are beautiful", and "wide floor plan". ..
図9右方に点線で示した吹き出しの中には、図1で生成部132が生成した地名クエリに対応する分散表現(ベクトル)に加えて、図9で生成部132が生成した概念クエリに対応する分散表現(ベクトル)が分散表現空間にマッピングされる様子が示されている。例えば、概念クエリ「治安が良い」に対応する分散表現(ベクトル)を示す点と地名クエリ「地名#21」に対応する分散表現(ベクトル)を示す点とは、分散表現空間上で相対的に近くに位置する様子が示されている。すなわちこの図は、概念クエリ「治安が良い」と地名クエリ「地名#21」とは、類似する特徴を有することを意味する。一方、概念クエリ「学園都市」に対応する分散表現(ベクトル)を示す点と地名クエリ「地名#21」に対応する分散表現(ベクトル)を示す点とは、分散表現空間上で相対的に遠くに存在する様子が示されている。すなわちこの図は、概念クエリ「治安が良い」と地名クエリ「地名#21」とは、相違する特徴を有することを意味する。 In the balloon shown by the dotted line on the right side of FIG. 9, in addition to the distributed representation (vector) corresponding to the place name query generated by the generation unit 132 in FIG. 1, the conceptual query generated by the generation unit 132 in FIG. 9 is included. It is shown how the corresponding distributed representation (vector) is mapped to the distributed representation space. For example, the point indicating the distributed expression (vector) corresponding to the conceptual query "safety" and the point indicating the distributed expression (vector) corresponding to the place name query "place name # 21" are relatively relative to each other in the distributed expression space. It is shown to be located nearby. That is, this figure means that the conceptual query "safety" and the place name query "place name # 21" have similar characteristics. On the other hand, the point indicating the distributed expression (vector) corresponding to the conceptual query "school city" and the point indicating the distributed expression (vector) corresponding to the place name query "place name # 21" are relatively far from each other in the distributed expression space. It is shown that it exists in. That is, this figure means that the conceptual query "safety" and the place name query "place name # 21" have different characteristics.
また、提供部133は、フリーワード形式による検索クエリを入力するための検索ボックスを含むコンテンツC21を介して、概念クエリ「治安が良い」をユーザU21から受け付ける(ステップS2-A)。続いて、提供部133によって概念クエリ「治安が良い」が受け付けられると、算出部134は、あらかじめ生成しておいた概念クエリ「治安が良い」に対応する分散表現(ベクトル)と地名クエリに対応する分散表現(ベクトル)との類似度を算出する(ステップS3-A)。続いて、抽出部135は、類似度を算出すると、算出した類似度が所定の閾値を超えるか否かを判定する。続いて、抽出部135は、類似度が所定の閾値を超えると判定した場合に、概念クエリ「治安が良い」と類似する特徴を有する類似クエリとして、その地名クエリを抽出する(ステップS4-A)。 Further, the providing unit 133 accepts the conceptual query "safety" from the user U21 via the content C21 including a search box for inputting a search query in a free word format (step S2-A). Subsequently, when the concept query "safety is good" is received by the providing unit 133, the calculation unit 134 corresponds to the distributed expression (vector) and the place name query corresponding to the conceptual query "safety is good" generated in advance. The degree of similarity with the distributed representation (vector) is calculated (step S3-A). Subsequently, when the similarity is calculated, the extraction unit 135 determines whether or not the calculated similarity exceeds a predetermined threshold value. Subsequently, the extraction unit 135 extracts the place name query as a similar query having characteristics similar to the conceptual query "safety" when it is determined that the similarity exceeds a predetermined threshold value (step S4-A). ).
例えば、算出部134は、概念クエリ「治安が良い」に対応する分散表現(ベクトル)と地名クエリ「地名#21」に対応する分散表現(ベクトル)との類似度を0.9と算出する。続いて、抽出部135は、概念クエリ「治安が良い」に対応する分散表現(ベクトル)と地名クエリ「地名#21」に対応する分散表現(ベクトル)との類似度が所定の閾値(例えば、0.8)を超えるか否かを判定する。例えば、抽出部135は、類似度である0.9が所定の閾値である0.8を超えるので、概念クエリ「治安が良い」の類似クエリとして、地名クエリ「地名#21」を抽出する。同様にして、算出部134は、全ての地名クエリについて、概念クエリ「治安が良い」に対応する分散表現(ベクトル)との類似度を算出する。そして、抽出部135は、全ての地名クエリについて、類似度が所定の閾値を超えるか否かを判定する。 For example, the calculation unit 134 calculates the similarity between the distributed expression (vector) corresponding to the conceptual query “safety” and the distributed expression (vector) corresponding to the place name query “place name # 21” to be 0.9. Subsequently, in the extraction unit 135, the similarity between the distributed expression (vector) corresponding to the conceptual query “safety” and the distributed expression (vector) corresponding to the place name query “place name # 21” is a predetermined threshold value (for example,). It is determined whether or not it exceeds 0.8). For example, since the similarity degree of 0.9 exceeds the predetermined threshold value of 0.8, the extraction unit 135 extracts the place name query “place name # 21” as a similar query of the conceptual query “safety”. Similarly, the calculation unit 134 calculates the similarity with the distributed expression (vector) corresponding to the conceptual query "safety" for all the place name queries. Then, the extraction unit 135 determines whether or not the similarity exceeds a predetermined threshold value for all the place name queries.
続いて、決定部136は、抽出部135によって類似クエリが抽出されると、抽出部135によって抽出された類似クエリに基づいて、ユーザU21に対して推薦するお勧めエリアを決定する(ステップS5-A)。具体的には、決定部136は、類似クエリとして抽出した地名クエリに対応する不動産エリアをお勧めエリアとして推薦することを決定する。例えば、決定部136は、概念クエリ「治安が良い」の類似クエリとして抽出した地名クエリ「地名#21」に対応する不動産エリアをユーザU21に対して推薦するお勧めエリアとして推薦することを決定する。 Subsequently, when a similar query is extracted by the extraction unit 135, the determination unit 136 determines a recommended area recommended for the user U21 based on the similar query extracted by the extraction unit 135 (step S5-). A). Specifically, the determination unit 136 determines to recommend the real estate area corresponding to the place name query extracted as the similar query as the recommended area. For example, the determination unit 136 determines to recommend the real estate area corresponding to the place name query "place name # 21" extracted as a similar query of the conceptual query "safety" as a recommended area to be recommended to the user U21. ..
続いて、提供部133は、決定部136によってお勧めエリアが決定されると、決定部136によって決定されたお勧めエリアに関する情報(例えば、お勧めエリアの不動産物件の情報)をユーザU21に対して送信する(ステップS6-A)。 Subsequently, when the recommended area is determined by the determination unit 136, the providing unit 133 provides the user U21 with information regarding the recommended area determined by the determination unit 136 (for example, information on the real estate property in the recommended area). (Step S6-A).
〔1-6-2.概念的なクエリに基づく絞り込み条件の推薦〕
次に、図10を用いて、変形例に係る情報処理について説明する。図10は、変形例に係る情報処理の一例を示す図である。図10では、決定部136は、抽出部135によって抽出された類似クエリに基づいて、推薦情報である再検索用のクエリの候補を決定する。具体的には、生成部132は、第1学習モデルを用いて、不動産検索においてユーザが物件を絞り込む際に用いられる絞り込み条件を示すキーワード(以下、適宜「再検索用クエリ」と記載する。)に対応する分散表現(ベクトル)を生成する(ステップS1-B)。ここで、不動産検索においてユーザが物件を絞り込む際に用いられる絞り込み条件を示すキーワードの例としては、物件の特徴を示すキーワードである「高層マンション」や「低層マンション」、物件の立地条件を示すキーワードである「リバーサイド」、「駅徒歩5分以内」等が挙げられる。
[1-6-2. Recommendation of narrowing conditions based on conceptual queries]
Next, the information processing related to the modified example will be described with reference to FIG. FIG. 10 is a diagram showing an example of information processing according to a modified example. In FIG. 10, the determination unit 136 determines the candidate of the query for re-search, which is the recommendation information, based on the similar query extracted by the extraction unit 135. Specifically, the generation unit 132 uses the first learning model to indicate a narrowing condition used when the user narrows down the properties in the real estate search (hereinafter, appropriately referred to as “research query”). Generate a distributed representation (vector) corresponding to (step S1-B). Here, as an example of the keywords indicating the narrowing conditions used when the user narrows down the properties in the real estate search, the keywords "high-rise condominium" and "low-rise condominium" indicating the characteristics of the property, and the keywords indicating the location conditions of the property are used. "Riverside", "within 5 minutes walk from the station" and so on.
図10右方に点線で示した吹き出しの中には、図1で生成部132が生成した地名クエリに対応する分散表現(ベクトル)及び図9で生成部132が生成した概念クエリに対応する分散表現(ベクトル)に加えて、図10で生成部132が生成した再検索用クエリに対応する分散表現(ベクトル)が分散表現空間にマッピングされる様子が示されている。例えば、概念クエリ「花火がきれい」に対応する分散表現(ベクトル)を示す点と再検索用クエリ「高層マンション」に対応する分散表現(ベクトル)を示す点とは、分散表現空間上で相対的に近くに位置する様子が示されている。すなわちこの図は、概念クエリ「花火がきれい」と再検索用クエリ「高層マンション」とは、類似する特徴を有することを意味する。一方、概念クエリ「花火がきれい」に対応する分散表現(ベクトル)を示す点と再検索用クエリ「低層マンション」に対応する分散表現(ベクトル)を示す点とは、分散表現空間上で相対的に遠くに存在する様子が示されている。すなわちこの図は、概念クエリ「花火がきれい」と再検索用クエリ「低層マンション」とは、相違する特徴を有することを意味する。 In the balloon shown by the dotted line on the right side of FIG. 10, the distributed representation (vector) corresponding to the place name query generated by the generation unit 132 in FIG. 1 and the distribution corresponding to the conceptual query generated by the generation unit 132 in FIG. 9 are included. In addition to the representation (vector), FIG. 10 shows how the distributed representation (vector) corresponding to the re-search query generated by the generation unit 132 is mapped to the distributed representation space. For example, the point indicating the distributed expression (vector) corresponding to the conceptual query "Fireworks are beautiful" and the point indicating the distributed expression (vector) corresponding to the re-search query "high-rise apartment" are relative to each other in the distributed expression space. It is shown that it is located near. That is, this figure means that the conceptual query "fireworks are beautiful" and the re-search query "high-rise apartment" have similar characteristics. On the other hand, the point indicating the distributed expression (vector) corresponding to the conceptual query "fireworks are beautiful" and the point indicating the distributed expression (vector) corresponding to the re-search query "low-rise apartment" are relative to each other in the distributed expression space. It is shown that it exists in the distance. That is, this figure means that the conceptual query "fireworks are beautiful" and the re-search query "low-rise condominium" have different characteristics.
また、提供部133は、フリーワード形式による検索クエリを入力するための検索ボックスを含むコンテンツC21を介して、概念クエリ「花火がきれい」をユーザU31から受け付ける(ステップS2-B)。続いて、提供部133によって概念クエリ「花火がきれい」が受け付けられると、算出部134は、あらかじめ生成しておいた概念クエリ「花火がきれい」に対応する分散表現(ベクトル)と再検索用クエリに対応する分散表現(ベクトル)との類似度を算出する(ステップS3-B)。続いて、抽出部135は、類似度を算出すると、算出した類似度が所定の閾値を超えるか否かを判定する。続いて、抽出部135は、類似度が所定の閾値を超えると判定した場合に、概念クエリ「花火がきれい」と類似する特徴を有する類似クエリとして、その再検索用クエリを抽出する(ステップS4-B)。 Further, the providing unit 133 receives the conceptual query "Fireworks are beautiful" from the user U31 via the content C21 including a search box for inputting a search query in a free word format (step S2-B). Subsequently, when the provision unit 133 accepts the conceptual query "fireworks are beautiful", the calculation unit 134 performs a distributed expression (vector) and a re-search query corresponding to the pre-generated conceptual query "fireworks are beautiful". The degree of similarity with the distributed representation (vector) corresponding to is calculated (step S3-B). Subsequently, when the similarity is calculated, the extraction unit 135 determines whether or not the calculated similarity exceeds a predetermined threshold value. Subsequently, the extraction unit 135 extracts the re-search query as a similar query having characteristics similar to the conceptual query "fireworks are beautiful" when it is determined that the similarity exceeds a predetermined threshold value (step S4). -B).
例えば、算出部134は、概念クエリ「花火がきれい」に対応する分散表現(ベクトル)と再検索用クエリ「高層マンション」に対応する分散表現(ベクトル)との類似度を0.9と算出する。続いて、抽出部135は、概念クエリ「花火がきれい」に対応する分散表現(ベクトル)と再検索用クエリ「高層マンション」に対応する分散表現(ベクトル)との類似度が所定の閾値(例えば、0.8)を超えるか否かを判定する。例えば、抽出部135は、類似度である0.9が所定の閾値である0.8を超えるので、概念クエリ「花火がきれい」の類似クエリとして、再検索用クエリ「高層マンション」を抽出する。同様にして、算出部134は、全ての再検索用クエリについて、概念クエリ「花火がきれい」に対応する分散表現(ベクトル)との類似度を算出する。そして、抽出部135は、全ての再検索用クエリについて、類似度が所定の閾値を超えるか否かを判定する。 For example, the calculation unit 134 calculates the similarity between the distributed expression (vector) corresponding to the conceptual query “fireworks are beautiful” and the distributed expression (vector) corresponding to the re-search query “high-rise apartment” as 0.9. .. Subsequently, in the extraction unit 135, the similarity between the distributed expression (vector) corresponding to the conceptual query “fireworks is beautiful” and the distributed expression (vector) corresponding to the re-search query “high-rise apartment” is a predetermined threshold value (for example). , 0.8) is determined. For example, the extraction unit 135 extracts the re-search query "high-rise apartment" as a similar query of the conceptual query "fireworks are beautiful" because the similarity value of 0.9 exceeds the predetermined threshold value of 0.8. .. Similarly, the calculation unit 134 calculates the similarity with the distributed expression (vector) corresponding to the conceptual query "fireworks are beautiful" for all the re-search queries. Then, the extraction unit 135 determines whether or not the similarity exceeds a predetermined threshold value for all the re-search queries.
続いて、決定部136は、抽出部135によって類似クエリが抽出されると、抽出部135によって抽出された類似クエリに基づいて、ユーザU31に対して推薦する絞り込み条件を決定する(ステップS5-B)。具体的には、決定部136は、類似クエリとして抽出した再検索用クエリに対応する絞り込み条件を推薦することを決定する。例えば、決定部136は、概念クエリ「花火がきれい」の類似クエリとして抽出した再検索用クエリ「高層マンション」に対応する絞り込み条件をユーザU31に対して推薦することを決定する。 Subsequently, when a similar query is extracted by the extraction unit 135, the determination unit 136 determines a narrowing condition recommended for the user U31 based on the similar query extracted by the extraction unit 135 (step S5-B). ). Specifically, the determination unit 136 determines to recommend the narrowing condition corresponding to the re-search query extracted as a similar query. For example, the determination unit 136 determines to recommend the narrowing condition corresponding to the re-search query "high-rise apartment" extracted as a similar query of the conceptual query "fireworks are beautiful" to the user U31.
続いて、提供部133は、決定部136によって推薦する絞り込み条件が決定されると、決定部136によって決定された絞り込み条件に関する情報(例えば、推薦する絞り込み条件に対応するチェックボックスにチェックが入った状態のコンテンツ)をユーザU31に対して送信する(ステップS6-B)。 Subsequently, when the narrowing-down condition recommended by the decision-making unit 136 is determined, the providing unit 133 checks the information regarding the narrowing-down condition determined by the decision-making unit 136 (for example, the check box corresponding to the recommended narrowing-down condition). The state content) is transmitted to the user U31 (step S6-B).
次に、図11を用いて、変形例に係るコンテンツの切り替え処理について説明する。図11は、変形例に係るユーザ端末がコンテンツを切り替える処理の一例を説明する図である。図11の左図は、図10に示すコンテンツC21の一例を示す。ユーザ端末10は、ユーザU31の操作に応じて、コンテンツC21に表示された検索ボタンB1が押下されると、情報処理装置100に概念クエリ「花火がきれい」を送信する。情報処理装置100は、概念クエリ「花火がきれい」をユーザU31から受け付ける(図9に示すステップS2-B)。続いて、情報処理装置100は、図9に示すステップS3-BからステップS6-Bの処理を実行する。
Next, the content switching process according to the modified example will be described with reference to FIG. FIG. 11 is a diagram illustrating an example of a process in which a user terminal according to a modified example switches contents. The left figure of FIG. 11 shows an example of the content C21 shown in FIG. When the search button B1 displayed on the content C21 is pressed in response to the operation of the user U31, the
図11の右図は、図9に示すステップS6‐Bにおいて、情報処理装置100がユーザU31に対して送信するコンテンツC22の一例を示す。情報処理装置100は、条件検索の絞り込み条件のうち、推薦する絞り込み条件に対応するチェックボックスにチェックが入った状態のコンテンツC22をユーザU31に対して送信する。ユーザ端末10は、コンテンツC22を受信すると、画面にコンテンツC22を表示する。ユーザ端末10は、ユーザU31の操作に応じて、コンテンツC22に表示された検索ボタンB2が押下されると、チェックボックスにチェックされた絞り込み条件で不動産情報を検索する検索要求を情報処理装置100に送信する。
The right figure of FIG. 11 shows an example of the content C22 transmitted by the
〔1-6-3.不動産以外の他の分野への応用〕
上記の例では、情報処理装置100が、不動産検索サービスにおいて、所定のクエリを入力したユーザに対して不動産エリアを推薦する例について説明した。上記の例に限らず、情報処理装置100は、商品、動画、音楽、レストラン、食べ物、会社(株価、就活)など不動産以外の他の分野のコンテンツ全般について、所定のクエリの特徴を示す特徴情報を抽出する。
[1-6-3. Application to fields other than real estate]
In the above example, an example in which the
具体的には、情報処理装置100は、商品、動画、音楽、レストラン、食べ物、会社(株価、就活)など不動産以外の他の分野のコンテンツを検索対象とする検索サービスにおいて、商品、動画、音楽、レストラン、食べ物、会社(株価、就活)など不動産以外の他の分野に関する所定のクエリを取得する。続いて、情報処理装置100は、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて、所定のクエリと類似する特徴を有する類似クエリを抽出する。続いて、情報処理装置100は、抽出した類似クエリに基づいて、推薦情報を決定する。
Specifically, the
〔2.第2の実施形態〕
〔2-1.情報処理の一例〕
次に、第2の実施形態について説明する。上述してきた第1の実施形態では、情報処理装置100がユーザから受け付けた所定のクエリと類似する類似クエリを抽出し、抽出した類似クエリに基づいて、推薦情報を決定する情報処理の一例を説明した。第2の実施形態では、情報処理装置100Aがユーザから受け付けた所定のクエリが属するカテゴリを抽出し、抽出したカテゴリに基づいて、推薦情報を決定する情報処理の例を示す。なお、第2の実施形態では、第1の実施形態と同様の構成について同一の符号を付して説明を省略する。
[2. Second embodiment]
[2-1. An example of information processing]
Next, the second embodiment will be described. In the first embodiment described above, an example of information processing in which the
生成装置50は、第2学習モデルを生成する。ここでは、生成装置50による第2学習モデルの生成処理の概要を述べる。なお、生成装置50による第2学習モデルの生成処理の詳細は後述する。具体的には、生成装置50は、第1学習モデルを用いて、所定の検索クエリから所定の検索クエリが属するカテゴリを予測する第2学習モデルを生成する。より具体的には、生成装置50は、第1学習モデルを生成すると、生成した第1学習モデル(第1学習モデルM1のモデルデータMDT1)を取得する。生成装置50は、第1モデルM1を取得すると、取得した第1モデルM1を用いて、第2学習モデルM2を生成する。生成装置50は、第1モデルM1を再学習させることにより、第1モデルM1とは学習モデルの重みである接続係数が異なる第2学習モデルM2を生成する。例えば、生成装置50は、検索クエリが学習モデルに入力された際に、学習モデルが出力する分散表現の分類結果が、検索クエリが属するカテゴリに対応するように学習することで、所定の検索クエリから所定の検索クエリが属するカテゴリを予測する第2学習モデルM2を生成する。
The
情報処理装置100Aは、不動産情報検索サービスR1を提供するサーバ装置である。情報処理装置100Aは、第2学習モデルのモデルデータを生成装置50から取得する。なお、以下では、第2学習モデルのモデルデータを単に第2学習モデルと記載する場合がある。例えば、情報処理装置100Aは、第2学習モデルを用いて、ユーザから受け付けた所定の地名クエリが分類されるカテゴリに対応する不動産エリアに属する物件をお勧め物件として推薦する。
The information processing device 100A is a server device that provides a real estate information retrieval service R1. The information processing device 100A acquires the model data of the second learning model from the
〔2-2.情報処理装置の構成〕
次に、図12を用いて、第2の実施形態に係る情報処理装置100Aの構成について説明する。図12は、第2の実施形態に係る情報処理装置100Aの構成例を示す図である。図12に示すように、情報処理装置100Aは、通信部110と、記憶部120Aと、制御部130Aとを有する。なお、情報処理装置100Aは、情報処理装置100Aの管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示させるための表示部(例えば、液晶ディスプレイ等)を有してもよい。
[2-2. Information processing device configuration]
Next, the configuration of the information processing apparatus 100A according to the second embodiment will be described with reference to FIG. 12. FIG. 12 is a diagram showing a configuration example of the information processing apparatus 100A according to the second embodiment. As shown in FIG. 12, the information processing apparatus 100A includes a communication unit 110, a storage unit 120A, and a control unit 130A. The information processing device 100A includes an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from the administrator of the information processing device 100A, and a display unit (for example, a liquid crystal display, etc.) for displaying various information. You may have.
(記憶部120A)
記憶部120Aは、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120Aは、図12に示すように、モデル情報記憶部121とカテゴリ情報記憶部122Aと検索情報記憶部123とコンテンツ記憶部124を有する。
(Memory unit 120A)
The storage unit 120A is realized by, for example, a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk. As shown in FIG. 12, the storage unit 120A includes a model
(カテゴリ情報記憶部122A)
カテゴリ情報記憶部122Aは、検索クエリが属するカテゴリに関する各種の情報を記憶する。具体的には、カテゴリ情報記憶部122Aは、学習済みの第2学習モデルに検索クエリが入力された際に、第2学習モデルが出力するカテゴリに関する各種の情報を記憶する。図13に、第2の実施形態に係るカテゴリ情報記憶部の一例を示す。図13に示す例では、カテゴリ情報記憶部122Aは、「検索クエリ」、「大分類」、「小分類」、「確率(%)」といった項目を有する。
(Category information storage unit 122A)
The category information storage unit 122A stores various information about the category to which the search query belongs. Specifically, the category information storage unit 122A stores various information regarding the category output by the second learning model when a search query is input to the trained second learning model. FIG. 13 shows an example of the category information storage unit according to the second embodiment. In the example shown in FIG. 13, the category information storage unit 122A has items such as "search query", "major classification", "minor classification", and "probability (%)".
「検索クエリID」は、ユーザによって入力された検索クエリを示す。「大分類」は、検索クエリが分類されるカテゴリの大分類を示す。「小分類」、検索クエリが分類されるカテゴリの小分類を示す。「確率(%)」は、学習済みの第2学習モデルに検索クエリが入力された際に、第2学習モデルが出力する小分類毎の確率を示す。 The "search query ID" indicates a search query entered by the user. "Major classification" indicates a major classification of the category in which the search query is classified. "Minor classification", indicates the subclassification of the category in which the search query is classified. The "probability (%)" indicates the probability for each subclass output by the second learning model when a search query is input to the trained second learning model.
図13に示す例では、大分類「不動産エリアを探す」は、検索クエリを分類するカテゴリの大分類が不動産エリアを探すという検索意図であることを示す。図13に示す例では、大分類「不動産エリアを探す」は、さらに4つの小分類を有する。小分類「高級住宅街を探す」は、大分類「不動産エリアを探す」に属する分類であって、小分類に分類される検索クエリが、ユーザによって高級住宅街を探す意図で入力された検索クエリであることを示す。また、小分類「下町エリアを探す」は、大分類「不動産エリアを探す」に属する分類であって、小分類に分類される検索クエリが、ユーザによって下町エリアを探す意図で入力された検索クエリであることを示す。また、小分類「湾岸エリアを探す」は、大分類「不動産エリアを探す」に属する分類であって、小分類に分類される検索クエリが、ユーザによって湾岸エリアを探す意図で入力された検索クエリであることを示す。また、小分類「郊外エリアを探す」は、大分類「不動産エリアを探す」に属する分類であって、小分類に分類される検索クエリが、ユーザによって郊外エリアを探す意図で入力された検索クエリであることを示す。 In the example shown in FIG. 13, the major classification "find real estate area" indicates that the major classification of the category that classifies the search query is the search intention of searching for the real estate area. In the example shown in FIG. 13, the major classification "find real estate area" has four further minor classifications. The sub-category "Search for a high-class residential area" is a category that belongs to the large category "Search for a real estate area", and the search query classified into the sub-category is a search query entered by the user with the intention of searching for a high-class residential area. Indicates that. In addition, the minor category "Search for downtown area" is a category that belongs to the major category "Search for real estate area", and the search query classified into the minor category is a search query entered by the user with the intention of searching for the downtown area. Indicates that. In addition, the sub-category "Search for Gulf area" is a category that belongs to the major category "Search for real estate area", and the search query classified into the sub-category is a search query entered by the user with the intention of searching for the Gulf area. Indicates that. In addition, the sub-category "Search for suburban area" is a category that belongs to the major category "Search for real estate area", and the search query classified into the sub-category is a search query entered by the user with the intention of searching for the suburban area. Indicates that.
図13に示す例では、検索クエリ「地名#11」の確率(%)「90」は、検索クエリ「地名#11」が高級住宅街を探す意図で入力されたクエリに分類される確率が90%であることを示す。また、検索クエリ「地名#11」の確率(%)「0」は、検索クエリ「地名#11」が下町エリアを探す意図で入力されたクエリに分類される確率が0%であることを示す。また、検索クエリ「地名#11」の確率(%)「10」は、検索クエリ「地名#11」が湾岸エリアを探す意図で入力されたクエリに分類される確率が10%であることを示す。また、検索クエリ「地名#11」の確率(%)「0」は、検索クエリ「地名#11」が郊外エリアを探す意図で入力されたクエリに分類される確率が0%であることを示す。 In the example shown in FIG. 13, the probability (%) "90" of the search query "place name # 11" has a probability that the search query "place name # 11" is classified into a query entered with the intention of searching for a high-class residential area. Indicates that it is%. Further, the probability (%) "0" of the search query "place name # 11" indicates that the probability that the search query "place name # 11" is classified into the query entered with the intention of searching the downtown area is 0%. .. Further, the probability (%) "10" of the search query "place name # 11" indicates that the probability that the search query "place name # 11" is classified as a query entered with the intention of searching the Gulf area is 10%. .. Further, the probability (%) "0" of the search query "place name # 11" indicates that the probability that the search query "place name # 11" is classified into a query entered with the intention of searching for a suburban area is 0%. ..
(制御部130A)
図12の説明に戻って、制御部130Aは、コントローラであり、例えば、CPUやMPU等によって、情報処理装置100A内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130Aは、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
(Control unit 130A)
Returning to the description of FIG. 12, the control unit 130A is a controller, and various programs (corresponding to an example of the information processing program) stored in the storage device inside the information processing device 100A by, for example, a CPU or MPU. It is realized by executing the RAM as a work area. Further, the control unit 130A is a controller, and is realized by, for example, an integrated circuit such as an ASIC or FPGA.
図12に示すように、制御部130Aは、取得部131と、生成部132と、提供部133と、算出部134Aと、抽出部135Aと、決定部136Aとを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部130Aの内部構成は、図12に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。 As shown in FIG. 12, the control unit 130A includes an acquisition unit 131, a generation unit 132, a provision unit 133, a calculation unit 134A, an extraction unit 135A, and a determination unit 136A, and the information described below. Realize or execute the action of processing. The internal configuration of the control unit 130A is not limited to the configuration shown in FIG. 12, and may be any other configuration as long as it is configured to perform information processing described later.
(取得部131)
取得部131は、第2学習モデルを取得する。より具体的には、取得部131は、生成装置50によって生成された第2学習モデルを生成装置50から取得する。取得部131は、第2学習モデルを取得すると、取得した第2学習モデルをモデル情報記憶部121に格納する。
(Acquisition unit 131)
The acquisition unit 131 acquires the second learning model. More specifically, the acquisition unit 131 acquires the second learning model generated by the
(算出部134A)
算出部134Aは、検索クエリが所定のカテゴリに属する確率をカテゴリ毎に算出する。具体的には、算出部134Aは、提供部133によって所定の検索クエリが受け付けられると、取得部131によって取得された第2学習モデルに検索クエリを入力して、所定のクエリが所定のカテゴリに属する確率をカテゴリ毎に算出する。例えば、算出部134Aは、提供部133によって所定の地名クエリが受け付けられると、取得部131によって取得された第2学習モデルに受け付けた地名クエリを入力して、受け付けた地名クエリが所定のカテゴリに属する確率をカテゴリ毎に算出する。例えば、算出部134Aは、受け付けた所定の地名クエリが4つのカテゴリ(小分類)である「高級住宅街を探す」、「下町エリアを探す」、「湾岸エリアを探す」、「郊外エリアを探す」の各カテゴリ(小分類)に属する確率をカテゴリ(小分類)毎に算出する。
(Calculation unit 134A)
The calculation unit 134A calculates the probability that the search query belongs to a predetermined category for each category. Specifically, when the providing unit 133 receives the predetermined search query, the calculation unit 134A inputs the search query into the second learning model acquired by the acquisition unit 131, and the predetermined query is placed in the predetermined category. Calculate the probability of belonging for each category. For example, when the calculation unit 134A receives a predetermined place name query by the providing unit 133, the calculation unit 134 inputs the place name query received in the second learning model acquired by the acquisition unit 131, and the received place name query is placed in the predetermined category. Calculate the probability of belonging for each category. For example, the calculation unit 134A receives "search for a high-class residential area", "search for a downtown area", "search for a bay area", and "search for a suburban area" in which the predetermined place name query received is in four categories (small categories). The probability of belonging to each category (sub-category) of "" is calculated for each category (sub-category).
(抽出部135A)
抽出部135Aは、特徴情報として、所定のクエリが属するカテゴリを抽出する。例えば、抽出部135Aは、算出部134Aによって算出された各カテゴリ(小分類)の確率が所定の閾値を超えるか否かをカテゴリ(小分類)毎に判定する。続いて、抽出部135Aは、受け付けた検索クエリが所定のカテゴリに属する確率が所定の閾値を超える場合、受け付けた検索クエリが分類されるカテゴリとして、所定のカテゴリを抽出する。例えば、抽出部135Aは、受け付けた所定の地名クエリが「高級住宅街を探す」カテゴリに属する確率が90%であり、所定の閾値が80%である場合には、受け付けた所定の地名クエリが分類されるカテゴリとして、「高級住宅街を探す」カテゴリを抽出する。
(Extractor 135A)
The extraction unit 135A extracts a category to which a predetermined query belongs as feature information. For example, the extraction unit 135A determines for each category (small classification) whether or not the probability of each category (small classification) calculated by the calculation unit 134A exceeds a predetermined threshold value. Subsequently, when the probability that the received search query belongs to a predetermined category exceeds a predetermined threshold value, the extraction unit 135A extracts a predetermined category as a category in which the received search query is classified. For example, when the predetermined place name query received by the extraction unit 135A has a 90% probability of belonging to the "search for a high-class residential area" category and the predetermined threshold value is 80%, the received predetermined place name query is received. As a category to be classified, the category "Find a luxury residential area" is extracted.
また、抽出部135Aは、入力情報として所定の検索クエリが入力された際に、出力情報として所定の検索クエリの分散表現を出力する学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135Aは、入力情報として所定の検索クエリが入力された際に、出力情報として所定の検索クエリの分散表現を出力する第1学習モデルを用いて生成された第2学習モデルを用いて、特徴情報として所定のクエリが属するカテゴリを抽出する。 Further, the extraction unit 135A extracts feature information by using a learning model that outputs a distributed expression of the predetermined search query as output information when a predetermined search query is input as input information. For example, the extraction unit 135A uses a second learning model generated by using a first learning model that outputs a distributed representation of a predetermined search query as output information when a predetermined search query is input as input information. Then, the category to which the predetermined query belongs is extracted as the feature information.
また、抽出部135Aは、所定の時間内に続けて入力された一対の検索クエリの分散表現が類似するように学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135Aは、所定の時間内に続けて入力された一対の検索クエリの分散表現が類似するように学習することで、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて生成された第2学習モデルを用いて、特徴情報として所定のクエリが属するカテゴリを抽出する。 Further, the extraction unit 135A uses a learning model that learns the characteristics of a plurality of search queries by learning so that the distributed expressions of a pair of search queries that are continuously input within a predetermined time are similar. Extract feature information. For example, the extraction unit 135A uses a first learning model that learns the characteristics of a plurality of search queries by learning so that the distributed expressions of a pair of search queries that are continuously input within a predetermined time are similar. Using the second learning model generated in the above, the category to which the predetermined query belongs is extracted as the feature information.
また、抽出部135Aは、同一のユーザによって所定の時間内に入力された複数の検索クエリとして、所定の区切り文字で区切られた文字列を含む複数の検索クエリが類似する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135Aは、同一のユーザによって所定の時間内に入力された複数の検索クエリとして、所定の区切り文字で区切られた文字列を含む複数の検索クエリが類似する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて生成された第2学習モデルを用いて、特徴情報として所定のクエリが属するカテゴリを抽出する。 Further, the extraction unit 135A learns that a plurality of search queries including a character string separated by a predetermined delimiter have similar characteristics as a plurality of search queries input by the same user within a predetermined time. By doing so, feature information is extracted using a learning model that has learned the features of a plurality of search queries. For example, the extraction unit 135A learns that, as a plurality of search queries input by the same user within a predetermined time, a plurality of search queries including a character string separated by a predetermined delimiter have similar characteristics. By doing so, the category to which the predetermined query belongs is extracted as the feature information by using the second learning model generated by using the first learning model that learned the features of the plurality of search queries.
また、抽出部135Aは、ランダムに抽出された複数の検索クエリが相違する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135Aは、ランダムに抽出された複数の検索クエリが相違する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて生成された第2学習モデルを用いて、特徴情報として所定のクエリが属するカテゴリを抽出する。 Further, the extraction unit 135A extracts feature information using a learning model that has learned the features of the plurality of search queries by learning that the plurality of randomly extracted search queries have different features. .. For example, the extraction unit 135A is generated by using a first learning model that learns the characteristics of a plurality of search queries by learning that a plurality of randomly extracted search queries have different characteristics. 2 Using the learning model, the category to which the predetermined query belongs is extracted as the feature information.
また、抽出部135Aは、ランダムに抽出された一対の検索クエリの分散表現が相違するように学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。例えば、抽出部135Aは、ランダムに抽出された一対の検索クエリの分散表現が相違するように学習することで、複数の検索クエリが有する特徴を学習した第1学習モデルを用いて生成された第2学習モデルを用いて、特徴情報として所定のクエリが属するカテゴリを抽出する。 Further, the extraction unit 135A extracts feature information using a learning model that has learned the features of a plurality of search queries by learning so that the distributed expressions of a pair of randomly extracted search queries are different. .. For example, the extraction unit 135A is generated by using a first learning model that learns the characteristics of a plurality of search queries by learning so that the distributed expressions of a pair of randomly extracted search queries are different. 2 Using the learning model, the category to which the predetermined query belongs is extracted as the feature information.
(決定部136A)
決定部136Aは、抽出部135Aによって抽出されたカテゴリに基づいて、所定のクエリを入力したユーザに対して推薦する推薦情報を決定する。例えば、決定部136Aは、抽出部135Aによって抽出された「高級住宅街を探す」カテゴリに基づいて、所定の地名クエリを入力したユーザに対して、高級住宅街に属する物件を推薦することを決定する。
(Decision unit 136A)
The determination unit 136A determines the recommendation information to be recommended to the user who has input the predetermined query based on the category extracted by the extraction unit 135A. For example, the determination unit 136A decides to recommend a property belonging to the luxury residential area to the user who has entered a predetermined place name query based on the "find luxury residential area" category extracted by the extraction unit 135A. do.
〔2-3.予測処理のフロー〕
次に、図14を用いて、第2の実施形態に係る予測処理の手順について説明する。図14は、第2の実施形態に係る予測処理手順を示すフローチャートである。図14に示す例では、情報処理装置100Aは、検索クエリと第2学習モデルを取得する(ステップS301)。続いて、情報処理装置100Aは、検索クエリと第2学習モデルを取得すると、第2学習モデルを用いて、検索クエリが分類されるカテゴリを推定する(ステップS302)。
[2-3. Prediction processing flow]
Next, the procedure of the prediction processing according to the second embodiment will be described with reference to FIG. FIG. 14 is a flowchart showing a prediction processing procedure according to the second embodiment. In the example shown in FIG. 14, the information processing apparatus 100A acquires a search query and a second learning model (step S301). Subsequently, when the information processing apparatus 100A acquires the search query and the second learning model, the information processing apparatus 100A estimates the category in which the search query is classified by using the second learning model (step S302).
〔2-4.情報処理のフロー〕
次に、図15を用いて、第2の実施形態に係る情報処理の手順について説明する。図15は、第2の実施形態に係る情報処理手順を示すフローチャートである。図15に示す例では、情報処理装置100Aは、検索クエリを受け付けたか否かを判定する(ステップS401)。情報処理装置100Aは、検索クエリを受け付けていない場合(ステップS401;No)、検索クエリを受け付けるまで待機する。
[2-4. Information processing flow]
Next, the procedure of information processing according to the second embodiment will be described with reference to FIG. FIG. 15 is a flowchart showing an information processing procedure according to the second embodiment. In the example shown in FIG. 15, the information processing apparatus 100A determines whether or not the search query has been accepted (step S401). When the information processing apparatus 100A does not accept the search query (step S401; No), the information processing apparatus 100A waits until the search query is accepted.
一方、情報処理装置100Aは、検索クエリを受け付けた場合(ステップS401;Yes)、検索クエリが所定のカテゴリに属する確率をカテゴリ毎に算出する(ステップS402)。 On the other hand, when the information processing apparatus 100A receives the search query (step S401; Yes), the information processing apparatus 100A calculates the probability that the search query belongs to a predetermined category for each category (step S402).
続いて、情報処理装置100Aは、検索クエリが所定のカテゴリに属する確率を算出すると、算出した確率が所定の閾値を超えるか否かを判定する(ステップS403)。情報処理装置100Aは、算出した確率が所定の閾値を超えない場合(ステップS403;No)、処理を終了する。 Subsequently, the information processing apparatus 100A calculates the probability that the search query belongs to a predetermined category, and determines whether or not the calculated probability exceeds a predetermined threshold value (step S403). The information processing apparatus 100A ends the process when the calculated probability does not exceed a predetermined threshold value (step S403; No).
一方、情報処理装置100Aは、算出した確率が所定の閾値を超える場合(ステップS403;Yes)、受け付けた検索クエリが分類されるカテゴリを抽出する(ステップS404)。具体的には、情報処理装置100Aは、受け付けた検索クエリが所定のカテゴリに属する確率が所定の閾値を超える場合、受け付けた検索クエリが分類されるカテゴリとして、所定のカテゴリを抽出する。続いて、情報処理装置100Aは、カテゴリを抽出すると、抽出したカテゴリに基づいてお勧め情報を決定する(ステップS405)。 On the other hand, when the calculated probability exceeds a predetermined threshold value (step S403; Yes), the information processing apparatus 100A extracts a category in which the received search query is classified (step S404). Specifically, when the probability that the received search query belongs to a predetermined category exceeds a predetermined threshold value, the information processing apparatus 100A extracts a predetermined category as a category in which the received search query is classified. Subsequently, when the information processing apparatus 100A extracts a category, the information processing apparatus 100A determines recommended information based on the extracted category (step S405).
〔3.学習モデルの生成処理〕
〔3-1.第1学習モデルの生成処理〕
次に、図16を用いて、第1学習モデルの生成処理の流れについて説明する。図16は、実施形態に係る第1学習モデルの生成処理の一例を示す図である。図16に示す例では、生成装置50は、同一のユーザU1によって所定の時間内に連続して入力された「六本木 パスタ」という検索クエリQ11と「六本木 イタリアン」という検索クエリQ12とから成る一対の検索クエリを抽出する(ステップS11)。
[3. Learning model generation process]
[3-1. Generation process of the first training model]
Next, the flow of the generation process of the first learning model will be described with reference to FIG. FIG. 16 is a diagram showing an example of a generation process of the first learning model according to the embodiment. In the example shown in FIG. 16, the
続いて、生成装置50は、抽出した検索クエリQ11を第1モデルM1に入力して、検索クエリQ11の分散表現であるベクトルBQV11を出力する。ここで、ベクトルBQV11は、第1モデルM1の出力層から出力されたばかりの検索クエリQ11の分散表現であって、第1モデルM1にフィードバックをかける前(学習前)の分散表現を示す。また、生成装置50は、抽出した検索クエリQ12を第1モデルM1に入力して、検索クエリQ12の分散表現であるベクトルBQV12を出力する。ここで、ベクトルBQV12は、第1モデルM1の出力層から出力されたばかりの検索クエリQ12の分散表現であって、第1モデルM1にフィードバックをかける前(学習前)の分散表現を示す。このようにして、生成装置50は、検索クエリQ11の分散表現であるベクトルBQV11と、検索クエリQ12の分散表現であるベクトルBQV12とを出力する(ステップS12)。
Subsequently, the
続いて、生成装置50は、同一のユーザU1によって所定の時間内に連続して入力された検索クエリQ11(「六本木 パスタ」)と検索クエリQ12(「六本木 イタリアン」)とから成る一対の検索クエリは、所定の検索意図(例えば、「ある場所で飲食店を探す」という検索意図)で入力された検索クエリであると推定されるため、相互に類似する特徴を有するものとして、検索クエリQ11の分散表現(ベクトルQV11)と、検索クエリQ11と対となる検索クエリQ12の分散表現(ベクトルQV12)とが、分散表現空間上で類似するように第1モデルM1を学習させる。例えば、第1モデルM1にフィードバックをかける前(学習前)の検索クエリQ11の分散表現であるベクトルBQV11と検索クエリQ12の分散表現であるベクトルBQV12とのなす角度の大きさをΘとする。また、第1モデルM1にフィードバックをかけた後(学習後)の検索クエリQ11の分散表現であるベクトルQV11と検索クエリQ12の分散表現であるベクトルQV12とのなす角度の大きさをΦとする。この時、生成装置50は、ΘよりもΦが小さくなるように、第1モデルM1を学習させる。例えば、生成装置50は、ベクトルBQV11とベクトルBQV12のコサイン類似度の値を算出する。また、生成装置50は、ベクトルQV11とベクトルQV12のコサイン類似度の値を算出する。続いて、生成装置50は、ベクトルBQV11とベクトルBQV12のコサイン類似度の値よりも、ベクトルQV11とベクトルQV12のコサイン類似度の値が大きくなるように(値が1に近づくように)第1モデルM1を学習させる。このように、生成装置50は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように第1モデルM1を学習させることで、検索クエリから分散表現(ベクトル)を出力する第1モデルM1を生成する(ステップS13)。なお、生成装置50は、コサイン類似度に限らず、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて分散表現(ベクトル)の間の類似度を算出してもよい。また、生成装置50は、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて第1モデルM1を学習させてもよい。例えば、生成装置50は、分散表現(ベクトル)同士のユークリッド距離や双曲空間等の非ユークリッド空間中での距離、マンハッタン距離、マハラノビス距離等といった所定の距離関数の値を算出する。続いて、生成装置50は、分散表現(ベクトル)同士の所定の距離関数の値(すなわち、分散表現空間における距離)が小さくなるように第1モデルM1を学習させてもよい。
Subsequently, the
次に、図17を用いて、第1学習モデルの生成処理の流れについてより詳しく説明する。なお、図17の説明では、図16の説明と重複する部分は、適宜省略する。図17は、実施形態に係る第1学習モデルの生成処理を示す図である。なお、以下では、適宜、第1学習モデルを第1モデル(又は、第1モデルM1)と記載する。図17に示す例では、生成装置50が生成した第1モデルM1によって出力された分散表現(ベクトル)が分散表現空間にマッピングされる様子が示されている。生成装置50は、所定の検索クエリの分散表現と所定の検索クエリと対となる他の検索クエリの分散表現とが分散表現空間上で近くにマッピングされるように第1モデルM1のトレーニングを行う。
Next, the flow of the generation process of the first learning model will be described in more detail with reference to FIG. In the description of FIG. 17, the part overlapping with the description of FIG. 16 will be omitted as appropriate. FIG. 17 is a diagram showing a generation process of the first learning model according to the embodiment. In the following, the first learning model will be referred to as the first model (or the first model M1) as appropriate. In the example shown in FIG. 17, it is shown that the distributed representation (vector) output by the first model M1 generated by the
図17の上段に示す例では、生成装置50は、同一のユーザU1によって所定の時間内に連続して入力された4個の検索クエリである検索クエリQ11(「六本木 パスタ」)、検索クエリQ12(「六本木 イタリアン」)、検索クエリQ13(「赤坂 パスタ」)、検索クエリQ14(「麻布 パスタ」)を抽出する。生成装置50は、同一のユーザU1によって各検索クエリが入力された時間の間隔が所定の時間内である4個の検索クエリを抽出する。生成装置50は、同一のユーザU1によって後述する各検索クエリのペアが入力された時間の間隔が所定の時間内である複数の検索クエリを抽出する。生成装置50は、検索クエリが入力された順番に並べると、検索クエリQ11、検索クエリQ12、検索クエリQ13、検索クエリQ14の順番で入力された4個の検索クエリを抽出する。生成装置50は、4個の検索クエリを抽出すると、時系列的に隣り合う2つの検索クエリを一対の検索クエリとして、3対の検索クエリのペアである(検索クエリQ11、検索クエリQ12)、(検索クエリQ12、検索クエリQ13)、(検索クエリQ13、検索クエリQ14)を抽出する(ステップS21-1)。なお、生成装置50は、同一のユーザU1によって全ての検索クエリが所定の時間内に入力された複数の検索クエリを抽出してもよい。そして、生成装置50は、時系列的に隣り合うか否かに関わらず、抽出した複数の検索クエリの中から2つの検索クエリを選択して、選択した2つの検索クエリを一対の検索クエリとして抽出してもよい。
In the example shown in the upper part of FIG. 17, the
続いて、生成装置50は、抽出した検索クエリQ1k(k=1、2、3、4)を第1モデルM1に入力して、検索クエリQ1k(k=1、2、3、4)の分散表現であるベクトルBQV1k(k=1、2、3、4)を出力する。ここで、ベクトルBQV1k(k=1、2、3、4)は、第1モデルM1の出力層から出力されたばかりの検索クエリQ1k(k=1、2、3、4)の分散表現であって、第1モデルM1にフィードバックをかける前(学習前)の分散表現を示す(ステップS22-1)。
Subsequently, the
続いて、生成装置50は、同一のユーザU1によって所定の時間内に連続して入力された一対の検索クエリは、所定の検索意図(例えば、「ある場所(東京都港区付近)で飲食店を探す」という検索意図)で入力された検索クエリであると推定されるため、相互に類似する特徴を有するものとして、検索クエリQ11の分散表現(ベクトルQV11)と、検索クエリQ11と対となる検索クエリQ12の分散表現(ベクトルQV12)とが、分散表現空間上で類似するように第1モデルM1を学習させる。また、生成装置50は、検索クエリQ12の分散表現(ベクトルQV12)と、検索クエリQ12と対となる検索クエリQ13の分散表現(ベクトルQV13)とが、分散表現空間上で類似するように第1モデルM1を学習させる。また、生成装置50は、検索クエリQ13の分散表現(ベクトルQV13)と、検索クエリQ13と対となる検索クエリQ14の分散表現(ベクトルQV14)とが、分散表現空間上で類似するように第1モデルM1を学習させる。このように、生成装置50は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように第1モデルM1を学習させることで、検索クエリから分散表現(ベクトル)を出力する第1モデルM1を生成する(ステップS23-1)。
Subsequently, in the
図17の上段に示す情報処理の結果として、検索クエリQ1k(k=1、2、3、4)の分散表現であるベクトルQV1k(k=1、2、3、4)が分散表現空間の近い位置にクラスタCL11としてマッピングされる様子が示されている。例えば、検索クエリQ1k(k=1、2、3、4)は、ユーザU1によって「ある場所(東京都港区付近)で飲食店を探す」という検索意図の下で検索された検索クエリの集合であると推定される。すなわち、検索クエリQ1k(k=1、2、3、4)は、「ある場所(東京都港区付近)で飲食店を探す」という検索意図の下で検索された検索クエリであるという点で、相互に類似する特徴を有する検索クエリであると推定される。ここで、生成装置50は、「ある場所(東京都港区付近)で飲食店を探す」という検索意図で入力された所定の検索クエリが第1モデルに入力されると、クラスタCL11の位置にマッピングされるような分散表現を出力することができる。これにより、例えば、生成装置50は、クラスタCL11の位置にマッピングされる分散表現に対応する検索クエリを抽出することにより、「ある場所(東京都港区付近)で飲食店を探す」という検索意図に応じた検索クエリを抽出することができる。したがって、生成装置50は、検索クエリの意味を適切に解釈可能とすることができる。
As a result of the information processing shown in the upper part of FIG. 17, the vector QV1k (k = 1, 2, 3, 4), which is a distributed representation of the search query Q1k (k = 1, 2, 3, 4), is close to the distributed representation space. It is shown that the position is mapped as the cluster CL11. For example, the search query Q1k (k = 1, 2, 3, 4) is a set of search queries searched by the user U1 with the search intention of "searching for a restaurant in a certain place (near Minato-ku, Tokyo)". Is presumed to be. That is, the search query Q1k (k = 1, 2, 3, 4) is a search query searched with the search intention of "searching for a restaurant in a certain place (near Minato-ku, Tokyo)". , Is presumed to be a search query with similar characteristics. Here, when the predetermined search query input with the search intention of "searching for a restaurant in a certain place (near Minato-ku, Tokyo)" is input to the first model, the
図17の下段に示す例では、生成装置50は、同一のユーザU2によって所定の時間内に連続して入力された3個の検索クエリである検索クエリQ21(「冷蔵庫 400L」)、検索クエリQ22(「冷蔵庫 中型」)、検索クエリQ23(「冷蔵庫 中型 おすすめ」)を抽出する。生成装置50は、検索クエリが入力された順番に並べると、検索クエリQ21、検索クエリQ22、検索クエリQ23の順番で入力された3個の検索クエリを抽出する。生成装置50は、3個の検索クエリを抽出すると、時系列的に隣り合う2つの検索クエリを一対の検索クエリとして、2対の検索クエリのペアである(検索クエリQ21、検索クエリQ22)、(検索クエリQ22、検索クエリQ23)を抽出する(ステップS21-2)。
In the example shown in the lower part of FIG. 17, the
続いて、生成装置50は、抽出した検索クエリQ2m(m=1、2、3)を第1モデルM1に入力して、検索クエリQ2m(m=1、2、3)の分散表現であるベクトルBQV2m(m=1、2、3)を出力する。ここで、ベクトルBQV2m(m=1、2、3)は、第1モデルM1の出力層から出力されたばかりの検索クエリQ2m(m=1、2、3)の分散表現であって、第1モデルM1にフィードバックをかける前(学習前)の分散表現を示す(ステップS22-2)。
Subsequently, the
続いて、生成装置50は、同一のユーザU2によって所定の時間内に連続して入力された一対の検索クエリは、所定の検索意図(例えば、「中型の冷蔵庫を調べる」という検索意図)で入力された検索クエリであると推定されるため、相互に類似する特徴を有するものとして、検索クエリQ21の分散表現(ベクトルQV21)と、検索クエリQ21と対となる検索クエリQ22の分散表現(ベクトルQV22)とが、分散表現空間上で類似するように第1モデルM1を学習させる。また、生成装置50は、検索クエリQ22の分散表現(ベクトルQV22)と、検索クエリQ22と対となる検索クエリQ23の分散表現(ベクトルQV23)とが、分散表現空間上で類似するように第1モデルM1を学習させる。このように、生成装置50は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように第1モデルM1を学習させることで、検索クエリから分散表現(ベクトル)を出力する第1モデルM1を生成する(ステップS23-2)。
Subsequently, the
図17の下段に示す情報処理の結果として、検索クエリQ2m(m=1、2、3)の分散表現であるベクトルQV2m(m=1、2、3)が分散表現空間の近い位置にクラスタCL21としてマッピングされる様子が示されている。例えば、検索クエリQ2m(m=1、2、3)は、ユーザU2によって「中型の冷蔵庫を調べる」という検索意図の下で検索された検索クエリの集合であると推定される。すなわち、Q2m(m=1、2、3)は、「中型の冷蔵庫を調べる」という検索意図の下で検索された検索クエリであるという点で、相互に類似する特徴を有する検索クエリであると推定される。ここで、生成装置50は、「中型の冷蔵庫を調べる」という検索意図で入力された所定の検索クエリが第1モデルに入力されると、クラスタCL21の位置にマッピングされるような分散表現を出力することができる。これにより、例えば、生成装置50は、クラスタCL21の位置にマッピングされる分散表現に対応する検索クエリを抽出することにより、「中型の冷蔵庫を調べる」という検索意図に応じた検索クエリを抽出することができる。したがって、生成装置50は、検索クエリの意味を適切に解釈可能とすることができる。
As a result of the information processing shown in the lower part of FIG. 17, the vector QV2m (m = 1, 2, 3), which is a distributed representation of the search query Q2m (m = 1, 2, 3), is located near the distributed representation space of the cluster CL21. It is shown how it is mapped as. For example, the search query Q2m (m = 1, 2, 3) is presumed to be a set of search queries searched by the user U2 with the search intention of "checking a medium-sized refrigerator". That is, Q2m (m = 1, 2, 3) is a search query having similar characteristics in that it is a search query searched with the search intention of "searching for a medium-sized refrigerator". Presumed. Here, the
また、本願発明に係る生成装置50は、ランダムに抽出された複数の検索クエリは、異なる検索意図の下で検索された検索クエリであるという点で、相互に相違する特徴を有する検索クエリであるとみなして第1モデルM1を学習させる。具体的には、生成装置50は、所定の検索クエリの分散表現と、所定の検索クエリとは無関係にランダムに抽出された検索クエリの分散表現とが分散表現空間上で遠くにマッピングされるように第1モデルM1のトレーニングを行う。図17に示す例では、生成装置50は、検索クエリQ11とは無関係にランダムに検索クエリを抽出したところ、検索クエリQ21が抽出されたとする。この場合、生成装置50は、検索クエリQ11の分散表現(ベクトルQV11)と、検索クエリQ11とは無関係にランダムに抽出された検索クエリQ21の分散表現(ベクトルQV21)とが分散表現空間上で遠くにマッピングされるように第1モデルM1のトレーニングを行う。その結果として、「ある場所(東京都港区付近)で飲食店を探す」という検索意図の下で検索された検索クエリQ1k(k=1、2、3、4)の分散表現であるベクトルQV1k(k=1、2、3、4)を含むクラスタCL11と、「中型の冷蔵庫を調べる」という検索意図の下で検索された検索クエリQ2m(m=1、2、3)の分散表現であるベクトルQV2m(m=1、2、3)を含むクラスタCL21とは、分散表現空間上で遠くにマッピングされる。すなわち、本願発明に係る生成装置50は、ランダムに抽出された複数の検索クエリの分散表現が相違するように第1モデルM1を学習させることにより、検索意図が異なる検索クエリの分散表現を分散表現空間上で遠い位置に出力可能とする。
Further, the
なお、生成装置50が生成した第1モデルM1によって出力された分散表現(ベクトル)が分散表現空間にマッピングされた結果として、上述したクラスタCL11とクラスタCL21の他にも、同一のユーザによって所定の時間内に入力された複数の検索クエリの分散表現(ベクトル)の集合であるクラスタCL12やクラスタCL22が生成される。
As a result of mapping the distributed representation (vector) output by the first model M1 generated by the
上述したように、生成装置50は、ユーザによって入力された検索クエリを取得する。また、生成装置50は、取得した検索クエリのうち、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして学習することで、所定の検索クエリから所定の検索クエリの特徴情報を予測する第1モデルを生成する。すなわち、本願発明に係る生成装置50は、所定の時間内に連続して入力された複数の検索クエリは、所定の検索意図の下で検索された検索クエリであるという点で、相互に類似する特徴を有する検索クエリであるとみなして第1モデルを学習させる。具体的には、生成装置50は、同一のユーザによって所定の時間内に入力された複数の検索クエリの分散表現が類似するように第1モデルを学習させることで、所定の検索クエリから所定の検索クエリの特徴情報を含む分散表現を出力する第1モデルを生成する。すなわち、本願発明に係る生成装置50は、所定の時間内に連続して入力された複数の検索クエリの分散表現が類似するように第1モデルM1を学習させることにより、所定の検索意図の下で検索された検索クエリの分散表現を分散表現空間上で近い位置に出力可能とする。これにより、生成装置50は、検索クエリを入力したユーザのコンテクストに応じて検索クエリの意味(検索意図)を出力(解釈)することを可能にする。したがって、生成装置50は、検索クエリの意味を適切に解釈可能とすることができる。さらに、生成装置50は、所定の検索クエリの特徴情報を含む分散表現の近傍にマッピングされる分散表現に対応する検索クエリを抽出することにより、所定の検索クエリが検索された検索意図に応じた検索クエリを抽出することができる。すなわち、生成装置50は、検索クエリを入力したユーザの検索意図やコンテクストを考慮して、ユーザの検索動向を分析することを可能にする。したがって、生成装置50は、ユーザの検索動向の分析精度を高めることができる。また、生成装置50が生成した第1モデルM1を検索システムの一部として機能させることもできる。あるいは、生成装置50は、第1モデルM1によって予測された検索クエリの特徴情報を利用する他のシステム(例えば、検索エンジン)への入力情報として、第1モデルM1が出力した検索クエリの分散表現を提供することもできる。これにより、検索システムは、第1モデルM1によって予測された検索クエリの特徴情報に基づいて、検索結果として出力されるコンテンツを選択可能になる。すなわち、検索システムは、検索クエリを入力したユーザの検索意図やコンテクストを考慮して、検索結果として出力されるコンテンツを選択可能になる。さらに、検索システムは、第1モデルM1によって予測された検索クエリの特徴情報に基づいて、検索結果として出力されるコンテンツに含まれる文字列の分散表現と検索クエリの分散表現との類似度を算出可能になる。そして、検索システムは、算出した類似度に基づいて、検索結果として出力されるコンテンツの表示順を決定可能になる。すなわち、検索システムは、検索クエリを入力したユーザの検索意図やコンテクストを考慮して、検索結果として出力されるコンテンツの表示順を決定可能になる。したがって、生成装置50は、検索サービスにおけるユーザビリティを向上させることができる。
As described above, the
〔3-2.第2学習モデルの生成処理〕
次に、図18を用いて、第2学習モデルの生成処理の流れについて説明する。図18は、実施形態に係る第2学習モデルの生成処理の一例を示す図である。なお、以下では、適宜、第2学習モデルを第2モデル(又は、第2モデルM2)と記載する。図18の上段に示す例では、生成装置50は、同一のユーザU1によって所定の時間内に連続して入力された4個の検索クエリである検索クエリQ11(「六本木 パスタ」)、検索クエリQ12(「六本木 イタリアン」)、検索クエリQ13(「赤坂 パスタ」)、検索クエリQ14(「麻布 パスタ」)を抽出する。生成装置50は、同一のユーザU1によって各検索クエリが入力された時間の間隔が所定の時間内である複数の検索クエリを抽出する。また、生成装置50は、同一のユーザU1によって各検索クエリのペアが入力された時間の間隔が所定の時間内である複数の検索クエリを抽出する。ここで、4個の検索クエリは、検索クエリQ11、検索クエリQ12、検索クエリQ13、検索クエリQ14の順番でユーザU1によって各検索クエリが所定の時間内に入力された検索クエリであるとする。生成装置50は、4個の検索クエリを抽出すると、時系列的に隣り合う2つの検索クエリを一対の検索クエリとして、3対の検索クエリのペアである(検索クエリQ11、検索クエリQ12)、(検索クエリQ12、検索クエリQ13)、(検索クエリQ13、検索クエリQ14)を抽出する。生成装置50は、3対の検索クエリのペアを抽出すると、抽出した検索クエリQ1k(k=1、2、3、4)を第1モデルM1に入力する(ステップS31)。なお、生成装置50は、同一のユーザU1によって全ての検索クエリが所定の時間内に入力された複数の検索クエリを抽出してもよい。そして、生成装置50は、時系列的に隣り合うか否かに関わらず、抽出した複数の検索クエリの中から2つの検索クエリを選択して、選択した2つの検索クエリを一対の検索クエリとして抽出してもよい。
[3-2. Second learning model generation process]
Next, the flow of the generation process of the second learning model will be described with reference to FIG. FIG. 18 is a diagram showing an example of a generation process of the second learning model according to the embodiment. In the following, the second learning model will be referred to as a second model (or a second model M2) as appropriate. In the example shown in the upper part of FIG. 18, the
続いて、生成装置50は、検索クエリQ1k(k=1、2、3、4)の分散表現であるベクトルBQV1k(k=1、2、3、4)を第1モデルM1の出力データとして出力する(ステップS32)。ここで、ベクトルBQV1k(k=1、2、3、4)は、第1モデルM1の出力層から出力されたばかりの検索クエリQ1k(k=1、2、3、4)の分散表現であって、第1モデルM1にフィードバックをかける前(学習前)の分散表現を示す。
Subsequently, the
ここで、同一のユーザU1によって所定の時間内に連続して入力された検索クエリQ1k(k=1、2、3、4)は、例えば、ユーザU1によって「ある場所(東京都港区付近)で飲食店を探す」という検索意図の下で検索された検索クエリの集合であると推定される。すなわち、検索クエリQ1k(k=1、2、3、4)は、「ある場所(東京都港区付近)で飲食店を探す」という検索意図の下で検索された検索クエリであるという点で、相互に類似する特徴を有する検索クエリであると推定される。そこで、生成装置50は、連続して入力された検索クエリが類似する特徴を有するものとして学習することで、所定の検索クエリから所定の検索クエリの特徴情報を予測する第1モデルを生成する(ステップS33)。具体的には、生成装置50は、連続して入力された検索クエリの分散表現が類似するものとして学習することで、所定の検索クエリから所定の検索クエリの分散表現を予測する第1モデルM1を生成する。例えば、生成装置50は、検索クエリQ11の分散表現(ベクトルQV11)と、検索クエリQ11と対となる検索クエリQ12の分散表現(ベクトルQV12)とが、分散表現空間上で類似するように第1モデルM1を学習させる。また、生成装置50は、検索クエリQ12の分散表現(ベクトルQV12)と、検索クエリQ12と対となる検索クエリQ13の分散表現(ベクトルQV13)とが、分散表現空間上で類似するように第1モデルM1を学習させる。また、生成装置50は、検索クエリQ13の分散表現(ベクトルQV13)と、検索クエリQ13と対となる検索クエリQ14の分散表現(ベクトルQV14)とが、分散表現空間上で類似するように第1モデルM1を学習させる。
Here, the search query Q1k (k = 1, 2, 3, 4) continuously input by the same user U1 within a predetermined time is, for example, "a certain place (near Minato-ku, Tokyo)" by the user U1. It is presumed to be a set of search queries searched under the search intention of "searching for a restaurant in." That is, the search query Q1k (k = 1, 2, 3, 4) is a search query searched with the search intention of "searching for a restaurant in a certain place (near Minato-ku, Tokyo)". , Is presumed to be a search query with similar characteristics. Therefore, the
図18の上段の右側には、学習済みの第1モデルM1の出力結果として、同一のユーザU1によって所定の時間内に入力された検索クエリQ1k(k=1、2、3、4)の分散表現であるベクトルQV1k(k=1、2、3、4)が分散表現空間のクラスタCL11としてマッピングされる様子が示されている。このように、生成装置50は、同一のユーザによって所定の時間内に入力された複数の検索クエリが有する特徴を学習した第1学習モデルM1を生成する。
On the right side of the upper part of FIG. 18, as the output result of the trained first model M1, the variance of the search query Q1k (k = 1, 2, 3, 4) input by the same user U1 within a predetermined time is distributed. It is shown that the representation vector QV1k (k = 1, 2, 3, 4) is mapped as the cluster CL11 in the distributed representation space. As described above, the
生成装置50は、第1モデルM1を生成すると、生成した第1モデルM1(第1モデルM1のモデルデータMDT1)を取得する。生成装置50は、第1モデルM1を取得すると、取得した第1モデルM1を用いて、第2学習モデルM2を生成する。具体的には、生成装置50は、第1モデルM1を再学習させることにより、第1モデルM1とは学習モデルの重みである接続係数が異なる第2モデルM2を生成する。より具体的には、生成装置50は、第1モデルM1を用いて、所定の検索クエリから所定の検索クエリが属するカテゴリを予測する第2学習モデルM2を生成する(ステップS34)。
When the
図18の下段に示す例では、生成装置50は、検索クエリが第2モデルM2に入力された際に、CAT11(「飲食店を探す」)、CAT12(「商品を探す」)、CAT13(「飲食店を予約する」)、CAT14(「商品を購入する」)の4つのカテゴリのいずれのカテゴリに属するかを予測する第2モデルM2を生成する。具体的には、生成装置50は、入力情報として検索クエリが第2モデルM2に入力された際に、出力情報として検索クエリがそのカテゴリに属する確率をカテゴリ毎に出力する第2モデルM2を生成する。例えば、生成装置50は、第2モデルM2の正解データとして、検索クエリと検索クエリが属するカテゴリ(CAT11~CAT14のいずれか)との組を学習する。
In the example shown in the lower part of FIG. 18, when the search query is input to the second model M2, the
なお、検索クエリがCAT11(「飲食店を探す」)に属することは、検索クエリが飲食店を探す意図で入力された検索クエリであることを示す。また、CAT12(「商品を探す」)に属することは、検索クエリが商品を探す意図で入力された検索クエリであることを示す。また、検索クエリがCAT13(「飲食店を予約する」)に属することは、検索クエリが飲食店を予約する意図で入力された検索クエリであることを示す。また、検索クエリがCAT14(「商品を購入する」)に属することは、検索クエリが商品を購入する意図で入力された検索クエリであることを示す。 The fact that the search query belongs to CAT11 (“search for a restaurant”) indicates that the search query is a search query entered with the intention of searching for a restaurant. Further, belonging to CAT12 (“searching for a product”) indicates that the search query is a search query entered with the intention of searching for a product. Further, the fact that the search query belongs to CAT13 (“reserving a restaurant”) indicates that the search query is a search query input with the intention of reserving a restaurant. Further, the fact that the search query belongs to CAT 14 (“purchase a product”) indicates that the search query is a search query input with the intention of purchasing a product.
具体的には、生成装置50は、検索クエリが学習モデルに入力された際に、学習モデルが出力する分散表現の分類結果が、検索クエリが属するカテゴリに対応するように学習することで、所定の検索クエリから所定の検索クエリが属するカテゴリを予測する第2モデルM2を生成する。そして、生成装置50は、例えば、入力情報として検索クエリが第2モデルM2に入力された際に、出力情報として検索クエリがそのカテゴリに属する確率をカテゴリCAT11~CAT14毎に出力する第2モデルM2を生成する。
Specifically, the
例えば、生成装置50は、入力情報として検索クエリQ11(「六本木 パスタ」)が第2モデルM2に入力された際に(ステップS35)、出力情報として検索クエリQ11(「六本木 パスタ」)の分散表現であるベクトルBQV11を出力する。ここで、ベクトルBQV11は、第2モデルM2の出力層から出力されたばかりの検索クエリQ11の分散表現であって、第2モデルM2にフィードバックをかける前(学習前)の分散表現を示す。ここで、検索クエリQ11(「六本木 パスタ」)が属する正解カテゴリがCAT11(「飲食店を探す」)であるとする。この場合、生成装置50は、出力された検索クエリQ11(「六本木 パスタ」)の分散表現であるベクトルBQV11がCAT11(「飲食店を探す」)に分類される確率が所定の閾値を超えるように第2モデルM2を学習させる。なお、生成装置50は、あらかじめ用意された正解データを用いて第2モデルを学習させる。生成装置50は、第2モデルM2の正解データを生成してもよい。そして、生成装置50は、生成した正解データを用いて第2モデルM2を学習させてもよい。具体的には、生成装置50は、検索クエリを検索したユーザの検索後の行動に基づいて、検索クエリが属する正解カテゴリを決定する。より具体的には、生成装置50は、所定の検索クエリを検索したユーザに対して、検索後に所定の行動を起こしたユーザの割合が所定の閾値を超える所定の行動を、正解カテゴリに対応する行動として決定する。例えば、検索クエリQ11(「六本木 パスタ」)を検索したユーザが検索後に所定の行動を起こしたユーザの割合として、飲食店を探す行動を起こしたユーザの割合が90%、検索後に商品を探す行動を起こしたユーザの割合が0%、検索後に飲食店を予約する行動を起こしたユーザの割合が10%、検索後に商品を購入する行動を起こしたユーザの割合が0%であったとする。この場合、生成装置50は、飲食店を探す行動を起こしたユーザの割合が所定の閾値(例えば、90%)を超えるため、飲食店を探す行動を検索クエリQ11(「六本木 パスタ」)の正解カテゴリに対応する行動として決定する。そして、生成装置50は、正解カテゴリに対応する行動を飲食店を探す行動であると決定したので、検索クエリQ11(「六本木 パスタ」)が属する正解カテゴリをCAT11(「飲食店を探す」)に決定する。
For example, the
例えば、生成装置50は、学習前の第2モデルM2に検索クエリQ11(「六本木 パスタ」)が入力された際に、分散表現であるベクトルBQV11がCAT11(「飲食店を探す」)に分類される確率を80%、CAT12(「商品を探す」)に分類される確率を0%、CAT13(「飲食店を予約」)に分類される確率を20%、CAT14(「商品を購入する」)に分類される確率を0%と出力したとする。この場合、生成装置50は、分散表現であるベクトルBQV11がCAT11(「飲食店を探す」)に分類される確率を所定の閾値(例えば、90%)を超えるように第2モデルM2を学習させる。また、生成装置50は、分散表現であるベクトルBQV11がCAT11(「飲食店を探す」)に分類される確率が所定の閾値(例えば、90%)を超えるように学習させるのに合わせて、分散表現であるベクトルBQV11が他のカテゴリCAT13(「飲食店を予約」)に分類される確率を10%に下げるように第2モデルM2を学習させる。
For example, in the
このように、生成装置50は、入力情報として所定の検索クエリが入力されると、出力情報として所定の検索クエリの分散表現が正解カテゴリに分類される確率が所定の閾値を超えるように第2モデルを学習させる。そして、生成装置50は、入力情報として所定の検索クエリが入力された際に、所定の検索クエリの分散表現がそのカテゴリに属する確率が所定の閾値を超えるカテゴリを、所定の検索クエリのカテゴリとして出力する。例えば、生成装置50は、学習済みの第2モデルM2に入力情報として検索クエリQ11(「六本木 パスタ」)が入力されると、検索クエリQ11(「六本木 パスタ」)の分散表現であるベクトルBQV11がカテゴリCAT11(「飲食店を探す」)に属する確率が90%を超えるので、出力情報として検索クエリが属するカテゴリをCAT11(「飲食店を探す」)と出力する(ステップS36)。このように、生成装置50は、検索クエリと検索クエリの正解カテゴリとの組を学習することで、所定の検索クエリから所定の検索クエリのカテゴリを予測する第2モデルを生成する(ステップS37)。
As described above, when the predetermined search query is input as the input information, the
一般的に、ユーザはある意図を持って検索を複数回行うと考えられるため、所定の時間内に連続して入力された検索クエリは、検索意図が近いという仮定が成り立つ。そこで、本願発明に係る生成装置50は、所定の時間内に連続して入力された複数の検索クエリは、所定の検索意図の下で検索された検索クエリであるという点で、相互に類似する特徴を有する検索クエリであるとみなして第1モデルM1を学習させる。これにより、生成装置50は、検索意図を考慮した検索クエリの特徴を第1モデルM1に学習させることができる。そして、生成装置50は、検索意図を考慮した検索クエリの特徴を学習した第1モデルM1を活用して、所定の検索クエリから所定の検索クエリのカテゴリを予測する第2モデルを効率的に生成することができる。これにより、生成装置50は、検索クエリを入力したユーザの検索意図を考慮したカテゴリに検索クエリを分類することを可能にする。また、従来、検索クエリをカテゴリに分類し、高い分類精度を得るためには、十分な量の正解データを用意することが必要であった。しかしながら、検索クエリ自体、多種多様であり、ロングテイルな性質を持つものであるため、多数の検索クエリに対応する正解カテゴリをラベル付けするのは、非常に手間がかかり困難である。ここで、生成装置50は、正解カテゴリをラベル付けする代わりに、ユーザの検索意図(検索クエリを入力したユーザのコンテクスト)を一種の正解として、検索クエリのカテゴリを予測する第2モデルを学習させることができる。これにより、生成装置50は、人手で検索クエリの正解カテゴリをラベル付けすることなく、第2モデルを学習させることができる。すなわち、生成装置50は、正解データが少ないときでも、十分な分類精度を得られるようになる。また、生成装置50は、正解データが多いときであれば、さらに高い分類精度を得られるようになる。したがって、生成装置50は、検索クエリの分類精度を高めることができる。
In general, it is considered that the user performs a search a plurality of times with a certain intention, so that it is assumed that the search queries that are continuously input within a predetermined time have similar search intentions. Therefore, the
〔3-3.情報処理装置の構成〕
次に、図19を用いて、実施形態に係る生成装置50の構成について説明する。図19は、実施形態に係る生成装置50の構成例を示す図である。図19に示すように、生成装置50は、通信部51と、記憶部53と、制御部52とを有する。なお、生成装置50は、生成装置50の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
[3-3. Information processing device configuration]
Next, the configuration of the
(通信部51)
通信部51は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部51は、ネットワークと有線または無線で接続され、例えば、ユーザ端末10と、検索サーバ20との間で情報の送受信を行う。
(Communication unit 51)
The
(記憶部53)
記憶部53は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部53は、図19に示すように、クエリ情報記憶部531と、ベクトル情報記憶部532と、分類定義記憶部533と、カテゴリ情報記憶部534と、モデル情報記憶部535とを有する。
(Memory unit 53)
The storage unit 53 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. As shown in FIG. 19, the storage unit 53 includes a query
(クエリ情報記憶部531)
クエリ情報記憶部531は、ユーザによって入力された検索クエリに関する各種の情報を記憶する。図20に、実施形態に係るクエリ情報記憶部の一例を示す。図20に示す例では、クエリ情報記憶部531は、「ユーザID」、「日時」、「検索クエリ」、「検索クエリID」といった項目を有する。
(Query information storage unit 531)
The query
「ユーザID」は、検索クエリを入力したユーザを識別するための識別情報を示す。「日時」は、検索サーバがユーザから検索クエリを受け付けた日時を示す。「検索クエリ」は、ユーザによって入力された検索クエリを示す。「検索クエリID」は、ユーザによって入力された検索クエリを識別するための識別情報を示す。 The "user ID" indicates identification information for identifying the user who entered the search query. "Date and time" indicates the date and time when the search server received the search query from the user. A "search query" indicates a search query entered by the user. The "search query ID" indicates identification information for identifying the search query entered by the user.
図20の1レコード目に示す例では、検索クエリID「Q11」で識別される検索クエリ(検索クエリQ11)は、図16に示した検索クエリQ11に対応する。また、ユーザID「U1」は、検索クエリQ11を入力したユーザがユーザID「U1」で識別されるユーザ(ユーザU1)であることを示す。また、日時「2018/9/1 PM17:00」は、検索サーバがユーザU1から検索クエリQ11を受け付けた日時が2018年9月1日の午後17:00であることを示す。また、検索クエリ「六本木 パスタ」は、ユーザU1によって入力された検索クエリQ11を示す。具体的には、検索クエリ「六本木 パスタ」は、地名を示す「六本木」と食品の種類を示す「パスタ」の文字とが区切り文字であるスペースで区切られた文字列であることを示す。 In the example shown in the first record of FIG. 20, the search query (search query Q11) identified by the search query ID "Q11" corresponds to the search query Q11 shown in FIG. Further, the user ID "U1" indicates that the user who entered the search query Q11 is the user (user U1) identified by the user ID "U1". Further, the date and time "2018/9/1 PM 17:00" indicates that the date and time when the search server receives the search query Q11 from the user U1 is 17:00 pm on September 1, 2018. Further, the search query "Roppongi pasta" indicates the search query Q11 input by the user U1. Specifically, the search query "Roppongi pasta" indicates that the characters "Roppongi" indicating the place name and the characters "pasta" indicating the type of food are separated by a space which is a delimiter.
(ベクトル情報記憶部532)
ベクトル情報記憶部532は、検索クエリの分散表現であるベクトルに関する各種の情報を記憶する。図21に、実施形態に係るベクトル情報記憶部の一例を示す。図21に示す例では、ベクトル情報記憶部532は、「ベクトルID」、「検索クエリID」、「ベクトル情報」といった項目を有する。
(Vector information storage unit 532)
The vector
「ベクトルID」は、検索クエリの分散表現であるベクトルを識別するための識別情報を示す。「検索クエリID」は、ベクトルに対応する検索クエリを識別するための識別情報を示す。「ベクトル情報」は、検索クエリの分散表現であるN次元のベクトルを示す。検索クエリの分散表現であるベクトルは、例えば、128次元のベクトルである。 The "vector ID" indicates identification information for identifying a vector which is a distributed representation of a search query. The "search query ID" indicates identification information for identifying the search query corresponding to the vector. "Vector information" indicates an N-dimensional vector which is a distributed representation of a search query. The vector, which is a distributed representation of the search query, is, for example, a 128-dimensional vector.
図21の1レコード目に示す例では、ベクトルID「QV11」で識別されるベクトル(ベクトルQV11)は、図16に示した検索クエリQ11の分散表現であるベクトルQV11に対応する。また、検索クエリID「Q11」で識別される検索クエリ(検索クエリQ11)は、ベクトルQV11に対応する検索クエリが検索クエリQ11であることを示す。また、ベクトル情報「QVDT11」は、検索クエリQ11の分散表現であるN次元のベクトルを示す。 In the example shown in the first record of FIG. 21, the vector (vector QV11) identified by the vector ID “QV11” corresponds to the vector QV11 which is the distributed representation of the search query Q11 shown in FIG. Further, the search query (search query Q11) identified by the search query ID "Q11" indicates that the search query corresponding to the vector QV11 is the search query Q11. Further, the vector information "QVDT11" indicates an N-dimensional vector which is a distributed representation of the search query Q11.
(分類定義記憶部533)
分類定義記憶部533は、検索クエリが分類されるカテゴリの定義に関する各種の情報を記憶する。図22に、実施形態に係る分類定義記憶部の一例を示す。図22に示す例では、分類定義記憶部533は、「大分類ID」、「大分類」、「小分類ID」、「小分類」といった項目を有する。
(Classification definition storage unit 533)
The classification definition storage unit 533 stores various information regarding the definition of the category in which the search query is classified. FIG. 22 shows an example of the classification definition storage unit according to the embodiment. In the example shown in FIG. 22, the classification definition storage unit 533 has items such as "major classification ID", "major classification", "minor classification ID", and "minor classification".
「大分類」は、検索クエリが分類されるカテゴリの大分類を示す。「大分類ID」は、大分類を識別するための識別情報を示す。図22に示す例では、大分類「購買行動系」は、図1の下段に示す例で説明した大分類に対応する。大分類「購買行動系」は、検索クエリをユーザの購買行動に基づいて分類するカテゴリの大分類を示す。図22に示す例では、大分類「購買行動系」は、さらに4つの小分類を有する。大分類ID「CAT1」は、大分類「購買行動系」を識別するための識別情報を示す。 "Major classification" indicates a major classification of the category in which the search query is classified. The "major classification ID" indicates identification information for identifying the major classification. In the example shown in FIG. 22, the major classification “purchasing behavior system” corresponds to the major classification described in the example shown in the lower part of FIG. Major classification "Purchasing behavior system" indicates a major classification of categories that classify search queries based on the user's purchasing behavior. In the example shown in FIG. 22, the major classification "purchasing behavior system" has four further minor classifications. The major classification ID "CAT1" indicates identification information for identifying the major classification "purchasing behavior system".
「小分類」、検索クエリが分類されるカテゴリの小分類を示す。「小分類ID」は、小分類を識別するための識別情報を示す。図22に示す例では、小分類「飲食店を探す」は、大分類「購買行動系」に属する分類であって、小分類に分類される検索クエリが、ユーザによって飲食店を探す意図で入力された検索クエリであることを示す。小分類ID「CAT11」は、小分類「飲食店を探す」を識別するための識別情報を示す。 "Minor classification", indicates the subclassification of the category in which the search query is classified. The "minor classification ID" indicates identification information for identifying the minor classification. In the example shown in FIG. 22, the minor classification "find a restaurant" is a classification belonging to the major classification "purchasing behavior system", and the search query classified into the minor classification is input with the intention of searching for a restaurant by the user. Indicates that the search query was made. The sub-category ID "CAT11" indicates identification information for identifying the sub-category "find a restaurant".
小分類「商品を探す」は、大分類「購買行動系」に属する分類であって、小分類に分類される検索クエリが、ユーザによって商品を探す意図で入力された検索クエリであることを示す。小分類ID「CAT12」は、小分類「商品を探す」を識別するための識別情報を示す。 The sub-category "search for products" is a category that belongs to the major category "purchasing behavior system", and indicates that the search query classified in the sub-category is a search query entered by the user with the intention of searching for products. .. The sub-classification ID "CAT12" indicates identification information for identifying the sub-classification "search for a product".
小分類「飲食店を予約」は、大分類「購買行動系」に属する分類であって、小分類に分類される検索クエリが、ユーザによって飲食店を予約する意図で入力された検索クエリであることを示す。小分類ID「CAT13」は、小分類「飲食店を予約」を識別するための識別情報を示す。 The sub-category "reserve a restaurant" is a category that belongs to the major category "purchasing behavior system", and the search query classified into the sub-category is a search query input by the user with the intention of reserving a restaurant. Show that. The sub-category ID "CAT13" indicates identification information for identifying the sub-category "reserve a restaurant".
小分類「商品を購入」は、大分類「購買行動系」に属する分類であって、小分類に分類される検索クエリが、ユーザによって商品を購入する意図で入力された検索クエリであることを示す。小分類ID「CAT14」は、小分類「商品を購入」を識別するための識別情報を示す。 The sub-category "Purchase a product" is a category that belongs to the major category "Purchase behavior system", and the search query classified in the sub-category is a search query entered by the user with the intention of purchasing the product. show. The sub-category ID "CAT14" indicates identification information for identifying the sub-category "purchase a product".
(カテゴリ情報記憶部534)
カテゴリ情報記憶部534は、検索クエリが属するカテゴリに関する各種の情報を記憶する。具体的には、カテゴリ情報記憶部534は、学習済みの第2学習モデルに検索クエリが入力された際に、第2学習モデルが出力するカテゴリに関する各種の情報を記憶する。図23に、実施形態に係るカテゴリ情報記憶部の一例を示す。図23に示す例では、カテゴリ情報記憶部534は、「検索クエリID」、「大分類ID」、「小分類ID」、「確率(%)」といった項目を有する。
(Category information storage unit 534)
The category
「検索クエリID」は、ユーザによって入力された検索クエリを識別するための識別情報を示す。図23に示す例では、検索クエリID「Q11」で識別される検索クエリ(検索クエリQ11)は、図18に示した検索クエリQ11に対応する。 The "search query ID" indicates identification information for identifying the search query entered by the user. In the example shown in FIG. 23, the search query (search query Q11) identified by the search query ID "Q11" corresponds to the search query Q11 shown in FIG.
「大分類ID」は、大分類を識別するための識別情報を示す。「小分類ID」は、小分類を識別するための識別情報を示す。「確率(%)」は、学習済みの第2学習モデルに検索クエリが入力された際に、第2学習モデルが出力する小分類毎の確率を示す。図23に示す例では、確率(%)「90」は、検索クエリQ11がカテゴリCAT11に分類される確率が90%であることを示す。 The "major classification ID" indicates identification information for identifying the major classification. The "minor classification ID" indicates identification information for identifying the minor classification. The "probability (%)" indicates the probability for each subclass output by the second learning model when a search query is input to the trained second learning model. In the example shown in FIG. 23, the probability (%) "90" indicates that the probability that the search query Q11 is classified into the category CAT11 is 90%.
(モデル情報記憶部535)
モデル情報記憶部535は、生成装置50によって生成された学習モデルに関する各種の情報を記憶する。図24に、実施形態に係るモデル情報記憶部の一例を示す。図24に示す例では、モデル情報記憶部535は、「モデルID」、「モデルデータ」といった項目を有する。
(Model information storage unit 535)
The model
「モデルID」は、生成装置50によって生成された学習モデルを識別するための識別情報を示す。「モデルデータ」は、生成装置50によって生成された学習モデルのモデルデータを示す。例えば、「モデルデータ」には、検索クエリを分散表現に変換するためのデータが格納される。
The "model ID" indicates identification information for identifying the learning model generated by the
図24の1レコード目に示す例では、モデルID「M1」で識別される学習モデルは、図1に示した第1モデルM1に対応する。また、モデルデータ「MDT1」は、生成装置50によって生成された第1モデルM1のモデルデータ(モデルデータMDT1)を示す。
In the example shown in the first record of FIG. 24, the learning model identified by the model ID “M1” corresponds to the first model M1 shown in FIG. Further, the model data "MDT1" indicates model data (model data MDT1) of the first model M1 generated by the
モデルデータMDT1は、検索クエリが入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された検索クエリに応じて、入力層に入力された検索クエリの分散表現を出力層から出力するよう、生成装置50を機能させてもよい。
The model data MDT1 includes an input layer into which a search query is input, an output layer, a first element which is any layer from the input layer to the output layer and belongs to a layer other than the output layer, and the first element and the first element. The output layer outputs a distributed representation of the search query input to the input layer according to the search query input to the input layer, including the second element whose value is calculated based on the weight of one element. As such, the
ここで、モデルデータMDT1が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。 Here, it is assumed that the model data MDT1 is realized by the regression model shown by "y = a1 * x1 + a2 * x2 + ... + ai * xi". In this case, the first element included in the model data MDT1 corresponds to input data (xi) such as x1 and x2. Further, the weight of the first element corresponds to the coefficient ai corresponding to xi. Here, the regression model can be regarded as a simple perceptron having an input layer and an output layer. When each model is regarded as a simple perceptron, the first element corresponds to any node of the input layer, and the second element can be regarded as the node of the output layer.
また、モデルデータMDT1がDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、モデルデータMDT1が含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。 Further, it is assumed that the model data MDT1 is realized by a neural network having one or a plurality of intermediate layers such as DNN (Deep Neural Network). In this case, the first element included in the model data MDT1 corresponds to either the node of the input layer or the intermediate layer. Further, the second element corresponds to a node in the next stage, which is a node to which a value is transmitted from a node corresponding to the first element. Further, the weight of the first element corresponds to a connection coefficient which is a weight considered for the value transmitted from the node corresponding to the first element to the node corresponding to the second element.
生成装置50は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルを用いて、分散表現の算出を行う。具体的には、モデルデータMDT1は、検索クエリが入力された場合に、分散表現を出力するように係数が設定される。生成装置50は、このようなモデルデータMDT1を用いて、分散表現を算出する。
The
なお、上記例では、モデルデータMDT1が、検索クエリが入力された場合に、検索クエリの分散表現を出力するモデル(以下、モデルX1という。)である例を示した。しかし、実施形態に係るモデルデータMDT1は、モデルX1にデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。例えば、モデルデータMDT1は、検索クエリを入力とした際に、モデルX1が出力した分散表現を入力して学習されたモデル(以下、モデルY1という。)であってもよい。または、モデルデータMDT1は、検索クエリを入力とし、モデルY1の出力値を出力とするよう学習されたモデルであってもよい。 In the above example, the model data MDT1 is a model (hereinafter referred to as model X1) that outputs a distributed representation of the search query when the search query is input. However, the model data MDT1 according to the embodiment may be a model generated based on the result obtained by repeating the input / output of data to the model X1. For example, the model data MDT1 may be a model (hereinafter referred to as model Y1) learned by inputting the distributed representation output by the model X1 when the search query is input. Alternatively, the model data MDT1 may be a model trained to input a search query and output the output value of the model Y1.
また、生成装置50がGAN(Generative Adversarial Networks)を用いた推定処理を行う場合、モデルデータMDT1は、GANの一部を構成するモデルであってもよい。
Further, when the
図24の2レコード目に示す例では、モデルID「M2」で識別される学習モデルは、図1に示した第2モデルM2に対応する。また、モデルデータ「MDT2」は、生成装置50によって生成された第2モデルM2のモデルデータ(モデルデータMDT2)を示す。
In the example shown in the second record of FIG. 24, the learning model identified by the model ID “M2” corresponds to the second model M2 shown in FIG. Further, the model data "MDT2" indicates model data (model data MDT2) of the second model M2 generated by the
モデルデータMDT2は、検索クエリが入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された検索クエリに応じて、入力層に入力された検索クエリが各カテゴリに属する確率を出力層から出力するよう、生成装置50を機能させてもよい。
The model data MDT2 includes an input layer into which a search query is input, an output layer, a first element which is any layer from the input layer to the output layer and belongs to a layer other than the output layer, and the first element and the first element. An output layer that includes a second element whose value is calculated based on the weight of one element, and the probability that the search query input to the input layer belongs to each category according to the search query input to the input layer. The
ここで、モデルデータMDT2が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、モデルデータMDT2が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。 Here, it is assumed that the model data MDT2 is realized by the regression model shown by "y = a1 * x1 + a2 * x2 + ... + ai * xi". In this case, the first element included in the model data MDT2 corresponds to input data (xi) such as x1 and x2. Further, the weight of the first element corresponds to the coefficient ai corresponding to xi. Here, the regression model can be regarded as a simple perceptron having an input layer and an output layer. When each model is regarded as a simple perceptron, the first element corresponds to any node of the input layer, and the second element can be regarded as the node of the output layer.
また、モデルデータMDT2がDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、モデルデータMDT2が含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。 Further, it is assumed that the model data MDT2 is realized by a neural network having one or a plurality of intermediate layers such as DNN (Deep Neural Network). In this case, the first element included in the model data MDT2 corresponds to either the node of the input layer or the intermediate layer. Further, the second element corresponds to a node in the next stage, which is a node to which a value is transmitted from a node corresponding to the first element. Further, the weight of the first element corresponds to a connection coefficient which is a weight considered for the value transmitted from the node corresponding to the first element to the node corresponding to the second element.
生成装置50は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有するモデルを用いて、検索クエリが各カテゴリに属する確率の算出を行う。具体的には、モデルデータMDT2は、検索クエリが入力された場合に、検索クエリが各カテゴリに属する確率を出力するように係数が設定される。生成装置50は、このようなモデルデータMDT2を用いて、検索クエリが各カテゴリに属する確率を算出する。
The
なお、上記例では、モデルデータMDT2が、検索クエリが入力された場合に、検索クエリの分散表現を出力するモデル(以下、モデルX2という。)である例を示した。しかし、実施形態に係るモデルデータMDT2は、モデルX2にデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。例えば、モデルデータMDT2は、検索クエリを入力とした際に、モデルX2が出力した分散表現を入力して学習されたモデル(以下、モデルY2という。)であってもよい。または、モデルデータMDT2は、検索クエリを入力とし、モデルY2の出力値を出力とするよう学習されたモデルであってもよい。 In the above example, the model data MDT2 is a model (hereinafter referred to as model X2) that outputs a distributed representation of the search query when the search query is input. However, the model data MDT2 according to the embodiment may be a model generated based on the result obtained by repeating the input / output of data to the model X2. For example, the model data MDT2 may be a model (hereinafter referred to as model Y2) learned by inputting the distributed representation output by the model X2 when the search query is input. Alternatively, the model data MDT2 may be a model trained to input a search query and output the output value of the model Y2.
また、生成装置50がGAN(Generative Adversarial Networks)を用いた推定処理を行う場合、モデルデータMDT2は、GANの一部を構成するモデルであってもよい。
Further, when the
(制御部52)
図19の説明に戻って、制御部52は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、生成装置50内部の記憶装置に記憶されている各種プログラム(生成プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部52は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(Control unit 52)
Returning to the description of FIG. 19, the control unit 52 is a controller, and is stored in a storage device inside the
また、制御部52は、モデル情報記憶部535に記憶されている第1モデルM1(モデルデータMDT1)に従った情報処理により、入力層に入力された検索クエリに対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、分散表現を出力層から出力するよう、コンピュータを機能させる。
Further, the control unit 52 sends the search query input to the input layer to each layer other than the output layer by information processing according to the first model M1 (model data MDT1) stored in the model
また、制御部52は、モデル情報記憶部535に記憶されている第2モデルM2(モデルデータMDT2)に従った情報処理により、入力層に入力された検索クエリに対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、検索クエリが各カテゴリに属する確率を出力層から出力するよう、コンピュータを機能させる。
Further, the control unit 52 sends the search query input to the input layer to each layer other than the output layer by information processing according to the second model M2 (model data MDT2) stored in the model
図19に示すように、制御部52は、取得部521と、抽出部522と、生成部523を有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部52の内部構成は、図19に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。 As shown in FIG. 19, the control unit 52 has an acquisition unit 521, an extraction unit 522, and a generation unit 523, and realizes or executes the information processing operation described below. The internal configuration of the control unit 52 is not limited to the configuration shown in FIG. 19, and may be any other configuration as long as it is configured to perform information processing described later.
(取得部521)
取得部521は、種々の情報を取得する。具体的には、取得部521は、ユーザによって入力された検索クエリを検索サーバ20から取得する。取得部521は、ユーザによって入力された検索クエリを取得すると、取得した検索クエリをクエリ情報記憶部531に格納する。また、取得部521は、検索クエリの分散表現であるベクトルに関するベクトル情報を取得する。取得部521は、ベクトル情報を取得すると、取得したベクトル情報をベクトル情報記憶部532に格納する。また、取得部521は、検索クエリと検索クエリが属するカテゴリの分類を定義する情報を取得する。取得部521は、検索クエリと検索クエリが属するカテゴリの分類を定義する分類定義情報を取得すると、取得した分類定義情報を分類定義記憶部533に格納する。また、取得部521は、検索クエリが属するカテゴリに関するカテゴリ情報を取得する。取得部521は、カテゴリ情報を取得すると、取得したカテゴリ情報をカテゴリ情報記憶部534に格納する。
(Acquisition unit 521)
The acquisition unit 521 acquires various information. Specifically, the acquisition unit 521 acquires the search query input by the user from the
(抽出部522)
抽出部522は、種々の情報を抽出する。具体的には、抽出部522は、取得部521によって取得された検索クエリのうち、同一のユーザによって所定の時間内に入力された複数の検索クエリを抽出する。例えば、抽出部522は、同一のユーザによって各検索クエリが入力された時間の間隔が所定の時間内である複数の検索クエリを抽出する。続いて、抽出部522は、同一のユーザによって所定の時間内に入力された複数の検索クエリのうち、同一のユーザによって所定の時間内に連続して入力された一対の検索クエリを抽出する。例えば、抽出部522は、同一のユーザによって各検索クエリのペアが入力された時間の間隔が所定の時間内である複数の検索クエリを抽出する。例えば、抽出部522は、取得部521によって取得された検索クエリのうち、同一のユーザU1によって所定の時間内に連続して入力された4個の検索クエリである検索クエリQ11(「六本木 パスタ」)、検索クエリQ12(「六本木 イタリアン」)、検索クエリQ13(「赤坂 パスタ」)、検索クエリQ14(「麻布 パスタ」)を抽出する。抽出部522は、検索クエリが入力された順番に並べると、検索クエリQ11、検索クエリQ12、検索クエリQ13、検索クエリQ14の順番で入力された4個の検索クエリを抽出する。続いて、抽出部522は、4個の検索クエリを抽出すると、時系列的に隣り合う2つの検索クエリを一対の検索クエリとして、3対の検索クエリのペアである(検索クエリQ11、検索クエリQ12)、(検索クエリQ12、検索クエリQ13)、(検索クエリQ13、検索クエリQ14)を抽出する。なお、抽出部522は、同一のユーザによって全ての検索クエリが所定の時間内に入力された複数の検索クエリを抽出してもよい。そして、抽出部522は、時系列的に隣り合うか否かに関わらず、抽出した複数の検索クエリの中から2つの検索クエリを選択して、選択した2つの検索クエリを一対の検索クエリとして抽出してもよい。
(Extraction unit 522)
The extraction unit 522 extracts various information. Specifically, the extraction unit 522 extracts a plurality of search queries input by the same user within a predetermined time from the search queries acquired by the acquisition unit 521. For example, the extraction unit 522 extracts a plurality of search queries in which the time interval in which each search query is input by the same user is within a predetermined time. Subsequently, the extraction unit 522 extracts a pair of search queries continuously input by the same user within a predetermined time from among a plurality of search queries input by the same user within a predetermined time. For example, the extraction unit 522 extracts a plurality of search queries in which the time interval in which each search query pair is input by the same user is within a predetermined time. For example, the extraction unit 522 is a search query Q11 (“Roppongi pasta”” which is four search queries continuously input by the same user U1 within a predetermined time among the search queries acquired by the acquisition unit 521. ), Search query Q12 ("Roppongi Italian"), search query Q13 ("Akasaka pasta"), search query Q14 ("Azabu pasta"). When the search queries are arranged in the order in which the search queries are input, the extraction unit 522 extracts four search queries input in the order of search query Q11, search query Q12, search query Q13, and search query Q14. Subsequently, when the extraction unit 522 extracts four search queries, it is a pair of three search queries (search query Q11, search query) with two search queries adjacent in chronological order as a pair of search queries. Q12), (search query Q12, search query Q13), (search query Q13, search query Q14) are extracted. The extraction unit 522 may extract a plurality of search queries in which all the search queries are input by the same user within a predetermined time. Then, the extraction unit 522 selects two search queries from the plurality of extracted search queries regardless of whether they are adjacent to each other in chronological order, and the two selected search queries are used as a pair of search queries. It may be extracted.
また、抽出部522は、取得部521によって取得された検索クエリのうち、所定の検索クエリと所定の検索クエリに無関係な他の検索クエリとを抽出する。例えば、抽出部522は、取得部521によって取得された検索クエリの中から、所定の検索クエリを抽出する。続いて、抽出部522は、取得部521によって取得された検索クエリの中から、所定の検索クエリとは無関係にランダムに他の検索クエリを抽出する。 Further, the extraction unit 522 extracts a predetermined search query and other search queries unrelated to the predetermined search query from the search queries acquired by the acquisition unit 521. For example, the extraction unit 522 extracts a predetermined search query from the search queries acquired by the acquisition unit 521. Subsequently, the extraction unit 522 randomly extracts other search queries from the search queries acquired by the acquisition unit 521, regardless of the predetermined search query.
(生成部523)
生成部523は、種々の情報を生成する。具体的には、生成部523は、取得部521によって取得された検索クエリのうち、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして学習することで、所定の検索クエリから所定の検索クエリの特徴情報を予測する学習モデルを生成する。具体的には、生成部523は、同一のユーザによって所定の時間内に入力された複数の検索クエリの分散表現が類似するように学習モデルを学習させることで、所定の検索クエリから所定の検索クエリの特徴情報を予測する学習モデルを生成する。例えば、生成部523は、所定の時間内に続けて入力された一対の検索クエリの分散表現が類似するように学習することで、学習モデルを生成する。例えば、生成部523は、一対の検索クエリの学習前の分散表現(ベクトル)の類似度の値を算出する。また、生成部523は、一対の検索クエリの学習後の分散表現(ベクトル)の類似度の値を算出する。続いて、生成部523は、学習前の分散表現(ベクトル)の類似度の値よりも、学習後の分散表現(ベクトル)の類似度の値が大きくなるように学習モデルを学習させる。このように、生成部523は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように学習モデルを学習させることで、検索クエリから分散表現(ベクトル)を出力する学習モデルを生成する。より具体的には、生成部523は、RNNの一種であるLSTMを分散表現生成に用いたDSSMの技術を用いて、検索クエリから分散表現(ベクトル)を出力する学習モデルを生成する。例えば、生成部523は、学習モデルの正解データとして、同一のユーザによって所定の時間内に入力された一対の検索クエリが類似する特徴を有するものとして、所定の検索クエリの分散表現(ベクトル)と、所定の検索クエリと対となる他の検索クエリの分散表現(ベクトル)とが、分散表現空間上で近くに存在するように学習する。また、生成部523は、第1学習モデルを生成すると、第1学習モデルを識別する識別情報と対応付けて、生成した第1学習モデル(モデルデータMDT1)をモデル情報記憶部535に格納する。
(Generation unit 523)
The generation unit 523 generates various information. Specifically, the generation unit 523 learns that among the search queries acquired by the acquisition unit 521, a plurality of search queries input by the same user within a predetermined time have similar characteristics. , Generate a learning model that predicts the feature information of a given search query from a given search query. Specifically, the generation unit 523 trains a learning model so that the distributed expressions of a plurality of search queries input by the same user within a predetermined time are similar, thereby performing a predetermined search from a predetermined search query. Generate a learning model that predicts query feature information. For example, the generation unit 523 generates a learning model by learning so that the distributed representations of a pair of search queries that are continuously input within a predetermined time are similar. For example, the generation unit 523 calculates the value of the similarity of the distributed representation (vector) before learning a pair of search queries. In addition, the generation unit 523 calculates the value of the similarity of the distributed representation (vector) after learning the pair of search queries. Subsequently, the generation unit 523 trains the learning model so that the value of the similarity of the distributed expression (vector) after learning is larger than the value of the similarity of the distributed expression (vector) before learning. In this way, the generation unit 523 trains the learning model so that the two vectors, which are a pair of distributed representations corresponding to the pair of search queries, are similar in the distributed representation space, so that the distributed representation (vector) from the search query. ) Is generated. More specifically, the generation unit 523 generates a learning model that outputs a distributed expression (vector) from a search query by using the DSSM technique that uses LSTM, which is a kind of RNN, for the distributed expression generation. For example, the generation unit 523 uses the distributed representation (vector) of a predetermined search query as the correct answer data of the learning model, assuming that the pair of search queries input by the same user within a predetermined time have similar characteristics. , Learn so that the distributed representations (vectors) of a given search query and other search queries that are paired with it are close to each other in the distributed representation space. Further, when the first learning model is generated, the generation unit 523 stores the generated first learning model (model data MDT1) in the model
〔3-4.第1学習モデルの一例〕
ここで、図25を用いて生成装置50が生成する第1学習モデルの一例について説明する。図25は、実施形態に係る第1学習モデルの一例を示す図である。図25に示す例では、生成装置50が生成する第1学習モデルM1は、3層のLSTM RNNで構成されている。図25に示す例では、抽出部522は、同一のユーザU1によって所定の時間内に連続して入力された「六本木 パスタ」という検索クエリQ11と「六本木 イタリアン」という検索クエリQ12とから成る一対の検索クエリを抽出する。生成部523は、抽出部522によって抽出されたた検索クエリQ11を第1学習モデルM1の入力層に入力する(ステップS41)。
[3-4. Example of the first learning model]
Here, an example of the first learning model generated by the
続いて、生成部523は、第1学習モデルM1の出力層から検索クエリQ11の分散表現である256次元のベクトルBQV11を出力する。また、生成部523は、抽出部522によって抽出された検索クエリQ12を第1学習モデルM1の入力層に入力する。続いて、生成部523は、第1学習モデルM1の出力層から検索クエリQ12の分散表現である256次元のベクトルBQV12を出力する(ステップS42)。 Subsequently, the generation unit 523 outputs a 256-dimensional vector BQV11 which is a distributed representation of the search query Q11 from the output layer of the first learning model M1. Further, the generation unit 523 inputs the search query Q12 extracted by the extraction unit 522 to the input layer of the first learning model M1. Subsequently, the generation unit 523 outputs a 256-dimensional vector BQV12 which is a distributed representation of the search query Q12 from the output layer of the first learning model M1 (step S42).
続いて、生成部523は、連続して入力された2つの検索クエリの分散表現(ベクトル)が類似するように学習することで、検索クエリから分散表現(ベクトル)を出力する第1学習モデルM1を生成する(ステップS43)。例えば、第1学習モデルM1にフィードバックをかける前(学習前)の検索クエリQ11の分散表現であるベクトルBQV11と検索クエリQ12の分散表現であるベクトルBQV12とのなす角度の大きさをΘとする。また、第1学習モデルM1にフィードバックをかけた後(学習後)の検索クエリQ11の分散表現であるベクトルQV11と検索クエリQ12の分散表現であるベクトルQV12とのなす角度の大きさをΦとする。この時、生成部523は、ΘよりもΦが小さくなるように、第1学習モデルM1を学習させる。例えば、生成部523は、ベクトルBQV11とベクトルBQV12のコサイン類似度の値を算出する。また、生成部523は、ベクトルQV11とベクトルQV12のコサイン類似度の値を算出する。続いて、生成部523は、ベクトルBQV11とベクトルBQV12のコサイン類似度の値よりも、ベクトルQV11とベクトルQV12のコサイン類似度の値が大きくなるように(値が1に近づくように)学習モデルM1を学習させる。このように、生成部523は、一対の検索クエリに対応する一対の分散表現である2つのベクトルが分散表現空間上で類似するように第1学習モデルM1を学習させることで、検索クエリから分散表現(ベクトル)を出力する第1学習モデルM1を生成する。なお、生成部523は、コサイン類似度に限らず、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて分散表現(ベクトル)の間の類似度を算出してもよい。また、生成部523は、ベクトル間の距離尺度として適用可能な指標であれば、どのような指標に基づいて学習モデルM1を学習させてもよい。例えば、生成部523は、分散表現(ベクトル)同士のユークリッド距離や双曲空間等の非ユークリッド空間中での距離、マンハッタン距離、マハラノビス距離等といった所定の距離関数の値を算出する。続いて、生成部523は、分散表現(ベクトル)同士の所定の距離関数の値(すなわち、分散表現空間における距離)が小さくなるように学習モデルM1を学習させてもよい。 Subsequently, the generation unit 523 learns so that the distributed expressions (vectors) of the two consecutively input search queries are similar, so that the first learning model M1 outputs the distributed expressions (vectors) from the search queries. Is generated (step S43). For example, let Θ be the size of the angle formed by the vector BQV11 which is the distributed expression of the search query Q11 before giving feedback to the first learning model M1 (before learning) and the vector BQV12 which is the distributed expression of the search query Q12. Further, let Φ be the size of the angle formed by the vector QV11 which is the distributed expression of the search query Q11 after giving feedback to the first learning model M1 (after learning) and the vector QV12 which is the distributed expression of the search query Q12. .. At this time, the generation unit 523 trains the first learning model M1 so that Φ is smaller than Θ. For example, the generation unit 523 calculates the value of the cosine similarity between the vector BQV11 and the vector BQV12. Further, the generation unit 523 calculates the value of the cosine similarity between the vector QV11 and the vector QV12. Subsequently, the generation unit 523 prepares the learning model M1 so that the value of the cosine similarity between the vector QV11 and the vector QV12 is larger than the value of the cosine similarity between the vector BQV11 and the vector BQV12 (so that the value approaches 1). To learn. In this way, the generation unit 523 distributes from the search query by training the first learning model M1 so that the two vectors, which are a pair of distributed expressions corresponding to the pair of search queries, are similar on the distributed expression space. A first learning model M1 that outputs an expression (vector) is generated. The generation unit 523 is not limited to the cosine similarity, and can calculate the similarity between the distributed representations (vectors) based on any index as long as it is an index applicable as a distance scale between vectors. good. Further, the generation unit 523 may train the learning model M1 based on any index as long as it is an index applicable as a distance scale between vectors. For example, the generation unit 523 calculates the value of a predetermined distance function such as the Euclidean distance between distributed representations (vectors), the distance in a non-Euclidean space such as hyperbolic space, the Manhattan distance, the Mahalanobis distance, and the like. Subsequently, the generation unit 523 may train the learning model M1 so that the value of a predetermined distance function between the distributed representations (vectors) (that is, the distance in the distributed representation space) becomes small.
また、生成部523は、同一のユーザによって所定の時間内に入力された複数の検索クエリとして、所定の区切り文字で区切られた文字列を含む複数の検索クエリが類似する特徴を有するものとして学習することで、第1学習モデルを生成する。例えば、生成部523は、地名を示す「六本木」と食品の種類を示す「パスタ」の文字とが区切り文字であるスペースで区切られた検索クエリ「六本木 パスタ」と、地名を示す「六本木」と料理の種類を示す「イタリアン」の文字とが区切り文字であるスペースで区切られた検索クエリ「六本木 イタリアン」とが類似する特徴を有するものとして学習することで、第1学習モデルを生成する。 Further, the generation unit 523 learns that a plurality of search queries including a character string separated by a predetermined delimiter have similar characteristics as a plurality of search queries input by the same user within a predetermined time. By doing so, the first learning model is generated. For example, the generation unit 523 has a search query "Roppongi pasta" in which the characters "Roppongi" indicating a place name and "pasta" indicating a food type are separated by a space as a delimiter, and "Roppongi" indicating a place name. The first learning model is generated by learning as having similar characteristics to the search query "Roppongi Italian" separated by a space in which the character "Italian" indicating the type of food is separated.
また、生成部523は、取得部521によって取得された検索クエリのうち、ランダムに抽出された複数の検索クエリが相違する特徴を有するものとして学習することで、第1学習モデルを生成する。具体的には、生成部523は、取得部521によって取得された検索クエリのうち、ランダムに抽出された一対の検索クエリの分散表現が相違するように学習することで、第1学習モデルを生成する。例えば、生成部523は、抽出部522によって抽出された所定の検索クエリの分散表現と、所定の検索クエリとは無関係にランダムに抽出された検索クエリの分散表現とが分散表現空間上で遠くにマッピングされるように第1学習モデルM1のトレーニングを行う。 Further, the generation unit 523 generates the first learning model by learning that a plurality of randomly extracted search queries among the search queries acquired by the acquisition unit 521 have different characteristics. Specifically, the generation unit 523 generates the first learning model by learning so that the distributed expressions of the pair of randomly extracted search queries among the search queries acquired by the acquisition unit 521 are different. do. For example, in the generation unit 523, the distributed representation of the predetermined search query extracted by the extraction unit 522 and the distributed representation of the search query randomly extracted regardless of the predetermined search query are far apart on the distributed representation space. The first learning model M1 is trained so as to be mapped.
また、生成部523は、第2学習モデルを生成する。具体的には、生成部523は、モデル情報記憶部535を参照して、生成部523によって生成された第1学習モデル(第1学習モデルM1のモデルデータMDT1)を取得する。続いて、生成部523は、取得した第1学習モデルを用いて、所定の検索クエリから所定の検索クエリが属するカテゴリを予測する第2学習モデルを生成する。生成部523は、第1モデルM1を取得すると、取得した第1モデルM1を用いて、第2学習モデルM2を生成する。生成部523は、第1モデルM1を再学習させることにより、第1モデルM1とは学習モデルの重みである接続係数が異なる第2モデルM2を生成する。具体的には、生成部523は、検索クエリが学習モデルに入力された際に、学習モデルが出力する分散表現の分類結果が、検索クエリが属するカテゴリに対応するように学習することで、所定の検索クエリから所定の検索クエリが属するカテゴリを予測する第2モデルM2を生成する。
In addition, the generation unit 523 generates the second learning model. Specifically, the generation unit 523 refers to the model
具体的には、生成部523は、検索クエリが学習モデルに入力された際に、学習モデルが出力する分散表現の分類結果が、検索クエリが属するカテゴリに対応するように学習することで、所定の検索クエリから所定の検索クエリが属するカテゴリを予測する第2学習モデルを生成する。生成部523は、入力情報として検索クエリが学習モデルに入力された際に、出力情報として検索クエリが属するカテゴリ毎の確率を出力する第2学習モデルを生成する。例えば、生成部523は、第1モデルM1を用いて、入力情報として所定の検索クエリが学習モデルに入力された際に、出力情報として検索クエリの分散表現がそのカテゴリに分類される確率をカテゴリ毎に出力する第2モデルM2を生成する。生成部523は、入力情報として所定の検索クエリが入力されると、出力情報として所定の検索クエリの分散表現が正解カテゴリに分類される確率が所定の閾値を超えるように第2モデルを学習させる。そして、生成部523は、入力情報として所定の検索クエリが入力された際に、所定の検索クエリの分散表現がそのカテゴリに属する確率が所定の閾値を超えるカテゴリを、所定の検索クエリのカテゴリとして出力する第2モデルM2を生成する。また、生成部523は、第2学習モデルを生成すると、第2学習モデルを識別する識別情報と対応付けて、生成した第2学習モデル(モデルデータMDT2)をモデル情報記憶部535に格納する。
Specifically, the generation unit 523 determines that when the search query is input to the learning model, the classification result of the distributed expression output by the learning model is learned so as to correspond to the category to which the search query belongs. A second learning model that predicts the category to which a predetermined search query belongs is generated from the search query of. The generation unit 523 generates a second learning model that outputs the probability of each category to which the search query belongs as output information when the search query is input to the learning model as input information. For example, the generation unit 523 uses the first model M1 to determine the probability that when a predetermined search query is input to the learning model as input information, the distributed expression of the search query is classified into that category as output information. A second model M2 to be output is generated every time. When a predetermined search query is input as input information, the generation unit 523 trains the second model so that the probability that the distributed expression of the predetermined search query is classified into the correct answer category as output information exceeds a predetermined threshold. .. Then, when a predetermined search query is input as input information, the generation unit 523 sets a category in which the probability that the distributed expression of the predetermined search query belongs to the category exceeds a predetermined threshold as a predetermined search query category. Generate the second model M2 to be output. Further, when the second learning model is generated, the generation unit 523 stores the generated second learning model (model data MDT2) in the model
例えば、生成部523は、図24に示すモデル情報記憶部535を参照して、第1モデルM1(第1モデルM1のモデルデータMDT1)を取得する。続いて、生成部523は、図22に示す分類定義記憶部533を参照して、検索クエリを分類するカテゴリの大分類を選択する。続いて、生成部523は、大分類を選択すると、第2モデルM2の学習データとして、検索クエリと検索クエリが属する小分類との組を学習する。
For example, the generation unit 523 acquires the first model M1 (model data MDT1 of the first model M1) with reference to the model
例えば、検索クエリQ11(「六本木 パスタ」)が属する正解カテゴリがCAT11(「飲食店を探す」)であるとする。生成部523は、入力情報として検索クエリQ11(「六本木 パスタ」)が第2モデルM2に入力された際に、第2モデルM2の出力層から検索クエリQ11(「六本木 パスタ」)の分散表現であるベクトルBQV11を出力する。ここで、ベクトルBQV11は、第2モデルM2の出力層から出力されたばかりの検索クエリQ11の分散表現であって、第2モデルM2にフィードバックをかける前(学習前)の分散表現を示す。この場合、生成部523は、出力された検索クエリQ11(「六本木 パスタ」)の分散表現であるベクトルBQV11が正解カテゴリCAT11(「飲食店を探す」)に分類される確率が所定の閾値を超えるように第2モデルM2を学習させる。 For example, assume that the correct answer category to which the search query Q11 (“Roppongi pasta”) belongs is CAT11 (“find a restaurant”). When the search query Q11 (“Roppongi pasta”) is input to the second model M2 as input information, the generation unit 523 uses a distributed representation of the search query Q11 (“Roppongi pasta”) from the output layer of the second model M2. A certain vector BQV11 is output. Here, the vector BQV11 is a distributed expression of the search query Q11 just output from the output layer of the second model M2, and shows a distributed expression before giving feedback to the second model M2 (before learning). In this case, the generation unit 523 has a probability that the vector BQV11, which is a distributed expression of the output search query Q11 (“Roppongi pasta”), is classified into the correct answer category CAT11 (“find a restaurant”) exceeds a predetermined threshold value. The second model M2 is trained in this way.
例えば、生成部523は、学習前の第2モデルM2に検索クエリQ11(「六本木 パスタ」)が入力された際に、分散表現であるベクトルBQV11がCAT11(「飲食店を探す」)に分類される確率を80%、CAT12(「商品を探す」)に分類される確率を0%、CAT13(「飲食店を予約」)に分類される確率を20%、CAT14(「商品を購入する」)に分類される確率を0%と出力したとする。この場合、生成部523は、分散表現であるベクトルBQV11がCAT11(「飲食店を探す」)に分類される確率を所定の閾値(例えば、90%)を超えるように第2モデルM2を学習させる。また、生成部523は、分散表現であるベクトルBQV11がCAT11(「飲食店を探す」)に分類される確率が所定の閾値(例えば、90%)を超えるように学習させるのに合わせて、分散表現であるベクトルBQV11が他のカテゴリCAT13(「飲食店を予約」)に分類される確率を10%に下げるように第2モデルM2を学習させる。続いて、生成部523は、学習済みの第2モデルM2に入力情報として検索クエリQ11(「六本木 パスタ」)が入力されると、検索クエリQ11(「六本木 パスタ」)の分散表現であるベクトルBQV11がカテゴリCAT11(「飲食店を探す」)に属する確率が90%を超えるので、出力情報として検索クエリが属するカテゴリをCAT11(「飲食店を探す」)と出力する。 For example, in the generation unit 523, when the search query Q11 (“Roppongi pasta”) is input to the second model M2 before learning, the vector BQV11 which is a distributed expression is classified into CAT11 (“find a restaurant”). 80% probability of being classified as CAT12 ("find a product") 0%, 20% probability of being classified as CAT13 ("book a restaurant"), CAT14 ("buy a product") It is assumed that the probability of being classified as 0% is output. In this case, the generation unit 523 trains the second model M2 so that the probability that the vector BQV11, which is a distributed expression, is classified into CAT11 (“find a restaurant”) exceeds a predetermined threshold value (for example, 90%). .. Further, the generation unit 523 distributes the vector BQV11, which is a distributed expression, so that the probability of being classified into CAT11 (“searching for a restaurant”) exceeds a predetermined threshold value (for example, 90%). The second model M2 is trained so that the probability that the representation vector BQV11 is classified into another category CAT13 (“book a restaurant”) is reduced to 10%. Subsequently, the generation unit 523 receives the search query Q11 (“Roppongi pasta”) as input information in the trained second model M2, and the vector BQV11 is a distributed representation of the search query Q11 (“Roppongi pasta”). Since the probability of belonging to the category CAT11 ("find a restaurant") exceeds 90%, the category to which the search query belongs is output as CAT11 ("find a restaurant") as output information.
なお、生成部523は、大分類として、任意の数の大分類を選択してもよい。そして、生成部523は、入力情報として検索クエリが第2モデルM2に入力された際に、出力情報として検索クエリが選択した任意の数の大分類に属する各小分類に属する確率を小分類毎に出力する第2モデルM2を生成してもよい。また、生成部523は、大分類として、全ての大分類を選択してもよい。そして、生成部523は、検索クエリが第2モデルM2に入力された際に、各小分類に属する確率を全ての小分類毎に出力する第2モデルM2を生成してもよい。 The generation unit 523 may select any number of major classifications as the major classification. Then, when the search query is input to the second model M2 as input information, the generation unit 523 determines the probability of belonging to each minor category belonging to any number of major categories selected by the search query as output information for each minor category. The second model M2 to be output to may be generated. Further, the generation unit 523 may select all major classifications as the major classification. Then, the generation unit 523 may generate the second model M2 that outputs the probability of belonging to each subclass for each subclass when the search query is input to the second model M2.
〔3-5.第2学習モデルの一例〕
ここで、図26を用いて生成装置50が生成する第2学習モデルの一例について説明する。図26は、実施形態に係る第2学習モデルの一例を示す図である。図26に示す例では、生成装置50が生成する第2学習モデルM2は、第1学習モデルM1を用いて生成される。すなわち、生成装置50は、第1学習モデルM1を再学習させることにより、第1学習モデルM1とは学習モデルの重みである接続係数が異なる第2学習モデルM2を生成する。
[3-5. An example of the second learning model]
Here, an example of the second learning model generated by the
より具体的には、生成装置50が生成する第2学習モデルM2は、第1学習モデルM1と同様に、3層のLSTM RNNで構成されている。図26に示す例では、抽出部522は、ユーザU1によって入力された「六本木 パスタ」という検索クエリQ11を第2学習モデルM2の入力層に入力する(ステップS51)。
More specifically, the second learning model M2 generated by the
続いて、生成部523は、第2学習モデルM2の出力層から検索クエリQ11の分散表現である256次元のベクトルBQV11を出力する(ステップS52)。 Subsequently, the generation unit 523 outputs a 256-dimensional vector BQV11 which is a distributed representation of the search query Q11 from the output layer of the second learning model M2 (step S52).
続いて、生成部523は、検索クエリQ11の分散表現であるベクトルBQV11が各カテゴリに分類される確率を出力する(ステップS53)。 Subsequently, the generation unit 523 outputs the probability that the vector BQV11, which is the distributed representation of the search query Q11, is classified into each category (step S53).
続いて、生成部523は、検索クエリQ11の分散表現であるベクトルBQV11が正解カテゴリに分類される確率を高くするように第2学習モデルM2を学習することで、検索クエリから検索クエリのカテゴリを予測する第2モデルを生成する(ステップS54)。 Subsequently, the generation unit 523 learns the second learning model M2 so as to increase the probability that the vector BQV11, which is the distributed representation of the search query Q11, is classified into the correct answer category, so that the search query category is selected from the search query. Generate a second model to predict (step S54).
〔3-6.第1学習モデルの生成処理のフロー〕
次に、図27を用いて、実施形態に係る第1学習モデルの生成処理の手順について説明する。図27は、実施形態に係る第1学習モデルの生成処理手順を示すフローチャートである。
[3-6. Flow of generation process of the first training model]
Next, the procedure for generating the first learning model according to the embodiment will be described with reference to FIG. 27. FIG. 27 is a flowchart showing a generation processing procedure of the first learning model according to the embodiment.
図27に示す例では、生成装置50は、ユーザによって入力された検索クエリを取得する(ステップS1001)。
In the example shown in FIG. 27, the
続いて、生成装置50は、同一のユーザによって所定の時間内に入力された複数の検索クエリを抽出する(ステップS1002)。
Subsequently, the
続いて、生成装置50は、抽出した複数の検索クエリが類似する特徴を有するものとして学習することで、所定の検索クエリから所定の検索クエリの特徴情報を予測する第1学習モデルを生成する(ステップS1003)。
Subsequently, the
〔3-7.第2学習モデルの生成処理のフロー〕
次に、図28を用いて、実施形態に係る第2学習モデルの生成処理の手順について説明する。図28は、実施形態に係る第2学習モデルの生成処理の手順を示すフローチャートである。
[3-7. Flow of generation process of the second learning model]
Next, the procedure for generating the second learning model according to the embodiment will be described with reference to FIG. 28. FIG. 28 is a flowchart showing the procedure of the generation process of the second learning model according to the embodiment.
図28に示す例では、生成装置50は、第1学習モデル(第1学習モデルM1のモデルデータMDT1)を取得する(ステップS2001)。
In the example shown in FIG. 28, the
続いて、生成装置50は、第1学習モデルを用いて、所定の検索クエリから所定の検索クエリのカテゴリを予測する第2学習モデルを生成する(ステップS2002)。
Subsequently, the
〔4.効果〕
上述してきたように、第1の実施形態に係る情報処理装置100は、抽出部135と決定部136とを備える。抽出部135は、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして、複数の検索クエリが有する特徴を学習した学習モデルを用いて、所定のクエリの特徴を示す特徴情報を抽出する。決定部136は、抽出部135によって抽出された特徴情報に基づいて、所定のクエリを入力したユーザに対して推薦する推薦情報を決定する。
[4. effect〕
As described above, the
これにより、情報処理装置100は、所定の検索クエリに興味や関心を抱いたユーザに対して、所定の検索クエリの特徴を示す特徴情報に基づく情報を推薦可能とする。すなわち、情報処理装置100は、ユーザの興味や関心にマッチする情報を推薦可能とする。また、一般的に、検索サービスを訪れるユーザ等、特定の分野に興味や関心を抱いてはいるものの、その分野に関する知識が少ないユーザが検索によって知識を得ようとする場面においては、適切な検索クエリが思いつかないという課題がある。本願発明に係る情報処理装置100は、知識が少ないユーザが入力した検索クエリに基づいて、検索意図に応じた適切な検索クエリに基づく推薦情報を推薦することができる。したがって、情報処理装置100は、ユーザに対して適切な情報を推薦することができる。
As a result, the
また、抽出部135は、特徴情報として、所定のクエリと類似する特徴を有する検索クエリである類似クエリを抽出する。決定部136は、抽出部135によって抽出された類似クエリに基づいて、所定のクエリを入力したユーザに対して推薦する推薦情報を決定する。 Further, the extraction unit 135 extracts similar queries, which are search queries having characteristics similar to those of a predetermined query, as feature information. The determination unit 136 determines the recommendation information to be recommended to the user who has input the predetermined query based on the similar query extracted by the extraction unit 135.
これにより、情報処理装置100は、所定の検索クエリに興味や関心を抱いたユーザに対して、所定の検索クエリと類似する特徴を有する類似クエリに基づく情報を推薦可能とする。すなわち、情報処理装置100は、ユーザの興味や関心にマッチする情報を推薦可能とする。したがって、情報処理装置100は、ユーザに対して適切な情報を推薦することができる。
As a result, the
また、抽出部135は、所定のクエリと属性が共通する類似クエリを抽出する。決定部136は、抽出部135によって抽出された類似クエリに基づいて、推薦情報である類似クエリに関する情報を決定する。 Further, the extraction unit 135 extracts a similar query having the same attributes as a predetermined query. The determination unit 136 determines the information regarding the similar query, which is the recommendation information, based on the similar query extracted by the extraction unit 135.
これにより、情報処理装置100は、所定の検索クエリに興味や関心を抱いたユーザに対して、所定のクエリと属性が共通する類似クエリに基づく情報を推薦可能とする。したがって、情報処理装置100は、ユーザに対してより適切な情報を推薦することができる。
As a result, the
また、抽出部135は、所定のクエリと属性が共通する類似クエリとして、不動産エリアを示す所定のクエリと類似する特徴を有する検索クエリであって、不動産エリアを示す類似クエリを抽出する。決定部136は、抽出部135によって抽出された類似クエリに基づいて、推薦情報である不動産エリアに関する情報を決定する。 Further, the extraction unit 135 extracts a search query having characteristics similar to the predetermined query indicating the real estate area as a similar query having the same attributes as the predetermined query, and extracts the similar query indicating the real estate area. The determination unit 136 determines the information regarding the real estate area, which is the recommendation information, based on the similar query extracted by the extraction unit 135.
これにより、情報処理装置100は、所定の不動産エリアに興味や関心を抱いたユーザに対して、所定の不動産エリアと類似する特徴を有する不動産エリアを推薦可能とする。したがって、情報処理装置100は、ユーザに対して適切な不動産エリアを推薦することができる。
As a result, the
また、決定部136は、抽出部135によって抽出された類似クエリに基づいて、推薦情報である再検索用のクエリの候補を決定する。 Further, the determination unit 136 determines a candidate for a query for re-search, which is recommended information, based on the similar query extracted by the extraction unit 135.
これにより、情報処理装置100は、所定の検索クエリに興味や関心を抱いているものの、具体的な検索条件がわからないユーザに対して、適切な絞り込み条件の候補を推薦することができる。
As a result, the
また、情報処理装置100は、生成部132と算出部134とをさらに備える。生成部132は、同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして、複数の検索クエリが有する特徴を学習した学習モデルを用いて、所定の検索クエリの分散表現を生成する。算出部134は、生成部132によって生成された所定の検索クエリの分散表現と、生成部132によって生成された所定の検索クエリとは異なる他の検索クエリの分散表現との類似度を算出する。抽出部135は、算出部134によって算出された類似度が所定の閾値を超える他の検索クエリを類似クエリとして抽出する。
Further, the
情報処理装置100は、所定の検索クエリに興味や関心を抱いたユーザに対して、所定の検索クエリの特徴を示す特徴情報に基づく情報を推薦可能とする。すなわち、情報処理装置100は、ユーザの興味や関心にマッチする情報を推薦可能とする。したがって、情報処理装置100は、ユーザに対して適切な情報を推薦することができる。
The
また、抽出部135は、入力情報として所定の検索クエリが入力された際に、出力情報として所定の検索クエリの分散表現を出力する学習モデルを用いて、特徴情報を抽出する。また、抽出部135は、所定の時間内に続けて入力された一対の検索クエリの分散表現が類似するように学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。また、抽出部135は、同一のユーザによって所定の時間内に入力された複数の検索クエリとして、所定の区切り文字で区切られた文字列を含む複数の検索クエリが類似する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。また、抽出部135は、ランダムに抽出された複数の検索クエリが相違する特徴を有するものとして学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。また、抽出部135は、ランダムに抽出された一対の検索クエリの分散表現が相違するように学習することで、複数の検索クエリが有する特徴を学習した学習モデルを用いて、特徴情報を抽出する。 Further, the extraction unit 135 extracts feature information by using a learning model that outputs a distributed representation of the predetermined search query as output information when a predetermined search query is input as input information. Further, the extraction unit 135 uses a learning model that learns the characteristics of a plurality of search queries by learning so that the distributed expressions of a pair of search queries that are continuously input within a predetermined time are similar. Extract feature information. Further, the extraction unit 135 learns that a plurality of search queries including a character string separated by a predetermined delimiter have similar characteristics as a plurality of search queries input by the same user within a predetermined time. By doing so, feature information is extracted using a learning model that has learned the features of a plurality of search queries. Further, the extraction unit 135 extracts feature information using a learning model that has learned the features of the plurality of search queries by learning that the plurality of randomly extracted search queries have different features. .. Further, the extraction unit 135 extracts feature information using a learning model that has learned the features of a plurality of search queries by learning so that the distributed expressions of a pair of randomly extracted search queries are different. ..
これにより、情報処理装置100は、ユーザの検索意図を考慮して、適切な特徴情報を抽出可能とする。したがって、情報処理装置100は、ユーザに対して適切な情報を推薦することができる。
As a result, the
また、第2の実施形態に係る情報処理装置100Aは、抽出部135Aと決定部136Aとを備える。抽出部135Aは、特徴情報として、所定のクエリが属するカテゴリを抽出する。決定部136Aは、抽出部135Aによって抽出されたカテゴリに基づいて、所定のクエリを入力したユーザに対して推薦する推薦情報を決定する。 Further, the information processing apparatus 100A according to the second embodiment includes an extraction unit 135A and a determination unit 136A. The extraction unit 135A extracts a category to which a predetermined query belongs as feature information. The determination unit 136A determines the recommendation information to be recommended to the user who has input the predetermined query based on the category extracted by the extraction unit 135A.
これにより、情報処理装置100Aは、所定の検索クエリに興味や関心を抱いたユーザに対して、所定の検索クエリが属するカテゴリに基づく情報を推薦可能とする。すなわち、情報処理装置100Aは、ユーザの興味や関心にマッチする情報を推薦可能とする。したがって、情報処理装置100は、ユーザに対して適切な情報を推薦することができる。
As a result, the information processing apparatus 100A can recommend information based on the category to which the predetermined search query belongs to the user who is interested in the predetermined search query. That is, the information processing apparatus 100A can recommend information that matches the user's interests and interests. Therefore, the
〔5.ハードウェア構成〕
また、上述してきた第1の実施形態に係る情報処理装置100、第2の実施形態に係る情報処理装置100Aおよび実施形態に係る生成装置50は、例えば図29に示すような構成のコンピュータ1000によって実現される。図29は、情報処理装置100および情報処理装置100Aおよび生成装置50の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
[5. Hardware configuration]
Further, the
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
The
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
The
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
The
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
The
例えば、コンピュータ1000が情報処理装置100、情報処理装置100Aまたは生成装置50として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130、制御部130Aまたは制御部52の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
For example, when the
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 Although some of the embodiments of the present application have been described in detail with reference to the drawings, these are examples, and various modifications are made based on the knowledge of those skilled in the art, including the embodiments described in the disclosure column of the invention. It is possible to carry out the present invention in other modified forms.
〔6.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[6. others〕
Further, among the processes described in the above-described embodiments and modifications, all or part of the processes described as being automatically performed can be manually performed, or are described as being manually performed. It is also possible to automatically perform all or part of the performed processing by a known method. In addition, information including processing procedures, specific names, various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each figure is not limited to the information shown in the figure.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in any unit according to various loads and usage conditions. Can be integrated and configured.
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Further, the above-described embodiments and modifications can be appropriately combined as long as the processing contents do not contradict each other.
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、抽出部は、抽出手段や抽出回路に読み替えることができる。 Further, the above-mentioned "section, module, unit" can be read as "means" or "circuit". For example, the extraction unit can be read as an extraction means or an extraction circuit.
1 情報処理システム
10 ユーザ端末
20 検索サーバ
50 生成装置
100 情報処理装置
110 通信部
120 記憶部
121 モデル情報記憶部
122 ベクトル情報記憶部
123 検索情報記憶部
124 コンテンツ記憶部
130 制御部
131 取得部
132 生成部
133 提供部
134 算出部
135 抽出部
136 決定部
1
Claims (13)
前記抽出部によって抽出された特徴情報に基づいて、前記所定のクエリを入力したユーザに対して推薦する推薦情報を決定する決定部と、
を備えることを特徴とする情報処理装置。 Assuming that a plurality of search queries input by the same user within a predetermined time have similar characteristics, a learning model that learns the characteristics of the plurality of search queries, and the predetermined search query is used as input information. Using a learning model that outputs the distributed representation of the predetermined search query as output information when input, an extraction unit that extracts feature information indicating the characteristics of the predetermined query, and an extraction unit.
Based on the feature information extracted by the extraction unit, a determination unit that determines recommendation information to be recommended to the user who has input the predetermined query, and a determination unit.
An information processing device characterized by being equipped with.
前記特徴情報として、前記所定のクエリと類似する特徴を有する検索クエリである類似クエリを抽出し、
前記決定部は、
前記抽出部によって抽出された類似クエリに基づいて、前記所定のクエリを入力したユーザに対して推薦する推薦情報を決定する
ことを特徴とする請求項1に記載の情報処理装置。 The extraction unit
As the feature information, a similar query, which is a search query having features similar to the predetermined query, is extracted.
The decision-making part
The information processing apparatus according to claim 1, wherein the recommendation information to be recommended to the user who has input the predetermined query is determined based on the similar query extracted by the extraction unit.
前記所定のクエリと属性が共通する類似クエリを抽出し、
前記決定部は、
前記抽出部によって抽出された類似クエリに基づいて、前記推薦情報である前記類似クエリに関する情報を決定する
ことを特徴とする請求項2に記載の情報処理装置。 The extraction unit
Extract similar queries that have the same attributes as the predetermined query,
The decision-making part
The information processing apparatus according to claim 2, wherein information related to the similar query, which is the recommended information, is determined based on the similar query extracted by the extraction unit.
前記所定のクエリと属性が共通する類似クエリとして、不動産エリアを示す所定のクエリと類似する特徴を有する検索クエリであって、不動産エリアを示す類似クエリを抽出し、
前記決定部は、
前記抽出部によって抽出された類似クエリに基づいて、前記推薦情報である不動産エリアに関する情報を決定する
ことを特徴とする請求項3に記載の情報処理装置。 The extraction unit
As a similar query having the same attributes as the predetermined query, a search query having characteristics similar to the predetermined query indicating the real estate area and a similar query indicating the real estate area is extracted.
The decision-making part
The information processing apparatus according to claim 3, wherein the information processing device according to claim 3 is characterized in that information regarding a real estate area, which is the recommended information, is determined based on a similar query extracted by the extraction unit.
前記抽出部によって抽出された類似クエリに基づいて、前記推薦情報である再検索用のクエリの候補を決定する
ことを特徴とする請求項1~4のいずれか一つに記載の情報処理装置。 The decision-making part
The information processing apparatus according to any one of claims 1 to 4, wherein a candidate for a query for re-search, which is the recommended information, is determined based on a similar query extracted by the extraction unit.
前記生成部によって生成された所定の検索クエリの分散表現と、前記生成部によって生成された所定の検索クエリとは異なる他の検索クエリの分散表現との類似度を算出する算出部と、
をさらに備え、
前記抽出部は、
前記算出部によって算出された類似度が所定の閾値を超える他の検索クエリを前記類似クエリとして抽出する
ことを特徴とする請求項2~5のいずれか一つに記載の情報処理装置。 Assuming that a plurality of search queries input by the same user within a predetermined time have similar characteristics, a distributed representation of a predetermined search query is expressed using a learning model learned from the characteristics of the plurality of search queries. The generator to generate and
A calculation unit that calculates the similarity between the distributed representation of a predetermined search query generated by the generation unit and the distributed representation of another search query that is different from the predetermined search query generated by the generation unit.
Further prepare
The extraction unit
The information processing apparatus according to any one of claims 2 to 5, wherein another search query whose similarity calculated by the calculation unit exceeds a predetermined threshold value is extracted as the similarity query.
前記所定の時間内に続けて入力された一対の検索クエリの分散表現が類似するように学習することで、前記複数の検索クエリが有する特徴を学習した学習モデルを用いて、前記特徴情報を抽出する
ことを特徴とする請求項1~6のいずれか一つに記載の情報処理装置。 The extraction unit
By learning so that the distributed expressions of a pair of search queries that are continuously input within a predetermined time are similar, the feature information is extracted using a learning model that has learned the features of the plurality of search queries. The information processing apparatus according to any one of claims 1 to 6 , wherein the information processing apparatus is to be used.
同一のユーザによって所定の時間内に入力された複数の検索クエリとして、所定の区切り文字で区切られた文字列を含む複数の検索クエリが類似する特徴を有するものとして学習することで、前記複数の検索クエリが有する特徴を学習した学習モデルを用いて、前記特徴情報を抽出する
ことを特徴とする請求項1~7のいずれか一つに記載の情報処理装置。 The extraction unit
As a plurality of search queries input by the same user within a predetermined time, the plurality of search queries including a character string separated by a predetermined delimiter are learned as having similar characteristics. The information processing apparatus according to any one of claims 1 to 7 , wherein the feature information is extracted by using a learning model that has learned the features of the search query.
ランダムに抽出された複数の検索クエリが相違する特徴を有するものとして学習することで、前記複数の検索クエリが有する特徴を学習した学習モデルを用いて、前記特徴情報を抽出する
ことを特徴とする請求項1~8のいずれか一つに記載の情報処理装置。 The extraction unit
By learning assuming that a plurality of randomly extracted search queries have different characteristics, the feature information is extracted by using a learning model that has learned the characteristics of the plurality of search queries. The information processing apparatus according to any one of claims 1 to 8 .
ランダムに抽出された一対の検索クエリの分散表現が相違するように学習することで、前記複数の検索クエリが有する特徴を学習した学習モデルを用いて、前記特徴情報を抽出する
ことを特徴とする請求項1~9のいずれか一つに記載の情報処理装置。 The extraction unit
By learning so that the distributed expressions of a pair of randomly extracted search queries are different, the feature information is extracted using a learning model that has learned the features of the plurality of search queries. The information processing apparatus according to any one of claims 1 to 9 .
前記特徴情報として、前記所定のクエリが属するカテゴリを抽出し、
前記決定部は、
前記抽出部によって抽出されたカテゴリに基づいて、前記所定のクエリを入力したユーザに対して推薦する推薦情報を決定する
ことを特徴とする請求項1~10のいずれか一つに記載の情報処理装置。 The extraction unit
As the feature information, the category to which the predetermined query belongs is extracted.
The decision-making part
The information processing according to any one of claims 1 to 10 , wherein the recommendation information to be recommended to the user who has input the predetermined query is determined based on the category extracted by the extraction unit. Device.
同一のユーザによって所定の時間内に入力された複数の検索クエリが類似する特徴を有するものとして、前記複数の検索クエリが有する特徴を学習した学習モデルであって、入力情報として所定の検索クエリが入力された際に、出力情報として前記所定の検索クエリの分散表現を出力する学習モデルを用いて、所定のクエリの特徴を示す特徴情報を抽出する抽出工程と、
前記抽出工程によって抽出された特徴情報に基づいて、前記所定のクエリを入力したユーザに対して推薦する推薦情報を決定する決定工程と、
を含むことを特徴とする情報処理方法。 It is an information processing method executed by a computer.
Assuming that a plurality of search queries input by the same user within a predetermined time have similar characteristics, a learning model that learns the characteristics of the plurality of search queries, and the predetermined search query is used as input information. An extraction step of extracting characteristic information indicating the characteristics of a predetermined query by using a learning model that outputs a distributed expression of the predetermined search query as output information when input is performed.
Based on the feature information extracted by the extraction step, a determination step of determining recommended information to be recommended to the user who has input the predetermined query, and a determination step.
An information processing method characterized by including.
前記抽出手段によって抽出された特徴情報に基づいて、前記所定のクエリを入力したユーザに対して推薦する推薦情報を決定する決定手段と、
をコンピュータに実行させることを特徴とする情報処理プログラム。 Assuming that a plurality of search queries input by the same user within a predetermined time have similar characteristics, a learning model that learns the characteristics of the plurality of search queries, and the predetermined search query is used as input information. An extraction means for extracting characteristic information indicating the characteristics of a predetermined query by using a learning model that outputs a distributed expression of the predetermined search query as output information when input is performed.
A determination means for determining recommendation information to be recommended to a user who has input the predetermined query based on the feature information extracted by the extraction means.
An information processing program characterized by having a computer execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019020767A JP7071304B2 (en) | 2019-02-07 | 2019-02-07 | Information processing equipment, information processing methods and information processing programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019020767A JP7071304B2 (en) | 2019-02-07 | 2019-02-07 | Information processing equipment, information processing methods and information processing programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020129192A JP2020129192A (en) | 2020-08-27 |
JP7071304B2 true JP7071304B2 (en) | 2022-05-18 |
Family
ID=72174679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019020767A Active JP7071304B2 (en) | 2019-02-07 | 2019-02-07 | Information processing equipment, information processing methods and information processing programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7071304B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102551773B1 (en) * | 2020-12-14 | 2023-07-06 | 네이버 주식회사 | Place recommendation method and system |
JP7208286B2 (en) * | 2021-03-18 | 2023-01-18 | ヤフー株式会社 | Information processing device, information processing method and information processing program |
KR20230113079A (en) | 2022-01-21 | 2023-07-28 | 네이버 주식회사 | Method, system, and computer program for personalized recommendation for area of interest |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169470A (en) | 2008-01-10 | 2009-07-30 | Nissan Motor Co Ltd | Information guidance system and its recognition dictionary database update method |
JP2018073151A (en) | 2016-10-31 | 2018-05-10 | 株式会社Nextremer | Learning device, replying device, production method for learning information, replying method, and program |
JP2018156429A (en) | 2017-03-17 | 2018-10-04 | ヤフー株式会社 | Information processing device, information processing method, and program |
-
2019
- 2019-02-07 JP JP2019020767A patent/JP7071304B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169470A (en) | 2008-01-10 | 2009-07-30 | Nissan Motor Co Ltd | Information guidance system and its recognition dictionary database update method |
JP2018073151A (en) | 2016-10-31 | 2018-05-10 | 株式会社Nextremer | Learning device, replying device, production method for learning information, replying method, and program |
JP2018156429A (en) | 2017-03-17 | 2018-10-04 | ヤフー株式会社 | Information processing device, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2020129192A (en) | 2020-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mao et al. | Multiobjective e-commerce recommendations based on hypergraph ranking | |
CN110121706A (en) | Response in session is provided | |
JP7071304B2 (en) | Information processing equipment, information processing methods and information processing programs | |
Asani et al. | Extracting user's food preferences by sentiment analysis | |
Hong et al. | Latent space regularization for recommender systems | |
Shankar et al. | An intelligent recommendation system in e-commerce using ensemble learning | |
Thomas et al. | Machine learning techniques for recommender systems–a comparative case analysis | |
Wang et al. | Tweet retweet prediction based on deep multitask learning | |
Guadarrama et al. | Understanding object descriptions in robotics by open-vocabulary object retrieval and detection | |
Melese | Food and restaurant recommendation system using hybrid filtering mechanism | |
Patel et al. | CNNRec: Convolutional Neural Network based recommender systems-A survey | |
Nazari et al. | Scalable and data-independent multi-agent recommender system using social networks analysis | |
JP6679683B2 (en) | Information processing apparatus, information processing method, and information processing program | |
Shilin | User Model‐Based Personalized Recommendation Algorithm for News Media Education Resources | |
Kilani et al. | Using artificial intelligence techniques in collaborative filtering recommender systems: Survey | |
JP7177013B2 (en) | Information processing device, information processing method and information processing program | |
Nia et al. | A framework for a large-scale B2B recommender system | |
JP6982017B2 (en) | Information processing equipment, information processing methods and information processing programs | |
JP6852114B2 (en) | Specific device, specific method and specific program | |
Katiyar et al. | TagIT: a system for image auto-tagging and clustering | |
Wang et al. | AsCDPR: a novel framework for ratings and personalized preference hotel recommendation using cross-domain and aspect-based features | |
JP7044729B2 (en) | Information processing equipment, information processing methods and information processing programs | |
Ma et al. | Self-attention based collaborative neural network for recommendation | |
JP6960361B2 (en) | Information processing equipment, information processing methods, and information processing programs | |
JP2022178650A (en) | Information processing device, information processing method, and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200917 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220506 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7071304 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |