JP2013161136A - Teacher data generation device, method and program - Google Patents
Teacher data generation device, method and program Download PDFInfo
- Publication number
- JP2013161136A JP2013161136A JP2012020229A JP2012020229A JP2013161136A JP 2013161136 A JP2013161136 A JP 2013161136A JP 2012020229 A JP2012020229 A JP 2012020229A JP 2012020229 A JP2012020229 A JP 2012020229A JP 2013161136 A JP2013161136 A JP 2013161136A
- Authority
- JP
- Japan
- Prior art keywords
- query
- category
- teacher data
- relevance
- data generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 45
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 description 33
- 230000000875 corresponding effect Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Abstract
Description
本発明は、機械学習に使用される教師データを生成する教師データ生成装置、方法及びプログラムに関する。 The present invention relates to a teacher data generation apparatus, method, and program for generating teacher data used for machine learning.
従来、コンピュータが大量に存在するデータを分類する場合に、機械学習を用いた分類が行われている。この機械学習のうち、教師あり学習と呼ばれる手法では、コンピュータが、サンプルデータについて、データの特徴を表す情報である素性情報と、分類結果とを予め定めた教師データを生成する。そして、コンピュータが、この教師データに基づいて分類パターンを学習した後、未分類のデータを、先の学習に基づいて分類を行う(例えば、特許文献1参照)。 Conventionally, classification using machine learning is performed when a computer classifies a large amount of data. Among the machine learning methods, in a method called supervised learning, a computer generates, for sample data, teacher data in which feature information that is information representing data characteristics and classification results are predetermined. After the computer learns the classification pattern based on the teacher data, the computer classifies the unclassified data based on the previous learning (see, for example, Patent Document 1).
ところで、特許文献1に開示されている教師あり学習では、サンプルデータからの教師データの生成が人手により行われている。このため、教師データの質が保証されるため、特許文献1に開示されている教師あり学習では、データの分類精度が高い。
By the way, in supervised learning disclosed in
しかしながら、特許文献1に開示されている教師あり学習では、教師データの生成を人手により行うため、教師データの生成に時間を要してしまうという問題がある。そこで、教師データの数を少なくする方法が考えられるが、教師データの数を少なくすると、機械学習の精度が低下してしまう。
However, in the supervised learning disclosed in
本発明は、効率的に教師データを生成することができる教師データ生成装置、方法及びプログラムを提供することを目的とする。 An object of the present invention is to provide a teacher data generation apparatus, method, and program capable of efficiently generating teacher data.
(1)機械学習に使用される教師データを生成する教師データ生成装置であって、第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得手段と、カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記取得手段により取得された第1クエリに対応する第1のカテゴリと、前記取得手段により取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出手段と、前記第1クエリ及び前記第2クエリそれぞれの性質を表す情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得手段と、前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御手段と、を備える教師データ生成装置。 (1) A teacher data generation device that generates teacher data used for machine learning, a query acquisition unit that acquires a first query and a second query different from the first query, a category, and the category A first category corresponding to the first query acquired by the acquisition unit based on a category information storage unit that associates and stores information indicating a parent-child relationship with another category, and acquired by the acquisition unit Relevance calculating means for calculating relevance with the second category corresponding to the second query, information representing the properties of the first query and the second query, the first query, and the second query. Feature information acquisition means for acquiring at least one of information representing the relationship between the first query, the second query, the degree of association, and the feature information as feature information. Tutor data generating apparatus and a storage control means for storing in a predetermined storage means as teacher data put communicating.
(2)前記関連度算出手段は、前記カテゴリ情報記憶手段に基づいて、前記第1のカテゴリと、前記第1のカテゴリに対して最上位となるカテゴリとのパスと、前記第2のカテゴリと、前記第2のカテゴリに対して最上位となるカテゴリとのパスとを特定し、特定されたパスに基づいて前記関連度を算出する、(1)に記載の教師データ生成装置。 (2) Based on the category information storage unit, the degree-of-relevance calculation unit includes a path between the first category and a category that is the highest level with respect to the first category, and the second category. The teacher data generation device according to (1), wherein a path with a category that is the highest level with respect to the second category is specified, and the degree of association is calculated based on the specified path.
(3)前記関連度算出手段は、特定されたパスのうち最上位のカテゴリから共通するパスの長さに基づいて前記関連度を算出する、(2)に記載の教師データ生成装置。 (3) The teacher data generation device according to (2), wherein the relevance calculation unit calculates the relevance based on a common path length from the highest category among the identified paths.
(4)前記関連度算出手段は、特定されたパスにおいて共通するパスの長さに基づいて前記関連度を算出する、(2)に記載の教師データ生成装置。 (4) The teacher data generation device according to (2), wherein the relevance calculation unit calculates the relevance based on a common path length in the identified paths.
(5)前記関連度算出手段は、特定されたパスのうち最上位のカテゴリから共通するパスの長さと、特定されたパスにおいて共通するパスの長さとに基づいて前記関連度を算出する、(2)に記載の教師データ生成装置。 (5) The relevance calculation means calculates the relevance based on a common path length from the highest category among the identified paths and a common path length in the identified paths. The teacher data generation device according to 2).
(6)コンピュータが、機械学習に使用される教師データの生成を実行する教師データ生成方法であって、第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、をコンピュータが実行する教師データ生成方法。 (6) A teacher data generation method in which a computer executes generation of teacher data used for machine learning, a query acquisition step of acquiring a first query and a second query different from the first query; A first category corresponding to the first query acquired in the query acquisition step based on category information storage means for storing the category and information indicating a parent-child relationship between the category and another category in association with each other; A degree-of-association calculating step for calculating a degree of association with the second category corresponding to the second query acquired in the query acquisition step, feature information representing the properties of the first query and the second query, A feature information acquisition step of acquiring at least one of information representing the relationship between the first query and the second query as feature information; The first query, the second query, the relevance and the teacher data generating method and a storage control step, the computer executes the feature information that are correlated is stored in a predetermined storage means as teacher data.
(7)機械学習に使用される教師データの生成をコンピュータに実行させる教師データ生成プログラムであって、第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、をコンピュータに実行させる教師データ生成プログラム。 (7) A teacher data generation program for causing a computer to generate teacher data used for machine learning, a query acquisition step for acquiring a first query and a second query different from the first query, a category A first category corresponding to the first query acquired in the query acquisition step based on category information storage means that stores information indicating a parent-child relationship between the category and another category in association with each other, and A degree-of-association calculating step of calculating a degree of association with the second category corresponding to the second query acquired in the query acquisition step, feature information representing the properties of the first query and the second query, and the first A feature information acquisition step for acquiring, as feature information, at least one of information representing the relevance of one query and the second query. Flop and the first query, the second query, the relevance and teacher data generating program to be executed by the storage control step, to the computer to be stored in a predetermined storage means as teacher data in association with the feature information.
本発明によれば、効率的に教師データを生成することができる教師データ生成装置、方法及びプログラムを提供することが可能となる。 ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to provide the teacher data generation apparatus, method, and program which can generate teacher data efficiently.
以下、本発明の実施形態について、図を参照しながら説明する。
[類似度判定システムの概要]
図1は、本実施形態に係る類似度判定システム1を示す図である。
類似度判定システム1は、クエリ抽出サーバ2と、教師データ生成装置としての教師データ生成サーバ3と、類似度判定サーバ4とから構成されている。クエリ抽出サーバ2と、教師データ生成サーバ3と、類似度判定サーバ4とは、インターネット等の通信ネットワークNを介して通信可能に構成されている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[Outline of similarity determination system]
FIG. 1 is a diagram showing a
The
類似度判定システム1では、クエリ抽出サーバ2が、検索エンジンにおいて用いられたクリックログから、第1のクエリと、第2のクエリとの組み合わせを抽出する。教師データ生成サーバ3は、クエリ抽出サーバ2において抽出された第1のクエリと、第2のクエリとについて、カテゴリ情報に基づいて関連度を算出するとともに、第1クエリ及び第2クエリそれぞれの性質を表す情報と、第1クエリ及び第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する。そして、教師データ生成サーバ3は、第1クエリ、第2クエリ、関連度及び素性情報を関連付けて教師データを生成する。類似度判定サーバ4は、教師データ生成サーバ3において生成された教師データに基づいて機械学習を行い、識別モデルを生成する。そして、類似度判定サーバ4は、別途存在するクエリの組み合わせについて、識別モデルに基づいて類似度を判定する。
In the
続いて、類似度判定システム1を構成する各サーバの機能構成について説明する。
図2は、本実施形態に係る類似度判定システム1を構成するクエリ抽出サーバ2、教師データ生成サーバ3及び類似度判定サーバ4の機能構成を示すブロック図である。
Next, the functional configuration of each server constituting the
FIG. 2 is a block diagram showing a functional configuration of the
[クエリ抽出サーバ2の構成]
クエリ抽出サーバ2は、1又は複数の一般的なコンピュータによって構成される。一般的なコンピュータは、中央処理装置と、記憶デバイスと、通信デバイスと、入力デバイスと、表示デバイスと、これらの装置が接続されるバスラインとにより構成されている。中央処理装置は、CPU等によって構成され、後述のクエリ抽出部22として機能する。記憶デバイスは、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)等によって構成され、後述の検索ログDB21として機能する。通信デバイスは、各種有線及び無線LAN装置から構成される。表示デバイスは、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイにより構成される。入力デバイスは、タッチパネルあるいはキーボード及びポインティング・デバイス(マウス、トラッキングボール等)により構成される。このような一般的なコンピュータにおいて、CPUは、クエリ抽出サーバ2を統括的に制御し、教師データ生成処理のためのプログラム等、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
[Configuration of query extraction server 2]
The
図2に示されるように、クエリ抽出サーバ2は、検索ログDB21と、クエリ抽出部22とを備える。
As shown in FIG. 2, the
図3は、本実施形態に係る検索ログDB21を示す図である。ここで、検索ログとは、図示しないユーザ端末のユーザが、ユーザ端末を介して検索エンジンにおいて検索を行った場合に、当該ユーザが検索結果ページにおいて一のURLを選択した履歴を示す情報である。検索ログDB21は、端末IPアドレスと、検索日時と、セッションIDと、ランクと、検索クエリと、URLとを関連付けて、検索ログとして記憶する。
FIG. 3 is a diagram showing the
端末IPアドレスは、検索を行ったユーザ端末のIPアドレスである。検索日時は、ユーザ端末において検索が行われた日時である。セッションIDは、ユーザ端末において検索が行われたときの、ユーザ端末と検索エンジンとの間のセッションIDである。ランクは、ユーザ端末において、検索結果から選択されたURLに対応するWebページのページランクである。検索クエリは、検索エンジンが、ユーザ端末から1回の検索で受信した1以上の検索クエリである。URLは、検索結果ページにおいて、ユーザ端末により選択されたURLである。 The terminal IP address is the IP address of the user terminal that performed the search. The search date and time is the date and time when the search was performed on the user terminal. The session ID is a session ID between the user terminal and the search engine when a search is performed on the user terminal. The rank is the page rank of the Web page corresponding to the URL selected from the search result in the user terminal. The search query is one or more search queries received by the search engine from the user terminal in one search. The URL is a URL selected by the user terminal on the search result page.
クエリ抽出部22は、検索ログDB21に記憶されている検索ログを参照して、2つの検索クエリを使用して検索された場合の、当該2つの検索クエリの組み合わせを抽出する。クエリ抽出部22は、抽出した2つの検索クエリの組み合わせを教師データ生成サーバ3に送信する。
The
[教師データ生成サーバ3の構成]
教師データ生成サーバ3は、クエリ抽出サーバ2と同様に1又は複数の一般的なコンピュータによって構成される。教師データ生成サーバ3のうち、クエリ抽出サーバ2と同様の構成については、説明を省略する。教師データ生成サーバ3の中央処理装置は、後述のクエリ受信部32と、関連度算出部34と、素性情報取得部35と、記憶制御部36として機能する。教師データ生成サーバ3の記憶デバイスは、後述の教師データDB31及びカテゴリDB33として機能する。
[Configuration of Teacher Data Generation Server 3]
The teacher
図2に示されるように、教師データ生成サーバ3は、教師データDB31と、クエリ受信部32と、カテゴリDB33と、関連度算出部34と、素性情報取得部35と、記憶制御部36とを備えている。
As shown in FIG. 2, the teacher
図4は、本実施形態に係る教師データDB31を示す図である。
図4に示されるように、教師データDB31は、教師データを記憶する。教師データは、第1クエリ、第2クエリ、関連度及び素性情報とから構成されている。
関連度は、第1クエリと第2クエリとの関連度を示す。素性情報は、第1クエリと第2クエリとのそれぞれの性質と、第1クエリ及び第2クエリの関連性を表す情報との少なくともいずれかを表す情報であり、複数の要素から構成されている。
FIG. 4 is a diagram showing the
As shown in FIG. 4, the
The degree of association indicates the degree of association between the first query and the second query. The feature information is information representing at least one of the properties of the first query and the second query and information representing the relationship between the first query and the second query, and is composed of a plurality of elements. .
クエリ受信部32は、クエリ抽出サーバ2から、2つのクエリの組み合わせを受信することにより2つのクエリを取得する。この2つのクエリのうち、一方のクエリが第1クエリとなり、この第1クエリと異なる他方のクエリが第2クエリとなる。すなわち、クエリ受信部32は、人手による入力操作を受け付けることなく、クエリ抽出サーバ2から自動的に、第1クエリと第2クエリとを受信する。
The
カテゴリDB33は、カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶する。
図5は、本実施形態に係るカテゴリDB33を示す図である。図5に示されているように、カテゴリDB33は、カテゴリと、このカテゴリに直接的に接続される他のカテゴリとを関連付けて記憶する。
The
FIG. 5 is a diagram showing the
カテゴリは、例えば、ディレクトリ型の検索サービスにおける各ディレクトリの名称である。カテゴリDB33では、カテゴリの下位に他のカテゴリが複数関連付けられている。これにより、カテゴリDB33では、あるカテゴリが、複数のカテゴリの下位に存在する場合がある。
なお、本実施形態では、カテゴリDB33が、カテゴリと他のカテゴリとを含むこととしたが、カテゴリを識別するカテゴリコードと、他のカテゴリを識別するカテゴリコードとについても記憶させるようにしてもよい。
The category is, for example, the name of each directory in the directory type search service. In the
In the present embodiment, the
関連度算出部34は、カテゴリDB33に基づいて、クエリ受信部32において受信した第1クエリに対応する第1のカテゴリと、クエリ受信部32において受信した第2クエリに対応する第2のカテゴリとの関連度を算出する。
Based on the
具体的には、関連度算出部34は、クエリ受信部32において、第1クエリと第2クエリとを受信すると、カテゴリDB33を参照して、第1クエリに対応するカテゴリと、第2クエリに対応するカテゴリとを特定する。本実施形態において、クエリに対応するカテゴリとは、クエリを構成する文字列と一致する文字列を有するカテゴリのことをいう。ここで、第1クエリに対応するカテゴリを第1のカテゴリとする。また、第2クエリに対応するカテゴリを第2のカテゴリとする。
Specifically, when the
続いて、関連度算出部34は、カテゴリDB33に基づいて、第1のカテゴリの上位のカテゴリであって、最上位となるカテゴリを特定する。例えば、関連度算出部34は、抽出されたカテゴリに直接的に関連付けられている上位のカテゴリが存在しなくなるまで、上位のカテゴリを抽出する処理を繰り返す。関連度算出部34は、抽出されたカテゴリに対して上位のカテゴリが存在しない場合、この抽出されたカテゴリを最上位のカテゴリと特定する。続いて、関連度算出部34は、第1のカテゴリと最上位のカテゴリとのパスを特定する。この特定されたパスを第1のパスという。
Subsequently, based on the
例えば、第1のクエリが、「スペイン」であり、図5に示されるデータがカテゴリDB33に記憶されている場合、関連度算出部34は、第1のクエリの最上位となるカテゴリとして、「地域」を抽出する。そして、関連度算出部34は、第1のパスを、「地域/国/スペイン」と特定する。なお、この例では、第1のパスとして1つの例を示したが、第1のパスは、複数特定されるものとする。これは、「スペイン」の上位のカテゴリ(例えば、「国」)が、複数のカテゴリの下位に存在するためである。
For example, when the first query is “Spain” and the data shown in FIG. 5 is stored in the
続いて、関連度算出部34は、第2のカテゴリに対して最上位となるカテゴリを特定する。最上位のカテゴリを特定する方法は、第1のカテゴリに対する最上位となるカテゴリを特定する方法と同一である。続いて、関連度算出部34は、第2のカテゴリと最上位のカテゴリとのパスを特定する。この特定されたパスを第2のパスという。
Subsequently, the
例えば、第2のクエリが、「バルセロナ」であり、図5に示されるデータがカテゴリDB33に記憶されている場合、関連度算出部34は、第2のクエリの最上位となるカテゴリとして、「地域」を抽出する。そして、関連度算出部34は、第2のパスを、「地域/国/スペイン/自治体/カタロニア/市/バルセロナ」と特定する。なお、この例では、第1のパスと同様に、第2のパスが複数特定されるものとする。
For example, when the second query is “Barcelona” and the data shown in FIG. 5 is stored in the
続いて、関連度算出部34は、第1のパスと、第2のパスに基づいて、以下の処理を行うことによって、第1のカテゴリと第2のカテゴリとの関連度を算出する。
すなわち、関連度算出部34は、第1のパスと第2のパスとについて、それぞれの最上位のカテゴリが一致している場合、この最上位のカテゴリから共通するパスの長さを算出する。そして、関連度算出部34は、このパスの長さについて、以下に示す式(1)に基づいて、関連度を算出する。
Subsequently, the degree-of-
In other words, the
また、|P(D,D’)|は、特定された第1のパスと第2のパスとの組み合わせのうち、最上位のカテゴリから共通するパスが最も長い組み合わせにおける、共通するパスの長さである。例えば、第1のパスが、「地域/国/スペイン」であり、第2のパスが、「地域/国/スペイン/自治体/カタロニア/市/バルセロナ」であり、第1のパスと第2のパスとは、「地域/国/スペイン」で共通する。そして、この第1のパスと第2のパスとの組み合わせが、共通するパスの最も長い組み合わせである場合、|P(D,D’)|は、「3」となる。
| P (D, D ′) | is the length of the common path in the combination having the longest common path from the highest category among the identified combinations of the first path and the second path. That's it. For example, the first pass is “Region / Country / Spain” and the second pass is “Region / Country / Spain / Local Government / Catalania / City / Barcelona”. The first pass and the second pass A pass is common to "region / country / spain". When the combination of the first path and the second path is the longest combination of the common paths, | P (D, D ′) | is “3”.
なお、関連度算出部34は、上述のように関連度を算出する代わりに、第1のパスと第2のパスとについて、共通するパスを特定し、この共通のパスに基づいて関連度を算出するようにしてもよい。この場合、関連度算出部34は、このパスの長さについて、以下に示す式(2)に基づいて、関連度を算出する。
ここで、C(D,D’)は、特定された第1のパスと第2のパスとの組み合わせのうち、共通するパスが最も長い組み合わせにおける、共通するパスの長さである。この共通するパスは、式(1)のように、最上位のカテゴリを基点とするものではなく、第1のパスと、第2のパスとについて、パスの途中から共通するものであってもよい。 Here, C (D, D ′) is the length of the common path in the combination having the longest common path among the identified combinations of the first path and the second path. This common path is not based on the highest category as in the formula (1), and the first path and the second path may be common from the middle of the path. Good.
また、関連度算出部34は、上述した式(1)と式(2)との双方において算出された値に基づいて、関連度を算出するようにしてもよい。例えば、関連度算出部34は、式(1)で算出された値と、式(2)で算出された値とに対して、それぞれ重み付けを行った後に、これらの値を加算して関連度を算出する。
In addition, the
なお、関連度算出部34は、第1クエリに対応するカテゴリ及び第2クエリに対応するカテゴリのいずれかが特定できなかった場合、当該第1クエリと当該第2クエリとの関連度の算出に失敗したものとする。関連度の算出に失敗した場合、関連度算出部34は、関連度の算出に続いて行われる素性情報取得部35の処理と記憶制御部36との処理を省略する。これにより、教師データ生成サーバ3は、関連度を算出することができなかった第1クエリと第2クエリとを教師データとして採用しない。これにより、教師データ生成サーバ3は、関連度が不明な情報が教師データに含まれることを防止することができ、教師データの精度を向上させることができる。
The
素性情報取得部35は、第1クエリ及び第2クエリそれぞれの性質を表す素性情報を取得する。
具体的には、素性情報取得部35は、第1クエリと第2クエリとのそれぞれについて、ファセット抽出特性、クエリテキスト特性、結果クリック特性、クエリセッション共起特性を含む素性情報を後述のクエリDB42から取得する。
The feature
Specifically, the feature
ファセット抽出特性とは、例えば、検索ログDB21における第1クエリと第2クエリとの、一度に用いられた確率、検索キーワードの先頭で用いられた確率、検索キーワードの先頭以外で用いられた確率、同一セッション内での存在した確率、クリックされた頻度等を示す情報である。
The facet extraction characteristics are, for example, the probability that the first query and the second query in the
クエリテキスト特性は、例えば、第1クエリ及び第2クエリそれぞれの、文字の長さ、構成される単語の量、マルチバイト文字基準によるレーベンシュタイン距離等を示す情報である。 The query text characteristic is information indicating, for example, the length of characters, the amount of words configured, the Levenshtein distance based on a multibyte character criterion, and the like for each of the first query and the second query.
結果クリック特性は、例えば、第1クエリ及び第2クエリそれぞれの、検索結果における情報量に基づいて算出される情報である。 The result click characteristic is information calculated based on the amount of information in the search results of each of the first query and the second query, for example.
なお、素性情報取得部35は、素性情報をクエリDB42から取得することとしたが、これに限らない。例えば、素性情報取得部35は、クエリテキスト特定について、第1のクエリ、第2のクエリそれぞれから算出するようにしてもよい。
In addition, although the feature
記憶制御部36は、クエリ受信部32により受信した第1クエリ及び第2クエリ、関連度算出部34により算出された関連度、並びに素性情報取得部35により取得された素性情報を関連付けて教師データとし、この教師データを教師データDB31に記憶させる。
The
[類似度判定サーバ4の構成]
類似度判定サーバ4は、クエリ抽出サーバ2、教師データ生成サーバ3と同様に1又は複数の一般的なコンピュータによって構成される。類似度判定サーバ4のうち、クエリ抽出サーバ2と同様の構成については、説明を省略する。類似度判定サーバ4の中央処理装置は、後述のモデル生成部41と、類似度判定部43として機能する。類似度判定サーバ4の記憶デバイスは、後述のクエリDB42として機能する。
[Configuration of similarity determination server 4]
図2に示されるように、類似度判定サーバ4は、モデル生成部41と、クエリDB42と、類似度判定部43とを備えている。
As shown in FIG. 2, the
モデル生成部41は、教師データDB31を参照して、機械学習を行い、第1クエリと第2クエリとの識別モデルを生成する。具体的には、モデル生成部41は、教師データDB31に記憶されている教師データに基づいて、第1クエリ、第2クエリ及び素性データの値と、関連度(類似度)との関係性について機械学習を行い、識別モデルを生成する。モデル生成部41は、教師データDB31に記憶されている全てのデータに基づいて識別モデルを生成する。
The
図6は、本実施形態に係るクエリDB42を示す図である。図6に示されているように、クエリDB42は、第1クエリと、第2クエリと、素性情報とを関連付けて記憶する。すなわち、本実施形態において、クエリDB42に記憶されている第1クエリと第2クエリとは、予め素性情報が算出されているものの、類似性が未知であるものとする。
FIG. 6 is a diagram showing the
類似度判定部43は、モデル生成部41により生成された識別モデル及びクエリDB42に記憶されている素性情報を用いて、クエリDB42に記憶されている第1クエリ及び第2クエリの関連度(類似度)を判定する。なお、類似度判定部43は、他のサーバから、第1クエリ及び第2クエリを受け付け、受け付けた第1クエリ及び第2クエリの関連度を判定するようにしてもよい。
The
[動作]
次に、図7及び図8を参照して、類似度判定システム1の動作を説明する。
図7は、クエリ抽出サーバ2及び教師データ生成サーバ3が実行する教師データ生成処理の流れを示すフローチャートである。
[Operation]
Next, the operation of the
FIG. 7 is a flowchart showing the flow of teacher data generation processing executed by the
[クエリ抽出サーバ2及び教師データ生成サーバ3の動作]
クエリ抽出サーバ2のクエリ抽出部22は、検索ログDB21に記憶されている検索ログを参照して、2つの検索クエリを抽出する(ステップS1)。
続いて、クエリ抽出サーバ2のクエリ抽出部22は、ステップS1において抽出した2つの検索クエリを教師データ生成サーバ3に送信する(ステップS2)。
[Operations of
The
Subsequently, the
続いて、教師データ生成サーバ3のクエリ受信部32は、クエリ抽出サーバ2から、2つのクエリを受信する(ステップS3)。
続いて、教師データ生成サーバ3の関連度算出部34は、カテゴリDB33に基づいて、ステップS3において受け付けた第1クエリに対応する第1のカテゴリと、ステップS3において受け付けた第2クエリに対応する第2のカテゴリとの関連度を算出する(ステップS4)。
Subsequently, the
Subsequently, the
続いて、教師データ生成サーバ3の素性情報取得部35は、クエリDB42から、第1クエリ及び第2クエリそれぞれの性質を表す素性情報を取得する(ステップS5)。なお、ステップS4の処理とステップS5の処理との順番は、説明した順番と逆の順番であってもよい。
Subsequently, the feature
続いて、教師データ生成サーバ3の記憶制御部36は、ステップS3において受信した第1クエリ及び第2クエリ、ステップS4において算出された関連度、並びにステップS5において取得された素性情報を関連付けて教師データとし、この教師データを教師データDB31に記憶させる(ステップS6)。
Subsequently, the
[類似度判定サーバ4の動作]
図8は、類似度判定サーバ4が実行する類似度判定処理の流れを示すフローチャートである。
類似度判定サーバ4のモデル生成部41は、教師データDB31に記憶されている教師データに基づいて、第1クエリ、第2クエリ及び素性データとの値と、類似度との関係性について機械学習を行い、識別モデルを生成する(ステップS11)。
[Operation of similarity determination server 4]
FIG. 8 is a flowchart showing the flow of similarity determination processing executed by the
The
類似度判定サーバ4の類似度判定部43は、モデル生成部41により生成された識別モデル及びクエリDB42に記憶されている素性情報を用いて、クエリDB42に記憶されている第1クエリ及び第2クエリの類似度(関連度)を判定する(ステップS12)。
The
以上のように、本実施形態に係る類似度判定システム1において、教師データ生成サーバ3は、関連度算出部34により、カテゴリDB33に基づいて、クエリ受信部32において受信した第1クエリに対応する第1のカテゴリと、クエリ受信部32において受信した第2クエリに対応する第2のカテゴリとの関連度を算出する。そして、教師データ生成サーバ3は、素性情報取得部35により、第1クエリ及び第2クエリそれぞれの性質を表す素性情報を取得し、記憶制御部36により、第1クエリ、第2クエリ、関連度及び素性情報を関連付けて教師データとして教師データDB31に記憶させる。
As described above, in the
このように、教師データ生成サーバ3は、人手により教師データの生成を行うことなく、教師データを自動的に生成することができるので、効率的に教師データを生成することが可能となる。
As described above, the teacher
また、教師データ生成サーバ3は、関連度算出部34により、カテゴリDB33に基づいて、第1のカテゴリと、第1のカテゴリに対して最上位となるカテゴリとのパスと、第2のカテゴリと、第2のカテゴリに対して最上位となるカテゴリとのパスとを特定し、特定されたパスに基づいて関連度を算出する。よって、教師データ生成サーバ3は、カテゴリDB33に記憶されているカテゴリの階層構造を利用して、関連度を算出することが可能となる。
In addition, the teacher
また、教師データ生成サーバ3は、関連度算出部34により、特定されたパスのうち最上位のカテゴリから共通するパスの長さに基づいて関連度を算出する。最上位のカテゴリからパスが共通する場合、これらのパスに対応する第1のカテゴリと第2のカテゴリとは、上下関係にあるため、最上位のカテゴリからパスが共通していない場合に比べて類似しているといえる。よって、教師データ生成サーバ3は、第1クエリと第2クエリとの関連度を精度よく算出することが可能となる。
In addition, the teacher
また、教師データ生成サーバ3は、関連度算出部34により、特定されたパスにおいて共通するパスの長さに基づいて関連度を算出する。パスが部分的に共通する場合、これらのパスに対応する第1のカテゴリと第2のカテゴリとは、あるカテゴリの下位に共通して存在しているといえる。このため、第1のカテゴリと第2のカテゴリとは、パスが共通していない場合に比べて類似しているといえる。よって、教師データ生成サーバ3は、第1クエリと第2クエリとの関連度を精度よく算出することが可能となる。
In addition, the teacher
また、教師データ生成サーバ3は、関連度算出部34により、特定されたパスのうち最上位のカテゴリから共通するパスの長さと、特定されたパスにおいて共通するパスの長さとに基づいて関連度を算出する。このようにすることで、教師データ生成サーバ3は、最上位のカテゴリからのパスの共通性と、パスの部分的な共通性との双方に基づいて関連度を算出することが可能となる。
Further, the teacher
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
例えば、本実施形態では、教師データ生成サーバ3は、1つのサーバとして実現される場合を例に挙げて説明したが、教師データ生成サーバ3の機能を複数のサーバに分散して実装し、これらのサーバ全体が連携することによって教師データ生成サーバ3の機能を実現することも可能である。
For example, in the present embodiment, the case where the teacher
また、本実施形態では、教師データ生成サーバ3において、カテゴリDB33を記憶することとしたが、教師データ生成サーバ3と異なるサーバに対してカテゴリDB33を記憶するようにしてもよい。この場合、教師データ生成サーバ3は、カテゴリDB33が記憶されたサーバにアクセスして、このサーバに記憶されたカテゴリDB33に基づいて関連度を算出する。
Further, in the present embodiment, the
また、本実施形態では、類似度判定システム1は、クエリ抽出サーバ2と、教師データ生成サーバ3と、類似度判定サーバ4との3台のサーバから構成されるものとしたが、これに限らない。例えば、類似度判定システム1は、これらのサーバが備える機能を1台のサーバで実現するようにしてもよいし、4台以上のサーバで機能を分散して実現するようにしてもよい。
In the present embodiment, the
また、本実施形態では、教師データ生成サーバ3において、生成された教師データを教師データDB31に記憶させることとしたが、教師データ生成サーバ3と異なるサーバに対して教師データを記憶するようにしてもよい。この場合、類似度判定サーバ4は、教師データが記憶されたサーバにアクセスして、このサーバに記憶された教師データに基づいて識別モデルを生成する。
In the present embodiment, the teacher
また、本実施形態では、関連度算出部34は、関連度の算出に失敗した場合、関連度の算出に続いて行われる素性情報取得部35の処理と記憶制御部36との処理を省略するものとしたが、これに限らない。例えば、関連度算出部34は、関連度の算出に失敗した場合、失敗したことを示すエラー情報を素性情報取得部35及び記憶制御部36に出力するようにしてもよい。そして、素性情報取得部35と記憶制御部36とのそれぞれにおいて、エラー情報を受信した場合に、それぞれの機能に係る処理を行わないようにしてもよい。
In the present embodiment, when the relevance calculation fails, the
1 類似度判定システム
2 クエリ抽出サーバ
21 検索ログDB
22 クエリ抽出部
3 教師データ生成サーバ
31 教師データDB
32 クエリ受信部
33 カテゴリDB
34 関連度算出部
35 素性情報取得部
36 記憶制御部
4 類似度判定サーバ
41 モデル生成部
42 クエリDB
43 類似度判定部
1
22
32
34
43 Similarity determination unit
Claims (7)
第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得手段と、
カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得手段により取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得手段により取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出手段と、
前記第1クエリ及び前記第2クエリそれぞれの性質を表す情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得手段と、
前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御手段と、
を備える教師データ生成装置。 A teacher data generation device that generates teacher data used for machine learning,
Query acquisition means for acquiring a first query and a second query different from the first query;
A first category corresponding to the first query acquired by the query acquisition unit based on a category information storage unit that stores a category and information indicating a parent-child relationship between the category and another category; Relevance calculation means for calculating relevance with the second category corresponding to the second query acquired by the query acquisition means;
Feature information acquisition means for acquiring, as feature information, at least one of information representing the properties of the first query and the second query and information representing the relevance of the first query and the second query;
Storage control means for associating the first query, the second query, the relevance and the feature information and storing them in a predetermined storage means as teacher data;
A teacher data generation device comprising:
請求項1に記載の教師データ生成装置。 Based on the category information storage unit, the relevance calculation unit is configured to pass the first category, a path of a category that is the highest level with respect to the first category, the second category, and the second category. A path with a category that is the highest level for the two categories is calculated, and the relevance is calculated based on the specified path.
The teacher data generation device according to claim 1.
請求項2に記載の教師データ生成装置。 The relevance calculating means calculates the relevance based on a common path length from the highest category among the identified paths.
The teacher data generation device according to claim 2.
請求項2に記載の教師データ生成装置。 The relevance calculating means calculates the relevance based on a common path length in the identified path;
The teacher data generation device according to claim 2.
請求項2に記載の教師データ生成装置。 The relevance calculation means calculates the relevance based on a common path length from the highest category among the identified paths and a common path length in the identified paths.
The teacher data generation device according to claim 2.
第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、
カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、
前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、
前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、
をコンピュータが実行する教師データ生成方法。 A teacher data generation method in which a computer executes generation of teacher data used for machine learning,
A query acquisition step of acquiring a first query and a second query different from the first query;
A first category corresponding to the first query acquired in the query acquisition step based on category information storage means for storing the category and information indicating a parent-child relationship between the category and another category in association with each other; A relevance calculation step of calculating relevance with the second category corresponding to the second query acquired in the query acquisition step;
A feature information acquisition step of acquiring, as feature information, at least one of feature information representing the properties of each of the first query and the second query and information representing a relationship between the first query and the second query;
A storage control step of associating the first query, the second query, the degree of association, and the feature information with each other and storing them in a predetermined storage unit as teacher data;
A teacher data generation method in which a computer executes.
第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、
カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、
前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、
前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、
をコンピュータに実行させる教師データ生成プログラム。 A teacher data generation program for causing a computer to generate teacher data used for machine learning,
A query acquisition step of acquiring a first query and a second query different from the first query;
A first category corresponding to the first query acquired in the query acquisition step based on category information storage means for storing the category and information indicating a parent-child relationship between the category and another category in association with each other; A relevance calculation step of calculating relevance with the second category corresponding to the second query acquired in the query acquisition step;
A feature information acquisition step of acquiring, as feature information, at least one of feature information representing the properties of each of the first query and the second query and information representing a relationship between the first query and the second query;
A storage control step of associating the first query, the second query, the degree of association, and the feature information with each other and storing them in a predetermined storage unit as teacher data;
A teacher data generation program for causing a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012020229A JP5394512B2 (en) | 2012-02-01 | 2012-02-01 | Teacher data generation apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012020229A JP5394512B2 (en) | 2012-02-01 | 2012-02-01 | Teacher data generation apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013161136A true JP2013161136A (en) | 2013-08-19 |
JP5394512B2 JP5394512B2 (en) | 2014-01-22 |
Family
ID=49173359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012020229A Active JP5394512B2 (en) | 2012-02-01 | 2012-02-01 | Teacher data generation apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5394512B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019020940A (en) * | 2017-07-14 | 2019-02-07 | ヤフー株式会社 | Information processing system, information processing method, and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010211693A (en) * | 2009-03-12 | 2010-09-24 | Nomura Research Institute Ltd | Method and program of estimating maximum likelihood |
JP2011209996A (en) * | 2010-03-30 | 2011-10-20 | Fujitsu Ltd | Access control method and access control device |
-
2012
- 2012-02-01 JP JP2012020229A patent/JP5394512B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010211693A (en) * | 2009-03-12 | 2010-09-24 | Nomura Research Institute Ltd | Method and program of estimating maximum likelihood |
JP2011209996A (en) * | 2010-03-30 | 2011-10-20 | Fujitsu Ltd | Access control method and access control device |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019020940A (en) * | 2017-07-14 | 2019-02-07 | ヤフー株式会社 | Information processing system, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5394512B2 (en) | 2014-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102368262B (en) | Method and equipment for providing searching suggestions corresponding to query sequence | |
US8200672B2 (en) | Supporting document data search | |
US11176453B2 (en) | System and method for detangling of interleaved conversations in communication platforms | |
US20150234927A1 (en) | Application search method, apparatus, and terminal | |
US10346457B2 (en) | Platform support clusters from computer application metadata | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
US20160140232A1 (en) | System and Method of Expanding a Search Query | |
US20180032523A1 (en) | Computer application query suggestions | |
US20150309988A1 (en) | Evaluating Crowd Sourced Information Using Crowd Sourced Metadata | |
US11036764B1 (en) | Document classification filter for search queries | |
US20160140230A1 (en) | Implicit Collaborative Searching Based on Search History Database | |
US10606910B2 (en) | Ranking search results using machine learning based models | |
US11017002B2 (en) | Description matching for application program interface mashup generation | |
US20170017695A1 (en) | Question and answer information providing system, information processing device, and non-transitory computer-readable medium | |
US20160103916A1 (en) | Systems and methods of de-duplicating similar news feed items | |
US20160140130A1 (en) | Method of Naming Query Clusters | |
US11928140B2 (en) | Methods and systems for modifying a search result | |
US8676791B2 (en) | Apparatus and methods for providing assistance in detecting mistranslation | |
US20190278811A1 (en) | Identifying merchant data associated with multiple data structures | |
US11379527B2 (en) | Sibling search queries | |
CN107786529B (en) | Website detection method, device and system | |
WO2015024522A1 (en) | Search method and system, search engine and client | |
US10339148B2 (en) | Cross-platform computer application query categories | |
JP5394512B2 (en) | Teacher data generation apparatus, method, and program | |
JP2015088089A (en) | Recommendation server and recommendation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5394512 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |