JP5394512B2 - 教師データ生成装置、方法及びプログラム - Google Patents

教師データ生成装置、方法及びプログラム Download PDF

Info

Publication number
JP5394512B2
JP5394512B2 JP2012020229A JP2012020229A JP5394512B2 JP 5394512 B2 JP5394512 B2 JP 5394512B2 JP 2012020229 A JP2012020229 A JP 2012020229A JP 2012020229 A JP2012020229 A JP 2012020229A JP 5394512 B2 JP5394512 B2 JP 5394512B2
Authority
JP
Japan
Prior art keywords
query
category
teacher data
relevance
data generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012020229A
Other languages
English (en)
Other versions
JP2013161136A (ja
Inventor
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2012020229A priority Critical patent/JP5394512B2/ja
Publication of JP2013161136A publication Critical patent/JP2013161136A/ja
Application granted granted Critical
Publication of JP5394512B2 publication Critical patent/JP5394512B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、機械学習に使用される教師データを生成する教師データ生成装置、方法及びプログラムに関する。
従来、コンピュータが大量に存在するデータを分類する場合に、機械学習を用いた分類が行われている。この機械学習のうち、教師あり学習と呼ばれる手法では、コンピュータが、サンプルデータについて、データの特徴を表す情報である素性情報と、分類結果とを予め定めた教師データを生成する。そして、コンピュータが、この教師データに基づいて分類パターンを学習した後、未分類のデータを、先の学習に基づいて分類を行う(例えば、特許文献1参照)。
特開2005−181928号公報
ところで、特許文献1に開示されている教師あり学習では、サンプルデータからの教師データの生成が人手により行われている。このため、教師データの質が保証されるため、特許文献1に開示されている教師あり学習では、データの分類精度が高い。
しかしながら、特許文献1に開示されている教師あり学習では、教師データの生成を人手により行うため、教師データの生成に時間を要してしまうという問題がある。そこで、教師データの数を少なくする方法が考えられるが、教師データの数を少なくすると、機械学習の精度が低下してしまう。
本発明は、効率的に教師データを生成することができる教師データ生成装置、方法及びプログラムを提供することを目的とする。
(1)機械学習に使用される教師データを生成する教師データ生成装置であって、第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得手段と、カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記取得手段により取得された第1クエリに対応する第1のカテゴリと、前記取得手段により取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出手段と、前記第1クエリ及び前記第2クエリそれぞれの性質を表す情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得手段と、前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御手段と、を備える教師データ生成装置。
(2)前記関連度算出手段は、前記カテゴリ情報記憶手段に基づいて、前記第1のカテゴリと、前記第1のカテゴリに対して最上位となるカテゴリとのパスと、前記第2のカテゴリと、前記第2のカテゴリに対して最上位となるカテゴリとのパスとを特定し、特定されたパスに基づいて前記関連度を算出する、(1)に記載の教師データ生成装置。
(3)前記関連度算出手段は、特定されたパスのうち最上位のカテゴリから共通するパスの長さに基づいて前記関連度を算出する、(2)に記載の教師データ生成装置。
(4)前記関連度算出手段は、特定されたパスにおいて共通するパスの長さに基づいて前記関連度を算出する、(2)に記載の教師データ生成装置。
(5)前記関連度算出手段は、特定されたパスのうち最上位のカテゴリから共通するパスの長さと、特定されたパスにおいて共通するパスの長さとに基づいて前記関連度を算出する、(2)に記載の教師データ生成装置。
(6)コンピュータが、機械学習に使用される教師データの生成を実行する教師データ生成方法であって、第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、をコンピュータが実行する教師データ生成方法。
(7)機械学習に使用される教師データの生成をコンピュータに実行させる教師データ生成プログラムであって、第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、をコンピュータに実行させる教師データ生成プログラム。
本発明によれば、効率的に教師データを生成することができる教師データ生成装置、方法及びプログラムを提供することが可能となる。
類似度判定システムを示す図である。 類似度判定システムを構成するクエリ抽出サーバ、教師データ生成サーバ及び類似度判定サーバの機能構成を示すブロック図である。 検索ログDBを示す図である。 教師データDBを示す図である。 カテゴリDBを示す図である。 クエリDBを示す図である。 クエリ抽出サーバ及び教師データ生成サーバが実行する教師データ生成処理の流れを示すフローチャートである。 類似度判定サーバが実行する類似度判定処理の流れを示すフローチャートである。
以下、本発明の実施形態について、図を参照しながら説明する。
[類似度判定システムの概要]
図1は、本実施形態に係る類似度判定システム1を示す図である。
類似度判定システム1は、クエリ抽出サーバ2と、教師データ生成装置としての教師データ生成サーバ3と、類似度判定サーバ4とから構成されている。クエリ抽出サーバ2と、教師データ生成サーバ3と、類似度判定サーバ4とは、インターネット等の通信ネットワークNを介して通信可能に構成されている。
類似度判定システム1では、クエリ抽出サーバ2が、検索エンジンにおいて用いられたクリックログから、第1のクエリと、第2のクエリとの組み合わせを抽出する。教師データ生成サーバ3は、クエリ抽出サーバ2において抽出された第1のクエリと、第2のクエリとについて、カテゴリ情報に基づいて関連度を算出するとともに、第1クエリ及び第2クエリそれぞれの性質を表す情報と、第1クエリ及び第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する。そして、教師データ生成サーバ3は、第1クエリ、第2クエリ、関連度及び素性情報を関連付けて教師データを生成する。類似度判定サーバ4は、教師データ生成サーバ3において生成された教師データに基づいて機械学習を行い、識別モデルを生成する。そして、類似度判定サーバ4は、別途存在するクエリの組み合わせについて、識別モデルに基づいて類似度を判定する。
続いて、類似度判定システム1を構成する各サーバの機能構成について説明する。
図2は、本実施形態に係る類似度判定システム1を構成するクエリ抽出サーバ2、教師データ生成サーバ3及び類似度判定サーバ4の機能構成を示すブロック図である。
[クエリ抽出サーバ2の構成]
クエリ抽出サーバ2は、1又は複数の一般的なコンピュータによって構成される。一般的なコンピュータは、中央処理装置と、記憶デバイスと、通信デバイスと、入力デバイスと、表示デバイスと、これらの装置が接続されるバスラインとにより構成されている。中央処理装置は、CPU等によって構成され、後述のクエリ抽出部22として機能する。記憶デバイスは、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)等によって構成され、後述の検索ログDB21として機能する。通信デバイスは、各種有線及び無線LAN装置から構成される。表示デバイスは、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイにより構成される。入力デバイスは、タッチパネルあるいはキーボード及びポインティング・デバイス(マウス、トラッキングボール等)により構成される。このような一般的なコンピュータにおいて、CPUは、クエリ抽出サーバ2を統括的に制御し、教師データ生成処理のためのプログラム等、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
図2に示されるように、クエリ抽出サーバ2は、検索ログDB21と、クエリ抽出部22とを備える。
図3は、本実施形態に係る検索ログDB21を示す図である。ここで、検索ログとは、図示しないユーザ端末のユーザが、ユーザ端末を介して検索エンジンにおいて検索を行った場合に、当該ユーザが検索結果ページにおいて一のURLを選択した履歴を示す情報である。検索ログDB21は、端末IPアドレスと、検索日時と、セッションIDと、ランクと、検索クエリと、URLとを関連付けて、検索ログとして記憶する。
端末IPアドレスは、検索を行ったユーザ端末のIPアドレスである。検索日時は、ユーザ端末において検索が行われた日時である。セッションIDは、ユーザ端末において検索が行われたときの、ユーザ端末と検索エンジンとの間のセッションIDである。ランクは、ユーザ端末において、検索結果から選択されたURLに対応するWebページのページランクである。検索クエリは、検索エンジンが、ユーザ端末から1回の検索で受信した1以上の検索クエリである。URLは、検索結果ページにおいて、ユーザ端末により選択されたURLである。
クエリ抽出部22は、検索ログDB21に記憶されている検索ログを参照して、2つの検索クエリを使用して検索された場合の、当該2つの検索クエリの組み合わせを抽出する。クエリ抽出部22は、抽出した2つの検索クエリの組み合わせを教師データ生成サーバ3に送信する。
[教師データ生成サーバ3の構成]
教師データ生成サーバ3は、クエリ抽出サーバ2と同様に1又は複数の一般的なコンピュータによって構成される。教師データ生成サーバ3のうち、クエリ抽出サーバ2と同様の構成については、説明を省略する。教師データ生成サーバ3の中央処理装置は、後述のクエリ受信部32と、関連度算出部34と、素性情報取得部35と、記憶制御部36として機能する。教師データ生成サーバ3の記憶デバイスは、後述の教師データDB31及びカテゴリDB33として機能する。
図2に示されるように、教師データ生成サーバ3は、教師データDB31と、クエリ受信部32と、カテゴリDB33と、関連度算出部34と、素性情報取得部35と、記憶制御部36とを備えている。
図4は、本実施形態に係る教師データDB31を示す図である。
図4に示されるように、教師データDB31は、教師データを記憶する。教師データは、第1クエリ、第2クエリ、関連度及び素性情報とから構成されている。
関連度は、第1クエリと第2クエリとの関連度を示す。素性情報は、第1クエリと第2クエリとのそれぞれの性質と、第1クエリ及び第2クエリの関連性を表す情報との少なくともいずれかを表す情報であり、複数の要素から構成されている。
クエリ受信部32は、クエリ抽出サーバ2から、2つのクエリの組み合わせを受信することにより2つのクエリを取得する。この2つのクエリのうち、一方のクエリが第1クエリとなり、この第1クエリと異なる他方のクエリが第2クエリとなる。すなわち、クエリ受信部32は、人手による入力操作を受け付けることなく、クエリ抽出サーバ2から自動的に、第1クエリと第2クエリとを受信する。
カテゴリDB33は、カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶する。
図5は、本実施形態に係るカテゴリDB33を示す図である。図5に示されているように、カテゴリDB33は、カテゴリと、このカテゴリに直接的に接続される他のカテゴリとを関連付けて記憶する。
カテゴリは、例えば、ディレクトリ型の検索サービスにおける各ディレクトリの名称である。カテゴリDB33では、カテゴリの下位に他のカテゴリが複数関連付けられている。これにより、カテゴリDB33では、あるカテゴリが、複数のカテゴリの下位に存在する場合がある。
なお、本実施形態では、カテゴリDB33が、カテゴリと他のカテゴリとを含むこととしたが、カテゴリを識別するカテゴリコードと、他のカテゴリを識別するカテゴリコードとについても記憶させるようにしてもよい。
関連度算出部34は、カテゴリDB33に基づいて、クエリ受信部32において受信した第1クエリに対応する第1のカテゴリと、クエリ受信部32において受信した第2クエリに対応する第2のカテゴリとの関連度を算出する。
具体的には、関連度算出部34は、クエリ受信部32において、第1クエリと第2クエリとを受信すると、カテゴリDB33を参照して、第1クエリに対応するカテゴリと、第2クエリに対応するカテゴリとを特定する。本実施形態において、クエリに対応するカテゴリとは、クエリを構成する文字列と一致する文字列を有するカテゴリのことをいう。ここで、第1クエリに対応するカテゴリを第1のカテゴリとする。また、第2クエリに対応するカテゴリを第2のカテゴリとする。
続いて、関連度算出部34は、カテゴリDB33に基づいて、第1のカテゴリの上位のカテゴリであって、最上位となるカテゴリを特定する。例えば、関連度算出部34は、抽出されたカテゴリに直接的に関連付けられている上位のカテゴリが存在しなくなるまで、上位のカテゴリを抽出する処理を繰り返す。関連度算出部34は、抽出されたカテゴリに対して上位のカテゴリが存在しない場合、この抽出されたカテゴリを最上位のカテゴリと特定する。続いて、関連度算出部34は、第1のカテゴリと最上位のカテゴリとのパスを特定する。この特定されたパスを第1のパスという。
例えば、第1のクエリが、「スペイン」であり、図5に示されるデータがカテゴリDB33に記憶されている場合、関連度算出部34は、第1のクエリの最上位となるカテゴリとして、「地域」を抽出する。そして、関連度算出部34は、第1のパスを、「地域/国/スペイン」と特定する。なお、この例では、第1のパスとして1つの例を示したが、第1のパスは、複数特定されるものとする。これは、「スペイン」の上位のカテゴリ(例えば、「国」)が、複数のカテゴリの下位に存在するためである。
続いて、関連度算出部34は、第2のカテゴリに対して最上位となるカテゴリを特定する。最上位のカテゴリを特定する方法は、第1のカテゴリに対する最上位となるカテゴリを特定する方法と同一である。続いて、関連度算出部34は、第2のカテゴリと最上位のカテゴリとのパスを特定する。この特定されたパスを第2のパスという。
例えば、第2のクエリが、「バルセロナ」であり、図5に示されるデータがカテゴリDB33に記憶されている場合、関連度算出部34は、第2のクエリの最上位となるカテゴリとして、「地域」を抽出する。そして、関連度算出部34は、第2のパスを、「地域/国/スペイン/自治体/カタロニア/市/バルセロナ」と特定する。なお、この例では、第1のパスと同様に、第2のパスが複数特定されるものとする。
続いて、関連度算出部34は、第1のパスと、第2のパスに基づいて、以下の処理を行うことによって、第1のカテゴリと第2のカテゴリとの関連度を算出する。
すなわち、関連度算出部34は、第1のパスと第2のパスとについて、それぞれの最上位のカテゴリが一致している場合、この最上位のカテゴリから共通するパスの長さを算出する。そして、関連度算出部34は、このパスの長さについて、以下に示す式(1)に基づいて、関連度を算出する。
Figure 0005394512
ここで、max{|D|,|D’|}は、特定された複数の第1のパスのうち最も長い距離と、特定された複数の第2のパスのうち最も長い距離とによって求められる。
また、|P(D,D’)|は、特定された第1のパスと第2のパスとの組み合わせのうち、最上位のカテゴリから共通するパスが最も長い組み合わせにおける、共通するパスの長さである。例えば、第1のパスが、「地域/国/スペイン」であり、第2のパスが、「地域/国/スペイン/自治体/カタロニア/市/バルセロナ」であり、第1のパスと第2のパスとは、「地域/国/スペイン」で共通する。そして、この第1のパスと第2のパスとの組み合わせが、共通するパスの最も長い組み合わせである場合、|P(D,D’)|は、「3」となる。
なお、関連度算出部34は、上述のように関連度を算出する代わりに、第1のパスと第2のパスとについて、共通するパスを特定し、この共通のパスに基づいて関連度を算出するようにしてもよい。この場合、関連度算出部34は、このパスの長さについて、以下に示す式(2)に基づいて、関連度を算出する。
Figure 0005394512
ここで、C(D,D’)は、特定された第1のパスと第2のパスとの組み合わせのうち、共通するパスが最も長い組み合わせにおける、共通するパスの長さである。この共通するパスは、式(1)のように、最上位のカテゴリを基点とするものではなく、第1のパスと、第2のパスとについて、パスの途中から共通するものであってもよい。
また、関連度算出部34は、上述した式(1)と式(2)との双方において算出された値に基づいて、関連度を算出するようにしてもよい。例えば、関連度算出部34は、式(1)で算出された値と、式(2)で算出された値とに対して、それぞれ重み付けを行った後に、これらの値を加算して関連度を算出する。
なお、関連度算出部34は、第1クエリに対応するカテゴリ及び第2クエリに対応するカテゴリのいずれかが特定できなかった場合、当該第1クエリと当該第2クエリとの関連度の算出に失敗したものとする。関連度の算出に失敗した場合、関連度算出部34は、関連度の算出に続いて行われる素性情報取得部35の処理と記憶制御部36との処理を省略する。これにより、教師データ生成サーバ3は、関連度を算出することができなかった第1クエリと第2クエリとを教師データとして採用しない。これにより、教師データ生成サーバ3は、関連度が不明な情報が教師データに含まれることを防止することができ、教師データの精度を向上させることができる。
素性情報取得部35は、第1クエリ及び第2クエリそれぞれの性質を表す素性情報を取得する。
具体的には、素性情報取得部35は、第1クエリと第2クエリとのそれぞれについて、ファセット抽出特性、クエリテキスト特性、結果クリック特性、クエリセッション共起特性を含む素性情報を後述のクエリDB42から取得する。
ファセット抽出特性とは、例えば、検索ログDB21における第1クエリと第2クエリとの、一度に用いられた確率、検索キーワードの先頭で用いられた確率、検索キーワードの先頭以外で用いられた確率、同一セッション内での存在した確率、クリックされた頻度等を示す情報である。
クエリテキスト特性は、例えば、第1クエリ及び第2クエリそれぞれの、文字の長さ、構成される単語の量、マルチバイト文字基準によるレーベンシュタイン距離等を示す情報である。
結果クリック特性は、例えば、第1クエリ及び第2クエリそれぞれの、検索結果における情報量に基づいて算出される情報である。
なお、素性情報取得部35は、素性情報をクエリDB42から取得することとしたが、これに限らない。例えば、素性情報取得部35は、クエリテキスト特定について、第1のクエリ、第2のクエリそれぞれから算出するようにしてもよい。
記憶制御部36は、クエリ受信部32により受信した第1クエリ及び第2クエリ、関連度算出部34により算出された関連度、並びに素性情報取得部35により取得された素性情報を関連付けて教師データとし、この教師データを教師データDB31に記憶させる。
[類似度判定サーバ4の構成]
類似度判定サーバ4は、クエリ抽出サーバ2、教師データ生成サーバ3と同様に1又は複数の一般的なコンピュータによって構成される。類似度判定サーバ4のうち、クエリ抽出サーバ2と同様の構成については、説明を省略する。類似度判定サーバ4の中央処理装置は、後述のモデル生成部41と、類似度判定部43として機能する。類似度判定サーバ4の記憶デバイスは、後述のクエリDB42として機能する。
図2に示されるように、類似度判定サーバ4は、モデル生成部41と、クエリDB42と、類似度判定部43とを備えている。
モデル生成部41は、教師データDB31を参照して、機械学習を行い、第1クエリと第2クエリとの識別モデルを生成する。具体的には、モデル生成部41は、教師データDB31に記憶されている教師データに基づいて、第1クエリ、第2クエリ及び素性データの値と、関連度(類似度)との関係性について機械学習を行い、識別モデルを生成する。モデル生成部41は、教師データDB31に記憶されている全てのデータに基づいて識別モデルを生成する。
図6は、本実施形態に係るクエリDB42を示す図である。図6に示されているように、クエリDB42は、第1クエリと、第2クエリと、素性情報とを関連付けて記憶する。すなわち、本実施形態において、クエリDB42に記憶されている第1クエリと第2クエリとは、予め素性情報が算出されているものの、類似性が未知であるものとする。
類似度判定部43は、モデル生成部41により生成された識別モデル及びクエリDB42に記憶されている素性情報を用いて、クエリDB42に記憶されている第1クエリ及び第2クエリの関連度(類似度)を判定する。なお、類似度判定部43は、他のサーバから、第1クエリ及び第2クエリを受け付け、受け付けた第1クエリ及び第2クエリの関連度を判定するようにしてもよい。
[動作]
次に、図7及び図8を参照して、類似度判定システム1の動作を説明する。
図7は、クエリ抽出サーバ2及び教師データ生成サーバ3が実行する教師データ生成処理の流れを示すフローチャートである。
[クエリ抽出サーバ2及び教師データ生成サーバ3の動作]
クエリ抽出サーバ2のクエリ抽出部22は、検索ログDB21に記憶されている検索ログを参照して、2つの検索クエリを抽出する(ステップS1)。
続いて、クエリ抽出サーバ2のクエリ抽出部22は、ステップS1において抽出した2つの検索クエリを教師データ生成サーバ3に送信する(ステップS2)。
続いて、教師データ生成サーバ3のクエリ受信部32は、クエリ抽出サーバ2から、2つのクエリを受信する(ステップS3)。
続いて、教師データ生成サーバ3の関連度算出部34は、カテゴリDB33に基づいて、ステップS3において受け付けた第1クエリに対応する第1のカテゴリと、ステップS3において受け付けた第2クエリに対応する第2のカテゴリとの関連度を算出する(ステップS4)。
続いて、教師データ生成サーバ3の素性情報取得部35は、クエリDB42から、第1クエリ及び第2クエリそれぞれの性質を表す素性情報を取得する(ステップS5)。なお、ステップS4の処理とステップS5の処理との順番は、説明した順番と逆の順番であってもよい。
続いて、教師データ生成サーバ3の記憶制御部36は、ステップS3において受信した第1クエリ及び第2クエリ、ステップS4において算出された関連度、並びにステップS5において取得された素性情報を関連付けて教師データとし、この教師データを教師データDB31に記憶させる(ステップS6)。
[類似度判定サーバ4の動作]
図8は、類似度判定サーバ4が実行する類似度判定処理の流れを示すフローチャートである。
類似度判定サーバ4のモデル生成部41は、教師データDB31に記憶されている教師データに基づいて、第1クエリ、第2クエリ及び素性データとの値と、類似度との関係性について機械学習を行い、識別モデルを生成する(ステップS11)。
類似度判定サーバ4の類似度判定部43は、モデル生成部41により生成された識別モデル及びクエリDB42に記憶されている素性情報を用いて、クエリDB42に記憶されている第1クエリ及び第2クエリの類似度(関連度)を判定する(ステップS12)。
以上のように、本実施形態に係る類似度判定システム1において、教師データ生成サーバ3は、関連度算出部34により、カテゴリDB33に基づいて、クエリ受信部32において受信した第1クエリに対応する第1のカテゴリと、クエリ受信部32において受信した第2クエリに対応する第2のカテゴリとの関連度を算出する。そして、教師データ生成サーバ3は、素性情報取得部35により、第1クエリ及び第2クエリそれぞれの性質を表す素性情報を取得し、記憶制御部36により、第1クエリ、第2クエリ、関連度及び素性情報を関連付けて教師データとして教師データDB31に記憶させる。
このように、教師データ生成サーバ3は、人手により教師データの生成を行うことなく、教師データを自動的に生成することができるので、効率的に教師データを生成することが可能となる。
また、教師データ生成サーバ3は、関連度算出部34により、カテゴリDB33に基づいて、第1のカテゴリと、第1のカテゴリに対して最上位となるカテゴリとのパスと、第2のカテゴリと、第2のカテゴリに対して最上位となるカテゴリとのパスとを特定し、特定されたパスに基づいて関連度を算出する。よって、教師データ生成サーバ3は、カテゴリDB33に記憶されているカテゴリの階層構造を利用して、関連度を算出することが可能となる。
また、教師データ生成サーバ3は、関連度算出部34により、特定されたパスのうち最上位のカテゴリから共通するパスの長さに基づいて関連度を算出する。最上位のカテゴリからパスが共通する場合、これらのパスに対応する第1のカテゴリと第2のカテゴリとは、上下関係にあるため、最上位のカテゴリからパスが共通していない場合に比べて類似しているといえる。よって、教師データ生成サーバ3は、第1クエリと第2クエリとの関連度を精度よく算出することが可能となる。
また、教師データ生成サーバ3は、関連度算出部34により、特定されたパスにおいて共通するパスの長さに基づいて関連度を算出する。パスが部分的に共通する場合、これらのパスに対応する第1のカテゴリと第2のカテゴリとは、あるカテゴリの下位に共通して存在しているといえる。このため、第1のカテゴリと第2のカテゴリとは、パスが共通していない場合に比べて類似しているといえる。よって、教師データ生成サーバ3は、第1クエリと第2クエリとの関連度を精度よく算出することが可能となる。
また、教師データ生成サーバ3は、関連度算出部34により、特定されたパスのうち最上位のカテゴリから共通するパスの長さと、特定されたパスにおいて共通するパスの長さとに基づいて関連度を算出する。このようにすることで、教師データ生成サーバ3は、最上位のカテゴリからのパスの共通性と、パスの部分的な共通性との双方に基づいて関連度を算出することが可能となる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
例えば、本実施形態では、教師データ生成サーバ3は、1つのサーバとして実現される場合を例に挙げて説明したが、教師データ生成サーバ3の機能を複数のサーバに分散して実装し、これらのサーバ全体が連携することによって教師データ生成サーバ3の機能を実現することも可能である。
また、本実施形態では、教師データ生成サーバ3において、カテゴリDB33を記憶することとしたが、教師データ生成サーバ3と異なるサーバに対してカテゴリDB33を記憶するようにしてもよい。この場合、教師データ生成サーバ3は、カテゴリDB33が記憶されたサーバにアクセスして、このサーバに記憶されたカテゴリDB33に基づいて関連度を算出する。
また、本実施形態では、類似度判定システム1は、クエリ抽出サーバ2と、教師データ生成サーバ3と、類似度判定サーバ4との3台のサーバから構成されるものとしたが、これに限らない。例えば、類似度判定システム1は、これらのサーバが備える機能を1台のサーバで実現するようにしてもよいし、4台以上のサーバで機能を分散して実現するようにしてもよい。
また、本実施形態では、教師データ生成サーバ3において、生成された教師データを教師データDB31に記憶させることとしたが、教師データ生成サーバ3と異なるサーバに対して教師データを記憶するようにしてもよい。この場合、類似度判定サーバ4は、教師データが記憶されたサーバにアクセスして、このサーバに記憶された教師データに基づいて識別モデルを生成する。
また、本実施形態では、関連度算出部34は、関連度の算出に失敗した場合、関連度の算出に続いて行われる素性情報取得部35の処理と記憶制御部36との処理を省略するものとしたが、これに限らない。例えば、関連度算出部34は、関連度の算出に失敗した場合、失敗したことを示すエラー情報を素性情報取得部35及び記憶制御部36に出力するようにしてもよい。そして、素性情報取得部35と記憶制御部36とのそれぞれにおいて、エラー情報を受信した場合に、それぞれの機能に係る処理を行わないようにしてもよい。
1 類似度判定システム
2 クエリ抽出サーバ
21 検索ログDB
22 クエリ抽出部
3 教師データ生成サーバ
31 教師データDB
32 クエリ受信部
33 カテゴリDB
34 関連度算出部
35 素性情報取得部
36 記憶制御部
4 類似度判定サーバ
41 モデル生成部
42 クエリDB
43 類似度判定部

Claims (7)

  1. 機械学習に使用される教師データを生成する教師データ生成装置であって、
    第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得手段と、
    カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得手段により取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得手段により取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出手段と、
    前記第1クエリ及び前記第2クエリそれぞれの性質を表す情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得手段と、
    前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御手段と、
    を備える教師データ生成装置。
  2. 前記関連度算出手段は、前記カテゴリ情報記憶手段に基づいて、前記第1のカテゴリと、前記第1のカテゴリに対して最上位となるカテゴリとのパスと、前記第2のカテゴリと、前記第2のカテゴリに対して最上位となるカテゴリとのパスとを特定し、特定されたパスに基づいて前記関連度を算出する、
    請求項1に記載の教師データ生成装置。
  3. 前記関連度算出手段は、特定されたパスのうち最上位のカテゴリから共通するパスの長さに基づいて前記関連度を算出する、
    請求項2に記載の教師データ生成装置。
  4. 前記関連度算出手段は、特定されたパスにおいて共通するパスの長さに基づいて前記関連度を算出する、
    請求項2に記載の教師データ生成装置。
  5. 前記関連度算出手段は、特定されたパスのうち最上位のカテゴリから共通するパスの長さと、特定されたパスにおいて共通するパスの長さとに基づいて前記関連度を算出する、
    請求項2に記載の教師データ生成装置。
  6. コンピュータが、機械学習に使用される教師データの生成を実行する教師データ生成方法であって、
    第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、
    カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、
    前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、
    前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、
    をコンピュータが実行する教師データ生成方法。
  7. 機械学習に使用される教師データの生成をコンピュータに実行させる教師データ生成プログラムであって、
    第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、
    カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、
    前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、
    前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、
    をコンピュータに実行させる教師データ生成プログラム。
JP2012020229A 2012-02-01 2012-02-01 教師データ生成装置、方法及びプログラム Active JP5394512B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012020229A JP5394512B2 (ja) 2012-02-01 2012-02-01 教師データ生成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012020229A JP5394512B2 (ja) 2012-02-01 2012-02-01 教師データ生成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013161136A JP2013161136A (ja) 2013-08-19
JP5394512B2 true JP5394512B2 (ja) 2014-01-22

Family

ID=49173359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012020229A Active JP5394512B2 (ja) 2012-02-01 2012-02-01 教師データ生成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5394512B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6856466B2 (ja) * 2017-07-14 2021-04-07 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211693A (ja) * 2009-03-12 2010-09-24 Nomura Research Institute Ltd 最尤推定方法および最尤推定プログラム
JP5625435B2 (ja) * 2010-03-30 2014-11-19 富士通株式会社 アクセス制御方法およびアクセス制御装置

Also Published As

Publication number Publication date
JP2013161136A (ja) 2013-08-19

Similar Documents

Publication Publication Date Title
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
CN102368262B (zh) 一种提供与查询序列相对应的搜索建议的方法与设备
US8200672B2 (en) Supporting document data search
US20150234927A1 (en) Application search method, apparatus, and terminal
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
US20160140232A1 (en) System and Method of Expanding a Search Query
JP2008159044A (ja) 適応的スペル・チェックのためのシステム及び方法
KR20160124079A (ko) 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법
US20160103916A1 (en) Systems and methods of de-duplicating similar news feed items
US11036764B1 (en) Document classification filter for search queries
US20150309988A1 (en) Evaluating Crowd Sourced Information Using Crowd Sourced Metadata
US11017002B2 (en) Description matching for application program interface mashup generation
US20170017695A1 (en) Question and answer information providing system, information processing device, and non-transitory computer-readable medium
US11379527B2 (en) Sibling search queries
US11928140B2 (en) Methods and systems for modifying a search result
US20160140130A1 (en) Method of Naming Query Clusters
US11675845B2 (en) Identifying merchant data associated with multiple data structures
US8676791B2 (en) Apparatus and methods for providing assistance in detecting mistranslation
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
WO2015024522A1 (zh) 搜索方法、系统、搜索引擎和客户端
JP2011248762A (ja) 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム
CN107786529B (zh) 网站的检测方法、装置及系统
JP2019109782A (ja) クエリ生成プログラム、クエリ生成方法およびクエリ生成装置
US20170308519A1 (en) Learning semantic parsing
JP5394512B2 (ja) 教師データ生成装置、方法及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131016

R150 Certificate of patent or registration of utility model

Ref document number: 5394512

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350