JP5394512B2 - 教師データ生成装置、方法及びプログラム - Google Patents
教師データ生成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5394512B2 JP5394512B2 JP2012020229A JP2012020229A JP5394512B2 JP 5394512 B2 JP5394512 B2 JP 5394512B2 JP 2012020229 A JP2012020229 A JP 2012020229A JP 2012020229 A JP2012020229 A JP 2012020229A JP 5394512 B2 JP5394512 B2 JP 5394512B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- category
- teacher data
- relevance
- data generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000004364 calculation method Methods 0.000 claims description 44
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 description 33
- 230000000875 corresponding effect Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[類似度判定システムの概要]
図1は、本実施形態に係る類似度判定システム1を示す図である。
類似度判定システム1は、クエリ抽出サーバ2と、教師データ生成装置としての教師データ生成サーバ3と、類似度判定サーバ4とから構成されている。クエリ抽出サーバ2と、教師データ生成サーバ3と、類似度判定サーバ4とは、インターネット等の通信ネットワークNを介して通信可能に構成されている。
図2は、本実施形態に係る類似度判定システム1を構成するクエリ抽出サーバ2、教師データ生成サーバ3及び類似度判定サーバ4の機能構成を示すブロック図である。
クエリ抽出サーバ2は、1又は複数の一般的なコンピュータによって構成される。一般的なコンピュータは、中央処理装置と、記憶デバイスと、通信デバイスと、入力デバイスと、表示デバイスと、これらの装置が接続されるバスラインとにより構成されている。中央処理装置は、CPU等によって構成され、後述のクエリ抽出部22として機能する。記憶デバイスは、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)等によって構成され、後述の検索ログDB21として機能する。通信デバイスは、各種有線及び無線LAN装置から構成される。表示デバイスは、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイにより構成される。入力デバイスは、タッチパネルあるいはキーボード及びポインティング・デバイス(マウス、トラッキングボール等)により構成される。このような一般的なコンピュータにおいて、CPUは、クエリ抽出サーバ2を統括的に制御し、教師データ生成処理のためのプログラム等、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
教師データ生成サーバ3は、クエリ抽出サーバ2と同様に1又は複数の一般的なコンピュータによって構成される。教師データ生成サーバ3のうち、クエリ抽出サーバ2と同様の構成については、説明を省略する。教師データ生成サーバ3の中央処理装置は、後述のクエリ受信部32と、関連度算出部34と、素性情報取得部35と、記憶制御部36として機能する。教師データ生成サーバ3の記憶デバイスは、後述の教師データDB31及びカテゴリDB33として機能する。
図4に示されるように、教師データDB31は、教師データを記憶する。教師データは、第1クエリ、第2クエリ、関連度及び素性情報とから構成されている。
関連度は、第1クエリと第2クエリとの関連度を示す。素性情報は、第1クエリと第2クエリとのそれぞれの性質と、第1クエリ及び第2クエリの関連性を表す情報との少なくともいずれかを表す情報であり、複数の要素から構成されている。
図5は、本実施形態に係るカテゴリDB33を示す図である。図5に示されているように、カテゴリDB33は、カテゴリと、このカテゴリに直接的に接続される他のカテゴリとを関連付けて記憶する。
なお、本実施形態では、カテゴリDB33が、カテゴリと他のカテゴリとを含むこととしたが、カテゴリを識別するカテゴリコードと、他のカテゴリを識別するカテゴリコードとについても記憶させるようにしてもよい。
すなわち、関連度算出部34は、第1のパスと第2のパスとについて、それぞれの最上位のカテゴリが一致している場合、この最上位のカテゴリから共通するパスの長さを算出する。そして、関連度算出部34は、このパスの長さについて、以下に示す式(1)に基づいて、関連度を算出する。
また、|P(D,D’)|は、特定された第1のパスと第2のパスとの組み合わせのうち、最上位のカテゴリから共通するパスが最も長い組み合わせにおける、共通するパスの長さである。例えば、第1のパスが、「地域/国/スペイン」であり、第2のパスが、「地域/国/スペイン/自治体/カタロニア/市/バルセロナ」であり、第1のパスと第2のパスとは、「地域/国/スペイン」で共通する。そして、この第1のパスと第2のパスとの組み合わせが、共通するパスの最も長い組み合わせである場合、|P(D,D’)|は、「3」となる。
具体的には、素性情報取得部35は、第1クエリと第2クエリとのそれぞれについて、ファセット抽出特性、クエリテキスト特性、結果クリック特性、クエリセッション共起特性を含む素性情報を後述のクエリDB42から取得する。
類似度判定サーバ4は、クエリ抽出サーバ2、教師データ生成サーバ3と同様に1又は複数の一般的なコンピュータによって構成される。類似度判定サーバ4のうち、クエリ抽出サーバ2と同様の構成については、説明を省略する。類似度判定サーバ4の中央処理装置は、後述のモデル生成部41と、類似度判定部43として機能する。類似度判定サーバ4の記憶デバイスは、後述のクエリDB42として機能する。
次に、図7及び図8を参照して、類似度判定システム1の動作を説明する。
図7は、クエリ抽出サーバ2及び教師データ生成サーバ3が実行する教師データ生成処理の流れを示すフローチャートである。
クエリ抽出サーバ2のクエリ抽出部22は、検索ログDB21に記憶されている検索ログを参照して、2つの検索クエリを抽出する(ステップS1)。
続いて、クエリ抽出サーバ2のクエリ抽出部22は、ステップS1において抽出した2つの検索クエリを教師データ生成サーバ3に送信する(ステップS2)。
続いて、教師データ生成サーバ3の関連度算出部34は、カテゴリDB33に基づいて、ステップS3において受け付けた第1クエリに対応する第1のカテゴリと、ステップS3において受け付けた第2クエリに対応する第2のカテゴリとの関連度を算出する(ステップS4)。
図8は、類似度判定サーバ4が実行する類似度判定処理の流れを示すフローチャートである。
類似度判定サーバ4のモデル生成部41は、教師データDB31に記憶されている教師データに基づいて、第1クエリ、第2クエリ及び素性データとの値と、類似度との関係性について機械学習を行い、識別モデルを生成する(ステップS11)。
2 クエリ抽出サーバ
21 検索ログDB
22 クエリ抽出部
3 教師データ生成サーバ
31 教師データDB
32 クエリ受信部
33 カテゴリDB
34 関連度算出部
35 素性情報取得部
36 記憶制御部
4 類似度判定サーバ
41 モデル生成部
42 クエリDB
43 類似度判定部
Claims (7)
- 機械学習に使用される教師データを生成する教師データ生成装置であって、
第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得手段と、
カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得手段により取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得手段により取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出手段と、
前記第1クエリ及び前記第2クエリそれぞれの性質を表す情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得手段と、
前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御手段と、
を備える教師データ生成装置。 - 前記関連度算出手段は、前記カテゴリ情報記憶手段に基づいて、前記第1のカテゴリと、前記第1のカテゴリに対して最上位となるカテゴリとのパスと、前記第2のカテゴリと、前記第2のカテゴリに対して最上位となるカテゴリとのパスとを特定し、特定されたパスに基づいて前記関連度を算出する、
請求項1に記載の教師データ生成装置。 - 前記関連度算出手段は、特定されたパスのうち最上位のカテゴリから共通するパスの長さに基づいて前記関連度を算出する、
請求項2に記載の教師データ生成装置。 - 前記関連度算出手段は、特定されたパスにおいて共通するパスの長さに基づいて前記関連度を算出する、
請求項2に記載の教師データ生成装置。 - 前記関連度算出手段は、特定されたパスのうち最上位のカテゴリから共通するパスの長さと、特定されたパスにおいて共通するパスの長さとに基づいて前記関連度を算出する、
請求項2に記載の教師データ生成装置。 - コンピュータが、機械学習に使用される教師データの生成を実行する教師データ生成方法であって、
第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、
カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、
前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、
前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、
をコンピュータが実行する教師データ生成方法。 - 機械学習に使用される教師データの生成をコンピュータに実行させる教師データ生成プログラムであって、
第1クエリと、前記第1クエリと異なる第2クエリとを取得するクエリ取得ステップと、
カテゴリと、前記カテゴリと他のカテゴリとの親子関係を示す情報とを関連付けて記憶するカテゴリ情報記憶手段に基づいて、前記クエリ取得ステップにおいて取得された第1クエリに対応する第1のカテゴリと、前記クエリ取得ステップにおいて取得された第2クエリに対応する第2のカテゴリとの関連度を算出する関連度算出ステップと、
前記第1クエリ及び前記第2クエリそれぞれの性質を表す素性情報と、前記第1クエリ及び前記第2クエリの関連性を表す情報との少なくともいずれかを素性情報として取得する素性情報取得ステップと、
前記第1クエリ、前記第2クエリ、前記関連度及び前記素性情報を関連付けて教師データとして所定の記憶手段に記憶させる記憶制御ステップと、
をコンピュータに実行させる教師データ生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012020229A JP5394512B2 (ja) | 2012-02-01 | 2012-02-01 | 教師データ生成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012020229A JP5394512B2 (ja) | 2012-02-01 | 2012-02-01 | 教師データ生成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013161136A JP2013161136A (ja) | 2013-08-19 |
JP5394512B2 true JP5394512B2 (ja) | 2014-01-22 |
Family
ID=49173359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012020229A Active JP5394512B2 (ja) | 2012-02-01 | 2012-02-01 | 教師データ生成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5394512B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6856466B2 (ja) * | 2017-07-14 | 2021-04-07 | ヤフー株式会社 | 情報処理システム、情報処理方法、およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010211693A (ja) * | 2009-03-12 | 2010-09-24 | Nomura Research Institute Ltd | 最尤推定方法および最尤推定プログラム |
JP5625435B2 (ja) * | 2010-03-30 | 2014-11-19 | 富士通株式会社 | アクセス制御方法およびアクセス制御装置 |
-
2012
- 2012-02-01 JP JP2012020229A patent/JP5394512B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013161136A (ja) | 2013-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
CN102368262B (zh) | 一种提供与查询序列相对应的搜索建议的方法与设备 | |
US8200672B2 (en) | Supporting document data search | |
US20150234927A1 (en) | Application search method, apparatus, and terminal | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
US20160140232A1 (en) | System and Method of Expanding a Search Query | |
JP2008159044A (ja) | 適応的スペル・チェックのためのシステム及び方法 | |
KR20160124079A (ko) | 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법 | |
US20160103916A1 (en) | Systems and methods of de-duplicating similar news feed items | |
US11036764B1 (en) | Document classification filter for search queries | |
US20150309988A1 (en) | Evaluating Crowd Sourced Information Using Crowd Sourced Metadata | |
US11017002B2 (en) | Description matching for application program interface mashup generation | |
US20170017695A1 (en) | Question and answer information providing system, information processing device, and non-transitory computer-readable medium | |
US11379527B2 (en) | Sibling search queries | |
US11928140B2 (en) | Methods and systems for modifying a search result | |
US20160140130A1 (en) | Method of Naming Query Clusters | |
US11675845B2 (en) | Identifying merchant data associated with multiple data structures | |
US8676791B2 (en) | Apparatus and methods for providing assistance in detecting mistranslation | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
WO2015024522A1 (zh) | 搜索方法、系统、搜索引擎和客户端 | |
JP2011248762A (ja) | 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム | |
CN107786529B (zh) | 网站的检测方法、装置及系统 | |
JP2019109782A (ja) | クエリ生成プログラム、クエリ生成方法およびクエリ生成装置 | |
US20170308519A1 (en) | Learning semantic parsing | |
JP5394512B2 (ja) | 教師データ生成装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5394512 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |