JP2011209999A - 情報処理装置、データ抽出方法及びプログラム - Google Patents
情報処理装置、データ抽出方法及びプログラム Download PDFInfo
- Publication number
- JP2011209999A JP2011209999A JP2010076943A JP2010076943A JP2011209999A JP 2011209999 A JP2011209999 A JP 2011209999A JP 2010076943 A JP2010076943 A JP 2010076943A JP 2010076943 A JP2010076943 A JP 2010076943A JP 2011209999 A JP2011209999 A JP 2011209999A
- Authority
- JP
- Japan
- Prior art keywords
- query
- similar
- search
- unit
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims description 10
- 238000013075 data extraction Methods 0.000 title claims description 5
- 238000004364 calculation method Methods 0.000 claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 238000009826 distribution Methods 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims description 27
- 238000010586 diagram Methods 0.000 description 21
- 239000013598 vector Substances 0.000 description 18
- 238000004891 communication Methods 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】情報処理装置100が、クエリと、クエリに対する検索一覧と、検索一覧に含まれるサイトに対する個々の選択の履歴情報とを含むログを記憶するログ記憶部105と、ログ記憶部105に記憶された検索一覧に含まれる各サイトの個々の選択の回数の分布に基づいて、ログ記憶部105に記憶されたクエリ同士の類似度を算出する算出部111と、算出部111の算出結果に基づいて、クエリ同士を類似クエリとして抽出する類似クエリ抽出部115とを備える。
【選択図】図2
Description
例えば、単語同士の関連性によって単語を分類したシソーラス辞書を記憶し、シソーラス辞書から入力クエリに関連する類義語を抽出し、類義語に基づいて、検索を行う情報処理装置が知られている(例えば、特許文献1)。すなわち、情報処理装置によれば、類義語に基づいて、検索することにより、ユーザが検索を行う際の利便性を向上できる。
図1は、本実施形態に係る情報処理システム1の全体概略構成図である。
図2は、本実施形態に係る情報処理装置100の機能ブロック図である。
クエリ受信部101は、ユーザ端末10から通信ネットワーク50を介して、クエリを受信する。
候補サイト抽出部103は、クエリ受信部101で受信したクエリ151に基づいて、検索を行い、サイトURL161からなる検索一覧160を抽出する。
図3は、情報処理装置100のログ記憶部105に記憶される情報の一例を示す図である。
図4は、情報処理装置100の候補クエリ抽出部107で処理される情報の一例を示す図である。
主要クエリ判定部109は、ログ記憶部105から検索一覧160に含まれるサイトURL161に対する個々の選択の回数に基づいて、サイトURL161を選択する検索結果を得るために最も多く入力されるクエリを主要クエリ157aとして判定する。
図5は、本発明の実施形態に係る情報処理装置100の算出部111による類似度の算出動作を説明するための概念図である。算出部111は、検索結果の一覧に含まれる各サイトに対するユーザの選択の分布の類似度をクエリ間で算出する機能部である。類似度の算出方法としては、そのクエリ毎の検索結果へのユーザの選択を特徴ベクトルによって表現し、その特徴ベクトル間の距離を算出することで求められる。
図7は、情報処理装置100の絞込みクエリ除去部113で処理される情報の一例を示す図である。具体的には、図7は、算出部111による類似度の算出結果を示し、対象クエリ153に対して、類似度の高い順にソートされた候補クエリ155を示している。
図8は、実施形態に係る情報処理装置100の算出部111の算出結果、及び、絞込みクエリ除去部113の絞込み結果に基づいて、対象クエリ153に対する候補クエリ155の類似度を示す表である。
類似クエリ記憶部117は、類似クエリ抽出部115により類似クエリ165として抽出されたクエリ同士を対応させて記憶する。具体的には、類似クエリ記憶部117は、対象クエリ153と、類似クエリ抽出部115により類似度が所定値以上の候補クエリ155である類似クエリ165とを対応させて記憶する。
関連単語抽出部119は、ユーザに入力されたクエリ151の類似クエリ165に基づいて、類似クエリ165に関連する関連単語167をログ記憶部105から抽出する。具体的には、図7に示すように、算出部111による算出結果に記載される絞込みクエリ159において、関連単語抽出部119は、類似クエリ165以外の単語を関連単語167として抽出する。
関連単語記憶部121は、類似クエリ165と、関連単語167とを対応させて記憶する。すなわち、関連単語記憶部121は、対象クエリ153に対応する類似クエリ165と、類似クエリ165に関連する関連単語167とを対応させて記憶する。
検索処理部123は、ユーザに入力されたクエリ151に対応付けられる類似クエリ165を類似クエリ記憶部117から取得し、類似クエリ165に基づいた検索をする。具体的には、検索処理部123は、クエリ151に対応する類似クエリ165に基づいて、検索を行い、複数のURLを含む検索結果情報を出力する。例えば、検索処理部123は、クローラーにより自動収集されたウェブページに関する情報を記憶する所定の記憶部から、類似クエリ165に基づく情報を検索する。
図9は、本発明の実施形態に係る情報処理装置100によって作成される検索ページ300の模式図である。
ページ送信部127は、通信ネットワーク50を介して、検索結果ページ作成部125により作成された検索ページ300をユーザ端末10に送信する。
情報処理システム1の動作について、(3.1)全体概略動作、(3.2)情報処理装置100の検索処理動作の順に説明する。
情報処理システム1は、ユーザ端末10によって入力されたクエリ151に基づいて、情報処理装置100が、検索ページ300を作成し、ユーザ端末10に表示する。
図10は、実施形態に係る情報処理装置100の検索処理動作を示すフローチャートである。
図11は、情報処理装置100の類似クエリ165の抽出処理動作を示すフローチャートである。具体的には、図10のステップS200の情報処理装置100の類似クエリ165の抽出処理動作の詳細を示すフローチャートである。
以上説明したように、本実施形態によれば、情報処理装置100は、ログ記憶部105と、算出部111と、類似クエリ抽出部115とを備える。ログ記憶部105は、クエリ151と、検索一覧160と、検索一覧160に含まれるサイトURL161に対する個々の選択の履歴情報170とを含むログDB106を記憶する。このため、ログ記憶部105は、事前に単語を記憶する必要がなく、ユーザの利用に伴って、記憶されるクエリ151、検索一覧160、履歴情報170が更新される。すなわち、ログ記憶部105によれば、ユーザの行動データであるログDB106を更新できる。
上述した実施形態では、検索処理部123は、類似クエリ抽出部115で抽出した類似クエリ165に基づいて検索を行い、複数のサイトURL161を含む検索結果情報を出力する。本発明は、これに限られず、例えば、検索処理部123は、主要クエリ157aに基づいて検索を行い、複数のURLを含む検索結果情報を出力してもよい。この場合、主要クエリ判定部109が、検索一覧160に含まれるサイトURL161に対する個々の選択の回数の分布に基づいて、類似クエリ165から、サイトURL161を選択する際に最も利用される主要クエリ157aを抽出する。これにより、検索処理部123が、主要クエリ157aに基づいて、検索を行うことを可能とする。
このように、本発明は、ここでは記載していない様々な実施の形態などを含むことは勿論である。したがって、本発明の技術的範囲は、上述の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
10、30 ユーザ端末
50 通信ネットワーク
51 多次元ベクトル空間
100 情報処理装置
101 クエリ受信部
103 候補サイト抽出部
105 ログ記憶部
106 ログDB
107 候補クエリ抽出部
108 候補クエリDB
109 主要クエリ判定部
111 算出部
113 絞込みクエリ除去部
115 類似クエリ抽出部
117 類似クエリ記憶部
119 関連単語抽出部
121 関連単語記憶部
123 検索処理部
125 検索結果ページ作成部
127 ページ送信部
151 クエリ
153 対象クエリ
153v ベクトル
155、155a、155b、155n 候補クエリ
157a 主要クエリ
159 絞込みクエリ
160 検索一覧
161 サイトURL
163a、163b、163n 候補サイトURL
165 類似クエリ
167 関連単語
170 履歴情報
171 選択回数
173 総クリック数
200 検索結果一覧ページ
220 関連情報領域
230 検索結果領域
250 クエリ入力ページ
260 クエリ入力欄
270 検索ボタン
300 検索ページ
Claims (7)
- クエリと、前記クエリに対する検索一覧と、前記検索一覧に含まれるサイトに対する個々の選択の履歴情報とを含むログを記憶する記憶手段と、
前記記憶手段に記憶された検索一覧に含まれる各サイトの個々の選択の回数の分布に基づいて、前記記憶手段に記憶されたクエリ同士の類似度を算出する算出手段と、
前記算出手段の算出結果に基づいて、前記クエリ同士を類似クエリとして抽出する類似クエリ抽出手段と、
を備えることを特徴とする情報処理装置。 - 前記類似クエリとして抽出されたクエリ同士を対応させて記憶する類似クエリ記憶手段と、
ユーザに入力されたクエリに対応付けられる類似クエリを前記類似クエリ記憶手段から取得し、該類似クエリに基づいた検索をする検索手段とを更に備えることを特徴とする請求項1に記載の情報処理装置。 - 前記検索一覧に含まれるサイトに対する個々の選択の回数に基づいて、前記サイトを選択する検索結果を得るために最も多く入力されるクエリを主要クエリとして判定する主要クエリ判定手段を更に備え、
前記算出手段は、前記主要クエリと判定されたクエリ同士間の類似度を算出することを特徴とする請求項1又は2に記載の情報処理装置。 - ユーザに入力されたクエリの類似クエリに基づいて、前記類似クエリに関連する関連単語を前記記憶手段から抽出する関連単語抽出手段と、
前記類似クエリと、前記関連単語とを対応させて記憶する関連単語記憶手段とを更に備えることを特徴とする請求項1乃至3の何れか一項に記載の情報処理装置。 - 複数の単語を含むクエリであって、前記類似クエリ記憶手段に記憶された他の類似クエリを含む絞込みクエリを前記類似クエリから除去する絞込みクエリ除去手段を更に備えることを特徴とする請求項1乃至4の何れか一項に記載の情報処理装置。
- クエリと、前記クエリに対する検索一覧と、前記検索一覧に含まれるサイトに対する個々の選択の履歴情報とを含むクリックログを所定の記憶手段に記憶するステップと、
前記検索一覧に含まれる各サイトの個々の選択の回数の分布に基づいて、前記記憶手段に記憶されたクエリ同士の類似度を算出するステップと、
前記類似度の算出結果に基づいて、前記クエリ同士を類似クエリとして抽出するステップと、
をコンピュータが実行することを特徴とするデータ抽出方法。 - 請求項6に記載のデータ抽出方法を前記情報処理装置に実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010076943A JP5165719B2 (ja) | 2010-03-30 | 2010-03-30 | 情報処理装置、データ抽出方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010076943A JP5165719B2 (ja) | 2010-03-30 | 2010-03-30 | 情報処理装置、データ抽出方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011209999A true JP2011209999A (ja) | 2011-10-20 |
JP5165719B2 JP5165719B2 (ja) | 2013-03-21 |
Family
ID=44940989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010076943A Active JP5165719B2 (ja) | 2010-03-30 | 2010-03-30 | 情報処理装置、データ抽出方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5165719B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050002A1 (ja) * | 2012-09-28 | 2014-04-03 | 日本電気株式会社 | クエリ類似度評価システム、評価方法、及びプログラム |
JP2014106982A (ja) * | 2012-11-28 | 2014-06-09 | Estsoft Corp | 自動完成質疑語提供システム、検索システム、自動完成質疑語提供方法並びに記録媒体 |
JP2016057954A (ja) * | 2014-09-11 | 2016-04-21 | 富士通株式会社 | 検索プログラム、検索方法及び情報処理装置 |
JP2019057110A (ja) * | 2017-09-21 | 2019-04-11 | データ・サイエンティスト株式会社 | 検索目的推察支援装置、検索目的推察支援システム、及び検索目的推察支援方法 |
CN111506716A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种问答数据处理方法、装置以及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005302042A (ja) * | 2004-04-15 | 2005-10-27 | Microsoft Corp | マルチセンスクエリについての関連語提案 |
JP2009069874A (ja) * | 2007-09-10 | 2009-04-02 | Sharp Corp | コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体 |
JP2009110231A (ja) * | 2007-10-30 | 2009-05-21 | Nippon Telegr & Teleph Corp <Ntt> | 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体 |
JP2010055164A (ja) * | 2008-08-26 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 |
JP2011519103A (ja) * | 2008-04-29 | 2011-06-30 | エヌエイチエヌ ビジネス プラットフォーム コーポレーション | コンテンツ間の類似度に基づいて検索結果又は広告を提供する検索結果提供システムおよび方法 |
JP2011526383A (ja) * | 2008-07-03 | 2011-10-06 | グーグル・インコーポレーテッド | 入力文字列からのリソースロケータの提案 |
-
2010
- 2010-03-30 JP JP2010076943A patent/JP5165719B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005302042A (ja) * | 2004-04-15 | 2005-10-27 | Microsoft Corp | マルチセンスクエリについての関連語提案 |
JP2009069874A (ja) * | 2007-09-10 | 2009-04-02 | Sharp Corp | コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体 |
JP2009110231A (ja) * | 2007-10-30 | 2009-05-21 | Nippon Telegr & Teleph Corp <Ntt> | 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体 |
JP2011519103A (ja) * | 2008-04-29 | 2011-06-30 | エヌエイチエヌ ビジネス プラットフォーム コーポレーション | コンテンツ間の類似度に基づいて検索結果又は広告を提供する検索結果提供システムおよび方法 |
JP2011526383A (ja) * | 2008-07-03 | 2011-10-06 | グーグル・インコーポレーテッド | 入力文字列からのリソースロケータの提案 |
JP2010055164A (ja) * | 2008-08-26 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 |
Non-Patent Citations (2)
Title |
---|
CSNJ201010047353; 龍田 賢治 外2名: '"検索連動広告における広告選択手法の提案"' 第72回(平成22年)全国大会講演論文集(1) アーキテクチャ ソフトウェア科学・工学 データベース , 20100308, p.1-729〜1-730, 社団法人情報処理学会 * |
JPN6012031285; 龍田 賢治 外2名: '"検索連動広告における広告選択手法の提案"' 第72回(平成22年)全国大会講演論文集(1) アーキテクチャ ソフトウェア科学・工学 データベース , 20100308, p.1-729〜1-730, 社団法人情報処理学会 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050002A1 (ja) * | 2012-09-28 | 2014-04-03 | 日本電気株式会社 | クエリ類似度評価システム、評価方法、及びプログラム |
JPWO2014050002A1 (ja) * | 2012-09-28 | 2016-08-22 | 日本電気株式会社 | クエリ類似度評価システム、評価方法、及びプログラム |
JP2014106982A (ja) * | 2012-11-28 | 2014-06-09 | Estsoft Corp | 自動完成質疑語提供システム、検索システム、自動完成質疑語提供方法並びに記録媒体 |
JP2016057954A (ja) * | 2014-09-11 | 2016-04-21 | 富士通株式会社 | 検索プログラム、検索方法及び情報処理装置 |
JP2019057110A (ja) * | 2017-09-21 | 2019-04-11 | データ・サイエンティスト株式会社 | 検索目的推察支援装置、検索目的推察支援システム、及び検索目的推察支援方法 |
CN111506716A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种问答数据处理方法、装置以及计算机可读存储介质 |
CN111506716B (zh) * | 2020-04-15 | 2023-04-25 | 腾讯科技(深圳)有限公司 | 一种问答数据处理方法、装置以及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5165719B2 (ja) | 2013-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8301616B2 (en) | Search equalizer | |
EP2210198B1 (en) | System and method for searching for documents | |
KR101060594B1 (ko) | 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 | |
JP5084858B2 (ja) | サマリ作成装置、サマリ作成方法及びプログラム | |
JP4746439B2 (ja) | 文書検索サーバおよび文書検索方法 | |
JP5165719B2 (ja) | 情報処理装置、データ抽出方法及びプログラム | |
JP2015106354A (ja) | 検索サジェスト装置、検索サジェスト方法、及び、プログラム | |
CN111194457A (zh) | 专利评估判定方法、专利评估判定装置以及专利评估判定程序 | |
JP2013037404A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Baker et al. | A novel web ranking algorithm based on pages multi-attribute | |
WO2018022333A1 (en) | Cross-platform computer application query categories | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
Leung et al. | Constructing concept relation network and its application to personalized web search | |
JP2004348607A (ja) | コンテンツ検索方法、コンテンツ検索システム、コンテンツ検索用プログラムおよびコンテンツ検索用プログラムが記録された記録媒体 | |
JP6534454B2 (ja) | 情報検索方法及び情報検索装置並びに情報検索システム | |
JP7428250B2 (ja) | 文書検索の性能を評価する方法、システム、および装置 | |
JP5084859B2 (ja) | 情報処理装置、データ抽出方法、及びプログラム | |
CN113641884A (zh) | 基于语义的电力计量数据处理方法、装置和计算机设备 | |
JP6596302B2 (ja) | コンテンツ検索システムおよびコンテンツ検索方法ならびにコンテンツ検索プログラム | |
Li et al. | Ranking associative entities in knowledge graph by graphical modeling of frequent patterns | |
JP2017049836A (ja) | 検索支援装置、検索支援プログラムおよび記憶媒体 | |
Kim et al. | Developing a Meta-Suggestion Engine for Search Queries | |
Lobo et al. | A novel method for analyzing best pages generated by query term synonym combination | |
JP4859891B2 (ja) | コンテンツに関連する情報を提供するサーバ、システム及び方法 | |
JP5028499B2 (ja) | サーバ、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120619 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121219 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5165719 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |