JP2011192222A - 情報処理装置、データ抽出方法、及びプログラム - Google Patents
情報処理装置、データ抽出方法、及びプログラム Download PDFInfo
- Publication number
- JP2011192222A JP2011192222A JP2010060057A JP2010060057A JP2011192222A JP 2011192222 A JP2011192222 A JP 2011192222A JP 2010060057 A JP2010060057 A JP 2010060057A JP 2010060057 A JP2010060057 A JP 2010060057A JP 2011192222 A JP2011192222 A JP 2011192222A
- Authority
- JP
- Japan
- Prior art keywords
- query
- target query
- character string
- information processing
- specific site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims description 8
- 238000013075 data extraction Methods 0.000 title claims description 5
- 238000004364 calculation method Methods 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 239000000284 extract Substances 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Abstract
【解決手段】情報処理装置が、クエリと、クエリに対する検索一覧と、検索一覧に記載されるサイトに対する個々の選択の履歴情報とを含むログを記憶する記憶手段と、ログに基づいて、対象クエリと、該対象クエリに対するユーザーの選択率が高いサイトである特定サイト163との組み合わせを記憶手段から抽出する特定サイト抽出手段と、特定サイト163を構成するページデータ中の文字列501と、対象クエリとの類似度を算出する算出手段と、算出手段の算出結果に基づいて、対象クエリに対して、類似度の高い文字列を対象クエリの標準表記501aとして抽出する標準表記抽出手段とを備える。
【選択図】図5
Description
図1は、本実施形態に係る情報処理システム1の全体概略構成図である。
図2は、本実施形態に係る情報処理装置100の機能ブロック図である。図3は、情報処理装置100の記憶部103に記憶される情報の一例を示す図である。図4は、情報処理装置100のナビゲーショナルクエリ抽出部109で処理される情報の一例を示す図である。図5は、本発明の実施形態に係る情報処理装置100の算出部111による類似度の算出動作を説明するための概念図である。図6は、情報処理装置100の関連情報抽出部115で処理される情報の一例を示す図である。図7は、実施形態に係る情報処理装置100によって作成される検索ページ300の模式図である。
図8は、本発明の実施形態に係る情報処理装置100の算出部111による類似度の算出動作を説明するための概念図である。本発明の実施形態に係る情報処理装置100で処理される情報の一例を示す図である。
情報処理システム1の動作について、(4.1)全体概略動作、(4.2)情報処理装置100の検索処理動作の順に説明する。
情報処理システム1は、ユーザー端末10によって入力されたクエリ151に基づいて、情報処理装置100が、検索ページ300を作成し、ユーザー端末10に表示する。
図9は、実施形態に係る情報処理装置100の検索処理動作を示すフローチャートである。
図10は、情報処理装置100の標準表記・関連情報の抽出処理動作を示すフローチャートである。具体的には、図9のステップS200の情報処理装置100の標準表記・関連情報の抽出処理動作の詳細を示すフローチャートである。
以上説明したように、本実施形態によれば、情報処理装置100は、記憶部103と、特定サイト抽出部105と、算出部111と、標準表記抽出部113とを備える。記憶部103は、クエリ151と、検索一覧160と、検索一覧160に記載されるサイトURL161に対する個々の選択の履歴情報とを含むクリックログDB104を記憶する。また、特定サイト抽出部105は、クリックログDB104に基づいて、対象クエリ153と、対象クエリ153に対して選択率の高い特定サイト163との組み合わせを記憶部103から抽出する。
上述した実施形態では、情報処理装置100は、標準表記501aに基づく検索ページ300をユーザー端末10に送信する。本発明は、これに限られず、例えば、情報処理装置100は、ユーザーに入力されたクエリ151に対して、標準表記501aのみをユーザー端末10に送信してもよい。
10、30 ユーザー端末
50 通信ネットワーク
100 情報処理装置
101 クエリ受信部
103 記憶部
104 クリックログDB
105 特定サイト抽出部
107 判定部
109 ナビゲーショナルクエリ抽出部
110 データDB
111 算出部
113 標準表記抽出部
115 関連情報抽出部
117 検索処理部
119 検索結果ページ作成部
121 ページ送信部
150 クエリ一覧
151、151a、151b、151c クエリ
153 対象クエリ
155 ナビゲーショナルクエリ
157 関連情報
160 検索一覧
161 サイトURL
163 特定サイト
170 履歴情報
171 選択回数
173 クリック率
180 項目情報
190 検索結果情報
200 検索結果一覧ページ
220 関連情報領域
230 検索結果領域
250 クエリ入力ページ
260 クエリ入力欄
270 検索ボタン
300 検索ページ
501 文字列
501a 標準表記
502 ヘッダ部
504 タイトル部
Claims (8)
- クエリと、前記クエリに対する検索一覧と、前記検索一覧に記載されるサイトに対する個々の選択の履歴情報とを含むログを記憶する記憶手段と、
前記ログに基づいて、対象クエリと、該対象クエリに対するユーザーの選択率が高いサイトである特定サイトとの組み合わせを前記記憶手段から抽出する特定サイト抽出手段と、
前記特定サイトを構成するページデータ中の文字列と、前記対象クエリとの類似度を算出する算出手段と、
前記算出手段の算出結果に基づいて、前記対象クエリに対して、類似度の高い文字列を前記対象クエリの標準表記として抽出する標準表記抽出手段と、
を備えることを特徴とする情報処理装置。 - 前記算出手段は、前記対象クエリを、該対象クエリの読みに基づいて該対象クエリの文字列と種類の異なる文字列に変換し、変換結果に対して、前記ページデータ中の文字列との類似度を算出することを特徴とする請求項1に記載の情報処理装置。
- 前記算出手段は、前記対象クエリを、該対象クエリの読みに基づいて、小文字、大文字、カタカナ、平仮名、漢字の少なくとも何れかを含む文字列に変換し、各変換結果に対して、前記ページデータ中の文字列との類似度を算出することを特徴とする請求項1又は2に記載の情報処理装置。
- 前記算出手段は、
前記特定サイトを規定する記述内におけるヘッダ部内の文字列と、前記対象クエリとの類似度を算出することを特徴とする請求項1乃至3の何れか一項に記載の情報処理装置。 - 前記特定サイト抽出手段は、
前記特定サイトにアクセスすることを目的とするクエリであるナビゲーショナルクエリを前記ログに基づいて抽出して、該ナビゲーショナルクエリを前記対象クエリとして抽出し、
前記算出手段は、
前記判定手段の判定結果に基づいて、前記対象クエリが前記ナビゲーショナルクエリでなかった場合、前記ナビゲーショナルクエリを対象クエリとして、該対象クエリと、前記特定サイトを構成するページデータ中の文字列との類似度を算出することを特徴とする請求項1乃至4の何れか一項に記載の情報処理装置。 - 前記ログに基づいて、前記標準表記と、前記標準表記に関連する情報とを前記記憶手段から抽出する関連情報抽出手段を更に備えることを特徴とする請求項1乃至5の何れか一項に記載の情報処理装置。
- クエリと、前記クエリに対する検索一覧と、前記検索一覧に記載されるサイトに対する個々の選択の履歴情報とを含むログを所定の記憶手段に記憶するステップと、
前記ログに基づいて、対象クエリと、該対象クエリに対して選択率の高いサイトである特定サイトとの組み合わせを前記記憶手段から抽出するステップと、
前記特定サイトを構成するページデータ中の文字列と、前記対象クエリとの類似度を算出するステップと、
前記類似度の算出結果に基づいて、類似度の高い文字列を前記対象クエリの標準表記として抽出するステップと、
を備えることを特徴とするデータ抽出方法。 - 請求項7に記載のデータ抽出方法を前記情報処理装置に実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010060057A JP5084859B2 (ja) | 2010-03-17 | 2010-03-17 | 情報処理装置、データ抽出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010060057A JP5084859B2 (ja) | 2010-03-17 | 2010-03-17 | 情報処理装置、データ抽出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011192222A true JP2011192222A (ja) | 2011-09-29 |
JP5084859B2 JP5084859B2 (ja) | 2012-11-28 |
Family
ID=44797025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010060057A Active JP5084859B2 (ja) | 2010-03-17 | 2010-03-17 | 情報処理装置、データ抽出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5084859B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019095940A (ja) * | 2017-11-20 | 2019-06-20 | ヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
CN116112434A (zh) * | 2023-04-12 | 2023-05-12 | 深圳市网联天下科技有限公司 | 一种路由器数据智能缓存方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008093403A1 (ja) * | 2007-01-30 | 2008-08-07 | Cirius Technologies, Inc. | 単語データベース作成システム |
JP2009516890A (ja) * | 2005-11-22 | 2009-04-23 | グーグル インコーポレイテッド | ユーザログからの検索カテゴリ同義語の推定 |
JP2010039997A (ja) * | 2008-08-08 | 2010-02-18 | Ricoh Co Ltd | 情報検索装置、情報検索方法、プログラム、および記録媒体 |
-
2010
- 2010-03-17 JP JP2010060057A patent/JP5084859B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009516890A (ja) * | 2005-11-22 | 2009-04-23 | グーグル インコーポレイテッド | ユーザログからの検索カテゴリ同義語の推定 |
WO2008093403A1 (ja) * | 2007-01-30 | 2008-08-07 | Cirius Technologies, Inc. | 単語データベース作成システム |
JP2010039997A (ja) * | 2008-08-08 | 2010-02-18 | Ricoh Co Ltd | 情報検索装置、情報検索方法、プログラム、および記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019095940A (ja) * | 2017-11-20 | 2019-06-20 | ヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
CN116112434A (zh) * | 2023-04-12 | 2023-05-12 | 深圳市网联天下科技有限公司 | 一种路由器数据智能缓存方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5084859B2 (ja) | 2012-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10796076B2 (en) | Method and system for providing suggested tags associated with a target web page for manipulation by a useroptimal rendering engine | |
JP4909334B2 (ja) | サービス提案装置及びその方法、サービス提案システム、ユーザのお気に入りベースに基づくサービス提案装置及びその方法 | |
US20140032522A1 (en) | Systems and methods for contextual searching of semantic entities | |
US9129009B2 (en) | Related links | |
US10606895B2 (en) | Multiple entity aware typeahead in searches | |
JP2006065511A (ja) | 閲覧履歴提示システム | |
JP2007219722A (ja) | 文書検索サーバおよび文書検索方法 | |
JP2007323394A (ja) | メタ検索システム及びメタ検索方法とこれに用いるユーザ端末及びプログラム | |
JP2009037501A (ja) | 情報検索装置、情報検索方法およびプログラム | |
CN111194457A (zh) | 专利评估判定方法、专利评估判定装置以及专利评估判定程序 | |
JP2007072596A (ja) | 情報共有システムおよび情報共有方法 | |
JP6147629B2 (ja) | ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法 | |
JP5165719B2 (ja) | 情報処理装置、データ抽出方法及びプログラム | |
JP2008262506A (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
JP5084859B2 (ja) | 情報処理装置、データ抽出方法、及びプログラム | |
JP4002943B1 (ja) | 検索最適化装置、方法、及びコンピュータプログラム | |
CN108614821B (zh) | 地质资料互联互查系统 | |
JP2006155275A (ja) | 情報抽出方法及び情報抽出装置 | |
JP2008033675A (ja) | コンテンツ検索装置、コンテンツ検索プログラム及びコンテンツ検索方法 | |
JP6618103B1 (ja) | 文章生成装置、文章生成方法、および文章生成プログラム | |
JP5331166B2 (ja) | 検索サーバ及び方法 | |
JP5230715B2 (ja) | 検索支援装置 | |
JP5165704B2 (ja) | 有害文書判定方法、有害文書判定装置および有害文書判定プログラム | |
JP5843235B2 (ja) | Web情報処理装置、web情報処理方法、およびプログラム | |
WO2019013834A1 (en) | INDEX-SENSITIVE ANTICIPATED HIT IN RESEARCH |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120605 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120828 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5084859 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |