JP2010015203A - Web検索支援方法、装置及びプログラム - Google Patents

Web検索支援方法、装置及びプログラム Download PDF

Info

Publication number
JP2010015203A
JP2010015203A JP2008171884A JP2008171884A JP2010015203A JP 2010015203 A JP2010015203 A JP 2010015203A JP 2008171884 A JP2008171884 A JP 2008171884A JP 2008171884 A JP2008171884 A JP 2008171884A JP 2010015203 A JP2010015203 A JP 2010015203A
Authority
JP
Japan
Prior art keywords
attribute
information
item
relationship
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008171884A
Other languages
English (en)
Other versions
JP4920642B2 (ja
Inventor
Kenichi Yamamoto
健一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008171884A priority Critical patent/JP4920642B2/ja
Publication of JP2010015203A publication Critical patent/JP2010015203A/ja
Application granted granted Critical
Publication of JP4920642B2 publication Critical patent/JP4920642B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索ワードの人気度に関わらず検索クエリーを示唆し、かつ、ユーザが入力した項目に関する属性を追加の検索ワードとして示唆することのできるWeb検索支援方法を提供する。
【解決手段】Web検索支援装置10は、Web文書から収集した項目、属性及び属性値の関係を有する情報を複数記憶した属性関係DB107を備え、前記項目を含む入力をユーザの端末から受け付けるステップと、入力を受け付けた前記項目に関連付けられた属性及び属性値を前記属性関係DB107から読み出すステップと、読み出した前記属性及び属性値を選択可能とした選択インターフェースを表示するために前記ユーザの端末に送信するステップと、を実行する。
【選択図】図2

Description

本発明は、Web検索に必要な検索クエリーの入力を支援するWeb検索支援方法、装置及びプログラムに関する。
ある項目についてWeb文書から情報を得たい場合、検索エンジンに適切な検索クエリーを入力し、得られた検索結果からWeb文書にアクセスするという操作が行なわれる。
しかし、検索エンジンに適切な検索クエリーを与えるには検索の経験を要し、検索に慣れていないユーザが適切な検索クエリーを入力することは難しかった。
そこで、検索エンジンによっては、検索窓に入力された検索ワードに応じて検索フレーズを示唆する機能を備えたものがある。
[online]、Googleサジェスト:よくある質問、[2008年6月18日検索]、インターネット<URL:http://labs.google.com//intl/ja/suggestfaq.html>
しかし、上記は検索ワードの人気度に応じて検索フレーズを示唆するものであり、検索ワードの人気度と無関係な検索フレーズの示唆を受けることはできなかった。また、検索ワードの項目に関する属性が追加の検索ワードとして示唆されるとも限らなかった。
本発明は、このような事情を考慮して提案されるものであり、検索ワードの人気度に関わらず検索クエリーを示唆し、かつ、ユーザが入力した項目に関する属性を追加の検索ワードとして示唆することのできるWeb検索支援方法を提供することを目的とする。
上記目的を達成するために、本発明者は、Web文書から取得した項目、属性及び属性値の関係を有する情報を準備し、検索者が入力した検索ワードである「項目」について、関連する「属性」及び「属性値」を追加の検索ワードとして示唆する仕組みを見出し、本発明を想到するに至った。
本発明に係るWeb検索支援方法は、Web文書に含まれていた項目、属性及び属性値の関係を有する情報に基づき、検索者の入力した検索ワードである「項目」に関する「属性」及び「属性値」を追加の検索ワードとして示唆し、適切な検索クエリーの入力を支援するものである。
(1) Web検索支援装置が、通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出するステップと、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出するステップと、
抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて属性関係DBに記憶するステップと、
前記項目を含む入力をユーザの端末から受け付けるステップと、
入力を受け付けた前記項目に関連付けられた属性及び属性値を前記属性関係DBから読み出すステップと、
読み出した前記属性及び属性値を選択可能とした選択インターフェースを表示するために前記ユーザの端末に送信するステップと、を実行することを特徴としたWeb検索支援方法。
(1)に記載の発明の構成によれば、ユーザが端末に入力した項目について、当該項目に関連付けられた属性及び属性値を選択可能とする選択インタフェースを提供するので、ユーザは、項目に関する属性及び属性値を選択するだけの簡単な操作により、適切な検索クエリーを入力することが可能となる。よって、適切な検索クエリーを設定するにあたり、従来必要とされた経験も必要としない。また、項目、属性及び属性値の関係を有する情報は任意のWeb文書から取得するので、検索ワードの人気度に関わらない検索クエリーの示唆を行なうことができる。
ここで、前記表形式の情報とは、カンマ区切り、スペース区切りなどにより表と同等の表現がされた平文により示された情報も含む。
(2) 前記属性に関連付けられた属性値が数値の場合、当該属性に関連付けられた複数の属性値が属する数値範囲を所定の閾値ごとに複数の数値範囲に分割し、前記選択インターフェースにおいては前記属性値に代えて前記分割した数値範囲のいずれかを選択可能とすることを特徴する(1)の方法。
(2)に記載の発明の構成によれば、ユーザは、項目の属性値である具体的な数値を選択することに代えて、所定の数値の範囲を選択して検索を行なうことができる。
(3) (1)又は(2)に記載の方法をコンピュータに実行させることを特徴とするプログラム。
(4) 通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段と、
抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて属性関係DBに記憶する属性関係抽出手段と、
前記項目を含む入力をユーザの端末から受け付けるクエリー受付手段と、
入力を受け付けた前記項目に関連付けられた属性及び属性値を前記属性関係DBから読み出し、読み出した前記属性及び属性値を選択可能とした選択インターフェースを表示するために前記ユーザの端末に送信するクエリー示唆手段と、を備えたことを特徴とするWeb検索支援装置。
この発明によれば、Web文書から、タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した項目、属性及び属性値の関係を有する情報に基づき、ユーザの入力した検索ワードである項目について、関連する属性及び属性値を追加の検索ワードとして示唆するので、検索ワードの人気度に関わらず検索クエリーを示唆し、かつ、ユーザが入力した項目に関する属性を追加の検索ワードとして示唆することができる。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[Web検索支援装置と関連要素の全体構成]
図1は、本実施形態に係るWeb検索支援装置1と関連要素の全体構成を示す図である。
本実施形態に係るWeb検索支援装置10、Webサーバ装置2及びユーザの端末20は、インターネット等の通信ネットワークNに接続されている。ネットワークNとの接続は有線であると無線であるとを問わない。
各Webサーバ装置2は、Web検索支援装置10からのリクエストに応じて種々のWeb文書を提供する。Web検索支援装置10は、通信ネットワークN上に接続されたユーザの端末20から、検索クエリーとして「項目」の入力を受け付け、その「項目」に関連する「属性」及び「属性値」の選択インタフェースをユーザの端末20に返信する。Web検索支援装置10は、一般的なコンピュータを用いて実現してよい。
ユーザの端末20は、Web検索を実行するユーザが利用する情報処理装置であって、一般的なコンピュータが該当する。
[Web検索支援装置の機能構成]
図2は、本実施形態に係るWeb検索支援装置10の機能構成の概要を示す図である。Web検索支援装置10は、Web文書蓄積手段101、情報群抽出手段102及び属性関係抽出手段103を備えている。また、Web文書DB105、情報群記憶部106及び属性関係DB107を有する(DBはデータベースの略)。
Web文書蓄積手段101は、Webサーバ装置からWeb文書を取得しWeb文書DB105に格納する。情報群抽出手段102は、Web文書DB105に蓄積されたWeb文書を読み出し、読み出した当該Web文書に含まれるタグに基づき、表形式又はデータベース形式の情報を抽出し情報群記憶部106に格納する。属性関係抽出手段103は、情報群記憶部106に格納された表形式又はデータベース形式の情報を読み出し、読み出した当該情報に含まれるタグに基づき、当該情報に含まれる項目、属性及び属性値の関係を有する情報を抽出し、抽出した当該情報を属性関係DB107に登録する。Web文書蓄積手段101、情報群抽出手段102及び属性関係抽出手段103は、コンピュータがプログラムを実行することによって実現される。
また、Web文書DB105、情報群記憶部106及び属性関係DB107は、後述のハードウェアに含まれる記憶装置410の一領域に設けられている。
図3は、本実施形態に係るWeb検索支援装置10の機能構成の更なる概要を示す図である。本実施形態に係るWeb検索支援装置10は、クエリー受付手段108と、クエリー示唆手段109と、検索実行手段110とを備えている。また、Web検索支援装置10は、予めWeb文書から収集した項目、属性及び属性値の関係を有する情報を複数記憶した属性関係DB107を備えている。
クエリー受付手段108は、通信ネットワークNを介してユーザの端末2から「項目」の入力を受け付け、項目記憶部112に格納する。
クエリー示唆手段109は、入力を受け付けた「項目」に関連付けられた1乃至複数の「属性」及び当該「属性」に関連付けられた1乃至複数の「属性値」を属性関係DB107から読み出し、読み出した「属性」及び「属性値」を選択可能とした選択インターフェースをユーザの端末20に送信する。また、クエリー示唆手段109は、当該送信した選択インターフェースを介してユーザが選択した「属性」及び「属性値」をユーザの端末20から取得し選択結果記憶部114に格納する。
検索実行手段110は、当該取得した「属性」及び「属性値」を選択結果記憶部114から読み出すと共に、ユーザが先に入力した「項目」を項目記憶部112から読み出し、当該ユーザが先に入力した「項目」と当該選択された「属性」及び「属性値」とを検索条件に含むWeb検索用の検索クエリーを生成し検索エンジン111に与える。
また、Web検索支援装置10は、閾値生成手段113を備えている。クエリー示唆手段109が属性関係DB107から読み出した「属性」に関連付けられた複数の「属性値」が数値の場合、閾値生成手段113は、当該「属性」に関連付けられた複数の「属性値」が属する数値範囲を所定の閾値ごとに分割して複数の数値範囲を設定し、選択インターフェースでは属性値に代えて当該分割した数値範囲のいずれかを選択可能とする。
以上の各手段は、コンピュータがプログラムを実行することによって実現される。また、以上のDB及び各記憶部は、後述するハードウェアに含まれる記憶装置410の記憶領域に設けられる。
図4は、Web文書DB105、情報群記憶部106及び属性関係DB107と関連要素の構成の概要を示す図である。
図4(a)に示すように、Web文書DB105は、文書IDと、通信ネットワーク上で配信されているWeb文書のURL等のネットワーク上のアドレス及びこのWeb文書の記述であるソースコードと、をそれぞれ対応付けて記憶している。
図4(b)及び(c)に示すように、情報群記憶部106には、Web文書のソースコードから抽出された表形式又はデータベース形式の情報が当該表形式又はデータベース形式を構成するタグと共に格納される。
図4(e)に示すように、属性関係DBには、表形式又はデータベース形式の情報から抽出された項目、属性及び属性値の関係を有する情報が格納される。
図4(d)に示すように、本実施形態では、表形式又はデータベース形式の情報から項目、属性及び属性値の関係を有する情報を抽出する際に利用する属性辞書104を備えている。
図4(b)及び(c)は、Web文書から抽出される表形式又はデータベース形式の情報の例である。例えば、PC販売会社AのWebページ(Web文書)が、図4(b)に示す表形式又はデータベース形式の情報を含んでおり、PC販売会社BのWebページ(Web文書)が、図4(c)に示す表形式又はデータベース形式の情報を含んでいるものとする。
当該情報は、プルダウンリストを形成する一群のHTMLとして記述されている場合、XML文書として記述されている場合、テーブルタグにより表を形成する一群のHTMLとして記述されている場合など、種々考えられる。
プルダウンリストを形成する一群のHTMLとして記載されている場合は、例えば<Select>タグの開始タグと終了タグを判定し、当該開始タグおよび終了タグとその間にある要素の内容とを抽出することが考えられる。
また、XML文書として記載されている場合は、XMLインスタンスが情報の階層構造を持つので、例えば、XMLインスタンスの最上位の開始タグと終了タグとの間にある要素の内容を抽出することが考えられる。
また、テーブルタグにより表を形成する一群のHTMLとして記述されている場合は、例えば、<Table>タグの開始タグと終了タグを判定し、当該開始タグおよび終了タグとその間にある要素の内容とを抽出することが考えられる。
本実施形態において、図4(b)の情報は、テーブルタグにより、1列目に項目「ノートPC」が記述され、1行目にノートPCの属性として「CPU」、「クロック」が記述され、「CPU xxx」、「CPU yyy」が属性「CPU」の属性値として記述され、「1.5GHz」、「2.0GHz」が属性「クロック」の属性値として記述されているものとする。
なお、項目、属性及び属性値の関係がこれらのWeb文書の基礎となるデータを格納しているデータベースサーバ等に蓄積され、CGI等のプログラムを用いて取得する構造となっている場合には、これらのCGI等のプログラムを実行することにより、これらの関係を有する情報を収集する。
また、本実施形態において、図4(c)の情報は、テーブルタグにより形成されているものとし、<Table>タグの要素内容として記述された<Caption>タグの要素内容の一部に、項目「ノートパソコン」が記述され、その直後の表の1行目に、項目「ノートパソコン」の属性として「CPU」、「クロック」が記述され、以降、属性「CPU」の属性値として、「CPU zzz」、「CPU ppp」が記述され、属性「クロック」の属性値として、「1.1GHz」、「3.2GHz」が記述されているものとする。
図4(d)は、属性関係抽出手段が利用する属性辞書104の例である。属性辞書104は、後述のハードウェアに含まれる記憶装置410に格納されている。本実施形態において、属性辞書104は、項目と属性とを関連付けている。例えば、項目には「ノートパソコン」のほか、その類義語である「ノートPC」等が登録されている。一方、項目に関連する属性として「CPU」「HDD」「バッテリ」「価格」等が登録されている。更に、属性(属性1)に関する下位の属性(属性2)が登録されている。例えば、属性1「CPU」に関し、属性2「クロック」「キャッシュ」等が登録されている。
図4(e)は、属性関係DBに格納される項目、属性及び属性値の関係を有する情報の例を示している。ユニークな番号である属性関係IDごとに、項目、属性及び属性値を関連付けて保存している。例えば、ある項目「ノートパソコン」は、属性1「CPU」の属性値が「CPU xxx」であり、かつ、属性2「クロック」の属性値が「1.5GHz」であるとして保存される。
[Web検索支援装置のハードウェア構成図]
図5は、本実施形態に係るWeb検索支援装置10のハードウェア構成を示す図である。
Web検索支援装置10は、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもよい)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380、並びに半導体メモリ390を備える。尚、ハードディスク370、光ディスクドライブ380、並びに、半導体メモリ390はまとめて記憶装置410と呼ばれる。
制御部300は、Web検索支援装置10を統括的に制御する部分であり、ハードディスク370(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F330は、Web検索支援装置10が、インターネットN(図1)を介してユーザの端末20(#1)〜20(#N)等(図1)と情報を送受信する場合のネットワーク・アダプタである。通信I/F330は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS350は、Web検索支援装置10の起動時にCPU310が実行するブートプログラムや、Web検索支援装置10がハードウェアに依存するプログラム等を記録する。
I/Oコントローラ360には、ハードディスク370、光ディスクドライブ380、及び半導体メモリ390等の記憶装置410を接続することができる。
ハードディスク370は、本ハードウェアをWeb検索支援装置10として機能させるための各種プログラム、本発明の機能を実行するプログラム及び前述のDB及び各記憶部を備えている。なお、Web検索支援装置10は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ380としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク400を使用する。光ディスク400から光ディスクドライブ380によりプログラムまたはデータを読み取り、I/Oコントローラ360を介してメインメモリ340またはハードディスク370に提供することもできる。
なお、本発明でいうWeb検索支援装置10とは、記憶装置、制御部等を備えた情報処理装置をいい、Web検索支援装置10は、記憶装置410、制御部300等を備えた情報処理装置により構成され、この情報処理装置は、本発明のWeb検索支援装置の概念に含まれる。
[ユーザの端末のハードウェア構成]
ユーザの端末20も、上述のWeb検索支援装置10と同様なハードウェア構成を持つ。
[本発明の実施形態に係るフローチャート]
図6は、本発明の実施形態に係る情報収集処理のフローチャートを示している。
S1:Web文書蓄積手段101は、ネットワークN上に配信されているWeb文書を任意のWebサーバ装置2からダウンロードし、このWeb文書のURLをネットワーク上のアドレスとして、自動生成した文書IDとこの通信アドレスとを対応付けてWeb文書DB105に記憶する。また、Web文書蓄積手段101は、このWeb文書の文書IDと、このWeb文書の記述であるソースコードとを関連付けて記憶する。
S2:情報群抽出手段102は、Web文書DB105に蓄積されたWeb文書のソースコードを解析し、当該ソースコードに含まれるタグの記述に基づいて表形式又はデータベース形式の情報の存在を判定し、表形式又はデータベース形式の情報を見つけた場合は当該情報を抽出して情報群記憶部106に格納する。
表形式又はデータベース形式の情報をタグに基づいて判定する方法としては、前述したように、プルダウンリストを構成するタグを見つける方法、XML宣言を判定する方法、テーブルタグを見つける方法等が考えられる。
本実施形態においては、例えば、図4(b)に示すPC販売会社AのWebページに掲載されていた情報と、図4(c)に示すPC販売会社BのWebページに掲載されていた情報とを抽出できたとする。図4(b)及び(c)の情報は、前述したようにテーブルタグによって構成されているものとする。
S3:属性関係抽出手段103は、情報群記憶部106に格納された表形式又はデータベース形式の情報を解析し、当該情報に含まれる項目、属性及び属性値の関係にある情報を抽出する。
抽出にあたり、属性関係抽出手段103は、項目、属性及び属性値の関係にある情報の所在を推定する。推定の方法は幾つか考えられる。
(1)表形式又はデータベース形式の情報が、<Select>タグによりプルダウンリストを形成している場合、例えば<Select>タグのname属性の値を項目であると推定し、同<Select>タグの要素内容に列記された<Option>タグの要素内容を当該項目に関する属性及び属性値であると推定することが可能である。例えば、
<select name=”ノートPC”>
<option>CPU xxx 1.5GHz</option>
<option>CPU yyy 2.0GHz</option>
</select>
上記において、項目「ノートPC」、属性「CPU」の属性値「CPU xxx」と推定することができる。また、属性「CPU」に続く属性は「クロック」と推定し、属性「クロック」の属性値「1.5GHz」と推定することができる。同様に、項目「ノートパソコン」、属性「CPU」の属性値「CPU yyy」、属性「クロック」の属性値「2.0GHz」と推定することができる。
(2)表形式又はデータベース形式の情報が、XMLインスタンスの場合、階層構造を成している上位のタグ要素名を「項目」と推定し、その一つ下位のタグ要素名を「属性」と推定し、当該「属性」を示すタグ要素名の属性又は要素内容を「属性値」と推定することが可能である。例えば、
<ノートパソコン>
<CPU type=”CPU zzz”>
<クロック>1.1GHz</クロック>
</CPU>
<CPU type=”CPU ppp”>
<クロック>3.2GHz</クロック>
</CPU>
</ノートパソコン>
上記において、項目「ノートパソコン」、属性「CPU」の属性値「CPU zzz」、属性「クロック」の属性値「1.1GHz」を推定することができる。同様に、項目「ノートパソコン」、属性「CPU」の属性値「CPU ppp」、属性「クロック」の属性値「3.2GHz」を推定することができる。
(3)表形式又はデータベース形式の情報がテーブルタグによって構成されている場合、例えば、表のタイトルを「項目」と推定し、1行目にある要素の列を各「属性」と推定し、2行目以降にある要素を同列の属性に対応する「属性値」と推定することが考えられる。例えば、
<table>
<caption>ノートパソコン</caption>
<tr>
<td>CPU</td>
<td>クロック</td>
</tr>
<tr>
<td>CPU zzz</td>
<td>1.1GHz</td>
</tr>
<tr>
<td>CPU ppp</td>
<td>3.2GHz</td>
</tr>
</table>
上記において、項目「ノートパソコン」、属性「CPU」の属性値「CPU zzz」、属性「クロック」の属性値「1.1GHz」を推定することができる。同様に、項目「ノートパソコン」、属性「CPU」の属性値「CPU ppp」、属性「クロック」の属性値「3.2GHz」を推定することができる。
(4)属性辞書104を利用する方法も考えられる。属性関係抽出手段103は、属性辞書104に登録された項目を参照し、情報群記憶部106に格納された情報Aに同一の項目が含まれているか判定する。同一の項目が含まれていたら、属性辞書104においてその項目に関連付けられている属性を参照し、同一の属性が情報Aに含まれているか判定する。同一の属性が含まれていたら、情報Aにおいて当該属性の例えば直後にある要素内容を当該属性についての属性値であると推定する。属性辞書104を利用すると、項目や属性を表すテキストが不要な語句を一部に含んでいても、当該不要な語句を無視して項目名や属性名を取得することができる。
なお、属性関係抽出手段103は、表形式の情報の直上方、直下方あるいは直左方に位置する情報を前記項目として抽出してもよい。また、表形式の情報において、上端行あるいは左端列に位置する情報を属性として、それぞれその下方あるいは右方に位置する情報を属性値として抽出してもよい。さらに、前記データベース形式の情報の直左方に位置する情報を属性として、前記データベース形式の情報をその属性値として抽出してもよい。
S4:属性関係抽出手段103は、S3において抽出した項目、属性及び属性値の関係を有する情報を属性関係DB107に登録する。本実施形態において、属性関係抽出手段103は、この登録の際に属性辞書104を参照し、項目の類義語を1種類に統一する。例えば、図4(b)に示す情報から得た項目「ノートPC」は、図4(d)に示した属性辞書の項目を参照し「ノートパソコン」に統一して属性関係DB107に登録する。このようにすると、項目が統一されることによって、生成された属性関係DB107の情報を活用しやすくなる。もっとも、属性辞書104とは別に類義語辞書を備え、この類義語辞書を参照することにより、項目や属性の類義語を統一してもよい。図4に示した情報の例によると、図4(b)及び(c)に示した表形式又はデータベース形式の情報から、図4(e)に示した属性関係DB107を生成することができる。
以上説明したように、情報群抽出手段102及び属性関係抽出手段103が、Web文書に含まれるタグに基づいて、項目、属性及び属性値の関係を有する情報を抽出するので、項目に関する情報をサイトの異なる複数のWeb文書から自動的に収集し、属性ごとに整理された情報として取得することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。例えば、「項目」は本実施形態の例示に限られず、「属性」及び「属性値」を伴うものはすべて「項目」になり得る。また、表形式データベース形式の情報を抽出する方法及び当該情報から項目、属性及び属性値の関係を有する情報を抽出する方法は、本実施形態の例示に限られるものではない。また、図6に示した各ステップは、1つのWeb文書を蓄積するごとに全てのステップを一通り実行する必要はない。各ステップが非同期でバッチ処理を行なってもよい。
図7は、本発明の実施形態に係る情報収集処理のフローチャートを示している。
S10:クエリー受付手段108は、通信ネットワークNを介してユーザの端末2から「項目」の入力を受け付け、項目記憶部112に格納する。例えば、項目として「ノートパソコン」を受け付け、項目記憶部112に格納する。
S20:クエリー示唆手段109は、入力を受け付けた「項目」を項目記憶部から読み出し、当該「項目」に関連付けられた1乃至複数の「属性」及び当該「属性」に関連付けられた1乃至複数の「属性値」を属性関係DB107から読み出す。
例えば、項目が「ノートパソコン」の場合、クエリー示唆手段109は、図4に示した属性関係DB107を参照し、項目「ノートパソコン」に関連付けられた属性「CPU」、「クロック」等を読み出す。
S30:クエリー示唆手段109が読み出した属性値が数値の場合、閾値生成手段113は、数値範囲の分割設定処理を実行する。例えば、図4の属性関係DB107からCPUのクロックを読み出した場合、800MHz、1.1GHz等の複数の属性値を読み出すこととなる。この場合、クエリー示唆手段109は、それら複数の属性値が含まれる複数の数値範囲を設定して出力する。
例えば、図4に示した属性関係DB107において、クロックの属性値は、800MHz〜3.2GHzの範囲に分布している。これを例えば、1GHz以下、1.1GHz〜1.5GHz、1.6GHz〜2GHz、2.1GHz〜2.5GHz、2.6GHz以上、のように複数の数値範囲を設定する。
数値範囲を設定する方法は上記のほかにも幾つか考えられる。例えば、属性値がほぼ等しい数だけ入るように設定してもよい。
図4の例では、例えば、クロックの属性値が、1GHz以下、1.1GHz〜1.5GHz、1.6GHz〜2GHz、2.1GHz〜2.5GHz、2.6GHz以上、のように複数の数値範囲を設定する。閾値生成手段113は、設定した数値範囲の情報をクエリー示唆手段109に渡す。
S40:クエリー示唆手段109は、S2において読み出した「属性」及び「属性値」を選択可能とする選択インターフェースを生成する。ここで、クエリー示唆手段109が、S30において閾値生成手段113から設定された数値範囲を取得している場合は、「属性値」に代えて当該分割設定された各数値範囲のいずれかを選択可能とする選択インターフェースを生成し、ユーザの端末20に送信する。
図8は、選択インターフェースの一例である。この選択インターフェースは、「項目」を入力する検索窓と、入力した「項目」をクエリー受付手段108に送信するための検索ボタンと、入力された項目(ノートパソコン)に関する属性(価格、CPU、HDD、バッテリー、・・・)を選択することのできる第1属性プルダウンリストと、この第1属性プルダウンリストにおいて選択された項目(CPU)に関する属性(クロック、メモリ、・・・)を選択することのできる第2属性プルダウンリストと、この第2属性プルダウンリストにおいて選択された属性(クロック)に関する属性値を選択することのできる属性値セレクトボックスとを備えている。図6の例では、属性値セレクトボックスの要素として属性値に代えて閾値生成手段113が生成した数値範囲のいずれかを選択可能となっている。
S50:クエリー示唆手段109は、S40において送信した選択インターフェースを介してユーザが選択した「属性」及び「属性値」をユーザの端末20から取得し選択結果記憶部114に格納する。クエリー示唆手段109は、選択された「属性」について、当該属性が「項目」として属性関係DB107に登録されてる場合は、当該「項目」について、S20〜S40の処理を繰り返す。これにより、図8の例では、「CPU」を選択した場合に、更に、「クロック」「メモリ」等を選択できるようになる。
クエリー示唆手段109は、属性値又は設定された属性値の数値範囲が選択された場合、ユーザにおける選択操作が完了したものと判断する。
S60:検索実行手段110は、クエリー示唆手段109がユーザにおける選択操作完了と判断すると、それまでに選択された「属性」及び「属性値」を選択結果記憶部114から読み出すと共に、ユーザが先に入力した「項目」を項目記憶部112から読み出し、当該ユーザが先に入力した「項目」と当該選択された「属性」及び「属性値」とを検索条件に含むWeb検索用の検索クエリーを生成し検索エンジン111に与える。
S70:検索エンジン111は、検索実行手段110から与えられた検索クエリーを用いて検索処理を実行し、検索結果をユーザの端末20に送信する。なお、数値範囲が選択された場合には、検索エンジンに対して、当該検索範囲に入る妥当と思われる数値単位(たとえば、クロック数であれば0.1GHz単位、ハードディスクであれば、10GB単位等)の複数の検索キーワードを生成して、それぞれをOR条件で引き渡す等の処理を行なってよい。
以上説明した本実施形態によれば、クエリー示唆手段109によって、ユーザが入力した項目に関する属性及び属性値の選択肢が示唆され、ユーザは、示唆された選択肢から属性及び属性値を選ぶだけで検索クエリーの設定が完了する。このため、ユーザは、項目に関する属性及び属性値を選択するだけの簡単な操作により、適切な検索クエリーを入力することが可能となる。よって、適切な検索クエリーを設定するにあたり、従来必要とされた経験も必要としない。また、項目、属性及び属性値の関係を有する情報は任意のWeb文書から取得するので、検索ワードの人気度に関わらない検索クエリーの示唆を行なうことができる。
また、ユーザは、閾値生成手段113の機能により、項目の属性値である具体的な数値を選択することに代えて、所定の数値の範囲を選択できる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。例えば、Web検索支援装置が検索エンジンを備えている必要はない。外部の検索エンジンを利用することができる。その場合、Web検索支援装置が行なうのは、ユーザの端末のブラウザで動いている選択インターフェースに対する選択肢の情報提供だけでもよい。また、上記実施形態では項目を項目記憶部に保持しているが、選択インターフェースをユーザの端末に送信する際に、引数として項目の値も含めて渡し、ユーザの端末から属性又は属性値の選択結果を送信する際に、項目の値を付加するようにしてもよい。また、閾値生成手段は、クエリー示唆手段の動作とは非同期で動作することにより、設定した属性値の数値範囲を任意のタイミングで生成し、予めデータベースに格納してもよい。この場合、クエリー示唆手段が設定された属性値の数値範囲を必要とした時に直ちにその情報を読み出せるので、ユーザの端末への応答が速くなる。
また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本実施形態に係るWeb検索支援装置と関連要素の全体構成を示す図である。 本実施形態に係るWeb検索支援装置の機能構成の概要を示す図である。 本実施形態に係るWeb検索支援装置の更なる機能構成の概要を示す図である。 本実施形態に係るWeb文書データベース、情報群抽出手段及び属性関係データベースと関連要素の構造を示す図である。 本実施形態に係るWeb検索支援装置のハードウェア構成を示す図である。 本発明の実施形態に係る情報収集処理のフローチャートを示している。 本発明の実施形態に係る検索支援処理のフローチャートを示している。 本実施形態に係る選択インターフェースの一例を示す図である。
符号の説明
2 Webサーバ装置
10 Web検索支援装置
20 ユーザの端末
108 クエリー受付手段
109 クエリー示唆手段
110 検索実行手段
112 項目記憶部
107 属性関係DB
114 選択結果記憶部
113 閾値生成手段
111 検索エンジン

Claims (4)

  1. Web検索支援装置が、通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出するステップと、
    抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出するステップと、
    抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて属性関係DBに記憶するステップと、
    前記項目を含む入力をユーザの端末から受け付けるステップと、
    入力を受け付けた前記項目に関連付けられた属性及び属性値を前記属性関係DBから読み出すステップと、
    読み出した前記属性及び属性値を選択可能とした選択インターフェースを表示するために前記ユーザの端末に送信するステップと、を実行することを特徴としたWeb検索支援方法。
  2. 前記属性に関連付けられた属性値が数値の場合、当該属性に関連付けられた複数の属性値が属する数値範囲を所定の閾値ごとに複数の数値範囲に分割し、前記選択インターフェースにおいては前記属性値に代えて前記分割した数値範囲のいずれかを選択可能とすることを特徴する請求項1記載の方法。
  3. 請求項1又は2に記載の方法をコンピュータに実行させることを特徴とするプログラム。
  4. 通信ネットワークを介してアクセス可能なWeb文書から、前記Web文書に含まれるタグに基づいて表形式あるいはデータベース形式の情報を抽出する情報群抽出手段と、
    抽出した前記表形式あるいはデータベース形式の情報から、前記タグが示す各情報間の従属関係に基づいて、所定の項目に対して従属する関係にある属性及び前記属性の内容を示す属性値の関係を有する情報を抽出し、抽出した前記項目、属性及び属性値の関係を有する情報を関連付けて属性関係DBに記憶する属性関係抽出手段と、
    前記項目を含む入力をユーザの端末から受け付けるクエリー受付手段と、
    入力を受け付けた前記項目に関連付けられた属性及び属性値を前記属性関係DBから読み出し、読み出した前記属性及び属性値を選択可能とした選択インターフェースを表示するために前記ユーザの端末に送信するクエリー示唆手段と、を備えたことを特徴とするWeb検索支援装置。
JP2008171884A 2008-06-30 2008-06-30 Web検索支援方法、装置及びプログラム Active JP4920642B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008171884A JP4920642B2 (ja) 2008-06-30 2008-06-30 Web検索支援方法、装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008171884A JP4920642B2 (ja) 2008-06-30 2008-06-30 Web検索支援方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2010015203A true JP2010015203A (ja) 2010-01-21
JP4920642B2 JP4920642B2 (ja) 2012-04-18

Family

ID=41701291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008171884A Active JP4920642B2 (ja) 2008-06-30 2008-06-30 Web検索支援方法、装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4920642B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930017A (zh) * 2012-10-31 2013-02-13 百度在线网络技术(北京)有限公司 一种用于在移动终端上提供搜索结果的方法和设备
US9632407B2 (en) 2014-07-18 2017-04-25 Kabushiki Kaisha Yoshiba Mask processing apparatus and mask processing method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325284A (ja) * 2000-05-12 2001-11-22 Nippon Telegr & Teleph Corp <Ntt> 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体
JP2003281160A (ja) * 2002-03-25 2003-10-03 Ntt Comware Corp メタデータ作成システム、メタデータ作成方法、メタデータ作成プログラムおよび記録媒体
JP2005141296A (ja) * 2003-11-04 2005-06-02 Just Syst Corp 文書検索装置、文書検索方法、および文書検索プログラム
WO2005096183A1 (ja) * 2004-03-31 2005-10-13 Pioneer Corporation データ選択装置、方法、プログラム及び記録媒体
JP2005326970A (ja) * 2004-05-12 2005-11-24 Mitsubishi Electric Corp 構造化文書曖昧検索装置及びそのプログラム
WO2006028191A1 (ja) * 2004-09-09 2006-03-16 Jam Corporation 情報提供装置、コンピュータプログラム、プログラム格納媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325284A (ja) * 2000-05-12 2001-11-22 Nippon Telegr & Teleph Corp <Ntt> 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体
JP2003281160A (ja) * 2002-03-25 2003-10-03 Ntt Comware Corp メタデータ作成システム、メタデータ作成方法、メタデータ作成プログラムおよび記録媒体
JP2005141296A (ja) * 2003-11-04 2005-06-02 Just Syst Corp 文書検索装置、文書検索方法、および文書検索プログラム
WO2005096183A1 (ja) * 2004-03-31 2005-10-13 Pioneer Corporation データ選択装置、方法、プログラム及び記録媒体
JP2005326970A (ja) * 2004-05-12 2005-11-24 Mitsubishi Electric Corp 構造化文書曖昧検索装置及びそのプログラム
WO2006028191A1 (ja) * 2004-09-09 2006-03-16 Jam Corporation 情報提供装置、コンピュータプログラム、プログラム格納媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930017A (zh) * 2012-10-31 2013-02-13 百度在线网络技术(北京)有限公司 一种用于在移动终端上提供搜索结果的方法和设备
US9928282B2 (en) 2012-10-31 2018-03-27 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for providing search results on a mobile terminal
US9632407B2 (en) 2014-07-18 2017-04-25 Kabushiki Kaisha Yoshiba Mask processing apparatus and mask processing method

Also Published As

Publication number Publication date
JP4920642B2 (ja) 2012-04-18

Similar Documents

Publication Publication Date Title
US8001135B2 (en) Search support apparatus, computer program product, and search support system
CN101395605B (zh) 比较性web搜索
US20140032529A1 (en) Information resource identification system
US20090287690A1 (en) Support for international search terms
JP2010527494A (ja) 多言語情報検索
JP2009169541A (ja) Webページ検索サーバ及びクエリ推薦方法
JP2008071259A (ja) ブックマーク・タグ設定装置
JP2017220204A (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
JP2009037501A (ja) 情報検索装置、情報検索方法およびプログラム
JP5296014B2 (ja) 検索装置、方法及びプログラム
JP2003091552A (ja) 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
JP5296745B2 (ja) クエリサジェスチョン提供装置及び方法
JP4920642B2 (ja) Web検索支援方法、装置及びプログラム
JP2011191980A (ja) レシピ提供システム及び方法
JP5014252B2 (ja) コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム
JP2008065417A (ja) 連想語群検索装置、システム及びコンテンツマッチ型広告システム
JP5108660B2 (ja) 情報収集方法、装置及びプログラム
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
US20090216756A1 (en) Recording medium carrying data search program, data search apparatus, and data search method
JP4477931B2 (ja) 検索リクエスト装置、検索リクエスト方法、検索リクエストプログラムおよび検索リクエストプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010191851A (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP5129194B2 (ja) 商品検索装置
JP4962973B2 (ja) 検索サーバ、方法及びプログラム
JP5070018B2 (ja) 検索装置、検索方法、及び検索プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120201

R150 Certificate of patent or registration of utility model

Ref document number: 4920642

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350