JP4731896B2 - 情報処理装置、情報検索方法及びプログラム - Google Patents

情報処理装置、情報検索方法及びプログラム Download PDF

Info

Publication number
JP4731896B2
JP4731896B2 JP2004354494A JP2004354494A JP4731896B2 JP 4731896 B2 JP4731896 B2 JP 4731896B2 JP 2004354494 A JP2004354494 A JP 2004354494A JP 2004354494 A JP2004354494 A JP 2004354494A JP 4731896 B2 JP4731896 B2 JP 4731896B2
Authority
JP
Japan
Prior art keywords
information
search
price
word
price information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004354494A
Other languages
English (en)
Other versions
JP2006163826A (ja
Inventor
大輔 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP2004354494A priority Critical patent/JP4731896B2/ja
Publication of JP2006163826A publication Critical patent/JP2006163826A/ja
Application granted granted Critical
Publication of JP4731896B2 publication Critical patent/JP4731896B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、通信ネットワークを介して接続される検索システムから、入力された検索語情報を含む検索結果情報を得ることが可能な情報処理装置、情報検索方法及びプログラムに関するものである。
インターネット上で販売されている商品を探すにはいくつかの方法が実施されている。
第一の方法としては、商品を販売するショップが、自己の販売する商品情報を登録したショッピングモールや価格比較サイトで商品を検索して購入する方法が知られている。また、これらショッピングモールや価格比較サイトの中でどこが最も安く販売しているかどうかを比較するサービスも実施されている。
第二の方法は、商品を販売するショップが予め販売情報を作成しておき、その販売情報を情報収集サーバが巡回して収集し、収集された情報に対して商品購入希望者が検索を行うシステムがある(例えば、特許文献1、特許文献2参照)。
特開2002−149854号公報 特開2002−207734号公報 特許第3099298号公報
しかしながら、第一の方法では、商品購入希望者はいくつものショップのサイトを訪れなくても簡単に商品販売情報を比較できるという便利さはあるものの、ショッピングモールに登録されていないショップの情報は検索できず、またショップは商品情報をこまめにショッピングモールのサーバにアップロードしなければならないという煩わしさがある。
第二の方法では、情報提供サーバが自動的にショップの情報を収集するためショップの商品登録作業は簡素化されるが、ショッピングモールに登録されていないショップの情報が検索できないという課題は解消されない。
そこで、ショッピングモールに登録されていないショップでの販売情報を探す第三の方法としては、一般的なインターネットの検索エンジンを利用して商品を検索することが挙げられる。しかしながら、一般的な検索エンジンで所望の商品の販売情報を見つけ出す作業は非常に困難である。
例えば、「ABC123」という商品名の商品を最も安く販売しているショップを探すことを考えてみる。検索エンジンで「ABC123」だけをキーワード検索すると「ABC123」の販売情報だけでなく、単なる製品紹介情報や評価情報など検出されてしまい。商品購入希望者はそれらの検索結果から販売情報を自ら探し出さなければならない。
検索精度を高めるために「ABC123」だけでなく、「販売」や「価格」等のキーワードのAND検索を行うということもできるが、必ずしも「ABC123」の販売情報が掲載されているとは限らず、「ABC123の販売予定」等の製品紹介情報であったり、他の商品の販売情報のページにたまたま「ABC123」の評価情報等が掲載されているということも多く、それほど精度の高い検索はできない。
これに対して、例えば特許文献3には、文献検索の精度を高めるために、文書内の文字列の距離に応じて、検索条件により近い文書を検出する近傍条件判定の技術が開示されている。例えば「ABC123」と「価格」という文字列の間が5つ以内の単語で結ばれている文書を検出するということが可能になる。この技術を利用すれば、単に1ページの中に「ABC123」と「価格」の文字列が記載されているだけでなく、「ABC123」の近くに「価格」という文字列が記載されているページを検出できるようになる。しかしながら、やはりこれでも必ずしも「ABC123」を販売しているサイトを検出できるとは限らない。
そこで、本発明の目的は、例えば一般的なインターネット上の検索エンジンを提供する検索システムを利用して幅広く商品の販売情報を検索することを可能とするとともに、従来の近傍検索のように、例えば「ABC123」と「価格」が5文字以内というような複雑な検索条件を指定する手間を省き、精度の高い検索を容易に行うことを可能とすることにある。
本発明の他の目的は、販売情報が掲載された情報を高い精度で検索結果として出力させることを可能とすることにある。
本発明の情報処理装置は、通信ネットワークを介して検索システムとの通信が可能な情報処理装置であって、入力された検索語を示す検索語情報に対し、検証結果に応じて選択された絞り込み用検索語を示す絞り込み語情報を付加して検索情報を生成し、前記検索情報を検索システムに対して送信する検索情報送信手段と、前記検索システムにより検索された前記検索情報を含む検索結果情報を受信する検索結果受信手段と、前記検索結果受信手段より受信した前記検索結果情報から価格情報を抽出する第1の価格情報抽出手段と、前記検索結果受信手段より受信した前記検索結果情報内において前記検索語情報と前記価格情報抽出手段により抽出された前記価格情報とが所定の位置関係にあるか否かを判定する判定手段と、前記検索結果受信手段より受信した前記検索結果情報のうち、前記判定手段により前記検索語情報と前記価格情報とが前記所定の位置関係にあると判定された前記検索結果情報に係る情報を出力手段により出力させる出力制御手段とを有することを特徴とする。
本発明の情報検索方法は、通信ネットワークを介して検索システムとの通信が可能な情報処理装置による情報検索方法であって、入力された検索語を示す検索語情報に対し、検証結果に応じて選択された絞り込み用検索語を示す絞り込み語情報を付加して検索情報を生成し、前記検索情報を検索システムに対して送信する検索情報送信ステップと、前記検索システムにより検索された前記検索情報を含む検索結果情報を受信する検索結果受信ステップと、前記検索結果受信ステップにより受信した前記検索結果情報から価格情報を抽出する価格情報抽出ステップと、前記検索結果受信ステップにより受信した前記検索結果情報内において前記検索語情報と前記価格情報抽出ステップにより抽出された前記価格情報とが所定の位置関係にあるか否かを判定する判定ステップと、前記検索結果受信ステップにより受信した前記検索結果情報のうち、前記判定ステップにより前記検索語情報と前記価格情報とが前記所定の位置関係にあると判定された前記検索結果情報に係る情報を出力手段により出力させる出力制御ステップとを含むことを特徴とする。
本発明のプログラムは、前記情報検索方法をコンピュータに実行させることを特徴とする。
本発明によれば、送信する検索情報に応じて検索システムから得られる検索結果情報のうち、価格情報を自動的に抽出し、抽出された価格情報と検索語情報とが所定の位置関係にある検索結果情報を出力するように構成したので、例えば一般的なインターネット上の検索エンジンを提供する検索システムを利用して幅広く商品の販売情報を検索することが可能となるとともに、従来の近傍検索のように、例えば「ABC123」と「価格」が5文字以内というような複雑な検索条件を指定する手間が省かれ、精度の高い検索を容易に行うことが可能となる。
また、本発明の他の特徴によれば、価格情報が検索情報の後段に位置し、且つ価格情報と検索情報とが所定の文字数の範囲内にある検索結果情報を出力させるように構成したので、販売情報が掲載された情報を高い精度で検索結果として出力させることが可能となる。
以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。
図1は、本発明の実施形態に係る検索システムの構成を概略的に示す図である。
図1に示すように、本実施形態に係る検索システムは、ユーザが操作するパーソナルコンピュータ(以下、PCと称す)10と、「Google」や「Yahoo」に代表される一般的な検索エンジンを提供する検索サーバ11とから構成される。PC10と検索サーバ11とはインターネットを介して接続される。
PC10は、検索サーバ11からダウンロードされる検索エンジンの検索語入力用ページ上において、例えば、ユーザがインターネット経由で販売情報を取得したい商品名や型番等の検索語(検索情報)が入力される。入力された検索語は、検索サーバ11に対して送信される。
検索サーバ11は、インターネット上のWebサーバを定期的に巡回して各Webサイトの情報(Webページ、URL等)を取得し、それを検索しやすい形で不図示のデータベースサーバに登録する。検索サーバ11がPC10から検索語を受信すると、検索サーバ11が備える検索エンジンの機能により、検索語を含むWebページをデータベースサーバから検索し、検索したWebページ及びURLを検索結果としてPC10に返信する。PC10上では、ユーザが入力した検索語に該当する検索結果がモニタ上に表示される。
図2は、PC10のハードウェア構成を概略的に示す図である。
CPU1004は、RAM1005やROM1006に格納されているプログラムやデータを用いて、PC10全体の制御を行う。1005は、RAMであり、外部メモリ1002からロードされたプログラムやデータを一時的に記憶するためのエリアを有するとともに、CPU1004が各種処理を行う為に使用するワークエリアを備える。1006は、ROMであり、BIOS等を記憶している。
1002は、HDDやFDD等の外部メモリであり、以下において詳述するPC10が行う処理をCPU1004に実行させるためのプログラムやデータ等を保存しており、これらは必要に応じてCPU1004の制御によりRAM1005に読み出されて実行されることになる。1001は、メモリコントローラであり、外部メモリ1002に対するデータの書き込み、及び、外部メモリ1002からのデータの読み出しを制御する。
1003は、通信I/Fコントローラであり、外部ネットワーク3000に接続するためのものである。この通信I/Fコントローラ1003を介して外部のコンピュータ等とデータ通信を行うことが可能である。
1008は、キーボードであり、各種の指示をCPU1004に対して入力することができる。1007は、入力コントローラであり、キーボード1008からの入力情報をCPU1004に対して送信する。
1010は、ディスプレイ装置であるCRTである。1009は、表示させる画像情報や文字情報等をCRT1010に対して送信したり、CRT1010上における画像の表示制御を行う。
次に、本実施形態に係る検索システムの動作について説明する。図5は、本実施形態に係る検索システムにおけるPC10及び検索サーバ11の動作の流れを示すフローチャートである。
先ず、ユーザは、検索サーバ11からダウンロードされた検索語入力用ページ上において、キーボード1008等を操作することにより所望の商品名を入力する(ステップS501)。続いて、検索語入力用ページ上において検索実行を指示するための検索ボタンが押下されると(ステップS502/YES)、CPU1004は、RAM1005内に格納されている絞り込み語群のうちから、検索精度を向上させる上で最適な絞り込み語を選択する(ステップS503)。
例えば、図3(a)に示すように、ユーザが検索語として「パソコン」を入力した場合、パソコンの販売情報を掲載したWebページを精度よく検索するため、CPU1004は3つの絞り込み語「定価」、「価格」、「税込み」を選択する。
ここで、絞り込み語とはユーザによって入力された検索語単独で検索を行うより、AND検索の検索条件としてさらに絞り込み語を付加することで、商品を販売するためのページの検索精度を向上させるものである。通常のユーザは、どのような絞り込み語を選択すれば検索精度を向上させることができるか把握していないことが多いため、予め絞り込みに好適な絞り込み語群をPC10内に格納しておき、そのうちの一部又は全部の絞り込み語を選択し、ユーザによって入力された検索語に絞り込み語を付加して検索サーバ11に対して送信する。
ここで、図4を用いて、検索の精度を高める上で適切な絞り込み語と不適切な絞り込み語について説明する。図4は、複数の絞り込み語を或る検索語に付加して検索を行った結果、商品の価格情報が含まれるWebページを検索できた割合を示す図である。尚、図4中の402のφは検索語なしを意味する。即ち、その個所では、絞り込み語を使用せずに検索語のみで検索を行った結果、商品の価格情報が含まれるWebページを検索できた割合を示している。
例えば絞り込み語「定価」401に関しては、検索語と絞り込み語「定価」とのAND検索による100件の検索結果を評価してみると、100件中50件余りが価格情報を含むWebページであった。これに対して、検索語のみによる100件の検索結果を評価してみると、100件中20件余りが価格情報を含むWebページであった。このように、絞り込み語「定価」を付加することで価格情報を含むWebページの検索精度を向上させることが可能となる。
一方、絞り込み語「安値」403に関しては、検索語と絞り込み語「安値」とのAND検索による100件の検索結果を評価してみると、100件中20件程度が価格情報を含むWebページであった。このように絞り込み語によっては価格情報を含むWebページの検索精度が低下することがある。本実施形態では、上記の検証結果を踏まえ、検索精度を向上させる上で好適な「定価」、「価格」及び「税込み」の3つの絞り込み語を自動的に選択し、検索語とともに検索サーバ11に対して送信するものとする。
続いて、CPU1004は、ユーザによって入力された検索語情報及び選択した各絞り込み語を夫々AND検索するという検索情報と、各検索情報による検索件数を指定する検索件数情報とを、通信I/Fコントローラ1003を用いて検索サーバ11に対して送信する(ステップS504)。図3の例では、検索語情報「パソコン」と絞り込み情報「定価」とをAND検索することを指定する第1の検索情報、検索語「パソコン」と絞り込み情報「価格」とをAND検索することを指定する第2の検索情報、及び、検索語情報「パソコン」と絞り込み情報「税込み」とをAND検索することを指定する第3の検索情報が検索情報として生成されるとともに、夫々の検索情報に対して100件の検索件数を指定する検索件数情報が生成され、第1〜第3の検索情報夫々に該当する検索件数情報が付加されて検索サーバ11に対して送信される。
一方、検索サーバ11は、定期的に検索情報を受信したかを監視しており(ステップS505)、検索情報の受信を検知した場合には、受信した各検索情報に該当するWebページ及びそれらのURLをデータベースサーバから検索する(ステップS506)。図3の例では、第1の検索情報に該当する(検索語「パソコン」及び絞り込み語「定価」双方を含む)Webページを100件、第2の検索情報に該当する(検索語「パソコン」及び絞り込み語「価格」双方を含む)Webページを100件、第3の検索情報に該当する(検索語「パソコン」及び絞り込み語「税込み」双方を含む)Webページを100件が検索されることになる。続いて、検索サーバ11は、検索結果をPC10に対して送信する(ステップS507)。
CPU1004は、検索情報の送信後、定期的に検索結果を受信したかを監視しており(ステップS508)、検索結果の受信を検知した場合には、検索結果である各Webページについて後述するステップS509〜ステップS511の処理を繰り返す。
ステップS509では、CPU1004は、現在処理対象となっているWebページ内に価格を示す価格情報が含まれているか否かを判断する。この判断処理では、先ず図6の601、602に示すように、HTMLで記述された当該Webページからタグを除き、一つの長い文字列の情報に変換する処理が行われる。次に、変換した文字列情報に価格情報が含まれていると判断された場合、処理はステップS510に移行し、価格情報が含まれていないと判断された場合、ステップS510及びステップS511の処理は行わず、次のWebページを対象とした処理を開始する。
本実施形態では、漢字又は数字による数値情報と、例えば「円」、「¥」等の貨幣単位情報との組合せ(例えば「千円」や「¥800」等)を価格情報として検出する。文字列情報から価格情報が検出された場合には価格情報が含まれていると判断し、価格情報が検出できなかった場合には価格情報が含まれていないと判断する。
ステップS510では、CPU1004は、検索語と価格情報とが所定の位置関係にあるか否かを判断する。本実施形態では、図6の603に示すように、価格情報が検索語の後段に位置し、且つ検索語と価格情報との間隔が所定の文字数の範囲内にある位置関係であるか否かを判断する。このような位置関係にある場合、当該価格情報が当該検索語により示される商品の価格情報である可能性が高く、その商品の価格情報としてみなす(図6の604)。このように本実施形態によれば、価格情報が検索情報の後段に位置し、且つ価格情報と検索情報とが所定の文字数の範囲内にあるWebページを抽出することによって、販売情報が掲載されているWebページを高い精度で選別することが可能となる。
続くステップS511では、CPU1004は商品の価格情報が含むWebページであれば、その商品の販売情報を掲載しているWebページの候補として当該Webページ及びそのURLをRAM1005内に保存する。一方、検索語と価格情報とが所定の位置関係にない場合は、ステップS511の保存処理を行うことなく、次のWebページを対象とした処理を開始する。以上の処理を検索結果である全Webページに対して実行する。
尚、検索語と価格情報との位置関係に関する設定は、ユーザの操作により任意に変更することが可能である。例えば、検索語と価格情報との間隔は、ユーザが任意の文字数を設定することが可能である。
図7は、検索語と価格情報との各文字数間隔(距離)と、検索精度(Precision)、取りこぼし(Recall)及びPrecisionとRecallの調和平均(F-measure)の夫々との関係を示す図である。
検索精度(Precision)は、図6の604に示すように価格情報を含むとみなされたWebページに対する、実際に商品「ボルト」の価格情報が含まれていたWebページの割合で表される。即ち、検索精度(Precision)の値が高い程、検索精度が高いことになる。取りこぼし(Recall)は、検索語「ボルト」のみの検索処理によって得られたWebページのうち実際に価格情報を含んでいたWebページに対する、図6の604に示すように価格情報を含むとみなされたWebページの割合で表される。即ち、取りこぼし(Recall)の値が高い程、取りこぼしが少ないことになる。
従って、ユーザは、実際に商品「ボルト」の価格情報を含むWebページを高い精度で抽出したい場合、検索精度(Precision)が最高値となる、検索語と価格情報との文字数間隔を50文字と設定することが好ましい。
また、商品「ボルト」の価格情報を含むWebページの取りこぼしを少なくしたい場合、取りこぼし(Recall)が最高値となる、検索語と価格情報との文字数間隔を50文字以上に設定することが好ましい。
さらに、Precision及びRecallの双方を重視したい場合、調和平均(F-measure)が最高値となる、検索語と価格情報との文字数間隔を50文字に設定することが好ましい。このようにユーザは自らの要求に応じて検索語と価格情報との文字数間隔を適宜変更することができる。
続いて、CPU1004は、RAM1005に一時保存されたWebページ及びURLに基づいてCRT1010上に表示させる画面情報を生成し、CRT1010上で表示させる(ステップS512)。生成された画面情報による検索結果表示画面の構成例を図8に示す。
図8の例では、検索語「BC123」が指定された場合の検索結果を表示した例を示しており、検索語「BC123」を含む商品名、ステップS509及びステップS510で検出された価格情報、及びURL情報が表示されている。図8では、同一のURLにつき異なる商品名及び価格情報を対応付けて表示しているが、これは、同一Webページ内において検索語「BC123」と所定の位置関係にある価格情報が複数検出されたことを意味する。また、商品名は、HTMLで記述されたWebページ内において検索語「BC123」が検出された要素内のデータである。商品販売のためのWebページは表形式であることが多く、例えば<td>及び</td>で定義されたデータは表中の一要素のデータとして表示される。<td>と</td>で挟まれたデータが「プリンタBC123」等の「BC123」を含む場合には、「BC123」を含むことによって検索の対象となり、「プリンタBC123」が商品名として抽出される。価格情報は、ステップS509で検出されたデータをそのまま利用することによって表示情報に活用できる。
以上のように、本実施形態によれば、URL、商品名及び価格情報を対応付けて検索結果の一覧を表示することが可能であるが、これに限らず、サイト名や検索語「BC123」と価格情報との距離(文字数間隔)を表示することも考えられる。サイト名に関しては、上記の商品名の抽出処理と同様に、HTML中の<title>及び</title>で定義されるデータをサイト名として利用することができる。
図9は、検索結果表示画面の他の構成例を示す図である。図8の例とは、価格情報の表示方法が異なる。ここでは、ステップS509等で検出された価格情報とその前後n文字(n=1,2,3,・・・・)とを抽出し、価格情報欄に表示する。図9は、価格情報とともにその前後10文字を表示した例を示している。このように価格情報の前後の文字をともに表示することにより、ユーザは検出された価格情報の意味又は位置づけ等を把握することが可能となる。
また、上記実施形態では、商品「パソコン」について全体で300件の検索結果を要求した場合、第1〜第3の検索情報夫々に対して均等に検索件数(各100件)を配分することを条件として設定している。その結果、各検索情報につき得られた100件の検索結果に対して、ステップS509及びステップS510の処理を行い、価格情報を含むとみなされるWebページを抽出する。但し、第1〜第3の検索情報によって価格情報を含むとみなされるWebページが夫々均等に抽出されるとは限らない。そこで、例えば第1の検索情報、第2の検索情報、第3の検索情報の順で価格情報を含むとみなされたWebページが多く抽出されるような場合、CPU1004は各検索情報によるWebページの抽出割合をRAM1006内に記憶させておく。
後に、同じ検索語「パソコン」でユーザによって検索指示がなされた場合、CPU1004は、同じ絞り込み語を付加した第1〜第3の検索情報を生成するとともに、各検索情報に対応する検索件数情報をRAM1006に記憶される各第1〜第3の検索情報の抽出割合に基づいて決定する。ここでは、第1の検索情報、第2の検索情報、第3の検索情報の順で価格情報を含むとみなされたWebページが多く抽出された場合を例に挙げているので、図3(b)に示すように、例えば第1の検索情報に対しては250件、第2の検索情報に対しては40件、第3の検索情報に対しては10件の検索件数情報が生成され、PC10から検索サーバ11に対して送信される。このように本実施形態によれば、価格情報を含むとみなされたWebページの数に応じて適応的に検索件数を変更することができる。
以上のように、本実施形態によれば、検索されたWebページから価格情報を自動的に抽出し、抽出された価格情報と検索語情報とが所定の位置関係にある検索結果情報をユーザに対して出力している。従って、一般的なインターネット上の検索エンジンを利用して幅広く商品の販売情報を検索することが可能となるとともに、従来の近傍検索のように、例えば「ABC123」と「価格」が5文字以内というような複雑な検索条件を指定する手間が省かれ、精度の高い検索を容易に行うことが可能となる。
今回、本実施形態に係る検索システムの性能を他の検索サイトとの比較により評価した。ここでは検索処理の最適性(Optimality)と頑健性(Robustness)とを評価指標とした。
−最適性(Optimality)−
図10は、或る10種の商品名を検索語として検索を行い、それら10種の商品名のうち、実際にその商品を販売するための最安値のWebページが取得できた商品名の数を、本実施形態に係る検索システム、他の検索サイト毎に示した図である。ここでは比較的検索が容易な一般的な商品名を10種用いている。
図10中、「検索サイトA〜E」は、他のシステムによって提供される検索サイトであり、「本システム」は、本実施形態に係る検索システムである。ここでは、或る10種の商品名を検索語とする検索を検索サイトA〜Eと本検索システムによって夫々行い、検索された各Webページのうち最安値の価格情報を含むWebページが取得できた場合は1ポイント加算し、取得できなかった場合にはポイントを加算しないといった方法で最適性(Optimality)の検証を行った。尚、当該商品について同一の最安値の価格情報を含むWebページが複数の検索サイト間等で検索された場合には、夫々の検索サイトに夫々1ポイント加算する。
本検索システムでは、10種の商品のうち8種の商品に対して最安値のWebページが取得できた。これに対して検索サイトA〜Eでは、検索サイトEで10種の商品のうち5種の商品に対して最安値のWebページが取得され、その他の検索サイトA〜Dではそれ以下であった。このように、最適性(Optimality)の面で本検索システムの優位性が立証される結果となった。
−頑健性(Robustness)−
図11は、或る20種の商品名を検索語として検索を行い、実際にそれらの商品を販売するためのWebページが取得できた割合を、本実施形態に係る検索システム、他の検索サイト毎に示した図である。ここでは、「ソーダ灰」、「水草」、「玉砂利」、「太陽電池」、「かにシューマイ」、「竹ぼうき」、「糸切りハサミ」、「止水栓」、「カフスボタン」、「ボビンケース」、「手回しミシン」、「名刺ケース」、「ミトン手袋」、「薬用ソープ」、「珪藻土」、「手漉き和紙」、「泡立て機」、「蝶番」「ハロゲン電球」、及び「股引」の比較的検索が困難な特殊な商品名を20種用いる。
図11に示すように、本検索システムでは、20種の商品名全てについて商品を販売するためのWebページが取得できた。これに対して検索サイトA〜Eでは、検索サイトBで20種の商品名のうち15種の商品名について商品を販売するためのWebページが取得され、その他の検索サイトA、C、D、Eについてはそれ以下であった。
図12は、上記20種の検索語夫々での検索の結果、取得したWebページから含まれる価格情報が安い順に20件のWebページを選択し、そのうち実際に当該商品を販売するためのWebページの数を求め、上記20種の検索語について求めた平均値を本実施形態に係る検索システム、他の検索サイト毎に示した図である。
図12に示すように、本検索システムでは、含まれる価格情報が安い順から20件のWebページについて上記20種の検索語間で実際に商品を販売するためのWebページが平均で10件検索された。これに対して検索サイトA〜Eでは、平均6件弱のWebページが検索され、その他の検索サイトA、C、D、Eについてはそれ以下であった。図11及び図12に示すように、頑健性(Robustness)の面で本検索システムの優位性が立証される結果となった。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、プログラムコード自体及びそのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(基本システム或いはオペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の実施形態に係る検索システムの構成を概略的に示す図である。 PCのハードウェア構成を概略的に示す図である。 本発明の実施形態における検索処理を説明するための図である。 検索の精度を高める上で適切な絞り込み語と不適切な絞り込み語について説明するための図である。 PC及び検索サーバの動作の流れを示すフローチャートである。 価格情報の抽出処理を説明するための図である。 検索語と価格情報との各文字数間隔(距離)と、検索精度(Precision)、取りこぼし(Recall)及びPrecisionとRecallの調和平均(F-measure)の夫々との関係を示す図である。 検索結果表示画面の構成例を示す図である。 検索結果表示画面の他の構成例を示す図である。 或る10種の商品名を検索語として検索を行い、それら10種の商品名のうち、実際にその商品を販売するための最安値のWebページが取得できた商品名の数を、本発明の実施形態に係る検索システム、他の検索サイト毎に示した図である。 或る20種の商品名を検索として検索を行い、実際にそれらの商品を販売するためのWebページが取得できた割合を、本発明の実施形態に係る検索システム、他の検索サイト毎に示した図である。 上記20種の検索語夫々での検索の結果、取得したWebページから含まれる価格情報が安い順に20件のWebページを選択し、そのうち実際に当該商品を販売するためのWebページの数を求め、上記20種の検索語について求めた平均値を本発明の実施形態に係る検索システム、他の検索サイト毎に示した図である。
符号の説明
10:パーソナルコンピュータ(PC)
11:検索サーバ
1001:メモリコントローラ
1002:外部メモリ
1003:通信I/Fコントローラ
1004:CPU
1005:RAM
1006:ROM
1007:入力コントローラ
1008:KB(キーボード)
1009:ビデオコントローラ

Claims (8)

  1. 通信ネットワークを介して検索システムとの通信が可能な情報処理装置であって、
    入力された検索語を示す検索語情報に対し、検証結果に応じて選択された絞り込み用検索語を示す絞り込み語情報を付加して検索情報を生成し、前記検索情報を検索システムに対して送信する検索情報送信手段と、
    前記検索システムにより検索された前記検索情報を含む検索結果情報を受信する検索結果受信手段と、
    前記検索結果受信手段より受信した前記検索結果情報から価格情報を抽出する第1の価格情報抽出手段と、
    前記検索結果受信手段より受信した前記検索結果情報内において前記検索語情報と前記価格情報抽出手段により抽出された前記価格情報とが所定の位置関係にあるか否かを判定する判定手段と、
    前記検索結果受信手段より受信した前記検索結果情報のうち、前記判定手段により前記検索語情報と前記価格情報とが前記所定の位置関係にあると判定された前記検索結果情報に係る情報を出力手段により出力させる出力制御手段とを有することを特徴とする情報処理装置。
  2. 前記所定の位置関係とは、前記価格情報が前記検索語情報の後段に位置し、且つ前記価格情報と前記検索語情報とが所定の文字数の範囲内にある位置関係であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記所定の文字数の範囲を調整可能な調整手段を更に有することを特徴とする請求項2に記載の情報処理装置。
  4. 前記複数の絞り込み語情報夫々に対応して、前記複数の絞り込み語情報のうちの一つの絞り込み語情報と前記検索語情報とを含む複数の検索情報を生成する検索情報生成手段と、
    前記複数の検索情報による夫々の検索件数を指定するための複数の検索件数情報を生成する検索件数情報生成手段とを更に有し、
    前記検索件数情報手段は、前記検索件数情報により指定された検索件数分の検索結果情報に対する前記判定手段の判定結果に基づいて、前記検索語情報による後の検索処理時に使用する検索件数情報を変更することを特徴とする請求項3に記載の情報処理装置。
  5. 前記第1の価格情報抽出手段は、数値を示す数値情報と貨幣単位を示す貨幣単位情報との組み合わせを価格情報として抽出することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 前記価格情報の前後所定の文字数分の情報を前記検索結果情報から抽出する第2の価格情報抽出手段を更に有し、
    前記出力制御手段は、前記第2の価格情報抽出手段により抽出される情報を該当する価格情報とともに前記出力手段により出力させることを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。
  7. 通信ネットワークを介して検索システムとの通信が可能な情報処理装置による情報検索方法であって、
    入力された検索語を示す検索語情報に対し、検証結果に応じて選択された絞り込み用検索語を示す絞り込み語情報を付加して検索情報を生成し、前記検索情報を検索システムに対して送信する検索情報送信ステップと、
    前記検索システムにより検索された前記検索情報を含む検索結果情報を受信する検索結果受信ステップと、
    前記検索結果受信ステップにより受信した前記検索結果情報から価格情報を抽出する価格情報抽出ステップと、
    前記検索結果受信ステップにより受信した前記検索結果情報内において前記検索語情報と前記価格情報抽出ステップにより抽出された前記価格情報とが所定の位置関係にあるか否かを判定する判定ステップと、
    前記検索結果受信ステップにより受信した前記検索結果情報のうち、前記判定ステップにより前記検索語情報と前記価格情報とが前記所定の位置関係にあると判定された前記検索結果情報に係る情報を出力手段により出力させる出力制御ステップとを含むことを特徴とする情報検索方法。
  8. 請求項7に記載の情報検索方法をコンピュータに実行させるためのプログラム。
JP2004354494A 2004-12-07 2004-12-07 情報処理装置、情報検索方法及びプログラム Active JP4731896B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004354494A JP4731896B2 (ja) 2004-12-07 2004-12-07 情報処理装置、情報検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004354494A JP4731896B2 (ja) 2004-12-07 2004-12-07 情報処理装置、情報検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2006163826A JP2006163826A (ja) 2006-06-22
JP4731896B2 true JP4731896B2 (ja) 2011-07-27

Family

ID=36665778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004354494A Active JP4731896B2 (ja) 2004-12-07 2004-12-07 情報処理装置、情報検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4731896B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5077300B2 (ja) * 2009-06-24 2012-11-21 富士通株式会社 ショッピングサイトの価格調査方法及び情報処理装置
CN102456057B (zh) * 2010-11-01 2016-08-17 阿里巴巴集团控股有限公司 基于网上交易平台的检索方法、装置和服务器
CN104063469A (zh) 2014-06-27 2014-09-24 百度在线网络技术(北京)有限公司 搜索结果的展现方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110404A (ja) * 1997-10-01 1999-04-23 Matsushita Electric Ind Co Ltd データ検索支援装置、データ検索支援方法及びその方法を記録した記録媒体
JP2000172722A (ja) * 1998-12-01 2000-06-23 Korea Electronics Telecommun オンライン商店上の製品情報自動索引方法及びシステム
JP2000348061A (ja) * 1998-06-10 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体
JP2002024265A (ja) * 2000-07-03 2002-01-25 Burittsua:Kk 情報検索装置およびその方法、並びに該方法に係るプログラムを記憶した記憶媒体
JP2002312379A (ja) * 2001-04-09 2002-10-25 Mitsubishi Electric Corp 情報抽出方法および情報抽出装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110404A (ja) * 1997-10-01 1999-04-23 Matsushita Electric Ind Co Ltd データ検索支援装置、データ検索支援方法及びその方法を記録した記録媒体
JP2000348061A (ja) * 1998-06-10 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体
JP2000172722A (ja) * 1998-12-01 2000-06-23 Korea Electronics Telecommun オンライン商店上の製品情報自動索引方法及びシステム
JP2002024265A (ja) * 2000-07-03 2002-01-25 Burittsua:Kk 情報検索装置およびその方法、並びに該方法に係るプログラムを記憶した記憶媒体
JP2002312379A (ja) * 2001-04-09 2002-10-25 Mitsubishi Electric Corp 情報抽出方法および情報抽出装置

Also Published As

Publication number Publication date
JP2006163826A (ja) 2006-06-22

Similar Documents

Publication Publication Date Title
CN101263493B (zh) 用于提供搜索结果的系统和方法
US7769771B2 (en) Searching a document using relevance feedback
JP5150799B1 (ja) 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
CN107835994A (zh) 通过图像的任务聚焦搜索
JP2009140444A (ja) 商品検索装置および商品検索方法
JP5198838B2 (ja) 情報提供プログラム、情報提供装置、及び情報提供方法
US20150161116A1 (en) Searching based on audio and/or visual features of documents
US20210216772A1 (en) Visual Menu
JP2012234340A (ja) 商品キーワード管理システム
JP2009265754A (ja) 情報提供装置、情報提供方法及び情報提供プログラム
JP2013008208A (ja) 情報提供装置、情報提供方法、情報提供プログラム、情報表示プログラム、及び情報提供プログラムを記憶するコンピュータ読取可能な記録媒体
JP2007233862A (ja) サービス検索システム及びサービス検索方法
JP2011253240A (ja) 情報表示プログラム、情報表示プログラムを記録したコンピュータ読み取り可能な記録媒体、情報表示方法、情報表示装置及び情報提供システム
JP2007034772A (ja) Webサイト検索結果の最適表示システム及びその装置及びその方法及びそのプログラム
US7246308B1 (en) Automatically identifying links displayed by a browser that is being used by a user that point to pages of web sites selected as being of interest to the user
JP5788240B2 (ja) 情報提供装置、情報提供方法、情報提供プログラム、情報表示プログラム、及び情報提供プログラムを記憶するコンピュータ読取可能な記録媒体
JP4731896B2 (ja) 情報処理装置、情報検索方法及びプログラム
JP2006209257A (ja) 情報処理装置、情報処理方法及びプログラム
JP2010108019A (ja) タイトル生成装置、それを用いたインターネットオークションシステム、タイトル生成方法及びプログラム
JP3154992B2 (ja) 情報検索装置、及び情報検索プログラムが記憶された記憶媒体
JP2004287532A (ja) 統合型メタ検索装置および方法
JP2002132825A (ja) 画像検索システム、画像検索方法、画像検索プログラム、画像検索プログラムを記録したコンピュータ読み取り可能な記憶媒体、および画像検索装置
JP2020144612A (ja) ラベリング支援方法、ラベリング支援装置及びプログラム
TWI512512B (zh) A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium
JP7212723B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100812

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110225

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110420

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4731896

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250