JP2001325275A - インターネット上で運用されている複数の検索エンジンを使ってwebページの検索レポートを作成する方法と装置 - Google Patents

インターネット上で運用されている複数の検索エンジンを使ってwebページの検索レポートを作成する方法と装置

Info

Publication number
JP2001325275A
JP2001325275A JP2000145098A JP2000145098A JP2001325275A JP 2001325275 A JP2001325275 A JP 2001325275A JP 2000145098 A JP2000145098 A JP 2000145098A JP 2000145098 A JP2000145098 A JP 2000145098A JP 2001325275 A JP2001325275 A JP 2001325275A
Authority
JP
Japan
Prior art keywords
search
engine
report
urls
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000145098A
Other languages
English (en)
Other versions
JP4027568B2 (ja
Inventor
Akira Kikukawa
暁 菊川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GALA Inc
Original Assignee
GALA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GALA Inc filed Critical GALA Inc
Priority to JP2000145098A priority Critical patent/JP4027568B2/ja
Publication of JP2001325275A publication Critical patent/JP2001325275A/ja
Application granted granted Critical
Publication of JP4027568B2 publication Critical patent/JP4027568B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 経時的、内容的に重複を除き、最新明確な報
告を多数の利用者に迅速に提供出来るWEBページの検
索レポートを作成する方法と装置を提供する。 【解決手段】 複数の検索エンジンSにクエリーを発し
キーワードを含む検索条件を共通に与える。クエリーに
対する各検索エンジンSからの検索レポートであるエン
ジン別検索レポートは、クエリーに対しヒットしたWE
BページPのURLと更新日時との集合であるエンジン
別ヒットリストを含む。このリストを対照しURLの重
複を検出排除して更新日時が最新のデータを採択しエン
ジン統合ヒットリストを作る。最新のエンジン統合ヒッ
トリストと前回のエンジン統合ヒットリストとを対照
し、最新リストにのみ含まれるURLと既存でも更新日
時が新しいURLを抽出し報告対象URLとする。この
URLに該当するWEBページPを取得し、キーワード
に基づいて文字情報を摘出してインデックスを作る。1
つのクエリーを起源とする複数の報告対象URLに基づ
いて作られたインデックス集合をエンジン統合検索レポ
ートとして依頼人に送達する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はインターネット上で
運用されている複数の検索エンジンを使ってWEBペー
ジの検索レポートを作成する方法と装置に関する。
【0002】
【従来の技術】従来企業における業務の効率化、人員の
削減、或いは多業種間での商品共同購入による事業コス
トの削減などをにらんだEコマース(電子商取引)サイ
トや、企業コンセプトなどを発信する企業ホームページ
があらゆる業種において勃興しつつあり、また躍進著し
いIT(情報関連)企業の提供する各種コミュニティサ
イトや掲示板システムなどもインターネット上において
その数を急速に伸ばしている。また、こういった大規模
な企業のみならず個人においても趣味のホームページや
ごく小規模な個人電子商店等を立ち上げることが盛んに
なっており、インターネットにおけるWEBページの総
数は膨大な数にのぼっている。
【0003】そして、このように膨大なWEBページの
中から所望の情報のみを検索抽出し、希望者に配送する
情報クリッピングサービスなるものの需要が特に企業に
おいて根強い。自社や自社商品等に関係したキーワード
に対し検索を行うクリッピングサービスにより、世間一
般に流布されている自らのイメージを知り、以後の経営
に生かす意向が強いためである。この情報クリッピング
サービスは、当該サービスを提供する企業独自の情報検
索システムの他、インターネット上のポータルサイト等
に備えられた検索エンジンを用いて、所定のキーワード
に対する全文検索を行い、その検索結果である文書情報
を一定日時毎にメール配信するのが一般的である。
【0004】
【発明が解決しようとする課題】しかしながら、例えば
インターネット上の単独の検索エンジンを使ってクリッ
ピング作業を行うとした場合、検索エンジン毎に登録整
理されているWEBページのジャンルや数が異なり、単
独の検索エンジンのみから得られる検索結果は限定的な
ものとなるから低い有用性しか発揮しえない。したがっ
て、インターネットという、国籍、年齢、性別、趣味等
を越えて極めて広範に亘った情報ソースの中から求めて
いる情報を確実に獲得するという意義自体が薄れ、クリ
ッピングサービスの信頼性、実用性の低下が否めない。
【0005】一方、単独の検索エンジンに依存した場合
の上記欠点を補う意味でメタ検索エンジンを用いること
が考えられる。このメタ検索エンジンは所定のクエリー
を同時に複数の検索エンジンに向けて発することで、今
まで各検索エンジンにて逐一検索作業を行って別個の画
面上で各検索結果を得ていたのが、複数の検索エンジン
の検索結果について一括表示出来るようにしたものであ
る。
【0006】しかし、このメタ検索エンジンは、単に各
検索エンジンにおいて得られる検索結果を羅列するに過
ぎず、検索エンジン相互に発生している検索結果の重複
を排除する機能もなく、また、更新以前の古い情報を除
き常に最新の情報のみを抽出して表示するといった機能
も備えていなかった。しかも、検索にヒットしたWEB
ページのURLに付す説明としては、各検索エンジンが
一般に提供する説明文や各WEBページ先頭のHTML
を単純に抜粋して転載したものであり、検索キーワード
に本当に対応した検索結果であるのか、一見して判断す
ることは困難であった。
【0007】してみれば、上記のような検索手法から得
られた情報をもとに構成されたクリッピングサービス
は、結局のところこのサービスを利用している各自で、
配信された情報についてわざわざWEBページにアクセ
スしたりして確度と最新性とを高める必要がある情報し
か提供できないのであった。他方、重複情報を除いて提
供する情報精度を高めようとすれば、検索結果の妥当性
や最新性の確認はほとんどすべて人間によらなければな
らない。つまり多数の利用者毎の異なる検索対象につい
て得られた多様な検索結果全てに目を通し、重複部分に
ついては取り除き、最新の情報だけを取り出す手作業
を、例えば一日で処理して毎日配信する作業が必要とさ
れる。このため、配置されるべき人員や機材を想定すれ
ば事業ベースに乗せることなど到底かなわないと言え
る。
【0008】本発明はこのような従来の課題に着目して
なされたもので、経時的にも内容的にも重複情報を確実
に排除し、常に最新で明確な検索結果を多数の利用者に
迅速に提供可能であるインターネット上で運用されてい
る複数の検索エンジンを使ってWEBページの検索レポ
ートを作成する方法と装置を提供するものである。
【0009】
【課題を解決するための手段】この発明は上記目的を達
成するためになされたもので、第1の発明は、次の特定
事項(1)〜(6)を充足する発明。
【0010】(1)インターネットに接続されたサーバ
コンピュータにより実行される情報処理方法であって、
インターネット上で運用されている複数の検索エンジン
を使ってWEBページの検索レポートを作成する方法で
ある。
【0011】(2)依頼人から指定されたキーワードを
含む検索条件を保存しておく。インターネット上で運用
されている複数の検索エンジンに対してクエリーを発行
して保存された前記検索条件を共通に与えることを定期
的に繰り返す。
【0012】(3)前記クエリーに対して各検索エンジ
ンからそれぞれ送られてくる検索レポート(エンジン別
検索レポートとする)を受領する。各エンジン別検索レ
ポートには前記クエリーに対してヒットしたWEBペー
ジのURLと更新日時とが含まれている(このURLと
更新日時のデータ集合のことをエンジン別ヒットリスト
とする)。
【0013】(4)各エンジン別ヒットリストを対照
し、同一URLの重複を検出して更新日時が最新のデー
タを採択することで、同一URLの重複を排除したエン
ジン統合ヒットリストを作成する。
【0014】(5)作成された最新のエンジン統合ヒッ
トリストと前回作成された古いエンジン統合ヒットリス
トとを対照し、最新リストに含まれていて古いリストに
含まれていないURLを抽出するとともに、両リストに
含まれているが最新リストの方が更新日時が新しいUR
Lを抽出し、これらURLを報告対象URLとして集約
する。
【0015】(6)報告対象URLをインターネットに
送出して該当するWEBページを取得し、前記クエリー
中の前記キーワードに基づいて前記WEBページから文
字情報を摘出してインデックスを作成する。1つの前記
クエリーを起源とする複数の報告対象URLに基づいて
作成されたインデックス集合をエンジン統合検索レポー
トとして前記依頼人に送達する。
【0016】また、第2の発明は、インターネット上で
運用されている複数の検索エンジンを使ってWEBペー
ジの検索レポートを作成する第1の発明に記載の情報処
理方法を実行する前記サーバコンピュータとしての情報
処理装置である。
【0017】
【発明の実施の形態】本実施例においては、例えば自ら
の対外イメージや誹謗中傷記事などを客観的に調査した
い企業を依頼人として設定し、この依頼人が自社や自社
製品・サービスの名称、通称、愛称などを検索キーワー
ドとして指定した場合を想定する。WEBページの検索
レポート作成サービス(以後、クリッピングサービスと
称する)を行うクリッピング業者は、前記検索キーワー
ドに基づいてクリッピング作業を行うのである。
【0018】クリッピング対象としての情報ソースは、
一般的ニュースソースたる新聞や雑誌などのオンライン
サービスの他に、各種電子掲示板、メーリングリスト、
企業や個人のホームページなどが考えられる。基本的に
はクリッピング業者がクリッピング作業に使用するコン
ピュータとネットワーク結合され、検索エンジンによる
検索が可能な形式のものであれば、いかなる情報ソース
でもクリッピング対象となりうる。
【0019】====クリッピングサービスを実現する
基本システム==== 図1は本発明のWEBページの検索リポート作成方法を
実現する基本システム図である。クリッピングサービス
の提供を望む依頼人は例えばクリッピング結果(検索レ
ポート)を受け取るための装置としてユーザコンピュー
タ10を備えている。このコンピュータ10は公衆回線
を介してインターネットに接続されているものであり、
電子メールソフトやWEBブラウザがインストールされ
ている。一般にクリッピングサービスは商業ベースで運
営されるものであるから、このユーザコンピュータ10
は依頼人の数だけ広域的に多く並存しており、インター
ネットを介して下記のサーバコンピュータ20と集約的
に結ばれている。
【0020】一方、クリッピング業者は、依頼人から示
された指定キーワードを含むクエリーを複数の検索エン
ジンに発行し、最終的に、前記クエリー中の検索キーワ
ードに基づきヒットした各WEBページのインデックス
を作成し、そのインデックス集合をエンジン統合検索レ
ポートとして依頼人に送達するといったプロセスを実行
するサーバコンピュータ20を備えている。
【0021】このサーバコンピュータ20は、SMTP
(Symple Mail Transfer Protocol)、POP(Post Of
fice Protocol)などの標準的な電子メール転送用のプ
ロトコルに基づき、インターネットを通じて他のコンピ
ュータと電子メールの送受信を行う電子メールサーバと
しての機能や、HTML(Hypertext Markup Languag
e)ファイルをHTTP(Hypertext Transfer Protoco
l)を使ってクライアント(この場合、ユーザコンピュ
ータ10)に配信し、クライアントのWEBブラウザが
表示できるようにするWEBサーバとしての機能を備え
るコンピュータである。このサーバコンピュータ20が
インターネット上の各種検索エンジンを用いた検索作業
等を行うわけであるから、勿論WEBブラウザや電子メ
ールソフトもインストールされ使用可能となっている。
【0022】上記のように、ユーザコンピュータ10と
サーバコンピュータ20とがインターネットを介して結
合されて、クリッピングサービスの依頼や検索キーワー
ドの設定といった依頼人側からのアクションと、それに
対するクリッピング結果の送達(例えば電子メールを利
用)といったクリッピング業者からのリアクションが一
定日時毎に往来することとなる。
【0023】前記サーバコンピュータ20とインターネ
ットを介して結びついて、クリッピング対象としての情
報ソースを提供するのが、新聞や雑誌などのオンライン
サービスを行っているニュースサーバ21や、メッセー
ジ掲載希望者からインターネットを介して投稿されたメ
ッセージを定型の画面データ(通常はHTML形式)に
作成し、その画面データをインターネット上に公開する
電子掲示板サーバー22、電子メールの送受信や管理等
を行うメールサーバ23、および企業や個人のホームペ
ージなどを配信するWEBサーバ24などである。
【0024】上述のユーザコンピュータ10、サーバコ
ンピュータ20、並びにその他のサーバ類21、22、
23、24はいずれもインターネットを介して接続され
ているとしたが、これに限定されず、利用目的や必要機
能に応じてLANやパソコン通信等種々の接続手段を利
用できるものとする。
【0025】また、サーバコンピュータ20は、1つの
サーバコンピュータに全ての機能を集約させて用いても
よいが、複数のサーバコンピュータをネットワーク結合
させ種々の作業を分散処理することとしてもよい。
【0026】====依頼人および検索キーワードの登
録==== 図2は本発明のWEBページの検索レポート作成方法を
表す流れ図である。クリッピングサービスを希望する依
頼人は、インターネットに接続されているユーザコンピ
ュータ10により例えばクリッピングサービスを提供す
るWEBサイトのURLをサーバコンピュータ20に送
信する。ユーザコンピュータ10とサーバコンピュータ
20とが接続されると、登録申請画面(図示しない)が
サーバコンピュータ20より送達される。
【0027】登録申請画面には例えば検索条件として
の、企業名(氏名)、住所、配信希望先メールアドレ
ス、代金決済手段などの依頼人情報と、検索対象を絞り
込むための検索キーワード(複数指定可能)や検索にヒ
ットしたWEBページ上の抜粋範囲を設定するクエリー
情報とを入力するブランクボックスやプルダウンメニュ
ーが設けられている。抜粋範囲とは、クエリー(検索キ
ーワード含む)に対しヒットしたWEBページを記述し
ているHTMLのうち、検索キーワード前後の所定範囲
について文字数として規定する範囲である。例えば“1
00文字”と指定すれば検索キーワード前後100文字
分のHTMLを抜粋しサーバコンピュータ20内に取り
込むのである。
【0028】また、検索キーワードは依頼人の判断で決
定されるべき性質のものであり、例えば自社商品のイメ
ージを探るべく、「・・・株式会社」、「・・・ビー
ル」、「イメージ」、「のどごし」、「きれ」などと設
定すると、会社名とビール名とをAND検索で結びつ
け、それ以下の「イメージ」、「のどごし」、「きれ」
などのキーワードについてOR検索の条件付けを行うな
どして効率的な検索が実行される。 他方、自社に対す
る誹謗中傷記事を探し出して早めの顧客対策を行いたい
といった要望がある場合、自社名や商品名などの他に、
「クレーム」、「告発」、「糾弾」といった検索キーワ
ードを設定する。そのほかにも、自社の開発技術と関連
する学術研究論文や、ニュース、外国機関発表記事など
に対応付けされた検索キーワードを据えて世界の最新技
術動向を知るといった設定も行える。
【0029】依頼人が上述したような所定事項を記入・
選択して登録操作を行うとユーザコンピュータ10は登
録申請画面に記入された依頼人情報やクエリー情報など
の検索条件をサーバコンピュータ20へ返送する。
【0030】サーバコンピュータ20は、ユーザコンピ
ュータ10から送られてきた検索条件に対して例えば
「企業・個人は実在のもので、その決済手段が正当なも
のか」などの検証を行い、検証により正当と認められた
場合はその内容を依頼人情報ファイル30に整理して記
録する。もしくはこのクリッピングサービスを利用する
にあたり予め郵送などにより申し込み書面を依頼人に提
出させ、前記登録申請画面ではその依頼人情報の再度の
確認と、検索キーワードの設定のみを行うとしてもよ
い。
【0031】依頼人情報ファイル30は依頼人の企業名
(氏名)、住所、電子メールアドレス等のID情報と、
検索キーワードや検索にヒットしたWEBページ上の抜
粋範囲を設定するクエリー情報とが依頼人ごと整理され
検索条件として記録されるものであり、ハードディスク
装置などの外部記憶装置上に作成される。なお、この依
頼人情報ファイル30中には、例えば企業名を格納した
企業名テーブル31、検索キーワードを格納した検索キ
ーワードテーブル32が階層的に設けられている。
【0032】このように、依頼人はクリッピング業者が
提供する登録申請画面に検索キーワードなどの必要事項
を記入し登録しておけば、一旦登録したこの検索条件に
基づいて本発明を適用したクリッピングサービスにより
インターネット上の所望の情報を例えば電子メールで定
期的に通知してもらえるのである。
【0033】====WEBページの検索レポートを作
成する手順==== 1.メインプログラム 本発明においてWEBページの検索レポートの作成を実
際に行うメインプログラムとして、Perl(Practica
l Extraction and Report Language)言語でスクリプト
記述をしたCGI(Common Gateway Interface)プログ
ラムを想定する。このメインプログラムは、依頼人毎
(ユーザコンピュータ10毎)に動作するものであり、
前記の依頼人のID情報(名称そのまま、もしくは記号
化されたID名)と電子メールアドレスとを引数とす
る。また、登録申請画面において入力したクエリー(検
索キーワード含む)をサーバコンピュータ20内の検索
キーワードテーブル32などから引き出し、SQL(St
rucured Query Language)言語に変換して所定の検索エ
ンジンSに発行する任を果たす。この際、企業名テーブ
ル31から引き出した依頼人の企業名も検索キーワード
に絡めて対応付けしておく。
【0034】またこれに対し、所定の検索エンジンS
は、各々の検索エンジンが備えるデータベース内のUR
Lレコードに沿って前記検索キーワードに基づいた全文
検索をし、その検索結果であるエンジン別検索レポート
をメインプログラムへとそれぞれ返す。得られたエンジ
ン別検索レポートは、各キーワード、各検索エンジンS
毎に分類されてエンジン別ヒットテーブル40(ハード
ディスクなど外部記憶装置内に設けられる)へと記録さ
れる。以下得られる検索結果は対応したテーブル名を付
けて外部記憶装置に適宜記録するものとする。
【0035】メインプログラムが使用する検索エンジン
Sは複数あり、例えばクエリー発行順序を設定して使用
序列を固定化しておく。なお、エンジン別ヒットテーブ
ル40に記録された検索エンジンS毎のWEBページの
ヒット数が同一であれば、日時が更新されていたとして
も新規のWEBページは無いものと判断して処理の高速
化を図ると好ましい。
【0036】各エンジン別検索レポートには前記クエリ
ーに対してヒットしたWEBページのURLと更新日時
のリストが含まれている。エンジン別検索レポートの前
記リストのことをエンジン別ヒットリストと称する。こ
のエンジン別ヒットリストを検索エンジンSに跨って相
互に対照し、URLが同じであればその重複したWEB
ページを排除し更新日時が最新のデータを採択すること
で、更新日時情報を各々備えたURLリストを作成す
る。このURLリストのことをエンジン統合ヒットリス
トと称し、統合ヒットテーブル50に記録される。各検
索エンジンS毎に同じWEBページがそれぞれ登録され
ている場合はかなり多く、このURLに基づいた重複排
除を行わなければ迅速な検索は難しくなる。
【0037】前記エンジン統合ヒットリストは、一旦登
録しておいたクエリーを検索エンジンSに定期的に繰り
返し発行することで、一定日時毎に繰り返し作成され
る。検索エンジンSの登録更新ペースに合わせて、例え
ば毎日、あるいは1週間毎に行われると効率的である。
最新のエンジン統合ヒットリストの作成にあたっては、
その直前に作成された古いものと当該リスト中のURL
および更新日時について対照しその重複を排除する。
【0038】例えば、最新リストには含まれているが古
いリストには含まれていないURLは、対応する検索エ
ンジンに新規登録されたものであるとしてこれを抽出
し、新旧両リストに含まれているURLではあるが最新
リストでは更新日時が新しくなっている場合、WEBペ
ージ内容が更新されているとしてこれも抽出する。この
ように得られた最新で重複のないURLを集約し報告対
象URLとする。この報告対象URLは統合ヒットテー
ブル50内に収められる。
【0039】従って、一番最初に作成したエンジン統合
ヒットリストと比較して、繰り返し作成されればされる
ほどその重複部分は排除され、当該リストのサイズは絞
られるのが普通である。このようにして統合ヒットテー
ブル50には常に最新のエンジン統合ヒットリストおよ
び報告対象URLのみが残されることとなる。
【0040】2.ロボットプログラム このプログラムは上記のエンジン統合ヒットリストにお
いて特定された報告対象URLをインターネットに向け
て送ることで、検索キーワードを含んだWEBページP
にアクセスする。このWEBページPは、例えば、「・
・・社の製品評価」、「・・・会社の告発」、「・・・
技術報告」と、いわゆる告発サイトから純粋な研究機関
による技術報までそのジャンルは様々であり、サイト運
営者も個人、企業、研究機関などの境界は特にない。予
めジャンル分けが必要とあらば、クエリー情報の登録段
階において設定しておくか、ロボットプログラムによる
アクセス時に制限をかけることなどで対処可能である。
【0041】そして、このWEBページPを記述するH
TMLを読み込み、検索キーワードを中心とした所定文
字数分抜粋する。WEBページPにはリンク先が設けら
れているのが普通であるから、リンク先にもHTMLを
読み込みに行き、検索キーワードを含む前後文を抜粋す
る。HTMLの抜粋が完了すればテキスト変換しサーバ
コンピュータ20の抜粋文テーブル60に向けてその抜
粋文を送出する。ただし、ロボットプログラム自体に検
索キーワードを中心とした所定文字数の抜粋機能を持た
せずに、ロボットプログラムは単にWEBページPの全
HTMLを読みとって、メインプログラムがその所定文
字数分の抜粋作業を行ってもよい。
【0042】3.WEBページの検索レポート送達 図3は本発明におけるWEBページの検索レポート70
(エンジン統合検索レポート)の一例を示す説明図であ
る。メインプログラムは、上述のように得られて統合ヒ
ットテーブル50や抜粋文テーブル60において記録さ
れたURLや更新日時、また検索キーワード前後の抜粋
文といったクリッピング結果を、前記クエリー中の検索
キーワード毎、或いは更新日時毎などのWEBページイ
ンデックス(図示しない)として整理してまとめる。そ
のインデックス集合をエンジン統合検索レポート70と
して依頼人に送達するのである。
【0043】作成したエンジン統合検索レポート70
(WEBページの検索レポート)は、様々な手段で依頼
人に送達されることが考えられるが、通常は電子メール
を利用する。メインプログラムが作成したエンジン統合
検索レポート70は電子メールに転載され、インターネ
ットを介して依頼人のユーザコンピュータ10へと送達
される。
【0044】====その他の実施形態==== (1)上記実施例においてはエンジン統合検索レポート
の送達を、電子メールを利用して行った例を示したが、
他にWEB画面上で表示する方法や、ファックスなどを
利用することも可能である。依頼人の希望やインフラ状
況に合わせていかようにも設定可能である。
【0045】(2)ユーザコンピュータは、クリッピン
グサービスが送達するエンジン統合検索レポートの形式
に応じて適宜変更可能なものであり、例えば、インター
ネット接続または電子メール受信可能な携帯電話や、P
DA(Personal Digital Assistant)、WEB閲覧機能付
きTV及びゲーム機、更にはファックス機といった様々
な情報端末装置を適用できる。
【0046】
【発明の効果】本発明によれば、従来手法が抱えてい
た、単独の検索エンジンからは限定的な検索結果しか得
られず、インターネットという極めて広範に亘った情報
ソース中から求める情報を確実に獲得するという意義自
体が薄れ、クリッピングサービスの信頼性、実用性が低
下するといった問題や、メタ検索エンジンを用いた際
の、検索エンジン相互に発生している検索結果の重複や
古い情報を排除できないなどの問題が解消される。
【0047】つまり、複数の検索エンジンを組み合わせ
て利用するこでインターネット上の広範な情報ソースを
検索対象とすることができ、さらにそこで得られた多様
な検索結果における重複情報を排除し更新日時やURL
の新規性が吟味されたエンジン統合ヒットリストを定期
的に得ることが出来る。そして依頼人に対して、検索キ
ーワードを含んだ抜粋文を掲載することで当該キーワー
ドに対応したことが一見して明白であり、かつ重複のな
い最新の検索結果をエンジン統合検索レポートとして送
達することが出来るのである。
【0048】したがって、依頼人各自で、配信された情
報についてわざわざ各WEBページにアクセスしたりし
て確度と最新性とを高める必要など無くなる。その上、
クリッピングサービスを行う側としてもサービス提供用
のサーバーなどを適宜数投入するだけで検索からレポー
ト送達に至るまでのほぼ全ての業務を自動的に実施可能
で、提供情報の精度を高めるための過大な人員や機材の
配置なども必要ないのである。このため、サービス提供
側はいかに利用者が増加しようと、その要求が複雑多岐
に亘ろうとも、小規模な投資のみでコスト的にも効率的
にも優れた運営を実現することができる。
【0049】しかして、経時的にも内容的にも重複情報
を確実に排除し、常に最新で明確な検索結果を多数の利
用者に迅速に提供可能となるのである。
【図面の簡単な説明】
【図1】本発明のWEBページの検索リポート作成方法
を実現する基本システム図である。
【図2】本発明のWEBページの検索リポート作成方法
を表す流れ図である。
【図3】本発明におけるWEBページの検索レポート
(エンジン統合検索レポート)の一例を示す説明図であ
る。 S 検索エンジン P WEBページ 10 ユーザコンピュータ 20 サーバコンピュータ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 次の特定事項(1)〜(6)を充足する
    発明。 (1)インターネットに接続されたサーバコンピュータ
    により実行される情報処理方法であって、インターネッ
    ト上で運用されている複数の検索エンジンを使ってWE
    Bページの検索レポートを作成する方法である。 (2)依頼人から指定されたキーワードを含む検索条件
    を保存しておく。インターネット上で運用されている複
    数の検索エンジンに対してクエリーを発行して保存され
    た前記検索条件を共通に与えることを定期的に繰り返
    す。 (3)前記クエリーに対して各検索エンジンからそれぞ
    れ送られてくる検索レポート(エンジン別検索レポート
    とする)を受領する。各エンジン別検索レポートには前
    記クエリーに対してヒットしたWEBページのURLと
    更新日時とが含まれている(このURLと更新日時のデ
    ータ集合のことをエンジン別ヒットリストとする)。 (4)各エンジン別ヒットリストを対照し、同一URL
    の重複を検出して更新日時が最新のデータを採択するこ
    とで、同一URLの重複を排除したエンジン統合ヒット
    リストを作成する。 (5)作成された最新のエンジン統合ヒットリストと前
    回作成された古いエンジン統合ヒットリストとを対照
    し、最新リストに含まれていて古いリストに含まれてい
    ないURLを抽出するとともに、両リストに含まれてい
    るが最新リストの方が更新日時が新しいURLを抽出
    し、これらURLを報告対象URLとして集約する。 (6)報告対象URLをインターネットに送出して該当
    するWEBページを取得し、前記クエリー中の前記キー
    ワードに基づいて前記WEBページから文字情報を摘出
    してインデックスを作成する。1つの前記クエリーを起
    源とする複数の報告対象URLに基づいて作成されたイ
    ンデックス集合をエンジン統合検索レポートとして前記
    依頼人に送達する。
  2. 【請求項2】 インターネット上で運用されている複数
    の検索エンジンを使ってWEBページの検索レポートを
    作成する請求項1に記載の情報処理方法を実行する前記
    サーバコンピュータとしての情報処理装置。
JP2000145098A 2000-05-17 2000-05-17 インターネット上の複数の検索エンジンを使ってクリッピングサービスを行う情報処理装置 Expired - Fee Related JP4027568B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000145098A JP4027568B2 (ja) 2000-05-17 2000-05-17 インターネット上の複数の検索エンジンを使ってクリッピングサービスを行う情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000145098A JP4027568B2 (ja) 2000-05-17 2000-05-17 インターネット上の複数の検索エンジンを使ってクリッピングサービスを行う情報処理装置

Publications (2)

Publication Number Publication Date
JP2001325275A true JP2001325275A (ja) 2001-11-22
JP4027568B2 JP4027568B2 (ja) 2007-12-26

Family

ID=18651656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000145098A Expired - Fee Related JP4027568B2 (ja) 2000-05-17 2000-05-17 インターネット上の複数の検索エンジンを使ってクリッピングサービスを行う情報処理装置

Country Status (1)

Country Link
JP (1) JP4027568B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301975A (ja) * 2005-04-20 2006-11-02 Canon Inc 情報処理装置及び情報処理方法並びにプログラム
JP2007300652A (ja) * 2007-05-28 2007-11-15 Sony Corp 動画像コンテンツ蓄積装置と情報機器からなるシステム、ならびに、放送受信機と動画像コンテンツ蓄積装置と情報機器からなるシステム
JP2008529179A (ja) * 2005-02-06 2008-07-31 リンギット ゲーエムベーハー 自然言語によってモバイル情報にアクセスするための方法及び装置
JP2009294836A (ja) * 2008-06-04 2009-12-17 Yahoo Japan Corp Web検索において選択的に擬似フィードバック処理を適用する検索処理装置、方法及びプログラム
US7778495B2 (en) 2004-11-05 2010-08-17 Brother Kogyo Kabushiki Kaisha System and device for image processing
CN102663058A (zh) * 2012-03-30 2012-09-12 华中科技大学 一种分布式网络爬虫系统中的url去重方法
US8799975B2 (en) 2001-12-06 2014-08-05 Sony Corporation System and method for providing content associated with a television broadcast
JP2016115048A (ja) * 2014-12-12 2016-06-23 キヤノンマーケティングジャパン株式会社 電子メールサーバ、電子メールサーバの制御方法及びプログラム
JP6083546B1 (ja) * 2015-11-26 2017-02-22 株式会社パブセン 情報管理装置、情報管理方法及びプログラム
CN112561744A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 一种类似案件的检索报告的生成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125020A (ja) * 1997-07-08 1999-01-29 Gaala:Kk Www掲載番組の内容に変更があったことを依頼者に通知する調査代行サービス装置
JPH11191114A (ja) * 1997-10-10 1999-07-13 Nec Corp メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125020A (ja) * 1997-07-08 1999-01-29 Gaala:Kk Www掲載番組の内容に変更があったことを依頼者に通知する調査代行サービス装置
JPH11191114A (ja) * 1997-10-10 1999-07-13 Nec Corp メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799975B2 (en) 2001-12-06 2014-08-05 Sony Corporation System and method for providing content associated with a television broadcast
US7778495B2 (en) 2004-11-05 2010-08-17 Brother Kogyo Kabushiki Kaisha System and device for image processing
JP2008529179A (ja) * 2005-02-06 2008-07-31 リンギット ゲーエムベーハー 自然言語によってモバイル情報にアクセスするための方法及び装置
JP2006301975A (ja) * 2005-04-20 2006-11-02 Canon Inc 情報処理装置及び情報処理方法並びにプログラム
JP2007300652A (ja) * 2007-05-28 2007-11-15 Sony Corp 動画像コンテンツ蓄積装置と情報機器からなるシステム、ならびに、放送受信機と動画像コンテンツ蓄積装置と情報機器からなるシステム
JP4561775B2 (ja) * 2007-05-28 2010-10-13 ソニー株式会社 動画像コンテンツ蓄積装置と情報機器からなるシステム、ならびに、放送受信機と動画像コンテンツ蓄積装置と情報機器からなるシステム
JP2009294836A (ja) * 2008-06-04 2009-12-17 Yahoo Japan Corp Web検索において選択的に擬似フィードバック処理を適用する検索処理装置、方法及びプログラム
CN102663058A (zh) * 2012-03-30 2012-09-12 华中科技大学 一种分布式网络爬虫系统中的url去重方法
JP2016115048A (ja) * 2014-12-12 2016-06-23 キヤノンマーケティングジャパン株式会社 電子メールサーバ、電子メールサーバの制御方法及びプログラム
JP6083546B1 (ja) * 2015-11-26 2017-02-22 株式会社パブセン 情報管理装置、情報管理方法及びプログラム
US10255348B2 (en) 2015-11-26 2019-04-09 Pubcen Inc. Information managing device, information managing method, and non-transitory recording medium
CN112561744A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 一种类似案件的检索报告的生成方法及装置

Also Published As

Publication number Publication date
JP4027568B2 (ja) 2007-12-26

Similar Documents

Publication Publication Date Title
US7054886B2 (en) Method for maintaining people and organization information
US6366956B1 (en) Relevance access of Internet information services
US6247021B1 (en) Searchable bookmark sets as an internet advertising medium
US7949660B2 (en) Method and apparatus for searching and resource discovery in a distributed enterprise system
JP3307625B2 (ja) 電子掲示板システムおよびメールサーバー
AU2007243784B2 (en) Propagating useful information among related web pages, such as web pages of a website
US6605120B1 (en) Filter definition for distribution mechanism for filtering, formatting and reuse of web based content
US8438469B1 (en) Embedded review and rating information
US20050222903A1 (en) Rendering content-targeted ads with e-mail
US7707142B1 (en) Methods and systems for performing an offline search
US20080215589A1 (en) System, Method, and Computer-Readable Medium for Collection and Distribution of User-Supplied Comments Associated with Network and Local Content
US9002725B1 (en) System and method for targeting information based on message content
US20020174363A1 (en) Method and apparatus for providing an anonymous identity for a user
JPH1078928A (ja) インターネットへのアクセス方法およびシステム、ならびにインターネットへのアクセス処理を記憶した記憶媒体
KR20080077458A (ko) 제품 정보를 등록 및 검색하기 위한 방법 및 시스템
KR20070007131A (ko) 컴퓨터 네트워크에서 검색 요청에 응답하기 위한 시스템 및방법
JP2010257453A (ja) サーチクエリデータを用いて文書にタグ付けするシステム
US20020099533A1 (en) Data processing system for searching and communication
JP2006099341A (ja) 更新履歴生成装置及びプログラム
JP2001325275A (ja) インターネット上で運用されている複数の検索エンジンを使ってwebページの検索レポートを作成する方法と装置
US20010047374A1 (en) Method ans system for information retrieval from query evaluations of very large full-text databases
JP2007183954A (ja) ログコンテントに基づく洗練方法
US20030149739A1 (en) Method for retrieving, organizing and utilizing on-line poster abstracts
WO2000008570A1 (en) Information access
JP2002207655A (ja) 情報統合方法、プログラム及びシステム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040823

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041026

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071010

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 6

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 6

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees