JP2004062479A - 情報収集装置、方法及びプログラム - Google Patents
情報収集装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2004062479A JP2004062479A JP2002219103A JP2002219103A JP2004062479A JP 2004062479 A JP2004062479 A JP 2004062479A JP 2002219103 A JP2002219103 A JP 2002219103A JP 2002219103 A JP2002219103 A JP 2002219103A JP 2004062479 A JP2004062479 A JP 2004062479A
- Authority
- JP
- Japan
- Prior art keywords
- information
- event
- document
- keyword
- destination site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 99
- 239000000284 extract Substances 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 42
- 230000008859 change Effects 0.000 description 50
- 238000012545 processing Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 23
- 241000700605 Viruses Species 0.000 description 14
- 238000012217 deletion Methods 0.000 description 13
- 230000037430 deletion Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002155 anti-virotic effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【課題】ユーザがキーワードなどを設定することなく、未知の情報であっても、ユーザの代わりに複数の情報提供先から情報を収集可能とする。
【解決手段】イベント収集先サイト登録部18がネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録し、情報収集先サイト登録部20がテキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する。イベント検出部22は、登録されたイベント収集先サイトから情報を取得し、取得情報の更新領域を判別してイベント発生を検出する。キーワード抽出部24は、イベント検出部22で検出された情報の更新領域からキーワードを抽出する。情報検索部26は、キーワード抽出部24で抽出されたキーワードを用いて登録された情報収集先サイト内のドキュメントを検索し、情報通知部28により検索結果をユーザに通知する。
【選択図】 図1
【解決手段】イベント収集先サイト登録部18がネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録し、情報収集先サイト登録部20がテキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する。イベント検出部22は、登録されたイベント収集先サイトから情報を取得し、取得情報の更新領域を判別してイベント発生を検出する。キーワード抽出部24は、イベント検出部22で検出された情報の更新領域からキーワードを抽出する。情報検索部26は、キーワード抽出部24で抽出されたキーワードを用いて登録された情報収集先サイト内のドキュメントを検索し、情報通知部28により検索結果をユーザに通知する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、インターネット上のサイト情報を自動収集してユーザに通知する情報収集装置、方法及びプログラムに関し、特に、登録したサイトの情報更新を自動的に検出して更新内容に対応したサイト情報を自動収集してユーザに通知する情報収集装置、方法及びプログラムに関する。
【0002】
【従来の技術】
インターネット上には、企業や政府、自治体、個人などさまざまな情報データベース(サイト)が接続されており、インターネットのユーザはこれらの情報データベースから必要な情報、有益な情報を取得することができる。
【0003】
ネットワーク、例えばインターネット上には、テキスト、音声、画像など、各種のデータとそれらを組み合わせた情報(以下「ドキュメント」という)が登録されている。ドキュメントの種類は、広告、案内、マニュアル、ツールなど、非常に多岐に渡っており、特定のユーザにとって必要のないものもあれば、非常に有益なものもある。
【0004】
これらドキュメントの中でも、新しいドキュメントは特に利用価値が高い。例えば、新しいコンピュータウィルスの発生の通知や、それに対する防御方法、駆除方法などの情報は、インターネットに接続しているユーザにとって貴重な情報である。
【0005】
ネットワークの特徴のひとつは即時性である。ネットワーク上の情報は、タイムラグ無しに取得することができる。コンピュータウィルスに限らず、インターネット上あるいは実社会上で発生した事象(以下「イベント」という)の有無をインターネット上のドキュメントから取得することで、ユーザにとって有益な情報をすばやく取得することができる。
【0006】
ネットワーク上のドキュメントを取得する既存システムとしては、例えば検索エンジンがある。検索エンジンは、インターネット上のドキュメントとそのキーワードを共にサーバに登録し、ユーザが入力したキーワードで、情報を検索するシステムであり、エージェント、自動収集ロボットなどと呼ばれているが、インターネット上のサーバに格納されているドキュメントを走査し、表示用ドキュメントと検索用のキーワードデータベースとを生成する。
【0007】
それ以外のネットワーク上のドキュメントを取得する既存システムとしては、情報更新通知システムがある。この情報更新通知システムは、ユーザが指定した特定のページを定期的に監視し、変更があった場合その旨ユーザに通知するシステムである。これには、以下の方法が提案されている。
(1)特許第3036445号「ホームページの更新情報監視システム」
(2)第3062104号「WWW更新通知システム」
(3)特開平10−198614 号「ハイパーテキスト文書更新検知方法およびクライアント
(4)特開平11−15716号「文書更新通知装置および文書更新通知方法」
(5)特開平11−25020号「WWW掲載番組の内容に変更があったことを依頼者に通知する調査代行サービス装置」
(6)特開平11−259354 号「インターネット上の情報更新確認方法」
(7)特開2000−35913 号「ハイパーテキスト文書更新検知方法およびクライアント」
(8)特開2000−276394号「ウェブページ情報中継システムおよびウェブページ情報中継方法」
(9)特開2000−357122 号「ウェブページ更新通知方法、記録媒体およびウェブページ更新通知システム」
(10)特開2001−256100 号「ワールドワイドウェブブラウザ装置およびワールドワイドウェブの更新通知方法」
(11)特開2002−73455号「Webページ更新通知方法、クライアントサービスサーバおよびプログラム格納媒体」
これらはいずれも、インターネット上のWWWサイトが更新されたときに、更新されたことをユーザに通知する技術であり、ユーザはキーワードを設定することなく、情報の更新を知ることができる。
【0008】
【発明が解決しようとする課題】
しかしながら、このような従来のネットワーク上のドキュメントを取得するシステムや方法には、それぞれ課題がある。以下、これら従来技術の問題点に説明する。
【0009】
(検索エンジン)
検索エンジンは、予めインターネット上のサイトから情報を取得し、検索用のキーワードを用いてユーザが必要としている情報を抽出する。検索エンジンの第1の問題点は、ユーザがキーワードを設定しなければならないことである。
【0010】
インターネット上の膨大なドキュメントを対象とする検索エンジンでは、特定の情報を取得するためには、正確なキーワードを入力する必要がある。しかし、一般のユーザにとって「自分が欲しい情報」に関連する「キーワード」を適切に設定するのは困難である。
【0011】
例えば、子供の教育に興味のあるユーザが検索エンジンで「子育て」をキーワードに検索した場合、10万件以上のサイトがヒットする。これら検索結果全てにアクセスするのは不可能であるため、通常は他のキーワードを用いて絞込検索をしなければならない。
【0012】
しかし、絞り込み用にキーワードの設定を誤ると、数千件〜数万件の検索結果が残り絞り込みできていないことや、逆に絞り込みすぎて目的の情報が検索できなくなるなどの問題が生じる。このように、目的の情報を得るためのキーワードの設定は難しく、一般ユーザには容易に設定できない。
【0013】
検索エンジンの第2の問題点は、ユーザが欲している情報に関する情報を予めユーザが知っておかなければならないという点である。例えば、あるメーカA社が「XXX」という新製品を発売したとする。ユーザがこのA社の「XXX」に関する情報が欲しいと思った場合、ユーザが「A社がXXXを発売した」ということを知っていれば、「XXX」をキーワードに検索エンジンで検索することができる。
【0014】
しかし、ユーザが製品名を知らずに「A社が新製品を発表した」ということしか知らなければ、「XXX」をキーワードにすることはできない。「A社の新製品」で検索すると、「XXX」ではなく、それよりも古い製品のニュースリリース(ニュースリリース発表時は「新製品」)などがヒットする可能性がある。
【0015】
さらに、A社が新製品を出したことすら知らなければ、ユーザはA社の新製品に興味があるにもかかわらず、その情報を取得できない。そのためユーザは定期的にA社のホームページにアクセスして新製品が発表されたかどうかを確認し続ける必要がある。このように、目的の情報を得るためには予め目的の情報に関する事柄をユーザが知っておく必要があり、ユーザが知らない事柄に関する情報を取得することはできない。
【0016】
(WWWページの更新検知)
WWWの更新通知技術は、ユーザが定期的にアクセスする代わりにシステムが情報更新の有無を確認する。以下、既存のWWWページ更新方法の問題点を説明する。
【0017】
(1)特許第3036445号「ホームページの更新情報監視システム」
このシステムは、WWWのページのチェックサム、ファイルサイズ、ヘッダ情報などをもとに、ドキュメントの更新があったかどうかを判断している。このシステムで分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0018】
(2)特許第3062104号「WWW更新通知システム」
このシステムでは、WWWサーバのファイルの更新を検出する検出サーバが、ファイルの変更があった際に該ファイルに対応付けられたユーザに対して変更を通知する。このシステムでも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0019】
(3)特開平10−198614号「ハイパーテキスト文書更新検知方法およびクライアント」
この方法では、WWWサーバのファイルの更新をクライアント側がCRCを用いて検出する。この方法でも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0020】
(4)特開平11−15716号「文書更新通知装置および文書更新通知方法」
この装置及び方法では、文書の仲介を行う仲介装置が文書の更新の有無を検出し、検出があった場合、その旨ユーザに通知する。この場合、文書を要求したユーザに対しては、どこが変更されたか強調表示することで変更箇所を分かりやすく表示している。この装置及び方法は、文書の取得要求があったときに更新の有無を判断するため、取得要求の頻度の少ないドキュメントに対しては取得要求が発生するまで文書が更新したかどうかが分からない。また、ユーザに通知する内容も、前記(1)〜(3)と同様、更新したことだけであり、どんな更新が行われたかはユーザが文書要求して確認するしかない。
【0021】
(5)特開平11−25020号「WWW掲載番組の内容に変更があったことを依頼者に通知する調査代行サービス装置」
この装置では、WWW番組の内容に変更があったかどうかをユーザに代わって調査する調査代行サーバが、ユーザから要求のあった番組を監視し、変更があった場合そのことを依頼元のユーザに通知するシステムである。この装置でも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0022】
(6)特開平11−259354号「インターネット上の情報更新確認方法」
この方法では、Webサーバ内に文書の更新を監視するてWebページ確認サーバを有し、Web確認サーバがサーブレットに登録された情報に基づいてWebページの変更を確認する。この方法でも、前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0023】
(7)特開2000−35913号「ハイパーテキスト文書更新検知方法およびクライアント」
この方法では、前記(1)のシステムと同様、ドキュメントのチェックサムを比較してドキュメントの更新の有無を確認する。この方法でも、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0024】
(8)特開2000−276394号「ウェブページ情報中継システムおよびウェブページ情報中継方法」
この方法では、ウェブページを中継する中継システムが、ネットワークに対してポーリングを行い情報の更新の有無を確認する。変更があった場合、その変更内容をユーザに通知する。この方法は、前記(1)〜(7)とは異なり、変更があったことだけでなく変更内容そのものを送信するため、ユーザがアクセスすることなく変更内容を中継システムからの通知により確認することができる。
【0025】
この方法では、変更内容のみ確認できるが、それ以外の情報、例えば他サーバに格納されている変更内容に関連する情報に関しては、ユーザが他サーバをアクセスする必要がある。
【0026】
また、インターネット上のドキュメントの場合、変更が頻繁に行われる。例えばニュースサイトなどでは、1日〜2日程度で変更あるいは削除される場合がある。ユーザが変更通知を受け取っても、実際にアクセスするまでに間がある場合は、すでにドキュメント自体がなくなっている場合がある。
【0027】
(9)特開2000−357122号「ウェブページ更新通知方法、記録媒体およびウェブページ更新通知システム」
この方法では、WWWの情報更新を検知するサーバがクライアントに情報更新を伝える際に、電話番号通知機能を使って特定のサーバからの連絡であることを認証している。この方法は、意図していないサーバからの連絡を防ぐことができるため、セキュリティの高いシステムである。
【0028】
しかし、更新の内容については、前記(1)のシステムと同様、ユーザがアクセスしなければどんな更新がなされたか知ることはできない。
【0029】
(10)特開2001−256100号「ワールドワイドウェブブラウザ装置およびワールドワイドウェブの更新通知方法」
この方法では、WWWの情報が更新された際に、WWWブラウザにその旨を示す画像を表示することで、ユーザに情報更新を通知する。この方法でも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0030】
(11)特開2002−73455号「Webページ更新通知方法、クライアントサービスサーバおよびプログラム格納媒体」
この方法は、予めユーザから更新通知の要求のあったWebページの情報とユーザの電子メールアドレスとを保存し、更新を検知したときは該電子メールアドレスにその旨通知するシステムである。この方法でも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0031】
以上のように、従来の方法は、いずれも予め定めたページが更新された際に、そのことをユーザに通知する技術である。即ち(1)〜(7)及び(9)〜(11)の従来技術は、更新があったことだけをユーザに通知するだけで、どのような更新が行われたかはユーザが直接アクセスして確認するしかない。
【0032】
また、(8)の従来技術では、変更内容をユーザに通知するため、ユーザは元情報にアクセスすることなく更新の内容を知ることができる。しかし、この技術でも、知ることができるのは更新があったドキュメント(WWWページ)に関してのみである。
【0033】
例えば、新製品情報が企業のホームページに登録されたとき、「新製品情報」のページなどを監視することで新製品が登録されたことを知ることはできるが、その新製品の詳細な概要は別の場所に登録されていることが多い。また、その製品の評判が知りたいときは、他のサーバ、例えば技術系ニュースサイトや掲示板サイトなどにアクセスしなければならない。
【0034】
このように従来技術にあっては、更新された情報のより詳細な情報を得るためには、「更新された」という通知を元に、ユーザが自身で情報を収集しなければならない。
【0035】
本発明は、ユーザがキーワードなどを設定することなく、未知の情報であっても、ユーザの代わりに複数の情報提供先から情報を収集可能とする情報収集装置、方法及びプログラムを提供することを目的とする。
【0036】
【課題を解決するための手段】
図1は本発明の原理説明図である。本発明は、情報収集装置であって、図1(A)のように、ネットワークに接続するネットワーク接続部16と、ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録部18と、テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録部20と、登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出部22と、イベント検出部22で検出された情報の更新領域からキーワードを抽出するキーワード抽出部24と、キーワード抽出部24で抽出されたキーワードを用いて登録された情報収集先サイト内のドキュメントを検索する情報検索部26と、情報検索部26による検索結果をユーザに通知する情報通知部28とを備えたことを特徴とする。
【0037】
このため本発明は、イベント収集先サイトとして特定のサーバ、例えばWWWサイトを監視し、情報の更新によるイベント発生を検出した場合は、その更新内容から新製品発表、新ウィルス発生などのイベントを特定するキーワードを抽出し、このキーワードを使用して情報収集先サイトとして登録したサーバから情報を収集してユーザに自動的に通知する。この結果、ユーザがキーワードなどの情報を特定するための単語を設定することなく、ユーザにとって未知の情報であっても、複数の情報提供先から情報を自動的に収集してユーザに提供できる。
【0038】
ここで、イベント検出部22は、イベント収集先サイトをアクセスしてサイト内のドキュメントをダウンロードしてリファレンスとして保存し、その後、同じイベント収集先サイトからダウンロードしたと共に、このダウンロードドキュメントを用いてリファレンスを更新する。
【0039】
また情報検索部26は、情報収集先サイトをアクセスしてサイト内のドキュメントをダウンロードし、ダウンロードしたドキュメントの中からキーワードを用いて該当するドキュメント部分を検索する。
【0040】
本発明の情報収集装置は、更に、情報検索部26により情報収集先サイトから取得されたドキュメントを保存するドキュメント保存部32を設ける。ドキュメント保存部32は、情報検索部26で検索された検索済みドキュメントを、検索に使用したキーワードをインデックスとして保存する。このため、情報収集先サイトから情報が削除されても、ユーザは必要なドキュメントにいつでもアクセスすることができる。
【0041】
情報検索部26は、情報収集サイト先を定期的にアクセスしてサイト内のドキュメントをダウンロードしてドキュメント保存部32に保存し、その後、イベント検出時にキーワード抽出部で抽出されたキーワードを用いてドキュメント保存部32に保存されたドキュメントを検索する。
【0042】
このため、イベント発生を検出し、関連情報の検索し、ユーザに通知するという順番で処理することを本発明の基本とするが、情報の種類によっては、情報収集先サイトに情報が登録されるのが先で、後日にイベント収集先サイトに情報が登録される場合がある。このような場合には、イベント収集先サイトからイベント発生を検知したときには情報収集先サイトからすでに情報が削除されている場合がある。
【0043】
そこで、予め情報収集先サイトのドキュメントを外部記憶装置等のドキュメント保存部32に保存しておき、保存しているドキュメントに対して検索を行うことで、イベント収集先サイトより先に情報収集先サイトに登録された情報であっても、収集することができる。
【0044】
情報検索部26は、検索された回数をドキュメントごとに計数し、検索回数が予め定めた閾値以下のドキュメントをドキュメント保存部32から削除し、新しいドキュメントの保存ができなくなることを防ぐ。ドキュメント削除のタイミングはドキュメント収集時や一定期間ごとに行えば良い。
【0045】
情報検索部26は、ドキュメント保存部32の空き容量の不足を判断した場合、検索回数を判断する閾値を大きくして閾値以下の検索回数のドキュメントをドキュメント保存部32から削除する。これによって検索回数が予め定めた閾値以下のドキュメントを削除しても外部記憶装置内の空き容量が十分でない場合、闘値を大きくすることで、空き容量を増やすことができる。
【0046】
イベント検出部22は、イベント収集先サイトから取得したドキュメントの更新領域に加え、削除された破棄領域を検出し、破棄領域から抽出されたキーワードによりドキュメント保存部32を検索して保存されたドキュメントから破棄領域を削除する。
【0047】
このためイベント収集先サイトの情報更新から抽出されたキーワードにより検索されて保存されている情報収集サイトのドキュメントは、古くなってイベント収集先サイトの情報更新により削除されると、削除された破棄領域からキーワードを抽出して保存ドキュメントが自動的に削除され、保存ドキュメントが増えすぎて満杯になることを防ぐ。
【0048】
情報検索部26は、キーワード抽出部24で抽出されたキーワードを用いて一定期間に亘り定期的に登録された情報収集先サイト内のドキュメントを検索する。これにより次の作用が得られる。イベント収集先サイトからイベント発生を検出して情報収集先サイトからドキュメントの検索を開始した場合、イベント収集先サイトと情報収集先サイトが異なる場合は、各サイトへの情報登録のタイミングが異なる場合がある。
【0049】
この場合、イベントを検出して情報収集を開始しても情報収集先サイトにはまだ登録されておらず、必要な情報が得られない。そこで、一定期間に亘り定期的に情報検索を繰り返すことで、イベント収集先サイトと情報収集先サイトでの登録のタイミングのずれによる情報収集漏れを防ぐ。
【0050】
情報検索部26は、キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閾値を超えた場合は、キーワードによるドキュメントの情報検索を再度一定期間継続し、閾値以下であった場合は、キーワードによる情報検索を停止する。これにより次の作用が得られる。
【0051】
イベント収集先サイトと情報収集先サイトでの登録のタイミングのずれがあると、定期的に検索してもタイムラグの長さによってはやはり情報を取得できない場合がある。そこで、検索回数を保存し、一定期間の検索回数が予め定めた闘値以下であれば、イベントの新規性が薄れてきたと判断して情報収集を停止する。
【0052】
イベント収集先サイト登録部18は、ネットワークを介してイベント収集先リストサーバからイベント収集先サイトを取得して登録し、情報収集先サイト登録部20は、ネットワークを介して情報収集先リストサーバから情報収集先サイトを取得して登録する。本発明は、イベント収集先サイトや情報収集先サイトを予め登録するが、専用のサーバからリストを取得して登録するようにしても良い。
【0053】
またイベント収集先サイト登録部18は、ネットワークを介して同一構成を備えた他の情報収集装置からイベント収集先サイトを取得して登録し、同様に、情報収集先サイト登録部20は、ネットワークを介して同一構成を備えた情報収集装置から情報収集先サイトを取得して登録するようにしても良い。これは本発明の情報収集装置は、インターネットを介して接続されているコンピュータ上に存在していることから、同じ情報収集装置の間で相互にイベント収集先サイトや情報収集先サイトを利用し合う形態、所謂ピア・ツー・ピアとして利用する。
【0054】
キーワード抽出部24は、イベント検出部で検出された情報の更新領域を形態素解析して品詞ごとに分割した後に固有名詞のみを抽出し、抽出した名詞がキーワードデータベース30に登録されている既存のキーワードと異なる場合に、情報検索部26に抽出した固有名詞をキーワードとして出力する。これによってイベント収集先サイトの更新情報から例えば新製品名や新しいコンピュータウィルス名などをキーワードとして出力し、このキーワードによる情報収集先サイトからのドキュメント検索による情報収集ができる。
【0055】
キーワード抽出部24は、情報検索部26にキーワードとして出力した固有名詞をキーワードデータベース30に追加登録する。これにより今回のイベントで抽出したキーワードをキーワードデータベース30に追加登録して、次回以降のイベントで再度キーワードとして抽出されることを防ぎ、検索の済んだキーワードによる検索が不必要に行われることを回避する。
【0056】
キーワード抽出部24は、イベント検出部22で検出された情報の更新領域から複数のキーワードを抽出した場合、更新領域の内容に基づいて各キーワードの優先順位を付与して情報検索部26に出力する。
【0057】
イベント検出部22は、イベント発生を検出したイベント収集先サイトの更新領域に新規情報のみの追加があった場合は、新規情報の履歴を保存し、更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴を保存し、情報通知部28により保存履歴をユーザに通知可能とする。
【0058】
この更新履歴の保存によって、イベント収集先サイトの更新された情報の一覧等をユーザに通知でき、どのような時系列で情報が更新、削除されたかを知ることができる。例えば新規情報と削除情報をマージすることによって、例えば過去から現在まで開発した製品の一覧と、現在まだ扱っている製品一覧を得ることができる。
【0059】
イベント検出部22は、イベント発生を検出したイベント収集先サイトの更新領域に新規情報のみの追加が合った場合は、新規情報の履歴としてキーワード抽出部24で抽出されたキーワードを保存し、また更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴としてキーワード抽出部24で抽出されたキーワードを保存し、情報通知部28により保存履歴したキーワードをユーザに通知可能とする。
【0060】
このためキーワードを抽出して更新履歴としてキーワードの一覧をユーザに通知することで、更新領域の履歴のみを並べた場合に比べ、履歴を容易に把握できる。
【0061】
イベント検出部22は、更新領域に追加された新規情報に外部サイトのリンクがあった場合、外部リンク先のドキュメントをダウンロードしてドキュメント保存部32に保存すると共に、新規情報の履歴にドキュメント保存部32の保存ドキュメントをリンクさせる。これにより情報収集先サーバからドキュメントが削除されても、ユーザは常にドキュメントにアクセスすることができる。
【0062】
本発明は、ネットワーク環境を対象とした情報収集方法を提供する。この情報収集方法は、
イベント収集先サイト登録部により、ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
情報収集先サイト登録部により、テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
イベント検出部により、登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出ステップと、
キーワード抽出部により、イベント検出ステップで検出された情報の更新領域からキーワードを抽出するキーワード抽出ステップと、
情報検索部により、キーワード抽出ステップで抽出されたキーワードを用いて登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、情報通知部により、情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を備えたことを特徴とする。
【0063】
また本発明は、コンピュータで実行されるプログラムを提供する。このプログラムは、コンピュータに、
ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無から判別してイベント発生の有無を検出するイベント検出ステップと、
前記イベント検出ステップで検出された情報の更新領域からキーワードを抽出するキーワード抽出ステップと、
キーワード抽出ステップで抽出されたキーワードを用いて登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、
情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を実行させることを特徴とする。
【0064】
本発明による情報収集方法及びプログラムの詳細は、情報収集装置の場合と基本的に同じになる。
【0065】
【発明の実施の形態】
図2は、本発明による情報収集装置の実施形態を、本発明が適用されるネットワーク環境と共に示した機能ブロック図である。
【0066】
図2において、本発明の情報収集装置10は、例えばユーザが保有しているパーソナルコンピュータにより実現されており、インターネット11などのネットワークに接続されてインターネット上に構築されている情報データベースとして機能するサイトからユーザに必要な情報を収集して利用する。
【0067】
本発明の情報収集装置10にあっては、インターネット11に接続されている各種のサーバ、例えばftpサーバ、WAISサーバ、Archieサーバ、WWWサーバ、NEWSサーバをアクセス対象とすることができ、この実施形態にあってはWWWサーバを例にとって説明する。
【0068】
本発明にあっては、インターネット上あるいは実社会で発生した事象をイベントと定義しており、このイベントの有無をインターネット上のサイトから取得することで、ユーザにとって有益な情報を収集する。このため本発明にあっては、イベント発生の有無を検出する対象となるサーバをイベント収集先サイトと呼んでおり、図2の例にあってはインターネット11に接続されているWWWサーバで構築されているイベント収集先サイト12−1,12−2,12−3をイベント発生の検出先としている。
【0069】
また本発明にあっては、特定の情報を収集するWWWサーバを情報収集先サイトと定義しており、図2の例にあってはWWWサーバで実現される3つの情報収集先サイト14−1,14−2,14−3を例にとって示している。このイベント収集先サイト12−1〜12−3と情報収集先サイト14−1〜14−3は、別のWWWサーバであってもよいし、同じWWWサーバであってもよい。
【0070】
本発明の情報収集装置10は、ネットワーク接続部16、イベント収集先サイト登録部18、情報収集先サイト登録部20、イベント検出部22、キーワード抽出部24、情報検索部26、情報通知部28、キーワードデータベース30、ドキュメント保存部32及び表示部34を備えている。
【0071】
イベント収集先サイト登録部18は、イベント発生の有無を検出するためのイベント収集先サイト12−1〜12−3を登録している。具体的には、イベント収集先サイト12−1〜12−3のアドレスとなるURLを登録している。イベント収集先サイトとしては、ユーザが情報収集を必要とする任意のサイトを検索もしくは収集して、予め登録している。
【0072】
情報収集先サイト登録部20は、テキスト、画像、音声などのデータを含む情報を収集するための情報収集先サイト14−1〜14−3を予め登録する。ここで、本発明の情報収集装置10が収集するインターネット上のテキスト、画像、音声などを含む情報をドキュメントと定義する。情報収集先サイト登録部20にもイベント収集先サイト登録部18と同様、情報収集先サイト14−1〜14−3のURLを例えばユーザが予め調べて登録している。
【0073】
イベント検出部22は、イベント収集先サイト登録部18に登録されたイベント収集先サイト12−1〜12−3から情報を取得し、取得した情報の変化領域となる更新の有無からイベント発生の有無を検出し、イベント収集先サイトの情報に変化があったことを、情報通知部28を介して表示部34に表示してユーザに通知する。
【0074】
キーワード抽出部24は、イベント検出部22で検出されたイベント収集先サイトの情報の更新領域、即ち変化のあった領域からキーワードを抽出する。このキーワード抽出は更新領域のテキスト文書の形態素解析により、例えば名詞としてのキーワードを抽出する。
【0075】
キーワード抽出部24に対し設けているキーワードデータベース30は、過去のイベント検出で抽出された使用済みのキーワードが登録されている。このためキーワード抽出部24は、新たなイベント検出でキーワードを抽出した際にキーワードデータベース30を参照し、もし既に登録されたキーワードと同じであれば、抽出したキーワードによる情報収集は済んでいることからキーワードを破棄し、一方、キーワードデータベース30に登録されていなければ、新たなキーワードとして情報検索部26に出力する。
【0076】
情報検索部26は、キーワード抽出部24で検出されたキーワードを用いて、情報収集先サイト登録部20に登録されている情報収集先サイト14−1〜14−3のドキュメントを検索し、キーワードを含むドキュメントを取得する。
【0077】
更に情報通知部28は、情報検索部26によりキーワードに基づいて検索された検索結果としての情報収集先サイト14−1〜14−3のいずれかから得られた検索結果としてのドキュメントの存在を表示部34に表示してユーザに通知する。
【0078】
また情報収集装置10の情報検索部26に対してはドキュメント保存部32が設けられている。ドキュメント保存部32は、情報検索部26の検索結果として得られたドキュメント、あるいは情報収集処理に先立ってイベント収集先サイト登録部18の登録先となるイベント収集先サイト12−1〜12−3から予め取得したドキュメントなどを保存する。
【0079】
このドキュメント保存部32は、保存先としてハードディスクドライブHDDを使用しており、併せてハードディスクドライブHDDに対する保存制御の機能を備えている。この点はイベント収集先サイト登録部18、情報収集先サイト登録部20、更にキーワードデータベース30についても同様であり、それぞれ保存先としてハードディスクドライブHDDの領域を割り当てており、これに加えて登録制御、データベースアクセスの制御機能を併せて備えている。
【0080】
更に、図2のインターネット11に対しては本発明の情報収集装置10と同じ構成を備えた情報収集装置10−1,10−2が接続されており、これは他のユーザが使用している本発明の情報収集装置である。
【0081】
またインターネット11に対しては情報収集先リストサーバ15−1やイベント収集先リストサーバ15−2が接続されている場合があり、本発明の情報収集装置10にあっては情報収集先サイト及びイベント収集先サイトの登録の際に、情報収集先リストサーバ15−1やイベント収集先リストサーバ15−2にアクセスして、それぞれの収集先のリストを収集して、情報収集先サイト登録部20やイベント収集先サイト登録部18に対する登録を行うことができるようにしている。
【0082】
図2における本発明の情報収集装置10は、例えば図3のようなコンピュータのハードウェア資源により実現される。
【0083】
図3のコンピュータにおいて、CPU100のバス101にはRAM102、ハードディスクドコントローラ(ソフト)104、フロッピィディスクドライバ(ソフト)110、CD−ROMドライバ(ソフト)114、マウスコントローラ118、キーボードコントローラ122、ディスプレイコントローラ126、通信用ボード130が接続される。
【0084】
ハードディスクコントローラ104はハードディスクドライブ106を接続し、本発明の情報収集処理を実行するアプリケーションプログラムをローディングしており、コンピュータの起動時にハードディスクドライブ106から必要なプログラムを呼び出して、RAM102上に展開し、CPU100により実行する。
【0085】
フロッピィディスクドライバ110にはフロッピィディスクドライブ(ハード)112が接続され、フロッピィディスク(R)に対する読み書きができる。CD−ROMドライバ114に対しては、CDドライブ(ハード)116が接続され、CDに記憶されたデータやプログラムを読み込むことができる。
【0086】
マウスコントローラ118はマウス120の入力操作をCPU100に伝える。キーボードコントローラ122はキーボード124の入力操作をCPU100に伝える。ディスプレイコントローラ126は表示部34に対して表示を行う。通信用ボード130は無線を含む通信回線132を使用し、インターネット等のネットワークを介して他のコンピュータやサーバとの間で通信を行う。
【0087】
図4は、図2の情報収集装置10による本発明の情報収集処理の基本的な処理手順を示したフローチャートであり、このフローチャートが本発明による情報収集のためのアプリケーションプログラムの実施形態に対応する。
【0088】
図4において、まずステップS1でイベント収集先サイト登録部18にイベント収集先サイトを登録する。ここではイベント収集先サイトとして、例えばA社のトピックスのページのURLを登録する。このA社のトピックスのURLを使用してイベント収集先サイトにアクセスすると、例えば図5(A)のような新製品情報に関するドキュメント36−1が取得できる。
【0089】
続いてステップS2で、情報収集先サイト登録部20に情報収集先サイトを登録する。この情報収集先サイトはA社のホームページであってもよいし、A社と同じ業種を含む製品紹介などを行っている他の情報収集先サイトなどを登録してもよい。
【0090】
次にステップS3で、イベント収集先サイトであるA社のトピックスのページにアクセスし、図5(A)のような新製品情報のドキュメント36−1をダウンロードし、これをリファレンスとして保存する。リファレンスとして保存される図5(A)の新製品情報のドキュメント36−1は、例えば新製品「AAA」〜「FFF」について、発売開始とその年月日が記述されている。
【0091】
続いてステップS4で登録したイベント収集先サイトに定期的にアクセスしてドキュメントをダウンロードし、ステップS5で保存ページであるリファイレンスと取得ページを比較し、ステップS6で変化があるかどうか判断する。
【0092】
この定期的なイベント収集先サイトのページのダウンロードで、例えば図5(B)のような新製品情報のドキュメント36−2が取得されたとする。この新製品情報のドキュメント36−2は、図5(A)のリファレンスとしてのドキュメント36−1と対比すると、リファレンスのドキュメント36−1の一番下の最も古い新製品「AAA」に関する情報38が削除されて、先頭に新製品「XXX」の情報40が追加されている。
【0093】
ここで図5(A)のリファレンスとしてのドキュメント36−1から削除されている最も古い情報38を破棄領域とする。また、図5(B)のドキュメント36−2において新たに追加された新規な情報40を更新領域という。
【0094】
このようにして図5(A)のリファレンスとしてのドキュメント36−1に対し、新たに取得したリファレンス36−2に変化があった場合、ステップS7で、取得した図5(B)のドキュメント36−2の更新領域となる新規な情報40を抽出し、イベント発生をユーザに通知した後、ステップS8で保存ページとしてのリファレンスを更新する。
【0095】
次にステップS9で、図5(B)の更新領域の新規な情報40を対象に、キーワード抽出部24が、検出したイベント発生を特定するキーワードを抽出する。この例にあっては、キーワードとして新製品名である「XXX」がキーワードとして抽出される。
【0096】
このようにして抽出されたキーワードは情報検索部26に与えられ、次のステップS10で情報検索部26が抽出されたキーワードにより登録されている情報収集先サイトのドキュメントを検索し、ステップS11で検索結果を情報通知部28により表示部34に表示してユーザに通知する。
【0097】
このキーワードによる情報検索としては、イベント発生により抽出されたキーワードであるA社の製品名「XXX」を使用した検索によって、A社のサイトにはない「XXX」の評判、レビュー、欠点、小売価格などの情報を自動的に収集してユーザに提供することができる。
【0098】
また本発明の情報収集装置10を使用してユーザがコンピュータウィルスに関する情報収集をしたい場合には、ステップS1においてイベント収集先サイトにアンチウィルスソフト開発会社のURLを予め登録し、またステップS2の情報収集先サイトにパソコンメーカーのホームページを登録しておく。
【0099】
これによりイベント収集先サイトのアクセスによるイベント発生の検出で新しいウィルスの発生を検出し、この新しいウィルスの発生検出により抽出したキーワード例えばウィルス名などによる情報収集先サイトの検索で、新しいウィルスに対しパソコンユーザとしてどのように対処すべきかといった有益な情報を自動的に収集して、ユーザに示すことができる。
【0100】
このように本発明の情報収集装置にあっては、イベント収集先として特定のサイトを監視し、このイベント収集先サイトの情報に更新があった場合は、その更新内容から新製品発表や新ウィルス発生などのイベントを特定するキーワードを生成し、このキーワードにより情報収集先サイトからキーワードを含む情報を収集することにより、ユーザはキーワードなどの情報を特定するための単語を設定する必要がなく、このためユーザにとって未知の情報であっても、ユーザの代わりに情報収集装置10が複数の情報提供先から必要な情報を収集してユーザに提供することができる。
【0101】
ここで、イベント収集先サイトにおける新規情報の追加による更新の形態としては、図5(A)のように、最も古い情報38を削除し図5(B)のように新規な情報40を追加する形態の他に、図6のように古い情報を削除することなく新規情報を追加する場合もある。
【0102】
図6(A)は、図5(A)と同じ最初に得られた新製品のドキュメント36−11であり、これに続いて新製品の情報40の追加により図6(B)のようなドキュメント36−12が得られる。この追加した情報40を含むドキュメント36−12は、最も古い新製品「AAA」の情報38を削除せずに残し、先頭に新製品「XXX」の情報40を追加している。もちろんサイトによっては、図5と図6の両者を組み合わせた新規情報の更新の形態をとる場合もある。
【0103】
図7は、図2の情報収集装置10の他の実施形態における処理手順のフローチャートである。この図7の実施形態にあっては、情報検索部26でイベント発生検出に基づいてキーワード抽出部24で抽出されたキーワードを用いた情報収集先サイトの検索で得られたドキュメントを、ドキュメント保存部32に保存するようにしたことを特徴とする。
【0104】
即ち、図7のステップS1〜S10は図4と同じであるが、ステップS11で情報検索部26によりキーワードを用いて得られたドキュメントをドキュメント保存部32に保存している。この検索により収集されたドキュメントの保存の際には、検索に使用したキーワードと収集したドキュメントをリンクさせてドキュメント保存部32に保存する。
【0105】
このようにキーワードに基づいて検索されたドキュメントを情報収集先サイトからダウンロードしてハードディスクドライブなどの外部記憶装置で構成されるドキュメント保存部32に保存することにより、情報収集先サイトから情報が、その後に削除されても、ユーザは必要なドキュメントについて、情報収集装置10自身のドキュメント保存部32に対し例えばキーワードをインデックスに使用したアクセスで、いつでも利用できる。
【0106】
図8は、図2の情報収集装置10における他の実施形態の処理手順のフローチャートである。この図8の実施形態にあっては、イベント検出による情報検索に先立って、まず情報収集先サイト14−1〜14−3からドキュメントを取得してドキュメント保存部32に保存しておき、イベント検出部22でイベント発生を検出した場合、キーワード抽出部24で抽出したキーワードを用いて、情報検索部26がドキュメント保存部32に保存しているドキュメントを対象に情報検索を行うようにしたことを特徴とする。
【0107】
図8の情報収集処理にあっては、ステップS1でイベント収集先サイトを登録した後、ステップS2で情報収集先サイトを登録すると、ステップS3で登録した情報収集先サイトからドキュメントを取得してドキュメント保存部32に保存する。
【0108】
これによってステップS3以降にあっては、ネットワーク上の情報収集先サイトから改めてドキュメントを取得することなく、情報収集装置10自身のドキュメント保存部32に保存している情報収集先のドキュメントを対象に、イベント発生に基づく情報検索を行うことになる。
【0109】
即ちステップS4〜S12の処理により、図4のステップS3〜S11の場合と同様に、イベント発生の検出、イベント発生の検出による変化領域の抽出、変化領域からのキーワードの抽出、キーワードを用いたドキュメント保存部32の保存ドキュメントを対象とした検索、及び検索結果のユーザ通知を行うことになる。
【0110】
このような図8の情報収集先サイトのドキュメントを予め保存して検索する処理は、情報の種類によっては情報収集先サイトに情報を登録するのが先で後日にイベント収集先サイトに情報が登録される場合に好適である。
【0111】
イベント収集先サイトでイベント発生を検出したときには先に情報が登録された情報収集先サイトから既に対応する情報が削除されている場合、図8の実施形態にあっては、予め情報収集先サイトの情報をドキュメント保存部32に保存した後にイベント発生を検出してドキュメント保存部32内の保存ドキュメントを対象に検索を行っているため、ネットワーク上の情報収集先サイトで既に情報が削除された後であっても、確実にイベント発生に基づいたキーワードによる情報検索を行ってユーザに提供することができる。
【0112】
図9及び図10は、図8の実施形態のように、情報収集先サイトのドキュメントを予めドキュメント保存部32に保存した後にイベント発生に基づく情報収集を行う実施形態について、ドキュメント収集を継続するとドキュメント保存部32を構築しているハードディスクドライブなどの外部記憶装置が満杯となり、新しいドキュメントが保存できなくなることから、これを回避するために定期的にドキュメントを削除する処理を加えている。
【0113】
図9において、ステップS1〜S11は図8の実施形態と同じであるが、図9に続く図10のステップS12〜S14の処理において、ドキュメント保存部32からドキュメントを削除する処理を行う。
【0114】
即ちステップS12で、情報検索部26により検索したドキュメントの検索回数を計数しており、ステップS3で検索回数が閾値以下のドキュメントをドキュメント保存部32から削除する。例えばステップS13における閾値を0とし、検索回数が0のドキュメントをドキュメント保存部32から削除する。
【0115】
このステップS12,S13における検索回数の計数と削除のタイミングは、別のタイミングで行ってもよい。またステップS13の削除はドキュメントの収集時に行ってもよいし、別にタイマを保持して一定時間ごとに行ってもよい。
【0116】
図11及び図12は、保存ドキュメントを削除する他の実施形態を含む本発明の情報収集処理のフローチャートである。この実施形態にあっては、検索回数が予め定めた閾値以下のドキュメントを削除してもドキュメント保存部32の空き容量が十分でない場合に、閾値の値を大きくすることでドキュメント保存部32における空き容量を増やすようにしたことを特徴とする。
【0117】
図11において、ステップS1〜S11は図8の実施形態と同じであるが、図12のステップS12〜S17による処理で空き容量を増やすように検索回数の閾値を変更する処理を行う。
【0118】
即ちステップS12で検索したドキュメントの検索回数を計数した後、ステップS13でドキュメント保存部32の空き容量は十分か否かチェックする。空き容量が不足している場合にはステップS14に進み、閾値を例えば1つ大きくする。
【0119】
この閾値は初期状態にあっては例えば0であることから、ステップS14では閾値は1となる。続いてステップS15で検索回数が大きくした閾値以下のドキュメントを削除する。これによって閾値0で削除していたドキュメントの数に対し、閾値を1つ増加したことで、削除するドキュメントの数を増やすことができ、ドキュメントの削除による空き容量を大きくすることができる。
【0120】
ステップS15でドキュメントの削除を行うと、ステップS16で、このときの検索結果をユーザに通知した後、再びステップS13に戻り、空き容量は十分か否かチェックする。もちろん、空き容量が十分か否かは予め定めた空き容量の閾値を使用して判断する。
【0121】
空き容量が十分でなければ、ステップS14〜S16の処理を繰り返す。空き容量が十分に確保できた場合には、ステップS17で再び閾値を初期値である0に戻した後、図11のステップS3からの処理を繰り返す。
【0122】
図13及び図14は、ドキュメント保存部からドキュメントを削除する本発明の情報収集装置における他の処理手順の実施形態のフローチャートである。この実施形態にあっては、図5(A)(B)のようなイベント収集先サイトから得られたリファレンスとしてのドキュメント36−1と新規情報を含むドキュメント36−2の比較で判断される破棄領域として削除された情報38に対応した保存ドキュメントを削除するようにしたことを特徴とする。
【0123】
図13のステップS1〜S11は図8のステップS1〜S11と同じであり、これに続いて図14のステップS12〜S14で図5(A)の削除した情報38に対応するドキュメントの削除処理を行っている。
【0124】
即ち、ステップS12でイベント収集先のページ更新により削除された情報、例えば図5(A)の情報38から、キーワードとして「AAA」を抽出する。続いてステップS13で、抽出したキーワード「AAA」を用いて、ドキュメント保存部32に保存している情報収集先サイトのドキュメントを検索する。これによって、保存されているキーワード「AAA」に対応したドキュメントが検索され、ステップS13でドキュメント保存部32から削除する。
【0125】
このような図13,図14の保存ドキュメントの削除処理により、ドキュメント保存部32に保存されているドキュメントの中から、イベント発生の検出によりイベント収集先サイトから削除された情報に対応する古いドキュメントを自動的に削除していくことができる。
【0126】
図15は、図2の情報収集装置10における本発明の情報収集処理の他の実施形態の処理手順のフローチャートである。この実施形態にあっては、イベント発生の検出により抽出したキーワードを用いた情報収集先サイトに対する情報検索を、一定期間継続して定期的に行うようにしたことを特徴とする。
【0127】
図15において、ステップS1〜S11の処理は図4のステップS1〜S11と同じであるが、これに加えてステップS12で予め定めた一定期間が経過したか否かチェックしている。一定期間を経過するまではステップS10,S11のキーワードによる情報収集先のドキュメントの検索を定期的に繰り返してユーザに通知するようにしている。
【0128】
この図15の処理は、イベント収集先サイトと情報収集先サイトが異なる場合の各サイトにおける情報登録のタイミングずれに対応する。即ち、イベント収集先サイトからイベント発生を検出しても、情報収集先サイトにまだ情報が登録されておらず、必要な情報が得られない場合がある。
【0129】
このような場合、図15の実施形態にあっては、ステップS12で一定期間経過するか否か判断することで、ステップS10,S11の処理の繰り返しによりキーワードを用いた情報検索を繰り返すことで、情報収集先サイトに対する情報登録のタイミングずれによる情報収集漏れを防ぐことができる。
【0130】
図16及び図17は、図15の実施形態ではカバーできない情報収集先サイトに対する情報登録のタイミングずれによる情報収集漏れを防ぐようにした本発明の情報収集処理の他の実施形態のフローチャートである。
【0131】
即ち、図15の実施形態にあっては、キーワードによる情報検索を一定時間経過するまで定期的に繰り返すことにより、情報収集先サイトの情報登録によるタイムラグがあっても情報収集漏れを防ぐようにしているが、タイムラグの長さによっては、やはり情報を収集できない場合がある。
【0132】
そこで図16及び図17の実施形態にあっては、キーワードを用いた情報検索結果の回数を保持し、一定期間の検索回数が予め定めた閾値以下であれば、イベントの新規性が薄れてきたと判断して、キーワードを用いた情報収集を停止するようにしている。
【0133】
図16のステップS1〜S11は図15のステップS1〜S11と同じであるが、これに続く図17のステップS12〜S14の処理でイベントの新規性が薄れてきたことを判断して、情報収集を停止する。即ち、ステップS12で検索回数の履歴を計数して保存し、ステップS13で一定期間経過した否かチェックし、一定期間経過した場合にはステップS14で検索回数が閾値以下か否かチェックする。
【0134】
検索回数が閾値を超えていればイベントの新規性が高いものと判断し、図16のステップS10からのキーワードによる情報収集先サイトのドキュメントの検索を繰り返す。
【0135】
ステップS14で検索回数が閾値以下となった場合には、イベントの新規性が薄れてきたと判断し、ステップS10からのキーワードによる情報収集先サイトのドキュメント検索を停止して、図16のステップS4に戻って新たなイベント収集先サイトの情報変換の検索処理から繰り返す。
【0136】
尚、図17のステップS13の一定期間の経過を判断する処理を除き、ステップS12で検索結果の履歴を計数して保存し、この検索回数が閾値以下となった場合には、直ちに情報検索を停止して、図16のステップS4に戻るようにしても良い。
【0137】
図18及び図19は、図2の情報処理装置10における本発明による情報収集処理の他の実施形態のフローチャートであり、この実施形態にあってはインターネット上のサーバからイベント収集先サイトや情報収集先サイトの情報を取得するようにした事を特徴とする。
【0138】
図18及び図19の実施形態にあっては、図2のインターネット11に接続しているイベント収集先リストサーバ15−2や情報収集先リストサーバ15−1を利用する。インターネットにあってはWWWサーバのアドレス(URL)の変更や、サーバそのものの廃止などが頻繁に起こりうる。
【0139】
そこでイベント収集先リストサーバ15−2において、イベント収集先サイトを設定し、その情報をクライアントである本発明の情報収集装置10に提供することで、クライアントとしての情報収集装置10のユーザーはイベント収集先サイトがどのサーバにあるかなどを一切気にすることなく、イベント収集先リストをイベント収集先サイト登録部18に登録することができる。
【0140】
この点は情報収集先サイト登録部20のサイト登録についても同様であり、情報収集先リストサーバ15−1で情報収集先サイトを設定し、その情報をクライアントとしての情報収集装置10に提供することで、情報収集先サイトのサーバの状態を意識することなく情報収集先サイトを情報収集サイト登録部20に登録して情報検索を利用することができる。
【0141】
このようなイベント収集先リストサーバ15−2及び情報収集先リストサーバ15−1に対応し、図18の処理にあっては、まずステップS1で情報収集先リストサーバ15−1から情報収集先サイトの情報を取得し、ステップS2で情報収集先サイト登録部20の登録内容と比較して変更があれば、ステップS3で情報収集先サイト登録部20に新たな情報収集先サイトのURLを登録する。
【0142】
またステップS4でイベント収集先リストサーバ15−2からのイベント収集先サイトの情報を収集し、イベント収集先サイト登録部18の登録内容と比較して、イベント収集先サイトに変更があれば変更のあった新たなイベント収集先サイトをステップS6でイベント収集先サイト登録部18に登録し、更にステップS7で新たに登録したイベント収集先サイトのページをリファレンスとして保存する。
【0143】
これに続くステップS8〜S15の処理は、図4のステップS4〜S11の処理と同じである。
【0144】
尚、図18及び図19の実施形態にあっては、情報収集先リストサーバ15−1とイベント収集先リストサーバ15−2の両方からサイトの情報を取得して登録するようにしているが、いずれか一方についてサーバから情報を取得してサイト登録を行うようにしても良い。
【0145】
図20及び図21は、図2の情報収集装置10における本発明の情報収集処理の他の実施形態のフローチャートであり、この実施形態にあっては図2でインターネット11に接続している本発明と同じ構成を持つ他の情報収集装置10−1,10−2からイベント収集先サイト及び情報収集先サイトの情報を取得するようにしたことを特徴とする。
【0146】
この図20及び図21の実施形態において、本発明の情報収集装置10が同じ構成を持つ他の情報収集装置10―1,10−2からイベント収集先サイト及び情報収集先サイトの情報を収集するネットワーク環境は、情報収集装置10,10−1,10−2がそれぞれピアマシンとして相互に相手方の情報を利用するピア・ツー・ピアシステムを構築した場合である。
【0147】
図20において、ステップS1で本発明の情報収集装置10は、例えば他の情報収集装置10−1と通信して、他の情報収集装置10−1に登録しているイベント収集先サイトの情報を取得する。
【0148】
この他の情報収集装置10−1から取得してイベント収集先サイトにつき、自分のイベント収集先サイト登録部18の内容と比較し、イベント収集先サイトが異なればステップS3で他の情報収集装置10−1のイベント収集先サイトの方が良いか否か判断する。
【0149】
このステップS3におけるイベント収集先サイトの判定条件としては、情報登録の早さを示す情報取得日時、ドキュメントのバイト数などの情報量に基づいてイベント収集先サイトの良し悪しを数値化し、他の情報収集装置10−1で同じく数値化している値と比較して良い方を採用し、ステップS4で採用した他の情報収集装置10−1から収集したイベント収集先サイトを自分自身のイベント収集先サイト登録部18に登録する。
【0150】
またステップS5で他の情報収集装置10−1と通信して、情報収集先サイトの登録情報を取得し、ステップS6で自分自身の情報収集先サイト登録部20の登録サイトと異なれば、ステップS7でステップS3の収集先サイトの場合と同様にして数値化した値の比較により、他の情報収集装置10−1の情報収集先サイトの良し悪しを判断し、良ければステップS8で自分自身の情報収集先サイト登録部20に取得した情報収集先サイトを登録する。
【0151】
これに続くステップS9〜ステップS17の処理は、図4のステップS4〜S11の処理と同じである。
【0152】
図22は、図2の情報収集装置10におけるキーワード抽出部24におけるキーワード抽出処理の詳細を示したフローチャートである。
【0153】
図22において、キーワード抽出処理は、まずステップS1でイベント収集先サイトから得られたドキュメントの変化領域、例えば図5(B)の情報40の文章を形態素解析して品詞に分解する。ここでイベント収集先サイトから得られた変化領域の文章は、製品名やウィルス名などのイベントを特定する固有名詞を含んでいることから、形態素解析したデータからステップS2で固有名詞のみを抽出する。
【0154】
続いてステップS3でキーワードデータベース30内の固有名詞と比較し、キーワードデータベース30内にあるか否かチェックする。キーワードデータベース30に無ければ、ステップS2で抽出した固有名詞をステップS4でキーワードとして保持する。一方、ステップS3でキーワードデータベース30に登録されている場合には、この固有名詞はすでにキーワードとして使われていることからステップS5で固有名詞を破棄する。
【0155】
このようなステップS1〜S5の処理をステップS6で変化領域の文章内の全固有名詞について終了するまで繰り返す。ステップS6において全固有名詞について終了が判別されると、ステップS7においてステップS4で保持された固有名詞をキーワードデータベース30に登録して更新した後、ステップS8で保持した固有名詞をキーワードとして情報検索部26に出力する。
【0156】
ここで図22のキーワード抽出処理において、イベント収集先サイトから取得したドキュメントの変化領域の文章から複数のキーワードを抽出した場合には、それらのキーワードの重要度を判断して優先順位をつけ、この優先順位付きのキーワードを情報検索部26に出力し、優先順位に従ったキーワードの使用で情報検索を行うようにしても良い。
【0157】
複数のキーワードを抽出した時の重要度を判断した優先順位の付け方としては、
(1)外部リンクが設定されているキーワード
(2)外部リンク先ドキュメント内で登場回数の多いキーワード
(3)「」や“”など特定の記号で囲まれているキーワード
(4)ボールド〈B〉〈/B〉、赤文字、〈FONT COLOR=“#ff0000”〉〈/FONT〉などの強調指定されているキーワード
を抽出し、ドキュメントの抽出内容に応じて固有のポイントをつけてその総和を求める。例えば(1)・(2)は一個につき3点、(3)は10点などとして合計点数を求め、合計点数の高い順にキーワードに優先順位をつける。
【0158】
図23及び図24は、図2の情報収集装置10における情報収集装置の他の実施形態のフローチャートであり、この実施形態にあっては、イベント収集先サイトから得られたドキュメントに追加された新規情報及び削除情報の履歴を保存することで、どのような時系列でイベント収集先の情報が更新され、また削除されたかをユーザーがわかるようにしたことを特徴とする。
【0159】
図23において、ステップS1〜S6の処理は、図4のステップS1〜S6と同じである。ステップS6でイベント収集先サイトのドキュメントをリファレンスと比較して変化があった場合には、ステップS7で削除無しの新規情報の追加更新か否かチェックする。
【0160】
ここでイベント収集先サイトのドキュメントの更新には図5(A)(B)のように、古い情報38を破棄した新規な情報40を追加する更新の形態と、図6のように古い情報38を残してまま新規な情報40を追加する更新形態の2つがある。
【0161】
このためステップS7で図6の削除無しの新規情報の追加更新を判別した場合には、ステップS8で例えば図6(B)の取得したデータであるドキュメント36−12の変化領域となる新規な情報40を抽出し、これを変化領域情報履歴に加えて更新する。
【0162】
一方、ステップS7で図5のような削除ありの新規情報の追加更新を判別した場合には、図5(A)のリファレンスとしてのドキュメント36―1と図5(B)の新たに得られたドキュメント36−2を比較し、変化領域としてドキュメント36−1の破棄領域となる情報38とドキュメント36−2の追加領域となる新規な情報40を抽出する。
【0163】
そしてステップS11で新規情報履歴に追加された新規な情報40を加えて更新し、またステップS12で削除情報履歴に破棄領域となる削除した情報38加えて更新する。このように更新された新規情報履歴および削除情報履歴は、ユーザが必要に応じて参照することができ、それぞれの履歴が時系列に従った一覧として表示される。
【0164】
このようなステップS7〜S9、またはステップS7〜S12の更新の履歴処理が済んだならば、ステップS13でイベント収集先保存ページとしてのリファレンスを新たに比較したドキュメントで更新し、図24のステップS14〜S16において、イベント収集先サイトの変化領域からイベントを特定するキーワードを抽出し、キーワードより情報収集先サイトのドキュメントを検索し、ユーザーに通知する。
【0165】
図25及び図26は、イベント収集先サイトについて更新された情報一覧の履歴保存につき、更新領域からキーワードを抽出して、キーワードによる更新履歴を保存利用できるようにしたことを特徴とする。
【0166】
図25及び図26において、ステップS1〜S7,ステップS9,S11〜S16の処理は図23,図24のフローチャートと同じである。これに対し、図25のステップ8,S10において、イベント収集先サイトから取得したデータ、すなわちドキュメントの変化領域からキーワードを抽出している。
【0167】
即ち、ステップS8にあっては、ステップS7で判別された図6(B)の変化領域の情報40の文章から、例えばキーワードとして「XXX」を抽出し、このキーワード「XXX」をステップS9で新規情報履歴に追加して更新する。またステップS7で図5のような削除更新を判別した場合には、ステップS12に進み図5(A)の破棄領域として削除される情報38からキーワード「AAA」を抽出し、また図5(B)の追加領域となる情報40からキーワード「XXX」を抽出し、ステップS11でキーワード「XXX」を新規情報履歴に追加して更新し、またステップS12でキーワード「AAA」を削除情報履歴に追加して更新する。
【0168】
このようにイベント収集先サイトのドキュメントの新規情報履歴及び削除情報履歴をキーワードの一覧表として保存利用できることで、新規情報履歴及び削除情報履歴をユーザーが読み出によりキーワード一覧化として表示され、新製品の時系列的な更新の様子を容易に把握することができる。
【0169】
図27及び図28は、図2の情報収集装置10における本発明の情報収集処理の他の情報収集装置のフローチャートであり、この実施形態にあってはイベント収集先サイトの更新で得られた変化領域に存在するリンク先からドキュメントをダウンロードして保存したことを特徴とする。
【0170】
図27及び図28のフローチャートにおけるステップS1〜S8及びステップS10、S11、S13〜S18の処理は、図25,図26におけるステップS1〜S8及びステップS9〜S16の処理と同じである。図27において、新たにステップS9、S12の処理が加えられている。
【0171】
ステップS9の処理は、ステップS7における図6のようなイベント収集先サイトからダウンロードした変化領域となる新規な情報40の中に他のサイトのリンク情報が含まれている場合、このリンク情報により他のサイトにアクセスして変化領域に示されたリンク先のドキュメントをダウンロードしてドキュメント保存部32に保存する。
【0172】
ステップS12の処理は、ステップS7における図5のようなイベント収集先サイトからダウンロードした変化領域となる新規な情報40の中に他のサイトのリンク情報が含まれている場合、このリンク情報により他のサイトにアクセスして変化領域に示されたリンク先のドキュメントをダウンロードしてドキュメント保存部32に保存する。
【0173】
これによってイベント収集先サイトの更新により更新履歴のリンク情報が削除されても、削除されたリンク先のサーバからドキュメントを保存しているためユーザーは新規情報履歴を見た際のリンク先としてドキュメント保存部32からすでに削除されているリンク先サーバからのドキュメントにアクセスすることができる。
【0174】
尚、上記の実施形態は情報収集装置10として、例えば図3のようなハードウェア資源をもつパーソナルコンピュータへの適用を例にとるものであったが、これ以外に携帯端末や適宜のコンピュータ装置にそのまま適用することができる。また本発明はその目的と利点を損ねることのない適宜の変形を含み、更に上記の実施形態に示した数値による限定は受けない。
【0175】
(付記)
(付記1)
ネットワークに接続するネットワーク接続部と、
ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録部と、
テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録部と、
前記登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出部と、
前記イベント検出部で検出された更新領域からキーワードを抽出するキーワード抽出部と、
前記キーワード抽出部で抽出されたキーワードを用いて前記登録された情報収集先サイト内のドキュメントを検索する情報検索部と、
前記情報検索部による検索結果をユーザに通知する情報通知部と、
を備えたことを特徴とする情報収集装置。(1)
【0176】
(付記2)
付記1記載の情報収集装置に於いて、前記イベント検出部は、前記イベント収集先サイトをアクセスしてサイト内のドキュメントをダウンロードしてリファレンスとして保存し、その後、前記イベント収集先サイトからダウンロードしたドキュメントと前記リファレンスの比較により更新の有無からイベント発生の有無を検出すると共に、該ダウンロードドキュメントを用いて前記リファレンスを更新することを特徴とする情報収集装置。
【0177】
(付記3)
付記1記載の情報収集装置に於いて、前記情報検索部は、前記情報収集先サイトをアクセスしてサイト内のドキュメントをダウンロードし、ダウンロードしたドキュメントの中から前記キーワードを用いて該当するドキュメント部分を検索することを特徴とする情報収集装置。
【0178】
(付記4)
付記1記載の情報収集装置に於いて、更に、前記情報検索部により前記情報収集先サイトから取得されたドキュメントを保存するドキュメント保存部を設けたことを特徴とする情報収集装置。
【0179】
(付記5)
付記1記載の情報収集装置に於いて、前記情報検索部は、前記キーワード抽出部で抽出されたキーワードを用いて一定期間に亘り定期的に前記登録された情報収集先サイト内のドキュメントを検索することを特徴とする情報収集装置。
【0180】
(付記6)
付記1記載の情報収集装置に於いて、
前記イベント収集先サイト登録部は、ネットワークを介してイベント収集先リストサーバからイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録部は、ネットワークを介して情報収集先リストサーバから情報収集先サイトを取得して登録する、
ことを特徴とする情報収集装置。
【0181】
(付記7)
付記1記載の情報収集装置に於いて、
前記イベント収集先サイト登録部は、ネットワークを介して同一構成を備えた他の情報収集装置からイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録部は、ネットワークを介して同一構成を備えた情報収集装置から情報収集先サイトを取得して登録する、
ことを特徴とする情報収集装置。
【0182】
(付記8)
付記1記載の情報収集装置に於いて、前記キーワード抽出部は、前記イベント検出部で検出された更新領域を形態素解析して品詞ごとに分割した後に固有名詞のみを抽出し、抽出した名詞がキーワードデータベースに登録されている既存のキーワードと異なる場合に、前記情報検索部に抽出した固有名詞をキーワードとして出力することを特徴とする情報収集装置。
【0183】
(付記9)
付記1記載の情報収集装置に於いて、前記イベント検出部は、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみがあった場合は、前記新規情報の履歴を保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、前記新規情報の履歴と前記削除情報の履歴を保存し、前記情報通知部により保存履歴をユーザに通知可能としたことを特徴とする情報収集装置。
【0184】
(付記10)
付記1記載の情報収集装置に於いて、前記イベント検出部は、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみが合った場合は、前記新規情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、、前記情報通知部により保存履歴としての前記キーワードをユーザに通知可能としたことを特徴とする情報収集装置。
【0185】
(付記11)
イベント収集先サイト登録部により、ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
情報収集先サイト登録部により、テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
イベント検出部により、前記登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出ステップと、
キーワード抽出部により、前記イベント検出ステップで検出された更新領域からキーワードを抽出するキーワード抽出ステップと、
情報検索部により、前記キーワード抽出部で抽出されたキーワードを用いて前記登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、情報通知部により、前記情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を備えたことを特徴とする情報収集方法。(2)
【0186】
(付記12)
付記11記載の情報収集方法に於いて、前記イベント検出ステップは、前記イベント収集先サイトをアクセスしてサイト内のドキュメントをダウンロードしてリファレンスとして保存し、その後、前記イベント収集先サイトからダウンロードしたドキュメントと前記リファレンスの比較により更新の有無からイベント発生の有無を検出することを特徴とする情報収集方法。(3)
【0187】
(付記13)
付記11記載の情報収集方法に於いて、前記情報検索ステップは、前記情報収集先サイトをアクセスしてサイト内のドキュメントをダウンロードし、ダウンロードしたドキュメントの中から前記キーワードを用いて該当するドキュメント部分を検索することを特徴とする情報収集方法。
【0188】
(付記14)
付記11記載の情報収集方法に於いて、更に、前記情報検索ステップにより前記情報収集先サイトから取得されたドキュメントをドキュメント保存部に保存するドキュメント保存ステップを設けたことを特徴とする情報収集方法。(4)
【0189】
(付記15)
付記11記載の情報収集方法に於いて、前記情報検索ステップは、前記キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閏値を超えた場合は前記キーワードによるドキュメントの情報検索を再度一定期間継続し、前記閾値以下であった場合は、前記キーワードによる情報検索を停止することを特徴とする情報収集方法。
【0190】
(付記16)
付記11記載の情報収集方法に於いて、
前記イベント収集先サイト登録ステップは、ネットワークを介してイベント収集先リストサーバからイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録ステップは、ネットワークを介して情報収集先リストサーバから情報収集先サイトを取得して登録する、
ことを特徴とする情報収集方法。
【0191】
(付記17)
付記11記載の情報収集方法に於いて、
前記イベント収集先サイト登録ステップは、ネットワークを介して同一構成を備えた他の情報収集装置からイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録ステップは、ネットワークを介して同一構成を備えた情報収集装置から情報収集先サイトを取得して登録する、
ことを特徴とする情報収集方法。
【0192】
(付記18)
付記11記載の情報収集方法に於いて、前記キーワード抽出ステップは、前記イベント検出ステップで検出された更新領域を形態素解析して品詞ごとに分割した後に固有名詞のみを抽出し、抽出した名詞がキーワードデータベースに登録されている既存のキーワードと異なる場合に、前記情報検索ステップに抽出した固有名詞をキーワードとして出力することを特徴とする情報収集方法。
【0193】
(付記19)
付記11記載の情報収集方法に於いて、前記イベント検出ステップは、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみがあった場合は、前記新規情報の履歴を保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、前記新規情報の履歴と前記削除情報の履歴を保存し、前記情報通知部により保存履歴をユーザに通知可能としたことを特徴とする情報収集方法。
【0194】
(付記20)
付記11記載の情報収集方法に於いて、前記イベント検出ステップは、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみが合った場合は、前記新規情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、、前記情報通知部により保存履歴としての前記キーワードをユーザに通知可能としたことを特徴とする情報収集方法。
【0195】
(付記21)
コンピュータに、
ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
前記登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出ステップと、
前記イベント検出ステップで検出された更新領域からキーワードを抽出するキーワード抽出ステップと、
前記キーワード抽出部で抽出されたキーワードを用いて前記登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、
前記情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を実行させることを特徴とするプログラム。(5)
【0196】
(付記22)
付記21記載のプログラムに於いて、前記イベント検出ステップは、前記イベント収集先サイトをアクセスしてサイト内のドキュメントをダウンロードしてリファレンスとして保存し、その後、前記イベント収集先サイトからダウンロードしたドキュメントと前記リファレンスの比較により更新の有無からイベント発生の有無を検出することを特徴とするプログラム。
【0197】
(付記23)
付記21記載のプログラムに於いて、前記情報検索ステップは、前記情報収集先サイトをアクセスしてサイト内のドキュメントをダウンロードし、ダウンロードしたドキュメントの中から前記キーワードを用いて該当するドキュメント部分を検索することを特徴とするプログラム。
【0198】
(付記24)
付記21記載のプログラムに於いて、更に、前記情報検索ステップにより前記情報収集先サイトから取得されたドキュメントをドキュメント保存部に保存するドキュメント保存ステップを設けたことを特徴とするプログラム。
【0199】
(付記25)
付記21記載のプログラムに於いて、前記情報検索ステップは、前記キーワード抽出ステップで抽出されたキーワードを用いて一定期間に亘り定期的に前記登録された情報収集先サイト内のドキュメントを検索することを特徴とするプログラム。
【0200】
(付記26)
付記21記載のプログラムに於いて、
前記イベント収集先サイト登録ステップは、ネットワークを介してイベント収集先リストサーバからイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録ステップは、ネットワークを介して情報収集先リストサーバから情報収集先サイトを取得して登録する、
ことを特徴とするプログラム。
【0201】
(付記27)
付記21記載のプログラムに於いて、
前記イベント収集先サイト登録ステップは、ネットワークを介して同一構成を備えた他の情報収集装置からイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録ステップは、ネットワークを介して同一構成を備えた情報収集装置から情報収集先サイトを取得して登録する、
ことを特徴とするプログラム。
【0202】
(付記28)
付記21記載のプログラムに於いて、前記キーワード抽出ステップは、前記イベント検出ステップで検出された更新領域を形態素解析して品詞ごとに分割した後に固有名詞のみを抽出し、抽出した名詞がキーワードデータベースに登録されている既存のキーワードと異なる場合に、前記情報検索ステップに抽出した固有名詞をキーワードとして出力することを特徴とするプログラム。
【0203】
(付記29)
付記21記載のプログラムに於いて、前記イベント検出ステップは、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみがあった場合は、前記新規情報の履歴を保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、前記新規情報の履歴と前記削除情報の履歴を保存し、前記情報通知部により保存履歴をユーザに通知可能としたことを特徴とするプログラム。
【0204】
(付記30)
付記21記載のプログラムに於いて、前記イベント検出ステップは、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみが合った場合は、前記新規情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、、前記情報通知部により保存履歴としての前記キーワードをユーザに通知可能としたことを特徴とするプログラム。
【0205】
更に上記の付記に対応して本発明は次に列挙する実施例をもつ。
【0206】
(実施例1)
付記4記載の情報収集装置に於いて、前記ドキュメント保存部は、前記情報検索部で検索された検索済みドキュメントを、検索に使用したキーワードをインデックスとして保存することを特徴とする。
【0207】
(実施例2)
付記4記載の情報収集装置に於いて、前記情報検索部は、前記情報収集サイト先を定期的にアクセスしてサイト内のドキュメントをダウンロードして前記ドキュメント保存部に保存し、前記キーワード抽出部で抽出されたキーワードを用いて前記ドキュメント保存部に保存されたドキュメントを検索することを特徴とする。
【0208】
(実施例3)
実施例2記載の情報収集装置に於いて、前記情報検索部は、検索された回数をドキュメントごとに計数し、検索回数が予め定めた閾値以下のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0209】
(実施例4)
実施例3記載の情報収集装置に於いて、前記情報検索部は、前記ドキュメント保存部の空き容量の不足を判断した場合、前記前記閾値を大きくして閾値以下の検索回数のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0210】
(実施例5)
実施例2記載の情報収集装置に於いて、前記イベント検出部は、前記イベント収集先サイトから取得したドキュメントの更新領域に加え、削除された破棄領域を検出し、前記キーワード抽出部により前記破棄領域のキーワードを抽出して前記ドキュメント保存部に保存されたドキュメントを検索して削除することを特徴とする。
【0211】
(実施例6)
付記5記載の情報収集装置に於いて、前記情報検索部は、前記キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閏値を超えた場合は前記キーワードによるドキュメントの情報検索を再度一定期間継続し、前記閾値以下であった場合は、前記キーワードによる情報検索を停止することを特徴とする。
【0212】
(実施例7)
付記8記載の情報処理装置に於いて、前記キーワード抽出部は、前記情報検索部にキーワードとして出力した固有名詞を前記キーワードデータベースに追加登録することを特徴とする。
【0213】
(実施例8)
付記8記載の情報収集装置に於いて、前記キーワード抽出部は、前記イベント検出部で検出された情報の更新領域から複数のキーワードを抽出した場合、前記更新領域の内容に基づいて各キーワードの優先順位を付与して前記情報検索部に出力することを特徴とする。
【0214】
(実施例9)
付記9記載の情報収集装置に於いて、前記イベント検出部は、更新領域に追加された新規情報に外部サイトのリンクがあった場合、前記外部リンク先のドキュメントをダウンロードして前記ドキュメント保存部に保存すると共に前記新規情報情報の履歴に前記ドキュメント保存部の保存ドキュメントをリンクさせることを特徴とする。
【0215】
(実施例10)
付記14記載の情報収集方法に於いて、前記ドキュメント保存ステップは、前記情報検索ステップで検索された検索済みドキュメントを、検索に使用したキーワードをインデックスとして保存することを特徴とする。
【0216】
(実施例11)
付記14記載の情報収集方法に於いて、前記情報検索ステップは、前記情報収集先サイトを定期的にアクセスしてサイト内のドキュメントをダウンロードして前記ドキュメント保存部に保存し、前記キーワード抽出ステップで抽出されたキーワードを用いて前記ドキュメント保存部に保存されたドキュメントを検索することを特徴とする。
【0217】
(実施例12)
実施例11記載の情報収集方法に於いて、前記情報検索ステップは、検索された回数をドキュメントごとに計数し、検索回数が予め定めた閾値以下のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0218】
(実施例13)
実施例12記載の情報収集方法に於いて、前記情報検索ステップは、前記ドキュメント保存部の空き容量の不足を判断した場合、前記前記閾値を大きくして閾値以下の検索回数のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0219】
(実施例14)
実施例11記載の情報収集方法に於いて、前記イベントステップ、前記イベント収集先サイトから取得したドキュメントの更新領域に加え、削除された破棄領域を検出し、前記破棄領域のキーワードを抽出して前記ドキュメント保存部に保存されたドキュメントを検索して削除することを特徴とする。
【0220】
(実施例15)
付記15記載の情報収集方法に於いて、前記情報検索ステップは、前記キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閏値を超えた場合は前記キーワードによるドキュメントの情報検索を再度一定期間継続し、前記閾値以下であった場合は、前記キーワードによる情報検索を停止することを特徴とする。
【0221】
(実施例16)
付記18記載の情報処理方法に於いて、前記キーワード抽出ステップは、前記情報検索ステップにキーワードとして出力した固有名詞を前記キーワードデータベースに追加登録することを特徴とする。
【0222】
(実施例17)
付記18記載の情報収集方法に於いて、前記キーワード抽出ステップは、前記イベント検出ステップで検出された情報の更新領域から複数のキーワードを抽出した場合、前記更新領域の内容に基づいて各キーワードの優先順位を付与して前記情報検索部に出力することを特徴とする。
【0223】
(実施例18)
付記19記載の情報収集方法に於いて、前記イベント検出ステップは、更新領域に追加された新規情報に外部サイトのリンクがあった場合、前記外部リンク先のドキュメントをダウンロードして前記ドキュメント保存部に保存すると共に前記新規情報情報の履歴に前記ドキュメント保存部の保存ドキュメントをリンクさせることを特徴とする。
【0224】
(実施例19)
付記24記載のプログラムに於いて、前記ドキュメント保存ステップは、前記情報検索ステップで検索された検索済みドキュメントを、検索に使用したキーワードをインデックスとして保存することを特徴とする。
【0225】
(実施例20)
付記24記載のプログラムに於いて、前記情報検索ステップは、前記情報収集サイト先を定期的にアクセスしてサイト内のドキュメントをダウンロードして前記ドキュメント保存部に保存し、前記キーワード抽出ステップで抽出されたキーワードを用いて前記ドキュメント保存部に保存されたドキュメントを検索することを特徴とする。
【0226】
(実施例21)
実施例20記載のプログラムに於いて、前記情報検索ステップは、検索された回数をドキュメントごとに計数し、検索回数が予め定めた閾値以下のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0227】
(実施例22)
実施例21記載のプログラムに於いて、前記情報検索ステップは、前記ドキュメント保存部の空き容量の不足を判断した場合、前記前記閾値を大きくして閾値以下の検索回数のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0228】
(実施例23)
実施例20記載のプログラムに於いて、前記イベントステップ、前記イベント収集先サイトから取得したドキュメントの更新領域に加え、削除された破棄領域を検出し、前記破棄領域のキーワードを抽出して前記ドキュメント保存部に保存されたドキュメントを検索して削除することを特徴とする。
【0229】
(実施例24)
付記25記載のプログラムに於いて、前記情報検索ステップは、前記キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閏値を超えた場合は前記キーワードによるドキュメントの情報検索を再度一定期間継続し、前記閾値以下であった場合は、前記キーワードによる情報検索を停止することを特徴とする。
【0230】
(実施例25)
付記28記載のプログラムに於いて、前記キーワード抽出ステップは、前記情報検索ステップにキーワードとして出力した固有名詞を前記キーワードデータベースに追加登録することを特徴とする。
【0231】
(実施例26)
付記28記載のプログラムに於いて、前記キーワード抽出ステップは、前記イベント検出ステップで検出された情報の更新領域から複数のキーワードを抽出した場合、前記更新領域の内容に基づいて各キーワードの優先順位を付与して前記情報検索部に出力すること特徴とする。
【0232】
(実施例27)
付記29記載のプログラムに於いて、前記イベント検出ステップは、更新領域に追加された新規情報に外部サイトのリンクがあった場合、前記外部リンク先のドキュメントをダウンロードして前記ドキュメント保存部に保存すると共に前記新規情報情報の履歴に前記ドキュメント保存部の保存ドキュメントをリンクさせることを特徴とする。
【0233】
【発明の効果】
以上説明してきたように本発明によれば、イベント収集先サイトとして特定のサイトを監視し、サイト情報更新によるイベント発生を検出した場合にはその更新内容から新製品発表、新ウィルス発生などといったイベント特定するキーワードを抽出し、抽出したキーワードを使用して情報収集先サイトから情報を検索してユーザに表示し、これによってユーザがキーワードなどの情報を特定するための単語を設定する必要がなく、ユーザにとって未知の情報であっても複数の情報提供先から有効な情報を自動的に収集して、ユーザに通知することができる。
【0234】
特に情報の迅速な収集を必要とする新製品情報や新ウィルス発生情報などにつき、ユーザはイベント収集先サイトを予め登録しておくだけで新製品発表や新ウィルス発生というイベント発生の通知とともに、新製品の内容、評判、価格などといった情報、また新ウィルス発生についてはパソコンメーカーによるウィルス対策の情報をユーザに通知でき、ネットワーク上で起きているダイナミックイベントに対し、迅速かつ適切に必要な情報を収集してユーザに与えることができる。
【図面の簡単な説明】
【図1】本発明の原理構成の説明図
【図2】本発明による情報収集装置の実施形態の機能ブロック図
【図3】図2の実施形態が適用されるコンピュータのハードウェア資源の説明図
【図4】図2の実施形態による情報収集処理の基本的処理手順のフローチャート
【図5】イベント収集先サイトから取得した新製品発売情報の説明図
【図6】イベント収集先サイトから取得した新製品発売情報の他の形態の説明図
【図7】情報収集先サイトからキーワードにより検索したドキュメントを保存する本発明の他の実施形態のフローチャート
【図8】情報収集先サイトから収集したドキュメントを保存した後にキーワードにより保存ドキュメントを検索する本発明の他の実施形態のフローチャート
【図9】検索回数の少ない保存ドキュメントを削除する本発明の他の実施形態のフローチャート
【図10】図9に続く本発明の他の実施形態のフローチャート
【図11】保存ドキュメントを削除する検索回数の閾値を大きくして十分な空き容量を確保する本発明の他の実施形態のフローチャート
【図12】図11に続く本発明の他の実施形態のフローチャート
【図13】イベント収集先サイトの情報更新で削除された破棄領域からキーワードを抽出して保存ドキュメントを削除する本発明の他の実施形態のフローチャート
【図14】図13に続く本発明の他の実施形態のフローチャート
【図15】イベント発生検出から一定時間経過するまで定期的にキーワードによりドキュメントを検索する本発明の他の実施形態のフローチャート
【図16】一定期間のあいだ検索回数が閾値以下であれば発生イベントの新規性が失われたとして情報収集を停止する本発明の他の実施形態のフローチャート
【図17】図16に続く本発明の他の実施形態のフローチャート
【図18】リストサーバからイベント収集サイト及び情報収集先サイトを取得する本発明の他の実施形態のフローチャート
【図19】図18に続く本発明の他の実施形態のフローチャート
【図20】他の情報収集先装置からイベント収集サイト及び情報収集先サイトを取得する本発明の他の実施形態のフローチャート
【図21】図20に続く本発明の他の実施形態のフローチャート
【図22】本発明におけるキーワード抽出処理のフローチャート
【図23】イベント収集先サイトの更新に伴う新規情報と削除情報の履歴を保存して利用する本発明の他の実施形態のフローチャート
【図24】図23に続く本発明の他の実施形態のフローチャート
【図25】イベント収集先サイトの更新に伴う新規情報と削除情報の履歴をキーワードとして保存して利用する本発明の他の実施形態のフローチャート
【図26】図25に続く本発明の他の実施形態のフローチャート
【図27】イベント収集先サイトの更新に伴う新規情報にある外部リンク先からドキュメントを取得して保存する本発明の他の実施形態のフローチャート
【図28】図27に続く本発明の他の実施形態のフローチャート
【符号の説明】
10,10−1,10−2:情報収集装置
11:インターネット
12−1〜12−3:イベント収集先サイト
14−1〜14−3:情報収集先サイト
15−1:情報収集先リストサーバ
15−2:イベント収集先リストサーバ
16:ネットワーク接続部
18:イベント収集先サイト登録部
20:情報収集先サイト登録部
22:イベント検出部
24:キーワード抽出部
26:情報検索部
28:情報通知部
30:キーワードデータベース
32:ドキュメント保存部
34:表示部
36−1、36−2:ドキュメント
38,40:情報
【発明の属する技術分野】
本発明は、インターネット上のサイト情報を自動収集してユーザに通知する情報収集装置、方法及びプログラムに関し、特に、登録したサイトの情報更新を自動的に検出して更新内容に対応したサイト情報を自動収集してユーザに通知する情報収集装置、方法及びプログラムに関する。
【0002】
【従来の技術】
インターネット上には、企業や政府、自治体、個人などさまざまな情報データベース(サイト)が接続されており、インターネットのユーザはこれらの情報データベースから必要な情報、有益な情報を取得することができる。
【0003】
ネットワーク、例えばインターネット上には、テキスト、音声、画像など、各種のデータとそれらを組み合わせた情報(以下「ドキュメント」という)が登録されている。ドキュメントの種類は、広告、案内、マニュアル、ツールなど、非常に多岐に渡っており、特定のユーザにとって必要のないものもあれば、非常に有益なものもある。
【0004】
これらドキュメントの中でも、新しいドキュメントは特に利用価値が高い。例えば、新しいコンピュータウィルスの発生の通知や、それに対する防御方法、駆除方法などの情報は、インターネットに接続しているユーザにとって貴重な情報である。
【0005】
ネットワークの特徴のひとつは即時性である。ネットワーク上の情報は、タイムラグ無しに取得することができる。コンピュータウィルスに限らず、インターネット上あるいは実社会上で発生した事象(以下「イベント」という)の有無をインターネット上のドキュメントから取得することで、ユーザにとって有益な情報をすばやく取得することができる。
【0006】
ネットワーク上のドキュメントを取得する既存システムとしては、例えば検索エンジンがある。検索エンジンは、インターネット上のドキュメントとそのキーワードを共にサーバに登録し、ユーザが入力したキーワードで、情報を検索するシステムであり、エージェント、自動収集ロボットなどと呼ばれているが、インターネット上のサーバに格納されているドキュメントを走査し、表示用ドキュメントと検索用のキーワードデータベースとを生成する。
【0007】
それ以外のネットワーク上のドキュメントを取得する既存システムとしては、情報更新通知システムがある。この情報更新通知システムは、ユーザが指定した特定のページを定期的に監視し、変更があった場合その旨ユーザに通知するシステムである。これには、以下の方法が提案されている。
(1)特許第3036445号「ホームページの更新情報監視システム」
(2)第3062104号「WWW更新通知システム」
(3)特開平10−198614 号「ハイパーテキスト文書更新検知方法およびクライアント
(4)特開平11−15716号「文書更新通知装置および文書更新通知方法」
(5)特開平11−25020号「WWW掲載番組の内容に変更があったことを依頼者に通知する調査代行サービス装置」
(6)特開平11−259354 号「インターネット上の情報更新確認方法」
(7)特開2000−35913 号「ハイパーテキスト文書更新検知方法およびクライアント」
(8)特開2000−276394号「ウェブページ情報中継システムおよびウェブページ情報中継方法」
(9)特開2000−357122 号「ウェブページ更新通知方法、記録媒体およびウェブページ更新通知システム」
(10)特開2001−256100 号「ワールドワイドウェブブラウザ装置およびワールドワイドウェブの更新通知方法」
(11)特開2002−73455号「Webページ更新通知方法、クライアントサービスサーバおよびプログラム格納媒体」
これらはいずれも、インターネット上のWWWサイトが更新されたときに、更新されたことをユーザに通知する技術であり、ユーザはキーワードを設定することなく、情報の更新を知ることができる。
【0008】
【発明が解決しようとする課題】
しかしながら、このような従来のネットワーク上のドキュメントを取得するシステムや方法には、それぞれ課題がある。以下、これら従来技術の問題点に説明する。
【0009】
(検索エンジン)
検索エンジンは、予めインターネット上のサイトから情報を取得し、検索用のキーワードを用いてユーザが必要としている情報を抽出する。検索エンジンの第1の問題点は、ユーザがキーワードを設定しなければならないことである。
【0010】
インターネット上の膨大なドキュメントを対象とする検索エンジンでは、特定の情報を取得するためには、正確なキーワードを入力する必要がある。しかし、一般のユーザにとって「自分が欲しい情報」に関連する「キーワード」を適切に設定するのは困難である。
【0011】
例えば、子供の教育に興味のあるユーザが検索エンジンで「子育て」をキーワードに検索した場合、10万件以上のサイトがヒットする。これら検索結果全てにアクセスするのは不可能であるため、通常は他のキーワードを用いて絞込検索をしなければならない。
【0012】
しかし、絞り込み用にキーワードの設定を誤ると、数千件〜数万件の検索結果が残り絞り込みできていないことや、逆に絞り込みすぎて目的の情報が検索できなくなるなどの問題が生じる。このように、目的の情報を得るためのキーワードの設定は難しく、一般ユーザには容易に設定できない。
【0013】
検索エンジンの第2の問題点は、ユーザが欲している情報に関する情報を予めユーザが知っておかなければならないという点である。例えば、あるメーカA社が「XXX」という新製品を発売したとする。ユーザがこのA社の「XXX」に関する情報が欲しいと思った場合、ユーザが「A社がXXXを発売した」ということを知っていれば、「XXX」をキーワードに検索エンジンで検索することができる。
【0014】
しかし、ユーザが製品名を知らずに「A社が新製品を発表した」ということしか知らなければ、「XXX」をキーワードにすることはできない。「A社の新製品」で検索すると、「XXX」ではなく、それよりも古い製品のニュースリリース(ニュースリリース発表時は「新製品」)などがヒットする可能性がある。
【0015】
さらに、A社が新製品を出したことすら知らなければ、ユーザはA社の新製品に興味があるにもかかわらず、その情報を取得できない。そのためユーザは定期的にA社のホームページにアクセスして新製品が発表されたかどうかを確認し続ける必要がある。このように、目的の情報を得るためには予め目的の情報に関する事柄をユーザが知っておく必要があり、ユーザが知らない事柄に関する情報を取得することはできない。
【0016】
(WWWページの更新検知)
WWWの更新通知技術は、ユーザが定期的にアクセスする代わりにシステムが情報更新の有無を確認する。以下、既存のWWWページ更新方法の問題点を説明する。
【0017】
(1)特許第3036445号「ホームページの更新情報監視システム」
このシステムは、WWWのページのチェックサム、ファイルサイズ、ヘッダ情報などをもとに、ドキュメントの更新があったかどうかを判断している。このシステムで分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0018】
(2)特許第3062104号「WWW更新通知システム」
このシステムでは、WWWサーバのファイルの更新を検出する検出サーバが、ファイルの変更があった際に該ファイルに対応付けられたユーザに対して変更を通知する。このシステムでも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0019】
(3)特開平10−198614号「ハイパーテキスト文書更新検知方法およびクライアント」
この方法では、WWWサーバのファイルの更新をクライアント側がCRCを用いて検出する。この方法でも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0020】
(4)特開平11−15716号「文書更新通知装置および文書更新通知方法」
この装置及び方法では、文書の仲介を行う仲介装置が文書の更新の有無を検出し、検出があった場合、その旨ユーザに通知する。この場合、文書を要求したユーザに対しては、どこが変更されたか強調表示することで変更箇所を分かりやすく表示している。この装置及び方法は、文書の取得要求があったときに更新の有無を判断するため、取得要求の頻度の少ないドキュメントに対しては取得要求が発生するまで文書が更新したかどうかが分からない。また、ユーザに通知する内容も、前記(1)〜(3)と同様、更新したことだけであり、どんな更新が行われたかはユーザが文書要求して確認するしかない。
【0021】
(5)特開平11−25020号「WWW掲載番組の内容に変更があったことを依頼者に通知する調査代行サービス装置」
この装置では、WWW番組の内容に変更があったかどうかをユーザに代わって調査する調査代行サーバが、ユーザから要求のあった番組を監視し、変更があった場合そのことを依頼元のユーザに通知するシステムである。この装置でも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0022】
(6)特開平11−259354号「インターネット上の情報更新確認方法」
この方法では、Webサーバ内に文書の更新を監視するてWebページ確認サーバを有し、Web確認サーバがサーブレットに登録された情報に基づいてWebページの変更を確認する。この方法でも、前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0023】
(7)特開2000−35913号「ハイパーテキスト文書更新検知方法およびクライアント」
この方法では、前記(1)のシステムと同様、ドキュメントのチェックサムを比較してドキュメントの更新の有無を確認する。この方法でも、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0024】
(8)特開2000−276394号「ウェブページ情報中継システムおよびウェブページ情報中継方法」
この方法では、ウェブページを中継する中継システムが、ネットワークに対してポーリングを行い情報の更新の有無を確認する。変更があった場合、その変更内容をユーザに通知する。この方法は、前記(1)〜(7)とは異なり、変更があったことだけでなく変更内容そのものを送信するため、ユーザがアクセスすることなく変更内容を中継システムからの通知により確認することができる。
【0025】
この方法では、変更内容のみ確認できるが、それ以外の情報、例えば他サーバに格納されている変更内容に関連する情報に関しては、ユーザが他サーバをアクセスする必要がある。
【0026】
また、インターネット上のドキュメントの場合、変更が頻繁に行われる。例えばニュースサイトなどでは、1日〜2日程度で変更あるいは削除される場合がある。ユーザが変更通知を受け取っても、実際にアクセスするまでに間がある場合は、すでにドキュメント自体がなくなっている場合がある。
【0027】
(9)特開2000−357122号「ウェブページ更新通知方法、記録媒体およびウェブページ更新通知システム」
この方法では、WWWの情報更新を検知するサーバがクライアントに情報更新を伝える際に、電話番号通知機能を使って特定のサーバからの連絡であることを認証している。この方法は、意図していないサーバからの連絡を防ぐことができるため、セキュリティの高いシステムである。
【0028】
しかし、更新の内容については、前記(1)のシステムと同様、ユーザがアクセスしなければどんな更新がなされたか知ることはできない。
【0029】
(10)特開2001−256100号「ワールドワイドウェブブラウザ装置およびワールドワイドウェブの更新通知方法」
この方法では、WWWの情報が更新された際に、WWWブラウザにその旨を示す画像を表示することで、ユーザに情報更新を通知する。この方法でも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0030】
(11)特開2002−73455号「Webページ更新通知方法、クライアントサービスサーバおよびプログラム格納媒体」
この方法は、予めユーザから更新通知の要求のあったWebページの情報とユーザの電子メールアドレスとを保存し、更新を検知したときは該電子メールアドレスにその旨通知するシステムである。この方法でも前記(1)のシステムと同様、分かるのは変更があったということだけであり、どんな変更があったのかはユーザがアクセスして確認する必要がある。
【0031】
以上のように、従来の方法は、いずれも予め定めたページが更新された際に、そのことをユーザに通知する技術である。即ち(1)〜(7)及び(9)〜(11)の従来技術は、更新があったことだけをユーザに通知するだけで、どのような更新が行われたかはユーザが直接アクセスして確認するしかない。
【0032】
また、(8)の従来技術では、変更内容をユーザに通知するため、ユーザは元情報にアクセスすることなく更新の内容を知ることができる。しかし、この技術でも、知ることができるのは更新があったドキュメント(WWWページ)に関してのみである。
【0033】
例えば、新製品情報が企業のホームページに登録されたとき、「新製品情報」のページなどを監視することで新製品が登録されたことを知ることはできるが、その新製品の詳細な概要は別の場所に登録されていることが多い。また、その製品の評判が知りたいときは、他のサーバ、例えば技術系ニュースサイトや掲示板サイトなどにアクセスしなければならない。
【0034】
このように従来技術にあっては、更新された情報のより詳細な情報を得るためには、「更新された」という通知を元に、ユーザが自身で情報を収集しなければならない。
【0035】
本発明は、ユーザがキーワードなどを設定することなく、未知の情報であっても、ユーザの代わりに複数の情報提供先から情報を収集可能とする情報収集装置、方法及びプログラムを提供することを目的とする。
【0036】
【課題を解決するための手段】
図1は本発明の原理説明図である。本発明は、情報収集装置であって、図1(A)のように、ネットワークに接続するネットワーク接続部16と、ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録部18と、テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録部20と、登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出部22と、イベント検出部22で検出された情報の更新領域からキーワードを抽出するキーワード抽出部24と、キーワード抽出部24で抽出されたキーワードを用いて登録された情報収集先サイト内のドキュメントを検索する情報検索部26と、情報検索部26による検索結果をユーザに通知する情報通知部28とを備えたことを特徴とする。
【0037】
このため本発明は、イベント収集先サイトとして特定のサーバ、例えばWWWサイトを監視し、情報の更新によるイベント発生を検出した場合は、その更新内容から新製品発表、新ウィルス発生などのイベントを特定するキーワードを抽出し、このキーワードを使用して情報収集先サイトとして登録したサーバから情報を収集してユーザに自動的に通知する。この結果、ユーザがキーワードなどの情報を特定するための単語を設定することなく、ユーザにとって未知の情報であっても、複数の情報提供先から情報を自動的に収集してユーザに提供できる。
【0038】
ここで、イベント検出部22は、イベント収集先サイトをアクセスしてサイト内のドキュメントをダウンロードしてリファレンスとして保存し、その後、同じイベント収集先サイトからダウンロードしたと共に、このダウンロードドキュメントを用いてリファレンスを更新する。
【0039】
また情報検索部26は、情報収集先サイトをアクセスしてサイト内のドキュメントをダウンロードし、ダウンロードしたドキュメントの中からキーワードを用いて該当するドキュメント部分を検索する。
【0040】
本発明の情報収集装置は、更に、情報検索部26により情報収集先サイトから取得されたドキュメントを保存するドキュメント保存部32を設ける。ドキュメント保存部32は、情報検索部26で検索された検索済みドキュメントを、検索に使用したキーワードをインデックスとして保存する。このため、情報収集先サイトから情報が削除されても、ユーザは必要なドキュメントにいつでもアクセスすることができる。
【0041】
情報検索部26は、情報収集サイト先を定期的にアクセスしてサイト内のドキュメントをダウンロードしてドキュメント保存部32に保存し、その後、イベント検出時にキーワード抽出部で抽出されたキーワードを用いてドキュメント保存部32に保存されたドキュメントを検索する。
【0042】
このため、イベント発生を検出し、関連情報の検索し、ユーザに通知するという順番で処理することを本発明の基本とするが、情報の種類によっては、情報収集先サイトに情報が登録されるのが先で、後日にイベント収集先サイトに情報が登録される場合がある。このような場合には、イベント収集先サイトからイベント発生を検知したときには情報収集先サイトからすでに情報が削除されている場合がある。
【0043】
そこで、予め情報収集先サイトのドキュメントを外部記憶装置等のドキュメント保存部32に保存しておき、保存しているドキュメントに対して検索を行うことで、イベント収集先サイトより先に情報収集先サイトに登録された情報であっても、収集することができる。
【0044】
情報検索部26は、検索された回数をドキュメントごとに計数し、検索回数が予め定めた閾値以下のドキュメントをドキュメント保存部32から削除し、新しいドキュメントの保存ができなくなることを防ぐ。ドキュメント削除のタイミングはドキュメント収集時や一定期間ごとに行えば良い。
【0045】
情報検索部26は、ドキュメント保存部32の空き容量の不足を判断した場合、検索回数を判断する閾値を大きくして閾値以下の検索回数のドキュメントをドキュメント保存部32から削除する。これによって検索回数が予め定めた閾値以下のドキュメントを削除しても外部記憶装置内の空き容量が十分でない場合、闘値を大きくすることで、空き容量を増やすことができる。
【0046】
イベント検出部22は、イベント収集先サイトから取得したドキュメントの更新領域に加え、削除された破棄領域を検出し、破棄領域から抽出されたキーワードによりドキュメント保存部32を検索して保存されたドキュメントから破棄領域を削除する。
【0047】
このためイベント収集先サイトの情報更新から抽出されたキーワードにより検索されて保存されている情報収集サイトのドキュメントは、古くなってイベント収集先サイトの情報更新により削除されると、削除された破棄領域からキーワードを抽出して保存ドキュメントが自動的に削除され、保存ドキュメントが増えすぎて満杯になることを防ぐ。
【0048】
情報検索部26は、キーワード抽出部24で抽出されたキーワードを用いて一定期間に亘り定期的に登録された情報収集先サイト内のドキュメントを検索する。これにより次の作用が得られる。イベント収集先サイトからイベント発生を検出して情報収集先サイトからドキュメントの検索を開始した場合、イベント収集先サイトと情報収集先サイトが異なる場合は、各サイトへの情報登録のタイミングが異なる場合がある。
【0049】
この場合、イベントを検出して情報収集を開始しても情報収集先サイトにはまだ登録されておらず、必要な情報が得られない。そこで、一定期間に亘り定期的に情報検索を繰り返すことで、イベント収集先サイトと情報収集先サイトでの登録のタイミングのずれによる情報収集漏れを防ぐ。
【0050】
情報検索部26は、キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閾値を超えた場合は、キーワードによるドキュメントの情報検索を再度一定期間継続し、閾値以下であった場合は、キーワードによる情報検索を停止する。これにより次の作用が得られる。
【0051】
イベント収集先サイトと情報収集先サイトでの登録のタイミングのずれがあると、定期的に検索してもタイムラグの長さによってはやはり情報を取得できない場合がある。そこで、検索回数を保存し、一定期間の検索回数が予め定めた闘値以下であれば、イベントの新規性が薄れてきたと判断して情報収集を停止する。
【0052】
イベント収集先サイト登録部18は、ネットワークを介してイベント収集先リストサーバからイベント収集先サイトを取得して登録し、情報収集先サイト登録部20は、ネットワークを介して情報収集先リストサーバから情報収集先サイトを取得して登録する。本発明は、イベント収集先サイトや情報収集先サイトを予め登録するが、専用のサーバからリストを取得して登録するようにしても良い。
【0053】
またイベント収集先サイト登録部18は、ネットワークを介して同一構成を備えた他の情報収集装置からイベント収集先サイトを取得して登録し、同様に、情報収集先サイト登録部20は、ネットワークを介して同一構成を備えた情報収集装置から情報収集先サイトを取得して登録するようにしても良い。これは本発明の情報収集装置は、インターネットを介して接続されているコンピュータ上に存在していることから、同じ情報収集装置の間で相互にイベント収集先サイトや情報収集先サイトを利用し合う形態、所謂ピア・ツー・ピアとして利用する。
【0054】
キーワード抽出部24は、イベント検出部で検出された情報の更新領域を形態素解析して品詞ごとに分割した後に固有名詞のみを抽出し、抽出した名詞がキーワードデータベース30に登録されている既存のキーワードと異なる場合に、情報検索部26に抽出した固有名詞をキーワードとして出力する。これによってイベント収集先サイトの更新情報から例えば新製品名や新しいコンピュータウィルス名などをキーワードとして出力し、このキーワードによる情報収集先サイトからのドキュメント検索による情報収集ができる。
【0055】
キーワード抽出部24は、情報検索部26にキーワードとして出力した固有名詞をキーワードデータベース30に追加登録する。これにより今回のイベントで抽出したキーワードをキーワードデータベース30に追加登録して、次回以降のイベントで再度キーワードとして抽出されることを防ぎ、検索の済んだキーワードによる検索が不必要に行われることを回避する。
【0056】
キーワード抽出部24は、イベント検出部22で検出された情報の更新領域から複数のキーワードを抽出した場合、更新領域の内容に基づいて各キーワードの優先順位を付与して情報検索部26に出力する。
【0057】
イベント検出部22は、イベント発生を検出したイベント収集先サイトの更新領域に新規情報のみの追加があった場合は、新規情報の履歴を保存し、更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴を保存し、情報通知部28により保存履歴をユーザに通知可能とする。
【0058】
この更新履歴の保存によって、イベント収集先サイトの更新された情報の一覧等をユーザに通知でき、どのような時系列で情報が更新、削除されたかを知ることができる。例えば新規情報と削除情報をマージすることによって、例えば過去から現在まで開発した製品の一覧と、現在まだ扱っている製品一覧を得ることができる。
【0059】
イベント検出部22は、イベント発生を検出したイベント収集先サイトの更新領域に新規情報のみの追加が合った場合は、新規情報の履歴としてキーワード抽出部24で抽出されたキーワードを保存し、また更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴としてキーワード抽出部24で抽出されたキーワードを保存し、情報通知部28により保存履歴したキーワードをユーザに通知可能とする。
【0060】
このためキーワードを抽出して更新履歴としてキーワードの一覧をユーザに通知することで、更新領域の履歴のみを並べた場合に比べ、履歴を容易に把握できる。
【0061】
イベント検出部22は、更新領域に追加された新規情報に外部サイトのリンクがあった場合、外部リンク先のドキュメントをダウンロードしてドキュメント保存部32に保存すると共に、新規情報の履歴にドキュメント保存部32の保存ドキュメントをリンクさせる。これにより情報収集先サーバからドキュメントが削除されても、ユーザは常にドキュメントにアクセスすることができる。
【0062】
本発明は、ネットワーク環境を対象とした情報収集方法を提供する。この情報収集方法は、
イベント収集先サイト登録部により、ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
情報収集先サイト登録部により、テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
イベント検出部により、登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出ステップと、
キーワード抽出部により、イベント検出ステップで検出された情報の更新領域からキーワードを抽出するキーワード抽出ステップと、
情報検索部により、キーワード抽出ステップで抽出されたキーワードを用いて登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、情報通知部により、情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を備えたことを特徴とする。
【0063】
また本発明は、コンピュータで実行されるプログラムを提供する。このプログラムは、コンピュータに、
ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無から判別してイベント発生の有無を検出するイベント検出ステップと、
前記イベント検出ステップで検出された情報の更新領域からキーワードを抽出するキーワード抽出ステップと、
キーワード抽出ステップで抽出されたキーワードを用いて登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、
情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を実行させることを特徴とする。
【0064】
本発明による情報収集方法及びプログラムの詳細は、情報収集装置の場合と基本的に同じになる。
【0065】
【発明の実施の形態】
図2は、本発明による情報収集装置の実施形態を、本発明が適用されるネットワーク環境と共に示した機能ブロック図である。
【0066】
図2において、本発明の情報収集装置10は、例えばユーザが保有しているパーソナルコンピュータにより実現されており、インターネット11などのネットワークに接続されてインターネット上に構築されている情報データベースとして機能するサイトからユーザに必要な情報を収集して利用する。
【0067】
本発明の情報収集装置10にあっては、インターネット11に接続されている各種のサーバ、例えばftpサーバ、WAISサーバ、Archieサーバ、WWWサーバ、NEWSサーバをアクセス対象とすることができ、この実施形態にあってはWWWサーバを例にとって説明する。
【0068】
本発明にあっては、インターネット上あるいは実社会で発生した事象をイベントと定義しており、このイベントの有無をインターネット上のサイトから取得することで、ユーザにとって有益な情報を収集する。このため本発明にあっては、イベント発生の有無を検出する対象となるサーバをイベント収集先サイトと呼んでおり、図2の例にあってはインターネット11に接続されているWWWサーバで構築されているイベント収集先サイト12−1,12−2,12−3をイベント発生の検出先としている。
【0069】
また本発明にあっては、特定の情報を収集するWWWサーバを情報収集先サイトと定義しており、図2の例にあってはWWWサーバで実現される3つの情報収集先サイト14−1,14−2,14−3を例にとって示している。このイベント収集先サイト12−1〜12−3と情報収集先サイト14−1〜14−3は、別のWWWサーバであってもよいし、同じWWWサーバであってもよい。
【0070】
本発明の情報収集装置10は、ネットワーク接続部16、イベント収集先サイト登録部18、情報収集先サイト登録部20、イベント検出部22、キーワード抽出部24、情報検索部26、情報通知部28、キーワードデータベース30、ドキュメント保存部32及び表示部34を備えている。
【0071】
イベント収集先サイト登録部18は、イベント発生の有無を検出するためのイベント収集先サイト12−1〜12−3を登録している。具体的には、イベント収集先サイト12−1〜12−3のアドレスとなるURLを登録している。イベント収集先サイトとしては、ユーザが情報収集を必要とする任意のサイトを検索もしくは収集して、予め登録している。
【0072】
情報収集先サイト登録部20は、テキスト、画像、音声などのデータを含む情報を収集するための情報収集先サイト14−1〜14−3を予め登録する。ここで、本発明の情報収集装置10が収集するインターネット上のテキスト、画像、音声などを含む情報をドキュメントと定義する。情報収集先サイト登録部20にもイベント収集先サイト登録部18と同様、情報収集先サイト14−1〜14−3のURLを例えばユーザが予め調べて登録している。
【0073】
イベント検出部22は、イベント収集先サイト登録部18に登録されたイベント収集先サイト12−1〜12−3から情報を取得し、取得した情報の変化領域となる更新の有無からイベント発生の有無を検出し、イベント収集先サイトの情報に変化があったことを、情報通知部28を介して表示部34に表示してユーザに通知する。
【0074】
キーワード抽出部24は、イベント検出部22で検出されたイベント収集先サイトの情報の更新領域、即ち変化のあった領域からキーワードを抽出する。このキーワード抽出は更新領域のテキスト文書の形態素解析により、例えば名詞としてのキーワードを抽出する。
【0075】
キーワード抽出部24に対し設けているキーワードデータベース30は、過去のイベント検出で抽出された使用済みのキーワードが登録されている。このためキーワード抽出部24は、新たなイベント検出でキーワードを抽出した際にキーワードデータベース30を参照し、もし既に登録されたキーワードと同じであれば、抽出したキーワードによる情報収集は済んでいることからキーワードを破棄し、一方、キーワードデータベース30に登録されていなければ、新たなキーワードとして情報検索部26に出力する。
【0076】
情報検索部26は、キーワード抽出部24で検出されたキーワードを用いて、情報収集先サイト登録部20に登録されている情報収集先サイト14−1〜14−3のドキュメントを検索し、キーワードを含むドキュメントを取得する。
【0077】
更に情報通知部28は、情報検索部26によりキーワードに基づいて検索された検索結果としての情報収集先サイト14−1〜14−3のいずれかから得られた検索結果としてのドキュメントの存在を表示部34に表示してユーザに通知する。
【0078】
また情報収集装置10の情報検索部26に対してはドキュメント保存部32が設けられている。ドキュメント保存部32は、情報検索部26の検索結果として得られたドキュメント、あるいは情報収集処理に先立ってイベント収集先サイト登録部18の登録先となるイベント収集先サイト12−1〜12−3から予め取得したドキュメントなどを保存する。
【0079】
このドキュメント保存部32は、保存先としてハードディスクドライブHDDを使用しており、併せてハードディスクドライブHDDに対する保存制御の機能を備えている。この点はイベント収集先サイト登録部18、情報収集先サイト登録部20、更にキーワードデータベース30についても同様であり、それぞれ保存先としてハードディスクドライブHDDの領域を割り当てており、これに加えて登録制御、データベースアクセスの制御機能を併せて備えている。
【0080】
更に、図2のインターネット11に対しては本発明の情報収集装置10と同じ構成を備えた情報収集装置10−1,10−2が接続されており、これは他のユーザが使用している本発明の情報収集装置である。
【0081】
またインターネット11に対しては情報収集先リストサーバ15−1やイベント収集先リストサーバ15−2が接続されている場合があり、本発明の情報収集装置10にあっては情報収集先サイト及びイベント収集先サイトの登録の際に、情報収集先リストサーバ15−1やイベント収集先リストサーバ15−2にアクセスして、それぞれの収集先のリストを収集して、情報収集先サイト登録部20やイベント収集先サイト登録部18に対する登録を行うことができるようにしている。
【0082】
図2における本発明の情報収集装置10は、例えば図3のようなコンピュータのハードウェア資源により実現される。
【0083】
図3のコンピュータにおいて、CPU100のバス101にはRAM102、ハードディスクドコントローラ(ソフト)104、フロッピィディスクドライバ(ソフト)110、CD−ROMドライバ(ソフト)114、マウスコントローラ118、キーボードコントローラ122、ディスプレイコントローラ126、通信用ボード130が接続される。
【0084】
ハードディスクコントローラ104はハードディスクドライブ106を接続し、本発明の情報収集処理を実行するアプリケーションプログラムをローディングしており、コンピュータの起動時にハードディスクドライブ106から必要なプログラムを呼び出して、RAM102上に展開し、CPU100により実行する。
【0085】
フロッピィディスクドライバ110にはフロッピィディスクドライブ(ハード)112が接続され、フロッピィディスク(R)に対する読み書きができる。CD−ROMドライバ114に対しては、CDドライブ(ハード)116が接続され、CDに記憶されたデータやプログラムを読み込むことができる。
【0086】
マウスコントローラ118はマウス120の入力操作をCPU100に伝える。キーボードコントローラ122はキーボード124の入力操作をCPU100に伝える。ディスプレイコントローラ126は表示部34に対して表示を行う。通信用ボード130は無線を含む通信回線132を使用し、インターネット等のネットワークを介して他のコンピュータやサーバとの間で通信を行う。
【0087】
図4は、図2の情報収集装置10による本発明の情報収集処理の基本的な処理手順を示したフローチャートであり、このフローチャートが本発明による情報収集のためのアプリケーションプログラムの実施形態に対応する。
【0088】
図4において、まずステップS1でイベント収集先サイト登録部18にイベント収集先サイトを登録する。ここではイベント収集先サイトとして、例えばA社のトピックスのページのURLを登録する。このA社のトピックスのURLを使用してイベント収集先サイトにアクセスすると、例えば図5(A)のような新製品情報に関するドキュメント36−1が取得できる。
【0089】
続いてステップS2で、情報収集先サイト登録部20に情報収集先サイトを登録する。この情報収集先サイトはA社のホームページであってもよいし、A社と同じ業種を含む製品紹介などを行っている他の情報収集先サイトなどを登録してもよい。
【0090】
次にステップS3で、イベント収集先サイトであるA社のトピックスのページにアクセスし、図5(A)のような新製品情報のドキュメント36−1をダウンロードし、これをリファレンスとして保存する。リファレンスとして保存される図5(A)の新製品情報のドキュメント36−1は、例えば新製品「AAA」〜「FFF」について、発売開始とその年月日が記述されている。
【0091】
続いてステップS4で登録したイベント収集先サイトに定期的にアクセスしてドキュメントをダウンロードし、ステップS5で保存ページであるリファイレンスと取得ページを比較し、ステップS6で変化があるかどうか判断する。
【0092】
この定期的なイベント収集先サイトのページのダウンロードで、例えば図5(B)のような新製品情報のドキュメント36−2が取得されたとする。この新製品情報のドキュメント36−2は、図5(A)のリファレンスとしてのドキュメント36−1と対比すると、リファレンスのドキュメント36−1の一番下の最も古い新製品「AAA」に関する情報38が削除されて、先頭に新製品「XXX」の情報40が追加されている。
【0093】
ここで図5(A)のリファレンスとしてのドキュメント36−1から削除されている最も古い情報38を破棄領域とする。また、図5(B)のドキュメント36−2において新たに追加された新規な情報40を更新領域という。
【0094】
このようにして図5(A)のリファレンスとしてのドキュメント36−1に対し、新たに取得したリファレンス36−2に変化があった場合、ステップS7で、取得した図5(B)のドキュメント36−2の更新領域となる新規な情報40を抽出し、イベント発生をユーザに通知した後、ステップS8で保存ページとしてのリファレンスを更新する。
【0095】
次にステップS9で、図5(B)の更新領域の新規な情報40を対象に、キーワード抽出部24が、検出したイベント発生を特定するキーワードを抽出する。この例にあっては、キーワードとして新製品名である「XXX」がキーワードとして抽出される。
【0096】
このようにして抽出されたキーワードは情報検索部26に与えられ、次のステップS10で情報検索部26が抽出されたキーワードにより登録されている情報収集先サイトのドキュメントを検索し、ステップS11で検索結果を情報通知部28により表示部34に表示してユーザに通知する。
【0097】
このキーワードによる情報検索としては、イベント発生により抽出されたキーワードであるA社の製品名「XXX」を使用した検索によって、A社のサイトにはない「XXX」の評判、レビュー、欠点、小売価格などの情報を自動的に収集してユーザに提供することができる。
【0098】
また本発明の情報収集装置10を使用してユーザがコンピュータウィルスに関する情報収集をしたい場合には、ステップS1においてイベント収集先サイトにアンチウィルスソフト開発会社のURLを予め登録し、またステップS2の情報収集先サイトにパソコンメーカーのホームページを登録しておく。
【0099】
これによりイベント収集先サイトのアクセスによるイベント発生の検出で新しいウィルスの発生を検出し、この新しいウィルスの発生検出により抽出したキーワード例えばウィルス名などによる情報収集先サイトの検索で、新しいウィルスに対しパソコンユーザとしてどのように対処すべきかといった有益な情報を自動的に収集して、ユーザに示すことができる。
【0100】
このように本発明の情報収集装置にあっては、イベント収集先として特定のサイトを監視し、このイベント収集先サイトの情報に更新があった場合は、その更新内容から新製品発表や新ウィルス発生などのイベントを特定するキーワードを生成し、このキーワードにより情報収集先サイトからキーワードを含む情報を収集することにより、ユーザはキーワードなどの情報を特定するための単語を設定する必要がなく、このためユーザにとって未知の情報であっても、ユーザの代わりに情報収集装置10が複数の情報提供先から必要な情報を収集してユーザに提供することができる。
【0101】
ここで、イベント収集先サイトにおける新規情報の追加による更新の形態としては、図5(A)のように、最も古い情報38を削除し図5(B)のように新規な情報40を追加する形態の他に、図6のように古い情報を削除することなく新規情報を追加する場合もある。
【0102】
図6(A)は、図5(A)と同じ最初に得られた新製品のドキュメント36−11であり、これに続いて新製品の情報40の追加により図6(B)のようなドキュメント36−12が得られる。この追加した情報40を含むドキュメント36−12は、最も古い新製品「AAA」の情報38を削除せずに残し、先頭に新製品「XXX」の情報40を追加している。もちろんサイトによっては、図5と図6の両者を組み合わせた新規情報の更新の形態をとる場合もある。
【0103】
図7は、図2の情報収集装置10の他の実施形態における処理手順のフローチャートである。この図7の実施形態にあっては、情報検索部26でイベント発生検出に基づいてキーワード抽出部24で抽出されたキーワードを用いた情報収集先サイトの検索で得られたドキュメントを、ドキュメント保存部32に保存するようにしたことを特徴とする。
【0104】
即ち、図7のステップS1〜S10は図4と同じであるが、ステップS11で情報検索部26によりキーワードを用いて得られたドキュメントをドキュメント保存部32に保存している。この検索により収集されたドキュメントの保存の際には、検索に使用したキーワードと収集したドキュメントをリンクさせてドキュメント保存部32に保存する。
【0105】
このようにキーワードに基づいて検索されたドキュメントを情報収集先サイトからダウンロードしてハードディスクドライブなどの外部記憶装置で構成されるドキュメント保存部32に保存することにより、情報収集先サイトから情報が、その後に削除されても、ユーザは必要なドキュメントについて、情報収集装置10自身のドキュメント保存部32に対し例えばキーワードをインデックスに使用したアクセスで、いつでも利用できる。
【0106】
図8は、図2の情報収集装置10における他の実施形態の処理手順のフローチャートである。この図8の実施形態にあっては、イベント検出による情報検索に先立って、まず情報収集先サイト14−1〜14−3からドキュメントを取得してドキュメント保存部32に保存しておき、イベント検出部22でイベント発生を検出した場合、キーワード抽出部24で抽出したキーワードを用いて、情報検索部26がドキュメント保存部32に保存しているドキュメントを対象に情報検索を行うようにしたことを特徴とする。
【0107】
図8の情報収集処理にあっては、ステップS1でイベント収集先サイトを登録した後、ステップS2で情報収集先サイトを登録すると、ステップS3で登録した情報収集先サイトからドキュメントを取得してドキュメント保存部32に保存する。
【0108】
これによってステップS3以降にあっては、ネットワーク上の情報収集先サイトから改めてドキュメントを取得することなく、情報収集装置10自身のドキュメント保存部32に保存している情報収集先のドキュメントを対象に、イベント発生に基づく情報検索を行うことになる。
【0109】
即ちステップS4〜S12の処理により、図4のステップS3〜S11の場合と同様に、イベント発生の検出、イベント発生の検出による変化領域の抽出、変化領域からのキーワードの抽出、キーワードを用いたドキュメント保存部32の保存ドキュメントを対象とした検索、及び検索結果のユーザ通知を行うことになる。
【0110】
このような図8の情報収集先サイトのドキュメントを予め保存して検索する処理は、情報の種類によっては情報収集先サイトに情報を登録するのが先で後日にイベント収集先サイトに情報が登録される場合に好適である。
【0111】
イベント収集先サイトでイベント発生を検出したときには先に情報が登録された情報収集先サイトから既に対応する情報が削除されている場合、図8の実施形態にあっては、予め情報収集先サイトの情報をドキュメント保存部32に保存した後にイベント発生を検出してドキュメント保存部32内の保存ドキュメントを対象に検索を行っているため、ネットワーク上の情報収集先サイトで既に情報が削除された後であっても、確実にイベント発生に基づいたキーワードによる情報検索を行ってユーザに提供することができる。
【0112】
図9及び図10は、図8の実施形態のように、情報収集先サイトのドキュメントを予めドキュメント保存部32に保存した後にイベント発生に基づく情報収集を行う実施形態について、ドキュメント収集を継続するとドキュメント保存部32を構築しているハードディスクドライブなどの外部記憶装置が満杯となり、新しいドキュメントが保存できなくなることから、これを回避するために定期的にドキュメントを削除する処理を加えている。
【0113】
図9において、ステップS1〜S11は図8の実施形態と同じであるが、図9に続く図10のステップS12〜S14の処理において、ドキュメント保存部32からドキュメントを削除する処理を行う。
【0114】
即ちステップS12で、情報検索部26により検索したドキュメントの検索回数を計数しており、ステップS3で検索回数が閾値以下のドキュメントをドキュメント保存部32から削除する。例えばステップS13における閾値を0とし、検索回数が0のドキュメントをドキュメント保存部32から削除する。
【0115】
このステップS12,S13における検索回数の計数と削除のタイミングは、別のタイミングで行ってもよい。またステップS13の削除はドキュメントの収集時に行ってもよいし、別にタイマを保持して一定時間ごとに行ってもよい。
【0116】
図11及び図12は、保存ドキュメントを削除する他の実施形態を含む本発明の情報収集処理のフローチャートである。この実施形態にあっては、検索回数が予め定めた閾値以下のドキュメントを削除してもドキュメント保存部32の空き容量が十分でない場合に、閾値の値を大きくすることでドキュメント保存部32における空き容量を増やすようにしたことを特徴とする。
【0117】
図11において、ステップS1〜S11は図8の実施形態と同じであるが、図12のステップS12〜S17による処理で空き容量を増やすように検索回数の閾値を変更する処理を行う。
【0118】
即ちステップS12で検索したドキュメントの検索回数を計数した後、ステップS13でドキュメント保存部32の空き容量は十分か否かチェックする。空き容量が不足している場合にはステップS14に進み、閾値を例えば1つ大きくする。
【0119】
この閾値は初期状態にあっては例えば0であることから、ステップS14では閾値は1となる。続いてステップS15で検索回数が大きくした閾値以下のドキュメントを削除する。これによって閾値0で削除していたドキュメントの数に対し、閾値を1つ増加したことで、削除するドキュメントの数を増やすことができ、ドキュメントの削除による空き容量を大きくすることができる。
【0120】
ステップS15でドキュメントの削除を行うと、ステップS16で、このときの検索結果をユーザに通知した後、再びステップS13に戻り、空き容量は十分か否かチェックする。もちろん、空き容量が十分か否かは予め定めた空き容量の閾値を使用して判断する。
【0121】
空き容量が十分でなければ、ステップS14〜S16の処理を繰り返す。空き容量が十分に確保できた場合には、ステップS17で再び閾値を初期値である0に戻した後、図11のステップS3からの処理を繰り返す。
【0122】
図13及び図14は、ドキュメント保存部からドキュメントを削除する本発明の情報収集装置における他の処理手順の実施形態のフローチャートである。この実施形態にあっては、図5(A)(B)のようなイベント収集先サイトから得られたリファレンスとしてのドキュメント36−1と新規情報を含むドキュメント36−2の比較で判断される破棄領域として削除された情報38に対応した保存ドキュメントを削除するようにしたことを特徴とする。
【0123】
図13のステップS1〜S11は図8のステップS1〜S11と同じであり、これに続いて図14のステップS12〜S14で図5(A)の削除した情報38に対応するドキュメントの削除処理を行っている。
【0124】
即ち、ステップS12でイベント収集先のページ更新により削除された情報、例えば図5(A)の情報38から、キーワードとして「AAA」を抽出する。続いてステップS13で、抽出したキーワード「AAA」を用いて、ドキュメント保存部32に保存している情報収集先サイトのドキュメントを検索する。これによって、保存されているキーワード「AAA」に対応したドキュメントが検索され、ステップS13でドキュメント保存部32から削除する。
【0125】
このような図13,図14の保存ドキュメントの削除処理により、ドキュメント保存部32に保存されているドキュメントの中から、イベント発生の検出によりイベント収集先サイトから削除された情報に対応する古いドキュメントを自動的に削除していくことができる。
【0126】
図15は、図2の情報収集装置10における本発明の情報収集処理の他の実施形態の処理手順のフローチャートである。この実施形態にあっては、イベント発生の検出により抽出したキーワードを用いた情報収集先サイトに対する情報検索を、一定期間継続して定期的に行うようにしたことを特徴とする。
【0127】
図15において、ステップS1〜S11の処理は図4のステップS1〜S11と同じであるが、これに加えてステップS12で予め定めた一定期間が経過したか否かチェックしている。一定期間を経過するまではステップS10,S11のキーワードによる情報収集先のドキュメントの検索を定期的に繰り返してユーザに通知するようにしている。
【0128】
この図15の処理は、イベント収集先サイトと情報収集先サイトが異なる場合の各サイトにおける情報登録のタイミングずれに対応する。即ち、イベント収集先サイトからイベント発生を検出しても、情報収集先サイトにまだ情報が登録されておらず、必要な情報が得られない場合がある。
【0129】
このような場合、図15の実施形態にあっては、ステップS12で一定期間経過するか否か判断することで、ステップS10,S11の処理の繰り返しによりキーワードを用いた情報検索を繰り返すことで、情報収集先サイトに対する情報登録のタイミングずれによる情報収集漏れを防ぐことができる。
【0130】
図16及び図17は、図15の実施形態ではカバーできない情報収集先サイトに対する情報登録のタイミングずれによる情報収集漏れを防ぐようにした本発明の情報収集処理の他の実施形態のフローチャートである。
【0131】
即ち、図15の実施形態にあっては、キーワードによる情報検索を一定時間経過するまで定期的に繰り返すことにより、情報収集先サイトの情報登録によるタイムラグがあっても情報収集漏れを防ぐようにしているが、タイムラグの長さによっては、やはり情報を収集できない場合がある。
【0132】
そこで図16及び図17の実施形態にあっては、キーワードを用いた情報検索結果の回数を保持し、一定期間の検索回数が予め定めた閾値以下であれば、イベントの新規性が薄れてきたと判断して、キーワードを用いた情報収集を停止するようにしている。
【0133】
図16のステップS1〜S11は図15のステップS1〜S11と同じであるが、これに続く図17のステップS12〜S14の処理でイベントの新規性が薄れてきたことを判断して、情報収集を停止する。即ち、ステップS12で検索回数の履歴を計数して保存し、ステップS13で一定期間経過した否かチェックし、一定期間経過した場合にはステップS14で検索回数が閾値以下か否かチェックする。
【0134】
検索回数が閾値を超えていればイベントの新規性が高いものと判断し、図16のステップS10からのキーワードによる情報収集先サイトのドキュメントの検索を繰り返す。
【0135】
ステップS14で検索回数が閾値以下となった場合には、イベントの新規性が薄れてきたと判断し、ステップS10からのキーワードによる情報収集先サイトのドキュメント検索を停止して、図16のステップS4に戻って新たなイベント収集先サイトの情報変換の検索処理から繰り返す。
【0136】
尚、図17のステップS13の一定期間の経過を判断する処理を除き、ステップS12で検索結果の履歴を計数して保存し、この検索回数が閾値以下となった場合には、直ちに情報検索を停止して、図16のステップS4に戻るようにしても良い。
【0137】
図18及び図19は、図2の情報処理装置10における本発明による情報収集処理の他の実施形態のフローチャートであり、この実施形態にあってはインターネット上のサーバからイベント収集先サイトや情報収集先サイトの情報を取得するようにした事を特徴とする。
【0138】
図18及び図19の実施形態にあっては、図2のインターネット11に接続しているイベント収集先リストサーバ15−2や情報収集先リストサーバ15−1を利用する。インターネットにあってはWWWサーバのアドレス(URL)の変更や、サーバそのものの廃止などが頻繁に起こりうる。
【0139】
そこでイベント収集先リストサーバ15−2において、イベント収集先サイトを設定し、その情報をクライアントである本発明の情報収集装置10に提供することで、クライアントとしての情報収集装置10のユーザーはイベント収集先サイトがどのサーバにあるかなどを一切気にすることなく、イベント収集先リストをイベント収集先サイト登録部18に登録することができる。
【0140】
この点は情報収集先サイト登録部20のサイト登録についても同様であり、情報収集先リストサーバ15−1で情報収集先サイトを設定し、その情報をクライアントとしての情報収集装置10に提供することで、情報収集先サイトのサーバの状態を意識することなく情報収集先サイトを情報収集サイト登録部20に登録して情報検索を利用することができる。
【0141】
このようなイベント収集先リストサーバ15−2及び情報収集先リストサーバ15−1に対応し、図18の処理にあっては、まずステップS1で情報収集先リストサーバ15−1から情報収集先サイトの情報を取得し、ステップS2で情報収集先サイト登録部20の登録内容と比較して変更があれば、ステップS3で情報収集先サイト登録部20に新たな情報収集先サイトのURLを登録する。
【0142】
またステップS4でイベント収集先リストサーバ15−2からのイベント収集先サイトの情報を収集し、イベント収集先サイト登録部18の登録内容と比較して、イベント収集先サイトに変更があれば変更のあった新たなイベント収集先サイトをステップS6でイベント収集先サイト登録部18に登録し、更にステップS7で新たに登録したイベント収集先サイトのページをリファレンスとして保存する。
【0143】
これに続くステップS8〜S15の処理は、図4のステップS4〜S11の処理と同じである。
【0144】
尚、図18及び図19の実施形態にあっては、情報収集先リストサーバ15−1とイベント収集先リストサーバ15−2の両方からサイトの情報を取得して登録するようにしているが、いずれか一方についてサーバから情報を取得してサイト登録を行うようにしても良い。
【0145】
図20及び図21は、図2の情報収集装置10における本発明の情報収集処理の他の実施形態のフローチャートであり、この実施形態にあっては図2でインターネット11に接続している本発明と同じ構成を持つ他の情報収集装置10−1,10−2からイベント収集先サイト及び情報収集先サイトの情報を取得するようにしたことを特徴とする。
【0146】
この図20及び図21の実施形態において、本発明の情報収集装置10が同じ構成を持つ他の情報収集装置10―1,10−2からイベント収集先サイト及び情報収集先サイトの情報を収集するネットワーク環境は、情報収集装置10,10−1,10−2がそれぞれピアマシンとして相互に相手方の情報を利用するピア・ツー・ピアシステムを構築した場合である。
【0147】
図20において、ステップS1で本発明の情報収集装置10は、例えば他の情報収集装置10−1と通信して、他の情報収集装置10−1に登録しているイベント収集先サイトの情報を取得する。
【0148】
この他の情報収集装置10−1から取得してイベント収集先サイトにつき、自分のイベント収集先サイト登録部18の内容と比較し、イベント収集先サイトが異なればステップS3で他の情報収集装置10−1のイベント収集先サイトの方が良いか否か判断する。
【0149】
このステップS3におけるイベント収集先サイトの判定条件としては、情報登録の早さを示す情報取得日時、ドキュメントのバイト数などの情報量に基づいてイベント収集先サイトの良し悪しを数値化し、他の情報収集装置10−1で同じく数値化している値と比較して良い方を採用し、ステップS4で採用した他の情報収集装置10−1から収集したイベント収集先サイトを自分自身のイベント収集先サイト登録部18に登録する。
【0150】
またステップS5で他の情報収集装置10−1と通信して、情報収集先サイトの登録情報を取得し、ステップS6で自分自身の情報収集先サイト登録部20の登録サイトと異なれば、ステップS7でステップS3の収集先サイトの場合と同様にして数値化した値の比較により、他の情報収集装置10−1の情報収集先サイトの良し悪しを判断し、良ければステップS8で自分自身の情報収集先サイト登録部20に取得した情報収集先サイトを登録する。
【0151】
これに続くステップS9〜ステップS17の処理は、図4のステップS4〜S11の処理と同じである。
【0152】
図22は、図2の情報収集装置10におけるキーワード抽出部24におけるキーワード抽出処理の詳細を示したフローチャートである。
【0153】
図22において、キーワード抽出処理は、まずステップS1でイベント収集先サイトから得られたドキュメントの変化領域、例えば図5(B)の情報40の文章を形態素解析して品詞に分解する。ここでイベント収集先サイトから得られた変化領域の文章は、製品名やウィルス名などのイベントを特定する固有名詞を含んでいることから、形態素解析したデータからステップS2で固有名詞のみを抽出する。
【0154】
続いてステップS3でキーワードデータベース30内の固有名詞と比較し、キーワードデータベース30内にあるか否かチェックする。キーワードデータベース30に無ければ、ステップS2で抽出した固有名詞をステップS4でキーワードとして保持する。一方、ステップS3でキーワードデータベース30に登録されている場合には、この固有名詞はすでにキーワードとして使われていることからステップS5で固有名詞を破棄する。
【0155】
このようなステップS1〜S5の処理をステップS6で変化領域の文章内の全固有名詞について終了するまで繰り返す。ステップS6において全固有名詞について終了が判別されると、ステップS7においてステップS4で保持された固有名詞をキーワードデータベース30に登録して更新した後、ステップS8で保持した固有名詞をキーワードとして情報検索部26に出力する。
【0156】
ここで図22のキーワード抽出処理において、イベント収集先サイトから取得したドキュメントの変化領域の文章から複数のキーワードを抽出した場合には、それらのキーワードの重要度を判断して優先順位をつけ、この優先順位付きのキーワードを情報検索部26に出力し、優先順位に従ったキーワードの使用で情報検索を行うようにしても良い。
【0157】
複数のキーワードを抽出した時の重要度を判断した優先順位の付け方としては、
(1)外部リンクが設定されているキーワード
(2)外部リンク先ドキュメント内で登場回数の多いキーワード
(3)「」や“”など特定の記号で囲まれているキーワード
(4)ボールド〈B〉〈/B〉、赤文字、〈FONT COLOR=“#ff0000”〉〈/FONT〉などの強調指定されているキーワード
を抽出し、ドキュメントの抽出内容に応じて固有のポイントをつけてその総和を求める。例えば(1)・(2)は一個につき3点、(3)は10点などとして合計点数を求め、合計点数の高い順にキーワードに優先順位をつける。
【0158】
図23及び図24は、図2の情報収集装置10における情報収集装置の他の実施形態のフローチャートであり、この実施形態にあっては、イベント収集先サイトから得られたドキュメントに追加された新規情報及び削除情報の履歴を保存することで、どのような時系列でイベント収集先の情報が更新され、また削除されたかをユーザーがわかるようにしたことを特徴とする。
【0159】
図23において、ステップS1〜S6の処理は、図4のステップS1〜S6と同じである。ステップS6でイベント収集先サイトのドキュメントをリファレンスと比較して変化があった場合には、ステップS7で削除無しの新規情報の追加更新か否かチェックする。
【0160】
ここでイベント収集先サイトのドキュメントの更新には図5(A)(B)のように、古い情報38を破棄した新規な情報40を追加する更新の形態と、図6のように古い情報38を残してまま新規な情報40を追加する更新形態の2つがある。
【0161】
このためステップS7で図6の削除無しの新規情報の追加更新を判別した場合には、ステップS8で例えば図6(B)の取得したデータであるドキュメント36−12の変化領域となる新規な情報40を抽出し、これを変化領域情報履歴に加えて更新する。
【0162】
一方、ステップS7で図5のような削除ありの新規情報の追加更新を判別した場合には、図5(A)のリファレンスとしてのドキュメント36―1と図5(B)の新たに得られたドキュメント36−2を比較し、変化領域としてドキュメント36−1の破棄領域となる情報38とドキュメント36−2の追加領域となる新規な情報40を抽出する。
【0163】
そしてステップS11で新規情報履歴に追加された新規な情報40を加えて更新し、またステップS12で削除情報履歴に破棄領域となる削除した情報38加えて更新する。このように更新された新規情報履歴および削除情報履歴は、ユーザが必要に応じて参照することができ、それぞれの履歴が時系列に従った一覧として表示される。
【0164】
このようなステップS7〜S9、またはステップS7〜S12の更新の履歴処理が済んだならば、ステップS13でイベント収集先保存ページとしてのリファレンスを新たに比較したドキュメントで更新し、図24のステップS14〜S16において、イベント収集先サイトの変化領域からイベントを特定するキーワードを抽出し、キーワードより情報収集先サイトのドキュメントを検索し、ユーザーに通知する。
【0165】
図25及び図26は、イベント収集先サイトについて更新された情報一覧の履歴保存につき、更新領域からキーワードを抽出して、キーワードによる更新履歴を保存利用できるようにしたことを特徴とする。
【0166】
図25及び図26において、ステップS1〜S7,ステップS9,S11〜S16の処理は図23,図24のフローチャートと同じである。これに対し、図25のステップ8,S10において、イベント収集先サイトから取得したデータ、すなわちドキュメントの変化領域からキーワードを抽出している。
【0167】
即ち、ステップS8にあっては、ステップS7で判別された図6(B)の変化領域の情報40の文章から、例えばキーワードとして「XXX」を抽出し、このキーワード「XXX」をステップS9で新規情報履歴に追加して更新する。またステップS7で図5のような削除更新を判別した場合には、ステップS12に進み図5(A)の破棄領域として削除される情報38からキーワード「AAA」を抽出し、また図5(B)の追加領域となる情報40からキーワード「XXX」を抽出し、ステップS11でキーワード「XXX」を新規情報履歴に追加して更新し、またステップS12でキーワード「AAA」を削除情報履歴に追加して更新する。
【0168】
このようにイベント収集先サイトのドキュメントの新規情報履歴及び削除情報履歴をキーワードの一覧表として保存利用できることで、新規情報履歴及び削除情報履歴をユーザーが読み出によりキーワード一覧化として表示され、新製品の時系列的な更新の様子を容易に把握することができる。
【0169】
図27及び図28は、図2の情報収集装置10における本発明の情報収集処理の他の情報収集装置のフローチャートであり、この実施形態にあってはイベント収集先サイトの更新で得られた変化領域に存在するリンク先からドキュメントをダウンロードして保存したことを特徴とする。
【0170】
図27及び図28のフローチャートにおけるステップS1〜S8及びステップS10、S11、S13〜S18の処理は、図25,図26におけるステップS1〜S8及びステップS9〜S16の処理と同じである。図27において、新たにステップS9、S12の処理が加えられている。
【0171】
ステップS9の処理は、ステップS7における図6のようなイベント収集先サイトからダウンロードした変化領域となる新規な情報40の中に他のサイトのリンク情報が含まれている場合、このリンク情報により他のサイトにアクセスして変化領域に示されたリンク先のドキュメントをダウンロードしてドキュメント保存部32に保存する。
【0172】
ステップS12の処理は、ステップS7における図5のようなイベント収集先サイトからダウンロードした変化領域となる新規な情報40の中に他のサイトのリンク情報が含まれている場合、このリンク情報により他のサイトにアクセスして変化領域に示されたリンク先のドキュメントをダウンロードしてドキュメント保存部32に保存する。
【0173】
これによってイベント収集先サイトの更新により更新履歴のリンク情報が削除されても、削除されたリンク先のサーバからドキュメントを保存しているためユーザーは新規情報履歴を見た際のリンク先としてドキュメント保存部32からすでに削除されているリンク先サーバからのドキュメントにアクセスすることができる。
【0174】
尚、上記の実施形態は情報収集装置10として、例えば図3のようなハードウェア資源をもつパーソナルコンピュータへの適用を例にとるものであったが、これ以外に携帯端末や適宜のコンピュータ装置にそのまま適用することができる。また本発明はその目的と利点を損ねることのない適宜の変形を含み、更に上記の実施形態に示した数値による限定は受けない。
【0175】
(付記)
(付記1)
ネットワークに接続するネットワーク接続部と、
ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録部と、
テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録部と、
前記登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出部と、
前記イベント検出部で検出された更新領域からキーワードを抽出するキーワード抽出部と、
前記キーワード抽出部で抽出されたキーワードを用いて前記登録された情報収集先サイト内のドキュメントを検索する情報検索部と、
前記情報検索部による検索結果をユーザに通知する情報通知部と、
を備えたことを特徴とする情報収集装置。(1)
【0176】
(付記2)
付記1記載の情報収集装置に於いて、前記イベント検出部は、前記イベント収集先サイトをアクセスしてサイト内のドキュメントをダウンロードしてリファレンスとして保存し、その後、前記イベント収集先サイトからダウンロードしたドキュメントと前記リファレンスの比較により更新の有無からイベント発生の有無を検出すると共に、該ダウンロードドキュメントを用いて前記リファレンスを更新することを特徴とする情報収集装置。
【0177】
(付記3)
付記1記載の情報収集装置に於いて、前記情報検索部は、前記情報収集先サイトをアクセスしてサイト内のドキュメントをダウンロードし、ダウンロードしたドキュメントの中から前記キーワードを用いて該当するドキュメント部分を検索することを特徴とする情報収集装置。
【0178】
(付記4)
付記1記載の情報収集装置に於いて、更に、前記情報検索部により前記情報収集先サイトから取得されたドキュメントを保存するドキュメント保存部を設けたことを特徴とする情報収集装置。
【0179】
(付記5)
付記1記載の情報収集装置に於いて、前記情報検索部は、前記キーワード抽出部で抽出されたキーワードを用いて一定期間に亘り定期的に前記登録された情報収集先サイト内のドキュメントを検索することを特徴とする情報収集装置。
【0180】
(付記6)
付記1記載の情報収集装置に於いて、
前記イベント収集先サイト登録部は、ネットワークを介してイベント収集先リストサーバからイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録部は、ネットワークを介して情報収集先リストサーバから情報収集先サイトを取得して登録する、
ことを特徴とする情報収集装置。
【0181】
(付記7)
付記1記載の情報収集装置に於いて、
前記イベント収集先サイト登録部は、ネットワークを介して同一構成を備えた他の情報収集装置からイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録部は、ネットワークを介して同一構成を備えた情報収集装置から情報収集先サイトを取得して登録する、
ことを特徴とする情報収集装置。
【0182】
(付記8)
付記1記載の情報収集装置に於いて、前記キーワード抽出部は、前記イベント検出部で検出された更新領域を形態素解析して品詞ごとに分割した後に固有名詞のみを抽出し、抽出した名詞がキーワードデータベースに登録されている既存のキーワードと異なる場合に、前記情報検索部に抽出した固有名詞をキーワードとして出力することを特徴とする情報収集装置。
【0183】
(付記9)
付記1記載の情報収集装置に於いて、前記イベント検出部は、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみがあった場合は、前記新規情報の履歴を保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、前記新規情報の履歴と前記削除情報の履歴を保存し、前記情報通知部により保存履歴をユーザに通知可能としたことを特徴とする情報収集装置。
【0184】
(付記10)
付記1記載の情報収集装置に於いて、前記イベント検出部は、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみが合った場合は、前記新規情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、、前記情報通知部により保存履歴としての前記キーワードをユーザに通知可能としたことを特徴とする情報収集装置。
【0185】
(付記11)
イベント収集先サイト登録部により、ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
情報収集先サイト登録部により、テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
イベント検出部により、前記登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出ステップと、
キーワード抽出部により、前記イベント検出ステップで検出された更新領域からキーワードを抽出するキーワード抽出ステップと、
情報検索部により、前記キーワード抽出部で抽出されたキーワードを用いて前記登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、情報通知部により、前記情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を備えたことを特徴とする情報収集方法。(2)
【0186】
(付記12)
付記11記載の情報収集方法に於いて、前記イベント検出ステップは、前記イベント収集先サイトをアクセスしてサイト内のドキュメントをダウンロードしてリファレンスとして保存し、その後、前記イベント収集先サイトからダウンロードしたドキュメントと前記リファレンスの比較により更新の有無からイベント発生の有無を検出することを特徴とする情報収集方法。(3)
【0187】
(付記13)
付記11記載の情報収集方法に於いて、前記情報検索ステップは、前記情報収集先サイトをアクセスしてサイト内のドキュメントをダウンロードし、ダウンロードしたドキュメントの中から前記キーワードを用いて該当するドキュメント部分を検索することを特徴とする情報収集方法。
【0188】
(付記14)
付記11記載の情報収集方法に於いて、更に、前記情報検索ステップにより前記情報収集先サイトから取得されたドキュメントをドキュメント保存部に保存するドキュメント保存ステップを設けたことを特徴とする情報収集方法。(4)
【0189】
(付記15)
付記11記載の情報収集方法に於いて、前記情報検索ステップは、前記キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閏値を超えた場合は前記キーワードによるドキュメントの情報検索を再度一定期間継続し、前記閾値以下であった場合は、前記キーワードによる情報検索を停止することを特徴とする情報収集方法。
【0190】
(付記16)
付記11記載の情報収集方法に於いて、
前記イベント収集先サイト登録ステップは、ネットワークを介してイベント収集先リストサーバからイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録ステップは、ネットワークを介して情報収集先リストサーバから情報収集先サイトを取得して登録する、
ことを特徴とする情報収集方法。
【0191】
(付記17)
付記11記載の情報収集方法に於いて、
前記イベント収集先サイト登録ステップは、ネットワークを介して同一構成を備えた他の情報収集装置からイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録ステップは、ネットワークを介して同一構成を備えた情報収集装置から情報収集先サイトを取得して登録する、
ことを特徴とする情報収集方法。
【0192】
(付記18)
付記11記載の情報収集方法に於いて、前記キーワード抽出ステップは、前記イベント検出ステップで検出された更新領域を形態素解析して品詞ごとに分割した後に固有名詞のみを抽出し、抽出した名詞がキーワードデータベースに登録されている既存のキーワードと異なる場合に、前記情報検索ステップに抽出した固有名詞をキーワードとして出力することを特徴とする情報収集方法。
【0193】
(付記19)
付記11記載の情報収集方法に於いて、前記イベント検出ステップは、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみがあった場合は、前記新規情報の履歴を保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、前記新規情報の履歴と前記削除情報の履歴を保存し、前記情報通知部により保存履歴をユーザに通知可能としたことを特徴とする情報収集方法。
【0194】
(付記20)
付記11記載の情報収集方法に於いて、前記イベント検出ステップは、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみが合った場合は、前記新規情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、、前記情報通知部により保存履歴としての前記キーワードをユーザに通知可能としたことを特徴とする情報収集方法。
【0195】
(付記21)
コンピュータに、
ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
前記登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出ステップと、
前記イベント検出ステップで検出された更新領域からキーワードを抽出するキーワード抽出ステップと、
前記キーワード抽出部で抽出されたキーワードを用いて前記登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、
前記情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を実行させることを特徴とするプログラム。(5)
【0196】
(付記22)
付記21記載のプログラムに於いて、前記イベント検出ステップは、前記イベント収集先サイトをアクセスしてサイト内のドキュメントをダウンロードしてリファレンスとして保存し、その後、前記イベント収集先サイトからダウンロードしたドキュメントと前記リファレンスの比較により更新の有無からイベント発生の有無を検出することを特徴とするプログラム。
【0197】
(付記23)
付記21記載のプログラムに於いて、前記情報検索ステップは、前記情報収集先サイトをアクセスしてサイト内のドキュメントをダウンロードし、ダウンロードしたドキュメントの中から前記キーワードを用いて該当するドキュメント部分を検索することを特徴とするプログラム。
【0198】
(付記24)
付記21記載のプログラムに於いて、更に、前記情報検索ステップにより前記情報収集先サイトから取得されたドキュメントをドキュメント保存部に保存するドキュメント保存ステップを設けたことを特徴とするプログラム。
【0199】
(付記25)
付記21記載のプログラムに於いて、前記情報検索ステップは、前記キーワード抽出ステップで抽出されたキーワードを用いて一定期間に亘り定期的に前記登録された情報収集先サイト内のドキュメントを検索することを特徴とするプログラム。
【0200】
(付記26)
付記21記載のプログラムに於いて、
前記イベント収集先サイト登録ステップは、ネットワークを介してイベント収集先リストサーバからイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録ステップは、ネットワークを介して情報収集先リストサーバから情報収集先サイトを取得して登録する、
ことを特徴とするプログラム。
【0201】
(付記27)
付記21記載のプログラムに於いて、
前記イベント収集先サイト登録ステップは、ネットワークを介して同一構成を備えた他の情報収集装置からイベント収集先サイトを取得して登録し、
前記情報収集先サイト登録ステップは、ネットワークを介して同一構成を備えた情報収集装置から情報収集先サイトを取得して登録する、
ことを特徴とするプログラム。
【0202】
(付記28)
付記21記載のプログラムに於いて、前記キーワード抽出ステップは、前記イベント検出ステップで検出された更新領域を形態素解析して品詞ごとに分割した後に固有名詞のみを抽出し、抽出した名詞がキーワードデータベースに登録されている既存のキーワードと異なる場合に、前記情報検索ステップに抽出した固有名詞をキーワードとして出力することを特徴とするプログラム。
【0203】
(付記29)
付記21記載のプログラムに於いて、前記イベント検出ステップは、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみがあった場合は、前記新規情報の履歴を保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、前記新規情報の履歴と前記削除情報の履歴を保存し、前記情報通知部により保存履歴をユーザに通知可能としたことを特徴とするプログラム。
【0204】
(付記30)
付記21記載のプログラムに於いて、前記イベント検出ステップは、イベント発生を検出したイベント収集先サイトの更新領域に新規情報の追加のみが合った場合は、前記新規情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、前記更新領域に新規情報が追加されると同時に古い情報が削除された場合は、新規情報の履歴と削除情報の履歴として前記キーワード抽出部で抽出されたキーワードを保存し、、前記情報通知部により保存履歴としての前記キーワードをユーザに通知可能としたことを特徴とするプログラム。
【0205】
更に上記の付記に対応して本発明は次に列挙する実施例をもつ。
【0206】
(実施例1)
付記4記載の情報収集装置に於いて、前記ドキュメント保存部は、前記情報検索部で検索された検索済みドキュメントを、検索に使用したキーワードをインデックスとして保存することを特徴とする。
【0207】
(実施例2)
付記4記載の情報収集装置に於いて、前記情報検索部は、前記情報収集サイト先を定期的にアクセスしてサイト内のドキュメントをダウンロードして前記ドキュメント保存部に保存し、前記キーワード抽出部で抽出されたキーワードを用いて前記ドキュメント保存部に保存されたドキュメントを検索することを特徴とする。
【0208】
(実施例3)
実施例2記載の情報収集装置に於いて、前記情報検索部は、検索された回数をドキュメントごとに計数し、検索回数が予め定めた閾値以下のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0209】
(実施例4)
実施例3記載の情報収集装置に於いて、前記情報検索部は、前記ドキュメント保存部の空き容量の不足を判断した場合、前記前記閾値を大きくして閾値以下の検索回数のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0210】
(実施例5)
実施例2記載の情報収集装置に於いて、前記イベント検出部は、前記イベント収集先サイトから取得したドキュメントの更新領域に加え、削除された破棄領域を検出し、前記キーワード抽出部により前記破棄領域のキーワードを抽出して前記ドキュメント保存部に保存されたドキュメントを検索して削除することを特徴とする。
【0211】
(実施例6)
付記5記載の情報収集装置に於いて、前記情報検索部は、前記キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閏値を超えた場合は前記キーワードによるドキュメントの情報検索を再度一定期間継続し、前記閾値以下であった場合は、前記キーワードによる情報検索を停止することを特徴とする。
【0212】
(実施例7)
付記8記載の情報処理装置に於いて、前記キーワード抽出部は、前記情報検索部にキーワードとして出力した固有名詞を前記キーワードデータベースに追加登録することを特徴とする。
【0213】
(実施例8)
付記8記載の情報収集装置に於いて、前記キーワード抽出部は、前記イベント検出部で検出された情報の更新領域から複数のキーワードを抽出した場合、前記更新領域の内容に基づいて各キーワードの優先順位を付与して前記情報検索部に出力することを特徴とする。
【0214】
(実施例9)
付記9記載の情報収集装置に於いて、前記イベント検出部は、更新領域に追加された新規情報に外部サイトのリンクがあった場合、前記外部リンク先のドキュメントをダウンロードして前記ドキュメント保存部に保存すると共に前記新規情報情報の履歴に前記ドキュメント保存部の保存ドキュメントをリンクさせることを特徴とする。
【0215】
(実施例10)
付記14記載の情報収集方法に於いて、前記ドキュメント保存ステップは、前記情報検索ステップで検索された検索済みドキュメントを、検索に使用したキーワードをインデックスとして保存することを特徴とする。
【0216】
(実施例11)
付記14記載の情報収集方法に於いて、前記情報検索ステップは、前記情報収集先サイトを定期的にアクセスしてサイト内のドキュメントをダウンロードして前記ドキュメント保存部に保存し、前記キーワード抽出ステップで抽出されたキーワードを用いて前記ドキュメント保存部に保存されたドキュメントを検索することを特徴とする。
【0217】
(実施例12)
実施例11記載の情報収集方法に於いて、前記情報検索ステップは、検索された回数をドキュメントごとに計数し、検索回数が予め定めた閾値以下のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0218】
(実施例13)
実施例12記載の情報収集方法に於いて、前記情報検索ステップは、前記ドキュメント保存部の空き容量の不足を判断した場合、前記前記閾値を大きくして閾値以下の検索回数のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0219】
(実施例14)
実施例11記載の情報収集方法に於いて、前記イベントステップ、前記イベント収集先サイトから取得したドキュメントの更新領域に加え、削除された破棄領域を検出し、前記破棄領域のキーワードを抽出して前記ドキュメント保存部に保存されたドキュメントを検索して削除することを特徴とする。
【0220】
(実施例15)
付記15記載の情報収集方法に於いて、前記情報検索ステップは、前記キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閏値を超えた場合は前記キーワードによるドキュメントの情報検索を再度一定期間継続し、前記閾値以下であった場合は、前記キーワードによる情報検索を停止することを特徴とする。
【0221】
(実施例16)
付記18記載の情報処理方法に於いて、前記キーワード抽出ステップは、前記情報検索ステップにキーワードとして出力した固有名詞を前記キーワードデータベースに追加登録することを特徴とする。
【0222】
(実施例17)
付記18記載の情報収集方法に於いて、前記キーワード抽出ステップは、前記イベント検出ステップで検出された情報の更新領域から複数のキーワードを抽出した場合、前記更新領域の内容に基づいて各キーワードの優先順位を付与して前記情報検索部に出力することを特徴とする。
【0223】
(実施例18)
付記19記載の情報収集方法に於いて、前記イベント検出ステップは、更新領域に追加された新規情報に外部サイトのリンクがあった場合、前記外部リンク先のドキュメントをダウンロードして前記ドキュメント保存部に保存すると共に前記新規情報情報の履歴に前記ドキュメント保存部の保存ドキュメントをリンクさせることを特徴とする。
【0224】
(実施例19)
付記24記載のプログラムに於いて、前記ドキュメント保存ステップは、前記情報検索ステップで検索された検索済みドキュメントを、検索に使用したキーワードをインデックスとして保存することを特徴とする。
【0225】
(実施例20)
付記24記載のプログラムに於いて、前記情報検索ステップは、前記情報収集サイト先を定期的にアクセスしてサイト内のドキュメントをダウンロードして前記ドキュメント保存部に保存し、前記キーワード抽出ステップで抽出されたキーワードを用いて前記ドキュメント保存部に保存されたドキュメントを検索することを特徴とする。
【0226】
(実施例21)
実施例20記載のプログラムに於いて、前記情報検索ステップは、検索された回数をドキュメントごとに計数し、検索回数が予め定めた閾値以下のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0227】
(実施例22)
実施例21記載のプログラムに於いて、前記情報検索ステップは、前記ドキュメント保存部の空き容量の不足を判断した場合、前記前記閾値を大きくして閾値以下の検索回数のドキュメントを前記ドキュメント保存部から削除することを特徴とする。
【0228】
(実施例23)
実施例20記載のプログラムに於いて、前記イベントステップ、前記イベント収集先サイトから取得したドキュメントの更新領域に加え、削除された破棄領域を検出し、前記破棄領域のキーワードを抽出して前記ドキュメント保存部に保存されたドキュメントを検索して削除することを特徴とする。
【0229】
(実施例24)
付記25記載のプログラムに於いて、前記情報検索ステップは、前記キーワードを用いたドキュメントの検索回数を計数し、一定期間経過した時のドキュメントの検索回数が予め定めた閏値を超えた場合は前記キーワードによるドキュメントの情報検索を再度一定期間継続し、前記閾値以下であった場合は、前記キーワードによる情報検索を停止することを特徴とする。
【0230】
(実施例25)
付記28記載のプログラムに於いて、前記キーワード抽出ステップは、前記情報検索ステップにキーワードとして出力した固有名詞を前記キーワードデータベースに追加登録することを特徴とする。
【0231】
(実施例26)
付記28記載のプログラムに於いて、前記キーワード抽出ステップは、前記イベント検出ステップで検出された情報の更新領域から複数のキーワードを抽出した場合、前記更新領域の内容に基づいて各キーワードの優先順位を付与して前記情報検索部に出力すること特徴とする。
【0232】
(実施例27)
付記29記載のプログラムに於いて、前記イベント検出ステップは、更新領域に追加された新規情報に外部サイトのリンクがあった場合、前記外部リンク先のドキュメントをダウンロードして前記ドキュメント保存部に保存すると共に前記新規情報情報の履歴に前記ドキュメント保存部の保存ドキュメントをリンクさせることを特徴とする。
【0233】
【発明の効果】
以上説明してきたように本発明によれば、イベント収集先サイトとして特定のサイトを監視し、サイト情報更新によるイベント発生を検出した場合にはその更新内容から新製品発表、新ウィルス発生などといったイベント特定するキーワードを抽出し、抽出したキーワードを使用して情報収集先サイトから情報を検索してユーザに表示し、これによってユーザがキーワードなどの情報を特定するための単語を設定する必要がなく、ユーザにとって未知の情報であっても複数の情報提供先から有効な情報を自動的に収集して、ユーザに通知することができる。
【0234】
特に情報の迅速な収集を必要とする新製品情報や新ウィルス発生情報などにつき、ユーザはイベント収集先サイトを予め登録しておくだけで新製品発表や新ウィルス発生というイベント発生の通知とともに、新製品の内容、評判、価格などといった情報、また新ウィルス発生についてはパソコンメーカーによるウィルス対策の情報をユーザに通知でき、ネットワーク上で起きているダイナミックイベントに対し、迅速かつ適切に必要な情報を収集してユーザに与えることができる。
【図面の簡単な説明】
【図1】本発明の原理構成の説明図
【図2】本発明による情報収集装置の実施形態の機能ブロック図
【図3】図2の実施形態が適用されるコンピュータのハードウェア資源の説明図
【図4】図2の実施形態による情報収集処理の基本的処理手順のフローチャート
【図5】イベント収集先サイトから取得した新製品発売情報の説明図
【図6】イベント収集先サイトから取得した新製品発売情報の他の形態の説明図
【図7】情報収集先サイトからキーワードにより検索したドキュメントを保存する本発明の他の実施形態のフローチャート
【図8】情報収集先サイトから収集したドキュメントを保存した後にキーワードにより保存ドキュメントを検索する本発明の他の実施形態のフローチャート
【図9】検索回数の少ない保存ドキュメントを削除する本発明の他の実施形態のフローチャート
【図10】図9に続く本発明の他の実施形態のフローチャート
【図11】保存ドキュメントを削除する検索回数の閾値を大きくして十分な空き容量を確保する本発明の他の実施形態のフローチャート
【図12】図11に続く本発明の他の実施形態のフローチャート
【図13】イベント収集先サイトの情報更新で削除された破棄領域からキーワードを抽出して保存ドキュメントを削除する本発明の他の実施形態のフローチャート
【図14】図13に続く本発明の他の実施形態のフローチャート
【図15】イベント発生検出から一定時間経過するまで定期的にキーワードによりドキュメントを検索する本発明の他の実施形態のフローチャート
【図16】一定期間のあいだ検索回数が閾値以下であれば発生イベントの新規性が失われたとして情報収集を停止する本発明の他の実施形態のフローチャート
【図17】図16に続く本発明の他の実施形態のフローチャート
【図18】リストサーバからイベント収集サイト及び情報収集先サイトを取得する本発明の他の実施形態のフローチャート
【図19】図18に続く本発明の他の実施形態のフローチャート
【図20】他の情報収集先装置からイベント収集サイト及び情報収集先サイトを取得する本発明の他の実施形態のフローチャート
【図21】図20に続く本発明の他の実施形態のフローチャート
【図22】本発明におけるキーワード抽出処理のフローチャート
【図23】イベント収集先サイトの更新に伴う新規情報と削除情報の履歴を保存して利用する本発明の他の実施形態のフローチャート
【図24】図23に続く本発明の他の実施形態のフローチャート
【図25】イベント収集先サイトの更新に伴う新規情報と削除情報の履歴をキーワードとして保存して利用する本発明の他の実施形態のフローチャート
【図26】図25に続く本発明の他の実施形態のフローチャート
【図27】イベント収集先サイトの更新に伴う新規情報にある外部リンク先からドキュメントを取得して保存する本発明の他の実施形態のフローチャート
【図28】図27に続く本発明の他の実施形態のフローチャート
【符号の説明】
10,10−1,10−2:情報収集装置
11:インターネット
12−1〜12−3:イベント収集先サイト
14−1〜14−3:情報収集先サイト
15−1:情報収集先リストサーバ
15−2:イベント収集先リストサーバ
16:ネットワーク接続部
18:イベント収集先サイト登録部
20:情報収集先サイト登録部
22:イベント検出部
24:キーワード抽出部
26:情報検索部
28:情報通知部
30:キーワードデータベース
32:ドキュメント保存部
34:表示部
36−1、36−2:ドキュメント
38,40:情報
Claims (5)
- ネットワークに接続するネットワーク接続部と、
ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録部と、
テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録部と、
前記登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出部と、
前記イベント検出部で検出された更新領域からキーワードを抽出するキーワード抽出部と、
前記キーワード抽出部で抽出されたキーワードを用いて前記登録された情報収集先サイト内のドキュメントを検索する情報検索部と、
前記情報検索部による検索結果をユーザに通知する情報通知部と、
を備えたことを特徴とする情報収集装置。 - イベント収集先サイト登録部により、ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
情報収集先サイト登録部により、テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
イベント検出部により、前記登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出ステップと、
キーワード抽出部により、前記イベント検出ステップで検出された更新領域からキーワードを抽出するキーワード抽出ステップと、
情報検索部により、前記キーワード抽出部で抽出されたキーワードを用いて前記登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、
情報通知部により、前記情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を備えたことを特徴とする情報収集方法。 - 請求項2記載の情報収集方法に於いて、前記イベント検出ステップは、前記イベント収集先サイトをアクセスしてサイト内のドキュメントをダウンロードしてリファレンスとして保存し、その後、前記イベント収集先サイトからダウンロードしたドキュメントと前記リファレンスの比較により更新の有無からイベント発生の有無を検出することを特徴とする情報収集方法。
- 請求項2記載の情報収集方法に於いて、更に、前記情報検索ステップにより前記情報収集先サイトから取得されたドキュメントをドキュメント保存部に保存するドキュメント保存ステップを設けたことを特徴とする情報収集方法。
- コンピュータに、
ネットワークあるいは実社会上で発生したイベントの有無を検出するためのイベント収集先サイトを登録するイベント収集先サイト登録ステップと、
テキスト、画像、音声等のデータを含むドキュメントを収集するための情報収集先サイトを登録する情報収集先サイト登録ステップと、
前記登録されたイベント収集先サイトから情報を取得し、取得情報の更新の有無からイベント発生の有無を検出するイベント検出ステップと、
前記イベント検出ステップで検出された更新領域からキーワードを抽出するキーワード抽出ステップと、
前記キーワード抽出部で抽出されたキーワードを用いて前記登録された情報収集先サイト内のドキュメントを検索する情報検索ステップと、
前記情報検索ステップの検索結果をユーザに通知する情報通知ステップと、
を実行させることを特徴とするプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002219103A JP2004062479A (ja) | 2002-07-29 | 2002-07-29 | 情報収集装置、方法及びプログラム |
US10/609,483 US20040019499A1 (en) | 2002-07-29 | 2003-07-01 | Information collecting apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002219103A JP2004062479A (ja) | 2002-07-29 | 2002-07-29 | 情報収集装置、方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004062479A true JP2004062479A (ja) | 2004-02-26 |
Family
ID=30767998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002219103A Pending JP2004062479A (ja) | 2002-07-29 | 2002-07-29 | 情報収集装置、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040019499A1 (ja) |
JP (1) | JP2004062479A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007026439A (ja) * | 2005-07-20 | 2007-02-01 | Samsung Electronics Co Ltd | イベント情報を提供する装置、方法及びシステム |
JP2007052737A (ja) * | 2005-08-19 | 2007-03-01 | Oki Electric Ind Co Ltd | 情報処理装置およびコンピュータプログラム |
JP2008003771A (ja) * | 2006-06-21 | 2008-01-10 | Denso Corp | 興味情報検索システム、車載器および車外器 |
JP2010117761A (ja) * | 2008-11-11 | 2010-05-27 | Yahoo Japan Corp | 広告提供装置 |
WO2014002462A1 (ja) * | 2012-06-28 | 2014-01-03 | パナソニック株式会社 | コンテンツ制御装置、端末装置、コンテンツ制御方法、及びコンテンツ制御プログラム |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8990678B2 (en) * | 2001-03-27 | 2015-03-24 | At&T Intellectual Property I, L.P. | Systems and methods for automatically providing alerts of web site content updates |
US9679304B1 (en) | 2002-09-30 | 2017-06-13 | Google Inc. | Accentuating terms or features of interest in an advertisement |
JP2004303160A (ja) * | 2003-04-01 | 2004-10-28 | Oki Electric Ind Co Ltd | 情報抽出装置 |
JP2005309727A (ja) * | 2004-04-21 | 2005-11-04 | Hitachi Ltd | ファイルシステム |
KR100664931B1 (ko) * | 2004-11-20 | 2007-01-04 | 삼성전자주식회사 | 홈 네트워크에서 컨텐츠 리스트를 제공하는 장치, 시스템,및 그 방법 |
US9563875B2 (en) * | 2004-12-02 | 2017-02-07 | International Business Machines Corporation | Automatically providing notifications regarding interesting content from shared sources based on important persons and important sources for a user |
JP4591229B2 (ja) * | 2005-06-23 | 2010-12-01 | 富士ゼロックス株式会社 | 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム |
JP4591230B2 (ja) * | 2005-06-23 | 2010-12-01 | 富士ゼロックス株式会社 | 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム |
US7653650B2 (en) * | 2005-12-13 | 2010-01-26 | International Business Machines Corporation | Apparatus, system, and method for synchronizing change histories in enterprise applications |
JP4151724B2 (ja) * | 2006-10-04 | 2008-09-17 | 富士ゼロックス株式会社 | 画像処理装置および画像処理プログラム |
US20080147462A1 (en) * | 2006-12-14 | 2008-06-19 | Deborah Muller | Method of managing human resource cases |
JP2008217340A (ja) * | 2007-03-02 | 2008-09-18 | Fuji Xerox Co Ltd | 文書廃棄処理システムおよびプログラム |
JP2008268995A (ja) * | 2007-04-16 | 2008-11-06 | Sony Corp | 辞書データ生成装置、文字入力装置、辞書データ生成方法、文字入力方法 |
US20080313083A1 (en) * | 2007-06-18 | 2008-12-18 | Utbk, Inc. | Systems and Methods To Manage Presentations of Advertisements |
US8990225B2 (en) * | 2007-12-17 | 2015-03-24 | Palo Alto Research Center Incorporated | Outbound content filtering via automated inference detection |
KR101086530B1 (ko) * | 2008-10-02 | 2011-11-23 | 엔에이치엔(주) | 웹 문서 원본 판별 방법 및 시스템, 이를 위한 웹 문서 이력 정보 제공 방법 및 시스템 |
JP5327017B2 (ja) | 2009-11-24 | 2013-10-30 | ソニー株式会社 | 遠隔操作装置、遠隔操作システム、遠隔操作装置による情報処理方法およびプログラム |
US8447823B2 (en) * | 2010-07-23 | 2013-05-21 | Ebay Inc. | Instant messaging robot to provide product information |
US9076146B2 (en) * | 2010-10-15 | 2015-07-07 | At&T Intellectual Property I, L.P. | Personal customer care agent |
US9171105B2 (en) * | 2011-11-22 | 2015-10-27 | Lg Electronics Inc. | Electronic device and method of operating the same |
JP6070936B2 (ja) | 2013-01-31 | 2017-02-01 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法及びプログラム |
US9959744B2 (en) * | 2014-04-25 | 2018-05-01 | Motorola Solutions, Inc. | Method and system for providing alerts for radio communications |
CN112866218B (zh) * | 2021-01-07 | 2022-08-19 | 广州邦讯信息系统有限公司 | 远程收集系统信息的处理方法及相关设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5898836A (en) * | 1997-01-14 | 1999-04-27 | Netmind Services, Inc. | Change-detection tool indicating degree and location of change of internet documents by comparison of cyclic-redundancy-check(CRC) signatures |
JP4608740B2 (ja) * | 2000-02-21 | 2011-01-12 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム格納媒体 |
KR20020049164A (ko) * | 2000-12-19 | 2002-06-26 | 오길록 | 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법 |
US6910071B2 (en) * | 2001-04-02 | 2005-06-21 | The Aerospace Corporation | Surveillance monitoring and automated reporting method for detecting data changes |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
-
2002
- 2002-07-29 JP JP2002219103A patent/JP2004062479A/ja active Pending
-
2003
- 2003-07-01 US US10/609,483 patent/US20040019499A1/en not_active Abandoned
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007026439A (ja) * | 2005-07-20 | 2007-02-01 | Samsung Electronics Co Ltd | イベント情報を提供する装置、方法及びシステム |
JP4680844B2 (ja) * | 2005-07-20 | 2011-05-11 | 三星電子株式会社 | イベント情報を提供する装置、方法及びシステム |
US9497037B2 (en) | 2005-07-20 | 2016-11-15 | Samsung Electronics Co., Ltd. | Apparatus, method and system for providing event information |
JP2007052737A (ja) * | 2005-08-19 | 2007-03-01 | Oki Electric Ind Co Ltd | 情報処理装置およびコンピュータプログラム |
JP2008003771A (ja) * | 2006-06-21 | 2008-01-10 | Denso Corp | 興味情報検索システム、車載器および車外器 |
JP2010117761A (ja) * | 2008-11-11 | 2010-05-27 | Yahoo Japan Corp | 広告提供装置 |
WO2014002462A1 (ja) * | 2012-06-28 | 2014-01-03 | パナソニック株式会社 | コンテンツ制御装置、端末装置、コンテンツ制御方法、及びコンテンツ制御プログラム |
CN103782281A (zh) * | 2012-06-28 | 2014-05-07 | 松下电器产业株式会社 | 内容控制装置、终端设备、内容控制方法及内容控制程序 |
JPWO2014002462A1 (ja) * | 2012-06-28 | 2016-05-30 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | コンテンツ制御装置、端末装置、コンテンツ制御方法、及びコンテンツ制御プログラム |
US9438686B2 (en) | 2012-06-28 | 2016-09-06 | Panasonic Intellectual Property Corporation Of America | Content control device, terminal device, content control method, and computer-readable recording medium |
CN103782281B (zh) * | 2012-06-28 | 2017-08-29 | 松下电器(美国)知识产权公司 | 内容控制装置、终端设备、内容控制方法以及记录介质 |
Also Published As
Publication number | Publication date |
---|---|
US20040019499A1 (en) | 2004-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004062479A (ja) | 情報収集装置、方法及びプログラム | |
US8893043B2 (en) | Method and system for predictive browsing | |
US6401118B1 (en) | Method and computer program product for an online monitoring search engine | |
US6983320B1 (en) | System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages | |
JP5078674B2 (ja) | 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム | |
US8065292B2 (en) | Generating an index for a network search engine | |
US8078602B2 (en) | Search engine for a computer network | |
JP2009093646A (ja) | 検索結果のインテリジェント分類のための方法、ソフトウェア及び装置 | |
WO2022198756A1 (zh) | 基于热点事件的信息推送方法、装置、计算机设备及存储介质 | |
JP2006099341A (ja) | 更新履歴生成装置及びプログラム | |
JP2007299292A (ja) | 検索装置による情報検索方法、情報検索装置及び情報検索処理プログラム | |
JP2003016094A (ja) | 情報フィルタリングに用いるプロファイル管理方法、および、プロファイル管理プログラム | |
JP2010128917A (ja) | 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム | |
JP2009251957A (ja) | 興味情報特定システム、興味情報特定方法、および興味情報特定用プログラム | |
JP2005092491A (ja) | サーバ、及び関連語提案方法 | |
Bakariya et al. | An inclusive survey on data preprocessing methods used in web usage mining | |
JP2002197100A (ja) | 検索サービスシステムと方法及び記録媒体並びに情報仲介方法 | |
JP4853915B2 (ja) | 検索システム | |
US20080082318A1 (en) | Semantic retrieval method and computer product | |
JP3666638B2 (ja) | 情報源観測装置および情報源観測方法、ならびに情報源観測プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Reichert et al. | Feeding the world: a comprehensive dataset and analysis of a real world snapshot of web feeds | |
JP2004326150A (ja) | コンテンツ提供システム、コンテンツ提供方法、サーバ装置及びクライアント装置 | |
JPH11282874A (ja) | 情報フィルタリング方法および装置 | |
JP2003173351A (ja) | 情報解析、収集、検索方法、装置、プログラム、および記録媒体 | |
US20050138027A1 (en) | Filtering server, filtering system, and filtering method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080729 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081125 |