JP2004246785A - 情報収集装置と情報収集方法およびプログラムと記録媒体 - Google Patents

情報収集装置と情報収集方法およびプログラムと記録媒体 Download PDF

Info

Publication number
JP2004246785A
JP2004246785A JP2003038268A JP2003038268A JP2004246785A JP 2004246785 A JP2004246785 A JP 2004246785A JP 2003038268 A JP2003038268 A JP 2003038268A JP 2003038268 A JP2003038268 A JP 2003038268A JP 2004246785 A JP2004246785 A JP 2004246785A
Authority
JP
Japan
Prior art keywords
collection
sentence
read
information
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003038268A
Other languages
English (en)
Inventor
Motoyuki Sugano
元之 菅野
Noriaki Saito
典明 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003038268A priority Critical patent/JP2004246785A/ja
Publication of JP2004246785A publication Critical patent/JP2004246785A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】収集を行いたい文章のみを収集することができ不必要な文章の収集をできるだけ削減して収集処理の効率化を図る。
【解決手段】収集可否判定モジュール107は、文章の収集を行う際に、その文章のサイト情報とサイト種別をサイト情報DB504から読み出し、そのサイト種別とサイトIDにより一意に特定される収集対象特定ルールを収集対象特定ルールDB505から読み出し、収集を行うとする文章の条件が読み出した収集対象特定ルールに合致する場合のみ、その文章の収集が必要であると判定する。また、収集可否判定モジュール107は、文章中に含まれる記事が1つである場合、一度収集を行った文章は収集対象としないようにし、その文章中に含まれる記事が複数である場合、収集した文章中に含まれる記事数が含まれる記事数の上限に達するまで、最終更新時間と最終収集時間との比較を行うことにより収集要否の判定を行う。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、インターネット等のコンピュータ上で公開される文章を収集する情報収集装置および情報収集方法に関する。
【0002】
【従来の技術】
近年インターネット上で公開されるWebページの数は飛躍的に増大している。このインターネットでは、複数のWebページ(文章)が階層構造でリンクされることより1つのサイトが構成され、サイトの最上位のWebページ(トップ文章)に設定されたリンクをたどることにより下層のWebページを閲覧することが可能となっている。
【0003】
インターネット上に存在する文章を収集する従来の情報収集装置として、WWWサーバが各文章について公開している最終更新時間に基づいて当該文章の収集の要否を判定する情報収集システムが存在する。このような従来の情報収集装置を含む情報処理システムの構成を図6に示す。
【0004】
図6に示される従来の情報処理システムでは、蓄積されている文章の公開を行う複数のWebサーバ101と、文章の収集を行う情報収集装置102とが、インターネット等のコンピュータネットワーク103に接続されている。
【0005】
Webサーバ101は、文章管理モジュール104を具備している。Webサーバ101は文章管理モジュール104を用いることにより、蓄積されている文章への最終更新時間要求に対し当該文章の最終更新時間を提供し、文章取得要求に対し蓄積されている当該文章の提供等の応答を行う。
【0006】
情報収集装置102は、最終更新時間判定モジュール105と、情報収集モジュール106と、最終収集時間DB(データベース)401を具備している。
【0007】
最終更新時間判定モジュール105は、公開されている文章の最新更新時間を取得し、当該文章の過去における最終収集時間と比較して、最新更新時間のほうが後である場合、つまりその文章の収集後に更新が行われている場合のみ、その文章の収集が必要であると判定する。情報収集モジュール106は、最終更新時間判定モジュール105において収集が必要と判定された場合のみ、その文章の収集を行う。最終収集時間DB401は、各文章を取得した最終の収集時間を各文章毎に格納しておく。
【0008】
次に、この従来の情報収集装置102の動作について図7のシーケンスチャートを参照して説明する。
【0009】
まず、情報収集装置102においては、最終更新時間判定モジュール105は、Webサーバ101の文章管理モジュール104に対して、公開されている文章の最新更新時間を要求して(ステップ201)、最終更新時間を取得する(ステップ202)。次に、最終更新時間判定モジュール105は、最終収集時間DB401に対して当該文章の最終収集時間を読み出す処理を行うことにより(ステップ203)、最終収集時間DB401から当該文章の最終収集時間を取得する(ステップ204)。そして、最終更新時間判定モジュール105は、文書管理モジュール104から得た最終更新時間と、最終収集時間DB401から得た最終収集時間とを比較し、最終更新時間が最終収集時間より後の場合、最終収集時間DB401中の最終収集時間を最終更新時間に更新し(ステップ205)、情報収集モジュール106に対し、当該文章について収集要との判定結果を渡す(ステップ206)。最終更新時間が最終収集時間より後の時間でない場合、最終更新時間判定モジュール105は、情報収集モジュール106に対し、当該文章について収集否との判定結果を渡す(ステップ206)。
【0010】
次に、情報収集モジュール106は、最終更新時間判定モジュール105からの判定結果が収集要の場合のみ、Webサーバ101に対し当該文章に対する文章取得要求を行い、当該文章を収集する(ステップ207、208)。
【0011】
さらに従来の他の情報収集装置として、公開されている文章の最終更新時間だけでなく、最終更新時間と文章中のキーワード、文章の場所を示すURLに基づいて当該文章の収集の要否を判定する情報収集システムが存在する。例えば、特許文献1のシステムでは、最終更新時間に加え、文章から抽出したキーワードとURLを元に収集要否を判定することで汎用的な文章収集処理に関する収集効率の向上を実現している。
【0012】
しかし、このような従来の情報収集システムでは、最終更新時間と文章中のキーワードに基づいて収集済みの文章と現在公開されている文章の差分の有無を判定してその文章の収集要否を判定しているため、初回収集時には全ての文章を収集しなければならないという問題点があった。また、収集が必要な文章について、文章が更新されているかの判定を最終更新時間だけでなく、文章中のキーワードに基づいて行っているため、文章中に含まれる記事以外から抽出されたキーワードが変更された場合についても文章を再収集するという問題点があった。
【0013】
【特許文献1】
特開2000−293527号公報
【0014】
【発明が解決しようとする課題】
上述した従来の情報収集装置では、下記のような問題点があった。
(1)従来の情報収集システムは、収集済みの文章と現在公開されている文章の差分を最終更新時間と文章中のキーワードに基づいて判定してその文章の収集の要否を判定しているため、初回収集時には全ての文章を収集しなければならない。
(2)また、収集が必要な文章について、文章が更新されているかの判定を最終更新時間に加え、文章中のキーワードから判定しているため、文章中に含まれる記事以外から抽出されたキーワードが変更された場合についても文章の再収集が行われてしまう。
【0015】
本発明の目的は、収集を行いたい文章のみを収集することができ不必要な文章の収集をできるだけ削減して収集処理の効率化を図ることができる情報収集装置および情報収集方法を提供することである。
【0016】
【課題を解決するための手段】
上記目的を達成するために、本発明の情報収集装置は、コンピュータネットワーク上に公開されている文章を収集するための情報収集装置であって、
コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDを含むサイト情報を格納しているサイト情報データベースと、
前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを格納している収集対象特定ルールデータベースと、
文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出し、読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出し、収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合のみ、当該文章の収集が必要であると判定する収集可否判定モジュールと、
前記収集可否判定モジュールにおいて収集が必要であると判定された場合のみ、当該文章の収集を行う情報収集モジュールとを有する。
【0017】
本発明によれば、収集の必要がある文章をサイト種別とサイトIDから一意に特定される収集対象特定ルールを用いて判定することにより、初回収集時にも必要な文章のみを収集することが可能となる。そのため、コンピュータネットワーク上において公開されている文章の収集処理を行う際に、収集処理の効率化を図ることができる。
【0018】
また、本発明の他の情報収集装置は、コンピュータネットワーク上に公開されている文章を収集するための情報収集装置であって、
文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報を格納しているサイト情報データベースと、
各文章を取得した最終の収集時間である最終収集時間と、各文章の収集が完了したか否かを示す収集完了情報とが、各文章毎に格納されている収集履歴データベースと、
公開されている文章の最新更新時間を取得し、当該文章の前記最終収集時間を前記収集履歴データベースから読み出し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力する最終更新時間判定モジュールと、
当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集完了情報を前記収集履歴データベースから読み出し、読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集履歴データベースの収集完了情報を収集済みに変更し、読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定モジュールによる最終更新時間判定結果を参照し、該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較し、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集履歴データベースの収集完了情報を収集済みに変更する収集可否判定モジュールと、
前記収集可否判定モジュールにおいて収集が必要であると判定された場合のみ、当該文章の収集を行う情報収集モジュールとを有する。
【0019】
本発明によれば、一度公開された記事は変更できないまたは変更されることが少ないという記事の特徴を利用して、収集しようとする文章に含まれる記事の数が1つの場合には、その文章に関しては一度収集を行った後は収集対象とはしないようにし、1つの文章中に複数の記事を含めることができる場合、収集した文章中に含まれる記事の数が、その文章に含めることができる記事の数の上限に達するまでは、その文章の最終更新時間と最終収集時間との比較を行うことにより収集要否の判定を行うにする。そのため、コンピュータネットワーク上に公開されている文章の収集処理を行う際に、不必要な文章の収集処理を削減して収集処理の効率化を図ることが可能となる。
【0020】
さらに、本発明の他の情報収集装置は、コンピュータネットワーク上に公開されている文章を収集するための情報収集装置であって、
コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDと、文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報を格納しているサイト情報データベースと、
前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを格納している収集対象特定ルールデータベースと、
各文章を取得した最終の収集時間である最終収集時間と、各文章の収集が完了したか否かを示す収集完了情報とが、各文章毎に格納されている収集履歴データベースと、
公開されている文章の最新更新時間を取得し、当該文章の前記最終収集時間を前記収集履歴データベースから読み出し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力する最終更新時間判定モジュールと、
文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出し、読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出し、収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致しない場合、当該文章の収集は必要でないと判定し、収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合、当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集完了情報を前記収集履歴データベースから読み出し、読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集履歴データベースの収集完了情報を収集済みに変更し、読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定モジュールによる最終更新時間判定結果を参照し、該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較し、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集履歴データベースの収集完了情報を収集済みに変更する収集可否判定モジュールと、
前記収集可否判定モジュールにおいて収集が必要であると判定された場合のみ、当該文章の収集を行う情報収集モジュールとを有する。
【0021】
本発明によれば、収集対象特定ルールを用いてその文章の収集が必要であるか否かを判定するとともに、その文章に含まれる記事の数に基づいて収集が必要であるか否かの判定も行うようにしているので、コンピュータネットワーク上において公開されている文章の収集処理を行う際に、収集処理の効率化をさらに図ることができる
【0022】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。
【0023】
図1は、本発明の一実施形態の情報収集装置112を含む情報処理システムの構成を示す図である。図6中の構成要素と同一の構成要素には同一の符号を付し、説明を省略するものとする。
【0024】
図1に示されるように、この情報処理システムでは、蓄積されている文章の公開を行うWebサーバ101と、文章の収集を行う情報収集装置112とがインターネット等のコンピュータネットワーク103に接続されている。
【0025】
従来の情報収集装置では、文章中のキーワードを抽出し、この文章中のキーワードを用いて文章収集の要否の判定を行っているため、初回収集時には全ての文章を収集する必要があった。これに対して、本実施形態の情報収集装置112では、収集の必要がある文章をサイト種別とサイトIDから一意に特定される収集対象特定ルールを用いて収集の要否を判定することにより、初回収集時にも必要な文章のみを収集することを可能とする。
【0026】
さらに、一般的には、一度公開された記事は変更できないまたは変更されることは少ない。そのため、1つの文章に1つの記事しか含まれない場合には、その文章の収集を行った後には再度その文章の収集が必要となる可能性は少ない。そのため、本実施形態の情報収集装置112では、記事を1つしか含まないような形態の文章に対しては一度収集を行った後は収集対象とはしないようにする。
【0027】
ただし、1つの文章中に複数の記事を含めることができる場合、時間経過とともにその文章に含まれる記事が追加されていく場合がある。そのため、本実施形態の情報収集装置112では、文章中に含まれる記事の数が複数の場合、収集した文章中に含まれる記事の数が、その文章に含めることができる記事の数の上限に達するまでは、その文章の最終更新時間と最終収集時間との比較を行うことにより収集要否の判定を行う。
【0028】
例えば、ある文章中に含まれる記事の上限が100である場合、過去の収集においてその文章中に含まれる記事数が100であることが確認された場合、その文章にはそれ以上記事が追加されることはないため、再度その文章を収集する必要はない。そのため、その文章に関しては、収集した文章中に含まれる記事数が100となるまでは、従来と同様に最終更新時間と最終収集時間とを比較することにより収集要否の判定を行い、収集した文章中に含まれる記事数が100になるとその文章の収集を行わないようにする。
【0029】
本実施形態の情報収集装置112は、図1に示されるように、最終更新時間判定モジュール105と、情報収集モジュール106と、収集可否判定モジュール107と、サイト情報DB504と、収集対象特定ルールDB505と、収集履歴DB506とを具備している。
【0030】
本実施形態の情報収集装置112は、図6に示した従来の情報収集装置102に対して、最新更新時間判定モジュール105と情報収集モジュール106との間に、収集可否判定モジュール107を新たに追加し、最終収集時間DB401の替わりに収集履歴DB506を設け、さらに、サイト情報DB504、収集対象特定ルールDB505を新たに設けたものである。
【0031】
サイト情報DB504は、コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDと、その文章の集合のリンクにおける最上位のトップ文章と、その文章中に含まれる記事の数の上限を示す文章分類情報とから構成されるサイト情報を格納している。このサイト情報DB504に格納されるサイト情報の一例を図2に示す。
【0032】
収集対象特定ルールDB505は、サイト種別とサイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを格納している。
【0033】
収集対象特定ルールの具体例としては、サイトのトップ文章からハイパーリンクによりリンクされている一段目の文章のみを収集対象とする、gifファイルは収集対象とせずにhtmlファイルのみを収集対象とする、日付を含むファイル名のhtmlファイルのみを収集対象とする等の条件があげられる。
【0034】
収集履歴DB506は、各文章を取得した最終の収集時間である最終収集時間と、その文章の収集が完了したか否かを示す収集完了情報とが、各文章毎に格納されている。この収集履歴DB506に格納される収集履歴情報の一例を図3に示す。
【0035】
収集可否判定モジュール107は、文章の収集を行う際に、その文章のサイト情報とサイト種別をサイト情報DB504から読み出し、そのサイト種別とサイトIDにより一意に特定される収集対象特定ルールを収集対象特定ルールDB505から読み出し、収集を行うとする文章の条件が読み出した収集対象特定ルールに合致する場合のみ、その文章の収集が必要であると判定する。
【0036】
また、収集可否判定モジュール107は、文章の収集を行う際に、その文章の文章分類情報をサイト情報DBより読み出すとともに、その文章の収集完了情報を収集履歴DB506から読み出し、読み出した文章分類情報がその文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集否と判定し、読み出した収集完了情報が未収集であることを示していれば収集要と判定するとともに収集履歴DB506の収集完了情報を収集済みに変更する。
【0037】
また、収集可否判定モジュール107、読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集否と判定し、読み出した収集完了情報が未収集であることを示していれば、最終更新時間判定モジュール105による最終更新時間判定結果を参照し、この最終時間判定結果が収集否を示していれば収集否と判定し、収集要を示していれば収集要と判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較し、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば収集履歴DB506の収集完了情報を収集済みに変更する。
【0038】
次に、本実施形態の情報収集装置112の動作について図4のシーケンスチャートを参照して詳細に説明する。また、収集が行われる文章の一例を図5に示す。この図5では、ある文章502には、複数の記事508が含まれている場合を示している。
【0039】
まず、情報収集装置112において、最終更新時間判定モジュール105は、Webサーバ101の文書管理モジュール104に対して、公開されている文章の最終更新時間を要求して(ステップ301)、最終更新時間を取得する(ステップ302)。次に、最終更新時間判定モジュール105は、収集履歴DB506に対して当該文章の最終収集時間を読み出す処理を行うことにより(ステップ303)、収集履歴DB506から当該文章の最終収集時間を取得する(ステップ303)。そして、最終更新時間判定モジュール105は、収集履歴DB506から最終収集時間を取得できない場合は、収集可否判定モジュール107に対し当該文章について収集要との最終更新時間判定結果を渡し、取得できる場合は文書管理モジュール104から得た最終更新時間と、収集履歴DB506から得た最終収集時間との比較を行う。そして、この比較において、最終更新時間が最終収集時間より後の場合、最終更新時間判定モジュール105は、収集可否判定モジュール107に対し当該文章について収集要との最終更新時間判定結果を渡す(ステップ305)。最終更新時間が最終収集時間より後の時間でない場合、最終更新時間判定モジュール105は、収集可否判定モジュール107に対し当該文章について収集否との最終更新時間判定結果を渡す(ステップ305)。
【0040】
次に、収集可否判定モジュール107は、当該文章に関するサイト種別(ニュース、掲示板、日記、個人HP、企業HP等)とサイトIDと文章分類情報をサイト情報DB504から取得し(ステップ306、307)、サイト種別とサイトIDを元に収集対象特定ルールDB505から当該文章の収集対象特定ルールを取得する(ステップ308、309)。そして、収集可否判定モジュール107は、当該文章が取得した収集対象特定ルールに合致しない場合は、収集否と判定し情報収集モジュール106に対し当該文章について収集否との判定結果を渡す。合致する場合、収集可否判定モジュール107は、収集要と判定し次の収集履歴を用いた判定処理を行う。
【0041】
収集履歴を用いた判定処理として、収集可否判定モジュール107は、当該文章に関する「文章中に含まれる記事が1つ」であるか「文章中に含まれる記事が複数」を判定する文章分類情報と、収集完了情報を収集履歴DB506から取得する(ステップ310、311)。当該文章の分類が「文章中に含まれる記事が1つ」であり、かつ収集完了情報が収集済みであれば収集否と判定する。当該文章の分類が「文章中に含まれる記事が1つ」であり、収集完了情報が未収集であれば収集要と判定し、収集履歴に収集済みと最終更新時間と合わせて記録する(ステップ312)。当該文章の分類が「文章中に含まれる記事が複数」であり、かつ収集履歴に記録されている当該文章の収集完了情報が収集済みであれば収集否と判定する。当該文章の分類が「文章中に含まれる記事が複数」であり、かつ収集履歴に記録されている当該文章の収集完了情報が未収集であれば、収集可否判定モジュール107は、最終更新時刻判定結果を確認する。最終更新時刻判定結果が収集要の場合は収集要と判定し、さらに収集した情報中に含まれる記事数が情報に達していれば収集済みと最終更新時間と合わせて収集履歴に記録し(ステップ312)、最終更新時刻判定結果が収集否の場合は収集否と判定する。収集要否の判定結果を情報収集モジュール106に対して渡す(ステップ313)。
【0042】
次に、情報収集モジュール106は、最終更新時間判定モジュール105からの判定結果が収集要の場合のみ、Webサーバ101に対し当該文章に対する文章取得要求を行い、当該文章を収集する(ステップ314、315)。
【0043】
本実施形態の情報収集装置112によれば、インターネット等のコンピュータネットワーク103上に公開されている文章の収集処理を行う際に、最終更新時間だけでなく、サイト種別とサイトIDにより一意に特定される収集対象特定ルールに基づいて収集要否の判定を行うようにしているので、初回収集時にも必要な文章のみを収集することが可能となる。そのため、コンピュータネットワーク103上において公開されている文章の収集処理を行う際に、収集処理の効率化を図ることができる。
【0044】
本実施形態の情報収集装置112では、一度公開された記事は変更できないまたは変更されることが少ないという記事の特徴を利用して、収集しようとする文章に含まれる記事の数が1つの場合には、その文章に関しては一度収集を行った後は収集対象とはしないようにし、1つの文章中に複数の記事を含めることができる場合、収集した文章中に含まれる記事の数が、その文章に含めることができる記事の数の上限に達するまでは、その文章の最終更新時間と最終収集時間との比較を行うことにより収集要否の判定を行うにする。そのため、コンピュータネットワーク103上に公開されている文章の収集処理を行う際に、不必要な文章の収集処理を削減して収集処理の効率化を図ることが可能となる。
【0045】
尚、本実施形態の情報収集装置112では、収集対象特定ルールを用いた収集要否の判定と、その文章に含まれる記事数に基づいた収集要否の判定を同時に行うものとして説明しているが、本発明はこのような場合に限定されるものではなく、それぞれ単独で行うようにしてもよい。
【0046】
また、図には示されていないが、本実施形態の情報収集装置112は、上記で説明した情報収集方法を実行するためのプログラムを記録した記録媒体を備えている。この記録媒体は磁気ディスク、半導体メモリまたはその他の記録媒体であってもよい。このプログラムは、記録媒体から情報収集装置112に読み込まれ、情報収集装置112の動作を制御する。具体的には、情報収集装置112内のCPUがこのプログラムの制御により情報収集装置112のハードウェア資源に特定の処理を行うように指示することにより上記の処理が実現される。
【0047】
【発明の効果】
本発明によれば、インターネット等のコンピュータネットワーク上に公開されている文章を収集する際に、収集を行いたい文章のみを収集することができ不必要な文章の収集をできるだけ削減して収集処理の効率化が可能となるという効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態の情報収集装置112を含む情報処理システムの構成を示す図である。
【図2】図1におけるサイト情報DB504に格納されるサイト情報の一例を示したものである。
【図3】図1における収集履歴DB506に格納される収集履歴情報の一例を示したものである。
【図4】図1に示した本発明の一実施形態の情報収集装置112における処理を示すシーケンス図である。
【図5】収集が行われる文章の構成の一例を示す図である。
【図6】従来の情報収集装置102を含む情報処理システムの構成を示す図である。
【図7】図6に示した従来の情報収集装置102における処理を示すシーケンス図である。
【符号の説明】
101 Webサーバ
102 情報収集装置
103 コンピュータネットワーク
104 文章管理モジュール
105 最終更新時間判定モジュール
106 情報収集モジュール
107 収集可否判定モジュール
112 情報収集装置
201〜208 ステップ
301〜315 ステップ
401 最終収集時間DB
501 最終更新時間
502 文章
503 最終更新時間判定結果
504 サイト情報DB
505 収集対象特定ルールDB
506 収集履歴DB
507 判定結果
508 記事

Claims (12)

  1. コンピュータネットワーク上に公開されている文章を収集するための情報収集装置であって、
    コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDを含むサイト情報を格納しているサイト情報データベースと、
    前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを格納している収集対象特定ルールデータベースと、
    文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出し、読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出し、収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合のみ、当該文章の収集が必要であると判定する収集可否判定モジュールと、
    前記収集可否判定モジュールにおいて収集が必要であると判定された場合のみ、当該文章の収集を行う情報収集モジュールとを有する情報収集装置。
  2. コンピュータネットワーク上に公開されている文章を収集するための情報収集装置であって、
    文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報を格納しているサイト情報データベースと、
    各文章を取得した最終の収集時間である最終収集時間と、各文章の収集が完了したか否かを示す収集完了情報とが、各文章毎に格納されている収集履歴データベースと、
    公開されている文章の最新更新時間を取得し、当該文章の前記最終収集時間を前記収集履歴データベースから読み出し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力する最終更新時間判定モジュールと、
    当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集完了情報を前記収集履歴データベースから読み出し、読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集履歴データベースの収集完了情報を収集済みに変更し、読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定モジュールによる最終更新時間判定結果を参照し、該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較し、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集履歴データベースの収集完了情報を収集済みに変更する収集可否判定モジュールと、
    前記収集可否判定モジュールにおいて収集が必要であると判定された場合のみ、当該文章の収集を行う情報収集モジュールとを有する情報収集装置。
  3. コンピュータネットワーク上に公開されている文章を収集するための情報収集装置であって、
    コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDと、文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報を格納しているサイト情報データベースと、
    前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを格納している収集対象特定ルールデータベースと、
    各文章を取得した最終の収集時間である最終収集時間と、各文章の収集が完了したか否かを示す収集完了情報とが、各文章毎に格納されている収集履歴データベースと、
    公開されている文章の最新更新時間を取得し、当該文章の前記最終収集時間を前記収集履歴データベースから読み出し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力する最終更新時間判定モジュールと、
    文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出し、読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出し、収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致しない場合、当該文章の収集は必要でないと判定し、収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合、当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集完了情報を前記収集履歴データベースから読み出し、読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集履歴データベースの収集完了情報を収集済みに変更し、読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定モジュールによる最終更新時間判定結果を参照し、該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較し、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集履歴データベースの収集完了情報を収集済みに変更する収集可否判定モジュールと、
    前記収集可否判定モジュールにおいて収集が必要であると判定された場合のみ、当該文章の収集を行う情報収集モジュールとを有する情報収集装置。
  4. コンピュータネットワーク上に公開されている文章を収集するための情報収集方法であって、
    コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDを含むサイト情報を予めサイト情報データベースに格納するステップと、
    前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを収集対象特定ルールデータベースに予め格納するステップと、
    文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出し、読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出すステップと、
    収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合のみ、当該文章の収集が必要であると判定するステップと、
    収集が必要であると判定された場合のみ、当該文章の収集を行うステップとを有する情報収集方法。
  5. コンピュータネットワーク上に公開されている文章を収集するための情報収集方法であって、
    文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報をサイト情報データベースに格納するステップと、
    公開されている文章の最新更新時間を取得し、該最新更新時間と当該文章の過去における最終収集時間とを比較し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力するステップと、
    当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集が完了したか否かを示す収集完了情報を収集履歴データベースから読み出すステップと、
    読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集完了情報を収集済みに変更するステップと、
    読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定結果を参照するステップと、
    該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較して、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集完了情報を収集済みに変更するステップと、
    収集が必要であると判定された場合のみ当該文章の収集を行うステップとを有する情報収集方法。
  6. コンピュータネットワーク上に公開されている文章を収集するための情報収集方法であって、
    コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDと、文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報を予めサイト情報データベースに格納するステップと、
    前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを予め収集対象特定ルールデータベースに格納するステップと、
    公開されている文章の最新更新時間を取得し、該最新更新時間と当該文章の過去における最終収集時間とを比較し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力するステップと、
    文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出すステップと、
    読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出すステップと、
    収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致しない場合、当該文章の収集は必要でないと判定するステップと、
    収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合、当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集完了情報を前記収集履歴データベースから読み出すステップと、
    読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集完了情報を収集済みに変更するステップと、
    読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定モジュールによる最終更新時間判定結果を参照するステップと、
    該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較し、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集完了情報を収集済みに変更するステップと、
    収集が必要であると判定された場合のみ当該文章の収集を行うステップとを有する情報収集方法。
  7. コンピュータネットワーク上に公開されている文章を収集するための情報収集方法をコンピュータ実行させるためのプログラムであって、
    コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDを含むサイト情報を予めサイト情報データベースに格納する処理と、
    前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを収集対象特定ルールデータベースに予め格納する処理と、
    文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出し、読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出す処理と、
    収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合のみ、当該文章の収集が必要であると判定する処理と、
    収集が必要であると判定された場合のみ、当該文章の収集を行う処理とをコンピュータに実行させるためのプログラム。
  8. コンピュータネットワーク上に公開されている文章を収集するための情報収集方法をコンピュータに実行させるためのプログラムであって、
    文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報をサイト情報データベースに格納する処理と、
    公開されている文章の最新更新時間を取得し、該最新更新時間と当該文章の過去における最終収集時間とを比較し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力する処理と、
    当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集が完了したか否かを示す収集完了情報を収集履歴データベースから読み出す処理と、
    読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集完了情報を収集済みに変更する処理と、
    読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定結果を参照する処理と、
    該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較して、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集完了情報を収集済みに変更する処理と、
    収集が必要であると判定された場合のみ当該文章の収集を行う処理とをコンピュータに実行させるためのプログラム。
  9. コンピュータネットワーク上に公開されている文章を収集するための情報収集方法をコンピュータに実行させるためのプログラムであって、
    コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDと、文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報を予めサイト情報データベースに格納する処理と、
    前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを予め収集対象特定ルールデータベースに格納する処理と、
    公開されている文章の最新更新時間を取得し、該最新更新時間と当該文章の過去における最終収集時間とを比較し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力する処理と、
    文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出す処理と、
    読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出す処理と、
    収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致しない場合、当該文章の収集は必要でないと判定する処理と、
    収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合、当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集完了情報を前記収集履歴データベースから読み出す処理と、
    読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集完了情報を収集済みに変更する処理と、
    読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定モジュールによる最終更新時間判定結果を参照する処理と、
    該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較し、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集完了情報を収集済みに変更する処理と、
    収集が必要であると判定された場合のみ当該文章の収集を行う処理とをコンピュータに実行させるためのプログラム。
  10. コンピュータネットワーク上に公開されている文章を収集するための情報収集方法をコンピュータ実行させるためのプログラムを記録した記録媒体であって、
    コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDを含むサイト情報を予めサイト情報データベースに格納する処理と、
    前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを収集対象特定ルールデータベースに予め格納する処理と、
    文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出し、読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出す処理と、
    収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合のみ、当該文章の収集が必要であると判定する処理と、
    収集が必要であると判定された場合のみ、当該文章の収集を行う処理とをコンピュータに実行させるためのプログラムを記録した記録媒体。
  11. コンピュータネットワーク上に公開されている文章を収集するための情報収集方法をコンピュータに実行させるためのプログラムを記録した記録媒体であって、
    文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報をサイト情報データベースに格納する処理と、
    公開されている文章の最新更新時間を取得し、該最新更新時間と当該文章の過去における最終収集時間とを比較し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力する処理と、
    当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集が完了したか否かを示す収集完了情報を収集履歴データベースから読み出す処理と、
    読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集完了情報を収集済みに変更する処理と、
    読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定結果を参照する処理と、
    該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較して、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集完了情報を収集済みに変更する処理と、
    収集が必要であると判定された場合のみ当該文章の収集を行う処理とをコンピュータに実行させるためのプログラムを記録した記録媒体。
  12. コンピュータネットワーク上に公開されている文章を収集するための情報収集方法をコンピュータに実行させるためのプログラムを記録した記録媒体であって、
    コンピュータネットワーク上に公開されている文章の集合をその内容に応じて分類したサイト種別と、各文章を一意に特定するためのサイトIDと、文章中に含まれる記事の数の上限を示す文章分類情報を含むサイト情報を予めサイト情報データベースに格納する処理と、
    前記サイト種別と前記サイトIDに基づいて一意に特定され、収集対象とする文章の条件である収集対象特定ルールを予め収集対象特定ルールデータベースに格納する処理と、
    公開されている文章の最新更新時間を取得し、該最新更新時間と当該文章の過去における最終収集時間とを比較し、取得した前記最新更新時間のほうが読み出した前記最終収集時間よりも後である場合、当該文章の収集が必要であるとする最終更新時間判定結果を出力する処理と、
    文章の収集を行う際に、当該文章のサイト情報とサイト種別を前記サイト情報データベースから読み出す処理と、
    読み出した該サイト種別と該サイトIDにより一意に特定される収集対象特定ルールを前記収集対象特定ルールデータベースから読み出す処理と、
    収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致しない場合、当該文章の収集は必要でないと判定する処理と、
    収集を行うとする文章の条件が読み出した前記収集対象特定ルールに合致する場合、当該文章の文章分類情報を前記サイト情報データベースより読み出すとともに当該文章の収集完了情報を前記収集履歴データベースから読み出す処理と、
    読み出した文章分類情報が当該文章中に含まれる記事が1つであることを示している場合、読み出した収集完了情報が収集済みであることを示していれば収集は必要ないと判定し、読み出した収集完了情報が未収集であることを示していれば収集が必要であると判定するとともに前記収集完了情報を収集済みに変更する処理と、
    読み出した文章分類情報がその文章中に含まれる記事が複数であることを示している場合、読み出した収集完了情報が収集済みを示していれば収集は必要でないと判定し、読み出した収集完了情報が未収集であることを示していれば、前記最終更新時間判定モジュールによる最終更新時間判定結果を参照する処理と、
    該最終時間判定結果が収集が必要でないことを示していれば当該文章の収集は必要でないと判定し、前記最終時間判定結果が収集が必要であることを示していれば当該文章の収集は必要であると判定するとともに収集した文章中に含まれる記事数と文章分類情報の示す記事数とを比較し、収集した文章中に含まれる記事数が文章分類情報の示す記事数に達していれば前記収集完了情報を収集済みに変更する処理と、
    収集が必要であると判定された場合のみ当該文章の収集を行う処理とをコンピュータに実行させるためのプログラムを記録した記録媒体。
JP2003038268A 2003-02-17 2003-02-17 情報収集装置と情報収集方法およびプログラムと記録媒体 Pending JP2004246785A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003038268A JP2004246785A (ja) 2003-02-17 2003-02-17 情報収集装置と情報収集方法およびプログラムと記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003038268A JP2004246785A (ja) 2003-02-17 2003-02-17 情報収集装置と情報収集方法およびプログラムと記録媒体

Publications (1)

Publication Number Publication Date
JP2004246785A true JP2004246785A (ja) 2004-09-02

Family

ID=33022844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003038268A Pending JP2004246785A (ja) 2003-02-17 2003-02-17 情報収集装置と情報収集方法およびプログラムと記録媒体

Country Status (1)

Country Link
JP (1) JP2004246785A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014506355A (ja) * 2010-12-22 2014-03-13 北大方正集▲団▼有限公司 電子掲示板リプライ増加量の採集方法及びシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014506355A (ja) * 2010-12-22 2014-03-13 北大方正集▲団▼有限公司 電子掲示板リプライ増加量の採集方法及びシステム

Similar Documents

Publication Publication Date Title
US6199081B1 (en) Automatic tagging of documents and exclusion by content
US7653623B2 (en) Information searching apparatus and method with mechanism of refining search results
US6638314B1 (en) Method of web crawling utilizing crawl numbers
US7953752B2 (en) Methods for merging text snippets for context classification
US7844139B2 (en) Information management apparatus, information management method, and computer program product
US8122069B2 (en) Methods for pairing text snippets to file activity
JP5147947B2 (ja) クエリ別検索コレクション生成方法およびシステム
US20070038665A1 (en) Local computer search system and method of using the same
US20130074148A1 (en) Method and system for compiling a unique sample code for specific web content
CN1555533A (zh) 用于在网络中传送动态信息的方法和系统
TW201027375A (en) Search system, search method and program
JPH09311869A (ja) インターネット検索サーバ
US8799274B2 (en) Topic map for navigation control
US7305610B1 (en) Distributed crawling of hyperlinked documents
US10169352B2 (en) System for performing parallel forensic analysis of electronic data and method therefor
CN1417709A (zh) 信息检索系统及其信息检索方法
WO2007042840A1 (en) Search using changes in prevalence of content items on the web
JP2010257453A (ja) サーチクエリデータを用いて文書にタグ付けするシステム
KR20040017008A (ko) 검색엔진을 활용한 정보 제공 시스템 및 그 방법
JPH11265393A (ja) 情報検索装置
Mahaju et al. Evaluation of firefox browser forensics tools
JP2001060165A (ja) 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
US20060143242A1 (en) Content management device
CN111125485A (zh) 基于Scrapy的网站URL爬取方法
JP3746233B2 (ja) 知識分析システムおよび知識分析方法