JP4917057B2 - 情報収集方法及び情報収集装置 - Google Patents
情報収集方法及び情報収集装置 Download PDFInfo
- Publication number
- JP4917057B2 JP4917057B2 JP2008032331A JP2008032331A JP4917057B2 JP 4917057 B2 JP4917057 B2 JP 4917057B2 JP 2008032331 A JP2008032331 A JP 2008032331A JP 2008032331 A JP2008032331 A JP 2008032331A JP 4917057 B2 JP4917057 B2 JP 4917057B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- information
- date
- website
- recollection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記収集した前記Webサイトの情報を再収集する日時を再収集予定データとして当該Webサイトの特定情報と関連付けてデータベース(例えば、リクロールDB60)に記憶する記憶ステップと、
前記データベース(例えば、リクロールDB60)の記憶内容に基づいて、当該再収集予定データが示す日時が現在日時に達しているか否かを判定する判定ステップと、
前記判定ステップにおいて現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集する再収集ステップと、
前記判定ステップにおいて現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する一時停止ステップと、
を含む方法。
前記データベースの記憶内容に基づいて、当該再収集予定データが示す日時が現在日時に達しているか否かを判定し、
前記判定ステップにおいて現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集する再収集し、
前記判定ステップにおいて現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する。
前記一時停止ステップは、
前記判定ステップにおいて現在日時に達していないと判定された再収集予定データが示す日時までの間、前記Webサイトの情報の再収集を一時的に停止した後に当該情報の再収集を再開する方法。
前記記憶ステップは、前記再収集予定データを前記再収集する日時の順番にソートして記憶する方法。
前記記憶ステップは、前記Webサイトの情報を収集した日時に所定の期間を加算して前記再収集予定データを決定する方法。
前記記憶ステップは、前記再収集予定データの決定の度に、前記所定の期間を変化させる方法。
前記記憶ステップは、前記再収集する日時のデータに前記Webサイトの特定情報を連結したものを前記再収集予定データとして記憶する方法。
前記Webサイトの情報の収集の成否を判定する成否判定ステップを更に含み、
前記記憶ステップは、前記成否判定ステップにおいて前記情報の収集が失敗したと判定された場合に、前記Webサイトの情報の収集を行った日時を基準として、前記情報の収集が成功した場合より相対的に短い期間経過後の日時を前記再収集予定データとして決定する方法。
更に、前記情報の収集が失敗したと判定された場合に、前記Webサイトの情報の収集を行った日時を基準として、前記情報の収集が成功した場合より相対的に短い期間経過後の日時を前記再収集予定データとして決定する。
前記情報を収集された前記Webサイトの情報を再収集するか否かを所定条件に基づいて判定する再収集要否判定ステップを更に含み、
前記記憶ステップは、前記再収集要否判定ステップにおいて再収集すると判定された場合にのみ、前記再収集予定データを前記データベースに記憶する方法。
前記再収集要否判定ステップにおいて再収集すると判定された場合にのみ、前記再収集予定データを前記データベースに記憶する。
前記収集した前記Webサイトの情報を再収集する日時を再収集予定データとして当該Webサイトの特定情報と関連付けてデータベースに記憶する記憶手段と、
前記データベースの記憶内容に基づいて、当該再収集予定データが示す日時が現在日時に達しているか否かを判定する判定手段と、
前記判定手段が現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集する再収集手段と、
前記判定手段が現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する一時停止手段と、
を備える情報収集装置。
図1は、本実施形態の一例に係るシステム1の全体構成を示す図である。
図2は、図1で説明した本実施形態の一例に係る情報収集装置10のハードウェア構成の一例を示す図である。
図3は、本実施形態の一例に係る情報収集装置10の機能ブロック図である。
図4は、本発明の好適な実施形態の一例に係る情報収集装置10によるリクロール処理の概要を示す図である。ステップS101はコンテンツデータのコピー、ステップS102並びにステップS103はデータの記憶、ステップS104は再収集予定データの読み出し、ステップS106はディスパッチ、ステップS105並びにステップS107はキューイングの各ステップを示す。
図7は、本実施形態の一例に係るクロールキッカーによる処理のフローチャートである。
図9は、本実施形態の一例に係るクローラによるクロール処理のフローチャートである。
図10及び図11で示すように、従来のクロールキッカーは、コンテンツDB50の全レコードの処理が終わるまで、1レコードずつ読み込んで処理をすることによりリクロールを行っており、コンテンツDBのレコード数によっては、クロールキッカーが、コンテンツDB50にアクセスする回数は、膨大なものとなる。例えば、クロールキッカーがx回起動するとして、コンテンツDB50にアクセスする回数を計算すると次のようになる。すなわち、従来の技術によれば、コンテンツDB50へのアクセス回数は、
であるのに対し、従来の技術によれば、
10 情報収集装置
20 Webサイト
30 通信ネットワーク
50 コンテンツDB
60 リクロールDB
Claims (7)
- 通信ネットワークを介してWebサイトと接続可能な情報収集装置が前記Webサイトの情報を収集する情報収集方法であって、
前記収集した前記Webサイトの情報を再収集する日時を再収集予定データとして当該Webサイトの特定情報と関連付けて再収集する日時の早いものから順にソートしてデータベースに記憶する記憶ステップと、
前記データベースの記憶内容を先頭から一つ読み出して、当該再収集予定データが示す日時が現在日時に達しているか否かを判定する判定ステップと、
前記判定ステップにおいて現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集するとともに、当該日時が現在日時に達していると判定された再収集予定データを前記データベースから削除する再収集ステップと、
前記判定ステップにおいて現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止する前記判定ステップにおいて現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止するとともに再収集予定データが示す日時まで前記判定ステップにおける前記データベースの読み込みを中止するスリープ処理を行う一時停止ステップと、
前記判定ステップ、前記再収集ステップおよび前記一時停止ステップの処理を、前記スリープ処理が行われていないことを条件として繰り返し実行する繰り返しステップと、
を含む方法。 - 請求項1に記載の方法であって、
前記記憶ステップは、前記Webサイトの情報を収集した日時に所定の期間を加算して前記再収集予定データを決定する方法。 - 請求項2に記載の方法であって、
前記記憶ステップは、前記再収集予定データの決定の度に、前記所定の期間を変化させる方法。 - 請求項1から請求項3のいずれか一項に記載の方法であって、
前記記憶ステップは、前記再収集する日時のデータに前記Webサイトの特定情報を連結したものを前記再収集予定データとして記憶する方法。 - 請求項1から請求項4のいずれか一項に記載の方法であって、
前記Webサイトの情報の収集の成否を判定する成否判定ステップを更に含み、
前記記憶ステップは、前記成否判定ステップにおいて前記情報の収集が失敗したと判定された場合に、前記Webサイトの情報の収集を行った日時を基準として、前記情報の収集が成功した場合より相対的に短い期間経過後の日時を前記再収集予定データとして決定する方法。 - 請求項1から請求項5のいずれか一項に記載の方法であって、
前記情報を収集された前記Webサイトの情報を再収集するか否かを所定条件に基づいて判定する再収集要否判定ステップを更に含み、
前記記憶ステップは、前記再収集要否判定ステップにおいて再収集すると判定された場合にのみ、前記再収集予定データを前記データベースに記憶する方法。 - 通信ネットワークを介してWebサイトと接続可能であり、前記Webサイトの情報を収集する情報収集装置であって、
前記収集した前記Webサイトの情報を再収集する日時を再収集予定データとして当該Webサイトの特定情報と関連付けて再収集する日時の早いものから順にソートしてデータベースに記憶する記憶手段と、
前記データベースの記憶内容を先頭から一つ読み出して、当該再収集予定データが示す日時が現在日時に達しているか否かを判定する判定手段と、
前記判定手段が現在日時に達していると判定された場合に、前記再収集予定データに関連付けられた特定情報に基づいた前記Webサイトの情報を再収集するとともに、当該日時が現在日時に達していると判定された再収集予定データを前記データベースから削除する再収集手段と、
前記判定手段が現在日時に達していないと判定された場合に、前記情報の再収集を一時的に停止するとともに再収集予定データが示す日時まで前記判定手段の前記データベースの読み込みを中止するスリープ処理を行う一時停止手段と、
前記判定手段、前記再収集手段および前記一時停止手段の処理を、前記スリープ処理が行われていないことを条件として繰り返し実行する繰り返し手段と、
を備える情報収集装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008032331A JP4917057B2 (ja) | 2007-03-15 | 2008-02-13 | 情報収集方法及び情報収集装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007066217 | 2007-03-15 | ||
JP2007066217 | 2007-03-15 | ||
JP2008032331A JP4917057B2 (ja) | 2007-03-15 | 2008-02-13 | 情報収集方法及び情報収集装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008257695A JP2008257695A (ja) | 2008-10-23 |
JP4917057B2 true JP4917057B2 (ja) | 2012-04-18 |
Family
ID=39981159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008032331A Expired - Fee Related JP4917057B2 (ja) | 2007-03-15 | 2008-02-13 | 情報収集方法及び情報収集装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4917057B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6592237B2 (ja) * | 2014-10-10 | 2019-10-16 | Jcc株式会社 | 情報取得サーバー、情報取得方法、及び情報取得配信システム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002099460A (ja) * | 2000-09-22 | 2002-04-05 | Ntt Hokkaido Telemart Inc | Web情報収集方法および装置 |
JP2003099353A (ja) * | 2001-09-25 | 2003-04-04 | Casio Comput Co Ltd | 自動巡回装置及び自動巡回プログラム |
JP2003271494A (ja) * | 2002-03-13 | 2003-09-26 | Ntt Comware Corp | 情報収集システム、情報収集方法、情報収集プログラムおよび記録媒体 |
JP2004013749A (ja) * | 2002-06-10 | 2004-01-15 | Sharp Corp | Edaツールのライセンス取得状況調査システム、edaツールのライセンス取得状況調査方法、その制御プログラムおよび可読記録媒体 |
JP2004280210A (ja) * | 2003-03-13 | 2004-10-07 | Hitachi Ltd | データベース情報通信制御装置 |
JP2004318746A (ja) * | 2003-04-21 | 2004-11-11 | Toward Inc | 情報収集システム、情報収集方法、及び情報収集プログラム |
JP2006040135A (ja) * | 2004-07-29 | 2006-02-09 | Ntt Docomo Inc | 電子メール配信装置、電子メール配信時制御方法 |
-
2008
- 2008-02-13 JP JP2008032331A patent/JP4917057B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008257695A (ja) | 2008-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10089579B1 (en) | Predicting user navigation events | |
JP4786945B2 (ja) | インデックス付与強制クエリ | |
US7788253B2 (en) | Global anchor text processing | |
US20140026082A1 (en) | Method and system for predictive browsing | |
JP2007534057A (ja) | 情報を取り込み抽出する方法及びシステム | |
US20050223027A1 (en) | Methods and systems for structuring event data in a database for location and retrieval | |
JP5121194B2 (ja) | 組織内情報検索システム及び組織内情報検索プログラム | |
JPH1125059A (ja) | ネットワークライブラリ運用方法及びシステム及びネットワークライブラリ運用プログラムを格納した記憶媒体 | |
US20080109619A1 (en) | Information provision system and information provision method | |
US7529771B2 (en) | Method of and apparatus for gathering information, system for gathering information, and computer program | |
JP2006099341A (ja) | 更新履歴生成装置及びプログラム | |
JP5345582B2 (ja) | シソーラス構築システム、シソーラス構築方法およびシソーラス構築プログラム | |
JP4917057B2 (ja) | 情報収集方法及び情報収集装置 | |
JP3612185B2 (ja) | 文書情報更新監視装置 | |
JP4253315B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP2001184355A (ja) | 情報収集システム、コンテンツサーバ、情報収集装置及び記録媒体 | |
JP2002197100A (ja) | 検索サービスシステムと方法及び記録媒体並びに情報仲介方法 | |
JP4468978B2 (ja) | 情報提供システム、方法およびプログラム | |
JP2007193408A (ja) | 文書管理システムにおけるディスク運用制御方法 | |
JP2005078334A (ja) | 文書管理システムにおける検索方法 | |
JP2005010899A (ja) | ウェブサイト診断・支援装置、該方法及び該プログラム | |
JP3708893B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP3725087B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP3708894B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP3725088B2 (ja) | 知識情報収集システムおよび知識情報収集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090415 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120125 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150203 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4917057 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |