JP4380375B2 - 文書収集装置および文書収集用コンピュータプログラム - Google Patents
文書収集装置および文書収集用コンピュータプログラム Download PDFInfo
- Publication number
- JP4380375B2 JP4380375B2 JP2004075221A JP2004075221A JP4380375B2 JP 4380375 B2 JP4380375 B2 JP 4380375B2 JP 2004075221 A JP2004075221 A JP 2004075221A JP 2004075221 A JP2004075221 A JP 2004075221A JP 4380375 B2 JP4380375 B2 JP 4380375B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- time
- collection
- recorded
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
・文書アドレス情報を一通りチェックし尽くした。
・所定の時間に達していない。
1つの文書アドレスを1日に1回だけ巡回するように設定されている場合に、翌日するはずの文書が今日、巡回されるようにする。例えば、クライテリア関数を以下のように変更する。
クライテリア関数:fc(x,y)=x−y+c …[関数1]
(ただしxは巡回を開始した基準時刻、yは巡回予定時刻、cはマージン(単位は時間である)
旧 f0(x,y)=x−y
新 f24(x,y)=x−y+24
クライテリア関数を選択するためのヒント情報として収集情報格納部に格納された巡回予定時刻の度数分布を使用する。
[ステップS11]:キューテーブル102aをオープンする。
[ステップS12]:キューテーブル102aから次のレコードを取り出す。
[ステップS13]:キューテーブル102aを最後まで参照したかどうかを判別し、最後まで参照した場合にはステップS24に進み、そうでない場合にはステップS14へ進む。
[ステップS14]:「基準時刻−前回巡回時刻<巡回閾値時間」が満たされるかどうか判別し、満たされる場合には、巡回をスキップするためにステップS23に進み、満たされない場合にはステップS15へ進む。
[ステップS15]:[関数1](fc)で巡回判定を行なう。巡回すべきと判定された場合にはステップS16へ進み、そうでない場合には巡回をスキップするためにステップS23に進む。
[ステップS16]:文書アドレス情報を取り出す。
[ステップS17]:HTTPリクエスト(HEADメソッド)により文書の更新時刻情報を取得する。
[ステップS18]:レコードの更新時刻情報と、取得した更新時刻情報とを比較する。
[ステップS19]:比較結果に基づいて、文書が前回取得時から更新されている場合(レコードの更新時刻情報が古い場合)にはステップS20に進み、そうでない場合には、ステップS22に進む。
[ステップS20]:文書を取得してインデクサ11に渡し、インデックス情報を更新する。次回巡回予定時刻を計算し、レコードの巡回予定時刻に書き込み、現在時刻を前回巡回時刻フィールドに書き込む。ステップS21へ進む。
[ステップS21]:前回更新時刻を前前回更新時刻フィールドに書き込み、更新時刻を前回更新時刻フィールドの書き込む。ステップS23へ進む。
[ステップS22]:次回巡回予定時刻を計算して巡回予定時刻フィールドに書き込み、現在時刻を前回巡回時刻フィールドに書き込む。ステップS23へ進む。
[ステップS23]:巡回経過時間が巡回制限時刻を上回っていたら巡回を終了し、そうでない場合にはステップS12へ戻り処理を繰り返す。
[ステップS24]:全文書が巡回されたら、すべきことがないので、巡回を終了し、そうでない場合にはステップS25へ進む。
[ステップS25]:[関数1](fc)を変更してステップS11へ戻り処理を繰り返す。
[ステップS31]:キューテーブル102aをオープンする。
[ステップS32]:キューテーブル102aから次のレコードを取り出す。
[ステップS33]:キューテーブル102aを最後まで参照したかどうかを判別し、最後まで参照した場合にはステップS34に進み、そうでない場合にはステップS45へ進む。
[ステップS34]:「基準時刻−前回巡回時刻<巡回閾値時間」が満たされるかどうか判別し、満たされる場合には、巡回をスキップするためにステップS44に進み、満たされない場合にはステップS35へ進む。
[ステップS35]:[関数1](fc)で巡回判定を行なう。巡回すべきと判定された場合にはステップS36へ進み、そうでない場合には巡回をスキップするためにステップS43に進む。
[ステップS36]:文書アドレス情報を取り出す。
[ステップS37]:HTTPリクエスト(HEADメソッド)により文書の更新時刻情報を取得する。
[ステップS38]:レコードの更新時刻情報と、取得した更新時刻情報とを比較する。
[ステップS39]:比較結果に基づいて、文書が前回取得時から更新されている場合(レコードの更新時刻情報が古い場合)にはステップS40に進み、そうでない場合には、ステップS42に進む。
[ステップS40]:文書を取得してインデクサ11に渡し、インデックス情報を更新する。次回巡回予定時刻を計算し、レコードの巡回予定時刻に書き込み、現在時刻を前回巡回時刻フィールドに書き込む。ステップS41へ進む。
[ステップS41]:前回更新時刻を前前回更新時刻フィールドに書き込み、更新時刻を前回更新時刻フィールドの書き込む。ステップS43へ進む。
[ステップS42]:次回巡回予定時刻を計算して巡回予定時刻フィールドに書き込み、現在時刻を前回巡回時刻フィールドに書き込む。ステップS43へ進む。
[ステップS43]:基準時刻と巡回時刻との差を度数集計用配列に記録する。ステップS44へ進む。
[ステップS44]:巡回経過時間が巡回制限時刻を上回っていたら巡回を終了し、そうでない場合にはステップS32へ戻り処理を繰り返す。
[ステップS45]:全文書が巡回されたら、すべきことがないので、巡回を終了し、そうでない場合にはステップS46へ進む。
[ステップS46]:度数集計結果を用いて[関数1](fc)を変更してステップS31へ戻り処理を繰り返す。
11 インデクサ
12 検索装置
13、14 文書サーバ
15 ネットワーク
16 ユーザ端末
20 検索エンジン
101 文書情報取得部
102 収集情報格納部
102a キューテーブル
102b 代替キューテーブル
103 巡回判定部
104 判定規範情報設定部
105 リンク抽出部
106 収集範囲情報格納部
107 収集中断指示部
108 タイムアウト検出部
109 マーク検出部
110 同一ホスト連続アクセス検出部
Claims (4)
- ネットワークを介して接続された文書サーバ上の文書を上記文書サーバを巡回することにより収集する文書収集装置において、
上記文書サーバ上の文書にアクセスした際にタイムアウト処理がなされた文書とタイムアウト処理がなされていない文書を区別して記録する記録手段と、
上記記録手段で記録された内容に基づき、次回の巡回の際に、タイムアウト処理がなされていないと記録されている文書へのアクセスを、タイムアウト処理がなされたと記録されている文書より先にアクセスを行うことにより文書の収集を行い、該タイムアウト処理がなされていないと記録されている文書の収集が終了したときに、文書収集に予定されている制限時間が残っている場合は、前記タイムアウト処理がなされたと記録されている文書の収集を行う制御手段とを有することを特徴とする文書収集装置。 - 上記記録手段は、
上記タイムアウト処理がなされたと記録されている文書の収集が行われた場合は、該文書をタイムアウトがなされていない文書として記録する請求項1記載の文書処理装置。 - 上記記録手段は、
上記取得した文書の最終更新時刻も記録し、次回の該文書へのアクセス時に該文書の最終更新時刻が更新されていない場合は、該文書の取得は行わない請求項1または2記載の文書収集装置。 - コンピュータを、ネットワークを介して接続された文書サーバ上の文書を上記文書サーバを巡回することにより収集する文書収集装置として機能させるコンピュータプログラムであって、
上記コンピュータを、
上記文書サーバ上の文書にアクセスした際にタイムアウト処理がなされた文書とタイムアウト処理がなされていない文書を区別して記録する記録手段、
上記記録手段で記録された内容に基づき、次回の巡回の際に、タイムアウト処理がなされていないと記録されている文書へのアクセスを、タイムアウト処理がなされたと記録されている文書より先にアクセスを行うことにより文書の収集を行い、該タイムアウト処理がなされていないと記録されている文書の収集が終了したときに、文書収集に予定されている制限時間が残っている場合は、前記タイムアウト処理がなされたと記録されている文書の収集を行う制御手段
として機能させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004075221A JP4380375B2 (ja) | 2003-03-19 | 2004-03-16 | 文書収集装置および文書収集用コンピュータプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003075725 | 2003-03-19 | ||
JP2004075221A JP4380375B2 (ja) | 2003-03-19 | 2004-03-16 | 文書収集装置および文書収集用コンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004303226A JP2004303226A (ja) | 2004-10-28 |
JP2004303226A5 JP2004303226A5 (ja) | 2007-04-05 |
JP4380375B2 true JP4380375B2 (ja) | 2009-12-09 |
Family
ID=33421863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004075221A Expired - Fee Related JP4380375B2 (ja) | 2003-03-19 | 2004-03-16 | 文書収集装置および文書収集用コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4380375B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4795258B2 (ja) * | 2007-01-29 | 2011-10-19 | 三菱電機株式会社 | Webページ再収集方式 |
JP5247192B2 (ja) * | 2008-03-14 | 2013-07-24 | 三菱電機株式会社 | 周期更新データ管理システム |
JP5321258B2 (ja) * | 2009-06-09 | 2013-10-23 | 日本電気株式会社 | 情報収集システムおよび情報収集方法ならびにそのプログラム |
JP5487854B2 (ja) * | 2009-09-28 | 2014-05-14 | 日本電気株式会社 | 文書情報収集システム、文書情報収集方法、文書情報収集プログラム |
JP6101056B2 (ja) * | 2012-11-26 | 2017-03-22 | 株式会社日本総合研究所 | 情報処理装置、情報処理方法、及びプログラム |
JP6011591B2 (ja) * | 2013-11-29 | 2016-10-19 | キヤノンマーケティングジャパン株式会社 | サーバと文書管理システムとその処理方法及びプログラム |
-
2004
- 2004-03-16 JP JP2004075221A patent/JP4380375B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004303226A (ja) | 2004-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7653623B2 (en) | Information searching apparatus and method with mechanism of refining search results | |
KR102036419B1 (ko) | 그래프 처리 성능 향상을 위한 복수 계층 캐싱 방법 및 복수 계층 캐싱 시스템 | |
US9305091B2 (en) | Anchor tag indexing in a web crawler system | |
US8266134B1 (en) | Distributed crawling of hyperlinked documents | |
TWI519948B (zh) | 記憶體使用掃描 | |
US6807607B1 (en) | Cache memory management system and method | |
US20060294311A1 (en) | Dynamic bloom filter for caching query results | |
JP4371382B2 (ja) | アクセス対象情報検索装置 | |
KR19990064246A (ko) | 월드 와이드 웹상에 페이지를 위치 설정하고 네트워크 컴퓨터로부터 문서를 위치 설정하는 시스템 및 그 방법 | |
JP2006107506A5 (ja) | ||
JP2003519834A (ja) | メモリ管理によって参照の局所性を改善するための方法および装置 | |
KR101744892B1 (ko) | 시계열 계층 인덱싱을 이용한 데이터 검색 시스템 및 데이터 검색 방법 | |
JP4380375B2 (ja) | 文書収集装置および文書収集用コンピュータプログラム | |
CN107704507A (zh) | 数据库处理方法和设备 | |
CN109189343B (zh) | 一种元数据落盘方法、装置、设备及计算机可读存储介质 | |
EP1215590B1 (en) | Method and system for scalable, high performance hierarchical storage management | |
US9087087B2 (en) | Performing index scans in a database | |
CN115408342A (zh) | 文件处理方法、装置及电子设备 | |
US20060026187A1 (en) | Apparatus, method, and program for processing data | |
JP5461215B2 (ja) | データベースシステム | |
US7502773B1 (en) | System and method facilitating page indexing employing reference information | |
KR20060075798A (ko) | 해외 과학기술 전자원문 수집/색인/추출 시스템과 그 방법및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체 | |
US20020078133A1 (en) | Information collection apparatus and method | |
JP2004303226A5 (ja) | ||
JPH09244979A (ja) | 双方向サービス資源配置制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070216 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090421 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090901 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090914 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4380375 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |