JP2003271494A - Information collection system, information collection method, information collection program and recording medium - Google Patents

Information collection system, information collection method, information collection program and recording medium

Info

Publication number
JP2003271494A
JP2003271494A JP2002068922A JP2002068922A JP2003271494A JP 2003271494 A JP2003271494 A JP 2003271494A JP 2002068922 A JP2002068922 A JP 2002068922A JP 2002068922 A JP2002068922 A JP 2002068922A JP 2003271494 A JP2003271494 A JP 2003271494A
Authority
JP
Japan
Prior art keywords
information
update
time
group
information collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002068922A
Other languages
Japanese (ja)
Inventor
Kenji Takada
賢次 高田
Haruo Komano
晴雄 駒野
Naomi Toda
直美 戸田
Yukinari Nishikawa
幸成 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Comware Corp
Original Assignee
NTT Comware Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Comware Corp filed Critical NTT Comware Corp
Priority to JP2002068922A priority Critical patent/JP2003271494A/en
Publication of JP2003271494A publication Critical patent/JP2003271494A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To automatically update information in the optimum observation cycle at each Web site. <P>SOLUTION: A sampling processing part 2-3 obtains the update interval at which a Web page obtained by an information obtaining part 2-2 is updated to the latest information in a designated fixed cycle over a designated period of time. Subsequently, an automatic observation processing part 2-4 estimates the update time of the Web page at each of the above registered URLs according to a group created from the distribution of update intervals of the Web page by a grouping processing part 2-5. The information obtaining part 2-2 obtains the update information of the Web page provided at each of the registered URLs at the update time estimated by the automatic observation processing part 2-4. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、Webサイトから
最新情報を取得する情報収集システム、情報収集方法、
情報収集プログラムおよび記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information collecting system, an information collecting method, which obtains the latest information from a website.
The present invention relates to an information collecting program and a recording medium.

【0002】[0002]

【従来の技術】インターネット上には、様々な情報を提
供する膨大なWebサイトが存在する。それぞれのWe
bサイトでは、情報の種類、管理者の都合などに応じ
て、独自の更新周期(定期的、ランダム)で情報が更新
されている。このようなWebサイトから目的の最新情
報をタイムリに収集しようとする場合、Webサイトで
提供される情報の更新に合わせて収集できるのが理想で
ある。しかしながら、一般的にWebサイトの更新周期
を知る方法がない。そこで、このようにいつ更新される
か分からないWebサイトから最新情報を収集する場
合、観測周期を大きくすると最新情報を取得することが
できなくなる可能性があるため、観測周期を短くして常
時観測するしかない。
2. Description of the Related Art On the Internet, there are enormous websites that provide various information. Each We
In the b site, the information is updated at its own update cycle (regular or random) according to the type of information, the convenience of the administrator, and the like. When trying to collect desired latest information from such a website in a timely manner, it is ideal that the latest information can be collected according to the update of the information provided on the website. However, there is generally no way to know the update cycle of a website. Therefore, when collecting the latest information from websites that do not know when it will be updated, it may not be possible to obtain the latest information if the observation period is increased. I have no choice but to do

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上述し
た従来技術では、観測対象となるWebサイトの数が数
十〜数百以上と多い場合には、トラヒック、観測対象の
Webサーバ、情報取得システムに多大な負荷を強いる
という問題がある。
However, in the above-mentioned conventional technique, when the number of websites to be observed is as large as tens to hundreds or more, the traffic, the web server to be observed, and the information acquisition system are used. There is a problem of enormous load.

【0004】この発明は上述した事情に鑑みてなされた
もので、トラヒック、観測対象のWebサーバ、本情報
取得システムの負荷を大きくすることなく、Webサイ
ト毎に最適な観測周期で自動的に最新情報を収集するこ
とができる情報収集システム、情報収集方法、情報収集
プログラムおよび記録媒体を提供することを目的とす
る。
The present invention has been made in view of the above-mentioned circumstances, and automatically updates at the optimum observation cycle for each Web site without increasing the load on traffic, the Web server to be observed, and this information acquisition system. An object is to provide an information collecting system, an information collecting method, an information collecting program, and a recording medium capable of collecting information.

【0005】[0005]

【課題を解決するための手段】上述した問題点を解決す
るために、請求項1記載の発明では、ネットワーク上で
提供される情報を収集する情報収集システムにおいて、
観測対象となる情報のネットワーク上のアドレスを登録
する登録手段と、所定の情報収集タイミングで、前記登
録手段により登録されたアドレスに基づいて、前記情報
を収集する収集手段と、前記収集手段により収集された
情報が更新されているか否かを判別する判別手段と、前
記判別手段により更新されていると判別された場合、前
記収集手段により収集された情報の更新間隔を算出する
更新間隔算出手段と、前記更新間隔算出手段により算出
された更新間隔に基づいて、次回の情報収集時刻を推測
する収集時刻推測手段と、前記情報収集手段による情報
収集タイミングを、前記収集時刻推測手段により推測さ
れた次回の情報収集時刻に設定する収集制御手段とを具
備することを特徴とする。
In order to solve the above-mentioned problems, according to the invention of claim 1, in an information collecting system for collecting information provided on a network,
Registration means for registering the address of the information to be observed on the network, collection means for collecting the information based on the addresses registered by the registration means at a predetermined information collection timing, and collection means for collecting the information. Discriminating means for discriminating whether or not the recorded information is updated, and update interval calculating means for calculating an update interval of the information collected by the collecting means when it is judged by the discriminating means that the updated information is updated. The collection time estimating means for estimating the next information collection time based on the update interval calculated by the update interval calculating means, and the information collection timing by the information collecting means, the next time estimated by the collection time estimating means. And a collection control means for setting the information collection time.

【0006】また、請求項2記載の発明では、請求項1
記載の情報収集システムにおいて、前記更新間隔算出手
段は、情報に最終更新日付が記されている場合、今回の
情報に記された最終更新日付から前回の最終更新日付を
減算することで、情報の更新間隔を算出する一方、情報
に最終更新日付が記されていない場合、情報を取得した
時点の日時を最終更新日付として情報の更新間隔を算出
することを特徴とする。
According to the invention described in claim 2,
In the information collection system described above, the update interval calculation means, when the last update date is described in the information, subtracts the last last update date from the last update date described in the current information to obtain the information. While the update interval is calculated, when the information is not marked with the final update date, the information update interval is calculated with the date and time when the information was acquired as the final update date.

【0007】また、請求項3記載の発明では、請求項2
記載の情報収集システムにおいて、前記収集時刻推測手
段は、前記更新間隔算出手段により算出された更新間隔
の分布を作成する分布作成手段と、前記分布作成手段に
より作成された更新間隔の分布に基づいて、情報の更新
間隔を、所定の範囲を有するグループに分けるグループ
分け手段とを具備し、前記グループ分け手段により作成
されたグループ内の更新間隔およびグループ範囲に基づ
いて、次回の情報収集時刻を推測することを特徴とす
る。
In the invention according to claim 3, the invention according to claim 2
In the information collection system described above, the collection time estimation means is based on a distribution creating means for creating a distribution of update intervals calculated by the update interval calculating means, and a distribution of update intervals created by the distribution creating means. A grouping unit that divides the information update interval into groups having a predetermined range, and estimates the next information collection time based on the update interval and the group range in the group created by the grouping unit. It is characterized by doing.

【0008】また、請求項4記載の発明では、請求項3
記載の情報収集システムにおいて、前記収集時刻推測手
段は、情報に最終更新日付が記されている場合、前記グ
ループ分け手段により作成されたグループ毎に、今回の
最終更新日付+グループ内の最小更新間隔+グループ範
囲を、次回の情報収集時刻として推測することを特徴と
する。
In the invention according to claim 4, the invention according to claim 3
In the information collection system described above, when the last update date is written in the information, the collection time estimation means, for each group created by the grouping means, the last update date of this time + the minimum update interval within the group. The feature is that the + group range is estimated as the next information collection time.

【0009】また、請求項5記載の発明では、請求項3
記載の情報収集システムにおいて、前記収集時刻推測手
段は、情報に最終更新日付が記されていない場合、前記
グループ分け手段により作成されたグループ毎に、今回
の最終更新日付+グループ内の最小更新間隔を次回の最
小情報収集時刻、今回の最終更新日付+グループ内の最
小更新間隔+グループ範囲を次回の最大情報収集時刻、
およびその中間を次回の中間情報収集時刻として推測す
ることを特徴とする。
According to the invention described in claim 5, claim 3
In the information collection system described above, when the last update date is not written in the information, the collection time estimation means, for each group created by the grouping means, the last update date of this time + the minimum update interval within the group. Is the next minimum information collection time, this last update date + minimum update interval within the group + group range is the next maximum information collection time,
It is characterized that the intermediate time is estimated as the next intermediate information collection time.

【0010】また、請求項6記載の発明では、請求項4
または5記載の情報収集システムにおいて、前記収集時
刻推測手段は、前記判別手段により情報が更新されてい
ないと判別された場合、前記グループ毎に算出された次
回の情報収集時刻のうち、次に遅い情報収集時刻を、次
回の情報収集時刻とすることを特徴とする。
In the invention according to claim 6, the invention according to claim 4
Alternatively, in the information collecting system described in 5, when the collecting time estimating unit determines that the information has not been updated by the determining unit, it is the next latest information collecting time calculated for each group. The information collection time is the next information collection time.

【0011】また、上述した問題点を解決するために、
請求項7記載の発明では、ネットワーク上で提供される
情報を収集する情報収集方法において、所定期間に渡っ
て、所定の情報収集タイミングで、観測対象となる情報
のネットワーク上のアドレスに基づいて情報を収集し、
前記収集された情報の更新間隔を算出し、所定期間に渡
る情報の更新間隔の分布に基づいて、次回の情報収集時
刻を推測し、前記次回の情報収集時刻で観測対象となる
情報のネットワーク上のアドレスに基づいて情報を収集
することを特徴とする。
In order to solve the above problems,
In the invention according to claim 7, in an information collecting method for collecting information provided on a network, information is collected based on an address on the network of information to be observed at a predetermined information collection timing over a predetermined period. Collect
The update interval of the collected information is calculated, the next information collection time is estimated based on the distribution of the update interval of the information over a predetermined period, and the information to be observed on the network at the next information collection time. It is characterized by collecting information based on the address of.

【0012】また、請求項8記載の発明では、請求項7
記載の情報収集方法において、前記更新間隔は、情報に
最終更新日付が記されている場合、今回の情報に記され
た最終更新日付から前回の最終更新日付を減算すること
で算出される一方、情報に最終更新日付が記されていな
い場合、情報を取得した時点の日時を最終更新日付とし
て算出されることを特徴とする。
In the invention according to claim 8, the invention according to claim 7
In the information collection method described, the update interval is calculated by subtracting the last last update date from the last update date described in this information, when the last update date is described in the information, When the information is not marked with the last update date, the date and time when the information is acquired is calculated as the last update date.

【0013】また、請求項9記載の発明では、請求項8
記載の情報収集方法において、前記情報の更新間隔の分
布を作成し、前記更新間隔の分布に基づいて、情報の更
新間隔を、所定の範囲を有するグループに分けて、グル
ープ毎に、グループ内の更新間隔およびグループ範囲に
基づいて、次回の情報収集時刻を推測することを特徴と
する。
Further, according to the invention of claim 9,
In the information collection method described, a distribution of the update intervals of the information is created, and based on the distribution of the update intervals, the update intervals of the information are divided into groups having a predetermined range, and for each group, within the group, The feature is that the next information collection time is estimated based on the update interval and the group range.

【0014】また、請求項10記載の発明では、請求項
9記載の情報収集方法において、前記情報に最終更新日
付が記されている場合、前記グループ毎に、今回の最終
更新日付+グループ内の最小更新間隔+グループ範囲
を、次回の情報収集時刻として推測することを特徴とす
る。
Further, in the invention according to claim 10, in the information collecting method according to claim 9, when a last update date is described in the information, the last update date of this time + within the group for each group. The feature is that the minimum update interval + group range is estimated as the next information collection time.

【0015】また、請求項11記載の発明では、請求項
9記載の情報収集方法において、前記情報に最終更新日
付が記されていない場合、前記グループ毎に、今回の最
終更新日付+グループ内の最小更新間隔を次回の最小情
報収集時刻、今回の最終更新日付+グループ内の最小更
新間隔+グループ範囲を次回の最大情報収集時刻、およ
びその中間を次回の中間情報収集時刻として推測するこ
とを特徴とする。
Further, in the invention according to claim 11, in the information collecting method according to claim 9, when the information is not marked with the last update date, the last update date of this time + within the group The feature is that the minimum update interval is estimated as the next minimum information collection time, the latest update date of this time + the minimum update interval within the group + the group range is the next maximum information collection time, and the middle is assumed as the next intermediate information collection time And

【0016】また、請求項12記載の発明では、請求項
10または11記載の情報収集方法において、前記次回
の情報収集時刻で収集した情報が更新されていない場
合、前記グループ毎に算出された次回の情報収集時刻の
うち、次に遅い情報収集時刻を、次回の情報収集時刻と
することを特徴とする。
Further, in the invention according to claim 12, in the information collecting method according to claim 10 or 11, when the information collected at the next information collecting time is not updated, the next time calculated for each group is calculated. Among the information collection times of 1), the next latest information collection time is set as the next information collection time.

【0017】また、上述した問題点を解決するために、
請求項13記載の発明では、所定期間に渡って、所定の
情報収集タイミングで、観測対象となる情報のネットワ
ーク上のアドレスに基づいて情報を収集するステップ
と、前記収集された情報の更新間隔を算出するステップ
と、所定期間に渡る情報の更新間隔の分布に基づいて、
次回の情報収集時刻を推測するステップと、前記次回の
情報収集時刻で観測対象となる情報のネットワーク上の
アドレスに基づいて情報を収集するステップとをコンピ
ュータに実行させることを特徴とする。
In order to solve the above problems,
According to the invention of claim 13, a step of collecting information based on an address on the network of information to be observed at a predetermined information collection timing over a predetermined period, and an update interval of the collected information are set. Based on the calculation step and the distribution of information update intervals over a predetermined period,
It is characterized by causing a computer to execute a step of estimating a next information collection time and a step of collecting information based on an address on the network of information to be observed at the next information collection time.

【0018】また、請求項14記載の発明では、請求項
13記載の情報収集プログラムにおいて、前記更新間隔
の分布に基づいて、情報の更新間隔を、所定の範囲を有
するグループに分けるステップと、前記グループ毎に、
グループ内の更新間隔およびグループ範囲に基づいて、
次回の情報収集時刻を推測するステップとをコンピュー
タに実行させることを特徴とする。
According to a fourteenth aspect of the present invention, in the information collecting program according to the thirteenth aspect, the step of dividing the update intervals of the information into groups having a predetermined range based on the distribution of the update intervals; For each group,
Based on the update interval within the group and the group range,
And a step of estimating the next information collection time.

【0019】また、請求項15記載の発明では、請求1
4記載の情報収集プログラムにおいて、前記次回の情報
収集時刻で収集した情報が更新されていない場合、前記
グループ毎に算出された次回の情報収集時刻のうち、次
に遅い情報収集時刻を、次回の情報収集時刻とするステ
ップをコンピュータに実行させることを特徴とする。
According to the fifteenth aspect of the invention, the first aspect is
In the information collection program described in 4, when the information collected at the next information collection time is not updated, the next latest information collection time among the next information collection time calculated for each group is set as the next information collection time. It is characterized in that the computer is made to execute the step of setting the information collection time.

【0020】また、上述した問題点を解決するために、
請求項16記載の発明では、所定期間に渡って、所定の
情報収集タイミングで、観測対象となる情報のネットワ
ーク上のアドレスに基づいて情報を収集するステップ
と、前記収集された情報の更新間隔を算出するステップ
と、所定期間に渡る情報の更新間隔の分布に基づいて、
次回の情報収集時刻を推測するステップと、前記次回の
情報収集時刻で観測対象となる情報のネットワーク上の
アドレスに基づいて情報を収集するステップとをコンピ
ュータに実行させる情報収集プログラムを記録すること
を特徴とする。
In order to solve the above problems,
According to the sixteenth aspect of the present invention, a step of collecting information based on an address of information to be observed on a network at a predetermined information collection timing over a predetermined period, and an update interval of the collected information are set. Based on the calculation step and the distribution of information update intervals over a predetermined period,
Recording an information collection program that causes a computer to execute the step of estimating the next information collection time and the step of collecting information based on the network address of the information to be observed at the next information collection time. Characterize.

【0021】また、請求項17記載の発明では、請求項
16記載の記録媒体において、前記更新間隔の分布に基
づいて、情報の更新間隔を、所定の範囲を有するグルー
プに分けるステップと、前記グループ毎に、グループ内
の更新間隔およびグループ範囲に基づいて、次回の情報
収集時刻を推測するステップとをコンピュータに実行さ
せる情報収集プログラムを記録することを特徴とする。
According to a seventeenth aspect of the present invention, in the recording medium according to the sixteenth aspect, a step of dividing the information update interval into groups having a predetermined range based on the distribution of the update intervals, and the group. Each time, an information gathering program that causes a computer to execute the step of estimating the next information gathering time based on the update interval within the group and the group range is recorded.

【0022】また、請求項18記載の発明では、請求項
16記載の記録媒体において、前記次回の情報収集時刻
で収集した情報が更新されていない場合、前記グループ
毎に算出された次回の情報収集時刻のうち、次に遅い情
報収集時刻を、次回の情報収集時刻とするステップをコ
ンピュータに実行させる情報収集プログラムを記録する
ことを特徴とする。
According to the eighteenth aspect of the invention, in the recording medium of the sixteenth aspect, when the information collected at the next information collection time is not updated, the next information collection calculated for each group is performed. An information collecting program for causing a computer to execute the step of setting the next latest information collecting time as the next information collecting time among the times is recorded.

【0023】この発明では、観測対象となる情報のネッ
トワーク上のアドレスを登録する登録手段と、収集手段
により、所定の情報収集タイミングで、前記登録手段に
より登録されたアドレスに基づいて、前記情報を収集す
る際、判別手段により、収集された情報が更新されてい
るか否かを判別し、更新されていると判別された場合、
更新間隔算出手段により、前記収集手段により収集され
た情報の更新間隔を算出し、収集時刻推測手段により、
前記更新間隔に基づいて、次回の情報収集時刻を推測
し、収集制御手段により、前記情報収集手段による情報
収集タイミングを、前記次回の情報収集時刻に設定す
る。したがって、トラヒック、観測対象のWebサー
バ、本情報収集システムの負荷を大きくすることなく、
Webサイト毎に最適な観測周期で自動的に最新情報を
収集することが可能となる。
According to the present invention, the registration means for registering the address of the information to be observed on the network, and the collection means store the information based on the address registered by the registration means at a predetermined information collection timing. At the time of collecting, the judging means judges whether or not the collected information has been updated, and when it is judged that the information has been updated,
The update interval calculation means calculates the update interval of the information collected by the collection means, and the collection time estimation means
The next information collection time is estimated based on the update interval, and the collection control means sets the information collection timing by the information collection means to the next information collection time. Therefore, without increasing the load on the traffic, the Web server to be observed, and the information collection system,
It becomes possible to automatically collect the latest information at the optimum observation cycle for each website.

【0024】[0024]

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。 A.実施形態の構成 図1は、本発明の実施形態によるシステムの全体構成を
示すブロック図である。図1において、WWWサーバ1
は、HTML、XMLなどのマークアップ言語により記
述されたWebページによる情報を、インターネット4
を介してアクセスしてきた情報収集システム2やユーザ
端末3に提供する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. A. Configuration of Embodiment FIG. 1 is a block diagram showing the overall configuration of a system according to an embodiment of the present invention. In FIG. 1, a WWW server 1
Is a web page written in a markup language such as HTML or XML.
It is provided to the information collection system 2 and the user terminal 3 that have accessed via the.

【0025】情報収集システム2は、インターネット4
を介してWWWサーバ1にアクセスし、該WWWサーバ
1が提供するWebページによる最新情報を取得する。
より具体的には、情報収集システム2は、後述するユー
ザ端末3に対して観測対象となるURL(Webページ
のアドレス)を登録するための登録画面を提示する。
The information collecting system 2 is the Internet 4
To access the WWW server 1 to obtain the latest information based on the Web page provided by the WWW server 1.
More specifically, the information collection system 2 presents a registration screen for registering a URL (Web page address) to be observed to the user terminal 3 described later.

【0026】また、情報収集システム2は、第1段階と
して、所定の固定周期で、上記登録されたURLに従っ
て、WWWサーバ1にアクセスし、登録されたURL毎
に、Webページが更新される更新間隔を取得する(サ
ンプリングモード)。また、情報収集システム2は、第
2段階として、上記登録されたURL毎に取得した更新
間隔に基づいて、登録されたURL毎に自動的に更新時
刻を推測し(自動観測モード)、該更新時刻にWWWサ
ーバ1にアクセスし、Webページによる最新情報を取
得する。上記更新時刻は、Webページの更新有無に応
じて、その都度、更新される。
In the first step, the information collecting system 2 accesses the WWW server 1 according to the registered URL in a predetermined fixed cycle, and updates the Web page for each registered URL. Get interval (sampling mode). In addition, as a second step, the information collection system 2 automatically estimates the update time for each registered URL based on the update intervals acquired for each registered URL (automatic observation mode), and updates the update time. At the time, the WWW server 1 is accessed to obtain the latest information on the web page. The update time is updated each time depending on whether or not the web page is updated.

【0027】ユーザ端末3は、パーソナルコンピュータ
やPDAなどの情報処理装置からなり、少なくとも、イ
ンターネット4への接続機能や、WWWサーバ1や情報
収集システム2が提供するWebページを閲覧するため
の閲覧機能(ブラウザ)を備えている。
The user terminal 3 is composed of an information processing device such as a personal computer or PDA, and has at least a connection function to the Internet 4 and a browsing function for browsing a Web page provided by the WWW server 1 and the information collecting system 2. (Browser).

【0028】次に、図2は、図1に示す情報収集システ
ム2の構成を示すブロック図である。情報収集システム
2は、登録画面提示部2−1、情報取得部2−2、サン
プリング処理部2−3、自動観測処理部2−4、グルー
プ分け処理部2−5、データベース2−6、およびメイ
ン処理部2−7から構成されている。登録画面提示部2
−1は、インターネット4を介してアクセスしてきたユ
ーザ端末3に観測対象となるURL(複数)を登録する
ための登録画面(Webページ)を提示する。
Next, FIG. 2 is a block diagram showing the configuration of the information collecting system 2 shown in FIG. The information collecting system 2 includes a registration screen presenting unit 2-1, an information acquiring unit 2-2, a sampling processing unit 2-3, an automatic observation processing unit 2-4, a grouping processing unit 2-5, a database 2-6, and It is composed of a main processing unit 2-7. Registration screen presentation unit 2
-1 presents a registration screen (Web page) for registering URLs (plurality) to be observed on the user terminal 3 that has accessed via the Internet 4.

【0029】情報取得部2−2は、メイン処理部2−7
の制御の下、後述するサンプリング処理部2−3により
取得された更新間隔、あるいは後述する自動観測処理部
2−4により推測された更新時刻に、上記登録されたU
RL毎に提供されるWebページによる最新情報を取得
する。サンプリング処理部2−3は、所定の固定周期
で、情報取得部2−2により取得されたWebページが
最新情報に更新される更新間隔を取得する。
The information acquisition section 2-2 is a main processing section 2-7.
Under the control of U, the U registered at the update interval acquired by the sampling processing unit 2-3 described later or at the update time estimated by the automatic observation processing unit 2-4 described later.
Obtain the latest information from the web page provided for each RL. The sampling processing unit 2-3 acquires an update interval at which the Web page acquired by the information acquisition unit 2-2 is updated with the latest information at a predetermined fixed cycle.

【0030】自動観測処理部2−4は、後述するグルー
プ分け処理部2−5により、Webページの更新間隔の
分布から作成されるグループに従って、上記登録された
URL毎にWebページの更新時刻を推測する。グルー
プ分け処理部2−5は、上記自動観測処理部2−4によ
り推測された更新時刻に、情報取得部2−2により取得
されたWebページの最終更新日付に従って、過去から
現在に至るWebページの更新間隔の分布を作成し、該
分布から統計的に有意となるように、更新間隔のグルー
プ分けを行なう。
The automatic observation processing unit 2-4 determines the update time of the Web page for each registered URL according to the group created from the distribution of the update intervals of the Web page by the grouping processing unit 2-5 described later. Infer. The grouping processing unit 2-5 uses the update time estimated by the automatic observation processing unit 2-4, according to the last update date of the Web page acquired by the information acquisition unit 2-2, from the past to the present Web page. A distribution of update intervals is created, and the update intervals are grouped so as to be statistically significant from the distribution.

【0031】データベース2−6は、登録画面提示部2
−1により提供される登録画面から登録されたURL
や、情報取得部2−2により取得されたWebページ
(過去から現在に至るまで)などを蓄積する。メイン処
理部2−7は、サンプリング処理部2−3により取得さ
れた更新間隔、自動観測処理部2−4で推測された更新
時刻に従って、情報取得部2−2によるWebページの
取得、サンプリング処理部2−3の動作、自動観測処理
部2−4の動作などを制御する。
The database 2-6 is the registration screen presenting unit 2
URL registered from the registration screen provided by -1
Alternatively, the Web pages (from the past to the present) acquired by the information acquisition unit 2-2 are accumulated. The main processing unit 2-7 acquires the Web page by the information acquisition unit 2-2 and performs sampling processing according to the update interval acquired by the sampling processing unit 2-3 and the update time estimated by the automatic observation processing unit 2-4. It controls the operation of the unit 2-3, the operation of the automatic observation processing unit 2-4, and the like.

【0032】B.実施形態の動作 次に、本実施形態の動作について詳細に説明する。ここ
で、図3は、本実施形態のメイン動作を説明するための
フローチャートである。なお、ユーザ端末3は、予め情
報収集システム2にアクセスし、登録画面提示部2−1
が提供する登録画面から観測対象となる1つ以上のUR
Lを登録しているものとする。
B. Operation of Embodiment Next, the operation of this embodiment will be described in detail. Here, FIG. 3 is a flowchart for explaining the main operation of the present embodiment. In addition, the user terminal 3 accesses the information collection system 2 in advance, and the registration screen presenting unit 2-1.
One or more URs to be observed from the registration screen provided by
It is assumed that L is registered.

【0033】情報収集システム2は、観測対象となるU
RLが登録され、観測開始指示があると、まず、データ
ベース2−6に登録されているURLに従って、情報取
得部2−2によりインターネット4を介してWWWサー
バ1へアクセスし、上記URLのWebページを取得す
る(ステップS1)。次いで、メイン処理部2−7は、
動作モードを判定する(ステップS2)。観測開始時に
は、サンプリングモードになっており、サンプリングモ
ード処理を実行する(ステップS3)。
The information collecting system 2 is a U to be observed.
When the RL is registered and an observation start instruction is given, first, the information acquisition unit 2-2 accesses the WWW server 1 via the Internet 4 according to the URL registered in the database 2-6, and the Web page of the above URL. Is acquired (step S1). Then, the main processing unit 2-7
The operation mode is determined (step S2). At the start of observation, the sampling mode is set, and sampling mode processing is executed (step S3).

【0034】サンプリング処理モードでは、サンプリン
グ処理部2−3により、情報取得部2−2により取得さ
れたWebページの最終更新日付に従って、最新情報に
更新される更新間隔を取得する。該更新間隔は、データ
ベース2−6に保存される。なお、サンプリング処理の
詳細は後述する。
In the sampling processing mode, the sampling processing unit 2-3 acquires the update interval for updating the latest information according to the last update date of the Web page acquired by the information acquisition unit 2-2. The update interval is stored in the database 2-6. The details of the sampling process will be described later.

【0035】次いで、サンプリングモードが完了したか
否かを判断する(ステップS4)。サンプリングモード
は、自動観測モードによる更新時刻を得るために必要と
される十分な数の更新間隔が得られるまで完了しない。
そして、サンプルモードが完了していない場合には、サ
ンプリングモードのタイマを起動し(ステップS5)、
当該処理を終了する。
Then, it is judged whether or not the sampling mode is completed (step S4). The sampling mode does not complete until a sufficient number of update intervals are obtained to obtain the update time by the automatic observation mode.
If the sample mode is not completed, the sampling mode timer is started (step S5),
The process ends.

【0036】サンプリングモードのタイマが起動したこ
とで、以後、サンプリングモードが完了するまで、当該
フローが所定の時間間隔(一定)で実行される。すなわ
ち、サンプリングモード処理が実行される。この結果、
自動観測モードによる更新時刻を得るために必要とされ
る十分な数の更新間隔が得られることになる。
Since the timer in the sampling mode is activated, the flow is executed at predetermined time intervals (constant) thereafter until the sampling mode is completed. That is, the sampling mode process is executed. As a result,
A sufficient number of update intervals required to obtain the update time in the automatic observation mode will be obtained.

【0037】そして、十分な数の更新間隔が得られる
と、サンプリングモードが完了する。これにより、ステ
ップS2におけるモード判定、もしくはステップS4に
おいて、サンプリングモードが完了したと判断され、自
動モード処理を実行する(ステップS6)。上述したサ
ンプリングモード処理により取得されたWebページの
更新間隔は、Webページの実際の更新間隔であるた
め、定期的に更新されるWebページ以外では、ばらつ
きが生じる。更新間隔は、完全なランダムでない限り、
何かしらの傾向があるものである。自動観測モードで
は、該更新間隔の統計的な分布に基づいて、次の更新時
刻を推測する。なお、自動観測モード処理の詳細につい
ては後述する。
Then, when a sufficient number of update intervals are obtained, the sampling mode is completed. As a result, the mode is determined in step S2 or the sampling mode is determined to be completed in step S4, and the automatic mode process is executed (step S6). The update interval of the web page acquired by the above-described sampling mode process is the actual update interval of the web page, and therefore varies for other than the regularly updated web page. Unless the update interval is completely random,
It has something to do with it. In the automatic observation mode, the next update time is estimated based on the statistical distribution of the update intervals. The details of the automatic observation mode processing will be described later.

【0038】次いで、自動観測モード処理で取得したW
ebページの更新時刻で、自動観測モードのタイマを起
動し(ステップS7)、当該処理を終了する。
Next, the W acquired in the automatic observation mode processing
At the update time of the eb page, the timer in the automatic observation mode is activated (step S7), and the process ends.

【0039】自動観測モードのタイマが起動したこと
で、以後、更新時刻に達すると当該フローが実行され
る。この場合、更新時刻は、自動観測モード処理が実行
される度に、実際のWebページの更新間隔に応じて更
新される。ゆえに、自動観測モードのタイマが起動する
度に、ステップS1で、Webページの最新情報が取得
されることになる。
Since the timer in the automatic observation mode is activated, the flow is executed when the update time is reached. In this case, the update time is updated according to the actual update interval of the web page each time the automatic observation mode process is executed. Therefore, every time the timer of the automatic observation mode is activated, the latest information of the web page is acquired in step S1.

【0040】次に、図4は、サンプリングモード処理の
動作を説明するためのフローチャートである。サンプリ
ング処理部2−3は、まず、上記情報取得部2−2によ
り取得されたWebページが観測最初の画面であるか否
かを判断する(ステップS10)。そして、観測最初の
画面である場合には、該Webページをデータベース2
−6に格納する(ステップS13)。
Next, FIG. 4 is a flow chart for explaining the operation of the sampling mode process. First, the sampling processing unit 2-3 determines whether or not the Web page acquired by the information acquisition unit 2-2 is the first screen for observation (step S10). If it is the first screen of the observation, the web page is saved in the database 2
It is stored in -6 (step S13).

【0041】次いで、該Webページの最終更新日付の
有無を確認する(ステップS14)。Webページに
は、最終更新日付が記述されている場合と、記述されて
いない場合がある。最終更新日付が記述されている場合
には、Webページに記述されている最終更新日付を取
得する(ステップS15)。次いで、前回の更新日付と
今回の更新日付とから該Webページの更新間隔を算出
する(ステップS17)。Webページが観測最初の画
面である場合には、前回の更新日付はないので、更新間
隔は、当該サンプリングモード処理の実行間隔、すなわ
ちサンプリング間隔となる。
Then, it is confirmed whether or not there is the last update date of the Web page (step S14). The last update date may or may not be written on the Web page. If the last update date is described, the last update date described in the Web page is acquired (step S15). Next, the update interval of the Web page is calculated from the previous update date and the current update date (step S17). If the Web page is the first screen for observation, there is no previous update date, so the update interval is the execution interval of the sampling mode process, that is, the sampling interval.

【0042】一方、Webページに最終更新日付が記述
されていない場合には、現在の日時を最終更新日付とし
(ステップS16)、前回の更新日付と今回の更新日付
とから該Webページの更新間隔を算出する(ステップ
S17)。Webページが観測最初の画面である場合に
は、前回の更新日付はないので、更新間隔は、当該サン
プリングモード処理の実行間隔、すなわちサンプリング
間隔となる。
On the other hand, if the last update date is not described in the Web page, the current date and time is set as the last update date (step S16), and the update interval of the Web page is calculated from the previous update date and the current update date. Is calculated (step S17). If the Web page is the first screen for observation, there is no previous update date, so the update interval is the execution interval of the sampling mode process, that is, the sampling interval.

【0043】一方、取得したWebページが観測最初の
画面でない場合には、前回の画面と今回の画面とを比較
する(ステップS11)。画面の比較は、簡単に行なう
場合には、ファイル容量を比較してもよいし、厳密に行
なう場合には、HTMLによるテキスト文を完全比較し
てもよい。次に、比較結果に基づいて、Webページが
更新されたか否かを判断する(ステップS12)。前述
したように、サンプリングモード処理は、一定の時間間
隔で、Webページを取得しているため、必ずしも更新
された最新のWebページを取得しているとは限らな
い。ゆえに、前回取得したWebページと同じであるこ
ともあり得る。そして、Webページが更新されていな
い場合には、画面を格納することなく、当該処理を終了
する。
On the other hand, if the acquired Web page is not the first screen for observation, the previous screen and the current screen are compared (step S11). When the screens are simply compared, the file capacities may be compared, and when the screens are strictly compared, the HTML text sentences may be completely compared. Next, based on the comparison result, it is determined whether the web page has been updated (step S12). As described above, in the sampling mode process, the web page is acquired at regular time intervals, so the latest updated web page is not always acquired. Therefore, it may be the same as the previously acquired Web page. Then, if the Web page has not been updated, the process ends without storing the screen.

【0044】一方、Webページが更新されている場合
には、該Webページをデータベース2−6に格納する
(ステップS13)。次いで、該Webページの最終更
新日付の有無を確認し(ステップS14)、最終更新日
付が記述されている場合には、Webページに記述され
ている最終更新日付を取得する(ステップS15)。次
いで、該Webページの更新間隔を算出する(ステップ
S17)。この場合、該Webページの更新間隔は、図
5(a)に示すように、(今回の更新日付)−(前回の
更新日付)となる。
On the other hand, if the Web page has been updated, the Web page is stored in the database 2-6 (step S13). Next, it is confirmed whether or not there is a final update date of the web page (step S14), and if the final update date is described, the final update date described in the web page is acquired (step S15). Then, the update interval of the Web page is calculated (step S17). In this case, the update interval of the Web page is (current update date)-(previous update date), as shown in FIG.

【0045】一方、Webページに最終更新日付が記述
されていない場合には、現在の日時を最終更新日付とし
(ステップS16)、該Webページの更新間隔を算出
する(ステップS17)。この場合、該Webページの
更新間隔は、図5(b)に示すように、(今回の更新検
出日付)−(前回の更新検出日付)となる。
On the other hand, when the last update date is not described in the Web page, the current date and time is set as the last update date (step S16), and the update interval of the Web page is calculated (step S17). In this case, the update interval of the Web page is (current update detection date)-(previous update detection date), as shown in FIG.

【0046】このように、サンプリングモード処理が何
度か繰り返し実行されることにより、前述したように、
自動観測モードによる更新時刻を得るために必要とされ
る十分な数の更新間隔が得られることになる。
As described above, the sampling mode process is repeatedly executed several times, as described above.
A sufficient number of update intervals required to obtain the update time in the automatic observation mode will be obtained.

【0047】次に、図6は、自動観測モード処理の動作
を説明するためのフローチャートである。自動観測処理
部2−4は、まず、上記情報取得部2−2により取得さ
れた前回の画面と今回の画面とを比較する(ステップS
20)。画面の比較は、簡単に行なう場合には、ファイ
ル容量を比較してもよいし、厳密に行なう場合には、H
TMLによるテキスト文を完全比較してもよい。次に、
比較結果に基づいて、Webページが更新されたか否か
を判断する(ステップS21)。そして、Webページ
が更新されていない場合には、画面を格納することな
く、次回の予測更新時刻を決定する(ステップS2
4)。詳細については後述する。
Next, FIG. 6 is a flow chart for explaining the operation of the automatic observation mode process. The automatic observation processing unit 2-4 first compares the previous screen acquired by the information acquisition unit 2-2 with the current screen (step S).
20). When comparing screens easily, file capacities may be compared.
You may compare the text sentences by TML completely. next,
Based on the comparison result, it is determined whether the web page has been updated (step S21). Then, if the Web page has not been updated, the next predicted update time is determined without storing the screen (step S2).
4). Details will be described later.

【0048】一方、Webページが更新されていた場合
には、該Webページをデータベース2−6に格納する
(ステップS22)。次いで、該Webページの最終更
新日付の有無を確認し(ステップS23)、最終更新日
付が記述されている場合には、Webページに記述され
ている最終更新日付を取得する(ステップS25)。次
いで、前述したグループ分け処理部2−5によるグルー
プ分け処理を行ない(ステップS26)、各グループの
予測更新時刻を決定する(ステップS27)。詳細につ
いては後述する。
On the other hand, if the Web page has been updated, the Web page is stored in the database 2-6 (step S22). Next, it is confirmed whether or not there is a final update date of the web page (step S23), and if the final update date is described, the final update date described in the web page is acquired (step S25). Next, the grouping processing unit 2-5 described above performs the grouping processing (step S26) and determines the predicted update time of each group (step S27). Details will be described later.

【0049】一方、Webページに最終更新日付が記述
されていない場合には、現在の日時を最終更新日付とし
(ステップS28)、前述したグループ分け処理部2−
5によるグループ分け処理を行ない(ステップS2
9)、グループ毎に予測更新時刻の最小値、中間点、最
大点を決定する(ステップS30)。詳細については後
述する。
On the other hand, when the last update date is not described in the Web page, the current date and time is set as the last update date (step S28), and the above-mentioned grouping processing unit 2-
Grouping processing according to 5 is performed (step S2
9), the minimum value, the intermediate point, and the maximum point of the predicted update time are determined for each group (step S30). Details will be described later.

【0050】次に、図7は、グループ分け処理の動作を
説明するためのフローチャートである。グループ分け処
理部2−5は、まず、上述した自動観測モードで取得さ
れた最終更新日付を用いて、(今回の更新日付)−(前
回の更新日付)から更新間隔を算出する(ステップS4
0)。次いで、該更新間隔を更新間隔分布に追加する
(ステップS41)。次いで、更新間隔分布を昇順にソ
ートする(ステップS42)。
Next, FIG. 7 is a flow chart for explaining the operation of the grouping process. The grouping processing unit 2-5 first calculates the update interval from (this update date)-(previous update date) using the last update date acquired in the above-mentioned automatic observation mode (step S4).
0). Next, the update interval is added to the update interval distribution (step S41). Next, the update interval distribution is sorted in ascending order (step S42).

【0051】ここで、図8は、更新間隔分布を示す概念
図である。前述したサンプリング処理部2−3および自
動観測処理部2−4に算出された、Webページの更新
間隔は、図8(a)に示すように、更新間隔分布に随時
追加されていく。前述したように、Webページの更新
間隔は、定期的に更新されるWebページ以外では、ば
らつきが生じる。しかしながら、更新間隔は、完全なラ
ンダムでない限り、何かしらの傾向があるものである。
そこで、本実施形態では、以下のようにして更新間隔を
グループ分けする。
Here, FIG. 8 is a conceptual diagram showing the update interval distribution. The update intervals of the Web page calculated by the sampling processing unit 2-3 and the automatic observation processing unit 2-4 described above are added to the update interval distribution as needed, as shown in FIG. 8A. As described above, the update interval of the web page varies if the web page is not regularly updated. However, the update interval tends to be somehow unless it is completely random.
Therefore, in this embodiment, the update intervals are grouped as follows.

【0052】図7に戻り、Webページの画面をデータ
ベース2−6に格納する(ステップS43)。次いで、
下限をある更新間隔、上限をある更新間隔+更新間隔の
平均値(σt0)の1/Xの範囲内(図8(a)を参照、
X=グループの範囲を決定する定数)に収まる更新間隔
数が2個以上であるか否かを判断する(ステップS4
4)。そして、範囲(σt0/X)に更新間隔が2個以上
ない場合には、グループとしない(ステップS45)。
一方、2個以上ある場合には、グループとして登録する
(ステップS46)。
Returning to FIG. 7, the screen of the Web page is stored in the database 2-6 (step S43). Then
The lower limit is a certain update interval, the upper limit is a certain update interval + within a range of 1 / X of the average value (σt0) of the update intervals (see FIG. 8A).
It is determined whether or not the number of update intervals that is within X = a constant that determines the range of the group is 2 or more (step S4).
4). If there are no more than two update intervals in the range (σt0 / X), they are not grouped (step S45).
On the other hand, if there are two or more, they are registered as a group (step S46).

【0053】図8(a)に示す例では、ソート後の更新
間隔のうち、第1〜第4番目の更新間隔は、グループA
に分類される。第5番目の更新間隔は、2個以上存在し
ないので、グループに分類されない。第6番目〜第8番
目の更新間隔は、グループBに分類される。図8(b)
は、上記グループ分けの状態を更新間隔(σt)上に表
記したものである。
In the example shown in FIG. 8A, among the update intervals after sorting, the first to fourth update intervals are group A.
are categorized. Since the fifth update interval does not exist more than once, it is not classified into a group. The sixth to eighth update intervals are classified into group B. Figure 8 (b)
Is the state of the grouping described above on the update interval (σt).

【0054】次に、上述したグループ分けから次回の更
新時刻を推測する方法について説明する。まず、自動観
測モードで、画面更新がなかった場合において、次回の
予測更新時刻の決定(図6のS24)について説明す
る。ここで、図9は、画面更新がなかった場合における
次回の予測更新時刻の決定方法を説明するための概念図
である。この場合、第1の予測更新時刻t1は、前回の
最終更新日付+の更新間隔+(σt0/X)であり、第
2の予測更新時刻t2は、前回の最終更新日付+の更
新間隔+(σt0/X)となる。
Next, a method of estimating the next update time from the above grouping will be described. First, determination of the next predicted update time (S24 in FIG. 6) in the automatic observation mode when there is no screen update will be described. Here, FIG. 9 is a conceptual diagram for explaining a method of determining the next predicted update time when there is no screen update. In this case, the first predicted update time t1 is the last last update date + update interval + (σt0 / X), and the second predicted update time t2 is the last last update date + update interval + ( σt0 / X).

【0055】次に、自動観測モードで、Webページか
ら最終更新日付を取得した場合において、次回の予測更
新時刻の決定(図6のS27)について説明する。ここ
で、図10は、Webページから最終更新日付を取得し
た場合における次回の予測更新時刻の決定方法を説明す
るための概念図である。この場合、第1の予測更新時刻
t1は、今回の最終更新日付+グループAの最小更新間
隔+(σt0/X)であり、第2の予測更新時刻t2は、
今回の最終更新日付+グループBの最小更新間隔+(σ
t0/X)となる。
Next, the determination of the next predicted update time (S27 in FIG. 6) when the last update date is acquired from the Web page in the automatic observation mode will be described. Here, FIG. 10 is a conceptual diagram for explaining a method of determining the next predicted update time when the last update date is acquired from the Web page. In this case, the first predicted update time t1 is the last updated date of this time + the minimum update interval of group A + (σt0 / X), and the second predicted update time t2 is
This last update date + minimum update interval of group B + (σ
t0 / X).

【0056】次に、自動観測モードで、現在の日時を最
終更新日付とした場合において、次回の予測更新時刻の
決定(図6のS30)について説明する。ここで、図1
1は、現在の日時を最終更新日付とした場合における次
回の予測更新時刻の決定方法を説明するための概念図で
ある。この場合、図11に示すように、グループA,B
毎に、最小値(今回の最終更新日付+グループA,Bの
最小更新間隔)、中間点、最大点(今回の最終更新日付
+グループA,Bの最小更新間隔+(σt0/X))を、
次回の予測更新時刻とする。
Next, the determination of the next predicted update time (S30 in FIG. 6) when the current date and time is the last update date in the automatic observation mode will be described. Here, FIG.
FIG. 1 is a conceptual diagram for explaining a method of determining the next predicted update time when the current date and time is the last update date. In this case, as shown in FIG. 11, groups A and B
Minimum value (last update date of this time + minimum update interval of groups A and B), intermediate point, maximum point (last update date of this time + minimum update interval of groups A and B + (σt0 / X)) ,
Set as the next predicted update time.

【0057】いずれの場合においても、自動観測モード
処理は、次回、最も小さい予測更新時刻で起動される。
このとき、Webページが更新されていれば、データベ
ース2−6に保存される。そして、新たに最終更新日付
が取得され、更新間隔が更新間隔分布に追加され、新た
な予測更新時刻が算出される。一方、上記予測更新時刻
で起動されたものの、Webページが更新されていなけ
れば、次の予測更新時刻で起動され、Webページを取
得する。いずれにしても、更新される可能性が最も高い
タイミングで、Webページを取得することができる。
ゆえに、トラヒック、観測対象のWebサーバ、本情報
取得システムの負荷を大きくすることなく、Webサイ
ト毎に最適な観測周期で自動的に最新情報を取得するこ
とができる。
In any case, the automatic observation mode process is started at the next smallest predicted update time.
At this time, if the Web page has been updated, it is saved in the database 2-6. Then, the final update date is newly acquired, the update interval is added to the update interval distribution, and a new predicted update time is calculated. On the other hand, if the web page has not been updated although it was started at the predicted update time, it is started at the next predicted update time and the web page is acquired. In any case, the web page can be acquired at the timing when the update is most likely.
Therefore, the latest information can be automatically acquired at the optimum observation cycle for each website without increasing the load on the traffic, the observed web server, and the information acquisition system.

【0058】なお、上述した実施形態において、情報収
集システム2の機能は、図示しない記憶部に記憶された
プログラムを実行することで実現するようになってい
る。記憶部は、ハードディスク装置や光磁気ディスク装
置、フラッシュメモリ等の不揮発性メモリやRAM(Ra
ndom Access Memory)のような揮発性のメモリ、あるい
はこれらの組み合わせにより構成されるものとする。ま
た、上記記憶部とは、インターネット等のネットワーク
や電話回線等の通信回線を介してプログラムが送信され
た場合のサーバやクライアントとなるコンピュータシス
テム内部の揮発性メモリ(RAM)のように、一定時間
プログラムを保持しているものも含む。
In the above-described embodiment, the function of the information collecting system 2 is realized by executing the program stored in the storage unit (not shown). The storage unit is a non-volatile memory such as a hard disk device, a magneto-optical disk device, a flash memory, or a RAM (Ra
ndom Access Memory) such as volatile memory or a combination of these. Further, the storage unit is a volatile memory (RAM) inside a computer system that serves as a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line, and has a fixed time. Including those holding programs.

【0059】また、上記プログラムは、このプログラム
を記憶装置等に格納したコンピュータシステムから、伝
送媒体を介して、あるいは、伝送媒体中の伝送波により
他のコンピュータシステムに伝送されてもよい。ここ
で、プログラムを伝送する「伝送媒体」は、インターネ
ット等のネットワークや電話回線等の通信回線のように
情報を伝送する機能を有する媒体のことをいう。また、
上記プログラムは、上述した処理の一部を実現するため
のものであってもよい。さらに、上述した処理を情報収
集システム2に既に記録されているプログラムとの組み
合わせで実現できるもの、いわゆる差分ファイル(差分
プログラム)であってもよい。
Further, the program may be transmitted from a computer system that stores the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the "transmission medium" for transmitting the program refers to a medium having a function of transmitting information, such as a network such as the Internet or a communication line such as a telephone line. Also,
The above-mentioned program may be for realizing a part of the above-mentioned processing. Furthermore, it may be a so-called difference file (difference program) that can realize the above-described processing in combination with a program already recorded in the information collecting system 2.

【0060】以上、この発明の実施形態を図面を参照し
て詳述してきたが、具体的な構成は、上記実施形態に限
られるものではなく、この発明の要旨を逸脱しない範囲
の設計等も含まれる。
Although the embodiments of the present invention have been described in detail above with reference to the drawings, the specific configuration is not limited to the above-mentioned embodiments, and a design etc. within a range not departing from the gist of the present invention are also possible. included.

【0061】[0061]

【発明の効果】以上説明したように、本発明によれば、
観測対象となる情報のネットワーク上のアドレスを登録
する登録手段と、収集手段により、所定の情報収集タイ
ミングで、前記登録手段により登録されたアドレスに基
づいて、前記情報を収集する際、判別手段により、収集
された情報が更新されているか否かを判別し、更新され
ていると判別された場合、更新間隔算出手段により、前
記収集手段により収集された情報の更新間隔を算出し、
収集時刻推測手段により、前記更新間隔に基づいて、次
回の情報収集時刻を推測し、収集制御手段により、前記
情報集手段による情報収集タイミングを、前記次回の情
報収集時刻に設定するようにしたので、トラヒック、観
測対象のWebサーバ、本情報収集システムの負荷を大
きくすることなく、Webサイト毎に最適な観測周期で
自動的に最新情報を収集することができるという利点が
得られる。
As described above, according to the present invention,
By the registration means for registering the address of the information to be observed on the network and the collection means, at the predetermined information collection timing, based on the address registered by the registration means, when the information is collected, by the discrimination means , It is determined whether the collected information has been updated, and if it is determined that the information has been updated, the update interval calculation means calculates the update interval of the information collected by the collection means,
The collection time estimation means estimates the next information collection time based on the update interval, and the collection control means sets the information collection timing by the information collection means to the next information collection time. The advantage is that the latest information can be automatically collected at the optimum observation cycle for each Web site without increasing the load on the traffic, the Web server to be observed, and this information collection system.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の実施形態によるシステムの全体構成
を示すブロック図である。
FIG. 1 is a block diagram showing an overall configuration of a system according to an embodiment of the present invention.

【図2】 図2は、図1に示す情報収集システム2の構
成を示すブロック図である。
FIG. 2 is a block diagram showing a configuration of the information collection system 2 shown in FIG.

【図3】 本実施形態のメイン動作を説明するためのフ
ローチャートである。
FIG. 3 is a flowchart for explaining a main operation of this embodiment.

【図4】 サンプリングモード処理の動作を説明するた
めのフローチャートである。
FIG. 4 is a flowchart for explaining an operation of sampling mode processing.

【図5】 Webページの更新間隔を算出する方法を説
明するための概念図である。
FIG. 5 is a conceptual diagram for explaining a method of calculating a web page update interval.

【図6】 自動観測モード処理の動作を説明するための
フローチャートである。
FIG. 6 is a flowchart for explaining the operation of automatic observation mode processing.

【図7】 グループ分け処理の動作を説明するためのフ
ローチャートである。
FIG. 7 is a flowchart illustrating an operation of grouping processing.

【図8】 更新間隔分布を示す概念図である。FIG. 8 is a conceptual diagram showing an update interval distribution.

【図9】 画面更新がなかった場合における次回の予測
更新時刻の決定方法を説明するための概念図である。
FIG. 9 is a conceptual diagram for explaining a method of determining a next predicted update time when there is no screen update.

【図10】 Webページから最終更新日付を取得した
場合における次回の予測更新時刻の決定方法を説明する
ための概念図である。
FIG. 10 is a conceptual diagram for explaining a method of determining the next predicted update time when the last update date is acquired from the Web page.

【図11】 現在の日時を最終更新日付とした場合にお
ける次回の予測更新時刻の決定方法を説明するための概
念図である。
FIG. 11 is a conceptual diagram for explaining a method of determining the next predicted update time when the current date and time is the last update date.

【符号の説明】[Explanation of symbols]

1 WWWサーバ 2 情報収集システム 3 ユーザ端末 4 インターネット 2−1 登録画面提示部(登録手段) 2−2 情報取得部(収集手段) 2−3 サンプリング処理部(更新間隔算出手段、分布
作成手段) 2−4自動観測処理部(更新間隔算出手段、収集時刻推
測手段) 2−5 グループ分け処理部(分布作成手段、グループ
分け手段) 2−6 データベース 2−7 メイン処理部(判別手段、収集制御手段)
1 WWW Server 2 Information Collection System 3 User Terminal 4 Internet 2-1 Registration Screen Presentation Unit (Registration Means) 2-2 Information Acquisition Unit (Collection Means) 2-3 Sampling Processing Unit (Update Interval Calculation Means, Distribution Creation Means) 2 -4 Automatic observation processing section (update interval calculation means, collection time estimation means) 2-5 Grouping processing section (distribution creating means, grouping means) 2-6 Database 2-7 Main processing section (determination means, collection control means) )

───────────────────────────────────────────────────── フロントページの続き (72)発明者 戸田 直美 東京都港区港南一丁目9番1号 エヌ・テ ィ・ティ・コムウェア株式会社内 (72)発明者 西川 幸成 東京都港区港南一丁目9番1号 エヌ・テ ィ・ティ・コムウェア株式会社内 Fターム(参考) 5B075 PQ29 PQ44 5B082 GB02 GB06    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Naomi Toda             1-9-1, Konan, Minato-ku, Tokyo             IT Comware Co., Ltd. (72) Inventor Kosei Nishikawa             1-9-1, Konan, Minato-ku, Tokyo             IT Comware Co., Ltd. F-term (reference) 5B075 PQ29 PQ44                 5B082 GB02 GB06

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】 ネットワーク上で提供される情報を収集
する情報収集システムにおいて、 観測対象となる情報のネットワーク上のアドレスを登録
する登録手段と、 所定の情報収集タイミングで、前記登録手段により登録
されたアドレスに基づいて、前記情報を収集する収集手
段と、 前記収集手段により収集された情報が更新されているか
否かを判別する判別手段と、 前記判別手段により更新されていると判別された場合、
前記収集手段により収集された情報の更新間隔を算出す
る更新間隔算出手段と、 前記更新間隔算出手段により算出された更新間隔に基づ
いて、次回の情報収集時刻を推測する収集時刻推測手段
と、 前記情報収集手段による情報収集タイミングを、前記収
集時刻推測手段により推測された次回の情報収集時刻に
設定する収集制御手段とを具備することを特徴とする情
報収集システム。
1. In an information collecting system for collecting information provided on a network, a registration means for registering an address of information to be observed on the network, and a registration means for registering the information at a predetermined information collection timing. A collecting unit that collects the information based on the address, a determining unit that determines whether the information collected by the collecting unit has been updated, and a case where the determining unit determines that the information has been updated. ,
Update interval calculation means for calculating an update interval of the information collected by the collection means, collection time estimation means for estimating the next information collection time based on the update interval calculated by the update interval calculation means, An information collection system, comprising: a collection control means for setting the information collection timing by the information collection means to the next information collection time estimated by the collection time estimation means.
【請求項2】 前記更新間隔算出手段は、 情報に最終更新日付が記されている場合、今回の情報に
記された最終更新日付から前回の最終更新日付を減算す
ることで、情報の更新間隔を算出する一方、情報に最終
更新日付が記されていない場合、情報を取得した時点の
日時を最終更新日付として情報の更新間隔を算出するこ
とを特徴とする請求項1記載の情報収集システム。
2. The update interval calculation means, when the last update date is written in the information, subtracts the last last update date from the last update date written in the current information to obtain the update interval of the information. On the other hand, the information collection system according to claim 1, wherein when the information is not marked with a final update date, the information update interval is calculated with the date and time when the information was acquired as the final update date.
【請求項3】 前記収集時刻推測手段は、 前記更新間隔算出手段により算出された更新間隔の分布
を作成する分布作成手段と、 前記分布作成手段により作成された更新間隔の分布に基
づいて、情報の更新間隔を、所定の範囲を有するグルー
プに分けるグループ分け手段とを具備し、 前記グループ分け手段により作成されたグループ内の更
新間隔およびグループ範囲に基づいて、次回の情報収集
時刻を推測することを特徴とする請求項2記載の情報収
集システム。
3. The collection time estimation means is a distribution creating means for creating a distribution of update intervals calculated by the update interval calculating means, and information based on the distribution of update intervals created by the distribution creating means. And estimating the next information collection time based on the update interval and the group range in the group created by the grouping means. The information collection system according to claim 2, wherein
【請求項4】 前記収集時刻推測手段は、情報に最終更
新日付が記されている場合、前記グループ分け手段によ
り作成されたグループ毎に、今回の最終更新日付+グル
ープ内の最小更新間隔+グループ範囲を、次回の情報収
集時刻として推測することを特徴とする請求項3記載の
情報収集システム。
4. The collection time estimation means, when the last update date is written in the information, for each group created by the grouping means, the last update date of this time + minimum update interval in the group + group The information collection system according to claim 3, wherein the range is estimated as the next information collection time.
【請求項5】 前記収集時刻推測手段は、情報に最終更
新日付が記されていない場合、前記グループ分け手段に
より作成されたグループ毎に、今回の最終更新日付+グ
ループ内の最小更新間隔を次回の最小情報収集時刻、今
回の最終更新日付+グループ内の最小更新間隔+グルー
プ範囲を次回の最大情報収集時刻、およびその中間を次
回の中間情報収集時刻として推測することを特徴とする
請求項3記載の情報収集システム。
5. The collection time estimation means, when the last update date is not written in the information, sets the latest update date of this time + the minimum update interval in the group next time for each group created by the grouping means. The minimum information collection time, the latest update date of this time + the minimum update interval within the group + the group range is estimated as the next maximum information collection time, and the middle thereof is estimated as the next intermediate information collection time. Information collection system described.
【請求項6】 前記収集時刻推測手段は、前記判別手段
により情報が更新されていないと判別された場合、前記
グループ毎に算出された次回の情報収集時刻のうち、次
に遅い情報収集時刻を、次回の情報収集時刻とすること
を特徴とする請求項4または5記載の情報収集システ
ム。
6. The collection time estimation unit determines, when the determination unit determines that the information has not been updated, the next latest information collection time of the next information collection time calculated for each group. The information collection system according to claim 4 or 5, wherein the next information collection time is set.
【請求項7】 ネットワーク上で提供される情報を収集
する情報収集方法において、 所定期間に渡って、所定の情報収集タイミングで、観測
対象となる情報のネットワーク上のアドレスに基づいて
情報を収集し、前記収集された情報の更新間隔を算出
し、所定期間に渡る情報の更新間隔の分布に基づいて、
次回の情報収集時刻を推測し、前記次回の情報収集時刻
で観測対象となる情報のネットワーク上のアドレスに基
づいて情報を収集することを特徴とする情報収集方法。
7. An information collecting method for collecting information provided on a network, wherein information is collected based on an address of information to be observed on the network at a predetermined information collecting timing for a predetermined period. , Calculating the update interval of the collected information, based on the distribution of the update interval of the information over a predetermined period,
An information collecting method, which estimates a next information collecting time, and collects information based on an address on a network of information to be observed at the next information collecting time.
【請求項8】 前記更新間隔は、 情報に最終更新日付が記されている場合、今回の情報に
記された最終更新日付から前回の最終更新日付を減算す
ることで算出される一方、情報に最終更新日付が記され
ていない場合、情報を取得した時点の日時を最終更新日
付として算出されることを特徴とする請求項7記載の情
報収集方法。
8. The update interval is calculated by subtracting the last update date of the last time from the last update date described in the current information when the last update date is recorded in the information. 8. The information collecting method according to claim 7, wherein when the last update date is not written, the date and time when the information is acquired is calculated as the last update date.
【請求項9】 前記情報の更新間隔の分布を作成し、前
記更新間隔の分布に基づいて、情報の更新間隔を、所定
の範囲を有するグループに分けて、グループ毎に、グル
ープ内の更新間隔およびグループ範囲に基づいて、次回
の情報収集時刻を推測することを特徴とする請求項8記
載の情報収集方法。
9. A distribution of update intervals of the information is created, and the update intervals of the information are divided into groups having a predetermined range based on the distribution of the update intervals, and the update intervals within the groups are grouped. 9. The information collecting method according to claim 8, wherein the next information collecting time is estimated based on the group range.
【請求項10】 前記情報に最終更新日付が記されてい
る場合、前記グループ毎に、今回の最終更新日付+グル
ープ内の最小更新間隔+グループ範囲を、次回の情報収
集時刻として推測することを特徴とする請求項9記載の
情報収集方法。
10. When the last update date is written in the information, the last update date of this time + the minimum update interval within the group + group range is estimated as the next information collection time for each group. The method for collecting information according to claim 9, characterized in that
【請求項11】 前記情報に最終更新日付が記されてい
ない場合、前記グループ毎に、今回の最終更新日付+グ
ループ内の最小更新間隔を次回の最小情報収集時刻、今
回の最終更新日付+グループ内の最小更新間隔+グルー
プ範囲を次回の最大情報収集時刻、およびその中間を次
回の中間情報収集時刻として推測することを特徴とする
請求項9記載の情報収集方法。
11. If the last update date is not written in the information, the last update date of this time + the minimum update interval within the group is set to the next minimum information collection time, the last update date of this time + group for each group. 10. The information collecting method according to claim 9, wherein the minimum update interval + group range is estimated as the next maximum information collecting time, and the middle thereof is assumed as the next intermediate information collecting time.
【請求項12】 前記次回の情報収集時刻で収集した情
報が更新されていない場合、前記グループ毎に算出され
た次回の情報収集時刻のうち、次に遅い情報収集時刻
を、次回の情報収集時刻とすることを特徴とする請求項
10または11記載の情報収集方法。
12. When the information collected at the next information collection time is not updated, the next latest information collection time among the next information collection times calculated for each group is set as the next information collection time. The information collecting method according to claim 10 or 11, characterized in that.
【請求項13】 所定期間に渡って、所定の情報収集タ
イミングで、観測対象となる情報のネットワーク上のア
ドレスに基づいて情報を収集するステップと、 前記収集された情報の更新間隔を算出するステップと、 所定期間に渡る情報の更新間隔の分布に基づいて、次回
の情報収集時刻を推測するステップと、 前記次回の情報収集時刻で観測対象となる情報のネット
ワーク上のアドレスに基づいて情報を収集するステップ
とをコンピュータに実行させることを特徴とする情報収
集プログラム。
13. A step of collecting information based on an address of information to be observed on a network at a predetermined information collection timing over a predetermined period, and a step of calculating an update interval of the collected information. And a step of estimating the next information collection time based on the distribution of the update intervals of the information over a predetermined period, and collecting information based on the network address of the information to be observed at the next information collection time. An information gathering program characterized by causing a computer to execute the following steps.
【請求項14】 前記更新間隔の分布に基づいて、情報
の更新間隔を、所定の範囲を有するグループに分けるス
テップと、 前記グループ毎に、グループ内の更新間隔およびグルー
プ範囲に基づいて、次回の情報収集時刻を推測するステ
ップとをコンピュータに実行させることを特徴とする請
求項13記載の情報収集プログラム。
14. A step of dividing the update interval of information into groups having a predetermined range based on the distribution of the update intervals, and a next step based on the update interval within the group and the group range for each group. 14. The information collecting program according to claim 13, which causes a computer to execute the step of estimating the information collecting time.
【請求項15】 前記次回の情報収集時刻で収集した情
報が更新されていない場合、前記グループ毎に算出され
た次回の情報収集時刻のうち、次に遅い情報収集時刻
を、次回の情報収集時刻とするステップをコンピュータ
に実行させることを特徴とする請求14記載の情報収集
プログラム。
15. When the information collected at the next information collection time is not updated, the next latest information collection time among the next information collection time calculated for each group is set as the next information collection time. 15. The information collecting program according to claim 14, which causes a computer to execute the step.
【請求項16】 所定期間に渡って、所定の情報収集タ
イミングで、観測対象となる情報のネットワーク上のア
ドレスに基づいて情報を収集するステップと、 前記収集された情報の更新間隔を算出するステップと、 所定期間に渡る情報の更新間隔の分布に基づいて、次回
の情報収集時刻を推測するステップと、 前記次回の情報収集時刻で観測対象となる情報のネット
ワーク上のアドレスに基づいて情報を収集するステップ
とをコンピュータに実行させる情報収集プログラムを記
録することを特徴とする記録媒体。
16. A step of collecting information based on an address of information to be observed on a network at a predetermined information collection timing over a predetermined period, and a step of calculating an update interval of the collected information. And a step of estimating the next information collection time based on the distribution of the update intervals of the information over a predetermined period, and collecting information based on the network address of the information to be observed at the next information collection time. And a recording medium for recording an information collecting program that causes a computer to execute the steps.
【請求項17】 前記更新間隔の分布に基づいて、情報
の更新間隔を、所定の範囲を有するグループに分けるス
テップと、 前記グループ毎に、グループ内の更新間隔およびグルー
プ範囲に基づいて、次回の情報収集時刻を推測するステ
ップとをコンピュータに実行させる情報収集プログラム
を記録することを特徴とする請求項16記載の記録媒
体。
17. A step of dividing the update interval of information into groups having a predetermined range based on the distribution of the update intervals, and a next step based on the update interval within the group and the group range for each group. The recording medium according to claim 16, wherein an information collecting program for causing a computer to execute the step of estimating the information collecting time is recorded.
【請求項18】 前記次回の情報収集時刻で収集した情
報が更新されていない場合、前記グループ毎に算出され
た次回の情報収集時刻のうち、次に遅い情報収集時刻
を、次回の情報収集時刻とするステップをコンピュータ
に実行させる情報収集プログラムを記録することを特徴
とする請求項16記載の記録媒体。
18. When the information collected at the next information collection time has not been updated, the next latest information collection time among the next information collection times calculated for each group is set as the next information collection time. The recording medium according to claim 16, wherein an information collecting program that causes a computer to execute the step is recorded.
JP2002068922A 2002-03-13 2002-03-13 Information collection system, information collection method, information collection program and recording medium Pending JP2003271494A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002068922A JP2003271494A (en) 2002-03-13 2002-03-13 Information collection system, information collection method, information collection program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002068922A JP2003271494A (en) 2002-03-13 2002-03-13 Information collection system, information collection method, information collection program and recording medium

Publications (1)

Publication Number Publication Date
JP2003271494A true JP2003271494A (en) 2003-09-26

Family

ID=29199908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002068922A Pending JP2003271494A (en) 2002-03-13 2002-03-13 Information collection system, information collection method, information collection program and recording medium

Country Status (1)

Country Link
JP (1) JP2003271494A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090369A (en) * 2006-09-29 2008-04-17 Sharp Corp Content receiving device and method
JP2008108007A (en) * 2006-10-24 2008-05-08 Sony Computer Entertainment Inc Communication terminal, communication system, and method for downloading content file
JP2008257695A (en) * 2007-03-15 2008-10-23 Yahoo Japan Corp Information collection method and information collection device
WO2009019784A1 (en) * 2007-08-09 2009-02-12 Fujitsu Limited Information processor, update information acquiring method, update information acquiring program, and computer-readable recording medium with the program recorded
JP2011081710A (en) * 2009-10-09 2011-04-21 Konica Minolta Business Technologies Inc Management system, device to be managed, and management method
JP2011142424A (en) * 2010-01-06 2011-07-21 Kddi R & D Laboratories Inc Content reproducing method and system in home network
CN104503966A (en) * 2014-10-16 2015-04-08 杭州斯凯网络科技有限公司 Efficient maintenance-free automatic partition method for big data of PostgreSQL

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049553A (en) * 1996-08-05 1998-02-20 Toshiba Corp Information gathering device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049553A (en) * 1996-08-05 1998-02-20 Toshiba Corp Information gathering device

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008090369A (en) * 2006-09-29 2008-04-17 Sharp Corp Content receiving device and method
JP2008108007A (en) * 2006-10-24 2008-05-08 Sony Computer Entertainment Inc Communication terminal, communication system, and method for downloading content file
JP2008257695A (en) * 2007-03-15 2008-10-23 Yahoo Japan Corp Information collection method and information collection device
WO2009019784A1 (en) * 2007-08-09 2009-02-12 Fujitsu Limited Information processor, update information acquiring method, update information acquiring program, and computer-readable recording medium with the program recorded
US20100138371A1 (en) * 2007-08-09 2010-06-03 Fujitsu Limited Information processing apparatus and update information obtainment method
JP5163648B2 (en) * 2007-08-09 2013-03-13 富士通株式会社 Information processing apparatus, update information acquisition method, and update information acquisition program
US8712928B2 (en) 2007-08-09 2014-04-29 Fujitsu Limited Information processing apparatus and update information obtainment method
JP2011081710A (en) * 2009-10-09 2011-04-21 Konica Minolta Business Technologies Inc Management system, device to be managed, and management method
JP2011142424A (en) * 2010-01-06 2011-07-21 Kddi R & D Laboratories Inc Content reproducing method and system in home network
CN104503966A (en) * 2014-10-16 2015-04-08 杭州斯凯网络科技有限公司 Efficient maintenance-free automatic partition method for big data of PostgreSQL
CN104503966B (en) * 2014-10-16 2017-12-12 杭州斯凯网络科技有限公司 The efficiently non-maintaining automatic Mesh Partition Method of PostgreSQL big datas

Similar Documents

Publication Publication Date Title
US9280607B2 (en) Method and a device for frequency counting
KR102151457B1 (en) Method and apparatus for reducing page load time in a communication system
JP4832061B2 (en) Content collection apparatus and content collection system
CN107797894B (en) APP user behavior analysis method and device
CN106339398A (en) Pre-reading method and device for webpage and intelligent terminal device
JP4795258B2 (en) Web page recollection method
CN102037464A (en) Search results with most clicked next objects
CN105183873A (en) Malicious clicking behavior detection method and device
US20160019310A1 (en) Method and apparatus for rendering statistics on web page visits by a browser
TW201329890A (en) Processing method and system of shop visiting data
CN109359263B (en) User behavior feature extraction method and system
CN103186666A (en) Method, device and equipment for searching based on favorites
CN106649313B (en) Method and apparatus for processing cache data
CN104572777A (en) Webpage loading method and device based on UIWebView component
CN105653724A (en) Page exposure monitoring method and device
CN107526748B (en) Method and equipment for identifying user click behavior
JP2003271494A (en) Information collection system, information collection method, information collection program and recording medium
CN103544288B (en) Browsing device net page loading control method and device
CN110955855A (en) Information interception method, device and terminal
CN106874332A (en) Data bank access method and device
CN107888388B (en) Charging method and system for network acceleration service
CN107807993B (en) Method and device for realizing webpage history recording function
CN110677270B (en) Domain name cacheability analysis method and system
JP5538459B2 (en) Information processing apparatus and method
Jyoti et al. A Novel Approach for clustering web user sessions using RST

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050412