JP2002082923A - Information collating method, information collating device, and recording medium with information collection program recorded thereon - Google Patents

Information collating method, information collating device, and recording medium with information collection program recorded thereon

Info

Publication number
JP2002082923A
JP2002082923A JP2000273607A JP2000273607A JP2002082923A JP 2002082923 A JP2002082923 A JP 2002082923A JP 2000273607 A JP2000273607 A JP 2000273607A JP 2000273607 A JP2000273607 A JP 2000273607A JP 2002082923 A JP2002082923 A JP 2002082923A
Authority
JP
Japan
Prior art keywords
information
address
collection
file
information address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000273607A
Other languages
Japanese (ja)
Inventor
Nobuharu Noto
信晴 能登
Hiroshi Takeno
浩 竹野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000273607A priority Critical patent/JP2002082923A/en
Publication of JP2002082923A publication Critical patent/JP2002082923A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To make easily increasable simultaneously executable information collection processing units, and to make improvable the collecting performance (the number of information collectable per time) at need. SOLUTION: Computers CA, CB, and CC are connected through a network 7 to plural WWW servers. When the information of an URL received from a URL list reading part 1A is not collected, information processing parts 2A1 and 2A2 in the computer CA acquires a WWW page from a WWW indicated by the URL, and holds it on a file system. An URL extracting part 3A extracts the URL from the file in which the WWW page is prepared, and searches the number of the collection processing part in charge of collection according to calculation from the WWW server name indicated by the URL, and outputs the extracted URL to directories corresponding to the respective computers CA, CB, and CC to which the collection processing parts in charge of the collection belong on a disk 6A, and informs the respective computers CA, CB, and CC of the URL.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ネットワーク上に
配置され、情報提供サーバ名とそのサーバ上の識別子か
らなる情報アドレスが付与されている情報を提供する複
数の情報提供サーバから並行して情報を収集する情報収
集方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for providing information in parallel from a plurality of information providing servers which are provided on a network and provide information provided with an information address comprising an information providing server name and an identifier on the server. Information collection method for collecting information.

【0002】[0002]

【従来の技術】従来、複数の情報提供サーバから並行し
て情報を収集する場合、SergeyとBrinによる論文「The
Anatomy of a Large-Scale Hypertextual Web Search E
ngine」(Proceedings of Seventh International Worl
d Wide Web Conference (1998))で説明されているよう
に、情報アドレス(上記論文中ではURLと呼ばれてい
る)管理モジュール(上記論文中ではURL ser ver
と呼ばれている)が同時に1つ実行されており、このモ
ジュールが、同じサーバからの収集を複数の処理単位が
実行しないように情報アドレスを配分して、収集させる
という方法がとられてきた(図2)。
2. Description of the Related Art Conventionally, when collecting information in parallel from a plurality of information providing servers, Sergey and Brin's paper "The
Anatomy of a Large-Scale Hypertextual Web Search E
ngine "(Proceedings of Seventh International Worl
d Wide Web Conference (1998)), an information address (called URL in the above paper) management module (URL ser ver in the above paper)
One is executed at the same time, and this module distributes information addresses so that a plurality of processing units do not execute collection from the same server, and causes the collection to be performed. (FIG. 2).

【0003】[0003]

【発明が解決しようとする課題】しかし、この方法で
は、収集中に発見された情報アドレスは全て情報アドレ
ス管理モジュールに処理されなくてはならず、処理単位
が多数になると情報アドレスが発見されるスピードに管
理モジュールの処理が追い付かなくなり、性能を低下さ
せる原因になるという問題がある。
However, in this method, all the information addresses found during collection must be processed by the information address management module, and the information addresses are found when the number of processing units increases. There is a problem that the processing of the management module cannot keep up with the speed, which causes a decrease in performance.

【0004】そこで、処理単位ごとに発見された情報ア
ドレスの収集を担当する処理単位を決定する方法が与え
られたと仮定する。その時、情報アドレスを通知する処
理単位間の接続の数を考えると、処理単位がn個なら
ば、処理単位が発見した情報アドレスを情報アドレス管
理モジュールを経由して通知するならば接続数は2nで
済むが、各処理単位間で直接通知を行うならば接続数は
2となり、接続数は処理単位数が増えると途端に多く
なる。1つの装置上で処理単位が増やせる場合は処理単
位間の通知が比較的簡易に行われるが、それ以上の処理
単位を必要とするとき複数の装置が利用されることにな
り、装置をまたがった通知は一般に難しくなるという問
題がある。また、通知相手となる処理単位が停止してい
る場合、通知すべき情報アドレスを通知元で保持する手
段が必要で、相手側処理単位が復帰したか定期的に調べ
る必要もあり、処理が複雑になるという問題もある。
[0004] Therefore, it is assumed that a method has been provided for determining a processing unit responsible for collecting information addresses found for each processing unit. At this time, considering the number of connections between the processing units that notify the information addresses, if the number of processing units is n, the number of connections is 2n if the information addresses found by the processing units are notified via the information address management module. However, if notification is performed directly between the processing units, the number of connections is n 2 , and the number of connections increases immediately as the number of processing units increases. When the number of processing units can be increased on one device, the notification between the processing units is relatively easily performed, but when more processing units are required, a plurality of devices are used, and the devices are straddled. There is a problem that notification is generally difficult. Further, when the processing unit to be notified is stopped, means for holding the information address to be notified at the notification source is required, and it is necessary to periodically check whether the processing unit on the other side has returned, which complicates the processing. There is also the problem of becoming.

【0005】本発明の目的は、このような性能向上を阻
害する情報アドレス管理モジュールを不要とし、処理単
位間の通知方法を簡易にし、同時に実行できる処理単位
を簡単に増加させることができ、収集性能(時間あたり
に収集できる情報の数)を必要に応じて向上させること
ができる情報収集方法、装置、情報収集プログラムを記
録した記録媒体を提供することにある。
An object of the present invention is to eliminate the need for an information address management module that hinders such performance improvement, simplify the method of notifying between processing units, and easily increase the number of simultaneously executable processing units. It is an object of the present invention to provide an information collection method and apparatus capable of improving performance (the number of information that can be collected per time) as needed, and a recording medium on which an information collection program is recorded.

【0006】[0006]

【課題を解決するための手段】本発明の情報収集方法
は、複数の収集処理単位が並行して情報を収集し、その
際1つの情報提供サーバには同時に1つの収集処理単位
が接続でき、各収集処理単位は収集した情報から発見し
た情報アドレスに含まれる情報提供サーバ名を基に計算
を行なって、該アドレスの情報を収集すべき収集処理単
位を決定し、該収集処理単位に前記情報アドレスを通知
する。
According to the information collection method of the present invention, a plurality of collection processing units collect information in parallel, and at that time, one collection processing unit can be connected to one information providing server at the same time. Each collection processing unit performs a calculation based on the information providing server name included in the information address found from the collected information, determines a collection processing unit in which information of the address should be collected, and assigns the information to the collection processing unit. Advertise the address.

【0007】収集処理単位は、情報アドレスを入力とし
て取る。収集処理単位は、収集済情報アドレスデータベ
ースを持っており、情報アドレスが収集済かどうか判断
することができる。入力した情報アドレスは、まずこの
収集済情報アドレスデータベースを使って、未収集の情
報アドレスか確認される。収集済の情報アドレスだった
場合、その情報アドレスは廃棄される。
The collection processing unit takes an information address as an input. The collection processing unit has a collected information address database, and can determine whether the information address has been collected. First, the input information address is confirmed as an uncollected information address using the collected information address database. If the information address has been collected, the information address is discarded.

【0008】情報アドレスは、情報提供サーバ名と、情
報提供サーバ上での識別子とからなる。収集処理単位は
情報アドレスに基づいて情報提供サーバに接続し、サー
バ上の識別子を指定することで、情報アドレスの指し示
す情報を得る。情報を得た後に、その情報アドレスを収
集済情報アドレスデータベースに収集済として登録す
る。サーバから得た情報に情報アドレスが含まれること
があるので、これを解析して、情報アドレスを出力す
る。このような収集処理単位を同時に複数実行して、情
報収集を行わせる。
[0008] The information address includes an information providing server name and an identifier on the information providing server. The collection processing unit connects to the information providing server based on the information address, and obtains information indicated by the information address by specifying an identifier on the server. After obtaining the information, the information address is registered as collected in the collected information address database. Since the information obtained from the server may include an information address, the information is analyzed and the information address is output. Information collection is performed by executing a plurality of such collection processing units simultaneously.

【0009】各収集処理単位は、情報提供サーバ名を入
力として、その情報提供サーバからの情報収集を担当す
る収集処理単位を決定する計算方法を共有する。したが
って、どの収集処理単位内でその計算を行っても、入力
とする情報サーバ名が同じであれば、同じ収集処理単位
が収集を担当するように決定できる。
Each collection processing unit receives a name of an information providing server and shares a calculation method for determining a collection processing unit responsible for collecting information from the information providing server. Therefore, no matter which collection processing unit performs the calculation, if the same information server name is input, it can be determined that the same collection processing unit is in charge of collection.

【0010】各収集処理単位は、収集した情報から発見
した情報アドレスに含まれる情報提供サーバ名に対して
この計算方法を適用し、この情報アドレスの情報を収集
すべき収集処理単位を決定し、その収集処理単位に通知
する。
Each of the collection processing units applies this calculation method to the information providing server name included in the information address found from the collected information, and determines a collection processing unit in which information of this information address should be collected. Notify the collection processing unit.

【0011】この通知の際には、ファイルシステム上の
特定のディレクトリを利用する。出力元と出力先の収集
処理単位の組に1対1対応させて、ディレクトリを用意
する。このディレクトリに対し、出力元は番号を名称と
したファイルを作成し、通知すべき情報アドレスを出力
する。一定の時間や、一定の情報アドレスごとにファイ
ルを閉じ、閉じたファイルより1つ大きな番号のファイ
ルを新たに作成して、情報アドレスを出力する。このよ
うに、出力元は情報アドレスを、順次番号の付いたファ
イルに出力していく。出力元は、一度閉じたファイルに
は変更を加えない。
At the time of this notification, a specific directory on the file system is used. A directory is prepared in one-to-one correspondence with a set of collection processing units of an output source and an output destination. For this directory, the output source creates a file whose name is a number and outputs an information address to be notified. The file is closed for a certain time or at a certain information address, a file having a number one larger than the closed file is newly created, and the information address is output. Thus, the output source outputs the information addresses to sequentially numbered files. The output source does not make any changes to the file once it has been closed.

【0012】このディレクトリで一番大きな番号の付い
たファイルについて、現在も出力元が情報アドレスを書
き込んでいる可能性があるため、通知を受ける収集処理
単位は読み取らないようにする。それ以外のファイル
は、すでに出力元が出力し終わり変更が行われないこと
が保証されているので、読み取りを行ってよい。
Regarding the file with the largest number in this directory, the output source may still write the information address, so that the collection processing unit to be notified is not read. The other files may be read because the output source has already output them and it is guaranteed that no changes will be made.

【0013】また、この通知方法は、複数の収集処理単
位を一つのグループにまとめ、そのグループ間の通知に
適用してもよい。
This notification method may be applied to notification between groups by collecting a plurality of collection processing units into one group.

【0014】このように、収集処理単位間の通知にファ
イルシステムを介した場合、通知を受け取る収集処理単
位が何らかの問題で停止している場合でも、通知元は影
響を受けず情報アドレスをファイルシステムに書き出す
ことができ、また通知を受ける収集処理単位も活動を再
開した時点から、ファイルシステムにすでに書き出され
ている情報アドレスを読み込み始めることができる。こ
れによって、個別の収集処理単位の停止が他に影響を与
えないで済むという利点がある。
As described above, when the notification between the collection processing units is transmitted via the file system, even if the collection processing unit receiving the notification is stopped due to some problem, the notification source is not affected and the information address is not changed. The collection processing unit to be notified can start reading the information address already written in the file system from the time when the activity is resumed. As a result, there is an advantage that the suspension of the individual collection processing unit does not affect the others.

【0015】また、この方法では、NFS(Network Fi
le System)など装置をまたがって利用できるファイル
システムも利用可能であるので、収集処理単位を増やす
ために利用する装置を増やしても、収集処理単位間の通
知方法を変更する必要がない。
Further, in this method, NFS (Network Fi
le System), which can be used across devices, can be used. Therefore, even if the number of devices used to increase the number of collection processing units is increased, there is no need to change the notification method between the collection processing units.

【0016】さらに、各処理単位あるいは複数の処理単
位を一つのグループとしたものが収集した情報から発見
した情報アドレスを通知した場合、各処理単位あるいは
複数の処理単位を一つのグループとしたもの自身が保持
する、既通知情報アドレスリストにその情報アドレスを
登録する。情報アドレスを通知する際は、その情報アド
レスが、既通知情報アドレスリストに登録されていない
か確認してから、通知を行う。
Further, when an information address found from information collected by each processing unit or a plurality of processing units as one group is notified, the processing unit or each of the plurality of processing units is regarded as one group. The information address is registered in the already notified information address list held by. When notifying the information address, the notification is performed after confirming whether the information address is registered in the already notified information address list.

【0017】ある情報アドレスを重複して、収集を担当
する収集処理単位に通知しないためには、全収集処理単
位間で共有するデータベースを用意し、それに問い合わ
せながら通知をするということも考えられるが、このデ
ータベースへの問い合わせが性能向上の阻害原因となる
ことが明らかであり、現実的な解決方法ではない。この
既通知情報アドレスリストを使うことによって、ある情
報アドレスはある収集処理単位からは1度しか出力しな
いことが保証されるので、収集を担当する収集処理単位
は、同一の情報アドレスを最大でも全収集処理単位数、
あるいは複数の収集処理単位をグループ化したグループ
数だけしか受け取らないで済み、重複通知の数を抑えら
れる。
To avoid duplicating a certain information address and notifying the collection processing unit responsible for collection, a database shared by all collection processing units may be prepared and notified while inquiring about it. However, it is clear that an inquiry to this database will hinder performance improvement, and is not a practical solution. By using this already notified information address list, it is guaranteed that a certain information address is output only once from a certain collection processing unit. Number of collection processing units,
Alternatively, only the number of groups obtained by grouping a plurality of collection processing units needs to be received, and the number of duplicate notifications can be suppressed.

【0018】[0018]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
Next, embodiments of the present invention will be described with reference to the drawings.

【0019】図1は本発明の一実施形態を示すシステム
構成図である。
FIG. 1 is a system configuration diagram showing an embodiment of the present invention.

【0020】ネットワーク7上に情報提供サーバである
複数のWWWサーバ(不図示)が配置されている。WW
Wサーバから取得できる情報であるWWWページには、
それぞれURLという情報アドレスが付与されている。
これは、WWWサーバの名前と、そのサーバ上での識別
子とからなる。
A plurality of WWW servers (not shown), which are information providing servers, are arranged on the network 7. WW
The WWW page, which is information that can be obtained from the W server,
Each is provided with an information address called a URL.
It consists of the name of the WWW server and an identifier on that server.

【0021】WWWサーバからの情報の収集には、1つ
あるいは複数のコンピュータ、ここでは3つのコンピュ
ータCA,CB,CCを利用するが、コンピュータの台
数は何台でもよい。収集に利用するコンピュータCA,
CB,CC同士はネットワーク7で互いに接続されてい
る。また、収集に利用するコンピュータCA,CB,C
Cと、WWWサーバもネットワーク7で接続されてい
る。
To collect information from the WWW server, one or a plurality of computers, in this case, three computers CA, CB, and CC are used, but the number of computers may be any number. Computer CA used for collection,
CB and CC are connected to each other by a network 7. Computers CA, CB, C used for collection
C and the WWW server are also connected by the network 7.

【0022】コンピュータCA,CB,CCでは、UR
Lリスト読み込み部1A,1B,1C、収集処理部2A
1,2A2,2B1,2B2,2C1,2C2、URL抽出部
3A,3B,3Cが動作している。ここでは、1つのU
RLリスト読み込み部、2つの収集処理部、1つのUR
L抽出部が組になって動作することを例に説明するが、
組となる要素の数は、それぞれのモジュール(部)が1
つ以上であれば任意の数でよい。また、この組が、1つ
のコンピュータ上でいくつ動いていてもよいが、ここで
は1組動いていることを例にとって説明する。
In the computers CA, CB and CC, UR
L list reading units 1A, 1B, 1C, collection processing unit 2A
1 , 2A 2 , 2B 1 , 2B 2 , 2C 1 , 2C 2 , and URL extraction units 3A, 3B, 3C are operating. Here, one U
RL list reading unit, two collection processing units, one UR
An example will be described in which the L extraction units operate in pairs,
The number of elements to be set is 1 for each module (part).
Any number may be used as long as the number is at least one. Although any number of such sets may be running on one computer, an example in which one set is running will be described here.

【0023】収集処理部2A1,2A2,…,2C2には
通し番号(0,1,2,3,4,5)がついている。
The collection processors 2A 1 , 2A 2 ,..., 2C 2 are given serial numbers (0, 1 , 2, 3 , 4, 5).

【0024】URLリスト読み込み部1A,1B,1
C、URL抽出部3A,3B,3Cは、WWWサーバ名
を入力として、そのWWWサーバからの収集を担当する
収集処理部の番号を一意に決定する計算式(担当決定計
算式)を持っている。この計算式は、例えばハッシュ関
数で実現できる。したがって、どのコンピュータのUR
Lリスト読み込み部でも、URL抽出部でも、同じWW
Wサーバ名が与えられれば、かならず同じ収集処理部の
番号を決定できる。
URL list reading units 1A, 1B, 1
C, the URL extraction units 3A, 3B, and 3C have a calculation formula (assignment calculation formula) that uniquely determines the number of the collection processing unit that is in charge of collection from the WWW server by inputting the WWW server name. . This calculation formula can be realized by, for example, a hash function. Therefore, which computer UR
The same WW is used for both the L list reading unit and the URL extraction unit.
Given the W server name, the same collection processing unit number can always be determined.

【0025】URLリスト読み込み部1A,1B,1C
には、まずこのURLリスト読み込み部に接続された収
集処理部が収集を担当するWWWサーバから提供される
WWWページのURLが1つあるいは複数おさめられた
ファイル(初期収集URLファイル)が与えられる。こ
のファイルを読み込み、それぞれのURLに対し、UR
Lの中からWWWサーバ名を取りだし、これを担当決定
計算式に与え、得られた収集処理部の番号にしたがっ
て、収集処理部にそのURLを出力する。
URL list reading units 1A, 1B, 1C
First, a file (initial collection URL file) in which one or a plurality of URLs of WWW pages provided by a WWW server which is in charge of collection by a collection processing unit connected to the URL list reading unit is provided. This file is read and the URL
The WWW server name is taken out from L, this is given to the charge determination formula, and the URL is output to the collection processing unit according to the obtained number of the collection processing unit.

【0026】収集処理部2A1,2A2,2B1,2B2
2C1,2C2は、それぞれ収集済URLデータベース4
1,4A2,4B1,4B2,4C1,4C2を持ってい
る。収集済URLデータベース4A1〜4C2は、URL
を与えると、そのURLがすでに収集済として登録され
ているかどうかを返答するデータベースである。
The collection processing units 2A 1 , 2A 2 , 2B 1 , 2B 2 ,
2C 1 and 2C 2 are the collected URL databases 4 respectively.
Have A 1, 4A 2, 4B 1 , 4B 2, 4C 1, 4C 2. Collected URL database 4A 1 ~4C 2 is, URL
Is a database that replies whether the URL is already registered as collected.

【0027】収集処理部2A1〜2C2は、URLリスト
読み込み部1A〜1CからURLを受け取ると、収集済
URLデータベース4A1〜4C2にそのURLを与え、
そのURLが示す情報が未収集であるようならば、その
URLが指し示すWWWページを収集する。そうでなけ
れば、そのURLを捨て、URLリスト読み込み部1A
〜1Cから次に得たURLについて、収集済URLデー
タベース4A1〜4C2の検索を行う。収集すべきURL
については、URLの示すWWWサーバに接続してUR
Lが指し示すWWWページを取得する。収集処理部2A
1〜2C2は取得したWWWページをファイルシステム
(不図示)上に保存し、収集済URLデータベース4A
1〜4C2にURLを収集済として登録する。その後、収
集したWWWページを保存したファイルのファイル名を
URL抽出部3A〜3Cに通知する。URL抽出部3A
〜3Cは、通知されたファイル名に基づいてファイルを
解析し、そこにURLが含まれている場合は、URLを
取り出す。取り出したURLが示すWWWサーバ名を担
当決定計算式に与えて、収集を担当する収集処理部の番
号を得る。この番号に応じて、どのコンピュータのUR
Lリスト読み込み部に通知すべきか判断する。
When the collection processing units 2A 1 to 2C 2 receive the URL from the URL list reading units 1A to 1C, the collection processing units 2A 1 to 2C 2 provide the collected URL databases 4A 1 to 4C 2 with the URLs.
If the information indicated by the URL has not been collected, the WWW page indicated by the URL is collected. Otherwise, the URL is discarded, and the URL list reading unit 1A
For then obtained URL from ~1C, do a search of the collection already URL database 4A 1 ~4C 2. URL to collect
For the URL, connect to the WWW server indicated by the URL
The WWW page indicated by L is acquired. Collection processing unit 2A
1 to 2C 2 store the obtained WWW pages on a file system (not shown) and collect the URL database 4A.
To register to 1 ~4C 2 a URL as a collection already. After that, the file names of the files storing the collected WWW pages are notified to the URL extraction units 3A to 3C. URL extractor 3A
3C analyzes the file based on the notified file name, and extracts the URL if the file contains the URL. The name of the WWW server indicated by the extracted URL is given to the charge determination formula, and the number of the collection processing unit responsible for collection is obtained. Depending on this number, the UR of any computer
It is determined whether to notify the L list reading unit.

【0028】各コンピュータCA,CB,CCの特定の
ディレクトリの下にa,b,cというディレクトリがあ
る。コンピュータCAのディスク6A上には/CA/
a,/CA/b,/CA/cというディレクトリが、コ
ンピュータCBのディスク6B上には/CB/a,/C
B/b,/CB/cというディレクトリが、コンピュー
タCCのディスク6C上には/CC/a,/CC/b,
/CC/cというディレクトリがあるとする。
There are directories a, b and c under specific directories of the computers CA, CB and CC. On the disk 6A of the computer CA, / CA /
The directories a, / CA / b, and / CA / c are stored on the disk 6B of the computer CB as / CB / a, / C.
The directories B / b and / CB / c are stored on the disk 6C of the computer CC as / CC / a, / CC / b,
Assume that there is a directory / CC / c.

【0029】コンピュータCAのURL抽出部3Aが抽
出したURLはディスク6A上に出力する。これは、た
とえコンピュータCB,CCが停止していたとしても、
コンピュータCAが動作している限り、抽出したURL
を出力できるようにするためである。URL抽出部3A
は、コンピュータCAの収集処理部2A1,2A2が収集
すべきURLを自ディスク6Aのaのディレクトリに、
コンピュータCBの収集処理部2B1,2B2が収集すべ
きURLを自ディスク6Aのbのディレクトリに、コン
ピュータCCの収集処理部2C1,2C2が収集すべきU
RLを自ディスク6Aのcのディレクトリに、それぞれ
出力する。出力する際のファイル名は特定の番号から始
め、1つのファイルに一定数のURLが出力された場合
か、あるいは出力をはじめて一定時間がたった場合は、
そのファイルを閉じ、1つ大きい番号をファイル名とし
たファイルを作成してURLの出力を続ける。ここで
は、0という番号を最初のファイル名にすると仮定して
説明する。
The URL extracted by the URL extraction unit 3A of the computer CA is output on the disk 6A. This means that even if the computers CB and CC are stopped,
As long as the computer CA is operating, the extracted URL
Is to be output. URL extractor 3A
Stores the URL to be collected by the collection processing units 2A 1 and 2A 2 of the computer CA in the directory a of the own disk 6A,
The URLs to be collected by the collection processing units 2B 1 and 2B 2 of the computer CB are stored in the directory b of the own disk 6A, and the URLs to be collected by the collection processing units 2C 1 and 2C 2 of the computer CC.
The RL is output to the directory c of the own disk 6A. The file name at the time of output starts from a specific number, or when a certain number of URLs are output to one file, or when a certain time has elapsed after the output has started,
The file is closed, a file having a file name with the next higher number is created, and the output of the URL is continued. Here, description will be made assuming that the number 0 is used as the first file name.

【0030】URL抽出部3A,3B,3Cは、URL
を出力する際には、URL抽出部3A,3B,3C自身
が持つ出力済URLデータベース5A,5B,5Cに、
そのURLが出力済かどうか問い合わせる。出力済でな
い場合は、そのURLを出力済URLデータベース5
A,5B,5Cに登録してから、上記のようにURLを
出力する。
The URL extraction units 3A, 3B, 3C
Is output to the output URL databases 5A, 5B, and 5C of the URL extraction units 3A, 3B, and 3C.
Inquires whether the URL has been output. If the URL has not been output, the URL is output to the output URL database 5
After registering in A, 5B, and 5C, the URL is output as described above.

【0031】各コンピュータCA,CB,CCはネット
ワーク・ファイル・システム(NFS)を使って、これ
らのディレクトリを他のコンピュータにエクスポートし
ている。したがって、各コンピュータCA,CB,CC
では、他のコンピュータのディスク上にあるディレクト
リやファイルに、あたかも自分のディスク上にあるかの
ようにアクセスすることができる。
Each of the computers CA, CB, and CC exports these directories to other computers using a network file system (NFS). Therefore, each computer CA, CB, CC
Now you can access directories and files on another computer's disk as if they were on your own disk.

【0032】各コンピュータCA,CB,CCのURL
リスト読み込み部1A,1B,1Cは、初期収集URL
ファイルを読み込んだ後、URL抽出部3A,3B,3
Cが出力したURLファイルを読み取ろうとする。例え
ば、コンピュータCAのURLリスト読み込み部1A
は、コンピュータCAの/CA/a,コンピュータCB
の/CB/a,コンピュータCCの/CC/aからファ
イルを読み取る。この際、各ディレクトリについて、 1.n=1とする。
URL of each computer CA, CB, CC
The list reading units 1A, 1B, and 1C use the initial collection URL
After reading the file, the URL extraction units 3A, 3B, 3
Attempts to read the URL file output by C. For example, the URL list reading unit 1A of the computer CA
Are / CA / a of computer CA and computer CB
/ CB / a of the computer and / CC / a of the computer CC. At this time, for each directory: It is assumed that n = 1.

【0033】2.nという番号のファイルが、そのディ
レクトリにできているか?なければできるまで待つ。あ
れば、(n−1)というファイルを読み込む。
2. Is a file with the number n created in that directory? If not, wait until you can. If there is, the file (n-1) is read.

【0034】3.nを1増やす。3. Increment n by 1.

【0035】4.1〜3を繰り返す。という処理を行
う。このファイルを読み込む際には、初期収集URLフ
ァイルを読み込んだ際に行ったのと同じ処理を行う。こ
れによって、URL抽出部3A,3B,3Cが書き出し
中のファイルからは、URLリスト読み込み部1A,1
B,1Cが読み込みを行わないというルールができる。
4. Repeat steps 1-3. Is performed. When this file is read, the same processing as that performed when the initial collection URL file is read is performed. As a result, the files being written by the URL extraction units 3A, 3B, 3C are read from the URL list reading units 1A, 1A.
There is a rule that B and 1C do not read.

【0036】なお、各コンピュータCA,CB,CC内
のURLリスト読み込み部1A,1B,1C、収集処理
部2A1,2A2,2B1,2B2,2C1,2C2、URL
抽出部3A,3B,3Cの処理は実際には情報収集プロ
グラムとして、フロッピィ・ディスク、CD−ROM、
光磁気ディスク等の記録媒体に格納されて実行される。
[0036] Each computer CA, CB, URL in the CC list reading unit 1A, 1B, 1C, collection processing unit 2A 1, 2A 2, 2B 1 , 2B 2, 2C 1, 2C 2, URL
The processing of the extraction units 3A, 3B, 3C is actually performed by a floppy disk, CD-ROM,
It is executed by being stored in a recording medium such as a magneto-optical disk.

【0037】[0037]

【発明の効果】以上説明したように、本発明によれば、
同時に実行できる情報収集処理単位を簡単に増加させる
ことができ、収集性能(時間当たりに収集できる情報の
数)を必要に応じて向上させることができるという効果
が得られる。
As described above, according to the present invention,
The effect is that the number of information collection processing units that can be executed simultaneously can be easily increased, and the collection performance (the number of pieces of information that can be collected per time) can be improved as needed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態を示すシステム構成図であ
る。
FIG. 1 is a system configuration diagram showing an embodiment of the present invention.

【図2】従来技術を説明するための図である。FIG. 2 is a diagram for explaining a conventional technique.

【符号の説明】[Explanation of symbols]

CA,CB,CC コンピュータ 1A,1B,1C URLリスト読み込み部 2A1,2A2,2B1,2B2,2C1,2C2 収集処
理部 3A,3B,3C URL抽出部 4A1,4A2,4B1,4B2,4C1,4C2 収集済
URLデータベース 5A,5B,5C 出力済URLデータベース 6A,6B,6C ディスク 7 ネットワーク
CA, CB, CC computer 1A, 1B, 1C URL list reading unit 2A 1, 2A 2, 2B 1 , 2B 2, 2C 1, 2C 2 collection processing unit 3A, 3B, 3C URL extractor 4A 1, 4A 2, 4B 1, 4B 2, 4C 1, 4C 2 collected URL database 5A, 5B, 5C output already URL database 6A, 6B, 6C disk 7 network

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 ネットワーク上に配置され、情報提供サ
ーバ名とそのサーバ上での識別子とからなる情報アドレ
スが付与されている情報を提供する複数の情報提供サー
バから情報を収集する情報収集方法において、 複数の収集処理単位が並行して情報を収集することがで
き、その際1つの情報提供サーバには同時に1つの収集
処理単位が接続でき、各収集処理単位は収集した情報か
ら発見した情報アドレスに含まれる情報提供サーバ名を
基に計算を行なって、該アドレスの情報を収集すべき収
集処理単位を決定し、該収集処理単位に前記情報アドレ
スを通知することを特徴とする情報収集方法。
1. An information collection method for collecting information from a plurality of information providing servers which are provided on a network and provide information provided with an information address including an information providing server name and an identifier on the server. A plurality of collection processing units can collect information in parallel, in which case one collection processing unit can be connected to one information providing server at the same time, and each collection processing unit has an information address found from the collected information. An information collection method, comprising: performing a calculation based on an information providing server name included in the information processing server, determining a collection processing unit in which information of the address should be collected, and notifying the information processing unit of the information address.
【請求項2】 情報アドレスを発見した収集処理単位が
他の収集処理単位に情報アドレスを通知する際、情報ア
ドレスをファイルシステム上の番号の付いたファイルに
順次出力し、通知を受ける収集処理単位は、その時点で
最大の番号が振られたファイル以外のファイルを番号順
に読むことで、収集処理単位間または収集処理単位グル
ープ間が通信を行う、請求項1記載の方法。
2. A collection processing unit that, when a collection processing unit that has found an information address notifies another collection processing unit of the information address, sequentially outputs the information address to a numbered file on the file system and receives the notification. The method according to claim 1, wherein the communication is performed between the collection processing units or between the collection processing unit groups by reading the files other than the file with the largest number at that time in numerical order.
【請求項3】 前記ファイルを出力する際、各収集処理
単位中で出力した情報アドレスのリストを保持してお
き、同一の情報アドレスは一度だけ出力する、請求項2
記載の方法。
3. When outputting the file, a list of information addresses output in each collection processing unit is held, and the same information address is output only once.
The described method.
【請求項4】 ネットワーク上に配置され、情報提供サ
ーバ名とそのサーバ上での識別子とからなる情報アドレ
スが付与されている情報を提供する複数の情報提供サー
バから情報を収集する情報収集装置であって、 情報が既に収集された情報アドレスが登録されている収
集済情報アドレスデータベースを有し、情報アドレスを
受け取ると、前記収集済情報アドレスデータベースを参
照し、該情報アドレスの情報が未収集であれば、前記情
報アドレスが示す情報提供サーバに接続して情報を収集
し、収集した情報をファイルに保存し、前記収集済情報
アドレスデータベースに該情報アドレスを収集済として
登録し、その後収集した情報を保存したファイルのファ
イル名を通知する1つ以上の収集処理部と、 前記収集処理部が収集を担当する情報提供サーバの情報
アドレスがおさめられた初期収集情報アドレスファイル
の各情報アドレスから情報提供サーバ名を取り出し、情
報提供サーバ名から計算によって、該情報提供サーバか
らの情報収集を担当する収集処理部を決定し、該収集処
理部に前記情報アドレスを出力する情報アドレスリスト
読み込み部と、 前記収集処理部から通知されたファイル名のファイルを
解析し、情報アドレスが含まれていれば情報アドレスを
取り出し、取り出した情報アドレスが示す情報提供サー
バ名から計算によって、情報収集を担当する自または他
情報収集装置の収集処理部を求め、取り出した情報アド
レスを、自情報収集装置のファイルシステム上の、求め
られた収集処理部が属する情報収集装置に対応したファ
イル上に出力する情報アドレス抽出部を有し、 前記情報アドレスリスト読み込み部は、前記初期収集情
報アドレスファイルを読み込んだ後、自および他の情報
収集装置の前記情報アドレス抽出部が情報アドレスを出
力したファイルシステム内の、当該情報収集装置に対応
したファイルを読み込む情報収集装置。
4. An information collecting apparatus for collecting information from a plurality of information providing servers provided on a network and providing information provided with an information address including an information providing server name and an identifier on the server. There is a collected information address database in which the information addresses from which the information has already been collected are registered. When the information addresses are received, the collected information address database is referred to, and the information of the information addresses is not collected. If so, connect to the information providing server indicated by the information address to collect the information, save the collected information in a file, register the information address as collected in the collected information address database, and then collect the collected information One or more collection processing units for notifying the file names of the files storing the information, and information for which the collection processing units are in charge of collection The information providing server name is extracted from each information address of the initial collection information address file in which the information address of the providing server is stored, and the collection processing unit responsible for collecting information from the information providing server is determined by calculation from the information providing server name. An information address list reading unit that outputs the information address to the collection processing unit; and a file having the file name notified from the collection processing unit is analyzed. If the information address is included, the information address is extracted and extracted. From the information providing server name indicated by the obtained information address, the collection processing unit of the own or other information collection device in charge of information collection is obtained, and the extracted information address is obtained on the file system of the own information collection device. An information address extraction unit that outputs the information to a file corresponding to the information collection device to which the collection processing unit belongs; The information address list reading unit, after reading the initial collection information address file, in the file system in which the information address extraction unit of its own and other information collection devices output the information address, the information collection device An information collection device that reads the corresponding file.
【請求項5】 前記情報アドレス抽出部は、情報アドレ
スをファイルシステム上の番号の付いたファイルに順次
出力し、前記情報アドレスリスト読み込み部は、その時
点で最大の番号が振られたファイル以外のファイルを番
号順に読み込む、請求項4記載の装置。
5. The information address extraction section sequentially outputs information addresses to numbered files on a file system, and the information address list reading section outputs information addresses other than the file with the largest number at that time. The apparatus according to claim 4, wherein the files are read in numerical order.
【請求項6】 前記情報アドレス抽出部は、情報アドレ
スを前記ファイルシステムに出力する際、出力済情報ア
ドレスデータベースに取り出した情報アドレスが登録さ
れているか調べ、出力されていなければ、該情報アドレ
スを前記出力済情報アドレスデータベースに登録してか
ら該情報アドレスを前記ファイルシステムに出力する、
請求項4または5記載の装置。
6. The information address extracting unit checks whether the extracted information address is registered in an output information address database when outputting the information address to the file system, and if not, outputs the information address. Outputting the information address to the file system after registering in the output information address database;
The device according to claim 4.
【請求項7】 ネットワーク上に配置され、情報提供サ
ーバ名とそのサーバ上での識別子とからなる情報アドレ
スが付与されている情報を提供する複数の情報提供サー
バから情報を収集する情報収集プログラムであって、 情報アドレスを受け取ると、情報が既に収集された情報
アドレスが登録されている収集済情報アドレスデータベ
ースを参照し、該情報アドレスの情報が未収集であれ
ば、前記情報アドレスが示す情報提供サーバに接続して
情報を収集し、収集した情報をファイルに保存し、前記
収集済情報アドレスデータベースに該情報アドレスを収
集済として登録し、その後収集した情報を保存したファ
イルのファイル名を通知する1つ以上の収集処理と、 前記収集処理が収集を担当する情報提供サーバの情報ア
ドレスがおさめられた初期収集情報アドレスファイルの
各情報アドレスから情報提供サーバ名を取り出し、情報
提供サーバ名から計算によって、該情報提供サーバから
の情報収集を担当する収集処理を決定し、該収集処理に
前記情報アドレスを出力する情報アドレスリスト読み込
み処理と、 前記収集処理から通知されたファイル名のファイルを解
析し、情報アドレスが含まれていれば情報アドレスを取
り出し、取り出した情報アドレスが示す情報提供サーバ
名から計算によって、情報収集を担当する自または他情
報収集プログラムの収集処理を求め、取り出した情報ア
ドレスを、自情報収集プログラムのファイルシステム上
の、求められた収集処理が属する情報収集プログラムに
対応したファイル上に出力する情報アドレス抽出処理を
有し、 前記情報アドレスリスト読み込み処理は、前記初期収集
情報アドレスファイルを読み込んだ後、自および他の情
報収集プログラムの前記情報アドレス抽出処理が情報ア
ドレスを出力したファイルシステム内の、当該情報収集
プログラムに対応したファイルを読み取る情報収集プロ
グラムを記録した記録媒体。
7. An information collection program which collects information from a plurality of information providing servers which are provided on a network and provide information to which an information address including a name of the information providing server and an identifier on the server is provided. When the information address is received, the collected information address database in which the information address for which the information has already been collected is registered is referred to. If the information of the information address has not been collected, the information provided by the information address is provided. Connect to the server to collect information, save the collected information in a file, register the information address as collected in the collected information address database, and then notify the file name of the file in which the collected information was stored One or more collection processes, and the first time the information address of the information providing server responsible for collection by the collection process is stored The information providing server name is extracted from each information address of the collected information address file, a collection process in charge of collecting information from the information providing server is determined by calculation from the information providing server name, and the information address is output to the collection process. The information address list reading process to be performed, the file of the file name notified from the collection process is analyzed, if the information address is included, the information address is taken out, and the information providing server name indicated by the taken out information address is calculated by the information providing server name, Requests the collection process of the own information collection program or other information collection program, and outputs the retrieved information address to a file on the file system of the own information collection program that corresponds to the information collection program to which the requested collection process belongs. Information address extraction processing, the information address list The reading process includes, after reading the initial collection information address file, information reading a file corresponding to the information collection program in the file system in which the information address extraction process of the own and other information collection programs output the information address. A recording medium that records a collection program.
【請求項8】 前記情報アドレス抽出処理は、情報アド
レスをファイルシステム上の番号の付いたファイルに順
次出力し、前記情報アドレス読み込み処理は、その時点
で最大の番号が振られたファイル以外のファイルを順次
読み込む、請求項7記載の記録媒体。
8. The information address extracting process sequentially outputs information addresses to a numbered file on a file system, and the information address reading process includes a process for reading a file other than the file with the largest number at that time. 8. The recording medium according to claim 7, wherein the recording medium is sequentially read.
【請求項9】 前記情報アドレス抽出処理は、情報アド
レスを前記ファイルシステムに出力する際、出力済情報
アドレスデータベースに取り出した情報アドレスが登録
されているか調べ、出力されていなければ、該情報アド
レスを前記出力済情報アドレスデータベースに登録して
から該情報アドレスを前記ファイルシステムに出力す
る、請求項7または8記載の記録媒体。
9. The information address extracting process, when outputting an information address to the file system, checks whether or not the extracted information address is registered in an output information address database. 9. The recording medium according to claim 7, wherein said information address is output to said file system after being registered in said output information address database.
JP2000273607A 2000-09-08 2000-09-08 Information collating method, information collating device, and recording medium with information collection program recorded thereon Pending JP2002082923A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000273607A JP2002082923A (en) 2000-09-08 2000-09-08 Information collating method, information collating device, and recording medium with information collection program recorded thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000273607A JP2002082923A (en) 2000-09-08 2000-09-08 Information collating method, information collating device, and recording medium with information collection program recorded thereon

Publications (1)

Publication Number Publication Date
JP2002082923A true JP2002082923A (en) 2002-03-22

Family

ID=18759517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000273607A Pending JP2002082923A (en) 2000-09-08 2000-09-08 Information collating method, information collating device, and recording medium with information collection program recorded thereon

Country Status (1)

Country Link
JP (1) JP2002082923A (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185623A (en) * 1995-12-28 1997-07-15 Ricoh Co Ltd Language processing device and method
JPH09311869A (en) * 1996-05-24 1997-12-02 Toshiba Corp Internet retrieving server
JPH1021134A (en) * 1996-07-04 1998-01-23 Sharp Corp Gate way device, client computer and distributed file system connecting them
JPH10207758A (en) * 1997-01-17 1998-08-07 Nec Corp System for analyzing and displaying home page
JPH11123443A (en) * 1997-10-27 1999-05-11 Sumitomo Metal Ind Ltd Hot extrusion method for metallic material
JP2000057041A (en) * 1998-08-11 2000-02-25 Hitachi Ltd Proxy server and lan system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185623A (en) * 1995-12-28 1997-07-15 Ricoh Co Ltd Language processing device and method
JPH09311869A (en) * 1996-05-24 1997-12-02 Toshiba Corp Internet retrieving server
JPH1021134A (en) * 1996-07-04 1998-01-23 Sharp Corp Gate way device, client computer and distributed file system connecting them
JPH10207758A (en) * 1997-01-17 1998-08-07 Nec Corp System for analyzing and displaying home page
JPH11123443A (en) * 1997-10-27 1999-05-11 Sumitomo Metal Ind Ltd Hot extrusion method for metallic material
JP2000057041A (en) * 1998-08-11 2000-02-25 Hitachi Ltd Proxy server and lan system

Similar Documents

Publication Publication Date Title
US8042112B1 (en) Scheduler for search engine crawler
CN105224546B (en) Data storage and query method and equipment
US7801848B2 (en) Redistributing a distributed database
JP2009020901A (en) Database system, method of database retrieval and recording medium
JP5557824B2 (en) Differential indexing method for hierarchical file storage
JP2021518021A (en) Data processing methods, equipment and computer readable storage media
US20050120037A1 (en) Apparatus and method for managing network storage, and computer product
JPH1125125A (en) Network information retrieving device, its method and storage medium
CN103778223B (en) Pervasive word-reciting system based on cloud platform and construction method thereof
JPH11175471A (en) Method and device for rewriting url, and medium recorded with url re-writable program
JP2002082923A (en) Information collating method, information collating device, and recording medium with information collection program recorded thereon
CN111061719B (en) Data collection method, device, equipment and storage medium
JPH0392942A (en) Storing method and accessing method for file
CN115292280A (en) Cross-region data scheduling method, device, equipment and storage medium
JP2002244887A (en) Log collection system and method
JP6260088B2 (en) Virtual file access system, virtual file access method, and virtual file access program
JPH1021251A (en) Integrated data base system
JP2009122995A (en) Management system and management method of related process record
CN107491361A (en) The method for being classified other redundant storage is carried out to row in tables of data
JPH10289187A (en) Parallel data transfer method
CN116126217A (en) Storage resource allocation method, device, equipment and storage medium
CN111258978B (en) Data storage method
JP2000250918A (en) Distributed data base system, retrieval method and recording medium recording processing program of the method
JP2000250922A (en) Document retrieval system, device and method and recording medium
JP2861548B2 (en) Multiple host method