JPH11296460A - Method and device for information collection and medium for storing information collection program - Google Patents

Method and device for information collection and medium for storing information collection program

Info

Publication number
JPH11296460A
JPH11296460A JP10094583A JP9458398A JPH11296460A JP H11296460 A JPH11296460 A JP H11296460A JP 10094583 A JP10094583 A JP 10094583A JP 9458398 A JP9458398 A JP 9458398A JP H11296460 A JPH11296460 A JP H11296460A
Authority
JP
Japan
Prior art keywords
information
information resource
language
collecting
collected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10094583A
Other languages
Japanese (ja)
Inventor
Hiroshi Takeno
浩 竹野
Nobuharu Noto
信晴 能登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10094583A priority Critical patent/JPH11296460A/en
Publication of JPH11296460A publication Critical patent/JPH11296460A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To supress the increase in loads of a computer network as a whole where large amount of information resources exist and also the decrease in collection speed of individual information collection device. SOLUTION: In a method for collecting information resources 61 to 6n by specifying information resource identifier which uniformly specifies information resources 61 to 6n , an information collection device 2 which has a language identification function is arranged in a regional computer network 4 having different languages to be used for different regions, and a representative language to be used mainly in a related region is specified as the representative language of each information collection device 2. Then, a descriptive language of the collected information resources is identified, an information resource identifier is extracted from this information resource depending upon whether the identified language is included in the representative language and it is controlled whether the collection of the information resources is to be continued or not.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、大量の情報資源が
相互に連携を取ることなくインターネット等の大規模な
ネットワークに公開されている環境において、効率的か
つ網羅的に情報資源を収集する方法及び装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for efficiently and comprehensively collecting information resources in an environment where a large amount of information resources are disclosed on a large-scale network such as the Internet without mutual cooperation. And an apparatus.

【0002】[0002]

【従来の技術】従来のインターネット等で利用される情
報収集方法として、以下の3通りの方法が知られてい
る。第1の方法は、複数の情報収集装置を独立に動作さ
せて、独立に情報資源を収集する。第2の方法は、複数
の情報収集装置の中のどの情報収集装置がどの情報資源
を収集したかを相互に通知すべく情報収集装置間で情報
資源識別子を照合し合うことにより、複数の情報収集装
置で排他的に情報資源を収集する。第3の方法は、複数
の情報収集装置で夫々の情報収集装置に収集する情報資
源の情報資源識別子が満たすべき条件を与えて、その条
件を満たす情報資源識別子を持つ情報資源のみを収集す
る。
2. Description of the Related Art The following three methods are known as conventional information collection methods used on the Internet and the like. In the first method, a plurality of information collecting devices are operated independently to collect information resources independently. A second method is to collate information resource identifiers among information collecting apparatuses to mutually notify which information collecting apparatus among the plurality of information collecting apparatuses has collected which information resources, thereby obtaining a plurality of information resources. Information resources are exclusively collected by the collection device. In the third method, a condition to be satisfied by an information resource identifier of an information resource to be collected is given to each information collection device by a plurality of information collection devices, and only information resources having an information resource identifier satisfying the condition are collected.

【0003】[0003]

【発明が解決しようとする課題】一般に、ある地域内の
コンピュータを接続する地域コンピュータネットワーク
と別の地域コンピュータネットワークとを接続する回線
は、両方の地域コンピュータネットワーク間の通信全て
がその回線を使用するので通信コストは高い。そのた
め、複数の情報収集装置が収集する情報資源は、主とし
て情報収集装置が接続されている地域コンピュータネッ
トワーク内に存在する方が望ましい。
Generally, a line connecting a local computer network connecting computers in one area to another local computer network uses all the communication between the two local computer networks. Therefore, the communication cost is high. Therefore, it is desirable that the information resources collected by the plurality of information collection devices exist mainly in the local computer network to which the information collection devices are connected.

【0004】しかしながら、収集された情報資源から新
たな情報資源識別子を抽出して情報資源の収集を継続す
る形の従来の情報収集装置は、収集された情報資源から
他の情報資源を示す情報資源識別子を抽出し、その情報
資源識別子が指す情報資源を収集することを繰り返すこ
とによって情報の収集を継続するので、通信コストを抑
えるべく情報資源の収集範囲を予め限定することは困難
である。
[0004] However, the conventional information collecting apparatus of the type in which a new information resource identifier is extracted from the collected information resources and the collection of the information resources is continued, an information resource indicating another information resource from the collected information resources. Since the information collection is continued by repeatedly extracting the identifier and collecting the information resource indicated by the information resource identifier, it is difficult to limit the collection range of the information resource in advance in order to reduce the communication cost.

【0005】このため、上記の第1、第2及び第3の従
来の技術による情報収集方法では以下の問題が発生す
る。第1の情報収集方法において、複数の情報収集装置
で独立に情報資源の収集を行った場合、独立した複数の
情報収集装置に対し情報資源の収集範囲を限定すること
は実際上不可能であり、収集される情報資源の重複が発
生し、コンピュータネットワーク全体に与える負荷が増
加する。
For this reason, the following problems occur in the information collecting methods according to the first, second and third prior arts. In the first information collection method, when information resources are independently collected by a plurality of information collection devices, it is practically impossible to limit the collection range of the information resources to the plurality of independent information collection devices. In addition, duplication of information resources to be collected occurs, and the load on the entire computer network increases.

【0006】第2の情報収集方法において、情報資源を
収集する度にその情報資源識別子を他の情報収集装置に
通知し、各情報収集装置が通知された情報資源識別子に
基づいてある情報資源を収集するか否かを判定する場
合、情報資源識別子の通知のため地域コンピュータネッ
トワーク間の通信が発生し、コンピュータネットワーク
全体の負荷が上昇するだけではなく、通知された情報資
源識別子に基づく判定を行うために個々の情報収集装置
の収集速度が低下する。
In the second information collection method, each time an information resource is collected, the information resource identifier is notified to another information collection device, and each information collection device identifies a certain information resource based on the notified information resource identifier. When determining whether or not to collect information, communication between regional computer networks occurs for notification of the information resource identifier, and not only does the load on the entire computer network increase, but also a determination is made based on the notified information resource identifier. Therefore, the collection speed of each information collection device is reduced.

【0007】第3の情報収集方法において、情報収集装
置が情報資源識別子を用いて個々に収集すべき情報資源
を決定する場合、各情報収集装置は相互に通信すること
なく、収集する資源を決定することができるので、コン
ピュータネットワーク全体の負荷の増加を抑えると共
に、個々の情報収集装置の収集速度の低下を抑えること
が可能である。しかし、情報資源識別子は、本来、情報
資源の管理のために用いられる位置を示すものであり、
コンピュータネットワークの回線の物理的な構成を反映
するとは限らないので、コンピュータネットワークの負
荷を抑え得るように情報資源の収集範囲を限定する情報
資源識別子の分類条件が存在するという保証はない。
In the third information collection method, when the information collection device determines the information resources to be individually collected using the information resource identifier, the information collection devices determine the resources to be collected without communicating with each other. Therefore, it is possible to suppress an increase in the load on the entire computer network and to suppress a decrease in the collection speed of each information collection device. However, the information resource identifier originally indicates a position used for management of the information resource,
Since it does not always reflect the physical configuration of the lines of the computer network, there is no guarantee that there is an information resource identifier classification condition that limits the collection range of information resources so that the load on the computer network can be suppressed.

【0008】従って、本発明は、上記の問題点を解決す
べく、大量の情報資源が存在するコンピュータネットワ
ークにおいて地域コンピュータ間の通信を最小限に抑え
ながらコンピュータネットワークに存在する情報資源を
収集する方法及び装置、並びに、情報収集プログラムを
記録した記録媒体の提供を目的とする。
Accordingly, the present invention provides a method for collecting information resources existing in a computer network while minimizing communication between regional computers in a computer network having a large amount of information resources, in order to solve the above problems. And an apparatus, and a recording medium on which an information collection program is recorded.

【0009】[0009]

【課題を解決するための手段】上記目的を達成するた
め、本発明は、ある地域内のコンピュータを接続し、地
域内で主として使用される言語が地域毎に異なる地域コ
ンピュータネットワークと、複数の上記地域コンピュー
タネットワークを接続することにより構成される広域ネ
ットワークとからなるコンピュータネットワークにおい
て、コンピュータネットワーク上に分散配置されている
情報資源を一意に特定する情報資源識別子を指定するこ
とにより情報資源を収集する方法であって、言語識別機
能を有する情報収集装置を主として使用される言語が地
域ごとに異なる地域コンピュータネットワークに配置
し、夫々の情報収集装置の担当言語として関連した地域
内で主として使用される言語(担当言語)を設定する。
In order to achieve the above object, the present invention provides a computer system in which a computer in a certain area is connected, and a local computer network in which a language mainly used in the area is different for each area. A method of collecting information resources by specifying an information resource identifier that uniquely identifies information resources distributed on the computer network in a computer network including a wide area network configured by connecting regional computer networks The information collection device having the language identification function is mainly arranged in a regional computer network in which a language mainly used is different for each region, and a language mainly used in a region related as a language in charge of each information collection device ( Language).

【0010】図1は本発明の原理説明図であり、上記情
報収集装置は、同図に示す如く、与えられた情報資源識
別子が示す情報資源を収集し(ステップ2)、上記収集
された情報資源の記述言語を識別し(ステップ4)、上
記収集された情報資源の記述言語が、関連した地域内で
主として使用される言語として設定された担当言語に含
まれるか否かを判定し(ステップ6)、上記情報資源の
記述言語が上記担当言語に含まれると判定された場合に
限り、上記収集された情報資源から新たな情報資源識別
子を抽出し、上記のステップ2に戻り(ステップ8)、
上記のステップ2、4、6及び8を繰り返すことにより
情報資源の収集を継続するよう動作する。
FIG. 1 is a diagram illustrating the principle of the present invention. As shown in FIG. 1, the information collecting apparatus collects information resources indicated by a given information resource identifier (step 2), and collects the collected information. A description language of the resource is identified (step 4), and it is determined whether or not the description language of the collected information resource is included in a responsible language set as a language mainly used in a related area (step 4). 6) Only when it is determined that the description language of the information resource is included in the responsible language, a new information resource identifier is extracted from the collected information resources, and the process returns to step 2 (step 8). ,
By repeating the above steps 2, 4, 6, and 8, it operates to continue the collection of information resources.

【0011】このように、本発明による情報資源を収集
する方法は、収集された情報資源の記述言語を識別し、
識別された言語が担当とする言語に含まれるか否かに応
じて、この情報資源から情報資源識別子を抽出して、情
報資源の収集を継続するか否かを制御することを最も主
要な特徴とする。図2は上記の情報資源を収集する動作
を実現する本発明の情報収集装置2の構成図である。コ
ンピュータネットワーク4上に分散配置されている情報
資源を一意に特定する情報資源識別子を指定することに
より情報資源61 ,62 ,...,6n を収集する本発
明の情報収集装置2は、与えられた情報資源識別子が示
す情報資源を収集する手段10と、上記収集された情報
資源の記述言語を識別する手段20と、上記収集された
情報資源から新たな情報資源識別子を抽出する手段30
と、上記抽出された新たな情報資源識別子を上記情報資
源を収集する手段10に与えることにより、情報資源を
継続的に発見、収集する手段40とにより構成され、関
連した地域内で主として使用される言語が担当言語とし
て割り当てられ、上記収集された情報資源の記述言語が
上記担当言語に含まれるか否かを判定する手段50を更
に有し、上記情報資源を継続的に発見、収集する手段4
0は、上記情報資源の記述言語が上記担当言語に含まれ
ると判定された場合に限り、上記抽出された新たな情報
資源識別子を上記情報資源を収集する手段10に与える
ことにより、上記情報資源の収集を繰り返すことを特徴
とする。
As described above, the method for collecting information resources according to the present invention identifies the description language of the collected information resources,
The most important feature is to extract an information resource identifier from this information resource according to whether the identified language is included in the language in charge, and to control whether or not to continue collecting the information resource. And FIG. 2 is a configuration diagram of the information collection device 2 of the present invention that realizes the operation of collecting the above information resources. Resources 6 1, 6 2, by specifying a resource identifier that uniquely identifies the information resource that is distributed across the computer network 4. . . , 6 n , means for collecting the information resource indicated by the given information resource identifier, means for identifying the description language of the collected information resource, Means 30 for extracting a new information resource identifier from the obtained information resource
And a means 40 for continuously finding and collecting information resources by providing the extracted new information resource identifier to the information resource collecting means 10, and mainly used in the related area. And a means for determining whether the description language of the collected information resource is included in the language in charge, and a means for continuously finding and collecting the information resource. 4
0, the information resource is collected by providing the extracted new information resource identifier to the information resource collecting means 10 only when it is determined that the description language of the information resource is included in the language in charge. Is characterized by repeating the collection.

【0012】また、上記目的を達成する本発明の記録媒
体は、地域内のコンピュータを接続し、地域内で主とし
て使用される言語が地域毎に異なる地域コンピュータネ
ットワークと、複数の上記地域コンピュータネットワー
クを接続することにより構成される広域ネットワークと
からなるコンピュータネットワークにおいて、与えられ
た情報資源識別子が示す情報資源を収集させるプロセス
と、上記収集された情報資源の記述言語を識別させるプ
ロセスと、上記収集された情報資源から新たな情報資源
識別子を抽出させるプロセスと、上記抽出された新たな
情報資源識別子が示す情報資源を収集させることによ
り、情報資源を継続的に発見、収集させるプロセスとに
より構成され、上記コンピュータネットワーク上に分散
配置されている情報資源を一意に特定する情報資源識別
子を指定することにより情報資源を収集するプログラム
を記録した記録媒体であって、上記プログラムは、関連
した地域内で主として使用される言語を担当言語として
割り当て、上記収集された情報資源の記述言語が上記担
当言語に含まれるか否かを判定させるプロセスを更に有
し、上記情報資源を継続的に発見、収集させるプロセス
は、上記情報資源の記述言語が上記主として使用される
言語に含まれると判定された場合に限り、上記抽出され
た新たな情報資源識別子を示す情報資源を収集させるこ
とにより、上記情報資源の収集を繰り返させることを特
徴とするプログラムを記録した記録媒体である。
According to another aspect of the present invention, there is provided a recording medium for connecting a computer in a region, a regional computer network in which a language mainly used in the region is different for each region, and a plurality of the regional computer networks. In a computer network comprising a wide area network configured by connecting, a process of collecting information resources indicated by a given information resource identifier, a process of identifying a description language of the collected information resources, A process of extracting a new information resource identifier from the information resources obtained, and a process of continuously finding and collecting information resources by causing the information resources indicated by the extracted new information resource identifiers to be collected, Information distributed on the above computer network A recording medium recording a program for collecting information resources by specifying an information resource identifier that uniquely identifies a source, wherein the program assigns a language mainly used in a related area as a responsible language, and The information processing apparatus further includes a process of determining whether a description language of the collected information resource is included in the language in charge, and a process of continuously discovering and collecting the information resource, wherein the description language of the information resource is mainly Only when it is determined that the information is included in the language to be used, a program is characterized in that the information resource indicating the extracted new information resource identifier is collected, and the collection of the information resource is repeated. This is a recording medium.

【0013】[0013]

【発明の実施の形態】図3は本発明の一実施例の情報収
集システムを説明する図である。地域コンピュータネッ
トワーク110及び120の集合としての広域コンピュ
ータネットワーク130には、情報サーバ140及び1
50と、情報収集装置170及び180とが接続されて
いる。地域コンピュータネットワーク110と地域コン
ピュータネットワーク120との通信は、伝送路160
を介して行われる。情報サーバ140及び150は、夫
々、情報資源190,191,192及び情報資源11
00,1101,1102を格納している。
FIG. 3 is a diagram for explaining an information collecting system according to one embodiment of the present invention. A wide area computer network 130 as a set of local computer networks 110 and 120 includes information servers 140 and 1.
50 and the information collection devices 170 and 180 are connected. Communication between the local computer network 110 and the local computer network 120 is performed by a transmission path 160.
Done through. The information servers 140 and 150 respectively include information resources 190, 191, 192 and information resource 11
00, 1101, and 1102 are stored.

【0014】情報収集装置170及び180は、夫々、
関連した地域、即ち、地域コンピュータネットワーク1
10及び120で主として使用される言語として設定さ
れた担当言語1110及び1120と、初期収集情報資
源識別情報子1130及び1140とを有する。以下の
説明では、地域コンピュータネットワーク110及び1
20は、主として使用される言語が互いに異なり、地域
コンピュータネットワーク110では言語A、地域コン
ピュータネットワーク120では言語Bが主として使用
される場合を考える。
The information collecting devices 170 and 180 are respectively
Relevant region, namely regional computer network 1
It has assigned languages 1110 and 1120 set as languages mainly used in 10 and 120, and initial collected information resource identifiers 1130 and 1140. In the following description, regional computer networks 110 and 1
Reference numeral 20 denotes a case where languages used mainly are different from each other, and the language A is mainly used in the local computer network 110 and the language B is mainly used in the local computer network 120.

【0015】図4は情報資源190、191、192、
1100、1101及び1102の記述言語及び夫々の
情報資源に含まれている情報資源識別子の一例を表す図
表である。同図を参照するに、例えば、情報資源190
は、記述言語は言語Aであり、含んでいる情報資源識別
子が指示する情報は、情報資源191、情報資源192
及び情報資源1100である。
FIG. 4 shows information resources 190, 191, 192,
It is a chart showing an example of the description language of 1100, 1101 and 1102, and the information resource identifier contained in each information resource. As shown in FIG.
, The description language is language A, and the information indicated by the included information resource identifiers is information resource 191 and information resource 192
And information resources 1100.

【0016】以下、本発明の一実施例による情報収集装
置170及び180が情報収集中に相互に交信すること
なく、個々の情報収集装置が接続されている地域コンピ
ュータネットワーク内の情報サーバから情報資源を収集
する動作を説明する。図5は情報収集装置170の動作
フローチャートである。同図に示す如く、本例における
情報収集装置170は、地域コンピュータネットワーク
110を介して接続された情報サーバ140を経由して
情報資源190を収集する(ステップ20)。
In the following, the information collecting apparatuses 170 and 180 according to one embodiment of the present invention do not communicate with each other during the information collection, and the information resources are transmitted from the information server in the local computer network to which the individual information collecting apparatuses are connected. The operation of collecting the information will be described. FIG. 5 is an operation flowchart of the information collection device 170. As shown in the figure, the information collection device 170 in this example collects information resources 190 via the information server 140 connected via the local computer network 110 (step 20).

【0017】情報収集装置170は、収集された情報資
源190の記述言語が図4に示される如く言語Aである
ことを識別する(ステップ22)。次に、情報収集装置
170は、担当言語Aが情報資源190の記述言語Aと
一致しているので記述言語が担当言語に含まれることを
判定し(ステップ24)、情報資源190に含まれる情
報資源識別子として、図5に示される如く情報資源19
1、情報資源192及び情報資源1100を指示する情
報資源識別子を抽出する(ステップ26)。
The information collection device 170 identifies that the description language of the collected information resource 190 is the language A as shown in FIG. 4 (step 22). Next, since the assigned language A matches the description language A of the information resource 190, the information collection device 170 determines that the description language is included in the assigned language (step 24), and the information included in the information resource 190 is determined. As a resource identifier, as shown in FIG.
1. Extract information resource identifiers indicating information resources 192 and 1100 (step 26).

【0018】情報収集装置170は、新たな情報資源識
別子が指示する第1の情報資源である情報資源191を
収集する(ステップ28)。情報収集装置170は、収
集された情報資源191の記述言語が言語Aであること
を識別し(ステップ30)、情報収集装置170の担当
言語Aが情報資源191の記述言語Aと一致しているの
で記述言語が担当言語に含まれることを判定し(ステッ
プ32)、新たな情報資源識別子の抽出を行う(ステッ
プ34)。このとき、図4に示される如く、情報資源1
91には情報資源識別子が含まれていないため、これ以
上の情報収集は行われない。
The information collecting device 170 collects the information resource 191 which is the first information resource indicated by the new information resource identifier (Step 28). The information collection device 170 identifies that the description language of the collected information resource 191 is language A (step 30), and the language A in charge of the information collection device 170 matches the description language A of the information resource 191. Therefore, it is determined that the description language is included in the responsible language (step 32), and a new information resource identifier is extracted (step 34). At this time, as shown in FIG.
Since no information resource identifier is included in 91, no further information collection is performed.

【0019】次に情報収集装置170は、新たな情報資
源識別子が指示する第2の情報資源である情報資源19
2を収集する(ステップ36)。情報収集装置170
は、収集された情報資源192の記述言語が言語Aであ
ることを識別し(ステップ38)、情報収集装置170
の担当言語Aが情報資源192の記述言語Aと一致して
いるので記述言語が担当言語に含まれることを判定し
(ステップ40)、新たな情報資源識別子の抽出を行う
(ステップ42)。このとき、図4に示される如く、情
報資源192には情報資源識別子が含まれていないた
め、これ以上の情報収集は行われない。
Next, the information collection device 170 transmits the information resource 19, which is the second information resource indicated by the new information resource identifier.
2 are collected (step 36). Information collection device 170
Identifies that the description language of the collected information resource 192 is language A (step 38), and the information collection device 170
Since the assigned language A of the information resource 192 matches the description language A of the information resource 192, it is determined that the description language is included in the assigned language (step 40), and a new information resource identifier is extracted (step 42). At this time, as shown in FIG. 4, since the information resource 192 does not include the information resource identifier, no further information collection is performed.

【0020】最後に情報収集装置170は、新たな情報
資源識別子が指示する第3の情報資源である情報資源1
100を収集する(ステップ44)。情報収集装置17
0は、収集された情報資源1100の記述言語が言語B
であることを識別し(ステップ46)、情報収集装置1
70の担当言語Aが情報資源1100の記述言語Bと一
致しないので記述言語が担当言語に含まれていないこと
を判定し(ステップ48)、新たな情報資源識別子の抽
出は行われず、これ以上の情報収集は行われない。
Finally, the information collecting apparatus 170 transmits the information resource 1 which is the third information resource indicated by the new information resource identifier.
100 are collected (step 44). Information collection device 17
0 indicates that the description language of the collected information resource 1100 is language B
Is identified (step 46), and the information collection device 1
Since the assigned language A of 70 does not match the description language B of the information resource 1100, it is determined that the description language is not included in the assigned language (step 48), and no new information resource identifier is extracted. No information is collected.

【0021】情報収集装置170は、このような動作に
よって、情報資源190、191、192及び1100
を収集する。一方、情報収集装置180は、情報収集装
置170と同様に以下の通り動作する。情報収集装置1
80は、地域コンピュータネットワーク120を介して
接続された情報サーバ150を経由して情報資源110
0を収集する。
The information collecting apparatus 170 operates the information resources 190, 191, 192 and 1100 by the above operation.
To collect. On the other hand, the information collection device 180 operates as follows, similarly to the information collection device 170. Information collection device 1
80 is an information resource 110 via an information server 150 connected via a regional computer network 120.
Collect 0.

【0022】情報収集装置180は、収集された情報資
源1100の記述言語が図4に示される如く言語Bであ
ることを識別し、情報収集装置180の担当言語Bが情
報資源1100の記述言語Bと一致しているので記述言
語が担当言語に含まれることを判定し、情報資源110
0に含まれる情報資源識別子として、図5に示される如
く情報資源1101、情報資源1102及び情報資源1
90を指示する情報資源識別子を抽出する。
The information collection device 180 identifies that the description language of the collected information resource 1100 is language B as shown in FIG. 4, and the assigned language B of the information collection device 180 is the description language B of the information resource 1100. Therefore, it is determined that the description language is included in the assigned language, and the information resource 110
The information resource identifiers included in the information resource 1101, the information resource 1102, and the information resource 1 as shown in FIG.
An information resource identifier designating 90 is extracted.

【0023】情報収集装置180は、新たな情報資源識
別子が指示する第1の情報資源である情報資源1101
を収集し、収集された情報資源1101の記述言語が言
語Bであることを識別し、情報収集装置180の担当言
語Bが情報資源1101の記述言語Bと一致しているの
で記述言語が担当言語に含まれることを判定し、新たな
情報資源識別子の抽出を行う。このとき、図4に示され
る如く、情報資源1101には情報資源識別子が含まれ
ていないため、これ以上の情報収集は行われない。
[0023] The information collecting apparatus 180 is an information resource 1101 which is the first information resource indicated by the new information resource identifier.
Is identified, and that the description language of the collected information resource 1101 is the language B. Since the language B in charge of the information collection device 180 matches the description language B of the information resource 1101, the description language is , And a new information resource identifier is extracted. At this time, as shown in FIG. 4, since the information resource 1101 does not include the information resource identifier, no further information collection is performed.

【0024】次に情報収集装置180は、新たな情報資
源識別子が指示する第2の情報資源である情報資源11
02を収集し、収集された情報資源1102の記述言語
が言語Bであることを識別し、情報収集装置180の担
当言語Bが情報資源1102の記述言語Bと一致してい
るので記述言語が担当言語に含まれることを判定し、新
たな情報資源識別子の抽出を行う。このとき、図4に示
される如く、情報資源1102には情報資源識別子が含
まれていないため、これ以上の情報収集は行われない。
Next, the information collecting apparatus 180 transmits the information resource 11 which is the second information resource indicated by the new information resource identifier.
02, the description language of the collected information resource 1102 is identified to be language B, and the description language of the information collection device 180 matches the description language B of the information resource 1102. It is determined that it is included in the language, and a new information resource identifier is extracted. At this time, as shown in FIG. 4, since the information resource 1102 does not include the information resource identifier, no further information collection is performed.

【0025】最後に情報収集装置180は、新たな情報
資源識別子が指示する第3の情報資源である情報資源1
90を収集し、収集された情報資源190の記述言語が
言語Aであることを識別し、情報収集装置180の担当
言語Bが情報資源190の記述言語Aと一致しないので
記述言語が担当言語に含まれていないことを判定するの
で、新たな情報資源識別子の抽出は行われず、これ以上
の情報収集は行われない。
Finally, the information collection device 180 transmits the information resource 1 which is the third information resource indicated by the new information resource identifier.
90, the description language of the collected information resource 190 is identified as language A, and the description language B of the information collection device 180 does not match the description language A of the information resource 190. Since it is determined that it is not included, a new information resource identifier is not extracted, and no further information collection is performed.

【0026】情報収集装置180は、このような動作に
よって、情報資源1100、1101、1102及び1
90を収集する。このように本発明の一実施例によれ
ば、情報収集装置170と情報収集装置180は、夫
々、互いに交信すること無く、主として個々の情報収集
装置が接続されている地域コンピュータネットワーク1
10及び120の近傍の情報サーバ140及び150か
ら情報資源の収集を行う。
The information collecting apparatus 180 operates the information resources 1100, 1101, 1102 and 1
Collect 90. As described above, according to the embodiment of the present invention, the information collecting device 170 and the information collecting device 180 do not communicate with each other, and are mainly connected to the local computer network 1 to which the individual information collecting devices are connected.
Information resources are collected from information servers 140 and 150 near 10 and 120.

【0027】図6は本発明の他の実施例による情報収集
装置400の構成図である。本実施例におおいて、収集
される情報は、現在インターネットで広く用いられてい
るハイパーテキスト記述言語である“HTML(hyper t
ext markup language)”であり、情報資源識別子は、同
じくインターネットで広く用いられている“URI(uni
form resource Identifiers)”であり、コンピュータネ
ットワークは、同じくインターネットで広く用いられて
いるTCP/IPネットワークである。
FIG. 6 is a block diagram of an information collecting apparatus 400 according to another embodiment of the present invention. In this embodiment, the information to be collected is “HTML (hypert), which is a hypertext description language widely used at present on the Internet.
ext markup language), and the information resource identifier is “URI (uni
form resource Identifiers) "and the computer network is a TCP / IP network also widely used in the Internet.

【0028】情報収集装置400は、情報収集装置40
0が担当する言語を格納する担当言語格納部410と、
情報収集装置400が最初に収集するHTMLのURI
を格納する初期URI格納部420と、情報収集装置4
00がこれから収集するHTMLのURIを格納する収
集URI格納部430とを有する。情報収集装置400
は、TCP/IP通信を実行して入力されたURIが指
示するHTMLを収集し、収集したHTMLを出力する
HTML収集部440と、入力されたHTMLがどの言
語で記述されているかを識別し、識別結果を出力する言
語識別部450と、入力されたHTMLを解析し、HT
MLの中に含まれるている新たなURIを抽出し、抽出
された新たなURIを出力するHTML解析/URI抽
出部460を更に有する。
The information collecting device 400 includes the information collecting device 40
A responsible language storage unit 410 for storing a language in which 0 is responsible;
HTML URI first collected by the information collection device 400
URI storage unit 420 for storing the
00 has a collection URI storage unit 430 for storing the URI of the HTML to be collected. Information collection device 400
Executes the TCP / IP communication, collects the HTML indicated by the input URI, identifies the HTML collection unit 440 that outputs the collected HTML, and identifies the language in which the input HTML is written, A language identification unit 450 for outputting the identification result, and analyzing the input HTML and
It further includes an HTML analysis / URI extraction unit 460 that extracts a new URI included in the ML and outputs the extracted new URI.

【0029】収集URI格納部430には、初期URI
格納部420に格納された最初に収集するHTMLのU
RIの他に、HTMLの収集中に、HTML解析/UR
I抽出部460で抽出されたURIが格納される。情報
収集装置400は、収集したHTMLを格納する収集H
TML格納部470と、HTMLを収集するために用い
られたURIを格納する収集済みURI格納部480と
を更に有する。
The collected URI storage section 430 stores an initial URI.
U of HTML to be collected first stored in the storage unit 420
In addition to RI, during HTML collection, HTML analysis / UR
The URI extracted by the I extraction unit 460 is stored. The information collection device 400 is a collection H that stores the collected HTML.
It further includes a TML storage unit 470 and a collected URI storage unit 480 that stores a URI used for collecting HTML.

【0030】また、情報収集装置400は、装置の全体
の動作を管理する情報収集制御部490が設けられる。
図7は本発明の他の実施例による情報収集装置400の
情報収集制御部490の動作フローチャートである。情
報収集制御部490は、ステップ70において、情報収
集装置400の起動時に、担当言語格納部410から情
報収集装置400が担当する言語を読み取ると共に、初
期URI格納部420からURIを取り出し、収集UR
I格納部430に格納する。
The information collecting apparatus 400 is provided with an information collecting control section 490 for managing the entire operation of the apparatus.
FIG. 7 is an operation flowchart of the information collection control unit 490 of the information collection device 400 according to another embodiment of the present invention. At step 70, the information collection control unit 490 reads the language assigned to the information collection device 400 from the assigned language storage unit 410 and retrieves the URI from the initial URI storage unit 420 when the information collection device 400 is started up.
It is stored in the I storage unit 430.

【0031】次に、情報収集装置400の情報収集時
に、情報収集制御部490は、ステップ72において、
収集URI格納部430の中のURIからHTMLを収
集するためのURIを選択する。情報収集制御部490
は、ステップ74において、選択したURIをHTML
収集部440に入力し、HTML収集部440にHTM
Lの収集を行わせる。ステップ76において、情報収集
制御部490は、HTML収集部440が収集したHT
MLを言語識別部450に送り、HTMLの記述言語の
識別を行わせる。
Next, when the information collection device 400 collects information, the information collection control unit 490 determines in step 72
The user selects a URI for collecting HTML from the URI in the collection URI storage unit 430. Information collection control unit 490
Converts the selected URI into HTML in step 74.
The input to the collection unit 440 and the HTML collection unit 440
L is collected. In step 76, the information collection control unit 490 sets the HT collected by the HTML collection unit 440.
The ML is sent to the language identification unit 450 to identify the HTML description language.

【0032】情報収集制御部490は、ステップ78に
おいて、言語識別部450の出力した識別結果であるH
TMLの記述言語が担当言語格納部410に格納されて
いた担当言語に含まれるか否かを判定する。判定結果が
否定的である場合、情報収集制御部490はステップ8
8に進む。判定結果が肯定的である場合、情報収集制御
部490は、ステップ80において、HTML収集部4
40が収集したHTMLをHTML解析/URI抽出部
460に入力し、URIを抽出する。次に、情報収集制
御部490は、ステップ82において、HTML解析/
URI抽出部460から抽出されたURIが収集済みU
RI格納部480に格納されているか否かを判定する。
格納されていた場合、ステップ84において、情報収集
制御部490は当該URIを廃棄する。格納されていな
い場合、ステップ86において、情報収集制御部490
は当該URIを収集URI格納部430に格納する。
The information collection control unit 490 determines in step 78 that the identification result output from the language identification unit 450 is H
It is determined whether or not the description language of TML is included in the assigned language stored in assigned language storage section 410. If the determination result is negative, the information collection control unit 490 proceeds to step 8
Proceed to 8. If the determination result is affirmative, the information collection control unit 490 determines in step 80 that the HTML collection unit 4
The HTML collected by 40 is input to an HTML analysis / URI extraction unit 460 to extract the URI. Next, the information collection control unit 490 determines in step 82 that the HTML analysis /
The URI extracted from the URI extraction unit 460 is already collected U
It is determined whether or not it is stored in the RI storage unit 480.
If it is stored, in step 84, the information collection control unit 490 discards the URI. If not stored, in step 86, the information collection control unit 490
Stores the URI in the collection URI storage unit 430.

【0033】情報収集制御部490は、ステップ88に
おいて、HTML収集部440が収集したHTMLを収
集HTML格納部470に格納し、HTMLを収集する
ため利用されたURIを収集済みURI格納部480に
格納し、収集URI格納部430から当該URIを削除
する。上記本発明の他の実施例に従って情報収集装置4
00を構成することにより、情報収集装置は、他の情報
収集装置と一切通信を行うこと無く、当該情報収集装置
が接続されているTCP/IPネットワークのTCP/
IP通信に関して近傍に存在するHTMLを主として収
集することが可能である。
In step 88, the information collection control unit 490 stores the HTML collected by the HTML collection unit 440 in the collected HTML storage unit 470, and stores the URI used for collecting the HTML in the collected URI storage unit 480. Then, the URI is deleted from the collected URI storage unit 430. An information collecting apparatus 4 according to another embodiment of the present invention.
00, the information collection device does not perform any communication with another information collection device, and the TCP / IP network of the TCP / IP network to which the information collection device is connected.
It is possible to mainly collect the HTML existing in the vicinity for the IP communication.

【0034】また、情報収集装置400の構成は、上記
の実施例で説明された例に限定されることなく、情報収
集装置400の各々の構成要件をソフトウェア(プログ
ラム)で構築し、ディスク装置等に格納しておき、必要
に応じて情報収集装置のコンピュータにインストールし
て情報資源の収集を行うことも可能である。さらに、構
築されたプログラムをフロッピーディスクやCD−RO
M等の可搬記憶媒体に格納し、このようなシステムを用
いる場面で汎用的に使用することも可能である。
The configuration of the information collection device 400 is not limited to the example described in the above embodiment, and each component of the information collection device 400 is constructed by software (program), , And can be installed on a computer of the information collecting apparatus as needed to collect information resources. In addition, the built program is stored on a floppy disk or CD-RO.
It is also possible to store it in a portable storage medium such as M and use it versatilely when using such a system.

【0035】本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
The present invention is not limited to the above embodiments, but can be variously modified and applied within the scope of the claims.

【0036】[0036]

【発明の効果】以上説明したように、本発明によれば、
複数の情報収集装置が互いに通信を行うこと無く、情報
収集装置が接続されているコンピュータネットワークの
近傍に存在する情報資源を主として収集することができ
るという効果が得られる。
As described above, according to the present invention,
The effect is obtained that the information resources existing near the computer network to which the information collection devices are connected can be mainly collected without the plurality of information collection devices communicating with each other.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理説明図である。FIG. 1 is a diagram illustrating the principle of the present invention.

【図2】本発明の情報収集装置の構成図である。FIG. 2 is a configuration diagram of an information collection device of the present invention.

【図3】本発明の一実施例による情報収集システムの構
成図である。
FIG. 3 is a configuration diagram of an information collection system according to an embodiment of the present invention.

【図4】本発明の一実施例による情報資源の説明図であ
る。
FIG. 4 is an explanatory diagram of an information resource according to an embodiment of the present invention.

【図5】本発明の一実施例による情報収集装置の動作フ
ローチャートである。
FIG. 5 is an operation flowchart of the information collecting apparatus according to one embodiment of the present invention;

【図6】本発明の他の実施例による情報収集装置の構成
図である。
FIG. 6 is a configuration diagram of an information collection device according to another embodiment of the present invention.

【図7】本発明の他の実施例による情報収集制御部の動
作フローチャートである。
FIG. 7 is an operation flowchart of an information collection control unit according to another embodiment of the present invention.

【符号の説明】[Explanation of symbols]

2 情報収集装置 4 コンピュータネットワーク 61 ,...,6n 情報資源 10 情報資源収集手段 20 記述言語識別手段 30 情報資源識別子抽出手段 40 情報資源発見・収集手段 50 担当言語判定手段2 Information collection device 4 Computer network 6 1 ,. . . , 6 n information resources 10 information resource collection means 20 description language identification means 30 information resource identifier extraction means 40 information resource discovery and collection means 50 assigned language determination means

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 地域内のコンピュータを接続し、地域内
で主として使用される言語が地域毎に異なる地域コンピ
ュータネットワークと、複数の上記地域コンピュータネ
ットワークを接続することにより構成される広域ネット
ワークとからなるコンピュータネットワークにおいて、
上記コンピュータネットワーク上に分散配置されている
情報資源を一意に特定する情報資源識別子を指定するこ
とにより情報資源を収集する方法であって、 (a)与えられた情報資源識別子が示す情報資源を収集
し、 (b)上記収集された情報資源の記述言語を識別し、 (c)上記収集された情報資源の記述言語が、関連した
地域内で主として使用される言語として設定された担当
言語に含まれるか否かを判定し、 (d)上記情報資源の記述言語が上記担当言語に含まれ
ると判定された場合に限り、上記収集された情報資源か
ら新たな情報資源識別子を抽出し、 (e)上記の(a)、(b)、(c)及び(d)を繰り
返すことにより情報資源を収集することを特徴とする方
法。
1. A regional computer network which connects computers in a region and a language mainly used in the region is different for each region, and a wide area network formed by connecting a plurality of the regional computer networks. In computer networks,
A method of collecting information resources by specifying an information resource identifier that uniquely specifies information resources distributed and arranged on the computer network, comprising: (a) collecting information resources indicated by a given information resource identifier; (B) identifying the description language of the collected information resource; and (c) the description language of the collected information resource is included in a responsible language set as a language mainly used in a related area. (D) extracting a new information resource identifier from the collected information resource only when it is determined that the description language of the information resource is included in the language in charge, and (e) A) collecting information resources by repeating the above (a), (b), (c) and (d);
【請求項2】 地域内のコンピュータを接続し、地域内
で主として使用される言語が地域毎に異なる地域コンピ
ュータネットワークと、複数の上記地域コンピュータネ
ットワークを接続することにより構成される広域ネット
ワークとからなるコンピュータネットワークにおいて、 与えられた情報資源識別子が示す情報資源を収集する手
段と、 上記収集された情報資源の記述言語を識別する手段と、 上記収集された情報資源から新たな情報資源識別子を抽
出する手段と、 上記抽出された新たな情報資源識別子を上記情報資源を
収集手段に与えることにより、情報資源を継続的に発
見、収集する手段とにより構成され、上記コンピュータ
ネットワーク上に分散配置されている情報資源を一意に
特定する情報資源識別子を指定することにより情報資源
を収集する装置であって、 関連した地域内で主として使用される言語が担当言語と
して割り当てられ、上記収集された情報資源の記述言語
が上記担当言語に含まれるか否かを判定する手段を更に
有し、 上記情報資源を継続的に発見、収集する手段は、上記情
報資源の記述言語が上記主として使用される言語に含ま
れると判定された場合に限り、上記抽出された新たな情
報資源識別子を上記情報資源を収集する手段に与えるこ
とにより、上記情報資源の収集を繰り返すことを特徴と
する装置。
2. A regional computer network which connects computers in a region, and a language mainly used in the region is different for each region, and a wide area network formed by connecting a plurality of the regional computer networks. In a computer network, means for collecting an information resource indicated by a given information resource identifier, means for identifying a description language of the collected information resource, and extracting a new information resource identifier from the collected information resource And a means for continuously finding and collecting information resources by providing the information resources to the collection means with the extracted new information resource identifiers, and distributed and arranged on the computer network. Information by specifying an information resource identifier that uniquely identifies the information resource Means for collecting a source, wherein a language mainly used in a related area is assigned as a responsible language, and means for determining whether or not the description language of the collected information resource is included in the responsible language is provided. Further, the means for continuously finding and collecting the information resource is provided only when it is determined that the description language of the information resource is included in the language used mainly. An apparatus for repeating the collection of information resources by providing an identifier to a means for collecting the information resources.
【請求項3】 地域内のコンピュータを接続し、地域内
で主として使用される言語が地域毎に異なる地域コンピ
ュータネットワークと、複数の上記地域コンピュータネ
ットワークを接続することにより構成される広域ネット
ワークとからなるコンピュータネットワークにおいて、 与えられた情報資源識別子が示す情報資源を収集させる
プロセスと、 上記収集された情報資源の記述言語を識別させるプロセ
スと、 上記収集された情報資源から新たな情報資源識別子を抽
出させるプロセスと、 上記抽出された新たな情報資源識別子が示す情報資源を
収集させることにより、情報資源を継続的に発見、収集
させるプロセスとにより構成され、上記コンピュータネ
ットワーク上に分散配置されている情報資源を一意に特
定する情報資源識別子を指定することにより情報資源を
収集するプログラムを記録した記録媒体であって、 上記プログラムは、関連した地域内で主として使用され
る言語を担当言語として割り当て、上記収集された情報
資源の記述言語が上記担当言語に含まれるか否かを判定
させるプロセスを更に有し、 上記情報資源を継続的に発見、収集させるプロセスは、
上記情報資源の記述言語が上記主として使用される言語
に含まれると判定された場合に限り、上記抽出された新
たな情報資源識別子を示す情報資源を収集させることに
より、上記情報資源の収集を繰り返させることを特徴と
するプログラムを記録した記録媒体。
3. A regional computer network which connects computers in a region, and a language mainly used in the region is different for each region, and a wide area network formed by connecting a plurality of the regional computer networks. In a computer network, a process for collecting an information resource indicated by a given information resource identifier, a process for identifying a description language of the collected information resource, and extracting a new information resource identifier from the collected information resource A process for continuously discovering and collecting information resources by collecting information resources indicated by the extracted new information resource identifiers, the information resources being distributed and arranged on the computer network. Resource identifier that uniquely identifies Recording a program for collecting information resources by assigning a language mainly used in a related area as a responsible language, and a description language of the collected information resource is assigned to the responsible language. The method further includes a process of determining whether the information resource is included in the language. The process of continuously finding and collecting the information resource includes:
Only when it is determined that the description language of the information resource is included in the language mainly used, the information resource indicating the extracted new information resource identifier is collected, so that the collection of the information resource is repeated. A recording medium on which a program characterized by causing a program to be recorded is recorded.
JP10094583A 1998-04-07 1998-04-07 Method and device for information collection and medium for storing information collection program Pending JPH11296460A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10094583A JPH11296460A (en) 1998-04-07 1998-04-07 Method and device for information collection and medium for storing information collection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10094583A JPH11296460A (en) 1998-04-07 1998-04-07 Method and device for information collection and medium for storing information collection program

Publications (1)

Publication Number Publication Date
JPH11296460A true JPH11296460A (en) 1999-10-29

Family

ID=14114309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10094583A Pending JPH11296460A (en) 1998-04-07 1998-04-07 Method and device for information collection and medium for storing information collection program

Country Status (1)

Country Link
JP (1) JPH11296460A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140056301A (en) * 2011-08-16 2014-05-09 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 Allocating data to plurality storage devices

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204436A (en) * 1996-01-26 1997-08-05 Nippon Telegr & Teleph Corp <Ntt> Method and device for searching information space

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204436A (en) * 1996-01-26 1997-08-05 Nippon Telegr & Teleph Corp <Ntt> Method and device for searching information space

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140056301A (en) * 2011-08-16 2014-05-09 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 Allocating data to plurality storage devices
JP2015504188A (en) * 2011-08-16 2015-02-05 エンパイア テクノロジー ディベロップメント エルエルシー Allocation of data to multiple storage devices
US9800657B2 (en) 2011-08-16 2017-10-24 Empire Technology Development Llc Allocating data to plurality storage devices

Similar Documents

Publication Publication Date Title
US7831959B1 (en) Method and apparatus to manage configuration for multiple file server appliances
JPH0981445A (en) Information controller
JP2006259811A (en) Log creating device, and program
US20100058118A1 (en) Storage medium recording information reacquisition procedure generation program and information reacquisition procedure generation apparatus
JP2000011005A (en) Data analyzing method and its device and computer- readable recording medium recorded with data analytical program
CN107528751B (en) A kind of system and its management method of dynamic distribution Zabbix monitoring data
CN110113188A (en) Across subdomain communication O&amp;M method, total O&amp;M server and medium
WO2023109524A1 (en) Information leakage monitoring method and system, and electronic device
CN112769838B (en) Access user filtering method, device, equipment and storage medium
CN108228770A (en) A kind of method and device of application file source inquiry
KR102189127B1 (en) A unit and method for processing rule based action
CN113778709B (en) Interface calling method, device, server and storage medium
JPH11296460A (en) Method and device for information collection and medium for storing information collection program
US20210173729A1 (en) Systems and methods of application program interface (api) parameter monitoring
JP3886872B2 (en) Access log information multidimensional analysis system and multidimensional analysis environment construction method
CN114531345A (en) Method, device and equipment for storing flow comparison result and storage medium
US8775528B2 (en) Computer readable recording medium storing linking keyword automatically extracting program, linking keyword automatically extracting method and apparatus
JP2002108659A (en) Method for collecting data access history and apparatus for the same
JP2004038232A (en) Information management device, information processor and method for controlling them, information management system and program
CN111459756A (en) Log processing method and related equipment
JP2008210214A (en) Information processor, communication control processing function addition method and communication control processing function addition program
JP2002351702A (en) Method and device for preparing terminal operation statistical data utilizing online
JP2002116934A (en) Document management system
JP2000066945A (en) Document collection system, device and method and recording medium
JP2005157727A (en) Log processing method, and processing program and execution system of the same

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040412

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040518