JP2003303196A - Knowledge information collecting system and knowledge information collecting method - Google Patents

Knowledge information collecting system and knowledge information collecting method

Info

Publication number
JP2003303196A
JP2003303196A JP2002108413A JP2002108413A JP2003303196A JP 2003303196 A JP2003303196 A JP 2003303196A JP 2002108413 A JP2002108413 A JP 2002108413A JP 2002108413 A JP2002108413 A JP 2002108413A JP 2003303196 A JP2003303196 A JP 2003303196A
Authority
JP
Japan
Prior art keywords
file
document
information
collection
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002108413A
Other languages
Japanese (ja)
Other versions
JP3725087B2 (en
Inventor
Kazuhiko Atsumi
一彦 渥美
Masayo Toyoda
真代 豊田
Koji Shioda
弘二 塩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002108413A priority Critical patent/JP3725087B2/en
Publication of JP2003303196A publication Critical patent/JP2003303196A/en
Application granted granted Critical
Publication of JP3725087B2 publication Critical patent/JP3725087B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To efficiently collect as knowledge information various types of document files having different file formats from the Internet. <P>SOLUTION: A Web collecting module 111 sequentially obtains the document files from the Internet/intranet 30 based on set information held by a setting file 203. The Web collecting module 111 performs analysis for detecting link information and extracting text data for each obtained document file, and the text data extracted from each document file is described on a registering file and outputted. Since the text data extracted from each document file is described on the registering file and outputted, a registering module 12 can efficiently register the document information in a knowledge DB 131 in a common format without considering difference between file formats of obtained document files. <P>COPYRIGHT: (C)2004,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明はナレッジマネジメン
トシステムで用いられる知識情報収集システムおよび知
識情報収集方法に関し、特に知識データベースに登録す
べき文書情報をネットワーク上から収集するための知識
情報収集システムおよび知識情報収集方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a knowledge information collecting system and a knowledge information collecting method used in a knowledge management system, and particularly to a knowledge information collecting system and knowledge for collecting document information to be registered in a knowledge database from a network. Regarding information collection method.

【0002】[0002]

【従来の技術】近年、企業を中心に複数のユーザ間で情
報共有を行うためのグループウェアの導入が進められて
いる。代表的なグループウェアとしては、電子メールシ
ステムやワークフローシステムなどが知られているが、
最近では、知識情報の共有支援を図るためのナレッジマ
ネジメントシステムも開発され始めている。
2. Description of the Related Art In recent years, the introduction of groupware for sharing information among a plurality of users has been promoted mainly in companies. E-mail systems and workflow systems are known as typical groupware,
Recently, a knowledge management system to support sharing of knowledge information is also being developed.

【0003】このナレッジマネジメントシステムは、個
人のノウハウなどの知識情報を知識データベースに蓄積
・管理するためのものであり、自然言語検索などの検索
機能と組み合わせることにより、蓄積された知識情報の
効率的な活用が可能となる。
This knowledge management system is for accumulating and managing knowledge information such as personal know-how in a knowledge database. By combining it with a search function such as natural language search, the accumulated knowledge information can be efficiently stored. It is possible to make full use of it.

【0004】ところで、このようなナレッジマネジメン
トシステムにおいては、知識情報をいかに効率よく収集
・蓄積するかが重要なポイントとなる。特にインターネ
ット上のWeb情報は知識の宝庫であるので、インター
ネット上から必要な情報を効率良く収集するための仕組
みが必要とされている。
By the way, in such a knowledge management system, how to efficiently collect and store knowledge information is an important point. In particular, since Web information on the Internet is a treasure trove of knowledge, a mechanism for efficiently collecting necessary information from the Internet is needed.

【0005】[0005]

【発明が解決しようとする課題】しかし、最近では、ホ
ームページにはHTMLドキュメントなどのテキストベ
ースの文書ファイルのみならず、各種アプリケーション
プログラムによって作成された様々なファイル形式の文
書ファイルも利用され始めている。この場合、インター
ネットから取得した文書ファイルをそのまま知識データ
ベースに登録したのでは知識データベース上の文書ファ
イルの検索が困難となり、知識の有効活用を行うことが
できなくなる。
Recently, however, not only text-based document files such as HTML documents but also document files of various file formats created by various application programs have begun to be used for homepages. In this case, if the document file acquired from the Internet is directly registered in the knowledge database, it becomes difficult to search the document file in the knowledge database, and the knowledge cannot be effectively used.

【0006】本発明はこのような事情を考慮してなされ
たものであり、インターネット上からファイル形式の異
なる様々な種類の文書ファイルを知識情報として効率よ
く収集することが可能な知識情報収集システムおよび知
識情報収集方法を提供することを目的とする。
The present invention has been made in consideration of such circumstances, and a knowledge information collecting system and a knowledge information collecting system capable of efficiently collecting various types of document files having different file formats from the Internet as knowledge information. The purpose is to provide a method for collecting knowledge information.

【0007】[0007]

【課題を解決するための手段】上述の課題を解決するた
め、本発明は、知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集システムに
おいて、予め指定された情報収集条件を示す設定情報に
基づいて、前記ネットワーク上から文書ファイルを収集
する文書収集手段であって、前記ネットワーク上から収
集した各文書ファイルに対してテキストデータの抽出と
リンク情報の検出のための解析処理を行い、前記リンク
情報が検出された場合にその検出されたリンク情報で指
定されるリンク先の文書ファイルを前記ネットワークか
ら収集する文書収集手段と、複数種の文書ファイルそれ
ぞれの文書情報を前記知識データベースに登録するため
の共通インターフェースとして予め決められた記述形式
を持つ登録ファイル上に、前記収集された各文書ファイ
ルから抽出されたテキストデータを記述して出力する出
力手段と、前記登録ファイルからそこに記述された各文
書ファイルのテキストデータを取り出し、そのテキスト
データを前記知識データベースに登録する登録手段とを
具備することを特徴とする。
In order to solve the above-mentioned problems, the present invention shows a predetermined information collecting condition in a knowledge information collecting system for collecting document information to be registered in a knowledge database from a network. A document collection unit that collects document files from the network based on setting information, and performs an analysis process for extracting text data and detecting link information for each document file collected from the network. Document collection means for collecting, from the network, a document file of a link destination designated by the detected link information when the link information is detected, and document information of each of a plurality of types of document files in the knowledge database. A registration file with a predetermined description format as a common interface for registration. Output means for describing and outputting the text data extracted from each of the collected document files, and text data of each document file described therein from the registration file and extracting the text data as the knowledge. A registration means for registering in a database is provided.

【0008】この知識情報収集システムにおいては、ネ
ットワークからの情報の収集条件を指定する設定情報に
基づいて、ネットワーク上からの文書ファイルの収集が
文書収集手段によって実行される。文書収集手段では、
各文書ファイルからリンク情報を検出し、リンク情報が
検出された場合にその検出されたリンク情報で指定され
るリンク先の文書ファイルを収集するという処理が再帰
的に実行される。この場合、リンク情報の検出には文書
ファイルの解析が必要となるので、文書収集手段におい
ては、その解析処理の中でリンク情報の検出のみなら
ず、テキストデータの抽出も併せて実行する。このよう
に文書収集手段が各文書ファイルの解析処理の中でテキ
ストデータの抽出とリンク情報の検出を行うことによ
り、テキストデータの抽出を効率よく行うことが可能と
なる。そして、各文書ファイルから抽出されたテキスト
データは、登録ファイル上に記述して出力される。ここ
で、登録ファイルとは、複数種の文書ファイルそれぞれ
の文書情報を知識データベースに登録するための共通イ
ンターフェースとして予め決められた記述形式を持つ出
力ファイルである。各文書ファイルから抽出されたテキ
ストデータを登録ファイル上に記述して出力することに
より、登録手段においては、ネットワーク上から取得さ
れた文書ファイルのファイル形式の違いを考慮すること
なく、それらの文書情報を共通のフォーマットで知識デ
ータベースに効率よく登録することができる。よって、
インターネット上からファイル形式の異なる様々な種類
の文書ファイルを知識情報として効率よく収集すること
が可能となる。
In this knowledge information collecting system, the document collecting means executes the collection of the document file from the network based on the setting information designating the collecting condition of the information from the network. In the document collection means,
A process of detecting link information from each document file and, when the link information is detected, collecting the document files of the link destination specified by the detected link information is recursively executed. In this case, since the document file must be analyzed to detect the link information, the document collecting unit not only detects the link information but also extracts the text data during the analysis process. As described above, the document collection unit performs the text data extraction and the link information detection in the analysis process of each document file, whereby the text data can be efficiently extracted. Then, the text data extracted from each document file is described in the registration file and output. Here, the registration file is an output file having a predetermined description format as a common interface for registering the document information of each of a plurality of types of document files in the knowledge database. By writing the text data extracted from each document file on the registration file and outputting the text data, the registration means does not consider the difference in the file format of the document files acquired from the network, and the document information of the document files Can be efficiently registered in the knowledge database in a common format. Therefore,
Various types of document files having different file formats can be efficiently collected as knowledge information from the Internet.

【0009】また、文書収集手段が、全ての文書ファイ
ルそれぞれに対してテキストデータの抽出とリンク情報
の検出を行うための解析処理を行うことも可能である
が、この解析処理は、リンク情報を含む可能性があるハ
イパーテキストファイルを含む所定のファイル形式の文
書ファイルのみを対象に行い、リンク情報が含まれない
他のファイル形式の文書ファイルについては、登録手段
にてテキスト抽出を行うように構成することもできる。
この場合、前記登録手段には、前記登録ファイルに記述
されたパス名で指定される文書ファイルからテキストデ
ータを抽出して前記知識データベースに登録する手段を
設け、出力手段には、前記文書収集手段で解析処理が行
われなかった文書ファイルのパス名を登録ファイル上に
記述する手段を設けることが好ましい。
Further, the document collection means can perform an analysis process for extracting text data and detecting link information for each of all document files. Configured so that only the document files of a specified file format including hypertext files that may be included are targeted, and text files of other file formats that do not include link information are extracted by the registration means. You can also do it.
In this case, the registration means is provided with means for extracting text data from the document file specified by the path name described in the registration file and registering it in the knowledge database, and the output means is the document collection means. It is preferable to provide a means for describing in the registration file the path name of the document file for which the analysis processing has not been performed in step 2.

【0010】また、前記登録ファイルに、各文書ファイ
ル毎に前記知識データベースに対するテキストデータの
登録または削除を前記登録手段に対して指示するための
モード情報を定義しておき、前記出力手段に、過去に収
集済みの文書ファイルの一覧を管理する手段と、前記文
書収集手段による各文書ファイルの収集の成否を示すス
テータス情報と、前記収集済みのファイルの一覧とに基
づいて、過去に収集済みのファイルの中で前記ネットワ
ーク上から削除された文書ファイルを検出する手段と、
前記ネットワーク上から削除された文書ファイルについ
てはそのテキストデータが前記知識データベースから削
除されるように、前記検出された文書ファイルのテキス
トデータの削除を示すモード情報を前記登録ファイル上
に記述する手段とを設けることにより、知識データベー
スに登録済みのインターネット上のWebページが削除
された場合にそれを知識データベースから自動的に削除
することが可能となる。
Further, in the registration file, mode information for instructing the registration means to register or delete the text data in the knowledge database for each document file is defined. Means for managing a list of collected document files, status information indicating success or failure of collection of each document file by the document collecting means, and a list of collected files based on the list of collected files Means for detecting a document file deleted from the network in
A means for describing mode information indicating deletion of text data of the detected document file on the registration file so that the text data of the document file deleted from the network is deleted from the knowledge database; By providing the above, it becomes possible to automatically delete a Web page on the Internet registered in the knowledge database from the knowledge database when the Web page is deleted.

【0011】また、本発明は、知識データベースに登録
すべき文書情報をネットワーク上から収集する知識情報
収集システムにおいて、予め指定された情報収集条件を
示す設定情報に基づいて、前記ネットワーク上から文書
ファイルを収集する文書収集手段であって、前記ネット
ワーク上から収集した文書ファイルから属性情報を取得
する処理と、その文書ファイルがハイパーテキストファ
イルを含む所定のファイル形式の文書ファイルであるか
否かを判別し、前記所定のファイル形式の文書ファイル
を対象にテキストデータの抽出とリンク情報の検出を行
うための解析処理と、前記リンク情報が検出された場合
にその検出されたリンク情報で指定される文書ファイル
を前記ネットワークから収集する処理とを再帰的に実行
する文書収集手段と、前記所定のファイル形式の文書フ
ァイルについてはその文書ファイルの属性情報とテキス
トデータを、複数種の文書ファイルそれぞれの文書情報
を前記知識データベースに登録するための共通インター
フェースとして予め決められた記述形式を持つ登録ファ
イル上に記述し、前記所定のファイル形式以外の他のフ
ァイル形式の文書ファイルについてはその属性情報とパ
ス名を前記登録ファイル上に記述して出力する出力手段
と、前記登録ファイル上に各文書ファイル毎に記述され
た属性情報とテキストデータを取り出し、その属性情報
とテキストデータを前記知識データベースに登録する登
録手段であって、前記登録ファイルに文書ファイルのパ
ス名が記述されている場合、そのパス名で指定される文
書ファイルからテキストデータを抽出して前記知識デー
タベースに登録する手段を含む登録手段とを具備するこ
とを特徴とする。
Further, according to the present invention, in a knowledge information collecting system for collecting document information to be registered in a knowledge database from a network, a document file from the network is acquired based on setting information indicating a predetermined information collecting condition. A document collecting means for collecting attribute information from a document file collected from the network, and determining whether the document file is a document file of a predetermined file format including a hypertext file. Then, an analysis process for extracting text data and detecting link information for a document file of the predetermined file format, and a document specified by the detected link information when the link information is detected Document collecting means for recursively executing processing for collecting files from the network For a document file of the predetermined file format, a predetermined description format is used as a common interface for registering the attribute information and text data of the document file, and the document information of each of a plurality of types of document files in the knowledge database. An output unit that describes the attribute information and path name of a document file of a file format other than the predetermined file format described in the registered file, and outputs the document file in the registered file. A registration means for extracting the attribute information and text data described for each document file and registering the attribute information and text data in the knowledge database, where the path name of the document file is described in the registration file. , Extract the text data from the document file specified by the path name. To characterized by comprising a registration means including means for registering in said knowledge database.

【0012】この構成においては、文書収集手段にて各
文書ファイルの属性情報の抽出が行われ、さらにその文
書ファイルがハイパーテキストファイルを含む所定のフ
ァイル形式の文書ファイルであるか否かが判別され、ハ
イパーテキストファイルを含む所定のファイル形式の文
書ファイルに対してはテキストデータの抽出とリンク情
報の検出を行うための解析処理が文書収集手段にて行わ
れる。それ以外のファイル形式の文書ファイルについて
はそのパス名を登録ファイルに記述することにより、登
録手段にてテキストデータの抽出が行われる。これによ
り、複数の文書ファイルそれぞれからのテキストデータ
の抽出処理を文書収集手段と登録手段とでバランス良く
分散して行うことが可能となる。
In this structure, the document collecting means extracts the attribute information of each document file, and further determines whether or not the document file is a document file of a predetermined file format including a hypertext file. A document collection unit performs an analysis process for extracting text data and detecting link information for a document file of a predetermined file format including a hypertext file. For document files of other file formats, the path name is described in the registration file, and the text data is extracted by the registration means. As a result, the text data extraction processing from each of the plurality of document files can be performed in a well-balanced manner by the document collection means and the registration means.

【0013】[0013]

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。図1には、本発明の一実施形態に係
る知識情報収集システムを用いたナレッジマネジメント
システム全体の構成が示されている。このナレッジマネ
ジメントシステムは知識情報の収集・分析・検索等のサ
ービスを提供するためのものであり、Web収集システ
ム11、登録モジュール12、および知識エンジン13
などから構成されている。これらWeb収集システム1
1、登録モジュール12および知識エンジン13は、サ
ーバコンピュータ上で実行されるプログラムとして実現
されている。Web収集システム11および登録モジュ
ール12は、ナレッジマネジメントシステムで用いられ
る知識情報を収集するための知識情報収集システムを構
成する。この知識情報収集システムは、Webページな
どの文書をインターネット/イントラネット30上から
収集してその文書の内容をナレッジマネジメントシステ
ムの知識データベース(知識DB)131に登録すると
いう処理を実行する。Web収集システム11は、We
b収集モジュール111、管理インターフェース11
2、および登録ディレクトリ113から構成されてい
る。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows the overall configuration of a knowledge management system using a knowledge information collecting system according to an embodiment of the present invention. This knowledge management system is for providing services such as collection, analysis, and search of knowledge information, and includes a Web collection system 11, a registration module 12, and a knowledge engine 13.
Etc. These Web collection system 1
1, the registration module 12, and the knowledge engine 13 are realized as a program executed on the server computer. The web collection system 11 and the registration module 12 configure a knowledge information collection system for collecting knowledge information used in the knowledge management system. This knowledge information collecting system executes a process of collecting a document such as a Web page from the Internet / Intranet 30 and registering the content of the document in a knowledge database (knowledge DB) 131 of the knowledge management system. Web collection system 11 is We
b collection module 111, management interface 11
2 and the registration directory 113.

【0014】Web収集モジュール111はインターネ
ット/イントラネット30上の各種文書ファイルを収集
してそれを知識DB131に登録できる形式で出力する
ためプログラムである。このWeb収集モジュール11
1はマルチスレッド構造を有しており、HTTP(Hype
rText Transfer Protocol)によるインターネット/イン
トラネット30上からの文書ファイル取得処理を並列的
に行うことが出来る。HTTPはインターネット/イン
トラネット30上の情報サイト(Webサイト)である
各Webサーバ31からHTML(Hyper Text Markup
Language)で記述された文書を取得するための通信プロ
トコルである。Web収集モジュール111は、Web
収集条件を指定する設定情報で指定されたURL(Unif
orm Resource Locator)の文書ファイルをインターネッ
ト/イントラネット30上から取得し、取得した文書フ
ァイルにリンク先のURLが含まれていればそのURL
の文書ファイルをさらに取得する、という再帰的な処理
を行って、インターネット/イントラネット30上から
関連する文書ファイル群を順次取得する。この場合、他
の文書ファイルへのリンク情報(URL)を検出するた
めには取得した文書ファイルを解析することが必要とな
るが、その解析処理の中では、リンク情報の検出のみな
らず、知識DB131に登録すべきテキストデータの抽
出も併せて実行される。
The Web collection module 111 is a program for collecting various document files on the Internet / Intranet 30 and outputting them in a format that can be registered in the knowledge DB 131. This Web collection module 11
1 has a multi-thread structure, and HTTP (Hype
Document file acquisition processing from the Internet / Intranet 30 by rText Transfer Protocol) can be performed in parallel. HTTP is used by each Web server 31, which is an information site (Web site) on the Internet / Intranet 30, to send HTML (Hyper Text Markup).
Language) is a communication protocol for obtaining a document described in Language. Web collection module 111
URL specified in the setting information that specifies the collection condition (Unif
(orm Resource Locator) document file is acquired from the Internet / Intranet 30, and if the acquired document file contains the URL of the link destination, the URL
By further performing the recursive processing of further acquiring the document file of, the related document file group is sequentially acquired from the Internet / Intranet 30. In this case, it is necessary to analyze the acquired document file in order to detect the link information (URL) to another document file. In the analysis process, not only the detection of the link information but also the knowledge Extraction of text data to be registered in the DB 131 is also executed.

【0015】収集対象の文書ファイルは、他のファイル
へのリンク情報であるURLを記述可能なハイパーテキ
ストファイル(HTMLファイル)のみならず、テキス
トファイル(plane text)、さらには各種アプリケーシ
ョンプログラムによって作成された様々なファイル形式
の文書ファイル(例えば、Portable Document Format形
式のファイル、ワードプロセッサソフトウェアで作成し
た文書ファイル、表計算ソフトウェアで作成したファイ
ル、プレゼンテーションデータ作成ソフトウェアで作成
したプレゼンテーションデータのファイル、など)も収
集対象となる。
The document file to be collected is created not only by a hypertext file (HTML file) in which a URL which is link information to another file can be described, but also by a text file (plane text) and various application programs. Document files of various file formats (for example, Portable Document Format files, document files created by word processing software, files created by spreadsheet software, presentation data files created by presentation data creation software, etc.) Be the target.

【0016】Web収集モジュール111では、インタ
ーネット/イントラネット30上から収集した各文書フ
ァイルに対して知識DB131に登録すべき属性情報の
取得と上述のテキストデータの抽出が行われる。各文書
ファイルから取得される属性情報は、例えば、当該文書
ファイルのURL、ファイル作成日時(更新日時)等で
ある。そして、Web収集モジュール111では、それ
ら各文書ファイルの属性情報とテキストデータが記述さ
れた登録ファイルが作成されて、それが登録ディレクト
リ113上に出力される。ここで、登録ファイルとは、
ファイル形式の異なる複数種の文書ファイルそれぞれの
文書情報を知識DB131に登録するための共通インタ
ーフェースとして予め決められた記述形式を持つファイ
ルを意味する。この登録ファイルは、複数種の文書ファ
イルそれぞれの文書情報を知識DB131に共通フォー
マットで登録するために利用される。本実施形態では、
登録ファイルとしてXML(eXtensible Markup Langua
ge)を使用する。
The Web collection module 111 acquires attribute information to be registered in the knowledge DB 131 and extracts the above-mentioned text data for each document file collected from the Internet / Intranet 30. The attribute information acquired from each document file is, for example, the URL of the document file, file creation date / time (update date / time), and the like. Then, the Web collection module 111 creates a registration file in which the attribute information of each of the document files and the text data are described, and outputs it to the registration directory 113. Here, the registration file is
It means a file having a predetermined description format as a common interface for registering document information of each of a plurality of types of document files having different file formats in the knowledge DB 131. This registration file is used to register the document information of each of a plurality of types of document files in the knowledge DB 131 in a common format. In this embodiment,
XML (eXtensible Markup Langua) as a registration file
ge) is used.

【0017】管理インターフェース112は、Web収
集モジュール111に実行させる各Web収集処理(以
下、Web収集処理タスクという)の内容を設定するた
めのプログラムであり、各Web収集処理タスク毎にそ
のWeb収集条件の設定および管理、Web収集モジュ
ール111の起動・停止の制御、さらには各Web収集
処理タスクの収集状況の管理・提示等の機能を有してい
る。この管理インターフェース112は、管理者ユーザ
がそのユーザ端末のWebブラウザ21上から必要な操
作を行えるように、Webサーバ22がCGI(Common
Gateway Interface)を通じて起動可能な外部プログラ
ム(CGIプログラム)として実現されている。
The management interface 112 is a program for setting the contents of each Web collection process (hereinafter referred to as a Web collection process task) to be executed by the Web collection module 111, and the Web collection conditions for each Web collection process task. Of the Web collection module 111, and the functions of managing and presenting the collection status of each Web collection processing task. This management interface 112 allows the web server 22 to execute CGI (Common) so that an administrator user can perform necessary operations on the web browser 21 of the user terminal.
It is realized as an external program (CGI program) that can be started through the Gateway Interface.

【0018】またWeb収集システム11には、Web
収集モジュール111の動作を管理・制御するためのフ
ァイルとして、図示のように、ロックファイル201、
制御ファイル202、設定ファイル203、結果ファイ
ル204、およびログファイル205が設けられてい
る。
The Web collection system 11 has a Web
As a file for managing and controlling the operation of the collection module 111, a lock file 201,
A control file 202, a setting file 203, a result file 204, and a log file 205 are provided.

【0019】ロックファイル201はWeb収集モジュ
ール111の2重起動を防止するための排他制御用のフ
ァイルである。制御ファイル202は管理インターフェ
ース112がWeb収集モジュール111を停止させる
ために使用するファイルであり、例えば、管理者ユーザ
からの指示に応答して、実行中のWeb収集処理タスク
を途中で中断させる場合などに利用される。収集実行中
における中断の指定は、管理者ユーザが管理インターフ
ェース112を通じて行うことができる。
The lock file 201 is a file for exclusive control for preventing double activation of the Web collection module 111. The control file 202 is a file used by the management interface 112 to stop the Web collection module 111. For example, in the case of interrupting a Web collection processing task that is being executed in response to an instruction from an administrator user. Used for. The administrator user can specify the interruption during the collection execution through the management interface 112.

【0020】設定ファイル203は、各Web収集処理
タスク毎にそのWeb収集条件を指定する設定情報を記
述するためのファイルであり、ここには複数のWeb収
集処理タスクそれぞれに対応する複数の設定情報を保持
することが出来る。各Web収集処理タスクのWeb収
集条件は、管理者ユーザによって設定される。Web収
集条件には、少なくとも、インターネット/イントラネ
ット30からの情報収集の起点とすべき文書ファイルの
所在を示す起点アドレス情報(起点URL)と、収集対
象とすべき文書ファイル数またはリンク段数の上限値を
示す収集範囲情報、等が含まれている。このWeb収集
条件に基づいてWeb収集モジュール111のWeb収
集動作が制御される。すなわち、Web収集モジュール
111は、起点URLで指定される文書ファイルを起点
にそれに関連する文書ファイル群を、収集範囲情報で規
定される範囲内で順次収集する。
The setting file 203 is a file for describing setting information for designating the Web collecting condition for each Web collecting processing task, and here, a plurality of setting information corresponding to each of the plurality of Web collecting processing tasks is set. Can hold. The web collection condition of each web collection processing task is set by the administrator user. The Web collection conditions include at least the origin address information (origin URL) indicating the location of the document file that should be the origin of information collection from the Internet / Intranet 30, and the upper limit of the number of document files or the number of link stages to be collected. It includes the collection range information, etc. The web collection operation of the web collection module 111 is controlled based on the web collection conditions. That is, the Web collection module 111 sequentially collects the document file group related to the document file specified by the starting point URL within the range defined by the collection range information.

【0021】また、Web収集条件には、登録先の知識
データベースを指定する知識データベース名も含まれて
いる。すなわち、知識DB131においては蓄積文書の
種類が互いに異なる複数の知識データベースが定義され
ており、それら複数の知識データベースがそれぞれの知
識データベース名で管理されている。設定ファイル20
3の設定情報によってWeb収集タスク毎に登録先の知
識データベース名を指定することにより、収集した文書
情報を知識DB131内の任意の知識データベースに登
録することが出来る。
The Web collection condition also includes a knowledge database name that specifies the knowledge database of the registration destination. That is, in the knowledge DB 131, a plurality of knowledge databases having different types of accumulated documents are defined, and the plurality of knowledge databases are managed by respective knowledge database names. Configuration file 20
By designating the knowledge database name of the registration destination for each Web collection task by the setting information of 3, the collected document information can be registered in an arbitrary knowledge database in the knowledge DB 131.

【0022】さらに、収集範囲情報として、収集対象と
すべきファイル形式の種類、再収集を行う時の収集条
件、等を設定することもできる。ここで、再収集とは、
例えばWeb収集モジュール111に同一のWeb収集
処理タスクを定期的に実行させる場合における2度目以
降のWeb収集処理や、一旦中断したWeb収集処理タ
スクを再開させた場合のWeb収集処理を言う。本実施
形態では、3つの再収集モードが用意されており、We
b収集処理タスク毎に使用すべき再収集モードを指定す
ることが出来る。3つの再収集モードそれぞれの内容
は、図10以降で詳述する。
Further, as the collection range information, it is possible to set the type of file format to be collected, the collection condition when recollecting, and the like. Here, recollection means
For example, it refers to the second and subsequent web collection processes when the same web collection processing task is periodically executed by the web collection module 111, and the web collection process when the interrupted web collection processing task is restarted. In this embodiment, three recollection modes are prepared.
b The recollection mode to be used can be specified for each collection processing task. The contents of each of the three recollection modes will be described in detail from FIG.

【0023】結果ファイル204は、以前に収集した文
書ファイルの一覧等をWeb収集処理の結果として各W
eb収集タスク毎に管理するためのファイルであり、こ
こには、Web収集の結果として取得したURLのリス
ト、取得日時、取得した文書ファイル件数、などが各W
eb収集処理タスク毎に出力される。この結果ファイル
204はWeb収集処理タスクそれぞれの収集状況をユ
ーザに提示する目的と、再収集の効率化の目的に用いら
れる。この結果ファイル204を用いることにより、過
去に収集済みの文書ファイルの中でインターネット/イ
ントラネット30上の情報サイトから削除された文書フ
ァイルを検出したり、Web収集処理を途中で中断した
場合における再開ポイントの検出、さらには以前の収集
時点からインターネット/イントラネット30上で更新
されている文書ファイルの検出などを行うことが出来
る。
The result file 204 includes a list of previously collected document files as a result of the Web collection process for each W.
This is a file for managing each eb collection task, and here, a list of URLs acquired as a result of Web collection, acquisition date and time, the number of acquired document files, etc.
It is output for each eb collection processing task. The result file 204 is used for the purpose of presenting the collection status of each Web collection processing task to the user and for the purpose of improving the efficiency of recollection. This result file 204 is used to detect a document file deleted from an information site on the Internet / Intranet 30 among the document files that have been collected in the past, or a restart point when the Web collection process is interrupted midway. Can be detected, and further, the document file updated on the Internet / Intranet 30 from the time of the previous collection can be detected.

【0024】ログフィル205は、Web収集モジュー
ル111による文書ファイルの取得の成否やエラーの種
類などを管理するファイルである。
The log file 205 is a file for managing the success or failure of acquisition of a document file by the Web collection module 111 and the type of error.

【0025】登録ディレクトリ113は、知識DB13
1に登録すべき文書内容を出力するための記憶領域であ
る。ここには、Web収集モジュール111によって各
文書ファイルから抽出された属性情報とテキストデータ
が記述された上述の登録ファイルが出力される。Web
収集モジュール111は、テキストデータの抽出に関し
て第1および第2の2つの処理モードを有する。
The registration directory 113 is a knowledge DB 13
This is a storage area for outputting the document content to be registered in 1. The above-mentioned registration file in which the attribute information and the text data extracted from each document file by the Web collection module 111 are described is output here. Web
The collection module 111 has two first and second processing modes for extracting text data.

【0026】第1処理モードでは、全てのファイル形式
の文書ファイルを対象に解析処理を行ってテキストデー
タの抽出、さらにはリンク情報(URL)の検出が行わ
れる(URLの検出はHTMLファイルのみが対象)。
第2処理モードでは、HTMLファイルとテキストファ
イル(PlainText)のみを対象に解析処理を行ってテキ
ストデータの抽出、さらにはリンク情報(URL)の検
出が行われ(URLの検出はHTMLファイルのみが対
象)、例えばPortable Document Format等の他のファイ
ル形式の文書ファイル(以下、コンテンツファイルとい
う)に対しては解析処理は行われない。
In the first processing mode, analysis processing is performed on document files of all file formats to extract text data, and link information (URL) is detected (URL is detected only in HTML files. Target).
In the second processing mode, only the HTML file and the text file (PlainText) are analyzed to extract the text data and further the link information (URL) is detected (URL is detected only in the HTML file. ), For example, the analysis process is not performed on a document file of another file format such as Portable Document Format (hereinafter referred to as a content file).

【0027】第2処理モードを使用した場合、HTML
とPlainTextについては、そのテキストデータ
と属性情報が登録ファイル上に記述されて登録ディレク
トリ113上に出力される。一方、Portable Document
Formatなど他の形式のファイルについてはそのコンテン
ツファイルがそのまま登録ディレクトリ113上に出力
され、登録ファイル上には当該ファイルの属性情報とコ
ンテンツファイルのパス名が記述される。なお、第2処
理モードにおいては、リンク情報の検出のための解析処
理が必要なファイルを対象にその解析処理の中でテキス
トデータの抽出も併せて実行するという点が肝要である
ので、HTMLファイルのみを対象にテキストデータの
抽出を行うようにしても良い。
When the second processing mode is used, HTML
With regard to PlainText, the text data and attribute information are described in the registration file and output to the registration directory 113. On the other hand, Portable Document
For files of other formats such as Format, the content file is output as it is to the registration directory 113, and the attribute information of the file and the path name of the content file are described on the registration file. In addition, in the second processing mode, it is important to perform the extraction of the text data in the analysis process for the file that needs the analysis process for detecting the link information. You may make it extract text data only for a target.

【0028】第1および第2のどちらの処理モードにお
いても、Web収集モジュール111は実行中のWeb
収集タスクの処理が完了した時に、登録モジュール12
に対して登録要求ファイルを発行して文書の登録を登録
モジュール12に要求する。登録要求ファイルには、登
録ファイルのファイル名、登録先の知識データベース名
などが記述されている。
In both of the first and second processing modes, the Web collection module 111 executes the Web being executed.
When the processing of the collection task is completed, the registration module 12
To request the registration module 12 to register the document. In the registration request file, the file name of the registration file, the knowledge database name of the registration destination, etc. are described.

【0029】登録モジュール12は、Web収集モジュ
ール111によって収集された各文書ファイルの属性情
報およびテキストデータを知識DB131に登録する。
すなわち、登録モジュール12は、Web収集モジュー
ル111からの登録要求に応答して該当する登録ファイ
ルを取得し、その登録ファイル上に文書ファイル毎に記
述されている属性情報およびテキストデータを取り出し
て、知識DB131の登録先知識データベースに登録す
る。また、この登録モジュール12はテキストデータの
抽出機能も有しており、登録ファイルにコンテンツファ
イルのパス名が記述されている場合は、登録モジュール
12は、そのパス名で指定されるコンテンツファイルか
らテキストデータを抽出して知識DB131の該当する
登録先知識データベースに登録する。
The registration module 12 registers the attribute information and text data of each document file collected by the Web collection module 111 in the knowledge DB 131.
That is, the registration module 12 acquires the corresponding registration file in response to the registration request from the Web collection module 111, extracts the attribute information and text data described for each document file on the registration file, and acquires the knowledge. It is registered in the registration destination knowledge database of the DB 131. The registration module 12 also has a text data extraction function, and if the path name of the content file is described in the registration file, the registration module 12 will use the text from the content file specified by the path name. The data is extracted and registered in the relevant registration destination knowledge database of the knowledge DB 131.

【0030】さらに、登録モジュール12は、Web収
集モジュール111以外の他の収集モジュールによって
収集された文書の登録処理も実行する。他の収集モジュ
ールとしては、例えば、電子ファイリングシステムのフ
ァイルサーバから文書情報を収集するファイル収集モジ
ュール、RDBデータベースサーバからそこに管理され
ている文書情報を収集するRDB収集モジュール、電子
掲示板形式のコミュニティからそこに投稿された文書情
報を収集するコミュニティ収集モジュール、ユーザが任
意の各種アプリケーションプログラムの文書ファイルを
登録ファイル(XML)の出力形式に変換するために使
用するユーザ収集モジュール等がある。登録モジュール
12はこれら各収集モジュールによって共通に利用され
る。どの収集モジュールについても、登録モジュール1
2に対するインターフェースとしては上述のXML形式
の登録ファイルが用いられる。
Further, the registration module 12 also executes the registration process of the documents collected by the collection modules other than the Web collection module 111. Other collection modules include, for example, a file collection module that collects document information from a file server of an electronic filing system, an RDB collection module that collects document information managed by the RDB database server, and an electronic bulletin board format community. There are a community collection module that collects the document information posted therein, a user collection module that the user uses to convert the document files of various application programs into the output format of the registration file (XML), and the like. The registration module 12 is commonly used by each of these collection modules. Registration module 1 for all collection modules
The above-mentioned XML-formatted registration file is used as an interface for 2.

【0031】知識エンジン13は、知識DB131に蓄
積された情報を活用するための知識分析処理を行う。こ
の知識分析処理では、知識DB131に蓄積された大量
の文書情報それぞれの特徴を分析して重要語を抽出する
処理や、それら文書情報を特徴別に複数のカテゴリに分
類および整理するクラスタリング処理などが行われる。
この知識エンジン13には自然言語検索を行うための知
識エンジン132が設けられており、各ユーザはそのユ
ーザ端末のWebブラウザ41からWebサーバ42を
通じて知識エンジン132をアクセスすることにより、
Webブラウザ41上から知識DB131に蓄積された
知識の検索を行うことが出来る。知識DB131に蓄積
された各文書の属性情報にはその文書のURLも含まれ
ているので、そのオリジナル文書を該当する情報サイト
から取得してWebブラウザ41上に表示することが出
来る。なお、検索処理は、ある知識データベース名を選
択してその選択した知識データベースのみを対象に行っ
たり、あるいは知識DB131内の全ての知識データベ
ースを対象に行うことが出来る。
The knowledge engine 13 performs a knowledge analysis process for utilizing the information accumulated in the knowledge DB 131. In this knowledge analysis process, a process of analyzing a feature of each of a large amount of document information accumulated in the knowledge DB 131 and extracting an important word, a clustering process of classifying and organizing the document information into a plurality of categories according to the feature, and the like are performed. Be seen.
The knowledge engine 13 is provided with a knowledge engine 132 for performing a natural language search, and each user accesses the knowledge engine 132 from the web browser 41 of the user terminal through the web server 42.
The knowledge accumulated in the knowledge DB 131 can be searched from the Web browser 41. Since the attribute information of each document stored in the knowledge DB 131 also includes the URL of the document, the original document can be acquired from the corresponding information site and displayed on the Web browser 41. The search process can be performed by selecting a certain knowledge database name and targeting only the selected knowledge database, or by targeting all knowledge databases in the knowledge DB 131.

【0032】次に、図2を参照して、Web収集モジュ
ール111の機能構成について説明する。Web収集モ
ジュール111は、図示のように、収集制御部301、
属性抽出部302、テキスト抽出部303、およびフォ
ーマット変換部304を有している。収集制御部301
は、設定ファイル203に保持されている全ての設定情
報それぞれについて、その設定情報で指定されたWeb
収集タスクを順番に一つずつ実行する。各Web収集タ
スク毎に設定情報で指定された起点URLを起点とし
て、インターネット/イントラネット30から関連する
文書ファイル群を順次収集する。取得した文書ファイル
に含まれるリンク先文書へのURLはURLリスト30
5に追加されて行き、URLリスト305からURLを
取得しながらが収集処理が再帰的に実行される。URL
リスト305としては、上述の結果ファイル204を用
いることが出来る。収集範囲は設定ファイル203に保
持されている収集条件によって制限される。
Next, the functional configuration of the Web collection module 111 will be described with reference to FIG. The web collection module 111 includes a collection control unit 301,
It has an attribute extraction unit 302, a text extraction unit 303, and a format conversion unit 304. Collection control unit 301
For each of all the setting information held in the setting file 203, the Web specified by the setting information
Run collection tasks one at a time. A group of related document files is sequentially collected from the Internet / Intranet 30 starting from the starting point URL designated by the setting information for each Web collecting task. The URL to the linked document included in the acquired document file is the URL list 30
5, the collection processing is recursively executed while acquiring URLs from the URL list 305. URL
The result file 204 described above can be used as the list 305. The collection range is limited by the collection conditions held in the setting file 203.

【0033】収集された各文書ファイルはまず属性抽出
部302に送られ、そこで各文書ファイルの属性情報が
取得される。次いで、テキスト抽出部303にて文書の
解析処理が行われ、知識DB131に登録すべきテキス
トデータと、次に取得すべきリンク先URLの抽出が行
われる。例えば、HTMLファイルに対しては、テキス
トデータの抽出は、HTMLのタグ以外の部分を抜き出
すことによって行う。抽出されたテキストはタイトルと
ボディ(本文)とに分けられる。リンク先URLの取得
は、Aタグ、AREFタグのHREFの値、FRAMEタグ、IFRAMEタ
グ、LAYERタグのSRCの値、METAタグのREFRESHの値を取
得することによって行われる。上述の第2の処理モード
で動作する場合には、テキスト抽出部303の処理はH
TMLファイルとテキストファイルに対してのみ行わ
れ、Portable Document Format等の他のファイル形式の
文書ファイルに対しては行われない。
Each collected document file is first sent to the attribute extraction unit 302, where the attribute information of each document file is acquired. Next, the text extraction unit 303 analyzes the document and extracts the text data to be registered in the knowledge DB 131 and the link destination URL to be acquired next. For example, for an HTML file, extraction of text data is performed by extracting a portion other than the HTML tag. The extracted text is divided into a title and a body (body). The link destination URL is acquired by acquiring the HREF value of the A tag and the AREF tag, the SRC value of the FRAME tag, the IFRAME tag, the LAYER tag, and the REFRESH value of the META tag. When operating in the above-described second processing mode, the processing of the text extracting unit 303 is H
This is done only for TML files and text files, not for document files of other file formats such as Portable Document Format.

【0034】各文書ファイルから取得された属性情報と
テキストデータはフォーマット変換部304に送られ、
そこでXMLの登録ファイルの記述形式に従う出力フォ
ーマットに整形されて登録ディレクトリ113上に出力
される。一つの登録ファイルには、例えば1000個程
度の文書ファイルについての属性情報およびテキストデ
ータが記述される。テキスト抽出が行われなかった文書
ファイルについては属性情報とパス名が登録ファイル上
に記述される。
The attribute information and text data acquired from each document file are sent to the format conversion unit 304,
Then, it is formatted into an output format according to the description format of the XML registration file and is output on the registration directory 113. In one registration file, for example, attribute information and text data for about 1000 document files are described. The attribute information and path name of the document file for which the text extraction has not been performed are described in the registration file.

【0035】以上の処理は、再収集によって収集された
各文書ファイルに対しても同様に行われる。
The above processing is similarly performed for each document file collected by recollection.

【0036】次に、図3および図4を参照して、登録フ
ァイルの出力フォーマットの例を説明する。
Next, an example of the output format of the registration file will be described with reference to FIGS. 3 and 4.

【0037】図3は、テキスト抽出部303にてテキス
ト抽出を行う場合の出力フォーマットの例を示してい
る。ファイルの先頭のタグ<?xml version="1.0" encod
ing="Shift_JIS"?>、<KnowledgeSystem>はファイル
の始まりを示し、また末尾のタグ</KnowledgeSystem>
はファイルの終わりを示している。
FIG. 3 shows an example of an output format when the text extraction unit 303 extracts text. Tag at the beginning of the file <? Xml version = "1.0" encod
ing = "Shift_JIS"?>, <KnowledgeSystem> indicates the beginning of the file, and the end tag </ KnowledgeSystem>
Indicates the end of the file.

【0038】<RECORD>と</RECORD>で囲まれた各レ
コード内に、1つの文書ファイルの属性情報とテキスト
データが記述される。各レコード内のタグの意味は次の
通りである。
Attribute information and text data of one document file are described in each record enclosed by <RECORD> and </ RECORD>. The meaning of the tag in each record is as follows.

【0039】MODE :登録モジュール12の動作モード
を指定するモード情報である。このモード情報は、各文
書ファイル毎に知識DB131に対する文書情報(テキ
ストデータおよび属性)の登録または削除を指示する。
2=登録(上書き)か、0=削除、のいずれかとなる。削除
の場合は、下記のタグのうち、TYPEとUNIQUE以外は出力
されない。
MODE: Mode information for designating the operation mode of the registration module 12. This mode information instructs registration or deletion of document information (text data and attributes) in the knowledge DB 131 for each document file.
Either 2 = registration (overwrite) or 0 = delete. In case of deletion, only TYPE and UNIQUE of the following tags are output.

【0040】TYPE :収集のタイプを示す。本例では常
に“Web収集”となる。 UNIQUE :知識DB131に登録される当該文書ファイ
ルを識別するためのユニークキーである。通常は、当該
文書のURLがユニークキーとして用いられる。
TYPE: Indicates the type of collection. In this example, it is always "Web collection". UNIQUE: A unique key for identifying the document file registered in the knowledge DB 131. Usually, the URL of the document is used as a unique key.

【0041】ORGDATE :文書ファイルの作成日時(ま
たは更新日時)を示す。 TITLE :文書ファイルのタイトルを示す。HTMLフ
ァイルのタイトル部から抽出されたテキストデータがタ
イトルとなる。HTMLファイル以外のファイルについ
てはタイトルは出力されない。このタイトルは、検索画
面上に表示される各文書ファイルのタイトルとして使用
される。
ORGDATE: Indicates the creation date (or update date) of the document file. TITLE: Indicates the title of the document file. The text data extracted from the title part of the HTML file becomes the title. No title is output for files other than HTML files. This title is used as the title of each document file displayed on the search screen.

【0042】AUTHOR :文書ファイルを所有する情報サ
イトのホスト名(URLのホストアドレス)を記述す
る。 DATE :上記ORGDATEの日付部分を記述する。 URL :文書ファイルのURL。UNIQUEと同じ値であ
る。 BODY :文書ファイルから抽出されたテキストデータが
記述される。
AUTHOR: Describe the host name (URL host address) of the information site that owns the document file. DATE: Describe the date part of ORGDATE above. URL: URL of the document file. It has the same value as UNIQUE. BODY: The text data extracted from the document file is described.

【0043】図4は、テキスト抽出部303にてテキス
ト抽出を行わなかった文書ファイルに関する出力フォー
マットの例を示している。
FIG. 4 shows an example of an output format relating to a document file in which the text extraction unit 303 has not performed text extraction.

【0044】BODYにはテキストデータは記述されず、<
BDYFILE></BDYFILE>で囲まれた領域のPATH1に、登録
ディレクトリ113上に出力される上記コンテンツファ
イルへのパス名が記述される。DEL=1は、登録モジュー
ル12に対してコンテンツファイルからのテキストデー
タの抽出後に登録ディレクトリ113上の元ファイルを
削除することを指示するものである。Web収集モジュ
ール111が第2処理モードで動作する場合には、HT
MLファイルとプレーンテキストについてはBODYにはテ
キストデータが記述され、他のファイル形式の文書ファ
イル(コンテンツファイル)についてはBDYFILEにその
コンテンツファイルのパス名が記述されることになる。
No text data is described in BODY.
In PATH1 in the area enclosed by BDYFILE></BDYFILE>, the path name to the content file output on the registration directory 113 is described. DEL = 1 instructs the registration module 12 to delete the original file in the registration directory 113 after extracting the text data from the content file. If the Web collection module 111 operates in the second processing mode, the HT
Text data is described in BODY for the ML file and plain text, and the path name of the content file is described in BDYFILE for document files (content files) of other file formats.

【0045】次に、図5のフローチャートを参照して、
収集した文書ファイルに対してWeb収集モジュール1
11内で実行される一連の処理の手順について説明す
る。
Next, referring to the flowchart of FIG.
Web collection module 1 for collected document files
A procedure of a series of processing executed in 11 will be described.

【0046】まず、収集した文書ファイルから知識DB
131に登録すべき属性情報(URL、AUTHOR、ORGDATE、
DATE)が取得される(ステップS101)。属性情報の
取得は、HTTPによって情報サイトから返される値
や、収集した文書ファイル内に付加されている値などを
用いる事が出来る。この後、第2処理モードにおいて
は、収集した文書ファイルの拡張子などに基づいてその
ファイル種別が判定され、HTMLファイルまたはプレ
ーンテキストファイルであるか、あるいはそれ以外の他
のファイル形式のファイルであるかが判別される(ステ
ップS102,S103)。収集した文書ファイルがH
TMLファイルまたはプレーンテキストファイルである
場合には(ステップS103のYES)、上述のテキス
ト抽出処理(HTMLファイルの場合はテキスト抽出と
リンクURLの検出)が実行され(ステップS10
4)、そして属性情報とテキストデータを上述の形式で
登録ファイル上に記述する処理(テキストデータをBODY
に挿入)が行われる(ステップS105)。一方、HT
MLファイルまたはプレーンテキストファイル以外の他
のファイル形式のファイルであれば(ステップS103
のNO)、当該ファイルが登録ディレクトリ113上に
そのまま出力され(ステップS106)、その後、属性
情報と当該ファイルのパス名を登録ファイル上に記述す
る処理(パス名をBDYFILEに記述)が行われる(ステッ
プS107)。
First, from the collected document files, the knowledge DB
Attribute information to be registered in 131 (URL, AUTHOR, ORGDATE,
DATE) is acquired (step S101). The attribute information can be acquired by using the value returned from the information site by HTTP, the value added in the collected document file, or the like. After that, in the second processing mode, the file type is determined based on the extension of the collected document file, and the file is an HTML file, a plain text file, or a file of another file format other than that. Is determined (steps S102 and S103). The collected document file is H
If the file is a TML file or a plain text file (YES in step S103), the above-mentioned text extraction processing (text extraction and link URL detection in the case of an HTML file) is executed (step S10).
4), and processing to describe the attribute information and text data in the above-mentioned format on the registration file (text data is BODY
Is inserted) (step S105). On the other hand, HT
If the file has a file format other than the ML file or the plain text file (step S103)
No), the file is directly output to the registration directory 113 (step S106), and then the attribute information and the path name of the file are described in the registration file (the path name is described in BDYFILE) ( Step S107).

【0047】なお、目的のURLの文書ファイルがイン
ターネット/イントラネット30上から取得できなかっ
た場合には、当該文書ファイルの内容が既に知識DB1
31に登録されていることを条件に、モード情報(MOD
E)=0(削除)が登録ファイル上に記述される。
If the document file of the target URL cannot be acquired from the Internet / Intranet 30, the content of the document file is already in the knowledge DB1.
Mode information (MOD
E) = 0 (delete) is described in the registration file.

【0048】また、第1処理モードにおいては、ステッ
プS102,S103の処理は行われず、全ての取得フ
ァイルを対象にステップS104,S105の処理が実
行される。
Further, in the first processing mode, the processes of steps S102 and S103 are not performed, and the processes of steps S104 and S105 are executed for all the acquired files.

【0049】次に、図6のフローチャートを参照して、
登録モジュール12によって実行される登録処理の手順
を説明する。
Next, referring to the flowchart of FIG.
The procedure of the registration process executed by the registration module 12 will be described.

【0050】Web収集モジュール111から登録要求
を受けた登録モジュール12は、Web収集モジュール
111からの登録要求ファイルで指定された登録ファイ
ル(XMLファイル)を登録ディレクトリ113から取
得し、そしてその登録ファイルから1つずつレコードを
取り出しながら、レコード毎に以下の処理を行う。ま
ず、処理対象レコード内のモード情報がMODE=0である
かMODE=2であるかが調べられる(ステップS111,
S112)。
Upon receiving the registration request from the Web collection module 111, the registration module 12 acquires the registration file (XML file) specified by the registration request file from the Web collection module 111 from the registration directory 113, and from the registration file. While fetching records one by one, the following processing is performed for each record. First, it is checked whether the mode information in the record to be processed is MODE = 0 or MODE = 2 (step S111,
S112).

【0051】MODE=2の場合は、登録モジュール12
は、レコード内の各タグに従って、そのタグ内に記述さ
れたデータ項目(TYPE、UNIQUE、ORGDATE、TITLE、AUTH
OR、DATE、URL、BODYそれぞれの内容)を、登録要求フ
ァイルで指定された知識DB131内の登録先知識デー
タベースに登録する(ステップS113)。BODYのタグ
内にテキストデータが存在しない場合には、そのテキス
トデータの登録は行われない。次いで、BDYFILEのタグ
内にパス名が記述されているかどうかが判定される(ス
テップS114)。パス名が記述されている場合には
(ステップS114のYES)、そのパス名で指定され
る記憶領域から該当するコンテンツファイルが取得され
(ステップS115)、そのコンテンツファイルからテ
キストデータを抽出する処理が行われる(ステップS1
16)。そして、その抽出された内容が該当する文書フ
ァイルのテキストデータとして登録先知識データベース
に登録される(ステップS117)。
When MODE = 2, the registration module 12
Is the data item (TYPE, UNIQUE, ORGDATE, TITLE, AUTH) described in each tag according to each tag in the record.
The contents of OR, DATE, URL, and BODY) are registered in the registration destination knowledge database in the knowledge DB 131 specified by the registration request file (step S113). If the text data does not exist in the BODY tag, the text data will not be registered. Then, it is judged whether or not the path name is described in the tag of BDYFILE (step S114). If the path name is described (YES in step S114), the corresponding content file is acquired from the storage area specified by the path name (step S115), and the process of extracting text data from the content file is executed. Performed (step S1
16). Then, the extracted contents are registered in the registration destination knowledge database as text data of the corresponding document file (step S117).

【0052】MODE=0の場合は、レコード内のUNIQUEで
指定される登録済みの文書ファイルの属性情報とテキス
トデータが知識DB131からサーチされ、その登録内
容が登録先知識データベースから削除される(ステップ
S118)。
When MODE = 0, the attribute information and text data of the registered document file designated by UNIQUE in the record are searched from the knowledge DB 131, and the registered content is deleted from the registration destination knowledge database (step S118).

【0053】図7には、インターネット/イントラネッ
ト30上における文書ファイル(Webコンテンツ)の
状態と知識DB131に対して行うべき登録/削除処理
との関係が示されている。本実施形態においては、出来
る限りインターネット/イントラネット30上における
最新のWebコンテンツの状態を知識DB131に反映
させるというポリシーに基づき、以下の処理が行われ
る。
FIG. 7 shows the relationship between the state of the document file (Web content) on the Internet / Intranet 30 and the registration / deletion process to be performed on the knowledge DB 131. In the present embodiment, the following processing is performed based on the policy of reflecting the state of the latest Web content on the Internet / Intranet 30 in the knowledge DB 131 as much as possible.

【0054】(1)更新されたWebコンテンツは、知
識DB131に上書きする(MODE=2)。更新されたW
ebコンテンツの属性情報およびテキストデータを登録
する場合、そのUNIQUEは、知識DB131に既に登録さ
れている更新前のWebコンテンツのUNIQUEと同一であ
る。よって、MODE=2により、知識DB131に既に登
録されている更新前のWebコンテンツの属性情報およ
びテキストデータが、更新されたWebコンテンツの属
性情報およびテキストデータに更新(上書き)される。
(1) The updated Web content is overwritten on the knowledge DB 131 (MODE = 2). Updated W
When registering the attribute information and text data of the eb content, the UNIQUE is the same as the UNIQUE of the pre-update Web content already registered in the knowledge DB 131. Therefore, MODE = 2 updates (overwrites) the attribute information and text data of the pre-update Web content already registered in the knowledge DB 131 with the updated Web content attribute information and text data.

【0055】(2)追加されたWebコンテンツは、知
識DB131に追加登録する(MODE=2)。追加された
Webコンテンツの属性情報およびテキストデータを登
録する場合、そのUNIQUEは、知識DB131に未登録で
ある。よって、MODE=2により、追加されたWebコン
テンツの属性情報およびテキストデータを知識DB13
1に追加登録することが出来る。
(2) The added Web contents are additionally registered in the knowledge DB 131 (MODE = 2). When registering the attribute information and text data of the added Web content, the UNIQUE is not registered in the knowledge DB 131. Therefore, by setting MODE = 2, the attribute information and text data of the added Web contents are stored in the knowledge DB 13.
You can additionally register to 1.

【0056】(3)削除されたWebコンテンツは、知
識DB131からも削除する(MODE=0)。
(3) The deleted Web contents are also deleted from the knowledge DB 131 (MODE = 0).

【0057】次に、管理インターフェース112によっ
て提供される機能を具体的に説明する。管理インターフ
ェース112は上述のようにWeb収集タスクの設定・
管理・実行を行うためのユーザインタフェースであり、
1)Web収集タスクの設定を複数個作成して設定ファ
イル204に保存する機能、2)収集の設定の一覧表
示、削除、などの管理作業を行う機能、3)収集の起動
と終了(中断と再開)を行う機能、4)収集の状況や実
績をリアルタイムに確認する機能、を管理者ユーザに提
供する。
Next, the functions provided by the management interface 112 will be specifically described. As described above, the management interface 112 sets the Web collection task settings /
It is a user interface for managing and executing,
1) A function of creating a plurality of settings of a Web collection task and saving them in the setting file 204. 2) A function of performing management work such as displaying a list of collection settings and deleting. 3) Starting and ending collection (interruption and interruption). It provides the administrator user with the function of resuming 4) and the function of 4) checking the collection status and results in real time.

【0058】管理インターフェース112によって管理
者ユーザのWebブラウザ21に表示される画面は、図
8に示すように、「一覧画面」、「設定画面」、「状況
画面」の3つの画面より構成され、管理インターフェー
ス112を起動すると、一覧画面が最初に表示される。
3つの画面は各画面上で管理者ユーザによって行われる
操作に応じて遷移する。一覧画面には、現在作成されて
いる設定の一覧と各設定の最新の収集結果が表示され
る。この一覧画面上で、例えば、作成済みの設定を選択
してその選択した設定に関する設定画面または状況画面
に遷移した場合には、設定画面上では当該設定内容の追
加/削除等を行うことが出来、また状況画面上では当該
設定に関する起動と終了(中断と再開)の指定などを行
うことが出来る。また、一覧画面上で、設定の新規作成
を選択すると設定画面に遷移し、その設定画面上で設定
の新規作成のための処理を行うことが出来る。以下、一
覧画面、設定画面、状況画面それぞれについて具体的に
説明する。
The screen displayed on the Web browser 21 of the administrator user by the management interface 112 is composed of three screens of "list screen", "setting screen" and "status screen" as shown in FIG. When the management interface 112 is activated, the list screen is first displayed.
The three screens transit according to the operation performed by the administrator user on each screen. The list screen displays a list of currently created settings and the latest collection result of each setting. On this list screen, for example, if you select a created setting and transition to the setting screen or status screen related to the selected setting, you can add / delete the setting contents on the setting screen. Also, on the status screen, it is possible to specify the start and end (suspend and restart) of the setting. Also, when a new setting creation is selected on the list screen, a transition is made to the setting screen, and processing for new setting creation can be performed on the setting screen. The list screen, the setting screen, and the status screen will be specifically described below.

【0059】図9には、一覧画面の例が示されている。
この一覧画面上には、図示のように、「一覧」アンカ5
01、「設定アンカ」502、「状況」アンカ503が
表示される。これら「一覧」アンカ501、「設定アン
カ」502、「状況」アンカ503は、それぞれ一覧画
面、設定画面、状況画面それぞれに対するリンクであ
る。一覧画面上で「一覧」アンカ501がクリックされ
ると、一覧画面の表示内容が最新状態に更新される。さ
らに、一覧画面上には、「新規設定」フィールド50
4、「作成」ボタン505、および状態一覧表示部50
6が設けられている。新規作成すべきWeb収集タスク
の設定名を「新規設定」フィールド504に入力して、
「作成」ボタン505をクリックすると、設定画面に遷
移してその設定名に関する設定情報を新規作成する事が
出来る。
FIG. 9 shows an example of the list screen.
On this list screen, as shown in the figure, "List" anchor 5
01, “Setting anchor” 502, and “Status” anchor 503 are displayed. These “list” anchor 501, “setting anchor” 502, and “status” anchor 503 are links to the list screen, setting screen, and status screen, respectively. When the “list” anchor 501 is clicked on the list screen, the display content of the list screen is updated to the latest state. Further, on the list screen, the "new setting" field 50
4, "Create" button 505, and status list display section 50
6 is provided. Enter the setting name of the Web collection task to be newly created in the "New setting" field 504,
When the “Create” button 505 is clicked, the setting screen is displayed and setting information regarding the setting name can be newly created.

【0060】状態一覧表示部506には、上述の結果フ
ァイル204に保持されている内容等に基づき、既に作
成・登録済みのWeb収集タスクそれぞれについての収
集状況が一覧表示される。Web収集タスク毎に以下の
項目が表示される。
The status list display unit 506 displays a list of collection statuses for each of the Web collection tasks that have already been created / registered, based on the contents held in the result file 204 described above. The following items are displayed for each Web collection task.

【0061】「設定名」:登録してある設定の名称 「知識データベース名」:収集したデータを登録するデ
ータベース名 「状態」:設定の現在の状態(未収集/収集中/終了/中
断/異常終了のいずれか) 「開始」:最後に起動した日時 「終了」:最後に終了した日時 「ファイル」:前回のタスク実行で収集したファイル数
(今回)と、これまでに実行した中で収集されたファイル
の総数の最大値(全体) このように、本実施形態においては、複数のWeb収集
タスクを設定することが出来、しかもそれら複数のWe
b収集タスクそれぞれの収集状況を一覧画面上で確認す
ることが出来る。
"Setting name": Name of registered setting "Knowledge database name": Database name for registering collected data "Status": Current status of setting (uncollected / collecting / finished / interrupted / abnormal) Either end) "Start": Date and time of last start "End": Date and time of last end "File": Number of files collected by the previous task execution
(This time) and the maximum value of the total number of files collected so far (whole) As described above, in this embodiment, a plurality of Web collection tasks can be set, and moreover, a plurality of Web collection tasks can be set. We
b Collection status of each collection task can be confirmed on the list screen.

【0062】次に、図10を参照して、設定画面の例に
ついて説明する。設定画面上には、図示のように、上述
の「一覧」アンカ501、「設定アンカ」502、「状
況」アンカ503の他、「設定名」フィールド601、
「知識データベース名」フィールド602、「プロキシ
サーバ」設定フォーム603、「収集ファイル形式」設
定フォーム604、「取得要求」設定フォーム605、
「認証情報」設定フォーム606、および「収集サイ
ト」設定フォーム607等が設けられており、これらを
用いて以下の設定編集操作を行うことが出来る。
Next, an example of the setting screen will be described with reference to FIG. On the setting screen, as shown in the figure, in addition to the “list” anchor 501, the “setting anchor” 502, the “status” anchor 503, a “setting name” field 601,
“Knowledge database name” field 602, “proxy server” setting form 603, “collection file format” setting form 604, “acquisition request” setting form 605,
An “authentication information” setting form 606, a “collection site” setting form 607, and the like are provided, and the following setting editing operations can be performed using these.

【0063】(1)設定名: 「設定名」フィールド6
01には一覧画面にて新規設定の作成または既存の設定
の選択により指定された設定名が表示される。 (2)DB選択: 「知識データベース名」フィールド
602に知識データベース名を入力することにより、収
集したデータを登録する登録先知識データベースを選択
する。
(1) Setting name: "Setting name" field 6
In 01, the setting name designated by creating a new setting or selecting an existing setting on the list screen is displayed. (2) DB selection: By inputting the knowledge database name in the “knowledge database name” field 602, the registration destination knowledge database for registering the collected data is selected.

【0064】(3)プロキシ: 「プロキシサーバ」設
定フォーム603を用いて、収集に使用するプロキシサ
ーバの設定を行う。 (4)収集するファイル形式: 「収集ファイル形式」
設定フォーム604上で収集対象のファイル形式を選択
する。HTMLおよびTEXTファイルはデフォルトで
選択されており、この他、Portable Document Format,
その他の様々なファイル形式を収集対象として選択する
ことが出来る。
(3) Proxy: The "proxy server" setting form 603 is used to set the proxy server used for collection. (4) File format to collect: “Collecting file format”
A file format to be collected is selected on the setting form 604. HTML and TEXT files are selected by default. In addition, Portable Document Format,
Various other file formats can be selected for collection.

【0065】(5)取得要求: 「取得要求」設定フォ
ーム605上でURL取得時のタイムアウト時間、リト
ライ回数を指定する。 (6)認証情報: 「認証情報」設定フォーム606上
で、ユーザ認証が必要なURLをアクセスするときに必
要な認証情報を設定する。
(5) Acquisition request: Specify the timeout time and the number of retries for URL acquisition on the "acquisition request" setting form 605. (6) Authentication Information: On the “authentication information” setting form 606, the authentication information required when accessing a URL that requires user authentication is set.

【0066】(7)収集サイト: 「収集サイト」設定
フォーム607上では以下の項目の設定を行う。
(7) Collection site: The following items are set on the "collection site" setting form 607.

【0067】・起点URLの設定 ・リンク段数の上限設定: 収集する起点URLからの
最大リンク段数を指定する。 ・ファイル数の上限設定: 収集する最大ファイル数を
指定する。 ・再収集の設定: 設定対象の収集タスクが同じ起点U
RLからの再収集を行った時の振る舞いを指定する。再
収集には3つの再収集モード(「全てのファイルを新た
に収集」、「未収集のファイルのみ収集」、「更新され
たファイルのみ収集(削除機能あり)」)があり、Web
収集タスク毎に任意の一つの再収集モードを指定する事
が出来る。各再収集モードの意味は次の通りである。
Setting of starting URL-Upper limit setting of the number of link stages: Designate the maximum number of link stages from the starting URL to be collected. -Upper limit setting of the number of files: Specify the maximum number of files to be collected. -Re-collection setting: Origin U for the same collection task to be set
Specify the behavior when recollecting from RL. There are three recollection modes for recollection (“collect all files newly”, “collect only uncollected files”, “collect updated files (with delete function)”)
Any one recollection mode can be specified for each collection task. The meaning of each recollection mode is as follows.

【0068】1)再収集モード1: 「全てのファイル
を新たに収集」 「全てのファイルを新たに収集」モードとは、収集対象
のURLを全て再収集するモードを意味する。即ち、以
前に収集したかどうかにかかわらず、起点URLから全
ての文書ファイルを新たに収集しなおす。
1) Recollection mode 1: "collect all files newly" mode means "collect all URLs newly" mode. That is, all the document files are newly collected from the origin URL regardless of whether they have been collected before.

【0069】2)再収集モード2: 「未収集のファイ
ルのみ収集」 「未収集のファイルのみ収集」モードとは、以前収集し
たURLはそのリンク先も含めて収集せずに、起点UR
Lからの全ての文書ファイル群の内で以前の収集で未収
集の文書ファイルのみを収集するモードである。
2) Recollection mode 2: "collect only uncollected files""collect only uncollected files" mode means that the previously collected URLs are not collected including their link destinations and the starting point UR
This is a mode of collecting only the document files that have not been collected by the previous collection among all the document file groups from L.

【0070】3)再収集モード3: 「更新されたファ
イルのみ収集(削除機能あり)」 「更新されたファイルのみ収集(削除機能あり)」モード
は、以前の収集時点から更新された文書ファイルのみ収
集するモードである。更新の有無のチェック対象となる
文書は、以前の収集において、現在よりも指定日数以上
前に収集したURLである。「更新チェック頻度」フィ
ールドに入力された値が指定日数となる。指定日数のデ
フォルトは「1日」である。以前の収集において、現在
よりも指定日数以上前に収集したURLがインターネッ
ト/イントラネット30上の該当する情報サイトから削
除されており、当該URLから文書ファイルを取得でき
なかった場合には、その文書ファイルに対応する登録情
報は知識DB131から削除される。
3) Recollection mode 3: "collect only updated files (with delete function)""collect only updated files (include delete function)" mode only document files updated from the previous collection point It is a mode to collect. The document to be checked for the presence or absence of update is the URL collected in the previous collection more than the specified number of days before the current collection. The value entered in the "Update check frequency" field is the specified number of days. The default number of designated days is "1 day". In the previous collection, if the URL collected more than the specified number of days before the present is deleted from the corresponding information site on the Internet / Intranet 30 and the document file cannot be acquired from the URL, the document file The registration information corresponding to is deleted from the knowledge DB 131.

【0071】・収集範囲: 「ドメイン内のみ収集す
る」を指定すると、起点URLのドメイン内のみ収集を
行う。
Collection range: When "collect only in domain" is specified, collection is performed only in the domain of the origin URL.

【0072】・収集するURLのパターン: 収集対象
とすべきURLの文字列のパターンを指定する。収集し
ようとするURLの中で、指定された文字列のパターン
を含むURLのみが収集される。
URL pattern to be collected: The pattern of the character string of the URL to be collected is specified. Among the URLs to be collected, only URLs that include the specified character string pattern are collected.

【0073】・収集しないURLのパターン: 収集対
象から除外すべきURLの文字列のパターンを指定す
る。収集しようとするURLの中で、指定された文字列
のパターンを含むURLは収集されない。
URL pattern not to be collected: Designate a character string pattern of the URL that should be excluded from the collection target. Among the URLs to be collected, the URL including the specified character string pattern is not collected.

【0074】図11には、状況画面の例が示されてい
る。例えば、一覧画面または設定画面上で「状況」アン
カ503を選択することで、現在表示しているタスクの
状況画面に遷移する。この状況画面上には、当該タスク
の「設定名」、「知識データベース名」、「状態」等が
表示される。「設定名」の横には、収集開始/中止(再
開/中断)を指示するためのボタン701が表示されて
いる。「状態」には、タスクの状態(収集中/終了/未
収集/中断/異常終了)が表示され、さらに、当該タス
クの起点URL、収集したリンク段数(今回/最大/上
限)、およびファイル数(今回/全体/上限)等の状況情報
702も表示される。
FIG. 11 shows an example of the status screen. For example, selecting the “status” anchor 503 on the list screen or the setting screen causes a transition to the status screen of the currently displayed task. The "setting name", "knowledge database name", "state", etc. of the task are displayed on this status screen. Next to the “setting name”, a button 701 for instructing start / stop (restart / interrupt) of collection is displayed. In "Status", the status of the task (collecting / finished / not collected / suspended / abnormally terminated) is displayed, and further, the starting URL of the task, the number of link stages collected (current / maximum / upper limit), and the number of files The status information 702 such as (current / total / upper limit) is also displayed.

【0075】当該タスクの状態が未収集、終了、または
中断の場合には、図11に示すように、ボタン701に
は「収集開始」と表示される。「収集開始」ボタン70
1を選択すると、当該タスクの実行がWeb収集モジュ
ール111によって開始される。現在の状態が終了また
は中断の場合には、再収集が開始されることになる。ま
た、当該タスクの現在の状態が収集中である場合には、
図12に示すように、ボタン701には「収集中断」と
表示される。「収集中断」ボタン701を選択すると、
稼働中の収集タスクは中断される。中断される以前まで
に収集されたURLのリストは結果ファイル204内に
保持される。
When the status of the task is uncollected, ended, or suspended, the button 701 displays "collection started", as shown in FIG. "Start collection" button 70
When 1 is selected, the execution of the task is started by the web collection module 111. If the current state is ended or suspended, recollection will be started. If the current status of the task is being collected,
As shown in FIG. 12, the button 701 displays “collection interruption”. If you select the “Collect collection” button 701,
Collection tasks that are running are suspended. The list of URLs collected before the interruption is held in the results file 204.

【0076】次に、図13乃至図15を参照して、状況
画面上のボタン操作による収集処理の中断および再開
(再収集)動作について具体的に説明する。
Next, with reference to FIGS. 13 to 15, the operation of suspending and resuming (re-collecting) the collection process by operating the buttons on the status screen will be specifically described.

【0077】この中断・再開機能は、実行中のWeb収
集処理を一旦停止して、後日再開する様な場合に利用さ
れる機能である。Web収集モジュール111によるW
eb収集処理は、インターネット/イントラネット30
からの文書ファイルの取得を行う度にそのURLや成否
を示すステータスコード等を進捗状況(収集結果)情報
として結果ファイル204に書き込みながら実行され
る。取得した文書ファイルにリンク先のURLがあれば
そのURLが結果ファイル204に追加され、結果ファ
イル204に未収集のURLが無くなるまで、処理が繰
り返される。この収集処理の途中で「収集中断」ボタン
701が押されると、実行中のWeb収集タスクはその
時点で中断される。そして、後に、その中断されたWe
b収集タスクを選択した状態で「収集開始」ボタン70
1が押されると、中断されていたWeb収集タスクが再
開されて再収集が開始される。例えば、再収集モードと
して上述の「未収集のファイルのみ収集」モードが選択
されていた場合には、結果ファイル204に保持されて
いる未収集のURLから収集処理が再開されることにな
る。
The suspend / resume function is a function used when the Web collection processing in progress is temporarily stopped and restarted at a later date. W by Web collection module 111
The eb collection process is performed by the internet / intranet 30
Every time the document file is acquired from the URL, the URL, a status code indicating success or failure, and the like are written in the result file 204 as progress status (collection result) information. If the acquired document file has a URL of the link destination, the URL is added to the result file 204, and the process is repeated until there is no uncollected URL in the result file 204. If the "collection suspension" button 701 is pressed during this collection processing, the Web collection task in execution is suspended at that point. And later, the interrupted We
b Start Collect button 70 with the collect task selected
When 1 is pressed, the suspended Web collection task is restarted and recollection is started. For example, when the above-mentioned “collect only uncollected files” mode is selected as the recollection mode, the collection processing is restarted from the uncollected URL held in the result file 204.

【0078】図14には、結果ファイル204に進捗状
況情報として保持されるURLリストの例が示されてい
る。結果ファイル204には、図示のように、取得対象
のURL毎にその「URL」に加え、「収集日」、「収
集日時」、「ステータスコード」、「起点URL」、お
よび「リンク段数」が記録される。「リンク段数」は、
起点URLから見た場合の当該取得対象URLのリンク
の段数を示す。未収集のURLについては「収集日」、
「収集日時」、「ステータスコード」の情報は空欄とな
る。これにより、Web収集処理を途中で中断した場合
における再開ポイントを検出することができる。「ステ
ータスコード」は収集処理の成否を示すものであり、こ
れは、Webページの取得先となる相手先Webサーバ
から返されるHTTPステータスコードである。このH
TTPステータスコードの種類は次の通りである。
FIG. 14 shows an example of a URL list held as progress status information in the result file 204. As shown in the figure, in the result file 204, in addition to the “URL” of each URL to be acquired, “collection date”, “collection date and time”, “status code”, “starting URL”, and “number of link stages” are included. Will be recorded. "Number of links" is
Indicates the number of links in the acquisition target URL when viewed from the starting URL. "Collection date" for uncollected URLs
The information of “collection date and time” and “status code” are blank. This makes it possible to detect the restart point when the Web collection process is interrupted midway. The “status code” indicates the success or failure of the collection process, and this is the HTTP status code returned from the partner web server from which the web page is acquired. This H
The types of TTP status codes are as follows.

【0079】200: 正常終了、すなわちファイル取得
が成功したことを示す。 304: 未更新(条件付き取得要求へのレスポンス)で
ある。「更新されたファイルのみ収集」モードでは、こ
のステータスコードが返されたURLは取得しない。 403: アクセス権限によるエラーを示す。 404: 当該ファイルが見つからないことによるエラー
を示す。削除された文書ファイルの取得要求に対するレ
スポンスである。 408: タイムアウトエラー 図15のフローチャートには、Web収集が開始されて
から中断されるまでの一連の処理手順が示されている。
200: Indicates normal termination, that is, file acquisition has succeeded. 304: Not updated (response to conditional acquisition request). In the "collect only updated files" mode, the URL for which this status code is returned is not acquired. 403: Indicates an error due to access authority. 404: Indicates an error due to the file not being found. It is a response to the acquisition request of the deleted document file. 408: Timeout Error The flowchart of FIG. 15 shows a series of processing procedures from the start of Web collection to the interruption thereof.

【0080】Web収集モジュール111は、最初に起
点URLで指定される文書ファイルの取得を行い(ステ
ップS121)、その結果(収集日、収集日時、ステー
タスコード、起点URL、リンク段数、URL(起点U
RLと同じ)を結果ファイル204に登録して進捗状況
情報の更新を行う(ステップS122)。取得が成功し
た場合には、収集した文書ファイルから知識DB131
に登録すべき属性情報が取得され(ステップS12
2)、次いでテキスト抽出処理(HTMLファイルの場
合はテキスト抽出とリンク先URLの検出)が実行され
る(ステップS124)。リンク先URLが検出された
場合には、そのURLと、上述の起点URLおよびリン
ク段数が結果ファイル204のURLリストに追加登録
される(ステップS125)。この後、属性情報とテキ
ストデータを登録ファイル上に記述する処理が行われる
(ステップS126)。ここで、中断指示の有無が判定
される(ステップS127)。中断指示が無い場合には
(ステップS127のNO)、結果ファイル204に未
収集のURLが登録されているかどうかによってWeb
収集処理が完了したかどうかが判断される(ステップS
128)。
The Web collection module 111 first acquires the document file designated by the starting point URL (step S121), and as a result (collecting date, collecting date and time, status code, starting point URL, link stage number, URL (starting point U
The same as RL) is registered in the result file 204 to update the progress status information (step S122). If the acquisition is successful, the knowledge DB 131 is acquired from the collected document files.
The attribute information to be registered in is acquired (step S12
2) Next, text extraction processing (text extraction and detection of link destination URL in the case of HTML file) is executed (step S124). When the link destination URL is detected, the URL, the starting point URL, and the link stage number described above are additionally registered in the URL list of the result file 204 (step S125). After that, a process of describing the attribute information and the text data on the registration file is performed (step S126). Here, it is determined whether or not there is an interruption instruction (step S127). If there is no interruption instruction (NO in step S127), it is determined whether or not the uncollected URL is registered in the result file 204.
It is determined whether the collection process is completed (step S
128).

【0081】結果ファイル204に未収集のURLが登
録されている場合には(ステップS128のNO)、上
述のステップS121からの処理が繰り返される。すな
わち、結果ファイル204に追加されたURLで指定さ
れる文書ファイルの取得を行い(ステップS121)、
その結果(収集日、収集日時、ステータスコード)を結
果ファイル204に登録して進捗状況情報の更新を行う
(ステップS122)。取得が成功した場合には、収集
した文書ファイルから知識DB131に登録すべき属性
情報が取得され(ステップS122)、次いでテキスト
抽出処理(HTMLファイルの場合はテキスト抽出とリ
ンク先URLの検出)が実行される(ステップS12
4)。リンク先URLが検出された場合には、そのUR
Lと、起点URLおよびリンク段数が結果ファイル20
4のURLリストに追加登録される(ステップS12
5)。この後、属性情報とテキストデータを登録ファイ
ル上に記述する処理が行われる(ステップS126)。
If uncollected URLs are registered in the result file 204 (NO in step S128), the processes from step S121 described above are repeated. That is, the document file specified by the URL added to the result file 204 is acquired (step S121),
The result (collection date, collection date and time, status code) is registered in the result file 204 to update the progress status information (step S122). If the acquisition is successful, the attribute information to be registered in the knowledge DB 131 is acquired from the collected document file (step S122), and then the text extraction process (text extraction and detection of link destination URL in the case of HTML file) is executed. (Step S12
4). If the linked URL is detected, its UR
L, the starting URL and the number of links are the result file 20
4 is additionally registered in the URL list (step S12).
5). After that, a process of describing the attribute information and the text data on the registration file is performed (step S126).

【0082】ここで、中断指示の有無が判定される(ス
テップS127)。もし「収集中断」ボタン701が押
されたならば、制御ファイル202を通じて管理インタ
ーフェース112からWeb収集モジュール111に中
断指示が発行される。この場合(ステップS127のY
ES)、Web収集モジュール111によって実行中の
Web収集タスクが中断される。
Here, it is determined whether or not there is an interruption instruction (step S127). If the “collection suspension” button 701 is pressed, the management interface 112 issues a suspension instruction to the web collection module 111 through the control file 202. In this case (Y in step S127)
ES), the Web collection task being executed is interrupted by the Web collection module 111.

【0083】次に、図16乃至図19を参照して、再収
集処理の動作について説明する。再収集処理とは上述し
たように以前行った収集タスクを再度実行する場合の収
集処理を意味する。一旦中断したWeb収集処理タスク
を再開させた場合のWeb収集処理は再収集処理であ
り、また終了されたWeb収集処理タスクを次に実行さ
せる場合におけるWeb収集処理も再収集処理である。
これら再収集処理は、例えば、中断または終了されたW
eb収集タスクが選択された状態で上述の「収集開始」
ボタン701が押された場合に実行される。またWeb
収集モジュール111をオペレーティングシステムのタ
スク管理機能に登録することなどによってWeb収集モ
ジュール111を定期的に自動起動することもできるの
で、この場合には、中断または終了されたWeb収集タ
スクが自動実行されて再収集処理が開始されることにな
る。
Next, the operation of the recollection process will be described with reference to FIGS. 16 to 19. The recollection processing means the collection processing when the previously executed collection task is executed again as described above. The Web collection process when the suspended Web collection process task is restarted is a recollection process, and the Web collection process when the terminated Web collection process task is executed next is also a recollection process.
These recollection processes may be interrupted or terminated by the W
eb collection task is selected with the eb collection task selected
It is executed when the button 701 is pressed. Also on the Web
The Web collection module 111 can also be automatically started periodically by registering the collection module 111 with the task management function of the operating system. In this case, the interrupted or terminated Web collection task is automatically executed. The recollection process will be started.

【0084】図16のフローチャートに示すように、再
収集処理が開始されると、まず、そのWeb収集タスク
に関する再収集モードが設定ファイル203の設定情報
に基づいて判別される(ステップS131)。もし「全
てのファイルを新たに収集」モードであれば、当該We
b収集タスクに関する以前の結果ファイル204の内容
は破棄され、起点URLからの収集処理が開始される
(ステップS132)。この場合、これまで説明した通
常のWeb収集処理と同じ処理が実行されることにな
る。またもし「未収集のファイルのみ収集」モードであ
った場合には、既に収集済みの文書ファイルの収集は行
われず、未収集の文書ファイルのみの収集が行われる。
この場合、結果ファイル204に保持されている当該W
eb収集タスクに関する以前の収集結果の内容から再開
ポイントが検出されて、以前の収集処理で未収集のUR
Lからの収集処理が開始される(ステップS133)。
再収集処理の収集結果は、結果ファイル204上に保持
されている当該Web収集タスクに関する以前の収集結
果に追加されていく。またもし「更新されたファイルの
み収集(削除機能あり)」モードであった場合には、以前
の収集時点から更新された文書ファイルのみ収集が行わ
れる(ステップS134)。再収集処理の収集結果は、
結果ファイル204上に保持されている当該Web収集
タスクに関する以前の収集結果に追加されていく。
As shown in the flowchart of FIG. 16, when the recollection process is started, first, the recollection mode relating to the Web collection task is determined based on the setting information of the setting file 203 (step S131). If the mode is “collect all files newly”,
b The contents of the previous result file 204 regarding the collection task are discarded, and the collection processing from the starting point URL is started (step S132). In this case, the same processing as the normal Web collection processing described above is executed. If the mode is “collect only uncollected files”, the already collected document files are not collected, but only the uncollected document files are collected.
In this case, the W stored in the result file 204
The restart point is detected from the contents of the previous collection result related to the eb collection task, and the UR that has not been collected in the previous collection process is detected.
Collection processing from L is started (step S133).
The collection result of the recollection process is added to the previous collection result regarding the Web collection task held in the result file 204. If the mode is "collect only updated files (with deletion function)" mode, only the document files updated from the previous collection point are collected (step S134). The collection result of the re-collection process is
It is added to the previous collection result regarding the Web collection task held in the result file 204.

【0085】図17のフローチャートには、「未収集の
ファイルのみ収集」モードにおける再収集処理の手順が
示されている。まず、結果ファイル204に保持されて
いる当該Web収集タスクに関する以前の収集結果の内
容から未収集のURL(収集日、収集日時が登録されて
いないURLの先頭)が検出され、それが再開ポイント
として決定される(ステップS201)。そして、その
再開ポイントのURLで指定される文書ファイルの取得
を行い(ステップS202)、その結果(収集日、収集
日時、ステータスコード)を結果ファイル204に登録
して進捗状況情報の更新を行う(ステップS203)。
取得が成功した場合には、収集した文書ファイルから知
識DB131に登録すべき属性情報が取得され(ステッ
プS204)、次いでテキスト抽出処理(HTMLファ
イルの場合はテキスト抽出とリンク先URLの検出)が
実行される(ステップS205)。リンク先URLが検
出された場合には、そのURLと、起点URLおよびリ
ンク段数が結果ファイル204のURLリストに追加登
録される(ステップS206)。この後、属性情報とテ
キストデータを登録ファイル上に記述する処理が行われ
る(ステップS207)。そして、中断指示が発行され
るか、あるいは収集処理が完了するまで、結果ファイル
204から追加されたURLを取得しながらステップS
202からの処理が繰り返し実行される(ステップS2
08,S209)。
The flowchart of FIG. 17 shows the procedure of recollection processing in the "collect only uncollected files" mode. First, an uncollected URL (the beginning of a URL whose collection date and collection date and time are not registered) is detected from the content of the previous collection result related to the Web collection task held in the result file 204, and it is used as the restart point. It is determined (step S201). Then, the document file specified by the URL of the restart point is acquired (step S202), and the result (collection date, collection date and time, status code) is registered in the result file 204, and the progress status information is updated ( Step S203).
If the acquisition is successful, the attribute information to be registered in the knowledge DB 131 is acquired from the collected document file (step S204), and then the text extraction processing (text extraction and detection of link destination URL in the case of HTML file) is executed. (Step S205). When the link destination URL is detected, the URL, the starting point URL, and the link stage number are additionally registered in the URL list of the result file 204 (step S206). After that, a process of describing the attribute information and the text data on the registration file is performed (step S207). Then, until the interruption instruction is issued or the collection processing is completed, the added URL is acquired from the result file 204 while the step S is performed.
The processing from 202 is repeatedly executed (step S2).
08, S209).

【0086】次に、「更新されたファイルのみ収集(削
除機能あり)」モードにおける最収集処理の手順につい
て説明する。
Next, the procedure of the recollection process in the "collect only updated files (with deletion function)" mode will be described.

【0087】このモードにおいては、図18に示すよう
に、再収集を開始する現在の日時をD1、現在よりも指
定日数だけ前の時点をD2とすると、D2までに取得さ
れた当該Web収集タスクに関するURLの中で、現時
点までに更新されているURLのみが収集される。
In this mode, as shown in FIG. 18, assuming that the current date and time to start recollection is D1 and the time point that is a specified number of days before the current time is D2, the Web collection task acquired by D2. Among the URLs related to, only the URLs that have been updated so far are collected.

【0088】図19のフローチャートに示されているよ
うに、まず、結果ファイル204に保持されている当該
Web収集タスクに関する以前の収集結果の内容から以
前に収集したURLが一つずつ取得され(ステップS3
01)、その各URLについて以下の処理が行われる。
最初に、当該URLに対応する文書ファイルがD2まで
に収集された文書ファイルであるかどうかが判断される
(ステップS302)。D2までに収集された文書ファ
イルである場合には、そのURLで指定される文書ファ
イルが以前の収集日時から更新されているかどうかが調
べられる(ステップS303)。もし更新されていれ
ば、そのURLの文書ファイルの取得が行われる(ステ
ップS304)。ステップS303,304の処理は、
例えば、以前の収集日時を含む条件付きの取得要求を当
該URLで指定されるWebサーバに発行して、更新さ
れている場合のみ当該文書ファイルをWebサーバに返
送させる、という仕組みを用いて実現することが出来
る。
As shown in the flow chart of FIG. 19, first, the URLs previously collected are acquired one by one from the contents of the previous collection results regarding the Web collection task held in the result file 204 (step S3
01), the following processing is performed for each URL.
First, it is determined whether the document file corresponding to the URL is a document file collected by D2 (step S302). In the case of the document files collected up to D2, it is checked whether the document file specified by the URL has been updated from the previous collection date and time (step S303). If it has been updated, the document file of the URL is acquired (step S304). The processing in steps S303 and 304 is
For example, it is realized by using a mechanism in which a conditional acquisition request including a previous collection date and time is issued to the Web server specified by the URL, and the document file is returned to the Web server only when it is updated. You can

【0089】当該URLの文書ファイルが更新されてお
り、且つその取得が成功した場合には(ステップS30
5のYES)、その結果(収集日、収集日時、ステータ
スコード、起点URL、URL)を結果ファイル204
に登録して進捗状況情報の更新を行う(ステップS30
6)。そして、収集した文書ファイルから知識DB13
1に登録すべき属性情報が取得され(ステップS30
7)、次いでテキスト抽出処理(HTMLファイルの場
合はテキスト抽出とリンク先URLの検出)が実行され
る(ステップS308)。リンク先URLが検出された
場合には、そのURLと、起点URLおよびリンク段数
が結果ファイル204のURLリストに追加登録される
(ステップS309)。この後、属性情報とテキストデ
ータを登録ファイル上に記述する処理が行われる(ステ
ップS310)。そして、中断指示が発行されるか、あ
るいは収集処理が完了するまで、以前に収集されたUR
Lを対象にステップS301の処理が繰り返し実行され
る(ステップS311,S312)。
If the document file of the URL is updated and the acquisition is successful (step S30
5), the result (collection date, collection date and time, status code, origin URL, URL) of the result file 204
To update the progress information (step S30).
6). Then, from the collected document files, the knowledge DB 13
The attribute information to be registered in 1 is acquired (step S30
7) Next, text extraction processing (text extraction and detection of link destination URL in the case of HTML file) is executed (step S308). When the link destination URL is detected, the URL, the starting point URL, and the link stage number are additionally registered in the URL list of the result file 204 (step S309). After that, a process of describing the attribute information and the text data on the registration file is performed (step S310). Then, until the suspension instruction is issued or the collection process is completed, the URs previously collected are collected.
The process of step S301 is repeatedly executed for L (steps S311 and S312).

【0090】もし、取得要求に対してWebサーバから
ステータスコード404が返された場合、つまり当該UR
Lの文書ファイルがWebサーバから削除されていた場
合には(ステップS305のNO)、結果ファイル20
4に保持されている当該URLの以前の収集結果のステ
ータスコードが200であるかどうかによって、以前正常
に収集された文書ファイルであるかどうかが判断される
(ステップS313)。以前正常に収集された文書ファ
イルである場合には、その文書情報を知識データベース
131から削除するための削除処理が実行される(ステ
ップS314,S310)。ここでは、まずその結果
(収集日、収集日時、ステータスコード200、起点UR
L、URL)を結果ファイル204に登録した後、MODE
=0が選択され、MODE=0と当該URLのUNIQUE等が登
録ファイル上に記述される。これにより、再収集終了後
に、登録モジュール12によって知識データベース13
1から該当する文書情報が削除される。
If a status code 404 is returned from the Web server in response to the acquisition request, that is, the UR concerned
If the L document file has been deleted from the Web server (NO in step S305), the result file 20
It is determined whether or not the document file was previously normally collected depending on whether or not the status code of the previous collection result of the URL held in No. 4 is 200 (step S313). If the document file has been normally collected previously, a deletion process for deleting the document information from the knowledge database 131 is executed (steps S314 and S310). Here, first, the result (collection date, collection date and time, status code 200, starting point UR
(L, URL) in the result file 204, then MODE
= 0 is selected, MODE = 0 and UNIQUE of the URL are described in the registration file. As a result, after the recollection is completed, the knowledge database 13 is registered by the registration module 12.
The corresponding document information is deleted from 1.

【0091】以上のように、本実施形態によれば、We
b収集モジュール111が文書ファイルからのリンク情
報の検出を行うための解析処理の中で、知識DB131
に登録すべきテキストデータの抽出も併せて行うこと
で、テキストデータの抽出処理を効率よく行うことが可
能となる。さらに、第2処理モードにおいては、リンク
情報を含む可能性があるハイパーテキストファイルを含
む所定のファイル形式の文書ファイルのみを対象に上述
の解析処理を行い、他のファイル形式の文書ファイルに
ついてはそのパス名を登録ファイルに記述するという仕
組みを用いることにより、取得した文書ファイルの種類
に応じてその処理形態を自動的に切り替える事が可能と
なる。よって、複数の収集タスクが設定されている場合
でも、それらタスクを効率よく順次処理することが可能
となる。
As described above, according to this embodiment, We
In the analysis processing for the b collection module 111 to detect the link information from the document file, the knowledge DB 131
By also extracting the text data to be registered in, it is possible to efficiently perform the extraction process of the text data. Further, in the second processing mode, the above-described analysis processing is performed only on the document file of the predetermined file format including the hypertext file that may include the link information, and the document files of other file formats are processed by the analysis processing. By using the mechanism in which the path name is described in the registration file, it is possible to automatically switch the processing mode according to the type of the acquired document file. Therefore, even when a plurality of collection tasks are set, the tasks can be efficiently processed in sequence.

【0092】なお、本実施形態の知識情報収集システム
の機能は全てコンピュータプログラムにより実現されて
いるので、そのコンピュータプログラムをコンピュータ
読み取り可能な記憶媒体に記憶しておき、その記憶媒体
を通じて本コンピュータプログラムを、コンピュータネ
ットワーク接続可能な通常のコンピュータに導入して実
行させるだけで、本実施形態と同様の効果を容易に得る
ことができる。
Since all the functions of the knowledge information collecting system of this embodiment are realized by a computer program, the computer program is stored in a computer-readable storage medium, and the computer program is stored through the storage medium. It is possible to easily obtain the same effect as that of the present embodiment only by installing the program in a normal computer that can be connected to a computer network and executing the program.

【0093】また本発明は、上記実施形態に限定される
ものではなく、実施段階ではその要旨を逸脱しない範囲
で種々に変形することが可能である。更に、上記実施形
態には種々の段階の発明が含まれており、開示される複
数の構成要件における適宜な組み合わせにより種々の発
明が抽出され得る。例えば、実施形態に示される全構成
要件から幾つかの構成要件が削除されても、発明が解決
しようとする課題の欄で述べた課題が解決でき、発明の
効果の欄で述べられている効果が得られる場合には、こ
の構成要件が削除された構成が発明として抽出され得
る。
Further, the present invention is not limited to the above-mentioned embodiment, and can be variously modified at the stage of implementation without departing from the gist thereof. Furthermore, the embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiment, the problem described in the section of the problem to be solved by the invention can be solved, and the effect described in the section of the effect of the invention can be solved. When the above is obtained, the configuration in which this constituent element is deleted can be extracted as the invention.

【0094】[0094]

【発明の効果】以上説明したように、本発明によれば、
インターネット上からファイル形式の異なる様々な種類
の文書ファイルを知識情報として効率よく収集すること
が可能となる。
As described above, according to the present invention,
Various types of document files having different file formats can be efficiently collected as knowledge information from the Internet.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施形態に係る知識情報収集システ
ムの構成を示すブロック図。
FIG. 1 is a block diagram showing the configuration of a knowledge information collecting system according to an embodiment of the present invention.

【図2】同実施形態の知識情報収集システムに設けられ
たWeb収集モジュールの機能構成を示すブロック図。
FIG. 2 is an exemplary block diagram showing the functional configuration of a Web collection module provided in the knowledge information collection system of the same embodiment.

【図3】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の例を示す図。
FIG. 3 is a diagram showing an example of an output format of a registration file used in the knowledge information collecting system of the embodiment.

【図4】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の他の例を示す図。
FIG. 4 is an exemplary view showing another example of an output format of a registration file used in the knowledge information collecting system of the embodiment.

【図5】同実施形態の知識情報収集システムに設けられ
たWeb収集モジュールの処理手順を示すフローチャー
ト。
FIG. 5 is an exemplary flowchart showing a processing procedure of a Web collection module provided in the knowledge information collection system of the embodiment.

【図6】同実施形態の知識情報収集システムに設けられ
た登録モジュールの処理手順を示すフローチャート。
FIG. 6 is an exemplary flowchart showing a processing procedure of a registration module provided in the knowledge information collecting system of the embodiment.

【図7】同実施形態の知識情報収集システムおけるWe
bコンテンツとその登録処理との関係を示す図。
FIG. 7: We in the knowledge information collecting system of the same embodiment
The figure which shows the relationship between b content and its registration processing.

【図8】同実施形態の知識情報収集システムにより提供
される3つの画面とその遷移を説明するための図。
FIG. 8 is a diagram for explaining three screens provided by the knowledge information collecting system of the embodiment and their transitions.

【図9】同実施形態の知識情報収集システムで用いられ
る一覧画面の例を示す図。
FIG. 9 is an exemplary view showing an example of a list screen used in the knowledge information collecting system of the embodiment.

【図10】同実施形態の知識情報収集システムで用いら
れる設定画面の例を示す図。
FIG. 10 is an exemplary view showing an example of a setting screen used in the knowledge information collecting system of the embodiment.

【図11】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。
FIG. 11 is an exemplary view showing an example of a situation screen used in the knowledge information collecting system of the embodiment.

【図12】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。
FIG. 12 is an exemplary view showing an example of a situation screen used in the knowledge information collecting system of the embodiment.

【図13】同実施形態の知識情報収集システムにおける
Web収集処理の中断/再開動作を説明するための図。
FIG. 13 is an exemplary view for explaining a suspending / resuming operation of the Web collecting process in the knowledge information collecting system of the embodiment.

【図14】同実施形態の知識情報収集システムに設けら
れた結果ファイルの内容の例を示す図。
FIG. 14 is a diagram showing an example of contents of a result file provided in the knowledge information collecting system of the embodiment.

【図15】同実施形態の知識情報収集システムにおける
Web収集処理の開始から中断までの処理手順を示すフ
ローチャート。
FIG. 15 is an exemplary flowchart showing a processing procedure from the start to the interruption of the Web collection processing in the knowledge information collection system of the embodiment.

【図16】同実施形態の知識情報収集システムにおける
再収集処理の手順を示すフローチャート。
FIG. 16 is an exemplary flowchart showing a procedure of recollection processing in the knowledge information collecting system of the embodiment.

【図17】同実施形態の知識情報収集システムにおける
「未収集ファイルのみ収集」モードの再収集処理の手順
を示すフローチャート。
FIG. 17 is an exemplary flowchart showing the procedure of recollection processing in the “collect only uncollected files” mode in the knowledge information collecting system of the embodiment.

【図18】同実施形態の知識情報収集システムにおける
「更新ファイルのみ収集」モードの再収集処理を説明す
るための図。
FIG. 18 is an exemplary view for explaining recollection processing in the “collect only updated files” mode in the knowledge information collection system of the embodiment.

【図19】同実施形態の知識情報収集システムにおける
「更新ファイルのみ収集」モードの再収集処理の手順を
示すフローチャート。
FIG. 19 is an exemplary flowchart showing the procedure of recollection processing in the “collect only updated files” mode in the knowledge information collecting system of the embodiment.

【符号の説明】[Explanation of symbols]

11…Web収集システム 12…登録モジュール 13…知識エンジン 30…インターネット/イントラネット 111…Web収集モジュール 112…管理インターフェース 113…登録ディレクトリ 131…知識データベース 132…検索エンジン 201…ロックファイル 202…制御ファイル 203…設定ファイル 204…結果ファイル 205…ログファイル 301…収集制御部 302…属性抽出部 303…テキスト抽出部 304…フォーマット変換部 11 ... Web collection system 12 ... Registration module 13 ... Knowledge engine 30 ... Internet / Intranet 111 ... Web collection module 112 ... Management interface 113 ... Registration directory 131 ... Knowledge database 132 ... Search engine 201 ... Lock file 202 ... control file 203 ... Setting file 204 ... Result file 205 ... log file 301 ... Collection control unit 302 ... Attribute extraction unit 303 ... Text extraction unit 304 ... Format conversion unit

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // G06F 13/00 520 G06F 13/00 520D (72)発明者 塩田 弘二 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 Fターム(参考) 5B075 ND03 NK44 QP01 5B082 GC04 ─────────────────────────────────────────────────── ─── Continuation of front page (51) Int.Cl. 7 Identification code FI theme code (reference) // G06F 13/00 520 G06F 13/00 520D (72) Inventor Koji Shioda 2 Suehirocho, Ome-shi, Tokyo No. 9 F-term in Toshiba Ome Factory, Ltd. (reference) 5B075 ND03 NK44 QP01 5B082 GC04

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集システムに
おいて、 予め指定された情報収集条件を示す設定情報に基づい
て、前記ネットワーク上から文書ファイルを収集する文
書収集手段であって、前記ネットワーク上から収集した
各文書ファイルに対してテキストデータの抽出とリンク
情報の検出のための解析処理を行い、前記リンク情報が
検出された場合にその検出されたリンク情報で指定され
るリンク先の文書ファイルを前記ネットワークから収集
する文書収集手段と、 複数種の文書ファイルそれぞれの文書情報を前記知識デ
ータベースに登録するための共通インターフェースとし
て予め決められた記述形式を持つ登録ファイル上に、前
記収集された各文書ファイルから抽出されたテキストデ
ータを記述して出力する出力手段と、 前記登録ファイルからそこに記述された各文書ファイル
のテキストデータを取り出し、そのテキストデータを前
記知識データベースに登録する登録手段とを具備するこ
とを特徴とする知識情報収集システム。
1. A knowledge information collecting system for collecting document information to be registered in a knowledge database from a network, in which a document file is collected from the network based on setting information indicating a predetermined information collecting condition. Collecting means, which performs an analysis process for extracting text data and detecting link information on each document file collected from the network, and detects the link information when the link information is detected. Document collection means for collecting the document file of the link destination specified by the above from the network, and registration having a predetermined description format as a common interface for registering the document information of each of a plurality of types of document files in the knowledge database. On the file, extracted from each of the collected document files Output means for describing and outputting the text data, and registration means for extracting the text data of each document file described therein from the registration file and registering the text data in the knowledge database. Knowledge information collection system.
【請求項2】 前記登録手段は、前記登録ファイルに記
述されたパス名で指定される文書ファイルからテキスト
データを抽出して前記知識データベースに登録する手段
を含み、 前記文書収集手段は、 収集した各文書ファイルに対してテキストデータの抽出
とリンク情報の検出を行うための解析処理を行う第1処
理モードと、ハイパーテキストファイルを含む所定のフ
ァイル形式の文書ファイルを対象に前記解析処理を行
い、他のファイル形式の文書ファイルに対しては前記解
析処理を行わない第2処理モードとを有し、 前記出力手段は、前記文書収集手段が前記第2処理モー
ドで動作する場合、前記解析処理が行われなかった文書
ファイルのパス名を前記登録ファイル上に記述する手段
を含むことを特徴とする請求項1記載の知識情報収集シ
ステム。
2. The registration means includes means for extracting text data from a document file specified by a path name described in the registration file and registering the text data in the knowledge database, and the document collecting means collects the collected text data. A first processing mode for performing an analysis process for extracting text data and detecting link information for each document file, and performing the analysis process for a document file of a predetermined file format including a hypertext file, And a second processing mode in which the analysis processing is not performed on a document file of another file format, and the output unit is configured to perform the analysis processing when the document collection unit operates in the second processing mode. 2. The knowledge information collecting system according to claim 1, further comprising means for describing a path name of a document file which has not been executed on the registration file. Stem.
【請求項3】 前記文書収集手段は、前記ネットワーク
上から収集した各文書ファイルからその属性情報を取得
する手段を含み、 前記出力手段は、 前記各文書ファイル毎にそのテキストデータと属性情報
を前記登録ファイル上に記述して出力することを特徴と
する請求項1記載の知識情報収集システム。
3. The document collecting means includes means for acquiring attribute information from each document file collected from the network, and the output means outputs the text data and the attribute information for each document file. 2. The knowledge information collecting system according to claim 1, wherein the knowledge information collecting system is described and output on a registration file.
【請求項4】 前記登録ファイルには、各文書ファイル
毎に前記知識データベースに対するテキストデータの登
録または削除を前記登録手段に対して指示するためのモ
ード情報が定義されており、 前記出力手段は、 過去に収集済みの文書ファイルの一覧を管理する手段
と、 前記文書収集手段による各文書ファイルの収集の成否を
示すステータス情報と、前記収集済みのファイルの一覧
とに基づいて、過去に収集済みのファイルの中で前記ネ
ットワーク上から削除された文書ファイルを検出する手
段と、 前記ネットワーク上から削除された文書ファイルについ
てはそのテキストデータが前記知識データベースから削
除されるように、前記検出された文書ファイルのテキス
トデータの削除を示すモード情報を前記登録ファイル上
に記述する手段とを含むことを特徴とする請求項1記載
の知識情報収集システム。
4. The registration file defines mode information for instructing the registration unit to register or delete text data in the knowledge database for each document file, and the output unit includes: A means for managing a list of document files collected in the past, status information indicating success or failure of collection of each document file by the document collection means, and a list of collected files based on the list of collected files Means for detecting a document file deleted from the network in the file, and the detected document file such that the text data of the document file deleted from the network is deleted from the knowledge database Means for describing mode information indicating deletion of text data on the registration file Knowledge information collection system according to claim 1, characterized in that it comprises a.
【請求項5】 前記文書収集手段に実行させるべき文書
ファイルの収集処理毎に前記設定情報を作成するための
設定画面をユーザの端末に表示する手段と、 前記設定画面上で各収集処理毎に作成された複数の設定
情報を保持する手段と、 ユーザからの要求に応じて、前記保持されている複数の
設定情報それぞれに対応する前記文書収集手段による収
集処理の進行状況を前記ユーザの端末に一覧表示する手
段とをさらに具備することを特徴とする請求項1記載の
知識情報収集システム。
5. A unit for displaying a setting screen for creating the setting information on the user's terminal for each collection process of the document files to be executed by the document collection unit, and for each collection process on the setting screen. A means for holding the created plurality of setting information and a progress status of the collection processing by the document collecting means corresponding to each of the held plurality of setting information to the user terminal in response to a request from the user. The knowledge information collecting system according to claim 1, further comprising: a means for displaying a list.
【請求項6】 前記設定情報には、前記ネットワークか
らの情報収集の起点とすべき文書ファイルの所在を示す
起点アドレス情報と、収集可能な複数種の文書ファイル
の中から収集対象とすべき文書ファイルのファイル形式
を指定する情報とが含まれており、 前記文書収集手段は、前記起点アドレス情報で指定され
る文書ファイルを起点にそれに関連する文書ファイル群
の中で、前記収集対象として指定されたファイル形式の
文書ファイルを収集することを特徴とする請求項1記載
の知識情報収集システム。
6. The setting information includes starting point address information indicating a location of a document file to be a starting point for collecting information from the network, and a document to be collected from a plurality of types of collectable document files. And the information for designating the file format of the file, the document collection means is designated as the collection target in the document file group related to the document file designated by the origin address information as a starting point. The knowledge information collecting system according to claim 1, wherein a document file having a different file format is collected.
【請求項7】 前記知識データベースには、蓄積文書の
種類が異なる複数のデータベースが定義されており、 前記設定情報には、前記ネットワークからの情報収集の
起点とすべき文書ファイルの所在を示す起点アドレス情
報と、収集した文書ファイルを登録すべきデータベース
を示す登録先データベース名とが含まれており、 前記文書収集手段に実行させるべき文書ファイルの収集
処理毎に、前記起点アドレス情報と登録先データベース
名を含む設定情報を作成するための設定画面をユーザの
端末に表示する手段と、 前記設定画面上で各収集処理毎に作成された複数の設定
情報を保持する手段とをさらに具備することを特徴とす
る請求項1記載の知識情報収集システム。
7. The knowledge database defines a plurality of databases having different types of stored documents, and the setting information includes a starting point indicating a location of a document file to be a starting point for collecting information from the network. Address information and a registration destination database name indicating a database in which the collected document files should be registered are included. The origin address information and the registration destination database are included in each collection process of the document files to be executed by the document collecting means. Further comprising means for displaying a setting screen for creating setting information including the name on the user's terminal, and means for holding a plurality of setting information created for each collection process on the setting screen. The knowledge information collecting system according to claim 1, which is characterized in that.
【請求項8】 知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集システムに
おいて、 予め指定された情報収集条件を示す設定情報に基づい
て、前記ネットワーク上から文書ファイルを収集する文
書収集手段であって、前記ネットワーク上から収集した
文書ファイルから属性情報を取得する処理と、その文書
ファイルがハイパーテキストファイルを含む所定のファ
イル形式の文書ファイルであるか否かを判別し、前記所
定のファイル形式の文書ファイルを対象にテキストデー
タの抽出とリンク情報の検出を行うための解析処理と、
前記リンク情報が検出された場合にその検出されたリン
ク情報で指定される文書ファイルを前記ネットワークか
ら収集する処理とを再帰的に実行する文書収集手段と、 前記所定のファイル形式の文書ファイルについてはその
文書ファイルの属性情報とテキストデータを、複数種の
文書ファイルそれぞれの文書情報を前記知識データベー
スに登録するための共通インターフェースとして予め決
められた記述形式を持つ登録ファイル上に記述し、前記
所定のファイル形式以外の他のファイル形式の文書ファ
イルについてはその属性情報とパス名を前記登録ファイ
ル上に記述して出力する出力手段と、 前記登録ファイル上に各文書ファイル毎に記述された属
性情報とテキストデータを取り出し、その属性情報とテ
キストデータを前記知識データベースに登録する登録手
段であって、前記登録ファイルに文書ファイルのパス名
が記述されている場合、そのパス名で指定される文書フ
ァイルからテキストデータを抽出して前記知識データベ
ースに登録する手段を含む登録手段とを具備することを
特徴とする知識情報収集システム。
8. A knowledge information collecting system for collecting document information to be registered in a knowledge database from a network, in which a document file is collected from the network based on setting information indicating a predetermined information collection condition. Collecting means for acquiring attribute information from the document files collected from the network, and determining whether the document file is a document file of a predetermined file format including a hypertext file, Analysis processing for extracting text data and detecting link information for document files of the following file formats:
When the link information is detected, a document collection unit that recursively executes a process of collecting the document file specified by the detected link information from the network, and the document file of the predetermined file format, The attribute information and text data of the document file are described on a registration file having a predetermined description format as a common interface for registering the document information of each of a plurality of types of document files in the knowledge database, and the predetermined information is stored. For a document file of a file format other than the file format, output means for describing and outputting the attribute information and path name on the registration file, and attribute information described for each document file on the registration file, The text data is extracted and the attribute information and text data are extracted from the knowledge database. A registration means for registering a document file with a path name of a document file in the registration file, a means for extracting text data from the document file specified by the path name and registering the text data in the knowledge database. A knowledge information collecting system comprising: a registration means including the knowledge information collecting means.
【請求項9】 知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集方法におい
て、 予め指定された情報収集条件を示す設定情報に基づい
て、前記ネットワーク上から文書ファイルを収集する文
書収集ステップであって、前記ネットワーク上から収集
した各文書ファイルに対してテキストデータの抽出とリ
ンク情報の検出のための解析処理を行い、前記リンク情
報が検出された場合にその検出されたリンク情報で指定
されるリンク先の文書ファイルを前記ネットワークから
収集する文書収集ステップと、 前記収集された各文書ファイルから抽出されたテキスト
データを、複数種の文書ファイルそれぞれの文書情報を
前記知識データベースに登録するための共通インターフ
ェースとして予め決められた記述形式を持つ登録ファイ
ル上に記述して出力する出力ステップと、 前記登録ファイルからそこに記述された各文書ファイル
のテキストデータを取り出し、そのテキストデータを前
記知識データベースに登録する登録ステップとを具備す
ることを特徴とする知識情報収集方法。
9. A knowledge information collecting method for collecting document information to be registered in a knowledge database from a network, in which a document file is collected from the network based on setting information indicating a predetermined information collection condition. In the collecting step, analysis processing for extracting text data and detecting link information is performed on each document file collected from the network, and when the link information is detected, the detected link information is detected. A document collection step of collecting from the network the document files of the link destination specified by the above, text data extracted from each of the collected document files, and document information of each of a plurality of types of document files is registered in the knowledge database. A predetermined description format as a common interface for An output step of describing and outputting in one registration file, and a registration step of extracting text data of each document file described therein from the registration file and registering the text data in the knowledge database. Characteristic knowledge information collection method.
【請求項10】 知識データベースに登録すべき文書情
報をネットワーク上から収集する知識情報収集方法にお
いて、 予め指定された情報収集条件を示す設定情報に基づい
て、前記ネットワーク上から文書ファイルを収集する文
書収集ステップであって、前記ネットワーク上から収集
した文書ファイルから属性情報を取得する処理と、その
文書ファイルがハイパーテキストファイルを含む所定の
ファイル形式の文書ファイルであるか否かを判別し、前
記所定のファイル形式の文書ファイルを対象にテキスト
データの抽出とリンク情報の検出を行うための解析処理
と、前記リンク情報が検出された場合にその検出された
リンク情報で指定される文書ファイルを前記ネットワー
クから収集する処理とを再帰的に実行する文書収集ステ
ップと、 前記所定のファイル形式の文書ファイルについてはその
文書ファイルの属性情報とテキストデータを、複数種の
文書ファイルそれぞれの文書情報を前記知識データベー
スに登録するための共通インターフェースとして予め決
められた記述形式を持つ登録ファイル上に記述し、前記
所定のファイル形式以外の他のファイル形式の文書ファ
イルについてはその属性情報とパス名を前記登録ファイ
ル上に記述して出力する出力ステップと、 前記登録ファイル上に各文書ファイル毎に記述された属
性情報とテキストデータを取り出し、その属性情報とテ
キストデータを前記知識データベースに登録する登録ス
テップであって、前記登録ファイルに文書ファイルのパ
ス名が記述されている場合、そのパス名で指定される文
書ファイルからテキストデータを抽出して前記知識デー
タベースに登録するステップを含む登録ステップとを具
備することを特徴とする知識情報収集方法。
10. A knowledge information collecting method for collecting document information to be registered in a knowledge database from a network, wherein a document file is collected from the network based on setting information indicating a predetermined information collection condition. In the collecting step, the attribute information is acquired from the document files collected from the network, and it is determined whether the document file is a document file of a predetermined file format including a hypertext file. Analysis processing for performing extraction of text data and detection of link information for a document file of the file format described above, and when the link information is detected, the document file specified by the detected link information is used as the network. A document collection step of recursively executing the process of collecting from A document file having a predetermined file format is registered with a predetermined description format as a common interface for registering attribute information and text data of the document file, and document information of each of a plurality of types of document files in the knowledge database. An output step of writing on a file and writing and outputting the attribute information and path name of the document file of a file format other than the predetermined file format on the registered file; and each document on the registered file. A registration step of extracting the attribute information and text data described for each file and registering the attribute information and text data in the knowledge database, and when the path name of the document file is described in the registration file, Extract text data from the document file specified by the path name. Knowledge information collection method characterized by comprising a registration step includes the step of registering the knowledge database.
JP2002108413A 2002-04-10 2002-04-10 Knowledge information collecting system and knowledge information collecting method Expired - Fee Related JP3725087B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002108413A JP3725087B2 (en) 2002-04-10 2002-04-10 Knowledge information collecting system and knowledge information collecting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002108413A JP3725087B2 (en) 2002-04-10 2002-04-10 Knowledge information collecting system and knowledge information collecting method

Publications (2)

Publication Number Publication Date
JP2003303196A true JP2003303196A (en) 2003-10-24
JP3725087B2 JP3725087B2 (en) 2005-12-07

Family

ID=29392206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002108413A Expired - Fee Related JP3725087B2 (en) 2002-04-10 2002-04-10 Knowledge information collecting system and knowledge information collecting method

Country Status (1)

Country Link
JP (1) JP3725087B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5737279B2 (en) * 2010-02-23 2015-06-17 富士通株式会社 Program, information management method and information management apparatus
US9418166B2 (en) 2004-11-30 2016-08-16 International Business Machines Corporation Creation of structural diagram of web site based on both physical links and semantic links of web pages of web site
CN110888808A (en) * 2019-11-16 2020-03-17 云南湾谷科技有限公司 Web intelligent test method based on knowledge graph

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259672A (en) * 1999-03-08 2000-09-22 Tadamitsu Ryu Information retrieval system on network
JP2000331020A (en) * 1999-05-21 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for information reference and storage medium with information reference program stored

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259672A (en) * 1999-03-08 2000-09-22 Tadamitsu Ryu Information retrieval system on network
JP2000331020A (en) * 1999-05-21 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for information reference and storage medium with information reference program stored

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418166B2 (en) 2004-11-30 2016-08-16 International Business Machines Corporation Creation of structural diagram of web site based on both physical links and semantic links of web pages of web site
US10169462B2 (en) 2004-11-30 2019-01-01 International Business Machines Corporation Creation of structural diagram of web site based on both physical links and semantic links of web pages of web site
JP5737279B2 (en) * 2010-02-23 2015-06-17 富士通株式会社 Program, information management method and information management apparatus
US9516148B2 (en) 2010-02-23 2016-12-06 Fujitsu Limited Computer-readable recording medium, information management method and information management device
CN110888808A (en) * 2019-11-16 2020-03-17 云南湾谷科技有限公司 Web intelligent test method based on knowledge graph

Also Published As

Publication number Publication date
JP3725087B2 (en) 2005-12-07

Similar Documents

Publication Publication Date Title
US6832220B1 (en) Method and apparatus for file searching, accessing file identifiers from reference page
RU2464639C2 (en) Managing web page links using structured data
JP2009129017A (en) Document transfer support system, monitoring device, document transfer support device, method, and program
JP4253315B2 (en) Knowledge information collecting system and knowledge information collecting method
JP2002007138A (en) Method for installing and starting application, device for executing the same, and medium and program
US7895529B1 (en) System and method for processing featured content
JP3708893B2 (en) Knowledge information collecting system and knowledge information collecting method
JP3725087B2 (en) Knowledge information collecting system and knowledge information collecting method
JP3708894B2 (en) Knowledge information collecting system and knowledge information collecting method
JP4064621B2 (en) Software support system and computer-readable recording medium recording support program
JP2001184355A (en) Information collecting system, contents server, information collecting device and recording medium
JP3725088B2 (en) Knowledge information collecting system and knowledge information collecting method
JP2009187401A (en) Document management system, document management apparatus, and document managing method and program
JP2003303198A (en) Knowledge information collecting method and knowledge information collecting system
JP3725836B2 (en) Knowledge information collecting system and knowledge information collecting method
JP3725837B2 (en) Knowledge information collecting system and knowledge information collecting method
JP3725835B2 (en) Knowledge information collecting system and knowledge information collecting method
KR20060075798A (en) Overseas scientific electronic plain text collecting/index/extraction system and method thereof, and media that can record computer program thereof
JP4399689B2 (en) Information provision processing method, information provision processing program storage medium, and information provision processing apparatus
JP2002251348A (en) System and program for reading contents data
JPH10326282A (en) Method and system for electronic file retrieval and edition, and storage medium stored with program therefor
JP2003303200A (en) Knowledge information collecting system and knowledge information collecting method
JP2020149327A (en) Information processor and program
JP2003157263A (en) Method and device for collecting information, and storage program for retrieval object character information
JP2002055866A (en) Information management server, user terminal and recording medium

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050315

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050920

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080930

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees