JP2003303203A

JP2003303203A - 知識情報収集システムおよび知識情報収集方法

Info

Publication number: JP2003303203A
Application number: JP2002108480A
Authority: JP
Inventors: Kazuhiko Atsumi; 一彦渥美; Masayo Toyoda; 真代豊田; Koji Shioda; 弘二塩田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-04-10
Filing date: 2002-04-10
Publication date: 2003-10-24
Anticipated expiration: 2022-04-10
Also published as: JP3708894B2

Abstract

(57)【要約】【課題】ネットワーク上からの文書ファイルの収集処理
を必要に応じて中断および再開するための仕組みを実現
する。【解決手段】Ｗｅｂ収集モジュール１１１は、起点アド
レス情報で指定される文書ファイルを起点にそれに関連
する文書ファイル群をインターネット／イントラネット
３０から収集する文書収集処理を実行する。管理者ユー
ザが中断を指示すると、Ｗｅｂ収集モジュール１１１に
よって実行中の文書収集処理は中断される。文書収集処
理の再開時には、結果ファイル２０３に保持されている
文書収集結果に基づいて、中断された文書収集処理によ
って収集済みの文書ファイルに後続する未収集の文書フ
ァイルが検出されることにより、中断された文書収集処
理の続きから文書収集処理の実行が再開される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はナレッジマネジメン
トシステムで用いられる知識情報収集システムおよび知
識情報収集方法に関し、特に知識データベースに登録す
べき文書情報をネットワーク上から収集するための知識
情報収集システムおよび知識情報収集方法に関する。

【０００２】

【従来の技術】近年、企業を中心に複数のユーザ間で情
報共有を行うためのグループウェアの導入が進められて
いる。代表的なグループウェアとしては、電子メールシ
ステムやワークフローシステムなどが知られているが、
最近では、知識情報の共有支援を図るためのナレッジマ
ネジメントシステムも開発され始めている。

【０００３】このナレッジマネジメントシステムは、個
人のノウハウなどの知識情報を知識データベースに蓄積
・管理するためのものであり、自然言語検索などの検索
機能と組み合わせることにより、蓄積された知識情報の
効率的な活用が可能となる。

【０００４】ところで、このようなナレッジマネジメン
トシステムにおいては、知識情報をいかに効率よく収集
・蓄積するかが重要なポイントとなる。特にインターネ
ット上のＷｅｂ情報は知識の宝庫であるので、インター
ネット上から必要な情報を効率良く収集するための仕組
みが必要とされている。

【０００５】

【発明が解決しようとする課題】しかし、インターネッ
トからのＷｅｂ情報の収集に際してはリンク情報を辿り
ながら互いに関連する大量の文書ファイル群それぞれを
順次収集することが必要となるので、その収集処理には
通常多くの時間を要する。このため、一旦収集処理を開
始すると、全ての文書ファイル群の収集が完了するまで
はシステムを稼働し続けなければならない。また収集処
理を強制的に終了させることも可能であるが、この場合
には、後に同一の収集処理を最初から実行し直すことが
必要となるので無駄が多くなる。

【０００６】さらに、インターネット上のＷｅｂ情報は
静的なものではなく、そのＷｅｂ情報を構成する文書フ
ァイルの更新、追加、削除により、Ｗｅｂ情報の内容は
動的に変化されるのが通常である。このため、インター
ネットからＷｅｂ情報を収集してそれをナレッジマネジ
メントシステムの知識データベースに登録する場合に
は、インターネット上でのＷｅｂ情報の更新に合わせて
知識データベースの登録内容も最新の内容に維持するた
めの仕組みが必要となる。この場合、一度行った収集処
理と同一のＷｅｂ情報全てを新たに収集し直すことによ
り、知識データベースの登録内容を最新の内容に維持す
ることができる。

【０００７】ところが、インターネット上にはＷｅｂ情
報の更新、追加、削除が頻繁に繰り返されるＷｅｂサイ
トや、そのＷｅｂ情報の更新、追加、削除がほとんど行
われないＷｅｂサイト、さらには一定周期で例えばニュ
ースなどの一部のＷｅｂ情報のみの更新が行われるＷｅ
ｂサイトなど、様々なＷｅｂサイトが存在する。よっ
て、一度行った収集処理と同一のＷｅｂ情報全てを新た
に収集し直すという処理のみでは、Ｗｅｂサイトによっ
ては無駄な収集処理が繰り返されることになる。

【０００８】本発明はこのような事情を考慮してなされ
たものであり、インターネットなどのネットワーク上か
らの文書ファイルの収集処理を必要に応じて中断および
再開できるようにし、ネットワーク上からの文書収集処
理を効率よく行うことが可能な知識情報収集システムお
よび知識情報収集方法を提供することを目的とする。

【０００９】

【課題を解決するための手段】上述の課題を解決するた
め、本発明は、知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集システムに
おいて、予め設定された設定情報で指定される起点アド
レス情報に基づいて、当該起点アドレス情報で指定され
る文書ファイルを起点にそれに関連する文書ファイル群
を前記ネットワーク上から収集する文書収集処理を実行
する文書収集手段と、前記文書収集手段による文書収集
結果を保持する手段と、前記文書収集手段によって収集
された各文書ファイルの文書情報を前記知識データベー
スに登録する登録手段と、前記文書収集手段によって実
行中の文書収集処理に対する中断要求に応じて、当該文
書収集処理の実行を中断する手段とを具備し、前記文書
収集手段は、前記中断された文書収集処理に対する再開
要求を受けた場合、前記保持されている文書収集結果に
基づいて、前記中断された文書収集処理によって収集済
みの文書ファイルに後続する未収集の文書ファイルを検
出し、当該検出した文書ファイルから前記文書収集処理
を再開することを特徴とする。

【００１０】この知識情報収集システムにおいては、実
行中の文書収集処理をそれまでの文書収集結果を保持し
た状態で中断することができ、さらに、保持されている
文書収集結果に基づいて、中断された文書収集処理によ
って収集済みの文書ファイルに後続する未収集の文書フ
ァイルを検出することにより、当該検出した文書ファイ
ルから文書収集処理を再開することができる。このよう
に、インターネットなどのネットワーク上からの文書フ
ァイルの収集処理を必要に応じて中断でき、且つ中断さ
れた文書収集処理の続きから文書収集処理を再開できる
ので、ネットワーク上から大量の文書ファイル群を効率
よく収集することが可能となる。

【００１１】また、本発明は、知識データベースに登録
すべき文書情報をネットワーク上から収集する知識情報
収集システムにおいて、予め設定された設定情報で指定
される起点アドレス情報に基づいて、当該起点アドレス
情報で指定される文書ファイルを起点にそれに関連する
文書ファイル群を前記ネットワーク上から収集する文書
収集処理を実行する文書収集手段と、前記文書収集手段
による文書収集結果を保持する手段と、前記文書収集手
段によって収集された各文書ファイルの文書情報を前記
知識データベースに登録する登録手段と、前記文書収集
手段によって実行中の文書収集処理に対する中断要求に
応じて、当該文書収集処理の実行を中断する手段とを具
備し、前記文書収集手段は、前記中断された文書収集処
理を再開する際の再収集モードとして、前記起点アドレ
ス情報を起点にして前記文書ファイル群を新たに収集す
る第１再収集モードと、前記保持されている文書収集結
果を用いて、以前の収集で未収集の文書ファイルのみを
収集する第２再収集モードと、前記保持されている文書
収集結果を用いて、以前の収集時点から更新された文書
ファイルのみを収集する第３再収集モードとを有し、前
記中断された文書収集処理に対する再開要求を受けた場
合、前記第１乃至第３の再収集モードの中から前記設定
情報で指定された再収集モードを選択し、その選択した
再収集モードを用いて前記文書ファイル群の再収集処理
を実行する手段を含むことを特徴とする。

【００１２】この知識情報収集システムにおいては、中
断された文書収集処理を再開する際の再収集モードとし
て、起点アドレス情報を起点にして前記文書ファイル群
を新たに収集する第１再収集モードと、保持されている
文書収集結果を用いて、以前の収集で未収集の文書ファ
イルのみを収集する第２再収集モードと、保持されてい
る文書収集結果を用いて、以前の収集時点から更新され
た文書ファイルのみを収集する第３再収集モードとが用
意されており、どの再収集モードを使用するかについて
は設定情報によって予め指定することが出来る。このよ
うに、再開時に実行すべき再収集モードを選択できるよ
うに構成することにより、文書収集処理の再開時に、収
集先のＷｅｂサイトや収集目的などに対応する最適な再
収集モードを使用することが可能となる。

【００１３】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。

【００１４】図１には、本発明の一実施形態に係る知識
情報収集システムを用いたナレッジマネジメントシステ
ム全体の構成が示されている。このナレッジマネジメン
トシステムは知識情報の収集・分析・検索等のサービス
を提供するためのものであり、Ｗｅｂ収集システム１
１、登録モジュール１２、および知識エンジン１３など
から構成されている。これらＷｅｂ収集システム１１、
登録モジュール１２および知識エンジン１３は、サーバ
コンピュータ上で実行されるプログラムとして実現され
ている。Ｗｅｂ収集システム１１および登録モジュール
１２は、ナレッジマネジメントシステムで用いられる知
識情報を収集するための知識情報収集システムを構成す
る。この知識情報収集システムは、Ｗｅｂページなどの
文書をインターネット／イントラネット３０上から収集
してその文書の内容をナレッジマネジメントシステムの
知識データベース（知識ＤＢ）１３１に登録するという
処理を実行する。Ｗｅｂ収集システム１１は、Ｗｅｂ収
集モジュール１１１、管理インターフェース１１２、お
よび登録ディレクトリ１１３から構成されている。

【００１５】Ｗｅｂ収集モジュール１１１はインターネ
ット/イントラネット３０上の各種文書ファイルを収集
してそれを知識ＤＢ１３１に登録できる形式で出力する
ためプログラムである。このＷｅｂ収集モジュール１１
１はマルチスレッド構造を有しており、ＨＴＴＰ（Hype
rText Transfer Protocol）によるインターネット/イン
トラネット３０上からの文書ファイル取得処理を並列的
に行うことが出来る。ＨＴＴＰはインターネット/イン
トラネット３０上の情報サイト（Ｗｅｂサイト）である
各Ｗｅｂサーバ３１からＨＴＭＬ（Hyper Text Markup
Language）で記述された文書を取得するための通信プロ
トコルである。Ｗｅｂ収集モジュール１１１は、Ｗｅｂ
収集条件を指定する設定情報で指定されたＵＲＬ（Unif
orm Resource Locator）の文書ファイルをインターネッ
ト/イントラネット３０上から取得し、取得した文書フ
ァイルにリンク先のＵＲＬが含まれていればそのＵＲＬ
の文書ファイルをさらに取得する、という再帰的な処理
を行って、インターネット/イントラネット３０上から
関連する文書ファイル群を順次取得する。この場合、他
の文書ファイルへのリンク情報（ＵＲＬ）を検出するた
めには取得した文書ファイルを解析することが必要とな
るが、その解析処理の中では、リンク情報の検出のみな
らず、知識ＤＢ１３１に登録すべきテキストデータの抽
出も併せて実行される。

【００１６】収集対象の文書ファイルは、他のファイル
へのリンク情報であるＵＲＬを記述可能なハイパーテキ
ストファイル（ＨＴＭＬファイル）のみならず、テキス
トファイル（plane text)、さらには各種アプリケーシ
ョンプログラムによって作成された様々なファイル形式
の文書ファイル（例えば、Portable Document Format形
式のファイル、ワードプロセッサソフトウェアで作成し
た文書ファイル、表計算ソフトウェアで作成したファイ
ル、プレゼンテーションデータ作成ソフトウェアで作成
したプレゼンテーションデータのファイル、など）も収
集対象となる。

【００１７】Ｗｅｂ収集モジュール１１１では、インタ
ーネット/イントラネット３０上から収集した各文書フ
ァイルに対して知識ＤＢ１３１に登録すべき属性情報の
取得と上述のテキストデータの抽出が行われる。各文書
ファイルから取得される属性情報は、例えば、当該文書
ファイルのＵＲＬ、ファイル作成日時（更新日時）等で
ある。そして、Ｗｅｂ収集モジュール１１１では、それ
ら各文書ファイルの属性情報とテキストデータが記述さ
れた登録ファイルが作成されて、それが登録ディレクト
リ１１３上に出力される。ここで、登録ファイルとは、
ファイル形式の異なる複数種の文書ファイルそれぞれの
文書情報を知識ＤＢ１３１に登録するための共通インタ
ーフェースとして予め決められた記述形式を持つファイ
ルを意味する。この登録ファイルは、複数種の文書ファ
イルそれぞれの文書情報を知識ＤＢ１３１に共通フォー
マットで登録するために利用される。本実施形態では、
登録ファイルとしてＸＭＬ（eXtensible Markup Langua
ge）を使用する。

【００１８】管理インターフェース１１２は、Ｗｅｂ収
集モジュール１１１に実行させる各Ｗｅｂ収集処理（以
下、Ｗｅｂ収集処理タスクという）の内容を設定するた
めのプログラムであり、各Ｗｅｂ収集処理タスク毎にそ
のＷｅｂ収集条件の設定および管理、Ｗｅｂ収集モジュ
ール１１１の起動・停止の制御、さらには各Ｗｅｂ収集
処理タスクの収集状況の管理・提示等の機能を有してい
る。この管理インターフェース１１２は、管理者ユーザ
がそのユーザ端末のＷｅｂブラウザ２１上から必要な操
作を行えるように、Ｗｅｂサーバ２２がＣＧＩ（Common
Gateway Interface）を通じて起動可能な外部プログラ
ム（ＣＧＩプログラム）として実現されている。

【００１９】またＷｅｂ収集システム１１には、Ｗｅｂ
収集モジュール１１１の動作を管理・制御するためのフ
ァイルとして、図示のように、ロックファイル２０１、
制御ファイル２０２、設定ファイル２０３、結果ファイ
ル２０４、およびログファイル２０５が設けられてい
る。

【００２０】ロックファイル２０１はＷｅｂ収集モジュ
ール１１１の２重起動を防止するための排他制御用のフ
ァイルである。制御ファイル２０２は管理インターフェ
ース１１２がＷｅｂ収集モジュール１１１を停止させる
ために使用するファイルであり、例えば、管理者ユーザ
からの指示に応答して、実行中のＷｅｂ収集処理タスク
を途中で中断させる場合などに利用される。収集実行中
における中断の指定は、管理者ユーザが管理インターフ
ェース１１２を通じて行うことができる。

【００２１】設定ファイル２０３は、各Ｗｅｂ収集処理
タスク毎にそのＷｅｂ収集条件を指定する設定情報を記
述するためのファイルであり、ここには複数のＷｅｂ収
集処理タスクそれぞれに対応する複数の設定情報を保持
することが出来る。各Ｗｅｂ収集処理タスクのＷｅｂ収
集条件は、管理者ユーザによって設定される。Ｗｅｂ収
集条件には、少なくとも、インターネット/イントラネ
ット３０からの情報収集の起点とすべき文書ファイルの
所在を示す起点アドレス情報（起点ＵＲＬ）と、収集対
象とすべき文書ファイル数またはリンク段数の上限値を
示す収集範囲情報、等が含まれている。このＷｅｂ収集
条件に基づいてＷｅｂ収集モジュール１１１のＷｅｂ収
集動作が制御される。すなわち、Ｗｅｂ収集モジュール
１１１は、起点ＵＲＬで指定される文書ファイルを起点
にそれに関連する文書ファイル群を、収集範囲情報で規
定される範囲内で順次収集する。

【００２２】また、Ｗｅｂ収集条件には、登録先の知識
データベースを指定する知識データベース名も含まれて
いる。すなわち、知識ＤＢ１３１においては蓄積文書の
種類が互いに異なる複数の知識データベースが定義され
ており、それら複数の知識データベースがそれぞれの知
識データベース名で管理されている。設定ファイル２０
３の設定情報によってＷｅｂ収集タスク毎に登録先の知
識データベース名を指定することにより、収集した文書
情報を知識ＤＢ１３１内の任意の知識データベースに登
録することが出来る。

【００２３】さらに、収集範囲情報として、収集対象と
すべきファイル形式の種類、再収集を行う時の収集条
件、等を設定することもできる。ここで、再収集とは、
例えばＷｅｂ収集モジュール１１１に同一のＷｅｂ収集
処理タスクを定期的に実行させる場合における２度目以
降のＷｅｂ収集処理や、一旦中断したＷｅｂ収集処理タ
スクを再開させた場合のＷｅｂ収集処理を言う。本実施
形態では、３つの再収集モードが用意されており、Ｗｅ
ｂ収集処理タスク毎に使用すべき再収集モードを指定す
ることが出来る。３つの再収集モードそれぞれの内容
は、図１０以降で詳述する。

【００２４】結果ファイル２０４は、以前に収集した文
書ファイルの一覧等をＷｅｂ収集処理の結果として各Ｗ
ｅｂ収集タスク毎に管理するためのファイルであり、こ
こには、Ｗｅｂ収集の結果として取得したＵＲＬのリス
ト、取得日時、取得した文書ファイル件数、などが各Ｗ
ｅｂ収集処理タスク毎に出力される。この結果ファイル
２０４はＷｅｂ収集処理タスクそれぞれの収集状況をユ
ーザに提示する目的と、再収集の効率化の目的に用いら
れる。この結果ファイル２０４を用いることにより、過
去に収集済みの文書ファイルの中でインターネット/イ
ントラネット３０上の情報サイトから削除された文書フ
ァイルを検出したり、Ｗｅｂ収集処理を途中で中断した
場合における再開ポイントの検出、さらには以前の収集
時点からインターネット/イントラネット３０上で更新
されている文書ファイルの検出などを行うことが出来
る。

【００２５】ログフィル２０５は、Ｗｅｂ収集モジュー
ル１１１による文書ファイルの取得の成否やエラーの種
類などを管理するファイルである。

【００２６】登録ディレクトリ１１３は、知識ＤＢ１３
１に登録すべき文書内容を出力するための記憶領域であ
る。ここには、Ｗｅｂ収集モジュール１１１によって各
文書ファイルから抽出された属性情報とテキストデータ
が記述された上述の登録ファイルが出力される。Ｗｅｂ
収集モジュール１１１は、テキストデータの抽出に関し
て第１および第２の２つの処理モードを有する。

【００２７】第１処理モードでは、全てのファイル形式
の文書ファイルを対象に解析処理を行ってテキストデー
タの抽出、さらにはリンク情報（ＵＲＬ）の検出が行わ
れる（ＵＲＬの検出はＨＴＭＬファイルのみが対象）。
第２処理モードでは、ＨＴＭＬファイルとテキストファ
イル（PlainText）のみを対象に解析処理を行ってテキ
ストデータの抽出、さらにはリンク情報（ＵＲＬ）の検
出が行われ（ＵＲＬの検出はＨＴＭＬファイルのみが対
象）、例えばPortable Document Format等の他のファイ
ル形式の文書ファイル（以下、コンテンツファイルとい
う）に対しては解析処理は行われない。

【００２８】第２処理モードを使用した場合、ＨＴＭＬ
とＰｌａｉｎＴｅｘｔについては、そのテキストデータ
と属性情報が登録ファイル上に記述されて登録ディレク
トリ１１３上に出力される。一方、Portable Document
Formatなど他の形式のファイルについてはそのコンテン
ツファイルがそのまま登録ディレクトリ１１３上に出力
され、登録ファイル上には当該ファイルの属性情報とコ
ンテンツファイルのパス名が記述される。なお、第２処
理モードにおいては、リンク情報の検出のための解析処
理が必要なファイルを対象にその解析処理の中でテキス
トデータの抽出も併せて実行するという点が肝要である
ので、ＨＴＭＬファイルのみを対象にテキストデータの
抽出を行うようにしても良い。

【００２９】第１および第２のどちらの処理モードにお
いても、Ｗｅｂ収集モジュール１１１は実行中のＷｅｂ
収集タスクの処理が完了した時に、登録モジュール１２
に対して登録要求ファイルを発行して文書の登録を登録
モジュール１２に要求する。登録要求ファイルには、登
録ファイルのファイル名、登録先の知識データベース名
などが記述されている。

【００３０】登録モジュール１２は、Ｗｅｂ収集モジュ
ール１１１によって収集された各文書ファイルの属性情
報およびテキストデータを知識ＤＢ１３１に登録する。
すなわち、登録モジュール１２は、Ｗｅｂ収集モジュー
ル１１１からの登録要求に応答して該当する登録ファイ
ルを取得し、その登録ファイル上に文書ファイル毎に記
述されている属性情報およびテキストデータを取り出し
て、知識ＤＢ１３１の登録先知識データベースに登録す
る。また、この登録モジュール１２はテキストデータの
抽出機能も有しており、登録ファイルにコンテンツファ
イルのパス名が記述されている場合は、登録モジュール
１２は、そのパス名で指定されるコンテンツファイルか
らテキストデータを抽出して知識ＤＢ１３１の該当する
登録先知識データベースに登録する。

【００３１】さらに、登録モジュール１２は、Ｗｅｂ収
集モジュール１１１以外の他の収集モジュールによって
収集された文書の登録処理も実行する。他の収集モジュ
ールとしては、例えば、電子ファイリングシステムのフ
ァイルサーバから文書情報を収集するファイル収集モジ
ュール、ＲＤＢデータベースサーバからそこに管理され
ている文書情報を収集するＲＤＢ収集モジュール、電子
掲示板形式のコミュニティからそこに投稿された文書情
報を収集するコミュニティ収集モジュール、ユーザが任
意の各種アプリケーションプログラムの文書ファイルを
登録ファイル（ＸＭＬ）の出力形式に変換するために使
用するユーザ収集モジュール等がある。登録モジュール
１２はこれら各収集モジュールによって共通に利用され
る。どの収集モジュールについても、登録モジュール１
２に対するインターフェースとしては上述のＸＭＬ形式
の登録ファイルが用いられる。

【００３２】知識エンジン１３は、知識ＤＢ１３１に蓄
積された情報を活用するための知識分析処理を行う。こ
の知識分析処理では、知識ＤＢ１３１に蓄積された大量
の文書情報それぞれの特徴を分析して重要語を抽出する
処理や、それら文書情報を特徴別に複数のカテゴリに分
類および整理するクラスタリング処理などが行われる。
この知識エンジン１３には自然言語検索を行うための知
識エンジン１３２が設けられており、各ユーザはそのユ
ーザ端末のＷｅｂブラウザ４１からＷｅｂサーバ４２を
通じて知識エンジン１３２をアクセスすることにより、
Ｗｅｂブラウザ４１上から知識ＤＢ１３１に蓄積された
知識の検索を行うことが出来る。知識ＤＢ１３１に蓄積
された各文書の属性情報にはその文書のＵＲＬも含まれ
ているので、そのオリジナル文書を該当する情報サイト
から取得してＷｅｂブラウザ４１上に表示することが出
来る。なお、検索処理は、ある知識データベース名を選
択してその選択した知識データベースのみを対象に行っ
たり、あるいは知識ＤＢ１３１内の全ての知識データベ
ースを対象に行うことが出来る。

【００３３】次に、図２を参照して、Ｗｅｂ収集モジュ
ール１１１の機能構成について説明する。

【００３４】Ｗｅｂ収集モジュール１１１は、図示のよ
うに、収集制御部３０１、属性抽出部３０２、テキスト
抽出部３０３、およびフォーマット変換部３０４を有し
ている。収集制御部３０１は、設定ファイル２０３に保
持されている全ての設定情報それぞれについて、その設
定情報で指定されたＷｅｂ収集タスクを順番に一つずつ
実行する。各Ｗｅｂ収集タスク毎に設定情報で指定され
た起点ＵＲＬを起点として、インターネット/イントラ
ネット３０から関連する文書ファイル群を順次収集す
る。取得した文書ファイルに含まれるリンク先文書への
ＵＲＬはＵＲＬリスト３０５に追加されて行き、ＵＲＬ
リスト３０５からＵＲＬを取得しながらが収集処理が再
帰的に実行される。ＵＲＬリスト３０５としては、上述
の結果ファイル２０４を用いることが出来る。収集範囲
は設定ファイル２０３に保持されている収集条件によっ
て制限される。

【００３５】収集された各文書ファイルはまず属性抽出
部３０２に送られ、そこで各文書ファイルの属性情報が
取得される。次いで、テキスト抽出部３０３にて文書の
解析処理が行われ、知識ＤＢ１３１に登録すべきテキス
トデータと、次に取得すべきリンク先ＵＲＬの抽出が行
われる。例えば、ＨＴＭＬファイルに対しては、テキス
トデータの抽出は、ＨＴＭＬのタグ以外の部分を抜き出
すことによって行う。抽出されたテキストはタイトルと
ボディ(本文)とに分けられる。リンク先ＵＲＬの取得
は、Aタグ、AREFタグのHREFの値、FRAMEタグ、IFRAMEタ
グ、LAYERタグのSRCの値、METAタグのREFRESHの値を取
得することによって行われる。上述の第２の処理モード
で動作する場合には、テキスト抽出部３０３の処理はＨ
ＴＭＬファイルとテキストファイルに対してのみ行わ
れ、Portable Document Format等の他のファイル形式の
文書ファイルに対しては行われない。

【００３６】各文書ファイルから取得された属性情報と
テキストデータはフォーマット変換部３０４に送られ、
そこでＸＭＬの登録ファイルの記述形式に従う出力フォ
ーマットに整形されて登録ディレクトリ１１３上に出力
される。一つの登録ファイルには、例えば１０００個程
度の文書ファイルについての属性情報およびテキストデ
ータが記述される。テキスト抽出が行われなかった文書
ファイルについては属性情報とパス名が登録ファイル上
に記述される。

【００３７】以上の処理は、再収集によって収集された
各文書ファイルに対しても同様に行われる。

【００３８】次に、図３および図４を参照して、登録フ
ァイルの出力フォーマットの例を説明する。

【００３９】図３は、テキスト抽出部３０３にてテキス
ト抽出を行う場合の出力フォーマットの例を示してい
る。ファイルの先頭のタグ＜?xml version="1.0" encod
ing="Shift_JIS"?＞、＜KnowledgeSystem＞はファイル
の始まりを示し、また末尾のタグ＜/KnowledgeSystem＞
はファイルの終わりを示している。

【００４０】＜RECORD＞と＜/RECORD＞で囲まれた各レ
コード内に、１つの文書ファイルの属性情報とテキスト
データが記述される。各レコード内のタグの意味は次の
通りである。

【００４１】MODE ：登録モジュール１２の動作モード
を指定するモード情報である。このモード情報は、各文
書ファイル毎に知識ＤＢ１３１に対する文書情報（テキ
ストデータおよび属性）の登録または削除を指示する。
2＝登録(上書き)か、0＝削除、のいずれかとなる。削除
の場合は、下記のタグのうち、TYPEとUNIQUE以外は出力
されない。

【００４２】TYPE ：収集のタイプを示す。本例では常
に“Ｗｅｂ収集”となる。

【００４３】UNIQUE ：知識ＤＢ１３１に登録される当
該文書ファイルを識別するためのユニークキーである。
通常は、当該文書のＵＲＬがユニークキーとして用いら
れる。

【００４４】ORGDATE ：文書ファイルの作成日時（ま
たは更新日時)を示す。

【００４５】TITLE ：文書ファイルのタイトルを示
す。ＨＴＭＬファイルのタイトル部から抽出されたテキ
ストデータがタイトルとなる。ＨＴＭＬファイル以外の
ファイルについてはタイトルは出力されない。このタイ
トルは、検索画面上に表示される各文書ファイルのタイ
トルとして使用される。

【００４６】AUTHOR ：文書ファイルを所有する情報サ
イトのホスト名（ＵＲＬのホストアドレス）を記述す
る。

【００４７】DATE ：上記ORGDATEの日付部分を記述す
る。

【００４８】URL ：文書ファイルのＵＲＬ。UNIQUEと
同じ値である。

【００４９】BODY ：文書ファイルから抽出されたテキ
ストデータが記述される。

【００５０】図４は、テキスト抽出部３０３にてテキス
ト抽出を行わなかった文書ファイルに関する出力フォー
マットの例を示している。

【００５１】BODYにはテキストデータは記述されず、＜
BDYFILE＞＜/BDYFILE＞で囲まれた領域のPATH1に、登録
ディレクトリ１１３上に出力される上記コンテンツファ
イルへのパス名が記述される。DEL＝1は、登録モジュー
ル１２に対してコンテンツファイルからのテキストデー
タの抽出後に登録ディレクトリ１１３上の元ファイルを
削除することを指示するものである。Ｗｅｂ収集モジュ
ール１１１が第２処理モードで動作する場合には、ＨＴ
ＭＬファイルとプレーンテキストについてはBODYにはテ
キストデータが記述され、他のファイル形式の文書ファ
イル（コンテンツファイル）についてはBDYFILEにその
コンテンツファイルのパス名が記述されることになる。

【００５２】次に、図５のフローチャートを参照して、
収集した文書ファイルに対してＷｅｂ収集モジュール１
１１内で実行される一連の処理の手順について説明す
る。

【００５３】まず、収集した文書ファイルから知識ＤＢ
１３１に登録すべき属性情報（URL、AUTHOR、ORGDATE、
DATE）が取得される（ステップＳ１０１）。属性情報の
取得は、ＨＴＴＰによって情報サイトから返される値
や、収集した文書ファイル内に付加されている値などを
用いる事が出来る。この後、第２処理モードにおいて
は、収集した文書ファイルの拡張子などに基づいてその
ファイル種別が判定され、ＨＴＭＬファイルまたはプレ
ーンテキストファイルであるか、あるいはそれ以外の他
のファイル形式のファイルであるかが判別される（ステ
ップＳ１０２，Ｓ１０３）。収集した文書ファイルがＨ
ＴＭＬファイルまたはプレーンテキストファイルである
場合には（ステップＳ１０３のＹＥＳ）、上述のテキス
ト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出と
リンクＵＲＬの検出）が実行され（ステップＳ１０
４）、そして属性情報とテキストデータを上述の形式で
登録ファイル上に記述する処理（テキストデータをBODY
に挿入）が行われる（ステップＳ１０５）。一方、ＨＴ
ＭＬファイルまたはプレーンテキストファイル以外の他
のファイル形式のファイルであれば（ステップＳ１０３
のＮＯ）、当該ファイルが登録ディレクトリ１１３上に
そのまま出力され（ステップＳ１０６）、その後、属性
情報と当該ファイルのパス名を登録ファイル上に記述す
る処理（パス名をBDYFILEに記述）が行われる（ステッ
プＳ１０７）。

【００５４】なお、目的のＵＲＬの文書ファイルがイン
ターネット／イントラネット３０上から取得できなかっ
た場合には、当該文書ファイルの内容が既に知識ＤＢ１
３１に登録されていることを条件に、モード情報（MOD
E）＝0（削除）が登録ファイル上に記述される。

【００５５】また、第１処理モードにおいては、ステッ
プＳ１０２，Ｓ１０３の処理は行われず、全ての取得フ
ァイルを対象にステップＳ１０４，Ｓ１０５の処理が実
行される。

【００５６】次に、図６のフローチャートを参照して、
登録モジュール１２によって実行される登録処理の手順
を説明する。

【００５７】Ｗｅｂ収集モジュール１１１から登録要求
を受けた登録モジュール１２は、Ｗｅｂ収集モジュール
１１１からの登録要求ファイルで指定された登録ファイ
ル（ＸＭＬファイル）を登録ディレクトリ１１３から取
得し、そしてその登録ファイルから１つずつレコードを
取り出しながら、レコード毎に以下の処理を行う。ま
ず、処理対象レコード内のモード情報がMODE＝０である
かMODE＝２であるかが調べられる（ステップＳ１１１，
Ｓ１１２）。

【００５８】MODE＝２の場合は、登録モジュール１２
は、レコード内の各タグに従って、そのタグ内に記述さ
れたデータ項目（TYPE、UNIQUE、ORGDATE、TITLE、AUTH
OR、DATE、URL、BODYそれぞれの内容）を、登録要求フ
ァイルで指定された知識ＤＢ１３１内の登録先知識デー
タベースに登録する（ステップＳ１１３）。BODYのタグ
内にテキストデータが存在しない場合には、そのテキス
トデータの登録は行われない。次いで、BDYFILEのタグ
内にパス名が記述されているかどうかが判定される（ス
テップＳ１１４）。パス名が記述されている場合には
（ステップＳ１１４のＹＥＳ）、そのパス名で指定され
る記憶領域から該当するコンテンツファイルが取得され
（ステップＳ１１５）、そのコンテンツファイルからテ
キストデータを抽出する処理が行われる（ステップＳ１
１６）。そして、その抽出された内容が該当する文書フ
ァイルのテキストデータとして登録先知識データベース
に登録される（ステップＳ１１７）。

【００５９】MODE＝０の場合は、レコード内のUNIQUEで
指定される登録済みの文書ファイルの属性情報とテキス
トデータが知識ＤＢ１３１からサーチされ、その登録内
容が登録先知識データベースから削除される（ステップ
Ｓ１１８）。

【００６０】図７には、インターネット／イントラネッ
ト３０上における文書ファイル（Ｗｅｂコンテンツ）の
状態と知識ＤＢ１３１に対して行うべき登録／削除処理
との関係が示されている。本実施形態においては、出来
る限りインターネット／イントラネット３０上における
最新のＷｅｂコンテンツの状態を知識ＤＢ１３１に反映
させるというポリシーに基づき、以下の処理が行われ
る。

【００６１】（１）更新されたＷｅｂコンテンツは、知
識ＤＢ１３１に上書きする（MODE＝２）。更新されたＷ
ｅｂコンテンツの属性情報およびテキストデータを登録
する場合、そのUNIQUEは、知識ＤＢ１３１に既に登録さ
れている更新前のＷｅｂコンテンツのUNIQUEと同一であ
る。よって、MODE＝２により、知識ＤＢ１３１に既に登
録されている更新前のＷｅｂコンテンツの属性情報およ
びテキストデータが、更新されたＷｅｂコンテンツの属
性情報およびテキストデータに更新（上書き）される。

【００６２】（２）追加されたＷｅｂコンテンツは、知
識ＤＢ１３１に追加登録する（MODE＝２）。追加された
Ｗｅｂコンテンツの属性情報およびテキストデータを登
録する場合、そのUNIQUEは、知識ＤＢ１３１に未登録で
ある。よって、MODE＝２により、追加されたＷｅｂコン
テンツの属性情報およびテキストデータを知識ＤＢ１３
１に追加登録することが出来る。

【００６３】（３）削除されたＷｅｂコンテンツは、知
識ＤＢ１３１からも削除する（MODE＝０）。

【００６４】次に、管理インターフェース１１２によっ
て提供される機能を具体的に説明する。管理インターフ
ェース１１２は上述のようにＷｅｂ収集タスクの設定・
管理・実行を行うためのユーザインタフェースであり、
１）Ｗｅｂ収集タスクの設定を複数個作成して設定ファ
イル２０４に保存する機能、２）収集の設定の一覧表
示、削除、などの管理作業を行う機能、３）収集の起動
と終了（中断と再開）を行う機能、４）収集の状況や実
績をリアルタイムに確認する機能、を管理者ユーザに提
供する。

【００６５】管理インターフェース１１２によって管理
者ユーザのＷｅｂブラウザ２１に表示される画面は、図
８に示すように、「一覧画面」、「設定画面」、「状況
画面」の３つの画面より構成され、管理インターフェー
ス１１２を起動すると、一覧画面が最初に表示される。
３つの画面は各画面上で管理者ユーザによって行われる
操作に応じて遷移する。一覧画面には、現在作成されて
いる設定の一覧と各設定の最新の収集結果が表示され
る。この一覧画面上で、例えば、作成済みの設定を選択
してその選択した設定に関する設定画面または状況画面
に遷移した場合には、設定画面上では当該設定内容の追
加／削除等を行うことが出来、また状況画面上では当該
設定に関する起動と終了（中断と再開）の指定などを行
うことが出来る。また、一覧画面上で、設定の新規作成
を選択すると設定画面に遷移し、その設定画面上で設定
の新規作成のための処理を行うことが出来る。以下、一
覧画面、設定画面、状況画面それぞれについて具体的に
説明する。

【００６６】図９には、一覧画面の例が示されている。
この一覧画面上には、図示のように、「一覧」アンカ５
０１、「設定アンカ」５０２、「状況」アンカ５０３が
表示される。これら「一覧」アンカ５０１、「設定アン
カ」５０２、「状況」アンカ５０３は、それぞれ一覧画
面、設定画面、状況画面それぞれに対するリンクであ
る。一覧画面上で「一覧」アンカ５０１がクリックされ
ると、一覧画面の表示内容が最新状態に更新される。さ
らに、一覧画面上には、「新規設定」フィールド５０
４、「作成」ボタン５０５、および状態一覧表示部５０
６が設けられている。新規作成すべきＷｅｂ収集タスク
の設定名を「新規設定」フィールド５０４に入力して、
「作成」ボタン５０５をクリックすると、設定画面に遷
移してその設定名に関する設定情報を新規作成する事が
出来る。

【００６７】状態一覧表示部５０６には、上述の結果フ
ァイル２０４に保持されている内容等に基づき、既に作
成・登録済みのＷｅｂ収集タスクそれぞれについての収
集状況が一覧表示される。Ｗｅｂ収集タスク毎に以下の
項目が表示される。

【００６８】「設定名」：登録してある設定の名称「知識データベース名」：収集したデータを登録するデ
ータベース名「状態」：設定の現在の状態（未収集/収集中/終了/中
断/異常終了のいずれか）「開始」：最後に起動した日時「終了」：最後に終了した日時「ファイル」：前回のタスク実行で収集したファイル数
(今回)と、これまでに実行した中で収集されたファイル
の総数の最大値(全体) このように、本実施形態においては、複数のＷｅｂ収集
タスクを設定することが出来、しかもそれら複数のＷｅ
ｂ収集タスクそれぞれの収集状況を一覧画面上で確認す
ることが出来る。

【００６９】次に、図１０を参照して、設定画面の例に
ついて説明する。設定画面上には、図示のように、上述
の「一覧」アンカ５０１、「設定アンカ」５０２、「状
況」アンカ５０３の他、「設定名」フィールド６０１、
「知識データベース名」フィールド６０２、「プロキシ
サーバ」設定フォーム６０３、「収集ファイル形式」設
定フォーム６０４、「取得要求」設定フォーム６０５、
「認証情報」設定フォーム６０６、および「収集サイ
ト」設定フォーム６０７等が設けられており、これらを
用いて以下の設定編集操作を行うことが出来る。

【００７０】（１）設定名：「設定名」フィールド６
０１には一覧画面にて新規設定の作成または既存の設定
の選択により指定された設定名が表示される。（２）ＤＢ選択：「知識データベース名」フィールド
６０２に知識データベース名を入力することにより、収
集したデータを登録する登録先知識データベースを選択
する。

【００７１】（３）プロキシ：「プロキシサーバ」設
定フォーム６０３を用いて、収集に使用するプロキシサ
ーバの設定を行う。（４）収集するファイル形式：「収集ファイル形式」
設定フォーム６０４上で収集対象のファイル形式を選択
する。ＨＴＭＬおよびＴＥＸＴファイルはデフォルトで
選択されており、この他、Portable Document Format,
その他の様々なファイル形式を収集対象として選択する
ことが出来る。

【００７２】（５）取得要求：「取得要求」設定フォ
ーム６０５上でＵＲＬ取得時のタイムアウト時間、リト
ライ回数を指定する。（６）認証情報：「認証情報」設定フォーム６０６上
で、ユーザ認証が必要なＵＲＬをアクセスするときに必
要な認証情報を設定する。

【００７３】（７）収集サイト：「収集サイト」設定
フォーム６０７上では以下の項目の設定を行う。

【００７４】・起点ＵＲＬの設定・リンク段数の上限設定：収集する起点ＵＲＬからの
最大リンク段数を指定する。・ファイル数の上限設定：収集する最大ファイル数を
指定する。・再収集の設定：設定対象の収集タスクが同じ起点Ｕ
ＲＬからの再収集を行った時の振る舞いを指定する（中
断からの再開時も同じ）。再収集には３つの再収集モー
ド（「全てのファイルを新たに収集」、「未収集のファ
イルのみ収集」、「更新されたファイルのみ収集(削除
機能あり)」）があり、Ｗｅｂ収集タスク毎に任意の一
つの再収集モードを指定する事が出来る。各再収集モー
ドの意味は次の通りである。

【００７５】１）再収集モード１：「全てのファイル
を新たに収集」「全てのファイルを新たに収集」モードとは、収集対象
のＵＲＬを全て再収集するモードを意味する。即ち、以
前に収集したかどうかにかかわらず、起点ＵＲＬから全
ての文書ファイルを新たに収集しなおす。

【００７６】２）再収集モード２：「未収集のファイ
ルのみ収集」「未収集のファイルのみ収集」モードとは、以前収集し
たＵＲＬはそのリンク先も含めて収集せずに、起点ＵＲ
Ｌからの全ての文書ファイル群の内で以前の収集で未収
集の文書ファイルのみを収集するモードである。

【００７７】３）再収集モード３：「更新されたファ
イルのみ収集(削除機能あり)」「更新されたファイルのみ収集(削除機能あり)」モード
は、以前の収集時点から更新された文書ファイルのみ収
集するモードである。更新の有無のチェック対象となる
文書は、以前の収集において、現在よりも指定日数以上
前に収集したＵＲＬである。「更新チェック頻度」フィ
ールドに入力された値が指定日数となる。指定日数のデ
フォルトは「１日」である。以前の収集において、現在
よりも指定日数以上前に収集したＵＲＬがインターネッ
ト／イントラネット３０上の該当する情報サイトから削
除されており、当該ＵＲＬから文書ファイルを取得でき
なかった場合には、その文書ファイルに対応する登録情
報は知識ＤＢ１３１から削除される。

【００７８】・収集範囲：「ドメイン内のみ収集す
る」を指定すると、起点ＵＲＬのドメイン内のみ収集を
行う。

【００７９】・収集するＵＲＬのパターン：収集対象
とすべきＵＲＬの文字列のパターンを指定する。収集し
ようとするＵＲＬの中で、指定された文字列のパターン
を含むＵＲＬのみが収集される。

【００８０】・収集しないＵＲＬのパターン：収集対
象から除外すべきＵＲＬの文字列のパターンを指定す
る。収集しようとするＵＲＬの中で、指定された文字列
のパターンを含むＵＲＬは収集されない。

【００８１】図１１には、状況画面の例が示されてい
る。例えば、一覧画面または設定画面上で「状況」アン
カ５０３を選択することで、現在表示しているタスクの
状況画面に遷移する。この状況画面上には、当該タスク
の「設定名」、「知識データベース名」、「状態」等が
表示される。「設定名」の横には、収集開始／中止（再
開／中断）を指示するためのボタン７０１が表示されて
いる。「状態」には、タスクの状態（収集中／終了／未
収集／中断／異常終了）が表示され、さらに、当該タス
クの起点ＵＲＬ、収集したリンク段数(今回/最大/上
限)、およびファイル数(今回/全体/上限)等の状況情報
７０２も表示される。

【００８２】当該タスクの状態が未収集、終了、または
中断の場合には、図１１に示すように、ボタン７０１に
は「収集開始」と表示される。「収集開始」ボタン７０
１を選択すると、当該タスクの実行がＷｅｂ収集モジュ
ール１１１によって開始される。現在の状態が終了また
は中断の場合には、再収集が開始されることになる。ま
た、当該タスクの現在の状態が収集中である場合には、
図１２に示すように、ボタン７０１には「収集中断」と
表示される。「収集中断」ボタン７０１を選択すると、
稼働中の収集タスクは中断される。中断される以前まで
に収集されたＵＲＬのリストは文書収集結果として結果
ファイル２０４内に保持される。

【００８３】次に、図１３乃至図１５を参照して、状況
画面上のボタン操作による収集処理の中断および再開
（再収集）動作について具体的に説明する。

【００８４】この中断・再開機能は、実行中のＷｅｂ収
集処理を一旦停止して、後日再開する様な場合に利用さ
れる機能である。Ｗｅｂ収集モジュール１１１によるＷ
ｅｂ収集処理は、インターネット/イントラネット３０
からの文書ファイルの取得を行う度にそのＵＲＬや成否
を示すステータスコード等を進捗状況（収集結果）情報
として結果ファイル２０４に書き込みながら実行され
る。取得した文書ファイルにリンク先のＵＲＬがあれば
そのＵＲＬが結果ファイル２０４に追加され、結果ファ
イル２０４に未収集のＵＲＬが無くなるまで、処理が繰
り返される。この収集処理の途中で「収集中断」ボタン
７０１が押されると、実行中のＷｅｂ収集タスクはその
時点で中断される。そして、後に、その中断されたＷｅ
ｂ収集タスクを選択した状態で「収集開始」ボタン７０
１が押されると、中断されていたＷｅｂ収集タスクが再
開されて再収集が開始される。例えば、再収集モードと
して上述の「未収集のファイルのみ収集」モードが選択
されていた場合には、結果ファイル２０４に保持されて
いる未収集のＵＲＬから収集処理が再開されることにな
る。すなわち、中断されたＷｅｂ収集タスクによって収
集済みの文書ファイルに後続する未収集の文書ファイル
が結果ファイル２０４の文書収集結果から検出され、当
該検出された文書ファイルからの収集処理が実行され
る。このように本実施形態においては、インターネット
/イントラネット３０上からの文書ファイルの収集処理
を必要に応じて中断でき、且つ中断された文書収集処理
の続きから文書収集処理を再開することができる。

【００８５】図１４には、結果ファイル２０４に進捗状
況情報として保持されるＵＲＬリストの例が示されてい
る。結果ファイル２０４には、図示のように、取得対象
のＵＲＬ毎にその「ＵＲＬ」に加え、「収集日」、「収
集日時」、「ステータスコード」、「起点ＵＲＬ」、お
よび「リンク段数」が記録される。「リンク段数」は、
起点ＵＲＬから見た場合の当該取得対象ＵＲＬのリンク
の段数を示す。未収集のＵＲＬについては「収集日」、
「収集日時」、「ステータスコード」の情報は空欄とな
る。これにより、Ｗｅｂ収集処理を途中で中断した場合
における再開ポイントを検出することができる。「ステ
ータスコード」は収集処理の成否を示すものであり、こ
れは、Ｗｅｂページの取得先となる相手先Ｗｅｂサーバ
から返されるＨＴＴＰステータスコードである。このＨ
ＴＴＰステータスコードの種類は次の通りである。

【００８６】200：正常終了、すなわちファイル取得
が成功したことを示す。 304：未更新（条件付き取得要求へのレスポンス）で
ある。「更新されたファイルのみ収集」モードでは、こ
のステータスコードが返されたＵＲＬは取得しない。 403：アクセス権限によるエラーを示す。 404：当該ファイルが見つからないことによるエラー
を示す。削除された文書ファイルの取得要求に対するレ
スポンスである。 408：タイムアウトエラー図１５のフローチャートには、Ｗｅｂ収集が開始されて
から中断されるまでの一連の処理手順が示されている。

【００８７】Ｗｅｂ収集モジュール１１１は、最初に起
点ＵＲＬで指定される文書ファイルの取得を行い（ステ
ップＳ１２１）、その結果（収集日、収集日時、ステー
タスコード、起点ＵＲＬ、リンク段数、ＵＲＬ（起点Ｕ
ＲＬと同じ）を結果ファイル２０４に登録して進捗状況
情報の更新を行う（ステップＳ１２２）。取得が成功し
た場合には、収集した文書ファイルから知識ＤＢ１３１
に登録すべき属性情報が取得され（ステップＳ１２
２）、次いでテキスト抽出処理（ＨＴＭＬファイルの場
合はテキスト抽出とリンク先ＵＲＬの検出）が実行され
る（ステップＳ１２４）。リンク先ＵＲＬが検出された
場合には、そのＵＲＬと、上述の起点ＵＲＬおよびリン
ク段数が結果ファイル２０４のＵＲＬリストに追加登録
される（ステップＳ１２５）。この後、属性情報とテキ
ストデータを登録ファイル上に記述する処理が行われる
（ステップＳ１２６）。ここで、中断指示の有無が判定
される（ステップＳ１２７）。中断指示が無い場合には
（ステップＳ１２７のＮＯ）、結果ファイル２０４に未
収集のＵＲＬが登録されているかどうかによってＷｅｂ
収集処理が完了したかどうかが判断される（ステップＳ
１２８）。

【００８８】結果ファイル２０４に未収集のＵＲＬが登
録されている場合には（ステップＳ１２８のＮＯ）、上
述のステップＳ１２１からの処理が繰り返される。すな
わち、結果ファイル２０４に追加されたＵＲＬで指定さ
れる文書ファイルの取得を行い（ステップＳ１２１）、
その結果（収集日、収集日時、ステータスコード）を結
果ファイル２０４に登録して進捗状況情報の更新を行う
（ステップＳ１２２）。取得が成功した場合には、収集
した文書ファイルから知識ＤＢ１３１に登録すべき属性
情報が取得され（ステップＳ１２２）、次いでテキスト
抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリ
ンク先ＵＲＬの検出）が実行される（ステップＳ１２
４）。リンク先ＵＲＬが検出された場合には、そのＵＲ
Ｌと、起点ＵＲＬおよびリンク段数が結果ファイル２０
４のＵＲＬリストに追加登録される（ステップＳ１２
５）。この後、属性情報とテキストデータを登録ファイ
ル上に記述する処理が行われる（ステップＳ１２６）。

【００８９】ここで、中断指示の有無が判定される（ス
テップＳ１２７）。もし「収集中断」ボタン７０１が押
されたならば、制御ファイル２０２を通じて管理インタ
ーフェース１１２からＷｅｂ収集モジュール１１１に中
断指示が発行される。この場合（ステップＳ１２７のＹ
ＥＳ）、Ｗｅｂ収集モジュール１１１によって実行中の
Ｗｅｂ収集タスクが中断される。

【００９０】次に、図１６乃至図１９を参照して、再収
集処理の動作について説明する。再収集処理とは上述し
たように以前行った収集タスクを再度実行する場合の収
集処理を意味する。一旦中断したＷｅｂ収集処理タスク
を再開させた場合のＷｅｂ収集処理は再収集処理であ
り、また終了されたＷｅｂ収集処理タスクを次に実行さ
せる場合におけるＷｅｂ収集処理も再収集処理である。
これら再収集処理は、例えば、中断または終了されたＷ
ｅｂ収集タスクが選択された状態で上述の「収集開始」
ボタン７０１が押された場合に実行される。またＷｅｂ
収集モジュール１１１をオペレーティングシステムのタ
スク管理機能に登録することなどによってＷｅｂ収集モ
ジュール１１１を定期的に自動起動することもできるの
で、この場合には、中断または終了されたＷｅｂ収集タ
スクが自動実行されて再収集処理が開始されることにな
る。

【００９１】図１６のフローチャートに示すように、再
収集処理が開始されると、まず、そのＷｅｂ収集タスク
に関する再収集モードが設定ファイル２０３の設定情報
に基づいて判別される（ステップＳ１３１）。もし「全
てのファイルを新たに収集」モードであれば、当該Ｗｅ
ｂ収集タスクに関する以前の結果ファイル２０４の内容
は破棄され、起点ＵＲＬからの収集処理が新たに開始さ
れる（ステップＳ１３２）。この場合、これまで説明し
た通常のＷｅｂ収集処理と同じ処理が実行されることに
なる。またもし「未収集のファイルのみ収集」モードで
あった場合には、既に収集済みの文書ファイルの収集は
行われず、未収集の文書ファイルのみの収集が行われ
る。この場合、結果ファイル２０４に保持されている当
該Ｗｅｂ収集タスクに関する以前の収集結果の内容から
再開ポイントが検出されて、以前の収集処理で未収集の
ＵＲＬからの収集処理が開始される（ステップＳ１３
３）。再収集処理の収集結果は、結果ファイル２０４上
に保持されている当該Ｗｅｂ収集タスクに関する以前の
収集結果に追加されていく。またもし「更新されたファ
イルのみ収集(削除機能あり)」モードであった場合に
は、以前の収集時点から更新された文書ファイルのみ収
集が行われる（ステップＳ１３４）。再収集処理の収集
結果は、結果ファイル２０４上に保持されている当該Ｗ
ｅｂ収集タスクに関する以前の収集結果に追加されてい
く。

【００９２】図１７のフローチャートには、「未収集の
ファイルのみ収集」モードにおける再収集処理の手順が
示されている。まず、結果ファイル２０４に保持されて
いる当該Ｗｅｂ収集タスクに関する以前の収集結果の内
容から未収集のＵＲＬ（収集日、収集日時が登録されて
いないＵＲＬの先頭）が検出され、それが再開ポイント
として決定される（ステップＳ２０１）。そして、その
再開ポイントのＵＲＬで指定される文書ファイルの取得
を行い（ステップＳ２０２）、その結果（収集日、収集
日時、ステータスコード）を結果ファイル２０４に登録
して進捗状況情報の更新を行う（ステップＳ２０３）。
取得が成功した場合には、収集した文書ファイルから知
識ＤＢ１３１に登録すべき属性情報が取得され（ステッ
プＳ２０４）、次いでテキスト抽出処理（ＨＴＭＬファ
イルの場合はテキスト抽出とリンク先ＵＲＬの検出）が
実行される（ステップＳ２０５）。リンク先ＵＲＬが検
出された場合には、そのＵＲＬと、起点ＵＲＬおよびリ
ンク段数が結果ファイル２０４のＵＲＬリストに追加登
録される（ステップＳ２０６）。この後、属性情報とテ
キストデータを登録ファイル上に記述する処理が行われ
る（ステップＳ２０７）。そして、中断指示が発行され
るか、あるいは収集処理が完了するまで、結果ファイル
２０４から追加されたＵＲＬを取得しながらステップＳ
２０２からの処理が繰り返し実行される（ステップＳ２
０８，Ｓ２０９）。

【００９３】次に、「更新されたファイルのみ収集(削
除機能あり)」モードにおける最収集処理の手順につい
て説明する。

【００９４】このモードにおいては、図１８に示すよう
に、再収集を開始する現在の日時をＤ１、現在よりも指
定日数だけ前の時点をＤ２とすると、Ｄ２までに取得さ
れた当該Ｗｅｂ収集タスクに関するＵＲＬの中で、現時
点までに更新されているＵＲＬのみが収集される。

【００９５】図１９のフローチャートに示されているよ
うに、まず、結果ファイル２０４に保持されている当該
Ｗｅｂ収集タスクに関する以前の収集結果の内容から以
前に収集したＵＲＬが一つずつ取得され（ステップＳ３
０１）、その各ＵＲＬについて以下の処理が行われる。
最初に、当該ＵＲＬに対応する文書ファイルがＤ２まで
に収集された文書ファイルであるかどうかが判断される
（ステップＳ３０２）。Ｄ２までに収集された文書ファ
イルである場合には、そのＵＲＬで指定される文書ファ
イルが以前の収集日時から更新されているかどうかが調
べられる（ステップＳ３０３）。もし更新されていれ
ば、そのＵＲＬの文書ファイルの取得が行われる（ステ
ップＳ３０４）。ステップＳ３０３，３０４の処理は、
例えば、以前の収集日時を含む条件付きの取得要求を当
該ＵＲＬで指定されるＷｅｂサーバに発行して、更新さ
れている場合のみ当該文書ファイルをＷｅｂサーバに返
送させる、という仕組みを用いて実現することが出来
る。

【００９６】当該ＵＲＬの文書ファイルが更新されてお
り、且つその取得が成功した場合には（ステップＳ３０
５のＹＥＳ）、その結果（収集日、収集日時、ステータ
スコード、起点ＵＲＬ、ＵＲＬ）を結果ファイル２０４
に登録して進捗状況情報の更新を行う（ステップＳ３０
６）。そして、収集した文書ファイルから知識ＤＢ１３
１に登録すべき属性情報が取得され（ステップＳ３０
７）、次いでテキスト抽出処理（ＨＴＭＬファイルの場
合はテキスト抽出とリンク先ＵＲＬの検出）が実行され
る（ステップＳ３０８）。リンク先ＵＲＬが検出された
場合には、そのＵＲＬと、起点ＵＲＬおよびリンク段数
が結果ファイル２０４のＵＲＬリストに追加登録される
（ステップＳ３０９）。この後、属性情報とテキストデ
ータを登録ファイル上に記述する処理が行われる（ステ
ップＳ３１０）。そして、中断指示が発行されるか、あ
るいは収集処理が完了するまで、以前に収集されたＵＲ
Ｌを対象にステップＳ３０１の処理が繰り返し実行され
る（ステップＳ３１１，Ｓ３１２）。

【００９７】もし、取得要求に対してＷｅｂサーバから
ステータスコード404が返された場合、つまり当該ＵＲ
Ｌの文書ファイルがＷｅｂサーバから削除されていた場
合には（ステップＳ３０５のＮＯ）、結果ファイル２０
４に保持されている当該ＵＲＬの以前の収集結果のステ
ータスコードが200であるかどうかによって、以前正常
に収集された文書ファイルであるかどうかが判断される
（ステップＳ３１３）。以前正常に収集された文書ファ
イルである場合には、その文書情報を知識データベース
１３１から削除するための削除処理が実行される（ステ
ップＳ３１４，Ｓ３１０）。ここでは、まずその結果
（収集日、収集日時、ステータスコード200、起点ＵＲ
Ｌ、ＵＲＬ）を結果ファイル２０４に登録した後、MODE
＝０が選択され、MODE＝０と当該ＵＲＬのUNIQUE等が登
録ファイル上に記述される。これにより、再収集終了後
に、登録モジュール１２によって知識データベース１３
１から該当する文書情報が削除される。

【００９８】以上のように、本実施形態によれば、ユー
ザからの指示で文書ファイルの収集処理を中断でき、且
つその中断された文書収集処理の続きから文書収集処理
を再開できるので、インターネット/イントラネット３
０上から大量の文書ファイル群を効率よく収集すること
が可能となる。また、中断された文書収集処理を再開す
る際の再収集モードとして、起点アドレス情報を起点に
して文書ファイル群を新たに収集する「全てのファイル
を新たに収集」モードと、以前の収集で未収集の文書フ
ァイルのみを収集する「未収集のファイルのみ収集」モ
ードと、以前の収集時点から更新された文書ファイルの
みを収集する「更新されたファイルのみ収集(削除機能
あり)」とが用意されており、どの再収集モードを再開
時に使用するかについては設定情報によってＷｅｂ収集
タスク毎に予め指定することが出来る。よって、収集先
のＷｅｂサイトや収集目的などに応じて最適な再収集処
理を行うことが可能となり、再収集処理を効率よく行う
ことが可能となる。

【００９９】なお、本実施形態の知識情報収集システム
の機能は全てコンピュータプログラムにより実現されて
いるので、そのコンピュータプログラムをコンピュータ
読み取り可能な記憶媒体に記憶しておき、その記憶媒体
を通じて本コンピュータプログラムを、コンピュータネ
ットワーク接続可能な通常のコンピュータに導入して実
行させるだけで、本実施形態と同様の効果を容易に得る
ことができる。

【０１００】また本発明は、上記実施形態に限定される
ものではなく、実施段階ではその要旨を逸脱しない範囲
で種々に変形することが可能である。更に、上記実施形
態には種々の段階の発明が含まれており、開示される複
数の構成要件における適宜な組み合わせにより種々の発
明が抽出され得る。例えば、実施形態に示される全構成
要件から幾つかの構成要件が削除されても、発明が解決
しようとする課題の欄で述べた課題が解決でき、発明の
効果の欄で述べられている効果が得られる場合には、こ
の構成要件が削除された構成が発明として抽出され得
る。

【０１０１】

【発明の効果】以上説明したように、本発明によれば、
インターネットなどのネットワーク上からの文書ファイ
ルの収集処理を必要に応じて中断および再開できるよう
になり、ネットワーク上からの文書収集処理を効率よく
行うことが可能となる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る知識情報収集システ
ムの構成を示すブロック図。

【図２】同実施形態の知識情報収集システムに設けられ
たＷｅｂ収集モジュールの機能構成を示すブロック図。

【図３】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の例を示す図。

【図４】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の他の例を示す図。

【図５】同実施形態の知識情報収集システムに設けられ
たＷｅｂ収集モジュールの処理手順を示すフローチャー
ト。

【図６】同実施形態の知識情報収集システムに設けられ
た登録モジュールの処理手順を示すフローチャート。

【図７】同実施形態の知識情報収集システムおけるＷｅ
ｂコンテンツとその登録処理との関係を示す図。

【図８】同実施形態の知識情報収集システムにより提供
される３つの画面とその遷移を説明するための図。

【図９】同実施形態の知識情報収集システムで用いられ
る一覧画面の例を示す図。

【図１０】同実施形態の知識情報収集システムで用いら
れる設定画面の例を示す図。

【図１１】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。

【図１２】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。

【図１３】同実施形態の知識情報収集システムにおける
Ｗｅｂ収集処理の中断／再開動作を説明するための図。

【図１４】同実施形態の知識情報収集システムに設けら
れた結果ファイルの内容の例を示す図。

【図１５】同実施形態の知識情報収集システムにおける
Ｗｅｂ収集処理の開始から中断までの処理手順を示すフ
ローチャート。

【図１６】同実施形態の知識情報収集システムにおける
再収集処理の手順を示すフローチャート。

【図１７】同実施形態の知識情報収集システムにおける
「未収集ファイルのみ収集」モードの再収集処理の手順
を示すフローチャート。

【図１８】同実施形態の知識情報収集システムにおける
「更新ファイルのみ収集」モードの再収集処理を説明す
るための図。

【図１９】同実施形態の知識情報収集システムにおける
「更新ファイルのみ収集」モードの再収集処理の手順を
示すフローチャート。

【符号の説明】

１１…Ｗｅｂ収集システム１２…登録モジュール１３…知識エンジン３０…インターネット／イントラネット１１１…Ｗｅｂ収集モジュール１１２…管理インターフェース１１３…登録ディレクトリ１３１…知識データベース１３２…検索エンジン２０１…ロックファイル２０２…制御ファイル２０３…設定ファイル２０４…結果ファイル２０５…ログファイル３０１…収集制御部３０２…属性抽出部３０３…テキスト抽出部３０４…フォーマット変換部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 17/30 ４１９Ｇ０６Ｆ 17/30 ４１９Ｂ 12/00 ５４６ 12/00 ５４６Ｐ (72)発明者塩田弘二東京都青梅市末広町２丁目９番地株式会社東芝青梅工場内Ｆターム(参考） 5B075 ND03 NK44 5B082 HA05 HA08

Claims

【特許請求の範囲】

【請求項１】知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集システムに
おいて、予め設定された設定情報で指定される起点アドレス情報
に基づいて、当該起点アドレス情報で指定される文書フ
ァイルを起点にそれに関連する文書ファイル群を前記ネ
ットワーク上から収集する文書収集処理を実行する文書
収集手段と、前記文書収集手段による文書収集結果を保持する手段
と、前記文書収集手段によって収集された各文書ファイルの
文書情報を前記知識データベースに登録する登録手段
と、前記文書収集手段によって実行中の文書収集処理に対す
る中断要求に応じて、当該文書収集処理の実行を中断す
る手段とを具備し、前記文書収集手段は、前記中断された文書収集処理に対する再開要求を受けた
場合、前記保持されている文書収集結果に基づいて、前
記中断された文書収集処理によって収集済みの文書ファ
イルに後続する未収集の文書ファイルを検出し、当該検
出した文書ファイルから前記文書収集処理を再開するこ
とを特徴とする知識情報収集システム。
【請求項２】前記文書収集処理の中断および再開を指
示するための画面をユーザの端末に表示する手段をさら
に具備し、ユーザによる前記画面上の操作に応じて、前
記中断要求および前記再開要求が発行されるように構成
されていることを特徴とする請求項１記載の知識情報収
集システム。
【請求項３】前記文書収集手段は、前記ネットワーク上から収集した各文書ファイルに対し
てテキストデータの抽出とリンク情報の検出のための解
析処理を行い、前記リンク情報が検出された場合にその
検出されたリンク情報で指定されるリンク先の文書ファ
イルを前記ネットワークから収集する手段と、複数種の文書ファイルそれぞれの文書情報を前記知識デ
ータベースに登録するための共通インターフェースとし
て予め決められた記述形式を持つ登録ファイル上に、前
記収集された各文書ファイルから抽出されたテキストデ
ータを記述して出力する出力手段とを含み、前記登録手段は、前記登録ファイルからそこに記述された各文書ファイル
のテキストデータを取り出し、そのテキストデータを前
記知識データベースに登録する手段を含むことを特徴と
する請求項１記載の知識情報収集システム。
【請求項４】知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集システムに
おいて、予め設定された設定情報で指定される起点アドレス情報
に基づいて、当該起点アドレス情報で指定される文書フ
ァイルを起点にそれに関連する文書ファイル群を前記ネ
ットワーク上から収集する文書収集処理を実行する文書
収集手段と、前記文書収集手段による文書収集結果を保持する手段
と、前記文書収集手段によって収集された各文書ファイルの
文書情報を前記知識データベースに登録する登録手段
と、前記文書収集手段によって実行中の文書収集処理に対す
る中断要求に応じて、当該文書収集処理の実行を中断す
る手段とを具備し、前記文書収集手段は、前記中断された文書収集処理を再開する際の再収集モー
ドとして、前記起点アドレス情報を起点にして前記文書
ファイル群を新たに収集する第１再収集モードと、前記
保持されている文書収集結果を用いて、以前の収集で未
収集の文書ファイルのみを収集する第２再収集モード
と、前記保持されている文書収集結果を用いて、以前の
収集時点から更新された文書ファイルのみを収集する第
３再収集モードとを有し、前記中断された文書収集処理
に対する再開要求を受けた場合、前記第１乃至第３の再
収集モードの中から前記設定情報で指定された再収集モ
ードを選択し、その選択した再収集モードを用いて前記
文書ファイル群の再収集処理を実行する手段を含むこと
を特徴とする知識情報収集システム。
【請求項５】前記文書収集手段は、前記第２再収集モードによる再収集処理を実行する場
合、前記保持されている文書収集結果に基づいて、前記
起点アドレス情報で指定される文書ファイルに関連する
文書ファイル群の内で、前記中断された文書収集処理に
よって収集済みの文書ファイルに後続する未収集の文書
ファイルを検出する手段と、前記検出された文書ファイルから前記文書ファイル群の
再収集処理を開始する手段とを含むことを特徴とする請
求項４記載の知識情報収集システム。
【請求項６】前記文書収集手段は、前記第３再収集モードによる再収集処理を実行する場
合、前記保持されている文書収集結果で示される収集済
みの各文書ファイルおよびその収集日時に基づいて、収
集済みの各文書ファイル毎にその収集日時を含むファイ
ル取得要求を前記ネットワーク上に発行することによ
り、以前の収集時点から更新された文書ファイルを前記
ネットワークから収集することを特徴とする請求項４記
載の知識情報収集システム。
【請求項７】前記文書収集手段によって前記第３再収
集モードによる再収集処理が実行される場合、前記保持
されている文書収集結果と、前記文書収集手段による再
収集処理における各文書ファイルの収集の成否を示すス
テータス情報とに基づいて、以前に収集された文書ファ
イルの中で前記ネットワーク上から削除された文書ファ
イルを検出する手段と、前記ネットワーク上から削除された文書ファイルに関す
る文書情報を前記知識データベースから削除する手段と
をさらに具備することを特徴とする請求項４記載の知識
情報収集システム。
【請求項８】知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集方法におい
て、予め設定された設定情報で指定される起点アドレス情報
に基づいて、当該起点アドレス情報で指定される文書フ
ァイルを起点にそれに関連する文書ファイル群を前記ネ
ットワーク上から収集する文書収集処理を実行する文書
収集ステップと、前記文書収集ステップによる文書収集結果を保持するス
テップと、前記文書収集ステップによって収集された各文書ファイ
ルの文書情報を前記知識データベースに登録する登録ス
テップと、前記文書収集ステップによって実行中の文書収集処理に
対する中断要求に応じて、当該文書収集処理の実行を中
断するステップと、前記中断された文書収集処理に対する再開要求を受けた
場合、前記保持されている文書収集結果に基づいて、前
記中断された文書収集処理によって収集済みの文書ファ
イルに後続する未収集の文書ファイルを検出し、当該検
出した文書ファイルから前記文書収集ステップによる前
記文書収集処理を再開するステップとを具備することを
特徴とする知識情報収集方法。
【請求項９】知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集方法におい
て、予め設定された設定情報で指定される起点アドレス情報
に基づいて、当該起点アドレス情報で指定される文書フ
ァイルを起点にそれに関連する文書ファイル群を前記ネ
ットワーク上から収集する文書収集処理を実行する文書
収集ステップと、前記文書収集ステップによる文書収集結果を保持するス
テップと、前記文書収集ステップによって収集された各文書ファイ
ルの文書情報を前記知識データベースに登録する登録ス
テップと、前記文書収集ステップによって実行中の文書収集処理に
対する中断要求に応じて、当該文書収集処理の実行を中
断するステップとを具備し、前記文書収集ステップは、前記中断された文書収集処理を再開する際の再収集モー
ドとして、前記起点アドレス情報を起点にして前記文書
ファイル群を新たに収集する第１再収集モードと、前記
保持されている文書収集結果を用いて、以前の収集で未
収集の文書ファイルのみを収集する第２再収集モード
と、前記保持されている文書収集結果を用いて、以前の
収集時点から更新された文書ファイルのみを収集する第
３再収集モードとを有し、前記中断された文書収集処理
に対する再開要求を受けた場合、前記第１乃至第３の再
収集モードの中から前記設定情報で指定された再収集モ
ードを選択し、その選択した再収集モードを用いて前記
文書ファイル群の再収集処理を実行するステップを含む
ことを特徴とする知識情報収集方法。