JP3725088B2

JP3725088B2 - 知識情報収集システムおよび知識情報収集方法

Info

Publication number: JP3725088B2
Application number: JP2002108414A
Authority: JP
Inventors: 一彦渥美; 真代豊田; 弘二塩田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-04-10
Filing date: 2002-04-10
Publication date: 2005-12-07
Anticipated expiration: 2022-04-10
Also published as: JP2003303197A

Description

【０００１】
【発明の属する技術分野】
本発明はナレッジマネジメントシステムで用いられる知識情報収集システムおよび知識情報収集方法に関し、特に知識データベースに登録すべき文書情報をネットワーク上から収集するための知識情報収集システムおよび知識情報収集方法に関する。
【０００２】
【従来の技術】
近年、企業を中心に複数のユーザ間で情報共有を行うためのグループウェアの導入が進められている。代表的なグループウェアとしては、電子メールシステムやワークフローシステムなどが知られているが、最近では、知識情報の共有支援を図るためのナレッジマネジメントシステムも開発され始めている。
【０００３】
このナレッジマネジメントシステムは、個人のノウハウなどの知識情報を知識データベースに蓄積・管理するためのものであり、自然言語検索などの検索機能と組み合わせることにより、蓄積された知識情報の効率的な活用が可能となる。
【０００４】
ところで、このようなナレッジマネジメントシステムに於いては、知識情報をいかに効率よく収集・蓄積するかが重要なポイントとなる。特にインターネット上のＷｅｂ情報は知識の宝庫であるので、インターネット上から必要な情報を効率良く収集するための仕組みが必要とされている。
【０００５】
【発明が解決しようとする課題】
しかし、最近では、ホームページにはＨＴＭＬドキュメントなどのテキストベースの文書ファイルのみならず、各種アプリケーションプログラムによって作成された様々なファイル形式の文書ファイルも利用され始めている。この場合、インターネットから取得した文書ファイルをそのまま知識データベースに登録したのでは知識データベース上の文書ファイルの検索が困難となり、知識の有効活用を行うことができなくなる。
【０００６】
本発明はこのような事情を考慮してなされたものであり、インターネット上からファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集することが可能な知識情報収集システムおよび知識情報収集方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
上述の課題を解決するため、本発明は、知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムに於いて、前記知識データベースに登録すべき文書情報を収集するサイトの設定を行う、起点ＵＲＬの設定フィールド、および収集範囲を規定する項目を含んだ収集サイト設定画面を表示する設定画面表示手段と、前記設定画面表示手段により表示された設定画面上の設定内容をもとに設定ファイルを作成する設定ファイル作成手段と、前記設定ファイル作成手段で作成された設定ファイルの内容をもとに前記知識データベースに登録すべき文書情報をネットワーク上から収集する情報収集手段とを有し、前記収集サイト設定画面には、起点ＵＲＬの設定フィールドと、収集するリンクの段数を設定する設定フィールドとを含む複数種の設定項目を有し、前記情報収集手段は、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集することを特徴とする。
【０００８】
この知識情報収集システムに於いては、ネットワークからの情報の収集条件を指定する設定情報に基づいて、ネットワーク上からの文書ファイルの収集が情報収集手段によって実行される。前記情報収集手段は、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集する。これにより、起点ＵＲＬおよび辿るリンク先のそれぞれについて、収集するリンクの段数を選択的に指定して収集することができる。
【０００９】
また、本発明は、知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムに於いて、前記知識データベースに登録すべき文書情報を収集するサイトの設定を行う、起点ＵＲＬの設定フィールド、および収集範囲を規定する項目を含んだ収集サイト設定画面を表示する設定画面表示手段と、前記設定画面表示手段により表示された設定画面上の設定内容をもとに設定ファイルを作成する設定ファイル作成手段と、前記設定ファイル作成手段で作成された設定ファイルの内容をもとに前記知識データベースに登録すべき文書情報をネットワーク上から収集する情報収集手段とを有し、前記収集サイト設定画面には、起点ＵＲＬの設定フィールドと、収集するリンクの段数、および各リンク毎の収集ファイル個数を設定する設定フィールドとを含む複数種の設定項目を有し、前記情報収集手段は、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数、および各リンク毎の収集ファイル個数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、各リンク毎の収集ファイル個数、および収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集することを特徴とする。
【００１０】
この知識情報収集システムによれば、前記情報収集手段に於いて、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数、および各リンク毎の収集ファイル個数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、各リンク毎の収集ファイル個数、および収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集する。これにより、起点ＵＲＬおよび辿るリンク先のそれぞれについて、収集するリンクの段数および各リンク毎の収集ファイル個数を選択的に指定して収集することができる。
【００１１】
また、本発明は、知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集方法に於いて、前記知識データベースに登録すべき文書情報を収集するサイトの設定を行う、起点ＵＲＬの設定フィールド、および収集範囲を規定する項目を含んだ収集サイト設定画面を表示する設定画面表示ステップと、前記設定画面表示ステップにより表示された設定画面上の設定内容をもとに設定ファイルを作成する設定ファイル作成ステップと、前記設定ファイル作成ステップで作成された設定ファイルの内容をもとに前記知識データベースに登録すべき文書情報をネットワーク上から収集する収集ステップとを有し、前記設定画面表示ステップで表示される前記収集サイト設定画面には、起点ＵＲＬの設定フィールドと、収集するリンクの段数を設定する設定フィールドとを含む複数種の設定項目を有し、前記収集ステップは、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集することを特徴とする。
【００１２】
この知識情報収集方法によれば、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集する。これにより、起点ＵＲＬおよび辿るリンク先のそれぞれについて、収集するリンクの段数を選択的に指定して収集することができる。
【００１３】
また、本発明は、知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムに於いて、前記知識データベースに登録すべき文書情報を収集するサイトの設定を行う、起点ＵＲＬの設定フィールド、および収集範囲を規定する項目を含んだ収集サイト設定画面を表示する設定画面表示ステップと、前記設定画面表示ステップにより表示された設定画面上の設定内容をもとに設定ファイルを作成する設定ファイル作成ステップと、前記設定ファイル作成ステップで作成された設定ファイルの内容をもとに前記知識データベースに登録すべき文書情報をネットワーク上から収集する収集ステップとを有し、前記設定画面表示ステップで表示される前記収集サイト設定画面には、起点ＵＲＬの設定フィールドと、収集するリンクの段数、および各リンク毎の収集ファイル個数を設定する設定フィールドとを含む複数種の設定項目を有し、前記収集ステップは、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数、および各リンク毎の収集ファイル個数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、各リンク毎の収集ファイル個数、および収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集することを特徴とする。
【００１４】
この知識情報収集方法によれば、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数、および各リンク毎の収集ファイル個数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、各リンク毎の収集ファイル個数、および収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集する。これにより、起点ＵＲＬおよび辿るリンク先のそれぞれについて、収集するリンクの段数および各リンク毎の収集ファイル個数を選択的に指定して収集することができる。
【００１５】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
図１には、本発明の一実施形態に係る知識情報収集システムを用いたナレッジマネジメントシステム全体の構成が示されている。このナレッジマネジメントシステムは知識情報の収集・分析・検索等のサービスを提供するためのものであり、Ｗｅｂ収集システム１１、登録モジュール１２、および知識エンジン１３などから構成されている。これらＷｅｂ収集システム１１、登録モジュール１２および知識エンジン１３は、サーバコンピュータ上で実行されるプログラムとして実現されている。Ｗｅｂ収集システム１１および登録モジュール１２は、ナレッジマネジメントシステムで用いられる知識情報を収集するための知識情報システムを構成する。この知識情報収集システムは、Ｗｅｂページなどの文書をインターネット／イントラネット３０上から収集して、その文書の内容をナレッジマネジメントシステムの知識データベース（知識ＤＢ）１３１に登録するという処理を実行する。Ｗｅｂ収集システム１１は、Ｗｅｂ収集モジュール１１１、管理インターフェース１１２、および登録ディレクトリ１１３から構成されている。
【００１６】
Ｗｅｂ収集モジュール１１１は、インターネット/イントラネット３０上の各種文書ファイルを収集して、それを知識ＤＢ１３１に登録できる形式で出力するためプログラムである。このＷｅｂ収集モジュール１１１は、マルチスレッド構造を有しており、ＨＴＴＰ（HyperText Transfer Protocol）によるインターネット/イントラネット３０上からの文書ファイル取得処理を並列的に行うことができる。ＨＴＴＰはインターネット/イントラネット３０上の情報サイトである各Ｗｅｂサーバ３１からＨＴＭＬ（Hyper Text Markup Language）で記述された文書を取得するための通信プロトコルである。Ｗｅｂ収集モジュール１１１は、Ｗｅｂ収集条件を指定する設定情報で指定されたＵＲＬ（Uniform Resource Locator）の文書ファイルをインターネット/イントラネット３０上から取得し、取得した文書ファイルにリンク先のＵＲＬが含まれていれば、そのＵＲＬの文書ファイルをさらに取得する、という再帰的な処理を行って、インターネット/イントラネット３０上から関連する文書ファイル群を順次取得する。この場合、他の文書ファイルへのリンク情報（ＵＲＬ）を検出するためには取得した文書ファイルを解析することが必要となるが、その解析処理の中では、リンク情報の検出のみならず、知識ＤＢ１３１に登録すべきテキストデータの抽出も併せて実行される。
【００１７】
収集対象の文書ファイルは、他のファイルへのリンク情報であるＵＲＬを記述可能なハイパーテキストファイル（ＨＴＭＬファイル）のみならず、テキストファイル（plane text)、さらには各種アプリケーションプログラムによって作成された様々なファイル形式の文書ファイル（例えば、ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ形式のファイル、ワードプロッセッサソフトウェアで作成した文書ファイル、表計算ソフトウェアで作成したファイル、プレゼンテーションデータの作成ソフトウェアで作成したプレゼンテーションデータのファイルなど、各種汎用ファイル形式の添付ファイル）も収集対象となる。
【００１８】
Ｗｅｂ収集モジュール１１１では、インターネット/イントラネット３０上から収集した各文書ファイルに対して知識ＤＢ１３１に登録すべき属性情報の取得と上述のテキストデータの抽出が行われる。各文書ファイルから取得される属性情報は、例えば、当該文書ファイルのＵＲＬ、ファイル作成日時（更新日時）等である。そして、Ｗｅｂ収集モジュール１１１では、それら各文書ファイルの属性情報とテキストデータが記述された登録ファイルが作成されて、それが登録ディレクトリ１１３上に出力される。ここで、登録ファイルとは、ファイル形式の異なる複数種の文書ファイルそれぞれの文書情報を知識ＤＢ１３１に登録するための共通インターフェースとして予め決められた記述形式を持つファイルを意味する。この登録ファイルは、複数種の文書ファイルそれぞれの文書情報を知識ＤＢ１３１に共通フォーマットで登録するために利用される。本実施形態では、登録ファイルとしてＸＭＬ（eXtensible Markup Language）を使用する。
【００１９】
管理インターフェース１１２は、Ｗｅｂ収集モジュール１１１に実行させる各Ｗｅｂ収集処理（以下、Ｗｅｂ収集処理タスクという）の内容を設定するためのプログラムであり、各Ｗｅｂ収集処理タスク毎にそのＷｅｂ収集条件の設定および管理、Ｗｅｂ収集モジュール１１１の起動・停止の制御、さらには各Ｗｅｂ収集処理タスクの収集状況の管理・提示等の機能を有している。この管理インターフェース１１２は、管理者ユーザがそのユーザ端末のＷｅｂブラウザ２１上から必要な操作を行えるように、Ｗｅｂサーバ２２がＣＧＩ（Common Gateway Interface）を通じて起動可能な外部プログラム（ＣＧＩプログラム）として実現されている。
【００２０】
またＷｅｂ収集システム１１には、Ｗｅｂ収集モジュール１１１の動作を管理・制御するためのファイルとして、図示のように、ロックファイル２０１、制御ファイル２０２、設定ファイル２０３、結果ファイル２０４、およびログファイル２０５が設けられている。
【００２１】
ロックファイル２０１はＷｅｂ収集モジュール１１１の２重起動を防止するための排他制御用のファイルである。制御ファイル２０２は管理インターフェース１１２がＷｅｂ収集モジュール１１１を停止させるために使用するファイルであり、例えば、管理者ユーザからの指示に応答して、実行中のＷｅｂ収集処理タスクを途中で中断させる場合などに利用される。収集実行中における中断の指定は、管理者ユーザが管理インターフェース１１２を通じて行うことができる。
【００２２】
設定ファイル２０３は、各Ｗｅｂ収集処理タスク毎にそのＷｅｂ収集条件を指定する設定情報を記述するためのファイルであり、ここには複数のＷｅｂ収集処理タスクそれぞれに対応する複数の設定情報を保持することができる。各Ｗｅｂ収集処理タスクのＷｅｂ収集条件は、管理者ユーザによって設定される。Ｗｅｂ収集条件には、少なくとも、インターネット/イントラネット３０からの情報収集の起点とすべき文書ファイルの所在を示す起点アドレス情報（起点ＵＲＬ）と、収集範囲をドメイン内のみに指定したり、収集するＵＲＬのパターン、収集しないＵＲＬのパターンを指定したり、収集対象とすべき文書ファイル数またはリンク段数の上限値を指定したり、収集するファイル形式を指定したりする複数種の収集範囲情報等が含まれている。このＷｅｂ収集条件に基づいてＷｅｂ収集モジュール１１１のＷｅｂ収集動作が制御される。すなわち、Ｗｅｂ収集モジュール１１１は、起点ＵＲＬで指定される文書ファイルを起点にそれに関連する文書ファイル群を、収集範囲情報で規定される範囲内で順次収集する。尚、上記設定ファイル２０３に記述される複数種の収集範囲情報と、その設定手段については、後にＧＵＩ画面を参照して説明する。
【００２３】
また、Ｗｅｂ収集条件には、登録先の知識データベースを指定する知識データベース名も含まれている。すなわち、知識ＤＢ１３１に於いては蓄積文書の種類が互いに異なる複数の知識データベースが定義されており、それら複数の知識データベースがそれぞれの知識データベース名で管理されている。上記した設定ファイル２０３の設定情報によって、Ｗｅｂ収集タスク毎に登録先の知識データベース名を指定することにより、収集した文書情報を知識ＤＢ１３１内の任意の知識データベースに登録することができる。
【００２４】
さらに、収集範囲情報として、再収集を行う時の収集条件を設定することもできる。ここで、再収集とは、例えばＷｅｂ収集モジュール１１１に同一のＷｅｂ収集処理タスクを定期的に実行させる場合における２度目以降のＷｅｂ収集処理や、一旦中断したＷｅｂ収集処理タスクを再開させた場合のＷｅｂ収集処理を言う。
【００２５】
結果ファイル２０４は、Ｗｅｂ収集処理の結果として収集した文書ファイルの一覧等を各Ｗｅｂ収集タスク毎に管理するためのファイルであり、ここには、Ｗｅｂ収集の結果として取得したＵＲＬのリスト、取得した文書ファイル件数、などが各Ｗｅｂ収集処理タスク毎に出力される。この結果ファイル２０４はＷｅｂ収集処理タスクそれぞれの収集状況をユーザに提示する目的と、再収集の効率化の目的に用いられる。この結果ファイル２０４を用いることにより、過去に収集済みの文書ファイルの中でインターネット/イントラネット３０上の情報サイトから削除された文書ファイルを検出したり、Ｗｅｂ収集処理を途中で中断した場合における再開ポイントを検出することもできる。
【００２６】
ログフィル２０５は、Ｗｅｂ収集モジュール１１１による文書ファイルの取得の成否やエラーの種類などを管理するファイルである。
【００２７】
登録ディレクトリ１１３は、知識ＤＢ１１３に登録すべき文書内容を出力するための記憶領域である。ここには、Ｗｅｂ収集モジュール１１１によって各文書ファイルから抽出された属性情報とテキストデータが記述された上述の登録ファイル１１４が出力される。Ｗｅｂ収集モジュール１１１は、テキストデータの抽出に関して第１および第２の２つの処理モードを有する。
【００２８】
第１処理モードでは、全てのファイル形式の文書ファイルを対象に解析処理を行ってテキストデータの抽出、さらにはリンク情報（ＵＲＬ）の検出が行われる（ＵＲＬの検出はＨＴＭＬファイルのみが対象）。第２処理モードでは、ＨＴＭＬファイルとテキストファイル（PlainText）のみを対象に解析処理を行ってテキストデータの抽出、さらにはリンク情報（ＵＲＬ）の検出が行われ（ＵＲＬの検出はＨＴＭＬファイルのみが対象）、例えばＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ形式のファイル等、他のファイル形式の文書ファイル（以下、コンテンツファイルという）に対しては解析処理は行われない。
【００２９】
第２処理モードを使用した場合、ＨＴＭＬとＰｌａｉｎＴｅｘｔについては、そのテキストデータと属性情報が登録ファイル１１４上に記述されて登録ディレクトリ１１３上に出力される。一方、ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ形式のファイルなど他の形式のファイルについてはそのコンテンツファイル１１５がそのまま登録ディレクトリ１１３上に出力され、登録ファイル１１４上には当該ファイルの属性情報とコンテンツファイル１１５のパス名が記述される。尚、第２処理モードに於いては、リンク情報の検出のための解析処理が必要なファイルを対象にその解析処理の中でテキストデータの抽出も併せて実行するという点が肝要であるので、ＨＴＭＬファイルのみを対象にテキストデータの抽出を行うようにしてもよい。
【００３０】
第１および第２のどちらの処理モードに於いても、Ｗｅｂ収集モジュール１１１は実行中のＷｅｂ収集タスクの処理が完了した時に、登録モジュール１２に対して登録要求ファイルを発行して、文書の登録を登録モジュール１２に要求する。登録要求ファイルには、登録ファイルのファイル名、登録先の知識データベース名などが記述されている。
【００３１】
登録モジュール１２は、Ｗｅｂ収集モジュール１１１によって収集された各文書ファイルの属性情報およびテキストデータを知識ＤＢ１３１に登録する。すなわち、登録モジュール１２は、Ｗｅｂ収集モジュール１１１からの登録要求に応答して該当する登録ファイル１１４を取得し、その登録ファイル１１４上に文書ファイル毎に記述されている属性情報およびテキストデータを取り出して、知識ＤＢ１３１の登録先知識データベースに登録する。また、この登録モジュール１２はテキストデータの抽出機能も有しており、登録ファイル１１４にコンテンツファイル１１５のパス名が記述されている場合は、登録モジュール１２は、そのパス名で指定されるコンテンツファイル１１５からテキストデータを抽出して知識ＤＢ１３１の該当する登録先知識データベースに登録する。
【００３２】
さらに、登録モジュール１２は、Ｗｅｂ収集モジュール１１１以外の他の収集モジュールによって収集された文書の登録処理も実行する。他の収集モジュールとしては、例えば、電子ファイリングシステムのファイルサーバから文書情報を収集するファイル収集モジュール、ＲＤＢデータベースサーバからそこに管理されている文書情報を収集するＲＤＢ収集モジュール、電子掲示板形式のコミュニティからそこに投稿された文書情報を収集するコミュニティ収集モジュール、ユーザが任意の各種アプリケーションプログラムの文書ファイルを登録ファイル（ＸＭＬ）の出力形式に変換するために使用するユーザ収集モジュール等がある。登録モジュール１２はこれら各収集モジュールによって共通に利用される。どの収集モジュールについても、登録モジュール１２に対するインターフェースとしては上述のＸＭＬ形式の登録ファイルが用いられる。
【００３３】
知識エンジン１３は、知識ＤＢ１３１に蓄積された情報を活用するための知識分析処理を行う。この知識分析処理では、知識ＤＢ１３１に蓄積された大量の文書情報それぞれの特徴を分析して重要語を抽出する処理や、特徴別に複数のカテゴリに分類および整理するクラスタリング処理などが行われる。この知識エンジン１３には自然言語検索を行うための知識エンジン１３２が設けられており、各ユーザはそのユーザ端末のＷｅｂブラウザ４１からＷｅｂサーバ４２を通じて知識エンジン１３２をアクセスすることにより、Ｗｅｂブラウザ４１上から知識ＤＢ１３１に蓄積された知識の検索を行うことができる。知識ＤＢ１３１に蓄積された各文書の属性情報にはその文書のＵＲＬも含まれているので、そのオリジナル文書を該当する情報サイトから取得してＷｅｂブラウザ４１上に表示することができる。尚、、検索処理は、ある知識データベース名を選択してその選択した知識データベースのみを対象に行ったり、あるいは知識ＤＢ１３１内の全ての知識データベースを対象に行うことができる。
【００３４】
次に、図２を参照して、Ｗｅｂ収集モジュール１１１の機能構成について説明する。
Ｗｅｂ収集モジュール１１１は、図示のように、収集制御部３０１、属性抽出部３０２、テキスト抽出部３０３、およびフォーマット変換部３０４を有している。収集制御部３０１は、設定ファイル２０３に保持されている全ての設定情報それぞれについて、その設定情報で指定されたＷｅｂ収集タスクを順番に一つずつ実行する。各Ｗｅｂ収集タスク毎に設定情報で指定された起点ＵＲＬを起点として、インターネット/イントラネット３０から関連する文書ファイル群を順次収集する。取得した文書ファイルに含まれるリンク先文書へのＵＲＬはＵＲＬリスト３０５に追加されて行き、ＵＲＬリスト３０５からＵＲＬを取得しながらが収集処理が再帰的に実行される。ＵＲＬリスト３０５としては、上述の結果ファイル２０４を用いることができる。収集範囲は設定ファイル２０３に保持されている収集条件によって制限される。
【００３５】
収集された各文書ファイルは、まず属性抽出部３０２に送られ、そこで各文書ファイルの属性情報が取得される。次いで、テキスト抽出部３０３にて文書の解析処理が行われ、知識ＤＢ１３１に登録すべきテキストデータと、次に取得すべきリンク先ＵＲＬの抽出が行われる。例えば、ＨＴＭＬファイルに対しては、テキストデータの抽出は、ＨＴＭＬのタグ以外の部分を抜き出すことによって行う。抽出されたテキストはタイトルとボディ(本文)とに分けられる。リンク先ＵＲＬの取得は、Ａタグ、ＡＲＥＦタグのＨＲＥＦの値、ＦＲＡＭＥタグ、ＩＦＲＡＭＥタグ、ＬＡＹＥＲタグのＳＲＣの値、ＭＥＴＡタグのＲＥＦＲＥＳＨの値を取得することによって行われる。上述の第２の処理モードで動作する場合には、テキスト抽出部３０３の処理はＨＴＭＬファイルとテキストファイルに対してのみ行われ、ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ形式のファイル等、他のファイル形式の文書ファイルに対しては行われない。
【００３６】
各文書ファイルから取得された属性情報とテキストデータは、フォーマット変換部３０４に送られ、そこでＸＭＬの登録ファイルの記述形式に従う出力フォーマットに整形されて登録ディレクトリ１１３上に出力される。一つの登録ファイル１１４には、例えば１０００個程度の文書ファイルについての属性情報およびテキストデータが記述される。テキスト抽出が行われなかった文書ファイルについては属性情報とパス名が登録ファイル１１４上に記述される。
【００３７】
次に、図３および図４を参照して、登録ファイル１１４の出力フォーマットの例を説明する。
【００３８】
図３は、テキスト抽出部３０３にてテキスト抽出を行う場合の出力フォーマットの例を示している。ファイルの先頭のタグ＜?xml version="1.0" encoding="Shift_JIS"?＞、＜KnowledgeSystem＞はファイルの始まりを示し、また末尾のタグ＜/KnowledgeSystem＞はファイルの終わりを示している。
【００３９】
＜RECORD＞と＜/RECORD＞で囲まれた各レコード内に、１つの文書ファイルの属性情報とテキストデータが記述される。各レコード内のタグの意味は次の通りである。
【００４０】
MODE ：登録モジュール１２の動作モードを指定するモード情報である。このモード情報は、各文書ファイル毎に知識ＤＢ１３１に対する文書情報（テキストデータおよび属性）の登録または削除を指示する。2＝登録(上書き)か、0＝削除、のいずれかとなる。削除の場合は、下記のタグのうち、TYPEとUNIQUE以外は出力されない。
【００４１】
TYPE ：収集のタイプを示す。本例では常に“Ｗｅｂ収集”となる。
UNIQUE ：知識ＤＢ１３１に登録される当該文書ファイルを識別するためのユニークキーである。通常は、当該文書のＵＲＬがユニークキーとして用いられる。
【００４２】
ORGDATE ：文書ファイルの作成日時（または更新日時)を示す。
TITLE ：文書ファイルのタイトルを示す。ＨＴＭＬファイルのタイトル部から抽出されたテキストデータがタイトルとなる。ＨＴＭＬファイル以外のファイルについてはタイトルは出力されない。このタイトルは、検索画面上の文書ファイルのタイトルとして出力される。
【００４３】
AUTHOR ：文書ファイルを所有する情報サイトのホスト名（ＵＲＬのホストアドレス）を記述する。
DATE ：上記ORGDATEの日付部分を記述する。
URL ：文書ファイルのＵＲＬ。UNIQUEと同じ値である。
BODY ：文書ファイルから抽出されたテキストデータが記述される。
【００４４】
図４は、テキスト抽出部３０３にてテキスト抽出を行わなかった文書ファイルに関する出力フォーマットの例を示している。
【００４５】
BODYにはテキストデータは記述されず、＜BDYFILE＞＜/BDYFILE＞で囲まれた領域のPATH1に、登録ディレクトリ１１３上に出力される上記コンテンツファイル１１５へのパス名が記述される。DEL＝1は、登録モジュール１２に対してコンテンツファイル１１５からのテキストデータの抽出後に登録ディレクトリ１１３上の元ファイルを削除することを指示するものである。Ｗｅｂ収集モジュール１１１が第２処理モードで動作する場合には、ＨＴＭＬファイルとプレーンテキストについてはBODYにはテキストデータが記述され、他のファイル形式の文書ファイル（コンテンツファイル）についてはBDYFILEにそのコンテンツファイルのパス名が記述されることになる。
【００４６】
次に、図５のフローチャートを参照して、収集した文書ファイルに対してＷｅｂ収集モジュール１１１内で実行される一連の処理の手順について説明する。
【００４７】
まず、収集した文書ファイルから知識ＤＢ１３１に登録すべき属性情報（URL、AUTHOR、ORGDATE、DATE）が取得される（ステップＳ１０１）。属性情報の取得は、ＨＴＴＰによって情報サイトから返される値や、収集した文書ファイル内に付加されている値などを用いることができる。この後、第２処理モードに於いては、収集した文書ファイルの拡張子などに基づいてそのファイル種別が判定され、ＨＴＭＬファイルまたはプレーンテキストファイルであるか、あるいはそれ以外の他のファイル形式のファイルであるかが判別される（ステップＳ１０２，Ｓ１０３）。収集した文書ファイルがＨＴＭＬファイルまたはプレーンテキストファイルである場合には（ステップＳ１０３のＹＥＳ）、上述のテキスト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリンクＵＲＬの検出）が実行され（ステップＳ１０４）、そして属性情報とテキストデータを上述の形式で登録ファイル１１４上に記述する処理（テキストデータをBODYに挿入）が行われる（ステップＳ１０５）。一方、ＨＴＭＬファイルまたはプレーンテキストファイル以外の他のファイル形式のファイルであれば（ステップＳ１０３のＮＯ）、当該ファイルが登録ディレクトリ１１３上にそのまま出力され（ステップＳ１０６）、その後、属性情報と当該ファイルのパス名を登録ファイル１１４上に記述する処理（パス名をBDYFILEに記述）が行われる（ステップＳ１０７）。
【００４８】
尚、、目的のＵＲＬの文書ファイルがインターネット／イントラネット３０上から取得できなかった場合には、当該文書ファイルの内容が既に知識ＤＢ１３１に登録されていることを条件に、モード情報（MODE）＝0（削除）が登録ファイル１１４上に記述される。
【００４９】
また、第１処理モードに於いては、ステップＳ１０２，Ｓ１０３の処理は行われず、全ての取得ファイルを対象にステップＳ１０４，Ｓ１０５の処理が実行される。
【００５０】
次に、図６のフローチャートを参照して、登録モジュール１２によって実行される登録処理の手順を説明する。
【００５１】
Ｗｅｂ収集モジュール１１１から登録要求を受けた登録モジュール１２は、Ｗｅｂ収集モジュール１１１からの登録要求ファイルで指定された登録ファイル（ＸＭＬファイル）から１つずつレコードを取り出しながら、レコード毎に以下の処理を行う。まず、処理対象レコード内のモード情報がMODE＝０であるかMODE＝２であるかが調べられる（ステップＳ１１１，Ｓ１１２）。
【００５２】
MODE＝２の場合は、登録モジュール１２は、レコード内の各タグに従って、そのタグ内に記述されたデータ項目（TYPE、UNIQUE、ORGDATE、TITLE、AUTHOR、DATE、URL、BODYそれぞれの内容）を、登録要求ファイルで指定された知識ＤＢ１３１内の登録先知識データベースに登録する（ステップＳ１１３）。BODYのタグ内にテキストデータが存在しない場合には、そのテキストデータの登録は行われない。次いで、BDYFILEのタグ内にパス名が記述されているかどうかが判定される（ステップＳ１１４）。パス名が記述されている場合には（ステップＳ１１４のＹＥＳ）、そのパス名で指定される記憶領域から該当するコンテンツファイルが取得され（ステップＳ１１５）、そのコンテンツファイルからテキストデータを抽出する処理が行われる（ステップＳ１１６）。そして、その抽出された内容が該当する文書ファイルのテキストデータとして登録先知識データベースに登録される（ステップＳ１１７）。
【００５３】
MODE＝０の場合は、レコード内のUNIQUEで指定される登録済みの文書ファイルの属性情報とテキストデータが知識ＤＢ１３１からサーチされ、その登録内容が登録先知識データベースから削除される（ステップＳ１１８）。
【００５４】
図７には、インターネット／イントラネット３０上における文書ファイル（Ｗｅｂコンテンツ）の状態と知識ＤＢ１３１に対して行うべき登録／削除処理との関係が示されている。本実施形態に於いては、できる限りインターネット／イントラネット３０上における最新のＷｅｂコンテンツの状態を知識ＤＢ１３１に反映させるというポリシーに基づき、以下の処理が行われる。
【００５５】
（１）更新されたＷｅｂコンテンツは、知識ＤＢ１３１に上書きする（MODE＝２）。更新されたＷｅｂコンテンツの属性情報およびテキストデータを登録する場合、そのUNIQUEは、知識ＤＢ１３１に既に登録されている更新前のＷｅｂコンテンツのUNIQUEと同一である。よって、MODE＝２により、知識ＤＢ１３１に既に登録されている更新前のＷｅｂコンテンツの属性情報およびテキストデータが、更新されたＷｅｂコンテンツの属性情報およびテキストデータに更新（上書き）される。
【００５６】
（２）追加されたＷｅｂコンテンツは、知識ＤＢ１３１に追加登録する（MODE＝２）。追加されたＷｅｂコンテンツの属性情報およびテキストデータを登録する場合、そのUNIQUEは、知識ＤＢ１３１に未登録である。よって、MODE＝２により、追加されたＷｅｂコンテンツの属性情報およびテキストデータを知識ＤＢ１３１に追加登録することができる。
【００５７】
（３）削除されたＷｅｂコンテンツは、知識ＤＢ１３１からも削除する（MODE＝０）。
【００５８】
次に、管理インターフェース１１２によって提供される機能を具体的に説明する。管理インターフェース１１２は上述のようにＷｅｂ収集タスクの設定・管理・実行を行うためのユーザインタフェースであり、１）Ｗｅｂ収集タスクの設定を複数個作成して設定ファイル２０４に保存する機能、２）収集の設定の、一覧、削除、などの管理作業を行う機能、３）収集の起動と終了（中断と再開）を行う機能、４）収集の状況や実績をリアルタイムに確認する機能、を管理者ユーザに提供する。
【００５９】
管理インターフェース１１２によって管理者ユーザのＷｅｂブラウザ２１に表示される画面は、図８に示すように、「一覧画面」、「設定画面」、「状況画面」の３つの画面より構成され、管理インターフェース１１２を起動すると、一覧画面が最初に表示される。３つの画面は各画面上で管理者ユーザによって行われる操作に応じて遷移する。一覧画面には、現在作成されている設定の一覧と各設定の最新の収集結果が表示される。この一覧画面上で、例えば、作成済みの設定を選択してその選択して設定に関する設定画面または状況画面に遷移した場合には、設定画面上では当該設定内容の追加／削除等を行うことが出来、また状況画面上では当該設定に関する起動と終了（中断と再開）の指定などを行うことができる。また、一覧画面上で、設定の新規作成を選択すると設定画面に遷移し、その設定画面上で設定の新規作成のための処理を行うことができる。以下、一覧画面、設定画面、状況画面それぞれについて具体的に説明する。
【００６０】
図９には、一覧画面の例が示されている。この一覧画面上には、図示のように、「一覧」アンカ５０１、「設定アンカ」５０２、「状況」アンカ５０３が表示される。これら「一覧」アンカ５０１、「設定アンカ」５０２、「状況」アンカ５０３は、それぞれ一覧画面、設定画面、状況画面それぞれに対するリンクである。一覧画面上で「一覧」アンカ５０１がクリックされると、一覧画面の表示内容が最新状態に更新される。さらに、一覧画面上には、「新規設定」フィールド５０４、「作成」ボタン５０５、および状態一覧表示部５０６が設けられている。新規作成すべきＷｅｂ収集タスクの設定名を「新規設定」フィールド５０４に入力して、「作成」ボタン５０５をクリックすると、設定画面に遷移してその設定名に関する設定情報を新規作成することができる。
【００６１】
状態一覧表示部５０６には、上述の結果ファイル２０４に保持されている内容等に基づき、既に作成・登録済みのＷｅｂ収集タスクそれぞれについての収集状況が一覧表示される。Ｗｅｂ収集タスク毎に以下の項目が表示される。
【００６２】
「設定名」：登録してある設定の名称
「知識データベース名」：収集したデータを登録するデータベース名
「状態」：設定の現在の状態（未収集/収集中/終了/中断/異常終了のいずれか）
「開始」：最後に起動した日時
「終了」：最後に終了した日時
「ファイル」：前回のタスク実行で収集したファイル数(今回)と、これまでに実行した中で収集されたファイルの総数の最大値(全体)
このように、本実施形態に於いては、複数のＷｅｂ収集タスクを設定することが出来、しかもそれら複数のＷｅｂ収集タスクそれぞれの収集状況を一覧画面上で確認することができる。
【００６３】
次に、図１０を参照して、設定画面の例について説明する。設定画面上には、図示のように、上述の「一覧」アンカ５０１、「設定アンカ」５０２、「状況」アンカ５０３の他、「設定名」フィールド６０１、「知識データベース名」フィールド６０２、「プロキシサーバ」設定フォーム６０３、「収集ファイル形式」設定フォーム６０４、「取得要求」設定フォーム６０５、「認証情報」設定フォーム６０６、および収集サイト設定画面を構成する「収集サイト」設定フォーム６０７等が設けられており、これらを用いて以下の設定編集操作を行うことができる。
【００６４】
（１）設定名：「設定名」フィールド６０１には一覧画面にて新規設定の作成または既存の設定の選択により指定された設定名が表示される。
（２）ＤＢ選択：「知識データベース名」フィールド６０２に知識データベース名を入力することにより、収集したデータを登録する登録先知識データベースを選択する。
【００６５】
（３）プロキシ：「プロキシサーバ」設定フォーム６０３を用いて、収集に使用するプロキシサーバの設定を行う。
（４）収集するファイル形式：「収集ファイル形式」設定フォーム６０４上で収集対象のファイル形式を選択する。本実施形態では、ＨＴＭＬおよびＴＥＸＴファイルは、デフォルトで選択されており（ＨＴＭＬおよびＴＥＸＴファイルの指定を解除できない）、この他、例えば、ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ形式のファイル、ワードプロッセッサソフトウェアで作成した文書ファイル、表計算ソフトウェアで作成したファイル、プレゼンテーションデータの作成ソフトウェアで作成したプレゼンテーションデータのファイルなど、各種汎用ファイル形式の添付ファイルを収集対象として選択することができる。本実施形態では収集可能な文書ファイルのファイル形式を６種とした例を示し、それぞれチェックボックスにより、任意に指定することができる。例えば６種のファイル形式（ＨＴＭＬ，ＰＤＦ，ＰＰＴ，ＤＯＣ，ＸＬＯＳ，ＪＢＷ）のすべてをチェックボックスで指定することにより、その指定されたすべてのファイル形式の文書ファイルを収集対象とすることができる。また、不要となったファイル形式の文書ファイルについて、チェックボックスで指定を解除することにより、そのファイル形式の文書ファイルが、知識ＤＢ１３１から削除される。
【００６６】
（５）取得要求：「取得要求」設定フォーム６０５上でＵＲＬ取得時のタイムアウト時間、リトライ回数を指定する。
（６）認証情報：「認証情報」設定フォーム６０６上で、ユーザ認証が必要なＵＲＬをアクセスするときに必要な認証情報を設定する。
【００６７】
（７）収集サイト：「収集サイト」設定フォーム６０７上では以下の項目の設定を行う。
【００６８】
・起点ＵＲＬの設定：収集の起点となるＵＲＬを指定する。本実施形態では、起点ＵＲＬの設定フィールド上で、半角、特殊文字を除いた最大１０００文字まで入力可能としている。
【００６９】
・リンク段数の上限設定：収集する起点ＵＲＬからの最大リンク段数を指定する。起点ＵＲＬからの指定数までのリンクを辿って収集を行う。本実施形態では、０〜５０の範囲で、任意の指定数の設定が可能である。
・ファイル数の上限設定：収集する最大ファイル数を指定する。指定しない場合は、無制限となる。本実施形態では、１〜１，０００，０００の範囲で、任意のファイル数の設定が可能である。
・収集範囲：「ドメイン内のみ収集する」を指定すると、起点ＵＲＬのドメイン内のみ収集を行う。デフォルトは指定無しである。この「ドメイン内のみ収集する」をチェックボックスで指定すると、上記起点ＵＲＬの設定フィールドに設定された起点ＵＲＬについて、そのドメイン内のみを対象に、インターネット／イントラネット３０上の該当する情報サイトから文書情報を収集する。
【００７０】
・収集するＵＲＬのパターン：収集対象とすべきＵＲＬの文字列のパターンを指定する。収集しようとするＵＲＬの中で、指定された文字列のパターンを含んだＵＲＬのファイルのみが収集される。本実施形態では、この収集するＵＲＬのパターンを設定する設定フィールドに、１行に１パターンずつ、最大１０００バイトの設定を可能としている。
【００７１】
収集しないＵＲＬのパターン：収集対象から除外すべきＵＲＬの文字列のパターンを指定する。収集しようとするＵＲＬの中で、指定された文字列のパターンを含んだＵＲＬのファイルは収集されない。本実施形態では、この収集しないＵＲＬのパターンを設定する設定フィールドに、１行に１パターンずつ、最大１０００バイトの設定を可能としている。
【００７２】
尚、収集するパターンと、収集しないパターンの両方に適合するＵＲＬが存在した場合は、収集しないパターンが優先する。即ち、収集するパターンと、収集しないパターンの両方に適合するＵＲＬが存在した場合は、そのＵＲＬのファイルは収集されない。
【００７３】
・再収集の設定：設定対象の収集タスクが同じ起点ＵＲＬからの再収集を行った時の振る舞いを指定する。再収集には３つのモード（「全てのファイルを新たに収集」、「未収集のファイルのみ収集」、「更新されたファイルのみ収集(削除機能あり)」）があり、任意の一つのモードを指定することができる。ここで、「全てのファイルを新たに収集」モードとは、収集対象のＵＲＬを全て再収集するモードを意味する。即ち、過去に取得したどうかにかかわらず、起点ＵＲＬから新たに収集しなおす。また、「未収集のファイルのみ収集」モードは、以前収集したＵＲＬは収集しないモードである。「更新されたファイルのみ収集(削除機能あり)」モードは、以前の収集時点から更新された文書ファイルのみ収集するモードである。更新の有無のチェック対象となる文書は、以前の収集に於いて、現在よりも指定日数以上前に収集したＵＲＬである。「更新チェック頻度」フィールドに入力された値が指定日数となる。指定日数のデフォルトは「１日」である。以前の収集に於いて、現在よりも指定日数以上前に収集したＵＲＬがインターネット／イントラネット３０上の該当する情報サイトから削除されており、当該ＵＲＬから文書ファイルを取得できなかった場合には、その文書ファイルに対応する登録情報は知識ＤＢ１３１から削除される。
【００７４】
図１１には、状況画面の例が示されている。例えば、一覧画面または設定画面上で「状況」アンカ５０３を選択することで、現在表示しているタスクの状況画面に遷移する。この状況画面上には、当該タスクの「設定名」、「知識データベース名」、「状態」等が表示される。「設定名」の横には、収集開始／中止（再開／中断）を指示するためのボタン７０１が表示されている。「状態」には、タスクの状態（収集中／終了／未収集／中断／異常終了）が表示され、さらに、当該タスクの起点ＵＲＬ、収集したリンク段数(今回/最大/上限)、およびファイル数(今回/全体/上限)等の状況情報７０２も表示される。
【００７５】
当該タスクの状態が未収集、終了、または中断の場合には、図１１に示すように、ボタン７０１には「収集開始」と表示される。「収集開始」ボタン７０１を選択すると、当該タスクの実行がＷｅｂ収集モジュール１１１によって開始される。現在の状態が終了または中断の場合には、再収集が開始されることになる。また、当該タスクの現在の状態が収集中である場合には、図１２に示すように、ボタン７０１には「収集中断」と表示される。「収集中断」ボタン７０１を選択すると、稼働中の収集タスクは中断される。中断される以前までに収集されたＵＲＬのリストは結果ファイル２０４内に保持される。
【００７６】
次に、図１３乃至図１５を参照して、状況画面上のボタン操作による収集処理の中断および再開（再収集）動作について具体的に説明する。
【００７７】
この中断・再開機能は、実行中のＷｅｂ収集処理を一旦停止して、後日再開する様な場合に利用される機能である。Ｗｅｂ収集モジュール１１１によるＷｅｂ収集処理は、インターネット/イントラネット３０からの文書ファイルの取得を行う度にそのＵＲＬや成否を示すステータスコード等を進捗状況情報として結果ファイル２０４に書き込みながら実行される。取得した文書ファイルにリンク先のＵＲＬがあればそのＵＲＬが結果ファイル２０４に追加され、結果ファイル２０４に未収集のＵＲＬが無くなるまで、処理が繰り返される。この収集処理の途中で「収集中断」ボタン７０１が押されると、実行中のＷｅｂ収集タスクはその時点で中断される。そして、後に、その中断されたＷｅｂ収集タスクを選択した状態で「収集開始」ボタン７０１が押されると、中断されていたＷｅｂ収集タスクが再開されて再収集が開始される。例えば、再収集モードとして「未収集のファイルのみ収集」モードが選択されていた場合には、結果ファイル２０４に保持されている未収集のＵＲＬから収集処理が再開されることになる。
【００７８】
図１４には、結果ファイル２０４に進捗状況情報として保持されるＵＲＬリストの例が示されている。結果ファイル２０４には、図示のように、取得対象のＵＲＬ毎にその「ＵＲＬ」に加え、「収集日」、「収集日時」、「ステータスコード」、「起点ＵＲＬ」、および「リンク段数」が記録される。「リンク段数」は、起点ＵＲＬから見た場合の取得対象ＵＲＬのリンクの段数を示す。未収集のＵＲＬについては「収集日」、「収集日時」、「ステータスコード」の情報は空欄となる。これにより、Ｗｅｂ収集処理を途中で中断した場合における再開ポイントを検出することができる。「ステータスコード」は収集処理の成否を示すものであり、これは、Ｗｅｂページ取得先の相手先Ｗｅｂサーバから返されるＨＴＴＰステータスコードである。このＨＴＴＰステータスコードの種類には、ファイル取得が成功したこと（正常終了）を示す「２００」、アクセス権限によるエラーを示す「４０３」、該当ファイルが見つからない（削除された文書ファイルの取得要求に対するレスポンス）場合のエラーを示す「４０４」、タイムアウトエラー「４０８」等が含まれる。
【００７９】
図１５のフローチャートには、Ｗｅｂ収集が開始されてから中断されるまでの一連の処理手順が示されている。
【００８０】
Ｗｅｂ収集モジュール１１１は、最初に、起点ＵＲＬで指定される文書ファイルの取得を行い（ステップＳ１２１）、その結果（収集日、収集日時、ステータスコード、起点ＵＲＬ、リンク段数、ＵＲＬ（起点ＵＲＬと同じ）を結果ファイル２０４に登録して進捗状況情報の更新を行う（ステップＳ１２２）。取得が成功した場合には、収集した文書ファイルから知識ＤＢ１３１に登録すべき属性情報が取得され（ステップＳ１２２）、次いでテキスト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリンク先ＵＲＬの検出）が実行される（ステップＳ１２４）。リンク先ＵＲＬが検出された場合には、そのＵＲＬと、上述の起点ＵＲＬおよびリンク段数が結果ファイル２０４のＵＲＬリストに追加登録される（ステップＳ１２５）。この後、属性情報とテキストデータを登録ファイル上に記述する処理が行われる（ステップＳ１２６）。ここで、中断指示の有無が判定される（ステップＳ１２７）。中断指示が無い場合には（ステップＳ１２７のＮＯ）、結果ファイル２０４に未収集のＵＲＬが登録されているかどうかによってＷｅｂ収集処理が完了したかどうかが判断される（ステップＳ１２８）。
【００８１】
結果ファイル２０４に未収集のＵＲＬが登録されている場合には（ステップＳ１２８のＮＯ）、上述のステップＳ１２１からの処理が繰り返される。すなわち、結果ファイル２０４に追加されたＵＲＬで指定される文書ファイルの取得を行い（ステップＳ１２１）、その結果（収集日、収集日時、ステータスコード）を結果ファイル２０４に登録して進捗状況情報の更新を行う（ステップＳ１２２）。取得が成功した場合には、収集した文書ファイルから知識ＤＢ１３１に登録すべき属性情報が取得され（ステップＳ１２２）、次いでテキスト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリンク先ＵＲＬの検出）が実行される（ステップＳ１２４）。リンク先ＵＲＬが検出された場合には、そのＵＲＬと、起点ＵＲＬおよびリンク段数が結果ファイル２０４のＵＲＬリストに追加登録される（ステップＳ１２５）。この後、属性情報とテキストデータを登録ファイル１１４上に記述する処理が行われる（ステップＳ１２６）。このようなＷｅｂ収集処理が、設定ファイル２０３に設定されたＷｅｂ収集条件の収集範囲に於いて収集完了となるまで再帰的に実行される。このＷｅｂ収集時に於いて、「収集中断」ボタン７０１が押されると、制御ファイル２０２を通じて管理インターフェース１１２からＷｅｂ収集モジュール１１１に中断指示が発行されされ（ステップＳ１２７のＹＥＳ）、Ｗｅｂ収集モジュール１１１によって実行中のＷｅｂ収集タスクが中断される。
【００８２】
ここで、収集範囲として、図１０に示す設定画面の「収集ファイル形式」設定フォーム６０４上で、収集するリンクの段数、各リンク毎の収集ファイル個数等が設定された場合のＷｅｂ収集モジュール１１１で実行されるＷｅｂ収集処理について、図１６に示すフローチャートを参照して説明する。
【００８３】
図９に示される一覧画面上で「設定アンカ」５０２をクリックすると、図８の画面遷移図に示すように、図９に示される一覧画面から図１０に示される設定画面に遷移し、当該設定画面上で、「収集ファイル形式」設定フォーム６０４、「収集サイト」設定フォーム６０７等の設定を行うことにより、その各設定フォームの設定内容を含んだ設定ファイル２０３が作成される（ステップＳ２６１，２６２）。
【００８４】
本実施形態では、上記「収集サイト」設定フォーム６０７に於いて、起点ＵＲＬの設定フィールド上で、収集するサイトの起点ＵＲＬを設定し、更に、必要に応じて、リンク段数の上限設定フィールド上で、収集するリンクの段数を設定し、ファイル数の上限設定フィールド上で、各リンク毎の収集ファイル個数を設定する。この際、「収集サイト」設定フォーム６０７上で、上記した収集するリンクの段数、各リンク毎の収集ファイル個数の各設定以外に、収集するＵＲＬの文字列パターンの設定、収集しないＵＲＬの文字列パターンの設定、ドメイン内のみ収集の設定、収集するファイル形式の設定等、複数種の収集範囲が同時に設定可能であるが、本実施形態では、収集するリンクの段数を設定する設定フィールド、各リンク毎の収集ファイル個数を設定する設定フィールドの設定以外の収集範囲の設定については特に言及しない。
【００８５】
図１０に示される設定画面上で、上記したように「収集サイト」設定フォーム６０７の設定を行った後、当該設定画面上で「状況アンカ」５０３をクリックすると、図８の画面遷移図に示すように、図１０に示される設定画面から図１１に示される状況画面に遷移し（ステップＳ２６３）、当該状況画面上で、「収集開始」ボタン７０１を選択すると、図１５に示したＷｅｂ収集の処理が開始され、当該Ｗｅｂ収集処理に於いて、上記「収集サイト」設定フォーム６０７の設定内容に従う収集範囲の絞り込みによるＷｅｂ収集が可能となる。
【００８６】
この収集範囲の絞り込みとして、本実施形態では、収集するリンクの段数を設定された上限値をもとに規制する収集処理、および各リンク毎の収集ファイル個数を設定された上限値をもとに規制する収集処理を行う。
【００８７】
この収集処理では、設定ファイル２０３を参照して、まず起点ＵＲＬを読み込み（ステップＳ２６４〜Ｓ２６６）、収集する文書ファイルの個数が、設定された上限値の範囲内に収まっていることを確認して（ステップＳ２６７のＮＯ）、収集処理を実行する（ステップＳ２６８）。
【００８８】
ここで、上記する文書ファイルの個数が、設定された上限値に達した際、若しくは設定された上限値に達する以前のファイル個数で収集が終了した際（ステップＳ２６７のＹＥＳ）は、起点ＵＲＬから辿るすべてのリンク先（ＵＲＬ）について、設定されたリンク段数に達するまで、リンク先が更新され、上記した設定ファイル個数の範囲内での収集が繰り返し実行される（ステップＳ２６９のＮＯ，Ｓ２６６，Ｓ２６７のＮＯ，Ｓ２６８，Ｓ２６７，…，Ｓ２６９のＹＥＳ）。
【００８９】
このようにして、Ｗｅｂ収集モジュール１１１は、設定ファイル２０３に、収集するリンクの段数、各リンク毎の収集ファイル個数のいずれか若しくは双方が設定されているとき、その設定内容に従って、ネットワーク上から前記文書情報を収集する。これにより、収集するリンクの段数、および各リンク毎の収集ファイル個数を任意に指定して文書ファイルを収集することができる。
【００９０】
更に、上記した、収集するリンクの段数、各リンク毎の収集ファイル個数の各設定に加えて、収集するＵＲＬのパターンの設定、収集しないＵＲＬのパターンの設定、ドメイン内のみ収集の設定、収集するファイル形式の設定等、複数種の収集範囲が同時に設定可能であり、これらを組み合わせて、収集する文書ファイルに、フィルタリングを施すことで、所望する知識情報を、より適切に絞り込んで収集することができ、これにより、より高度の知識データベースを容易かつ迅速に効率よく構築できる。例えば、上記した、収集するリンクの段数、および各リンク毎の収集ファイル個数と、収集するファイル形式と、収集するＵＲＬのパターンと、収集しないＵＲＬのパターンとを組み合わせて設定することにより、指定した（設定した）、収集するリンクの段数、および各リンク毎の収集ファイル個数の中で、更に、収集するＵＲＬのパターン、収集しないＵＲＬのパターン、文書ファイルの形式等を指定して、所望の知識情報を収集することができる。
【００９１】
尚、本実施形態の知識情報収集システムの機能は全てコンピュータプログラムにより実現されているので、そのコンピュータプログラムをコンピュータ読み取り可能な記憶媒体に記憶しておき、その記憶媒体を通じて本コンピュータプログラムを、コンピュータネットワーク接続可能な通常のコンピュータに導入して実行させるだけで、本実施形態と同様の効果を容易に得ることができる。
【００９２】
また本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【００９３】
【発明の効果】
以上説明したように、本発明によれば、インターネット上からファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集することが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る知識情報収集システムの構成を示すブロック図。
【図２】同実施形態の知識情報収集システムに設けられたＷｅｂ収集モジュールの機能構成を示すブロック図。
【図３】同実施形態の知識情報収集システムで用いられる登録ファイルの出力形式の例を示す図。
【図４】同実施形態の知識情報収集システムで用いられる登録ファイルの出力形式の他の例を示す図。
【図５】同実施形態の知識情報収集システムに設けられたＷｅｂ収集モジュールの処理手順を示すフローチャート。
【図６】同実施形態の知識情報収集システムに設けられた登録モジュールの処理手順を示すフローチャート。
【図７】同実施形態の知識情報収集システムおけるＷｅｂコンテンツとその登録処理との関係を示す図。
【図８】同実施形態の知識情報収集システムによる提供される３つの画面とその遷移を説明するための図。
【図９】同実施形態の知識情報収集システムで用いられる一覧画面の例を示す図。
【図１０】同実施形態の知識情報収集システムで用いられる設定画面の例を示す図。
【図１１】同実施形態の知識情報収集システムで用いられる状況画面の例を示す図。
【図１２】同実施形態の知識情報収集システムで用いられる状況画面の例を示す図。
【図１３】同実施形態の知識情報収集システムにおけるＷｅｂ収集処理の中断／再開動作を説明するための図。
【図１４】同実施形態の知識情報収集システムに設けられた結果ファイルの内容の例を示す図。
【図１５】同実施形態の知識情報収集システムにおけるＷｅｂ収集処理の開始から中断までの処理手順を示すフローチャート。
【図１６】同実施形態の知識情報収集システムにおける、収集するリンクの段数、および各リンク毎の収集ファイル個数の設定、並びにその設定に伴うＷｅｂ収集処理の手順を示すフローチャート。
【符号の説明】
１１…Ｗｅｂ収集システム
１２…登録モジュール
１３…知識エンジン
３０…インターネット／イントラネット
１１１…Ｗｅｂ収集モジュール
１１２…管理インターフェース
１１３…登録ディレクトリ
１３１…知識データベース
１３２…検索エンジン
２０１…ロックファイル
２０２…制御ファイル
２０３…設定ファイル
２０４…結果ファイル
２０５…ログファイル
３０１…収集制御部
３０２…属性抽出部
３０３…テキスト抽出部
３０４…フォーマット変換部
６０７…「収集サイト」設定フォーム

Claims

知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムに於いて、
前記知識データベースに登録すべき文書情報を収集するサイトの設定を行う、起点ＵＲＬの設定フィールド、および収集範囲を規定する項目と、設定対象の収集タスクが同じ起点ＵＲＬからの再収集を行った時の振る舞いを指定する再収集モードを設定する項目とを含んだ収集サイト設定画面を表示する設定画面表示手段と、
前記設定画面表示手段により表示された設定画面上の設定内容をもとに設定ファイルを作成する設定ファイル作成手段と、
前記設定ファイル作成手段で作成された設定ファイルの内容をもとに前記知識データベースに登録すべき文書情報をネットワーク上から収集する情報収集手段とを有し、
前記情報収集手段は、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集する処理手段と、前記再収集モードを設定する項目に、再収集モードが設定されているとき、当該設定モードに従い、すべてのファイルを新たに収集する再収集処理、若しくは未収集のファイルのみを収集する再収集処理、若しくは更新されたファイルのみを収集する再収集処理を実行する処理手段とを具備したことを特徴とする知識情報収集システム。
知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムに於いて、
前記知識データベースに登録すべき文書情報を収集するサイトの設定を行う、起点ＵＲＬの設定フィールド、および収集範囲を規定する項目を含んだ収集サイト設定画面を表示する設定画面表示手段と、
前記設定画面表示手段により表示された設定画面上の設定内容をもとに設定ファイルを作成する設定ファイル作成手段と、
前記設定ファイル作成手段で作成された設定ファイルの内容をもとに前記知識データベースに登録すべき文書情報をネットワーク上から収集する情報収集手段とを有し、
前記収集サイト設定画面には、起点ＵＲＬの設定フィールドと、収集するリンクの段数、および各リンク毎の収集ファイル個数を設定する設定フィールドとを含む複数種の設定項目と、設定対象の収集タスクが同じ起点ＵＲＬからの再収集を行った時の振る舞いを指定する再収集モードを設定する項目とを有し、
前記情報収集手段は、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数、および各リンク毎の収集ファイル個数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、各リンク毎の収集ファイル個数、および収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集する処理手段と、前記再収集モードを設定する項目に、再収集モードが設定されているとき、当該設定モードに従い、すべてのファイルを新たに収集する再収集処理、若しくは未収集のファイルのみを収集する再収集処理、若しくは更新されたファイルのみを収集する再収集処理を実行する処理手段とを具備したことを特徴とする知識情報収集システム。
前記設定画面表示手段により表示される設定画面には、収集するＵＲＬの文字列パターンを設定する項目、収集範囲をドメイン内に設定する項目、収集するＵＲＬの文字列パターンを設定する項目、収集しないＵＲＬの文字列パターンを設定する項目、収集するリンクの上限を設定する項目の少なくともいずれかを含み、前記各項目の設定内容が前記収集するリンクの段数の設定項目の設定内容に反映される請求項１または２記載の知識情報収集システム。
知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集方法に於いて、
前記知識データベースに登録すべき文書情報を収集するサイトの設定を行う、起点ＵＲＬの設定フィールド、および収集範囲を規定する項目と、設定対象の収集タスクが同じ起点ＵＲＬからの再収集を行った時の振る舞いを指定する再収集モードを設定する項目とを含んだ収集サイト設定画面を表示する設定画面表示ステップと、
前記設定画面表示ステップにより表示された設定画面上の設定内容をもとに設定ファイルを作成する設定ファイル作成ステップと、
前記設定ファイル作成ステップで作成された設定ファイルの内容をもとに前記知識データベースに登録すべき文書情報をネットワーク上から収集する収集ステップとを有し、
前記収集ステップは、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集し、前記再収集モードを設定する項目に、再収集モードが設定されているとき、当該設定モードに従い、すべてのファイルを新たに収集する再収集処理、若しくは未収集のファイルのみを収集する再収集処理、若しくは更新されたファイルのみを収集する再収集処理を実行する
ことを特徴とする知識情報収集方法。
知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムに於いて、
前記知識データベースに登録すべき文書情報を収集するサイトの設定を行う、起点ＵＲＬの設定フィールド、および収集範囲を規定する項目と、設定対象の収集タスクが同じ起点ＵＲＬからの再収集を行った時の振る舞いを指定する再収集モードを設定する項目とを含んだ収集サイト設定画面を表示する設定画面表示ステップと、
前記設定画面表示ステップにより表示された設定画面上の設定内容をもとに設定ファイルを作成する設定ファイル作成ステップと、
前記設定ファイル作成ステップで作成された設定ファイルの内容をもとに前記知識データベースに登録すべき文書情報をネットワーク上から収集する収集ステップとを有し、
前記収集ステップは、前記設定ファイルに、起点ＵＲＬが設定され、かつ収集するリンクの段数、および各リンク毎の収集ファイル個数が設定されているとき、前記設定された起点ＵＲＬおよび辿るリンク先のそれぞれについて、前記設定された、各リンク毎の収集ファイル個数、および収集するリンクの段数を上限に、前記ネットワーク上から前記文書情報を収集する収集処理を実行し、前記再収集モードを設定する項目に、再収集モードが設定されているとき、当該設定モードに従い、すべてのファイルを新たに収集する再収集処理、若しくは未収集のファイルのみを収集する再収集処理、若しくは更新されたファイルのみを収集する再収集処理を実行する
ことを特徴とする知識情報収集方法。