JP3725835B2

JP3725835B2 - 知識情報収集システムおよび知識情報収集方法

Info

Publication number: JP3725835B2
Application number: JP2002108416A
Authority: JP
Inventors: 一彦渥美; 真代豊田; 弘二塩田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-04-10
Filing date: 2002-04-10
Publication date: 2005-12-14
Anticipated expiration: 2022-04-10
Also published as: JP2003303199A

Description

【０００１】
【発明の属する技術分野】
本発明はナレッジマネジメントシステムで用いられる知識情報収集システムおよび知識情報収集方法に関し、特に知識データベースに登録すべき文書情報をネットワーク上から収集するための知識情報収集システムおよび知識情報収集方法に関する。
【０００２】
【従来の技術】
近年、企業を中心に複数のユーザ間で情報共有を行うためのグループウェアの導入が進められている。代表的なグループウェアとしては、電子メールシステムやワークフローシステムなどが知られているが、最近では、知識情報の共有支援を図るためのナレッジマネジメントシステムも開発され始めている。
【０００３】
このナレッジマネジメントシステムは、個人のノウハウなどの知識情報を知識データベースに蓄積・管理するためのものであり、自然言語検索などの検索機能と組み合わせることにより、蓄積された知識情報の効率的な活用が可能となる。
【０００４】
ところで、このようなナレッジマネジメントシステムにおいては、知識情報をいかに効率よく収集・蓄積するかが重要なポイントとなる。特にインターネット上のＷｅｂ情報は知識の宝庫であるので、インターネット上から必要な情報を効率良く収集するための仕組みが必要とされている。
【０００５】
【発明が解決しようとする課題】
しかし、インターネットからのＷｅｂ情報の収集に際してはリンク情報を辿りながら互いに関連する大量の文書ファイル群それぞれを順次収集することが必要となるので、その収集処理には通常多くの時間を要する。さらに、インターネットから収集した文書情報を知識として使用できるようにするためには、その文書情報をナレッジマネジメントシステムの知識データベースに登録することが必要であるので、その登録処理にも時間を要することとなる。
【０００６】
このため、特に、収集起点が異なる複数の収集処理の設定を行ってその収集結果を知識データベースに登録するような場合には、設定した収集処理毎にその進捗状況は大きく異なるので、どの収集処理がどのような収集／登録の処理状況であるかを把握することは困難となる。また、Ｗｅｂ情報の収集と、例えばデータベースなどの他の情報源からの情報収集などとを同時に行うような場合も、同様の問題が生じることになる。
【０００７】
本発明はこのような事情を考慮してなされたものであり、複数の文書収集処理それぞれの収集／登録の処理状況を容易に把握することが可能な知識情報収集システムおよび知識情報収集方法を提供することを目的とする。
【０００８】
【課題を解決するための手段】
上述の課題を解決するため、本発明は、知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムにおいて、前記ネットワーク上からの文書ファイル群の収集条件を示す複数の設定情報それぞれに基づいて、前記複数の設定情報それぞれに対応する複数の文書収集処理を実行する文書収集手段であって、処理対象の文書収集処理毎にその開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記処理対象の文書収集処理の進捗に合わせて、当該文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む文書収集手段と、前記各文書収集処理の完了の度に前記文書収集手段から発行される登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録手段であって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録手段と、現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記文書収集処理が開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示手段とを具備することを特徴とする。
【０００９】
この知識情報収集システムでは、文書収集手段においては、各文書収集処理の開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルが作成され、その文書収集処理の進捗に合わせて、当該文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報が書き込まれる。そして、各文書収集処理の完了の度に文書収集手段から登録要求が発行され、その登録要求の受付け順に、登録手段による登録処理が実行される。この登録手段においては、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報が書き込まれる。また、登録手段は、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する。このように、各文書収集処理毎に作成されるステータス情報ファイルを用いて、文書収集処理毎にその文書収集処理の進捗状況と登録処理の進捗状況とを同一のステータス情報ファイルに書き込むことにより、文書収集処理が開始された文書収集処理それぞれに関する収集／登録の状況を個別に管理することが出来る。そして、ステータス表示手段は、現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて、文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する。よって、複数の文書収集処理それぞれの収集／登録の処理状況を容易に把握することが可能となる。
【００１０】
また本発明は、知識データベースに登録すべき文書情報を収集する知識情報収集システムにおいて、互いに異なる複数種の情報源それぞれに対応して設けられ、各々がそれに対応する情報源から文書ファイル群を収集するための文書収集処理を実行する複数の文書収集手段であって、各文書収集手段は、文書収集処理の開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記文書収集処理の進捗に合わせて、前記文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む複数の文書収集手段と、前記複数の文書収集手段の各々がその文書収集処理を完了する度に発行する登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録手段であって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録手段と、現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記複数の文書収集手段よって開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記複数の文書収集手段それぞれの文書収集処理に関する収集開始から登録までの間における現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示手段とを具備することを特徴とする。
【００１１】
この知識情報収集システムでは、複数の文書収集手段が設けられており、互いに異なる複数種の情報源を対象にした文書収集処理がそれぞれ実行されるが、この場合においても、文書収集処理それぞれに対応して作成されるステータス情報ファイルを用いて、文書収集処理毎にその文書収集処理の進捗状況と登録処理の進捗状況とを同一のステータス情報ファイルに書き込み、そして登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除することにより、例えば、ネットワークからの収集、ファイリングシステムからの収集、データベースからの収集などといった様々な収集処理それぞれに関する収集／登録の状況を管理することが出来る。
【００１２】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
図１には、本発明の一実施形態に係る知識情報収集システムを用いたナレッジマネジメントシステム全体の構成が示されている。このナレッジマネジメントシステムは知識情報の収集・分析・検索等のサービスを提供するためのものであり、Ｗｅｂ収集システム１１、登録モジュール１２、および知識エンジン１３などから構成されている。これらＷｅｂ収集システム１１、登録モジュール１２および知識エンジン１３は、サーバコンピュータ上で実行されるプログラムとして実現されている。Ｗｅｂ収集システム１１および登録モジュール１２は、ナレッジマネジメントシステムで用いられる知識情報を収集するための知識情報収集システムを構成する。この知識情報収集システムは、Ｗｅｂページなどの文書をインターネット／イントラネット３０上から収集してその文書の内容をナレッジマネジメントシステムの知識データベース（知識ＤＢ）１３１に登録するという処理を実行する。Ｗｅｂ収集システム１１は、Ｗｅｂ収集モジュール１１１、管理インターフェース１１２、および登録ディレクトリ１１３から構成されている。
【００１３】
Ｗｅｂ収集モジュール１１１はインターネット/イントラネット３０上の各種文書ファイルを収集してそれを知識ＤＢ１３１に登録できる形式で出力するためプログラムである。このＷｅｂ収集モジュール１１１はマルチスレッド構造を有しており、ＨＴＴＰ（HyperText Transfer Protocol）によるインターネット/イントラネット３０上からの文書ファイル取得処理を並列的に行うことが出来る。ＨＴＴＰはインターネット/イントラネット３０上の情報サイト（Ｗｅｂサイト）である各Ｗｅｂサーバ３１からＨＴＭＬ（Hyper Text Markup Language）で記述された文書を取得するための通信プロトコルである。Ｗｅｂ収集モジュール１１１は、Ｗｅｂ収集条件を指定する設定情報で指定されたＵＲＬ（Uniform Resource Locator）の文書ファイルをインターネット/イントラネット３０上から取得し、取得した文書ファイルにリンク先のＵＲＬが含まれていればそのＵＲＬの文書ファイルをさらに取得する、という再帰的な処理を行って、インターネット/イントラネット３０上から関連する文書ファイル群を順次取得する。この場合、他の文書ファイルへのリンク情報（ＵＲＬ）を検出するためには取得した文書ファイルを解析することが必要となるが、その解析処理の中では、リンク情報の検出のみならず、知識ＤＢ１３１に登録すべきテキストデータの抽出も併せて実行される。
【００１４】
収集対象の文書ファイルは、他のファイルへのリンク情報であるＵＲＬを記述可能なハイパーテキストファイル（ＨＴＭＬファイル）のみならず、テキストファイル（plane text)、さらには各種アプリケーションプログラムによって作成された様々なファイル形式の文書ファイル（例えば、Portable Document Format形式のファイル、ワードプロセッサソフトウェアで作成した文書ファイル、表計算ソフトウェアで作成したファイル、プレゼンテーションデータ作成ソフトウェアで作成したプレゼンテーションデータのファイル、など）も収集対象となる。
【００１５】
Ｗｅｂ収集モジュール１１１では、インターネット/イントラネット３０上から収集した各文書ファイルに対して知識ＤＢ１３１に登録すべき属性情報の取得と上述のテキストデータの抽出が行われる。各文書ファイルから取得される属性情報は、例えば、当該文書ファイルのＵＲＬ、ファイル作成日時（更新日時）等である。そして、Ｗｅｂ収集モジュール１１１では、それら各文書ファイルの属性情報とテキストデータが記述された登録ファイルが作成されて、それが登録ディレクトリ１１３上に出力される。ここで、登録ファイルとは、ファイル形式の異なる複数種の文書ファイルそれぞれの文書情報を知識ＤＢ１３１に登録するための共通インターフェースとして予め決められた記述形式を持つファイルを意味する。この登録ファイルは、複数種の文書ファイルそれぞれの文書情報を知識ＤＢ１３１に共通フォーマットで登録するために利用される。本実施形態では、登録ファイルとしてＸＭＬ（eXtensible Markup Language）を使用する。
【００１６】
管理インターフェース１１２は、Ｗｅｂ収集モジュール１１１に実行させる各Ｗｅｂ収集処理（以下、Ｗｅｂ収集処理タスクという）の内容を設定するためのプログラムであり、各Ｗｅｂ収集処理タスク毎にそのＷｅｂ収集条件の設定および管理、Ｗｅｂ収集モジュール１１１の起動・停止の制御、さらには各Ｗｅｂ収集処理タスクの収集状況の管理・提示等の機能を有している。この管理インターフェース１１２は、管理者ユーザがそのユーザ端末のＷｅｂブラウザ２１上から必要な操作を行えるように、Ｗｅｂサーバ２２がＣＧＩ（Common Gateway Interface）を通じて起動可能な外部プログラム（ＣＧＩプログラム）として実現されている。
【００１７】
またＷｅｂ収集システム１１には、Ｗｅｂ収集モジュール１１１の動作を管理・制御するためのファイルとして、図示のように、ロックファイル２０１、制御ファイル２０２、設定ファイル２０３、結果ファイル２０４、およびログファイル２０５が設けられている。
【００１８】
ロックファイル２０１はＷｅｂ収集モジュール１１１の２重起動を防止するための排他制御用のファイルである。制御ファイル２０２は管理インターフェース１１２がＷｅｂ収集モジュール１１１を停止させるために使用するファイルであり、例えば、管理者ユーザからの指示に応答して、実行中のＷｅｂ収集処理タスクを途中で中断させる場合などに利用される。収集実行中における中断の指定は、管理者ユーザが管理インターフェース１１２を通じて行うことができる。
【００１９】
設定ファイル２０３は、各Ｗｅｂ収集処理タスク毎にそのＷｅｂ収集条件を指定する設定情報を記述するためのファイルであり、ここには複数のＷｅｂ収集処理タスクそれぞれに対応する複数の設定情報を保持することが出来る。各Ｗｅｂ収集処理タスクのＷｅｂ収集条件は、管理者ユーザによって設定される。Ｗｅｂ収集条件には、少なくとも、インターネット/イントラネット３０からの情報収集の起点とすべき文書ファイルの所在を示す起点アドレス情報（起点ＵＲＬ）と、収集対象とすべき文書ファイル数またはリンク段数の上限値を示す収集範囲情報、等が含まれている。このＷｅｂ収集条件に基づいてＷｅｂ収集モジュール１１１のＷｅｂ収集動作が制御される。すなわち、Ｗｅｂ収集モジュール１１１は、起点ＵＲＬで指定される文書ファイルを起点にそれに関連する文書ファイル群を、収集範囲情報で規定される範囲内で順次収集する。
【００２０】
また、Ｗｅｂ収集条件には、登録先の知識データベースを指定する知識データベース名も含まれている。すなわち、知識ＤＢ１３１においては蓄積文書の種類が互いに異なる複数の知識データベースが定義されており、それら複数の知識データベースがそれぞれの知識データベース名で管理されている。設定ファイル２０３の設定情報によってＷｅｂ収集タスク毎に登録先の知識データベース名を指定することにより、収集した文書情報を知識ＤＢ１３１内の任意の知識データベースに登録することが出来る。
【００２１】
さらに、収集範囲情報として、収集対象とすべきファイル形式の種類、再収集を行う時の収集条件、等を設定することもできる。ここで、再収集とは、例えばＷｅｂ収集モジュール１１１に同一のＷｅｂ収集処理タスクを定期的に実行させる場合における２度目以降のＷｅｂ収集処理や、一旦中断したＷｅｂ収集処理タスクを再開させた場合のＷｅｂ収集処理を言う。
【００２２】
結果ファイル２０４は、以前に収集した文書ファイルの一覧等をＷｅｂ収集処理の結果として各Ｗｅｂ収集タスク毎に管理するためのファイルであり、ここには、Ｗｅｂ収集の結果として取得したＵＲＬのリスト、取得日時、取得した文書ファイル件数、などが各Ｗｅｂ収集処理タスク毎に出力される。この結果ファイル２０４はＷｅｂ収集処理タスクそれぞれの収集状況をユーザに提示する目的と、再収集の効率化の目的に用いられる。この結果ファイル２０４を用いることにより、過去に収集済みの文書ファイルの中でインターネット/イントラネット３０上の情報サイトから削除された文書ファイルを検出したり、Ｗｅｂ収集処理を途中で中断した場合における再開ポイントの検出、さらには以前の収集時点からインターネット/イントラネット３０上で更新されている文書ファイルの検出などを行うことが出来る。
【００２３】
ログフィル２０５は、Ｗｅｂ収集モジュール１１１による文書ファイルの取得の成否やエラーの種類などを管理するファイルである。
【００２４】
登録ディレクトリ１１３は、知識ＤＢ１３１に登録すべき文書内容を出力するための記憶領域である。ここには、Ｗｅｂ収集モジュール１１１によって各文書ファイルから抽出された属性情報とテキストデータが記述された上述の登録ファイルが出力される。Ｗｅｂ収集モジュール１１１は、テキストデータの抽出に関して第１および第２の２つの処理モードを有する。
【００２５】
第１処理モードでは、全てのファイル形式の文書ファイルを対象に解析処理を行ってテキストデータの抽出、さらにはリンク情報（ＵＲＬ）の検出が行われる（ＵＲＬの検出はＨＴＭＬファイルのみが対象）。第２処理モードでは、ＨＴＭＬファイルとテキストファイル（PlainText）のみを対象に解析処理を行ってテキストデータの抽出、さらにはリンク情報（ＵＲＬ）の検出が行われ（ＵＲＬの検出はＨＴＭＬファイルのみが対象）、例えばPortable Document Format等の他のファイル形式の文書ファイル（以下、コンテンツファイルという）に対しては解析処理は行われない。
【００２６】
第２処理モードを使用した場合、ＨＴＭＬとＰｌａｉｎＴｅｘｔについては、そのテキストデータと属性情報が登録ファイル上に記述されて登録ディレクトリ１１３上に出力される。一方、Portable Document Formatなど他の形式のファイルについてはそのコンテンツファイルがそのまま登録ディレクトリ１１３上に出力され、登録ファイル上には当該ファイルの属性情報とコンテンツファイルのパス名が記述される。なお、第２処理モードにおいては、リンク情報の検出のための解析処理が必要なファイルを対象にその解析処理の中でテキストデータの抽出も併せて実行するという点が肝要であるので、ＨＴＭＬファイルのみを対象にテキストデータの抽出を行うようにしても良い。
【００２７】
第１および第２のどちらの処理モードにおいても、Ｗｅｂ収集モジュール１１１は実行中のＷｅｂ収集タスクの処理が完了した時に、登録モジュール１２に対して登録要求ファイルを発行して文書の登録を登録モジュール１２に要求する。登録要求ファイルには、登録ファイルのファイル名、登録先の知識データベース名などが記述されている。
【００２８】
登録モジュール１２は、Ｗｅｂ収集モジュール１１１によって収集された各文書ファイルの属性情報およびテキストデータを知識ＤＢ１３１に登録する。すなわち、登録モジュール１２は、Ｗｅｂ収集モジュール１１１からの登録要求に応答して該当する登録ファイルを取得し、その登録ファイル上に文書ファイル毎に記述されている属性情報およびテキストデータを取り出して、知識ＤＢ１３１の登録先知識データベースに登録する。また、この登録モジュール１２はテキストデータの抽出機能も有しており、登録ファイルにコンテンツファイルのパス名が記述されている場合は、登録モジュール１２は、そのパス名で指定されるコンテンツファイルからテキストデータを抽出して知識ＤＢ１３１の該当する登録先知識データベースに登録する。
【００２９】
さらに、登録モジュール１２は、Ｗｅｂ収集モジュール１１１以外の他の収集モジュールによって収集された文書の登録処理も実行する。他の収集モジュールとしては、例えば、電子ファイリングシステムのファイルサーバから文書情報を収集するファイル収集モジュール、ＲＤＢデータベースサーバからそこに管理されている文書情報を収集するデータベース（ＲＤＢ）収集モジュール、電子掲示板形式のコミュニティからそこに投稿された文書情報を収集するコミュニティ収集モジュール、ユーザが任意の各種アプリケーションプログラムの文書ファイルを登録ファイル（ＸＭＬ）の出力形式に変換するために使用するユーザ収集モジュール等がある。登録モジュール１２はこれら各収集モジュールによって共通に利用される。どの収集モジュールについても、登録モジュール１２に対するインターフェースとしては上述のＸＭＬ形式の登録ファイルが用いられる。すなわち、登録モジュール１２は、各収集モジュールが収集タスクを完了する度に発行する登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果である登録ファイルの内容を知識ＤＢ１３１の該当する登録先知識データベースに登録するための登録処理を順次実行する。
【００３０】
知識エンジン１３は、知識ＤＢ１３１に蓄積された情報を活用するための知識分析処理を行う。この知識分析処理では、知識ＤＢ１３１に蓄積された大量の文書情報それぞれの特徴を分析して重要語を抽出する処理や、それら文書情報を特徴別に複数のカテゴリに分類および整理するクラスタリング処理などが行われる。この知識エンジン１３には自然言語検索を行うための知識エンジン１３２が設けられており、各ユーザはそのユーザ端末のＷｅｂブラウザ４１からＷｅｂサーバ４２を通じて知識エンジン１３２をアクセスすることにより、Ｗｅｂブラウザ４１上から知識ＤＢ１３１に蓄積された知識の検索を行うことが出来る。知識ＤＢ１３１に蓄積された各文書の属性情報にはその文書のＵＲＬも含まれているので、そのオリジナル文書を該当する情報サイトから取得してＷｅｂブラウザ４１上に表示することが出来る。なお、検索処理は、ある知識データベース名を選択してその選択した知識データベースのみを対象に行ったり、あるいは知識ＤＢ１３１内の全ての知識データベースを対象に行うことが出来る。
【００３１】
次に、図２を参照して、Ｗｅｂ収集モジュール１１１の機能構成について説明する。
Ｗｅｂ収集モジュール１１１は、図示のように、収集制御部３０１、属性抽出部３０２、テキスト抽出部３０３、およびフォーマット変換部３０４を有している。収集制御部３０１は、設定ファイル２０３に保持されている全ての設定情報それぞれについて、その設定情報で指定されたＷｅｂ収集タスクを順番に一つずつ実行する。各Ｗｅｂ収集タスク毎に設定情報で指定された起点ＵＲＬを起点として、インターネット/イントラネット３０から関連する文書ファイル群を順次収集する。取得した文書ファイルに含まれるリンク先文書へのＵＲＬはＵＲＬリスト３０５に追加されて行き、ＵＲＬリスト３０５からＵＲＬを取得しながらが収集処理が再帰的に実行される。ＵＲＬリスト３０５としては、上述の結果ファイル２０４を用いることが出来る。収集範囲は設定ファイル２０３に保持されている収集条件によって制限される。
【００３２】
収集された各文書ファイルはまず属性抽出部３０２に送られ、そこで各文書ファイルの属性情報が取得される。次いで、テキスト抽出部３０３にて文書の解析処理が行われ、知識ＤＢ１３１に登録すべきテキストデータと、次に取得すべきリンク先ＵＲＬの抽出が行われる。例えば、ＨＴＭＬファイルに対しては、テキストデータの抽出は、ＨＴＭＬのタグ以外の部分を抜き出すことによって行う。抽出されたテキストはタイトルとボディ(本文)とに分けられる。リンク先ＵＲＬの取得は、Aタグ、AREFタグのHREFの値、FRAMEタグ、IFRAMEタグ、LAYERタグのSRCの値、METAタグのREFRESHの値を取得することによって行われる。上述の第２の処理モードで動作する場合には、テキスト抽出部３０３の処理はＨＴＭＬファイルとテキストファイルに対してのみ行われ、Portable Document Format等の他のファイル形式の文書ファイルに対しては行われない。
【００３３】
各文書ファイルから取得された属性情報とテキストデータはフォーマット変換部３０４に送られ、そこでＸＭＬの登録ファイルの記述形式に従う出力フォーマットに整形されて登録ディレクトリ１１３上に出力される。一つの登録ファイルには、例えば１０００個程度の文書ファイルについての属性情報およびテキストデータが記述される。テキスト抽出が行われなかった文書ファイルについては属性情報とパス名が登録ファイル上に記述される。
【００３４】
以上の処理は、再収集によって収集された各文書ファイルに対しても同様に行われる。
【００３５】
次に、図３および図４を参照して、登録ファイルの出力フォーマットの例を説明する。
【００３６】
図３は、テキスト抽出部３０３にてテキスト抽出を行う場合の出力フォーマットの例を示している。ファイルの先頭のタグ＜?xml version="1.0" encoding="Shift_JIS"?＞、＜KnowledgeSystem＞はファイルの始まりを示し、また末尾のタグ＜/KnowledgeSystem＞はファイルの終わりを示している。
【００３７】
＜RECORD＞と＜/RECORD＞で囲まれた各レコード内に、１つの文書ファイルの属性情報とテキストデータが記述される。各レコード内のタグの意味は次の通りである。
【００３８】
MODE ：登録モジュール１２の動作モードを指定するモード情報である。このモード情報は、各文書ファイル毎に知識ＤＢ１３１に対する文書情報（テキストデータおよび属性）の登録または削除を指示する。2＝登録(上書き)か、0＝削除、のいずれかとなる。削除の場合は、下記のタグのうち、TYPEとUNIQUE以外は出力されない。
【００３９】
TYPE ：収集のタイプを示す。本例では常に“Ｗｅｂ収集”となる。
UNIQUE ：知識ＤＢ１３１に登録される当該文書ファイルを識別するためのユニークキーである。通常は、当該文書のＵＲＬがユニークキーとして用いられる。
【００４０】
ORGDATE ：文書ファイルの作成日時（または更新日時)を示す。
TITLE ：文書ファイルのタイトルを示す。ＨＴＭＬファイルのタイトル部から抽出されたテキストデータがタイトルとなる。ＨＴＭＬファイル以外のファイルについてはタイトルは出力されない。このタイトルは、検索画面上に表示される各文書ファイルのタイトルとして使用される。
【００４１】
AUTHOR ：文書ファイルを所有する情報サイトのホスト名（ＵＲＬのホストアドレス）を記述する。
DATE ：上記ORGDATEの日付部分を記述する。
URL ：文書ファイルのＵＲＬ。UNIQUEと同じ値である。
BODY ：文書ファイルから抽出されたテキストデータが記述される。
【００４２】
図４は、テキスト抽出部３０３にてテキスト抽出を行わなかった文書ファイルに関する出力フォーマットの例を示している。
【００４３】
BODYにはテキストデータは記述されず、＜BDYFILE＞＜/BDYFILE＞で囲まれた領域のPATH1に、登録ディレクトリ１１３上に出力される上記コンテンツファイルへのパス名が記述される。DEL＝1は、登録モジュール１２に対してコンテンツファイルからのテキストデータの抽出後に登録ディレクトリ１１３上の元ファイルを削除することを指示するものである。Ｗｅｂ収集モジュール１１１が第２処理モードで動作する場合には、ＨＴＭＬファイルとプレーンテキストについてはBODYにはテキストデータが記述され、他のファイル形式の文書ファイル（コンテンツファイル）についてはBDYFILEにそのコンテンツファイルのパス名が記述されることになる。
【００４４】
次に、図５のフローチャートを参照して、収集した文書ファイルに対してＷｅｂ収集モジュール１１１内で実行される一連の処理の手順について説明する。
【００４５】
まず、収集した文書ファイルから知識ＤＢ１３１に登録すべき属性情報（URL、AUTHOR、ORGDATE、DATE）が取得される（ステップＳ１０１）。属性情報の取得は、ＨＴＴＰによって情報サイトから返される値や、収集した文書ファイル内に付加されている値などを用いる事が出来る。この後、第２処理モードにおいては、収集した文書ファイルの拡張子などに基づいてそのファイル種別が判定され、ＨＴＭＬファイルまたはプレーンテキストファイルであるか、あるいはそれ以外の他のファイル形式のファイルであるかが判別される（ステップＳ１０２，Ｓ１０３）。収集した文書ファイルがＨＴＭＬファイルまたはプレーンテキストファイルである場合には（ステップＳ１０３のＹＥＳ）、上述のテキスト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリンクＵＲＬの検出）が実行され（ステップＳ１０４）、そして属性情報とテキストデータを上述の形式で登録ファイル上に記述する処理（テキストデータをBODYに挿入）が行われる（ステップＳ１０５）。一方、ＨＴＭＬファイルまたはプレーンテキストファイル以外の他のファイル形式のファイルであれば（ステップＳ１０３のＮＯ）、当該ファイルが登録ディレクトリ１１３上にそのまま出力され（ステップＳ１０６）、その後、属性情報と当該ファイルのパス名を登録ファイル上に記述する処理（パス名をBDYFILEに記述）が行われる（ステップＳ１０７）。
【００４６】
なお、目的のＵＲＬの文書ファイルがインターネット／イントラネット３０上から取得できなかった場合には、当該文書ファイルの内容が既に知識ＤＢ１３１に登録されていることを条件に、モード情報（MODE）＝0（削除）が登録ファイル上に記述される。
【００４７】
また、第１処理モードにおいては、ステップＳ１０２，Ｓ１０３の処理は行われず、全ての取得ファイルを対象にステップＳ１０４，Ｓ１０５の処理が実行される。
【００４８】
次に、図６のフローチャートを参照して、登録モジュール１２によって実行される登録処理の手順を説明する。
【００４９】
Ｗｅｂ収集モジュール１１１から登録要求を受けた登録モジュール１２は、Ｗｅｂ収集モジュール１１１からの登録要求ファイルで指定された登録ファイル（ＸＭＬファイル）を登録ディレクトリ１１３から取得し、そしてその登録ファイルから１つずつレコードを取り出しながら、レコード毎に以下の処理を行う。まず、処理対象レコード内のモード情報がMODE＝０であるかMODE＝２であるかが調べられる（ステップＳ１１１，Ｓ１１２）。
【００５０】
MODE＝２の場合は、登録モジュール１２は、レコード内の各タグに従って、そのタグ内に記述されたデータ項目（TYPE、UNIQUE、ORGDATE、TITLE、AUTHOR、DATE、URL、BODYそれぞれの内容）を、登録要求ファイルで指定された知識ＤＢ１３１内の登録先知識データベースに登録する（ステップＳ１１３）。BODYのタグ内にテキストデータが存在しない場合には、そのテキストデータの登録は行われない。次いで、BDYFILEのタグ内にパス名が記述されているかどうかが判定される（ステップＳ１１４）。パス名が記述されている場合には（ステップＳ１１４のＹＥＳ）、そのパス名で指定される記憶領域から該当するコンテンツファイルが取得され（ステップＳ１１５）、そのコンテンツファイルからテキストデータを抽出する処理が行われる（ステップＳ１１６）。そして、その抽出された内容が該当する文書ファイルのテキストデータとして登録先知識データベースに登録される（ステップＳ１１７）。
【００５１】
MODE＝０の場合は、レコード内のUNIQUEで指定される登録済みの文書ファイルの属性情報とテキストデータが知識ＤＢ１３１からサーチされ、その登録内容が登録先知識データベースから削除される（ステップＳ１１８）。
【００５２】
Ｗｅｂ収集モジュール１１１以外の他の各収集モジュールからの登録要求に対しても、同様の処理が実行される。本システムでは登録モジュール１２は一つであるので、登録処理は順番に一つずつ実行されることになる。
【００５３】
図７には、インターネット／イントラネット３０上における文書ファイル（Ｗｅｂコンテンツ）の状態と知識ＤＢ１３１に対して行うべき登録／削除処理との関係が示されている。本実施形態においては、出来る限りインターネット／イントラネット３０上における最新のＷｅｂコンテンツの状態を知識ＤＢ１３１に反映させるというポリシーに基づき、以下の処理が行われる。
【００５４】
（１）更新されたＷｅｂコンテンツは、知識ＤＢ１３１に上書きする（MODE＝２）。更新されたＷｅｂコンテンツの属性情報およびテキストデータを登録する場合、そのUNIQUEは、知識ＤＢ１３１に既に登録されている更新前のＷｅｂコンテンツのUNIQUEと同一である。よって、MODE＝２により、知識ＤＢ１３１に既に登録されている更新前のＷｅｂコンテンツの属性情報およびテキストデータが、更新されたＷｅｂコンテンツの属性情報およびテキストデータに更新（上書き）される。
【００５５】
（２）追加されたＷｅｂコンテンツは、知識ＤＢ１３１に追加登録する（MODE＝２）。追加されたＷｅｂコンテンツの属性情報およびテキストデータを登録する場合、そのUNIQUEは、知識ＤＢ１３１に未登録である。よって、MODE＝２により、追加されたＷｅｂコンテンツの属性情報およびテキストデータを知識ＤＢ１３１に追加登録することが出来る。
【００５６】
（３）削除されたＷｅｂコンテンツは、知識ＤＢ１３１からも削除する（MODE＝０）。
【００５７】
次に、管理インターフェース１１２によって提供される機能を具体的に説明する。管理インターフェース１１２は上述のようにＷｅｂ収集タスクの設定・管理・実行を行うためのユーザインタフェースであり、１）Ｗｅｂ収集タスクの設定を複数個作成して設定ファイル２０４に保存する機能、２）収集の設定の一覧表示、削除、などの管理作業を行う機能、３）収集の起動と終了（中断と再開）を行う機能、４）収集の状況や実績をリアルタイムに呈示するステータス一覧表示機能、を管理者ユーザに提供する。ステータス一覧表示機能は、全ての収集タスクそれぞれの収集／登録の状況の一覧を管理者ユーザのＷｅｂブラウザ２１の画面上に表示する機能であり、各収集タスク毎にその状況を管理者ユーザが容易に把握できるように「収集中」、「登録待ち」、「登録中」などのステータスを表示する。
【００５８】
ここで、「収集中」は、該当する収集タスクが開始され収集処理中であることを示すステータスである。「収集中」の場合には現在の収集済み件数も表示される。「登録待ち」は、該当する収集タスクの収集処理が完了し、登録モジュール１２による登録処理待ちであることを示すステータスである。「登録中」は、登録モジュール１２による登録処理が開始され登録処理中であることを示すステータスである。「登録中」の場合には現在の登録済み件数も表示される。収集／登録の状況を示すステータスは、「収集中」→「登録待ち」→「登録中」の順に更新される。
【００５９】
次に、図８を参照して、収集タスクそれぞれのステータス一覧表示を実現するための仕組みについて説明する。
【００６０】
上述したように、本システムにおいては、Ｗｅｂ収集モジュール１１１のみならず、ファイル収集モジュール、ＲＤＢ収集モジュール、コミュニティ収集モジュール、およびユーザ収集モジュールも動作しており、登録モジュール１２は、これら複数の収集モジュールによって共通に利用される。ステータス管理のために各収集モジュールが実行する処理はどれも同じであるので、以下では、Ｗｅｂ収集モジュール１１１に着目して、そのステータス管理のための機能を説明する。
【００６１】
Ｗｅｂ収集モジュール１１１は、設定ファイル２０３に保持されている複数の設定情報それぞれで指定される複数のＷｅｂ収集タスクを順次実行する。この場合、Ｗｅｂ収集モジュール１１１は、処理対象のＷｅｂ収集タスク毎に、その開始時に当該Ｗｅｂ収集タスクに固有のステータス情報ファイル３１１を作成する。このステータス情報ファイル３１１は、当該Ｗｅｂ収集タスクの収集開始から登録までの間における進捗状況を管理するためのファイルであり、例えば、当該Ｗｅｂ収集タスクの設定名とその収集開始の年月日時分秒とを含むファイル名等で管理される。ファイル作成時には、ステータス情報ファイル３１１に「収集中」を示すステータス情報が書き込まれる。そして、ステータス情報ファイル３１１内の収集件数の値を更新しながら、Ｗｅｂ収集モジュール１１１による収集処理が行われる。Ｗｅｂ収集モジュール１１１による収集処理が完了した場合、Ｗｅｂ収集モジュール１１１は、ステータス情報ファイル３１１に「登録待ち」を示すステータス情報を書き込んでステータスを「収集中」から「登録待ち」に更新した後、当該Ｗｅｂ収集タスクで収集した文書情報を記述した登録ファイル（ＸＭＬファイル）と、登録要求を含む登録要求ファイルを登録モジュール１２に出力する。登録要求ファイルには、該当するＷｅｂ収集タスクに対応したステータス情報ファイル３１１のファイル名等が含まれている。
【００６２】
登録モジュール１２は、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっているＷｅｂ収集タスクに対応したステータス情報ファイル３１１に当該登録処理の進捗状況を示すステータス情報を書き込む。この場合、登録処理の開始時にはステータスを「登録待ち」から「登録中」に更新する。そして、ステータス情報ファイル３１１内の登録件数の値を更新しながら、登録モジュール１２による登録処理が行われる。登録処理が完了すると、該当するステータス情報ファイル３１１は登録モジュール１２によって削除される。
【００６３】
このように、Ｗｅｂ収集タスク毎にその収集処理の進捗状況と登録処理の進捗状況とを同一のステータス情報ファイル３１１に書き込むことにより、収集処理が開始されたＷｅｂ収集タスクそれぞれに関する収集／登録の状況を個別に管理することが出来る。
【００６４】
ステータス一覧表示プログラム３１２はステータス一覧表示画面３１３を管理者ユーザの端末に表示するために設けられたプログラムであり、上述の管理インターフェース１１２の一部として実現されている。このステータス一覧表示プログラム３１２は、複数の収集モジュールがそれぞれ収集を開始する度に作成するステータス情報ファイル３１１の内容に基づいて、全ての収集処理に関する収集開始から登録までの間における現在の進捗状況を示すステータス一覧表示画面３１３を表示する。
【００６５】
図９には、ステータス一覧表示画面３１３の例が示されている。図示のように、ステータス一覧表示画面には、複数の収集モジュールによって開始された収集タスクそれぞれについて、「知識データベース名」、「収集タイプ」、「設定名（収集タスク名）」、「収集対象」、「ステータス」、「対象件数（登録件数／収集件数）」が表示される。図９においては、Ｗｅｂ収集については、設定名（収集タスク名）がｉｎｆｏ１，ｉｎｆｏ２，ｉｎｆｏ３の３つの収集タスクが実行されており、ｉｎｆｏ１のタスクは「登録中」、ｉｎｆｏ２のタスクは「登録待ち」、ｉｎｆｏ３のタスクは「収集中」である場合が示されている。さらに、ファイル収集モジュールによるファイル収集タスク、ユーザ収集モジュールによるユーザ収集タスク、コミュニティ収集モジュールによるコミュニティ収集タスク、ＲＤＢ収集モジュールによる２つのＲＤＢ収集タスクも開始されており、ファイル収集タスクおよびユーザ収集タスクはそれぞれ「登録待ち」であり、コミュニティ収集タスクは「収集中」、ＲＤＢ収集モジュールによる２つのＲＤＢ収集タスクの内の一方は「登録待ち」、他方は「収集中」となっている。登録モジュール１２は一つであるので、「登録中」のタスクは常に一つである。また、各収集モジュールについても、「収集中」のタスクは基本的には常に一つである。
【００６６】
さらに、ステータス一覧表示画面３１３には、「状況更新」ボタン４０１および「ステータス削除」ボタン４０２が設けられている。「状況更新」ボタン４０１が押されると、各タスクのステータスが最新のステータスに更新される。「ステータス削除」ボタン４０２は、ステータス一覧表示画面３１３上で選択したタスクのステータス表示をステータス一覧表示画面３１３から削除する場合に使用される。
【００６７】
図１０には、Ｗｅｂ収集モジュール１１１および登録モジュール１２によるステータス情報の更新処理の様子が示されている。
【００６８】
（１）Ｗｅｂ収集タスクの開始時には、Ｗｅｂ収集モジュール１１１によりステータス情報ファイル３１１が作成され、そこに「収集中」のステータス情報が書き込まれる。
（２）収集処理中は、Ｗｅｂ収集モジュール１１１は、新たな文書ファイルを収集する度にステータス情報ファイル３１１の収集件数情報を更新する。
（３）収集処理の完了時には、Ｗｅｂ収集モジュール１１１は、ステータス情報ファイル３１１に「登録待ち」のステータス情報を書き込み、現在のステータスを「収集中」から「登録待ち」に更新する。
（４）そして、Ｗｅｂ収集モジュール１１１から登録モジュール１２に登録要求ファイルが発行され、登録モジュール１２に対して登録処理の実行が要求される。この後、Ｗｅｂ収集モジュール１１１は、次のＷｅｂ収集タスクを開始する事が出来る。
【００６９】
（５）登録処理の開始時には、登録モジュール１２は、ステータス情報ファイル３１１に「登録中」のステータス情報を書き込み、現在のステータスを「登録待ち」から「登録中」に更新する。
（６）登録処理中は、登録モジュール１２は、新たな文書情報を登録する度にステータス情報ファイル３１１の登録件数情報を更新する。
（７）登録処理の完了時には、登録モジュール１２は、ステータス情報ファイル３１１に「登録待ち」のステータス情報を書き込み、現在のステータスを「収集中」から「登録待ち」に更新する。この後、登録モジュール１２は、登録待ちの次の収集タスクを開始する。
ステータス情報ファイル３１１の内容はステータス一覧プログラム３０２によって定期的（例えば３０秒毎）にチェックされ、各タスクそれぞれの現在のステータスがステータス一覧表示画面３１３に表示される。上述の「状況更新」ボタン４０１が押された場合には、その時点でステータス情報ファイル３１１の内容がステータス一覧プログラム３０２によって調べられ、ステータス一覧表示画面３１３が最新の状態に更新される。
【００７０】
次に、図１１のフローチャートを参照して、Ｗｅｂ収集モジュール１１１によって各Ｗｅｂ収集タスク毎に実行される一連の処理手順を説明する。
【００７１】
Ｗｅｂ収集タスクを実行する場合、まず、当該処理対象のＷｅｂ収集タスクに対応したステータス情報ファイル３１１が作成され、そこに「収集中」を示すステータス情報が書き込まれる（ステップＳ２０１）。この後、設定ファイル２０３に保持されている当該Ｗｅｂ収集タスクに対応する設定情報に基づいて、インターネット／イントラネット３０上から文書ファイル群を順次取得するＷｅｂ収集処理が開始される（ステップＳ２０２）。Ｗｅｂ収集処理においては、最初に起点ＵＲＬで指定される文書ファイルの取得が行われ、リンク先ＵＲＬが含まれている場合にはそれが結果ファイル２０４に追加されていく。文書ファイルの取得が行われる度、ステータス情報ファイル３１１の収集件数情報が＋１ずつ更新される（ステップＳ２０３）。そして、結果ファイル２０４に未収集のＵＲＬが登録されているかどうかによってＷｅｂ収集処理が完了したかどうかが判断される（ステップＳ２０４）。結果ファイル２０４上から未収集のＵＲＬがなくなるまで、当該ＵＲＬで指定される文書ファイルを取得する処理（ステップＳ２０２）と収集件数情報の更新処理（ステップＳ２０３）が繰り返し実行される。
【００７２】
Ｗｅｂ収集処理が完了すると（ステップＳ２０４のＹＥＳ）、ステータス情報ファイル３１１に「登録待ち」を示すステータス情報が書き込まれ、これによって現在のステータスが「収集中」から「登録待ち」に更新された後（ステップＳ２０５）、登録要求ファイルが発行される（ステップＳ２０６）。
【００７３】
次に、図１２のフローチャートを参照して、登録モジュール１２によって各Ｗｅｂ収集タスク毎に実行される一連の登録処理の手順を説明する。
【００７４】
登録処理の開始時には、まず、登録ファイルで指定される当該登録対象のＷｅｂ収集タスクに対応したステータス情報ファイル３１１に対して、「登録中」を示すステータス情報が書き込まれ、現在のステータスが「登録待ち」から「登録中」に更新される（ステップＳ２１１）。次いで、登録ファイルから１件ずつレコードを取り出しながら、文書情報（属性情報およびテキスト）を登録先の知識データベースに登録する登録処理が行われる（ステップＳ２１２）。文書情報の登録の度に、ステータス情報ファイル３１１の登録件数情報が＋１ずつ更新される（ステップＳ２１３）。全てのレコードの登録が完了するまで、ステップＳ２１２およびステップＳ２１３の処理が繰り返し実行される。全てのレコードの登録が完了すると（ステップＳ２１４のＮＯ）、ステータス情報ファイル３１１が削除される（ステップＳ２１５）。このファイル削除により、登録処理が完了したＷｅｂ収集タスクについてはステータス一覧表示対象から自動的に除外される。ステータス一覧表示プログラム３１２は全てのステータス情報ファイル３１１を定期的にチェックするが、登録完了時に該当するステータス情報ファイル３１１を自動削除することにより、稼働中のタスクそれぞれに対応したステータス情報ファイル３１１だけをチェック対象とすることが出来る。
【００７５】
以上のように、本実施形態によれば、稼働中の全ての収集処理それぞれの収集／登録の状況を一覧表示することができるので、管理者ユーザは、ログ解析などを行うことなく、設定した収集処理の中でどの収集処理がどのような状況にあるかを容易に把握することが可能となる。
【００７６】
なお、本実施形態の知識情報収集システムの機能は全てコンピュータプログラムにより実現されているので、そのコンピュータプログラムをコンピュータ読み取り可能な記憶媒体に記憶しておき、その記憶媒体を通じて本コンピュータプログラムを、コンピュータネットワーク接続可能な通常のコンピュータに導入して実行させるだけで、本実施形態と同様の効果を容易に得ることができる。
【００７７】
また本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【００７８】
【発明の効果】
以上説明したように、本発明によれば、複数の文書収集処理それぞれの収集／登録の処理状況を容易に把握することが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る知識情報収集システムの構成を示すブロック図。
【図２】同実施形態の知識情報収集システムに設けられたＷｅｂ収集モジュールの機能構成を示すブロック図。
【図３】同実施形態の知識情報収集システムで用いられる登録ファイルの出力形式の例を示す図。
【図４】同実施形態の知識情報収集システムで用いられる登録ファイルの出力形式の他の例を示す図。
【図５】同実施形態の知識情報収集システムに設けられたＷｅｂ収集モジュールの処理手順を示すフローチャート。
【図６】同実施形態の知識情報収集システムに設けられた登録モジュールの処理手順を示すフローチャート。
【図７】同実施形態の知識情報収集システムおけるＷｅｂコンテンツとその登録処理との関係を示す図。
【図８】同実施形態の知識情報収集システムによるステータス一覧表示の原理を説明するための図。
【図９】同実施形態の知識情報収集システムで用いられるステータス一覧表示画面の例を示す図。
【図１０】同実施形態の知識情報収集システムに設けられたＷｅｂ収集モジュールおよび登録モジュールそれぞれによるステータス情報更新処理を説明するための図。
【図１１】同実施形態の知識情報収集システムに設けられたＷｅｂ収集モジュールがＷｅｂ収集タスク毎に実行する一連の処理手順を説明するためのフローチャート。
【図１２】同実施形態の知識情報収集システムに設けられた登録モジュールが実行する登録処理の手順を説明するフローチャート。
【符号の説明】
１１…Ｗｅｂ収集システム
１２…登録モジュール
１３…知識エンジン
３０…インターネット／イントラネット
１１１…Ｗｅｂ収集モジュール
１１２…管理インターフェース
１１３…登録ディレクトリ
１３１…知識データベース
１３２…検索エンジン
２０１…ロックファイル
２０２…制御ファイル
２０３…設定ファイル
２０４…結果ファイル
２０５…ログファイル
３０１…収集制御部
３０２…属性抽出部
３０３…テキスト抽出部
３０４…フォーマット変換部
３１１…ステータス情報ファイル
３１２…ステータス一覧表示プログラム
３１３…ステータス一覧表示画面

Claims

知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムにおいて、
前記ネットワーク上からの文書ファイル群の収集条件を示す複数の設定情報それぞれに基づいて、前記複数の設定情報それぞれに対応する複数の文書収集処理を実行する文書収集手段であって、処理対象の文書収集処理毎にその開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記処理対象の文書収集処理の進捗に合わせて、当該文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む文書収集手段と、
前記各文書収集処理の完了の度に前記文書収集手段から発行される登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録手段であって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録手段と、
現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記文書収集処理が開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示手段とを具備することを特徴とする知識情報収集システム。
前記文書収集手段は、
文書収集処理の開始時に当該文書収集処理に対応するステータス情報ファイルに、当該文書収集処理が収集中であることを示すステータス情報を書き込み、前記開始した文書収集処理の完了時に当該完了した文書収集処理に対応するステータス情報ファイルのステータス情報を、前記登録手段による登録処理待ちであることを示すステータス情報に更新する手段を含み、
前記登録手段は、
登録処理の開始時に当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルのステータス情報を、登録処理が実行中であることを示すステータス情報に更新し、前記開始した登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除することを特徴とする請求項１記載の知識情報収集システム。
前記ステータス情報ファイルには、前記文書収集処理で収集された文書ファイルの収集件数を示す文書収集件数情報と、前記登録処理で登録された文書ファイルそれぞれに対応する文書情報の登録件数を示す文書登録件数情報とが含まれており、
前記文書収集手段は、
開始した文書収集処理によって前記ネットワーク上から文書ファイルを収集する度に前記ステータス情報ファイルの文書収集件数情報を更新する手段を含み、
前記登録手段は、
開始した登録処理によって前記知識データベースに文書情報を登録する度に前記ステータス情報ファイルの文書登録件数情報を更新する手段を含むことを特徴とする請求項２記載の知識情報収集システム。
知識データベースに登録すべき文書情報を収集する知識情報収集システムにおいて、
互いに異なる複数種の情報源それぞれに対応して設けられ、各々がそれに対応する情報源から文書ファイル群を収集するための文書収集処理を実行する複数の文書収集手段であって、各文書収集手段は、文書収集処理の開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記文書収集処理の進捗に合わせて、前記文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む複数の文書収集手段と、
前記複数の文書収集手段の各々がその文書収集処理を完了する度に発行する登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録手段であって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録手段と、
現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記複数の文書収集手段よって開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記複数の文書収集手段それぞれの文書収集処理に関する収集開始から登録までの間における現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示手段とを具備することを特徴とする知識情報収集システム。
前記複数の文書収集手段は、少なくとも、ネットワーク上の情報サイトで公開されている文書情報を収集する第１の文書収集手段と、電子ファイリングシステムのファイルサーバ、データベースサーバ、または電子掲示板形式のコミュニティから文書情報を収集する第２の文書収集手段とを含むことを特徴とする請求項４記載の知識情報収集システム。
知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集方法において、
前記ネットワーク上からの文書ファイル群の収集条件を示す複数の設定情報それぞれに基づいて、前記複数の設定情報それぞれに対応する複数の文書収集処理を実行する文書収集ステップであって、処理対象の文書収集処理毎にその開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記処理対象の文書収集処理の進捗に合わせて、当該文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む文書収集ステップと、
前記各文書収集処理の完了の度に前記文書収集ステップから発行される登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録ステップであって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録ステップと、
現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記文書収集処理が開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示ステップとを具備することを特徴とする知識情報収集方法。
知識データベースに登録すべき文書情報を収集する知識情報収集方法において、
互いに異なる複数種の情報源を対象にしてそれら情報源から文書ファイル群を収集するための文書収集処理をそれぞれ実行する文書収集ステップであって、前記各情報源を対象にした文書収集処理毎にその開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記文書収集処理の進捗に合わせて、前記文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む文書収集ステップと、
前記各情報源を対象にした文書収集処理の完了の度に前記文書収集ステップから発行される登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録ステップであって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録ステップと、
現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記複数種の情報源を対象にした文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記複数種の情報源を対象に行われる文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示ステップとを具備することを特徴とする知識情報収集方法。