JP3725087B2

JP3725087B2 - 知識情報収集システムおよび知識情報収集方法

Info

Publication number: JP3725087B2
Application number: JP2002108413A
Authority: JP
Inventors: 一彦渥美; 真代豊田; 弘二塩田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-04-10
Filing date: 2002-04-10
Publication date: 2005-12-07
Anticipated expiration: 2022-04-10
Also published as: JP2003303196A

Description

【０００１】
【発明の属する技術分野】
本発明はナレッジマネジメントシステムで用いられる知識情報収集システムおよび知識情報収集方法に関し、特に知識データベースに登録すべき文書情報をネットワーク上から収集するための知識情報収集システムおよび知識情報収集方法に関する。
【０００２】
【従来の技術】
近年、企業を中心に複数のユーザ間で情報共有を行うためのグループウェアの導入が進められている。代表的なグループウェアとしては、電子メールシステムやワークフローシステムなどが知られているが、最近では、知識情報の共有支援を図るためのナレッジマネジメントシステムも開発され始めている。
【０００３】
このナレッジマネジメントシステムは、個人のノウハウなどの知識情報を知識データベースに蓄積・管理するためのものであり、自然言語検索などの検索機能と組み合わせることにより、蓄積された知識情報の効率的な活用が可能となる。
【０００４】
ところで、このようなナレッジマネジメントシステムにおいては、知識情報をいかに効率よく収集・蓄積するかが重要なポイントとなる。特にインターネット上のＷｅｂ情報は知識の宝庫であるので、インターネット上から必要な情報を効率良く収集するための仕組みが必要とされている。
【０００５】
【発明が解決しようとする課題】
しかし、最近では、ホームページにはＨＴＭＬドキュメントなどのテキストベースの文書ファイルのみならず、各種アプリケーションプログラムによって作成された様々なファイル形式の文書ファイルも利用され始めている。この場合、インターネットから取得した文書ファイルをそのまま知識データベースに登録したのでは知識データベース上の文書ファイルの検索が困難となり、知識の有効活用を行うことができなくなる。
【０００６】
本発明はこのような事情を考慮してなされたものであり、インターネット上からファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集することが可能な知識情報収集システムおよび知識情報収集方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
上述の課題を解決するため、本発明は、知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムにおいて、予め指定された情報収集条件を示す設定情報に基づいて、前記ネットワーク上から文書ファイルを収集する文書収集手段であって、第１処理モードにおいては、前記ネットワーク上から収集した各文書ファイルに対してテキストデータの抽出とリンク情報の検出のための解析処理を行い、前記リンク情報が検出された場合にその検出されたリンク情報で指定されるリンク先の文書ファイルを前記ネットワークから収集し、第２処理モードにおいては、ハイパーテキストファイルを含む所定のファイル形式の文書ファイルを対象に前記解析処理を行い、前記リンク情報が検出された場合にその検出されたリンク情報で指定されるリンク先の文書ファイルを前記ネットワークから収集し、他のファイル形式の文書ファイルに対しては前記解析処理を行わない文書収集手段と、複数種の文書ファイルそれぞれの文書情報を前記知識データベースに登録するための共通インターフェースとして予め決められた記述形式を持つ登録ファイル上に、前記収集された各文書ファイルから抽出されたテキストデータを記述して出力する出力手段であって、前記文書収集手段が前記第２処理モードで動作する場合、前記解析処理が行われなかった文書ファイルのパス名を前記登録ファイル上に記述する手段を含む出力手段と、前記登録ファイルからそこに記述された各文書ファイルのテキストデータを取り出し、そのテキストデータを前記知識データベースに登録する登録手段であって、前記登録ファイルにパス名が記述されている場合、前記パス名で指定される文書ファイルからテキストデータを抽出して前記知識データベースに登録する処理を実行する登録手段とを具備することを特徴とする。
【０００８】
この知識情報収集システムにおいては、ネットワークからの情報の収集条件を指定する設定情報に基づいて、ネットワーク上からの文書ファイルの収集が文書収集手段によって実行される。文書収集手段では、各文書ファイルからリンク情報を検出し、リンク情報が検出された場合にその検出されたリンク情報で指定されるリンク先の文書ファイルを収集するという処理が再帰的に実行される。この場合、リンク情報の検出には文書ファイルの解析が必要となるので、文書収集手段においては、その解析処理の中でリンク情報の検出のみならず、テキストデータの抽出も併せて実行する。第１処理モードにおいては、解析処理は各文書ファイルに対して実行される。このように文書収集手段が各文書ファイルの解析処理の中でテキストデータの抽出とリンク情報の検出を行うことにより、テキストデータの抽出を効率よく行うことが可能となる。そして、各文書ファイルから抽出されたテキストデータは、登録ファイル上に記述して出力される。ここで、登録ファイルとは、複数種の文書ファイルそれぞれの文書情報を知識データベースに登録するための共通インターフェースとして予め決められた記述形式を持つ出力ファイルである。各文書ファイルから抽出されたテキストデータを登録ファイル上に記述して出力することにより、登録手段においては、ネットワーク上から取得された文書ファイルのファイル形式の違いを考慮することなく、それらの文書情報を共通のフォーマットで知識データベースに効率よく登録することができる。よって、インターネット上からファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集することが可能となる。
【０００９】
また、第２処理モードにおいては、文書収集手段は、全ての文書ファイルそれぞれに対してテキストデータの抽出とリンク情報の検出を行うための解析処理を行うのではなく、リンク情報を含む可能性があるハイパーテキストファイルを含む所定のファイル形式の文書ファイルのみを対象に行い、リンク情報が含まれない他のファイル形式の文書ファイルについては解析処理を行わない。この場合、前記登録手段は、前記登録ファイルに記述されたパス名で指定される文書ファイルからテキストデータを抽出して前記知識データベースに登録し、出力手段は、前記文書収集手段で解析処理が行われなかった文書ファイルのパス名を登録ファイル上に記述する処理を実行する。
【００１０】
また、前記登録ファイルに、各文書ファイル毎に前記知識データベースに対するテキストデータの登録または削除を前記登録手段に対して指示するためのモード情報を定義しておき、前記出力手段に、過去に収集済みの文書ファイルの一覧を管理する手段と、前記文書収集手段による各文書ファイルの収集の成否を示すステータス情報と、前記収集済みのファイルの一覧とに基づいて、過去に収集済みのファイルの中で前記ネットワーク上から削除された文書ファイルを検出する手段と、前記ネットワーク上から削除された文書ファイルについてはそのテキストデータが前記知識データベースから削除されるように、前記検出された文書ファイルのテキストデータの削除を示すモード情報を前記登録ファイル上に記述する手段とを設けることにより、知識データベースに登録済みのインターネット上のＷｅｂページが削除された場合にそれを知識データベースから自動的に削除することが可能となる。
【００１３】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
図１には、本発明の一実施形態に係る知識情報収集システムを用いたナレッジマネジメントシステム全体の構成が示されている。このナレッジマネジメントシステムは知識情報の収集・分析・検索等のサービスを提供するためのものであり、Ｗｅｂ収集システム１１、登録モジュール１２、および知識エンジン１３などから構成されている。これらＷｅｂ収集システム１１、登録モジュール１２および知識エンジン１３は、サーバコンピュータ上で実行されるプログラムとして実現されている。Ｗｅｂ収集システム１１および登録モジュール１２は、ナレッジマネジメントシステムで用いられる知識情報を収集するための知識情報収集システムを構成する。この知識情報収集システムは、Ｗｅｂページなどの文書をインターネット／イントラネット３０上から収集してその文書の内容をナレッジマネジメントシステムの知識データベース（知識ＤＢ）１３１に登録するという処理を実行する。Ｗｅｂ収集システム１１は、Ｗｅｂ収集モジュール１１１、管理インターフェース１１２、および登録ディレクトリ１１３から構成されている。
【００１４】
Ｗｅｂ収集モジュール１１１はインターネット/イントラネット３０上の各種文書ファイルを収集してそれを知識ＤＢ１３１に登録できる形式で出力するためプログラムである。このＷｅｂ収集モジュール１１１はマルチスレッド構造を有しており、ＨＴＴＰ（HyperText Transfer Protocol）によるインターネット/イントラネット３０上からの文書ファイル取得処理を並列的に行うことが出来る。ＨＴＴＰはインターネット/イントラネット３０上の情報サイト（Ｗｅｂサイト）である各Ｗｅｂサーバ３１からＨＴＭＬ（Hyper Text Markup Language）で記述された文書を取得するための通信プロトコルである。Ｗｅｂ収集モジュール１１１は、Ｗｅｂ収集条件を指定する設定情報で指定されたＵＲＬ（Uniform Resource Locator）の文書ファイルをインターネット/イントラネット３０上から取得し、取得した文書ファイルにリンク先のＵＲＬが含まれていればそのＵＲＬの文書ファイルをさらに取得する、という再帰的な処理を行って、インターネット/イントラネット３０上から関連する文書ファイル群を順次取得する。この場合、他の文書ファイルへのリンク情報（ＵＲＬ）を検出するためには取得した文書ファイルを解析することが必要となるが、その解析処理の中では、リンク情報の検出のみならず、知識ＤＢ１３１に登録すべきテキストデータの抽出も併せて実行される。
【００１５】
収集対象の文書ファイルは、他のファイルへのリンク情報であるＵＲＬを記述可能なハイパーテキストファイル（ＨＴＭＬファイル）のみならず、テキストファイル（plane text)、さらには各種アプリケーションプログラムによって作成された様々なファイル形式の文書ファイル（例えば、Portable Document Format形式のファイル、ワードプロセッサソフトウェアで作成した文書ファイル、表計算ソフトウェアで作成したファイル、プレゼンテーションデータ作成ソフトウェアで作成したプレゼンテーションデータのファイル、など）も収集対象となる。
【００１６】
Ｗｅｂ収集モジュール１１１では、インターネット/イントラネット３０上から収集した各文書ファイルに対して知識ＤＢ１３１に登録すべき属性情報の取得と上述のテキストデータの抽出が行われる。各文書ファイルから取得される属性情報は、例えば、当該文書ファイルのＵＲＬ、ファイル作成日時（更新日時）等である。そして、Ｗｅｂ収集モジュール１１１では、それら各文書ファイルの属性情報とテキストデータが記述された登録ファイルが作成されて、それが登録ディレクトリ１１３上に出力される。ここで、登録ファイルとは、ファイル形式の異なる複数種の文書ファイルそれぞれの文書情報を知識ＤＢ１３１に登録するための共通インターフェースとして予め決められた記述形式を持つファイルを意味する。この登録ファイルは、複数種の文書ファイルそれぞれの文書情報を知識ＤＢ１３１に共通フォーマットで登録するために利用される。本実施形態では、登録ファイルとしてＸＭＬ（eXtensible Markup Language）を使用する。
【００１７】
管理インターフェース１１２は、Ｗｅｂ収集モジュール１１１に実行させる各Ｗｅｂ収集処理（以下、Ｗｅｂ収集処理タスクという）の内容を設定するためのプログラムであり、各Ｗｅｂ収集処理タスク毎にそのＷｅｂ収集条件の設定および管理、Ｗｅｂ収集モジュール１１１の起動・停止の制御、さらには各Ｗｅｂ収集処理タスクの収集状況の管理・提示等の機能を有している。この管理インターフェース１１２は、管理者ユーザがそのユーザ端末のＷｅｂブラウザ２１上から必要な操作を行えるように、Ｗｅｂサーバ２２がＣＧＩ（Common Gateway Interface）を通じて起動可能な外部プログラム（ＣＧＩプログラム）として実現されている。
【００１８】
またＷｅｂ収集システム１１には、Ｗｅｂ収集モジュール１１１の動作を管理・制御するためのファイルとして、図示のように、ロックファイル２０１、制御ファイル２０２、設定ファイル２０３、結果ファイル２０４、およびログファイル２０５が設けられている。
【００１９】
ロックファイル２０１はＷｅｂ収集モジュール１１１の２重起動を防止するための排他制御用のファイルである。制御ファイル２０２は管理インターフェース１１２がＷｅｂ収集モジュール１１１を停止させるために使用するファイルであり、例えば、管理者ユーザからの指示に応答して、実行中のＷｅｂ収集処理タスクを途中で中断させる場合などに利用される。収集実行中における中断の指定は、管理者ユーザが管理インターフェース１１２を通じて行うことができる。
【００２０】
設定ファイル２０３は、各Ｗｅｂ収集処理タスク毎にそのＷｅｂ収集条件を指定する設定情報を記述するためのファイルであり、ここには複数のＷｅｂ収集処理タスクそれぞれに対応する複数の設定情報を保持することが出来る。各Ｗｅｂ収集処理タスクのＷｅｂ収集条件は、管理者ユーザによって設定される。Ｗｅｂ収集条件には、少なくとも、インターネット/イントラネット３０からの情報収集の起点とすべき文書ファイルの所在を示す起点アドレス情報（起点ＵＲＬ）と、収集対象とすべき文書ファイル数またはリンク段数の上限値を示す収集範囲情報、等が含まれている。このＷｅｂ収集条件に基づいてＷｅｂ収集モジュール１１１のＷｅｂ収集動作が制御される。すなわち、Ｗｅｂ収集モジュール１１１は、起点ＵＲＬで指定される文書ファイルを起点にそれに関連する文書ファイル群を、収集範囲情報で規定される範囲内で順次収集する。
【００２１】
また、Ｗｅｂ収集条件には、登録先の知識データベースを指定する知識データベース名も含まれている。すなわち、知識ＤＢ１３１においては蓄積文書の種類が互いに異なる複数の知識データベースが定義されており、それら複数の知識データベースがそれぞれの知識データベース名で管理されている。設定ファイル２０３の設定情報によってＷｅｂ収集タスク毎に登録先の知識データベース名を指定することにより、収集した文書情報を知識ＤＢ１３１内の任意の知識データベースに登録することが出来る。
【００２２】
さらに、収集範囲情報として、収集対象とすべきファイル形式の種類、再収集を行う時の収集条件、等を設定することもできる。ここで、再収集とは、例えばＷｅｂ収集モジュール１１１に同一のＷｅｂ収集処理タスクを定期的に実行させる場合における２度目以降のＷｅｂ収集処理や、一旦中断したＷｅｂ収集処理タスクを再開させた場合のＷｅｂ収集処理を言う。本実施形態では、３つの再収集モードが用意されており、Ｗｅｂ収集処理タスク毎に使用すべき再収集モードを指定することが出来る。３つの再収集モードそれぞれの内容は、図１０以降で詳述する。
【００２３】
結果ファイル２０４は、以前に収集した文書ファイルの一覧等をＷｅｂ収集処理の結果として各Ｗｅｂ収集タスク毎に管理するためのファイルであり、ここには、Ｗｅｂ収集の結果として取得したＵＲＬのリスト、取得日時、取得した文書ファイル件数、などが各Ｗｅｂ収集処理タスク毎に出力される。この結果ファイル２０４はＷｅｂ収集処理タスクそれぞれの収集状況をユーザに提示する目的と、再収集の効率化の目的に用いられる。この結果ファイル２０４を用いることにより、過去に収集済みの文書ファイルの中でインターネット/イントラネット３０上の情報サイトから削除された文書ファイルを検出したり、Ｗｅｂ収集処理を途中で中断した場合における再開ポイントの検出、さらには以前の収集時点からインターネット/イントラネット３０上で更新されている文書ファイルの検出などを行うことが出来る。
【００２４】
ログフィル２０５は、Ｗｅｂ収集モジュール１１１による文書ファイルの取得の成否やエラーの種類などを管理するファイルである。
【００２５】
登録ディレクトリ１１３は、知識ＤＢ１３１に登録すべき文書内容を出力するための記憶領域である。ここには、Ｗｅｂ収集モジュール１１１によって各文書ファイルから抽出された属性情報とテキストデータが記述された上述の登録ファイルが出力される。Ｗｅｂ収集モジュール１１１は、テキストデータの抽出に関して第１および第２の２つの処理モードを有する。
【００２６】
第１処理モードでは、全てのファイル形式の文書ファイルを対象に解析処理を行ってテキストデータの抽出、さらにはリンク情報（ＵＲＬ）の検出が行われる（ＵＲＬの検出はＨＴＭＬファイルのみが対象）。第２処理モードでは、ＨＴＭＬファイルとテキストファイル（PlainText）のみを対象に解析処理を行ってテキストデータの抽出、さらにはリンク情報（ＵＲＬ）の検出が行われ（ＵＲＬの検出はＨＴＭＬファイルのみが対象）、例えばPortable Document Format等の他のファイル形式の文書ファイル（以下、コンテンツファイルという）に対しては解析処理は行われない。
【００２７】
第２処理モードを使用した場合、ＨＴＭＬとＰｌａｉｎＴｅｘｔについては、そのテキストデータと属性情報が登録ファイル上に記述されて登録ディレクトリ１１３上に出力される。一方、Portable Document Formatなど他の形式のファイルについてはそのコンテンツファイルがそのまま登録ディレクトリ１１３上に出力され、登録ファイル上には当該ファイルの属性情報とコンテンツファイルのパス名が記述される。なお、第２処理モードにおいては、リンク情報の検出のための解析処理が必要なファイルを対象にその解析処理の中でテキストデータの抽出も併せて実行するという点が肝要であるので、ＨＴＭＬファイルのみを対象にテキストデータの抽出を行うようにしても良い。
【００２８】
第１および第２のどちらの処理モードにおいても、Ｗｅｂ収集モジュール１１１は実行中のＷｅｂ収集タスクの処理が完了した時に、登録モジュール１２に対して登録要求ファイルを発行して文書の登録を登録モジュール１２に要求する。登録要求ファイルには、登録ファイルのファイル名、登録先の知識データベース名などが記述されている。
【００２９】
登録モジュール１２は、Ｗｅｂ収集モジュール１１１によって収集された各文書ファイルの属性情報およびテキストデータを知識ＤＢ１３１に登録する。すなわち、登録モジュール１２は、Ｗｅｂ収集モジュール１１１からの登録要求に応答して該当する登録ファイルを取得し、その登録ファイル上に文書ファイル毎に記述されている属性情報およびテキストデータを取り出して、知識ＤＢ１３１の登録先知識データベースに登録する。また、この登録モジュール１２はテキストデータの抽出機能も有しており、登録ファイルにコンテンツファイルのパス名が記述されている場合は、登録モジュール１２は、そのパス名で指定されるコンテンツファイルからテキストデータを抽出して知識ＤＢ１３１の該当する登録先知識データベースに登録する。
【００３０】
さらに、登録モジュール１２は、Ｗｅｂ収集モジュール１１１以外の他の収集モジュールによって収集された文書の登録処理も実行する。他の収集モジュールとしては、例えば、電子ファイリングシステムのファイルサーバから文書情報を収集するファイル収集モジュール、ＲＤＢデータベースサーバからそこに管理されている文書情報を収集するＲＤＢ収集モジュール、電子掲示板形式のコミュニティからそこに投稿された文書情報を収集するコミュニティ収集モジュール、ユーザが任意の各種アプリケーションプログラムの文書ファイルを登録ファイル（ＸＭＬ）の出力形式に変換するために使用するユーザ収集モジュール等がある。登録モジュール１２はこれら各収集モジュールによって共通に利用される。どの収集モジュールについても、登録モジュール１２に対するインターフェースとしては上述のＸＭＬ形式の登録ファイルが用いられる。
【００３１】
知識エンジン１３は、知識ＤＢ１３１に蓄積された情報を活用するための知識分析処理を行う。この知識分析処理では、知識ＤＢ１３１に蓄積された大量の文書情報それぞれの特徴を分析して重要語を抽出する処理や、それら文書情報を特徴別に複数のカテゴリに分類および整理するクラスタリング処理などが行われる。この知識エンジン１３には自然言語検索を行うための知識エンジン１３２が設けられており、各ユーザはそのユーザ端末のＷｅｂブラウザ４１からＷｅｂサーバ４２を通じて知識エンジン１３２をアクセスすることにより、Ｗｅｂブラウザ４１上から知識ＤＢ１３１に蓄積された知識の検索を行うことが出来る。知識ＤＢ１３１に蓄積された各文書の属性情報にはその文書のＵＲＬも含まれているので、そのオリジナル文書を該当する情報サイトから取得してＷｅｂブラウザ４１上に表示することが出来る。なお、検索処理は、ある知識データベース名を選択してその選択した知識データベースのみを対象に行ったり、あるいは知識ＤＢ１３１内の全ての知識データベースを対象に行うことが出来る。
【００３２】
次に、図２を参照して、Ｗｅｂ収集モジュール１１１の機能構成について説明する。
Ｗｅｂ収集モジュール１１１は、図示のように、収集制御部３０１、属性抽出部３０２、テキスト抽出部３０３、およびフォーマット変換部３０４を有している。収集制御部３０１は、設定ファイル２０３に保持されている全ての設定情報それぞれについて、その設定情報で指定されたＷｅｂ収集タスクを順番に一つずつ実行する。各Ｗｅｂ収集タスク毎に設定情報で指定された起点ＵＲＬを起点として、インターネット/イントラネット３０から関連する文書ファイル群を順次収集する。取得した文書ファイルに含まれるリンク先文書へのＵＲＬはＵＲＬリスト３０５に追加されて行き、ＵＲＬリスト３０５からＵＲＬを取得しながらが収集処理が再帰的に実行される。ＵＲＬリスト３０５としては、上述の結果ファイル２０４を用いることが出来る。収集範囲は設定ファイル２０３に保持されている収集条件によって制限される。
【００３３】
収集された各文書ファイルはまず属性抽出部３０２に送られ、そこで各文書ファイルの属性情報が取得される。次いで、テキスト抽出部３０３にて文書の解析処理が行われ、知識ＤＢ１３１に登録すべきテキストデータと、次に取得すべきリンク先ＵＲＬの抽出が行われる。例えば、ＨＴＭＬファイルに対しては、テキストデータの抽出は、ＨＴＭＬのタグ以外の部分を抜き出すことによって行う。抽出されたテキストはタイトルとボディ(本文)とに分けられる。リンク先ＵＲＬの取得は、Aタグ、AREFタグのHREFの値、FRAMEタグ、IFRAMEタグ、LAYERタグのSRCの値、METAタグのREFRESHの値を取得することによって行われる。上述の第２の処理モードで動作する場合には、テキスト抽出部３０３の処理はＨＴＭＬファイルとテキストファイルに対してのみ行われ、Portable Document Format等の他のファイル形式の文書ファイルに対しては行われない。
【００３４】
各文書ファイルから取得された属性情報とテキストデータはフォーマット変換部３０４に送られ、そこでＸＭＬの登録ファイルの記述形式に従う出力フォーマットに整形されて登録ディレクトリ１１３上に出力される。一つの登録ファイルには、例えば１０００個程度の文書ファイルについての属性情報およびテキストデータが記述される。テキスト抽出が行われなかった文書ファイルについては属性情報とパス名が登録ファイル上に記述される。
【００３５】
以上の処理は、再収集によって収集された各文書ファイルに対しても同様に行われる。
【００３６】
次に、図３および図４を参照して、登録ファイルの出力フォーマットの例を説明する。
【００３７】
図３は、テキスト抽出部３０３にてテキスト抽出を行う場合の出力フォーマットの例を示している。ファイルの先頭のタグ＜?xml version="1.0" encoding="Shift_JIS"?＞、＜KnowledgeSystem＞はファイルの始まりを示し、また末尾のタグ＜/KnowledgeSystem＞はファイルの終わりを示している。
【００３８】
＜RECORD＞と＜/RECORD＞で囲まれた各レコード内に、１つの文書ファイルの属性情報とテキストデータが記述される。各レコード内のタグの意味は次の通りである。
【００３９】
MODE ：登録モジュール１２の動作モードを指定するモード情報である。このモード情報は、各文書ファイル毎に知識ＤＢ１３１に対する文書情報（テキストデータおよび属性）の登録または削除を指示する。2＝登録(上書き)か、0＝削除、のいずれかとなる。削除の場合は、下記のタグのうち、TYPEとUNIQUE以外は出力されない。
【００４０】
TYPE ：収集のタイプを示す。本例では常に“Ｗｅｂ収集”となる。
UNIQUE ：知識ＤＢ１３１に登録される当該文書ファイルを識別するためのユニークキーである。通常は、当該文書のＵＲＬがユニークキーとして用いられる。
【００４１】
ORGDATE ：文書ファイルの作成日時（または更新日時)を示す。
TITLE ：文書ファイルのタイトルを示す。ＨＴＭＬファイルのタイトル部から抽出されたテキストデータがタイトルとなる。ＨＴＭＬファイル以外のファイルについてはタイトルは出力されない。このタイトルは、検索画面上に表示される各文書ファイルのタイトルとして使用される。
【００４２】
AUTHOR ：文書ファイルを所有する情報サイトのホスト名（ＵＲＬのホストアドレス）を記述する。
DATE ：上記ORGDATEの日付部分を記述する。
URL ：文書ファイルのＵＲＬ。UNIQUEと同じ値である。
BODY ：文書ファイルから抽出されたテキストデータが記述される。
【００４３】
図４は、テキスト抽出部３０３にてテキスト抽出を行わなかった文書ファイルに関する出力フォーマットの例を示している。
【００４４】
BODYにはテキストデータは記述されず、＜BDYFILE＞＜/BDYFILE＞で囲まれた領域のPATH1に、登録ディレクトリ１１３上に出力される上記コンテンツファイルへのパス名が記述される。DEL＝1は、登録モジュール１２に対してコンテンツファイルからのテキストデータの抽出後に登録ディレクトリ１１３上の元ファイルを削除することを指示するものである。Ｗｅｂ収集モジュール１１１が第２処理モードで動作する場合には、ＨＴＭＬファイルとプレーンテキストについてはBODYにはテキストデータが記述され、他のファイル形式の文書ファイル（コンテンツファイル）についてはBDYFILEにそのコンテンツファイルのパス名が記述されることになる。
【００４５】
次に、図５のフローチャートを参照して、収集した文書ファイルに対してＷｅｂ収集モジュール１１１内で実行される一連の処理の手順について説明する。
【００４６】
まず、収集した文書ファイルから知識ＤＢ１３１に登録すべき属性情報（URL、AUTHOR、ORGDATE、DATE）が取得される（ステップＳ１０１）。属性情報の取得は、ＨＴＴＰによって情報サイトから返される値や、収集した文書ファイル内に付加されている値などを用いる事が出来る。この後、第２処理モードにおいては、収集した文書ファイルの拡張子などに基づいてそのファイル種別が判定され、ＨＴＭＬファイルまたはプレーンテキストファイルであるか、あるいはそれ以外の他のファイル形式のファイルであるかが判別される（ステップＳ１０２，Ｓ１０３）。収集した文書ファイルがＨＴＭＬファイルまたはプレーンテキストファイルである場合には（ステップＳ１０３のＹＥＳ）、上述のテキスト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリンクＵＲＬの検出）が実行され（ステップＳ１０４）、そして属性情報とテキストデータを上述の形式で登録ファイル上に記述する処理（テキストデータをBODYに挿入）が行われる（ステップＳ１０５）。一方、ＨＴＭＬファイルまたはプレーンテキストファイル以外の他のファイル形式のファイルであれば（ステップＳ１０３のＮＯ）、当該ファイルが登録ディレクトリ１１３上にそのまま出力され（ステップＳ１０６）、その後、属性情報と当該ファイルのパス名を登録ファイル上に記述する処理（パス名をBDYFILEに記述）が行われる（ステップＳ１０７）。
【００４７】
なお、目的のＵＲＬの文書ファイルがインターネット／イントラネット３０上から取得できなかった場合には、当該文書ファイルの内容が既に知識ＤＢ１３１に登録されていることを条件に、モード情報（MODE）＝0（削除）が登録ファイル上に記述される。
【００４８】
また、第１処理モードにおいては、ステップＳ１０２，Ｓ１０３の処理は行われず、全ての取得ファイルを対象にステップＳ１０４，Ｓ１０５の処理が実行される。
【００４９】
次に、図６のフローチャートを参照して、登録モジュール１２によって実行される登録処理の手順を説明する。
【００５０】
Ｗｅｂ収集モジュール１１１から登録要求を受けた登録モジュール１２は、Ｗｅｂ収集モジュール１１１からの登録要求ファイルで指定された登録ファイル（ＸＭＬファイル）を登録ディレクトリ１１３から取得し、そしてその登録ファイルから１つずつレコードを取り出しながら、レコード毎に以下の処理を行う。まず、処理対象レコード内のモード情報がMODE＝０であるかMODE＝２であるかが調べられる（ステップＳ１１１，Ｓ１１２）。
【００５１】
MODE＝２の場合は、登録モジュール１２は、レコード内の各タグに従って、そのタグ内に記述されたデータ項目（TYPE、UNIQUE、ORGDATE、TITLE、AUTHOR、DATE、URL、BODYそれぞれの内容）を、登録要求ファイルで指定された知識ＤＢ１３１内の登録先知識データベースに登録する（ステップＳ１１３）。BODYのタグ内にテキストデータが存在しない場合には、そのテキストデータの登録は行われない。次いで、BDYFILEのタグ内にパス名が記述されているかどうかが判定される（ステップＳ１１４）。パス名が記述されている場合には（ステップＳ１１４のＹＥＳ）、そのパス名で指定される記憶領域から該当するコンテンツファイルが取得され（ステップＳ１１５）、そのコンテンツファイルからテキストデータを抽出する処理が行われる（ステップＳ１１６）。そして、その抽出された内容が該当する文書ファイルのテキストデータとして登録先知識データベースに登録される（ステップＳ１１７）。
【００５２】
MODE＝０の場合は、レコード内のUNIQUEで指定される登録済みの文書ファイルの属性情報とテキストデータが知識ＤＢ１３１からサーチされ、その登録内容が登録先知識データベースから削除される（ステップＳ１１８）。
【００５３】
図７には、インターネット／イントラネット３０上における文書ファイル（Ｗｅｂコンテンツ）の状態と知識ＤＢ１３１に対して行うべき登録／削除処理との関係が示されている。本実施形態においては、出来る限りインターネット／イントラネット３０上における最新のＷｅｂコンテンツの状態を知識ＤＢ１３１に反映させるというポリシーに基づき、以下の処理が行われる。
【００５４】
（１）更新されたＷｅｂコンテンツは、知識ＤＢ１３１に上書きする（MODE＝２）。更新されたＷｅｂコンテンツの属性情報およびテキストデータを登録する場合、そのUNIQUEは、知識ＤＢ１３１に既に登録されている更新前のＷｅｂコンテンツのUNIQUEと同一である。よって、MODE＝２により、知識ＤＢ１３１に既に登録されている更新前のＷｅｂコンテンツの属性情報およびテキストデータが、更新されたＷｅｂコンテンツの属性情報およびテキストデータに更新（上書き）される。
【００５５】
（２）追加されたＷｅｂコンテンツは、知識ＤＢ１３１に追加登録する（MODE＝２）。追加されたＷｅｂコンテンツの属性情報およびテキストデータを登録する場合、そのUNIQUEは、知識ＤＢ１３１に未登録である。よって、MODE＝２により、追加されたＷｅｂコンテンツの属性情報およびテキストデータを知識ＤＢ１３１に追加登録することが出来る。
【００５６】
（３）削除されたＷｅｂコンテンツは、知識ＤＢ１３１からも削除する（MODE＝０）。
【００５７】
次に、管理インターフェース１１２によって提供される機能を具体的に説明する。管理インターフェース１１２は上述のようにＷｅｂ収集タスクの設定・管理・実行を行うためのユーザインタフェースであり、１）Ｗｅｂ収集タスクの設定を複数個作成して設定ファイル２０４に保存する機能、２）収集の設定の一覧表示、削除、などの管理作業を行う機能、３）収集の起動と終了（中断と再開）を行う機能、４）収集の状況や実績をリアルタイムに確認する機能、を管理者ユーザに提供する。
【００５８】
管理インターフェース１１２によって管理者ユーザのＷｅｂブラウザ２１に表示される画面は、図８に示すように、「一覧画面」、「設定画面」、「状況画面」の３つの画面より構成され、管理インターフェース１１２を起動すると、一覧画面が最初に表示される。３つの画面は各画面上で管理者ユーザによって行われる操作に応じて遷移する。一覧画面には、現在作成されている設定の一覧と各設定の最新の収集結果が表示される。この一覧画面上で、例えば、作成済みの設定を選択してその選択した設定に関する設定画面または状況画面に遷移した場合には、設定画面上では当該設定内容の追加／削除等を行うことが出来、また状況画面上では当該設定に関する起動と終了（中断と再開）の指定などを行うことが出来る。また、一覧画面上で、設定の新規作成を選択すると設定画面に遷移し、その設定画面上で設定の新規作成のための処理を行うことが出来る。以下、一覧画面、設定画面、状況画面それぞれについて具体的に説明する。
【００５９】
図９には、一覧画面の例が示されている。この一覧画面上には、図示のように、「一覧」アンカ５０１、「設定アンカ」５０２、「状況」アンカ５０３が表示される。これら「一覧」アンカ５０１、「設定アンカ」５０２、「状況」アンカ５０３は、それぞれ一覧画面、設定画面、状況画面それぞれに対するリンクである。一覧画面上で「一覧」アンカ５０１がクリックされると、一覧画面の表示内容が最新状態に更新される。さらに、一覧画面上には、「新規設定」フィールド５０４、「作成」ボタン５０５、および状態一覧表示部５０６が設けられている。新規作成すべきＷｅｂ収集タスクの設定名を「新規設定」フィールド５０４に入力して、「作成」ボタン５０５をクリックすると、設定画面に遷移してその設定名に関する設定情報を新規作成する事が出来る。
【００６０】
状態一覧表示部５０６には、上述の結果ファイル２０４に保持されている内容等に基づき、既に作成・登録済みのＷｅｂ収集タスクそれぞれについての収集状況が一覧表示される。Ｗｅｂ収集タスク毎に以下の項目が表示される。
【００６１】
「設定名」：登録してある設定の名称
「知識データベース名」：収集したデータを登録するデータベース名
「状態」：設定の現在の状態（未収集/収集中/終了/中断/異常終了のいずれか）
「開始」：最後に起動した日時
「終了」：最後に終了した日時
「ファイル」：前回のタスク実行で収集したファイル数(今回)と、これまでに実行した中で収集されたファイルの総数の最大値(全体)
このように、本実施形態においては、複数のＷｅｂ収集タスクを設定することが出来、しかもそれら複数のＷｅｂ収集タスクそれぞれの収集状況を一覧画面上で確認することが出来る。
【００６２】
次に、図１０を参照して、設定画面の例について説明する。設定画面上には、図示のように、上述の「一覧」アンカ５０１、「設定アンカ」５０２、「状況」アンカ５０３の他、「設定名」フィールド６０１、「知識データベース名」フィールド６０２、「プロキシサーバ」設定フォーム６０３、「収集ファイル形式」設定フォーム６０４、「取得要求」設定フォーム６０５、「認証情報」設定フォーム６０６、および「収集サイト」設定フォーム６０７等が設けられており、これらを用いて以下の設定編集操作を行うことが出来る。
【００６３】
（１）設定名：「設定名」フィールド６０１には一覧画面にて新規設定の作成または既存の設定の選択により指定された設定名が表示される。
（２）ＤＢ選択：「知識データベース名」フィールド６０２に知識データベース名を入力することにより、収集したデータを登録する登録先知識データベースを選択する。
【００６４】
（３）プロキシ：「プロキシサーバ」設定フォーム６０３を用いて、収集に使用するプロキシサーバの設定を行う。
（４）収集するファイル形式：「収集ファイル形式」設定フォーム６０４上で収集対象のファイル形式を選択する。ＨＴＭＬおよびＴＥＸＴファイルはデフォルトで選択されており、この他、Portable Document Format,その他の様々なファイル形式を収集対象として選択することが出来る。
【００６５】
（５）取得要求：「取得要求」設定フォーム６０５上でＵＲＬ取得時のタイムアウト時間、リトライ回数を指定する。
（６）認証情報：「認証情報」設定フォーム６０６上で、ユーザ認証が必要なＵＲＬをアクセスするときに必要な認証情報を設定する。
【００６６】
（７）収集サイト：「収集サイト」設定フォーム６０７上では以下の項目の設定を行う。
【００６７】
・起点ＵＲＬの設定
・リンク段数の上限設定：収集する起点ＵＲＬからの最大リンク段数を指定する。
・ファイル数の上限設定：収集する最大ファイル数を指定する。
・再収集の設定：設定対象の収集タスクが同じ起点ＵＲＬからの再収集を行った時の振る舞いを指定する。再収集には３つの再収集モード（「全てのファイルを新たに収集」、「未収集のファイルのみ収集」、「更新されたファイルのみ収集(削除機能あり)」）があり、Ｗｅｂ収集タスク毎に任意の一つの再収集モードを指定する事が出来る。各再収集モードの意味は次の通りである。
【００６８】
１）再収集モード１：「全てのファイルを新たに収集」
「全てのファイルを新たに収集」モードとは、収集対象のＵＲＬを全て再収集するモードを意味する。即ち、以前に収集したかどうかにかかわらず、起点ＵＲＬから全ての文書ファイルを新たに収集しなおす。
【００６９】
２）再収集モード２：「未収集のファイルのみ収集」
「未収集のファイルのみ収集」モードとは、以前収集したＵＲＬはそのリンク先も含めて収集せずに、起点ＵＲＬからの全ての文書ファイル群の内で以前の収集で未収集の文書ファイルのみを収集するモードである。
【００７０】
３）再収集モード３：「更新されたファイルのみ収集(削除機能あり)」
「更新されたファイルのみ収集(削除機能あり)」モードは、以前の収集時点から更新された文書ファイルのみ収集するモードである。更新の有無のチェック対象となる文書は、以前の収集において、現在よりも指定日数以上前に収集したＵＲＬである。「更新チェック頻度」フィールドに入力された値が指定日数となる。指定日数のデフォルトは「１日」である。以前の収集において、現在よりも指定日数以上前に収集したＵＲＬがインターネット／イントラネット３０上の該当する情報サイトから削除されており、当該ＵＲＬから文書ファイルを取得できなかった場合には、その文書ファイルに対応する登録情報は知識ＤＢ１３１から削除される。
【００７１】
・収集範囲：「ドメイン内のみ収集する」を指定すると、起点ＵＲＬのドメイン内のみ収集を行う。
【００７２】
・収集するＵＲＬのパターン：収集対象とすべきＵＲＬの文字列のパターンを指定する。収集しようとするＵＲＬの中で、指定された文字列のパターンを含むＵＲＬのみが収集される。
【００７３】
・収集しないＵＲＬのパターン：収集対象から除外すべきＵＲＬの文字列のパターンを指定する。収集しようとするＵＲＬの中で、指定された文字列のパターンを含むＵＲＬは収集されない。
【００７４】
図１１には、状況画面の例が示されている。例えば、一覧画面または設定画面上で「状況」アンカ５０３を選択することで、現在表示しているタスクの状況画面に遷移する。この状況画面上には、当該タスクの「設定名」、「知識データベース名」、「状態」等が表示される。「設定名」の横には、収集開始／中止（再開／中断）を指示するためのボタン７０１が表示されている。「状態」には、タスクの状態（収集中／終了／未収集／中断／異常終了）が表示され、さらに、当該タスクの起点ＵＲＬ、収集したリンク段数(今回/最大/上限)、およびファイル数(今回/全体/上限)等の状況情報７０２も表示される。
【００７５】
当該タスクの状態が未収集、終了、または中断の場合には、図１１に示すように、ボタン７０１には「収集開始」と表示される。「収集開始」ボタン７０１を選択すると、当該タスクの実行がＷｅｂ収集モジュール１１１によって開始される。現在の状態が終了または中断の場合には、再収集が開始されることになる。
また、当該タスクの現在の状態が収集中である場合には、図１２に示すように、ボタン７０１には「収集中断」と表示される。「収集中断」ボタン７０１を選択すると、稼働中の収集タスクは中断される。中断される以前までに収集されたＵＲＬのリストは結果ファイル２０４内に保持される。
【００７６】
次に、図１３乃至図１５を参照して、状況画面上のボタン操作による収集処理の中断および再開（再収集）動作について具体的に説明する。
【００７７】
この中断・再開機能は、実行中のＷｅｂ収集処理を一旦停止して、後日再開する様な場合に利用される機能である。Ｗｅｂ収集モジュール１１１によるＷｅｂ収集処理は、インターネット/イントラネット３０からの文書ファイルの取得を行う度にそのＵＲＬや成否を示すステータスコード等を進捗状況（収集結果）情報として結果ファイル２０４に書き込みながら実行される。取得した文書ファイルにリンク先のＵＲＬがあればそのＵＲＬが結果ファイル２０４に追加され、結果ファイル２０４に未収集のＵＲＬが無くなるまで、処理が繰り返される。この収集処理の途中で「収集中断」ボタン７０１が押されると、実行中のＷｅｂ収集タスクはその時点で中断される。そして、後に、その中断されたＷｅｂ収集タスクを選択した状態で「収集開始」ボタン７０１が押されると、中断されていたＷｅｂ収集タスクが再開されて再収集が開始される。例えば、再収集モードとして上述の「未収集のファイルのみ収集」モードが選択されていた場合には、結果ファイル２０４に保持されている未収集のＵＲＬから収集処理が再開されることになる。
【００７８】
図１４には、結果ファイル２０４に進捗状況情報として保持されるＵＲＬリストの例が示されている。結果ファイル２０４には、図示のように、取得対象のＵＲＬ毎にその「ＵＲＬ」に加え、「収集日」、「収集日時」、「ステータスコード」、「起点ＵＲＬ」、および「リンク段数」が記録される。「リンク段数」は、起点ＵＲＬから見た場合の当該取得対象ＵＲＬのリンクの段数を示す。未収集のＵＲＬについては「収集日」、「収集日時」、「ステータスコード」の情報は空欄となる。これにより、Ｗｅｂ収集処理を途中で中断した場合における再開ポイントを検出することができる。「ステータスコード」は収集処理の成否を示すものであり、これは、Ｗｅｂページの取得先となる相手先Ｗｅｂサーバから返されるＨＴＴＰステータスコードである。このＨＴＴＰステータスコードの種類は次の通りである。
【００７９】
200：正常終了、すなわちファイル取得が成功したことを示す。
304：未更新（条件付き取得要求へのレスポンス）である。「更新されたファイルのみ収集」モードでは、このステータスコードが返されたＵＲＬは取得しない。
403：アクセス権限によるエラーを示す。
404：当該ファイルが見つからないことによるエラーを示す。削除された文書ファイルの取得要求に対するレスポンスである。
408：タイムアウトエラー
図１５のフローチャートには、Ｗｅｂ収集が開始されてから中断されるまでの一連の処理手順が示されている。
【００８０】
Ｗｅｂ収集モジュール１１１は、最初に起点ＵＲＬで指定される文書ファイルの取得を行い（ステップＳ１２１）、その結果（収集日、収集日時、ステータスコード、起点ＵＲＬ、リンク段数、ＵＲＬ（起点ＵＲＬと同じ）を結果ファイル２０４に登録して進捗状況情報の更新を行う（ステップＳ１２２）。取得が成功した場合には、収集した文書ファイルから知識ＤＢ１３１に登録すべき属性情報が取得され（ステップＳ１２２）、次いでテキスト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリンク先ＵＲＬの検出）が実行される（ステップＳ１２４）。リンク先ＵＲＬが検出された場合には、そのＵＲＬと、上述の起点ＵＲＬおよびリンク段数が結果ファイル２０４のＵＲＬリストに追加登録される（ステップＳ１２５）。この後、属性情報とテキストデータを登録ファイル上に記述する処理が行われる（ステップＳ１２６）。ここで、中断指示の有無が判定される（ステップＳ１２７）。中断指示が無い場合には（ステップＳ１２７のＮＯ）、結果ファイル２０４に未収集のＵＲＬが登録されているかどうかによってＷｅｂ収集処理が完了したかどうかが判断される（ステップＳ１２８）。
【００８１】
結果ファイル２０４に未収集のＵＲＬが登録されている場合には（ステップＳ１２８のＮＯ）、上述のステップＳ１２１からの処理が繰り返される。すなわち、結果ファイル２０４に追加されたＵＲＬで指定される文書ファイルの取得を行い（ステップＳ１２１）、その結果（収集日、収集日時、ステータスコード）を結果ファイル２０４に登録して進捗状況情報の更新を行う（ステップＳ１２２）。取得が成功した場合には、収集した文書ファイルから知識ＤＢ１３１に登録すべき属性情報が取得され（ステップＳ１２２）、次いでテキスト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリンク先ＵＲＬの検出）が実行される（ステップＳ１２４）。リンク先ＵＲＬが検出された場合には、そのＵＲＬと、起点ＵＲＬおよびリンク段数が結果ファイル２０４のＵＲＬリストに追加登録される（ステップＳ１２５）。この後、属性情報とテキストデータを登録ファイル上に記述する処理が行われる（ステップＳ１２６）。
【００８２】
ここで、中断指示の有無が判定される（ステップＳ１２７）。もし「収集中断」ボタン７０１が押されたならば、制御ファイル２０２を通じて管理インターフェース１１２からＷｅｂ収集モジュール１１１に中断指示が発行される。この場合（ステップＳ１２７のＹＥＳ）、Ｗｅｂ収集モジュール１１１によって実行中のＷｅｂ収集タスクが中断される。
【００８３】
次に、図１６乃至図１９を参照して、再収集処理の動作について説明する。再収集処理とは上述したように以前行った収集タスクを再度実行する場合の収集処理を意味する。一旦中断したＷｅｂ収集処理タスクを再開させた場合のＷｅｂ収集処理は再収集処理であり、また終了されたＷｅｂ収集処理タスクを次に実行させる場合におけるＷｅｂ収集処理も再収集処理である。これら再収集処理は、例えば、中断または終了されたＷｅｂ収集タスクが選択された状態で上述の「収集開始」ボタン７０１が押された場合に実行される。またＷｅｂ収集モジュール１１１をオペレーティングシステムのタスク管理機能に登録することなどによってＷｅｂ収集モジュール１１１を定期的に自動起動することもできるので、この場合には、中断または終了されたＷｅｂ収集タスクが自動実行されて再収集処理が開始されることになる。
【００８４】
図１６のフローチャートに示すように、再収集処理が開始されると、まず、そのＷｅｂ収集タスクに関する再収集モードが設定ファイル２０３の設定情報に基づいて判別される（ステップＳ１３１）。もし「全てのファイルを新たに収集」モードであれば、当該Ｗｅｂ収集タスクに関する以前の結果ファイル２０４の内容は破棄され、起点ＵＲＬからの収集処理が開始される（ステップＳ１３２）。この場合、これまで説明した通常のＷｅｂ収集処理と同じ処理が実行されることになる。またもし「未収集のファイルのみ収集」モードであった場合には、既に収集済みの文書ファイルの収集は行われず、未収集の文書ファイルのみの収集が行われる。この場合、結果ファイル２０４に保持されている当該Ｗｅｂ収集タスクに関する以前の収集結果の内容から再開ポイントが検出されて、以前の収集処理で未収集のＵＲＬからの収集処理が開始される（ステップＳ１３３）。再収集処理の収集結果は、結果ファイル２０４上に保持されている当該Ｗｅｂ収集タスクに関する以前の収集結果に追加されていく。またもし「更新されたファイルのみ収集(削除機能あり)」モードであった場合には、以前の収集時点から更新された文書ファイルのみ収集が行われる（ステップＳ１３４）。再収集処理の収集結果は、結果ファイル２０４上に保持されている当該Ｗｅｂ収集タスクに関する以前の収集結果に追加されていく。
【００８５】
図１７のフローチャートには、「未収集のファイルのみ収集」モードにおける再収集処理の手順が示されている。まず、結果ファイル２０４に保持されている当該Ｗｅｂ収集タスクに関する以前の収集結果の内容から未収集のＵＲＬ（収集日、収集日時が登録されていないＵＲＬの先頭）が検出され、それが再開ポイントとして決定される（ステップＳ２０１）。そして、その再開ポイントのＵＲＬで指定される文書ファイルの取得を行い（ステップＳ２０２）、その結果（収集日、収集日時、ステータスコード）を結果ファイル２０４に登録して進捗状況情報の更新を行う（ステップＳ２０３）。取得が成功した場合には、収集した文書ファイルから知識ＤＢ１３１に登録すべき属性情報が取得され（ステップＳ２０４）、次いでテキスト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリンク先ＵＲＬの検出）が実行される（ステップＳ２０５）。リンク先ＵＲＬが検出された場合には、そのＵＲＬと、起点ＵＲＬおよびリンク段数が結果ファイル２０４のＵＲＬリストに追加登録される（ステップＳ２０６）。この後、属性情報とテキストデータを登録ファイル上に記述する処理が行われる（ステップＳ２０７）。そして、中断指示が発行されるか、あるいは収集処理が完了するまで、結果ファイル２０４から追加されたＵＲＬを取得しながらステップＳ２０２からの処理が繰り返し実行される（ステップＳ２０８，Ｓ２０９）。
【００８６】
次に、「更新されたファイルのみ収集(削除機能あり)」モードにおける最収集処理の手順について説明する。
【００８７】
このモードにおいては、図１８に示すように、再収集を開始する現在の日時をＤ１、現在よりも指定日数だけ前の時点をＤ２とすると、Ｄ２までに取得された当該Ｗｅｂ収集タスクに関するＵＲＬの中で、現時点までに更新されているＵＲＬのみが収集される。
【００８８】
図１９のフローチャートに示されているように、まず、結果ファイル２０４に保持されている当該Ｗｅｂ収集タスクに関する以前の収集結果の内容から以前に収集したＵＲＬが一つずつ取得され（ステップＳ３０１）、その各ＵＲＬについて以下の処理が行われる。最初に、当該ＵＲＬに対応する文書ファイルがＤ２までに収集された文書ファイルであるかどうかが判断される（ステップＳ３０２）。Ｄ２までに収集された文書ファイルである場合には、そのＵＲＬで指定される文書ファイルが以前の収集日時から更新されているかどうかが調べられる（ステップＳ３０３）。もし更新されていれば、そのＵＲＬの文書ファイルの取得が行われる（ステップＳ３０４）。ステップＳ３０３，３０４の処理は、例えば、以前の収集日時を含む条件付きの取得要求を当該ＵＲＬで指定されるＷｅｂサーバに発行して、更新されている場合のみ当該文書ファイルをＷｅｂサーバに返送させる、という仕組みを用いて実現することが出来る。
【００８９】
当該ＵＲＬの文書ファイルが更新されており、且つその取得が成功した場合には（ステップＳ３０５のＹＥＳ）、その結果（収集日、収集日時、ステータスコード、起点ＵＲＬ、ＵＲＬ）を結果ファイル２０４に登録して進捗状況情報の更新を行う（ステップＳ３０６）。そして、収集した文書ファイルから知識ＤＢ１３１に登録すべき属性情報が取得され（ステップＳ３０７）、次いでテキスト抽出処理（ＨＴＭＬファイルの場合はテキスト抽出とリンク先ＵＲＬの検出）が実行される（ステップＳ３０８）。リンク先ＵＲＬが検出された場合には、そのＵＲＬと、起点ＵＲＬおよびリンク段数が結果ファイル２０４のＵＲＬリストに追加登録される（ステップＳ３０９）。この後、属性情報とテキストデータを登録ファイル上に記述する処理が行われる（ステップＳ３１０）。そして、中断指示が発行されるか、あるいは収集処理が完了するまで、以前に収集されたＵＲＬを対象にステップＳ３０１の処理が繰り返し実行される（ステップＳ３１１，Ｓ３１２）。
【００９０】
もし、取得要求に対してＷｅｂサーバからステータスコード404が返された場合、つまり当該ＵＲＬの文書ファイルがＷｅｂサーバから削除されていた場合には（ステップＳ３０５のＮＯ）、結果ファイル２０４に保持されている当該ＵＲＬの以前の収集結果のステータスコードが200であるかどうかによって、以前正常に収集された文書ファイルであるかどうかが判断される（ステップＳ３１３）。以前正常に収集された文書ファイルである場合には、その文書情報を知識データベース１３１から削除するための削除処理が実行される（ステップＳ３１４，Ｓ３１０）。ここでは、まずその結果（収集日、収集日時、ステータスコード200、起点ＵＲＬ、ＵＲＬ）を結果ファイル２０４に登録した後、MODE＝０が選択され、MODE＝０と当該ＵＲＬのUNIQUE等が登録ファイル上に記述される。これにより、再収集終了後に、登録モジュール１２によって知識データベース１３１から該当する文書情報が削除される。
【００９１】
以上のように、本実施形態によれば、Ｗｅｂ収集モジュール１１１が文書ファイルからのリンク情報の検出を行うための解析処理の中で、知識ＤＢ１３１に登録すべきテキストデータの抽出も併せて行うことで、テキストデータの抽出処理を効率よく行うことが可能となる。さらに、第２処理モードにおいては、リンク情報を含む可能性があるハイパーテキストファイルを含む所定のファイル形式の文書ファイルのみを対象に上述の解析処理を行い、他のファイル形式の文書ファイルについてはそのパス名を登録ファイルに記述するという仕組みを用いることにより、取得した文書ファイルの種類に応じてその処理形態を自動的に切り替える事が可能となる。よって、複数の収集タスクが設定されている場合でも、それらタスクを効率よく順次処理することが可能となる。
【００９２】
なお、本実施形態の知識情報収集システムの機能は全てコンピュータプログラムにより実現されているので、そのコンピュータプログラムをコンピュータ読み取り可能な記憶媒体に記憶しておき、その記憶媒体を通じて本コンピュータプログラムを、コンピュータネットワーク接続可能な通常のコンピュータに導入して実行させるだけで、本実施形態と同様の効果を容易に得ることができる。
【００９３】
また本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【００９４】
【発明の効果】
以上説明したように、本発明によれば、インターネット上からファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集することが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る知識情報収集システムの構成を示すブロック図。
【図２】同実施形態の知識情報収集システムに設けられたＷｅｂ収集モジュールの機能構成を示すブロック図。
【図３】同実施形態の知識情報収集システムで用いられる登録ファイルの出力形式の例を示す図。
【図４】同実施形態の知識情報収集システムで用いられる登録ファイルの出力形式の他の例を示す図。
【図５】同実施形態の知識情報収集システムに設けられたＷｅｂ収集モジュールの処理手順を示すフローチャート。
【図６】同実施形態の知識情報収集システムに設けられた登録モジュールの処理手順を示すフローチャート。
【図７】同実施形態の知識情報収集システムおけるＷｅｂコンテンツとその登録処理との関係を示す図。
【図８】同実施形態の知識情報収集システムにより提供される３つの画面とその遷移を説明するための図。
【図９】同実施形態の知識情報収集システムで用いられる一覧画面の例を示す図。
【図１０】同実施形態の知識情報収集システムで用いられる設定画面の例を示す図。
【図１１】同実施形態の知識情報収集システムで用いられる状況画面の例を示す図。
【図１２】同実施形態の知識情報収集システムで用いられる状況画面の例を示す図。
【図１３】同実施形態の知識情報収集システムにおけるＷｅｂ収集処理の中断／再開動作を説明するための図。
【図１４】同実施形態の知識情報収集システムに設けられた結果ファイルの内容の例を示す図。
【図１５】同実施形態の知識情報収集システムにおけるＷｅｂ収集処理の開始から中断までの処理手順を示すフローチャート。
【図１６】同実施形態の知識情報収集システムにおける再収集処理の手順を示すフローチャート。
【図１７】同実施形態の知識情報収集システムにおける「未収集ファイルのみ収集」モードの再収集処理の手順を示すフローチャート。
【図１８】同実施形態の知識情報収集システムにおける「更新ファイルのみ収集」モードの再収集処理を説明するための図。
【図１９】同実施形態の知識情報収集システムにおける「更新ファイルのみ収集」モードの再収集処理の手順を示すフローチャート。
【符号の説明】
１１…Ｗｅｂ収集システム
１２…登録モジュール
１３…知識エンジン
３０…インターネット／イントラネット
１１１…Ｗｅｂ収集モジュール
１１２…管理インターフェース
１１３…登録ディレクトリ
１３１…知識データベース
１３２…検索エンジン
２０１…ロックファイル
２０２…制御ファイル
２０３…設定ファイル
２０４…結果ファイル
２０５…ログファイル
３０１…収集制御部
３０２…属性抽出部
３０３…テキスト抽出部
３０４…フォーマット変換部

Claims

知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムにおいて、
予め指定された情報収集条件を示す設定情報に基づいて、前記ネットワーク上から文書ファイルを収集する文書収集手段であって、第１処理モードにおいては、前記ネットワーク上から収集した各文書ファイルに対してテキストデータの抽出とリンク情報の検出のための解析処理を行い、前記リンク情報が検出された場合にその検出されたリンク情報で指定されるリンク先の文書ファイルを前記ネットワークから収集し、第２処理モードにおいては、ハイパーテキストファイルを含む所定のファイル形式の文書ファイルを対象に前記解析処理を行い、前記リンク情報が検出された場合にその検出されたリンク情報で指定されるリンク先の文書ファイルを前記ネットワークから収集し、他のファイル形式の文書ファイルに対しては前記解析処理を行わない文書収集手段と、
複数種の文書ファイルそれぞれの文書情報を前記知識データベースに登録するための共通インターフェースとして予め決められた記述形式を持つ登録ファイル上に、前記収集された各文書ファイルから抽出されたテキストデータを記述して出力する出力手段であって、前記文書収集手段が前記第２処理モードで動作する場合、前記解析処理が行われなかった文書ファイルのパス名を前記登録ファイル上に記述する手段を含む出力手段と、
前記登録ファイルからそこに記述された各文書ファイルのテキストデータを取り出し、そのテキストデータを前記知識データベースに登録する登録手段であって、前記登録ファイルにパス名が記述されている場合、前記パス名で指定される文書ファイルからテキストデータを抽出して前記知識データベースに登録する処理を実行する登録手段とを具備することを特徴とする知識情報収集システム。
知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムにおいて、
予め指定された情報収集条件を示す設定情報に基づいて、前記ネットワーク上から文書ファイルを収集する文書収集手段であって、前記ネットワーク上から収集した各文書ファイルに対してテキストデータの抽出とリンク情報の検出のための解析処理を行い、前記リンク情報が検出された場合にその検出されたリンク情報で指定されるリンク先の文書ファイルを前記ネットワークから収集する文書収集手段と、
複数種の文書ファイルそれぞれの文書情報を前記知識データベースに登録するための共通インターフェースとして予め決められた記述形式を持つ登録ファイル上に、前記収集された各文書ファイルから抽出されたテキストデータを記述して出力する出力手段と、
前記登録ファイルからそこに記述された各文書ファイルのテキストデータを取り出し、そのテキストデータを前記知識データベースに登録する登録手段とを具備し、
前記登録ファイルには、各文書ファイル毎に前記知識データベースに対するテキストデータの登録または削除を前記登録手段に対して指示するためのモード情報が定義されており、
前記出力手段は、過去に収集済みの文書ファイルの一覧を管理する手段と、前記文書収集手段による各文書ファイルの収集の成否を示すステータス情報と前記収集済みのファイルの一覧とに基づいて、過去に収集済みのファイルの中で前記ネットワーク上から削除された文書ファイルを検出する手段と、前記ネットワーク上から削除された文書ファイルについてはそのテキストデータが前記知識データベースから削除されるように、前記検出された文書ファイルのテキストデータの削除を示すモード情報を前記登録ファイル上に記述する手段とを含むことを特徴とする知識情報収集システム。
知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集方法であって、
予め指定された情報収集条件を示す設定情報に基づいて、前記ネットワーク上から文書ファイルを収集する文書収集ステップであって、第１処理モードにおいては、前記ネットワーク上から収集した各文書ファイルに対してテキストデータの抽出とリンク情報の検出のための解析処理を行い、前記リンク情報が検出された場合にその検出されたリンク情報で指定されるリンク先の文書ファイルを前記ネットワークから収集し、第２処理モードにおいては、ハイパーテキストファイルを含む所定のファイル形式の文書ファイルを対象に前記解析処理を行い、前記リンク情報が検出された場合にその検出されたリンク情報で指定されるリンク先の文書ファイルを前記ネットワークから収集し、他のファイル形式の文書ファイルに対しては前記解析処理を行わない文書収集ステップと、
複数種の文書ファイルそれぞれの文書情報を前記知識データベースに登録するための共通インターフェースとして予め決められた記述形式を持つ登録ファイル上に、前記収集された各文書ファイルから抽出されたテキストデータを記述して出力する出力ステップであって、前記文書収集ステップが前記第２処理モードで動作する場合、前記解析処理が行われなかった文書ファイルのパス名を前記登録ファイル上に記述する処理を実行する出力ステップと、
前記登録ファイルからそこに記述された各文書ファイルのテキストデータを取り出し、そのテキストデータを前記知識データベースに登録する登録ステップであって、前記登録ファイルにパス名が記述されている場合、前記パス名で指定される文書ファイルからテキストデータを抽出して前記知識データベースに登録する処理を実行する登録ステップとを具備することを特徴とする知識情報収集方法。
知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報方法であって、
予め指定された情報収集条件を示す設定情報に基づいて、前記ネットワーク上から文書ファイルを収集する文書収集ステップであって、前記ネットワーク上から収集した各文書ファイルに対してテキストデータの抽出とリンク情報の検出のための解析処理を行い、前記リンク情報が検出された場合にその検出されたリンク情報で指定されるリンク先の文書ファイルを前記ネットワークから収集する文書収集ステップと、
複数種の文書ファイルそれぞれの文書情報を前記知識データベースに登録するための共通インターフェースとして予め決められた記述形式を持つ登録ファイル上に、前記収集された各文書ファイルから抽出されたテキストデータを記述して出力する出力ステップと、
前記登録ファイルからそこに記述された各文書ファイルのテキストデータを取り出し、そのテキストデータを前記知識データベースに登録する登録ステップとを具備し、
前記登録ファイルには、各文書ファイル毎に前記知識データベースに対するテキストデータの登録または削除を前記登録ステップに対して指示するためのモード情報が定義されており、
前記出力ステップは、過去に収集済みの文書ファイルの一覧を管理するステップと、前記文書収集ステップによる各文書ファイルの収集の成否を示すステータス情報と前記収集済みのファイルの一覧とに基づいて、過去に収集済みのファイルの中で前記ネットワーク上から削除された文書ファイルを検出するステップと、前記ネットワーク上から削除された文書ファイルについてはそのテキストデータが前記知識データベースから削除されるように、前記検出された文書ファイルのテキストデータの削除を示すモード情報を前記登録ファイル上に記述するステップとを含むことを特徴とする知識情報収集方法。