JP3725835B2 - 知識情報収集システムおよび知識情報収集方法 - Google Patents

知識情報収集システムおよび知識情報収集方法 Download PDF

Info

Publication number
JP3725835B2
JP3725835B2 JP2002108416A JP2002108416A JP3725835B2 JP 3725835 B2 JP3725835 B2 JP 3725835B2 JP 2002108416 A JP2002108416 A JP 2002108416A JP 2002108416 A JP2002108416 A JP 2002108416A JP 3725835 B2 JP3725835 B2 JP 3725835B2
Authority
JP
Japan
Prior art keywords
registration
document
collection
document collection
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002108416A
Other languages
English (en)
Other versions
JP2003303199A (ja
Inventor
一彦 渥美
真代 豊田
弘二 塩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002108416A priority Critical patent/JP3725835B2/ja
Publication of JP2003303199A publication Critical patent/JP2003303199A/ja
Application granted granted Critical
Publication of JP3725835B2 publication Critical patent/JP3725835B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はナレッジマネジメントシステムで用いられる知識情報収集システムおよび知識情報収集方法に関し、特に知識データベースに登録すべき文書情報をネットワーク上から収集するための知識情報収集システムおよび知識情報収集方法に関する。
【0002】
【従来の技術】
近年、企業を中心に複数のユーザ間で情報共有を行うためのグループウェアの導入が進められている。代表的なグループウェアとしては、電子メールシステムやワークフローシステムなどが知られているが、最近では、知識情報の共有支援を図るためのナレッジマネジメントシステムも開発され始めている。
【0003】
このナレッジマネジメントシステムは、個人のノウハウなどの知識情報を知識データベースに蓄積・管理するためのものであり、自然言語検索などの検索機能と組み合わせることにより、蓄積された知識情報の効率的な活用が可能となる。
【0004】
ところで、このようなナレッジマネジメントシステムにおいては、知識情報をいかに効率よく収集・蓄積するかが重要なポイントとなる。特にインターネット上のWeb情報は知識の宝庫であるので、インターネット上から必要な情報を効率良く収集するための仕組みが必要とされている。
【0005】
【発明が解決しようとする課題】
しかし、インターネットからのWeb情報の収集に際してはリンク情報を辿りながら互いに関連する大量の文書ファイル群それぞれを順次収集することが必要となるので、その収集処理には通常多くの時間を要する。さらに、インターネットから収集した文書情報を知識として使用できるようにするためには、その文書情報をナレッジマネジメントシステムの知識データベースに登録することが必要であるので、その登録処理にも時間を要することとなる。
【0006】
このため、特に、収集起点が異なる複数の収集処理の設定を行ってその収集結果を知識データベースに登録するような場合には、設定した収集処理毎にその進捗状況は大きく異なるので、どの収集処理がどのような収集/登録の処理状況であるかを把握することは困難となる。また、Web情報の収集と、例えばデータベースなどの他の情報源からの情報収集などとを同時に行うような場合も、同様の問題が生じることになる。
【0007】
本発明はこのような事情を考慮してなされたものであり、複数の文書収集処理それぞれの収集/登録の処理状況を容易に把握することが可能な知識情報収集システムおよび知識情報収集方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
上述の課題を解決するため、本発明は、知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムにおいて、前記ネットワーク上からの文書ファイル群の収集条件を示す複数の設定情報それぞれに基づいて、前記複数の設定情報それぞれに対応する複数の文書収集処理を実行する文書収集手段であって、処理対象の文書収集処理毎にその開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記処理対象の文書収集処理の進捗に合わせて、当該文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む文書収集手段と、前記各文書収集処理の完了の度に前記文書収集手段から発行される登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録手段であって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録手段と、現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記文書収集処理が開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示手段とを具備することを特徴とする。
【0009】
この知識情報収集システムでは、文書収集手段においては、各文書収集処理の開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルが作成され、その文書収集処理の進捗に合わせて、当該文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報が書き込まれる。そして、各文書収集処理の完了の度に文書収集手段から登録要求が発行され、その登録要求の受付け順に、登録手段による登録処理が実行される。この登録手段においては、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報が書き込まれる。また、登録手段は、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する。このように、各文書収集処理毎に作成されるステータス情報ファイルを用いて、文書収集処理毎にその文書収集処理の進捗状況と登録処理の進捗状況とを同一のステータス情報ファイルに書き込むことにより、文書収集処理が開始された文書収集処理それぞれに関する収集/登録の状況を個別に管理することが出来る。そして、ステータス表示手段は、現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて、文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する。よって、複数の文書収集処理それぞれの収集/登録の処理状況を容易に把握することが可能となる。
【0010】
また本発明は、知識データベースに登録すべき文書情報を収集する知識情報収集システムにおいて、互いに異なる複数種の情報源それぞれに対応して設けられ、各々がそれに対応する情報源から文書ファイル群を収集するための文書収集処理を実行する複数の文書収集手段であって、各文書収集手段は、文書収集処理の開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記文書収集処理の進捗に合わせて、前記文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む複数の文書収集手段と、前記複数の文書収集手段の各々がその文書収集処理を完了する度に発行する登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録手段であって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録手段と、現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記複数の文書収集手段よって開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記複数の文書収集手段それぞれの文書収集処理に関する収集開始から登録までの間における現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示手段とを具備することを特徴とする。
【0011】
この知識情報収集システムでは、複数の文書収集手段が設けられており、互いに異なる複数種の情報源を対象にした文書収集処理がそれぞれ実行されるが、この場合においても、文書収集処理それぞれに対応して作成されるステータス情報ファイルを用いて、文書収集処理毎にその文書収集処理の進捗状況と登録処理の進捗状況とを同一のステータス情報ファイルに書き込み、そして登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除することにより、例えば、ネットワークからの収集、ファイリングシステムからの収集、データベースからの収集などといった様々な収集処理それぞれに関する収集/登録の状況を管理することが出来る。
【0012】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
図1には、本発明の一実施形態に係る知識情報収集システムを用いたナレッジマネジメントシステム全体の構成が示されている。このナレッジマネジメントシステムは知識情報の収集・分析・検索等のサービスを提供するためのものであり、Web収集システム11、登録モジュール12、および知識エンジン13などから構成されている。これらWeb収集システム11、登録モジュール12および知識エンジン13は、サーバコンピュータ上で実行されるプログラムとして実現されている。Web収集システム11および登録モジュール12は、ナレッジマネジメントシステムで用いられる知識情報を収集するための知識情報収集システムを構成する。この知識情報収集システムは、Webページなどの文書をインターネット/イントラネット30上から収集してその文書の内容をナレッジマネジメントシステムの知識データベース(知識DB)131に登録するという処理を実行する。Web収集システム11は、Web収集モジュール111、管理インターフェース112、および登録ディレクトリ113から構成されている。
【0013】
Web収集モジュール111はインターネット/イントラネット30上の各種文書ファイルを収集してそれを知識DB131に登録できる形式で出力するためプログラムである。このWeb収集モジュール111はマルチスレッド構造を有しており、HTTP(HyperText Transfer Protocol)によるインターネット/イントラネット30上からの文書ファイル取得処理を並列的に行うことが出来る。HTTPはインターネット/イントラネット30上の情報サイト(Webサイト)である各Webサーバ31からHTML(Hyper Text Markup Language)で記述された文書を取得するための通信プロトコルである。Web収集モジュール111は、Web収集条件を指定する設定情報で指定されたURL(Uniform Resource Locator)の文書ファイルをインターネット/イントラネット30上から取得し、取得した文書ファイルにリンク先のURLが含まれていればそのURLの文書ファイルをさらに取得する、という再帰的な処理を行って、インターネット/イントラネット30上から関連する文書ファイル群を順次取得する。この場合、他の文書ファイルへのリンク情報(URL)を検出するためには取得した文書ファイルを解析することが必要となるが、その解析処理の中では、リンク情報の検出のみならず、知識DB131に登録すべきテキストデータの抽出も併せて実行される。
【0014】
収集対象の文書ファイルは、他のファイルへのリンク情報であるURLを記述可能なハイパーテキストファイル(HTMLファイル)のみならず、テキストファイル(plane text)、さらには各種アプリケーションプログラムによって作成された様々なファイル形式の文書ファイル(例えば、Portable Document Format形式のファイル、ワードプロセッサソフトウェアで作成した文書ファイル、表計算ソフトウェアで作成したファイル、プレゼンテーションデータ作成ソフトウェアで作成したプレゼンテーションデータのファイル、など)も収集対象となる。
【0015】
Web収集モジュール111では、インターネット/イントラネット30上から収集した各文書ファイルに対して知識DB131に登録すべき属性情報の取得と上述のテキストデータの抽出が行われる。各文書ファイルから取得される属性情報は、例えば、当該文書ファイルのURL、ファイル作成日時(更新日時)等である。そして、Web収集モジュール111では、それら各文書ファイルの属性情報とテキストデータが記述された登録ファイルが作成されて、それが登録ディレクトリ113上に出力される。ここで、登録ファイルとは、ファイル形式の異なる複数種の文書ファイルそれぞれの文書情報を知識DB131に登録するための共通インターフェースとして予め決められた記述形式を持つファイルを意味する。この登録ファイルは、複数種の文書ファイルそれぞれの文書情報を知識DB131に共通フォーマットで登録するために利用される。本実施形態では、登録ファイルとしてXML(eXtensible Markup Language)を使用する。
【0016】
管理インターフェース112は、Web収集モジュール111に実行させる各Web収集処理(以下、Web収集処理タスクという)の内容を設定するためのプログラムであり、各Web収集処理タスク毎にそのWeb収集条件の設定および管理、Web収集モジュール111の起動・停止の制御、さらには各Web収集処理タスクの収集状況の管理・提示等の機能を有している。この管理インターフェース112は、管理者ユーザがそのユーザ端末のWebブラウザ21上から必要な操作を行えるように、Webサーバ22がCGI(Common Gateway Interface)を通じて起動可能な外部プログラム(CGIプログラム)として実現されている。
【0017】
またWeb収集システム11には、Web収集モジュール111の動作を管理・制御するためのファイルとして、図示のように、ロックファイル201、制御ファイル202、設定ファイル203、結果ファイル204、およびログファイル205が設けられている。
【0018】
ロックファイル201はWeb収集モジュール111の2重起動を防止するための排他制御用のファイルである。制御ファイル202は管理インターフェース112がWeb収集モジュール111を停止させるために使用するファイルであり、例えば、管理者ユーザからの指示に応答して、実行中のWeb収集処理タスクを途中で中断させる場合などに利用される。収集実行中における中断の指定は、管理者ユーザが管理インターフェース112を通じて行うことができる。
【0019】
設定ファイル203は、各Web収集処理タスク毎にそのWeb収集条件を指定する設定情報を記述するためのファイルであり、ここには複数のWeb収集処理タスクそれぞれに対応する複数の設定情報を保持することが出来る。各Web収集処理タスクのWeb収集条件は、管理者ユーザによって設定される。Web収集条件には、少なくとも、インターネット/イントラネット30からの情報収集の起点とすべき文書ファイルの所在を示す起点アドレス情報(起点URL)と、収集対象とすべき文書ファイル数またはリンク段数の上限値を示す収集範囲情報、等が含まれている。このWeb収集条件に基づいてWeb収集モジュール111のWeb収集動作が制御される。すなわち、Web収集モジュール111は、起点URLで指定される文書ファイルを起点にそれに関連する文書ファイル群を、収集範囲情報で規定される範囲内で順次収集する。
【0020】
また、Web収集条件には、登録先の知識データベースを指定する知識データベース名も含まれている。すなわち、知識DB131においては蓄積文書の種類が互いに異なる複数の知識データベースが定義されており、それら複数の知識データベースがそれぞれの知識データベース名で管理されている。設定ファイル203の設定情報によってWeb収集タスク毎に登録先の知識データベース名を指定することにより、収集した文書情報を知識DB131内の任意の知識データベースに登録することが出来る。
【0021】
さらに、収集範囲情報として、収集対象とすべきファイル形式の種類、再収集を行う時の収集条件、等を設定することもできる。ここで、再収集とは、例えばWeb収集モジュール111に同一のWeb収集処理タスクを定期的に実行させる場合における2度目以降のWeb収集処理や、一旦中断したWeb収集処理タスクを再開させた場合のWeb収集処理を言う。
【0022】
結果ファイル204は、以前に収集した文書ファイルの一覧等をWeb収集処理の結果として各Web収集タスク毎に管理するためのファイルであり、ここには、Web収集の結果として取得したURLのリスト、取得日時、取得した文書ファイル件数、などが各Web収集処理タスク毎に出力される。この結果ファイル204はWeb収集処理タスクそれぞれの収集状況をユーザに提示する目的と、再収集の効率化の目的に用いられる。この結果ファイル204を用いることにより、過去に収集済みの文書ファイルの中でインターネット/イントラネット30上の情報サイトから削除された文書ファイルを検出したり、Web収集処理を途中で中断した場合における再開ポイントの検出、さらには以前の収集時点からインターネット/イントラネット30上で更新されている文書ファイルの検出などを行うことが出来る。
【0023】
ログフィル205は、Web収集モジュール111による文書ファイルの取得の成否やエラーの種類などを管理するファイルである。
【0024】
登録ディレクトリ113は、知識DB131に登録すべき文書内容を出力するための記憶領域である。ここには、Web収集モジュール111によって各文書ファイルから抽出された属性情報とテキストデータが記述された上述の登録ファイルが出力される。Web収集モジュール111は、テキストデータの抽出に関して第1および第2の2つの処理モードを有する。
【0025】
第1処理モードでは、全てのファイル形式の文書ファイルを対象に解析処理を行ってテキストデータの抽出、さらにはリンク情報(URL)の検出が行われる(URLの検出はHTMLファイルのみが対象)。第2処理モードでは、HTMLファイルとテキストファイル(PlainText)のみを対象に解析処理を行ってテキストデータの抽出、さらにはリンク情報(URL)の検出が行われ(URLの検出はHTMLファイルのみが対象)、例えばPortable Document Format等の他のファイル形式の文書ファイル(以下、コンテンツファイルという)に対しては解析処理は行われない。
【0026】
第2処理モードを使用した場合、HTMLとPlainTextについては、そのテキストデータと属性情報が登録ファイル上に記述されて登録ディレクトリ113上に出力される。一方、Portable Document Formatなど他の形式のファイルについてはそのコンテンツファイルがそのまま登録ディレクトリ113上に出力され、登録ファイル上には当該ファイルの属性情報とコンテンツファイルのパス名が記述される。なお、第2処理モードにおいては、リンク情報の検出のための解析処理が必要なファイルを対象にその解析処理の中でテキストデータの抽出も併せて実行するという点が肝要であるので、HTMLファイルのみを対象にテキストデータの抽出を行うようにしても良い。
【0027】
第1および第2のどちらの処理モードにおいても、Web収集モジュール111は実行中のWeb収集タスクの処理が完了した時に、登録モジュール12に対して登録要求ファイルを発行して文書の登録を登録モジュール12に要求する。登録要求ファイルには、登録ファイルのファイル名、登録先の知識データベース名などが記述されている。
【0028】
登録モジュール12は、Web収集モジュール111によって収集された各文書ファイルの属性情報およびテキストデータを知識DB131に登録する。すなわち、登録モジュール12は、Web収集モジュール111からの登録要求に応答して該当する登録ファイルを取得し、その登録ファイル上に文書ファイル毎に記述されている属性情報およびテキストデータを取り出して、知識DB131の登録先知識データベースに登録する。また、この登録モジュール12はテキストデータの抽出機能も有しており、登録ファイルにコンテンツファイルのパス名が記述されている場合は、登録モジュール12は、そのパス名で指定されるコンテンツファイルからテキストデータを抽出して知識DB131の該当する登録先知識データベースに登録する。
【0029】
さらに、登録モジュール12は、Web収集モジュール111以外の他の収集モジュールによって収集された文書の登録処理も実行する。他の収集モジュールとしては、例えば、電子ファイリングシステムのファイルサーバから文書情報を収集するファイル収集モジュール、RDBデータベースサーバからそこに管理されている文書情報を収集するデータベース(RDB)収集モジュール、電子掲示板形式のコミュニティからそこに投稿された文書情報を収集するコミュニティ収集モジュール、ユーザが任意の各種アプリケーションプログラムの文書ファイルを登録ファイル(XML)の出力形式に変換するために使用するユーザ収集モジュール等がある。登録モジュール12はこれら各収集モジュールによって共通に利用される。どの収集モジュールについても、登録モジュール12に対するインターフェースとしては上述のXML形式の登録ファイルが用いられる。すなわち、登録モジュール12は、各収集モジュールが収集タスクを完了する度に発行する登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果である登録ファイルの内容を知識DB131の該当する登録先知識データベースに登録するための登録処理を順次実行する。
【0030】
知識エンジン13は、知識DB131に蓄積された情報を活用するための知識分析処理を行う。この知識分析処理では、知識DB131に蓄積された大量の文書情報それぞれの特徴を分析して重要語を抽出する処理や、それら文書情報を特徴別に複数のカテゴリに分類および整理するクラスタリング処理などが行われる。この知識エンジン13には自然言語検索を行うための知識エンジン132が設けられており、各ユーザはそのユーザ端末のWebブラウザ41からWebサーバ42を通じて知識エンジン132をアクセスすることにより、Webブラウザ41上から知識DB131に蓄積された知識の検索を行うことが出来る。知識DB131に蓄積された各文書の属性情報にはその文書のURLも含まれているので、そのオリジナル文書を該当する情報サイトから取得してWebブラウザ41上に表示することが出来る。なお、検索処理は、ある知識データベース名を選択してその選択した知識データベースのみを対象に行ったり、あるいは知識DB131内の全ての知識データベースを対象に行うことが出来る。
【0031】
次に、図2を参照して、Web収集モジュール111の機能構成について説明する。
Web収集モジュール111は、図示のように、収集制御部301、属性抽出部302、テキスト抽出部303、およびフォーマット変換部304を有している。収集制御部301は、設定ファイル203に保持されている全ての設定情報それぞれについて、その設定情報で指定されたWeb収集タスクを順番に一つずつ実行する。各Web収集タスク毎に設定情報で指定された起点URLを起点として、インターネット/イントラネット30から関連する文書ファイル群を順次収集する。取得した文書ファイルに含まれるリンク先文書へのURLはURLリスト305に追加されて行き、URLリスト305からURLを取得しながらが収集処理が再帰的に実行される。URLリスト305としては、上述の結果ファイル204を用いることが出来る。収集範囲は設定ファイル203に保持されている収集条件によって制限される。
【0032】
収集された各文書ファイルはまず属性抽出部302に送られ、そこで各文書ファイルの属性情報が取得される。次いで、テキスト抽出部303にて文書の解析処理が行われ、知識DB131に登録すべきテキストデータと、次に取得すべきリンク先URLの抽出が行われる。例えば、HTMLファイルに対しては、テキストデータの抽出は、HTMLのタグ以外の部分を抜き出すことによって行う。抽出されたテキストはタイトルとボディ(本文)とに分けられる。リンク先URLの取得は、Aタグ、AREFタグのHREFの値、FRAMEタグ、IFRAMEタグ、LAYERタグのSRCの値、METAタグのREFRESHの値を取得することによって行われる。上述の第2の処理モードで動作する場合には、テキスト抽出部303の処理はHTMLファイルとテキストファイルに対してのみ行われ、Portable Document Format等の他のファイル形式の文書ファイルに対しては行われない。
【0033】
各文書ファイルから取得された属性情報とテキストデータはフォーマット変換部304に送られ、そこでXMLの登録ファイルの記述形式に従う出力フォーマットに整形されて登録ディレクトリ113上に出力される。一つの登録ファイルには、例えば1000個程度の文書ファイルについての属性情報およびテキストデータが記述される。テキスト抽出が行われなかった文書ファイルについては属性情報とパス名が登録ファイル上に記述される。
【0034】
以上の処理は、再収集によって収集された各文書ファイルに対しても同様に行われる。
【0035】
次に、図3および図4を参照して、登録ファイルの出力フォーマットの例を説明する。
【0036】
図3は、テキスト抽出部303にてテキスト抽出を行う場合の出力フォーマットの例を示している。ファイルの先頭のタグ<?xml version="1.0" encoding="Shift_JIS"?>、<KnowledgeSystem>はファイルの始まりを示し、また末尾のタグ</KnowledgeSystem>はファイルの終わりを示している。
【0037】
<RECORD>と</RECORD>で囲まれた各レコード内に、1つの文書ファイルの属性情報とテキストデータが記述される。各レコード内のタグの意味は次の通りである。
【0038】
MODE :登録モジュール12の動作モードを指定するモード情報である。このモード情報は、各文書ファイル毎に知識DB131に対する文書情報(テキストデータおよび属性)の登録または削除を指示する。2=登録(上書き)か、0=削除、のいずれかとなる。削除の場合は、下記のタグのうち、TYPEとUNIQUE以外は出力されない。
【0039】
TYPE :収集のタイプを示す。本例では常に“Web収集”となる。
UNIQUE :知識DB131に登録される当該文書ファイルを識別するためのユニークキーである。通常は、当該文書のURLがユニークキーとして用いられる。
【0040】
ORGDATE :文書ファイルの作成日時(または更新日時)を示す。
TITLE :文書ファイルのタイトルを示す。HTMLファイルのタイトル部から抽出されたテキストデータがタイトルとなる。HTMLファイル以外のファイルについてはタイトルは出力されない。このタイトルは、検索画面上に表示される各文書ファイルのタイトルとして使用される。
【0041】
AUTHOR :文書ファイルを所有する情報サイトのホスト名(URLのホストアドレス)を記述する。
DATE :上記ORGDATEの日付部分を記述する。
URL :文書ファイルのURL。UNIQUEと同じ値である。
BODY :文書ファイルから抽出されたテキストデータが記述される。
【0042】
図4は、テキスト抽出部303にてテキスト抽出を行わなかった文書ファイルに関する出力フォーマットの例を示している。
【0043】
BODYにはテキストデータは記述されず、<BDYFILE></BDYFILE>で囲まれた領域のPATH1に、登録ディレクトリ113上に出力される上記コンテンツファイルへのパス名が記述される。DEL=1は、登録モジュール12に対してコンテンツファイルからのテキストデータの抽出後に登録ディレクトリ113上の元ファイルを削除することを指示するものである。Web収集モジュール111が第2処理モードで動作する場合には、HTMLファイルとプレーンテキストについてはBODYにはテキストデータが記述され、他のファイル形式の文書ファイル(コンテンツファイル)についてはBDYFILEにそのコンテンツファイルのパス名が記述されることになる。
【0044】
次に、図5のフローチャートを参照して、収集した文書ファイルに対してWeb収集モジュール111内で実行される一連の処理の手順について説明する。
【0045】
まず、収集した文書ファイルから知識DB131に登録すべき属性情報(URL、AUTHOR、ORGDATE、DATE)が取得される(ステップS101)。属性情報の取得は、HTTPによって情報サイトから返される値や、収集した文書ファイル内に付加されている値などを用いる事が出来る。この後、第2処理モードにおいては、収集した文書ファイルの拡張子などに基づいてそのファイル種別が判定され、HTMLファイルまたはプレーンテキストファイルであるか、あるいはそれ以外の他のファイル形式のファイルであるかが判別される(ステップS102,S103)。収集した文書ファイルがHTMLファイルまたはプレーンテキストファイルである場合には(ステップS103のYES)、上述のテキスト抽出処理(HTMLファイルの場合はテキスト抽出とリンクURLの検出)が実行され(ステップS104)、そして属性情報とテキストデータを上述の形式で登録ファイル上に記述する処理(テキストデータをBODYに挿入)が行われる(ステップS105)。一方、HTMLファイルまたはプレーンテキストファイル以外の他のファイル形式のファイルであれば(ステップS103のNO)、当該ファイルが登録ディレクトリ113上にそのまま出力され(ステップS106)、その後、属性情報と当該ファイルのパス名を登録ファイル上に記述する処理(パス名をBDYFILEに記述)が行われる(ステップS107)。
【0046】
なお、目的のURLの文書ファイルがインターネット/イントラネット30上から取得できなかった場合には、当該文書ファイルの内容が既に知識DB131に登録されていることを条件に、モード情報(MODE)=0(削除)が登録ファイル上に記述される。
【0047】
また、第1処理モードにおいては、ステップS102,S103の処理は行われず、全ての取得ファイルを対象にステップS104,S105の処理が実行される。
【0048】
次に、図6のフローチャートを参照して、登録モジュール12によって実行される登録処理の手順を説明する。
【0049】
Web収集モジュール111から登録要求を受けた登録モジュール12は、Web収集モジュール111からの登録要求ファイルで指定された登録ファイル(XMLファイル)を登録ディレクトリ113から取得し、そしてその登録ファイルから1つずつレコードを取り出しながら、レコード毎に以下の処理を行う。まず、処理対象レコード内のモード情報がMODE=0であるかMODE=2であるかが調べられる(ステップS111,S112)。
【0050】
MODE=2の場合は、登録モジュール12は、レコード内の各タグに従って、そのタグ内に記述されたデータ項目(TYPE、UNIQUE、ORGDATE、TITLE、AUTHOR、DATE、URL、BODYそれぞれの内容)を、登録要求ファイルで指定された知識DB131内の登録先知識データベースに登録する(ステップS113)。BODYのタグ内にテキストデータが存在しない場合には、そのテキストデータの登録は行われない。次いで、BDYFILEのタグ内にパス名が記述されているかどうかが判定される(ステップS114)。パス名が記述されている場合には(ステップS114のYES)、そのパス名で指定される記憶領域から該当するコンテンツファイルが取得され(ステップS115)、そのコンテンツファイルからテキストデータを抽出する処理が行われる(ステップS116)。そして、その抽出された内容が該当する文書ファイルのテキストデータとして登録先知識データベースに登録される(ステップS117)。
【0051】
MODE=0の場合は、レコード内のUNIQUEで指定される登録済みの文書ファイルの属性情報とテキストデータが知識DB131からサーチされ、その登録内容が登録先知識データベースから削除される(ステップS118)。
【0052】
Web収集モジュール111以外の他の各収集モジュールからの登録要求に対しても、同様の処理が実行される。本システムでは登録モジュール12は一つであるので、登録処理は順番に一つずつ実行されることになる。
【0053】
図7には、インターネット/イントラネット30上における文書ファイル(Webコンテンツ)の状態と知識DB131に対して行うべき登録/削除処理との関係が示されている。本実施形態においては、出来る限りインターネット/イントラネット30上における最新のWebコンテンツの状態を知識DB131に反映させるというポリシーに基づき、以下の処理が行われる。
【0054】
(1)更新されたWebコンテンツは、知識DB131に上書きする(MODE=2)。更新されたWebコンテンツの属性情報およびテキストデータを登録する場合、そのUNIQUEは、知識DB131に既に登録されている更新前のWebコンテンツのUNIQUEと同一である。よって、MODE=2により、知識DB131に既に登録されている更新前のWebコンテンツの属性情報およびテキストデータが、更新されたWebコンテンツの属性情報およびテキストデータに更新(上書き)される。
【0055】
(2)追加されたWebコンテンツは、知識DB131に追加登録する(MODE=2)。追加されたWebコンテンツの属性情報およびテキストデータを登録する場合、そのUNIQUEは、知識DB131に未登録である。よって、MODE=2により、追加されたWebコンテンツの属性情報およびテキストデータを知識DB131に追加登録することが出来る。
【0056】
(3)削除されたWebコンテンツは、知識DB131からも削除する(MODE=0)。
【0057】
次に、管理インターフェース112によって提供される機能を具体的に説明する。管理インターフェース112は上述のようにWeb収集タスクの設定・管理・実行を行うためのユーザインタフェースであり、1)Web収集タスクの設定を複数個作成して設定ファイル204に保存する機能、2)収集の設定の一覧表示、削除、などの管理作業を行う機能、3)収集の起動と終了(中断と再開)を行う機能、4)収集の状況や実績をリアルタイムに呈示するステータス一覧表示機能、を管理者ユーザに提供する。ステータス一覧表示機能は、全ての収集タスクそれぞれの収集/登録の状況の一覧を管理者ユーザのWebブラウザ21の画面上に表示する機能であり、各収集タスク毎にその状況を管理者ユーザが容易に把握できるように「収集中」、「登録待ち」、「登録中」などのステータスを表示する。
【0058】
ここで、「収集中」は、該当する収集タスクが開始され収集処理中であることを示すステータスである。「収集中」の場合には現在の収集済み件数も表示される。「登録待ち」は、該当する収集タスクの収集処理が完了し、登録モジュール12による登録処理待ちであることを示すステータスである。「登録中」は、登録モジュール12による登録処理が開始され登録処理中であることを示すステータスである。「登録中」の場合には現在の登録済み件数も表示される。収集/登録の状況を示すステータスは、「収集中」→「登録待ち」→「登録中」の順に更新される。
【0059】
次に、図8を参照して、収集タスクそれぞれのステータス一覧表示を実現するための仕組みについて説明する。
【0060】
上述したように、本システムにおいては、Web収集モジュール111のみならず、ファイル収集モジュール、RDB収集モジュール、コミュニティ収集モジュール、およびユーザ収集モジュールも動作しており、登録モジュール12は、これら複数の収集モジュールによって共通に利用される。ステータス管理のために各収集モジュールが実行する処理はどれも同じであるので、以下では、Web収集モジュール111に着目して、そのステータス管理のための機能を説明する。
【0061】
Web収集モジュール111は、設定ファイル203に保持されている複数の設定情報それぞれで指定される複数のWeb収集タスクを順次実行する。この場合、Web収集モジュール111は、処理対象のWeb収集タスク毎に、その開始時に当該Web収集タスクに固有のステータス情報ファイル311を作成する。このステータス情報ファイル311は、当該Web収集タスクの収集開始から登録までの間における進捗状況を管理するためのファイルであり、例えば、当該Web収集タスクの設定名とその収集開始の年月日時分秒とを含むファイル名等で管理される。ファイル作成時には、ステータス情報ファイル311に「収集中」を示すステータス情報が書き込まれる。そして、ステータス情報ファイル311内の収集件数の値を更新しながら、Web収集モジュール111による収集処理が行われる。Web収集モジュール111による収集処理が完了した場合、Web収集モジュール111は、ステータス情報ファイル311に「登録待ち」を示すステータス情報を書き込んでステータスを「収集中」から「登録待ち」に更新した後、当該Web収集タスクで収集した文書情報を記述した登録ファイル(XMLファイル)と、登録要求を含む登録要求ファイルを登録モジュール12に出力する。登録要求ファイルには、該当するWeb収集タスクに対応したステータス情報ファイル311のファイル名等が含まれている。
【0062】
登録モジュール12は、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっているWeb収集タスクに対応したステータス情報ファイル311に当該登録処理の進捗状況を示すステータス情報を書き込む。この場合、登録処理の開始時にはステータスを「登録待ち」から「登録中」に更新する。そして、ステータス情報ファイル311内の登録件数の値を更新しながら、登録モジュール12による登録処理が行われる。登録処理が完了すると、該当するステータス情報ファイル311は登録モジュール12によって削除される。
【0063】
このように、Web収集タスク毎にその収集処理の進捗状況と登録処理の進捗状況とを同一のステータス情報ファイル311に書き込むことにより、収集処理が開始されたWeb収集タスクそれぞれに関する収集/登録の状況を個別に管理することが出来る。
【0064】
ステータス一覧表示プログラム312はステータス一覧表示画面313を管理者ユーザの端末に表示するために設けられたプログラムであり、上述の管理インターフェース112の一部として実現されている。このステータス一覧表示プログラム312は、複数の収集モジュールがそれぞれ収集を開始する度に作成するステータス情報ファイル311の内容に基づいて、全ての収集処理に関する収集開始から登録までの間における現在の進捗状況を示すステータス一覧表示画面313を表示する。
【0065】
図9には、ステータス一覧表示画面313の例が示されている。図示のように、ステータス一覧表示画面には、複数の収集モジュールによって開始された収集タスクそれぞれについて、「知識データベース名」、「収集タイプ」、「設定名(収集タスク名)」、「収集対象」、「ステータス」、「対象件数(登録件数/収集件数)」が表示される。図9においては、Web収集については、設定名(収集タスク名)がinfo1,info2,info3の3つの収集タスクが実行されており、info1のタスクは「登録中」、info2のタスクは「登録待ち」、info3のタスクは「収集中」である場合が示されている。さらに、ファイル収集モジュールによるファイル収集タスク、ユーザ収集モジュールによるユーザ収集タスク、コミュニティ収集モジュールによるコミュニティ収集タスク、RDB収集モジュールによる2つのRDB収集タスクも開始されており、ファイル収集タスクおよびユーザ収集タスクはそれぞれ「登録待ち」であり、コミュニティ収集タスクは「収集中」、RDB収集モジュールによる2つのRDB収集タスクの内の一方は「登録待ち」、他方は「収集中」となっている。登録モジュール12は一つであるので、「登録中」のタスクは常に一つである。また、各収集モジュールについても、「収集中」のタスクは基本的には常に一つである。
【0066】
さらに、ステータス一覧表示画面313には、「状況更新」ボタン401および「ステータス削除」ボタン402が設けられている。「状況更新」ボタン401が押されると、各タスクのステータスが最新のステータスに更新される。「ステータス削除」ボタン402は、ステータス一覧表示画面313上で選択したタスクのステータス表示をステータス一覧表示画面313から削除する場合に使用される。
【0067】
図10には、Web収集モジュール111および登録モジュール12によるステータス情報の更新処理の様子が示されている。
【0068】
(1)Web収集タスクの開始時には、Web収集モジュール111によりステータス情報ファイル311が作成され、そこに「収集中」のステータス情報が書き込まれる。
(2)収集処理中は、Web収集モジュール111は、新たな文書ファイルを収集する度にステータス情報ファイル311の収集件数情報を更新する。
(3)収集処理の完了時には、Web収集モジュール111は、ステータス情報ファイル311に「登録待ち」のステータス情報を書き込み、現在のステータスを「収集中」から「登録待ち」に更新する。
(4)そして、Web収集モジュール111から登録モジュール12に登録要求ファイルが発行され、登録モジュール12に対して登録処理の実行が要求される。この後、Web収集モジュール111は、次のWeb収集タスクを開始する事が出来る。
【0069】
(5)登録処理の開始時には、登録モジュール12は、ステータス情報ファイル311に「登録中」のステータス情報を書き込み、現在のステータスを「登録待ち」から「登録中」に更新する。
(6)登録処理中は、登録モジュール12は、新たな文書情報を登録する度にステータス情報ファイル311の登録件数情報を更新する。
(7)登録処理の完了時には、登録モジュール12は、ステータス情報ファイル311に「登録待ち」のステータス情報を書き込み、現在のステータスを「収集中」から「登録待ち」に更新する。この後、登録モジュール12は、登録待ちの次の収集タスクを開始する。
ステータス情報ファイル311の内容はステータス一覧プログラム302によって定期的(例えば30秒毎)にチェックされ、各タスクそれぞれの現在のステータスがステータス一覧表示画面313に表示される。上述の「状況更新」ボタン401が押された場合には、その時点でステータス情報ファイル311の内容がステータス一覧プログラム302によって調べられ、ステータス一覧表示画面313が最新の状態に更新される。
【0070】
次に、図11のフローチャートを参照して、Web収集モジュール111によって各Web収集タスク毎に実行される一連の処理手順を説明する。
【0071】
Web収集タスクを実行する場合、まず、当該処理対象のWeb収集タスクに対応したステータス情報ファイル311が作成され、そこに「収集中」を示すステータス情報が書き込まれる(ステップS201)。この後、設定ファイル203に保持されている当該Web収集タスクに対応する設定情報に基づいて、インターネット/イントラネット30上から文書ファイル群を順次取得するWeb収集処理が開始される(ステップS202)。Web収集処理においては、最初に起点URLで指定される文書ファイルの取得が行われ、リンク先URLが含まれている場合にはそれが結果ファイル204に追加されていく。文書ファイルの取得が行われる度、ステータス情報ファイル311の収集件数情報が+1ずつ更新される(ステップS203)。そして、結果ファイル204に未収集のURLが登録されているかどうかによってWeb収集処理が完了したかどうかが判断される(ステップS204)。結果ファイル204上から未収集のURLがなくなるまで、当該URLで指定される文書ファイルを取得する処理(ステップS202)と収集件数情報の更新処理(ステップS203)が繰り返し実行される。
【0072】
Web収集処理が完了すると(ステップS204のYES)、ステータス情報ファイル311に「登録待ち」を示すステータス情報が書き込まれ、これによって現在のステータスが「収集中」から「登録待ち」に更新された後(ステップS205)、登録要求ファイルが発行される(ステップS206)。
【0073】
次に、図12のフローチャートを参照して、登録モジュール12によって各Web収集タスク毎に実行される一連の登録処理の手順を説明する。
【0074】
登録処理の開始時には、まず、登録ファイルで指定される当該登録対象のWeb収集タスクに対応したステータス情報ファイル311に対して、「登録中」を示すステータス情報が書き込まれ、現在のステータスが「登録待ち」から「登録中」に更新される(ステップS211)。次いで、登録ファイルから1件ずつレコードを取り出しながら、文書情報(属性情報およびテキスト)を登録先の知識データベースに登録する登録処理が行われる(ステップS212)。文書情報の登録の度に、ステータス情報ファイル311の登録件数情報が+1ずつ更新される(ステップS213)。全てのレコードの登録が完了するまで、ステップS212およびステップS213の処理が繰り返し実行される。全てのレコードの登録が完了すると(ステップS214のNO)、ステータス情報ファイル311が削除される(ステップS215)。このファイル削除により、登録処理が完了したWeb収集タスクについてはステータス一覧表示対象から自動的に除外される。ステータス一覧表示プログラム312は全てのステータス情報ファイル311を定期的にチェックするが、登録完了時に該当するステータス情報ファイル311を自動削除することにより、稼働中のタスクそれぞれに対応したステータス情報ファイル311だけをチェック対象とすることが出来る。
【0075】
以上のように、本実施形態によれば、稼働中の全ての収集処理それぞれの収集/登録の状況を一覧表示することができるので、管理者ユーザは、ログ解析などを行うことなく、設定した収集処理の中でどの収集処理がどのような状況にあるかを容易に把握することが可能となる。
【0076】
なお、本実施形態の知識情報収集システムの機能は全てコンピュータプログラムにより実現されているので、そのコンピュータプログラムをコンピュータ読み取り可能な記憶媒体に記憶しておき、その記憶媒体を通じて本コンピュータプログラムを、コンピュータネットワーク接続可能な通常のコンピュータに導入して実行させるだけで、本実施形態と同様の効果を容易に得ることができる。
【0077】
また本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0078】
【発明の効果】
以上説明したように、本発明によれば、複数の文書収集処理それぞれの収集/登録の処理状況を容易に把握することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る知識情報収集システムの構成を示すブロック図。
【図2】同実施形態の知識情報収集システムに設けられたWeb収集モジュールの機能構成を示すブロック図。
【図3】同実施形態の知識情報収集システムで用いられる登録ファイルの出力形式の例を示す図。
【図4】同実施形態の知識情報収集システムで用いられる登録ファイルの出力形式の他の例を示す図。
【図5】同実施形態の知識情報収集システムに設けられたWeb収集モジュールの処理手順を示すフローチャート。
【図6】同実施形態の知識情報収集システムに設けられた登録モジュールの処理手順を示すフローチャート。
【図7】同実施形態の知識情報収集システムおけるWebコンテンツとその登録処理との関係を示す図。
【図8】同実施形態の知識情報収集システムによるステータス一覧表示の原理を説明するための図。
【図9】同実施形態の知識情報収集システムで用いられるステータス一覧表示画面の例を示す図。
【図10】同実施形態の知識情報収集システムに設けられたWeb収集モジュールおよび登録モジュールそれぞれによるステータス情報更新処理を説明するための図。
【図11】同実施形態の知識情報収集システムに設けられたWeb収集モジュールがWeb収集タスク毎に実行する一連の処理手順を説明するためのフローチャート。
【図12】同実施形態の知識情報収集システムに設けられた登録モジュールが実行する登録処理の手順を説明するフローチャート。
【符号の説明】
11…Web収集システム
12…登録モジュール
13…知識エンジン
30…インターネット/イントラネット
111…Web収集モジュール
112…管理インターフェース
113…登録ディレクトリ
131…知識データベース
132…検索エンジン
201…ロックファイル
202…制御ファイル
203…設定ファイル
204…結果ファイル
205…ログファイル
301…収集制御部
302…属性抽出部
303…テキスト抽出部
304…フォーマット変換部
311…ステータス情報ファイル
312…ステータス一覧表示プログラム
313…ステータス一覧表示画面

Claims (7)

  1. 知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムにおいて、
    前記ネットワーク上からの文書ファイル群の収集条件を示す複数の設定情報それぞれに基づいて、前記複数の設定情報それぞれに対応する複数の文書収集処理を実行する文書収集手段であって、処理対象の文書収集処理毎にその開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記処理対象の文書収集処理の進捗に合わせて、当該文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む文書収集手段と、
    前記各文書収集処理の完了の度に前記文書収集手段から発行される登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録手段であって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録手段と、
    現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記文書収集処理が開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示手段とを具備することを特徴とする知識情報収集システム。
  2. 前記文書収集手段は、
    文書収集処理の開始時に当該文書収集処理に対応するステータス情報ファイルに、当該文書収集処理が収集中であることを示すステータス情報を書き込み、前記開始した文書収集処理の完了時に当該完了した文書収集処理に対応するステータス情報ファイルのステータス情報を、前記登録手段による登録処理待ちであることを示すステータス情報に更新する手段を含み、
    前記登録手段は、
    登録処理の開始時に当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルのステータス情報を、登録処理が実行中であることを示すステータス情報に更新し、前記開始した登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除することを特徴とする請求項1記載の知識情報収集システム。
  3. 前記ステータス情報ファイルには、前記文書収集処理で収集された文書ファイルの収集件数を示す文書収集件数情報と、前記登録処理で登録された文書ファイルそれぞれに対応する文書情報の登録件数を示す文書登録件数情報とが含まれており、
    前記文書収集手段は、
    開始した文書収集処理によって前記ネットワーク上から文書ファイルを収集する度に前記ステータス情報ファイルの文書収集件数情報を更新する手段を含み、
    前記登録手段は、
    開始した登録処理によって前記知識データベースに文書情報を登録する度に前記ステータス情報ファイルの文書登録件数情報を更新する手段を含むことを特徴とする請求項2記載の知識情報収集システム。
  4. 知識データベースに登録すべき文書情報を収集する知識情報収集システムにおいて、
    互いに異なる複数種の情報源それぞれに対応して設けられ、各々がそれに対応する情報源から文書ファイル群を収集するための文書収集処理を実行する複数の文書収集手段であって、各文書収集手段は、文書収集処理の開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前 記文書収集処理の進捗に合わせて、前記文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む複数の文書収集手段と、
    前記複数の文書収集手段の各々がその文書収集処理を完了する度に発行する登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録手段であって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録手段と、
    現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記複数の文書収集手段よって開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記複数の文書収集手段それぞれの文書収集処理に関する収集開始から登録までの間における現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示手段とを具備することを特徴とする知識情報収集システム。
  5. 前記複数の文書収集手段は、少なくとも、ネットワーク上の情報サイトで公開されている文書情報を収集する第1の文書収集手段と、電子ファイリングシステムのファイルサーバ、データベースサーバ、または電子掲示板形式のコミュニティから文書情報を収集する第2の文書収集手段とを含むことを特徴とする請求項4記載の知識情報収集システム。
  6. 知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集方法において、
    前記ネットワーク上からの文書ファイル群の収集条件を示す複数の設定情報それぞれに基づいて、前記複数の設定情報それぞれに対応する複数の文書収集処理を実行する文書収集ステップであって、処理対象の文書収集処理毎にその開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記処理対象の文書収集処理の進捗に合わせて、当該文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む文書収集ステップと、
    前記各文書収集処理の完了の度に前記文書収集ステップから発行される登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録ステップであって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録ステップと、
    現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記文書収集処理が開始された文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示ステップとを具備することを特徴とする知識情報収集方法。
  7. 知識データベースに登録すべき文書情報を収集する知識情報収集方法において、
    互いに異なる複数種の情報源を対象にしてそれら情報源から文書ファイル群を収集するための文書収集処理をそれぞれ実行する文書収集ステップであって、前記各情報源を対象にした文書収集処理毎にその開始時に当該文書収集処理に関する収集開始から登録までの間における進捗状況を管理するためのステータス情報ファイルを作成し、前記文書収集処理の進捗に合わせて、前記文書収集処理に対応するステータス情報ファイルに当該文書収集処理の進捗状況を示すステータス情報を書き込む文書収集ステップと、
    前記各情報源を対象にした文書収集処理の完了の度に前記文書収集ステップから発行さ れる登録要求を受付け、その登録要求の受付け順に、当該登録要求によって登録要求された文書収集処理の結果を前記知識データベースに登録するための登録処理を順次実行する登録ステップであって、実行を開始した登録処理の進捗に合わせて、当該登録処理の対象となっている文書収集処理に対応するステータス情報ファイルに当該登録処理の進捗状況を示すステータス情報を書き込むと共に、登録処理の完了時に当該登録処理の対象となっていた文書収集処理に対応するステータス情報ファイルを削除する登録ステップと、
    現在削除されていない各ステータス情報ファイルを定期的にチェックすることにより、前記複数種の情報源を対象にした文書収集処理それぞれに対応したステータス情報ファイルに保持されているステータス情報に基づいて前記複数種の情報源を対象に行われる文書収集処理それぞれに関する現在の進捗状況を示すステータス一覧画面を表示する処理を実行するステータス表示ステップとを具備することを特徴とする知識情報収集方法。
JP2002108416A 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法 Expired - Lifetime JP3725835B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002108416A JP3725835B2 (ja) 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002108416A JP3725835B2 (ja) 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法

Publications (2)

Publication Number Publication Date
JP2003303199A JP2003303199A (ja) 2003-10-24
JP3725835B2 true JP3725835B2 (ja) 2005-12-14

Family

ID=29392209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002108416A Expired - Lifetime JP3725835B2 (ja) 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法

Country Status (1)

Country Link
JP (1) JP3725835B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236287A (ja) * 2005-01-28 2006-09-07 Chiba Univ 分散型データベースシステム及びそれに用いられるプログラム

Also Published As

Publication number Publication date
JP2003303199A (ja) 2003-10-24

Similar Documents

Publication Publication Date Title
JP4889657B2 (ja) コンピュータシステムのエンドユーザに表示される情報の提示を変更する技術
US6832220B1 (en) Method and apparatus for file searching, accessing file identifiers from reference page
US20090132548A1 (en) Document transfer assisting system, monitor apparatus, document transfer assisting apparatus, method and computer readable recording medium
CN101484892B (zh) 使用集成文档管理网络服务的方法
US7069292B2 (en) Automatic display method and apparatus for update information, and medium storing program for the method
JP4344596B2 (ja) コンテンツ検索システム、コンテンツ検索プログラムおよび記録媒体
JP2001060165A (ja) 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
JP2019114076A (ja) 情報処理システム、情報処理方法、情報処理装置、及びプログラム
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2003141155A (ja) Webページ検索システムおよびWebページ検索プログラム
JP4199193B2 (ja) 関連情報管理方法、プログラム及び装置
JP3612185B2 (ja) 文書情報更新監視装置
JP3725835B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725087B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3708893B2 (ja) 知識情報収集システムおよび知識情報収集方法
KR100756421B1 (ko) 해외 과학기술 전자원문 수집/색인/추출 시스템 및 그 방법
JP3725088B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3708894B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725837B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725836B2 (ja) 知識情報収集システムおよび知識情報収集方法
JPH10171703A (ja) サイトマップ表示装置および文書閲覧支援装置
JP2002251348A (ja) コンテンツデータの閲覧システム及びプログラム
JP4028795B2 (ja) 電子メール収集・検索システム
JP2005031867A (ja) ウエブ情報収集装置及びウエブ情報収集方法
JP2003303198A (ja) 知識情報収集方法および知識情報収集システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050922

R151 Written notification of patent or utility model registration

Ref document number: 3725835

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080930

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120930

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120930

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130930

Year of fee payment: 8

EXPY Cancellation because of completion of term