JP2003303197A - 知識情報収集システムおよび知識情報収集方法 - Google Patents

知識情報収集システムおよび知識情報収集方法

Info

Publication number
JP2003303197A
JP2003303197A JP2002108414A JP2002108414A JP2003303197A JP 2003303197 A JP2003303197 A JP 2003303197A JP 2002108414 A JP2002108414 A JP 2002108414A JP 2002108414 A JP2002108414 A JP 2002108414A JP 2003303197 A JP2003303197 A JP 2003303197A
Authority
JP
Japan
Prior art keywords
setting
file
collected
collection
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002108414A
Other languages
English (en)
Other versions
JP3725088B2 (ja
Inventor
Kazuhiko Atsumi
一彦 渥美
Masayo Toyoda
真代 豊田
Koji Shioda
弘二 塩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002108414A priority Critical patent/JP3725088B2/ja
Publication of JP2003303197A publication Critical patent/JP2003303197A/ja
Application granted granted Critical
Publication of JP3725088B2 publication Critical patent/JP3725088B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】インターネット上からファイル形式の異なる様
々な種類の文書ファイルを知識情報として効率よく収集
する。 【解決手段】Web収集モジュール111は、設定ファ
イル203に、収集するリンクの段数、各リンク毎の収
集ファイル個数のいずれか若しくは双方が設定されてい
るとき、その設定内容に従って、ネットワーク上から前
記文書情報を収集する。これにより、収集するリンクの
段数、および各リンク毎の収集ファイル個数を任意に指
定して文書ファイルを収集することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はナレッジマネジメン
トシステムで用いられる知識情報収集システムおよび知
識情報収集方法に関し、特に知識データベースに登録す
べき文書情報をネットワーク上から収集するための知識
情報収集システムおよび知識情報収集方法に関する。
【0002】
【従来の技術】近年、企業を中心に複数のユーザ間で情
報共有を行うためのグループウェアの導入が進められて
いる。代表的なグループウェアとしては、電子メールシ
ステムやワークフローシステムなどが知られているが、
最近では、知識情報の共有支援を図るためのナレッジマ
ネジメントシステムも開発され始めている。
【0003】このナレッジマネジメントシステムは、個
人のノウハウなどの知識情報を知識データベースに蓄積
・管理するためのものであり、自然言語検索などの検索
機能と組み合わせることにより、蓄積された知識情報の
効率的な活用が可能となる。
【0004】ところで、このようなナレッジマネジメン
トシステムに於いては、知識情報をいかに効率よく収集
・蓄積するかが重要なポイントとなる。特にインターネ
ット上のWeb情報は知識の宝庫であるので、インター
ネット上から必要な情報を効率良く収集するための仕組
みが必要とされている。
【0005】
【発明が解決しようとする課題】しかし、最近では、ホ
ームページにはHTMLドキュメントなどのテキストベ
ースの文書ファイルのみならず、各種アプリケーション
プログラムによって作成された様々なファイル形式の文
書ファイルも利用され始めている。この場合、インター
ネットから取得した文書ファイルをそのまま知識データ
ベースに登録したのでは知識データベース上の文書ファ
イルの検索が困難となり、知識の有効活用を行うことが
できなくなる。
【0006】本発明はこのような事情を考慮してなされ
たものであり、インターネット上からファイル形式の異
なる様々な種類の文書ファイルを知識情報として効率よ
く収集することが可能な知識情報収集システムおよび知
識情報収集方法を提供することを目的とする。
【0007】
【課題を解決するための手段】上述の課題を解決するた
め、本発明は、知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集システムに
於いて、前記知識データベースに登録すべき文書情報を
収集するサイトの設定を行う、起点URLの設定フィー
ルド、および収集範囲を規定する項目を含んだ収集サイ
ト設定画面を表示する設定画面表示手段と、前記設定画
面表示手段により表示された設定画面上の設定内容をも
とに設定ファイルを作成する設定ファイル作成手段と、
前記設定ファイル作成手段で作成された設定ファイルの
内容をもとに前記知識データベースに登録すべき文書情
報をネットワーク上から収集する情報収集手段とを有
し、前記収集サイト設定画面には、起点URLの設定フ
ィールドと、収集するリンクの段数を設定する設定フィ
ールドとを含む複数種の設定項目を有し、前記情報収集
手段は、前記設定ファイルに、起点URLが設定され、
かつ収集するリンクの段数が設定されているとき、前記
設定された起点URLおよび辿るリンク先のそれぞれに
ついて、前記設定された、収集するリンクの段数を上限
に、前記ネットワーク上から前記文書情報を収集するこ
とを特徴とする。
【0008】この知識情報収集システムに於いては、ネ
ットワークからの情報の収集条件を指定する設定情報に
基づいて、ネットワーク上からの文書ファイルの収集が
情報収集手段によって実行される。前記情報収集手段
は、前記設定ファイルに、起点URLが設定され、かつ
収集するリンクの段数が設定されているとき、前記設定
された起点URLおよび辿るリンク先のそれぞれについ
て、前記設定された、収集するリンクの段数を上限に、
前記ネットワーク上から前記文書情報を収集する。これ
により、起点URLおよび辿るリンク先のそれぞれにつ
いて、収集するリンクの段数を選択的に指定して収集す
ることができる。
【0009】また、本発明は、知識データベースに登録
すべき文書情報をネットワーク上から収集する知識情報
収集システムに於いて、前記知識データベースに登録す
べき文書情報を収集するサイトの設定を行う、起点UR
Lの設定フィールド、および収集範囲を規定する項目を
含んだ収集サイト設定画面を表示する設定画面表示手段
と、前記設定画面表示手段により表示された設定画面上
の設定内容をもとに設定ファイルを作成する設定ファイ
ル作成手段と、前記設定ファイル作成手段で作成された
設定ファイルの内容をもとに前記知識データベースに登
録すべき文書情報をネットワーク上から収集する情報収
集手段とを有し、前記収集サイト設定画面には、起点U
RLの設定フィールドと、収集するリンクの段数、およ
び各リンク毎の収集ファイル個数を設定する設定フィー
ルドとを含む複数種の設定項目を有し、前記情報収集手
段は、前記設定ファイルに、起点URLが設定され、か
つ収集するリンクの段数、および各リンク毎の収集ファ
イル個数が設定されているとき、前記設定された起点U
RLおよび辿るリンク先のそれぞれについて、前記設定
された、各リンク毎の収集ファイル個数、および収集す
るリンクの段数を上限に、前記ネットワーク上から前記
文書情報を収集することを特徴とする。
【0010】この知識情報収集システムによれば、前記
情報収集手段に於いて、前記設定ファイルに、起点UR
Lが設定され、かつ収集するリンクの段数、および各リ
ンク毎の収集ファイル個数が設定されているとき、前記
設定された起点URLおよび辿るリンク先のそれぞれに
ついて、前記設定された、各リンク毎の収集ファイル個
数、および収集するリンクの段数を上限に、前記ネット
ワーク上から前記文書情報を収集する。これにより、起
点URLおよび辿るリンク先のそれぞれについて、収集
するリンクの段数および各リンク毎の収集ファイル個数
を選択的に指定して収集することができる。
【0011】また、本発明は、知識データベースに登録
すべき文書情報をネットワーク上から収集する知識情報
収集方法に於いて、前記知識データベースに登録すべき
文書情報を収集するサイトの設定を行う、起点URLの
設定フィールド、および収集範囲を規定する項目を含ん
だ収集サイト設定画面を表示する設定画面表示ステップ
と、前記設定画面表示ステップにより表示された設定画
面上の設定内容をもとに設定ファイルを作成する設定フ
ァイル作成ステップと、前記設定ファイル作成ステップ
で作成された設定ファイルの内容をもとに前記知識デー
タベースに登録すべき文書情報をネットワーク上から収
集する収集ステップとを有し、前記設定画面表示ステッ
プで表示される前記収集サイト設定画面には、起点UR
Lの設定フィールドと、収集するリンクの段数を設定す
る設定フィールドとを含む複数種の設定項目を有し、前
記収集ステップは、前記設定ファイルに、起点URLが
設定され、かつ収集するリンクの段数が設定されている
とき、前記設定された起点URLおよび辿るリンク先の
それぞれについて、前記設定された、収集するリンクの
段数を上限に、前記ネットワーク上から前記文書情報を
収集することを特徴とする。
【0012】この知識情報収集方法によれば、前記設定
ファイルに、起点URLが設定され、かつ収集するリン
クの段数が設定されているとき、前記設定された起点U
RLおよび辿るリンク先のそれぞれについて、前記設定
された、収集するリンクの段数を上限に、前記ネットワ
ーク上から前記文書情報を収集する。これにより、起点
URLおよび辿るリンク先のそれぞれについて、収集す
るリンクの段数を選択的に指定して収集することができ
る。
【0013】また、本発明は、知識データベースに登録
すべき文書情報をネットワーク上から収集する知識情報
収集システムに於いて、前記知識データベースに登録す
べき文書情報を収集するサイトの設定を行う、起点UR
Lの設定フィールド、および収集範囲を規定する項目を
含んだ収集サイト設定画面を表示する設定画面表示ステ
ップと、前記設定画面表示ステップにより表示された設
定画面上の設定内容をもとに設定ファイルを作成する設
定ファイル作成ステップと、前記設定ファイル作成ステ
ップで作成された設定ファイルの内容をもとに前記知識
データベースに登録すべき文書情報をネットワーク上か
ら収集する収集ステップとを有し、前記設定画面表示ス
テップで表示される前記収集サイト設定画面には、起点
URLの設定フィールドと、収集するリンクの段数、お
よび各リンク毎の収集ファイル個数を設定する設定フィ
ールドとを含む複数種の設定項目を有し、前記収集ステ
ップは、前記設定ファイルに、起点URLが設定され、
かつ収集するリンクの段数、および各リンク毎の収集フ
ァイル個数が設定されているとき、前記設定された起点
URLおよび辿るリンク先のそれぞれについて、前記設
定された、各リンク毎の収集ファイル個数、および収集
するリンクの段数を上限に、前記ネットワーク上から前
記文書情報を収集することを特徴とする。
【0014】この知識情報収集方法によれば、前記設定
ファイルに、起点URLが設定され、かつ収集するリン
クの段数、および各リンク毎の収集ファイル個数が設定
されているとき、前記設定された起点URLおよび辿る
リンク先のそれぞれについて、前記設定された、各リン
ク毎の収集ファイル個数、および収集するリンクの段数
を上限に、前記ネットワーク上から前記文書情報を収集
する。これにより、起点URLおよび辿るリンク先のそ
れぞれについて、収集するリンクの段数および各リンク
毎の収集ファイル個数を選択的に指定して収集すること
ができる。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。図1には、本発明の一実施形態に係
る知識情報収集システムを用いたナレッジマネジメント
システム全体の構成が示されている。このナレッジマネ
ジメントシステムは知識情報の収集・分析・検索等のサ
ービスを提供するためのものであり、Web収集システ
ム11、登録モジュール12、および知識エンジン13
などから構成されている。これらWeb収集システム1
1、登録モジュール12および知識エンジン13は、サ
ーバコンピュータ上で実行されるプログラムとして実現
されている。Web収集システム11および登録モジュ
ール12は、ナレッジマネジメントシステムで用いられ
る知識情報を収集するための知識情報システムを構成す
る。この知識情報収集システムは、Webページなどの
文書をインターネット/イントラネット30上から収集
して、その文書の内容をナレッジマネジメントシステム
の知識データベース(知識DB)131に登録するとい
う処理を実行する。Web収集システム11は、Web
収集モジュール111、管理インターフェース112、
および登録ディレクトリ113から構成されている。
【0016】Web収集モジュール111は、インター
ネット/イントラネット30上の各種文書ファイルを収
集して、それを知識DB131に登録できる形式で出力
するためプログラムである。このWeb収集モジュール
111は、マルチスレッド構造を有しており、HTTP
(HyperText Transfer Protocol)によるインターネッ
ト/イントラネット30上からの文書ファイル取得処理
を並列的に行うことができる。HTTPはインターネッ
ト/イントラネット30上の情報サイトである各Web
サーバ31からHTML(Hyper Text Markup Languag
e)で記述された文書を取得するための通信プロトコル
である。Web収集モジュール111は、Web収集条
件を指定する設定情報で指定されたURL(Uniform Re
source Locator)の文書ファイルをインターネット/イ
ントラネット30上から取得し、取得した文書ファイル
にリンク先のURLが含まれていれば、そのURLの文
書ファイルをさらに取得する、という再帰的な処理を行
って、インターネット/イントラネット30上から関連
する文書ファイル群を順次取得する。この場合、他の文
書ファイルへのリンク情報(URL)を検出するために
は取得した文書ファイルを解析することが必要となる
が、その解析処理の中では、リンク情報の検出のみなら
ず、知識DB131に登録すべきテキストデータの抽出
も併せて実行される。
【0017】収集対象の文書ファイルは、他のファイル
へのリンク情報であるURLを記述可能なハイパーテキ
ストファイル(HTMLファイル)のみならず、テキス
トファイル(plane text)、さらには各種アプリケーシ
ョンプログラムによって作成された様々なファイル形式
の文書ファイル(例えば、Portable Docu
ment Format形式のファイル、ワードプロッ
セッサソフトウェアで作成した文書ファイル、表計算ソ
フトウェアで作成したファイル、プレゼンテーションデ
ータの作成ソフトウェアで作成したプレゼンテーション
データのファイルなど、各種汎用ファイル形式の添付フ
ァイル)も収集対象となる。
【0018】Web収集モジュール111では、インタ
ーネット/イントラネット30上から収集した各文書フ
ァイルに対して知識DB131に登録すべき属性情報の
取得と上述のテキストデータの抽出が行われる。各文書
ファイルから取得される属性情報は、例えば、当該文書
ファイルのURL、ファイル作成日時(更新日時)等で
ある。そして、Web収集モジュール111では、それ
ら各文書ファイルの属性情報とテキストデータが記述さ
れた登録ファイルが作成されて、それが登録ディレクト
リ113上に出力される。ここで、登録ファイルとは、
ファイル形式の異なる複数種の文書ファイルそれぞれの
文書情報を知識DB131に登録するための共通インタ
ーフェースとして予め決められた記述形式を持つファイ
ルを意味する。この登録ファイルは、複数種の文書ファ
イルそれぞれの文書情報を知識DB131に共通フォー
マットで登録するために利用される。本実施形態では、
登録ファイルとしてXML(eXtensible Markup Langua
ge)を使用する。
【0019】管理インターフェース112は、Web収
集モジュール111に実行させる各Web収集処理(以
下、Web収集処理タスクという)の内容を設定するた
めのプログラムであり、各Web収集処理タスク毎にそ
のWeb収集条件の設定および管理、Web収集モジュ
ール111の起動・停止の制御、さらには各Web収集
処理タスクの収集状況の管理・提示等の機能を有してい
る。この管理インターフェース112は、管理者ユーザ
がそのユーザ端末のWebブラウザ21上から必要な操
作を行えるように、Webサーバ22がCGI(Common
Gateway Interface)を通じて起動可能な外部プログラ
ム(CGIプログラム)として実現されている。
【0020】またWeb収集システム11には、Web
収集モジュール111の動作を管理・制御するためのフ
ァイルとして、図示のように、ロックファイル201、
制御ファイル202、設定ファイル203、結果ファイ
ル204、およびログファイル205が設けられてい
る。
【0021】ロックファイル201はWeb収集モジュ
ール111の2重起動を防止するための排他制御用のフ
ァイルである。制御ファイル202は管理インターフェ
ース112がWeb収集モジュール111を停止させる
ために使用するファイルであり、例えば、管理者ユーザ
からの指示に応答して、実行中のWeb収集処理タスク
を途中で中断させる場合などに利用される。収集実行中
における中断の指定は、管理者ユーザが管理インターフ
ェース112を通じて行うことができる。
【0022】設定ファイル203は、各Web収集処理
タスク毎にそのWeb収集条件を指定する設定情報を記
述するためのファイルであり、ここには複数のWeb収
集処理タスクそれぞれに対応する複数の設定情報を保持
することができる。各Web収集処理タスクのWeb収
集条件は、管理者ユーザによって設定される。Web収
集条件には、少なくとも、インターネット/イントラネ
ット30からの情報収集の起点とすべき文書ファイルの
所在を示す起点アドレス情報(起点URL)と、収集範
囲をドメイン内のみに指定したり、収集するURLのパ
ターン、収集しないURLのパターンを指定したり、収
集対象とすべき文書ファイル数またはリンク段数の上限
値を指定したり、収集するファイル形式を指定したりす
る複数種の収集範囲情報等が含まれている。このWeb
収集条件に基づいてWeb収集モジュール111のWe
b収集動作が制御される。すなわち、Web収集モジュ
ール111は、起点URLで指定される文書ファイルを
起点にそれに関連する文書ファイル群を、収集範囲情報
で規定される範囲内で順次収集する。尚、上記設定ファ
イル203に記述される複数種の収集範囲情報と、その
設定手段については、後にGUI画面を参照して説明す
る。
【0023】また、Web収集条件には、登録先の知識
データベースを指定する知識データベース名も含まれて
いる。すなわち、知識DB131に於いては蓄積文書の
種類が互いに異なる複数の知識データベースが定義され
ており、それら複数の知識データベースがそれぞれの知
識データベース名で管理されている。上記した設定ファ
イル203の設定情報によって、Web収集タスク毎に
登録先の知識データベース名を指定することにより、収
集した文書情報を知識DB131内の任意の知識データ
ベースに登録することができる。
【0024】さらに、収集範囲情報として、再収集を行
う時の収集条件を設定することもできる。ここで、再収
集とは、例えばWeb収集モジュール111に同一のW
eb収集処理タスクを定期的に実行させる場合における
2度目以降のWeb収集処理や、一旦中断したWeb収
集処理タスクを再開させた場合のWeb収集処理を言
う。
【0025】結果ファイル204は、Web収集処理の
結果として収集した文書ファイルの一覧等を各Web収
集タスク毎に管理するためのファイルであり、ここに
は、Web収集の結果として取得したURLのリスト、
取得した文書ファイル件数、などが各Web収集処理タ
スク毎に出力される。この結果ファイル204はWeb
収集処理タスクそれぞれの収集状況をユーザに提示する
目的と、再収集の効率化の目的に用いられる。この結果
ファイル204を用いることにより、過去に収集済みの
文書ファイルの中でインターネット/イントラネット3
0上の情報サイトから削除された文書ファイルを検出し
たり、Web収集処理を途中で中断した場合における再
開ポイントを検出することもできる。
【0026】ログフィル205は、Web収集モジュー
ル111による文書ファイルの取得の成否やエラーの種
類などを管理するファイルである。
【0027】登録ディレクトリ113は、知識DB11
3に登録すべき文書内容を出力するための記憶領域であ
る。ここには、Web収集モジュール111によって各
文書ファイルから抽出された属性情報とテキストデータ
が記述された上述の登録ファイル114が出力される。
Web収集モジュール111は、テキストデータの抽出
に関して第1および第2の2つの処理モードを有する。
【0028】第1処理モードでは、全てのファイル形式
の文書ファイルを対象に解析処理を行ってテキストデー
タの抽出、さらにはリンク情報(URL)の検出が行わ
れる(URLの検出はHTMLファイルのみが対象)。
第2処理モードでは、HTMLファイルとテキストファ
イル(PlainText)のみを対象に解析処理を行ってテキ
ストデータの抽出、さらにはリンク情報(URL)の検
出が行われ(URLの検出はHTMLファイルのみが対
象)、例えばPortable Document F
ormat形式のファイル等、他のファイル形式の文書
ファイル(以下、コンテンツファイルという)に対して
は解析処理は行われない。
【0029】第2処理モードを使用した場合、HTML
とPlainTextについては、そのテキストデータ
と属性情報が登録ファイル114上に記述されて登録デ
ィレクトリ113上に出力される。一方、Portab
le Document Format形式のファイル
など他の形式のファイルについてはそのコンテンツファ
イル115がそのまま登録ディレクトリ113上に出力
され、登録ファイル114上には当該ファイルの属性情
報とコンテンツファイル115のパス名が記述される。
尚、第2処理モードに於いては、リンク情報の検出のた
めの解析処理が必要なファイルを対象にその解析処理の
中でテキストデータの抽出も併せて実行するという点が
肝要であるので、HTMLファイルのみを対象にテキス
トデータの抽出を行うようにしてもよい。
【0030】第1および第2のどちらの処理モードに於
いても、Web収集モジュール111は実行中のWeb
収集タスクの処理が完了した時に、登録モジュール12
に対して登録要求ファイルを発行して、文書の登録を登
録モジュール12に要求する。登録要求ファイルには、
登録ファイルのファイル名、登録先の知識データベース
名などが記述されている。
【0031】登録モジュール12は、Web収集モジュ
ール111によって収集された各文書ファイルの属性情
報およびテキストデータを知識DB131に登録する。
すなわち、登録モジュール12は、Web収集モジュー
ル111からの登録要求に応答して該当する登録ファイ
ル114を取得し、その登録ファイル114上に文書フ
ァイル毎に記述されている属性情報およびテキストデー
タを取り出して、知識DB131の登録先知識データベ
ースに登録する。また、この登録モジュール12はテキ
ストデータの抽出機能も有しており、登録ファイル11
4にコンテンツファイル115のパス名が記述されてい
る場合は、登録モジュール12は、そのパス名で指定さ
れるコンテンツファイル115からテキストデータを抽
出して知識DB131の該当する登録先知識データベー
スに登録する。
【0032】さらに、登録モジュール12は、Web収
集モジュール111以外の他の収集モジュールによって
収集された文書の登録処理も実行する。他の収集モジュ
ールとしては、例えば、電子ファイリングシステムのフ
ァイルサーバから文書情報を収集するファイル収集モジ
ュール、RDBデータベースサーバからそこに管理され
ている文書情報を収集するRDB収集モジュール、電子
掲示板形式のコミュニティからそこに投稿された文書情
報を収集するコミュニティ収集モジュール、ユーザが任
意の各種アプリケーションプログラムの文書ファイルを
登録ファイル(XML)の出力形式に変換するために使
用するユーザ収集モジュール等がある。登録モジュール
12はこれら各収集モジュールによって共通に利用され
る。どの収集モジュールについても、登録モジュール1
2に対するインターフェースとしては上述のXML形式
の登録ファイルが用いられる。
【0033】知識エンジン13は、知識DB131に蓄
積された情報を活用するための知識分析処理を行う。こ
の知識分析処理では、知識DB131に蓄積された大量
の文書情報それぞれの特徴を分析して重要語を抽出する
処理や、特徴別に複数のカテゴリに分類および整理する
クラスタリング処理などが行われる。この知識エンジン
13には自然言語検索を行うための知識エンジン132
が設けられており、各ユーザはそのユーザ端末のWeb
ブラウザ41からWebサーバ42を通じて知識エンジ
ン132をアクセスすることにより、Webブラウザ4
1上から知識DB131に蓄積された知識の検索を行う
ことができる。知識DB131に蓄積された各文書の属
性情報にはその文書のURLも含まれているので、その
オリジナル文書を該当する情報サイトから取得してWe
bブラウザ41上に表示することができる。尚、、検索
処理は、ある知識データベース名を選択してその選択し
た知識データベースのみを対象に行ったり、あるいは知
識DB131内の全ての知識データベースを対象に行う
ことができる。
【0034】次に、図2を参照して、Web収集モジュ
ール111の機能構成について説明する。Web収集モ
ジュール111は、図示のように、収集制御部301、
属性抽出部302、テキスト抽出部303、およびフォ
ーマット変換部304を有している。収集制御部301
は、設定ファイル203に保持されている全ての設定情
報それぞれについて、その設定情報で指定されたWeb
収集タスクを順番に一つずつ実行する。各Web収集タ
スク毎に設定情報で指定された起点URLを起点とし
て、インターネット/イントラネット30から関連する
文書ファイル群を順次収集する。取得した文書ファイル
に含まれるリンク先文書へのURLはURLリスト30
5に追加されて行き、URLリスト305からURLを
取得しながらが収集処理が再帰的に実行される。URL
リスト305としては、上述の結果ファイル204を用
いることができる。収集範囲は設定ファイル203に保
持されている収集条件によって制限される。
【0035】収集された各文書ファイルは、まず属性抽
出部302に送られ、そこで各文書ファイルの属性情報
が取得される。次いで、テキスト抽出部303にて文書
の解析処理が行われ、知識DB131に登録すべきテキ
ストデータと、次に取得すべきリンク先URLの抽出が
行われる。例えば、HTMLファイルに対しては、テキ
ストデータの抽出は、HTMLのタグ以外の部分を抜き
出すことによって行う。抽出されたテキストはタイトル
とボディ(本文)とに分けられる。リンク先URLの取得
は、Aタグ、AREFタグのHREFの値、FRAME
タグ、IFRAMEタグ、LAYERタグのSRCの
値、METAタグのREFRESHの値を取得すること
によって行われる。上述の第2の処理モードで動作する
場合には、テキスト抽出部303の処理はHTMLファ
イルとテキストファイルに対してのみ行われ、Port
able Document Format形式のファ
イル等、他のファイル形式の文書ファイルに対しては行
われない。
【0036】各文書ファイルから取得された属性情報と
テキストデータは、フォーマット変換部304に送ら
れ、そこでXMLの登録ファイルの記述形式に従う出力
フォーマットに整形されて登録ディレクトリ113上に
出力される。一つの登録ファイル114には、例えば1
000個程度の文書ファイルについての属性情報および
テキストデータが記述される。テキスト抽出が行われな
かった文書ファイルについては属性情報とパス名が登録
ファイル114上に記述される。
【0037】次に、図3および図4を参照して、登録フ
ァイル114の出力フォーマットの例を説明する。
【0038】図3は、テキスト抽出部303にてテキス
ト抽出を行う場合の出力フォーマットの例を示してい
る。ファイルの先頭のタグ<?xml version="1.0" encod
ing="Shift_JIS"?>、<KnowledgeSystem>はファイル
の始まりを示し、また末尾のタグ</KnowledgeSystem>
はファイルの終わりを示している。
【0039】<RECORD>と</RECORD>で囲まれた各レ
コード内に、1つの文書ファイルの属性情報とテキスト
データが記述される。各レコード内のタグの意味は次の
通りである。
【0040】MODE :登録モジュール12の動作モード
を指定するモード情報である。このモード情報は、各文
書ファイル毎に知識DB131に対する文書情報(テキ
ストデータおよび属性)の登録または削除を指示する。
2=登録(上書き)か、0=削除、のいずれかとなる。削除
の場合は、下記のタグのうち、TYPEとUNIQUE以外は出力
されない。
【0041】TYPE :収集のタイプを示す。本例では常
に“Web収集”となる。 UNIQUE :知識DB131に登録される当該文書ファイ
ルを識別するためのユニークキーである。通常は、当該
文書のURLがユニークキーとして用いられる。
【0042】ORGDATE :文書ファイルの作成日時(ま
たは更新日時)を示す。 TITLE :文書ファイルのタイトルを示す。HTMLフ
ァイルのタイトル部から抽出されたテキストデータがタ
イトルとなる。HTMLファイル以外のファイルについ
てはタイトルは出力されない。このタイトルは、検索画
面上の文書ファイルのタイトルとして出力される。
【0043】AUTHOR :文書ファイルを所有する情報サ
イトのホスト名(URLのホストアドレス)を記述す
る。 DATE :上記ORGDATEの日付部分を記述する。 URL :文書ファイルのURL。UNIQUEと同じ値であ
る。 BODY :文書ファイルから抽出されたテキストデータが
記述される。
【0044】図4は、テキスト抽出部303にてテキス
ト抽出を行わなかった文書ファイルに関する出力フォー
マットの例を示している。
【0045】BODYにはテキストデータは記述されず、<
BDYFILE></BDYFILE>で囲まれた領域のPATH1に、登録
ディレクトリ113上に出力される上記コンテンツファ
イル115へのパス名が記述される。DEL=1は、登録モ
ジュール12に対してコンテンツファイル115からの
テキストデータの抽出後に登録ディレクトリ113上の
元ファイルを削除することを指示するものである。We
b収集モジュール111が第2処理モードで動作する場
合には、HTMLファイルとプレーンテキストについて
はBODYにはテキストデータが記述され、他のファイル形
式の文書ファイル(コンテンツファイル)についてはBD
YFILEにそのコンテンツファイルのパス名が記述される
ことになる。
【0046】次に、図5のフローチャートを参照して、
収集した文書ファイルに対してWeb収集モジュール1
11内で実行される一連の処理の手順について説明す
る。
【0047】まず、収集した文書ファイルから知識DB
131に登録すべき属性情報(URL、AUTHOR、ORGDATE、
DATE)が取得される(ステップS101)。属性情報の
取得は、HTTPによって情報サイトから返される値
や、収集した文書ファイル内に付加されている値などを
用いることができる。この後、第2処理モードに於いて
は、収集した文書ファイルの拡張子などに基づいてその
ファイル種別が判定され、HTMLファイルまたはプレ
ーンテキストファイルであるか、あるいはそれ以外の他
のファイル形式のファイルであるかが判別される(ステ
ップS102,S103)。収集した文書ファイルがH
TMLファイルまたはプレーンテキストファイルである
場合には(ステップS103のYES)、上述のテキス
ト抽出処理(HTMLファイルの場合はテキスト抽出と
リンクURLの検出)が実行され(ステップS10
4)、そして属性情報とテキストデータを上述の形式で
登録ファイル114上に記述する処理(テキストデータ
をBODYに挿入)が行われる(ステップS105)。一
方、HTMLファイルまたはプレーンテキストファイル
以外の他のファイル形式のファイルであれば(ステップ
S103のNO)、当該ファイルが登録ディレクトリ1
13上にそのまま出力され(ステップS106)、その
後、属性情報と当該ファイルのパス名を登録ファイル1
14上に記述する処理(パス名をBDYFILEに記述)が行
われる(ステップS107)。
【0048】尚、、目的のURLの文書ファイルがイン
ターネット/イントラネット30上から取得できなかっ
た場合には、当該文書ファイルの内容が既に知識DB1
31に登録されていることを条件に、モード情報(MOD
E)=0(削除)が登録ファイル114上に記述される。
【0049】また、第1処理モードに於いては、ステッ
プS102,S103の処理は行われず、全ての取得フ
ァイルを対象にステップS104,S105の処理が実
行される。
【0050】次に、図6のフローチャートを参照して、
登録モジュール12によって実行される登録処理の手順
を説明する。
【0051】Web収集モジュール111から登録要求
を受けた登録モジュール12は、Web収集モジュール
111からの登録要求ファイルで指定された登録ファイ
ル(XMLファイル)から1つずつレコードを取り出し
ながら、レコード毎に以下の処理を行う。まず、処理対
象レコード内のモード情報がMODE=0であるかMODE=2
であるかが調べられる(ステップS111,S11
2)。
【0052】MODE=2の場合は、登録モジュール12
は、レコード内の各タグに従って、そのタグ内に記述さ
れたデータ項目(TYPE、UNIQUE、ORGDATE、TITLE、AUTH
OR、DATE、URL、BODYそれぞれの内容)を、登録要求フ
ァイルで指定された知識DB131内の登録先知識デー
タベースに登録する(ステップS113)。BODYのタグ
内にテキストデータが存在しない場合には、そのテキス
トデータの登録は行われない。次いで、BDYFILEのタグ
内にパス名が記述されているかどうかが判定される(ス
テップS114)。パス名が記述されている場合には
(ステップS114のYES)、そのパス名で指定され
る記憶領域から該当するコンテンツファイルが取得され
(ステップS115)、そのコンテンツファイルからテ
キストデータを抽出する処理が行われる(ステップS1
16)。そして、その抽出された内容が該当する文書フ
ァイルのテキストデータとして登録先知識データベース
に登録される(ステップS117)。
【0053】MODE=0の場合は、レコード内のUNIQUEで
指定される登録済みの文書ファイルの属性情報とテキス
トデータが知識DB131からサーチされ、その登録内
容が登録先知識データベースから削除される(ステップ
S118)。
【0054】図7には、インターネット/イントラネッ
ト30上における文書ファイル(Webコンテンツ)の
状態と知識DB131に対して行うべき登録/削除処理
との関係が示されている。本実施形態に於いては、でき
る限りインターネット/イントラネット30上における
最新のWebコンテンツの状態を知識DB131に反映
させるというポリシーに基づき、以下の処理が行われ
る。
【0055】(1)更新されたWebコンテンツは、知
識DB131に上書きする(MODE=2)。更新されたW
ebコンテンツの属性情報およびテキストデータを登録
する場合、そのUNIQUEは、知識DB131に既に登録さ
れている更新前のWebコンテンツのUNIQUEと同一であ
る。よって、MODE=2により、知識DB131に既に登
録されている更新前のWebコンテンツの属性情報およ
びテキストデータが、更新されたWebコンテンツの属
性情報およびテキストデータに更新(上書き)される。
【0056】(2)追加されたWebコンテンツは、知
識DB131に追加登録する(MODE=2)。追加された
Webコンテンツの属性情報およびテキストデータを登
録する場合、そのUNIQUEは、知識DB131に未登録で
ある。よって、MODE=2により、追加されたWebコン
テンツの属性情報およびテキストデータを知識DB13
1に追加登録することができる。
【0057】(3)削除されたWebコンテンツは、知
識DB131からも削除する(MODE=0)。
【0058】次に、管理インターフェース112によっ
て提供される機能を具体的に説明する。管理インターフ
ェース112は上述のようにWeb収集タスクの設定・
管理・実行を行うためのユーザインタフェースであり、
1)Web収集タスクの設定を複数個作成して設定ファ
イル204に保存する機能、2)収集の設定の、一覧、
削除、などの管理作業を行う機能、3)収集の起動と終
了(中断と再開)を行う機能、4)収集の状況や実績を
リアルタイムに確認する機能、を管理者ユーザに提供す
る。
【0059】管理インターフェース112によって管理
者ユーザのWebブラウザ21に表示される画面は、図
8に示すように、「一覧画面」、「設定画面」、「状況
画面」の3つの画面より構成され、管理インターフェー
ス112を起動すると、一覧画面が最初に表示される。
3つの画面は各画面上で管理者ユーザによって行われる
操作に応じて遷移する。一覧画面には、現在作成されて
いる設定の一覧と各設定の最新の収集結果が表示され
る。この一覧画面上で、例えば、作成済みの設定を選択
してその選択して設定に関する設定画面または状況画面
に遷移した場合には、設定画面上では当該設定内容の追
加/削除等を行うことが出来、また状況画面上では当該
設定に関する起動と終了(中断と再開)の指定などを行
うことができる。また、一覧画面上で、設定の新規作成
を選択すると設定画面に遷移し、その設定画面上で設定
の新規作成のための処理を行うことができる。以下、一
覧画面、設定画面、状況画面それぞれについて具体的に
説明する。
【0060】図9には、一覧画面の例が示されている。
この一覧画面上には、図示のように、「一覧」アンカ5
01、「設定アンカ」502、「状況」アンカ503が
表示される。これら「一覧」アンカ501、「設定アン
カ」502、「状況」アンカ503は、それぞれ一覧画
面、設定画面、状況画面それぞれに対するリンクであ
る。一覧画面上で「一覧」アンカ501がクリックされ
ると、一覧画面の表示内容が最新状態に更新される。さ
らに、一覧画面上には、「新規設定」フィールド50
4、「作成」ボタン505、および状態一覧表示部50
6が設けられている。新規作成すべきWeb収集タスク
の設定名を「新規設定」フィールド504に入力して、
「作成」ボタン505をクリックすると、設定画面に遷
移してその設定名に関する設定情報を新規作成すること
ができる。
【0061】状態一覧表示部506には、上述の結果フ
ァイル204に保持されている内容等に基づき、既に作
成・登録済みのWeb収集タスクそれぞれについての収
集状況が一覧表示される。Web収集タスク毎に以下の
項目が表示される。
【0062】「設定名」:登録してある設定の名称 「知識データベース名」:収集したデータを登録するデ
ータベース名 「状態」:設定の現在の状態(未収集/収集中/終了/中
断/異常終了のいずれか) 「開始」:最後に起動した日時 「終了」:最後に終了した日時 「ファイル」:前回のタスク実行で収集したファイル数
(今回)と、これまでに実行した中で収集されたファイル
の総数の最大値(全体) このように、本実施形態に於いては、複数のWeb収集
タスクを設定することが出来、しかもそれら複数のWe
b収集タスクそれぞれの収集状況を一覧画面上で確認す
ることができる。
【0063】次に、図10を参照して、設定画面の例に
ついて説明する。設定画面上には、図示のように、上述
の「一覧」アンカ501、「設定アンカ」502、「状
況」アンカ503の他、「設定名」フィールド601、
「知識データベース名」フィールド602、「プロキシ
サーバ」設定フォーム603、「収集ファイル形式」設
定フォーム604、「取得要求」設定フォーム605、
「認証情報」設定フォーム606、および収集サイト設
定画面を構成する「収集サイト」設定フォーム607等
が設けられており、これらを用いて以下の設定編集操作
を行うことができる。
【0064】(1)設定名: 「設定名」フィールド6
01には一覧画面にて新規設定の作成または既存の設定
の選択により指定された設定名が表示される。 (2)DB選択: 「知識データベース名」フィールド
602に知識データベース名を入力することにより、収
集したデータを登録する登録先知識データベースを選択
する。
【0065】(3)プロキシ: 「プロキシサーバ」設
定フォーム603を用いて、収集に使用するプロキシサ
ーバの設定を行う。 (4)収集するファイル形式: 「収集ファイル形式」
設定フォーム604上で収集対象のファイル形式を選択
する。本実施形態では、HTMLおよびTEXTファイ
ルは、デフォルトで選択されており(HTMLおよびT
EXTファイルの指定を解除できない)、この他、例え
ば、Portable Document Forma
t形式のファイル、ワードプロッセッサソフトウェアで
作成した文書ファイル、表計算ソフトウェアで作成した
ファイル、プレゼンテーションデータの作成ソフトウェ
アで作成したプレゼンテーションデータのファイルな
ど、各種汎用ファイル形式の添付ファイルを収集対象と
して選択することができる。本実施形態では収集可能な
文書ファイルのファイル形式を6種とした例を示し、そ
れぞれチェックボックスにより、任意に指定することが
できる。例えば6種のファイル形式(HTML,PD
F,PPT,DOC,XLOS,JBW)のすべてをチ
ェックボックスで指定することにより、その指定された
すべてのファイル形式の文書ファイルを収集対象とする
ことができる。また、不要となったファイル形式の文書
ファイルについて、チェックボックスで指定を解除する
ことにより、そのファイル形式の文書ファイルが、知識
DB131から削除される。
【0066】(5)取得要求: 「取得要求」設定フォ
ーム605上でURL取得時のタイムアウト時間、リト
ライ回数を指定する。 (6)認証情報: 「認証情報」設定フォーム606上
で、ユーザ認証が必要なURLをアクセスするときに必
要な認証情報を設定する。
【0067】(7)収集サイト: 「収集サイト」設定
フォーム607上では以下の項目の設定を行う。
【0068】・起点URLの設定 : 収集の起点とな
るURLを指定する。本実施形態では、起点URLの設
定フィールド上で、半角、特殊文字を除いた最大100
0文字まで入力可能としている。
【0069】・リンク段数の上限設定: 収集する起点
URLからの最大リンク段数を指定する。起点URLか
らの指定数までのリンクを辿って収集を行う。本実施形
態では、0〜50の範囲で、任意の指定数の設定が可能
である。 ・ファイル数の上限設定: 収集する最大ファイル数を
指定する。指定しない場合は、無制限となる。本実施形
態では、1〜1,000,000の範囲で、任意のファ
イル数の設定が可能である。 ・収集範囲: 「ドメイン内のみ収集する」を指定する
と、起点URLのドメイン内のみ収集を行う。デフォル
トは指定無しである。この「ドメイン内のみ収集する」
をチェックボックスで指定すると、上記起点URLの設
定フィールドに設定された起点URLについて、そのド
メイン内のみを対象に、インターネット/イントラネッ
ト30上の該当する情報サイトから文書情報を収集す
る。
【0070】・収集するURLのパターン: 収集対象
とすべきURLの文字列のパターンを指定する。収集し
ようとするURLの中で、指定された文字列のパターン
を含んだURLのファイルのみが収集される。本実施形
態では、この収集するURLのパターンを設定する設定
フィールドに、1行に1パターンずつ、最大1000バ
イトの設定を可能としている。
【0071】収集しないURLのパターン: 収集対象
から除外すべきURLの文字列のパターンを指定する。
収集しようとするURLの中で、指定された文字列のパ
ターンを含んだURLのファイルは収集されない。本実
施形態では、この収集しないURLのパターンを設定す
る設定フィールドに、1行に1パターンずつ、最大10
00バイトの設定を可能としている。
【0072】尚、収集するパターンと、収集しないパタ
ーンの両方に適合するURLが存在した場合は、収集し
ないパターンが優先する。即ち、収集するパターンと、
収集しないパターンの両方に適合するURLが存在した
場合は、そのURLのファイルは収集されない。
【0073】・再収集の設定: 設定対象の収集タスク
が同じ起点URLからの再収集を行った時の振る舞いを
指定する。再収集には3つのモード(「全てのファイル
を新たに収集」、「未収集のファイルのみ収集」、「更
新されたファイルのみ収集(削除機能あり)」)があり、
任意の一つのモードを指定することができる。ここで、
「全てのファイルを新たに収集」モードとは、収集対象
のURLを全て再収集するモードを意味する。即ち、過
去に取得したどうかにかかわらず、起点URLから新た
に収集しなおす。また、「未収集のファイルのみ収集」
モードは、以前収集したURLは収集しないモードであ
る。「更新されたファイルのみ収集(削除機能あり)」モ
ードは、以前の収集時点から更新された文書ファイルの
み収集するモードである。更新の有無のチェック対象と
なる文書は、以前の収集に於いて、現在よりも指定日数
以上前に収集したURLである。「更新チェック頻度」
フィールドに入力された値が指定日数となる。指定日数
のデフォルトは「1日」である。以前の収集に於いて、
現在よりも指定日数以上前に収集したURLがインター
ネット/イントラネット30上の該当する情報サイトか
ら削除されており、当該URLから文書ファイルを取得
できなかった場合には、その文書ファイルに対応する登
録情報は知識DB131から削除される。
【0074】図11には、状況画面の例が示されてい
る。例えば、一覧画面または設定画面上で「状況」アン
カ503を選択することで、現在表示しているタスクの
状況画面に遷移する。この状況画面上には、当該タスク
の「設定名」、「知識データベース名」、「状態」等が
表示される。「設定名」の横には、収集開始/中止(再
開/中断)を指示するためのボタン701が表示されて
いる。「状態」には、タスクの状態(収集中/終了/未
収集/中断/異常終了)が表示され、さらに、当該タス
クの起点URL、収集したリンク段数(今回/最大/上
限)、およびファイル数(今回/全体/上限)等の状況情報
702も表示される。
【0075】当該タスクの状態が未収集、終了、または
中断の場合には、図11に示すように、ボタン701に
は「収集開始」と表示される。「収集開始」ボタン70
1を選択すると、当該タスクの実行がWeb収集モジュ
ール111によって開始される。現在の状態が終了また
は中断の場合には、再収集が開始されることになる。ま
た、当該タスクの現在の状態が収集中である場合には、
図12に示すように、ボタン701には「収集中断」と
表示される。「収集中断」ボタン701を選択すると、
稼働中の収集タスクは中断される。中断される以前まで
に収集されたURLのリストは結果ファイル204内に
保持される。
【0076】次に、図13乃至図15を参照して、状況
画面上のボタン操作による収集処理の中断および再開
(再収集)動作について具体的に説明する。
【0077】この中断・再開機能は、実行中のWeb収
集処理を一旦停止して、後日再開する様な場合に利用さ
れる機能である。Web収集モジュール111によるW
eb収集処理は、インターネット/イントラネット30
からの文書ファイルの取得を行う度にそのURLや成否
を示すステータスコード等を進捗状況情報として結果フ
ァイル204に書き込みながら実行される。取得した文
書ファイルにリンク先のURLがあればそのURLが結
果ファイル204に追加され、結果ファイル204に未
収集のURLが無くなるまで、処理が繰り返される。こ
の収集処理の途中で「収集中断」ボタン701が押され
ると、実行中のWeb収集タスクはその時点で中断され
る。そして、後に、その中断されたWeb収集タスクを
選択した状態で「収集開始」ボタン701が押される
と、中断されていたWeb収集タスクが再開されて再収
集が開始される。例えば、再収集モードとして「未収集
のファイルのみ収集」モードが選択されていた場合に
は、結果ファイル204に保持されている未収集のUR
Lから収集処理が再開されることになる。
【0078】図14には、結果ファイル204に進捗状
況情報として保持されるURLリストの例が示されてい
る。結果ファイル204には、図示のように、取得対象
のURL毎にその「URL」に加え、「収集日」、「収
集日時」、「ステータスコード」、「起点URL」、お
よび「リンク段数」が記録される。「リンク段数」は、
起点URLから見た場合の取得対象URLのリンクの段
数を示す。未収集のURLについては「収集日」、「収
集日時」、「ステータスコード」の情報は空欄となる。
これにより、Web収集処理を途中で中断した場合にお
ける再開ポイントを検出することができる。「ステータ
スコード」は収集処理の成否を示すものであり、これ
は、Webページ取得先の相手先Webサーバから返さ
れるHTTPステータスコードである。このHTTPス
テータスコードの種類には、ファイル取得が成功したこ
と(正常終了)を示す「200」、アクセス権限による
エラーを示す「403」、該当ファイルが見つからない
(削除された文書ファイルの取得要求に対するレスポン
ス)場合のエラーを示す「404」、タイムアウトエラ
ー「408」等が含まれる。
【0079】図15のフローチャートには、Web収集
が開始されてから中断されるまでの一連の処理手順が示
されている。
【0080】Web収集モジュール111は、最初に、
起点URLで指定される文書ファイルの取得を行い(ス
テップS121)、その結果(収集日、収集日時、ステ
ータスコード、起点URL、リンク段数、URL(起点
URLと同じ)を結果ファイル204に登録して進捗状
況情報の更新を行う(ステップS122)。取得が成功
した場合には、収集した文書ファイルから知識DB13
1に登録すべき属性情報が取得され(ステップS12
2)、次いでテキスト抽出処理(HTMLファイルの場
合はテキスト抽出とリンク先URLの検出)が実行され
る(ステップS124)。リンク先URLが検出された
場合には、そのURLと、上述の起点URLおよびリン
ク段数が結果ファイル204のURLリストに追加登録
される(ステップS125)。この後、属性情報とテキ
ストデータを登録ファイル上に記述する処理が行われる
(ステップS126)。ここで、中断指示の有無が判定
される(ステップS127)。中断指示が無い場合には
(ステップS127のNO)、結果ファイル204に未
収集のURLが登録されているかどうかによってWeb
収集処理が完了したかどうかが判断される(ステップS
128)。
【0081】結果ファイル204に未収集のURLが登
録されている場合には(ステップS128のNO)、上
述のステップS121からの処理が繰り返される。すな
わち、結果ファイル204に追加されたURLで指定さ
れる文書ファイルの取得を行い(ステップS121)、
その結果(収集日、収集日時、ステータスコード)を結
果ファイル204に登録して進捗状況情報の更新を行う
(ステップS122)。取得が成功した場合には、収集
した文書ファイルから知識DB131に登録すべき属性
情報が取得され(ステップS122)、次いでテキスト
抽出処理(HTMLファイルの場合はテキスト抽出とリ
ンク先URLの検出)が実行される(ステップS12
4)。リンク先URLが検出された場合には、そのUR
Lと、起点URLおよびリンク段数が結果ファイル20
4のURLリストに追加登録される(ステップS12
5)。この後、属性情報とテキストデータを登録ファイ
ル114上に記述する処理が行われる(ステップS12
6)。このようなWeb収集処理が、設定ファイル20
3に設定されたWeb収集条件の収集範囲に於いて収集
完了となるまで再帰的に実行される。このWeb収集時
に於いて、「収集中断」ボタン701が押されると、制
御ファイル202を通じて管理インターフェース112
からWeb収集モジュール111に中断指示が発行され
され(ステップS127のYES)、Web収集モジュ
ール111によって実行中のWeb収集タスクが中断さ
れる。
【0082】ここで、収集範囲として、図10に示す設
定画面の「収集ファイル形式」設定フォーム604上
で、収集するリンクの段数、各リンク毎の収集ファイル
個数等が設定された場合のWeb収集モジュール111
で実行されるWeb収集処理について、図16に示すフ
ローチャートを参照して説明する。
【0083】図9に示される一覧画面上で「設定アン
カ」502をクリックすると、図8の画面遷移図に示す
ように、図9に示される一覧画面から図10に示される
設定画面に遷移し、当該設定画面上で、「収集ファイル
形式」設定フォーム604、「収集サイト」設定フォー
ム607等の設定を行うことにより、その各設定フォー
ムの設定内容を含んだ設定ファイル203が作成される
(ステップS261,262)。
【0084】本実施形態では、上記「収集サイト」設定
フォーム607に於いて、起点URLの設定フィールド
上で、収集するサイトの起点URLを設定し、更に、必
要に応じて、リンク段数の上限設定フィールド上で、収
集するリンクの段数を設定し、ファイル数の上限設定フ
ィールド上で、各リンク毎の収集ファイル個数を設定す
る。この際、「収集サイト」設定フォーム607上で、
上記した収集するリンクの段数、各リンク毎の収集ファ
イル個数の各設定以外に、収集するURLの文字列パタ
ーンの設定、収集しないURLの文字列パターンの設
定、ドメイン内のみ収集の設定、収集するファイル形式
の設定等、複数種の収集範囲が同時に設定可能である
が、本実施形態では、収集するリンクの段数を設定する
設定フィールド、各リンク毎の収集ファイル個数を設定
する設定フィールドの設定以外の収集範囲の設定につい
ては特に言及しない。
【0085】図10に示される設定画面上で、上記した
ように「収集サイト」設定フォーム607の設定を行っ
た後、当該設定画面上で「状況アンカ」503をクリッ
クすると、図8の画面遷移図に示すように、図10に示
される設定画面から図11に示される状況画面に遷移し
(ステップS263)、当該状況画面上で、「収集開
始」ボタン701を選択すると、図15に示したWeb
収集の処理が開始され、当該Web収集処理に於いて、
上記「収集サイト」設定フォーム607の設定内容に従
う収集範囲の絞り込みによるWeb収集が可能となる。
【0086】この収集範囲の絞り込みとして、本実施形
態では、収集するリンクの段数を設定された上限値をも
とに規制する収集処理、および各リンク毎の収集ファイ
ル個数を設定された上限値をもとに規制する収集処理を
行う。
【0087】この収集処理では、設定ファイル203を
参照して、まず起点URLを読み込み(ステップS26
4〜S266)、収集する文書ファイルの個数が、設定
された上限値の範囲内に収まっていることを確認して
(ステップS267のNO)、収集処理を実行する(ス
テップS268)。
【0088】ここで、上記する文書ファイルの個数が、
設定された上限値に達した際、若しくは設定された上限
値に達する以前のファイル個数で収集が終了した際(ス
テップS267のYES)は、起点URLから辿るすべ
てのリンク先(URL)について、設定されたリンク段
数に達するまで、リンク先が更新され、上記した設定フ
ァイル個数の範囲内での収集が繰り返し実行される(ス
テップS269のNO,S266,S267のNO,S
268,S267,…,S269のYES)。
【0089】このようにして、Web収集モジュール1
11は、設定ファイル203に、収集するリンクの段
数、各リンク毎の収集ファイル個数のいずれか若しくは
双方が設定されているとき、その設定内容に従って、ネ
ットワーク上から前記文書情報を収集する。これによ
り、収集するリンクの段数、および各リンク毎の収集フ
ァイル個数を任意に指定して文書ファイルを収集するこ
とができる。
【0090】更に、上記した、収集するリンクの段数、
各リンク毎の収集ファイル個数の各設定に加えて、収集
するURLのパターンの設定、収集しないURLのパタ
ーンの設定、ドメイン内のみ収集の設定、収集するファ
イル形式の設定等、複数種の収集範囲が同時に設定可能
であり、これらを組み合わせて、収集する文書ファイル
に、フィルタリングを施すことで、所望する知識情報
を、より適切に絞り込んで収集することができ、これに
より、より高度の知識データベースを容易かつ迅速に効
率よく構築できる。例えば、上記した、収集するリンク
の段数、および各リンク毎の収集ファイル個数と、収集
するファイル形式と、収集するURLのパターンと、収
集しないURLのパターンとを組み合わせて設定するこ
とにより、指定した(設定した)、収集するリンクの段
数、および各リンク毎の収集ファイル個数の中で、更
に、収集するURLのパターン、収集しないURLのパ
ターン、文書ファイルの形式等を指定して、所望の知識
情報を収集することができる。
【0091】尚、本実施形態の知識情報収集システムの
機能は全てコンピュータプログラムにより実現されてい
るので、そのコンピュータプログラムをコンピュータ読
み取り可能な記憶媒体に記憶しておき、その記憶媒体を
通じて本コンピュータプログラムを、コンピュータネッ
トワーク接続可能な通常のコンピュータに導入して実行
させるだけで、本実施形態と同様の効果を容易に得るこ
とができる。
【0092】また本発明は、上記実施形態に限定される
ものではなく、実施段階ではその要旨を逸脱しない範囲
で種々に変形することが可能である。更に、上記実施形
態には種々の段階の発明が含まれており、開示される複
数の構成要件における適宜な組み合わせにより種々の発
明が抽出され得る。例えば、実施形態に示される全構成
要件から幾つかの構成要件が削除されても、発明が解決
しようとする課題の欄で述べた課題が解決でき、発明の
効果の欄で述べられている効果が得られる場合には、こ
の構成要件が削除された構成が発明として抽出され得
る。
【0093】
【発明の効果】以上説明したように、本発明によれば、
インターネット上からファイル形式の異なる様々な種類
の文書ファイルを知識情報として効率よく収集すること
が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る知識情報収集システ
ムの構成を示すブロック図。
【図2】同実施形態の知識情報収集システムに設けられ
たWeb収集モジュールの機能構成を示すブロック図。
【図3】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の例を示す図。
【図4】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の他の例を示す図。
【図5】同実施形態の知識情報収集システムに設けられ
たWeb収集モジュールの処理手順を示すフローチャー
ト。
【図6】同実施形態の知識情報収集システムに設けられ
た登録モジュールの処理手順を示すフローチャート。
【図7】同実施形態の知識情報収集システムおけるWe
bコンテンツとその登録処理との関係を示す図。
【図8】同実施形態の知識情報収集システムによる提供
される3つの画面とその遷移を説明するための図。
【図9】同実施形態の知識情報収集システムで用いられ
る一覧画面の例を示す図。
【図10】同実施形態の知識情報収集システムで用いら
れる設定画面の例を示す図。
【図11】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。
【図12】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。
【図13】同実施形態の知識情報収集システムにおける
Web収集処理の中断/再開動作を説明するための図。
【図14】同実施形態の知識情報収集システムに設けら
れた結果ファイルの内容の例を示す図。
【図15】同実施形態の知識情報収集システムにおける
Web収集処理の開始から中断までの処理手順を示すフ
ローチャート。
【図16】同実施形態の知識情報収集システムにおけ
る、収集するリンクの段数、および各リンク毎の収集フ
ァイル個数の設定、並びにその設定に伴うWeb収集処
理の手順を示すフローチャート。
【符号の説明】
11…Web収集システム 12…登録モジュール 13…知識エンジン 30…インターネット/イントラネット 111…Web収集モジュール 112…管理インターフェース 113…登録ディレクトリ 131…知識データベース 132…検索エンジン 201…ロックファイル 202…制御ファイル 203…設定ファイル 204…結果ファイル 205…ログファイル 301…収集制御部 302…属性抽出部 303…テキスト抽出部 304…フォーマット変換部 607…「収集サイト」設定フォーム
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // G06F 13/00 520 G06F 13/00 520D (72)発明者 塩田 弘二 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 Fターム(参考) 5B075 ND03 NK44 QP01

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 設定手段により設定された情報をもと
    に、ネットワーク上から、知識データベースに登録すべ
    き文書情報を収集する知識情報収集システムに於いて、 前記設定手段に、収集するリンクの段数を設定する手段
    を含み、 前記設定手段により前記リンクの段数が設定されている
    とき、起点URLおよび辿るリンクのすべてについて、
    前記設定されたリンクの段数を上限に、文書情報を収集
    する収集処理手段を具備したことを特徴とする知識情報
    収集システム。
  2. 【請求項2】 設定手段により設定された情報をもと
    に、ネットワーク上から、知識データベースに登録すべ
    き文書情報を収集する知識情報収集システムに於いて、 前記設定手段に、収集するリンクの段数、および各リン
    ク毎の収集ファイル個数を設定する手段を含み、 前記設定手段により、前記リンクの段数、および収集フ
    ァイル個数が設定されているとき、起点URLおよび辿
    るリンクのすべてについて、前記設定された収集ファイ
    ル個数、および前記設定されたリンクの段数を上限に、
    前記ネットワーク上から文書情報を収集する収集処理手
    段を具備したことを特徴とする知識情報収集システム。
  3. 【請求項3】 知識データベースに登録すべき文書情報
    をネットワーク上から収集する知識情報収集システムに
    於いて、 前記知識データベースに登録すべき文書情報を収集する
    サイトの設定を行う、起点URLの設定フィールド、お
    よび収集範囲を規定する項目を含んだ収集サイト設定画
    面を表示する設定画面表示手段と、 前記設定画面表示手段により表示された設定画面上の設
    定内容をもとに設定ファイルを作成する設定ファイル作
    成手段と、 前記設定ファイル作成手段で作成された設定ファイルの
    内容をもとに前記知識データベースに登録すべき文書情
    報をネットワーク上から収集する情報収集手段とを有
    し、 前記収集サイト設定画面には、起点URLの設定フィー
    ルドと、収集するリンクの段数を設定する設定フィール
    ドとを含む複数種の設定項目を有し、 前記情報収集手段は、前記設定ファイルに、起点URL
    が設定され、かつ収集するリンクの段数が設定されてい
    るとき、前記設定された起点URLおよび辿るリンク先
    のそれぞれについて、前記設定された、収集するリンク
    の段数を上限に、前記ネットワーク上から前記文書情報
    を収集することを特徴とする知識情報収集システム。
  4. 【請求項4】 知識データベースに登録すべき文書情報
    をネットワーク上から収集する知識情報収集システムに
    於いて、 前記知識データベースに登録すべき文書情報を収集する
    サイトの設定を行う、起点URLの設定フィールド、お
    よび収集範囲を規定する項目を含んだ収集サイト設定画
    面を表示する設定画面表示手段と、 前記設定画面表示手段により表示された設定画面上の設
    定内容をもとに設定ファイルを作成する設定ファイル作
    成手段と、 前記設定ファイル作成手段で作成された設定ファイルの
    内容をもとに前記知識データベースに登録すべき文書情
    報をネットワーク上から収集する情報収集手段とを有
    し、 前記収集サイト設定画面には、起点URLの設定フィー
    ルドと、収集するリンクの段数、および各リンク毎の収
    集ファイル個数を設定する設定フィールドとを含む複数
    種の設定項目を有し、 前記情報収集手段は、前記設定ファイルに、起点URL
    が設定され、かつ収集するリンクの段数、および各リン
    ク毎の収集ファイル個数が設定されているとき、前記設
    定された起点URLおよび辿るリンク先のそれぞれにつ
    いて、前記設定された、各リンク毎の収集ファイル個
    数、および収集するリンクの段数を上限に、前記ネット
    ワーク上から前記文書情報を収集することを特徴とする
    知識情報収集システム。
  5. 【請求項5】 前記設定画面表示手段により表示される
    設定画面には、収集するURLの文字列パターンを設定
    する項目、収集範囲をドメイン内に設定する項目、収集
    するURLの文字列パターンを設定する項目、収集しな
    いURLの文字列パターンを設定する項目、収集するリ
    ンクの上限を設定する項目の少なくともいずれかを含
    み、前記各項目の設定内容が前記収集するリンクの段数
    の設定項目の設定内容に反映される請求項3または4記
    載の知識情報収集システム。
  6. 【請求項6】 知識データベースに登録すべき文書情報
    をネットワーク上から収集する知識情報収集方法に於い
    て、 前記知識データベースに登録すべき文書情報を収集する
    サイトの設定を行う、起点URLの設定フィールド、お
    よび収集範囲を規定する項目を含んだ収集サイト設定画
    面を表示する設定画面表示ステップと、 前記設定画面表示ステップにより表示された設定画面上
    の設定内容をもとに設定ファイルを作成する設定ファイ
    ル作成ステップと、 前記設定ファイル作成ステップで作成された設定ファイ
    ルの内容をもとに前記知識データベースに登録すべき文
    書情報をネットワーク上から収集する収集ステップとを
    有し、 前記設定画面表示ステップで表示される前記収集サイト
    設定画面には、起点URLの設定フィールドと、収集す
    るリンクの段数を設定する設定フィールドとを含む複数
    種の設定項目を有し、 前記収集ステップは、前記設定ファイルに、起点URL
    が設定され、かつ収集するリンクの段数が設定されてい
    るとき、前記設定された起点URLおよび辿るリンク先
    のそれぞれについて、前記設定された、収集するリンク
    の段数を上限に、前記ネットワーク上から前記文書情報
    を収集することを特徴とする知識情報収集方法。
  7. 【請求項7】 知識データベースに登録すべき文書情報
    をネットワーク上から収集する知識情報収集システムに
    於いて、 前記知識データベースに登録すべき文書情報を収集する
    サイトの設定を行う、起点URLの設定フィールド、お
    よび収集範囲を規定する項目を含んだ収集サイト設定画
    面を表示する設定画面表示ステップと、 前記設定画面表示ステップにより表示された設定画面上
    の設定内容をもとに設定ファイルを作成する設定ファイ
    ル作成ステップと、 前記設定ファイル作成ステップで作成された設定ファイ
    ルの内容をもとに前記知識データベースに登録すべき文
    書情報をネットワーク上から収集する収集ステップとを
    有し、 前記設定画面表示ステップで表示される前記収集サイト
    設定画面には、起点URLの設定フィールドと、収集す
    るリンクの段数、および各リンク毎の収集ファイル個数
    を設定する設定フィールドとを含む複数種の設定項目を
    有し、 前記収集ステップは、前記設定ファイルに、起点URL
    が設定され、かつ収集するリンクの段数、および各リン
    ク毎の収集ファイル個数が設定されているとき、前記設
    定された起点URLおよび辿るリンク先のそれぞれにつ
    いて、前記設定された、各リンク毎の収集ファイル個
    数、および収集するリンクの段数を上限に、前記ネット
    ワーク上から前記文書情報を収集することを特徴とする
    知識情報収集方法。
JP2002108414A 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法 Expired - Lifetime JP3725088B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002108414A JP3725088B2 (ja) 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002108414A JP3725088B2 (ja) 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法

Publications (2)

Publication Number Publication Date
JP2003303197A true JP2003303197A (ja) 2003-10-24
JP3725088B2 JP3725088B2 (ja) 2005-12-07

Family

ID=29392207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002108414A Expired - Lifetime JP3725088B2 (ja) 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法

Country Status (1)

Country Link
JP (1) JP3725088B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122450A (ja) * 2005-10-28 2007-05-17 Nippon Telegr & Teleph Corp <Ntt> 自動情報取得装置および自動情報取得方法
JP2012203880A (ja) * 2011-03-28 2012-10-22 Kddi Corp 収集装置、収集方法及び収集プログラム
JP2013003694A (ja) * 2011-06-14 2013-01-07 Kddi Corp Id割当装置、方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207759A (ja) * 1997-01-24 1998-08-07 Sharp Corp ハイパーテキスト自動取得装置
JP2000259672A (ja) * 1999-03-08 2000-09-22 Tadamitsu Ryu ネットワーク上の情報検索システム
JP2001034514A (ja) * 1999-07-22 2001-02-09 Just Syst Corp 表示制御装置、表示制御方法及びデータ巡回収集装置
JP2001034629A (ja) * 1999-07-22 2001-02-09 Just Syst Corp データ検索プログラムを記憶した記憶媒体
JP2001075859A (ja) * 1999-08-31 2001-03-23 Just Syst Corp 情報巡回獲得装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207759A (ja) * 1997-01-24 1998-08-07 Sharp Corp ハイパーテキスト自動取得装置
JP2000259672A (ja) * 1999-03-08 2000-09-22 Tadamitsu Ryu ネットワーク上の情報検索システム
JP2001034514A (ja) * 1999-07-22 2001-02-09 Just Syst Corp 表示制御装置、表示制御方法及びデータ巡回収集装置
JP2001034629A (ja) * 1999-07-22 2001-02-09 Just Syst Corp データ検索プログラムを記憶した記憶媒体
JP2001075859A (ja) * 1999-08-31 2001-03-23 Just Syst Corp 情報巡回獲得装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122450A (ja) * 2005-10-28 2007-05-17 Nippon Telegr & Teleph Corp <Ntt> 自動情報取得装置および自動情報取得方法
JP2012203880A (ja) * 2011-03-28 2012-10-22 Kddi Corp 収集装置、収集方法及び収集プログラム
JP2013003694A (ja) * 2011-06-14 2013-01-07 Kddi Corp Id割当装置、方法及びプログラム

Also Published As

Publication number Publication date
JP3725088B2 (ja) 2005-12-07

Similar Documents

Publication Publication Date Title
US5870559A (en) Software system and associated methods for facilitating the analysis and management of web sites
US6237006B1 (en) Methods for graphically representing web sites and hierarchical node structures
US6832220B1 (en) Method and apparatus for file searching, accessing file identifiers from reference page
US8037107B2 (en) Document transfer assisting system, monitor apparatus, document transfer assisting apparatus, method and computer readable recording medium
US20050216837A1 (en) Unread-state management
JP2010055483A (ja) 情報再取得手順生成プログラム及び情報再取得手順生成装置
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3914081B2 (ja) アクセス権限設定方法および構造化文書管理システム
JP2001154893A (ja) ファイル検索装置とコンピュータ読取可能な記録媒体
JP3725088B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725087B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3708893B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725837B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3708894B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725836B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2003303198A (ja) 知識情報収集方法および知識情報収集システム
KR20060075798A (ko) 해외 과학기술 전자원문 수집/색인/추출 시스템과 그 방법및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체
JP3725835B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2003303200A (ja) 知識情報収集システムおよび知識情報収集方法
JP2006048144A (ja) 自動巡回装置,クライアント端末および自動巡回方法
JP4496929B2 (ja) 複数Web閲覧操作の並列再生装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2003157263A (ja) 情報収集方法、情報収集装置及び検索対象文字情報蓄積プログラム
JP2004362495A (ja) エラーログ情報解析支援方法及び実施装置並びに処理プログラム
JP2007272777A (ja) 情報処理装置、情報処理方法
JP2004118354A (ja) 文書管理システムと文書管理プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050315

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050920

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080930

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120930

Year of fee payment: 7