JP2003303204A - 知識情報収集システムおよび知識情報収集方法 - Google Patents

知識情報収集システムおよび知識情報収集方法

Info

Publication number
JP2003303204A
JP2003303204A JP2002108479A JP2002108479A JP2003303204A JP 2003303204 A JP2003303204 A JP 2003303204A JP 2002108479 A JP2002108479 A JP 2002108479A JP 2002108479 A JP2002108479 A JP 2002108479A JP 2003303204 A JP2003303204 A JP 2003303204A
Authority
JP
Japan
Prior art keywords
document
collection
information
collecting
recollection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002108479A
Other languages
English (en)
Other versions
JP3708893B2 (ja
Inventor
Kazuhiko Atsumi
一彦 渥美
Masayo Toyoda
真代 豊田
Koji Shioda
弘二 塩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002108479A priority Critical patent/JP3708893B2/ja
Publication of JP2003303204A publication Critical patent/JP2003303204A/ja
Application granted granted Critical
Publication of JP3708893B2 publication Critical patent/JP3708893B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】再収集処理を改善することにより、Web情報
を構成する文書ファイルをインターネットなどのネット
ワーク上から効率よく収集する。 【解決手段】Web収集モジュール111は、一度行っ
た起点アドレス情報からの文書ファイル群の再収集処理
を行うための再収集モードとして、起点アドレス情報を
起点にして文書ファイル群を新たに収集する第1再収集
モードと、以前の収集で未収集の文書ファイルのみを収
集する第2再収集モードと、以前の収集時点から更新さ
れた文書ファイルのみを収集する第3再収集モードとが
用意されており、どの再収集モードを使用するかについ
ては設定ファイル203に保持されている設定情報によ
って予め指定することが出来る。よって、収集先のWe
bサイトや収集目的などに応じて最適な再収集処理を行
うことが可能となり、再収集処理を効率よく行うことが
可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はナレッジマネジメン
トシステムで用いられる知識情報収集システムおよび知
識情報収集方法に関し、特に知識データベースに登録す
べき文書情報をネットワーク上から収集するための知識
情報収集システムおよび知識情報収集方法に関する。
【0002】
【従来の技術】近年、企業を中心に複数のユーザ間で情
報共有を行うためのグループウェアの導入が進められて
いる。代表的なグループウェアとしては、電子メールシ
ステムやワークフローシステムなどが知られているが、
最近では、知識情報の共有支援を図るためのナレッジマ
ネジメントシステムも開発され始めている。
【0003】このナレッジマネジメントシステムは、個
人のノウハウなどの知識情報を知識データベースに蓄積
・管理するためのものであり、自然言語検索などの検索
機能と組み合わせることにより、蓄積された知識情報の
効率的な活用が可能となる。
【0004】ところで、このようなナレッジマネジメン
トシステムにおいては、知識情報をいかに効率よく収集
・蓄積するかが重要なポイントとなる。特にインターネ
ット上のWeb情報は知識の宝庫であるので、インター
ネット上から必要な情報を効率良く収集するための仕組
みが必要とされている。
【0005】
【発明が解決しようとする課題】しかし、インターネッ
ト上のWeb情報は静的なものではなく、そのWeb情
報を構成する文書ファイルの更新、追加、削除により、
Web情報の内容は動的に変化されるのが通常である。
このため、インターネットからWeb情報を収集してそ
れをナレッジマネジメントシステムの知識データベース
に登録する場合には、インターネット上でのWeb情報
の更新に合わせて知識データベースの登録内容も最新の
内容に維持するための仕組みが必要となる。この場合、
一度行った収集処理と同一のWeb情報全てを新たに収
集し直すことにより、知識データベースの登録内容を最
新の内容に維持することができる。
【0006】ところが、インターネット上にはWeb情
報の更新、追加、削除が頻繁に繰り返されるWebサイ
トや、そのWeb情報の更新、追加、削除がほとんど行
われないWebサイト、さらには一定周期で例えばニュ
ースなどの一部のWeb情報のみの更新が行われるWe
bサイトなど、様々なWebサイトが存在する。よっ
て、一度行った収集処理と同一のWeb情報全てを新た
に収集し直すという処理のみでは、Webサイトによっ
ては無駄な収集処理が繰り返されることになる。また、
Web情報の収集目的によっては、既に収集済みのWe
b情報については知識データベースにその内容をそのま
ま保持しておくという収集形態が好ましい場合もある。
したがって、Web収集においては、より効率の良い再
収集の仕組みが必要となる。
【0007】本発明はこのような事情を考慮してなされ
たものであり、再収集処理を改善することにより、We
b情報を構成する文書ファイルをインターネットなどの
ネットワーク上から効率よく収集することが可能な知識
情報収集システムおよび知識情報収集方法を提供するこ
とを目的とする。
【0008】
【課題を解決するための手段】上述の課題を解決するた
め、本発明は、知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集システムに
おいて、予め設定された設定情報で指定される起点アド
レス情報に基づいて、当該起点アドレス情報で指定され
る文書ファイルを起点にそれに関連する文書ファイル群
を前記ネットワーク上から収集する文書収集手段と、前
記収集された各文書ファイルの文書情報を前記知識デー
タベースに登録する登録手段と、前記文書収集手段に前
記起点アドレス情報からの文書ファイル群の再収集処理
を実行させる手段とを具備し、前記文書収集手段は、前
記起点アドレス情報からの文書ファイル群の再収集処理
を行うための再収集モードとして、前記起点アドレス情
報を起点にして前記文書ファイル群を新たに収集する第
1再収集モードと、以前の収集で未収集の文書ファイル
のみを収集する第2再収集モードと、以前の収集時点か
ら更新された文書ファイルのみを収集する第3再収集モ
ードとを有し、前記起点アドレス情報からの文書ファイ
ル群の再収集処理を行う場合、前記第1乃至第3の再収
集モードの中から前記設定情報で指定された再収集モー
ドを選択し、その選択した再収集モードを用いて前記文
書ファイル群の再収集処理を実行する手段を含むことを
特徴とする。
【0009】この知識情報収集システムにおいては、一
度行った起点アドレス情報からの文書ファイル群の再収
集処理を行うための再収集モードとして、起点アドレス
情報を起点にして文書ファイル群を新たに収集する第1
再収集モードと、以前の収集で未収集の文書ファイルの
みを収集する第2再収集モードと、以前の収集時点から
更新された文書ファイルのみを収集する第3再収集モー
ドとが用意されており、どの再収集モードを使用するか
については設定情報によって予め指定することが出来
る。よって、収集先のWebサイトや収集目的などに応
じて最適な再収集処理を行うことが可能となり、再収集
処理を効率よく行うことが可能となる。
【0010】また、本発明は、知識データベースに登録
すべき文書情報をネットワーク上から収集する知識情報
収集システムにおいて、予め設定された設定情報で指定
される起点アドレス情報に基づいて、当該起点アドレス
情報で指定される文書ファイルを起点にそれに関連する
文書ファイル群を前記ネットワーク上から収集する文書
収集手段であって、前記ネットワーク上から収集した各
文書ファイルに対してテキストデータの抽出とリンク情
報の検出のための解析処理を行い、前記リンク情報が検
出された場合にその検出されたリンク情報で指定される
リンク先の文書ファイルを前記ネットワークから収集す
る文書収集手段と、複数種の文書ファイルそれぞれの文
書情報を前記知識データベースに登録するための共通イ
ンターフェースとして予め決められた記述形式を持つ登
録ファイル上に、前記収集された各文書ファイルから抽
出されたテキストデータを記述して出力する出力手段
と、前記登録ファイルからそこに記述された各文書ファ
イルのテキストデータを取り出し、そのテキストデータ
を前記知識データベースに登録する登録手段と、前記文
書収集手段に前記起点アドレス情報からの文書ファイル
群の再収集処理を実行させる手段とを具備し、前記文書
収集手段は、前記起点アドレス情報からの文書ファイル
群の再収集処理を行うための再収集モードとして、前記
起点アドレス情報を起点にして前記文書ファイル群を新
たに収集する第1再収集モードと、以前の収集で未収集
の文書ファイルのみを収集する第2再収集モードと、以
前の収集時点から更新された文書ファイルのみを収集す
る第3再収集モードとを有し、前記起点アドレス情報か
らの文書ファイル群の再収集処理を行う場合、前記第1
乃至第3の再収集モードの中から前記設定情報で指定さ
れた再収集モードを選択し、その選択した再収集モード
を用いて前記文書ファイル群の再収集処理を実行する手
段を含むことを特徴とする。
【0011】この知識情報収集システムにおいては、上
述の3つの再収集モードを選択的に使用できる他、イン
ターネット上からファイル形式の異なる様々な種類の文
書ファイルを知識情報として効率よく収集するための仕
組みが設けられている。すなわち、文書収集手段では、
各文書ファイルからリンク情報を検出し、リンク情報が
検出された場合にその検出されたリンク情報で指定され
るリンク先の文書ファイルを収集するという処理が再帰
的に実行される。この場合、リンク情報の検出には文書
ファイルの解析が必要となるので、文書収集手段におい
ては、その解析処理の中でリンク情報の検出のみなら
ず、テキストデータの抽出も併せて実行する。このよう
に文書収集手段が各文書ファイルの解析処理の中でテキ
ストデータの抽出とリンク情報の検出を行うことによ
り、テキストデータの抽出を効率よく行うことが可能と
なる。そして、各文書ファイルから抽出されたテキスト
データは、登録ファイル上に記述して出力される。ここ
で、登録ファイルとは、複数種の文書ファイルそれぞれ
の文書情報を知識データベースに登録するための共通イ
ンターフェースとして予め決められた記述形式を持つ出
力ファイルである。各文書ファイルから抽出されたテキ
ストデータを登録ファイル上に記述して出力することに
より、登録手段においては、ネットワーク上から取得さ
れた文書ファイルのファイル形式の違いを考慮すること
なく、それらの文書情報を共通のフォーマットで知識デ
ータベースに効率よく登録することができる。よって、
インターネット上からファイル形式の異なる様々な種類
の文書ファイルを知識情報として効率よく収集すること
が可能となる。
【0012】また、本発明は、知識データベースに登録
すべき文書情報をネットワーク上から収集する知識情報
収集システムにおいて、予め設定された設定情報で指定
される起点アドレス情報に基づいて、当該起点アドレス
情報で指定される文書ファイルを起点にそれに関連する
文書ファイル群を前記ネットワーク上から収集する文書
収集手段と、前記収集された各文書ファイルの文書情報
を前記知識データベースに登録する登録手段と、前記文
書収集手段による以前の文書収集結果を保持する手段
と、前記文書収集手段に前記起点アドレス情報からの文
書ファイル群の再収集処理を実行させる手段とを具備
し、前記文書収集手段は、前記起点アドレス情報からの
文書ファイル群の再収集処理を実行する場合、前記設定
情報で指定された指定日数と、前記保持されている以前
の文書収集結果で示される収集済みの各文書ファイルお
よびその収集日時とに基づいて、現時点から前記指定日
数以前に収集された文書ファイルの中で以前の収集時点
から更新された文書ファイルを検出する手段と、前記検
出された各文書ファイル毎にその収集日時を含むファイ
ル取得要求を前記ネットワーク上に発行することによ
り、以前の収集時点から更新された文書ファイルを前記
ネットワークから収集する手段とを含むことを特徴とす
る。
【0013】この知識情報収集システムにおいては、現
時点から指定日数以前に収集された文書ファイルの中で
以前の収集時点から更新された文書ファイルのみを再収
集する仕組みが設けられており、予め設定情報によって
指定日数を指定しておくだけで、インターネット上のW
ebサイトや収集目的の文書ファイルの種類等に対応し
た最適な間隔で、知識データベースの登録内容を最新の
内容に更新することが出来る。
【0014】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。図1には、本発明の一実施形態に係
る知識情報収集システムを用いたナレッジマネジメント
システム全体の構成が示されている。このナレッジマネ
ジメントシステムは知識情報の収集・分析・検索等のサ
ービスを提供するためのものであり、Web収集システ
ム11、登録モジュール12、および知識エンジン13
などから構成されている。これらWeb収集システム1
1、登録モジュール12および知識エンジン13は、サ
ーバコンピュータ上で実行されるプログラムとして実現
されている。Web収集システム11および登録モジュ
ール12は、ナレッジマネジメントシステムで用いられ
る知識情報を収集するための知識情報収集システムを構
成する。この知識情報収集システムは、Webページな
どの文書をインターネット/イントラネット30上から
収集してその文書の内容をナレッジマネジメントシステ
ムの知識データベース(知識DB)131に登録すると
いう処理を実行する。Web収集システム11は、We
b収集モジュール111、管理インターフェース11
2、および登録ディレクトリ113から構成されてい
る。
【0015】Web収集モジュール111はインターネ
ット/イントラネット30上の各種文書ファイルを収集
してそれを知識DB131に登録できる形式で出力する
ためプログラムである。このWeb収集モジュール11
1はマルチスレッド構造を有しており、HTTP(Hype
rText Transfer Protocol)によるインターネット/イン
トラネット30上からの文書ファイル取得処理を並列的
に行うことが出来る。HTTPはインターネット/イン
トラネット30上の情報サイト(Webサイト)である
各Webサーバ31からHTML(Hyper Text Markup
Language)で記述された文書を取得するための通信プロ
トコルである。Web収集モジュール111は、Web
収集条件を指定する設定情報で指定されたURL(Unif
orm Resource Locator)の文書ファイルをインターネッ
ト/イントラネット30上から取得し、取得した文書フ
ァイルにリンク先のURLが含まれていればそのURL
の文書ファイルをさらに取得する、という再帰的な処理
を行って、インターネット/イントラネット30上から
関連する文書ファイル群を順次取得する。この場合、他
の文書ファイルへのリンク情報(URL)を検出するた
めには取得した文書ファイルを解析することが必要とな
るが、その解析処理の中では、リンク情報の検出のみな
らず、知識DB131に登録すべきテキストデータの抽
出も併せて実行される。
【0016】収集対象の文書ファイルは、他のファイル
へのリンク情報であるURLを記述可能なハイパーテキ
ストファイル(HTMLファイル)のみならず、テキス
トファイル(plane text)、さらには各種アプリケーシ
ョンプログラムによって作成された様々なファイル形式
の文書ファイル(例えば、Portable Document Format形
式のファイル、ワードプロセッサソフトウェアで作成し
た文書ファイル、表計算ソフトウェアで作成したファイ
ル、プレゼンテーションデータ作成ソフトウェアで作成
したプレゼンテーションデータのファイル、など)も収
集対象となる。
【0017】Web収集モジュール111では、インタ
ーネット/イントラネット30上から収集した各文書フ
ァイルに対して知識DB131に登録すべき属性情報の
取得と上述のテキストデータの抽出が行われる。各文書
ファイルから取得される属性情報は、例えば、当該文書
ファイルのURL、ファイル作成日時(更新日時)等で
ある。そして、Web収集モジュール111では、それ
ら各文書ファイルの属性情報とテキストデータが記述さ
れた登録ファイルが作成されて、それが登録ディレクト
リ113上に出力される。ここで、登録ファイルとは、
ファイル形式の異なる複数種の文書ファイルそれぞれの
文書情報を知識DB131に登録するための共通インタ
ーフェースとして予め決められた記述形式を持つファイ
ルを意味する。この登録ファイルは、複数種の文書ファ
イルそれぞれの文書情報を知識DB131に共通フォー
マットで登録するために利用される。本実施形態では、
登録ファイルとしてXML(eXtensible Markup Langua
ge)を使用する。
【0018】管理インターフェース112は、Web収
集モジュール111に実行させる各Web収集処理(以
下、Web収集処理タスクという)の内容を設定するた
めのプログラムであり、各Web収集処理タスク毎にそ
のWeb収集条件の設定および管理、Web収集モジュ
ール111の起動・停止の制御、さらには各Web収集
処理タスクの収集状況の管理・提示等の機能を有してい
る。この管理インターフェース112は、管理者ユーザ
がそのユーザ端末のWebブラウザ21上から必要な操
作を行えるように、Webサーバ22がCGI(Common
Gateway Interface)を通じて起動可能な外部プログラ
ム(CGIプログラム)として実現されている。
【0019】またWeb収集システム11には、Web
収集モジュール111の動作を管理・制御するためのフ
ァイルとして、図示のように、ロックファイル201、
制御ファイル202、設定ファイル203、結果ファイ
ル204、およびログファイル205が設けられてい
る。
【0020】ロックファイル201はWeb収集モジュ
ール111の2重起動を防止するための排他制御用のフ
ァイルである。制御ファイル202は管理インターフェ
ース112がWeb収集モジュール111を停止させる
ために使用するファイルであり、例えば、管理者ユーザ
からの指示に応答して、実行中のWeb収集処理タスク
を途中で中断させる場合などに利用される。収集実行中
における中断の指定は、管理者ユーザが管理インターフ
ェース112を通じて行うことができる。
【0021】設定ファイル203は、各Web収集処理
タスク毎にそのWeb収集条件を指定する設定情報を記
述するためのファイルであり、ここには複数のWeb収
集処理タスクそれぞれに対応する複数の設定情報を保持
することが出来る。各Web収集処理タスクのWeb収
集条件は、管理者ユーザによって設定される。Web収
集条件には、少なくとも、インターネット/イントラネ
ット30からの情報収集の起点とすべき文書ファイルの
所在を示す起点アドレス情報(起点URL)と、収集対
象とすべき文書ファイル数またはリンク段数の上限値を
示す収集範囲情報、等が含まれている。このWeb収集
条件に基づいてWeb収集モジュール111のWeb収
集動作が制御される。すなわち、Web収集モジュール
111は、起点URLで指定される文書ファイルを起点
にそれに関連する文書ファイル群を、収集範囲情報で規
定される範囲内で順次収集する。
【0022】また、Web収集条件には、登録先の知識
データベースを指定する知識データベース名も含まれて
いる。すなわち、知識DB131においては蓄積文書の
種類が互いに異なる複数の知識データベースが定義され
ており、それら複数の知識データベースがそれぞれの知
識データベース名で管理されている。設定ファイル20
3の設定情報によってWeb収集タスク毎に登録先の知
識データベース名を指定することにより、収集した文書
情報を知識DB131内の任意の知識データベースに登
録することが出来る。
【0023】さらに、収集範囲情報として、収集対象と
すべきファイル形式の種類、再収集を行う時の収集条
件、等を設定することもできる。ここで、再収集とは、
例えばWeb収集モジュール111に同一のWeb収集
処理タスクを定期的に実行させる場合における2度目以
降のWeb収集処理や、一旦中断したWeb収集処理タ
スクを再開させた場合のWeb収集処理を言う。本実施
形態では、3つの再収集モードが用意されており、We
b収集処理タスク毎に使用すべき再収集モードを指定す
ることが出来る。3つの再収集モードそれぞれの内容
は、図10以降で詳述する。
【0024】結果ファイル204は、以前に収集した文
書ファイルの一覧等をWeb収集処理の結果として各W
eb収集タスク毎に管理するためのファイルであり、こ
こには、Web収集の結果として取得したURLのリス
ト、取得日時、取得した文書ファイル件数、などが各W
eb収集処理タスク毎に出力される。この結果ファイル
204はWeb収集処理タスクそれぞれの収集状況をユ
ーザに提示する目的と、再収集の効率化の目的に用いら
れる。この結果ファイル204を用いることにより、過
去に収集済みの文書ファイルの中でインターネット/イ
ントラネット30上の情報サイトから削除された文書フ
ァイルを検出したり、Web収集処理を途中で中断した
場合における再開ポイントの検出、さらには以前の収集
時点からインターネット/イントラネット30上で更新
されている文書ファイルの検出などを行うことが出来
る。
【0025】ログフィル205は、Web収集モジュー
ル111による文書ファイルの取得の成否やエラーの種
類などを管理するファイルである。
【0026】登録ディレクトリ113は、知識DB13
1に登録すべき文書内容を出力するための記憶領域であ
る。ここには、Web収集モジュール111によって各
文書ファイルから抽出された属性情報とテキストデータ
が記述された上述の登録ファイルが出力される。Web
収集モジュール111は、テキストデータの抽出に関し
て第1および第2の2つの処理モードを有する。
【0027】第1処理モードでは、全てのファイル形式
の文書ファイルを対象に解析処理を行ってテキストデー
タの抽出、さらにはリンク情報(URL)の検出が行わ
れる(URLの検出はHTMLファイルのみが対象)。
第2処理モードでは、HTMLファイルとテキストファ
イル(PlainText)のみを対象に解析処理を行ってテキ
ストデータの抽出、さらにはリンク情報(URL)の検
出が行われ(URLの検出はHTMLファイルのみが対
象)、例えばPortable Document Format等の他のファイ
ル形式の文書ファイル(以下、コンテンツファイルとい
う)に対しては解析処理は行われない。
【0028】第2処理モードを使用した場合、HTML
とPlainTextについては、そのテキストデータ
と属性情報が登録ファイル上に記述されて登録ディレク
トリ113上に出力される。一方、Portable Document
Formatなど他の形式のファイルについてはそのコンテン
ツファイルがそのまま登録ディレクトリ113上に出力
され、登録ファイル上には当該ファイルの属性情報とコ
ンテンツファイルのパス名が記述される。なお、第2処
理モードにおいては、リンク情報の検出のための解析処
理が必要なファイルを対象にその解析処理の中でテキス
トデータの抽出も併せて実行するという点が肝要である
ので、HTMLファイルのみを対象にテキストデータの
抽出を行うようにしても良い。
【0029】第1および第2のどちらの処理モードにお
いても、Web収集モジュール111は実行中のWeb
収集タスクの処理が完了した時に、登録モジュール12
に対して登録要求ファイルを発行して文書の登録を登録
モジュール12に要求する。登録要求ファイルには、登
録ファイルのファイル名、登録先の知識データベース名
などが記述されている。
【0030】登録モジュール12は、Web収集モジュ
ール111によって収集された各文書ファイルの属性情
報およびテキストデータを知識DB131に登録する。
すなわち、登録モジュール12は、Web収集モジュー
ル111からの登録要求に応答して該当する登録ファイ
ルを取得し、その登録ファイル上に文書ファイル毎に記
述されている属性情報およびテキストデータを取り出し
て、知識DB131の登録先知識データベースに登録す
る。また、この登録モジュール12はテキストデータの
抽出機能も有しており、登録ファイルにコンテンツファ
イルのパス名が記述されている場合は、登録モジュール
12は、そのパス名で指定されるコンテンツファイルか
らテキストデータを抽出して知識DB131の該当する
登録先知識データベースに登録する。
【0031】さらに、登録モジュール12は、Web収
集モジュール111以外の他の収集モジュールによって
収集された文書の登録処理も実行する。他の収集モジュ
ールとしては、例えば、電子ファイリングシステムのフ
ァイルサーバから文書情報を収集するファイル収集モジ
ュール、RDBデータベースサーバからそこに管理され
ている文書情報を収集するRDB収集モジュール、電子
掲示板形式のコミュニティからそこに投稿された文書情
報を収集するコミュニティ収集モジュール、ユーザが任
意の各種アプリケーションプログラムの文書ファイルを
登録ファイル(XML)の出力形式に変換するために使
用するユーザ収集モジュール等がある。登録モジュール
12はこれら各収集モジュールによって共通に利用され
る。どの収集モジュールについても、登録モジュール1
2に対するインターフェースとしては上述のXML形式
の登録ファイルが用いられる。
【0032】知識エンジン13は、知識DB131に蓄
積された情報を活用するための知識分析処理を行う。こ
の知識分析処理では、知識DB131に蓄積された大量
の文書情報それぞれの特徴を分析して重要語を抽出する
処理や、それら文書情報を特徴別に複数のカテゴリに分
類および整理するクラスタリング処理などが行われる。
この知識エンジン13には自然言語検索を行うための知
識エンジン132が設けられており、各ユーザはそのユ
ーザ端末のWebブラウザ41からWebサーバ42を
通じて知識エンジン132をアクセスすることにより、
Webブラウザ41上から知識DB131に蓄積された
知識の検索を行うことが出来る。知識DB131に蓄積
された各文書の属性情報にはその文書のURLも含まれ
ているので、そのオリジナル文書を該当する情報サイト
から取得してWebブラウザ41上に表示することが出
来る。なお、検索処理は、ある知識データベース名を選
択してその選択した知識データベースのみを対象に行っ
たり、あるいは知識DB131内の全ての知識データベ
ースを対象に行うことが出来る。
【0033】次に、図2を参照して、Web収集モジュ
ール111の機能構成について説明する。
【0034】Web収集モジュール111は、図示のよ
うに、収集制御部301、属性抽出部302、テキスト
抽出部303、およびフォーマット変換部304を有し
ている。収集制御部301は、設定ファイル203に保
持されている全ての設定情報それぞれについて、その設
定情報で指定されたWeb収集タスクを順番に一つずつ
実行する。各Web収集タスク毎に設定情報で指定され
た起点URLを起点として、インターネット/イントラ
ネット30から関連する文書ファイル群を順次収集す
る。取得した文書ファイルに含まれるリンク先文書への
URLはURLリスト305に追加されて行き、URL
リスト305からURLを取得しながらが収集処理が再
帰的に実行される。URLリスト305としては、上述
の結果ファイル204を用いることが出来る。収集範囲
は設定ファイル203に保持されている収集条件によっ
て制限される。
【0035】収集された各文書ファイルはまず属性抽出
部302に送られ、そこで各文書ファイルの属性情報が
取得される。次いで、テキスト抽出部303にて文書の
解析処理が行われ、知識DB131に登録すべきテキス
トデータと、次に取得すべきリンク先URLの抽出が行
われる。例えば、HTMLファイルに対しては、テキス
トデータの抽出は、HTMLのタグ以外の部分を抜き出
すことによって行う。抽出されたテキストはタイトルと
ボディ(本文)とに分けられる。リンク先URLの取得
は、Aタグ、AREFタグのHREFの値、FRAMEタグ、IFRAMEタ
グ、LAYERタグのSRCの値、METAタグのREFRESHの値を取
得することによって行われる。上述の第2の処理モード
で動作する場合には、テキスト抽出部303の処理はH
TMLファイルとテキストファイルに対してのみ行わ
れ、Portable Document Format等の他のファイル形式の
文書ファイルに対しては行われない。
【0036】各文書ファイルから取得された属性情報と
テキストデータはフォーマット変換部304に送られ、
そこでXMLの登録ファイルの記述形式に従う出力フォ
ーマットに整形されて登録ディレクトリ113上に出力
される。一つの登録ファイルには、例えば1000個程
度の文書ファイルについての属性情報およびテキストデ
ータが記述される。テキスト抽出が行われなかった文書
ファイルについては属性情報とパス名が登録ファイル上
に記述される。
【0037】以上の処理は、再収集によって収集された
各文書ファイルに対しても同様に行われる。
【0038】次に、図3および図4を参照して、登録フ
ァイルの出力フォーマットの例を説明する。
【0039】図3は、テキスト抽出部303にてテキス
ト抽出を行う場合の出力フォーマットの例を示してい
る。ファイルの先頭のタグ<?xml version="1.0" encod
ing="Shift_JIS"?>、<KnowledgeSystem>はファイル
の始まりを示し、また末尾のタグ</KnowledgeSystem>
はファイルの終わりを示している。
【0040】<RECORD>と</RECORD>で囲まれた各レ
コード内に、1つの文書ファイルの属性情報とテキスト
データが記述される。各レコード内のタグの意味は次の
通りである。
【0041】MODE :登録モジュール12の動作モード
を指定するモード情報である。このモード情報は、各文
書ファイル毎に知識DB131に対する文書情報(テキ
ストデータおよび属性)の登録または削除を指示する。
2=登録(上書き)か、0=削除、のいずれかとなる。削除
の場合は、下記のタグのうち、TYPEとUNIQUE以外は出力
されない。
【0042】TYPE :収集のタイプを示す。本例では常
に“Web収集”となる。
【0043】UNIQUE :知識DB131に登録される当
該文書ファイルを識別するためのユニークキーである。
通常は、当該文書のURLがユニークキーとして用いら
れる。
【0044】ORGDATE :文書ファイルの作成日時(ま
たは更新日時)を示す。
【0045】TITLE :文書ファイルのタイトルを示
す。HTMLファイルのタイトル部から抽出されたテキ
ストデータがタイトルとなる。HTMLファイル以外の
ファイルについてはタイトルは出力されない。このタイ
トルは、検索画面上に表示される各文書ファイルのタイ
トルとして使用される。
【0046】AUTHOR :文書ファイルを所有する情報サ
イトのホスト名(URLのホストアドレス)を記述す
る。
【0047】DATE :上記ORGDATEの日付部分を記述す
る。
【0048】URL :文書ファイルのURL。UNIQUEと
同じ値である。
【0049】BODY :文書ファイルから抽出されたテキ
ストデータが記述される。
【0050】図4は、テキスト抽出部303にてテキス
ト抽出を行わなかった文書ファイルに関する出力フォー
マットの例を示している。
【0051】BODYにはテキストデータは記述されず、<
BDYFILE></BDYFILE>で囲まれた領域のPATH1に、登録
ディレクトリ113上に出力される上記コンテンツファ
イルへのパス名が記述される。DEL=1は、登録モジュー
ル12に対してコンテンツファイルからのテキストデー
タの抽出後に登録ディレクトリ113上の元ファイルを
削除することを指示するものである。Web収集モジュ
ール111が第2処理モードで動作する場合には、HT
MLファイルとプレーンテキストについてはBODYにはテ
キストデータが記述され、他のファイル形式の文書ファ
イル(コンテンツファイル)についてはBDYFILEにその
コンテンツファイルのパス名が記述されることになる。
【0052】次に、図5のフローチャートを参照して、
収集した文書ファイルに対してWeb収集モジュール1
11内で実行される一連の処理の手順について説明す
る。
【0053】まず、収集した文書ファイルから知識DB
131に登録すべき属性情報(URL、AUTHOR、ORGDATE、
DATE)が取得される(ステップS101)。属性情報の
取得は、HTTPによって情報サイトから返される値
や、収集した文書ファイル内に付加されている値などを
用いる事が出来る。この後、第2処理モードにおいて
は、収集した文書ファイルの拡張子などに基づいてその
ファイル種別が判定され、HTMLファイルまたはプレ
ーンテキストファイルであるか、あるいはそれ以外の他
のファイル形式のファイルであるかが判別される(ステ
ップS102,S103)。収集した文書ファイルがH
TMLファイルまたはプレーンテキストファイルである
場合には(ステップS103のYES)、上述のテキス
ト抽出処理(HTMLファイルの場合はテキスト抽出と
リンクURLの検出)が実行され(ステップS10
4)、そして属性情報とテキストデータを上述の形式で
登録ファイル上に記述する処理(テキストデータをBODY
に挿入)が行われる(ステップS105)。一方、HT
MLファイルまたはプレーンテキストファイル以外の他
のファイル形式のファイルであれば(ステップS103
のNO)、当該ファイルが登録ディレクトリ113上に
そのまま出力され(ステップS106)、その後、属性
情報と当該ファイルのパス名を登録ファイル上に記述す
る処理(パス名をBDYFILEに記述)が行われる(ステッ
プS107)。
【0054】なお、目的のURLの文書ファイルがイン
ターネット/イントラネット30上から取得できなかっ
た場合には、当該文書ファイルの内容が既に知識DB1
31に登録されていることを条件に、モード情報(MOD
E)=0(削除)が登録ファイル上に記述される。
【0055】また、第1処理モードにおいては、ステッ
プS102,S103の処理は行われず、全ての取得フ
ァイルを対象にステップS104,S105の処理が実
行される。
【0056】次に、図6のフローチャートを参照して、
登録モジュール12によって実行される登録処理の手順
を説明する。
【0057】Web収集モジュール111から登録要求
を受けた登録モジュール12は、Web収集モジュール
111からの登録要求ファイルで指定された登録ファイ
ル(XMLファイル)を登録ディレクトリ113から取
得し、そしてその登録ファイルから1つずつレコードを
取り出しながら、レコード毎に以下の処理を行う。ま
ず、処理対象レコード内のモード情報がMODE=0である
かMODE=2であるかが調べられる(ステップS111,
S112)。
【0058】MODE=2の場合は、登録モジュール12
は、レコード内の各タグに従って、そのタグ内に記述さ
れたデータ項目(TYPE、UNIQUE、ORGDATE、TITLE、AUTH
OR、DATE、URL、BODYそれぞれの内容)を、登録要求フ
ァイルで指定された知識DB131内の登録先知識デー
タベースに登録する(ステップS113)。BODYのタグ
内にテキストデータが存在しない場合には、そのテキス
トデータの登録は行われない。次いで、BDYFILEのタグ
内にパス名が記述されているかどうかが判定される(ス
テップS114)。パス名が記述されている場合には
(ステップS114のYES)、そのパス名で指定され
る記憶領域から該当するコンテンツファイルが取得され
(ステップS115)、そのコンテンツファイルからテ
キストデータを抽出する処理が行われる(ステップS1
16)。そして、その抽出された内容が該当する文書フ
ァイルのテキストデータとして登録先知識データベース
に登録される(ステップS117)。
【0059】MODE=0の場合は、レコード内のUNIQUEで
指定される登録済みの文書ファイルの属性情報とテキス
トデータが知識DB131からサーチされ、その登録内
容が登録先知識データベースから削除される(ステップ
S118)。
【0060】図7には、インターネット/イントラネッ
ト30上における文書ファイル(Webコンテンツ)の
状態と知識DB131に対して行うべき登録/削除処理
との関係が示されている。本実施形態においては、出来
る限りインターネット/イントラネット30上における
最新のWebコンテンツの状態を知識DB131に反映
させるというポリシーに基づき、以下の処理が行われ
る。
【0061】(1)更新されたWebコンテンツは、知
識DB131に上書きする(MODE=2)。更新されたW
ebコンテンツの属性情報およびテキストデータを登録
する場合、そのUNIQUEは、知識DB131に既に登録さ
れている更新前のWebコンテンツのUNIQUEと同一であ
る。よって、MODE=2により、知識DB131に既に登
録されている更新前のWebコンテンツの属性情報およ
びテキストデータが、更新されたWebコンテンツの属
性情報およびテキストデータに更新(上書き)される。
【0062】(2)追加されたWebコンテンツは、知
識DB131に追加登録する(MODE=2)。追加された
Webコンテンツの属性情報およびテキストデータを登
録する場合、そのUNIQUEは、知識DB131に未登録で
ある。よって、MODE=2により、追加されたWebコン
テンツの属性情報およびテキストデータを知識DB13
1に追加登録することが出来る。
【0063】(3)削除されたWebコンテンツは、知
識DB131からも削除する(MODE=0)。
【0064】次に、管理インターフェース112によっ
て提供される機能を具体的に説明する。管理インターフ
ェース112は上述のようにWeb収集タスクの設定・
管理・実行を行うためのユーザインタフェースであり、
1)Web収集タスクの設定を複数個作成して設定ファ
イル204に保存する機能、2)収集の設定の一覧表
示、削除、などの管理作業を行う機能、3)収集の起動
と終了(中断と再開)を行う機能、4)収集の状況や実
績をリアルタイムに確認する機能、を管理者ユーザに提
供する。
【0065】管理インターフェース112によって管理
者ユーザのWebブラウザ21に表示される画面は、図
8に示すように、「一覧画面」、「設定画面」、「状況
画面」の3つの画面より構成され、管理インターフェー
ス112を起動すると、一覧画面が最初に表示される。
3つの画面は各画面上で管理者ユーザによって行われる
操作に応じて遷移する。一覧画面には、現在作成されて
いる設定の一覧と各設定の最新の収集結果が表示され
る。この一覧画面上で、例えば、作成済みの設定を選択
してその選択した設定に関する設定画面または状況画面
に遷移した場合には、設定画面上では当該設定内容の追
加/削除等を行うことが出来、また状況画面上では当該
設定に関する起動と終了(中断と再開)の指定などを行
うことが出来る。また、一覧画面上で、設定の新規作成
を選択すると設定画面に遷移し、その設定画面上で設定
の新規作成のための処理を行うことが出来る。以下、一
覧画面、設定画面、状況画面それぞれについて具体的に
説明する。
【0066】図9には、一覧画面の例が示されている。
この一覧画面上には、図示のように、「一覧」アンカ5
01、「設定アンカ」502、「状況」アンカ503が
表示される。これら「一覧」アンカ501、「設定アン
カ」502、「状況」アンカ503は、それぞれ一覧画
面、設定画面、状況画面それぞれに対するリンクであ
る。一覧画面上で「一覧」アンカ501がクリックされ
ると、一覧画面の表示内容が最新状態に更新される。さ
らに、一覧画面上には、「新規設定」フィールド50
4、「作成」ボタン505、および状態一覧表示部50
6が設けられている。新規作成すべきWeb収集タスク
の設定名を「新規設定」フィールド504に入力して、
「作成」ボタン505をクリックすると、設定画面に遷
移してその設定名に関する設定情報を新規作成する事が
出来る。
【0067】状態一覧表示部506には、上述の結果フ
ァイル204に保持されている内容等に基づき、既に作
成・登録済みのWeb収集タスクそれぞれについての収
集状況が一覧表示される。Web収集タスク毎に以下の
項目が表示される。
【0068】「設定名」:登録してある設定の名称 「知識データベース名」:収集したデータを登録するデ
ータベース名 「状態」:設定の現在の状態(未収集/収集中/終了/中
断/異常終了のいずれか) 「開始」:最後に起動した日時 「終了」:最後に終了した日時 「ファイル」:前回のタスク実行で収集したファイル数
(今回)と、これまでに実行した中で収集されたファイル
の総数の最大値(全体)このように、本実施形態において
は、複数のWeb収集タスクを設定することが出来、し
かもそれら複数のWeb収集タスクそれぞれの収集状況
を一覧画面上で確認することが出来る。
【0069】次に、図10を参照して、設定画面の例に
ついて説明する。設定画面上には、図示のように、上述
の「一覧」アンカ501、「設定アンカ」502、「状
況」アンカ503の他、「設定名」フィールド601、
「知識データベース名」フィールド602、「プロキシ
サーバ」設定フォーム603、「収集ファイル形式」設
定フォーム604、「取得要求」設定フォーム605、
「認証情報」設定フォーム606、および「収集サイ
ト」設定フォーム607等が設けられており、これらを
用いて以下の設定編集操作を行うことが出来る。
【0070】(1)設定名: 「設定名」フィールド6
01には一覧画面にて新規設定の作成または既存の設定
の選択により指定された設定名が表示される。
【0071】(2)DB選択: 「知識データベース
名」フィールド602に知識データベース名を入力する
ことにより、収集したデータを登録する登録先知識デー
タベースを選択する。
【0072】(3)プロキシ: 「プロキシサーバ」設
定フォーム603を用いて、収集に使用するプロキシサ
ーバの設定を行う。
【0073】(4)収集するファイル形式: 「収集フ
ァイル形式」設定フォーム604上で収集対象のファイ
ル形式を選択する。HTMLおよびTEXTファイルは
デフォルトで選択されており、この他、Portable Docum
ent Format, その他の様々なファイル形式を収集対象と
して選択することが出来る。
【0074】(5)取得要求: 「取得要求」設定フォ
ーム605上でURL取得時のタイムアウト時間、リト
ライ回数を指定する。
【0075】(6)認証情報: 「認証情報」設定フォ
ーム606上で、ユーザ認証が必要なURLをアクセス
するときに必要な認証情報を設定する。
【0076】(7)収集サイト: 「収集サイト」設定
フォーム607上では以下の項目の設定を行う。
【0077】・起点URLの設定 ・リンク段数の上限設定: 収集する起点URLからの
最大リンク段数を指定する。
【0078】・ファイル数の上限設定: 収集する最大
ファイル数を指定する。
【0079】・再収集の設定: 設定対象の収集タスク
が同じ起点URLからの再収集を行った時の振る舞いを
指定する。再収集には3つの再収集モード(「全てのフ
ァイルを新たに収集」、「未収集のファイルのみ収
集」、「更新されたファイルのみ収集(削除機能あ
り)」)があり、Web収集タスク毎に任意の一つの再
収集モードを指定する事が出来る。各再収集モードの意
味は次の通りである。
【0080】1)再収集モード1: 「全てのファイル
を新たに収集」 「全てのファイルを新たに収集」モードとは、収集対象
のURLを全て再収集するモードを意味する。即ち、以
前に収集したかどうかにかかわらず、起点URLから全
ての文書ファイルを新たに収集しなおす。
【0081】2)再収集モード2: 「未収集のファイ
ルのみ収集」 「未収集のファイルのみ収集」モードとは、以前収集し
たURLはそのリンク先も含めて収集せずに、起点UR
Lからの全ての文書ファイル群の内で以前の収集で未収
集の文書ファイルのみを収集するモードである。
【0082】3)再収集モード3: 「更新されたファ
イルのみ収集(削除機能あり)」 「更新されたファイルのみ収集(削除機能あり)」モード
は、以前の収集時点から更新された文書ファイルのみ収
集するモードである。更新の有無のチェック対象となる
文書は、以前の収集において、現在よりも指定日数以上
前に収集したURLである。「更新チェック頻度」フィ
ールドに入力された値が指定日数となる。指定日数のデ
フォルトは「1日」である。以前の収集において、現在
よりも指定日数以上前に収集したURLがインターネッ
ト/イントラネット30上の該当する情報サイトから削
除されており、当該URLから文書ファイルを取得でき
なかった場合には、その文書ファイルに対応する登録情
報は知識DB131から削除される。
【0083】・収集範囲: 「ドメイン内のみ収集す
る」を指定すると、起点URLのドメイン内のみ収集を
行う。
【0084】・収集するURLのパターン: 収集対象
とすべきURLの文字列のパターンを指定する。収集し
ようとするURLの中で、指定された文字列のパターン
を含むURLのみが収集される。
【0085】・収集しないURLのパターン: 収集対
象から除外すべきURLの文字列のパターンを指定す
る。収集しようとするURLの中で、指定された文字列
のパターンを含むURLは収集されない。
【0086】図11には、状況画面の例が示されてい
る。例えば、一覧画面または設定画面上で「状況」アン
カ503を選択することで、現在表示しているタスクの
状況画面に遷移する。この状況画面上には、当該タスク
の「設定名」、「知識データベース名」、「状態」等が
表示される。「設定名」の横には、収集開始/中止(再
開/中断)を指示するためのボタン701が表示されて
いる。「状態」には、タスクの状態(収集中/終了/未
収集/中断/異常終了)が表示され、さらに、当該タス
クの起点URL、収集したリンク段数(今回/最大/上
限)、およびファイル数(今回/全体/上限)等の状況情報
702も表示される。
【0087】当該タスクの状態が未収集、終了、または
中断の場合には、図11に示すように、ボタン701に
は「収集開始」と表示される。「収集開始」ボタン70
1を選択すると、当該タスクの実行がWeb収集モジュ
ール111によって開始される。現在の状態が終了また
は中断の場合には、再収集が開始されることになる。ま
た、当該タスクの現在の状態が収集中である場合には、
図12に示すように、ボタン701には「収集中断」と
表示される。「収集中断」ボタン701を選択すると、
稼働中の収集タスクは中断される。中断される以前まで
に収集されたURLのリストは結果ファイル204内に
保持される。
【0088】次に、図13乃至図15を参照して、状況
画面上のボタン操作による収集処理の中断および再開
(再収集)動作について具体的に説明する。
【0089】この中断・再開機能は、実行中のWeb収
集処理を一旦停止して、後日再開する様な場合に利用さ
れる機能である。Web収集モジュール111によるW
eb収集処理は、インターネット/イントラネット30
からの文書ファイルの取得を行う度にそのURLや成否
を示すステータスコード等を進捗状況(収集結果)情報
として結果ファイル204に書き込みながら実行され
る。取得した文書ファイルにリンク先のURLがあれば
そのURLが結果ファイル204に追加され、結果ファ
イル204に未収集のURLが無くなるまで、処理が繰
り返される。この収集処理の途中で「収集中断」ボタン
701が押されると、実行中のWeb収集タスクはその
時点で中断される。そして、後に、その中断されたWe
b収集タスクを選択した状態で「収集開始」ボタン70
1が押されると、中断されていたWeb収集タスクが再
開されて再収集が開始される。例えば、再収集モードと
して上述の「未収集のファイルのみ収集」モードが選択
されていた場合には、結果ファイル204に保持されて
いる未収集のURLから収集処理が再開されることにな
る。
【0090】図14には、結果ファイル204に進捗状
況情報として保持されるURLリストの例が示されてい
る。結果ファイル204には、図示のように、取得対象
のURL毎にその「URL」に加え、「収集日」、「収
集日時」、「ステータスコード」、「起点URL」、お
よび「リンク段数」が記録される。「リンク段数」は、
起点URLから見た場合の当該取得対象URLのリンク
の段数を示す。未収集のURLについては「収集日」、
「収集日時」、「ステータスコード」の情報は空欄とな
る。これにより、Web収集処理を途中で中断した場合
における再開ポイントを検出することができる。「ステ
ータスコード」は収集処理の成否を示すものであり、こ
れは、Webページの取得先となる相手先Webサーバ
から返されるHTTPステータスコードである。このH
TTPステータスコードの種類は次の通りである。
【0091】200: 正常終了、すなわちファイル取得
が成功したことを示す。
【0092】304: 未更新(条件付き取得要求へのレ
スポンス)である。「更新されたファイルのみ収集」モ
ードでは、このステータスコードが返されたURLは取
得しない。
【0093】403: アクセス権限によるエラーを示
す。
【0094】404: 当該ファイルが見つからないこと
によるエラーを示す。削除された文書ファイルの取得要
求に対するレスポンスである。
【0095】408: タイムアウトエラー 図15のフローチャートには、Web収集が開始されて
から中断されるまでの一連の処理手順が示されている。
【0096】Web収集モジュール111は、最初に起
点URLで指定される文書ファイルの取得を行い(ステ
ップS121)、その結果(収集日、収集日時、ステー
タスコード、起点URL、リンク段数、URL(起点U
RLと同じ)を結果ファイル204に登録して進捗状況
情報の更新を行う(ステップS122)。取得が成功し
た場合には、収集した文書ファイルから知識DB131
に登録すべき属性情報が取得され(ステップS12
2)、次いでテキスト抽出処理(HTMLファイルの場
合はテキスト抽出とリンク先URLの検出)が実行され
る(ステップS124)。リンク先URLが検出された
場合には、そのURLと、上述の起点URLおよびリン
ク段数が結果ファイル204のURLリストに追加登録
される(ステップS125)。この後、属性情報とテキ
ストデータを登録ファイル上に記述する処理が行われる
(ステップS126)。ここで、中断指示の有無が判定
される(ステップS127)。中断指示が無い場合には
(ステップS127のNO)、結果ファイル204に未
収集のURLが登録されているかどうかによってWeb
収集処理が完了したかどうかが判断される(ステップS
128)。
【0097】結果ファイル204に未収集のURLが登
録されている場合には(ステップS128のNO)、上
述のステップS121からの処理が繰り返される。すな
わち、結果ファイル204に追加されたURLで指定さ
れる文書ファイルの取得を行い(ステップS121)、
その結果(収集日、収集日時、ステータスコード)を結
果ファイル204に登録して進捗状況情報の更新を行う
(ステップS122)。取得が成功した場合には、収集
した文書ファイルから知識DB131に登録すべき属性
情報が取得され(ステップS122)、次いでテキスト
抽出処理(HTMLファイルの場合はテキスト抽出とリ
ンク先URLの検出)が実行される(ステップS12
4)。リンク先URLが検出された場合には、そのUR
Lと、起点URLおよびリンク段数が結果ファイル20
4のURLリストに追加登録される(ステップS12
5)。この後、属性情報とテキストデータを登録ファイ
ル上に記述する処理が行われる(ステップS126)。
【0098】ここで、中断指示の有無が判定される(ス
テップS127)。もし「収集中断」ボタン701が押
されたならば、制御ファイル202を通じて管理インタ
ーフェース112からWeb収集モジュール111に中
断指示が発行される。この場合(ステップS127のY
ES)、Web収集モジュール111によって実行中の
Web収集タスクが中断される。
【0099】次に、図16乃至図19を参照して、再収
集処理の動作について説明する。再収集処理とは上述し
たように以前行った収集タスクを再度実行する場合の収
集処理を意味する。一旦中断したWeb収集処理タスク
を再開させた場合のWeb収集処理は再収集処理であ
り、また終了されたWeb収集処理タスクを次に実行さ
せる場合におけるWeb収集処理も再収集処理である。
これら再収集処理は、例えば、中断または終了されたW
eb収集タスクが選択された状態で上述の「収集開始」
ボタン701が押された場合に実行される。またWeb
収集モジュール111をオペレーティングシステムのタ
スク管理機能に登録することなどによってWeb収集モ
ジュール111を定期的に自動起動することもできるの
で、この場合には、中断または終了されたWeb収集タ
スクが自動実行されて再収集処理が開始されることにな
る。
【0100】図16のフローチャートに示すように、再
収集処理が開始されると、まず、そのWeb収集タスク
に関する再収集モードが設定ファイル203の設定情報
に基づいて判別される(ステップS131)。もし「全
てのファイルを新たに収集」モードであれば、当該We
b収集タスクに関する以前の結果ファイル204の内容
は破棄され、起点URLからの収集処理が新たに開始さ
れる(ステップS132)。この場合、これまで説明し
た通常のWeb収集処理と同じ処理が実行されることに
なる。またもし「未収集のファイルのみ収集」モードで
あった場合には、既に収集済みの文書ファイルの収集は
行われず、未収集の文書ファイルのみの収集が行われ
る。この場合、結果ファイル204に保持されている当
該Web収集タスクに関する以前の収集結果の内容から
再開ポイントが検出されて、以前の収集処理で未収集の
URLからの収集処理が開始される(ステップS13
3)。再収集処理の収集結果は、結果ファイル204上
に保持されている当該Web収集タスクに関する以前の
収集結果に追加されていく。またもし「更新されたファ
イルのみ収集(削除機能あり)」モードであった場合に
は、以前の収集時点から更新された文書ファイルのみ収
集が行われる(ステップS134)。再収集処理の収集
結果は、結果ファイル204上に保持されている当該W
eb収集タスクに関する以前の収集結果に追加されてい
く。
【0101】図17のフローチャートには、「未収集の
ファイルのみ収集」モードにおける再収集処理の手順が
示されている。まず、結果ファイル204に保持されて
いる当該Web収集タスクに関する以前の収集結果の内
容から未収集のURL(収集日、収集日時が登録されて
いないURLの先頭)が検出され、それが再開ポイント
として決定される(ステップS201)。そして、その
再開ポイントのURLで指定される文書ファイルの取得
を行い(ステップS202)、その結果(収集日、収集
日時、ステータスコード)を結果ファイル204に登録
して進捗状況情報の更新を行う(ステップS203)。
取得が成功した場合には、収集した文書ファイルから知
識DB131に登録すべき属性情報が取得され(ステッ
プS204)、次いでテキスト抽出処理(HTMLファ
イルの場合はテキスト抽出とリンク先URLの検出)が
実行される(ステップS205)。リンク先URLが検
出された場合には、そのURLと、起点URLおよびリ
ンク段数が結果ファイル204のURLリストに追加登
録される(ステップS206)。この後、属性情報とテ
キストデータを登録ファイル上に記述する処理が行われ
る(ステップS207)。そして、中断指示が発行され
るか、あるいは収集処理が完了するまで、結果ファイル
204から追加されたURLを取得しながらステップS
202からの処理が繰り返し実行される(ステップS2
08,S209)。
【0102】次に、「更新されたファイルのみ収集(削
除機能あり)」モードにおける最収集処理の手順につい
て説明する。
【0103】このモードにおいては、図18に示すよう
に、再収集を開始する現在の日時をD1、現在よりも指
定日数だけ前の時点をD2とすると、D2までに取得さ
れた当該Web収集タスクに関するURLの中で、現時
点までに更新されているURLのみが収集される。
【0104】図19のフローチャートに示されているよ
うに、まず、結果ファイル204に保持されている当該
Web収集タスクに関する以前の収集結果の内容から以
前に収集したURLが一つずつ取得され(ステップS3
01)、その各URLについて以下の処理が行われる。
最初に、当該URLに対応する文書ファイルがD2まで
に収集された文書ファイルであるかどうかが判断される
(ステップS302)。D2までに収集された文書ファ
イルである場合には、そのURLで指定される文書ファ
イルが以前の収集日時から更新されているかどうかが調
べられる(ステップS303)。もし更新されていれ
ば、そのURLの文書ファイルの取得が行われる(ステ
ップS304)。ステップS303,304の処理は、
例えば、以前の収集日時を含む条件付きの取得要求を当
該URLで指定されるWebサーバに発行して、更新さ
れている場合のみ当該文書ファイルをWebサーバに返
送させる、という仕組みを用いて実現することが出来
る。
【0105】当該URLの文書ファイルが更新されてお
り、且つその取得が成功した場合には(ステップS30
5のYES)、その結果(収集日、収集日時、ステータ
スコード、起点URL、URL)を結果ファイル204
に登録して進捗状況情報の更新を行う(ステップS30
6)。そして、収集した文書ファイルから知識DB13
1に登録すべき属性情報が取得され(ステップS30
7)、次いでテキスト抽出処理(HTMLファイルの場
合はテキスト抽出とリンク先URLの検出)が実行され
る(ステップS308)。リンク先URLが検出された
場合には、そのURLと、起点URLおよびリンク段数
が結果ファイル204のURLリストに追加登録される
(ステップS309)。この後、属性情報とテキストデ
ータを登録ファイル上に記述する処理が行われる(ステ
ップS310)。そして、中断指示が発行されるか、あ
るいは収集処理が完了するまで、以前に収集されたUR
Lを対象にステップS301の処理が繰り返し実行され
る(ステップS311,S312)。
【0106】もし、取得要求に対してWebサーバから
ステータスコード404が返された場合、つまり当該UR
Lの文書ファイルがWebサーバから削除されていた場
合には(ステップS305のNO)、結果ファイル20
4に保持されている当該URLの以前の収集結果のステ
ータスコードが200であるかどうかによって、以前正常
に収集された文書ファイルであるかどうかが判断される
(ステップS313)。以前正常に収集された文書ファ
イルである場合には、その文書情報を知識データベース
131から削除するための削除処理が実行される(ステ
ップS314,S310)。ここでは、まずその結果
(収集日、収集日時、ステータスコード200、起点UR
L、URL)を結果ファイル204に登録した後、MODE
=0が選択され、MODE=0と当該URLのUNIQUE等が登
録ファイル上に記述される。これにより、再収集終了後
に、登録モジュール12によって知識データベース13
1から該当する文書情報が削除される。
【0107】以上のように、本実施形態によれば、一度
行った起点アドレス情報からの文書ファイル群の再収集
処理を行うための再収集モードとして、起点アドレス情
報を起点にして文書ファイル群を新たに収集する「全て
のファイルを新たに収集」モードと、以前の収集で未収
集の文書ファイルのみを収集する「未収集のファイルの
み収集」モードと、以前の収集時点から更新された文書
ファイルのみを収集する「更新されたファイルのみ収集
(削除機能あり)」とが用意されており、どの再収集モー
ドを使用するかについては設定情報によってWeb収集
タスク毎に予め指定することが出来る。よって、収集先
のWebサイトや収集目的などに応じて最適な再収集処
理を行うことが可能となり、再収集処理を効率よく行う
ことが可能となる。
【0108】なお、本実施形態の知識情報収集システム
の機能は全てコンピュータプログラムにより実現されて
いるので、そのコンピュータプログラムをコンピュータ
読み取り可能な記憶媒体に記憶しておき、その記憶媒体
を通じて本コンピュータプログラムを、コンピュータネ
ットワーク接続可能な通常のコンピュータに導入して実
行させるだけで、本実施形態と同様の効果を容易に得る
ことができる。
【0109】また本発明は、上記実施形態に限定される
ものではなく、実施段階ではその要旨を逸脱しない範囲
で種々に変形することが可能である。更に、上記実施形
態には種々の段階の発明が含まれており、開示される複
数の構成要件における適宜な組み合わせにより種々の発
明が抽出され得る。例えば、実施形態に示される全構成
要件から幾つかの構成要件が削除されても、発明が解決
しようとする課題の欄で述べた課題が解決でき、発明の
効果の欄で述べられている効果が得られる場合には、こ
の構成要件が削除された構成が発明として抽出され得
る。
【0110】
【発明の効果】以上説明したように、本発明によれば、
再収集処理を改善することにより、Web情報を構成す
る文書ファイルをインターネットなどのネットワーク上
から効率よく収集することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る知識情報収集システ
ムの構成を示すブロック図。
【図2】同実施形態の知識情報収集システムに設けられ
たWeb収集モジュールの機能構成を示すブロック図。
【図3】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の例を示す図。
【図4】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の他の例を示す図。
【図5】同実施形態の知識情報収集システムに設けられ
たWeb収集モジュールの処理手順を示すフローチャー
ト。
【図6】同実施形態の知識情報収集システムに設けられ
た登録モジュールの処理手順を示すフローチャート。
【図7】同実施形態の知識情報収集システムおけるWe
bコンテンツとその登録処理との関係を示す図。
【図8】同実施形態の知識情報収集システムにより提供
される3つの画面とその遷移を説明するための図。
【図9】同実施形態の知識情報収集システムで用いられ
る一覧画面の例を示す図。
【図10】同実施形態の知識情報収集システムで用いら
れる設定画面の例を示す図。
【図11】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。
【図12】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。
【図13】同実施形態の知識情報収集システムにおける
Web収集処理の中断/再開動作を説明するための図。
【図14】同実施形態の知識情報収集システムに設けら
れた結果ファイルの内容の例を示す図。
【図15】同実施形態の知識情報収集システムにおける
Web収集処理の開始から中断までの処理手順を示すフ
ローチャート。
【図16】同実施形態の知識情報収集システムにおける
再収集処理の手順を示すフローチャート。
【図17】同実施形態の知識情報収集システムにおける
「未収集ファイルのみ収集」モードの再収集処理の手順
を示すフローチャート。
【図18】同実施形態の知識情報収集システムにおける
「更新ファイルのみ収集」モードの再収集処理を説明す
るための図。
【図19】同実施形態の知識情報収集システムにおける
「更新ファイルのみ収集」モードの再収集処理の手順を
示すフローチャート。
【符号の説明】
11…Web収集システム 12…登録モジュール 13…知識エンジン 30…インターネット/イントラネット 111…Web収集モジュール 112…管理インターフェース 113…登録ディレクトリ 131…知識データベース 132…検索エンジン 201…ロックファイル 202…制御ファイル 203…設定ファイル 204…結果ファイル 205…ログファイル 301…収集制御部 302…属性抽出部 303…テキスト抽出部 304…フォーマット変換部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 12/00 546 G06F 12/00 546P 13/00 510 13/00 510C (72)発明者 塩田 弘二 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 Fターム(参考) 5B075 ND03 NK44 5B082 HA05 HA08

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 知識データベースに登録すべき文書情報
    をネットワーク上から収集する知識情報収集システムに
    おいて、 予め設定された設定情報で指定される起点アドレス情報
    に基づいて、当該起点アドレス情報で指定される文書フ
    ァイルを起点にそれに関連する文書ファイル群を前記ネ
    ットワーク上から収集する文書収集手段と、 前記収集された各文書ファイルの文書情報を前記知識デ
    ータベースに登録する登録手段と、 前記文書収集手段に前記起点アドレス情報からの文書フ
    ァイル群の再収集処理を実行させる手段とを具備し、 前記文書収集手段は、 前記起点アドレス情報からの文書ファイル群の再収集処
    理を行うための再収集モードとして、前記起点アドレス
    情報を起点にして前記文書ファイル群を新たに収集する
    第1再収集モードと、以前の収集で未収集の文書ファイ
    ルのみを収集する第2再収集モードと、以前の収集時点
    から更新された文書ファイルのみを収集する第3再収集
    モードとを有し、前記起点アドレス情報からの文書ファ
    イル群の再収集処理を行う場合、前記第1乃至第3の再
    収集モードの中から前記設定情報で指定された再収集モ
    ードを選択し、その選択した再収集モードを用いて前記
    文書ファイル群の再収集処理を実行する手段を含むこと
    を特徴とする知識情報収集システム。
  2. 【請求項2】 前記文書収集手段による以前の文書収集
    結果を保持する手段をさらに具備し、 前記文書収集手段は、 前記第2再収集モードによる再収集処理を実行する場
    合、前記保持されている以前の文書収集結果に基づい
    て、前記起点アドレス情報で指定される文書ファイルに
    関連する文書ファイル群の内で、以前の収集で未収集の
    文書ファイルを検出する手段と、 前記検出された文書ファイルから前記文書ファイル群の
    再収集処理を開始して、以前の収集で収集済みの文書フ
    ァイルを除く他の文書ファイルを収集する手段とを含む
    ことを特徴とする請求項1記載の知識情報収集システ
    ム。
  3. 【請求項3】 前記文書収集手段による以前の文書収集
    結果を保持する手段をさらに具備し、 前記文書収集手段は、 前記第3再収集モードによる再収集処理を実行する場
    合、前記保持されている以前の文書収集結果で示される
    収集済みの各文書ファイルおよびその収集日時に基づい
    て、収集済みの各文書ファイル毎にその収集日時を含む
    ファイル取得要求を前記ネットワーク上に発行すること
    により、以前の収集時点から更新された文書ファイルを
    前記ネットワークから収集することを特徴とする請求項
    1記載の知識情報収集システム。
  4. 【請求項4】 前記文書収集手段による以前の文書収集
    結果を保持する手段と、 前記文書収集手段によって前記第3再収集モードによる
    再収集処理が実行される場合、前記保持されている以前
    の文書収集結果と、前記文書収集手段による再収集処理
    における各文書ファイルの収集の成否を示すステータス
    情報とに基づいて、以前に収集された文書ファイルの中
    で前記ネットワーク上から削除された文書ファイルを検
    出する手段と、 前記ネットワーク上から削除された文書ファイルに関す
    る文書情報を前記知識データベースから削除する手段と
    をさらに具備することを特徴とする請求項1記載の知識
    情報収集システム。
  5. 【請求項5】 前記文書収集手段に実行させるべき文書
    ファイルの収集処理毎に前記起点アドレス情報と前記再
    収集モードを指定する情報とを含む設定情報を作成する
    ための設定画面をユーザの端末に表示する手段と、 前記設定画面上で各収集処理毎に作成された複数の設定
    情報を保持する手段とをさらに具備し、 前記文書収集手段に実行させるべき収集処理毎に、それ
    に対応した再収集処理で使用すべき再収集モードが指定
    できるように構成されていることを特徴とする請求項1
    記載の知識情報収集システム。
  6. 【請求項6】 知識データベースに登録すべき文書情報
    をネットワーク上から収集する知識情報収集システムに
    おいて、 予め設定された設定情報で指定される起点アドレス情報
    に基づいて、当該起点アドレス情報で指定される文書フ
    ァイルを起点にそれに関連する文書ファイル群を前記ネ
    ットワーク上から収集する文書収集手段であって、前記
    ネットワーク上から収集した各文書ファイルに対してテ
    キストデータの抽出とリンク情報の検出のための解析処
    理を行い、前記リンク情報が検出された場合にその検出
    されたリンク情報で指定されるリンク先の文書ファイル
    を前記ネットワークから収集する文書収集手段と、 複数種の文書ファイルそれぞれの文書情報を前記知識デ
    ータベースに登録するための共通インターフェースとし
    て予め決められた記述形式を持つ登録ファイル上に、前
    記収集された各文書ファイルから抽出されたテキストデ
    ータを記述して出力する出力手段と、 前記登録ファイルからそこに記述された各文書ファイル
    のテキストデータを取り出し、そのテキストデータを前
    記知識データベースに登録する登録手段と、 前記文書収集手段に前記起点アドレス情報からの文書フ
    ァイル群の再収集処理を実行させる手段とを具備し、 前記文書収集手段は、 前記起点アドレス情報からの文書ファイル群の再収集処
    理を行うための再収集モードとして、前記起点アドレス
    情報を起点にして前記文書ファイル群を新たに収集する
    第1再収集モードと、以前の収集で未収集の文書ファイ
    ルのみを収集する第2再収集モードと、以前の収集時点
    から更新された文書ファイルのみを収集する第3再収集
    モードとを有し、前記起点アドレス情報からの文書ファ
    イル群の再収集処理を行う場合、前記第1乃至第3の再
    収集モードの中から前記設定情報で指定された再収集モ
    ードを選択し、その選択した再収集モードを用いて前記
    文書ファイル群の再収集処理を実行する手段を含むこと
    を特徴とする知識情報収集システム。
  7. 【請求項7】 知識データベースに登録すべき文書情報
    をネットワーク上から収集する知識情報収集システムに
    おいて、 予め設定された設定情報で指定される起点アドレス情報
    に基づいて、当該起点アドレス情報で指定される文書フ
    ァイルを起点にそれに関連する文書ファイル群を前記ネ
    ットワーク上から収集する文書収集手段と、 前記収集された各文書ファイルの文書情報を前記知識デ
    ータベースに登録する登録手段と、 前記文書収集手段による以前の文書収集結果を保持する
    手段と、 前記文書収集手段に前記起点アドレス情報からの文書フ
    ァイル群の再収集処理を実行させる手段とを具備し、 前記文書収集手段は、 前記起点アドレス情報からの文書ファイル群の再収集処
    理を実行する場合、前記設定情報で指定された指定日数
    と、前記保持されている以前の文書収集結果で示される
    収集済みの各文書ファイルおよびその収集日時とに基づ
    いて、現時点から前記指定日数以前に収集された文書フ
    ァイルの中で以前の収集時点から更新された文書ファイ
    ルを検出する手段と、 前記検出された各文書ファイル毎にその収集日時を含む
    ファイル取得要求を前記ネットワーク上に発行すること
    により、以前の収集時点から更新された文書ファイルを
    前記ネットワークから収集する手段とを含むことを特徴
    とする知識情報収集システム。
  8. 【請求項8】 前記文書収集手段に実行させるべき文書
    ファイルの収集処理毎に、前記起点アドレス情報と前記
    再収集を何日おきに実行すべきかを示す指定日数情報と
    を含む設定情報を作成するための設定画面をユーザの端
    末に表示する手段と、 前記設定画面上で各収集処理毎に作成された複数の設定
    情報を保持する手段とをさらに具備し、 前記文書収集手段に実行させるべき収集処理毎に、それ
    に対応した再収集処理における前記指定日数を指定でき
    るように構成されていることを特徴とする請求項7記載
    の知識情報収集システム。
  9. 【請求項9】 知識データベースに登録すべき文書情報
    をネットワーク上から収集する知識情報収集方法におい
    て、 予め設定された設定情報で指定される起点アドレス情報
    に基づいて、当該起点アドレス情報で指定される文書フ
    ァイルを起点にそれに関連する文書ファイル群を前記ネ
    ットワーク上から収集する文書収集ステップと、 前記収集された各文書ファイルの文書情報を前記知識デ
    ータベースに登録する登録ステップと、 前記文書収集ステップに前記起点アドレス情報からの文
    書ファイル群の再収集処理を実行させるステップとを具
    備し、 前記文書収集ステップは、 前記起点アドレス情報からの文書ファイル群の再収集処
    理を行うための再収集モードとして、前記起点アドレス
    情報を起点にして前記文書ファイル群を新たに収集する
    第1再収集モードと、以前の収集で未収集の文書ファイ
    ルのみを収集する第2再収集モードと、以前の収集時点
    から更新された文書ファイルのみを収集する第3再収集
    モードとを有し、前記起点アドレス情報からの文書ファ
    イル群の再収集処理を行う場合、前記第1乃至第3の再
    収集モードの中から前記設定情報で指定された再収集モ
    ードを選択し、その選択した再収集モードを用いて前記
    文書ファイル群の再収集処理を実行するステップを含む
    ことを特徴とする知識情報収集方法。
  10. 【請求項10】 知識データベースに登録すべき文書情
    報をネットワーク上から収集する知識情報収集方法にお
    いて、 予め設定された設定情報で指定される起点アドレス情報
    に基づいて、当該起点アドレス情報で指定される文書フ
    ァイルを起点にそれに関連する文書ファイル群を前記ネ
    ットワーク上から収集する文書収集ステップと、 前記収集された各文書ファイルの文書情報を前記知識デ
    ータベースに登録する登録ステップと、 前記文書収集ステップによる以前の文書収集結果を保持
    するステップと、 前記文書収集ステップに前記起点アドレス情報からの文
    書ファイル群の再収集処理を実行させるステップとを具
    備し、 前記文書収集ステップは、 前記起点アドレス情報からの文書ファイル群の再収集処
    理を実行する場合、前記設定情報で指定された指定日数
    と、前記保持されている以前の文書収集結果で示される
    収集済みの各文書ファイルおよびその収集日時とに基づ
    いて、現時点から前記指定日数以前に収集された文書フ
    ァイルの中で以前の収集時点から更新された文書ファイ
    ルを検出するステップと、 前記検出された各文書ファイル毎にその収集日時を含む
    ファイル取得要求を前記ネットワーク上に発行すること
    により、以前の収集時点から更新された文書ファイルを
    前記ネットワークから収集するステップとを含むことを
    特徴とする知識情報収集方法。
JP2002108479A 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法 Expired - Fee Related JP3708893B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002108479A JP3708893B2 (ja) 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002108479A JP3708893B2 (ja) 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005142705A Division JP4253315B2 (ja) 2005-05-16 2005-05-16 知識情報収集システムおよび知識情報収集方法

Publications (2)

Publication Number Publication Date
JP2003303204A true JP2003303204A (ja) 2003-10-24
JP3708893B2 JP3708893B2 (ja) 2005-10-19

Family

ID=29392249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002108479A Expired - Fee Related JP3708893B2 (ja) 2002-04-10 2002-04-10 知識情報収集システムおよび知識情報収集方法

Country Status (1)

Country Link
JP (1) JP3708893B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033565A1 (ja) * 2009-09-17 2011-03-24 株式会社 東芝 メタデータ収集装置
US9418166B2 (en) 2004-11-30 2016-08-16 International Business Machines Corporation Creation of structural diagram of web site based on both physical links and semantic links of web pages of web site
WO2023281707A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 データ収集装置、データ収集方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207759A (ja) * 1997-01-24 1998-08-07 Sharp Corp ハイパーテキスト自動取得装置
JP2000122912A (ja) * 1998-10-12 2000-04-28 Fuji Xerox Co Ltd 資源収集方法及び資源収集装置
JP2001034629A (ja) * 1999-07-22 2001-02-09 Just Syst Corp データ検索プログラムを記憶した記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207759A (ja) * 1997-01-24 1998-08-07 Sharp Corp ハイパーテキスト自動取得装置
JP2000122912A (ja) * 1998-10-12 2000-04-28 Fuji Xerox Co Ltd 資源収集方法及び資源収集装置
JP2001034629A (ja) * 1999-07-22 2001-02-09 Just Syst Corp データ検索プログラムを記憶した記憶媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418166B2 (en) 2004-11-30 2016-08-16 International Business Machines Corporation Creation of structural diagram of web site based on both physical links and semantic links of web pages of web site
US10169462B2 (en) 2004-11-30 2019-01-01 International Business Machines Corporation Creation of structural diagram of web site based on both physical links and semantic links of web pages of web site
WO2011033565A1 (ja) * 2009-09-17 2011-03-24 株式会社 東芝 メタデータ収集装置
JP5433700B2 (ja) * 2009-09-17 2014-03-05 株式会社東芝 メタデータ収集装置
WO2023281707A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 データ収集装置、データ収集方法、及びプログラム

Also Published As

Publication number Publication date
JP3708893B2 (ja) 2005-10-19

Similar Documents

Publication Publication Date Title
RU2464639C2 (ru) Управление ссылками на web-страницы, использующие структурированные данные
US8595259B2 (en) Web data usage platform
US6832220B1 (en) Method and apparatus for file searching, accessing file identifiers from reference page
US20050216825A1 (en) Local storage of script-containing content
JP2009129017A (ja) 文書移行支援システム、監視装置、文書移行支援装置、方法、およびプログラム
JP2004164623A (ja) 表示データ生成装置、表示データ生成システム、表示データ生成方法、表示データ生成プログラム及び記録媒体
US7069292B2 (en) Automatic display method and apparatus for update information, and medium storing program for the method
JP4253315B2 (ja) 知識情報収集システムおよび知識情報収集方法
JPH09185633A (ja) ハイパーメディアシステムにおける情報公開支援方法
US7895529B1 (en) System and method for processing featured content
JP3708893B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725087B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2001184355A (ja) 情報収集システム、コンテンツサーバ、情報収集装置及び記録媒体
JP3708894B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725088B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2003303198A (ja) 知識情報収集方法および知識情報収集システム
JP3725836B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2001014210A (ja) 情報収集システム
JP3725837B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP4399689B2 (ja) 情報提供処理方法、情報提供処理プログラム格納媒体、および情報提供処理装置
JPH10171703A (ja) サイトマップ表示装置および文書閲覧支援装置
JP2002251348A (ja) コンテンツデータの閲覧システム及びプログラム
JP2002082936A (ja) コンテンツデータ表示装置とコンテンツデータ表示システム
JP3725835B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP2003303200A (ja) 知識情報収集システムおよび知識情報収集方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050315

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050804

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090812

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100812

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110812

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees