JP2005327297A - 知識情報収集システムおよび知識情報収集方法 - Google Patents
知識情報収集システムおよび知識情報収集方法 Download PDFInfo
- Publication number
- JP2005327297A JP2005327297A JP2005142705A JP2005142705A JP2005327297A JP 2005327297 A JP2005327297 A JP 2005327297A JP 2005142705 A JP2005142705 A JP 2005142705A JP 2005142705 A JP2005142705 A JP 2005142705A JP 2005327297 A JP2005327297 A JP 2005327297A
- Authority
- JP
- Japan
- Prior art keywords
- collection
- document
- information
- file
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】Web収集モジュール111は、一度行った起点アドレス情報からの文書ファイル群の再収集処理を行うための再収集モードとして、以前の収集時点から更新された文書ファイルのみを収集する収集モードが用意されている。この収集モードにおいては、現時点から指定日数以前に収集された文書ファイルの中で以前の収集時点から更新された文書ファイルのみが再収集される。これにより、予め設定情報によって指定日数を指定しておくだけで、インターネット上のWebサイトや収集目的の文書ファイルの種類等に対応した最適な間隔で、知識データベースの登録内容を最新の内容に更新することが出来る。
【選択図】図1
Description
図1には、本発明の一実施形態に係る知識情報収集システムを用いたナレッジマネジメントシステム全体の構成が示されている。このナレッジマネジメントシステムは知識情報の収集・分析・検索等のサービスを提供するためのものであり、Web収集システム11、登録モジュール12、および知識エンジン13などから構成されている。これらWeb収集システム11、登録モジュール12および知識エンジン13は、サーバコンピュータ上で実行されるプログラムとして実現されている。Web収集システム11および登録モジュール12は、ナレッジマネジメントシステムで用いられる知識情報を収集するための知識情報収集システムを構成する。この知識情報収集システムは、Webページなどの文書をインターネット/イントラネット30上から収集してその文書の内容をナレッジマネジメントシステムの知識データベース(知識DB)131に登録するという処理を実行する。Web収集システム11は、Web収集モジュール111、管理インターフェース112、および登録ディレクトリ113から構成されている。
Web収集モジュール111は、図示のように、収集制御部301、属性抽出部302、テキスト抽出部303、およびフォーマット変換部304を有している。収集制御部301は、設定ファイル203に保持されている全ての設定情報それぞれについて、その設定情報で指定されたWeb収集タスクを順番に一つずつ実行する。各Web収集タスク毎に設定情報で指定された起点URLを起点として、インターネット/イントラネット30から関連する文書ファイル群を順次収集する。取得した文書ファイルに含まれるリンク先文書へのURLはURLリスト305に追加されて行き、URLリスト305からURLを取得しながら収集処理が再帰的に実行される。URLリスト305としては、上述の結果ファイル204を用いることが出来る。収集範囲は設定ファイル203に保持されている収集条件によって制限される。
UNIQUE :知識DB131に登録される当該文書ファイルを識別するためのユニークキーである。通常は、当該文書のURLがユニークキーとして用いられる。
TITLE :文書ファイルのタイトルを示す。HTMLファイルのタイトル部から抽出されたテキストデータがタイトルとなる。HTMLファイル以外のファイルについてはタイトルは出力されない。このタイトルは、検索画面上に表示される各文書ファイルのタイトルとして使用される。
DATE :上記ORGDATEの日付部分を記述する。
URL :文書ファイルのURL。UNIQUEと同じ値である。
BODY :文書ファイルから抽出されたテキストデータが記述される。
「知識データベース名」:収集したデータを登録するデータベース名
「状態」:設定の現在の状態(未収集/収集中/終了/中断/異常終了のいずれか)
「開始」:最後に起動した日時
「終了」:最後に終了した日時
「ファイル」:前回のタスク実行で収集したファイル数(今回)と、これまでに実行した中で収集されたファイルの総数の最大値(全体)
このように、本実施形態においては、複数のWeb収集タスクを設定することが出来、しかもそれら複数のWeb収集タスクそれぞれの収集状況を一覧画面上で確認することが出来る。
(2)DB選択: 「知識データベース名」フィールド602に知識データベース名を入力することにより、収集したデータを登録する登録先知識データベースを選択する。
(4)収集するファイル形式: 「収集ファイル形式」設定フォーム604上で収集対象のファイル形式を選択する。HTMLおよびTEXTファイルはデフォルトで選択されており、この他、Portable Document Format, その他の様々なファイル形式を収集対象として選択することが出来る。
(6)認証情報: 「認証情報」設定フォーム606上で、ユーザ認証が必要なURLをアクセスするときに必要な認証情報を設定する。
・リンク段数の上限設定: 収集する起点URLからの最大リンク段数を指定する。
・ファイル数の上限設定: 収集する最大ファイル数を指定する。
・再収集の設定: 設定対象の収集タスクが同じ起点URLからの再収集を行った時の振る舞いを指定する。再収集には3つの再収集モード(「全てのファイルを新たに収集」、「未収集のファイルのみ収集」、「更新されたファイルのみ収集(削除機能あり)」)があり、Web収集タスク毎に任意の一つの再収集モードを指定する事が出来る。各再収集モードの意味は次の通りである。
「全てのファイルを新たに収集」モードとは、収集対象のURLを全て再収集するモードを意味する。即ち、以前に収集したかどうかにかかわらず、起点URLから全ての文書ファイルを新たに収集しなおす。
「未収集のファイルのみ収集」モードとは、以前収集したURLはそのリンク先も含めて収集せずに、起点URLからの全ての文書ファイル群の内で以前の収集で未収集の文書ファイルのみを収集するモードである。
「更新されたファイルのみ収集(削除機能あり)」モードは、以前の収集時点から更新された文書ファイルのみ収集するモードである。更新の有無のチェック対象となる文書は、以前の収集において、現在よりも指定日数以上前に収集したURLである。「更新チェック頻度」フィールドに入力された値が指定日数となる。指定日数のデフォルトは「1日」である。以前の収集において、現在よりも指定日数以上前に収集したURLがインターネット/イントラネット30上の該当する情報サイトから削除されており、当該URLから文書ファイルを取得できなかった場合には、その文書ファイルに対応する登録情報は知識DB131から削除される。
304: 未更新(条件付き取得要求へのレスポンス)である。「更新されたファイルのみ収集」モードでは、このステータスコードが返されたURLは取得しない。
403: アクセス権限によるエラーを示す。
404: 当該ファイルが見つからないことによるエラーを示す。削除された文書ファイルの取得要求に対するレスポンスである。
408: タイムアウトエラー
図15のフローチャートには、Web収集が開始されてから中断されるまでの一連の処理手順が示されている。
Claims (3)
- 知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集システムにおいて、
予め設定された設定情報で指定される起点アドレス情報に基づいて、当該起点アドレス情報で指定される文書ファイルを起点にそれに関連する文書ファイル群を前記ネットワーク上から収集する文書収集手段と、
前記収集された各文書ファイルの文書情報を前記知識データベースに登録する登録手段と、
前記文書収集手段による以前の文書収集結果を保持する手段と、
前記文書収集手段に前記起点アドレス情報からの文書ファイル群の再収集処理を実行させる手段とを具備し、
前記文書収集手段は、
前記起点アドレス情報からの文書ファイル群の再収集処理を実行する場合、前記設定情報で指定された指定日数と、前記保持されている以前の文書収集結果で示される収集済みの各文書ファイルおよびその収集日時とに基づいて、現時点から前記指定日数以前に収集された文書ファイルの中で以前の収集時点から更新された文書ファイルを検出する手段と、
前記検出された各文書ファイル毎にその収集日時を含むファイル取得要求を前記ネットワーク上に発行することにより、以前の収集時点から更新された文書ファイルを前記ネットワークから収集する手段とを含むことを特徴とする知識情報収集システム。 - 前記文書収集手段に実行させるべき文書ファイルの収集処理毎に、前記起点アドレス情報と前記再収集を何日おきに実行すべきかを示す指定日数情報とを含む設定情報を作成するための設定画面をユーザの端末に表示する手段と、
前記設定画面上で各収集処理毎に作成された複数の設定情報を保持する手段とをさらに具備し、
前記文書収集手段に実行させるべき収集処理毎に、それに対応した再収集処理における前記指定日数を指定できるように構成されていることを特徴とする請求項1記載の知識情報収集システム。 - 知識情報収集システムによって、知識データベースに登録すべき文書情報をネットワーク上から収集する知識情報収集方法において、
前記知識情報収集システムが、予め設定された設定情報で指定される起点アドレス情報に基づいて、当該起点アドレス情報で指定される文書ファイルを起点にそれに関連する文書ファイル群を前記ネットワーク上から収集する文書収集ステップと、
前記知識情報収集システムが、前記収集された各文書ファイルの文書情報を前記知識データベースに登録する登録ステップと、
前記知識情報収集システムが、前記文書収集ステップによる以前の文書収集結果を保持するステップと、
前記知識情報収集システムが、前記文書収集ステップに前記起点アドレス情報からの文書ファイル群の再収集処理を実行させるステップとを具備し、
前記文書収集ステップは、
前記起点アドレス情報からの文書ファイル群の再収集処理を実行する場合、前記知識情報収集システムが、前記設定情報で指定された指定日数と、前記保持されている以前の文書収集結果で示される収集済みの各文書ファイルおよびその収集日時とに基づいて、現時点から前記指定日数以前に収集された文書ファイルの中で以前の収集時点から更新された文書ファイルを検出するステップと、
前記知識情報収集システムが、前記検出された各文書ファイル毎にその収集日時を含むファイル取得要求を前記ネットワーク上に発行することにより、以前の収集時点から更新された文書ファイルを前記ネットワークから収集するステップとを含むことを特徴とする知識情報収集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005142705A JP4253315B2 (ja) | 2005-05-16 | 2005-05-16 | 知識情報収集システムおよび知識情報収集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005142705A JP4253315B2 (ja) | 2005-05-16 | 2005-05-16 | 知識情報収集システムおよび知識情報収集方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002108479A Division JP3708893B2 (ja) | 2002-04-10 | 2002-04-10 | 知識情報収集システムおよび知識情報収集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005327297A true JP2005327297A (ja) | 2005-11-24 |
JP4253315B2 JP4253315B2 (ja) | 2009-04-08 |
Family
ID=35473545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005142705A Expired - Fee Related JP4253315B2 (ja) | 2005-05-16 | 2005-05-16 | 知識情報収集システムおよび知識情報収集方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4253315B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008027074A (ja) * | 2006-07-19 | 2008-02-07 | Toshiba Corp | 情報管理プログラム及び知識情報共有システム |
US8229934B2 (en) | 2009-08-14 | 2012-07-24 | International Business Machines Corporation | System and program for collecting documents |
JP2015026103A (ja) * | 2013-07-24 | 2015-02-05 | Kddi株式会社 | データ収集装置、データ収集方法、およびプログラム |
US20210297874A1 (en) * | 2018-10-12 | 2021-09-23 | Huawei Technologies Co., Ltd. | Devices and methods for discovering collectable data and analytics data in a network |
-
2005
- 2005-05-16 JP JP2005142705A patent/JP4253315B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008027074A (ja) * | 2006-07-19 | 2008-02-07 | Toshiba Corp | 情報管理プログラム及び知識情報共有システム |
US8229934B2 (en) | 2009-08-14 | 2012-07-24 | International Business Machines Corporation | System and program for collecting documents |
JP2015026103A (ja) * | 2013-07-24 | 2015-02-05 | Kddi株式会社 | データ収集装置、データ収集方法、およびプログラム |
US20210297874A1 (en) * | 2018-10-12 | 2021-09-23 | Huawei Technologies Co., Ltd. | Devices and methods for discovering collectable data and analytics data in a network |
Also Published As
Publication number | Publication date |
---|---|
JP4253315B2 (ja) | 2009-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8887036B2 (en) | Automatic linking of documents | |
EP2122561B1 (en) | Web data usage platform | |
US6832220B1 (en) | Method and apparatus for file searching, accessing file identifiers from reference page | |
CN101484892B (zh) | 使用集成文档管理网络服务的方法 | |
JP2004164623A (ja) | 表示データ生成装置、表示データ生成システム、表示データ生成方法、表示データ生成プログラム及び記録媒体 | |
JP4253315B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP3612185B2 (ja) | 文書情報更新監視装置 | |
JP3708893B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP5224839B2 (ja) | 文書管理システム、文書管理装置、文書管理方法及びプログラム | |
US6754900B1 (en) | System for providing web browser access to an operating system desktop | |
JP3725087B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP3708894B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP2001184355A (ja) | 情報収集システム、コンテンツサーバ、情報収集装置及び記録媒体 | |
JP3725088B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP3725837B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP3725836B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP3725835B2 (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JPH10171703A (ja) | サイトマップ表示装置および文書閲覧支援装置 | |
KR20060075798A (ko) | 해외 과학기술 전자원문 수집/색인/추출 시스템과 그 방법및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체 | |
JP4028795B2 (ja) | 電子メール収集・検索システム | |
JP2003303198A (ja) | 知識情報収集方法および知識情報収集システム | |
JP2005031867A (ja) | ウエブ情報収集装置及びウエブ情報収集方法 | |
JP2004118354A (ja) | 文書管理システムと文書管理プログラム | |
JP2003303200A (ja) | 知識情報収集システムおよび知識情報収集方法 | |
JP2007272777A (ja) | 情報処理装置、情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090113 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090123 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120130 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140130 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |