JP2001075859A - 情報巡回獲得装置 - Google Patents

情報巡回獲得装置

Info

Publication number
JP2001075859A
JP2001075859A JP24577599A JP24577599A JP2001075859A JP 2001075859 A JP2001075859 A JP 2001075859A JP 24577599 A JP24577599 A JP 24577599A JP 24577599 A JP24577599 A JP 24577599A JP 2001075859 A JP2001075859 A JP 2001075859A
Authority
JP
Japan
Prior art keywords
information
file
acquisition
acquired
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP24577599A
Other languages
English (en)
Inventor
Masahiro Ihara
正博 井原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP24577599A priority Critical patent/JP2001075859A/ja
Publication of JP2001075859A publication Critical patent/JP2001075859A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 煩雑な設定をすることなく、欲しい情報を獲
得することができる情報巡回獲得装置の提供 【解決手段】 通信部3は、ネットワークを介して巡回
先である情報提供装置10と通信を行う。巡回獲得制御
手段5は、通信部3を制御して、与えられた巡回先の情
報提供装置10に順次接続し、当該情報提供装置10か
ら情報を獲得する。さらに、各巡回先の情報提供装置1
0毎に、類似度判定手段9によって判定された類似度に
基づいて、当該獲得情報を獲得情報記憶部7に記憶する
か否かを決定する。獲得情報記憶部7は、巡回獲得制御
手段5によって獲得された獲得情報を記憶する。類似度
判定手段9は、獲得情報の基準情報に対する類似度を判
定する。これにより、類似度による選別を受けた獲得情
報のみを収集することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報巡回獲得装置
に関し、特に煩雑な設定を行うことなく欲しい情報を獲
得することができるものに関する。
【0002】
【従来の技術】従来の情報巡回獲得装置としては、図1
9に示すハイパーテキスト自動取得装置100(特開平
10−207759)がある。ハイパーテキスト自動取
得装置100は、トップファイルリスト格納部101、
ファイルキャッシュメモリ102、ネットワークインタ
ーフェイス部103、巡回制御部105、解析部10
6、巡回ファイルリスト格納部107を有している。
【0003】トップファイルリスト格納部101には、
ユーザーによって巡回することが指示されたファイル名
のリストが格納される。また、このファイル名に対応づ
けて最大深さレベル、最大巡回ページ数、最大巡回ファ
イル数、最大巡回容量等のアクセス条件が格納される。
【0004】ネットワークインターフェイス部103
は、巡回制御部105からの要求に応じてサーバー10
4にファイル取得要求を出力する。そして、受信したフ
ァイルデータをファイルキャッシュメモリ102に格納
すると同時に巡回制御部105に返送する。
【0005】解析部106は、ファイルデータを解析し
て関連ファイル名を抽出する。巡回制御部105は、解
析部106からの関連ファイルの深さレベルを求めて関
連ファイル名に対応づけて巡回ファイルリスト格納部1
07に格納する。そして、関連ファイルのファイルデー
タを取得するための要求を出力する。
【0006】ハイパーテキスト自動取得装置100で
は、ネットワークに対するアクセスが最大深さレベル、
最大巡回ページ数、最大巡回ファイル数、最大巡回容量
等のアクセス条件を越えないように監視する。このよう
な監視の下に、必要なファイルを自動的に取得する。
【0007】
【発明が解決しようとする課題】前述のハイパーテキス
ト自動取得装置100には、次の示すような問題点があ
る。それは、最大深さレベル、最大巡回ページ数、最大
巡回ファイル数、最大巡回容量等のアクセス条件をユー
ザーが設定しなければならないことである。自らが巡回
しようとするサイトによって、欲しい情報が存在する深
さレベルはまちまちであることが一般的である。したが
って、ユーザーは巡回しようとするサイト毎にどのくら
いの深さレベルまで巡回するのかを設定しなければなら
ない。
【0008】このような設定は、巡回しようとするサイ
トが多くなれば多くなるほど煩雑となる。また、パソコ
ン初心者にとってもこのような設定は煩雑なものであ
る。
【0009】さらに、巡回する深さレベルは、巡回しよ
うとする時より以前に設定することになる。つまり、巡
回時に深さレベル等が設定されるわけではないので、情
報獲得に対するリアルタイム性には欠ける。サイトの更
新等には即座に対応することができない。したがって、
いざ巡回して情報を獲得してみると、自らが欲する情報
が獲得されていないといった場合がある。
【0010】そこで、本発明は、煩雑な設定をすること
なく、欲しい情報を獲得することができる情報巡回獲得
装置の提供を目的とする。
【0011】
【課題を解決するための手段および発明の効果】請求項
1にかかる情報巡回獲得装置および請求項3にかかる記
録媒体では、獲得情報の基準情報に対する類似度を判定
し、各巡回先の情報提供装置毎に、判定した類似度に基
づいて、当該獲得情報を獲得情報記憶部に記憶するか否
かを決定する。これにより、獲得情報を全て記憶するの
ではなく、類似度に基づいて記憶するか否かを決定する
ことができる。したがって、類似度による選別を受けた
獲得情報のみを収集することができる。
【0012】請求項2にかかる情報巡回獲得装置および
請求項4にかかる記録媒体では、獲得したファイルの基
準情報に対する類似度を判定し、判定した類似度に基づ
いて、リンクされたファイルを獲得情報記憶部に記憶す
るか否かを決定する。これにより、リンクされたファイ
ルを全て記憶するのではなく、類似度に基づいて記憶す
るか否かを決定する。したがって、類似度による選別を
受けたリンクされたファイルのみを収集することができ
る。
【0013】請求項5にかかる情報巡回獲得装置および
記録媒体では、獲得したファイルの類似度が所定値を下
回る場合には、当該ファイルに直接または間接的にリン
クされたファイルへのそれ以上の巡回獲得を行わない。
これにより、類似度が所定値を下回るファイルおよび間
接的にリンクされたファイルへの巡回獲得を行わない。
したがって、類似度が所定値を下回るファイル等を記憶
することがない。
【0014】請求項6にかかる情報巡回獲得装置および
記録媒体では、リンク元ファイルとリンク先ファイルと
が、ディレクトリ構造上親子関係にない場合にだけ、リ
ンク先ファイルの類似度を判定する。したがって、類似
度の判定回数を少なくすることができるので、情報巡回
獲得装置および記録媒体を利用するコンピュータへの負
担をかけることがない。
【0015】請求項7にかかる情報巡回獲得装置および
記録媒体では、獲得したファイルの基準情報に対する類
似度の判定部分を、すでに獲得し獲得情報記憶部に記憶
された獲得情報の問い合わせ情報に対する類似度の判定
においても用いる。これにより、獲得時ならびに問い合
わせ時における類似度の判定処理を共用することができ
る。
【0016】請求項8にかかる情報巡回獲得装置および
記録媒体では、基準情報として問い合わせ情報を用い
る。これにより、ネットワークを介して獲得した獲得情
報に対する類似度の判定と獲得情報記憶部に記憶されて
いる獲得情報に対する類似度の判定とを、合致させるこ
とができ、より目的に沿った情報の収集が可能となる。
【0017】請求項9にかかる記録媒体では、前回に巡
回を行った情報提供装置毎に、巡回先ファイルおよびそ
のリンク関係を表示する処理をコンピュータに行わせ
る。これにより、ユーザーに対して巡回先ファイルおよ
びそのリンク関係を容易に知らせることができる。
【0018】請求項10にかかる情報巡回獲得装置およ
び請求項11にかかる記録媒体では、リンク先ファイル
の情報とリンク元ファイルの情報との比較に基づいて、
リンク先ファイルを獲得情報記憶部に記憶する。これに
より、全てのリンク先ファイルを記憶するのではなく、
リンク先ファイルの情報とリンク元ファイルの情報とが
比較されたもののみを記憶することができる。
【0019】請求項12にかかる情報巡回獲得装置およ
び記録媒体では、リンク元ファイルとリンク先ファイル
とが、ディレクトリ構造上親子関係にない場合にだけ、
リンク先ファイルの情報とリンク元ファイルの情報との
比較を行う。したがって、各ファイルの比較回数を少な
くすることができるので、情報巡回獲得装置および記録
媒体を利用するコンピュータへの負担をかけることがな
い。
【0020】請求項13にかかる情報巡回獲得装置およ
び記録媒体では、リンク先ファイルとリンク元ファイル
との比較を、ファイル作成者または情報を記述する言語
またはファイル作成時に基づいて行う。これにより、フ
ァイル作成者または情報を記述する言語またはファイル
作成時の比較を行ったリンク先ファイルのみを記憶する
ことができる。
【0021】「獲得情報記憶部」は、獲得情報を保存す
るための具体的な手段を含む概念である。例えば、ハー
ドディスク等の固定式の記憶媒体、またフロッピーディ
スク、CD−R、CD−R/W、DVD−RΑM、メモ
リカード等の取り外し可能な記録媒体、および取り外し
可能な記録媒体を装着する各ドライブ等も含む。
【0022】「プログラムを記録した記録媒体」とは、
プログラムを記録したROM、RΑM、フレキシブルデ
ィスク、CD−ROM、メモリカード、ハードディスク
等の記録媒体をいう。CD−ROMやメモリ等のような
形態で記録を行うものだけでなく、通信回線、搬送波等
のように、その状態を変化させながら記録内容を伝達す
るようなものも含む概念である。また、CPUに接続さ
れて、記録されたプログラムが直接的に実行されるハー
ドディスクのような記録媒体だけでなく、一旦ハードデ
ィスク等にインストールした後に実行されるプログラム
を記録したCD−ROM等の記録媒体を含む概念であ
る。さらに、ここでいうプログラムには、直接実行可能
なプログラムだけでなく、ソース形式のプログラム、圧
縮処理がされたプログラム、暗号化されたプログラム等
を含む。また、プログラムによって実現される機能は、
当該プログラム単独で実現されるのもであってもよく、
他のプログラム(例えば、オペレーティング・システ
ム)と共同して実現されるものであってもよい。
【0023】「基準情報」とは、類似度を判定する際に
利用する情報のことをいい、1または複数の単語、1ま
たは複数の文章を含む概念である。
【0024】「問い合わせ情報」とは、ファイルを検索
するための情報をいい、1または複数の単語、1または
複数の文章を含む概念である。実施形態においては「問
い合わせ」がこれに相当する。
【0025】「ディレクトリ」とは、ファイルを整理す
るための区切りを示す概念である。ここでは、いわゆる
ディレクトリだけでなく、1つのWebサイトも1つのデ
ィレクトリを構成しているものとする。
【0026】「親子関係」とは、あるファイルが属して
いるディレクトリが、対象とする他のファイルが属して
いるディレクトリに含まれるような関係、もしくは、あ
るファイルが属しているディレクトリが、対象とする他
のファイルが属しているディレクトリを含むような関係
をいう。
【0027】「巡回獲得制御手段」は、図10、図11
および図16におけるフローチャートの各ステップに対
応する。
【0028】
【発明の実施の形態】[第1の実施形態] 1.機能ブロック図 本発明にかかる情報巡回獲得装置1の機能ブロック図を
図1に示す。情報巡回獲得装置1は、通信部3、巡回獲
得制御手段5、獲得情報記憶部7、類似度判定手段9を
有している。
【0029】通信部3は、ネットワークを介して巡回先
である情報提供装置10と通信を行う。巡回獲得制御手
段5は、通信部3を制御して、与えられた巡回先の情報
提供装置10に順次接続し、当該情報提供装置10から
情報を獲得する。さらに、各巡回先の情報提供装置10
毎に、類似度判定手段9によって判定された類似度に基
づいて、当該獲得情報を獲得情報記憶部7に記憶するか
否かを決定する。
【0030】獲得情報記憶部7は、巡回獲得制御手段5
によって獲得された獲得情報を記憶する。類似度判定手
段9は、獲得情報の基準情報に対する類似度を判定す
る。
【0031】これにより、情報巡回獲得装置1は、獲得
情報を全て記憶するのではなく、類似度に基づいて記憶
するか否かを決定することができる。したがって、類似
度による選別を受けた獲得情報のみを収集することがで
きる。
【0032】2.ハードウェア構成 本発明にかかる情報巡回獲得装置1をパーソナル・コン
ピュータ11を用いて実現した場合のハードウェア構成
を図2に示す。パーソナル・コンピュータ11は、CP
U13、メモリ15、ハードディスク17、ディスプレ
イ19、キーボード21、マウス23、CD−ROMド
ライブ25および通信回路29を有している。
【0033】また、記録媒体としてのCD−ROM27
には、情報巡回獲得プログラムが記憶されている。パー
ソナル・コンピュータ11は、CD−ROMドライブ2
5を介して情報巡回獲得プログラムをCD−ROM27
から読み込み、ハードディスク17に記憶している。
【0034】CPU13は、ハードディスク17に記録
されている情報巡回獲得プログラムにしたがって、各デ
バイスを制御する。例えば、通信回路29を制御して、
与えられた巡回先のコンピュータに順次接続し、当該コ
ンピュータからWebドキュメントを獲得する。ハードデ
ィスク17は、CPU13および通信回路29によって
獲得されたWebドキュメントを記憶する。通信部29
は、インターネット網を介して巡回先であるコンピュー
タと通信を行う。
【0035】パーソナル・コンピュータ11は、図3に
示すように、ネットワークとしてのインターネットを介
して他のコンピュータC1と接続している。パーソナル
・コンピュータ11、コンピュータC1およびインター
ネット網は、World Wide Web(WWW)と呼ばれるドキュメ
ントシステムを形成している。
【0036】各コンピュータC1は、1または複数のウ
ェブ(Web)ドキュメントをハードディスクに保存(記
憶)している。この保存しているWebドキュメントは、
直接または間接的に他のWebドキュメントとリンクして
いる。また、リンクしているWebドキュメント同志で、
1つのパッケージを形成しているものもある。このパッ
ケージをWebサイトと呼ぶ。なお、Webドキュメントは、
「ハイパーテキストマークアップ言語(Hyper Text Mar
kup Language : HTML)」と呼ばれる言語によって作成さ
れている。
【0037】Webサイトの構造を図式化したものの一例
を図4に示す。Webサイトは、複数のWebドキュメント
(P1、P2、・・・)を有している。また、いくつか
のディレクトリ(D1、D2、・・・)を有している。
【0038】各Webドキュメントには、下線が付いてい
るか、ハイライト表示されているかしたハイパーリンク
テキストが埋め込まれている場合が多い。例えば、Web
ドキュメントP1(トップページ)には複数のハイパー
リンクテキスト(「Product」「Career Up」・・・「ab
out Justsystem」)が埋め込まれている。また、Webド
キュメントP2(プロダクトページ)には「Applicatio
n」「Service」・・・「Download」等のハイパーリンク
テキストが、WebドキュメントP5には「一太郎10
(商標)」・・・「Voice一太郎(商標)」等のハイパ
ーリンクテキストが、それぞれ埋め込まれている。
【0039】Webサイト内の各Webドキュメントには、U
RL(Universal Resource Location)と呼ばれるWebド
キュメント固有の識別子が付けられている。例えば、
「ジャストシステム」のWebサイトがドメイン名「justs
ystem.co.jp」のサーバー上に存在するとする。この場
合、トップページ(WebドキュメントP1)のURL
は、「http://www.justsystem.co.jp/index.htm」とな
る。
【0040】また、一太郎(商標)ページ(Webドキュ
メントP8)のURLは、「http://www.justsystem.c
o.jp/product/applicat/taro10/index.htm」となる。こ
のURLは、一太郎ページ(WebドキュメントP8)
が、ドメイン名「justsystem.co.jp」のサーバー内のデ
ィレクトリ「product」内のディレクトリ「applicat」
内のディレクトリ「taro10」内に存在しているというこ
とをあらわしている。他のWebドキュメントについても
同様に、トップページからの相対関係によって、URL
を決定することができる。
【0041】ここで、実施形態にかかる構成要素と請求
項にかかる構成要素との対応関係を示す。CPU13は
巡回獲得制御手段5および類似度判定手段9に、メモリ
15は巡回獲得制御手段5および類似度判定手段9に、
ハードディスク17は獲得情報記憶部7に、通信回路2
9は通信部3に、それぞれ対応する。
【0042】3.巡回獲得処理 次に、パーソナル・コンピュータ11が行う処理につい
て説明する。ユーザーは、ディスプレイ19上に表示さ
れているアイコンをクリックする等して、情報巡回プロ
グラムを立ち上げる。
【0043】3−1. 巡回設定 ユーザーは、最初に、自らが欲する情報があると思われ
るURLを少なくとも1つ設定する。このURLの設定
は、ブラウザ(Netscape NavigatorやMicrosoft Intern
et Explorer等)の「ブックマーク」や「お気に入り」
等に登録されているURLから選択する。
【0044】ブラウザの「ブックマーク」や「お気に入
り」等に登録されているサイト名から選択する場合に
は、次のようにして行う。まず、「情報ボックス」と呼
ばれる巡回により獲得したファイルを保存するためのフ
ォルダを作成する。
【0045】ディスプレイ19上に表示されている「情
報ボックスの作成」(図示せず)を選択すると、図5に
示すような設定開始ウィンドウW1がディスプレイ19
上に表示される。そして、獲得しようとする情報(情報
源)の種類を選択する。本実施例においては、WWWのWeb
ドキュメントだけでなく、電子メールやハードディスク
17上に保存しているファイル等も情報源とすることが
できる。ユーザーは、欲しい情報源を選択し、その情報
源に対応したチェックボックスB5−1にチェックを入
れる。そして、進むボタンB5−2を押す。
【0046】図5の設定開始ウィンドウW1でWWWを選
択した場合、図6に示すよなアイテムの選択ウィンドウ
W3が表示される。ここでは、ブラウザの「ブックマー
ク」や「お気に入り」等に登録されているURLから、
巡回を行おうとするURLを選択することができる。
「情報源」領域Α6−1には、ブラウザの「ブックマー
ク」や「お気に入り」等に登録されているURLが表示
される。ユーザーは、この中から巡回しようとするUR
Lを選択する。図6においては、特許庁ホームページが
選択されている。
【0047】そして、「追加」ボタンB6−1を押すと
選択されたURLが「追加するアイテム」領域Α6−3
に表示される。このようにして、巡回しようとするUR
Lを1つ以上指定する。
【0048】さらに、指定したURLについて詳細に設
定したい場合には、「詳細設定」ボタンB6−3を選択
する。すると、図7に示すような詳細設定ウィンドウW
5が表示される。詳細設定ウィンドウW5には、選択し
たサイト名を表示するサイト名表示領域Α7−1、選択
したサイトのURLを表示するURL表示領域Α7−
3、自動巡回の設定を行う自動巡回設定領域Α7−5が
表示される。
【0049】ユーザーは、自動巡回設定領域Α7−5に
おいて、サイト内に表示されるイメージや背景イメージ
等を獲得するか否かを選択することができる。イメージ
は、ファイルサイズが大きいため、保存の際により多く
の領域を必要とし、また、ダウンロードに時間がかかる
ので、通信費が多くかかる可能性がある等の問題がある
ためイメージを獲得するか否かの判断をユーザー自身に
委ねている。
【0050】このような自動巡回の設定が終了すれば、
「OK」ボタンB7−1を選択する。これにより、図6
に示す「アイテムの選択」ウィンドウW3に戻る。「追
加するアイテム」の設定が終了すれば、「進む」ボタン
B6−5を選択する。
【0051】次に、図8に示すようなスケジュールの設
定ウィンドウW7が表示される。スケジュールの設定ウ
ィンドウW7は、設定日時領域Α8−1を有している。
設定日時領域Α8−1では、巡回を行う日時を設定す
る。例えば、毎日決まった時間に巡回をしたい場合に
は、「毎日」ラジオボタンB8−1を選択する。そし
て、巡回を行う時間を所定の場所に入力する。
【0052】このようにして、ブラウザの「ブックマー
ク」や「お気に入り」等に登録されているサイト名か
ら、巡回するサイトを選択する。
【0053】また、ユーザーは、巡回するサイト名もし
くはURLを指定すると同時に、自らが欲する情報に関
する単語や文章を入力しておく。このようにして入力す
る単語や文章を「基準情報」と呼ぶ。
【0054】この「基準情報」の入力は、図9に示すよ
うな新規基準情報の設定ウィンドウW9で行う。新規基
準情報の設定ウィンドウW9は、基準情報入力領域Α9
−1、類似度の最低値を設定する領域である最低値設定
領域Α9−3を有している。ユーザーは、基準情報入力
領域Α9−1に、「基準情報」を入力する。図9におい
ては、「ジャストシステムの新製品について知りたい」
といった自然文を入力している。なお、自然文ではなく
単語(キーワード等)を入力することも可能である。
【0055】また、最低値設定領域Α9−3に、0〜1
00までの正数を入力する。この場合、類似度「10
0」とは、類似度を判定する対象であるWebドキュメン
トと「基準情報」とが非常に類似しているということを
あらわし、類似度「0」とは、「基準情報」とは全く類
似していないということをあらわす。
【0056】巡回の設定および「基準情報」の設定が行
われたパーソナル・コンピュータ11は、設定された日
時になると自動的にインターネットに接続し、設定され
ているサイトからWebドキュメントを獲得する。
【0057】3−2. フローチャート 次に、パーソナル・コンピュータ11がWebドキュメン
トを巡回獲得する際の処理を図10に示すフローチャー
トを参照しながら説明する。パーソナル・コンピュータ
11は、まず、図6においてユーザーが設定したWebド
キュメントのURLへ接続し、そのWebドキュメントを
取得する(S1)。次に、「基準情報」を取得する(S
3)。そして、Webドキュメントと「基準情報」との類
似度を「コンセプトベース(商標)」を用いて算出する
(S5)。
【0058】ここで、「コンセプトベース」による類似
度判定のアルゴリズムを図11を用いて説明する。ま
ず、 CPU13は、メモリ15に記憶した基準情報か
らキーワードを抽出する(S1101)。
【0059】本実施形態においては、基準情報との類似
度を演算するために、獲得したWebドキュメントの各タ
ームに対して関連語拡張処理を行い、Webドキュメント
を多次元ベクトル化するとともに、基準情報も多次元ベ
クトル化する(S1103)。この関連語拡張処理、お
よび多次元ベクトル化を以下に簡単に説明する。
【0060】関連語拡張処理は次のようにして行われ
る。自然言語処理における形態素解析を用いて、Webド
キュメントに含まれるターム(主に名詞句)を全て抜き
出す。次に、Webファイル中に含まれる全タームの出現
頻度および位置関係(係り受け関係を含む)から各ター
ム間の相関度(0〜1の数値)を算出し、関連語を抽出
する。
【0061】例えば、ターム「競輪」が、ターム「オリ
ンピック」およびターム「中野浩一」と同時に用いられ
ていることが多ければ、関連語として抽出する。このよ
うに、関連語とは、特定のタームとよく一緒に用いられ
ている(出現する)タームをいう。
【0062】タームの出現頻度や位置関係に基づいて統
計的に関連語を拡張処理することによって、新しいター
ムや専門用語に対しても的確な検索が可能となる。な
お、本実施形態においては、関連語拡張処理によって関
連語を抽出したが、例えば予め設けられている辞書に従
って類似語を導くようにしてもよい。
【0063】続いて、多次元ベクトル化について説明す
る。まず、tfidf法を用いて各タームの重み付けを
行う。tfidf法とは、情報検索におけるキーワード
決定の手法であり、ある文書(ここでは個々のヘルプ内
容説明)中におけるそのタームの出現頻度を示すtf
(term frequency)、および全文書(ここでは全ての
ヘルプ内容説明)の中でそのタームがいかに少ない文書
(個々のヘルプ内容説明)でしか現れないかの希少性を
示すidf(inverse document frequency)を用い
て、タームの重み付けをする手法である。
【0064】Webドキュメントを、上述の関連語を考慮
しつつ各タームの多次元空間ベクトルで表現する。ま
た、入力された基準情報(図9参照)も同様にして、多
次元ベクトル化する。
【0065】次に、CPU13は処理項目番号iを初期
化し(S1105)、i番目の項目について、基準情報
との類似度を演算する(S1107)。本実施形態にお
いては、Webドキュメントの多次元ベクトルと、基準情
報の多次元ベクトルとの内積を類似度として演算した。
【0066】CPU13は、全項目について類似度演算
が終了したか否か判断し(S1109)、終了するまで
処理項目番号iをインクリメントして(S1111)、
ステップS1107の処理を繰り返す。このようにして
全項目についてWebドキュメントと基準情報との類似度
演算を行う。
【0067】図10に戻って、算出した類似度と設定し
た類似度とを比較し、算出した類似度が設定した類似度
より上か否かを判断する(S7)。算出した類似度が設
定した類似度より下ならば、Webドキュメントは保存せ
ずに、破棄する(S9)。
【0068】一方、算出した類似度が設定した類似度よ
り上ならば、Webドキュメントを所定の場所に保存する
(S11)。そして、WebドキュメントのHTMLタグ
を解析して、ハイパーリンクが埋め込まれているか否か
を判断する(S13)。なお、ハイパーリンクは通常 <
A HREF="リンク先のURL"> というHTMLタグでWeb
ドキュメント内に埋め込まれる。したがって、このHT
MLタグがWebドキュメント内に存在するか否かを判断
すれば、ハイパーリンクの有無を判断することができ
る。
【0069】ハイパーリンクがWebドキュメント内に存
在しなければ、巡回獲得を終了する。一方、ハイパーリ
ンクが存在すれば、全てのリンクを巡回したか否かを判
断する(S15)。まだ、巡回していないハイパーリン
クがWebドキュメント内に存在していれば、そのハイパ
ーリンクに対応するWebドキュメントを獲得する。そし
て、獲得したWebドキュメントについて、これまでの説
明と同様の処理を行う。
【0070】全てのハイパーリンクについて巡回が終了
すれば、通信回線との接続を切り、今回の巡回獲得を終
了する。
【0071】3−3. 巡回獲得の例 次に、Webドキュメントの巡回・獲得を図12に示すよ
うな構造を有する架空のジャストシステムのWebサイト
を用いて説明する。なお、図12におけるジャストシス
テムのWebサイトの構造は図4におけるWebサイトの構造
と同じ構造としている。
【0072】ここでは、ユーザーは、最初に巡回するWe
bドキュメントとしてジャストシステムのトップページ
P1を設定しているものとする。また、「基準情報」と
して「ジャストシステムの新製品について知りたい」と
いう文章を入力しているものとする。さらに、類似度の
最低値を「50%」と設定しているものとする。なお、
各WebドキュメントとトップページP1との相対的なリ
ンク構造の関係を「階層」とし、1以上の正数で表すこ
ととする。例えば、アプリケーションページP5は、ト
ップページP1から2つのリンクを辿ることになる。し
たがって、アプリケーションページP5の「階層」は、
「2」となる。
【0073】トップページP1を取得したパーソナル・
コンピュータ11は、トップページP1と「基準情報」
との類似度を算出する。今、算出した類似度が「70
%」であったとする。この場合、算出した類似度(70
%)は、設定した類似度の最低値(50%)を下回らな
いことになる。したがって、パーソナル・コンピュータ
11は、トップページP1を作成した「情報ボックス」
に保存する。同時に、トップページP1内に存在するリ
ンクの抽出を行う。トップページP1内には「Produc
t」「Career Up」「about Justsystem」のリンクが存在
している。
【0074】パーソナル・コンピュータ11は、それぞ
れのリンク先のページを取得する。「Product」のリン
ク先ページ(プロダクトページP2)を取得すれば、そ
の類似度を算出・判定する。プロダクトページP2と
「基準情報」との類似度を算出した結果が60%である
とすると、類似度の最低値を下回らない。したがって、
プロダクトページP2を「情報ボックス」に保存する。
そして、プロダクトページP2に存在するリンクを抽出
する。
【0075】また、「Career Up」のリンク先ページ
(キャリアアップページP3)を取得し、その類似度を
算出する。算出した類似度が30%であると、類似度の
最低値を下回る。この場合、キャリアアップページP3
は「情報ボックス」には保存されない。また、キャリア
アップページP3内に存在するハイパーリンクについて
も抽出を行わない。つまり、キャリアアップページP3
に直接または間接的にリンクされたページへのそれ以上
の巡回獲得を行わない。
【0076】このように、各Webドキュメントと基準情
報との類似度を算出し、設定した類似度の最低値と比較
することによって、Webドキュメントの保存処理および
リンクの抽出処理を行うか否かを判断する。この結果、
設定した「情報ボックス」に保存されるWebドキュメン
トは、トップページP1、プロダクトページP2、アプ
リケーションページP5、ダウンロードページP7、一
太郎10ページP8、一太郎10up dateページP9,V
oice一太郎ページP10となる。これら7つのWebドキ
ュメントによって、「情報ボックス」が構成されること
になる。
【0077】一方、キャリアアップページP3、アバウ
ト・ジャストシステムページP4、サービスページP6
については、巡回獲得されるものの、「情報ボックス」
には保存されずに、破棄される。また、サービスセンタ
ーページP11、株式ページP12については、巡回さ
れることはない。
【0078】パーソナル・コンピュータ11では、リン
ク先Webドキュメントの類似度が類似度の最低値を下回
った場合には、そのリンク経路に関するWebドキュメン
トの巡回を終了する。また、リンク先Webドキュメント
にリンク先が無い場合も、そのリンク経路に関するWeb
ドキュメントの巡回を終了する。このように、リンク経
路によって、巡回を終了する階層が相違する。
【0079】4.獲得Webドキュメントの一覧 パーソナル・コンピュータ11は、巡回獲得したWebド
キュメントを所定のフォルダ内に保存し、データベース
を作成する。巡回を行った後、取得したWebドキュメン
トの一覧をディスプレイ19上に表示した例を図13に
示す。
【0080】ディスプレイ19上には取得ページウィン
ドウW13が表示されている。取得ページウィンドウW
13には、前回の巡回によって獲得したWebドキュメン
トの一覧が表示されている。なお、獲得ページウィンド
ウW13には、巡回したWebサイト毎に、獲得したWebド
キュメントおよびそのWebドキュメントのリンク関係が
表示される。このように、ユーザーは、パーソナル・コ
ンピュータ11が巡回獲得してきたWebドキュメントを
容易に確認することができる。
【0081】5.作成した情報ボックスに対する検索 本実施形態におけるパーソナル・コンピュータ11で
は、巡回獲得し、情報ボックスに保存したWebドキュメ
ントに対して、さらに、検索をかけることができる。つ
まり、巡回獲得したWebドキュメントをデータベースと
して、そこから所望の情報を取得することができる。
【0082】このような、データベースに対する検索を
図14を用いて説明する。図14には、検索ウィンドウ
W12が表示されている。検索ウィンドウW12は、情
報ボックス表示領域Α12−1、問い合わせ入力領域Α
12−3、検索結果表示領域Α12−5、ドキュメント
表示領域Α12−7、情報ボックス選択ボタンB12−
1、問い合わせボタンB12−3を有している。
【0083】情報ボックスに対して検索を行う場合に
は、まず、検索する情報ボックスを情報ボックス選択ボ
タンB12−1を選択し、情報ボックスを選択する。選
択された情報ボックスは、情報ボックス表示領域Α12
−1に表示される。図14においては、情報ボックス
「JUST」が選択されている。
【0084】そして、問い合わせ入力領域Α12−3
に、検索するためのキーセンテンス等である「問い合わ
せ」を入力する。図14では、「問い合わせ」として
「一太郎10について知りたい」が入力されている。
【0085】この後、問い合わせボタンB12−3を選
択する。すると、検索結果表示領域Α12−5に、類似
度に基づいて検索結果が表示される。なお、この検索に
は、Webドキュメントの巡回獲得の際に利用した「コン
セプトベース」が用いられている。図14においては、
「コンセプトベース」による検索結果が、類似度の高い
ものから降べきの順に検索結果表示領域Α12−5に表
示されている。
【0086】さらに、検索結果表示領域Α12−5で選
択されたドキュメントが、ドキュメント表示領域Α12
−7に表示される。
【0087】このように、パーソナル・コンピュータ1
1では、すでにハードディスク17に記憶されたWebド
キュメントを含む文書ファイル等のデータベースに対し
て「問い合わせ」をかけることによって、所望の文書等
を検索することができる。つまり、パーソナル・コンピ
ュータ11においては、ユーザーは、自らが所望する情
報を自動的に巡回獲得できるだけでなく、さらに、獲得
した文書等を容易にデータベースとして利用することが
できる。
【0088】[第2の実施形態]本発明にかかる情報巡
回獲得装置50の第2の実施形態について以下において
説明する。情報巡回獲得装置50の機能ブロック図につ
いては、第1の実施形態における情報巡回獲得装置1と
同様である。また、情報巡回獲得装置50のハードウェ
ア構成についても第1の実施形態と同様である。ただ
し、Webドキュメントの巡回獲得時の保存するか否かの
判断に対する処理が相違する。なお、本実施形態にかか
るパーソナル・コンピュータをパーソナル・コンピュー
タ51とする。
【0089】前述の第1の実施形態においては、Webド
キュメントを巡回獲得した際に、Webドキュメント(リ
ンク元Webドキュメント)と「基準情報」との類似度を
判定し、リンク先Webドキュメントを巡回獲得するか否
かを判定した。
【0090】一方、パーソナル・コンピュータ51で
は、リンク元Webドキュメントの情報とリンク先Webドキ
ュメントの情報との比較に基づいて、リンク先Webドキ
ュメントをハードディスク17に記憶するか否かを決定
する。例えば、リンク元Webドキュメントの作成者とリ
ンク先Webドキュメントの作成者とを比較し、一致すれ
ばリンク先Webドキュメントをハードディスク17に記
憶する。
【0091】1.比較情報の設定 ユーザーは、第1の実施形態と同様に図5から図8まで
の設定を行う。そして、リンク元のWebドキュメントと
リンク先のWebドキュメントで比較すべき情報(比較情
報)を設定する。比較情報の設定は、図15に示すよう
な比較情報設定ウィンドウW14で行う。
【0092】比較情報設定ウィンドウW14は、チェッ
クボックス領域Α13−1、作成時選択領域Α13−3
を有している。ユーザーは、リンク元のWebドキュメン
トとリンク先のWebドキュメントとで比較したい情報の
チェックボックスにチェックを入れる。図15では、
「作成者」、「記述言語」のチェックボックスにチェッ
クが入っている。
【0093】「作成時」にチェックを入れた場合には、
リンク元Webドキュメントより前に作成されたリンク先W
ebドキュメントを獲得するのか、後に作成されたリンク
先Webドキュメントを獲得するのか、を選択する。ユー
ザーは、この選択を、作成時選択領域Α13−7に配置
されているラジオボタンの選択によって行う。
【0094】2.フローチャート 次に、パーソナル・コンピュータ51がWebドキュメン
トを巡回獲得する際の処理を図16に示すフローチャー
トを参照しながら説明する。パーソナル・コンピュータ
51は、まず、図6においてユーザーが設定したWebド
キュメントのURLへ接続し、そのWebドキュメントを
獲得する(S1401)。獲得したWebドキュメントに
対してリンク元となるWebドキュメントの有無を判断す
る(S1403)。つまり、獲得したWebドキュメント
がリンク先Webドキュメントであるかを判断する。
【0095】リンク元Webドキュメントがあれば、次
に、図15で選択した比較情報を取得する(S140
5)。そして、獲得したWebドキュメント(リンク先Web
ドキュメント)およびリンク元Webドキュメントから比
較情報に関する情報を自動的に抽出する。そして、両者
を比較する(S1407)。
【0096】リンク元Webドキュメント、リンク先Webド
キュメントのそれぞれから抽出した情報が合致していれ
ば(S1409)、リンク先Webドキュメントをハード
ディスク17の所定の場所に保存する(S1411)。
【0097】次に、獲得したWebドキュメントのHTM
Lタグを解析して、ハイパーリンクが埋め込まれている
か否かを判断する(S1413)。なお、ハイパーリン
クは通常 <A HREF="リンク先のURL"> というHTM
LタグでWebドキュメント内に埋め込まれる。したがっ
て、このHTMLタグがWebドキュメント内に存在する
か否かを判断すれば、ハイパーリンクの有無を判断する
ことができる。
【0098】ハイパーリンクがWebドキュメント内に存
在しなければ、そのリンク経路に関するWebドキュメン
トへの巡回獲得を終了する。一方、ハイパーリンクが存
在すれば、全てのリンクを巡回したか否かを判断する
(S1415)。まだ、巡回していないハイパーリンク
がWebドキュメント内に存在していれば、そのハイパー
リンクに対応するWebドキュメントを獲得する。そし
て、獲得したWebドキュメントについて、これまでの説
明と同様の処理を行う。
【0099】リンク元Webドキュメント、リンク先Webド
キュメントのそれぞれから抽出した情報が合致していな
ければ(S1409)、獲得したリンク先Webドキュメ
ントを破棄する(S1417)。
【0100】なお、獲得したWebドキュメントに対して
リンク元となるWebドキュメントが無ければ、その獲得
したWebドキュメントを保存する。全てのハイパーリン
クについて巡回が終了すれば、通信回線との接続を切
り、今回の巡回獲得を終了する。
【0101】[その他の実施形態]前述の第1の実施形
態においては、あるWebドキュメントに対する類似度が
「最低値」を下回った場合には、当該Webドキュメント
を保存せず、かつ、当該Webドキュメントにリンクされ
ている他のWebドキュメントに対する巡回獲得を行わな
いようにした。しかし、リンクされたWebドキュメント
への巡回獲得は行わないが、当該Webドキュメントは保
存するようにしてもよい。つまり、類似度の判定は、当
該WebドキュメントにリンクされているWebドキュメント
への巡回獲得を行うか否かの判定をするために行うよう
にしてもよい。
【0102】さらに、前述の第1実施形態においては、
類似度判定をWebドキュメントを獲得する毎に行ってい
たが、ある特別な場合にのみ類似度判定を行うようにし
てもよい。また、前述の第2の実施形態にいては、リン
ク元Webドキュメントとリンク先Webドキュメントとの比
較情報に対する比較をWebドキュメントを獲得する毎に
行っていたが、ある特別な場合にのみ比較を行うように
してもよい。
【0103】前述のある特別な場合を図17、図18を
用いて説明する。図17Αに示すように、同一サーバー
SV1内に存在しているリンク先WebドキュメントF2
を取得する場合(つまり、リンク元WebドキュメントF
1とリンク先WebドキュメントF2とが親子関係にある
場合)には類似度判定は行わず、図17Bに示すよう
に、リンク先WebドキュメントF2が別のサーバーSV
2に存在している場合(つまり、リンク元Webドキュメ
ントF1とリンク先WebドキュメントF2とが親子関係
にない場合)にのみ、そのリンク先WebドキュメントF
2を獲得する際に類似度を判定するようにしてもよい。
【0104】また、図18に示すように、同じサーバー
SV3に存在しても、リンク元WebドキュメントF1がW
ebサイトWS1に存在し、リンク先WebドキュメントF
2がWebサイトWS2に存在するような場合(つまり、
違うWebサイトに存在するWebドキュメントがリンク先We
bドキュメントである場合)に、類似度の判定をするよ
うにしてもよい。このように、同じサーバーに存在して
も、違うWebサイトとなる場合の例としては、プロバイ
ダー等が提供するレンタルサーバー等にWebサイトが形
成されているものが挙げられる。
【0105】さらに、前述の第1の実施形態および第2
の実施形態においては、最初に設定するWebサイト名を
ブラウザの「ブックマーク」や「お気に入り」等から取
得するようにしたが、ユーザーがキーボード等から直接
にURLを入力するようにしてもよい。
【0106】さらに、前述の第1の実施形態および第2
の実施形態においては、CD−ROM27から、情報巡
回獲得プログラムをインストールするとしたが、情報巡
回プログラムをインストールできるものであれば、これ
に限定されない。例えば、フロッピーディスク等の磁気
記憶媒体等からインストールするようにしてもよい。さ
らに通信回線を利用してプログラムを他のコンピュータ
から受け取り、インストールするようにしてもよい。
【0107】さらに、前述の第1の実施形態および第2
の実施形態においては、全てのリンク先Webドキュメン
トを巡回した時点で、巡回獲得を終了するようにしてい
るが、その他の制限を設けて巡回獲得を終了するように
してもよい。例えば、獲得しハードディスク17に記憶
しているWebドキュメントの数やその容量、巡回接続に
要した時間等で巡回獲得を終了するようにしてもよい。
【0108】さらに、前述の第1の実施形態において
は、獲得したWebドキュメントの「基準情報」に対する
類似度の判定(コンセプト・ベースによる類似度判断部
分)と、すでにハードディスク17に記憶されたWebド
キュメントを含む文書ファイル等の「問い合わせ」に対
する類似度の判定を別に行ったが、同時に行うようにし
てしてもよい。これにより、Webドキュメントと保存ド
キュメントとを同時に検索することができる。
【0109】さらに、前述の第1の実施形態において
は、リンク経路によって、巡回を終了する階層が相違す
るようにしている。しかし、巡回を終了する階層を一律
に設定し、巡回したWebドキュメント全てについて、類
似度を判断し、類似度が設定した最低値を下回らなかっ
たものを「情報ボックス」に保存するようにしてもよ
い。第2の実施形態についても同様に、巡回を終了する
階層を一律に設定し、巡回したWebドキュメント全てに
ついて、特定の情報の比較をし、特定の情報が一致した
ものを「情報ボックス」に保存するようにしてもよい。
【0110】さらに、前述の第2の実施形態にいては、
リンク元Webドキュメントの情報をリンク先Webドキュメ
ントの情報とを比較する際の情報として「作成時」を選
択した場合、リンク元Webドキュメントが作成された時
を基準として、リンク先Webドキュメントがその前に作
成されたか、後に作成されたかで、保存するか否かを判
断した。しかし、リンク先Webドキュメントの作成時
が、リンク元Webドキュメントの作成時に一致するか否
かで保存するか否かを判断するようにしてもよい。
【図面の簡単な説明】
【図1】本発明にかかる情報巡回獲得装置1の実施形態
における機能ブロック図である。
【図2】パーソナル・コンピュータ1のハードウェア構
成を示す図である。
【図3】パーソナル・コンピュータ11とネットワーク
の関係を示した図である。
【図4】Webサイトの構造を示した図である。
【図5】設定開始ウィンドウW1を示す図である。
【図6】選択ウィンドウW3を示す図である。
【図7】詳細設定ウィンドウW5を示す図である。
【図8】ケジュールの設定ウィンドウW7を示す図であ
る。
【図9】新規問い合わせの設定ウィンドウW9を示す図
である。
【図10】パーソナル・コンピュータ11がWebドキュ
メントを巡回獲得する際の処理を示すフローチャートで
ある。
【図11】「コンセプトベース」による類似度判定のア
ルゴリズムを示す図である。
【図12】Webドキュメントの巡回・獲得を説明するた
めの図である。
【図13】取得したWebドキュメントの一覧を示す図で
ある。
【図14】データベースに対する検索を説明するための
図である。
【図15】比較情報設定ウィンドウW14を示す図であ
る。
【図16】パーソナル・コンピュータ51がWebドキュ
メントを巡回獲得する際の処理を示すフローチャートで
ある。
【図17】Webドキュメントの親子関係を説明するため
の図であり、Αは違うサーバーにWebドキュメントがあ
る場合、Bは同一のサーバーにWebドキュメントがある
場合を示す。
【図18】Webドキュメントの親子関係を説明するため
の図である。
【図19】従来の情報巡回獲得装置であるハイパーテキ
スト自動取得装置を示した図である。
【符号の説明】
1・・・・・情報巡回獲得装置 3・・・・・通信部 5・・・・・巡回獲得制御手段 7・・・・・獲得情報記憶部 9・・・・・類似度判定手段

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】ネットワークを介して巡回先である情報提
    供装置と通信を行う通信部、 通信部を制御して、与えられた巡回先の情報提供装置に
    順次接続し、当該情報提供装置から情報を獲得する巡回
    獲得制御手段、 巡回獲得制御手段によって獲得された獲得情報を記憶す
    る獲得情報記憶部、 を備えた情報巡回獲得装置であって、 獲得情報の基準情報に対する類似度を判定する類似度判
    定手段を設けるとともに、 前記巡回獲得制御手段は、 各巡回先の情報提供装置毎に、類似度判定手段によって
    判定された類似度に基づいて、当該獲得情報を獲得情報
    記憶部に記憶するか否かを決定すること、 を特徴とするもの。
  2. 【請求項2】ネットワークを介して巡回先である情報提
    供装置と通信を行う通信部、 通信部を制御して、与えられた巡回先の情報提供装置に
    順次接続し、当該情報提供装置に記憶されたファイルな
    らびに当該ファイルに直接または間接的にリンクされた
    他のファイルを獲得情報として獲得する巡回獲得制御手
    段、 巡回獲得制御手段によって獲得された獲得情報を記憶す
    る獲得情報記憶部、 を備えた情報巡回獲得装置であって、 獲得したファイルの基準情報に対する類似度を判定する
    類似度判定手段を設けるとともに、 前記巡回獲得制御手段は、 類似度判定手段によって判定された類似度に基づいて、
    リンクされたファイルを獲得情報記憶部に記憶するか否
    かを決定すること、 を特徴とするもの。
  3. 【請求項3】通信部を有するコンピュータによって、ネ
    ットワークを介して巡回先である情報提供装置から情報
    を獲得するための情報巡回獲得プログラムを記録した記
    録媒体であって、 通信部を制御して、与えられた巡回先の情報提供装置に
    順次接続し、当該情報提供装置から情報を獲得し、 獲得された獲得情報を獲得情報記憶部に記憶するととも
    に、 獲得情報の基準情報に対する類似度を判定し、 各巡回先の情報提供装置毎に、判定した類似度に基づい
    て、当該獲得情報を獲得情報記憶部に記憶するか否かを
    決定する処理を、コンピュータに行わせるための情報巡
    回獲得プログラムを記録したもの。
  4. 【請求項4】通信部を有するコンピュータによって、ネ
    ットワークを介して巡回先である情報提供装置から情報
    を獲得するための情報巡回獲得プログラムを記録した記
    録媒体であって、 通信部を制御して、与えられた巡回先の情報提供装置に
    順次接続し、当該情報提供装置に記憶されたファイルな
    らびに当該ファイルに直接または間接的にリンクされた
    他のファイルを獲得情報として獲得し、 獲得した獲得情報を獲得情報記憶部に記憶するととも
    に、 獲得したファイルの基準情報に対する類似度を判定し、 判定した類似度に基づいて、リンクされたファイルを獲
    得情報記憶部に記憶するか否かを決定する処理を、コン
    ピュータに行わせるための情報巡回獲得プログラムを記
    録したもの。
  5. 【請求項5】請求項2の情報巡回獲得装置または請求項
    4にかかる記録媒体において、 獲得したファイルの類似度が所定値を下回る場合には、
    当該ファイルに直接または間接的にリンクされたファイ
    ルへのそれ以上の巡回獲得を行わないようにすること、 を特徴とするもの。
  6. 【請求項6】請求項2、4または5にかかる情報巡回獲
    得装置または記録媒体において、 リンク元ファイルとリンク先ファイルとが、ディレクト
    リ構造上親子関係にない場合にだけ、リンク先ファイル
    の類似度を判定すること、 を特徴とするもの。
  7. 【請求項7】請求項2、4、5または6にかかる情報巡
    回獲得装置または記録媒体において、 獲得したファイルの基準情報に対する類似度を判定部分
    を、すでに獲得し獲得情報記憶部に記憶された獲得情報
    の問い合わせ情報に対する類似度の判定においても用い
    ること、 を特徴とするもの。
  8. 【請求項8】請求項7にかかる情報巡回獲得装置または
    記録媒体において、 基準情報として問い合わせ情報を用いること、 を特徴とするもの。
  9. 【請求項9】コンピュータによって、ネットワークを介
    して巡回先である情報提供装置から情報を獲得するため
    の情報巡回獲得プログラムを記録した記録媒体であっ
    て、 前回に巡回を行った情報提供巡回装置毎に、巡回先ファ
    イルおよびそのリンク関係を表示する処理をコンピュー
    タに行わせるためのプログラムを記録したもの。
  10. 【請求項10】ネットワークを介して巡回先である情報
    提供装置と通信を行う通信部、 通信部を制御して、与えられた巡回先の情報提供装置に
    順次接続し、当該情報提供装置に記憶されたファイルな
    らびに当該ファイルに直接または間接的にリンクされた
    他のファイルを獲得情報として獲得する巡回獲得制御手
    段、 巡回獲得制御手段によって獲得された獲得情報を記憶す
    る獲得情報記憶部、 を備えた情報巡回獲得装置であって、 前記巡回獲得制御手段は、 リンク先ファイルの情報とリンク元ファイルの情報との
    比較に基づいて、リンク先ファイルを獲得情報記憶部に
    記憶するか否かを決定することを特徴とするもの。
  11. 【請求項11】通信部を有するコンピュータによって、
    ネットワークを介して巡回先である情報提供装置から情
    報を獲得するための情報巡回獲得プログラムを記録した
    記録媒体であって、 通信部を制御して、与えられた巡回先の情報提供装置に
    順次接続し、当該情報提供装置に記憶されたファイルな
    らびに当該ファイルに直接または間接的にリンクされた
    他のファイルを獲得情報として獲得し、 獲得した獲得情報を獲得情報記憶部に記憶し、 リンク先ファイルの情報とリンク元ファイルの情報との
    比較に基づいて、リンク先ファイルを獲得情報記憶部に
    記憶するか否かを決定する処理を、コンピュータに行わ
    せるための情報巡回獲得プログラムを記録したもの。
  12. 【請求項12】請求項10または請求項11にかかる情
    報巡回獲得装置または記録媒体において、 リンク元ファイルとリンク先ファイルとが、ディレクト
    リ構造上親子関係にない場合にだけ、リンク先ファイル
    の情報とリンク元ファイルの情報との比較を行うこと、 を特徴とするもの。
  13. 【請求項13】請求項11にかかる情報巡回獲得装置ま
    たは請求項12にかかる記録媒体において、 リンク先ファイルとリンク元ファイルとの比較を、ファ
    イル作成者または情報を記述する言語またはファイル作
    成時に基づいて行うこと、 を特徴とするもの。
JP24577599A 1999-08-31 1999-08-31 情報巡回獲得装置 Pending JP2001075859A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24577599A JP2001075859A (ja) 1999-08-31 1999-08-31 情報巡回獲得装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24577599A JP2001075859A (ja) 1999-08-31 1999-08-31 情報巡回獲得装置

Publications (1)

Publication Number Publication Date
JP2001075859A true JP2001075859A (ja) 2001-03-23

Family

ID=17138642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24577599A Pending JP2001075859A (ja) 1999-08-31 1999-08-31 情報巡回獲得装置

Country Status (1)

Country Link
JP (1) JP2001075859A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099370A (ja) * 2001-09-20 2003-04-04 Human Wish:Kk インターネット上における特定又は不特定多数に対して必要な情報を随時受発信する電子メールを利用したシステム及びアプリケーションソフト
JP2003303197A (ja) * 2002-04-10 2003-10-24 Toshiba Corp 知識情報収集システムおよび知識情報収集方法
JP2007018153A (ja) * 2005-07-06 2007-01-25 Optim Corp 情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム
JP2010286888A (ja) * 2009-06-09 2010-12-24 Nec Corp 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2011129146A (ja) * 2011-01-27 2011-06-30 Optim Corp ネットワーク上の情報を自動検索する情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム
US9418166B2 (en) 2004-11-30 2016-08-16 International Business Machines Corporation Creation of structural diagram of web site based on both physical links and semantic links of web pages of web site

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207759A (ja) * 1997-01-24 1998-08-07 Sharp Corp ハイパーテキスト自動取得装置
JPH10260979A (ja) * 1997-03-18 1998-09-29 Nippon Telegr & Teleph Corp <Ntt> 情報収集方法及び装置
JPH113347A (ja) * 1997-06-11 1999-01-06 Fuji Xerox Co Ltd 情報抽出装置、情報検索方法及び情報抽出プログラムを記録した媒体
JPH1125125A (ja) * 1997-07-08 1999-01-29 Canon Inc ネットワーク情報探索装置、ネットワーク情報探索方法および記憶媒体
JPH1145257A (ja) * 1997-07-25 1999-02-16 Just Syst Corp Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11161654A (ja) * 1997-11-27 1999-06-18 Mitsubishi Electric Corp 電子文書検索処理方法と装置および電子文書検索処理プログラムを記録した記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207759A (ja) * 1997-01-24 1998-08-07 Sharp Corp ハイパーテキスト自動取得装置
JPH10260979A (ja) * 1997-03-18 1998-09-29 Nippon Telegr & Teleph Corp <Ntt> 情報収集方法及び装置
JPH113347A (ja) * 1997-06-11 1999-01-06 Fuji Xerox Co Ltd 情報抽出装置、情報検索方法及び情報抽出プログラムを記録した媒体
JPH1125125A (ja) * 1997-07-08 1999-01-29 Canon Inc ネットワーク情報探索装置、ネットワーク情報探索方法および記憶媒体
JPH1145257A (ja) * 1997-07-25 1999-02-16 Just Syst Corp Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11161654A (ja) * 1997-11-27 1999-06-18 Mitsubishi Electric Corp 電子文書検索処理方法と装置および電子文書検索処理プログラムを記録した記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099370A (ja) * 2001-09-20 2003-04-04 Human Wish:Kk インターネット上における特定又は不特定多数に対して必要な情報を随時受発信する電子メールを利用したシステム及びアプリケーションソフト
JP2003303197A (ja) * 2002-04-10 2003-10-24 Toshiba Corp 知識情報収集システムおよび知識情報収集方法
US9418166B2 (en) 2004-11-30 2016-08-16 International Business Machines Corporation Creation of structural diagram of web site based on both physical links and semantic links of web pages of web site
US10169462B2 (en) 2004-11-30 2019-01-01 International Business Machines Corporation Creation of structural diagram of web site based on both physical links and semantic links of web pages of web site
JP2007018153A (ja) * 2005-07-06 2007-01-25 Optim Corp 情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム
JP4741301B2 (ja) * 2005-07-06 2011-08-03 株式会社オプティム 情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム
JP2010286888A (ja) * 2009-06-09 2010-12-24 Nec Corp 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2011129146A (ja) * 2011-01-27 2011-06-30 Optim Corp ネットワーク上の情報を自動検索する情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム

Similar Documents

Publication Publication Date Title
KR100461019B1 (ko) 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
JP4936401B2 (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
US6493702B1 (en) System and method for searching and recommending documents in a collection using share bookmarks
US8918401B1 (en) Systems and methods for providing searchable prior history
US9135341B2 (en) Method and arrangement for paginating and previewing XHTML/HTML formatted information content
US7653623B2 (en) Information searching apparatus and method with mechanism of refining search results
US7475074B2 (en) Web search system and method thereof
JP5133984B2 (ja) 入力候補提供装置、入力候補提供システム、入力候補提供方法、および入力候補提供プログラム
EP1457898A2 (en) Data search system and method
US7124127B2 (en) Search server and method for providing search results
US20090019015A1 (en) Mathematical expression structured language object search system and search method
US7783643B2 (en) Direct navigation for information retrieval
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
US20050120114A1 (en) Content synchronization system and method of similar web pages
US7284188B2 (en) Method and system for embedding MPEG-7 header data to improve digital content queries
JPH1153392A (ja) 情報フィルタリング装置および同装置に適用される関連情報提供方法
Kazai et al. A Model for the Representation and Focussed Retrieval of Structured Documents Based on Fuzzy Aggregation.
WO2010070651A2 (en) Document information selection method and computer program product
KR20020022977A (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
JP2001075859A (ja) 情報巡回獲得装置
JP2001188802A (ja) 情報検索装置及び情報検索方法
JP2000057152A (ja) 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体
EP2411930A2 (en) A system for automatic semantic-based mining
JP4417497B2 (ja) 情報検索装置及びプログラムを記憶した記憶媒体
KR100496384B1 (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060428