JP3077615B2

JP3077615B2 - ホームページ分析表示システム

Info

Publication number: JP3077615B2
Application number: JP09005942A
Authority: JP
Inventors: 佐知子西浦
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-01-17
Filing date: 1997-01-17
Publication date: 2000-08-14
Anticipated expiration: 2017-01-17
Also published as: JPH10207758A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はユーザがインターネ
ット／イントラネット使用時のユーザインタフェース分
野に属し、特にハイパーテキスト構造をとっているイン
ターネット／イントラネット上ホームページを解析しユ
ーザに必要な情報を抽出し表示する技術に関する。

【０００２】

【従来の技術】従来の技術を説明する。

【０００３】現在、家庭においてインターネットを使用
するには、電話をかけてプロバイダに接続してインター
ネットを使用し、インターネットを使用する時間におい
ては電話代や接続先のプロバイダに使用料を支払ってい
るのが一般的である。ここでユーザがインターネット上
のホームページから必要な情報を初めて取出す際には、
まず、関連する新聞情報や雑誌に示してあるユニフォー
ムリソースロケータ（ＵＲＬ）、または一般的な検索エ
ンジン（例えばＹａｈｏｏ，Ｎｅｔｐｌａｚａ等）の結
果として得られたＵＲＬをユーザが入力してそのホーム
ページをパソコン等のブラウザによってアクセスしにい
き、自分の欲しい情報がそのホームページ内に含まれて
いるか否かを、該ＵＲＬホームページからハイパーテキ
ストのリンクをたどりブラウザでアンカー（リンクされ
たＵＲＬ）等をアクセスしながら確認し、含まれている
場合は自分の環境に取出すという方法をとっていた。

【０００４】また、通常のハイパーテキストタイプのホ
ームページにおいてユーザの欲しい情報が入手してアク
セスしたＵＲＬの場所に直接あるという場合は少なく、
欲しい情報が無い場合は他のリンクに移ったり、更に深
い階層に移ったりしながらブラウザで一つ一つアクセス
して確認していくという作業を行うことになり、入手し
たＵＲＬのホームページのリンク全てを追っても欲しい
情報が無かった場合は、違うＵＲＬを入手して再度同様
の作業をすることになっていた。

【０００５】一般的なハイパーテキストの構造を明確化
するためにリンクをたどりツリー上の階層構造にて表示
する方法（平４−３２１１４４）と、ハイパーテキスト
の検索を高速化するためにキーワード検索にてテキスト
を抽出する方法（平４−９６１５２）とを説明する。

【０００６】まず、ハイパーテキスト構造のツリー化に
おいての関連特許である「ハイパーテキストのブラウジ
ング処理装置」（平４−３２１１４４）に関して記す。
この発明は図２２に示すように、入力手段（Ａ１）によ
り入力されたデータをハイパーテキスト化手段（Ａ２）
によりハイパー化して、そのハイパーテキスト化された
データをツリー構造変換手段（Ａ３）によってツリー構
造化して、ツリー構造ブラウジング処理手段（Ａ４）に
よって前記ツリー構造変換手段により変換された結果を
ノードの名称として上位ノードから下位ノードになるに
従いインデントを付けて、さらにノード毎にノードに下
位階層がある場合は「−」、無い場合は「＋」を添付し
て、出力手段（Ａ５）に表示させる。このことによって
ハイパーテキスト全体の構成を一つ一つ追わなくてもツ
リー構造をみることによって把握することが可能であ
る。

【０００７】次にキーワード検索によるハイパーテキス
トの検索に関しての関連特許である「ハイパーテキスト
システム」（平４−９６１５２）に関して記す。この発
明は、あらかじめ存在するハイパーテキストデータに対
しキーワードとファイルとの対応表をキーワードテーブ
ルとして作成しておき、そのテーブルを参照することに
よりハイパーテキストの検索を行うことが可能になるも
ので、図２３に示すように、入力手段（Ｂ１）によりユ
ーザから入力されたキーワードに対し、処理手段（Ｂ
２）が、前記キーワードテーブル（Ｂ３）内に格納され
ているキーワードと前記入力手段から入力されたキーワ
ードとが一致した場合に該キーワードに対応するファイ
ルの内容を出力手段（Ｂ４）に出力させる。

【０００８】

【発明が解決しようとする課題】第１の問題点は、イン
ターネットアクセス時に自分の欲しい情報が含まれてい
るページを探したい時に、特に自分の欲しいキーワード
によって検索をしたくても（例えば「○×美術館」）、
一般の検索エンジンの検索カテゴリーの持つキーワード
と一致しない場合には何も検索結果が得られず、抽象的
な言葉、似たようなキーワード（ここでは「美術館」）
で検索しなくてはならないことである。この場合、得ら
れたＵＲＬ（美術館関係の複数のＵＲＬ）のホームペー
ジに対してハイパーテキスト状に広がるリンクを一つ一
つブラウザでアクセスして確認していく作業が必須とな
り、必要な情報を時間をかけて探しても見つけ出せなか
ったり、見つけるまでに不必要なページに何度もアクセ
スしなければならないこととなる。

【０００９】その理由は、欲しい情報がユーザが入手し
たＵＲＬのホームページに含まれているか否かを確認す
るのに必要な情報が、検索エンジンから得られるＵＲＬ
の名前や添付される概要等の情報のみでは不十分である
ことが多い為である。

【００１０】第２の問題点は、ユーザに入手したＵＲＬ
のホームページのハイパーテキスト構造がどうなってい
るかをツリー状に表示してあげる技術だけでは、ユーザ
のどのページに自分の欲しい情報が含まれているかとい
う確実な判断には結びつかないということである。

【００１１】その理由は、インターネット上のホームペ
ージはホームページ作成者が独自のセンスによって作成
しており、ハイパーテキストの構造は自由に決めている
ので、例えばハイパーテキストの構造が綺麗なツリー構
造になっていたとしても、抽象概念がその具象概念の上
位ノードになっている等の決まりがなく実際にはホーム
ページの文字をアクセスしてブラウザで確認する必要が
生じる為である。

【００１２】第３の問題点は、従来のハイパーテキスト
検索技術のようなキーワード検索方法が有ったとして
も、その検索方法に合うようにサーバ側にあるホームペ
ージに対し検索できるしくみを作成しなくては使うこと
ができないということである。

【００１３】その理由は、検索するキーワードをユーザ
の希望する任意の言葉にするためにはサーバ側の方から
ホームページ全てに対して、ホームページに含まれる全
ての言葉に対して検索のしくみを加工することになり現
実的には困難であるということである。

【００１４】

【課題を解決するための手段】本発明の請求項１のホー
ムページ分析表示システムは、図２０に示すとおり、入
力手段３と出力手段１２とを有する情報処理システムに
おいて、インターネットアクセス手段１と、アクセスデ
ータ一時保存手段２と、分析手段６と、アンカー抽出手
段７と、アンカー保存手段８と、採番手段９と、データ
整理手段１０と、表示データ保存手段１１とを持つシス
テムである。

【００１５】インターネットアクセス手段１が入力手段
３から入力され、アンカー保存手段８内に保存してある
アンカーに対しアクセスし、取り込んだデータをアクセ
スデータ一時保存手段内に保存する。前記アクセスデー
タ一時保存手段内に保存してあるデータに対し、分析手
段６が分析をかけタイトル等必要なデータを分析する。
アンカー抽出手段７は、該データ内の中からＨＴＭＬフ
ァイルがリンク先であるようなアンカーを抽出し、アン
カー保存手段８内に保存しておく。

【００１６】採番手段９は該データに対して表示し易い
よう採番する。

【００１７】データ整理手段１０は該分析手段によって
分析された結果と該採番手段によって採番された番号等
を整理して表示データ保存手段１１内に保存する。

【００１８】次に、アンカー保存手段内に保存してある
アンカーの先頭を取出し、且、アンカー保存手段内から
消し、該記インターネットアクセス手段がアクセスしに
行き一連の動作を繰り返し、前記アンカー保存手段内に
あるアンカーがなくなるまで作業を継続し、該アンカー
保存手段内のアンカーがなくなれば出力手段に前記表示
データ保存手段内のデータを出力して終了する。

【００１９】本発明の請求項２のホームページ分析表示
システムは、図２１に示すとおり、入力手段３と出力手
段１２とを有する情報処理システムにおいて、インター
ネットアクセス手段１と、アクセスデータ一時保存手段
２と、分析手段６と、アンカー抽出手段７と、アンカー
保存手段８と、表示データ保存手段１１とを持ち、キー
ワード保存手段４と、マッチング手段５とを持つシステ
ムである。

【００２０】インターネットアクセス手段１が入力手段
３から入力しアンカー保存手段内に保存してあるアンカ
ーに対しアクセスしに行き、取り込んだデータをアクセ
スデータ一時保存手段内に保存する。アクセスデータ一
時保存手段内に保存してあるデータに対し、分析手段６
が分析をかけ、アンカー抽出手段が該データ内の中から
ＨＴＭＬファイルがリンク先であるようなアンカーを抽
出し、前記アンカー保存手段内に保存しておく。さらに
入力手段３により入力されたキーワード保存手段４内に
保存されているキーワードに対し、該分析手段によって
分析されたデータとのマッチングが成立するか否かをマ
ッチング手段５が実行し、結果を表示データ保存手段内
に保存する。

【００２１】次に、前記アンカー保存手段内に保存して
あるアンカーの先頭を取出し、且、前記アンカー保存手
段内から消し、前記インターネットアクセス手段がアク
セスしに行き一連の動作を繰り返し、前記アンカー保存
手段内にあるアンカーがなくなるまで作業を継続する。
該アンカー保存手段内のアンカーがなくなれば出力手段
に前記表示データ保存手段内のデータを出力して終了す
る。

【００２２】

【発明の実施の形態】本発明の実施形態を図面を元に説
明する。

【００２３】図１は本発明の一実施形態のブロック図で
ある。

【００２４】１はインターネットアクセス手段、２はア
クセスデータ一時保存手段、３は入力手段、４はキーワ
ード保存手段、５はマッチング手段、６は分析手段、７
はアンカー抽出手段、８はアンカー保存手段、９は採番
手段、１０はデータ整理手段、１１は表示データ保存手
段、１２は出力手段である。

【００２５】図２は図１の実施形態の処理の流れを示す
流れ図である。図１のブロック図を元に、図２の流れ図
に合わせて説明する。

【００２６】まず図２のステップ１３では、入力手段３
によって入力されたＵＲＬは、アンカー保存手段８にア
ンカー（リンクしてあるＵＲＬ）として保存される。ス
テップ１４では、インターネットアクセス手段１は、ア
ンカー保存手段８内にあるアンカーをアクセスし、ステ
ップ１５でアクセスデータ一時保存手段２の中に一時的
に保存される。

【００２７】ステップ１６では、分析手段６はアクセス
データ一時保存手段２の中に保存されているデータを取
出し、ＨＴＭＬの文法に依存するテキストを除いたりし
てタイトル等の必要なデータを分析する。ステップ１７
では、アンカー抽出手段７は分析されたデータの中から
次にアクセスするＨＴＭＬファイルとするために画像等
の不必要なアンカー以外のアンカーを抽出し、アンカー
保存手段８に保存する。次にステップ１８で、マッチン
グ手段５は、キーワード保存手段４に保存されてあるキ
ーワードと分析手段６により分析されたデータとをマッ
チングさせる処理を行う。

【００２８】分析手段６により分析され、マッチング手
段５によりマッチング処理されたデータは、ステップ１
９でデータ整理手段１０により表示すべきデータと表示
しないデータとに整理される。ついでステップ２０で
は、採番手段９により表示しやすいよう採番された番号
と共に表示データ保存手段１１に保存される。

【００２９】ここで、ステップ２１での判定によりアン
カー保存手段８に保存されているアンカーがあれば、処
理はステップ２３に進み保存されているアンカーの中の
先頭の一つをインターネットアクセス手段１がアクセス
できるようにセットする。アンカー保存手段８内にアン
カーが一つも無ければ一連の処理によって保存された表
示データ保存手段１１内の表示データを出力手段１２に
よって出力させ（ステップ２２）、終了処理を行い（ス
テップ２４）、終了する。

【００３０】次にキーワードの入力及び保存に関して具
体的な例を用いて説明する。

【００３１】図３はキーワード入力及び保存の流れ図、
図４は本発明の一具体例の入力画面イメージの例、図５
は入力されたキーワードがキーワード保存手段４内に保
存されている際の具体的な例の概念図である。

【００３２】具体的にここではユーザが「鈴木のホーム
ページ」というホームページの中からスキーのページを
情報として抽出したいと考えているとする。

【００３３】ユーザは図３の流れ図に示したように、入
力手段３によりユーザがマッチングしたいキーワードを
入力させる（ステップ３１）。例として３件のキーワー
ドを入力できるものとする。この時、ユーザは図４の４
１のような初期画面に対してマッチングさせたいキーワ
ードとして具体的に「鈴木」「スキー」と入力し、アク
セスする為のホームページのアドレスとして「ＷＷＷ．
ＳＵＺＵＫＩ．ＣＯＭ」という「鈴木のホームページ」
のＵＲＬを入力する。入力後の画面イメージは図４の４
２の通りである。この入力されたキーワードはキーワー
ド保存手段４に図５のような概念図の通り「番号：キー
ワード」の組み合わせで「１：鈴木」「２：スキー」
「３：」というように保存されている。

【００３４】ここで、この「鈴木のホームページ」を参
照して具体的に説明することにする。

【００３５】図６はキーワードマッチングする時の流れ
図で、図７は「鈴木のホームページ」の構成図で、図８
は構成要素となる一つ一つのファイルをアクセスしてブ
ラウザで見た時のイメージ図で、図９は「鈴木のホーム
ページ」のＩＮＤＥＸ．ＨＴＭＬファイルのソースリス
トの概念図、図１０はＳＨＵＭＩ．ＨＴＭＬファイルの
ソースの概念図、図１１はＳＩＧＯＴＯ．ＨＴＭＬファ
イルのソースの概念図、図１２はＩＥ．ＨＴＭＬファイ
ルのソースの概念図、図１３はＳＫＩ．ＨＴＭＬファイ
ルのソースの概念図、図１４はＯＮＧＡＫＵ．ＨＴＭＬ
ファイルのソースの概念図、図１５はＫＡＺＯＫＵ．Ｈ
ＴＭＬファイルのソースの概念図であり、図１６はアン
カー保存手段８に保存されているアンカー群の概念図
で、図１７、図１８は表示データ保存手段１０内に保存
されているデータの概念図で、図１９は表示結果イメー
ジ図である。

【００３６】まず、図４の画面イメージ４２にあるよう
に、ユーザが「鈴木のホームページ」のＵＲＬである、
「ＷＷＷ．ＳＵＺＵＫＩ．ＣＯＭ」を入力したとき、入
力手段３は該ＵＲＬをアンカーとしてアンカー保存手段
８に保存する。アンカー保存手段８は現在図１６の１６
１の通り、アンカー保存手段８内にＩＮＤＥＸ．ＨＴＭ
Ｌという名前のＨＴＭＬファイルへのアンカー一つが保
存されているため、中から該アンカーを取出してアンカ
ー保存手段８の中から消して（図２のステップ１３）、
インターネットアクセス手段１は該アンカーに対してア
クセスしてデータを取り込む。この時取り込まれたデー
タはＩＮＤＥＸ．ＨＴＭＬという名前のファイルで図９
のようなソースが記述されており、それをブラウザで見
た場合は図８のイメージ８１のようになっている。

【００３７】この「鈴木のホームページ」は全体は図７
の構成図通りであり、ＩＮＤＥＸ．ＨＴＭＬのファイル
は「鈴木のホームページ」からたどれるツリー構造の一
番上のファイルとなっており、ＩＮＤＥＸ．ＨＴＭＬフ
ァイルの下位にＳＨＵＭＩ．ＨＴＭＬファイル、ＳＩＧ
ＯＴＯ．ＨＴＭＬファイル、ＩＥ．ＨＴＭＬファイルが
あり、ＳＨＵＭＩ．ＨＴＭＬファイルの下位にＳＫＩ．
ＨＴＭＬファイル、ＯＮＧＡＫＵ．ＨＴＭＬファイルが
あり、ＩＥ．ＨＴＭＬファイルの下位にＫＡＺＯＫＵ．
ＨＴＭＬファイルがあるという構造になっている。

【００３８】取り込まれたＩＮＤＥＸ．ＨＴＭＬはアク
セスデータ一時保存手段２内に一時的に保存される（図
２のステップ１５）。分析手段６はアクセスデータ一時
保存手段２内に保存されているＩＮＤＥＸ．ＨＴＭＬを
分析し、図９のソース９１の中からＨＴＭＬ文法用語等
を取り除き、＜ＴＩＴＬＥ＞と＜／ＴＩＴＬＥ＞で囲ま
れた文字列をタイトルとして抽出する。この時タイトル
は「鈴木」となっている（図２のステップ１６）さらにアンカー抽出手段７がリンク先のファイル名が記
述してあるアンカーの中からＨＴＭＬファイルへのアン
カーを抽出する。ここでは、“ＳＨＵＭＩ．ｈｔｍｌ”
が文字列「趣味のページ」にリンクされているため抽出
され、“ＳＩＧＯＴＯ．ｈｔｍｌ”が文字列「仕事のペ
ージ」にリンクされているので抽出、“ＩＥ．ｈｔｍ
ｌ”が文字列「家のページ」にリンクされているので抽
出され、アンカー保存手段８に保存されるが“ＳＵＺＵ
ＫＩ．ｇｉｆ”は画像へリンクするアンカーなので抽出
されない（図２のステップ１７）。

【００３９】この時のアンカー保存手段８内は図１６の
１６２に示す通りＳＨＵＭＩ．ＨＴＭＬ、ＳＩＧＯＴ
Ｏ．ＨＴＭＬ、ＩＥ．ＨＴＭＬの３つのアンカーが保存
されている。

【００４０】次に、マッチング手段５が分析手段６によ
って分析されたデータに対し、キーワード保存手段４内
に保存されているキーワードとマッチングを行う。ここ
では図４の４２の入力にて入力した「鈴木」「スキー」
というキーワードが図５のイメージ５１のようにキーワ
ード保存手段４内に保存されているものとする。

【００４１】マッチング手段５は、図６のステップ６１
で、まず初めＮに１をセットして、ついでステップ６２
で、１番目のキーワードがキーワード保存手段４内にあ
るか否かを確かめる。ここでは図５に示した通り、「鈴
木」というキーワードが入っているので、「鈴木」を取
出し、マッチングを行う。ここではタイトル「鈴木」に
マッチしているので１番のキーワードがマッチングした
旨を表す印を付け（ステップ６５）、ここではキーワー
ドは３件入力できる例を使用しているため、キーワード
の番号が３かどうか判断し、今の番号は１番なので１に
＋１して２として（ステップ６７）キーワード保存手段
４の中を見に行く。ここでも２番目のキーワード「スキ
ー」が存在するので、「スキー」を取出し（ステップ６
３）マッチングを行う。

【００４２】この「スキー」のキーワードは含まれてい
ない為（ステップ６４）、ステップ６６のＮが３かどう
かの判定を行い、まだ２番目なのでＮＯに進み、２に＋
１して３番目のキーワードがあるかどうか見にいく。

【００４３】もし３番目のキーワードがあるのなら、Ｙ
ＥＳに進み、ステップ６３で３番目のキーワードを取出
し、マッチングを行い（同ステップ６４）マッチングし
た場合は、３番目のフラグを付け、マッチングしない場
合はＮが３かどうか判断され３であるのでマッチング処
理は終了する。

【００４４】ここでは図５に示すように、３番目のキー
ワードは保存れていないのでＮＯに進みキーワードマッ
チング処理を終了させる。

【００４５】採番手段９によって今まで処理してきたＩ
ＮＤＥＸ．ＨＴＭＬファイルに番号を付ける。ここでは
図７に示すように、一番上位のファイルのため「０」と
いう番号が付けられ、さらに先ほど抽出したタイトル、
キーワードのマッチングした番号のフラグ等を見てデー
タを図１７の１７１のように「番号：０、ファイル名：
ＩＮＤＥＸ．ＨＴＭＬ、タイトル：鈴木、リンク元テキ
スト：」とデータ整理手段１０によって整理され（図
２のステップ１９）、ステップ２０で表示データ保存手
段１１に保存する。

【００４６】ステップ２１では、アンカー保存手段８内
にアンカーがあるかのチェックに行き、図１６の１６２
のようにアンカーがあるので、一番上のＳＨＵＭＩ．Ｈ
ＴＭＬのアンカーを取出して、ステップ２３でアンカー
保存手段８内から消し、ステップ１４でインターネット
アクセス手段１がアクセスしに行き、アクセスデータ一
時保存手段２内に保存し（図２のステップ１５）、分析
手段６が図１０のソース１０１を分析して（ステップ１
６）、タイトルが「趣味」を抽出し、アンカー抽出手段
７が、“ＳＫＩ．ｈｔｍｌ”が「スキーのページ」にリ
ンクされ“ＯＮＧＡＫＵ．ｈｔｍｌ”が「音楽のペー
ジ」というテキストにリンクされているのでアンカーと
して抽出し、アンカー保存手段８内に保存する（図２の
ステップ１７）。

【００４７】この時のアンカー保存手段８内は図１６の
１６３のようになる。

【００４８】次に、マッチング手段５がキーワード保存
手段４内のキーワードとマッチングを行い、ここでは２
番目のキーワード「スキー」がマッチングしたので２番
目のフラグが添付される（ステップ１８）。

【００４９】採番手段９はＳＨＵＭＩ．ＨＴＭＬに対し
て図７に示すように、このホームページの最上位であり
０番と採番されたＩＮＤＥＸ．ＨＴＭＬファイルの次の
ランクであるので０番の下ということで「０−」が添付
され、かつソース９２や８１で示すように他のアンカー
よりも一番先に出力されるため１番ということで「０−
１」という番号を採番する。

【００５０】ステップ１９では、データ整理手段１０が
一連の処理を整理し、「番号：０−１、ファイル名：Ｓ
ＨＵＭＩ．ＨＴＭＬ、タイトル：趣味、リンク元テキス
ト：趣味のページ、マッチング：２」というような１７
２の形にまとめられ、このまとめられたデータはステッ
プ２０で表示データ保存手段１１に保存される。

【００５１】アンカー保存手段８内は図１６の１６３の
ようになっているので、先頭にあるＳＩＧＯＴＯ．ＨＴ
ＭＬファイルをインターネットアクセス手段１がアクセ
スし、図１１のソースファイル１１１を得て（ステップ
１４）、アクセスデータ一時保存手段２に保存し（ステ
ップ１５）、分析手段６が分析しタイトル「仕事」を抽
出し、アンカーがないのでアンカー抽出手段７は何もア
ンカー保存手段８に入れずに、マッチング手段５がキー
ワードマッチングし、ここでは何もマッチしないためフ
ラグは何も付けずに、採番手段９により図７に示すデー
タ構造の通り「０−２」が採番されデータ整理手段１０
によってデータが１７３のように整理され（ステップ１
９）、ステップ２０で表示データ保存手段１１に保存さ
れる。

【００５２】アンカー保存手段８の中は図１６の１６４
のようになっているので、先頭にあるＩＥ．ＨＴＭＬが
インターネットアクセス手段１によってアクセスされ１
２１のファイルがアクセスデータ一時保存手段２内に保
存され（ステップ１５）、分析手段６によってタイトル
「家」が取出され、アンカー抽出手段７によって“ＫＡ
ＺＯＫＵ．ｈｔｍｌ”が文字列「家族のページ」にリン
クされているため抽出し（図２のステップ１７）、アン
カー保存手段８に保存される。ここでのアンカー保存手
段８の中味は図１６の１６５のようになっている。さら
にマッチング手段５によりマッチング処理がされるが、
ここでは何もマッチングしない。

【００５３】採番手段９がＩＥ．ＨＴＭＬに対して番号
「０−３」を採番し、データ整理手段１０が図１７の１
７４のようにデータを整理し（ステップ１９）、表示デ
ータ保存手段１１に保存する（ステップ２０）。アンカ
ー保存手段８の中にアンカーがあるか否かチェックしに
いき（ステップ２１）、ここでは図１６の１６５のよう
なアンカーがあるので先頭のＳＫＩ．ＨＴＭＬをアクセ
スしに行く。

【００５４】図１３の１３１のようなファイルが得ら
れ、アクセスデータ一時保存手段２に保存され、分析手
段６によってタイトル「スキー」が得られ、アンカーは
ないので抽出されず、マッチング手段５がキーワードマ
ッチングに行くと、図５のようにキーワード保存手段内
にあるキーワードの２番「スキー」とマッチするので２
番のフラグが添付され、採番手段９によってＳＫＩ．Ｈ
ＴＭＬには番号「０−１」の下位のランクの一番上に出
現するアンカーなので、番号「０−１−１」が採番され
データ整理手段１０によって図１７の１７５のようにデ
ータが整理され（ステップ１９）、表示データ保存手段
１１に保存される。

【００５５】アンカー保存手段８は図１６の１６６のよ
うになっているので、先頭のＯＮＧＡＫＵ．ＨＴＭＬが
アクセスされ図１４のファイル１４１が一時保存され、
分析されタイトル「音楽」抽出されアンカーがないので
そのまま進み（ステップ１７）、キーワードもマッチン
グしないので（ステップ１８）そのまま進み、採番手段
９によって番号「０−１−２」が付けられ、データ整理
手段１０によってデータが図１７の１７６のように整理
され、表示データ保存手段１１内に保存される。

【００５６】アンカー保存手段８の中は図１６の１６７
のようにＫＡＺＯＫＵ．ＨＴＭＬが入っており、アクセ
スしに行き、図１５のファイル１５１が一時保存され、
分析手段６により分析され（ステップ１６）、アンカー
が画像へのもの以外は無いのでアンカー抽出されず、ア
ンカー保存手段８の中には何も保存しないで、マッチン
グ手段５によってキーワードマッチング処理がされこの
ファイルにはマッチングするキーワードが含まれておら
ず、採番手段９によって番号「０−３−１」が採番さ
れ、データ整理手段１０によってデータが整理され、表
示データ保存手段１１に図５のようなデータが保存され
る（ステップ２０）。アンカー保存手段８にアンカーが
あるか見に行くと、アンカーが無いのでＮＯに進み（ス
テップ２１）、表示データ保存手段１１内にあるデータ
を出力手段１２により出力させる。

【００５７】ステップ２２では、図１７にあるようなデ
ータを出力する。

【００５８】ここでは図１８の例のように、「鈴木のホ
ームページ」の構造だけでなく、どんなページなのかを
ユーザに提示するために、タイトルやファイル名、リン
ク元のテキストまでを出力し、さらに、ユーザによって
入力されたキーワードに関してユーザの目でａｎｄ／ｏ
ｒが判断つくように並べて表示させている。また、キー
ワードがマッチしたファイルのみ直ぐにみれるようにそ
の部分をソートさせて表示することも可能になってい
る。

【００５９】このように表示データ保存手段１１内にあ
る表示データを出力させた後一連の作業が終了する。終
了作業として、ステップ２４ではアクセスデータ一時保
存手段２内のデータをクリアさせる等を行う。

【００６０】本発明のホームページ分析表示システムは
請求項１と請求項２とを合わせると、入力システムと出
力システムとを有する情報処理システムにおいて、イン
ターネットアクセス手段と、アクセスデータ一時保存手
段と、分析手段と、アンカー抽出手段と、アンカー保存
手段と、採番手段と、データ整理手段と、表示データ保
存手段と、キーワード保存手段と、マッチング手段とを
有する構成となっている。

【００６１】インターネットアクセス手段が入力手段か
ら入力した又はあらかじめ登録してあるアンカー保存手
段内に保存してあるアンカーであるＵＲＬに対しアクセ
スしに行く。取り込んだデータはアクセスデータ一時保
存手段内に保存する。このアクセスデータ一時保存手段
内に保存してあるデータを、分析手段は分析し、データ
の中の不必要な文法を取り除いたり、データに付随して
いる不必要なヘッダーをとり除く作業を行う。アンカー
抽出手段は分析手段によって不必要なものが取り除かれ
たデータに対し、中からアンカーを抽出し、アンカー保
存手段内に保存しておく。

【００６２】さらに、入力手段により入力されたまたは
予め登録されていたキーワード保存手段内に保存されて
いるキーワードに対し、分析手段によって分析されたデ
ータの中に含まれているか否かをマッチング手段が判定
する。含まれている場合は含まれる旨の印を付ける。こ
こではキーワードとして３件の入力及びマッチングを行
っているが数は必要に応じて変更できる仕組みを入れる
ことも考えられる。

【００６３】採番手段は該データに採番し、データ整理
手段によって該分析手段によって分析された結果及び該
マッチング手段によって該キーワードとのマッチング結
果と共に整理され表示データ保存手段内に保存される。

【００６４】アンカー保存手段内に保存してあるアンカ
ーを一つ一つ前記インターネットアクセス手段がアクセ
スしに行き一連の動作を繰り返し、前記アンカー保存手
段内にあるアンカーがなくなるまで作業を継続し、該ア
ンカー保存手段内のアンカーがなくなれば出力手段に前
記表示データ保存手段内のデータを出力して終了する。
ここではデータを全て表示しているが、キーワードが含
まれていたようなデータのみ表示する等表示の仕方を変
更できる仕組みをユーザに提供することも考えられる。

【００６５】

【発明の効果】第１の効果は、インターネットをアクセ
スして自分の欲しい情報が含まれているページを探した
い時に、一般の検索エンジンに対して抽象的な言葉、似
たようなキーワードで検索した場合であったり、得られ
た結果が複数のＵＲＬであったとしても、それらのＵＲ
Ｌのホームページに対してハイパーテキスト状に広がる
リンクを一つ一つブラウザでアクセスして確認していく
作業をしなくてすみ、作業工数が節約できることであ
る。また、必要でないページにはアクセスしなくてよい
ため、不必要なページへの画像等へのアクセスを省くこ
とができアクセス時間も節約することができるというこ
とである。

【００６６】その理由は、欲しい情報が本当にユーザが
入手したＵＲＬのホームページの構造に含まれているか
否かを確認させるために、本発明によって、ユーザの直
接必要な情報のキーワードを入力してもらいそのキーワ
ードが含まれているか否かを全文検索してマッチングさ
せ結果を表示するので、マッチした結果だけをユーザが
選択してアクセスすることができる為である。

【００６７】第２の効果は、ユーザに入手したＵＲＬの
ホームページのハイパーテキスト構造がどうなっている
かをツリー状に表示してあげるだけでなく、どのページ
に自分の欲しい情報が含まれているかという判断がツリ
ー構造と共に表示された情報から判断することが可能に
なったということである。

【００６８】その理由は、インターネット上の作成者が
任意に作成したホームページはホームページごとに作成
概念が違うのでホームページのデータのファイル名や中
味のタイトルだけでなく該ファイルへのリンク元が使用
していた該ファイルの説明となるようなテキストをも表
示することによりそのホームページの階層及び内容の概
要が判明できる為である。

【００６９】第３の効果は、従来のハイパーテキスト検
索技術のようなキーワード検索方法をサーバ側にあるホ
ームページに対し組み込む作業を何もせずに、どんな形
態のホームページにでもユーザが希望するキーワードに
対し検索できるということである。

【００７０】その理由は、クライアント側のソフトとし
てＨＴＭＬファイルをアクセスしてユーザが入力したキ
ーワードと全文検索させるふるまいをＨＴＭＬの文法に
依存して行い、なおかつハイパーテキスト状のリンク先
もたどりながら行うためである。

【図面の簡単な説明】

【図１】本発明の一実施例のブロック図である。

【図２】本発明の一実施例の流れ図である。

【図３】キーワード入力及び保存の流れ図である。

【図４】入力画面イメージの例である。

【図５】入力されたキーワードがキーワード保存手段内
に保存されている際の具体的な例の概念図である。

【図６】キーワードマッチングする時の流れ図である。

【図７】「鈴木のホームページ」の構成図である。

【図８】構成要素となる一つ一つのファイルをアクセス
してブラウザで見た時のイメージ図である

【図９】「鈴木のホームページ」のＩＮＤＥＸ．ＨＴＭ
Ｌファイルのソースリストの概念図である。

【図１０】ＳＨＵＭＩ．ＨＴＭＬファイルのソースの概
念図である。

【図１１】ＳＩＧＯＴＯ．ＨＴＭＬファイルのソースの
概念図である。

【図１２】ＩＥ．ＨＴＭＬファイルのソースの概念図で
ある。

【図１３】ＳＫＩ．ＨＴＭＬファイルのソースの概念図
である。

【図１４】ＯＮＧＡＫＵ．ＨＴＭＬファイルのソースの
概念図である。

【図１５】ＫＡＺＯＫＵ．ＨＴＭＬファイルのソースの
概念図である。

【図１６】アンカー保存手段に保存されているアンカー
群の概念図である。

【図１７】表示データ保存手段内に保存されているデー
タの概念図である。

【図１８】表示データ保存手段内に保存されているデー
タの概念図である。

【図１９】表示結果イメージ図である。

【図２０】本発明の請求項１のクレーム対応図である。

【図２１】本発明の請求項２のクレーム対応図である。

【図２２】第１の従来技術を示すブロック図である。

【図２３】第２の従来技術を示すブロック図である。

【符号の説明】

１インターネットアクセス手段２アクセスデータ一時保存手段３入力手段４キーワード保存手段５マッチング手段６分析手段７アンカー抽出手段８アンカー保存手段９採番手段１０データ整理手段１１表示データ保存手段１２出力手段Ａ１入力手段Ａ２ハイパーテキスト化手段Ａ３ツリー構造変換手段Ａ４ツリー構造ブラウジング処理手段Ａ５出力手段Ｂ１入力手段Ｂ２処理手段Ｂ３キーワードテーブルＢ４出力手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ０６Ｆ 15/40 ３８０Ｚ (56)参考文献特開平８−305729（ＪＰ，Ａ) 特開平４−321144（ＪＰ，Ａ) 特開平８−263402（ＪＰ，Ａ) 特開平４−96152（ＪＰ，Ａ) 野口他，「探索型ナビゲーションを実現したホームページ知的探索システムの開発」，情報処理学会シンポジウム論文集Ｖｏ．96 Ｎｏ．11，1996（平08− 12−05），ｐ．91−98 八田，「Ｑ＆Ａ：インターネット上の”ロボット”とは？」，日経コミュニケーションＮｏ．224，1996（平08− 06−17），ｐ．196−197 ユーデル，「ＢＹＴＥ誌のＩｎｔｅｒｎｅｔプロジェクト第13回１年間の実践を総括する」，日経バイトＮｏ. 155，1996（平08−08−22），ｐ．309− 313 林他，「ＷＷＷ情報検索サービスの技術展開」，人工知能学会ホットトピックスと並列人工知能研究会資料Ｖｏｌ. ２，1996（平08−11−22），ｐ．５−10 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 12/00 G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】通信ネットワークを介してHTML（Hyper
Text Markup Language 以下HTML）言語により記述され
ているとともにタイトル情報を含むＷｅｂページにアク
セスするアクセス手段と、前記アクセス手段に、ルートのＷｅｂページおよび該Ｗ
ｅｂページに階層的にリンクするとともにそれぞれタイ
トル情報を含むＷｅｂページをアクセスさせ、アクセス
したＷｅｂページの階層構造を検出する分析手段と、前記分析手段が検出した前記階層構造を形成するＷｅｂ
ページ毎に、ユーザが入力したキーワードを検索する検
索手段と、前記階層構造を形成するＷｅｂページ毎に、前記Ｗｅｂ
ページを示す表示データを作成するデータ整理手段と、前記表示データを出力する出力手段とを有し、前記表示データには、対応するＷｅｂページに前記キー
ワードが含まれているか否かを示す情報および対応する
Ｗｅｂページのタイトル情報が含まれていることを特徴
とするホームページ分析表示システム。
【請求項２】前記階層構造が前記表示データにより示
されていることを特徴とする請求項１記載のホームペー
ジ分析表示システム。