JPH10207756A - ホームページの構成を分析する方法およびその装置 - Google Patents

ホームページの構成を分析する方法およびその装置

Info

Publication number
JPH10207756A
JPH10207756A JP9005368A JP536897A JPH10207756A JP H10207756 A JPH10207756 A JP H10207756A JP 9005368 A JP9005368 A JP 9005368A JP 536897 A JP536897 A JP 536897A JP H10207756 A JPH10207756 A JP H10207756A
Authority
JP
Japan
Prior art keywords
homepage
home page
configuration
url
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9005368A
Other languages
English (en)
Inventor
Shigeru Saito
繁 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9005368A priority Critical patent/JPH10207756A/ja
Publication of JPH10207756A publication Critical patent/JPH10207756A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】ホームページ構成分析の処理速度を向上させ
る。 【解決手段】ホームページ取得手段4は、入力URLの
示すホームページに該当するファイルを、ネットワーク
等から取得する。ホームページ分類手段21は、取得フ
ァイルがHTML形式か否かを判定する。ホームページ
構成分析手段22は、ファイルの内容を走査し、アンカ
ータグやイメージタグなどが存在するか否かを調べて、
ホームページの構成を分析する。これらのタグが存在し
た場合、アンカー分析手段23は、タグの示すURLを
分析し、URLの示すホームページを検出する。次に、
タスク管理手段24は、該URLの示すホームページの
構成分析を別のタスクで開始する。ホームページの構成
は、構成表示データ生成手段25により、出力手段5に
表示される。

Description

【発明の詳細な説明】
【発明の属する技術分野】本発明は、ホームページ構成
分析装置に関し、特にアンカータグに関する処理を高速
におこなうホームページ構成分析装置に関する。
【0001】
【従来の技術】ホームページと同様の構造を持つものと
して、ハイパーテキストなどを挙げることができる。従
来、この種のハイパーテキストの構成を分析する装置
は、たとえば、特開平4−321144号公報に示され
るように、複雑なハイパーテキストの構成をユーザが容
易に理解できるようにするために用いられている。
【0002】次に、本第1の従来例について図面を参照
して説明する。図21は、第1の従来例の構成を示すブ
ロック図である。図21を参照すると、第1の従来例
は、入力部101と、入力処理部102と、ハイパーテ
キスト作成編集部103と、ブラウジング処理部104
と、表示処理部105と、表示部106とから構成され
る。
【0003】ブラウジング処理部104は、ネットワー
ク構造/ツリー構造変換部141とツリー構造ブラウジ
ング処理部142とを備える。
【0004】次に、図21ないし、図24を参照して、
第1の従来例の動作について説明する。図22は、第1
の従来例の処理の流れを示すフローチャートである。図
23は、ハイパーテキストの構成の一例を示した図であ
る。図24は、ハイパーテキストの構成を分析した後、
画面に表示する内容の一例を示した図である。
【0005】図23のような構成をもつハイパーテキス
トが入力された場合、ある任意の値i(に対応するカー
ド)を値1(に対応するカード)として初期設定する
(図22、ステップV1)。次に変数レジスタNODE
にNODExi(カードiをNODEx としたときの、こ
のNODEx に対するi番目の子ノードであり、ここで
はNODEx1)を設定する(ステップV2)。これに次
いで、変数レジスタNODEの内容(即ち、NODEx
1)がNULL(ゼロ)でないか否かの判定をする(ス
テップV3)。この判定の結果がNULLであったとき
(NOのとき)には前記の処理が終了する(ステップV
12)。
【0006】前記判定の結果がNULLではなかったと
き(YESのとき)には次のループチェック(ステップ
V4)に移行し、このループチェックの結果としてルー
プが見出された(LOOP FOUND)ときには先の
ステップV2に戻る。前記ループチェックの結果がOK
(ループが見出されなかった)ときには、次のステップ
V5に移行して、先のステップV2で指定したNODE
x1に対する子ノードがNULLでないか否かの判定(即
ち、NODEx1が1個以上のノード(例えばNODEx1
1 )をもつかどうかの判定)をする。この判定の結果が
NULLであった(NO)ときにはステップV11にお
いて“−”記号を付する。前記判定の結果がNULLで
なかった(YES)ときにはステップV6において
“+”記号を付する。
【0007】次のステップV7においては、NODEx
に対するインデントに1(ある任意の単位長)を加え
て、これを現在のインデントとする。次のステップV8
においては、NODEx の番号としての章番号(カード
の先頭に付される番号)に“−”と“i”を加えて、こ
れを現在の章番号とする。これに続くステップV9にお
いては、記号、インデント、番号(章番号)、ノード名
を一連の情報として表示する。そして、次のステップV
10においては、iに続くi+1(いまの例では2)を
次の値iとして指定して先のステップV2に戻り、前述
の処理を繰り返す。
【0008】以上のような処理をおこなうことによっ
て、図24に示すような画面表示を得ることができる。
【0009】また、第2の従来例として、特開平6−3
5657号公報を挙げる。本第2の従来例も同様に、ハ
イパーテキストの構成をユーザが容易に理解できるよう
にするために用いられている。
【0010】次に、第2の従来例について図面を参照し
て説明する。図25は、第2の従来例の構成を示すブロ
ック図である。図25を参照すると、第2の従来例は、
入出力部201と、ディスプレイ装置202と、情報処
理部203とから構成される。
【0011】情報処理部203は、ハイパーテキストモ
デルデータ記憶部231と、表示データ生成部232
と、表示用データ記憶部233と、インターフェース制
御部234と、ユーザイベントモニタリング部235
と、ハイパーテキストデータモデル探索部236と、ブ
ラウザ表示部237と、表示用データ操作部238と、
レイアウト生成部239とを備える。
【0012】次に、図25ないし図27を参照して、第
2の従来例の動作について説明する。図26は、第2の
従来例の処理の流れを示すフローチャートである。図2
7は、画面に表示される処理内容の一例を示した図であ
る。
【0013】インターフェース制御部234のユーザイ
ベントモニタリング部235において、入出力部201
から入力されるユーザのマウスの操作をモニタリング
し、ノードがオープンされたらそのノードに関する情報
を指示情報としてブラウザ表示部237の表示用データ
操作部238へ入力する(図26、ステップW1)。こ
れがユーザの着目ノードとなる。表示用データ操作部2
38は、着目ノードの表示状態を判断する(ステップW
2)。着目ノードがブラウザ上に参照ノードとして表示
されているかどうかを、表示用データ記憶部233の表
示用データを参照して判定する。実アイコンである場
合、処理は停止する。
【0014】その判定の結果、着目ノードが参照アイコ
ンのときは、対応する実アイコンを表示用データから検
索する(ステップW3)。実アイコンの表示情報から、
実アイコンがブラウザ表示領域内部に表示されているか
を判定する(ステップW4)。表示されているときは、
対応する実アイコンを点滅させるなどして、ユーザに視
覚的なフィードバックを提供し(ステップW7)、処理
が終了する。
【0015】実アイコンがブラウザ表示領域内部に表示
されていない場合、表示用データを操作し、実アイコン
と参照アイコンを入れ替える(ステップW5)。この
際、実アイコンが下位構造を持つ場合、その情報も同時
に変更される。着目ノードの位置の変更が生じないよう
に、レイアウト生成部239の表示ルーチンによって再
レイアウトを実行する。これにより実アイコン、および
その下位構造をブラウザ表示領域内に表示する(ステッ
プW6)。
【0016】
【発明が解決しようとする課題】第1の問題点は、第1
の従来例では、ループ構造であることの表示がおこなわ
れないことである。
【0017】その理由は、ループ構造が検出された場合
には、画面表示処理をおこなわずに、別のノードの処理
を開始するためである。
【0018】第2の問題点は、第2の従来例では、ユー
ザがハイパーテキストの全体の構成を把握しにくいこと
である。
【0019】その理由は、ある1つの参照アイコンを選
択した場合に、対応する実アイコンを表示するため、画
面に同じ参照アイコンが複数ある場合には、ユーザがそ
のことを知るすべを持たないためである。
【0020】本発明の第1の目的は、複数のホームペー
ジの構成の分析を同時におこなうホームページ構成分析
装置を提供することにある。
【0021】本発明の第2の目的は、同一のホームペー
ジの分析を繰り返しおこなうようなことがないホームペ
ージ構成分析装置を提供することにある。
【0022】本発明の第3の目的は、同一のホームペー
ジであることを、ユーザが容易に把握できるホームペー
ジ構成分析装置を提供することにある。
【0023】本発明の第4の目的は、何らかの検索条件
を満たしたホームページのアンカーを優先的に分析処理
をおこなうことによって、ユーザが欲する情報を高速に
提示できるホームページ構成分析装置を提供することに
ある。
【0024】
【課題を解決するための手段】本発明の第1のホームペ
ージ構成分析装置は、入力手段1から分析をおこなうホ
ームページのURLが入力されると、前記URLの示す
ホームページに該当するファイルを、ネットワークや外
部記憶装置などから取得するホームページ取得手段(図
1の4)と、該取得したファイルがHTML形式である
かどうかを判定するホームページ分類手段(図1の2
1)と、該取得したファイルがHTML形式であった場
合、該ファイルの内容を走査し、アンカータグやイメー
ジタグなどの記述が存在するかどうかを調べることによ
って、該ホームページの構成の分析をおこなうホームペ
ージ構成分析手段(図1の22)と、該分析中のホーム
ページにアンカータグやイメージタグが存在した場合、
該アンカータグやイメージタグの示すURLを分析する
ことによって、該URLの示すホームページを検出し、
それを今後の構成分析の対象とするアンカー分析手段
(図1の23)と、該URLの示すホームページの構成
分析を、別のタスクにおいて、前記ホームページ取得手
段を呼び出すことによって開始させたり、必要ならば、
分析処理の優先度を制御するタスク管理手段(図1の2
4)と、該ホームページの構成を理解し易い形式に生成
し、出力手段5に表示する構成表示データ生成手段(図
1の25)とを備えている。
【0025】また、本発明の第2のホームページ構成分
析装置は、前記第1の装置において、アンカータグの示
すURLが分析中のホームページの上位の階層に存在し
た場合、該アンカータグはループ構成をしていると判定
し、前記上位の階層のホームページの情報をコピーする
ことによって、該アンカータグの示すURLのホームペ
ージの分析を終了したこととする、ループアンカー判定
手段(図6の26)を備えている。
【0026】また、本発明の第3のホームページ構成分
析装置は、前記第2の装置において、ループ構成を持つ
アンカーが検出された場合に、ユーザにループ構成の存
在を示すループ構成表示データ生成手段(図9の27)
を備えている。
【0027】また、本発明の第4のホームページ構成分
析装置は、前記第1の装置において、該アンカータグの
示すURLがすでに検出済であった場合、検出済のホー
ムページの情報をコピーすることによって、該アンカー
タグの示すURLのホームページの分析を終了したこと
とする、同一URL判定手段(図12の28)を備えて
いる。
【0028】また、本発明の第5のホームページ構成分
析装置は、前記第4の装置において、同一のURLを持
つアンカーが検出された場合に、ユーザに同一のURL
であることを示すための、同一URL表示データ生成手
段(図15の29)を備えている。
【0029】また、本発明の第6のホームページ構成分
析装置は、前記第1の装置において、ユーザが要求する
検索条件を指示する検索条件指示手段(図18の14)
と、該分析中のホームページが、前記検索条件を満たす
かどうかを判定する検索条件適合判定手段(図18の3
0)と、前記検索条件適合判定手段において、前記検索
条件を満たすホームページであることが検出された場合
に、該ホームページに記述されているアンカータグの示
すホームページの構成分析を優先して処理する分析順序
決定手段(図18の31)とを備えている。
【0030】入力手段からホームページのURLが入力
されると、ホームページ取得手段は、前記URLの示す
ホームページに該当するファイルを、ネットワークや外
部記憶装置などから取得する。ホームページ分類手段
は、該取得したファイルがHTML形式であるかどうか
を判定する。該取得したファイルがHTML形式であっ
た場合、ホームページ構成分析手段は、該ファイルの内
容を走査し、アンカータグやイメージタグなどが存在す
るかどうかを調べることによって、該ホームページの構
成の分析を開始する。
【0031】該分析中のホームページにアンカータグや
イメージタグが存在した場合、アンカー分析手段は、該
アンカータグやイメージタグの示すURLを分析するこ
とによって、該URLの示すホームページを検出する。
次に、タスク管理手段は、別のタスクにおいて、前記ホ
ームページ取得手段を呼び出すことによって、該URL
の示すホームページの構成分析を開始する。
【0032】また、分析処理の遅延を起こしている分析
処理タスクが存在した場合、該分析処理タスクの分析処
理の優先度を下げる。同時に他のタスクの分析処理の優
先度を上げる。
【0033】全てのホームページの分析が終了した場
合、ホームページの構成は、構成表示データ生成手段に
よって木構造表現などのような、ホームページの構成を
理解し易い形式に生成されて、出力手段に表示される。
【0034】
【発明の実施の形態】次に、本発明の第1の実施の形態
について図面を参照して詳細に説明する。
【0035】図1は、本発明の第1の実施の形態を示す
ブロック図である。図1を参照すると、本発明の第1の
実施の形態は、キーボードやマウスなどによる入力手段
1と、プログラム制御により動作するデータ処理装置2
と、ネットワークや外部記憶装置などからホームページ
を取得するホームページ取得手段4と、ディスプレイ装
置、プリンタなどの出力手段5と、ホームページの内
容、および構成やアンカーの情報など記憶する記憶手段
6とから構成される。
【0036】データ処理装置2は、ホームページ分類手
段21と、ホームページ構成分析手段22と、アンカー
分析手段23と、タスク管理手段24と、構成表示デー
タ生成手段25とを備える。
【0037】記憶手段6は、ホームページ記憶手段61
と、アンカー記憶手段62とを備える。
【0038】次にデータ処理手段2の詳細な構成につい
て述べる。入力手段1から分析をおこなうホームページ
のURLが入力されると、ホームページ取得手段4は、
前記URLの示すホームページに該当するファイルを、
ネットワークや外部記憶装置などから取得する。ホーム
ページ分類手段21は、該取得したファイルがHTML
形式であるかどうかを判定する。該取得したファイルが
HTML形式であった場合、ホームページ構成分析手段
22は、該ファイルの内容を走査し、アンカータグやイ
メージタグなど、別のファイルを参照する旨の記述が存
在するかどうかを調べることによって、該ホームページ
の構成の分析を開始する。
【0039】該分析中のホームページにアンカータグが
存在した場合、アンカー分析手段23は、該アンカータ
グの示すURLを分析することによって、該URLの示
すホームページを検出し、それを今後の構成分析の対象
とする。次に、タスク管理手段24は、別のタスクにお
いて、前記ホームページ取得手段を呼び出すことによっ
て、該URLの示すホームページの構成分析を開始す
る。
【0040】また、タスク管理手段24は、ネットワー
クのトラフィックなどの要因によって、構成分析処理の
遅延を起こしている構成分析処理タスクが存在した場
合、該分析処理タスクの分析処理の優先度を下げる。同
時に他のタスクの分析処理の優先度を上げる。
【0041】全てのホームページの構成分析が終了した
後、該ホームページの構成は、構成表示データ生成手段
25によって、木構造表現などのようなホームページの
構成を理解し易い形式に生成されて、出力手段5に表示
される。
【0042】次に図1ないし図5を参照して、本発明の
第1の実施の形態の動作について説明する。
【0043】図2は、本実施の形態の処理の流れを示す
フローチャートである。図3は、本実施の形態の説明の
際に用いるホームページの記述内容の一例を示す図であ
る。図4は、構成表示データ生成手段25によって生成
される、ホームページの構成の表示例として、木構造表
現を用いた場合の一例を示した図である。図5は、図4
に示したホームページの構成に対して、それぞれのホー
ムページの分析処理の実行時間の分布の一例を示した図
である。
【0044】入力手段1から分析をおこなうホームペー
ジのURLが入力されると、ホームページ取得手段4
は、該URLの示すホームページに該当するファイル
を、インターネットやイントラネットなどのネットワー
クやハードディスクなどの外部記憶装置などから取得す
る(図2、ステップA1)。ホームページ分類手段21
は、該取得したファイルがHTML形式であるかどうか
を判定する(ステップA2)。該取得したファイルがH
TML形式であった場合、ホームページ構成分析手段2
2は、該ファイルの内容をファイルの先頭から末尾まで
順に走査し、アンカータグやイメージタグなどの別のフ
ァイルを参照する旨の記述が存在するかどうかを調べる
ことによって、該ホームページの構成の分析を開始する
(ステップA4)。図3にホームページの内容を記述し
たファイルの一例を示す。また、図3の8行目がアンカ
ータグの一例(<A HREF=″http://ww
w.aaa.bbb/index.htm1″>アンカ
ータグの例</A>)である。また、10行目がイメー
ジタグの一例(<IMG SRC=″./ccc/dd
d.gif″>)である。
【0045】該分析中のホームページにアンカータグや
イメージタグが存在した場合、アンカー分析手段23
は、該アンカータグやイメージタグの示すURLを分析
することによって、該URLの示すホームページを検出
し、それを今後の分析対象とする。図3の8行目の例の
場合、“www.aaa.bbb”が該ホームページの
存在するサーバを現し、“/index.htm1”が
該ホームページのファイルを現す。次に、タスク管理手
段24は、別のタスクにおいて、前記ホームページ取得
手段を呼び出すこと(ステップA1の実行)によって、
該URLの示すホームページの分析を開始する。また、
アンカーの示す内容をアンカー記憶手段62に記憶する
(ステップA5、A6)。
【0046】また、ネットワークのトラフィックなどの
要因によって、分析処理の遅延を起こしている分析処理
タスクが存在した場合、該分析処理タスクの処理の優先
度を下げる。同時に他のタスクの処理の優先度を上げる
(ステップA7)。
【0047】該ホームページのファイルの最後まで分析
が終了した場合、ホームページ記憶手段61に、該ホー
ムページのURLや、ファイルサイズ、最新更新日時な
どを記憶し、該分析タスクを終了する(ステップA
8)。また、ステップA2において取得したファイルが
HTML形式でなかった場合(イメージタグが示すUR
Lの場合など)も、該分析タスクを終了する。
【0048】全てのホームページの分析が終了した場
合、該ホームページの構成は、構成表示データ生成手段
25によって木構造表現などのような、ホームページの
構成を理解し易い形式に生成されて、出力手段5に表示
される(ステップA9、A10)。このとき分析の終了
条件としては、分析しているホームページの階層数や、
分析したホームページの総数がユーザの必要な値に達し
たときなどが、一般に用いられる。なお、出力手段5に
表示されるホームページ構成の例として、図4を示す。
図4の木構造の各ノードが各ホームページを現す。ま
た、タスク管理手段24の制御によって、本発明におけ
るホームページの構成分析処理は図5に示すようなマル
チタスク処理となる。
【0049】本発明によれば、マルチタスクによるホー
ムページ構成の分析処理と、タスク管理手段24による
処理の優先度の制御によって、あるホームページの分析
処理の遅延による全体の処理への影響を少なくし、結果
的に全体の処理速度を向上させるという効果を持つ。
【0050】入力装置1から、分析対象URLとして、
“http://sample/sample.htm
1”(図3のファイル)が入力されると、ホームページ
取得手段4は、HTTP(Hyper Text Tr
ansfer Protocolの略)プロトコルを用
いて、“sample”というサーバから、“samp
le.htm1”というファイルを取得する。次に、ホ
ームページ分類手段21は該取得したファイルはHTM
L形式のファイルであると判定する。
【0051】よって、ホームページ構成分析手段22
は、該ホームページの構成の分析を開始する。ところ
で、8行目がアンカータグであることをホームページ構
成手段22が検出すると、アンカー分析手段23は、該
アンカータグの示すURLを分析する。該アンカータグ
(<A HREF=″http://www.aaa.
bbb/index.htm1″>)の場合、“ww
w.aaa.bbb”というサーバの、“/inde
x.htm1”というファイルを現していることが検出
される。次にタスク管理手段24は、該アンカータグの
示すURL(http://www.aaa.bbb/
index.htm1)を、次の構成分析の対象ホーム
ページとする。そして、別のタスクにおいて、前記ホー
ムページ取得手段を呼び出すことによって、該URLの
示すホームページの構成分析を開始する。
【0052】一方、ホームページ構成分析手段22は、
“http://sample/sample.htm
1”のファイルの分析を続け、10行目のイメージタグ
や、12行目のアンカータグについても同様の処理をお
こなう。
【0053】次に、タスクの優先度の変更処理の一例に
ついて説明する。図3のファイルの分析では、先に検出
される8行目のURL(http://www.aa
a.bbb/index.htm1)が次の構成分析の
対象となる。しかし、ネットワークのトラフィックなど
の影響などにより、ホームページの取得が完了しない場
合や、取得したファイルが大きすぎることによって、分
析処理の終了に時間を要する場合、タスク管理手段24
は、10行目のイメージタグや12行目のもう一つのア
ンカータグを分析するタスクを先に動作させる。一方、
8行目のホームページの取得は優先度を下げて、処理を
後に回す。
【0054】次に、本発明の第2の実施の形態について
図面を参照して詳細に説明する。
【0055】図6を参照すると、本発明の第2の実施の
形態は、データ処理装置7が、図1に示された第1の実
施の形態におけるデータ処理装置2の構成に加え、ルー
プアンカー判定手段26を有する点で異なる。
【0056】本発明の第2の実施の形態の動作を図面を
参照して詳細に説明する。
【0057】図7は、本発明の第2の実施の形態の処理
の流れを示すフローチャートである。図8は、ループ構
成をとるホームページの構成の一例を示す図である。
【0058】図7のステップA1ないしA5、A7ない
しA10で示される第2の実施の形態におけるホームペ
ージ分類手段21、ホームページ構成分析手段22、ア
ンカー分析手段23、タスク管理手段24、構成表示デ
ータ生成手段25の動作は、第1の実施の形態と同一の
ため、説明は省略する。
【0059】ホームページの分析の際に、アンカータグ
が検出された場合、まず、ループアンカー判定手段24
は、該ホームページを参照しているアンカー元から、入
力手段1によって入力されたホームページに向かって、
アンカーを上位に向かってたどることによって、該アン
カーの示すURLと同一のURLが存在するかどうかを
判定する(図7、ステップB1)。同一のURLが存在
した場合は、ホームページの構成がループ状になってい
ると判定し、検出された同一URLのホームページの情
報を、該アンカーの示すホームページとしてコピーする
ことによって該アンカーの示すホームページの分析が終
了したものとして、現在分析中のホームページの分析を
続ける(ステップB2、B3)。一方、同一のURLが
存在しない場合、該URLの示すホームページの分析を
別のタスクで開始する(ステップB4)。図8を例にと
ると、“page3.htm1”のアンカータグ、“<
AHREF=″page1.htm1″>”は“pag
e3.htm1”の2階層上位のホームページ、“pa
ge1.htm1”のことである、よって前記アンカー
タグはループ構成をしたアンカーと判定される。
【0060】本発明によれば、アンカータグの示すUR
Lが上位のホームページにあった場合、ネットワークな
どをアクセスせずに分析が終了したことにできるので処
理速度が改善される。
【0061】次に、本発明の第3の実施の形態について
図面を参照して詳細に説明する。
【0062】図9を参照すると、本発明の第3の実施の
形態は、データ処理装置8が、図6に示された第2の実
施の形態におけるデータ処理装置7の構成に加え、構成
表示データ生成手段25と共に、第1の表示データ生成
手段9を構成する、ループ構成表示データ生成手段27
を有する点で異なる。
【0063】本発明の第3の実施の形態の動作を図面を
参照して詳細に説明する。
【0064】図10は、本発明の第3の実施の形態の処
理の流れを示すフローチャートである。図11は、ルー
プ構成をもつホームページの表示をおこなう方法の一例
を示す図である。
【0065】図10のステップA1ないしA5、B1な
いしB4、A7ないしA10で示される第3の実施の形
態におけるホームページ分類手段21、ホームページ構
成分析手段22、アンカー分析手段23、タスク管理手
段24、構成表示データ生成手段25、ループアンカー
判定手段26の動作は、第2の実施の形態と同一のた
め、説明は省略する。
【0066】ループアンカー判定手段26によってルー
プ構成を持つアンカーが検出された場合、ループ構成表
示データ生成手段27は、該アンカーを示すノードの表
示を、ループ元を意味する表示に変更する(図10、ス
テップC1)。ところで、ユーザが上位の階層にある同
一のURL(以下、ループ先)を確認するためには、ル
ープ元を示すノードを入力手段1によって選択する。こ
のときループ構成表示データ生成手段27は、ホームペ
ージ記憶手段61からループ先のノードの位置を取得
し、該ループ先となっているノードをループ先を意味す
る表示に変更する。図11を例にとると、ノード5に該
当するホームページのアンカーがノード1に該当するホ
ームページを示していることになる。このとき該アンカ
ーを意味するノード8がループ元を意味する表示にな
り、ノード1がループ先を意味する表示になる。
【0067】本発明によると、ループ構成を持つホーム
ページが画面上に表示されるため、ユーザはホームペー
ジの構成をよりよく把握することができる。
【0068】次に、本発明の第4の実施の形態について
図面を参照して詳細に説明する。
【0069】図12を参照すると、本発明の第4の実施
の形態は、データ処理装置10が、図1に示された第1
の実施の形態におけるデータ処理装置2の構成に加え、
同一URL判定手段28を有する点で異なる。
【0070】本発明の第4の実施の形態の動作を図面を
参照して詳細に説明する。
【0071】図13は、本発明の第4の実施の形態の処
理の流れを示すフローチャートである。図14は、同一
URLを持つホームページの構成の一例を示す図であ
る。
【0072】図13のステップA1ないしA5、A7な
いしA10で示される第4の実施の形態におけるホーム
ページ分類手段21、ホームページ構成分析手段22、
アンカー分析手段23、タスク管理手段24、構成表示
データ生成手段25の動作は、第1の実施の形態と同一
のため、説明は省略する。
【0073】ホームページの分析の際に、アンカータグ
が検出された場合、まず、同一URL判定手段28は、
入力手段1から入力されたホームページから、すでに検
出されたホームページを全てたどることによって、該ア
ンカーの示すURLと同一のURLが存在するかどうか
を判定する(図13、ステップD1)。同一のURLが
存在した場合は、検出された同一URLのホームページ
の情報を、該アンカーの示すホームページとしてコピー
することによって該アンカーの示すホームページの分析
が終了したものとして、現在分析中のホームページの分
析を続ける(ステップD2、D3)。一方、同一のUR
Lが存在しない場合、該URLの示すホームページの分
析を別のタスクで開始する(ステップD4)。図14を
例にとると、“page3.htm1”のアンカータ
グ、“<A HREF=″page4.htm1″>”
は“page1.htm1”のアンカータグ、“<A
HREF=″page4.htm1″>”によって検出
されたホームページ、“page4.htm1”のこと
である、よって前記アンカータグはすでに同一のURL
が存在すると判定される。
【0074】本発明によれば、アンカータグの示すUR
Lがすでに検出されていた場合、ネットワークなどをア
クセスせずに分析が終了したことにできるので処理速度
が改善される。
【0075】次に、本発明の第5の実施の形態について
図面を参照して詳細に説明する。
【0076】図15を参照すると、本発明の第5の実施
の形態は、データ処理装置11が、図12に示された第
4の実施の形態におけるデータ処理装置10の構成に加
え、構成表示データ生成手段25と共に、第2の表示デ
ータ生成手段12を構成する、同一URL表示データ生
成手段29を有する点で異なる。
【0077】本発明の第5の実施の形態の動作を図面を
参照して詳細に説明する。
【0078】図16は、本発明の第5の実施の形態の処
理の流れを示すフローチャートである。図17は、同一
URLをもつホームページの表示をおこなう方法の一例
を示す図である。
【0079】図16のステップA1ないしA5、D1な
いしD4、A7ないしA10で示される第4の実施の形
態におけるホームページ分類手段21、ホームページ構
成分析手段22、アンカー分析手段23、タスク管理手
段24、構成表示データ生成手段25、ループアンカー
判定手段26の動作は、第1の実施の形態と同一のた
め、説明は省略する。
【0080】同一URL判定手段28によって同一のU
RLを持つアンカーが検出された場合、同一URL表示
データ生成手段29は、同一のURLを示すすべてのホ
ームページのノードの表示を、共通の表示に変更する。
その後、別の同一のURLを持つホームページが検出さ
れた場合、同一URL表示データ生成手段29は、前記
共通表示とは異なる方法によって共通表示をおこなう
(図16、ステップE1)。図17を例にとると、ノー
ド1、ノード6に該当するホームページが同一であり、
共通の表示がおこなわれる。また、ノード4、ノード8
に該当するホームページが同一であり、ノード1、ノー
ド6の表示とは異なる共通の表示がおこなわれる。
【0081】本発明によると、同一のURLを持つホー
ムページが一目でわかるため、ユーザはホームページの
構成をよりよく把握することができる。
【0082】次に、本発明の第6の実施の形態について
図面を参照して詳細に説明する。
【0083】図18を参照すると、本発明の第6の実施
の形態は、データ処理装置13が、図1に示された第1
の実施の形態におけるデータ処理装置2の構成に加え、
検索条件適合判定手段30、および分析順序決定手段3
1を有する点、および検索条件指示手段14を有する点
で異なる。
【0084】本発明の第6の実施の形態の動作を図面を
参照して詳細に説明する。
【0085】図19は、本発明の第6の実施の形態の処
理の流れを示すフローチャートである。図20は、検索
条件を満たした場合の分析順序の変更方法の一例を示す
図である。
【0086】図19のステップA1、A2ないしA4、
A5ないしA10で示される第6の実施の形態における
ホームページ分類手段21、ホームページ構成分析手段
22、アンカー分析手段23、タスク管理手段24、構
成表示データ生成手段25の動作は、第1の実施の形態
と同一のため、説明は省略する。
【0087】入力手段1から入力されたホームページの
URLに従って、ホームページ取得手段4が該当するホ
ームページを取得した後、ユーザは、検索条件指示手段
14を用いて、ホームページの構成分析と並行しておこ
なう検索条件を規定する(図19、ステップF1)。検
索条件としては、例えば、ある文字列を含むホームペー
ジや、ある日付より新しく生成されたホームページとい
ったものを挙げることができる。
【0088】ホームページ構成分析手段22によるホー
ムページの構成分析の際に、検索条件適合判定手段30
は、該ホームページが前記検索条件を満たすかどうかを
判定する。検索条件を満たす場合、分析順序決定手段3
1は、該ホームページに記述されているアンカーの示す
ホームページの分析を先におこなうように、未分析のホ
ームページの検索順序を変更する。例えば、図20
(a)のような構造のホームページがあるとする(ノー
ドの中の数値が分析順序を示すとする)。このときに、
分析順序‘2’が検索条件を満たしたとすると、図20
(b)のように、‘2’の子ノードとなっているホーム
ページの分析順序を先に変更する(ステップF2、F
3)。
【0089】本発明によれば、検索条件を設定すること
によって、それを満たすホームページに記述されている
アンカータグの示すURLを優先してホームページの分
析をおこなうため、ユーザが欲するホームページをより
早く検出、分析できる可能性が高くなる。
【0090】なお、それぞれの実施の形態を組み合わせ
ることによって、複合的な効果を得ることができる。
【0091】
【発明の効果】第1の効果は、ホームページの構成分析
の処理速度を向上させるという効果を持つ。
【0092】その理由は、マルチタスクによるホームペ
ージの構成分析処理と、タスク管理手段24による処理
の優先度の制御によって、あるホームページの分析処理
の遅延による全体の処理への影響を少なくするためであ
る。
【0093】第2の効果は、より高速な処理が可能とな
る。
【0094】その理由は、ループアンカー判定手段26
や、同一URL判定手段28によって、すでに検出済の
URLについては、ネットワークアクセスなどをおこな
わずに分析処理を終了させることができるからである。
つまり、一度分析したホームページを再び分析すること
はないことにつながる。
【0095】第3の効果は、ユーザが、ホームページの
構成をよりよく把握できるようになる。
【0096】その理由は、ループ構成表示データ生成手
段27や、同一URL表示データ生成手段29によっ
て、ループしたホームページの構成や同一のURLにつ
いては、特別な表示をおこなうためである。
【0097】第4の効果は、ユーザの欲しているホーム
ページをより速く検出、分析可能となる。
【0098】その理由は、ユーザが指示した検索条件を
満たすホームページに記述されているアンカータグの示
すURLを優先してホームページの分析をおこなうため
である。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を示すブロック図で
ある。
【図2】本発明の第1の実施の形態の処理手順を示すフ
ローチャートである。
【図3】本実施の形態の説明の際に用いるホームページ
の記述内容の一例を示す図である。
【図4】構成表示データ生成手段25によって生成され
る、ホームページの構成の表示例として、木構造表現を
用いた場合の一例を示した図である。
【図5】図4に示したホームページの構成に対して、そ
れぞれのホームページの分析処理の実行時間の分布の一
例を示した図である。
【図6】本発明の第2の実施の形態を示すブロック図で
ある。
【図7】本発明の第2の実施の形態の処理手順を示すフ
ローチャートである。
【図8】ループ構成をとるホームページの構成の一例を
示す図である。
【図9】本発明の第3の実施の形態を示すブロック図で
ある。
【図10】本発明の第3の実施の形態の処理手順を示す
フローチャートである。
【図11】ループ構成をもつホームページの表示をおこ
なう方法の一例を示す図である。
【図12】本発明の第4の実施の形態を示すブロック図
である。
【図13】本発明の第4の実施の形態の処理手順を示す
フローチャートである。
【図14】同一URLを持つホームページの構成の一例
を示す図である。
【図15】本発明の第5の実施の形態を示すブロック図
である。
【図16】本発明の第5の実施の形態の処理手順を示す
フローチャートである。
【図17】同一URLを持つホームページの表示をおこ
なう方法の一例を示す図である。
【図18】本発明の第6の実施の形態を示すブロック図
である。
【図19】本発明の第6の実施の形態の処理手順を示す
フローチャートである。
【図20】検索条件を満たした場合の分析順序の変更方
法の一例を示す図である。
【図21】従来技術の構成を示すブロック図である。
【図22】図21の従来技術の処理の流れを説明するた
めのフローチャートである。
【図23】ハイパーテキストの構成例を示す図である。
【図24】ハイパーテキストの構成を分析した結果を示
す表示例である。
【図25】第2の従来技術の構成を示すブロック図であ
る。
【図26】第2の従来技術の処理の流れを説明するため
のフローチャートである。
【図27】第2の従来技術により表示される処理内容の
例である。
【符号の説明】
1 入力手段 4 ホームページ取得手段 5 出力手段 14 検索条件指示手段 21 ホームページ分類手段 22 ホームページ構成分析手段 23 アンカー分析手段 24 タスク管理手段 25 構成表示データ生成手段 26 ループアンカー判定手段 27 ループ構成表示データ生成手段 28 同一URL判定手段 29 同一URL表示データ生成手段 30 検索条件適合判定手段 31 分析順序決定手段 101 入力部 102 入力処理部 103 ハイパーテキスト作成編集部 104 ブラウジング処理部 105 表示処理部 106 表示部 141 ネットワーク構造/ツリー構造変換部 142 ツリー構造ブラウジング処理部 201 入出力部 202 ディスプレイ装置 203 情報処理部 231 ハイパーテキストモデルデータ記憶部 232 表示データ生成部 233 表示用データ記憶部 234 インターフェース制御部 235 ユーザイベントモニタリング部 236 ハイパーテキストデータモデル探索部 237 ブラウザ表示部 238 表示用データ操作部 239 レイアウト生成部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 あるURL(Uniform Reso
    urce Locatorの略、以下URL)の示すホ
    ームページ(Webページ)を起点として、そのファイ
    ルの内容を分析し、アンカータグやイメージタグを検出
    した場合、それらが示すURLを該ホームページの分析
    終了後の分析対象とすることを繰り返すことによって、
    前記起点としたホームページの構成を分析するホームペ
    ージ分析装置において、 入力手段と、 前記入力手段から入力されたURLの示すホームページ
    に該当するファイルを、ネットワークや外部記憶装置な
    どから取得するホームページ取得手段と、 該取得したファイルがHTML(Hyper Text
    Markup Languageの略、以下HTM
    L)形式であるかどうかを判定するホームページ分類手
    段と、 該取得したファイルがHTML形式であった場合、該フ
    ァイルの内容を走査し、アンカータグやイメージタグな
    どの記述が存在するかどうかを調べることによって、該
    ホームページの構成の分析をおこなうホームページ構成
    分析手段と、 該分析中のホームページにアンカータグやイメージタグ
    が存在した場合、該アンカータグ、もしくはイメージタ
    グの示すURLを分析することによって、該URLの示
    すホームページを検出し、それを今後の構成分析の対象
    とするアンカー分析手段と、 該URLの示すホームページの構成分析を、別のタスク
    やプロセス(以下、タスク)において、前記ホームペー
    ジ取得手段を呼び出すことによって開始させたり、必要
    ならば、分析処理の優先度を制御するタスク管理手段
    と、 該ホームページの構成を理解し易い形式に生成する構成
    表示データ生成手段と、 前記構成表示データ生成手段において生成された該ホー
    ムページの構成を表示する出力手段と、 ホームページやアンカータグやイメージタグの情報を記
    憶する記憶手段とを備えたことを特徴とするホームペー
    ジ構成分析装置。
  2. 【請求項2】 前記アンカー分析手段において、アンカ
    ータグの示すURLが分析中のホームページの上位の階
    層に存在した場合、該アンカータグはループ構成をして
    いると判定し、前記上位の階層のホームページの情報を
    コピーすることによって、該アンカータグの示すURL
    のホームページの分析を終了したこととする、ループア
    ンカー判定手段を備えたことを特徴とする請求項1記載
    のホームページ構成分析装置。
  3. 【請求項3】 前記ループアンカー判定手段において、
    ループ構成を持つアンカーが検出された場合に、ユーザ
    にループ構成の存在を示すための第1の表示データ生成
    手段を備えたことを特徴とする請求項1、請求項2記載
    のホームページ構成分析装置。
  4. 【請求項4】 前記第1の表示データ生成手段は、前記
    構成表示データ生成手段と、ループ構成表示データ生成
    手段とから構成されたことを特徴とする請求項1ない
    し、請求項3記載のホームページ構成分析装置。
  5. 【請求項5】 前記アンカー分析手段において、該アン
    カータグの示すURLがすでに検出済であった場合、検
    出済のホームページの情報をコピーすることによって、
    該アンカータグの示すURLのホームページの分析を終
    了したこととする、同一URL判定手段を備えたことを
    特徴とする請求項1ないし請求項4記載のホームページ
    構成分析装置。
  6. 【請求項6】 前記同一URL判定手段において、同一
    のURLを持つアンカーが検出された場合に、ユーザに
    同一のURLであることを示すための第2の表示データ
    生成手段を備えたことを特徴とする請求項1ないし請求
    項5記載のホームページ構成分析装置。
  7. 【請求項7】 前記第2の表示データ生成手段は、前記
    構成表示データ生成手段と、同一URL表示データ生成
    手段とから構成されたことを特徴とする請求項1ない
    し、請求項6記載のホームページ構成分析装置。
  8. 【請求項8】 ユーザが要求する検索条件を指示する検
    索条件指示手段と、 該分析中のホームページが、前記検索条件を満たすかど
    うかを判定する検索条件適合判定手段と、 前記検索条件適合判定手段において、前記検索条件を満
    たすホームページであることが検出された場合に、該ホ
    ームページに記述されているアンカータグの示すホーム
    ページの構成分析を優先して処理する分析順序決定手段
    とを備えたことを特徴とする請求項1ないし、請求項7
    記載のホームページ構成分析装置。
  9. 【請求項9】 前記記憶手段は、 ホームページに関する情報を記憶するホームページ記憶
    手段と、 アンカータグやイメージタグの示すURLを記憶するア
    ンカー記憶手段とを備えたことを特徴とする請求項1な
    いし、請求項8記載のホームページ構成分析装置。
JP9005368A 1997-01-16 1997-01-16 ホームページの構成を分析する方法およびその装置 Pending JPH10207756A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9005368A JPH10207756A (ja) 1997-01-16 1997-01-16 ホームページの構成を分析する方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9005368A JPH10207756A (ja) 1997-01-16 1997-01-16 ホームページの構成を分析する方法およびその装置

Publications (1)

Publication Number Publication Date
JPH10207756A true JPH10207756A (ja) 1998-08-07

Family

ID=11609236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9005368A Pending JPH10207756A (ja) 1997-01-16 1997-01-16 ホームページの構成を分析する方法およびその装置

Country Status (1)

Country Link
JP (1) JPH10207756A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7292359B2 (en) 2000-09-12 2007-11-06 Canon Kabushiki Kaisha Image processing apparatus and image processing method
KR101723646B1 (ko) * 2015-12-31 2017-04-06 네이버 주식회사 웹사이트 분석 장치, 방법, 및 컴퓨터 프로그램
WO2019142398A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 解析装置、解析方法及び解析プログラム
WO2020240718A1 (ja) * 2019-05-28 2020-12-03 日本電信電話株式会社 抽出装置、抽出方法及び抽出プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7292359B2 (en) 2000-09-12 2007-11-06 Canon Kabushiki Kaisha Image processing apparatus and image processing method
US7969600B2 (en) 2000-09-12 2011-06-28 Canon Kabushiki Kaisha Printing of linked data in a network
US8390863B2 (en) 2000-09-12 2013-03-05 Canon Kabushiki Kaisha Image processing apparatus and image processing method
KR101723646B1 (ko) * 2015-12-31 2017-04-06 네이버 주식회사 웹사이트 분석 장치, 방법, 및 컴퓨터 프로그램
WO2019142398A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 解析装置、解析方法及び解析プログラム
JPWO2019142398A1 (ja) * 2018-01-17 2020-04-23 日本電信電話株式会社 解析装置、解析方法及び解析プログラム
US11361073B2 (en) 2018-01-17 2022-06-14 Nippon Telegraph And Telephone Corporation Analysis apparatus, analysis method, and analysis program
WO2020240718A1 (ja) * 2019-05-28 2020-12-03 日本電信電話株式会社 抽出装置、抽出方法及び抽出プログラム
JPWO2020240718A1 (ja) * 2019-05-28 2020-12-03

Similar Documents

Publication Publication Date Title
JP4587634B2 (ja) ブラウザ内で文書の一部分を拡大する方法、装置、およびプログラム
US8935602B2 (en) Hierarchical drag and drop structure editor for web sites
JP3703080B2 (ja) ウェブコンテンツを簡略化するための方法、システムおよび媒体
US7954052B2 (en) Method for processing a web page for display in a wiki environment
US7191405B1 (en) System and method for editing information
US20080010338A1 (en) Method and apparatus for client and server interaction
US20080010387A1 (en) Method for defining a Wiki page layout using a Wiki page
US20080010609A1 (en) Method for extending the capabilities of a Wiki environment
US20080040661A1 (en) Method for inheriting a Wiki page layout for a Wiki page
US20080065982A1 (en) User Driven Computerized Selection, Categorization, and Layout of Live Content Components
US20080065769A1 (en) Method and apparatus for argument detection for event firing
JP2003132050A (ja) 注釈付きアンカーの検出システム、注釈付きアンカーの検出および方法、および注釈付きアンカーの検出装置
JP2011003182A (ja) キーワード表示方法およびそのシステム
WO2000013108A1 (en) Computer product for integrated document development
JPH1091648A (ja) 情報および引用あるいは再生された資料へのリンクを表しかつ与えるための装置
CN113569181A (zh) 一种分页数据采集方法及系统
JPH11167584A (ja) ページ遷移方法及びその実施装置並びにその処理プログラムとデータを記録した媒体
CN109558123B (zh) 网页转化电子书的方法、电子设备、存储介质
US20080010388A1 (en) Method and apparatus for server wiring model
Artail et al. Device-aware desktop web page transformation for rendering on handhelds
JPH10207756A (ja) ホームページの構成を分析する方法およびその装置
JPH10124518A (ja) 優先アクセスウェブブラウジング処理装置
JPH10187112A (ja) 情報処理装置及び表示制御方法
US20030154462A1 (en) Software maintenance material generation apparatus and generation program therefor
JP3697108B2 (ja) ハイパー文書の制御方法、ハイパー文書の制御装置、ハイパー文書の制御プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010227