JP2001166981A - ハイパーテキスト解析装置および方法 - Google Patents

ハイパーテキスト解析装置および方法

Info

Publication number
JP2001166981A
JP2001166981A JP34565299A JP34565299A JP2001166981A JP 2001166981 A JP2001166981 A JP 2001166981A JP 34565299 A JP34565299 A JP 34565299A JP 34565299 A JP34565299 A JP 34565299A JP 2001166981 A JP2001166981 A JP 2001166981A
Authority
JP
Japan
Prior art keywords
attribute
page
analysis
hyperlink
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP34565299A
Other languages
English (en)
Inventor
Takehiro Nakayama
雄大 中山
Hiroki Kato
裕樹 加藤
Yohei Yamane
洋平 山根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP34565299A priority Critical patent/JP2001166981A/ja
Priority to US09/655,063 priority patent/US6782423B1/en
Publication of JP2001166981A publication Critical patent/JP2001166981A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

(57)【要約】 【課題】 ハイパーテキストシステムのページ構成の問
題の原因・改善策を提示し、容易にページ構成を改善で
きるようにする。 【解決手段】 ハイパーリンク遷移頻度獲得手段104
は、ハイパーテキスト102の各ページ組について、ア
クセス履歴情報103を参照してページ間(つまり、ハ
イパーリンクの)遷移頻度を算出する。属性抽出手段1
05は、ハイパーテキスト102の各ページから属性を
抽出する。相関解析手段106では、ハハイパーリンク
の遷移頻度と、属性との相関を計算する。所定のページ
組が解析対象として与えられると、属性抽出手段105
が、属性を抽出し、この属性が、属性解析手段108に
おいて、相関データ記憶手段107において記憶されて
いる重回帰式と比較される。この結果得られた相関式は
表示手段109において表示される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上に
構成されるハイパーテキストシステムにおいて、その構
成に問題がある部分を改善する技術に関する。
【0002】
【従来の技術】ネットワーク上に構成されるハイパーテ
キストシステム(例えば、WorldWide We
b;以降Webと略す)では、ハイパーテキストを格納
しているサーバにおいてユーザー(訪問者)のアクセス
履歴を記録することができる。このアクセス履歴には、
一般に、アクセスしてきたユーザーが使用しているコン
ピュータの識別子(インターネットを利用しているので
あればIPアドレス)、アクセスしてきた時刻、アクセ
スしたページ(=ファイル)のサーバ上での識別子(W
ebではURL)が含まれる。
【0003】アクセス履歴とハイパーリンク構造を解析
して、ハイパーテキストシステム(例えば、Webサイ
ト)の構成の優劣を判断するような知識を得る技術とし
ては、[Perkowitz and Etzion
i,98](Perkowitz and Etzio
ni,Adaptive Web Sites:Aut
omatically Synthesizing W
eb Pages,inProc. of AAAI−
98)がある。
【0004】[Perkowitz and Etzi
oni,98]は、先ず、サイト上の全てのページ組に
ついて、同一ユーザーからのアクセス共起頻度を計算
し、予め定められた閾値を超える組を残し、その他を破
棄する。さらに、残った組の中から実際にハイパーリン
クで連結されている組を破棄する。次に、残った組をア
ークで連結されたグラフとみなし、各グラフを解析して
クリーク(全てのノード間にアークが存在する完全グラ
フ)を抽出する。このクリークを構成するページ群は、
互いに(強い)関連があるがハイパーリンクで連結され
ていないものなので、サイト上の劣っている部分を発見
できたと解釈することができる。この手法では、多くの
ユーザーが同一セッションでアクセスしてくる傾向が強
いにもかかわらずそれらの間にハイパーリンクが存在し
ない(そのため、ユーザーはページ間遷移に多くの労力
を求められるであろう)ページ群を発見できる。
【0005】
【発明が解決しようとする課題】従来技術では、構成の
劣ったページ群を明示的に提示することはできるが、該
ページ群の問題の原因を解析することはできなかった。
そのため、ハイパーテキストシステム管理者は、ページ
群の改善方法を試行錯誤によって探らなければならなか
った。これは、ある部分を変更してみて、しばらくの間
アクセス履歴を収集し、改善効果を測定するという操作
を繰り返すもので、この間、ハイパーテキストシステム
の構成は不安定となり、繰り返しアクセスしてくるユー
ザーを混乱させてしまうという問題が生じる。また、ハ
イパーテキストシステムにおけるページ群を改善するた
めの手法は、そのハイパーテキストシステムの目的、規
模、機能、レイアウト、話題、ユーザータイプ等に依存
するので、対象ハイパーテキストシステムの特徴を把握
しなければならないという課題もある。
【0006】本発明は上記事情を考慮してなされたもの
で、対象ハイパーテキストシステム上の任意のページ組
について、ページコンテンツから抽出される様々な属性
とページ間遷移頻度との相関を予め計算しておき、該ハ
イパーテキストシステム上で構成に問題がある部分につ
いてどの属性をどのように変更すれば構成の改善になる
かを提示することを目的とする。
【0007】
【課題を解決するための手段】本発明の第1の側面によ
れば、上述の目的を達成するために、ハイパーテキスト
解析装置に、ハイパーテキストシステムへのアクセス履
歴情報とハイパーリンク構造とを解析して、ハイパーリ
ンクで繋がれた(例えば全ての)ページ間のハイパーリ
ンク遷移頻度を計算するハイパーリンク遷移頻度獲得手
段と、ハイパーリンクで繋がれたページ組のコンテンツ
から(一つ以上の)属性を抽出する属性抽出手段と、該
ハイパーリンク遷移頻度と該属性との間の相関を計算す
る相関解析手段と、該相関解析手段で得られたデータを
記憶する相関データ記憶手段と、指定された(例えば一
つの)ページ組のコンテンツから該属性抽出手段を用い
て属性を抽出し、これを該相関データ記憶手段において
記憶されている相関データと比較することによって、該
ページ組間のハイパーリンク遷移頻度を変化させる(一
般に、上げることを目的とする)ことを想定した場合
に、どの属性をどれだけ変化させれば、どれだけ効果が
あるかという情報を求める属性解析手段と、該属性解析
手段で得られた結果を表示する表示手段とを設けてい
る。
【0008】この構成においては、設計者がユーザの遷
移を期待してハイパーリンクを用いて関連付けたページ
間においてどの属性を変化させれば初期の遷移頻度が得
られるかを簡易に提示することができる。ハイパーリン
クシステム例えばWebシステムの管理者は、この提示
内容に基づいてWebページの属性を変化させて所望の
Webシステムを構築維持することができる。
【0009】また、本発明の第2の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムへ
のアクセス履歴情報とハイパーリンク構造とを解析し
て、ハイパーリンクで繋がれた(例えば全ての)ページ
間のハイパーリンク遷移頻度を計算するハイパーリンク
遷移頻度獲得手段と、ハイパーリンクで繋がれたページ
組のコンテンツから(一つ以上の)属性を抽出する属性
抽出手段と、該ハイパーリンク遷移頻度と該属性との間
の相関を計算する相関解析手段と、該相関解析手段で得
られたデータを記憶する相関データ記憶手段と、指定さ
れたページ群のうちハイパーリンクで繋がれた(例えば
全ての)ページ間について、該ハイパーリンク遷移頻度
獲得手段を用いてハイパーリンク遷移頻度を計算し、該
ハイパーリンク遷移頻度が小さなページ組(例えば一つ
以上)を獲得する解析対象ページ組獲得手段と、該解析
対象ページ組獲得手段で獲得されたページ組のコンテン
ツから該属性抽出手段を用いて属性を抽出し、これを該
相関データ記憶手段において記憶されている相関データ
と比較することによって、該ページ組間のハイパーリン
ク遷移頻度を変化させる(一般に、上げることを目的と
する)ことを想定した場合に、どの属性をどれだけ変化
させれば、どれだけ効果があるかという情報を求める属
性解析手段と、該属性解析手段で得られた結果を表示す
る表示手段とを設けるようにしている。
【0010】この構成においても、ハイパーリンクを用
いて関連付けたページ間においてどの属性を変化させれ
ば初期の遷移頻度が得られるかを簡易に提示することが
でき、所望のハイパーリンクシステム例えばWebシス
テムを構築維持することができる。さらに、ハイパーリ
ンクでリンクされたページでありながら遷移頻度の少な
いページを修正対象として自動的に選別することができ
る。
【0011】また、本発明の第3の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムへ
のアクセス履歴情報とハイパーリンク構造とを解析し
て、ハイパーリンクで繋がれた(例えば全ての)ページ
間のハイパーリンク遷移頻度を計算するハイパーリンク
遷移頻度獲得手段と、ハイパーリンクで繋がれたページ
組のコンテンツから(一つ以上の)属性を抽出する属性
抽出手段と、該ハイパーリンク遷移頻度と該属性との間
の相関を計算する相関解析手段と、該相関解析手段で得
られたデータを記憶する相関データ記憶手段と、指定さ
れたページ群のうちハイパーリンクで繋がれた(例えば
全ての)ページ間について、該ハイパーリンク遷移頻度
獲得手段を用いてハイパーリンク遷移頻度を計算し、さ
らに、該属性抽出手段を用いて、該ページ間のコンテン
ツ類似度を計算し、該ハイパーリンク遷移頻度と該コン
テンツ類似度との比率を基に、コンテンツが類似してい
るにもかかわらずハイパーリンク遷移頻度が小さなペー
ジ組(例えば一つ以上)を獲得する解析対象ページ組獲
得手段と、該解析対象ページ組獲得手段で獲得されたペ
ージ組のコンテンツから該属性抽出手段を用いて属性を
抽出し、これを該相関データ記憶手段において記憶され
ている相関データと比較することによって、該ページ組
間のハイパーリンク遷移頻度を変化させる(一般に、上
げることを目的とする)ことを想定した場合に、どの属
性をどれだけ変化させれば、どれだけ効果があるかとい
う情報を求める属性解析手段と、該属性解析手段で得ら
れた結果を表示する表示手段とを設けるようにしてい
る。
【0012】この構成においても、ハイパーリンクを用
いて関連付けたページ間においてどの属性を変化させれ
ば初期の遷移頻度が得られるかを簡易に提示することが
でき、所望のハイパーリンクシステム例えばWebシス
テムを構築維持することができる。さらに、ハイパーリ
ンクでリンクされたページであり、かつ関連したコンテ
ンツを有しながら遷移頻度の少ないページを修正対象と
して自動的に選別することができる。
【0013】また、本発明の第4の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムを
構成する(例えば全ての)ページ組について、アクセス
履歴情報を解析することによって、(多くの)ユーザー
が双方をアクセスした度合いを表わすページ間アクセス
類似度を計算するアクセス類似度解析手段と、該ページ
組のコンテンツや該ページ組を包含するハイパーテキス
トから(一つ以上の)属性を抽出する属性抽出手段と、
該ページ間アクセス類似度と該属性との間の相関を計算
する相関解析手段と、該相関解析手段で得られたデータ
を記憶する相関データ記憶手段と、指定された(例えば
一つの)ページ組のコンテンツや該ページ組を包含する
ハイパーテキスト構造から該属性抽出手段を用いて属性
を抽出し、これを該相関データ記憶手段において記憶さ
れている相関データと比較することによって、該ページ
組間のページ間アクセス類似度を変化させる(一般に、
大きくすることを目的とする)ことを想定した場合に、
どの属性をどれだけ変化させれば、どれだけ効果がある
かという情報を求める属性解析手段と、該属性解析手段
で得られた結果を表示する表示手段とを設けるようにし
ている。
【0014】この構成においては、リンクにより直接繋
がっていないページ間においてどの属性を変化させれば
初期の遷移頻度が得られるかを簡易に提示することがで
き、所望のハイパーリンクシステム例えばWebシステ
ムを構築維持することができる。
【0015】また、本発明の第5の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムを
構成する(例えば全ての)ページ組について、アクセス
履歴情報を解析することによって、(多くの)ユーザー
が双方をアクセスした度合いを表わすページ間アクセス
類似度を計算するアクセス類似度解析手段と、該ページ
組のコンテンツや該ページ組を包含するハイパーテキス
トから(一つ以上の)属性を抽出する属性抽出手段と、
該ページ間アクセス類似度と該属性との間の相関を計算
する相関解析手段と、該相関解析手段で得られたデータ
を記憶する相関データ記憶手段と、指定されたページ群
の任意のページ間について、該アクセス類似度解析手段
を用いてページ間アクセス類似度を計算し、該ページ間
アクセス類似度が小さなページ組(一つ以上)を獲得す
る解析対象ページ組獲得手段と、該解析対象ページ組獲
得手段で獲得されたページ組のコンテンツや該ページ組
を包含するハイパーテキスト構造から該属性抽出手段を
用いて属性を抽出し、これを該相関データ記憶手段にお
いて記憶されている相関データと比較することによっ
て、該ページ組間のページ間アクセス類似度を変化させ
る(一般に、大きくすることを目的とする)ことを想定
した場合に、どの属性をどれだけ変化させれば、どれだ
け効果があるかという情報を求める属性解析手段と、該
属性解析手段で得られた結果を表示する表示手段とを設
けるようにしている。
【0016】この構成においても、リンクにより直接繋
がっていないページ間においてどの属性を変化させれば
初期の遷移頻度が得られるかを簡易に提示することがで
き、所望のハイパーリンクシステム例えばWebシステ
ムを構築維持することができる。さらに、ユーザによる
アクセスが共起することの少ないページ間を修正対象と
して自動的に選別することができる。
【0017】また、本発明の第6の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムを
構成する(例えば全ての)ページ組について、アクセス
履歴情報を解析することによって、(多くの)ユーザー
が双方をアクセスした度合いを表わすページ間アクセス
類似度を計算するアクセス類似度解析手段と、該ページ
組のコンテンツや該ページ組を包含するハイパーテキス
トから(一つ以上の)属性を抽出する属性抽出手段と、
該ページ間アクセス類似度と該属性との間の相関を計算
する相関解析手段と、該相関解析手段で得られたデータ
を記憶する相関データ記憶手段と、指定されたページ群
の任意のページ間について、該アクセス類似度解析手段
を用いてページ間アクセス類似度を計算し、さらに、該
属性抽出手段を用いて、該ページ間のコンテンツ類似度
を計算し、該ページ間アクセス類似度と該コンテンツ類
似度の比率を基に、コンテンツが類似しているにもかか
わらずページ間アクセス類似度が小さなページ組(一つ
以上)を獲得する解析対象ページ組獲得手段と、該解析
対象ページ組獲得手段で獲得されたページ組のコンテン
ツや該ページ組を包含するハイパーテキスト構造から該
属性抽出手段を用いて属性を抽出し、これを該相関デー
タ記憶手段において記憶されている相関データと比較す
ることによって、該ページ組間のページ間アクセス類似
度を変化させる(一般に、大きくすることを目的とす
る)ことを想定した場合に、どの属性をどれだけ変化さ
せれば、どれだけ効果があるかという情報を求める属性
解析手段と、該属性解析手段で得られた結果を表示する
表示手段とを設けるようにしている。
【0018】この構成においても、リンクにより直接繋
がっていないページ間においてどの属性を変化させれば
初期の遷移頻度が得られるかを簡易に提示することがで
き、所望のハイパーリンクシステム例えばWebシステ
ムを構築維持することができる。さらに、コンテンツが
関連していながらユーザによるアクセスが共起すること
の少ないページ間を修正対象として自動的に選別するこ
とができる。
【0019】また、本発明の第1〜第6の側面におい
て、属性抽出手段が、属性の一つとして、少なくとも、
ページのコンテンツにおけるハイパーリンクの位置を抽
出するようにしてもよい。また、属性抽出手段が、属性
の一つとして、少なくとも、ページのコンテンツにおけ
るハイパーリンクの数を抽出するようにしてもよい。ま
た、属性抽出手段が、属性の一つとして、少なくとも、
ページのコンテンツにおけるハイパーリンクの種類を抽
出するようにしてもよい。また、属性抽出手段が、属性
の一つとして、少なくとも、ページのコンテンツにおけ
るハイパーリンクのサイズを抽出するようにしてもよ
い。また、属性抽出手段が、属性の一つとして、少なく
とも、ページのコンテンツにおけるハイパーリンクを表
わす文字の種類を抽出するようにしてもよい。また、属
性抽出手段が、属性の一つとして、少なくとも、ページ
のコンテンツにおけるページのサイズを抽出するように
してもよい。
【0020】また、本発明の第1、第2、第4または第
5の側面において、属性抽出手段が、属性の一つとし
て、少なくとも、ページ組間のコンテンツ類似度を抽出
するようにしてもよい。
【0021】また、本発明の第1〜第6の側面におい
て、属性抽出手段が、属性の一つとして、少なくとも、
ページの位置を抽出するようにしてもよい。また、属性
抽出手段が、属性の一つとして、少なくとも、ページの
更新日時を抽出するようにしてもよい。
【0022】また、本発明の第4〜第6の側面におい
て、属性抽出手段が、属性の一つとして、少なくとも、
ページ間のハイパーリンク遷移数を抽出するようにして
もよい。
【0023】また、本発明の第1〜第3の側面におい
て、ハイパーリンク遷移頻度解析手段が、ハイパーテキ
ストを網羅的にアクセスして自動的に情報を収集する探
索ロボットを識別して、当該探索ロボットからのアクセ
ス情報を排除して解析を行うようにしてもよい。
【0024】また、本発明の第4〜第6の側面におい
て、アクセス類似度解析手段が、ハイパーテキストを網
羅的にアクセスして自動的に情報を収集する探索ロボッ
トを識別して、当該探索ロボットからのアクセス情報を
排除して解析を行うようにしてもよい。
【0025】また、本発明の第1〜第3の側面におい
て、ハイパーリンク遷移頻度解析手段が、プロクシーサ
ーバーを識別して、当該プロクシーサーバからのアクセ
ス情報を排除して解析を行うようにしてもよい。
【0026】また、本発明の第4〜第6の側面におい
て、アクセス類似度解析手段が、プロクシーサーバーを
識別して、当該プロクシーサーバからのアクセス情報を
排除して解析を行うようにしてもよい。
【0027】また、本発明の第1〜第3の側面におい
て、ハイパーリンク遷移頻度解析手段が、被リンク数が
大きなページをリンク先とするハイパーリンク遷移を排
除して解析を行うようにしてもよい。
【0028】また、本発明の第7の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムへ
のアクセス履歴情報とハイパーリンク構造を解析して、
ハイパーリンクで繋がれた(例えば全ての)ページ間の
ハイパーリンク遷移頻度を計算するハイパーリンク遷移
頻度獲得手段と、ハイパーリンクで繋がれたページ組の
コンテンツから(一つ以上の)属性を抽出する属性抽出
手段と、該ハイパーリンク遷移頻度と該属性との間の相
関を計算する相関解析手段と、該相関解析手段で得られ
たデータを記憶する相関データ記憶手段と、指定された
(例えば一つの)ページ組のコンテンツから該属性抽出
手段を用いて属性を抽出し、これを該相関データ記憶手
段において記憶されている相関データと比較することに
よって、該ページ組間のハイパーリンク遷移頻度を変化
させる(一般に、上げることを目的とする)ことを想定
した場合に、どの属性をどれだけ変化させれば、どれだ
け効果があるかという情報を求める属性解析手段と、該
属性解析手段で得られた結果を表示する表示手段と、こ
の表示結果を参照しながら該指定されたページ組のコン
テンツを改変する編集手段と、該編集手段において改変
されたコンテンツから該属性抽出手段を用いて属性を抽
出し、これを該相関データ記憶手段において記憶されて
いる相関データと比較することによって、該ページ組間
のハイパーリンク遷移頻度を予測して改変による効果を
計算するコンテンツ改変効果解析手段とを設け、該表示
手段において該コンテンツ改変効果解析手段で得られた
結果を表示するようにしている。
【0029】この構成においては、ハイパーリンクを用
いて関連付けたページ間においてどの属性を変化させれ
ば初期の遷移頻度が得られるかを簡易に提示することが
でき、また属性を調整した後の予想結果に基づいて確実
に属性調整を行え、所望のハイパーリンクシステム例え
ばWebシステムを構築維持することができる。
【0030】また、本発明の第8の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムを
構成する(例えば全ての)ページ組について、アクセス
履歴情報を解析することによって、(多くの)ユーザー
が双方をアクセスした度合いを表わすページ間アクセス
類似度を計算するアクセス類似度解析手段と、該ページ
組のコンテンツや該ページ組を包含するハイパーテキス
トから(一つ以上の)属性を抽出する属性抽出手段と、
該ページ間アクセス類似度と該属性との間の相関を計算
する相関解析手段と、該相関解析手段で得られたデータ
を記憶する相関データ記憶手段と、指定された(例えば
一つの)ページ組のコンテンツや該ページ組を包含する
ハイパーテキスト構造から該属性抽出手段を用いて属性
を抽出し、これを該相関データ記憶手段において記憶さ
れている相関データと比較することによって、該ページ
組間のページ間アクセス類似度を変化させる(一般に、
大きくすることを目的とする)ことを想定した場合に、
どの属性をどれだけ変化させれば、どれだけ効果がある
かという情報を求める属性解析手段と、該属性解析手段
で得られた結果を表示する表示手段と、この表示結果を
参照しながら該指定されたページ組のコンテンツを改変
する編集手段と、該編集手段において改変されたコンテ
ンツから該属性抽出手段を用いて属性を抽出し、これを
該相関データ記憶手段において記憶されている相関デー
タと比較することによって、該ページ組間のアクセス類
似度を予測して改変による効果を計算するコンテンツ改
変効果解析手段とを設け、該表示手段において該コンテ
ンツ改変効果解析手段で得られた結果を表示するように
している。
【0031】この構成においては、リンクにより直接繋
がっていないページ間においてどの属性を変化させれば
初期の遷移頻度が得られるかを簡易に提示することがで
き、また属性を調整した後の予想結果に基づいて確実に
属性調整を行え、所望のハイパーリンクシステム例えば
Webシステムを構築維持することができる。
【0032】また、本発明の第1〜第6の側面におい
て、相関解析手段が、ハイパーリンク遷移頻度と属性と
の間の相関(あるいは、アクセス類似度と属性との間の
相関)を計算する際に、有効ではないとおもわれる属性
を選択する機能を有し、後続する処理においてこれらの
属性を無視するようにしてもよい。
【0033】また、本発明の第1〜第6の側面におい
て、解析対象となるハイパーテキストシステムを(例え
ばネットワーク経由で)指定する解析対象指定手段を設
けるようにしてもよい。
【0034】また、本発明の第1〜第6の側面におい
て、複数のユーザーが、解析対象となるハイパーテキス
トシステムを(例えばネットワーク経由で)指定する解
析対象指定手段を設けるようにしてもよい。
【0035】また、本発明の第1〜第6の側面におい
て、解析対象となるハイパーテキストシステムのコンテ
ンツを(例えばネットワーク経由で)受け渡すコンテン
ツ伝送手段を設けるようにしてもよい。
【0036】また、本発明の第1〜第6の側面におい
て、複数のユーザーが、解析対象となるハイパーテキス
トシステムのコンテンツを(例えばネットワーク経由
で)受け渡すコンテンツ伝送手段を有するようにしても
よい。
【0037】また、本発明の第1〜第6の側面におい
て、解析対象となるハイパーテキストシステムのアクセ
ス履歴情報を(例えばネットワーク経由で)受け渡すア
クセス履歴情報伝送手段を設けるようにしてもよい。
【0038】また、本発明の第1〜第6の側面におい
て、複数のユーザーが、解析対象となるハイパーテキス
トシステムのアクセス履歴情報を(例えばネットワーク
経由で)受け渡すアクセス履歴情報伝送手段を有するよ
うにしてもよい。
【0039】また、本発明の第1〜第6の側面におい
て、属性抽出手段が抽出する属性の組を(例えばネット
ワーク経由で)指定する属性指定手段を設けるようにし
てもよい。
【0040】また、本発明の第1〜第6の側面におい
て、複数のユーザーが、属性抽出手段が抽出する属性の
組を(ネットワーク経由で)指定する属性指定手段を有
するようにしてもよい。
【0041】また、本発明の第7の側面において、編集
手段がネットワーク経由で操作できるようにしてもよ
い。また、編集手段がネットワーク経由で複数のユーザ
ーによって操作できるようにしてもよい。
【0042】また、本発明の第1〜第6の側面におい
て、表示手段が表示内容をネットワーク経由で伝送でき
るようにしてもよい。また、表示手段が表示内容をネッ
トワーク経由で複数のユーザーに対して伝送できるよう
にしてもよい。
【0043】なお、本発明は方法の態様で実現すること
もできる。この場合、ハイパーリンク解析方法は、ハイ
パーリンク解析装置を構成する各手段に対応する手順で
構成される。また、本発明の構成のうちの少なくともそ
の一部をコンピュータソフトウェアとして実現すること
も可能である。また本発明を当該コンピュータソフトウ
ェアを記録した記録媒体により実現することも可能であ
る。
【0044】
【発明の実施の形態】ネットワーク上に構成されるハイ
パーテキストシステムのなかで代表的なものはWebで
ある。以下、HTML(ハイパーテキストマークアップ
ランゲッジ)で記述されたWebを例として、本発明の
実施例を説明する。
【0045】[実施例1]図1は、本発明の実施例1を
示す構成図である。同図において、Webサーバ101
はネットワーク上で情報を発信する手段であり、Web
サーバ101にはユーザーに提供したい情報が、ページ
(=ファイル)とハイパーリンクからなるハイパーテキ
スト102として貯えられている。ユーザーはWebサ
ーバ101上のハイパーテキスト102にアクセスする
ことで情報を入手できる。Webサーバ101は、ユー
ザーからのアクセスがある毎に、ユーザーのコンピュー
タを識別するためのコンピュータ識別子(IPアドレ
ス)とアクセス時刻とユーザーのアクセスしたページの
あるアドレス(URL)をアクセス履歴情報103とし
て記録する手段を持つ。
【0046】ハイパーリンク遷移頻度獲得手段104
は、ハイパーテキスト102の各ページ(起点ページと
呼ぶ)について、そこからのリンク先ページ(Webサ
ーバ101上にあるものだけを対象とし、Webサーバ
101の外にあるものは無視する)を獲得して、それぞ
れのページ組について、アクセス履歴情報103を参照
して、同一ユーザーから同一セッションで起点ページか
らリンク先ページの順にアクセスがあれば一件として順
次カウントしていく(ある定められた時間枠で、各IP
アドレス毎にアクセス先ページ(URL)を時間順に並
べることによって容易に実現できる)。得られた積算カ
ウントがページ間(つまり、ハイパーリンクの)遷移頻
度である。ここで、本発明の変形例として、積算カウン
トを起点ページへのアクセス数で割った値をハイパーリ
ンク遷移頻度として扱ってもよい。また別の変形例とし
て、ハイパーリンク遷移頻度獲得手段104が、情報収
集のための探索ロボットからのアクセスを無視するよう
にしてもよい。これは、例えば、ある慣習に従って探索
ロボットがアクセスする特殊なページ(Webでは、ル
ート直下に置かれるrobots.txtという名のフ
ァイル)へのアクセスの有無や、短期間に多数のノード
を網羅的にアクセスするという探索ロボットに特徴的な
振る舞いの有無や、既知の探索ロボットのコンピュータ
識別子であるか否かによって、探索ロボットを識別し
て、該探索ロボットのコンピュータ識別子に関わる情報
を排除することによって実現できる。こうすることによ
って、ハイパーリンク遷移頻度がより正確に実ユーザー
(=人間)の振る舞いを反映したものとなり、本ハイパ
ーテキスト解析装置の精度が向上する。さらに別の変形
例として、ハイパーリンク遷移頻度獲得手段104が、
プロクシーサーバからのアクセスを無視するようにして
もよい。これは、アクセス履歴情報103におけるコン
ピュータ識別子のうち、プロクシーサーバに対応するも
のは(一般に)複数のユーザーからのアクセスを集約し
たものなので、そのハイパーリンク遷移頻度を求めても
個別のユーザーの振る舞いを正確に反映したものにはな
らず解析精度が下がってしまうという問題を解決するた
めに行うものである。プロクシーサーバであるか否か
は、ある期間に、予め定めておいた閾値(一個人が通常
アクセスすることがないようなアクセス頻度を閾値とす
る)を越える数のページにアクセスしたかどうかや、既
知のプロクシーサーバのコンピュータ識別子であるか否
かによって識別できる。さらに別の変形例として、ハイ
パーリンク遷移頻度獲得手段104が、ハイパーテキス
ト102のハイパーリンク構造を解析して各ページの被
リンク数を求め、その値が予め定められた閾値を越える
ようなページへのハイパーリンク遷移を無視するように
してもよい。リンク数または被リンク数が大きなページ
はサイトナビゲート用のインデクスページであることが
多い。これらのページはサイトのコンテンツ提供者にと
ってユーザーにアクセスしてもらいたいコンテンツを包
含するページというよりも、サイトの性能を維持するた
めの機能的役割を果たすためのものである傾向が強く、
これらをリンク先とするハイパーリンク遷移頻度を求め
ても、コンテンツを探索するユーザーの振る舞いを直接
的に定量化することにはつながらない。そこで、これら
のページをリンク先とするハイパーリンク遷移を無視す
ることによって、解析精度が上がり、さらに計算量も減
少して処理効率が良くなる。
【0047】属性抽出手段105は、ハイパーテキスト
102の各ページから(一つ以上の)属性を抽出する。
属性としては、例えば、以下の9項目の中から任意のN
個の組合わせ(Nは1以上9以下)を抽出する。もちろ
ん他の属性を用いてもよい。
【0048】[属性1]ページのコンテンツにおける、
それぞれのリンク先ページに対応するハイパーリンクの
位置を抽出する。これは、ハイパーリンクが埋め込まれ
ている位置がページのコンテンツの先頭から何文字目か
(文字カウントでわかる)、あるいは、何単語目か(既
存の形態素解析技術を用いることによって実現でき
る)、あるいは、何パラグラフ目か(タグ情報を用いる
ことによって実現できる)という情報を得ることによっ
て実現できる。また、本発明の変形例として、ハイパー
リンクの位置を、ページがブラウザでレンダリングさ
れ、表示される際のウインドウ枠内の位置として定めて
もよい。これは、標準となるウインドウ枠サイズを予め
定めておき、ハイパーリンクがウインドウ枠内に表示さ
れるかどうか、あるいは、ウインドウ枠を例えば縦に均
等3分割して{上部、中部、下部、見えない部分}と領
域を定め、ハイパーリンクがどの領域に属するかを抽出
する。また、別の変形例として、ハイパーリンクの位置
を、ページコンテンツの全てのハイパーリンクの中で何
番目に現れるかという順序で定めてもよい。
【0049】[属性2]ページのコンテンツにおけるハ
イパーリンクの数を抽出する。また、本発明の変形例と
して、特定のページ(=注目しているリンク先ページ)
を指すハイパーリンクの数としてもよい。これは、ハイ
パーテキスト102の全てのページからハイパーリンク
を抽出してそのリンク先URLを調べることによって容
易にカウントできる。
【0050】[属性3]ページのコンテンツにおけるハ
イパーリンクがテキストで示されているか、あるいは、
画像で示されているかを抽出する。これは、ページのコ
ンテンツからハイパーリンクを表わすタグを取り出し
(<A HREF= URL >...</A>)、こ
の中に画像ファイルが埋め込まれている(<A HRE
F= URL ><IMG SRC= GRAPHIC
FILE ...></A>)か否かを調べることに
よって実現できる。
【0051】[属性4]ページのコンテンツにおけるハ
イパーリンクのサイズを抽出する。サイズの尺度として
は、例えば、テキストであれば文字数や単語数(既存の
形態素解析技術を用いることによって実現できる)、画
像であれば表示領域の面積(IMGタグ中のwidth
とheightの値を掛け合わせて求める)を用いる。
【0052】[属性5]ページのコンテンツにおけるハ
イパーリンクテキストの文字種を抽出する。文字種とし
ては、例えば、フォントサイズ、あるいは、フォント
色、イタリックやボールド等の文字飾りの有無を抽出す
る。これらは、タグによって規定されているので容易に
抽出できる。
【0053】[属性6]ページのサイズを抽出する。サ
イズの尺度としては、例えば、コンテンツの文字数や単
語数(既存の形態素解析技術を用いることによって実現
できる)、あるいはページファイルのサイズ(Byte
数)を用いる。
【0054】[属性7]起点ページとリンク先ページの
コンテンツ類似度を抽出する。コンテンツ類似度の計算
法は、既存技術を用いる。例えばベクトル空間モデル法
[Saltonand Allan,1994](Sa
lton and Allan, Text Retr
ieval Using the Vector Pr
ocessing Model,in Proc. o
f SDAIR−94.)では、各ページについて、単
語を項としその出現頻度を項の値とするようなベクトル
を生成して、ベクトル間の内積値をコンテンツ類似度と
して用いている。ここで、本発明の変形として、各起点
ページのハイパーリンクが埋め込まれている位置の近傍
テキスト(例えば、同一パラグラフとか前後N単語を近
傍とする)に出現する単語だけを対象とする(リンク先
ページは、ページ全体に出現する単語を対象とする、あ
るいは、ハイパーリンクにリンク先のページ中の位置ま
で記述してあれば、その近傍テキストを対象とする)よ
うにしてもよい。
【0055】[属性8]ページ間の論理的位置差分を抽
出する。例えば、Webサーバ101上でページのファ
イルが置かれているディレクトリの位置を論理的位置と
して、ルートからの深さを抽出する。次に、起点ページ
とリンク先ページの深さの差を計算してその値を論理的
位置差分とする(ルートからの深さは、URLを解析す
ればわかる。例えば、起点ページがPage1.htm
lという名前のファイルで、www.○○.co.jp
/Dir1/Page1.htmlというURLで表わ
されていて、リンク先ページがPage2.htmlと
いう名前のファイルで、www.○○.co.jp/D
ir1/Dir2/Page2.htmlというURL
で表わされている場合、論理的位置差分は1である)。
【0056】[属性9]ページのファイルの更新日時を
調べ(更新日時は、Webサーバ101においてファイ
ルプロパティを調べれば容易にわかる)、本発明のハイ
パーテキスト解析装置使用時と更新日時の差分時間を属
性として抽出する。
【0057】図2は、各ページについて、ハイパーリン
ク遷移頻度獲得104で得られたハイパーリンク遷移頻
度と、属性抽出手段105で得られた属性を示した表の
例の一部である。この例では、ハイパーリンク遷移頻度
として、積算カウントを起点ページへのアクセス数で割
った値を用い、属性の組合わせとして、上記の1(先頭
からの単語数カウントを使用)、4(文字数を使用)、
6(起点ページの単語数を使用)の3つを用いている。
【0058】図1の相関解析手段106では、ハイパー
リンク遷移頻度獲得手段104で得られたハイパーリン
ク遷移頻度と、属性抽出手段105で得られた属性の相
関を計算する。相関の計算法としては、既存の統計手法
を用いることができるが、ここでは、重回帰分析を用い
た場合の実施例を説明する。本発明に重回帰分析を適用
した場合、目的変量はハイパーリンク遷移頻度(yとお
く)で、説明変量は各属性(x1,x2,x3,...xp
とおく)となる(図2の例では、目的変量は遷移頻度
(y)で、説明変量はリンク位置(x1)とリンクサイ
ズ(x2)とページサイズ(x3)の3つとなる)。重回
帰分析では、y=a11+a22+a33+...+a
pp+a0(aは回帰係数)という重回帰式を作り、左
辺と右辺のyとxにデータを代入して、その差の二乗を
表わす式を得る。一般にデータ系列は複数(多数)ある
ので、それぞれについて左辺と右辺の差の二乗を表わす
式を得て、全ての式の和(Qとおく)を得る。次に、Q
を最小にするような回帰係数を求めるという手続きを取
る(Qをそれぞれの回帰係数で偏微分してその値を0と
おいた等式を作り、その連立方程式を解けばよい)。こ
うして得られた重回帰式は、図1の相関データ記憶手段
107において記憶される。ここで、本発明の変形例と
して、説明変量の候補の中から、目的変量(=ハイパー
リンク遷移頻度)の予測に有効ではないと思われる属性
を選択し、以下の処理においてこれらの属性を無視する
ことによって、解析精度を上げ、さらに処理効率を上げ
るようにしてもよい。重回帰分析において、有効な説明
変量の組合わせを選択する手法は既存であり、例えば、
forward selection methodや
stepwise methodが提案されている(C
arl J.Huberty,Applied Dis
criminant Analysis,JohnWi
ley & Sons,Inc,1994)ので、本発
明ではこれらのうちいずれかを用いれば容易に実現でき
る。
【0059】次に、あるページ組が解析対象として与え
られると、本ハイパーリンク解析装置は、属性抽出手段
105を用いて、前述の方法により、属性を抽出する
(上で、説明変量として採用した属性だけを抽出すれば
よい。図2の例では、上記の1、4、6の3つの属性を
抽出する)。このようにして得られた属性は、属性解析
手段108において、相関データ記憶手段107におい
て記憶されている重回帰式と比較される。その方法は、
まず、ある一つの属性に注目して(例えば、図2の例
で、上記の1の属性に注目したとする)、他の属性の値
を重回帰式に代入する(上記の4と6の属性の値をそれ
ぞれx2とx3に代入する)。すると、回帰式は、一変数
の一次式で表わされ(y=a11+c(cは定数)とい
う形になる)、与えられたページ組のハイパーリンク遷
移頻度と注目した属性の(予測)相関式が得られるの
で、(他の属性は変化させないという前提の基におい
て)該属性をどういう値に変更すれば、ハイパーリンク
遷移頻度がどのように変わるかが予測される。尚、ここ
で、注目している属性の値(属性抽出手段105で得ら
れたもの)を代入すると、現状のハイパーリンク遷移頻
度予測値が得られる。本発明では、上記の注目している
属性というのは、特に指定されるものではなく、全ての
属性を順に注目しながら、上記の処理を繰り返す(つま
り、属性の数だけ相関式が得られる)。
【0060】このようにして得られた相関式は表示手段
109において表示される。図3は、表示の一例を示す
ものである。ここでは、図2の例の結果表示の一部(上
記の1の属性に注目したものを示している)を示してい
る。同図では、与えられたページ組のハイパーリンク遷
移頻度を注目した属性(ハイパーリンクの位置)の(一
次)関数として表わしている。ここで、x軸の値pは、
現状の属性値であり、q(=a1p+c)は、現状のハ
イパーリンク遷移頻度予測値となる。同図を参照する
と、属性値をどれだけ可変させると(ここでは、ハイパ
ーリンクの位置を何単語目に埋め込むかということにな
る)、どれだけハイパーリンク遷移頻度を可変させられ
るかが定量的に予測できる(一般に、ハイパーリンク遷
移頻度を高くすることを考えるが、ここでは、ハイパー
リンク位置を前にするほど、ハイパーリンク遷移頻度が
高くなることが予測でき、その効果は回帰係数a1の値
で左右される)。
【0061】[実施例2]つぎに本発明の実施例2につ
いて説明する。
【0062】図4は、本発明の実施例2を示す構成図で
ある。尚、上記の実施例と同一部分には同一符号を付し
て重複する説明は省略する。本実施例は、解析対象ペー
ジ組獲得手段401により、属性解析手段108で解析
するページ組を自動的に取捨選択する。この処理の流れ
は、先ず、指定されたページ集合(例えば、ある特定の
サーバ上の全てのページ、とか、ある特定のサーバ上の
ある特定のディレクトリ以下に存在する全てのページと
いった指定)のうちハイパーリンクで直接繋がれたペー
ジ組について、ハイパーリンク遷移頻度獲得手段104
を用いてハイパーリンク遷移頻度を得る。次に、この情
報は解析対象ページ組獲得手段401に渡され、解析対
象ページ組獲得手段401において、ハイパーリンク遷
移頻度が予め定められた閾値より小さなページ組を獲得
して、これらを属性解析手段108に渡す。属性解析手
段108では、上記の実施例の方法で、渡されたページ
組の解析を(順次)行う。こうすることによって、本ハ
イパーテキスト解析装置のユーザーが、予め、(ハイパ
ーリンク遷移頻度に)問題がありそうなページ組を探し
て指定しなければならいという手間を省略できる。
【0063】ここで、本発明の変形例を示す。先ず上記
の処理と同様に、指定されたページ集合のうちハイパー
リンクで直接繋がれたページ組について、ハイパーリン
ク遷移頻度獲得手段104を用いてハイパーリンク遷移
頻度を得る。さらに、本変形例では、属性抽出手段10
5において、前述の方法により該ページ組間のコンテン
ツ類似度を得る。こうして得られた該ページ組間のハイ
パーリンク遷移頻度とコンテンツ類似度の情報は解析対
象ページ組獲得手段401に渡され、解析対象ページ組
獲得手段401において、ハイパーリンク遷移頻度をコ
ンテンツ類似度で割った値が予め定められた閾値より小
さなページ組を獲得して、これらを属性解析手段108
に渡す。ハイパーリンク遷移頻度をコンテンツ類似度で
割った値が小さなページ組は、内容が類似しているにも
拘わらず、ユーザーがリンクを遷移してくれる傾向が小
さいものであり、改善の余地があるといえる(改善のた
めの指針は上記と同様に属性解析手段108において得
られ、表示手段109において表示される)。
【0064】[実施例3]つぎに本発明の実施例3につ
いて説明する。
【0065】図5は、本発明の実施例3を示す構成図で
ある。尚、上記の実施例と同一部分には同一符号を付し
て重複する説明は省略する。同図において、アクセス類
似度解析手段501は、ハイパーテキスト102の(全
ての)ページ組について、そのページ間のアクセス類似
度を求める。ここで、アクセス類似度とは、与えられた
2つのページについて、いかに多くのユーザーが双方を
アクセスしたかという度合いを表わす指標であり、例え
ば、ベクトル空間モデル法を使って、各ページについ
て、アクセスのあったIPアドレスを項としその出現頻
度を項の値とするようなベクトルを生成して、ベクトル
間の内積値をアクセス類似度として用いる。このように
前述のハイパーリンク遷移頻度の代わりに、アクセス類
似度を用いることによって、(2つのページ間のハイパ
ーリンクの有無を考慮することなく)任意のページ組を
対象として、そのページ構成の改善策を提示できるよう
になる。また本発明の変形例としてアクセス類似度解析
手段501が、上記実施例と同様の方法で、情報収集の
ための探索ロボットからのアクセスを無視するようにし
てもよい。さらに別の変形例として、アクセス類似度解
析手段501が、上記実施例と同様の方法で、プロクシ
ーサーバからのアクセスを無視するようにしてもよい。
【0066】属性抽出手段105は、上記実施例と同様
の処理を行うが、ここでは、さらに、ページ間のハイパ
ーリンク遷移数を計算してこれを属性の1つとしてもよ
い。具体的には、ページ組{ページA,ページB}が与
えられたときに、ハイパーリンクの向きを考慮しながら
ページAからページBへの最短経路の遷移数を計算し、
次にページBからページAへの最短経路の遷移数を計算
し、両者を比べて小さい方をページ組{ページA,ペー
ジB}のハイパーリンク遷移数とする。ここで、ページ
AからページBへの最短経路は、ページAからページB
に到達するまで幅優先で深さ(=遷移数)をカウントし
ながらハイパーリンクを探索すればよい。この探索は、
一般には、辿ることができるハイパーリンクが無くなる
まで続けられるが、処理効率を上げるために、深さ(=
遷移数)が予め決められた閾値に達したところで停止す
るように設定してもよい。この場合、ページ間の最短経
路の遷移数は該閾値とする。
【0067】相関解析手段106では、アクセス類似度
解析手段501で得られたアクセス類似度と、属性抽出
手段105で得られた属性の相関を上記実施例と同様に
重回帰分析によって計算する。得られた重回帰式は、相
関データ記憶手段107において記憶される。ここで、
本発明の変形例として、上記実施例と同様の方法によ
り、説明変量の候補の中から、目的変量(=アクセス類
似度)の予測に有効ではないとおもわれる属性を選択
し、以下の処理においてこれらの属性を無視することに
よって、解析精度を上げ、さらに処理効率を上げるよう
にしてもよい。
【0068】次に、あるページ組が解析対象として与え
られると、本ハイパーリンク解析装置は、属性抽出手段
105を用いて、上記実施例と同様の方法により、属性
を抽出する。得られた属性は、属性解析手段108にお
いて、相関データ記憶手段107において記憶されてい
る重回帰式と比較され、上記実施例と同様に、与えられ
たページ組のアクセス類似度と注目した属性の(予測)
相関式が得られるので、(他の属性は変化させないとい
う前提の基において)該属性をどういう値に変更すれ
ば、ハイパーリンク遷移頻度がどのように変わるかが予
測される。尚、ここで、注目している属性の値(属性抽
出手段105で得られたもの)を代入すると、現状のア
クセス類似度予測値が得られる。本発明では、上記の注
目している属性というのは、特に指定されるものではな
く、全ての属性を順に注目しながら、処理を繰り返す
(つまり、属性の数だけ相関式が得られる)。このよう
にして得られた相関式は、上記実施例と同様に、表示手
段109において表示される。
【0069】[実施例4]つぎに本発明の実施例4につ
いて説明する。
【0070】図6は、本発明の実施例4を示す構成図で
ある。尚、上記の実施例と同一部分には同一符号を付し
て重複する説明は省略する。本実施例は、解析対象ペー
ジ組獲得手段601により、属性解析手段108で解析
するページ組を自動的に取捨選択する。この処理の流れ
は、先ず、指定されたページ集合(例えば、ある特定の
サーバ上の全てのページ、とか、ある特定のサーバ上の
ある特定のディレクトリ以下に存在する全てのページと
いった指定)から任意の2つを取り出したページ組につ
いて、アクセス類似度解析手段501を用いてアクセス
類似度を得る。次に、この情報は解析対象ページ組獲得
手段601に渡され、解析対象ページ組獲得手段601
において、アクセス類似度が予め定められた閾値より小
さなページ組を獲得して、これらを属性解析手段108
に渡す。属性解析手段108では、上記の実施例の方法
で、渡されたページ組の解析を(順次)行う。こうする
ことによって、本ハイパーテキスト解析装置のユーザー
が、予め、(アクセス類似度に)問題がありそうなペー
ジ組を探して指定しなければならいという手間を省略で
きる。
【0071】ここで、本発明の変形例を示す。先ず上記
の処理と同様に、指定されたページ集合から任意の2つ
を取り出したページ組について、アクセス類似度解析手
段501を用いてアクセス類似度を得る。さらに、本変
形例では、属性抽出手段105において、前述の方法に
より該ページ組間のコンテンツ類似度を得る。こうして
得られた該ページ組間のアクセス類似度とコンテンツ類
似度の情報は解析対象ページ組獲得手段601に渡さ
れ、解析対象ページ組獲得手段601において、アクセ
ス類似度をコンテンツ類似度で割った値が予め定められ
た閾値より小さなページ組を獲得して、これらを属性解
析手段108に渡す。アクセス類似度をコンテンツ類似
度で割った値が小さなページ組は、内容が類似している
にも拘わらず、ユーザーがリンクを遷移してくれる傾向
が小さいものであり、改善の余地があるといえる(改善
のための指針は上記と同様に属性解析手段108におい
て得られ、表示手段109において表示される)。
【0072】[実施例5]つぎに本発明の実施例5につ
いて説明する。
【0073】図7は、本発明の実施例5を示す構成図で
ある。尚、上記の実施例と同一部分には同一符号を付し
て重複する説明は省略する。尚、本発明では、同図のハ
イパーリンク遷移頻度獲得手段104をアクセス類似度
解析手段501と置き換えることもできる。この場合、
以下の説明中のハイパーリンク遷移頻度はアクセス類似
度に置き換えられる。
【0074】本実施例は、編集手段701において、本
ハイパーテキスト解析装置の操作者が、表示手段109
で表示されている情報(指定されたページ組間のハイパ
ーリンク遷移頻度を変化させることを想定した場合に、
どの属性をどれだけ変化させれば、どれだけ効果がある
かという情報)を参照しながら指定されたページ組のコ
ンテンツを改変する(=1つ以上の属性を変化させる)
ことができる。図8は、表示手段109における表示の
一例である。この例では、P6(起点ページ)とP7
(リンク先ページ)が指定されたページ組であり、目的
変量yに対応するハイパーリンク遷移頻度には、積算カ
ウントを起点ページへのアクセス数で割った値を用いて
いる(アクセス類似度をに置き換えた場合は、上記実施
例と同様に、IPアドレスの出現頻度に基づくベクトル
の内積値を用いる)。また、属性の組合わせとして、上
記の1(ハイパーリンクの位置:先頭からの単語数カウ
ントを使用)、4(ハイパーリンクサイズ:文字数を使
用)、6(ページサイズ:起点ページの単語数を使用)
の3つを用いており、これらが順に説明変量x1,x2
3にそれぞれ対応する。同図の表では、ページ組{P
6,P7}から(属性抽出手段105において)抽出さ
れた3つの属性値がそれぞれ、x1=66、x2=7、x
3=325であり、そのとき予測されるハイパーリンク
遷移頻度がy=0.17である(属性解析手段108に
おいて求められる)ことがわかる。該操作者は、このy
=0.17というハイパーリンク遷移頻度予測値を増加
させたければ、同図下の3つのグラフを見て、どの属性
をどれだけ変化させれば、どれだけ効果があるかという
ことを知ることができる。本例では、x1を小さくする
(つまり、P6からP7へのハイパーリンクの位置を前
にする)、あるいは、x2を大きくする(つまりP6か
らP7へのハイパーリンクの文字数を増やす)、あるい
は、x3を小さくする(つまりP6の文字数を減らす)
ことによってハイパーリンク遷移頻度予測値が増加する
ことがわかる。このとき、各グラフの傾きを見ることに
よって属性値の可変量がどの程度の効果を持つかも容易
に知ることができる(尚、これら3つのグラフはそれぞ
れに対応する属性だけを変化させたときのハイパーリン
ク遷移頻度予測値を示すものである)。該操作者は、こ
れらの情報を参考にしながら、編集手段701におい
て、ページ組{P6,P7}のコンテンツを改変でき
る。このようにして改変されたページ組はハイパーテキ
スト102に置かれる。
【0075】次に、属性抽出手段105において、上記
実施例と同様の方法で、該ページ組の属性が抽出され、
コンテンツ改変効果解析手段702に渡される。コンテ
ンツ改変効果解析手段702では、上記実施例と同様の
方法で、該ページ組の属性と相関データ記憶手段におい
て記憶されている相関データと比較することによって、
該ページ組間のハイパーリンク遷移頻度を予測して改変
による効果を計算し、その計算結果を表示手段109に
渡す。
【0076】図9は、表示手段109における表示の一
例である。同図の表は、ページ組{P6,P7}のコン
テンツ改変後のハイパーリンク遷移頻度予測値を示すも
のである。本例では、該操作者は、編集手段701にお
いてx1とx3を変化させており、改変後のハイパーリン
ク遷移頻度予測値は0.17から0.31に増加してい
る。本発明では、該操作者はこの表示例を参照しなが
ら、編集手段701を用いて、さらに、コンテンツの改
変を繰り返すこともできる。このとき、上記実施例と同
様に、同図下の3つのグラフを見て、どの属性をどれだ
け変化させれば、どれだけ効果があるかということを知
ることができる。尚、これら3つのグラフの形状は、図
8のコンテンツ改変前のものと比較して、回帰係数
1、a2、a3は同一で、定数項だけが変化したものと
なる。
【0077】[実施例6]つぎに本発明の実施例6につ
いて説明する。
【0078】図10は、本発明の実施例6を示す構成図
である。尚、上記の実施例と同一部分には同一符号を付
して重複する説明は省略する。本実施例は、解析対象指
定手段1001により、本ハイパーテキスト解析装置の
ユーザーが、解析対象となるWebサーバを指定できる
ようにする。ユーザーのコンピュータ1002と解析対
象指定手段1001はネットワーク(例えばインターネ
ットや電話回線)で接続されている。ユーザーのコンピ
ュータ1002では、解析対象とするWebサーバーの
URL(サーバーを識別する符号であれば何でもよい)
が入力され、このURLはネットワークを通じて解析対
象指定手段1001に渡される。解析対象指定手段10
01は、該URLを属性抽出手段105とハイパーリン
ク遷移頻度獲得手段104(あるいはアクセス類似度解
析手段501)に渡す。属性抽出手段105とハイパー
リンク遷移頻度獲得手段104では、HTTP(ハイパ
ーテキストトランスファプロトコル)に従って該URL
を発行して、解析対象Webサーバーとアクセスして必
要な情報を獲得する。ここで、本発明の変形として、解
析対象指定手段1001が複数のユーザーのコンピュー
タ1002と接続されていてもよい。この場合、解析対
象指定手段1001は、個々のユーザーからユーザーI
D(あるいはユーザーIDとパスワード)を入力しても
らって、既存のデータベースアクセス制御手法を用い
て、個々の処理が干渉しないような制御をする。さらに
異なる変形として、本発明では、解析対象指定手段10
01をWebサーバー上に置き、CGI(コモンゲート
ウェイインタフェース)スクリプトとして表現して、ユ
ーザーのコンピュータ1002における解析対象指定を
Webページのフォームを用いて行えるようにしてもよ
い。
【0079】[実施例7]つぎに本発明の実施例7につ
いて説明する。
【0080】図11は、本発明の実施例7を示す構成図
である。尚、上記の実施例と同一部分には同一符号を付
して重複する説明は省略する。本実施例は、コンテンツ
伝送手段1101により、本ハイパーテキスト解析装置
のユーザーが、解析対象となるWebサーバ上のコンテ
ンツを本ハイパーテキスト解析装置に受け渡せるように
する。本実施例では、先ず、ユーザーのコンピュータ1
002で、解析対象となるWebサーバ上のコンテンツ
を獲得する(あるいは予め解析対象となるWebサーバ
上のコンテンツを持っている)。ユーザーのコンピュー
タ1002とコンテンツ伝送手段1101はネットワー
ク(例えばインターネットや電話回線)で接続されてお
り、ユーザーのコンピュータ1002から解析対象であ
るWebサーバ上のコンテンツがネットワークを通じて
コンテンツ伝送手段1101に渡される。コンテンツ伝
送手段1101は、該Webサーバ上のコンテンツを属
性抽出手段105とハイパーリンク遷移頻度獲得手段1
04(あるいはアクセス類似度解析手段501)に渡
す。Webではコンテンツの改変が頻繁に行われること
もあるが、こうすることによって、ユーザーが想定して
いる(時点での)コンテンツを対象とした解析を確実に
行うことができる。ここで、本発明の変形として、コン
テンツ伝送手段1101が複数のユーザーのコンピュー
タ1002と接続されていてもよい。この場合、コンテ
ンツ伝送手段1101は、個々のユーザーからユーザー
ID(あるいはユーザーIDとパスワード)を入力して
もらって、既存のデータベースアクセス制御手法を用い
て、個々の処理が干渉しないような制御をする。
【0081】[実施例8]つぎに本発明の実施例8につ
いて説明する。
【0082】図12は、本発明の実施例8を示す構成図
である。尚、上記の実施例と同一部分には同一符号を付
して重複する説明は省略する。本実施例は、アクセス履
歴情報伝送手段1201により、本ハイパーテキスト解
析装置のユーザーが、解析対象となるWebサーバのア
クセス履歴情報を本ハイパーテキスト解析装置に受け渡
せるようにする。本実施例では、先ず、ユーザーのコン
ピュータ1002で、解析対象となるWebサーバのア
クセス履歴情報を獲得する(あるいは予め解析対象とな
るWebサーバのアクセス履歴情報を持っている)。ユ
ーザーのコンピュータ1002とアクセス履歴情報伝送
手段1201はネットワーク(例えばインターネットや
電話回線)で接続されており、ユーザーのコンピュータ
1002から解析対象であるWebサーバのアクセス履
歴情報がネットワークを通じてアクセス履歴情報伝送手
段1201に渡される。アクセス履歴情報伝送手段12
01は、該Webサーバのアクセス履歴情報をハイパー
リンク遷移頻度獲得手段104(あるいはアクセス類似
度解析手段501)に渡す。Webサーバーのアクセス
履歴情報は個人のプライバシーに関する情報であると見
なすこともできるため機密性が高い。そのため、Web
サーバーのアクセス履歴情報が該Webサーバー上でア
クセス可能な形態で保持されることは希である。本実施
例のように、ユーザーと本ハイパーテキスト解析装置間
で直接、アクセス履歴情報を受け渡すことができれば第
3者からアクセス履歴情報にアクセスされる可能性が小
さくなる。ここで、本発明の変形として、アクセス履歴
情報伝送手段1201が複数のユーザーのコンピュータ
1002と接続されていてもよい。この場合、アクセス
履歴情報伝送手段1201は、個々のユーザーからユー
ザーID(あるいはユーザーIDとパスワード)を入力
してもらって、既存のデータベースアクセス制御手法を
用いて、個々の処理が干渉しないような制御をする。
【0083】[実施例9]つぎに本発明の実施例9につ
いて説明する。
【0084】図13は、本発明の実施例9を示す構成図
である。尚、上記の実施例と同一部分には同一符号を付
して重複する説明は省略する。本実施例は、属性指定手
段1301により、本ハイパーテキスト解析装置のユー
ザーが、解析対象となるハイパーテキストのコンテンツ
から抽出する属性の組を指定することできる。ユーザー
のコンピュータ1002と属性指定手段1301はネッ
トワーク(例えばインターネットや電話回線)で接続さ
れている。ユーザーのコンピュータ1002では、抽出
する属性の組が入力され、この情報はネットワークを通
じて属性指定手段1301に渡される。属性指定手段1
301は、該情報を属性抽出手段105に渡す。属性抽
出手段105では、指定された属性の組を解析対象とし
て処理を行う。ここで、本発明の変形として、属性指定
手段1301が複数のユーザーのコンピュータ1002
と接続されていてもよい。この場合、属性指定手段13
01は、個々のユーザーからユーザーID(あるいはユ
ーザーIDとパスワード)を入力してもらって、既存の
データベースアクセス制御手法を用いて、個々の処理が
干渉しないような制御をする。さらに異なる変形とし
て、本発明では、属性指定手段1301をWebサーバ
ー上に置き、CGIスクリプトとして表現して、ユーザ
ーのコンピュータ1002における属性の組指定をWe
bページのフォームを用いて行えるようにしてもよい。
この場合、抽出可能な属性を予めメニューとして用意し
ておき、該フォーム上でユーザーが選択するよな形態に
しておいてもよい。
【0085】[実施例10]つぎに本発明の実施例10
について説明する。
【0086】図14は、本発明の実施例10を示す構成
図である。尚、上記の実施例と同一部分には同一符号を
付して重複する説明は省略する。本実施例は、ユーザー
のコンピュータ1002と編集手段701がネットワー
ク(例えばインターネットや電話回線)で接続されてい
る。ユーザーのコンピュータ1002における編集作業
はネットワークを通じて編集手段701に渡される。こ
こで、本発明の変形として、編集手段701が複数のユ
ーザーのコンピュータ1002と接続されていてもよ
い。この場合、編集手段701は、個々のユーザーから
ユーザーID(あるいはユーザーIDとパスワード)を
入力してもらって、既存のデータベースアクセス制御手
法を用いて、個々の処理が干渉しないような制御をす
る。さらに異なる変形として、本発明では、編集手段7
01をWebサーバー上に置き、CGIスクリプトとし
て表現して、ユーザーのコンピュータ1002における
編集作業をWebページのフォームを用いて行えるよう
にしてもよい。
【0087】[実施例11]つぎに本発明の実施例11
について説明する。
【0088】図15は、本発明の実施例11を示す構成
図である。尚、上記の実施例と同一部分には同一符号を
付して重複する説明は省略する。本実施例は、ユーザー
のコンピュータ1002と表示手段109がネットワー
ク(例えばインターネットや電話回線)で接続されてい
る。表示手段109における表示結果はネットワークを
通じてユーザーのコンピュータ1002に渡され、ユー
ザーのコンピュータ1002において表示される。ここ
で、本発明の変形として、表示手段109が複数のユー
ザーのコンピュータ1002と接続されていてもよい。
この場合、表示手段109は、個々のユーザーからユー
ザーID(あるいはユーザーIDとパスワード)を入力
してもらって、既存のデータベースアクセス制御手法を
用いて、個々の処理が干渉しないような制御をする。さ
らに異なる変形として、本発明では、表示手段109を
Webサーバー上に置き、表示結果をHTMLフォーム
で表現して、ユーザーのコンピュータ1002において
表示されるようにしてもよい。
【0089】
【発明の効果】以上説明したように、本発明によれば、
Webサイト上の任意のページ組について、ページコン
テンツから抽出される様々な属性とページ間遷移頻度と
の相関を基にして、ページ構成の問題の原因を提示し、
さらに、その改善策をも提示することができ、ハイパー
テキストシステム(Webサイト)管理者は容易にペー
ジ構成を改善できる。
【0090】
【図面の簡単な説明】
【0091】
【図1】 本発明の実施例の構成を示すブロック図であ
る。
【0092】
【図2】 本発明の実施例の属性の一例を示す図であ
る。
【0093】
【図3】 本発明の実施例の表示の一例を示す図であ
る。
【0094】
【図4】 本発明の実施例の構成を示すブロック図であ
る。
【0095】
【図5】 本発明の実施例の構成を示すブロック図であ
る。
【0096】
【図6】 本発明の実施例の構成を示すブロック図であ
る。
【0097】
【図7】 本発明の実施例の構成を示すブロック図であ
る。
【0098】
【図8】 本発明の実施例の表示の一例を示す図であ
る。
【0099】
【図9】 本発明の実施例の表示の一例を示す図であ
る。
【0100】
【図10】 本発明の実施例の構成を示すブロック図で
ある。
【0101】
【図11】 本発明の実施例の構成を示すブロック図で
ある。
【0102】
【図12】 本発明の実施例の構成を示すブロック図で
ある。
【0103】
【図13】 本発明の実施例の構成を示すブロック図で
ある。
【0104】
【図14】 本発明の実施例の構成を示すブロック図で
ある。
【0105】
【図15】 本発明の実施例の構成を示すブロック図で
ある。
【0106】
【符号の説明】
101 Webサーバ 102 ハイパーテキスト 103 アクセス履歴情報 104 ハイパーリンク遷移頻度獲得手段 105 属性抽出手段 106 相関解析手段 107 相関データ記憶手段 108 属性解析手段 109 表示手段 401 解析対象ページ組獲得手段 501 アクセス類似度解析手段 601 解析対象ページ組獲得手段 701 編集手段 702 コンテンツ改変効果解析手段 1001 解析対象指定手段 1002 ユーザーのコンピュータ 1101 コンテンツ伝送手段 1201 アクセス履歴情報伝送手段 1301 属性指定手段
【手続補正書】
【提出日】平成11年12月6日(1999.12.
6)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正内容】
【書類名】 明細書
【発明の名称】 ハイパーテキスト解析装置および方法
【特許請求の範囲】
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上に
構成されるハイパーテキストシステムにおいて、その構
成に問題がある部分を改善する技術に関する。
【0002】
【従来の技術】ネットワーク上に構成されるハイパーテ
キストシステム(例えば、WorldWide We
b;以降Webと略す)では、ハイパーテキストを格納
しているサーバにおいてユーザー(訪問者)のアクセス
履歴を記録することができる。このアクセス履歴には、
一般に、アクセスしてきたユーザーが使用しているコン
ピュータの識別子(インターネットを利用しているので
あればIPアドレス)、アクセスしてきた時刻、アクセ
スしたページ(=ファイル)のサーバ上での識別子(W
ebではURL)が含まれる。
【0003】アクセス履歴とハイパーリンク構造を解析
して、ハイパーテキストシステム(例えば、Webサイ
ト)の構成の優劣を判断するような知識を得る技術とし
ては、[Perkowitz and Etzion
i,98](Perkowitz and Etzio
ni,Adaptive Web Sites:Aut
omatically Synthesizing W
eb Pages,inProc. of AAAI−
98)がある。
【0004】[Perkowitz and Etzi
oni,98]は、先ず、サイト上の全てのページ組に
ついて、同一ユーザーからのアクセス共起頻度を計算
し、予め定められた閾値を超える組を残し、その他を破
棄する。さらに、残った組の中から実際にハイパーリン
クで連結されている組を破棄する。次に、残った組をア
ークで連結されたグラフとみなし、各グラフを解析して
クリーク(全てのノード間にアークが存在する完全グラ
フ)を抽出する。このクリークを構成するページ群は、
互いに(強い)関連があるがハイパーリンクで連結され
ていないものなので、サイト上の劣っている部分を発見
できたと解釈することができる。この手法では、多くの
ユーザーが同一セッションでアクセスしてくる傾向が強
いにもかかわらずそれらの間にハイパーリンクが存在し
ない(そのため、ユーザーはページ間遷移に多くの労力
を求められるであろう)ページ群を発見できる。
【0005】
【発明が解決しようとする課題】従来技術では、構成の
劣ったページ群を明示的に提示することはできるが、該
ページ群の問題の原因を解析することはできなかった。
そのため、ハイパーテキストシステム管理者は、ページ
群の改善方法を試行錯誤によって探らなければならなか
った。これは、ある部分を変更してみて、しばらくの間
アクセス履歴を収集し、改善効果を測定するという操作
を繰り返すもので、この間、ハイパーテキストシステム
の構成は不安定となり、繰り返しアクセスしてくるユー
ザーを混乱させてしまうという問題が生じる。また、ハ
イパーテキストシステムにおけるページ群を改善するた
めの手法は、そのハイパーテキストシステムの目的、規
模、機能、レイアウト、話題、ユーザータイプ等に依存
するので、対象ハイパーテキストシステムの特徴を把握
しなければならないという課題もある。
【0006】本発明は上記事情を考慮してなされたもの
で、対象ハイパーテキストシステム上の任意のページ組
について、ページコンテンツから抽出される様々な属性
とページ間遷移頻度との相関を予め計算しておき、該ハ
イパーテキストシステム上で構成に問題がある部分につ
いてどの属性をどのように変更すれば構成の改善になる
かを提示することを目的とする。
【0007】
【課題を解決するための手段】本発明の第1の側面によ
れば、上述の目的を達成するために、ハイパーテキスト
解析装置に、ハイパーテキストシステムへのアクセス履
歴情報とハイパーリンク構造とを解析して、ハイパーリ
ンクで繋がれた(例えば全ての)ページ間のハイパーリ
ンク遷移頻度を計算するハイパーリンク遷移頻度獲得手
段と、ハイパーリンクで繋がれたページ組のコンテンツ
から(一つ以上の)属性を抽出する属性抽出手段と、該
ハイパーリンク遷移頻度と該属性との間の相関を計算す
る相関解析手段と、該相関解析手段で得られたデータを
記憶する相関データ記憶手段と、指定された(例えば一
つの)ページ組のコンテンツから該属性抽出手段を用い
て属性を抽出し、これを該相関データ記憶手段において
記憶されている相関データと比較することによって、該
ページ組間のハイパーリンク遷移頻度を変化させる(一
般に、上げることを目的とする)ことを想定した場合
に、どの属性をどれだけ変化させれば、どれだけ効果が
あるかという情報を求める属性解析手段と、該属性解析
手段で得られた結果を表示する表示手段とを設けてい
る。
【0008】この構成においては、設計者がユーザの遷
移を期待してハイパーリンクを用いて関連付けたページ
間においてどの属性を変化させれば初期の遷移頻度が得
られるかを簡易に提示することができる。ハイパーリン
クシステム例えばWebシステムの管理者は、この提示
内容に基づいてWebページの属性を変化させて所望の
Webシステムを構築維持することができる。
【0009】また、本発明の第2の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムへ
のアクセス履歴情報とハイパーリンク構造とを解析し
て、ハイパーリンクで繋がれた(例えば全ての)ページ
間のハイパーリンク遷移頻度を計算するハイパーリンク
遷移頻度獲得手段と、ハイパーリンクで繋がれたページ
組のコンテンツから(一つ以上の)属性を抽出する属性
抽出手段と、該ハイパーリンク遷移頻度と該属性との間
の相関を計算する相関解析手段と、該相関解析手段で得
られたデータを記憶する相関データ記憶手段と、指定さ
れたページ群のうちハイパーリンクで繋がれた(例えば
全ての)ページ間について、該ハイパーリンク遷移頻度
獲得手段を用いてハイパーリンク遷移頻度を計算し、該
ハイパーリンク遷移頻度が小さなページ組(例えば一つ
以上)を獲得する解析対象ページ組獲得手段と、該解析
対象ページ組獲得手段で獲得されたページ組のコンテン
ツから該属性抽出手段を用いて属性を抽出し、これを該
相関データ記憶手段において記憶されている相関データ
と比較することによって、該ページ組間のハイパーリン
ク遷移頻度を変化させる(一般に、上げることを目的と
する)ことを想定した場合に、どの属性をどれだけ変化
させれば、どれだけ効果があるかという情報を求める属
性解析手段と、該属性解析手段で得られた結果を表示す
る表示手段とを設けるようにしている。
【0010】この構成においても、ハイパーリンクを用
いて関連付けたページ間においてどの属性を変化させれ
ば初期の遷移頻度が得られるかを簡易に提示することが
でき、所望のハイパーリンクシステム例えばWebシス
テムを構築維持することができる。さらに、ハイパーリ
ンクでリンクされたページでありながら遷移頻度の少な
いページを修正対象として自動的に選別することができ
る。
【0011】また、本発明の第3の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムへ
のアクセス履歴情報とハイパーリンク構造とを解析し
て、ハイパーリンクで繋がれた(例えば全ての)ページ
間のハイパーリンク遷移頻度を計算するハイパーリンク
遷移頻度獲得手段と、ハイパーリンクで繋がれたページ
組のコンテンツから(一つ以上の)属性を抽出する属性
抽出手段と、該ハイパーリンク遷移頻度と該属性との間
の相関を計算する相関解析手段と、該相関解析手段で得
られたデータを記憶する相関データ記憶手段と、指定さ
れたページ群のうちハイパーリンクで繋がれた(例えば
全ての)ページ間について、該ハイパーリンク遷移頻度
獲得手段を用いてハイパーリンク遷移頻度を計算し、さ
らに、該属性抽出手段を用いて、該ページ間のコンテン
ツ類似度を計算し、該ハイパーリンク遷移頻度と該コン
テンツ類似度との比率を基に、コンテンツが類似してい
るにもかかわらずハイパーリンク遷移頻度が小さなペー
ジ組(例えば一つ以上)を獲得する解析対象ページ組獲
得手段と、該解析対象ページ組獲得手段で獲得されたペ
ージ組のコンテンツから該属性抽出手段を用いて属性を
抽出し、これを該相関データ記憶手段において記憶され
ている相関データと比較することによって、該ページ組
間のハイパーリンク遷移頻度を変化させる(一般に、上
げることを目的とする)ことを想定した場合に、どの属
性をどれだけ変化させれば、どれだけ効果があるかとい
う情報を求める属性解析手段と、該属性解析手段で得ら
れた結果を表示する表示手段とを設けるようにしてい
る。
【0012】この構成においても、ハイパーリンクを用
いて関連付けたページ間においてどの属性を変化させれ
ば初期の遷移頻度が得られるかを簡易に提示することが
でき、所望のハイパーリンクシステム例えばWebシス
テムを構築維持することができる。さらに、ハイパーリ
ンクでリンクされたページであり、かつ関連したコンテ
ンツを有しながら遷移頻度の少ないページを修正対象と
して自動的に選別することができる。
【0013】また、本発明の第4の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムを
構成する(例えば全ての)ページ組について、アクセス
履歴情報を解析することによって、(多くの)ユーザー
が双方をアクセスした度合いを表わすページ間アクセス
類似度を計算するアクセス類似度解析手段と、該ページ
組のコンテンツや該ページ組を包含するハイパーテキス
トから(一つ以上の)属性を抽出する属性抽出手段と、
該ページ間アクセス類似度と該属性との間の相関を計算
する相関解析手段と、該相関解析手段で得られたデータ
を記憶する相関データ記憶手段と、指定された(例えば
一つの)ページ組のコンテンツや該ページ組を包含する
ハイパーテキスト構造から該属性抽出手段を用いて属性
を抽出し、これを該相関データ記憶手段において記憶さ
れている相関データと比較することによって、該ページ
組間のページ間アクセス類似度を変化させる(一般に、
大きくすることを目的とする)ことを想定した場合に、
どの属性をどれだけ変化させれば、どれだけ効果がある
かという情報を求める属性解析手段と、該属性解析手段
で得られた結果を表示する表示手段とを設けるようにし
ている。
【0014】この構成においては、リンクにより直接繋
がっていないページ間においてどの属性を変化させれば
初期の遷移頻度が得られるかを簡易に提示することがで
き、所望のハイパーリンクシステム例えばWebシステ
ムを構築維持することができる。
【0015】また、本発明の第5の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムを
構成する(例えば全ての)ページ組について、アクセス
履歴情報を解析することによって、(多くの)ユーザー
が双方をアクセスした度合いを表わすページ間アクセス
類似度を計算するアクセス類似度解析手段と、該ページ
組のコンテンツや該ページ組を包含するハイパーテキス
トから(一つ以上の)属性を抽出する属性抽出手段と、
該ページ間アクセス類似度と該属性との間の相関を計算
する相関解析手段と、該相関解析手段で得られたデータ
を記憶する相関データ記憶手段と、指定されたページ群
の任意のページ間について、該アクセス類似度解析手段
を用いてページ間アクセス類似度を計算し、該ページ間
アクセス類似度が小さなページ組(一つ以上)を獲得す
る解析対象ページ組獲得手段と、該解析対象ページ組獲
得手段で獲得されたページ組のコンテンツや該ページ組
を包含するハイパーテキスト構造から該属性抽出手段を
用いて属性を抽出し、これを該相関データ記憶手段にお
いて記憶されている相関データと比較することによっ
て、該ページ組間のページ間アクセス類似度を変化させ
る(一般に、大きくすることを目的とする)ことを想定
した場合に、どの属性をどれだけ変化させれば、どれだ
け効果があるかという情報を求める属性解析手段と、該
属性解析手段で得られた結果を表示する表示手段とを設
けるようにしている。
【0016】この構成においても、リンクにより直接繋
がっていないページ間においてどの属性を変化させれば
初期の遷移頻度が得られるかを簡易に提示することがで
き、所望のハイパーリンクシステム例えばWebシステ
ムを構築維持することができる。さらに、ユーザによる
アクセスが共起することの少ないページ間を修正対象と
して自動的に選別することができる。
【0017】また、本発明の第6の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムを
構成する(例えば全ての)ページ組について、アクセス
履歴情報を解析することによって、(多くの)ユーザー
が双方をアクセスした度合いを表わすページ間アクセス
類似度を計算するアクセス類似度解析手段と、該ページ
組のコンテンツや該ページ組を包含するハイパーテキス
トから(一つ以上の)属性を抽出する属性抽出手段と、
該ページ間アクセス類似度と該属性との間の相関を計算
する相関解析手段と、該相関解析手段で得られたデータ
を記憶する相関データ記憶手段と、指定されたページ群
の任意のページ間について、該アクセス類似度解析手段
を用いてページ間アクセス類似度を計算し、さらに、該
属性抽出手段を用いて、該ページ間のコンテンツ類似度
を計算し、該ページ間アクセス類似度と該コンテンツ類
似度の比率を基に、コンテンツが類似しているにもかか
わらずページ間アクセス類似度が小さなページ組(一つ
以上)を獲得する解析対象ページ組獲得手段と、該解析
対象ページ組獲得手段で獲得されたページ組のコンテン
ツや該ページ組を包含するハイパーテキスト構造から該
属性抽出手段を用いて属性を抽出し、これを該相関デー
タ記憶手段において記憶されている相関データと比較す
ることによって、該ページ組間のページ間アクセス類似
度を変化させる(一般に、大きくすることを目的とす
る)ことを想定した場合に、どの属性をどれだけ変化さ
せれば、どれだけ効果があるかという情報を求める属性
解析手段と、該属性解析手段で得られた結果を表示する
表示手段とを設けるようにしている。
【0018】この構成においても、リンクにより直接繋
がっていないページ間においてどの属性を変化させれば
初期の遷移頻度が得られるかを簡易に提示することがで
き、所望のハイパーリンクシステム例えばWebシステ
ムを構築維持することができる。さらに、コンテンツが
関連していながらユーザによるアクセスが共起すること
の少ないページ間を修正対象として自動的に選別するこ
とができる。
【0019】また、本発明の第1〜第6の側面におい
て、属性抽出手段が、属性の一つとして、少なくとも、
ページのコンテンツにおけるハイパーリンクの位置を抽
出するようにしてもよい。また、属性抽出手段が、属性
の一つとして、少なくとも、ページのコンテンツにおけ
るハイパーリンクの数を抽出するようにしてもよい。ま
た、属性抽出手段が、属性の一つとして、少なくとも、
ページのコンテンツにおけるハイパーリンクの種類を抽
出するようにしてもよい。また、属性抽出手段が、属性
の一つとして、少なくとも、ページのコンテンツにおけ
るハイパーリンクのサイズを抽出するようにしてもよ
い。また、属性抽出手段が、属性の一つとして、少なく
とも、ページのコンテンツにおけるハイパーリンクを表
わす文字の種類を抽出するようにしてもよい。また、属
性抽出手段が、属性の一つとして、少なくとも、ページ
のコンテンツにおけるページのサイズを抽出するように
してもよい。
【0020】また、本発明の第1、第2、第4または第
5の側面において、属性抽出手段が、属性の一つとし
て、少なくとも、ページ組間のコンテンツ類似度を抽出
するようにしてもよい。
【0021】また、本発明の第1〜第6の側面におい
て、属性抽出手段が、属性の一つとして、少なくとも、
ページの位置を抽出するようにしてもよい。また、属性
抽出手段が、属性の一つとして、少なくとも、ページの
更新日時を抽出するようにしてもよい。
【0022】また、本発明の第4〜第6の側面におい
て、属性抽出手段が、属性の一つとして、少なくとも、
ページ間のハイパーリンク遷移数を抽出するようにして
もよい。
【0023】また、本発明の第1〜第3の側面におい
て、ハイパーリンク遷移頻度解析手段が、ハイパーテキ
ストを網羅的にアクセスして自動的に情報を収集する探
索ロボットを識別して、当該探索ロボットからのアクセ
ス情報を排除して解析を行うようにしてもよい。
【0024】また、本発明の第4〜第6の側面におい
て、アクセス類似度解析手段が、ハイパーテキストを網
羅的にアクセスして自動的に情報を収集する探索ロボッ
トを識別して、当該探索ロボットからのアクセス情報を
排除して解析を行うようにしてもよい。
【0025】また、本発明の第1〜第3の側面におい
て、ハイパーリンク遷移頻度解析手段が、プロクシーサ
ーバーを識別して、当該プロクシーサーバからのアクセ
ス情報を排除して解析を行うようにしてもよい。
【0026】また、本発明の第4〜第6の側面におい
て、アクセス類似度解析手段が、プロクシーサーバーを
識別して、当該プロクシーサーバからのアクセス情報を
排除して解析を行うようにしてもよい。
【0027】また、本発明の第1〜第3の側面におい
て、ハイパーリンク遷移頻度解析手段が、被リンク数が
大きなページをリンク先とするハイパーリンク遷移を排
除して解析を行うようにしてもよい。
【0028】また、本発明の第7の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムへ
のアクセス履歴情報とハイパーリンク構造を解析して、
ハイパーリンクで繋がれた(例えば全ての)ページ間の
ハイパーリンク遷移頻度を計算するハイパーリンク遷移
頻度獲得手段と、ハイパーリンクで繋がれたページ組の
コンテンツから(一つ以上の)属性を抽出する属性抽出
手段と、該ハイパーリンク遷移頻度と該属性との間の相
関を計算する相関解析手段と、該相関解析手段で得られ
たデータを記憶する相関データ記憶手段と、指定された
(例えば一つの)ページ組のコンテンツから該属性抽出
手段を用いて属性を抽出し、これを該相関データ記憶手
段において記憶されている相関データと比較することに
よって、該ページ組間のハイパーリンク遷移頻度を変化
させる(一般に、上げることを目的とする)ことを想定
した場合に、どの属性をどれだけ変化させれば、どれだ
け効果があるかという情報を求める属性解析手段と、該
属性解析手段で得られた結果を表示する表示手段と、こ
の表示結果を参照しながら該指定されたページ組のコン
テンツを改変する編集手段と、該編集手段において改変
されたコンテンツから該属性抽出手段を用いて属性を抽
出し、これを該相関データ記憶手段において記憶されて
いる相関データと比較することによって、該ページ組間
のハイパーリンク遷移頻度を予測して改変による効果を
計算するコンテンツ改変効果解析手段とを設け、該表示
手段において該コンテンツ改変効果解析手段で得られた
結果を表示するようにしている。
【0029】この構成においては、ハイパーリンクを用
いて関連付けたページ間においてどの属性を変化させれ
ば初期の遷移頻度が得られるかを簡易に提示することが
でき、また属性を調整した後の予想結果に基づいて確実
に属性調整を行え、所望のハイパーリンクシステム例え
ばWebシステムを構築維持することができる。
【0030】また、本発明の第8の側面によれば、ハイ
パーテキスト解析装置に、ハイパーテキストシステムを
構成する(例えば全ての)ページ組について、アクセス
履歴情報を解析することによって、(多くの)ユーザー
が双方をアクセスした度合いを表わすページ間アクセス
類似度を計算するアクセス類似度解析手段と、該ページ
組のコンテンツや該ページ組を包含するハイパーテキス
トから(一つ以上の)属性を抽出する属性抽出手段と、
該ページ間アクセス類似度と該属性との間の相関を計算
する相関解析手段と、該相関解析手段で得られたデータ
を記憶する相関データ記憶手段と、指定された(例えば
一つの)ページ組のコンテンツや該ページ組を包含する
ハイパーテキスト構造から該属性抽出手段を用いて属性
を抽出し、これを該相関データ記憶手段において記憶さ
れている相関データと比較することによって、該ページ
組間のページ間アクセス類似度を変化させる(一般に、
大きくすることを目的とする)ことを想定した場合に、
どの属性をどれだけ変化させれば、どれだけ効果がある
かという情報を求める属性解析手段と、該属性解析手段
で得られた結果を表示する表示手段と、この表示結果を
参照しながら該指定されたページ組のコンテンツを改変
する編集手段と、該編集手段において改変されたコンテ
ンツから該属性抽出手段を用いて属性を抽出し、これを
該相関データ記憶手段において記憶されている相関デー
タと比較することによって、該ページ組間のアクセス類
似度を予測して改変による効果を計算するコンテンツ改
変効果解析手段とを設け、該表示手段において該コンテ
ンツ改変効果解析手段で得られた結果を表示するように
している。
【0031】この構成においては、リンクにより直接繋
がっていないページ間においてどの属性を変化させれば
初期の遷移頻度が得られるかを簡易に提示することがで
き、また属性を調整した後の予想結果に基づいて確実に
属性調整を行え、所望のハイパーリンクシステム例えば
Webシステムを構築維持することができる。
【0032】また、本発明の第1〜第6の側面におい
て、相関解析手段が、ハイパーリンク遷移頻度と属性と
の間の相関(あるいは、アクセス類似度と属性との間の
相関)を計算する際に、有効ではないとおもわれる属性
を選択する機能を有し、後続する処理においてこれらの
属性を無視するようにしてもよい。
【0033】また、本発明の第1〜第6の側面におい
て、解析対象となるハイパーテキストシステムを(例え
ばネットワーク経由で)指定する解析対象指定手段を設
けるようにしてもよい。
【0034】また、本発明の第1〜第6の側面におい
て、複数のユーザーが、解析対象となるハイパーテキス
トシステムを(例えばネットワーク経由で)指定する解
析対象指定手段を設けるようにしてもよい。
【0035】また、本発明の第1〜第6の側面におい
て、解析対象となるハイパーテキストシステムのコンテ
ンツを(例えばネットワーク経由で)受け渡すコンテン
ツ伝送手段を設けるようにしてもよい。
【0036】また、本発明の第1〜第6の側面におい
て、複数のユーザーが、解析対象となるハイパーテキス
トシステムのコンテンツを(例えばネットワーク経由
で)受け渡すコンテンツ伝送手段を有するようにしても
よい。
【0037】また、本発明の第1〜第6の側面におい
て、解析対象となるハイパーテキストシステムのアクセ
ス履歴情報を(例えばネットワーク経由で)受け渡すア
クセス履歴情報伝送手段を設けるようにしてもよい。
【0038】また、本発明の第1〜第6の側面におい
て、複数のユーザーが、解析対象となるハイパーテキス
トシステムのアクセス履歴情報を(例えばネットワーク
経由で)受け渡すアクセス履歴情報伝送手段を有するよ
うにしてもよい。
【0039】また、本発明の第1〜第6の側面におい
て、属性抽出手段が抽出する属性の組を(例えばネット
ワーク経由で)指定する属性指定手段を設けるようにし
てもよい。
【0040】また、本発明の第1〜第6の側面におい
て、複数のユーザーが、属性抽出手段が抽出する属性の
組を(ネットワーク経由で)指定する属性指定手段を有
するようにしてもよい。
【0041】また、本発明の第7の側面において、編集
手段がネットワーク経由で操作できるようにしてもよ
い。また、編集手段がネットワーク経由で複数のユーザ
ーによって操作できるようにしてもよい。
【0042】また、本発明の第1〜第6の側面におい
て、表示手段が表示内容をネットワーク経由で伝送でき
るようにしてもよい。また、表示手段が表示内容をネッ
トワーク経由で複数のユーザーに対して伝送できるよう
にしてもよい。
【0043】なお、本発明は方法の態様で実現すること
もできる。この場合、ハイパーリンク解析方法は、ハイ
パーリンク解析装置を構成する各手段に対応する手順で
構成される。また、本発明の構成のうちの少なくともそ
の一部をコンピュータソフトウェアとして実現すること
も可能である。また本発明を当該コンピュータソフトウ
ェアを記録した記録媒体により実現することも可能であ
る。
【0044】
【発明の実施の形態】ネットワーク上に構成されるハイ
パーテキストシステムのなかで代表的なものはWebで
ある。以下、HTML(ハイパーテキストマークアップ
ランゲッジ)で記述されたWebを例として、本発明の
実施例を説明する。
【0045】[実施例1]図1は、本発明の実施例1を
示す構成図である。同図において、Webサーバ101
はネットワーク上で情報を発信する手段であり、Web
サーバ101にはユーザーに提供したい情報が、ページ
(=ファイル)とハイパーリンクからなるハイパーテキ
スト102として貯えられている。ユーザーはWebサ
ーバ101上のハイパーテキスト102にアクセスする
ことで情報を入手できる。Webサーバ101は、ユー
ザーからのアクセスがある毎に、ユーザーのコンピュー
タを識別するためのコンピュータ識別子(IPアドレ
ス)とアクセス時刻とユーザーのアクセスしたページの
あるアドレス(URL)をアクセス履歴情報103とし
て記録する手段を持つ。
【0046】ハイパーリンク遷移頻度獲得手段104
は、ハイパーテキスト102の各ページ(起点ページと
呼ぶ)について、そこからのリンク先ページ(Webサ
ーバ101上にあるものだけを対象とし、Webサーバ
101の外にあるものは無視する)を獲得して、それぞ
れのページ組について、アクセス履歴情報103を参照
して、同一ユーザーから同一セッションで起点ページか
らリンク先ページの順にアクセスがあれば一件として順
次カウントしていく(ある定められた時間枠で、各IP
アドレス毎にアクセス先ページ(URL)を時間順に並
べることによって容易に実現できる)。得られた積算カ
ウントがページ間(つまり、ハイパーリンクの)遷移頻
度である。ここで、本発明の変形例として、積算カウン
トを起点ページへのアクセス数で割った値をハイパーリ
ンク遷移頻度として扱ってもよい。また別の変形例とし
て、ハイパーリンク遷移頻度獲得手段104が、情報収
集のための探索ロボットからのアクセスを無視するよう
にしてもよい。これは、例えば、ある慣習に従って探索
ロボットがアクセスする特殊なページ(Webでは、ル
ート直下に置かれるrobots.txtという名のフ
ァイル)へのアクセスの有無や、短期間に多数のノード
を網羅的にアクセスするという探索ロボットに特徴的な
振る舞いの有無や、既知の探索ロボットのコンピュータ
識別子であるか否かによって、探索ロボットを識別し
て、該探索ロボットのコンピュータ識別子に関わる情報
を排除することによって実現できる。こうすることによ
って、ハイパーリンク遷移頻度がより正確に実ユーザー
(=人間)の振る舞いを反映したものとなり、本ハイパ
ーテキスト解析装置の精度が向上する。さらに別の変形
例として、ハイパーリンク遷移頻度獲得手段104が、
プロクシーサーバからのアクセスを無視するようにして
もよい。これは、アクセス履歴情報103におけるコン
ピュータ識別子のうち、プロクシーサーバに対応するも
のは(一般に)複数のユーザーからのアクセスを集約し
たものなので、そのハイパーリンク遷移頻度を求めても
個別のユーザーの振る舞いを正確に反映したものにはな
らず解析精度が下がってしまうという問題を解決するた
めに行うものである。プロクシーサーバであるか否か
は、ある期間に、予め定めておいた閾値(一個人が通常
アクセスすることがないようなアクセス頻度を閾値とす
る)を越える数のページにアクセスしたかどうかや、既
知のプロクシーサーバのコンピュータ識別子であるか否
かによって識別できる。さらに別の変形例として、ハイ
パーリンク遷移頻度獲得手段104が、ハイパーテキス
ト102のハイパーリンク構造を解析して各ページの被
リンク数を求め、その値が予め定められた閾値を越える
ようなページへのハイパーリンク遷移を無視するように
してもよい。リンク数または被リンク数が大きなページ
はサイトナビゲート用のインデクスページであることが
多い。これらのページはサイトのコンテンツ提供者にと
ってユーザーにアクセスしてもらいたいコンテンツを包
含するページというよりも、サイトの性能を維持するた
めの機能的役割を果たすためのものである傾向が強く、
これらをリンク先とするハイパーリンク遷移頻度を求め
ても、コンテンツを探索するユーザーの振る舞いを直接
的に定量化することにはつながらない。そこで、これら
のページをリンク先とするハイパーリンク遷移を無視す
ることによって、解析精度が上がり、さらに計算量も減
少して処理効率が良くなる。
【0047】属性抽出手段105は、ハイパーテキスト
102の各ページから(一つ以上の)属性を抽出する。
属性としては、例えば、以下の9項目の中から任意のN
個の組合わせ(Nは1以上9以下)を抽出する。もちろ
ん他の属性を用いてもよい。
【0048】[属性1]ページのコンテンツにおける、
それぞれのリンク先ページに対応するハイパーリンクの
位置を抽出する。これは、ハイパーリンクが埋め込まれ
ている位置がページのコンテンツの先頭から何文字目か
(文字カウントでわかる)、あるいは、何単語目か(既
存の形態素解析技術を用いることによって実現でき
る)、あるいは、何パラグラフ目か(タグ情報を用いる
ことによって実現できる)という情報を得ることによっ
て実現できる。また、本発明の変形例として、ハイパー
リンクの位置を、ページがブラウザでレンダリングさ
れ、表示される際のウインドウ枠内の位置として定めて
もよい。これは、標準となるウインドウ枠サイズを予め
定めておき、ハイパーリンクがウインドウ枠内に表示さ
れるかどうか、あるいは、ウインドウ枠を例えば縦に均
等3分割して{上部、中部、下部、見えない部分}と領
域を定め、ハイパーリンクがどの領域に属するかを抽出
する。また、別の変形例として、ハイパーリンクの位置
を、ページコンテンツの全てのハイパーリンクの中で何
番目に現れるかという順序で定めてもよい。
【0049】[属性2]ページのコンテンツにおけるハ
イパーリンクの数を抽出する。また、本発明の変形例と
して、特定のページ(=注目しているリンク先ページ)
を指すハイパーリンクの数としてもよい。これは、ハイ
パーテキスト102の全てのページからハイパーリンク
を抽出してそのリンク先URLを調べることによって容
易にカウントできる。
【0050】[属性3]ページのコンテンツにおけるハ
イパーリンクがテキストで示されているか、あるいは、
画像で示されているかを抽出する。これは、ページのコ
ンテンツからハイパーリンクを表わすタグを取り出し
(<A HREF= URL >...</A>)、こ
の中に画像ファイルが埋め込まれている(<A HRE
F= URL ><IMG SRC= GRAPHIC
FILE ...></A>)か否かを調べることに
よって実現できる。
【0051】[属性4]ページのコンテンツにおけるハ
イパーリンクのサイズを抽出する。サイズの尺度として
は、例えば、テキストであれば文字数や単語数(既存の
形態素解析技術を用いることによって実現できる)、画
像であれば表示領域の面積(IMGタグ中のwidth
とheightの値を掛け合わせて求める)を用いる。
【0052】[属性5]ページのコンテンツにおけるハ
イパーリンクテキストの文字種を抽出する。文字種とし
ては、例えば、フォントサイズ、あるいは、フォント
色、イタリックやボールド等の文字飾りの有無を抽出す
る。これらは、タグによって規定されているので容易に
抽出できる。
【0053】[属性6]ページのサイズを抽出する。サ
イズの尺度としては、例えば、コンテンツの文字数や単
語数(既存の形態素解析技術を用いることによって実現
できる)、あるいはページファイルのサイズ(Byte
数)を用いる。
【0054】[属性7]起点ページとリンク先ページの
コンテンツ類似度を抽出する。コンテンツ類似度の計算
法は、既存技術を用いる。例えばベクトル空間モデル法
[Saltonand Allan,1994](Sa
lton and Allan, Text Retr
ieval Using the Vector Pr
ocessing Model,in Proc. o
f SDAIR−94.)では、各ページについて、単
語を項としその出現頻度を項の値とするようなベクトル
を生成して、ベクトル間の内積値をコンテンツ類似度と
して用いている。ここで、本発明の変形として、各起点
ページのハイパーリンクが埋め込まれている位置の近傍
テキスト(例えば、同一パラグラフとか前後N単語を近
傍とする)に出現する単語だけを対象とする(リンク先
ページは、ページ全体に出現する単語を対象とする、あ
るいは、ハイパーリンクにリンク先のページ中の位置ま
で記述してあれば、その近傍テキストを対象とする)よ
うにしてもよい。
【0055】[属性8]ページ間の論理的位置差分を抽
出する。例えば、Webサーバ101上でページのファ
イルが置かれているディレクトリの位置を論理的位置と
して、ルートからの深さを抽出する。次に、起点ページ
とリンク先ページの深さの差を計算してその値を論理的
位置差分とする(ルートからの深さは、URLを解析す
ればわかる。例えば、起点ページがPage1.htm
lという名前のファイルで、www.○○.co.jp
/Dir1/Page1.htmlというURLで表わ
されていて、リンク先ページがPage2.htmlと
いう名前のファイルで、www.○○.co.jp/D
ir1/Dir2/Page2.htmlというURL
で表わされている場合、論理的位置差分は1である)。
【0056】[属性9]ページのファイルの更新日時を
調べ(更新日時は、Webサーバ101においてファイ
ルプロパティを調べれば容易にわかる)、本発明のハイ
パーテキスト解析装置使用時と更新日時の差分時間を属
性として抽出する。
【0057】図2は、各ページについて、ハイパーリン
ク遷移頻度獲得104で得られたハイパーリンク遷移頻
度と、属性抽出手段105で得られた属性を示した表の
例の一部である。この例では、ハイパーリンク遷移頻度
として、積算カウントを起点ページへのアクセス数で割
った値を用い、属性の組合わせとして、上記の1(先頭
からの単語数カウントを使用)、4(文字数を使用)、
6(起点ページの単語数を使用)の3つを用いている。
【0058】図1の相関解析手段106では、ハイパー
リンク遷移頻度獲得手段104で得られたハイパーリン
ク遷移頻度と、属性抽出手段105で得られた属性の相
関を計算する。相関の計算法としては、既存の統計手法
を用いることができるが、ここでは、重回帰分析を用い
た場合の実施例を説明する。本発明に重回帰分析を適用
した場合、目的変量はハイパーリンク遷移頻度(yとお
く)で、説明変量は各属性(x,x,x,...
とおく)となる(図2の例では、目的変量は遷移頻
度(y)で、説明変量はリンク位置(x)とリンクサ
イズ(x)とページサイズ(x)の3つとなる)。
重回帰分析では、y=a+a+a
+...+a+a(aは回帰係数)という重
回帰式を作り、左辺と右辺のyとxにデータを代入し
て、その差の二乗を表わす式を得る。一般にデータ系列
は複数(多数)あるので、それぞれについて左辺と右辺
の差の二乗を表わす式を得て、全ての式の和(Qとお
く)を得る。次に、Qを最小にするような回帰係数を求
めるという手続きを取る(Qをそれぞれの回帰係数で偏
微分してその値を0とおいた等式を作り、その連立方程
式を解けばよい)。こうして得られた重回帰式は、図1
の相関データ記憶手段107において記憶される。ここ
で、本発明の変形例として、説明変量の候補の中から、
目的変量(=ハイパーリンク遷移頻度)の予測に有効で
はないと思われる属性を選択し、以下の処理においてこ
れらの属性を無視することによって、解析精度を上げ、
さらに処理効率を上げるようにしてもよい。重回帰分析
において、有効な説明変量の組合わせを選択する手法は
既存であり、例えば、forward selecti
on methodやstepwise method
が提案されている(Carl J.Huberty,A
pplied Discriminant Analy
sis,John Wiley & Sons,In
c,1994)ので、本発明ではこれらのうちいずれか
を用いれば容易に実現できる。
【0059】次に、あるページ組が解析対象として与え
られると、本ハイパーリンク解析装置は、属性抽出手段
105を用いて、前述の方法により、属性を抽出する
(上で、説明変量として採用した属性だけを抽出すれば
よい。図2の例では、上記の1、4、6の3つの属性を
抽出する)。このようにして得られた属性は、属性解析
手段108において、相関データ記憶手段107におい
て記憶されている重回帰式と比較される。その方法は、
まず、ある一つの属性に注目して(例えば、図2の例
で、上記の1の属性に注目したとする)、他の属性の値
を重回帰式に代入する(上記の4と6の属性の値をそれ
ぞれxとxに代入する)。すると、回帰式は、一変
数の一次式で表わされ(y=a+c(cは定数)
という形になる)、与えられたページ組のハイパーリン
ク遷移頻度と注目した属性の(予測)相関式が得られる
ので、(他の属性は変化させないという前提の基におい
て)該属性をどういう値に変更すれば、ハイパーリンク
遷移頻度がどのように変わるかが予測される。尚、ここ
で、注目している属性の値(属性抽出手段105で得ら
れたもの)を代入すると、現状のハイパーリンク遷移頻
度予測値が得られる。本発明では、上記の注目している
属性というのは、特に指定されるものではなく、全ての
属性を順に注目しながら、上記の処理を繰り返す(つま
り、属性の数だけ相関式が得られる)。
【0060】このようにして得られた相関式は表示手段
109において表示される。図3は、表示の一例を示す
ものである。ここでは、図2の例の結果表示の一部(上
記の1の属性に注目したものを示している)を示してい
る。同図では、与えられたページ組のハイパーリンク遷
移頻度を注目した属性(ハイパーリンクの位置)の(一
次)関数として表わしている。ここで、x軸の値pは、
現状の属性値であり、q(=ap+c)は、現状のハ
イパーリンク遷移頻度予測値となる。同図を参照する
と、属性値をどれだけ可変させると(ここでは、ハイパ
ーリンクの位置を何単語目に埋め込むかということにな
る)、どれだけハイパーリンク遷移頻度を可変させられ
るかが定量的に予測できる(一般に、ハイパーリンク遷
移頻度を高くすることを考えるが、ここでは、ハイパー
リンク位置を前にするほど、ハイパーリンク遷移頻度が
高くなることが予測でき、その効果は回帰係数aの値
で左右される)。
【0061】[実施例2]つぎに本発明の実施例2につ
いて説明する。
【0062】図4は、本発明の実施例2を示す構成図で
ある。尚、上記の実施例と同一部分には同一符号を付し
て重複する説明は省略する。本実施例は、解析対象ペー
ジ組獲得手段401により、属性解析手段108で解析
するページ組を自動的に取捨選択する。この処理の流れ
は、先ず、指定されたページ集合(例えば、ある特定の
サーバ上の全てのページ、とか、ある特定のサーバ上の
ある特定のディレクトリ以下に存在する全てのページと
いった指定)のうちハイパーリンクで直接繋がれたペー
ジ組について、ハイパーリンク遷移頻度獲得手段104
を用いてハイパーリンク遷移頻度を得る。次に、この情
報は解析対象ページ組獲得手段401に渡され、解析対
象ページ組獲得手段401において、ハイパーリンク遷
移頻度が予め定められた閾値より小さなページ組を獲得
して、これらを属性解析手段108に渡す。属性解析手
段108では、上記の実施例の方法で、渡されたページ
組の解析を(順次)行う。こうすることによって、本ハ
イパーテキスト解析装置のユーザーが、予め、(ハイパ
ーリンク遷移頻度に)問題がありそうなページ組を探し
て指定しなければならいという手間を省略できる。
【0063】ここで、本発明の変形例を示す。先ず上記
の処理と同様に、指定されたページ集合のうちハイパー
リンクで直接繋がれたページ組について、ハイパーリン
ク遷移頻度獲得手段104を用いてハイパーリンク遷移
頻度を得る。さらに、本変形例では、属性抽出手段10
5において、前述の方法により該ページ組間のコンテン
ツ類似度を得る。こうして得られた該ページ組間のハイ
パーリンク遷移頻度とコンテンツ類似度の情報は解析対
象ページ組獲得手段401に渡され、解析対象ページ組
獲得手段401において、ハイパーリンク遷移頻度をコ
ンテンツ類似度で割った値が予め定められた閾値より小
さなページ組を獲得して、これらを属性解析手段108
に渡す。ハイパーリンク遷移頻度をコンテンツ類似度で
割った値が小さなページ組は、内容が類似しているにも
拘わらず、ユーザーがリンクを遷移してくれる傾向が小
さいものであり、改善の余地があるといえる(改善のた
めの指針は上記と同様に属性解析手段108において得
られ、表示手段109において表示される)。
【0064】[実施例3]つぎに本発明の実施例3につ
いて説明する。
【0065】図5は、本発明の実施例3を示す構成図で
ある。尚、上記の実施例と同一部分には同一符号を付し
て重複する説明は省略する。同図において、アクセス類
似度解析手段501は、ハイパーテキスト102の(全
ての)ページ組について、そのページ間のアクセス類似
度を求める。ここで、アクセス類似度とは、与えられた
2つのページについて、いかに多くのユーザーが双方を
アクセスしたかという度合いを表わす指標であり、例え
ば、ベクトル空間モデル法を使って、各ページについ
て、アクセスのあったIPアドレスを項としその出現頻
度を項の値とするようなベクトルを生成して、ベクトル
間の内積値をアクセス類似度として用いる。このように
前述のハイパーリンク遷移頻度の代わりに、アクセス類
似度を用いることによって、(2つのページ間のハイパ
ーリンクの有無を考慮することなく)任意のページ組を
対象として、そのページ構成の改善策を提示できるよう
になる。また本発明の変形例としてアクセス類似度解析
手段501が、上記実施例と同様の方法で、情報収集の
ための探索ロボットからのアクセスを無視するようにし
てもよい。さらに別の変形例として、アクセス類似度解
析手段501が、上記実施例と同様の方法で、プロクシ
ーサーバからのアクセスを無視するようにしてもよい。
【0066】属性抽出手段105は、上記実施例と同様
の処理を行うが、ここでは、さらに、ページ間のハイパ
ーリンク遷移数を計算してこれを属性の1つとしてもよ
い。具体的には、ページ組{ページA,ページB}が与
えられたときに、ハイパーリンクの向きを考慮しながら
ページAからページBへの最短経路の遷移数を計算し、
次にページBからページAへの最短経路の遷移数を計算
し、両者を比べて小さい方をページ組{ページA,ペー
ジB}のハイパーリンク遷移数とする。ここで、ページ
AからページBへの最短経路は、ページAからページB
に到達するまで幅優先で深さ(=遷移数)をカウントし
ながらハイパーリンクを探索すればよい。この探索は、
一般には、辿ることができるハイパーリンクが無くなる
まで続けられるが、処理効率を上げるために、深さ(=
遷移数)が予め決められた閾値に達したところで停止す
るように設定してもよい。この場合、ページ間の最短経
路の遷移数は該閾値とする。
【0067】相関解析手段106では、アクセス類似度
解析手段501で得られたアクセス類似度と、属性抽出
手段105で得られた属性の相関を上記実施例と同様に
重回帰分析によって計算する。得られた重回帰式は、相
関データ記憶手段107において記憶される。ここで、
本発明の変形例として、上記実施例と同様の方法によ
り、説明変量の候補の中から、目的変量(=アクセス類
似度)の予測に有効ではないとおもわれる属性を選択
し、以下の処理においてこれらの属性を無視することに
よって、解析精度を上げ、さらに処理効率を上げるよう
にしてもよい。
【0068】次に、あるページ組が解析対象として与え
られると、本ハイパーリンク解析装置は、属性抽出手段
105を用いて、上記実施例と同様の方法により、属性
を抽出する。得られた属性は、属性解析手段108にお
いて、相関データ記憶手段107において記憶されてい
る重回帰式と比較され、上記実施例と同様に、与えられ
たページ組のアクセス類似度と注目した属性の(予測)
相関式が得られるので、(他の属性は変化させないとい
う前提の基において)該属性をどういう値に変更すれ
ば、ハイパーリンク遷移頻度がどのように変わるかが予
測される。尚、ここで、注目している属性の値(属性抽
出手段105で得られたもの)を代入すると、現状のア
クセス類似度予測値が得られる。本発明では、上記の注
目している属性というのは、特に指定されるものではな
く、全ての属性を順に注目しながら、処理を繰り返す
(つまり、属性の数だけ相関式が得られる)。このよう
にして得られた相関式は、上記実施例と同様に、表示手
段109において表示される。
【0069】[実施例4]つぎに本発明の実施例4につ
いて説明する。
【0070】図6は、本発明の実施例4を示す構成図で
ある。尚、上記の実施例と同一部分には同一符号を付し
て重複する説明は省略する。本実施例は、解析対象ペー
ジ組獲得手段601により、属性解析手段108で解析
するページ組を自動的に取捨選択する。この処理の流れ
は、先ず、指定されたページ集合(例えば、ある特定の
サーバ上の全てのページ、とか、ある特定のサーバ上の
ある特定のディレクトリ以下に存在する全てのページと
いった指定)から任意の2つを取り出したページ組につ
いて、アクセス類似度解析手段501を用いてアクセス
類似度を得る。次に、この情報は解析対象ページ組獲得
手段601に渡され、解析対象ページ組獲得手段601
において、アクセス類似度が予め定められた閾値より小
さなページ組を獲得して、これらを属性解析手段108
に渡す。属性解析手段108では、上記の実施例の方法
で、渡されたページ組の解析を(順次)行う。こうする
ことによって、本ハイパーテキスト解析装置のユーザー
が、予め、(アクセス類似度に)問題がありそうなペー
ジ組を探して指定しなければならいという手間を省略で
きる。
【0071】ここで、本発明の変形例を示す。先ず上記
の処理と同様に、指定されたページ集合から任意の2つ
を取り出したページ組について、アクセス類似度解析手
段501を用いてアクセス類似度を得る。さらに、本変
形例では、属性抽出手段105において、前述の方法に
より該ページ組間のコンテンツ類似度を得る。こうして
得られた該ページ組間のアクセス類似度とコンテンツ類
似度の情報は解析対象ページ組獲得手段601に渡さ
れ、解析対象ページ組獲得手段601において、アクセ
ス類似度をコンテンツ類似度で割った値が予め定められ
た閾値より小さなページ組を獲得して、これらを属性解
析手段108に渡す。アクセス類似度をコンテンツ類似
度で割った値が小さなページ組は、内容が類似している
にも拘わらず、ユーザーがリンクを遷移してくれる傾向
が小さいものであり、改善の余地があるといえる(改善
のための指針は上記と同様に属性解析手段108におい
て得られ、表示手段109において表示される)。
【0072】[実施例5]つぎに本発明の実施例5につ
いて説明する。
【0073】図7は、本発明の実施例5を示す構成図で
ある。尚、上記の実施例と同一部分には同一符号を付し
て重複する説明は省略する。尚、本発明では、同図のハ
イパーリンク遷移頻度獲得手段104をアクセス類似度
解析手段501と置き換えることもできる。この場合、
以下の説明中のハイパーリンク遷移頻度はアクセス類似
度に置き換えられる。
【0074】本実施例は、編集手段701において、本
ハイパーテキスト解析装置の操作者が、表示手段109
で表示されている情報(指定されたページ組間のハイパ
ーリンク遷移頻度を変化させることを想定した場合に、
どの属性をどれだけ変化させれば、どれだけ効果がある
かという情報)を参照しながら指定されたページ組のコ
ンテンツを改変する(=1つ以上の属性を変化させる)
ことができる。図8は、表示手段109における表示の
一例である。この例では、P6(起点ページ)とP7
(リンク先ページ)が指定されたページ組であり、目的
変量yに対応するハイパーリンク遷移頻度には、積算カ
ウントを起点ページへのアクセス数で割った値を用いて
いる(アクセス類似度をに置き換えた場合は、上記実施
例と同様に、IPアドレスの出現頻度に基づくベクトル
の内積値を用いる)。また、属性の組合わせとして、上
記の1(ハイパーリンクの位置:先頭からの単語数カウ
ントを使用)、4(ハイパーリンクサイズ:文字数を使
用)、6(ページサイズ:起点ページの単語数を使用)
の3つを用いており、これらが順に説明変量x
,xにそれぞれ対応する。同図の表では、ページ
組{P6,P7}から(属性抽出手段105において)
抽出された3つの属性値がそれぞれ、x=66、x
=7、x=325であり、そのとき予測されるハイパ
ーリンク遷移頻度がy=0.17である(属性解析手段
108において求められる)ことがわかる。該操作者
は、このy=0.17というハイパーリンク遷移頻度予
測値を増加させたければ、同図下の3つのグラフを見
て、どの属性をどれだけ変化させれば、どれだけ効果が
あるかということを知ることができる。本例では、x
を小さくする(つまり、P6からP7へのハイパーリン
クの位置を前にする)、あるいは、xを大きくする
(つまりP6からP7へのハイパーリンクの文字数を増
やす)、あるいは、xを小さくする(つまりP6の文
字数を減らす)ことによってハイパーリンク遷移頻度予
測値が増加することがわかる。このとき、各グラフの傾
きを見ることによって属性値の可変量がどの程度の効果
を持つかも容易に知ることができる(尚、これら3つの
グラフはそれぞれに対応する属性だけを変化させたとき
のハイパーリンク遷移頻度予測値を示すものである)。
該操作者は、これらの情報を参考にしながら、編集手段
701において、ページ組{P6,P7}のコンテンツ
を改変できる。このようにして改変されたページ組はハ
イパーテキスト102に置かれる。
【0075】次に、属性抽出手段105において、上記
実施例と同様の方法で、該ページ組の属性が抽出され、
コンテンツ改変効果解析手段702に渡される。コンテ
ンツ改変効果解析手段702では、上記実施例と同様の
方法で、該ページ組の属性と相関データ記憶手段におい
て記憶されている相関データと比較することによって、
該ページ組間のハイパーリンク遷移頻度を予測して改変
による効果を計算し、その計算結果を表示手段109に
渡す。
【0076】図9は、表示手段109における表示の一
例である。同図の表は、ページ組{P6,P7}のコン
テンツ改変後のハイパーリンク遷移頻度予測値を示すも
のである。本例では、該操作者は、編集手段701にお
いてxとxを変化させており、改変後のハイパーリ
ンク遷移頻度予測値は0.17から0.31に増加して
いる。本発明では、該操作者はこの表示例を参照しなが
ら、編集手段701を用いて、さらに、コンテンツの改
変を繰り返すこともできる。このとき、上記実施例と同
様に、同図下の3つのグラフを見て、どの属性をどれだ
け変化させれば、どれだけ効果があるかということを知
ることができる。尚、これら3つのグラフの形状は、図
8のコンテンツ改変前のものと比較して、回帰係数
、a、aは同一で、定数項だけが変化したもの
となる。
【0077】[実施例6]つぎに本発明の実施例6につ
いて説明する。
【0078】図10は、本発明の実施例6を示す構成図
である。尚、上記の実施例と同一部分には同一符号を付
して重複する説明は省略する。本実施例は、解析対象指
定手段1001により、本ハイパーテキスト解析装置の
ユーザーが、解析対象となるWebサーバを指定できる
ようにする。ユーザーのコンピュータ1002と解析対
象指定手段1001はネットワーク(例えばインターネ
ットや電話回線)で接続されている。ユーザーのコンピ
ュータ1002では、解析対象とするWebサーバーの
URL(サーバーを識別する符号であれば何でもよい)
が入力され、このURLはネットワークを通じて解析対
象指定手段1001に渡される。解析対象指定手段10
01は、該URLを属性抽出手段105とハイパーリン
ク遷移頻度獲得手段104(あるいはアクセス類似度解
析手段501)に渡す。属性抽出手段105とハイパー
リンク遷移頻度獲得手段104では、HTTP(ハイパ
ーテキストトランスファプロトコル)に従って該URL
を発行して、解析対象Webサーバーとアクセスして必
要な情報を獲得する。ここで、本発明の変形として、解
析対象指定手段1001が複数のユーザーのコンピュー
タ1002と接続されていてもよい。この場合、解析対
象指定手段1001は、個々のユーザーからユーザーI
D(あるいはユーザーIDとパスワード)を入力しても
らって、既存のデータベースアクセス制御手法を用い
て、個々の処理が干渉しないような制御をする。さらに
異なる変形として、本発明では、解析対象指定手段10
01をWebサーバー上に置き、CGI(コモンゲート
ウェイインタフェース)スクリプトとして表現して、ユ
ーザーのコンピュータ1002における解析対象指定を
Webページのフォームを用いて行えるようにしてもよ
い。
【0079】[実施例7]つぎに本発明の実施例7につ
いて説明する。
【0080】図11は、本発明の実施例7を示す構成図
である。尚、上記の実施例と同一部分には同一符号を付
して重複する説明は省略する。本実施例は、コンテンツ
伝送手段1101により、本ハイパーテキスト解析装置
のユーザーが、解析対象となるWebサーバ上のコンテ
ンツを本ハイパーテキスト解析装置に受け渡せるように
する。本実施例では、先ず、ユーザーのコンピュータ1
002で、解析対象となるWebサーバ上のコンテンツ
を獲得する(あるいは予め解析対象となるWebサーバ
上のコンテンツを持っている)。ユーザーのコンピュー
タ1002とコンテンツ伝送手段1101はネットワー
ク(例えばインターネットや電話回線)で接続されてお
り、ユーザーのコンピュータ1002から解析対象であ
るWebサーバ上のコンテンツがネットワークを通じて
コンテンツ伝送手段1101に渡される。コンテンツ伝
送手段1101は、該Webサーバ上のコンテンツを属
性抽出手段105とハイパーリンク遷移頻度獲得手段1
04(あるいはアクセス類似度解析手段501)に渡
す。Webではコンテンツの改変が頻繁に行われること
もあるが、こうすることによって、ユーザーが想定して
いる(時点での)コンテンツを対象とした解析を確実に
行うことができる。ここで、本発明の変形として、コン
テンツ伝送手段1101が複数のユーザーのコンピュー
タ1002と接続されていてもよい。この場合、コンテ
ンツ伝送手段1101は、個々のユーザーからユーザー
ID(あるいはユーザーIDとパスワード)を入力して
もらって、既存のデータベースアクセス制御手法を用い
て、個々の処理が干渉しないような制御をする。
【0081】[実施例8]つぎに本発明の実施例8につ
いて説明する。
【0082】図12は、本発明の実施例8を示す構成図
である。尚、上記の実施例と同一部分には同一符号を付
して重複する説明は省略する。本実施例は、アクセス履
歴情報伝送手段1201により、本ハイパーテキスト解
析装置のユーザーが、解析対象となるWebサーバのア
クセス履歴情報を本ハイパーテキスト解析装置に受け渡
せるようにする。本実施例では、先ず、ユーザーのコン
ピュータ1002で、解析対象となるWebサーバのア
クセス履歴情報を獲得する(あるいは予め解析対象とな
るWebサーバのアクセス履歴情報を持っている)。ユ
ーザーのコンピュータ1002とアクセス履歴情報伝送
手段1201はネットワーク(例えばインターネットや
電話回線)で接続されており、ユーザーのコンピュータ
1002から解析対象であるWebサーバのアクセス履
歴情報がネットワークを通じてアクセス履歴情報伝送手
段1201に渡される。アクセス履歴情報伝送手段12
01は、該Webサーバのアクセス履歴情報をハイパー
リンク遷移頻度獲得手段104(あるいはアクセス類似
度解析手段501)に渡す。Webサーバーのアクセス
履歴情報は個人のプライバシーに関する情報であると見
なすこともできるため機密性が高い。そのため、Web
サーバーのアクセス履歴情報が該Webサーバー上でア
クセス可能な形態で保持されることは希である。本実施
例のように、ユーザーと本ハイパーテキスト解析装置間
で直接、アクセス履歴情報を受け渡すことができれば第
3者からアクセス履歴情報にアクセスされる可能性が小
さくなる。ここで、本発明の変形として、アクセス履歴
情報伝送手段1201が複数のユーザーのコンピュータ
1002と接続されていてもよい。この場合、アクセス
履歴情報伝送手段1201は、個々のユーザーからユー
ザーID(あるいはユーザーIDとパスワード)を入力
してもらって、既存のデータベースアクセス制御手法を
用いて、個々の処理が干渉しないような制御をする。
【0083】[実施例9]つぎに本発明の実施例9につ
いて説明する。
【0084】図13は、本発明の実施例9を示す構成図
である。尚、上記の実施例と同一部分には同一符号を付
して重複する説明は省略する。本実施例は、属性指定手
段1301により、本ハイパーテキスト解析装置のユー
ザーが、解析対象となるハイパーテキストのコンテンツ
から抽出する属性の組を指定することできる。ユーザー
のコンピュータ1002と属性指定手段1301はネッ
トワーク(例えばインターネットや電話回線)で接続さ
れている。ユーザーのコンピュータ1002では、抽出
する属性の組が入力され、この情報はネットワークを通
じて属性指定手段1301に渡される。属性指定手段1
301は、該情報を属性抽出手段105に渡す。属性抽
出手段105では、指定された属性の組を解析対象とし
て処理を行う。ここで、本発明の変形として、属性指定
手段1301が複数のユーザーのコンピュータ1002
と接続されていてもよい。この場合、属性指定手段13
01は、個々のユーザーからユーザーID(あるいはユ
ーザーIDとパスワード)を入力してもらって、既存の
データベースアクセス制御手法を用いて、個々の処理が
干渉しないような制御をする。さらに異なる変形とし
て、本発明では、属性指定手段1301をWebサーバ
ー上に置き、CGIスクリプトとして表現して、ユーザ
ーのコンピュータ1002における属性の組指定をWe
bページのフォームを用いて行えるようにしてもよい。
この場合、抽出可能な属性を予めメニューとして用意し
ておき、該フォーム上でユーザーが選択するよな形態に
しておいてもよい。
【0085】[実施例10]つぎに本発明の実施例10
について説明する。
【0086】図14は、本発明の実施例10を示す構成
図である。尚、上記の実施例と同一部分には同一符号を
付して重複する説明は省略する。本実施例は、ユーザー
のコンピュータ1002と編集手段701がネットワー
ク(例えばインターネットや電話回線)で接続されてい
る。ユーザーのコンピュータ1002における編集作業
はネットワークを通じて編集手段701に渡される。こ
こで、本発明の変形として、編集手段701が複数のユ
ーザーのコンピュータ1002と接続されていてもよ
い。この場合、編集手段701は、個々のユーザーから
ユーザーID(あるいはユーザーIDとパスワード)を
入力してもらって、既存のデータベースアクセス制御手
法を用いて、個々の処理が干渉しないような制御をす
る。さらに異なる変形として、本発明では、編集手段7
01をWebサーバー上に置き、CGIスクリプトとし
て表現して、ユーザーのコンピュータ1002における
編集作業をWebページのフォームを用いて行えるよう
にしてもよい。
【0087】[実施例11]つぎに本発明の実施例11
について説明する。
【0088】図15は、本発明の実施例11を示す構成
図である。尚、上記の実施例と同一部分には同一符号を
付して重複する説明は省略する。本実施例は、ユーザー
のコンピュータ1002と表示手段109がネットワー
ク(例えばインターネットや電話回線)で接続されてい
る。表示手段109における表示結果はネットワークを
通じてユーザーのコンピュータ1002に渡され、ユー
ザーのコンピュータ1002において表示される。ここ
で、本発明の変形として、表示手段109が複数のユー
ザーのコンピュータ1002と接続されていてもよい。
この場合、表示手段109は、個々のユーザーからユー
ザーID(あるいはユーザーIDとパスワード)を入力
してもらって、既存のデータベースアクセス制御手法を
用いて、個々の処理が干渉しないような制御をする。さ
らに異なる変形として、本発明では、表示手段109を
Webサーバー上に置き、表示結果をHTMLフォーム
で表現して、ユーザーのコンピュータ1002において
表示されるようにしてもよい。
【0089】
【発明の効果】以上説明したように、本発明によれば、
Webサイト上の任意のページ組について、ページコン
テンツから抽出される様々な属性とページ間遷移頻度と
の相関を基にして、ページ構成の問題の原因を提示し、
さらに、その改善策をも提示することができ、ハイパー
テキストシステム(Webサイト)管理者は容易にペー
ジ構成を改善できる。
【図面の簡単な説明】
【図1】 本発明の実施例の構成を示すブロック図であ
る。
【図2】 本発明の実施例の属性の一例を示す図であ
る。
【図3】 本発明の実施例の表示の一例を示す図であ
る。
【図4】 本発明の実施例の構成を示すブロック図であ
る。
【図5】 本発明の実施例の構成を示すブロック図であ
る。
【図6】 本発明の実施例の構成を示すブロック図であ
る。
【図7】 本発明の実施例の構成を示すブロック図であ
る。
【図8】 本発明の実施例の表示の一例を示す図であ
る。
【図9】 本発明の実施例の表示の一例を示す図であ
る。
【図10】 本発明の実施例の構成を示すブロック図で
ある。
【図11】 本発明の実施例の構成を示すブロック図で
ある。
【図12】 本発明の実施例の構成を示すブロック図で
ある。
【図13】 本発明の実施例の構成を示すブロック図で
ある。
【図14】 本発明の実施例の構成を示すブロック図で
ある。
【図15】 本発明の実施例の構成を示すブロック図で
ある。
【符号の説明】 101 Webサーバ 102 ハイパーテキスト 103 アクセス履歴情報 104 ハイパーリンク遷移頻度獲得手段 105 属性抽出手段 106 相関解析手段 107 相関データ記憶手段 108 属性解析手段 109 表示手段 401 解析対象ページ組獲得手段 501 アクセス類似度解析手段 601 解析対象ページ組獲得手段 701 編集手段 702 コンテンツ改変効果解析手段 1001 解析対象指定手段 1002 ユーザーのコンピュータ 1101 コンテンツ伝送手段 1201 アクセス履歴情報伝送手段 1301 属性指定手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/419 320 (72)発明者 山根 洋平 神奈川県足柄上郡中井町境430 グリーン テクなかい 富士ゼロックス株式会社内 Fターム(参考) 5B075 KK07 ND36 NS10 PQ02 PQ14 PR03 5B082 EA00 FA11 5B089 GB04 JA22 JA37 JB02 JB14 KA13 KA14 LB14 5E501 AA02 AB15 AC25 AC35 CA02 DA02 DA17 FA14

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 ハイパーテキストシステムへのアクセス
    履歴情報とハイパーリンク構造とを解析して、ハイパー
    リンクで繋がれたページ間のハイパーリンク遷移頻度を
    計算するハイパーリンク遷移頻度獲得手段と、 ハイパーリンクで繋がれたページ組のコンテンツから属
    性を抽出する属性抽出手段と、 該ハイパーリンク遷移頻度と該属性との間の相関を計算
    する相関解析手段と、 該相関解析手段で得られたデータを記憶する相関データ
    記憶手段と、 指定されたページ組のコンテンツから該属性抽出手段を
    用いて属性を抽出し、これを該相関データ記憶手段にお
    いて記憶されている相関データと比較することによっ
    て、該ページ組間のハイパーリンク遷移頻度を変化させ
    ることを想定した場合に、どの属性をどれだけ変化させ
    れば、どれだけ効果があるかという情報を求める属性解
    析手段と、 該属性解析手段で得られた結果を表示する表示手段とを
    有することを特徴とするハイパーテキスト解析装置。
  2. 【請求項2】 ハイパーテキストシステムへのアクセス
    履歴情報とハイパーリンク構造とを解析して、ハイパー
    リンクで繋がれたページ間のハイパーリンク遷移頻度を
    計算するハイパーリンク遷移頻度獲得手段と、 ハイパーリンクで繋がれたページ組のコンテンツから属
    性を抽出する属性抽出手段と、 該ハイパーリンク遷移頻度と該属性との間の相関を計算
    する相関解析手段と、 該相関解析手段で得られたデータを記憶する相関データ
    記憶手段と、 指定されたページ群のうちハイパーリンクで繋がれたペ
    ージ間について、該ハイパーリンク遷移頻度獲得手段を
    用いてハイパーリンク遷移頻度を計算し、該ハイパーリ
    ンク遷移頻度が小さなページ組を獲得する解析対象ペー
    ジ組獲得手段と、 該解析対象ページ組獲得手段で獲得されたページ組のコ
    ンテンツから該属性抽出手段を用いて属性を抽出し、こ
    れを該相関データ記憶手段において記憶されている相関
    データと比較することによって、該ページ組間のハイパ
    ーリンク遷移頻度を変化させることを想定した場合に、
    どの属性をどれだけ変化させれば、どれだけ効果がある
    かという情報を求める属性解析手段と、 該属性解析手段で得られた結果を表示する表示手段とを
    有することを特徴とするハイパーテキスト解析装置。
  3. 【請求項3】 ハイパーテキストシステムへのアクセス
    履歴情報とハイパーリンク構造とを解析して、ハイパー
    リンクで繋がれたページ間のハイパーリンク遷移頻度を
    計算するハイパーリンク遷移頻度獲得手段と、 ハイパーリンクで繋がれたページ組のコンテンツから属
    性を抽出する属性抽出手段と、 該ハイパーリンク遷移頻度と該属性との間の相関を計算
    する相関解析手段と、 該相関解析手段で得られたデータを記憶する相関データ
    記憶手段と、 指定されたページ群のうちハイパーリンクで繋がれたペ
    ージ間について、該ハイパーリンク遷移頻度獲得手段を
    用いてハイパーリンク遷移頻度を計算し、さらに、該属
    性抽出手段を用いて、該ページ間のコンテンツ類似度を
    計算し、該ハイパーリンク遷移頻度と該コンテンツ類似
    度の比率を基に、コンテンツが類似しているにもかかわ
    らずハイパーリンク遷移頻度が小さなページ組を獲得す
    る解析対象ページ組獲得手段と、 該解析対象ページ組獲得手段で獲得されたページ組のコ
    ンテンツから該属性抽出手段を用いて属性を抽出し、こ
    れを該相関データ記憶手段において記憶されている相関
    データと比較することによって、該ページ組間のハイパ
    ーリンク遷移頻度を変化させることを想定した場合に、
    どの属性をどれだけ変化させれば、どれだけ効果がある
    かという情報を求める属性解析手段と、 該属性解析手段で得られた結果を表示する表示手段とを
    有することを特徴とするハイパーテキスト解析装置。
  4. 【請求項4】 ハイパーテキストシステムを構成するペ
    ージ組について、アクセス履歴情報を解析することによ
    って、ユーザーが双方をアクセスした度合いを表わすペ
    ージ間アクセス類似度を計算するアクセス類似度解析手
    段と、 該ページ組のコンテンツや該ページ組を包含するハイパ
    ーテキストから属性を抽出する属性抽出手段と、 該ページ間アクセス類似度と該属性との間の相関を計算
    する相関解析手段と、 該相関解析手段で得られたデータを記憶する相関データ
    記憶手段と、 指定されたページ組のコンテンツや該ページ組を包含す
    るハイパーテキスト構造から該属性抽出手段を用いて属
    性を抽出し、これを該相関データ記憶手段において記憶
    されている相関データと比較することによって、該ペー
    ジ組間のページ間アクセス類似度を変化させることを想
    定した場合に、どの属性をどれだけ変化させれば、どれ
    だけ効果があるかという情報を求める属性解析手段と、 該属性解析手段で得られた結果を表示する表示手段とを
    有することを特徴とするハイパーテキスト解析装置。
  5. 【請求項5】 ハイパーテキストシステムを構成するペ
    ージ組について、アクセス履歴情報を解析することによ
    って、ユーザーが双方をアクセスした度合いを表わすペ
    ージ間アクセス類似度を計算するアクセス類似度解析手
    段と、 該ページ組のコンテンツや該ページ組を包含するハイパ
    ーテキストから属性を抽出する属性抽出手段と、 該ページ間アクセス類似度と該属性との間の相関を計算
    する相関解析手段と、 該相関解析手段で得られたデータを記憶する相関データ
    記憶手段と、 指定されたページ群の任意のページ間について、該アク
    セス類似度解析手段を用いてページ間アクセス類似度を
    計算し、該ページ間アクセス類似度が小さなページ組を
    獲得する解析対象ページ組獲得手段と、 該解析対象ページ組獲得手段で獲得されたページ組のコ
    ンテンツや該ページ組を包含するハイパーテキスト構造
    から該属性抽出手段を用いて属性を抽出し、これを該相
    関データ記憶手段において記憶されている相関データと
    比較することによって、該ページ組間のページ間アクセ
    ス類似度を変化させることを想定した場合に、どの属性
    をどれだけ変化させれば、どれだけ効果があるかという
    情報を求める属性解析手段と、 該属性解析手段で得られた結果を表示する表示手段とを
    有することを特徴とするハイパーテキスト解析装置。
  6. 【請求項6】 ハイパーテキストシステムを構成するペ
    ージ組について、アクセス履歴情報を解析することによ
    って、ユーザーが双方をアクセスした度合いを表わすペ
    ージ間アクセス類似度を計算するアクセス類似度解析手
    段と、 該ページ組のコンテンツや該ページ組を包含するハイパ
    ーテキストから属性を抽出する属性抽出手段と、 該ページ間アクセス類似度と該属性との間の相関を計算
    する相関解析手段と、 該相関解析手段で得られたデータを記憶する相関データ
    記憶手段と、 指定されたページ群の任意のページ間について、該アク
    セス類似度解析手段を用いてページ間アクセス類似度を
    計算し、さらに、該属性抽出手段を用いて、該ページ間
    のコンテンツ類似度を計算し、該ページ間アクセス類似
    度と該コンテンツ類似度の比率を基に、コンテンツが類
    似しているにもかかわらずページ間アクセス類似度が小
    さなページ組を獲得する解析対象ページ組獲得手段と、 該解析対象ページ組獲得手段で獲得されたページ組のコ
    ンテンツや該ページ組を包含するハイパーテキスト構造
    から該属性抽出手段を用いて属性を抽出し、これを該相
    関データ記憶手段において記憶されている相関データと
    比較することによって、該ページ組間のページ間アクセ
    ス類似度を変化させることを想定した場合に、どの属性
    をどれだけ変化させれば、どれだけ効果があるかという
    情報を求める属性解析手段と、 該属性解析手段で得られた結果を表示する表示手段とを
    有することを特徴とするハイパーテキスト解析装置。
  7. 【請求項7】 ハイパーテキストシステムへのアクセス
    履歴情報とハイパーリンク構造とを解析して、ハイパー
    リンクで繋がれたページ間のハイパーリンク遷移頻度を
    計算するハイパーリンク遷移頻度獲得手段と、 ハイパーリンクで繋がれたページ組のコンテンツから属
    性を抽出する属性抽出手段と、 該ハイパーリンク遷移頻度と該属性との間の相関を計算
    する相関解析手段と、 該相関解析手段で得られたデータを記憶する相関データ
    記憶手段と、 指定されたページ組のコンテンツから該属性抽出手段を
    用いて属性を抽出し、これを該相関データ記憶手段にお
    いて記憶されている相関データと比較することによっ
    て、該ページ組間のハイパーリンク遷移頻度を変化させ
    ることを想定した場合に、どの属性をどれだけ変化させ
    れば、どれだけ効果があるかという情報を求める属性解
    析手段と、 該属性解析手段で得られた結果を表示する表示手段と、 この表示結果を参照しながら該指定されたページ組のコ
    ンテンツを改変する編集手段と、 該編集手段において改変されたコンテンツから該属性抽
    出手段を用いて属性を抽出し、これを該相関データ記憶
    手段において記憶されている相関データと比較すること
    によって、該ページ組間のハイパーリンク遷移頻度を予
    測して改変による効果を計算するコンテンツ改変効果解
    析手段とを有し、 該表示手段において該コンテンツ改変効果解析手段で得
    られた結果を表示することを特徴とするハイパーテキス
    ト解析装置。
  8. 【請求項8】 ハイパーテキストシステムを構成するペ
    ージ組について、アクセス履歴情報を解析することによ
    って、ユーザーが双方をアクセスした度合いを表わすペ
    ージ間アクセス類似度を計算するアクセス類似度解析手
    段と、 該ページ組のコンテンツや該ページ組を包含するハイパ
    ーテキストから属性を抽出する属性抽出手段と、 該ページ間アクセス類似度と該属性との間の相関を計算
    する相関解析手段と、 該相関解析手段で得られたデータを記憶する相関データ
    記憶手段と、 指定されたページ組のコンテンツや該ページ組を包含す
    るハイパーテキスト構造から該属性抽出手段を用いて属
    性を抽出し、これを該相関データ記憶手段において記憶
    されている相関データと比較することによって、該ペー
    ジ組間のページ間アクセス類似度を変化させることを想
    定した場合に、どの属性をどれだけ変化させれば、どれ
    だけ効果があるかという情報を求める属性解析手段と、 該属性解析手段で得られた結果を表示する表示手段と、 この表示結果を参照しながら該指定されたページ組のコ
    ンテンツを改変する編集手段と、 該編集手段において改変されたコンテンツから該属性抽
    出手段を用いて属性を抽出し、これを該相関データ記憶
    手段において記憶されている相関データと比較すること
    によって、該ページ組間のアクセス類似度を予測して改
    変による効果を計算するコンテンツ改変効果解析手段と
    を有し、 該表示手段において該コンテンツ改変効果解析手段で得
    られた結果を表示することを特徴とするハイパーテキス
    ト解析装置。
  9. 【請求項9】 請求項1及至請求項8に記載のハイパー
    テキスト解析装置において、相関解析手段が、ハイパー
    リンク遷移頻度と属性の相関、あるいは、アクセス類似
    度と属性の相関を計算する際に、有効ではないとおもわ
    れる属性を選択する機能を有し、以下の処理においてこ
    れらの属性を無視することを特徴とするハイパーテキス
    ト解析装置。
  10. 【請求項10】 請求項1及至請求項9に記載のハイパ
    ーテキスト解析装置において、解析対象となるハイパー
    テキストシステムをネットワーク経由で指定する解析対
    象指定手段を有することを特徴とするハイパーテキスト
    解析装置。
  11. 【請求項11】 ハイパーテキストシステムへのアクセ
    ス履歴情報とハイパーリンク構造とを解析して、ハイパ
    ーリンクで繋がれたページ間のハイパーリンク遷移頻度
    を計算するハイパーリンク遷移頻度獲得ステップと、 ハイパーリンクで繋がれたページ組のコンテンツから属
    性を抽出する属性抽出ステップと、 該ハイパーリンク遷移頻度と該属性との間の相関を計算
    する相関解析ステップと、 該相関解析ステップで得られたデータを記憶する相関デ
    ータ記憶ステップと、 指定されたページ組のコンテンツから該属性抽出ステッ
    プにより属性を抽出し、これを該相関データ記憶ステッ
    プにより記憶されている相関データと比較することによ
    って、該ページ組間のハイパーリンク遷移頻度を変化さ
    せることを想定した場合に、どの属性をどれだけ変化さ
    せれば、どれだけ効果があるかという情報を求める属性
    解析ステップと、 該属性解析ステップで得られた結果を表示する表示ステ
    ップとを有することを特徴とするハイパーテキスト解析
    方法。
  12. 【請求項12】 ハイパーテキストシステムを構成する
    ページ組について、アクセス履歴情報を解析することに
    よって、ユーザーが双方をアクセスした度合いを表わす
    ページ間アクセス類似度を計算するアクセス類似度解析
    ステップと、 該ページ組のコンテンツや該ページ組を包含するハイパ
    ーテキストから属性を抽出する属性抽出ステップと、 該ページ間アクセス類似度と該属性との間の相関を計算
    する相関解析ステップと、 該相関解析ステップで得られたデータを記憶する相関デ
    ータ記憶ステップと、 指定されたページ組のコンテンツや該ページ組を包含す
    るハイパーテキスト構造から該属性抽出ステップにより
    属性を抽出し、これを該相関データ記憶ステップにより
    記憶されている相関データと比較することによって、該
    ページ組間のページ間アクセス類似度を変化させること
    を想定した場合に、どの属性をどれだけ変化させれば、
    どれだけ効果があるかという情報を求める属性解析ステ
    ップと、 該属性解析ステップで得られた結果を表示する表示ステ
    ップとを有することを特徴とするハイパーテキスト解析
    方法。
  13. 【請求項13】 ハイパーテキストシステムへのアクセ
    ス履歴情報とハイパーリンク構造とを解析して、ハイパ
    ーリンクで繋がれたページ間のハイパーリンク遷移頻度
    を計算するハイパーリンク遷移頻度獲得ステップと、 ハイパーリンクで繋がれたページ組のコンテンツから属
    性を抽出する属性抽出ステップと、 該ハイパーリンク遷移頻度と該属性との間の相関を計算
    する相関解析ステップと、 該相関解析ステップで得られたデータを記憶する相関デ
    ータ記憶ステップと、 指定されたページ組のコンテンツから該属性抽出ステッ
    プにより属性を抽出し、これを該相関データ記憶ステッ
    プにより記憶されている相関データと比較することによ
    って、該ページ組間のハイパーリンク遷移頻度を変化さ
    せることを想定した場合に、どの属性をどれだけ変化さ
    せれば、どれだけ効果があるかという情報を求める属性
    解析ステップと、 該属性解析ステップで得られた結果を表示する表示ステ
    ップとをコンピュータに実行させるために用いるプログ
    ラムを記録したハイパーテキスト解析用のコンピュータ
    読み取り可能な記録媒体。
  14. 【請求項14】 ハイパーテキストシステムを構成する
    ページ組について、アクセス履歴情報を解析することに
    よって、ユーザーが双方をアクセスした度合いを表わす
    ページ間アクセス類似度を計算するアクセス類似度解析
    ステップと、 該ページ組のコンテンツや該ページ組を包含するハイパ
    ーテキストから属性を抽出する属性抽出ステップと、 該ページ間アクセス類似度と該属性との間の相関を計算
    する相関解析ステップと、 該相関解析ステップで得られたデータを記憶する相関デ
    ータ記憶ステップと、 指定されたページ組のコンテンツや該ページ組を包含す
    るハイパーテキスト構造から該属性抽出ステップにより
    属性を抽出し、これを該相関データ記憶ステップにより
    記憶されている相関データと比較することによって、該
    ページ組間のページ間アクセス類似度を変化させること
    を想定した場合に、どの属性をどれだけ変化させれば、
    どれだけ効果があるかという情報を求める属性解析ステ
    ップと、 該属性解析ステップで得られた結果を表示する表示ステ
    ップとをコンピュータに実行させるために用いるプログ
    ラムを記録したハイパーテキスト解析用のコンピュータ
    読み取り可能な記録媒体。
JP34565299A 1999-12-06 1999-12-06 ハイパーテキスト解析装置および方法 Pending JP2001166981A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP34565299A JP2001166981A (ja) 1999-12-06 1999-12-06 ハイパーテキスト解析装置および方法
US09/655,063 US6782423B1 (en) 1999-12-06 2000-09-05 Hypertext analyzing system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34565299A JP2001166981A (ja) 1999-12-06 1999-12-06 ハイパーテキスト解析装置および方法

Publications (1)

Publication Number Publication Date
JP2001166981A true JP2001166981A (ja) 2001-06-22

Family

ID=18378057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34565299A Pending JP2001166981A (ja) 1999-12-06 1999-12-06 ハイパーテキスト解析装置および方法

Country Status (2)

Country Link
US (1) US6782423B1 (ja)
JP (1) JP2001166981A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005531854A (ja) * 2002-06-28 2005-10-20 オムニチャー, インク. サイト訪問パスデータの取得および表示
JP2007004779A (ja) * 2005-05-26 2007-01-11 Tokyo Electric Power Co Inc:The リンク生成、リンク重要度及び類似文書に関する情報処理方法及び装置
JP2017010088A (ja) * 2015-06-16 2017-01-12 Kddi株式会社 Guiの画面遷移を自動化するプログラム、装置及び方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7155489B1 (en) * 2000-06-28 2006-12-26 Microsoft Corporation Acquiring web page information without commitment to downloading the web page
US6848000B1 (en) * 2000-11-12 2005-01-25 International Business Machines Corporation System and method for improved handling of client state objects
GB0104052D0 (en) * 2001-02-19 2001-04-04 Calaba Ltd Da`a mining method and system
US20030018584A1 (en) * 2001-07-23 2003-01-23 Cohen Jeremy Stein System and method for analyzing transaction data
JP4283466B2 (ja) * 2001-10-12 2009-06-24 富士通株式会社 リンク関係に基づく文書整理方法
JP2004110123A (ja) * 2002-09-13 2004-04-08 Toshiba Corp ハイパーテキスト解析方法、解析プログラム及びその装置
JP4405248B2 (ja) * 2003-03-31 2010-01-27 株式会社東芝 通信中継装置、通信中継方法及びプログラム
JP2006053745A (ja) * 2004-08-11 2006-02-23 Saora Inc データ処理方法及びその装置、及びそのプログラム
US20070074125A1 (en) * 2005-09-26 2007-03-29 Microsoft Corporation Preview information for web-browsing
US8396737B2 (en) * 2006-02-21 2013-03-12 Hewlett-Packard Development Company, L.P. Website analysis combining quantitative and qualitative data
US8918369B2 (en) * 2008-06-05 2014-12-23 Craze, Inc. Method and system for classification of venue by analyzing data from venue website
US8630972B2 (en) * 2008-06-21 2014-01-14 Microsoft Corporation Providing context for web articles
JP5467888B2 (ja) * 2010-02-12 2014-04-09 株式会社日立製作所 ウェブアプリケーションのユーザビリティ評価方法、分析サーバ、及び、そのプログラム
US9165285B2 (en) 2010-12-08 2015-10-20 Microsoft Technology Licensing, Llc Shared attachments
US9854055B2 (en) * 2011-02-28 2017-12-26 Nokia Technologies Oy Method and apparatus for providing proxy-based content discovery and delivery
US10552799B2 (en) 2011-04-28 2020-02-04 Microsoft Technology Licensing, Llc Upload of attachment and insertion of link into electronic messages
US9137185B2 (en) 2011-04-28 2015-09-15 Microsoft Technology Licensing, Llc Uploading attachment to shared location and replacing with a link
US8682989B2 (en) 2011-04-28 2014-03-25 Microsoft Corporation Making document changes by replying to electronic messages
US20120278403A1 (en) * 2011-04-28 2012-11-01 Microsoft Corporation Presenting link information near links within electronic messages
US11308449B2 (en) 2011-04-28 2022-04-19 Microsoft Technology Licensing, Llc Storing metadata inside file to reference shared version of file
US10185932B2 (en) 2011-05-06 2019-01-22 Microsoft Technology Licensing, Llc Setting permissions for links forwarded in electronic messages
US8965983B2 (en) 2011-05-06 2015-02-24 Microsoft Technology Licensing, Llc Changes to documents are automatically summarized in electronic messages
US8996976B2 (en) * 2011-09-06 2015-03-31 Microsoft Technology Licensing, Llc Hyperlink destination visibility
US9348936B2 (en) * 2012-07-25 2016-05-24 Oracle International Corporation Heuristic caching to personalize applications
JPWO2014068700A1 (ja) * 2012-10-31 2016-09-08 株式会社日立システムズ 生体情報収集・配信システム
WO2016017978A1 (en) * 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Device and method for performing functions
JP6562276B2 (ja) * 2014-12-15 2019-08-21 大学共同利用機関法人情報・システム研究機構 情報抽出装置、情報抽出方法、及び情報抽出プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5892917A (en) * 1995-09-27 1999-04-06 Microsoft Corporation System for log record and log expansion with inserted log records representing object request for specified object corresponding to cached object copies
US5870559A (en) * 1996-10-15 1999-02-09 Mercury Interactive Software system and associated methods for facilitating the analysis and management of web sites
US7720723B2 (en) * 1998-09-18 2010-05-18 Amazon Technologies, Inc. User interface and methods for recommending items to users
JP3719342B2 (ja) * 1998-12-08 2005-11-24 富士ゼロックス株式会社 ハイパーテキスト解析装置及び方法、ハイパーテキスト解析プログラムを記録した記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005531854A (ja) * 2002-06-28 2005-10-20 オムニチャー, インク. サイト訪問パスデータの取得および表示
JP2007004779A (ja) * 2005-05-26 2007-01-11 Tokyo Electric Power Co Inc:The リンク生成、リンク重要度及び類似文書に関する情報処理方法及び装置
JP2017010088A (ja) * 2015-06-16 2017-01-12 Kddi株式会社 Guiの画面遷移を自動化するプログラム、装置及び方法

Also Published As

Publication number Publication date
US6782423B1 (en) 2004-08-24

Similar Documents

Publication Publication Date Title
JP2001166981A (ja) ハイパーテキスト解析装置および方法
US11122072B2 (en) Enhanced browsing with security scanning
JP3703080B2 (ja) ウェブコンテンツを簡略化するための方法、システムおよび媒体
US6920609B1 (en) Systems and methods for identifying and extracting data from HTML pages
US8117532B2 (en) Reformatting regions with cluttered hyperlinks
US9330179B2 (en) Configuring web crawler to extract web page information
US8037527B2 (en) Method and apparatus for look-ahead security scanning
US8276061B2 (en) Marking and annotating electronic documents
US6088707A (en) Computer system and method of displaying update status of linked hypertext documents
US20040205514A1 (en) Hyperlink preview utility and method
JP2003114889A (ja) 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム
WO2007137290A2 (en) Search result ranking based on usage of search listing collections
JP2009032229A (ja) 確認システム、情報提供システム、ならびに、プログラム
JP3794686B2 (ja) リンク先画面表示システム、リンク先画面表示プログラム及び該プログラムを格納した記憶媒体
JP3612185B2 (ja) 文書情報更新監視装置
JP2001052003A (ja) インターネット情報閲覧装置
WO2021230786A1 (en) Method of filtering data traffic sent to a user device
JP4391131B2 (ja) コンテンツ表示装置、コンテンツ表示プログラム、およびコンテンツ表示プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005284978A (ja) ポータルサービス提供方法およびプログラム
CN115438282B (zh) 页面中元素的定位方法及装置
KR20030007734A (ko) 퍼스널 배너 작성 프로그램
Anam et al. Web content adaptation for mobile devices: A greedy approach
JP2004348418A (ja) Webページ更新・管理装置及びそのプログラム
WO2008037983A2 (en) Modification of display properties of web pages while retaining justification and text boundaries
KR20000026430A (ko) 인터넷에서의 웹 서비스 방법