JP2001052017A - ハイパーテキスト解析装置 - Google Patents

ハイパーテキスト解析装置

Info

Publication number
JP2001052017A
JP2001052017A JP22719299A JP22719299A JP2001052017A JP 2001052017 A JP2001052017 A JP 2001052017A JP 22719299 A JP22719299 A JP 22719299A JP 22719299 A JP22719299 A JP 22719299A JP 2001052017 A JP2001052017 A JP 2001052017A
Authority
JP
Japan
Prior art keywords
pages
page
hyperlink
hypertext
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP22719299A
Other languages
English (en)
Other versions
JP3931496B2 (ja
JP2001052017A5 (ja
Inventor
Takehiro Nakayama
雄大 中山
Hiroki Kato
裕樹 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP22719299A priority Critical patent/JP3931496B2/ja
Publication of JP2001052017A publication Critical patent/JP2001052017A/ja
Publication of JP2001052017A5 publication Critical patent/JP2001052017A5/ja
Application granted granted Critical
Publication of JP3931496B2 publication Critical patent/JP3931496B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 任意のページ組について、同一ユーザーが同
一セッションでアクセスしてくる傾向と、ページ間を移
動するためのハイパーリンク遷移コスト等を定量的に測
定し、これらの特徴量に基づいて構成の劣ったページ組
を明示的に提示する。 【解決手段】 ハイパーテキストシステム2を構成する
ページの組について、アクセス傾向解析手段4がハイパ
ーテキストシステムへのアクセス履歴情報に基づいて該
ハイパーテキストシステムを構成するページの組に対し
てページ間アクセス類似度を計算し、ハイパーリンク解
析手段5が前記各ページの組のハイパーリンク遷移数を
計算し、これら各ページ組のページ間アクセス類似度と
ハイパーリンク遷移数を表示手段6が座標系に表示する
ことにより、ユーザーに対してハイパーテキストシステ
ムの構成の優劣を視覚的に表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上に
構成されるハイパーテキストシステムにおいて、その構
成の優劣を判断するための知識を視覚情報として提示す
るハイパーテキスト解析装置に関する。
【0002】
【従来の技術】ネットワーク上に構成されるハイパーテ
キストシステム(例えば、World WideWeb; 以降Web
と略す)では、ハイパーテキストを格納しているWeb
サーバにおいてユーザー(訪問者)のアクセス履歴を記
録することができる。このアクセス履歴には、一般に、
アクセスしてきたユーザーが使用しているコンピュータ
の識別子(インターネットを利用しているのであればI
Pアドレス)、アクセスしてきた時刻、アクセスしたペ
ージ(=ファイル)のサーバ上での識別子(Webでは
URL)が含まれる。
【0003】従来、アクセス履歴とハイパーリンク構造
を解析して、ハイパーテキストシステム(例えば、We
bサイト)の構成の優劣を判断するような知識を得る技
術としては、文献(Perkowitz and Etzioni, Adaptive
Web Sites: Automatically Synthesizing Web Pages, i
n Proc. of AAAI-98)に記載された発明や、本願出願人
が提案した発明(特願平10−345759号)があ
る。
【0004】上記文献に記載された発明は、先ず、サイ
ト上の全てのページ組について、同一ユーザーからのア
クセス共起頻度を計算し、予め定められた閾値を超える
組を残し、その他を破棄する。さらに、残った組の中か
ら実際にハイパーリンクで連結されている組を破棄す
る。次に、残った組をアークで連結されたグラフとみな
し(双方のページがノードとなる)、各グラフを解析し
てクリーク(全てのノード間にアークが存在する完全グ
ラフ)を抽出する。このクリークを構成するページ群
は、互いに強い関連があるがハイパーリンクで連結され
ていないものなので、サイト上の劣っている部分を発見
できたと解釈することができる。
【0005】しかしながら、この手法では、多くのユー
ザーが同一セッションでアクセスしてくる傾向が強いに
もかかわらずそれらの間にハイパーリンクが存在しない
(そのため、ユーザーはページ間遷移に多くの労力を求
められるであろう)ページ群を発見できるが、本来は多
くのユーザーから同一セッション(一連のアクセス操
作)でアクセスされることを期待して作成されたページ
群であるにもかかわらず、ハイパーリンク構造が不適切
なため意図通りにアクセスされなかったものを発見する
ことはできない。さらに、ハイパーリンクの有無によっ
て連結性を測定しているので、実ユーザーがページ間遷
移に要する労力を定量的に評価できないという問題もあ
る。例えば、ハイパーリンクの遷移数が2であろうと1
0であろうとどちらも一様に問題ページとして扱われて
しまうが、前者はユーザーにとって問題でないかもしれ
ない。
【0006】また、特願平10−345759号で提案
した発明は、アクセス履歴情報に基づいて、ハイパーテ
キストシステムを構成するページに対してクラスタリン
グを行い、得られた各クラスターを構成するページ間の
ハイパーリンク結束度を計算することにより、ハイパー
テキストシステムの構成の優劣を示す指標を得るもので
ある。しかしながら、この手法では、連結性を定量的に
導き出すことができるが、構成の劣ったページ群を明示
的に提示することができないものであった。
【0007】
【発明が解決しようとする課題】本発明は上記従来の事
情に鑑みなされたもので、任意のページ組について、同
一ユーザーが同一セッションでアクセスしてくる傾向
と、ページ間を移動するためのハイパーリンク遷移コス
トと、ページ間の内容の類似度と、を定量的に測定し、
これらの特徴量に基づいて構成の劣ったページ組を明示
的に提示することを目的とする。
【0008】
【課題を解決するための手段】本発明では、ハイパーテ
キストシステムを構成するページの組について、ユーザ
が当該ページの組を一連の操作でアクセスした度合いを
示すページ間アクセス類似度と、当該ページの組のリン
ク距離を示すハイパーリンク遷移数とを解析することが
でき、アクセス傾向解析手段がハイパーテキストシステ
ムへのアクセス履歴情報に基づいて該ハイパーテキスト
システムを構成するページの組に対してページ間アクセ
ス類似度を計算し、ハイパーリンク解析手段が前記各ペ
ージの組のハイパーリンク遷移数を計算し、これら算出
された各ページ組のページ間アクセス類似度とハイパー
リンク遷移数を表示手段が座標系に表示することによ
り、ユーザーに対してハイパーテキストシステムの構成
の優劣を視覚的に表示する。
【0009】また、本発明は、ハイパーテキストシステ
ムを構成するページの組について、当該ページの組の内
容的な類似度を示すページ間内容類似度と、当該ページ
の組のリンク距離を示すハイパーリンク遷移数とを解析
することができ、内容解析手段がハイパーテキストシス
テムを構成するページの組に対して各ページに共通して
出現する単語の頻度に基づいて当該ページの組のページ
間内容類似度を計算し、ハイパーリンク解析手段が前記
各ページの組のハイパーリンク遷移数を計算し、これら
算出された各ページ組のページ間内容類似度とハイパー
リンク遷移数を表示手段が座標系に表示することによ
り、ユーザーに対してハイパーテキストシステムの構成
の優劣を視覚的に表示する。
【0010】また、本発明は、ハイパーテキストシステ
ムを構成するページの組について、ユーザが当該ページ
の組を一連の操作でアクセスした度合いを示すページ間
アクセス類似度と、当該ページの組の内容的な類似度を
示すページ間内容類似度とを解析することができ、アク
セス傾向解析手段がハイパーテキストシステムへのアク
セス履歴情報に基づいて該ハイパーテキストシステムを
構成するページの組に対してページ間アクセス類似度を
計算し、内容解析手段が当該ページの組に対して各ペー
ジに共通して出現する単語の頻度に基づいて当該ページ
の組のページ間内容類似度を計算し、これら算出された
各ページ組のページ間アクセス類似度とページ間内容類
似度とを表示手段が座標系に表示することにより、ユー
ザーに対してハイパーテキストシステムの構成の優劣を
視覚的に表示する。
【0011】また、本発明は、ハイパーテキストシステ
ムを構成するページの組について、ユーザが当該ページ
の組を一連の操作でアクセスした度合いを示すページ間
アクセス類似度と、当該ページの組の内容的な類似度を
示すページ間内容類似度と、当該ページの組のリンク距
離を示すハイパーリンク遷移数とを解析することがで
き、アクセス傾向解析手段がハイパーテキストシステム
へのアクセス履歴情報に基づいて該ハイパーテキストシ
ステムを構成するページの組に対してページ間アクセス
類似度を計算し、内容解析手段が前記各ページの組に対
して各ページに共通して出現する単語の頻度に基づいて
当該ページの組のページ間内容類似度を計算し、ハイパ
ーリンク解析手段が前記各ページの組のハイパーリンク
遷移数を計算し、これら算出された各ページ組のページ
間アクセス類似度とページ間内容類似度とハイパーリン
ク遷移数を表示手段が3次元座標系に表示することによ
り、ユーザーに対してハイパーテキストシステムの構成
の優劣を視覚的に表示する。
【0012】さらに、本発明は、訓練データ記憶手段に
問題があるハイパーリンク構成のページ組群と問題がな
いハイパーリンク構成のページ組群とを予め訓練データ
として記憶しておき、算出された各ページ組のページ間
アクセス類似度やハイパーリンク遷移数やページ間の内
容類似度を判別手段が訓練データと比較して評価し、表
示手段がこの評価結果を表示する。さらに、本発明は、
識別子整形手段がハイパーテキストシステムを網羅的に
アクセスして自動的に情報を収集する探索ロボットを識
別して、当該探索ロボットのアクセス履歴をアクセス傾
向解析手段が用いるアクセス履歴情報から排除して、ユ
ーザの指向をユーザによるアクセス履歴に基づいて正確
に解析できるようにする。
【0013】さらに、本発明は、ハイパーリンク解析手
段がページの組についてそれぞれのページを起点にハイ
パーリンクの向きを考慮して最短で他方のページに到達
する経路のハイパーリンク遷移数を計算し、その値が小
さい方を当該ページの組のハイパーリンク遷移数とし
て、ページ間のリンク距離を一元化して処理し易いもの
とする。さらに、本発明は、上記のような機能をコンピ
ュータにより実現させるプログラムを読み取り可能に記
憶した記憶媒体としても構成される。
【0014】
【発明の実施の形態】本発明を図に示す実施例に基づい
て具体的に説明する。なお、以下に説明する実施例で
は、ネットワーク上に構成されるハイパーテキストシス
テムの中で代表的なシステムであるWebを例としてい
る。図1には、本発明の第1実施例に係るハイパーテキ
スト解析装置の構成を示してある。なお、以下に説明す
る各実施例についての同様であるが、本実施例のハイパ
ーテキスト解析装置は、CDROM等の記憶媒体に記憶
されたハイパーテキスト解析プログラムをコンピュータ
にインストールすることにより構成される。
【0015】図1において、Webサーバ1はネットワ
ーク上で情報を発信する手段であり、Webサーバ1に
はユーザーに提供したい情報がページ(=ファイル)とハ
イパーリンクからなるハイパーテキスト2として貯えら
れている。ユーザーはWebサーバ1上のハイパーテキ
スト2にアクセスすることで情報を入手でき、Webサ
ーバ1では、ユーザーからのアクセスがある毎に、ユー
ザーのコンピュータを識別するためのコンピュータ識別
子(IPアドレス)とアクセス時刻とユーザーのアクセ
スしたページのあるアドレス(URL)をアクセス履歴
情報としてアクセス履歴情報記憶手段3に記録する。
【0016】アクセス傾向解析手段4は、Webサーバ
1上のページに対し、それぞれに対応するアクセス履歴
情報を用いて、各ページの組合わせについてページ間ア
クセス類似度(すなわち、同一セッションでアクセスさ
れる度合い)を計算する。この計算法は既存技術を用い
ることができ、例えば本願出願人が提案した手法(特願
平10−345759号)では、各ページについてIP
アドレスを項としその出現頻度を項の値とするようなベ
クトルを生成して、ベクトル間の内積値の大小をページ
間アクセス類似度として用いることができる。
【0017】ハイパーリンク解析手段5では、前記の各
ページの組合わせに対して、そのハイパーリンク遷移数
を計算する。具体的には、ページの組{ページA、 ペ
ージB}が与えられたときに、ハイパーリンクの向きを
考慮しながらページAからページBへの最短経路の遷移
数(すなわち、これらページを移動するときに経由する
ページ数)を計算し、次にページBからページAへの最
短経路の遷移数を計算し、両者を比べて小さい方をペー
ジ組{ページA、 ページB}のハイパーリンク遷移数
とする。ここで、ページAからページBへの最短経路
は、ページAからページBに到達するまで幅優先で深さ
(=遷移数)をカウントしながらハイパーリンクを探索
すればよい。この探索は、一般には、辿ることができる
ハイパーリンクが無くなるまで続けられるが、処理効率
を上げるために、深さ(=遷移数)が予め決められた閾
値に達したところで停止するように設定してもよく、こ
の場合、ページ間の最短経路の遷移数は該閾値とする。
【0018】表示手段6では、例えばページ間アクセス
類似度とハイパーリンク遷移数をそれぞれ横軸、縦軸に
とった2次元座標上にページ組の分布をプロット(つま
り散布図)して画面に表示する。図2には、あるWeb
サイトを解析した結果(ページ間アクセス類似度とハイ
パーリンク遷移数)の表示の一例を示してある。なお、
同図において、プロットされた各点はそれぞれハイパー
リンクシステムのページの組である。
【0019】一般に、ページ間アクセス類似度が大きい
ページ組(図の右側)は、同一のユーザーから前後して
アクセスされる傾向が強いものであるが、そのハイパー
リンク遷移数が小さければ(図の下側)ユーザーのブラ
ウジングに要するコストが小さくてすむのでハイパーテ
キストシステムの構成が優れていると評価でき、逆にハ
イパーリンク遷移数が大きければ(図の上側)効率よく
ブラウジングできていないのでハイパーテキストシステ
ムの構成が劣っていると評価できる。したがって、ユー
ザーはこれらの評価を同図から視覚的に容易に行うこと
ができる。なお、図2に変更を加えて、ユーザーが指定
したページを含む組(対象ページがN個のときN−1個
ある)のプロットの色や形を変えることによって、他と
識別できるようにしてもよい。
【0020】図3には、本発明の第2実施例に係るハイ
パーテキスト解析装置の構成を示してある。なお、上記
した実施例と同一部分には同一符号を付して重複する説
明は省略する。本実施例は、訓練データ記憶手段31に
ユーザーが予め記憶設定した訓練データを利用して、ハ
イパーテキスト構成の劣ったページ組を明示的に提示す
るものである。
【0021】この訓練データは次のようにして生成され
て、訓練データ記憶手段31に記録される。予めユーザ
ーが2つのページ間の内容とハイパーリンク構成のバラ
ンスに問題があるか否かを判定しておき、問題があると
されたページ組のサンプル群と、問題がないとされたペ
ージ組のサンプル群に対して、それぞれハイパーリンク
解析手段5とアクセス傾向解析手段4によって前述の方
法で、ページ間アクセス類似度とハイパーリンク遷移数
を計算する。次に、このページ間アクセス類似度とハイ
パーリンク遷移数をそれぞれ特徴量として、新規(つま
り、2つのページ間の内容とハイパーリンク構成のバラ
ンスに問題があるか否かが未知)のページ組における内
容とハイパーリンク構成のバランスを判定するための訓
練データを作成して訓練データ記憶手段31に貯える。
【0022】この訓練データは、既存の多変量解析技術
に基づいて作成される。例えば、線形判別解析では、図
4に示すように、座標軸(x1: ページ間アクセス類似
度、x2:ハイパーリンク遷移数)に予め人間が判定し
たサンプル群をプロットしたときに、問題があるか否か
の2つの集合を最もよく分離する判別直線Z=ax1+
bx2+cを求め(a、b、cにそれぞれ数値が与えら
れる) 、これを訓練データとして訓練データ記憶手段3
1に貯える。
【0023】判別手段32では、新規のページ組(解析
対象ページ組)のページ間アクセス類似度(アクセス傾
向解析手段4で求められたもの)とハイパーリンク遷移
数(ハイパーリンク解析手段5で求められたもの)を訓
練データ記憶手段31に貯えられた判別直線の式ax1
+bx2+cのx1とx2にそれぞれ代入し、式の値が
正であればページ組の内容とハイパーリンク構成のバラ
ンスに問題があると判別し、負であれば問題がない判別
する。すなわち、判別手段32は解析対象のページの組
から得られたページ間アクセス類似度とハイパーリンク
遷移数とを訓練データと比較して、構成の優劣を評価す
る。
【0024】表示手段6では、判別手段32でハイパー
リンク構成に問題があると判別されたページ組のリスト
を画面表示する。図5にはこの評価結果表示の一例を示
してあり、問題があると判別されたページ組(例えば、
{P3,P4})が判別スコア(前記の判別直線の式a
x1+bx2+cから得られた値)順にリストで示さ
れ、スコアが高いほど問題が大きなページ組であること
がユーザーに示されている。また、図6にはこの評価結
果表示の他の一例を示してあり、問題があると判別され
た全てのページ組の中に出現するページをその頻度順に
並べてリストで示される。したがって、頻度が高いペー
ジを改善すると、その組となる問題ページ数が多いとい
うことなので、Webサイト全体における改善波及効果
は大きくなるといえる。
【0025】図7には本発明の第3実施例に係るハイパ
ーテキスト解析装置の構成を示してあり、図8には本発
明の第4実施例に係るハイパーテキスト解析装置の構成
を示してある。なお、上記した実施例と同一部分には同
一符号を付して重複する説明は省略する。本実施例は識
別子整形手段71を付加したものであり、識別子整形手
段71は、アクセスしてきたコンピュータの内で、ユー
ザー(=人間)によるものではなく情報収集ロボットに
よるものを排除するためのものである。
【0026】例えば、ある慣習に従って情報収集ロボッ
トがアクセスする特殊なノード(Webでは、ルート直
下に置かれる「robots.txt」という名のファイル)への
アクセスの有無や、短期間に多数のノードを網羅的にア
クセスするという情報収集ロボットに特徴的な振る舞い
の有無や、既知の情報収集ロボットのコンピュータ識別
子であるか否かによって、識別子整形手段71が情報収
集ロボットによるアクセスを識別して、該情報収集ロボ
ットのアクセスに関わるアクセス履歴情報をアクセス傾
向解析手段4において獲得しないようにしている。これ
によって、真の人間によるアクセス履歴に基づいて、ハ
イパーテキスト構成の優劣を評価することができる。
【0027】図9には本発明の第5実施例に係るハイパ
ーテキスト解析装置の構成を示してあり、図10には本
発明の第6施例に係るハイパーテキスト解析装置の構成
を示してある。なお、上記した実施例と同一部分には同
一符号を付して重複する説明は省略する。本実施例は内
容解析手段91を付加したものであり、内容解析手段9
1で、Webサーバ1上のページの組に対して、それぞ
れのページに共通して出現する単語の頻度に基づいて、
各ページの組合わせについてページ間内容類似度を計算
する。
【0028】このページ間内容類似度は、例えば、各ペ
ージについて、単語を項としその出現頻度を項の値とす
るようなベクトルを生成して、ベクトル間の内積値の大
小をページ間内容類似度として用いることができる。な
お、内容解析手段91を付加した場合、本実施例の表示
手段6では、ページ間アクセス類似度とハイパーリンク
遷移数とページ間内容類似度をそれぞれx軸、y軸、z
軸にとった3次元座標上に、算出されたページ間アクセ
ス類似度とハイパーリンク遷移数とページ間内容類似度
に基づいてページ組の分布をプロット(つまり散布図)
して表示する。
【0029】ここで、図10に示す訓練データ記憶手段
31に貯えられる訓練データは、例えば線形判別解析で
は、3次元座標軸(x1: ページ間アクセス類似度、x
2:ハイパーリンク遷移数、x3:ページ間内容類似
度)に予め人間が判定したサンプル群をプロットしたと
きに、問題があるか否かの二つの集合を最もよく分離す
る判別平面Z =ax1+bx2+cx3+d(a、
b、c、dにそれぞれ数値が与えられる)となる。判別
手段32では、解析対象となる新規のページ組のページ
間アクセス類似度(アクセス傾向解析手段4で求められ
たもの)とハイパーリンク遷移数(ハイパーリンク解析
手段5で求められたもの)とページ間内容類似度(内容
解析手段91で求められたもの)を訓練データ記憶手段
31に貯えられた判別平面のax1+bx2+cx3+
dのx1とx2とx3にそれぞれ代入し、式の値が正で
あればページ組の内容とハイパーリンク構成のバランス
に問題があると判別し、負であれば問題がない判別す
る。
【0030】図11には本発明の第7実施例に係るハイ
パーテキスト解析装置の構成を示してある。なお、上記
した実施例と同一部分には同一符号を付して重複する説
明は省略する。本実施例は、ページの組に対して、内容
解析手段91によってページ間内容類似度を算出し、ハ
イパーリンク解析手段5によってハイパーリンク遷移数
を算出して、これら算出されたページ間内容類似度とハ
イパーリンク遷移数とに基づいて、図12に示すように
ハイパーテキストシステムのページ組群を2次元座標系
上にプロットして、表示手段6がこれを画面表示する。
これによって、内容の類似度が高い(図の右側)にもか
かわらず、ハイパーリンク遷移数が大きい(図面の上
側)ページの組が視覚的に容易に把握できる。
【0031】図13には本発明の第8実施例に係るハイ
パーテキスト解析装置の構成を示してあり、本実施例は
第7実施例に訓練データ記憶手段31と判別手段32と
を付加したものである。なお、上記した実施例と同一部
分には同一符号を付して重複する説明は省略する。本実
施例では、予めユーザーが2つのページ間の内容とハイ
パーリンク構成のバランスに問題があるか否かを判定し
ておき、問題があるとされたページ組のサンプル群と、
問題がないとされたページ組のサンプル群に対して、そ
れぞれハイパーリンク解析手段5と内容解析手段91に
よって前述の方法で、ハイパーリンク遷移数とページ間
内容類似度を計算し、このハイパーリンク遷移数とペー
ジ間内容類似度をそれぞれ特徴量として、解析対象とな
る新規のページ組における内容とハイパーリンク構成の
バランスを判定するための訓練データを作成して訓練デ
ータ記憶手段31に貯える。
【0032】したがって、本実施例は、ページの組に対
して、内容解析手段91とハイパーリンク解析手段5と
によって算出されたページ間内容類似度とハイパーリン
ク遷移数とに基づいて、図14に示すようにハイパーテ
キストシステムのページ組群を2次元座標系上にプロッ
トし、これらのページ組群を判別手段32が訓練データ
と比較して評価し、その評価結果を表示手段6が画面表
示する。これによって、構造的な問題のあるページの組
が容易に把握できる。
【0033】図15には本発明の第9実施例に係るハイ
パーテキスト解析装置の構成を示してある。なお、上記
した実施例と同一部分には同一符号を付して重複する説
明は省略する。本実施例は、ページの組に対して、内容
解析手段91によってページ間内容類似度を算出し、ア
クセス傾向解析手段4によってページ間アクセス類似度
を算出して、これら算出されたページ間内容類似度とペ
ージ間アクセス類似度とに基づいて、図16に示すよう
にハイパーテキストシステムのページ組群を2次元座標
系上にプロットして、表示手段6がこれを画面表示す
る。これによって、構造的な問題のあるページの組(例
えば、内容の類似度が高い(図の上)にもかかわらず、
ページ間アクセス類似度が低い(図の左側))が視覚的
に容易に把握できる。
【0034】図17には本発明の第10実施例に係るハ
イパーテキスト解析装置の構成を示してあり、本実施例
は第9実施例に訓練データ記憶手段31と判別手段32
とを付加したものである。なお、上記した実施例と同一
部分には同一符号を付して重複する説明は省略する。本
実施例では、予めユーザーが2つのページ間の内容とハ
イパーリンク構成のバランスに問題があるか否かを判定
しておき、問題があるとされたページ組のサンプル群
と、問題がないとされたページ組のサンプル群に対し
て、それぞれアクセス傾向解析手段4と内容解析手段9
1によって前述の方法で、ページ間アクセス類似度とペ
ージ間内容類似度を計算し、このページ間アクセス類似
度とページ間内容類似度をそれぞれ特徴量として、解析
対象となる新規のページ組における内容とハイパーリン
ク構成のバランスを判定するための訓練データを作成し
て訓練データ記憶手段31に貯える。
【0035】したがって、本実施例は、ページの組に対
して、アクセス傾向解析手段4と内容解析手段91とに
よって算出されたページ間アクセス類似度とページ間内
容類似度とに基づいて、図18に示すようにハイパーテ
キストシステムのページ組群を2次元座標系上にプロッ
トし、これらのページ組群を判別手段32が訓練データ
と比較して評価し、その評価結果を表示手段6が画面表
示する。これによって、構造的の問題のあるページの組
が容易に把握できる。
【0036】
【発明の効果】以上説明したように、本発明によると、
Webサイト上の任意のページ組について、同一ユーザ
ーが同一セッションでアクセスしてくる傾向と、ハイパ
ーリンク遷移コストと、ページ間の内容の類似性とを定
量的に測定し、これらの値に基づいてハイパーテキスト
構成の優劣を判断できるようにページ組群をユーザに対
して表示出力することができる。さらに、本発明では、
これらページ組の算出値と予め用意した訓練データと比
較することにより、構成の劣ったページ群を明示的に提
示することができ、Webサイト管理するユーザーは容
易且つ適切にサイト構成を改善することができる。
【図面の簡単な説明】
【図1】 本発明の第1実施例に係るハイパーテキスト
解析装置の構成図である。
【図2】 本発明の第1実施例に係る解析結果表示の一
例を示す図である。
【図3】 本発明の第2実施例に係るハイパーテキスト
解析装置の構成図である。
【図4】 本発明の第2実施例に係る解析結果表示の一
例を示す図である。
【図5】 本発明の第2実施例に係る評価結果表示の一
例を示す図である。
【図6】 本発明の第2実施例に係る評価結果表示の他
の一例を示す図である。
【図7】 本発明の第3実施例に係るハイパーテキスト
解析装置の構成図である。
【図8】 本発明の第4実施例に係るハイパーテキスト
解析装置の構成図である。
【図9】 本発明の第5実施例に係るハイパーテキスト
解析装置の構成図である。
【図10】 本発明の第6実施例に係るハイパーテキス
ト解析装置の構成図である。
【図11】 本発明の第7実施例に係るハイパーテキス
ト解析装置の構成図である。
【図12】 本発明の第7実施例に係る解析結果表示の
一例を示す図である。
【図13】 本発明の第8実施例に係るハイパーテキス
ト解析装置の構成図である。
【図14】 本発明の第8実施例に係る解析結果表示の
一例を示す図である。
【図15】 本発明の第9実施例に係るハイパーテキス
ト解析装置の構成図である。
【図16】 本発明の第9実施例に係る解析結果表示の
一例を示す図である。
【図17】 本発明の第10実施例に係るハイパーテキ
スト解析装置の構成図である。
【図18】 本発明の第10実施例に係る解析結果表示
の一例を示す図である。
【符号の説明】
1:Webサーバ、 2:ハイパーテキスト、3:アク
セス履歴情報管理手段、 4:アクセス傾向解析手段、
5:ハイパーリンク解析手段、 6:表示手段、31:
訓練データ記憶手段、 32:判別手段、71:識別子
整形手段、 91:内容解析手段、
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND36 NS02 5B082 FA11 5E501 AB15 AC22 BA03 CA02 DA17 FA14 FB28

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 ハイパーテキストシステムを構成するペ
    ージの組について、ユーザが当該ページの組を一連の操
    作でアクセスした度合いを示すページ間アクセス類似度
    と、当該ページの組のリンク距離を示すハイパーリンク
    遷移数とを解析するハイパーテキスト解析装置であっ
    て、 ハイパーテキストシステムへのアクセス履歴情報に基づ
    いて該ハイパーテキストシステムを構成するページの組
    に対してページ間アクセス類似度を計算するアクセス傾
    向解析手段と、 前記各ページの組のハイパーリンク遷移数を計算するハ
    イパーリンク解析手段と、 算出された各ページ組のページ間アクセス類似度とハイ
    パーリンク遷移数を座標系に表示する表示手段と、を備
    え、 ユーザーにハイパーテキストシステムの構成の優劣を視
    覚的に表示することを特徴とするハイパーテキスト解析
    装置。
  2. 【請求項2】 請求項1に記載のハイパーテキスト解析
    装置において、 ページ間アクセス類似度とハイパーリンク遷移数とから
    見て、問題があるハイパーリンク構成のページ組群と問
    題がないハイパーリンク構成のページ組群とを予め訓練
    データとして記憶する訓練データ記憶手段と、 算出された各ページ組のページ間アクセス類似度とハイ
    パーリンク遷移数とを訓練データと比較して、当該各ペ
    ージの組の構成の優劣を評価する判別手段と、を備え、 前記表示手段は判断手段による評価結果を表示すること
    を特徴とするハイパーテキスト解析装置。
  3. 【請求項3】 ハイパーテキストシステムを構成するペ
    ージの組について、当該ページの組の内容的な類似度を
    示すページ間内容類似度と、当該ページの組のリンク距
    離を示すハイパーリンク遷移数とを解析するハイパーテ
    キスト解析装置であって、 ハイパーテキストシステムを構成するページの組に対し
    て各ページに共通して出現する単語の頻度に基づいて当
    該ページの組のページ間内容類似度を計算する内容解析
    手段と、 前記各ページの組のハイパーリンク遷移数を計算するハ
    イパーリンク解析手段と、 算出された各ページ組のページ間内容類似度とハイパー
    リンク遷移数を座標系に表示する表示手段と、を備え、 ユーザーにハイパーテキストシステムの構成の優劣を視
    覚的に表示することを特徴とするハイパーテキスト解析
    装置。
  4. 【請求項4】 請求項3に記載のハイパーテキスト解析
    装置において、 ページ間内容類似度とハイパーリンク遷移数とから見
    て、問題があるハイパーリンク構成のページ組群と問題
    がないハイパーリンク構成のページ組群とを予め訓練デ
    ータとして記憶する訓練データ記憶手段と、 算出された各ページ組のページ間内容類似度とハイパー
    リンク遷移数とを訓練データと比較して、当該各ページ
    の組の構成の優劣を評価する判別手段と、を備え、 前記表示手段は判断手段による評価結果を表示すること
    を特徴とするハイパーテキスト解析装置。
  5. 【請求項5】 ハイパーテキストシステムを構成するペ
    ージの組について、ユーザが当該ページの組を一連の操
    作でアクセスした度合いを示すページ間アクセス類似度
    と、当該ページの組の内容的な類似度を示すページ間内
    容類似度とを解析するハイパーテキスト解析装置であっ
    て、 ハイパーテキストシステムへのアクセス履歴情報に基づ
    いて該ハイパーテキストシステムを構成するページの組
    に対してページ間アクセス類似度を計算するアクセス傾
    向解析手段と、 当該ページの組に対して各ページに共通して出現する単
    語の頻度に基づいて当該ページの組のページ間内容類似
    度を計算する内容解析手段と、 算出された各ページ組のページ間アクセス類似度とペー
    ジ間内容類似度とを座標系に表示する表示手段と、を備
    え、 ユーザーにハイパーテキストシステムの構成の優劣を視
    覚的に表示することを特徴とするハイパーテキスト解析
    装置。
  6. 【請求項6】 請求項5に記載のハイパーテキスト解析
    装置において、 ページ間アクセス類似度とページ間内容類似度とから見
    て、問題があるハイパーリンク構成のページ組群と問題
    がないハイパーリンク構成のページ組群とを予め訓練デ
    ータとして記憶する訓練データ記憶手段と、 算出された各ページ組のページ間アクセス類似度とペー
    ジ間内容類似度とを訓練データと比較して、当該各ペー
    ジの組の構成の優劣を評価する判別手段と、を備え、 前記表示手段は判断手段による評価結果を表示すること
    を特徴とするハイパーテキスト解析装置。
  7. 【請求項7】 ハイパーテキストシステムを構成するペ
    ージの組について、ユーザが当該ページの組を一連の操
    作でアクセスした度合いを示すページ間アクセス類似度
    と、当該ページの組の内容的な類似度を示すページ間内
    容類似度と、当該ページの組のリンク距離を示すハイパ
    ーリンク遷移数とを解析するハイパーテキスト解析装置
    であって、 ハイパーテキストシステムへのアクセス履歴情報に基づ
    いて該ハイパーテキストシステムを構成するページの組
    に対してページ間アクセス類似度を計算するアクセス傾
    向解析手段と、 前記各ページの組に対して各ページに共通して出現する
    単語の頻度に基づいて当該ページの組のページ間内容類
    似度を計算する内容解析手段と、 前記各ページの組のハイパーリンク遷移数を計算するハ
    イパーリンク解析手段と、 算出された各ページ組のページ間アクセス類似度とペー
    ジ間内容類似度とハイパーリンク遷移数を3次元座標系
    に表示する表示手段と、を備え、 ユーザーにハイパーテキストシステムの構成の優劣を視
    覚的に表示することを特徴とするハイパーテキスト解析
    装置。
  8. 【請求項8】 請求項7に記載のハイパーテキスト解析
    装置において、 ページ間アクセス類似度とページ間内容類似度とハイパ
    ーリンク遷移数とから見て、問題があるハイパーリンク
    構成のページ組群と問題がないハイパーリンク構成のペ
    ージ組群とを予め訓練データとして記憶する訓練データ
    記憶手段と、 算出された各ページ組のページ間アクセス類似度とペー
    ジ間内容類似度とハイパーリンク遷移数とを訓練データ
    と比較して、当該各ページの組の構成の優劣を評価する
    判別手段と、を備え、 前記表示手段は判断手段による評価結果を表示すること
    を特徴とするハイパーテキスト解析装置。
  9. 【請求項9】 請求項1又は請求項2及び請求項5乃至
    請求項8のいずれか1項に記載のハイパーテキスト解析
    装置において、 ハイパーテキストシステムを網羅的にアクセスして自動
    的に情報を収集する探索ロボットを識別して、当該探索
    ロボットのアクセス履歴をアクセス傾向解析手段が用い
    るアクセス履歴情報から排除する識別子整形手段を、有
    することを特徴とするハイパーテキスト解析装置。
  10. 【請求項10】 請求項1乃至請求項4及び請求項7又
    は請求項8のいずれか1項に記載のハイパーテキスト解
    析装置において、 ハイパーリンク解析手段は、ページの組についてそれぞ
    れのページを起点にハイパーリンクの向きを考慮して最
    短で他方のページに到達する経路のハイパーリンク遷移
    数を計算し、その値が小さい方を当該ページの組のハイ
    パーリンク遷移数とすることを特徴とするハイパーテキ
    スト解析装置。
  11. 【請求項11】 ハイパーテキストシステムを構成する
    ページの組について、ユーザが当該ページの組を一連の
    操作でアクセスした度合いを示すページ間アクセス類似
    度と、当該ページの組のリンク距離を示すハイパーリン
    ク遷移数とをコンピュータによって解析させるためのプ
    ログラムを読み取り可能に記憶した記憶媒体であって、 ハイパーテキストシステムへのアクセス履歴情報に基づ
    いて該ハイパーテキストシステムを構成するページの組
    に対してページ間アクセス類似度を計算するアクセス傾
    向解析手段と、 前記各ページの組のハイパーリンク遷移数を計算するハ
    イパーリンク解析手段と、 算出された各ページ組のページ間アクセス類似度とハイ
    パーリンク遷移数を座標系に表示する表示手段と、 をコンピュータに実現させるプログラムを記憶したこと
    を特徴とする記憶媒体。
  12. 【請求項12】 ハイパーテキストシステムを構成する
    ページの組について、当該ページの組の内容的な類似度
    を示すページ間内容類似度と、当該ページの組のリンク
    距離を示すハイパーリンク遷移数とをコンピュータによ
    って解析させるためのプログラムを読み取り可能に記憶
    した記憶媒体であって、 ハイパーテキストシステムを構成するページの組に対し
    て各ページに共通して出現する単語の頻度に基づいて当
    該ページの組のページ間内容類似度を計算する内容解析
    手段と、 前記各ページの組のハイパーリンク遷移数を計算するハ
    イパーリンク解析手段と、 算出された各ページ組のページ間内容類似度とハイパー
    リンク遷移数を座標系に表示する表示手段と、 をコンピュータに実現させるプログラムを記憶したこと
    を特徴とする記憶媒体。
  13. 【請求項13】 ハイパーテキストシステムを構成する
    ページの組について、ユーザが当該ページの組を一連の
    操作でアクセスした度合いを示すページ間アクセス類似
    度と、当該ページの組の内容的な類似度を示すページ間
    内容類似度とをコンピュータによって解析させるための
    プログラムを読み取り可能に記憶した記憶媒体であっ
    て、 ハイパーテキストシステムへのアクセス履歴情報に基づ
    いて該ハイパーテキストシステムを構成するページの組
    に対してページ間アクセス類似度を計算するアクセス傾
    向解析手段と、 当該ページの組に対して各ページに共通して出現する単
    語の頻度に基づいて当該ページの組のページ間内容類似
    度を計算する内容解析手段と、 算出された各ページ組のページ間アクセス類似度とペー
    ジ間内容類似度とを座標系に表示する表示手段と、 をコンピュータに実現させるプログラムを記憶したこと
    を特徴とする記憶媒体。
  14. 【請求項14】 ハイパーテキストシステムを構成する
    ページの組について、ユーザが当該ページの組を一連の
    操作でアクセスした度合いを示すページ間アクセス類似
    度と、当該ページの組の内容的な類似度を示すページ間
    内容類似度と、当該ページの組のリンク距離を示すハイ
    パーリンク遷移数とをコンピュータによって解析させる
    ためのプログラムを読み取り可能に記憶した記憶媒体で
    あって、 ハイパーテキストシステムへのアクセス履歴情報に基づ
    いて該ハイパーテキストシステムを構成するページの組
    に対してページ間アクセス類似度を計算するアクセス傾
    向解析手段と、 前記各ページの組に対して各ページに共通して出現する
    単語の頻度に基づいて当該ページの組のページ間内容類
    似度を計算する内容解析手段と、 前記各ページの組のハイパーリンク遷移数を計算するハ
    イパーリンク解析手段と、 算出された各ページ組のページ間アクセス類似度とペー
    ジ間内容類似度とハイパーリンク遷移数を3次元座標系
    に表示する表示手段と、 をコンピュータに実現させるプログラムを記憶したこと
    を特徴とする記憶媒体。
JP22719299A 1999-08-11 1999-08-11 ハイパーテキスト解析装置 Expired - Lifetime JP3931496B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22719299A JP3931496B2 (ja) 1999-08-11 1999-08-11 ハイパーテキスト解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22719299A JP3931496B2 (ja) 1999-08-11 1999-08-11 ハイパーテキスト解析装置

Publications (3)

Publication Number Publication Date
JP2001052017A true JP2001052017A (ja) 2001-02-23
JP2001052017A5 JP2001052017A5 (ja) 2004-12-24
JP3931496B2 JP3931496B2 (ja) 2007-06-13

Family

ID=16856944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22719299A Expired - Lifetime JP3931496B2 (ja) 1999-08-11 1999-08-11 ハイパーテキスト解析装置

Country Status (1)

Country Link
JP (1) JP3931496B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072549A (ja) * 2005-09-05 2007-03-22 Fuji Xerox Co Ltd コミュニケーション分析装置および方法
JP2010129061A (ja) * 2008-12-01 2010-06-10 Ntt Docomo Inc インデックス生成システム、情報検索システム、及びインデックス生成方法
JP2010157151A (ja) * 2008-12-29 2010-07-15 Kan:Kk アクセス解析システム及びアクセス解析方法
JP2011258235A (ja) * 2004-09-30 2011-12-22 Microsoft Corp クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
JP2011258235A (ja) * 2004-09-30 2011-12-22 Microsoft Corp クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
JP2007072549A (ja) * 2005-09-05 2007-03-22 Fuji Xerox Co Ltd コミュニケーション分析装置および方法
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
JP2010129061A (ja) * 2008-12-01 2010-06-10 Ntt Docomo Inc インデックス生成システム、情報検索システム、及びインデックス生成方法
JP4633162B2 (ja) * 2008-12-01 2011-02-16 株式会社エヌ・ティ・ティ・ドコモ インデックス生成システム、情報検索システム、及びインデックス生成方法
US8285723B2 (en) 2008-12-01 2012-10-09 Ntt Docomo, Inc. System and method for indexing documents and retrieving similar document based on link transition count distance calculations
JP2010157151A (ja) * 2008-12-29 2010-07-15 Kan:Kk アクセス解析システム及びアクセス解析方法
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Also Published As

Publication number Publication date
JP3931496B2 (ja) 2007-06-13

Similar Documents

Publication Publication Date Title
US6665836B1 (en) Method for managing information on an information net
Guo et al. Beyond dwell time: estimating document relevance from cursor movements and other post-click searcher behavior
JP5501373B2 (ja) 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法
US7788261B2 (en) Interactive web information retrieval using graphical word indicators
CN103365839B (zh) 一种搜索引擎的推荐搜索方法和装置
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
Hijikata Implicit user profiling for on demand relevance feedback
US20040220905A1 (en) Concept network
US20100125573A1 (en) Visualizing hyperlinks in a search results list
CN104462336A (zh) 信息推送方法和装置
CN110532351B (zh) 推荐词展示方法、装置、设备及计算机可读存储介质
JP2014527235A (ja) 項目リストの自動検出のための方法、システム、およびコンピュータ・プログラム
CN106682049B (zh) 议题显示系统和议题显示方法
CN110704603A (zh) 一种通过资讯发掘当前热点事件的方法和装置
JP2001052017A (ja) ハイパーテキスト解析装置
Berendt Web usage mining, site semantics, and the support of navigation
CN107885857A (zh) 一种搜索结果页用户行为模式挖掘方法、装置及系统
JP5096850B2 (ja) 検索結果表示方法、検索結果表示プログラムおよび検索結果表示装置
JPH09259138A (ja) 分類情報表示方法及び情報検索装置
US20150193444A1 (en) System and method to determine social relevance of Internet content
JP2004070405A (ja) Webページの風評情報抽出装置
KR20050070955A (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Wormell Informetrics and webometrics for measuring impact, visibility, and connectivity in science, politics, and business
KR20070071906A (ko) 이미지 특허맵 제공 시스템
JP4234841B2 (ja) データ分析装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070305

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110323

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120323

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130323

Year of fee payment: 6