JP3931496B2 - ハイパーテキスト解析装置 - Google Patents

ハイパーテキスト解析装置 Download PDF

Info

Publication number
JP3931496B2
JP3931496B2 JP22719299A JP22719299A JP3931496B2 JP 3931496 B2 JP3931496 B2 JP 3931496B2 JP 22719299 A JP22719299 A JP 22719299A JP 22719299 A JP22719299 A JP 22719299A JP 3931496 B2 JP3931496 B2 JP 3931496B2
Authority
JP
Japan
Prior art keywords
page
pages
hyperlink
similarity
hypertext
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP22719299A
Other languages
English (en)
Other versions
JP2001052017A5 (ja
JP2001052017A (ja
Inventor
雄大 中山
裕樹 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP22719299A priority Critical patent/JP3931496B2/ja
Publication of JP2001052017A publication Critical patent/JP2001052017A/ja
Publication of JP2001052017A5 publication Critical patent/JP2001052017A5/ja
Application granted granted Critical
Publication of JP3931496B2 publication Critical patent/JP3931496B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワーク上に構成されるハイパーテキストシステムにおいて、その構成の優劣を判断するための知識を視覚情報として提示するハイパーテキスト解析装置に関する。
【0002】
【従来の技術】
ネットワーク上に構成されるハイパーテキストシステム(例えば、World Wide Web; 以降Webと略す)では、ハイパーテキストを格納しているWebサーバにおいてユーザー(訪問者)のアクセス履歴を記録することができる。このアクセス履歴には、一般に、アクセスしてきたユーザーが使用しているコンピュータの識別子(インターネットを利用しているのであればIPアドレス)、アクセスしてきた時刻、アクセスしたページ(=ファイル)のサーバ上での識別子(WebではURL)が含まれる。
【0003】
従来、アクセス履歴とハイパーリンク構造を解析して、ハイパーテキストシステム(例えば、Webサイト)の構成の優劣を判断するような知識を得る技術としては、文献(Perkowitz and Etzioni, Adaptive Web Sites: Automatically Synthesizing Web Pages, in Proc. of AAAI-98)に記載された発明や、本願出願人が提案した発明(特願平10−345759号)がある。
【0004】
上記文献に記載された発明は、先ず、サイト上の全てのページ組について、同一ユーザーからのアクセス共起頻度を計算し、予め定められた閾値を超える組を残し、その他を破棄する。さらに、残った組の中から実際にハイパーリンクで連結されている組を破棄する。次に、残った組をアークで連結されたグラフとみなし(双方のページがノードとなる)、各グラフを解析してクリーク(全てのノード間にアークが存在する完全グラフ)を抽出する。このクリークを構成するページ群は、互いに強い関連があるがハイパーリンクで連結されていないものなので、サイト上の劣っている部分を発見できたと解釈することができる。
【0005】
しかしながら、この手法では、多くのユーザーが同一セッションでアクセスしてくる傾向が強いにもかかわらずそれらの間にハイパーリンクが存在しない(そのため、ユーザーはページ間遷移に多くの労力を求められるであろう)ページ群を発見できるが、本来は多くのユーザーから同一セッション(一連のアクセス操作)でアクセスされることを期待して作成されたページ群であるにもかかわらず、ハイパーリンク構造が不適切なため意図通りにアクセスされなかったものを発見することはできない。
さらに、ハイパーリンクの有無によって連結性を測定しているので、実ユーザーがページ間遷移に要する労力を定量的に評価できないという問題もある。例えば、ハイパーリンクの遷移数が2であろうと10であろうとどちらも一様に問題ページとして扱われてしまうが、前者はユーザーにとって問題でないかもしれない。
【0006】
また、特願平10−345759号で提案した発明は、アクセス履歴情報に基づいて、ハイパーテキストシステムを構成するページに対してクラスタリングを行い、得られた各クラスターを構成するページ間のハイパーリンク結束度を計算することにより、ハイパーテキストシステムの構成の優劣を示す指標を得るものである。
しかしながら、この手法では、連結性を定量的に導き出すことができるが、構成の劣ったページ群を明示的に提示することができないものであった。
【0007】
【発明が解決しようとする課題】
本発明は上記従来の事情に鑑みなされたもので、任意のページ組について、同一ユーザーが同一セッションでアクセスしてくる傾向と、ページ間を移動するためのハイパーリンク遷移コストと、ページ間の内容の類似度と、を定量的に測定し、これらの特徴量に基づいて構成の劣ったページ組を明示的に提示することを目的とする。
【0008】
【課題を解決するための手段】
本発明では、ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とを解析することができ、アクセス傾向解析手段がハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算し、ハイパーリンク解析手段が前記各ページの組のハイパーリンク遷移数を計算し、これら算出された各ページ組のページ間アクセス類似度とハイパーリンク遷移数を表示手段が座標系に表示することにより、ユーザーに対してハイパーテキストシステムの構成の優劣を視覚的に表示する。
【0009】
また、本発明は、ハイパーテキストシステムを構成するページの組について、当該ページの組の内容的な類似度を示すページ間内容類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とを解析することができ、内容解析手段がハイパーテキストシステムを構成するページの組に対して各ページに共通して出現する単語の頻度に基づいて当該ページの組のページ間内容類似度を計算し、ハイパーリンク解析手段が前記各ページの組のハイパーリンク遷移数を計算し、これら算出された各ページ組のページ間内容類似度とハイパーリンク遷移数を表示手段が座標系に表示することにより、ユーザーに対してハイパーテキストシステムの構成の優劣を視覚的に表示する。
【0010】
また、本発明は、ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組の内容的な類似度を示すページ間内容類似度とを解析することができ、アクセス傾向解析手段がハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算し、内容解析手段が当該ページの組に対して各ページに共通して出現する単語の頻度に基づいて当該ページの組のページ間内容類似度を計算し、これら算出された各ページ組のページ間アクセス類似度とページ間内容類似度とを表示手段が座標系に表示することにより、ユーザーに対してハイパーテキストシステムの構成の優劣を視覚的に表示する。
【0011】
また、本発明は、ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組の内容的な類似度を示すページ間内容類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とを解析することができ、アクセス傾向解析手段がハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算し、内容解析手段が前記各ページの組に対して各ページに共通して出現する単語の頻度に基づいて当該ページの組のページ間内容類似度を計算し、ハイパーリンク解析手段が前記各ページの組のハイパーリンク遷移数を計算し、これら算出された各ページ組のページ間アクセス類似度とページ間内容類似度とハイパーリンク遷移数を表示手段が3次元座標系に表示することにより、ユーザーに対してハイパーテキストシステムの構成の優劣を視覚的に表示する。
【0012】
さらに、本発明は、訓練データ記憶手段に問題があるハイパーリンク構成のページ組群と問題がないハイパーリンク構成のページ組群とを予め訓練データとして記憶しておき、算出された各ページ組のページ間アクセス類似度やハイパーリンク遷移数やページ間の内容類似度を判別手段が訓練データと比較して評価し、表示手段がこの評価結果を表示する。
さらに、本発明は、識別子整形手段がハイパーテキストシステムを網羅的にアクセスして自動的に情報を収集する探索ロボットを識別して、当該探索ロボットのアクセス履歴をアクセス傾向解析手段が用いるアクセス履歴情報から排除して、ユーザの指向をユーザによるアクセス履歴に基づいて正確に解析できるようにする。
【0013】
さらに、本発明は、ハイパーリンク解析手段がページの組についてそれぞれのページを起点にハイパーリンクの向きを考慮して最短で他方のページに到達する経路のハイパーリンク遷移数を計算し、その値が小さい方を当該ページの組のハイパーリンク遷移数として、ページ間のリンク距離を一元化して処理し易いものとする。
さらに、本発明は、上記のような機能をコンピュータにより実現させるプログラムを読み取り可能に記憶した記憶媒体としても構成される。
【0014】
【発明の実施の形態】
本発明を図に示す実施例に基づいて具体的に説明する。なお、以下に説明する実施例では、ネットワーク上に構成されるハイパーテキストシステムの中で代表的なシステムであるWebを例としている。
図1には、本発明の第1実施例に係るハイパーテキスト解析装置の構成を示してある。なお、以下に説明する各実施例についての同様であるが、本実施例のハイパーテキスト解析装置は、CDROM等の記憶媒体に記憶されたハイパーテキスト解析プログラムをコンピュータにインストールすることにより構成される。
【0015】
図1において、Webサーバ1はネットワーク上で情報を発信する手段であり、Webサーバ1にはユーザーに提供したい情報がページ(=ファイル)とハイパーリンクからなるハイパーテキスト2として貯えられている。
ユーザーはWebサーバ1上のハイパーテキスト2にアクセスすることで情報を入手でき、Webサーバ1では、ユーザーからのアクセスがある毎に、ユーザーのコンピュータを識別するためのコンピュータ識別子(IPアドレス)とアクセス時刻とユーザーのアクセスしたページのあるアドレス(URL)をアクセス履歴情報としてアクセス履歴情報記憶手段3に記録する。
【0016】
アクセス傾向解析手段4は、Webサーバ1上のページに対し、それぞれに対応するアクセス履歴情報を用いて、各ページの組合わせについてページ間アクセス類似度(すなわち、同一セッションでアクセスされる度合い)を計算する。この計算法は既存技術を用いることができ、例えば本願出願人が提案した手法(特願平10−345759号)では、各ページについてIPアドレスを項としその出現頻度を項の値とするようなベクトルを生成して、ベクトル間の内積値の大小をページ間アクセス類似度として用いることができる。
【0017】
ハイパーリンク解析手段5では、前記の各ページの組合わせに対して、そのハイパーリンク遷移数を計算する。具体的には、ページの組{ページA、 ページB}が与えられたときに、ハイパーリンクの向きを考慮しながらページAからページBへの最短経路の遷移数(すなわち、これらページを移動するときに経由するページ数)を計算し、次にページBからページAへの最短経路の遷移数を計算し、両者を比べて小さい方をページ組{ページA、 ページB}のハイパーリンク遷移数とする。
ここで、ページAからページBへの最短経路は、ページAからページBに到達するまで幅優先で深さ(=遷移数)をカウントしながらハイパーリンクを探索すればよい。この探索は、一般には、辿ることができるハイパーリンクが無くなるまで続けられるが、処理効率を上げるために、深さ(=遷移数)が予め決められた閾値に達したところで停止するように設定してもよく、この場合、ページ間の最短経路の遷移数は該閾値とする。
【0018】
表示手段6では、例えばページ間アクセス類似度とハイパーリンク遷移数をそれぞれ横軸、縦軸にとった2次元座標上にページ組の分布をプロット(つまり散布図)して画面に表示する。
図2には、あるWebサイトを解析した結果(ページ間アクセス類似度とハイパーリンク遷移数)の表示の一例を示してある。なお、同図において、プロットされた各点はそれぞれハイパーリンクシステムのページの組である。
【0019】
一般に、ページ間アクセス類似度が大きいページ組(図の右側)は、同一のユーザーから前後してアクセスされる傾向が強いものであるが、そのハイパーリンク遷移数が小さければ(図の下側)ユーザーのブラウジングに要するコストが小さくてすむのでハイパーテキストシステムの構成が優れていると評価でき、逆にハイパーリンク遷移数が大きければ(図の上側)効率よくブラウジングできていないのでハイパーテキストシステムの構成が劣っていると評価できる。
したがって、ユーザーはこれらの評価を同図から視覚的に容易に行うことができる。なお、図2に変更を加えて、ユーザーが指定したページを含む組(対象ページがN個のときN−1個ある)のプロットの色や形を変えることによって、他と識別できるようにしてもよい。
【0020】
図3には、本発明の第2実施例に係るハイパーテキスト解析装置の構成を示してある。なお、上記した実施例と同一部分には同一符号を付して重複する説明は省略する。
本実施例は、訓練データ記憶手段31にユーザーが予め記憶設定した訓練データを利用して、ハイパーテキスト構成の劣ったページ組を明示的に提示するものである。
【0021】
この訓練データは次のようにして生成されて、訓練データ記憶手段31に記録される。
予めユーザーが2つのページ間の内容とハイパーリンク構成のバランスに問題があるか否かを判定しておき、問題があるとされたページ組のサンプル群と、問題がないとされたページ組のサンプル群に対して、それぞれハイパーリンク解析手段5とアクセス傾向解析手段4によって前述の方法で、ページ間アクセス類似度とハイパーリンク遷移数を計算する。
次に、このページ間アクセス類似度とハイパーリンク遷移数をそれぞれ特徴量として、新規(つまり、2つのページ間の内容とハイパーリンク構成のバランスに問題があるか否かが未知)のページ組における内容とハイパーリンク構成のバランスを判定するための訓練データを作成して訓練データ記憶手段31に貯える。
【0022】
この訓練データは、既存の多変量解析技術に基づいて作成される。例えば、線形判別解析では、図4に示すように、座標軸(x1: ページ間アクセス類似度、x2:ハイパーリンク遷移数)に予め人間が判定したサンプル群をプロットしたときに、問題があるか否かの2つの集合を最もよく分離する判別直線Z=ax1+bx2+cを求め(a、b、cにそれぞれ数値が与えられる) 、これを訓練データとして訓練データ記憶手段31に貯える。
【0023】
判別手段32では、新規のページ組(解析対象ページ組)のページ間アクセス類似度(アクセス傾向解析手段4で求められたもの)とハイパーリンク遷移数(ハイパーリンク解析手段5で求められたもの)を訓練データ記憶手段31に貯えられた判別直線の式ax1+bx2+cのx1とx2にそれぞれ代入し、式の値が正であればページ組の内容とハイパーリンク構成のバランスに問題があると判別し、負であれば問題がない判別する。すなわち、判別手段32は解析対象のページの組から得られたページ間アクセス類似度とハイパーリンク遷移数とを訓練データと比較して、構成の優劣を評価する。
【0024】
表示手段6では、判別手段32でハイパーリンク構成に問題があると判別されたページ組のリストを画面表示する。
図5にはこの評価結果表示の一例を示してあり、問題があると判別されたページ組(例えば、{P3,P4})が判別スコア(前記の判別直線の式ax1+bx2+cから得られた値)順にリストで示され、スコアが高いほど問題が大きなページ組であることがユーザーに示されている。
また、図6にはこの評価結果表示の他の一例を示してあり、問題があると判別された全てのページ組の中に出現するページをその頻度順に並べてリストで示される。したがって、頻度が高いページを改善すると、その組となる問題ページ数が多いということなので、Webサイト全体における改善波及効果は大きくなるといえる。
【0025】
図7には本発明の第3実施例に係るハイパーテキスト解析装置の構成を示してあり、図8には本発明の第4実施例に係るハイパーテキスト解析装置の構成を示してある。なお、上記した実施例と同一部分には同一符号を付して重複する説明は省略する。
本実施例は識別子整形手段71を付加したものであり、識別子整形手段71は、アクセスしてきたコンピュータの内で、ユーザー(=人間)によるものではなく情報収集ロボットによるものを排除するためのものである。
【0026】
例えば、ある慣習に従って情報収集ロボットがアクセスする特殊なノード(Webでは、ルート直下に置かれる「robots.txt」という名のファイル)へのアクセスの有無や、短期間に多数のノードを網羅的にアクセスするという情報収集ロボットに特徴的な振る舞いの有無や、既知の情報収集ロボットのコンピュータ識別子であるか否かによって、識別子整形手段71が情報収集ロボットによるアクセスを識別して、該情報収集ロボットのアクセスに関わるアクセス履歴情報をアクセス傾向解析手段4において獲得しないようにしている。
これによって、真の人間によるアクセス履歴に基づいて、ハイパーテキスト構成の優劣を評価することができる。
【0027】
図9には本発明の第5実施例に係るハイパーテキスト解析装置の構成を示してあり、図10には本発明の第6施例に係るハイパーテキスト解析装置の構成を示してある。なお、上記した実施例と同一部分には同一符号を付して重複する説明は省略する。
本実施例は内容解析手段91を付加したものであり、内容解析手段91で、Webサーバ1上のページの組に対して、それぞれのページに共通して出現する単語の頻度に基づいて、各ページの組合わせについてページ間内容類似度を計算する。
【0028】
このページ間内容類似度は、例えば、各ページについて、単語を項としその出現頻度を項の値とするようなベクトルを生成して、ベクトル間の内積値の大小をページ間内容類似度として用いることができる。
なお、内容解析手段91を付加した場合、本実施例の表示手段6では、ページ間アクセス類似度とハイパーリンク遷移数とページ間内容類似度をそれぞれx軸、y軸、z軸にとった3次元座標上に、算出されたページ間アクセス類似度とハイパーリンク遷移数とページ間内容類似度に基づいてページ組の分布をプロット(つまり散布図)して表示する。
【0029】
ここで、図10に示す訓練データ記憶手段31に貯えられる訓練データは、例えば線形判別解析では、3次元座標軸(x1: ページ間アクセス類似度、x2:ハイパーリンク遷移数、x3:ページ間内容類似度)に予め人間が判定したサンプル群をプロットしたときに、問題があるか否かの二つの集合を最もよく分離する判別平面Z =ax1+bx2+cx3+d(a、b、c、dにそれぞれ数値が与えられる)となる。
判別手段32では、解析対象となる新規のページ組のページ間アクセス類似度(アクセス傾向解析手段4で求められたもの)とハイパーリンク遷移数(ハイパーリンク解析手段5で求められたもの)とページ間内容類似度(内容解析手段91で求められたもの)を訓練データ記憶手段31に貯えられた判別平面のax1+bx2+cx3+dのx1とx2とx3にそれぞれ代入し、式の値が正であればページ組の内容とハイパーリンク構成のバランスに問題があると判別し、負であれば問題がない判別する。
【0030】
図11には本発明の第7実施例に係るハイパーテキスト解析装置の構成を示してある。なお、上記した実施例と同一部分には同一符号を付して重複する説明は省略する。
本実施例は、ページの組に対して、内容解析手段91によってページ間内容類似度を算出し、ハイパーリンク解析手段5によってハイパーリンク遷移数を算出して、これら算出されたページ間内容類似度とハイパーリンク遷移数とに基づいて、図12に示すようにハイパーテキストシステムのページ組群を2次元座標系上にプロットして、表示手段6がこれを画面表示する。
これによって、内容の類似度が高い(図の右側)にもかかわらず、ハイパーリンク遷移数が大きい(図面の上側)ページの組が視覚的に容易に把握できる。
【0031】
図13には本発明の第8実施例に係るハイパーテキスト解析装置の構成を示してあり、本実施例は第7実施例に訓練データ記憶手段31と判別手段32とを付加したものである。なお、上記した実施例と同一部分には同一符号を付して重複する説明は省略する。
本実施例では、予めユーザーが2つのページ間の内容とハイパーリンク構成のバランスに問題があるか否かを判定しておき、問題があるとされたページ組のサンプル群と、問題がないとされたページ組のサンプル群に対して、それぞれハイパーリンク解析手段5と内容解析手段91によって前述の方法で、ハイパーリンク遷移数とページ間内容類似度を計算し、このハイパーリンク遷移数とページ間内容類似度をそれぞれ特徴量として、解析対象となる新規のページ組における内容とハイパーリンク構成のバランスを判定するための訓練データを作成して訓練データ記憶手段31に貯える。
【0032】
したがって、本実施例は、ページの組に対して、内容解析手段91とハイパーリンク解析手段5とによって算出されたページ間内容類似度とハイパーリンク遷移数とに基づいて、図14に示すようにハイパーテキストシステムのページ組群を2次元座標系上にプロットし、これらのページ組群を判別手段32が訓練データと比較して評価し、その評価結果を表示手段6が画面表示する。
これによって、構造的な問題のあるページの組が容易に把握できる。
【0033】
図15には本発明の第9実施例に係るハイパーテキスト解析装置の構成を示してある。なお、上記した実施例と同一部分には同一符号を付して重複する説明は省略する。
本実施例は、ページの組に対して、内容解析手段91によってページ間内容類似度を算出し、アクセス傾向解析手段4によってページ間アクセス類似度を算出して、これら算出されたページ間内容類似度とページ間アクセス類似度とに基づいて、図16に示すようにハイパーテキストシステムのページ組群を2次元座標系上にプロットして、表示手段6がこれを画面表示する。
これによって、構造的な問題のあるページの組(例えば、内容の類似度が高い(図の上)にもかかわらず、ページ間アクセス類似度が低い(図の左側))が視覚的に容易に把握できる。
【0034】
図17には本発明の第10実施例に係るハイパーテキスト解析装置の構成を示してあり、本実施例は第9実施例に訓練データ記憶手段31と判別手段32とを付加したものである。なお、上記した実施例と同一部分には同一符号を付して重複する説明は省略する。
本実施例では、予めユーザーが2つのページ間の内容とハイパーリンク構成のバランスに問題があるか否かを判定しておき、問題があるとされたページ組のサンプル群と、問題がないとされたページ組のサンプル群に対して、それぞれアクセス傾向解析手段4と内容解析手段91によって前述の方法で、ページ間アクセス類似度とページ間内容類似度を計算し、このページ間アクセス類似度とページ間内容類似度をそれぞれ特徴量として、解析対象となる新規のページ組における内容とハイパーリンク構成のバランスを判定するための訓練データを作成して訓練データ記憶手段31に貯える。
【0035】
したがって、本実施例は、ページの組に対して、アクセス傾向解析手段4と内容解析手段91とによって算出されたページ間アクセス類似度とページ間内容類似度とに基づいて、図18に示すようにハイパーテキストシステムのページ組群を2次元座標系上にプロットし、これらのページ組群を判別手段32が訓練データと比較して評価し、その評価結果を表示手段6が画面表示する。
これによって、構造的の問題のあるページの組が容易に把握できる。
【0036】
【発明の効果】
以上説明したように、本発明によると、Webサイト上の任意のページ組について、同一ユーザーが同一セッションでアクセスしてくる傾向と、ハイパーリンク遷移コストと、ページ間の内容の類似性とを定量的に測定し、これらの値に基づいてハイパーテキスト構成の優劣を判断できるようにページ組群をユーザに対して表示出力することができる。
さらに、本発明では、これらページ組の算出値と予め用意した訓練データと比較することにより、構成の劣ったページ群を明示的に提示することができ、Webサイト管理するユーザーは容易且つ適切にサイト構成を改善することができる。
【図面の簡単な説明】
【図1】 本発明の第1実施例に係るハイパーテキスト解析装置の構成図である。
【図2】 本発明の第1実施例に係る解析結果表示の一例を示す図である。
【図3】 本発明の第2実施例に係るハイパーテキスト解析装置の構成図である。
【図4】 本発明の第2実施例に係る解析結果表示の一例を示す図である。
【図5】 本発明の第2実施例に係る評価結果表示の一例を示す図である。
【図6】 本発明の第2実施例に係る評価結果表示の他の一例を示す図である。
【図7】 本発明の第3実施例に係るハイパーテキスト解析装置の構成図である。
【図8】 本発明の第4実施例に係るハイパーテキスト解析装置の構成図である。
【図9】 本発明の第5実施例に係るハイパーテキスト解析装置の構成図である。
【図10】 本発明の第6実施例に係るハイパーテキスト解析装置の構成図である。
【図11】 本発明の第7実施例に係るハイパーテキスト解析装置の構成図である。
【図12】 本発明の第7実施例に係る解析結果表示の一例を示す図である。
【図13】 本発明の第8実施例に係るハイパーテキスト解析装置の構成図である。
【図14】 本発明の第8実施例に係る解析結果表示の一例を示す図である。
【図15】 本発明の第9実施例に係るハイパーテキスト解析装置の構成図である。
【図16】 本発明の第9実施例に係る解析結果表示の一例を示す図である。
【図17】 本発明の第10実施例に係るハイパーテキスト解析装置の構成図である。
【図18】 本発明の第10実施例に係る解析結果表示の一例を示す図である。
【符号の説明】
1:Webサーバ、 2:ハイパーテキスト、
3:アクセス履歴情報管理手段、 4:アクセス傾向解析手段、
5:ハイパーリンク解析手段、 6:表示手段、
31:訓練データ記憶手段、 32:判別手段、
71:識別子整形手段、 91:内容解析手段、

Claims (15)

  1. ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とを解析するハイパーテキスト解析装置であって、
    ハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算するアクセス傾向解析手段と、
    前記各ページの組のハイパーリンク遷移数を計算するハイパーリンク解析手段と、
    算出された各ページ組のページ間アクセス類似度とハイパーリンク遷移数を座標系に表示する表示手段と、を備え、
    ユーザーにハイパーテキストシステムの構成の優劣を視覚的に表示することを特徴とするハイパーテキスト解析装置。
  2. 請求項1に記載のハイパーテキスト解析装置において、
    ページ間アクセス類似度とハイパーリンク遷移数とから見て、問題があるハイパーリンク構成のページ組群と問題がないハイパーリンク構成のページ組群とを予め訓練データとして記憶する訓練データ記憶手段と、
    算出された各ページ組のページ間アクセス類似度とハイパーリンク遷移数とを訓練データと比較して、当該各ページの組の構成の優劣を評価する判別手段と、を備え、
    前記表示手段は判断手段による評価結果を表示することを特徴とするハイパーテキスト解析装置。
  3. ハイパーテキストシステムを構成するページの組について、当該ページの組の内容的な類似度を示すページ間内容類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とを解析するハイパーテキスト解析装置であって、
    ハイパーテキストシステムを構成するページの組に対して各ページに共通して出現する単語の頻度に基づいて当該ページの組のページ間内容類似度を計算する内容解析手段と、
    前記各ページの組のハイパーリンク遷移数を計算するハイパーリンク解析手段と、
    算出された各ページ組のページ間内容類似度とハイパーリンク遷移数を座標系に表示する表示手段と、を備え、
    ユーザーにハイパーテキストシステムの構成の優劣を視覚的に表示することを特徴とするハイパーテキスト解析装置。
  4. 請求項3に記載のハイパーテキスト解析装置において、
    ページ間内容類似度とハイパーリンク遷移数とから見て、問題があるハイパーリンク構成のページ組群と問題がないハイパーリンク構成のページ組群とを予め訓練データとして記憶する訓練データ記憶手段と、
    算出された各ページ組のページ間内容類似度とハイパーリンク遷移数とを訓練データと比較して、当該各ページの組の構成の優劣を評価する判別手段と、を備え、
    前記表示手段は判断手段による評価結果を表示することを特徴とするハイパーテキスト解析装置。
  5. ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組の内容的な類似度を示すページ間内容類似度とを解析するハイパーテキスト解析装置であって、
    ハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算するアクセス傾向解析手段と、
    当該ページの組に対して各ページに共通して出現する単語の頻度に基づいて当該ページの組のページ間内容類似度を計算する内容解析手段と、
    算出された各ページ組のページ間アクセス類似度とページ間内容類似度とを座標系に表示する表示手段と、を備え、
    ユーザーにハイパーテキストシステムの構成の優劣を視覚的に表示することを特徴とするハイパーテキスト解析装置。
  6. 請求項5に記載のハイパーテキスト解析装置において、
    ページ間アクセス類似度とページ間内容類似度とから見て、問題があるハイパーリンク構成のページ組群と問題がないハイパーリンク構成のページ組群とを予め訓練データとして記憶する訓練データ記憶手段と、
    算出された各ページ組のページ間アクセス類似度とページ間内容類似度とを訓練データと比較して、当該各ページの組の構成の優劣を評価する判別手段と、を備え、
    前記表示手段は判断手段による評価結果を表示することを特徴とするハイパーテキスト解析装置。
  7. ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組の内容的な類似度を示すページ間内容類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とを解析するハイパーテキスト解析装置であって、
    ハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算するアクセス傾向解析手段と、
    前記各ページの組に対して各ページに共通して出現する単語の頻度に基づいて当該ページの組のページ間内容類似度を計算する内容解析手段と、
    前記各ページの組のハイパーリンク遷移数を計算するハイパーリンク解析手段と、
    算出された各ページ組のページ間アクセス類似度とページ間内容類似度とハイパーリンク遷移数を3次元座標系に表示する表示手段と、を備え、
    ユーザーにハイパーテキストシステムの構成の優劣を視覚的に表示することを特徴とするハイパーテキスト解析装置。
  8. 請求項7に記載のハイパーテキスト解析装置において、
    ページ間アクセス類似度とページ間内容類似度とハイパーリンク遷移数とから見て、問題があるハイパーリンク構成のページ組群と問題がないハイパーリンク構成のページ組群とを予め訓練データとして記憶する訓練データ記憶手段と、
    算出された各ページ組のページ間アクセス類似度とページ間内容類似度とハイパーリンク遷移数とを訓練データと比較して、当該各ページの組の構成の優劣を評価する判別手段と、を備え、
    前記表示手段は判断手段による評価結果を表示することを特徴とするハイパーテキスト解析装置。
  9. 請求項1又は請求項2及び請求項5乃至請求項8のいずれか1項に記載のハイパーテキスト解析装置において、
    ハイパーテキストシステムを網羅的にアクセスして自動的に情報を収集する探索ロボットを識別して、当該探索ロボットのアクセス履歴をアクセス傾向解析手段が用いるアクセス履歴情報から排除する識別子整形手段を、有することを特徴とするハイパーテキスト解析装置。
  10. 請求項1乃至請求項4及び請求項7又は請求項8のいずれか1項に記載のハイパーテキスト解析装置において、
    ハイパーリンク解析手段は、ページの組についてそれぞれのページを起点にハイパーリンクの向きを考慮して最短で他方のページに到達する経路のハイパーリンク遷移数を計算し、その値が小さい方を当該ページの組のハイパーリンク遷移数とすることを特徴とするハイパーテキスト解析装置。
  11. ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とをコンピュータによって解析させるためのプログラムを読み取り可能に記憶した記憶媒体であって、
    ハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算するアクセス傾向解析手段と、
    前記各ページの組のハイパーリンク遷移数を計算するハイパーリンク解析手段と、
    算出された各ページ組のページ間アクセス類似度とハイパーリンク遷移数を座標系に表示する表示手段と、
    をコンピュータに実現させるプログラムを記憶したことを特徴とする記憶媒体。
  12. ハイパーテキストシステムを構成するページの組について、当該ページの組の内容的な類似度を示すページ間内容類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とをコンピュータによって解析させるためのプログラムを読み取り可能に記憶した記憶媒体であって、
    ハイパーテキストシステムを構成するページの組に対して各ページに共通して出現する単語の頻度に基づいて当該ページの組のページ間内容類似度を計算する内容解析手段と、
    前記各ページの組のハイパーリンク遷移数を計算するハイパーリンク解析手段と、
    算出された各ページ組のページ間内容類似度とハイパーリンク遷移数を座標系に表示する表示手段と、
    をコンピュータに実現させるプログラムを記憶したことを特徴とする記憶媒体。
  13. ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組の内容的な類似度を示すページ間内容類似度とをコンピュータによって解析させるためのプログラムを読み取り可能に記憶した記憶媒体であって、
    ハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算するアクセス傾向解析手段と、
    当該ページの組に対して各ページに共通して出現する単語の頻度に基づいて当該ページの組のページ間内容類似度を計算する内容解析手段と、
    算出された各ページ組のページ間アクセス類似度とページ間内容類似度とを座標系に表示する表示手段と、
    をコンピュータに実現させるプログラムを記憶したことを特徴とする記憶媒体。
  14. ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組の内容的な類似度を示すページ間内容類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とをコンピュータによって解析させるためのプログラムを読み取り可能に記憶した記憶媒体であって、
    ハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算するアクセス傾向解析手段と、
    前記各ページの組に対して各ページに共通して出現する単語の頻度に基づいて当該ページの組のページ間内容類似度を計算する内容解析手段と、
    前記各ページの組のハイパーリンク遷移数を計算するハイパーリンク解析手段と、
    算出された各ページ組のページ間アクセス類似度とページ間内容類似度とハイパーリンク遷移数を3次元座標系に表示する表示手段と、
    をコンピュータに実現させるプログラムを記憶したことを特徴とする記憶媒体。
  15. 解析装置に備えられたアクセス傾向解析手段とハイパーリンク解析手段とにより、ハイパーテキストシステムを構成するページの組について、ユーザが当該ページの組を一連の操作でアクセスした度合いを示すページ間アクセス類似度と、当該ページの組のリンク距離を示すハイパーリンク遷移数とを解析するハイパーテキスト解析方法であって、
    アクセス傾向解析手段が、ハイパーテキストシステムへのアクセス履歴情報に基づいて該ハイパーテキストシステムを構成するページの組に対してページ間アクセス類似度を計算し、
    ハイパーリンク解析手段が、前記各ページの組のハイパーリンク遷移数を計算し、
    算出された各ページ組のページ間アクセス類似度とハイパーリンク遷移数を座標系に表示して、ユーザーにハイパーテキストシステムの構成の優劣を視覚的に表示することを特徴とするハイパーテキスト解析方法。
JP22719299A 1999-08-11 1999-08-11 ハイパーテキスト解析装置 Expired - Lifetime JP3931496B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22719299A JP3931496B2 (ja) 1999-08-11 1999-08-11 ハイパーテキスト解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22719299A JP3931496B2 (ja) 1999-08-11 1999-08-11 ハイパーテキスト解析装置

Publications (3)

Publication Number Publication Date
JP2001052017A JP2001052017A (ja) 2001-02-23
JP2001052017A5 JP2001052017A5 (ja) 2004-12-24
JP3931496B2 true JP3931496B2 (ja) 2007-06-13

Family

ID=16856944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22719299A Expired - Lifetime JP3931496B2 (ja) 1999-08-11 1999-08-11 ハイパーテキスト解析装置

Country Status (1)

Country Link
JP (1) JP3931496B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) * 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
JP4892896B2 (ja) * 2005-09-05 2012-03-07 富士ゼロックス株式会社 コミュニケーション分析装置および方法
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
JP4633162B2 (ja) 2008-12-01 2011-02-16 株式会社エヌ・ティ・ティ・ドコモ インデックス生成システム、情報検索システム、及びインデックス生成方法
JP2010157151A (ja) * 2008-12-29 2010-07-15 Kan:Kk アクセス解析システム及びアクセス解析方法
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Also Published As

Publication number Publication date
JP2001052017A (ja) 2001-02-23

Similar Documents

Publication Publication Date Title
US6665836B1 (en) Method for managing information on an information net
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
JP4116329B2 (ja) 文書情報表示システム、文書情報表示方法及び文書検索方法
Senkul et al. Improving pattern quality in web usage mining by using semantic information
Feng et al. Patterns and pace: Quantifying diverse exploration behavior with visualizations on the web
KR100859918B1 (ko) 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치
CN108763486A (zh) 基于终端的论文查重方法、终端及存储介质
CN105279277A (zh) 知识数据的处理方法和装置
CN111639258B (zh) 一种基于神经网络的新闻推荐方法
JP3931496B2 (ja) ハイパーテキスト解析装置
CN108647729B (zh) 一种用户画像获取方法
JPWO2005038672A1 (ja) 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置
CN110580489B (zh) 一种数据对象的分类系统、方法以及设备
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
KR20160104064A (ko) 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템
JP2005107688A (ja) 情報表示方法及びシステム及び情報表示プログラム
Berendt Web usage mining, site semantics, and the support of navigation
de Moura et al. Using structural information to improve search in Web collections
JP2008146293A (ja) 閲覧対象情報の評価システム、方法、およびプログラム
US20130268833A1 (en) Apparatus and method for visualizing hyperlinks using color attribute values
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Chakraborty et al. Clustering of web sessions by FOGSAA
Mezghani et al. Analyzing tagged resources for social interests detection
JP5135174B2 (ja) 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム
KR20130021945A (ko) 상품 정보 자동 추출 방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070305

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110323

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120323

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130323

Year of fee payment: 6