JP4400147B2 - 文書群構造データ作成装置及び方法 - Google Patents

文書群構造データ作成装置及び方法 Download PDF

Info

Publication number
JP4400147B2
JP4400147B2 JP2003306898A JP2003306898A JP4400147B2 JP 4400147 B2 JP4400147 B2 JP 4400147B2 JP 2003306898 A JP2003306898 A JP 2003306898A JP 2003306898 A JP2003306898 A JP 2003306898A JP 4400147 B2 JP4400147 B2 JP 4400147B2
Authority
JP
Japan
Prior art keywords
tree structure
document
page
hypertext
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003306898A
Other languages
English (en)
Other versions
JP2005078296A (ja
Inventor
明 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003306898A priority Critical patent/JP4400147B2/ja
Priority to US10/866,686 priority patent/US7975218B2/en
Publication of JP2005078296A publication Critical patent/JP2005078296A/ja
Application granted granted Critical
Publication of JP4400147B2 publication Critical patent/JP4400147B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、ハイパーリンク構造をなす文書群の関係を木構造で表現するための装置及び方法に関する。
WWW(ワールド・ワイド・ウェブ)上の文書群は、文書をノードとし、文書間のリンクをアークとするハイパーテキスト構造(ハイパーリンク構造とも呼ばれる)をなしている。このハイパーテキスト構造は、リンクにより任意の文書を容易に結びつけることができるという利点があるが、基本的にネットワーク構造であるため、文書数が増えて文書間の関係が複雑になると、人間が文書間の関係を把握することが困難となる。
これに対し、ハイパーテキスト構造を木(ツリー)構造に簡素化して表示する方法が従来より用いられている。このような方法の1つとして特許文献1に示されるものがある。この方法では、ハイパーテキスト構造において1つのノード(仮に「A」とする)に対して複数のノードからリンクが張られている場合、これを木構造に変換する際には、それら複数のノードのうちの1つを選び、ノードAをその選んだノードの子として配置し、ノードAへとリンクしている他のノードには、ノードAを示す参照用のノードを子として配置する。この処理では、ハイパーテキスト構造のリンクをたどっていく際、最初にノードAに到達した時のリンク元ノードを木構造上での実ノードAの親とする。参照用のノードは、木構造を構成する実ノードとは異なる表示をする。これら参照用のノードは実ノードAと同じ文書を指すものであるが、木構造上での関係は実ノードAに代表して示すので、参照用のノードは子ノードを持たない。
また、特許文献2にも、同様にハイパーテキスト構造を木構造の図式で表示する装置が開示されている。
また、アドビシステムズ社のウェブサイト管理ツールである「GoLive」は、WWW上で始点文書を指定すると、その文書から順にリンクをたどって行くことでハイパーテキスト構造を調べ、そのハイパーテキスト構造中の1文書を指定すると、そのハイパーテキスト構造からその文書を根ノードとする木構造を作成して表示する機能を備えている。
このような従来方法では、ハイパーテキスト構造を木構造に変換して表示する場合、ある文書が木構造上でどの位置に来るか、すなわちハイパーテキスト構造上でのリンク元の複数のノードのうちのどのノードの子となるか、は、ハイパーテキスト構造のリンクをたどる順序に依存する。このため、文書の木構造上での位置は、文書それ自体が変更されなくても、別の文書のリンク記述の変更によって変化し得る。木構造上で実ノードの位置が変わると、その実ノードから広がるサブツリー内の全ノードの位置が変化する。このようなことから、ユーザがある文書の木構造上での位置を覚えておき、後で再びその文書にアクセスしようとしても、その文書の木構造上での位置が変化したため探索が困難になるという問題がある。
また、ハイパーテキストのリンクは自由に設定することができるため、ハイパーテキスト構造から作成した木構造は、文書群の概念的な分類とは直接的には無関係である。このため、例えばウェブサイト内の文書群の関係を、ハイパーテキスト構造から作成した木構造で示したとしても、必ずしもユーザにとって分かりやすく覚えやすい表示とはならなかった。例えば、ウェブサイトのトップページには、下位分類のインデックスページへのリンクに加え、雑多な更新情報へのリンクが示されており、これを単純に木構造で表現すると、概念レベルの異なるインデックスページと更新情報ページとが同列に示されることになり、分かりにくい。
特開平6−35657号公報 特開2002−288225号公報
本発明は、これら従来技術の問題点の少なくとも1つを解決することを目的とする。
本発明は、階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す木構造データを作成するための装置であって、ユーザからの入力に基づき、前記木構造において位置固定する複数の文書を基準文書として特定する基準文書特定手段と、前記各基準文書の前記ディレクトリ構造内での位置情報に基づき、前記各基準文書間の階層関係を表す上部木構造データを作成する上部木構造作成手段と、前記各基準文書を起点として前記ハイパーテキスト構造のリンクをたどることにより、前記各基準文書を根ノードとする文書群の木構造を示す各下部木構造データをそれぞれ作成する下部木構造作成手段と、前記上部木構造データと前記各下部木構造データとを組み合わせることで前記ハイパーテキスト構造を表す木構造データを作成する木構造合成手段と、を含む文書群構造データ作成装置を提供する。
この構成において、基準文書を特定する際の基礎となる「ユーザの入力」は、例えばそれら各基準文書のディレクトリ構造上での格納位置(例えばURL)の情報である。また、この他にも、ウェブサイトの指定と階層数との組合せを「ユーザの入力」として受け付け、その組合せに基づいて基準ページ群を特定することもできる(詳細は後述)。
本発明の好適な態様では、前記下部木構造作成手段は、ある基準文書を起点として前記ハイパーテキスト構造のリンクをたどっていく際に検出したリンク先の文書を、該基準文書を根ノードとする下部木構造に組み込むか否かを判定する判定手段を含み、該判定手段は、前記起点とする基準文書が格納されるディレクトリが、前記複数の基準文書の各々が格納されるディレクトリのうち、前記階層的なディレクトリ構造において前記リンク先の文書の格納位置に対して最も近い祖先である場合に、該リンク先の文書を前記起点とする基準文書を根ノードとする下部木構造に組み込むと判定する。
ここで、「最も近い祖先」には、前記リンク先の文書が格納されるディレクトリ自身も含まれるものとする。
以下、本発明を実施するための最良の形態(以下、実施形態と呼ぶ)を、図面を参照して説明する。
図1は、本発明に係る文書群構造データ作成装置の機能ブロック図である。この構成において、リンク情報収集部10は、ウェブページ群のハイパーテキスト構造を求める機能モジュールである。リンク情報収集部10は、例えば、インターネット上にあるウェブページ中のリンク記述をたどって行くことで、ウェブページ間のリンク関係の情報(すなわちハイパーテキスト構造)を求める。リンク情報収集部10は、例えば、ロボット検索エンジンのクローラーの同様の技術を用いて構築することができる。リンク情報収集部10は、定期的に、あるいは所定の収集開始条件が満足される毎に、リンク情報の収集処理を実行する。リンク情報収集部10がリンク情報の収集を行う範囲を、例えば予め登録された1乃至複数のドメインに限定しておけば、リンク情報収集部10によるリンク情報の収集処理を比較的短時間で済ませることができる。
リンク情報収集部10で求められたハイパーテキスト構造の情報は、ハイパーテキストモデル記憶部12に記憶される。ハイパーテキストモデル記憶部12には、ハイパーテキスト構造の情報として、例えば、各ウェブページのURL(Uniform Resource Locator)とそれら各ウェブページ間のリンク関係の情報が記憶される。ハイパーテキストモデル記憶部12に記憶された情報は、リンク情報収集部10により収集処理が実行されるたびに更新される。
要求処理部14は、この文書群構造データ作成装置に対してLAN(ローカルエリアネットワーク)やインターネットなどのデータ通信ネットワークを介して接続されたクライアント装置から、木構造データの要求(木構造要求100)を受け付けて処理する機能モジュールである。木構造要求100は、木構造において基準位置とすべき複数のウェブページのURLを含む。要求処理部14は、例えば、基準位置とすべき複数のウェブページのURLを入力するための入力画面をウェブページとしてクライアント装置に提供する機能を備える。この場合、クライアント装置を操作するユーザは、その入力画面上で、基準位置とすべき各ウェブページのURLを入力する。この入力が終了し、ユーザが該入力画面上に設けられた送信ボタンを選択すると、このようにして入力された複数のURLを含む木構造要求100のデータが、クライアント装置からこの文書群構造データ作成装置へと送信される。
木構造要求100を受け取った要求処理部14は、その要求に含まれる、基準位置とすべきウェブページ(以下「基準ページ」と呼ぶ)を示すURL群をモデル探索部16に提供する。
モデル探索部16は、要求処理部14から受け取った各基準ページのURLに基づき、上部木構造と下部木構造とを作成する。
まず、上部木構造の作成処理では、モデル探索部16は、それら各基準ページのURLの比較に基づき、上部木構造を作成する。すなわち、この作成処理では、まず各基準ページごとに、当該ページのURLから当該ページが属するディレクトリを求める。リソースのURLは、そのリソースを得るためのプロトコル名("http")と、そのリソースが格納されているホスト装置の名前と、該ホスト装置のファイルシステムにおけるそのリソースまでのパスとの組合せで構成される。したがって、基準ページのURLから、該URLのパス部分の末尾に示されるファイル名を削除すると、残った文字列は該基準ページが属する仮想的なディレクトリ(以下単に「ディレクトリ」という)を示していると捉えることができる。そして、各基準ページが属するディレクトリ同士のディレクトリ階層構造上での上下関係に基づき、上部木構造を作成する。上部木構造を構成する各ノードは、各基準ページが属するディレクトリにそれぞれ対応する。したがって、ある基準ページのファイルが格納されているディレクトリ(仮にディレクトリaとする)が、別の基準ページのファイルが格納されているディレクトリ(仮にディレクトリbとする)の下位ディレクトリであれば、上部木構造では、ディレクトリaに対応するノードは、ディレクトリbに対応するノードの子孫のノードになる。ここで、各基準ページが属する各ディレクトリの中に、ディレクトリ階層上でディレクトリaとディレクトリbとの間に位置するディレクトリがなければ、上部木構造ではディレクトリaはディレクトリbの子ノードになる。このようにモデル探索部16は、木構造要求100に含まれる各基準ページのファイルが格納されたディレクトリ群の中で、ディレクトリ階層構造(すなわりツリー構造)上で直近の関係となるディレクトリ同士を、上部木構造上では親子関係で結ぶ。このような処理により、上部木構造が作成される。
このようにして作成された上部木構造は、基準ページが格納されたディレクトリ同士の階層構造を示している。作成された上部木構造は、木構造データ合成部18に提供される。
次に下部木構造の作成処理では、モデル探索部16は、ハイパーテキストモデル記憶部12に記憶されたハイパーテキスト構造のリンクを探索することにより、それら各基準ページをそれぞれ起点とした下部木構造を求める。例えば基準ページが3つあれば、下部木構造は3つ作成される。
下部木構造は、基準ページを起点としたウェブページ群のハイパーテキスト構造を木構造で表現したモデルである。基準ページを起点としたハイパーテキスト構造は、ハイパーテキストモデル記憶部12に記憶されたハイパーテキスト構造の一部である。下部木構造では、基準ページが根ノードとなり、基準ページからリンクされているリンク先のウェブページがその根ノードの子ノードとなり、以降各ノードのウェブページのリンク先のページが当該ノードの子ノードとなる。
この個々の下部木構造を作成する処理は、基本的には、特許文献1や2に示される従来装置の処理と同じでよい。ただし、従来装置では、同じウェブページAが他の複数のウェブページからリンクされている場合、ハイパーテキスト構造のリンクを辿っていく際に該ウェブページAに最初に到達した際のリンク元のウェブページを、該ウェブページAの木構造上での親ノードと決めたのに対し、このモデル探索部16はそれとは異なった方式でウェブページ間の木構造での親子関係を決定する。
すなわち、モデル探索部16は、ハイパーテキスト構造のリンクを辿る際に検出されるリンク先のウェブページの格納位置を示すURLと、各基準ページが格納されるディレクトリ(これらは各基準ページのURLから求められる)との比較に基づき、該リンク先のウェブページをどの基準ページを根ノードとする下部木構造に組み込むかを決定する。この処理は例えば以下のような流れとなる。
複数の基準ページのうちのある基準ページ(識別のためこれを注目基準ページと呼ぶ)を根ノードとする下部木構造を作成する場合を考える。この場合、モデル探索部16は、注目基準ページを起点としてハイパーテキスト構造のリンクを辿っていく際に、リンク先のウェブページを検出するたびに、注目基準ページを根ノードとする下部木構造にそのリンク先ページを組み込むか否かを判断する。この判断では、ディレクトリの階層構造、すなわちこの場合はURLの階層構造において、注目基準ページが格納されるディレクトリが、ユーザの指定した各基準ページ(注目基準ページも含む)が格納されるディレクトリのうちで、そのリンク先ページのURLの最も近い祖先であるかどうかを判断する。この判断では、例えば、各基準ページが格納されるディレクトリのうちURLがリンク先ページのURLと最も長く一致するものが、注目基準ページが格納されたディレクトリである場合、この注目基準ページのディレクトリがリンク先ページの最も近い祖先であると判断出来る。このように、注目基準ページのディレクトリがリンク先ページの最も近い祖先であると判断した場合には、そのリンク先ページを当該注目基準ページを根ノードとする下部木構造に実ノードとして組み込む(すなわちそのリンク先ページをリンク元ページの子ノードとする)。そして、そのリンク先ページから先に対して、ハイパーテキスト構造の探索を続ける。
逆に、注目基準ページのディレクトリがリンク先ページの最も近い祖先でない場合は、そのリンク先ページは注目基準ページを起点とする下部木構造には組み込まない。この場合、注目基準ページを起点とする下部木構造を作成する処理の中では、そのリンク先ページから先のハイパーテキスト構造の探索は行わない。該リンク先ページから先のハイパーテキスト構造の探索は、該リンク先ページを実ノードとして含む別の下部木構造を作成する処理の中で実行される。
この方法によれば、ハイパーテキスト構造のリンクを探索する順序を仮に変えたとしても(インターネット上での各ウェブページの格納場所に変化がない限りにおいては)、木構造上での各ウェブページに対応するノードの位置は変わらない。
モデル探索部16は、以上に説明した処理を基準ページ毎に繰り返すことで、各基準ページごとに、該基準ページを根ノードとした下部木構造を作成する。作成された複数の下部木構造の情報は、木構造データ合成部18に提供される。
木構造データ合成部18は、モデル探索部16から受け取った上部木構造と複数の下部木構造とを合成して、木構造要求100に対応する全体の木構造をしめす木構造データを作成する。
この合成処理では、各下部木構造の根ノードを、上部木構造のノードとリンクする。すなわち、上部木構造のノードに対し、そのノードに対応するディレクトリに格納された基準ページに対応する下部木構造の根ノードを、子ノードとして接続する。
作成された木構造データ102は、要求処理部14により、木構造要求100の送信元のクライアント装置に対し送信される。
以上、本発明に係る文書群構造データ作成装置の機能面での構成の一例を説明した。このような文書群構造データ作成装置は、一般的なコンピュータシステムを利用して構築することができる。例えば、典型的なコンピュータシステムは、図2に示すように、CPU(中央演算ユニット)20、RAM(ランダムアクセスメモリ)22、HDD(ハードディスクドライブ)24及びLANインタフェース26が、バス28を介して相互接続されている。図2のコンピュータシステムのHDD24に、図1の各機能モジュール10,14,16,18の機能を記述したプログラムをインストールすれば、図1の文書群構造データ作成装置が得られる。CPU20が、RAM22を利用してそのプログラムを実行することで、上述の各機能が実現される。この装置は、LANインタフェース26を介して、ローカルエリアネットワークへ、そしてインターネットへと接続されており、LAN又はインターネット上にあるクライアント装置から木構造要求100を受け付けることができる。
次に、この文書群構造データ作成装置が実行する処理の内容を、具体例を用いて説明する。
図3は、ある企業「ABCD株式会社」のウェブサイトのトップページをブラウザに表示した時の、ブラウザの表示ウインドウの表示例を示している。このトップページには、「商品」、「ダウンロード」といったカテゴリ別のインデックスページ(目次ページ)へのリンク32a、32bの他に、新着情報を示したウェブページへのリンク34a,34bを含んでいる。
図4は、「ABCD株式会社」のウェブサイトのウェブページ群が構成するハイパーテキスト構造を示した図である。ノード40−1,40−2,・・・,40−11は、それぞれ該サイト内のウェブページを示す。そして、それらノード40同士を結ぶ矢印42は、ウェブページ間のリンクを示す。矢印の根本に位置するノードがリンク元のページであり、矢印の先端(すなわち矢じり側)に位置するノードがリンク先のページである。例えば、トップページ40−1は、商品ページ40−2,ダウンロードページ40−3,商品Cのページ40−6,及び商品Aのドライバをダウンロードするためのページ40−9に対するリンクを有している。図4は、図1のハイパーテキストモデル記憶部12に記憶されるハイパーテキスト構造の一例とも言える。
従来装置が図4のハイパーテキスト構造から木構造を作成した場合、例えば図5に示すような構造ができる。この例は、トップページ50−1を起点に作成した木構造であり、トップページ50−1が木全体の根ノードとなっている。この根ノードの子ノードは、商品ページ50−2,ダウンロードページ50−3,商品Cのページ50−6,及び商品Aドライバダウンロードページ50−9の4つを有している。以下、各ノードは、リンク先のページを子ノードとして有している。ただし、リンク先のページでも、既に木構造のノードとして登録済みのものは、該登録済みのノードに対応する参照ノード(図5の例では「コピー」)51−1〜51−5となる。参照ノードは子ノードを持たない。このような参照ノードに対し、木構造上に登録したノードは実ノードと呼ぶ。実ノードは、子ノードを持ち得る。例えば、図4のハイパーテキスト構造では、商品ページ40−2は、商品A〜Cの各ページ40−4,40−5,40−6へとリンクしているが、そのうち商品Cのページ40−6は、図5の木構造では、既にトップページ50−1の子ノード50−6として登場しているので、木構造上での商品ページ50−2の子には、商品Cのページのコピー51−1が参照ノードとしてリンクされている。これに対し、商品A及びBのページ50−4,50−5は、初出なので実ノードとして木構造に組み込まれている。
このような従来手法による木構造を、例えばブラウザのナビゲーションウインドウに表示した場合、個々のカテゴリを代表する商品ページ50−2やダウンロードページ50−3と、カテゴリに属する個別記事を表すに過ぎない商品Cのページ50−6や商品Aドライバダウンロードページ50−9とが、トップページ50−1の直下という同じ階層レベルに表示される。このように異なる概念レベルのウェブページが同一階層に表示されると、ユーザにはページ同士の概念的な関係が把握し難い。これでは、ユーザが木構造で所望のウェブページを探すのに不便である。例えばディレクトリの木構造を表示するファイル管理画面では、画面の面積の制限上、木構造全体を表示するのではなく、最上位の1階層のノード群のみを表示し、そのノード群の中で所望のノードをクリックすると、該ノードの子ノード群が表示されるという表示方式をとる場合が多い。ウェブページのナビゲーションウインドウで、図5の木構造を表示するのにそれと同様の表示方式をとった場合、どのような順序でノードを辿っていけば所望のページに達することができるのか、ユーザに推測しにくい。
また、トップページの新着情報は随時更新されるので、ある時商品Cのページ50−6がトップページ50−1の直下にあるとユーザが記憶したとしても、時間が経てばそのページ50−6は他のノードの直下に移動してしまう。このため、ユーザにとってはアクセスしたいウェブページが木構造上で探しにくくなる場合があった。
これに対し、本実施形態の文書群構造データ作成装置で作成した木構造は、図6に示すようなものとなる。図6に示す例は、ユーザが図4のハイパーテキスト構造のうちの「ABCD会社トップページ」、「商品ページ」、及び「ダウンロードページ」の3つを基準ページとして指定したときに作成される木構造である。
図6の例では、基準ページである「ABCD会社トップページ」、「商品ページ」、及び「ダウンロードページ」がそれぞれ属する仮想的なディレクトリ60−1("http://abcd.co.jp/"),60−2("http://abcd.co.jp/product/"),60−3("http://abcd.co.jp/download/")が、上部木構造を構成している。例えば、ディレクトリ"http://abcd.co.jp/product/"は、ディレクトリ"http://abcd.co.jp/"の直接の下位にあるので、上部木構造ではディレクトリ60−1の子がディレクトリ60−2となっている。
また、図6の例では、下部木構造群として、基準ページであるABCD会社トップページ66−1,商品ページ66−2及びダウンロードページ66−6をそれぞれ根ノードとしたサブツリー(部分木)65−1,65−2及び65−3が含まれる。これら各サブツリー65が、それぞれ基準ページを起点とした下部木構造である。
これら各サブツリー65は、従来装置による木構造のサブツリーと比較した場合、ウェブページの概念分けをよりよく示したものになる場合が多い。これは次のような理由からである。
すなわち、まず、一般にウェブデザイナーがウェブサイトを設計する場合、データ管理の効率性から言って、個々のウェブページを記述したファイルを行き当たりばったりの場所(ディレクトリ)に保存するよりは、概念的に整理したディレクトリ構造を作成し、各ウェブページのファイルをそのディレクトリ構造中の適切なディレクトリに保存することの方が多いと言える。理想的なケースでは、ウェブページ群が保存されるディレクトリ群の階層構造は、それらウェブページ群が構成する階層的な概念分類を表現したものとなる。現実はこのように理想的なディレクトリ構造をなしているばかりとは限らないが、後々のデータ管理の効率を少しでも考慮すれば、ディレクトリ構造は多かれ少なかれウェブページ群の概念分類を反映したものとなる。一方、本実施形態の文書群構造データ作成装置では、基準ページのノードの下位(子孫)には、その基準ページが属するディレクトリ、又はこのディレクトリの下位のディレクトリ群に属するウェブページのノードしか現れない。したがって、基準ページを根ノードとするサブツリーは、該基準ページが保存されたディレクトリに対応する概念分類に属するページ群を示していると捉えることができる。
このように本実施形態の装置が作成する木構造では、各サブツリー65が概念分けされているので、ユーザがその木構造上で所望のウェブページを探すことが容易になる。
例えば、「商品Cのページ」は、従来装置による木構造(図5参照)では「ABCD会社トップページ」の子ノードであったが、図6の木構造では、「商品ページ」66−2の子ノード66−5となっている。本実施形態の装置によれば、仮にハイパーテキスト構造のリンクを辿る際に先に「ABCD会社トップページ」から「商品Cのページ」へのリンクを検出した場合でも、「ABCD会社トップページ」のディレクトリ60−1のURLよりも「商品ページ」のディレクトリ60−2のURLの方が、「商品Cのページ」66−5のURLに近いので、「商品Cのページ」は木構造上での「ABCD会社トップページ」の子ノードとならない。これは、ウェブサイトに商品の情報を保存するディレクトリが作成されており、インデックス情報を示す「商品ページ」と、個々の商品情報を示す「商品Aのページ」などのページがそのディレクトリに保存されているためである。本実施形態では、このようにウェブサイトのディレクトリ構造に従って、すなわちウェブページの概念階層構造に従って分離された、サブツリー65−1,65−2,65−3を作成することができる。
そして、図6の木構造では、上部木構造の各ノード60−1,2,及び3に対し、それぞれサブツリー65−1,2,3の根ノード66−1,2,3がそれぞれ子ノードとして接続されている。
なお、図6の例では、上部木構造の1つのノードに対し、サブツリーの1つの根ノードが接続されているが、これはあくまで一例である。同じディレクトリに格納された複数のウェブページが基準ページに指定された場合、それら各基準ページを起点としてサブツリーが形成されるので、上部木構造の当該ディレクトリのノードはそれら複数のサブツリーの根ノードに対して接続されることになる。
図6の木構造をウェブページのナビゲーション画面に表示すれば、少なくとも上部木構造の部分では、同じ階層には概念レベルが等しいディレクトリ群のノードが示される。また、下部木構造の基準ページのノードは上部木構造のノードにリンクされ、その上部木構造はハイパーテキスト構造のリンクよりも変更されにくいディレクトリ構造(すなわちURLの階層構造)によって決まるので、全体的な木構造での基準ページの位置は変更されにくい。また、上部木構造のノードから延びるサブツリー65には、同じディレクトリ、従って同じ概念分類、に属するウェブページ群のノードが含まれる。また、ウェブページに記述されるリンクは更新により様々に変化するが、ウェブページのファイル自身の格納場所はリンクに比べて変化しにくいと考えられるので、図6の木構造では、従来手法の木構造に比べて、個々のウェブページの位置が変化しにくいといえる。このようなことから、この木構造を用いれば、ユーザは、所望のウェブページを探索するのが容易になる。
図7A及び図7Bは、図6の木構造を表すデータの一例を示している。
図7Aは、全体の木構造のうちの上部木構造のデータ内容を示している。このデータは、上部木構造を構成するノードの識別情報であるノードID700,該ノードに対応するディレクトリのURL702,及び該ノードの子ノードの情報704を含んでいる。子ノードの情報704には、該ノードが持つ各子ノードのノードIDが含まれる。上部木構造のノードの子ノードには、上部木構造中の他のノード(ディレクトリ)と、下部木構造の根ノード(ウェブページ)の2種類のノードが含まれ得る。このうち、下部木構造の根ノードを子ノードの情報704に組み込まれていることにより、上部木構造と下部木構造とが併合されている。
一方、図7Bは、全体の木構造のうちの下部木構造のデータ内容を示している。このデータは、下部木構造を構成するノードの識別情報であるノードID710,該ノードに対応するディレクトリのURL712,該ノードの表示データ713、及び該ノードの子ノードの情報714を含んでいる。子ノードの情報714には他のウェブページのノードIDが示される。また、表示データ713は、木構造の表示において当該ノードの説明として付加する文字列である。表示データ713としては、例えば当該ノードに対応するウェブページのタイトルタグの文字列を用いることができる。なお、上部木構造のノードはディレクトリであってウェブページではないのでタイトルタグの文字列は存在しない。このため、上部木構造のノードの表示には、例えば該ノードのURL全体、或いはそのURLの末尾のディレクトリなどを示す文字列を識別のために付せばよい。
このように、本実施形態の装置による木構造データは、ディレクトリ構造から導かれる上部木構造と、ハイパーテキスト構造から導かれる下部木構造群とを併合したものとなる。リンクが変更されても、上部木構造はほぼ固定的であるため、木構造上での基準ページの位置はほぼ固定的である。このように、基準ページの木構造上での位置がほぼ固定されるので、ユーザにとってはウェブページの探索が容易になる。また本実施形態の装置による木構造データでは、下部木構造は随時更新されるリンク構造を反映したものとなる。
なお、図6の木構造では、ハイパーテキスト構造上でリンクがあっても、それは必ずしも木構造上に表現されなかった。例えば、ハイパーテキスト構造では「ABCD会社トップページ」が「商品Cのページ」にリンクしていても、そのリンクは木構造には示さなかった。しかし、これはあくまで一例である。この代わりに、従来手法と同様、「商品Cのページ」を、「ABCD会社トップページ」のノード66−1の直下に参照ノードとして接続することもできる。なお、「商品Cのページ」を示す実ノード66−5は「商品ページ」のノード66−2の直下にある。このように、リンク元のページとリンク先のページとがディレクトリ構造に基づく概念分類で異なる分類(サブツリー)に属する場合、木構造上で、リンク先のページを参照ノードとしてリンク元のページの実ノードに接続するようにすれば、ページ間のリンク関係も分かりやすくなる。この場合、木構造の表示では、参照ノードと実ノードとは異なる表示形態で表示する。
図8に、このような参照ノードを含んだ下部木構造群を示すデータの例を示す。この例では、図7Bに示したデータ項目に加え、ノードが実ノードであるか参照ノードであるかを示すノード種別716が含まれる。また、子ノード714には、参照ノードのノードIDも記述される。
以上に説明した実施形態は、あくまで例示のためのものであり、本発明の範囲内で様々な変形例が考えられる。
例えば、上記実施形態では、ウェブページのハイパーテキスト構造をいったんハイパーテキストモデル記憶部12に記憶し、ユーザから木構造要求100があった場合は、そのハイパーテキストモデル記憶部12を探索して木構造データを作成したが、この代わりにユーザから木構造要求100に応じてモデル探索部16がインターネットを直接探索して木構造データを作成してもよい。
また、図4のハイパーテキスト構造において、商品Cのページ40−6に、商品Cのプレスリリースページ(http://abcd.co.jp/release/c.html)へのリンクが記述されていたとする。この場合、商品CのプレスリリースページのURL「http://abcd.co.jp/release/c.html」は、商品Cのページの上位の上部木構造ノード60−2(図6)の下位ではない。また、他の基準ページからリンクを辿ってそのプレスリリースページに到達することもできないとする。このような場合、上述の処理では、そのプレスリリースページは、ユーザから指定された基準ページを起点とする下部木構造のどれにも属さないことになる。このようにハイパーテキスト構造の探索中に、ユーザから指定された基準ページを起点とする下部木構造のどれにも属さないウェブページが現れた場合、モデル探索部16は、そのウェブページを基準ページと見なし、そのページのファイルが格納されたディレクトリを示すノードを新たに上部木構造に加え、該ページを根ノードとする下部木構造を作成する。上部木構造に追加するノードは、既存の他のノードとのディレクトリ構造上での階層関係を反映した形で上部木構造に組み込む。またこのウェブページに対するリンク元のページに対しては、下部木構造において、そのウェブページを表す参照ノードを子ノードとして接続する。
また、上記実施形態では、木構造を要求する際に、ユーザに複数の基準ページを指定させたが、これも必須ではない。例えば、予め文書群構造データ作成装置に対し、1つのウェブサイトに対する複数の基準ページを登録しておけば、ユーザは所望するウェブサイトを指定するだけで、そのウェブサイトについて本実施形態の木構造データを得ることができる。1つのウェブサイトに対する基準ページの登録は、ユーザ毎に行うようにすることもできる。
また、複数の基準ページの代わりに、別の条件をユーザに入力させ、文書群構造データ作成装置がその条件に従って複数の基準ページを選択することもできる。条件としては、例えば、ウェブサイトの名称(ウェブサーバのURL)と階層数との組合せがある。この条件がユーザから指定された場合、まずモデル探索部16は、該ウェブサイトのトップページを起点としてリンクを辿ることで、従来手法と同等の木構造を作成する。そして、モデル探索部16は、この木構造に現れるノードのURLを調べ、URLの階層構造において、トップページの属するディレクトリから指定された階層数の範囲にあるノードを基準ページに選ぶ。このように基準ページを決定した後は、上記実施形態と同様の処理を行えばよい。
また上記実施形態の文書群構造データ作成装置は、クライアント装置からの要求に応じて木構造データを提供するサーバであったが、この文書群構造データ作成装置の機能をユーザのパーソナルコンピュータに組み込むことももちろん可能である。
また以上では、インターネット上にあるウェブページ群のハイパーテキスト構造を木構造表示する場合を例にとって説明した。しかしながら、以上の説明から明らかなように、本発明はウェブページ群のみならず、階層的なディレクトリ構造中に格納され且つハイパーテキスト構造をなす文書群一般に適用可能である。
本発明に係る文書群構造データ作成装置の一例の機能ブロック図である。 図1の装置の基礎となるコンピュータシステムのハードウエア構成を概略的に示す図である。 「ABCD株式会社」のウェブサイトのトップページをブラウザに表示した時の、ブラウザの表示ウインドウの表示例を示す図である。 「ABCD株式会社」のウェブサイトのウェブページ群が構成するハイパーテキスト構造を示した図である。 従来装置が図4のハイパーテキスト構造から作成する木構造を示す図である。 本発明に係る文書群構造データ作成装置が、図4のハイパーテキスト構造から作成する木構造の一例を示す図である。 図6の木構造を示す木構造データのうち、上部木構造に対応する部分のデータ内容を示した図である。 図6の木構造を示す木構造データのうち、下部木構造に対応する部分のデータ内容を示した図である。 参照ノードも表示する場合の下部木構造のデータ内容を示した図である。
符号の説明
10 リンク情報収集部、12 ハイパーテキストモデル記憶部、14 要求処理部、16 モデル探索部、18 木構造データ合成部、60−1,60−2,60−3 (上部木構造の)ノード、65−1,65−2,65−3 サブツリー。

Claims (6)

  1. 階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す木構造データを作成するための装置であって、
    ユーザからの入力に基づき、前記木構造において位置固定する複数の文書を基準文書として特定する基準文書特定手段と、
    前記各基準文書の前記ディレクトリ構造内での位置情報に基づき、前記各基準文書間の階層関係を表す上部木構造データを作成する上部木構造作成手段と、
    前記各基準文書を起点として前記ハイパーテキスト構造のリンクをたどることにより、前記各基準文書を根ノードとする文書群の木構造を示す各下部木構造データをそれぞれ作成する下部木構造作成手段と、
    前記上部木構造データと前記各下部木構造データとを組み合わせることで前記ハイパーテキスト構造を表す木構造データを作成する木構造合成手段と、
    を備える文書群構造データ作成装置。
  2. 請求項1記載の装置であって、前記基準文書特定手段は、ユーザから前記各基準文書のディレクトリ構造内での位置情報の入力を受け付け、この入力に従い前記各基準文書を特定することを特徴とする文書群構造データ作成装置。
  3. 請求項1記載の装置であって、前記下部木構造作成手段は、
    ある基準文書を起点として前記ハイパーテキスト構造のリンクをたどっていく際に検出したリンク先の文書を、該基準文書を根ノードとする下部木構造に組み込むか否かを判定する判定手段を含み、
    該判定手段は、前記起点とする基準文書が格納されるディレクトリが、前記複数の基準文書の各々が格納されるディレクトリのうち、前記階層的なディレクトリ構造において前記リンク先の文書の格納位置に対して最も近い祖先である場合に、該リンク先の文書を前記起点とする基準文書を根ノードとする下部木構造に組み込むと判定する、
    ことを特徴とする文書群構造データ作成装置。
  4. 請求項3記載の装置であって、
    前記下部木構造作成手段は、前記判定手段にて、前記起点とする基準文書が格納されるディレクトリが、前記複数の基準文書の各々が格納されるディレクトリのうち、前記階層的なディレクトリ構造における前記リンク先の文書の格納位置に対する最も近い祖先でないと判定した場合には、該リンク先の文書を、子ノードを持たない参照ノードとして前記下部木構造に組み込む、
    ことを特徴とする文書群構造データ作成装置。
  5. コンピュータ処理により、階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す木構造データを作成する方法であって、
    基準文書特定手段が、ユーザからの入力に基づき、前記木構造において位置固定する複数の文書を基準文書として特定し、
    上部木構造作成手段が、前記各基準文書の前記ディレクトリ構造内での位置情報に基づき、前記各基準文書間の階層関係を表す上部木構造データを作成し、
    下部木構造作成手段が、前記各基準文書を起点として前記ハイパーテキスト構造のリンクをたどることにより、前記各基準文書を根ノードとする文書群の木構造を示す各下部木構造データをそれぞれ作成し、
    木構造合成手段が、前記上部木構造データと前記各下部木構造データとを組み合わせることで、前記ハイパーテキスト構造を表す木構造データを作成する、
    文書群構造データ作成方法。
  6. コンピュータシステムを、階層的なディレクトリ構造内に含まれる文書群が構成するハイパーテキスト構造に基づき、該ハイパーテキスト構造に対応する木構造を表す木構造データを作成する装置として機能させるためのプログラムであって、該コンピュータシステムに、
    ユーザからの入力に基づき、前記木構造において位置固定する複数の文書を基準文書として特定するステップ、
    前記各基準文書の前記ディレクトリ構造内での位置情報に基づき、前記各基準文書間の階層関係を表す上部木構造データを作成するステップ、
    前記各基準文書を起点として前記ハイパーテキスト構造のリンクをたどることにより、前記各基準文書を根ノードとする文書群の木構造を示す各下部木構造データをそれぞれ作成するステップ、
    前記上部木構造データと前記各下部木構造データとを組み合わせることで、前記ハイパーテキスト構造を表す木構造データを作成するステップ、
    を実行させるプログラム。

JP2003306898A 2003-08-29 2003-08-29 文書群構造データ作成装置及び方法 Expired - Fee Related JP4400147B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003306898A JP4400147B2 (ja) 2003-08-29 2003-08-29 文書群構造データ作成装置及び方法
US10/866,686 US7975218B2 (en) 2003-08-29 2004-06-15 Apparatus and method for forming document group structure data and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003306898A JP4400147B2 (ja) 2003-08-29 2003-08-29 文書群構造データ作成装置及び方法

Publications (2)

Publication Number Publication Date
JP2005078296A JP2005078296A (ja) 2005-03-24
JP4400147B2 true JP4400147B2 (ja) 2010-01-20

Family

ID=34214108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003306898A Expired - Fee Related JP4400147B2 (ja) 2003-08-29 2003-08-29 文書群構造データ作成装置及び方法

Country Status (2)

Country Link
US (1) US7975218B2 (ja)
JP (1) JP4400147B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4396242B2 (ja) * 2003-11-28 2010-01-13 富士ゼロックス株式会社 文書リンク構造情報作成装置及び方法
JP4690750B2 (ja) * 2005-03-11 2011-06-01 株式会社リコー 電子情報公開証明システム、電子情報公開証明方法、電子情報公開証明プログラム、電子情報公開証明プログラムを記録した記録媒体
US7490289B2 (en) * 2005-06-09 2009-02-10 International Business Machines Corporation Depth indicator for a link in a document
US8407424B2 (en) 2005-11-07 2013-03-26 Silicon Graphics International Corp. Data coherence method and apparatus for multi-node computer system
US7457801B2 (en) * 2005-11-14 2008-11-25 Microsoft Corporation Augmenting a training set for document categorization
JP5106780B2 (ja) * 2006-01-30 2012-12-26 京セラ株式会社 ウェブページの表示方法およびブラウザ装置、並びにウェブページ表示プログラム
US8538989B1 (en) * 2008-02-08 2013-09-17 Google Inc. Assigning weights to parts of a document
US8051370B2 (en) * 2008-04-23 2011-11-01 Microsoft Corporation Intelligent autocompletion
CN101615178B (zh) * 2008-06-26 2013-01-09 日电(中国)有限公司 用于建立对象层次结构的方法和系统
JP5430164B2 (ja) * 2009-01-30 2014-02-26 キヤノン株式会社 データ管理方法及び装置
US8234560B1 (en) * 2009-04-17 2012-07-31 Google Inc. Technique for generating a set of inter-related documents
US10467331B2 (en) * 2013-05-16 2019-11-05 Toshiba Global Commerce Solutions Holdings Corporation Systems and methods for processing modifiable files grouped into themed directories for presentation of web content
JP5959068B2 (ja) * 2014-02-26 2016-08-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 接続関係の可視化を支援する装置及び方法
US11567972B1 (en) * 2016-06-30 2023-01-31 Amazon Technologies, Inc. Tree-based format for data storage
US10826985B2 (en) 2017-08-04 2020-11-03 Oracle International Corporation System and method for content tethering in an enterprise content management system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635657A (ja) 1992-07-17 1994-02-10 Fuji Xerox Co Ltd ハイパーテキストモデル表示方法および装置
US20020156814A1 (en) * 1997-01-13 2002-10-24 Ho Bruce K. Method and apparatus for visual business computing
US6772139B1 (en) * 1998-10-05 2004-08-03 Smith, Iii Julius O. Method and apparatus for facilitating use of hypertext links on the world wide web
US6556984B1 (en) * 1999-01-19 2003-04-29 International Business Machines Corporation Hierarchical string matching using multi-path dynamic programming
US6476833B1 (en) * 1999-03-30 2002-11-05 Koninklijke Philips Electronics N.V. Method and apparatus for controlling browser functionality in the context of an application
JP2001184344A (ja) * 1999-12-21 2001-07-06 Internatl Business Mach Corp <Ibm> 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
US6868525B1 (en) * 2000-02-01 2005-03-15 Alberti Anemometer Llc Computer graphic display visualization system and method
JP2002028825A (ja) 2000-07-13 2002-01-29 Seibu Electric & Mach Co Ltd ワイヤ放電加工機における自動ワイヤ供給装置
US20060122917A1 (en) * 2000-08-14 2006-06-08 Urbanpixel Inc Real-time collaborative commerce in a multiple browser environment

Also Published As

Publication number Publication date
JP2005078296A (ja) 2005-03-24
US7975218B2 (en) 2011-07-05
US20050050029A1 (en) 2005-03-03

Similar Documents

Publication Publication Date Title
JP4400147B2 (ja) 文書群構造データ作成装置及び方法
US8745039B2 (en) Method and system for user guided search navigation
JP5474038B2 (ja) モバイルサイトマップ
JP4997749B2 (ja) 文書処理方法、プログラム及びシステム
JP4637113B2 (ja) 階層データの好ましいビューを構築するための方法
US8694680B2 (en) Methods and apparatus for enabling use of web content on various types of devices
US5920864A (en) Multi-level category dynamic bundling for content distribution
US8856645B2 (en) Generating formatted documents based on collected data content
US8584009B2 (en) Automatically propagating changes in document access rights for subordinate document components to superordinate document components
EP2230613A1 (en) Trail-based data content discovery, organization, and processing
JPWO2006046523A1 (ja) 文書解析システム、及び文書適応システム
WO2001040988A1 (en) Web map tool
CN101551800A (zh) 标注信息生成装置、查询装置及共享系统
JP2003281191A (ja) 検索サーバ及び検索結果提供方法
JP2009523289A (ja) データベースと電子ドキュメントとの間での階層データの転送および表示
JP5010624B2 (ja) 検索装置
JP2009223485A (ja) リンクツリー作成プログラム及び作成装置
JP4431744B2 (ja) Webページ情報融合表示装置、Webページ情報融合表示方法、Webページ情報融合表示プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2010038259A1 (ja) ファイル格納装置及び方法
JP4513437B2 (ja) 木構造情報作成のためのプログラム及び装置
JP4254511B2 (ja) 木構造データ作成装置及び方法
JP4981723B2 (ja) 表示処理装置、表示処理方法、表示処理プログラムおよび記録媒体
JP3598755B2 (ja) 情報検索装置及び情報検索方法
JP4438392B2 (ja) 木構造データ作成装置及びプログラム
JP5189791B2 (ja) バイオインフォマティクス解析プログラムの実行方法及びバイオインフォマティクス解析プラットフォーム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Ref document number: 4400147

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091019

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121106

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121106

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131106

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees