JP2009295122A

JP2009295122A - 構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラム

Info

Publication number: JP2009295122A
Application number: JP2008151001A
Authority: JP
Inventors: Masakazu Moriguchi; 昌和森口
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-06-09
Filing date: 2008-06-09
Publication date: 2009-12-17

Abstract

【課題】ユーザが過去に選択したリンク先以外のコンテンツデータについても先読みを行うことができ、コンテンツの関連性に基づいてコンテンツデータの先読みを行うことができる。
【解決手段】文書解析部１０１は、構造化文書を構成するセクションのレイアウト構成に基づいて、セクションのモデルを作成する。重要度計算部１０２は、文書解析部１０１が作成したモデルに基づいて、セクションに割り当てる重要度を算出する。先読み実行部１０３は、重要度計算部１０２が算出した重要度に基づいて、セクションに含まれるリンク先のコンテンツデータの先読みを行う。
【選択図】図１

Description

本発明は、構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラムに関する。

近年、インターネット上のＷｅｂページなど、大量の情報を含む構造化文書が増えている。一般的にＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）文書などの構造化文書の内容をパーソナルコンピュータなど情報処理装置で表示させる場合、ユーザがＨＴＭＬ文書のリンクを選択した後に、情報処理装置はそのリンク先のコンテンツデータ（ＨＴＭＬ文書）を読み込み、表示する。そのため、ユーザがコンテンツのリンクを選択した後、そのコンテンツがユーザに提示されるまでには、情報処理装置にコンテンツデータが読み込まれるまで多少の待ち時間が必要となる。特に、携帯電話などのネットワークの回線速度が遅い装置を情報処理装置として用いる場合、コンテンツデータの読み込みに時間がかかるため、この待ち時間は長くなる。

そこで、ユーザが選択する可能性の高いリンク先のコンテンツデータを予め読み込んでおくことで、上記待ち時間を体感的に短くするコンテンツ先読み技術が提案されている。例えば、特許文献１では、ユーザが選択したリンクの選択回数や利用頻度を記憶しておき、その履歴に基づいて優先度を設定することで、ユーザの履歴に基づいて先読みする順番を決定する技術が提案されている。また、特許文献２では、構造化文書内の階層が深い順に、あるいはコンテンツの中心といった特定の位置からの相対位置が近い順に、リンク先のコンテンツを先読みする技術が提案されている。
特開２００２−３７３１０９号公報特開２００１−２０９５７１号公報

しかしながら、特許文献１に記載の技術のように、ユーザのリンク選択履歴を用いる場合、ユーザが過去に選択したリンク先のコンテンツのみを先読みする。そのため、リンク選択履歴にないリンク先が選択された場合、そのリンク先のコンテンツデータは先読みされていないため、コンテンツがユーザに提示されるまでには時間が必要となるという問題がある。

また、特許文献２に記載の技術のように、リンク自身の階層の深さと特定の座標からの相対位置で重要度を計算する場合、リンクの意味や互いの関連性が考慮されていないため、的確な先読みができないという問題がある。

本発明は、上記の課題を解決するためになされたものであり、ユーザが過去に選択していないリンク先のコンテンツデータの先読みを行うことができ、コンテンツの関連性に基づいて、より的確にコンテンツデータの先読みを行うことができる構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラムを提供することを目的とする。

本発明は、構造化文書の先読みを行う構造化文書処理システムであって、前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析手段と、前記文書解析手段が作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算手段と、前記重要度計算手段が算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行手段と、を備えたことを特徴とする構造化文書処理システムである。

また、本発明の構造化文書処理システムにおいて、前記重要度計算手段は、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出することを特徴とする。

また、本発明は、前記重要度計算手段が算出した前記重要度を履歴重要度として記憶する記憶手段を備え、前記重要度計算手段は、前記文書解析手段が作成した前記モデルに基づいて算出した前記重要度と、前記記憶手段が記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出することを特徴とする構造化文書処理システムである。

また、本発明の構造化文書処理システムにおいて、前記重要度計算手段は、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てることを特徴とする。

また、本発明は、構造化文書の先読みを行う構造化文書処理方法であって、前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析ステップと、前記文書解析ステップで作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算ステップと、前記重要度計算ステップで算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行ステップと、を含むことを特徴とする構造化文書処理方法である。

また、本発明の構造化文書処理方法において、前記重要度計算ステップは、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出することを特徴とする。

また、本発明は、前記重要度計算ステップで算出した前記重要度を履歴重要度として記憶する記憶ステップを含み、前記重要度計算ステップは、前記文書解析ステップで作成した前記モデルに基づいて算出した前記重要度と、前記記憶ステップで記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出することを特徴とする構造化文書処理方法である。

また、本発明の構造化文書処理方法において、前記重要度計算ステップは、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てることを特徴とする。

また、本発明は、コンピュータに構造化文書の先読みを実行させる構造化文書処理プログラムであって、コンピュータに、前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析ステップと、前記文書解析ステップで作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算ステップと、前記重要度計算ステップで算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行ステップと、を実行させることを特徴とする構造化文書処理プログラムである。

また、本発明の構造化文書処理プログラムにおいて、前記重要度計算ステップは、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出することを特徴とする。

また、本発明は、コンピュータに、前記重要度計算ステップで算出した前記重要度を履歴重要度として記憶する記憶ステップを実行させ、前記重要度計算ステップは、前記文書解析ステップで作成した前記モデルに基づいて算出した前記重要度と、前記記憶ステップで記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出することを特徴とする構造化文書処理プログラムである。

また、本発明の構造化文書処理プログラムにおいて、前記重要度計算ステップは、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てることを特徴とする。

本発明によれば、ユーザが過去に選択したリンク先以外のコンテンツデータについても先読みを行うことができ、コンテンツの関連性に基づいてコンテンツデータの先読みを行うことができる。

以下、図面を参照し、本発明の一実施形態を説明する。本発明による構造化文書処理システムの特徴は、文書解析部と、重要度計算部と、先読み実行部とを備える点である。この文書解析部は、ＨＴＭＬ文書などの構造化文書からセクションを抽出し、各セクション同士の論理的距離を測定できる構造モデルを生成する。また、重要度計算部は、セクションの構造モデルに基づいて、各セクションに重要度を割り当てる。また、先読み実行部は、重要度計算部が各セクションに割り当てた重要度に基づいて、重要度が高いセクション内に含まれるリンク先のコンテンツデータを先読みする。

図１は、本発明による構造化文書処理システムの構成の一例を示すブロック図である。本実施形態における構造化文書処理システムは、具体的には、プログラムに従って動作するパーソナルコンピュータなどの情報処理装置によって実現される。この場合、構造化文書処理システムは、例えば、構造化文書をレンダリングするソフトウェアを搭載した携帯電話やＰＤＡ、パーソナルコンピュータ等のユーザ端末と、構造化文書を処理する構造化文書処理サーバとを含んでもよい。

図示する例では、構造化文書処理システムは、プログラム制御により動作する情報処理装置１０と、情報を記憶する記憶装置１１とを含む。情報処理装置１０は、文書入力部１００（文書入力手段）と、文書解析部１０１（文書解析手段）と、重要度計算部１０２（重要度計算手段）と、先読み実行部１０３（先読み実行手段）とを含む。重要度計算部１０２は、重要度生成部１０２０（重要度生成手段）と、重要度合成部１０２１（重要度合成手段）とを含む。また、記憶装置１１は、具体的には、メモリやハードディスク装置等によって実現される。記憶装置１１は、重要度記憶部１１０（重要度記憶手段）を含む。

文書入力部１００は、外部から構造化文書を取得し、取得した構造化文書を文書解析部１０１に出力する機能を備える。例えば、文書入力部１００は、ユーザの操作に従ってインターネット等の通信ネットワークを介して構造化文書（例えば、Ｗｅｂコンテンツなど）を受信し、文書解析部１０１に出力する。また、例えば、記憶装置１１は構造化文書を記憶しており、文書入力部１００は、ユーザの操作に従って記憶装置１１から構造化文書を読み出し、文書解析部１０１に出力する。

文書解析部１０１は、文書入力部１００が出力した構造化文書を解析して複数のセクションを抽出し、各セクションのレイアウト構成に基づいてセクション同士の論理的な位置関係を示したモデルを生成する機能を備える。例えば、文書解析部１０１は、モデルとして各セクションを葉とした木構造を生成してもよい。また、文書解析部１０１は、生成したモデルを重要度計算部１０２に出力する機能を備える。

重要度計算部１０２は、重要度生成部１０２０と、重要度合成部１０２１とを含む。重要度計算部１０２は、重要度記憶部１１０が記憶する履歴の重要度と、文書解析部１０１が出力するセクションの構造モデルとに基づいて、各セクションに重要度を割り当てる機能を備える。また、重要度計算部１０２は、各セクションの重要度を履歴の重要度として重要度記憶部１１０に記憶させる機能を備える。

重要度生成部１０２０は、文書解析部１０１が生成したセクションの構造モデルに基づいて、各セクションに特定の条件で得点を与える機能を備える。特定の条件で得点を与える例としては、ユーザの選択したリンクが属するセクションに最大の得点を与え、そのセクションとの論理的距離に応じて他のセクションに得点を与えるようにしてもよい。

重要度合成部１０２１は、重要度生成部１０２０が計算した得点と、重要度記憶部１１０が記憶する履歴の重要度とを合成して重要度を決定する機能を備える。合成とは、例えば、重要度生成部１０２０が計算した得点と、履歴の重要度との和をとってもよいし、平均をとってもよい。また、重要度合成部１０２１は、決定した各セクションの重要度を履歴の重要度として重要度記憶部１１０に記憶させる機能を備える。
記憶装置１１は、重要度記憶部１１０を含む。重要度記憶部１１０は、重要度計算部１０２が各セクションに割り当てた履歴の重要度を記憶する。

先読み実行部１０３は、文書解析部１０１が出力したモデルと、重要度記憶部１１０が記憶している履歴の重要度とに基づいて、文書入力部１００が取得した構造化文書に含まれるリンク先のコンテンツデータの先読みを行う。また、先読み実行部１０３は、先読みしたコンテンツデータを記憶装置１１に記憶させる。

次に、図２を参照して構造化文書処理システムの動作について説明する。図２は、構造化文書処理システムがセクションのレイアウト構成に基づいて、各セクションに重要度を割り当てる処理の一例を示すフローチャートである。

はじめに、文書入力部１００は構造化文書を取得する。例えば、文書入力部１００は、通信ネットワークを介して構造化文書を受信する。また、例えば、文書入力部１００は、記憶装置１１に格納されている構造化文書を読み出す。続いて、文書入力部は取得した構造化文書を文書解析部１０１に出力する。

続いて、文書解析部１０１は、文書入力部１００が出力した構造化文書を解析し、構造化文書に含まれているセクションを抽出する。続いて、文書解析部１０１は、抽出した各セクションのレイアウト構成に基づいて、セクション同士の論理的な位置関係を示したセクションのモデルを生成する。続いて、文書解析部１０１は、セクションのモデルを重要度計算部１０２に出力する（ステップＳ１１）。モデルの生成方法については後述する。

続いて、重要度計算部１０２に含まれる重要度生成部１０２０は、文書解析部１０１が出力したセクションのモデルに基づいて、各セクションに特定の条件で得点を与える（ステップＳ１２）。得点の与え方については後述する。

続いて、重要度計算部１０２に含まれる重要度合成部１０２１は、重要度生成部１０２０が各セクションに与えた得点と、記憶装置１１が記憶する履歴の重要度とを合成し、合成した値を履歴の重要度として重要度記憶部１１０に記憶させる。また、重要度計算部１０２は、合成した履歴の重要度を先読み実行部１０３に出力する（ステップＳ１３）。履歴の重要度の合成方法については後述する。

続いて、先読み実行部１０２は、重要度計算部１０２が出力した履歴の重要度に基づいて、重要度の高いセクションに含まれているリンク先のコンテンツデータを先読みする（ステップＳ１４）。その後、処理を終了する。先読みするコンテンツの決定方法については後述する。

次に、本実施形態における構造化文書処理システムの具体例について説明する。なお、本具体例における構造化文書処理システムは、情報処理装置がパーソナルコンピュータであり、データ記憶装置が磁気ディスク装置であるものとする。

パーソナルコンピュータ（情報処理装置１０）は、文書入力部１００と、文書解析部１０１と、重要度計算部１０２と、先読み実行部１０３として機能する中央演算装置を含む。また、磁気ディスク装置（記憶装置）は、パーソナルコンピュータによって解析または計算されたセクションの履歴の重要度を記憶する。なお、情報処理装置は、サーバや携帯電話等でもよい。また、本具体例では、構造化文書の例として、Ｗｅｂコンテンツを対象とする。例えば、情報処理装置１０は、インターネットを介してＷｅｂコンテンツを受信する。また、Ｗｅｂコンテンツは、レンダリングするために作成されたものであれば、ＨＴＭＬやＸＭＬなどの種類に寄らない。本実施例では、構造化文書をＨＴＭＬ文書とする。

本具体例では、まず、中央演算装置（文書入力部１００）は、Ｗｅｂコンテンツの入力を受け付ける。続いて、中央演算装置（文書解析部１０１）は、文書入力部１００が受け付けたＷｅｂコンテンツを解析してセクションを抽出する。続いて、セクションを抽出した順に、中央演算装置（文書解析部１０１）はセクションに番号を割り振る。例えば、１番最初に抽出したセクションには「１」を割り振る。なお、セクションの抽出方法は、文書記述要素や階層構造に注目した特開２００６−１５５５９３が提案されており、本具体例ではこの方法を用いる。なお、本実施形態で用いるセクションの抽出方法はいかなる方法でもよい。

図３は、本具体例におけるＷｅｂコンテンツの構造化文書の記述形態を示した図である。図示する例では、構造化文書にはタグ＜ｄｉｖ＞とタグ＜／ｄｉｖ＞とで挟まれた１１個の要素ａ〜ｋが含まれている。

要素ａと要素ｂと要素ｃとは深さ１の兄弟要素である。要素ｄと要素ｅと要素ｆとは深さ２の兄弟要素である。また、要素ｄと要素ｅと要素ｆとは、要素ｂのタグに挟まれているため、要素ｂの子である。要素ｇと要素ｈと要素ｉと要素ｊと要素ｋとは、深さ３の兄弟要素である。要素ｇと要素ｈとは、要素ｅのタグに挟まれているため、要素ｅの子である。

図４は、図３に示した構造化文書に含まれるセクションのレイアウト構成を示す図である。図示する例では、Ｗｅｂコンテンツにはセクション１〜８の８個のセクションが含まれている。セクション１はＷｅｂコンテンツの上部に配置されている。セクション２〜８が配置されている位置は図示するとおりである。

続いて、中央演算装置（文書解析部１０１）は、抽出したセクションのレイアウト構成に基づいてモデルを生成する。本具体例では、与えられた構造化文書が図４に示すような記述形態をしているため、文書解析部１０１は、文書を形成するタグの構造からセクションの階層を計算し、図５に示すような木構造モデルを生成する。

図５は、本実施形態における構造化文書の木構造モデルを示した図である。図示する例では、根の子は要素ａと要素ｂと要素ｃとである。また、要素ｂの子は要素ｄと要素ｅと要素ｆとである。また、要素ｅの子は要素ｇと要素ｈとである。また、要素ｆの子は要素ｉと要素ｊと要素ｋとである。また、要素ａに含まれるセクションはセクション１である。また、要素ｄに含まれるセクションはセクション２である。また、要素ｇに含まれるセクションはセクション３である。また、要素ｈに含まれるセクションはセクション４である。また、要素ｉに含まれるセクションはセクション５である。また、要素ｊに含まれるセクションはセクション６である。また、要素ｋに含まれるセクションはセクション７である。また、要素ｃに含まれるセクションはセクション８である。

続いて、中央演算装置（重要度生成部１０２０）は、ユーザからの命令を待ち、各セクションに与える得点を計算する。本具体例では、ユーザからの命令は、Ｗｅｂコンテンツのリンクが選択されることとする。また、得点の計算方法は、ユーザが選択したリンクが属するセクション（以下、基準セクションとする）から論理的距離が遠ざかるにつれて、セクションに与える得点を減らすアルゴリズムを採用する。また、セクションに与える得点を算出する式は「１／（論理的距離＋１）」とする。論理的距離は基本的には文書解析部１０１がセクションに割り当てた番号の差の絶対値であるが、基準セクションと異なる兄弟要素に含まれるセクションについては論理的距離を同一とみなす。

図６は、図５に示した木構造モデルにおいて、セクション５を基準セクションとした場合、重要度生成部１０２０が各セクションに与えた点数を示した図である。この図において、セクション５を基準セクションとした場合、基準セクションと同じ要素に含まれていない兄弟要素に含まれるセクション３とセクション４とは論理的距離を同一とみなす。すなわち、セクション４とセクション５との論理的距離は１であり、セクション３とセクション５との論理的距離も１である。

セクション３とセクション４以外に論理的距離を同一とみなすセクションの組み合わせは無いため、その他のセクションに関しては、セクション数の差の絶対値が１増加する毎に、論理的距離が１増加する。

よって、セクション２とセクション５との論理的距離は２である。また、セクション１とセクション５との論理的距離は３である。また、セクション５とセクション６との論理的距離は１である。また、セクション５とセクション７との論理的距離は２である。また、セクション５とセクション８との論理的距離は３である。

上記の論理的距離に基づいて、重要度生成部１０２０は各セクションに点数を与える。セクション５に与える点数は１（＝１／１）である。また、セクション３と、セクション４と、セクション６とに与える点数は０．５（＝１／２）である。また、セクション２と、セクション７とに与える点数は０．３３（＝１／３）である。また、セクション１と、セクション８とに与える点数は０．２５（＝１／４）である。

続いて、中央演算装置（重要度合成部１０２１）は、重要度記憶部１１０から過去に各セクションに対して決定した重要度（履歴の重要度）を読み出し、重要度生成部１０２０が各セクションに与えた得点と、読み出した履歴の重要度とを合成して重要度を決定する。また、重要度合成部１０２１は決定した重要度を履歴の重要度として重要度記憶部１１０に記憶させる。

本具体例では重要度を決定する方法として、各セクションに与えた得点と、履歴の重要度との平均を重要度とする方法を用いる。この方法において、重要度は（履歴の重要度×選択回数＋セクションに与えた得点）÷（選択回数＋１）で算出することができる。なお、選択回数は重要度合成を行った回数である。現時点では、選択回数は０であり重要度記憶部１１０には履歴の重要度は記憶されていない（過去に各セクションに対して重要度を決定していない）ため、重要度生成部が各セクションに与えた得点が重要度（履歴の重要度）となる。

続いて、中央演算装置（先読み実行部１０３）は、重要度記憶部１１０から履歴の重要度を読み出し、重要度が高いセクション内に含まれるリンク先のコンテンツを先読みする。その後、処理を終了する。現時点での履歴の重要度は図６に示すとおりであるため、先読み実行手段は、はじめに履歴の重要度が「１」であるセクション５内に含まれるリンク先のコンテンツデータを先読みする。続いて、履歴の重要度が「０．５」であるセクション３とセクション４とセクション６内に含まれるリンク先のコンテンツデータを先読みする。続いて、履歴の重要度が「０．３３」であるセクション２とセクション７内に含まれるリンク先のコンテンツデータを先読みする。続いて、履歴の重要度が「０．２５」であるセクション１とセクション８内に含まれるリンク先のコンテンツデータを先読みする。

次に、重要度記憶部１１０に履歴の重要度が記憶されている場合における重要度生成部１０２０と重要度合成部１０２１の動作について説明する。重要度生成部１０２０は、ユーザからの命令を待ち、各セクションに与える得点を計算する。今回は、ユーザはセクション２に含まれるリンクを選択したとする。

図７は、図５に示した木構造モデルにおいて、セクション２を基準セクションとした場合の各セクションに与えられた点数を示した図である。この図において、セクション２を基準セクションとした場合、基準セクションと同じ要素に含まれていない兄弟要素に含まれているセクション３とセクション４とは論理的距離を同一とみなす。また、基準セクションと同じ要素に含まれていない兄弟要素に含まれているセクション５とセクション６とセクション７とは論理的距離を同一とみなす。

よって、セクション１とセクション２との論理的距離は１である。また、セクション２とセクション３との論理的距離は２である。また、セクション２とセクション４との論理的距離は２である。また、セクション２とセクション５との論理的距離は３である。また、セクション２とセクション６との論理的距離は３である。また、セクション２とセクション７との論理的距離は３である。また、セクション２とセクション８との論理的距離は４である。

上記の論理的距離に基づいて、重要度生成部１０２０は各セクションに点数を与える。セクション２に与える点数は１（＝１／１）である。また、セクション１と、セクション３と、セクション４とに与える点数は０．５（＝１／２）である。また、セクション５と、セクション６と、セクション７とに与える点数は０．３３（＝１／３）である。また、セクション８に与える点数は０．２５（＝１／４）である。

続いて、重要度合成部１０２１は、重要度記憶部１１０から過去に各セクションに対して決定した重要度（履歴の重要度）を読み出し、重要度生成部１０２０が各セクションに与えた得点と、読み出した履歴の重要度とを合成して重要度を決定する。また、重要度合成手段は決定した重要度を履歴の重要度として重要度記憶部１１０に記憶させる。

現時点では、選択回数は１であり重要度記憶部１１０には履歴の重要度が記憶されている。履歴の重要度は図７に示したとおりである。これにより、各セクションの履歴の重要度は図８に示すとおりとなる。図８は、本実施形態における履歴の重要度を示した図である。

セクション１の履歴の重要度は０．３７５である。セクション２の履歴の重要度は０．６６５である。セクション３の履歴の重要度は０．５である。セクション４の履歴の重要度は０．５である。セクション５の履歴の重要度は０．６６５である。セクション６の履歴の重要度は０．４１５である。セクション７の履歴の重要度は０．３３である。セクション８の履歴の重要度は０．２５である。

なお、重要度生成１０２０が各セクションに対して得点を与える方法としては、上述したアルゴリズム以外を用いてもよい。本発明では、基準セクションからの理論的距離に応じて各セクションに与える得点が減少する方法であれば得点の算出方法は問わない。例えば、本具体例ではセクション数が８であるため、基準セクションに８点を与え、他のセクションには（８−論理的距離）で算出した得点を与える方法を用いてもよい。

また、重要度計算部１０２（重要度生成部１０２０、重要度生成部１０２１）は、既に重要度が決定している他の構造化文書の履歴の重要度に基づいて重要度を決定してもよい。既に重要度が決定している構造化文書Ａの重要度に基づいて、構造化文書Ｂの重要度を決定する方法について説明する。構造化文書Ａの木構造モデルは図５に示した木構造モデルと同様とする。また、構造化文書Ａに含まれるセクションのレイアウト構成は図４に示したレイアウト構成と同様とする。また、構造化文書Ａに含まれる各セクションに与えられた重要度は図６に示した重要度と同様とする。

図９は、構造化文書Ｂの木構造モデルを示した図である。根の子は要素Ａと要素Ｂと要素Ｃと要素Ｄとである。また、要素Ｃの子は要素Ｅと要素Ｆとである。また、要素Ｆの子は要素Ｇと要素Ｈとである。また、要素Ｈの子は要素Ｉと要素Ｊとである。また、要素Ｊの子は要素Ｋと要素Ｌと要素Ｍとである。また、要素Ａに含まれるセクションはセクション１である。また、要素Ｂに含まれるセクションはセクション２である。また、要素Ｅに含まれるセクションはセクション３である。また、要素Ｇに含まれるセクションはセクション４である。また、要素Ｉに含まれるセクションはセクション５である。また、要素Ｋに含まれるセクションはセクション６である。また、要素Ｌに含まれるセクションはセクション７である。また、要素Ｍに含まれるセクションはセクション８である。また、要素Ｄに含まれるセクションはセクション９である。

図１０は、構造化文書Ｂに含まれるセクションのレイアウト構成を示す図である。図示する例では、Ｗｅｂコンテンツにはセクションはセクション１〜９の９個含まれている。セクション１にはＷｅｂコンテンツの上部左側に配置されている。セクション２〜８が配置されている位置は図示するとおりである。

はじめに、重要度計算部１０２は、構造化文書Ａと構造化文書Ｂとの木構造モデルを比較する。構造化文書Ａのセクション１と、構造化文書Ｂのセクション１は、それぞれ深さ１で根の子である。これにより、重要度計算部１０２は、構造化文書Ａのセクション１と構造化文書Ｂのセクション１とは木構造モデル内の位置付けが類似しているため、重要度も類似していると判断する。よって、重要度計算部１０２は構造化文書Ｂのセクション１の重要度を０．２と決定する。同様に、構造化文書Ａのセクション２と構造化文書Ｂのセクション３の組み合わせ、構造化文書Ａのセクション３と構造化文書Ｂのセクション４の組み合わせ、構造化文書Ａのセクション８と構造化文書Ｂのセクション９の組み合わせはそれぞれ木構造モデル内の位置付けが類似しているため、重要度計算部１０２は構造化文書Ａのセクションの重要度に基づいて構造化文書Ｂのセクションの重要度を決定する。

なお、重要度計算部１０２が他の構造化文書の履歴の重要度に基づいて重要度を決定する場合、木構造モデルを用いずに、セクション内の情報の種類に基づいて各構造化文書内に含まれているセクションの類似を判断してもよい。例えば、構造化文書Ａのセクション２と構造化文書Ｂのセクション３とが、互いにサイトマップやニュース一覧などのリンクリストのセクションになっているならば、互いに重要度も類似していると判断する。この場合、重要度計算部１０２は構造化文書Ｂのセクション３の重要度を０．３３と決定する。

上述したとおり、本実施形態によれば、セクション毎に重要度を決定し、この重要度の順に、セクション内に含まれるリンク先のコンテンツデータを先読みすることができる。また、本実施形態によれば、セクション毎に重要度を決定するため、ユーザが過去に選択したリンク先以外のコンテンツデータの先読みを行うことができる。また、本実施形態によれば、論理的距離に基づいてセクション毎に重要度を決定し、この重要度に基づいてコンテンツデータの先読みを行う。これにより、コンテンツの関連性に基づいてより的確にコンテンツデータの先読みを行うことができる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

また、構造化文書処理システムの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、セクション毎に重要度を決定し、コンテンツデータの先読みを行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本発明の一実施形態における構造化文書処理システムの構成を示すブロック図である。本実施形態における構造化文書処理システムの処理の手順を示すフローチャートである。本実施形態におけるＷｅｂコンテンツの構造化文書の記述形態を示した図である。本実施形態における構造化文書に含まれるセクションのレイアウト構成を示す図である。本実施形態における構造化文書の木構造モデルを示した図である。本実施形態において、重要度生成部が各セクションに与えた点数を示した図である。本実施形態において、重要度生成部が各セクションに与えた点数を示した図である。本実施形態における履歴の重要度を示した図である。本実施形態における構造化文書の木構造モデルを示した図である。本実施形態における構造化文書に含まれるセクションのレイアウト構成を示す図である。

符号の説明

１０・・・情報処理装置、１１・・・記憶装置、１００・・・文書入力部、１０１・・・文書解析部、１０２・・・重要度計算部、１０３・・・先読み実行部、１１０・・・重要度記憶部、１０２０・・・重要度生成部、１０２１・・・重要度合成部

Claims

構造化文書の先読みを行う構造化文書処理システムであって、
前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析手段と、
前記文書解析手段が作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算手段と、
前記重要度計算手段が算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行手段と、
を備えたことを特徴とする構造化文書処理システム。
前記重要度計算手段は、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出する
ことを特徴とする請求項１に記載の構造化文書処理システム。
前記重要度計算手段が算出した前記重要度を履歴重要度として記憶する記憶手段
を備え、
前記重要度計算手段は、前記文書解析手段が作成した前記モデルに基づいて算出した前記重要度と、前記記憶手段が記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出する
ことを特徴とする請求項１または請求項２のいずれか１項に記載の構造化文書処理システム。
前記重要度計算手段は、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てる
ことを特徴とする請求項１から請求項３のいずれか１項に記載の構造化文書処理システム。
構造化文書の先読みを行う構造化文書処理方法であって、
前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析ステップと、
前記文書解析ステップで作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算ステップと、
前記重要度計算ステップで算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行ステップと、
を含むことを特徴とする構造化文書処理方法。
前記重要度計算ステップは、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出する
ことを特徴とする請求項５に記載の構造化文書処理方法。
前記重要度計算ステップで算出した前記重要度を履歴重要度として記憶する記憶ステップを含み、
前記重要度計算ステップは、前記文書解析ステップで作成した前記モデルに基づいて算出した前記重要度と、前記記憶ステップで記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出する
ことを特徴とする請求項５または請求項６のいずれか１項に記載の構造化文書処理方法。
前記重要度計算ステップは、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てる
ことを特徴とする請求項５から請求項７のいずれか１項に記載の構造化文書処理方法。
コンピュータに構造化文書の先読みを実行させる構造化文書処理プログラムであって、
コンピュータに、
前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析ステップと、
前記文書解析ステップで作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算ステップと、
前記重要度計算ステップで算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行ステップと、
を実行させることを特徴とする構造化文書処理プログラム。
前記重要度計算ステップは、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出する
ことを特徴とする請求項９に記載の構造化文書処理プログラム。
コンピュータに、
前記重要度計算ステップで算出した前記重要度を履歴重要度として記憶する記憶ステップを実行させ、
前記重要度計算ステップは、前記文書解析ステップで作成した前記モデルに基づいて算出した前記重要度と、前記記憶ステップで記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出する
ことを特徴とする請求項９または請求項１０のいずれか１項に記載の構造化文書処理プログラム。
前記重要度計算ステップは、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てる
ことを特徴とする請求項９から請求項１１のいずれか１項に記載の構造化文書処理プログラム。