JP2009295122A - 構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラム - Google Patents

構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラム Download PDF

Info

Publication number
JP2009295122A
JP2009295122A JP2008151001A JP2008151001A JP2009295122A JP 2009295122 A JP2009295122 A JP 2009295122A JP 2008151001 A JP2008151001 A JP 2008151001A JP 2008151001 A JP2008151001 A JP 2008151001A JP 2009295122 A JP2009295122 A JP 2009295122A
Authority
JP
Japan
Prior art keywords
importance
section
structured document
assigned
document processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008151001A
Other languages
English (en)
Inventor
Masakazu Moriguchi
昌和 森口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008151001A priority Critical patent/JP2009295122A/ja
Publication of JP2009295122A publication Critical patent/JP2009295122A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが過去に選択したリンク先以外のコンテンツデータについても先読みを行うことができ、コンテンツの関連性に基づいてコンテンツデータの先読みを行うことができる。
【解決手段】文書解析部101は、構造化文書を構成するセクションのレイアウト構成に基づいて、セクションのモデルを作成する。重要度計算部102は、文書解析部101が作成したモデルに基づいて、セクションに割り当てる重要度を算出する。先読み実行部103は、重要度計算部102が算出した重要度に基づいて、セクションに含まれるリンク先のコンテンツデータの先読みを行う。
【選択図】図1

Description

本発明は、構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラムに関する。
近年、インターネット上のWebページなど、大量の情報を含む構造化文書が増えている。一般的にHTML(Hyper Text Markup Language)文書などの構造化文書の内容をパーソナルコンピュータなど情報処理装置で表示させる場合、ユーザがHTML文書のリンクを選択した後に、情報処理装置はそのリンク先のコンテンツデータ(HTML文書)を読み込み、表示する。そのため、ユーザがコンテンツのリンクを選択した後、そのコンテンツがユーザに提示されるまでには、情報処理装置にコンテンツデータが読み込まれるまで多少の待ち時間が必要となる。特に、携帯電話などのネットワークの回線速度が遅い装置を情報処理装置として用いる場合、コンテンツデータの読み込みに時間がかかるため、この待ち時間は長くなる。
そこで、ユーザが選択する可能性の高いリンク先のコンテンツデータを予め読み込んでおくことで、上記待ち時間を体感的に短くするコンテンツ先読み技術が提案されている。例えば、特許文献1では、ユーザが選択したリンクの選択回数や利用頻度を記憶しておき、その履歴に基づいて優先度を設定することで、ユーザの履歴に基づいて先読みする順番を決定する技術が提案されている。また、特許文献2では、構造化文書内の階層が深い順に、あるいはコンテンツの中心といった特定の位置からの相対位置が近い順に、リンク先のコンテンツを先読みする技術が提案されている。
特開2002−373109号公報 特開2001−209571号公報
しかしながら、特許文献1に記載の技術のように、ユーザのリンク選択履歴を用いる場合、ユーザが過去に選択したリンク先のコンテンツのみを先読みする。そのため、リンク選択履歴にないリンク先が選択された場合、そのリンク先のコンテンツデータは先読みされていないため、コンテンツがユーザに提示されるまでには時間が必要となるという問題がある。
また、特許文献2に記載の技術のように、リンク自身の階層の深さと特定の座標からの相対位置で重要度を計算する場合、リンクの意味や互いの関連性が考慮されていないため、的確な先読みができないという問題がある。
本発明は、上記の課題を解決するためになされたものであり、ユーザが過去に選択していないリンク先のコンテンツデータの先読みを行うことができ、コンテンツの関連性に基づいて、より的確にコンテンツデータの先読みを行うことができる構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラムを提供することを目的とする。
本発明は、構造化文書の先読みを行う構造化文書処理システムであって、前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析手段と、前記文書解析手段が作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算手段と、前記重要度計算手段が算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行手段と、を備えたことを特徴とする構造化文書処理システムである。
また、本発明の構造化文書処理システムにおいて、前記重要度計算手段は、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出することを特徴とする。
また、本発明は、前記重要度計算手段が算出した前記重要度を履歴重要度として記憶する記憶手段を備え、前記重要度計算手段は、前記文書解析手段が作成した前記モデルに基づいて算出した前記重要度と、前記記憶手段が記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出することを特徴とする構造化文書処理システムである。
また、本発明の構造化文書処理システムにおいて、前記重要度計算手段は、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てることを特徴とする。
また、本発明は、構造化文書の先読みを行う構造化文書処理方法であって、前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析ステップと、前記文書解析ステップで作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算ステップと、前記重要度計算ステップで算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行ステップと、を含むことを特徴とする構造化文書処理方法である。
また、本発明の構造化文書処理方法において、前記重要度計算ステップは、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出することを特徴とする。
また、本発明は、前記重要度計算ステップで算出した前記重要度を履歴重要度として記憶する記憶ステップを含み、前記重要度計算ステップは、前記文書解析ステップで作成した前記モデルに基づいて算出した前記重要度と、前記記憶ステップで記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出することを特徴とする構造化文書処理方法である。
また、本発明の構造化文書処理方法において、前記重要度計算ステップは、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てることを特徴とする。
また、本発明は、コンピュータに構造化文書の先読みを実行させる構造化文書処理プログラムであって、コンピュータに、前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析ステップと、前記文書解析ステップで作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算ステップと、前記重要度計算ステップで算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行ステップと、を実行させることを特徴とする構造化文書処理プログラムである。
また、本発明の構造化文書処理プログラムにおいて、前記重要度計算ステップは、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出することを特徴とする。
また、本発明は、コンピュータに、前記重要度計算ステップで算出した前記重要度を履歴重要度として記憶する記憶ステップを実行させ、前記重要度計算ステップは、前記文書解析ステップで作成した前記モデルに基づいて算出した前記重要度と、前記記憶ステップで記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出することを特徴とする構造化文書処理プログラムである。
また、本発明の構造化文書処理プログラムにおいて、前記重要度計算ステップは、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てることを特徴とする。
本発明によれば、ユーザが過去に選択したリンク先以外のコンテンツデータについても先読みを行うことができ、コンテンツの関連性に基づいてコンテンツデータの先読みを行うことができる。
以下、図面を参照し、本発明の一実施形態を説明する。本発明による構造化文書処理システムの特徴は、文書解析部と、重要度計算部と、先読み実行部とを備える点である。この文書解析部は、HTML文書などの構造化文書からセクションを抽出し、各セクション同士の論理的距離を測定できる構造モデルを生成する。また、重要度計算部は、セクションの構造モデルに基づいて、各セクションに重要度を割り当てる。また、先読み実行部は、重要度計算部が各セクションに割り当てた重要度に基づいて、重要度が高いセクション内に含まれるリンク先のコンテンツデータを先読みする。
図1は、本発明による構造化文書処理システムの構成の一例を示すブロック図である。本実施形態における構造化文書処理システムは、具体的には、プログラムに従って動作するパーソナルコンピュータなどの情報処理装置によって実現される。この場合、構造化文書処理システムは、例えば、構造化文書をレンダリングするソフトウェアを搭載した携帯電話やPDA、パーソナルコンピュータ等のユーザ端末と、構造化文書を処理する構造化文書処理サーバとを含んでもよい。
図示する例では、構造化文書処理システムは、プログラム制御により動作する情報処理装置10と、情報を記憶する記憶装置11とを含む。情報処理装置10は、文書入力部100(文書入力手段)と、文書解析部101(文書解析手段)と、重要度計算部102(重要度計算手段)と、先読み実行部103(先読み実行手段)とを含む。重要度計算部102は、重要度生成部1020(重要度生成手段)と、重要度合成部1021(重要度合成手段)とを含む。また、記憶装置11は、具体的には、メモリやハードディスク装置等によって実現される。記憶装置11は、重要度記憶部110(重要度記憶手段)を含む。
文書入力部100は、外部から構造化文書を取得し、取得した構造化文書を文書解析部101に出力する機能を備える。例えば、文書入力部100は、ユーザの操作に従ってインターネット等の通信ネットワークを介して構造化文書(例えば、Webコンテンツなど)を受信し、文書解析部101に出力する。また、例えば、記憶装置11は構造化文書を記憶しており、文書入力部100は、ユーザの操作に従って記憶装置11から構造化文書を読み出し、文書解析部101に出力する。
文書解析部101は、文書入力部100が出力した構造化文書を解析して複数のセクションを抽出し、各セクションのレイアウト構成に基づいてセクション同士の論理的な位置関係を示したモデルを生成する機能を備える。例えば、文書解析部101は、モデルとして各セクションを葉とした木構造を生成してもよい。また、文書解析部101は、生成したモデルを重要度計算部102に出力する機能を備える。
重要度計算部102は、重要度生成部1020と、重要度合成部1021とを含む。重要度計算部102は、重要度記憶部110が記憶する履歴の重要度と、文書解析部101が出力するセクションの構造モデルとに基づいて、各セクションに重要度を割り当てる機能を備える。また、重要度計算部102は、各セクションの重要度を履歴の重要度として重要度記憶部110に記憶させる機能を備える。
重要度生成部1020は、文書解析部101が生成したセクションの構造モデルに基づいて、各セクションに特定の条件で得点を与える機能を備える。特定の条件で得点を与える例としては、ユーザの選択したリンクが属するセクションに最大の得点を与え、そのセクションとの論理的距離に応じて他のセクションに得点を与えるようにしてもよい。
重要度合成部1021は、重要度生成部1020が計算した得点と、重要度記憶部110が記憶する履歴の重要度とを合成して重要度を決定する機能を備える。合成とは、例えば、重要度生成部1020が計算した得点と、履歴の重要度との和をとってもよいし、平均をとってもよい。また、重要度合成部1021は、決定した各セクションの重要度を履歴の重要度として重要度記憶部110に記憶させる機能を備える。
記憶装置11は、重要度記憶部110を含む。重要度記憶部110は、重要度計算部102が各セクションに割り当てた履歴の重要度を記憶する。
先読み実行部103は、文書解析部101が出力したモデルと、重要度記憶部110が記憶している履歴の重要度とに基づいて、文書入力部100が取得した構造化文書に含まれるリンク先のコンテンツデータの先読みを行う。また、先読み実行部103は、先読みしたコンテンツデータを記憶装置11に記憶させる。
次に、図2を参照して構造化文書処理システムの動作について説明する。図2は、構造化文書処理システムがセクションのレイアウト構成に基づいて、各セクションに重要度を割り当てる処理の一例を示すフローチャートである。
はじめに、文書入力部100は構造化文書を取得する。例えば、文書入力部100は、通信ネットワークを介して構造化文書を受信する。また、例えば、文書入力部100は、記憶装置11に格納されている構造化文書を読み出す。続いて、文書入力部は取得した構造化文書を文書解析部101に出力する。
続いて、文書解析部101は、文書入力部100が出力した構造化文書を解析し、構造化文書に含まれているセクションを抽出する。続いて、文書解析部101は、抽出した各セクションのレイアウト構成に基づいて、セクション同士の論理的な位置関係を示したセクションのモデルを生成する。続いて、文書解析部101は、セクションのモデルを重要度計算部102に出力する(ステップS11)。モデルの生成方法については後述する。
続いて、重要度計算部102に含まれる重要度生成部1020は、文書解析部101が出力したセクションのモデルに基づいて、各セクションに特定の条件で得点を与える(ステップS12)。得点の与え方については後述する。
続いて、重要度計算部102に含まれる重要度合成部1021は、重要度生成部1020が各セクションに与えた得点と、記憶装置11が記憶する履歴の重要度とを合成し、合成した値を履歴の重要度として重要度記憶部110に記憶させる。また、重要度計算部102は、合成した履歴の重要度を先読み実行部103に出力する(ステップS13)。履歴の重要度の合成方法については後述する。
続いて、先読み実行部102は、重要度計算部102が出力した履歴の重要度に基づいて、重要度の高いセクションに含まれているリンク先のコンテンツデータを先読みする(ステップS14)。その後、処理を終了する。先読みするコンテンツの決定方法については後述する。
次に、本実施形態における構造化文書処理システムの具体例について説明する。なお、本具体例における構造化文書処理システムは、情報処理装置がパーソナルコンピュータであり、データ記憶装置が磁気ディスク装置であるものとする。
パーソナルコンピュータ(情報処理装置10)は、文書入力部100と、文書解析部101と、重要度計算部102と、先読み実行部103として機能する中央演算装置を含む。また、磁気ディスク装置(記憶装置)は、パーソナルコンピュータによって解析または計算されたセクションの履歴の重要度を記憶する。なお、情報処理装置は、サーバや携帯電話等でもよい。また、本具体例では、構造化文書の例として、Webコンテンツを対象とする。例えば、情報処理装置10は、インターネットを介してWebコンテンツを受信する。また、Webコンテンツは、レンダリングするために作成されたものであれば、HTMLやXMLなどの種類に寄らない。本実施例では、構造化文書をHTML文書とする。
本具体例では、まず、中央演算装置(文書入力部100)は、Webコンテンツの入力を受け付ける。続いて、中央演算装置(文書解析部101)は、文書入力部100が受け付けたWebコンテンツを解析してセクションを抽出する。続いて、セクションを抽出した順に、中央演算装置(文書解析部101)はセクションに番号を割り振る。例えば、1番最初に抽出したセクションには「1」を割り振る。なお、セクションの抽出方法は、文書記述要素や階層構造に注目した特開2006−155593が提案されており、本具体例ではこの方法を用いる。なお、本実施形態で用いるセクションの抽出方法はいかなる方法でもよい。
図3は、本具体例におけるWebコンテンツの構造化文書の記述形態を示した図である。図示する例では、構造化文書にはタグ<div>とタグ</div>とで挟まれた11個の要素a〜kが含まれている。
要素aと要素bと要素cとは深さ1の兄弟要素である。要素dと要素eと要素fとは深さ2の兄弟要素である。また、要素dと要素eと要素fとは、要素bのタグに挟まれているため、要素bの子である。要素gと要素hと要素iと要素jと要素kとは、深さ3の兄弟要素である。要素gと要素hとは、要素eのタグに挟まれているため、要素eの子である。
図4は、図3に示した構造化文書に含まれるセクションのレイアウト構成を示す図である。図示する例では、Webコンテンツにはセクション1〜8の8個のセクションが含まれている。セクション1はWebコンテンツの上部に配置されている。セクション2〜8が配置されている位置は図示するとおりである。
続いて、中央演算装置(文書解析部101)は、抽出したセクションのレイアウト構成に基づいてモデルを生成する。本具体例では、与えられた構造化文書が図4に示すような記述形態をしているため、文書解析部101は、文書を形成するタグの構造からセクションの階層を計算し、図5に示すような木構造モデルを生成する。
図5は、本実施形態における構造化文書の木構造モデルを示した図である。図示する例では、根の子は要素aと要素bと要素cとである。また、要素bの子は要素dと要素eと要素fとである。また、要素eの子は要素gと要素hとである。また、要素fの子は要素iと要素jと要素kとである。また、要素aに含まれるセクションはセクション1である。また、要素dに含まれるセクションはセクション2である。また、要素gに含まれるセクションはセクション3である。また、要素hに含まれるセクションはセクション4である。また、要素iに含まれるセクションはセクション5である。また、要素jに含まれるセクションはセクション6である。また、要素kに含まれるセクションはセクション7である。また、要素cに含まれるセクションはセクション8である。
続いて、中央演算装置(重要度生成部1020)は、ユーザからの命令を待ち、各セクションに与える得点を計算する。本具体例では、ユーザからの命令は、Webコンテンツのリンクが選択されることとする。また、得点の計算方法は、ユーザが選択したリンクが属するセクション(以下、基準セクションとする)から論理的距離が遠ざかるにつれて、セクションに与える得点を減らすアルゴリズムを採用する。また、セクションに与える得点を算出する式は「1/(論理的距離+1)」とする。論理的距離は基本的には文書解析部101がセクションに割り当てた番号の差の絶対値であるが、基準セクションと異なる兄弟要素に含まれるセクションについては論理的距離を同一とみなす。
図6は、図5に示した木構造モデルにおいて、セクション5を基準セクションとした場合、重要度生成部1020が各セクションに与えた点数を示した図である。この図において、セクション5を基準セクションとした場合、基準セクションと同じ要素に含まれていない兄弟要素に含まれるセクション3とセクション4とは論理的距離を同一とみなす。すなわち、セクション4とセクション5との論理的距離は1であり、セクション3とセクション5との論理的距離も1である。
セクション3とセクション4以外に論理的距離を同一とみなすセクションの組み合わせは無いため、その他のセクションに関しては、セクション数の差の絶対値が1増加する毎に、論理的距離が1増加する。
よって、セクション2とセクション5との論理的距離は2である。また、セクション1とセクション5との論理的距離は3である。また、セクション5とセクション6との論理的距離は1である。また、セクション5とセクション7との論理的距離は2である。また、セクション5とセクション8との論理的距離は3である。
上記の論理的距離に基づいて、重要度生成部1020は各セクションに点数を与える。セクション5に与える点数は1(=1/1)である。また、セクション3と、セクション4と、セクション6とに与える点数は0.5(=1/2)である。また、セクション2と、セクション7とに与える点数は0.33(=1/3)である。また、セクション1と、セクション8とに与える点数は0.25(=1/4)である。
続いて、中央演算装置(重要度合成部1021)は、重要度記憶部110から過去に各セクションに対して決定した重要度(履歴の重要度)を読み出し、重要度生成部1020が各セクションに与えた得点と、読み出した履歴の重要度とを合成して重要度を決定する。また、重要度合成部1021は決定した重要度を履歴の重要度として重要度記憶部110に記憶させる。
本具体例では重要度を決定する方法として、各セクションに与えた得点と、履歴の重要度との平均を重要度とする方法を用いる。この方法において、重要度は(履歴の重要度×選択回数+セクションに与えた得点)÷(選択回数+1)で算出することができる。なお、選択回数は重要度合成を行った回数である。現時点では、選択回数は0であり重要度記憶部110には履歴の重要度は記憶されていない(過去に各セクションに対して重要度を決定していない)ため、重要度生成部が各セクションに与えた得点が重要度(履歴の重要度)となる。
続いて、中央演算装置(先読み実行部103)は、重要度記憶部110から履歴の重要度を読み出し、重要度が高いセクション内に含まれるリンク先のコンテンツを先読みする。その後、処理を終了する。現時点での履歴の重要度は図6に示すとおりであるため、先読み実行手段は、はじめに履歴の重要度が「1」であるセクション5内に含まれるリンク先のコンテンツデータを先読みする。続いて、履歴の重要度が「0.5」であるセクション3とセクション4とセクション6内に含まれるリンク先のコンテンツデータを先読みする。続いて、履歴の重要度が「0.33」であるセクション2とセクション7内に含まれるリンク先のコンテンツデータを先読みする。続いて、履歴の重要度が「0.25」であるセクション1とセクション8内に含まれるリンク先のコンテンツデータを先読みする。
次に、重要度記憶部110に履歴の重要度が記憶されている場合における重要度生成部1020と重要度合成部1021の動作について説明する。重要度生成部1020は、ユーザからの命令を待ち、各セクションに与える得点を計算する。今回は、ユーザはセクション2に含まれるリンクを選択したとする。
図7は、図5に示した木構造モデルにおいて、セクション2を基準セクションとした場合の各セクションに与えられた点数を示した図である。この図において、セクション2を基準セクションとした場合、基準セクションと同じ要素に含まれていない兄弟要素に含まれているセクション3とセクション4とは論理的距離を同一とみなす。また、基準セクションと同じ要素に含まれていない兄弟要素に含まれているセクション5とセクション6とセクション7とは論理的距離を同一とみなす。
よって、セクション1とセクション2との論理的距離は1である。また、セクション2とセクション3との論理的距離は2である。また、セクション2とセクション4との論理的距離は2である。また、セクション2とセクション5との論理的距離は3である。また、セクション2とセクション6との論理的距離は3である。また、セクション2とセクション7との論理的距離は3である。また、セクション2とセクション8との論理的距離は4である。
上記の論理的距離に基づいて、重要度生成部1020は各セクションに点数を与える。セクション2に与える点数は1(=1/1)である。また、セクション1と、セクション3と、セクション4とに与える点数は0.5(=1/2)である。また、セクション5と、セクション6と、セクション7とに与える点数は0.33(=1/3)である。また、セクション8に与える点数は0.25(=1/4)である。
続いて、重要度合成部1021は、重要度記憶部110から過去に各セクションに対して決定した重要度(履歴の重要度)を読み出し、重要度生成部1020が各セクションに与えた得点と、読み出した履歴の重要度とを合成して重要度を決定する。また、重要度合成手段は決定した重要度を履歴の重要度として重要度記憶部110に記憶させる。
現時点では、選択回数は1であり重要度記憶部110には履歴の重要度が記憶されている。履歴の重要度は図7に示したとおりである。これにより、各セクションの履歴の重要度は図8に示すとおりとなる。図8は、本実施形態における履歴の重要度を示した図である。
セクション1の履歴の重要度は0.375である。セクション2の履歴の重要度は0.665である。セクション3の履歴の重要度は0.5である。セクション4の履歴の重要度は0.5である。セクション5の履歴の重要度は0.665である。セクション6の履歴の重要度は0.415である。セクション7の履歴の重要度は0.33である。セクション8の履歴の重要度は0.25である。
なお、重要度生成1020が各セクションに対して得点を与える方法としては、上述したアルゴリズム以外を用いてもよい。本発明では、基準セクションからの理論的距離に応じて各セクションに与える得点が減少する方法であれば得点の算出方法は問わない。例えば、本具体例ではセクション数が8であるため、基準セクションに8点を与え、他のセクションには(8−論理的距離)で算出した得点を与える方法を用いてもよい。
また、重要度計算部102(重要度生成部1020、重要度生成部1021)は、既に重要度が決定している他の構造化文書の履歴の重要度に基づいて重要度を決定してもよい。既に重要度が決定している構造化文書Aの重要度に基づいて、構造化文書Bの重要度を決定する方法について説明する。構造化文書Aの木構造モデルは図5に示した木構造モデルと同様とする。また、構造化文書Aに含まれるセクションのレイアウト構成は図4に示したレイアウト構成と同様とする。また、構造化文書Aに含まれる各セクションに与えられた重要度は図6に示した重要度と同様とする。
図9は、構造化文書Bの木構造モデルを示した図である。根の子は要素Aと要素Bと要素Cと要素Dとである。また、要素Cの子は要素Eと要素Fとである。また、要素Fの子は要素Gと要素Hとである。また、要素Hの子は要素Iと要素Jとである。また、要素Jの子は要素Kと要素Lと要素Mとである。また、要素Aに含まれるセクションはセクション1である。また、要素Bに含まれるセクションはセクション2である。また、要素Eに含まれるセクションはセクション3である。また、要素Gに含まれるセクションはセクション4である。また、要素Iに含まれるセクションはセクション5である。また、要素Kに含まれるセクションはセクション6である。また、要素Lに含まれるセクションはセクション7である。また、要素Mに含まれるセクションはセクション8である。また、要素Dに含まれるセクションはセクション9である。
図10は、構造化文書Bに含まれるセクションのレイアウト構成を示す図である。図示する例では、Webコンテンツにはセクションはセクション1〜9の9個含まれている。セクション1にはWebコンテンツの上部左側に配置されている。セクション2〜8が配置されている位置は図示するとおりである。
はじめに、重要度計算部102は、構造化文書Aと構造化文書Bとの木構造モデルを比較する。構造化文書Aのセクション1と、構造化文書Bのセクション1は、それぞれ深さ1で根の子である。これにより、重要度計算部102は、構造化文書Aのセクション1と構造化文書Bのセクション1とは木構造モデル内の位置付けが類似しているため、重要度も類似していると判断する。よって、重要度計算部102は構造化文書Bのセクション1の重要度を0.2と決定する。同様に、構造化文書Aのセクション2と構造化文書Bのセクション3の組み合わせ、構造化文書Aのセクション3と構造化文書Bのセクション4の組み合わせ、構造化文書Aのセクション8と構造化文書Bのセクション9の組み合わせはそれぞれ木構造モデル内の位置付けが類似しているため、重要度計算部102は構造化文書Aのセクションの重要度に基づいて構造化文書Bのセクションの重要度を決定する。
なお、重要度計算部102が他の構造化文書の履歴の重要度に基づいて重要度を決定する場合、木構造モデルを用いずに、セクション内の情報の種類に基づいて各構造化文書内に含まれているセクションの類似を判断してもよい。例えば、構造化文書Aのセクション2と構造化文書Bのセクション3とが、互いにサイトマップやニュース一覧などのリンクリストのセクションになっているならば、互いに重要度も類似していると判断する。この場合、重要度計算部102は構造化文書Bのセクション3の重要度を0.33と決定する。
上述したとおり、本実施形態によれば、セクション毎に重要度を決定し、この重要度の順に、セクション内に含まれるリンク先のコンテンツデータを先読みすることができる。また、本実施形態によれば、セクション毎に重要度を決定するため、ユーザが過去に選択したリンク先以外のコンテンツデータの先読みを行うことができる。また、本実施形態によれば、論理的距離に基づいてセクション毎に重要度を決定し、この重要度に基づいてコンテンツデータの先読みを行う。これにより、コンテンツの関連性に基づいてより的確にコンテンツデータの先読みを行うことができる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
また、構造化文書処理システムの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、セクション毎に重要度を決定し、コンテンツデータの先読みを行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
本発明の一実施形態における構造化文書処理システムの構成を示すブロック図である。 本実施形態における構造化文書処理システムの処理の手順を示すフローチャートである。 本実施形態におけるWebコンテンツの構造化文書の記述形態を示した図である。 本実施形態における構造化文書に含まれるセクションのレイアウト構成を示す図である。 本実施形態における構造化文書の木構造モデルを示した図である。 本実施形態において、重要度生成部が各セクションに与えた点数を示した図である。 本実施形態において、重要度生成部が各セクションに与えた点数を示した図である。 本実施形態における履歴の重要度を示した図である。 本実施形態における構造化文書の木構造モデルを示した図である。 本実施形態における構造化文書に含まれるセクションのレイアウト構成を示す図である。
符号の説明
10・・・情報処理装置、11・・・記憶装置、100・・・文書入力部、101・・・文書解析部、102・・・重要度計算部、103・・・先読み実行部、110・・・重要度記憶部、1020・・・重要度生成部、1021・・・重要度合成部

Claims (12)

  1. 構造化文書の先読みを行う構造化文書処理システムであって、
    前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析手段と、
    前記文書解析手段が作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算手段と、
    前記重要度計算手段が算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行手段と、
    を備えたことを特徴とする構造化文書処理システム。
  2. 前記重要度計算手段は、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出する
    ことを特徴とする請求項1に記載の構造化文書処理システム。
  3. 前記重要度計算手段が算出した前記重要度を履歴重要度として記憶する記憶手段
    を備え、
    前記重要度計算手段は、前記文書解析手段が作成した前記モデルに基づいて算出した前記重要度と、前記記憶手段が記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出する
    ことを特徴とする請求項1または請求項2のいずれか1項に記載の構造化文書処理システム。
  4. 前記重要度計算手段は、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てる
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の構造化文書処理システム。
  5. 構造化文書の先読みを行う構造化文書処理方法であって、
    前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析ステップと、
    前記文書解析ステップで作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算ステップと、
    前記重要度計算ステップで算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行ステップと、
    を含むことを特徴とする構造化文書処理方法。
  6. 前記重要度計算ステップは、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出する
    ことを特徴とする請求項5に記載の構造化文書処理方法。
  7. 前記重要度計算ステップで算出した前記重要度を履歴重要度として記憶する記憶ステップを含み、
    前記重要度計算ステップは、前記文書解析ステップで作成した前記モデルに基づいて算出した前記重要度と、前記記憶ステップで記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出する
    ことを特徴とする請求項5または請求項6のいずれか1項に記載の構造化文書処理方法。
  8. 前記重要度計算ステップは、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てる
    ことを特徴とする請求項5から請求項7のいずれか1項に記載の構造化文書処理方法。
  9. コンピュータに構造化文書の先読みを実行させる構造化文書処理プログラムであって、
    コンピュータに、
    前記構造化文書を構成するセクションのレイアウト構成に基づいて、前記セクションのモデルを作成する文書解析ステップと、
    前記文書解析ステップで作成した前記モデルに基づいて、前記セクションに割り当てる重要度を算出する重要度計算ステップと、
    前記重要度計算ステップで算出した前記重要度に基づいて、前記セクションに含まれるリンク先のコンテンツデータの先読みを行う先読み実行ステップと、
    を実行させることを特徴とする構造化文書処理プログラム。
  10. 前記重要度計算ステップは、ユーザの選択したリンクが含まれる前記セクションに割り当てる重要度が最大になるように前記重要度を算出し、当該セクションとの論理的距離に応じて他のセクションに割り当てる重要度が小さくなるように前記重要度を算出する
    ことを特徴とする請求項9に記載の構造化文書処理プログラム。
  11. コンピュータに、
    前記重要度計算ステップで算出した前記重要度を履歴重要度として記憶する記憶ステップを実行させ、
    前記重要度計算ステップは、前記文書解析ステップで作成した前記モデルに基づいて算出した前記重要度と、前記記憶ステップで記憶する履歴重要度とに基づいて、前記セクションに割り当てる重要度を算出する
    ことを特徴とする請求項9または請求項10のいずれか1項に記載の構造化文書処理プログラム。
  12. 前記重要度計算ステップは、当該構造化文書を構成する前記セクションの構造と他の構造化文書を構成する前記セクションの構造とを比較し、他の構造化文書を構成する前記セクションと構造が類似する当該構造化文書を構成する前記セクションに、他の構造化文書を構成する前記セクションに割り当てられた前記重要度から推測した重要度を割り当てる
    ことを特徴とする請求項9から請求項11のいずれか1項に記載の構造化文書処理プログラム。
JP2008151001A 2008-06-09 2008-06-09 構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラム Pending JP2009295122A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008151001A JP2009295122A (ja) 2008-06-09 2008-06-09 構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008151001A JP2009295122A (ja) 2008-06-09 2008-06-09 構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラム

Publications (1)

Publication Number Publication Date
JP2009295122A true JP2009295122A (ja) 2009-12-17

Family

ID=41543219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008151001A Pending JP2009295122A (ja) 2008-06-09 2008-06-09 構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラム

Country Status (1)

Country Link
JP (1) JP2009295122A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851071A (zh) * 2015-08-11 2018-03-27 三菱电机株式会社 web阅览装置和web阅览程序
KR101873494B1 (ko) * 2017-06-13 2018-07-31 계원예술대학교 산학협력단 종이 겹침 효과의 표현이 가능한 웹 문서 표시 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851071A (zh) * 2015-08-11 2018-03-27 三菱电机株式会社 web阅览装置和web阅览程序
KR101873494B1 (ko) * 2017-06-13 2018-07-31 계원예술대학교 산학협력단 종이 겹침 효과의 표현이 가능한 웹 문서 표시 장치

Similar Documents

Publication Publication Date Title
US10289649B2 (en) Webpage advertisement interception method, device and browser
US8578334B2 (en) Dynamic language-based integrated development environment
US9811602B2 (en) Method and apparatus for defining screen reader functions within online electronic documents
US9715557B2 (en) System, device and method for providing context sensitive content on a computing device
JP5793601B2 (ja) 自動スクロール実行システムおよび方法
JP2004310748A (ja) ユーザ入力に基づくデータの提示
JP2008026972A (ja) ウェブサイト構築支援システム、ウェブサイト構築支援方法およびウェブサイト構築支援プログラム
US11223663B1 (en) Providing personalized chat communications within portable document format documents
JP7438372B2 (ja) クライアントデバイスによるコンピュータ資産のアクティビティ予測、プリフェッチ、およびプリロードのための方法およびシステム
WO2012147936A1 (ja) 閲覧システム、端末、画像サーバ、プログラム、プログラムを記録したコンピュータ読み取り可能な記録媒体、及び方法
Ballamudi et al. Getting Started Modern Web Development with Next. js: An Indispensable React Framework
CN108228181A (zh) 在html页面中嵌入html页面的方法及装置
KR20230152629A (ko) 재구성된 질의를 생성하기 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP2009295122A (ja) 構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラム
KR100491613B1 (ko) 웹문서의 클로즈업 기능을 구비한 정보통신기기와 이것을 이용한 웹문서의 디스플레이 방법 및 그 방법을 기록한 기록매체
Lonka Improving the Initial Rendering Performance of React Applications Through Contemporary Rendering Approaches
JP4935396B2 (ja) Webコンテンツ提供装置、Webコンテンツ提供方法およびプログラム
JP5338298B2 (ja) ページ閲覧装置およびプログラム
KR101574893B1 (ko) 비휘발성 메모리를 이용한 웹 페이지의 레이아웃 캐싱 장치 및 방법
CN115427960A (zh) 使用完全依存森林的关系提取
US10706215B2 (en) Producing formula representations of mathematical text
JP4014361B2 (ja) 音声合成装置及び音声合成方法並びに音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009140173A (ja) Webサイトを推奨するサーバ装置、Webサイトの推奨方法、及びWebサイト推奨プログラム
JP5270199B2 (ja) テキスト検索処理を実行させるコンピュータソフトウエアプログラムおよびその処理方法
JP3967230B2 (ja) 画像情報表示システム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100702