JP4221620B2 - 文書解析システム、文書解析方法、及びプログラム - Google Patents

文書解析システム、文書解析方法、及びプログラム Download PDF

Info

Publication number
JP4221620B2
JP4221620B2 JP2007252357A JP2007252357A JP4221620B2 JP 4221620 B2 JP4221620 B2 JP 4221620B2 JP 2007252357 A JP2007252357 A JP 2007252357A JP 2007252357 A JP2007252357 A JP 2007252357A JP 4221620 B2 JP4221620 B2 JP 4221620B2
Authority
JP
Japan
Prior art keywords
document
layout
title
analysis
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007252357A
Other languages
English (en)
Other versions
JP2008033957A (ja
Inventor
勇臣 辰巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007252357A priority Critical patent/JP4221620B2/ja
Publication of JP2008033957A publication Critical patent/JP2008033957A/ja
Application granted granted Critical
Publication of JP4221620B2 publication Critical patent/JP4221620B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、構造化・半構造化文書からレイアウトを解析できる文書解析システム、文書解析方法、文書解析用プログラム、及び構造化・半構造化文書をレイアウトを利用して環境に適応できる文書適応システム、文書適応方法、文書適応プログラムに関する。
従来の文書解析システム、文書適応システムは、構造化・半構造化文書をレイアウトを保持したまま所望の表示条件で表示するため、文書記述要素の区切りの強さを用いてレイアウトを解析し、解析されたレイアウトの構成要素に表示領域を割り当て、構成要素の情報を各表示領域内に拡大表示といった所望の表示条件で表示したり、構成要素内のタイトルを各表示領域内に選択的に表示したりしていた(特開2001−184344号公報参照)。
ここで、文書記述要素とは、構造化・半構造化文書の記述単位となる要素を指し、例えば、HTML文書における、TABLE要素、A要素といったHTMLタグの要素を指す。また、レイアウトの構成要素とは、画面に代表される表示面を構成する、関連情報からなる部分領域を指し、例えば、HTML文書におけるある見出しの関連情報からなる部分領域を指す。
また、画面表示に適した文書を生成するため、文書記述要素の名前を用いたルールに従い特定の名前を持つ文書記述要素から目次文書を生成したり、目次の項目の内容を記述した文書を生成したりしていた(特開平9−251457号公報参照)。
更に、ユーザが所望する文書を生成するため、構造化・半構造化文書のURL、各文書の必要情報の存在箇所を示す文書記述要素の参照、当該必要情報を表示する領域に関するルールに従い必要情報からなる合成文書を生成していた(特開2004−139275号公報参照)。
本発明に関連して、特開平10−289250号公報は、登録されたURLの一覧を表示する際に、タイトル情報のみならず画像情報も表示させることにより、登録されたURLのページがどのようなページであったかを直感的に認識可能にする技術を開示している。
特開平11−203285号公報は、文書要素の行内位置を示す行属性を各行毎に決定し、文書要素を構成する各形態素の意味と文書要素の所属行の行属性とに基づいて文書要素の意味を各行毎に決定し、元文書の各文書要素を的確に意味付けする技術を開示している。
特開2003−85159号公報は、所望の構造化文書群の先頭文書を解析して自動的に目次を作成し、この目次と関連文書の画像データを合成することにより、読みやすい文書をユーザに提供する技術を開示している。
特開2004−86855号公報は、文書の内容と目次とを相互に参照しながら文書の作成編集を行うことを容易にするための技術を開示している。具体的には、この公知の技術では、文書の目次を生成する際に、目次項目に対応する文書内容情報を生成するためのリンクが埋め込まれる。そして、そのリンクを指示することによって、その目次項目を含む文書内容情報が生成される。生成の際に、目次の出力を指示するためのリンクを文書内容情報中に埋め込んでおく。文書内容情報中のリンクを指示することによって、その文書の内容に対応する目次項目を含む目次が生成される。この場合も、目次項目に対応する文書内容情報を生成するためのリンクが目次に埋め込まれる。
特開2003−288334号公報は、複数ページからなる印刷文書からタグ付けされた構造文書を高精度に生成するための技術を開示している。
特開2003−330856号公報は、ズーム状態を変更する操作に応じてレイアウト生成及び情報粒度の調整を動的に行うことにより、コンテンツの局所的な情報と大域的な情報の両方に快適にアクセスすることを可能にする技術を開示している。
従来技術における第1の問題点は、構造化・半構造化文書の文書解析システムにおいて、文書提供者が意図するレイアウトを必ずしも解析できないことである。その理由は、文書の記述方法は多様であるため、文書記述要素の区切りの強さを用いたレイアウト解析では文書提供者が意図するレイアウトを必ずしも解析できないないからである。
従来技術における第2の問題点は、構造化・半構造化文書の文書解析システムにおいて、一部のタイトルしか解析できないことである。その理由は、一般的にタイトルは文書記述要素の名前、属性、スタイル、内容を用いて表現されるため、文書記述要素の名前のみを用いたルールに従うタイトル解析では一部のタイトルしか解析できないからである。
従来技術における第3の問題点は、構造化・半構造化文書の文書解析システムにおいて、第三者が解析されたレイアウトの情報を利用しアプリケーションソフトウェアを開発できないことである。その理由は、従来の文書解析システムが、解析されたレイアウトの情報を第三者が利用できる形式で出力しないからである。
従来技術における第4の問題点は、構造化・半構造化文書の文書適応システムにおいて、文書提供者が意図する文書の論理構造を的確に捉えて、文書をネットワーク、端末、ユーザの環境に適応できないことである。その理由は、文書記述要素の名前を用いたルールに従い目次文書を生成する場合、一部のタイトルしか解析できず目次文書を正しく生成できないからである。また、文書のURL(Uniform Resource Locator)、文書の必要情報の存在箇所を示す文書記述要素の参照を用いてユーザが定義したルールに従い合成文書を生成する場合、文書更新時にユーザが所望する合成文書を正しく生成できない場合があり、これらのルールでは文書提供者が意図する文書の論理構造を的確に捉えられないからである。
特開2001−184344号公報 特開平9−251457号公報 特開2004−139275号公報 特開平10−289250号公報 特開平11−203285号公報 特開2003−85159号公報 特開2004−86855号公報 特開2003−288334号公報 特開2003−330856号公報
本発明の第1の目的は、文書提供者が意図するレイアウトを解析できる文書解析システムを提供することにある。
本発明の第2の目的は、タイトルを網羅的に解析できる文書解析システムを提供することにある。
本発明の第3の目的は、第三者が利用しアプリケーションソフトウェアを開発できる形式でレイアウトの情報を出力できる文書解析システムを提供することにある。
本発明の第4の目的は、文書提供者が意図する文書の論理構造を的確に捉えて、文書をネットワーク、端末、ユーザの環境に適応できる文書適応システムを提供することにある。
本発明の一の観点において、文書解析システムは、構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析する基本レイアウト解析部を具備する。
本発明の文書解析システムは、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部と、前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部と、前記基本レイアウト解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトルとを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するレイアウト解析部を具備する。
本発明の文書解析システムにおいて、前記レイアウト解析部は前記基本レイアウト解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトルと、前記レイアウト解析部で解析された前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を選別するブロック選別部と、前記基本レイアウト解析部で解析された前記レイアウトと、前記レイアウト解析部で解析された前記新しいレイアウトと、前記ブロック選別部で選別された前記レイアウトの主要な構成要素とを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するセクション計算部を具備する。
本発明の文書解析システムにおいて、前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析する。
本発明の文書解析システムにおいて、前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析する。
本発明の文書解析システムにおいて、前記基本レイアウト解析部は、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照する。
本発明の他の観点において、文書解析システムは、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部と、前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部とを具備する。
本発明の更に他の観点において、文書解析システムは、構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する出力部を具備する。
本発明の更に他の観点において、本発明の文書適応システムは、構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力する目次文書出力部と、前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力する項目文書出力部とを具備する。
本発明の更に他の観点において、本発明の文書適応システムは、前記構造化文書又は前記半構造化文書のURI(Universal Resource Identifier)と、前記構造化文書又は前記半構造化文書の出力構成要素のIDの組み合わせの集合を出力構成要素情報として記憶する出力構成要素情報記憶部と、前記出力構成要素情報と前記出力構成要素情報に記述されたURIに対応する前記構造化文書又は前記半構造化文書と前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成し出力する合成文書出力部とを具備する。
本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析するステップを具備する。
本発明の文書解析方法及び文書解析プログラムは、前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するステップと、前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップと、前記解析されたレイアウトと前記解析されたタイトルを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するステップを具備する。
本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステップにおいて、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析するステップを具備する。
本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステップにおいて、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析するステップを具備する。
本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステップにおいて、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照する。
本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するステップと、前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップとを具備する。
本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力するステップを具備する。
本願発明の文書適応方法及び文書適応プログラムは、構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力するステップと、前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力するステップとを具備する。
本発明の文書適応方法及び文書適応プログラムは、構造化文書又は半構造化文書のURIと、前記構造化文書又は前記半構造化文書の出力構成要素のIDの組み合わせの集合を出力構成要素情報として出力構成要素情報記憶部に記憶するステップと、前記出力構成要素情報と、前記出力構成要素情報に記述されたURIに対応する前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出力するステップとを具備する。
第1の効果は、文書提供者が意図するレイアウトを解析できることである。その理由は、文書記述要素の配置に基づきレイアウトを解析するからである。また、文書記述要素の配置に基づき解析されたレイアウトと、文書記述要素の名前に加え、属性、スタイル、内容を用いて解析されたタイトルを用いて、先に解析されたレイアウトの構成要素をグループ化することでタイトルなどをキーとする関連した構成要素の集合を新しい構成要素とする新しいレイアウトを生成するからである。
第2の効果は、タイトルを網羅的に解析できることである。その理由は、文書記述要素の名前に加え、属性、スタイル、内容を用いてタイトルを解析するからである。
第3の効果は、第三者が利用しアプリケーションソフトウェアを開発できる形式でレイアウトの情報を提供できることである。その理由は、解析されたレイアウトとタイトルを、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式で出力するからである。
第4の効果は、文書提供者が意図する文書の論理構造を利用して、文書をネットワーク、端末、ユーザの環境に適応できることである。その理由は、構造化・半構造化文書に加え、文書提供者が意図する文書の論理構造を反映するレイアウトの情報が記述された文書を用いて、文書を環境に適応するからである。
他にも、本発明は、文書の概要を表示する機能や音声読み上げする機能、文書の項目を選択的に表示する機能といった文書の論理構造を利用した文書閲覧システムや、文書閲覧システムをコンピュータに実現するためのプログラムといった用途に適用できる。また、文書の概要を生成する機能や概要に応じて文書を分割する機能、文書の項目を選択的に合成する機能といった文書の論理構造を利用した文書変換システムや、文書変換システムをコンピュータに実現するためのプログラムといった用途にも適用できる。
以下に本発明の実施形態について添付図面を参照して説明する。図1を参照すると、本発明の第1の実施形態のシステムは、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む。
データ処理装置1は、入力部11と、レイアウト解析ツール12と、出力部13とを備える。記憶装置2は、レンダリング結果記憶部21、解析結果記憶部22とを備える。
入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する。レイアウト解析ツール12は、基本レイアウト解析部14を有する。出力部13は、解析結果記憶部22からレイアウトの構成要素とその階層関係の情報を取得し、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式に整形し外部に出力する。ここで、レイアウトの構成要素にIDを与えて出力してもよい。
基本レイアウト解析部14は、レンダリング結果記憶部21からレンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化することでレイアウトを解析する。具体的には、指定された文書記述要素、例えば、ルートとなる文書記述要素や既に解析されたレイアウトの構成要素に属する文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化する。グループ化された文書記述要素、グループ化されず子供の文書記述要素のない文書記述要素はレイアウトの構成要素として解析結果記憶部22に記憶する。グループ化されなかった文書記述要素は当該文書記述要素の子供の文書記述要素を対象に、全ての文書記述要素がグループ化されるまで、又は子供の文書記述要素がなくなるまで再帰的に処理を繰り返す。
レンダリング結果記憶部21は入力部11の処理結果を、解析結果記憶部22はレイアウト解析ツール12の処理結果をそれぞれ記憶する。
以上の処理により、特定階層のレイアウト、つまりレイアウトの構成要素の集合を解析する。ここで、上記処理により解析されたレイアウトの構成要素について、更に、これに属する文書記述要素の配置を参照し、先のグループ化に用いられた方向の直交方向に並置された文書記述要素をグループ化し、先に解析されたレイアウトの構成要素を置き換える処理を所定の回数繰り返しレイアウトを解析してもよい。また、レイアウトの構成要素として解析された文書記述要素が親の文書記述要素から見て唯一の子供である場合、当該解析された文書記述要素を親の文書記述要素と置き換えてもよい。
次階層のレイアウトを解析する場合は、先に解析されたレイアウトの各構成要素について再度処理を行う。具体的には、先に解析されたレイアウトの構成要素についてこれに属する文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化した後、グループ化された文書記述要素以下の文書記述要素の配置を参照し、先のグループ化に用いられた方向の直交方向に並置された文書記述要素をグループ化する処理を所定の回数繰り返しレイアウトを解析する。ここで、次階層のレイアウトの解析の最初のグループ化に用いる方向として、上位レイアウトの解析の最後のグループ化に用いられた方向の直交方向を用いてもよい。次階層を解析する処理を繰り返せば、可能な範囲で任意の階層のレイアウトを解析できる。なお、上記処理において、文書記述要素として一部の指定された文書記述要素のみの配置を参照してもよい。以上の処理により、レイアウト、つまりレイアウトの構成要素とその階層関係を解析する。
次に、図1、図2を参照して本実施の形態の動作について詳細に説明する。入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する(ステップS101)。
基本レイアウト解析部14は、レンダリング結果記憶部21からレンダリング結果を取得し、処理対象階層nを1とし(ステップS102)、当該処理対象階層について処理を継続するかどうかを判定する(ステップS103)。判定基準としては、処理階層の上限値、解析された基本レイアウトの大きさを用いることができる。基本レイアウト解析部14は、処理を継続しないと判定した場合、ステップS107に進む。
基本レイアウト解析部14は、ステップS103で処理を継続すると判定した場合、処理対象となる文書記述要素を取得する(ステップS104)。
基本レイアウト解析部14は、処理対象となる文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化することでレイアウトを解析し、上位階層のレイアウトの構成要素と関連付けて解析結果記憶部22に記憶する(ステップS105)。
基本レイアウト解析部14は、処理対象階層nをn+1とし(ステップS106)、ステップS103以降の処理を繰り返す。
出力部13は、解析結果記憶部22からレイアウトの構成要素とその階層関係の情報を取得し、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式に整形し外部に出力する(ステップS107)。
本実施の形態では、構造化・半構造化文書の文書記述要素の配置を参照し並置された文書記述要素をグループ化することでレイアウトを解析するので、文書記述要素の配置に基づくレイアウトを解析できる。このため、記述方法が多様な構造化・半構造化文書においても、文書提供者が意図するレイアウトを解析できる。また、レイアウトを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイアウトの情報を利用した応用アプリケーションを開発できる。
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。図11を参照すると、本発明の第2の実施形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む。
データ処理装置1は、入力部11と、レイアウト解析ツール12と、出力部13とを備える。記憶装置2は、レンダリング結果記憶部21、解析結果記憶部22、タイトル解析ルール記憶部23とを備える。
入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する。レイアウト解析ツール12は、タイトル解析部15を有する。出力部13は、解析結果記憶部22からタイトルの集合を取得し、タイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。
レンダリング結果記憶部21は入力部11の処理結果を、解析結果記憶部22はレイアウト解析ツール12の処理結果をそれぞれ記憶する。タイトル解析ルール記憶部23は、タイトル解析ルール、すなわちタイトル判定の基準となる、文書記述要素の名前、属性、スタイル、内容の値に基づくルールを予め記憶する。
タイトル解析部15は、レンダリング結果記憶部21からレンダリング結果を、タイトル解析ルール記憶部23からタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。具体的には、指定された文書記述要素、例えば、ルートとなる文書記述要素、を処理対象要素とし、処理対象要素について文書記述要素の名前、属性、スタイル、内容をタイトル解析ルールと照合する。照合の結果タイトルと判定した場合、当該文書記述要素をタイトルとして解析結果記憶部22に記憶し、未処理の処理対象要素があればこれを対象に処理を続ける。
タイトルでないと判定した場合、当該文書記述要素の子供の文書記述要素を新たに処理対象要素とし、未処理の処理対象要素がなくなるまで処理を続ける。ここで、タイトル解析ルールとしては、「属性が文書内で唯一である」、「背景色や背景イメージが使用されている」、「文書内での使用頻度が低い文字色や文字サイズが使用されている」といったレンダリングイメージ上での文書記述要素の特異性に基づくルールを用いることができる。なお、上記処理において、文書記述要素として同じ名前、属性、スタイルを持つ複数の文書記述要素をグループ化したものを用いてもよい。以上の処理により、タイトルの集合を解析し解析結果記憶部22に記憶する。
次に、図11、図12を参照して本実施の形態の動作について詳細に説明する。入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する(ステップS201)。
タイトル解析部15は、レンダリング結果記憶部21からレンダリング結果を、タイトル解析ルール記憶部23からタイトル解析ルールをそれぞれ取得し、処理対象となる文書記述要素を取得する(ステップS202)。
タイトル解析部15は、処理対象の文書記述要素の有無を確認し、処理対象となる文書記述要素がないと判定した場合、ステップS208に進む(ステップS203)。
タイトル解析部15は、ステップS203で処理対象となる文書記述要素があると判定した場合、当該文書記述要素の名前や属性、スタイル、内容をタイトル解析ルールと照合する(ステップS204)。
タイトル解析部15は、ステップS204で照合によりタイトルでないと判定した場合、又はステップS206で文書記述要素をタイトルとして記憶した場合、次の処理対象となる文書記述要素を取得し、当該文書記述要素についてステップS203以下の処理を行う(ステップS205)。
タイトル解析部15は、ステップS204で照合によりタイトルであると判定した場合、当該文書記述要素をタイトルとして解析結果記憶部22に記憶し、ステップS205に進む(ステップ206)。
出力部13は、解析結果記憶部22からタイトルの集合を取得し、タイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する(ステップS207)。
次に、本実施の形態の効果について説明する。本実施の形態では、構造化・半構造化文書の文書記述要素の名前に加え、属性、スタイル、内容を用いてタイトルを解析するので、属性やスタイルを用いて表現されたタイトルも解析できる。このため、タイトルを網羅的に解析できる。また、タイトルを文書記述要素の参照を用いて表現する形式で出力するので、第三者がタイトルの情報を利用した応用アプリケーションを開発できる。
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。図16を参照すると、本発明の第3の実施形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む。
データ処理装置1は、入力部11と、レイアウト解析ツール12と、出力部13とを備える。記憶装置2は、レンダリング結果記憶部21、解析結果記憶部22、タイトル解析ルール記憶部23とを備える。
入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する。
レイアウト解析ツール12は、基本レイアウト解析部14と、タイトル解析部15と、レイアウト解析部16とを有する。
出力部13は、解析結果記憶部22から新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、新しいレイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。ここで、新しいレイアウトの構成要素にIDを与えて出力してもよい。
基本レイアウト解析部14は、レンダリング結果記憶部21からレンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化することでレイアウトを解析する。基本レイアウト解析部14の機能は、本発明の第1の実施の形態の基本レイアウト解析部14に示す機能と同じである。
タイトル解析部15は、レンダリング結果記憶部21からレンダリング結果を、タイトル解析ルール記憶部23からタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。タイトル解析部15の機能は、本発明の第2の実施の形態のタイトル解析部15に示す機能と同じである。
レイアウト解析部16は、解析結果記憶部22から、基本レイアウト解析部14で解析されたレイアウトの構成要素とその階層関係、タイトル解析部15で解析されたタイトルを取得し、タイトルを持たないレイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たない別のレイアウトの構成要素とグループ化することで新しいレイアウトを生成する。具体的には、まず第1階層のレイアウトの構成要素を取得し、構成要素と構成要素に内包されるタイトルを対応付ける。タイトルを持たない構成要素は、タイトルを持つ構成要素のうち、例えば、ソース上先頭に向かって最も近いものとグループ化する。最も近いタイトルを持つ構成要素がない場合は、例えば、最も近いタイトルを持たない構成要素とグループ化する。グループ化されたレイアウトの構成要素は、新しいレイアウトの構成要素として、当該構成要素に属するタイトルとともに解析結果記憶部22に記憶する。更に、上記処理を基本レイアウト解析部14で解析されたレイアウトの階層数分繰り返すことで、新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を解析する。
レンダリング結果記憶部21は入力部11の、解析結果記憶部22はレイアウト解析ツール12の、それぞれ処理結果を記憶する。タイトル解析ルール記憶部23は、タイトル解析ルールを予め記憶する。
次に、図16、図17を参照して本実施の形態の動作について詳細に説明する。入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する(ステップS301)。
基本レイアウト解析部14の動作は、本発明の第1の実施の形態に示す基本レイアウト解析部(図1の14)の動作と同じである(ステップS302〜ステップS306)。
タイトル解析部15の動作は、本発明の第2の実施の形態に示すタイトル解析部(図11の15)の動作と同じである(ステップS311〜ステップS316)。
レイアウト解析部16は、解析結果記憶部22から、基本レイアウト解析部14で解析されたレイアウトの構成要素とその階層関係、タイトル解析部15で解析されたタイトルを取得し、処理対象階層nを1とする(ステップS321)。
レイアウト解析部16は、処理対象階層のレイアウトの構成要素があるかどうかを判定し、処理対象階層のレイアウトの構成要素がないと判定した場合、ステップS331に進む(ステップS322)。
レイアウト解析部16は、ステップS322で処理対象階層のレイアウトの構成要素があると判定した場合、第n階層のレイアウトの構成要素を取得し(ステップS323)、第n階層のレイアウトの構成要素とタイトルを対応付ける(ステップS324)。
レイアウト解析部16は、タイトルを持たないレイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たない別のレイアウトの構成要素とグループ化することで新しいレイアウトの構成要素を解析し、解析結果記憶部22に記憶する(ステップS325)。
レイアウト解析部16は、処理対象階層nをn+1とし、ステップS322以降の処理を繰り返す(ステップS326)。
出力部13は、解析結果記憶部22から新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、新しいレイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する(ステップS331)。
ここで、基本レイアウト解析部14の動作(ステップS302〜ステップS306)と、タイトル解析部15の動作(ステップS311〜ステップS316)の実行順序を入れ替えてもよい。具体的には、ステップS301の直後にステップS311〜ステップS316が実行される形となり、ステップS312が「No」のときステップS302〜ステップS306が実行される。また、この場合、ステップS303が「No」のときステップS321に移行する形となる。
次に、本実施の形態の効果について説明する。本実施の形態では、文書記述要素の配置を参照し並置された文書記述要素をグループ化することで解析されたレイアウトと、文書記述要素の名前に加え、属性、スタイル、内容を用いて解析されたタイトルを用いて、タイトルを持たないレイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たない別のレイアウトの構成要素とグループ化することで、関連した構成要素の集合を新しい構成要素とする新しいレイアウトを生成するので、より論理構造を捉えたレイアウトを解析できる。このため、より文書提供者の意図を反映したレイアウトを解析できる。また、レイアウトやタイトルを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイアウトの情報を利用した応用アプリケーションを開発できる。
次に、本発明の第4の実施形態について図面を参照して詳細に説明する。図22を参照すると、本発明の第4の実施形態は、プログラム制御により動作するデータ処理装置5と、情報を記憶する記憶装置6とを含む。
データ処理装置5は、入力部51と、文書入力部52と、目次文書出力部53と、項目文書出力部54とを備える。記憶装置6は、構造化・半構造化文書記憶部61、レイアウト文書記憶部62とを備える。
入力部51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、ユーザが所望する構造化・半構造化文書のURI(Universal Resource Identifier)を取得する。また、入力部51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、出力を制御する。具体的には、取得された入力に応じて、目次文書を出力するか、目次の項目の内容を記述した文書を出力するかを判定し、目次の項目の内容を記述した文書を出力する場合は、出力する目次の項目も判定する。
文書入力部52は、入力部51で取得されたユーザが所望する構造化・半構造化文書のURIを用いて、当該文書を取得し、構造化・半構造化文書記憶部61に記憶する。また、文書入力部52は、取得した構造化・半構造化文書に指定された、レイアウトの情報が文書記述要素の参照を用いて記述された文書を取得し、レイアウト記憶部62に記憶する。ここで、文書入力部52は、通信プロトコルのヘッダー情報を利用するといった別の方法を用いて、取得した構造化・半構造化文書のレイアウトの情報が記述された文書を取得してもよい。また、取得した構造化・半構造化文書について、本発明の第3の実施の形態に示すシステムを用いて、レイアウトの情報を解析し、レイアウト文書記憶部62に記憶してもよい。
目次文書出力部53は、入力部51が目次を出力すると判定した場合、構造化・半構造化文書記憶部61からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部62から当該構造化・半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、目次文書を生成する。具体的には、レイアウトの情報が記述された文書から全ての末端のレイアウトの構成要素を抽出し、それぞれについて指定されたタイトルを抽出し、文書記述要素の参照を用いて元の構造化・半構造化文書から当該タイトルに対応する文書記述要素を抜き出し、整形して順に並べることで目次文書を生成する。ここで、タイトルの指定がない構成要素について、当該構成要素に対応する文書記述要素以下の内容から一定数の文字を抜き出し並べてもよい。また、特定階層のレイアウトの構成要素の間に仕切り線を挿入する、構造化・半構造化文書に別途与えられたタイトルを挿入するなど、目次に装飾を施してもよい。また、上位階層の構成要素が同じ1つ以上の末端のレイアウトの構成要素について、末端の構成要素に代え上位階層の構成要素を用いてもよい。生成した目次文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される。
項目文書出力部54は、入力部51が目次の項目の内容を記述した文書を出力すると判定し、出力する目次の項目を判定した場合、構造化・半構造化文書記憶部61からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部62から当該構造化・半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、指定された目次の項目の内容を記述した文書を生成する。具体的には、指定された目次の項目をタイトルとして持つレイアウトの構成要素を抽出し、文書記述要素の参照を用いて元の構造化・半構造化文書から当該構成要素に対応する文書記述要素を抜き出し、整形して順に並べることで目次の項目の内容を記述した文書を生成する。ここで、項目の内容として、抜き出された文書記述要素の内容を更に抜き出し並べてもよい。また、構造化・半構造化文書の文書記述要素を別の文書記述要素に置き換えた上で並べてもよい。さらに、目次の内容を記述した文書としてユーザが所望する構造化・半構造化文書そのものを用い、指定された目次の項目に対応する領域に位置合わせして出力してもよい。生成された目次の項目の内容を記述した文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される。
構造化・半構造化文書記憶部61、レイアウト文書記憶部62は、文書入力部52の処理結果を記憶する。ここで、目次文書出力部53が目次文書を生成した際当該目次文書を記憶するとともに、項目文書出力部54で目次の項目の内容を記述した全ての文書を予め生成し記憶しておき、ユーザ入力に対応した目次文書または目次の項目の内容を記述した文書を、目次文書出力部53または項目文書出力部54が選択し出力する構成としてもよい。
次に、図22、図23を参照して本実施の形態の動作について詳細に説明する。 入力部51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、ユーザが所望する構造化・半構造化文書のURIを取得する(ステップS401)。
文書入力部52は、取得されたURIを用いて文書を取得し、構造化・半構造化文書記憶部61に記憶する。また、文書入力部52は、取得した構造化・半構造化文書に指定された、レイアウトの情報が記述された文書を取得し、レイアウト文書記憶部62に記憶する(ステップS402)。
入力部51は、処理を続けるかどうかを判定し、処理を続けないと判定した場合、終了する(ステップS403)。
入力部51は、ステップS403で処理を続けると判定した場合、出力する内容が目次かどうかを判定する(ステップS404)。
目次文書出力部53は、ステップS404で目次を出力すると判定した場合、構造化・半構造化文書記憶部61からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部62から当該構造化・半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、目次文書を生成する。生成した目次文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される(ステップS405)。
項目文書出力部54は、ステップS404で目次を出力しないと判定した場合、出力する目次の項目を更に判定し、構造化・半構造化文書記憶部61からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部62から当該構造化・半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、指定された目次の項目の内容を記述した文書を生成する。生成された目次の項目の内容を記述した文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される(ステップS406)。
入力部51は、ステップS405で目次文書を出力した後、又はステップS406で目次の項目の内容を記述した文書を出力した後、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、ステップS403以降の処理を繰り返す(ステップS407)。
次に、本実施の形態の効果について説明する。本実施の形態では、構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を用いて目次文書や目次の項目の内容を記述した文書を生成、出力するので、文書提供者が意図する文書の論理構造を的確に捉えた目次を用いて文書を閲覧できるようになり、画面の小さい端末でも文書の全体像を把握しやすくなるとともに、少ない操作で文書を閲覧できる。このため、端末環境に適応した文書を提供できる。
次に、本発明の第5の実施形態について図面を参照して詳細に説明する。図27を参照すると、本発明の第5の実施形態は、プログラム制御により動作するデータ処理装置7と、情報を記憶する記憶装置8とを含む。
データ処理装置7は、文書入力部71と、合成文書出力部72とを備える。記憶装置8は、出力構成要素記憶部81と、構造化・半構造化文書記憶部82と、レイアウト文書記憶部83とを備える。
文書入力部71は、出力構成要素記憶部81から出力構成要素に関する情報を取得し、当該情報に記述されたURIに対応する文書を取得し、構造化・半構造化文書記憶部82に記憶する。また、文書入力部71は、取得したそれぞれの構造化・半構造化文書に指定された、レイアウトの情報が文書記述要素の参照を用いて記述された文書を取得し、レイアウト文書記憶部83に記憶する。ここで、文書入力部71は、通信プロトコルのヘッダー情報を利用するといった別の方法を用いて、取得した構造化・半構造化文書のレイアウトの情報が記述された文書を取得してもよい。また、取得した構造化・半構造化文書について、本発明の第3の実施の形態に示すシステムを用いて、レイアウトの情報を解析し、レイアウト文書記憶部83に記憶してもよい。
合成文書出力部72は、出力構成要素記憶部81から出力構成要素に関する情報を、構造化・半構造化文書記憶部82からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部83からレイアウトの情報が記述された文書をそれぞれ取得し、合成文書を生成する。具体的には、出力構成要素に関する情報から全てのURIと構成要素のIDの組み合わせを取得し、各URIに対応する文書から構成要素のIDに対応する構成要素を抽出し、文書記述要素の参照を用いて元の構造化・半構造化文書から当該構成要素に対応する文書記述要素を抜き出し、整形して順に並べることで合成文書を生成する。ここで、各構成要素について、これに属する文書記述要素の内容を更に抜き出し並べてもよい。生成された合成文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される。
ここで、出力構成要素に関する情報として構成要素のタイトルを表すテキスト情報を更に記憶し、合成文書出力部72で、出力する構成要素のIDに対応する構成要素を抽出した際、抽出された構成要素のタイトルと出力構成要素に関する情報に記憶された構成要素のタイトルを表すテキスト情報を照合し、異なる場合に当該テキスト情報を手掛かりとして正しい構成要素を検索し、出力構成要素に関する情報に記憶された出力する構成要素のIDを更新することで、レイアウトに変更があった場合でも適切な合成文書を生成できるようにしてもよい。また、出力構成要素に関する情報として表示位置の情報を更に記憶し、合成文書出力部72で、当該表示位置の情報を用いて合成文書を整形してもよい。
出力構成要素記憶部81は、出力する構成要素に関する情報、すなわち出力する構造化・半構造化文書のURIと当該文書のうち出力する構成要素のIDの組み合わせの集合を記憶する。構造化・半構造化文書記憶部82、レイアウト文書記憶部83は、文書入力部71の処理結果を記憶する。
次に、図27、図28を参照して本実施の形態の動作について詳細に説明する。文書入力部71は、出力構成要素記憶部81から出力構成要素に関する情報を取得する(ステップS501)。
文書入力部71は、取得された出力構成要素に関する情報に記述されたURIに対応する文書を取得し、構造化・半構造化文書記憶部82に記憶する。また、文書入力部71は、取得したそれぞれの構造化・半構造化文書に指定されたレイアウトの情報が記述された文書を取得し、レイアウト文書記憶部83に記憶する(ステップS502)。
合成文書出力部72は、出力構成要素記憶部81から出力構成要素に関する情報を、構造化・半構造化文書記憶部82からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部83から当該文書のレイアウトの情報が記述された文書をそれぞれ取得し、合成文書を生成する。生成された合成文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される(ステップS503)。
次に、本実施の形態の効果について説明する。本実施の形態では、出力構成要素に関する情報と構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を用いて、指定されたレイアウトの構成要素だけから成る合成文書を生成、出力するので、文書提供者が意図する文書の論理構造を的確に捉えた合成文書を用いて文書の必要な部分だけを閲覧できるようになり、ネットワーク帯域が限定された端末や画面の小さい端末でも快適に文書を閲覧できる。またユーザの好みに応じた文書を閲覧できる。このため、ネットワークや端末、ユーザの環境に適応した文書を提供できる。
次に、本発明の第6の実施形態について図面を参照して詳細に説明する。図32を参照すると、本発明の第6の実施形態は、本発明の第1、第2、第3の実施形態と同様に、データ処理装置1、記憶装置2を備える。
文書解析用プログラム3は、データ処理装置1に読み込まれデータ処理装置1の動作を制御し、記憶装置2にレンダリング結果記憶部21と解析結果記憶部22とタイトル解析ルール記憶部23を生成する。データ処理装置1は文書解析用プログラム3の制御により第1、第2、第3の実施形態におけるデータ処理装置1による処理と同一の処理を実行する。
次に、本発明の第7の実施形態について図面を参照して詳細に説明する。図33を参照すると、本発明の第7の実施形態は、本発明の第4の実施形態と同様に、データ処理装置5、記憶装置6を備える。
文書適応用プログラム4は、データ処理装置5に読み込まれデータ処理装置5の動作を制御し、記憶装置6に構造化・半構造化文書記憶部61とレイアウト文書記憶部62を生成する。データ処理装置5は文書適応用プログラム4の制御により第4の実施形態におけるデータ処理装置5による処理と同一の処理を実行する。
次に、本発明の第8の実施形態について図面を参照して詳細に説明する。図34を参照すると、本発明の第8の実施形態は、本発明の第5の実施形態と同様に、データ処理装置7、記憶装置8を備える。
文書適応用プログラム9は、データ処理装置7に読み込まれデータ処理装置7の動作を制御し、記憶装置8に出力構成要素記憶部81、構造化・半構造化文書記憶部82、レイアウト文書記憶部83を生成する。データ処理装置7は文書適応用プログラム9の制御により第5の実施形態におけるデータ処理装置7による処理と同一の処理を実行する。
次に、本発明の第9の実施形態について図面を参照して詳細に説明する。図35を参照すると、本発明の第9の実施形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む。
データ処理装置1は、入力部11と、レイアウト解析ツール12と、出力部13とを備える。記憶装置2は、レンダリング結果記憶部21、解析結果記憶部22、タイトル解析ルール記憶部23とを備える。
入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する。
レイアウト解析ツール12は、基本レイアウト解析部14と、タイトル解析部15と、レイアウト解析部16とを有する。
出力部13は、解析結果記憶部22からレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。
基本レイアウト解析部14は、レンダリング結果記憶部21からレンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化することでレイアウトを解析する。基本レイアウト解析部14の機能は、本発明の第1の実施の形態の基本レイアウト解析部14に示す機能と同じである。
タイトル解析部15は、レンダリング結果記憶部21からレンダリング結果を、タイトル解析ルール記憶部23からタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。タイトル解析部15の機能は、本発明の第2の実施の形態のタイトル解析部15に示す機能と同じである。
レイアウト解析部16は、ブロック選別部17、セクション計算部18とを有する。
ブロック選別部17は、解析結果記憶部22から、基本レイアウト解析部14で解析された第1のレイアウトの構成要素とその階層関係、レイアウト解析部16で解析された第2のレイアウトの構成要素とその階層関係を取得し、分割可能な第2のレイアウトの構成要素1つを選別し、これを構成する第1のレイアウトの構成要素を解析対象とする。さらに、タイトル解析部15で解析されたタイトルを取得し、解析対象の第1のレイアウトの構成要素とタイトルを対応付け、対応付けられたタイトルについて、これを構成する文書記述要素の名前、属性、スタイルに基づき主要なタイトルを選別する。その上で、主要なタイトルを持つ構成要素を主要な構成要素とする。ここで、解析対象の第1のレイアウトの構成要素について、これを構成する文書記述要素の名前、属性、スタイル、内容に基づき、当該構成要素が境界線か否かを判定し、境界線と判定したものを主要なレイアウトの構成要素としてもよいし、解析対象の第1のレイアウトの構成要素間の距離に基づき、直前の構成要素と所定の距離以上離れた構成要素などを主要な構成要素としてもよい。
セクション計算部18は、ブロック選別部17で選別された第1のレイアウトの構成要素について、主要でない構成要素を、主要な構成要素、又は主要でない別の構成要素とグループ化することで第2のレイアウトの構成要素を生成し、解析結果記憶部22に記憶する。具体的には、主要でない構成要素は、主要な構成要素のうち、例えば、ソース上先頭に向かって最も近いものとグループ化する。最も近い主要な構成要素がない場合は、例えば、最も近い主要でない構成要素とグループ化する。ここで、新たに生成された第2のレイアウトの構成要素を元の第2のレイアウトの構成要素と置き換えて記憶してもよいし、新たに生成された第2のレイアウトの構成要素を元の第2のレイアウトの構成要素の子供として記憶してもよい。また、境界線と判定された第1のレイアウトの構成要素を除き第2のレイアウトの構成要素として記憶してもよい。
次に、図35、図36を参照して本実施の形態の動作について詳細に説明する。入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する(ステップS901)。
基本レイアウト解析部14の動作は、本発明の第1の実施の形態に示す基本レイアウト解析部(図1の14)の動作と同じである(ステップS902〜ステップS906)。
タイトル解析部15の動作は、本発明の第2の実施の形態に示すタイトル解析部(図1の15)の動作と同じである(ステップS911〜ステップS916)。
ブロック選別部17は、解析結果記憶部22から、基本レイアウト解析部14で解析された第1のレイアウトの構成要素とその階層関係、タイトル解析部15で解析されたタイトル、レイアウト解析部F16で解析された第2のレイアウトの構成要素とその階層関係を取得する(ステップS921)。
ブロック選別部17は、分割可能な第2のレイアウトの構成要素があるかどうかを判定し、分割可能な第2のレイアウトの構成要素がないと判定した場合、ステップS931に進む(ステップS922)。ここで、判定基準として、第2のレイアウトの構成要素が内包するタイトルの数、第2のレイアウトの構成要素を構成する第1のレイアウトの構成要素のうちタイトルを持つものの数、第2のレイアウトの構成要素の面積や幅、高さなどを用いることができる。
ブロック選別部17は、ステップS923で分割可能な第2のレイアウトの構成要素があると判定した場合、分割可能な第2のレイアウトの構成要素1つを選別し、これを構成する第1のレイアウトの構成要素を解析対象とする(ステップS923)。
ブロック選別部17は、解析対象の第1のレイアウトの構成要素とタイトルを対応付け(ステップS924)、対応付けられたタイトルについて、これを構成する文書記述要素の名前、属性、スタイルに基づき主要なタイトルを選別する(ステップS925)。
ブロック選別部17は、ステップS925で選別された主要なタイトルを持つ第1のレイアウトの構成要素を主要な構成要素とする。ここで、解析対象の第1のレイアウトの構成要素について、これを構成する文書記述要素の名前、属性、スタイル、内容に基づき、当該構成要素が境界線か否かを判定し、境界線と判定したものやその次の構成要素をも主要なレイアウトの構成要素としてもよいし、解析対象の第1のレイアウトの構成要素間の距離に基づき、直前の構成要素と所定の距離以上離れた構成要素などをも主要な構成要素としてもよい(ステップS926)。
セクション計算部18は、ブロック選別部17で選別された第1のレイアウトの構成要素について、主要でない構成要素を、主要な構成要素、又は主要でない別の構成要素とグループ化することで第2のレイアウトの構成要素を生成し、解析結果記憶部22に記憶する(ステップS927)。
出力部13は、解析結果記憶部22から第2のレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、第2のレイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する(ステップS931)。
ここで、基本レイアウト解析部14の動作(ステップS902〜ステップS906)と、タイトル解析部15の動作(ステップS911〜ステップS916)の実行順序を入れ替えてもよい。
次に、本実施の形態の効果について説明する。本実施の形態では、タイトルを構成する文書記述要素の名前、属性、スタイルにより選別された主要なタイトルなどに基づき、第1のレイアウトの構成要素をグループ化し、新たな第2のレイアウトの構成要素を生成するので、より論理構造を捉えたレイアウトを解析できる。このため、より文書提供者の意図を反映したレイアウトを解析できる。また、レイアウトやタイトルを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイアウトの情報を利用した応用アプリケーションを開発できる。
次に、本発明の第1の実施例を図面を参照して説明する。かかる実施例は本発明の第1の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えている。
パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。
ここでは、構造化・半構造化文書として図3に示すHTML文書を対象に、第2階層までのレイアウトの解析について説明する。
中央演算装置は、HTML文書を外部から取得し、当該文書をレンダリングし、図3に示すレンダリング結果をメモリ装置に記憶する。中央演算装置は、レンダリング結果を取得し、まずbody要素の配置を参照する。図4に示すようにbody要素は水平方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は子供のHTML文書の要素の配置を参照する。図5に示すように子供のHTML文書の要素であるh1要素と2つのtable要素はいずれも水平方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は更に子供のHTML文書の要素の配置を参照する。
まず、h1要素について、図5に示すように子供のHTML文書の要素がないので、当該h1要素を第1のレイアウトの構成要素としてメモリ装置に記憶する。次に、第1番目のtable要素について、図6に示すように子供のHTML文書の要素であるtr要素は水平方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は更に子供のHTML文書の要素の配置を参照する。図7に示すように子供のHTML文書の要素であるtd要素は水平方向に並置されたHTML文書の要素がなくグループ化できないものの子供のHTML文書の要素がないので、当該td要素を第2のレイアウトの構成要素としてメモリ装置に記憶する。最後に、第2番目のtable要素について、図6に示すように子供のHTML文書の要素である2つのtr要素は水平方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は更に子供のHTML文書の要素の配置を参照する。
第1番目のtr要素について、図7に示すように子供のHTML文書の要素である2つのtd要素は水平方向に並置されているのでこれらをグループ化し、当該2つのtd要素を第3のレイアウトの構成要素としてメモリ装置に記憶する。第2番目のtr要素についても、図7に示すように子供のHTML文書の要素である2つのtd要素は水平方向に並置されているのでこれらをグループ化し、当該2つのtd要素を第4のレイアウトの構成要素としてメモリ装置に記憶する。
以上の処理により、図8に示す第1階層のレイアウトを解析する。第2階層のレイアウトを解析する場合は、第1階層のレイアウトの構成要素について、これに属するHTML文書の要素の配置を参照し垂直方向に並置されたHTML文書の要素をグループ化する。例えば、第3のレイアウトの構成要素について、図9に示すようにこれに属するHTML文書の要素である2つのtd要素はいずれも垂直方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は更に子供のHTML文書の要素の配置を参照する。第1番目のtd要素について、図9に示すように子供のHTML文書の要素がないので、当該td要素をレイアウトの構成要素としてメモリ装置に記憶する。第2番目のtd要素についても、図9に示すように子供のHTML文書の要素がないので、当該td要素をレイアウトの構成要素としてメモリ装置に記憶する。以上の処理により、第2階層のレイアウトを解析する。
中央演算装置は、解析されたレイアウトの構成要素とその階層関係の情報をメモリ装置から取得し、レイアウトの構成要素をHTML文書の要素の参照を用いて表現する形式、例えば、図10に示す形式に整形し、外部に出力する。
次に、本発明の第2の実施例を図面を参照して説明する。かかる実施例は本発明の第2の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えている。
パーソナルコンピュータは、入力部、レイアウト解析部、出力部、タイトル解析部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置には、図13に示すようなタイトル解析ルールが記憶されている。
ここでは、構造化・半構造化文書として図3に示すHTML文書を対象に説明する。中央演算装置は、HTML文書を外部から取得し、当該文書をレンダリングし、図3に示すレンダリング結果をメモリ装置に記憶する。
中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、body要素を処理対象HTML文書の要素とする。body要素について名前、属性、スタイル、内容をタイトル解析ルールと照合するとルールに合致しないため、body要素の子供のHTML文書の要素、すなわちh1要素と2つのtable要素を新しく処理対象HTML文書の要素に追加し、h1要素を次の処理対象HTML文書の要素とする。ここでh1要素について名前、属性、スタイル、内容をタイトル解析ルールと照合するとルールに合致するため、当該h1要素をタイトルとしてメモリ装置に記憶し、第1のtable要素を次の処理対象HTML文書の要素とする。上記処理を処理対象HTML文書の要素がなくなるまで繰り返す。例えば、処理対象HTML文書の要素が第2のtable要素の第1のtr要素の第1のtd要素であった場合は、当該td要素について名前、属性、スタイル、内容をタイトル解析ルールと照合する。当該td要素が背景色の指定があり高さが50pxで内容が5文字だったとすると、照合の結果ルールに合致するため、当該td要素をタイトルとしてメモリ装置に記憶する。以上の処理により、図14に示すタイトルを解析する。
中央演算装置は、解析されたタイトルの情報をメモリ装置から取得し、タイトルをHTML文書の要素の参照を用いて表現する形式、例えば、図15に示す形式に整形し、外部に出力する。
次に、本発明の第3の実施例を図面を参照して説明する。かかる実施例は本発明の第3の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えている。
パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析部、タイトル解析部、レイアウト解析部Fとして機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置にはタイトル解析ルールが記憶されている。
ここでは、構造化・半構造化文書として図3に示すHTML文書を対象に説明する。中央演算装置は、HTML文書を外部から取得し、当該文書をレンダリングし、図3に示すレンダリング結果をメモリ装置に記憶する。
中央演算装置は、レンダリング結果を取得し、レイアウトの構成要素とその階層関係を解析する。この機能や動作は、第1の実施例に示すものと同じである。
中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、タイトルを解析する。この機能や動作は、第2の実施例に示すものと同じである。
中央演算装置は、解析されたレイアウトの構成要素とその階層関係、タイトルを取得し、まず第1階層のレイアウトの構成要素を対象に解析する。第1階層のレイアウトの構成要素とタイトルの内包関係を調べると、図18に示すようにタイトルを持つレイアウトの構成要素とタイトルを持たないレイアウトの構成要素を解析できる。ここで、body要素下の第1のtable要素下の第1のtr要素下の第1のtd要素で与えられるレイアウトの構成要素はタイトルを持たないので、タイトルを持つレイアウトの構成要素、又はタイトルを持たない別のレイアウトの構成要素とのグループ化を図る。
具体的には、図19に示すように当該構成要素から見てソース上先頭に向かって最も近いタイトルを持つレイアウトの構成要素、すなわちbody要素下のh1要素で与えられるレイアウトの構成要素とグループ化し、新しいレイアウトの構成要素としてメモリ装置に記憶する。上記処理を全てのタイトルを持たないレイアウトの構成要素について行い、図20に示す第1階層の新しいレイアウトの構成要素を解析する。同様の処理を第2階層のレイアウトの構成要素に適用することで、第2階層の新しいレイアウトの構成要素も解析できる。
中央演算装置は、解析された新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係の情報をメモリ装置取得し、新しいレイアウトの構成要素とタイトルをHTML文書の要素の参照を用いて表現する形式、例えば、図21に示す形式に整形し、外部に出力する。
次に、本発明の第4の実施例を図面を参照して説明する。かかる実施例は本発明の第4の実施の形態に対応するものである。本実施例は、データ記憶装置としてパーソナルコンピュータを備えている。
パーソナルコンピュータは、入力部、文書入力部、目次文書出力部、項目文書出力部として機能する中央演算装置と、構造化・半構造化文書記憶部、レイアウト文書記憶部として機能するメモリ装置、磁気ディスク装置を有している。
ここでは、構造化・半構造化文書として図24Aに示すHTML文書を、当該HTML文書のレイアウトの情報が記述された文書として図24Bに示すXML文書を対象に説明する。
ユーザが携帯電話からhttp://www.nec.co.jp/news.htmlというURLを入力した場合、中央演算装置は、ネットワークを介して当該URLを取得し、さらにこれに対応する図24Aに示すHTML文書を取得し、メモリ装置に記憶する。また中央演算装置は、HTML文書を解析し当該文書のレイアウトの情報が記述された文書のURL、http://www.nec.co.jp/news.rdfを取得し、さらにこれに対応する図24Bに示すXML文書を取得し、メモリ装置に記憶する。
中央演算装置は、HTML文書とXML文書をメモリ装置から取得し、XML文書から全てのレイアウトの構成要素、urn:layout:1、urn:layout:2、urn:layout:2:1、urn:layout:2:2を抽出し、それぞれのレイアウトの構成要素についてタイトルに対応するHTML文書の要素、/body[1]/h1[1]、/body[1]/table[2]/tr[1]/td[1]/table[1]/tr[1]、/body[1]/table[2]/tr[1]/td[2]/table[1]/tr[1]をさらに抽出する。ここで、タイトルに対応するHTML文書の要素をHTML文書に照らし合わせ、それぞれの内容、「主要なニュース」、「政治」、「経済」を抽出し、A要素といったHTML文書の要素を付加して順に並べることで、図25に示すレンダリングイメージを持つ目次文書を生成する。生成された目次文書は、ネットワーク、携帯電話のWebブラウザを介してユーザに提示される。
ユーザが提示された目次HTML文書から「政治」を選んだ場合、中央演算装置は、ネットワークを介してこの情報を取得し、XML文書から「政治」をタイトルとして持つレイアウトの構成要素、urn:layout:2:1を抽出し、当該構成要素に属するHTML文書の要素、/body[1]/table[2]/tr[1]/td[1]を更に抽出する。また、構成要素に対応するHTML文書の要素をHTML文書に照らし合わせ、その内容を抽出し、目次へのリンクを始めとするナビゲーションを目的とするHTML文書の要素を付加して順に並べることで、図26に示すレンダリングイメージを持つ「政治」の内容に関する文書を生成する。生成された文書は、ネットワーク、携帯電話のWebブラウザを介してユーザに提示される。ここで、ユーザが提示された文書から目次を選んだ場合、中央演算装置は、再度目次文書を生成し、ユーザに提示する。また、同文書から「前」や「次」を選んだ場合、中央演算装置は、「政治」の前や次の項目である「主要なニュース」や「経済」の内容に関する文書を生成し、ユーザに提示する。
次に、本発明の第5の実施例を図面を参照して説明する。かかる実施例は本発明の第5の実施の形態に対応するものである。本実施例は、データ記憶装置としてパーソナルコンピュータを備えている。
パーソナルコンピュータは、文書入力部、合成文書出力部として機能する中央演算装置と、構造化・半構造化文書記憶部、レイアウト文書記憶部として機能するメモリ装置、磁気ディスク装置を有している。また、磁気ディスク装置には、図29に示すような出力構成要素に関する情報が記憶されている。
ここでは、構造化・半構造化文書として図24Aと図30Aに示すHTML文書を、それぞれのHTML文書のレイアウトの情報が記述された文書として図24Bと図30Bに示すXML文書を対象に説明する。
中央演算装置は、出力構成要素に関する情報に記述された、http://www.nec.co.jp/news.htmlとhttp://www.nec.co.jp/stock.htmlの2つのURLを取得し、さらにこれに対応する図24Aと図30Aに示すHTML文書を取得し、メモリ装置に記憶する。また、中央演算装置は、それぞれのHTML文書を解析し当該文書のレイアウトの情報が記述された文書のURL、http://www.nec.co.jp/news.rdfとhttp://www.nec.co.jp/stock.rdfを取得し、さらにこれに対応する図24Bと図30Bに示すXML文書を取得し、メモリ装置に記憶する。
中央演算装置は、出力構成要素に関する情報から、2つのURLに対応する文書の出力する構成要素のID、urn:layout:2:1、urn:layout:1を取得する。更に、中央演算装置は、HTML文書とXML文書をメモリ装置から取得し、XML文書から出力する構成要素のIDに対応するHTML文書の要素、すなわち、http://www.nec.co.jp/news.htmlについては/body[1]/table[2]/tr[1]/td[1]/table[1]/tr[1]を、http://www.nec.co.jp/stock.htmlについては/body[1]/table[1]を抽出する。ここで出力する構成要素に対応するHTML文書の要素をHTML文書に照らし合わせ、整形して順に並べることで、図31に示すレンダリングイメージを持つ合成文書を生成する。生成された合成文書は、例えば、ネットワーク、携帯電話のWebブラウザを介してユーザに提示される。
次に、本発明の第6の実施例を図面を参照して説明する。かかる実施例は本発明の第9の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えている。
パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析部、タイトル解析部、レイアウト解析部F、ブロック選別部、セクション計算部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置にはタイトル解析ルールが記憶されている。
ここでは、構造化・半構造化文書として図37に示すHTML文書を対象に説明する。中央演算装置は、HTML文書を外部から取得し、当該文書をレンダリングし、レンダリング結果をメモリ装置に記憶する。
中央演算装置は、レンダリング結果を取得し、第1のレイアウトの構成要素とその階層関係を解析する。この機能や動作は、第1の実施例に示すものと同じである。
中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、タイトルを解析する。この機能や動作は、第2の実施例に示すものと同じである。
中央演算装置は、解析された第1のレイアウト、第2のレイアウトを取得し、分割可能な第2のレイアウトの構成要素1つを選別し、これを構成する第1のレイアウトの構成要素を解析対象とする。図38は解析の途中の状態を表している。ここで、/body[1]/div[2]〜div[6]で成る第2のレイアウトの構成要素は、これを構成する第1のレイアウトの構成要素、すなわち/body[1]/div[2]、/body[1]/div[3]、・・・、/body[1]/div[6]それぞれで成る構成要素のうちタイトルをもつものが2つ以上あるため、分割可能な第2のレイアウトの構成要素となっている。そこでこの場合、/body[1]/div[2]、/body[1]/div[3]、・・・、/body[1]/div[6]それぞれで成る構成要素が解析対象の第1のレイアウトの構成要素となる。
中央演算装置は、解析されたタイトルを取得し、図39に示すように解析対象の第1のレイアウトの構成要素に内包されるタイトルを選別する。さらに、選別されたタイトルの位置を調べ、図40に示すように最も左に位置する/body[1]/div[2]で成るタイトルの左端を起点に水平方向に所定距離以内に左端が位置する/body[1]/div[2]で成るタイトル、/body[1]/div[4]で成るタイトルを主要なタイトルとして選別する。さらに、図41に示すように主要なタイトルを内包する第1のレイアウトの構成要素を主要な構成要素とする。
なお、主要なタイトルを選別する方法として、図42に示すように背景色などスタイルが類似するタイトルを主要なタイトルとして選別する方法や、図43に示すように位置を基準に一定数あるいは一定割合のタイトルを主要なタイトルとして選別する方法、位置やスタイルの類似度を組み合わせて主要なタイトルを選別する方法などを用いてもよい。
また、解析対象の第1のレイアウトの構成要素について、図44に示すように当該構成要素が境界線か否かを判定し、境界線と判定したものを主要な構成要素としてもよい。ここでは構成要素の内容により、hr要素を持つ/body[1]/div[5]で成る構成要素を主要な構成要素としている。なお、境界線の判定方法として、解析対象の第1のレイアウトの構成要素の幅や高さ、当該構成要素を構成する文書記述要素の境界などのスタイル、当該構成要素を構成する文書記述要素の内容である画像の幅や高さなどを用いてもよい。
中央演算装置は、図45に示すように主要でない構成要素を主要な構成要素、または主要でない別の構成要素と、ソース上の距離に基づきグループ化し新たな第2のレイアウトの構成要素を生成する。例えば/body[1]/div[3]で成る主要でない構成要素は、ソース上先頭に向かって最も近い主要な構成要素、/body[1]/div[2]で成る構成要素とグループ化する。ここで解析された2つの新たな第2のレイアウトの構成要素は、元の第2のレイアウトの構成要素の子供としてメモリ装置に記憶する。なお、解析された第2のレイアウトの構成要素を元の第2のレイアウトの構成要素と置き換えてメモリ装置に記憶してもよいし、元の第2のレイアウトの構成要素や解析された第2のレイアウトの構成要素のスタイルや内容に基づき、置き換えて記憶するか、子供として記憶するかを選択してもよい。同様の処理を分割可能な第2のレイアウトの構成要素に適用することで、第2のレイアウトの構成要素とその階層関係を完全に解析できる。
中央演算装置は、解析された第2のレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係の情報をメモリ装置から取得し、第2のレイアウトの構成要素とタイトルをHTML文書の要素の参照を用いて表現する形式、例えば、第3の実施例に示す形式に整形し、外部に出力する。ここでレイアウトの構成要素にIDを与えて出力してもよい。
上記の実施形態を実施することにより、発明が解決しようとする課題として記載した本発明の目的を達成できる。
本発明の第1の文書解析システムは、構造化・半構造化文書のレンダリング結果を取得し、文書記述要素の配置を参照し並置された文書記述要素をグループ化することでレイアウトを解析する基本レイアウト解析部(図1の14)と、解析されたレイアウトを、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式で出力する出力部(図1の13)を有する。このような構成を採用し、文書記述要素の配置に基づきレイアウトを解析し、解析されたレイアウトを第三者が利用できる形式で出力することにより、本発明の第1、第3の目的を達成できる。
本発明の第2の文書解析システムは、タイトル解析ルールを記憶したタイトル解析ルール記憶部(図11の23)と、構造化・半構造化文書のレンダリング結果とタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析するタイトル解析部(図11の15)と、解析されたタイトルを文書記述要素の参照を用いて表現する形式で出力する出力部(図11の13)を有する。このような構成を採用し、文書記述要素の名前に加え、属性、スタイル、内容を用いて網羅的にタイトルを解析し、解析されたタイトルを第三者が利用できる形式で出力することにより、本発明の第2、第3の目的を達成できる。
本発明の第3の文書解析システムは、タイトル解析ルールを記憶したタイトル解析ルール記憶部(図16の23)と、構造化・半構造化文書のレンダリング結果を取得し、文書記述要素の配置を参照し並置された文書記述要素をグループ化することでレイアウトを解析する基本レイアウト解析部(図16の14)と、構造化・半構造化文書のレンダリング結果とタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析するタイトル解析部(図16の15)と、基本レイアウト解析部で解析されたレイアウトとタイトル解析部で解析されたタイトルを取得し、タイトルを持たないレイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たないレイアウトの構成要素とグループ化することで新しいレイアウトを生成するレイアウト解析部(図16の16)と、解析された新しいレイアウトを、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式で出力する出力部(図16の13)を有する。このような構成を採用し、タイトルを代表情報とする関連した構成要素の集合を新しい構成要素とする新しいレイアウトを生成し、解析されたレイアウトとタイトルを第三者が利用できる形式で出力することにより、本発明の第1、第2、第3の目的を達成できる。
本発明の第1の文書適応システムは、ユーザが所望する構造化・半構造化文書のURI(Uniform Resource Identifiers)を取得する、またユーザ入力を取得し、目次文書や目次の項目の内容を記述した文書の出力を制御する入力部(図22の51)と、ユーザが所望する構造化・半構造化文書のURIに対応する文書を取得し、また取得した文書に対応するレイアウトの情報が記述された文書を取得する文書入力部(図22の52)と、ユーザが所望する構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を取得し、目次文書を生成、出力する目次文書出力部(図22の53)と、ユーザが所望する構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を取得し、指定された目次の項目の内容を記述した文書を生成、出力する項目文書出力部(図22の54)を有する。このような構成を採用し、構造化・半構造化文書と当該文書の論理構造を適切に反映するレイアウトの情報が記述された文書を用いて目次文書や目次の項目の内容を記述した文書を生成、出力することにより、文書提供者が意図する文書の論理構造を的確に捉えた目次を用いて文書を閲覧できるようになり、本発明の第4の目的を達成できる。
本発明の第2の文書適応システムは、出力構成要素に関する情報を記憶した出力構成要素記憶部(図27の81)と、出力構成要素に関する情報を取得し、当該情報に記述されたURIに対応する構造化・半構造化文書を取得し、また取得した文書に対応するレイアウトの情報が記述された文書を取得する文書入力部(図27の71)と、出力構成要素に関する情報と構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を取得し、合成文書を生成、出力する合成文書出力部(図27の72)を有する。このような構成を採用し、出力構成要素に関する情報と構造化・半構造化文書と当該文書の論理構造を適切に反映するレイアウトの情報が記述された文書を用いて、指定されたレイアウトの構成要素から成る合成文書を生成、出力することにより、文書提供者が意図する文書の論理構造を的確に捉えた合成文書を用いて文書の必要な部分だけを閲覧できるようになり、本発明の第4の目的を達成できる。
本発明の第1の発明を実施するための実施形態の構成を示すブロック図である。 本発明の第1の発明を実施するための実施形態の動作を示す流れ図である。 HTML文書の例を示す図である。 本発明の第1の実施形態を説明するための図である。 本発明の第1の実施形態を説明するための図である。 本発明の第1の実施形態を説明するための図である。 本発明の第1の実施形態を説明するための図である。 本発明の第1の実施形態を説明するための図である。 本発明の第1の実施形態を説明するための図である。 本発明の第1の実施形態の出力形式の例を示す図である。 本発明の第2の発明を実施するための実施形態の構成を示すブロック図である。 本発明の第2の発明を実施するための実施形態の動作を示す流れ図である。 本発明の第2の実施形態のタイトル解析ルールの例を示す図である。 本発明の第2の実施形態を説明するための図である。 本発明の第2の実施形態の出力形式の例を示す図である。 本発明の第3の発明を実施するための実施形態の構成を示すブロック図である。 本発明の第3の発明を実施するための実施形態の動作を示す流れ図である。 本発明の第3の実施形態を説明するための図である。 本発明の第3の実施形態を説明するための図である。 本発明の第3の実施形態を説明するための図である。 本発明の第3の実施形態の出力形式の例を示す図である。 本発明の第4の発明を実施するための実施形態の構成を示すブロック図である。 本発明の第4の発明を実施するための実施形態の動作を示す流れ図である。 HTML文書とXML文書の例のうちHTML文書を示す図である。 HTML文書とXML文書の例のうちXML文書を示す図である。 本発明の第4の実施形態の目次文書の例を示す図である。 本発明の第4の実施形態の項目文書の例を示す図である。 本発明の第5の発明を実施するための実施形態の構成を示すブロック図である。 本発明の第5の発明を実施するための実施形態の動作を示す流れ図である。 本発明の第5の実施形態の出力構成要素に関する情報の例を示す図である。 HTML文書とXML文書の例のうちHTML文書を示す図である。 HTML文書とXML文書の例のうちXML文書を示す図である。 本発明の第5の実施形態の合成文書の例を示す図である。 本発明の第6の実施形態の構成を示すブロック図である。 本発明の第7の実施形態の構成を示すブロック図である。 本発明の第8の実施形態の構成を示すブロック図である。 本発明の第9の実施形態の構成を示すブロック図である。 本発明の第9の実施形態の動作を示す流れ図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。
符号の説明
1… データ処理装置
2… 記憶装置
3… 文書解析用プログラム
4… 文書適応用プログラム
5… データ処理装置
6… 記憶装置
7… データ処理装置
8… 記憶装置
9… 文書適応用プログラム
11… 入力部
12… レイアウト解析部
13… 出力部
14… 基本レイアウト解析部
15… タイトル解析部
16… レイアウト解析部F
21… レンダリング結果記憶部
22… 解析結果記憶部
23… タイトル解析ルール記憶部
51… 入力部
52… 文書入力部
53… 目次文書出力部
54… 項目文書出力部
61… 構造化・半構造化文書記憶部
62… レイアウト文書記憶部
71… 文書入力部
72… 合成文書出力部
81… 出力構成要素記憶部
82… 構造化・半構造化文書記憶部
83… レイアウト文書記憶部

Claims (3)

  1. 解析結果記憶部と、
    構造化文書又は半構造化文書に含まれる文書記述要素の表示上の配置を参照して一定方向に並置された前記文書記述要素をグループ化し、グループ化された前記文書記述要素及びグループ化されなかった前記文書記述要素を前記構造化文書又は前記半構造化文書の第1のレイアウトの構成要素として前記解析結果記憶部に記憶する基本レイアウト解析部と、
    前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の情報を用いて定義されたタイトル解析ルールを記憶するタイトル解析ルール記憶部と、
    前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の情報と前記タイトル解析ルールとを照合し、タイトルと判定した前記文書記述要素をタイトルとして抽出して前記解析結果記憶部に記憶するタイトル解析部と、
    前記解析結果記憶部に記憶された前記第1のレイアウトの構成要素のうち、前記タイトルを持たない構成要素を、前記タイトルを持つ構成要素、又は前記タイトルを持たない他の構成要素とグループ化して、グループ化された構成要素を前記第2のレイアウトの構成要素として前記解析結果記憶部に記憶するレイアウト解析部と、
    前記第2のレイアウト及び前記タイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する出力部
    とを具備する
    文書解析システム。
  2. 基本レイアウト解析手段と、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の情報を用いて定義されたタイトル解析ルールを記憶するタイトル解析ルール記憶手段と、タイトル解析手段と、レイアウト解析手段と、解析結果記憶手段とを具備する文書解析システムによって構造化文書又は半構造化文書を解析する文書解析方法であって、
    前記基本レイアウト解析手段が、構造化文書又は半構造化文書に含まれる文書記述要素の表示上の配置を参照し、一定方向に並置された前記文書記述要素をグループ化し、グループ化された前記文書記述要素及びグループ化されなかった前記文書記述要素を前記構造化文書又は前記半構造化文書の第1のレイアウトの構成要素として前記解析結果記憶手段に記憶するステップと、
    前記タイトル解析手段が、前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の情報と前記タイトル解析ルールとを照合し、タイトルと判定した前記文書記述要素をタイトルとして抽出して前記解析結果記憶手段に記憶するステップと、
    前記レイアウト解析手段が、前記解析結果記憶手段に記憶された前記第1のレイアウトの構成要素のうち、前記タイトルを持たない構成要素を、前記タイトルを持つ構成要素、又は前記タイトルを持たない他の構成要素とグループ化して、グループ化された構成要素を第2のレイアウトの構成要素として前記解析結果記憶手段に記憶するステップと、
    前記文書解析システムの出力手段が、前記第2のレイアウト及び前記タイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力するステップ
    とを具備する
    文書解析方法。
  3. 構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の情報を用いて定義されたタイトル解析ルールを記憶するタイトル解析ルール記憶手段と、解析結果記憶手段とを備えるコンピュータを、
    構造化文書又は半構造化文書に含まれる文書記述要素の表示上の配置を参照し、一定向に並置された前記文書記述要素をグループ化して、グループ化された前記文書記述要素及びグループ化されなかった前記文書記述要素を前記構造化文書又は前記半構造化文書の第1のレイアウトの構成要素として前記解析結果記憶手段に記憶する基本レイアウト解析手段、
    前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の情報と前記タイトル解析ルールとを照合し、タイトルと判定した前記文書記述要素をタイトルとして抽出して前記解析結果記憶手段に記憶するタイトル解析手段、
    前記解析結果記憶手段に記憶された前記第1のレイアウトの構成要素のうち、前記タイトルを持たない構成要素を、前記タイトルを持つ構成要素、又は前記タイトルを持たない他の構成要素とグループ化して、グループ化された構成要素を前記第2のレイアウトの構成要素として前記解析結果記憶手段に記憶するレイアウト解析手段、及び
    前記第2のレイアウト及び前記タイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する出力手段
    として機能させるためのプログラム。
JP2007252357A 2004-10-25 2007-09-27 文書解析システム、文書解析方法、及びプログラム Expired - Fee Related JP4221620B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007252357A JP4221620B2 (ja) 2004-10-25 2007-09-27 文書解析システム、文書解析方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004310238 2004-10-25
JP2007252357A JP4221620B2 (ja) 2004-10-25 2007-09-27 文書解析システム、文書解析方法、及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006543141A Division JP4124261B2 (ja) 2004-10-25 2005-10-25 文書解析システム、文書解析方法、及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2008033957A JP2008033957A (ja) 2008-02-14
JP4221620B2 true JP4221620B2 (ja) 2009-02-12

Family

ID=39123228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007252357A Expired - Fee Related JP4221620B2 (ja) 2004-10-25 2007-09-27 文書解析システム、文書解析方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP4221620B2 (ja)

Also Published As

Publication number Publication date
JP2008033957A (ja) 2008-02-14

Similar Documents

Publication Publication Date Title
JP4124261B2 (ja) 文書解析システム、文書解析方法、及びそのプログラム
JP4829662B2 (ja) 自動レイアウトシステムおよび情報提供方法およびサーバーシステム
US7176931B2 (en) Modifying hyperlink display characteristics
CA2372544C (en) Information access method, information access system and program therefor
US9436419B2 (en) Selectively printing portions of a web page based on user selection
JP2009524883A (ja) デジタルコンテンツのネットワークへの提示
JP4009971B2 (ja) 電子化サービスマニュアル表示用プログラム、プログラムが記録された記録媒体、電子化サービスマニュアル表示制御方法、並びに電子化サービスマニュアル表示制御装置
US20160179834A1 (en) Information processing apparatus, search server, web server, and non-transitory computer readable storage medium
JPWO2006137563A1 (ja) データ処理装置及びデータ処理方法
JPWO2006137562A1 (ja) 文書処理装置及び文書処理方法
JP2008107904A (ja) テキスト及びアニメーションサービス装置及びコンピュータプログラム
Luczak-Rösch et al. Linked Data Authoring for Non-Experts.
CN103246691A (zh) 文档管理系统及其方法
JP4344105B2 (ja) ソースファイル生成装置
JP2002215519A (ja) ウェブページ生成方法およびシステム、ウェブページ生成プログラム、記録媒体
KR101069278B1 (ko) 청구항 시각화 장치 및 방법
JP4003795B2 (ja) 電子化サービスマニュアル表示用プログラム、プログラムが記録された記録媒体、電子化サービスマニュアル表示制御方法、並びに電子化サービスマニュアル表示制御装置
JP4221620B2 (ja) 文書解析システム、文書解析方法、及びプログラム
KR20050071720A (ko) 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치
KR20080060690A (ko) 웹문서 스타일 변경 시스템 및 방법
JP2006155593A (ja) 文書解析システム、及び文書適応システム
JP4026153B2 (ja) 電子化サービスマニュアル表示用プログラム、プログラムが記録された記録媒体、電子化サービスマニュアル表示制御方法、並びに電子化サービスマニュアル表示制御装置
JP2021039579A (ja) ドキュメント作成支援システム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2007133763A (ja) 要素情報比較装置およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20080801

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081022

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees