JP2006155593A - Document analysis system and document adaptation system - Google Patents

Document analysis system and document adaptation system Download PDF

Info

Publication number
JP2006155593A
JP2006155593A JP2005308371A JP2005308371A JP2006155593A JP 2006155593 A JP2006155593 A JP 2006155593A JP 2005308371 A JP2005308371 A JP 2005308371A JP 2005308371 A JP2005308371 A JP 2005308371A JP 2006155593 A JP2006155593 A JP 2006155593A
Authority
JP
Japan
Prior art keywords
document
layout
structured
title
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005308371A
Other languages
Japanese (ja)
Inventor
Yuushin Tatsumi
勇臣 辰巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005308371A priority Critical patent/JP2006155593A/en
Publication of JP2006155593A publication Critical patent/JP2006155593A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document analysis system capable of performing a layout analysis which a provider intends, and an indepth title analysis, and enabling a third party to use the analyzed layout. <P>SOLUTION: An input section 11 acquires a structured/semi-structured document and renders it. A basic layout analysis section 14 acquires results of the rendering, refers the arrangement of document description elements, groups the document description elements arranged parallel in a certain direction, and analyzes the layout. A title analysis section 15 acquires rendering results and a title analysis rule from a title analysis rule storage section 23, checks a name, an attribute, a style, and contents of the document description element with the title analysis rule, and analyzes the title. A layout analysis section F16 acquires constituent elements of the layout, their hierarchical relations, and the title, groups the layout constituent elements, and creates a new layout. An output section 13 acquires constituent elements of the new layout, their hierarchical relations, and a correspondence relation among the constituent elements and the title, shapes them in forms expressed by using the reference to the document description elements, and outputs them. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、構造化・半構造化文書からレイアウトを解析できる文書解析システム、文書解析方法、文書解析用プログラム、及び構造化・半構造化文書をレイアウトを利用して環境に適応できる文書適応システム、文書適応方法、文書適応プログラムに関する。   The present invention relates to a document analysis system that can analyze a layout from a structured / semi-structured document, a document analysis method, a program for document analysis, and a document adaptation system that can adapt a structured / semi-structured document to an environment using a layout. , Document adaptation method and document adaptation program.

従来の文書解析システム、文書適応システムは、構造化・半構造化文書をレイアウトを保持したまま所望の表示条件で表示するため、文書記述要素の区切りの強さを用いてレイアウトを解析し、解析されたレイアウトの構成要素に表示領域を割り当て、構成要素の情報を各表示領域内に拡大表示といった所望の表示条件で表示したり、構成要素内のタイトルを各表示領域内に選択的に表示したりしていた(特許文献1参照)。   Conventional document analysis systems and document adaptation systems display structured and semi-structured documents with the desired display conditions while retaining the layout. Allocate a display area to each component of the selected layout, display the component information under the desired display conditions such as an enlarged display in each display area, and selectively display the title in the component in each display area. (See Patent Document 1).

ここで、文書記述要素とは、構造化・半構造化文書の記述単位となる要素を指し、例えば、HTML文書における、TABLE要素、A要素といったHTMLタグの要素を指す。また、レイアウトの構成要素とは、画面に代表される表示面を構成する、関連情報からなる部分領域を指し、例えば、HTML文書におけるある見出しの関連情報からなる部分領域を指す。   Here, the document description element refers to an element serving as a description unit of a structured / semi-structured document, for example, an HTML tag element such as a TABLE element or an A element in an HTML document. A layout component refers to a partial area made up of related information that constitutes a display surface represented by a screen, for example, a partial area made up of related information of a certain heading in an HTML document.

また、画面表示に適した文書を生成するため、文書記述要素の名前を用いたルールに従い特定の名前を持つ文書記述要素から目次文書を生成したり、目次の項目の内容を記述した文書を生成したりしていた(特許文献2参照)。   Also, in order to generate a document suitable for screen display, a table of contents document is generated from a document description element having a specific name according to a rule using the name of the document description element, or a document describing the contents of the table of contents item is generated. (See Patent Document 2).

更に、ユーザが所望する文書を生成するため、構造化・半構造化文書のURL、各文書の必要情報の存在箇所を示す文書記述要素の参照、当該必要情報を表示する領域に関するルールに従い必要情報からなる合成文書を生成していた(特許文献3参照)。
特開2001−184344号公報 特開平9−251457号公報 特開2004−139275号公報
Further, in order to generate a document desired by the user, the necessary information according to the rules regarding the URL of the structured / semi-structured document, the reference of the document description element indicating the location of the necessary information of each document, and the area for displaying the necessary information The synthetic document which consists of this was produced | generated (refer patent document 3).
JP 2001-184344 A JP-A-9-251457 JP 2004-139275 A

従来技術における第1の問題点は、構造化・半構造化文書の文書解析システムにおいて、文書提供者が意図するレイアウトを必ずしも解析できないことである。その理由は、文書の記述方法は多様であるため、文書記述要素の区切りの強さを用いたレイアウト解析では文書提供者が意図するレイアウトを必ずしも解析できないないからである。   The first problem in the prior art is that the layout intended by the document provider cannot always be analyzed in the document analysis system for structured / semi-structured documents. This is because there are various document description methods, and layout analysis using the strength of document description element delimiters cannot always analyze the layout intended by the document provider.

従来技術における第2の問題点は、構造化・半構造化文書の文書解析システムにおいて、一部のタイトルしか解析できないことである。その理由は、一般的にタイトルは文書記述要素の名前、属性、スタイル、内容を用いて表現されるため、文書記述要素の名前のみを用いたルールに従うタイトル解析では一部のタイトルしか解析できないからである。   The second problem in the prior art is that only a part of titles can be analyzed in the document analysis system for structured / semi-structured documents. The reason is that titles are generally expressed using the document description element name, attributes, style, and content, so only a part of titles can be analyzed in the title analysis according to the rules using only the document description element name. It is.

従来技術における第3の問題点は、構造化・半構造化文書の文書解析システムにおいて、第三者が解析されたレイアウトの情報を利用しアプリケーションソフトウェアを開発できないことである。その理由は、従来の文書解析システムが、解析されたレイアウトの情報を第三者が利用できる形式で出力しないからである。   A third problem in the prior art is that application software cannot be developed using the layout information analyzed by a third party in a document analysis system for structured / semi-structured documents. The reason is that the conventional document analysis system does not output the analyzed layout information in a format that can be used by a third party.

従来技術における第4の問題点は、構造化・半構造化文書の文書適応システムにおいて、文書提供者が意図する文書の論理構造を的確に捉えて、文書をネットワーク、端末、ユーザの環境に適応できないことである。その理由は、文書記述要素の名前を用いたルールに従い目次文書を生成する場合、一部のタイトルしか解析できず目次文書を正しく生成できないからである。また、文書のURL(Uniform Resource Locator)、文書の必要情報の存在箇所を示す文書記述要素の参照を用いてユーザが定義したルールに従い合成文書を生成する場合、文書更新時にユーザが所望する合成文書を正しく生成できない場合があり、これらのルールでは文書提供者が意図する文書の論理構造を的確に捉えられないからである。   The fourth problem in the prior art is that in a document adaptation system for structured and semi-structured documents, the logical structure of the document intended by the document provider is accurately grasped and the document is adapted to the network, terminal, and user environment. It is impossible. The reason is that when a table of contents document is generated according to a rule using the name of the document description element, only a part of the titles can be analyzed and the table of contents document cannot be generated correctly. In addition, when a composite document is generated according to a rule defined by the user using a URL (Uniform Resource Locator) of the document and a reference to a document description element indicating the location of the required information of the document, the composite document desired by the user at the time of document update This is because the rules cannot correctly capture the logical structure of the document intended by the document provider.

本発明の第1の目的は、文書提供者が意図するレイアウトを解析できる文書解析システムを提供することにある。
本発明の第2の目的は、タイトルを網羅的に解析できる文書解析システムを提供することにある。
本発明の第3の目的は、第三者が利用しアプリケーションソフトウェアを開発できる形式でレイアウトの情報を出力できる文書解析システムを提供することにある。
本発明の第4の目的は、文書提供者が意図する文書の論理構造を的確に捉えて、文書をネットワーク、端末、ユーザの環境に適応できる文書適応システムを提供することにある。
A first object of the present invention is to provide a document analysis system capable of analyzing a layout intended by a document provider.
A second object of the present invention is to provide a document analysis system capable of comprehensively analyzing titles.
A third object of the present invention is to provide a document analysis system capable of outputting layout information in a format that can be used by a third party to develop application software.
A fourth object of the present invention is to provide a document adaptation system that can accurately grasp the logical structure of a document intended by a document provider and adapt the document to a network, terminal, or user environment.

以下に、[発明を実施するための最良の形態]で使用される番号を括弧付きで用いて、課題を解決するための手段を説明する。これらの番号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]との対応関係を明らかにするために付加されたものである。ただし、それらの番号を、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。   In the following, means for solving the problem will be described using the numbers used in [Best Mode for Carrying Out the Invention] in parentheses. These numbers are added to clarify the correspondence between the description of [Claims] and [Best Mode for Carrying Out the Invention]. However, these numbers should not be used to interpret the technical scope of the invention described in [Claims].

一の観点において、本発明の文書解析システムは、構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析する基本レイアウト解析部(14)を具備する。   In one aspect, the document analysis system of the present invention refers to the arrangement of document description elements included in a structured document or semi-structured document, groups the document description elements juxtaposed in a certain direction, and configures the structure. A basic layout analysis unit (14) for analyzing the layout of the structured document or the semi-structured document.

本発明の文書解析システムは、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部(23)と、前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部(15)と、前記基本レイアウト解析部(14)で解析された前記レイアウトと、前記タイトル解析部(15)で解析された前記タイトルとを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するレイアウト解析部(16)を具備する。   The document analysis system of the present invention includes a title analysis rule storage unit that stores a title analysis rule based on one or more values of the name, attribute, style, and content of a document description element of a structured document or semi-structured document ( 23) and title analysis for analyzing the title by comparing one or more of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document with the title analysis rule The layout components are grouped using the layout analyzed by the section (15), the basic layout analysis section (14), and the title analyzed by the title analysis section (15), and a new layout is created. Is provided with a layout analysis unit (16).

本発明の文書解析システムにおいて、前記レイアウト解析部(16)は前記基本レイアウト解析部(14)で解析された前記レイアウトと、前記タイトル解析部(15)で解析された前記タイトルと、前記レイアウト解析部(16)で解析された前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を選別するブロック選別部(17)と、前記基本レイアウト解析部(14)で解析された前記レイアウトと、前記レイアウト解析部(16)で解析された前記新しいレイアウトと、前記ブロック選別部(17)で選別された前記レイアウトの主要な構成要素とを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するセクション計算部(18)を具備する。   In the document analysis system of the present invention, the layout analysis unit (16) includes the layout analyzed by the basic layout analysis unit (14), the title analyzed by the title analysis unit (15), and the layout analysis. A block selecting unit (17) for selecting main components of the layout using the new layout analyzed by the unit (16), the layout analyzed by the basic layout analyzing unit (14), Using the new layout analyzed by the layout analysis unit (16) and the main components of the layout selected by the block selection unit (17), the layout components are grouped to generate a new layout. A section calculation unit (18).

本発明の文書解析システムにおいて、前記基本レイアウト解析部(14)は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析する。   In the document analysis system of the present invention, the basic layout analysis unit (14) refers to the arrangement of the document description elements below the grouped document description elements, and is orthogonal to the direction used for the immediately preceding grouping. The layout analysis is performed by repeating the process of grouping the document description elements arranged side by side a predetermined number of times.

本発明の文書解析システムにおいて、前記基本レイアウト解析部(14)は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析する。   In the document analysis system of the present invention, the basic layout analysis unit (14) refers to the arrangement of the document description elements below the grouped document description elements, and is orthogonal to the direction used for the immediately preceding grouping. The process of grouping the document description elements juxtaposed to each other is repeated a predetermined number of times to analyze the layout of the next layer.

本発明の文書解析システムにおいて、前記基本レイアウト解析部(14)は、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照する。   In the document analysis system of the present invention, the basic layout analysis unit (14) refers to the arrangement of only some designated document description elements among the document description elements.

他の観点において、本発明の文書解析システムは、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部(23)と、前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部(15)とを具備する。   In another aspect, the document analysis system of the present invention stores a title analysis rule that stores a title analysis rule based on one or more values of the name, attribute, style, and content of a document description element of a structured document or semi-structured document. The title is obtained by comparing the analysis rule storage unit (23) with at least one of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document and the title analysis rule. And a title analysis unit (15) for analyzing.

更に他の観点において、本発明の文書解析システムは、構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する出力部(13)を具備する。   In still another aspect, the document analysis system of the present invention converts the layout and title of a structured document or semi-structured document into an expression format that refers to a document description element included in the structured document or semi-structured document. An output unit (13) for shaping and outputting is provided.

更に他の観点において、本発明の文書適応システムは、構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力する目次文書出力部(53)と、前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力する項目文書出力部(54)とを具備する。   In yet another aspect, the document adaptation system of the present invention generates a table of contents document using a structured document or semi-structured document and a document in which layout information of the structured document or the semi-structured document is described. Generating and outputting a document describing the contents of the table of contents using the structured document output unit (53) to output, the structured document or the semi-structured document, and the document describing the layout information And an item document output unit (54).

更に他の観点において、本発明の文書適応システムは、前記構造化文書又は前記半構造化文書のURI(Universal Resource Identifier)と、前記構造化文書又は前記半構造化文書の出力構成要素のIDの組み合わせの集合を出力構成要素情報として記憶する出力構成要素情報記憶部(81)と、前記出力構成要素情報と前記出力構成要素情報に記述されたURIに対応する前記構造化文書又は前記半構造化文書と前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成し出力する合成文書出力部(72)とを具備する。   In still another aspect, the document adaptation system of the present invention provides a URI (Universal Resource Identifier) of the structured document or the semi-structured document and an ID of an output component of the structured document or the semi-structured document. An output component information storage unit (81) for storing a set of combinations as output component information, and the structured document or the semi-structured corresponding to the URI described in the output component information and the output component information A composite document output unit (72) for generating and outputting a composite document using the document and a document in which layout information corresponding to the structured document or the semi-structured document is described;

本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析するステップを具備する。   The document analysis method and document analysis program of the present invention refer to the arrangement of document description elements included in a structured document or semi-structured document, group the document description elements juxtaposed in a certain direction, and perform the structured Analyzing the layout of the document or the semi-structured document.

本発明の文書解析方法及び文書解析プログラムは、前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するステップと、前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップと、前記解析されたレイアウトと前記解析されたタイトルを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するステップを具備する。   The document analysis method and document analysis program of the present invention store a title analysis rule based on one or more values of the name, attribute, style, and content of the document description element of the structured document or the semi-structured document. And analyzing the title by comparing at least one of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document with the title analysis rule; Grouping the layout components using the analyzed layout and the analyzed title to generate a new layout.

本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステップにおいて、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析するステップを具備する。   In the document analysis method and the document analysis program of the present invention, in the step of analyzing the layout, the arrangement of the document description elements below the grouped document description elements is referred to, and the direction used for the previous grouping is determined. A step of analyzing the layout by repeating a process of grouping the document description elements juxtaposed in the orthogonal direction a predetermined number of times.

本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステップにおいて、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析するステップを具備する。   In the document analysis method and the document analysis program of the present invention, in the step of analyzing the layout, the arrangement of the document description elements below the grouped document description elements is referred to, and the direction used for the previous grouping is determined. And analyzing the layout of the next layer by repeating the process of grouping the document description elements juxtaposed in the orthogonal direction a predetermined number of times.

本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステップにおいて、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照する。   In the document analysis method and the document analysis program of the present invention, in the step of analyzing the layout, the arrangement of only some designated document description elements among the document description elements is referred to.

本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するステップと、前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップとを具備する。   The document analysis method and the document analysis program of the present invention store a title analysis rule based on one or more values of the name, attribute, style, and content of a document description element of a structured document or semi-structured document; Analyzing the title by comparing at least one of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document with the title analysis rule. .

本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力するステップを具備する。   The document analysis method and the document analysis program of the present invention format the layout and title of a structured document or semi-structured document into an expression format that refers to a document description element included in the structured document or semi-structured document. Outputting.

本願発明の文書適応方法及び文書適応プログラムは、構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力するステップと、前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力するステップとを具備する。   The document adaptation method and the document adaptation program of the present invention generate and output a table of contents document using a structured document or semi-structured document and a document in which layout information of the structured document or the semi-structured document is described. And a step of generating and outputting a document describing the contents of the table of contents using the structured document or the semi-structured document and the document describing the layout information.

本発明の文書適応方法及び文書適応プログラムは、構造化文書又は半構造化文書のURIと、前記構造化文書又は前記半構造化文書の出力構成要素のIDの組み合わせの集合を出力構成要素情報として出力構成要素情報記憶部(81)に記憶するステップと、前記出力構成要素情報と、前記出力構成要素情報に記述されたURIに対応する前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出力するステップとを具備する。   The document adaptation method and the document adaptation program of the present invention provide a set of combinations of URIs of structured documents or semi-structured documents and IDs of output components of the structured documents or semi-structured documents as output component information. Storing in the output component information storage unit (81), the output component information, the structured document or the semi-structured document corresponding to the URI described in the output component information, and the structured Generating and outputting a synthesized document using a document or a document in which layout information corresponding to the semi-structured document is described.

第1の効果は、文書提供者が意図するレイアウトを解析できることである。その理由は、文書記述要素の配置に基づきレイアウトを解析するからである。また、文書記述要素の配置に基づき解析されたレイアウトと、文書記述要素の名前に加え、属性、スタイル、内容を用いて解析されたタイトルを用いて、先に解析されたレイアウトの構成要素をグループ化することでタイトルなどをキーとする関連した構成要素の集合を新しい構成要素とする新しいレイアウトを生成するからである。   The first effect is that the layout intended by the document provider can be analyzed. This is because the layout is analyzed based on the arrangement of the document description elements. In addition to the layout analyzed based on the layout of the document description element and the name of the document description element, the title analyzed using the attribute, style, and content is used to group the components of the layout analyzed earlier. This is because a new layout is generated in which a set of related components with a title or the like as a key is used as a new component.

第2の効果は、タイトルを網羅的に解析できることである。その理由は、文書記述要素の名前に加え、属性、スタイル、内容を用いてタイトルを解析するからである。   The second effect is that the title can be comprehensively analyzed. The reason is that the title is analyzed using the attribute, style, and content in addition to the name of the document description element.

第3の効果は、第三者が利用しアプリケーションソフトウェアを開発できる形式でレイアウトの情報を提供できることである。その理由は、解析されたレイアウトとタイトルを、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式で出力するからである。   The third effect is that layout information can be provided in a format that can be used by a third party to develop application software. The reason is that the analyzed layout and title are output in a format in which the layout elements and titles are expressed using references to document description elements.

第4の効果は、文書提供者が意図する文書の論理構造を利用して、文書をネットワーク、端末、ユーザの環境に適応できることである。その理由は、構造化・半構造化文書に加え、文書提供者が意図する文書の論理構造を反映するレイアウトの情報が記述された文書を用いて、文書を環境に適応するからである。   The fourth effect is that the document can be adapted to the environment of the network, the terminal, and the user by using the logical structure of the document intended by the document provider. This is because the document is adapted to the environment by using a document in which layout information reflecting the logical structure of the document intended by the document provider is used in addition to the structured / semi-structured document.

他にも、本発明は、文書の概要を表示する機能や音声読み上げする機能、文書の項目を選択的に表示する機能といった文書の論理構造を利用した文書閲覧システムや、文書閲覧システムをコンピュータに実現するためのプログラムといった用途に適用できる。また、文書の概要を生成する機能や概要に応じて文書を分割する機能、文書の項目を選択的に合成する機能といった文書の論理構造を利用した文書変換システムや、文書変換システムをコンピュータに実現するためのプログラムといった用途にも適用できる。   In addition, the present invention provides a document browsing system using a logical structure of a document such as a function for displaying an outline of a document, a function for reading out a voice, a function for selectively displaying document items, and a document browsing system in a computer. It can be applied to uses such as a program for realizing. In addition, the computer realizes a document conversion system that uses the logical structure of a document, such as a function that generates a document summary, a function that divides a document according to the summary, and a function that selectively synthesizes document items. It can also be applied to uses such as programs for

以下に本発明の実施形態について添付図面を参照して説明する。図1を参照すると、本発明の第1の実施形態のシステムは、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む。   Embodiments of the present invention will be described below with reference to the accompanying drawings. Referring to FIG. 1, the system according to the first embodiment of the present invention includes a data processing device 1 that operates under program control, and a storage device 2 that stores information.

データ処理装置1は、入力部11と、レイアウト解析ツール12と、出力部13とを備える。記憶装置2は、レンダリング結果記憶部21、解析結果記憶部22とを備える。   The data processing device 1 includes an input unit 11, a layout analysis tool 12, and an output unit 13. The storage device 2 includes a rendering result storage unit 21 and an analysis result storage unit 22.

入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する。レイアウト解析ツール12は、基本レイアウト解析部14を有する。出力部13は、解析結果記憶部22からレイアウトの構成要素とその階層関係の情報を取得し、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式に整形し外部に出力する。ここで、レイアウトの構成要素にIDを与えて出力してもよい。   The input unit 11 acquires a structured / semi-structured document from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21. The layout analysis tool 12 has a basic layout analysis unit 14. The output unit 13 acquires information about layout components and their hierarchical relationships from the analysis result storage unit 22, shapes the layout components into a format that can be expressed using references to document description elements, and outputs them to the outside. Here, an ID may be given to the components of the layout and output.

基本レイアウト解析部14は、レンダリング結果記憶部21からレンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化することでレイアウトを解析する。具体的には、指定された文書記述要素、例えば、ルートとなる文書記述要素や既に解析されたレイアウトの構成要素に属する文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化する。グループ化された文書記述要素、グループ化されず子供の文書記述要素のない文書記述要素はレイアウトの構成要素として解析結果記憶部22に記憶する。グループ化されなかった文書記述要素は当該文書記述要素の子供の文書記述要素を対象に、全ての文書記述要素がグループ化されるまで、又は子供の文書記述要素がなくなるまで再帰的に処理を繰り返す。   The basic layout analysis unit 14 obtains a rendering result from the rendering result storage unit 21, refers to the arrangement of the document description elements, and analyzes the layout by grouping the document description elements juxtaposed in a certain direction. Specifically, a specified document description element, for example, a document description element that is juxtaposed in a certain direction with reference to the layout of a document description element that belongs to a root document description element or a layout analysis element that has already been analyzed. Group. The grouped document description elements and the document description elements that are not grouped and have no child document description elements are stored in the analysis result storage unit 22 as layout components. Document description elements that have not been grouped are recursively processed until all document description elements are grouped or no child document description elements exist, with respect to the child document description elements of the document description element. .

レンダリング結果記憶部21は入力部11の処理結果を、解析結果記憶部22はレイアウト解析ツール12の処理結果をそれぞれ記憶する。   The rendering result storage unit 21 stores the processing result of the input unit 11, and the analysis result storage unit 22 stores the processing result of the layout analysis tool 12.

以上の処理により、特定階層のレイアウト、つまりレイアウトの構成要素の集合を解析する。ここで、上記処理により解析されたレイアウトの構成要素について、更に、これに属する文書記述要素の配置を参照し、先のグループ化に用いられた方向の直交方向に並置された文書記述要素をグループ化し、先に解析されたレイアウトの構成要素を置き換える処理を所定の回数繰り返しレイアウトを解析してもよい。また、レイアウトの構成要素として解析された文書記述要素が親の文書記述要素から見て唯一の子供である場合、当該解析された文書記述要素を親の文書記述要素と置き換えてもよい。   Through the above processing, a layout of a specific hierarchy, that is, a set of layout components is analyzed. Here, with respect to the layout components analyzed by the above processing, further refer to the arrangement of the document description elements belonging thereto, and group the document description elements juxtaposed in the direction orthogonal to the direction used for the previous grouping. The layout may be analyzed by repeating the process of replacing the constituent elements of the previously analyzed layout a predetermined number of times. Further, when the document description element analyzed as a component of the layout is the only child as viewed from the parent document description element, the analyzed document description element may be replaced with the parent document description element.

次階層のレイアウトを解析する場合は、先に解析されたレイアウトの各構成要素について再度処理を行う。具体的には、先に解析されたレイアウトの構成要素についてこれに属する文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化した後、グループ化された文書記述要素以下の文書記述要素の配置を参照し、先のグループ化に用いられた方向の直交方向に並置された文書記述要素をグループ化する処理を所定の回数繰り返しレイアウトを解析する。ここで、次階層のレイアウトの解析の最初のグループ化に用いる方向として、上位レイアウトの解析の最後のグループ化に用いられた方向の直交方向を用いてもよい。次階層を解析する処理を繰り返せば、可能な範囲で任意の階層のレイアウトを解析できる。なお、上記処理において、文書記述要素として一部の指定された文書記述要素のみの配置を参照してもよい。以上の処理により、レイアウト、つまりレイアウトの構成要素とその階層関係を解析する。   When analyzing the layout of the next hierarchy, the process is performed again for each component of the layout analyzed previously. Specifically, referring to the layout of the document description elements belonging to the previously analyzed layout components, grouping the document description elements juxtaposed in a certain direction, and then grouping the document description elements With reference to the following arrangement of document description elements, a process of grouping document description elements juxtaposed in a direction orthogonal to the direction used for the previous grouping is repeated a predetermined number of times to analyze the layout. Here, as the direction used for the first grouping of the layout analysis of the next layer, the orthogonal direction of the direction used for the last grouping of the upper layout analysis may be used. If the process of analyzing the next hierarchy is repeated, the layout of any hierarchy can be analyzed as much as possible. In the above processing, the arrangement of only some designated document description elements may be referred to as the document description element. With the above processing, the layout, that is, the layout components and their hierarchical relationship are analyzed.

次に、図1、図2を参照して本実施の形態の動作について詳細に説明する。入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する(ステップS101)。   Next, the operation of the present embodiment will be described in detail with reference to FIGS. The input unit 11 acquires a structured / semi-structured document from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21 (step S101).

基本レイアウト解析部14は、レンダリング結果記憶部21からレンダリング結果を取得し、処理対象階層nを1とし(ステップS102)、当該処理対象階層について処理を継続するかどうかを判定する(ステップS103)。判定基準としては、処理階層の上限値、解析された基本レイアウトの大きさを用いることができる。基本レイアウト解析部14は、処理を継続しないと判定した場合、ステップS107に進む。   The basic layout analysis unit 14 acquires the rendering result from the rendering result storage unit 21, sets the processing target hierarchy n to 1 (step S102), and determines whether or not to continue processing for the processing target hierarchy (step S103). As the determination criterion, the upper limit value of the processing hierarchy and the size of the analyzed basic layout can be used. If the basic layout analysis unit 14 determines not to continue the process, the process proceeds to step S107.

基本レイアウト解析部14は、ステップS103で処理を継続すると判定した場合、処理対象となる文書記述要素を取得する(ステップS104)。   If the basic layout analysis unit 14 determines in step S103 that the process is to be continued, the basic layout analysis unit 14 acquires a document description element to be processed (step S104).

基本レイアウト解析部14は、処理対象となる文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化することでレイアウトを解析し、上位階層のレイアウトの構成要素と関連付けて解析結果記憶部22に記憶する(ステップS105)。   The basic layout analysis unit 14 refers to the arrangement of the document description elements to be processed, analyzes the layout by grouping the document description elements juxtaposed in a certain direction, and associates them with the constituent elements of the higher-level layout. And stored in the analysis result storage unit 22 (step S105).

基本レイアウト解析部14は、処理対象階層nをn+1とし(ステップS106)、ステップS103以降の処理を繰り返す。   The basic layout analysis unit 14 sets the processing target hierarchy n to n + 1 (step S106), and repeats the processing after step S103.

出力部13は、解析結果記憶部22からレイアウトの構成要素とその階層関係の情報を取得し、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式に整形し外部に出力する(ステップS107)。   The output unit 13 acquires information about the layout components and their hierarchical relationship from the analysis result storage unit 22, shapes the layout components into a format that can be expressed using references to document description elements, and outputs the information to the outside (step). S107).

本実施の形態では、構造化・半構造化文書の文書記述要素の配置を参照し並置された文書記述要素をグループ化することでレイアウトを解析するので、文書記述要素の配置に基づくレイアウトを解析できる。このため、記述方法が多様な構造化・半構造化文書においても、文書提供者が意図するレイアウトを解析できる。また、レイアウトを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイアウトの情報を利用した応用アプリケーションを開発できる。   In this embodiment, the layout is analyzed by referring to the arrangement of the document description elements of the structured / semi-structured document, and the arranged document description elements are grouped. Therefore, the layout based on the arrangement of the document description elements is analyzed. it can. Therefore, the layout intended by the document provider can be analyzed even in structured / semi-structured documents with various description methods. Further, since the layout is output in a format that is expressed using the reference of the document description element, an application application using the layout information can be developed by a third party.

次に、本発明の第2の実施形態について図面を参照して詳細に説明する。図11を参照すると、本発明の第2の実施形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む。   Next, a second embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 11, the second embodiment of the present invention includes a data processing device 1 that operates under program control and a storage device 2 that stores information.

データ処理装置1は、入力部11と、レイアウト解析ツール12と、出力部13とを備える。記憶装置2は、レンダリング結果記憶部21、解析結果記憶部22、タイトル解析ルール記憶部23とを備える。   The data processing device 1 includes an input unit 11, a layout analysis tool 12, and an output unit 13. The storage device 2 includes a rendering result storage unit 21, an analysis result storage unit 22, and a title analysis rule storage unit 23.

入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する。レイアウト解析ツール12は、タイトル解析部15を有する。出力部13は、解析結果記憶部22からタイトルの集合を取得し、タイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。   The input unit 11 acquires a structured / semi-structured document from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21. The layout analysis tool 12 has a title analysis unit 15. The output unit 13 acquires a set of titles from the analysis result storage unit 22, formats the titles into a format that is expressed using references to document description elements, and outputs the titles to the outside.

レンダリング結果記憶部21は入力部11の処理結果を、解析結果記憶部22はレイアウト解析ツール12の処理結果をそれぞれ記憶する。タイトル解析ルール記憶部23は、タイトル解析ルール、すなわちタイトル判定の基準となる、文書記述要素の名前、属性、スタイル、内容の値に基づくルールを予め記憶する。   The rendering result storage unit 21 stores the processing result of the input unit 11, and the analysis result storage unit 22 stores the processing result of the layout analysis tool 12. The title analysis rule storage unit 23 stores in advance a title analysis rule, that is, a rule based on the value of the name, attribute, style, and content of the document description element, which is a criterion for title determination.

タイトル解析部15は、レンダリング結果記憶部21からレンダリング結果を、タイトル解析ルール記憶部23からタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。具体的には、指定された文書記述要素、例えば、ルートとなる文書記述要素、を処理対象要素とし、処理対象要素について文書記述要素の名前、属性、スタイル、内容をタイトル解析ルールと照合する。照合の結果タイトルと判定した場合、当該文書記述要素をタイトルとして解析結果記憶部22に記憶し、未処理の処理対象要素があればこれを対象に処理を続ける。   The title analysis unit 15 acquires the rendering result from the rendering result storage unit 21 and the title analysis rule from the title analysis rule storage unit 23, and compares the attribute, style, and content with the title analysis rule in addition to the name of the document description element. By analyzing the title. Specifically, a designated document description element, for example, a root document description element is set as a processing target element, and the name, attribute, style, and content of the document description element are checked with the title analysis rule for the processing target element. When it is determined as a title as a result of collation, the document description element is stored as a title in the analysis result storage unit 22, and if there is an unprocessed processing target element, the process is continued.

タイトルでないと判定した場合、当該文書記述要素の子供の文書記述要素を新たに処理対象要素とし、未処理の処理対象要素がなくなるまで処理を続ける。ここで、タイトル解析ルールとしては、「属性が文書内で唯一である」、「背景色や背景イメージが使用されている」、「文書内での使用頻度が低い文字色や文字サイズが使用されている」といったレンダリングイメージ上での文書記述要素の特異性に基づくルールを用いることができる。なお、上記処理において、文書記述要素として同じ名前、属性、スタイルを持つ複数の文書記述要素をグループ化したものを用いてもよい。以上の処理により、タイトルの集合を解析し解析結果記憶部22に記憶する。   If it is determined that the document is not a title, the child document description element of the document description element is newly set as a processing target element, and the processing is continued until there is no unprocessed processing target element. Here, as the title analysis rules, “attribute is unique in the document”, “background color or background image is used”, “character color or size that is used less frequently in the document is used. A rule based on the uniqueness of the document description element on the rendered image can be used. In the above process, a group of a plurality of document description elements having the same name, attribute, and style may be used as the document description element. Through the above processing, the set of titles is analyzed and stored in the analysis result storage unit 22.

次に、図11、図12を参照して本実施の形態の動作について詳細に説明する。入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する(ステップS201)。   Next, the operation of the present embodiment will be described in detail with reference to FIGS. The input unit 11 acquires a structured / semi-structured document from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21 (step S201).

タイトル解析部15は、レンダリング結果記憶部21からレンダリング結果を、タイトル解析ルール記憶部23からタイトル解析ルールをそれぞれ取得し、処理対象となる文書記述要素を取得する(ステップS202)。   The title analysis unit 15 acquires a rendering result from the rendering result storage unit 21 and a title analysis rule from the title analysis rule storage unit 23, and acquires a document description element to be processed (step S202).

タイトル解析部15は、処理対象の文書記述要素の有無を確認し、処理対象となる文書記述要素がないと判定した場合、ステップS208に進む(ステップS203)。   When the title analysis unit 15 confirms whether there is a document description element to be processed and determines that there is no document description element to be processed, the title analysis unit 15 proceeds to step S208 (step S203).

タイトル解析部15は、ステップS203で処理対象となる文書記述要素があると判定した場合、当該文書記述要素の名前や属性、スタイル、内容をタイトル解析ルールと照合する(ステップS204)。   If the title analysis unit 15 determines in step S203 that there is a document description element to be processed, the title analysis unit 15 checks the name, attribute, style, and content of the document description element with the title analysis rule (step S204).

タイトル解析部15は、ステップS204で照合によりタイトルでないと判定した場合、又はステップS206で文書記述要素をタイトルとして記憶した場合、次の処理対象となる文書記述要素を取得し、当該文書記述要素についてステップS203以下の処理を行う(ステップS205)。   When the title analysis unit 15 determines that the title is not a title by collation in step S204 or stores the document description element as a title in step S206, the title analysis unit 15 acquires a document description element to be processed next, and the document description element The processing from step S203 is performed (step S205).

タイトル解析部15は、ステップS204で照合によりタイトルであると判定した場合、当該文書記述要素をタイトルとして解析結果記憶部22に記憶し、ステップS205に進む(ステップ206)。   If the title analysis unit 15 determines that the title is a title by collation in step S204, the title analysis unit 15 stores the document description element as a title in the analysis result storage unit 22, and proceeds to step S205 (step 206).

出力部13は、解析結果記憶部22からタイトルの集合を取得し、タイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する(ステップS207)。   The output unit 13 acquires a set of titles from the analysis result storage unit 22, formats the titles into a format that can be expressed using references to document description elements, and outputs them to the outside (step S 207).

次に、本実施の形態の効果について説明する。本実施の形態では、構造化・半構造化文書の文書記述要素の名前に加え、属性、スタイル、内容を用いてタイトルを解析するので、属性やスタイルを用いて表現されたタイトルも解析できる。このため、タイトルを網羅的に解析できる。また、タイトルを文書記述要素の参照を用いて表現する形式で出力するので、第三者がタイトルの情報を利用した応用アプリケーションを開発できる。   Next, the effect of this embodiment will be described. In the present embodiment, since the title is analyzed using the attribute, style, and content in addition to the name of the document description element of the structured / semi-structured document, the title expressed using the attribute or style can also be analyzed. For this reason, the title can be comprehensively analyzed. In addition, since the title is output in a format that is expressed using the reference of the document description element, a third party can develop an application application using the title information.

次に、本発明の第3の実施形態について図面を参照して詳細に説明する。図16を参照すると、本発明の第3の実施形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む。   Next, a third embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 16, the third embodiment of the present invention includes a data processing device 1 that operates under program control and a storage device 2 that stores information.

データ処理装置1は、入力部11と、レイアウト解析ツール12と、出力部13とを備える。記憶装置2は、レンダリング結果記憶部21、解析結果記憶部22、タイトル解析ルール記憶部23とを備える。   The data processing device 1 includes an input unit 11, a layout analysis tool 12, and an output unit 13. The storage device 2 includes a rendering result storage unit 21, an analysis result storage unit 22, and a title analysis rule storage unit 23.

入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する。   The input unit 11 acquires a structured / semi-structured document from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21.

レイアウト解析ツール12は、基本レイアウト解析部14と、タイトル解析部15と、レイアウト解析部16とを有する。   The layout analysis tool 12 includes a basic layout analysis unit 14, a title analysis unit 15, and a layout analysis unit 16.

出力部13は、解析結果記憶部22から新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、新しいレイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。ここで、新しいレイアウトの構成要素にIDを与えて出力してもよい。   The output unit 13 acquires from the analysis result storage unit 22 a new layout component and its hierarchical relationship, and the correspondence between each component and title, and uses the new layout component and title as a reference to the document description element. And then output to the outside. Here, IDs may be given to the components of the new layout and output.

基本レイアウト解析部14は、レンダリング結果記憶部21からレンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化することでレイアウトを解析する。基本レイアウト解析部14の機能は、本発明の第1の実施の形態の基本レイアウト解析部14に示す機能と同じである。   The basic layout analysis unit 14 obtains a rendering result from the rendering result storage unit 21, refers to the arrangement of the document description elements, and analyzes the layout by grouping the document description elements juxtaposed in a certain direction. The function of the basic layout analysis unit 14 is the same as the function shown in the basic layout analysis unit 14 according to the first embodiment of this invention.

タイトル解析部15は、レンダリング結果記憶部21からレンダリング結果を、タイトル解析ルール記憶部23からタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。タイトル解析部15の機能は、本発明の第2の実施の形態のタイトル解析部15に示す機能と同じである。   The title analysis unit 15 acquires the rendering result from the rendering result storage unit 21 and the title analysis rule from the title analysis rule storage unit 23, and compares the attribute, style, and content with the title analysis rule in addition to the name of the document description element. By analyzing the title. The function of the title analysis unit 15 is the same as the function shown in the title analysis unit 15 according to the second embodiment of the present invention.

レイアウト解析部16は、解析結果記憶部22から、基本レイアウト解析部14で解析されたレイアウトの構成要素とその階層関係、タイトル解析部15で解析されたタイトルを取得し、タイトルを持たないレイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たない別のレイアウトの構成要素とグループ化することで新しいレイアウトを生成する。具体的には、まず第1階層のレイアウトの構成要素を取得し、構成要素と構成要素に内包されるタイトルを対応付ける。タイトルを持たない構成要素は、タイトルを持つ構成要素のうち、例えば、ソース上先頭に向かって最も近いものとグループ化する。最も近いタイトルを持つ構成要素がない場合は、例えば、最も近いタイトルを持たない構成要素とグループ化する。グループ化されたレイアウトの構成要素は、新しいレイアウトの構成要素として、当該構成要素に属するタイトルとともに解析結果記憶部22に記憶する。更に、上記処理を基本レイアウト解析部14で解析されたレイアウトの階層数分繰り返すことで、新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を解析する。   The layout analysis unit 16 acquires from the analysis result storage unit 22 the layout components analyzed by the basic layout analysis unit 14 and their hierarchical relationships, the title analyzed by the title analysis unit 15, and the layout having no title. A new layout is generated by grouping a component with a component of a layout having a title or a component of another layout having no title. Specifically, first, a component of the layout of the first hierarchy is acquired, and the component and the title included in the component are associated with each other. Components having no title are grouped with, for example, those closest to the top on the source among the components having the title. When there is no component having the closest title, for example, the component is grouped with a component having no closest title. The grouped layout components are stored in the analysis result storage unit 22 together with the titles belonging to the components as new layout components. Further, the above processing is repeated for the number of layout layers analyzed by the basic layout analysis unit 14, thereby analyzing the components of the new layout and their hierarchical relationships, and the correspondences between the components and the titles.

レンダリング結果記憶部21は入力部11の、解析結果記憶部22はレイアウト解析ツール12の、それぞれ処理結果を記憶する。タイトル解析ルール記憶部23は、タイトル解析ルールを予め記憶する。   The rendering result storage unit 21 stores the processing results of the input unit 11, and the analysis result storage unit 22 stores the processing results of the layout analysis tool 12. The title analysis rule storage unit 23 stores a title analysis rule in advance.

次に、図16、図17を参照して本実施の形態の動作について詳細に説明する。入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する(ステップS301)。   Next, the operation of the present embodiment will be described in detail with reference to FIGS. The input unit 11 acquires a structured / semi-structured document from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21 (step S301).

基本レイアウト解析部14の動作は、本発明の第1の実施の形態に示す基本レイアウト解析部(図1の14)の動作と同じである(ステップS302〜ステップS306)。   The operation of the basic layout analysis unit 14 is the same as the operation of the basic layout analysis unit (14 in FIG. 1) shown in the first embodiment of the present invention (steps S302 to S306).

タイトル解析部15の動作は、本発明の第2の実施の形態に示すタイトル解析部(図11の15)の動作と同じである(ステップS311〜ステップS316)。   The operation of the title analysis unit 15 is the same as that of the title analysis unit (15 in FIG. 11) shown in the second embodiment of the present invention (steps S311 to S316).

レイアウト解析部16は、解析結果記憶部22から、基本レイアウト解析部14で解析されたレイアウトの構成要素とその階層関係、タイトル解析部15で解析されたタイトルを取得し、処理対象階層nを1とする(ステップS321)。   The layout analysis unit 16 acquires, from the analysis result storage unit 22, the layout components analyzed by the basic layout analysis unit 14 and their hierarchical relationships, the title analyzed by the title analysis unit 15, and sets the processing target layer n to 1 (Step S321).

レイアウト解析部16は、処理対象階層のレイアウトの構成要素があるかどうかを判定し、処理対象階層のレイアウトの構成要素がないと判定した場合、ステップS331に進む(ステップS322)。   The layout analysis unit 16 determines whether there is a layout component of the processing target hierarchy, and if it determines that there is no layout component of the processing target hierarchy, the layout analysis unit 16 proceeds to step S331 (step S322).

レイアウト解析部16は、ステップS322で処理対象階層のレイアウトの構成要素があると判定した場合、第n階層のレイアウトの構成要素を取得し(ステップS323)、第n階層のレイアウトの構成要素とタイトルを対応付ける(ステップS324)。   If it is determined in step S322 that there is a layout component of the processing target hierarchy, the layout analysis unit 16 acquires the layout component of the nth hierarchy (step S323), and the layout element and title of the nth hierarchy. Are associated (step S324).

レイアウト解析部16は、タイトルを持たないレイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たない別のレイアウトの構成要素とグループ化することで新しいレイアウトの構成要素を解析し、解析結果記憶部22に記憶する(ステップS325)。   The layout analysis unit 16 analyzes and analyzes a new layout component by grouping a layout component without a title with a layout component with a title or another layout component without a title. The result is stored in the result storage unit 22 (step S325).

レイアウト解析部16は、処理対象階層nをn+1とし、ステップS322以降の処理を繰り返す(ステップS326)。   The layout analysis unit 16 sets the processing target hierarchy n to n + 1, and repeats the processing after step S322 (step S326).

出力部13は、解析結果記憶部22から新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、新しいレイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する(ステップS331)。   The output unit 13 acquires from the analysis result storage unit 22 a new layout component and its hierarchical relationship, and the correspondence between each component and title, and uses the new layout component and title as a reference to the document description element. And then output to the outside (step S331).

ここで、基本レイアウト解析部14の動作(ステップS302〜ステップS306)と、タイトル解析部15の動作(ステップS311〜ステップS316)の実行順序を入れ替えてもよい。具体的には、ステップS301の直後にステップS311〜ステップS316が実行される形となり、ステップS312が「No」のときステップS302〜ステップS306が実行される。また、この場合、ステップS303が「No」のときステップS321に移行する形となる。   Here, the execution order of the operation of the basic layout analysis unit 14 (steps S302 to S306) and the operation of the title analysis unit 15 (steps S311 to S316) may be interchanged. Specifically, steps S311 to S316 are executed immediately after step S301. When step S312 is “No”, steps S302 to S306 are executed. In this case, when step S303 is “No”, the process proceeds to step S321.

次に、本実施の形態の効果について説明する。本実施の形態では、文書記述要素の配置を参照し並置された文書記述要素をグループ化することで解析されたレイアウトと、文書記述要素の名前に加え、属性、スタイル、内容を用いて解析されたタイトルを用いて、タイトルを持たないレイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たない別のレイアウトの構成要素とグループ化することで、関連した構成要素の集合を新しい構成要素とする新しいレイアウトを生成するので、より論理構造を捉えたレイアウトを解析できる。このため、より文書提供者の意図を反映したレイアウトを解析できる。また、レイアウトやタイトルを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイアウトの情報を利用した応用アプリケーションを開発できる。   Next, the effect of this embodiment will be described. In this embodiment, the layout is analyzed by grouping the document description elements arranged side by side with reference to the arrangement of the document description elements, and the analysis is performed using attributes, styles, and contents in addition to the names of the document description elements. A group of related components can be newly created by grouping a layout component without a title with a layout component with a title or another layout component without a title using a title. Since a new layout is generated as an element, it is possible to analyze a layout that captures the logical structure. For this reason, the layout reflecting the intention of the document provider can be analyzed. In addition, since the layout and title are output in a format that is expressed using a reference to the document description element, a third party can develop an application application using the layout information.

次に、本発明の第4の実施形態について図面を参照して詳細に説明する。図22を参照すると、本発明の第4の実施形態は、プログラム制御により動作するデータ処理装置5と、情報を記憶する記憶装置6とを含む。   Next, a fourth embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 22, the fourth embodiment of the present invention includes a data processing device 5 that operates under program control and a storage device 6 that stores information.

データ処理装置5は、入力部51と、文書入力部52と、目次文書出力部53と、項目文書出力部54とを備える。記憶装置6は、構造化・半構造化文書記憶部61、レイアウト文書記憶部62とを備える。   The data processing device 5 includes an input unit 51, a document input unit 52, a table of contents document output unit 53, and an item document output unit 54. The storage device 6 includes a structured / semi-structured document storage unit 61 and a layout document storage unit 62.

入力部51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、ユーザが所望する構造化・半構造化文書のURI(Universal Resource Identifier)を取得する。また、入力部51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、出力を制御する。具体的には、取得された入力に応じて、目次文書を出力するか、目次の項目の内容を記述した文書を出力するかを判定し、目次の項目の内容を記述した文書を出力する場合は、出力する目次の項目も判定する。   The input unit 51 acquires user input from an input device such as a keyboard or via a network, and acquires a URI (Universal Resource Identifier) of a structured / semi-structured document desired by the user. The input unit 51 acquires user input from an input device such as a keyboard or via a network, and controls output. Specifically, it is determined whether to output a table of contents document or a document describing the contents of the table of contents according to the acquired input, and outputting a document describing the contents of the table of contents item Also determines the table of contents items to output.

文書入力部52は、入力部51で取得されたユーザが所望する構造化・半構造化文書のURIを用いて、当該文書を取得し、構造化・半構造化文書記憶部61に記憶する。また、文書入力部52は、取得した構造化・半構造化文書に指定された、レイアウトの情報が文書記述要素の参照を用いて記述された文書を取得し、レイアウト記憶部62に記憶する。ここで、文書入力部52は、通信プロトコルのヘッダー情報を利用するといった別の方法を用いて、取得した構造化・半構造化文書のレイアウトの情報が記述された文書を取得してもよい。また、取得した構造化・半構造化文書について、本発明の第3の実施の形態に示すシステムを用いて、レイアウトの情報を解析し、レイアウト文書記憶部62に記憶してもよい。   The document input unit 52 acquires the document using the URI of the structured / semi-structured document desired by the user acquired by the input unit 51 and stores the document in the structured / semi-structured document storage unit 61. In addition, the document input unit 52 acquires a document in which layout information specified by the acquired structured / semi-structured document is described by using a document description element reference, and stores the document in the layout storage unit 62. Here, the document input unit 52 may acquire a document in which the layout information of the acquired structured / semi-structured document is described using another method such as using header information of the communication protocol. Further, with respect to the obtained structured / semi-structured document, layout information may be analyzed and stored in the layout document storage unit 62 using the system shown in the third embodiment of the present invention.

目次文書出力部53は、入力部51が目次を出力すると判定した場合、構造化・半構造化文書記憶部61からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部62から当該構造化・半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、目次文書を生成する。具体的には、レイアウトの情報が記述された文書から全ての末端のレイアウトの構成要素を抽出し、それぞれについて指定されたタイトルを抽出し、文書記述要素の参照を用いて元の構造化・半構造化文書から当該タイトルに対応する文書記述要素を抜き出し、整形して順に並べることで目次文書を生成する。ここで、タイトルの指定がない構成要素について、当該構成要素に対応する文書記述要素以下の内容から一定数の文字を抜き出し並べてもよい。また、特定階層のレイアウトの構成要素の間に仕切り線を挿入する、構造化・半構造化文書に別途与えられたタイトルを挿入するなど、目次に装飾を施してもよい。また、上位階層の構成要素が同じ1つ以上の末端のレイアウトの構成要素について、末端の構成要素に代え上位階層の構成要素を用いてもよい。生成した目次文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される。   When it is determined that the input unit 51 outputs the table of contents, the table of contents document output unit 53 obtains the structured / semi-structured document desired by the user from the structured / semi-structured document storage unit 61 from the layout document storage unit 62. Each of the documents describing the layout information of the structured / semi-structured document is acquired, and a table of contents document is generated. Specifically, all end layout components are extracted from the document in which the layout information is described, the titles specified for each are extracted, and the original structured / half-frame is used by referring to the document description elements. A table of contents document is generated by extracting document description elements corresponding to the title from the structured document, formatting them, and arranging them in order. Here, for a constituent element for which no title is specified, a certain number of characters may be extracted and arranged from the contents below the document description element corresponding to the constituent element. Further, decoration may be applied to the table of contents, such as inserting a partition line between components of a layout of a specific hierarchy, or inserting a title separately given to a structured / semi-structured document. In addition, regarding one or more terminal layout components having the same upper layer components, upper layer components may be used instead of the terminal components. The generated table of contents document is provided to the user from an output device such as a display or a speaker or via a network.

項目文書出力部54は、入力部51が目次の項目の内容を記述した文書を出力すると判定し、出力する目次の項目を判定した場合、構造化・半構造化文書記憶部61からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部62から当該構造化・半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、指定された目次の項目の内容を記述した文書を生成する。具体的には、指定された目次の項目をタイトルとして持つレイアウトの構成要素を抽出し、文書記述要素の参照を用いて元の構造化・半構造化文書から当該構成要素に対応する文書記述要素を抜き出し、整形して順に並べることで目次の項目の内容を記述した文書を生成する。ここで、項目の内容として、抜き出された文書記述要素の内容を更に抜き出し並べてもよい。また、構造化・半構造化文書の文書記述要素を別の文書記述要素に置き換えた上で並べてもよい。さらに、目次の内容を記述した文書としてユーザが所望する構造化・半構造化文書そのものを用い、指定された目次の項目に対応する領域に位置合わせして出力してもよい。生成された目次の項目の内容を記述した文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される。   The item document output unit 54 determines that the input unit 51 outputs a document describing the contents of the table of contents, and if the item of the table of contents to be output is determined, the item document output unit 54 requests the user from the structured / semi-structured document storage unit 61. The structured / semi-structured document to be obtained is acquired from the layout document storage unit 62 in which the document describing the layout information of the structured / semi-structured document is obtained, and the document describing the contents of the designated table of contents Is generated. Specifically, a component of a layout having a specified table of contents item as a title is extracted, and a document description element corresponding to the component from the original structured / semi-structured document using a reference to the document description element A document describing the contents of the contents of the table of contents is generated by extracting, formatting and arranging them in order. Here, as the contents of the items, the contents of the extracted document description elements may be further extracted and arranged. Alternatively, the document description elements of the structured / semi-structured document may be arranged after being replaced with another document description element. Furthermore, the structured / semi-structured document desired by the user may be used as the document describing the contents of the table of contents, and may be output after being aligned with the area corresponding to the specified table of contents item. The document describing the contents of the generated table of contents item is provided to the user from an output device such as a display or a speaker or via a network.

構造化・半構造化文書記憶部61、レイアウト文書記憶部62は、文書入力部52の処理結果を記憶する。ここで、目次文書出力部53が目次文書を生成した際当該目次文書を記憶するとともに、項目文書出力部54で目次の項目の内容を記述した全ての文書を予め生成し記憶しておき、ユーザ入力に対応した目次文書または目次の項目の内容を記述した文書を、目次文書出力部53または項目文書出力部54が選択し出力する構成としてもよい。   The structured / semi-structured document storage unit 61 and the layout document storage unit 62 store the processing results of the document input unit 52. Here, when the table of contents document output unit 53 generates the table of contents document, the table of contents document is stored, and the item document output unit 54 previously generates and stores all documents describing the contents of the items of the table of contents. The table of contents document corresponding to the input or the document describing the contents of the table of contents items may be selected and output by the table of contents document output unit 53 or the item document output unit 54.

次に、図22、図23を参照して本実施の形態の動作について詳細に説明する。 入力部51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、ユーザが所望する構造化・半構造化文書のURIを取得する(ステップS401)。   Next, the operation of the present embodiment will be described in detail with reference to FIGS. The input unit 51 acquires user input from an input device such as a keyboard or via a network, and acquires the URI of the structured / semi-structured document desired by the user (step S401).

文書入力部52は、取得されたURIを用いて文書を取得し、構造化・半構造化文書記憶部61に記憶する。また、文書入力部52は、取得した構造化・半構造化文書に指定された、レイアウトの情報が記述された文書を取得し、レイアウト文書記憶部62に記憶する(ステップS402)。   The document input unit 52 acquires a document using the acquired URI and stores it in the structured / semi-structured document storage unit 61. In addition, the document input unit 52 acquires a document in which layout information specified in the acquired structured / semi-structured document is described, and stores the document in the layout document storage unit 62 (step S402).

入力部51は、処理を続けるかどうかを判定し、処理を続けないと判定した場合、終了する(ステップS403)。   The input unit 51 determines whether or not to continue the process. If it is determined that the process is not continued, the input unit 51 ends (step S403).

入力部51は、ステップS403で処理を続けると判定した場合、出力する内容が目次かどうかを判定する(ステップS404)。   When it is determined in step S403 that the process is to be continued, the input unit 51 determines whether the content to be output is a table of contents (step S404).

目次文書出力部53は、ステップS404で目次を出力すると判定した場合、構造化・半構造化文書記憶部61からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部62から当該構造化・半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、目次文書を生成する。生成した目次文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される(ステップS405)。   If it is determined in step S404 that the table of contents document output unit 53 outputs the table of contents, the structured / semi-structured document desired by the user from the structured / semi-structured document storage unit 61 is transferred from the layout document storage unit 62 to the structure. The document in which the layout information of the structured / semi-structured document is described is acquired, and the table of contents document is generated. The generated table of contents document is provided to the user from an output device such as a display or a speaker or via a network (step S405).

項目文書出力部54は、ステップS404で目次を出力しないと判定した場合、出力する目次の項目を更に判定し、構造化・半構造化文書記憶部61からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部62から当該構造化・半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、指定された目次の項目の内容を記述した文書を生成する。生成された目次の項目の内容を記述した文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される(ステップS406)。   If the item document output unit 54 determines that the table of contents is not output in step S404, the item document output unit 54 further determines the item of the table of contents to be output, and the structured / semi-structured item desired by the user from the structured / semi-structured document storage unit 61 The document is obtained from the layout document storage unit 62 in which the layout information of the structured / semi-structured document is described, and a document in which the contents of the designated table of contents are described is generated. The generated document describing the contents of the table of contents item is provided to the user from an output device such as a display or a speaker or via the network (step S406).

入力部51は、ステップS405で目次文書を出力した後、又はステップS406で目次の項目の内容を記述した文書を出力した後、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、ステップS403以降の処理を繰り返す(ステップS407)。   After outputting the table of contents document in step S405 or outputting the document describing the contents of the table of contents items in step S406, the input unit 51 receives a user input from an input device such as a keyboard or via a network. The process after step S403 is repeated (step S407).

次に、本実施の形態の効果について説明する。本実施の形態では、構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を用いて目次文書や目次の項目の内容を記述した文書を生成、出力するので、文書提供者が意図する文書の論理構造を的確に捉えた目次を用いて文書を閲覧できるようになり、画面の小さい端末でも文書の全体像を把握しやすくなるとともに、少ない操作で文書を閲覧できる。このため、端末環境に適応した文書を提供できる。   Next, the effect of this embodiment will be described. In this embodiment, a document that describes the contents of a table of contents document or contents of a table of contents is generated and output using a structured / semi-structured document and a document describing layout information of the document. The document can be viewed using a table of contents that accurately captures the logical structure of the document intended by the user, making it easy to grasp the overall image of the document even with a terminal having a small screen, and allowing the user to browse the document with fewer operations. Therefore, it is possible to provide a document adapted to the terminal environment.

次に、本発明の第5の実施形態について図面を参照して詳細に説明する。図27を参照すると、本発明の第5の実施形態は、プログラム制御により動作するデータ処理装置7と、情報を記憶する記憶装置8とを含む。   Next, a fifth embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 27, the fifth embodiment of the present invention includes a data processing device 7 that operates under program control, and a storage device 8 that stores information.

データ処理装置7は、文書入力部71と、合成文書出力部72とを備える。記憶装置8は、出力構成要素記憶部81と、構造化・半構造化文書記憶部82と、レイアウト文書記憶部83とを備える。   The data processing device 7 includes a document input unit 71 and a composite document output unit 72. The storage device 8 includes an output component storage unit 81, a structured / semi-structured document storage unit 82, and a layout document storage unit 83.

文書入力部71は、出力構成要素記憶部81から出力構成要素に関する情報を取得し、当該情報に記述されたURIに対応する文書を取得し、構造化・半構造化文書記憶部82に記憶する。また、文書入力部71は、取得したそれぞれの構造化・半構造化文書に指定された、レイアウトの情報が文書記述要素の参照を用いて記述された文書を取得し、レイアウト文書記憶部83に記憶する。ここで、文書入力部71は、通信プロトコルのヘッダー情報を利用するといった別の方法を用いて、取得した構造化・半構造化文書のレイアウトの情報が記述された文書を取得してもよい。また、取得した構造化・半構造化文書について、本発明の第3の実施の形態に示すシステムを用いて、レイアウトの情報を解析し、レイアウト文書記憶部83に記憶してもよい。   The document input unit 71 acquires information about the output component from the output component storage unit 81, acquires a document corresponding to the URI described in the information, and stores it in the structured / semi-structured document storage unit 82. . In addition, the document input unit 71 acquires a document in which layout information specified by each acquired structured / semi-structured document is described by using a document description element reference, and stores the document in the layout document storage unit 83. Remember. Here, the document input unit 71 may acquire a document in which the layout information of the acquired structured / semi-structured document is described using another method such as using header information of the communication protocol. Further, with respect to the obtained structured / semi-structured document, layout information may be analyzed and stored in the layout document storage unit 83 using the system shown in the third embodiment of the present invention.

合成文書出力部72は、出力構成要素記憶部81から出力構成要素に関する情報を、構造化・半構造化文書記憶部82からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部83からレイアウトの情報が記述された文書をそれぞれ取得し、合成文書を生成する。具体的には、出力構成要素に関する情報から全てのURIと構成要素のIDの組み合わせを取得し、各URIに対応する文書から構成要素のIDに対応する構成要素を抽出し、文書記述要素の参照を用いて元の構造化・半構造化文書から当該構成要素に対応する文書記述要素を抜き出し、整形して順に並べることで合成文書を生成する。ここで、各構成要素について、これに属する文書記述要素の内容を更に抜き出し並べてもよい。生成された合成文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される。   The composite document output unit 72 receives information on the output component from the output component storage unit 81, the structured / semi-structured document desired by the user from the structured / semi-structured document storage unit 82, and the layout document storage unit 83. The document in which the layout information is described is acquired from each of the documents to generate a composite document. Specifically, a combination of all URIs and component IDs is acquired from the information about the output component, the component corresponding to the component ID is extracted from the document corresponding to each URI, and the document description element is referenced. Is used to extract a document description element corresponding to the component from the original structured / semi-structured document, shape it, and arrange it in order. Here, for each constituent element, the contents of the document description element belonging to the constituent element may be further extracted and arranged. The generated composite document is provided to the user from an output device such as a display or a speaker, or via a network.

ここで、出力構成要素に関する情報として構成要素のタイトルを表すテキスト情報を更に記憶し、合成文書出力部72で、出力する構成要素のIDに対応する構成要素を抽出した際、抽出された構成要素のタイトルと出力構成要素に関する情報に記憶された構成要素のタイトルを表すテキスト情報を照合し、異なる場合に当該テキスト情報を手掛かりとして正しい構成要素を検索し、出力構成要素に関する情報に記憶された出力する構成要素のIDを更新することで、レイアウトに変更があった場合でも適切な合成文書を生成できるようにしてもよい。また、出力構成要素に関する情報として表示位置の情報を更に記憶し、合成文書出力部72で、当該表示位置の情報を用いて合成文書を整形してもよい。   Here, text information representing the title of the component is further stored as information relating to the output component, and when the component corresponding to the ID of the component to be output is extracted by the composite document output unit 72, the extracted component The text information representing the title of the component stored in the title and the information related to the output component is collated, and if different, the correct component is searched using the text information as a clue, and the output stored in the information related to the output component It is also possible to generate an appropriate composite document even when the layout is changed by updating the IDs of the constituent elements. Further, display position information may be further stored as information relating to the output component, and the composite document output unit 72 may format the composite document using the display position information.

出力構成要素記憶部81は、出力する構成要素に関する情報、すなわち出力する構造化・半構造化文書のURIと当該文書のうち出力する構成要素のIDの組み合わせの集合を記憶する。構造化・半構造化文書記憶部82、レイアウト文書記憶部83は、文書入力部71の処理結果を記憶する。   The output component storage unit 81 stores a set of information related to the component to be output, that is, a combination of the URI of the structured / semi-structured document to be output and the ID of the component to be output in the document. The structured / semi-structured document storage unit 82 and the layout document storage unit 83 store the processing result of the document input unit 71.

次に、図27、図28を参照して本実施の形態の動作について詳細に説明する。文書入力部71は、出力構成要素記憶部81から出力構成要素に関する情報を取得する(ステップS501)。   Next, the operation of the present embodiment will be described in detail with reference to FIGS. The document input unit 71 acquires information related to the output component from the output component storage unit 81 (step S501).

文書入力部71は、取得された出力構成要素に関する情報に記述されたURIに対応する文書を取得し、構造化・半構造化文書記憶部82に記憶する。また、文書入力部71は、取得したそれぞれの構造化・半構造化文書に指定されたレイアウトの情報が記述された文書を取得し、レイアウト文書記憶部83に記憶する(ステップS502)。   The document input unit 71 acquires a document corresponding to the URI described in the information related to the acquired output component, and stores it in the structured / semi-structured document storage unit 82. Further, the document input unit 71 acquires a document in which the layout information designated in each acquired structured / semi-structured document is described, and stores the document in the layout document storage unit 83 (step S502).

合成文書出力部72は、出力構成要素記憶部81から出力構成要素に関する情報を、構造化・半構造化文書記憶部82からユーザが所望する構造化・半構造化文書を、レイアウト文書記憶部83から当該文書のレイアウトの情報が記述された文書をそれぞれ取得し、合成文書を生成する。生成された合成文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される(ステップS503)。   The composite document output unit 72 receives information on the output component from the output component storage unit 81, the structured / semi-structured document desired by the user from the structured / semi-structured document storage unit 82, and the layout document storage unit 83. Each of the documents in which the layout information of the document is described is acquired from each of the documents, and a composite document is generated. The generated composite document is provided to the user from an output device such as a display or a speaker or via a network (step S503).

次に、本実施の形態の効果について説明する。本実施の形態では、出力構成要素に関する情報と構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を用いて、指定されたレイアウトの構成要素だけから成る合成文書を生成、出力するので、文書提供者が意図する文書の論理構造を的確に捉えた合成文書を用いて文書の必要な部分だけを閲覧できるようになり、ネットワーク帯域が限定された端末や画面の小さい端末でも快適に文書を閲覧できる。またユーザの好みに応じた文書を閲覧できる。このため、ネットワークや端末、ユーザの環境に適応した文書を提供できる。   Next, the effect of this embodiment will be described. In the present embodiment, using a document in which information about an output component, a structured / semi-structured document, and a document in which the layout information of the document is described, a composite document composed only of components of a specified layout is generated. Because it is output, it becomes possible to browse only the necessary parts of the document using a composite document that accurately captures the logical structure of the document intended by the document provider, and even a terminal with a limited network bandwidth or a terminal with a small screen You can view documents comfortably. Users can also browse documents according to user preferences. Therefore, it is possible to provide a document adapted to the network, the terminal, and the user environment.

次に、本発明の第6の実施形態について図面を参照して詳細に説明する。図32を参照すると、本発明の第6の実施形態は、本発明の第1、第2、第3の実施形態と同様に、データ処理装置1、記憶装置2を備える。   Next, a sixth embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 32, the sixth embodiment of the present invention includes a data processing device 1 and a storage device 2 as in the first, second, and third embodiments of the present invention.

文書解析用プログラム3は、データ処理装置1に読み込まれデータ処理装置1の動作を制御し、記憶装置2にレンダリング結果記憶部21と解析結果記憶部22とタイトル解析ルール記憶部23を生成する。データ処理装置1は文書解析用プログラム3の制御により第1、第2、第3の実施形態におけるデータ処理装置1による処理と同一の処理を実行する。   The document analysis program 3 is read into the data processing device 1 to control the operation of the data processing device 1, and generates a rendering result storage unit 21, an analysis result storage unit 22, and a title analysis rule storage unit 23 in the storage device 2. The data processing device 1 executes the same processing as the processing by the data processing device 1 in the first, second, and third embodiments under the control of the document analysis program 3.

次に、本発明の第7の実施形態について図面を参照して詳細に説明する。図33を参照すると、本発明の第7の実施形態は、本発明の第4の実施形態と同様に、データ処理装置5、記憶装置6を備える。   Next, a seventh embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 33, the seventh embodiment of the present invention includes a data processing device 5 and a storage device 6 as in the fourth embodiment of the present invention.

文書適応用プログラム4は、データ処理装置5に読み込まれデータ処理装置5の動作を制御し、記憶装置6に構造化・半構造化文書記憶部61とレイアウト文書記憶部62を生成する。データ処理装置5は文書適応用プログラム4の制御により第4の実施形態におけるデータ処理装置5による処理と同一の処理を実行する。   The document adaptation program 4 is read into the data processing device 5 and controls the operation of the data processing device 5, and generates a structured / semi-structured document storage unit 61 and a layout document storage unit 62 in the storage device 6. The data processing device 5 executes the same processing as the processing by the data processing device 5 in the fourth embodiment under the control of the document adaptation program 4.

次に、本発明の第8の実施形態について図面を参照して詳細に説明する。図34を参照すると、本発明の第8の実施形態は、本発明の第5の実施形態と同様に、データ処理装置7、記憶装置8を備える。   Next, an eighth embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 34, the eighth embodiment of the present invention includes a data processing device 7 and a storage device 8 as in the fifth embodiment of the present invention.

文書適応用プログラム9は、データ処理装置7に読み込まれデータ処理装置7の動作を制御し、記憶装置8に出力構成要素記憶部81、構造化・半構造化文書記憶部82、レイアウト文書記憶部83を生成する。データ処理装置7は文書適応用プログラム9の制御により第5の実施形態におけるデータ処理装置7による処理と同一の処理を実行する。   The document adaptation program 9 is read into the data processing device 7 and controls the operation of the data processing device 7, and the output component storage unit 81, the structured / semi-structured document storage unit 82, and the layout document storage unit are stored in the storage device 8. 83 is generated. The data processing device 7 executes the same processing as the processing by the data processing device 7 in the fifth embodiment under the control of the document adaptation program 9.

次に、本発明の第9の実施形態について図面を参照して詳細に説明する。図35を参照すると、本発明の第9の実施形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む。   Next, a ninth embodiment of the present invention will be described in detail with reference to the drawings. Referring to FIG. 35, the ninth embodiment of the present invention includes a data processing device 1 that operates under program control, and a storage device 2 that stores information.

データ処理装置1は、入力部11と、レイアウト解析ツール12と、出力部13とを備える。記憶装置2は、レンダリング結果記憶部21、解析結果記憶部22、タイトル解析ルール記憶部23とを備える。   The data processing device 1 includes an input unit 11, a layout analysis tool 12, and an output unit 13. The storage device 2 includes a rendering result storage unit 21, an analysis result storage unit 22, and a title analysis rule storage unit 23.

入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する。   The input unit 11 acquires a structured / semi-structured document from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21.

レイアウト解析ツール12は、基本レイアウト解析部14と、タイトル解析部15と、レイアウト解析部16とを有する。   The layout analysis tool 12 includes a basic layout analysis unit 14, a title analysis unit 15, and a layout analysis unit 16.

出力部13は、解析結果記憶部22からレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。   The output unit 13 acquires from the analysis result storage unit 22 the layout components and their hierarchical relationships, and the correspondences between the respective components and titles, and expresses the layout components and titles using references to document description elements. Format it to the format you want to output.

基本レイアウト解析部14は、レンダリング結果記憶部21からレンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化することでレイアウトを解析する。基本レイアウト解析部14の機能は、本発明の第1の実施の形態の基本レイアウト解析部14に示す機能と同じである。   The basic layout analysis unit 14 obtains a rendering result from the rendering result storage unit 21, refers to the arrangement of the document description elements, and analyzes the layout by grouping the document description elements juxtaposed in a certain direction. The function of the basic layout analysis unit 14 is the same as the function shown in the basic layout analysis unit 14 according to the first embodiment of this invention.

タイトル解析部15は、レンダリング結果記憶部21からレンダリング結果を、タイトル解析ルール記憶部23からタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。タイトル解析部15の機能は、本発明の第2の実施の形態のタイトル解析部15に示す機能と同じである。   The title analysis unit 15 acquires the rendering result from the rendering result storage unit 21 and the title analysis rule from the title analysis rule storage unit 23, and compares the attribute, style, and content with the title analysis rule in addition to the name of the document description element. By analyzing the title. The function of the title analysis unit 15 is the same as the function shown in the title analysis unit 15 according to the second embodiment of the present invention.

レイアウト解析部16は、ブロック選別部17、セクション計算部18とを有する。   The layout analysis unit 16 includes a block selection unit 17 and a section calculation unit 18.

ブロック選別部17は、解析結果記憶部22から、基本レイアウト解析部14で解析された第1のレイアウトの構成要素とその階層関係、レイアウト解析部16で解析された第2のレイアウトの構成要素とその階層関係を取得し、分割可能な第2のレイアウトの構成要素1つを選別し、これを構成する第1のレイアウトの構成要素を解析対象とする。さらに、タイトル解析部15で解析されたタイトルを取得し、解析対象の第1のレイアウトの構成要素とタイトルを対応付け、対応付けられたタイトルについて、これを構成する文書記述要素の名前、属性、スタイルに基づき主要なタイトルを選別する。その上で、主要なタイトルを持つ構成要素を主要な構成要素とする。ここで、解析対象の第1のレイアウトの構成要素について、これを構成する文書記述要素の名前、属性、スタイル、内容に基づき、当該構成要素が境界線か否かを判定し、境界線と判定したものを主要なレイアウトの構成要素としてもよいし、解析対象の第1のレイアウトの構成要素間の距離に基づき、直前の構成要素と所定の距離以上離れた構成要素などを主要な構成要素としてもよい。   From the analysis result storage unit 22, the block selection unit 17 analyzes the first layout components analyzed by the basic layout analysis unit 14 and their hierarchical relationships, and the second layout components analyzed by the layout analysis unit 16. The hierarchical relationship is acquired, one component of the second layout that can be divided is selected, and the component of the first layout that constitutes the component is analyzed. Furthermore, the title analyzed by the title analysis unit 15 is acquired, the components of the first layout to be analyzed are associated with the titles, and the names, attributes, Select major titles based on style. Then, the component having the main title is set as the main component. Here, with respect to the component of the first layout to be analyzed, it is determined whether or not the component is a boundary line based on the name, attribute, style, and contents of the document description element that configures the component. This may be used as a component of the main layout, or based on the distance between the components of the first layout to be analyzed, a component that is more than a predetermined distance away from the previous component as a main component Also good.

セクション計算部18は、ブロック選別部17で選別された第1のレイアウトの構成要素について、主要でない構成要素を、主要な構成要素、又は主要でない別の構成要素とグループ化することで第2のレイアウトの構成要素を生成し、解析結果記憶部22に記憶する。具体的には、主要でない構成要素は、主要な構成要素のうち、例えば、ソース上先頭に向かって最も近いものとグループ化する。最も近い主要な構成要素がない場合は、例えば、最も近い主要でない構成要素とグループ化する。ここで、新たに生成された第2のレイアウトの構成要素を元の第2のレイアウトの構成要素と置き換えて記憶してもよいし、新たに生成された第2のレイアウトの構成要素を元の第2のレイアウトの構成要素の子供として記憶してもよい。また、境界線と判定された第1のレイアウトの構成要素を除き第2のレイアウトの構成要素として記憶してもよい。   The section calculation unit 18 groups the first layout component selected by the block selection unit 17 with the main component or another non-main component to group the second layout. A layout component is generated and stored in the analysis result storage unit 22. Specifically, the non-major component is grouped with, for example, the closest major component toward the top on the source. If there is no nearest major component, for example, group with the nearest minor component. Here, the newly generated second layout component may be stored in place of the original second layout component, or the newly generated second layout component may be stored in the original. You may memorize | store as a child of the component of a 2nd layout. Further, it may be stored as a component of the second layout except for the component of the first layout determined as the boundary line.

次に、図35、図36を参照して本実施の形態の動作について詳細に説明する。入力部11は、外部から構造化・半構造化文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部21に記憶する(ステップS901)。   Next, the operation of the present embodiment will be described in detail with reference to FIG. 35 and FIG. The input unit 11 acquires a structured / semi-structured document from the outside, renders the document, and stores the rendering result in the rendering result storage unit 21 (step S901).

基本レイアウト解析部14の動作は、本発明の第1の実施の形態に示す基本レイアウト解析部(図1の14)の動作と同じである(ステップS902〜ステップS906)。   The operation of the basic layout analysis unit 14 is the same as the operation of the basic layout analysis unit (14 in FIG. 1) shown in the first embodiment of the present invention (steps S902 to S906).

タイトル解析部15の動作は、本発明の第2の実施の形態に示すタイトル解析部(図1の15)の動作と同じである(ステップS911〜ステップS916)。   The operation of the title analysis unit 15 is the same as the operation of the title analysis unit (15 in FIG. 1) shown in the second embodiment of the present invention (steps S911 to S916).

ブロック選別部17は、解析結果記憶部22から、基本レイアウト解析部14で解析された第1のレイアウトの構成要素とその階層関係、タイトル解析部15で解析されたタイトル、レイアウト解析部F16で解析された第2のレイアウトの構成要素とその階層関係を取得する(ステップS921)。   The block selection unit 17 analyzes from the analysis result storage unit 22 the first layout components analyzed by the basic layout analysis unit 14 and their hierarchical relationships, the title analyzed by the title analysis unit 15, and the layout analysis unit F16. The component of the second layout that has been made and its hierarchical relationship are acquired (step S921).

ブロック選別部17は、分割可能な第2のレイアウトの構成要素があるかどうかを判定し、分割可能な第2のレイアウトの構成要素がないと判定した場合、ステップS931に進む(ステップS922)。ここで、判定基準として、第2のレイアウトの構成要素が内包するタイトルの数、第2のレイアウトの構成要素を構成する第1のレイアウトの構成要素のうちタイトルを持つものの数、第2のレイアウトの構成要素の面積や幅、高さなどを用いることができる。   The block selection unit 17 determines whether there is a component of the second layout that can be divided, and proceeds to step S931 if it is determined that there is no component of the second layout that can be divided (step S922). Here, as determination criteria, the number of titles included in the second layout component, the number of components having the title among the first layout components configuring the second layout component, and the second layout The area, width, height, etc. of the constituent elements can be used.

ブロック選別部17は、ステップS923で分割可能な第2のレイアウトの構成要素があると判定した場合、分割可能な第2のレイアウトの構成要素1つを選別し、これを構成する第1のレイアウトの構成要素を解析対象とする(ステップS923)。   If the block selection unit 17 determines in step S923 that there is a component of the second layout that can be divided, the block selection unit 17 selects one component of the second layout that can be divided, and the first layout that constitutes the component Are the analysis targets (step S923).

ブロック選別部17は、解析対象の第1のレイアウトの構成要素とタイトルを対応付け(ステップS924)、対応付けられたタイトルについて、これを構成する文書記述要素の名前、属性、スタイルに基づき主要なタイトルを選別する(ステップS925)。   The block selection unit 17 associates the component of the first layout to be analyzed with the title (step S924), and the associated title is determined based on the name, attribute, and style of the document description element constituting the title. A title is selected (step S925).

ブロック選別部17は、ステップS925で選別された主要なタイトルを持つ第1のレイアウトの構成要素を主要な構成要素とする。ここで、解析対象の第1のレイアウトの構成要素について、これを構成する文書記述要素の名前、属性、スタイル、内容に基づき、当該構成要素が境界線か否かを判定し、境界線と判定したものやその次の構成要素をも主要なレイアウトの構成要素としてもよいし、解析対象の第1のレイアウトの構成要素間の距離に基づき、直前の構成要素と所定の距離以上離れた構成要素などをも主要な構成要素としてもよい(ステップS926)。   The block selection unit 17 sets the first layout component having the main title selected in step S925 as the main component. Here, with respect to the component of the first layout to be analyzed, it is determined whether or not the component is a boundary line based on the name, attribute, style, and contents of the document description element that configures the component. Or the next component may be used as a component of the main layout, or a component separated from the previous component by a predetermined distance or more based on the distance between the components of the first layout to be analyzed. Or the like may be used as a main component (step S926).

セクション計算部18は、ブロック選別部17で選別された第1のレイアウトの構成要素について、主要でない構成要素を、主要な構成要素、又は主要でない別の構成要素とグループ化することで第2のレイアウトの構成要素を生成し、解析結果記憶部22に記憶する(ステップS927)。   The section calculation unit 18 groups the first layout component selected by the block selection unit 17 with the main component or another non-main component to group the second layout. Layout components are generated and stored in the analysis result storage unit 22 (step S927).

出力部13は、解析結果記憶部22から第2のレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、第2のレイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する(ステップS931)。   The output unit 13 acquires from the analysis result storage unit 22 the second layout components and their hierarchical relationships, and the correspondences between the components and titles, and the second layout components and titles as document description elements. Are formatted into a format that is expressed using the reference of, and output to the outside (step S931).

ここで、基本レイアウト解析部14の動作(ステップS902〜ステップS906)と、タイトル解析部15の動作(ステップS911〜ステップS916)の実行順序を入れ替えてもよい。   Here, the execution order of the operation of the basic layout analysis unit 14 (steps S902 to S906) and the operation of the title analysis unit 15 (steps S911 to S916) may be interchanged.

次に、本実施の形態の効果について説明する。本実施の形態では、タイトルを構成する文書記述要素の名前、属性、スタイルにより選別された主要なタイトルなどに基づき、第1のレイアウトの構成要素をグループ化し、新たな第2のレイアウトの構成要素を生成するので、より論理構造を捉えたレイアウトを解析できる。このため、より文書提供者の意図を反映したレイアウトを解析できる。また、レイアウトやタイトルを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイアウトの情報を利用した応用アプリケーションを開発できる。   Next, the effect of this embodiment will be described. In the present embodiment, the components of the first layout are grouped based on the main titles selected by the names, attributes, and styles of the document description elements that constitute the title, and a new second layout component Can generate a layout that captures more logical structure. For this reason, the layout reflecting the intention of the document provider can be analyzed. In addition, since the layout and title are output in a format that is expressed using a reference to the document description element, a third party can develop an application application using the layout information.

次に、本発明の第1の実施例を図面を参照して説明する。かかる実施例は本発明の第1の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えている。   Next, a first embodiment of the present invention will be described with reference to the drawings. This example corresponds to the first embodiment of the present invention. In this embodiment, a personal computer is provided as a data processing device and a data storage device.

パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。   The personal computer includes a central processing unit that functions as an input unit, a layout analysis unit, an output unit, and a basic layout analysis unit, a rendering result storage unit, a memory device that functions as an analysis result storage unit, and a magnetic disk storage device. .

ここでは、構造化・半構造化文書として図3に示すHTML文書を対象に、第2階層までのレイアウトの解析について説明する。   Here, the analysis of the layout up to the second layer will be described for the HTML document shown in FIG. 3 as the structured / semi-structured document.

中央演算装置は、HTML文書を外部から取得し、当該文書をレンダリングし、図3に示すレンダリング結果をメモリ装置に記憶する。中央演算装置は、レンダリング結果を取得し、まずbody要素の配置を参照する。図4に示すようにbody要素は水平方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は子供のHTML文書の要素の配置を参照する。図5に示すように子供のHTML文書の要素であるh1要素と2つのtable要素はいずれも水平方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は更に子供のHTML文書の要素の配置を参照する。   The central processing unit acquires an HTML document from outside, renders the document, and stores the rendering result shown in FIG. 3 in the memory device. The central processing unit obtains the rendering result and first refers to the arrangement of the body element. As shown in FIG. 4, since the body element does not have elements of HTML documents juxtaposed in the horizontal direction and cannot be grouped, the central processing unit refers to the arrangement of elements of the child HTML document. As shown in FIG. 5, since the h1 element and the two table elements which are the elements of the child HTML document are not aligned in the horizontal direction and cannot be grouped, the central processing unit further includes the child HTML document. Refer to the arrangement of elements.

まず、h1要素について、図5に示すように子供のHTML文書の要素がないので、当該h1要素を第1のレイアウトの構成要素としてメモリ装置に記憶する。次に、第1番目のtable要素について、図6に示すように子供のHTML文書の要素であるtr要素は水平方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は更に子供のHTML文書の要素の配置を参照する。図7に示すように子供のHTML文書の要素であるtd要素は水平方向に並置されたHTML文書の要素がなくグループ化できないものの子供のHTML文書の要素がないので、当該td要素を第2のレイアウトの構成要素としてメモリ装置に記憶する。最後に、第2番目のtable要素について、図6に示すように子供のHTML文書の要素である2つのtr要素は水平方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は更に子供のHTML文書の要素の配置を参照する。   First, since there is no child HTML document element for the h1 element as shown in FIG. 5, the h1 element is stored in the memory device as a component of the first layout. Next, with respect to the first table element, as shown in FIG. 6, the tr element, which is an element of the child HTML document, cannot be grouped because there is no element of the HTML document juxtaposed in the horizontal direction. Refers to the arrangement of elements in the child's HTML document. As shown in FIG. 7, since the td element which is an element of the child HTML document is not grouped because there is no element of the HTML document juxtaposed in the horizontal direction, there is no element of the child HTML document. It is stored in the memory device as a component of the layout. Finally, with respect to the second table element, as shown in FIG. 6, the two tr elements that are the elements of the child HTML document are not grouped because there is no element of the HTML document juxtaposed in the horizontal direction. Further refers to the arrangement of the elements of the child's HTML document.

第1番目のtr要素について、図7に示すように子供のHTML文書の要素である2つのtd要素は水平方向に並置されているのでこれらをグループ化し、当該2つのtd要素を第3のレイアウトの構成要素としてメモリ装置に記憶する。第2番目のtr要素についても、図7に示すように子供のHTML文書の要素である2つのtd要素は水平方向に並置されているのでこれらをグループ化し、当該2つのtd要素を第4のレイアウトの構成要素としてメモリ装置に記憶する。   As for the first tr element, as shown in FIG. 7, since two td elements that are elements of the child HTML document are juxtaposed in the horizontal direction, they are grouped, and the two td elements are grouped in the third layout. Is stored in the memory device as a constituent element. As for the second tr element, as shown in FIG. 7, since the two td elements that are the elements of the child HTML document are juxtaposed in the horizontal direction, they are grouped, and the two td elements are grouped into the fourth td element. It is stored in the memory device as a component of the layout.

以上の処理により、図8に示す第1階層のレイアウトを解析する。第2階層のレイアウトを解析する場合は、第1階層のレイアウトの構成要素について、これに属するHTML文書の要素の配置を参照し垂直方向に並置されたHTML文書の要素をグループ化する。例えば、第3のレイアウトの構成要素について、図9に示すようにこれに属するHTML文書の要素である2つのtd要素はいずれも垂直方向に並置されたHTML文書の要素がなくグループ化できないため、中央演算装置は更に子供のHTML文書の要素の配置を参照する。第1番目のtd要素について、図9に示すように子供のHTML文書の要素がないので、当該td要素をレイアウトの構成要素としてメモリ装置に記憶する。第2番目のtd要素についても、図9に示すように子供のHTML文書の要素がないので、当該td要素をレイアウトの構成要素としてメモリ装置に記憶する。以上の処理により、第2階層のレイアウトを解析する。   With the above processing, the layout of the first hierarchy shown in FIG. 8 is analyzed. When analyzing the layout of the second hierarchy, the elements of the HTML document juxtaposed in the vertical direction are grouped by referring to the arrangement of the elements of the HTML document belonging to the layout elements of the first hierarchy. For example, regarding the components of the third layout, as shown in FIG. 9, the two td elements that are the elements of the HTML document belonging to this element cannot be grouped because there is no element of the HTML document juxtaposed in the vertical direction. The central processing unit further refers to the arrangement of the elements of the child's HTML document. Since there is no child HTML document element for the first td element as shown in FIG. 9, the td element is stored in the memory device as a component of the layout. As for the second td element, there is no child HTML document element as shown in FIG. 9, so the td element is stored in the memory device as a component of the layout. With the above processing, the layout of the second hierarchy is analyzed.

中央演算装置は、解析されたレイアウトの構成要素とその階層関係の情報をメモリ装置から取得し、レイアウトの構成要素をHTML文書の要素の参照を用いて表現する形式、例えば、図10に示す形式に整形し、外部に出力する。   The central processing unit obtains the analyzed layout components and the hierarchical relationship information from the memory device, and expresses the layout components using reference to the elements of the HTML document, for example, the format shown in FIG. And output to the outside.

次に、本発明の第2の実施例を図面を参照して説明する。かかる実施例は本発明の第2の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えている。   Next, a second embodiment of the present invention will be described with reference to the drawings. Such an example corresponds to the second embodiment of the present invention. In this embodiment, a personal computer is provided as a data processing device and a data storage device.

パーソナルコンピュータは、入力部、レイアウト解析部、出力部、タイトル解析部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置には、図13に示すようなタイトル解析ルールが記憶されている。   The personal computer has a central processing unit that functions as an input unit, a layout analysis unit, an output unit, and a title analysis unit, a rendering result storage unit, a memory device that functions as an analysis result storage unit, and a magnetic disk storage device. The magnetic disk storage device stores a title analysis rule as shown in FIG.

ここでは、構造化・半構造化文書として図3に示すHTML文書を対象に説明する。中央演算装置は、HTML文書を外部から取得し、当該文書をレンダリングし、図3に示すレンダリング結果をメモリ装置に記憶する。   Here, the HTML document shown in FIG. 3 will be described as a structured / semi-structured document. The central processing unit acquires an HTML document from outside, renders the document, and stores the rendering result shown in FIG. 3 in the memory device.

中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、body要素を処理対象HTML文書の要素とする。body要素について名前、属性、スタイル、内容をタイトル解析ルールと照合するとルールに合致しないため、body要素の子供のHTML文書の要素、すなわちh1要素と2つのtable要素を新しく処理対象HTML文書の要素に追加し、h1要素を次の処理対象HTML文書の要素とする。ここでh1要素について名前、属性、スタイル、内容をタイトル解析ルールと照合するとルールに合致するため、当該h1要素をタイトルとしてメモリ装置に記憶し、第1のtable要素を次の処理対象HTML文書の要素とする。上記処理を処理対象HTML文書の要素がなくなるまで繰り返す。例えば、処理対象HTML文書の要素が第2のtable要素の第1のtr要素の第1のtd要素であった場合は、当該td要素について名前、属性、スタイル、内容をタイトル解析ルールと照合する。当該td要素が背景色の指定があり高さが50pxで内容が5文字だったとすると、照合の結果ルールに合致するため、当該td要素をタイトルとしてメモリ装置に記憶する。以上の処理により、図14に示すタイトルを解析する。   The central processing unit acquires the rendering result and the title analysis rule, and uses the body element as an element of the processing target HTML document. If the name, attribute, style, and contents of the body element are matched with the title analysis rule, they do not match the rule, so the child HTML element element of the body element, that is, the h1 element and the two table elements are newly set as the elements of the processing target HTML document. The h1 element is added as an element of the next processing target HTML document. Here, when the name, attribute, style, and content of the h1 element are matched with the title analysis rule, the rule is matched. Therefore, the h1 element is stored in the memory device as a title, and the first table element is stored in the next processing target HTML document. Element. The above processing is repeated until there are no more elements in the processing target HTML document. For example, when the element of the processing target HTML document is the first td element of the first tr element of the second table element, the name, attribute, style, and content of the td element are checked against the title analysis rule. . If the background color is specified for the td element, the height is 50 px, and the content is 5 characters, the td element is stored in the memory device as a title because the rule matches the matching rule. The title shown in FIG. 14 is analyzed by the above processing.

中央演算装置は、解析されたタイトルの情報をメモリ装置から取得し、タイトルをHTML文書の要素の参照を用いて表現する形式、例えば、図15に示す形式に整形し、外部に出力する。   The central processing unit acquires the analyzed title information from the memory device, shapes the title using a reference to the element of the HTML document, for example, the format shown in FIG. 15, and outputs it to the outside.

次に、本発明の第3の実施例を図面を参照して説明する。かかる実施例は本発明の第3の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えている。   Next, a third embodiment of the present invention will be described with reference to the drawings. Such an example corresponds to the third embodiment of the present invention. In this embodiment, a personal computer is provided as a data processing device and a data storage device.

パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析部、タイトル解析部、レイアウト解析部Fとして機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置にはタイトル解析ルールが記憶されている。   The personal computer includes an input unit, a layout analysis unit, an output unit, a basic layout analysis unit, a title analysis unit, a central processing unit that functions as a layout analysis unit F, a rendering result storage unit, a memory device that functions as an analysis result storage unit, It has a magnetic disk storage device. Also, a title analysis rule is stored in the magnetic disk storage device.

ここでは、構造化・半構造化文書として図3に示すHTML文書を対象に説明する。中央演算装置は、HTML文書を外部から取得し、当該文書をレンダリングし、図3に示すレンダリング結果をメモリ装置に記憶する。   Here, the HTML document shown in FIG. 3 will be described as a structured / semi-structured document. The central processing unit acquires an HTML document from outside, renders the document, and stores the rendering result shown in FIG. 3 in the memory device.

中央演算装置は、レンダリング結果を取得し、レイアウトの構成要素とその階層関係を解析する。この機能や動作は、第1の実施例に示すものと同じである。   The central processing unit obtains the rendering result and analyzes the layout components and their hierarchical relationships. This function and operation are the same as those shown in the first embodiment.

中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、タイトルを解析する。この機能や動作は、第2の実施例に示すものと同じである。   The central processing unit acquires the rendering result and the title analysis rule, and analyzes the title. This function and operation are the same as those shown in the second embodiment.

中央演算装置は、解析されたレイアウトの構成要素とその階層関係、タイトルを取得し、まず第1階層のレイアウトの構成要素を対象に解析する。第1階層のレイアウトの構成要素とタイトルの内包関係を調べると、図18に示すようにタイトルを持つレイアウトの構成要素とタイトルを持たないレイアウトの構成要素を解析できる。ここで、body要素下の第1のtable要素下の第1のtr要素下の第1のtd要素で与えられるレイアウトの構成要素はタイトルを持たないので、タイトルを持つレイアウトの構成要素、又はタイトルを持たない別のレイアウトの構成要素とのグループ化を図る。   The central processing unit acquires the analyzed layout components, their hierarchical relationships, and titles, and first analyzes the layout components of the first hierarchy. When the inclusion relationship between the layout elements of the first hierarchy and the title is examined, the layout elements having a title and the layout elements having no title can be analyzed as shown in FIG. Here, since the layout element given by the first td element under the first tr element under the first table element under the body element does not have a title, the layout element with the title, or the title Group with other layout components that do not have

具体的には、図19に示すように当該構成要素から見てソース上先頭に向かって最も近いタイトルを持つレイアウトの構成要素、すなわちbody要素下のh1要素で与えられるレイアウトの構成要素とグループ化し、新しいレイアウトの構成要素としてメモリ装置に記憶する。上記処理を全てのタイトルを持たないレイアウトの構成要素について行い、図20に示す第1階層の新しいレイアウトの構成要素を解析する。同様の処理を第2階層のレイアウトの構成要素に適用することで、第2階層の新しいレイアウトの構成要素も解析できる。   Specifically, as shown in FIG. 19, the layout component having the title closest to the top of the source when viewed from the component, that is, the layout component given by the h1 element under the body element is grouped. And stored in the memory device as components of the new layout. The above processing is performed on the layout elements that do not have all the titles, and the new layout elements of the first hierarchy shown in FIG. 20 are analyzed. By applying the same process to the layout elements of the second hierarchy, the new layout elements of the second hierarchy can also be analyzed.

中央演算装置は、解析された新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係の情報をメモリ装置取得し、新しいレイアウトの構成要素とタイトルをHTML文書の要素の参照を用いて表現する形式、例えば、図21に示す形式に整形し、外部に出力する。   The central processing unit acquires information about the analyzed new layout components and their hierarchical relationships, and information on the correspondence between each component and title, and references the new layout components and titles to the elements of the HTML document. Is formatted into a format expressed by using, for example, the format shown in FIG. 21, and output to the outside.

次に、本発明の第4の実施例を図面を参照して説明する。かかる実施例は本発明の第4の実施の形態に対応するものである。本実施例は、データ記憶装置としてパーソナルコンピュータを備えている。   Next, a fourth embodiment of the present invention will be described with reference to the drawings. Such an example corresponds to the fourth embodiment of the present invention. This embodiment includes a personal computer as a data storage device.

パーソナルコンピュータは、入力部、文書入力部、目次文書出力部、項目文書出力部として機能する中央演算装置と、構造化・半構造化文書記憶部、レイアウト文書記憶部として機能するメモリ装置、磁気ディスク装置を有している。   A personal computer includes a central processing unit that functions as an input unit, a document input unit, a table of contents document output unit, and an item document output unit, a structured / semi-structured document storage unit, a memory device that functions as a layout document storage unit, and a magnetic disk I have a device.

ここでは、構造化・半構造化文書として図24Aに示すHTML文書を、当該HTML文書のレイアウトの情報が記述された文書として図24Bに示すXML文書を対象に説明する。   Here, the HTML document shown in FIG. 24A will be described as a structured / semi-structured document, and the XML document shown in FIG. 24B will be described as a document in which layout information of the HTML document is described.

ユーザが携帯電話からhttp://www.nec.co.jp/news.htmlというURLを入力した場合、中央演算装置は、ネットワークを介して当該URLを取得し、さらにこれに対応する図24Aに示すHTML文書を取得し、メモリ装置に記憶する。また中央演算装置は、HTML文書を解析し当該文書のレイアウトの情報が記述された文書のURL、http://www.nec.co.jp/news.rdfを取得し、さらにこれに対応する図24Bに示すXML文書を取得し、メモリ装置に記憶する。   The user can access http: // www. nec. co. jp / news. When a URL of html is input, the central processing unit acquires the URL via the network, further acquires the corresponding HTML document shown in FIG. 24A, and stores it in the memory device. The central processing unit analyzes the HTML document and the URL of the document in which the layout information of the document is described, http: // www. nec. co. jp / news. The rdf is acquired, and the corresponding XML document shown in FIG. 24B is acquired and stored in the memory device.

中央演算装置は、HTML文書とXML文書をメモリ装置から取得し、XML文書から全てのレイアウトの構成要素、urn:layout:1、urn:layout:2、urn:layout:2:1、urn:layout:2:2を抽出し、それぞれのレイアウトの構成要素についてタイトルに対応するHTML文書の要素、/body[1]/h1[1]、/body[1]/table[2]/tr[1]/td[1]/table[1]/tr[1]、/body[1]/table[2]/tr[1]/td[2]/table[1]/tr[1]をさらに抽出する。ここで、タイトルに対応するHTML文書の要素をHTML文書に照らし合わせ、それぞれの内容、「主要なニュース」、「政治」、「経済」を抽出し、A要素といったHTML文書の要素を付加して順に並べることで、図25に示すレンダリングイメージを持つ目次文書を生成する。生成された目次文書は、ネットワーク、携帯電話のWebブラウザを介してユーザに提示される。   The central processing unit acquires an HTML document and an XML document from the memory device, and all layout components from the XML document, urn: layout: 1, urn: layout: 2, urn: layout: 2: 1, urn: layout : 2: 2 is extracted, and the elements of the HTML document corresponding to the title for each layout component, / body [1] / h1 [1], / body [1] / table [2] / tr [1] Further extract / td [1] / table [1] / tr [1], / body [1] / table [2] / tr [1] / td [2] / table [1] / tr [1] . Here, the HTML document element corresponding to the title is compared with the HTML document, the contents, “major news”, “politics”, “economy” are extracted, and the HTML document element such as the A element is added. By arranging them in order, a table of contents document having a rendering image shown in FIG. 25 is generated. The generated table of contents document is presented to the user via a network and a web browser of a mobile phone.

ユーザが提示された目次HTML文書から「政治」を選んだ場合、中央演算装置は、ネットワークを介してこの情報を取得し、XML文書から「政治」をタイトルとして持つレイアウトの構成要素、urn:layout:2:1を抽出し、当該構成要素に属するHTML文書の要素、/body[1]/table[2]/tr[1]/td[1]を更に抽出する。また、構成要素に対応するHTML文書の要素をHTML文書に照らし合わせ、その内容を抽出し、目次へのリンクを始めとするナビゲーションを目的とするHTML文書の要素を付加して順に並べることで、図26に示すレンダリングイメージを持つ「政治」の内容に関する文書を生成する。生成された文書は、ネットワーク、携帯電話のWebブラウザを介してユーザに提示される。ここで、ユーザが提示された文書から目次を選んだ場合、中央演算装置は、再度目次文書を生成し、ユーザに提示する。また、同文書から「前」や「次」を選んだ場合、中央演算装置は、「政治」の前や次の項目である「主要なニュース」や「経済」の内容に関する文書を生成し、ユーザに提示する。   When the user selects “politics” from the presented table of contents HTML document, the central processing unit acquires this information via the network, and a component of the layout having “politics” as the title from the XML document, urn: layout : 2: 1 is extracted, and / body [1] / table [2] / tr [1] / td [1] of the HTML document belonging to the component is further extracted. In addition, by comparing the HTML document elements corresponding to the constituent elements with the HTML document, extracting the contents, adding elements of the HTML document for navigation including links to the table of contents, and arranging them in order, A document relating to the contents of “politics” having the rendering image shown in FIG. 26 is generated. The generated document is presented to the user via a network and a Web browser of a mobile phone. When the user selects a table of contents from the presented document, the central processing unit generates a table of contents document again and presents it to the user. In addition, if “Previous” or “Next” is selected from the same document, the central processing unit generates a document related to the contents of “Main News” and “Economy” that are the next and previous items of “Politics” Present to the user.

次に、本発明の第5の実施例を図面を参照して説明する。かかる実施例は本発明の第5の実施の形態に対応するものである。本実施例は、データ記憶装置としてパーソナルコンピュータを備えている。   Next, a fifth embodiment of the present invention will be described with reference to the drawings. Such an example corresponds to the fifth embodiment of the present invention. This embodiment includes a personal computer as a data storage device.

パーソナルコンピュータは、文書入力部、合成文書出力部として機能する中央演算装置と、構造化・半構造化文書記憶部、レイアウト文書記憶部として機能するメモリ装置、磁気ディスク装置を有している。また、磁気ディスク装置には、図29に示すような出力構成要素に関する情報が記憶されている。   The personal computer includes a central processing unit that functions as a document input unit and a composite document output unit, a structured / semi-structured document storage unit, a memory device that functions as a layout document storage unit, and a magnetic disk device. The magnetic disk device stores information about output components as shown in FIG.

ここでは、構造化・半構造化文書として図24Aと図30Aに示すHTML文書を、それぞれのHTML文書のレイアウトの情報が記述された文書として図24Bと図30Bに示すXML文書を対象に説明する。   Here, the HTML document shown in FIGS. 24A and 30A will be described as a structured / semi-structured document, and the XML document shown in FIGS. 24B and 30B will be described as a document in which layout information of each HTML document is described. .

中央演算装置は、出力構成要素に関する情報に記述された、http://www.nec.co.jp/news.htmlとhttp://www.nec.co.jp/stock.htmlの2つのURLを取得し、さらにこれに対応する図24Aと図30Aに示すHTML文書を取得し、メモリ装置に記憶する。また、中央演算装置は、それぞれのHTML文書を解析し当該文書のレイアウトの情報が記述された文書のURL、http://www.nec.co.jp/news.rdfとhttp://www.nec.co.jp/stock.rdfを取得し、さらにこれに対応する図24Bと図30Bに示すXML文書を取得し、メモリ装置に記憶する。   The central processing unit can be found at http: // www. nec. co. jp / news. html and http: // www. nec. co. jp / stock. Two URLs of html are acquired, and the corresponding HTML documents shown in FIGS. 24A and 30A are acquired and stored in the memory device. In addition, the central processing unit analyzes each HTML document and stores the URL of the document in which the layout information of the document is described, http: // www. nec. co. jp / news. rdf and http: // www. nec. co. jp / stock. rdf is acquired, and the XML documents shown in FIGS. 24B and 30B corresponding to the rdf are acquired and stored in the memory device.

中央演算装置は、出力構成要素に関する情報から、2つのURLに対応する文書の出力する構成要素のID、urn:layout:2:1、urn:layout:1を取得する。更に、中央演算装置は、HTML文書とXML文書をメモリ装置から取得し、XML文書から出力する構成要素のIDに対応するHTML文書の要素、すなわち、http://www.nec.co.jp/news.htmlについては/body[1]/table[2]/tr[1]/td[1]/table[1]/tr[1]を、http://www.nec.co.jp/stock.htmlについては/body[1]/table[1]を抽出する。ここで出力する構成要素に対応するHTML文書の要素をHTML文書に照らし合わせ、整形して順に並べることで、図31に示すレンダリングイメージを持つ合成文書を生成する。生成された合成文書は、例えば、ネットワーク、携帯電話のWebブラウザを介してユーザに提示される。   The central processing unit obtains IDs of components that are output from the documents corresponding to the two URLs, urn: layout: 2: 1, urn: layout: 1, from the information about the output components. Further, the central processing unit acquires the HTML document and the XML document from the memory device, and the HTML document element corresponding to the ID of the component to be output from the XML document, that is, http: // www. nec. co. jp / news. For html, / body [1] / table [2] / tr [1] / td [1] / table [1] / tr [1] can be changed to http: // www. nec. co. jp / stock. For html, / body [1] / table [1] is extracted. The HTML document corresponding to the component to be output here is checked against the HTML document, shaped, and arranged in order, thereby generating a composite document having the rendering image shown in FIG. The generated composite document is presented to the user via, for example, a network or a web browser of a mobile phone.

次に、本発明の第6の実施例を図面を参照して説明する。かかる実施例は本発明の第9の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えている。   Next, a sixth embodiment of the present invention will be described with reference to the drawings. Such an example corresponds to the ninth embodiment of the present invention. In this embodiment, a personal computer is provided as a data processing device and a data storage device.

パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析部、タイトル解析部、レイアウト解析部F、ブロック選別部、セクション計算部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置にはタイトル解析ルールが記憶されている。   The personal computer includes a central processing unit that functions as an input unit, layout analysis unit, output unit, basic layout analysis unit, title analysis unit, layout analysis unit F, block selection unit, section calculation unit, rendering result storage unit, analysis result A memory device and a magnetic disk storage device functioning as a storage unit are included. Also, a title analysis rule is stored in the magnetic disk storage device.

ここでは、構造化・半構造化文書として図37に示すHTML文書を対象に説明する。中央演算装置は、HTML文書を外部から取得し、当該文書をレンダリングし、レンダリング結果をメモリ装置に記憶する。   Here, an HTML document shown in FIG. 37 will be described as a structured / semi-structured document. The central processing unit acquires an HTML document from the outside, renders the document, and stores the rendering result in a memory device.

中央演算装置は、レンダリング結果を取得し、第1のレイアウトの構成要素とその階層関係を解析する。この機能や動作は、第1の実施例に示すものと同じである。   The central processing unit obtains the rendering result and analyzes the components of the first layout and the hierarchical relationship thereof. This function and operation are the same as those shown in the first embodiment.

中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、タイトルを解析する。この機能や動作は、第2の実施例に示すものと同じである。   The central processing unit acquires the rendering result and the title analysis rule, and analyzes the title. This function and operation are the same as those shown in the second embodiment.

中央演算装置は、解析された第1のレイアウト、第2のレイアウトを取得し、分割可能な第2のレイアウトの構成要素1つを選別し、これを構成する第1のレイアウトの構成要素を解析対象とする。図38は解析の途中の状態を表している。ここで、/body[1]/div[2]〜div[6]で成る第2のレイアウトの構成要素は、これを構成する第1のレイアウトの構成要素、すなわち/body[1]/div[2]、/body[1]/div[3]、・・・、/body[1]/div[6]それぞれで成る構成要素のうちタイトルをもつものが2つ以上あるため、分割可能な第2のレイアウトの構成要素となっている。そこでこの場合、/body[1]/div[2]、/body[1]/div[3]、・・・、/body[1]/div[6]それぞれで成る構成要素が解析対象の第1のレイアウトの構成要素となる。   The central processing unit acquires the analyzed first layout and second layout, selects one component of the second layout that can be divided, and analyzes the component of the first layout that constitutes the component set to target. FIG. 38 shows a state during the analysis. Here, the components of the second layout composed of / body [1] / div [2] to div [6] are the components of the first layout constituting this, that is, / body [1] / div [ 2], / body [1] / div [3],..., / Body [1] / div [6]. 2 is a component of the layout. Therefore, in this case, the constituent elements of / body [1] / div [2], / body [1] / div [3],..., / Body [1] / div [6] are analyzed. This is a component of one layout.

中央演算装置は、解析されたタイトルを取得し、図39に示すように解析対象の第1のレイアウトの構成要素に内包されるタイトルを選別する。さらに、選別されたタイトルの位置を調べ、図40に示すように最も左に位置する/body[1]/div[2]で成るタイトルの左端を起点に水平方向に所定距離以内に左端が位置する/body[1]/div[2]で成るタイトル、/body[1]/div[4]で成るタイトルを主要なタイトルとして選別する。さらに、図41に示すように主要なタイトルを内包する第1のレイアウトの構成要素を主要な構成要素とする。   The central processing unit obtains the analyzed title and selects the title included in the component of the first layout to be analyzed as shown in FIG. Further, the position of the selected title is checked, and the left end is located within a predetermined distance in the horizontal direction starting from the left end of the title consisting of / body [1] / div [2] located at the leftmost position as shown in FIG. The title consisting of / body [1] / div [2] and the title consisting of / body [1] / div [4] are selected as main titles. Further, as shown in FIG. 41, the components of the first layout including the main title are used as the main components.

なお、主要なタイトルを選別する方法として、図42に示すように背景色などスタイルが類似するタイトルを主要なタイトルとして選別する方法や、図43に示すように位置を基準に一定数あるいは一定割合のタイトルを主要なタイトルとして選別する方法、位置やスタイルの類似度を組み合わせて主要なタイトルを選別する方法などを用いてもよい。   42. As a method for selecting main titles, a method for selecting titles having similar styles such as background colors as main titles as shown in FIG. 42, or a fixed number or a fixed ratio based on positions as shown in FIG. May be used as a main title, a method of selecting main titles by combining similarities of positions and styles, and the like.

また、解析対象の第1のレイアウトの構成要素について、図44に示すように当該構成要素が境界線か否かを判定し、境界線と判定したものを主要な構成要素としてもよい。ここでは構成要素の内容により、hr要素を持つ/body[1]/div[5]で成る構成要素を主要な構成要素としている。なお、境界線の判定方法として、解析対象の第1のレイアウトの構成要素の幅や高さ、当該構成要素を構成する文書記述要素の境界などのスタイル、当該構成要素を構成する文書記述要素の内容である画像の幅や高さなどを用いてもよい。   Further, as to the components of the first layout to be analyzed, as shown in FIG. 44, it may be determined whether or not the component is a boundary line, and what is determined as the boundary line may be the main component. Here, depending on the content of the constituent element, the constituent element consisting of / body [1] / div [5] having the hr element is the main constituent element. As a method for determining the boundary line, the width and height of the component of the first layout to be analyzed, the style such as the boundary of the document description element constituting the component, the document description element constituting the component The width and height of the image that is the content may be used.

中央演算装置は、図45に示すように主要でない構成要素を主要な構成要素、または主要でない別の構成要素と、ソース上の距離に基づきグループ化し新たな第2のレイアウトの構成要素を生成する。例えば/body[1]/div[3]で成る主要でない構成要素は、ソース上先頭に向かって最も近い主要な構成要素、/body[1]/div[2]で成る構成要素とグループ化する。ここで解析された2つの新たな第2のレイアウトの構成要素は、元の第2のレイアウトの構成要素の子供としてメモリ装置に記憶する。なお、解析された第2のレイアウトの構成要素を元の第2のレイアウトの構成要素と置き換えてメモリ装置に記憶してもよいし、元の第2のレイアウトの構成要素や解析された第2のレイアウトの構成要素のスタイルや内容に基づき、置き換えて記憶するか、子供として記憶するかを選択してもよい。同様の処理を分割可能な第2のレイアウトの構成要素に適用することで、第2のレイアウトの構成要素とその階層関係を完全に解析できる。   As shown in FIG. 45, the central processing unit groups the non-major component with the major component or another non-major component based on the distance on the source to generate a new second layout component. . For example, the non-major component consisting of / body [1] / div [3] is grouped with the main component closest to the top on the source, the component consisting of / body [1] / div [2] . The two new second layout components analyzed here are stored in the memory device as children of the original second layout components. The analyzed second layout component may be replaced with the original second layout component and stored in the memory device, or the original second layout component or the analyzed second layout component may be stored in the memory device. Based on the styles and contents of the components of the layout, it may be selected whether to store them as replacements or to store them as children. By applying the same processing to the components of the second layout that can be divided, the components of the second layout and their hierarchical relationships can be completely analyzed.

中央演算装置は、解析された第2のレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係の情報をメモリ装置から取得し、第2のレイアウトの構成要素とタイトルをHTML文書の要素の参照を用いて表現する形式、例えば、第3の実施例に示す形式に整形し、外部に出力する。ここでレイアウトの構成要素にIDを与えて出力してもよい。   The central processing unit obtains information on the analyzed second layout component and its hierarchical relationship, and information on the correspondence between each component and the title from the memory device, and stores the second layout component and title in HTML. It is formatted into a format that is expressed using a reference to a document element, for example, the format shown in the third embodiment, and is output to the outside. Here, an ID may be given to the layout component and output.

上記の実施形態を実施することにより、発明が解決しようとする課題として記載した本発明の目的を達成できる。   By implementing the above embodiment, the object of the present invention described as a problem to be solved by the invention can be achieved.

本発明の第1の文書解析システムは、構造化・半構造化文書のレンダリング結果を取得し、文書記述要素の配置を参照し並置された文書記述要素をグループ化することでレイアウトを解析する基本レイアウト解析部(図1の14)と、解析されたレイアウトを、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式で出力する出力部(図1の13)を有する。このような構成を採用し、文書記述要素の配置に基づきレイアウトを解析し、解析されたレイアウトを第三者が利用できる形式で出力することにより、本発明の第1、第3の目的を達成できる。   The first document analysis system according to the present invention obtains a rendering result of a structured / semi-structured document, references a layout of document description elements, and groups the arranged document description elements to analyze a layout. It has a layout analysis unit (14 in FIG. 1) and an output unit (13 in FIG. 1) that outputs the analyzed layout in a format that expresses the layout elements using the reference of the document description element. By adopting such a configuration, analyzing the layout based on the arrangement of the document description elements, and outputting the analyzed layout in a format that can be used by a third party, the first and third objects of the present invention are achieved. it can.

本発明の第2の文書解析システムは、タイトル解析ルールを記憶したタイトル解析ルール記憶部(図11の23)と、構造化・半構造化文書のレンダリング結果とタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析するタイトル解析部(図11の15)と、解析されたタイトルを文書記述要素の参照を用いて表現する形式で出力する出力部(図11の13)を有する。このような構成を採用し、文書記述要素の名前に加え、属性、スタイル、内容を用いて網羅的にタイトルを解析し、解析されたタイトルを第三者が利用できる形式で出力することにより、本発明の第2、第3の目的を達成できる。   The second document analysis system of the present invention acquires a title analysis rule storage unit (23 in FIG. 11) that stores the title analysis rule, a rendering result of the structured / semi-structured document, and a title analysis rule. In addition to the name of the element, the title analysis unit (15 in FIG. 11) that analyzes the title by matching the attribute, style, and content with the title analysis rule, and expresses the analyzed title using the reference of the document description element It has an output unit (13 in FIG. 11) for outputting in a format. By adopting such a structure, in addition to the name of the document description element, comprehensively analyze the title using attributes, styles and contents, and output the analyzed title in a format that can be used by a third party, The second and third objects of the present invention can be achieved.

本発明の第3の文書解析システムは、タイトル解析ルールを記憶したタイトル解析ルール記憶部(図16の23)と、構造化・半構造化文書のレンダリング結果を取得し、文書記述要素の配置を参照し並置された文書記述要素をグループ化することでレイアウトを解析する基本レイアウト解析部(図16の14)と、構造化・半構造化文書のレンダリング結果とタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析するタイトル解析部(図16の15)と、基本レイアウト解析部で解析されたレイアウトとタイトル解析部で解析されたタイトルを取得し、タイトルを持たないレイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たないレイアウトの構成要素とグループ化することで新しいレイアウトを生成するレイアウト解析部(図16の16)と、解析された新しいレイアウトを、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式で出力する出力部(図16の13)を有する。このような構成を採用し、タイトルを代表情報とする関連した構成要素の集合を新しい構成要素とする新しいレイアウトを生成し、解析されたレイアウトとタイトルを第三者が利用できる形式で出力することにより、本発明の第1、第2、第3の目的を達成できる。   The third document analysis system of the present invention acquires a title analysis rule storage unit (23 in FIG. 16) that stores title analysis rules, and a rendering result of the structured / semi-structured document, and arranges document description elements. A basic layout analysis unit (14 in FIG. 16) that analyzes the layout by grouping the document description elements that are referenced and juxtaposed, obtains the rendering result and title analysis rule of the structured / semi-structured document, and writes the document description In addition to the element name, the title analysis unit (15 in FIG. 16) analyzes the title by matching the attribute, style, and content with the title analysis rule, and the layout and title analysis unit analyzed by the basic layout analysis unit A title that has a title, a layout component that has no title, a layout component that has a title, or a title that has a title. A layout analysis unit (16 in FIG. 16) that generates a new layout by grouping with a layout component that does not exist, and expresses the analyzed new layout by using the reference of the document description element as the layout component and title An output unit (13 in FIG. 16) for outputting in the format. Adopting such a configuration, generating a new layout with a new set of related components with the title as representative information, and outputting the analyzed layout and title in a format that can be used by a third party Thus, the first, second and third objects of the present invention can be achieved.

本発明の第1の文書適応システムは、ユーザが所望する構造化・半構造化文書のURI(Uniform Resource Identifiers)を取得する、またユーザ入力を取得し、目次文書や目次の項目の内容を記述した文書の出力を制御する入力部(図22の51)と、ユーザが所望する構造化・半構造化文書のURIに対応する文書を取得し、また取得した文書に対応するレイアウトの情報が記述された文書を取得する文書入力部(図22の52)と、ユーザが所望する構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を取得し、目次文書を生成、出力する目次文書出力部(図22の53)と、ユーザが所望する構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を取得し、指定された目次の項目の内容を記述した文書を生成、出力する項目文書出力部(図22の54)を有する。このような構成を採用し、構造化・半構造化文書と当該文書の論理構造を適切に反映するレイアウトの情報が記述された文書を用いて目次文書や目次の項目の内容を記述した文書を生成、出力することにより、文書提供者が意図する文書の論理構造を的確に捉えた目次を用いて文書を閲覧できるようになり、本発明の第4の目的を達成できる。   The first document adaptation system of the present invention acquires URIs (Uniform Resource Identifiers) of structured / semi-structured documents desired by the user, acquires user input, and describes the contents of the table of contents document and the contents of the table of contents. A document corresponding to the URI of the structured / semi-structured document desired by the user is acquired, and layout information corresponding to the acquired document is described. The document input unit (52 in FIG. 22) for acquiring the document, the structured / semi-structured document desired by the user, and the document describing the layout information of the document are acquired, and the table of contents document is generated and output. A table of contents document output unit (53 in FIG. 22), and a document that describes the structured / semi-structured document desired by the user and the layout information of the document. An item document output unit (54 in FIG. 22) for generating and outputting a document describing the contents of the items in the table of contents. Employing such a structure, a table of contents document and contents of the table of contents are described using a structured / semi-structured document and a document describing layout information that appropriately reflects the logical structure of the document. By generating and outputting, the document can be browsed using a table of contents that accurately captures the logical structure of the document intended by the document provider, and the fourth object of the present invention can be achieved.

本発明の第2の文書適応システムは、出力構成要素に関する情報を記憶した出力構成要素記憶部(図27の81)と、出力構成要素に関する情報を取得し、当該情報に記述されたURIに対応する構造化・半構造化文書を取得し、また取得した文書に対応するレイアウトの情報が記述された文書を取得する文書入力部(図27の71)と、出力構成要素に関する情報と構造化・半構造化文書と当該文書のレイアウトの情報が記述された文書を取得し、合成文書を生成、出力する合成文書出力部(図27の72)を有する。このような構成を採用し、出力構成要素に関する情報と構造化・半構造化文書と当該文書の論理構造を適切に反映するレイアウトの情報が記述された文書を用いて、指定されたレイアウトの構成要素から成る合成文書を生成、出力することにより、文書提供者が意図する文書の論理構造を的確に捉えた合成文書を用いて文書の必要な部分だけを閲覧できるようになり、本発明の第4の目的を達成できる。   The second document adaptation system of the present invention acquires an output component storage unit (81 in FIG. 27) that stores information related to the output component, and acquires information related to the output component, and corresponds to the URI described in the information. A document input unit (71 in FIG. 27) that acquires a structured / semi-structured document to be acquired and a document in which layout information corresponding to the acquired document is described; A synthetic document output unit (72 in FIG. 27) that acquires a semi-structured document and a document describing layout information of the document, generates and outputs a synthetic document. Employing such a configuration, using a document that contains information about the output component, structured / semi-structured document, and layout information that appropriately reflects the logical structure of the document, the specified layout configuration By generating and outputting a composite document composed of elements, it becomes possible to browse only the necessary parts of the document using the composite document that accurately captures the logical structure of the document intended by the document provider. 4 objectives can be achieved.

本発明の第1の発明を実施するための実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of embodiment for implementing 1st invention of this invention. 本発明の第1の発明を実施するための実施形態の動作を示す流れ図である。It is a flowchart which shows operation | movement of embodiment for implementing 1st invention of this invention. HTML文書の例を示す図である。It is a figure which shows the example of an HTML document. 本発明の第1の実施形態を説明するための図である。It is a figure for demonstrating the 1st Embodiment of this invention. 本発明の第1の実施形態を説明するための図である。It is a figure for demonstrating the 1st Embodiment of this invention. 本発明の第1の実施形態を説明するための図である。It is a figure for demonstrating the 1st Embodiment of this invention. 本発明の第1の実施形態を説明するための図である。It is a figure for demonstrating the 1st Embodiment of this invention. 本発明の第1の実施形態を説明するための図である。It is a figure for demonstrating the 1st Embodiment of this invention. 本発明の第1の実施形態を説明するための図である。It is a figure for demonstrating the 1st Embodiment of this invention. 本発明の第1の実施形態の出力形式の例を示す図である。It is a figure which shows the example of the output format of the 1st Embodiment of this invention. 本発明の第2の発明を実施するための実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of embodiment for implementing 2nd invention of this invention. 本発明の第2の発明を実施するための実施形態の動作を示す流れ図である。It is a flowchart which shows operation | movement of embodiment for implementing 2nd invention of this invention. 本発明の第2の実施形態のタイトル解析ルールの例を示す図である。It is a figure which shows the example of the title analysis rule of the 2nd Embodiment of this invention. 本発明の第2の実施形態を説明するための図である。It is a figure for demonstrating the 2nd Embodiment of this invention. 本発明の第2の実施形態の出力形式の例を示す図である。It is a figure which shows the example of the output format of the 2nd Embodiment of this invention. 本発明の第3の発明を実施するための実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of embodiment for implementing 3rd invention of this invention. 本発明の第3の発明を実施するための実施形態の動作を示す流れ図である。It is a flowchart which shows the operation | movement of embodiment for implementing 3rd invention of this invention. 本発明の第3の実施形態を説明するための図である。It is a figure for demonstrating the 3rd Embodiment of this invention. 本発明の第3の実施形態を説明するための図である。It is a figure for demonstrating the 3rd Embodiment of this invention. 本発明の第3の実施形態を説明するための図である。It is a figure for demonstrating the 3rd Embodiment of this invention. 本発明の第3の実施形態の出力形式の例を示す図である。It is a figure which shows the example of the output format of the 3rd Embodiment of this invention. 本発明の第4の発明を実施するための実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of embodiment for implementing 4th invention of this invention. 本発明の第4の発明を実施するための実施形態の動作を示す流れ図である。It is a flowchart which shows operation | movement of embodiment for implementing 4th invention of this invention. HTML文書とXML文書の例のうちHTML文書を示す図である。It is a figure which shows an HTML document among the examples of an HTML document and an XML document. HTML文書とXML文書の例のうちXML文書を示す図である。It is a figure which shows an XML document among the examples of an HTML document and an XML document. 本発明の第4の実施形態の目次文書の例を示す図である。It is a figure which shows the example of the table of contents document of the 4th Embodiment of this invention. 本発明の第4の実施形態の項目文書の例を示す図である。It is a figure which shows the example of the item document of the 4th Embodiment of this invention. 本発明の第5の発明を実施するための実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of embodiment for implementing 5th invention of this invention. 本発明の第5の発明を実施するための実施形態の動作を示す流れ図である。It is a flowchart which shows operation | movement of embodiment for implementing 5th invention of this invention. 本発明の第5の実施形態の出力構成要素に関する情報の例を示す図である。It is a figure which shows the example of the information regarding the output component of the 5th Embodiment of this invention. HTML文書とXML文書の例のうちHTML文書を示す図である。It is a figure which shows an HTML document among the examples of an HTML document and an XML document. HTML文書とXML文書の例のうちXML文書を示す図である。It is a figure which shows an XML document among the examples of an HTML document and an XML document. 本発明の第5の実施形態の合成文書の例を示す図である。It is a figure which shows the example of the composite document of the 5th Embodiment of this invention. 本発明の第6の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 6th Embodiment of this invention. 本発明の第7の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 7th Embodiment of this invention. 本発明の第8の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 8th Embodiment of this invention. 本発明の第9の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 9th Embodiment of this invention. 本発明の第9の実施形態の動作を示す流れ図である。It is a flowchart which shows the operation | movement of the 9th Embodiment of this invention. 本発明の第6の実施例を説明するための図である。It is a figure for demonstrating the 6th Example of this invention. 本発明の第6の実施例を説明するための図である。It is a figure for demonstrating the 6th Example of this invention. 本発明の第6の実施例を説明するための図である。It is a figure for demonstrating the 6th Example of this invention. 本発明の第6の実施例を説明するための図である。It is a figure for demonstrating the 6th Example of this invention. 本発明の第6の実施例を説明するための図である。It is a figure for demonstrating the 6th Example of this invention. 本発明の第6の実施例を説明するための図である。It is a figure for demonstrating the 6th Example of this invention. 本発明の第6の実施例を説明するための図である。It is a figure for demonstrating the 6th Example of this invention. 本発明の第6の実施例を説明するための図である。It is a figure for demonstrating the 6th Example of this invention. 本発明の第6の実施例を説明するための図である。It is a figure for demonstrating the 6th Example of this invention.

符号の説明Explanation of symbols

1… データ処理装置
2… 記憶装置
3… 文書解析用プログラム
4… 文書適応用プログラム
5… データ処理装置
6… 記憶装置
7… データ処理装置
8… 記憶装置
9… 文書適応用プログラム
11… 入力部
12… レイアウト解析部
13… 出力部
14… 基本レイアウト解析部
15… タイトル解析部
16… レイアウト解析部F
17… ブロック選別部
18… セクション計算部
21… レンダリング結果記憶部
22… 解析結果記憶部
23… タイトル解析ルール記憶部
51… 入力部
52… 文書入力部
53… 目次文書出力部
54… 項目文書出力部
61… 構造化・半構造化文書記憶部
62… レイアウト文書記憶部
71… 文書入力部
72… 合成文書出力部
81… 出力構成要素記憶部
82… 構造化・半構造化文書記憶部
83… レイアウト文書記憶部
DESCRIPTION OF SYMBOLS 1 ... Data processing device 2 ... Storage device 3 ... Document analysis program 4 ... Document adaptation program 5 ... Data processing device 6 ... Storage device 7 ... Data processing device 8 ... Storage device 9 ... Document adaptation program 11 ... Input part 12 ... Layout analysis unit 13 ... Output unit 14 ... Basic layout analysis unit 15 ... Title analysis unit 16 ... Layout analysis unit F
17 ... Block selection unit 18 ... Section calculation unit 21 ... Rendering result storage unit 22 ... Analysis result storage unit 23 ... Title analysis rule storage unit 51 ... Input unit 52 ... Document input unit 53 ... Table of contents document output unit 54 ... Item document output unit 61 ... structured / semi-structured document storage unit 62 ... layout document storage unit 71 ... document input unit 72 ... composite document output unit 81 ... output component storage unit 82 ... structured / semi-structured document storage unit 83 ... layout document Memory

Claims (30)

構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析する基本レイアウト解析部
を具備する
文書解析システム。
The layout of the structured document or the semi-structured document is analyzed by referring to the arrangement of the document description elements included in the structured document or the semi-structured document and grouping the document description elements juxtaposed in a certain direction. Document analysis system with basic layout analysis unit.
請求項1に記載の文書解析システムにおいて、
更に、
前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部と、
前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部と、
前記基本レイアウト解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトルとを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するレイアウト解析部とを具備する
文書解析システム。
The document analysis system according to claim 1,
Furthermore,
A title analysis rule storage unit that stores a title analysis rule based on one or more values of the name, attribute, style, and content of a document description element of the structured document or the semi-structured document;
A title analysis unit that analyzes a title by comparing one or more of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document with the title analysis rule;
Document analysis comprising: a layout analysis unit that groups components of the layout using the layout analyzed by the basic layout analysis unit and the title analyzed by the title analysis unit, and generates a new layout system.
請求項2に記載の文書解析システムにおいて、
前記レイアウト解析部は前記基本レイアウト解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトルと、前記レイアウト解析部で解析された前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を選別するブロック選別部と、
前記基本レイアウト解析部で解析された前記レイアウトと、前記レイアウト解析部で解析された前記新しいレイアウトと、前記ブロック選別部で選別された前記レイアウトの主要な構成要素とを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するセクション計算部を具備する
文書解析システム。
The document analysis system according to claim 2,
The layout analysis unit uses the layout analyzed by the basic layout analysis unit, the title analyzed by the title analysis unit, and the new layout analyzed by the layout analysis unit to perform the main layout analysis. A block sorting unit that sorts components;
The layout component using the layout analyzed by the basic layout analysis unit, the new layout analyzed by the layout analysis unit, and the main components of the layout selected by the block selection unit A document analysis system that includes a section calculator that creates a new layout.
請求項1乃至3に記載の文書解析システムにおいて、
前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析する
文書解析システム。
The document analysis system according to any one of claims 1 to 3,
The basic layout analysis unit refers to the arrangement of the document description elements below the grouped document description elements, and groups the document description elements juxtaposed in a direction orthogonal to the direction used for the previous grouping. A document analysis system that analyzes the layout by repeating the process to the specified number of times.
請求項1乃至4のいずれか一項に記載の文書解析システムにおいて、
前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析する
文書解析システム。
In the document analysis system according to any one of claims 1 to 4,
The basic layout analysis unit refers to the arrangement of the document description elements below the grouped document description elements, and groups the document description elements juxtaposed in a direction orthogonal to the direction used for the previous grouping. This is a document analysis system that analyzes the layout of the next layer by repeating the process to the specified number of times.
請求項1乃至5のいずれか一項に記載の文書解析システムにおいて、
前記基本レイアウト解析部は、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照する
文書解析システム。
In the document analysis system according to any one of claims 1 to 5,
The basic layout analysis unit refers to an arrangement of only some designated document description elements of the document description elements.
構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部と、
前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部とを具備する
文書解析システム。
A title analysis rule storage unit that stores a title analysis rule based on one or more values of the name, attribute, style, and content of the document description element of the structured document or semi-structured document;
A title analysis unit that analyzes a title by comparing one or more of the names, attributes, styles, and contents of document description elements included in the structured document or the semi-structured document with the title analysis rule Yes Document analysis system.
構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する出力部を具備する
文書解析システム。
A document analysis system comprising: an output unit that formats and outputs a layout and a title of a structured document or a semi-structured document into an expression format that refers to a document description element included in the structured document or the semi-structured document.
構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力する目次文書出力部と、
前記構造化文書又は前記半構造化文書と、
前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力する項目文書出力部
とを具備する
文書適応システム。
A table of contents document output unit that generates and outputs a table of contents document using a structured document or a semi-structured document, and a document in which layout information of the structured document or the semi-structured document is described;
The structured document or the semi-structured document; and
A document adaptation system comprising: an item document output unit that generates and outputs a document describing the contents of a table of contents using a document in which the layout information is described.
構造化文書又は半構造化文書のURIと、前記構造化文書又は前記半構造化文書の出力構成要素のIDの組み合わせの集合を出力構成要素情報として記憶する出力構成要素情報記憶部と、
前記出力構成要素情報と前記出力構成要素情報に記述されたURIに対応する前記構造化文書又は前記半構造化文書と前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成し出力する合成文書出力部とを具備する
文書適応システム。
An output component information storage unit that stores a set of combinations of URIs of structured documents or semi-structured documents and output component IDs of the structured document or the semi-structured document as output component information;
The output component information and the structured document corresponding to the URI described in the output component information or the semi-structured document and the layout information corresponding to the structured document or the semi-structured document are described. A document adaptation system comprising a composite document output unit that generates and outputs a composite document using a document.
構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析するステップを具備する
文書解析方法。
The layout of the structured document or the semi-structured document is analyzed by referring to the arrangement of the document description elements included in the structured document or the semi-structured document and grouping the document description elements juxtaposed in a certain direction. Document analysis method comprising steps.
請求項11に記載の文書解析方法において、
前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するステップと、
前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップと、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解析するステップで解析された前記タイトルとを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するステップとを具備する
文書解析方法。
The document analysis method according to claim 11,
Storing a title analysis rule based on one or more values of a name, an attribute, a style, and a content of a document description element of the structured document or the semi-structured document;
Analyzing the title by comparing one or more of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document with the title analysis rule;
Using the layout analyzed in the step of analyzing the layout and the title analyzed in the step of analyzing the title to group components of the layout and generating a new layout analysis method.
請求項12に記載の文書解析方法において、
前記新しいレイアウトを生成するステップは前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解析するステップで解析された前記タイトルと、前記新しいレイアウトを生成するステップで生成された前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を選別するステップと、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記新しいレイアウトを生成するステップで生成された前記新しいレイアウトと、前記主要な構成要素を選別するステップで選別された前記主要な構成要素とを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するステップと
を具備する
文書解析方法。
The document analysis method according to claim 12,
The step of generating the new layout includes the layout analyzed in the step of analyzing the layout, the title analyzed in the step of analyzing the title, and the new layout generated in the step of generating the new layout. Selecting the main components of the layout using
The layout analyzed in the step of analyzing the layout, the new layout generated in the step of generating the new layout, and the main components selected in the step of selecting the main components. Using the method of grouping the components of the layout and generating a new layout.
請求項11乃至13に記載の文書解析方法において、
前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析するステップを具備する
文書解析方法。
The document analysis method according to claim 11, wherein:
The step of analyzing the layout refers to the arrangement of the document description elements below the grouped document description elements, and groups the document description elements juxtaposed in a direction orthogonal to the direction used for the immediately preceding grouping. A document analysis method comprising a step of analyzing a layout by repeating a process for converting a predetermined number of times.
請求項11乃至14のいずれか一項に記載の文書解析方法において、
前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析するステップを具備する
文書解析方法。
The document analysis method according to any one of claims 11 to 14,
The step of analyzing the layout refers to the arrangement of the document description elements below the grouped document description elements, and groups the document description elements juxtaposed in a direction orthogonal to the direction used for the immediately preceding grouping. A document analysis method comprising a step of analyzing the layout of the next layer by repeating the process of converting to a predetermined number of times.
請求項11乃至15のいずれか一項に記載の文書解析方法において、
前記レイアウトを解析するステップは、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照するステップを具備する
文書解析方法。
The document analysis method according to any one of claims 11 to 15,
The step of analyzing the layout includes a step of referring to an arrangement of only some designated document description elements among the document description elements.
構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するステップと、
前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップとを具備する
文書解析方法。
Storing a title analysis rule based on one or more values of the name, attribute, style, and content of the document description element of the structured document or semi-structured document;
Analyzing the title by comparing one or more of the names, attributes, styles, and contents of document description elements included in the structured document or the semi-structured document with the title analysis rule. analysis method.
構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力するステップを具備する
文書解析方法。
A document analysis method, comprising: formatting and outputting a layout and a title of a structured document or a semi-structured document into an expression format that refers to a document description element included in the structured document or the semi-structured document.
構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力するステップと、
前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力するステップとを具備する
文書適応方法。
Generating and outputting a table of contents document using a structured document or semi-structured document and a document in which layout information of the structured document or the semi-structured document is described;
A document adaptation method comprising the steps of generating and outputting a document describing contents of a table of contents using the structured document or the semi-structured document and a document in which the layout information is described.
構造化文書又は半構造化文書のURIと、前記構造化文書又は前記半構造化文書の出力構成要素のIDの組み合わせの集合を出力構成要素情報として出力構成要素情報記憶部に記憶するステップと、
前記出力構成要素情報と、前記出力構成要素情報に記述されたURIに対応する前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出力するステップとを具備する
文書適応方法。
Storing a set of combinations of URIs of structured documents or semi-structured documents and IDs of output components of the structured document or the semi-structured document as output component information in an output component information storage unit;
The output component information, the structured document or the semi-structured document corresponding to the URI described in the output component information, and the layout information corresponding to the structured document or the semi-structured document are described. A document adaptation method comprising: generating and outputting a synthesized document using the document obtained.
構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析するステップ
をコンピュータに実行させる
文書解析プログラム。
The layout of the structured document or the semi-structured document is analyzed by referring to the arrangement of the document description elements included in the structured document or the semi-structured document and grouping the document description elements juxtaposed in a certain direction. A document analysis program that causes a computer to execute steps.
請求項21に記載の文書解析プログラムにおいて、
前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するステップと、
前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップと、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解析するステップで解析された前記タイトルとを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するステップ
とを、更に前記コンピュータに実行させる
文書解析プログラム。
The document analysis program according to claim 21,
Storing a title analysis rule based on one or more values of a name, an attribute, a style, and a content of a document description element of the structured document or the semi-structured document;
Analyzing the title by comparing one or more of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document with the title analysis rule;
Grouping the layout components using the layout analyzed in the step of analyzing the layout and the title analyzed in the step of analyzing the title, and generating a new layout, and A document analysis program to be executed by a computer.
請求項22に記載の文書解析プログラムにおいて、
前記新しいレイアウトを生成するステップは、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解析するステップで解析された前記タイトルと、前記新しいレイアウトを生成するステップで生成された前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を選別するステップと、
前記レイアウトを解析するステップで解析された前記レイアウトと、前記新しいレイアウトを生成するステップで生成された前記新しいレイアウトと、前記主要な構成要素を選別するステップで選別された前記主要な構成要素とを用いて前記レイアウトの構成要素をグループ化し、新しいレイアウトを生成するステップ
とを備える
文書解析プログラム。
The document analysis program according to claim 22,
Generating the new layout comprises:
The layout is analyzed using the layout analyzed in the step of analyzing the layout, the title analyzed in the step of analyzing the title, and the new layout generated in the step of generating the new layout. Selecting the appropriate components;
The layout analyzed in the step of analyzing the layout, the new layout generated in the step of generating the new layout, and the main components selected in the step of selecting the main components. And a step of grouping the layout components to generate a new layout.
請求項21乃至23に記載の文書解析プログラムにおいて、
前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析するステップを備える
文書解析プログラム。
24. The document analysis program according to claim 21, wherein:
The step of analyzing the layout refers to the arrangement of the document description elements below the grouped document description elements, and groups the document description elements juxtaposed in a direction orthogonal to the direction used for the immediately preceding grouping. A document analysis program comprising a step of analyzing a layout by repeating a process for converting a predetermined number of times.
請求項21乃至24のいずれか一項に記載の文書解析プログラムにおいて、
前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析するステップを具備する
文書解析プログラム。
The document analysis program according to any one of claims 21 to 24,
The step of analyzing the layout refers to the arrangement of the document description elements below the grouped document description elements, and groups the document description elements juxtaposed in a direction orthogonal to the direction used for the immediately preceding grouping. A document analysis program comprising a step of analyzing the layout of the next layer by repeating the process of converting to a predetermined number of times.
請求項21乃至25のいずれか一項に記載の文書解析プログラムにおいて、
前記レイアウトを解析するステップは、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照するステップを備える
文書解析プログラム。
The document analysis program according to any one of claims 21 to 25,
The step of analyzing the layout includes a step of referring to an arrangement of only some designated document description elements among the document description elements.
構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上の値に基づくタイトル解析ルールを記憶するステップと、
前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップ
とをコンピュータに実行させる
文書解析プログラム。
Storing a title analysis rule based on one or more values of the name, attribute, style, and content of the document description element of the structured document or semi-structured document;
The computer executes the step of analyzing the title by comparing at least one of the name, attribute, style, and content of the document description element included in the structured document or the semi-structured document with the title analysis rule. Let document analysis program.
構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力するステップをコンピュータに実行させる
文書解析プログラム。
A document analysis program that causes a computer to execute a step of formatting and outputting a layout and a title of a structured document or a semi-structured document into an expression format that refers to a document description element included in the structured document or the semi-structured document.
構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力するステップと、
前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力するステップ
とをコンピュータに実行させる
文書適応プログラム。
Generating and outputting a table of contents document using a structured document or semi-structured document and a document in which layout information of the structured document or the semi-structured document is described;
A document adaptation program for causing a computer to execute the structured document or the semi-structured document and a step of generating and outputting a document describing contents of a table of contents using a document in which the layout information is described.
構造化文書又は半構造化文書のURIと、前記構造化文書又は前記半構造化文書の出力構成要素のIDの組み合わせの集合を出力構成要素情報に記憶するステップと、
前記出力構成要素情報と、前記出力構成要素情報に記述されたURIに対応する前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出力するステップ
とをコンピュータに実行させる
文書適応プログラム。
Storing in the output component information a set of combinations of URIs of structured documents or semi-structured documents and output component IDs of the structured document or semi-structured document;
The output component information, the structured document or the semi-structured document corresponding to the URI described in the output component information, and the layout information corresponding to the structured document or the semi-structured document are described. A document adaptation program that causes a computer to execute a step of generating and outputting a synthesized document using a document that has been processed.
JP2005308371A 2004-10-25 2005-10-24 Document analysis system and document adaptation system Withdrawn JP2006155593A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005308371A JP2006155593A (en) 2004-10-25 2005-10-24 Document analysis system and document adaptation system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004310238 2004-10-25
JP2005308371A JP2006155593A (en) 2004-10-25 2005-10-24 Document analysis system and document adaptation system

Publications (1)

Publication Number Publication Date
JP2006155593A true JP2006155593A (en) 2006-06-15

Family

ID=36633751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005308371A Withdrawn JP2006155593A (en) 2004-10-25 2005-10-24 Document analysis system and document adaptation system

Country Status (1)

Country Link
JP (1) JP2006155593A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010527051A (en) * 2007-03-30 2010-08-05 グーグル・インコーポレーテッド Document processing for mobile devices
JP2012141702A (en) * 2010-12-28 2012-07-26 Toppan Printing Co Ltd Electronic document conversion device and electronic document conversion method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010527051A (en) * 2007-03-30 2010-08-05 グーグル・インコーポレーテッド Document processing for mobile devices
JP2014029701A (en) * 2007-03-30 2014-02-13 Google Inc Document processing for mobile devices
JP2012141702A (en) * 2010-12-28 2012-07-26 Toppan Printing Co Ltd Electronic document conversion device and electronic document conversion method

Similar Documents

Publication Publication Date Title
JP4124261B2 (en) Document analysis system, document analysis method, and program thereof
KR100461019B1 (en) web contents transcoding system and method for small display devices
US20100211905A1 (en) Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database
US20130262968A1 (en) Apparatus and method for efficiently reviewing patent documents
JPWO2008093569A1 (en) Information extraction rule creation support system, information extraction rule creation support method, and information extraction rule creation support program
JPWO2006137563A1 (en) Data processing apparatus and data processing method
JPWO2006137562A1 (en) Document processing apparatus and document processing method
JP2008107904A (en) Text and animation service apparatus, and computer program
JPWO2007132568A1 (en) Data processing server and data processing method
JP2005078296A (en) Device and method for creating document group structure data
CN101206668A (en) Method for generating and analyzing website content components as well as apparatus
CN103246691A (en) Document management system and method thereof
JP2006155593A (en) Document analysis system and document adaptation system
JP4344105B2 (en) Source file generator
JP2002215519A (en) Method and system for web page generation, web page generating program, and recording medium
KR20080060690A (en) System and method for changing web document style
JPWO2007105364A1 (en) Document processing apparatus and document processing method
JPH08255253A (en) Graph display processor and graph display processing method
JP2007279978A (en) Document retrieval device and document retrieval method
JP4221620B2 (en) Document analysis system, document analysis method, and program
JP6710881B1 (en) Document creation support system
US20110320927A1 (en) Methods and Apparatus Utilizing XooML: Cross (X) Tool Markup Language
JPWO2006137564A1 (en) Document processing device
JP5206675B2 (en) Structured document converter
JP5003022B2 (en) Document processing system, document processing method, and document processing program

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090106