JP2010282327A - Format conversion system, format conversion method, and program - Google Patents

Format conversion system, format conversion method, and program Download PDF

Info

Publication number
JP2010282327A
JP2010282327A JP2009133857A JP2009133857A JP2010282327A JP 2010282327 A JP2010282327 A JP 2010282327A JP 2009133857 A JP2009133857 A JP 2009133857A JP 2009133857 A JP2009133857 A JP 2009133857A JP 2010282327 A JP2010282327 A JP 2010282327A
Authority
JP
Japan
Prior art keywords
style
style sheet
format
name
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009133857A
Other languages
Japanese (ja)
Inventor
Kenji Hiramatsu
健司 平松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009133857A priority Critical patent/JP2010282327A/en
Publication of JP2010282327A publication Critical patent/JP2010282327A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To create a style sheet corresponding to format information for determining appearance in a structured document and to refer to the created style sheet from the structured document in a format conversion system for the structured document. <P>SOLUTION: A conversion part 12 extracts the format information for determining the appearance from a document element of the structured document, and creates a style set corresponding to the extracted format information. A selector name generating part 13 generates a unique selector name to the style set created in the conversion part 12, and stores a style sheet that connects the selector name to the style set, in a style sheet storage part 23. The conversion part 12 converts the format information set to the structured document, into attribute information indicating the style sheet including the style set as a component. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、構造化文書のフォーマット変換システムおよびフォーマット変換方法並びにプログラムに関し、特に構造化文書を構成する文書要素の色、フォント、レイアウトなどに関する書式情報を構造化文書から抽出し、構造化文書を文書構造と書式情報とに分離するフォーマット変換システムおよびフォーマット変換方法並びにプログラムに関する。   BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a structured document format conversion system, format conversion method, and program. The present invention relates to a format conversion system, a format conversion method, and a program for separating document structure and format information.

情報通信技術の発展に伴い、個人、企業、自治体など、幅広い範囲での情報交換が可能となってきている。インターネット上には相互に連携する数多くのシステムが構築され、Webサービスが提供されたり、EDI(Electronic Data Interchange)が行われたりしている。   With the development of information and communication technology, it is possible to exchange information in a wide range of individuals, companies, local governments, and so on. Numerous systems that cooperate with each other are built on the Internet, Web services are provided, and EDI (Electronic Data Interchange) is performed.

このような状況において、構造化文書は、文書データを構造化するための柔軟な表現能力を持ち、またコンピュータによる処理に適しているため、コンピュータシステム間での情報流通や、コンピュータシステム内での情報処理および情報蓄積を行うための共通フォーマットとして注目されている。   In such a situation, structured documents have flexible expression capabilities for structuring document data and are suitable for processing by computers, so that information distribution between computer systems and in computer systems It is attracting attention as a common format for information processing and information storage.

代表的な構造化文書として、XML(Extended Markup Language)が知られている。XMLでは、文書中のデータに意味づけを行うためのタグを、利用者が自由に定義することができる。このタグを文書中に埋め込むことにより、文書中のデータの意味や構造を明確化することが可能となり、必要なデータの抽出や異なる構造へのフォーマット変換がコンピュータ処理により可能となる。   XML (Extended Markup Language) is known as a typical structured document. In XML, a user can freely define a tag for giving meaning to data in a document. By embedding this tag in the document, it is possible to clarify the meaning and structure of the data in the document, and it is possible to extract necessary data and convert the format to a different structure by computer processing.

XMLでは、文書構造と見映えを決定するための書式情報が厳密に分けられている。この書式情報を示すフォーマットとして、CSS(Cascading Style Sheet)や、XSL(eXtensible
Stylesheet Language)が知られている。また、XMLによって記述された文書を他のXML文書に変換するための言語としてXSLT(XML Stylesheet Language Transformations)が知られている。これら、書式情報を記述するための言語はスタイルシート言語と呼ばれる。
In XML, format information for determining document structure and appearance is strictly divided. As a format indicating this format information, CSS (Cascading Style Sheet), XSL (eXtensible)
Stylesheet Language) is known. Further, XSLT (XML Stylesheet Language Transformations) is known as a language for transforming a document described in XML into another XML document. These languages for describing format information are called style sheet languages.

ここで、構造化文書の書式について説明を行う。一対の"<"と">"で囲まれた文字列を「タグ」、"<文字列>"を「開始タグ」、"</文字列>"を「終了タグ」、開始タグから終了タグまでの文字列全体を「文書要素」、開始タグと終了タグで挟まれた文字列を「要素内容」、タグ内に記述される要素の名称を「タグ名」もしくは「要素名」、文書要素に対する付加情報を「属性」と呼ぶ。属性は、開始タグ内に記述され「属性名="値"」という書式で記述される。文書要素は、他の文書要素を内包する形で階層構造を持って良い。すなわち、要素内容は、複数の文字列もしくは複数の文書要素から構成される。   Here, the format of the structured document will be described. A string enclosed by a pair of "<" and ">" is "tag", "<string>" is "start tag", "</ string>" is "end tag", start tag to end tag The entire character string up to "document element", the character string between the start tag and end tag is "element content", the name of the element described in the tag is "tag name" or "element name", document element The additional information for is called “attribute”. The attribute is described in the start tag and described in the format of “attribute name =“ value ””. The document element may have a hierarchical structure that includes other document elements. That is, the element content is composed of a plurality of character strings or a plurality of document elements.

CSSにおけるスタイルシートは次の書式で記述される。「セレクタ{プロパティ:値}」。"プロパティ:値"のペアを「スタイル」と呼ぶ。スタイルは、";"で区切ることにより複数列挙することが出来る。1つのスタイルおよび、複数のスタイルが列挙されている場合をまとめて「スタイル集合」と表現する。「セレクタ」とは、スタイル集合を適用する対象となる文書要素を指定する部分である。「プロパティ」とはスタイルの種類を指定する部分であり、「値」は、プロパティに設定する値である。   A style sheet in CSS is described in the following format. "Selector {property: value}". A "property: value" pair is called a "style". Multiple styles can be listed by separating them with ";". A case where one style and a plurality of styles are enumerated are collectively expressed as a “style set”. The “selector” is a part that designates a document element to which a style set is applied. “Property” is a part for specifying the type of style, and “Value” is a value set in the property.

XMLで作成された文書は、容易に必要な情報を抽出したり、他の目的で利用するためのフォーマットへ変換したりすることが可能となるため、コンピュータでのデータ処理に非常に有用である。そのため、一般の文書もしくは電子化文書をXML形式にフォーマット変換したり、XML文書同士のフォーマット変換を行うためのXSLTを容易に構築するための技術等が考案されている。   Documents created in XML are very useful for data processing on a computer because necessary information can be easily extracted or converted to a format for use for other purposes. . Therefore, a technique for easily constructing an XSLT for converting the format of a general document or an electronic document into the XML format, or performing format conversion between XML documents has been devised.

一方、近年広く普及しているWebサービスにより提供される文書やシステムの多くは、HTML(HyperText Markup Language)で記述されている。HTML文書もまた一種の構造化文書であるが、Webページを効率よく、体裁よく表現することを目的として作成されるため、色やフォント、レイアウトのための書式情報をタグの中の属性として埋め込んだ形で記述されることが多い。   On the other hand, many documents and systems provided by Web services that have been widely spread in recent years are described in HTML (HyperText Markup Language). An HTML document is also a kind of structured document, but it is created for the purpose of expressing Web pages efficiently and in style, so format information for colors, fonts, and layout is embedded as attributes in tags. Often described in an oval form.

しかし、1997年HTML4.0の仕様がW3C(World Wide Web Consortium)から発表され、スタイルシートを組み込むための仕様が導入されたことにより、HTML文書から表示方法やレイアウトなどの表現に関する部分を分離し、スタイルシートで制御することが推奨されるようになった。   However, in 1997, the specification of HTML4.0 was announced by the World Wide Web Consortium (W3C), and the specification for incorporating style sheets was introduced to separate the display method and layout related parts from the HTML document. It is now recommended to control with style sheets.

また、非特許文献1には、高齢者・障害者等へのアクセシビリティを向上させるために、ウェブコンテンツを構成する各文書記述要素の、フォント書体、フォントサイズ、文字色、背景色、マージンなどの装飾的なスタイルの記述は、文書構造とは分離し、スタイルシートを用いて記述することが推奨されることが記載されている。ここで、ウェブコンテンツとは、ウェブブラウザなどを用いてアクセスするあらゆる情報、サービスのことを指し、HTML文書等の構造化文書もこれに含まれる。   In addition, Non-Patent Document 1 describes the font type, font size, character color, background color, margin, etc. of each document description element constituting the web content in order to improve accessibility to the elderly and disabled. It is described that the description of the decorative style is recommended to be described using a style sheet separately from the document structure. Here, the web content refers to all information and services accessed using a web browser or the like, and includes structured documents such as HTML documents.

このように、HTML文書における、色やフォント、レイアウトに関わる書式情報は、文書構造とは分離し、スタイルシートで記述することが求められているが、過去の資産は膨大であり、多くのWebページが従来のまま、文書構造と書式情報とが混在したフォーマットで提供されている。   As described above, format information relating to colors, fonts, and layouts in an HTML document is required to be separated from the document structure and described by a style sheet. The page is provided in a format in which the document structure and the format information are mixed as before.

このようなことから、色やフォント、レイアウトに関する書式情報が埋め込まれたHTML文書を文書構造と書式情報とに分離した形式にフォーマット変換する技術が求められている。   For this reason, there is a need for a technique for converting the format of an HTML document in which format information about color, font, and layout is embedded into a format separated into document structure and format information.

従来のフォーマット変換システムの一例が特許文献1に記載されている。特許文献1では、インターネットを介して配信される、HTMLおよびCSSファイルを読み込み、色・文字・レイアウト情報を抽出し、予め記憶されている専門化が作成した色変更定義やレイアウト変更定義を適用して、新たなスタイル定義ファイルを作成し、色盲・色覚異常の人たちが容易に情報を読むことが出来るように表示を変更するシステムが記載されている。   An example of a conventional format conversion system is described in Patent Document 1. In Patent Document 1, HTML and CSS files distributed via the Internet are read, color / character / layout information is extracted, and color change definitions and layout change definitions created in advance by specialization are applied. A system that creates a new style definition file and changes the display so that people with color blindness and color blindness can easily read the information is described.

また、別の従来のフォーマット変換システムの一例が特許文献2に記載されている。特許文献2では、XML文書の内容を書式プログラムの変換規則に従って変換することによりHTMLデータを作成し、そのHTMLデータをエディタ上で表示させ、編集操作を加えることにより、そのXML文書および書式プログラムの内容を変更するフォーマット変換システムが記載されている。   An example of another conventional format conversion system is described in Patent Document 2. In Patent Document 2, HTML data is created by converting the content of an XML document in accordance with the conversion rules of the format program, the HTML data is displayed on an editor, and an editing operation is performed, whereby the XML document and the format program are converted. A format conversion system for changing contents is described.

また、さらに別の従来のフォーマット変換システムの一例が特許文献3に記載されている。特許文献3では、非構造化文書である電子化文書を読み込み、予め設定された基本解析ルールに基づいて、文書中の体裁スタイルから、文書構造上の階層レベルを判定し、構造化文書を構成している。   An example of another conventional format conversion system is described in Patent Document 3. In Patent Document 3, a digitized document that is an unstructured document is read, and a hierarchical level on the document structure is determined from the appearance style in the document based on a preset basic analysis rule, thereby forming a structured document. is doing.

特開2005−031983号公報Japanese Patent Laid-Open No. 2005-031983 特開2006−059243号公報JP 2006-059243 A 特開2007−164705号公報JP 2007-164705 A

「JIS X 8341−3 高齢者・障害者等配慮設計指針−情報通信における機器、ソフトウェア及びサービス−第3部:ウェブコンテンツ」、日本規格協会発行、平成16年6月20日、p3“JIS X 8341-3 Design Guidelines for the Elderly and the Handicapped-Information Communication Equipment, Software and Services-Part 3: Web Content”, published by the Japanese Standards Association, June 20, 2004, p3

特許文献1〜3における第1の問題点は、構造化文書中の各文書要素に対して設定された色やフォント、レイアウトなどの書式情報を抽出し、スタイルシートの形式へ変換していない点である。その理由は、従来技術の目的が、色・文字・レイアウトなどの書式情報の値を変換することを目的としていたり、構造化文書の文書構造自体の変換を目的としているためである。   The first problem in Patent Documents 1 to 3 is that format information such as colors, fonts, and layouts set for each document element in a structured document is not extracted and converted into a style sheet format. It is. This is because the purpose of the prior art is to convert values of format information such as colors, characters, layouts, etc., or to convert the document structure of a structured document itself.

例えば、特許文献1においては、色・文字・レイアウト情報を抽出し、文書構造やレイアウト分類に従ってタグ情報の変更や、色情報・レイアウト情報の変更を行っているが、それらの情報を、専門化が予め定義した、色変換定義や、レイアウト変換定義に従って、その値を変更することを目的としており、HTML文書中の書式情報のスタイルシート形式への変換は行われていない。   For example, in Patent Document 1, color / character / layout information is extracted and tag information is changed or color information / layout information is changed according to the document structure and layout classification. Is intended to change the value in accordance with the color conversion definition and layout conversion definition defined in advance, and the format information in the HTML document is not converted to the style sheet format.

また、特許文献2、特許文献3においては、構造化文書の文書構造自体のフォーマット変換を目的としており、書式情報の抽出や変換に関しては言及されていない。   Patent Documents 2 and 3 aim at format conversion of the document structure itself of the structured document, and do not mention format information extraction or conversion.

また、特許文献1〜3における第2の問題点は、構造化文書のフォーマット変換システムの多くは、フォーマット変換作業自体、もしくはフォーマット変換の方法をシステムへ伝える手段として、利用者による編集作業が必要な点である。   The second problem in Patent Documents 1 to 3 is that many of the structured document format conversion systems require the user to edit the format conversion itself or as a means of conveying the format conversion method to the system. It is a point.

その理由は、例えば、特許文献1においては、変更後のスタイル定義ファイルおよび変更後の構造化文書ファイルを作成するに当たり、編集エディタによる編集作業を必要とするためである。また、特許文献2においては、XMLデータからHTMLデータを作成するに当たり、その変換規則を指示するために、利用者による編集作業を必要としているためである。   This is because, for example, in Patent Document 1, editing work by an editing editor is required to create the changed style definition file and the changed structured document file. Also, in Patent Document 2, when creating HTML data from XML data, editing work by the user is required to instruct the conversion rule.

[発明の目的]
そこで、本発明の目的は、構造化文書中の見映えを決定するための書式情報に対応したスタイルシートを作成できるようにすると共に、作成したスタイルシートを構造化文書から参照可能にするフォーマット変換システムを提供することである。
[Object of invention]
SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to make it possible to create a style sheet corresponding to format information for determining the appearance in a structured document, and to convert the created style sheet from a structured document. Is to provide a system.

本発明にかかる第1のフォーマット変換システムは、
構造化文書の文書要素からその見映えを決定するための書式情報を抽出して該抽出した書式情報に応じたスタイル集合を作成すると共に、前記構造化文書に設定されている前記書式情報を、前記スタイル集合を構成要素とするスタイルシートを指し示す属性情報に変換する変換部と、
該変換部で作成された前記スタイル集合に対して一意なセレクタ名を生成し、該生成したセレクタ名と前記スタイル集合とを結合したスタイルシートをスタイルシート記憶部に格納する生成処理を実行するセレクタ名生成部とを備える。
A first format conversion system according to the present invention includes:
Extracting format information for determining its appearance from the document elements of the structured document, creating a style set according to the extracted format information, and the format information set in the structured document, A conversion unit for converting into attribute information indicating a style sheet having the style set as a constituent element;
A selector that generates a unique selector name for the style set created by the conversion unit, and that executes a generation process of storing in the style sheet storage unit a style sheet that combines the generated selector name and the style set A name generation unit.

本発明にかかる第1のフォーマット変換方法は、
コンピュータが、構造化文書の文書要素からその見映えを決定するための書式情報を抽出して該抽出した書式情報に応じたスタイル集合を作成する第1のステップと、
前記コンピュータが、前記第1のステップで作成された前記スタイル集合に対して一意なセレクタ名を生成し、該生成したセレクタ名と前記スタイル集合とを結合したスタイルシートをスタイルシート記憶部に格納する第2のステップと、
前記コンピュータが、前記構造化文書の前記書式情報を、前記スタイルシートを指し示す属性情報に変換する第3のステップとを含む。
A first format conversion method according to the present invention includes:
A first step in which a computer extracts format information for determining its appearance from document elements of a structured document and creates a style set according to the extracted format information;
The computer generates a unique selector name for the style set created in the first step, and stores a style sheet obtained by combining the generated selector name and the style set in a style sheet storage unit. A second step;
And a third step of converting the format information of the structured document into attribute information indicating the style sheet.

本発明にかかる第1のプログラムは、
コンピュータをフォーマット変換システムとして機能させるためのプログラムであって、
前記コンピュータを、
構造化文書の文書要素からその見映えを決定するための書式情報を抽出して該抽出した書式情報に応じたスタイル集合を作成すると共に、前記構造化文書に設定されている前記書式情報を、前記スタイル集合を構成要素とするスタイルシートを指し示す属性情報に変換する変換部、
該変換部で作成された前記スタイル集合に対して一意なセレクタ名を生成し、該生成したセレクタ名と前記スタイル集合とを結合したスタイルシートをスタイルシート記憶部に格納する生成処理を実行するセレクタ名生成部として機能させる。
The first program according to the present invention is:
A program for causing a computer to function as a format conversion system,
The computer,
Extracting format information for determining its appearance from the document elements of the structured document, creating a style set according to the extracted format information, and the format information set in the structured document, A conversion unit for converting into attribute information indicating a style sheet having the style set as a constituent element;
A selector that generates a unique selector name for the style set created by the conversion unit, and that executes a generation process of storing in the style sheet storage unit a style sheet that combines the generated selector name and the style set It functions as a name generator.

本発明の第1の効果は、構造化文書中に含まれる、色・フォント・レイアウトなどの見映えを決定するための書式情報に対応したスタイルシートを作成できる点である。本発明の第2の効果は、構造化文書中の書式情報に基づいて作成したスタイルシートを、構造化文書から参照できる点である。   The first effect of the present invention is that a style sheet corresponding to format information for determining the appearance of colors, fonts, layouts, and the like included in a structured document can be created. A second effect of the present invention is that a style sheet created based on format information in a structured document can be referred to from the structured document.

本発明の第1の実施の形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of the 1st Embodiment of this invention. 第1の実施の形態の処理例を示すフローチャートである。It is a flowchart which shows the process example of 1st Embodiment. 本発明の第2の実施の形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of the 2nd Embodiment of this invention. 本発明の第1の実施の形態の実施例を説明するための、入力とする構造化文書の1例である。It is an example of the structured document used as input for explaining an example of the first exemplary embodiment of the present invention. 図4で示されるHTML文書の構文解析結果の1例である。It is an example of the syntax analysis result of the HTML document shown in FIG. 変換ルール記憶部22が格納している、変換ルールテーブルの一例である。It is an example of the conversion rule table which the conversion rule memory | storage part 22 has stored. フォントサイズを設定するためのマッピングテーブルの1例である。It is an example of the mapping table for setting a font size. 書式情報を削除した構造化文書の一例である。It is an example of the structured document which deleted the format information. 構造化文書から抽出した書式情報に対応したスタイルシートの1例である。It is an example of the style sheet corresponding to the format information extracted from the structured document. 出力部14から出力される、リンク情報の付加された構造化文書の一例である。It is an example of a structured document to which link information is added that is output from the output unit.

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。図1を参照すると、本発明の第1の実施の形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む。   Next, the best mode for carrying out the present invention will be described in detail with reference to the drawings. Referring to FIG. 1, the first embodiment of the present invention includes a data processing device 1 that operates under program control and a storage device 2 that stores information.

データ処理装置1は、入力部11と、変換部12と、セレクタ名生成部13と、出力部14とを備える。なお、上記各部11〜14は、ディスクなどの記憶媒体に記録されている、上記各部を実現するためのプログラムをデータ処理装置1が読み込み、実行することにより、データ処理装置1上に実現される。記憶装置2は、文書要素記憶部21と、変換ルール記憶部22と、スタイルシート記憶部23とを備える。   The data processing device 1 includes an input unit 11, a conversion unit 12, a selector name generation unit 13, and an output unit 14. Each of the units 11 to 14 is realized on the data processing device 1 by the data processing device 1 reading and executing a program for realizing each of the components recorded in a storage medium such as a disk. . The storage device 2 includes a document element storage unit 21, a conversion rule storage unit 22, and a style sheet storage unit 23.

入力部11は、外部から構造化文書を取得し、当該構造化文書を構文解析して文書要素を抽出し、抽出した文書要素を文書要素記憶部21へ格納する。   The input unit 11 acquires a structured document from outside, parses the structured document, extracts document elements, and stores the extracted document elements in the document element storage unit 21.

変換ルール記憶部22は、文書要素に設定されている色・フォント・レイアウトに関する属性情報(書式情報)に対応したスタイル集合を作成するためのルールや、文書要素の形式(例えば、タグ名)を変換するためのルールを保持する。   The conversion rule storage unit 22 stores a rule for creating a style set corresponding to attribute information (format information) related to colors, fonts, and layouts set in the document element, and a format (for example, tag name) of the document element. Holds the rules for conversion.

変換部12は、文書要素記憶部21に保持されている文書要素を取り出し、変換ルール記憶部22に格納された変換ルールに基づいて、当該文書要素中の書式情報に対応したスタイル集合を作成してセレクタ名生成部13に渡すと共に、必要に応じて文書要素の形式を変換する。   The conversion unit 12 takes out the document elements held in the document element storage unit 21 and creates a style set corresponding to the format information in the document elements based on the conversion rules stored in the conversion rule storage unit 22. To the selector name generation unit 13 and converts the format of the document element as necessary.

セレクタ名生成部13は、変換部12から渡されたスタイル集合と同じスタイル集合を保持するスタイルシートがスタイルシート記憶部23内に存在するかどうかを検索する。存在しない場合は、一意なセレクタ名を生成するとともに、当該セレクタ名と変換部12から渡されたスタイル集合とを結合し、スタイルシートの形式で、スタイルシート記憶部に格納するとともに、当該セレクタ名を変換部12へ通知する。存在する場合は、変換部12から渡されたスタイル集合と同じスタイル集合を保持するスタイルシートのセレクタ名をスタイルシート記憶部23から獲得し、当該セレクタ名を変換部12へ通知する。   The selector name generation unit 13 searches the style sheet storage unit 23 for a style sheet that holds the same style set as the style set passed from the conversion unit 12. If not, a unique selector name is generated, the selector name and the style set passed from the conversion unit 12 are combined, stored in the style sheet storage unit in the style sheet format, and the selector name Is notified to the conversion unit 12. If it exists, the selector acquires the style sheet selector name that holds the same style set as the style set passed from the conversion unit 12 from the style sheet storage unit 23 and notifies the conversion unit 12 of the selector name.

変換部12は、セレクタ名生成部13から渡されたセレクタ名に従って、現在処理中の文書要素の属性情報を変更する。すなわち、文書要素の属性情報を、その文書要素に対するスタイルシートを指し示すものに変更する。   The conversion unit 12 changes the attribute information of the currently processed document element according to the selector name passed from the selector name generation unit 13. That is, the attribute information of the document element is changed to indicate the style sheet for the document element.

出力部14は、スタイルシート記憶部23に格納されたスタイルシート群をスタイルシートファイルとして出力するとともに、文書要素記憶部21に格納されている文書要素群を構造化文書として出力する。このとき、出力部14は、当該構造化文書内に、当該スタイルシートファイルを参照可能にするための情報(リンク情報)を設定する。   The output unit 14 outputs the style sheet group stored in the style sheet storage unit 23 as a style sheet file, and outputs the document element group stored in the document element storage unit 21 as a structured document. At this time, the output unit 14 sets information (link information) for enabling reference to the style sheet file in the structured document.

次に、図1および図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。   Next, the overall operation of the present embodiment will be described in detail with reference to the flowcharts of FIGS.

入力部11は、外部から構造化文書を取得し、当該構造化文書の構文解析を行い、文書要素群を抽出し、文書要素記憶部21へ格納する(ステップS101)。変換部12は、文書要素記憶部21を参照し(S102)、ある1つの解析対象の文書要素xを順番に決定し、ステップS103からステップS108の処理を繰り返す。文書要素がn個存在した場合、1〜nの文書要素に対して処理を行う。全ての文書要素に対して処理が完了した場合はステップS109へ進み、処理対象の文書要素が存在する場合はステップS104へ進む(ステップ103)。   The input unit 11 acquires a structured document from the outside, performs syntax analysis of the structured document, extracts a document element group, and stores it in the document element storage unit 21 (step S101). The conversion unit 12 refers to the document element storage unit 21 (S102), determines one document element x to be analyzed in order, and repeats the processing from step S103 to step S108. When n document elements exist, processing is performed on document elements 1 to n. If processing has been completed for all document elements, the process proceeds to step S109, and if there are document elements to be processed, the process proceeds to step S104 (step 103).

変換部12は、変換ルール記憶部22を参照し、変換ルールに従って文書要素xからその色・フォント・レイアウトに関する属性情報(書式情報)を抽出し、抽出した属性情報に対応したスタイル集合を作成し、当該スタイル集合をセレクタ名生成部13に渡す(S104)。更に、ステップS104では、変換ルールに従って、必要に応じて文書要素xの形式を変更する。   The conversion unit 12 refers to the conversion rule storage unit 22, extracts attribute information (format information) regarding the color, font, and layout from the document element x according to the conversion rule, and creates a style set corresponding to the extracted attribute information. Then, the style set is passed to the selector name generation unit 13 (S104). In step S104, the format of the document element x is changed as necessary according to the conversion rule.

セレクタ名生成部13は、スタイルシート記憶部23を参照し、変換部12から渡されたスタイル集合と同一のスタイル集合を持つスタイルシートが存在するか検索する(S105)。そして、同一のスタイル集合を持つスタイルシートが存在しない場合、一意なセレクタ名を生成し、セレクタ名と、変換部12から渡されたスタイル集合とを、スタイルシートの形式で、スタイルシート記憶部23へ格納する(S106)。これに対して、同一のスタイル集合を持つスタイルシートが存在した場合、当該スタイルシートのセレクタ名を獲得する(S107)。セレクタ名生成部13は、生成したもしくは獲得したセレクタ名を変換部12へ渡す。   The selector name generation unit 13 refers to the style sheet storage unit 23 and searches for a style sheet having the same style set as the style set passed from the conversion unit 12 (S105). If there is no style sheet having the same style set, a unique selector name is generated, and the style sheet storage unit 23 generates the selector name and the style set passed from the conversion unit 12 in the form of a style sheet. (S106). On the other hand, if there is a style sheet having the same style set, the selector name of the style sheet is acquired (S107). The selector name generation unit 13 passes the generated or acquired selector name to the conversion unit 12.

変換部12は、セレクタ名生成部13から渡されたセレクタ名に従って文書要素記憶部21に格納されている文書要素xの属性を、上記スタイルシートを指し示すものに変換する(S108)。ステップS108の処理が終了した場合、ステップS102へ戻り、次の文書要素に対して処理を継続する。   The conversion unit 12 converts the attribute of the document element x stored in the document element storage unit 21 according to the selector name passed from the selector name generation unit 13 into one indicating the style sheet (S108). When the process of step S108 is completed, the process returns to step S102, and the process is continued for the next document element.

出力部14は、全ての文書要素に対して処理が終了した後(S103)、スタイルシート記憶部23を参照してスタイルシートファイルを出力するとともに、文書要素記憶部21を参照し、文書要素記憶部21に格納されている文書要素と、上記スタイルシートファイルを参照するためのリンク情報とを含んだ構造化文書を作成して出力する(S109)。   After the processing is completed for all the document elements (S103), the output unit 14 outputs the style sheet file with reference to the style sheet storage unit 23, and also refers to the document element storage unit 21 to store the document element. A structured document including a document element stored in the unit 21 and link information for referring to the style sheet file is created and output (S109).

[第1の実施の形態の効果]
次に、本実施の形態の効果について説明する。
[Effect of the first embodiment]
Next, the effect of this embodiment will be described.

本実施の形態では、変換部12が、文書要素記憶部21中の文書要素から見映えを決定するための書式情報を抽出してその書式情報に対応したスタイル集合を作成し、セレクタ名生成部13が、変換部12で作成されたスタイル集合に対して一意なセレクタ名を生成し、このセレクタ名と変換部12から出力されたスタイル集合とを結合してスタイルシートを作成するようにしているので、構造化文書中に含まれる、見映えを決定するための書式情報に対応したスタイルシートを作成することができる。   In the present embodiment, the conversion unit 12 extracts format information for determining appearance from the document elements in the document element storage unit 21, creates a style set corresponding to the format information, and generates a selector name generation unit. 13 generates a unique selector name for the style set created by the conversion unit 12, and combines the selector name and the style set output from the conversion unit 12 to create a style sheet. Therefore, it is possible to create a style sheet corresponding to the format information for determining the appearance included in the structured document.

また、本実施の形態では、変換部12が、文書要素中の書式情報を、その書式情報に対応したスタイルシートを指し示す属性情報(値がセレクタ名)に変換するので、構造化文書中の書式情報に基づいて作成したスタイルシートを構造化文書から参照することができる。   In the present embodiment, the conversion unit 12 converts the format information in the document element into attribute information (value is a selector name) indicating a style sheet corresponding to the format information. Therefore, the format in the structured document The style sheet created based on the information can be referenced from the structured document.

また、本実施の形態では、セレクタ名生成部13が、変換部12から渡されたスタイル集合と同じスタイル集合を持つスタイルシートをスタイルシート記憶部23から検索し、存在する場合はそのセレクタ名を獲得できるように構成されているため、構造化文書中の複数の文書要素において、同一の装飾が行われていた場合に、1つのスタイルシートを修正するだけで、複数の文書要素の見映えの変更が行える形式へフォーマット変換することができる。   Further, in the present embodiment, the selector name generation unit 13 searches the style sheet storage unit 23 for a style sheet having the same style set as the style set passed from the conversion unit 12. Since it is configured so that it can be acquired, if the same decoration is applied to multiple document elements in a structured document, the appearance of the multiple document elements can be changed by simply modifying one style sheet. The format can be converted to a format that can be changed.

また、本実施の形態では、書式情報の代わりにその書式情報に対応するスタイルシートを指し示す属性情報を含んだ文書要素を記憶する文書要素記憶部21と、スタイルシートの集合を記憶するスタイルシート記憶部23とを持ち、出力部14がそれぞれの記憶部を参照できるように構成されているため、色・フォント・レイアウトなどの書式情報を含む構造化文書を、文書構造だけを残した構造化文書と、各文書要素の装飾的な書式情報を保持するスタイルシートファイルに分離して出力できる。   Further, in the present embodiment, instead of the format information, a document element storage unit 21 that stores a document element including attribute information indicating a style sheet corresponding to the format information, and a style sheet storage that stores a set of style sheets. Since the output unit 14 can refer to each storage unit, a structured document including format information such as colors, fonts, and layouts is left as a structured document. Can be output separately in a style sheet file that holds decorative format information of each document element.

[本発明の第2の実施の形態]
次に、本発明の第2の実施の形態について図面を参照して説明する。
[Second embodiment of the present invention]
Next, a second embodiment of the present invention will be described with reference to the drawings.

第3図を参照すると、本発明の第2の実施の形態は、プログラム制御により動作するデータ処理装置1aと、情報を記憶する記憶装置2bとを含む。データ処理装置1aは、変換部12の代わりに変換部12aを備えている点、および、スタイル抽出部15が追加されている点が、図1に示したデータ処理装置1と相違している。記憶装置2は、変換ルール記憶部22を備えていない点が、図1に示した記憶装置2と相違している。   Referring to FIG. 3, the second embodiment of the present invention includes a data processing device 1a that operates under program control and a storage device 2b that stores information. The data processing device 1a is different from the data processing device 1 shown in FIG. 1 in that a conversion unit 12a is provided instead of the conversion unit 12, and a style extraction unit 15 is added. The storage device 2 is different from the storage device 2 shown in FIG. 1 in that the conversion rule storage unit 22 is not provided.

スタイル抽出部15は、第1の実施の形態では、変換部12が変換ルール記憶部22に登録されている変換ルールを参照して行っていたスタイル集合の作成処理や、文書要素のタグ名などの変換処理を、変換ルールを参照せずに、プログラムに組み込まれたロジックに従って行う。このプログラムは、処理対象にしている文書要素のタグ名が予め定められているタグ名であるか否かを判断し、予め定められているタグ名であった場合にはそのタグ名に応じたスタイル集合の作成処理やタグ名の変更処理を行ったり、処理対象にしている文書要素の属性名が予め定められている属性名であるか否かを判定し、予め定め定められている属性名であった場合には、その属性名に対応したスタイル集合の作成処理を行うものである。   In the first embodiment, the style extraction unit 15 creates the style set that the conversion unit 12 refers to the conversion rules registered in the conversion rule storage unit 22 and the tag name of the document element. The conversion process is performed according to the logic incorporated in the program without referring to the conversion rule. This program determines whether or not the tag name of the document element to be processed is a predetermined tag name. If the tag name is a predetermined tag name, the program responds to the tag name. Create a set of styles, change the tag name, or determine whether the attribute name of the document element to be processed is a predetermined attribute name. If it is, the style set corresponding to the attribute name is created.

変換部12aは、スタイル集合の作成処理や、文書要素の変換処理をスタイル抽出部15に行わせる点が、第1の実施の形態の変換部12と相違している。   The conversion unit 12a is different from the conversion unit 12 of the first embodiment in that the style extraction unit 15 performs style set creation processing and document element conversion processing.

次に、本実施の形態の動作について説明する。本実施の形態の動作は、図2のフローチャートに示した動作とほぼ同じであるので、相違部分であるステップS104の動作についてのみ説明する。   Next, the operation of the present embodiment will be described. The operation of the present embodiment is almost the same as the operation shown in the flowchart of FIG.

ステップS104では、先ず、変換部12aが、現在処理対象にしている文書要素xをスタイル抽出部15に渡す。これにより、スタイル抽出部15は、文書要素x中の書式情報に応じたスタイル集合を作成し、作成したスタイル集合を変換部12aに返す。また、必要に応じて文書要素xを変換し、変換後の文書要素xを変換部12aに返す。変換部12aは、スタイル抽出部15から返されたスタイル集合をセレクタ名生成部13に渡す。また、変換部12aは、スタイル抽出部15から文書要素xが返された場合は、文書要素記憶部21に格納されている文書要素xを、スタイル抽出部15から返却された変換後の文書要素xで置き換える。以上がステップS104で行われる処理である。他のステップでは、第1の実施の形態と同様の処理が行われる。   In step S104, first, the conversion unit 12a passes the document element x currently being processed to the style extraction unit 15. Thereby, the style extraction unit 15 creates a style set corresponding to the format information in the document element x, and returns the created style set to the conversion unit 12a. Further, the document element x is converted as necessary, and the converted document element x is returned to the conversion unit 12a. The conversion unit 12 a passes the style set returned from the style extraction unit 15 to the selector name generation unit 13. In addition, when the document element x is returned from the style extraction unit 15, the conversion unit 12 a converts the document element x stored in the document element storage unit 21 into the converted document element returned from the style extraction unit 15. Replace with x. The above is the process performed in step S104. In other steps, processing similar to that of the first embodiment is performed.

[第2の実施の形態の効果]
本実施の形態によれば、第1の実施の形態と同様の効果を得ることができる。
[Effect of the second embodiment]
According to the present embodiment, the same effect as in the first embodiment can be obtained.

次に、本発明の第1の実施の形態の実施例について説明する。   Next, examples of the first embodiment of the present invention will be described.

本実施例では、色・フォント・レイアウトなどの書式情報を含む構造化文書の1例として、図4に示すHTML文書を対象にフォーマット変換システムの動作について説明する。   In this embodiment, as an example of a structured document including format information such as color, font, and layout, the operation of the format conversion system will be described for the HTML document shown in FIG.

入力装置11は外部より図4に示すHTML文書を読み込み、HTML文書の文書構造を解析し、図5に示されるような階層構造を明確にしたうえで、結果を文書要素記憶部21へ格納する。なお、図5では、図を見やすくするために、文書要素中の属性情報は図示を省略しているが、実際には、<body bgcolor="#e0e0e0" text="#000000">などのように、属性を含んでいる。   The input device 11 reads the HTML document shown in FIG. 4 from the outside, analyzes the document structure of the HTML document, clarifies the hierarchical structure as shown in FIG. 5, and stores the result in the document element storage unit 21. . In FIG. 5, the attribute information in the document element is not shown in order to make the drawing easier to see, but in practice, <body bgcolor = “# e0e0e0” text = “# 000000”> Contains attributes.

変換部12は、文書要素記憶部21から、順番に文書要素を獲得し、変換処理を行う。ここで文書要素とは、図5で示される、<html要素>、<body要素>、<h1要素>などのことである。   The conversion unit 12 sequentially acquires document elements from the document element storage unit 21 and performs conversion processing. Here, the document element refers to <html element>, <body element>, <h1 element>, and the like shown in FIG.

図6は、変換ルール記憶部22が格納している、変換ルールテーブルの一例である。本実施例の変換ルールテーブルは、変換対象となるタグ名を示すタグ名61、変換対象の属性名を示す属性名62、変換後のタグ名を示す変換後タグ名63、変換後のスタイルのフォーマットを示す変換後スタイル64の列から構成される。タグ名61の列において、"*"が記述されている行は、全てのタグ名に対して適用可能であることを示している。属性名62の列において、"−"が記述されている行は、属性の変換を行わないことを示している。変換後タグ名63の列において、"*"が記述されている行は、タグ名の変換は行わないことを示している。変換後スタイル64の列において、"&1"の記述は、属性名で示される属性の属性値を表現している。また、変換後スタイル64の列において、"&FONT−SIZE"の記述は、スタイルシートに設定するフォントサイズを決定するための演算処理を行うことを示している。   FIG. 6 is an example of a conversion rule table stored in the conversion rule storage unit 22. The conversion rule table of this embodiment includes a tag name 61 indicating a tag name to be converted, an attribute name 62 indicating an attribute name to be converted, a post-conversion tag name 63 indicating a post-conversion tag name, and a style of the post-conversion style. It consists of a column of converted style 64 indicating the format. In the tag name 61 column, a line in which “*” is described indicates that it can be applied to all tag names. In the column of the attribute name 62, a line in which “-” is described indicates that no attribute conversion is performed. In the post-conversion tag name 63 column, a line in which “*” is described indicates that tag name conversion is not performed. In the post-conversion style 64 column, the description “& 1” represents the attribute value of the attribute indicated by the attribute name. In the column of the style 64 after conversion, the description “& FONT-SIZE” indicates that an arithmetic process for determining the font size set in the style sheet is performed.

図7は、フォントサイズのレベルと、スタイルで指定するフォントサイズとのマッピングテーブルである。   FIG. 7 is a mapping table between the font size level and the font size specified by the style.

フォントサイズを決定するための演算処理について以下に説明する。フォントサイズのレベルには「標準フォントサイズのレベル」と「現在のフォントサイズのレベル」の2種類があり、初期値は共に「3」である。font要素およびbig要素、small要素では、要素内でのフォントサイズのレベルを変更することができ、そのレベルに対応するサイズのフォントを使用する。   An arithmetic process for determining the font size will be described below. There are two types of font size levels, “standard font size level” and “current font size level”, and the initial value is “3”. In the font element, big element, and small element, the font size level in the element can be changed, and a font having a size corresponding to the level is used.

font要素のsize属性において、数値が直接記載された場合は、その指定された数値のレベルを現在のフォントサイズのレベルとし、図7において該当のフォントサイズのレベルに対応するサイズ指定の値をスタイルシートに設定するフォントサイズとする。例えば、"1"と指定された場合は、図7におけるフォントサイズのレベル「1」に対応する"0.5em"をスタイルシートに設定するフォントサイズとする。   When a numerical value is directly described in the size attribute of the font element, the level of the specified numerical value is set as the current font size level, and the size specification value corresponding to the level of the corresponding font size in FIG. The font size is set for the sheet. For example, when “1” is designated, “0.5 em” corresponding to the font size level “1” in FIG. 7 is set as the font size to be set in the style sheet.

font要素のsize属性において、符号付の数値が記載された場合は、標準フォントサイズのレベルと上記符号付の数値との加算結果を現在のフォントサイズのレベルとするとともに、そのレベルに対応するサイズ指定の値をスタイルシートに設定するフォントサイズとする。例えば、"+2"と指定された場合、標準のフォントサイズ「3」に「2」を加えた「5」を現在のフォントサイズのレベルとし、それに対応するサイズ指定である"1.5em"をスタイルシートに設定するフォントサイズとする。また、”−1”と指定された場合、標準のフォントサイズ「3」から「1」を引いた、「2」を現在のフォントサイズのレベルとし、それに対応するサイズ指定である"0.8em"をスタイルシートに設定するフォントサイズとする。font要素のsize属性において、それ以外の表現が行われた場合は、その表現をそのままフォントサイズとして使用する。   If a signed numeric value is described in the size attribute of the font element, the result of adding the standard font size level and the signed numeric value is the current font size level, and the size corresponding to that level The specified value is the font size set in the style sheet. For example, when “+2” is designated, “5” obtained by adding “2” to the standard font size “3” is set as the current font size level, and the corresponding size designation “1.5 em” is set. The font size is set in the style sheet. When “−1” is designated, “1” is subtracted from the standard font size “3”, “2” is set as the current font size level, and the corresponding size designation “0.8 em” is set. "Is the font size set in the style sheet. If any other expression is made in the size attribute of the font element, that expression is used as it is as the font size.

big要素に対しては、現在のフォントサイズのレベルを+1し、その値に対応したサイズ指定の値をスタイルシートに設定するフォントサイズとする。small要素に対しては、現在のフォントサイズのレベルを−1し、その値に対応したサイズ指定の値をスタイルシートに設定するフォントサイズとする。   For the big element, the current font size level is incremented by 1, and the size designation value corresponding to the value is set as the font size to be set in the style sheet. For the small element, the current font size level is decremented by 1, and the size designation value corresponding to the value is set as the font size to be set in the style sheet.

次に、変換部12のフォーマット変換処理について図4で示したHTML文書を用いて具体的に説明を行う。変換部12は、HTML文書に対する構文解析結果(図5参照)が格納されている文書要素記憶部21から順番に文書要素を取り出す。まず、html要素を取り出し処理を行う。変換部12は、図6で示される変換ルールテーブルを参照し、html要素のタグ名および属性名においてマッチするものが無いため、特に何も行わず、html要素の処理を終了する。   Next, the format conversion process of the conversion unit 12 will be specifically described using the HTML document shown in FIG. The conversion unit 12 sequentially retrieves document elements from the document element storage unit 21 in which the syntax analysis result (see FIG. 5) for the HTML document is stored. First, an html element is extracted and processed. The conversion unit 12 refers to the conversion rule table shown in FIG. 6, and since there is no match in the tag name and attribute name of the html element, nothing is done and the process of the html element is terminated.

変換部12は、次にbody要素を取り出し、処理を行う。ここでbody要素は、bgcolor属性を含んでいる。図6で示される変換ルールテーブルの3行目のルールにマッチするため、変換後のスタイル"background−color:#e0e0e0"のスタイルを獲得し、body要素のbgcolor属性を削除する。ここで、変換後スタイルの"&1"の部分に、bgcolor属性の属性値である"#e0e0e0"を設定している。また、body要素はtext属性を含んでいる。変換ルールテーブルの2行目のルールにより、"color:#000000"のスタイルを獲得し、body要素のtext属性を削除する。   Next, the conversion unit 12 extracts the body element and performs processing. Here, the body element includes a bgcolor attribute. In order to match the rule on the third line of the conversion rule table shown in FIG. 6, the converted style “background-color: # e0e0e0” is acquired, and the bgcolor attribute of the body element is deleted. Here, “# e0e0e0”, which is the attribute value of the bgcolor attribute, is set in the “& 1” portion of the style after conversion. The body element includes a text attribute. The style of “color: # 000000” is acquired by the rule on the second line of the conversion rule table, and the text attribute of the body element is deleted.

変換部12は、上記2つのスタイルからなるスタイル集合をセレクタ名生成部13に渡す。セレクタ名生成部13は、スタイルシート記憶部23を参照し、同じスタイル集合が存在するか確認する。今回は、まだスタイルシートが登録されていないため、同じスタイル集合は存在していない。そのため、セレクタ名生成部13は、一意なセレクタ名を生成する。本実施例において、一意なセレクタ名を、固定文字列"sel"に3桁の通番を付けた名前とすると、一意なセレクタ名は、"sel001"となる。セレクタ名生成部13は、生成したセレクタ名を使用して、以下のようなスタイルシートを作成し、スタイルシート記憶部23へ格納すると共に、セレクタ名を変換部12へ返す。
sel001{
background−color:#e0e0e0;
color:#000000;
The conversion unit 12 passes the style set including the two styles to the selector name generation unit 13. The selector name generation unit 13 refers to the style sheet storage unit 23 and confirms whether the same style set exists. Since the style sheet has not been registered yet, the same style set does not exist this time. Therefore, the selector name generation unit 13 generates a unique selector name. In this embodiment, if the unique selector name is a name obtained by adding a three-digit serial number to the fixed character string “sel”, the unique selector name is “sel001”. The selector name generation unit 13 creates the following style sheet using the generated selector name, stores it in the style sheet storage unit 23, and returns the selector name to the conversion unit 12.
sel001 {
background-color: # e0e0e0;
color: # 000000;
}

変換部12は、セレクタ名生成部13から獲得したセレクタ名をbody要素のclass属性として追記し、body要素の処理を終了する。結果として、body要素の開始タグは、<body class=”sel001”>となる。   The conversion unit 12 adds the selector name acquired from the selector name generation unit 13 as the class attribute of the body element, and ends the processing of the body element. As a result, the start tag of the body element is <body class = “sel001”>.

次に、変換部12は、文書要素記憶部21からh1要素を取り出し変換処理を行う。h1要素は、align属性を含んでいるため、変換ルールテーブルの5行目に従い、"text−align:center"のスタイルを獲得し、align属性を削除する。また、h1要素は、style属性を含んでいるため、変換ルールテーブルの1行目に従い、"color:#0000ff;font−size:150%"のスタイルを獲得し、style属性を削除する。ここで、変換ルールテーブルの1行目の、変換後スタイルに"&1"と記載されているが、これは、style属性の属性値をそのままスタイルとして適用すると言うことである。変換部12は、上記3つからなるスタイル集合を、セレクタ名生成部13へ渡す。   Next, the conversion unit 12 extracts the h1 element from the document element storage unit 21 and performs conversion processing. Since the h1 element includes the align attribute, the style “text-align: center” is acquired according to the fifth line of the conversion rule table, and the align attribute is deleted. Further, since the h1 element includes the style attribute, the style “color: # 0000ff; font-size: 150%” is acquired and the style attribute is deleted according to the first line of the conversion rule table. Here, “& 1” is described in the style after conversion in the first line of the conversion rule table, which means that the attribute value of the style attribute is applied as it is as the style. The conversion unit 12 passes the three style sets to the selector name generation unit 13.

セレクタ名生成部13は、スタイルシート記憶部23を参照し、同じスタイル集合が存在しないことを確認し、一意なセレクタ名"sel002"を生成する。セレクタ名生成部13は、生成したセレクタ名を使用して、以下のようなスタイルシートを作成し、スタイルシート記憶部23へ格納すると共に、セレクタ名を変換部12へ返す。
sel002{
text−align:center;
color:#0000ff;
font−size:150%;
The selector name generation unit 13 refers to the style sheet storage unit 23, confirms that the same style set does not exist, and generates a unique selector name “sel002”. The selector name generation unit 13 creates the following style sheet using the generated selector name, stores it in the style sheet storage unit 23, and returns the selector name to the conversion unit 12.
sel002 {
text-align: center;
color: # 0000ff;
font-size: 150%;
}

変換部12は、セレクタ名生成部13から獲得したセレクタ名をh1要素のclass属性として追記し、h1要素の処理を終了する。結果として、h1要素の開始タグは、<h1 class=”sel002”>となる。   The conversion unit 12 adds the selector name acquired from the selector name generation unit 13 as the class attribute of the h1 element, and ends the processing of the h1 element. As a result, the start tag of the h1 element is <h1 class = “sel002”>.

次に、図4のHTMLの5行目のfont要素およびbig要素に対する処理について説明する。font要素では、size属性が設定されており、その属性値として"+2"が設定されている。前述のフォントサイズを決定するための演算処理に従い、現在のフォントサイズのレベルを「5」と設定し、図7のマッピングテーブルから"1.5em"のサイズを獲得する。また、次のbig要素は、font要素に含まれているため、現在のフォントサイズのレベルの「5」を維持したまま、前述のフォントサイズを決定するための演算処理に従い、現在のフォントサイズのレベルを一つ繰り上げて「6」と設定し、図7のマッピングテーブルから"2.0em"のサイズを獲得する。結果として、スタイルシートとしては、
.sel004{
font−size:1.5em;

.sel005{
font−size:2.0em;

の2つが作成される。
Next, processing for the font element and big element in the fifth line of the HTML in FIG. 4 will be described. In the “font” element, a size attribute is set, and “+2” is set as the attribute value. In accordance with the arithmetic processing for determining the font size described above, the current font size level is set to “5”, and a size of “1.5 em” is obtained from the mapping table of FIG. Further, since the next big element is included in the font element, the current font size is determined according to the calculation process for determining the font size while maintaining the current font size level “5”. The level is incremented by one and set to “6”, and the size of “2.0 em” is acquired from the mapping table of FIG. As a result, as a style sheet,
.sel004 {
font-size: 1.5 em;
}
.sel005 {
font-size: 2.0 em;
}
Are created.

また、図4のHTMLの5行目のfont要素およびbig要素は、それぞれ図6に示した変換ルールテーブルの16行目、14行目のルールにマッチするので、両要素のタグ名はspanに変換される。また、font要素およびbig要素に対応するスタイルシートのセレクタ名は、それぞれsel004,sel005であるので、
<span class=”sel004”>文字列2
<span class=”sel005”>文字列3
</span>
</span>
のようにフォーマット変換される。
Also, the font element and big element on the fifth line of HTML in FIG. 4 match the rules on the 16th line and the 14th line of the conversion rule table shown in FIG. 6, respectively. Converted. Since the selector names of the style sheets corresponding to the font element and big element are sel004 and sel005, respectively.
<Span class = "sel004"> Character string 2
<Span class = "sel005"> Character string 3
</ Span>
</ Span>
The format is converted as follows.

次に、図4のHTMLの6行目のh1要素に対する処理について説明する。このh1要素の処理から獲得されるスタイル集合は、2行目のh1要素で獲得されるスタイル集合と同じになるため、セレクタ名生成部13は、スタイルシート記憶部23を検索した場合に、セレクタ名"sel002"を獲得することが出来る。そのため、セレクタ名生成部13は、新たなスタイルシートを登録することなく、獲得したセレクタ名を変換部12に返す。変換部12は、渡されたセレクタ名"sel002"を利用してclass属性を追加する。このようにして、最終的に文書要素記憶部21に格納される構造化文書および、スタイルシート記憶部23に格納されるスタイルシートは、図8、図9のようになる。   Next, processing for the h1 element on the sixth line of the HTML in FIG. 4 will be described. Since the style set acquired from the processing of the h1 element is the same as the style set acquired by the h1 element in the second row, the selector name generation unit 13 selects the selector when searching the style sheet storage unit 23. The name “sel002” can be acquired. Therefore, the selector name generation unit 13 returns the acquired selector name to the conversion unit 12 without registering a new style sheet. The conversion unit 12 adds a class attribute using the passed selector name “sel002”. In this way, the structured document finally stored in the document element storage unit 21 and the style sheet stored in the style sheet storage unit 23 are as shown in FIGS.

出力部14は、スタイルシート群にファイル名を与えテキストファイルとして出力すると共に、文書要素記憶部21に格納されている構造化文書データに、前記出力したスタイルシートファイル名をリンク情報として追記し、構造化文書として出力する。図10に出力部14から出力される、リンク情報<link rel="stylesheet"
href="mysheet.css" content="text/css">の追記された構造化文書を示す。なお、この例は、スタイルシートファイル名を"mysheet.css"とした場合についてのものである。
The output unit 14 gives a file name to the style sheet group and outputs it as a text file, and additionally writes the output style sheet file name as link information to the structured document data stored in the document element storage unit 21. Output as a structured document. Link information <link rel = "stylesheet" output from the output unit 14 in FIG.
Indicates a structured document appended with href = "mysheet.css" content = "text / css">. In this example, the style sheet file name is "mysheet.css".

1、1a…データ処理装置
2、2a…記憶装置
11…入力部
12…変換部
13…セレクタ名生成部
14…出力部
15…スタイル抽出部
21…文書要素記憶部
22…変換ルール記憶部
23…スタイルシート記憶部
61…タグ名
62…属性名
63…変換後タグ名
64…変換後スタイル
DESCRIPTION OF SYMBOLS 1, 1a ... Data processing device 2, 2a ... Storage device 11 ... Input part 12 ... Conversion part 13 ... Selector name generation part 14 ... Output part 15 ... Style extraction part 21 ... Document element storage part 22 ... Conversion rule storage part 23 ... Style sheet storage unit 61 ... tag name 62 ... attribute name 63 ... converted tag name 64 ... converted style

Claims (15)

構造化文書の文書要素からその見映えを決定するための書式情報を抽出して該抽出した書式情報に応じたスタイル集合を作成すると共に、前記構造化文書に設定されている前記書式情報を、前記スタイル集合を構成要素とするスタイルシートを指し示す属性情報に変換する変換部と、
該変換部で作成された前記スタイル集合に対して一意なセレクタ名を生成し、該生成したセレクタ名と前記スタイル集合とを結合したスタイルシートをスタイルシート記憶部に格納する生成処理を実行するセレクタ名生成部とを備えたことを特徴とするフォーマット変換システム。
Extracting format information for determining its appearance from the document elements of the structured document, creating a style set according to the extracted format information, and the format information set in the structured document, A conversion unit for converting into attribute information indicating a style sheet having the style set as a constituent element;
A selector that generates a unique selector name for the style set created by the conversion unit, and that executes a generation process of storing in the style sheet storage unit a style sheet that combines the generated selector name and the style set A format conversion system comprising a name generation unit.
請求項1記載のフォーマット変換システムにおいて、
前記スタイルシートを指し示す属性情報は、値として前記スタイルシートのセレクタ名を含むことを特徴とするフォーマット変換システム。
The format conversion system according to claim 1,
The format conversion system, wherein the attribute information indicating the style sheet includes a selector name of the style sheet as a value.
請求項2記載のフォーマット変換システムにおいて
前記セレクタ名生成部は、前記スタイルシート記憶部を検索し、前記変換部で作成された前記スタイル集合と同一のスタイル集合を含んだスタイルシートを検索できた場合は、前記生成処理を実行せず、
前記セレクタ名生成部によって前記スタイルシートが検索された場合、前記変換部は、前記書式情報を、前記検索されたスタイルシートのセレクタ名を値として含んだ属性情報に変換することを特徴とするフォーマット変換システム。
The format conversion system according to claim 2, wherein the selector name generation unit searches the style sheet storage unit and can search for a style sheet that includes the same style set as the style set created by the conversion unit. Does not execute the generation process,
When the style sheet is searched by the selector name generation unit, the conversion unit converts the format information into attribute information including a selector name of the searched style sheet as a value. Conversion system.
請求項1乃至3の何れか1項に記載のフォーマット変換システムにおいて、
前記スタイルシート記憶部に格納されているスタイルシートをスタイルシートファイルとして出力すると共に、前記構造化文書に前記スタイルシートファイルへのリンク情報を埋め込む出力部を備えたことを特徴とするフォーマット変換システム。
The format conversion system according to any one of claims 1 to 3,
A format conversion system comprising: an output unit that outputs a style sheet stored in the style sheet storage unit as a style sheet file and embeds link information to the style sheet file in the structured document.
請求項1乃至4の何れか1項に記載のフォーマット変換システムにおいて、
書式情報に応じたスタイル集合を作成するためのルールが格納された変換ルール記憶部を備え、且つ、
前記変換部は、前記変換ルール記憶部に格納されているルールに従って書式情報に応じたスタイル集合を作成することを特徴とするフォーマット変換システム。
The format conversion system according to any one of claims 1 to 4,
A conversion rule storage unit storing rules for creating a style set according to the format information; and
The format conversion system, wherein the conversion unit creates a style set corresponding to format information in accordance with a rule stored in the conversion rule storage unit.
請求項5記載のフォーマット変換システムにおいて、
前記変換ルール記憶部には、属性名に関連付けて、その属性名の書式情報に対するスタイル集合の作成方法が格納されていることを特徴とするフォーマット変換システム。
The format conversion system according to claim 5, wherein
The format conversion system, wherein the conversion rule storage unit stores a style set creation method for the format information of the attribute name in association with the attribute name.
請求項1乃至4の何れか1項に記載のフォーマット変換システムにおいて、
入力された書式情報に応じたスタイル集合を作成するロジックが組み込まれ、該ロジックに従って入力された書式情報に応じたスタイル集合を作成するスタイル抽出部を備え、且つ、
前記変換部は、前記抽出した書式情報を前記スタイル抽出部に対して出力することにより、前記書式情報に応じたスタイル集合を作成することを特徴とするフォーマット生成システム。
The format conversion system according to any one of claims 1 to 4,
Logic for creating a style set corresponding to the input format information is incorporated, and a style extraction unit for creating a style set corresponding to the format information input according to the logic is provided, and
The conversion unit creates a style set corresponding to the format information by outputting the extracted format information to the style extraction unit.
コンピュータが、構造化文書の文書要素からその見映えを決定するための書式情報を抽出して該抽出した書式情報に応じたスタイル集合を作成する第1のステップと、
前記コンピュータが、前記第1のステップで作成された前記スタイル集合に対して一意なセレクタ名を生成し、該生成したセレクタ名と前記スタイル集合とを結合したスタイルシートをスタイルシート記憶部に格納する第2のステップと、
前記コンピュータが、前記構造化文書の前記書式情報を、前記スタイルシートを指し示す属性情報に変換する第3のステップとを含むことを特徴とするフォーマット変換方法。
A first step in which a computer extracts format information for determining its appearance from document elements of a structured document and creates a style set according to the extracted format information;
The computer generates a unique selector name for the style set created in the first step, and stores a style sheet obtained by combining the generated selector name and the style set in a style sheet storage unit. A second step;
A format conversion method comprising: a third step in which the computer converts the format information of the structured document into attribute information indicating the style sheet.
請求項8記載のフォーマット変換方法において、
前記スタイルシートを指し示す属性情報は、値として前記スタイルシートのセレクタ名を含むことを特徴とするフォーマット変換方法。
The format conversion method according to claim 8, wherein
The format conversion method, wherein the attribute information indicating the style sheet includes a selector name of the style sheet as a value.
請求項9記載のフォーマット変換方法において、
前記コンピュータが、前記スタイルシート記憶部から前記第1のステップで作成された前記スタイル集合と同一のスタイル集合を含んだスタイルシートを検索する第4のステップを含み、且つ、
前記コンピュータは、前記第4のステップで前記スタイルシートを検索できた場合は、前記第2のステップを実行せず、前記第3のステップでは、前記書式情報を、前記検索されたスタイルシートのセレクタ名を値として含んだ属性情報に変換することを特徴とするフォーマット変換方法。
The format conversion method according to claim 9, wherein
The computer includes a fourth step of retrieving a style sheet including the same style set as the style set created in the first step from the style sheet storage unit; and
If the computer can retrieve the style sheet in the fourth step, the computer does not execute the second step, and in the third step, the format information is used as a selector for the retrieved style sheet. A format conversion method characterized by converting into attribute information including a name as a value.
請求項8乃至10の何れか1項に記載のフォーマット変換方法において、
前記コンピュータが、前記スタイルシート記憶部に格納されているスタイルシートをスタイルシートファイルとして出力する第5のステップと、
前記コンピュータが、前記構造化文書に前記スタイルシートファイルへのリンク情報を埋め込む第6のステップとを含むことを特徴とするフォーマット変換方法。
The format conversion method according to any one of claims 8 to 10,
A fifth step in which the computer outputs a style sheet stored in the style sheet storage unit as a style sheet file;
And a sixth step of embedding link information to the style sheet file in the structured document.
コンピュータをフォーマット変換システムとして機能させるためのプログラムであって、
前記コンピュータを、
構造化文書の文書要素からその見映えを決定するための書式情報を抽出して該抽出した書式情報に応じたスタイル集合を作成すると共に、前記構造化文書に設定されている前記書式情報を、前記スタイル集合を構成要素とするスタイルシートを指し示す属性情報に変換する変換部、
該変換部で作成された前記スタイル集合に対して一意なセレクタ名を生成し、該生成したセレクタ名と前記スタイル集合とを結合したスタイルシートをスタイルシート記憶部に格納する生成処理を実行するセレクタ名生成部として機能させるためのプログラム。
A program for causing a computer to function as a format conversion system,
The computer,
Extracting format information for determining its appearance from the document elements of the structured document, creating a style set according to the extracted format information, and the format information set in the structured document, A conversion unit for converting into attribute information indicating a style sheet having the style set as a constituent element;
A selector that generates a unique selector name for the style set created by the conversion unit, and that executes a generation process of storing in the style sheet storage unit a style sheet that combines the generated selector name and the style set A program for functioning as a name generator.
請求項12記載のプログラムにおいて、
前記スタイルシートを指し示す属性情報は、値として前記スタイルシートのセレクタ名を含むことを特徴とするプログラム。
The program according to claim 12,
The attribute information indicating the style sheet includes a selector name of the style sheet as a value.
請求項13記載のプログラムにおいて
前記セレクタ名生成部は、前記スタイルシート記憶部を検索し、前記変換部で作成された前記スタイル集合と同一のスタイル集合を含んだスタイルシートを検索できた場合は、前記生成処理を実行せず、
前記セレクタ名生成部によって前記スタイルシートが検索された場合、前記変換部は、前記書式情報を、前記検索されたスタイルシートのセレクタ名を値として含んだ属性情報に変換することを特徴とするプログラム。
The program according to claim 13, wherein the selector name generation unit searches the style sheet storage unit and can search for a style sheet that includes the same style set as the style set created by the conversion unit. Without performing the generation process,
When the style sheet is searched for by the selector name generation unit, the conversion unit converts the format information into attribute information including a selector name of the searched style sheet as a value. .
請求項12乃至14の何れか1項に記載のプログラムにおいて、
前記コンピュータを、前記スタイルシート記憶部に格納されているスタイルシートをスタイルシートファイルとして出力すると共に、前記構造化文書に前記スタイルシートファイルへのリンク情報を埋め込む出力部として機能させるためのプログラム。
The program according to any one of claims 12 to 14,
A program for causing the computer to function as an output unit that outputs a style sheet stored in the style sheet storage unit as a style sheet file and embeds link information to the style sheet file in the structured document.
JP2009133857A 2009-06-03 2009-06-03 Format conversion system, format conversion method, and program Pending JP2010282327A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009133857A JP2010282327A (en) 2009-06-03 2009-06-03 Format conversion system, format conversion method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009133857A JP2010282327A (en) 2009-06-03 2009-06-03 Format conversion system, format conversion method, and program

Publications (1)

Publication Number Publication Date
JP2010282327A true JP2010282327A (en) 2010-12-16

Family

ID=43539014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009133857A Pending JP2010282327A (en) 2009-06-03 2009-06-03 Format conversion system, format conversion method, and program

Country Status (1)

Country Link
JP (1) JP2010282327A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289407A (en) * 2011-09-06 2011-12-21 北京信息科技大学 Method for automatically testing document format conversion and device thereof
JP2015525925A (en) * 2012-07-12 2015-09-07 キム、ヨン クンKim, Young Kun Method for implementing standard and atypical data in an XML document
WO2016047307A1 (en) * 2014-09-26 2016-03-31 凸版印刷株式会社 Content generating device, content inspecting device, content generating method, and computer-readable medium including content data structure
CN110727492A (en) * 2019-09-29 2020-01-24 北京金山云网络技术有限公司 Client skin changing method and device, electronic equipment and computer readable storage medium
CN112528612A (en) * 2019-08-29 2021-03-19 小船出海教育科技(北京)有限公司 Method, device, storage medium and processor for displaying webpage content in document
CN113987390A (en) * 2021-11-26 2022-01-28 中国银行股份有限公司 H5 page adjusting method and device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337942A (en) * 2000-05-24 2001-12-07 Fuji Xerox Co Ltd Document data optimizing device and document data providing device
WO2004079586A1 (en) * 2003-03-07 2004-09-16 Sharp Kabushiki Kaisha Data conversion method capable of optimally performing mark-up language processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337942A (en) * 2000-05-24 2001-12-07 Fuji Xerox Co Ltd Document data optimizing device and document data providing device
WO2004079586A1 (en) * 2003-03-07 2004-09-16 Sharp Kabushiki Kaisha Data conversion method capable of optimally performing mark-up language processing

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289407A (en) * 2011-09-06 2011-12-21 北京信息科技大学 Method for automatically testing document format conversion and device thereof
JP2015525925A (en) * 2012-07-12 2015-09-07 キム、ヨン クンKim, Young Kun Method for implementing standard and atypical data in an XML document
WO2016047307A1 (en) * 2014-09-26 2016-03-31 凸版印刷株式会社 Content generating device, content inspecting device, content generating method, and computer-readable medium including content data structure
JP2016071431A (en) * 2014-09-26 2016-05-09 凸版印刷株式会社 Content creation device, content inspection device, content creation method, and data structure of content
CN106716427A (en) * 2014-09-26 2017-05-24 凸版印刷株式会社 Content generating device, content inspecting device, content generating method, and computer-readable medium including content data structure
US10747855B2 (en) 2014-09-26 2020-08-18 Toppan Printing Co., Ltd. Content generating device, content inspecting device, content generating method, and computer-readable medium including content data structure
CN112528612A (en) * 2019-08-29 2021-03-19 小船出海教育科技(北京)有限公司 Method, device, storage medium and processor for displaying webpage content in document
CN112528612B (en) * 2019-08-29 2024-03-22 小船出海教育科技(北京)有限公司 Method, device, storage medium and processor for displaying webpage content in document
CN110727492A (en) * 2019-09-29 2020-01-24 北京金山云网络技术有限公司 Client skin changing method and device, electronic equipment and computer readable storage medium
CN113987390A (en) * 2021-11-26 2022-01-28 中国银行股份有限公司 H5 page adjusting method and device

Similar Documents

Publication Publication Date Title
US7958444B2 (en) Visualizing document annotations in the context of the source document
US7107521B2 (en) XSL dynamic inheritance
US20040015782A1 (en) Templating method for automated generation of print product catalogs
WO2006046523A1 (en) Document analysis system and document adaptation system
KR20080053930A (en) Multi-form design with harmonic composition for dynamically aggregated documents
JP2009134741A (en) Data processing method
JP2010282327A (en) Format conversion system, format conversion method, and program
US20070150494A1 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
JP2011100403A (en) Information processor, information extraction method, program and information processing system
US9286272B2 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
US20070180359A1 (en) Method of and apparatus for preparing a document for display or printing
JP2010165272A (en) Information processing method, information processor and program
KR101069278B1 (en) Apparatus and Method for visualization of patent claim
JP2009237885A (en) Document editing device, method, and program
JPH10222510A (en) Document converting method
JPH09282218A (en) Html document book form shaping method and device therefor
JP2005011301A (en) Document processor and document processing program
JP2004334382A (en) Structured document summarizing apparatus, program, and recording medium
JP4018528B2 (en) Document processing apparatus, document processing method, and program
KR20010088529A (en) System and method for editing and formatting electronic document
JP2007219579A (en) Document converter and program
JP7083473B2 (en) Input support device
JP2004303097A (en) Partial document extraction program and partial document extraction method of structured document
JP4013748B2 (en) Document generator
JP2006011549A (en) Structured document conversion device and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120515

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130716

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140304