JPH10240723A

JPH10240723A - ワードプロセッサにおけるｓｇｍｌ文書変換方法

Info

Publication number: JPH10240723A
Application number: JP9045271A
Authority: JP
Inventors: Hiroyuki Yoshida; 博之吉田; Yukie Takita; 幸恵滝田; Toru Takahashi; 亨高橋; Noriyuki Yamazaki; 山崎　　紀之
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-02-28
Filing date: 1997-02-28
Publication date: 1998-09-11

Abstract

(57)【要約】【課題】文書を論理構造に応じて容易に作成できるテン
プレートを使って文書を作成することで、文書によって
見出し記号に違いがある場合でも同じ処理方法でＳＧＭ
Ｌ文書への変換を可能にすることにある。【解決手段】文書型定義データ１０１ａを解析すること
で、構造・スタイルデータ１０２ａを構造・スタイルデ
ータファイル１０２に格納し、スタイル設定データを解
析することで、構造・スタイルデータ１０２ａを構造・
スタイルデータファイル１０２に格納し、前記構造・ス
タイルデータ１０２ａからテンプレート１０５ａを作成
し、スタイル設定データ１０３ａを解析することで、構
造・スタイルデータ１０２ａを構造・スタイルデータフ
ァイル１０２に格納し、文書データ１０７ａを解析する
ことで、変換データ１０８ａを変換データファイル１０
８に格納し、前記構造・スタイルデータａを解析するこ
とで、変換データ１０８ａを変換データファイル１０８
に格納し、変換データ１０８ａを基にマーク付けするこ
とによってＳＧＭＬ文書データ１１０ａを作成するＳＧ
ＭＬ文書変換方法を用いる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】スタイル情報の表示、設定付
テンプレートを搭載したワードプロセッサにおけるＳＧ
ＭＬ文書変換方法に関する。

【０００２】

【従来の技術】現在、文書を構造化文書として作成する
ことによって、レイアウトなどの編集の自動化、電子媒
体書籍の自動作成、ドキュメントデータベースの作成な
ど、文書の二次的な加工を柔軟に行えるようにすること
が普及しつつある。構造化文書は、構造情報を表示する
ための言語を用いて記述されており、文書が共通に持つ
論理構造の定義にしたがって作成される。例えば、ISO
の標準規約であるＳＧＭＬ(Standard Generalized Mark
up Language: 標準一般化マーク付け言語)については、
DTD(Document Type Definition: 文書型定義)と呼ばれ
る文書の論理構造の定義があり、この定義にしたがって
構造化された文書データが作成される。

【０００３】特開平４−１７５９６６号公報のように文
書データを対象に、本文中の章、節、項に対応した1、
1.2、1.2.1のような見出し記号を解析することにより、
木状の文書論理構造を自動的に生成する方法がある。

【０００４】この方法では、文字コードで表された文書
を入力し、文書から見出し及び見出しに対応するの本文
を抽出し、その抽出した見出しから見出し記号を取り出
し、次いで、見出し記号の意味を解析し、これに基づい
て親子関係の階層的構造で表現した文書の論理構造を生
成するものであり、一次元に並んだ文字列で記述された
文書データファイルを階層的な木構造に変換することが
できる。

【０００５】

【発明が解決しようとする課題】しかし従来の方法で
は、例えば文書によって見出し記号に違いがあると、同
じ処理方法で文書の論理構造化を行うことができないと
いう問題がある。

【０００６】本発明の目的は、文書を論理構造に応じて
容易に作成することができるテンプレートを使って文書
を作成することで、文書によって見出し記号に違いがあ
る場合でも同じ処理方法でＳＧＭＬ文書への変換を可能
にし、前記問題を解決することである。

【０００７】

【課題を解決するための手段】前記目的達成のために、
本発明の第１の特徴とするワードプロセッサにおけるＳ
ＧＭＬ文書変換方法は、文書の型を定義した文書型定義
データを解析することで、作成しようとする文書を構成
する章、節などの要素名と文書の先頭から始まる決まり
きった構造と終了タグが必須の要素名を、スタイルデー
タ、文書先頭構造データおよび必須終了タグデータとし
て構造・スタイルデータファイルに格納し、あらかじめ
前記要素名と文書データを作成する時に設定するスタイ
ル名の対応付けがされたスタイル設定データを解析する
ことで、前記要素名に対応するスタイル設定情報をスタ
イルデータとして構造・スタイルデータファイルに格納
し、前記文書先頭構造データをマクロによってテンプレ
ートに入力し、前記スタイルデータをマクロによってテ
ンプレートにスタイル定義することで、文書を作成する
ための雛形であるテンプレートを作成し、前記テンプレ
ートを使って作成された文書データを解析することで、
前記文書データ中に書かれている文字列と本文字列に対
応するスタイル名を本文文字列データ、現スタイル名デ
ータおよび全段落スタイル名データとして変換データフ
ァイルに格納し、前記スタイルデータを解析すること
で、前記スタイル名に対応する要素名を前スタイル名デ
ータとして変換データファイルに格納し、前記文字列に
前記要素名をマーク付けすることによってＳＧＭＬ文書
データを作成するＳＧＭＬ文書変換方法を用いる。

【０００８】

【発明の実施の形態】本発明の一実施例を図を使って具
体的に説明する。図１は本発明のＳＧＭＬ文書変換方法
の概略図であり、文書型定義データファイル１０１、構
造・スタイルデータファイル１０２、スタイル設定デー
タファイル１０３、テンプレート作成部１０４、テンプ
レートファイル１０５、文書データ作成部１０６、文書
データファイル１０７、変換データファイル１０８、Ｓ
ＧＭＬ文書作成処理部１０９、ＳＧＭＬ文書データファ
イル１１０から成る。このうち、テンプレート作成部１
０４は、文書型定義データ解析部１１１、スタイル設定
データ解析部１１２、テンプレート作成部１１３から成
り、ＳＧＭＬ文書作成処理部１０９は文書データ解析部
１１４、構造・スタイルデータ解析部１１５、ＳＧＭＬ
文書データ作成部１１６から成る。

【０００９】この構成において、文書型定義データ解析
部１１１は文書型定義データファイル１０１に格納され
た文書型定義データ１０１ａを解析し、ＳＧＭＬ文書デ
ータの作成に必要な文書構造に関する情報を構造・スタ
イルデータファイル１０２に格納する。

【００１０】スタイル設定データ解析部１１２は、スタ
イル設定データファイル１０３に格納されたスタイル設
定データを解析し、要素名に対応するスタイル設定情報
を構造・スタイルデータファイル１０２に格納する。

【００１１】テンプレート作成部１１３は、構造・スタ
イルデータファイル１０２に格納されている文書先頭構
造データ１０２ｘとスタイルデータ１０２ｙと必須終了
タグデータ１０２ｚを読み出し、文書構造にあったテン
プレート１０５ａを作成し、テンプレートファイル１０
５に格納する。

【００１２】文書データ作成部１０６は、ユーザがテン
プレートファイル１０５に格納されたテンプレート１０
５ａを使って文書を作成する際の処理を司る部分であ
り、ここで作成された文書データ１０７ａは文書データ
ファイル１０７に格納される。

【００１３】文書データ解析部１１４は、文書データフ
ァイル１０７に格納された文書データ１０７ａを解析
し、変換に必要となる文書データの注目している段落の
全段落スタイル名データ１０８ｗと本文文字列データ１
０８ｘとその文字列に設定された現スタイル名データ１
０８ｙを変換データファイル１０８に格納する。

【００１４】構造・スタイルデータ解析部１１５は、構
造・スタイルデータファイル１０２に格納された文書先
頭構造データ１０２ｘとスタイルデータ１０２ｙと必須
終了タグデータ１０２ｚを解析し、現スタイル名データ
１０８ｙに対応するスタイル対応要素名データ１０８ｚ
を変換データファイル１０８に格納する。

【００１５】ＳＧＭＬ文書データ作成部１１６は、変換
データファイル１０８に格納されている全段落スタイル
名データ１０８ｗと本文文字列データ１０８ｘと現スタ
イル名データ１０８ｙと前スタイル名データ１０８ｚを
抽出し、文字列にマーク付けしたデータを作成し、これ
を繰り返すことによってＳＧＭＬ文書データ１１０ａを
作成し、それをＳＧＭＬ文書データファイル１１０に格
納する。

【００１６】次に、文書型定義データ解析部１１１にお
ける文書の構造に関する情報を解析、抽出、格納する動
作について図２で説明する。

【００１７】まず、ステップ２０１で文書型定義データ
１０１ａから文書の論理構造を宣言している要素宣言の
キーワードを検索する。そして、ステップ２０２で検索
された要素宣言のキーワードの次に出現するトークンを
抽出する。トークンとは、指定された文字種で構成され
ている文字列のことである。抽出されたトークンが、も
しエンティティ名だったら、ステップ２１４のエンティ
ティ展開部を実行し、エンティティ名ではなく要素名だ
ったら、ステップ２１５の要素情報抽出部を実行する。
エンティティ名とは、複数のトークンを1つのトークン
として表現している名前のことである。

【００１８】ステップ２１４(エンティティ展開部)を詳
しく説明すると、ステップ２０４で文字列の置換を宣言
するエンティティ宣言のキーワードを検索する。ステッ
プ２０５で上記エンティティ宣言のキーワードの次に出
現するトークンを抽出する。抽出されたトークンが、展
開しようとしているエンティティ名だったら、ステップ
２０７でそのエンティティ宣言に定義されているエンテ
ィティ名で表された実際の実体内容から名前を抽出す
る。

【００１９】ステップ２１５(要素情報抽出部)を詳しく
説明すると、ステップ２０８で要素名を構造・スタイル
データファイル１０２に格納する。文書型定義データ１
０１ａの中の要素名の次に出現するトークンはタグ省略
定義であり、終了タグが省略できないように定義されて
いる場合は、それに対応するスタイル名を作成する必要
がある。したがって、終了タグが必須の要素名ならば、
ステップ２１０で終了タグ必須の要素名として、構造・
スタイルデータファイル１０２に格納する。ステップ２
１１で、ステップ２１４におけるエンティティ名をすべ
て要素名に展開し終わるまでステップ２１４又はステッ
プ２１５を繰り返す。ステップ２１２で、ステップ２０
１の要素宣言の検索がすべて終了するまで上述した処理
を繰り返す。最後に、ステップ２１３で、文書先頭構造
データ１０２ｘの抽出と格納を行う。

【００２０】ステップ２１３を図３で詳しく説明する
と、ステップ２１６で文書型宣言キーワードを検索す
る。ステップ２１７で上記文書型宣言キーワードの次に
出現するトークンを抽出する。この抽出されたトークン
が文書構造の先頭に出現する要素名であり、その要素名
から始まる、決まりきった構造を抽出する。ステップ２
１８でエレメント宣言キーワードを検索する。抽出され
たトークンが文書構造の先頭に出現する要素名となるま
で、ステップ２１８とステップ２１９を繰り返す。ステ
ップ２２１で文書構造の先頭に出現する要素名の内容モ
デルから、文書構造を辿って行く。ステップ２２２で、
終了タグが必須となる要素名を取り出し、その要素の内
容が文字データからできているかどうか内容モデルを調
べ、文字データからなる終了タグ必須の要素名を構造・
スタイルデータファイル１０２に格納する。ステップ２
２３で、辿った要素の次に現れる要素が不明確な場合、
ステップ２２４でそれまで辿っていった要素名を文書先
頭構造情報として構造・スタイルデータファイル１０２
に格納する。

【００２１】文書型定義データ１０１ａと解析後の文書
先頭構造データ１０２ｘ、スタイルデータ１０２ｙおよ
び必須終了タグデータ１０２ｚの具体例を図４を用いて
説明する。

【００２２】“ＤＯＣＴＹＰＥ”３０３は文書型宣言を
表すキーワードであり、３０４はＳＧＭＬ文書の先頭に
出現する要素名である。“ＥＮＴＩＴＹ”３０５はエン
ティティ宣言を表すキーワードであり、３０６はエンテ
ィティ名であり、文書の列や外部ファイルを文書から参
照するための名前を示す。

【００２３】このエンティティ名３０６は、その実体内
容３０７の置換テキストに変換される。例えば、３２９
は３０７の文字列に置換される。“ＥＬＥＭＥＮＴ”３
０８は要素宣言を表すキーワードであり、３０９が要素
名であり、ＳＧＭＬ文書におけるタグ名となる。タグ名
とは、テキストの中で使用される論理要素の種類を識別
するための名前であり、その名前を使ったタグを文書中
に挿入することによって、論理要素の始めと終りを識別
するのに使われる各要素の始めは、通常開始タグでマー
ク付けされ、要素の終りが文書の構造上明確に決まらな
い場合には終了タグでマーク付けされる。３１０は、タ
グ省略定義であり、タグが省略できるかどうか定義する
部分である。１文字目が開始タグの省略、２文字目が終
了タグの省略についての定義であり、その内容が“○”
の場合は省略可能で、“−”の場合は省略不可能を示
す。３１１は内容モデルであり、要素名３０９に組み込
み可能なサブ要素の定義やその出現順序や反復回数とい
った定義を行う。その定義の仕方について、詳しく説明
すると、“，”３１４は結合子であり、指定された順序
に現れなければならないことを表す。例えば内容モデル
３１１の場合は、manual３０９という要素の中にサブ要
素としてfront３１２が出現し、その次にbody３１３、b
ack３３９と出現することを定義している。“｜”３３
２も結合子であり、この結合子で結ばれた要素のうち１
個の要素しか出現しないことを表す。“＋”３２０は出
現標識であり、s1が1回以上出現することを表す。
“＊”３２８も出現標識であり、pが0回以上出現するこ
とを表す。また、“＃PCDATA”３２２は、文字データを
含むことを表す。

【００２４】要素名の検索を行う場合、“ＥＬＥＭＥＮ
Ｔ”３０８をキーとして検索し、manual３０９の部分を
要素名として取り出す。もし、要素名が“%st”３２９
のようなエンティティ名であった場合は、“ＥＮＴＩＴ
Ｙ”３０５と“%st”３２９をキーとして検索し、その
置換テキスト３０７から名前を抽出する。もし、この置
換テキスト中にもエンティティ名が含まれていた場合も
同様の処理を行い、エンティティ名が無くなったら、要
素名をスタイルデータ１０２ｙとして構造・スタイルデ
ータファイル１０２に格納する。そして、終了タグ必須
の要素名の抽出は、要素宣言のタグ省略定義３１０の2
文字目が“−”、つまり、終了タグが省略不可の要素名
を抽出し、必須終了タグデータ１０２ｚとして構造・ス
タイルデータファイル１０２に格納する。この場合、em
ph３３８が、またemph３３８の内容モデルが“ＰＣＤＡ
ＴＡ”３３９なので、それが分かるように(pcdata)とい
う文字列を付けて必須終了タグデータ１０２ｚとして構
造・スタイルデータファイル１０２に格納する。

【００２５】次に文書先頭構造情報の抽出は、まず“Ｄ
ＯＣＴＹＰＥ”３０３をキーとして検索しmanual３０４
のＳＧＭＬ文書の一番先頭に現れる要素名を取り出す。
具体的には、文書の一番先頭に現れる要素を見つけるた
めに“ＤＯＣＴＹＰＥ”３０３をキーにして検索し、ma
nual３０４を取り出す。そして、そのmanual３０４の要
素宣言内の内容モデル３１１を解析しながら構造を辿っ
ていき、文書先頭構造情報を取り出す。すなわち、manu
al３０９の次に現れる要素を探すため、ｍａｎｕａｌ３
０９を文書先頭構造データ１０２ｘに格納し、ｍａｎｕ
ａｌ３０９の要素宣言の内容モデル３１１を調べる。す
ると、次に必ず出現する要素はfront３１２であること
が分かる。そして、front３１２の次に現れる要素を探
すため、front３１２を文書先頭構造データ１０２ｘに
格納し、front３１２の要素宣言の内容モデルを調べ
る。すると、次に必ず出現する要素はt３１６であるこ
とが分かる。そして、t３１６の次に現れる要素を探す
ためt３１６の要素宣言の内容モデルを調べる。する
と、t３２１は文字データ(#PCDATA)３２２であることが
分かり、ここでt３２１を文字データであることが分か
るように(pcdata)という文字列を付けて文書先頭構造デ
ータ１０２ｘに格納する。t３２１のサブ要素は存在し
ないので、front３１５の要素宣言の内容モデルに戻り
調べ直す。すると、次に必ず出現する要素はauthor３１
７だと分かる。

【００２６】そして、author３１７の次に現れる要素を
探すため、author３１７の要素宣言の内容モデルを調べ
る。すると、author３２３は文字データ(#PCDATA)３２
４であることが分かり、ここでauthor３１７が文字デー
タであることが分かるように(pcdata)という文字列を付
けて文書先頭構造データ１０２ｘに格納する。author３
２３のサブ要素は存在しないので、front３１５の要素
宣言の内容モデルに戻り調べ直す。すると、front３１
５のサブ要素はもう存在しないので、manual３０９の要
素宣言に戻り、front３１２の次に出現する要素を調べ
直す。すると、次に必ず出現する要素はbody３１３であ
ることが分かる。そして、body３１３の次に現れる要素
を探すため、body３１３を文書先頭構造データ１０２ｘ
に格納し、body３１８の要素宣言の内容モデルを調べ
る。すると、次に必ず出現する要素はh0３１９であるこ
とが分かる。そして、h0３１９の次に現れる要素を探す
ため、h0３１９を文書先頭構造データ１０２ｘに格納
し、h0３２５の要素宣言の内容モデルを調べる。する
と、次に必ず出現する要素はh0t３２６であることが分
かる。そして、h0t３２６の次に現れる要素を探すた
め、h0t３２６の要素宣言の内容モデルを調べる。する
と、h0t３２６は文字データ３３７であることが分か
り、ここでh0t３２６が文字データであることが分かる
ように(pcdata)という文字列を付けて文書先頭構造デー
タ１０２ｘに格納する。h0t３２６のサブ要素は存在し
ないので、h0３２５の要素宣言の内容モデルに戻り調べ
直す。すると、次に必ず出現する要素はp３２７だと分
かる。そして、p３２７の次に現れる要素を探すため、p
３３０の要素宣言の内容モデルを調べる。すると、次に
出現するのは、文字データ３３１なのか、emph３３３要
素なのか、分からない。つまり、この先の文書構造がど
うなるかが分からない。

【００２７】したがって、ここまで辿ってきた要素が文
書先頭構造情報ということになる。

【００２８】次に、スタイル設定データ解析部１１２に
おけるスタイル設定データ１０３ａを解析、抽出、格納
する動作について図５で説明する。まず、ステップ４０
１で構造・スタイルデータファイル１０２にスタイルデ
ータとして格納されている要素名を取り出す。ステップ
４０２で全ての要素名に対して検索が終わるまでステッ
プ４０３、ステップ４０４、ステップ４０１の処理を繰
り返す。ステップ４０３ではステップ４０１で取り出さ
れた要素名をキーにしてスタイル設定データ１０３ａか
ら検索を行い、ステップ４０４で検索結果のスタイル名
を要素名の代わりに格納し、スタイル情報も構造・スタ
イルデータファイル１０２に格納する。詳しく説明する
と、ステップ４０１で、構造・スタイルデータファイル
１０２に格納されている要素名とは、図４のスタイルデ
ータ１０２ｙに格納されている要素名であり、その要素
名をスタイル名に変換するために、スタイル設定データ
１０３ａからそれぞれの要素名に対応するスタイル名を
含むスタイルデータ１０２ｙを構造・スタイルデータフ
ァイル１０２に格納する。

【００２９】次に、スタイル設定データ１０３ａと解析
前後の文書先頭構造データ１０２ｘ、スタイルデータ１
０２ｙおよび必須終了タグデータ１０２ｚの具体例を図
６を用いて説明する。５０１はスタイル設定データの具
体例である。５０３が要素名部であり、５０４がそれに
対応するスタイル名部である。そのスタイル名部５０４
の設定値はスタイル部５０５、フォント部５０６、サイ
ズ部５０７、段落配置部５０８で構成される。５１０は
スタイル設定データ解析処理後の構造・スタイルデータ
ファイル１０２のスタイルデータの具体例であり、５１
１には要素名５１１ａとスタイル名５１１ｂとそのスタ
イル情報５１１ｃが格納されている。例えば、スタイル
データ１０２ｙからt５０２を取り出す。そして、その
ｔ５０２をキーにして、スタイル設定データ５０１の要
素名部５０３から検索する。この場合、５０９の位置で
一致するので、その行の内容をスタイルデータ１０２ｙ
の検索キーであったｔ５０２の代わりに格納する。そし
て、最終的には処理前のスタイルデータ１０２ｙは、ス
タイル設定データ解析後に５１０のような内容になる。

【００３０】文書作成前のテンプレートのウィンドウ画
面とそれを使って作成された文書のウィンドウ画面の具
体例を図７に示す。６０１はテンプレートであり、ユー
ザが文書データを作成するための雛形であり、スタイル
情報が定義されたスタイル名をあらかじめ登録しておく
ためのものである。このテンプレートを利用することに
より効率よく出来うｒ効率よく文書データを作成できる
ようになる。そのテンプレートに登録されたスタイル名
は、６０３の登録スタイル名表示部に表示される。６０
４は文字列情報入力表示部であり、文書データの本文の
文字列を表示する部分である。６０５は設定スタイル表
示部であり、文字列情報入力表示部６０４に入力された
テキストに対して設定されているスタイル名を表示す
る。

【００３１】具体的な説明をすると、６０４、６０５に
すでに表示されている情報については、テンプレート作
成部において、文書先頭構造データ１０２ｘを基に、マ
クロによって決まりきった構造をあらかじめ入力した状
態にしている。つまり、ユーザが文書作成時に行う作業
をあらかじめ入力しておくことで文書データ作成の効率
化を図る。文書を作成する場合は、文字列情報入力表示
部６０４に本文の文字列を入力して、その文字列に対し
て登録スタイル名表示部６０３に表示してあるスタイル
名を設定しながら文書データを作成する。６０２は、テ
ンプレート６０１を利用して作成された文書データの一
例である。

【００３２】次に、文書データファイル１０７において
変換に必要な情報を文書データ１０７ａから抽出し、変
換データファイル１０８に格納する動作について図８で
説明する。ステップ７０１で、文書データの終わりが来
るまでステップ７０２からステップ７１０を繰り返す。
まず、ステップ７０２で文書データの1つの段落を取り
出す。ステップ７０３でその段落全体のスタイル名であ
る全段落スタイル名を抽出し、全段落スタイル名データ
として変換データファイル１０８に格納する。ステップ
７０４ではステップ７０２で取り出された段落が最後の
ものなら終了で、そうでなかったら以下の処理を行う。
すなわち、ステップ７０５で、段落の最初の文字のスタ
イル名を抽出する。ステップ７０６で、現スタイル名と
前スタイル名が違ったら、ステップ７０７でそれまでに
スタイルをチェックしてきた本文文字列とその文字列に
対するスタイル名である現スタイル名を取り出し、変換
データファイル１０８に格納する。現スタイル名とは、
現在着目している段落中の文字のスタイル名であり、前
スタイル名とは、段落全体のスタイル名または1文字手
前のスタイル名である。ステップ７０８で、スタイルデ
ータ１０２ｙから要素名とスタイル名の対応付け情報を
抽出、格納し、ステップ７０９で変換データファイル１
０８の情報から、1段落ずつＳＧＭＬ文書を作成してい
く。

【００３３】最後に、ステップ７１０で現スタイル名と
前スタイル名を比較して、違っていたらそれまでにスタ
イル名をチェックしてきた文字列とその文字列に対する
スタイル名である前スタイル名を取り出し、変換データ
ファイル１０８に格納する。

【００３４】文書データと文書データ解析時の全段落ス
タイル名データ１０８ｗ、本文文字列データ１０８ｘ、
現スタイル名データ１０８ｙ、前スタイル名データ１０
８ｚの具体例を図９を用いて説明する。８０１は、文書
データの一部であり、これを解析して全段落スタイル名
と本文文字列と現スタイル名と前スタイル名が抽出され
る。８０２は文書データ解析後の変換データの具体例で
あり、文書データ８０１から抽出された変換データをこ
こに格納する。

【００３５】まず、文書データ８０１の中から1つの段
落だけに注目し、その段落中の1文字ずつのスタイル名
を取得していく。例えば、８０７の段落に着目した場合
を考える。８０７の段落の全体に設定されているスタイ
ル名は「段落」であり、“マニュアル”８０８に設定さ
れているスタイル名が「強調」だったとする。

【００３６】具体的な処理の流れを説明すると、まず段
落全体のスタイル名を取得し、そのスタイル名を全段落
スタイル名データ８１４と前スタイル名データ８１６と
現スタイル名データ８１５として変換データファイル８
０２に格納する。この変換データ８０３を使って後述す
る方法に従ってＳＧＭＬ文書データを作成する。次に段
落の最初の文字である“こ”８１０のスタイル名を取得
し、現スタイル名データ８１６として変換データファイ
ル８０２に格納する。そして、現スタイル名データ８１
６と前スタイル名データ８１５を比較して、同じスタイ
ルだったら次の文字に対しても同様の処理を行う。この
場合、変換データ８０３は、現スタイル名データ８１６
と前スタイル名データ８１５が「段落」であり、同じス
タイル名なので、次々と先の文字に進み、“マ”８１１
のスタイル名を取得し、現スタイル名データ１０８ｙと
して変換データファイル１０８に格納する。この場合、
“マ”８１１のスタイル名は「強調」であり、そのスタ
イル名を現スタイル名データ８２０として変換データフ
ァイル８０４に格納する。この場合、変換データファイ
ル８０４は、現スタイル名データ８２０が「強調」で前
スタイル名データ８１９が「段落」であり、同じスタイ
ル名ではないので、それまでにスタイル名を取得してき
た文字列“これは”を本文文字列データ８２１として変
換データファイル８０４に格納する。そして、現スタイ
ル名データ８２０である「強調」を前スタイル名データ
８２３として変換データファイル８０５に格納する。こ
のような、文字列のスタイル名の変化または段落の最初
と最後のタイミングでその時の変換データ８０２の内容
からＳＧＭＬ文書データの一部分を作成していく。その
後“で”８１２のスタイル名を取得するまで現スタイル
名と前スタイル名は「強調」であり、ＳＧＭＬ文書の作
成はその間行われない。“で”８１２のスタイル名は
「段落」であり、そのスタイル名を現スタイル名データ
８２４として変換データファイル８０５に格納する。こ
の場合、変換データファイル８０５は、現スタイル名デ
ータ８２４が「段落」で前スタイル名データ８２３が
「強調」であり、同じスタイル名ではないので、それま
でにスタイル名を取得してきた文字列“マニュアル”を
本文文字列データ８２５として変換データファイル８０
５に格納する。そして、現スタイル名データ８２４であ
る「段落」を前スタイル名データ８２７として変換デー
タファイル８０６に格納する。その後、段落の終了を表
す記号“¶”８１３が出現するまで現スタイル名と前ス
タイル名は「段落」なので、その間ＳＧＭＬ文書の作成
は行われない。

【００３７】段落の終了を表す記号“¶”８１３が出現
したら、それまでにスタイル名を取得してきた文字列
“です。”を本文文字列データ８２９として変換データ
ファイル８０６に格納する。これで１つの段落について
ＳＧＭＬ文書への変換が終り、この処理を文書内で段落
が無くなるまで繰り返し行う。

【００３８】次に、構造・スタイルデータ解析部におい
てスタイル名と要素名の対応を構造・スタイルデータフ
ァイル１０２から抽出し、変換データファイル１０９に
格納する動作について図１０で説明する。ステップ９０
１で、文書データに対する最初の処理であったら、ステ
ップ９０２で文書先頭構造データ１０２ｘを変換データ
ファイルに１０９に格納する。ステップ９０３で構造・
スタイルデータ１０２ａから全段落スタイル名を検索
し、ステップ９０４で一致した名前のひとつ前に出現す
るトークンを変換データの全段落スタイル名と入れ替え
る。ステップ９０５で、構造・スタイルデータ１０２ａ
から前スタイル名を検索し、ステップ９０６で検索し、
一致した名前のひとつ前のトークンを変換データの現ス
タイル名と入れ替える。

【００３９】文書先頭構造データ１０２ｘ、スタイルデ
ータ１０２ｙおよび必須終了タグデータ１０２ｚと構造
・スタイルデータ解析前後の本文文字列データ１０８
ｘ、スタイル名データ１０８ｙおよびスタイル対応要素
名データ１０８ｚの具体例を図１１を用いて説明する。
１００１は構造・スタイルデータ解析前の変換データで
あり、１００４が構造・スタイルデータ解析後の変換デ
ータである。５１０が解析される構造・スタイルデータ
１０２ａの例である。図９において、“で”８１２の文
字に着目している場合について、まず、全段落スタイル
名である段落１００２をキーにして構造・スタイルデー
タ５１０を検索し、一致したもののひとつ前に出現する
トークンと全段落スタイル名を入れ替える。次に全段落
スタイル名にやったのと同様に、前スタイル名を構造・
スタイルデータ５１０を検索し、一致したもののひとつ
前に出現するトークンと全段落スタイル名を入れ替え
る。つまり、前スタイル名データが本文文字列データの
スタイル、つまり、包含されるタグ名に相当する要素名
を前スタイル名データとして格納する。

【００４０】次に、ＳＧＭＬ文書データ作成部において
変換データからＳＧＭＬ文書データを作成する処理内容
について図１２で説明する。ステップ１１０１で文書デ
ータに対して最初の処理であったら、ステップ１１０２
で文書先頭構造データ１０２ｘの各要素名をタグ化し、
ＳＧＭＬ文書データファイルに格納する。ステップ１１
０３で段落についての最初の処理だったらステップ１１
０４で構造・スタイルデータから全段落スタイル名を抽
出し、ＳＧＭＬ文書データファイルに格納する。もし、
ステップ１１０３で段落についての最初の処理でない場
合は、ステップ１１０５で全段落スタイル名と前段落ス
タイル名が同じでなかったら、ステップ１１０６で変換
データの前スタイル名をＳＧＭＬ文書データファイルに
格納する。その後、ステップ１１０７で、変換データの
本文文字列をＳＧＭＬ文書データに格納する。もし、前
スタイル名に終了タグが必要な場合は、ステップ１１０
９でその前スタイル名に対応する終了タグをＳＧＭＬ文
書データファイルに格納する。

【００４１】次に、ＳＧＭＬ文書作成処理部１０９によ
って作成されたＳＧＭＬ文書データの具体例を図１３を
用いて説明する。１２０１はＳＧＭＬ文書作成処理部１
０９によって作成されたＳＧＭＬ文書データの例であ
る。ＳＧＭＬタグ１２０２は文書先頭構造データからマ
クロによってＳＧＭＬ文書データファイルに格納したも
のであり、変換データ８０３の状態で変換処理され、ス
テップ１１０２の処理によって生成されたものである。
ＳＧＭＬタグ１２０３は全段落スタイル名に対応するタ
グをＳＧＭＬ文書データファイルに格納したものであ
り、変換データ８０４の状態で変換処理され、ステップ
１１０４の処理によって生成されたものである。１２０
４は本文文字列８２１をＳＧＭＬ文書データファイルに
格納したものであり、変換データ８０４の状態で変換処
理され、ステップ１１０７の処理によって生成されたも
のである。ＳＧＭＬタグ１２０５は、前スタイル名をＳ
ＧＭＬ文書データファイルに格納したものであり、変換
データ８０５の状態で変換処理され、ステップ１１０６
の処理によって生成されたものである。１２０６は本文
文字列８２５をＳＧＭＬ文書データファイルに格納した
ものであり、変換データ８０５の状態で変換処理され、
ステップ１１０７の処理によって生成されたものであ
る。ＳＧＭＬタグ１２０７は終了タグをＳＧＭＬ文書デ
ータファイルに格納したものであり、変換データ８０５
の状態で変換処理され、ステップ１１０９の処理によっ
て生成されたものである。１２０８は、本文文字列８２
９をＳＧＭＬ文書データファイルに格納したものであ
り、変換データ８０６の状態で変換処理され、ステップ
１１０７の処理によって生成されたものである。

【００４２】

【発明の効果】以上、実施例で具体的に説明したよう
に、本発明のワードプロセッサにおけるＳＧＭＬ文書変
換方法によれば、文書を作成しようとする場合、その文
書構造を規定する文書型定義データの内容に基づいて作
成されたテンプレートを用いて文書の作成を行えば、文
書毎に発生する文書固有の変換処理を行う必要がなく、
どんな文書でも同じ処理方法でＳＧＭＬ文書に変換する
ことが可能となる。

【図面の簡単な説明】

【図１】本発明のＳＧＭＬ文書変換方法の概略図であ
る。

【図２】文書の構造に関する情報を解析、抽出、格納す
る手順を表すフローチャートである。

【図３】文書先頭構造情報を抽出、格納する手順を表す
フローチャートである。

【図４】文書型定義データと解析後の文書先頭構造デー
タ、スタイルデータｙおよび必須終了タグデータの具体
例を示す図である。

【図５】スタイル情報を解析、抽出、格納する動作を表
すフロ―チャートである。

【図６】スタイル設定データと解析前後の文書先頭構造
データ、スタイルデータおよび必須終了タグデータの具
体例を示す図である。

【図７】文書作成前のテンプレートのウィンドウ画面と
それを使って作成された文書のウィンドウ画面の具体例
を示す図である。

【図８】変換に必要な情報を文書データから抽出し、変
換データファイルに格納する手順を表すフローチャート
である。

【図９】文書データと文書データ解析時の変換データの
具体例を示す図である。

【図１０】スタイル名と要素名の対応を構造・スタイル
データファイルから抽出し、変換データファイルに格納
する手順を表すフローチャートである。

【図１１】文書先頭構造データ、スタイルデータおよび
必須終了タグデータと構造・スタイルデータ解析前後の
本文文字列データ、スタイル名データおよびスタイル対
応要素名データの具体例を示す図である。

【図１２】ＳＧＭＬ文書データを手順を表すフローチャ
ートである。

【図１３】ＳＧＭＬ文書データ作成部によって作成され
たＳＧＭＬ文書データの具体例を示す図である。

【符号の説明】

１０１…文書型定義データファイル、１０２…構造・ス
タイルデータファイル、１０３…スタイル設定データフ
ァイル、１０４…テンプレート作成部、１０５…
テンプレートファイル、１０６…文書データ作成部、
１０７…文書ファイル、１０８…変換データファ
イル、１０９…ＳＧＭＬ文書作成処理部、１１０
…ＳＧＭＬ文書データファイル。

───────────────────────────────────────────────────── フロントページの続き (72)発明者山崎紀之神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内

Claims

【特許請求の範囲】

【請求項１】文書の型を定義した文書型定義データを解
析することで、作成しようとする文書を構成する章、節
などの要素名と文書の先頭から始まる決まりきった構造
と終了タグが必須の要素名を、スタイルデータ、文書先
頭構造データおよび必須終了タグデータとして構造・ス
タイルデータファイルに格納し、あらかじめ前記要素名と文書データを作成する時に設定
するスタイル名の対応付けがされたスタイル設定データ
を解析することで、前記要素名に対応するスタイル設定
情報をスタイルデータとして構造・スタイルデータファ
イルに格納し、前記文書先頭構造データをマクロによってテンプレート
に入力し、前記スタイルデータをマクロによってテンプ
レートにスタイル定義することで、文書を作成するため
の雛形であるテンプレートを作成し、前記テンプレートを使って作成された文書データを解析
することで、前記文書データ中に書かれている文字列と
本文字列に対応するスタイル名を本文文字列データ、現
スタイル名データおよび全段落スタイル名データとして
変換データファイルに格納し、前記スタイルデータを解析することで、前記スタイル名
に対応する要素名をスタイル対応要素名データとして変
換データファイルに格納し、前記文字列に前記要素名をマーク付けすることによって
ＳＧＭＬ文書データを作成することを特徴とするワード
プロセッサにおけるＳＧＭＬ文書変換方法。
【請求項２】請求項１記載のＳＧＭＬ文書変換方法にお
いて、スタイル設定データ中の要素名およびスタイル名
によって変換の対応付けを行うことを特徴とするＳＧＭ
Ｌ文書変換方法。
【請求項３】請求項１記載のＳＧＭＬ文書変換方法にお
いて、文書型定義データ中の要素名および構造情報とス
タイル設定データから、文書を論理構造に応じて容易に
作成することができるテンプレートを作成することを特
徴とするＳＧＭＬ文書変換方法。