JPH10240723A - ワードプロセッサにおけるsgml文書変換方法 - Google Patents

ワードプロセッサにおけるsgml文書変換方法

Info

Publication number
JPH10240723A
JPH10240723A JP9045271A JP4527197A JPH10240723A JP H10240723 A JPH10240723 A JP H10240723A JP 9045271 A JP9045271 A JP 9045271A JP 4527197 A JP4527197 A JP 4527197A JP H10240723 A JPH10240723 A JP H10240723A
Authority
JP
Japan
Prior art keywords
data
style
document
name
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9045271A
Other languages
English (en)
Inventor
Hiroyuki Yoshida
博之 吉田
Yukie Takita
幸恵 滝田
Toru Takahashi
亨 高橋
Noriyuki Yamazaki
山崎  紀之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP9045271A priority Critical patent/JPH10240723A/ja
Publication of JPH10240723A publication Critical patent/JPH10240723A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】文書を論理構造に応じて容易に作成できるテン
プレートを使って文書を作成することで、文書によって
見出し記号に違いがある場合でも同じ処理方法でSGM
L文書への変換を可能にすることにある。 【解決手段】文書型定義データ101aを解析すること
で、構造・スタイルデータ102aを構造・スタイルデ
ータファイル102に格納し、スタイル設定データを解
析することで、構造・スタイルデータ102aを構造・
スタイルデータファイル102に格納し、前記構造・ス
タイルデータ102aからテンプレート105aを作成
し、スタイル設定データ103aを解析することで、構
造・スタイルデータ102aを構造・スタイルデータフ
ァイル102に格納し、文書データ107aを解析する
ことで、変換データ108aを変換データファイル10
8に格納し、前記構造・スタイルデータaを解析するこ
とで、変換データ108aを変換データファイル108
に格納し、変換データ108aを基にマーク付けするこ
とによってSGML文書データ110aを作成するSG
ML文書変換方法を用いる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】スタイル情報の表示、設定付
テンプレートを搭載したワードプロセッサにおけるSG
ML文書変換方法に関する。
【0002】
【従来の技術】現在、文書を構造化文書として作成する
ことによって、レイアウトなどの編集の自動化、電子媒
体書籍の自動作成、ドキュメントデータベースの作成な
ど、文書の二次的な加工を柔軟に行えるようにすること
が普及しつつある。構造化文書は、構造情報を表示する
ための言語を用いて記述されており、文書が共通に持つ
論理構造の定義にしたがって作成される。例えば、ISO
の標準規約であるSGML(Standard Generalized Mark
up Language: 標準一般化マーク付け言語)については、
DTD(Document Type Definition: 文書型定義)と呼ばれ
る文書の論理構造の定義があり、この定義にしたがって
構造化された文書データが作成される。
【0003】特開平4−175966号公報のように文
書データを対象に、本文中の章、節、項に対応した1、
1.2、1.2.1のような見出し記号を解析することにより、
木状の文書論理構造を自動的に生成する方法がある。
【0004】この方法では、文字コードで表された文書
を入力し、文書から見出し及び見出しに対応するの本文
を抽出し、その抽出した見出しから見出し記号を取り出
し、次いで、見出し記号の意味を解析し、これに基づい
て親子関係の階層的構造で表現した文書の論理構造を生
成するものであり、一次元に並んだ文字列で記述された
文書データファイルを階層的な木構造に変換することが
できる。
【0005】
【発明が解決しようとする課題】しかし従来の方法で
は、例えば文書によって見出し記号に違いがあると、同
じ処理方法で文書の論理構造化を行うことができないと
いう問題がある。
【0006】本発明の目的は、文書を論理構造に応じて
容易に作成することができるテンプレートを使って文書
を作成することで、文書によって見出し記号に違いがあ
る場合でも同じ処理方法でSGML文書への変換を可能
にし、前記問題を解決することである。
【0007】
【課題を解決するための手段】前記目的達成のために、
本発明の第1の特徴とするワードプロセッサにおけるS
GML文書変換方法は、文書の型を定義した文書型定義
データを解析することで、作成しようとする文書を構成
する章、節などの要素名と文書の先頭から始まる決まり
きった構造と終了タグが必須の要素名を、スタイルデー
タ、文書先頭構造データおよび必須終了タグデータとし
て構造・スタイルデータファイルに格納し、あらかじめ
前記要素名と文書データを作成する時に設定するスタイ
ル名の対応付けがされたスタイル設定データを解析する
ことで、前記要素名に対応するスタイル設定情報をスタ
イルデータとして構造・スタイルデータファイルに格納
し、前記文書先頭構造データをマクロによってテンプレ
ートに入力し、前記スタイルデータをマクロによってテ
ンプレートにスタイル定義することで、文書を作成する
ための雛形であるテンプレートを作成し、前記テンプレ
ートを使って作成された文書データを解析することで、
前記文書データ中に書かれている文字列と本文字列に対
応するスタイル名を本文文字列データ、現スタイル名デ
ータおよび全段落スタイル名データとして変換データフ
ァイルに格納し、前記スタイルデータを解析すること
で、前記スタイル名に対応する要素名を前スタイル名デ
ータとして変換データファイルに格納し、前記文字列に
前記要素名をマーク付けすることによってSGML文書
データを作成するSGML文書変換方法を用いる。
【0008】
【発明の実施の形態】本発明の一実施例を図を使って具
体的に説明する。図1は本発明のSGML文書変換方法
の概略図であり、文書型定義データファイル101、構
造・スタイルデータファイル102、スタイル設定デー
タファイル103、テンプレート作成部104、テンプ
レートファイル105、文書データ作成部106、文書
データファイル107、変換データファイル108、S
GML文書作成処理部109、SGML文書データファ
イル110から成る。このうち、テンプレート作成部1
04は、文書型定義データ解析部111、スタイル設定
データ解析部112、テンプレート作成部113から成
り、SGML文書作成処理部109は文書データ解析部
114、構造・スタイルデータ解析部115、SGML
文書データ作成部116から成る。
【0009】この構成において、文書型定義データ解析
部111は文書型定義データファイル101に格納され
た文書型定義データ101aを解析し、SGML文書デ
ータの作成に必要な文書構造に関する情報を構造・スタ
イルデータファイル102に格納する。
【0010】スタイル設定データ解析部112は、スタ
イル設定データファイル103に格納されたスタイル設
定データを解析し、要素名に対応するスタイル設定情報
を構造・スタイルデータファイル102に格納する。
【0011】テンプレート作成部113は、構造・スタ
イルデータファイル102に格納されている文書先頭構
造データ102xとスタイルデータ102yと必須終了
タグデータ102zを読み出し、文書構造にあったテン
プレート105aを作成し、テンプレートファイル10
5に格納する。
【0012】文書データ作成部106は、ユーザがテン
プレートファイル105に格納されたテンプレート10
5aを使って文書を作成する際の処理を司る部分であ
り、ここで作成された文書データ107aは文書データ
ファイル107に格納される。
【0013】文書データ解析部114は、文書データフ
ァイル107に格納された文書データ107aを解析
し、変換に必要となる文書データの注目している段落の
全段落スタイル名データ108wと本文文字列データ1
08xとその文字列に設定された現スタイル名データ1
08yを変換データファイル108に格納する。
【0014】構造・スタイルデータ解析部115は、構
造・スタイルデータファイル102に格納された文書先
頭構造データ102xとスタイルデータ102yと必須
終了タグデータ102zを解析し、現スタイル名データ
108yに対応するスタイル対応要素名データ108z
を変換データファイル108に格納する。
【0015】SGML文書データ作成部116は、変換
データファイル108に格納されている全段落スタイル
名データ108wと本文文字列データ108xと現スタ
イル名データ108yと前スタイル名データ108zを
抽出し、文字列にマーク付けしたデータを作成し、これ
を繰り返すことによってSGML文書データ110aを
作成し、それをSGML文書データファイル110に格
納する。
【0016】次に、文書型定義データ解析部111にお
ける文書の構造に関する情報を解析、抽出、格納する動
作について図2で説明する。
【0017】まず、ステップ201で文書型定義データ
101aから文書の論理構造を宣言している要素宣言の
キーワードを検索する。そして、ステップ202で検索
された要素宣言のキーワードの次に出現するトークンを
抽出する。トークンとは、指定された文字種で構成され
ている文字列のことである。抽出されたトークンが、も
しエンティティ名だったら、ステップ214のエンティ
ティ展開部を実行し、エンティティ名ではなく要素名だ
ったら、ステップ215の要素情報抽出部を実行する。
エンティティ名とは、複数のトークンを1つのトークン
として表現している名前のことである。
【0018】ステップ214(エンティティ展開部)を詳
しく説明すると、ステップ204で文字列の置換を宣言
するエンティティ宣言のキーワードを検索する。ステッ
プ205で上記エンティティ宣言のキーワードの次に出
現するトークンを抽出する。抽出されたトークンが、展
開しようとしているエンティティ名だったら、ステップ
207でそのエンティティ宣言に定義されているエンテ
ィティ名で表された実際の実体内容から名前を抽出す
る。
【0019】ステップ215(要素情報抽出部)を詳しく
説明すると、ステップ208で要素名を構造・スタイル
データファイル102に格納する。文書型定義データ1
01aの中の要素名の次に出現するトークンはタグ省略
定義であり、終了タグが省略できないように定義されて
いる場合は、それに対応するスタイル名を作成する必要
がある。したがって、終了タグが必須の要素名ならば、
ステップ210で終了タグ必須の要素名として、構造・
スタイルデータファイル102に格納する。ステップ2
11で、ステップ214におけるエンティティ名をすべ
て要素名に展開し終わるまでステップ214又はステッ
プ215を繰り返す。ステップ212で、ステップ20
1の要素宣言の検索がすべて終了するまで上述した処理
を繰り返す。最後に、ステップ213で、文書先頭構造
データ102xの抽出と格納を行う。
【0020】ステップ213を図3で詳しく説明する
と、ステップ216で文書型宣言キーワードを検索す
る。ステップ217で上記文書型宣言キーワードの次に
出現するトークンを抽出する。この抽出されたトークン
が文書構造の先頭に出現する要素名であり、その要素名
から始まる、決まりきった構造を抽出する。ステップ2
18でエレメント宣言キーワードを検索する。抽出され
たトークンが文書構造の先頭に出現する要素名となるま
で、ステップ218とステップ219を繰り返す。ステ
ップ221で文書構造の先頭に出現する要素名の内容モ
デルから、文書構造を辿って行く。ステップ222で、
終了タグが必須となる要素名を取り出し、その要素の内
容が文字データからできているかどうか内容モデルを調
べ、文字データからなる終了タグ必須の要素名を構造・
スタイルデータファイル102に格納する。ステップ2
23で、辿った要素の次に現れる要素が不明確な場合、
ステップ224でそれまで辿っていった要素名を文書先
頭構造情報として構造・スタイルデータファイル102
に格納する。
【0021】文書型定義データ101aと解析後の文書
先頭構造データ102x、スタイルデータ102yおよ
び必須終了タグデータ102zの具体例を図4を用いて
説明する。
【0022】“DOCTYPE”303は文書型宣言を
表すキーワードであり、304はSGML文書の先頭に
出現する要素名である。“ENTITY”305はエン
ティティ宣言を表すキーワードであり、306はエンテ
ィティ名であり、文書の列や外部ファイルを文書から参
照するための名前を示す。
【0023】このエンティティ名306は、その実体内
容307の置換テキストに変換される。例えば、329
は307の文字列に置換される。“ELEMENT”3
08は要素宣言を表すキーワードであり、309が要素
名であり、SGML文書におけるタグ名となる。タグ名
とは、テキストの中で使用される論理要素の種類を識別
するための名前であり、その名前を使ったタグを文書中
に挿入することによって、論理要素の始めと終りを識別
するのに使われる各要素の始めは、通常開始タグでマー
ク付けされ、要素の終りが文書の構造上明確に決まらな
い場合には終了タグでマーク付けされる。310は、タ
グ省略定義であり、タグが省略できるかどうか定義する
部分である。1文字目が開始タグの省略、2文字目が終
了タグの省略についての定義であり、その内容が“○”
の場合は省略可能で、“−”の場合は省略不可能を示
す。311は内容モデルであり、要素名309に組み込
み可能なサブ要素の定義やその出現順序や反復回数とい
った定義を行う。その定義の仕方について、詳しく説明
すると、“,”314は結合子であり、指定された順序
に現れなければならないことを表す。例えば内容モデル
311の場合は、manual309という要素の中にサブ要
素としてfront312が出現し、その次にbody313、b
ack339と出現することを定義している。“|”33
2も結合子であり、この結合子で結ばれた要素のうち1
個の要素しか出現しないことを表す。“+”320は出
現標識であり、s1が1回以上出現することを表す。
“*”328も出現標識であり、pが0回以上出現するこ
とを表す。また、“#PCDATA”322は、文字データを
含むことを表す。
【0024】要素名の検索を行う場合、“ELEMEN
T”308をキーとして検索し、manual309の部分を
要素名として取り出す。もし、要素名が“%st”329
のようなエンティティ名であった場合は、“ENTIT
Y”305と“%st”329をキーとして検索し、その
置換テキスト307から名前を抽出する。もし、この置
換テキスト中にもエンティティ名が含まれていた場合も
同様の処理を行い、エンティティ名が無くなったら、要
素名をスタイルデータ102yとして構造・スタイルデ
ータファイル102に格納する。そして、終了タグ必須
の要素名の抽出は、要素宣言のタグ省略定義310の2
文字目が“−”、つまり、終了タグが省略不可の要素名
を抽出し、必須終了タグデータ102zとして構造・ス
タイルデータファイル102に格納する。この場合、em
ph338が、またemph338の内容モデルが“PCDA
TA”339なので、それが分かるように(pcdata)とい
う文字列を付けて必須終了タグデータ102zとして構
造・スタイルデータファイル102に格納する。
【0025】次に文書先頭構造情報の抽出は、まず“D
OCTYPE”303をキーとして検索しmanual304
のSGML文書の一番先頭に現れる要素名を取り出す。
具体的には、文書の一番先頭に現れる要素を見つけるた
めに“DOCTYPE”303をキーにして検索し、ma
nual304を取り出す。そして、そのmanual304の要
素宣言内の内容モデル311を解析しながら構造を辿っ
ていき、文書先頭構造情報を取り出す。すなわち、manu
al309の次に現れる要素を探すため、manual3
09を文書先頭構造データ102xに格納し、manu
al309の要素宣言の内容モデル311を調べる。す
ると、次に必ず出現する要素はfront312であること
が分かる。そして、front312の次に現れる要素を探
すため、front312を文書先頭構造データ102xに
格納し、front312の要素宣言の内容モデルを調べ
る。すると、次に必ず出現する要素はt316であるこ
とが分かる。そして、t316の次に現れる要素を探す
ためt316の要素宣言の内容モデルを調べる。する
と、t321は文字データ(#PCDATA)322であることが
分かり、ここでt321を文字データであることが分か
るように(pcdata)という文字列を付けて文書先頭構造デ
ータ102xに格納する。t321のサブ要素は存在し
ないので、front315の要素宣言の内容モデルに戻り
調べ直す。すると、次に必ず出現する要素はauthor31
7だと分かる。
【0026】そして、author317の次に現れる要素を
探すため、author317の要素宣言の内容モデルを調べ
る。すると、author323は文字データ(#PCDATA)32
4であることが分かり、ここでauthor317が文字デー
タであることが分かるように(pcdata)という文字列を付
けて文書先頭構造データ102xに格納する。author3
23のサブ要素は存在しないので、front315の要素
宣言の内容モデルに戻り調べ直す。すると、front31
5のサブ要素はもう存在しないので、manual309の要
素宣言に戻り、front312の次に出現する要素を調べ
直す。すると、次に必ず出現する要素はbody313であ
ることが分かる。そして、body313の次に現れる要素
を探すため、body313を文書先頭構造データ102x
に格納し、body318の要素宣言の内容モデルを調べ
る。すると、次に必ず出現する要素はh0319であるこ
とが分かる。そして、h0319の次に現れる要素を探す
ため、h0319を文書先頭構造データ102xに格納
し、h0325の要素宣言の内容モデルを調べる。する
と、次に必ず出現する要素はh0t326であることが分
かる。そして、h0t326の次に現れる要素を探すた
め、h0t326の要素宣言の内容モデルを調べる。する
と、h0t326は文字データ337であることが分か
り、ここでh0t326が文字データであることが分かる
ように(pcdata)という文字列を付けて文書先頭構造デー
タ102xに格納する。h0t326のサブ要素は存在し
ないので、h0325の要素宣言の内容モデルに戻り調べ
直す。すると、次に必ず出現する要素はp327だと分
かる。そして、p327の次に現れる要素を探すため、p
330の要素宣言の内容モデルを調べる。すると、次に
出現するのは、文字データ331なのか、emph333要
素なのか、分からない。つまり、この先の文書構造がど
うなるかが分からない。
【0027】したがって、ここまで辿ってきた要素が文
書先頭構造情報ということになる。
【0028】次に、スタイル設定データ解析部112に
おけるスタイル設定データ103aを解析、抽出、格納
する動作について図5で説明する。まず、ステップ40
1で構造・スタイルデータファイル102にスタイルデ
ータとして格納されている要素名を取り出す。ステップ
402で全ての要素名に対して検索が終わるまでステッ
プ403、ステップ404、ステップ401の処理を繰
り返す。ステップ403ではステップ401で取り出さ
れた要素名をキーにしてスタイル設定データ103aか
ら検索を行い、ステップ404で検索結果のスタイル名
を要素名の代わりに格納し、スタイル情報も構造・スタ
イルデータファイル102に格納する。詳しく説明する
と、ステップ401で、構造・スタイルデータファイル
102に格納されている要素名とは、図4のスタイルデ
ータ102yに格納されている要素名であり、その要素
名をスタイル名に変換するために、スタイル設定データ
103aからそれぞれの要素名に対応するスタイル名を
含むスタイルデータ102yを構造・スタイルデータフ
ァイル102に格納する。
【0029】次に、スタイル設定データ103aと解析
前後の文書先頭構造データ102x、スタイルデータ1
02yおよび必須終了タグデータ102zの具体例を図
6を用いて説明する。501はスタイル設定データの具
体例である。503が要素名部であり、504がそれに
対応するスタイル名部である。そのスタイル名部504
の設定値はスタイル部505、フォント部506、サイ
ズ部507、段落配置部508で構成される。510は
スタイル設定データ解析処理後の構造・スタイルデータ
ファイル102のスタイルデータの具体例であり、51
1には要素名511aとスタイル名511bとそのスタ
イル情報511cが格納されている。例えば、スタイル
データ102yからt502を取り出す。そして、その
t502をキーにして、スタイル設定データ501の要
素名部503から検索する。この場合、509の位置で
一致するので、その行の内容をスタイルデータ102y
の検索キーであったt502の代わりに格納する。そし
て、最終的には処理前のスタイルデータ102yは、ス
タイル設定データ解析後に510のような内容になる。
【0030】文書作成前のテンプレートのウィンドウ画
面とそれを使って作成された文書のウィンドウ画面の具
体例を図7に示す。601はテンプレートであり、ユー
ザが文書データを作成するための雛形であり、スタイル
情報が定義されたスタイル名をあらかじめ登録しておく
ためのものである。このテンプレートを利用することに
より効率よく出来うr効率よく文書データを作成できる
ようになる。そのテンプレートに登録されたスタイル名
は、603の登録スタイル名表示部に表示される。60
4は文字列情報入力表示部であり、文書データの本文の
文字列を表示する部分である。605は設定スタイル表
示部であり、文字列情報入力表示部604に入力された
テキストに対して設定されているスタイル名を表示す
る。
【0031】具体的な説明をすると、604、605に
すでに表示されている情報については、テンプレート作
成部において、文書先頭構造データ102xを基に、マ
クロによって決まりきった構造をあらかじめ入力した状
態にしている。つまり、ユーザが文書作成時に行う作業
をあらかじめ入力しておくことで文書データ作成の効率
化を図る。文書を作成する場合は、文字列情報入力表示
部604に本文の文字列を入力して、その文字列に対し
て登録スタイル名表示部603に表示してあるスタイル
名を設定しながら文書データを作成する。602は、テ
ンプレート601を利用して作成された文書データの一
例である。
【0032】次に、文書データファイル107において
変換に必要な情報を文書データ107aから抽出し、変
換データファイル108に格納する動作について図8で
説明する。ステップ701で、文書データの終わりが来
るまでステップ702からステップ710を繰り返す。
まず、ステップ702で文書データの1つの段落を取り
出す。ステップ703でその段落全体のスタイル名であ
る全段落スタイル名を抽出し、全段落スタイル名データ
として変換データファイル108に格納する。ステップ
704ではステップ702で取り出された段落が最後の
ものなら終了で、そうでなかったら以下の処理を行う。
すなわち、ステップ705で、段落の最初の文字のスタ
イル名を抽出する。ステップ706で、現スタイル名と
前スタイル名が違ったら、ステップ707でそれまでに
スタイルをチェックしてきた本文文字列とその文字列に
対するスタイル名である現スタイル名を取り出し、変換
データファイル108に格納する。現スタイル名とは、
現在着目している段落中の文字のスタイル名であり、前
スタイル名とは、段落全体のスタイル名または1文字手
前のスタイル名である。ステップ708で、スタイルデ
ータ102yから要素名とスタイル名の対応付け情報を
抽出、格納し、ステップ709で変換データファイル1
08の情報から、1段落ずつSGML文書を作成してい
く。
【0033】最後に、ステップ710で現スタイル名と
前スタイル名を比較して、違っていたらそれまでにスタ
イル名をチェックしてきた文字列とその文字列に対する
スタイル名である前スタイル名を取り出し、変換データ
ファイル108に格納する。
【0034】文書データと文書データ解析時の全段落ス
タイル名データ108w、本文文字列データ108x、
現スタイル名データ108y、前スタイル名データ10
8zの具体例を図9を用いて説明する。801は、文書
データの一部であり、これを解析して全段落スタイル名
と本文文字列と現スタイル名と前スタイル名が抽出され
る。802は文書データ解析後の変換データの具体例で
あり、文書データ801から抽出された変換データをこ
こに格納する。
【0035】まず、文書データ801の中から1つの段
落だけに注目し、その段落中の1文字ずつのスタイル名
を取得していく。例えば、807の段落に着目した場合
を考える。807の段落の全体に設定されているスタイ
ル名は「段落」であり、“マニュアル”808に設定さ
れているスタイル名が「強調」だったとする。
【0036】具体的な処理の流れを説明すると、まず段
落全体のスタイル名を取得し、そのスタイル名を全段落
スタイル名データ814と前スタイル名データ816と
現スタイル名データ815として変換データファイル8
02に格納する。この変換データ803を使って後述す
る方法に従ってSGML文書データを作成する。次に段
落の最初の文字である“こ”810のスタイル名を取得
し、現スタイル名データ816として変換データファイ
ル802に格納する。そして、現スタイル名データ81
6と前スタイル名データ815を比較して、同じスタイ
ルだったら次の文字に対しても同様の処理を行う。この
場合、変換データ803は、現スタイル名データ816
と前スタイル名データ815が「段落」であり、同じス
タイル名なので、次々と先の文字に進み、“マ”811
のスタイル名を取得し、現スタイル名データ108yと
して変換データファイル108に格納する。この場合、
“マ”811のスタイル名は「強調」であり、そのスタ
イル名を現スタイル名データ820として変換データフ
ァイル804に格納する。この場合、変換データファイ
ル804は、現スタイル名データ820が「強調」で前
スタイル名データ819が「段落」であり、同じスタイ
ル名ではないので、それまでにスタイル名を取得してき
た文字列“これは”を本文文字列データ821として変
換データファイル804に格納する。そして、現スタイ
ル名データ820である「強調」を前スタイル名データ
823として変換データファイル805に格納する。こ
のような、文字列のスタイル名の変化または段落の最初
と最後のタイミングでその時の変換データ802の内容
からSGML文書データの一部分を作成していく。その
後“で”812のスタイル名を取得するまで現スタイル
名と前スタイル名は「強調」であり、SGML文書の作
成はその間行われない。“で”812のスタイル名は
「段落」であり、そのスタイル名を現スタイル名データ
824として変換データファイル805に格納する。こ
の場合、変換データファイル805は、現スタイル名デ
ータ824が「段落」で前スタイル名データ823が
「強調」であり、同じスタイル名ではないので、それま
でにスタイル名を取得してきた文字列“マニュアル”を
本文文字列データ825として変換データファイル80
5に格納する。そして、現スタイル名データ824であ
る「段落」を前スタイル名データ827として変換デー
タファイル806に格納する。その後、段落の終了を表
す記号“¶”813が出現するまで現スタイル名と前ス
タイル名は「段落」なので、その間SGML文書の作成
は行われない。
【0037】段落の終了を表す記号“¶”813が出現
したら、それまでにスタイル名を取得してきた文字列
“です。”を本文文字列データ829として変換データ
ファイル806に格納する。これで1つの段落について
SGML文書への変換が終り、この処理を文書内で段落
が無くなるまで繰り返し行う。
【0038】次に、構造・スタイルデータ解析部におい
てスタイル名と要素名の対応を構造・スタイルデータフ
ァイル102から抽出し、変換データファイル109に
格納する動作について図10で説明する。ステップ90
1で、文書データに対する最初の処理であったら、ステ
ップ902で文書先頭構造データ102xを変換データ
ファイルに109に格納する。ステップ903で構造・
スタイルデータ102aから全段落スタイル名を検索
し、ステップ904で一致した名前のひとつ前に出現す
るトークンを変換データの全段落スタイル名と入れ替え
る。ステップ905で、構造・スタイルデータ102a
から前スタイル名を検索し、ステップ906で検索し、
一致した名前のひとつ前のトークンを変換データの現ス
タイル名と入れ替える。
【0039】文書先頭構造データ102x、スタイルデ
ータ102yおよび必須終了タグデータ102zと構造
・スタイルデータ解析前後の本文文字列データ108
x、スタイル名データ108yおよびスタイル対応要素
名データ108zの具体例を図11を用いて説明する。
1001は構造・スタイルデータ解析前の変換データで
あり、1004が構造・スタイルデータ解析後の変換デ
ータである。510が解析される構造・スタイルデータ
102aの例である。図9において、“で”812の文
字に着目している場合について、まず、全段落スタイル
名である段落1002をキーにして構造・スタイルデー
タ510を検索し、一致したもののひとつ前に出現する
トークンと全段落スタイル名を入れ替える。次に全段落
スタイル名にやったのと同様に、前スタイル名を構造・
スタイルデータ510を検索し、一致したもののひとつ
前に出現するトークンと全段落スタイル名を入れ替え
る。つまり、前スタイル名データが本文文字列データの
スタイル、つまり、包含されるタグ名に相当する要素名
を前スタイル名データとして格納する。
【0040】次に、SGML文書データ作成部において
変換データからSGML文書データを作成する処理内容
について図12で説明する。ステップ1101で文書デ
ータに対して最初の処理であったら、ステップ1102
で文書先頭構造データ102xの各要素名をタグ化し、
SGML文書データファイルに格納する。ステップ11
03で段落についての最初の処理だったらステップ11
04で構造・スタイルデータから全段落スタイル名を抽
出し、SGML文書データファイルに格納する。もし、
ステップ1103で段落についての最初の処理でない場
合は、ステップ1105で全段落スタイル名と前段落ス
タイル名が同じでなかったら、ステップ1106で変換
データの前スタイル名をSGML文書データファイルに
格納する。その後、ステップ1107で、変換データの
本文文字列をSGML文書データに格納する。もし、前
スタイル名に終了タグが必要な場合は、ステップ110
9でその前スタイル名に対応する終了タグをSGML文
書データファイルに格納する。
【0041】次に、SGML文書作成処理部109によ
って作成されたSGML文書データの具体例を図13を
用いて説明する。1201はSGML文書作成処理部1
09によって作成されたSGML文書データの例であ
る。SGMLタグ1202は文書先頭構造データからマ
クロによってSGML文書データファイルに格納したも
のであり、変換データ803の状態で変換処理され、ス
テップ1102の処理によって生成されたものである。
SGMLタグ1203は全段落スタイル名に対応するタ
グをSGML文書データファイルに格納したものであ
り、変換データ804の状態で変換処理され、ステップ
1104の処理によって生成されたものである。120
4は本文文字列821をSGML文書データファイルに
格納したものであり、変換データ804の状態で変換処
理され、ステップ1107の処理によって生成されたも
のである。SGMLタグ1205は、前スタイル名をS
GML文書データファイルに格納したものであり、変換
データ805の状態で変換処理され、ステップ1106
の処理によって生成されたものである。1206は本文
文字列825をSGML文書データファイルに格納した
ものであり、変換データ805の状態で変換処理され、
ステップ1107の処理によって生成されたものであ
る。SGMLタグ1207は終了タグをSGML文書デ
ータファイルに格納したものであり、変換データ805
の状態で変換処理され、ステップ1109の処理によっ
て生成されたものである。1208は、本文文字列82
9をSGML文書データファイルに格納したものであ
り、変換データ806の状態で変換処理され、ステップ
1107の処理によって生成されたものである。
【0042】
【発明の効果】以上、実施例で具体的に説明したよう
に、本発明のワードプロセッサにおけるSGML文書変
換方法によれば、文書を作成しようとする場合、その文
書構造を規定する文書型定義データの内容に基づいて作
成されたテンプレートを用いて文書の作成を行えば、文
書毎に発生する文書固有の変換処理を行う必要がなく、
どんな文書でも同じ処理方法でSGML文書に変換する
ことが可能となる。
【図面の簡単な説明】
【図1】本発明のSGML文書変換方法の概略図であ
る。
【図2】文書の構造に関する情報を解析、抽出、格納す
る手順を表すフローチャートである。
【図3】文書先頭構造情報を抽出、格納する手順を表す
フローチャートである。
【図4】文書型定義データと解析後の文書先頭構造デー
タ、スタイルデータyおよび必須終了タグデータの具体
例を示す図である。
【図5】スタイル情報を解析、抽出、格納する動作を表
すフロ―チャートである。
【図6】スタイル設定データと解析前後の文書先頭構造
データ、スタイルデータおよび必須終了タグデータの具
体例を示す図である。
【図7】文書作成前のテンプレートのウィンドウ画面と
それを使って作成された文書のウィンドウ画面の具体例
を示す図である。
【図8】変換に必要な情報を文書データから抽出し、変
換データファイルに格納する手順を表すフローチャート
である。
【図9】文書データと文書データ解析時の変換データの
具体例を示す図である。
【図10】スタイル名と要素名の対応を構造・スタイル
データファイルから抽出し、変換データファイルに格納
する手順を表すフローチャートである。
【図11】文書先頭構造データ、スタイルデータおよび
必須終了タグデータと構造・スタイルデータ解析前後の
本文文字列データ、スタイル名データおよびスタイル対
応要素名データの具体例を示す図である。
【図12】SGML文書データを手順を表すフローチャ
ートである。
【図13】SGML文書データ作成部によって作成され
たSGML文書データの具体例を示す図である。
【符号の説明】
101…文書型定義データファイル、102…構造・ス
タイルデータファイル、103…スタイル設定データフ
ァイル、104…テンプレート作成部、 105…
テンプレートファイル、106…文書データ作成部、
107…文書ファイル、108…変換データファ
イル、 109…SGML文書作成処理部、110
…SGML文書データファイル。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山崎 紀之 神奈川県横浜市戸塚区戸塚町5030番地株式 会社日立製作所ソフトウェア開発本部内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】文書の型を定義した文書型定義データを解
    析することで、作成しようとする文書を構成する章、節
    などの要素名と文書の先頭から始まる決まりきった構造
    と終了タグが必須の要素名を、スタイルデータ、文書先
    頭構造データおよび必須終了タグデータとして構造・ス
    タイルデータファイルに格納し、 あらかじめ前記要素名と文書データを作成する時に設定
    するスタイル名の対応付けがされたスタイル設定データ
    を解析することで、前記要素名に対応するスタイル設定
    情報をスタイルデータとして構造・スタイルデータファ
    イルに格納し、 前記文書先頭構造データをマクロによってテンプレート
    に入力し、前記スタイルデータをマクロによってテンプ
    レートにスタイル定義することで、文書を作成するため
    の雛形であるテンプレートを作成し、 前記テンプレートを使って作成された文書データを解析
    することで、前記文書データ中に書かれている文字列と
    本文字列に対応するスタイル名を本文文字列データ、現
    スタイル名データおよび全段落スタイル名データとして
    変換データファイルに格納し、 前記スタイルデータを解析することで、前記スタイル名
    に対応する要素名をスタイル対応要素名データとして変
    換データファイルに格納し、 前記文字列に前記要素名をマーク付けすることによって
    SGML文書データを作成することを特徴とするワード
    プロセッサにおけるSGML文書変換方法。
  2. 【請求項2】請求項1記載のSGML文書変換方法にお
    いて、スタイル設定データ中の要素名およびスタイル名
    によって変換の対応付けを行うことを特徴とするSGM
    L文書変換方法。
  3. 【請求項3】請求項1記載のSGML文書変換方法にお
    いて、文書型定義データ中の要素名および構造情報とス
    タイル設定データから、文書を論理構造に応じて容易に
    作成することができるテンプレートを作成することを特
    徴とするSGML文書変換方法。
JP9045271A 1997-02-28 1997-02-28 ワードプロセッサにおけるsgml文書変換方法 Pending JPH10240723A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9045271A JPH10240723A (ja) 1997-02-28 1997-02-28 ワードプロセッサにおけるsgml文書変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9045271A JPH10240723A (ja) 1997-02-28 1997-02-28 ワードプロセッサにおけるsgml文書変換方法

Publications (1)

Publication Number Publication Date
JPH10240723A true JPH10240723A (ja) 1998-09-11

Family

ID=12714659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9045271A Pending JPH10240723A (ja) 1997-02-28 1997-02-28 ワードプロセッサにおけるsgml文書変換方法

Country Status (1)

Country Link
JP (1) JPH10240723A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013206261A (ja) * 2012-03-29 2013-10-07 Toshiba Corp 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013206261A (ja) * 2012-03-29 2013-10-07 Toshiba Corp 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム

Similar Documents

Publication Publication Date Title
CA2242158C (en) Method and apparatus for searching and displaying structured document
US7480859B2 (en) Tree construction for XML to XML document transformation
JP3905179B2 (ja) 文書翻訳装置及び機械読み取り可能媒体
US6516308B1 (en) Method and apparatus for extracting data from data sources on a network
US7069504B2 (en) Conversion processing for XML to XML document transformation
US7111011B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
US20040117739A1 (en) Generating rules to convert HTML tables to prose
EP0361464A2 (en) Method and apparatus for producing an abstract of a document
US20060104511A1 (en) Method, system and apparatus for generating structured document files
US20110264705A1 (en) Method and system for interactive generation of presentations
KR920002668B1 (ko) 문서정형장치
CA2519216A1 (en) Method and expert system for document conversion
JPH11110384A (ja) 構造化文書検索表示方法及び装置
Cassidy XQuery as an Annotation Query Language: a Use Case Analysis.
CA2422490C (en) Method and apparatus for extracting structured data from html pages
JPH10240723A (ja) ワードプロセッサにおけるsgml文書変換方法
JP2001101036A (ja) ログ情報の格納及び利用方法
Cowan et al. Enhancing code for readability and comprehension using SGML
JPH0877196A (ja) 文書情報抽出装置
JP3076348B2 (ja) 文書整形装置及び文書整形方法
JP2002189740A (ja) データ変換システム
Smith The implications of SGML for the preparation of scientific publications
JP2003132078A (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
KR20030018720A (ko) 소프트웨어 유지보수를 위한 소스 코드 브라우저 자동생성 방법 및 시스템
JP2004178011A (ja) 文書変換装置及び文書変換方法