JPH07282041A - 文書変換装置 - Google Patents

文書変換装置

Info

Publication number
JPH07282041A
JPH07282041A JP6066237A JP6623794A JPH07282041A JP H07282041 A JPH07282041 A JP H07282041A JP 6066237 A JP6066237 A JP 6066237A JP 6623794 A JP6623794 A JP 6623794A JP H07282041 A JPH07282041 A JP H07282041A
Authority
JP
Japan
Prior art keywords
document
unit
format
symbol
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6066237A
Other languages
English (en)
Inventor
Hiroshi Iwata
浩 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP6066237A priority Critical patent/JPH07282041A/ja
Publication of JPH07282041A publication Critical patent/JPH07282041A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】この発明は、入れ子構造を許す構造化文書と入
れ子構造を許さない構造化文書との間のフォーマット変
換を行うことのできる文書変換装置を提供する。 【構成】分割処理部10は、文書ファイル50から読み
出した構造化文書を、構造単位開始記号及び構造単位終
端記号に基づいて最小単位の部品に分割すると共に、分
割した最小単位の部品についての構造情報を認識し、更
に各部品に対応して、順次、構造情報を記憶部20に記
憶する。また分割処理部10は、分割した最小単位の部
品及び記憶部20の記憶内容に基づいて、最小単位の部
品群それぞれに対応して、構造単位開始記号、構造単位
終端記号及び構造情報を保存部30に保存する。再変換
部40は、上記最小単位の部品群を、保存部40の保持
内容に基づいて元の文書構造のフォーマットに再変換す
る。この再変換後の構造化文書は、ファイル60として
保存される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、開始記号及び終端記
号を含んで構成される第1の形式の文書構造を有する構
造化文書を、第2の形式の文書構造を有する他の構造化
文書に変換する文書変換装置に関する。
【0002】
【従来の技術】従来のコンバージョンソフトウエアにお
いては、1つの文書を他のフォーマットの文書に変換す
るのが目的である。
【0003】このように1つの文書を他のフォーマット
の文書に変換する装置としては、例えば特開昭63−2
86963号公報に記載されている文書変換装置、及び
特開平4−171575号公報に記載されている文書構
造変換処理方式がある。
【0004】上記文書変換装置では、テキストデータか
ら章・節・項等の見出しを検出し、当該各見出しを、そ
の検出結果に基づいて当該各見出しの位置を表す制御デ
ータに置換した後、変換後の文書に出力すると共に、該
変換後の文書に、当該各見出しから求めた名称、番号の
形式を含んでいる管理構造を付加している。これによ
り、章・節・項等の見出しに対して、それらの名称を指
定することにより追加・削除・移動等の操作を可能にし
ている。また付加した制御データ及び管理構造を削除す
ることにより、元の文書の形式に変換するようにしてい
る。
【0005】
【発明が解決しようとする課題】しかし、上記コンバー
ジョンソフトウエアでは、1つの文書を、構造情報が異
なるようなフォーマットに変換すると、変換前の構造情
報を保持することができなかった。すなわち任意の構造
を表すことができる書式、例えばSGML(Standard G
eneralized Markup Language、ISO 8879に定義されてい
る)を特定の構造のフォーマットに変換すると、構造情
報が失われてしまい、以前のフォーマットに変換して戻
しても、構造情報は再現されない。
【0006】例えば、構造Aの入れ子として構造Bが存
在する入れ子構造を持つ文書を、入れ子構造を許さない
フォーマットの文書に変換することはできる。すなわ
ち、フラット(入れ子構造ではない)な構造A、構造B
を持つ文書に変換することができる。しかし、この場
合、例えば構造Aの入れ子として構造Bが存在している
旨の情報(つまり構造情報)を保持していないので、そ
のようなフラットな構造の文書を、入れ子構造を持つ元
のフォーマットの文書に再変換することはできなかっ
た。
【0007】また、上記特開昭63−286963号公
報に記載された文書変換装置のものは、章・節・項など
の見出しについての制御データ及び管理構造を変換後の
文書に付与することにより、1つのフォーマットから他
のフォーマットに変換し、また前記付与された制御デー
タ及び管理構造を削除することにより、前記他のフォー
マットから前記1つのフォーマットに再変換するもので
ある。従って、見出し以外の構造についてのフォーマッ
トを他のフォーマットに変換することができない。例え
ば入れ子構造を持つ文書を、入れ子構造を許さないフォ
ーマットの文書に変換することはできない。
【0008】この発明は、入れ子構造を許す構造化文書
を、入れ子構造を許さない構造化文書に変換すると共
に、変換後の構造化文書を元の構造化文書に再変換する
ことのできる文書変換装置を提供することを目的とす
る。
【0009】
【課題を解決するための手段】この発明は、1つ以上の
開始記号及び1つ以上の終端記号を含んで構成される第
1の形式の文書構造を有する構造化文書についての当該
第1の形式の文書構造を、第2の形式の文書構造に変換
する文書変換装置において、前記第1の形式の文書構造
を前記開始記号及び終端記号に基づいて最小単位の部品
に分割する分割処理手段と、前記分割された最小単位の
部品群それぞれに対応して、該部品の前記第1の形式の
文書構造中における位置を特定するための情報を示す構
造情報を記憶する記憶手段と、前記最小単位の部品群そ
れぞれに対応して、開始記号、終端記号及び構造情報を
保持する保持手段と、前記最小単位の部品群を、前記保
持手段の保持内容に基づいて前記第1の形式の文書構造
に再変換する再変換手段とを具備している。
【0010】
【作用】この発明では、分割処理手段が、1つ以上の開
始記号及び1つ以上の終端記号を含んで構成される第1
の形式の文書構造を有する構造化文書についての当該第
1の形式の文書構造を、前記開始記号及び終端記号に基
づいて最小単位の部品に分割すると、記憶手段には、そ
の最小単位の部品群それぞれに対応して、該部品の前記
第1の形式の文書構造中における位置を特定するための
情報を示す構造情報が記憶され、また保存手段には、前
記最小単位の部品群それぞれに対応して、開始記号、終
端記号及び構造情報が保持され、そして、再変換手段
は、分割処理手段により分割された最小単位の部品群
を、前記保持手段の保持内容に基づいて元の第1の形式
の文書構造に再変換する。
【0011】従って、本発明によれば、入れ子構造など
の任意の構造を表すことのできる構造化文書を、入れ子
構造を許さない他の構造化文書に変換でき、しかも変換
後の構造化文書を元の構造化文書に戻すことができる。
【0012】
【実施例】以下、本発明の実施例を添付図面を参照して
説明する。
【0013】図1は本発明に係る文書変換装置の一実施
例を示す機能ブロック図である。
【0014】この文書変換装置の構成の説明に先だっ
て、本実施例で処理の対象としている構造化文書につい
て説明する。
【0015】構造化文書とは、通常の内部テキスト情報
以外に、構造情報や属性情報を有し、構造関係がグラフ
や木により表されるものである。また構造化文書におい
ては、構造単位開始記号と構造単位終端記号とで囲まれ
た部分が1つの構造の構成要素となる。
【0016】自由に入れ子構造を表されるような構造化
文書には、上述したSGMLなどのように、構造単位開
始記号及び構造単位終端記号をタグ(例えば記号<と記
号>とで囲まれた文字列)で表すものがある。特にSG
MLの場合は、構造単位終端記号を省略することもでき
る。
【0017】上記SGMLと同じように構造に関する情
報(すなわち属性のことであり、例えば識別情報、名前
などである)は、普通、構造単位開始記号の中に含まれ
ている。このような構造化文書において入れ子構造を表
すには、構造単位開始記号と構造単位終端記号とで囲ま
れた構造の中に、さらに構造単位開始記号と構造単位終
端記号とで囲まれた構造を作成すれば良い。
【0018】この実施例においては、上述した様な入れ
子構造を許す文書構造(つまり第1の形式の文書構造)
を有する構造化文書を、入れ子構造を許さない文書構造
(つまり第2の形式の文書構造)を有する構造化文書に
変換するものとする。
【0019】次に、この実施例の装置の構成について説
明する。図1において、文書変換装置1は、分割処理部
10、記憶部20、保存部30及び再変換部40を備え
ている。
【0020】分割処理部10は、文書ファイル50から
読み出した構造化文書を、構造単位開始記号及び構造単
位終端記号に基づいて最小単位の部品に分割する。ま
た、分割した最小単位の部品がどの構造の部品であるか
を判断するために、当該構造化文書が保有している構造
情報(群)の中から、該当する部品についての構造情報
を認識する。例えば、入れ子構造の場合は、その親の構
造情報(要素名や識別情報)を認識することになる。こ
のような処理は、換言すれば、分割された最小単位の部
品群それぞれに対応して、該部品の分割前の文書構造中
における位置を特定するための構造情報を認識している
ことを意味している。
【0021】なお、この実施例では、構造化文書を最小
単位の部品に全て分割した後、構造情報を認識するので
はなく、最小単位の部品に分割しながら、構造情報も認
識するようにしている。これにより処理効率を向上させ
ている。
【0022】また、ここでいう、最小単位の部品とは、
構造単位開始記号から次の構造単位記号、あるいは構造
単位終端記号の間までをいう。構造単位開始記号は、そ
れに続く内容と同じ最小単位の部品に含め、構造単位終
端記号は、その前にある内容と同じ最小単位の部品に含
める。従って、最小単位の部品には、構造単位開始記
号、あるいは構造単位終端記号がないものもあり、ま
た、構造単位開始記号、あるいは構造単位終端記号だけ
のものもある。従って、この最小単位の部品は入れ子構
造を持たない。
【0023】入れ子構造を最小単位の部品に分割した例
を図2に示す。図2(a)においては、入れ子構造71
が最小単位の部品71A、71B、71Cの3つに分割
された例を示している。また、図2(b)においては、
入れ子構造72が最小単位の部品72A、72B、72
C、72Dの4つに分割された例を示している。
【0024】また、分割処理部10は、最小単位の部品
に分割しながら、各部品に対応して、順次、構造情報を
記憶部20に記憶する。この記憶部20は、分割処理部
10が作業するための作業領域(メモリ)として使用さ
れる。
【0025】すなわち分散処理部10は、構造単位開始
記号がきたら、その新しい構造の情報(構造単位開始記
号に含まれている要素名あるいはID)を記憶部20の
メモリスタックにプッシュする。構造単位終端記号がき
たら記憶部20のメモリスタックからその構造単位終端
記号に相当する構造の情報までポップする。分割した最
小単位の部品がその構造の部品なのかは、記憶部20の
メモリスタックの最上段の構造情報を見ることによって
わかる。従って、最小単位の部品に分割したときに、構
造単位開始記号が含まれていなくても、記憶部20か
ら、その最小単位の部品がどの構造の部品かを知ること
ができる。
【0026】図3は、図2(b)の例に示されるよう
に、入れ子構造72を部品72A〜72Dに分割した際
に、記憶部20のメモリスタックに記憶される構造情報
のスタック状態を示している。すなわち、部品72Aの
構造化単位開始記号1の処理のときはスタック状態81
となり、また部品72Bの構造化単位開始記号3のとき
はスタック状態82となり、部品72Cの構造単位開始
記号3の処理のときはスタック状態83となり、部品7
2Cの構造単位終端記号3の処理のときはスタック状態
84となり、部品72Dの構造単位終端記号1の処理の
ときはメモリスタックは空き状態になる。なお、図3に
おいて、部品72Bの構造単位開始記号2に対応する構
造2の構造単位終端記号が省力されているが、最後の最
小単位の部品72Dの内容は、スタック状態84から構
造2の内容であることが分かる。
【0027】さらに分割処理部10は、分割した最小単
位の部品及び記憶部20の記憶内容に基づいて、最小単
位の部品群それぞれに対応して、構造単位開始記号、構
造単位終端記号及び構造情報を保存部30に保存する。
【0028】そして最終的に保存部30に保存されてい
る内容が、構造化文書が他の文書構造、すなわち、入れ
子構造ではない構造に変換された変換後の構造化文書に
なっている。
【0029】すなわち、分割処理部10は、最小単位の
部品に分割したら、それを変換対象フォーマットの構造
に変換し、それぞれの最小単位の部品に付随している構
造単位開始記号、構造単位終端記号、その部品が含まれ
る構造のIDあるいは名前を保存するため、それらを構
造の属性として設定する。最小単位の部品に含まれてい
る内容は、構造の内容に変換される。また最小単位の部
品に構造単位開始記号、構造単位終端記号がついていな
い場合は、付いていなかったことを明白にするための属
性値をいれる。
【0030】図4は、図3に示される例の最小単位の部
品を対象フォーマットの構造にフラットに変換した例を
示している。ここでは、最小単位の部品72A〜72D
に含まれている内容は構造の内容91A〜94Aに変換
され、最小単位の部品72A〜72Dの構造に関する情
報は構造91B〜94Bに変換されている。なお、最小
単位の部品が属する構造の名前は構造名の属性の属性値
に変換されている。また図4に示される構造の内容91
A〜94A、変換構造91B〜94Bは、出力ファイル
すなわち保存部30に作成される。
【0031】ここで、以降の説明においては、構造91
B〜94Bは、最小単位の部品すなわち入れ子構造が変
換された構造を示しているので、それらの構造を変換構
造と呼ぶことにする。
【0032】再変換部40は、上記最小単位の部品群
を、保存部40の保持内容に基づいて元の文書構造のフ
ォーマットに再変換する。この再変換後の構造化文書
は、ファイル60として保存される。
【0033】次に、本実施例の分割処理部10による変
換処理について、図5〜図7に示すフローチャートを参
照しながら説明する。
【0034】図5において、分割処理部10は、元の文
書ファイルから構造化文書を読み込むと共に(ステップ
101)、出力ファイルを初期化し(ステップ10
2)、さらに、読み込んだ構造化文書から文字列の先読
みを実行し(ステップ103)、その後、先読みする文
字列があるか否かを判断する(ステップ104)。
【0035】ステップ104において、文字列がない場
合には変換処理を終了し、一方、文字列がある場合は、
次に構造単位開始記号であるか否かを判断する(ステッ
プ105)。
【0036】ステップ105において、構造単位開始記
号でない場合には後述する図6に示される処理手順を実
行し、一方、構造単位開始記号の場合は、構造単位開始
記号から構造の名前或いは識別情報(ID)をメモリス
タックにプッシュし(ステップ106)、最小単位の部
品を出力ファイルに作成するための構造(すなわち、出
力ファイルにおいて、例えば図4に示される変換構造9
1B〜94Bが作成される領域)の初期化を行う(ステ
ップ107)。
【0037】その後、記憶部20の所定の領域に構造終
了フラグが設定されているか否かを判断し(ステップ1
08)、設定されている場合は、構造終了フラグのリセ
ットし(ステップ109)、その後、メモリスタックの
最上位の構造の名前あるいはIDを、変換構造の構造名
の属性に設定すると共に(ステップ110)、構造単位
開始記号を変換構造の開始記号の属性に設定する(ステ
ップ111)。このステップ111を終了した後は、ス
テップ103に戻り、このステップ以降を実行する。
【0038】なお、ステップ108において構造終了フ
ラグでない場合は、分割処理部10は、変換構造の終了
記号の属性に“なし”を設定し(ステップ112)、そ
の後、ステップ110に進む。
【0039】次にステップ105において構造単位開始
記号でなかった場合の処理を、図6を参照しながら説明
する。
【0040】図6に示すように、分割処理部10は、図
5のステップ105において構造単位開始記号でなかっ
た場合は、構造単位終端記号か否かを判断し(ステップ
113)、構造単位終端記号でない場合には後述する図
7の処理手順を実行し、一方、構造単位終端記号の場合
は、次に、構造終了フラグがセットされているか否かを
判断する(ステップ114) ステップ114において、構造終了フラグでない場合
は、構造単位終端記号を変換構造の終端記号の属性に設
定し(ステップ115)、その後、構造終了フラグをセ
ットし(ステップ116)、更に、変換していた構造の
名前あるいはIDをメモリスタックからポップする(ス
テップ117)。このステップ117を終了した後は、
図5のステップ103に戻る。
【0041】また、ステップ114において構造終了フ
ラグの場合は、構造終了フラグをリセットし(ステップ
118)、図5のステップ107と同様に、最小単位の
部品を出力ファイルに作成する構造を初期化する(ステ
ップ119)。その後、変換構造の開始記号の属性に
“なし”を設定し(ステップ120)、更に、メモリス
タックの最上位の構造の名前あるいはIDを変換構造の
構造名の属性に設定する(ステップ121)。このステ
ップ121を終了した後は、上記ステップ115に進
む。
【0042】続いて、ステップ113において構造単位
終端記号でない場合の処理について、図7を参照しなが
ら説明する。
【0043】図7に示すように、分割処理部10は、図
6のステップ113において構造単位終端記号でなかっ
た場合は、構造フラグがセットされているか否かを判断
する(ステップ122)。
【0044】ステップ122において、構造終了フラグ
の場合は、構造終了フラグをリセットし(ステップ12
3)、最小単位の部品出力ファイルに作成する構造を初
期化する(ステップ124)。その後、変換構開始記号
の属性に“なし”を設定すると共に(ステップ12
5)、メモリスタックの最上位の構造の名前あるいはI
Dを変換構造の構造名の属性に設定し(ステップ12
6)、更に、先読みした文字列を、出力ファイルに変換
出力する(ステップ127)。このとき文字列は変換構
造に対応して保存される。
【0045】上記ステップ122において構造終了フラ
グがセットされていない場合はステップ127に進む。
またステップ127が終了した後は、図5のステップ1
03に戻る。
【0046】次に上述した変換処理について、具体例を
挙げて説明する。
【0047】ここでは、図2に示される入れ子構造を、
図7に示される構造の内容、変換構造に変換する例を説
明する。また初期状態として構造終了フラグはリセット
される。
【0048】《最小単位の部品72Aに対する処理》構
造単位開始記号1の処理のときは、図6のステップ10
1〜ステップ108まで実行され、ステップ108で
「NO」でステップ112に進み、その後、ステップ1
10、111が実行され、ステップ103に戻る。
【0049】ここで、ステップ106の実行により、図
3のメモリスタックは状態81となる。またステップ1
12、110、111が実行されると、出力ファイルに
は、図4に示される変換構造91Bが作成される。
【0050】次に「aa…aaa」の文字列の処理の時
は、ステップ103〜104が実行され、ステップ10
4で「NO」となり、図6のステップ113に進む。こ
のステップ113においても「NO」となり、図7のス
テップ122に進み、ここでも「NO」となり、ステッ
プ127が実行され、さらに図5のステップ103に戻
る。このステップ127が実行されると、出力ファイル
には、図4に示す内容91Aが書き込まれる。
【0051】《最小単位の部品72Bに対する処理》構
造単位開始記号2の処理のときは、上記構造単位開始記
号1の場合と同様の処理が行われる。この場合、図5の
ステップ106の実行により、メモリスタックは図3に
示される状態82となる。また出力ファイルには、構造
の内容92A、変換構造92Bが作成される。
【0052】《最小単位の部品72Cに対する処理》構
造単位開始記号3の処理のときも、上記構造単位開始記
号1の場合と同様の処理が行われる。この場合、図5の
ステップ106の実行により、メモリスタックは図3に
示される状態83となる。またこの時点においては、出
力ファイルには、内容91A、変換構造91B、内容9
2A、変換構造92B、変換構造93B(実際には図4
に示される内容ではない)が作成されていることにな
る。
【0053】ここで、変換構造93Bの終端記号の属性
の属性値として、“<構造単位終端記号3>”が設定さ
れているが、この時点では、“なし”が設定されてい
る。そして、後述する処理により、その属性値が上書き
される。
【0054】さて、「bb…bbb」の文字列の処理の
ときは、上記「aa…aaa」の文字列の場合と同様の
処理が行われる。従って図7のステップ127の実行に
より、出力ファイルには、図4に示す内容93Aが追加
作成される。
【0055】構造単位終端記号3の処理のときは、図5
のステップ103〜105が実行され、このステップ1
05で「NO」となり、図6のステップ113に進む。
このステップ113では「YES」となり、ステップ1
14に進み、構造化フラグは初期化されたままの状態に
なっているので、ステップ114で「NO」となり、ス
テップ115〜117が実行され、更に、図5のステッ
プ103に戻る。
【0056】この場合、ステップ115の実行により、
変換構造93Bの終端記号の属性の属性値として“<構
造単位終端記号3>”がセットされ、またステップ11
6の実行により、終了フラグがセットされ、さらにステ
ップ117の実行により、メモリスタックは状態84に
変化する。
【0057】《最小単位の部品72Dに対する処理》
「cc…ccc」の文字列の処理のときは、上記「aa
…aaa」の文字列の場合と同様の処理が行われる。従
って図7のステップ127の実行により、出力ファイル
には、図4に示す内容94Aが追加作成される 次に構造単位終端記号1の処理のときは、図5のステッ
プ103〜105、図6のステップ113、ステップ1
14に進む。このステップ114においては、上記構造
単位終端記号の処理の際に構造終了フラグがセットされ
たので、「YES」となり、ステップ118〜121が
実行され、その後、ステップ115〜117が実行され
た後、図5のステップ103に戻る。この場合、ステッ
プ120の実行により、変換構造94Bの開始記号の属
性には“なし”の値がセットされ、ステップ121の実
行により、構造なの属性にはメモリスタックの状態84
での構造2を示す値「2」がセットされ、ステップ11
5の実行により、終端記号の属性には“<構造単位終端
記号1>”がセットされる。さらにステップ117の実
行により、メモリスタックは空き状態となる。
【0058】以上の処理で、出力ファイルには、図4に
示す構造の内容91A〜94A、変換構造91B〜94
Bが作成されたことになる。
【0059】このように変換された構造を、元のフォー
マットに再変換する場合は以下のようにする。即ち、再
変換部40は、図4に示される最小単位の部品に相当す
る構造を順に変換する。ここで、最小単位の部品に相当
する変換構造には、開始記号、終端記号、構造名の各属
性が設定されているため、それに従って変換する。
【0060】それぞれ1つの最小単位の部品に相当する
構造を変換するには、以下のルールに従う。
【0061】[ルール1]開始記号の属性が設定されて
いた場合は、その属性値を出力する。一方、“なし”が
設定されている場合は何も出力しない。
【0062】[ルール2]構造の内容を変換する。
【0063】[ルール3]終端記号の属性が設定されて
いた場合は、その属性値を出力する。一方、“なし”が
設定されている場合は何も出力しない。
【0064】以上説明したように本実施例によれば、入
れ子構造を、構造単位開始記号及び構造単位終端記号に
基づいて最小単位の部品に分割し、該最小単位の部品群
に対応して、構造単位開始記号、構造単位終端記号、及
び部品が属していた構造を特定するための構造情報をフ
ラットな構造として保持し、更に、このフラットな構造
の保持内容に従って前記分割した最小単位の部品群を、
元の入れ子構造に再変換しているので、自由な入れ子構
造を許す文書フォーマットを、入れ子構造を許さない或
いは特定の入れ子構造のみを許す構造化文書フォーマッ
トに変換することができる。しかも、この変換後の構造
化文書フォーマットを、元の自由な文書フォーマットに
変換することができる。
【0065】また、入れ子構造を許さない或いは特性の
入れ子構造のみを許す構造化文書フォーマットであらゆ
る入れ子構造を許すことができる。
【0066】
【発明の効果】以上説明したように本発明によれば、分
割処理手段が、1つ以上の開始記号及び1つ以上の終端
記号を含んで構成される第1の形式の文書構造を有する
構造化文書についての当該第1の形式の文書構造を、前
記開始記号及び終端記号に基づいて最小単位の部品に分
割と、その最小単位の部品群それぞれに対応して、該部
品の前記第1の形式の文書構造中における位置を特定す
るための情報を示す構造情報、開始記号及び終端記号が
保持手段に保持され、そして、再変換手段は、分割処理
手段により分割された最小単位の部品群を、前記保持手
段の保持内容に基づいて元の第1の形式の文書構造に再
変換しているので、第1の形式の文書構造を有する構造
化文書を、第2の形式の文書構造を有する他の構造化文
書に変換することができ、しかも変換後の第2の形式の
文書構造を第1の形式の文書構造に変換して、変換後の
他の構造化文書を元の構造化文書に再変換することがで
きる。例えば、入れ子構造などの任意の構造を許す構造
化文書を、入れ子構造を許さない他の構造化文書に変換
でき、しかも変換後の他の構造化文書を元の構造化文書
に戻すことができる。
【図面の簡単な説明】
【図1】本発明に係る文書変換装置の一実施例を示す機
能ブロック図。
【図2】入れ子構造を最小単位の部品に分割した一例を
示す図。
【図3】メモリスタックに格納される最小単位の部品に
対応する構造情報の状態遷移の様子を示す図。
【図4】最小単位の部品を、対象のフォーマットに変換
した構造の一例を示す図。
【図5】構造化文書をフォーマットの異なる他の構造化
文書に変換するための変換処理動作を示すフローチャー
ト。
【図6】構造化文書をフォーマットの異なる他の構造化
文書に変換するための変換処理動作を示すフローチャー
ト。
【図7】構造化文書をフォーマットの異なる他の構造化
文書に変換するための変換処理動作を示すフローチャー
ト。
【符号の説明】
10…分割処理部、20…記憶部、30…保存部、40
…再変換部、50…元の文書ファイル、60…再変換さ
れた文書ファイル。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 1つ以上の開始記号及び1つ以上の終端
    記号を含んで構成される第1の形式の文書構造を有する
    構造化文書についての当該第1の形式の文書構造を、第
    2の形式の文書構造に変換する文書変換装置において、 前記第1の形式の文書構造を前記開始記号及び終端記号
    に基づいて最小単位の部品に分割する分割処理手段と、 前記分割された最小単位の部品群それぞれに対応して、
    該部品の前記第1の形式の文書構造中における位置を特
    定するための情報を示す構造情報を記憶する記憶手段
    と、 前記最小単位の部品群それぞれに対応して、開始記号、
    終端記号及び構造情報を保持する保持手段と、 前記最小単位の部品群を、前記保持手段の保持内容に基
    づいて前記第1の形式の文書構造に再変換する再変換手
    段とを具備したことを特徴とする文書変換装置。
JP6066237A 1994-04-04 1994-04-04 文書変換装置 Pending JPH07282041A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6066237A JPH07282041A (ja) 1994-04-04 1994-04-04 文書変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6066237A JPH07282041A (ja) 1994-04-04 1994-04-04 文書変換装置

Publications (1)

Publication Number Publication Date
JPH07282041A true JPH07282041A (ja) 1995-10-27

Family

ID=13310056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6066237A Pending JPH07282041A (ja) 1994-04-04 1994-04-04 文書変換装置

Country Status (1)

Country Link
JP (1) JPH07282041A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125831A (ja) * 1999-09-30 2001-05-11 Nec Corp データスクランブル方法、データ配信装置、データスクランブラー、及び記録媒体
JP2004287978A (ja) * 2003-03-24 2004-10-14 Toshiba Corp 構造化文書の分割方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125831A (ja) * 1999-09-30 2001-05-11 Nec Corp データスクランブル方法、データ配信装置、データスクランブラー、及び記録媒体
JP2004287978A (ja) * 2003-03-24 2004-10-14 Toshiba Corp 構造化文書の分割方法及びプログラム

Similar Documents

Publication Publication Date Title
AU2003243169B2 (en) System and method for processing of XML documents represented as an event stream
US7694284B2 (en) Shareable, bidirectional mechanism for conversion between object model and XML
US20040205731A1 (en) XML-based multi-format business services design pattern
JP4997777B2 (ja) デリミタを減少させる方法及びシステム
CA2413697A1 (en) Transformations as web services
JP2006221653A (ja) 文書分析において受付状態を決定するシステム及び方法
US7263656B2 (en) Method and device for scheduling, generating and processing a document comprising blocks of information
JP4099948B2 (ja) 構造化文書をプログラム言語の構造体データへマッピングするシステム及び方法及びプログラム
CN101189594B (zh) 用于在打包模型的组件与包的物理表示的特征之间进行映射的方法和系统
JP2006221656A (ja) データ文書の高速符号化方法及びシステム
JP2013008395A (ja) アクセプタンス状態の表示システム及び方法
JPH07282041A (ja) 文書変換装置
McCurry RTOSC: Realtime safe open sound control messaging
KR20080100344A (ko) Edi 스키마에 대응하는 파일 개발 방법, 파일 생성 시스템, 및 컴퓨터 판독가능 매체
JP2006221655A (ja) スキーマをコンパイルする方法とシステム
KR100519916B1 (ko) 에스씨에이 기반 시스템의 파일 파싱 장치, 그리고 그의파일 파싱 및 데이터 저장 방법
JP3110359B2 (ja) Rtf−html相互変換方式
US20080208876A1 (en) Method of and System for Providing Random Access to a Document
US20020165879A1 (en) TD/TDX universal data presentation system and method
US20040015780A1 (en) Position-independent access to data elements in an electronic document
CN117289915B (zh) 基于配置表的星载软件代码生成方法和装置
JP2003140960A (ja) Xmlデータのデータ変換方法及びプログラム
CN101571872A (zh) 一种网络数据的处理方法和系统
JPH10232868A (ja) 文書処理装置
JPH0550694A (ja) フオームマージ方式