JP2003203067A

JP2003203067A - 構造化文書変換方法およびデータ変換方法

Info

Publication number: JP2003203067A
Application number: JP2001401934A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Hironori Yahagi; 裕紀矢作; Nobuko Itani; 宣子井谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-12-28
Filing date: 2001-12-28
Publication date: 2003-07-18
Anticipated expiration: 2021-12-28
Also published as: JP4163870B2; US20030158854A1

Abstract

(57)【要約】【課題】構造化文書に対する操作に必要となるリソース
を軽減し、構造化文書を処理する際におけるメモリ使用
量削減と処理速度の高速化との両方を実現する。【解決手段】変換対象の構造化文書を成す要素をキー
要素と非キー要素とに分け、所定のタグ名および所定の
属性名を付与された新たな要素を作成し非キー要素のタ
グ名を含むタグ名文字列を作成しこのタグ名文字列を新
たな要素において所定の属性名に対応する属性値として
記述するタグ名変換を行ない、非キー要素の内容を含む
内容文字列を作成しこの内容文字列を新たな要素の内容
として記述する内容変換を行ない、キー要素を、変換後
の構造化文書においてそのまま記述する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＸＭＬ(eXtensibl
e Markup Language)等の構造化文書を取り扱うシステム
に適用される技術に関し、そのシステムにおいて処理速
度を高速化するとともに使用メモリ量を削減すべく、構
造化文書のデータ構造や、構造化文書を成す文字列を変
換するための技術に関する。

【０００２】ＸＭＬ文書は、その特徴によって、次の２
種類に大きく分類される。一つは、伝票，予定表など，
タグ数が多く、要素内容が比較的短い、データ系ＸＭＬ
文書である。また、もう一つは、雑誌，マニュアル，辞
典など、要素内容が比較的長い文章になる文書系ＸＭＬ
文書である。本発明は、前者のデータ系ＸＭＬ文書を処
理対象とする場合に用いて好適の技術で、特に、表形式
で表わされ、データベースのように扱われるＸＭＬ文書
を処理対象とする場合に用いて好適の技術である。

【０００３】

【従来の技術】近年、インターネットを通して、個人，
企業，自治体など、あらゆる種類のシステムが相互に通
信可能に接続されており、これらのシステムが相互に連
携してＷｅｂサービスが提供されたりＥＤＩ（Electron
ic Data Interchange）やＥＣ（Electronic Commerce）
が行なわれたりしつつある。このため、幅広い情報の交
換が必要になってきている。このような状況下におい
て、ＸＭＬは、データを構造化する柔軟な表現能力を有
し、コンピュータによる処理に適しているので、上記の
システム間のデータ交換や各システムでのデータ処理を
行なう際の、共通基盤のフォーマットとして注目されて
いる。

【０００４】ＸＭＬは、１９８６年ＩＳＯ（Internatio
nal Organization for Standardization）で標準化され
たＳＧＭＬ(Standard Generalized Markup Language)を
インターネットで活用し易くするために、１９９８年２
月にその基本仕様ＸＭＬ1.0としてＷ３Ｃ(World Wide W
eb Consortium)において策定されたものである。Ｗｅｂ
ページ作成言語であるＨＴＭＬ(HyperText Markup Lang
uage)は、タグが固定され、表示に特化されたものとな
っており、タグ情報を基にコンピュータで情報を処理し
たいという要件に対応することができないという問題が
あった。これに対し、ＸＭＬは、利用者によって自由に
タグを定義され、文書中の文字列に対し意味付けを行な
える言語構造を有している。このようなＸＭＬで文書を
記述した場合、その文書を、タグ情報に基づいてコンピ
ュータで処理することが可能になる。

【０００５】ここで、以下の説明で使用される用語につ
いて、ＸＭＬ規格に基づき説明しておく。一対の“<”
と“>”とで囲まれた文字列を「タグ」、“<文字列>”
を「開始タグ」、“</文字列>”を「終了タグ」、“<文
字列/>”を「空要素タグ」、開始タグから終了タグまで
の文字列全体を「要素」、開始タグと終了タグとで挟ま
れた文字列を「要素内容（単に内容と呼ぶ場合もあ
る）」、タグ内に記述される要素の名前を「要素名(あ
るいはタグ名)」、要素に対する付加情報を「属性」と
呼ぶ。

【０００６】構造化文書では、その文書中にタグを埋め
込む形でデータ構造が記述される。このようにデータ構
造をタグとして文書に埋め込んだ構成を採ることによ
り、データ項目の追加削除変更に対して柔軟性や拡張性
が得られるほか、タグ名に、ユーザが読んで意味のある
名前を付けることにより、その構造化文書データに視認
性を持たせることもできる。

【０００７】ところで、ＸＭＬ文書に対する処理の高速
化やメモリ使用量の削減等をはかってＸＭＬ文書に対す
る処理性能を向上させる際には、一般に、基盤ソフトウ
エアの実装の高性能化をはかることが主流になってい
る。しかし、このような手法のほかに、ＸＭＬ文書自体
に予め加工を施しておくことによっても、ＸＭＬ文書に
対する処理性能を向上させることが可能である。本発明
は、後者の手法（ＸＭＬ文書を加工して処理性能の向上
をはかる手法）に関連するものであり、ここで、後者の
手法に係る従来技術について説明する。

【０００８】〔ａ１〕従来技術１日経コンピュータ誌2001.3.12号の記事「見えてきた万
能幻想の真実ＸＭＬの“常識”を覆す」に、ＸＭＬ導入
時に処理速度が遅くなる問題が発生し、データ構造を変
更することにより、問題に対処する事例が開示されてい
る。住友電工システムズの例(同誌のp.64-65参照)で
は、同種のデータを、ＣＳＶ(Comma Separated Value)
形式でまとめて記述し、まとめられたデータを、ＸＭＬ
データ中の一つのタグ中に埋め込む。例えば、ＸＭＬデ
ータの定義情報を変更し、１カ月分のＸＭＬデータを日
付順にコンマで区切ってまとめている。

【０００９】具体的には、 <KOUSU day="01">8.0</KOUSU><KOUSU day="02">5.5</KOUSU>… …<KOUSU day="31">12.8</KOUSU> というように、別々のタグに記述されていた毎日の実績
に関するデータを、 <KOUSU day="01,02,…,31" data="8.0,5.5,…,12.8"></
KOUSU> といった形式で、月単位にまとめるように、元の文書を
書き換えている。

【００１０】このような変更により、１ヶ月分のデータ
を参照する際には、データベース・サーバへの照会は１
回で済むようになり、ＸＭＬの定義情報の送信も１回だ
けで済むほか、データ容量も１０分の１に減ったとして
いる。このような従来技術１による手法は、データ処理
に用いられる同種のデータを一つのタグにまとめるもの
であって、同種のデータを持つ特定のデータに適用され
る技術であり、改善の効果はデータに依存する。

【００１１】〔ａ２〕従来技術２ＸＭＬ文書のレコード項目（フィールド）が、データ処
理の対象となるキー要素（鍵要素）と、そのデータ処理
の対象とならない要素（非キー要素，非鍵要素）とに分
けられる場合、下記項目〔ａ２−１〕，〔ａ２−２〕に
示すように、キー要素を残し、非キー要素をまとめて別
ファイルにすることができる。このとき、非キー要素
は、キー要素から、属性としての識別情報(id)を用いて
引用される。このような従来技術２では、キー要素だけ
でデータ処理する場合には、キー要素のみに負荷を限定
することができるが、検索の用途などで対象レコードを
抽出し、キー要素と非キー要素とを一緒に表示したい場
合には、非キー要素を別ファイルから読み出してキー要
素と一緒にする必要があり、非常に手間がかかる。

【００１２】〔ａ２−１〕原ＸＭＬ文書の具体例 <名簿> <個人><名前>Aさん</名前><会社>A社</会社><部署>A部<
/部署><住所>A市</住所><電話>123</電話></個人> <個人><名前>Bさん</名前><会社>B社</会社><部署>B部<
/部署><住所>B市</住所><電話>456</電話></個人> </名簿>

【００１３】〔ａ２−２〕２つのファイルへの分割例上記原ＸＭＬ文書のうち、キー要素(名前，会社)と非キ
ー要素（部署，住所，電話）とを別々のファイル、つま
りキー要素のＸＭＬ文書と非キー要素のＸＭＬ文書とに
分け、キー要素のＸＭＬ文書では、新たにタグ名「情
報」の空要素タグを作成するとともに、その空要素タグ
における属性(id)によってキー要素と非キー要素のＸＭ
Ｌ文書とを関連付ける。別ファイルで、タグ名「情報」
の要素に非キー要素をまとめておき、ｉｄ属性と対応す
る属性(ref)を用いて非キー要素を参照する。

【００１４】・キー要素のＸＭＬ文書 <名簿> <個人><名前>Aさん</名前><会社>A社</会社><情報 id="
1"/></個人> <個人><名前>Bさん</名前><会社>B社</会社><情報 id="
2"/></個人> </名簿>

【００１５】・非キー要素のＸＭＬ文書 <名簿> <情報 ref="1"><部署>A部</部署><住所>A市</住所><電
話>123</電話></情報> <情報 ref="2"><部署>B部</部署><住所>B市</住所><電
話>456</電話></情報> </名簿>

【００１６】〔ａ３〕従来技術３従来技術３では、ＸＭＬデータの階層を指定して、それ
以下の階層におけるデータをＸＭＬ専用の圧縮ソフトＸ
ＭＬＺｉｐにより圧縮する。データベース形式のＸＭＬ
データでは、レコード毎に圧縮ファイルが作成され、圧
縮されたＸＭＬデータを部分的に復元することができる
ようになっている。ＸＭＬ文書をレコード毎に解凍でき
るようにすることで、メモリの制約を回避することがで
きる。ただし、このような従来技術３では、１レコード
当たりのサイズ（データ量）が大きくない場合には、有
効な圧縮率を得ることができない。

【００１７】

【発明が解決しようとする課題】ところで、代表的な構
造化文書であるＸＭＬ文書に対しては、そのＸＭＬ文書
を応用ソフトウエア（アプリケーション）によって扱う
ために、ＤＯＭ(Document Object Model)とＳＡＸ(Simp
le API for XML)と呼ばれる、２つの標準的なインター
フェイス(ＡＰＩ：Application Programming Interfac
e)が定められている。ＳＡＸは、一般に処理速度が高速
で、処理時のメモリ使用量が小さいが、時系列出力を行
なうものであり、データを参照するだけの簡単な処理に
向くという特徴を有している。これに対し、ＤＯＭは、
一般に処理速度が低速で、処理時のメモリ使用量が大き
いが、ＸＭＬ文書の要素を階層的なツリー（ＤＯＭツリ
ー）に展開するため、複雑な処理内容に対してもプログ
ラムを組みやすいという特徴を有している。

【００１８】一般に、ＸＭＬ文書に対して検索・更新・
削除などの操作を施す場合、操作対象のＸＭＬ文書を標
準ＡＰＩ（ＤＯＭ）でＤＯＭツリーに展開してから、そ
の操作を施すことになる。しかし、ＸＭＬ文書をＤＯＭ
ツリーに展開する際には、元のデータ量の６倍もの膨大
な動作メモリ容量が必要となる上、使用されない項目
（操作対象外の項目）も一緒に展開されてしまうため、
展開処理に多大な時間を要している。

【００１９】つまり、標準ＡＰＩ（ＤＯＭ）によるメモ
リ使用量が大きく処理速度が遅くなるのは、ＸＭＬ文書
を取り扱うアプリケーションにおいて、データ処理の対
象とならない要素も含む全ての要素がメモリ上に展開さ
れるからである。従って、処理速度やメモリ使用量は、
構造化文書の要素数に比例して増加することになる。そ
こで、ＸＭＬ文書自体に予め加工を施して、ＸＭＬ文書
に対する処理性能を向上させるべく、上述のような従来
技術１，２も提案されている。

【００２０】しかし、上述した従来技術１による手法で
は、データ処理に用いられる同種のデータが一つのタグ
にまとめられているが、この手法は、同種のデータを持
つ特定のデータに適用され、メモリ使用量削減や処理速
度の高速化についての改善効果はデータに依存すること
になる。また、上述した従来技術２では、データ処理の
対象となるキー要素と、使用されない要素とを別々のフ
ァイルに分けているが、キー要素と非キー要素とを一緒
に表示したい場合、非キー要素を別ファイルから読み出
してキー要素と一緒にしなければならず、非常に手間が
かかることになる。

【００２１】従って、ＸＭＬデータの構造を事前に変換
する場合には、その変換手法を種々のＸＭＬデータに適
用することができるように汎用のデータ構造変換法を考
える必要がある。また、変換後のＸＭＬデータも有効な
データ構造を有するように変換を行なう必要があるほ
か、応用ソフトウエアに対してのトランスペアレント性
（透過性）を確保する必要もある。ここで、トランスペ
アレント性は、応用ソフトウエアが、処理対象の変換後
ＸＭＬ文書に対して、修正を行なうことなく、もしく
は、わすかな修正を行なうだけで、変換後ＸＭＬ文書を
そのまま使えることを意味する。このトランスペアレン
ト性は、変換後のＸＭＬ文書を、既存の応用ソフトウエ
アで実行する際に重要な性質である。

【００２２】一方、上述した従来技術３では、ＸＭＬデ
ータのレコード毎に圧縮ファイルを作成しているが、そ
の圧縮ファイルは、通常、バイナリデータであるため、
文字コードのみからなるＸＭＬ文書内に置くことができ
ず、別ファイルとして保存されることになる。従って、
ＸＭＬ文書内の所定レコードを参照する必要がある場合
には、そのレコードを別ファイルから読み出して解凍し
なければならず、非常に手間がかかることになる。この
ため、ＸＭＬ文書を効率良く圧縮しながら、その圧縮結
果をＸＭＬ文書内に置くことができるようにした（つま
り圧縮結果を文字コードの形で得られるようにした）圧
縮方法の開発が望まれている。

【００２３】本発明は、このような課題に鑑み創案され
たもので、アプリケーションに対するトランスペアレン
ト性や変換された構造化文書のデータ構造の有効性を確
保しながら、非キー要素を一つの要素にまとめるデータ
構造変換処理を、種々の構造化文書データに施すことが
できるようにした汎用の変換技術を提供することによ
り、構造化文書に対する操作に必要となるリソースを軽
減し、構造化文書を処理する際におけるメモリ使用量削
減と処理速度の高速化との両方を実現することを目的と
する。

【００２４】また、本発明は、構造化文書を効率良く圧
縮しながら、その圧縮結果を文字コードの形で得て構造
化文書内に置くことができるようにした圧縮変換技術を
提供することにより、構造化文書に対する操作に必要と
なるリソースを軽減し、構造化文書を処理する際におけ
るメモリ使用量削減と処理速度の高速化との両方を実現
することを目的とする。

【００２５】

【課題を解決するための手段】上記目的を達成するため
に、本発明の構造化文書変換方法（請求項１）は、変換
対象の構造化文書を成す要素をキー要素と非キー要素と
に分け、所定のタグ名および所定の属性名を付与された
新たな要素を作成し、該非キー要素のタグ名を含むタグ
名文字列を作成し、該タグ名文字列を、該新たな要素に
おいて前記所定の属性名に対応する属性値として記述す
るタグ名変換を行ない、該非キー要素の内容を含む内容
文字列を作成し、該内容文字列を、該新たな要素の内容
として記述する内容変換を行ない、該キー要素を、変換
後の構造化文書において、そのまま（該キー要素に対し
何の変換も施すことなく）記述することを特徴としてい
る。

【００２６】また、本発明の構造化文書変換方法（請求
項２）は、変換対象の構造化文書を成す要素をキー要素
と非キー要素とに分け、所定のタグ名を付与された新た
な要素を作成し、該非キー要素の記述中においてタグ付
けに関連する記号をタグ付けに関連しない文字列に置き
換えた文字列を作成し、該文字列を、該新たな要素の内
容として記述し、該キー要素を、変換後の構造化文書に
おいて、そのまま（該キー要素に対し何の変換も施すこ
となく）記述することを特徴としている。

【００２７】さらに、本発明の構造化文書変換方法（請
求項３）は、変換対象の構造化文書を成す要素をキー要
素と非キー要素とに分け、所定のタグ名を付与された新
たな要素を作成し、該非キー要素を成す文字もしくは文
字列に対し出現頻度の高いものほど短い可変長符号を割
り付ける可変長符号化を行ない、該可変長符号化により
得られたバイナリデータを６ビットずつ１バイトの変換
データにパッキングし、各変換データにパッキングされ
た６ビットデータをＡＳＣＩＩ（American Standard Co
de for Information Interchange）コードに従う文字コ
ードに変換することにより、該非キー要素を、該文字コ
ードからなる圧縮文字列に変換し、該圧縮文字列を、該
新たな要素の内容として記述し、該キー要素を、変換後
の構造化文書において、そのまま（該キー要素に対し何
の変換も施すことなく）記述することを特徴としてい
る。

【００２８】一方、本発明のデータ変換方法（請求項
４）は、変換対象の文字もしくは文字列に対し、出現頻
度の高いものほど短い可変長符号を割り付ける可変長符
号化を行ない、該可変長符号化により得られたバイナリ
データを６ビットずつ１バイトの変換データにパッキン
グして出力することを特徴としている。このとき、さら
に、各変換データにパッキングされた６ビットデータを
ＡＳＣＩＩコードに従う文字コードに変換し、該変換デ
ータ毎に得られた該文字コードを、前記変換対象の文字
もしくは文字列の圧縮変換結果として出力してもよい
（請求項５）。

【００２９】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。標準ＡＰＩとしてＤＯＭを採用し
構造化文書をメモリ上へＤＯＭツリーとして展開する場
合、一般に、構造化文書中の要素数が多いほど、その展
開処理に時間がかかり、タグ検索にも時間がかかること
になる。

【００３０】構造化文書中には、通常、その構造化文書
に対するデータ処理の対象となるキー要素と前記データ
処理の対象とならない非キー要素とが含まれており、構
造化文書を成す要素は、キー要素と非キー要素とに分け
ることができる。つまり、応用ソフトウエア（アプリケ
ーション）により構造化文書に対するデータ処理を行な
う際には、キー要素のみが処理の対象とされ、タグ名で
キー要素の検索を行ない、検索されたキー要素の内容が
参照される。

【００３１】そこで、本発明（第１〜第３実施形態）で
は、変換対象の構造化文書を、１レコード中で、キー要
素については何の変換も施すことなくそのまま記述する
とともに、非キー要素を一つのタグにまとめて記述した
構造化文書に変換している。以下、本実施形態では、構
造化文書がＸＭＬ文書である場合について説明する。

【００３２】〔１〕第１実施形態の説明本発明の第１実施形態では、説明を簡単にするため、ま
ず、各レコードの要素が１階層であるＸＭＬ文書の変換
方法について説明した後、要素が２以上の階層を成して
いるレコードや、属性を有する要素を含むレコードが含
まれるＸＭＬ文書の変換方法について説明する。

【００３３】〔１−１〕第１実施形態の構造化文書変換
方法の原理ここで、図１（Ａ），図１（Ｂ）および図３（Ａ）を参
照しながら、本発明の第１実施形態としての構造化文書
変換方法の原理について説明する。図３（Ａ）に示す変
換対象のＸＭＬ文書は２つのレコード（タグ名“個
人”）を有している。一方のレコードは、タグ名“名
前”，“会社”，“部署”，“住所”，“電話”の要素
を一つずつ有している。また、もう一方のレコードは、
タグ名“名前”，“会社”，“部署”の要素を一つずつ
有するとともに、タグ名“電話”の要素を二つ有してい
る。これら二つのレコードにおいては、要素の種類や数
が異なっているため、図３（Ａ）に示すＸＭＬ文書は表
形式ではない。図３（Ａ）に示すＸＭＬ文書のメモリ展
開形式を図１（Ａ）に示す。この図１（Ａ）では、図３
（Ａ）に示すＸＭＬ文書をメモリ上へＤＯＭツリーとし
て展開した例が示されている。

【００３４】上述のような要素を有するＸＭＬ文書にお
いて、タグ名“名前”，“会社”の要素をキー要素とす
るとともにタグ名“部署”，“住所”，“電話”の要素
を非キー要素とし、このＸＭＬ文書に対し、第１実施形
態の構造化文書変換方法を適用して得られた変換後ＸＭ
Ｌ文書のメモリ展開形式を図１（Ｂ）に示す。なお、こ
こで示す展開形式は、応用ソフトウエアが標準ＡＰＩ
（ＤＯＭ）を介して変換後ＸＭＬ文書を操作するとき
の、メモリ上への展開形式である。

【００３５】この図１（Ｂ）に示す変換後ＸＭＬ文書
は、図３（Ｂ）〜図３（Ｄ）を参照しながら後述するＸ
ＭＬ文書に対応するもので、この図１（Ｂ）では、図３
（Ｂ）〜図３（Ｄ）に示すＸＭＬ文書をメモリ上へＤＯ
Ｍツリーとして展開した例が示されている。図１（Ｂ）
に示すＸＭＬ文書では、タグ名“情報”を有する新たな
要素が作成され、この新たな要素の内容として、タグ名
“部署”，“住所”，“電話”の非キー要素の内容がま
とめて記述されている。

【００３６】つまり、一方のレコードでは、タグ名“情
報”の要素の内容として“Ａ部，Ａ市，123”が記述さ
れ、もう一方のレコードでは、タグ名“情報”の要素の
内容として“Ｂ部，456，789”が記述されている。ま
た、タグ名“名前”，“会社”のキー要素については、
元のまま記述されている。このようにして非キー要素を
一つの要素にまとめるようにＸＭＬ文書を変換すること
によって、ＸＭＬ文書中に含まれる要素の数、つまりメ
モリ上に展開されたツリーの子要素の数を大幅に減らす
ことができ、展開時やデータ処理時に非キー要素を一括
して扱うことができる。

【００３７】〔１−２〕第１実施形態のシステムおよび
変換／逆変換処理の流れ図２は、本発明の第１実施形態としての構造化文書変換
方法を適用されるシステムおよびそのシステムにおける
変換／逆変換処理の流れを説明するための図である。多
様な種類のＸＭＬ文書に対して、各ＸＭＬ文書に応じた
スタイルシート〔ＸＳＬ(ＸＭＬ Style Language)シー
ト〕を一々作成するのは極めて面倒で手間がかかる。

【００３８】そこで、その手間を省くため、第１実施形
態では、図９，図１２〜図１５および図１７を参照しな
がら後述するごとく、ＸＭＬ文書のデータ構造を変換す
るための仕様（レコード名，キータグ名，非キータグ名
等）をＸＭＬ文書（変換仕様文書）によって作成して変
換実行手順を与え、図１８および図１９を参照しながら
後述するごとく、その変換仕様文書に基づいてＸＭＬ文
書の変換／逆変換を実行する。

【００３９】さらに、第１実施形態では、図２０（Ａ）
〜図２０（Ｄ）を参照しながら後述するごとく、与えら
れた変換仕様文書に基づいて、変換実行手順を指示する
変換用スタイルシートや、逆変換実行手順を指示する逆
変換用スタイルシートを自動的に生成し、このスタイル
シートを用いて、構造化文書変換プロセッサ〔ＸＳＬＴ
(ＸＭＬ Style Language Translator)プロセッサ〕に、
ＸＭＬ文書に対するデータ構造変換／逆変換を実行させ
ている。このように変換／逆変換の実行手順をスタイル
シートで与えるようにすれば、標準のＸＳＬＴプロセッ
サで変換／逆変換を実行することができるので、ほとん
どあらゆる種類のＸＭＬ文書システムにおいて第１実施
形態による変換／逆変換処理を実行することができる。

【００４０】図２に示すシステムでは、ＸＳＬＴ変換部
１１，ＸＳＬＴ構造変換部１２およびＸＳＬＴ逆変換部
１３からなるデータ構造変換／逆変換機構１０がそなえ
られるとともに、標準ＡＰＩ２０および応用ソフトウエ
ア３０がそなえられている。なお、ＸＳＬＴ変換部１
１，ＸＳＬＴ構造変換部１２およびＸＳＬＴ逆変換部１
３（データ構造変換／逆変換機構１０）は、実際には、
一つの標準のＸＳＬＴプロセッサ（構造化文書変換プロ
セッサ）によって実現される。

【００４１】ＸＳＬＴ変換部１１は、ＸＭＬ文書によっ
て与えられ、キー要素と非キー要素との区別情報等を記
したデータ構造変換の仕様（例えば図９参照）を読み込
み、そのＸＭＬ文書と自動変換スタイルシートとによ
り、構造変換用スタイルシート（例えば図１０参照）お
よび逆変換用スタイルシート（例えば図１１参照）を生
成するものである。

【００４２】ＸＳＬＴ構造変換部１２は、変換対象のＸ
ＭＬ文書（入力ＸＭＬ文書）を読み込み、ＸＳＬＴ変換
部１１により生成された構造変換用スタイルシートに基
づいて、入力ＸＭＬ文書に対し、レコード毎に非キー要
素を一つの要素にまとめるデータ構造変換を施すもので
ある。

【００４３】標準ＡＰＩ２０および応用ソフトウエア
（アプリケーション）３０は、いずれも、プロセッサに
よって実行され、ＸＳＬＴ構造変換部１２からの変換後
ＸＭＬ文書に対して所定のデータ処理を施すためのもの
である。そのプロセッサとしては、データ構造変換／逆
変換機構１０を実現するためのＸＳＬＴプロセッサを用
いてもよいし、このＸＳＬＴプロセッサとは別のプロセ
ッサを用いてもよい。

【００４４】ＸＳＬＴ逆変換部１３は、応用ソフトウエ
ア３０により処理されたＸＭＬ文書（抽出ＸＭＬ文書，
変換後ＸＭＬ文書）を読み込み、ＸＳＬＴ変換部１１に
より生成された逆変換用スタイルシートに基づいて、抽
出ＸＭＬ文書を元の形式のＸＭＬ文書（非キー要素を元
の状態に戻したＸＭＬ文書）に復元するための逆変換を
実行し、復元結果を抽出最終結果として出力するもので
ある。

【００４５】上述のごとく構成されたシステムにおい
て、データ構造変換/逆変換機構（ＸＳＬＴプロセッ
サ）１０は、ＸＭＬ文書による変換仕様文書を読み込む
とともに、処理対象の入力ＸＭＬ文書を読み込み、変換
仕様（実際には構造変換用スタイルシート）に基づいて
入力ＸＭＬ文書を変換し、所定のデータ構造変換を施し
たＸＭＬ文書を出力する。そして、変換されたＸＭＬ文
書に対しては、標準ＡＰＩ２０を介して応用ソフトウエ
アによりデータ処理（例えばタグ検索）が施され、デー
タ処理後のＸＭＬ文書が得られる。なお、データ処理と
してタグ検索を行なった場合、検索結果が抽出ＸＭＬ文
書の形で得られる。この抽出ＸＭＬ文書は、データ構造
変換／逆変換機構１０に読み込まれ、変換仕様（実際に
は逆変換用スタイルシート）に基づいて元のデータ構造
のＸＭＬ文書に逆変換され、最終的なデータ処理結果と
してのＸＭＬ文書が得られる。

【００４６】なお、第１実施形態において、ＸＳＬＴ変
換部１１に読み込まれるデータ構造変換用の仕様ＸＭＬ
文書については、図９，図１２〜図１５および図１７を
参照しながら後述する。また、ＸＳＬＴ変換部１１によ
って生成される構造変換用スタイルシートおよび逆変換
用スタイルシートについては、それぞれ図１０および図
１１を参照しながら後述する。

【００４７】〔１−３〕第１実施形態における、非表形
式ＸＭＬ文書の変換方法および具体的な変換例第１実施形態の変換方法を表形式でないＸＭＬ文書（非
表形式ＸＭＬ文書）に適用した場合、非キー要素のタグ
名を含むタグ名文字列、および、非キー要素の内容を含
む内容文字列が作成され、これらの文字列が、新たに作
成された要素において要素内容，タグ名もしくは属性値
として記述される。

【００４８】このとき、タグ名文字列は、区切り記号を
介して複数の非キー要素のタグ名を繋いで作成されると
ともに、内容文字列も、同様に、区切り記号を介して複
数の非キー要素の内容を繋いで作成される。第１実施形
態では、区切り記号としてコンマ“，”を用いる。ここ
で、タグ名や内容の繋ぎ方としてはＣＳＶ(Comma Separ
ated Value)形式を用いる。ＣＳＶは、本来、コンマを
介して数値や文字列を繋ぐ方法であり、区切り記号をコ
ンマに限っているが、本発明では、区切り記号をコンマ
に限る必要はない。

【００４９】区切り記号としてコンマを用いた場合、要
素内容が金額であると、千の位を表わすコンマと混同す
るおそれがあるため、コンマよりも“@”（アットマー
ク）や“_”（アンダーバー）を用いる。また、区切り
記号を介して文字列を繋ぐ際にその文字列中に区切り記
号が文字として含まれている場合には、その文字を実体
参照の形に置き換えてもよい。例えばコンマを区切り記
号とした場合に文字列中のコンマについては、実体参照
記述である“&CMM;”に置き換える。従って、できれ
ば、区切り記号としては、通常の文字列に、滅多に現わ
れない文字を用いることが望ましい。本実施形態では、
コンマに限らず、区切り記号を介して、数値や文字列を
繋ぐ方法を、便宜上、ＣＳＶと呼ぶことにする。

【００５０】図３（Ｂ）〜図３（Ｆ）においては、それ
ぞれ、図３（Ａ）で前述した表形式でないＸＭＬ文書
に、第１実施形態の構造化文書変換方法を適用して得ら
れた変換結果の第１〜第５具体例が示されている。ここ
でも、タグ名“名前”，“会社”の要素をキー要素と
し、タグ名“部署”，“住所”，“電話”の要素を非キ
ー要素とする。

【００５１】第１実施形態の変換方法では、基本的に、
変換対象のＸＭＬ文書を成す要素をそのＸＭＬ文書に対
してデータ処理の対象となるキー要素とそのデータ処理
の対象とならない非キー要素とに分け、新たな要素を作
成し、非キー要素に対してはタグ名変換および内容変換
を施す一方、キー要素については、変換後のＸＭＬ文書
においても、何の変換も施すことなくそのまま記述す
る。

【００５２】図３（Ｂ）に示す第１具体例では、タグ名
“情報”および属性名“tags”を付与された新たな要素
を作成した上で、タグ名変換により、非キー要素につい
てのタグ名文字列をＣＳＶ形式で作成し、そのタグ名文
字列を、新たな要素において属性名“tags”に対応する
属性値として記述している。また、内容変換により、非
キー要素についての内容文字列をＣＳＶ形式で作成し、
この内容文字列を、新たな要素の内容として記述してい
る。

【００５３】つまり、図３（Ｂ）に示す変換後ＸＭＬ文
書の第１レコードでは、タグ名“情報”の要素におい
て、内容文字列“Ａ部，Ａ市，123”が要素内容として
記述され、タグ名文字列“部署，住所，電話”が属性名
“tags”の属性値として記述されている。また、第２レ
コードでは、タグ名“情報”の要素において、内容文字
列“Ｂ部，456，789”が要素内容として記述され、タグ
名文字列“部署，電話，電話”が属性名“tags”の属性
値として記述されている。

【００５４】このとき、図１２や図１４を参照しながら
後述するごとく、変換仕様文書において、非キー要素の
タグ名とこのタグ名よりも短く且つこのタグ名を特定し
うる短縮タグ名とを対応付けて記述しておき、上記タグ
名変換時に、変換仕様文書に基づいて、非キー要素のタ
グ名を短縮タグ名に置換するタグ名短縮変換を行なって
もよい。このようなタグ名短縮変換を施されたＸＭＬ文
書を元の状態に復元する際（逆変換時）には、変換仕様
文書に基づいて、短縮タグ名を非キー要素のタグ名に置
換するタグ名伸長変換を行なう。

【００５５】図３（Ｃ）に示す第２具体例では、図３
（Ｂ）に示すＸＭＬ文書に対して、さらに上述のような
タグ名短縮変換を施した結果のＸＭＬ文書が示されてい
る。つまり、変換仕様文書においてタグ名“部署”，
“住所”，“電話”をそれぞれ短縮タグ名“Ａ”，
“Ｂ”，“Ｃ”に対応付けておくことにより（図１２や
図１４参照）、第１レコードでは、属性名“tags”の属
性値として記述されるタグ名文字列が“Ａ，Ｂ，Ｃ”に
置き換えられ、同様に、第２レコードでは、属性名“ta
gs”の属性値として記述されるタグ名文字列が“Ａ，
Ｃ，Ｃ”に置き換えられている。

【００５６】図３（Ｄ）に示す第３具体例では、タグ名
“情報”，第１属性名“tags”および第２属性名“cont
ents”を付与された新たな要素を作成した上で、タグ名
変換により、非キー要素についてのタグ名文字列をＣＳ
Ｖ形式で作成し、そのタグ名文字列を、新たな要素にお
いて第１属性名“tags”に対応する第１属性値として記
述している。また、内容変換により、非キー要素につい
ての内容文字列をＣＳＶ形式で作成し、この内容文字列
を、新たな要素において第２属性名“contents”に対応
する第２属性値として記述している。なお、この場合、
新たな要素は空要素タグとして記述されることになる。

【００５７】つまり、図３（Ｄ）に示す変換後ＸＭＬ文
書の第１レコードでは、タグ名“情報”の要素におい
て、内容文字列“Ａ部，Ａ市，123”が第２属性名“con
tents”の第２属性値として記述され、タグ名文字列
“部署，住所，電話”が第１属性名“tags”の第１属性
値として記述されている。また、第２レコードでは、タ
グ名“情報”の要素において、内容文字列“Ｂ部，45
6，789”が第２属性名“contents”の第２属性値として
記述され、タグ名文字列“部署，電話，電話”が第１属
性名“tags”の第１属性値として記述されている。この
とき、図３（Ｃ）に示した第２具体例と同様、第１属性
値として記述されるタグ名文字列に対して、さらに、上
述と同様のタグ名短縮変換を施してもよい。

【００５８】図３（Ｅ）に示す第４具体例では、タグ名
変換により、非キー要素についてのタグ名文字列をＣＳ
Ｖ形式で作成し、そのタグ名文字列をタグ名として付与
された新たな要素を作成する。そして、内容変換によ
り、非キー要素についての内容文字列をＣＳＶ形式で作
成し、この内容文字列を、新たな要素の内容として記述
している。

【００５９】つまり、図３（Ｅ）に示す変換後ＸＭＬ文
書の第１レコードでは、タグ名“部署，住所，電話”の
要素において、内容文字列“Ａ部，Ａ市，123”が要素
内容として記述されている。また、第２レコードでは、
タグ名“部署，電話，電話”の要素において、内容文字
列“Ｂ部，456，789”が要素内容として記述されてい
る。

【００６０】図３（Ｆ）に示す第５具体例では、図３
（Ｅ）に示すＸＭＬ文書に対して、さらに上述のような
タグ名短縮変換を施した結果のＸＭＬ文書が示されてい
る。つまり、変換仕様文書においてタグ名“部署”，
“住所”，“電話”をそれぞれ短縮タグ名“Ａ”，
“Ｂ”，“Ｃ”に対応付けておくことにより（図１２や
図１４参照）、第１レコードでは、新たな要素のタグ名
として記述されるタグ名文字列が“Ａ，Ｂ，Ｃ”に置き
換えられ、同様に、第２レコードでは、新たな要素のタ
グ名として記述されるタグ名文字列が“Ａ，Ｃ，Ｃ”に
置き換えられている。

【００６１】なお、図３（Ｂ）に示すようにＣＳＶ形式
のタグ名文字列を属性値として新要素の開始タグに入れ
る方法を用いた場合は、図３（Ｅ）に示すようにＣＳＶ
形式のタグ名文字列をタグ名として新要素の開始タグに
持たせる方法を用いた場合に比べ、終了タグが短くなる
分だけデータ量が減ることになる。その代わり、前者の
方法を用いた場合、ＣＳＶ形式のタグ名文字列を記述す
る属性が一つ増えることになる。図３（Ｂ）や図３
（Ｅ）に示すＸＭＬ文書は、それぞれ図３（Ｃ）や図３
（Ｆ）に示すごとく、前述したタグ名短縮変換を行なう
ことで、データ量を削減することができる。

【００６２】このように、第１実施形態の変換方法は、
複数の非キー要素を一つの要素にまとめ、応用ソフトウ
エアがデータ処理を実行している間は非キー要素をデー
タ処理と無関係な要素として一括して扱えるようにする
ものである。非キー要素のタグ名をＣＳＶ形式に繋いで
作成したタグ名文字列を、新たな要素のタグ名として記
述するか、新たな要素の属性値として記述するかは、変
換仕様文書等により選択・指定することができるように
なっている。また、非キー要素の要素内容をＣＳＶ形式
に繋いで作成した内容文字列を、新たな要素の属性値と
して記述するか、新たな要素の内容として記述するか
も、変換仕様文書等により選択・指定することができる
ようになっている。変換方法として、図３（Ｂ）〜図３
（Ｆ）で説明した各種方法のうちのどれを用いるかは、
ＸＭＬ文書のデータ量によって、あるいは、データ処理
に伴い新たな要素が幾つ増えるかによって決定されるこ
とになるが、非キー要素をひとまとめにして取り扱うと
いう本発明の本質を考えれば、どの方法を採用してもよ
い。

【００６３】〔１−４〕第１実施形態における、表形式
ＸＭＬ文書の変換方法および具体的な変換例第１実施形
態の変換方法を表形式ＸＭＬ文書に適用した場合、非キ
ー要素の内容を含む内容文字列が作成され、この内容文
字列が、新たに作成された要素において要素内容もしく
は属性値として記述される。つまり、第１実施形態の変
換方法を表形式ＸＭＬ文書に適用する場合、表形式ＸＭ
Ｌ文書における各レコードの要素記述が規則性を有して
いるので、表形式でないＸＭＬ文書で行なっていたタグ
名変換（あるいは後述する属性名変換）を省略すること
ができる。

【００６４】ただし、その場合、図９を参照しながら後
述するごとく、変換仕様文書においては、キー要素と非
キー要素とを区別するための情報が記述されるととも
に、非キー要素のタグ名（属性を有する場合には、その
属性名も含む；項目〔１−５〕参照）とそのタグ名や属
性名を代表する代表タグ名（新要素のタグ名）とが対応
付けて記述される。このような変換仕様文書に基づい
て、データ構造変換時には、変換対象のＸＭＬ文書に対
し、上述したタグ名変換を省略し上述した内容変換のみ
を行なう表形式変換を施す。一方、逆変換時には、この
変換仕様文書に基づいて、代表タグ名（新要素のタグ
名）から非キー要素のタグ名および属性名を割り出し、
前記表形式変換を施されたＸＭＬ文書（データ処理後の
ＸＭＬ文書）に対し、非キー要素の記述を元の状態に戻
す表形式逆変換を施す。

【００６５】ここで、図４（Ａ）〜図４（Ｃ）を参照し
ながら表形式ＸＭＬ文書の具体的な変換結果について説
明する。図４（Ａ）に示す変換対象のＸＭＬ文書は２つ
のレコード（タグ名“個人”）を有しており、これらの
レコードは、いずれも、タグ名“名前”，“会社”，
“部署”，“住所”，“電話”の要素を一つずつ有して
いる。つまり、これら二つのレコードにおいては、要素
の種類や数が同じであり、図４（Ａ）に示すＸＭＬ文書
は表形式である。

【００６６】図４（Ｂ）および図４（Ｃ）においては、
それぞれ、図４（Ａ）で前述した表形式ＸＭＬ文書に、
第１実施形態の構造化文書変換方法を適用して得られた
変換結果の第１および第２具体例が示されている。ここ
でも、タグ名“名前”，“会社”の要素をキー要素と
し、タグ名“部署”，“住所”，“電話”の要素を非キ
ー要素とする。

【００６７】第１実施形態の変換方法を表形式ＸＭＬ文
書に適用する場合、上述のごとく変換仕様文書において
代表タグ名（新要素のタグ名）“情報”と非キー要素の
タグ名“部署”，“住所”，“電話”とを対応付けた上
で、変換対象のＸＭＬ文書を成す要素をそのＸＭＬ文書
に対するデータ処理の対象となるキー要素とそのデータ
処理の対象とならない非キー要素とに分け、新たな要素
を作成し、非キー要素に対しては内容変換を施す一方、
キー要素については、変換後のＸＭＬ文書においても、
何の変換も施すことなくそのまま記述する。

【００６８】図４（Ｂ）に示す第１具体例では、代表タ
グ名“情報”を付与された新たな要素を作成した上で、
内容変換により、非キー要素についての内容文字列をＣ
ＳＶ形式で作成し、この内容文字列を、新たな要素の内
容として記述している。つまり、図４（Ｂ）に示す変換
後ＸＭＬ文書の第１レコードでは、タグ名“情報”の要
素において、内容文字列“Ａ部，Ａ市，123”が要素内
容として記述される。また、第２レコードでは、タグ名
“情報”の要素において、内容文字列“Ｂ部，Ｂ市，45
6”が要素内容として記述される。なお、図４（Ｂ）に
示すＸＭＬ文書は、図９を参照しながら後述する変換仕
様文書に従って、図４（Ａ）に示すＸＭＬ文書を変換し
て得られたものである。

【００６９】図４（Ｃ）に示す第２具体例では、タグ名
“情報”および属性名“contents”を付与された新たな
要素を作成した上で、内容変換により、非キー要素につ
いての内容文字列をＣＳＶ形式で作成し、この内容文字
列を、新たな要素において属性名“contents”に対応す
る属性値として記述している。なお、この場合、新たな
要素は空要素タグとして記述されることになる。

【００７０】つまり、図４（Ｃ）に示す変換後ＸＭＬ文
書の第１レコードでは、タグ名“情報”の要素におい
て、内容文字列“Ａ部，Ａ市，123”が属性名“content
s”の属性値として記述される。また、第２レコードで
は、タグ名“情報”の要素において、内容文字列“Ｂ
部，Ｂ市，456”が属性名“contents”の属性値として
記述される。

【００７１】このように、変換対象のＸＭＬ文書が表形
式で記述されている場合、元のＸＭＬ文書を復元するた
めの逆変換に際してタグ名（属性を有する場合には、そ
の属性名も含む）を容易に割り出すことができるので、
タグ名変換や属性名変換（この属性名変換については、
図５〜図８を参照しながら後述する）を省略することが
できる。従って、表形式ＸＭＬ文書を変換した場合、そ
の変換後ＸＭＬ文書には、非キー要素の内容文字列が記
述されていればよく、タグ名や属性名に係る記述を省略
することができる。

【００７２】〔１−５〕第１実施形態における、階層構
造および属性を有するＸＭＬ文書の変換方法および具体
的な変換例ここまで、各レコードにおける非キー要素が、単一階層
であり且つ属性をもたない場合について説明してきた
が、第１実施形態の変換方法は、非キー要素が複数階層
を成す場合（階層が深くなった場合）や属性を有する場
合にも、上述した原理を拡張することによって適用され
る。

【００７３】非キー要素が複数階層を成している場合、
第１実施形態の変換方法では、上記タグ名変換によって
得られるタグ名文字列において、複数階層を成す非キー
要素のタグ名に、その非キー要素が複数階層を成してい
る旨を示す階層構造識別情報（記号もしくは文字列；図
６〜図８参照）を付加する。

【００７４】また、非キー要素が属性を有する場合、第
１実施形態の変換方法では、その属性名の文字列に、こ
の文字列が属性名であることを示す属性名識別情報（記
号；例えば“＠”；図６〜図８参照）を付加する。そし
て、上記タグ名変換によって得られるタグ名文字列にお
いて、属性を有する非キー要素のタグ名の後に、区切り
記号（例えばコンマ）を介して、上述のごとく属性名識
別情報を付加した属性名を記述する。また、上記内容変
換によって得られる内容文字列において、属性を有する
非キー要素の内容の後に、区切り記号（例えばコンマ）
を介して、その属性の属性値を記述する。

【００７５】これにより、属性値は、内容文字列におい
て、タグ名文字列中における属性名の記述位置に対応す
る位置に記述される。つまり、非キー要素のタグ名およ
び属性名と非キー要素の要素内容および属性内容（属性
値）とを、一対一の対応関係を保持しながら、それぞれ
ＣＳＶ形式で繋いだタグ名文字列および内容文字列が作
成され、ＸＭＬ文書中に記述される。

【００７６】なお、レコード毎の要素の種類や数が同じ
である表形式ＸＭＬ文書であって非キー要素が属性を有
している場合には、非キー要素のタグ名および属性名と
そのタグ名および属性名を代表する代表タグ名（新要素
のタグ名）とを対応付けた変換仕様文書が作成される。
そして、変換後のＸＭＬ文書における新要素内の内容文
字列では、要素内容および属性内容（属性値）が、その
変換仕様文書におけるタグ名および属性名の記述順序と
対応した順序で記述される。

【００７７】ここで、図５〜図８を参照しながら、階層
構造および属性を有するＸＭＬ文書の具体的な変換結果
について説明する。図５に示す変換対象のＸＭＬは２つ
のレコード（タグ名“個人”）を有しており、これらの
レコードは、いずれも、タグ名“名前”，“勤務先”，
“住所”，“連絡先”の要素を一つずつ有している。そ
して、タグ名“勤務先”の要素は、タグ名“会社”，
“部署”の要素を有して階層構造となっており、さらに
タグ名“部署”の要素は、属性名“担務”の属性を有し
ている。なお、第１レコードは、タグ名“部署”の要素
を一つだけ有しているのに対し、第２レコードは、タグ
名“部署”の要素を二つ有している。また、タグ名“連
絡先”の要素は、タグ名“電話”，“Fax”，“Email”
の要素を有して階層構造となっている。

【００７８】図６〜図８においては、それぞれ、図５で
前述したＸＭＬ文書に第１実施形態の構造化文書変換方
法を適用して得れた変換結果の第１〜第３具体例が示さ
れている。ここでも、タグ名“名前”，“会社”の要素
をキー要素とし、それ以外の要素を非キー要素とする。
ただし、ここでは、タグ名“勤務先”の要素が、タグ名
“会社”の要素を含む階層構造となっているので、タグ
名“勤務先”の要素はキー要素として取り扱われること
になる。

【００７９】図６に示す第１具体例では、レコード毎
に、タグ名“勤務先”の要素内に、タグ名“情報１”お
よび属性名“tags”を付与された第１の新要素が作成さ
れるとともに、タグ名“名前”やタグ名“勤務先”の要
素と同一階層に、タグ名“情報２”および属性名“tag
s”を付与された第２の新要素が作成される。

【００８０】そして、第１レコードのタグ名“情報１”
の要素においては、タグ名文字列“部署，＠担務”が属
性名“tags”の属性値として記述され、内容文字列“Ａ
部，主務”が要素内容として記述されている。また、第
１レコードのタグ名“情報２”の要素においては、タグ
名文字列“住所，0連絡先，1電話，1Fax，1Email”が属
性名“tags”の属性値として記述され、内容文字列“Ａ
市，123，321，a1-a2@a-sya.co.jp”が要素内容として
記述されている。

【００８１】同様に、第２レコードのタグ名“情報１”
の要素においては、タグ名文字列“部署，＠担務，部
署，＠担務”が属性名“tags”の属性値として記述さ
れ、内容文字列“Ｂ-1部，主務，Ｂ-2部，兼務”が要素
内容として記述されている。また、第２レコードのタグ
名“情報２”の要素においては、タグ名文字列“住所，
0連絡先，1電話，1Fax，1Email”が属性名“tags”の属
性値として記述され、内容文字列“Ｂ市，456，654，b1
-b2@b-sya.co.jp”が要素内容として記述されている。

【００８２】ここで、“担務”の先頭に付加された
“＠”は、属性名識別情報であり、この“担務”が属性
名であることを示す情報である。また、“連絡先”の先
頭に付加された“0”や、“電話”，“Fax”，“Emai
l”の先頭に付加された“1”は階層構造識別情報であ
り、“1”を付されたタグ名の要素が“0”を付されたタ
グ名の要素の下位階層（要素内容に含まれる要素）であ
ることを示すものである。

【００８３】この図６に示すＸＭＬ文書は、図１５を参
照しながら後述する変換仕様文書に従って、図５に示す
ＸＭＬ文書を変換して得られたものである。特に、図６
に示すＸＭＬ文書は、図１５に示す変換仕様文書におい
て“情報１”および“情報２”の表形式情報としていず
れも“nontable”（表形式でない旨）を設定して得られ
たものである。つまり、この図６に示す例では、タグ名
“住所”および“連絡先”の要素は、レコード毎の要素
の種類や数が同一であるので、表形式として取り扱うこ
とのできるものであるが、表形式情報として“nontabl
e”を設定することにより、タグ名“住所”および“連
絡先”の要素を、表形式ではないものとして取り扱って
いる。

【００８４】図７に示す第２具体例においても、図６に
示した例と同様、レコード毎に、タグ名“勤務先”の要
素内に、タグ名“情報１”および属性名“tags”を付与
された第１の新要素が作成されるとともに、タグ名“名
前”やタグ名“勤務先”の要素と同一階層に、タグ名
“情報２”および属性名“tags”を付与された第２の新
要素が作成される。

【００８５】また、第１レコードのタグ名“情報１”の
要素においても、図６に示した例と同様、タグ名文字列
“部署，＠担務”が属性名“tags”の属性値として記述
され、内容文字列“Ａ部，主務”が要素内容として記述
されている。ただし、図７に示す第２具体例では、第１
レコードのタグ名“情報２”の要素においては、タグ名
文字列“住所，連絡先/電話，連絡先/Fax，連絡先/Emai
l”が属性名“tags”の属性値として記述され、内容文
字列“Ａ市，123，321，a1-a2@a-sya.co.jp”が要素内
容として記述されている。

【００８６】同様に、第２レコードのタグ名“情報１”
の要素においては、タグ名文字列“部署，＠担務，部
署，＠担務”が属性名“tags”の属性値として記述さ
れ、内容文字列“Ｂ-1部，主務，Ｂ-2部，兼務”が要素
内容として記述されている。また、第２レコードのタグ
名“情報２”の要素においては、タグ名文字列“住所，
連絡先/電話，連絡先/Fax，連絡先/Email”が属性名“t
ags”の属性値として記述され、内容文字列“Ｂ市，45
6，654，b1-b2@b-sya.co.jp”が要素内容として記述さ
れている。

【００８７】ここで、“電話”，“Fax”，“Email”の
先頭に付加された文字列“連絡先/”は階層構造識別情
報であり、文字列“連絡先/”を付されたタグ名の要素
が、タグ名“連絡先”の要素の下位階層（要素内容に含
まれる要素）であることを示すものである。この階層位
置の表記法は、ＸPathとして知られている。

【００８８】この図７に示すＸＭＬ文書は、図１７を参
照しながら後述する変換仕様文書に従って、図５に示す
ＸＭＬ文書を変換して得られたものである。特に、図７
に示すＸＭＬ文書は、図１７に示す変換仕様文書におい
て“情報１”および“情報２”の表形式情報としていず
れも“nontable”（表形式でない旨）を設定して得られ
たものである。つまり、この図７に示す例でも、タグ名
“住所”および“連絡先”の要素は表形式として取り扱
うことのできるものであるが、表形式情報として“nont
able”を設定することにより、タグ名“住所”および
“連絡先”の要素を、表形式ではないものとして取り扱
っている。

【００８９】図８に示す第３具体例においては、レコー
ド毎に、タグ名“勤務先”の要素内に、タグ名“情報
１”および属性名“tags”を付与された第１の新要素が
作成されるとともに、タグ名“名前”やタグ名“勤務
先”の要素と同一階層に、タグ名“情報２”を付与され
た第２の新要素が作成される。

【００９０】そして、第１レコードのタグ名“情報１”
の要素においては、タグ名文字列“部署，＠担務”が属
性名“tags”の属性値として記述され、内容文字列“Ａ
部，主務”が要素内容として記述されている。また、タ
グ名“住所”および“連絡先”の要素を表形式として取
り扱うことにより、第１レコードのタグ名“情報２”の
要素においては、内容文字列“Ａ市，123，321，a1-a2@
a-sya.co.jp”が要素内容として記述されている。

【００９１】同様に、第２レコードのタグ名“情報１”
の要素においては、タグ名文字列“部署，＠担務，部
署，＠担務”が属性名“tags”の属性値として記述さ
れ、内容文字列“Ｂ-1部，主務，Ｂ-2部，兼務”が要素
内容として記述されている。また、第２レコードのタグ
名“情報２”の要素においては、内容文字列“Ｂ市，45
6，654，b1-b2@b-sya.co.jp”が要素内容として記述さ
れている。

【００９２】この図８に示すＸＭＬ文書は、図１５もし
くは図１７を参照しながら後述する変換仕様文書に従っ
て、図５に示すＸＭＬ文書を変換して得られたものであ
る。特に、図８に示すＸＭＬ文書は、図１５もしくは図
１７に示す変換仕様文書において“情報１”の表形式情
報として “nontable”（表形式でない旨）を設定する
とともに“情報２”の表形式情報として“table”（表
形式である旨）を設定して得られたものである。なお、
図６〜図８のいずれのＸＭＬ文書においても、当然、キ
ー要素については、何の変換も施すことなくそのまま記
述されている。

【００９３】〔１−６〕第１実施形態の変換仕様文書お
よびスタイルシートの具体例〔１−６−１〕表形式データのための変換仕様文書およ
びスタイルシート図９には、図４（Ａ）に示した表形式ＸＭＬ文書を変換
対象とした場合の、具体的な変換仕様文書（ＸＭＬ文
書）が示されている。

【００９４】この図９に示す変換仕様文書では、ルート
のタグ名“名簿”やレコードのタグ名“個人”が記述さ
れるほか、タグ名“key_tags”の要素の内容としてキー
要素のタグ名“名前”および“会社”を記述するととも
にタグ名“nonkey_tags”の要素の内容として非キー要
素のタグ名“部署”，“住所”および“電話”を記述す
ることにより、キー要素と非キー要素とを区別するため
の情報が記述されている。また、タグ名“nonkey_tag
s”の要素の内容には、タグ名“merged_tag”の要素が
含まれており、この要素の内容として、非キー要素を一
つにまとめるための新たな要素のタグ名（代表タグ名）
“情報”が記述されている。このような変換仕様文書に
より、ＸＭＬ文書のデータ構造変換実行手順が指示され
る。

【００９５】そして、図２に示すＸＳＬＴ変換部１１
が、図９に示す変換仕様文書を読み込み、その変換仕様
文書と自動変換スタイルシート（自動変換ＸＳＬシー
ト；図示省略）とにより、図１０に示す構造変換用スタ
イルシート（ＸＳＬシート）と図１１に示す逆変換用ス
タイルシート（ＸＳＬシート）とを生成する。図１０に
示す構造変換用スタイルシートは、ＸＳＬＴ構造変換部
１２によって読み込まれ、変換対象のＸＭＬ文書（入力
ＸＭＬ文書）に対しデータ構造変換を施すために用いら
れる。また、図１１に示す逆変換用スタイルシートは、
ＸＳＬＴ逆変換部１３によって読み込まれ、応用ソフト
ウエア３０により処理されたＸＭＬ文書（抽出ＸＭＬ文
書，変換後ＸＭＬ文書）を元の形式のＸＭＬ文書（非キ
ー要素を元の状態に戻したＸＭＬ文書）に復元するため
に用いられる。

【００９６】上述のように変換対象のＸＭＬ文書が表形
式データである場合、非キー要素のタグ名は、変換／逆
変換用スタイルシートによって新要素のタグ名（代表タ
グ名）と対応付けられるので、変換後のＸＭＬ文書には
現われない。これにより、変換後のＸＭＬ文書のデータ
量を大幅に削減することができる。つまり、変換仕様文
書と自動変換スタイルシートとの両方を用意しておく
か、もしくは、構造変換／逆変換用スタイルシートを用
意しておけば、非キー要素のタグ名は変換後ＸＭＬ文書
では基本的に不要になる。上述のようなスタイルシート
の用意がない場合は、表形式のＸＭＬ文書であっても、
非表形式として取り扱えば、要素の並びの規則性に基づ
いて、元のＸＭＬ文書を復元することは可能である。

【００９７】〔１−６−２〕タグ名短縮変換を行なうた
めの変換仕様文書図１２には、第１実施形態における、タグ名短縮変換を
行なうための具体的な変換仕様文書（ＸＭＬ文書）が示
されている。この図１２に示す変換仕様文書において
は、変換対象のＸＭＬ文書における非キー要素のタグ名
“部署”，“住所”，“電話”を変換後のＸＭＬ文書に
おいて例えば図３（Ｃ）に示すようにそれぞれ短縮タグ
名“Ａ”，“Ｂ”，“Ｃ”に置き換えるタグ名短縮変換
を行なうべく、タグ名“部署”，“住所”，“電話”と
短縮タグ名“Ａ”，“Ｂ”，“Ｃ”との対応付けが記述
されている。このとき、図１２に示す変換仕様文書にお
いても、図９に示した変換仕様文書と同様の記述がなさ
れているが、図１２に示す変換仕様文書では、短縮タグ
名が、タグ名“nonkey_tags”の各キー要素のタグ名に
おいて“abbr”属性によって対応付けられて記述されて
いる。

【００９８】〔１−６−３〕表形式／非表形式を指定す
るための変換仕様文書図１３には、第１実施形態における、データ形式（表形
式であるか否か）を指定する機能を有する変換仕様文書
（ＸＭＬ文書）の具体例が示されている。この図１３に
示す変換仕様文書においては、変換対象のＸＭＬ文書
（非キー要素）が表形式で記述されているか否かの表形
式情報が記述されている。つまり、図１３に示す変換仕
様文書においても、図９に示した変換仕様文書と同様の
記述がなされているが、図１３に示す変換仕様文書で
は、表形式情報が、タグ名“merged_tag”の要素におけ
る“format”属性として付加されている。表形式を指定
する場合には“format”属性値として例えば“table”
を記述する一方、非表形式を指定する場合には“forma
t”属性値として例えば“nontable”を記述する。

【００９９】変換仕様文書の“format”属性値として
“table”が記述されていれば、図２に示すＸＳＬＴ構
造変換部１２は、表形式に対応した変換処理（タグ名変
換を省略し内容変換のみ行なう処理）を実行するととも
に、図２に示すＸＳＬＴ逆変換部１３は、表形式に対応
した逆変換を実行する。逆に、変換仕様文書の“forma
t”属性値として“nontable”が記述されていれば、図
２に示すＸＳＬＴ構造変換部１２は、非表形式に対応し
た変換処理（タグ名変換および内容変換の両方を行なう
処理）を実行するとともに、図２に示すＸＳＬＴ逆変換
部１３は、非表形式に対応した逆変換を実行する。

【０１００】従って、エンドユーザは、ＸＭＬで記述さ
れた変換仕様文書において、“format”属性を用いて変
換対象のＸＭＬ文書が表形式か否かを指定することがで
き、この“format”属性により、表形式変換を行なうか
否か、つまり、表形式変換と非表形式変換とのどちらを
行なうかが指示され、表形式変換や表形式逆変換の実行
／非実行の自動切換え、つまり、表形式変換／逆変換と
非表形式変換／逆変換との自動切換えを行なうことがで
きる。

【０１０１】なお、上述のような表形式情報としての
“format”属性は、図２１（Ａ）および図２１（Ｂ）を
参照しながら後述するごとく、図２に示すＸＳＬＴ変換
部１１において表形式データに対応する構造変換／逆変
換用スタイルシートと非表形式データに対応する構造変
換／逆変換用スタイルシートとのどちらを作成するかを
判断する際に参照される。

【０１０２】また、一つの変換対象のＸＭＬ文書に表形
式の部分と非表形式の部分とが混在する場合には、例え
ば図１５や図１７に示すごとく、タグ名“merged_tag”
の各要素における“format”属性によって表形式情報を
指定することで、例えば図８に示すごとく、表形式の部
分に対しては表形式変換を施すとともに、非表形式の部
分に対しては非表形式変換を施すようにすることもでき
る。

【０１０３】〔１−６−４〕短縮変換の実行／非実行を
指定するための変換仕様文書図１４には、第１実施形態における、データ形式（タグ
名短縮変換を行なうか否か）を指定する機能を有する変
換仕様文書（ＸＭＬ文書）の具体例が示されている。こ
の図１４に示す変換仕様文書においては、変換時にタグ
名短縮変換を行なうか否かのタグ名短縮変換情報が記述
されている。つまり、図１４に示す変換仕様文書におい
ては、図１２に示した変換仕様文書とほぼ同様の記述が
なされているが、図１４に示す変換仕様文書では、タグ
名短縮変換情報が、タグ名“merged_tag”の要素におけ
る“format”属性として付加されている。タグ名短縮変
換を実行する場合には“format”属性値として例えば
“abbr”を記述する。

【０１０４】変換仕様文書においてタグ名と短縮タグ名
との対応付けがなされるとともに“format”属性値とし
て“abbr”が記述されていれば、図２に示すＸＳＬＴ構
造変換部１２は、タグ名短縮変換処理を実行するととも
に、図２に示すＸＳＬＴ逆変換部１３は、タグ名伸長変
換処理を実行する。従って、エンドユーザは、ＸＭＬで
記述された変換仕様文書において、“format”属性を用
いてタグ名短縮変換を行なうか否かを指定することがで
き、この“format”属性により、タグ名短縮変換やタグ
名伸長変換の実行／非実行の自動切換えを行なうことが
できる。

【０１０５】〔１−６−５〕階層構造と属性とをもつＸ
ＭＬ文書のための変換仕様文書図１５には、第１実施形態における、レコード内の非キ
ー要素が階層構造を成すとともに属性を有する場合の変
換仕様文書（ＸＭＬ文書）の第１具体例が示されてい
る。特に、この図１５に示す変換仕様文書は、図５に示
したＸＭＬ文書を変換対象とし、図５に示したＸＭＬ文
書を、図６または図８で説明したＸＭＬ文書に変換する
ためのものである。ここでは、要素の階層構造が、属性
“depth”を用いて記述されるほか、子を有する親のタ
グにも属性“depth”を付しておく。

【０１０６】この図１５に示すような変換仕様文書の作
成手順を、図１６に示すフローチャート（ステップＳ１
〜Ｓ４）に従って説明する。ただし、図１６に示す手順
は、レコード内の階層数が任意であり且つ非キー要素が
任意の属性を有する場合の変換仕様の作成手順である。
まず、ルート（root）およびレコードのタグ名を要素
“structure”で指定する（ステップＳ１）。例えば図
５に示すＸＭＬ文書を変換対象とする場合、ルートのタ
グ名として“名簿”が指定され、レコードのタグ名とし
て“個人”が指定される。

【０１０７】また、レコード内の要素をキー要素と非キ
ー要素との二つのグループに分ける（ステップＳ２）。
図５および図１６に示す例では、タグ名“名前”，
“姓”，“名”，“勤務先”および“会社”の要素をキ
ー要素とし、タグ名“部署”，“住所”，“連絡先”，
“電話”，“Fax”および“Email”の要素を非キー要素
としている。

【０１０８】そして、キー要素のタグ名をそれぞれ<key
_tags>内の<tag>の箇所で指定するとともに（ステップ
Ｓ３）、非キー要素のタグ名をそれぞれ<nonkey_tags>
内の<tag>の箇所で指定する（ステップＳ４）。ステッ
プＳ４においては、非キー要素に関する情報が、以下の
手順(1)〜(4)に従って変換仕様文書として記述される。

【０１０９】手順(1)：一つにまとめられた非キー要素
を記述する新たな要素のタグ名を<merged_tag>で指定す
る（図１５の“情報１”や“情報２”参照）。手順(2)：一つにまとめるべき非キー要素が表形式デー
タであるか否かを“format”属性で指定する。表形式デ
ータの場合、“format”属性値として“table”を記述
する一方、非表形式データの場合、“format”属性値と
して“nontable”を記述する。また、非表形式データの
場合であって、タグ名を短縮タグ名に置き換えるタグ名
短縮変換を行なう場合も、その旨を“format”属性で指
定する。タグ名短縮変換を行なう場合、“format”属性
値として“abbr”を記述する。

【０１１０】手順(3)：タグ名，要素内容，属性，属性
内容（属性値）を所定の順序で順に書き出し、ＣＳＶ形
式で繋げる。手順(4)：２階層以上の要素（階層構造を成す要素）
は、“depth”属性で深さを指定する（図１５の「depth
=“0”」や「depth=“1”」参照）。以上のような手順によって、変換仕様文書が、図１５に
示すごとく、ＸＭＬによって記述されることになる。

【０１１１】一方、図１７には、第１実施形態におけ
る、レコード内の非キー要素が階層構造を成すとともに
属性を有する場合の変換仕様文書（ＸＭＬ文書）の第２
具体例が示されている。特に、この図１７に示す変換仕
様文書は、図５に示したＸＭＬ文書を変換対象とし、図
５に示したＸＭＬ文書を、図７または図８で説明したＸ
ＭＬ文書に変換するためのものである。ここでは、葉と
なる要素の階層構造が、属性“path”を用いて記述され
る。また、“path”属性値は、“ＸＰath”で表現され
る。

【０１１２】このように、図１７に示す変換仕様文書で
は、属性“path”を用いて階層構造を記述する点以外
は、図１５に示した変換仕様文書と同様であるので、そ
の詳細な説明は省略する。また、図１７に示すような変
換仕様文書も、図１６にて説明した手順と同様の手順に
よって作成される。

【０１１３】なお、前述した通り、図６や図７に示した
ＸＭＬ文書は、図１５や図１７に示す変換仕様文書を用
いて変換されたもので、“format”属性値として“nont
able”を設定し、変換対象のＸＭＬ文書が表形式データ
であるか否かを区別されることなく（つまり非表形式デ
ータとして）変換されたものである。これに対し、図８
に示したＸＭＬ文書では、“情報１”の“format”属性
値として“nontable”を設定するとともに“情報２”の
“format”属性値として“table”を設定し、表形式デ
ータの非キー要素に対しては表形式変換が施されるとと
もに、非表形式データの非キー要素に対しては非表形式
変換が施されている。

【０１１４】〔１−７〕第１実施形態の変換方法による
具体的な変換処理手順次に、図１８〜図２１を参照しながら、本発明の第１実
施形態としての構造化文書変換方法による変換処理手順
について説明する。図１８および図１９は、データ構造
変換／逆変換処理を、Javaソフトウエアにより、ＤＯＭ
およびＸＳＬＴなどを使用して実行する場合の処理手順
を示すものである。なお、Javaは、米国Sun Microsyste
ms社によって開発されたＣ++類似のオブジェクト指向プ
ログラミング言語である。

【０１１５】ここで、図１８は、変換仕様文書に基づい
て変換対象ＸＭＬ文書に対してデータ構造変換を施す際
の処理手順を説明するためのフローチャート（ステップ
Ａ１〜Ａ１６）であり、図１９は、変換仕様文書に基づ
いて変換後ＸＭＬ文書（処理済ＸＭＬ文書）に対してデ
ータ構造の逆変換を施す際の処理手順を説明するための
フローチャート（ステップＢ１〜Ｂ１５）である。図１
８および図１９に示す処理手順は、図２に示すようなデ
ータ構造変換／逆変換機構１０を用いることなく、変換
仕様文書に基づいて、変換対象ＸＭＬ文書や変換後ＸＭ
Ｌ文書に対する処理を実行する際の処理手順である。

【０１１６】変換対象ＸＭＬ文書に対してデータ構造変
換を施す際には、図１８に示すように、最初に、プロセ
ッサは、変換仕様文書を読み込んで、その変換仕様文書
の記述から変換仕様を解析してから（ステップＡ１）、
変換対象のＸＭＬ文書を読み込み、データ構造の変換処
理を開始する（ステップＡ２）。

【０１１７】まず、変換対象ＸＭＬ文書のルート（roo
t）のタグを変換後ＸＭＬ文書側にコピーしてから（ス
テップＡ３）、次のレコードデータを一つ変換対象ＸＭ
Ｌ文書から切り出す（ステップＡ４）。この後、全ての
レコードに対して処理を行なったか否かを判断し（ステ
ップＡ５）、まだ全てのレコードに対する処理を完了し
ていない場合（ステップＡ５のＮＯルート）、次のレコ
ードのタグを変換後ＸＭＬ文書側にコピーし（ステップ
Ａ６）、現在処理中のレコードから次の要素データを切
り出す（ステップＡ７）。

【０１１８】ここで次の要素データが切り出された場合
には、まだ全ての要素に対する処理を完了していないも
のと判断し（ステップＡ８のＮＯルート）、切り出され
た要素がキー要素であるか否かを判断する（ステップＡ
９）。キー要素である場合（ステップＡ９のＹＥＳルー
ト）、切り出された要素をそのまま変換後ＸＭＬ文書側
にコピーしてから（ステップＡ１０）、ステップＡ７の
処理に戻る。

【０１１９】切り出された要素がキー要素でない場合
（ステップＡ９のＮＯルート）、その要素が非キー要素
であるか否かを判断する（ステップＡ１１）。もし非キ
ー要素でない場合（ステップＡ１１のＮＯルート）、何
らかのエラー処理を実行する。一方、非キー要素である
場合（ステップＡ１１のＹＥＳルート）、変換仕様文書
によって予め指定されたタグ名の新要素を作成する（ス
テップＡ１２）。既に非キー要素に対応する新要素が作
成されている場合には、この作成処理は省略される。

【０１２０】そして、ステップＡ１２で新要素を作成し
た場合には、その非キー要素のタグ名を新要素の属性に
おいてタグ名文字列（属性値）として記述する。既に非
キー要素に対応する新要素が作成されている場合には、
その非キー要素のタグ名を、新要素の属性におけるタグ
名文字列の後に、ＣＳＶ形式でつまり区切り記号を介し
て繋げる（ステップＡ１３）。

【０１２１】また、ステップＡ１２で新要素を作成した
場合には、その非キー要素の内容を新要素の内容におい
て内容文字列として記述する。既に非キー要素に対応す
る新要素が作成されている場合には、その非キー要素の
内容を、新要素の要素における内容文字列の後に、ＣＳ
Ｖ形式でつまり区切り記号を介して繋げる（ステップＡ
１４）。この後、ステップＡ７の処理に戻る。なお、ス
テップＡ１４において、非キー要素の内容中に区切り記
号（ここではコンマ“，”）と同じ文字が現われた場
合、前述したように、非キー要素の内容中における文字
（区切り記号）を、他の識別文字列（例えば実体参照記
述等）に置き換える。

【０１２２】ステップＡ７で次の要素データが切り出さ
れなかった場合には、全ての要素に対する処理を完了し
たものと判断し（ステップＡ８のＹＥＳルート）、現在
処理中のレコードの終了タグを出力し変換後ＸＭＬ文書
側にコピーしてから（ステップＡ１５）、ステップＡ４
の処理に戻る。また、全てのレコードに対する処理を完
了した場合（ステップＡ５のＹＥＳルート）、ルートの
終了タグを出力し変換後ＸＭＬ文書側にコピーし（ステ
ップＡ１６）、変換処理を終了する。

【０１２３】逆に、変換後ＸＭＬ文書に対してデータ構
造の逆変換を施す際には、図１９に示すように、最初
に、プロセッサは、変換仕様文書を読み込んで、その変
換仕様文書の記述から変換仕様を解析してから（ステッ
プＢ１）、逆変換対象ＸＭＬ文書を読み込み、データ構
造の逆変換処理を開始する（ステップＢ２）。

【０１２４】まず、逆変換対象ＸＭＬ文書のルート（ro
ot）のタグを復元ＸＭＬ文書側にコピーしてから（ステ
ップＢ３）、次のレコードデータを一つ逆変換対象ＸＭ
Ｌ文書から切り出す（ステップＢ４）。この後、全ての
レコードに対して処理を行なったか否かを判断し（ステ
ップＢ５）、まだ全てのレコードに対する処理を完了し
ていない場合（ステップＢ５のＮＯルート）、そのレコ
ードのタグを復元ＸＭＬ文書側にコピーし（ステップＢ
６）、現在処理中のレコードから次の要素データを切り
出す（ステップＢ７）。

【０１２５】ここで次の要素データが切り出された場合
には、まだ全ての要素に対する処理を完了していないも
のと判断し（ステップＢ８のＮＯルート）、切り出され
た要素がキー要素であるか否かを判断する（ステップＢ
９）。キー要素である場合（ステップＢ９のＹＥＳルー
ト）、切り出された要素をそのまま復元ＸＭＬ文書側に
コピーしてから（ステップＢ１０）、ステップＢ７の処
理に戻る。

【０１２６】切り出された要素がキー要素でない場合
（ステップＢ９のＮＯルート）、その要素が、非キー要
素をまとめた（マージした）ものであるか否かを判断す
る（ステップＢ１１）。もし非キー要素をまとめたもの
でない場合（ステップＢ１１のＮＯルート）、何らかの
エラー処理を実行する。一方、非キー要素をまとめた前
記新要素が切り出された場合（ステップＢ１１のＹＥＳ
ルート）、その新要素のタグにおいて属性値として記述
されたタグ文字列（非キー要素のタグ名をＣＳＶ形式で
繋いだもの）から、非キー要素のタグ名を順次切り出す
（ステップＢ１２）。

【０１２７】また、その新要素の内容に記述された内容
文字列（非キー要素の内容をＣＳＶ形式で繋いだもの）
から、非キー要素の内容を順次切り出し、切り出された
内容とステップＢ１２で切り出されたタグ名とから、非
キー要素を復元してから（ステップＢ１３）、ステップ
Ｂ７の処理に戻る。なお、ステップＢ１３において、新
要素における内容文字列から、区切り記号についての識
別文字列を含む内容が切り出された場合には、その識別
文字列を元の区切り記号に戻す。

【０１２８】ステップＢ７で次の要素データが切り出さ
れなかった場合には、全ての要素に対する処理を完了し
たものと判断し（ステップＢ８のＹＥＳルート）、現在
処理中のレコードの終了タグを出力し復元ＸＭＬ文書側
にコピーしてから（ステップＢ１４）、ステップＢ４の
処理に戻る。また、全てのレコードに対する処理を完了
した場合（ステップＢ５のＹＥＳルート）、ルートの終
了タグを出力し復元ＸＭＬ文書側にコピーし（ステップ
Ｂ１５）、逆変換処理を終了する。

【０１２９】ところで、図２０（Ａ）〜図２０（Ｄ）
は、第１実施形態によるデータ構造変換／逆変換処理を
ＸＳＬＴプロセッサのみで実行する場合の処理手順を示
すものである。つまり、図２０（Ａ）〜図２０（Ｄ）に
示す処理手順は、図２に示したデータ構造変換／逆変換
機構１０を用い、変換仕様文書に基づいて、変換対象Ｘ
ＭＬ文書や変換後ＸＭＬ文書に対する処理を実行する際
の処理手順である。

【０１３０】ここで、図２０（Ａ）および図２０（Ｂ）
は、それぞれ、第１実施形態における変換用スタイルシ
ートおよび逆変換用スタイルシートの作成手順（ＸＳＬ
Ｔ変換部１１での処理）を説明するためのフローチャー
トである。また、図２０（Ｃ）は、ＸＳＬＴ構造変換部
１２が構造変換用スタイルシートに基づいて変換対象Ｘ
ＭＬ文書に対してデータ構造変換を施す際の処理手順を
説明するためのフローチャートであり、図２０（Ｄ）
は、ＸＳＬＴ逆変換部１３が逆変換用スタイルシートに
基づいて変換後ＸＭＬ文書（処理済ＸＭＬ文書）に対し
てデータ構造の逆変換を施す際の処理手順を説明するた
めのフローチャートである。

【０１３１】変換対象ＸＭＬ文書に対する処理を施すの
に先立って、まず、図２０（Ａ）に示すように、ＸＳＬ
Ｔ変換部１１は、ＸＭＬで記述された変換仕様文書を読
み込んで、その変換仕様文書の記述から変換仕様を解析
してから（ステップＡ１）、その変換仕様と自動変換ス
タイルシートとを用いて、データ構造変換用スタイルシ
ートを作成する（ステップＡ２０）。また、同様に、図
２０（Ｂ）に示すように、ＸＳＬＴ変換部１１は、ＸＭ
Ｌで記述された変換仕様文書を読み込んで、その変換仕
様文書の記述から変換仕様を解析してから（ステップＢ
１）、その変換仕様と自動変換スタイルシートとを用い
て、データ構造逆変換用スタイルシートを作成する（ス
テップＢ２０）。

【０１３２】そして、変換対象ＸＭＬ文書に対してデー
タ構造変換を施す際には、図２０（Ｃ）に示すように、
ＸＳＬＴ構造変換部１２は、その変換対象ＸＭＬ文書と
構造変換用スタイルシートとを指定して、変換処理を開
始する（ステップＡ２１）。その後、ＸＳＬＴ構造変換
部１２は、図１８のステップＡ２〜Ａ１６と同様の処理
を実行する。

【０１３３】逆に、変換後ＸＭＬ文書に対してデータ構
造の逆変換を施す際には、図２０（Ｄ）に示すように、
ＸＳＬＴ逆変換部１３は、逆変換対象ＸＭＬ文書と逆変
換用スタイルシートとを指定して、逆変換処理を開始す
る（ステップＢ２１）。その後、ＸＳＬＴ逆変換部１３
は、図１９のステップＢ２〜Ｂ１５と同様の処理を実行
する。

【０１３４】ここで、図２に示すように、応用ソフトウ
エア３０は、標準ＡＰＩ（ＤＯＭ）２０を通して、ＸＳ
ＬＴ構造変換部１２からの、要素数を削減された変換後
ＸＭＬ文書に対し、タグ検索等の処理を行なうことにな
るので、応用ソフトウエア３０による処理速度は大幅に
高速化される。

【０１３５】応用ソフトウエア３０が、変換後ＸＭＬ文
書に対してタグ検索を行なうものである場合、そのタグ
検索によってヒットしたレコードを記述するＸＭＬ文書
（抽出ＸＭＬ文書）が抽出・出力される。この抽出ＸＭ
Ｌ文書は、ＸＳＬＴ逆変換部１３によって上述のごとく
逆変換され、応用ソフトウエア３０が元のＸＭＬ文書に
対してタグ検索したのと全く同じ、検索結果（ＸＭＬ文
書）が得られることになる。

【０１３６】このとき、ＸＳＬＴ逆変換部１３が逆変換
を施すＸＭＬ文書は、応用ソフトウエア３０によって抽
出された少数のレコードを記述されたＸＭＬ文書である
ので、ＸＳＬＴ逆変換部１３による逆変換のオーバーヘ
ッドは、ほとんど問題にならない。従って、応用ソフト
ウエア３０で多数回実行される処理は、本実施形態のデ
ータ構造変換を予め施しておくことによって、大幅に高
速化されるとともに、動作メモリの使用量も大幅に削減
されることになる。

【０１３７】なお、図２１（Ａ）および図２１（Ｂ）
は、それぞれ、第１実施形態における変換用スタイルシ
ートおよび逆変換用スタイルシートの作成手順（ＸＳＬ
Ｔ変換部１１での処理）の変形例を説明するためのフロ
ーチャートである。これらの図２１（Ａ）および図２１
（Ｂ）に示す処理手順は、図１３，図１５や図１７に示
す変換仕様文書において“format”属性値（表形式情
報）により表形式／非表形式が指定されている場合に、
図２０（Ａ）や図２０（Ｂ）で前述した処理手順に代え
て、ＸＳＬＴ変換部１１において実行されるものであ
る。

【０１３８】つまり、変換対象ＸＭＬ文書に対する処理
を施すのに先立って、まず、図２１（Ａ）に示すよう
に、ＸＳＬＴ変換部１１は、ＸＭＬで記述された変換仕
様文書を読み込んで、その変換仕様文書の記述から変換
仕様を解析してから（ステップＡ１）、“format”属性
値を参照してデータ（変換対象ＸＭＬ文書）が表形式か
否かを判断する（ステップＡ２２）。

【０１３９】データが表形式である場合（ステップＡ２
２のＹＥＳルート）、ＸＳＬＴ変換部１１は、変換仕様
と自動変換スタイルシートとを用いて、非キー要素のタ
グ名を新要素のタグ名で代表させる構造変換用スタイル
シートを作成する（ステップＡ２０−１）。一方、非表
形式の場合（ステップＡ２２のＮＯルート）、ＸＳＬＴ
変換部１１は、変換仕様と自動変換スタイルシートとを
用いて、区切り記号を介して非キー要素のタグ名（もし
くは短縮タグ名）を繋いだタグ名文字列を変換後ＸＭＬ
文書中に記述させる構造変換用スタイルシートを作成す
る（ステップＡ２０−２）。

【０１４０】また、図２１（Ｂ）に示すように、ＸＳＬ
Ｔ変換部１１は、ＸＭＬで記述された変換仕様文書を読
み込んで、その変換仕様文書の記述から変換仕様を解析
してから（ステップＢ１）、“format”属性値を参照し
てデータ（変換対象ＸＭＬ文書）が表形式か否かを判断
する（ステップＢ２２）。

【０１４１】データが表形式である場合（ステップＢ２
２のＹＥＳルート）、ＸＳＬＴ変換部１１は、変換仕様
と自動変換スタイルシートとを用いて、新要素のタグ名
から非キー要素のタグ名を割り出せるようにした逆変換
用スタイルシートを作成する（ステップＢ２０−１）。
一方、非表形式の場合（ステップＢ２２のＮＯルー
ト）、ＸＳＬＴ変換部１１は、変換仕様と自動変換スタ
イルシートとを用いて、タグ名文字列から非キー要素の
タグ名を復元させる構造変換用スタイルシートを作成す
る（ステップＡ２０−２）。

【０１４２】〔１−８〕第１実施形態の効果このように、本発明の第１実施形態としての構造化文書
変換方法によれば、変換対象のＸＭＬ文書を成す要素が
キー要素と非キー要素とに分けられ、その変換対象の構
造化文書が、キー要素をそのまま記述する一方で非キー
要素（データ処理の対象とならない項目）を一つのタグ
にまとめて記述したＸＭＬ文書に変換されるので、変換
後のＸＭＬ文書では、要素数が大幅に削減されるととも
に、ＤＯＭツリーへの展開時や、タグ検索等のデータ処
理時に、非キー要素を一括して扱うことができる。

【０１４３】特に、データ処理の対象とならない非キー
要素が多いＸＭＬ文書や、１レコードの要素数が多いＸ
ＭＬ文書での要素数の削減効果は大きく、例えば要素数
が半分になれば、ＤＯＭツリーへの展開およびタグ検索
に要する時間は半分に短縮することができる。また、変
換対象のＸＭＬ文書が表形式データである場合には、そ
のＸＭＬ文書を図４（Ｂ）や図４（Ｃ）にて説明したよ
うに変換することで、非キー要素のタグ名を変換後のＸ
ＭＬ文書に記述する必要がなくなるので、変換後のＸＭ
Ｌ文書のデータ量を、変換前のＸＭＬ文書のデータ量の
約３分の１まで削減することができる場合がある。

【０１４４】また、応用ソフトウエア（アプリケーショ
ン）３０によりＸＭＬ文書に対するデータ処理を行なう
際にはキー要素のみが使用されるが、第１実施形態で
は、キー要素についてはそのまま記述されているので、
通常通り、キー要素のタグ名を用いてキー要素の内容を
参照することができ、変換後のＥＭＬ文書のトランスペ
アレント性は確保される。

【０１４５】このとき、変換仕様文書をＸＭＬ文書とし
て作成し変換実行手順を与えることにより、多様な種類
のＸＭＬ文書に対して、スタイルシートを一々作成する
必要がなくなり、手間をかけることなく、第１実施形態
によるデータ構造の変換／逆変換処理を種々のＸＭＬ文
書データに施すことができる。さらに、変換仕様文書に
基づいて変換／逆変換を指示する変換／逆変換用スタイ
ルシートを生成すれば、標準のＸＳＬＴプロセッサによ
り変換／逆変換用スタイルシートを用いて変換／逆変換
を実行することができ、つまりは、ほとんどあらゆる種
類のＸＭＬシステムにおいて第１実施形態による変換／
逆変換処理を実行することができる。

【０１４６】従って、第１実施形態の変換方法によれ
ば、アプリケーションに対するトランスペアレント性や
変換されたＸＭＬ文書のデータ構造の有効性を確保しな
がら、非キー要素を一つの要素にまとめるデータ構造変
換処理を、種々のＸＭＬ文書データに施すことができる
ようにした汎用の変換技術を提供することができ、これ
により、ＸＭＬ文書に対する操作に必要となるリソース
が大幅に軽減され、ＸＭＬ文書を処理する際におけるメ
モリ使用量削減と処理速度の高速化との両方が実現され
ることになる。

【０１４７】また、ＥＤＩのデータにおいては１レコー
ド当たり数百〜千の項目（要素）があり、項目数が多過
ぎるため、ＤＯＭツリーへの展開に向かない。また、文
書要素を切り出して時系列的に流すだけの標準ＡＰＩ
(ＳＡＸ: Simple API for XML)が用いられているため、
複雑な文書操作が難しくなっている。しかし、項目数の
多いデータであっても、データ処理の対象となる項目
（キー要素）の数は必ずしも多くないので、第１実施形
態の変換方法によりＸＭＬ文書を変換することは極めて
効果的である。

【０１４８】タグ名変換や内容変換に際しては、図３〜
図８に示すように、コンマ等の区切り記号を介して（Ｃ
ＳＶ形式で）非キー要素のタグ名や内容を繋ぐことによ
り、タグ名文字列や内容文字列が、タグ付けに関連する
ことのない記号を用いて極めて容易に作成される。この
とき、非キー要素が複数階層を成している場合、図６や
図７に示すように、タグ名文字列におけるタグ名に、階
層構造識別情報を付加すれば、その階層構造を変換後の
ＸＭＬ文書に保存することができるので、その階層構造
識別情報に従って、元のＸＭＬ文書を復元するための逆
変換を容易に行なうことができる。

【０１４９】また、非キー要素が属性を有する場合、図
６〜図８に示すように、タグ名文字列において、属性を
有するタグ名の後に、区切り記号を介して、属性名識別
情報（図６〜図８では“＠”）を付加した属性の属性名
を記述するとともに、このタグ名文字列におけるタグ名
の並びに対応させて非キー要素の内容を繋いだ内容文字
列を作成することにより、非キー要素の属性を変換後の
ＸＭＬ文書に保存することができるので、その属性名識
別情報に従って、元のＸＭＬ文書を復元するための逆変
換を容易に行なうことができる。

【０１５０】さらに、図３（Ｃ）や図３（Ｆ）に示すよ
うに、非キー要素のタグ名を短縮タグ名に置換するタグ
名短縮変換を行なうことにより、変換後の構造化文書の
データ量を削減することができる。このとき、図１４に
示すように変換仕様文書におけるタグ名短縮変換情報
（“format”属性値の“abbr”）によってタグ名短縮変
換を行なうか否かを指示し、タグ名短縮変換やタグ名伸
長変換の実行／非実行を自動的に切り換えることができ
る。

【０１５１】変換対象のＸＭＬ文書が表形式で記述され
ている場合、前述した通り、元のＸＭＬ文書を復元する
ための逆変換に際してタグ名や属性名を容易に割り出す
ことができるので、タグ名変換や属性名変換を省略する
ことができる。従って、変換後のＸＭＬ文書において
は、非キー要素の内容文字列が記述されていればよく、
タグ名や属性名に係る記述を省略することができ、変換
後のＸＭＬ文書のデータ量を大幅に削減することができ
る。このとき、図１３，図１５や図１７に示すように変
換仕様文書における表形式情報(“format”属性値の“t
able/nontable”)によって表形式変換を行なうか否かを
指示し、表形式変換や表形式逆変換の実行／非実行を自
動的に切り換えることができる。

【０１５２】〔２〕第２実施形態の説明〔２−１〕第２実施形態の構造化文書変換方法の原理図１（Ａ），図３（Ａ）および図２２を参照しながら、
本発明の第２実施形態としての構造化文書変換方法の原
理について説明する。図１（Ａ）および図３（Ａ）によ
り前述したＸＭＬ文書において、タグ名“名前”，“会
社”の要素をキー要素とするとともにタグ名“部署”，
“住所”，“電話”の要素を非キー要素とし、このＸＭ
Ｌ文書に対し、第２実施形態の構造化文書変換方法を適
用して得られた変換後ＸＭＬ文書のメモリ展開形式を図
２２に示す。なお、ここで示す展開形式は、応用ソフト
ウエアが標準ＡＰＩ（ＤＯＭ）を介して変換後ＸＭＬ文
書を操作するときの、メモリ上への展開形式である。

【０１５３】この図２２に示すＸＭＬ文書では、タグ名
“情報”を有する新たな要素が作成され、この新たな要
素の内容として、タグ名“部署”，“住所”，“電話”
の非キー要素が記述されている。ただし、非キー要素を
新たな要素の内容として記述する際に、非キー要素記述
におけるタグ記号“<”および“>”を実体参照記述に置
き換えている。また、タグ名“名前”，“会社”のキー
要素については、元のまま記述されている。なお、図２
２において、新要素“情報”の要素内容は、先頭の一部
のみ記述されている。

【０１５４】このようにしてレコード毎に非キー要素を
一つの要素にまとめるようにＸＭＬ文書を変換すること
によって、ＸＭＬ文書中に含まれる要素の数、つまりメ
モリ上に展開されたツリーの子要素の数を大幅に減らす
ことができ、展開時やデータ処理時に非キー要素を一括
して扱うことができる。

【０１５５】ここで、レコード毎に非キー要素を一つの
要素にまとめる際、第２実施形態では、非キー要素の記
述中においてタグ付けに関連する記号をタグ付けに関連
しない文字列に置き換えた文字列を作成し、この文字列
を、新たな要素の内容（図２２や図２３参照）もしくは
新たな要素の属性値（図２４参照）もしくは親要素の属
性値（図２５参照）もしくは親要素の内容（図２６参
照）として記述する。なお、第２実施形態の変換方法の
原理を説明するための図２２では、上記文字列を新たな
要素の内容として記述した場合の変換後ＸＭＬ文書のＤ
ＯＭツリーが示されている。

【０１５６】特に、第２実施形態では、非キー要素にお
けるタグ付けに関連する記号（タグ記号「<」および
「>」）を、「実体参照」と呼ばれる記述手法で、タグ
付けに関連しない他の文字列に置き換えている。実体(e
ntity)とは、ファイルや置換文字列のように、何らかの
形でＸＭＬ文書の一部となりうるデータを格納している
ものをいう。「実体参照」を行なう場合には、ＸＭＬ実
現値の中で「&実体名;」という記述がなされる。

【０１５７】通常、文書型定義(ＤＴＤ：Document Type
Definition)において、実体名と元のファイル名や文字
列との対応関係が宣言される。しかし、下記表１に示
す、タグ付けに関連する５つの実体＜，＞，＆，’，”
は、ＤＴＤなしでも使用できるようになっている。例え
ば、要素内容中に実体（置換したい文字）「＜」が記述
されていた場合、「＜」は実体名「lt」を用いた実体参
照記述による文字列「<」に置き換えられる。同様
に、「＞」は「>」に、「＆」は「&」に、「'」
は「'」に、「"」は「"」に置き換えられ
る。

【０１５８】

【表１】

【０１５９】このような実体参照記述を用いて、要素内
容中のタグを表わす記号「<」および「>」をそれぞれ実
体参照文字列「<」および「>」に置き換えること
により、要素内容中に記述されていたタグ記号は、パー
サー（構文解析ソフトウエア）でタグとして処理されな
くなる。従って、非キー要素を一つの要素にまとめる際
に、タグ記号を実体参照文字列に置換した一連の非キー
要素を、例えば<情報></情報>というタグで囲い、タグ
名“情報”の新要素の内容とすれば、その一連の非キー
要素は、単なる要素内容として扱われることになる。こ
のような変換方法を整理して記述すると、以下のように
なる。

【０１６０】(1)一連の非鍵要素を抽出する。第１レコード：<部署>Ａ部</部署><住所>Ａ市</住所><
電話>123</電話> 第２レコード：<部署>Ｂ部</部署><電話>456</電話><電
話>789</電話>

【０１６１】(2)タグ記号を実体参照文字列に置換す
る。「<」を「<」に、「>」を「>」に置換第１レコード：<部署>Ａ部</部署><住
所>Ａ市</住所><電話>123</電話&g
t; 第２レコード：<部署>Ｂ部</部署><電
話>456</電話><電話>789</電話>

【０１６２】(3)レコード毎に、<情報></情報>というタ
グで、実体参照を適用された一連の非キー要素を囲むこ
とにより、一連の非キー要素を１つの要素の内容として
まとめる。第１レコード：<情報><部署>Ａ部</部署>&
lt;住所>Ａ市</住所><電話>123</電
話></情報> 第２レコード：<情報><部署>Ｂ部</部署>&
lt;電話>456</電話><電話>789</電
話></情報>

【０１６３】〔２−２〕第２実施形態のシステムおよび
変換／逆変換処理の流れ本発明の第２実施形態としての構造化文書変換方法も、
図２で説明したシステムに適用される。多様な種類のＸ
ＭＬ文書に対して、各ＸＭＬ文書に応じたスタイルシー
ト（ＸＳＬシート）を一々作成するのは極めて面倒で手
間がかかる。そこで、その手間を省くため、第２実施形
態でも、図２７を参照しながら後述するごとく、ＸＭＬ
文書のデータ構造を変換するための仕様（レコード名，
キータグ名，非キータグ名等）をＸＭＬ文書（変換仕様
文書）によって作成して変換実行手順を与え、図３１〜
図３８を参照しながら後述するごとく、その変換仕様文
書に基づいてＸＭＬ文書の変換／逆変換を実行する。

【０１６４】さらに、第２実施形態でも、図３９（Ａ）
〜図３９（Ｄ）を参照しながら後述するごとく、与えら
れた変換仕様文書に基づいて、変換実行手順を指示する
変換用スタイルシートや、逆変換実行手順を指示する逆
変換用スタイルシートを自動的に生成し、このスタイル
シートを用いて、構造化文書変換プロセッサ（ＸＳＬＴ
プロセッサ）に、ＸＭＬ文書に対するデータ構造変換／
逆変換を実行させている。このように変換／逆変換の実
行手順をスタイルシートで与えるようにすれば、標準の
ＸＳＬＴプロセッサで変換／逆変換を実行することがで
きるので、ほとんどあらゆる種類のＸＭＬ文書システム
において第２実施形態による変換／逆変換処理を実行す
ることができる。

【０１６５】図２に示すシステムに第２実施形態の変換
方法を適用した場合も、データ構造変換/逆変換機構
（ＸＳＬＴプロセッサ）１０は、ＸＭＬ文書による変換
仕様文書を読み込むとともに、処理対象の入力ＸＭＬ文
書を読み込み、変換仕様（実際には構造変換用スタイル
シート）に基づいて入力ＸＭＬ文書を変換し、所定のデ
ータ構造変換を施したＸＭＬ文書を出力する。そして、
変換されたＸＭＬ文書に対しては、標準ＡＰＩ２０を介
して応用ソフトウエアによりデータ処理（例えばタグ検
索）が施され、データ処理後のＸＭＬ文書が得られる。
なお、データ処理としてタグ検索を行なった場合、検索
結果が抽出ＸＭＬ文書の形で得られる。この抽出ＸＭＬ
文書は、データ構造変換／逆変換機構１０に読み込ま
れ、変換仕様（実際には逆変換用スタイルシート）に基
づいて元のデータ構造のＸＭＬ文書に逆変換され、最終
的なデータ処理結果としてのＸＭＬ文書が得られる。

【０１６６】なお、第２実施形態において、ＸＳＬＴ変
換部１１に読み込まれるデータ構造変換用の仕様ＸＭＬ
文書については、図２７を参照しながら後述する。ま
た、ＸＳＬＴ変換部１１によって生成される構造変換用
スタイルシートおよび逆変換用スタイルシートについて
は、それぞれ図２８および図２９を参照しながら後述す
る。

【０１６７】〔２−３〕第２実施形態におけるＸＭＬ文
書の変換方法および具体的な変換例図２３〜図２６においては、それぞれ、図４（Ａ）に示
した表形式ＸＭＬ文書に、第２実施形態の構造化文書変
換方法を適用して得られた変換結果の第１〜第４具体例
が示されている。ここでも、タグ名“名前”，“会社”
の要素をキー要素とし、タグ名“部署”，“住所”，
“電話”の要素を非キー要素とする。

【０１６８】図２３に示す第１具体例では、変換対象の
ＸＭＬ文書を成す要素をキー要素と非キー要素とに分
け、タグ名“情報”を付与された新たな要素を作成し、
非キー要素の記述中においてタグ記号「<」，「>」をそ
れぞれ実体参照記述による文字列「<」，「>」に
置き換えた文字列を作成し、この文字列を新たな要素の
内容として記述する。キー要素については、変換後のＸ
ＭＬ文書においても、何の変換も施すことなくそのまま
記述する。このとき、キー要素と非キー要素とを区別す
るための情報や、新たな要素に関する情報（タグ名“情
報”）は、変換仕様文書に記述されて指定され、この変
換仕様文書に基づいて、変換対象のＸＭＬ文書に対する
データ構造変換が施されるとともに、その変換を施され
たＸＭＬ文書に対し、非キー要素の記述を元の状態に戻
す逆変換が施される。

【０１６９】図２４に示す第２具体例では、変換対象の
ＸＭＬ文書を成す要素をキー要素と非キー要素とに分
け、タグ名“情報”および属性名“contents”を付与さ
れた新たな要素（空要素）を作成し、非キー要素の記述
中においてタグ記号「<」，「>」をそれぞれ実体参照記
述による文字列「<」，「>」に置き換えた文字列
を作成し、この文字列を新たな要素の属性名“content
s”に対応する属性値として記述する。キー要素につい
ては、変換後のＸＭＬ文書においても、何の変換も施す
ことなくそのまま記述する。このとき、キー要素と非キ
ー要素とを区別するための情報や、新たな要素に関する
情報（タグ名“情報”および属性名“contents”）は、
変換仕様文書に記述されて指定され、この変換仕様文書
に基づいて、変換対象のＸＭＬ文書に対するデータ構造
変換や、変換後ＸＭＬ文書に対する逆変換が施される。

【０１７０】図２５に示す第３具体例では、変換対象の
ＸＭＬ文書を成す要素をキー要素と非キー要素とに分
け、非キー要素の親要素（タグ名“個人”）に新たな属
性名“contents”を付与し、非キー要素の記述中におい
てタグ記号「<」，「>」をそれぞれ実体参照記述による
文字列「<」，「>」に置き換えた文字列を作成
し、この文字列を親要素の属性名“contents”に対応す
る属性値として記述する。キー要素については、変換後
のＸＭＬ文書においても、何の変換も施すことなくその
まま記述する。このとき、キー要素と非キー要素とを区
別するための情報や、親要素に関する情報（タグ名“個
人”や属性名“contents”）は、変換仕様文書に記述さ
れて指定され、この変換仕様文書に基づいて、変換対象
のＸＭＬ文書に対するデータ構造変換や、変換後ＸＭＬ
文書に対する逆変換が施される。

【０１７１】図２６に示す第４具体例では、変換対象の
ＸＭＬ文書を成す要素をキー要素と非キー要素とに分
け、非キー要素の記述中においてタグ記号「<」，「>」
をそれぞれ実体参照記述による文字列「<」，「&g
t;」に置き換えた文字列を作成し、この文字列を親要素
（タグ名“個人”）の内容として記述する。キー要素に
ついては、変換後のＸＭＬ文書においても、何の変換も
施すことなくそのまま記述する。このとき、キー要素と
非キー要素とを区別するための情報や、親要素に関する
情報（タグ名“個人”）は、変換仕様文書に記述されて
指定され、この変換仕様文書に基づいて、変換対象のＸ
ＭＬ文書に対するデータ構造変換や、変換後ＸＭＬ文書
に対する逆変換が施される。

【０１７２】このように、第２実施形態の変換方法も、
第１実施形態と同様、複数の非キー要素を一つの要素に
まとめ、応用ソフトウエアがデータ処理を実行している
間は非キー要素をデータ処理と無関係な要素として一括
して扱えるようにするものである。変換方法として、図
２３〜図２６で説明した各種方法のうちのどれを用いる
かは、自動変換スタイルシート等により選択・指定する
ことができるようになっている。このとき、これら各種
方法のうちのどれを用いるかは、ＸＭＬ文書のデータ量
によって、あるいは、データ処理に伴い新たな要素が幾
つ増えるかによって決定されることになるが、非キー要
素をひとまとめにして取り扱うという本発明の本質を考
えれば、どの方法を採用してもよい。

【０１７３】〔２−４〕第２実施形態の変換仕様文書お
よびスタイルシートの具体例図２７には、図４（Ａ）に示した表形式ＸＭＬ文書を変
換対象とした場合の、具体的な変換仕様文書（ＸＭＬ文
書）が示されている。ここでは、変換対象のＸＭＬ文書
が表形式データである場合について説明しているが、変
換対象のＸＭＬ文書が非表形式データであっても、図２
７に示す変換仕様文書を用いて変換／逆変換を行なうこ
とができる。また、図２７に示す変換仕様文書は、図２
３で説明した変換方法を実現するためのものである。

【０１７４】この図２７に示す変換仕様文書では、ルー
トのタグ名“名簿”やレコードのタグ名“個人”が記述
されるほか、タグ名“key”の要素の内容としてキー要
素のタグ名“名前”および“会社”を記述するとともに
タグ名“nonkey”の要素の内容として非キー要素のタグ
名“部署”，“住所”および“電話”を記述することに
よりキー要素と非キー要素とを区別するための情報が記
述されている。また、タグ名“nonkey”の要素の内容に
は、タグ名“merged_item”の要素が含まれており、こ
の要素の内容として、非キー要素を一つにまとめるため
の新たな要素のタグ名 “情報”が記述されている。こ
のような変換仕様文書により、ＸＭＬ文書のデータ構造
変換実行手順が指示される。

【０１７５】そして、図２に示すＸＳＬＴ変換部１１
が、図２７に示す変換仕様文書を読み込み、その変換仕
様文書と自動変換スタイルシート（自動変換ＸＳＬシー
ト；図示省略）とにより、図２８に示す構造変換用スタ
イルシート（ＸＳＬシート）と図２９に示す逆変換用ス
タイルシート（ＸＳＬシート）とを生成する。図２８に
示す構造変換用スタイルシートは、ＸＳＬＴ構造変換部
１２によって読み込まれ、変換対象のＸＭＬ文書（入力
ＸＭＬ文書）に対しデータ構造変換を施すために用いら
れる。また、図２９に示す逆変換用スタイルシートは、
ＸＳＬＴ逆変換部１３によって読み込まれ、応用ソフト
ウエア３０により処理されたＸＭＬ文書（抽出ＸＭＬ文
書，変換後ＸＭＬ文書）を元の形式のＸＭＬ文書（非キ
ー要素を元の状態に戻したＸＭＬ文書）に復元するため
に用いられる。

【０１７６】ここまで、各レコードにおける非キー要素
が、単一階層であり且つ属性をもたない場合について説
明してきたが、第２実施形態の変換方法も、非キー要素
が複数階層を成す場合（階層が深くなった場合）や属性
を有する場合にも、上述した原理を拡張することによっ
て適用される。つまり、階層毎に、非キー要素のタグに
関わる記号を実体参照記述による文字列に置き換え、そ
の置換結果を要素内容とする新しい要素を同じ階層に設
けるか、その置換結果を属性値とする新しい要素を同じ
階層に設けるか、その置換結果を親要素の要素内容もし
くは新しい属性の属性値として記述すればい。

【０１７７】なお、図３０は、第２実施形態において、
レコード内の非キー要素が階層構造を成すとともに属性
を有する場合の変換仕様文書を作成する手順を説明する
ためのフローチャート（ステップＳ１，Ｓ２，Ｓ５およ
びＳ６）である。ただし、図３０に示す手順は、レコー
ド内の階層数が任意であり且つ非キー要素が任意の属性
を有する場合の変換仕様の作成手順である。また、図３
０に示す手法で作成される変換仕様文書は、図２３で説
明した変換方法を実現するためのものである。

【０１７８】レコード内の非キー要素が階層構造を成す
とともに属性を有する場合の変換仕様文書を作成する際
には、図３０に示すように、まず、ルート（root）およ
びレコードのタグ名を要素“structure”で指定する
（ステップＳ１）。また、レコード内の要素をキー要素
と非キー要素との二つのグループに分ける（ステップＳ
２）。そして、キー要素のタグ名をそれぞれ<key>内の<
item>の箇所で指定するとともに（ステップＳ５）、非
キー要素のタグ名をそれぞれ<nonkey>内の<item>の箇所
で指定する（ステップＳ６）。

【０１７９】ステップＳ６においては、非キー要素に関
する情報が、以下の手順(1)，(2)に従って変換仕様文書
として記述される。手順(1)：一つにまとめられた非キ
ー要素を記述する新たな要素のタグ名を<merged_item>
で指定する。手順(2)：非キー要素のタグ名を<item>の
後に記述する。

【０１８０】〔２−５〕第２実施形態の変換方法による
具体的な変換処理手順次に、図３１〜図３９を参照しながら、本発明の第２実
施形態としての構造化文書変換方法による変換処理手順
について説明する。図３１〜図３８は、図１８や図１９
により説明した手順と同様、データ構造変換／逆変換処
理を、Javaソフトウエアにより、ＤＯＭおよびＸＳＬＴ
などを使用して実行する場合の処理手順を示すものであ
る。なお、図３１〜図３８において図１８および図１９
と同じステップ番号を付されたステップは、図１８およ
び図１９で説明した処理と同一もしくはほぼ同一の処理
を実行するものであるので、その説明は省略する。つま
り、以下の説明では、ステップ番号Ａ１〜Ａ１１，Ａ１
５，Ａ１６およびＢ１〜Ｂ１１，Ｂ１４，Ｂ１５を付さ
れたステップにおける処理の説明は省略する。また、図
３１〜図３８に示す処理手順は、図２に示すようなデー
タ構造変換／逆変換機構１０を用いることなく、変換仕
様文書に基づいて、変換対象ＸＭＬ文書や変換後ＸＭＬ
文書に対する処理を実行する際の処理手順である。

【０１８１】〔２−５−１〕変換／逆変換処理手順の第
１例図３１は、変換仕様文書に基づいて変換対象ＸＭＬ文書
に対してデータ構造変換を施す際の処理手順の第１例を
説明するためのフローチャートであり、図３２は、変換
仕様文書に基づいて変換後ＸＭＬ文書（処理済ＸＭＬ文
書）に対してデータ構造の逆変換を施す際の処理手順の
第１例を説明するためのフローチャートである。ここで
説明する第１例は、図２３で説明した変換方法に対応す
るものである。

【０１８２】図３１に示す変換処理手順の第１例では、
ステップＡ７で切り出された要素データが非キー要素で
ある場合（ステップＡ１１のＹＥＳルート）、変換仕様
文書によって予め指定されたタグ名“情報”の新要素
（<情報>タグ）を作成する（ステップＡ３１）。既に非
キー要素に対応する新要素が作成されている場合には、
この作成処理は省略される。

【０１８３】また、その非キー要素の記述中におけるタ
グ記号「<」，「>」をそれぞれ実体参照記述による文字
列「<」，「>」に置き換える（ステップＡ３
２）。なお、このステップＡ３２において、非キー要素
の内容中に、タグ付けに関連する記号（表１参照）と同
じ文字が現われた場合、その文字を、実体参照記述によ
る文字列に置き換える。

【０１８４】そして、ステップＡ３１で新要素を作成し
た場合には、ステップＡ３２での置換結果文字列を新要
素の内容として記述する。既に非キー要素に対応する新
要素が作成されている場合には、ステップＡ３２での置
換結果文字列を、新要素の内容における置換結果文字列
の後に繋げて記述する（ステップＡ３３）。この後、ス
テップＡ７の処理に戻る。

【０１８５】一方、図３２に示す逆変換処理手順の第１
例では、非キー要素をまとめた新要素（<情報>タグ）が
ステップＢ７で切り出された場合（ステップＢ１１のＹ
ＥＳルート）、その新要素の内容の記述中における文字
列「<」，「>」を元のタグ記号「<」，「>」に復
元する（ステップＢ３１）。なお、このステップＢ３１
において、新要素における内容に、実体参照記述による
他の文字列が含まれている場合には、その文字列を、タ
グ付けに関連する元の記号（表１参照）に復元する。そ
して、復元ＸＭＬ文書において、非キー要素をまとめた
要素（<情報>タグ）の記述を削除してから（ステップＢ
３２）、ステップＢ７の処理に戻る。

【０１８６】〔２−５−２〕変換／逆変換処理手順の第
２例図３３は、変換仕様文書に基づいて変換対象ＸＭＬ文書
に対してデータ構造変換を施す際の処理手順の第２例を
説明するためのフローチャートであり、図３４は、変換
仕様文書に基づいて変換後ＸＭＬ文書（処理済ＸＭＬ文
書）に対してデータ構造の逆変換を施す際の処理手順の
第２例を説明するためのフローチャートである。ここで
説明する第２例は、図２４で説明した変換方法に対応す
るものである。

【０１８７】図３３に示す変換処理手順の第２例では、
ステップＡ７で切り出された要素データが非キー要素で
ある場合（ステップＡ１１のＹＥＳルート）、タグ名
“情報”および属性名“contents”を付与された新要素
（<情報>タグ）を作成する（ステップＡ３４）。既に非
キー要素に対応する新要素が作成されている場合には、
この作成処理は省略される。

【０１８８】また、その非キー要素の記述中におけるタ
グ記号「<」，「>」をそれぞれ実体参照記述による文字
列「<」，「>」に置き換える（ステップＡ３
５）。なお、このステップＡ３５において、非キー要素
の内容中に、タグ付けに関連する記号（表１参照）と同
じ文字が現われた場合、その文字を、実体参照記述によ
る文字列に置き換える。

【０１８９】そして、ステップＡ３４で新要素を作成し
た場合には、ステップＡ３５での置換結果文字列を新要
素の“contents”属性値として記述する。既に非キー要
素に対応する新要素が作成されている場合には、ステッ
プＡ３５での置換結果文字列を、新要素の“contents”
属性値における置換結果文字列の後に繋げて記述する
（ステップＡ３６）。この後、ステップＡ７の処理に戻
る。

【０１９０】一方、図３４に示す逆変換処理手順の第２
例では、非キー要素をまとめた新要素（<情報>タグ）が
ステップＢ７で切り出された場合（ステップＢ１１のＹ
ＥＳルート）、その新要素の“contents”属性値の記述
中における文字列「<」，「>」を元のタグ記号
「<」，「>」に復元する（ステップＢ３３）。なお、こ
のステップＢ３３において、新要素における“content
s”属性値に、実体参照記述による他の文字列が含まれ
ている場合には、その文字列を、タグ付けに関連する元
の記号（表１参照）に復元する。

【０１９１】そして、復元ＸＭＬ文書において、非キー
要素をまとめた要素（<情報>タグ）の記述を削除すると
ともに、この要素（<情報>タグ）の“contents”属性値
（ステップＢ３３で復元された結果）を、キー要素の隣
に要素内容として挿入する（ステップＢ３４）。この
後、ステップＢ７の処理に戻る。

【０１９２】〔２−５−３〕変換／逆変換処理手順の第
３例図３５は、変換仕様文書に基づいて変換対象ＸＭＬ文書
に対してデータ構造変換を施す際の処理手順の第３例を
説明するためのフローチャートであり、図３６は、変換
仕様文書に基づいて変換後ＸＭＬ文書（処理済ＸＭＬ文
書）に対してデータ構造の逆変換を施す際の処理手順の
第３例を説明するためのフローチャートである。ここで
説明する第３例は、図２５で説明した変換方法に対応す
るものである。

【０１９３】図３５に示す変換処理手順の第３例では、
ステップＡ７で切り出された要素データが非キー要素で
ある場合（ステップＡ１１のＹＥＳルート）、親要素
（<個人>タグ）に属性名“contents”の新たな属性を設
定する（ステップＡ３７）。既に新属性が設定されてい
る場合には、この作成処理は省略される。

【０１９４】また、その非キー要素の記述中におけるタ
グ記号「<」，「>」をそれぞれ実体参照記述による文字
列「<」，「>」に置き換える（ステップＡ３
８）。なお、このステップＡ３８において、非キー要素
の内容中に、タグ付けに関連する記号（表１参照）と同
じ文字が現われた場合、その文字を、実体参照記述によ
る文字列に置き換える。

【０１９５】そして、ステップＡ３７で新属性を設定し
た場合には、ステップＡ３８での置換結果文字列を親要
素の“contents”属性値として記述する。既に非キー要
素に対応する新属性が設定されている場合には、ステッ
プＡ３７での置換結果文字列を、親要素の“contents”
属性値における置換結果文字列の後に繋げて記述する
（ステップＡ３９）。この後、ステップＡ７の処理に戻
る。

【０１９６】一方、図３６に示す逆変換処理手順の第３
例では、前述したステップＢ９およびＢ１１による処理
に代えてステップＢ９´による処理が実行されている。
このステップＢ９´においては、ステップＢ７で切り出
された要素が、非キー要素を“contents”属性値として
まとめたマージ親要素（ここでは“contents”属性値を
有する<個人>タグ）であるか否かを判断する。

【０１９７】マージ親要素でない場合（ステップＢ９´
のＮＯルート）、前述したステップＢ１０の処理へ移行
する一方、マージ親要素である場合（ステップＢ９´の
ＹＥＳルート）、その親要素の“contents”属性値の記
述中における文字列「<」，「>」を元のタグ記号
「<」，「>」に復元する（ステップＢ３５）。なお、こ
のステップＢ３５において、親要素における“content
s”属性値に、実体参照記述による他の文字列が含まれ
ている場合には、その文字列を、タグ付けに関連する元
の記号（表１参照）に復元する。

【０１９８】そして、復元ＸＭＬ文書において、親要素
において非キー要素向けに設定された属性の記述を削除
するとともに、その属性の“contents”属性値（ステッ
プＳ３５で復元された結果）を、元々の子要素の記述の
隣に要素内容として挿入する（ステップＢ３６）。この
後、ステップＢ７の処理に戻る。

【０１９９】〔２−５−４〕変換／逆変換処理手順の第
４例図３７は、変換仕様文書に基づいて変換対象ＸＭＬ文書
に対してデータ構造変換を施す際の処理手順の第４例を
説明するためのフローチャートであり、図３８は、変換
仕様文書に基づいて変換後ＸＭＬ文書（処理済ＸＭＬ文
書）に対してデータ構造の逆変換を施す際の処理手順の
第４例を説明するためのフローチャートである。ここで
説明する第４例は、図２６で説明した変換方法に対応す
るものである。

【０２００】図３７に示す変換処理手順の第４例では、
ステップＡ７で切り出された要素データが非キー要素で
ある場合（ステップＡ１１のＹＥＳルート）、その非キ
ー要素の記述中におけるタグ記号「<」，「>」をそれぞ
れ実体参照記述による文字列「<」，「>」に置き
換える（ステップＡ４０）。なお、このステップＡ４０
において、非キー要素の内容中に、タグ付けに関連する
記号（表１参照）と同じ文字が現われた場合、その文字
を、実体参照記述による文字列に置き換える。そして、
ステップＡ４０での置換結果文字列を、非キー要素の親
要素（<個人>タグ）の内容として記述する（ステップＡ
４１）。この後、ステップＡ７の処理に戻る。

【０２０１】一方、図３８に示す逆変換処理手順の第４
例では、前述したステップＢ９´による処理に代えてス
テップＢ９″による処理が実行されている。このステッ
プＢ９″においては、ステップＢ７で切り出された要素
が、非キー要素を要素内容としてまとめたマージ親要素
であるか否かを判断する。

【０２０２】マージ親要素でない場合（ステップＢ９″
のＮＯルート）、前述したステップＢ１０の処理へ移行
する一方、マージ親要素である場合（ステップＢ９″の
ＹＥＳルート）、その親要素の要素内容の記述中におけ
る文字列「<」，「>」を元のタグ記号「<」，
「>」に復元する（ステップＢ３７）。なお、このステ
ップＢ３７において、親要素における要素内容に、実体
参照記述による他の文字列が含まれている場合には、そ
の文字列を、タグ付けに関連する元の記号（表１参照）
に復元する。そして、復元ＸＭＬ文書において、ステッ
プＢ３７で復元された結果を、元々の子要素の記述の隣
に要素内容として挿入してから（ステップＢ３８）、ス
テップＢ７の処理に戻る。

【０２０３】〔２−５−５〕変換／逆変換処理手順の第
５例ところで、図３９（Ａ）〜図３９（Ｄ）は、第２実施形
態によるデータ構造変換／逆変換処理をＸＳＬＴプロセ
ッサのみで実行する場合の処理手順を示すものである。
つまり、図３９（Ａ）〜図３９（Ｄ）に示す処理手順
は、図２に示したデータ構造変換／逆変換機構１０を用
い、変換仕様文書に基づいて、変換対象ＸＭＬ文書や変
換後ＸＭＬ文書に対する処理を実行する際の処理手順で
ある。

【０２０４】ここで、図３９（Ａ）および図３９（Ｂ）
は、それぞれ、第２実施形態における変換用スタイルシ
ートおよび逆変換用スタイルシートの作成手順（ＸＳＬ
Ｔ変換部１１での処理）を説明するためのフローチャー
トである。また、図３９（Ｃ）は、第２実施形態におい
て、ＸＳＬＴ構造変換部１２が構造変換用スタイルシー
トに基づいて変換対象ＸＭＬ文書に対してデータ構造変
換を施す際の処理手順（変換処理手順の第５例）を説明
するためのフローチャートであり、図３９（Ｄ）は、第
２実施形態において、ＸＳＬＴ逆変換部１３が逆変換用
スタイルシートに基づいて変換後ＸＭＬ文書（処理済Ｘ
ＭＬ文書）に対してデータ構造の逆変換を施す際の処理
手順（逆変換処理手順の第５例）を説明するためのフロ
ーチャートである。

【０２０５】変換対象ＸＭＬ文書に対する処理を施すの
に先立って、まず、図３９（Ａ）に示すように、ＸＳＬ
Ｔ変換部１１は、ＸＭＬで記述された変換仕様文書を読
み込んで、その変換仕様文書の記述から変換仕様を解析
してから（ステップＡ１）、その変換仕様と自動変換ス
タイルシートとを用いて、データ構造変換用スタイルシ
ートを作成する（ステップＡ２０）。また、同様に、図
３９（Ｂ）に示すように、ＸＳＬＴ変換部１１は、ＸＭ
Ｌで記述された変換仕様文書を読み込んで、その変換仕
様文書の記述から変換仕様を解析してから（ステップＢ
１）、その変換仕様と自動変換スタイルシートとを用い
て、データ構造逆変換用スタイルシートを作成する（ス
テップＢ２０）。なお、図３９（Ａ）および図３９
（Ｂ）により説明した処理手順は、第１実施形態におい
て図２０（Ａ）および図２０（Ｂ）により説明した処理
手順と同様である。

【０２０６】そして、変換対象ＸＭＬ文書に対してデー
タ構造変換を施す際には、図３９（Ｃ）に示すように、
ＸＳＬＴ構造変換部１２は、その変換対象ＸＭＬ文書と
構造変換用スタイルシートとを指定して、変換処理を開
始する（ステップＡ２１）。その後、ＸＳＬＴ構造変換
部１２は、４種類の変換方法（それぞれ図２３〜図２６
により説明した変換方法）から選択された方法に応じ
て、図３１，図３３，図３５もしくは図３７のステップ
Ａ２以降の処理と同様の処理を実行する。

【０２０７】逆に、変換後ＸＭＬ文書に対してデータ構
造の逆変換を施す際には、図３９（Ｄ）に示すように、
ＸＳＬＴ逆変換部１３は、逆変換対象ＸＭＬ文書と逆変
換用スタイルシートとを指定して、逆変換処理を開始す
る（ステップＢ２１）。その後、ＸＳＬＴ逆変換部１３
は、４種類の変換方法（それぞれ図２３〜図２６により
説明した変換方法）から選択された方法に応じて、図３
２，図３４，図３６もしくは図３８のステップＢ２以降
の処理と同様の処理を実行する。

【０２０８】このようにして、第２実施形態において
も、図２に示すように、応用ソフトウエア３０は、標準
ＡＰＩ（ＤＯＭ）２０を通して、ＸＳＬＴ構造変換部１
２からの、要素数を削減された変換後ＸＭＬ文書に対
し、タグ検索等の処理を行なうことになるので、第１実
施形態と同様、応用ソフトウエア３０による処理速度は
大幅に高速化される。

【０２０９】〔２−６〕第２実施形態の効果このように、本発明の第２実施形態としての構造化文書
変換方法によれば、変換対象のＸＭＬ文書を成す要素が
キー要素と非キー要素とに分けられ、その変換対象のＸ
ＭＬ文書が、キー要素をそのまま記述する一方で、非キ
ー要素を一つのタグにまとめその非キー要素の記述中の
タグ記号をタグ付けに関連しない文字列に置き換えたＸ
ＭＬ文書に変換されるので、第１実施形態の構造化文書
変換方法と同様の効果ないし利点を得ることができる。
このとき、タグ記号「<」および「>」をそれぞれ実体参
照記述による文字列「&lt；」および「&gt；」に置き換
えることにより、極めて容易にＸＭＬ文書の変換を行な
うことができる。

【０２１０】〔３〕第３実施形態の説明〔３−１〕第３実施形態の構造化文書変換方法の原理図１（Ａ），図３（Ａ）および図４０を参照しながら、
本発明の第３実施形態としての構造化文書変換方法の原
理について説明する。図１（Ａ）および図３（Ａ）によ
り前述したＸＭＬ文書において、タグ名“名前”，“会
社”の要素をキー要素とするとともにタグ名“部署”，
“住所”，“電話”の要素を非キー要素とし、このＸＭ
Ｌ文書に対し、第３実施形態の構造化文書変換方法を適
用して得られた変換後ＸＭＬ文書のメモリ展開形式を図
４０に示す。なお、ここで示す展開形式は、応用ソフト
ウエアが標準ＡＰＩ（ＤＯＭ）を介して変換後ＸＭＬ文
書を操作するときの、メモリ上への展開形式である。

【０２１１】この図４０に示すＸＭＬ文書では、タグ名
“compressed”を付与された新たな要素が作成され、こ
の新たな要素の内容として、タグ名“部署”，“住
所”，“電話”の非キー要素をひとまとめにした文字列
を圧縮して得られた圧縮文字列が記述されている。この
圧縮文字列は、非キー要素をひとまとめにした文字列
を、図４１（Ａ）を参照しながら後述する本発明のデー
タ変換方法により圧縮して得られたものである。また、
タグ名“名前”，“会社”のキー要素については、元の
まま記述されている。

【０２１２】このように、変換後ＸＭＬ文書において、
レコード毎に一つの要素にまとめられた非キー要素を、
所定のデータ変換方法により圧縮文字列に変換して記述
することにより、ＸＭＬ文書中に含まれる要素の数、つ
まりメモリ上に展開されたツリーの子要素の数を大幅に
減らすことができ、展開時やデータ処理時に非キー要素
を一括して扱うことができる。

【０２１３】ここで、圧縮文字列は、変換後ＸＭＬ文書
において、新たな要素の内容として記述されてもよいし
〔図４０や図４４（Ａ）参照〕、新たな要素の属性値と
して記述されてもよい〔図４４（Ｂ）参照〕。なお、第
３実施形態の変換方法の原理を説明するための図４０で
は、上記圧縮文字列を新たな要素の内容として記述した
場合の変換後ＸＭＬ文書のＤＯＭツリーが示されてい
る。

【０２１４】〔３−２〕第３実施形態におけるデータ変
換方法（データ圧縮／復元方法）ところで、従来技術３において前述した通り、通常、圧
縮ファイルは、バイナリデータであるため、文字コード
のみからなるＸＭＬ文書内に置くことができない。そこ
で、本発明のデータ変換方法のごとくバイナリの圧縮デ
ータを文字コードに変換すれば、その圧縮データ（圧縮
文字列）をＸＭＬ文書の要素内容または属性値として記
述することができる。

【０２１５】ただし、その際、圧縮文字列に用いる文字
コードのセット中に、構造化文書内で特別の意味をもつ
文字コードが含まれないようにすることに注意する必要
がある。ＸＭＬ文書の場合、上記特別の意味をもつ文字
コードは、表１に示した、タグ付けに関連する記号<,>,
&,",'である。

【０２１６】さらに、ＸＭＬ文書は種々の文字コード系
（ＵＴＦ−８，ＵＴＦ−１６，Shift_ＪＩＳ，ＥＵＣ
等）を取り得るため、圧縮データをただ単に文字コード
で表すだけでは、ＸＭＬ文書の文字コード系が変換され
たときに、圧縮データを表した圧縮文字列も自動的に変
換されることになり、その圧縮データを元の状態に復元
ができなくなるという不具合が生じるおそれがある。

【０２１７】上述のような注意点や不具合を考慮し、本
発明のデータ変換方法では、圧縮データ（圧縮文字列）
を表現する文字コードとして、タグ付けに関連する文字
コードを除いたＡＳＣＩＩコードを用いている。ＡＳＣ
ＩＩコードは、種々の文字コード系に共通に含まれる文
字コードセットである。従って、圧縮文字列がＡＳＣＩ
Ｉコードによって記述されていれば、その圧縮文字列を
含むＸＭＬ文書に対して文字コード系の変換が施されて
も、圧縮文字列を成すビット列は、変換されることなく
そのままの状態に保持される。

【０２１８】なお、図４５を参照しながら後述するごと
く、圧縮文字列に圧縮時点の文字コード系の種別を示す
情報を付与しておくことにより、圧縮文字列から復元さ
れたデータの文字コード系の種別を認識することがで
き、その文字コード系を、ＸＭＬ文書の現在の文字コー
ド系に合わせることにより、ＸＭＬ文書全体の文字コー
ド系の整合性を保つことができる。

【０２１９】ここで、図４１（Ａ），図４１（Ｂ）およ
び図４２を参照しながら、第３実施形態で用いられるデ
ータ変換方法（データ圧縮／復元方法）について、より
具体的に説明する。ここで、図４１（Ａ）はデータ変換
処理（圧縮処理）の流れを説明するための図、図４１
（Ｂ）はデータ逆変換処理（伸長処理）の流れを説明す
るための図、図４２は第３実施形態における文字コード
変換用ルックアップテーブル（ＬＵＴ）の具体例を示す
図である。

【０２２０】入力文字列（本実施形態では非キー要素を
成す文字列）を圧縮して文字コードへのパッキングを行
なう際には、図４１（Ａ）に示すように、まず、入力文
字列を、圧縮用静的単語辞書（静的辞書）４１に登録さ
れている単語（文字列）と照合し、その単語辞書４１中
の単語と最長一致する単語を入力文字列から順次切り出
し、切り出された単語を、その単語に対応する辞書番号
に置き換える（ステップＳ１１）。

【０２２１】なお、静的単語辞書４１によるデータ圧縮
手法は、予め作成された辞書を用いる公知技術で、例え
ば特開平３−２４７１６７号公報（辞書登録方法及びデ
ータ圧縮方法）や特開平４−８０８１３号公報（辞書初
期化方式）や特開平６−２２２９０３号公報（文字デー
タを圧縮し圧縮済みデータを展開するための静的辞書構
造を提供する方法および手段）などに開示されている。
第３実施形態における静的単語辞書４１や４４は、サン
プルの出現頻度を調べて予め作成されたものである。

【０２２２】次に、出現頻度に従って割り当てた可変長
の符号語を収めた符号表４２を参照し、固定長ビットの
辞書番号に対応する可変長符号を取り出して辞書番号を
可変長符号に置換した後、その可変長符号が、バイトご
とのデータになるように、ビット詰め処理を行なう。こ
のとき、各バイトのデータについて、可変長符号化によ
り得られたバイナリデータを６ビット分だけ詰めるバイ
ト・パッキングを行なう（ステップＳ１２）。つまり、
ステップＳ１２では、変換対象の文字もしくは文字列
（本実施形態では辞書番号）に対し、出現頻度の高いも
のほど短い可変長符号を割り付ける可変長符号化（統計
的なデータ圧縮）を行ない、この可変長符号化により得
られたバイナリデータを６ビットずつ１バイトの変換デ
ータにパッキングして出力する。

【０２２３】この後、例えば図４２に示すような文字コ
ード変換用ルックアップテーブル（ＬＵＴ）４５を用い
て、１バイトの各変換データ（６ビット詰めされた１バ
イトのデータ）を文字コードの符号に変換し、その変換
結果を圧縮文字列として出力する（ステップＳ１３）。

【０２２４】ここで、ＬＵＴ４５は、上述のように６ビ
ットパッキング時の文字コード変換（ＢＡＳＥ６４符号
化）に用いられるもので、６ビットで表わされる値０〜
６３と、これらの値０〜６３にそれぞれ対応する文字コ
ードの符号との対応関係を設定している。特に、図４２
に示すＬＵＴ４５は、６ビット値０〜６３を、それぞ
れ、Ａ〜Ｚ（0x41〜0x5A），ａ〜ｚ（0x61〜0x7A），０
〜９（0x30〜0x39），+（0x2B），/（0x2F）の文字コー
ドに対応させるように作成されている。

【０２２５】このとき、ＬＵＴ４５におけるＡＳＣＩＩ
コードのセットにはタグ記号“<”，“>”が含まれてい
ない。つまり、ＬＵＴ４５には、ＸＭＬ文書においてタ
グ付けに関する文字コードを除いたＡＳＣＩＩコードの
セットが登録されている。従って、ステップＳ１３での
ＬＵＴ変換処理に際して、タグ記号をタグ付けに関連し
ない他の文字列に変換するといった、特別なエスケープ
処理を行なう必要はない。

【０２２６】このようなＬＵＴ４５を用いて、各変換デ
ータにパッキングされた６ビットデータが、ＡＳＣＩＩ
コードに従う文字コード（ＡＳＣＩＩコードの印字可能
文字に対応する符号）に変換され、変換データ毎に得ら
れた文字コードが、圧縮変換結果つまり圧縮文字列とし
て出力される。

【０２２７】一方、上述のようにして圧縮された圧縮文
字列を元の文字列に復元する際には、図４１（Ｂ）に示
すように、まず、圧縮文字列の各文字コードを、ＬＵＴ
４５に基づいて０〜６３の数値（６ビット値）に変換す
るＬＵＴ逆変換を行なう（ステップＳ２１）。この後、
６ビット詰めを解く処理、即ち、１バイトの各変換デー
タから６ビットデータを取り出すデパッキング（アンパ
ッキング）を行ない、取り出されたバイナリデータを、
符号表４３に基づいて固定長ビットの辞書番号に復元す
る（ステップＳ２２）。

【０２２８】そして、ステップＳ２２で復元された各辞
書番号を復元用静的単語辞書（静的辞書）４４の辞書番
号と照合して各辞書番号に対応する単語（文字列）を読
み出し、各辞書番号を、読み出された単語（文字列）に
置き換えることにより、元の文字列に復元する（ステッ
プＳ２３）。以下に、上述したデータ圧縮／復元方法を
用いて行なわれる、構造化文書の代表であるＸＭＬ文書
に対する変換／逆変換処理について説明する。

【０２２９】〔３−３〕第３実施形態のシステムおよび
変換／逆変換処理の流れ図４３は、本発明の第３実施形態としての構造化文書変
換方法を適用されるシステムおよびそのシステムにおけ
る変換／逆変換処理の流れを説明するための図である。
多様な種類のＸＭＬ文書に対して、各ＸＭＬ文書に応じ
たスタイルシート（ＸＳＬシート）を一々作成するのは
極めて面倒で手間がかかる。そこで、その手間を省くた
め、第３実施形態でも、図４６を参照しながら後述する
ごとく、ＸＭＬ文書のデータ構造を変換するための仕様
（レコード名，キータグ名，非キータグ名等）をＸＭＬ
文書（変換仕様文書）によって作成して変換実行手順を
与え、図４７および図４８を参照しながら後述するごと
く、その変換仕様文書に基づいてＸＭＬ文書の変換／逆
変換を実行する。

【０２３０】図４３に示すシステムでは、データ構造変
換／逆変換機構（プロセッサ）１０Ａ，標準ＡＰＩ２０
および応用ソフトウエア３０がそなえられている。デー
タ構造変換／逆変換機構１０Ａは、キー要素と非キー要
素とを区別するための情報を記述するとともに新たな要
素（圧縮文字列を記述する要素）に関する情報を記述し
た変換仕様文書（ＸＭＬ文書）を読み込み、この変換仕
様文書に基づいて得られた構造変換圧縮ソフトウエアに
より入力ＸＭＬ文書に対する変換処理を行なって変換後
ＸＭＬ文書を出力する。

【０２３１】つまり、構造変換圧縮ソフトウエアによっ
て動作するデータ構造変換／逆変換機構１０Ａは、所定
のタグ名（本実施形態では“compressed”）を付与され
た新たな要素を作成した上で、圧縮用静的単語辞書４
１，符号表４２およびＬＵＴ４５を用いて、非キー要素
を成す文字もしくは文字列を図４１（Ａ）で説明したデ
ータ圧縮方法により圧縮して圧縮文字列を生成してか
ら、その圧縮文字列を、変換後ＸＭＬ文書において新た
な要素の内容もしくは属性として記述する一方、キー要
素を、変換後ＸＭＬ文書においてそのまま記述する。

【０２３２】そして、変換されたＸＭＬ文書に対して
は、標準ＡＰＩ２０を介して応用ソフトウエアによりデ
ータ処理（例えばタグ検索）が施され、データ処理後の
ＸＭＬ文書が得られる。なお、データ処理としてタグ検
索を行なった場合、検索結果が抽出ＸＭＬ文書の形で得
られる。この抽出ＸＭＬ文書は、データ構造変換／逆変
換機構１０Ａに読み込まれ、データ構造変換／逆変換機
構１０Ａは、前記変換仕様文書に基づいて得られた復元
・構造逆ソフトウエアにより、抽出ＸＭＬ文書に対する
逆変換処理を行なって抽出最終結果を出力する。

【０２３３】つまり、復元・構造逆変換ソフトウエアに
よって動作するデータ構造変換／逆変換機構１０Ａは、
復元用静的単語辞書４３，符号表４４およびＬＵＴ４５
を用いて、所定のタグ名（本実施形態では“compresse
d”）を付与された要素に記述された圧縮文字列を、図
４１（Ｂ）で説明したデータ復元方法により、非キー要
素についての元の文字列に復元してから、復元された非
キー要素を用いて、元のデータ構造のＸＭＬ文書を復元
して出力する。これにより、最終的なデータ処理結果と
してのＸＭＬ文書が得られる。

【０２３４】このとき、図４３に示すように、応用ソフ
トウエア３０は、標準ＡＰＩ（ＤＯＭ）２０を通して、
データ構造変換／逆変換機構１０Ａからの、要素数を削
減された変換後ＸＭＬ文書に対し、タグ検索等の処理を
行なうことになるので、第１実施形態や第２実施形態と
同様、応用ソフトウエア３０による処理速度は大幅に高
速化される。

【０２３５】応用ソフトウエア３０が、変換後ＸＭＬ文
書に対してタグ検索を行なうものである場合、そのタグ
検索によってヒットしたレコードを記述するＸＭＬ文書
（抽出ＸＭＬ文書）が抽出・出力される。この抽出ＸＭ
Ｌ文書は、データ構造変換／逆変換機構１０Ａによって
上述のごとく逆変換され、応用ソフトウエア３０が元の
ＸＭＬ文書に対してタグ検索したのと全く同じ、検索結
果（ＸＭＬ文書）が得られることになる。

【０２３６】また、データ構造変換／逆変換機構１０Ａ
が逆変換を施すＸＭＬ文書は、応用ソフトウエア３０に
よって抽出された少数のレコードを記述されたＸＭＬ文
書であるので、データ構造変換／逆変換機構１０Ａによ
る逆変換のオーバーヘッドはほとんど問題にならない。
従って、応用ソフトウエア３０で多数回実行される処理
は、本実施形態のデータ構造変換を予め施しておくこと
によって、大幅に高速化されるとともに、動作メモリの
使用量も大幅に削減されることになる。

【０２３７】〔３−４〕第３実施形態におけるＸＭＬ文
書の変換方法および具体的な変換例図４４（Ａ）および図４４（Ｂ）においては、それぞ
れ、図４（Ａ）に示す表形式ＸＭＬ文書に、第３実施形
態の構造化文書変換方法を適用して得られた変換結果の
第１および第２具体例が示されている。ここでも、タグ
名“名前”，“会社”の要素をキー要素とし、タグ名
“部署”，“住所”，“電話”の要素を非キー要素とす
る。なお、図４４（Ａ）および図４４（Ｂ）中におい
て、波線下線を付した部分は、図４１（Ａ）で説明した
データ圧縮方法により圧縮処理を施される部分（文字
列）である。

【０２３８】図４４（Ａ）に示す第１具体例では、変換
対象のＸＭＬ文書を成す要素をキー要素と非キー要素と
に分け、タグ名“compressd”を付与された新たな要素
を作成し、非キー要素をひとまとめにしてから図４１
（Ａ）で説明したデータ圧縮方法により圧縮処理を施し
て圧縮文字列を作成し、その圧縮文字列を新たな要素の
内容として記述する。キー要素については、変換後のＸ
ＭＬ文書においても、何の変換も施すことなくそのまま
記述する。

【０２３９】つまり、図４４（Ａ）に示す変換後ＸＭＬ
文書の第１レコードでは、タグ名“compressd”の要素
において、一連の非キー要素<部署>A部</部署><住所>A
市</住所><電話>123</電話>を図４１（Ａ）で説明した
データ圧縮方法によって圧縮して得られた圧縮文字列が
要素内容として記述される。また、第２レコードでは、
タグ名“compressd”の要素において、一連の非キー要
素<部署>B部</部署><住所>B市</住所><電話>456</電話>
を図４１（Ａ）で説明したデータ圧縮方法によって圧縮
して得られた圧縮文字列が要素内容として記述される。

【０２４０】図４４（Ｂ）に示す第２具体例では、変換
対象のＸＭＬ文書を成す要素をキー要素と非キー要素と
に分け、タグ名“compressd”および属性名“info”を
付与された新たな要素（空要素）を作成し、非キー要素
をひとまとめにしてから図４１（Ａ）で説明したデータ
圧縮方法により圧縮処理を施して圧縮文字列を作成し、
その圧縮文字列を、新たな要素において、属性名“inf
o”に対応する属性値として記述する。キー要素につい
ては、変換後のＸＭＬ文書においても、何の変換も施す
ことなくそのまま記述する。

【０２４１】つまり、図４４（Ｂ）に示す変換後ＸＭＬ
文書の第１レコードでは、タグ名“compressd”の要素
において、一連の非キー要素<部署>A部</部署><住所>A
市</住所><電話>123</電話>を図４１（Ａ）で説明した
データ圧縮方法によって圧縮して得られた圧縮文字列が
属性名“info”の属性値として記述されている。また、
第２レコードでは、タグ名“compressd”の要素におい
て、一連の非キー要素<部署>B部</部署><住所>B市</住
所><電話>456</電話>を図４１（Ａ）で説明したデータ
圧縮方法によって圧縮して得られた圧縮文字列が属性名
“info”の属性値として記述される。

【０２４２】ＸＭＬ文書には、文字コードしか含ませる
ことができないが、上述した圧縮方法で得られた圧縮デ
ータ（圧縮文字列）は文字コードによって記述されるの
で、そのままＸＭＬ文書に記述することができる。ただ
し、ＸＭＬ文書では，タグ記号“<”，“>”が特別な意
味を持つが、上述したように圧縮データの文字コード
は、タグ記号以外の、ＡＳＣＩＩコードの印字可能文字
であるため、圧縮データを要素内容あるいは属性値に記
述しても、全体がテキストと見なされる。

【０２４３】また、第３実施形態の変換方法も、第１実
施形態や第２実施形態と同様、複数の非キー要素を一つ
の要素にまとめ、応用ソフトウエアがデータ処理を実行
している間は非キー要素をデータ処理と無関係な要素と
して一括して扱えるようにするものである。変換方法と
して、図４４（Ａ）もしくは図４４（Ｂ）で説明した方
法のうちのどちらを用いるかは、変換仕様文書等により
選択・指定することができるようになっている。このと
き、これらの変換方法のうちのどちらを用いるかは、Ｘ
ＭＬ文書のデータ量によって、あるいは、データ処理に
伴い新たな要素が幾つ増えるかによって決定されること
になるが、非キー要素をひとまとめにして取り扱うとい
う本発明の本質を考えれば、どちらの方法を採用しても
よい。

【０２４４】なお、図４５に示すように、第３実施形態
において、変換後ＸＭＬ文書中に記述された圧縮文字列
（圧縮データ）の先頭には、圧縮時点におけるＸＭＬ文
書の文字コード系の種別を示す情報としての識別ビット
（ここでは２ビット）が付与されている。

【０２４５】ＸＭＬ文書の文字コード系が例えばＵＴＦ
−８に固定されていて、文字コード系の変換が全く起こ
らない場合には、何ら問題は生じないが、ＸＭＬ文書
は、ＵＴＦ−８のほか、ＵＴＦ−１６，Shift_ＪＩＳ，
ＥＵＣ等の文字コード系を取り得るので、文字コード系
が変更になる場合の、本発明の対応について以下に説明
する。

【０２４６】圧縮文字列の文字コード系として特定のも
のを選んでおくと、ＸＭＬ文書の文字コード系が圧縮時
点と変わった場合に、圧縮文字列も文字コード系が自動
的に変換されてしまうので、通常、ビット並びが変わっ
てしまい、圧縮文字列を元の状態に復元することができ
なくなるおそれがある。これに対し、本発明では、前述
したように、圧縮文字列が、全ての文字コード系に共通
に含まれるＡＳＣＩＩコードによって記述されるため、
元のＸＭＬ文書の文字コード系が変換されても、圧縮文
字列のビット並びは変わらず、圧縮文字列を正常に復元
することができる。

【０２４７】ＸＭＬ文書の文字コード系が圧縮時点から
任意の文字コードに変換されているときには、圧縮文字
列を復元して圧縮時点の文字コード系の種別を認識し、
その文字コード系を現在（逆変換時）のＸＭＬ文書の文
字コード系に合わせる必要がある。このため、第３実施
形態では、図４５に示すように、圧縮データのヘッダ
に、圧縮時点の文字コード系の種別を識別するための識
別ビットを付加する。

【０２４８】識別すべき文字コード系の種別がＵＴＦ−
８，ＵＴＦ−１６，Shift_ＪＩＳ，ＥＵＣの４つであれ
ば、識別ビットを２ビット設ける。この場合、例えば、
“００”がＵＴＦ−８を、“０１”がＵＴＦ−１６を、
“１０”がShift_ＪＩＳを、“１１”がＥＵＣを示すも
のと定義しておく。なお、この識別ビットは、圧縮すべ
き一連の非キー要素に添付され、非キー要素とともに、
図４１（Ａ）で説明したデータ圧縮方法により圧縮文字
列に変換されるものとする。

【０２４９】〔３−５〕第３実施形態における変換仕様
文書の具体例図４６には、図４（Ａ）に示した表形式ＸＭＬ文書を変
換対象とした場合の、具体的な変換仕様文書（ＸＭＬ文
書）が示されている。ここでは、変換対象のＸＭＬ文書
が表形式データである場合について説明しているが、変
換対象のＸＭＬ文書が非表形式データであっても、図４
６に示す変換仕様文書を用いて変換／逆変換を行なうこ
とができる。また、図４６に示す変換仕様文書は、図４
４（Ａ）で説明した変換方法を実現するためのものであ
る。

【０２５０】この図４６に示す変換仕様文書では、ルー
トのタグ名“名簿”やレコードのタグ名“個人”が記述
されるほか、タグ名“key_tags”の要素の内容としてキ
ー要素のタグ名“名前”および“会社”を記述するとと
もにタグ名“nonkey_tags”の要素の内容として非キー
要素のタグ名“部署”，“住所”および“電話”を記述
することにより、キー要素と非キー要素とを区別するた
めの情報が記述されている。また、タグ名“nonkey_tag
s”の要素の内容には、タグ名“merged_tag”の要素が
含まれており、この要素の内容として、非キー要素を一
つにまとめるための新たな要素のタグ名 “compresse
d”が記述されている。このような変換仕様文書によ
り、ＸＭＬ文書のデータ構造変換実行手順が指示され
る。

【０２５１】〔３−６〕第３実施形態の変換方法による
具体的な変換処理手順次に、図４７および図４８を参照しながら、本発明の第
３実施形態としての構造化文書変換方法による変換処理
手順について説明する。なお、図４７および図４８にお
いて図１８および図１９と同じステップ番号を付された
ステップは、図１８および図１９で説明した処理と同一
もしくはほぼ同一の処理を実行するものであるので、そ
の説明は省略する。つまり、以下の説明では、ステップ
番号Ａ１〜Ａ１１，Ａ１５，Ａ１６およびＢ１〜Ｂ１
１，Ｂ１４，Ｂ１５を付されたステップにおける処理の
説明は省略する。

【０２５２】図４７は、変換仕様文書に基づいて変換対
象ＸＭＬ文書に対してデータ構造変換を施す際の処理手
順を説明するためのフローチャートであり、図４８は、
変換仕様文書に基づいて変換後ＸＭＬ文書（処理済ＸＭ
Ｌ文書）に対してデータ構造の逆変換を施す際の処理手
順を説明するためのフローチャートである。なお、第３
実施形態では、データ構造変換／逆変換機構１０Ａは、
図４３で説明した構造変換圧縮ソフトウエアや復元構造
逆変換ソフトウエアを実行することにより、図４７もし
くは図４８に示すフローチャートに従って、変換仕様文
書を読み込み、符号表４１，４４や圧縮用／復元用の静
的単語辞書４２，４３やＬＵＴ４５を参照しながら変換
／逆変換処理（データ圧縮／復元処理）を実行する。

【０２５３】図４７に示す変換処理手順では、ステップ
Ａ７で切り出された要素データが非キー要素である場合
（ステップＡ１１のＹＥＳルート）、その非キー要素
が、一つの要素にまとめるべき非キー要素群のうちの最
初のものであるか否かを判断し（ステップＡ５１）、最
初のものである場合（ステップＡ５１のＹＥＳルー
ト）、変換仕様文書によって予め指定されたタグ名“co
mpressed”の開始タグを作成してから（ステップＡ５
２）、今回切り出された非キー要素を保持しておく（ス
テップＡ５３）。

【０２５４】一方、非キー要素が最初のものでない場合
（ステップＡ５１のＮＯルート）、つまり既に非キー要
素に対応する新要素が作成されている場合には、ステッ
プＡ５２による開始タグの作成処理をジャンプし、今回
切り出された非キー要素を、既に切り出されて保持され
ている非キー要素の後に繋いでまとめる（ステップＡ５
３）。この後、非キー要素が、一つの要素にまとめるべ
き非キー要素群のうちの最後のものであるか否かを判断
し（ステップＡ５４）、最後のものでない場合（ステッ
プＡ５４のＮＯルート）、ステップＡ７の処理に戻る。

【０２５５】一方、最後のものである場合（ステップＡ
５４のＹＥＳルート）、ステップＡ５３でまとめられた
非キー要素に、文字コード系の種別を示す識別ビットを
付与した上で、図４１（Ａ）で説明したデータ圧縮方法
による圧縮処理を施して圧縮文字列を得る。そして、そ
の圧縮文字列を、タグ名“compressed”の開始タグの次
に、新要素の内容として記述してから、その後に、タグ
名“compressed”の終了タグを作成して付加する（ステ
ップＡ５５）。この後、ステップＡ７の処理に戻る。

【０２５６】なお、ここでは、図４４（Ａ）で説明した
変換方法に対応した処理を行なった場合について説明し
ているが、図４４（Ｂ）で説明した変換方法を採用する
場合には、ステップＡ５２で、新要素として、タグ名
“compressed”および属性名“info”をもつ空要素タグ
を作成し、ステップＡ５５で、圧縮文字列を新要素（空
要素）の“info”属性の属性値として記述する。

【０２５７】一方、図４８に示す逆変換処理手順では、
非キー要素をまとめた新要素（<compressed>タグ）がス
テップＢ７で切り出された場合（ステップＢ１１のＹＥ
Ｓルート）、新要素の内容（もしくは属性値）として記
述された圧縮文字列を読み出し、その圧縮文字列から、
図４１（Ｂ）で説明したデータ復元方法により、非キー
要素を成す元の文字列を復元し、非キー要素のタグの記
述を削除し、復元ＸＭＬ文書に、復元された非キー要素
を記述してから（ステップＢ３９）、ステップＢ７の処
理に戻る。

【０２５８】〔３−７〕第３実施形態の効果このように、本発明の第３実施形態としての構造化文書
変換方法によれば、変換対象のＸＭＬ文書を成す要素が
キー要素と非キー要素とに分けられ、その変換対象のＸ
ＭＬ文書が、キー要素をそのまま記述する一方で、非キ
ー要素を成す文字もしくは文字列を一つのタグにまとめ
図４１（Ａ）に示すデータ圧縮方法により圧縮して得ら
れた文字コード列（圧縮文字列）として記述したＸＭＬ
文書に変換される。従って、上述した第１実施形態や第
２実施形態と同様の効果ないし利点を得ることができる
ほか、変換後のＸＭＬ文書のデータ量を大幅に削減する
ことができる。

【０２５９】また、図４１（Ａ）で説明したデータ圧縮
方法を用いることにより、ＸＭＬ文書を効率良く圧縮し
ながら、その圧縮結果を文字コードの形で得てＸＭＬ文
書内に置くことのできる圧縮変換技術が提供されるの
で、ＸＭＬ文書に対する操作に必要となるリソースが大
幅に軽減され、ＸＭＬ文書を処理する際におけるメモリ
使用量削減や処理速度の高速化が実現される。

【０２６０】このとき、圧縮データを表現する文字コー
ドとして、タグ付けに関連する記号（例えばＸＭＬ文書
では＜，＞，＆，”，’）を除いたＡＳＣＩＩコードを
用いる。これにより、変換後のＸＭＬ文書における圧縮
文字列にはタグ付けに関連する記号が存在せず、データ
処理時などに誤処理が発生するのを確実に防止すること
ができる。

【０２６１】また、ＡＳＣＩＩコードは、種々の文字コ
ード系に共通に含まれる文字コードセットであるため、
変換後のＸＭＬ文書が文字コード系の変換を施されて
も、ＡＳＣＩＩコードを用いた圧縮文字列を成すビット
列は、文字コード系の変換の影響を受けることなく元の
状態に保たれる。従って、文字コード系を変換されたＸ
ＭＬ文書に含まれる圧縮文字列は、元の非キー要素に正
しく復元される。

【０２６２】さらに、図４５に示すように、圧縮文字列
に圧縮時点の文字コード系の種別を示す識別ビットを付
与しておくことにより、圧縮文字列から復元されたデー
タの文字コード系の種別を認識することができ、その文
字コード系を、ＸＭＬ文書の現在の文字コード系に合わ
せることにより、ＸＭＬ文書全体の文字コード系の整合
性を保つことができる。

【０２６３】また、非キー要素を圧縮文字列に変換する
に先立ち、非キー要素を成す文字列を、予め作成された
静的単語辞書４１を用いて辞書番号に置き換えておくこ
とにより、可変長符号化の対象となる文字列をより短縮
できるので、圧縮効率をさらに高めることができ、変換
後のＸＭＬ文書のデータ量をより削減することができ
る。

【０２６４】〔４〕その他なお、本発明は上述した実施形態に限定されるものでは
なく、本発明の趣旨を逸脱しない範囲で種々変形して実
施することができる。例えば、上述した実施形態では、
構造化文書がＸＭＬ文書である場合について説明した
が、本発明は、これに限定されるものではなく、他の種
々の構造化文書にも上述した実施形態と同様に適用さ
れ、上述した実施形態と同様の作用効果を得ることがで
きる。

【０２６５】〔５〕付記（付記１）変換対象の構造化文書を成す要素を、該構
造化文書に対するデータ処理の対象となるキー要素と前
記データ処理の対象とならない非キー要素とに分け、所
定のタグ名および所定の属性名を付与された新たな要素
を作成し、該非キー要素のタグ名を含むタグ名文字列を
作成し、該タグ名文字列を、該新たな要素において、前
記所定の属性名に対応する属性値として記述するタグ名
変換を行ない、該非キー要素の内容を含む内容文字列を
作成し、該内容文字列を、該新たな要素の内容として記
述する内容変換を行ない、該キー要素を、変換後の構造
化文書においてそのまま記述することを特徴とする、構
造化文書変換方法。

【０２６６】（付記２）変換対象の構造化文書を成す
要素を、該構造化文書に対するデータ処理の対象となる
キー要素と前記データ処理の対象とならない非キー要素
とに分け、所定のタグ名，所定の第１属性名および所定
の第２属性名を付与された新たな要素を作成し、該非キ
ー要素のタグ名を含むタグ名文字列を作成し、該タグ名
文字列を、該新たな要素において、前記第１属性名に対
応する第１属性値として記述するタグ名変換を行ない、
該非キー要素の内容を含む内容文字列を作成し、該内容
文字列を、該新たな要素において、前記第２属性名に対
応する第２属性値として記述する内容変換を行ない、該
キー要素を、変換後の構造化文書においてそのまま記述
することを特徴とする、構造化文書変換方法。

【０２６７】（付記３）変換対象の構造化文書を成す
要素を、該構造化文書に対するデータ処理の対象となる
キー要素と前記データ処理の対象とならない非キー要素
とに分け、該非キー要素のタグ名を含むタグ名文字列
を、所定のタグ名として付与された新たな要素を作成す
るタグ名変換を行ない、該非キー要素の内容を含む内容
文字列を作成し、該内容文字列を、該新たな要素の内容
として記述する内容変換を行ない、該キー要素を、変換
後の構造化文書においてそのまま記述することを特徴と
する、構造化文書変換方法。

【０２６８】（付記４）該タグ名文字列を、区切り記
号を介して該非キー要素のタグ名を繋いで作成すること
を特徴とする、付記１〜付記３のいずれか一つに記載の
構造化文書変換方法。（付記５）該非キー要素が複数階層を成している場
合、該タグ名文字列において、該複数階層を成す非キー
要素のタグ名に、階層構造識別情報を付加することを特
徴とする、付記４記載の構造化文書変換方法。

【０２６９】（付記６）該非キー要素が属性を有する
場合、該タグ名文字列において、該属性を有する非キー
要素のタグ名の後に、該区切り記号を介して、属性名識
別情報を付加した該属性の属性名を記述し、該内容文字
列を、区切り記号を介して該非キー要素の内容を繋いで
作成するとともに、該内容文字列において、該属性を有
する該非キー要素の内容の後に、該区切り記号を介し
て、該属性の属性値を記述することを特徴とする、付記
４または付記５に記載の構造化文書変換方法。

【０２７０】（付記７）該内容文字列を、区切り記号
を介して該非キー要素の内容を繋いで作成することを特
徴とする、付記１〜付記５のいずれか一つに記載の構造
化文書変換方法。（付記８）該キー要素と該非キー要素とを区別するた
めの情報を記述するとともに該新たな要素に関する情報
を記述した変換仕様文書を作成し、該変換仕様文書に基
づいて、該変換対象の構造化文書に対し、該非キー要素
の記述についての変換を施すことを特徴とする、付記１
〜付記７のいずれか一つに記載の構造化文書変換方法。

【０２７１】（付記９）該変換仕様文書に基づいて、
前記変換を施された構造化文書に対し、該非キー要素の
記述を元の状態に戻す逆変換を施すことを特徴とする、
付記８記載の構造化文書変換方法。（付記１０）該変換仕様文書において、該非キー要素
のタグ名と該タグ名よりも短く且つ該タグ名を特定しう
る短縮タグ名とを対応付けて記述し、前記変換時に、該
変換仕様文書に基づいて、該非キー要素のタグ名を該短
縮タグ名に置換するタグ名短縮変換を行なう一方、前記
逆変換時に、該変換仕様文書に基づいて、該短縮タグ名
を該非キー要素のタグ名に置換するタグ名伸長変換を行
なうことを特徴とする、付記９記載の構造化文書変換方
法。

【０２７２】（付記１１）該変換仕様文書において、
前記変換時に前記タグ名短縮変換を行なうか否かのタグ
名短縮変換情報を記述し、前記変換時または前記逆変換
時に、該変換仕様文書における該タグ名短縮変換情報に
基づいて、前記タグ名短縮変換および前記タグ名伸長変
換の実行／非実行を選択することを特徴とする、付記１
０記載の構造化文書変換方法。

【０２７３】（付記１２）該変換対象の構造化文書
が、レコード毎の要素の種類および数が同じである表形
式で記述されている場合、該キー要素と該非キー要素と
を区別するための情報を記述するとともに、該非キー要
素のタグ名と該タグ名を代表する前記所定のタグ名とし
ての代表タグ名とを対応付けて記述した変換仕様文書を
作成し、該変換仕様文書に基づいて、該変換対象の構造
化文書に対し、前記タグ名変換を省略し前記内容変換の
みを行なう表形式変換を施すことを特徴とする、付記１
〜付記１１のいずれか一つに記載の構造化文書変換方
法。

【０２７４】（付記１３）該変換仕様文書に基づい
て、前記代表タグ名から該非キー要素のタグ名を割り出
し、前記表形式変換を施された構造化文書に対し、該非
キー要素の記述を元の状態に戻す表形式逆変換を施すこ
とを特徴とする、付記１２記載の構造化文書変換方法。

【０２７５】（付記１４）該変換対象の構造化文書
が、レコード毎の要素の種類および数が同じである表形
式で記述されている場合、該キー要素と該非キー要素と
を区別するための情報を記述するとともに、該非キー要
素のタグ名および属性名と該タグ名および該属性名を代
表する前記所定のタグ名としての代表タグ名とを対応付
けて記述した変換仕様文書を作成し、該変換仕様文書に
基づいて、該変換対象の構造化文書に対し、前記タグ名
変換を省略し前記内容変換のみを行なう表形式変換を施
すことを特徴とする、付記１〜付記１１のいずれか一つ
に記載の構造化文書変換方法。

【０２７６】（付記１５）該変換仕様文書に基づい
て、前記代表タグ名から該非キー要素のタグ名および属
性名を割り出し、前記表形式変換を施された構造化文書
に対し、該非キー要素の記述を元の状態に戻す表形式逆
変換を施すことを特徴とする、付記１４記載の構造化文
書変換方法。

【０２７７】（付記１６）該変換仕様文書において、
該変換対象の構造化文書が表形式で記述されているか否
かの表形式情報を記述し、該変換仕様文書における該表
形式情報に基づいて、前記表形式変換および前記表形式
逆変換の実行／非実行を選択することを特徴とする、付
記１３または付記１５に記載の構造化文書変換方法。

【０２７８】（付記１７）該変換対象の構造化文書が
表形式ではない旨が該表形式情報として記述されている
場合に、前記タグ名変換を実行することを特徴とする、
付記１６記載の構造化文書変換方法。（付記１８）該
変換仕様文書を構造化文書として作成し変換実行手順を
与えることを特徴とする、付記８〜付記１７のいずれか
一つに記載の構造化文書変換方法。

【０２７９】（付記１９）該変換仕様文書に基づい
て、前記の変換を指示する変換用スタイルシートを生成
し、構造化文書変換プロセッサに、該変換用スタイルシ
ートを用いて前記の変換を実行させることを特徴とす
る、付記８〜付記１８のいずれか一つに記載の構造化文
書変換方法。

【０２８０】（付記２０）該変換仕様文書に基づい
て、前記の逆変換を指示する逆変換用スタイルシートを
生成し、構造化文書変換プロセッサに、該逆変換用スタ
イルシートを用いて前記の逆変換を実行させることを特
徴とする、付記８〜付記１９のいずれか一つに記載の構
造化文書変換方法。

【０２８１】（付記２１）変換対象の構造化文書を成
す要素を、該構造化文書に対するデータ処理の対象とな
るキー要素と前記データ処理の対象とならない非キー要
素とに分け、所定のタグ名を付与された新たな要素を作
成し、該非キー要素の記述中においてタグ付けに関連す
る記号をタグ付けに関連しない文字列に置き換えた文字
列を作成し、該文字列を、該新たな要素の内容として記
述し、該キー要素を、変換後の構造化文書においてその
まま記述することを特徴とする、構造化文書変換方法。

【０２８２】（付記２２）変換対象の構造化文書を成
す要素を、該構造化文書に対するデータ処理の対象とな
るキー要素と前記データ処理の対象とならない非キー要
素とに分け、所定のタグ名および所定の属性名を付与さ
れた新たな要素を作成し、該非キー要素の記述中におい
てタグ付けに関連する記号をタグ付けに関連しない文字
列に置き換えた文字列を作成し、該文字列を、該新たな
要素において、前記所定の属性名に対応する属性値とし
て記述し、該キー要素を、変換後の構造化文書において
そのまま記述することを特徴とする、構造化文書変換方
法。

【０２８３】（付記２３）変換対象の構造化文書を成
す要素を、該構造化文書に対するデータ処理の対象とな
るキー要素と前記データ処理の対象とならない非キー要
素とに分け、該非キー要素の親要素に新たな属性名を付
与し、該非キー要素の記述中においてタグ付けに関連す
る記号をタグ付けに関連しない文字列に置き換えた文字
列を作成し、該文字列を、該親要素において、前記新た
な属性名に対応する属性値として記述し、該キー要素
を、変換後の構造化文書においてそのまま記述すること
を特徴とする、構造化文書変換方法。

【０２８４】（付記２４）変換対象の構造化文書を成
す要素を、該構造化文書に対するデータ処理の対象とな
るキー要素と前記データ処理の対象とならない非キー要
素とに分け、該非キー要素の記述中においてタグ付けに
関連する記号をタグ付けに関連しない文字列に置き換え
た文字列を作成し、該文字列を、該非キー要素の親要素
の内容として記述し、該キー要素を、変換後の構造化文
書においてそのまま記述することを特徴とする、構造化
文書変換方法。

【０２８５】（付記２５）該キー要素と該非キー要素
とを区別するための情報を記述するとともに該新たな要
素に関する情報を記述した変換仕様文書を作成し、該変
換仕様文書に基づいて、該変換対象の構造化文書に対
し、該非キー要素の記述についての変換を施すことを特
徴とする、付記２１または付記２２に記載の構造化文書
変換方法。

【０２８６】（付記２６）該キー要素と該非キー要素
とを区別するための情報を記述するとともに該親要素に
関する情報を記述した変換仕様文書を作成し、該変換仕
様文書に基づいて、該変換対象の構造化文書に対し、該
非キー要素の記述についての変換を施すことを特徴とす
る、付記２３または付記２４に記載の構造化文書変換方
法。

【０２８７】（付記２７）該変換仕様文書に基づい
て、前記変換を施された構造化文書に対し、該非キー要
素の記述を元の状態に戻す逆変換を施すことを特徴とす
る、付記２５または付記２６に記載の構造化文書変換方
法。（付記２８）該変換仕様文書を構造化文書として作成
し変換実行手順を与えることを特徴とする、付記２５〜
付記２７のいずれか一つに記載の構造化文書変換方法。

【０２８８】（付記２９）該変換仕様文書に基づい
て、前記変換を指示する変換用スタイルシートを生成
し、構造化文書変換プロセッサに、該変換用スタイルシ
ートを用いて前記変換を実行させることを特徴とする、
付記２５〜付記２８のいずれか一つに記載の構造化文書
変換方法。

【０２８９】（付記３０）該変換仕様文書に基づい
て、前記逆変換を指示する逆変換用スタイルシートを生
成し、構造化文書変換プロセッサに、該逆変換用スタイ
ルシートを用いて前記の逆変換を実行させることを特徴
とする、付記２５〜付記２９のいずれか一つに記載の構
造化文書変換方法。

【０２９０】（付記３１）前記タグ付けに関連しない
文字列として、前記タグ付けに関連する記号の実体参照
記述を用いることを特徴とする、付記２１〜付記３０の
いずれか一つに記載の構造化文書変換方法。（付記３２）該変換対象の構造化文書がＸＭＬ(eXten
sible Markup Language)文書である場合、前記タグ付け
に関連する記号「＜」および「＞」をそれぞれ「&l
t；」および「&gt；」に置き換えることを特徴とする、
付記３１記載の構造化文書変換方法。

【０２９１】（付記３３）変換対象の構造化文書を成
す要素を、該構造化文書に対するデータ処理の対象とな
るキー要素と前記データ処理の対象とならない非キー要
素とに分け、所定のタグ名を付与された新たな要素を作
成し、該非キー要素を成す文字もしくは文字列に対し出
現頻度の高いものほど短い可変長符号を割り付ける可変
長符号化を行ない、該可変長符号化により得られたバイ
ナリデータを６ビットずつ１バイトの変換データにパッ
キングし、各変換データにパッキングされた６ビットデ
ータをＡＳＣＩＩ（American Standard Code for Infor
mation Interchange）コードに従う文字コードに変換す
ることにより、該非キー要素を、該文字コードからなる
圧縮文字列に変換し、該圧縮文字列を、該新たな要素の
内容として記述し、該キー要素を、変換後の構造化文書
においてそのまま記述することを特徴とする、構造化文
書変換方法。

【０２９２】（付記３４）変換対象の構造化文書を成
す要素を、該構造化文書に対するデータ処理の対象とな
るキー要素と前記データ処理の対象とならない非キー要
素とに分け、所定のタグ名および所定の属性名を付与さ
れた新たな要素を作成し、該非キー要素を成す文字もし
くは文字列に対し出現頻度の高いものほど短い可変長符
号を割り付ける可変長符号化を行ない、該可変長符号化
により得られたバイナリデータを６ビットずつ１バイト
の変換データにパッキングし、各変換データにパッキン
グされた６ビットデータをＡＳＣＩＩ（American Stand
ard Code for Information Interchange）コードに従う
文字コードに変換することにより、該非キー要素を、該
文字コードからなる圧縮文字列に変換し、該圧縮文字列
を、該新たな要素において、前記所定の属性名に対応す
る属性値として記述し、該キー要素を、変換後の構造化
文書においてそのまま記述することを特徴とする、構造
化文書変換方法。

【０２９３】（付記３５）該非キー要素を該圧縮文字
列に変換するに先立ち、該非キー要素を成す文字列を、
予め作成された静的辞書を用いて辞書番号に置き換え、
該辞書番号を含む文字列を、該圧縮文字列に変換するこ
とを特徴とする、付記３３または付記３４に記載の構造
化文書変換方法。

【０２９４】（付記３６）該変換後の構造化文書を逆
変換する際には、該圧縮文字列を該変換後の構造化文書
から取り出し、前記圧縮文字列における各文字コード
を、前記ＡＳＣＩＩコードに従って６ビットデータに変
換し、該文字コード毎に得られた６ビットデータから、
該非キー要素を成す文字もしくは文字列を復元し、復元
された該非キー要素を用いて、元の構造化文書を復元す
ることを特徴とする、付記３３または付記３４に記載の
構造化文書変換方法。

【０２９５】（付記３７）該キー要素と該非キー要素
とを区別するための情報を記述するとともに該新たな要
素に関する情報を記述した変換仕様文書を作成し、該変
換仕様文書に基づいて、該変換対象の構造化文書に対
し、該非キー要素の記述についての変換を施すことを特
徴とする、付記３３〜付記３６のいずれか一つに記載の
構造化文書変換方法。

【０２９６】（付記３８）該変換仕様文書に基づい
て、前記変換を施された構造化文書に対し、該非キー要
素の記述を元の状態に戻す逆変換を施すことを特徴とす
る、付記３７記載の構造化文書変換方法。（付記３９）該変換仕様文書を構造化文書として作成
し変換実行手順を与えることを特徴とする、付記３７ま
たは付記３８に記載の構造化文書変換方法。

【０２９７】（付記４０）該圧縮文字列に、圧縮時点
の文字コード系の種別を示す情報を付与し、該変換後の
構造化文書を逆変換する際には、該情報を参照して該圧
縮時点での文字コード系の種別を認識し、認識された種
別の文字コード系を該逆変換時の文字コード系に合わせ
るように該圧縮文字列を復元することを特徴とする、付
記３３〜付記３９のいずれか一つに記載の構造化文書変
換方法。

【０２９８】（付記４１）前記ＡＳＣＩＩコードのセ
ットとして、構造化文書においてタグ付けに関連する文
字コードを除いたものを用いることを特徴とする、付記
３３〜付記４０のいずれか一つに記載の構造化文書変換
方法。（付記４２）変換対象の文字もしくは文字列に対し、
出現頻度の高いものほど短い可変長符号を割り付ける可
変長符号化を行ない、該可変長符号化により得られたバ
イナリデータを６ビットずつ１バイトの変換データにパ
ッキングして出力することを特徴とする、データ変換方
法。

【０２９９】（付記４３）各変換データにパッキング
された６ビットデータをＡＳＣＩＩ（American Standar
d Code for Information Interchange）コードに従う文
字コードに変換し、該変換データ毎に得られた該文字コ
ードを、前記変換対象の文字もしくは文字列の圧縮変換
結果として出力することを特徴とする、付記４２記載の
データ変換方法。

【０３００】（付記４４）前記圧縮変換結果を復元す
る際には、前記圧縮変換結果における各文字コードを、
前記ＡＳＣＩＩコードに従って６ビットデータに変換
し、該文字コード毎に得られた６ビットデータから、前
記変換対象の文字もしくは文字列を復元することを特徴
とする、付記４３記載のデータ変換方法。（付記４５）前記ＡＳＣＩＩコードのセットとして、
構造化文書においてタグ付けに関連する文字コードを除
いたものを用いることを特徴とする、付記４３または付
記４４に記載のデータ変換方法。

【０３０１】

【発明の効果】以上詳述したように、本発明の構造化文
書変換方法（請求項１，付記１〜付記２０）によれば、
変換対象の構造化文書を成す要素がキー要素と非キー要
素とに分けられ、その変換対象の構造化文書が、キー要
素をそのまま記述する一方で非キー要素を一つのタグに
まとめて記述した構造化文書に変換されるので、変換後
の構造化文書では、要素数が削減されるとともに、展開
時やデータ処理時に非キー要素を一括して扱うことがで
きる。特に、データ処理の対象とならない非キー要素が
多い構造化文書や、１レコードの要素数が多い構造化文
書での要素数の削減効果は大きい。

【０３０２】また、応用ソフトウエア（アプリケーショ
ン）により構造化文書に対するデータ処理を行なう際に
はキー要素のみが使用されるが、本発明では、キー要素
についてはそのまま記述されているので、通常通り、キ
ー要素のタグ名を用いてキー要素の内容を参照すること
ができ、変換後の構造化文書のトランスペアレント性は
確保される。

【０３０３】このとき、変換仕様文書を構造化文書とし
て作成し変換実行手順を与えることにより、多様な種類
の構造化文書に対して、スタイルシートを一々作成する
必要がなくなり、手間をかけることなく、本発明による
データ構造の変換／逆変換処理を種々の構造化文書デー
タに施すことができる。さらに、変換仕様文書に基づい
て変換／逆変換を指示する変換／逆変換用スタイルシー
トを生成すれば、構造化文書変換プロセッサ（例えば標
準のＸＳＬＴプロセッサ）により変換／逆変換用スタイ
ルシートを用いて変換／逆変換を実行することができ、
つまりは、ほとんどあらゆる種類の構造化文書システム
（ＸＭＬ文書システム）において本発明による変換／逆
変換処理を実行することができる。

【０３０４】従って、本発明によれば、アプリケーショ
ンに対するトランスペアレント性や変換された構造化文
書のデータ構造の有効性を確保しながら、非キー要素を
一つの要素にまとめるデータ構造変換処理を、種々の構
造化文書データに施すことができるようにした汎用の変
換技術を提供することができ、これにより、構造化文書
に対する操作に必要となるリソースが大幅に軽減され、
構造化文書を処理する際におけるメモリ使用量削減と処
理速度の高速化との両方が実現されることになる。

【０３０５】タグ名変換や内容変換に際しては、コンマ
等の区切り記号を介して非キー要素のタグ名や内容を繋
ぐことにより、タグ名文字列や内容文字列が、タグ付け
に関連することのない記号を用いて極めて容易に作成さ
れる。このとき、非キー要素が複数階層を成している場
合、タグ名文字列におけるタグ名に、階層構造識別情報
を付加すれば、その階層構造を変換後の構造化文書に保
存することができるので、その階層構造識別情報に従っ
て、元の構造化文書を復元するための逆変換を容易に行
なうことができる。

【０３０６】また、非キー要素が属性を有する場合、タ
グ名文字列において、属性を有するタグ名の後に、区切
り記号を介して、属性名識別情報を付加した属性の属性
名を記述するとともに、このタグ名文字列におけるタグ
名の並びに対応させて非キー要素の内容を繋いだ内容文
字列を作成することにより、非キー要素の属性を変換後
の構造化文書に保存することができるので、その属性名
識別情報に従って、元の構造化文書を復元するための逆
変換を容易に行なうことができる。

【０３０７】非キー要素のタグ名を短縮タグ名に置換す
るタグ名短縮変換を行なうことにより、変換後の構造化
文書のデータ量を削減することができる。このとき、変
換仕様文書におけるタグ名短縮変換情報によってタグ名
短縮変換を行なうか否かを指示し、タグ名短縮変換やタ
グ名伸長変換の実行／非実行を自動的に切り換えること
ができる。

【０３０８】変換対象の構造化文書が表形式で記述され
ている場合、元の構造化文書を復元するための逆変換に
際してタグ名や属性名を容易に割り出すことができるの
で、タグ名変換や属性名変換を省略することができる。
従って、変換後の構造化文書においては、非キー要素の
内容文字列が記述されていればよく、タグ名や属性名に
係る記述を省略することができ、変換後の構造化文書の
データ量を大幅に削減することができる。このとき、変
換仕様文書における表形式情報によって表形式変換を行
なうか否かを指示し、表形式変換や表形式逆変換の実行
／非実行を自動的に切り換えることができる。

【０３０９】また、本発明の構造化文書変換方法（請求
項２，付記２１〜付記３２）によれば、変換対象の構造
化文書を成す要素がキー要素と非キー要素とに分けら
れ、その変換対象の構造化文書が、キー要素をそのまま
記述する一方で、非キー要素を一つのタグにまとめその
非キー要素の記述中のタグ付けに関連する記号をタグ付
けに関連しない文字列に置き換えた構造化文書に変換さ
れるので、上述した構造化文書変換方法と同様の効果な
いし利点を得ることができる。このとき、タグ付けに関
連しない文字列として、タグ付けに関連する記号の実体
参照記述用いることにより〔例えば、構造化文書がＸＭ
Ｌ文書である場合、タグ記号「<」および「>」をそれぞ
れ実体参照記述による文字列「&lt；」および「&gt；」
に置き換えることにより〕、極めて容易に構造化文書の
変換を行なうことができる。

【０３１０】さらに、本発明の構造化文書変換方法（請
求項３，付記３３〜付記４２）によれば、変換対象の構
造化文書を成す要素がキー要素と非キー要素とに分けら
れ、その変換対象の構造化文書が、キー要素をそのまま
記述する一方で、非キー要素を成す文字もしくは文字列
を一つのタグにまとめ下記データ圧縮方法により圧縮し
て得られた文字コード列（圧縮文字列）として記述した
構造化文書に変換されるので、上述した構造化文書変換
方法と同様の効果ないし利点を得ることができるほか、
変換後の構造化文書のデータ量を大幅に削減することが
できる。

【０３１１】非キー要素を成す文字もしくは文字列を圧
縮する際には、可変長符号化を行なった上で、この可変
長符号化により得られたバイナリデータを６ビットずつ
１バイトの変換データにパッキングし、各変換データに
パッキングされた６ビットデータをＡＳＣＩＩコードに
従う文字コードに変換することにより、文字コードで記
述された圧縮データ（圧縮文字列）を得ることができ
る。これにより、圧縮データを、構造化文書の要素ある
いは属性値として置くことができる。

【０３１２】上述のような本発明のデータ圧縮方法（請
求項４，請求項５，付記４３〜付記４５）を用いること
により、構造化文書を効率良く圧縮しながら、その圧縮
結果を文字コードの形で得て構造化文書内に置くことの
できる圧縮変換技術が提供されるので、構造化文書に対
する操作に必要となるリソースが大幅に軽減され、構造
化文書を処理する際におけるメモリ使用量削減や処理速
度の高速化が実現される。

【０３１３】このとき、圧縮データを表現する文字コー
ドとして、タグ付けに関連する記号（例えばＸＭＬ文書
では＜，＞，＆，”，’）を除いたＡＳＣＩＩコードを
用いる。これにより、変換後の構造化文書における圧縮
文字列にはタグ付けに関連する記号が存在せず、データ
処理時などに誤処理が発生するのを確実に防止すること
ができる。

【０３１４】また、ＡＳＣＩＩコードは、種々の文字コ
ード系に共通に含まれる文字コードセットであるため、
変換後の構造化文書が文字コード系の変換を施されて
も、ＡＳＣＩＩコードを用いた圧縮文字列を成すビット
列は、文字コード系の変換の影響を受けることなく元の
状態に保たれる。従って、文字コード系を変換された構
造化文書に含まれる圧縮文字列は、元の非キー要素に正
しく復元される。

【０３１５】さらに、圧縮文字列に圧縮時点の文字コー
ド系の種別を示す情報を付与しておくことにより、圧縮
文字列から復元されたデータの文字コード系の種別を認
識することができ、その文字コード系を、構造化文書の
現在の文字コード系に合わせることにより、構造化文書
全体の文字コード系の整合性を保つことができる。

【０３１６】また、非キー要素を圧縮文字列に変換する
に先立ち、非キー要素を成す文字列を、予め作成された
静的辞書を用いて辞書番号に置き換えておくことによ
り、可変長符号化の対象となる文字列を短縮できるの
で、より圧縮効率を高めることができ、変換後の構造化
文書のデータ量をより削減することができる。

【図面の簡単な説明】

【図１】本発明の第１実施形態としての構造化文書変換
方法の原理について説明するためのもので、（Ａ）は変
換対象のＸＭＬ文書のメモリ展開形式を示す図、（Ｂ）
は（Ａ）に示すＸＭＬ文書に第１実施形態の構造化文書
変換方法を適用して得られたＸＭＬ文書のメモリ展開形
式を示す図である。

【図２】本発明の第１実施形態としての構造化文書変換
方法を適用されるシステムおよびそのシステムにおける
変換／逆変換処理の流れを説明するための図である。

【図３】（Ａ）は変換対象のＸＭＬ文書の具体例を示す
図、（Ｂ）〜（Ｆ）は、それぞれ、（Ａ）に示すＸＭＬ
文書に第１実施形態の構造化文書変換方法を適用して得
られた変換結果の第１〜第５具体例を示す図である。

【図４】（Ａ）は変換対象のＸＭＬ文書（表形式）の具
体例を示す図、（Ｂ）および（Ｃ）は、それぞれ、
（Ａ）に示すＸＭＬ文書が表形式である場合に第１実施
形態の構造化文書変換方法を適用して得られた変換結果
の第１および第２具体例を示す図である。

【図５】変換対象のＸＭＬ文書の具体例を示す図であ
る。

【図６】図５に示すＸＭＬ文書に第１実施形態の構造化
文書変換方法を適用して得られた変換結果の第１具体例
を示す図である。

【図７】図５に示すＸＭＬ文書に第１実施形態の構造化
文書変換方法を適用して得られた変換結果の第２具体例
を示す図である。

【図８】図５に示すＸＭＬ文書に第１実施形態の構造化
文書変換方法を適用して得られた変換結果の第３具体例
を示す図である。

【図９】第１実施形態における変換仕様文書の具体例を
示す図である。

【図１０】第１実施形態において、図９に示す変換仕様
文書により作成された変換用スタイルシートの具体例を
示す図である。

【図１１】第１実施形態において、図９に示す変換仕様
文書により作成された逆変換用スタイルシートの具体例
を示す図である。

【図１２】第１実施形態における、タグ名短縮を行なう
ための変換仕様文書の具体例を示す図である。

【図１３】第１実施形態における、データ形式（表形式
であるか否か）を指定する機能を有する変換仕様文書の
具体例を示す図である。

【図１４】第１実施形態における、データ形式（タグ名
短縮変換を行なうか否か）を指定する機能を有する変換
仕様文書の具体例を示す図である。

【図１５】第１実施形態における、レコード内の非キー
要素が階層構造を成すとともに属性を有する場合の変換
仕様文書の第１具体例を示す図である。

【図１６】第１実施形態において、レコード内の非キー
要素が階層構造を成すとともに属性を有する場合の変換
仕様文書を作成する手順を説明するためのフローチャー
トである。

【図１７】第１実施形態における、レコード内の非キー
要素が階層構造を成すとともに属性を有する場合の変換
仕様文書の第２具体例を示す図である。

【図１８】本発明の第１実施形態としての構造化文書変
換方法による変換処理手順を説明するためのフローチャ
ートである。

【図１９】本発明の第１実施形態としての構造化文書変
換方法による逆変換処理手順を説明するためのフローチ
ャートである。

【図２０】（Ａ）および（Ｂ）は、それぞれ、第１実施
形態における変換用スタイルシートおよび逆変換用スタ
イルシートの作成手順を説明するためのフローチャー
ト、（Ｃ）および（Ｄ）は、それぞれ、本発明の第１実
施形態としての構造化文書変換方法による変換処理手順
および逆変換処理手順の変形例を説明するためのフロー
チャートである。

【図２１】（Ａ）および（Ｂ）は、それぞれ、第１実施
形態における変換用スタイルシートおよび逆変換用スタ
イルシートの作成手順の変形例を説明するためのフロー
チャートである。

【図２２】本発明の第２実施形態としての構造化文書変
換方法の原理を説明すべく、図１（Ａ）に示すＸＭＬ文
書に第２実施形態の構造化文書変換方法を適用して得ら
れたＸＭＬ文書のメモリ展開形式を示す図である。

【図２３】図４（Ａ）に示すＸＭＬ文書に第２実施形態
の構造化文書変換方法を適用して得られた変換結果の第
１具体例を示す図である。

【図２４】図４（Ａ）に示すＸＭＬ文書に第２実施形態
の構造化文書変換方法を適用して得られた変換結果の第
２具体例を示す図である。

【図２５】図４（Ａ）に示すＸＭＬ文書に第２実施形態
の構造化文書変換方法を適用して得られた変換結果の第
３具体例を示す図である。

【図２６】図４（Ａ）に示すＸＭＬ文書に第２実施形態
の構造化文書変換方法を適用して得られた変換結果の第
４具体例を示す図である。

【図２７】第２実施形態における変換仕様文書の具体例
を示す図である。

【図２８】第２実施形態において、図２７に示す変換仕
様文書により作成された変換用スタイルシートの具体例
を示す図である。

【図２９】第２実施形態において、図２７に示す変換仕
様文書により作成された逆変換用スタイルシートの具体
例を示す図である。

【図３０】第２実施形態において、レコード内の非キー
要素が階層構造を成すとともに属性を有する場合の変換
仕様文書を作成する手順を説明するためのフローチャー
トである。

【図３１】本発明の第２実施形態としての構造化文書変
換方法による変換処理手順の第１例を説明するためのフ
ローチャートである。

【図３２】本発明の第２実施形態としての構造化文書変
換方法による逆変換処理手順の第１例を説明するための
フローチャートである。

【図３３】本発明の第２実施形態としての構造化文書変
換方法による変換処理手順の第２例を説明するためのフ
ローチャートである。

【図３４】本発明の第２実施形態としての構造化文書変
換方法による逆変換処理手順の第２例を説明するための
フローチャートである。

【図３５】本発明の第２実施形態としての構造化文書変
換方法による変換処理手順の第３例を説明するためのフ
ローチャートである。

【図３６】本発明の第２実施形態としての構造化文書変
換方法による逆変換処理手順の第３例を説明するための
フローチャートである。

【図３７】本発明の第２実施形態としての構造化文書変
換方法による変換処理手順の第４例を説明するためのフ
ローチャートである。

【図３８】本発明の第２実施形態としての構造化文書変
換方法による逆変換処理手順の第４例を説明するための
フローチャートである。

【図３９】（Ａ）および（Ｂ）は、それぞれ、第２実施
形態における変換用スタイルシートおよび逆変換用スタ
イルシートの作成手順を説明するためのフローチャー
ト、（Ｃ）および（Ｄ）は、それぞれ、本発明の第２実
施形態としての構造化文書変換方法による変換処理手順
および逆変換処理手順の第５例を説明するためのフロー
チャートである。

【図４０】本発明の第３実施形態としての構造化文書変
換方法の原理を説明すべく、図１（Ａ）に示すＸＭＬ文
書に第３実施形態の構造化文書変換方法を適用して得ら
れたＸＭＬ文書のメモリ展開形式を示す図である。

【図４１】第３実施形態で用いられるデータ変換方法を
説明するためのもので、（Ａ）はデータ変換処理（圧縮
処理）の流れを説明するための図、（Ｂ）はデータ逆変
換処理（伸長処理）の流れを説明するための図である。

【図４２】第３実施形態における文字コード変換用ルッ
クアップテーブルの具体例を示す図である。

【図４３】本発明の第３実施形態としての構造化文書変
換方法を適用されるシステムおよびそのシステムにおけ
る変換／逆変換処理の流れを説明するための図である。

【図４４】（Ａ）および（Ｂ）は、それぞれ、図４
（Ａ）に示すＸＭＬ文書に第３実施形態の構造化文書変
換方法を適用して得られた変換結果の第１および第２具
体例を示す図である。

【図４５】第３実施形態において、文字コード系の種別
を示す情報を付与された圧縮文字列の具体例を示す図で
ある。

【図４６】第３実施形態における変換仕様文書の具体例
を示す図である。

【図４７】本発明の第３実施形態としての構造化文書変
換方法による変換処理手順を説明するためのフローチャ
ートである。

【図４８】本発明の第３実施形態としての構造化文書変
換方法による逆変換処理手順を説明するためのフローチ
ャートである。

【符号の説明】

１０データ構造変換／逆変換機構（構造化文書変換プ
ロセッサ）１０Ａデータ構造変換／逆変換機構１１ＸＳＬＴ変換部（構造化文書変換プロセッサ）１２ＸＳＬＴ構造変換部（構造化文書変換プロセッ
サ）１３ＸＳＬＴ逆変換部（構造化文書変換プロセッサ）２０標準ＡＰＩ３０応用ソフトウエア（アプリケーション）４１圧縮用静的単語辞書（静的辞書）４２，４３符号表４４復元用静的単語辞書（静的辞書）４５文字コード変換用ルックアップテーブル（ＬＵ
Ｔ）

───────────────────────────────────────────────────── フロントページの続き (72)発明者井谷宣子神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内Ｆターム(参考） 5B009 QA06 TA11 5B082 GA02

Claims

【特許請求の範囲】

【請求項１】変換対象の構造化文書を成す要素を、該
構造化文書に対するデータ処理の対象となる使用される
キー要素と前記データ処理の対象にならない非キー要素
とに分け、所定のタグ名および所定の属性名を付与された新たな要
素を作成し、該非キー要素のタグ名を含むタグ名文字列を作成し、該
タグ名文字列を、該新たな要素において、前記所定の属
性名に対応する属性値として記述するタグ名変換を行な
い、該非キー要素の内容を含む内容文字列を作成し、該内容
文字列を、該新たな要素の内容として記述する内容変換
を行ない、該キー要素を、変換後の構造化文書においてそのまま記
述することを特徴とする、構造化文書変換方法。
【請求項２】変換対象の構造化文書を成す要素を、該
構造化文書に対するデータ処理の対象となるキー要素と
前記データ処理の対象とならない非キー要素とに分け、所定のタグ名を付与された新たな要素を作成し、該非キー要素の記述中においてタグ付けに関連する記号
をタグ付けに関連しない文字列に置き換えた文字列を作
成し、該文字列を、該新たな要素の内容として記述し、該キー要素を、変換後の構造化文書においてそのまま記
述することを特徴とする、構造化文書変換方法。
【請求項３】変換対象の構造化文書を成す要素を、該
構造化文書に対するデータ処理の対象となるキー要素と
前記データ処理の対象とならない非キー要素とに分け、所定のタグ名を付与された新たな要素を作成し、該非キー要素を成す文字もしくは文字列に対し出現頻度
の高いものほど短い可変長符号を割り付ける可変長符号
化を行ない、該可変長符号化により得られたバイナリデ
ータを６ビットずつ１バイトの変換データにパッキング
し、各変換データにパッキングされた６ビットデータを
ＡＳＣＩＩ（American Standard Code for Information
Interchange）コードに従う文字コードに変換すること
により、該非キー要素を、該文字コードからなる圧縮文
字列に変換し、該圧縮文字列を、該新たな要素の内容として記述し、該キー要素を、変換後の構造化文書においてそのまま記
述することを特徴とする、構造化文書変換方法。
【請求項４】変換対象の文字もしくは文字列に対し、
出現頻度の高いものほど短い可変長符号を割り付ける可
変長符号化を行ない、該可変長符号化により得られたバイナリデータを６ビッ
トずつ１バイトの変換データにパッキングして出力する
ことを特徴とする、データ変換方法。
【請求項５】各変換データにパッキングされた６ビッ
トデータをＡＳＣＩＩ（American Standard Code for I
nformation Interchange）コードに従う文字コードに変
換し、該変換データ毎に得られた該文字コードを、前記変換対
象の文字もしくは文字列の圧縮変換結果として出力する
ことを特徴とする、請求項４記載のデータ変換方法。