WO2006103777A1

WO2006103777A1 - 構造化データ変換方式

Info

Publication number: WO2006103777A1
Application number: PCT/JP2005/006173
Authority: WO
Inventors: Satoshi Nakashima; Junichi Odagiri; Shigeru Yoshida; Takuroh Yamaguchi
Original assignee: Fujitsu Limited
Priority date: 2005-03-30
Filing date: 2005-03-30
Publication date: 2006-10-05
Also published as: JP4216323B2; EP1870821A1; JPWO2006103777A1; US20080091699A1; EP1870821A4

Abstract

　構造化データ変換装置は、第１の構造化データを、当該第１の構造化データとは別の言語によって記載された第２の構造化データに変換することを前提とし、前記第１の構造化データを前記第２の構造化データに変換する際に削除され、変換した前記第２の構造化データを前記第１の構造化データに逆変換する際に必要となるデータを、逆変換情報として前記第１の構造化データから抽出する逆変換情報生成部と、前記第１の構造化データを前記第２の構造化データに変換する際、前記逆変換情報を当該第２の構造化データに埋め込む逆変換情報格納部と、を有することを特徴とする。

Description

明細書

構造化データ変換方式

技術分野

[0001] 本発明は、構造化データの他の形式の構造化データへの変換の技術に関し、更に詳しくは、再変換を考慮した構造化データの変換の技術に関する。

背景技術

[0002] 近年、インターネットを通して、個人、企業、自治体など、あらゆる種類のシステムが接続され、連携して、 Webサービスや EDI、 ECが行われつつある。このために、幅広い情報交換が必要になっており、データ交換、データ処理に、 XML (extensible Markup Language)力データを構造ィ匕する柔軟な表現能力を持ち、コンピュータ処理に適するため、共通基盤のフォーマットとして注目されている。

[0003] XMLは、 1986年に ISOで標準化された SGML (Standard Generalized Mar kup Language)をインターネットで活用し易くするために、 1998年 2月にその基本仕様 XML1. 0が W3C (World Wide Web Consortium)において策定されたものである。

[0004] Webページ作成言語である HTML (HyperText Markup Language)は、タグが固定で表示に特化したものとなっており、タグ情報を基にコンピュータで情報を処理したいという要件に対応できない問題があった。それに対して、 XMLは、利用者が自由にタグを定義でき、データ中の文字列に意味付けができる言語構造を持ち、コンピュータで情報処理するのに適している。

[0005] 現在、 XMLは広く普及しつつあり、特にサーバ'システム間の連携などで活用されている。

XMLによるデータは階層をもつ構造データを柔軟に記述できるフォーマットを持ち、プログラムで機械的に検索や加工などデータ処理しやすいという利点がある。その反面、表示スタイルを記述するための HTML等とは異なり、そのままでは人が見やすく表示することはできなレ、。そのため、各種データ処理はサーバ上で XMLデータによって行ない、それを HTMLデータに変換してクライアント PCに渡し、クライアント PC上ではその HTMLデータを Webブラウザで表示するという使い方が一般的になつている。

[0006] XMLデータから HTMLデータへの変換には標準 XML変換技術である XSLT等が広く使われている。

構造ィヒデータの変換についての技術が開示されている文献としては例えば特許文献 1がある。

[0007] 特許文献 1に開示されている、宅配の運送状況を示す情報の提供を行なうシステムでは、検索条件が不明でも運送状況を確認できるようにするため、情報提供者とユーザ端末との間に仲介装置を設け、この仲介装置と情報提供者の情報提供装置とのデータのやり取りを行なうに際して、 HTML力 XMLへの変換や XMLから HTML への変換を行なっている。

[0008] また特許文献 2には、ソートや一部切り出し等の編集処理後に元の構造ィ匕データを再構築できるようにするため、 XMLデータにインデックスと深さを示す属性値を付加する変換を行なう点が開示されている。

[0009] 上記したような XMLや HTML等の構造化データの変換の普及に伴い、 HTMLとして取得し Webブラウザで表示するだけでなぐそのデータを XMLによるデータとして取得してクライアント PC上でユーザが様々なデータ処理を行なレ、たいとレ、うニーズが出てきている。

[0010] 図 1 (a)及び (b)に同一内容のデータを表示と情報処理の両方に用いるようにするために現在行なわれてレ、る方式を示す。

同図（a)の方式は、元となる XMLデータと表示用にこの XMLデータを変換して生成した HTMLデータの両方を Webサーバに持ち、ユーザに公開する方式である。

[0011] この方式では、 Webサーバにおいて XMLデータと HTMLデータの二つのファイルを二重管理する必要が生じ、保守コストが大きくなる。

また、ユーザ側では HTMLデータと XMLデータの両方を受け取らねばならず、 2 度の通信が必要となり、その分レスポンスが落ちる。

[0012] また図 1 (b)の方式は、 XMLデータを変換して HTMLデータを生成する際に、 HT

MLデータの中に XMLデータを丸ごと坦め込み、ユーザ側ではこの HTMLデータ力 XMLデータを取り出して、情報処理を行なう。

[0013] この方式では図 1 (a)の方式と異なり、上記と違い、 Webサーバで管理するファイルは HTMLデータのファイル一つだけになる力この HTMLデータは XMLデータを丸ごと坦め込む分、そのサイズは HTMLデータと XMLデータの両者を併せた以上の大きさとなってしまう。

[0014] またユーザ側では、坦め込まれた XMLデータを HTMLデータ力抽出する手間を必要とする。

またこの他の方法として、 HTMLから XMLに逆変換する方法もある。

[0015] システムの変更を最小限でこれを実現するには、 XML→HTML変換に加え、 HT

ML→XMLへの逆変換ができると良い。しかし、 XSLT等の従来の変換技術では次の理由によりこれができない。

[0016] XMLはデータの構造 ·意味を自由に定義でき、この情報が様々なデータ処理に役立ち重要である。し力し、 HTMLは表示スタイルを記述するものであり、それらの情報（XMLがもつタグと値の関係）は記述できなレ、。従って、 HTMLから XMLへの変換は、重要な情報が欠落してレ、まレ、実現できなレ、。

[0017] 以上の点を踏まえ、本発明は、 HTML力 XMLへの逆変換を可能とした XMLから HTMLへの変換を行なうことが可能な構造化データ変換装置を提供することを課題とする。

[0018] またこの逆変換では、元の XMLデータを完全に再現できる XMLへの逆変換を可能とした XMLから HTMLへの変換を行なえる構造化データ変換装置を提供することを課題とする。

特許文献 1 :特開 2002— 128232号公報

特許文献 2 :特開 2004— 62600号公報

発明の開示

[0019] 本発明による構造化データ変換装置は、第 1の構造化データを、当該第 1の構造化データとは別の言語によって記載された第 2の構造化データに変換することを前提とし、上記問題点を解決するため、逆変換情報生成部、及び逆変換情報格納部を備える。 [0020] 逆変換情報生成部は、前記第 1の構造化データを前記第 2の構造化データに変換する際に削除され、変換した前記第 2の構造化データを前記第 1の構造化データに逆変換する際に必要となるデータを、逆変換情報として前記第 1の構造化データから抽出する。

[0021] 逆変換情報格納部は、前記第 1の構造化データを前記第 2の構造化データに変換する際、前記逆変換情報を当該第 2の構造化データに坦め込む。

この構成により、変換後の第 2の構造ィ匕データ内の逆変換情報を用いて、変換前の第 1の構造化データを再現することが出来る。

[0022] また前記第 2の構造ィヒデータに埋め込まれている前記逆変換情報を用いて、前記第 2の構造化データを前記第 1の構造ィヒデータに逆変換する逆変換部を更に備える構成とすることも出来る。

[0023] この構成では、変換した第 2の構造化データから第 1の構造化データに逆変換を行なうことが出来る。

更に、前記逆変換情報格納部は、変換後の前記第 2の構造化データを Webブラウザで表示した際に見た目に影響を与えない形で前記逆変換情報を坦め込む構成とすることが出来る。

[0024] この埋め込みの仕方としては、例えば第 2の構造化データが HTMLによるものであつた場合、アンカータグ内に、或いはコメントタグ内に坦め込む。

これにより、第 2の構造化データの表示に対し、逆変換情報による影響を無くすことが出来る。

[0025] また前記逆変換情報生成部は、前記第 1の構造化データが繰り返し構造を含むとき、当該繰り返し構造全体に対する前記逆変換情報を生成し、前記逆変換情報格納部は、当該逆変換情報を前記繰り返し構造全体に対応させて坦め込む構成とすることが出来る。

[0026] この構成により、第 1の構造化データが繰り返し構造を有する場合、より効率的に逆変換データを埋め込むことが出来る。

更に、ユーザからの指示に基づいて、前記第 2の構造化データから前記第 1の構造化データの一部を逆変換する部分逆変換部を更に備える構成とすることも出来る。 [0027] この構成により、逆変換を行なうとき、ユーザに指定された一部分のみを逆変換することが出来る。

また前記第 1の構造ィ匕データから変換した前記第 2の構造化データに対し、ユーザ力の検索条件に基づいて検索を行なう検索部を更に備える構成とすることも出来る

[0028] この構成により、変換後の第 2の構造ィヒデータに対しても検索処理を行なうことが出来る。

更に、前記逆変換情報は、前記第 2の構造化データを前記第 1の構造化データに逆変換する際に最低限必要となる情報、例えば、前記第 1の構造化データ内のタグのタグ名及びタグと要素内容との対応関係を示す情報とする構成とすることが出来る

[0029] この構成により、埋め込む逆変換情報の大きさを最小限の大きさにすることが出来る。

また本発明は構造ィヒデータ変換装置のみならず、構造化データ変換方法、プログラム及び記憶媒体もその範囲に含む。

図面の簡単な説明

[0030] [図 l] (a)及び (b)は、同一内容のデータを表示と情報処理の両方に用いるようにするために現在行なわれている方式を示す図、（c)は本実施形態による方式を示す図である。

[図 2]本実施形態における構造ィヒデータ変換装置の概略構成図である。

[図 3]本実施形態の構造化データ変換装置で行なわれる構造化文書の変換の例を示す図である。

[図 4]変換処理部によって行なわれる XMLデータから HTMLデータへの変換処理時の動作処理を示すフローチャートである。

[図 5] (a)は項目名表の例を示す図、（b)は項目値表の例を示す図、（c)はメモリ上に展開された HTMLスタイル指定 222の例を示す図、（d)にこの置き換えを行なった H TMLスタイルの例を示す図である。

[図 6]XMLメモリ構造の例を模式ィ匕した図である。 [図 7]逆変換処理部によって行なわれる HTMLデータから XMLデータへの逆変換処理時の動作処理を示すフローチャートである。

[図 8]変換元の構造化文書に繰り返し構造を持つ場合の構造化データ変換装置による変換の概要を示す図である。

[図 9]変換元の構造化文書に繰り返し構造を含む場合の変換の例を示す図である。

[図 10]変換元の構造化文書に繰り返し形式があり、これを表形式の構造化文書に変換する場合の処理を示すフローチャートである。

[図 11] (a)は項目名表の例を示す図、（b)は項目表値の例を示す図、（c)はメモリ上に展開された HTMLスタイル指定の例を示す図、（d)は生成されるアンカータグの例を示す図、（e)は HTML記述の例を示す図である。

[図 12]本実施形態の構造化データ変換装置によって表形式の変換された構造化文書を逆変換処理部によって逆変換する場合の処理を示すフローチャートである。

[図 13]部分逆変換処理を示す図である。

[図 14]この部分逆変換処理部による部分逆変換処理を示すフローチャートである。

[図 15] (a)及び (b)は、本実施形態の検索処理の説明図である。

[図 16]検索処理部によって行なわれる検索処理を示すフローチャートである。

[図 17]逆変換情報を HTMLのコメントタグ内に坦め込んだ場合の例を示す図である

[図 18]コンピュータのシステム環境図である。

[図 19]媒体の例を示す図である。

発明を実施するための最良の形態

[0031] 以下に図面を参照しながら本発明の一実施形態について説明する。

図 1 (c)は、本実施形態における構造ィ匕データ変換装置による XMLデータの HT

MLデータへの変換を示す図である。

[0032] 本実施形態の構造化データ変換装置では、 XMLデータを HTMLデータに変換する際、 HTML変換時に本来なら失われてしまう XMLデータに再変換する際に必要となる情報 (以下逆変換情報という）を効率よく HTMLデータ内に埋め込む。

[0033] これにより、図 1 (b)に示したように元の XMLデータを丸ごと埋め込むのに比して、変換後のデータの大きさが増大するのを防ぐことができる。尚この逆変換情報は、逆変換時に最低限必要となるタグ名と要素内容との対応関係を示す情報なので、これを変換結果に埋め込んでも、変換後のデータのサイズに大きな影響はない。

[0034] 図 2は本実施形態における構造化データ変換装置の概略構成図である。

同図において、構造化データ変換装置 1は、変換処理部 11、逆変換処理部 12、部分逆変換処理部 13、及び検索処理部 14を有する。

[0035] 変換処理部 11は、変換対象である変換元 XMLデータ 2と変換定義 3を読み込み、変換元 XMLデータ 2を変換定義 3に基づいて HTMLデータ 4に変換する。この変換処理部 11による変換結果である HTMLデータ 4には、逆変換情報 41が坦め込まれている。逆変換処理部 12は、 HTMLデータ 4の XMLデータ 2への逆変換を行なうもので、 HTMLデータ 4内の逆変換情報を用いて HTMLデータ 4力 XMLデータ 2を生成する。部分逆変換処理部 13は、変換処理部 11によって生成された HTMLデータ 4の一部を逆変換して、変換元 XMLデータ 2の部分 XMLデータ 6を生成する。尚この部分逆変換処理部 13によるの部分 XMLデータ 6の生成も逆変換情報 41を用いて行なわれる。検索処理部 14は、変換処理部 11による変換結果である HTMLデータ 4に対して検索条件 5に基づいて検索を行ない、検索結果 7を出力する。変換処理部 11によって生成された HTMLデータ 4は逆変換情報 41を内部に持ってレ、るので、 XMLデータの様な検索を行なうことができる。尚この点の詳細については後述する。

[0036] 尚本実施形態における構造化データ変換装置は、その構成要素として変換処理部 11、逆変換処理部 12、部分逆変換処理部 13、及び検索処理部 14の全てを備える構成のみならず、その一部のみ、例えば変換処理部 11のみや変換処理部 11及び逆変換処理部 12のみを備える構成としても実現することができる。

[0037] 図 3に、本実施形態の構造化データ変換装置で行なわれる構造化文書の変換の例を示す。同図は、 XMLデータから HTMLデータに変換を行なっている場合を例として示している、

同図では変換元となる XMLデータ 21には、データである要素内容の他に、く製品情報 >、く製品名〉、く価格 >及びく型名 >のタグ名（要素名）を情報として持っている力これらのタグと要素内容との関係は、通常 HTMLデータに変換される際に失われてしまう。

[0038] 変換処理部 11は、この XMLデータ 21を HTMLデータ 23に変換する際に、タグ名やタグと要素内容との関係など通常失われてしまう情報を変換定義 22による指示に基づレ、て逆変換情報に変換し、またこのとき再変換に必要となる情報を HTMLデータ 23内に坦め込む。

[0039] 図 3では、変換定義 22は、項目定義 221と HTMLスタイル指定 222を指定しており、そのうち項目定義 221は対象とする XMLデータ 21の中の各要素について、階層構造上での位置が指定されている。例えば XMLデータ 21中の要素であるく製品情報 >下位階層にあるく製品名 >は、項目定義 221では項目 1として指定されてレ、る。また HTMLスタイル指定 222は、変換後の HTMLデータ 23の構造を指定している

[0040] 変換処理部 11は、変換定義 22の項目定義 221から変換対象である XMLデータ 2 1を構成する各要素の位置についての情報を取得し、 XMLデータ 21からはその位置にあるデータ（要素内容）を取得する。例えば、項目 1の"/製品情報/製品名"という指定から、 XMLデータ 21中の上位階層が"製品"の"製品名"という項目の位置を表していることが分かり、 XMLデータ 21のその位置のデータである" CELSIUS" を取得する。

[0041] そして、 HTMLデータ 23に変換する際には、 HTMLデータとして表示を行なう際に支障がないような形で、各データに対して項目定義 221の情報を、各要素の位置情報を逆変換情報として坦め込む。このための方法としては、例えば、 HTMLのハイパーリンク機能の一つであるアンカー（参照先マーク）タグ内に埋め込むことで、 Web ブラウザで表示しても見た目に影響を与えない。

[0042] 図 3の変換結果である HTMLデータ 23では、データ（要素内容）を挟んでいた開始タグと終了タグがそれぞれアンカーに置き換わっている。例えばデータ（要素内容 ) 222に対する開始タグ 221力アンカー 231に、少量タグ 213がアンカー 233に置き換わってデータ 232の前後に配置されている。

[0043] このような、 HTMLデータ 23データは Webブラウザで表示すると、タグは表示されないので、表示イメージ 24のように揷入されたアンカーとして埋め込まれた逆変換情報は表示されない。

[0044] またこのような方法で XMLデータ 21から変換された、逆変換情報を内包した HTM

Lデータ 23は、この逆変換を行なう際にこの逆変換情報を用いることによって元の X

MLデータ 21を復元することができる。

[0045] XMLデータ 23に逆変換する際には、埋め込まれた逆変換情報を抽出し、それに従って XMLに変換する。

例えば図 3において、

< a name = "/製品情報/価格" >

20万円

< a name = "/製品情報/価格— e" >

とレ、う記述部分 234は、アンカーとして埋め込まれてレ、る逆変換情報から XMLデータ 21のタグを再現し、

<製品情報 >

<価格 > 20万円 < /価格 >

< /製品情報 >

とレ、う XMLデータの記述に変換できる。

[0046] 図 4は、変換処理部 11によって行なわれる XMLデータ 21から HTMLデータ 23への変換処理時の動作処理を示すフローチャートである。

以下の説明では、図 3に示した変換対象である XMLデータ 21を変換定義 22を用レ、て変換し、変換結果として HTMLデータ 23を得る場合を例として、変換処理部によって行なわれる動作を説明する。

[0047] 同図において処理が開始されると、まず変換対象となる XMLデータ 21と、変換定義 22をメモリ上に読み込んだ後、ステップ S1として変換定義 22を解析し、メモリ上に項目名表を生成する。

[0048] 図 5 (a)にその項目名表の例を示す。同図の項目名表は、各項目とその項目が対応する XMLデータ 21内の要素の位置の関係が表として示されてレ、る。この項目名表は、変換定義 22の項目定義 221から生成される。 [0049] 次に変換処理部 11は、ステップ S2として、変換元である XMLデータ 21を解析し、木構造を示す XMLメモリ構造をメモリ上に展開する。

図 6にこの XMLメモリ構造の例を模式化した図を示す。

[0050] 同図では、 XMLメモリ構造は、タグ名部分 61とタグ内容部分 62から構成され、タグ名部分には各データ（要素内容）の階層位置をタグ名で示しており、タグ内容部分 6

2には、データ（要素内容）そのものが示されている。

[0051] 変換処理部 11は、ステップ S3としてステップ S1で生成した項目名表と、ステップ S

2で生成した XMLメモリ構造から、ステップ S3として、項目値表を生成する。

図 5 (b)に項目値表の例を示す。

[0052] この項目値表は、項目名表の各項目と、 XMLデータ 21内のデータ（要素内容）との関係を示すもので、同図の例では項目 1は CELCIUS、項目 2は T1234、項目 3 は 20万円を示している。

[0053] 次に変換処理部 11は、ステップ S4として変換定義 22の HTMLスタイル指定 222 部分をメモリに展開する。

図 5 (c)にこのメモリ上に展開された HTMLスタイル指定 222の例を示す。この HT

MLスタイル指定 222が、変換後の HTMLデータ 23のひな形となる。

[0054] そして変換処理部 11は、ステップ S5としてステップ S4でメモリ上に展開した HTM

Lスタイル指定から文字列「 $項目 +数字」（ $項目 1、 $項目 2、 · · ·）を全て抽出し

、ステップ S6として、抽出した文字列に対応する項目名とその項目名に対応する項目値を項目名表と項目値表から取得し、ステップ S7として項目名の位置情報を HT

MLアンカータグの" name"属性とし、また項目値をタグで挟まれたタグ内容として H

TMLスタイル指定中の文字列と置き換える。

[0055] 図 5 (d)にこの置き換えを行なった HTMLスタイルの例を示す。

図 5 (d)は、項目 1部分を置き換えたものを示しており、記述部分 51では、項目 1の位置情報である"製品情報/製品名"がアンカータグの" name"属性 52となっており

、項目 1の項目値である CELCIUS力アンカータグの開始タグと終了タグに挟まれたタグ内容 53として記載されている。

[0056] このような置き換えを行なった後、ステップ S8として変換処理部 11は、図 5 (d)のような置き換え後の HTMLスタイルのテキストを変換結果の HTMLデータ 23として出力して、本処理を終了する。

[0057] この様に本実施形態による構造化データ変換装置によるデータ変換では、変換元のデータの逆変換時に必要となる情報である逆変換情報を変換結果に坦め込むことが出来る。またこの逆変換情報が埋め込まれた変換後のデータは、 Webブラウザによって表示を行なっても、逆変換情報は表示されない。

[0058] また逆変換情報として HTMLデータに埋め込まれる情報は、タグの位置情報等なので、元の XMLデータをそのまま埋め込む場合に比して、データサイズを小さく抑えることが出来る。

[0059] 図 7は、逆変換処理部 12によって行なわれる HTMLデータ 23から XMLデータ 21 への逆変換処理時の動作処理を示すフローチャートである。

以下の説明では、図 3に示した本実施形態の構造化データ変換装置によって変換された HTMLデータ 23を逆変換して、変換結果として XMLデータ 21を得る場合を例として、逆変換処理部 12によって行なわれる動作を説明する。

[0060] 図 7において処理が開始されると、まず逆変換処理部 12は、処理対象である HTM Lデータ 23をメモリから読み出し、ステップ S 11としてこの HTMLデータ 23を解析し、アンカータグ部分を全て抽出する。

[0061] 次にステップ S 12として逆変換処理部 12は、ステップ S 11で抽出したアンカーの "n ame"属性部分の文字列の末尾力 S"__e "となっているアンカーを求め、またステップ S 13として、ステップ S12で求めたアンカーと対となる、 "name"属性部分の文字列力ステップ S 12のアンカーの" name"属性部分の文字列の末尾から" _e "を除いた文字列のアンカーを取得する。そして逆変換処理部 12は、ステップ S 14として、ステツプ S 12とステップ S 13で取得した対のアンカーに囲まれた文字列を取得する。

[0062] 次に、逆変換分 12は、ステップ S 15としてステップ S 12若しくは S 13で取得したアンカーのアンカーの" name"属性の文字列を、 "/"を区切りとして分解して、図 6に示したような XMLデータのメモリ構造のタグ名部分 61を生成する。また、逆変換部 12 は、ステップ S 16として、ステップ S14で取得したアンカーに囲まれた文字列を要素内容として図 6の XMLデータのメモリ構造に加え、タグ内容部分 62を生成する。 [0063] この様にして生成された XMLデータのメモリ構造を、最後に逆変換分は、ステップ S17として XMLデータに変換しこれを XMLファイルとして出力し、本処理を終了する。

[0064] この様に本実施形態における構造化データ変換装置では、 XMLデータから変換した HTMLデータに対して再変換を行なうことによって、元の XMLデータを再現すること力 Sできる。

[0065] 次に、変換対象となる変換元データにテーブルやリスト等の繰り返し部分を有する場合の変換及び逆変換について説明する。

例えば XMLに於いては、その特徴として繰り返し同じ構造のデータを持つ構成を含む場合が多い。

[0066] これらの繰返し構造を持つ XMLデータを、 HTMLで表現する場合には表形式 (T ABLEタグ)やリスト形式 (ULタグ)で表されることが多レ、。

繰返し構造は数が多くなりがちなので、上記したように全ての項目に逆変換情報を付加するとサイズが大きくなつてしまう。本実施形態では、このような繰り返し構造を持つ場合において HTMLの表形式等に変換する場合は、より効率的に逆変換情報を埋め込めるよう、表 (若しくはリスト）全体 (繰返し構造全体）に対して一組の逆変換情報を坦め込む。

[0067] これにより本実施形態の構造化データ変換装置による変換では、変換対象が繰り返し部分を有するものであるとき、変換時に坦め込む逆変換情報をよりコンパクトにすることが出来る。

[0068] 図 8は、変換元の構造化文書に繰り返し構造を持つ場合の構造化データ変換装置による変換の概要を示す図である。

構造化データ変換装置は、変換元の構造化文書 81を解析し、表等の繰り返し構造が存在する場合、これらに対する逆変換情報を 1つにまとめて変換結果となる構造化文書 82に揷入する。

[0069] またこの変換された構造ィ匕文書 82を逆変換する際には、表等の繰り返し構造に対して 1つにまとめて、効率よく組み込まれた逆変換情報を用いて元の構造化文書 81 を生成する。 [0070] 図 9は、変換元の構造化文書に繰り返し構造を含む場合の変換の例を示す。同図も、図 3と同様 XMLデータから HTMLデータに変換を行なっている場合を例として示している、

同図では、変換元の構造ィ匕文書である XMLデータ 91をユーザによって定義された変換定義 92を用いて HTMLデータ 93に変換する。

[0071] 図 9の XMLデータ 91は、く型名〉、く名前〉、及びく価格 >部分の繰り返し構造 911を備え、また変換定義 92では、項目定義 921でこれらを項目として定義し、また HTMLスタイル指定 922には" MALE— TABLE"と表形式に変換することが定義されている。尚項目定義の 921の"レコード"部分は、表のレコードとなる部分を示しており、また HTMLスタイル指定 922の" MALE— TABLE"は、引数として持つ項目を行とした表形式のスタイルであることを示している。

[0072] この変換定義 92に基づいて変換処理部 11が、 XMLデータ 91を変換すると、変換結果として HTMLデータ 93が得られる。

この HTMLデータ 93では、変換定義 92で定義されたように各行に XMLデータ 91 のく型名〉、く名前〉、及びく価格〉の要素内容を持つ表を示している。またこの HTMLデータ 93には、表の先頭部分と終わり部分に逆変換情報 931及び 932がァンカーとして埋め込まれてレ、る。

[0073] この様に、変換元の構造化文書が繰り返し構造を持つ場合であった場合、逆変換に用いる逆変換情報をまとめて効率よく変換結果の構造化文書に埋め込むことが出来る。

また表示結果 94は、変換結果である HTMLデータ 93を Webブラウザによって表示したものであるが、逆変換情報はアンカーとして埋め込まれているので、表示には何ら影響を与えない。

[0074] 図 10は、上記したように変換元の構造ィヒ文書に繰り返し形式があり、これを表形式の構造化文書に変換する場合の処理を示すフローチャートである。

以下の説明では、図 9に示した変換対象である XMLデータ 91を変換定義 92を用レ、て変換し、変換結果として HTMLデータ 93を得る場合を例として、変換処理部によって行なわれる動作を説明する。 [0075] 同図において処理が開始されると、まず変換対象となる XMLデータ 91と、変換定義 92をメモリ上に読み込んだ後、ステップ S21として変換定義 92を解析し、メモリ上に項目名表及び項目表値を生成する。尚この処理は図 4のステップ Sl、 S2と同じ処理である。

[0076] 図 11 (a)にこのとき生成される項目名表、同図（b)に項目表値の例を示す。同図（a )の項目名表は、各項目とその項目が対応する XMLデータ 91内の要素の位置の関係が表として示されている。この項目名表は、変換定義 92の項目定義 291から生成される。

[0077] この図 11 (a)の項目名表と図 5 (a)の項目名表を比較すると図 11 (a)の項目名表には、項目 1〜3の他に"レコード"が項目として加わっている。

また図 5 (b)の項目標値と比較すると、図 11 (b)の項目表値は、変換元の XMLデータ 91が繰り返し構造を持つので、 1つの項目に複数のデータが対応している。

[0078] 次に変換処理部 11は、ステップ S22として、変換定義 92中の HTMLスタイル指定

922をメモリ上に展開する。

図 11 (c)にこのメモリ上に展開された HTMLスタイル指定 922の例を示す。この H

TMLスタイル指定 922が、変換後の HTMLデータ 93のひな形となる。同図では、 M

AKE— TABLE ( $項目 1 , $項目 2, $項目 3)と、項目値表で定義された各項目 1

〜項目 3のデータを行とする表形式として HTMLデータ 93が形成されることが指定されている。

[0079] 変換処理部 11は、ステップ S23として、メモリ上に展開した HTMLスタイル指定の" MAKE_TABLE ( · · · ) "の引数である文字歹 $項目 +数字」（ $項目 1、 $項目 2 、 · · ·）を全て抽出し、ステップ S24として、抽出した文字列に対応する項目名とその項目名に対応する項目値を項目名表と項目値表から取得する。

[0080] 次に変換処理部 11は、ステップ S25として項目名 92の"レコード"の位置情報（図 9 では"/製品名/製品"）力 HTMLアンカータグの" name"属性の文字列を生成する。

[0081] 図 11 (d)にステップ S25で生成されるアンカータグの例を示す。同図中 111が開始タグを表わしており変換後の HTMLデータ 91の表部分の開始位置に坦め込まれる。また同図中 112が終了タグに対応しており、 HTMLデータ 91の表部分の終了位置に坦め込まれる。

[0082] 次に変換処理部 11は、ステップ S26としてアンカー 111の" s_rowl =header"から、く製品一覧 > <製品 >の下位要素の要素名であるく型名 >、く名前 >、及び <価格 >がヘッダーとしてテーブルの 1行目に来るように、 HTML記述を作成する。そして次にステップ S27として、 HTMLスタイル指定 921の" MAKE_TABLE"中で指定された順序で、ステップ S26で作成した HTML記述の表の 2行目移行に対応する部分に、項目名に対応する項目値を並べて追カ卩し、 HTML記述を作成する。

[0083] 図 11 (e)にこのステップ S26、 S27によって作成される HTML記述を示す。

同図中 113部分力ステップ S26で作成される表の 1行目のヘッダー部分に対応し、 114部分が表の 2行目以降の部分に対応する。

[0084] このような HTML記述をメモリ上に作成後、変換処理部 11は、ステップ S28として、図 11 (e)の HTML記述の先頭部分（図 11 (e)の < table >タグの直後）に開始タグ 1 11のアンカーを、最終部分（図 11 (e)のく/ table >タグの直前）に終了タグ 112のアンカーを付加し、この HTML記述を HTMLスタイル指定 922の" MAKE— TABL E ( · · · ) "部分と置き換える。そしてステップ S29として、置き換えた結果を変換結果である HTMLデータ 93としてファイルに出力し、本処理を終了する。

[0085] この様に本実施形態による構造化データ変換装置によるデータ変換では、変換元の構造化文書に繰り返し構造があっても、変換後のデータが大きくならないよう、効率良く逆変換情報を埋め込んだ変換を行なうことができる。

[0086] 次に、図 10の処理によって変換された構造ィ匕文書の逆変換処理について説明する。

図 12は、本実施形態の構造化データ変換装置によって表形式の変換された構造化文書を逆変換処理部 12によって逆変換する場合の処理を示すフローチャートである。

[0087] 以下の説明では、図 9に示した変換処理部 11によって変換された HTMLデータ 9 3を逆変換し、変換結果として XMLデータ 91を得る場合を例として、逆変換処理部 1 2によって行なわれる動作を説明する。 [0088] 図 12において処理が開始されると、逆変換処理部 12は、処理対象である HTML データ 93をメモリに読み込み、ステップ S31としてこの HTMLデータ 93を解析し、ァンカータグ部分を全て抽出する。

[0089] 次にステップ S32として逆変換処理部 12は、ステップ S31で抽出したアンカーの "n ame"属性部分の文字列の末尾力 S"__e "となっているアンカーを取得する。そしてステツプ S33として、ステップ S32で取得したアンカーの" name"属性部分の文字列から末尾の" _e "を除いた文字列に、 "s_row' 'が続くアンカーの" name"属性を持つアンカーを取得する。そして逆変換処理部 12は、ステップ S34として、このステップ S 32と S33で取得したアンカーに囲まれた文字列である HTML記述を取得する。

[0090] 次に逆変換処理部 12は、ステップ S35として、ステップ S33で取得したアンカーの" name"属性部分の文字列部分の" s— row"と" = header"の間の番号を所得する。本例では" name"属性部分の文字列は"製品一覧/製品— s— rowl =header"なので、この番号は" 1 "となる。

[0091] 次に逆変換処理部 12は、ステップ S36として、ステップ S35で取得した番号に該当するく table >タグの下位層の行（く tr>タグ部分）について、項目（く td>タグ）の値を XMLタグ値として抽出する。本例の場合このステップで抽出されるのは、 XML タグく型名>、 <名前 >、及びく価格 >となる。

[0092] 次に逆変換処理部 12は、ステップ S37として、ステップ S35で取得した番号に該当しなレ、（本例の場合テーブルの 2行目以降に該当する） < table >タグの下位層の行 (く tr>タグ部分）について、項目（く td>タグ）の値を XMLタグ値として抽出する。

[0093] そして、ステップ S38として、ステップ S33、 S36、 S37で抽出したアンカーの" nam e"属性部分、 XMLタグ名、 XMLタグ値から、 XMLデータを生成し、これを逆変換結果である XMLファイルとして出力し、本処理を終了する。

[0094] この様に本実施形態では、表形式を含む形の構造化文書に対して逆変換を行なつても、元の繰り返し構造を持つ構造ィヒ文書を再現することができる。

尚上記説明では、繰り返し構造を持つ構造化文書を表形式の構造化文書に変換していたが、表形式ではなくリスト形式の構造化文書 (HTMLの場合 <ul > )に変換した場合に於いても、同様に逆変換情報を坦め込むことが出来、また逆変換によって元の構造化文書を再現することができる。

[0095] 次に、部分逆変換処理部 13によって行なわれる部分逆変換処理について説明する。

この部分逆変換処理は、変換処理部 11によって変換された変換結果の一部分を逆変換するものである。

[0096] 部分逆変換処理では変換結果の HTMLデータの中から特定部分のみ抽出し、 X MLデータに逆変換する。この部分逆変換処理は、本実施形態の構造化データ変換装置で変換された HTMLデータから特定の部分のみを逆変換してデータとして欲しレ、とき、例えば、製品情報を表示するページの HTMLデータの中から、製品の仕様詳細は除いて概要情報のみを XMLデータとして取得したい場合などに用いることができる。

[0097] 図 13にこの部分逆変換処理を示す。

上記したように変換処理部 11は、変換元の構造ィ匕文書 131に対して変換定義 132 に基づいて、変換処理を行ない変換結果 133を生成する。

[0098] そして上記説明では、この変換結果 133の構造化文書をそのまま逆変換を行ない元の構造化文書 131を生成していたが、部分逆変換処理では、構造化文書 133全体を逆変換するのではなぐユーザに抽出部分指定ファイル 134によって一部分を指定させ、指定された部分のみを抽出して逆変換する。

[0099] 例えば図 13では、抽出部分指定ファイル 134によって "Z製品情報 Z製品名"が指定されると、部分逆変換処理部 13は、階層位置が" Z製品情報 Z製品名"に対応する部分を抽出して逆変換を行ない、抽出部分指定ファイル 134によって指定された要素部分を逆変換結果である部分 XMLデータ 135として出力する。

[0100] 図 14は、この部分逆変換処理部 13による部分逆変換処理を示すフローチャートである。

同図において処理が開始されると、部分逆変換処理部 13は、まずステップ S41として、逆変換処理部 12を起動する。

[0101] 次に部分逆変換処理部 13は、ステップ S42としてユーザによって抽出部分が指定された抽出部分ファイル 134が存在するかどうかを判断する。そしてその結果、抽出部分ファイル 134が存在しなければ (ステップ S42、 No)、部分逆変換でなく通常の逆変換を行なうので、ステップ S43としてステップ S41で起動した逆変換処理部 12処理を渡し、部分逆変換処理部 13は処理を終了する。このとき、処理を渡された逆変換処理部は、前述した図 7のステップ S11からの処理を開始し、逆変換処理を行なう

[0102] ステップ S42において、抽出部分ファイル 134が存在していれば（ステップ S42、 Y es) ,ユーザによって部分抽出を行なう箇所が指定されているので、ステップ S44として、抽出部分ファイル 134をメモリから読み出し、この抽出部分ファイル 134に指定されている抽出部分指定の文字列を取得する。

[0103] そして次に部分逆変換処理部 13は、ステップ S45として、 "name"属性に抽出部分ファイル 134で指定された抽出部分指定の文字列と同じ文字列を持つアンカーを、変換結果である HTMLデータ 133から抽出する。

[0104] そして、ステップ S45で抽出したアンカーと共に処理を逆変換処理部 12に渡し、部分逆変換処理部 13は処理を終了する。そして処理を受け渡された逆変換処理部 12 は、部分逆変換処理部 13から受け取ったアンカーを用いて、上記した図 7のステップ S 12以降の処理を行なレ、、結果として生成された XMLの部分ファイルを逆変換結果として出力する。

[0105] この様に本実施形態の構造化データ変換装置では、変換された HTMLデータを逆変換して XMLデータに戻す際、ユーザから指定されたデータのみを逆変換することが出来る。

[0106] 次に、検索処理部 14によって行なわれる検索処理について説明する。

本実施形態による構造化データ変換装置では、変換結果である HTMLデータに対して、 XMLデータと同様の検索処理を行なうことができる。

[0107] 通常 HTMLデータは、表示用に特化した言語で、内部のデータについては表示形態についての情報のみを持ち、その内容については検索を行なうことが出来ない。しかし、本実施形態の構造化データ変換装置によって変換された HTMLデータは、内部に逆変換情報を含んでおり、この逆変換情報を用いて内部データに対する検索を行なうことができる。 [0108] 図 15 (a)、図 15 (b)は、本実施形態の検索処理の説明図である。

通常 HTMLデータでは、同図（a)に示すように内部データ（同図の「100万円」等）は、何を示したデータであるのかは不明であり、この内部データが予算に対するデータであってもこの HTMLデータに対し、例えば"予算"等のデータの内容を検索する意味的な検索を行なうことは出来ない。

[0109] それに対して、同図（b)に示す本実施形態の構造化データ変換装置によって変換された HTMLデータ 152は、内部データに対応づけて逆変換情報がアンカーとして埋め込まれており、この逆変換情報には変換元の XMLデータの要素名が含まれている。

[0110] 例えば HTMLデータ 152に対して、 2004年度上期の予算を検索したい場合、検索例 153のように、検索キーワード 156として" 2004上期"ど'予算"を検索処理部 14 に入力すると、検索処理部 14は HTMLデータ 152のアンカー内の逆変換情報を検索し、検索キーワード 156と同じ文字列 154a、 154bを検出すると、対応する内部データ 155 (研削機一和戸を含む開始タグど' name"属性の文字列力 S"—_e"で終了する終了タグに挟まれたデータ）を検索結果 157として出力する。

[0111] 図 15の場合、 HTMLデータ 152に対する" 2004上期"ど'予算"という文字列を検索キーワードとすると、アンカー中の"/予算/ 2004上期予算"という逆変換情報が見つかるので、そのアンカーに対応する内部データである" 100万円"が検索結果 1 57として得られる。

[0112] 図 16は、検索処理部 14によって行なわれる検索処理を示すフローチャートである同図の処理が開始されると、まず検索処理部 14は、ステップ S51として、ユーザに検索条件として検索キーワードを入力させる。

[0113] 次に検索処理部 14は、検索対象となる HTMLデータ 133をメモリから読み出し、ステツプ S52として HTMLデータ 133から逆変換情報に対応するアンカー名（"name" 属性の文字列）を全て抽出する。

[0114] そして検索処理部 14は、ステップ S52で抽出した複数のアンカー名に対してステツプ S 51でユーザに入力させた検索キーワードを照合し、検索キーワードの文字列を含むものを抽出する。

[0115] その結果、検索キーワードの文字列を含むアンカー名が存在すれば（ステップ S54 、 Yes)、ステップ S56として、該当したアンカー名を含むアンカー及びそのアンカーと対応するアンカー（同一のアンカー名 + "_e "のアンカー名のアンカー）との間に含まれる文字列を検索結果として出力し、本処理を終了する。

[0116] またステップ S54において、検索キーワードの文字列を含むアンカー名が存在しなければ (ステップ S54、 No)、ステップ S55として検索結果として「該当無し」を出力し、処理を終了する。

[0117] この様に本実施形態における構造化データ変換装置によって変換した HTMLデータは、変換元の XMLデータと同様に検索処理を行なうことができる。

尚上記例では、検索処理を例として挙げている力本実施形態における構造化データ変換装置によって変換された変換結果である HTMLデータは、データ抽出や計算処理、独自処理等、検索以外の一般的に XMLデータに対する処理も同様にして行なうことが出来る。

[0118] また上記説明では、逆変換情報はアンカータグとして、変換結果の HTMLデータに坦め込んでいたが、 HTMLデータを Webブラウザによって表示したときに、坦め込んだ逆変換情報が表示されなければ、他の方法で坦め込んでも良い。

[0119] 図 17は、逆変換情報を HTMLのコメントタグ内に坦め込んだ場合の例を示す図である。

同図では、変換元の XMLデータ 171を変換定義 172に基づいて XMLデータ 173 に変換する際、埋め込む逆変換情報をコメント 175— 1〜： 175— 6として埋め込んでいる。この場合逆変換情報は、コメントタグ 175中の" < ！ ——"ど'——〉"との間に挟まれたコメント本文として坦め込まれる。

[0120] このコメント 175は、 Webブラウザでは読み飛ばされるので、コメント 175を坦め込んでも、表示結果 174には全く影響を与えない。

図 18は、本実施形態における構造化データ変換装置の構成要素である、変換処理部 11、逆変換処理部 12、部分逆変換処理部 13、及び検索処理部 14をソフトゥェァ的手法によって実現した場合の、これらの構成要素が実現されるコンピュータのシステム環境図である。

[0121] 同図のコンピュータは、 CPU181、主記憶装置 182、ハードディスク等の補助記憶装置 183、ディスプレイ、キーボード等の入出力装置（I/O) 184、モデム等のネットワーク接続装置 185及びディスク、磁気テープなどの可搬記憶媒体から記憶内容を読み出す媒体読み取り装置 186を有し、これらが互いにバス 187により接続される構成を備えている。

[0122] 図 12のコンピュータでは、媒体読み取り装置 186により磁気テープ、フレキシブルディスク、 CD-ROM, MO等の記憶媒体 188に記憶されているプログラム、データを読み出し、これを主記憶装置 182または補助記憶装置 183にダウンロードする。そしてこのプログラムやデータに基づいて、 CPU181が、上述した変換処理部 11、逆変換処理部 12、部分逆変換処理部 13、及び検索処理部 14の各機能をソフトウェア的に実現する。

[0123] また、図 18のコンピュータシステムでは、フレキシブルディスク等の記憶媒体 187を用いてアプリケーションソフトの交換が行われる場合がある。よって、本発明は、構造化データ変換装置や変換方法に限らず、コンピュータにより使用されたときに、上述した本発明の実施形態の機能をコンピュータに行なわせるためのコンピュータ読み出し可能な記憶媒体 187として構成することもできる。

[0124] この場合、「記憶媒体」には、例えば図 19に示されるように、 CD-ROM,フレキシブルディスク（あるいは MO、 DVD、リムーバブルハードディスク等であってもよレ、）等の媒体駆動装置 197に脱着可能な可搬記憶媒体 196や、ネットワーク回線 193経由で送信される外部の装置 (サーバ等）内の記憶部（データベース等） 192、あるいは情報処理装置 191の本体 194内のメモリ（RAM又はハードディスク等） 195等が含まれる。可搬記憶媒体 196や記憶部（データベース等） 192に記憶されているプロダラムは、本体 194内のメモリ（RAM又はハードディスク等） 195にロードされて、実行される。

[0125] また、既に説明した CD— ROMや DVD— ROM等の記憶媒体には、上記に例として挙げたものの他にも、例えば、 Blu-ray Disc (登録商標）や AOD (Advanced Optical Disc)などの青色レーザーを用いた次世代光ディスク記憶媒体、赤色レーザ一を用いる HD_DVD9、青紫色レーザーを用いる Blue Laser DVDなど、今後開発される種々の大容量記憶媒体を用いて本発明を実施することも可能である。

[0126] 本発明によれば、構造化文書を他のデータ構造に変換する際に、変換先のデザィン (データ構造）を別個に作成しておき、このデザインに殆ど手をいれずに変換に使うことが可能である。このため、データとデザインを分離して管理、再利用することが可能になる。

[0127] 尚上記例では XML文書と HTML文書を相互変換する場合を例として挙げたが、本実施形態における文書変換活用システムによる変換は、これに限定されるものではなぐ SGML文書から HTML文書への変換等、他の構造化文書間の変換も行なうことができる。

Claims

請求の範囲

[1] 第 1の構造化データを、当該第 1の構造化データとは別の言語によって記載された第 2の構造化データに変換する構造化データ変換装置であって、

前記第 1の構造化データを前記第 2の構造ィヒデータに変換する際に削除され、変換した前記第 2の構造化データを前記第 1の構造化データに逆変換する際に必要となるデータを、逆変換情報として前記第 1の構造化データから抽出する逆変換情報生成部と、

前記第 1の構造化データを前記第 2の構造化データに変換する際、前記逆変換情報を当該第 2の構造化データに埋め込む逆変換情報格納部と、

を有することを特徴とする構造化データ変換装置。

[2] 前記第 2の構造化データに坦め込まれている前記逆変換情報を用いて、前記第 2 の構造化データを前記第 1の構造ィヒデータに逆変換する逆変換部を更に備えることを特徴とする請求項 1に記載の構造化データ変換装置。

[3] 前記逆変換情報格納部は、変換後の前記第 2の構造化データを Webブラウザで表示した際に見た目に影響を与えない形で前記逆変換情報を坦め込むことを特徴とする請求項 1に記載の構造化データ変換装置。

[4] 前記第 2の構造化データは HTMLで記載されたデータであり、前記逆変換情報格納部は、前記逆変換情報を HTMLのアンカータグ内に坦め込むことを特徴とする請求項 3に記載の構造化データ変換装置。

[5] 前記第 2の構造化データは HTMLで記載されたデータであり、前記逆変換情報格納部は、前記逆変換情報を HTMLのコメントタグ内に埋め込むことを特徴とする請求項 3に記載の構造化データ変換装置。

[6] 前記逆変換情報生成部は、前記第 1の構造化データ内の要素の階層構造上での位置を示す情報を含む変換定義に基づいて前記逆変換情報を抽出することを特徴とする請求項 1に記載の構造化データ変換装置。

[7] 前記逆変換情報生成部は、前記第 1の構造ィ匕データが繰り返し構造を含むとき、当該繰り返し構造全体に対する前記逆変換情報を生成し、前記逆変換情報格納部は、当該逆変換情報を前記繰り返し構造全体に対応させて坦め込むことを特徴とする請求項 1に記載の構造化データ変換装置。

[8] 前記第 1の構造化データが繰り返し構造を含むとき、前記第 1の構造化データを前記第 2の構造化データに変換する際、当該繰り返し構造を表に変換することを特徴とする請求項 1に記載の構造化データ変換装置。

[9] ユーザからの指示に基づいて、前記第 2の構造化データから前記第 1の構造化データの一部を逆変換する部分逆変換部を更に備えることを特徴とする請求項 1に記載の構造化データ変換装置。

[10] 前記第 1の構造化データから変換した前記第 2の構造ィ匕データに対し、ユーザ力の検索条件に基づいて検索を行なう検索部を更に備えることを特徴とする請求項 1 に記載の構造化データ変換装置。

[11] 前記逆変換情報は、前記第 2の構造化データを前記第 1の構造化データに逆変換する際に最低限必要となる情報であることを特徴とする請求項 1に記載の構造ィ匕データ変換装置。

[12] 前記逆変換情報は、前記第 1の構造ィヒデータ内のタグのタグ名及びタグと要素内容との対応関係を示す情報であることを特徴とする請求項 11に記載の構造化データ変換装置。

[13] 前記第 1の構造化データは、 XMLで記載されたデータであり、前記第 2の構造ィ匕データは、 HTMLで記載されたデータであることを特徴とする請求項 1に記載の構造化データ変換装置。

[14] 第 1の構造化データを、当該第 1の構造化データとは別の言語で記載された第 2の構造ィヒデータに変換する構造ィヒデータ変換方法であって、

変換対象となる前記構造化データをメモリから読み出し、

前記第 1の構造化データを前記第 2の構造ィ匕データに変換する際に削除され、変換した前記第 2の構造化データを前記第 1の構造化データに逆変換する際に必要となるデータを、逆変換情報として前記第 1の構造化データ力抽出し、

前記第 1の構造化データを前記第 2の構造化データに変換する際、前記逆変換情報を当該第 2の構造ィヒデータに埋め込む

ことを特徴とする構造化データ変換方法。第 1の構造化データを、当該第 1の構造化データとは別の言語で記載された第 2の構造ィ匕データに変換するコンピュータで実行されたとき、

変換対象となる前記構造化データをメモリから読み出し、

前記第 1の構造化データを前記第 2の構造ィヒデータに変換する際、前記逆変換情報を当該第 2の構造ィヒデータに埋め込む

ことを前記コンピュータに実行させるプログラムを記憶した前記コンピュータが読み出し可能な可搬記憶媒体。