JP4689856B2 - 構造化文書変換装置 - Google Patents

構造化文書変換装置 Download PDF

Info

Publication number
JP4689856B2
JP4689856B2 JP2001099375A JP2001099375A JP4689856B2 JP 4689856 B2 JP4689856 B2 JP 4689856B2 JP 2001099375 A JP2001099375 A JP 2001099375A JP 2001099375 A JP2001099375 A JP 2001099375A JP 4689856 B2 JP4689856 B2 JP 4689856B2
Authority
JP
Japan
Prior art keywords
structured document
conversion
unit
name
partial area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001099375A
Other languages
English (en)
Other versions
JP2002297569A (ja
Inventor
宣子 井谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001099375A priority Critical patent/JP4689856B2/ja
Publication of JP2002297569A publication Critical patent/JP2002297569A/ja
Application granted granted Critical
Publication of JP4689856B2 publication Critical patent/JP4689856B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、XML文書などの構造化文書の構造変換に利用する構造化文書変換装置に関する。
【0002】
近年、インターネットを通じて複数のシステム、企業、個人が繋がれ、EDI(Electronic Data Interchange :電子取引)、EC(Electronic Commerce :電子商取引)、携帯電話サービスやデジタルテレビ向けのサービス、Webサービスなど、幅広いデータ交換が行われるようになってきている。このような状況に合わせて、計算機で扱うデータの形式を統一する動きがある。
【0003】
これまで、計算機あるいはアプリケーションによってばらばらであったデータ形式を異なる計算機、アプリケーションでも使用できるようにするものである。この統一のための規則はXML(eXtensible Markup Language)として1998年2月にW3C(World Wide Web Consortium )によって正式に勧告されている。XML規則は、同様の規則SGML(Stsndard Generated Markup Language)のサブセットになっている。
【0004】
また、XML文書をメモリ上のオブジェクトに展開し、そのオブジェクトを扱うインタフェースの規格DOM(Document Object Model )も1998年10月にW3Cによって勧告されている。
【0005】
【従来の技術】
従来、前記のように、XML文書などの構造化文書が知られていた。このような構造化文書において、以下では、XML規則に基づき、「<」と「>」で囲まれた文字列をタグ、「<文字列>」を開始タグ、「</文字列>」を終了タグ、開始タグと終了タグで挟まれた文字列を要素、タグ内に記述される要素の名前を要素名、要素に対する付加情報を属性と呼ぶようにする。
【0006】
構造化文書は、文書自身の中にタグを埋め込む形で、データ構造を記述する。データ構造をタグとして文書に埋め込んだ構成をとることにより、データ構造の柔軟性/拡張性の高さを持っている。また、タグを人が見て意味のあるテキストで記述することにより、それまで独立のシステムで扱っていたデータを他のシステムでも容易に扱うことができる。
【0007】
【発明が解決しようとする課題】
前記のような従来のものにおいては、次のような課題があった。例えばXML文書は、木構造のデータ構造をとることができ、深い階層も表現できる。また、階層構造の方が、人は整理し易く、データ操作にも間違いが少ない。しかし、処理システム上は、階層が深くなるにつれ、構造を表すためのメモリ量(記憶容量)が多く必要になり、データアクセス効率も悪くなる。
【0008】
本発明はこのような従来の課題を解決し、構造化文書の階層を浅くすることにより、動作記憶容量の削減を可能にすると共に、データアクセス効率を改善することを目的とする。
【0009】
【課題を解決するための手段】
本発明は前記の目的を達成するため、次のように構成した。
【0010】
(1) :構造化文書変換装置において、構造化文書を保持する構造化文書保持部と、構造化文書から予め定めた要素名の開始タグと終了タグに挟まれた部分領域を取得する部分領域取得部と、取得した部分領域を1層構造に変換する構造変換部と、構造化文書の部分領域を、変換した構造化文書に置き換えて出力する構造化文書出力部を備え、前記構造変換部は、部分領域の各要素を取得する要素取得手段と、前記部分領域から要素名を入れ子の内側から外側の順に取得する要素名取得手段と、取得した順に並べた要素名の間に予め区切りコードを挟んだ文字列を生成する文字列生成手段と、1層構造にしたときの要素名を、前記文字列生成手段により生成した文字列にする要素名生成手段と、生成した要素名のタグで各要素を挟んで構造化文書を生成する構造化文書生成手段とを有することを特徴とする。
【0015】
(作用)
(a) :前記(1) では、部分領域取得部が構造化文書保持部に保持している構造化文書から、予め定めた要素名の開始タグと終了タグに挟まれた部分領域を取得し、構造変換部が前記取得した部分領域を1層構造に変換する。そして、構造化文書出力部は、構造化文書の部分領域を、前記変換した構造化文書に置き換えて出力する。
【0016】
このようにして、構造化文書変換装置は、構造化文書の予め定めた要素名の開始タグと終了タグに挟まれた部分領域を1層構造に変換して出力する。従って、構造化文書の階層を浅くすることができ、動作記憶容量の削減を可能にすると共に、データアクセス効率を改善することができる。
【0017】
また、要素取得手段が部分領域の各要素を取得し、要素名取得手段が前記部分領域から要素名を入れ子の内側から外側の順に取得し、文字列生成手段が取得した順に並べた要素名の間に予め区切りコードを挟んだ文字列を生成し、要素名生成手段が1層構造にしたときの要素名を、前記文字列生成手段により生成した文字列にし、構造化文書生成手段が生成した要素名のタグで各要素を挟んで構造化文書を生成する。
【0018】
このようにして、構造変換部は1層構造にしたときの要素名を、入れ子になっている要素名を結合して生成する。従って、構造化文書の記述規則に準拠したままで構造化文書の階層を浅くすることができ、変換後の構造化文書を既存の構造化文書処理システムで扱え、動作記憶容量の削減を可能にすると共に、データアクセス効率を改善することができる。
【0020】
また、構造変換部は1層構造にしたときの要素名を、入れ子の内側から外側の順に要素名を並べ、間に予め区切りコードを挟んだものとする。従って、構造化文書の記述規則に準拠したままで構造化文書の階層を浅くすることができ、変換後の構造化文書を既存の構造化文書処理システムで扱え、動作記憶容量の削減を可能にすると共に、データアクセス効率を改善することができる。
【0023】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0024】
§1:構造化文書の構造変換の説明(その1)
構造化文書の構造変換説明図(その1)を図1に示し、構造化文書の構造変換説明図(その2)を図2に示す。図1、2において、(a) はテキストベースの変換、(b) はオブジェクトベースの変換、(c) はクエリーの変換を示す。
【0025】
図1、2に示した変換は、構造化文書の階層を浅くすることにより、動作記憶容量の削減を可能にすると共に、データアクセス効率を改善し、処理装置や処理システムの性能向上を図るための処理である。以下、具体例について前記構造変換処理を説明する。
【0026】
(1) :テキストベースの構造変換例
この構造変換例は、図1の(a) 図に示したように、テキストベースでの変換例であり、入れ子の外側の要素名とその内側の要素名を区切りコード(例えば、「−」)で繋ぎあわせて新しい要素名とすることによって構造変換を行う例である。この例では、元のデータの入れ子が3層になっていたのを、前記構造変換により入れ子を1階層に変換しており、構造化文書の階層を浅くすることができた。
具体的には次の通りである。
【0027】
図1の例では、「氏名」と「姓」を「−」で繋ぎ、「氏名」と「名」を「−」で繋ぐ。また、「会社」と「住所」と「郵便番号」を「−」で繋ぎ、「会社」と「住所」と「住所」を「−」で繋ぎ、「会社」と「電話」と「外線」を「−」で繋ぎ、「会社」と「電話」と「内線」を「−」で繋いでいる。このような変換により、3階層から1階層への構造変換が行われる。
【0028】
(2) :オブジェクトベースの構造変換例
図2の(b) 図において、「名簿」、「個人」、「氏名」、「会社」、「住所」、「電話」、「姓」、「名」、「郵便番号」、「住所」、「外線」、「内線」はそれぞれ「ノード」と呼び、前記「名簿」が「個人」の、「個人」が「氏名」及び「会社」の、「氏名」が「姓」及び「名」の「親ノード」であり、「姓」及び「名」が「氏名」の、「氏名」及び「会社」が「個人」の「子ノード」である。
【0029】
また、図の破線で囲まれた部分のように、1つのノードから派生して構成された木を「部分木」と呼び、一番元のノード、図では「個人」を「根」と呼び、「姓」、「名」、「郵便番号」、「住所」、「外線」、「内線」をそれぞれ「葉」と呼ぶ。
【0030】
この変換例は、図2の(b) 図に示したように、オブジェクトベースの変換例であり、親ノードの要素名とその子ノードの要素名を区切りコード(例えば、「−」)で繋ぎあわせて親ノードの層の要素名とすることによって構造変換を行う例である。この例では、元のデータの入れ子が3層になっていたのを、前記構造変換により入れ子を1階層に変換しており、構造化文書の階層を浅くすることができた。具体的には次の通りである。
【0031】
図の点線で囲まれた部分木内では、元のオブジェクトベースは3階層(例えば、「会社」、「電話」、「内線」)である。この3階層のクラスタ毎に図示矢印で示された構造変換を行うと、前記クラスタが1階層になる。
【0032】
この場合、「氏名」と「姓」が「−」で繋がれ、「氏名」と「名」が「−」で繋がれ、「会社」と「住所」と「郵便番号」が「−」で繋がれ、「会社」と「住所」と「住所」が「−」で繋がれ、「会社」と「電話」と「外線」が「−」で繋がれ、「会社」と「電話」と「内線」が「−」で繋がれている。このような変換により、3階層から1階層への構造変換が行われる。
【0033】
(3) :クエリーの変換
クエリーの変換では、予め保持している構造変換規則に従って、構造化文書に対するクエリーを変換してから文書処理に渡す処理を行う。例えば、図2の(c) 図に示した例では、「“個人”/“氏名”/“姓”」の3階層の下の要素内容を取得するための記述をクエリーの変換で「“個人−氏名−姓”」の要素内容を取得するための記述に変換する。
【0034】
§2:構造化文書の構造変換の説明(その2)
構造化文書の構造変換説明図(その3)を図3に示し、構造化文書の構造変換説明図(その4)を図4に示す。図3、4において、(a) はテキストベースの変換、(b) はオブジェクトベースの変換、(c) はクエリーの変換を示す。
【0035】
図3、4に示した変換は、前記図1、2の例とは逆に、入れ子の内側から外側へ、葉から根の方向へ並べた要素名を生成する構造変換例である。この場合にも、構造化文書の階層を浅くすることにより、動作記憶容量の削減を可能にすると共に、データアクセス効率を改善し、処理装置や処理システムの性能向上を図るための処理である。以下、具体例について前記構造変換処理を説明する。
【0036】
(1) :テキストベースの構造変換例
この構造変換例は、図3の(a) 図に示したように、テキストベースでの変換例であり、変換時に入れ子の内側から外側への方向へ要素名を並べる。なお、要素名の並べ方以外は図1の構造変換と同じである。
【0037】
図3の(a) 図では、変換後のテキストベースを示してあるが、元のデータは図1の(a) 図と同じである。
【0038】
前記変換後のテキストベースでは、「姓」と「氏名」を「−」で繋ぎ、「名」と「氏名」を「−」で繋ぐ。また、「郵便番号」と「住所」と「会社」を「−」で繋ぎ、「住所」と「住所」と「会社」を「−」で繋ぎ、「外線」と「電話」と「会社」を「−」で繋ぎ、「内線」と「電話」と「会社」を「−」で繋いでいる。このような変換により、3層から1層への構造変換が行われる。
【0039】
(2) :オブジェクトベースの構造変換例
この構造変換例は、図4の(b) 図に示したように、オブジェクトベースでの変換例であり、変換時に葉から根の方向へ要素名を並べる。なお、要素名の並べ方以外は図2の構造変換と同じである。図4の(b) 図では、変換後のオブジェクトデータを示してあるが、元のデータは図2と同じである。
【0040】
図4の(b) 図に示した例では、「姓」と「氏名」が「−」で繋がれ、「名」と「氏名」が「−」で繋がれ、「郵便番号」と「住所」と「会社」が「−」で繋がれ、「住所」と「住所」と「会社」が「−」で繋がれ、「外線」と「電話」と「会社」が「−」で繋がれ、「内線」と「電話」と「会社」が「−」で繋がれている。このような変換により、3階層から1階層への構造変換が行われる。
【0041】
(3) :クエリーの変換
クエリーの変換では、予め保持している構造変換規則に従って、構造化文書に対するクエリーを変換してから文書処理に渡す。例えば、図3の(c) 図に示した例では、“姓”の要素内容を取得するための記述を、クエリーの変換で“姓*”の要素内容を取得するための記述に変換する。なお、前記「*」は、前方一致の記号であり、「姓」に続く文字は何でも良いことを表している。
【0042】
§3:構造化文書変換装置及びクエリー変換装置の説明
装置の説明図図5に示す。図5において、(a) 図はテキストベースの構造変換装置、(b) はオブジェクトベースの構造変換装置、(c) はクエリーの変換装置を示す。
【0043】
(1) :テキストベースの構造変換装置
テキストベースの構造変換装置は、構造化文書を保持する構造化文書保持部1と、構造化文書保持部1が保持している構造化文書から、予め定めた要素名の開始タグと終了タグに挟まれた部分領域を取得する部分領域取得部2と、部分領域取得部2が取得した部分領域を1階層構造に変換する構造変換部3と、構造化文書の部分領域を、変換した構造化文書に置き換えて出力する構造化文書出力部4と、取得する部分領域を指定する部分領域指定部5(詳細は後述する)を備え、構造化文書の予め定めた要素名の開始タグと終了タグに挟まれた部分領域を1層構造に変換する。
【0044】
なお、前記テキストベースの構造変換装置は、パーソナルコンピュータ、ワークステーション等の任意のコンピュータにより実現される装置であり、前記構造化文書保持部1、部分領域取得部2、構造変換部3、構造化文書出力部4、部分領域指定部5は、それぞれ前記コンピュータのCPUがプログラムを実行することにより実現するものである。
【0045】
この装置の処理は次の通りである。構造化文書保持部1に、予め、変換対象の構造化文書を保持しておく。そして、部分領域取得部2は、部分領域指定部5から指定情報を受け取ると、構造化文書保持部1の構造化文書から、前記指定情報で指定された部分領域を取得し、構造変換部3が、前記取得した部分領域に対し、構造変換を行う。
【0046】
そして、構造化文書出力部4は、前記構造変換部3が変換した部分領域のデータを取り込むと共に、前記変換対象の部分領域以外のデータをそのまま構造化文書保持部1から取り出す。そして、前記構造化文書の部分領域を、前記変換した構造化文書に置き換えて出力する。
【0047】
(2) :オブジェクトベースの構造変換装置
オブジェクトベースの構造変換装置は、構造化文書をメモリ上で木構造に展開したオブジェクトを保持するオブジェクト保持部11と、前記木構造から、予め定めた部分木を取得する部分木取得部12と、取得した部分木を1階層の木に変換する構造変換部13と、木構造の指定部分木を、変換した部分木に置き換えて出力するオブジェクト出力部14と、取得する部分木を指定する部分木指定部15(詳細は後述する)を備え、構造化文書をメモリ上に展開した木構造の予め定めた部分木を1階層の木に変換する。
【0048】
なお、前記オブジェクトベースの構造変換装置は、パーソナルコンピュータ、ワークステーション等の任意のコンピュータにより実現される装置であり、前記オブジェクト保持部11、部分木取得部12、構造変換部13、オブジェクト出力部14、部分木指定部15は、それぞれ前記コンピュータのCPUがプログラムを実行することにより実現するものである。
【0049】
この装置の処理は次の通りである。オブジェクト保持部11に、予めオブジェクトデータを保持しておく。そして、部分木取得部12は、部分木指定部15から指定情報を受け取ると、オブジェクト保持部11のオブジェクトデータから、前記指定情報で指定された部分木を取得し、構造変換部13は、前記取得した部分木に対し、構造変換を行う。
【0050】
そして、オブジェクト出力部14は、前記構造変換部13が変換した部分木のデータを取り込むと共に、前記変換対象の部分木以外のデータをそのままオブジェクト保持部11から取り出す。そして、前記オブジェクトデータの部分木を、前記変換したオブジェクトデータに置き換えて出力する。
【0051】
(3) :クエリーの構造変換装置
クエリーの構造変換装置は、構造変換規則を保持する構造変換規則保持部24と、前記構造変換規則に従って、クライアント21から依頼されたクエリーを変換するクエリー変換部22を持ち、構造変換規則に従って、構造化文書に対するクエリーを変換してからデータベース処理部23に渡す。
【0052】
この場合のシステム(構造化文書処理システム)は、例えば、クライアント・サーバ−システムであり、クライアント21からサーバへのクエリーの変換要求に応じて、サーバ(クエリー変換装置に対応)側でクエリーの変換処理を行う。そして、データベース処理部23が、クエリーの変換後のデータに応じて、サーバのデータベースからデータを取得し、クライアントへ返す。
【0053】
なお、前記クエリー変換部22、データベース処理部23、データベースは、それぞれサーバ側の処理手段であり、例えば、サーバのCPUがプログラムを実行することにより実現するものである。また、前記構造変換規則保持部24は、例えば、サーバのハードディスク装置で構成する。
【0054】
クエリーの構造変換装置の処理は次の通りである。先ず、構造変換規則保持部24に、予め、クエリーの変換を行う際の構造変換規則を格納しておく。この状態でクライアント21からサーバに対してクエリーの要求が出されると、サーバのクエリー変換部22は、構造変換規則保持部24を参照し、該規則に従って、クエリーの変換を行い、データベース処理部23に変換後のデータを渡す。データベース処理部23は、クエリーの変換後のデータを受け取ると、そのデータに応じてデータベースからデータを取得し、クライアントへ返す。
【0055】
§4:属性変換の説明
属性変換の説明図を図6に示す。図6において、(a) 図は属性の変換、(b) 図は一層構造への変換を示す。なお、この例は、テキストベースの変換例であり、元のテキストデータを、図示矢印で示す方向への属性変換をしている。
【0056】
この例では、要素“姓”の属性だった“かな”を、“姓”の下層の要素名にしている。このデータをさらに階層を一層に構造変換すると、図6の(a) 図のようになる。
【0057】
また、図6の(a) 図に示す変換後のデータを、更に、図1に示す「一層構造への変換」を行った場合のデータを図6の (b)図に示す。
【0058】
§5:部分領域指定部/部分木指定部の説明
部分領域指定部/部分木指定部の説明図を図7に示す。図7において、(a) 図は部分領域取得部、 (b)図は部分木取得部を示す。
【0059】
(1) :前記図5の(a) 図に示す部分領域指定部5は、小部分領域取得部31が前記構造化文書保持部1から構造化文書中の小部分領域を取得し、保持部32が保持する。その後、構造検索部33が前記保持部32と同じ構造をしている領域を検索する。
【0060】
この場合、構造検索部33は、構造化文書中の小さな部分領域から始まり、同じ要素名を持つデータ構造が検索できたか否かを判断し、同じ要素名を持つデータ構造が検索できた場合、部分領域拡大部35は、部分領域を一回り大きくし、更に、構造検索部33が同じ要素名を持つデータ構造を検索する。
【0061】
この検索は同じデータ構造が見つからなくなるまで、これを繰り返す。このようにして決定した繰り返し出現しているデータ構造を、前記一層構造への構造変換の対象として、部分領域取得部2へ渡す。
【0062】
なお、前記の例は、部分領域の指定をプログラムの実行により自動的に行う例であるが、このような例に限らず、人手により行うことも可能である。この場合、部分領域指定部5に、テーブルデータを設定しておき、このテーブルデータを部分領域取得部2が参照することで、指定された部分領域を取得することも可能である。
【0063】
(2) :前記図5の(b) に示す部分木指定部15は、小部分木取得部41が前記オブジェクト保持部11からオブジェクトデータの小部分木を取得し、保持部42が保持する。その後、構造検索部43が保持部42のデータを検索する。この場合、構造検索部43は、オブジェクトデータベース中の小さな部分木から始まり、同じ要素名を持つデータ構造が検索できたか否かを判断し、同じ要素名を持つデータ構造が検索できた場合、部分領域拡大部45は部分木を一回り大きくし、更に、構造検索部43が同じ要素名を持つデータ構造を検索する。
【0064】
この検索は同じデータ構造が見つからなくなるまで、これを繰り返す。このようにして検索した繰り返し出現しているデータ構造を、前記一層構造への構造変換の対象として、部分木取得部12へ渡す。なお、DTD(Document Type Definition;文書型定義)やスキーマから使用されるデータ構造を解析し、構造変換の対象としてもよい。
【0065】
また、この場合にも、部分木の指定をプログラムの実行により自動的に行う例であるが、このような例に限らず、人手により行うことも可能である。この場合、部分木指定部15に、テーブルデータを設定しておき、このテーブルデータを部分木取得部12が参照することで、指定された部分木を取得することも可能である。
【0066】
前記の説明に対し、次の構成を付記する。
【0067】
(付記1) 構造化文書を保持する構造化文書保持部と、
構造化文書から予め定めた要素名の開始タグと終了タグに挟まれた部分領域を取得する部分領域取得部と、
取得した部分領域を1層構造に変換する構造変換部と、
構造化文書の部分領域を、変換した構造化文書に置き換えて出力する構造化文書出力部を備え、
構造化文書の予め定めた要素名の開始タグと終了タグに挟まれた部分領域を1層構造に変換することを特徴とする構造化文書変換装置。
【0068】
(付記2) 前記構造変換部は、部分領域の各要素を取得する要素取得手段と、 各要素について入れ子になっている要素名を取得する要素名取得手段と、
取得した要素名を結合して新しい要素名を生成する要素名生成手段と、
生成した要素名のタグで各要素を挟んで構造化文書を生成する構造化文書生成手段を備え、
1層構造にしたときの要素名を、入れ子になっている要素名を結合して生成することを特徴とする(付記1)記載の構造化文書変換装置。
【0069】
(付記3) 前記部分領域から要素名を入れ子の内側から外側の順に取得する要素名取得手段と、
取得した順に並べた要素名の間に予め区切りコード挟んだ文字列を生成する文字列生成手段を備え、
1層構造にしたときの要素名を、入れ子の内側から外側の順に要素名を並べ、間に予め区切りコードを挟んだものとすることを特徴とする(付記2)記載の構造化文書変換装置。
【0070】
(付記4) 構造化文書処理システムにおいて、構造化文書に対するクエリーを変換するクエリー変換装置であって、
構造変換規則を保持する構造変換規則保持部と、
構造変換規則に従ってクエリーを変換するクエリー変換部を備え、
構造変換規則に従って、構造化文書に対するクエリーを変換してから文書処理に渡すことを特徴とするクエリー変換装置。
【0071】
(付記5) 属性を持っているタグを検出する属性付タグ検出部と、
属性をその要素の下層の要素名に、属性値を要素に変換する属性変換部を備え、
属性を持っているタグを検出し、属性をそのタグの下層の要素に変換することを特徴とする構造化文書変換装置。
【0072】
(付記6) 構造化文書をメモリ上で木構造に展開したオブジェクトを保持するオブジェクト保持部と、
木構造から予め定めた部分木を取得する部分木取得部と、
取得した部分木を1階層の木に変換する構造変換部と、
木構造の指定部分木を、変換した部分木に置き換えて出力するオブジェクト出力部を備え、
構造化文書をメモリ上に展開した木構造の予め定めた部分木を1階層の木に変換することを特徴とする構造化文書変換装置。
【0073】
(付記7) 前記構造変換部において、取得した部分木の各要素を取得する要素取得手段と、
各要素について部分木の根から各要素に対応付けられた節点への経路にある要素名を取得する要素名取得手段と、
取得した要素名を結合して新しい要素名を生成する要素名生成手段と、
生成した要素名を1階層の木の節点とした部分木を生成する部分木生成手段を備え、
1階層の木に変換したときの要素名を、部分木の根からの経路にある要素名を結合して生成したものとすることを特徴とする(付記6)記載の構造化文書変換装置。
【0074】
(付記8) 前記部分木から要素名を部分木の葉から根の方向に取得する手段と、
取得した順に並べた要素名の間に区切りコードを挟んだ文字列を生成する手段を備え、
1階層の木としたときの要素名を、部分木の葉から根の方向に順に並べ、予め定めた区切りコードを挟んだものとすることを特徴とする(付記6)記載の構造化文書変換装置。
【0075】
(付記9) 前記構造化文書から繰り返し出現しているデータ構造を検出し、検出した部分木を、前記構造変換対象とすることを特徴とする(付記1)又は(付記6)記載の構造化文書変換装置。
【0076】
【発明の効果】
以上説明したように、本発明によれば次のような効果がある。
【0077】
(1) :構造化文書の階層を浅くすることにより、データアクセス効率の改善、動作記憶容量の削減が期待できる。
【0078】
(2) :人が設計する際には、理解しやすい階層構造を扱え、計算機上では、効率のいいフラットに近い形でデータを扱える。
【0079】
(3) :請求項1では、部分領域取得部が構造化文書保持部に保持している構造化文書から、予め定めた要素名の開始タグと終了タグに挟まれた部分領域を取得し、構造変換部が前記取得した部分領域を1層構造に変換する。そして、構造化文書出力部は、構造化文書の部分領域を、前記変換した構造化文書に置き換えて出力する。
【0080】
このようにして、構造化文書変換装置は、構造化文書の予め定めた要素名の開始タグと終了タグに挟まれた部分領域を1層構造に変換して出力する。従って、構造化文書の階層を浅くすることができ、動作記憶容量の削減を可能にすると共に、データアクセス効率を改善することができる。
【0081】
また、要素取得手段が部分領域の各要素を取得し、要素名取得手段が前記部分領域から要素名を入れ子の内側から外側の順に取得し、文字列生成手段が取得した順に並べた要素名の間に予め区切りコードを挟んだ文字列を生成し、要素名生成手段が1層構造にしたときの要素名を、前記文字列生成手段により生成した文字列にし、構造化文書生成手段が生成した要素名のタグで各要素を挟んで構造化文書を生成する。
【0082】
このようにして、構造変換部は1層構造にしたときの要素名を、入れ子になっている要素名を結合して生成する。従って、構造化文書の階層を浅くすることができ、動作記憶容量の削減を可能にすると共に、データアクセス効率を改善することができる。
【0084】
また、構造変換部は1層構造にしたときの要素名を、入れ子の内側から外側の順に要素名を並べ、間に予め区切りコードを挟んだものとする。従って、構造化文書の階層を浅くすることができ、動作記憶容量の削減を可能にすると共に、データアクセス効率を改善することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態における構造化文書の構造変換説明図(その1)であり、(a) 図はテキストベースを示す。
【図2】本発明の実施の形態における構造化文書の構造変換説明図(その2)であり、 (b)図はオブジェクトベース、(c) 図はクエリーの変換を示す。
【図3】本発明の実施の形態における構造化文書の構造変換説明図(その3)であり、(a) 図はテキストベース、(c) 図はクエリーの変換を示す。
【図4】本発明の実施の形態における構造化文書の構造変換説明図(その4)であり、(b) 図はオブジェクトベースを示す。
【図5】本発明の実施の形態における構造化文書変換装置を示した図であり、(a) 図はテキストベースの構造変換装置、(b) 図はオブジェクトベースの構造変換装置、(c) 図はクエリーの構造変換装置を示す。
【図6】本発明の実施の形態における属性の変換説明図であり、(a) 図は属性の変換、(b) 図は一層構造への変換を示す。
【図7】本発明の実施の形態における部分領域指定部/部分木指定部の説明図であり、(a) 図は部分領域指定部、(b) 図は部分木指定部を示す。
【符号の説明】
1 構造化文書保持部
2 部分領域取得部
3 構造変換部
4 構造化文書出力部
5 部分領域指定部
11 オブジェクト保持部
12 部分木取得部
13 構造変換部
14 オブジェクト出力部
15 部分木指定部
21 クライアント
22 クエリー変換部
23 データベース処理部
24 構造変換規則保持部
25 データベース
31 小部分領域取得部
32 保持部
33 構造検索部
34 対象部分領域決定部
35 部分領域拡大部
41 小部分木取得部
42 保持部
43 構造検索部
44 対象部分木決定部
45 部分木拡大部

Claims (1)

  1. 構造化文書を保持する構造化文書保持部と、
    構造化文書から予め定めた要素名の開始タグと終了タグに挟まれた部分領域を取得する部分領域取得部と、
    取得した部分領域を1層構造に変換する構造変換部と、
    構造化文書の部分領域を、変換した構造化文書に置き換えて出力する構造化文書出力部を備え、
    前記構造変換部は、部分領域の各要素を取得する要素取得手段と、
    前記部分領域から要素名を入れ子の内側から外側の順に取得する要素名取得手段と、
    取得した順に並べた要素名の間に予め区切りコードを挟んだ文字列を生成する文字列生成手段と、
    1層構造にしたときの要素名を、前記文字列生成手段により生成した文字列にする要素名生成手段と、
    生成した要素名のタグで各要素を挟んで構造化文書を生成する構造化文書生成手段、
    とを有することを特徴とする構造化文書変換装置。
JP2001099375A 2001-03-30 2001-03-30 構造化文書変換装置 Expired - Fee Related JP4689856B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001099375A JP4689856B2 (ja) 2001-03-30 2001-03-30 構造化文書変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001099375A JP4689856B2 (ja) 2001-03-30 2001-03-30 構造化文書変換装置

Publications (2)

Publication Number Publication Date
JP2002297569A JP2002297569A (ja) 2002-10-11
JP4689856B2 true JP4689856B2 (ja) 2011-05-25

Family

ID=18952918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001099375A Expired - Fee Related JP4689856B2 (ja) 2001-03-30 2001-03-30 構造化文書変換装置

Country Status (1)

Country Link
JP (1) JP4689856B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4184155B2 (ja) * 2003-05-22 2008-11-19 シャープ株式会社 データ処理装置、データ処理方法、データ処理プログラム、およびデータ処理プログラムを記録したコンピュータ読取可能な記録媒体
WO2004104857A1 (ja) * 2003-05-22 2004-12-02 Sharp Kabushiki Kaisha データ処理装置、データ処理方法、データ処理プログラム、およびデータ処理プログラムを記録したコンピュータ読取可能な記録媒体
JP4177218B2 (ja) * 2003-09-24 2008-11-05 株式会社エヌ・ティ・ティ・ドコモ 文書変換装置
JP5478936B2 (ja) 2009-05-13 2014-04-23 キヤノン株式会社 情報処理装置、情報処理方法
JP5321519B2 (ja) * 2010-03-30 2013-10-23 ブラザー工業株式会社 携帯端末、プログラム、解析処理方法
JP5296128B2 (ja) * 2011-03-18 2013-09-25 株式会社東芝 構造化文書管理装置、方法およびプログラム
JP6991100B2 (ja) * 2018-05-16 2022-01-12 三菱電機株式会社 データベース構成管理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212985A (ja) * 1998-01-22 1999-08-06 Fujitsu Ltd 情報ライブラリ装置
JP2000076155A (ja) * 1998-09-01 2000-03-14 Mitsubishi Materials Corp Htmlドキュメント圧縮・展開・表示方式
JP2001067348A (ja) * 1999-06-21 2001-03-16 Fujitsu Ltd 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212985A (ja) * 1998-01-22 1999-08-06 Fujitsu Ltd 情報ライブラリ装置
JP2000076155A (ja) * 1998-09-01 2000-03-14 Mitsubishi Materials Corp Htmlドキュメント圧縮・展開・表示方式
JP2001067348A (ja) * 1999-06-21 2001-03-16 Fujitsu Ltd 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体

Also Published As

Publication number Publication date
JP2002297569A (ja) 2002-10-11

Similar Documents

Publication Publication Date Title
AU2004237062B2 (en) Retaining hierarchical information in mapping between XML documents and relational data
US6941511B1 (en) High-performance extensible document transformation
US7346598B2 (en) Schemaless dataflow within an XML storage solution
KR100461019B1 (ko) 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
JP5320438B2 (ja) Xmlデータ記憶、クエリー再書込、ビジュアライゼーション、マッピング、および参照のための方法および装置
US8972489B2 (en) Providing a client interface for a server-based web application programming interface
US20040205585A1 (en) XML storage solution and data interchange file format structure
US9535966B1 (en) Techniques for aggregating data from multiple sources
US20070028163A1 (en) Lightweight application program interface (API) for extensible markup language (XML)
JP2008052662A (ja) 構造化文書管理システム及びプログラム
JP2004178602A (ja) 階層構造化データをインポートし、エクスポートする方法及びコンピュータ可読媒体
JP2008234357A (ja) 構造化文書検索システム、プログラム及び索引のデータ構造
US20060149767A1 (en) Searching for data objects
US7333994B2 (en) System and method for database having relational node structure
JP4689856B2 (ja) 構造化文書変換装置
KR101416712B1 (ko) 정형 및 비정형 데이터를 xml 문서에 구현하는 방법
JP2009544102A (ja) Xml文書の、意味論を意識した処理
JP2006127235A (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム
JP5264905B2 (ja) マルチメディア検索のためのクエリ表現装置および方法
US7792855B2 (en) Efficient storage of XML in a directory
US7805424B2 (en) Querying nested documents embedded in compound XML documents
JP2013218627A (ja) 構造化文書からの情報抽出方法、装置、及びプログラム
Abdel-Aziz et al. Mapping XML DTDs to relational schemas
JP2000322167A (ja) データ管理システムおよびデータ属性表示方法
JP2008140157A (ja) 構造化文書処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101012

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101012

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees