JP2003150586A - 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2003150586A
JP2003150586A JP2001346736A JP2001346736A JP2003150586A JP 2003150586 A JP2003150586 A JP 2003150586A JP 2001346736 A JP2001346736 A JP 2001346736A JP 2001346736 A JP2001346736 A JP 2001346736A JP 2003150586 A JP2003150586 A JP 2003150586A
Authority
JP
Japan
Prior art keywords
document
conversion
type definition
structured
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001346736A
Other languages
English (en)
Inventor
Hidemoto Suzuki
偉元 鈴木
Norihiro Ishikawa
憲洋 石川
Hidetoshi Ueno
英俊 上野
Hiromitsu Sumino
宏光 角野
Tsuyoshi Kato
剛志 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2001346736A priority Critical patent/JP2003150586A/ja
Priority to CA002411459A priority patent/CA2411459A1/en
Priority to EP02025041A priority patent/EP1313032A1/en
Priority to AU2002301951A priority patent/AU2002301951B2/en
Priority to TW091133064A priority patent/TWI267004B/zh
Priority to US10/291,568 priority patent/US7139975B2/en
Priority to CN02149391A priority patent/CN1419211A/zh
Priority to CNA2004100969539A priority patent/CN1612136A/zh
Priority to KR10-2002-0070022A priority patent/KR100486138B1/ko
Publication of JP2003150586A publication Critical patent/JP2003150586A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Abstract

(57)【要約】 【課題】 文書構造変換において出力する文書データを
変換後の文書型定義に従った妥当なものとなるように出
力し、妥当性検証のステップを省略することによって、
文書変換にかかる全体の時間を短縮する。 【解決手段】 本発明は、第1の文書型定義D1に基づ
いて形成された第1の構造化文書F1を第2の文書型定
義D2に基づいて形成された第2の構造化文書F3に変
換する文書変換方法であって、文書型定義D1及び文書
型定義D2を解析し、相違する文書型定義を抽出し、解
析の結果に応じて、文書変換処理の処理結果である構造
化文書F3が文書型定義D2に矛盾することのないよう
な変換ルールを記述した変換テンプレートT2を生成
し、変換テンプレートT2を用いて文書変換処理を行
う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、第1の文書型定義
に基づいて形成された第1の構造化文書を第2の文書型
定義に基づいて形成された第2の構造化文書に変換する
文書変換システム、変換方法、変換プログラムを記録し
たコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】従来より、テキスト文書ファイルなどに
おけるテキストデータを単なる文字列として扱うだけで
なく、文書のレイアウトや属性等の論理構造を表現する
ことのできる構造化文書が提案されている。この構造化
文書の形式としては、例えば、ISO(International Sta
ndardization Organization)規格8879のSGMLやW3C(Wo
rld wide Web Consortium)が仕様を制定したXMLがあ
る。SGMLやXMLでは、文書の論理構造を文書型定義(DT
D: Document Type Definition)により指定し、表題、
著者名、序文、及び本文のような文書構成要素としての
役割を、文書タグと呼ばれる構造要素織別子を用いて表
現することができる。
【0003】構造化文書では、構造識別子に対して、そ
れぞれ固有の意味や役割等の特性を持たせる必要がある
場合があり、この特性を示すために、構造識別子に付加
情報(属性)を付加することができる。
【0004】また、構造化文書を画面に表示、或いは紙
に印刷するための書式情報を記述するためのスタイルシ
ートの形式が提案されている。スタイルシートの形式と
しては、例えばISO規格10179のDSSSL(Document Style
Semantics and Specification Language)やW3Cが策定
したXSL(eXtensible Stylesheet Language)がある。
【0005】DSSSLやXSLでは、SGMLやXMLを構成する構
造識別子に対する条件を表現するパターンとそのパター
ンを満たす構造識別子に対するアクションの組を指定す
ることにより、文書の書式情報を記述する。
【0006】また、スタイルシートは書式情報を与える
と同時に文書構造を変換する仕組みを持つ。XSLのう
ち、構造化文書の特定のパターンを取りだす仕様をXSLT
(XSL Transformation)という。XSLTの機能を利用すれ
ば、XML文書を所定の条件に従って変換し、例えばHTML
などの別形式の文書として出力することができる。
【0007】構造化文書は、文書データ(テキスト)を
構造的に意味のある単位に分割して要素と属性を用いて
マーク付けを行ったものである。XMLにおいて、文書デ
ータの構造を定義する方法をスキーマといい、スキーマ
の定義には文書型定義(DTD)を使うのが一般的であ
る。スキーマは、文書を構成する要素がどんな要素をど
の順序で何回内容として持つのか、またどんな属性を持
つのかを定義する。構造化文書はそれだけではデータの
定義がないため、例えば何らかの理由でデータが欠落し
ても、そのエラーを自動的にチェックすることができな
い。そこで、データの表示やデータ交換をするためには
文書型定義を行い、定義に従った文書を記述する必要が
ある。
【0008】図11は、XMLで記述された構造化文書F
1を例に、従来の文書変換の処理フローの一例を示した
ものである。同図に示すように、一般に、構造化文書の
変換処理は、主として文書構造変換処理S101と、妥
当性検証処理S102の2つのステップからなる。
【0009】文書構造変換処理S101は、パターンマ
ッチング的に要素や属性を抜き出して新しい要素や属性
に置換したり、新たな要素、属性、テキストを追加する
ことによって新しい文書を作成するステップであり、変
換テンプレートT1に記述された変換ルールに基づいて
行われる。この変換テンプレートT1は、構造変換のル
ールは予めXSLファイル(変換テンプレートT1)とし
て作成しておく。なお、文書構造変換処理S101のた
めのXSLT変換エンジンには、既存の公開ソフトウェア
(Xalan-C++等)を使用することができる。
【0010】妥当性検証処理S102は、XSLT変換処理
の出力結果(構造化文書F2)が変換後の文書型定義D
2に従っていることを確認するステップであり、変換後
の文書型定義D2と既存の公開ソフトウェア(XML4C
等)を用いて実施する。妥当性検証処理S102の結果
から、OKとなれば新しい構造化文書F3の完成であ
り、NGとなればエラー内容に基づき、構造化文書F2
について文書構造修正処理S104を行い、改めて妥当
性検証処理S102を実施する。
【0011】図12(a)は、文書型定義D1で定義さ
れた構造化文書F1を変換テンプレートT1に基づいて
構造化文書F3に変換する従来例を示す説明図である。
同図では、1回目の変換()後の構造化文書F2は、
文書型定義D2に矛盾しており、その矛盾を修正()
して構造化文書F3を生成している。また、図12
(a)の文書例において、UL要素及びul要素は番号無し
の箇条書き段落(順不同リスト)を定義し、各箇条書き
項目は下位のLI要素及びli要素によってそれぞれ定義さ
れる。
【0012】変換後の要素では、ul要素及びli要素がそ
れぞれUL要素とLI要素に対応する例である。変換前の構
造化文書F1では、3つの箇条書きからなるリストを記
述する。矛盾を含む変換後の構造化文書F2は単純に対
応する要素が置換されている。
【0013】ここで、変換後の文書型定義D2におい
て、ul要素の下位には、li要素がただ1つしか定義でき
ないといったルールが定めてあった場合、変換後の構造
化文書F2において、各li要素を別々のul要素の子要素
とする(それぞれulタグの入れ子で囲み直す)ことによ
って、変換後の文書型定義D2に合致する妥当な構造化
文書F3に修正している。
【0014】図12(b)は、従来の変換テンプレート
T1の記述例である。同図に示すように、変換前の構造
化文書F1から矛盾を含む変換後の構造化文書F2への
変換()に関する変換ルールとなっている。
【0015】以下、変換テンプレートT1の処理内容に
ついて説明する。変換テンプレートT1はそれぞれパタ
ーン指定とテンプレート指定の2つの部分からなる。
【0016】変換処理では、構造化文書の中からパター
ン指定によって指示された文書パターン(タグ)を抽出
し、この抽出した文書パターンに対して、テンプレート
指定によって指示された処理内容に従って、追加、削
除、置換処理を行い、新しい文書を生成する。
【0017】従来の変換テンプレートT1において、<x
sl:template match>、<xsl:apply-template>、<xsl:val
ue-of>はそれぞれXSL仕様で定義された要素の一つであ
る。
【0018】<xsl:template match>を使った(1)及び(3)
はそれぞれのパターン指定であり、(1)ではUL要素を、
(3)ではLI要素の抽出を意味する。また、(2)及び(4)は
テンプレート指定である。まず、(1)のパターン指定に
従って、UL要素を抽出し、(2)のテンプレート指定を実
施する。
【0019】(2)のテンプレート指定は、先ずulの開始
タグを記述し、LI要素に対するテンプレートルールの処
理を行った後に、ulの終了タグを記述することを意味す
る。LI要素に対するテンプレートルールは(3)及び(4)で
あり、(3)のパターン指定によってLI要素を抽出する。
次に、(4)のテンプレート指定によって、先ずliの開始
タグを記述し、LI要素以下をテキストに変換して記述
し、最後にliの終了タグを記述することを意味する。変
換前の文書301では、LI要素が3つあるため、上記の
(3)のパターン指定に該当する3箇所が抽出され、それ
ぞれ(4)のテンプレート指定の処理を実施して、処理が
完了する。
【0020】
【発明が解決しようとする課題】しかしながら、上述し
たように、変換前の文書型定義D1が変換後の文書型定
義D2と矛盾する仕様(例えば、変換後の文書型定義D
2において禁止されている仕様)を含む場合、変換テン
プレートT1に従って、要素や属性を抽出し、対応する
要素や属性へ置換(変換)や追加を行っただけでは、変
換後の文書型定義D2と矛盾する文書構造を残してしま
うという問題がある。
【0021】また、従来の構造化文書変換方法では、文
書構造変換処理S101と妥当性検証処理S102の2
つのステップはどちらも文書データのルート要素から順
番に末端までデータ構造に従って要素や属性をサーチす
るため、文書修正処理S104の回数に伴って、処理に
時間がかかるという問題点があった。
【0022】また、妥当性検証処理S102において、
NGとなった場合には、NG内容に基づいて文書構造修
正処理S104をオフラインで行わなければならないと
いう問題があった。
【0023】そこで、本発明は、上記問題点を鑑みてな
されたものであり、文書構造変換において出力する文書
データを変換後の文書型定義に従った妥当なものとなる
ように出力し、妥当性検証のステップを省略することに
よって、文書変換にかかる全体の時間を短縮することを
目的とする。
【0024】
【課題を解決するための手段】上記課題を解決するため
に本発明は、第1の文書型定義に基づいて形成された第
1の構造化文書を第2の文書型定義に基づいて形成され
た第2の構造化文書に変換する際に、前記第1の文書型
定義及び前記第2の文書型定義を解析し、相違する文書
型定義を抽出し、前記解析の結果に応じて、文書変換処
理の処理結果である前記第2の構造化文書が前記第2の
文書型定義に矛盾することのないような変換ルールを記
述した変換テンプレートを生成し、前記変換テンプレー
トを用いて文書変換処理を行うことを特徴とする。
【0025】本発明によれば、変換後(第2)の文書型
定義に違反する出力ロジックがあれば、それを修正する
ための処理内容を変換テンプレートに反映しておくこと
により、文書構造変換処理結果である第2の構造化文書
が変換後の文書型定義に従った妥当なものとすることが
できる。この結果、従来行っていた、変換後における妥
当性検証ステップを省略することができ、文書変換にか
かる全体の時間を短縮することができる。
【0026】
【発明の実施の形態】(文書変換方法)以下、本発明の
文書変換方法の実施形態について説明する。図1は、本
実施形態に係る文書変換方法の概要を示す概念図であ
る。
【0027】同図に示すように、変換テンプレートT2
は、変換前の文書型定義(第1の文書型定義)D1と、
変換後の文書型定義(第2の文書型定義)D2を解釈し
て、変換後の文書型定義D2に従った結果を出力するた
めに妥当な変換ルールが記述されたものである。文書構
造変換処理S101では、変換テンプレートT2の記述
にしたがって、変換前の構造化文書(第1の構造化文
書)F1の文書構造を変換し、新しい構造化文書(第2
の構造化文書)F3を生成する。
【0028】かかる変換テンプレート2は、以下の手順
により作成することができる。なお、本実施形態におい
て、変換前の文書型定義D1及び変換後の文書型定義D
2は、XMLやHTMLなど、文書を構成する文字列の
論理構造を定義する識別子(マークタグ)を有する文書
データである。
【0029】ここでは、予め識別子対応表と、変換ルー
ルを作成しておく。表1は、本実施形態に係るパターン
識別子対応表と変換ルールを併せて記述したテーブルデ
ータである。
【0030】
【表1】 表1に示すように、識別子対応表は、UL要素とul要素と
いうように、同一の論理構造を定義する要素同士を対応
付けたものである。また、変換ルールは、変換後の論理
構造を定義する差替えテンプレートと、テンプレートを
適用するための条件とから構成されている。
【0031】識別子対応表は、大文字と小文字の関係に
ある要素同士や、同一内容の引数を用いる要素同士、同
一の機能を有する要素同士というように対応付けて作成
する。この識別子対応表に従って、変換前の論理構造と
変換後の論理構造とを比較して、両者の相違部分を検出
する。例えば、図12に示すように、構造化文書F1中
のUL要素とLI要素とから形成される論理構造の文書型定
義と、構造化文書F3中のul要素とli要素とから形成さ
れる論理構造の文書型定義とを比較し、相違部分を検出
する。
【0032】次いで、この検出された相違部分の条件を
解析する。図12(a)に示した例では、各LI要素が複
数(2以上)ある場合には、各LI要素に対して、UL要素
がそれぞれ入れ子状態となるように構成されている。し
たがって、この例では、(LI≧2)が条件となる。そし
て、相違部分の条件とこれに対応する変換後の論理構造
とに基づいて変換ルールを作成し、これを変換テンプレ
ートT2に反映させる。
【0033】本実施形態では、変換テンプレートT2
は、パターン指定とテンプレート指定とから構成され
る。パターン指定は、変換すべき識別子を指定するもの
であり、ここでは、識別子対応表に列記された識別子と
なる。また、テンプレート指定は、表1の変換ルールを
反映させたものであり、変換後の論理構造を定義する差
替え用テンプレートと、差替え用テンプレートを適用す
る条件から構成されている。
【0034】図2(a)及び(b)は、本実施形態に係
る変換テンプレートT2の記述例として、テンプレート
ルールT12,T22を示すものであり、いずれも図1
2に示す矛盾を修正し、1回の変換()のみによっ
て、変換後の構造化文書F3を出力する例である。本実
施形態に係るテンプレートルールT12では、(5)及び
(7)がそれぞれのパターン指定であり、(5)では、UL要素
を、(7)では、LI要素の抽出を記述している。また、(6)
及び(8)は、テンプレート指定である。
【0035】図2(a)に示す例では、先ず、(5)のパ
ターン指定に従って、UL要素を抽出し、(6)のテンプレ
ート指定を実施する。(6)のテンプレート指定は、カレ
ントの要素(UL)から子要素(LI)にテンプレート適用
対象を移動させることを意味する。LI要素に対するテン
プレートルールは(7),(8)である。
【0036】(7)のパターン指定によってLI要素を抽出
し、(8)のテンプレート指定によって、先ずulの開始タ
グを記述し、さらにliの開始タグを記述し、LI要素以下
をテキストに変換して記述し、最後にliの終了タグとul
の終了タグをこの順番で記述することを指示している。
【0037】変換前の構造化文書F1では、LI要素が3
つあるため、上記の(7)のパターンを指定に該当する3
箇所が抽出され、それぞれ(8)のテンプレート指定の処
理を実行して、処理が完了する。
【0038】図2(b)に示すテンプレートルールT2
2においては、<xsl:for-each>はXSL仕様で定義された
要素の一つである。(9)は、パターン指定であり、UL要
素の抽出を指示する。(10)はテンプレート指定であり、
複数のLI要素を繰り返して処理することを指示する。処
理の内容は、先ず、ulの開始タグを記述し、さらにliの
開始タグを記述し、LI要素以下をテキストに変換して記
述し、最後にliの終了タグとulの終了タグをこの順番で
記述することを指示している。変換前の構造化文書F1
では、LI要素が3つあるため、上記の(10)のテンプレー
ト指定がある<xsl:for-each>要素によって3つのLI要素
に対する処理をくり返した後に処理が完了する。
【0039】次いで、他の変換テンプレートの例につい
て説明する。図3(a)及び(b)は、body要素とbloc
kquote要素に関する変換例を示す説明図であり、同図
(a)は、変換前(第1)の構造化文書F31、矛盾を
含む変換後の文書F32、及び矛盾を修正した変換後
(第2)の構造化文書F33を示し、同図(b)は、従
来の変換テンプレートT31及び本実施形態に係る変換
テンプレートT32を示している。
【0040】文書例において、body要素及びBODY要素は
ドキュメントの本体を表し、blockquote要素及びBLOCKQ
UOTE要素は、文字列のブロックを引用として表示するこ
とを指示する。div要素は、スタイルシートを適用する
ブロックを指定することを指示するが、スタイルシート
は必ずしも適用しなくてもよい。
【0041】本実施形態では、前記表1に示すように、
単にbody要素とblockquote要素が包含することのできる
要素としてdiv要素を使用するものである。変換前後に
おいて、body要素及びblockquote要素がそれぞれBODY要
素とBLOCKQUOTE要素に対応する例である。
【0042】変換前の文書F31は、BODY要素の配下の
文字列をそのままドキュメント本文として表示し、さら
に続けてBLOCKQUOTE要素の配下にある文字列のブロック
を引用として表示する。矛盾を含む変換後の文書F32
は、単純に対応する要素を置換したものである。
【0043】ここで、変換後の文書型定義D2におい
て、body要素及びblockquote要素の配下には直接文字列
を記述することはできないといったルールが定めてあっ
た場合、矛盾を含む変換後の構造化文書F32は、変換
後の文書型定義D2と矛盾することになる。矛盾を修正
した変換後の構造化文書F33では、矛盾を含む変換後
の構造化文書F32においてbody要素とblockquote要素
のそれぞれにdiv要素を介在させることによって、変換
後の文書型定義D2に合致する文書に修正する。
【0044】図3(b)は、変換テンプレートルールの
記述例である。図3(a)に示した変換前の文書F31
から矛盾を含む変換後の文書F32への変換()に関
する変換テンプレートルールを記載したものが、従来の
変換テンプレートルールT31であり、変換前の構造化
文書F31から矛盾を修正した変換後の構造化文書F3
3への変換()に関する変換ルールを記載したもの
が、修正した変換テンプレートルールT32である。
【0045】従来の変換テンプレートルールT31につ
いて、(11)及び(13)は、それぞれのパターン指
定であり、(11)ではBODY要素を、(13)では、BL
OCKQUOTE要素の抽出を指示する。また、(12)及び
(14)はテンプレート指定である。
【0046】先ず、(11)のパターン指定に従って、
BODY要素を抽出し、(12)のテンプレート指定を実施
する。(12)のテンプレート指定は、先ずbodyの開始
タグを記述し、カレントの要素(BODY)から子要素(BL
OCKQUOTE)にテンプレート適用対象を移動させ、子要素
(BLOCKQUOTE)に対するテンプレートルールの処理を行
った後に、bodyの終了タグを記述することを意味する。
【0047】BLOCKQUOTE要素に対するテンプレートルー
ルは、(13)、(14)である。(13)のパターン
指定に従って、BLOCKQUOTE要素を抽出し、(14)のテ
ンプレート指定を実施する。(14)のテンプレート指
定は、先ずblockquoteの開始タグを記述し、カレントの
要素(BLOCKQUOTE)から子要素にテンプレート適用対象
を移動させ、子要素に対するテンプレートルールの処理
を行った後に、blockquoteの終了タグを記述することを
指示する。
【0048】従来の変換テンプレートルールT31は、
BODY要素とBLOCKQUOTE要素をそれぞれ単純にbody要素と
blockquote要素に変換している。
【0049】本実施形態に係る変換テンプレートルール
T32において、(15)及び(17)はそれぞれのパ
ターン指定であり、(15)ではBODY要素を、(17)
ではBLOCKQUOTE要素の抽出を指示する。また、(16)
及び(18)は、テンプレート指定である。先ず、(1
5)のパターンに従って、BODY要素を抽出し、(16)
のテンプレート指定を実施する。(16)のテンプレー
ト指定は、先ず、bodyの開始タグを記述し、さらにdiv
の開始タグを記述し、カレントの要素(BODY)から子要
素(BLOCKQUOTE)にテンプレート適用対象を移動させ、
子要素(BLOCKQUOTE)に対するテンプレートルールの処
理を行った後に、div及びbodyの終了タグをこの順で記
述することを意味する。
【0050】BLOCKQUOTE要素に対するテンプレートルー
ルは、(17)、(18)である。(17)のパターン
指定に従って、BLOCKQUOTE要素を抽出し、(18)のテ
ンプレート指定を実施する。(18)のテンプレート指
定は、先ずblockquoteの開始タグを記述し、さらにdiv
の開始タグを記述し、カレントの要素(BLOCKQUOTE)か
ら子要素にテンプレート適用対象を移動させ、子要素に
対するテンプレートルールの処理を行った後に、div及
びblockquoteの終了タグをこの順で記述することを意味
する。変換テンプレートルールT32によって、BODY要
素とBLOCKQUOTE要素をそれぞれbody要素とblockquote要
素に変換するとともに、body要素とblockquote要素にそ
れぞれdiv要素を介在させることができる。
【0051】さらに、本実施形態に係る変換テンプレー
トルールT2の作成例について説明する。図4(a)及
び(b)は、ol要素とli要素に関する変換例の説明図で
あり、同図(a)は、変換前(第1)の構造化文書F4
1、矛盾を含む変換後の構造化文書F42、及び矛盾を
修正した変換後(第2)の構造化文書F43を示し、同
図(b)は、従来の変換テンプレートT41及び本実施
形態に係る変換テンプレートT42を示している。
【0052】ol要素及びOL要素は番号付きの箇条書きブ
ロック(序列リスト)を作成し、各箇条書き項目は回の
li要素及びLI要素によってそれぞれ定義される。変換前
の文書F41は、OL要素の配下にLI要素が存在する部分
と、LI要素が存在しない部分がある例である。
【0053】図4(a)に示すように、矛盾を含む変換
後の構造化文書F42は、単純に対応する要素を置換し
ている。ここで、変換後文書型定義においてol要素の配
下には少なくとも1つ以上のli要素が必要であるといっ
たルールが定めてある場合、矛盾を含む変換後の構造化
文書F42は、変換後の文書型定義に矛盾することとな
る。
【0054】矛盾を修正した変換後の構造化文書F43
の例では、変換後の構造化文書F42において、li要素
を持たないol要素をdiv要素に置換することによって、
変換後の文書型定義に合致する文書に修正する。
【0055】図4(b)は、変換テンプレートルールT
42の例である。図4(a)に示した変換前の構造化文
書F41から矛盾を含む変換後の構造化文書F42への
変換()に関する変換ルールを記載したものが、図4
(b)に記載した従来の変換テンプレートルールT41
であり、変換前の構造化文書F41から矛盾を修正した
変換後の構造化文書F41への変換()に関する変換
ルールを記載したものが、図4(b)に記載した変換テ
ンプレートルールT42である。
【0056】図4に示すように、従来の変換テンプレー
トルールT41も、上記同様に、OL要素及びLI要素の抽
出を指示するパターン指定と。各パターン指定に対応し
たテンプレート指定とから構成されている。この従来の
変換テンプレートルールT41では、OL要素とLI要素を
それぞれ単純にol要素とli要素に変換している。
【0057】本実施形態に係る変換テンプレートルール
T42において、(19)及び(21)はそれぞれのパ
ターン指定であり、(19)ではOL要素を(21)では
LI要素の抽出を意味する。また、(20)及び(22)
はテンプレート指定である。先ず、(19)のパターン
指定に従って、OL要素を抽出し、(20)のテンプレー
ト指定を実施する。
【0058】図4(b)において、<xsl:choose>,<xs
l:when>,<xsl:otherwise>はそれぞれXSL仕様で定義さ
れた要素の一つである。これら3つの要素を組み合わせ
て場合分けをした処理を行う。(20)のテンプレート
指定において、test属性に記述した条件式("cout(LI)!
=`0`")の結果が真(TRUE)であれば、<xsl:when>要素
内の処理を実施し、偽(FALSE)であれば、<xsl:otherw
ise>要素内の処理を実施する。
【0059】条件式("cout(LI)!=`0`")はLI要素の数
量をカウントし、1つ以上のLI要素が存在する場合には
真(TRUE)となる。その場合には、<xsl:when>要素のテ
ンプレートに従って、先ずolの開始タグを記述し、LI要
素に対するテンプレートルールの処理を行った後、olの
終了タグを記述することを意味する。
【0060】また、条件式("cout(LI)!=`0`")は、LI
要素の数量が0であった場合には、偽(FALSE)とな
り、その場合には、<xsl:otherwise>要素のテンプレー
トに従って、先ずdivの開始タグを記述し、カレントの
要素(OL)から子要素にテンプレート適用対象を移動さ
せ、子要素に対するテンプレートルールの処理を行った
後、divの終了タグを記述すること意味する。変換テン
プレートルールT42によって、ol要素の配下にli要素
が存在しない場合には、ol要素をdiv要素へ置換するこ
とができる。
【0061】なお、上述した本実施形態に係る文書変換
方法においては、図5に示すような変更を加えることが
できる。図5は、XMLに従っていない構造化文書、例え
ばiモード用コンパクトHTML文書を、変換前(第
1)の構造化文書として用いた場合に関する変換処理の
実施例である。本変更では、上述した実施形態におい
て、整形化ツールによる整形化処理S201が付加され
ている。
【0062】この変更例において、文書構造変換ツール
としてXSLTエンジンを動作させるためには、文書がXML
の文書型定義(DTD)に従っている必要がある。XML文書
はXML宣言などの宣言文を持ち、全ての要素画正しく入
れ子構造になるように厳密に記述しなければならない。
XMLに従っていない構造化文書F1をXML仕様に従わせる
ために、整形化S201(Well-fomed化)を行う。整形
化S201では、次のような内容の処理を行う。
【0063】すなわち、開始タグと終了タグの入れ子関
係を正しくしたり、終了タグの無いものに終了タグを追
加したり、空要素がある場合に、’/’を入れたり
(例:<BR/>)、属性値をダブルクォーテーションで括
ったり、属性値が省略されているものに属性値を追加し
たり、要素名と属性名を全て小文字に修正したりする。
【0064】そして、図5に示すように、先ず、変換前
の構造化文書F1をXML仕様に従うように整形化S20
1の処理を行う。この整形化S201の処理には、フリ
ーソフトウェア(HTML Tidy等)を使うことができる。
整形化S201された文書に対して文書構造変換S10
1を実施し、新しい構造化文書F3を作成する。変換テ
ンプレートT2は変換前の文書型定義D1と変換後の文
書型定義D2を解釈して、変換後の文書型定義D2に従
った結果を出力するように妥当な変換ルールを記述す
る。構造化文書F1を整形化S201して、新しい構造
化文書F3へ変換するには、文書構造変換S101を1
回だけ実施すれば処理が完了する。
【0065】(文書変換プログラム及び文書変換システ
ム)上述した文書変換方法は、所定のコンピュータ言語
で記述されたプログラムを、パーソナルコンピュータや
ワークステーション等の汎用コンピュータ上で実行する
ことにより実現することができる。このような文書変換
プログラムをコンピュータで実行した場合、当該コンピ
ュータは、文書変換システムとして機能することとな
る。
【0066】図6は、文書変換プログラムをコンピュー
タ1上で実行し、文書変換システムとして機能するコン
ピュータ1の内部構造を示すブロック図である。同図に
示すように、コンピュータ1は、周知のように、ハード
ディスク11や、プリンター用インターフェース12、
ディスプレイ用インターフェース13、入出力デバイス
14、メモリ15、通信デバイス16、及びCPU1
7、及びこれらの各デバイスを接続するバス18等を備
えている。
【0067】ハードディスク11は、各データを格納す
る記録媒体であり、入出力デバイス14から読み込まれ
た各種ファイルデータを格納するとともに、CPU17
からの要求に応じてデータをメモリ15やCPU17に
出力する。また、各デバイスの処理結果であるデータの
格納も行う。また、このハードディスク11には、文書
変換プログラムファイルP1を格納しており、CPU1
7からの起動命令により当該文書変換プログラムファイ
ルP1を読み出し、CPU17上で実行する。
【0068】プリンター用インターフェース12は、コ
ンピュータ1と外部のプリンター等を接続するデバイス
であり、CPU17等の要求に応じて、ファイル印刷等
を行う。また、ディスプレイ用インターフェース13
は、CPU17で生成された表示用データに基づいて映
像を表示するものであり、操作画面や、処理結果が表示
される。
【0069】通信デバイス16は、LANボードやモデ
ム等の通信装置であり、通信回線を通じてコンピュータ
1を、インターネットやイーサネット(登録商標)等の
通信ネットワーク20に接続し、データの送受信を行う
ものである。この通信デバイス16を介して、コンピュ
ータ1は、外部の他の端末からデータを受信したり、変
換した文書ファイルを送信したりすることができる。
【0070】入出力デバイス14は、フロッピー(登録
商標)ディスクドライブやCD−ROMドライブ等、フ
ァイルデータを外部の記録媒体に対して読み出し・書き
込みするデバイスであり、本実施形態では、変換テンプ
レートT2や、変換前後の文書型定義D1,D2、変換
前後の構造化文書F1,F3が入出される。
【0071】メモリ15は、CPU17が処理を実行す
る際にデータを一時的に記憶する主記憶装置であり、ハ
ードディスク11から読み出されたデータを保持した
り、CPU17における処理結果を保持したりする。
【0072】CPU17は、中央演算器であり、ハード
ディスク11から読み出された文書変換プログラムファ
イルP1を実行することにより、文書型定義解析部17
aや、変換テンプレート生成部17b、文書構造変換部
17c、整形部17d、ファイル入出力部17e、通信
処理部17f、表示用データ生成部17g、印刷処理部
17hとして機能する。
【0073】文書型定義解析部17aは、変換前の文書
型定義D1及び変換後の文書型定義を解析し、相違する
文書型定義を抽出するものであり、本実施形態では、変
換前の文書型定義の識別子と、変換後の文書型定義の識
別子との対応付けをする識別子対応表を記憶する識別子
対応表記憶部と、文書型定義D1の識別子により定義さ
れた第1の論理構造を抽出するとともに、文書型定義D
2の識別子により定義された第2の論理構造を抽出する
論理構造抽出部と、識別子対応表に従って、第1の論理
構造と第2の論理構造とを比較し、両者の相違部分を検
出し、この検出された相違部分の条件を解析する条件検
出部とを有する。
【0074】識別子対応表記憶部は、CPU17内部の
キャッシュメモリにより実現することができるが、ハー
ドディスク11やメモリ15を補助的に用いることがで
きる。
【0075】論理構造抽出部は、文書型定義D1及びD
2に含まれるデータを順次読み、識別子対応表に列記さ
れた識別子との照合を行い、合致するものが検出された
際に、その下位にある論理構造をそれぞれ参照し、パタ
ーンの抽出を行う。
【0076】条件検出部は、変換前後の文書型定義D1
及びD2に定められたルールを比較し、その相違が生じ
る条件を検出する。例えば、UL要素の下位にあるLI要素
がいくつある場合にパターンの相違が生じるかなどを検
出する。
【0077】変換テンプレート生成部17bは、文書型
定義解析部による解析結果に応じて、文書変換処理の処
理結果である構造化文書F2が文書型定義D2に矛盾す
ることのないような変換ルールを記述した変換テンプレ
ートT1を生成するものであり、本実施形態では、前記
相違部分の条件とこれに対応する変換後の論理構造(D
2から抽出されたパターン)とに基づいて変換ルールを
作成し、識別子対応表と変換ルールを関連付け、変換テ
ンプレートの形式に変換する。
【0078】文書構造変換部17cは、変換テンプレー
トを用いて文書変換処理を行うものであり、識別子対応
表に列記された識別子を置換するとともに、識別子に付
加された引数を変換する。また、前記条件に合致する識
別子に関しては、差替えテンプレートに従って、論理構
造の追加、削除、変換を行う。
【0079】整形部17dは、文書構造変換部における
変換を可能とするために、第1の構造化文書F1を整形
するものであり、構造化文書F1における誤った記述を
修正する(XMLのように整形化された文書の場合には不
要。)。具体的には、上述したように、開始タグと終了
タグの入れ子関係を正しくしたり、終了タグの無いもの
に終了タグを追加したり、空要素がある場合に、’/’
を入れたり(例:<BR/>)、属性値をダブルクォーテー
ションで括ったり、属性値が省略されているものに属性
値を追加したり、要素名と属性名を全て小文字に修正し
たりする。
【0080】ファイル入出力部17eは、ファイルの入
出力を制御するものであり、ハードディスク11や入出
力デバイス14の動作制御を行うものである。具体的に
は、変換前の構造化文書F1や変換テンプレートT2、
識別子対応表等のファイルの読み出しを行わせたり、構
造化文書F3をハードディスク11に保存したり、入出
力デバイス14においてフロッピーディスクやCD−R
等に書き込みを行わせる。また、このファイル入出力部
17eは、必要に応じて各ファイルについて、通信処理
部17fや印刷処理部17hに対する入出力を行う。
【0081】通信処理部17fは、通信デバイス16の
動作を制御するものであり、通信デバイス16を通じて
ネットワーク20に接続され、変換前の構造化文書F1
や変換後の構造化文書F1を外部の端末機に対して送受
信したり、他の端末機から変換要求を受信したりする。
【0082】表示用データ生成部17gは、ディスプレ
イ表示用の画像データを生成するとともに、ディスプレ
イ用インターフェース13の動作制御を行うものであ
り、ディスプレイ用インターフェース13を通じて外部
のディスプレイ装置に画像データを表示させる。この表
示用データとしては、文書変換プログラムに従って生成
されるグラフィックデータが含まれ、各処理のための操
作画面や、各ファイルの閲覧画面等を表示するために用
いられる。
【0083】印刷処理部17hは、変換後の構造化文書
F1をプリンター用インターフェース12の動作制御を
行い、外部のプリンターに印刷処理を行わせるものであ
る。
【0084】(動作)以上説明した文書変換プログラム
を、パーソナルコンピュータ等の汎用コンピュータ上で
実行することにより、文書変換システムを実現すること
ができる。この文書変換システムの動作について、図7
を用いて説明する。図7は、文書変換システムの動作手
順を示すフロー図である。
【0085】図7に示すように、変換前の文書型定義D
1を読込み、解析を行う(S201)。具体的には、入
出力デバイス14やハードディスク11からファイルを
読み出し、文書型定義解析部17において解析を行う。
次いで、同様にして変換後の文書型定義D2の読込、解
析を行う(S202)。その後、変換テンプレートの生
成を行う(S203)。具体的には、文書型定義解析部
17aにおいて、変換前の文書型定義D1及び変換後の
文書型定義D2を解析し、相違する文書型定義を抽出す
る。
【0086】次いで、変換前の構造化文書F1の読込み
を行い(S204)、必要に応じて、読み込んだ構造化
文書F1の整形化を行い(S205)、整形化された文
書について文書構造変換を行う(S206)。
【0087】そして、変換された構造化文書F3の出力
を行う(S207)。この出力としては、入出力デバイ
ス14やハードディスク11に対する書き込みや、通信
デバイス16によるネットワーク20への送信、プリン
ター用インターフェース13を通じての印刷が含まれ
る。
【0088】(文書変換プログラムを記録したコンピュ
ータ読み取り可能な記録媒体)以上説明した文書変換プ
ログラムは、コンピュータ1で読み取り可能な記録媒体
に記録することができる。このコンピュータ読み取り可
能な記録媒体としては、図8に示すような、フロッピー
ディスク216や、CD−ROM217、ROM21
8、カセットテープ等の磁気テープ219がある。
【0089】そして、このような文書変換プログラムを
記録したコンピュータ読み取り可能な記録媒体によれ
ば、図9に示すように、この記録媒体を介して、ノート
型パーソナルコンピュータや、デスクトップ型パーソナ
ルコンピュータ、ワークステーション等の汎用コンピュ
ータ30により文書変換を行うことができる。
【0090】例えば、図9に示すように、変換対象の構
造化文書F1がファイルに保存されている場合、文書変
換装置として、上述した文書変換プログラムをインスト
ールした、汎用コンピュータ30を用い、ローカルなデ
ィスクに保存された構造化文書の変換を行う。
【0091】なお、上述した実施形態では、構造化文書
F1やF3を蓄積するハードディスク11や演算処理を
行うCPU17等が一つのコンピュータに内蔵されてい
る場合を例に説明したが、本発明は、これに限定される
ものではない。例えば、上述した各装置を複数のコンピ
ュータに分散させることもできる。
【0092】図10は、上述した各装置を複数のコンピ
ュータに分散させた場合を示す説明図である。同図に示
すように、変換対象の構造化文書F1を、Web上に配置
されたコンテンツサーバ401に蓄積させ、クライアン
ト端末機403からの変換要求に応じて、変換用サーバ
402で変換処理を行うようにしてもよい。
【0093】この場合においては、上述した文書変換プ
ログラムを変換用サーバ402にインストールするとと
もに、変換用サーバ402に、通信ネットワークに接続
され、通信ネットワークを通じて、クライアント端末4
03からの変換要求を受信するとともに、コンテンツサ
ーバ401から構造化文書F1を取得する受信部と、変
換後の構造化文書F3を通信ネットワークを介してクラ
イアント端末403に送出する送信部とを設ける。これ
らの送信部及び受信部は、上述した通信デバイス16を
用いることができる。
【0094】
【発明の効果】以上説明したように本発明によれば、構
造化文書の変換において、変換テンプレートを妥当なも
のに作り替えることによって、変換後の文書型定義に対
する妥当性検証のステップを省略するため、文書構造変
換の全体の時間を短縮できる。
【図面の簡単な説明】
【図1】本実施形態に係る文書変換方法の概要を示す概
念図である。
【図2】本実施形態に係る変換テンプレートの記述例を
示す説明図である。
【図3】本実施形態に係る他の変換テンプレートの作成
例を示す説明図である。
【図4】本実施形態に係る他の変換テンプレートの作成
例を示す説明図である。
【図5】本実施形態の変更例に係る文書変換方法の概要
を示す概念図である。
【図6】本実施形態に係る文書変換プログラムを実行し
た汎用コンピュータの内部構造を示すブロック図であ
る。
【図7】本実施形態に係る文書変換プログラムを実行し
た汎用コンピュータの動作を示すフロー図である。
【図8】本実施形態に係る文書変換プログラムを記録し
たコンピュータ読み取り可能な記録媒体を示す斜視図で
ある。
【図9】本実施形態に係る文書変換プログラムを実行し
た汎用コンピュータの動作を示す概念図である。
【図10】本実施形態に係る文書変換プログラムを実行
した汎用コンピュータにおいて、ネットワークを通じて
変換処理を行う場合の動作を示す概念図である。
【図11】従来の文書変換方法の概要を示す概念図であ
る。
【図12】従来の変換テンプレートの作成例を示す説明
図である。
【符号の説明】
1…汎用コンピュータ、11…ハードディスク、12…
プリンター用インターフェース、13…ディスプレイ用
インターフェース、14…入出力デバイス、15…メモ
リ、16…通信デバイス、17…CPU、20…通信ネ
ットワーク D1…変換前(第1)の文書型定義、D2…変換後(第
2)の文書型定義 F1,F31,F41…変換前(第1)の構造化文書、
F2,F32,F42…変換後の矛盾を含む構造化文
書、F3,F33,F43…新しい変換後(第2)の構
造化文書、T1,T31,T41…従来のテンプレー
ト、T2,T12,T22,T32,T42…変換テン
プレート
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上野 英俊 東京都千代田区永田町二丁目11番1号 株 式会社エヌ・ティ・ティ・ドコモ内 (72)発明者 角野 宏光 東京都千代田区永田町二丁目11番1号 株 式会社エヌ・ティ・ティ・ドコモ内 (72)発明者 加藤 剛志 東京都千代田区永田町二丁目11番1号 株 式会社エヌ・ティ・ティ・ドコモ内 Fターム(参考) 5B009 MJ00 QB01 SA13 TA11 5B082 GA02

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 第1の文書型定義に基づいて形成された
    第1の構造化文書を第2の文書型定義に基づいて形成さ
    れた第2の構造化文書に変換する文書変換システムであ
    って、 前記第1の文書型定義及び前記第2の文書型定義を解析
    し、相違する文書型定義を抽出する文書型定義解析部
    と、 前記文書型定義解析部による解析結果に応じて、文書変
    換処理の処理結果である前記第2の構造化文書が前記第
    2の文書型定義に矛盾することのないような変換ルール
    を記述した変換テンプレートを生成する変換テンプレー
    ト作成部と、 前記変換テンプレートを用いて文書変換処理を行う文書
    構造変換部とを備えたことを特徴とする文書変換システ
    ム。
  2. 【請求項2】 前記第1の文書型定義及び前記第2の文
    書型定義は、文書を構成する文字列の論理構造を定義す
    る識別子を有しており、 前記文書型定義解析部は、 前記第1の文書型定義の識別子と、前記第2の文書型定
    義の識別子との対応付けをする識別子対応表を記憶する
    識別子対応表記憶部と、 前記第1の文書型定義の識別子により定義された第1の
    論理構造を抽出するとともに、前記第2の文書型定義の
    識別子により定義された第2の論理構造を抽出する論理
    構造抽出部と、 前記識別子対応表に従って、前記第1の論理構造と前記
    第2の論理構造とを比較し、両者の相違部分を検出し、
    この検出された相違部分が生ずる条件を解析する条件検
    出部とを有し、 前記変換テンプレート作成部は、 前記相違部分の条件とこれに対応する第2の論理構造と
    に基づいて変換ルールを作成することを特徴とする請求
    項1に記載の文書変換システム。
  3. 【請求項3】 前記第1の構造化文書及び前記第2の構
    造化文書を、ファイルデータとして保存するファイル記
    録部を備え、 前記文書構造変換部は、前記ファイル記録部から読み出
    した第1の構造化文書を変換することを特徴とする請求
    項1または2に記載の文書変換システム。
  4. 【請求項4】 通信ネットワークに接続され、該通信ネ
    ットワーク上からの変換要求及び第1の構造化文書を取
    得する受信部と、 前記文書構造変換部が変換した第2の構造化文書を前記
    通信ネットワーク上に送出する送信部とを有することを
    特徴とする請求項1乃至3のいずれかに記載の文書変換
    システム。
  5. 【請求項5】 前記第1の構造化文書を前記文書構造変
    換部で読み取りが可能となるように、前記第1の構造化
    文書の記述の誤りを修正する整形化部を有することを特
    徴とする請求項1乃至4のいずれかに記載の文書変換シ
    ステム。
  6. 【請求項6】 第1の文書型定義に基づいて形成された
    第1の構造化文書を第2の文書型定義に基づいて形成さ
    れた第2の構造化文書に変換する文書変換方法であっ
    て、 前記第1の文書型定義及び前記第2の文書型定義を解析
    し、相違する文書型定義を抽出するステップ(1)と、 前記解析の結果に応じて、文書変換処理の処理結果であ
    る前記第2の構造化文書が前記第2の文書型定義に矛盾
    することのないような変換ルールを記述した変換テンプ
    レートを生成するステップ(2)と、 前記変換テンプレートを用いて文書変換処理を行うステ
    ップ(3)とを有することを特徴とする文書変換方法。
  7. 【請求項7】 前記第1の文書型定義及び前記第2の文
    書型定義は、文書を構成する文字列の論理構造を定義す
    る識別子を有しており、 前記ステップ(1)は、 前記第1の文書型定義の識別子により定義された第1の
    論理構造を抽出するとともに、前記第2の文書型定義の
    識別子により定義された第2の論理構造を抽出するステ
    ップと、 前記第1の文書型定義の識別子と、前記第2の文書型定
    義の識別子との対応付けをする識別子対応表に従って、
    前記第1の論理構造と前記第2の論理構造とを比較し
    て、両者の相違部分を検出するステップと、 この検出された相違部分が生ずる条件を解析するステッ
    プとを有し、 前記ステップ(2)は、 前記相違部分の条件とこれに対応する第2の論理構造と
    に基づいて変換ルールを作成することを特徴とする請求
    項6に記載の文書変換方法。
  8. 【請求項8】 前記第1の構造化文書及び前記第2の構
    造化文書は、ファイルデータとしてファイル記録部に保
    存され、 前記ステップ(3)は、前記ファイル記録部から読み出し
    た第1の構造化文書を変換することを特徴とする請求項
    6または7に記載の文書変換方法。
  9. 【請求項9】 通信ネットワーク上からの変換要求及び
    第1の構造化文書を取得するステップと、 前記ステップ(3)において、変換された第2の構造化文
    書を前記通信ネットワーク上に送出するステップとを有
    することを特徴とする請求項6乃至8のいずれかに記載
    の文書変換方法。
  10. 【請求項10】 前記ステップ(3)において前記第1の
    構造化文書の読み取りが可能となるように、前記第1の
    構造化文書の記述の誤りを修正するステップを有するこ
    とを特徴とする請求項6乃至9のいずれかに記載の文書
    変換方法。
  11. 【請求項11】 第1の文書型定義に基づいて形成され
    た第1の構造化文書を第2の文書型定義に基づいて形成
    された第2の構造化文書に変換する文書変換プログラム
    であって、コンピュータに、 前記第1の文書型定義及び前記第2の文書型定義を解析
    し、相違する文書型定義を抽出するステップ(1)と、 前記解析の結果に応じて、文書変換処理の処理結果であ
    る前記第2の構造化文書が前記第2の文書型定義に矛盾
    することのないような変換ルールを記述した変換テンプ
    レートを生成するステップ(2)と、 前記変換テンプレートを用いて文書変換処理を行うステ
    ップ(3)とを有する処理を実行させることを特徴とする
    文書変換プログラムを記録したコンピュータ読み取り可
    能な記録媒体。
  12. 【請求項12】 前記第1の文書型定義及び前記第2の
    文書型定義は、文書を構成する文字列の論理構造を定義
    する識別子を有しており、 前記ステップ(1)は、 前記第1の文書型定義の識別子により定義された第1の
    論理構造を抽出するとともに、前記第2の文書型定義の
    識別子により定義された第2の論理構造を抽出するステ
    ップと、 前記第1の文書型定義の識別子と、前記第2の文書型定
    義の識別子との対応付けをする識別子対応表に従って、
    前記第1の論理構造と前記第2の論理構造とを比較し
    て、両者の相違部分を検出するステップと、 この検出された相違部分が生ずる条件を解析するステッ
    プとを有し、 前記ステップ(2)は、 前記相違部分の条件とこれに対応する第2の論理構造と
    に基づいて変換ルールを作成することを特徴とする請求
    項11に記載の文書変換プログラムを記録したコンピュ
    ータ読み取り可能な記録媒体。
  13. 【請求項13】 前記第1の構造化文書及び前記第2の
    構造化文書は、ファイルデータとしてファイル記録部に
    保存され、 前記ステップ(3)は、前記ファイル記録部から読み出し
    た第1の構造化文書を変換することを特徴とする請求項
    11または12に記載の文書変換プログラムを記録した
    コンピュータ読み取り可能な記録媒体。
  14. 【請求項14】 通信ネットワーク上からの変換要求及
    び第1の構造化文書を取得するステップと、 前記ステップ(3)において変換された第2の構造化文書
    を前記通信ネットワーク上に送出するステップとを有す
    ることを特徴とする請求項11乃至13のいずれかに記
    載の文書変換プログラムを記録したコンピュータ読み取
    り可能な記録媒体。
  15. 【請求項15】 前記ステップ(3)において前記第1の
    構造化文書の読み取りが可能となるように、前記第1の
    構造化文書の記述の誤りを修正するステップを有するこ
    とを特徴とする請求項11乃至14のいずれかに記載の
    文書変換プログラムを記録したコンピュータ読み取り可
    能な記録媒体。
JP2001346736A 2001-11-12 2001-11-12 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JP2003150586A (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2001346736A JP2003150586A (ja) 2001-11-12 2001-11-12 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
CA002411459A CA2411459A1 (en) 2001-11-12 2002-11-08 Document conversion system, document conversion method and computer readable recording medium storing document conversion program
EP02025041A EP1313032A1 (en) 2001-11-12 2002-11-11 Document conversion
AU2002301951A AU2002301951B2 (en) 2001-11-12 2002-11-11 Document Conversion System, Document Conversion Method and Computer Readable Recording Medium Storing Document Conversion Program
TW091133064A TWI267004B (en) 2001-11-12 2002-11-11 Document conversion system, document conversion method and computer readable recording medium storing document conversion program
US10/291,568 US7139975B2 (en) 2001-11-12 2002-11-12 Method and system for converting structured documents
CN02149391A CN1419211A (zh) 2001-11-12 2002-11-12 文件转换系统、转换方法和存储文件转换程序的可读介质
CNA2004100969539A CN1612136A (zh) 2001-11-12 2002-11-12 文件转换系统以及文件转换方法
KR10-2002-0070022A KR100486138B1 (ko) 2001-11-12 2002-11-12 문서변환시스템, 문서변환방법, 및 문서변환프로그램을저장한 컴퓨터 판독가능 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001346736A JP2003150586A (ja) 2001-11-12 2001-11-12 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007141070A Division JP2007265429A (ja) 2007-05-28 2007-05-28 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2003150586A true JP2003150586A (ja) 2003-05-23

Family

ID=19159847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001346736A Pending JP2003150586A (ja) 2001-11-12 2001-11-12 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (8)

Country Link
US (1) US7139975B2 (ja)
EP (1) EP1313032A1 (ja)
JP (1) JP2003150586A (ja)
KR (1) KR100486138B1 (ja)
CN (2) CN1612136A (ja)
AU (1) AU2002301951B2 (ja)
CA (1) CA2411459A1 (ja)
TW (1) TWI267004B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006260077A (ja) * 2005-03-16 2006-09-28 Fuji Xerox Co Ltd 電子フォーム印刷装置
KR100910061B1 (ko) 2006-09-26 2009-07-30 한국전자통신연구원 디지털 방송을 위한 메타데이터 부호화/복호화 장치 및 그방법
US8112816B2 (en) 2005-05-17 2012-02-07 Fuji Xerox Co., Ltd. Document verification apparatus and document verification method
JP2022539672A (ja) * 2019-08-23 2022-09-13 北京金山▲辧▼公▲軟▼件股▲ふん▼有限公司 文書表示方法およびデバイス

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3972323B2 (ja) * 2001-09-04 2007-09-05 インターナショナル・ビジネス・マシーンズ・コーポレーション スキーマ生成装置、データ処理装置及びその方法並びにプログラム
US7831905B1 (en) * 2002-11-22 2010-11-09 Sprint Spectrum L.P. Method and system for creating and providing web-based documents to information devices
JP4267336B2 (ja) * 2003-01-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造パターン候補を生成する方法、システムおよびプログラム
JP4676136B2 (ja) * 2003-05-19 2011-04-27 株式会社日立製作所 文書構造検査方法および装置
CA2529982A1 (en) * 2003-06-25 2005-01-13 Siemens Medical Solutions Health Services Corporation Data migration and format transformation system
AU2004252575B2 (en) * 2003-06-27 2009-05-21 Common Ground Publishing Pty Ltd Method and apparatus for the creation, location and formatting of digital content
AU2003903306A0 (en) 2003-06-27 2003-07-10 Common Ground Publishing Pty Ltd Method and apparatus for extending the range of useability of ontology driven systems and for creating interoperability between different mark-up schemas for the creation, location and formatting of digital content
EP1649384A2 (en) * 2003-07-11 2006-04-26 Computer Associates Think, Inc. System and method for generating html based on common xslt
CA2438362C (en) * 2003-08-26 2011-05-31 John William Comeau A method and system for synchronizing a client user interface with server backend
US20050114765A1 (en) * 2003-11-25 2005-05-26 Gudenkauf John C. Producing a page of information based on a dynamic edit form and one or more transforms
JP2005234837A (ja) * 2004-02-19 2005-09-02 Fujitsu Ltd 構造化文書処理方法、構造化文書処理システム及びそのプログラム
US7607120B2 (en) * 2004-04-20 2009-10-20 Hewlett-Packard Development Company, L.P. Method and apparatus for creating data transformation routines for binary data
EP1828925A1 (en) * 2004-08-16 2007-09-05 Abb Research Ltd. Method and system for bi-directional data conversion between iec 61970 and iec 61850
US20060041503A1 (en) * 2004-08-21 2006-02-23 Blair William R Collaborative negotiation methods, systems, and apparatuses for extended commerce
KR100636177B1 (ko) 2004-09-20 2006-10-19 삼성전자주식회사 정책 기반 확장성 생성 언어 문서 출력 관리 방법 및 시스템
JP4666996B2 (ja) * 2004-10-21 2011-04-06 キヤノン株式会社 電子ファイリングシステム、電子ファイリング方法
JP4868733B2 (ja) * 2004-11-25 2012-02-01 キヤノン株式会社 構造化文書処理装置及び構造化文書処理方法、プログラム
US8706475B2 (en) 2005-01-10 2014-04-22 Xerox Corporation Method and apparatus for detecting a table of contents and reference determination
US7937653B2 (en) * 2005-01-10 2011-05-03 Xerox Corporation Method and apparatus for detecting pagination constructs including a header and a footer in legacy documents
US7693848B2 (en) * 2005-01-10 2010-04-06 Xerox Corporation Method and apparatus for structuring documents based on layout, content and collection
US8302002B2 (en) * 2005-04-27 2012-10-30 Xerox Corporation Structuring document based on table of contents
US7818667B2 (en) * 2005-05-03 2010-10-19 Tv Works Llc Verification of semantic constraints in multimedia data and in its announcement, signaling and interchange
US7703006B2 (en) * 2005-06-02 2010-04-20 Lsi Corporation System and method of accelerating document processing
US7743327B2 (en) 2006-02-23 2010-06-22 Xerox Corporation Table of contents extraction with improved robustness
US7890859B2 (en) * 2006-02-23 2011-02-15 Xerox Corporation Rapid similarity links computation for table of contents determination
US8407585B2 (en) * 2006-04-19 2013-03-26 Apple Inc. Context-aware content conversion and interpretation-specific views
US7979793B2 (en) * 2007-09-28 2011-07-12 Microsoft Corporation Graphical creation of a document conversion template
US7941399B2 (en) 2007-11-09 2011-05-10 Microsoft Corporation Collaborative authoring
US20090132676A1 (en) * 2007-11-20 2009-05-21 Mediatek, Inc. Communication device for wireless virtual storage and method thereof
US8028229B2 (en) * 2007-12-06 2011-09-27 Microsoft Corporation Document merge
US8825758B2 (en) * 2007-12-14 2014-09-02 Microsoft Corporation Collaborative authoring modes
JP5248145B2 (ja) * 2008-03-05 2013-07-31 株式会社日立製作所 情報提供サーバ、プログラム、情報提供方法及び情報提供システム
US8301588B2 (en) * 2008-03-07 2012-10-30 Microsoft Corporation Data storage for file updates
US20090240628A1 (en) * 2008-03-20 2009-09-24 Co-Exprise, Inc. Method and System for Facilitating a Negotiation
US8352870B2 (en) * 2008-04-28 2013-01-08 Microsoft Corporation Conflict resolution
US8429753B2 (en) * 2008-05-08 2013-04-23 Microsoft Corporation Controlling access to documents using file locks
US8825594B2 (en) * 2008-05-08 2014-09-02 Microsoft Corporation Caching infrastructure
US8417666B2 (en) * 2008-06-25 2013-04-09 Microsoft Corporation Structured coauthoring
US20100005112A1 (en) * 2008-07-01 2010-01-07 Sap Ag Html file conversion
US11832024B2 (en) 2008-11-20 2023-11-28 Comcast Cable Communications, Llc Method and apparatus for delivering video and video-related content at sub-asset level
US20100131836A1 (en) * 2008-11-24 2010-05-27 Microsoft Corporation User-authored notes on shared documents
US8346768B2 (en) * 2009-04-30 2013-01-01 Microsoft Corporation Fast merge support for legacy documents
US9063800B2 (en) 2010-05-26 2015-06-23 Honeywell International Inc. Automated method for decoupling avionics application software in an IMA system
CN101968784A (zh) * 2010-10-13 2011-02-09 无锡永中软件有限公司 一种数字格式转换的方法与装置
US9727748B1 (en) * 2011-05-03 2017-08-08 Open Invention Network Llc Apparatus, method, and computer program for providing document security
US9275554B2 (en) * 2013-09-24 2016-03-01 Jimmy M Sauz Device, system, and method for enhanced memorization of a document
CN105302775A (zh) * 2014-06-30 2016-02-03 鸿合科技有限公司 一种文件格式转换方法及装置
US11783382B2 (en) 2014-10-22 2023-10-10 Comcast Cable Communications, Llc Systems and methods for curating content metadata
CN109947771B (zh) * 2018-08-20 2023-07-21 中国平安人寿保险股份有限公司 文件类型的转换方法、装置、设备和计算机可读存储介质
US11003835B2 (en) * 2018-10-16 2021-05-11 Atos Syntel, Inc. System and method to convert a webpage built on a legacy framework to a webpage compatible with a target framework
JP7159019B2 (ja) * 2018-11-22 2022-10-24 横河電機株式会社 データ生成装置、データ生成方法、データ生成プログラム、及び記録媒体
KR102471587B1 (ko) * 2019-11-28 2022-11-28 한국과학기술정보연구원 문서변환장치 및 그 동작 방법
CN112560401B (zh) * 2020-12-22 2024-04-09 成都海光微电子技术有限公司 Verilog文件转换方法、装置、存储介质及设备

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5299304A (en) * 1991-04-16 1994-03-29 International Business Machines Corporation Method and apparatus for identifying multiple stage document format transformations
US5491628A (en) 1993-12-10 1996-02-13 Xerox Corporation Method and apparatus for document transformation based on attribute grammars and attribute couplings
JPH07319917A (ja) * 1994-05-24 1995-12-08 Fuji Xerox Co Ltd 文書データべース管理装置および文書データべースシステム
US5915259A (en) * 1996-03-20 1999-06-22 Xerox Corporation Document schema transformation by patterns and contextual conditions
JP3605941B2 (ja) * 1996-05-20 2004-12-22 富士ゼロックス株式会社 文書構造作成装置及び文書構造作成方法
JPH10307818A (ja) * 1997-05-08 1998-11-17 Nec Corp 文書変換システム、文書変換方法および文書変換用プログラムを記録した記録媒体
US6182092B1 (en) * 1997-07-14 2001-01-30 Microsoft Corporation Method and system for converting between structured language elements and objects embeddable in a document
JP3843574B2 (ja) 1998-01-26 2006-11-08 富士ゼロックス株式会社 文書変換規則生成装置、文書変換規則生成方法及び文書変換規則生成プログラムを記録したコンピュータ読み取り可能な記録媒体
US6115686A (en) * 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
US6473805B2 (en) * 1998-06-08 2002-10-29 Telxon Corporation Method and apparatus for intergrating wireless and non-wireless devices into an enterprise computer network using an interfacing midware server
US6424980B1 (en) * 1998-06-10 2002-07-23 Nippon Telegraph And Telephone Corporation Integrated retrieval scheme for retrieving semi-structured documents
US6336124B1 (en) 1998-10-01 2002-01-01 Bcl Computers, Inc. Conversion data representing a document to other formats for manipulation and display
KR100415996B1 (ko) * 1998-10-12 2004-01-31 삼성전자주식회사 웹서버에 의한 html문서의 제공방법
CA2255047A1 (en) * 1998-11-30 2000-05-30 Ibm Canada Limited-Ibm Canada Limitee Comparison of hierarchical structures and merging of differences
US6535896B2 (en) 1999-01-29 2003-03-18 International Business Machines Corporation Systems, methods and computer program products for tailoring web page content in hypertext markup language format for display within pervasive computing devices using extensible markup language tools
JP2000339312A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書編集システム及びタグ情報管理テーブル作成方法
US6502112B1 (en) * 1999-08-27 2002-12-31 Unisys Corporation Method in a computing system for comparing XMI-based XML documents for identical contents
FR2811782B1 (fr) 2000-07-12 2003-09-26 Jaxo Europ Systeme de conversion de documents a structure arborescente par parcours selectif de ladite structure
US6681223B1 (en) * 2000-07-27 2004-01-20 International Business Machines Corporation System and method of performing profile matching with a structured document
US6694338B1 (en) * 2000-08-29 2004-02-17 Contivo, Inc. Virtual aggregate fields
US7970437B2 (en) * 2000-11-29 2011-06-28 Nokia Corporation Wireless terminal device with user interaction system
US7152205B2 (en) * 2000-12-18 2006-12-19 Siemens Corporate Research, Inc. System for multimedia document and file processing and format conversion
JP2002259362A (ja) 2001-02-28 2002-09-13 Fujitsu Ltd 文書変換定義生成プログラム
US6964025B2 (en) * 2001-03-20 2005-11-08 Microsoft Corporation Auto thumbnail gallery
US6725231B2 (en) * 2001-03-27 2004-04-20 Koninklijke Philips Electronics N.V. DICOM XML DTD/schema generator
US20020184263A1 (en) * 2001-05-17 2002-12-05 Pierre Perinet Method and system for converting usage data to extensive markup language
US7099885B2 (en) * 2001-05-25 2006-08-29 Unicorn Solutions Method and system for collaborative ontology modeling
US20030145305A1 (en) * 2001-11-16 2003-07-31 Mario Ruggier Method for developing and managing large-scale web user interfaces (WUI) and computing system for said WUI
US8032828B2 (en) * 2002-03-04 2011-10-04 Hewlett-Packard Development Company, L.P. Method and system of document transformation between a source extensible markup language (XML) schema and a target XML schema
US7069497B1 (en) * 2002-09-10 2006-06-27 Oracle International Corp. System and method for applying a partial page change
US20040181748A1 (en) * 2003-03-10 2004-09-16 International Business Machines Corporation Thin client framework deployment of spreadsheet applications in a web browser based environment

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006260077A (ja) * 2005-03-16 2006-09-28 Fuji Xerox Co Ltd 電子フォーム印刷装置
JP4539386B2 (ja) * 2005-03-16 2010-09-08 富士ゼロックス株式会社 電子フォーム印刷装置
US8112816B2 (en) 2005-05-17 2012-02-07 Fuji Xerox Co., Ltd. Document verification apparatus and document verification method
KR100910061B1 (ko) 2006-09-26 2009-07-30 한국전자통신연구원 디지털 방송을 위한 메타데이터 부호화/복호화 장치 및 그방법
JP2022539672A (ja) * 2019-08-23 2022-09-13 北京金山▲辧▼公▲軟▼件股▲ふん▼有限公司 文書表示方法およびデバイス
JP7348966B2 (ja) 2019-08-23 2023-09-21 北京金山▲辧▼公▲軟▼件股▲ふん▼有限公司 文書表示方法およびデバイス

Also Published As

Publication number Publication date
AU2002301951B2 (en) 2007-07-12
KR20030040113A (ko) 2003-05-22
US7139975B2 (en) 2006-11-21
US20030093760A1 (en) 2003-05-15
TW200300233A (en) 2003-05-16
TWI267004B (en) 2006-11-21
CN1419211A (zh) 2003-05-21
KR100486138B1 (ko) 2005-04-28
EP1313032A1 (en) 2003-05-21
CA2411459A1 (en) 2003-05-12
CN1612136A (zh) 2005-05-04

Similar Documents

Publication Publication Date Title
JP2003150586A (ja) 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
US10067931B2 (en) Analysis of documents using rules
US7703009B2 (en) Extensible stylesheet designs using meta-tag information
US8515939B2 (en) Method and system for facilitating rule-based document content mining
EP1376387A2 (en) Word-processing document stored in a single XML file
US20040015782A1 (en) Templating method for automated generation of print product catalogs
EP1126380A1 (en) Converting a formatted document into an XML-document
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
US20130124969A1 (en) Xml editor within a wysiwyg application
US20060271850A1 (en) Method and apparatus for transforming a printer into an XML printer
US20070028164A1 (en) Computer readable storage medium and document processing method
WO2007081017A1 (ja) 文書処理装置
WO2002103554A1 (fr) Procede de traitement de donnees, programme de traitement de donnees et appareil de traitement de donnees
JP2015531513A (ja) 自動構成評価器
WO2006001392A1 (ja) 文書処理方法および装置
JPH10222510A (ja) 文書変換方法
JP2007265429A (ja) 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100733054B1 (ko) 구조화 문서의 동기화를 이용한 문서변환 시스템 및문서변환 방법
CN112650479A (zh) 网页css结构自动生成方法及存储介质
JPWO2006001391A1 (ja) 文書処理装置および文書処理方法
JP5232748B2 (ja) ワークフロー表示支援装置及びワークフロー表示プログラム
JP3954520B2 (ja) 翻訳支援システム
JP4013748B2 (ja) 文書生成装置
JP2000339307A (ja) 組版装置
JP2008186090A (ja) データ生成装置、データ生成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060925

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070528

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070612

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070921