JP2002318798A - 構造化文書翻訳におけるユーザ制御可能なデータをグループ化する方法およびシステム - Google Patents

構造化文書翻訳におけるユーザ制御可能なデータをグループ化する方法およびシステム

Info

Publication number
JP2002318798A
JP2002318798A JP2002036160A JP2002036160A JP2002318798A JP 2002318798 A JP2002318798 A JP 2002318798A JP 2002036160 A JP2002036160 A JP 2002036160A JP 2002036160 A JP2002036160 A JP 2002036160A JP 2002318798 A JP2002318798 A JP 2002318798A
Authority
JP
Japan
Prior art keywords
tree structure
hierarchical tree
translation
structured document
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002036160A
Other languages
English (en)
Inventor
Shyh-Kwei Chen
シー・クウェイ・チャン
Jen-Yao Chung
ジェン・ヤオ・チャン
Michael J Ding
マイケル・ジェイ・ディン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002318798A publication Critical patent/JP2002318798A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 DOM、EDI、およびXMLによって定義
されるような構造化文書におけるループ問題を解決する
方法および装置を提供すること。 【解決手段】 本方法および装置は、ユーザに文書の階
層ツリー構造表現を提示し、準拠するべきデータ・グル
ープ化規則をユーザが選択できるようにすることによ
り、曖昧さを除去する。次に、本方法および装置は、こ
のユーザ定義規則に基づいて修正された階層ツリー構造
を自動的に生成する。規則は、規則表エディタを使用す
るか、またはグラフィカル・ユーザ・インターフェース
を用いてユーザが入力することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、構造化文書翻訳お
よびデータのグループ化に関し、より詳細には、ユーザ
制御可能なデータのグループ化に関する。
【0002】
【従来の技術】XML(eXtensible Markup Language)
は、文書およびデータの表現および伝送のための最も重
要な形式の1つとして広まりつつある。例えば、ビジネ
ス文書をインターネット伝送およびワールド・ワイド・
ウェブ・アクセス用のXMLによって提示することがで
きる。ますます多くのユーザおよび新しいアプリケーシ
ョンが、その入出力をXML形式にすることを求め始め
ている。
【0003】XMLの詳細は、その開示を参照により本
明細書に組み込む、「Extensible Markup Language (XM
L)1.0」W3C Recommendation 10-Feb-98に記述されてい
る。XML文書は、ツリーとしてモデル化されることが
でき、その開示は参照により本明細書に組み込まれる、
「Document Object Model (DOM) Level 1 Specificatio
n, version 1.0」W3C Recommendation 1-Oct-98を参照
されたい。
【0004】電子データ交換(Electronic Data Interc
hange;EDI)フラット・ファイル形式は、20年以上
の間、自動車産業、医療産業、製造業、および他の産業
によって使用されてきた。形式が設計された当時の通信
コストのために、データはEDIマップおよび辞書に基
づいて高度に圧縮されている。
【0005】文書オブジェクト・モデル(Document Obj
ect Model;DOM)およびXMLによって定義される文
書など構造化文書におけるループ問題は、アプリケーシ
ョン・プログラミングに著しい影響を及ぼす場合があ
る。問題なのは、1つの文書内の類似のデータ項目が複
数回繰り返され、関連するデータ項目が適切にグループ
としてまとめられていない場合である。この問題は、例
えばEDIなどのフラット・ファイル形式で表現される
文書において非常に深刻であり、これらの文書には、ル
ープ発生を識別するためのデータのグループ化タグまた
は位置シンボルがほとんど、あるいはまったくない。デ
ータのグループ化の不十分な文書では、反復するデータ
項目とループを整理するために、プログラマーが余分な
コードを書く必要がある場合があるので、その文書を読
み込まなければならないアプリケーション・プログラム
のコード構造を複雑化する場合がある。XSL、すなわ
ちXMLスタイル・シート言語、(「XSL Transformati
ons (XSLT) 1.0」W3C Recommendation 99年11月1
6日)などの特定アプリケーションでは、許容可能な構
造コンストラクトおよびフォーマット・スタイルが限ら
れている場合があるので、これは困難になる。
【0006】
【発明が解決しようとする課題】本発明の目的は、翻訳
アルゴリズムに埋め込むことも、また独立変換として実
行することもできる、ユーザ制御可能なデータのグルー
プ化の方法およびシステムを提供することである。
【0007】本発明の別の目的は、同じDTDまたはス
キーマに準拠する複数の、潜在的に無限の構造化文書に
作用することができる汎用データのグループ化の方法お
よびシステムを提供することである。
【0008】本発明の別の目的は、ユーザが高レベル言
語(C++、Java(R)、等)を使用するような分
類およびグループ化をプログラムする必要もなく、複雑
な翻訳スタイル・シートをXSLT形式で書く必要もな
いように管理/維持が容易な中間表を使用する、簡略で
系統的なアルゴリズムを使用するデータのグループ化の
方法およびシステムを提供することである。
【0009】本発明の別の目的は、分類およびグループ
(すなわち、翻訳)表自体をユーザに対して透過的にす
ることができるように、単純かつユーザ・フレンドリー
なGUIを使用するデータのグループ化の方法およびシ
ステムを提供することである。
【0010】
【課題を解決するための手段】これらの目的に従って、
そうでない場合はユーザが構造化文書を処理するために
使用するであろう翻訳手続きまたは変換手続きを変更お
よび再構築せずに、様々なグループ化の選択肢に対応す
るために、本発明は、ユーザによって入力される異なる
オプションを記録するための表構造を提供する。ターゲ
ット・スキーマまたは文書型定義(Document Type Defi
nition;DTD)の図表に基づく経路によって識別され
る異なるノードについて、ユーザがこの表に様々なグル
ープ化の選択肢を入力することができる。
【0011】本発明は、ユーザが標準テキスト・エディ
タまたはグラフィカル・ユーザ・インターフェース(G
UI)ツールのどちらかを使用して、大部分を作成した
構造表を調整する固定トランスレータを含む。構造表を
ランタイム中に拡張することができる。データのグルー
プ化の方法は、ユーザの指定に従って実行される。文書
構造に応じて、ユーザが異なるグループを有することを
望む複数のロケーション/タグがある場合がある。この
表は、階層データのグループを記録するために、ユーザ
定義による、またはユーザの好みに従った自動定義によ
る構造情報を埋め込む。本発明の大きな利点は、ループ
問題から生じる曖昧さの、ユーザ提供による解決であ
る。
【0012】本発明のこれらおよび他の目的、特徴、お
よび利点は、その例示的実施形態の、添付図面と併せ読
まれるべき以下の詳細な説明から明らかになろう。
【0013】
【発明の実施の形態】本発明の詳細な説明を次に示す。
このような説明は、構造化文書翻訳における、ユーザ制
御可能なデータのグループ化のための本発明のシステム
および方法を示す。
【0014】本発明では、DOMツリー構造に構文解析
されることができるファイル形式ならどのような形式で
も入力文書形式として使用することができる。本発明の
好ましい実施形態について以下の説明で議論するファイ
ル形式は、XMLおよびEDIである。これらは、どち
らの形式もDOMツリー構造を作成するための単純なパ
ーサーを有するからである。本発明の翻訳方法は、ソー
ス経路データとターゲット経路データを含む単純な2列
の静的翻訳表に基づいている。この翻訳方法は、横断後
に表が空でない場合、静的な表を通過中に所与のノード
に割り当てられた特別な属性を除去するために使用され
る動的な表を自動的に作成する。本翻訳方法は、ソース
DOMツリーを入力とするターゲットDOMツリーを構
築する。この方法は、ターゲットDOMツリーを構築す
るために、ソースDOMツリーを接頭辞の順番付けで繰
り返し横断する。この方法は、訪れたすべてのノードに
関して、(ソースDOMツリーのルート・ノードから追
跡された)ノードの経路データを使用して、翻訳表の左
側の列にあるそれらの経路と照合する。一致するものが
あった場合、この方法は、翻訳表の右側の列にあるユー
ザ定義の(または、ユーザの好みに応じて、自動的に定
義された)宛先経路を使用して、以下のステップを実施
することによって、ターゲットDOMツリーの中に経路
を作成する。 1.ドットで区切られた宛先経路を、タグのリスト内
に、P1、P2、...、Pnというように構文解析する。 2.(ルート・ノードが存在しない場合は)、タグP1
を有するルートのようなルート・ノードを作成する。 3.リストからルート・ノード・タグを除去する。 4.parent_node←root 5.(タグ・リストが空でない間、) リストから次のタグを取り出し、除去し、除去されたタ
グがPi、Pi[#]、およびPi@['X']の3ケースを
有する場合、 ケース1:Pi タグPiを有するrなどの、最も後に作成されたノード
を突き止め、そのようなノードが存在しない場合は、r
などのノードを作成し、それをparent_node
の子リストに追加し、 ケース2:Pi[#] タグPiを有するrなどの新しいノードを作成し、pa
rent_nodeの子リストにrを追加し、 ケース3:Pi@['X'] タグPiおよび属性SORT='X'を有するrなどの、
最も後に作成されたノードを付き止め、そのようなノー
ドが存在しない場合は、rなどのそのようなノードを作
成し、それをparent_nodeの子リストに追加
し、そのタグおよび属性値を動的表に記録する。 parent_node←r 6.parent_node下の新しい値、すなわちP
nとして元の値をコピーする。 7.動的表が空でない場合は、ターゲットDOMツリー
を横断して、表中に記録されたそれらの属性を除去す
る。
【0015】静的表と動的表が完全にユーザに対して透
過的になるように、GUIツールを使用することができ
る。GUIツールは、まずDTD(XML用)またはマ
ップ(EDI用)を表示することができ、ノードはタグ
を表し、エッジは親子関係を表す。ユーザは、任意の非
リーフ・ノード上をクリックしてグループ化オプション
を選択し(多様性にまたはある種類の1つ)、新しいタ
ーゲット位置タグに対する名前を割り当てることができ
る。このツールは、ユーザが編集を終了した後で自動的
に静的表を生成する。本発明のこの態様を実施するため
のこのようなGUIツールは、周知のプログラミング技
術を使用して実施されることができる。
【0016】次に、同一または類似の要素を同様の番号
で表わした図面を参照すると、まず図1には、ANSI
X12 EDIスーパーセット・マップ(バージョン
003、リリース040)の一部が示されている。ブロ
ック10のように、187を超えるトランザクション集
合または文書タイプがある。例えば、番号850のトラ
ンザクション集合20は、買い注文(PO)文書タイプ
である。EDIによるすべてのトランザクション集合
は、ブロック30のようにそのトランザクションに含ま
れるすべての可能なデータ・セグメントとそれらの順序
を定義するマップ表を含む。このマップには、ヘッダ、
詳細、および要約の3つのセクションがある。セグメン
トID 60を定義する列は、すべての可能なデータ・
セグメントを列挙する。マップ表30は、ネストされた
ループを定義することができる位置タグを含む。例え
ば、位置タグBEGIN_N1_LOOP 70および
END_N1_LOOP 80は、4つのセグメントN
1、N2、N3、およびN4を含むループを形成する。
しかし、プログラムがEDIメッセージを処理しなけれ
ばならないときに、ループ問題またはグループ問題の原
因となる位置タグはEDIメッセージ内にはない。ま
た、EDIにより、すべてのデータ・セグメントは、そ
のデータ・セグメントに対してより小さいエンティティ
をさらに定義する、対応するデータ要素表を有すること
ができる。例えば、データ要素表40はN1セグメント
に関係し、4つの要素N101、N102、N103、
およびN104を定義する。データ要素ごとにデータ・
タイプ90がある。データ・タイプIDに関して、これ
は、現行データ要素の内容は略記法による表記であり、
対応する確認表を使用して復号するべきであるというこ
とを意味している。例えば、50のブロックは要素番号
98のデータ要素N101に対するものであり、取引先
または役割に関する全説明を含んでいる。この表には6
00を超える項目がある。
【0017】図2は、ブロック200のようにEDI形
式のサンプルPOメッセージを示す。230のようなデ
ータ・セグメント名表と240のようなデータ要素名表
は、EDIメッセージの意味を理解する助けとなること
ができる。N1に関しては、210および215でN1
セグメントとして示されるように、2つのループがあ
る。実際のメッセージは、これらのループの存在を示す
ための位置タグを持たない、200に示すようなフラッ
ト・ファイルである。
【0018】図3に、図2のサンプルPO EDIに対
する部分DOMツリーを示す。300のような楕円形の
ボックスはEDI構造に関係する内容を示し、320の
ような矩形のボックスは実際のデータ内容を表わす。こ
の図表には4つのレベルがあり、第1のレベルはトラン
ザクション集合であり、第2のレベルはデータ・セグメ
ントに関係し、第3のレベルはデータ要素に関係し、最
後のレベルは実データに関係している。実データは、
「Bill-To-Party」を示す「BT」を含む矩形のボック
ス330のような略記の表記法を含むことができる。こ
の図表は、ループN1に関係する2つのループがあり、
1つは楕円形ボックス310から始まり楕円形ボックス
312で終了し、もう1つは楕円形ボックス315から
始まり楕円形ボックス317で終了するというループ問
題をも示している。
【0019】図4に、XMLまたはEDIフラット・フ
ァイルのどちらかをソースとした場合のループ問題を解
決することができる、本発明によるトランスレータの流
れ図を示す。XMLトランスレータを402、EDIト
ランスレータを405として示す。XML 410また
はフラット・ファイル(EDI)415文書を入力とし
て受け取ることによって、XMLパーサー450または
フラット・ファイル・パーサー455は、事情に応じ
て、中間DOMツリー・インスタンス420を生成す
る。中間DOM構造インスタンス420を入力として受
け取り、翻訳されたDOM構造インスタンス422また
はXML文書425を出力することによって、翻訳アル
ゴリズム400(前述)はこのループ問題を効率的に解
決する。ユーザは、プレーン・テキスト・エディタまた
はより拡張されたGUIエディタ430および435を
使用して、どのように文書を分類するかを指定している
2列の静的変換表ブロック440および445を変更す
ることができる。XMLの場合のGUIツールは、DT
D 432を参照として表示し使用することができる。
【0020】図6および7に、図5に示す元のDOMイ
ンスタンスのフラット・ファイル変換用の2つの異なる
グループ化オプションを示し、一方のオプションは、図
6にあるようなサブツリー・タグの多様性に基づいて分
類し、もう一方のオプションは、図7にあるような同じ
サブツリー・タグに基づいて分類する。例えば、510
のノードGはA、B、およびCを収集し、515のノー
ドGは2つのAを収集する。複数のGが、ループ・グル
ープ化ノードを表わしながら、ターゲットDOMツリー
またはXML文書内に含まれることになる。図8および
9は、図6および7のツリーを生成するための対応する
表である。表520および表525のような静的表は、
ユーザがプレーン・テキスト・エディタまたはGUIツ
ールを使用して作成される。表530のような動的表
は、ランタイム中に生成された中間構造であってよい。
これらの表には、元の経路(左の列)と、一致した経路
に対する新しい経路を作成するためのユーザ定義の規則
(右の列)とを指定する2つの列が含まれる。ターゲッ
トDOMツリーまたはXML文書は、右の列にある一致
する経路の集合を使用して構築される。540のような
タグ名Gの後の「[#]」は、新しいノードがいつでも
同じタグ名(G)を使用して作成されることを示してい
る。545のようなタグ名Gの後の「@['A']」は、
指定された経路(右の列)に沿ったタグ名Gおよび属性
SORT=['A']を有するノードを探していることを
示している。属性名「SORT」は一意でなければなら
ない。このようなノードがない場合は、1つのノードが
作成される。動的表は、特定ノードに対する属性を除去
するために使用される。
【0021】図10に、600および605のBノード
のように同じタグ名を有する場合でも、異なる経路を分
類するための異なるグループ化オプションをユーザが選
択できる、より複雑な例を示す。例えば、タグ名Bは2
つの異なる経路、A.BおよびA.C.B上で出現し、
各経路は異なる分類オプションを有する。経路A.B.
XおよびA.B.Yは、624および626で規則を示
す右の列上で示されるように、XおよびYを様々に分類
する。ノードTは、ルーピング・タグとして挿入され
る。経路A.C.B.XおよびA.C.B.Yは、62
8および630の規則の右の列上に示すように、1種類
1つの規則を使用してXおよびYを2つのグループ、グ
ループXおよびYに分類する。645で属性「@」を使
用することによって、アルゴリズムを1種類1つの規則
を選択するために方向づける。Wノードは、ルーピング
・タグとして働くために挿入される。この例は、第1の
レベルが620および622のように、640のような
1種類1つのスタイルでA.BおよびA.Cを分類し、
第2のレベルがXおよびYのグループを分類する、2つ
の異なるレベルも示している。生成された属性ならどの
ような属性でも記憶するために、一時的な動的表が作成
される。このような動的表が作成されない場合は、アル
ゴリズムがその変換を完成させる。あるいは、前の経路
中にノードに関連付けられたすべての属性を除去するた
めに、ターゲットDOMツリーを通した第2の経路が実
行される。例えば、640および645での規則は、そ
れぞれにノードSおよびWに対する属性を導入し、それ
らは、632および634での左の列によって照合する
ことができる。このような属性は、650および655
で規則を使用して除去される。
【0022】本明細書で説明した発明は、汎用コンピュ
ータ上で実行されるプログラムとして実施されることが
好ましい。本発明は、磁気ディスクまたは光ディスク、
ハードディスク・ドライブ、メモリ、または当業者に周
知の他の記憶手段などのコンピュータ・プログラム製品
に格納された、または組み込まれた命令として実行され
使用されることもできる。
【0023】本明細書では本発明の例示的実施形態を添
付の図面を参照しながら説明したが、本発明はこれらの
厳密な実施形態に限定されるものではなく、当業者によ
って、本発明の範囲および趣旨から逸脱することなく、
様々なこの他の変更および修正をそれらの中で行うこと
ができることを理解されたい。
【0024】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0025】(1)構造化文書を処理する前に該文書か
ら曖昧さを除去するために、該文書を処理するための方
法であって、前記構造化文書を階層ツリー構造として表
現するステップと、前記階層ツリー構造に関連して、ユ
ーザによって定義された翻訳規則を受信するステップ
と、前記翻訳規則に従って、前記構造化文書を表現する
修正された階層ツリー構造を自動的に生成するステップ
とを含む、方法。 (2)前記翻訳規則が前記構造化文書の要素のグループ
化に関する規則を含む、上記(1)に記載の方法。 (3)グループ化に関する前記規則がサブツリー・タグ
の多様性とサブツリー・タグの識別子から構成されるグ
ループから選択される、上記(2)に記載の方法。 (4)グループ化に関する前記規則が2列の表として表
わされ、前記表の第1の列が前記階層ツリー構造にある
複数のノードを定義し、前記表の第2の列が前記複数の
ノードのそれぞれ1つのグループ化に適用される規則を
定義する、上記(3)に記載の方法。 (5)前記階層ツリー構造が文書オブジェクト・モデル
であり、翻訳されるべき前記構造化文書がフラット・フ
ァイルおよびXML(Extensible Markup Language)か
ら構成されるグループから選択される1つの形式であ
る、上記(1)に記載の方法。 (6)修正された階層ツリー構造を自動的に生成する前
記ステップが、該階層ツリー構造の各ノードを前記翻訳
規則に従って処理し、前記階層ツリー構造の中間の翻訳
を表わす動的表を自動的に生成し、前記中間の翻訳から
修正された階層ツリー構造を生成することを含む、上記
(1)に記載の方法。 (7)前記翻訳規則が、階層ツリー構造内のノードとし
て表わされる前記構造化文書の様々なデータ要素をユー
ザに表示するグラフィカル・ユーザ・インターフェース
を用いて、ユーザによって生成される、上記(1)に記
載の方法。 (8)前記構造化文書から除去されるべき曖昧さが、ル
ープとしてマークされないデータ・ループを含む、上記
(1)に記載の方法。 (9)構造化文書を処理する前に該文書から曖昧さを除
去するために、該文書を処理するためのシステムであっ
て、前記構造化文書を階層ツリー構造として表現するた
めの手段と、前記階層ツリー構造を参照するユーザから
翻訳規則を受信するための手段と、前記翻訳規則に従っ
て、前記構造化文書を表現する修正された階層ツリー構
造を自動的に生成するための手段とを含む、システム。 (10)前記翻訳規則が前記構造化文書の要素のグルー
プ化に関する規則を含む、上記(9)に記載のシステ
ム。 (11)グループ化に関する前記規則がサブツリー・タ
グの多様性およびサブツリー・タグの識別子から構成さ
れるグループから選択される、上記(10)に記載のシ
ステム。 (12)グループ化に関する前記規則が2列の表として
表わされ、前記表の第1の列が前記階層ツリー構造にあ
る複数のノードを定義し、前記表の第2の列が前記複数
のノードのそれぞれ1つのグループ化に適用される規則
を定義する、上記(11)に記載のシステム。 (13)前記階層ツリー構造が文書オブジェクト・モデ
ルであり、翻訳されるべき前記構造化文書がフラット・
ファイルおよびXML(Extensible Markup Language)
から構成されるグループから選択される1つの形式であ
る、上記(9)に記載のシステム。 (14)修正された階層ツリー構造を自動的に生成する
ための前記手段が、該階層ツリー構造の各ノードを前記
翻訳規則に従って処理し、前記階層ツリー構造の中間の
翻訳を表わす動的表を自動的に生成し、前記中間の翻訳
から修正された階層ツリー構造を生成するための手段を
含む、上記(9)に記載のシステム。 (15)階層ツリー構造内のノードとして前記構造化文
書のデータ要素をユーザに表示するグラフィカル・ユー
ザ・インターフェースと、そのようなノードに関するグ
ループ化オプションを選択することをユーザに可能にす
るための手段と、前記選択したグループ化オプションを
前記翻訳規則に変換するための手段とをさらに含む、上
記(9)に記載のシステム。 (16)前記構造化文書から除去されるべき曖昧さが、
ループとしてマークされないデータ・ループを含む、上
記(9)に記載のシステム。 (17)コンピュータ・プログラム製品であって、構造
化文書を処理する前に該文書から曖昧さを除去するため
に、前記構造化文書の処理を実行させるためのコンピュ
ータ可読プログラム・コード手段を含むコンピュータ可
用媒体を備え、前記コンピュータ・プログラム製品中の
前記コンピュータ可読プログラム・コード手段は、前記
構造化文書を階層ツリー構造として表現し、前記階層ツ
リー構造に関連して、ユーザによって定義された翻訳規
則を受信し、前記翻訳規則に従って、前記構造化文書を
表現する修正された階層ツリー構造を自動的に生成する
ことをコンピュータに実行させる、コンピュータ・プロ
グラム製品。
【図面の簡単な説明】
【図1】ANSI X12 EDIの部分的なスーパー
セット・マップ(バージョン003、リリース040)
である。
【図2】EDI形式によるPOメッセージのサンプルを
示す。
【図3】図2のサンプルPO EDIに関する部分DO
Mツリーを示す。
【図4】XMLまたはEDIフラット・ファイルのどち
らかをソースとするループ問題を解決することができる
トランスレータの流れ図である。
【図5】単純なフラット・ファイルDOMインスタンス
を示す。
【図6】サブツリー・タグの多様性に基づいて1つのオ
プションを分類する、フラット・ファイル変換のための
一方のグループ化オプションを示す。
【図7】サブツリー・タグに基づいてもう1つのオプシ
ョンを分類する、フラット・ファイル変換のためのもう
一方のグループ化オプションを示す。
【図8】図6に対応する表である。
【図9】図7に対応する表である。
【図10】同じタグ名を有する場合でさえも、ユーザが
異なる経路を分類するために、異なるグループ化オプシ
ョンを選択することができる、より複雑な例を示す。
【図11】同じタグ名を有する場合でさえも、ユーザが
異なる経路を分類するために、異なるグループ化オプシ
ョンを選択することができる、より複雑な例を示す。
【図12】同じタグ名を有する場合でさえも、ユーザが
異なる経路を分類するために、異なるグループ化オプシ
ョンを選択することができる、より複雑な例を示す。
【符号の説明】
400 翻訳アルゴリズム 402 XMLトランスレータ 405 EDIトランスレータ 410 XML 415 フラット・ファイル 420 中間DOM構造インスタンス 422 翻訳されたDOM構造インスタンス 430 エディタ 432 DTD 435 エディタ 440 静的変換表ブロック 445 静的変換表ブロック 450 XMLパーサー 455 フラット・ファイル・パーサー
───────────────────────────────────────────────────── フロントページの続き (72)発明者 シー・クウェイ・チャン アメリカ合衆国10514 ニューヨーク州チ ャパクア ミードウ・トレイル 3 (72)発明者 ジェン・ヤオ・チャン アメリカ合衆国10598 ニューヨーク州ヨ ークタウン・ハイツ エバーグリーン・ス トリート 2776 (72)発明者 マイケル・ジェイ・ディン アメリカ合衆国95136 カリフォルニア州 サンノゼ コパフィールド・ドライブ 3637 アパートメント 373 Fターム(参考) 5B009 NA05 QA06 5B082 HA00

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】構造化文書を処理する前に該文書から曖昧
    さを除去するために、該文書を処理するための方法であ
    って、 前記構造化文書を階層ツリー構造として表現するステッ
    プと、 前記階層ツリー構造に関連して、ユーザによって定義さ
    れた翻訳規則を受信するステップと、 前記翻訳規則に従って、前記構造化文書を表現する修正
    された階層ツリー構造を自動的に生成するステップとを
    含む、方法。
  2. 【請求項2】前記翻訳規則が前記構造化文書の要素のグ
    ループ化に関する規則を含む、請求項1に記載の方法。
  3. 【請求項3】グループ化に関する前記規則がサブツリー
    ・タグの多様性とサブツリー・タグの識別子から構成さ
    れるグループから選択される、請求項2に記載の方法。
  4. 【請求項4】グループ化に関する前記規則が2列の表と
    して表わされ、前記表の第1の列が前記階層ツリー構造
    にある複数のノードを定義し、前記表の第2の列が前記
    複数のノードのそれぞれ1つのグループ化に適用される
    規則を定義する、請求項3に記載の方法。
  5. 【請求項5】前記階層ツリー構造が文書オブジェクト・
    モデルであり、翻訳されるべき前記構造化文書がフラッ
    ト・ファイルおよびXML(Extensible Markup Langua
    ge)から構成されるグループから選択される1つの形式
    である、請求項1に記載の方法。
  6. 【請求項6】修正された階層ツリー構造を自動的に生成
    する前記ステップが、該階層ツリー構造の各ノードを前
    記翻訳規則に従って処理し、前記階層ツリー構造の中間
    の翻訳を表わす動的表を自動的に生成し、前記中間の翻
    訳から修正された階層ツリー構造を生成することを含
    む、請求項1に記載の方法。
  7. 【請求項7】前記翻訳規則が、階層ツリー構造内のノー
    ドとして表わされる前記構造化文書の様々なデータ要素
    をユーザに表示するグラフィカル・ユーザ・インターフ
    ェースを用いて、ユーザによって生成される、請求項1
    に記載の方法。
  8. 【請求項8】前記構造化文書から除去されるべき曖昧さ
    が、ループとしてマークされないデータ・ループを含
    む、請求項1に記載の方法。
  9. 【請求項9】構造化文書を処理する前に該文書から曖昧
    さを除去するために、該文書を処理するためのシステム
    であって、 前記構造化文書を階層ツリー構造として表現するための
    手段と、 前記階層ツリー構造を参照するユーザから翻訳規則を受
    信するための手段と、 前記翻訳規則に従って、前記構造化文書を表現する修正
    された階層ツリー構造を自動的に生成するための手段と
    を含む、システム。
  10. 【請求項10】前記翻訳規則が前記構造化文書の要素の
    グループ化に関する規則を含む、請求項9に記載のシス
    テム。
  11. 【請求項11】グループ化に関する前記規則がサブツリ
    ー・タグの多様性およびサブツリー・タグの識別子から
    構成されるグループから選択される、請求項10に記載
    のシステム。
  12. 【請求項12】グループ化に関する前記規則が2列の表
    として表わされ、前記表の第1の列が前記階層ツリー構
    造にある複数のノードを定義し、前記表の第2の列が前
    記複数のノードのそれぞれ1つのグループ化に適用され
    る規則を定義する、請求項11に記載のシステム。
  13. 【請求項13】前記階層ツリー構造が文書オブジェクト
    ・モデルであり、翻訳されるべき前記構造化文書がフラ
    ット・ファイルおよびXML(Extensible Markup Lang
    uage)から構成されるグループから選択される1つの形
    式である、請求項9に記載のシステム。
  14. 【請求項14】修正された階層ツリー構造を自動的に生
    成するための前記手段が、該階層ツリー構造の各ノード
    を前記翻訳規則に従って処理し、前記階層ツリー構造の
    中間の翻訳を表わす動的表を自動的に生成し、前記中間
    の翻訳から修正された階層ツリー構造を生成するための
    手段を含む、請求項9に記載のシステム。
  15. 【請求項15】階層ツリー構造内のノードとして前記構
    造化文書のデータ要素をユーザに表示するグラフィカル
    ・ユーザ・インターフェースと、 そのようなノードに関するグループ化オプションを選択
    することをユーザに可能にするための手段と、 前記選択したグループ化オプションを前記翻訳規則に変
    換するための手段とをさらに含む、請求項9に記載のシ
    ステム。
  16. 【請求項16】前記構造化文書から除去されるべき曖昧
    さが、ループとしてマークされないデータ・ループを含
    む、請求項9に記載のシステム。
  17. 【請求項17】コンピュータ・プログラム製品であっ
    て、 構造化文書を処理する前に該文書から曖昧さを除去する
    ために、前記構造化文書の処理を実行させるためのコン
    ピュータ可読プログラム・コード手段を含むコンピュー
    タ可用媒体を備え、 前記コンピュータ・プログラム製品中の前記コンピュー
    タ可読プログラム・コード手段は、 前記構造化文書を階層ツリー構造として表現し、 前記階層ツリー構造に関連して、ユーザによって定義さ
    れた翻訳規則を受信し、 前記翻訳規則に従って、前記構造化文書を表現する修正
    された階層ツリー構造を自動的に生成することをコンピ
    ュータに実行させる、 コンピュータ・プログラム製品。
JP2002036160A 2001-02-14 2002-02-14 構造化文書翻訳におけるユーザ制御可能なデータをグループ化する方法およびシステム Pending JP2002318798A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/783,491 US7114123B2 (en) 2001-02-14 2001-02-14 User controllable data grouping in structural document translation
US09/783491 2001-02-14

Publications (1)

Publication Number Publication Date
JP2002318798A true JP2002318798A (ja) 2002-10-31

Family

ID=25129422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002036160A Pending JP2002318798A (ja) 2001-02-14 2002-02-14 構造化文書翻訳におけるユーザ制御可能なデータをグループ化する方法およびシステム

Country Status (3)

Country Link
US (1) US7114123B2 (ja)
JP (1) JP2002318798A (ja)
KR (1) KR20020066980A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8171052B2 (en) 2008-03-03 2012-05-01 International Business Machines Corporation Information search system, method and program
US8370399B2 (en) * 2006-12-04 2013-02-05 Microsoft Corporation Building, viewing, and manipulating schema sets

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI113302B (fi) * 2001-05-25 2004-03-31 Metso Automation Oy Tilannekuvien käyttäminen teollisuusautomaatioprosessin ohjausjärjestelmässä
US7281211B2 (en) * 2001-12-21 2007-10-09 Gxs, Inc. Automated method, system, and software for transforming data between extensible markup language format and electronic data interchange format
US20030131071A1 (en) * 2002-01-08 2003-07-10 G.E. Information Services, Inc. Electronic document interchange document object model
US20030159105A1 (en) * 2002-02-21 2003-08-21 Hiebert Steven P. Interpretive transformation system and method
US8032828B2 (en) * 2002-03-04 2011-10-04 Hewlett-Packard Development Company, L.P. Method and system of document transformation between a source extensible markup language (XML) schema and a target XML schema
US7921359B2 (en) * 2002-04-19 2011-04-05 Sas Institute Inc. Computer-implemented system and method for tagged and rectangular data processing
US7207067B2 (en) * 2002-11-12 2007-04-17 Aol Llc Enforcing data protection legislation in Web data services
KR100561228B1 (ko) * 2003-12-23 2006-03-15 한국전자통신연구원 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
US7254574B2 (en) * 2004-03-08 2007-08-07 Microsoft Corporation Structured indexes on results of function applications over data
JPWO2005098661A1 (ja) * 2004-04-08 2008-02-28 株式会社ジャストシステム 文書処理装置及び文書処理方法
US9098476B2 (en) * 2004-06-29 2015-08-04 Microsoft Technology Licensing, Llc Method and system for mapping between structured subjects and observers
US7437665B2 (en) * 2004-07-23 2008-10-14 International Business Machines Corporation SEF parser and EDI parser generator
US7506324B2 (en) * 2004-09-02 2009-03-17 Microsoft Corporation Enhanced compiled representation of transformation formats
US20060167907A1 (en) * 2005-01-27 2006-07-27 Kevin Jones System and method for processing XML documents
US7634722B2 (en) * 2005-03-08 2009-12-15 Aspect Software, Inc. Reversible logic for widget and markup language generation
US7945904B2 (en) * 2005-08-22 2011-05-17 Microsoft Corporation Embedding expression in XML literals
US7650353B2 (en) * 2005-12-16 2010-01-19 Microsoft Corporation XML specification for electronic data interchange (EDI)
US7647500B2 (en) * 2005-12-16 2010-01-12 Microsoft Corporation Synchronous validation and acknowledgment of electronic data interchange (EDI)
US7447707B2 (en) * 2005-12-16 2008-11-04 Microsoft Corporation Automatic schema discovery for electronic data interchange (EDI) at runtime
US7599944B2 (en) * 2005-12-16 2009-10-06 Microsoft Corporation Electronic data interchange (EDI) schema simplification interface
US7620645B2 (en) * 2006-02-24 2009-11-17 Microsoft Corporation Scalable algorithm for sharing EDI schemas
US7984373B2 (en) * 2006-02-24 2011-07-19 Microsoft Corporation EDI instance based transaction set definition
US7685208B2 (en) * 2006-02-24 2010-03-23 Microsoft Corporation XML payload specification for modeling EDI schemas
US7703099B2 (en) * 2006-02-24 2010-04-20 Microsoft Corporation Scalable transformation and configuration of EDI interchanges
US8156148B2 (en) * 2006-02-24 2012-04-10 Microsoft Corporation Scalable algorithm for sharing EDI schemas
US7542982B2 (en) * 2006-09-05 2009-06-02 International Business Machines Corporation Message validation model
US20080059506A1 (en) * 2006-09-05 2008-03-06 Suman Kumar Kalia Method, system and schema for building a hierarchical model schema definition from a flat model definition
US20080059577A1 (en) * 2006-09-05 2008-03-06 Suman Kumar Kalia Scalable logical model for edi and system and method for creating, mapping and parsing edi messages
US20080071887A1 (en) * 2006-09-19 2008-03-20 Microsoft Corporation Intelligent translation of electronic data interchange documents to extensible markup language representations
US20080126385A1 (en) * 2006-09-19 2008-05-29 Microsoft Corporation Intelligent batching of electronic data interchange messages
US20080126386A1 (en) * 2006-09-20 2008-05-29 Microsoft Corporation Translation of electronic data interchange messages to extensible markup language representation(s)
US8161078B2 (en) * 2006-09-20 2012-04-17 Microsoft Corporation Electronic data interchange (EDI) data dictionary management and versioning system
US20080071806A1 (en) * 2006-09-20 2008-03-20 Microsoft Corporation Difference analysis for electronic data interchange (edi) data dictionary
US8108767B2 (en) * 2006-09-20 2012-01-31 Microsoft Corporation Electronic data interchange transaction set definition based instance editing
WO2008070877A2 (en) * 2006-12-08 2008-06-12 Hall Patrick J Online computer-aided translation
US20080168081A1 (en) * 2007-01-09 2008-07-10 Microsoft Corporation Extensible schemas and party configurations for edi document generation or validation
US20080168109A1 (en) * 2007-01-09 2008-07-10 Microsoft Corporation Automatic map updating based on schema changes
US9558169B2 (en) * 2007-11-20 2017-01-31 Sap Se Hierarchical grouping columns
US9418061B2 (en) * 2007-12-14 2016-08-16 International Business Machines Corporation Prioritized incremental asynchronous machine translation of structured documents
US8150862B2 (en) * 2009-03-13 2012-04-03 Accelops, Inc. Multiple related event handling based on XML encoded event handling definitions
US8510432B2 (en) * 2009-06-26 2013-08-13 Accelops, Inc. Distributed methodology for approximate event counting
US8464233B2 (en) 2010-06-21 2013-06-11 Microsoft Corporation Compile time interpretation of markup codes
US9229923B2 (en) 2012-06-27 2016-01-05 Technologies Xpertdoc Inc. Method and system for producing documents
US9591052B2 (en) 2013-02-05 2017-03-07 Apple Inc. System and method for providing a content distribution network with data quality monitoring and management
US20190347341A1 (en) * 2018-05-09 2019-11-14 Carecloud Corporation Method and system for schema transformation
US10402380B1 (en) 2018-05-09 2019-09-03 Carecloud Corporation Interactive user interface for schema transformation
US11194833B2 (en) * 2019-10-28 2021-12-07 Charbel Gerges El Gemayel Interchange data format system and method

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5202977A (en) * 1990-07-13 1993-04-13 Premenos Corp. Edi translation system using plurality of communication processes and de-enveloping procedure corresponding to transmitted communication process
US5909570A (en) * 1993-12-28 1999-06-01 Webber; David R. R. Template mapping system for data translation
US6182121B1 (en) * 1995-02-03 2001-01-30 Enfish, Inc. Method and apparatus for a physical storage architecture having an improved information storage and retrieval system for a shared file environment
US5878419A (en) * 1996-01-19 1999-03-02 Novell, Inc. Method for creating a relational description of a formatted transaction
US5915259A (en) * 1996-03-20 1999-06-22 Xerox Corporation Document schema transformation by patterns and contextual conditions
JPH10187721A (ja) * 1996-10-28 1998-07-21 Fuji Xerox Co Ltd 文書処理装置、文書型判定方法、階層的正規表現判定方法、文書処理プログラムを記録した媒体、文書型判定プログラムを記録した媒体及び階層的正規表現判定プログラムを記録した媒体
US20020156814A1 (en) * 1997-01-13 2002-10-24 Ho Bruce K. Method and apparatus for visual business computing
CA2223953A1 (en) * 1997-12-05 1999-06-05 Colin Gajraj Transformation of marked up documents
JP3912895B2 (ja) * 1998-04-15 2007-05-09 富士通株式会社 構造化データ管理システム、構造化データ管理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び構造化データ管理方法
US6507856B1 (en) * 1999-01-05 2003-01-14 International Business Machines Corporation Dynamic business process automation system using XML documents
US6668354B1 (en) * 1999-01-05 2003-12-23 International Business Machines Corporation Automatic display script and style sheet generation
US6732330B1 (en) * 1999-09-30 2004-05-04 International Business Machines Corporation Scripting language blocks to support multiple scripting languages in a single web page
US6725424B1 (en) * 1999-12-09 2004-04-20 International Business Machines Corp. Electronic document delivery system employing distributed document object model (DOM) based transcoding and providing assistive technology support
US6845507B2 (en) * 2000-05-18 2005-01-18 Ss & C Technologies, Inc. Method and system for straight through processing
US6826726B2 (en) * 2000-08-18 2004-11-30 Vaultus Mobile Technologies, Inc. Remote document updating system using XML and DOM

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370399B2 (en) * 2006-12-04 2013-02-05 Microsoft Corporation Building, viewing, and manipulating schema sets
US8171052B2 (en) 2008-03-03 2012-05-01 International Business Machines Corporation Information search system, method and program

Also Published As

Publication number Publication date
US7114123B2 (en) 2006-09-26
KR20020066980A (ko) 2002-08-21
US20020111964A1 (en) 2002-08-15

Similar Documents

Publication Publication Date Title
JP2002318798A (ja) 構造化文書翻訳におけるユーザ制御可能なデータをグループ化する方法およびシステム
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
US6950984B2 (en) Method, system for, and program product for generating a display rule for a structured document, and for changing a structured document and its document type definition
JP4997749B2 (ja) 文書処理方法、プログラム及びシステム
EP1580671A2 (en) Data mapping with nested tables
EP2211277A1 (en) Method and apparatus for generating an integrated view of multiple databases
US20080134019A1 (en) Processing Data And Documents That Use A Markup Language
US20170154019A1 (en) Template-driven transformation systems and methods
US20090235164A1 (en) Text file interface support in an object oriented application
JP2005070911A (ja) 構造化文書のデータを検索する装置および方法
CN102768674A (zh) 一种基于路径结构的xml数据存储方法
CN110489625A (zh) 一种网页数据采集模板的生成方法和装置
JP2008097215A (ja) データ処理装置
US9189464B2 (en) Method and system for XML multi-transform
JP4566196B2 (ja) 文書処理方法および装置
JPWO2006051974A1 (ja) 文書処理装置および文書処理方法
US20070097401A1 (en) Electronic paper file generator
WO2007052680A1 (ja) 文書処理装置及び文書処理方法
JP4627530B2 (ja) 文書処理方法および装置
EP2843545A1 (en) Representation of multiple markup language files that differ in structure and content in one file for the production of new markup language files
JP2004348341A (ja) 構造化文書処理システム、構造化文書処理方法及びプログラム
JP2004038334A (ja) 操作位置記憶方法、構造化文書表示方法、構造化文書表示装置、プログラム、および操作位置記憶データ
US7533335B1 (en) Representing fields in a markup language document
US20090217156A1 (en) Method for Storing Localized XML Document Values
EP1743254A1 (en) Processing data and documents that use a markup language

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060509