JPH07200550A - 属性文法および属性結合に基づくドキュメント変換方法 - Google Patents

属性文法および属性結合に基づくドキュメント変換方法

Info

Publication number
JPH07200550A
JPH07200550A JP6300773A JP30077394A JPH07200550A JP H07200550 A JPH07200550 A JP H07200550A JP 6300773 A JP6300773 A JP 6300773A JP 30077394 A JP30077394 A JP 30077394A JP H07200550 A JPH07200550 A JP H07200550A
Authority
JP
Japan
Prior art keywords
attribute
grammar
document
tree
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6300773A
Other languages
English (en)
Inventor
Toshiro Wakayama
ワカヤマ トシロウ
Jr Allen L Brown
エル ブラウン ジュニア アレン
Suryanarayana M Mantha
エム マンサ スリャナラヤナ
An Feng
フェン アン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH07200550A publication Critical patent/JPH07200550A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 第1のドキュメントを第2のドキュメントに
変換する方法およびシステムを提供する。 【構成】 第1のドキュメントは、第1の拡張属性文法
により、第2のドキュメントは第2の拡張属性文法によ
りそれぞれ記述される。拡張属性結合文法は、第1およ
び第2の拡張属性文法を結合する。第1のドキュメント
が、第1の木に変換され、特に、第1のコピーに複製さ
れる。第1のコピーは、拡張属性結合文法についてその
属性を評価することにより計算される。第1のコピー
は、第2のドキュメントの部分的な属性木にされる。こ
の部分的な属性木は、第2の拡張属性文法に基づいて第
2の木にされる。続いて、第2の木は、第2のドキュメ
ントに変換される。

Description

【発明の詳細な説明】
【0001】
【技術分野】この発明は、ある属性文法の下で妥当な属
性木を、別の属性文法の下で妥当な他の属性木に変換す
るための方法および装置に関する。
【0002】
【発明の背景】電子ドキュメントが紙のドキュメントを
超える予想された利点(ただし、部分的にのみ実現され
ている)として、高められたドキュメント処理能力と簡
単化されたドキュメント操作(例えば、ドキュメントの
生成、編集、更新、記憶、アクセスおよび配送)が挙げ
られる。既存のシステムにおいて、このようなドキュメ
ント操作の向上を可能とするキーは、ドキュメントの内
容だけでなく、その内容についての様々なメタ情報を表
現する能力である。例えば、章、節およびパラグラフの
区切れ(ブレーク)のようなドキュメント構造は、ブラ
ウジング、リトリーブ(検索)およびコンポーネントの
再使用のために明示して表現することが可能である。
【0003】しかし、一つの中心的な技術的問題とし
て、このようなメタ情報を、コンピュータと人間が容易
に操作できる方法で、どのように表現するかという問題
がある。この問題に対するよく知られたアプローチとし
て、ドキュメントの階層的構造(例えば、章、節および
パラグラフの区切れ)を表すために(プログラミング言
語を記述するために使用される)形式文法(フォーマル
・グラマー)を適用するものがある。例えば、SGML
(標準一般化マークアップ言語:Standard Generalized
Markup Languages )は、この目的のために、文脈自由
文法を拡張したものを使用している。
【0004】この発明は、電子ドキュメントの表現およ
び操作を行う既存の文法ベースのアプローチにおいて十
分ではない2つのものに向けられている。第1に、これ
らのアプローチは、属性およびその従属関係を記述する
能力に唯一の制限がある。例えば、属性「節」(セクシ
ョン)は、属性「章」(チャプタ)のあるものに従属す
る。第2に、これらのアプローチは、ドキュメント変換
の記述および計算の能力が不十分である。すなわち、こ
れらのアプローチは、ある文法の導出木としてのドキュ
メント・インスタンスを、別の文法の導出木としてドキ
ュメント・インスタンスに十分に変換できない。
【0005】この第1の制限は、第2の制限につなが
る。ドキュメント変換のアイデアは、様々な理由により
重要である。例えば、文法ベースのドキュメント・スキ
ーマの概念は、ドキュメントの構造情報を捉えるのに有
益であるが、与えられたスキーマの下で生成できるドキ
ュメントの種類について、柔軟性のなさをももってい
る。最初に熟考せずに設計されたドキュメントの特徴を
融通させるために、与えられたスキーマの修正がよく行
われるので、これは、与えられたスキーマから修正され
たスキーマへドキュメントを変換する必要性を生成す
る。これに加え、いくつかの学会のドキュメントは、非
常に大きく、複雑であるので、よりカスタマイズされ、
管理可能なドキュメント変換としての視野の記述および
計算を可能とすることが高く望まれている。さらに、ド
キュメント変換として、既存のドキュメントからドキュ
メントを自動的にアセンブルすることが可能であり、望
まれている。例えば、あらかじめ提出されたプロジェク
ト・レポートから研究所の技術レポートの草稿を生成す
ることが挙げられる。
【0006】
【発明の概要】したがって、必要とされるのは、ドキュ
メントのクラスに共通の総称的な性質を拡張属性文法と
して記述すること、この拡張属性文法から別の拡張属性
文法への変換を拡張属性結合して記述すること、および
属性評価としてこの変換を計算することを行うための方
法および装置である。
【0007】したがって、この発明は、ドキュメントの
総称的な論理構造を拡張属性文法として記述するための
方法および装置を提供する。また、この発明は、他の拡
張属性文法として、あるクラスの論理構造から他のクラ
スの論理構造への変換を記述する方法および装置を提供
する。
【0008】さらに、この発明は、第1の拡張属性文法
から第2の拡張属性文法への変換によって、あるクラス
のドキュメントを第2のクラスのドキュメントに変換す
るための方法および装置を提供する。この変換は拡張属
性結合として記述される。
【0009】この発明は、第1のドキュメントから第2
のドキュメントへの変換を、属性評価として計算するこ
とを提供する。
【0010】これらの目的および他の目的を達成し、既
存のアプローチの不利な点を解決するために、第1のド
キュメントを第2のドキュメントに変換する方法および
装置は、第1のドキュメントのクラスを拡張属性文法と
して、第2のドキュメントのクラスを第2の拡張属性文
法として記述することを含んでいる。第1および第2の
ドキュメントは、第1および第2の拡張属性文法から生
成された木によって表される。拡張属性文法は、論理的
および非論理的な属性を含んでいる。非論理的な属性
は、輸入属性、継承属性および合成属性を含んでいる。
また、前記変換方法および装置は、第1の拡張属性文法
と第2の拡張属性文法との間で結合する拡張属性を記述
することにより、第1のドキュメントを第2のドキュメ
ントへ変換すること、および第1のドキュメントの木か
ら第2のドキュメントの木への変換を、第2の拡張属性
文法による第1の拡張属性文法の属性評価として、計算
することを含んでいる。この属性評価を計算する方法お
よび装置は、第2のソース木の継承属性と合成属性を拡
張属性結合によって評価し、第2の拡張属性文法のため
の部分的な属性木を生成すること、および部分的な属性
木の残りの属性を第2の拡張属性文法によって評価し、
第2のドキュメントを生成することを含んでいる。
【0011】
【実施例】文字系は、空でない記号の有限集合である。
したがって、が文字系ならば、の記号列はからの
記号の有限列(有限シーケンス)である。εで表される
空の記号列は、零記号からなる記号列である。の言語
は、の記号列の無限集合となることがある。の正規
表現(正則表現)は、の正則言語に関連している。こ
こで、(r)は、正規表現“r”と関連した言語であ
る。したがって、“α”がの記号列ならば、αは
正規表現であり、かつ、(α)=α、すなわち、単一
記号列αからなる集合である。特に、εは正規表現であ
り、(ε)={ε}である。さらに、“r”と“u”
の正規表現ならば、これらの連接“ru”も正規表
現であり、かつ、次の式となる。
【0012】 (ru)={αβ‖α ε (r) and β ε (u)} (1)
【0013】すなわち、(ru)は、“r”の言語か
らの記号列と“u”の言語からの記号列とをこの順番で
連接することにより構成できる全ての記号列の集合であ
る。さらに、“r”および“u”がの正規表現なら
ば、これらの和集合“r|u”もそうであり、かつ、次
の式で表される。
【0014】 (r|u)=L(r)∪L(u); (2)
【0015】さらに、“r”がの正規表現ならば、そ
のKleene閉包“r* ”はそうであり、かつ、次のように
表される。
【0016】 (r* )={ε}∪(r)∪(rr)∪(rrr)∪…, (3)
【0017】すなわち、L(r* )は、“r”の言語か
らの記号列を零または1以上の任意の回数(ただし、有
限回)連接することにより構成できる全ての記号列の集
合である。
【0018】また、“r+ ”は、正規表現“r
(r* )”を表すために使用される。したがって、“r
+ ”の言語は、“r”の言語からの1または2以上の記
号列を連接することにより構成できる全ての記号列の集
合である。すなわち、(r* ) は、そえぞれが“r”
の異なる個数を有する有限個の記号列および空集合εを
含む。一方、(r+ ) は、空集合εを除く全ての
(r* ) を含む。便宜上、正規表現の記号列は、その正
規表現と関連した言語の記号列である。
【0019】正規拡張を有する文脈自由文法、すなわち
文脈自由文法を短くするために簡単な拡張文脈自由文法
は、タプル=(Σ,Z)となる。は、
語彙(ボキャブラリ)と呼ばれる文字系である。の要
素は、の(文法)記号と呼ばれる。Σの部分集合
であり、Σの要素はの終端記号と呼ばれる。Gの終端
記号でないの記号は、の非終端記号と呼ばれる。Z
は、の開始記号と呼ばれる、の指定された非終端記
号である。は、のプロダクションの有限集合であ
る。のプロダクションは、次の式で表される。
【0020】 q:X→r (4)
【0021】ここで、“q”はプロダクションの名前で
あり、Xはの記号であり、“r”は−{}の正規
表現である。Xが終端記号ならば、“r”は空の記号列
εである。
【0022】非終端記号は大文字で始まり、終端記号は
すべて小文字である。図1は、拡張された文脈自由文法
(拡張文脈自由文法) 1 の例を示している。
【0023】この拡張文脈自由文法 1 において、 1
の終端記号Σ1 は、記号“word”である。 1 の開始記
号Z1 は、記号“Section ”である。 1 の語彙
1 は、“Section, SectionHead, Paragraph, Summary,
word”である。したがって、プロダクション“qn ”は
次のようになる。
【0024】 q0 :Section → SectionHead Paragraph+ (Summary|ε) q1 :SectionHead → word+ 2 :Paragraph → word+ (5) q3 :Summary → word+
【0025】プロダクション“q0 ”は、各Section
が、1または2以上のParagragh と、場合によってはSu
mmary が後に続くSectionHead を含むことを示してい
る。プロダクション“q1 ”は、各SectionHead が1ま
たは2以上のwordの列であることを示している。プロダ
クション“q2 ”は、各Paragragh が1または2以上の
wordの列であることを示している。プロダクション“q
3 ”は、各Summary も1または2以上のwordの列である
ことを示している。さらに、拡張文脈自由文法の任意の
プロダクション“q:A→r”に対して、プロダクショ
ンのインスタンスは次の通りである。
【0026】A→α,
【0027】ここで、αは正規表現“r”の言語
(r)の記号列である。例えば、上記のプロダクション
“q0 ”は、次の可能なインスタンスを有する(ただ
し、これらのインスタンスに制限されるものではな
い)。
【0028】Section →SectionHead Paragragh Paragr
agh Paragragh SummarySection →SectionHead Paragra
gh Paragragh Paragragh Paragragh Paragragh
【0029】拡張文脈自由文法に対して、の導出木
または単にの木は、順序付けられ、かつ、各ノードが
の記号によってラベル付けされたラベルをもつ木であ
る。すべての内部ノード(すなわち、一つのノードは1
または2以上の子供をもつ)は、のプロダクションと
関連づけられている。したがって、全ての内部ノードに
対して、そのラベルが“A”であり、かつ、その子供の
ラベルが、左から右へ“X1,X2,…,Xn ”ならば、
“A→X1 2 …Xn ”は、内部ノードと関連付けられ
たプロダクションのインスタンスである。導出木は、そ
のルート・ノードがその文法の開始記号でラベル付けさ
れ、かつ、すべてのリーフ・ノード(すなわち、子供を
持たないノード)が終端記号でラベル付けされているな
らば、完全である。図1は、上記例における文法の完全
である導出木の例を示している。
【0030】ドキュメントの構成要素のこの総称的構造
および属性は、従来の属性文法を拡張することによって
得られる。ドキュメント変換は、ソースの拡張属性文法
の属性木から結果の拡張属性文法の属性木へ写像するこ
とにより与えられる。クリティカル・ポイントは、この
ような写像自体が、拡張属性文法の特別な形態である拡
張属性結合によって記述されるということである。ドキ
ュメント変換は、属性結合文法の下で、属性評価プロセ
スとして計算される。このプロセスへの入力は、結果の
属性文法の属性木である。最後に、この木の残りの属性
が、十分な属性を得るために、結果の文法の下で評価さ
れる。このプロセスは、図2に示されている。
【0031】図3〜図6は、一対のドキュメントの拡張
属性文法および結果の木を示している。図3は、第1の
ドキュメントの第1の拡張属性文法を示している。図4
は、第1の拡張属性文法に基づき、第1のドキュメント
から生成された属性木を示している。これに対して、図
5は第2のドキュメントの第2の属性文法を示し、図6
は第2の拡張属性文法に基づき、第2のドキュメントか
ら生成された第2の木を示している。次の例では、第1
のドキュメントが第2のドキュメントに変換されるの
で、第1の拡張属性文法、第1の木および第1のドキュ
メントは、ソース拡張属性文法、ソース木およびソース
・ドキュメントとも呼ばれる。同様に、第2の拡張属性
文法、第2の木および第2のドキュメントは、結果拡張
属性文法、結果木および結果ドキュメントとも呼ばれ
る。
【0032】例えば、 2 =( 2 Σ 2 2
2 )は、拡張文脈自由文法である。 2 の各記号X2
に対して、属性についての多くの集合が存在する。属性
の第1の集合は論理属性からなる。これらの属性は、シ
ステム定義のものであり、木の属性を含んでいる。木の
属性は、それ自体、カウント属性を含んでいる。カウン
ト属性は、同じラベルをもつ様々なノードの子供の個数
を含む。
【0033】属性の第2の集合は、ユーザ定義の非論理
属性からなる。これらの属性は、輸入(インポート:im
ported)され、継承(inherited )され、かつ合成(sy
nthesized )された属性を含んでいる。輸入された属性
(輸入属性)は、開始記号および終端記号のみと関連し
ている。一般に、記号が宣言され定義されると、記号の
それぞれに対する属性およびそのタイプが宣言される。
【0034】記号のタイプは、その記号がその入力を得
る場所に基づいて決定される。合成された属性(合成属
性)は、その子供(すなわち、現在の記号から新しい記
号へ拡張する木の枝)からその入力を得る。したがっ
て、合成属性は、一般に計算される。一方、これらは、
一つの子供の記号からコピーのみすることもできる。
【0035】継承された属性(継承属性)について、情
報の流れは合成属性の流れと反対である。すなわち、継
承属性は、その木の親記号からその入力を得る。したが
って、継承属性は、計算されることもあるが、一般に、
親記号からコピーされるだけである。
【0036】輸入属性について、情報の流れは、木の内
部ではなく、木と木の間で行われる。したがって、輸入
属性は、他の木からその入力を得る。さらに、終端記号
および開始記号だけが輸入属性をもつが、輸入属性は、
他の木の任意の記号からその入力を得ることができる。
したがって、輸入属性は、入力された属性値から計算す
ることもできるし、入力された属性値の単なるコピーで
あってもよい。
【0037】これらの集合は、ペア状の解体(ディスジ
ョイント)である。全ての論理属性は汎用の定義を有す
る。このカテゴリーの(木の)属性の一つのクラスは、
カウント属性と呼ばれる。すなわち、各記号Xは、その
文法の各記号Yに対するカウントY属性を有する。カウ
ントY属性は、“Y”のラベルが付けられた子供の個数
を表す。合成され継承された属性の例として、次のプロ
ダクションを仮定する。
【0038】 q0 :Lab → Scientist+ (6)
【0039】つづいて、2つの記号“Lab ”と“Scient
ist ”は、次の属性を有する。記号“Lab ”は、その属
性として、合成属性である“Total-Patents ”および継
承属性である“Base-Salary ”を有する。記号“Scient
ist ”は、その属性として、合成属性である“Bonus ”
および“Patents ”、ならびに継承属性である“Total-
Salary”を有する。
【0040】各プロダクションは、属性文ないし単に文
(ステートメント)の集合と関連付けられている。これ
らの文は、例えば、Lab のすべてのpatents (特許)の
個数が、個々のScientist (科学者)のpatents (特
許)の合計であり、各Scientist (科学者)にとって、
そのサラリー(Salary)は、Lab のBase-Salary (基本
サラリー)とbonus (ボーナス)となる。
【0041】表記を簡単にするために、プロダクトにお
ける記号は、多重発生を有しない。これは、添字等によ
り多重発生をリネームすることにより、および導出木の
構成のように構文評価のために内部変化可能な記号とし
て、各多重発生を扱うことにより達成される。これら
は、従来の属性文法において通常行われる。一方、拡張
文脈自由文法の設定において、プロダクションの記号
は、*および+(例えば、Scientist + )のような反復
演算子の範囲内で発生し、このようなプロダクションの
インスタンスは、記号の多重発生を有する。例えば、式
(6) のプロダクション“q0 ”の一つのインスタンス
は、Lab → Scientist Scientist Scientistになるであ
ろう。
【0042】このような発生を区別するために、プロダ
クションの各記号は、配列名を与えられ、配列のインデ
ックスを通じて、プロダクションのインスタンス内の発
生と区別される。プロダクション“q:A→r”を与え
ると、その配列インデックス式(または単にインデック
ス式)は、正の整数、すなわちインデックス変数(Aの
カウント属性としてi,j,kが用いられる)、または
これらの記号から構成された数式のいずれかとなる。一
般に、I,J,Kはインデックス式を表すために使用さ
れる。“q”がのプロダクションならば、“q”の属
性メタ変数は“X[I].a ”の形となる。ここで、Xは
“q”に現れるシンボルであり、“a”はXの属性であ
る。例えば、インスタンスの要素“λ1 ”には、Scient
ist[a].bonus、Scientist[i].bonus、Scientist[i+1].b
onus、Scientist[count].bonus等のラベルを付けること
ができる。この最後の例で、count は、Lab.count-Scie
ntist の省略形である。プロダクションの記号の発生が
反復演算子の範囲外であるならば、インデックスは属性
変数を記述において削除される。例えば、Lab.base-sal
ary は、Lab[1].base-salaryの代わりに使用される。
【0043】これらの変数の次の点は注意すべきであ
る。第1に、プロダクションが例示されるときに、プロ
ダクションの変数が実変数へ例示されるという意味で、
プロダクションの変数は実際にはスキーム変数のメタ変
数である。第2に、属性変数がインデックス変数の発生
を有しないならば、このメタ変数は、それ自身から構成
されるシングルトン集合上の値をもつ。すなわち、メタ
変数Scientist[1].bonusは、実変数{Scientist[1].bon
us}の集合上に分布する。
【0044】さらに、各プロダクションに対して、その
属性変数は、入力変数と出力変数に分けられる。Xが矢
印の左側にあり(I=1の場合)、かつ、aがXの合成
属性であるか、または、Xが矢印の右側にあり、かつ、
“a”がXの継承属性であるならば、属性変数X[I].a
は出力変数である。そうでなければ、それは入力変数で
ある。例えば、上述したプロダクション“q0 ”および
その一例の属性に対して、Lab.total-patents およびSc
ientist[1].total-salary は出力変数であり、Lab.base
-salary 、Scientist[1].bonusおよびScientist[1].pat
entsは入力変数である。
【0045】リストを構成するメタ言語手段が、導入さ
れ、これは、次の形態をもつ。
【0046】 (X[1].a)K J (7)
【0047】ここで、X[1].a は属性変数であり、Iは
Jの値からKの値の範囲を有する単一インデックス変数
をすべて有する。例えば、Scientist[i+1].bonus1
count は、リスト(Scientist[2].bonus, Scientist[3].
bonus,..., Scientist[count+1].bonus)を意味する。上
記と同様に、count は、Lab.count-Scientist の省略形
である。
【0048】関数および定数の予め定められたある集合
が仮定されると(これらは、外部関数および外部定数と
それぞれ呼ばれる)、“q:A→Ar ”はプロダクショ
ンである。“q:A→Ar ”の属性語(または単に
“q”の語)は、Aのカウント属性、“q”の属性変数
およびリスト式、ならびに外部関数から構成されること
ができる式として定義されたものである。例えば、式
(8) のプロダクションを与える。その語のいくつかは、
Scientist[1].bonus,(Scientist[i+1].bonus1 count,su
m((Scientist[i+1].bonus1 count ), budget(Lab.name,
current-year) 、およびLab.count-Scientist とな
る。
【0049】 q0 :Lab → Scientist+ , (8)
【0050】この場合に、current-yearは外部定数であ
り、budgetは外部関数である(例えば外部データベース
で定義される)。“q”の語は、それに現れる全ての変
数が“q”の入力変数ならば、“q”の入力語である。
最後に、プロダクション“q”の属性文は、次の形式の
全称的に量を定められた文である。
【0051】 ∀x∈[I1,I2 ]v=t, (9)
【0052】ここで、“x”はインデックス変数であ
り、“v”は“q”の出力変数であり、“t”は“q”
の入力語である。例えば、プロダクション“q0 ”に対
し、
【0053】 ∀i ∈[1,count-Scientist]Scientist[i].total-salary= Lab.base-salary + Scientist[i].bonus (10)
【0054】“q0 :Lab → Scientist Scientist Sci
entist”のインスタンス“λ1 ”を与えると、この属性
文は次の意味式(セマンティック式)を生成する。
【0055】 Scientist[1].total-salary=Lab.base-salary+Scientist[1].bonus Scientist[2].total-salary=Lab.base-salary+Scientist[2].bonus (11) Scientist[3].total-salary=Lab.base-salary+Scientist[3].bonus
【0056】自由インデックス変数が“v=t”に現れ
ない場合には、全称数量子(ユニバーサル・クォンティ
ファイア)は削除され、簡略語“v=t”が属性文に使
用される。例えば、“q0 ”のプロダクション“λ1
は、次の属性文を有する。
【0057】 Lab.total-patetns=sum((Scientist[i].patetns)1 count ), (12)
【0058】ここは、インスタンス“λ1 :Lab → Sci
entist Scientist Scientist”を与えると、次の式を生
成する。
【0059】Lab.total-patents = sum((Scientist[1].
patetns,Scientist[2].patetns, Scientist[1].patetn
s))
【0060】プロダクション“q”の属性は、“q”の
属性文の集合であり、それが“q”の各出力変数に対し
て正確に1文を含み、それ以外に何も含まないならば、
それは完全である。
【0061】したがって、拡張属性文法は、以下の追加
事項をともに有する拡張文脈自由文法である。第1
に、各記号は、合成属性および継承属性、ならびに
(開始記号および終端記号の場合に)輸入属性と関連付
けられている。第2に、の各プロダクションは完全で
ある属性を有する。拡張属性文法の2つの例が、図3お
よび図5に示されている。これらの2つの文法は、ソー
ス文法(図3)および結果の文法(図5)として、ドキ
ュメント変換を図示するために示されている。さらに、
図4および図6は、ソース文法および結果文法の下での
導出木の例をそれぞれ示している。
【0062】文法=(Σ,Z)は、拡張文脈
自由文法である。木T1,T2,...,T n は、Ti のルート
・ラベルがAi であるの導出木の列(シーケンス)で
ある。“r”が記号列“A1 2 ... An ”を受理(ア
クセプト)するように、文法はプロダクション“p:
A→r”を有する。“A”のラベルをもつ新しいルート
を複数のTi のルート・ノードの親として加えることに
より、Ti の列から構成される木は、pによる列Ti
単位還元(ユニット・リダクション)と呼ばれる。
【0063】より一般的に、木の列は、多重単位還元を
同時に許容する。例えば、の木の列σは部分列σ1
2,...,σn の分割を有し、各部分列σi のプロダク
ションpi による単位還元を有するようにされている。
これらの単位還元の列は、p 1 2...pn によるσの還
元(リダクション)と呼ばれる。例えば、木T1
2 、T3 、T4 の列は、ルート・ラベルA、B、C、
Dを有する。拡張文脈自由文法は、プロダクション
“p1 :K→AB+ ”および“p2 :L→(C|A)D
* ”を有する。Ti の列は、2つの単位還元を許容す
る。第1の単位還元は、p1 によるT1 2 の単位還元
である。第2の単位還元は、p2 によるT3 4の単位
還元である。したがって、この木の列は、p1 2 によ
る還元を許容する。
【0064】ベースの還元演算子は、の導出木の列
をとり、その還元を生成する写像である。還元演算子は
構文上のシグネチュアを有する。これは、のプロダク
ション名の集合の正規表現(正則表現)である。例え
ば、が上記プロダクション“p1 ”および“p2 ”を
有すると仮定すると、ベースの還元演算子はシグネチ
ュアp1 + ( p2 |ε) を有する。直観的に、このシグ
ネチュアは、このシグネチュアの任意の還元演算子が
“p1 ”を1または2回以上、“p2 ”を多くとも1
回、左から右にこの順番で使用しなければならないこと
を示している。例えば、ルート・ラベル“A,B,B,A,B,C,
D ”を有する木の列は、p1 を2回、続いてp 2 を1回
使用することにより、上記シグネチュアを有する還元演
算子により還元することができる。
【0065】“σ”が還元演算子ならば、各pi をその
左側に置換することにより、そのシグネチュアから得ら
れる正規表現は、σのタイプと呼ばれ、一方、各pi
その右側に置換することにより、そのシグネチュアから
得られる正規表現は、σのアリティ(arity )と呼ばれ
る。例えば、σがシグネチュアp1 + ( p2 |ε) を有
するならば、そのタイプはK+ ( L/ ε) であり、その
アリティは(AB+ ) + ((C|A) D* |ε) である。
したがって、還元演算子は、そのルート・ラベルがその
アリティによって受理される記号列を形成する木の列を
とり、そのルート・ラベルがそのタイプによって受理さ
れる記号列を形成するその還元を生成する。
【0066】いくつかの合成属性および継承属性を有す
るプロダクション“q:H→r”がその記号に割り当て
られたとする。“q”の属性文は還元演算子を含む。
“q”の属性は、その還元演算子の全てがベースなら
ば、ベースである。文法 1および 2 は拡張属性文
法である。 1 から 2 へ結合する拡張属性は拡張属性
文法Γであり、Γの拡張文脈自由文法が 1 のそれと同
じである。続いて、Γの全プロダクションは、完全であ
2 ベースの属性を有する。さらに、Γの合成属性お
よび継承属性のいくつかは構文属性として区別され、Γ
の開始記号はタイプZ2 の還元演算子によって定義され
る、ある特別の構文属性の結果木を有し、 2 の開始記
号である。最後に、Γの任意の記号は輸入属性を有し、
Γの全ての輸入属性は 1 の属性であり、全ての輸入属
2 Γの属性である。
【0067】さらに、Γの全てのプロダクションに対し
て、その構文上の入力変数が多くとも1回引数として現
れるならば、Γは良形(ウェル・フォームド)である。
属性結合が良形ならば、Z1 の構文属性の結果木の値
は、常に 2 の完全な導出木である。図7は、図3に示
すソース文法から図5に示す結果文法への属性結合の例
を示している。
【0068】変換が、ソースの拡張属性文法、拡張属性
結合および結果の拡張属性文法によって記述されると、
ソース・ドキュメントの結果ドキュメントへの変換は、
3つのメイン・ステップから構成される。
【0069】第1に、与えられたソース木が 初期結果
木を生成するためにコピーされる。この初期結果木は、
結合文法(カップリング・グラマー)のそれらの入力属
性のみを維持する。続いて、コピーされた木の残りの属
性が、拡張属性文法について評価される。これは、結果
文法の部分的な結果属性木を生成する。これは、結合文
法の構文属性結果木の値として生成される。最後に、部
分的な属性木の残りの属性が、結果の拡張属性文法につ
いて評価される。これらの2つの評価ステップに使用で
きる周知の属性評価アルゴリズムが存在する。例えば、
P.Deransart 、M.Jourdan およびB.Lorho による「属性
文法」がある(Springer-Verlag, 1988,ニューヨー
ク)。
【0070】例えば、図3に示すソース文法の図4に示
す属性木を、図7に示す結合および図5に示す結果文法
によって与えられる変換への入力とする。図8は、結合
のそれらの輸入属性のみを維持するソース木のコピーを
示している。図9は、図2のステップ20で示した結合文
法についての属性評価の結果を示している。この図のル
ート・ノードの構文属性の結果木の値は、輸入属性(す
なわち、nameとsalary)を有する結果文法の導出木であ
る。最後に、この木は、図2のステップ30で示したよう
に、結果文法について完全に属性化され、図6に示す最
終結果木となる。
【0071】図10に示すように、変換装置20は、第1の
ドキュメントに対応する第1の拡張属性文法を決定する
第1の文法決定手段22を備えている。この変換装置20
は、第2のドキュメントに対応する第2の拡張属性文法
を決定する第2の文法決定手段24および第1のドキュメ
ントを第2のドキュメントに変換する拡張属性コピー文
法を決定する第3の文法決定手段26も備えている。
【0072】変換装置20は、第1の拡張属性文法および
第1のドキュメントから第1の木を生成する第1の木生
成手段30も備えている。変換装置20は、第1の木および
拡張属性結合文法から第2の木を生成する第2の木生成
手段32を備えている。最後に、変換装置20は、第2の木
を第2のドキュメントに変換する変換手段34を備えてい
る。
【0073】また、図10に示すように、第1の文法決定
手段22は、それ自身、第1の拡張属性文法の語彙を決定
する語彙決定手段40、および第1の拡張属性文法のプロ
ダクションを決定するプロダクション決定手段60を備え
ている。第2の文法決定手段24および第3の文法決定手
段26は、一般に、第1の文法決定手段22と同じエレメン
トおよびサブエレメントを備えている。したがって、以
下の説明は、第1の文法決定手段22にのみ関係している
が、第2および第3の文法決定手段24および26にも当て
はまる。
【0074】さらに、語彙決定手段40は、拡張属性文法
の終端記号を決定する終端記号決定手段42を備えてい
る。この語彙決定手段は、拡張属性文法の1または2以
上の非終端記号を決定する非終端記号決定手段44も備え
ている。最後に、語彙決定手段は、1または2以上の非
終端記号の一つが開始記号かどうかを決定する開始記号
決定手段46を備えている。
【0075】終端記号決定手段42、非終端記号決定手段
44および開始記号決定手段46は、ともに組み合わされ、
一般化された記号決定手段48を形成する。語彙決定手段
40は、記号決定手段48によって決定された記号の少なく
とも一つの論理属性を決定する論理属性決定手段50、お
よび記号決定手段48によって決定された複数の記号のそ
れぞれの少なくとも一つの非論理属性を決定する非論理
属性決定手段52をさらに備えている。
【0076】非論理属性決定手段52は、それ自体、複数
の記号の1または2以上の合成属性を決定する合成属性
決定手段54、複数の記号の1または2以上の少なくとも
一つの継承属性を決定する継承属性決定手段56、および
記号決定手段48によって決定された終端記号と開始記号
の一方または双方の、少なくとも一つの輸入属性を決定
する輸入属性決定手段58を備えている。
【図面の簡単な説明】
【図1】一般化された導出木を表す。
【図2】この発明による方法の流れを表す一般化された
フローチャートである。
【図3】第1のドキュメントの拡張属性文法を表す。
【図4】第1のドキュメントの拡張属性文法から生成さ
れた木を表す。
【図5】第2のドキュメントの拡張属性文法を表す。
【図6】第2のドキュメントの第2の拡張属性文法の木
を表す。
【図7】第1の拡張属性文法を第2の拡張属性文法に結
合する属性結合文法を示す。
【図8】第1の木から生成された属性結合文法の輸入属
性を有するソース木を表す。
【図9】第2の木を生成するために第1の木から属性結
合文法によって生成された十分に属性化された木を表
す。
【図10】変換装置を表すブロック図である。
【符号の説明】
20 変換装置 22 第1の文法決定手段 24 第2の文法決定手段 30 第1の木生成手段 32 第2の木生成手段 34 変換手段 40 語彙決定手段 42 終端記号決定手段 44 非終端記号決定手段 46 開始記号決定手段 48 記号決定手段 50 論理属性決定手段 52 非論理属性決定手段 54 合成属性決定手段 56 継承属性決定手段 58 輸入属性決定手段 60 プロダクション決定手段 26 第3の文法決定手段
フロントページの続き (72)発明者 アレン エル ブラウン ジュニア アメリカ合衆国 カリフォルニア州 92075 ソラナ ビーチ グレンモント ドライヴ 425 (72)発明者 スリャナラヤナ エム マンサ アメリカ合衆国 ニューヨーク州 14580 ウェブスター カントリー マノア ウ ェイ 100 アパートメント 4 (72)発明者 アン フェン アメリカ合衆国 ニューヨーク州 14580 ウェブスター カントリー マノア ウ ェイ 128

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 第1のドキュメントを第2のドキュメン
    トに変換する方法であって、 前記第1のドキュメントを第1の拡張属性文法によって
    記述し、 前記第2のドキュメントを第2の拡張属性文法によって
    記述し、 前記第1および第2の拡張属性文法から拡張属性結合文
    法を記述し、および前記拡張属性結合文法に基づいて、
    前記第1のドキュメントを前記第2のドキュメントに変
    換する、 ステップを含む方法。
JP6300773A 1993-12-10 1994-12-05 属性文法および属性結合に基づくドキュメント変換方法 Pending JPH07200550A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/165,785 US5491628A (en) 1993-12-10 1993-12-10 Method and apparatus for document transformation based on attribute grammars and attribute couplings
US08/165785 1993-12-10

Publications (1)

Publication Number Publication Date
JPH07200550A true JPH07200550A (ja) 1995-08-04

Family

ID=22600478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6300773A Pending JPH07200550A (ja) 1993-12-10 1994-12-05 属性文法および属性結合に基づくドキュメント変換方法

Country Status (4)

Country Link
US (1) US5491628A (ja)
EP (1) EP0657827B1 (ja)
JP (1) JPH07200550A (ja)
DE (1) DE69428500T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7139975B2 (en) 2001-11-12 2006-11-21 Ntt Docomo, Inc. Method and system for converting structured documents

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319917A (ja) * 1994-05-24 1995-12-08 Fuji Xerox Co Ltd 文書データべース管理装置および文書データべースシステム
US5915259A (en) * 1996-03-20 1999-06-22 Xerox Corporation Document schema transformation by patterns and contextual conditions
US6687404B1 (en) 1997-06-20 2004-02-03 Xerox Corporation Automatic training of layout parameters in a 2D image model
US6569207B1 (en) * 1998-10-05 2003-05-27 International Business Machines Corporation Converting schemas to component models
IL145365A0 (en) * 1999-03-19 2002-06-30 Computer Ass Think Inc Generating optimized computer data field conversion routines
US7356460B1 (en) * 2000-07-27 2008-04-08 Healthedge, Inc. Claim processing
US7165216B2 (en) * 2004-01-14 2007-01-16 Xerox Corporation Systems and methods for converting legacy and proprietary documents into extended mark-up language format
US7693848B2 (en) * 2005-01-10 2010-04-06 Xerox Corporation Method and apparatus for structuring documents based on layout, content and collection
US8706475B2 (en) 2005-01-10 2014-04-22 Xerox Corporation Method and apparatus for detecting a table of contents and reference determination
US7937653B2 (en) * 2005-01-10 2011-05-03 Xerox Corporation Method and apparatus for detecting pagination constructs including a header and a footer in legacy documents
US7818666B2 (en) 2005-01-27 2010-10-19 Symyx Solutions, Inc. Parsing, evaluating leaf, and branch nodes, and navigating the nodes based on the evaluation
US8302002B2 (en) * 2005-04-27 2012-10-30 Xerox Corporation Structuring document based on table of contents
US8949710B2 (en) * 2005-07-12 2015-02-03 Alcatel Lucent Grammar and method for integrating XML data from multiple sources
US7882119B2 (en) * 2005-12-22 2011-02-01 Xerox Corporation Document alignment systems for legacy document conversions
US7743327B2 (en) 2006-02-23 2010-06-22 Xerox Corporation Table of contents extraction with improved robustness
US7890859B2 (en) * 2006-02-23 2011-02-15 Xerox Corporation Rapid similarity links computation for table of contents determination
US8156018B1 (en) 2006-12-18 2012-04-10 Intuit Inc. Transformation of standard document format electronic documents for electronic filing
JP2008186176A (ja) * 2007-01-29 2008-08-14 Canon Inc 画像処理装置、文書結合方法および制御プログラム
US8401855B2 (en) * 2009-02-06 2013-03-19 Robert Bosch Gnbh System and method for generating data for complex statistical modeling for use in dialog systems
US9606980B2 (en) * 2014-12-16 2017-03-28 International Business Machines Corporation Generating natural language text sentences as test cases for NLP annotators with combinatorial test design

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4503516A (en) * 1982-11-18 1985-03-05 International Business Machines Corporation Methodology for transforming a first editable document form prepared by an interactive text processing system to a second editable document form usable by an interactive or batch text processing system
US4751740A (en) * 1984-12-10 1988-06-14 Wang Laboratories, Inc. Apparatus, method, and structure for translating a document having one structure into a document having another structure
US4686623A (en) * 1985-06-07 1987-08-11 International Business Machines Corporation Parser-based attribute analysis
US5021943A (en) * 1988-08-01 1991-06-04 Motorola, Inc. Content independent rule based options negotiations method
GB9005697D0 (en) * 1990-03-14 1990-05-09 Digital Equipment Int Data format conversion
US5341469A (en) * 1991-05-13 1994-08-23 Arcom Architectural Computer Services, Inc. Structured text system
US5317647A (en) * 1992-04-07 1994-05-31 Apple Computer, Inc. Constrained attribute grammars for syntactic pattern recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7139975B2 (en) 2001-11-12 2006-11-21 Ntt Docomo, Inc. Method and system for converting structured documents

Also Published As

Publication number Publication date
EP0657827A3 (en) 1995-12-20
US5491628A (en) 1996-02-13
DE69428500T2 (de) 2002-05-16
EP0657827A2 (en) 1995-06-14
DE69428500D1 (de) 2001-11-08
EP0657827B1 (en) 2001-10-04

Similar Documents

Publication Publication Date Title
JPH07200550A (ja) 属性文法および属性結合に基づくドキュメント変換方法
US8805861B2 (en) Methods and systems to train models to extract and integrate information from data sources
Bruggemann-Klein et al. Regular tree and regular hedge languages over unranked alphabets
Lothaire Applied combinatorics on words
US20030018666A1 (en) Interoperable retrieval and deposit using annotated schema to interface between industrial document specification languages
US20020111964A1 (en) User controllable data grouping in structural document translation
Dekhtyar et al. Categorial dependency grammars
EP2211277A1 (en) Method and apparatus for generating an integrated view of multiple databases
US20020038319A1 (en) Apparatus converting a structured document having a hierarchy
Bousquet-Mélou et al. XML compression via directed acyclic graphs
JPH06290102A (ja) 情報にアクセスする装置および方法
JP2003186875A (ja) 自然言語パーシング方法
KR20030048423A (ko) Xml 퀴어리 처리 방법 및 장치
JPH11110413A (ja) データベース検索結果を生成するための方法および装置
Filiot et al. Copyful streaming string transducers
Filiot et al. Copyful streaming string transducers
Feng et al. SIMON: A grammar-based transformation system for structured documents
Gordon A theory construction approach to legal document assembly
Maneth et al. Tree transducers and tree compressions
Wilk et al. On types for XML query language Xcerpt
Pluempitiwiriyawej et al. A classification scheme for semantic and schematic heterogeneities in XML data sources
Brüggemann-Klein et al. Balanced Context-Free Grammars, Hedge Grammars and Pushdown Caterpillar Automata.
JPH09190453A (ja) データベース装置
Dekker et al. Parsing a markup language that supports overlap and discontinuity
Joosten Parsing and printing of and with triples

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050725

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061113