JPH07200550A

JPH07200550A - 属性文法および属性結合に基づくドキュメント変換方法

Info

Publication number: JPH07200550A
Application number: JP6300773A
Authority: JP
Inventors: Toshiro Wakayama; ワカヤマトシロウ; Jr Allen L Brown; エルブラウンジュニアアレン; Suryanarayana M Mantha; エムマンサスリャナラヤナ; An Feng; フェンアン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1993-12-10
Filing date: 1994-12-05
Publication date: 1995-08-04
Also published as: EP0657827A3; US5491628A; DE69428500T2; EP0657827A2; DE69428500D1; EP0657827B1

Abstract

(57)【要約】【目的】第１のドキュメントを第２のドキュメントに
変換する方法およびシステムを提供する。【構成】第１のドキュメントは、第１の拡張属性文法
により、第２のドキュメントは第２の拡張属性文法によ
りそれぞれ記述される。拡張属性結合文法は、第１およ
び第２の拡張属性文法を結合する。第１のドキュメント
が、第１の木に変換され、特に、第１のコピーに複製さ
れる。第１のコピーは、拡張属性結合文法についてその
属性を評価することにより計算される。第１のコピー
は、第２のドキュメントの部分的な属性木にされる。こ
の部分的な属性木は、第２の拡張属性文法に基づいて第
２の木にされる。続いて、第２の木は、第２のドキュメ
ントに変換される。

Description

【発明の詳細な説明】

【０００１】

【技術分野】この発明は、ある属性文法の下で妥当な属
性木を、別の属性文法の下で妥当な他の属性木に変換す
るための方法および装置に関する。

【０００２】

【発明の背景】電子ドキュメントが紙のドキュメントを
超える予想された利点（ただし、部分的にのみ実現され
ている）として、高められたドキュメント処理能力と簡
単化されたドキュメント操作（例えば、ドキュメントの
生成、編集、更新、記憶、アクセスおよび配送）が挙げ
られる。既存のシステムにおいて、このようなドキュメ
ント操作の向上を可能とするキーは、ドキュメントの内
容だけでなく、その内容についての様々なメタ情報を表
現する能力である。例えば、章、節およびパラグラフの
区切れ（ブレーク）のようなドキュメント構造は、ブラ
ウジング、リトリーブ（検索）およびコンポーネントの
再使用のために明示して表現することが可能である。

【０００３】しかし、一つの中心的な技術的問題とし
て、このようなメタ情報を、コンピュータと人間が容易
に操作できる方法で、どのように表現するかという問題
がある。この問題に対するよく知られたアプローチとし
て、ドキュメントの階層的構造（例えば、章、節および
パラグラフの区切れ）を表すために（プログラミング言
語を記述するために使用される）形式文法（フォーマル
・グラマー）を適用するものがある。例えば、ＳＧＭＬ
（標準一般化マークアップ言語：Standard Generalized
Markup Languages ）は、この目的のために、文脈自由
文法を拡張したものを使用している。

【０００４】この発明は、電子ドキュメントの表現およ
び操作を行う既存の文法ベースのアプローチにおいて十
分ではない２つのものに向けられている。第１に、これ
らのアプローチは、属性およびその従属関係を記述する
能力に唯一の制限がある。例えば、属性「節」（セクシ
ョン）は、属性「章」（チャプタ）のあるものに従属す
る。第２に、これらのアプローチは、ドキュメント変換
の記述および計算の能力が不十分である。すなわち、こ
れらのアプローチは、ある文法の導出木としてのドキュ
メント・インスタンスを、別の文法の導出木としてドキ
ュメント・インスタンスに十分に変換できない。

【０００５】この第１の制限は、第２の制限につなが
る。ドキュメント変換のアイデアは、様々な理由により
重要である。例えば、文法ベースのドキュメント・スキ
ーマの概念は、ドキュメントの構造情報を捉えるのに有
益であるが、与えられたスキーマの下で生成できるドキ
ュメントの種類について、柔軟性のなさをももってい
る。最初に熟考せずに設計されたドキュメントの特徴を
融通させるために、与えられたスキーマの修正がよく行
われるので、これは、与えられたスキーマから修正され
たスキーマへドキュメントを変換する必要性を生成す
る。これに加え、いくつかの学会のドキュメントは、非
常に大きく、複雑であるので、よりカスタマイズされ、
管理可能なドキュメント変換としての視野の記述および
計算を可能とすることが高く望まれている。さらに、ド
キュメント変換として、既存のドキュメントからドキュ
メントを自動的にアセンブルすることが可能であり、望
まれている。例えば、あらかじめ提出されたプロジェク
ト・レポートから研究所の技術レポートの草稿を生成す
ることが挙げられる。

【０００６】

【発明の概要】したがって、必要とされるのは、ドキュ
メントのクラスに共通の総称的な性質を拡張属性文法と
して記述すること、この拡張属性文法から別の拡張属性
文法への変換を拡張属性結合して記述すること、および
属性評価としてこの変換を計算することを行うための方
法および装置である。

【０００７】したがって、この発明は、ドキュメントの
総称的な論理構造を拡張属性文法として記述するための
方法および装置を提供する。また、この発明は、他の拡
張属性文法として、あるクラスの論理構造から他のクラ
スの論理構造への変換を記述する方法および装置を提供
する。

【０００８】さらに、この発明は、第１の拡張属性文法
から第２の拡張属性文法への変換によって、あるクラス
のドキュメントを第２のクラスのドキュメントに変換す
るための方法および装置を提供する。この変換は拡張属
性結合として記述される。

【０００９】この発明は、第１のドキュメントから第２
のドキュメントへの変換を、属性評価として計算するこ
とを提供する。

【００１０】これらの目的および他の目的を達成し、既
存のアプローチの不利な点を解決するために、第１のド
キュメントを第２のドキュメントに変換する方法および
装置は、第１のドキュメントのクラスを拡張属性文法と
して、第２のドキュメントのクラスを第２の拡張属性文
法として記述することを含んでいる。第１および第２の
ドキュメントは、第１および第２の拡張属性文法から生
成された木によって表される。拡張属性文法は、論理的
および非論理的な属性を含んでいる。非論理的な属性
は、輸入属性、継承属性および合成属性を含んでいる。
また、前記変換方法および装置は、第１の拡張属性文法
と第２の拡張属性文法との間で結合する拡張属性を記述
することにより、第１のドキュメントを第２のドキュメ
ントへ変換すること、および第１のドキュメントの木か
ら第２のドキュメントの木への変換を、第２の拡張属性
文法による第１の拡張属性文法の属性評価として、計算
することを含んでいる。この属性評価を計算する方法お
よび装置は、第２のソース木の継承属性と合成属性を拡
張属性結合によって評価し、第２の拡張属性文法のため
の部分的な属性木を生成すること、および部分的な属性
木の残りの属性を第２の拡張属性文法によって評価し、
第２のドキュメントを生成することを含んでいる。

【００１１】

【実施例】文字系は、空でない記号の有限集合である。
したがって、Ａが文字系ならば、Ａの記号列はＡからの
記号の有限列（有限シーケンス）である。εで表される
空の記号列は、零記号からなる記号列である。Ａの言語
は、Ａの記号列の無限集合となることがある。Ａの正規
表現（正則表現）は、Ａの正則言語に関連している。こ
こで、Ｌ（ｒ）は、正規表現“ｒ”と関連した言語であ
る。したがって、“α”がＡの記号列ならば、αはＡの
正規表現であり、かつ、Ｌ（α）＝α、すなわち、単一
記号列αからなる集合である。特に、εは正規表現であ
り、Ｌ（ε）＝｛ε｝である。さらに、“ｒ”と“ｕ”
がＡの正規表現ならば、これらの連接“ｒｕ”も正規表
現であり、かつ、次の式となる。

【００１２】Ｌ（ｒｕ）＝｛αβ‖α ε Ｌ（ｒ） and β ε Ｌ（ｕ）｝ (1)

【００１３】すなわち、Ｌ（ｒｕ）は、“ｒ”の言語か
らの記号列と“ｕ”の言語からの記号列とをこの順番で
連接することにより構成できる全ての記号列の集合であ
る。さらに、“ｒ”および“ｕ”がＡの正規表現なら
ば、これらの和集合“ｒ｜ｕ”もそうであり、かつ、次
の式で表される。

【００１４】Ｌ（ｒ｜ｕ）＝Ｌ（ｒ）∪Ｌ（ｕ）； (2)

【００１５】さらに、“ｒ”がＡの正規表現ならば、そ
のKleene閉包“ｒ^*”はそうであり、かつ、次のように
表される。

【００１６】Ｌ（ｒ^*）＝｛ε｝∪Ｌ（ｒ）∪Ｌ（ｒｒ）∪Ｌ（ｒｒｒ）∪…， (3)

【００１７】すなわち、Ｌ（ｒ^*）は、“ｒ”の言語か
らの記号列を零または１以上の任意の回数（ただし、有
限回）連接することにより構成できる全ての記号列の集
合である。

【００１８】また、“ｒ⁺”は、正規表現“ｒ
（ｒ^*）”を表すために使用される。したがって、“ｒ
⁺”の言語は、“ｒ”の言語からの１または２以上の記
号列を連接することにより構成できる全ての記号列の集
合である。すなわち、Ｌ（ｒ^*) は、そえぞれが“ｒ”
の異なる個数を有する有限個の記号列および空集合εを
含む。一方、Ｌ（ｒ⁺) は、空集合εを除く全てのＬ
（ｒ^*) を含む。便宜上、正規表現の記号列は、その正
規表現と関連した言語の記号列である。

【００１９】正規拡張を有する文脈自由文法、すなわち
文脈自由文法を短くするために簡単な拡張文脈自由文法
は、タプルＧ＝（Ｖ，Σ，Ｐ，Ｚ）となる。Ｖは、Ｇの
語彙（ボキャブラリ）と呼ばれる文字系である。Ｖの要
素は、Ｇの（文法）記号と呼ばれる。ΣはＶの部分集合
であり、Σの要素はＧの終端記号と呼ばれる。Ｇの終端
記号でないＶの記号は、Ｇの非終端記号と呼ばれる。Ｚ
は、Ｇの開始記号と呼ばれる、Ｇの指定された非終端記
号である。Ｐは、Ｇのプロダクションの有限集合であ
る。Ｇのプロダクションは、次の式で表される。

【００２０】ｑ：Ｘ→ｒ (4)

【００２１】ここで、“ｑ”はプロダクションの名前で
あり、ＸはＧの記号であり、“ｒ”はＶ−｛Ｚ｝の正規
表現である。Ｘが終端記号ならば、“ｒ”は空の記号列
εである。

【００２２】非終端記号は大文字で始まり、終端記号は
すべて小文字である。図１は、拡張された文脈自由文法
（拡張文脈自由文法）Ｇ ₁の例を示している。

【００２３】この拡張文脈自由文法Ｇ ₁において、Ｇ ₁
の終端記号Σ₁は、記号“word”である。Ｇ ₁の開始記
号Ｚ₁は、記号“Section ”である。Ｇ ₁の語彙Ｖ
₁は、“Section, SectionHead, Paragraph, Summary,
word”である。したがって、プロダクション“ｑ_n”は
次のようになる。

【００２４】ｑ₀：Section → SectionHead Paragraph⁺(Summary｜ε) ｑ₁：SectionHead → word⁺ ｑ₂：Paragraph → word⁺ (5) ｑ₃：Summary → word⁺

【００２５】プロダクション“ｑ₀”は、各Section
が、１または２以上のParagragh と、場合によってはSu
mmary が後に続くSectionHead を含むことを示してい
る。プロダクション“ｑ₁”は、各SectionHead が１ま
たは２以上のwordの列であることを示している。プロダ
クション“ｑ₂”は、各Paragragh が１または２以上の
wordの列であることを示している。プロダクション“ｑ
₃”は、各Summary も１または２以上のwordの列である
ことを示している。さらに、拡張文脈自由文法の任意の
プロダクション“ｑ：Ａ→ｒ”に対して、プロダクショ
ンのインスタンスは次の通りである。

【００２６】Ａ→α，

【００２７】ここで、αは正規表現“ｒ”の言語Ｌ
（ｒ）の記号列である。例えば、上記のプロダクション
“ｑ₀”は、次の可能なインスタンスを有する（ただ
し、これらのインスタンスに制限されるものではな
い）。

【００２８】Section →SectionHead Paragragh Paragr
agh Paragragh SummarySection →SectionHead Paragra
gh Paragragh Paragragh Paragragh Paragragh

【００２９】拡張文脈自由文法Ｇに対して、Ｇの導出木
または単にＧの木は、順序付けられ、かつ、各ノードが
Ｇの記号によってラベル付けされたラベルをもつ木であ
る。すべての内部ノード（すなわち、一つのノードは１
または２以上の子供をもつ）は、Ｇのプロダクションと
関連づけられている。したがって、全ての内部ノードに
対して、そのラベルが“Ａ”であり、かつ、その子供の
ラベルが、左から右へ“Ｘ₁,Ｘ₂,…，Ｘ_n”ならば、
“Ａ→Ｘ₁Ｘ₂…Ｘ_n”は、内部ノードと関連付けられ
たプロダクションのインスタンスである。導出木は、そ
のルート・ノードがその文法の開始記号でラベル付けさ
れ、かつ、すべてのリーフ・ノード（すなわち、子供を
持たないノード）が終端記号でラベル付けされているな
らば、完全である。図１は、上記例における文法の完全
である導出木の例を示している。

【００３０】ドキュメントの構成要素のこの総称的構造
および属性は、従来の属性文法を拡張することによって
得られる。ドキュメント変換は、ソースの拡張属性文法
の属性木から結果の拡張属性文法の属性木へ写像するこ
とにより与えられる。クリティカル・ポイントは、この
ような写像自体が、拡張属性文法の特別な形態である拡
張属性結合によって記述されるということである。ドキ
ュメント変換は、属性結合文法の下で、属性評価プロセ
スとして計算される。このプロセスへの入力は、結果の
属性文法の属性木である。最後に、この木の残りの属性
が、十分な属性を得るために、結果の文法の下で評価さ
れる。このプロセスは、図２に示されている。

【００３１】図３〜図６は、一対のドキュメントの拡張
属性文法および結果の木を示している。図３は、第１の
ドキュメントの第１の拡張属性文法を示している。図４
は、第１の拡張属性文法に基づき、第１のドキュメント
から生成された属性木を示している。これに対して、図
５は第２のドキュメントの第２の属性文法を示し、図６
は第２の拡張属性文法に基づき、第２のドキュメントか
ら生成された第２の木を示している。次の例では、第１
のドキュメントが第２のドキュメントに変換されるの
で、第１の拡張属性文法、第１の木および第１のドキュ
メントは、ソース拡張属性文法、ソース木およびソース
・ドキュメントとも呼ばれる。同様に、第２の拡張属性
文法、第２の木および第２のドキュメントは、結果拡張
属性文法、結果木および結果ドキュメントとも呼ばれ
る。

【００３２】例えば、Ｇ ₂＝（Ｖ ₂，Σ ₂，Ｐ ₂，
Ｚ₂）は、拡張文脈自由文法である。Ｇ ₂の各記号Ｘ₂
に対して、属性についての多くの集合が存在する。属性
の第１の集合は論理属性からなる。これらの属性は、シ
ステム定義のものであり、木の属性を含んでいる。木の
属性は、それ自体、カウント属性を含んでいる。カウン
ト属性は、同じラベルをもつ様々なノードの子供の個数
を含む。

【００３３】属性の第２の集合は、ユーザ定義の非論理
属性からなる。これらの属性は、輸入（インポート：im
ported）され、継承（inherited ）され、かつ合成（sy
nthesized ）された属性を含んでいる。輸入された属性
（輸入属性）は、開始記号および終端記号のみと関連し
ている。一般に、記号が宣言され定義されると、記号の
それぞれに対する属性およびそのタイプが宣言される。

【００３４】記号のタイプは、その記号がその入力を得
る場所に基づいて決定される。合成された属性（合成属
性）は、その子供（すなわち、現在の記号から新しい記
号へ拡張する木の枝）からその入力を得る。したがっ
て、合成属性は、一般に計算される。一方、これらは、
一つの子供の記号からコピーのみすることもできる。

【００３５】継承された属性（継承属性）について、情
報の流れは合成属性の流れと反対である。すなわち、継
承属性は、その木の親記号からその入力を得る。したが
って、継承属性は、計算されることもあるが、一般に、
親記号からコピーされるだけである。

【００３６】輸入属性について、情報の流れは、木の内
部ではなく、木と木の間で行われる。したがって、輸入
属性は、他の木からその入力を得る。さらに、終端記号
および開始記号だけが輸入属性をもつが、輸入属性は、
他の木の任意の記号からその入力を得ることができる。
したがって、輸入属性は、入力された属性値から計算す
ることもできるし、入力された属性値の単なるコピーで
あってもよい。

【００３７】これらの集合は、ペア状の解体（ディスジ
ョイント）である。全ての論理属性は汎用の定義を有す
る。このカテゴリーの（木の）属性の一つのクラスは、
カウント属性と呼ばれる。すなわち、各記号Ｘは、その
文法の各記号Ｙに対するカウントＹ属性を有する。カウ
ントＹ属性は、“Ｙ”のラベルが付けられた子供の個数
を表す。合成され継承された属性の例として、次のプロ
ダクションを仮定する。

【００３８】ｑ₀：Lab → Scientist⁺ (6)

【００３９】つづいて、２つの記号“Lab ”と“Scient
ist ”は、次の属性を有する。記号“Lab ”は、その属
性として、合成属性である“Total-Patents ”および継
承属性である“Base-Salary ”を有する。記号“Scient
ist ”は、その属性として、合成属性である“Bonus ”
および“Patents ”、ならびに継承属性である“Total-
Salary”を有する。

【００４０】各プロダクションは、属性文ないし単に文
（ステートメント）の集合と関連付けられている。これ
らの文は、例えば、Lab のすべてのpatents （特許）の
個数が、個々のScientist （科学者）のpatents （特
許）の合計であり、各Scientist （科学者）にとって、
そのサラリー（Salary）は、Lab のBase-Salary （基本
サラリー）とbonus （ボーナス）となる。

【００４１】表記を簡単にするために、プロダクトにお
ける記号は、多重発生を有しない。これは、添字等によ
り多重発生をリネームすることにより、および導出木の
構成のように構文評価のために内部変化可能な記号とし
て、各多重発生を扱うことにより達成される。これら
は、従来の属性文法において通常行われる。一方、拡張
文脈自由文法の設定において、プロダクションの記号
は、＊および＋（例えば、Scientist ⁺）のような反復
演算子の範囲内で発生し、このようなプロダクションの
インスタンスは、記号の多重発生を有する。例えば、式
(6) のプロダクション“ｑ₀”の一つのインスタンス
は、Lab → Scientist Scientist Scientistになるであ
ろう。

【００４２】このような発生を区別するために、プロダ
クションの各記号は、配列名を与えられ、配列のインデ
ックスを通じて、プロダクションのインスタンス内の発
生と区別される。プロダクション“ｑ：Ａ→ｒ”を与え
ると、その配列インデックス式（または単にインデック
ス式）は、正の整数、すなわちインデックス変数（Ａの
カウント属性としてｉ，ｊ，ｋが用いられる）、または
これらの記号から構成された数式のいずれかとなる。一
般に、Ｉ，Ｊ，Ｋはインデックス式を表すために使用さ
れる。“ｑ”がＧのプロダクションならば、“ｑ”の属
性メタ変数は“Ｘ[I].a ”の形となる。ここで、Ｘは
“ｑ”に現れるシンボルであり、“ａ”はＸの属性であ
る。例えば、インスタンスの要素“λ₁”には、Scient
ist[a].bonus、Scientist[i].bonus、Scientist[i+1].b
onus、Scientist[count].bonus等のラベルを付けること
ができる。この最後の例で、count は、Lab.count-Scie
ntist の省略形である。プロダクションの記号の発生が
反復演算子の範囲外であるならば、インデックスは属性
変数を記述において削除される。例えば、Lab.base-sal
ary は、Lab[1].base-salaryの代わりに使用される。

【００４３】これらの変数の次の点は注意すべきであ
る。第１に、プロダクションが例示されるときに、プロ
ダクションの変数が実変数へ例示されるという意味で、
プロダクションの変数は実際にはスキーム変数のメタ変
数である。第２に、属性変数がインデックス変数の発生
を有しないならば、このメタ変数は、それ自身から構成
されるシングルトン集合上の値をもつ。すなわち、メタ
変数Scientist[1].bonusは、実変数｛Scientist[1].bon
us｝の集合上に分布する。

【００４４】さらに、各プロダクションに対して、その
属性変数は、入力変数と出力変数に分けられる。Ｘが矢
印の左側にあり（Ｉ＝１の場合）、かつ、ａがＸの合成
属性であるか、または、Ｘが矢印の右側にあり、かつ、
“ａ”がＸの継承属性であるならば、属性変数Ｘ[I].a
は出力変数である。そうでなければ、それは入力変数で
ある。例えば、上述したプロダクション“ｑ₀”および
その一例の属性に対して、Lab.total-patents およびSc
ientist[1].total-salary は出力変数であり、Lab.base
-salary 、Scientist[1].bonusおよびScientist[1].pat
entsは入力変数である。

【００４５】リストを構成するメタ言語手段が、導入さ
れ、これは、次の形態をもつ。

【００４６】（Ｘ[1].a)^K _J (7)

【００４７】ここで、Ｘ[1].a は属性変数であり、Ｉは
Ｊの値からＫの値の範囲を有する単一インデックス変数
をすべて有する。例えば、Scientist[i+1].bonus₁
^countは、リスト(Scientist[2].bonus, Scientist[3].
bonus,..., Scientist[count+1].bonus)を意味する。上
記と同様に、count は、Lab.count-Scientist の省略形
である。

【００４８】関数および定数の予め定められたある集合
が仮定されると（これらは、外部関数および外部定数と
それぞれ呼ばれる）、“ｑ：Ａ→Ａr ”はプロダクショ
ンである。“ｑ：Ａ→Ａr ”の属性語（または単に
“ｑ”の語）は、Ａのカウント属性、“ｑ”の属性変数
およびリスト式、ならびに外部関数から構成されること
ができる式として定義されたものである。例えば、式
(8) のプロダクションを与える。その語のいくつかは、
Scientist[1].bonus,(Scientist[i+1].bonus₁ ^count,su
m((Scientist[i+1].bonus₁ ^count), budget(Lab.name,
current-year) 、およびLab.count-Scientist とな
る。

【００４９】ｑ₀：Lab → Scientist⁺, (8)

【００５０】この場合に、current-yearは外部定数であ
り、budgetは外部関数である（例えば外部データベース
で定義される）。“ｑ”の語は、それに現れる全ての変
数が“ｑ”の入力変数ならば、“ｑ”の入力語である。
最後に、プロダクション“ｑ”の属性文は、次の形式の
全称的に量を定められた文である。

【００５１】 ∀ｘ∈［Ｉ₁,Ｉ₂］ｖ＝ｔ， (9)

【００５２】ここで、“ｘ”はインデックス変数であ
り、“ｖ”は“ｑ”の出力変数であり、“ｔ”は“ｑ”
の入力語である。例えば、プロダクション“ｑ₀”に対
し、

【００５３】 ∀_i∈[1,count-Scientist]Scientist[i].total-salary= Lab.base-salary + Scientist[i].bonus (10)

【００５４】“ｑ₀：Lab → Scientist Scientist Sci
entist”のインスタンス“λ₁”を与えると、この属性
文は次の意味式（セマンティック式）を生成する。

【００５５】 Scientist[1].total-salary=Lab.base-salary+Scientist[1].bonus Scientist[2].total-salary=Lab.base-salary+Scientist[2].bonus (11) Scientist[3].total-salary=Lab.base-salary+Scientist[3].bonus

【００５６】自由インデックス変数が“ｖ＝ｔ”に現れ
ない場合には、全称数量子（ユニバーサル・クォンティ
ファイア）は削除され、簡略語“ｖ＝ｔ”が属性文に使
用される。例えば、“ｑ₀”のプロダクション“λ₁”
は、次の属性文を有する。

【００５７】 Lab.total-patetns=sum((Scientist[i].patetns)₁ ^count), (12)

【００５８】ここは、インスタンス“λ₁：Lab → Sci
entist Scientist Scientist”を与えると、次の式を生
成する。

【００５９】Lab.total-patents = sum((Scientist[1].
patetns,Scientist[2].patetns, Scientist[1].patetn
s))

【００６０】プロダクション“ｑ”の属性は、“ｑ”の
属性文の集合であり、それが“ｑ”の各出力変数に対し
て正確に１文を含み、それ以外に何も含まないならば、
それは完全である。

【００６１】したがって、拡張属性文法は、以下の追加
事項をともに有する拡張文脈自由文法Ｇである。第１
に、各記号Ｇは、合成属性および継承属性、ならびに
（開始記号および終端記号の場合に）輸入属性と関連付
けられている。第２に、Ｇの各プロダクションは完全で
ある属性を有する。拡張属性文法の２つの例が、図３お
よび図５に示されている。これらの２つの文法は、ソー
ス文法（図３）および結果の文法（図５）として、ドキ
ュメント変換を図示するために示されている。さらに、
図４および図６は、ソース文法および結果文法の下での
導出木の例をそれぞれ示している。

【００６２】文法Ｇ＝（Ｖ，Σ，Ｐ，Ｚ）は、拡張文脈
自由文法である。木Ｔ₁,Ｔ₂,...,Ｔ _nは、Ｔ_iのルート
・ラベルがＡ_iであるＧの導出木の列（シーケンス）で
ある。“ｒ”が記号列“Ａ₁Ａ₂... Ａ_n”を受理（ア
クセプト）するように、文法Ｇはプロダクション“ｐ：
Ａ→ｒ”を有する。“Ａ”のラベルをもつ新しいルート
を複数のＴ_iのルート・ノードの親として加えることに
より、Ｔ_iの列から構成される木は、ｐによる列Ｔ_iの
単位還元（ユニット・リダクション）と呼ばれる。

【００６３】より一般的に、木の列は、多重単位還元を
同時に許容する。例えば、Ｇの木の列σは部分列σ₁,σ
₂,...,σ_nの分割を有し、各部分列σ_iがＧのプロダク
ションｐ_iによる単位還元を有するようにされている。
これらの単位還元の列は、ｐ ₁ｐ₂...ｐ_nによるσの還
元（リダクション）と呼ばれる。例えば、木Ｔ₁、
Ｔ ₂、Ｔ₃、Ｔ₄の列は、ルート・ラベルＡ、Ｂ、Ｃ、
Ｄを有する。拡張文脈自由文法Ｇは、プロダクション
“ｐ₁：Ｋ→ＡＢ⁺”および“ｐ₂：Ｌ→（Ｃ｜Ａ）Ｄ
^*”を有する。Ｔ_iの列は、２つの単位還元を許容す
る。第１の単位還元は、ｐ₁によるＴ₁Ｔ₂の単位還元
である。第２の単位還元は、ｐ₂によるＴ₃Ｔ₄の単位
還元である。したがって、この木の列は、ｐ₁ｐ₂によ
る還元を許容する。

【００６４】Ｇベースの還元演算子は、Ｇの導出木の列
をとり、その還元を生成する写像である。還元演算子は
構文上のシグネチュアを有する。これは、Ｇのプロダク
ション名の集合の正規表現（正則表現）である。例え
ば、Ｇが上記プロダクション“ｐ₁”および“ｐ₂”を
有すると仮定すると、Ｇベースの還元演算子はシグネチ
ュアｐ₁ ⁺( ｐ₂｜ε) を有する。直観的に、このシグ
ネチュアは、このシグネチュアの任意の還元演算子が
“ｐ₁”を１または２回以上、“ｐ₂”を多くとも１
回、左から右にこの順番で使用しなければならないこと
を示している。例えば、ルート・ラベル“A,B,B,A,B,C,
D ”を有する木の列は、ｐ₁を２回、続いてｐ ₂を１回
使用することにより、上記シグネチュアを有する還元演
算子により還元することができる。

【００６５】“σ”が還元演算子ならば、各ｐ_iをその
左側に置換することにより、そのシグネチュアから得ら
れる正規表現は、σのタイプと呼ばれ、一方、各ｐ_iを
その右側に置換することにより、そのシグネチュアから
得られる正規表現は、σのアリティ（arity ）と呼ばれ
る。例えば、σがシグネチュアｐ₁ ⁺( ｐ₂｜ε) を有
するならば、そのタイプはＫ⁺( Ｌ/ ε) であり、その
アリティは（ＡＢ⁺) ⁺((Ｃ｜Ａ) Ｄ^*｜ε) である。
したがって、還元演算子は、そのルート・ラベルがその
アリティによって受理される記号列を形成する木の列を
とり、そのルート・ラベルがそのタイプによって受理さ
れる記号列を形成するその還元を生成する。

【００６６】いくつかの合成属性および継承属性を有す
るプロダクション“ｑ：Ｈ→ｒ”がその記号に割り当て
られたとする。“ｑ”の属性文は還元演算子を含む。
“ｑ”の属性は、その還元演算子の全てがＧベースなら
ば、Ｇベースである。文法Ｇ ₁およびＧ ₂は拡張属性文
法である。Ｇ ₁からＧ ₂へ結合する拡張属性は拡張属性
文法Γであり、Γの拡張文脈自由文法がＧ ₁のそれと同
じである。続いて、Γの全プロダクションは、完全であ
るＧ ₂ベースの属性を有する。さらに、Γの合成属性お
よび継承属性のいくつかは構文属性として区別され、Γ
の開始記号はタイプＺ₂の還元演算子によって定義され
る、ある特別の構文属性の結果木を有し、Ｇ ₂の開始記
号である。最後に、Γの任意の記号は輸入属性を有し、
Γの全ての輸入属性はＧ ₁の属性であり、全ての輸入属
性Ｇ ₂はΓの属性である。

【００６７】さらに、Γの全てのプロダクションに対し
て、その構文上の入力変数が多くとも１回引数として現
れるならば、Γは良形（ウェル・フォームド）である。
属性結合が良形ならば、Ｚ₁の構文属性の結果木の値
は、常にＧ ₂の完全な導出木である。図７は、図３に示
すソース文法から図５に示す結果文法への属性結合の例
を示している。

【００６８】変換が、ソースの拡張属性文法、拡張属性
結合および結果の拡張属性文法によって記述されると、
ソース・ドキュメントの結果ドキュメントへの変換は、
３つのメイン・ステップから構成される。

【００６９】第１に、与えられたソース木が初期結果
木を生成するためにコピーされる。この初期結果木は、
結合文法（カップリング・グラマー）のそれらの入力属
性のみを維持する。続いて、コピーされた木の残りの属
性が、拡張属性文法について評価される。これは、結果
文法の部分的な結果属性木を生成する。これは、結合文
法の構文属性結果木の値として生成される。最後に、部
分的な属性木の残りの属性が、結果の拡張属性文法につ
いて評価される。これらの２つの評価ステップに使用で
きる周知の属性評価アルゴリズムが存在する。例えば、
P.Deransart 、M.Jourdan およびB.Lorho による「属性
文法」がある（Springer-Verlag, 1988,ニューヨー
ク）。

【００７０】例えば、図３に示すソース文法の図４に示
す属性木を、図７に示す結合および図５に示す結果文法
によって与えられる変換への入力とする。図８は、結合
のそれらの輸入属性のみを維持するソース木のコピーを
示している。図９は、図２のステップ20で示した結合文
法についての属性評価の結果を示している。この図のル
ート・ノードの構文属性の結果木の値は、輸入属性（す
なわち、nameとsalary）を有する結果文法の導出木であ
る。最後に、この木は、図２のステップ30で示したよう
に、結果文法について完全に属性化され、図６に示す最
終結果木となる。

【００７１】図10に示すように、変換装置20は、第１の
ドキュメントに対応する第１の拡張属性文法を決定する
第１の文法決定手段22を備えている。この変換装置20
は、第２のドキュメントに対応する第２の拡張属性文法
を決定する第２の文法決定手段24および第１のドキュメ
ントを第２のドキュメントに変換する拡張属性コピー文
法を決定する第３の文法決定手段26も備えている。

【００７２】変換装置20は、第１の拡張属性文法および
第１のドキュメントから第１の木を生成する第１の木生
成手段30も備えている。変換装置20は、第１の木および
拡張属性結合文法から第２の木を生成する第２の木生成
手段32を備えている。最後に、変換装置20は、第２の木
を第２のドキュメントに変換する変換手段34を備えてい
る。

【００７３】また、図10に示すように、第１の文法決定
手段22は、それ自身、第１の拡張属性文法の語彙を決定
する語彙決定手段40、および第１の拡張属性文法のプロ
ダクションを決定するプロダクション決定手段60を備え
ている。第２の文法決定手段24および第３の文法決定手
段26は、一般に、第１の文法決定手段22と同じエレメン
トおよびサブエレメントを備えている。したがって、以
下の説明は、第１の文法決定手段22にのみ関係している
が、第２および第３の文法決定手段24および26にも当て
はまる。

【００７４】さらに、語彙決定手段40は、拡張属性文法
の終端記号を決定する終端記号決定手段42を備えてい
る。この語彙決定手段は、拡張属性文法の１または２以
上の非終端記号を決定する非終端記号決定手段44も備え
ている。最後に、語彙決定手段は、１または２以上の非
終端記号の一つが開始記号かどうかを決定する開始記号
決定手段46を備えている。

【００７５】終端記号決定手段42、非終端記号決定手段
44および開始記号決定手段46は、ともに組み合わされ、
一般化された記号決定手段48を形成する。語彙決定手段
40は、記号決定手段48によって決定された記号の少なく
とも一つの論理属性を決定する論理属性決定手段50、お
よび記号決定手段48によって決定された複数の記号のそ
れぞれの少なくとも一つの非論理属性を決定する非論理
属性決定手段52をさらに備えている。

【００７６】非論理属性決定手段52は、それ自体、複数
の記号の１または２以上の合成属性を決定する合成属性
決定手段54、複数の記号の１または２以上の少なくとも
一つの継承属性を決定する継承属性決定手段56、および
記号決定手段48によって決定された終端記号と開始記号
の一方または双方の、少なくとも一つの輸入属性を決定
する輸入属性決定手段58を備えている。

【図面の簡単な説明】

【図１】一般化された導出木を表す。

【図２】この発明による方法の流れを表す一般化された
フローチャートである。

【図３】第１のドキュメントの拡張属性文法を表す。

【図４】第１のドキュメントの拡張属性文法から生成さ
れた木を表す。

【図５】第２のドキュメントの拡張属性文法を表す。

【図６】第２のドキュメントの第２の拡張属性文法の木
を表す。

【図７】第１の拡張属性文法を第２の拡張属性文法に結
合する属性結合文法を示す。

【図８】第１の木から生成された属性結合文法の輸入属
性を有するソース木を表す。

【図９】第２の木を生成するために第１の木から属性結
合文法によって生成された十分に属性化された木を表
す。

【図１０】変換装置を表すブロック図である。

【符号の説明】

20 変換装置 22 第１の文法決定手段 24 第２の文法決定手段 30 第１の木生成手段 32 第２の木生成手段 34 変換手段 40 語彙決定手段 42 終端記号決定手段 44 非終端記号決定手段 46 開始記号決定手段 48 記号決定手段 50 論理属性決定手段 52 非論理属性決定手段 54 合成属性決定手段 56 継承属性決定手段 58 輸入属性決定手段 60 プロダクション決定手段 26 第３の文法決定手段

フロントページの続き (72)発明者アレンエルブラウンジュニアアメリカ合衆国カリフォルニア州 92075 ソラナビーチグレンモントドライヴ 425 (72)発明者スリャナラヤナエムマンサアメリカ合衆国ニューヨーク州 14580 ウェブスターカントリーマノアウェイ 100 アパートメント４ (72)発明者アンフェンアメリカ合衆国ニューヨーク州 14580 ウェブスターカントリーマノアウェイ 128

Claims

【特許請求の範囲】

【請求項１】第１のドキュメントを第２のドキュメン
トに変換する方法であって、前記第１のドキュメントを第１の拡張属性文法によって
記述し、前記第２のドキュメントを第２の拡張属性文法によって
記述し、前記第１および第２の拡張属性文法から拡張属性結合文
法を記述し、および前記拡張属性結合文法に基づいて、
前記第１のドキュメントを前記第２のドキュメントに変
換する、ステップを含む方法。