JP3451660B2

JP3451660B2 - 文書処理装置及び方法

Info

Publication number: JP3451660B2
Application number: JP16476193A
Authority: JP
Inventors: 慎太郎古城; 宮崎　　淳; 天松本
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1992-07-03
Filing date: 1993-07-02
Publication date: 2003-09-29
Anticipated expiration: 2018-09-29
Also published as: JPH06259421A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、文書中から所望のパ
ターンに適合する文書要素を検索する文書処理装置及び
方法に関する。

【０００２】

【従来の技術】従来においては、ワードプロセッサや、
文書作成・編集機能を有するワークステーションやコン
ピュータ等の装置には、一般的に、作成された文書中か
ら所望の文字列を検索することのできる検索機能が設け
られている。この検索機能を利用することにより、検索
対象となる文字列を、他の文字列に置換したり削除した
りして、文書を編集することができる。

【０００３】またこのような文書編集を自動化するよう
にしたものも実現されており、例えば、（１）カット・アンド・ペーストしながらの操作をマク
ロ記述して何度でも実行することができるようにしたも
の。（２）例えば特開平３−１４７０６２号公報に開示され
ている様に、文書中から取り出された複数の文字列を一
時記憶領域に保存し、その後順次、ペースト（挿入）す
るようにしたもの。（３）指定したパータン文字列が文字列中に現れた際
に、置き換え等を実施する様にしたもの（例えばＵＮＩ
Ｘのｓｅｄのようなストリームエデッタ）。がある。

【０００４】また文書ファイルを編集する方法として
は、インタラクティブにユーザがカット・アンド・ペー
ストする方法や、バッチ処理で行う方法がある。このう
ち、効率良く複数回の抽出挿入を行う方法として、例え
ば、（４）ユーザが指定した抽出文字列を複数個同時に記憶
しておき、これら複数の文字列を順次、所定の位置に挿
入するようにしたもの（例えば特開平３−１４７０６２
号公報）。（５）ユーザがインタラクティブに文書にマークを付与
することにより、一度に複数の指定領域の入れ替えを行
うようにしたもの（例えば特開平３−２６０７６１号公
報）。（６）ファイル内のある特定の文字列パターンの出現に
対して、文字列の置き換え等の処理を行うようにしたも
の（例えばＵＮＩＸのａｗｋ、ｓｅｄなど）。（７）構造と内容とを分離して管理する構造化文書シス
テムにおいて、差し込み指定のある複数の文書から、差
し込み文字列を予め抽出しておき、この差し込み文字列
を差し込み対象文書へ反映させるようにしたもの（例え
ば特開平４−５７１５１号公報）。がある。

【０００５】更に文書の特定部分の属性値（例えば文字
の大きさなど）を変更するようにしたものも実現されて
おり、この方法として、例えば、（８）インタラクティブなエディタにより逐一変更する
ようにしたもの。（９）特定部分にスタイルを予め設定しておき、スタイ
ルの属性値を変更することにより、一括変換するように
したもの。がある。

【０００６】

【発明が解決しようとする課題】しかしながら、上記従
来の装置では、文書中から文字パターン（検索対象の文
字列）を検索することは可能であるが、これは文書中の
文字列と指定文字列との照合により一致したものを検索
するようにしているので、内部的に階層構造の情報を持
った文書いわゆる構造化文書から、指定された階層構造
パターンに従った文書要素を検索することができなかっ
た。

【０００７】すなわち、構造化文書においては、文書要
素が階層構造上のどこに位置するかによって、その文書
要素の情報は意味を変えるので、従来の如く、単に文字
列の照合のみにより検索し、階層構造を考慮しない検索
では、適切な部分にアクセスすることができず、正確な
検索処理を行うことができなかった。

【０００８】また上記（１）のものでは、不正確な処理
を施してしまうことが多く、このため、複数の文書をバ
ッチで処理することができない。

【０００９】また上記（２）のものでは、正確な処理を
施すことはできるが、バッチで処理することができな
い。

【００１０】また上記（３）のものでは、バッチ処理に
適しているが、構造を持った文書の文字列は構造上の位
置によって意味を変えるので、不適切な部分を書き換え
てしまう恐れがあり、構造化文書には適していない。

【００１１】また上記（４）のものでは、文書中の全指
定箇所をユーザがインタラクティブに一度設定しなけれ
ばならないので、操作が繁雑である。

【００１２】また上記（５）のものでは、上記（４）の
場合と同様に、文書中の全指定箇所をユーザがインタラ
クティブに一度設定しなければならないので、操作が繁
雑である。

【００１３】また上記（６）のものでは、ユーザが文書
中の所定箇所を指定する必要はないが、一般的なストリ
ングマッチのため、ファイル中の構造の意味を解釈せず
に、単に文字列として照合し、一致した文字列に対して
変更を加えるようにしているので、文書の構造の意味を
維持しつつ処理することはできない。

【００１４】また上記（７）のものでは、内容の変更に
ついては効率良く実行することができるが、構造と内容
を同時に変更することはできない。

【００１５】また上記（８）の方法では、インタラクテ
ィブに処理するので、属性値の変更処理を自動化するこ
とができず、このため効率が悪く、操作ミスによる間違
いも発生し易い。

【００１６】更に上記（９）のものでは、予めスタイル
を設定しておく必要であるので、そのための手間がかか
る。また同一のスタイルには全て同一の属性が付与され
るので、柔軟性に欠ける。

【００１７】そこで、本発明は、構造化文書に対する指
定された階層構造パターンに従った文書構成要素の検索
処理を行うことができる文書処理装置及び方法を提供す
ることを第１の目的とする。

【００１８】また、本発明は、構造化文書に対する指定
された階層構造パターンに従った文書構成要素の検索処
理し、この文書構成要素に対する削除、置換、複写など
の操作を実施することができる文書処理装置を提供する
ことを第２の目的とする。

【００１９】また、本発明は、複数の構造化文書に対す
る指定された階層構造パターンに従った文書構成要素の
検索処理を行うことができる文書処理装置及び方法を提
供することを第３の目的とする。

【００２０】また、本発明は、ターゲット側の複数のフ
ァイルそれぞれに保存されている複数の構造化文書から
抽出された文書構成要素に対する、ソース側の複数のフ
ァイルそれぞれに保存されている複数の構造化文書から
抽出された文書構成要素の挿入操作を一度に自動的に行
うことができる文書処理装置及び方法を提供することを
第４の目的とする。

【００２１】さらに、本発明は、複数の構造化文書に対
する指定された階層構造パターンに従った文書構成要素
を検索し、この検索した文書構成要素の属性値の参照又
は変更を行うことができる文書処理装置を提供すること
を第５の目的とする。

【００２２】

【課題を解決するための手段】上記第１の目的を達成す
るため、請求項１に係る発明は、複数の文書構成要素を
有する構造化文書に対する処理を行う文書処理装置にお
いて、基準となる複数の文書構成要素の接続関係を解釈
し、該解釈した接続関係と前記文書構成要素とを含む文
書構造パターンを生成する解釈手段と、前記解釈手段が
生成した文書構造パターンと、処理対象の構造化文書と
を照合する照合手段と、前記照合手段による照合結果に
基づいて、前記文書構造パターンと一致する文書構成要
素を前記処理対象の構造化文書から抽出して出力する出
力処理手段とを具備したことを特徴とする。

【００２３】また、上記第２の目的を達成するため、請
求項２に係る発明は、文書構成要素に対する挿入、置
換、削除のうちのいずれか一つの処理を指定する指定手
段を更に具備し、前記出力処理手段は、前記照合手段に
よる照合結果に基づいて、前記文書構造パターンと一致
する文書構成要素を前記処理対象の構造化文書から抽出
し、該抽出した文書構成要素に対して、前記指定手段に
より指定された処理を施して出力することを特徴とす
る。

【００２４】また、上記第２の目的を達成するため、請
求項３に係る発明は、文書構成要素に対する削除処理を
指定する指定手段と、前記照合手段による照合結果に基
づいて特定される前記文書構造パターンと一致する文書
構成要素と、該文書構成要素の親である文書構成要素と
を対応付けして蓄積する蓄積手段とを更に具備し、前記
出力処理手段は、前記指定手段により削除処理が指定さ
れた場合に、前記蓄積手段に蓄積されている前記親であ
る文書構成要素から、前記蓄積手段に蓄積されている前
記文書構造パターンと一致する文書構成要素に関する情
報を取り除くと共に、前記親である文書構成要素から、
当該親である文書構成要素から削除されない当該親の構
成要素の子供である文書構成要素を抽出し出力すること
を特徴とする。

【００２５】また、上記第３の目的を達成するため、請
求項４に係る発明は、複数の文書構成要素を有する構造
化文書に対する処理を行う文書処理装置において、複数
の文書構成要素を有する構造化文書を保存したファイル
を格納する格納手段と、基準となる複数の文書構成要素
の接続関係を解釈し、該解釈した接続関係と前記文書構
成要素とを含む文書構造パターンを生成する解釈手段
と、前記解釈手段が生成した文書構造パターンと、前記
格納手段に格納されているファイル内の構造化文書とを
照合する照合手段と、前記照合手段による照合結果に基
づいて、前記文書構造パターンと一致する文書構成要素
を前記格納手段に格納されているファイル内の構造化文
書から抽出して出力する出力処理手段とを具備したこと
を特徴とする。

【００２６】また、上記第３の目的を達成するため、請
求項５に係る発明は、請求項４に係る発明において、前
記照合手段は、前記格納手段に格納されている複数ファ
イルを対象として、前記解釈手段が生成した文書構造パ
ターンとの前記照合を行い、前記出力処理手段は、前記
照合手段による照合結果に基づいて、前記文書構造パタ
ーンと一致する文書構成要素を複数の構造化文書から抽
出して出力することを特徴とする。

【００２７】また、上記第４の目的を達成するため、請
求項６に係る発明は、請求項４に係る発明において、前
記格納手段は、ソース側の構造化文書を保存したファイ
ルと、ターゲット側構造化文書を保存したファイルとを
それぞれ複数格納し、前記照合手段は、前記ソース側の
構造化文書を保存した複数のファイルと、前記ターゲッ
ト側構造化文書を保存した複数のファイルとを対象とし
て、前記解釈手段が生成した文書構造パターンとの前記
照合を行い、前記出力処理手段は、前記照合手段による
照合結果に基づいて、前記文書構造パターンと一致する
文書構成要素を複数の構造化文書から抽出するととも
に、前記ターゲット側から抽出された文書構成要素に、
該文書構成要素に対応する前記ソース側から抽出された
文書構成要素を挿入して出力することを特徴とする。

【００２８】また、上記第５の目的を達成するため、請
求項７に係る発明は、請求項１乃至６のいずれかの請求
項に係る発明において、前記出力処理手段は、指定され
た属性に関する情報に基づいて、前記照合手段による照
合結果に基づいて特定される前記文書構造パターンと一
致する文書構成要素に対する属性の参照又は変更の操作
を行うことを特徴とする。また、上記第１の目的を達成
するため、請求項８に係る発明は、複数の文書構成要素
を有する構造化文書に対する処理を行う文書処理装置が
実行する文書処理方法であって、基準となる複数の文書
構成要素の接続関係を解釈し、該解釈した接続関係と前
記文書構成要素とを含む文書構造パターンを生成するス
テップと、前記文書構造パターンと、処理対象の構造化
文書とを照合するステップと、前記照合の結果に基づい
て、前記文書構造パターンと一致する文書構成要素を前
記処理対象の構造化文書から抽出するステップとを含む
ことを特徴とする。さらに、上記第３の目的を達成する
ため、請求項９に係る発明は、複数の文書構成要素を有
する構造化文書に対する処理を行う文書処理装置が実行
する文書処理方法であって、複数の文書構成要素を有す
る構造化文書を保存したファイルを格納するステップ
と、基準となる複数の文書構成要素の接続関係を解釈
し、該解釈した接続関係と前記文書構成要素とを含む文
書構造パターンを生成するステップと、前記文書構造パ
ターンと、前記格納したファイル内の構造化文書とを照
合するステップと、前記照合の結果に基づいて、前記文
書構造パターンと一致する文書構成要素を前記格納した
ファイル内の構造化文書から抽出するステップとを含む
ことを特徴とする。

【００２９】

【作用】請求項１に係る発明では、解釈手段が、基準と
なる複数の文書構成要素の接続関係を解釈し、該解釈し
た接続関係と前記文書構成要素とを含む文書構造パター
ンを生成すると、照合手段が、解釈手段によって生成さ
れた文書構造パターンと処理対象の構造化文書とを照合
し、さらに、出力処理手段が、その照合により文書構造
パターンと一致する文書構成要素を処理対象の構造化文
書から抽出して出力する。この請求項１に係る発明によ
れば、構造化文書から、指定された階層構造に従った文
書構成要素を検出し出力することができる。

【００３０】請求項２に係る発明では、請求項１に係る
発明において、出力処理手段は、照合手段による照合に
より文書構造パターンと一致した文書構成要素に対し
て、指定手段により指定された挿入、置換、削除のうち
のいずれか一つの処理を施したて出力する。この請求項
２に係る発明によれば、構造化文書から、指定された階
層構造に従った文書構成要素に対して、挿入、置換、削
除などの処理を施すことができる。

【００３１】請求項３に係る発明では、請求項１に係る
発明において、出力処理手段は、指定手段により削除処
理が指定されると、蓄積手段に蓄積されている、照合手
段による照合により一致した文書構成要素の親である文
書構成要素から、蓄積手段に蓄積されている照合手段に
よる照合に一致した文書構成要素に関する情報を取り除
くと共に、当該親である文書構成要素から削除されな
い、当該親の文書構成要素の子供である文書構成要素を
出力する。この請求項３に係る発明によれば、削除すべ
き文書構成要素の親の文書構成要素の内容を自動的に変
更することができる。

【００３２】請求項４に係る発明では、解釈手段が、基
準となる複数の文書構成要素の接続関係を解釈し、該解
釈した接続関係と前記文書構成要素とを含む文書構造パ
ターンを生成すると、照合手段が、解釈手段が生成した
文書構造パターンと格納手段に格納されているファイル
内の構造化文書とを照合し、更に、出力処理手段が、照
合手段による照合結果に基づいて、文書構造パターンと
一致する文書構成要素を格納手段に格納されているファ
イル内の構造化文書から抽出して出力する。この請求項
４に係る発明によれば、複数の構造化文書から、指定さ
れた階層構造に従った文書構成要素を検索し出力するこ
とができる。

【００３３】請求項５に係る発明は、請求項４に係る発
明において、照合手段が、格納手段に格納されている複
数ファイルを対象として、解釈手段が生成した文書構造
パターンとの照合を行い、出力処理手段が、照合手段に
よる照合結果に基づいて、文書構造パターンと一致する
文書構成要素を複数の構造化文書から抽出して出力す
る。この請求項５に係る発明によれば、複数のファイル
それぞれに保存されている複数の構造化文書から、指定
された階層構造に従った文書構成要素を検索し出力する
ことができる。

【００３４】請求項６に係る発明では、請求項４に係る
発明において、格納手段が、ソース側の構造化文書を保
存したファイルと、ターゲット側構造化文書を保存した
ファイルとをそれぞれ複数格納し、照合手段が、ソース
側の構造化文書を保存した複数のファイルと、ターゲッ
ト側構造化文書を保存した複数のファイルとを対象とし
て、解釈手段が生成した文書構造パターンとの照合を行
い、更に、出力処理手段が、照合手段による照合結果に
基づいて、文書構造パターンと一致する文書構成要素を
複数の構造化文書から抽出するとともに、ターゲット側
から抽出された文書構成要素に、該文書構成要素に対応
するソース側から抽出された文書構成要素を挿入して出
力する。この請求項６に係る発明によれば、ターゲット
側における複数のファイルそれぞれに保存されている複
数の構造化文書から抽出された単数又は複数の文書構成
要素に対して、ソース側における複数のファイルそれぞ
れに保存されている複数の構造化文書から抽出された単
数又は複数の文書構成要素を一度に挿入することができ
る。

【００３５】請求項７に係る発明では、請求項１乃至６
のいずれかの請求項に係る発明において、出力処理手段
が、指定された属性に関する情報に基づいて、照合手段
による照合結果に基づいて特定される文書構造パターン
と一致する文書構成要素に対する属性の参照又は変更の
操作を行う。この請求項７に係る発明によれば、構造化
文書から、指定された階層構造に従った文書構成要素を
検索し、この検索した文書構成要素に対する参照又は変
更の操作を実施することができる。また、請求項８に係
る発明は、請求項１に係る発明を方法の発明の観点から
捉えたものであり、請求項９に係る発明は、請求項４に
係る発明を方法の発明の観点から捉えたものである。

【００３６】

【実施例】以下、第１の実施例乃至第５の実施例を添付
図面を参照して説明する。

【００３７】最初に第１の実施例を図１乃至図９を参照
して説明する。

【００３８】図１は、本発明に係る文書処理装置の第１
の実施例を示す機能ブロック図である。

【００３９】同図において、メモリ１０には、基準とな
る文書構成要素同志の接続関係（階層関係や順序関係）
のパターン記述情報２０（これについては後述する）が
記憶されており、解釈部３０は、メモリ１０からパター
ン記述情報２０を読み出して解釈し、この解釈結果であ
る文書構造パターン４０（これについては後述する）を
メモリ１０に記憶する。再編成部５０は、文書ファイル
６０に保存されている構造化文書内を走査して、その構
造化文書を照合処理可能な形式の構造に再編成し、この
再編成結果である再編成構造化文書７０（これについて
は後述する）をメモリ１０に格納する。そして照合部８
０は、メモリ１０に記憶されている文書構造パターン４
０と再編成構造化文書７０と照合し、この照合結果を出
力処理部９０に出力する。出力処理部９０では、照合部
８０の照合により一致した文書構成要素を再編成構造化
文書７０から抽出し出力する。

【００４０】図２は、図１に示した実施例の装置を実現
するためのハードウェア構成を示したものであり、例え
ば、ワークステーションやコンピュータ等のブロック図
を示している。図２において、装置は、構造化文書に対
する検索処理を実行する中央処理装置（以下、ＣＰＵと
いう）２１０と、主メモリ２２０と、ディスク２３０
と、各種のデータ内容や文書内容を表示するディスプレ
イ２４０と、キーボードやマウスから構成され各種デー
タや指令を入力する入力装置２５０とがバス２６０を介
してそれぞれ接続されている。なおＣＰＵ２１０はバス
２６０を介してこれに接続された各部を制御する。

【００４１】ここで、図１に示した機能ブロック図の構
成要素と図２に示したブロック図の構成要素との対応関
係について説明する。図１に示したメモリ１０は主メモ
リ２０に対応しており、図１に示した解釈部３０、再編
成部５０、照合部８０、および出力処理部９０は共にＣ
ＰＵ２１０に対応しており、文書ファイル６０はディス
ク２３０に対応している。

【００４２】次に上述したパターン記述情報２０につい
て説明する。

【００４３】パターン記述情報２０は、パターンが、
“節”、“表題”などの単純文字列パターン、“／”、
“＃”などの接続表現記号、“（”、“）”などの括
弧、等の構文要素が特定の文法に従って出現するように
表現されるものであり、例えば、（節／表題／ｉｎｔｒｏｄｕｃｔｉｏｎ）＃（節／表題） …（１）ここで、“／”は包含関係、“＃”は順序関係を表して
いる。のように記述される。この記述内容はメモリ１０に記憶
される。

【００４４】そして解釈部３０は、メモリ１０から上記
（１）に示す様なパターン記述情報を読み出して解釈
し、この結果として図３に示す様に階層構造（木構造）
を形成している文書構造パターン（これが上述した文書
構造パターン４０に相当する）を生成する。このとき、
当然、上述したような構文要素や文法などが考慮され
て、文書構造パターンが生成されることとなる。なおこ
の実施例では、図３に示すような文書構造パターンにお
ける矩形図形を単純パターンということにする。

【００４５】ここで、解釈部３０によるパターン記述の
解釈処理について、図４に示すフローチャートを参照し
て説明する。なおここでは、括弧（“（”、“（”）の
構文要素の処理を省略している。

【００４６】解釈部３０は、カレントレコードを生成し
（ステップ４０１）、その後、入力文字列（例えば上記
（１）のパターン記述情報）についての解釈は終りか否
かを判断する（ステップ４０２）。入力文字列について
の解釈処理がまだ残っている場合は、次の文字が順序関
係を表す記号“＃”か否かを判断する（ステップ４０
３）。

【００４７】ステップ４０３において記号“＃”であれ
ば、新たなレコードを生成し、このレコードをカレント
レコードの弟にし（ステップ４０４）、その後、新たに
生成したレコードをカレントレコードと定義する（ステ
ップ４０５）。その後、上記ステップ４０２に戻りこの
ステップ以降を実行する。

【００４８】ステップ４０３において文字が記号“＃”
でない場合は、当該文字が包含関係を表す記号“／”か
否かを判断し（ステップ４０６）、記号“／”の場合
は、新たなレコードを生成し、このレコードをカレント
レコードの子にする（ステップ４０７）。その後、ステ
ップ４０５に進む。

【００４９】ステップ４０６において文字が記号“／”
でない場合は、文字であることを意味するので、当該文
字をカレントレコード内に挿入し（ステップ４０８）、
その後、ステップ４０２に戻りこのステップ以降を実行
する。

【００５０】なお、ステップ４０２において入力文字列
についての解釈が終了した場合は処理を終了する。

【００５１】ここで、具体例を挙げて説明する。例えば
“富士夫／太郎＃花子”という文字列は、図５（ａ）〜
（ｊ）に示すようにパターンとして解釈されていく。な
お、同図において、矩形図形がレコードを表している。
また図５（ｊ）に示す内容が最終的な文書構造パターン
である。

【００５２】上述した例では、文字列のパターン解釈で
あったが、図形エディタを用いて描画したグラフ（グラ
フ理論におけるグラフ）を解釈してパターンとする方法
もある。このときは、ノードやリンクを適切な意味に解
釈するように定義する。例えば、図３に示した例では、
矩形で囲まれた文字列（例えば節や表題）が単純文字列
パターンを表し、上下の矩形図形を結んでいるリンク
（例えば符号３０１で示す線分（リンク））が序列関係
を表し、左右の矩形図形を結んでいるリンク（例えば符
号３０２で示す線分（リンク））が包含関係を表してい
る。このような図形から意味構造を抽出するには、例え
ばパターン記述専用の図形エディタを用意すれば良い。

【００５３】ここで、図形エディタを用いたパターン記
述の一例を図６に示す。

【００５４】まずユーザは、図６（ａ）に示す様にパタ
ーンエディタの初期画面つまりウィンドウ６００を表示
画面に表示せさ、次に図６（ｂ）に示す様にノード“un
specified node”をマウス（入力装置２５０に設けられ
ている）を操作して選択し、その後、所定の操作を行っ
て、図６（ｃ）に示す様にポップアップメニュー６１０
を表示させる。そして、ポップアップメニュー６１０の
“set string”の項目を選択して、図６（ｄ）に示す様
に文字列を記述する。続いて、ポップアップメニュー６
１０の“make child”の項目を選択して、図６（ｅ）に
示す様にノード“節”の子ノードを作成する。引き続い
て、ポップアップメニュー６１０の“make brother”の
項目を選択して、図６（ｆ）に示す様に弟ノード作成す
る。こうして作成された図６（ｆ）に示す様なグラフは
直接文書構造パターンとして用いられる。すなわち、図
６（ｆ）に示す内容が、パターン記述情報２０であり、
また文書構造パターン４０でもある。

【００５５】次に、再編成部５０により再編成される再
編成構造化文書７０について説明する。

【００５６】ファイルとして保管されている文書のまま
では、文書内部の構造へのアクセスができずパターン処
理に不利なので、ファイルを走査して構造を再編成す
る。ただし、一度にファイル全体を解析する必要はな
く、照合部８０が必要するとき、必要となっている部分
のみを解析して出力するようにする。

【００５７】この解析処理としては、ファイルの必要と
する箇所にファイルポインタを移動して可変長レコード
を切り出し、そのレコードに予め記述されている構造上
での位置情報をもとに木構造（或いは部分木構造）を再
構成するようになっている。再編成して得られた再編成
構造化文書の一例を図７に示す。この図に示す様に文書
は、階層構造（木構造）として表現される。なおこの実
施例では、再編成構造化文書における矩形図形を文書ノ
ードということにする。

【００５８】次に、照合部８０による照合処理につい
て、図８に示すフローチャートを参照して説明する。

【００５９】照合部８０は、current-nodeを、再編成構
造化文書の構造における最初の文書ノードにし（ステッ
プ８０１）、current-pat を、文書構造パターンの構造
における最初の単純パターンにする（ステップ８０
２）。

【００６０】その文書ノードおよび単純パターンは指定
された接続条件に一致するか否かを判断し（ステップ８
０３）、一致する場合は、current-pat とcurrent-node
とが一致するか否かを判断する（ステップ８０４）。

【００６１】ステップ８０４において一致する場合は、
current-nodeを次の文書ノードにし（ステップ８０
５）、その後、単純パターンが終りか否かを判断する
（ステップ８０６）。

【００６２】ステップ８０６において単純パターンが終
了した場合は、その旨が照合部８０から出力処理部９０
に通知される。出力処理部９０では、その一致した文書
ノードを出力する（ステップ８０７）。このようにして
出力される文書ノードは、ディスプレイ２４０に表示さ
れたり、あるいはファイルとして保管される。さらに
は、その文書ノードを他の（或いは同一の）文書中の特
定領域に流し込むことによって、文書内容を編集するこ
とができる。このように検索して一致した文書ノードす
なわち文書構成要素を、削除や置換したり、他の文書に
挿入することができる。

【００６３】ところでステップ８０７が終了すると、照
合部８０は、current-pat を前の単純パターンにし（ス
テップ８０８）、その後、文書ノードが終りか否かを判
断す（ステップ８０９）。

【００６４】文書ノードが終了したら処理を終了し、ま
だ文書ノードがある場合は上記ステップ８０３に戻りこ
のステップ以降を実行する。

【００６５】なお、ステップ８０６において単純パター
ンが終りの場合はステップ８０９に進む。

【００６６】また上記ステップ８０３において指定され
た接続条件に不一致の場合、ステップ８０４において一
致しない場合は、current-pat は最初の単純パターンか
否かを判断し（ステップ８１０）、単純パターンであれ
ば、一致していた文書ノードまで戻り（ステップ８１
１）、その後、ステップ８０５に進む。

【００６７】ステップ８１０において単純パターンでな
い場合はcurrent-pat を前の単純パターンにし（ステッ
プ８１２）、その後、ステップ８１１に進む。

【００６８】以上のような処理を行って得られた照合結
果を図９に示す。この図に示した例では、図３に示した
文書構造パターンと図７に示した再編成構造化文書とを
照合した場合の結果を示している。

【００６９】この例においては、図９中点線で示される
ように、単純パターン９０１Ａと文書ノード９０１Ｂと
が一致し、単純パターン９０２Ａと文書ノード９０２Ｂ
とが一致し、単純パターン９０３Ａと文書ノード９０３
Ｂとが一致し、単純パターン９０４Ａと文書ノード９０
４Ｂとが一致し、単純パターン９０５Ａと文書ノード９
０５Ｂとが一致し、単純パターン９０６Ａと文書ノード
９０６Ｂとが一致している。

【００７０】この図から分かるように、文書構造パター
ン（階層構造情報）が分かれば、例えば、単純パターン
９０６Ａの文字列が分からない場合であっても、照合処
理することにより、その単純パターン９０６Ａに対応す
る文書ノード９０６Ｂを得ることができ、その結果とし
て、表題は「魔神の宅配便」であるということが分か
る。

【００７１】また単純パータン９０３Ａの文字列「ｉｎ
ｔｒｏｄｕｃｔｉｏｎ」に一致するところが、文書ノー
ド９０３Ｂ、９０７に存在していた場合であっても、必
ず表題になっているもののみしか一致しないので（この
例では文書ノード９０３Ｂのみ一致）、確実に検索する
ことができる。

【００７２】以上説明したように第１の実施例によれ
ば、文字列パターンに加えて、適切な方法で文書の構成
要素の接続関係を示すことによって、誤りなく必要とす
るものが得られる。

【００７３】次に第２の実施例を図１０乃至図１５を参
照して説明する。

【００７４】図１０は、本発明に係る文書処理装置の第
２の実施例を示す機能ブロック図である。この機能ブロ
ック図は、図１に示した第１の実施例の機能ブロック図
の構成において、適合ノード蓄積部１０１０、命令処理
処理部１０２０を追加し、出力処理部９０を出力処理部
１０３０に変更した構成になっている。なお図１０にお
いて、図１に示した構成要素と同様の機能を果たす部分
には同一の符号を付している。

【００７５】適合ノード蓄積部１０１０は、照合部８０
の照合結果である文書構成要素を蓄積する。

【００７６】命令処理部１０２０は、コマンドラインあ
るいは標準入力から与えられる所定の処理を解釈し、こ
の解釈結果を出力処理部１０３０に与える。なお所定の
処理には、“挿入する”、“置換する”、“削除する”
の処理が含まれている。

【００７７】出力処理部１０３０は、適合ノード蓄積部
１０１０に蓄積されている文書構成要素に対して、命令
処理部１０２０からの処理命令に従って処理を実行し、
出力する。この出力は、次の処理のための標準出力に出
力しても良い。

【００７８】なお上記標準入力及び標準出力とは、ＵＮ
ＩＸ（オペレーティングシステム）における標準入力及
び標準出力のことである。

【００７９】この図１０に示した装置も、図２に示した
第１の実施例のハードウェア構成で実現することができ
る。ここで図１０に示した構成要素と図２に示した構成
要素との対応関係について説明する。図１０に示した適
合ノード蓄積部１０１０は図２に示した主メモリ２２０
に対応し、図１０に示した命令処理部１０２０及び出力
処理部１０３０は共に図２に示したＣＰＵ２１０に対応
している。他の構成要素については第１の実施例と同様
である。

【００８０】この第２の実施例は、基本的には第１の実
施例と同様である。第１の実施例と異なるのは、構造化
文書中から、文書構造パターンに一致する構造を抽出
し、この抽出した構造に対して、“挿入”、“置換”、
“削除”などの処理を施すという点である。

【００８１】そこで、第２の実施例における文書編集処
理について、図１１乃至図１５を参照して説明する。

【００８２】パターン記述情報２０として、（節／本文段落／スタミナＸ）＃＾注 …（２）ここで、／は包含関係を示す記号＃は順序関係を示す記号＾は処理対象となるノードを示す記号が記述されメモリ１０に記憶されている。

【００８３】次に解釈部３０は、図４に示した第１の実
施例のパターン解釈処理手順と同様の処理を実行して、
上記（２）に示すパターン記述情報２０から、図１１に
示す様な文書構造パターンを生成し、これを文書構造パ
ターン４０としてメモリ１０に格納する。このとき処理
対象となるノードは「注」であると解釈する。図１１で
は、処理対象となるノードの目印として二重枠で囲んで
表記している。この場合も、図５に示した第１の実施例
の具体例の様にパターン解釈されていく。

【００８４】この第２の実施例でも、図形エディタを用
いて描画したグラフ（グラフ理論におけるグラフ）を解
釈して文書構造パターンを認識することができる。図形
エディタを用いたパターン記述の方法は、図６を用いて
説明した第１の実施例と同様である。

【００８５】一方、再編成部５０による再編成処理結果
は、図１２に示す内容であり、メモリ１０に再編成構造
化文書７０として格納される。

【００８６】そして照合部８０が、図８に示した第１の
実施例の照合処理手順と同様の処理を実行して、図１１
に示す文書構造パターンと、図１２に示す再編成構造化
文書とを照合する。この結果として、図１３に示すよう
な照合結果が得られることとなる。図１３においては、
単純パターン１３１０と文書ノード１３１０Ａ、１３１
０Ｂとが一致し、単純パターン１３２０と文書ノード１
３２０Ａ、１３２０Ｂとが一致し、単純パターン１３３
０と文書ノード１３３０Ａ、１３３０Ｂとが一致し、単
純パターン１３４０と文書ノード１３４０Ａ、１３４０
Ｂとが一致しいる。このとき照合部８０は、パターン記
述情報中で指示されている処理対象ノードに対応する構
造化文書中のノードを適合ノード蓄積部１０１０に格納
する。この例では「注」のノード１３４０Ａ、１３４０
Ｂが蓄積される。なおノードの全情報を格納する必要は
なく、ノードへのリンクを記憶するようにしても良い。

【００８７】命令処理部１０２０に、例えば「insert
“スタミナＸは絶倫製薬の登録商標です”as lastChil
d」というコマンドラインが与えられると、命令処理部
１０２０は、そのコマンドラインを、出力処理部１０３
０の動作を決定する変数として解釈し、この解釈結果に
応じた処理を実行する。この処理を図１４を用いて説明
する。

【００８８】最初にinsertを解釈して、“挿入する”を
示すinsertのコマンドを出力処理部１０３０に設定す
る。コマンドの設定は、解釈したコマンドを設定するよ
うにしても良いし、出力処理部１０３０に予め設定され
たコマンド群を用意しておき、解釈したコマンドに該当
するものを設定するようにしても良い。ここでは、後者
の方法を採用しており、“挿入する”、“置換する”、
“削除する”にそれぞれ対応するコマンドinsert, repl
ace, delete が予め用意されている。これらのコマンド
以外にも、insert from file"tottekoi", insert from
stdin, remove などのコマンドを用意することもでき
る。

【００８９】次に“スタミナＸは絶倫製薬の登録商標で
す”を解釈して、処理上必要となるデータ領域（ここで
はbufferという名前で参照される）に文字列を出力処理
部１０３０に複写する。

【００９０】最後にas lastChildを解釈して、末子であ
るということを示すフラグ１を出力処理部１０３０に設
定する。

【００９１】出力処理部１０３０では、「insertのコマ
ンド」、「buffer＝スタミナＸは絶倫製薬の登録商標で
す」、「フラグ１」が設定されると、これらの情報に基
づいて、適合ノード蓄積部１０１０に蓄積されているノ
ードに対して処理を施し、この結果をファイルストリー
ムに出力する。この出力結果を図１５に示す。この図１
５に示す例では、注のノード１３４０Ａ、１３４０Ｂの
子供として“スタミナＸは絶倫製薬の登録商標です”の
ノード１５００Ａ、１５００Ｂが接続されている。なお
処理と出力は同時に実行することができる。更には対象
ノードの照合の検証とも同時に実行することができる。

【００９２】以上説明したように第２の実施例によれ
ば、構造化文書内のオブジェクト間の関係を利用したパ
ターン、つまり基準となる階層構造のパターンとのパタ
ーンマッチングを行うようにしているので、構造化文書
における正確な情報（文書構成要素）にアクセスするこ
とができると共に、階層上のデータ（文書構成要素）の
位置を簡単に指定することができる。

【００９３】また１つのパターンを使用して上述したよ
うなパターンマッチングを行うようにしているので、構
造化文書中の複数の書き換え又は挿入位置を指定するこ
とができる。

【００９４】更にユーザとのインタラクションなしで正
確なアクセスを実行することができるので、構造を持っ
た文書のバッチ処理が可能となる。

【００９５】次に第３の実施例について、図１６乃至図
２０を参照して説明する。

【００９６】図１６は、本発明に係る文書処理装置の第
３の実施例を示す機能ブロック図である。この機能ブロ
ック図は、図１０に示した第２の実施例の機能ブロック
図の構成において、適合ノード蓄積部１０１０を削除
し、削除情報蓄積部１０４０を追加した構成になってい
る。

【００９７】削除情報蓄積部１０４０は、照合部８０の
照合により一致した文書ノードと、当該文書ノードの親
である文書ノードとを対応付けして蓄積（この蓄積の構
造ついては後述する）し管理する。

【００９８】出力処理部１０３０は、命令処理部１０２
０から“削除する処理”が渡されると、削除情報蓄積部
１０４０に蓄積されている照合部８０の照合により一致
した文書ノードの親である文書ノードから、削除情報蓄
積部１０４０に蓄積されている照合部８０の照合により
一致した文書ノードに関する情報（例えば文書ノード、
そのノードの位置情報）を取り除くと共に、当該親の文
書ノードから削除されない子供の文書ノードを出力す
る。

【００９９】なお構造化文書においては、一般的に、各
ノード間の関係を表現する際に、親ノードには自己の子
供である子ノードを示す情報が含まれており、一方、子
ノードに自己の親である親ノードを示す情報が含まれて
いるので、出力処理部１０３０は、“削除する処理”を
受け取ったときは、親の文書ノードから、削除すべき文
書ノードを示す情報を削除するようにしている。このと
き、削除される文書ノードに含まれている親の文書ノー
ドを示す情報は削除してもしなくとも良い。但し、親の
文書ノードから削除すべき文書ノードを示す情報を削除
することにより、当該削除すべき文書ノードは、親の文
書ノードとの関連性がなくなり出力されないので、処理
効率の点からいって、削除される文書ノードに含まれて
いる親の文書ノードを示す情報は削除しない方が良い。

【０１００】図１７は、削除情報蓄積部１０４０に蓄積
される削除情報の構造の一例を示している。この実施例
では、削除情報の構造を、削除される文書ノード（以
下、子ノードという）のリスト（以下、子リストとい
う）を持った、その親の文書ノード（以下、親ノードと
いう）のリスト（以下、親リストという）として表現す
るようにしている。因みに図１７においては、親リスト
には、２つの子ノードＣ１-1、Ｃ１-2の子リストを持つ
親ノードＰ１と、２つの子ノードＣ２-1、Ｃ２-2の子リ
ストを持つ親ノードＰ２とが登録されている。

【０１０１】なお、上記の例では削除される子ノードを
登録するようにしているが、削除される子ノードの情報
としては、何番目の子供が削除されるべきか、という情
報で十分である。

【０１０２】次に、削除情報蓄積部１０４０による削除
情報の作成処理について、図１８に示すフローチャート
を参照して説明する。

【０１０３】削除情報蓄積部１０４０は、初期化として
親リストを空にし（ステップ１０５１）、次に、照合部
８０から渡される照合結果つまりパターンと一致するノ
ード（以下、これをノードＣとする）を順次受け取ると
共に、当該ノードＣを１つ取り込む（ステップ１０５
２）。

【０１０４】次に削除情報蓄積部１０４０は、取り込ん
だノードＣの親ノードＰは親リストに未登録か否かを判
断する（ステップ１０５３）。

【０１０５】ステップ１０５３において親ノードＰは登
録済みの場合は、ノードＣは親ノードＰの子リストに未
登録か否かを判断する（ステップ１０５４）。

【０１０６】ステップ１０５４においてノードＣは登録
済みの場合は、照合部８０からの次のノードＣを取り込
む（ステップ１０５５）。

【０１０７】なお、ステップ１０５４においてノードＣ
が未登録の場合は、ノードＣを親ノードＰの子リストに
新規登録し（ステップ１０５６）、その後、ステップ１
０５５に進み、またステップ１０５３において親ノード
Ｐが未登録の場合は、親リストに新規登録し（ステップ
１０５７）、その後、ステップ１０５４に進む。

【０１０８】ところで上記ステップ１０５５を終了した
場合、削除情報蓄積部１０４０は、照合部８０から渡さ
れるノードは終りか否かを判断し（ステップ１０５
８）、ノードが終りの場合には処理を終了し、一方、ま
だノードが存在している場合は、上記ステップ１０５３
に戻り、照合部８０から渡されるノードが終了するま
で、ステップ１０５３〜１０５８を繰り返す。

【０１０９】ここで、図１７に示した例を用いて、削除
情報の作成処理を説明する。

【０１１０】図１７において、親ノードＰ１が親ノード
Ｐ２より早く出現するものとし、今現在、親リストは空
き状態とする。

【０１１１】このような状態で、上記ステップ１０５３
において、子ノードＣ１-1が取り込まれた後、ステップ
１０５３が実行された際には、子ノードＣ１-1の親ノー
ドＰ１は未登録であるので、この場合はステップ１０５
７に進み、このステップにより親ノードＰ１が親リスト
に登録される。このステップ１０５７終了後はステップ
１０５４に移行するが、子ノードＣ１-1は親ノードＰ１
の子リストには登録されていないので、ステップ１０５
６に進み、このステップにより子ノードＣ１-1が親ノー
ドＰ１の子リストに登録される。

【０１１２】そしてステップ１０５５、１０５８が実行
されることとなり、この場合は、照合部８０からのノー
ド（つまり照合結果であるノード）がまだ存在するの
で、上記ステップ１０５３に戻り、このステップにより
子ノードＣ１-2についての処理が実行される。この場合
は、ステップ１０５３においては「ＮＯ」（つまり親ノ
ードＰ１は親リストに登録済み）となるので、ステップ
１０５４に進み、このステップにおいては「ＹＥＳ」
（子ノードＣ１-2は親ノードＰ１の親リストには未登
録）なので、ステップ１０５６に進み、このステップに
より子ノードＣ１-2が親ノードＰ１の親リストに登録さ
れる。

【０１１３】以下同様に、子ノードＣ２-1、Ｃ２-2につ
いての処理が行われる。

【０１１４】なお図１７において、削除すべきノード
が、子ノードＣ１-1、Ｃ１-2、親ノードＰ１であった場
合は、親リストに、例えば親ノードＰ１が削除される旨
の情報のみを登録し、子ノードＣ１-1、Ｃ１-2について
は登録しないようにする。何故ならば、削除されるノー
ドから更に削除されるということは無いので、親ノード
Ｐ１が削除される旨のみを登録すれば良いこととなる。
従って、子ノードＣ１-1、Ｃ１-2のリストへの登録を行
う必要がないので、処理効率及び記憶使用効率を向上さ
せることができる。

【０１１５】次に、出力処理部１０３の出力処理につい
て、図１９に示すフローチャートを参照して説明する。

【０１１６】出力処理部１０３は、命令処理部１０２０
からの“削除する処理”を受け取ると（ステップ１０６
１）、処理の対象をファイル先頭に移動し（ステップ１
０６２）、その後、そのファイルから、文書のルートノ
ード（これはファイル先頭）であるノードＮを１つ読み
取り（ステップ１０６３）、該ノードＮについて、出力
すべきノードを出力するノード出力処理を実行する（ス
テップ１０６４）。すなわちステップ１０６４において
は、ノードＮの下位に存在するノードが出力されること
になる。

【０１１７】このステップ１０６４のノード出力処理に
ついて、図２０に示すサブルーチンを参照して説明す
る。

【０１１８】出力処理部１０３は、ノードＮは親リスト
に登録されているか否かを判断する（ステップ１０７
１）。ここで、ノードＮはルートノードであるので、こ
のノードＮが、親リストに登録されているということ
は、必ず削除されるノード（すなわち子ノード）が存在
することを意味しており、一方、親リストに登録されて
いない場合は、削除されるノードが存在しないことを意
味している。

【０１１９】ところで、ステップ１０７１において登録
済みの場合は、ノードＮについて変更を施して出力する
（ステップ１０７２）。このステップ１０７２において
は、削除情報蓄積部１０４０に蓄積されている親リスト
つまり削除情報に基づいて、ノードＮについて、親リス
トに登録されている親ノードから、該親ノードの子リス
トに登録されている子ノードに関する情報（例えば子ノ
ードを示す情報）を取り除く。この処理が終了した後
は、ノードＮには出力すべきノードのみが存在している
ことになる。

【０１２０】そしてステップ１０７２を終了した後、出
力処理部１０３は、ノードＮについての子リストに含ま
れない子をノード（つまり出力すべきロノード）に対し
て、再帰的にノード出力処理を実行する（ステップ１０
７３）。

【０１２１】一方、ステップ１０７１において未登録の
場合は、ノードＮをそままま出力し（ステップ１０７
４）、そのノードＮの子ノード全てに対して、再帰的に
ノード出力処理を実行する（ステップ１０７５）。

【０１２２】以上説明したように第３の実施例によれ
ば、パターン照合して削除されるノード（ノードＣ）が
検出されると、このノードＣと該ノードＣの親のノード
（ノードＰ）とを対応して記憶し、そして、親のノード
ＰからノードＣに関する情報（ノードＣを示す情報）を
取り除いて、その親のノードＰを出力するようにしてい
るので、ユーザが、親のノードＰの内容を変更する必要
がない。このため構造化文書に対する編集処理の作業効
率を向上させることができる。

【０１２３】次に第４の実施例を図２１乃至図２７を参
照して説明する。

【０１２４】図２１は本発明に係る文書処理装置の第４
の実施例を示す機能ブロック図である。同図において、
文書処理装置は、メモリ１６１０、解釈部１６２０、再
編成部１６３０、ソース文書ファイル群１６４０、ター
ゲット文書ファイル群１６５０、照合部１６６０、複数
抽出点蓄積部１６７０、複数挿入点蓄積部１６８０、出
力処理部１６９０、抽出挿入関係ルール指定部１７００
を備えている。

【０１２５】メモリ１６１０には、第１の実施例で説明
したようなパターン記述情報１６１１が記憶されてお
り、解釈部１６２０は、メモリ１６１０からパターン記
述情報１６１１を読み出して解釈し、この解釈結果を第
１の実施例で説明したような文書構造パターン１６１２
としてメモリ１６１０に記憶する。

【０１２６】再編成部１６３０は、ソース文書ファイル
群１６４０に保持されている複数の構造化文書内を走査
して、これらの構造化文書を照合処理可能な形式の構造
に再編成し、この結果をソース再編成構造化文書群１６
１３としてメモリ１６１０に格納する。同様にして、タ
ーゲット文書ファイル群１６５０内の複数の構造化文書
についても、ソース再編成構造化文書群１６１４として
メモリ１６１０に格納する。

【０１２７】この第４の実施例において、構造化文書と
は、章、節といった文書構造と文書内容とを一緒に持つ
フォーマットによる文書表現を意味している。１つのフ
ァイル内に複数の構造化文書を含むとは、図２２に示す
様に、１つのファイル内に、異なる論理根を持つ論理構
造が複数含まれることを示している。論理根が異なる論
理構造は互いに独立であり、且つ部分構造が共有される
ことはない。部分構造とは、構造化文書における一部分
の構造のとであり、例えば図２２中点線で囲まれた構造
化文書においては、「節」というノード以下の構造や、
「表題」というノード以下の構造などである。

【０１２８】ソース文書ファイルとは、部分構造を他の
文書へ挿入するために、文書構造パターンに適合する部
分構造が抽出される文書ファイル（つまりソース側の文
書ファイル）のことである。結果としてこの文書ファイ
ルの内容は変更されることはない。

【０１２９】一方、ターゲット文書ファイルとは、他の
文書からの部分構造を挿入するために、文書構造パター
ンに適合する部分構造が抽出される文書ファイル（つま
りターゲット側の文書ファイル）のことである。結果と
してこの文書ファイルの内容は変更される。

【０１３０】またソース再編成構造化文書とは、ソース
文書ファイル内の構造化文書に対する再編成処理の結果
である再編成構造化文書のことである。

【０１３１】一方、ソース再編成構造化文書とは、ター
ゲット文書ファイル内の構造化文書に対する再編成処理
の結果である再編成構造化文書のことである。

【０１３２】照合部１６６０は、複数ファイル抽出点認
識部１６６１と、複数ファイル挿入点認識部１６６２と
を有している。複数ファイル抽出点認識部１６６１は、
ソース構造化文書群をそれぞれ格納する複数のファイル
に対して、文書構造パターンによる照合によりファイル
を走査し、複数の部分構造の抽出点を認識し、この認識
結果を複数抽出点蓄積部１６７０に格納する。このとき
ファイル名と抽出点の対の情報を格納する。一方、複数
ファイル挿入点認識部１６６２は、ターゲット構造化文
書群をそれぞれ格納する複数ファイルに対し、文書構造
パターンによりファイルを走査し、複数の部分構造に対
する挿入点を認識すると共に、この認識結果を複数挿入
点蓄積部１６８０に格納する。このときファイル名と挿
入点の対の情報を格納する。なお複数抽出点蓄積部１６
７０と複数挿入点蓄積部１６７０とは独立しているが、
抽出点の情報と挿入点の情報とを区別するようにして、
これらの情報を１つの蓄積部に蓄積するようにしても良
い。

【０１３３】抽出挿入関係ルール指定部１７００は、抽
出点と挿入点との対応関係を、ファイルを跨がる１対
１、あるいはファイルを跨がる複数ｎ対１のいずれかの
ルールを出力処理部１６９０に与える。

【０１３４】出力処理部１６９０には、複数ファイル部
分構造抽出挿入部１６９１が設けられており、複数ファ
イル部分構造抽出挿入部１６６１は、抽出挿入関係ルー
ル指定部１７００から与えられた抽出点と挿入点との対
応関係の情報に基づいて、複数抽出点蓄積部１６７０に
蓄積されている抽出点に対応する部分構造から、複数挿
入点蓄積部１６８０に蓄積されている挿入点に対応する
部分構造分への文書構造の挿入操作を実行する。

【０１３５】この図２１に示した装置も、図２に示した
第１の実施例のハードウェア構成で実現することができ
る。ここで、図２１に示した機能ブロック図の構成要素
と図２に示したブロック図の構成要素との対応関係につ
いて説明する。図２６に示したメモリ１６１０は図２に
示した主メモリ２０に対応し、図２１に示した解釈部１
６２０、再編成部１６３０、照合部１６６０、出力処理
部１６９０及び抽出挿入関係ルール指定部１７００は共
に図２に示したＣＰＵ２１０に対応し、ソース文書ファ
イル群１６４０及びターゲット文書ファイル群１６５０
は共に図２に示したディスク２３０に対応している。

【０１３６】この第４の実施例も、基本的には第１の実
施例と同様である。第１の実施例と異なるのは、１つの
ファイル内の複数の構造化文書に対して、文書構造パタ
ーンに一致する構造を抽出する点である。また複数の構
造化文書を有するファイルを複数設け、これらのファイ
ル内の複数の構造化文書に対して照合する点も異なって
いる。

【０１３７】そこで、第４の実施例における文書編集処
理について、図２３乃至図２７を参照して説明する。

【０１３８】パターン記述情報２０として、（節／表題／まとめ）＃本文段落 …（３）ここで、／は包含関係を示す記号＃は順序関係を示す記号が記述されメモリ１６１０に記憶されている。

【０１３９】次に解釈部１６３０によって、図４に示す
第１の実施例のパターン解釈処理手順が実行されること
により上記（３）のパターン記述情報が解釈され、更に
この結果が文書構造パターン１６１２としてメモリ１６
１０に記憶される。

【０１４０】続いて再編成部１９３０によって、ソース
文書ファイル群１６４０とターゲット文書ファイル群１
６５０とが再編成され、更にこれらの結果が、ソース再
編成構造化文書群１６１３、ターゲット再編成構造化文
書群１６１４としてメモリ１６１０に記憶される。

【０１４１】続いて照合部１６６０の複数ファイル抽出
点認識部１６６１による抽出点認識処理について、図２
３を参照して説明する。図２３はその処理動作を示すフ
ローチャートである。

【０１４２】複数ファイル抽出点認識部１６６１は、最
初のソース文書ファイル（ソース再編成構造化文書群１
６１３中の１つのファイル）をメモリ１６１０から読み
込んで（ステップ１８０１）、ソース文書ファイルは終
りか否かを判断し（ステップ１８０２）、終りの場合に
は処理を終了し、一方、終りでない場合は、ファイル内
の全ての構造化文書（つまり論理根を持つ文書）に対す
る処理が終了したか否かを判断する（ステップ１８０
３）。

【０１４３】ここで、まだ未処理の構造化文書が存在し
ている場合は、その構造化文書に対するパターン照合処
理を実行し（ステップ１８０４）、その照合処理結果で
ある抽出点を複数抽出点蓄積部１６７０に蓄積する（ス
テップ１８０５）。

【０１４４】上記ステップ１８０３において、全ての構
造化文書について処理した場合は、次のソース文書ファ
イルをメモリ１６１０から読み込み、その後、上記ステ
ップ１８０２に戻る。

【０１４５】なおステップ１８０４のパターン照合処理
は、図８に示す第１の実施例の処理手順と同様である。

【０１４６】同様にして、複数ファイル挿入点認識部１
６６２は、ターゲット文書ファイル（ターゲット再編成
構造化文書群１６１４）に対する挿入点の認識処理を実
行する。この結果は、複数挿入点蓄積部１６８０に蓄積
される。

【０１４７】すなわち、複数ファイル抽出点認識部１６
６１と複数ファイル挿入点認識部１６６２は基本的には
同様の処理を実行し、異なるのは、対象となる文書ファ
イル（構造化文書）がソースであるかターゲットである
かという点である。

【０１４８】ここで、抽出点の認識処理結果の様子を図
２４に示す。図２４において、ファイル１、ファイル２
は、ソース再編成構造化文書を示しており、またハッチ
ングの掛った部分が、文書構造パターン１６１２に適合
した部分である。この図２４から分かるように、ファイ
ル内の複数の構造化文書及び複数のファイルに跨がっ
て、構造がパターンマッチングされ適合されている。こ
の例での抽出点は、ハッチングの掛った部分の「節」と
いうノードの直前の位置（つまり「論理根」というノー
ドとの接続点の位置）である。この抽出点は、各ファイ
ル毎に抽出点の列として複数抽出点蓄積部１６７０に蓄
積される。

【０１４９】同様に挿入点の認識処理結果も、図２４に
示す様に、文書構造パターン１６１２に適合した部分が
認識されることとなる。挿入点についても上記同様に考
えることができる。

【０１５０】以上の説明から分かるように、この第４の
実施例においては、図２４に示すように、文書構造パタ
ーン１６１２に適合する部分構造（ハッチング部分）を
抽出することが、本来の目的ではなく、「節」というノ
ードを抽出することが目的なのである。しかし、図２４
に示されるように、「節」というノード以下の構造には
各種の部分構造が接続されているので、所望の「節」と
いうノードを抽出するために、文書構造パターン１６１
２との照合を実施しているのである。

【０１５１】次に、出力処理部１６９０の複数ファイル
部分構造抽出挿入部１６９１の出力処理について、図２
５を参照して説明する。図２５はその処理動作を示すフ
ローチャートである。

【０１５２】複数ファイル部分構造抽出挿入部１６９１
は、複数抽出点１蓄積部１６７０から各ファイル毎の抽
出点の列を得る。これらをＡ［ｉ］＝（file名、抽出
点）に順に格納すると共に（ステップ２００１）、複数
挿入点蓄積部１６８０から各ファイル毎の挿入点の列を
得る。これらをＢ［ｊ］＝（file名、挿入点）に順に格
納する（ステップ２００２）。

【０１５３】次に、挿入抽出関係ルール指定部１７００
から指定された抽出点と挿入点との対応関係のルールが
“ファイルを跨がる１対１”であるか否かを判断する
（ステップ２００３）。

【０１５４】ここで、“ファイルを跨がる１対１”の場
合は、ｉ＝１、ｊ＝１と定義し（ステップ２００４）、
Ａ［ｉ］あるいはＢ［ｊ］が終りか否かを判断する（ス
テップ２００５）。

【０１５５】ここで、終りでない場合は、Ａ［ｉ］に示
される抽出点に基づいて、ソース文書ファイル群から部
分構造を抽出すると共に（ステップ２００６）、この部
分構造をＢ［ｊ］に示される挿入点に挿入する（ステッ
プ２００７）。

【０１５６】その後、ｉ＝ｉ＋１、ｊ＝ｊ＋１と再定義
した後（ステップ２００８）、上記ステップ２００５に
戻る。ステップ２００５においてＡ［ｉ］あるいはＢ
［ｊ］が終りの場合は、結果を出力する（ステップ２０
０９）。

【０１５７】上記ステップ２００３においてルールが
“ファイルを跨がる１対１”でない場合は、ルールが
“ファイルを跨がる複数ｎ対１”であるか否かを判断す
る（ステップ２０１０）。そうであれば、ｊ＝１と定義
し（ステップ２０１１）、その後、Ｂ［ｊ］が終りであ
るか否かを判断する（ステップ２０１２）。

【０１５８】ここで、終りの場合は、Ａ［１］〜Ａ
［ｎ］に示される抽出点に基づいて、ソース文書ファイ
ル群から部分構造を全て抽出し、これらＡ［１］〜Ａ
［ｎ］までの部分構造を兄弟として繋ぐと共に（ステッ
プ２０１３）、兄弟として繋がれた構造を、Ｂ［ｊ］に
示される挿入点に挿入する（ステップ２０１４）。この
挿入点に対して、兄、弟、子供として挿入することがで
きる。

【０１５９】上記ステップ２０１４を終了した後はｊ＝
ｊ＋１と再定義し（ステップ２０１５）、その後、上記
ステップ２０１２に戻る。すなわち結果として、Ｂ
［１］〜Ｂ［ｎ］の各挿入点に、兄弟として繋がれたＡ
［１］〜Ａ［ｎ］までの部分構造が挿入される。

【０１６０】上記ステップ２０１２においてＢ［ｊ］が
終了した場合は上記ステップ２００９に進む。

【０１６１】上記ステップ２０１０においてルールが
“ファイルを跨がる複数ｎ対１”でない場合は挿入処理
は行わない（ステップ２０１６）。

【０１６２】なお複数ファイル部分構造抽出挿入部１６
９１は、ソース文書ファイル群の抽出点、ターゲット文
書ファイル群の挿入点のいずれかの数が多いときは挿入
処理を行わず、ステータスを返す。

【０１６３】例えば、抽出点の数＞挿入点の数、のとき
ステータスの値が１抽出点の数＜挿入点の数、のときステータスの値が２この結果として、出力処理部１６９０からは、エラー通
知が出力される。

【０１６４】また、抽出点の数＝挿入点の数、のときは
０のステータスを返す。この結果として、出力処理部１
６９０からは、変更後のターゲット文書ファイルが出力
されることとなる。

【０１６５】ここで、ファイルを跨がる１対１のルール
に基づく挿入結果の様子を図２６に示し、またファイル
を跨がる複数ｎ対１のルールに基づく挿入結果の様子を
図２７に示す。

【０１６６】以上説明したように第４の実施例によれ
ば、複数の文書ファイルであって、且つ１つのファイル
中に複数の構造化文書文書が保存されている場合であっ
ても、構造化文書内のオブジェクト間の関係を利用した
パターン、つまり基準となる階層構造のパターンとのパ
ターンマッチングを行うようにしているので、構造化文
書における正確な情報（文書構成要素）にアクセスする
ことができると共に、階層上のデータ（文書構成要素）
の位置を簡単に指定することができる。

【０１６７】すなわち、ターゲット側の複数のファイル
それぞれに保存されている複数の構造化文書から抽出さ
れた文書構成要素に対する、ソース側の複数のファイル
それぞに保存されている複数の構造化文書から抽出され
た文書構成要素の挿入操作を一度に自動的に行うことが
できるということである。

【０１６８】次に第５の実施例を図２８乃至図３１を参
照して説明する。

【０１６９】図２８は本発明に係る文書処理装置の第５
の実施例を示す機能ブロック図である。この機能ブロッ
ク図は、図１に示した第１の実施例の機能ブロック図の
構成において、ファイル位置情報保持部２３１０、属性
情報指定部２３２０を追加し、出力処理部９０を出力処
理部２３３０に変更した構成になっている。なお図２３
において、図１に示した構成要素と同様の機能を果たす
部分には同一の符号を付している。

【０１７０】ファイル位置情報保持部２３１０は、照合
部８０の照合結果である文書構成要素のファイル内の位
置情報を保持する。

【０１７１】属性情報指定部２３２０は、文書構成要素
の属性情報を指定するものであり、属性値の参照のとき
は属性名を指定し、属性値の変更のときは属性名及び属
性値を指定する。

【０１７２】出力処理部２３３０は、ファイル位置情報
保持部２３１０に保持されている文書構成要素のファイ
ル内の位置情報と、属性情報指定部２３２０から指定さ
れる属性情報とに基づいて出力処理を実施する。ここ
で、属性値の参照のときは、該当する文書構成要素の属
性名を持つ属性の属性値を出力し、一方、属性値の変更
のときは、該当する文書構成要素の属性名を持つ属性
を、指定された属性値に変更して出力する。

【０１７３】なおここでは構造化文書は、図２９（ａ）
に示す様に各文書構成要素をノードとする木構造を持っ
ているが、ファイル上では、図２９（ｂ）に示す様に、
決められた規則に従って各文書構成要素は１列に並んで
いる。また文書構成要素内の属性名と属性値の対も１列
に並んでいるとする。

【０１７４】図２８に示した装置も、図２に示した第１
の実施例のハードウェア構成で実現することができる。
ここで図２８に示した機能ブロック図の構成要素と図２
に示したブロック図の構成要素との対応関係について説
明する。図２８に示したファイル位置情報保持部２３１
０は図２に示した主メモリ２０に対応し、図２８に示し
た属性指定部２３２０及び出力処理部２３３０は共に図
２に示したＣＰＵ２１０に対応している。他の構成要素
については第１の実施例と同様である。

【０１７５】この第５の実施例も、基本的には第１の実
施例と同様である。第１の実施例と異なるのは、構造化
文書中から、文書構造パターンに一致する構造を抽出
し、この抽出した構造に対して、属性の参照又は変更の
処理を施すという点である。

【０１７６】なおこの第５の実施例においては、照合部
８０による文書構造パターンと再編成構造化文書との照
合処理までは、第１の実施例で説明した処理と同様なの
で、ここではその説明を省略し、属性の参照又は変更処
理について説明する。

【０１７７】次に、文書処理装置の属性の参照又は変更
処理について、図３０及び図３１を参照して説明する。
図３０は属性の参照処理動作のフローチャートを示し、
図３１は属性の変更処理動作のフローチャートを示して
いる。

【０１７８】最初に属性の参照処理について説明する。
図３０に示すように、出力処理部２３３０は、ファイル
位置情報保持部２３１０から属性結果（ファイル位置）
を１つ取り出し（ステップ２５０１）、文書ファイルの
「読み出し位置」を読み出した照合結果に設定すると共
に（ステップ２５０２）、その読み出し位置に存在する
文書構成要素内から属性を１つ読み込む（ステップ２５
０３）。

【０１７９】次に出力処理部２３３０は、その属性名は
属性情報指定部２３２０から指定された属性名と同じで
あるか否かを判断する（ステップ２５０４）。

【０１８０】ここで、同一の場合はその属性値を出力用
のファイルに書き出し（ステップ２５０５）、その後、
属性は終りか否かを判断する（ステップ２５０６）。

【０１８１】ここで、終りでない場合は、上記ステップ
２５０３に戻りこのステップ以降を実行する。すなわち
１つの文書構成要素内に存在する全ての属性についての
属性の参照の処理を実施する。

【０１８２】ステップ２５０６において属性が終りの場
合は、照合結果は終りか、つまりファイル位置情報保持
部２３１０に保持されている全ての照合結果について処
理したか否かを判断する（ステップ２５０７）。

【０１８３】ここで、未処理の照合結果がある場合には
上記ステップ２５０１に戻りこのステップ以降を実行
し、一方、全て処理した場合は属性の参照処理を終了す
る。

【０１８４】なおステップ２５０４において指定された
属性名でない場合は何もしないでステップ２５０６に進
む。

【０１８５】次に属性の変更処理について説明する。図
３１に示す様に、出力処理部２３３０は、文書ファイル
の「読み出し位置」を先頭に設定すると共に（ステップ
２６０１）、ファイル位置情報保持部２３１０から照合
結果（ファイル位置）を１つ取り出す（ステップ２６０
２）。次に、文書ファイルにおける照合結果の位置まで
の部分をそのまま出力用のファイルに書き出す（ステッ
プ２６０３）。

【０１８６】続いて、文書ファイルの「読み出し位置」
を照合結果に設定すると共に（ステップ２６０４）、そ
の読み出し位置に存在する文書構成要素内から属性を１
つ読み込む（ステップ２６０５）。

【０１８７】そして、その属性名は属性情報指定部２３
２０から指定された属性名と同じであるか否かを判断す
る（ステップ２６０６）。ここで、同一の場合は属性名
と指定された属性値とを出力用のファイルに書き出し
（ステップ２６０７）、同一でない場合は、属性名と読
み込んだ属性値とを出力用のファイルに書き出す（ステ
ップ２６０８）。

【０１８８】ステップ２６０７あるいはステップ２６０
８を終了したら、属性は終りか否かを判断する（ステッ
プ２６０９）。ここで、終りでない場合は、上記ステッ
プ２６０５に戻りこのステップ以降を実行する。すなわ
ち１つの文書構成要素内に存在する全ての属性について
属性の変更処理を実施する。

【０１８９】ステップ２６０９において属性が終りの場
合は、照合結果は終りか、つまりファイル位置情報保持
部２３１０に保持されている全ての照合結果について処
理したか否かを判断する（ステップ２６１０）。

【０１９０】ここで、未処理の照合結果がある場合には
上記ステップ２６０２に戻りこのステップ以降を実行
し、一方、全て処理した場合は、文書ファイルの最後ま
でをそのまま出力用のファイルに書き出す（ステップ２
６１１）。

【０１９１】この第５の実施例においては、属性の参照
により取り出された属性は、外部の汎用的な演算手段を
用いることにより加工することができる。その加工結果
を属性情報指定部２３２０から属性情報として設定する
ことにより、文書内に付加することができる。

【０１９２】以上説明したように第５の実施例によれ
ば、パターン記述情報と、属性名か属性名及び属性値を
設定することにより、構造化文書内のオブジェクト間の
関係を利用したパターン、つまり基準となる階層構造の
パターンとのパターンマッチングを実施し、マッチした
部分（文書構成要素）の属性の参照又は変更操作を実行
するようにしたので、属性の参照又は変更の処理を自動
化することができる。またこのとき、従来の如く予めス
タイルを設定しておく必要がないので、ユーザの作業量
を軽減させることができる。

【０１９３】また特定部分の属性に、他の部分の属性値
を元にした演算結果を設定するようなことも可能とな
る。

【０１９４】

【発明の効果】以上説明したように、請求項１に係る発
明によれば、解釈手段が、基準となる複数の文書構成要
素の接続関係を解釈し、該解釈した接続関係と前記文書
構成要素とを含む文書構造パターンを生成すると、照合
手段が、解釈手段によって生成された文書構造パターン
と処理対象の構造化文書とを照合し、さらに、出力処理
手段が、その照合により文書構造パターンと一致する文
書構成要素を処理対象の構造化文書から抽出して出力す
るようにしているので、構造化文書に対する指定された
階層構造パターンに従った文書構成要素の検出処理を行
うことができる利点がある。

【０１９５】請求項２に係る発明によれば、出力処理手
段は、照合手段による照合により文書構造パターンと一
致した文書構成要素に対して、指定手段により指定され
た挿入、置換、削除のうちのいずれか一つの処理を施し
たて出力するようにしているので、構造化文書に対する
指定された階層構造パターンに従った文書構成要素に対
して、挿入、置換、削除などの処理を自動的に実行する
ことができることとなり、構造化文書のバッチ処理が可
能となる。

【０１９６】請求項３に係る発明によれば、出力処理手
段は、指定手段により削除処理が指定されると、蓄積手
段に蓄積されている、照合手段による照合により一致し
た文書構成要素の親である文書構成要素から、蓄積手段
に蓄積されている照合手段による照合に一致した文書構
成要素に関する情報を取り除くと共に、当該親である文
書構成要素から削除されない、当該親の文書構成要素の
子供である文書構成要素を出力するようにしているの
で、削除すべき文書構成要素の親の文書構成要素の内容
を自動的に変更することができることとなり、構造化分
祖に対する編集操作を効率良く行うことができるという
利点がある。

【０１９７】請求項４に係る発明では、解釈手段が、基
準となる複数の文書構成要素の接続関係を解釈し、該解
釈した接続関係と前記文書構成要素とを含む文書構造パ
ターンを生成すると、照合手段が、解釈手段が生成した
文書構造パターンと格納手段に格納されているファイル
内の構造化文書とを照合し、更に、出力処理手段が、照
合手段による照合結果に基づいて、文書構造パターンと
一致する文書構成要素を格納手段に格納されているファ
イル内の構造化文書から抽出して出力するようにしてい
るでの、複数の構造化文書から、指定された階層構造に
従った文書構成要素を検索し出力することができるとい
う利点がる。

【０１９８】請求項５に係る発明によれば、照合手段
が、格納手段に格納されている複数ファイルを対象とし
て、解釈手段が生成した文書構造パターンとの照合を行
い、出力処理手段が、照合手段による照合結果に基づい
て、文書構造パターンと一致する文書構成要素を複数の
構造化文書から抽出して出力するようにしているので、
複数のファイルそれぞれに複数の構造化文書が存在して
いる場合であっても、複数のファイルおよび複数の構造
化文書に跨って、指定された階層構造に従った文書構成
要素を検出し出力することができることとなり、複数の
文書に対する検索処理を高速に実行することができると
いう利点がある。

【０１９９】請求項６に係る発明によれば、格納手段
が、ソース側の構造化文書を保存したファイルと、ター
ゲット側構造化文書を保存したファイルとをそれぞれ複
数格納し、照合手段が、ソース側の構造化文書を保存し
た複数のファイルと、ターゲット側構造化文書を保存し
た複数のファイルとを対象として、解釈手段が生成した
文書構造パターンとの照合を行い、更に、出力処理手段
が、照合手段による照合結果に基づいて、文書構造パタ
ーンと一致する文書構成要素を複数の構造化文書から抽
出するとともに、ターゲット側から抽出された文書構成
要素に、該文書構成要素に対応するソース側から抽出さ
れた文書構成要素を挿入して出力するようにしているの
で、ターゲット側の複数のファイルそれぞれに保存され
ている複数の構造化文書から抽出された文書構成要素に
対する、ソース側の複数のファイルそれぞれに保存され
ている複数の構造化文書から抽出された文書構成要素の
挿入を一度に行うことができ、よって文書の編集処理を
迅速に行うことができるという利点がある。

【０２００】請求項７に係る発明によれば、出力処理手
段が、指定された属性に関する情報に基づいて、照合手
段による照合結果に基づいて特定される文書構造パター
ンと一致する文書構成要素に対する属性の参照又は変更
の操作を行うようにしているので、構造化文書から、指
定された階層構造に従った文書構成要素を検索し、この
検索した文書構成要素に対する参照又は変更の操作を実
施することができることとなり、構造化文書の文書構成
要素の属性に対する操作を容易に実施することができる
という利点がある。また、請求項８に係る発明は、請求
項１に係る発明と同様の作用効果を有し、請求項９に係
る発明は、請求項４に係る発明と同様の作用効果を有す
る。

【図面の簡単な説明】

【図１】本発明に係る文書処理装置の第１の実施例を示
す機能ブロック図。

【図２】図１に示した実施例の装置を実現するためのハ
ードウェア構成を示すブロック図。

【図３】第１の実施例における解釈部によるパターン記
述の解釈処理を説明するための図。

【図４】第１の実施例における解釈部の解釈処理動作を
示すフローチャート。

【図５】第１の実施例における解釈部によるパターン記
述の解釈処理過程を説明するための図。

【図６】第１の実施例における解釈部によるパターン記
述の解釈処理過程を説明するための図。

【図７】第１の実施例における再編成部による構造化文
書の再編成処理を説明するための図。

【図８】第１の実施例における照合部の照合処理動作を
示すフローチャート。

【図９】第１の実施例における照合部による文書構造パ
ターンと再編成構造化文書との照合処理を説明するため
の図。

【図１０】本発明に係る文書処理装置の第２の実施例を
示す機能ブロック図。

【図１１】第２の実施例における解釈部によるパターン
記述の解釈処理を説明するための図。

【図１２】第２の実施例における再編成部による構造化
文書の再編成処理を説明するための図。

【図１３】第２の実施例における照合部による文書構造
パターンと再編成構造化文書との照合処理を説明するた
めの図。

【図１４】第２の実施例における命令処理部の解釈処理
を説明するための図。

【図１５】第２の実施例における出力処理部の出力処理
を説明するための図。

【図１６】本発明に係る文書処理装置の第３の実施例を
示す機能ブロック図。

【図１７】第３実施例の削除情報の構造の一例を示す
図。

【図１８】第３実施例における削除情報作成処理を示す
フローチャート。

【図１９】第３実施例における出力処理部による出力処
理動作を示すフローチャート。

【図２０】第３実施例における出力処理部による出力処
理動作を示すサブルーチン。

【図２１】本発明に係る文書処理装置の第４の実施例を
示す機能ブロック図。

【図２２】第４実施例における構造化文書を説明するた
めの図。

【図２３】第４実施例における抽出点認識処理動作を示
すフローチャート。

【図２４】第４の実施例における照合部による文書構造
パターンと再編成構造化文書との照合処理を説明するた
めの図。

【図２５】第４の実施例における出力処理部の出力処理
動作を示すフローチャート。

【図２６】第４の実施例における出力処理部の出力処理
を説明するための図。

【図２７】第４の実施例における出力処理部の出力処理
を説明するための図。

【図２８】本発明に係る文書処理装置の第５の実施例を
示す機能ブロック図。

【図２９】第５実施例における構造化文書を説明するた
めの図。

【図３０】第５実施例における文書構成要素の属性の参
照処理動作を示すフローチャート。

【図３１】第５実施例における文書構成要素の属性の変
更処理動作を示すフローチャート。

【符号の説明】

１０、１６１０…メモリ、２０、１６１１…パターン記
述情報、３０、１６２０…解釈部、４０、１６１２…文
書構造パターン、５０、１６３０…再編成部、６０…文
書ファイル、７０…再編成構造化文書、８０、１６６０
…照合部、９０、１０３０、１６９０、２３３０…出力
処理部、２１０…中央処理装置、２２０…主メモリ、２
３０…ディスク、２４０…ディスプレイ、２５０…入力
装置、１０１０…適合ノード蓄積部、１０２０…命令処
理部、１０４０…削除情報蓄積部、１６１３…ソース再
編成構造化文書群、１６１４…ターゲット再編成構造化
文書群、１６４０…ソース文書ファイル群、１６５０…
ターゲット文書ファイル群、１６６１…複数ファイル抽
出点認識部、１６６２…複数ファイル挿入点認識部、１
６７０…複数抽出点蓄積部、１６８０…複数挿入点蓄積
部、１６９１…複数ファイル部分構造抽出挿入部、１７
００…抽出挿入関係ルール指定部、２３１０…ファイル
位置情報保持部、２３２０…属性情報指定部。

フロントページの続き (72)発明者松本天神奈川県川崎市高津区坂戸３丁目２番１号ＫＳＰＲ＆Ｄビジネスパークビル富士ゼロックス株式会社内 (56)参考文献特開平５−135054（ＪＰ，Ａ) 特開平３−62169（ＪＰ，Ａ) 特開平４−84271（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/21 - 17/26 G06F 17/30

Claims

(57)【特許請求の範囲】

【請求項１】複数の文書構成要素を有する構造化文書
に対する処理を行う文書処理装置において、基準となる複数の文書構成要素の接続関係を解釈し、該
解釈した接続関係と前記文書構成要素とを含む文書構造
パターンを生成する解釈手段と、前記解釈手段が生成した文書構造パターンと、処理対象
の構造化文書とを照合する照合手段と、前記照合手段による照合結果に基づいて、前記文書構造
パターンと一致する文書構成要素を前記処理対象の構造
化文書から抽出して出力する出力処理手段とを具備した
ことを特徴とする文書処理装置。
【請求項２】文書構成要素に対する挿入、置換、削除
のうちのいずれか一つの処理を指定する指定手段を更に
具備し、前記出力処理手段は、前記照合手段による照合結果に基づいて、前記文書構造
パターンと一致する文書構成要素を前記処理対象の構造
化文書から抽出し、該抽出した文書構成要素に対して、
前記指定手段により指定された処理を施して出力するこ
とを特徴とする請求項１記載の文書処理装置。
【請求項３】文書構成要素に対する削除処理を指定す
る指定手段と、前記照合手段による照合結果に基づいて特定される前記
文書構造パターンと一致する文書構成要素と、該文書構
成要素の親である文書構成要素とを対応付けして蓄積す
る蓄積手段とを更に具備し、前記出力処理手段は、前記指定手段により削除処理が指定された場合に、前記
蓄積手段に蓄積されている前記親である文書構成要素か
ら、前記蓄積手段に蓄積されている前記文書構造パター
ンと一致する文書構成要素に関する情報を取り除くと共
に、前記親である文書構成要素から、当該親である文書
構成要素から削除されない当該親の構成要素の子供であ
る文書構成要素を抽出し出力することを特徴とする請求
項１記載の文書処理装置。
【請求項４】複数の文書構成要素を有する構造化文書
に対する処理を行う文書処理装置において、複数の文書構成要素を有する構造化文書を保存したファ
イルを格納する格納手段と、基準となる複数の文書構成要素の接続関係を解釈し、該
解釈した接続関係と前記文書構成要素とを含む文書構造
パターンを生成する解釈手段と、前記解釈手段が生成した文書構造パターンと、前記格納
手段に格納されているファイル内の構造化文書とを照合
する照合手段と、前記照合手段による照合結果に基づいて、前記文書構造
パターンと一致する文書構成要素を前記格納手段に格納
されているファイル内の構造化文書から抽出して出力す
る出力処理手段とを具備したことを特徴とする文書処理
装置。
【請求項５】前記照合手段は、前記格納手段に格納されている複数ファイルを対象とし
て、前記解釈手段が生成した文書構造パターンとの前記
照合を行い、前記出力処理手段は、前記照合手段による照合結果に基づいて、前記文書構造
パターンと一致する文書構成要素を複数の構造化文書か
ら抽出して出力することを特徴とする請求項４記載の文
書処理装置。
【請求項６】前記格納手段は、ソース側の構造化文書を保存したファイルと、ターゲッ
ト側構造化文書を保存したファイルとをそれぞれ複数格
納し、前記照合手段は、前記ソース側の構造化文書を保存した複数のファイル
と、前記ターゲット側構造化文書を保存した複数のファ
イルとを対象として、前記解釈手段が生成した文書構造
パターンとの前記照合を行い、前記出力処理手段は、前記照合手段による照合結果に基づいて、前記文書構造
パターンと一致する文書構成要素を複数の構造化文書か
ら抽出するとともに、前記ターゲット側から抽出された
文書構成要素に、該文書構成要素に対応する前記ソース
側から抽出された文書構成要素を挿入して出力すること
を特徴とする請求項４記載の文書処理装置。
【請求項７】前記出力処理手段は、指定された属性に関する情報に基づいて、前記照合手段
による照合結果に基づいて特定される前記文書構造パタ
ーンと一致する文書構成要素に対する属性の参照又は変
更の操作を行うことを特徴とする請求項１乃至６のいず
れかに記載の文書処理装置。
【請求項８】複数の文書構成要素を有する構造化文書
に対する処理を行う文書処理装置が実行する文書処理方
法であって、基準となる複数の文書構成要素の接続関係を解釈し、該
解釈した接続関係と前記文書構成要素とを含む文書構造
パターンを生成するステップと、前記文書構造パターンと、処理対象の構造化文書とを照
合するステップと、前記照合の結果に基づいて、前記文書構造パターンと一
致する文書構成要素を前記処理対象の構造化文書から抽
出するステップとを含むことを特徴とする文書処理方
法。
【請求項９】複数の文書構成要素を有する構造化文書
に対する処理を行う文書処理装置が実行する文書処理方
法であって、複数の文書構成要素を有する構造化文書を保存したファ
イルを格納するステップと、基準となる複数の文書構成要素の接続関係を解釈し、該
解釈した接続関係と前記文書構成要素とを含む文書構造
パターンを生成するステップと、前記文書構造パターンと、前記格納したファイル内の構
造化文書とを照合するステップと、前記照合の結果に基づいて、前記文書構造パターンと一
致する文書構成要素を前記格納したファイル内の構造化
文書から抽出するステップとを含むことを特徴とする文
書処理方法。