JP3451660B2 - 文書処理装置及び方法 - Google Patents

文書処理装置及び方法

Info

Publication number
JP3451660B2
JP3451660B2 JP16476193A JP16476193A JP3451660B2 JP 3451660 B2 JP3451660 B2 JP 3451660B2 JP 16476193 A JP16476193 A JP 16476193A JP 16476193 A JP16476193 A JP 16476193A JP 3451660 B2 JP3451660 B2 JP 3451660B2
Authority
JP
Japan
Prior art keywords
document
unit
structured
constituent element
structure pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP16476193A
Other languages
English (en)
Other versions
JPH06259421A (ja
Inventor
慎太郎 古城
宮崎  淳
天 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP16476193A priority Critical patent/JP3451660B2/ja
Publication of JPH06259421A publication Critical patent/JPH06259421A/ja
Application granted granted Critical
Publication of JP3451660B2 publication Critical patent/JP3451660B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、文書中から所望のパ
ターンに適合する文書要素を検索する文書処理装置及び
方法に関する。
【0002】
【従来の技術】従来においては、ワードプロセッサや、
文書作成・編集機能を有するワークステーションやコン
ピュータ等の装置には、一般的に、作成された文書中か
ら所望の文字列を検索することのできる検索機能が設け
られている。この検索機能を利用することにより、検索
対象となる文字列を、他の文字列に置換したり削除した
りして、文書を編集することができる。
【0003】またこのような文書編集を自動化するよう
にしたものも実現されており、例えば、 (1)カット・アンド・ペーストしながらの操作をマク
ロ記述して何度でも実行することができるようにしたも
の。 (2)例えば特開平3−147062号公報に開示され
ている様に、文書中から取り出された複数の文字列を一
時記憶領域に保存し、その後順次、ペースト(挿入)す
るようにしたもの。 (3)指定したパータン文字列が文字列中に現れた際
に、置き換え等を実施する様にしたもの(例えばUNI
Xのsedのようなストリームエデッタ)。がある。
【0004】また文書ファイルを編集する方法として
は、インタラクティブにユーザがカット・アンド・ペー
ストする方法や、バッチ処理で行う方法がある。このう
ち、効率良く複数回の抽出挿入を行う方法として、例え
ば、 (4)ユーザが指定した抽出文字列を複数個同時に記憶
しておき、これら複数の文字列を順次、所定の位置に挿
入するようにしたもの(例えば特開平3−147062
号公報)。 (5)ユーザがインタラクティブに文書にマークを付与
することにより、一度に複数の指定領域の入れ替えを行
うようにしたもの(例えば特開平3−260761号公
報)。 (6)ファイル内のある特定の文字列パターンの出現に
対して、文字列の置き換え等の処理を行うようにしたも
の(例えばUNIXのawk、sedなど)。 (7)構造と内容とを分離して管理する構造化文書シス
テムにおいて、差し込み指定のある複数の文書から、差
し込み文字列を予め抽出しておき、この差し込み文字列
を差し込み対象文書へ反映させるようにしたもの(例え
ば特開平4−57151号公報)。がある。
【0005】更に文書の特定部分の属性値(例えば文字
の大きさなど)を変更するようにしたものも実現されて
おり、この方法として、例えば、 (8)インタラクティブなエディタにより逐一変更する
ようにしたもの。 (9)特定部分にスタイルを予め設定しておき、スタイ
ルの属性値を変更することにより、一括変換するように
したもの。 がある。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の装置では、文書中から文字パターン(検索対象の文
字列)を検索することは可能であるが、これは文書中の
文字列と指定文字列との照合により一致したものを検索
するようにしているので、内部的に階層構造の情報を持
った文書いわゆる構造化文書から、指定された階層構造
パターンに従った文書要素を検索することができなかっ
た。
【0007】すなわち、構造化文書においては、文書要
素が階層構造上のどこに位置するかによって、その文書
要素の情報は意味を変えるので、従来の如く、単に文字
列の照合のみにより検索し、階層構造を考慮しない検索
では、適切な部分にアクセスすることができず、正確な
検索処理を行うことができなかった。
【0008】また上記(1)のものでは、不正確な処理
を施してしまうことが多く、このため、複数の文書をバ
ッチで処理することができない。
【0009】また上記(2)のものでは、正確な処理を
施すことはできるが、バッチで処理することができな
い。
【0010】また上記(3)のものでは、バッチ処理に
適しているが、構造を持った文書の文字列は構造上の位
置によって意味を変えるので、不適切な部分を書き換え
てしまう恐れがあり、構造化文書には適していない。
【0011】また上記(4)のものでは、文書中の全指
定箇所をユーザがインタラクティブに一度設定しなけれ
ばならないので、操作が繁雑である。
【0012】また上記(5)のものでは、上記(4)の
場合と同様に、文書中の全指定箇所をユーザがインタラ
クティブに一度設定しなければならないので、操作が繁
雑である。
【0013】また上記(6)のものでは、ユーザが文書
中の所定箇所を指定する必要はないが、一般的なストリ
ングマッチのため、ファイル中の構造の意味を解釈せず
に、単に文字列として照合し、一致した文字列に対して
変更を加えるようにしているので、文書の構造の意味を
維持しつつ処理することはできない。
【0014】また上記(7)のものでは、内容の変更に
ついては効率良く実行することができるが、構造と内容
を同時に変更することはできない。
【0015】また上記(8)の方法では、インタラクテ
ィブに処理するので、属性値の変更処理を自動化するこ
とができず、このため効率が悪く、操作ミスによる間違
いも発生し易い。
【0016】更に上記(9)のものでは、予めスタイル
を設定しておく必要であるので、そのための手間がかか
る。また同一のスタイルには全て同一の属性が付与され
るので、柔軟性に欠ける。
【0017】そこで、本発明は、構造化文書に対する指
定された階層構造パターンに従った文書構成要素の検索
処理を行うことができる文書処理装置及び方法を提供す
ることを第1の目的とする。
【0018】また、本発明は、構造化文書に対する指定
された階層構造パターンに従った文書構成要素の検索処
理し、この文書構成要素に対する削除、置換、複写など
の操作を実施することができる文書処理装置を提供する
ことを第2の目的とする。
【0019】また、本発明は、複数の構造化文書に対す
る指定された階層構造パターンに従った文書構成要素の
検索処理を行うことができる文書処理装置及び方法を提
供することを第3の目的とする。
【0020】また、本発明は、ターゲット側の複数のフ
ァイルそれぞれに保存されている複数の構造化文書から
抽出された文書構成要素に対する、ソース側の複数のフ
ァイルそれぞれに保存されている複数の構造化文書から
抽出された文書構成要素の挿入操作を一度に自動的に行
うことができる文書処理装置及び方法を提供することを
第4の目的とする。
【0021】さらに、本発明は、複数の構造化文書に対
する指定された階層構造パターンに従った文書構成要素
を検索し、この検索した文書構成要素の属性値の参照又
は変更を行うことができる文書処理装置を提供すること
を第5の目的とする。
【0022】
【課題を解決するための手段】上記第1の目的を達成す
るため、請求項1に係る発明は、複数の文書構成要素を
有する構造化文書に対する処理を行う文書処理装置にお
いて、基準となる複数の文書構成要素の接続関係を解釈
し、該解釈した接続関係と前記文書構成要素とを含む文
書構造パターンを生成する解釈手段と、前記解釈手段が
生成した文書構造パターンと、処理対象の構造化文書と
を照合する照合手段と、前記照合手段による照合結果に
基づいて、前記文書構造パターンと一致する文書構成要
素を前記処理対象の構造化文書から抽出して出力する出
力処理手段とを具備したことを特徴とする。
【0023】また、上記第2の目的を達成するため、請
求項2に係る発明は、文書構成要素に対する挿入、置
換、削除のうちのいずれか一つの処理を指定する指定手
段を更に具備し、前記出力処理手段は、前記照合手段に
よる照合結果に基づいて、前記文書構造パターンと一致
する文書構成要素を前記処理対象の構造化文書から抽出
し、該抽出した文書構成要素に対して、前記指定手段に
より指定された処理を施して出力することを特徴とす
る。
【0024】また、上記第2の目的を達成するため、請
求項3に係る発明は、文書構成要素に対する削除処理を
指定する指定手段と、前記照合手段による照合結果に基
づいて特定される前記文書構造パターンと一致する文書
構成要素と、該文書構成要素の親である文書構成要素と
を対応付けして蓄積する蓄積手段とを更に具備し、前記
出力処理手段は、前記指定手段により削除処理が指定さ
れた場合に、前記蓄積手段に蓄積されている前記親であ
る文書構成要素から、前記蓄積手段に蓄積されている前
記文書構造パターンと一致する文書構成要素に関する情
報を取り除くと共に、前記親である文書構成要素から、
当該親である文書構成要素から削除されない当該親の構
成要素の子供である文書構成要素を抽出し出力すること
を特徴とする。
【0025】また、上記第3の目的を達成するため、請
求項4に係る発明は、複数の文書構成要素を有する構造
化文書に対する処理を行う文書処理装置において、複数
の文書構成要素を有する構造化文書を保存したファイル
を格納する格納手段と、基準となる複数の文書構成要素
の接続関係を解釈し、該解釈した接続関係と前記文書構
成要素とを含む文書構造パターンを生成する解釈手段
と、前記解釈手段が生成した文書構造パターンと、前記
格納手段に格納されているファイル内の構造化文書とを
照合する照合手段と、前記照合手段による照合結果に基
づいて、前記文書構造パターンと一致する文書構成要素
を前記格納手段に格納されているファイル内の構造化文
書から抽出して出力する出力処理手段とを具備したこと
を特徴とする。
【0026】また、上記第3の目的を達成するため、請
求項5に係る発明は、請求項4に係る発明において、前
記照合手段は、前記格納手段に格納されている複数ファ
イルを対象として、前記解釈手段が生成した文書構造パ
ターンとの前記照合を行い、前記出力処理手段は、前記
照合手段による照合結果に基づいて、前記文書構造パタ
ーンと一致する文書構成要素を複数の構造化文書から抽
出して出力することを特徴とする。
【0027】また、上記第4の目的を達成するため、請
求項6に係る発明は、請求項4に係る発明において、前
記格納手段は、ソース側の構造化文書を保存したファイ
ルと、ターゲット側構造化文書を保存したファイルとを
それぞれ複数格納し、前記照合手段は、前記ソース側の
構造化文書を保存した複数のファイルと、前記ターゲッ
ト側構造化文書を保存した複数のファイルとを対象とし
て、前記解釈手段が生成した文書構造パターンとの前記
照合を行い、前記出力処理手段は、前記照合手段による
照合結果に基づいて、前記文書構造パターンと一致する
文書構成要素を複数の構造化文書から抽出するととも
に、前記ターゲット側から抽出された文書構成要素に、
該文書構成要素に対応する前記ソース側から抽出された
文書構成要素を挿入して出力することを特徴とする。
【0028】また、上記第5の目的を達成するため、請
求項7に係る発明は、請求項1乃至6のいずれかの請求
項に係る発明において、前記出力処理手段は、指定され
た属性に関する情報に基づいて、前記照合手段による照
合結果に基づいて特定される前記文書構造パターンと一
致する文書構成要素に対する属性の参照又は変更の操作
を行うことを特徴とする。また、上記第1の目的を達成
するため、請求項8に係る発明は、複数の文書構成要素
を有する構造化文書に対する処理を行う文書処理装置が
実行する文書処理方法であって、基準となる複数の文書
構成要素の接続関係を解釈し、該解釈した接続関係と前
記文書構成要素とを含む文書構造パターンを生成するス
テップと、前記文書構造パターンと、処理対象の構造化
文書とを照合するステップと、前記照合の結果に基づい
て、前記文書構造パターンと一致する文書構成要素を前
記処理対象の構造化文書から抽出するステップとを含む
ことを特徴とする。さらに、上記第3の目的を達成する
ため、請求項9に係る発明は、複数の文書構成要素を有
する構造化文書に対する処理を行う文書処理装置が実行
する文書処理方法であって、複数の文書構成要素を有す
る構造化文書を保存したファイルを格納するステップ
と、基準となる複数の文書構成要素の接続関係を解釈
し、該解釈した接続関係と前記文書構成要素とを含む文
書構造パターンを生成するステップと、前記文書構造パ
ターンと、前記格納したファイル内の構造化文書とを照
合するステップと、前記照合の結果に基づいて、前記文
書構造パターンと一致する文書構成要素を前記格納した
ファイル内の構造化文書から抽出するステップとを含む
ことを特徴とする。
【0029】
【作用】請求項1に係る発明では、解釈手段が、基準と
なる複数の文書構成要素の接続関係を解釈し、該解釈し
た接続関係と前記文書構成要素とを含む文書構造パター
ンを生成すると、照合手段が、解釈手段によって生成さ
れた文書構造パターンと処理対象の構造化文書とを照合
し、さらに、出力処理手段が、その照合により文書構造
パターンと一致する文書構成要素を処理対象の構造化文
書から抽出して出力する。この請求項1に係る発明によ
れば、構造化文書から、指定された階層構造に従った文
書構成要素を検出し出力することができる。
【0030】請求項2に係る発明では、請求項1に係る
発明において、出力処理手段は、照合手段による照合に
より文書構造パターンと一致した文書構成要素に対し
て、指定手段により指定された挿入、置換、削除のうち
のいずれか一つの処理を施したて出力する。この請求項
2に係る発明によれば、構造化文書から、指定された階
層構造に従った文書構成要素に対して、挿入、置換、削
除などの処理を施すことができる。
【0031】請求項3に係る発明では、請求項1に係る
発明において、出力処理手段は、指定手段により削除処
理が指定されると、蓄積手段に蓄積されている、照合手
段による照合により一致した文書構成要素の親である文
書構成要素から、蓄積手段に蓄積されている照合手段に
よる照合に一致した文書構成要素に関する情報を取り除
くと共に、当該親である文書構成要素から削除されな
い、当該親の文書構成要素の子供である文書構成要素を
出力する。この請求項3に係る発明によれば、削除すべ
き文書構成要素の親の文書構成要素の内容を自動的に変
更することができる。
【0032】請求項4に係る発明では、解釈手段が、基
準となる複数の文書構成要素の接続関係を解釈し、該解
釈した接続関係と前記文書構成要素とを含む文書構造パ
ターンを生成すると、照合手段が、解釈手段が生成した
文書構造パターンと格納手段に格納されているファイル
内の構造化文書とを照合し、更に、出力処理手段が、照
合手段による照合結果に基づいて、文書構造パターンと
一致する文書構成要素を格納手段に格納されているファ
イル内の構造化文書から抽出して出力する。この請求項
4に係る発明によれば、複数の構造化文書から、指定さ
れた階層構造に従った文書構成要素を検索し出力するこ
とができる。
【0033】請求項5に係る発明は、請求項4に係る発
明において、照合手段が、格納手段に格納されている複
数ファイルを対象として、解釈手段が生成した文書構造
パターンとの照合を行い、出力処理手段が、照合手段に
よる照合結果に基づいて、文書構造パターンと一致する
文書構成要素を複数の構造化文書から抽出して出力す
る。この請求項5に係る発明によれば、複数のファイル
それぞれに保存されている複数の構造化文書から、指定
された階層構造に従った文書構成要素を検索し出力する
ことができる。
【0034】請求項6に係る発明では、請求項4に係る
発明において、格納手段が、ソース側の構造化文書を保
存したファイルと、ターゲット側構造化文書を保存した
ファイルとをそれぞれ複数格納し、照合手段が、ソース
側の構造化文書を保存した複数のファイルと、ターゲッ
ト側構造化文書を保存した複数のファイルとを対象とし
て、解釈手段が生成した文書構造パターンとの照合を行
い、更に、出力処理手段が、照合手段による照合結果に
基づいて、文書構造パターンと一致する文書構成要素を
複数の構造化文書から抽出するとともに、ターゲット側
から抽出された文書構成要素に、該文書構成要素に対応
するソース側から抽出された文書構成要素を挿入して出
力する。この請求項6に係る発明によれば、ターゲット
側における複数のファイルそれぞれに保存されている複
数の構造化文書から抽出された単数又は複数の文書構成
要素に対して、ソース側における複数のファイルそれぞ
れに保存されている複数の構造化文書から抽出された単
数又は複数の文書構成要素を一度に挿入することができ
る。
【0035】請求項7に係る発明では、請求項1乃至6
のいずれかの請求項に係る発明において、出力処理手段
が、指定された属性に関する情報に基づいて、照合手段
による照合結果に基づいて特定される文書構造パターン
と一致する文書構成要素に対する属性の参照又は変更の
操作を行う。この請求項7に係る発明によれば、構造化
文書から、指定された階層構造に従った文書構成要素を
検索し、この検索した文書構成要素に対する参照又は変
更の操作を実施することができる。また、請求項8に係
る発明は、請求項1に係る発明を方法の発明の観点から
捉えたものであり、請求項9に係る発明は、請求項4に
係る発明を方法の発明の観点から捉えたものである。
【0036】
【実施例】以下、第1の実施例乃至第5の実施例を添付
図面を参照して説明する。
【0037】最初に第1の実施例を図1乃至図9を参照
して説明する。
【0038】図1は、本発明に係る文書処理装置の第1
の実施例を示す機能ブロック図である。
【0039】同図において、メモリ10には、基準とな
る文書構成要素同志の接続関係(階層関係や順序関係)
のパターン記述情報20(これについては後述する)が
記憶されており、解釈部30は、メモリ10からパター
ン記述情報20を読み出して解釈し、この解釈結果であ
る文書構造パターン40(これについては後述する)を
メモリ10に記憶する。再編成部50は、文書ファイル
60に保存されている構造化文書内を走査して、その構
造化文書を照合処理可能な形式の構造に再編成し、この
再編成結果である再編成構造化文書70(これについて
は後述する)をメモリ10に格納する。そして照合部8
0は、メモリ10に記憶されている文書構造パターン4
0と再編成構造化文書70と照合し、この照合結果を出
力処理部90に出力する。出力処理部90では、照合部
80の照合により一致した文書構成要素を再編成構造化
文書70から抽出し出力する。
【0040】図2は、図1に示した実施例の装置を実現
するためのハードウェア構成を示したものであり、例え
ば、ワークステーションやコンピュータ等のブロック図
を示している。図2において、装置は、構造化文書に対
する検索処理を実行する中央処理装置(以下、CPUと
いう)210と、主メモリ220と、ディスク230
と、各種のデータ内容や文書内容を表示するディスプレ
イ240と、キーボードやマウスから構成され各種デー
タや指令を入力する入力装置250とがバス260を介
してそれぞれ接続されている。なおCPU210はバス
260を介してこれに接続された各部を制御する。
【0041】ここで、図1に示した機能ブロック図の構
成要素と図2に示したブロック図の構成要素との対応関
係について説明する。図1に示したメモリ10は主メモ
リ20に対応しており、図1に示した解釈部30、再編
成部50、照合部80、および出力処理部90は共にC
PU210に対応しており、文書ファイル60はディス
ク230に対応している。
【0042】次に上述したパターン記述情報20につい
て説明する。
【0043】パターン記述情報20は、パターンが、
“節”、“表題”などの単純文字列パターン、“/”、
“#”などの接続表現記号、“(”、“)”などの括
弧、等の構文要素が特定の文法に従って出現するように
表現されるものであり、例えば、 (節/表題/introduction)#(節/表題) …(1) ここで、“/”は包含関係、“#”は順序関係を表して
いる。 のように記述される。この記述内容はメモリ10に記憶
される。
【0044】そして解釈部30は、メモリ10から上記
(1)に示す様なパターン記述情報を読み出して解釈
し、この結果として図3に示す様に階層構造(木構造)
を形成している文書構造パターン(これが上述した文書
構造パターン40に相当する)を生成する。このとき、
当然、上述したような構文要素や文法などが考慮され
て、文書構造パターンが生成されることとなる。なおこ
の実施例では、図3に示すような文書構造パターンにお
ける矩形図形を単純パターンということにする。
【0045】ここで、解釈部30によるパターン記述の
解釈処理について、図4に示すフローチャートを参照し
て説明する。なおここでは、括弧(“(”、“(”)の
構文要素の処理を省略している。
【0046】解釈部30は、カレントレコードを生成し
(ステップ401)、その後、入力文字列(例えば上記
(1)のパターン記述情報)についての解釈は終りか否
かを判断する(ステップ402)。入力文字列について
の解釈処理がまだ残っている場合は、次の文字が順序関
係を表す記号“#”か否かを判断する(ステップ40
3)。
【0047】ステップ403において記号“#”であれ
ば、新たなレコードを生成し、このレコードをカレント
レコードの弟にし(ステップ404)、その後、新たに
生成したレコードをカレントレコードと定義する(ステ
ップ405)。その後、上記ステップ402に戻りこの
ステップ以降を実行する。
【0048】ステップ403において文字が記号“#”
でない場合は、当該文字が包含関係を表す記号“/”か
否かを判断し(ステップ406)、記号“/”の場合
は、新たなレコードを生成し、このレコードをカレント
レコードの子にする(ステップ407)。その後、ステ
ップ405に進む。
【0049】ステップ406において文字が記号“/”
でない場合は、文字であることを意味するので、当該文
字をカレントレコード内に挿入し(ステップ408)、
その後、ステップ402に戻りこのステップ以降を実行
する。
【0050】なお、ステップ402において入力文字列
についての解釈が終了した場合は処理を終了する。
【0051】ここで、具体例を挙げて説明する。例えば
“富士夫/太郎#花子”という文字列は、図5(a)〜
(j)に示すようにパターンとして解釈されていく。な
お、同図において、矩形図形がレコードを表している。
また図5(j)に示す内容が最終的な文書構造パターン
である。
【0052】上述した例では、文字列のパターン解釈で
あったが、図形エディタを用いて描画したグラフ(グラ
フ理論におけるグラフ)を解釈してパターンとする方法
もある。このときは、ノードやリンクを適切な意味に解
釈するように定義する。例えば、図3に示した例では、
矩形で囲まれた文字列(例えば節や表題)が単純文字列
パターンを表し、上下の矩形図形を結んでいるリンク
(例えば符号301で示す線分(リンク))が序列関係
を表し、左右の矩形図形を結んでいるリンク(例えば符
号302で示す線分(リンク))が包含関係を表してい
る。このような図形から意味構造を抽出するには、例え
ばパターン記述専用の図形エディタを用意すれば良い。
【0053】ここで、図形エディタを用いたパターン記
述の一例を図6に示す。
【0054】まずユーザは、図6(a)に示す様にパタ
ーンエディタの初期画面つまりウィンドウ600を表示
画面に表示せさ、次に図6(b)に示す様にノード“un
specified node”をマウス(入力装置250に設けられ
ている)を操作して選択し、その後、所定の操作を行っ
て、図6(c)に示す様にポップアップメニュー610
を表示させる。そして、ポップアップメニュー610の
“set string”の項目を選択して、図6(d)に示す様
に文字列を記述する。続いて、ポップアップメニュー6
10の“make child”の項目を選択して、図6(e)に
示す様にノード“節”の子ノードを作成する。引き続い
て、ポップアップメニュー610の“make brother”の
項目を選択して、図6(f)に示す様に弟ノード作成す
る。こうして作成された図6(f)に示す様なグラフは
直接文書構造パターンとして用いられる。すなわち、図
6(f)に示す内容が、パターン記述情報20であり、
また文書構造パターン40でもある。
【0055】次に、再編成部50により再編成される再
編成構造化文書70について説明する。
【0056】ファイルとして保管されている文書のまま
では、文書内部の構造へのアクセスができずパターン処
理に不利なので、ファイルを走査して構造を再編成す
る。ただし、一度にファイル全体を解析する必要はな
く、照合部80が必要するとき、必要となっている部分
のみを解析して出力するようにする。
【0057】この解析処理としては、ファイルの必要と
する箇所にファイルポインタを移動して可変長レコード
を切り出し、そのレコードに予め記述されている構造上
での位置情報をもとに木構造(或いは部分木構造)を再
構成するようになっている。再編成して得られた再編成
構造化文書の一例を図7に示す。この図に示す様に文書
は、階層構造(木構造)として表現される。なおこの実
施例では、再編成構造化文書における矩形図形を文書ノ
ードということにする。
【0058】次に、照合部80による照合処理につい
て、図8に示すフローチャートを参照して説明する。
【0059】照合部80は、current-nodeを、再編成構
造化文書の構造における最初の文書ノードにし(ステッ
プ801)、current-pat を、文書構造パターンの構造
における最初の単純パターンにする(ステップ80
2)。
【0060】その文書ノードおよび単純パターンは指定
された接続条件に一致するか否かを判断し(ステップ8
03)、一致する場合は、current-pat とcurrent-node
とが一致するか否かを判断する(ステップ804)。
【0061】ステップ804において一致する場合は、
current-nodeを次の文書ノードにし(ステップ80
5)、その後、単純パターンが終りか否かを判断する
(ステップ806)。
【0062】ステップ806において単純パターンが終
了した場合は、その旨が照合部80から出力処理部90
に通知される。出力処理部90では、その一致した文書
ノードを出力する(ステップ807)。このようにして
出力される文書ノードは、ディスプレイ240に表示さ
れたり、あるいはファイルとして保管される。さらに
は、その文書ノードを他の(或いは同一の)文書中の特
定領域に流し込むことによって、文書内容を編集するこ
とができる。このように検索して一致した文書ノードす
なわち文書構成要素を、削除や置換したり、他の文書に
挿入することができる。
【0063】ところでステップ807が終了すると、照
合部80は、current-pat を前の単純パターンにし(ス
テップ808)、その後、文書ノードが終りか否かを判
断す(ステップ809)。
【0064】文書ノードが終了したら処理を終了し、ま
だ文書ノードがある場合は上記ステップ803に戻りこ
のステップ以降を実行する。
【0065】なお、ステップ806において単純パター
ンが終りの場合はステップ809に進む。
【0066】また上記ステップ803において指定され
た接続条件に不一致の場合、ステップ804において一
致しない場合は、current-pat は最初の単純パターンか
否かを判断し(ステップ810)、単純パターンであれ
ば、一致していた文書ノードまで戻り(ステップ81
1)、その後、ステップ805に進む。
【0067】ステップ810において単純パターンでな
い場合はcurrent-pat を前の単純パターンにし(ステッ
プ812)、その後、ステップ811に進む。
【0068】以上のような処理を行って得られた照合結
果を図9に示す。この図に示した例では、図3に示した
文書構造パターンと図7に示した再編成構造化文書とを
照合した場合の結果を示している。
【0069】この例においては、図9中点線で示される
ように、単純パターン901Aと文書ノード901Bと
が一致し、単純パターン902Aと文書ノード902B
とが一致し、単純パターン903Aと文書ノード903
Bとが一致し、単純パターン904Aと文書ノード90
4Bとが一致し、単純パターン905Aと文書ノード9
05Bとが一致し、単純パターン906Aと文書ノード
906Bとが一致している。
【0070】この図から分かるように、文書構造パター
ン(階層構造情報)が分かれば、例えば、単純パターン
906Aの文字列が分からない場合であっても、照合処
理することにより、その単純パターン906Aに対応す
る文書ノード906Bを得ることができ、その結果とし
て、表題は「魔神の宅配便」であるということが分か
る。
【0071】また単純パータン903Aの文字列「in
troduction」に一致するところが、文書ノー
ド903B、907に存在していた場合であっても、必
ず表題になっているもののみしか一致しないので(この
例では文書ノード903Bのみ一致)、確実に検索する
ことができる。
【0072】以上説明したように第1の実施例によれ
ば、文字列パターンに加えて、適切な方法で文書の構成
要素の接続関係を示すことによって、誤りなく必要とす
るものが得られる。
【0073】次に第2の実施例を図10乃至図15を参
照して説明する。
【0074】図10は、本発明に係る文書処理装置の第
2の実施例を示す機能ブロック図である。この機能ブロ
ック図は、図1に示した第1の実施例の機能ブロック図
の構成において、適合ノード蓄積部1010、命令処理
処理部1020を追加し、出力処理部90を出力処理部
1030に変更した構成になっている。なお図10にお
いて、図1に示した構成要素と同様の機能を果たす部分
には同一の符号を付している。
【0075】適合ノード蓄積部1010は、照合部80
の照合結果である文書構成要素を蓄積する。
【0076】命令処理部1020は、コマンドラインあ
るいは標準入力から与えられる所定の処理を解釈し、こ
の解釈結果を出力処理部1030に与える。なお所定の
処理には、“挿入する”、“置換する”、“削除する”
の処理が含まれている。
【0077】出力処理部1030は、適合ノード蓄積部
1010に蓄積されている文書構成要素に対して、命令
処理部1020からの処理命令に従って処理を実行し、
出力する。この出力は、次の処理のための標準出力に出
力しても良い。
【0078】なお上記標準入力及び標準出力とは、UN
IX(オペレーティングシステム)における標準入力及
び標準出力のことである。
【0079】この図10に示した装置も、図2に示した
第1の実施例のハードウェア構成で実現することができ
る。ここで図10に示した構成要素と図2に示した構成
要素との対応関係について説明する。図10に示した適
合ノード蓄積部1010は図2に示した主メモリ220
に対応し、図10に示した命令処理部1020及び出力
処理部1030は共に図2に示したCPU210に対応
している。他の構成要素については第1の実施例と同様
である。
【0080】この第2の実施例は、基本的には第1の実
施例と同様である。第1の実施例と異なるのは、構造化
文書中から、文書構造パターンに一致する構造を抽出
し、この抽出した構造に対して、“挿入”、“置換”、
“削除”などの処理を施すという点である。
【0081】そこで、第2の実施例における文書編集処
理について、図11乃至図15を参照して説明する。
【0082】パターン記述情報20として、 (節/本文段落/スタミナX)#^注 …(2) ここで、/は包含関係を示す記号 #は順序関係を示す記号 ^は処理対象となるノードを示す記号 が記述されメモリ10に記憶されている。
【0083】次に解釈部30は、図4に示した第1の実
施例のパターン解釈処理手順と同様の処理を実行して、
上記(2)に示すパターン記述情報20から、図11に
示す様な文書構造パターンを生成し、これを文書構造パ
ターン40としてメモリ10に格納する。このとき処理
対象となるノードは「注」であると解釈する。図11で
は、処理対象となるノードの目印として二重枠で囲んで
表記している。この場合も、図5に示した第1の実施例
の具体例の様にパターン解釈されていく。
【0084】この第2の実施例でも、図形エディタを用
いて描画したグラフ(グラフ理論におけるグラフ)を解
釈して文書構造パターンを認識することができる。図形
エディタを用いたパターン記述の方法は、図6を用いて
説明した第1の実施例と同様である。
【0085】一方、再編成部50による再編成処理結果
は、図12に示す内容であり、メモリ10に再編成構造
化文書70として格納される。
【0086】そして照合部80が、図8に示した第1の
実施例の照合処理手順と同様の処理を実行して、図11
に示す文書構造パターンと、図12に示す再編成構造化
文書とを照合する。この結果として、図13に示すよう
な照合結果が得られることとなる。図13においては、
単純パターン1310と文書ノード1310A、131
0Bとが一致し、単純パターン1320と文書ノード1
320A、1320Bとが一致し、単純パターン133
0と文書ノード1330A、1330Bとが一致し、単
純パターン1340と文書ノード1340A、1340
Bとが一致しいる。このとき照合部80は、パターン記
述情報中で指示されている処理対象ノードに対応する構
造化文書中のノードを適合ノード蓄積部1010に格納
する。この例では「注」のノード1340A、1340
Bが蓄積される。なおノードの全情報を格納する必要は
なく、ノードへのリンクを記憶するようにしても良い。
【0087】命令処理部1020に、例えば「insert
“スタミナXは絶倫製薬の登録商標です”as lastChil
d」というコマンドラインが与えられると、命令処理部
1020は、そのコマンドラインを、出力処理部103
0の動作を決定する変数として解釈し、この解釈結果に
応じた処理を実行する。この処理を図14を用いて説明
する。
【0088】最初にinsertを解釈して、“挿入する”を
示すinsertのコマンドを出力処理部1030に設定す
る。コマンドの設定は、解釈したコマンドを設定するよ
うにしても良いし、出力処理部1030に予め設定され
たコマンド群を用意しておき、解釈したコマンドに該当
するものを設定するようにしても良い。ここでは、後者
の方法を採用しており、“挿入する”、“置換する”、
“削除する”にそれぞれ対応するコマンドinsert, repl
ace, delete が予め用意されている。これらのコマンド
以外にも、insert from file"tottekoi", insert from
stdin, remove などのコマンドを用意することもでき
る。
【0089】次に“スタミナXは絶倫製薬の登録商標で
す”を解釈して、処理上必要となるデータ領域(ここで
はbufferという名前で参照される)に文字列を出力処理
部1030に複写する。
【0090】最後にas lastChildを解釈して、末子であ
るということを示すフラグ1を出力処理部1030に設
定する。
【0091】出力処理部1030では、「insertのコマ
ンド」、「buffer=スタミナXは絶倫製薬の登録商標で
す」、「フラグ1」が設定されると、これらの情報に基
づいて、適合ノード蓄積部1010に蓄積されているノ
ードに対して処理を施し、この結果をファイルストリー
ムに出力する。この出力結果を図15に示す。この図1
5に示す例では、注のノード1340A、1340Bの
子供として“スタミナXは絶倫製薬の登録商標です”の
ノード1500A、1500Bが接続されている。なお
処理と出力は同時に実行することができる。更には対象
ノードの照合の検証とも同時に実行することができる。
【0092】以上説明したように第2の実施例によれ
ば、構造化文書内のオブジェクト間の関係を利用したパ
ターン、つまり基準となる階層構造のパターンとのパタ
ーンマッチングを行うようにしているので、構造化文書
における正確な情報(文書構成要素)にアクセスするこ
とができると共に、階層上のデータ(文書構成要素)の
位置を簡単に指定することができる。
【0093】また1つのパターンを使用して上述したよ
うなパターンマッチングを行うようにしているので、構
造化文書中の複数の書き換え又は挿入位置を指定するこ
とができる。
【0094】更にユーザとのインタラクションなしで正
確なアクセスを実行することができるので、構造を持っ
た文書のバッチ処理が可能となる。
【0095】次に第3の実施例について、図16乃至図
20を参照して説明する。
【0096】図16は、本発明に係る文書処理装置の第
3の実施例を示す機能ブロック図である。この機能ブロ
ック図は、図10に示した第2の実施例の機能ブロック
図の構成において、適合ノード蓄積部1010を削除
し、削除情報蓄積部1040を追加した構成になってい
る。
【0097】削除情報蓄積部1040は、照合部80の
照合により一致した文書ノードと、当該文書ノードの親
である文書ノードとを対応付けして蓄積(この蓄積の構
造ついては後述する)し管理する。
【0098】出力処理部1030は、命令処理部102
0から“削除する処理”が渡されると、削除情報蓄積部
1040に蓄積されている照合部80の照合により一致
した文書ノードの親である文書ノードから、削除情報蓄
積部1040に蓄積されている照合部80の照合により
一致した文書ノードに関する情報(例えば文書ノード、
そのノードの位置情報)を取り除くと共に、当該親の文
書ノードから削除されない子供の文書ノードを出力す
る。
【0099】なお構造化文書においては、一般的に、各
ノード間の関係を表現する際に、親ノードには自己の子
供である子ノードを示す情報が含まれており、一方、子
ノードに自己の親である親ノードを示す情報が含まれて
いるので、出力処理部1030は、“削除する処理”を
受け取ったときは、親の文書ノードから、削除すべき文
書ノードを示す情報を削除するようにしている。このと
き、削除される文書ノードに含まれている親の文書ノー
ドを示す情報は削除してもしなくとも良い。但し、親の
文書ノードから削除すべき文書ノードを示す情報を削除
することにより、当該削除すべき文書ノードは、親の文
書ノードとの関連性がなくなり出力されないので、処理
効率の点からいって、削除される文書ノードに含まれて
いる親の文書ノードを示す情報は削除しない方が良い。
【0100】図17は、削除情報蓄積部1040に蓄積
される削除情報の構造の一例を示している。この実施例
では、削除情報の構造を、削除される文書ノード(以
下、子ノードという)のリスト(以下、子リストとい
う)を持った、その親の文書ノード(以下、親ノードと
いう)のリスト(以下、親リストという)として表現す
るようにしている。因みに図17においては、親リスト
には、2つの子ノードC1-1、C1-2の子リストを持つ
親ノードP1と、2つの子ノードC2-1、C2-2の子リ
ストを持つ親ノードP2とが登録されている。
【0101】なお、上記の例では削除される子ノードを
登録するようにしているが、削除される子ノードの情報
としては、何番目の子供が削除されるべきか、という情
報で十分である。
【0102】次に、削除情報蓄積部1040による削除
情報の作成処理について、図18に示すフローチャート
を参照して説明する。
【0103】削除情報蓄積部1040は、初期化として
親リストを空にし(ステップ1051)、次に、照合部
80から渡される照合結果つまりパターンと一致するノ
ード(以下、これをノードCとする)を順次受け取ると
共に、当該ノードCを1つ取り込む(ステップ105
2)。
【0104】次に削除情報蓄積部1040は、取り込ん
だノードCの親ノードPは親リストに未登録か否かを判
断する(ステップ1053)。
【0105】ステップ1053において親ノードPは登
録済みの場合は、ノードCは親ノードPの子リストに未
登録か否かを判断する(ステップ1054)。
【0106】ステップ1054においてノードCは登録
済みの場合は、照合部80からの次のノードCを取り込
む(ステップ1055)。
【0107】なお、ステップ1054においてノードC
が未登録の場合は、ノードCを親ノードPの子リストに
新規登録し(ステップ1056)、その後、ステップ1
055に進み、またステップ1053において親ノード
Pが未登録の場合は、親リストに新規登録し(ステップ
1057)、その後、ステップ1054に進む。
【0108】ところで上記ステップ1055を終了した
場合、削除情報蓄積部1040は、照合部80から渡さ
れるノードは終りか否かを判断し(ステップ105
8)、ノードが終りの場合には処理を終了し、一方、ま
だノードが存在している場合は、上記ステップ1053
に戻り、照合部80から渡されるノードが終了するま
で、ステップ1053〜1058を繰り返す。
【0109】ここで、図17に示した例を用いて、削除
情報の作成処理を説明する。
【0110】図17において、親ノードP1が親ノード
P2より早く出現するものとし、今現在、親リストは空
き状態とする。
【0111】このような状態で、上記ステップ1053
において、子ノードC1-1が取り込まれた後、ステップ
1053が実行された際には、子ノードC1-1の親ノー
ドP1は未登録であるので、この場合はステップ105
7に進み、このステップにより親ノードP1が親リスト
に登録される。このステップ1057終了後はステップ
1054に移行するが、子ノードC1-1は親ノードP1
の子リストには登録されていないので、ステップ105
6に進み、このステップにより子ノードC1-1が親ノー
ドP1の子リストに登録される。
【0112】そしてステップ1055、1058が実行
されることとなり、この場合は、照合部80からのノー
ド(つまり照合結果であるノード)がまだ存在するの
で、上記ステップ1053に戻り、このステップにより
子ノードC1-2についての処理が実行される。この場合
は、ステップ1053においては「NO」(つまり親ノ
ードP1は親リストに登録済み)となるので、ステップ
1054に進み、このステップにおいては「YES」
(子ノードC1-2は親ノードP1の親リストには未登
録)なので、ステップ1056に進み、このステップに
より子ノードC1-2が親ノードP1の親リストに登録さ
れる。
【0113】以下同様に、子ノードC2-1、C2-2につ
いての処理が行われる。
【0114】なお図17において、削除すべきノード
が、子ノードC1-1、C1-2、親ノードP1であった場
合は、親リストに、例えば親ノードP1が削除される旨
の情報のみを登録し、子ノードC1-1、C1-2について
は登録しないようにする。何故ならば、削除されるノー
ドから更に削除されるということは無いので、親ノード
P1が削除される旨のみを登録すれば良いこととなる。
従って、子ノードC1-1、C1-2のリストへの登録を行
う必要がないので、処理効率及び記憶使用効率を向上さ
せることができる。
【0115】次に、出力処理部103の出力処理につい
て、図19に示すフローチャートを参照して説明する。
【0116】出力処理部103は、命令処理部1020
からの“削除する処理”を受け取ると(ステップ106
1)、処理の対象をファイル先頭に移動し(ステップ1
062)、その後、そのファイルから、文書のルートノ
ード(これはファイル先頭)であるノードNを1つ読み
取り(ステップ1063)、該ノードNについて、出力
すべきノードを出力するノード出力処理を実行する(ス
テップ1064)。すなわちステップ1064において
は、ノードNの下位に存在するノードが出力されること
になる。
【0117】このステップ1064のノード出力処理に
ついて、図20に示すサブルーチンを参照して説明す
る。
【0118】出力処理部103は、ノードNは親リスト
に登録されているか否かを判断する(ステップ107
1)。ここで、ノードNはルートノードであるので、こ
のノードNが、親リストに登録されているということ
は、必ず削除されるノード(すなわち子ノード)が存在
することを意味しており、一方、親リストに登録されて
いない場合は、削除されるノードが存在しないことを意
味している。
【0119】ところで、ステップ1071において登録
済みの場合は、ノードNについて変更を施して出力する
(ステップ1072)。このステップ1072において
は、削除情報蓄積部1040に蓄積されている親リスト
つまり削除情報に基づいて、ノードNについて、親リス
トに登録されている親ノードから、該親ノードの子リス
トに登録されている子ノードに関する情報(例えば子ノ
ードを示す情報)を取り除く。この処理が終了した後
は、ノードNには出力すべきノードのみが存在している
ことになる。
【0120】そしてステップ1072を終了した後、出
力処理部103は、ノードNについての子リストに含ま
れない子をノード(つまり出力すべきロノード)に対し
て、再帰的にノード出力処理を実行する(ステップ10
73)。
【0121】一方、ステップ1071において未登録の
場合は、ノードNをそままま出力し(ステップ107
4)、そのノードNの子ノード全てに対して、再帰的に
ノード出力処理を実行する(ステップ1075)。
【0122】以上説明したように第3の実施例によれ
ば、パターン照合して削除されるノード(ノードC)が
検出されると、このノードCと該ノードCの親のノード
(ノードP)とを対応して記憶し、そして、親のノード
PからノードCに関する情報(ノードCを示す情報)を
取り除いて、その親のノードPを出力するようにしてい
るので、ユーザが、親のノードPの内容を変更する必要
がない。このため構造化文書に対する編集処理の作業効
率を向上させることができる。
【0123】次に第4の実施例を図21乃至図27を参
照して説明する。
【0124】図21は本発明に係る文書処理装置の第4
の実施例を示す機能ブロック図である。同図において、
文書処理装置は、メモリ1610、解釈部1620、再
編成部1630、ソース文書ファイル群1640、ター
ゲット文書ファイル群1650、照合部1660、複数
抽出点蓄積部1670、複数挿入点蓄積部1680、出
力処理部1690、抽出挿入関係ルール指定部1700
を備えている。
【0125】メモリ1610には、第1の実施例で説明
したようなパターン記述情報1611が記憶されてお
り、解釈部1620は、メモリ1610からパターン記
述情報1611を読み出して解釈し、この解釈結果を第
1の実施例で説明したような文書構造パターン1612
としてメモリ1610に記憶する。
【0126】再編成部1630は、ソース文書ファイル
群1640に保持されている複数の構造化文書内を走査
して、これらの構造化文書を照合処理可能な形式の構造
に再編成し、この結果をソース再編成構造化文書群16
13としてメモリ1610に格納する。同様にして、タ
ーゲット文書ファイル群1650内の複数の構造化文書
についても、ソース再編成構造化文書群1614として
メモリ1610に格納する。
【0127】この第4の実施例において、構造化文書と
は、章、節といった文書構造と文書内容とを一緒に持つ
フォーマットによる文書表現を意味している。1つのフ
ァイル内に複数の構造化文書を含むとは、図22に示す
様に、1つのファイル内に、異なる論理根を持つ論理構
造が複数含まれることを示している。論理根が異なる論
理構造は互いに独立であり、且つ部分構造が共有される
ことはない。部分構造とは、構造化文書における一部分
の構造のとであり、例えば図22中点線で囲まれた構造
化文書においては、「節」というノード以下の構造や、
「表題」というノード以下の構造などである。
【0128】ソース文書ファイルとは、部分構造を他の
文書へ挿入するために、文書構造パターンに適合する部
分構造が抽出される文書ファイル(つまりソース側の文
書ファイル)のことである。結果としてこの文書ファイ
ルの内容は変更されることはない。
【0129】一方、ターゲット文書ファイルとは、他の
文書からの部分構造を挿入するために、文書構造パター
ンに適合する部分構造が抽出される文書ファイル(つま
りターゲット側の文書ファイル)のことである。結果と
してこの文書ファイルの内容は変更される。
【0130】またソース再編成構造化文書とは、ソース
文書ファイル内の構造化文書に対する再編成処理の結果
である再編成構造化文書のことである。
【0131】一方、ソース再編成構造化文書とは、ター
ゲット文書ファイル内の構造化文書に対する再編成処理
の結果である再編成構造化文書のことである。
【0132】照合部1660は、複数ファイル抽出点認
識部1661と、複数ファイル挿入点認識部1662と
を有している。複数ファイル抽出点認識部1661は、
ソース構造化文書群をそれぞれ格納する複数のファイル
に対して、文書構造パターンによる照合によりファイル
を走査し、複数の部分構造の抽出点を認識し、この認識
結果を複数抽出点蓄積部1670に格納する。このとき
ファイル名と抽出点の対の情報を格納する。一方、複数
ファイル挿入点認識部1662は、ターゲット構造化文
書群をそれぞれ格納する複数ファイルに対し、文書構造
パターンによりファイルを走査し、複数の部分構造に対
する挿入点を認識すると共に、この認識結果を複数挿入
点蓄積部1680に格納する。このときファイル名と挿
入点の対の情報を格納する。なお複数抽出点蓄積部16
70と複数挿入点蓄積部1670とは独立しているが、
抽出点の情報と挿入点の情報とを区別するようにして、
これらの情報を1つの蓄積部に蓄積するようにしても良
い。
【0133】抽出挿入関係ルール指定部1700は、抽
出点と挿入点との対応関係を、ファイルを跨がる1対
1、あるいはファイルを跨がる複数n対1のいずれかの
ルールを出力処理部1690に与える。
【0134】出力処理部1690には、複数ファイル部
分構造抽出挿入部1691が設けられており、複数ファ
イル部分構造抽出挿入部1661は、抽出挿入関係ルー
ル指定部1700から与えられた抽出点と挿入点との対
応関係の情報に基づいて、複数抽出点蓄積部1670に
蓄積されている抽出点に対応する部分構造から、複数挿
入点蓄積部1680に蓄積されている挿入点に対応する
部分構造分への文書構造の挿入操作を実行する。
【0135】この図21に示した装置も、図2に示した
第1の実施例のハードウェア構成で実現することができ
る。ここで、図21に示した機能ブロック図の構成要素
と図2に示したブロック図の構成要素との対応関係につ
いて説明する。図26に示したメモリ1610は図2に
示した主メモリ20に対応し、図21に示した解釈部1
620、再編成部1630、照合部1660、出力処理
部1690及び抽出挿入関係ルール指定部1700は共
に図2に示したCPU210に対応し、ソース文書ファ
イル群1640及びターゲット文書ファイル群1650
は共に図2に示したディスク230に対応している。
【0136】この第4の実施例も、基本的には第1の実
施例と同様である。第1の実施例と異なるのは、1つの
ファイル内の複数の構造化文書に対して、文書構造パタ
ーンに一致する構造を抽出する点である。また複数の構
造化文書を有するファイルを複数設け、これらのファイ
ル内の複数の構造化文書に対して照合する点も異なって
いる。
【0137】そこで、第4の実施例における文書編集処
理について、図23乃至図27を参照して説明する。
【0138】パターン記述情報20として、 (節/表題/まとめ)#本文段落 …(3) ここで、/は包含関係を示す記号 #は順序関係を示す記号 が記述されメモリ1610に記憶されている。
【0139】次に解釈部1630によって、図4に示す
第1の実施例のパターン解釈処理手順が実行されること
により上記(3)のパターン記述情報が解釈され、更に
この結果が文書構造パターン1612としてメモリ16
10に記憶される。
【0140】続いて再編成部1930によって、ソース
文書ファイル群1640とターゲット文書ファイル群1
650とが再編成され、更にこれらの結果が、ソース再
編成構造化文書群1613、ターゲット再編成構造化文
書群1614としてメモリ1610に記憶される。
【0141】続いて照合部1660の複数ファイル抽出
点認識部1661による抽出点認識処理について、図2
3を参照して説明する。図23はその処理動作を示すフ
ローチャートである。
【0142】複数ファイル抽出点認識部1661は、最
初のソース文書ファイル(ソース再編成構造化文書群1
613中の1つのファイル)をメモリ1610から読み
込んで(ステップ1801)、ソース文書ファイルは終
りか否かを判断し(ステップ1802)、終りの場合に
は処理を終了し、一方、終りでない場合は、ファイル内
の全ての構造化文書(つまり論理根を持つ文書)に対す
る処理が終了したか否かを判断する(ステップ180
3)。
【0143】ここで、まだ未処理の構造化文書が存在し
ている場合は、その構造化文書に対するパターン照合処
理を実行し(ステップ1804)、その照合処理結果で
ある抽出点を複数抽出点蓄積部1670に蓄積する(ス
テップ1805)。
【0144】上記ステップ1803において、全ての構
造化文書について処理した場合は、次のソース文書ファ
イルをメモリ1610から読み込み、その後、上記ステ
ップ1802に戻る。
【0145】なおステップ1804のパターン照合処理
は、図8に示す第1の実施例の処理手順と同様である。
【0146】同様にして、複数ファイル挿入点認識部1
662は、ターゲット文書ファイル(ターゲット再編成
構造化文書群1614)に対する挿入点の認識処理を実
行する。この結果は、複数挿入点蓄積部1680に蓄積
される。
【0147】すなわち、複数ファイル抽出点認識部16
61と複数ファイル挿入点認識部1662は基本的には
同様の処理を実行し、異なるのは、対象となる文書ファ
イル(構造化文書)がソースであるかターゲットである
かという点である。
【0148】ここで、抽出点の認識処理結果の様子を図
24に示す。図24において、ファイル1、ファイル2
は、ソース再編成構造化文書を示しており、またハッチ
ングの掛った部分が、文書構造パターン1612に適合
した部分である。この図24から分かるように、ファイ
ル内の複数の構造化文書及び複数のファイルに跨がっ
て、構造がパターンマッチングされ適合されている。こ
の例での抽出点は、ハッチングの掛った部分の「節」と
いうノードの直前の位置(つまり「論理根」というノー
ドとの接続点の位置)である。この抽出点は、各ファイ
ル毎に抽出点の列として複数抽出点蓄積部1670に蓄
積される。
【0149】同様に挿入点の認識処理結果も、図24に
示す様に、文書構造パターン1612に適合した部分が
認識されることとなる。挿入点についても上記同様に考
えることができる。
【0150】以上の説明から分かるように、この第4の
実施例においては、図24に示すように、文書構造パタ
ーン1612に適合する部分構造(ハッチング部分)を
抽出することが、本来の目的ではなく、「節」というノ
ードを抽出することが目的なのである。しかし、図24
に示されるように、「節」というノード以下の構造には
各種の部分構造が接続されているので、所望の「節」と
いうノードを抽出するために、文書構造パターン161
2との照合を実施しているのである。
【0151】次に、出力処理部1690の複数ファイル
部分構造抽出挿入部1691の出力処理について、図2
5を参照して説明する。図25はその処理動作を示すフ
ローチャートである。
【0152】複数ファイル部分構造抽出挿入部1691
は、複数抽出点1蓄積部1670から各ファイル毎の抽
出点の列を得る。これらをA[i]=(file名、抽出
点)に順に格納すると共に(ステップ2001)、複数
挿入点蓄積部1680から各ファイル毎の挿入点の列を
得る。これらをB[j]=(file名、挿入点)に順に格
納する(ステップ2002)。
【0153】次に、挿入抽出関係ルール指定部1700
から指定された抽出点と挿入点との対応関係のルールが
“ファイルを跨がる1対1”であるか否かを判断する
(ステップ2003)。
【0154】ここで、“ファイルを跨がる1対1”の場
合は、i=1、j=1と定義し(ステップ2004)、
A[i]あるいはB[j]が終りか否かを判断する(ス
テップ2005)。
【0155】ここで、終りでない場合は、A[i]に示
される抽出点に基づいて、ソース文書ファイル群から部
分構造を抽出すると共に(ステップ2006)、この部
分構造をB[j]に示される挿入点に挿入する(ステッ
プ2007)。
【0156】その後、i=i+1、j=j+1と再定義
した後(ステップ2008)、上記ステップ2005に
戻る。ステップ2005においてA[i]あるいはB
[j]が終りの場合は、結果を出力する(ステップ20
09)。
【0157】上記ステップ2003においてルールが
“ファイルを跨がる1対1”でない場合は、ルールが
“ファイルを跨がる複数n対1”であるか否かを判断す
る(ステップ2010)。そうであれば、j=1と定義
し(ステップ2011)、その後、B[j]が終りであ
るか否かを判断する(ステップ2012)。
【0158】ここで、終りの場合は、A[1]〜A
[n]に示される抽出点に基づいて、ソース文書ファイ
ル群から部分構造を全て抽出し、これらA[1]〜A
[n]までの部分構造を兄弟として繋ぐと共に(ステッ
プ2013)、兄弟として繋がれた構造を、B[j]に
示される挿入点に挿入する(ステップ2014)。この
挿入点に対して、兄、弟、子供として挿入することがで
きる。
【0159】上記ステップ2014を終了した後はj=
j+1と再定義し(ステップ2015)、その後、上記
ステップ2012に戻る。すなわち結果として、B
[1]〜B[n]の各挿入点に、兄弟として繋がれたA
[1]〜A[n]までの部分構造が挿入される。
【0160】上記ステップ2012においてB[j]が
終了した場合は上記ステップ2009に進む。
【0161】上記ステップ2010においてルールが
“ファイルを跨がる複数n対1”でない場合は挿入処理
は行わない(ステップ2016)。
【0162】なお複数ファイル部分構造抽出挿入部16
91は、ソース文書ファイル群の抽出点、ターゲット文
書ファイル群の挿入点のいずれかの数が多いときは挿入
処理を行わず、ステータスを返す。
【0163】例えば、抽出点の数>挿入点の数、のとき
ステータスの値が1 抽出点の数<挿入点の数、のときステータスの値が2 この結果として、出力処理部1690からは、エラー通
知が出力される。
【0164】また、抽出点の数=挿入点の数、のときは
0のステータスを返す。この結果として、出力処理部1
690からは、変更後のターゲット文書ファイルが出力
されることとなる。
【0165】ここで、ファイルを跨がる1対1のルール
に基づく挿入結果の様子を図26に示し、またファイル
を跨がる複数n対1のルールに基づく挿入結果の様子を
図27に示す。
【0166】以上説明したように第4の実施例によれ
ば、複数の文書ファイルであって、且つ1つのファイル
中に複数の構造化文書文書が保存されている場合であっ
ても、構造化文書内のオブジェクト間の関係を利用した
パターン、つまり基準となる階層構造のパターンとのパ
ターンマッチングを行うようにしているので、構造化文
書における正確な情報(文書構成要素)にアクセスする
ことができると共に、階層上のデータ(文書構成要素)
の位置を簡単に指定することができる。
【0167】すなわち、ターゲット側の複数のファイル
それぞれに保存されている複数の構造化文書から抽出さ
れた文書構成要素に対する、ソース側の複数のファイル
それぞに保存されている複数の構造化文書から抽出され
た文書構成要素の挿入操作を一度に自動的に行うことが
できるということである。
【0168】次に第5の実施例を図28乃至図31を参
照して説明する。
【0169】図28は本発明に係る文書処理装置の第5
の実施例を示す機能ブロック図である。この機能ブロッ
ク図は、図1に示した第1の実施例の機能ブロック図の
構成において、ファイル位置情報保持部2310、属性
情報指定部2320を追加し、出力処理部90を出力処
理部2330に変更した構成になっている。なお図23
において、図1に示した構成要素と同様の機能を果たす
部分には同一の符号を付している。
【0170】ファイル位置情報保持部2310は、照合
部80の照合結果である文書構成要素のファイル内の位
置情報を保持する。
【0171】属性情報指定部2320は、文書構成要素
の属性情報を指定するものであり、属性値の参照のとき
は属性名を指定し、属性値の変更のときは属性名及び属
性値を指定する。
【0172】出力処理部2330は、ファイル位置情報
保持部2310に保持されている文書構成要素のファイ
ル内の位置情報と、属性情報指定部2320から指定さ
れる属性情報とに基づいて出力処理を実施する。ここ
で、属性値の参照のときは、該当する文書構成要素の属
性名を持つ属性の属性値を出力し、一方、属性値の変更
のときは、該当する文書構成要素の属性名を持つ属性
を、指定された属性値に変更して出力する。
【0173】なおここでは構造化文書は、図29(a)
に示す様に各文書構成要素をノードとする木構造を持っ
ているが、ファイル上では、図29(b)に示す様に、
決められた規則に従って各文書構成要素は1列に並んで
いる。また文書構成要素内の属性名と属性値の対も1列
に並んでいるとする。
【0174】図28に示した装置も、図2に示した第1
の実施例のハードウェア構成で実現することができる。
ここで図28に示した機能ブロック図の構成要素と図2
に示したブロック図の構成要素との対応関係について説
明する。図28に示したファイル位置情報保持部231
0は図2に示した主メモリ20に対応し、図28に示し
た属性指定部2320及び出力処理部2330は共に図
2に示したCPU210に対応している。他の構成要素
については第1の実施例と同様である。
【0175】この第5の実施例も、基本的には第1の実
施例と同様である。第1の実施例と異なるのは、構造化
文書中から、文書構造パターンに一致する構造を抽出
し、この抽出した構造に対して、属性の参照又は変更の
処理を施すという点である。
【0176】なおこの第5の実施例においては、照合部
80による文書構造パターンと再編成構造化文書との照
合処理までは、第1の実施例で説明した処理と同様なの
で、ここではその説明を省略し、属性の参照又は変更処
理について説明する。
【0177】次に、文書処理装置の属性の参照又は変更
処理について、図30及び図31を参照して説明する。
図30は属性の参照処理動作のフローチャートを示し、
図31は属性の変更処理動作のフローチャートを示して
いる。
【0178】最初に属性の参照処理について説明する。
図30に示すように、出力処理部2330は、ファイル
位置情報保持部2310から属性結果(ファイル位置)
を1つ取り出し(ステップ2501)、文書ファイルの
「読み出し位置」を読み出した照合結果に設定すると共
に(ステップ2502)、その読み出し位置に存在する
文書構成要素内から属性を1つ読み込む(ステップ25
03)。
【0179】次に出力処理部2330は、その属性名は
属性情報指定部2320から指定された属性名と同じで
あるか否かを判断する(ステップ2504)。
【0180】ここで、同一の場合はその属性値を出力用
のファイルに書き出し(ステップ2505)、その後、
属性は終りか否かを判断する(ステップ2506)。
【0181】ここで、終りでない場合は、上記ステップ
2503に戻りこのステップ以降を実行する。すなわち
1つの文書構成要素内に存在する全ての属性についての
属性の参照の処理を実施する。
【0182】ステップ2506において属性が終りの場
合は、照合結果は終りか、つまりファイル位置情報保持
部2310に保持されている全ての照合結果について処
理したか否かを判断する(ステップ2507)。
【0183】ここで、未処理の照合結果がある場合には
上記ステップ2501に戻りこのステップ以降を実行
し、一方、全て処理した場合は属性の参照処理を終了す
る。
【0184】なおステップ2504において指定された
属性名でない場合は何もしないでステップ2506に進
む。
【0185】次に属性の変更処理について説明する。図
31に示す様に、出力処理部2330は、文書ファイル
の「読み出し位置」を先頭に設定すると共に(ステップ
2601)、ファイル位置情報保持部2310から照合
結果(ファイル位置)を1つ取り出す(ステップ260
2)。次に、文書ファイルにおける照合結果の位置まで
の部分をそのまま出力用のファイルに書き出す(ステッ
プ2603)。
【0186】続いて、文書ファイルの「読み出し位置」
を照合結果に設定すると共に(ステップ2604)、そ
の読み出し位置に存在する文書構成要素内から属性を1
つ読み込む(ステップ2605)。
【0187】そして、その属性名は属性情報指定部23
20から指定された属性名と同じであるか否かを判断す
る(ステップ2606)。ここで、同一の場合は属性名
と指定された属性値とを出力用のファイルに書き出し
(ステップ2607)、同一でない場合は、属性名と読
み込んだ属性値とを出力用のファイルに書き出す(ステ
ップ2608)。
【0188】ステップ2607あるいはステップ260
8を終了したら、属性は終りか否かを判断する(ステッ
プ2609)。ここで、終りでない場合は、上記ステッ
プ2605に戻りこのステップ以降を実行する。すなわ
ち1つの文書構成要素内に存在する全ての属性について
属性の変更処理を実施する。
【0189】ステップ2609において属性が終りの場
合は、照合結果は終りか、つまりファイル位置情報保持
部2310に保持されている全ての照合結果について処
理したか否かを判断する(ステップ2610)。
【0190】ここで、未処理の照合結果がある場合には
上記ステップ2602に戻りこのステップ以降を実行
し、一方、全て処理した場合は、文書ファイルの最後ま
でをそのまま出力用のファイルに書き出す(ステップ2
611)。
【0191】この第5の実施例においては、属性の参照
により取り出された属性は、外部の汎用的な演算手段を
用いることにより加工することができる。その加工結果
を属性情報指定部2320から属性情報として設定する
ことにより、文書内に付加することができる。
【0192】以上説明したように第5の実施例によれ
ば、パターン記述情報と、属性名か属性名及び属性値を
設定することにより、構造化文書内のオブジェクト間の
関係を利用したパターン、つまり基準となる階層構造の
パターンとのパターンマッチングを実施し、マッチした
部分(文書構成要素)の属性の参照又は変更操作を実行
するようにしたので、属性の参照又は変更の処理を自動
化することができる。またこのとき、従来の如く予めス
タイルを設定しておく必要がないので、ユーザの作業量
を軽減させることができる。
【0193】また特定部分の属性に、他の部分の属性値
を元にした演算結果を設定するようなことも可能とな
る。
【0194】
【発明の効果】以上説明したように、請求項1に係る発
明によれば、解釈手段が、基準となる複数の文書構成要
素の接続関係を解釈し、該解釈した接続関係と前記文書
構成要素とを含む文書構造パターンを生成すると、照合
手段が、解釈手段によって生成された文書構造パターン
と処理対象の構造化文書とを照合し、さらに、出力処理
手段が、その照合により文書構造パターンと一致する文
書構成要素を処理対象の構造化文書から抽出して出力す
るようにしているので、構造化文書に対する指定された
階層構造パターンに従った文書構成要素の検出処理を行
うことができる利点がある。
【0195】請求項2に係る発明によれば、出力処理手
段は、照合手段による照合により文書構造パターンと一
致した文書構成要素に対して、指定手段により指定され
た挿入、置換、削除のうちのいずれか一つの処理を施し
たて出力するようにしているので、構造化文書に対する
指定された階層構造パターンに従った文書構成要素に対
して、挿入、置換、削除などの処理を自動的に実行する
ことができることとなり、構造化文書のバッチ処理が可
能となる。
【0196】請求項3に係る発明によれば、出力処理手
段は、指定手段により削除処理が指定されると、蓄積手
段に蓄積されている、照合手段による照合により一致し
た文書構成要素の親である文書構成要素から、蓄積手段
に蓄積されている照合手段による照合に一致した文書構
成要素に関する情報を取り除くと共に、当該親である文
書構成要素から削除されない、当該親の文書構成要素の
子供である文書構成要素を出力するようにしているの
で、削除すべき文書構成要素の親の文書構成要素の内容
を自動的に変更することができることとなり、構造化分
祖に対する編集操作を効率良く行うことができるという
利点がある。
【0197】請求項4に係る発明では、解釈手段が、基
準となる複数の文書構成要素の接続関係を解釈し、該解
釈した接続関係と前記文書構成要素とを含む文書構造パ
ターンを生成すると、照合手段が、解釈手段が生成した
文書構造パターンと格納手段に格納されているファイル
内の構造化文書とを照合し、更に、出力処理手段が、照
合手段による照合結果に基づいて、文書構造パターンと
一致する文書構成要素を格納手段に格納されているファ
イル内の構造化文書から抽出して出力するようにしてい
るでの、複数の構造化文書から、指定された階層構造に
従った文書構成要素を検索し出力することができるとい
う利点がる。
【0198】請求項5に係る発明によれば、照合手段
が、格納手段に格納されている複数ファイルを対象とし
て、解釈手段が生成した文書構造パターンとの照合を行
い、出力処理手段が、照合手段による照合結果に基づい
て、文書構造パターンと一致する文書構成要素を複数の
構造化文書から抽出して出力するようにしているので、
複数のファイルそれぞれに複数の構造化文書が存在して
いる場合であっても、複数のファイルおよび複数の構造
化文書に跨って、指定された階層構造に従った文書構成
要素を検出し出力することができることとなり、複数の
文書に対する検索処理を高速に実行することができると
いう利点がある。
【0199】請求項6に係る発明によれば、格納手段
が、ソース側の構造化文書を保存したファイルと、ター
ゲット側構造化文書を保存したファイルとをそれぞれ複
数格納し、照合手段が、ソース側の構造化文書を保存し
た複数のファイルと、ターゲット側構造化文書を保存し
た複数のファイルとを対象として、解釈手段が生成した
文書構造パターンとの照合を行い、更に、出力処理手段
が、照合手段による照合結果に基づいて、文書構造パタ
ーンと一致する文書構成要素を複数の構造化文書から抽
出するとともに、ターゲット側から抽出された文書構成
要素に、該文書構成要素に対応するソース側から抽出さ
れた文書構成要素を挿入して出力するようにしているの
で、ターゲット側の複数のファイルそれぞれに保存され
ている複数の構造化文書から抽出された文書構成要素に
対する、ソース側の複数のファイルそれぞれに保存され
ている複数の構造化文書から抽出された文書構成要素の
挿入を一度に行うことができ、よって文書の編集処理を
迅速に行うことができるという利点がある。
【0200】請求項7に係る発明によれば、出力処理手
段が、指定された属性に関する情報に基づいて、照合手
段による照合結果に基づいて特定される文書構造パター
ンと一致する文書構成要素に対する属性の参照又は変更
の操作を行うようにしているので、構造化文書から、指
定された階層構造に従った文書構成要素を検索し、この
検索した文書構成要素に対する参照又は変更の操作を実
施することができることとなり、構造化文書の文書構成
要素の属性に対する操作を容易に実施することができる
という利点がある。また、請求項8に係る発明は、請求
項1に係る発明と同様の作用効果を有し、請求項9に係
る発明は、請求項4に係る発明と同様の作用効果を有す
る。
【図面の簡単な説明】
【図1】本発明に係る文書処理装置の第1の実施例を示
す機能ブロック図。
【図2】図1に示した実施例の装置を実現するためのハ
ードウェア構成を示すブロック図。
【図3】第1の実施例における解釈部によるパターン記
述の解釈処理を説明するための図。
【図4】第1の実施例における解釈部の解釈処理動作を
示すフローチャート。
【図5】第1の実施例における解釈部によるパターン記
述の解釈処理過程を説明するための図。
【図6】第1の実施例における解釈部によるパターン記
述の解釈処理過程を説明するための図。
【図7】第1の実施例における再編成部による構造化文
書の再編成処理を説明するための図。
【図8】第1の実施例における照合部の照合処理動作を
示すフローチャート。
【図9】第1の実施例における照合部による文書構造パ
ターンと再編成構造化文書との照合処理を説明するため
の図。
【図10】本発明に係る文書処理装置の第2の実施例を
示す機能ブロック図。
【図11】第2の実施例における解釈部によるパターン
記述の解釈処理を説明するための図。
【図12】第2の実施例における再編成部による構造化
文書の再編成処理を説明するための図。
【図13】第2の実施例における照合部による文書構造
パターンと再編成構造化文書との照合処理を説明するた
めの図。
【図14】第2の実施例における命令処理部の解釈処理
を説明するための図。
【図15】第2の実施例における出力処理部の出力処理
を説明するための図。
【図16】本発明に係る文書処理装置の第3の実施例を
示す機能ブロック図。
【図17】第3実施例の削除情報の構造の一例を示す
図。
【図18】第3実施例における削除情報作成処理を示す
フローチャート。
【図19】第3実施例における出力処理部による出力処
理動作を示すフローチャート。
【図20】第3実施例における出力処理部による出力処
理動作を示すサブルーチン。
【図21】本発明に係る文書処理装置の第4の実施例を
示す機能ブロック図。
【図22】第4実施例における構造化文書を説明するた
めの図。
【図23】第4実施例における抽出点認識処理動作を示
すフローチャート。
【図24】第4の実施例における照合部による文書構造
パターンと再編成構造化文書との照合処理を説明するた
めの図。
【図25】第4の実施例における出力処理部の出力処理
動作を示すフローチャート。
【図26】第4の実施例における出力処理部の出力処理
を説明するための図。
【図27】第4の実施例における出力処理部の出力処理
を説明するための図。
【図28】本発明に係る文書処理装置の第5の実施例を
示す機能ブロック図。
【図29】第5実施例における構造化文書を説明するた
めの図。
【図30】第5実施例における文書構成要素の属性の参
照処理動作を示すフローチャート。
【図31】第5実施例における文書構成要素の属性の変
更処理動作を示すフローチャート。
【符号の説明】
10、1610…メモリ、20、1611…パターン記
述情報、30、1620…解釈部、40、1612…文
書構造パターン、50、1630…再編成部、60…文
書ファイル、70…再編成構造化文書、80、1660
…照合部、90、1030、1690、2330…出力
処理部、210…中央処理装置、220…主メモリ、2
30…ディスク、240…ディスプレイ、250…入力
装置、1010…適合ノード蓄積部、1020…命令処
理部、1040…削除情報蓄積部、1613…ソース再
編成構造化文書群、1614…ターゲット再編成構造化
文書群、1640…ソース文書ファイル群、1650…
ターゲット文書ファイル群、1661…複数ファイル抽
出点認識部、1662…複数ファイル挿入点認識部、1
670…複数抽出点蓄積部、1680…複数挿入点蓄積
部、1691…複数ファイル部分構造抽出挿入部、17
00…抽出挿入関係ルール指定部、2310…ファイル
位置情報保持部、2320…属性情報指定部。
フロントページの続き (72)発明者 松本 天 神奈川県川崎市高津区坂戸3丁目2番1 号 KSP R&D ビジネスパークビ ル 富士ゼロックス株式会社内 (56)参考文献 特開 平5−135054(JP,A) 特開 平3−62169(JP,A) 特開 平4−84271(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/26 G06F 17/30

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数の文書構成要素を有する構造化文書
    に対する処理を行う文書処理装置において、 基準となる複数の文書構成要素の接続関係を解釈し、該
    解釈した接続関係と前記文書構成要素とを含む文書構造
    パターンを生成する解釈手段と、 前記解釈手段が生成した文書構造パターンと、処理対象
    の構造化文書とを照合する照合手段と、 前記照合手段による照合結果に基づいて、前記文書構造
    パターンと一致する文書構成要素を前記処理対象の構造
    化文書から抽出して出力する出力処理手段とを具備した
    ことを特徴とする文書処理装置。
  2. 【請求項2】 文書構成要素に対する挿入、置換、削除
    のうちのいずれか一つの処理を指定する指定手段を更に
    具備し、 前記出力処理手段は、 前記照合手段による照合結果に基づいて、前記文書構造
    パターンと一致する文書構成要素を前記処理対象の構造
    化文書から抽出し、該抽出した文書構成要素に対して、
    前記指定手段により指定された処理を施して出力するこ
    とを特徴とする請求項1記載の文書処理装置。
  3. 【請求項3】 文書構成要素に対する削除処理を指定す
    る指定手段と、 前記照合手段による照合結果に基づいて特定される前記
    文書構造パターンと一致する文書構成要素と、該文書構
    成要素の親である文書構成要素とを対応付けして蓄積す
    る蓄積手段とを更に具備し、 前記出力処理手段は、 前記指定手段により削除処理が指定された場合に、前記
    蓄積手段に蓄積されている前記親である文書構成要素か
    ら、前記蓄積手段に蓄積されている前記文書構造パター
    ンと一致する文書構成要素に関する情報を取り除くと共
    に、前記親である文書構成要素から、当該親である文書
    構成要素から削除されない当該親の構成要素の子供であ
    る文書構成要素を抽出し出力することを特徴とする請求
    項1記載の文書処理装置。
  4. 【請求項4】 複数の文書構成要素を有する構造化文書
    に対する処理を行う文書処理装置において、 複数の文書構成要素を有する構造化文書を保存したファ
    イルを格納する格納手段と、 基準となる複数の文書構成要素の接続関係を解釈し、該
    解釈した接続関係と前記文書構成要素とを含む文書構造
    パターンを生成する解釈手段と、 前記解釈手段が生成した文書構造パターンと、前記格納
    手段に格納されているファイル内の構造化文書とを照合
    する照合手段と、 前記照合手段による照合結果に基づいて、前記文書構造
    パターンと一致する文書構成要素を前記格納手段に格納
    されているファイル内の構造化文書から抽出して出力す
    る出力処理手段とを具備したことを特徴とする文書処理
    装置。
  5. 【請求項5】 前記照合手段は、 前記格納手段に格納されている複数ファイルを対象とし
    て、前記解釈手段が生成した文書構造パターンとの前記
    照合を行い、 前記出力処理手段は、 前記照合手段による照合結果に基づいて、前記文書構造
    パターンと一致する文書構成要素を複数の構造化文書か
    ら抽出して出力することを特徴とする請求項4記載の文
    書処理装置。
  6. 【請求項6】 前記格納手段は、 ソース側の構造化文書を保存したファイルと、ターゲッ
    ト側構造化文書を保存したファイルとをそれぞれ複数格
    納し、 前記照合手段は、 前記ソース側の構造化文書を保存した複数のファイル
    と、前記ターゲット側構造化文書を保存した複数のファ
    イルとを対象として、前記解釈手段が生成した文書構造
    パターンとの前記照合を行い、 前記出力処理手段は、 前記照合手段による照合結果に基づいて、前記文書構造
    パターンと一致する文書構成要素を複数の構造化文書か
    ら抽出するとともに、前記ターゲット側から抽出された
    文書構成要素に、該文書構成要素に対応する前記ソース
    側から抽出された文書構成要素を挿入して出力すること
    を特徴とする請求項4記載の文書処理装置。
  7. 【請求項7】 前記出力処理手段は、 指定された属性に関する情報に基づいて、前記照合手段
    による照合結果に基づいて特定される前記文書構造パタ
    ーンと一致する文書構成要素に対する属性の参照又は変
    更の操作を行うことを特徴とする請求項1乃至6のいず
    れかに記載の文書処理装置。
  8. 【請求項8】 複数の文書構成要素を有する構造化文書
    に対する処理を行う文書処理装置が実行する文書処理方
    法であって、 基準となる複数の文書構成要素の接続関係を解釈し、該
    解釈した接続関係と前記文書構成要素とを含む文書構造
    パターンを生成するステップと、 前記文書構造パターンと、処理対象の構造化文書とを照
    合するステップと、 前記照合の結果に基づいて、前記文書構造パターンと一
    致する文書構成要素を前記処理対象の構造化文書から抽
    出するステップとを含むことを特徴とする文書処理方
    法。
  9. 【請求項9】 複数の文書構成要素を有する構造化文書
    に対する処理を行う文書処理装置が実行する文書処理方
    法であって、 複数の文書構成要素を有する構造化文書を保存したファ
    イルを格納するステップと、 基準となる複数の文書構成要素の接続関係を解釈し、該
    解釈した接続関係と前記文書構成要素とを含む文書構造
    パターンを生成するステップと、 前記文書構造パターンと、前記格納したファイル内の構
    造化文書とを照合するステップと、 前記照合の結果に基づいて、前記文書構造パターンと一
    致する文書構成要素を前記格納したファイル内の構造化
    文書から抽出するステップとを含むことを特徴とする文
    書処理方法。
JP16476193A 1992-07-03 1993-07-02 文書処理装置及び方法 Expired - Lifetime JP3451660B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16476193A JP3451660B2 (ja) 1992-07-03 1993-07-02 文書処理装置及び方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP17679292 1992-07-03
JP4-176792 1992-07-03
JP5-2855 1993-01-11
JP285593 1993-01-11
JP16476193A JP3451660B2 (ja) 1992-07-03 1993-07-02 文書処理装置及び方法

Publications (2)

Publication Number Publication Date
JPH06259421A JPH06259421A (ja) 1994-09-16
JP3451660B2 true JP3451660B2 (ja) 2003-09-29

Family

ID=27275550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16476193A Expired - Lifetime JP3451660B2 (ja) 1992-07-03 1993-07-02 文書処理装置及び方法

Country Status (1)

Country Link
JP (1) JP3451660B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3715444B2 (ja) * 1998-06-30 2005-11-09 株式会社東芝 構造化文書保存方法及び構造化文書保存装置
US7139971B1 (en) 1999-07-21 2006-11-21 Nec Corporation Method of searching for and retrieving information from structure documents

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0362169A (ja) * 1989-07-31 1991-03-18 Agency Of Ind Science & Technol 文書検索方法及び文書検索装置
JP2507650B2 (ja) * 1990-02-27 1996-06-12 三菱電機株式会社 ファイル入出力装置
JP2885487B2 (ja) * 1990-07-26 1999-04-26 日本電信電話株式会社 文書内情報検索装置
JPH05135054A (ja) * 1991-11-13 1993-06-01 Hitachi Ltd 文書処理方法

Also Published As

Publication number Publication date
JPH06259421A (ja) 1994-09-16

Similar Documents

Publication Publication Date Title
US6466240B1 (en) Method for visually writing programs or scripts that transform structured text presented as a tree
EP0361737B1 (en) Methods of processing hierarchical data
US7673235B2 (en) Method and apparatus for utilizing an object model to manage document parts for use in an electronic document
JP3123025B2 (ja) データ処理システムにおける切貼りフィルタ
US8434014B1 (en) System and method for editing information
US5355472A (en) System for substituting tags for non-editable data sets in hypertext documents and updating web files containing links between data sets corresponding to changes made to the tags
JP4141556B2 (ja) 構造化文書管理方法及びその実施装置並びにその処理プログラムを記録した媒体
Pike The text editor sam
US5293473A (en) System and method for editing a structured document to modify emphasis characteristics, including emphasis menu feature
US20050028081A1 (en) System and method for facilitating the design of a website
JPH0683772A (ja) 対話形ソフトウエアアプリケーションにおける言語翻訳のための方法およびシステム
CA2048039A1 (en) Data processing system and method for generating a representation for and random access rendering of electronic documents
JP3028738B2 (ja) 文書共通論理情報編集装置
JP3205406B2 (ja) 参照対象変数決定処理方法および翻訳処理システム
CN114818680A (zh) 一种网页正文的识别方法、装置及相关设备
US7073122B1 (en) Method and apparatus for extracting structured data from HTML pages
US5765177A (en) Document processing method and apparatus for searching documents having a graph based document logic structure
US5907851A (en) Editing nested documents by appointing a portion for insertion with an alternative substitute
JP3451660B2 (ja) 文書処理装置及び方法
CA2422490C (en) Method and apparatus for extracting structured data from html pages
EP1435568A2 (en) Common interface for ink trees
US7613709B2 (en) System and method for editing operations of a text object model
JPH0660067A (ja) 文書処理装置
Waterman Pas-ii reference manual
Hazel Development of the ZED text editor

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080718

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090718

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100718

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130718

Year of fee payment: 10

EXPY Cancellation because of completion of term