JPH0756908A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH0756908A
JPH0756908A JP5218142A JP21814293A JPH0756908A JP H0756908 A JPH0756908 A JP H0756908A JP 5218142 A JP5218142 A JP 5218142A JP 21814293 A JP21814293 A JP 21814293A JP H0756908 A JPH0756908 A JP H0756908A
Authority
JP
Japan
Prior art keywords
document
template
logical
held
chapter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5218142A
Other languages
English (en)
Inventor
Makoto Murata
真 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP5218142A priority Critical patent/JPH0756908A/ja
Publication of JPH0756908A publication Critical patent/JPH0756908A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 効率よく構造パターンマッチを行なうことの
できる文書処理装置を提供する。 【構成】 論理構造保持部1は、文書の論理構造を保持
する。テンプレート保持部2は、文書のテンプレートを
保持する。論理構造保持部1に保持されている文書の論
理構造は、テンプレート保持部2に保持されているテン
プレートに基づいた構造を有している。構造パターン保
持部3は、構造パターンマッチを行なう構造パターンを
保持している。構造パターンマッチ処理部4は、テンプ
レート保持部2に保持されている文書のテンプレート
と、構造パターン保持部3に保持されている構造パター
ンに基づいて、論理構造保持部1に保持されている文書
の論理構造のうちから、探索処理を行なう範囲を限定す
る。そして、限定された範囲内で、文書の論理構造のう
ちから、構造パターンに適合する部分を探索する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、構造化文書の検索、自
動生成を行なう文書処理装置に関するものである。
【0002】
【従来の技術】構造化文書を扱う文書処理装置におい
て、文書の効率的な作成を支援するため、複数の文書を
合成するなど、プログラムによって、新たな構造化文書
を自動生成する文書自動生成処理や、図などの構造化文
書の部品を検索し、部品単位での再利用を行なう文書部
品検索処理などが行なえる。このような文書自動生成処
理や文書部品検索処理では、構造パターンマッチが有効
である。ここで、構造パターンマッチとは、指定された
構造パターンに適合する文書部品を、文書構造の中から
探すことをいう。文書自動生成処理では、文書から切り
出す部品の位置、文書中に部品を挿入する位置を構造パ
ターンによって指定する。文書部品検索では、文書部品
の検索を構造パターンによって指示する。
【0003】構造パターンとは、「文書論理構造中の部
品に対する条件」と、「部品の接続関係にある条件」を
組合わせたものである。例えば、「図表見出しに文字列
『インストール』が表れる図」は、構造パターンの1例
である。文書部品Aがこの構造パターンに適合するの
は、 1.文書部品Aは図である。 2.ある文書部品Bがあって、 2−1.文書部品Bは文字列「インストール」を含む図
表見出しである。 2−2.文書部品Bは文書構造中で、文書部品Aの直下
にある。 という条件が成り立つときである。この例では、「文書
論理構造中の部品に対する条件」が1.と2−1.の条
件であり、「部品の接続関係にある条件」が2−2.の
条件である。
【0004】構造パターンマッチを用いている従来の文
書処理システムとしては、例えば、DRAFT INT
ERNATIONAL STANDARD ISO/I
ECDIS 10179,“Information
technology−Text and offic
e systems−Document Style
Semantics and Specificati
on Language(DSSSL)がある。このD
SSSLでは、構造パターンマッチのことをロケーショ
ンモデルと呼んでいる。
【0005】また、情報処理学会第42回(平成3年前
期)全国大会,6Q−4,「文書処理統合環境DIeT
における文書データ処理言語」に記載されているDPL
(DIeT Processing Languag
e)においても、文書構造のパターンマッチを取り入れ
ている。
【0006】これらの文献においては、構造パターンマ
ッチをいかにして行なうかは示されていない。例えば一
つの方法として、文書構造を深さ優先に構造パターンの
同じものを探索することにより、文書構造のパターンマ
ッチが行なえることは容易に考えつく。しかし、この方
法では、検索に時間がかかるという問題がある。
【0007】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、効率よく構造パターンマッ
チを行なうことのできる文書処理装置を提供することを
目的とするものである。
【0008】
【課題を解決するための手段】本発明は、構造化文書の
検索、自動生成を行なう文書処理装置において、文書の
論理構造のテンプレートを保持するテンプレート保持部
と、文書の論理構造を保持する論理構造保持部と、構造
パターンを保持する構造パターン保持部と、前記論理構
造保持部に保持されている文書の論理構造のうちから前
記構造パターン保持部に保持されている構造パターンに
適合している部分を探索する処理を行なう構造パターン
マッチ処理部を有し、該構造パターンマッチ処理部は、
前記テンプレート保持部に保持されるテンプレートを利
用して探索処理の範囲を論理構造の一部に限定し、限定
した範囲内で探索処理を行なうことを特徴とするもので
ある。
【0009】
【作用】論理構造保持部に保持される文書の論理構造
は、テンプレート保持部に保持されるテンプレートに従
っている。構造パターンマッチ処理部は、構造パターン
保持部に保持される構造パターンと、テンプレート保持
部に保持されているテンプレートを比較することによっ
て探索の範囲を一部に限定することができる。この限定
された探索の範囲内で、論理構造保持部に保持される文
書の論理構造に対して構造パターンマッチを行なう。こ
れにより、高速に構造パターンマッチを行なうことがで
きる。
【0010】
【実施例】図1は、本発明の文書処理装置の一実施例を
示すブロック図である。図中、1は論理構造保持部、2
はテンプレート保持部、3は構造パターン保持部、4は
構造パターンマッチ処理部である。論理構造保持部1
は、文書の論理構造を保持する。テンプレート保持部2
は、文書のテンプレートを保持する。論理構造保持部1
に保持されている文書の論理構造は、テンプレート保持
部2に保持されているテンプレートに基づいた構造を有
している。構造パターン保持部3は、構造パターンマッ
チを行なう構造パターンを保持している。構造パターン
マッチ処理部4は、論理構造保持部1に保持されている
文書の論理構造のうちから、構造パターン保持部3に保
持されている構造パターンに適合している部分を探索す
る。このとき、テンプレート保持部2に保持されている
文書のテンプレートを用いて、文書の論理構造のうちか
ら、探索処理を行なう範囲を限定し、限定された範囲内
で探索処理を行なう。
【0011】図2は、構造パターンマッチ処理部におけ
る探索処理の流れを説明するためのフローチャートであ
る。まず、ステップ1において、テンプレート保持部2
に保持されているテンプレートと、構造パターン保持部
3に保持されている構造パターンから、文書の論理構造
のうちから、構造パターンマッチを行なう範囲を限定す
る。
【0012】次に、ステップ2において、論理構造保持
部1に保持されている文書の論理構造全体のうち、ステ
ップ1で決定した限定された範囲についてのみ、構造パ
ターンマッチを行なう。これにより、部分的に構造パタ
ーンマッチを行なえばよいので、検索処理を高速化する
ことができる。
【0013】構造パターンマッチ処理の具体例について
述べる。図3は、文書テンプレートの一例の説明図であ
る。文書テンプレートの一例として、次のようなものを
考える。 論理根::=梗概 章+ 文献リスト 付録 …(A) 梗概::=段落 …(B) 章::=章見出し 段落+ …(C) 文献リスト::=文献名+ …(D) 付録::=図+ …(E) ここで、“::=”は、右辺の項目の並びによって左辺
が定義されていることを示し、右辺の項目の後ろの
‘+’は、その項目の1個以上の繰り返しを示してい
る。
【0014】論理根は、文書を示す。文書は、式(A)
のように定義され、1個の梗概、章の1個以上の繰り返
し、1個の文献リスト、1個の付録から構成されてい
る。梗概は、式(B)のように定義され、1個の段落か
ら構成されている。章は、式(C)のように定義され、
1個の章見出しと、段落の1個以上の繰り返しから構成
されている。文献リストは、式(D)のように定義さ
れ、文献名の1個以上の繰り返しから構成されている。
付録は、式(E)のように定義され、図の1個以上の繰
り返しから構成されている。この文書の構造を図3に示
している。
【0015】ここで、構造パターンとして、「図を持つ
章」を考える。この構造パターンは、次の条件の組合わ
せである。 1.文書部品Aは章である。 2.ある文書部品Bがあって、 2−1.文書部品Bは図である。 2−2.文書部品Bは文書構造中で文書部品Aに(直接
または間接に)従属する。
【0016】構造パターンマッチ処理部4は、図2のス
テップ1において、文書テンプレートと構造パターンか
ら次のように範囲の限定を行なう。まず、上述の式
(A)乃至式(E)から、文書に出現し得る部品の種類
は、論理根、章、文献リスト、付録、段落、章見出し、
文献名、図である。上述の条件1.「文書部品Aは章で
ある。」を満たすのは、種類が章である部品のみであ
る。また、上述の条件2−1.「文書部品Bは図であ
る。」を満たすのは、種類が図である部品のみである。
さらに、上述の条件2−2.「文書部品Bは文書構造中
で文書部品Aに(直接または間接に)従属する」を満た
すのは、次の組合わせに限られる。 A B 論理根 梗概 論理根 章 論理根 文献リスト 論理根 付録 梗概 段落 論理根 段落 章 章見出し 章 段落 論理根 章見出し 論理根 段落 文献リスト 文献名 論理根 文献名 付録 図 論理根 図
【0017】この組み合わせを求める方法としては、例
えば、推移的閉包の計算アルゴリズムとして広く知られ
ているものを用いることができる。推移的閉包の計算ア
ルゴリズムについては、例えば、Alfred V.A
ho,John E.Hopcroft,Jeffre
y D.Ullman,“Data Structur
es and Algorithms”,Addiso
n Wesley等に記載されている。
【0018】上述のように、文書部品Aの種類が章で、
文書部品Aに(直接または間接に)従属する文書部品B
であって、文書部品Bの種類が図であるものは存在しな
い。すなわち、上述の条件1.,2−1.,2−2を同
時に満たす文書部品Aと文書部品Bの組み合わせはない
ことがわかる。従って、この例では、実際の文書の論理
構造を調べることなく、構造パターンに適合する部分構
造はないことがわかる。すなわち、構造パターンマッチ
処理部4は、図2のステップ2でパターンマッチを行な
う必要はない。
【0019】文書テンプレート中の式(C)が次のもの
で置き換えられたとしよう。 章::=章見出し (段落 | 図)+・・・(C’) ここで、(A|B)は、AまたはBの選択を示してい
る。この式(C’)は、章は1個の章見出しと、段落ま
たは図の1個以上の繰り返しからなることを表してい
る。図4は、文書テンプレートの別の例の説明図であ
る。図4では、ある1つの章が、1つの章見出しと1つ
の段落と1つの図を有する例を示している。
【0020】構造パターンマッチ処理部4は、図2のス
テップ1において、文書テンプレートと構造パターンか
ら次のように範囲の限定を行なう。この例においても、
上述の式(A),(B),(C’),(D),(E)か
ら、文書に出現し得る部品の種類は、論理根、章、文献
リスト、付録、段落、章見出し、文献名、図である。上
述の条件1.「文書部品Aは章である。」を満たすの
は、種類が章である部品のみである。また、上述の条件
2−1.「文書部品Bは図である。」を満たすのは、種
類が図である部品のみである。さらに、上述の条件2−
2.「文書部品Bは文書構造中で文書部品Aに(直接ま
たは間接に)従属する」を満たすのは、次の組合わせに
限られる。 文書部品A 文書部品B 論理根 梗概 論理根 章 論理根 文献リスト 論理根 付録 梗概 段落 論理根 段落 章 章見出し 章 段落 章 図 論理根 章見出し 論理根 段落 論理根 図 文献リスト 文献名 論理根 文献名 付録 図 論理根 図
【0021】上述のように、この例の場合には、文書部
品Aの種類が章で、文書部品Aに(直接または間接に)
従属する文書部品Bであって、文書部品Bの種類が図で
あることがあり得ることがわかる。また、この組み合わ
せの結果から、章は梗概や文献リスト、付録の下位には
ないことがわかる。従って、この例では梗概や文献リス
ト、付録の中は調べる必要はなく、章の中の図を探せば
良いことがわかる。すなわち、図2のステップ2での構
造パターンマッチは、章の中に対してのみ行なえば良
く、梗概や文献リスト、付録の中に対しては行なわな
い。
【0022】上述の2つの具体例のように、文書テンプ
レートを用いて構造パターンマッチを行なう範囲を限定
してから、文書の論理構造を用いて構造パターンマッチ
を行なうので、マッチングを行なう範囲を限定し、ある
いは、先の例のように、構造パターンマッチを行なわな
くてよい場合も検出することができる。
【0023】これらの具体例は、簡単な構造パターンお
よび文書テンプレートについて示したが、もっと複雑な
構造パターンや文書テンプレートであっても適用可能で
ある。例えば、構造パターンとして、「図を持つ章であ
って、章題に『序文』という文字を有するもの」といっ
た、より複雑な構造パターンについても処理可能であ
る。
【0024】上述の文書テンプレートは、式により示し
たが、これは便宜上、式により表現しただけであり、他
の表現方式を用いた文書テンプレートであっても、もち
ろんよい。
【0025】
【発明の効果】以上の説明から明らかなように、本発明
によれば、文書テンプレートを用いて構造パターンマッ
チを行なう範囲を限定し、限定された範囲内で構造パタ
ーンマッチの処理を行なうので、構造パターンマッチの
処理を効率良く、高速に行なうことができるという効果
がある。
【図面の簡単な説明】
【図1】 本発明の文書処理装置の一実施例を示すブロ
ック図である。
【図2】 構造パターンマッチ処理部における探索処理
の流れを説明するためのフローチャートである。
【図3】 文書テンプレートの一例の説明図である。
【図4】 文書テンプレートの別の例の説明図である。
【符号の説明】
1 論理構造保持部、2 テンプレート保持部、3 構
造パターン保持部、4構造パターンマッチ処理部。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9194−5L G06F 15/40 340

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 構造化文書の検索、自動生成を行なう文
    書処理装置において、文書の論理構造のテンプレートを
    保持するテンプレート保持部と、文書の論理構造を保持
    する論理構造保持部と、構造パターンを保持する構造パ
    ターン保持部と、前記論理構造保持部に保持されている
    文書の論理構造のうちから前記構造パターン保持部に保
    持されている構造パターンに適合している部分を探索す
    る処理を行なう構造パターンマッチ処理部を有し、該構
    造パターンマッチ処理部は、前記テンプレート保持部に
    保持されるテンプレートを利用して探索処理の範囲を論
    理構造の一部に限定し、限定した範囲内で探索処理を行
    なうことを特徴とする文書処理装置。
JP5218142A 1993-08-09 1993-08-09 文書処理装置 Pending JPH0756908A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5218142A JPH0756908A (ja) 1993-08-09 1993-08-09 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5218142A JPH0756908A (ja) 1993-08-09 1993-08-09 文書処理装置

Publications (1)

Publication Number Publication Date
JPH0756908A true JPH0756908A (ja) 1995-03-03

Family

ID=16715305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5218142A Pending JPH0756908A (ja) 1993-08-09 1993-08-09 文書処理装置

Country Status (1)

Country Link
JP (1) JPH0756908A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187725A (ja) * 1996-12-26 1998-07-21 Nec Corp 文書編集方式
US6853992B2 (en) 1999-12-14 2005-02-08 Fujitsu Limited Structured-document search apparatus and method, recording medium storing structured-document searching program, and method of creating indexes for searching structured documents
US7139971B1 (en) 1999-07-21 2006-11-21 Nec Corporation Method of searching for and retrieving information from structure documents

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187725A (ja) * 1996-12-26 1998-07-21 Nec Corp 文書編集方式
US7139971B1 (en) 1999-07-21 2006-11-21 Nec Corporation Method of searching for and retrieving information from structure documents
US6853992B2 (en) 1999-12-14 2005-02-08 Fujitsu Limited Structured-document search apparatus and method, recording medium storing structured-document searching program, and method of creating indexes for searching structured documents

Similar Documents

Publication Publication Date Title
JP4413286B2 (ja) エッジデータ構造を統一する方法
US6175830B1 (en) Information management, retrieval and display system and associated method
JP3897494B2 (ja) 画像管理検索装置、画像管理検索方法及び記憶媒体
US9460196B2 (en) Conditional string search
JP4207438B2 (ja) Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム
US7496571B2 (en) Method for performing information-preserving DTD schema embeddings
US20080104016A1 (en) Method and system for comparing data
JPH10105551A (ja) プロセッサを用いて第1グラフの単一化の一部として第1節と第2節を結合する方法
US20100114924A1 (en) Searching The Internet For Common Elements In A Document In Order To Detect Plagiarism
US20040064788A1 (en) System and method for generating source code for an XML application
JPH0756908A (ja) 文書処理装置
JP3292160B2 (ja) Cobol言語のソースプログラムのコンバージョン方法及び装置並びに記録媒体
US20040054677A1 (en) Method for processing text in a computer and a computer
JPH11306187A (ja) カテゴリ付文書の検索結果の提示処理方法およびその装置
JPH0991305A (ja) 情報処理方法及び装置
JPH1115826A (ja) 文書解析装置及び方法
JP2004259210A (ja) 文書検索装置、文書検索方法、文書検索プログラム、及び記憶媒体
JPH02116972A (ja) プログラムデータベースの検索方式
JPH11161666A (ja) ドキュメントデータ検索方法および装置、並びにドキュメント編集装置
JPH05158984A (ja) 文字列抽出装置
JPH07281879A (ja) アプリケーションプログラム編集装置
Yang et al. Dynamic clustering of web search results
JPH07249034A (ja) 文字列抽出処理装置
JPH0744560A (ja) 文書処理装置における論理構造認識処理方式
JPS63140339A (ja) バ−ジヨン識別予約語管理方式