JPH05303567A

JPH05303567A - 文書処理装置

Info

Publication number: JPH05303567A
Application number: JP4132061A
Authority: JP
Inventors: Eisaku Nakatani; 栄作中谷
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 1992-04-24
Filing date: 1992-04-24
Publication date: 1993-11-16

Abstract

(57)【要約】【目的】文書フォーマットの解析や学習を容易に行う
ことができるようにする。【構成】文書処理装置１０は、文書記憶領域２８に記
憶されている文書データの構造を解析する文書解析装置
２４と、文書解析装置２４による解析結果から文書要素
のレイアウト情報を抽出する文書レイアウト情報抽出装
置２５と、文書レイアウト情報抽出装置２５により抽出
したレイアウト情報を学習するための文書レイアウト情
報学習領域２９とを備え、ＣＰＵ１１によって制御され
る文書解析装置２４は、文書記憶領域２８に格納された
文書データを１行ずつ取出して文書データの構造を解析
し、その解析結果から文書レイアウト情報を抽出し、抽
出した情報を文書レイアウト情報学習領域２９に学習デ
ータとして記憶する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ワードプロセッサ等に
用いられる文書処理装置に係り、詳細には、文書書式学
習機能を備えた文書処理装置に関する。

【０００２】

【従来の技術】一般にワードプロセッサ等においては、
文書の書式は一行当りの桁数を設定することにより規定
される。そして、この書式に従って文書が作成され、作
成された文書はプリンタで印刷される。この場合、文字
の表現は、表示あるいは印刷において、ハードウェア
（記憶容量、プリンタ、内蔵フォント、画面解像度等）
に依存する部分が多く、各ワードプロセッサの特徴が出
るところであるが、一般的には文字として、全角、半
角、１／４倍角、横倍角、縦倍角、４倍角が使え、文字
単位あるいは行単位にピッチ指定ができ、下線、文字飾
り、罫線機能を備えたものが多い。また、文章を作成す
る場合、多くの文書処理装置では特定の文字または行に
対して、アンダーラインを引いたり、文字サイズを拡大
することで、その文字または行を強調することができ
る。これらの操作は文字修飾と呼ばれている。また、文
書処理装置においては、作成した文書を印字出力する際
に、所望の書式に設定して出力できるようになってい
る。このような書式の設定には、桁間のピッチ、行間の
ピッチ、１ページの桁数、１ページの行数、文字ポイン
ト等の設定項目にそれぞれ所望の値を入力するあるいは
選択することにより行われている。こうして設定された
書式に基づいて、プリンタ等の印字装置により文書が出
力されるものであるが、この出力に先立って、その設定
された書式でどのような印字出力が得られるかを表示装
置の表示画面上に表示する印刷イメージ表示機能を備え
た日本語ワードプロセッサも知られている。

【０００３】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の文書処理装置にあっては、操作者が自由に文
書フォーマットを設定して文書作成ができるようになっ
ているため、作成された文書が何種類もある場合には、
操作者の個性に応じて文書フォーマット（例えば、「見
出し」、「日付」等の順番、アンダーライン、文字飾り
等の書式情報）が複数混在することになり、見づらくな
るという問題があった。すなわち、各個人の好み、目的
に応じて様々な書式設定が行えるものの、ある人が作成
した文書の書式に合わせて他人が文書を作成しようとす
るときには、その都度書式を変更しなければならず、こ
のような書式決定の変更の繰り返しは多くの労力及び時
間を費やしてしまうことになる。特に、製品の使用書や
複数人の分担で執筆される論文・辞書編集等においては
文書フォーマットに整合性が保たなければならないが、
従来の文書処理装置では、あらかじめ決められている１
段組の文書フォーマット（例えば、情報処理学会誌フォ
ーマット）を２段組の文書フォーマットに変換する程度
のものであったため、これではオリジナルな文書フォー
マットへの変換はできない。また、従来の文書処理装置
の場合、構成要素の順番は変換後のフォーマットの構成
要素の順番通りに入力しなければならず、変換前の文書
にも制約があった。本発明の課題は、文書フォーマット
の解析や学習を容易に行うことができるようにすること
である。

【０００４】

【課題を解決するための手段】本発明の手段は次の通り
である。文書データ記憶手段は、文書データを記憶する
ためのＲＡＭ等である。配置情報解析手段は、文書デー
タ記憶手段に記憶されている文書データの配置情報を解
析する文書解析装置等である。配置情報学習手段は、配
置情報解析手段により解析された配置情報を学習して他
の文書を作成する際の学習データとして出力するもの
で、例えば、ＣＰＵ等により実行され、不揮発性メモリ
等に記憶される。前記配置情報解析手段は、例えば、請
求項２に記載するように、文書データ記憶手段から読出
した文書データを最小ブロックに分割する最小ブロック
分割手段と、最小ブロック分割手段により分割された最
小ブロック毎に文書構成要素（例えば、日付、差出人、
見出し等）及び該ブロック位置情報を抽出する配置情報
抽出手段とにより構成するようにしてもよい。

【０００５】

【作用】本発明の手段の作用は次の通りである。文書デ
ータ記憶手段には、文書データが記憶されている。この
状態において、文書データ記憶手段から文書データが読
出されると、配置情報解析手段により文書データの配置
情報が解析される。そして、配置情報学習手段により解
析された配置情報が学習されて他の文書を作成する際の
学習データとして出力される。従って、他の文書を作成
する際に、学習している配置情報を利用することがで
き、元となる文書と同じレイアウトを持つ文書を容易に
作成することができる。

【０００６】

【実施例】以下、図１〜図１７を参照して実施例を説明
する。図１〜図１７は文書処理装置１０の一実施例を示
す図であり、ワードプロセッサに適用した例である。先
ず、構成を説明する。図２は文書処理装置１０のブロッ
ク図である。この図において、１１は装置全体の制御、
並びに後述する文書最小分割処理、文書レイアウト情報
抽出処理、文書アレンジ情報抽出処理、学習処理、文書
構造解析処理、文書アレンジ変換処理、文書レイアウト
変換処理の制御を行なうＣＰＵであり、ＣＰＵ１１は後
述するＲＯＭ１２に格納されているマイクロプログラム
に従って文書処理装置の各種の動作を制御する。ＣＰＵ
１１には、所定のプログラム及び文字パターン等の固定
データを記憶するＲＯＭ１２と、演算に使用するデータ
や演算結果などを一時的に記憶するＲＡＭ１３と、キー
ボード１４を制御するキーボード制御部１５と、ＯＣＲ
（optical character reader:光学式文字読取装置）１
６を制御するＯＣＲ制御部１７と、入力された画像デー
タ及び配置情報、アレンジ情報を画面表示するＣＲＴ１
８を制御するＣＲＴ制御部１９と、文書ファイルを記憶
するフロッピディスク等の外部記憶装置２０と、外部記
憶装置２０に対してデータの書込み／読出しを制御する
外部記憶制御部２１と、文書を印刷出力するプリンタ２
２を制御するプリンタ制御部２３と、後述する文書記憶
領域２８に記憶されている文書データの構造を解析する
文書解析装置２４と、文書解析装置２４による解析結果
から文書要素のレイアウト情報（配置情報）を抽出する
文書レイアウト情報抽出装置２５と、文書解析装置２４
による解析結果から文書要素のアレンジ情報を抽出する
文書アレンジ情報抽出装置２６と、抽出した情報を学習
した学習データを基に文書データを統一された文書フォ
ーマットに変換する文書フォーマット変換装置２７とが
それぞれ接続されている。

【０００７】ＲＯＭ１２は、システム立ち上げ時のＯＳ
（Operating System）となるＩＰＬプログラム、キーボ
ード１４、ＯＣＲ１６、ＣＲＴ１９、外部記憶装置２０
の入出力制御を行うためのＩＯＣＳ（Input Output Con
trol System）プログラム、キーワードを検索するため
のキーワード辞書、及び文字フォントデータなどを記憶
する固定メモリである。

【０００８】また、ＲＡＭ１３の記憶領域は所定用途毎
に分割して使用され、具体的には、入力された文書デー
タを記憶する文書記憶領域２８、文書レイアウト情報抽
出装置２５により抽出したレイアウト情報（配置情報）
を学習して学習データとして記憶するための文書レイア
ウト情報学習領域２９と、文書アレンジ情報抽出装置２
６により抽出したアレンジ情報を学習して学習データと
して記憶するための文書アレンジ情報学習領域３０と、
演算処理中のデータを一時的に格納するワーク領域３１
を備えている。上記各記憶領域のうち、学習データを記
憶する文書レイアウト情報学習領域２９及び文書アレン
ジ情報学習領域３０は、電源オフ後もその記憶内容を保
持するＥＥＰＲＯＭ等の不揮発性メモリや電源バックア
ップされたＲＡＭが使用される。

【０００９】ＣＰＵ１１は、外部記憶装置２０に記憶さ
れている文書データを読込んでＲＡＭ１３の文書記憶領
域２８に格納する。また、ＣＰＵ１１は上記各装置及び
ＲＡＭ１３を制御して文書フォーマット学習及び文書フ
ォーマット変換を実行する。すなわち、ＣＰＵ１１によ
って制御される文書解析装置２４は、文書記憶領域２８
に格納された文書データを１行ずつ取出して文書データ
の構造を解析し（解析手法の詳細な説明は後述する）、
その解析結果から文書レイアウト情報及び文書アレンジ
情報を抽出し、抽出した情報を文書レイアウト情報学習
領域２９及び文書アレンジ情報学習領域３０に学習デー
タとして記憶する。また、統一されていない文書データ
を統一しようとするときには文書記憶領域２８から統一
とようとする文書データを読出し、文書フォーマット変
換装置２７により文書レイアウト情報学習領域２９及び
文書アレンジ情報学習領域３０から読出した学習データ
を用いて文書フォーマット変換してＣＲＴ１８あるいは
プリンタ２２等に出力する。

【００１０】また、上記ワーク領域３１には、図６〜図
１７で後述する各処理（すなわち、文書最小分割処理、
文書レイアウト情報抽出処理、文書アレンジ情報抽出処
理、学習処理、文書構造解析処理、文書アレンジ変換処
理）によって文書最小分割ブロックテーブル（テーブル
１）、文書構成要素ブロックテーブル（テーブル２）、
文書構成要素レイアウト情報テーブル（テーブル３）、
文書アレンジ情報テーブル（テーブル４）、入力例文書
２の文書構造解析テーブル（テーブル５）が作成され
る。

【００１１】キーボード１４は、英数字、平仮名等を入
力するキーや、カーソル移動キー、実行キー、中止キー
等のファンクションキーが配設された操作盤である。ま
た、キーボード制御部１５は、キーボード１４上のいず
れかのキーが操作された場合、そのキーに対応する所定
のキーコードに変換し、ＣＰＵ１１に出力する。ＯＣＲ
１６は、帳票等に印刷あるいは手書きされた文字を光学
的スキャナにより読取り、識別、判断処理した後、文字
の符号化を行なう。また、プリンタ２２は予め作成者が
設定しておいた書式情報または学習機能により文書フォ
ーマット変換された書式情報に従ってＲＡＭ１３に記憶
された文書を印刷出力するためのものである。

【００１２】次に、本実施例の動作を説明する。本実施
例に係る文書処理装置１０は、文書データの構造を解析
して、文書フォーマットの指定・学習を行なう文書フォ
ーマット学習機能と、学習した文書フォーマットを用い
て変換しようとする文書データを別の異なるフォーマッ
トの文書に変換する文書フォーマット変換機能とを備え
ている。

【００１３】上記文書フォーマット学習機能は、レイア
ウト済みの文書の構造（文字のつながりや構成要素分
類）をタイトル記号や句点の有無及びキーワード等を基
に判別して、この判別結果からフォーマット情報や文字
のアレンジ情報を得、その情報を学習するものである。
また、上記文書フォーマット変換機能は、上記文書フォ
ーマット学習と同じ手段で文書の構造を判別した後、各
構成要素を学習情報により並び替え、更に文字のアレン
ジを行うものである。

【００１４】以下、図２〜図１７を参照しながら上記文
書フォーマット学習機能及び文書フォーマット変換機能
について具体的に説明する。図２は文書フォーマット学
習される入力例文書（入力例文書１）、図３は学習した
文書フォーマット学習結果を用いて文書フォーマット変
換される入力例文書（入力例文書２）、図４は出力例文
書１に変換途中の文書を示す中間例文書（中間例文書
１）、図５は文書フォーマット変換された出力例文書
（出力例文書１）をそれぞれ示す図であり、本実施例で
は入力例文書１に対して文書フォーマット学習を行な
い、学習した文書フォーマット学習結果を用いて入力例
文書２を出力例文書１に変換する変換例を示す。なお、
本実施例では説明の便宜上、文字は全角のみを使用し、
同一行に複数個の文書構成要素ブロック（図６及び図７
で後述する）は存在しない例文を用いるものとする。

【００１５】○文書フォーマット学習文書フォーマット学習は、文書最小分割処理（図６及び
図７）、文書レイアウト情報抽出処理（図８〜図１
１）、文書アレンジ情報抽出処理（図１２〜図１４）及
び学習処理からなる。また、既に前記ＲＡＭ１３の文書
記憶領域２８には図２に示す入力例文書１の文書が格納
されているものとする。

【００１６】文書最小分割処理図６は文書の構造を解析するために文書データを最小ブ
ロックに区分けする文書最小分割処理を示すフローチャ
ートであり、本文書最小分割処理を実行することにより
図７に示す文書最小分割ブロックテーブル（テーブル
１）が作成される。図６中、符号Ｓｎ（ｎ＝１，２，
…）はフローの各ステップを示している。

【００１７】先ず、ステップＳ１でＲＡＭ１３の文書記
憶領域２８から文書データを１行づつ取出し、ステップ
Ｓ２で文書データの取出しができかた否かを判別する。
文書の取出しができなかったときは文書末と判断して本
フローの処理を終え、文書の取出しができたときはステ
ップＳ３で文書行取出しポインタを更新する。次いで、
ステップＳ４で有効文字をサーチし、ステップＳ５で有
効文字があると判別されたときはステップＳ６に進み、
有効文字がないと判断したときはステップＳ１に戻って
次の行の文書データの取出し処理を行なう。ここで、有
効文字サーチによって有効文字とされる文字データ以外
のデータ（例えば、スペース）は読飛ばされる。この有
効文字サーチを行なうことにより、例えば有効文字がス
ペースを挟んで２箇所あれば１ブロックを作成した後、
同一行にもう１つのブロックを作成することができる。
従って、文書データの行数よりも多くのブロックが作成
されることもある。ステップＳ６では文書行位置及び開
始桁位置を図７に示す文書最小分割ブロックテーブル
（テーブル１）にセットし、ステップＳ７でスペース・
未入力、改行が現れるまで文字サーチを行なう。次い
で、ステップＳ８で終了桁位置を文書最小分割ブロック
テーブル（テーブル１）にセットし、ステップＳ９で
「ブロック属性（後述）」を文書最小分割ブロックテー
ブル（テーブル１）にセットしてステップＳ４に戻って
上記処理を繰り返す。

【００１８】上記文書最小分割処理により、ＲＡＭ１３
のワーク領域３１に図７に示すような文書最小分割ブロ
ックテーブル（テーブル１）が作成されることになる。
この文書最小分割ブロックテーブル（テーブル１）は、
文書記憶領域２８から１行づつ取出した文書データを、
未入力・改行・スペースで区切られた最小ブロック１−
１，１−２，…，１−５，１−６に分割して記憶するブ
ロックテーブルである。文書最小分割ブロックテーブル
の１ブロックは、図７に示すように文書の区切り情報に
基づく「文書行位置」、「開始桁位置」及び「終了桁位
置」と、文書最小分割ブロックが何で区切られたか及
び、句点・タイトル記号を含んでいるかを示す「ブロッ
ク属性」とからなり、上述した最小分割ブロック毎に上
記「ブロック属性」、「文書行位置」、「開始桁位置」
及び「終了桁位置」がセットされる。

【００１９】また、上記「ブロック属性」は、８ビット
を４ビットと４ビットに分けたビット情報でセットされ
るものであり、各ビットに対する内容は次のようなもの
である。すなわち、ビット情報ｏｎの場合は「０」が句
点を含む、「１」がタイトル記号を含む、「２」がスペ
ースで分割される、「３」が未入力・改行で分割され
る、「４」が行末まで文字が続く、「５」〜「７」が未
使用、であることをそれぞれ示している。例えば、文書
最小分割ブロック１−１のブロック属性「０８Ｈ」は、
８＝２³で表される３ビット目のビット情報「未入力・
改行で分割される」を示している。また、文書最小分割
ブロック１−５のブロック属性「１０Ｈ」は、４ビット
目のビット情報「行末まで文字が続く」を示している。
さらに、文書最小分割ブロック１−６のブロック属性
「０９Ｈ」は、「０８Ｈ」にビット情報「０」を加えた
ものであり、したがって、上述した３ビット目のビット
情報「未入力・改行で分割される」とビット情報「句点
を含む」であることを示している。

【００２０】このように、上記文書最小分割処理では、
文書解析装置２４が、文書記憶領域２８から文書データ
を１行ずつ取出し、１行ずつ取出した文書データを未入
力・改行・スペースで区切られた最小分割ブロックに分
割し、文書最小分割ブロックテーブル（テーブル１）を
ワーク領域３１に作成する。この時に、文書最小分割ブ
ロックが何で区切られたか及び句点・タイトル記号を含
んであるかを示すブロック属性もセットする。

【００２１】以下、入力例文書１（図２）を例に採り上
記文書最小分割処理を具体的に説明する。先ず、図２に
示す入力例文書１の文書データから、文書１行目を取出
し、有効文字をサーチする。この場合の有効文字は「平
成３年１０月２３日」であるから「文書行位置」は「０
１」行目、「開始桁位置」は「２５」桁目、「終了桁位
置」は「３４」桁目となり、これらの情報が文書最小分
割ブロックテーブル（テーブル１）に文書最小分割ブロ
ック１−１としてセットされる。また、有効文字「平成
３年１０月２３日」は改行で分割されて最小分割ブロッ
クとなっているから「ブロック属性」は「０８Ｈ」とな
り、そのビット情報には「３：未入力・改行で分割され
る」がセットされる。このように、先ず文書１行目が取
り出され、２４桁目までのスペースは読み飛ばされ２５
桁目からの「平成３年１０月２３日」が文書最小分割ブ
ロックテーブル（テーブル１）の最小分割ブロック１−
１となる。この最小分割ブロックは改行で区切られてい
るので「ブロック属性」が「０８Ｈ」となる。次に、文
書２行目が取り出されるが、この２行目には有効文字は
なく行のみであるため、最小分割ブロックは作成されな
い。そして、次に文書３行目が取り出されるが、この３
行目には先頭から有効文字「出張報告書」があり、かつ
改行で区切られているから「ブロック属性」は「０８
Ｈ」、「文書行位置」は「０３」行目、「開始桁位置」
は「１３」桁目、「終了桁位置」は「２２」桁目とな
り、これらの情報が文書最小分割ブロックテーブル（テ
ーブル１）の最小分割ブロック１−２としてセットされ
る。このようにして入力例文書１の最小行まで解析さ
れ、全ての最小分割ブロックが作成される。

【００２２】文書レイアウト情報抽出処理図８は文書データ構造の解析結果から文書要素のレイア
ウト情報を抽出する文書レイアウト情報抽出処理を示す
フローチャートであり、本フローは前記文書最小分割ブ
ロックが連結できるか否かを判別してブロックの属性を
付与する処理である。本処理を実行することにより図１
０に示す文書構成要素ブロックテーブル（テーブル２）
及び図１１に示す文書レイアウト情報テーブル（テーブ
ル３）が作成される。

【００２３】先ず、ステップＳ１１で前記文書最小分割
処理（図６）で作成した文書最小分割ブロックを取出
し、ステップＳ１２で文書最小分割ブロックが取出しで
きたか否かを判別する。文書最小分割ブロックの取出し
ができたときはステップＳ１３で取出しポインタを更新
し、ステップＳ１４で図９に示すキーワード辞書を参照
して取出した文書最小分割ブロックの文字列にキーワー
ドがあるか否かをチェックする。

【００２４】ここで、キーワード辞書とは、文書構成要
素特有の用語を辞書化したものであり、ＲＯＭ１２に記
憶されている。キーワード辞書は、文書構成要素分類に
よって分類されており、最小分割ブロックから文書構成
要素ブロックを作成する段階で、そのブロックの構成要
素分類を決定する要素の一つとなる。例えば、その一例
として図９に示すようなキーワード辞書がある。図９に
示すキーワード辞書は、日付に関するキーワード「平
成」、「昭和」、「明治」、…、「年」、「月」、
「日」等と、宛先・差出人に関するキーワード「株式会
社」、「有限会社」、…、「営業部」、「企画部」等を
備えている。このキーワード辞書を参照することによっ
て文書最小分割ブロックの文字列の中にキーワード辞書
に登録されたキーワードがあるか否かをチェックする。
例えば、文書最小分割ブロックテーブル（テーブル１）
の最小分割ブロック１−１（図２の入力例文書１の１行
目を分割したブロック）の文字列には、「平成」、
「月」、「日」の日付に関するキーワードがあり、ま
た、図２の入力例文書１の５行目を分割したブロックの
文字列には、「営業部」という宛名・差出人に関するキ
ーワードがある。なお、キーワード辞書を参照して該当
する文字列が見つかっただけでは、これによって直ちに
所定の文書構成要素ブロックであるとすることはでき
ず、次の文字列・ブロックとの連結状態をみることによ
って初めて文書構成要素ブロックであると判断すること
ができる。例えば、上述した最小分割ブロック１−１の
文字列には「平成」などがあるから、上記ステップＳ１
４のキーワードチェックの段階で日付情報のキーワード
として候補となり、また、この文字列は改行で終わって
いるから結果的に日付の文書構成要素ブロックとされ
る。ところが、キーワード辞書に登録されている同じ
「平成」のキーワードであっても、例えば図２の入力例
文書１の８行目の文字列「平成」では改行等がなく、そ
の前後の文字列から通常の文書の文字列がつながってい
ると判別されるから日付の文書構成ブロックと判断され
ない。

【００２５】図８に示す文書レイアウト情報抽出処理フ
ローに戻って、ステップＳ１４でキーワードチェックが
済むとステップＳ１５で文書を取出した文書最小分割ブ
ロックが次の文書最小分割ブロックと連結するかを判断
し、連結するときはステップＳ１１に戻って上記処理を
繰り返すことによって文書最小分割ブロック同士を連結
する。また、取出した文書最小分割ブロックが次の文書
最小分割ブロックと連結しないときはステップＳ１７に
進む。また、上記ステップＳ１２で文書最小分割ブロッ
クがないときはそのままステップＳ１７に進む。このよ
うにして、キーワードがチェックされた後、文書最小分
割ブロックの連結が決定されると文書構成要素ブロック
が作成できることになり、図１０に示す文書構成要素ブ
ロックテーブル（テーブル２）が作成される。また、こ
の文書構成要素ブロックの位置情報は以下に述べるステ
ップＳ１７及びＳ１８で図１１に示す文書レイアウト情
報テーブル（テーブル３）にセットされることになる。
すなわち、ステップＳ１７で上記キーワードチェック及
びタイトル記号等を参照して「構成要素分類（図１０参
照）」を決定しこの「構成要素分類」を図１０に示す文
書構成要素ブロックテーブル（テーブル２）にセットす
るとともに、連結情報を基に決定された「先頭最小分割
ブロック番号」及び「最終最小分割ブロック番号」を文
書構成要素ブロックテーブル（テーブル２）にセット
し、さらに、上記「構成要素分類」を図１１に示す文書
レイアウト情報テーブル（テーブル３）にセットする。
次いで、ステップＳ１８で上記文書構成要素ブロックの
位置情報を文書レイアウト情報テーブル（テーブル３）
にセットし、ステップＳ１９でまだ取出すべき文書最小
分割ブロックがあるか否かをチェックし、ステップＳ２
０で取出すべき次の文書最小分割ブロックがあると判別
されたときはステップＳ１１に戻って次の文書最小分割
ブロックについて同様の配置情報抽出処理を繰り返す。
また、全ブロックが終了していると判別されたときには
本フローの処理を終える。

【００２６】上記文書レイアウト情報抽出処理により、
ＲＡＭ１３のワーク領域３１に図１０に示す文書構成要
素ブロックテーブル（テーブル２）及び図１１に示す文
書レイアウト情報テーブル（テーブル３）が作成される
ことになる。上記文書構成要素ブロックテーブル（テー
ブル２）は、文書最小分割ブロックの１つ１つについて
文書要素を分類しこれを文書構成要素ブロック２−１，
２−２，…毎に分類・記憶するものである。文書構成要
素ブロックテーブル（テーブル２）の文書構成要素ブロ
ックの１ブロックは図１０に示すように日付、タイトル
等の最小分割文書の構成要素を示す「構成要素分類」
と、最小分割ブロックの先頭及び最終番号を示す「先頭
最小分割ブロック番号」及び「最終最小分割ブロック番
号」とからなり、「構成要素分類」の内容は次のような
ものである。すなわち、「０１」が日付、「０２」が作
成者、「０３」が差出人、「０４」が宛名、「０５」が
大見出し、「０６」が序文、「０７」が本文、「０８」
が追記文、「０９」がその他であることをそれぞれ示
す。例えば、文書構成要素ブロック２−１は、先頭最小
分割ブロック番号が「０１」の最小分割ブロック（前記
図７の最小分割ブロック１−１に該当する）ものであ
り、この最小分割ブロックは図７の文書最小分割ブロッ
クテーブル（テーブル１）のブロック属性から分かるよ
うに次に連結される最小分割ブロックはないから最終最
小分割ブロック番号は「０１」となる。また、この文書
構成要素ブロック２−１の構成要素分類は「０１」の
「日付」である（図２の入力例文書１の１行目参照）。
また、文書構成要素ブロック２−２は、先頭最小分割ブ
ロック番号が「０２」の最小分割ブロック（前記図７の
最小分割ブロック２−１に該当する）ものであり、この
最小分割ブロックは文書最小分割ブロックテーブル（テ
ーブル１）のブロック属性から分かるように次に連結さ
れる最小分割ブロックはないから最終最小分割ブロック
番号は「０２」となる。また、この文書構成要素ブロッ
ク２−２の構成要素分類は「０５」の「大見出し」であ
る（図２の入力例文書１の３行目参照）。さらに、文書
構成要素ブロック２−５は、先頭最小分割ブロック番号
が「０５」の最小分割ブロック（前記図７の最小分割ブ
ロック１−５に該当する）ものであり、この最小分割ブ
ロックは図２の入力例文書１の８行目及び９行目から明
かなように次に図７の最小分割ブロック１−６が連結さ
れるから最終最小分割ブロック番号は「０６」となる。
また、この文書構成要素ブロック２−５の構成要素分類
は「０６」の「序文」である。ここで、「序文」という
のは図２の入力例文書１に示すように「記」の後に続く
本文の前に置かれる文書をいう。

【００２７】一方、上記レイアウト情報テーブル（テー
ブル３）の文書レイアウト情報ブロックの１ブロック
は、上述した文書構成要素ブロックで用いた「構成要素
分類」と、そのブロックの順番を記憶する「位置情報」
からなり、「位置情報」の内容は「０１」が左よせ、
「０２」がセンタリング、「０４」が右よせ、である。

【００２８】このように、上記文書レイアウト情報抽出
処理では、図６の文書最小分割処理で作成した文書最小
分割ブロックの１つ１つについて図９に示したキーワー
ド辞書及びタイトル記号（例えば、１．、２．、−、
○、☆等）を参考にしながら文書構成要素ブロックテー
ブル（テーブル２）を作成し、同時にそのブロックの位
置情報を格納した文書レイアウト情報テーブル（テーブ
ル３）をワーク領域３１に作成する。この文書レイアウ
ト情報テーブル（テーブル３）に格納される順序が文書
上の文書構成要素ブロックのレイアウト順序を表わすこ
とになる。例えば、この文書レイアウト情報テーブル
（テーブル３）上で「大見出し」より「日付」が先にあ
れば、それは文書レイアウトでも「大見出し」より「日
付」が先にレイアウトされることを表わす。すなわち、
最初に文書最小分割ブロックに切り分けしたものを、あ
る一定のグループに纏められるものは纏めてその連結さ
れたブロックに文書構造要素を表わすブロック属性とそ
の順番（位置情報）を順次文書レイアウト情報テーブル
（テーブル３）に学習データとして記憶しておくように
する。そして、後述する文書フォーマット変換を行なう
場合には、この文書レイアウト情報テーブル（テーブル
３）に従って配置変換すべき文書データの文書レイアウ
トが変換されることになる。

【００２９】以下、入力例文書１を例に採り上記文書レ
イアウト情報抽出処理を具体的に説明する。先ず、文書
最小分割ブロックテーブル（テーブル１）の先頭の文書
最小分割ブロック１−１が取出される。次に、キーワー
ド辞書を参照すると、この文書最小ブロック１−１の文
字列の中に「日付」に関するキーワードが含まれている
ことが分かる。この文書最小ブロック１−１が「日付」
の記述のみで構成されていること及び文書の先頭であっ
て、かつ右よせされていることなどから、「日付」の文
書構成要素ブロックであると判断される。次の最小分割
ブロック１−２は前記最小分割ブロック１−１と１行離
れているため、連結されず別の文書構成要素ブロックと
される。この段階で、構成要素分類「０１（日付）」を
持つ文書構成要素テーブル（テーブル２）の文書構成要
素ブロック２−１が作成され、この文書構成要素ブロッ
ク２−１は最小分割ブロック１−１のみで構成されてい
るので「先頭最小分割ブロック番号」及び「最終最小分
割ブロック番号」はともに「０１（最小分割ブロック１
−１を示す）」がセットされる。と同時に、文書レイア
ウト情報テーブル（テーブル３）の文書レイアウト情報
ブロック３−１が作成され、構成要素分類情報「０１
（日付）」及び位置情報「０４（右よせ）」が文書レイ
アウト情報ブロック３−１にセットされる。最小分割ブ
ロックが連結される例としては、入力例文書１の行位置
０８行目がある。この行位置０８行目の最小分割ブロッ
ク１−５は行末まで文字が続いているので、次の最小分
割ブロック１−６と連結される。また、最小分割ブロッ
ク１−６が句点を含み、本文の前にあることなどの条件
から、この文書構成要素ブロックは序文と見なされ、文
書構成要素ブロック３−５が作成される。このようにし
て、文書構成要素ブロックテーブル（テーブル２）及び
文書レイアウト情報テーブル（テーブル３）が作成され
る。

【００３０】上記文書構成要素ブロックテーブル（テー
ブル２）及び文書レイアウト情報テーブル（テーブル
３）が作成されることによって文書レイアウト情報（配
置情報）利用した学習ができることになるが、本実施例
に係る文書処理装置１０では上述した文書レイアウト情
報抽出処理に加えて、書式パターンや倍角、アンダーラ
イン等のアレンジ情報も学習可能にするために、上記文
書レイアウト情報抽出処理で行ったレイアウト情報抽出
処理と同様の処理をアレンジ情報（書式パターン情報・
修飾情報・個別情報等）抽出処理として行なうようにす
る。

【００３１】文書アレンジ情報抽出処理図１２は文書データ構造の解析結果から文書要素のアレ
ンジ情報を抽出する文書アレンジ情報抽出処理を示すフ
ローチャートであり、本処理を実行することにより図１
４に示す文書アレンジ情報テーブル（テーブル４）が作
成される。また、図１３は修飾情報を文書アレンジ情報
テーブル（テーブル４）にセットする修飾情報セット処
理を示すフローチャートである。

【００３２】図１２において、先ず、ステップＳ２１で
前記文書レイアウト情報抽出処理（図８）で作成した文
書構成要素ブロックテーブル（テーブル２）の文書構成
要素ブロックを取出し、ステップＳ２２で文書構成要素
ブロックの取出しができたか否かを判別する。文書構成
要素ブロックの取出しができなかったときは次ブロック
なしと判断して本フローの処理を終え、文書構成要素ブ
ロックの取出しができたときはステップＳ２３で取出し
ポインタを更新する。次いで、ステップＳ２４で取出し
た文書構成要素ブロックテーブル（テーブル２）の文書
構成要素ブロックの「構成要素分類（図１０参照）」を
図１３に示す文書アレンジ情報テーブル（テーブル４）
にセットする。すなわち、前記文書構成要素ブロックテ
ーブル（テーブル２）の文書構成要素ブロックの「構成
要素分類」と同一の構成要素分類情報が文書アレンジ情
報テーブル（テーブル４）にセットされる。次いで、ス
テップＳ２３で後述する「構成要素分類別書式パター
ン」を文書アレンジ情報テーブル（テーブル４）にセッ
トする。次いで、ステップＳ２４で「修飾情報」を文書
アレンジ情報テーブル（テーブル４）にセットし、ステ
ップＳ２５で「個別情報」を文書アレンジ情報テーブル
（テーブル４）にセットしてステップＳ２１に戻って上
記文書アレンジ抽出処理を繰り返す。この場合、取出し
た文書構成要素ブロックの文書に「修飾情報（例えば、
倍角、アンダーライン、網かけ等）」がなければ修飾情
報サイズのみ（すなわち、ワード情報のみ）がセットさ
れることとなり、「修飾情報」があるときには図１３に
示す修飾情報セット処理フローで修飾情報がセットされ
る。「文書成要素分類」によって固有のアレンジ情報が
あったときはそのアレンジ情報は文書アレンジ情報ブロ
ックの「個別情報」にセットされる。

【００３３】図１３は修飾情報を文書アレンジ情報テー
ブル（テーブル４）にセットする修飾情報セット処理の
フローチャートであり、修飾情報の一例としてアンダー
ライン修飾をセットする例を示す。先ず、ステップＳ３
１でアンダーライン修飾されているかをチェックし、ス
テップＳ３２でアンダーライン修飾があると判別された
ときにはステップＳ３３でアンダーラインの線種（例え
ば、細実線アンダーライン、太実線アンダーライン等）
を取込み、ステップＳ３４でこの取込んだ情報を基に修
飾情報を作成して文書アレンジ情報テーブル（テーブル
４）にセットする。また、上記ステップＳ３２でアンダ
ーライン修飾がないと判別されたときにはそのままステ
ップＳ３５に進む。次いで、ステップＳ３５でその他の
修飾情報（例えば、網かけ）について同様の処理を行っ
てその修飾情報を文書アレンジ情報テーブル（テーブル
４）にセットして本フローの処理を終える。

【００３４】上記文書アレンジ抽出処理及び修飾情報セ
ット処理により、ＲＡＭ１３のワーク領域３１に図１４
に示すよう文書アレンジ情報テーブル（テーブル４）が
作成されることになる。

【００３５】上記文書アレンジ情報テーブル（テーブル
４）は、文書構成要素ブロックの１つ１つについてアレ
ンジ情報ブロック４−１，４−２，…毎に記憶するもの
である。文書アレンジ情報テーブル（テーブル４）の文
書アレンジ情報ブロックの１ブロックは図１４に示すよ
うに文書の構成要素を示す「構成要素分類」、「書式パ
ターン」、「修飾情報サイズ」及び「個別情報サイズ」
と、修飾情報がある場合にセットされる「修飾情報」と
からなり、このうち、「構成要素分類」は前記文書構成
要素ブロックの「構成要素分類」と同一である。また、
「書式パターン」の内容としては、例えば構成要素分類
が「日付（平成３年１０月２３日）」の書式パターンで
は「０１」が平成３年１０月２３日、「０２」が１９９
１．１０．２３、「０３」がその他、である。また、
「修飾情報サイズ」及び「個別情報サイズ」には修飾情
報を格納する上記文書アレンジ情報ブロックのサイズ
（バイト数で表わす）であり、例えば「０００４」は４
バイト分のサイズがこのブロック内に確保されることを
示す。

【００３６】また、文書アレンジ情報テーブル（テーブ
ル４）の個別情報部分には、本文などのアレンジ情報の
段落字下げ情報やタイトル番号の種類（「１．」「」
など）の情報のようなその文書構成要素ブロック特有の
アレンジ情報が格納される。

【００３７】一方、修飾情報があったときにセットされ
る「修飾情報」は、上位４ビットで修飾種を表わし、下
位４ビットで修飾パターンを表わす（但し、修飾種によ
り異なる）ものとする。例えば、上位４ビットについて
「０１」が文字サイズ変更、「０２」がアンダーライ
ン、「０４」が網かけ、「０８」がその他の文字修飾、
である。また、例えば、下位４ビットは文字サイズ変
更、アンダーライン、網かけについて夫々「００」が全
角、細実線、網かけ１、「０１」が半角、太実線、網か
け２、「０２」が横倍角、細破線、網かけ３、「０３」
が縦倍角、太破線、網かけ４、である。

【００３８】このように、上記文書アレンジ抽出処理で
は、図８の文書レイアウト情報抽出処理で作成された文
書構成要素ブロックテーブル（テーブル２）の文書構成
要素ブロックの１つ１つについてアレンジ情報（書式パ
ターン情報・修飾情報・個別情報など）を抽出し、文書
アレンジ情報テーブル（テーブル４）をワーク領域３１
に作成する。また、文書構成要素分類によって固有のア
レンジ情報は文書アレンジ情報テーブル（テーブル４）
の個別情報部分に格納される。

【００３９】以下、入力例文書１を例に採り上記文書ア
レンジ情報抽出処理を具体的に説明する。先ず、文書最
構成要素ブロックテーブル（テーブル２）の先頭の文書
構成要素ブロック２−１が取出されると同時に、文書ア
レンジ情報テーブル（テーブル４９に文書アレンジ情報
ブロック４−１を作成し、この文書アレンジ情報テーブ
ル（テーブル４）に文書構造要素ブロック２−１と同一
の構成要素分類情報をセットする。次に構成要素分類別
書式パターン情報をセットすることになるが、この場合
「構成要素分類」が「日付」であるので日付の書式パタ
ーン分類の「０１（「平成＊＊年＊＊月＊＊日」パター
ン）」が文書アレンジ情報ブロック４−１にセットされ
る。次の修飾情報は文書上ブロック何の修飾も行われて
いないので、自分を含めたサイズ「０００２（ワード情
報）」のみがセットされる。次に文書構成要素ブロック
２−２が取出され文書アレンジ情報ブロック４−２にセ
ットされることになる。このようにして文書アレンジ情
報テーブル（テーブル４）が作成されていく。

【００４０】学習処理学習処理は、上述の処理で得られた文書レイアウト情報
及び文書アレンジ情報を、文書フォーマット変換等で使
用できる形態にして記憶しておく処理である。すなわ
ち、文書解析装置２４により前述の処理でワーク領域３
１上に作成された文書レイアウト情報テーブル（テーブ
ル３）及び文書アレンジ情報テーブル（テーブル４）
が、それぞれ文書レイアウト情報学習情報２９及び文書
アレンジ情報学習領域３０に格納されることで学習が行
われる。この文書レイアウト情報学習領域２９及び文書
アレンジ学習領域３０は文書作成装置の電源をオフして
も内容は保持されるものとし、不揮発性メモリ等により
構成される。また、これらの学習領域２９，３０の学習
データは、外部記憶装置２０に保存することもできる。

【００４１】以上により文書最小分割処理（図６及び図
７）、文書レイアウト情報抽出処理（図８〜図１１）、
文書アレンジ情報抽出処理（図１２〜図１４）及び学習
処理からなる文書フォーマット学習の説明を終え、次に
学習情報に基づいて文書フォーマットを変換する文書フ
ォーマット変換について詳細に説明する。

【００４２】○文書フォーマット変換文書フォーマット変換は、文書構造解析処理（図１
５）、文書アレンジ変換処理（図１６）及び文書レイア
ウト変換処理（図１７）からなる。また、前述した学習
処理が終了し、文書フォーマット学習情報が文書レイア
ウト情報学習領域２９及び文書アレンジ情報学習領域３
０に既に格納されているものとし、図３に示す入力例文
書２を入力例文書１の学習結果に従って変換して出力例
文書１として出力する場合を例に採り説明する。

【００４３】文書構造解析処理この文書構造解析処理は、入力文の文書構造を解析して
ブロックの範囲と構成要素分類を持つ文書構造解析テー
ブル（テーブル５）をワーク領域３１に作成する処理で
あり、この文書構造解析処理は前述した文書最小分割処
理（図６及び図７）及び文書レイアウト情報抽出処理
（図８〜図１１）と結果として作成されるテーブルのフ
ォーマットが多少異なるだけで解析手順は略同一であ
る。すなわち、図６及び図８に示す処理フローと同様な
処理によって文書構造解析テーブル（テーブル５）を作
成することができ、この文書構造解析テーブル（テーブ
ル５）は前記図１０の文書構成要素ブロックテーブル
（テーブル２）に相当する。

【００４４】上記文書構造解析テーブル（テーブル５）
は、入力例文書２の文書最小分割ブロックの１つ１つに
ついて文書構成要素を分類しこれを文書構造解析ブロッ
ク５−１，５−５，…毎に分類記憶するものである。ま
た、文書構造解析ブロックテーブル（テーブル５）の文
書構造解析要素ブロックの１ブロックは日付、タイトル
等の文書の構成要素を示す「構成要素分類」と、ブロッ
クの範囲を示す「開始行位置」及び「終了行位置」から
なる。

【００４５】なお、文書フォーマット変換の場合は、文
書構造解析テーブル（テーブル５）だけあればよく、前
記文書アレンジ情報テーブル（テーブル５）は必要では
ない。すなわち、文書のフォーマット変換は、フォーマ
ット学習と同じ手段で文書の構造を判断した後、各構成
要素を学習情報により並び替え、更に文字のアレンジを
行うものであるため、統一すべき文書の文書アレンジ情
報テーブル（テーブル４）があればよい。従って、ブロ
ックがどういう種類のものかさえ分かればよく、文書フ
ォーマット学習時に作成したレイアウト情報（配置情
報）やアレンジ情報をそのブロックに付加していくだけ
である。

【００４６】文書アレンジ変換処理図１６は学習したアレンジ情報に基づいて入力文書（入
力例文書２）のアレンジを行なう文書アレンジ変換処理
のフローチャートである。先ず、ステップＳ４１で入力
文書の文書構造を解析し、ステップＳ４２で入力文書の
文書構造解析テーブル（テーブル５）から文書構造解析
ブロックを取出し、ステップＳ４３で文書構造解析テー
ブル（テーブル５）から文書構造解析ブロックの取出し
ができたか否かを判別する。ここで、文書構造の解析は
前述した文書最小分割処理、文書レイアウト情報抽出処
理による文書情報の解析手順と全く同じように解析され
る。文書構造解析ブロックの取出しができなかったとき
は次ブロックなしと判断して本フローの処理を終え、文
書構造解析ブロックの取出しができたときはステップＳ
４４で取出しポインタを更新する。次いで、ステップＳ
４５で前記文書アレンジ情報テーブル（テーブル４）か
ら同じ「構成要素分類」を持つブロックをサーチし、ス
テップＳ４６で書式パターンの変更情報があるかをチェ
ックする。ステップＳ４７で書式パターンの変更がある
と判別されたときはステップＳ４８で書式パターンを変
更し、書式パターンの変更がないときにはそのままステ
ップＳ４９に進む。すなわち、文書アレンジ情報学習領
域３０に格納されている同じ構成要素ブロックから同じ
構成要素分類情報を持つ文書アレンジ情報ブロックの学
習に従って書式パターンの変更が行われる。これによ
り、文書の書式が文書アレンジ変換しようとする文書の
書式パターン（例えば、文書サイズ）に変更される。

【００４７】次いで、ステップＳ４９で修飾情報がある
かをチェックし、ステップＳ５０で修飾情報があると判
別されたときはステップＳ５１で文字修飾を行ってステ
ップＳ５２に進み、修飾情報がないときにはそのままス
テップＳ５２に進む。ステップＳ５２では個別アレンジ
情報があるかをチェックし、ステップＳ５３で個別アレ
ンジ情報があると判別されたときはステップＳ５４で個
別アレンジを行ってステップＳ５５に進み、個別アレン
ジ情報がないときにはそのままステップＳ５５に進む。
ステップＳ５５では上記書式パターン、文字修飾、個別
アレンジ等のアレンジ変換が行われた文書を、ワーク領
域３１に中間文書として出力して該当ブロックにおける
文書アレンジ変換を終えてステップＳ４２に戻り、上記
処理を文書構造解析ブロックがなくなるまで繰り返す。

【００４８】このように、上記文書アレンジ変換処理で
は、図１５の文書構造解析処理で作成された文書構造解
析テーブル（テーブル５）先頭の構成要素ブロックか
ら、文書アレンジ情報学習領域３０に格納されている文
書アレンジ情報テーブル（テーブル４）の同じ構成要素
ブロックを取出す。そして、文書アレンジ情報学習領域
３０に格納されている同じ構成要素を持つ文書アレンジ
情報ブロックの学習に従って文書のアレンジ（例えば、
書式パターンの変更、文字修飾等）を行なう。この文書
アレンジ変換の結果は、ワーク領域３１に中間文書の形
で出力される。ここで、ワーク領域３１に一時的に格納
される中間文書は、文書のアレンジ変換はされている
が、レイアウト位置の変更はまだ行われていない文書で
あり、図４の中間例文書１で示される。

【００４９】以下、入力例文書２及び中間例文書１を例
に採り上記文書アレンジ変換処理を具体的に説明する。
先ず、最初に入力例文書２の文書構造解析テーブル（テ
ーブル５）の先頭のブロック５−１が取出される。この
文書構造解析ブロック５−１の構成要素分類情報は「日
付（０１）」であり、これと同じ構成要素分類情報を持
つ文書アレンジ情報学習領域３０に格納されている文書
アレンジ情報ブロック４−１に従ってアレンジが行われ
る。文書記憶領域２８に格納されている文書データ「１
９９１．１１．１５」は文書アレンジ情報ブロック４−
１の書式パターン情報によって「「平成３年１１月１５
日」に変更される。次に、本来修飾情報及び個別情報に
従ってアレンジされているが、文書アレンジ情報ブロッ
ク４−１ではこのアレンジ情報がないのでそのままであ
る。このアレンジされた中間文書はワーク領域３１に出
力される。このようにして、ワーク領域３１上に図４に
示す中間例文書１が作成される。この中間例文書１は、
入力例文書１（図２）のアレンジ情報に従って入力例文
書２（図３）の内容をアレンジ変換した文書である。従
って、この中間例文書１では入力例文書１のレイアウト
位置の変更は行われておらず、書式パターン等のアレン
ジ情報のみが変更されている。例えば、入力例文書２の
行位置０１の日付「１９９１．１１．１５」は、入力例
文書１の０１行目の日付のアレンジ情報学習「平年＊＊
月＊＊日」に合わせて中間例文書１の行位置０１に示す
ように「平成３年１１月１５日」にアレンジ変換され
る。また、入力例文書２の行位置０３の全角の大見出し
（タイトル）「出張報告書」は、入力例文書１の０３行
目の行位置０３の倍角アンダーラインの大見出し（タイ
トル）「出張報告書」に合わせて中間例文書
１の行位置０３に示すように「出張報告書」
にアレンジ変換される。このように、文書レイアウト
（配置）変換以外のアレンジ変換後の文書が中間例文書
１としてワーク領域３１に作成されることになる。ワー
ク領域３１に作成された中間例文書１は以下に述べる文
書レイアウト変換処理によって最終的な出力例文書１
（図５）にレイアウト変換され、一連の文書フォーマッ
ト学習・文書フォーマット変換が終了する。

【００５０】文書レイアウト変換処理図１７は学習した文書レイアウト情報に基づいて中間文
書に作成されたアレンジ変換後の文書の配置を変換して
最終的な出力文書を出力する文書レイアウト変換処理の
フローチャートである。先ず、ステップＳ６１で前記文
書レイアウト情報抽出処理（図８）で作成した文書レイ
アウト情報テーブル（テーブル３）の文書レイアウト情
報ブロックを取出し、ステップＳ６２で文書レイアウト
情報ブロックの取出しができたか否かを判別する。文書
レイアウト情報ブロックの取出しができなかったときは
次ブロックなしと判断して本フローの処理を終え、文書
レイアウト情報ブロックの取出しができたときはステッ
プＳ６３で取出しポインタを更新する。次いで、ステッ
プＳ６４で対応する入力文の文書構造解析テーブル（テ
ーブル５）の文書構造解析テーブルブロックがあるかを
チェックし、ステップＳ６５で対応する入力文の文書構
造解析テーブルブロックがあると判別されたときはステ
ップＳ６６で中間文書の対応する部分を文書フォーマッ
ト変換後の最終的な文書（出力例文書１）として文書記
憶領域２８に出力してステップＳ６１に戻り、文書レイ
アウト情報ブロックがなくなるまで上記処理を繰り返
す。一方、ステップＳ６５で対応する入力文の文書構造
解析テーブルブロックがないと判別されたときはステッ
プＳ６１に戻り上記処理を繰り返す。

【００５１】このように、上記文書レイアウト変換処理
では、前記文書アレンジ変換処理でワーク領域３１上に
作成された中間文書が、文書レイアウト情報学習領域２
９に学習されている文書レイアウト情報テーブル（テー
ブル３）に従って文書記憶領域２８に出力される。

【００５２】中間例文書１により具体的に説明すると、
最初に文書レイアウト情報テーブル（テーブル３）の先
頭ブロック３−１が取出され、それと同じ構成要素分類
情報「日付」を持つ文書構造解析テーブル（テーブル
５）上の文書構造解析ブロック５−１が見つけられ、そ
れに対応するワーク領域３１にある中間例文書１の部分
が文書記憶領域２８に出力される。次に、文書レイアウ
ト情報テーブル（テーブル３）では文書レイアウト情報
ブロック３−２の「大見出し」が先にあるので中間例文
書１の「大見出し」に対応する文書部分が文書記憶領域
２８に出力される。これにより、入力例文書２と出力例
文書１で「大見出し」と「差出人」のレイアウトが入れ
替えられたことになる。このようにして中間例文書１は
全て出力例文書１にレイアウト変換されることになる。
最終的には、入力例文書２の内容を持つ中間例文書１
が、入力例文書１のレイアウト情報に従って並べ替えら
れて出力される。

【００５３】以上説明したように、本実施例の文書処理
装置１０は、文書記憶領域２８に記憶されている文書デ
ータの構造を解析する文書解析装置２４と、文書解析装
置２４による解析結果から文書要素のレイアウト情報を
抽出する文書レイアウト情報抽出装置２５と、文書レイ
アウト情報抽出装置２５により抽出したレイアウト情報
を学習するための文書レイアウト情報学習領域２９とを
備え、ＣＰＵ１１によって制御される文書解析装置２４
は、文書記憶領域２８に格納された文書データを１行ず
つ取出して文書データの構造を解析し、その解析結果か
ら文書レイアウト情報を抽出し、抽出した情報を文書レ
イアウト情報学習領域２９に学習データとして記憶する
ようにしているので、他の文書を作成する際に学習して
いる配置情報をＣＲＴ１８やプリンタ２２に表示、印字
するようにすれば、これら表示、印字された配置情報を
参照することによって、元となる文書と同じレイアウト
を持つ文書を容易に作成することができる。

【００５４】また、本実施例の文書処理装置１０は、文
書フォーマットの学習が簡単に行えるという効果がある
が、文書データの読取りの際、ＯＣＲ１６等を用いて文
字を直接読取って符号化して前記学習を行うようにすれ
ばより作業性を高めることが可能になる。

【００５５】なお、本実施例では、文書構成要素ブロッ
クを行単位としているが、これには限定されず、桁単位
の構造管理の追加等を行うことで、同一行に２つ以上の
文書構成要素ブロックがあっても同様に処理することが
できる。

【００５６】また、本実施例の構成要素の分類や文書レ
イアウト情報の抽出及び学習は例示であり、より詳細に
分類及び抽出・学習を行えるのは言うまでもなく、本実
施例で開示した方法と同様の方法によって実現可能であ
る。

【００５７】また、本実施例では入力例文書１，２のよ
うに文書レイアウトの施された文書のフォーマット学習
例を示したが、レイアウトを意識しないで作成された
（桁下げ等が行われていない）べた書きの文書を、学習
したフォーマットでレイアウトすることもできる。

【００５８】また、本実施例の文書フォーマット変換処
理例では、文書フォーマット学習機能により学習したフ
ォーマット学習データを用いたが、これに限らず、例え
ば外部記憶装置等にあるフォーマット学習データを学習
領域に呼び出して用いても良いことは言うまでもない。

【００５９】また、本実施例では、文書アレンジ変換処
理後に、文書レイアウト変換処理を行っているが、まず
レイアウト変換処理を行ない、次にアレンジ変換処理を
行なうようにしてもよいことは勿論である。

【００６０】さらに、本実施例では、文書処理装置１０
を日本語ワードプロセッサに適用した例であるが、文書
書式学習機能を持つ装置であれば他の全ての装置、例え
ばパーソナルコンピュータにも適用できることは言うま
でもない。

【００６１】

【発明の効果】本発明によれば、文書データ記憶手段に
記憶されている文書データの配置情報を解析する配置情
報解析手段と、配置情報解析手段により解析された配置
情報を学習して他の文書を作成する際の学習データとし
て出力する配置情報学習手段とを備えているので、文書
を作成する際に、学習された配置情報を利用することが
でき、元となる文書と同じレイアウトを持つ文書を容易
に作成することができる。

【図面の簡単な説明】

【図１】文書処理装置のブロック構成図である。

【図２】文書処理装置の入力例文書１を示す図である。

【図３】文書処理装置の入力例文書２を示す図である。

【図４】文書処理装置の中間例文書を示す図である。

【図５】文書処理装置の出力例文書を示す図である。

【図６】文書処理装置の文書最小分割処理を示すフロー
チャートである。

【図７】文書処理装置の文書最小分割ブロックテーブル
（テーブル１）を示す図である。

【図８】文書処理装置の文書レイアウト情報抽出処理を
示すフローチャートである。

【図９】文書処理装置のキーワード辞書の構造を示す図
である。

【図１０】文書処理装置の文書構成要素ブロックテーブ
ル（テーブル２）を示す図である。

【図１１】文書処理装置の文書レイアウト情報テーブル
（テーブル３）を示す図である。

【図１２】文書処理装置の文書アレンジ情報抽出処理を
示すフローチャートである。

【図１３】文書処理装置の修飾情報セット処理を示すフ
ローチャートである。

【図１４】文書処理装置の文書アレンジ情報テーブル
（テーブル４）を示す図である。

【図１５】文書処理装置の入力例文書２の文書構造解析
テーブル（テーブル５）を示す図である。

【図１６】文書処理装置の文書アレンジ変換処理を示す
フローチャートである。

【図１７】文書処理装置の文書レイアウト変化処理を示
すフローチャートである。

【符号の説明】

１０文書処理装置１１ＣＰＵ１２ＲＯＭ１３ＲＡＭ１４キーボード１６ＯＣＲ１８ＣＲＴ２０外部記憶装置２２プリンタ２４文書解析装置２５文書レイアウト情報抽出装置２６文書アレンジ情報抽出装置２７文書フォーマット変換装置２８文書記憶領域２９文書レイアウト情報学習領域３０文書アレンジ情報学習領域３１ワーク領域

Claims

【特許請求の範囲】

【請求項１】文書データを記憶する文書データ記憶手
段と、前記文書データ記憶手段に記憶されている文書データの
配置情報を解析する配置情報解析手段と、前記配置情報解析手段により解析された配置情報を学習
して他の文書を作成する際の学習データとして出力する
配置情報学習手段と、を具備したことを特徴とする文書処理装置。
【請求項２】前記配置情報解析手段は、前記文書デー
タ記憶手段から読出した文書データを最小ブロックに分
割する最小ブロック分割手段と、前記最小ブロック分割手段により分割された最小ブロッ
ク毎に文書構成要素及び該ブロック位置情報を抽出する
配置情報抽出手段と、を具備したことを特徴とする請求項１記載の文書処理装
置。