JPH06203018A

JPH06203018A - 文書処理装置

Info

Publication number: JPH06203018A
Application number: JP4360323A
Authority: JP
Inventors: Eisaku Nakatani; 栄作中谷
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 1992-12-29
Filing date: 1992-12-29
Publication date: 1994-07-22

Abstract

(57)【要約】（修正有）【目的】文書フォーマットの解析や文字修飾情報の学
習・変換を容易に行う。【構成】文書処理装置１０は、ＯＣＲ１６と、文書デ
ータの構造を解析する文書解析装置２４と、解析結果か
ら文書要素のアレンジ情報を抽出する装置２６と、文書
データを統一された文書フォーマットに変換する文書フ
ォーマット変換装置２７と、文書レイアウト情報抽出装
置２５により抽出したアレンジ情報を学習するための文
書アレンジ情報学習領域３０とを備え、ＯＣＲは、印刷
済み文書をドットイメージとして読み込んで文書書式情
報を決定し、文字コードに変換するようにし、また、文
書解析装置は、ＯＣＲにより認識されて文書記憶領域２
８に格納された文書データを１行ずつ取り出してその構
造を解析し、文書アレンジ情報を抽出し、各構成要素別
に行なわれている文字修飾情報をその構成要素と関連づ
けて学習して文書アレンジ情報学習領域３０に学習デー
タとして記憶する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ワードプロセッサ等に
用いられる文書処理装置に係り、詳細には、文書書式学
習機能を備えた文書処理装置に関する。

【０００２】

【従来の技術】一般にワードプロセッサ等においては、
文書の書式は一行当りの桁数を設定することにより規定
される。そして、この書式に従って文書が作成され、作
成された文書はプリンタで印刷される。この場合、文字
の表現は、表示あるいは印刷において、ハードウェア
（記憶容量、プリンタ、内蔵フォント、画面解像度等）
に依存する部分が多く、各ワードプロセッサの特徴が出
るところであるが、一般的には文字として、全角、半
角、１／４倍角、横倍角、縦倍角、４倍角が使え、文字
単位あるいは行単位にピッチ指定ができ、下線、文字飾
り、罫線機能を備えたものが多い。また、文章を作成す
る場合、多くの文書処理装置では特定の文字または行に
対して、アンダーラインを引いたり、文字サイズを拡大
することで、その文字または行を強調することができ
る。これらの操作は文字修飾と呼ばれている。

【０００３】また、文書処理装置においては、作成した
文書を印字出力する際に、所望の書式に設定して出力で
きるようになっている。このような書式の設定には、桁
間のピッチ、行間のピッチ、１ページの桁数、１ページ
の行数、文字ポイント等の設定項目にそれぞれ所望の値
を入力するあるいは選択することにより行われている。
こうして設定された書式に基づいて、プリンタ等の印字
装置により文書が出力されるものであるが、この出力に
先立って、その設定された書式でどのような印字出力が
得られるかを表示装置の表示画面上に表示する印刷イメ
ージ表示機能を備えた日本語ワードプロセッサも知られ
ている。

【０００４】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の文書処理装置にあっては、操作者が自由に文
書フォーマットを設定して文書作成ができるようになっ
ているため、作成された文書が何種類もある場合には、
操作者の個性に応じて文書フォーマット（例えば、「見
出し」、「日付」等の順番、アンダーライン、文字飾り
等の書式情報）が複数混在することになり、見づらくな
るという問題があった。すなわち、各個人の好み、目的
に応じて様々な書式設定が行えるものの、ある人が作成
した文書の書式に合わせて他人が文書を作成しようとす
るときには、その都度書式を変更しなければならず、こ
のような書式決定の変更の繰り返しは多くの労力及び時
間を費やしてしまうことになる。特に、製品の使用書や
複数人の分担で執筆される論文・辞書編集等においては
文書フォーマットに整合性が保たなければならないが、
従来の文書処理装置では、あらかじめ決められている１
段組の文書フォーマット（例えば、情報処理学会誌フォ
ーマット）を２段組の文書フォーマットに変換する程度
のものであったため、これではオリジナルな文書フォー
マットへの変換はできない。また、従来の文書処理装置
の場合、構成要素の順番は変換後のフォーマットの構成
要素の順番通りに入力しなければならず、変換前の文書
にも制約があった。さらに、構成要素の順番通りに入力
したとしても文字体、文字サイズ変更、網掛け、アンダ
ーライン等が各人ごとに異なることが考えられ、統一し
た文章フォーマットにすることが困難であった。例え
ば、作成する文章に複数のタイトルが存在し、各タイト
ルに応じた字下げ（段落下げ）を行なう場合、人によっ
てタイトルのレベルに応じた字下げの程度が異なること
がある。この場合、字下げの程度を学習することも考え
られるが用紙のサイズが変わってしまうと一律な字下げ
では見づらいものとなる。

【０００５】本発明の課題は、文書フォーマットの解析
や文字修飾情報の学習・変換を容易に行なうことができ
るようにすることである。

【０００６】

【課題を解決するための手段】本発明の手段は次の通り
である。

【０００７】文字認識手段は、印刷又は手書きされた文
書をドットイメージとして読み込んで解析し、行ピッ
チ、桁ピッチ及び文字ポイント等の文書書式情報を決定
するとともに、決定された文書書式情報に基づいて読み
込んだドットイメージを文字コードで表される文書デー
タに変換するＯＣＲ（optical character reader:光学
式文字読取装置）である。文字認識手段により認識され
た文書データはＲＡＭ等に記憶される。

【０００８】文書解析手段は、文字認識手段により認識
された文書データの構造、特にレイアウト済みの文書の
各構成要素別に施されている文字修飾（例えば、文字
体、文字サイズ変更、網掛け、アンダーライン）の情報
を解析する文書解析装置等である。

【０００９】文書レイアウト抽出手段は、文書解析手段
により解析された解析結果から文書要素のレイアウト情
報を抽出する文書レイアウト抽出装置等である。

【００１０】文書アレンジ抽出手段は、文書解析手段に
より解析された解析結果から文字修飾情報を含むアレン
ジ情報を抽出する文書アレンジ抽出装置等である。

【００１１】学習手段は、文書レイアウト抽出手段によ
り抽出された文書要素のレイアウト情報及び前記文書ア
レンジ抽出手段により抽出されたアレンジ情報を学習し
て文書を作成する際の学習データとして記憶するもの
で、例えば、ＣＰＵ等により実行され、不揮発性メモリ
等に記憶される。

【００１２】文書フォーマット変換手段は、前記学習手
段に記憶された学習データに基づいてフォーマット変換
しようとする文書データの文書フォーマットを変換する
文書フォーマット変換装置等である。

【００１３】文書データ出力手段は、文書フォーマット
変換手段によりフォーマット変換されたアレンジ情報に
従って前記出力対象の文書データを出力するもので、例
えばＣＲＴ等の表示装置やプリンタ等の印刷装置であ
る。

【００１４】

【作用】本発明の手段の作用は次の通りである。

【００１５】先ず、印刷又は手書きされた文書が、文字
認識手段によりドットイメージとして読み込まれ、読み
込まれたドットイメージデータは行間及び桁間の空白部
を基に解析されて行ピッチ、桁ピッチ及び文字ポイント
等の文書書式情報が決定される。さらに、決定された行
ピッチ、桁ピッチ及び文字ポイント等の文書書式情報に
基づいて読み込んだドットイメージが文字コードで表さ
れる文書データに変換され、ＲＡＭ等に記憶される。

【００１６】この状態において、文字認識手段により印
刷又は手書きされたドットイメージから文字コードで表
わされる文書データが得られると、文書解析手段により
文字認識手段により認識された文書データから文書レイ
アウト抽出手段及び文書アレンジ抽出手段によって文書
要素のレイアウト情報及び文字修飾情報を含むアレンジ
情報が抽出される。

【００１７】そして、情報学習手段により前記文書レイ
アウト抽出手段及び前記文書アレンジ抽出手段により抽
出された文書レイアウト情報及び文書アレンジ情報が学
習されて他の文書を作成する際の学習データとして記憶
される。

【００１８】一方、フォーマット変換手段は、前記学習
手段に学習された学習データに基づいてフォーマット変
換しようとする文書データの文書フォーマットを変換す
る。そして、フォーマット変換されたアレンジ情報に従
って文書フォーマット変換手段が出力対象の文書データ
を出力する。

【００１９】従って、文書ファイルがないような文書で
あっても、印刷済み文書があれば、文書を作成する際
に、各構成要素別に行なわれている文字修飾（文字体・
文字サイズ変更・網掛け・アンダーライン等）の情報が
その構成要素と関連づけて学習され、この学習結果を用
いて、ある文書に対しその構成要素毎に文字修飾を行な
うことができ、各構成要素別に行なわれている文字修飾
をいずれかの文書の各構成要素別の文字修飾に統一する
ことができる。

【００２０】

【実施例】以下、図１〜図２１を参照して実施例を説明
する。

【００２１】図１〜図２１は文書処理装置１０の一実施
例を示す図であり、ワードプロセッサに適用した例であ
る。

【００２２】先ず、構成を説明する。図１は文書処理装
置１０のブロック図である。この図において、１１は装
置全体の制御、並びに後述する文書最小分割処理、文書
レイアウト情報抽出処理、文書アレンジ情報抽出処理、
文書タイトル記号抽出処理、学習処理、文書構造解析処
理、文書アレンジ変換処理、文書レイアウト変換処理の
制御を行なうＣＰＵであり、ＣＰＵ１１は後述するＲＯ
Ｍ１２に格納されているマイクロプログラムに従って文
書処理装置の各種の動作を制御する。ＣＰＵ１１には、
所定のプログラム及び文字パターン等の固定データを記
憶するＲＯＭ１２と、演算に使用するデータや演算結果
などを一時的に記憶するＲＡＭ１３と、キーボード１４
を制御するキーボード制御部１５と、ＯＣＲ（optical
character reader:光学式文字読取装置）１６を制御す
るＯＣＲ制御部１７と、入力された画像データ及び配置
情報、アレンジ情報を画面表示するＣＲＴ１８を制御す
るＣＲＴ制御部１９と、文書ファイルを記憶するフロッ
ピディスク等の外部記憶装置２０と、外部記憶装置２０
に対してデータの書込み／読出しを制御する外部記憶制
御部２１と、文書を印刷出力するプリンタ２２を制御す
るプリンタ制御部２３と、後述する文書記憶領域２８に
記憶されている文書データの構造を解析する文書解析装
置２４と、文書解析装置２４による解析結果から文書要
素のレイアウト情報（配置情報）を抽出する文書レイア
ウト情報抽出装置２５と、文書解析装置２４による解析
結果から文書要素のアレンジ情報を抽出する文書アレン
ジ情報抽出装置２６と、抽出した情報を学習した学習デ
ータを基に文書データを統一された文書フォーマットに
変換する文書フォーマット変換装置２７とがそれぞれ接
続されている。ＲＯＭ１２は、システム立ち上げ時のＯ
Ｓ（Operating System）となるＩＰＬプログラム、キー
ボード１４、ＯＣＲ１６、ＣＲＴ１９、外部記憶装置２
０の入出力制御を行うためのＩＯＣＳ（Input Output C
ontrol System）プログラム、キーワードを検索するた
めのキーワード辞書、及び文字フォントデータなどを記
憶する固定メモリである。

【００２３】また、ＲＡＭ１３の記憶領域は所定用途毎
に分割して使用され、具体的には、入力された文書デー
タを記憶する文書記憶領域２８、文書レイアウト情報抽
出装置２５により抽出したレイアウト情報（配置情報）
を学習して学習データとして記憶するための文書レイア
ウト情報学習領域２９と、文書アレンジ情報抽出装置２
６により抽出したアレンジ情報を学習して学習データと
して記憶するための文書アレンジ情報学習領域３０と、
演算処理中のデータを一時的に格納するワーク領域３１
を備えている。上記各記憶領域のうち、学習データを記
憶する文書レイアウト情報学習領域２９及び文書アレン
ジ情報学習領域３０は、電源オフ後もその記憶内容を保
持するＥＥＰＲＯＭ等の不揮発性メモリや電源バックア
ップされたＲＡＭが使用される。

【００２４】ＣＰＵ１１は、外部記憶装置２０に記憶さ
れている文書データを読込んでＲＡＭ１３の文書記憶領
域２８に格納する。また、ＣＰＵ１１は上記各装置及び
ＲＡＭ１３を制御して文書フォーマット学習及び文書フ
ォーマット変換を実行する。すなわち、ＣＰＵ１１によ
って制御される文書解析装置２４は、文書記憶領域２８
に格納された文書データを１行ずつ取出して文書データ
の構造を解析し（解析手法の詳細な説明は後述する）、
その解析結果から文書レイアウト情報及び文書アレンジ
情報を抽出し、抽出した情報を文書レイアウト情報学習
領域２９及び文書アレンジ情報学習領域３０に学習デー
タとして記憶する。また、統一されていない文書データ
を統一しようとするときには文書記憶領域２８から統一
とようとする文書データを読出し、文書フォーマット変
換装置２７により文書レイアウト情報学習領域２９及び
文書アレンジ情報学習領域３０から読出した学習データ
を用いて文書フォーマット変換してＣＲＴ１８あるいは
プリンタ２２等に出力する。

【００２５】また、上記ワーク領域３１には、図８〜図
２１で後述する各処理（すなわち、文書最小分割処理、
文書レイアウト情報抽出処理、文書アレンジ情報抽出処
理、文書タイトル記号抽出処理、学習処理、文書構造解
析処理、文書アレンジ変換処理）によって文書最小分割
ブロックテーブル（テーブル１）、文書構成要素ブロッ
クテーブル（テーブル２）、文書構成要素レイアウト情
報テーブル（テーブル３）、文書アレンジ情報テーブル
（テーブル４）、入力例文書２の文書構造解析テーブル
（テーブル５）、日付書式パターンテーブル（テーブ
ル）が作成される。

【００２６】キーボード１４は、英数字、平仮名等を入
力するキーや、カーソル移動キー、実行キー、中止キー
等のファンクションキーが配設された操作盤である。ま
た、キーボード制御部１５は、キーボード１４上のいず
れかのキーが操作された場合、そのキーに対応する所定
のキーコードに変換し、ＣＰＵ１１に出力する。ＯＣＲ
１６は、帳票等に印刷あるいは手書きされた文字を光学
的スキャナにより読取り、識別、判断処理した後、文字
の符号化を行なう。また、プリンタ２２は予め作成者が
設定しておいた書式情報または学習機能により文書フォ
ーマット変換された書式情報に従ってＲＡＭ１３に記憶
された文書を印刷出力するためのものである。

【００２７】ＯＣＲ１６は、印刷あるいは手書きされた
文字を光学的スキャナにより読み取り、識別・判断処理
した後、文字の符号化を行なうものであり、既に印刷済
みの文書を光学的スキャナによりイメージデータとして
読み取るイメージデータ読取装置１６ａと、読み取られ
た文書のイメージデータを文字コードで構成される通常
の文書データに変換するイメージデータ解析装置１６ｂ
とにより構成されている。

【００２８】次に、本実施例の動作を説明する。

【００２９】本実施例に係る文書処理装置１０は、文書
データの構造を解析して、文書フォーットの指定・学習
を行なうものであるが、構造解析の対象となる文書デー
タ自体ついてもキーボード１４等によりキー入力された
文書データを用いるだけではなく、上記ＯＣＲ１６を用
いることによって既に印刷済みの文書から文書情報を簡
単に学習できるようにする。

【００３０】以下、図６及び図７を参照しながら上記Ｏ
ＣＲ１６を用いた文字パターン解析処理について説明す
る。

【００３１】図６はＯＣＲ１６を用いて文字パターン解
析する文字パターン解析処理を示すフローチャートであ
り、本文字パターン解析文書処理を実行することにより
印刷済みの文書のイメージデータから文字コードが解析
される。図６中、符号Ｓｎ（ｎ＝１，２，…）はフロー
の各ステップを示している。

【００３２】先ず、ステップＳ１０１でイメージデータ
読取装置１６ａにより印刷された文書をドットイメージ
として読み取り、読み込んだドットイメージをＲＡＭ１
３の所定の記憶エリアに読み込む。次いで、ステップＳ
１０２で行間・桁間余白を考慮して文書書式情報として
の行ピッチ、桁ピッチ、文字ポイントを取り込み、ステ
ップＳ１０３でイメージデータ解析装置１６ｂにより各
文字ドットデータから文字コードを決定して文字パター
ンの解析処理を終了する。

【００３３】すなわち、印刷済み文書をまずドットイメ
ージとして読み込み、そのドットイメージデータを行間
及び桁間の空白部を参考にして文書書式情報としての行
ピッチ・桁ピッチ及び文字ポイントを決定する。例え
ば、記憶エリアに読み込まれた文書のドットイメージ例
を図７に示すように、ある行のイメージデータが「１、
第一回」、その次の行のイメージデータが「これから
の」であるとき、同図破線に示すように文字を切り出す
ことになる。このようにして、ドットイメージデータが
切り出されることによって行間及び桁間の空白部も決ま
ることになり同図に示すように文書書式情報としての行
ピッチ・桁ピッチ及び文字ポイントが決定できる。この
場合、同図破線に示すように１文字を正確に切り出さな
いと文字の認識自体ができないから文字を正確に切り出
すことができる状態にあれば行ピッチ・桁ピッチ及び文
字ポイントも正確に決定できると考えられる。そして、
得られた文書書式情報に基づいて読み込んだドットイメ
ージデータを文字単位ドットデータごとに切り分けて文
字コードに変換する。

【００３４】このように、キー入力された文書データを
用いるだけではなく、既に印刷済みの文書から文書書式
情報を取り出すことができ、文書の文書書式情報が学習
できるようになる。

【００３５】また、本実施例に係る文書処理装置１０
は、文書のイメージデータを解析して文字コード及び文
書書式情報を決定するとともに、更にこのようにして得
られた文書データの構造を解析して、文書フォーットの
指定・学習を行なう文書フォーマット学習機能と、学習
した文書フォーマットを用いて変換しようとする文書デ
ータを別の異なるフォーマットの文書に変換する文書フ
ォーマット変換機能とを備えている。

【００３６】上記文書フォーマット学習機能は、レイア
ウト済みの文書の構造（文字のつながりや構成要素分
類）をタイトル記号や句点の有無及びキーワード等を基
に判別して、この判別結果からフォーマット情報や文字
のアレンジ情報を得、その情報を学習するものである。
また、上記文書フォーマット変換機能は、上記文書フォ
ーマット学習と同じ手段で文書の構造を判別した後、各
構成要素を学習情報により並び替え、更に文字のアレン
ジを行うものである。

【００３７】以下、図２〜図２１を参照しながら上記文
書フォーマット学習機能及び文書フォーマット変換機能
について具体的に説明する。

【００３８】図２は文書フォーマット学習される入力例
文書（入力例文書１）、図３は学習した文書フォーマッ
ト学習結果を用いて文書フォーマット変換される入力例
文書（入力例文書２）、図４は出力例文書１に変換途中
の文書を示す中間例文書（中間例文書１）、図５は文書
フォーマット変換された出力例文書（出力例文書１）を
それぞれ示す図であり、本実施例では入力例文書１に対
して文書フォーマット学習を行ない、学習した文書フォ
ーマット学習結果を用いて入力例文書２を出力例文書１
に変換する変換例を示す。

【００３９】特に、本実施例では、レイアウト済みの文
書の構造を解析して、各構成要素別に行なわれている文
字修飾（文字体・文字サイズ変更・網掛け・アンダーラ
イン等）の情報をその構成要素と関連づけて学習する。
そして、この学習結果を用いて、ある文書に対しその構
成要素毎に文字修飾を行なう。これによって、オリジナ
ルな文書の文字修飾情報の学習を簡単に行なうととも
に、その学習した文字修飾情報の学習結果を用いて、あ
る文書の文字修飾を簡単に変更できるようにする。

【００４０】なお、本実施例では説明の便宜上、文字は
全角のみを使用し、同一行に複数個の文書構成要素ブロ
ック（図８及び図９で後述する）は存在しない例文を用
いるものとする。

【００４１】○文書フォーマット学習文書フォーマット学習は、文書最小分割処理（図８及び
図９）、文書レイアウト情報抽出処理（図１０〜図１
３）、文書アレンジ情報抽出処理（図１４〜図１８）及
び学習処理からなる。

【００４２】また、既に前記ＲＡＭ１３の文書記憶領域
２８には図２に示す入力例文書１の文書が格納されてい
るものとする。

【００４３】文書最小分割処理図８は文書の構造を解析するために文書データを最小ブ
ロックに区分けする文書最小分割処理を示すフローチャ
ートであり、本文書最小分割処理を実行することにより
図９に示す文書最小分割ブロックテーブル（テーブル
１）が作成される。図８中、符号Ｓｎ（ｎ＝１，２，
…）はフローの各ステップを示している。

【００４４】先ず、ステップＳ１でＲＡＭ１３の文書記
憶領域２８から文書データを１行づつ取出し、ステップ
Ｓ２で文書データの取出しができかた否かを判別する。
文書の取出しができなかったときは文書末と判断して本
フローの処理を終え、文書の取出しができたときはステ
ップＳ３で文書行取出しポインタを更新する。次いで、
ステップＳ４で有効文字をサーチし、ステップＳ５で有
効文字があると判別されたときはステップＳ６に進み、
有効文字がないと判断したときはステップＳ１に戻って
次の行の文書データの取出し処理を行なう。ここで、有
効文字サーチによって有効文字とされる文字データ以外
のデータ（例えば、スペース）は読飛ばされる。この有
効文字サーチを行なうことにより、例えば有効文字がス
ペースを挟んで２箇所あれば１ブロックを作成した後、
同一行にもう１つのブロックを作成することができる。
従って、文書データの行数よりも多くのブロックが作成
されることもある。

【００４５】ステップＳ６では文書行位置及び開始桁位
置を図９に示す文書最小分割ブロックテーブル（テーブ
ル１）にセットし、ステップＳ７でスペース・未入力、
改行が現れるまで文字サーチを行なう。次いで、ステッ
プＳ８で終了桁位置を文書最小分割ブロックテーブル
（テーブル１）にセットし、ステップＳ９で「ブロック
属性（後述）」を文書最小分割ブロックテーブル（テー
ブル１）にセットしてステップＳ４に戻って上記処理を
繰り返す。

【００４６】上記文書最小分割処理により、ＲＡＭ１３
のワーク領域３１に図９に示すような文書最小分割ブロ
ックテーブル（テーブル１）が作成されることになる。
この文書最小分割ブロックテーブル（テーブル１）は、
文書記憶領域２８から１行づつ取出した文書データを、
未入力・改行・スペースで区切られた最小ブロック１−
１，１−２，…，１−５，１−６，１−７，１−８に分
割して記憶するブロックテーブルである。文書最小分割
ブロックテーブルの１ブロックは、図９に示すように文
書の区切り情報に基づく「文書行位置」、「開始桁位
置」及び「終了桁位置」と、文書最小分割ブロックが何
で区切られたか及び、句点・タイトル記号を含んでいる
かを示す「ブロック属性」とからなり、上述した最小分
割ブロック毎に上記「ブロック属性」、「文書行位
置」、「開始桁位置」及び「終了桁位置」がセットされ
る。

【００４７】また、上記「ブロック属性」は、８ビット
を４ビットと４ビットに分けたビット情報でセットされ
るものであり、各ビットに対する内容は次のようなもの
である。すなわち、ビット情報ｏｎの場合は「０」が句
点を含む、「１」がタイトル記号を含む、「２」がスペ
ースで分割される、「３」が未入力・改行で分割され
る、「４」が行末まで文字が続く、「５」〜「７」が未
使用、であることをそれぞれ示している。例えば、文書
最小分割ブロック１−１のブロック属性「０８Ｈ」は、
８＝２3で表される３ビット目のビット情報「未入力・
改行で分割される」を示している。また、文書最小分割
ブロック１−５のブロック属性「１０Ｈ」は、４ビット
目のビット情報「行末まで文字が続く」を示している。
さらに、文書最小分割ブロック１−６のブロック属性
「０９Ｈ」は、「０８Ｈ」にビット情報「０」を加えた
ものであり、したがって、上述した３ビット目のビット
情報「未入力・改行で分割される」とビット情報「句点
を含む」であることを示している。

【００４８】このように、上記文書最小分割処理では、
文書解析装置２４が、文書記憶領域２８から文書データ
を１行ずつ取出し、１行ずつ取出した文書データを未入
力・改行・スペースで区切られた最小分割ブロックに分
割し、文書最小分割ブロックテーブル（テーブル１）を
ワーク領域３１に作成する。この時に、文書最小分割ブ
ロックが何で区切られたか及び句点・タイトル記号を含
んであるかを示すブロック属性もセットする。

【００４９】以下、入力例文書１（図２）を例に採り上
記文書最小分割処理を具体的に説明する。

【００５０】先ず、図２に示す入力例文書１の文書デー
タから、文書１行目を取出し、有効文字をサーチする。
この場合の有効文字は「平成３年１０月２３日」である
から「文書行位置」は「０１」行目、「開始桁位置」は
「２５」桁目、「終了桁位置」は「３４」桁目となり、
これらの情報が文書最小分割ブロックテーブル（テーブ
ル１）に文書最小分割ブロック１−１としてセットされ
る。また、有効文字「平成３年１０月２３日」は改行で
分割されて最小分割ブロックとなっているから「ブロッ
ク属性」は「０８Ｈ」となり、そのビット情報には
「３：未入力・改行で分割される」がセットされる。こ
のように、先ず文書１行目が取り出され、２４桁目まで
のスペースは読み飛ばされ２５桁目からの「平成３年１
０月２３日」が文書最小分割ブロックテーブル（テーブ
ル１）の最小分割ブロック１−１となる。この最小分割
ブロックは改行で区切られているので「ブロック属性」
が「０８Ｈ」となる。次に、文書２行目が取り出される
が、この２行目には有効文字はなく行のみであるため、
最小分割ブロックは作成されない。そして、次に文書３
行目が取り出されるが、この３行目には先頭から有効文
字「出張報告書」があり、かつ改行で区切られているか
ら「ブロック属性」は「０８Ｈ」、「文書行位置」は
「０３」行目、「開始桁位置」は「１３」桁目、「終了
桁位置」は「２２」桁目となり、これらの情報が文書最
小分割ブロックテーブル（テーブル１）の最小分割ブロ
ック１−２としてセットされる。このようにして入力例
文書１の最小行まで解析され、全ての最小分割ブロック
が作成される。

【００５１】文書レイアウト情報抽出処理図１０は文書データ構造の解析結果から文書要素のレイ
アウト情報を抽出する文書レイアウト情報抽出処理を示
すフローチャートであり、本フローは前記文書最小分割
ブロックが連結できるか否かを判別してブロックの属性
を付与する処理である。本処理を実行することにより図
１２に示す文書構成要素ブロックテーブル（テーブル
２）及び図１３に示す文書レイアウト情報テーブル（テ
ーブル３）が作成される。

【００５２】先ず、ステップＳ１１で前記文書最小分割
処理（図８）で作成した文書最小分割ブロックを取出
し、ステップＳ１２で文書最小分割ブロックが取出しで
きたか否かを判別する。文書最小分割ブロックの取出し
ができたときはステップＳ１３で取出しポインタを更新
し、ステップＳ１４で図１１に示すキーワード辞書を参
照して取出した文書最小分割ブロックの文字列にキーワ
ードがあるか否かをチェックする。

【００５３】ここで、キーワード辞書とは、文書構成要
素特有の用語を辞書化したものであり、ＲＯＭ１２に記
憶されている。キーワード辞書は、文書構成要素分類に
よって分類されており、最小分割ブロックから文書構成
要素ブロックを作成する段階で、そのブロックの構成要
素分類を決定する要素の一つとなる。例えば、その一例
として図１１に示すようなキーワード辞書がある。図１
１に示すキーワード辞書は、日付に関するキーワード
「平成」、「昭和」、「明治」、…、「年」、「月」、
「日」等と、宛先・差出人に関するキーワード「株式会
社」、「有限会社」、…、「営業部」、「企画部」等を
備えている。このキーワード辞書を参照することによっ
て文書最小分割ブロックの文字列の中にキーワード辞書
に登録されたキーワードがあるか否かをチェックする。
例えば、文書最小分割ブロックテーブル（テーブル１）
の最小分割ブロック１−１（図２の入力例文書１の１行
目を分割したブロック）の文字列には、「平成」、
「月」、「日」の日付に関するキーワードがあり、ま
た、図２の入力例文書１の５行目を分割したブロックの
文字列には、「営業部」という宛名・差出人に関するキ
ーワードがある。なお、キーワード辞書を参照して該当
する文字列が見つかっただけでは、これによって直ちに
所定の文書構成要素ブロックであるとすることはでき
ず、次の文字列・ブロックとの連結状態をみることによ
って初めて文書構成要素ブロックであると判断すること
ができる。例えば、上述した最小分割ブロック１−１の
文字列には「平成」などがあるから、上記ステップＳ１
４のキーワードチェックの段階で日付情報のキーワード
として候補となり、また、この文字列は改行で終わって
いるから結果的に日付の文書構成要素ブロックとされ
る。ところが、キーワード辞書に登録されている同じ
「平成」のキーワードであっても、例えば図２の入力例
文書１の８行目の文字列「平成」では改行等がなく、そ
の前後の文字列から通常の文書の文字列がつながってい
ると判別されるから日付の文書構成ブロックと判断され
ない。

【００５４】図１０に示す文書レイアウト情報抽出処理
フローに戻って、ステップＳ１４でキーワードチェック
が済むとステップＳ１５で文書を取出した文書最小分割
ブロックが次の文書最小分割ブロックと連結するかを判
断し、連結するときはステップＳ１１に戻って上記処理
を繰り返すことによって文書最小分割ブロック同士を連
結する。また、取出した文書最小分割ブロックが次の文
書最小分割ブロックと連結しないときはステップＳ１７
に進む。また、上記ステップＳ１２で文書最小分割ブロ
ックがないときはそのままステップＳ１７に進む。この
ようにして、キーワードがチェックされた後、文書最小
分割ブロックの連結が決定されると文書構成要素ブロッ
クが作成できることになり、図１２に示す文書構成要素
ブロックテーブル（テーブル２）が作成される。また、
この文書構成要素ブロックの位置情報は以下に述べるス
テップＳ１７及びＳ１８で図１３に示す文書レイアウト
情報テーブル（テーブル３）にセットされることにな
る。すなわち、ステップＳ１７で上記キーワードチェッ
ク及びタイトル記号等を参照して「構成要素分類（図１
２参照）」を決定しこの「構成要素分類」を図１２に示
す文書構成要素ブロックテーブル（テーブル２）にセッ
トするとともに、連結情報を基に決定された「先頭最小
分割ブロック番号」及び「最終最小分割ブロック番号」
を文書構成要素ブロックテーブル（テーブル２）にセッ
トし、さらに、上記「構成要素分類」を図１３に示す文
書レイアウト情報テーブル（テーブル３）にセットす
る。次いで、ステップＳ１８で上記文書構成要素ブロッ
クの位置情報を文書レイアウト情報テーブル（テーブル
３）にセットし、ステップＳ１９でまだ取出すべき文書
最小分割ブロックがあるか否かをチェックし、ステップ
Ｓ２０で取出すべき次の文書最小分割ブロックがあると
判別されたときはステップＳ１１に戻って次の文書最小
分割ブロックについて同様の配置情報抽出処理を繰り返
す。また、全ブロックが終了していると判別されたとき
には本フローの処理を終える。

【００５５】上記文書レイアウト情報抽出処理により、
ＲＡＭ１３のワーク領域３１に図１２に示す文書構成要
素ブロックテーブル（テーブル２）及び図１３に示す文
書レイアウト情報テーブル（テーブル３）が作成される
ことになる。

【００５６】上記文書構成要素ブロックテーブル（テー
ブル２）は、文書最小分割ブロックの１つ１つについて
文書要素を分類しこれを文書構成要素ブロック２−１，
２−２，…，２−６毎に分類・記憶するものである。文
書構成要素ブロックテーブル（テーブル２）の文書構成
要素ブロックの１ブロックは図１２に示すように日付、
タイトル等の最小分割文書の構成要素を示す「構成要素
分類」と、最小分割ブロックの先頭及び最終番号を示す
「先頭最小分割ブロック番号」及び「最終最小分割ブロ
ック番号」とからなり、「構成要素分類」の内容は次の
ようなものである。すなわち、「０１」が日付、「０
２」が作成者、「０３」が差出人、「０４」が宛名、
「０５」が大見出し、「０６」が序文、「０７」が本
文、「０８」が追記文、「０９」がその他であることを
それぞれ示す。例えば、文書構成要素ブロック２−１
は、先頭最小分割ブロック番号が「０１」の最小分割ブ
ロック（前記図９の最小分割ブロック１−１に該当す
る）ものであり、この最小分割ブロックは図９の文書最
小分割ブロックテーブル（テーブル１）のブロック属性
から分かるように次に連結される最小分割ブロックはな
いから最終最小分割ブロック番号は「０１」となる。ま
た、この文書構成要素ブロック２−１の構成要素分類は
「０１」の「日付」である（図２の入力例文書１の１行
目参照）。また、文書構成要素ブロック２−２は、先頭
最小分割ブロック番号が「０２」の最小分割ブロック
（前記図９の最小分割ブロック２−１に該当する）もの
であり、この最小分割ブロックは文書最小分割ブロック
テーブル（テーブル１）のブロック属性から分かるよう
に次に連結される最小分割ブロックはないから最終最小
分割ブロック番号は「０２」となる。また、この文書構
成要素ブロック２−２の構成要素分類は「０５」の「大
見出し」である（図２の入力例文書１の３行目参照）。
さらに、文書構成要素ブロック２−６は、先頭最小分割
ブロック番号が「０７」の最小分割ブロック（前記図９
の最小分割ブロック１−８に該当する）ものであり、こ
の最小分割ブロックは図２の入力例文書１の１３行目か
ら明かなように本文でありかつ終了コード「００」があ
るから最終最小分割ブロック番号は「２１」となる。ま
た、この文書構成要素ブロック２−６の構成要素分類は
「０７」の「本文」である。ここで、本実施例では、上
記に加え、個別情報として文字サイズ情報・文字修飾情
報・タイトル記号パターン情報・桁下げ情報を設け、特
に、レイアウト済みの文書の構造を解析して、各構成要
素別に行われている文字修飾（文字体・文字サイズ変更
・網掛け・アンダーライン等）の情報をその構成要素と
関連づけて学習する。次に、この学習を用いて、ある文
書をその構成要素毎に文字修飾を行う。

【００５７】一方、上記レイアウト情報テーブル（テー
ブル３）の文書レイアウト情報ブロックの１ブロック
は、上述した文書構成要素ブロックで用いた「構成要素
分類」と、そのブロックの順番を記憶する「位置情報」
からなり、「位置情報」の内容は「０１」が左よせ、
「０２」がセンタリング、「０４」が右よせ、である。

【００５８】このように、上記文書レイアウト情報抽出
処理では、図８の文書最小分割処理で作成した文書最小
分割ブロックの１つ１つについて図１１に示したキーワ
ード辞書及びタイトル記号（例えば、１．、２．、−、
○、☆等）を参考にしながら文書構成要素ブロックテー
ブル（テーブル２）を作成し、同時にそのブロックの位
置情報を格納した文書レイアウト情報テーブル（テーブ
ル３）をワーク領域３１に作成する。この文書レイアウ
ト情報テーブル（テーブル３）に格納される順序が文書
上の文書構成要素ブロックのレイアウト順序を表わすこ
とになる。例えば、この文書レイアウト情報テーブル
（テーブル３）上で「大見出し」より「日付」が先にあ
れば、それは文書レイアウトでも「大見出し」より「日
付」が先にレイアウトされることを表わす。すなわち、
最初に文書最小分割ブロックに切り分けしたものを、あ
る一定のグループに纏められるものは纏めてその連結さ
れたブロックに文書構造要素を表わすブロック属性とそ
の順番（位置情報）を順次文書レイアウト情報テーブル
（テーブル３）に学習データとして記憶しておくように
する。そして、後述する文書フォーマット変換を行なう
場合には、この文書レイアウト情報テーブル（テーブル
３）に従って配置変換すべき文書データの文書レイアウ
トが変換されることになる。

【００５９】以下、入力例文書１を例に採り上記文書レ
イアウト情報抽出処理を具体的に説明する。

【００６０】先ず、文書最小分割ブロックテーブル（テ
ーブル１）の先頭の文書最小分割ブロック１−１が取出
される。次に、キーワード辞書を参照すると、この文書
最小ブロック１−１の文字列の中に「日付」に関するキ
ーワードが含まれていることが分かる。この文書最小ブ
ロック１−１が「日付」の記述のみで構成されているこ
と及び文書の先頭であって、かつ右よせされていること
などから、「日付」の文書構成要素ブロックであると判
断される。次の最小分割ブロック１−２は前記最小分割
ブロック１−１と１行離れているため、連結されず別の
文書構成要素ブロックとされる。この段階で、構成要素
分類「０１（日付）」を持つ文書構成要素テーブル（テ
ーブル２）の文書構成要素ブロック２−１が作成され、
この文書構成要素ブロック２−１は最小分割ブロック１
−１のみで構成されているので「先頭最小分割ブロック
番号」及び「最終最小分割ブロック番号」はともに「０
１（最小分割ブロック１−１を示す）」がセットされ
る。と同時に、文書レイアウト情報テーブル（テーブル
３）の文書レイアウト情報ブロック３−１が作成され、
構成要素分類情報「０１（日付）」及び位置情報「０４
（右よせ）」が文書レイアウト情報ブロック３−１にセ
ットされる。最小分割ブロックが連結される例として
は、入力例文書１の行位置０８行目がある。この行位置
０８行目の最小分割ブロック１−５は行末まで文字が続
いているので、次の最小分割ブロック１−６と連結され
る。また、最小分割ブロック１−６が句点を含み、本文
の前にあることなどの条件から、この文書構成要素ブロ
ックは序文と見なされ、文書構成要素ブロック３−５が
作成される。このようにして、文書構成要素ブロックテ
ーブル（テーブル２）及び文書レイアウト情報テーブル
（テーブル３）が作成される。

【００６１】上記文書構成要素ブロックテーブル（テー
ブル２）及び文書レイアウト情報テーブル（テーブル
３）が作成されることによって文書レイアウト情報（配
置情報）利用した学習ができることになるが、本実施例
に係る文書処理装置１０では上述した文書レイアウト情
報抽出処理に加えて、書式パターンや倍角、アンダーラ
イン等のアレンジ情報も学習可能にするために、上記文
書レイアウト情報抽出処理で行ったレイアウト情報抽出
処理と同様の処理をアレンジ情報（書式パターン情報・
文字サイズ情報・文字修飾情報・タイトル記号パターン
情報・桁下げ情報等）抽出処理として行なうようにす
る。

【００６２】文書アレンジ情報抽出処理図１４は文書データ構造の解析結果から文書要素のアレ
ンジ情報を抽出する文書アレンジ情報抽出処理を示すフ
ローチャートであり、本処理を実行することにより図１
８に示す文書アレンジ情報テーブル（テーブル４）が作
成される。また、図１５は日付パターン番号を日付書式
パターンテーブル（テーブル６）にセットする日付パタ
ーン学習処理を示すフローチャートであり、図１６は修
飾情報を文書アレンジ情報テーブル（テーブル４）にセ
ットする修飾情報セット処理を示すフローチャートであ
る。

【００６３】図１４において、先ず、ステップＳ２１で
前記文書レイアウト情報抽出処理（図１０）で作成した
文書構成要素ブロックテーブル（テーブル２）の文書構
成要素ブロックを取出し、ステップＳ２２で文書構成要
素ブロックの取出しができたか否かを判別する。文書構
成要素ブロックの取出しができなかったときは次ブロッ
クなしと判断して本フローの処理を終え、文書構成要素
ブロックの取出しができたときはステップＳ２３で取出
しポインタを更新する。次いで、ステップＳ２４で取出
した文書構成要素ブロックテーブル（テーブル２）の文
書構成要素ブロックの「構成要素分類（図１２参照）」
を図１８に示す文書アレンジ情報テーブル（テーブル
４）にセットする。すなわち、前記文書構成要素ブロッ
クテーブル（テーブル２）の文書構成要素ブロックの
「構成要素分類」と同一の構成要素分類情報が文書アレ
ンジ情報テーブル（テーブル４）にセットされる。次い
で、ステップＳ２３で後述する「構成要素分類別書式パ
ターン」を文書アレンジ情報テーブル（テーブル４）に
セットする。次いで、ステップＳ２４で「修飾情報」を
文書アレンジ情報テーブル（テーブル４）にセットし、
ステップＳ２５で「個別情報」を文書アレンジ情報テー
ブル（テーブル４）にセットしてステップＳ２１に戻っ
て上記文書アレンジ抽出処理を繰り返す。この場合、取
出した文書構成要素ブロックの文書に「修飾情報（例え
ば、倍角、アンダーライン、網かけ等）」がなければ修
飾情報サイズのみ（すなわち、ワード情報のみ）がセッ
トされることとなり、「修飾情報」があるときには図１
６に示す修飾情報セット処理フローで修飾情報がセット
される。「文書成要素分類」によって固有のアレンジ情
報があったときはそのアレンジ情報は文書アレンジ情報
ブロックの「個別情報」にセットされる。

【００６４】図１５は、構成要素分類別書式パターン情
報が日付書式パターンであるとき日付パターン番号を日
付書式パターンテーブル（図１８のテーブル６参照）に
セットする日付パターン学習処理を示すフローチャート
である。

【００６５】先ず、ステップＳ３１で構成要素分類別書
式パターン情報が「日付」であるとき日付パターン番号
日付パターンテーブル（テーブル４）と文書文字列を比
較し、ステップＳ３２で日付パターンがあると判別され
たときには対応する日付パターン番号を日付書式パター
ンテーブルにセットして本フローの処理を終える。ま
た、上記ステップＳ３２で日付パターンがないと判別さ
れたときにはそのまま本フローの処理を終える。

【００６６】図１６は修飾情報を文書アレンジ情報テー
ブル（テーブル４）にセットする修飾情報セット処理の
フローチャートである。

【００６７】先ず、ステップＳ４１でアンダーライン修
飾されているかをチェックし、ステップＳ４２でアンダ
ーライン修飾があると判別されたときにはステップＳ４
３でアンダーラインの線種（例えば、細実線アンダーラ
イン、太実線アンダーライン等）を取込み、ステップＳ
４４でこの取込んだ情報を基に修飾情報を作成して文書
アレンジ情報テーブル（テーブル４）にセットする。ま
た、上記ステップＳ４２でアンダーライン修飾がないと
判別されたときにはそのままステップＳ４５に進む。次
いで、ステップＳ４５で網掛け修飾されているかをチェ
ックし、ステップＳ４６で網掛け修飾があると判別され
たときにはステップＳ４７で網掛けの種類（例えば、網
掛１、網掛２等）を取込み、ステップＳ４８でこの取込
んだ情報を基に修飾情報を作成して文書アレンジ情報テ
ーブル（テーブル４）にセットする。また、上記ステッ
プＳ４５で網掛け修飾がないと判別されたときにはその
ままステップＳ４９に進む。そして、ステップＳ４９で
文字サイズが変更されているかをチェックし、ステップ
Ｓ５０で文字サイズの変更があると判別されたときには
ステップＳ５１で文字サイズの種類（例えば、半角、横
倍角等）を取込み、ステップＳ５２でこの取込んだ情報
を基に修飾情報を作成して文書アレンジ情報テーブル
（テーブル４）にセットする。また、上記ステップＳ５
０で文字サイズの変更がないと判別されたときにはその
ままステップＳ５３に進む。最後に、ステップＳ５３で
文字体が変更されているかをチェックし、ステップＳ５
４で文字体の変更があると判別されたときにはステップ
Ｓ５５で文字体の種類（例えば、白抜き文字、影付き文
字等）を取込み、ステップＳ５６でこの取込んだ情報を
基に修飾情報を作成して文書アレンジ情報テーブル（テ
ーブル４）にセットして本フローの処理を終える。ま
た、上記ステップＳ５４で文字体の変更がないと判別さ
れたときにはそのまま本フローの処理を終える。

【００６８】上記文書アレンジ抽出処理及び修飾情報セ
ット処理により、ＲＡＭ１３のワーク領域３１に図１８
に示すような文書アレンジ情報テーブル（テーブル４）
が作成されることになる。

【００６９】上記文書アレンジ情報テーブル（テーブル
４）は、文書構成要素ブロックの１つ１つについてアレ
ンジ情報ブロック４−１，４−２，…，４−６毎に記憶
するものである。文書アレンジ情報テーブル（テーブル
４）の文書アレンジ情報ブロックの１ブロックは図１６
に示すように文書の構成要素を示す「構成要素分類」、
「書式パターン」、「修飾情報サイズ」及び「個別情報
サイズ」と、修飾情報がある場合にセットされる「修飾
情報」とからなり、このうち、「構成要素分類」は前記
文書構成要素ブロックの「構成要素分類」と同一であ
る。また、「書式パターン」の内容としては、例えば構
成要素分類が「日付（平成３年１０月２３日）」の書式
パターンでは「０１」が平成３年１０月２３日、「０
２」が１９９１．１０．２３、「０３」がその他、であ
る。また、「修飾情報サイズ」及び「個別情報サイズ」
には修飾情報を格納する上記文書アレンジ情報ブロック
のサイズ（バイト数で表わす）であり、例えば「０００
４」は４バイト分のサイズがこのブロック内に確保され
ることを示す。

【００７０】また、文書アレンジ情報テーブル（テーブ
ル４）の個別情報部分には、本文などのアレンジ情報の
段落字下げ情報やタイトル番号の種類（「１．」「」
など）の情報のようなその文書構成要素ブロック特有の
アレンジ情報が格納される。一方、修飾情報があったと
きにセットされる「修飾情報」は、上位４ビットで修飾
種を表わし、下位４ビットで修飾パターンを表わす（但
し、修飾種により異なる）ものとする。例えば、上位４
ビットについて「０１」が文字サイズ変更、「０２」が
アンダーライン、「０４」が網かけ、「０８」が文字
体、である。また、例えば、下位４ビットは文字サイズ
変更、アンダーライン、網かけ、文字体について夫々
「００」が全角、細実線、網かけ１、白抜き、「０１」
が半角、太実線、網かけ２、影付き、「０２」が横倍
角、細破線、網かけ３、太文字、「０３」が縦倍角、太
破線、網かけ４、反転、である。

【００７１】このように、上記文書アレンジ抽出処理で
は、図１０の文書レイアウト情報抽出処理で作成された
文書構成要素ブロックテーブル（テーブル２）の文書構
成要素ブロックの１つ１つについてアレンジ情報（書式
パターン情報・文字サイズ情報・文字修飾情報・タイト
ル記号パターン情報・桁下げ情報など）を抽出し、文書
アレンジ情報テーブル（テーブル４）をワーク領域３１
に作成する。また、文書構成要素分類によって固有のア
レンジ情報は文書アレンジ情報テーブル（テーブル４）
の個別情報部分に格納される。

【００７２】図１７はタイトル記号パターンを文書アレ
ンジ情報テーブル（テーブル４）にセットする文書タイ
トル記号抽出処理のフローチャートである。

【００７３】先ず、ステップＳ６１でタイトルレベルカ
ウンタ及びタイトル記号パターンカウンタを初期化し、
最小分割ブロック取り出しポインタを本文先頭へ移す。
次いで、ステップＳ６２で最小分割ブロック取り出しポ
インタが指す最小分割ブロックを取り出し、ステップＳ
６３で最小分割ブロックの中にタイトル記号が含まれて
いるかをチェックし、ステップＳ６４でタイトル記号が
あると判別されたときには、さらにステップＳ６５でタ
イトル記号パターンが既に出現したものであるかをチェ
ックする。そして、ステップＳ６６でタイトル記号パタ
ーンが新しいパターンであると判別されたときにはステ
ップＳ６７でタイトル記号パターンを文書アレンジ情報
テーブル（テーブル４）にセットし、タイトルレベルカ
ウンタ及びタイトル記号パターンカウンタを更新する。
また、上記ステップＳ６４でタイトル記号がないと判別
されたとき、あるいは上記ステップＳ６６でタイトル記
号パターンが既に出現したものであると判別されたとき
には後述するステップＳ６８へ進む。次いで、ステップ
Ｓ６８で最小分割ブロック取り出しポインタを更新して
からまだチェックしていない最小分割ブロックがあるか
をチェックし、ステップＳ６９でまだチェックしていな
い最小分割ブロックがあると判別されたときには上記ス
テップＳ６２へ進む。また、上記ステップＳ６９で全て
の最小分割ブロックをチェックしたと判別されたときに
はそのまま本フローの処理を終える。以下、入力例文書
１を例に採り上記文書アレンジ情報抽出処理を具体的に
説明する。

【００７４】先ず、文書最構成要素ブロックテーブル
（テーブル２）の先頭の文書構成要素ブロック２−１が
取出されると同時に、文書アレンジ情報テーブル（テー
ブル４９に文書アレンジ情報ブロック４−１を作成し、
この文書アレンジ情報テーブル（テーブル４）に文書構
造要素ブロック２−１と同一の構成要素分類情報をセッ
トする。次に構成要素分類別書式パターン情報をセット
することになるが、この場合「構成要素分類」が「日
付」であるので日付の書式パターン分類の「０１（「平
成＊＊年＊＊月＊＊日」パターン）」が文書アレンジ情
報ブロック４−１にセットされる。次の修飾情報は文書
上ブロック何の修飾も行われていないので、自分を含め
たサイズ「０００２（ワード情報）」のみがセットさ
れ、また個別情報もないので同様に「０００２（ワード
情報）」がセットされる。次に文書構成要素ブロック２
−２が取り出され文書アレンジ情報ブロック４−１と同
様に情報がセットされるが、このブロックは文字サイズ
変更及び文字修飾されているので、一つの修飾情報に関
して一つの情報ブロックが作成され、修飾情報１（横倍
角）・修飾情報２（細実線アンダーライン）・修飾情報
３（太文字）の３情報ブロックが文書アレンジ情報ブロ
ック４−２にセットされる。文書構成要素ブロック２−
３，２−４，２−５はアレンジが何も行なわれていない
のでアレンジ情報は何もセットされない。次の文書構成
要素ブロック２−６は本文であるが、ここでは以下のよ
うにしてタイトル記号パターン情報が抽出・学習され
る。まずブロック２−６を構成している最初の最小分割
ブロック１−７が取り出され、文字列先頭部分にタイト
ル記号を含んでいるかチェックされるが、この場合含ん
でいないので次の最小分割ブロック１−８が取り出され
る。この最小分割ブロックは文字列先頭部分にタイトル
記号「１．」を含んでいるので、その情報が文書アレン
ジ情報テーブル（テーブル４）にレベル１のタイトル記
号パターンとしてセットされる。この場合、アレンジ情
報テーブルに格納される「１．」の情報の「１」は数字
パターンを表わしている。次の最小分割ブロック１−
９，１−１０はタイトル記号を含んでいないので、さら
に次の最小分割ブロック１−１１が取り出される。この
ブロックはタイトル記号を含んでいるが、文字列開始位
置及びタイトル記号パターンが前出「１．」と同じパタ
ーンなので情報の格納は行なわれない。次の最小分割ブ
ロックは、文字列先頭部分にタイトル記号「」を含ん
でいて、更に前出のレベル１のタイトル記号より桁下げ
されているので、レベル２のタイトル記号パターンとし
てアレンジ情報テーブル（テーブル４）に情報が格納さ
れる。このようにしてタイトル記号パターンの抽出が行
なわれる。

【００７５】学習処理学習処理は、上述の処理で得られた文書レイアウト情報
及び文書アレンジ情報を、文書フォーマット変換等で使
用できる形態にして記憶しておく処理である。すなわ
ち、文書解析装置２４により前述の処理でワーク領域３
１上に作成された文書レイアウト情報テーブル（テーブ
ル３）及び文書アレンジ情報テーブル（テーブル４）
が、それぞれ文書レイアウト情報学習情報２９及び文書
アレンジ情報学習領域３０に格納されることで学習が行
われる。この文書レイアウト情報学習領域２９及び文書
アレンジ学習領域３０は文書作成装置の電源をオフして
も内容は保持されるものとし、不揮発性メモリ等により
構成される。また、これらの学習領域２９，３０の学習
データは、外部記憶装置２０に保存することもできる。

【００７６】以上により文書最小分割処理（図８及び図
９）、文書レイアウト情報抽出処理（図１０〜図１
３）、文書アレンジ情報抽出処理（図１４〜図１８）及
び学習処理からなる文書フォーマット学習の説明を終
え、次に学習情報に基づいて文書フォーマットを変換す
る文書フォーマット変換について詳細に説明する。

【００７７】○文書フォーマット変換文書フォーマット変換は、文書構造解析処理（図１
９）、文書アレンジ変換処理（図２０）及び文書レイア
ウト変換処理（図２１）からなる。

【００７８】また、前述した学習処理が終了し、文書フ
ォーマット学習情報が文書レイアウト情報学習領域２９
及び文書アレンジ情報学習領域３０に既に格納されてい
るものとし、図３に示す入力例文書２を入力例文書１の
学習結果に従って変換して出力例文書１として出力する
場合を例に採り説明する。

【００７９】文書構造解析処理この文書構造解析処理は、入力文の文書構造を解析して
ブロックの範囲と構成要素分類を持つ文書構造解析テー
ブル（テーブル５）をワーク領域３１に作成する処理で
あり、この文書構造解析処理は前述した文書最小分割処
理（図８及び図９）及び文書レイアウト情報抽出処理
（図１０〜図１３）と結果として作成されるテーブルの
フォーマットが多少異なるだけで解析手順は略同一であ
る。すなわち、図８及び図１０に示す処理フローと同様
な処理によって文書構造解析テーブル（テーブル５）を
作成することができ、この文書構造解析テーブル（テー
ブル５）は前記図１２の文書構成要素ブロックテーブル
（テーブル２）に相当する。

【００８０】上記文書構造解析テーブル（テーブル５）
は、入力例文書２の文書最小分割ブロックの１つ１つに
ついて文書構成要素を分類しこれを文書構造解析ブロッ
ク５−１，５−２，５−３，５−４，５−５，５−６，
…毎に分類記憶するものである。また、文書構造解析ブ
ロックテーブル（テーブル５）の文書構造解析要素ブロ
ックの１ブロックは日付、タイトル等の文書の構成要素
を示す「構成要素分類」と、ブロックの範囲を示す「開
始行位置」及び「終了行位置」からなる。

【００８１】なお、文書フォーマット変換の場合は、文
書構造解析テーブル（テーブル５）だけあればよく、前
記文書アレンジ情報テーブル（テーブル５）は必要では
ない。すなわち、文書のフォーマット変換は、フォーマ
ット学習と同じ手段で文書の構造を判断した後、各構成
要素を学習情報により並び替え、更に文字のアレンジを
行うものであるため、統一すべき文書の文書アレンジ情
報テーブル（テーブル４）があればよい。従って、ブロ
ックがどういう種類のものかさえ分かればよく、文書フ
ォーマット学習時に作成したレイアウト情報（配置情
報）やアレンジ情報をそのブロックに付加していくだけ
である。

【００８２】文書アレンジ変換処理図２０は学習したアレンジ情報に基づいて入力文書（入
力例文書２）のアレンジを行なう文書アレンジ変換処理
のフローチャートである。

【００８３】先ず、ステップＳ７１で入力文書の文書構
造を解析し、ステップＳ７２で入力文書の文書構造解析
テーブル（テーブル５）から文書構造解析ブロックを取
出し、ステップＳ７３で文書構造解析テーブル（テーブ
ル５）から文書構造解析ブロックの取出しができたか否
かを判別する。ここで、文書構造の解析は前述した文書
最小分割処理、文書レイアウト情報抽出処理による文書
情報の解析手順と全く同じように解析される。文書構造
解析ブロックの取出しができなかったときは次ブロック
なしと判断して本フローの処理を終え、文書構造解析ブ
ロックの取出しができたときはステップＳ７４で取出し
ポインタを更新する。次いで、ステップＳ７５で前記文
書アレンジ情報テーブル（テーブル４）から同じ「構成
要素分類」を持つブロックをサーチし、ステップＳ７６
で書式パターンの変更情報があるかをチェックする。ス
テップＳ７７で書式パターンの変更があると判別された
ときはステップＳ７８で書式パターンを変更し、書式パ
ターンの変更がないときにはそのままステップＳ７９に
進む。すなわち、文書アレンジ情報学習領域３０に格納
されている同じ構成要素ブロックから同じ構成要素分類
情報を持つ文書アレンジ情報ブロックの学習に従って書
式パターンの変更が行われる。これにより、文書の書式
が文書アレンジ変換しようとする文書の書式パターン
（例えば、文書サイズ）に変更される。

【００８４】次いで、ステップＳ７９で修飾情報がある
かをチェックし、ステップＳ８０で修飾情報があると判
別されたときはステップＳ８１で文字修飾を行ってステ
ップＳ８２に進み、修飾情報がないときにはそのままス
テップＳ８２に進む。ステップＳ８２では個別アレンジ
情報があるかをチェックし、ステップＳ８３で個別アレ
ンジ情報があると判別されたときはステップＳ８４で個
別アレンジを行ってステップＳ８５に進み、個別アレン
ジ情報がないときにはそのままステップＳ８５に進む。
ステップＳ８５では上記書式パターン、文字修飾、個別
アレンジ等のアレンジ変換が行われた文書を、ワーク領
域３１に中間文書として出力して該当ブロックにおける
文書アレンジ変換を終えてステップＳ４２に戻り、上記
処理を文書構造解析ブロックがなくなるまで繰り返す。

【００８５】このように、上記文書アレンジ変換処理で
は、図１９の文書構造解析処理で作成された文書構造解
析テーブル（テーブル５）先頭の構成要素ブロックか
ら、文書アレンジ情報学習領域３０に格納されている文
書アレンジ情報テーブル（テーブル４）の同じ構成要素
ブロックを取出す。そして、文書アレンジ情報学習領域
３０に格納されている同じ構成要素を持つ文書アレンジ
情報ブロックの学習に従って文書のアレンジ（例えば、
書式パターンの変更、文字修飾等）を行なう。この文書
アレンジ変換の結果は、ワーク領域３１に中間文書の形
で出力される。ここで、ワーク領域３１に一時的に格納
される中間文書は、文書のアレンジ変換はされている
が、レイアウト位置の変更はまだ行われていない文書で
あり、図４の中間例文書１で示される。

【００８６】以下、入力例文書２及び中間例文書１を例
に採り上記文書アレンジ変換処理を具体的に説明する。

【００８７】先ず、最初に入力例文書２の文書構造解析
テーブル（テーブル５）の先頭のブロック５−１が取出
される。この文書構造解析ブロック５−１の構成要素分
類情報は「日付（０１）」であり、これと同じ構成要素
分類情報を持つ文書アレンジ情報学習領域３０に格納さ
れている文書アレンジ情報ブロック４−１に従ってアレ
ンジが行われる。文書記憶領域２８に格納されている文
書データ「１９９１．１１．１５」は文書アレンジ情報
ブロック４−１の書式パターン情報によって「「平成３
年１１月１５日」に変更される。次いで、本来修飾情報
及び個別情報に従ってアレンジされているが、文書アレ
ンジ情報ブロック４−１ではこのアレンジ情報がないの
でそのままである。このアレンジされた中間文書はワー
ク領域３１に出力される。次いでブロック５−２が取り
出されるが、これに対応する文書アレンジ情報ブロック
４−４は書式パターン情報及びアレンジ情報を持ってい
ないので、アレンジは行なわれずに中間文書としてワー
ク領域３１に出力される。次いでブロック５−３が取り
出されるが、これに対応する文書アレンジ情報ブロック
４−２は修飾情報を持っているので、修飾情報による修
飾が行なわれて中間文書としてワーク領域３１に出力さ
れる。次のブロック５−４，５−５はこれらに対応する
文書アレンジ情報ブロック４−３，４−５が、アレンジ
情報を持っていないので、アレンジは行なわれずに中間
文書としてワーク領域３１に出力される。次のブロック
５−６は対応する文書アレンジ情報ブロック４−６が、
タイトル記号パターン情報を持っているので、「」が
「１．」に、「(1)」が「」パターンに変更されて中
間文書としてワーク領域３１に出力される。このように
して、ワーク領域３１上に図４に示す中間例文書１が作
成される。この中間例文書１は、入力例文書１（図２）
のアレンジ情報に従って入力例文書２（図３）の内容を
アレンジ変換した文書である。従って、この中間例文書
１では入力例文書１のレイアウト位置の変更は行われて
おらず、書式パターン等のアレンジ情報のみが変更され
ている。例えば、入力例文書２の行位置０１の日付「１
９９１．１１．１５」は、入力例文書１の０１行目の日
付のアレンジ情報学習「平年＊＊月＊＊日」に合わせて
中間例文書１の行位置０１に示すように「平成３年１１
月１５日」にアレンジ変換される。また、入力例文書２
の行位置０３の全角の大見出し（タイトル）「出張報告
書」は、入力例文書１の０３行目の行位置０３の倍角ア
ンダーラインの大見出し（タイトル）「出張報告書」に
合わせて中間例文書１の行位置０３に示すように「出張
報告書」にアレンジ変換される。このように、文書レイ
アウト（配置）変換以外のアレンジ変換後の文書が中間
例文書１としてワーク領域３１に作成されることにな
る。

【００８８】ワーク領域３１に作成された中間例文書１
は以下に述べる文書レイアウト変換処理によって最終的
な出力例文書１（図５）にレイアウト変換され、一連の
文書フォーマット学習・文書フォーマット変換が終了す
る。

【００８９】文書レイアウト変換処理図２１は学習した文書レイアウト情報に基づいて中間文
書に作成されたアレンジ変換後の文書の配置を変換して
最終的な出力文書を出力する文書レイアウト変換処理の
フローチャートである。

【００９０】先ず、ステップＳ９１で前記文書レイアウ
ト情報抽出処理（図１０）で作成した文書レイアウト情
報テーブル（テーブル３）の文書レイアウト情報ブロッ
クを取出し、ステップＳ９２で文書レイアウト情報ブロ
ックの取出しができたか否かを判別する。文書レイアウ
ト情報ブロックの取出しができなかったときは次ブロッ
クなしと判断して本フローの処理を終え、文書レイアウ
ト情報ブロックの取出しができたときはステップＳ９３
で取出しポインタを更新する。次いで、ステップＳ９４
で対応する入力文の文書構造解析テーブル（テーブル
５）の文書構造解析テーブルブロックがあるかをチェッ
クし、ステップＳ９５で対応する入力文の文書構造解析
テーブルブロックがあると判別されたときはステップＳ
９６で中間文書の対応する部分を文書フォーマット変換
後の最終的な文書（出力例文書１）として文書記憶領域
２８に出力してステップＳ９１に戻り、文書レイアウト
情報ブロックがなくなるまで上記処理を繰り返す。一
方、ステップＳ９５で対応する入力文の文書構造解析テ
ーブルブロックがないと判別されたときはステップＳ９
１に戻り上記処理を繰り返す。

【００９１】このように、上記文書レイアウト変換処理
では、前記文書アレンジ変換処理でワーク領域３１上に
作成された中間文書が、文書レイアウト情報学習領域２
９に学習されている文書レイアウト情報テーブル（テー
ブル３）に従って文書記憶領域２８に出力される。

【００９２】中間例文書１により具体的に説明すると、
最初に文書レイアウト情報テーブル（テーブル３）の先
頭ブロック３−１が取出され、それと同じ構成要素分類
情報「日付」を持つ文書構造解析テーブル（テーブル
５）上の文書構造解析ブロック５−１が見つけられ、そ
れに対応するワーク領域３１にある中間例文書１の部分
が文書記憶領域２８に出力される。次に、文書レイアウ
ト情報テーブル（テーブル３）では文書レイアウト情報
ブロック３−２の「大見出し」が先にあるので中間例文
書１の「大見出し」に対応する文書部分が文書記憶領域
２８に出力される。これにより、入力例文書２と出力例
文書１で「大見出し」と「差出人」のレイアウトが入れ
替えられたことになる。このようにして中間例文書１は
全て出力例文書１にレイアウト変換されることになる。
最終的には、入力例文書２の内容を持つ中間例文書１
が、入力例文書１のレイアウト情報に従って並べ替えら
れて出力される。

【００９３】以上説明したように、本実施例の文書処理
装置１０は、印刷あるいは手書きされた文字を光学的ス
キャナにより読み取り、識別・判断処理した後、文字の
符号化を行なうＯＣＲ１６と、文書記憶領域２８に記憶
されている文書データの構造を解析する文書解析装置２
４と、文書解析装置２４による解析結果から文書要素の
アレンジ情報を抽出する文書アレンジ情報抽出装置２６
と、抽出した情報を学習した学習データを基に文書デー
タを統一された文書フォーマットに変換する文書フォー
マット変換装置２７と、文書アレンジ情報抽出装置２５
により抽出したアレンジ情報を学習するための文書アレ
ンジ情報学習領域３０とを備え、ＯＣＲ１６は、印刷済
み文書をまずドットイメージとして読み込み、そのドッ
トイメージデータを行間及び桁間の空白部を参考にして
文書書式情報を決定し、その文書書式情報を基にして読
み込んだドットイメージデータを文字単位ドットデータ
ごとに切り分けて文字コードに変換するようにし、ま
た、ＣＰＵ１１によって制御される文書解析装置２４
は、ＯＣＲ１６により認識されて文書データ文書記憶領
域２８に格納された文書データを１行ずつ取り出して文
書データの構造を解析し、その解析結果から文書アレン
ジ情報を抽出し、各構成要素別に行なわれている文字修
飾情報をその構成要素と関連づけて学習して文書アレン
ジ情報学習領域３０に学習データとして記憶しておくと
ともに、フォーマット変換時にはこの学習データに基づ
いて同様にして抽出された出力対象の文書に対しその構
成要素毎に文字修飾を行なって文書フォーマット変換
し、フォーマット変換されたアレンジ情報に従って統一
されたアレンジ情報の文書データをＣＲＴ１８やプリン
タ２２に出力するようにしているので、文書ファイルが
ないような文書であっても、印刷済み文書があれば、文
書を作成する際に、学習しているアレンジ情報を利用す
ることができ、アレンジが統一されていない文書データ
のアレンジをいずれかの文書データに統一することがで
きる。

【００９４】従って、あるアレンジ情報を持つ文書デー
タを、統一したアレンジ情報の文書データに揃えたい場
合には、まず統一したいアレンジ情報を持つ第１の文書
データを読込んで前述した文書フォーマット学習をした
後、第２の文書データ（複数であってもよい）を読込ん
で同様に文書フォーマット学習をし、更に前述した文書
アレンジ変換を行うようにすればよい。以後、統一され
ていない文書データが複数ある場合も同様に処理すれば
よい。その結果、オペレータは統一したい文書データを
指示するだけで済むので、従来オペレータが逐一指定し
ていたアレンジ変換作業を格段に軽減させることができ
る。また、他人の文書を自分のフォーマットに変換して
見やすくすることができる効果もある。特に、製品の使
用書や複数人の分担で執筆される論文・辞書編集等にお
いて文書フォーマットの整合性を保つ必要がある場合に
予め決めておいたアレンジ情報を供給し、そのアレンジ
情報に合わせて文書書式が統一できるので、複数人で自
由に文書をつくった場合にも逐一「日付」、「タイト
ル」、「差出人」等に付されたアレンジ情報を変更する
ことがなくなり作業性を格段に向上させることができ
る。

【００９５】また、上述したように文書書式を統一する
だけではなく、文書書式を統一した上で各構成要素別に
行なわれている文字体、文字サイズ変更、網掛け、アン
ダーライン等の文字修飾を、いずれかの文書の各構成要
素別の文字修飾に統一することができるので、より統一
のとれた文書作成ができるようになる。例えば、作成す
る文書に複数のタイトルが存在し、各タイトルに応じた
字下げ（段落下げ）を各人が自由に行なってもタイトル
のレベルに応じた字下げに統一することができる。

【００９６】また、本実施例の文書処理装置１０は、文
書フォーマットの学習が簡単に行えるという効果がある
が、文書データの読取りの際、ＯＣＲ１６等を用いて文
字を直接読み取って符号化して前記学習を行なうように
すればより作業性を高めることが可能になる。

【００９７】また、本実施例の文書処理装置１０は、文
書フォーマットの学習が簡単に行えるという効果がある
が、文書データの読取りの際、ＯＣＲ１６等を用いて文
字を直接読取って符号化して前記学習を行うようにすれ
ば作業性を高めることが可能になる。

【００９８】なお、本実施例では、文書構成要素ブロッ
クを行単位としているが、これには限定されず、桁単位
の構造管理の追加等を行うことで、同一行に２つ以上の
文書構成要素ブロックがあっても同様に処理することが
できる。

【００９９】また、本実施例の構成要素の分類や文書レ
イアウト情報の抽出及び学習は例示であり、より詳細に
分類及び抽出・学習を行えるのは言うまでもなく、本実
施例で開示した方法と同様の方法によって実現可能であ
る。

【０１００】また、本実施例では入力例文書１，２のよ
うに文書レイアウトの施された文書のフォーマット学習
例を示したが、レイアウトを意識しないで作成された
（桁下げ等が行われていない）べた書きの文書を、学習
したフォーマットでレイアウトすることもできる。

【０１０１】また、本実施例では「大見出し」の文字修
飾を例に挙げて説明したが、全ての文書構成要素に対し
ても学習・フォーマット変換が可能であることは言うま
でもなく、より詳細に文書の構造解析を行なうようにす
れば、例えば構成要素の一部分の修飾に関しても学習・
フォーマット変換が可能である。また、文書修飾の目的
で使用されている図形・罫線等も学習の対象となるのは
言うまでもない。

【０１０２】また、本実施例の文書フォーマット変換処
理例では、文書フォーマット学習機能により学習したフ
ォーマット学習データを用いたが、これに限らず、例え
ば外部記憶装置等にあるフォーマット学習データを学習
領域に呼び出して用いても良いことは言うまでもない。

【０１０３】また、本実施例では、文書アレンジ変換処
理後に、文書レイアウト変換処理を行っているが、まず
レイアウト変換処理を行ない、次にアレンジ変換処理を
行なうようにしてもよいことは勿論である。

【０１０４】さらに、本実施例では、文書処理装置１０
を日本語ワードプロセッサに適用した例であるが、文書
書式変換機能を持つ装置であれば他の全ての装置、例え
ばパーソナルコンピュータにも適用できることは言うま
でもない。

【０１０５】

【発明の効果】本発明によれば、文書ファイルがないよ
うな文書であっても、印刷済み文書があれば、文書を作
成する際に、学習したアレンジ情報を利用することがで
き、アレンジが統一されていない文書データのアレンジ
をいずれかの文書データに統一することができる。特
に、印刷済み文書をドットイメージとして読み込み、そ
のドットイメージデータから文書書式情報を決定し、そ
の文書書式情報を基にして読み込んだドットイメージデ
ータを文字単位ドットデータごとに切り分けて文字コー
ドに変換し、この文書データに対して各構成要素別に行
なわれている文字修飾（文字体・文字サイズ変更・網掛
け・アンダーライン等）の情報がその構成要素と関連づ
けて学習するようにしているので、この学習結果を用い
て、印刷済み文書に対してその構成要素毎に文字修飾を
行なうことができ、文書入力の段階から各構成要素別に
行なわれている文字修飾をいずれかの文書の各構成要素
別の文字修飾に統一することができる。

【図面の簡単な説明】

【図１】文書処理装置のブロック構成図である。

【図２】文書処理装置の入力例文書１を示す図である。

【図３】文書処理装置の入力例文書２を示す図である。

【図４】文書処理装置の中間例文書を示す図である。

【図５】文書処理装置の出力例文書を示す図である。

【図６】文書処理装置の文字パターン解析処理を示すフ
ローチャートである。

【図７】文書処理装置のＯＣＲによる文書書式情報決定
を説明するための図である。

【図８】文書処理装置の文書最小分割処理を示すフロー
チャートである。

【図９】文書処理装置の文書最小分割ブロックテーブル
（テーブル１）を示す図である。

【図１０】文書処理装置の文書レイアウト情報抽出処理
を示すフローチャートである。

【図１１】文書処理装置のキーワード辞書の構造を示す
図である。

【図１２】文書処理装置の文書構成要素ブロックテーブ
ル（テーブル２）を示す図である。

【図１３】文書処理装置の文書レイアウト情報テーブル
（テーブル３）を示す図である。

【図１４】文書処理装置の文書アレンジ情報抽出処理を
示すフローチャートである。

【図１５】文書処理装置の日付パターン学習処理を示す
フローチャートである。

【図１６】文書処理装置の修飾情報セット処理を示すフ
ローチャートである。

【図１７】文書処理装置の文書タイトル記号抽出処理を
示すフローチャートである。

【図１８】文書処理装置の文書アレンジ情報テーブル
（テーブル４）を示す図である。

【図１９】文書処理装置の入力例文書２の文書構造解析
テーブル（テーブル５）を示す図である。

【図２０】文書処理装置の文書アレンジ変換処理を示す
フローチャートである。

【図２１】文書処理装置の文書レイアウト変化処理を示
すフローチャートである。

【符号の説明】

１０文書処理装置１１ＣＰＵ１２ＲＯＭ１３ＲＡＭ１４キーボード１６ＯＣＲ１８ＣＲＴ２０外部記憶装置２２プリンタ２４文書解析装置２５文書レイアウト情報抽出装置２６文書アレンジ情報抽出装置２７文書フォーマット変換装置２８文書記憶領域２９文書レイアウト情報学習領域３０文書アレンジ情報学習領域３１ワーク領域

Claims

【特許請求の範囲】

【請求項１】印刷又は手書きされた文書をドットイメ
ージとして読み込んで解析し、文書書式情報を決定する
とともに、決定された文書書式情報に基づいて読み込ん
だドットイメージを文字コードで表される文書データに
変換する文字認識手段と、前記文字認識手段により認識された文書データの構造を
解析する文書解析手段と、前記文書解析手段により解析された解析結果から文書要
素のレイアウト情報を抽出する文書レイアウト抽出手段
と、前記文書解析手段により解析された解析結果から文字修
飾情報を含むアレンジ情報を抽出する文書アレンジ抽出
手段と、前記文書レイアウト抽出手段により抽出された文書要素
のレイアウト情報及び前記文書アレンジ抽出手段により
抽出されたアレンジ情報を学習して文書を作成する際の
学習データとして記憶する学習手段と、前記学習手段に記憶された学習データに基づいてフォー
マット変換しようとする文書データのフォーマットを変
換する文書フォーマット変換手段と、前記文書フォーマット変換手段によりフォーマット変換
された文書データを出力する文書データ出力手段と、を具備したことを特徴とする文書処理装置。