JPH0528310A

JPH0528310A - フオーム型文書識別装置

Info

Publication number: JPH0528310A
Application number: JP3160782A
Authority: JP
Inventors: Noboru Shimizu; 昇清水; Katsuhiko Itonori; 勝彦糸乗
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1991-06-06
Filing date: 1991-06-06
Publication date: 1993-02-05

Abstract

(57)【要約】【目的】同じあるいは異なった種類のフォーム型文書
を処理する際に、操作者がフォーム型文書の種類を一々
指定することなく、自動的にしかも迅速に識別できるよ
うにする。【構成】本発明のフォーム型文書識別装置は、フォー
ム型文書をディジタルデータとして入力する文書画像入
力手段と、当該ディジタルデータを記憶するイメージメ
モリと、当該イメージメモリに記憶されている前記フォ
ーム型文書のディジタルデータから文字画像とフォーム
画像とを分離して取り出す文字／図形分離手段と、前記
取り出された文字画像からフォーム型文書の種別を判定
するフォーム種別判定処理手段と、フォーム型文書のタ
イトルを判定する際およびフォーム型文書を処理する際
に文字を認識する文字認識手段とから構成される。ま
た、フォーム型文書は、分離されたフォーム画像のフォ
ーム構造からも判定できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、紙上に印刷または手書
きされたフォーム型文書を認識して、計算機（たとえ
ば、ワードプロセッサまたはパーソナルコンピュータ
等、以下、本明細書において、単に「計算機」という）
に取り込むフォーム型文書識別装置に関するものであ
る。上記「フォーム型文書」とは、本明細書において、
線によって区画された表形式の文書で、たとえば、伝
票、統計表、あるいは枠に記載事項を有する会議レポー
ト等を含む文書のことをいう。したがって、上記「フォ
ーム型文書」には、枠に囲まれた文書以外に、枠の一部
に線がなく開放された部分を有する文書も含む。

【０００２】

【従来の技術】伝票等の線によって区画されたフォーム
型文書は、操作者がキーボードやマウス等を操作するこ
とによって、計算機に入力される。近年、計算機の操作
者が上記フォーム型文書を入力する際に行うキーボード
等の操作のわずらわしさを解消するため、紙に印刷され
た文書、または、丁寧に手書きされた文書を画像として
計算機に取り込むことが可能になった。そして、計算機
に取り込んだフォーム型文書は、その特定位置に書かれ
ている文字を認識することによって、フォーム型文書名
を認識しようとする研究が行われている。

【０００３】また、従来例において、文字を認識するた
めにその位置を測定する方法は、たとえば、特開平2-33
658 号公報に、また、縦／横線のみから構成されている
フォーム文書を認識する方法は、たとえば、特願昭63-1
71729 号公報に、さらに、罫線や点線などで構成されて
いる場合のフォーム型文書を認識する方法は、たとえ
ば、特開平2-159690号公報にそれぞれ詳細な記載があ
る。また、帳票中の白領域の位置および大きさに着目し
て、表の構造を抽出する方法は、たとえば、情報処理学
会第３８回全国大会３Ｃ−８「表の領域情報に基づく帳
票識別法の検討」徳升厚美他に提案されている。

【０００４】

【発明が解決しようとする課題】しかし、上記従来例に
おけるフォーム型文書の認識方法は、操作者がフォーム
型文書のイメージを入力すると同時に、その種類を指定
する必要があった。その結果、操作者は、フォーム型文
書の入力およびその種類の指定を行うための負荷が多く
なるという欠点があった。特に、種類の異なるフォーム
型文書を同時に扱わねばならない場合、それぞれのフォ
ーム型文書を認識することは不可能であった。また、従
来例の改良として、フォーム型文書における全ての文字
を認識した後に、その全文字と予め記憶されているフォ
ーム型文書名のデータベースとのマツチングを取り、フ
ォーム型文書の種別を判定した。しかし、この方法は、
全ての文字を認識するための処理時間と、フォーム型文
書の種別を判定する時間とが多くかかるという欠点があ
った。また、上記帳票の白領域に着目した例では、図８
に示すような帳票における枠の端部が開放されているも
のには適用できなかった。

【０００５】本発明は、以上のような問題を解決するた
めのもので、同じあるいは異なった種類のフォーム型文
書を入力する際に、フォーム型文書の種類を、操作者が
一々指定することなく、自動的にしかも迅速に識別でき
るフォーム型文書識別装置を提供することを目的とす
る。

【０００６】

【課題を解決するための手段】

（第１発明）前記目的を達成するために、本発明のフォ
ーム型文書識別装置は、フォーム型文書画像をディジタ
ルデータとして入力する文書画像入力手段（図１の１
１）と、当該文書画像入力手段（１１）によって入力し
た前記ディジタルデータを記憶するイメージメモリ（図
１の１２）と、当該イメージメモリ（１２）に記憶され
ている前記フォーム型文書のディジタルデータから文字
画像とフォーム画像とを分離して取り出す文字／図形分
離手段（図１の１３）と、当該文字／図形分離手段（１
３）によって取り出された文字画像からフォーム型文書
の種別を判定するフォーム種別判定処理手段（図１の１
６）と、当該フォーム種別判定処理手段（１６）におけ
るフォーム型文書のタイトルを判定する際およびフォー
ム型文書を処理する際に文字を認識する文字認識手段
（図１の１７）とから構成される。

【０００７】（第２発明）また、本発明のフォーム型文
書識別装置は、フォーム型文書画像をディジタルデータ
で入力する文書画像入力手段（図５の１１）と、当該文
書画像入力手段（１１）によって入力した前記ディジタ
ルデータを記憶するイメージメモリ（図５の１２）と、
当該イメージメモリ（１２）に記憶されている前記フォ
ーム型文書のディジタルデータから文字画像とフォーム
画像とを分離して取り出す文字／図形分離手段（図５の
１３）と、当該文字／図形分離手段（１３）によって取
り出されたフォーム画像をベクトルデータに変換すると
共に、変換されたベクトルデータからフォーム型文書の
構造を抽出するフォーム構造抽出手段（図５の５１１）
と、当該フォーム構造抽出手段（５１１）によって抽出
されたフォーム型文書の構造と予め登録してあるフォー
ム型文書の構造とを比較することによって、フォーム型
文書の種類を判定するフォーム種別判定処理手段（図５
の５１２）とから構成される。

【０００８】

【作用】

（第１発明）フォーム型文書画像は、文書画像入力手
段、たとえばイメージスキャナ等によりディジタルデー
タとして入力され、イメージメモリに記憶される。そし
て、イメージメモリに記憶されているフォーム型文書
は、文字／図形分離手段によって、文字のみからなる文
字画像と、線による区画のみからなるフォーム画像とに
分離される。フォーム種別判定処理手段では、分離され
たフォーム型文書内の文字画像における、たとえばタイ
トル部の位置である第１行、第１列が検出されると共
に、その部分が切り出される。また、この切り出された
タイトル部は、文字認識手段によって認識される。この
結果、フォーム種別判定処理手段は、フォーム型文書の
種別を判定して、たとえば、アプリケーション処理を行
うためにフォーム処理部に渡す。

【０００９】（第２発明）前記文字／図形分離手段によ
って分離されたフォーム画像は、ベクトルデータ変換手
段によって、ベクトルデータに変換される。そして、ベ
クトルデータ変換手段によって、変換されたベクトルデ
ータからフォーム型文書のフォーム構造を抽出する。フ
ォーム構造は、たとえば、線の位置および最大行数／最
大列数等のフォーム型文書を表す特徴によって決められ
る。そして、フォーム種別判定処理手段では、前記ベク
トルデータと予め登録されているフォーム型文書のフォ
ーム構造とを比較することによってフォーム型文書の種
別が判定される。

【００１０】本発明によれば、フォーム型文書は、文書
画像入力手段によって、自動的に読み込まれると共に、
その種別が判定されるので、フォーム型文書を入力する
際に、フォーム型文書の種別を一々指定する必要がなく
なる。また、たとえば、フォーム型文書のタイトルにお
ける第１行、第１列内の文字を優先して認識するので、
フォーム型文書における全文字によって判定していた従
来例に比べてフォーム型文書の種別を速く判定できる。
また、フォーム型文書の種別を判定した後に、フォーム
型文書内の文字を認識するので、その後のアプリケーシ
ョンに必要なフォーム型文書における欄内の文字のみを
認識するだけで良く、処理に必要のない文字を認識しな
くて済む。したがって、フォーム型文書の種別を判定す
るための操作者の負担が軽くなると共に、フォーム型文
書を処理する時間を短縮することができる。また、文書
画像入力手段によって入力したフォーム型文書における
フォーム画像からフォーム構造を抽出し、あらかじめ入
力しておいたフォーム型文書の構造と比較することによ
り、フォーム型文書の種別を判定しても、前記と同様な
効果を奏する。

【００１１】

【実施例】図１は本発明における一実施例を説明す
るブロック構成図である。図１において、本発明のフォ
ーム型文書認識装置は、たとえば、伝票あるいは表型文
書等線からなる区画部分を有するフォーム型文書をディ
ジタルデータとして入力する文書画像入力部１１と、当
該文書画像入力部１１により入力したフォーム型文書の
イメージデータを格納するイメージメモリ１２と、前記
フォーム型文書における線からなる区画部分のフォーム
画像と、当該区画部分に記載されている文字からなる文
字画像とを分離する文字／図形分離部１３と、当該文字
／図形分離部１３によって分離された文字のみからなる
文字画像を格納する文字画像メモリ１４と、前記文字／
図形分離部１３によって分離された線からなる区画部分
のフォーム画像を格納するフォーム画像メモリ１５と、
前記文字画像およびフォーム画像からフォーム型文書の
種別を判定するフォーム種別判定処理部１６と、フォー
ム型文書の区画部内に記載されている文字画像を認識す
る文字認識部１７と、当該文字認識部１７およびフォー
ム種別判定処理部１６によって判定されたフォーム型文
書に対してアプリケーション処理を行うフォーム処理部
１８とから構成されている。また、フォーム種別判定処
理部１６は、文字画像メモリ１４とフォーム画像メモリ
１５とからフォーム型文書のタイトルの第１行および第
１列の位置を測定してその位置を判定するタイトル／第
１行、第１列位置判定処理部１６１と、当該タイトル／
第１行、第１列位置判定処理部１６１によって判定され
たタイトル／第１行、第１列の位置を切り出すタイトル
／第１行、第１列切り出し処理部１６２と、当該タイト
ル／第１行、第１列切り出し処理部１６２の切り出した
タイトル部分を文字認識部１７によって認識して、その
フォーム型文書の種別を判定処理するフォーム種別判定
処理部１６３とから構成される。

【００１２】図２はフォーム型文書の一例を説明するた
めの出張旅費請求書を示す。図３はフォーム型文書から
分離された文字画像を示す。図４はフォーム型文書から
分離されたフォーム画像を示す。図２において、出張旅
費請求書２１の線からなる区画部分は、たとえば、氏名
欄２２と、出張月日、出張区間、乗物等の種類、金額等
の所定事項を記載する記載欄２３と、旅費の合計金額欄
２４とから構成されている。文書画像入力部１１は、た
とえば、イメージスキャナであり、図２に示されている
出張旅費請求書２１のようなフォーム型文書画像をディ
ジタルデータとして入力すると共に、イメージメモリ１
２に格納する。次に、文字／図形分離部１３は、前記出
張旅費請求書２１のフォーム型文書から文字部分のみを
抽出した図３に示す文字画像３０と、線からなる区画部
分のみを抽出した図４に示すフォーム画像４０とに分離
する。このような文字画像とフォーム画像との分離方法
は、周知技術を利用することができる。すなわち、区画
を形成する線がたとえば、縦／横線のみから構成されて
いるフォーム画像を対象とする分離方法は、特願昭63-1
71729 号公報に、また、罫線が点線などで構成されてい
るフォーム画像を対象とする方法は、特願昭63-313938
号公報にそれぞれ記載されている。そして、前記文字／
図形分離部１３によって分離された文字画像は、文字画
像メモリ１４に、線のごとき区画部からなるフォーム画
像は、フォーム画像メモリ１５にそれぞれ格納される。

【００１３】フォーム種別判定処理部１６におけるタイ
トル／第１行、第１列位置判定処理部１６１では、たと
えば、前記文字画像メモリ１４に格納されているフォー
ム型文書の上または下の位置にある大きい文字、または
前記フォーム型文書の第１行目、第１列目における欄内
の文字の位置を判定する。具体的な位置の測定方法は、
たとえば、特開平2-159690号公報、あるいは特開平2-33
658 号公報に記載されている方法を用いることができ
る。また、文字の大きさを検出する場合は、フォーム型
文書の上または下の位置に存在するある値以上の大きさ
の文字、たとえば、１辺が５ｍｍ以上の文字の位置を文
字画像メモリ１４内で測定する。これは、一般的にフォ
ーム型文書のタイトル（種別名）は、フォームの上また
は下にあるためである。また、大きい文字のみを対象に
するのは、注釈などの小さい文字を対象としてしまう
と、フォーム種別の誤判定をしてしまうことがあるため
である。次に、タイトル／第１行、第１列切り出し処理
部１６２により、前記タイトル／第１行，第１列位置判
定処理部１６１で判定されたタイトルまたは第１行、第
１列の領域を切り出す。フォーム種別判定処理部１６３
は、前記切り出された領域内の文字を、文字認識部１７
により認識し、フォーム型文書の種別を判定する。この
フォーム種別判定処理部１６３によって判定された判定
結果は、フォームのアプリケーション部であるフォーム
処理部１８に渡される。

【００１４】フォーム処理部１８の具体的なアプリケー
ションとしては、たとえば、図２に示す出張旅費請求書
２１における「氏名」の欄２２と「旅費合計」の欄２４
とを文字認識部１７によって読み取り、「氏名」の欄２
２に記載されている者に対して「旅費合計」金額を出張
旅費として払い出すための処理を行うものがある。ま
た、図示されていない会議レポートのフォーム型文書と
しては、たとえば、その「時間」の欄と「会議参加人
数」の欄とを文字認識部１７によって読み取り、統計処
理を行うもの等がある。従来の方法では、出張旅費請求
書２１および会議レポートのフォーム型文書の種類を指
定して入力しなければ処理できなかったが、上記アプリ
ケーションのように出張旅費請求書２１に会議レポート
がまぎれて入力されても、それぞれのフォーム型文書を
自動的に読み取り、対応した処理が可能である。なお、
本発明のフォーム種別判定処理に際して、出張旅費請求
書２１のフォーム型文書内におけるその他の欄（日付、
区間等）は、文字認識部１７によって認識する必要がな
く、全ての文字を認識して、フォーム種別の判定を行う
方法よりも処理時間が短くなる。また、たとえば、出張
旅費請求書２１のアプリケーションにおいて、出張者名
と旅費合計の欄における文字認識を行うだけで済むの
で、その処理にかかる時間も短縮できる。なお、文字認
識部１７は、公知の技術によって構成してもよいが、本
出願人の出願した特願平１−３１４３０１号の発明「文
字認識装置」（発明者大住淳一）、あるいは特願平１−
３１８８２７号の発明「文字認識装置」（発明者倉持
勉）などにより構成すれば、好適である。

【００１５】本発明の実施例では、文字認識のみによっ
て、フォーム型文書の種別を判定しているが、フォーム
種別判定処理部１６において、フォーム型文書の大きさ
が測定できるので、その情報を用いて、フォーム型文書
の種類の範囲を狭くし、文字認識のみで判定するよりも
フォーム型文書の判定の正解率を上げられる。また、フ
ォーム型文書の大きさのみでなく、ベクトル化処理を加
えることによって、フォーム型文書の形状（行／列の数
など）の情報を使えるようにして、さらに正解率を上げ
られる。また、次に示すような特徴を用いて、フォーム
型文書の種別判定の正解率を上げることができる。すな
わち、 (1) 大きな文字に着目してこれを抽出する (2) 太い文字に着目してこれを検出する (3) 文字の濃度（濃さ）に着目してこれを検出する等がある。

【００１６】次に、本発明の他の実施例について図５な
いし図８を参照しつつ説明する。図５は本発明における
他の実施例を説明するブロック構成図である。図６は本
発明の他の実施例におけるフォーム構造抽出部の構成を
説明する図である。図７は本発明の他の実施例であるフ
ォーム構造を抽出する例を説明する図である。図８は表
の端部が開放されているフォーム型文書の例を示す図で
ある。図５に示す実施例は、フォーム種別判定処理部５
１とフォーム文書辞書部５２とにおいて図１に示す実施
例と相違する。すなわち、フォーム種別判定処理部５１
は、文字／図形分離部１３によって分離された線よりな
る区画部分によって形成されるフォーム型文書の構造を
抽出するフォーム構造抽出部５１１と、当該フォーム構
造抽出部５１１で抽出されたフォーム構造を予め使用さ
れる全てのフォーム型文書のフォーム構造を格納してい
るフォーム文書辞書部５２に基づいてフォーム種別を判
定するフォーム種別判定処理部５１２とから構成され
る。また、フォーム構造抽出部５１１は、図６に示すよ
うに、フォーム画像をベクトル化するベクトル化処理部
６１１と、ベクトル化処理部６１１によってベクトル化
されたフォーム型文書のベクトルデータから最大行数を
抽出する最大行数抽出部６１２と、同じく最大列数を抽
出する最大列数抽出部６１３と、前記最大行数および最
大列数から決められるフォーム構造のデータを格納する
フォーム構造データメモリ６１４とから構成される。

【００１７】そして、文書画像入力部１１は、フォーム
型文書画像、たとえば図２に示す出張旅費請求書２１を
ディジタルデータとして入力すると共に、イメージメモ
リ１２に格納する。次に、文字／図形分離部１３は、前
記イメージメモリ１２に格納されている画像データから
文字画像と線よりなるフォーム画像とを分離する。文字
画像メモリ１４には、前記分離されたたとえば、図３に
示す文字画像が格納される。また、フォーム画像メモリ
１５には、前記分離されたたとえば、図４に示す線より
なるフォーム画像が格納される。フォーム種別判定処理
部５１では、フォーム構造抽出部５１１により、フォー
ム画像メモリ１５に格納されている図４に示すようなフ
ォーム構造を抽出する。この実施例では、フォーム型文
書を構成している行と列に注目し、その最大行数と最大
列数を抽出する。すなわち、ベクトル化処理部６１１に
よってベクトル化されたフォーム構造は、このベクトル
情報から、最大行数抽出部６１２と最大列数抽出部６１
３とにより、そのフォームの行と列の最大値を求める。
この行と列との最大値の求め方は、たとえば、縦（横）
ベクトルの本数を数え、その本数−１を最大行（列）数
とする。このようにして求められた最大行数および最大
列数のデータは、フォーム構造データメモリ６１４に格
納される。全て処理対象となるフォーム型文書につい
て、上記と同様な方法により得られたフォーム構造のデ
ータと、そのフォーム型文書のタイトルとをそれぞれ予
めフォーム文書辞書部５２に格納しておく。

【００１８】図示されていないベクトル化処理部の一例
を挙げる。Ｘ軸またはＹ軸方向走査部の走査は、画素単
位に行うのではなく、幾つかの画素を飛び越して行う。
その飛び越し幅である走査線間幅は、任意の幅に決める
ことができる。連続黒画素計数部は、走査をしつつ黒画
素が幾つ連続しているかを計数する。その計数結果に基
づき、黒画素重心抽出部は、連続した黒画素の重心を抽
出する。重心連結部は、黒画素重心抽出部の抽出した黒
画素重心同士を連結して、ベクトルを形成する。一定の
距離を予め定めておいて、黒画素重心間の距離がその一
定の距離より小であれば、両者を連結してベクトルを形
成する。しかし、上記一定の距離より大であれば連結し
ない。ベクトル整形部は、ベクトル間を結合したり、接
触させたり、誤ベクトルの削除等を行い、ベクトルの整
形を行う。

【００１９】フォーム種別判定処理部５１２では、フォ
ーム構造抽出部５１１で抽出した後、フォーム構造デー
タメモリ６１４に格納されているフォーム構造データ
と、フォーム文書辞書５２内に格納されているフォーム
構造データとを比較し、一致するフォーム種別を探索
し、そのときのタイトルが対象としているフォーム型文
書のものであると判定する。フォーム種別判定処理部５
１２によって判定された判定結果は、フォーム処理部１
８に渡される。フォーム処理部１８では、フォーム型文
書内の文字を文字認識部１７で認識して、必要な処理を
行う。

【００２０】なお、フォーム種別判定処理部５１２にお
いて判定に使用するフォームの構造は、上記の最大行数
と最大列数に限定するものではない。フォームの形状を
特定することができる、構造上の特徴であれば別のもの
を用いてもかまわない。たとえば、フォーム型文書の中
で使用されている罫線の長さを用いることができる。こ
の場合、縦（横）の罫線には、どの長さの罫線が何本使
われているかを、予めフォーム文書辞書部５２内に登録
して置き、このデータと比較することによりフォーム種
別を判定することができる。また、フォーム型文書にお
ける罫線の交点の位置と形状の情報を用いることもでき
る。交点の形状とは、ある位置の交点における罫線がた
とえば、図７の（ａ）に示す十時型、図７（ｂ）の
（イ）ないし（ニ）に示すＴ時型、あるいは図７（ｃ）
の（イ）ないし（ニ）に示す鍵型で交わっているかを示
すものである。すなわち、入力されたフォーム型文書の
ベクトルデータからフォーム型文書における交点の位置
と形状を抽出し、予めフォーム文書辞書部５２内に登録
されているデータと比較することによりフォーム型文書
の種別を判定することができる。また、各罫線の太さも
ベクトルデータにより容易に抽出することができるの
で、太さの情報を用いてフォーム型文書の種別を判定す
ることも可能である。

【００２１】また、以上例示したフォーム型文書を特定
できるフォーム構造をそれぞれ独立に使用してフォーム
型文書の種別を判定するのではなく、各フォーム種別判
定方法を組み合わせて使用することにより、フォーム種
別を判定する精度を向上させることができる。また、図
８に示すような両端が開放された帳票に対しては、フォ
ーム型文書から抽出された横（縦）方向の線に対すベク
トルの端点（始点または終点）の情報が縦（横）方向の
線対するベクトル情報と接触しているか否かを調べる。
この結果、各ベクトル情報が接触していなければ、帳票
の開放している部分である。この横（縦）方向に開いて
いる帳票に対しては、縦（横）ベクトルの本数＋１を最
大行（列）数とすることによって、図２に示すフォーム
型文書と同様にフォーム種別が判定できる。

【００２２】

【発明の効果】以上詳述したように、本発明によれば、
フォーム型文書は、そのタイトル文字あるいは区画線に
着目し、これらを自動的に読み取って、その種別が判定
されるので、フォーム型文書を入力する際に、フォーム
型文書の種別を一々指定する必要がなくなる。したがっ
て、フォーム型文書の種別を判定するための操作者の負
担が軽くなると共に、フォーム型文書を処理する時間を
短縮することができる。また、異なる種類のフォーム型
文書を混在した状態で取り扱っても、予めフォーム文書
辞書部に登録されているフォーム型文書であれば、どの
ような複雑な形のフォーム型文書でも自動的に処理する
ことができる。

【図面の簡単な説明】

【図１】本発明における一実施例を説明するブロック
構成図である。

【図２】フォーム型文書の一例を説明するための出張
旅費請求書を示す。

【図３】フォーム型文書から分離された文字画像を示
す。

【図４】フォーム型文書から分離されたフォーム画像
を示す。

【図５】本発明における他の実施例を説明するブロッ
ク構成図である。

【図６】本発明の他の実施例におけるフォーム構造抽
出部の構成を説明する図である。

【図７】本発明の他の実施例であるフォーム構造を抽
出する例を説明する図である。

【図８】表の端部が開放されているフォーム型文書の
例を示す図である。

【符号の説明】

１１・・・文書画像入力部、１２・・・イメージメモ
リ、１３・・・文字／図形分離部、１４・・・文字画像
メモリ、１５・・・フォーム画像メモリ、１６、５１・
・・フォーム種別判定処理部１７・・・文字認識部、１８・・・フォーム処理部、１
６１・・・タイトル／第１行、第１列位置判定処理部、
１６２・・・タイトル／第１行、第１列切り出し処理
部、１６３・・・フォーム種別判定処理部、５１１・・
・フォーム構造抽出部、５１２・・・フォーム種別判定
処理部、５２・・・フォーム文書辞書部、６１１・・・
ベクトル化処理部、６１２・・・最大行数抽出部、６１
３・・・最大列数抽出部、６１４・・・フォーム構造デ
ータメモリ、

Claims

【特許請求の範囲】

【請求項１】フォーム型文書画像をディジタルデータ
として入力する文書画像入力手段と、当該文書画像入力手段によって入力した前記ディジタル
データを記憶するイメージメモリと、当該イメージメモリに記憶されている前記フォーム型文
書のディジタルデータから文字画像とフォーム画像とを
分離して取り出す文字／図形分離手段と、当該文字／図形分離手段によって取り出された文字画像
からフォーム型文書の種別を判定するフォーム種別判定
処理手段と、当該フォーム種別判定処理手段におけるフォーム型文書
のタイトルを判定する際およびフォーム型文書を処理す
る際に文字を認識する文字認識手段と、を備えたことを特徴とするフォーム型文書識別装置。
【請求項２】フォーム型文書画像をディジタルデータ
として入力する文書画像入力手段と、当該文書画像入力手段によって入力した前記ディジタル
データを記憶するイメージメモリと、当該イメージメモリに記憶されている前記フォーム型文
書のディジタルデータから文字画像とフォーム画像とを
分離して取り出す文字／図形分離手段と、当該文字／図形分離手段によって取り出されたフォーム
画像をベクトルデータに変換すると共に、変換されたベ
クトルデータからフォーム型文書の構造を抽出するフォ
ーム構造抽出手段と、当該フォーム構造抽出手段によって抽出されたフォーム
型文書の構造と予め登録してあるフォーム型文書の構造
とを比較することによって、フォーム型文書の種類を判
定するフォーム種別判定処理手段と、を備えたことを特徴とするフォーム型文書識別装置。