JPH0528310A - フオーム型文書識別装置 - Google Patents

フオーム型文書識別装置

Info

Publication number
JPH0528310A
JPH0528310A JP3160782A JP16078291A JPH0528310A JP H0528310 A JPH0528310 A JP H0528310A JP 3160782 A JP3160782 A JP 3160782A JP 16078291 A JP16078291 A JP 16078291A JP H0528310 A JPH0528310 A JP H0528310A
Authority
JP
Japan
Prior art keywords
document
type
image
character
type document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3160782A
Other languages
English (en)
Inventor
Noboru Shimizu
昇 清水
Katsuhiko Itonori
勝彦 糸乗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP3160782A priority Critical patent/JPH0528310A/ja
Publication of JPH0528310A publication Critical patent/JPH0528310A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 同じあるいは異なった種類のフォーム型文書
を処理する際に、操作者がフォーム型文書の種類を一々
指定することなく、自動的にしかも迅速に識別できるよ
うにする。 【構成】 本発明のフォーム型文書識別装置は、フォー
ム型文書をディジタルデータとして入力する文書画像入
力手段と、当該ディジタルデータを記憶するイメージメ
モリと、当該イメージメモリに記憶されている前記フォ
ーム型文書のディジタルデータから文字画像とフォーム
画像とを分離して取り出す文字/図形分離手段と、前記
取り出された文字画像からフォーム型文書の種別を判定
するフォーム種別判定処理手段と、フォーム型文書のタ
イトルを判定する際およびフォーム型文書を処理する際
に文字を認識する文字認識手段とから構成される。ま
た、フォーム型文書は、分離されたフォーム画像のフォ
ーム構造からも判定できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、紙上に印刷または手書
きされたフォーム型文書を認識して、計算機(たとえ
ば、ワードプロセッサまたはパーソナルコンピュータ
等、以下、本明細書において、単に「計算機」という)
に取り込むフォーム型文書識別装置に関するものであ
る。上記「フォーム型文書」とは、本明細書において、
線によって区画された表形式の文書で、たとえば、伝
票、統計表、あるいは枠に記載事項を有する会議レポー
ト等を含む文書のことをいう。したがって、上記「フォ
ーム型文書」には、枠に囲まれた文書以外に、枠の一部
に線がなく開放された部分を有する文書も含む。
【0002】
【従来の技術】伝票等の線によって区画されたフォーム
型文書は、操作者がキーボードやマウス等を操作するこ
とによって、計算機に入力される。近年、計算機の操作
者が上記フォーム型文書を入力する際に行うキーボード
等の操作のわずらわしさを解消するため、紙に印刷され
た文書、または、丁寧に手書きされた文書を画像として
計算機に取り込むことが可能になった。そして、計算機
に取り込んだフォーム型文書は、その特定位置に書かれ
ている文字を認識することによって、フォーム型文書名
を認識しようとする研究が行われている。
【0003】また、従来例において、文字を認識するた
めにその位置を測定する方法は、たとえば、特開平2-33
658 号公報に、また、縦/横線のみから構成されている
フォーム文書を認識する方法は、たとえば、特願昭63-1
71729 号公報に、さらに、罫線や点線などで構成されて
いる場合のフォーム型文書を認識する方法は、たとえ
ば、特開平2-159690号公報にそれぞれ詳細な記載があ
る。また、帳票中の白領域の位置および大きさに着目し
て、表の構造を抽出する方法は、たとえば、情報処理学
会第38回全国大会3C−8「表の領域情報に基づく帳
票識別法の検討」徳升 厚美他 に提案されている。
【0004】
【発明が解決しようとする課題】しかし、上記従来例に
おけるフォーム型文書の認識方法は、操作者がフォーム
型文書のイメージを入力すると同時に、その種類を指定
する必要があった。その結果、操作者は、フォーム型文
書の入力およびその種類の指定を行うための負荷が多く
なるという欠点があった。特に、種類の異なるフォーム
型文書を同時に扱わねばならない場合、それぞれのフォ
ーム型文書を認識することは不可能であった。また、従
来例の改良として、フォーム型文書における全ての文字
を認識した後に、その全文字と予め記憶されているフォ
ーム型文書名のデータベースとのマツチングを取り、フ
ォーム型文書の種別を判定した。しかし、この方法は、
全ての文字を認識するための処理時間と、フォーム型文
書の種別を判定する時間とが多くかかるという欠点があ
った。また、上記帳票の白領域に着目した例では、図8
に示すような帳票における枠の端部が開放されているも
のには適用できなかった。
【0005】本発明は、以上のような問題を解決するた
めのもので、同じあるいは異なった種類のフォーム型文
書を入力する際に、フォーム型文書の種類を、操作者が
一々指定することなく、自動的にしかも迅速に識別でき
るフォーム型文書識別装置を提供することを目的とす
る。
【0006】
【課題を解決するための手段】
(第1発明)前記目的を達成するために、本発明のフォ
ーム型文書識別装置は、フォーム型文書画像をディジタ
ルデータとして入力する文書画像入力手段(図1の1
1)と、当該文書画像入力手段(11)によって入力し
た前記ディジタルデータを記憶するイメージメモリ(図
1の12)と、当該イメージメモリ(12)に記憶され
ている前記フォーム型文書のディジタルデータから文字
画像とフォーム画像とを分離して取り出す文字/図形分
離手段(図1の13)と、当該文字/図形分離手段(1
3)によって取り出された文字画像からフォーム型文書
の種別を判定するフォーム種別判定処理手段(図1の1
6)と、当該フォーム種別判定処理手段(16)におけ
るフォーム型文書のタイトルを判定する際およびフォー
ム型文書を処理する際に文字を認識する文字認識手段
(図1の17)とから構成される。
【0007】(第2発明)また、本発明のフォーム型文
書識別装置は、フォーム型文書画像をディジタルデータ
で入力する文書画像入力手段(図5の11)と、当該文
書画像入力手段(11)によって入力した前記ディジタ
ルデータを記憶するイメージメモリ(図5の12)と、
当該イメージメモリ(12)に記憶されている前記フォ
ーム型文書のディジタルデータから文字画像とフォーム
画像とを分離して取り出す文字/図形分離手段(図5の
13)と、当該文字/図形分離手段(13)によって取
り出されたフォーム画像をベクトルデータに変換すると
共に、変換されたベクトルデータからフォーム型文書の
構造を抽出するフォーム構造抽出手段(図5の511)
と、当該フォーム構造抽出手段(511)によって抽出
されたフォーム型文書の構造と予め登録してあるフォー
ム型文書の構造とを比較することによって、フォーム型
文書の種類を判定するフォーム種別判定処理手段(図5
の512)とから構成される。
【0008】
【作 用】
(第1発明)フォーム型文書画像は、文書画像入力手
段、たとえばイメージスキャナ等によりディジタルデー
タとして入力され、イメージメモリに記憶される。そし
て、イメージメモリに記憶されているフォーム型文書
は、文字/図形分離手段によって、文字のみからなる文
字画像と、線による区画のみからなるフォーム画像とに
分離される。フォーム種別判定処理手段では、分離され
たフォーム型文書内の文字画像における、たとえばタイ
トル部の位置である第1行、第1列が検出されると共
に、その部分が切り出される。また、この切り出された
タイトル部は、文字認識手段によって認識される。この
結果、フォーム種別判定処理手段は、フォーム型文書の
種別を判定して、たとえば、アプリケーション処理を行
うためにフォーム処理部に渡す。
【0009】(第2発明)前記文字/図形分離手段によ
って分離されたフォーム画像は、ベクトルデータ変換手
段によって、ベクトルデータに変換される。そして、ベ
クトルデータ変換手段によって、変換されたベクトルデ
ータからフォーム型文書のフォーム構造を抽出する。フ
ォーム構造は、たとえば、線の位置および最大行数/最
大列数等のフォーム型文書を表す特徴によって決められ
る。そして、フォーム種別判定処理手段では、前記ベク
トルデータと予め登録されているフォーム型文書のフォ
ーム構造とを比較することによってフォーム型文書の種
別が判定される。
【0010】本発明によれば、フォーム型文書は、文書
画像入力手段によって、自動的に読み込まれると共に、
その種別が判定されるので、フォーム型文書を入力する
際に、フォーム型文書の種別を一々指定する必要がなく
なる。また、たとえば、フォーム型文書のタイトルにお
ける第1行、第1列内の文字を優先して認識するので、
フォーム型文書における全文字によって判定していた従
来例に比べてフォーム型文書の種別を速く判定できる。
また、フォーム型文書の種別を判定した後に、フォーム
型文書内の文字を認識するので、その後のアプリケーシ
ョンに必要なフォーム型文書における欄内の文字のみを
認識するだけで良く、処理に必要のない文字を認識しな
くて済む。したがって、フォーム型文書の種別を判定す
るための操作者の負担が軽くなると共に、フォーム型文
書を処理する時間を短縮することができる。また、文書
画像入力手段によって入力したフォーム型文書における
フォーム画像からフォーム構造を抽出し、あらかじめ入
力しておいたフォーム型文書の構造と比較することによ
り、フォーム型文書の種別を判定しても、前記と同様な
効果を奏する。
【0011】
【実 施 例】図1は本発明における一実施例を説明す
るブロック構成図である。図1において、本発明のフォ
ーム型文書認識装置は、たとえば、伝票あるいは表型文
書等線からなる区画部分を有するフォーム型文書をディ
ジタルデータとして入力する文書画像入力部11と、当
該文書画像入力部11により入力したフォーム型文書の
イメージデータを格納するイメージメモリ12と、前記
フォーム型文書における線からなる区画部分のフォーム
画像と、当該区画部分に記載されている文字からなる文
字画像とを分離する文字/図形分離部13と、当該文字
/図形分離部13によって分離された文字のみからなる
文字画像を格納する文字画像メモリ14と、前記文字/
図形分離部13によって分離された線からなる区画部分
のフォーム画像を格納するフォーム画像メモリ15と、
前記文字画像およびフォーム画像からフォーム型文書の
種別を判定するフォーム種別判定処理部16と、フォー
ム型文書の区画部内に記載されている文字画像を認識す
る文字認識部17と、当該文字認識部17およびフォー
ム種別判定処理部16によって判定されたフォーム型文
書に対してアプリケーション処理を行うフォーム処理部
18とから構成されている。また、フォーム種別判定処
理部16は、文字画像メモリ14とフォーム画像メモリ
15とからフォーム型文書のタイトルの第1行および第
1列の位置を測定してその位置を判定するタイトル/第
1行、第1列位置判定処理部161と、当該タイトル/
第1行、第1列位置判定処理部161によって判定され
たタイトル/第1行、第1列の位置を切り出すタイトル
/第1行、第1列切り出し処理部162と、当該タイト
ル/第1行、第1列切り出し処理部162の切り出した
タイトル部分を文字認識部17によって認識して、その
フォーム型文書の種別を判定処理するフォーム種別判定
処理部163とから構成される。
【0012】図2はフォーム型文書の一例を説明するた
めの出張旅費請求書を示す。図3はフォーム型文書から
分離された文字画像を示す。図4はフォーム型文書から
分離されたフォーム画像を示す。図2において、出張旅
費請求書21の線からなる区画部分は、たとえば、氏名
欄22と、出張月日、出張区間、乗物等の種類、金額等
の所定事項を記載する記載欄23と、旅費の合計金額欄
24とから構成されている。文書画像入力部11は、た
とえば、イメージスキャナであり、図2に示されている
出張旅費請求書21のようなフォーム型文書画像をディ
ジタルデータとして入力すると共に、イメージメモリ1
2に格納する。次に、文字/図形分離部13は、前記出
張旅費請求書21のフォーム型文書から文字部分のみを
抽出した図3に示す文字画像30と、線からなる区画部
分のみを抽出した図4に示すフォーム画像40とに分離
する。このような文字画像とフォーム画像との分離方法
は、周知技術を利用することができる。すなわち、区画
を形成する線がたとえば、縦/横線のみから構成されて
いるフォーム画像を対象とする分離方法は、特願昭63-1
71729 号公報に、また、罫線が点線などで構成されてい
るフォーム画像を対象とする方法は、特願昭63-313938
号公報にそれぞれ記載されている。そして、前記文字/
図形分離部13によって分離された文字画像は、文字画
像メモリ14に、線のごとき区画部からなるフォーム画
像は、フォーム画像メモリ15にそれぞれ格納される。
【0013】フォーム種別判定処理部16におけるタイ
トル/第1行、第1列位置判定処理部161では、たと
えば、前記文字画像メモリ14に格納されているフォー
ム型文書の上または下の位置にある大きい文字、または
前記フォーム型文書の第1行目、第1列目における欄内
の文字の位置を判定する。具体的な位置の測定方法は、
たとえば、特開平2-159690号公報、あるいは特開平2-33
658 号公報に記載されている方法を用いることができ
る。また、文字の大きさを検出する場合は、フォーム型
文書の上または下の位置に存在するある値以上の大きさ
の文字、たとえば、1辺が5mm以上の文字の位置を文
字画像メモリ14内で測定する。これは、一般的にフォ
ーム型文書のタイトル(種別名)は、フォームの上また
は下にあるためである。また、大きい文字のみを対象に
するのは、注釈などの小さい文字を対象としてしまう
と、フォーム種別の誤判定をしてしまうことがあるため
である。次に、タイトル/第1行、第1列切り出し処理
部162により、前記タイトル/第1行,第1列位置判
定処理部161で判定されたタイトルまたは第1行、第
1列の領域を切り出す。フォーム種別判定処理部163
は、前記切り出された領域内の文字を、文字認識部17
により認識し、フォーム型文書の種別を判定する。この
フォーム種別判定処理部163によって判定された判定
結果は、フォームのアプリケーション部であるフォーム
処理部18に渡される。
【0014】フォーム処理部18の具体的なアプリケー
ションとしては、たとえば、図2に示す出張旅費請求書
21における「氏名」の欄22と「旅費合計」の欄24
とを文字認識部17によって読み取り、「氏名」の欄2
2に記載されている者に対して「旅費合計」金額を出張
旅費として払い出すための処理を行うものがある。ま
た、図示されていない会議レポートのフォーム型文書と
しては、たとえば、その「時間」の欄と「会議参加人
数」の欄とを文字認識部17によって読み取り、統計処
理を行うもの等がある。従来の方法では、出張旅費請求
書21および会議レポートのフォーム型文書の種類を指
定して入力しなければ処理できなかったが、上記アプリ
ケーションのように出張旅費請求書21に会議レポート
がまぎれて入力されても、それぞれのフォーム型文書を
自動的に読み取り、対応した処理が可能である。なお、
本発明のフォーム種別判定処理に際して、出張旅費請求
書21のフォーム型文書内におけるその他の欄(日付、
区間等)は、文字認識部17によって認識する必要がな
く、全ての文字を認識して、フォーム種別の判定を行う
方法よりも処理時間が短くなる。また、たとえば、出張
旅費請求書21のアプリケーションにおいて、出張者名
と旅費合計の欄における文字認識を行うだけで済むの
で、その処理にかかる時間も短縮できる。なお、文字認
識部17は、公知の技術によって構成してもよいが、本
出願人の出願した特願平1−314301号の発明「文
字認識装置」(発明者大住淳一)、あるいは特願平1−
318827号の発明「文字認識装置」(発明者倉持
勉)などにより構成すれば、好適である。
【0015】本発明の実施例では、文字認識のみによっ
て、フォーム型文書の種別を判定しているが、フォーム
種別判定処理部16において、フォーム型文書の大きさ
が測定できるので、その情報を用いて、フォーム型文書
の種類の範囲を狭くし、文字認識のみで判定するよりも
フォーム型文書の判定の正解率を上げられる。また、フ
ォーム型文書の大きさのみでなく、ベクトル化処理を加
えることによって、フォーム型文書の形状(行/列の数
など)の情報を使えるようにして、さらに正解率を上げ
られる。また、次に示すような特徴を用いて、フォーム
型文書の種別判定の正解率を上げることができる。すな
わち、 (1) 大きな文字に着目してこれを抽出する (2) 太い文字に着目してこれを検出する (3) 文字の濃度(濃さ)に着目してこれを検出する 等がある。
【0016】次に、本発明の他の実施例について図5な
いし図8を参照しつつ説明する。図5は本発明における
他の実施例を説明するブロック構成図である。図6は本
発明の他の実施例におけるフォーム構造抽出部の構成を
説明する図である。図7は本発明の他の実施例であるフ
ォーム構造を抽出する例を説明する図である。図8は表
の端部が開放されているフォーム型文書の例を示す図で
ある。図5に示す実施例は、フォーム種別判定処理部5
1とフォーム文書辞書部52とにおいて図1に示す実施
例と相違する。すなわち、フォーム種別判定処理部51
は、文字/図形分離部13によって分離された線よりな
る区画部分によって形成されるフォーム型文書の構造を
抽出するフォーム構造抽出部511と、当該フォーム構
造抽出部511で抽出されたフォーム構造を予め使用さ
れる全てのフォーム型文書のフォーム構造を格納してい
るフォーム文書辞書部52に基づいてフォーム種別を判
定するフォーム種別判定処理部512とから構成され
る。また、フォーム構造抽出部511は、図6に示すよ
うに、フォーム画像をベクトル化するベクトル化処理部
611と、ベクトル化処理部611によってベクトル化
されたフォーム型文書のベクトルデータから最大行数を
抽出する最大行数抽出部612と、同じく最大列数を抽
出する最大列数抽出部613と、前記最大行数および最
大列数から決められるフォーム構造のデータを格納する
フォーム構造データメモリ614とから構成される。
【0017】そして、文書画像入力部11は、フォーム
型文書画像、たとえば図2に示す出張旅費請求書21を
ディジタルデータとして入力すると共に、イメージメモ
リ12に格納する。次に、文字/図形分離部13は、前
記イメージメモリ12に格納されている画像データから
文字画像と線よりなるフォーム画像とを分離する。文字
画像メモリ14には、前記分離されたたとえば、図3に
示す文字画像が格納される。また、フォーム画像メモリ
15には、前記分離されたたとえば、図4に示す線より
なるフォーム画像が格納される。フォーム種別判定処理
部51では、フォーム構造抽出部511により、フォー
ム画像メモリ15に格納されている図4に示すようなフ
ォーム構造を抽出する。この実施例では、フォーム型文
書を構成している行と列に注目し、その最大行数と最大
列数を抽出する。すなわち、ベクトル化処理部611に
よってベクトル化されたフォーム構造は、このベクトル
情報から、最大行数抽出部612と最大列数抽出部61
3とにより、そのフォームの行と列の最大値を求める。
この行と列との最大値の求め方は、たとえば、縦(横)
ベクトルの本数を数え、その本数−1を最大行(列)数
とする。このようにして求められた最大行数および最大
列数のデータは、フォーム構造データメモリ614に格
納される。全て処理対象となるフォーム型文書につい
て、上記と同様な方法により得られたフォーム構造のデ
ータと、そのフォーム型文書のタイトルとをそれぞれ予
めフォーム文書辞書部52に格納しておく。
【0018】図示されていないベクトル化処理部の一例
を挙げる。X軸またはY軸方向走査部の走査は、画素単
位に行うのではなく、幾つかの画素を飛び越して行う。
その飛び越し幅である走査線間幅は、任意の幅に決める
ことができる。連続黒画素計数部は、走査をしつつ黒画
素が幾つ連続しているかを計数する。その計数結果に基
づき、黒画素重心抽出部は、連続した黒画素の重心を抽
出する。重心連結部は、黒画素重心抽出部の抽出した黒
画素重心同士を連結して、ベクトルを形成する。一定の
距離を予め定めておいて、黒画素重心間の距離がその一
定の距離より小であれば、両者を連結してベクトルを形
成する。しかし、上記一定の距離より大であれば連結し
ない。ベクトル整形部は、ベクトル間を結合したり、接
触させたり、誤ベクトルの削除等を行い、ベクトルの整
形を行う。
【0019】フォーム種別判定処理部512では、フォ
ーム構造抽出部511で抽出した後、フォーム構造デー
タメモリ614に格納されているフォーム構造データ
と、フォーム文書辞書52内に格納されているフォーム
構造データとを比較し、一致するフォーム種別を探索
し、そのときのタイトルが対象としているフォーム型文
書のものであると判定する。フォーム種別判定処理部5
12によって判定された判定結果は、フォーム処理部1
8に渡される。フォーム処理部18では、フォーム型文
書内の文字を文字認識部17で認識して、必要な処理を
行う。
【0020】なお、フォーム種別判定処理部512にお
いて判定に使用するフォームの構造は、上記の最大行数
と最大列数に限定するものではない。フォームの形状を
特定することができる、構造上の特徴であれば別のもの
を用いてもかまわない。たとえば、フォーム型文書の中
で使用されている罫線の長さを用いることができる。こ
の場合、縦(横)の罫線には、どの長さの罫線が何本使
われているかを、予めフォーム文書辞書部52内に登録
して置き、このデータと比較することによりフォーム種
別を判定することができる。また、フォーム型文書にお
ける罫線の交点の位置と形状の情報を用いることもでき
る。交点の形状とは、ある位置の交点における罫線がた
とえば、図7の(a)に示す十時型、図7(b)の
(イ)ないし(ニ)に示すT時型、あるいは図7(c)
の(イ)ないし(ニ)に示す鍵型で交わっているかを示
すものである。すなわち、入力されたフォーム型文書の
ベクトルデータからフォーム型文書における交点の位置
と形状を抽出し、予めフォーム文書辞書部52内に登録
されているデータと比較することによりフォーム型文書
の種別を判定することができる。また、各罫線の太さも
ベクトルデータにより容易に抽出することができるの
で、太さの情報を用いてフォーム型文書の種別を判定す
ることも可能である。
【0021】また、以上例示したフォーム型文書を特定
できるフォーム構造をそれぞれ独立に使用してフォーム
型文書の種別を判定するのではなく、各フォーム種別判
定方法を組み合わせて使用することにより、フォーム種
別を判定する精度を向上させることができる。また、図
8に示すような両端が開放された帳票に対しては、フォ
ーム型文書から抽出された横(縦)方向の線に対すベク
トルの端点(始点または終点)の情報が縦(横)方向の
線対するベクトル情報と接触しているか否かを調べる。
この結果、各ベクトル情報が接触していなければ、帳票
の開放している部分である。この横(縦)方向に開いて
いる帳票に対しては、縦(横)ベクトルの本数+1を最
大行(列)数とすることによって、図2に示すフォーム
型文書と同様にフォーム種別が判定できる。
【0022】
【発明の効果】以上詳述したように、本発明によれば、
フォーム型文書は、そのタイトル文字あるいは区画線に
着目し、これらを自動的に読み取って、その種別が判定
されるので、フォーム型文書を入力する際に、フォーム
型文書の種別を一々指定する必要がなくなる。したがっ
て、フォーム型文書の種別を判定するための操作者の負
担が軽くなると共に、フォーム型文書を処理する時間を
短縮することができる。また、異なる種類のフォーム型
文書を混在した状態で取り扱っても、予めフォーム文書
辞書部に登録されているフォーム型文書であれば、どの
ような複雑な形のフォーム型文書でも自動的に処理する
ことができる。
【図面の簡単な説明】
【図1】 本発明における一実施例を説明するブロック
構成図である。
【図2】 フォーム型文書の一例を説明するための出張
旅費請求書を示す。
【図3】 フォーム型文書から分離された文字画像を示
す。
【図4】 フォーム型文書から分離されたフォーム画像
を示す。
【図5】 本発明における他の実施例を説明するブロッ
ク構成図である。
【図6】 本発明の他の実施例におけるフォーム構造抽
出部の構成を説明する図である。
【図7】 本発明の他の実施例であるフォーム構造を抽
出する例を説明する図である。
【図8】 表の端部が開放されているフォーム型文書の
例を示す図である。
【符号の説明】
11・・・文書画像入力部、12・・・イメージメモ
リ、13・・・文字/図形分離部、14・・・文字画像
メモリ、15・・・フォーム画像メモリ、16、51・
・・フォーム種別判定処理部 17・・・文字認識部、18・・・フォーム処理部、1
61・・・タイトル/第1行、第1列位置判定処理部、
162・・・タイトル/第1行、第1列切り出し処理
部、163・・・フォーム種別判定処理部、511・・
・フォーム構造抽出部、512・・・フォーム種別判定
処理部、52・・・フォーム文書辞書部、611・・・
ベクトル化処理部、612・・・最大行数抽出部、61
3・・・最大列数抽出部、614・・・フォーム構造デ
ータメモリ、

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 フォーム型文書画像をディジタルデータ
    として入力する文書画像入力手段と、 当該文書画像入力手段によって入力した前記ディジタル
    データを記憶するイメージメモリと、 当該イメージメモリに記憶されている前記フォーム型文
    書のディジタルデータから文字画像とフォーム画像とを
    分離して取り出す文字/図形分離手段と、 当該文字/図形分離手段によって取り出された文字画像
    からフォーム型文書の種別を判定するフォーム種別判定
    処理手段と、 当該フォーム種別判定処理手段におけるフォーム型文書
    のタイトルを判定する際およびフォーム型文書を処理す
    る際に文字を認識する文字認識手段と、 を備えたことを特徴とするフォーム型文書識別装置。
  2. 【請求項2】 フォーム型文書画像をディジタルデータ
    として入力する文書画像入力手段と、 当該文書画像入力手段によって入力した前記ディジタル
    データを記憶するイメージメモリと、 当該イメージメモリに記憶されている前記フォーム型文
    書のディジタルデータから文字画像とフォーム画像とを
    分離して取り出す文字/図形分離手段と、 当該文字/図形分離手段によって取り出されたフォーム
    画像をベクトルデータに変換すると共に、変換されたベ
    クトルデータからフォーム型文書の構造を抽出するフォ
    ーム構造抽出手段と、 当該フォーム構造抽出手段によって抽出されたフォーム
    型文書の構造と予め登録してあるフォーム型文書の構造
    とを比較することによって、フォーム型文書の種類を判
    定するフォーム種別判定処理手段と、 を備えたことを特徴とするフォーム型文書識別装置。
JP3160782A 1991-06-06 1991-06-06 フオーム型文書識別装置 Pending JPH0528310A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3160782A JPH0528310A (ja) 1991-06-06 1991-06-06 フオーム型文書識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3160782A JPH0528310A (ja) 1991-06-06 1991-06-06 フオーム型文書識別装置

Publications (1)

Publication Number Publication Date
JPH0528310A true JPH0528310A (ja) 1993-02-05

Family

ID=15722336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3160782A Pending JPH0528310A (ja) 1991-06-06 1991-06-06 フオーム型文書識別装置

Country Status (1)

Country Link
JP (1) JPH0528310A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337718A (ja) * 2000-05-26 2001-12-07 Mitsubishi Electric Corp 設備保全管理業務支援装置
JP2007328525A (ja) * 2006-06-07 2007-12-20 Ricoh Co Ltd 情報処理装置、情報処理システム、プログラム及びその記録媒体
JP2009087378A (ja) * 2009-01-16 2009-04-23 Hitachi Omron Terminal Solutions Corp 帳票処理装置
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337718A (ja) * 2000-05-26 2001-12-07 Mitsubishi Electric Corp 設備保全管理業務支援装置
JP2007328525A (ja) * 2006-06-07 2007-12-20 Ricoh Co Ltd 情報処理装置、情報処理システム、プログラム及びその記録媒体
JP2009087378A (ja) * 2009-01-16 2009-04-23 Hitachi Omron Terminal Solutions Corp 帳票処理装置
JP4521466B2 (ja) * 2009-01-16 2010-08-11 日立オムロンターミナルソリューションズ株式会社 帳票処理装置
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113139625B (zh) * 2021-05-18 2023-12-15 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质

Similar Documents

Publication Publication Date Title
JP2001283152A (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000181993A (ja) 文字認識方法および装置
JPH08166970A (ja) コード化したワードトークンを使用して文書画像をハイライトで強調する方法
JP4280355B2 (ja) 文字認識装置
JP3525997B2 (ja) 文字認識方法
JPH0528310A (ja) フオーム型文書識別装置
Saitoh et al. Document image segmentation and layout analysis
JPS5991582A (ja) 文字読取装置
JP4853313B2 (ja) 文字認識装置
JP2917427B2 (ja) 図面読取装置
JP3223878B2 (ja) 文字列照合装置、方法及び記録媒体
JP3384634B2 (ja) 文字種識別方法
JP3197441B2 (ja) 文字認識装置
JP3220226B2 (ja) 文字列方向判別方法
KR100248384B1 (ko) 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템
JPH01201789A (ja) 文字読取装置
JPH0415776A (ja) 文字のサイズ情報抽出方法
JP3100825B2 (ja) 線認識方法
JPH0259979A (ja) 文書画像処理装置
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP2963474B2 (ja) 類似文字識別方法
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP2972443B2 (ja) 文字認識装置
JPS63126082A (ja) 文字認識方式
JPH05282487A (ja) 文字認識装置