JP2674475B2

JP2674475B2 - 文字読取装置

Info

Publication number: JP2674475B2
Application number: JP5189790A
Authority: JP
Inventors: 和仁中西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-07-30
Filing date: 1993-07-30
Publication date: 1997-11-12
Anticipated expiration: 2012-11-12
Also published as: JPH0744649A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、紙面上の文字を読み取
る光学的文字読取装置に関し、特に、手書き文字にかす
れ部分があっても読み取ることができる読取装置に関す
る。

【０００２】

【従来の技術】光学的文字読取装置（以下ＯＣＲと略
す）において、紙面上の文字を構造解析的読取方式で読
み取る場合、誤判定を最小にすることが課題である。こ
れに関して、従来は、ＯＣＲの初期判定の結果をフィー
ドバックして文字パターンを太く修正したり（太め処
理）、２値化のときのスライスレベル（しきい値）を変
更して文字を補正した後再度判定させるようにしている
（例えば森健一著「パターン認識」コロナ社（昭和６３
年））。

【０００３】

【発明が解決しようとする課題】上記従来技術において
は文字全体のスライスレベルの変更や太め処理による補
正を行うため、図７に示すＥのような一部かすれた部分
１を有する文字の補正を行なう場合、かすれている部分
１とは無関係のデータまで変化し、その結果文字がひず
み、たとえば図７のＥの小さなループ２が図７のＦの３
に示すように潰れてしまう。あるいは図示していないが
文字輪郭線に凹凸がある場合にはその凹凸が潰れてしま
う。その結果、かすれ部分を含む文字を正確に読み取れ
ないという欠点があった。

【０００４】本発明は上記の問題を解決すべくなされた
もので、文字を歪ませることなく、かすれた文字を正し
く読み取ることができるようにすることを課題とする。

【０００５】

【課題を解決するための手段】上記課題を解決するた
め、本発明においては、スキャナ手段、前処理手段、認
識判定手段、端点検出手段、パターン合成手段、認識制
御手段によって文字読取装置を構成した。スキャナ手段
は紙面上の文字パターンを電気信号に変換して多値デー
タとして読取る。前処理手段は、この多値データを第１
のスライスレベルによって第１の２値データに変換す
る。認識判定手段は第１の２値データを認識判定する
が、それが認識できないときには、前処理手段は、第１
のスライスレベルより低い第２のスライスレベルによっ
て前記多値データを第２の２値データに変換する。ま
た、認識判定手段が第１の２値データを認識できないと
きには、端点検出手段が第１の２値データの端点を検出
し、その検出した端点に基づいて認識制御手段が、第１
の２値データのかすれ領域を決定する。パターン合成制
御手段は、第１の２値データのかすれ領域以外の部分と
第２の２値データのかすれ領域部分とを合成し、認識判
定手段は合成されたデータを再度認識判定する。

【０００６】また、上記パターン合成手段の代りに、辞
書手段と、文字類推手段とを設け、辞書手段に、かすれ
領域の位置と文字との相関関係を記憶しておき、この辞
書手段を参照して文字類推手段によってかすれ領域の位
置から文字を類推するようにした。

【０００７】

【実施例】次に本発明の一実施例を図を参照して説明す
る。図１は本発明による文字読取装置の一実施例の構成
を示すブロック図である。図において、１００は紙面上
の文字パターンを電気信号に変換して多値データとして
読取るスキャナ部、２００は多値データを２値データに
変換する前処理部、３００は２値データの表わす文字パ
ターンを認識判定する認識判定部である。前処理部２０
０から出力される２値データは、たとえば図４のＨに示
す通りである。図４のＨに示すように２値データには端
点（たとえばＡ，Ｂ，Ｃ，Ｄ）が含まれている。端点検
出部４００は文字パターン輪郭情報をもとに端点を検出
し、その端点間相関関係によりかすれによって生じたで
あろう端点を検出する。これらの端点の検出は公知の手
段を用いて行うことができる。さらに、５００はスライ
スレベルの異なる２つの２値データを合成するパターン
合成制御部、６００は前処理部、端点検出部、パターン
制御部、認識判定部の制御を行うとともに端点検出部４
００が検出した端点に基づいて２値データのかすれ領域
を決定する認識制御部である。

【０００８】次に図２および３のフローチャートを用い
て動作を説明する。まず、スキャナ部１００からのデー
タは前処理部２００において前処理されて第１の２値デ
ータに変換される（図２のＳ１）。認識判定部３００は
第１の２値データを認識判定する（Ｓ２）。ここで読取
が可能であれば（Ｓ３）、ステップＳ１０へとんで判定
結果を出力（たとえばＣＲＴ表示）して終了する。ステ
ップＳ３において、読取不能の場合、認識制御部６００
が端点検出部４００に端点検出を指示する（Ｓ４）。一
般的に線分にかすれによる切れが生じた場合、そのかす
れ部分に２つの端点が生じ、しかもその端点は各々の近
傍に発生する。したがって端点検出部は次の２つ条件を
満たす端点をかすれ原因の端点（かすれ端点）とする。

【０００９】イ）１認識単位中に端点を２箇所以上所有
していること。

【００１０】ロ）各々の端点を中心にｎ×ｎ画素（ｎ＝
２，３，４，…）内に別の端点が一箇所以上有している
こと。図４のＧにおいて、４５１は端点Ａを中心にした
ｎ×ｎの画素領域を示し、４５２は端点Ｂを中心にした
ｎ×ｎの画素領域を示している。端点ＡおよびＢは共に
上記２条件を満足している。

【００１１】さて、図３はかすれ原因によると考えられ
る端点検出サブルーチンのフローチャートであり、まず
ステップＳ１１において端点検出部４００は第１の２値
データで作られるパターンの輪郭情報をストアし、その
情報から例えば輪郭の曲率が所定以下のものを端点とす
る。次に端点が２以上あるかどうか確認する（Ｓ１
２）。２以上あれば、ある端点の周りｎ×ｎ画素内（ｎ
＝２，３，４，…）に別の端点があるかどうかをチェッ
クし（Ｓ１３）、あれば前者の端点と後者の端点および
各々の位置座標データを補正候補点として保存する（Ｓ
１４）。この補正候補点の端点は上記イ）およびロ）の
条件を満す端点でかすれによる切れによって生じた端点
すなわちかすれ端点と考えられる。前端点について検索
を終了したら（Ｓ１５）、検索結果としてかすれ端点の
有無、その個数などが端点検出部４００に保存される
（Ｓ１６）。

【００１２】再び図２のメインルーチンに戻り、上記端
点検出サブルーチンでかすれ端点検出が可能であったと
きは（Ｓ５）、認識制御部６００は前処理部２００にス
ライスレベルを下げて（文字パターンが濃くなる）前処
理を再度行わせ、第２の２値データを得る（Ｓ６）。図
４のＩは第２の２値データのパターンを示している。図
４のＩにおいて４４は文字の記入枠を示し、スライスレ
ベルを下げたために記入枠４４まで読取られてしまって
いる。次に認識制御部６００は端点検出部４００が検出
した端点に基づいてかすれ領域を決定する。かすれ領域
とはかすれ端点２以上を含む領域をいう。これら領域は
本来つながるべきストロークが２値化時や筆記具の特性
等により切れ（かすれ）によって生じたものである。図
４のＧで言えばこのかすれ領域は、かすれ端点であって
それら端点を中心にｎ×ｎ画素で構成される２つ以上の
領域を含むｍ×ｍ画素（ｍ＝２，３，４，…但し、ｍ≧
ｎ）で構成される画像領域４５である（Ｓ７）。認識制
御部の指示に基づきパターン合成制御部５００は、端点
検出部４００からの情報すなわちかすれ端点とその座標
データを参照して、予め第１の２値データのうち上記か
すれ領域に相当するｍ×ｍ画素領域４５を除く部分と、
第２の２値データのｍ×ｍ画像領域４５の部分とを合成
する（Ｓ８）。合成は前処理部が第１の２値データおよ
び第２の２値データを出力するときに各々パターン合成
制御部のメモリ領域に保存されたものを用いて行う。図
４のＪは合成後の文字パターンを示し、ここには図４の
Ｉに示す枠４４のようなノイズは入ってこない。その
後、認識制御部６００は認識判定部３００に対して合成
文字パターンで再度認識処理を実行するように指示する
（Ｓ９）。判定結果はたとえばＣＲＴなどの表示装置に
出力される（Ｓ１０）。なお、２回目の認識判定におい
ても読取れなかったときは、その旨表示してもよいが、
スライスレベルをさらに下げて前処理し、再々度の判定
を行うようにしてもよい。

【００１３】以上のように、上記文字読取装置を用いれ
ば、スライスレベルを下げて合成パターンを作り、その
中のかすれ領域のみを合成するので、文字を何ら変形さ
せることなく、かすれた文字を正確に読取ることができ
る。また上記実施例においては、実際に端点を検出した
領域（ｎ×ｎ）より少し広い領域（ｍ×ｍ）でパターン
合成しているから、かすれ部分をより確実に修正するこ
とができる。なお合成に用いるべき第２の２値データの
領域は正方形である必要はない。要するに２つのかすれ
端点のまわりの領域を含むものであればよい。

【００１４】次に本発明の第２の実施例を図５および図
６を用いて説明する。第２の実施例の装置は、図５の
Ｋ，Ｍに示すような、かすれ領域２３，３２，３３の位
置を図５のＬ，Ｎで示すような座標（Ｘ，Ｙ），（Ｘ1
，Ｙ1 ），（Ｘ2 ，Ｙ2 ）で記憶しておき、所定の文
字においてかすれが発生し易い領域の位置の座標と当該
所定の文字とを対応させて辞書登録しておいてかすれ領
域の位置の座標が対応する文字を決定しようとするもの
である。図６は第２の実施例の文字読取装置の構成を示
すブロック図であり、図中、図１と同じ構成部分につい
ては同じ番号を付してある。図において、７００は端点
検出部４００で検出されたかすれ領域の位置の座標から
当該位置にかすれが発生し易い文字を決定する文字類推
部、８００は文字を決定するときに使用する辞書部であ
る。辞書部８００には所定の文字においてかすれが発生
し易い領域の位置の座標と当該所定の文字とが対応させ
て登録されている。たとえば、かすれ領域が図５のＬの
ような位置であれば文字は「２」、図５のＮのような位
置であれば文字は「８」という具合である。もちろん、
１つのかすれ領域の位置に対して複数の候補文字が対応
することも考えられる。

【００１５】さて、第２の実施例の装置の動作は、図２
のステップＳ１からＳ５までは第１の実施例と同様であ
る。しかし、その後は、かすれ部分についてパターン合
成を行わずに、文字はかすれが発生し易い領域が文字毎
にそれぞれ異なるという一般的な性質に着目し、検出さ
れたかすれ領域の位置に対して辞書部８００に登録され
たかすれ領域の位置が該当する文字を決定し、その結果
を出力する。出力結果として複数の候補文字を出力して
もよい。その場合は、その候補のうち正しいものをオペ
レータが選択するようにしてもよいし、さらにかすれ領
域の形状分析を行って認識制御部６００において最も可
能性の高い文字を１つ選択するようにしてもよい。

【００１６】なお、上記説明において、かすれ領域の形
状を４５，２３，３３のように正方形にしたが、この形
状はそれに限らず、読み取るべき文字に応じて、たとえ
ば、菱形、平行四辺形、その他の多角形、円などにして
もよい。

【００１７】

【発明の効果】以上説明したように、本発明によれば、
かすれ領域のみのスライスレベルを下げて２値データを
作成するようにしたので、画像データを歪ませることな
く、かすれた文字を正確に読取ることができる。

【図面の簡単な説明】

【図１】本発明による文字読取装置の一実施例の構成を
示すブロック図である。

【図２】図１の文字読取装置のメインルーチンを示すフ
ローチャートである。

【図３】図１の文字読取装置の端点検出サブルーチンを
示すフローチャートである。

【図４】文字パターン合成を説明する図である。

【図５】本発明の第２の実施例を説明する図である。

【図６】本発明の第２の実施例の構成を示すブロック図
である。

【図７】従来の装置の問題点を説明する図である。

【符号の説明】

１００スキャナ部２００前処理部３００認識判定部４００端点検出部５００パターン合成制御部６００認識制御部７００文字類推部８００辞書部

Claims

(57)【特許請求の範囲】

【請求項１】文字パターンを電気信号に変換して多値
データとして読取るスキャナ手段と、前記多値データを
所定のスライスレベルによって２値データに変換する前
処理手段と、前記２値データから所定文字パターンを認
識判定する認識判定手段と、前記２値データのパターン
の端点を検出する端点検出手段と、前記端点検出手段が
検出した端点に基づいて前記２値データパターンのかす
れ領域を決定する認識制御手段と、かすれ領域の位置の
座標と文字とが対応させて記憶させられた辞書手段と、
前記辞書手段を参照して前記かすれ領域の位置の座標が
対応する文字を決定する文字類推手段とを有することを
特徴とする文字読取装置。