JP3199033B2 - 光学式文字読取方法、及び光学式文字読取装置 - Google Patents

光学式文字読取方法、及び光学式文字読取装置

Info

Publication number
JP3199033B2
JP3199033B2 JP25376498A JP25376498A JP3199033B2 JP 3199033 B2 JP3199033 B2 JP 3199033B2 JP 25376498 A JP25376498 A JP 25376498A JP 25376498 A JP25376498 A JP 25376498A JP 3199033 B2 JP3199033 B2 JP 3199033B2
Authority
JP
Japan
Prior art keywords
character
line
pattern
image
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25376498A
Other languages
English (en)
Other versions
JP2000090196A (ja
Inventor
満雄 田中
勝彦 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP25376498A priority Critical patent/JP3199033B2/ja
Publication of JP2000090196A publication Critical patent/JP2000090196A/ja
Application granted granted Critical
Publication of JP3199033B2 publication Critical patent/JP3199033B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学式文字読取装
置に関し、特に既知フォントの活字文字を枠付きの印字
位置に印字された文字を読み取る場合に、高精度な認識
が可能である光学式文字読み取り方法およびかかる方法
を実施するための光学式文字読取装置(OCR)に関す
るものである。
【0002】
【従来の技術】従来の光学文字読取装置では、主に文字
記入枠等の線が、文字読み取りスキャナ部において感知
しないような色彩、すなわちドロップアウトカラーで予
め印刷されている帳票が使用されてきた。しかし、今日
では光学読取装置用には設計されていない一般帳票が使
用されるケースや、複写されたものまたはFAX 受信され
た帳票のように、文字と記入枠とが共に非ドロップアウ
トカラーからなる帳票であっても読み取りたいという要
請が高まっている。しかし、文字認識を行うためにはま
ず1文字1 文字の文字画像を生成する必要があるため、
スキャナで画像を取り込んだときに枠線も同様に残って
しまう上述のような一般帳票を読み取るためには、画像
から文字枠または罫線等の線と文字を分離する技術が必
須である。
【0003】この問題点を解決するための発明として、
特開昭63−251874号、特開平8−249420
号、特開平9−81680号公報などで開示された技術
が知られている。文字枠と文字の接触点が複数ある場合
にそれらの間を接続し、文字を正しく切り出す手法であ
る。しかし、これらの手法は接触点が1つしかない場合
には対応できない。これらは手書き文字を主な対象とし
ており、2つの接触点を接続するように枠線を残す処理
をするため、接触点が1つしかないと枠の線分に接触し
ている文字ストロークの位置決定ができないからであ
る。特に、読み取り対象が印刷活字である場合、活字文
字を構成する水平及び垂直方向の文字ストロークが完全
に枠線に重なってしまい、接触点が1個所しか抽出でき
ない場合が多くなる。
【0004】同様に枠線が障害となる文字の読み取りの
ために、文字と接触または交差するものと判断された枠
線イメージを除去して文字を読み取りやすくする技術も
開示されている(特開平3−282895号公報)。し
かし、枠線除去のための判別手段や最終的に残存してい
る文字パターンにも少なからず影響を与えることは不可
避であり、かえって誤認識の原因ともなることもあって
完全な解決策とはなっていない。このような誤認識の可
能性を低減するために、連想画像を出力する神経回路モ
デルを使用した処理により複数の枠付き文字を切り出し
た画像と、これらから枠除去処理を行った画像との重な
り程度により候補文字を選択する技術も開示されている
(特開平7−262313号公報)。しかし、神経回路
モデルの構成も決定的ではない上、枠線と文字を構成す
る線とが完全に重なっている場合の解決策とはなってい
ない。
【0005】また、有彩色で記入された文字と有彩色の
文字枠とを確実に識別する光学式文字読み取り装置も開
示されている(特開平9−81673号公報、特開平1
0−27213号公報)。これらは、主にドロップアウ
トカラーを確実に認識して除去し、所望の文字のみを認
識するためのカラー処理技術を内容とするものであり、
非ドロップアウトカラーによる枠線に関わるものではな
い。
【0006】
【発明が解決しようとする課題】本発明の課題は、読み
取り対象の入力パターンを既知フォントの活字文字に限
定し、その文字高さ、文字幅を利用することにより文字
枠または罫線等の線と文字の接触点または交差点が複数
であるか1つであるかに拘わらず、高精度な文字認識を
行うことのできる光学式文字読み取り方法およびかかる
方法を実施するに適した光学式文字読取装置を提供する
ことにある。
【0007】
【課題を解決するための手段】本発明の課題は、入力帳
票から帳票イメ−ジを取り込むスキャナ部と、該スキャ
ナ部で取り込まれたアナログデ−タをデジタルデ−タに
変換するA/D変換部と、該A/D変換部で変換された
デジタルデ−タを格納するイメ−ジメモリと、該イメ−
ジメモリの格納情報から一文字ずつに分離する文字切り
出し部と、該文字切り出し部から出力される文字パター
ンを格納する文字パターンメモリと、該文字パターンメ
モリの文字に対して認識処理を実行する文字認識部とを
備えている光学式文字読取装置により、読み取った時に
画像として除去できない色彩で印刷された文字枠または
罫線等の線に重なった既知フォントの活字文字を正確に
読み取るために、文字枠等の線に文字が接している場
合、前記文字切り出し部は 予め与えられているフォン
トの高さと等しくなるように文字が接している 幅分の線
を残した文字パターンと、予め与えられているフォント
の高さおよび幅と同サイズになるように接触箇所の線を
一部残した文字パターンを生成し、前記文字認識部
は、それぞれの前記文字パターンを辞書と整合させ、辞
書との整合度が高い方を認識結果として出力することを
特徴とする光学式文字読取方法によって解決される。
【0008】さらに、本発明の課題は、入力帳票から帳
票イメ−ジを取り込むスキャナ部と、該スキャナ部で取
り込まれたアナログデ−タをデジタルデ−タに変換する
A/D変換部と、該A/D変換部で変換されたデジタル
デ−タを格納するイメ−ジメモリと、該イメ−ジメモリ
の格納情報から一文字ずつに分離する文字切り出し部
と、該文字切り出し部から出力される文字パターンを格
納する文字パターンメモリと、該文字パターンメモリの
文字に対して認識処理を実行する文字認識部とを備えて
いる光学式文字読取装置において、読み取った時に画像
として除去できない色彩で印刷された文字枠または罫線
等の線に重なった既知フォントの活字文字を正確に読み
取るために、文字枠等の線に文字が接している場合、
文字切り出し部は 予め与えられているフォントの高
さと等しくなるように文字が接している 幅分の線を残し
文字パターンと、予め与えられているフォントの高さ
および幅と同サイズになるように接触箇所の線を一部残
した文字パターンを生成する手段を有し、前記文字認
識部は、それぞれの前記文字パターンを辞書と整合さ
せ、辞書との整合度が高い方を認識結果として出力する
手段を有することを特徴とする光学式文字読取装置によ
って解決される。
【0009】本発明にかかる光学式文字読取装置によれ
ば、文字が文字枠または罫線等の線と接している場合
に、文字切り出し部によって切り出された文字で予め与
えられているフォントの高さと等しくなるように文字が
接している幅分の線を残した文字パターンと、予め与え
られているフォントの高さおよび幅と等しいサイズにな
るように接触個所の線を部分的に残した文字パターン
と、のそれぞれの文字パターンを生成し、それぞれの
パターンを辞書のパターンと整合させる。そして、よ
り整合性の高い文字の方を認識結果として出力するもの
である。
【0010】したがって、比較的簡潔な構成でありなが
ら、高い認識率を達成することが可能となる。
【0011】
【発明の実施例】以下、本発明の一実施例を図1に基づ
いて説明する。図1は、本発明の一実施例の光学式文字
読取装置(OCR)の実施例の構成を示すブロック図を
示すものである。この光学式文字読取装置は、読み取り
対象としての入力帳票から文字等のイメ−ジを取り込む
スキャナ部101と、このスキャナ部101で取り込ま
れたアナログデ−タをデジタルデ−タに変換するA/D
変換部102と、このA/D変換部102で変換された
デジタルデ−タを格納するイメ−ジメモリ103と、こ
のイメ−ジメモリ103から一文字ずつに分離して取り
出すための文字切り出し部104と、この文字切り出し
部104から出力される文字パターンを格納する文字パ
ターンメモリ105と、文字パターンメモリ105の文
字に対して認識処理を実行する文字認識部106とを備
えている。
【0012】文字切り出し部104は、イメ−ジメモリ
103から文字パターンを作成する際に文字枠あるいは
罫線等の線に重なった活字文字に対し線を部分的に残し
た文字パターンと、文字枠等の線を消去した文字パター
ンとを作成する。なお、この文字読取装置の処理部は、
読み取り対象である活字文字フォントの高さ及び幅の情
報を取得しているものとする。例えば、OCR−Bフォ
ントの数字の場合、数字" 0" から" 9" の各フォント
の高さは等しいので、その値をフォントの高さとする。
また、幅は数字" 1" のみ狭いがそれ以外の文字につい
ては等しいため、" 1" 以外のフォントの幅を採用す
る。
【0013】まず枠を残したパターンの作成手順を図3
を参照して説明する。図3は数字"5" の上部の横スト
ロークが文字枠の上枠線に重なった場合の2値画像を示
している。この時、枠線を除去したとすると、文字パタ
ーン301が残ることになる。しかし、このパターンの
高さ302は、予め与えられているフォントの高さ30
4よりも低いので、枠線除去により文字画素が消去され
ていると仮定して文字高さ306がフォントの高さ30
と等しくなるように枠線の一部を残して枠線除去を行
う。このとき、残す枠線の横幅303は予め与えられて
いるフォント幅305と等しくし、最終的なパターンの
横幅がフォント幅と等しくなる寸法とする。
【0014】一方、枠を消去した文字パターンの作成手
順を図4を参照して説明する。図4は数字" 4" の上部
が文字枠の上枠線に重なっている場合の2値画像を示
す。この場合も枠を残すパターンと同様、パターン高4
01が予め与えられているフォントの高さ402と等し
くなるように枠の一部を残して枠線除去を行う。但し、
このとき残す枠線の横幅は、文字が枠に接触している幅
403とする。文字認識部106は、文字パターンメモ
リ105に出力された文字枠あるいは罫線等の線に重な
った文字に対し、枠を残した文字パターンと枠を消去し
た文字パターンとの2パターンを認識処理し、辞書のパ
ターンとの整合度が高い結果を出力する手段を備えてい
る。なお、図1に示した各要素については、従来から知
られた電子回路技術を利用することができ、また種々の
センサ技術、メモリ制御技術、文字認識技術等を援用す
ることが可能であるため詳述は省略する。
【0015】図2は、この光学式文字読取装置の動作を
説明するための入力イメ−ジと、文字切り出し部で作成
される文字パタンの一例を示す。次に、図1、図2を再
び参照して本実施例の全体の動作について詳細に説明す
る。まず、スキャナ部101で読み取り対象の帳票から
帳票イメ−ジが取り込まれ、A/D変換部102でアナ
ログデ−タからデジタルデ−タに変換され、イメ−ジメ
モリ103に格納される。次に、イメ−ジメモリ103
に格納された帳票イメ−ジのうち認識対象の部分201
に対して、文字切り出し部104で一文字ずつに分離さ
れる。
【0016】この文字切り出し部104では文字枠ある
いは罫線に接触している文字に対して枠線をフォントパ
ターンの幅に相当する長さだけ残した文字パターン20
2と予め与えられているフォントの高さと等しくなるよ
うに文字が接している幅分の線を残した文字パターン2
03をパターンメモリ105に格納する。このときの
文字パターンは2値画像でもよいし、多値画像でもよ
い。多値画像である場合は、文字切り出し部104の処
理の最初に2値化処理を行う。
【0017】パターンメモリ105に格納されたそれぞ
れの文字パターンは文字認識部106で認識処理を実行
し、その結果のうち認識辞書との整合度が高い方を認識
結果すなわちその文字に対応する文字デ−タとして出力
する。図2の符号201に示されるような入力イメ−ジ
が得られた場合は、202のように枠線を残した文字パ
ターンの方が、枠線を消去した文字パターン203より
も辞書と整合する。これに対して、図2の符号204に
示されるような入力イメ−ジの場合には、枠線を消去し
た文字パターン206の方が、枠線を残している文字パ
ターン205よりも辞書と整合するため、文字認識部1
06で出力する認識結果を辞書との整合度から選択する
ことで、認識精度は前述した従来例よりも非常によいも
のとなっている。
【0018】
【0019】図2に示した実施例では、文字の上辺が文
字枠または罫線に重なった場合を記述してあるが、文字
の下辺が重なった場合でも同様の効果が得られる。
【0020】
【発明の効果】本発明によれば、印刷活字が非ドロップ
アウトカラーで印刷された枠線や罫線に重なる場合で
も、正確にかつ高速に文字を読み取る、優れた光学式文
字読み取り方法ならびに光学式文字読取装置を提供する
ことができる。特に、水平方向や垂直方向にのびた長い
文字ストロークが枠等の線に完全に重なってしまう場
合、従来の罫線文字分離方式では読み取り困難であった
が、本発明では読み取り対象フォントの高さおよび幅の
情報を用いて2種類の認識候補パターンを作成すること
により、これら枠線と接触している文字パターンも高速
での読み取りが可能となる。
【図面の簡単な説明】
【図1】本発明にかかる光学式文字読取装置の基本構成
を示すブロック図である。
【図2】本発明にかかる光学式文字読取装置により枠線
を残して生成される文字パターンの例を示すものであ
る。
【図3】本発明にかかる光学式文字読取装置により枠線
を消去して生成される文字パターンの例を示すものであ
る。
【図4】本発明にかかる光学式文字読取装置により枠線
を消去して生成される他の文字パターンの例を示すもの
である。
【符号の説明】
101 スキャナ部 102 A/D変換部 103 イメージメモリ 104 文字切り出し部 105 文字パターンメモリ 106 文字認識部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力帳票から帳票イメ−ジを取り込むス
    キャナ部と、該スキャナ部で取り込まれたアナログデ−
    タをデジタルデ−タに変換するA/D変換部と、該A/
    D変換部で変換されたデジタルデ−タを格納するイメ−
    ジメモリと、該イメ−ジメモリの格納情報から一文字ず
    つに分離する文字切り出し部と、該文字切り出し部から
    出力される文字パターンを格納する文字パターンメモリ
    と、該文字パターンメモリの文字に対して認識処理を実
    行する文字認識部とを備えている光学式文字読取装置に
    より、 読み取った時に画像として除去できない色彩で印刷され
    た文字枠または罫線等の線に重なった既知フォントの活
    字文字を正確に読み取るために、 文字枠等の線に文字が接している場合、前記文字切り出
    し部は 予め与えられているフォントの高さと等しくなるように
    文字が接している 幅分の線を残した 文字パターンと、 予め与えられているフォントの高さおよび幅と同サイズ
    になるように接触箇所の線を一部残した文字パターン
    を生成し、前記文字認識部は、 それぞれの前記文字パターンを辞書と整合させ、辞書と
    の整合度が高い方を認識結果として出力することを特徴
    とする光学式文字読取方法。
  2. 【請求項2】 入力帳票から帳票イメ−ジを取り込むス
    キャナ部と、該スキャナ部で取り込まれたアナログデ−
    タをデジタルデ−タに変換するA/D変換部と、該A/
    D変換部で変換されたデジタルデ−タを格納するイメ−
    ジメモリと、該イメ−ジメモリの格納情報から一文字ず
    つに分離する文字切り出し部と、該文字切り出し部から
    出力される文字パターンを格納する文字パターンメモリ
    と、該文字パターンメモリの文字に対して認識処理を実
    行する文字認識部とを備えている光学式文字読取装置に
    おいて、 読み取った時に画像として除去できない色彩で印刷され
    た文字枠または罫線等の線に重なった既知フォントの活
    字文字を正確に読み取るために、 文字枠等の線に文字が接している場合、前記文字切り出
    し部は 予め与えられているフォントの高さと等しくなるように
    文字が接している 幅分の線を残した 文字パターンと、 予め与えられているフォントの高さおよび幅と同サイズ
    になるように接触箇所の線を一部残した文字パターン
    を生成する手段を有し、前記文字認識部は、 それぞれの前記文字パターンを辞書と整合させ、辞書と
    の整合度が高い方を認識結果として出力する手段を有す
    ことを特徴とする光学式文字読取装置。
JP25376498A 1998-09-08 1998-09-08 光学式文字読取方法、及び光学式文字読取装置 Expired - Fee Related JP3199033B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25376498A JP3199033B2 (ja) 1998-09-08 1998-09-08 光学式文字読取方法、及び光学式文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25376498A JP3199033B2 (ja) 1998-09-08 1998-09-08 光学式文字読取方法、及び光学式文字読取装置

Publications (2)

Publication Number Publication Date
JP2000090196A JP2000090196A (ja) 2000-03-31
JP3199033B2 true JP3199033B2 (ja) 2001-08-13

Family

ID=17255825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25376498A Expired - Fee Related JP3199033B2 (ja) 1998-09-08 1998-09-08 光学式文字読取方法、及び光学式文字読取装置

Country Status (1)

Country Link
JP (1) JP3199033B2 (ja)

Also Published As

Publication number Publication date
JP2000090196A (ja) 2000-03-31

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
Dongre et al. Devnagari document segmentation using histogram approach
Yadav et al. Optical character recognition for Hindi language using a neural-network approach
JPH0772861B2 (ja) プログラム作成装置
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JP4189506B2 (ja) 画像処理のための装置、方法及び記録媒体
CN105528601A (zh) 基于接触式传感器的身份证图像采集、识别系统及采集识别方法
JPH055146B2 (ja)
Bijalwan et al. Automatic text recognition in natural scene and its translation into user defined language
Rahiman et al. A detailed study and analysis of ocr research in south indian scripts
JP3199033B2 (ja) 光学式文字読取方法、及び光学式文字読取装置
JP2871590B2 (ja) 画像抽出方式
Bhujade et al. A technique for segmentation of handwritten Hindi text
Airphaiboon et al. Recognition of handprinted Thai characters using loop structures
JP2908495B2 (ja) 文字画像抽出装置
JP2923004B2 (ja) 画像生成装置
JP2000331117A (ja) 文書読取システム
JPH09134404A (ja) 棒グラフ認識装置
JP3163698B2 (ja) 文字認識方法
JPH0652358A (ja) 文字認識方法
JP2708604B2 (ja) 文字認識方法
Hu et al. Automatic reading of the white pages in a telephone directory
Said Automatic processing of documents and bank cheques
JPH04130979A (ja) 文字画像切出し方法
JPH0877293A (ja) 文字認識装置および文字認識用辞書作成方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees