JPH05346974A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH05346974A
JPH05346974A JP4156708A JP15670892A JPH05346974A JP H05346974 A JPH05346974 A JP H05346974A JP 4156708 A JP4156708 A JP 4156708A JP 15670892 A JP15670892 A JP 15670892A JP H05346974 A JPH05346974 A JP H05346974A
Authority
JP
Japan
Prior art keywords
character
image
contact
recognition
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4156708A
Other languages
English (en)
Inventor
Ryoichi Yushimo
良一 湯下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4156708A priority Critical patent/JPH05346974A/ja
Publication of JPH05346974A publication Critical patent/JPH05346974A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 文書画像中の文字を認識する文字認識装置に
おいて、接触文字による認識精度及び認識スピードの低
下を抑え、高精度の認識結果を短時間で得ることの出来
る文字認識装置を実現すること。 【構成】 認識対象文書を読み込むスキャナ17と、CP
U18と、制御プログラム19,認識対象文字の図形特徴を
格納する認識辞書20,単語辞書21からなるROM22と、
文書画像23,文書画像中の接触文字画像24,文字の認識
結果25,接触文字画像の認識候補となる接触候補文字列
26,接触文字辞書27からなるRAM28と、キーボード29
と、表示装置30で構成され、接触文字以外の文字をキー
として接触文字画像の認識結果となり得る文字列を単語
辞書21の検索により求め、これにしたがって既に認識結
果が得られている文字画像を組み合わせることにより、
疑似的な接触文字画像を生成し、接触文字として判定さ
れた画像と生成された疑似的な接触文字画像とを比較す
ることにより接触文字の認識を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像中の文字を認
識する文字認識装置に関するものである。
【0002】
【従来の技術】近年、文字認識装置をコンピュータ等の
入力装置として利用する要求が高まっており、安定な認
識結果を短時間で得ることのできる文字認識装置がコン
ピュータ等のシステム性能の向上に不可欠となってい
る。以下に従来の文字認識装置について説明する。図4
は従来の文字認識装置の機能構成を示すものである。図
4において、51は認識対象文書を2値画像として入力す
る画像入力部、52は入力した文書画像を記憶する画像格
納部、53は文書画像中の文字に外接する矩形を黒画素の
連なりをもとに求める外接矩形検出部、54は外接矩形検
出部53にて求められた矩形内の画像の黒画素の分布を図
形特徴として抽出する図形特徴抽出部、55は図形特徴抽
出部54にて求められた図形特徴と、予め用意された全て
の認識対象文字の図形特徴とを比較し、類似する特徴を
有する文字を認識結果として出力し、また、類似する特
徴がない場合に矩形内の画像を接触文字として判定する
文字認識部、56は認識対象となる全ての文字の図形特徴
を記憶する認識辞書、57は文字認識部55にて出力された
認識結果を記憶する認識結果格納部、58は文字認識部55
にて接触文字として判定された画像の黒画素の縦方向の
ヒストグラムに注目し、その値が小さい部分を文字間の
接触点として1文字ずつ分割する接触文字分割処理部で
ある。
【0003】以上のように構成された文字認識装置につ
いて、以下、その動作を説明する。まず、画像入力部51
にて認識対象文書を2値画像として入力し、画像格納部
52に記憶する。次に、画像格納部52に記憶された文書画
像中の文字に外接する矩形を黒画素の連なりをもとに外
接矩形検出部53にて求め、その矩形内の画像の黒画素の
分布を図形特徴として図形特徴抽出部54にて抽出する。
抽出された図形特徴は文字認識部55に送られ、認識辞書
56として予め用意される全ての認識対象文字の図形特徴
と比較し、類似する特徴を有する文字を認識結果として
出力し、また、類似する特徴がない場合に矩形内の画像
を接触文字として判定する。文字認識部55にて認識結果
が得られた場合はその結果を認識結果格納部57に記憶
し、得られなかった場合は矩形内の画像を接触文字とし
て接触文字分割処理部58に送る。接触文字分割処理部58
では画像中の黒画素の縦方向のヒストグラムを求め、そ
の値が小さな部分を文字間の接触点とし、接触点にて画
像を分割することにより接触した文字を1文字ずつ分離
する。分割された画像は再び図形特徴抽出部54に送ら
れ、図形特徴を抽出した後文字認識部55にて認識され
る。以上の処理にて、文書画像中の接触文字を含む全て
の文字が認識されることとなる。
【0004】
【発明が解決しようとする課題】しかしながら上記の従
来の文字認識装置では、1文字ずつ認識処理を行うこと
により結果を得ており、文書画像中に接触した文字列、
すなわち接触文字が存在している場合、その図形特徴を
もとに1文字ずつ分割した後、認識していたため、接触
文字が多く存在する文書を認識する際、接触文字の分割
精度の不安定さによる認識精度の低下及び分割処理,認
識処理が多く発生することによる処理時間の増大という
問題点を有していた。本発明は上記従来の問題点を解決
するもので、接触文字の影響を最小限にとどめ、高精度
の認識結果を短時間で得ることのできる文字認識装置を
提供することを目的とするものである。
【0005】
【課題を解決するための手段】上記目的を達成するため
に本発明の文字認識装置は、接触文字を含む単語文字列
のうち、接触文字以外の文字をキーとして接触文字画像
の認識結果となり得る文字列を単語辞書の検索により求
める接触候補文字列生成部と、認識結果を得た文字画像
を接触候補文字列にしたがって組み合わせ、疑似的な接
触文字画像を生成する疑似接触文字生成部と、疑似接触
文字生成部にて生成された接触文字画像を記憶する接触
文字辞書と、接触文字として判定された画像を接触文字
辞書と比較し、接触文字の認識結果を得る接触文字認識
部により構成されているものである。
【0006】
【作用】上記構成によって、既に認識結果が得られた画
像を、単語情報をもとにして求められた接触候補文字列
にしたがって組み合わせることにより、疑似的な接触文
字画像を生成し、これを辞書として文書中の接触文字の
認識を行うことで、接触文字による認識精度の低下及び
処理の増大を最小限にとどめ、高精度の認識結果を短時
間で得ることができる。
【0007】
【実施例】以下、本発明の一実施例について、図面を参
照しながら説明する。図1及び図2はそれぞれ、本発明
の一実施例における文字認識装置の機能ブロック図、装
置ブロック図である。図1において、1は認識対象文書
を2値画像として入力する画像入力部、2は入力した文
書画像を記憶する画像格納部、3は文書画像中の文字に
外接する矩形を黒画素の連なりをもとに求める外接矩形
検出部、4は求められた外接矩形の水平方向の間隔をも
とに単語領域を求める単語領域切り出し部、5は外接矩
形検出部3にて求められた矩形内の画像の黒画素の分布
を図形特徴として抽出する図形特徴抽出部、6は図形特
徴抽出部5にて求められた図形特徴と、予め用意される
全ての認識対象文字の図形特徴とを比較し、類似する特
徴を有する文字を認識結果として出力し、また、類似す
る特徴がない場合に矩形内の画像を接触文字として判定
する文字認識部、7は認識対象となる全ての文字の図形
特徴を記憶する認識辞書、8は文字認識部6にて出力さ
れた認識結果を記憶する認識結果格納部、9は文字認識
部6にて接触文字と判定された画像を記憶する接触文字
画像格納部、10は接触文字を含む単語文字列のうち、接
触文字以外の文字をキーとして、接触文字画像の認識結
果となり得る文字列を英単語を格納する単語辞書を検索
することにより求める接触候補文字列生成部、11は接触
候補文字列を格納する接触候補文字列格納部、12は前記
英単語を格納している単語辞書、13は接触候補文字列格
納部11に格納されている候補文字列にしたがって、文字
認識部6にて認識結果を得た矩形内の画像を組み合わせ
ることにより疑似的に接触文字画像を生成する疑似接触
文字生成部、14は疑似接触文字生成部13にて生成された
接触文字画像を記憶する接触文字辞書、15は接触文字画
像格納部9に記憶している接触文字画像と接触文字辞書
14に記憶している疑似的な接触文字とを比較し、一致し
た画像の文字組を認識結果とする接触文字認識部、16は
接触文字認識部15にて一致する画像がなかった場合に、
接触文字画像の黒画素の縦方向のヒストグラムに注目
し、その値が小さい部分を文字間の接触点として1文字
ずつ分割する接触文字分割処理部である。
【0008】また、図2において、17は認識対象文書を
2値画像として読み込むスキャナ、18は全体の制御を行
う中央処理装置(以下CPUと略称する)、19はCPUが
全体を制御するための制御プログラム、20は全ての認識
対象文字の図形特徴を格納する認識辞書、21は英単語を
格納する単語辞書、22は制御プログラム19,認識辞書2
0,単語辞書21を記憶するリードオンリメモリ、23はス
キャナ17にて読み込まれた文書画像、24は文書画像中の
接触文字画像、25は文書画像中の文字の認識結果、26は
接触文字画像の認識候補となる接触候補文字列、27は接
触文字の認識を行うための接触文字辞書、28は文書画像
23,接触文字画像24,認識結果25,接触候補文字列26,
接触文字辞書27を記憶するためのランダムアクセスメモ
リ、29はCPUに対して外部より開始・終了等の指令を
与えるためのキーボード、30は認識結果を表示するため
の表示装置、31は中央処理装置18ないし表示装置30の各
部をつなぐ内部バスである。
【0009】以上のように構成された文字認識装置につ
いて、図3に流れ図を示し、その動作を説明する。認識
対象文書を画像入力部1にて入力し、画像格納部2に文
書画像として記憶し(S1)、その文書画像中において、
8連結で隣接している黒画素の連なりを文字として、文
字に外接する矩形を外接矩形検出部3にて求める(S
2)。また、求められた外接矩形の水平方向の間隔が広
い箇所を単語区切りとして単語領域を求める(S3)。次
に、外接矩形の座標情報は図形特徴抽出部5に送られ、
座標情報をもとに画像格納部2から文書画像が取り出さ
れ、画像中の黒画素の分布を図形特徴として図形特徴抽
出部5にて抽出する(S4)。抽出された図形特徴は文字
認識部6に送られ、予め用意される全ての認識対象文字
の図形特徴を記憶する認識辞書7から順次取り出す各文
字の図形特徴と比較し、類似する特徴を有する文字を認
識結果とする(S5)。
【0010】送られてきた図形特徴と認識辞書7に格納
される各文字の特徴との相違度が定数として与えられる
しきい値以上の場合は、類似する特徴が認識辞書7に記
憶されていないものとして、この図形特徴を持つ画像を
接触した文字列であると判定し(S6)、この画像を接触
文字画像格納部9に記憶する(S8)。S6において、相
違度がしきい値以下であり、類似する特徴を持つ文字が
認識辞書7中にあった場合は正しい認識結果を得たもの
として認識結果格納部8に特徴に対応する文字コードを
記憶する(S7)。以上、S4からS8までの処理を文書
画像中の全ての矩形に対して行うため、未処理の矩形が
ある場合はS4から処理を繰り返す(S9)。全ての矩形
に対して処理を施した後、接触文字画像格納部9に記憶
された画像がない場合は、文書画像中の全ての文字の認
識結果が得られたものとして、認識結果を表示装置30に
表示(S20)した後、全処理を終了する(S21)。
【0011】また、接触文字画像格納部9に記憶された
画像がある場合、すなわち、文書画像中に接触文字があ
った場合は(S10)、接触文字を認識するための単語領域
の候補単語を単語辞書より求め、接触候補文字列を生成
し接触文字辞書14を作成する(S11〜S12)。
【0012】まず、接触文字を含む単語文字列のうち接
触文字以外の文字をキーとして、接触文字の認識結果に
なり得る文字列を単語辞書の検索により求めることによ
り、接触候補文字列を生成し、接触候補文字列格納部11
に格納する(S11)。次に、接触候補文字列にしたがっ
て、認識結果格納部8に記憶された、認識結果を得られ
た画像を組み合わせ、疑似的な接触文字画像を疑似接触
文字生成部13にて生成する。生成された接触文字画像は
接触文字辞書14に記憶される(S12)。その後、接触文字
画像格納部9に記憶されている接触文字画像が接触文字
認識部15にて取り出され、接触文字辞書14に記憶されて
いる画像と比較される。そして、相違度が与えられるし
きい値より小さい画像が接触文字辞書14中にあった場合
は、その画像を生成した文字の組み合せを接触文字画像
の認識結果とする(S13)。S13にて認識結果が得られた
場合は処理をS18に移し、認識結果を認識結果格納部8
に記憶し、得られなかった場合は処理をS15に移す(S1
4)。S15では接触文字画像の黒画素の縦方向のヒストグ
ラムを求め、その値が与えられるしきい値より小さい場
合にその部分を文字間の接触点として、接触点にて画像
を分割し1文字ずつの画像とする。分割された画像は図
形特徴抽出部5に送られ、図形特徴を抽出する(S16)。
文字認識部6では抽出された図形特徴と認識辞書7に記
憶されている特徴とを比較し最も類似した特徴を持つ文
字を認識結果とし(S17)、認識結果格納部8に記憶する
(S18)。
【0013】以上のS13からS18までの処理を全ての接
触文字画像に対して行うため、未処理の接触文字画像が
ある場合は処理をS13に移し、S13からS18を繰り返
す。また、未処理の接触文字画像がない場合は処理をS
20に移す(S19)。S20ではCPU18が認識結果格納部8
に記憶された認識結果を取り出し、表示装置30に表示す
る。以上のように本発明によれば、接触文字の認識を文
書中の文字を単語情報をもとにして組み合わせた疑似的
な接触文字画像と比較することで行うことにより、接触
文字を多く含む文書においても認識結果を高精度かつ短
時間に得られる。
【0014】
【発明の効果】上記実施例から明らかなように本発明
は、接触文字を含む単語文字列のうち、接触文字以外の
文字をキーとして接触文字画像の認識結果となり得る文
字列を単語辞書の検索により求める接触候補文字列生成
部と、認識結果を得た文字画像を接触候補文字列にした
がって組み合わせ、疑似的な接触文字画像を生成する疑
似接触文字生成部と、疑似接触文字生成部にて生成され
た接触文字画像を記憶する接触文字辞書と、接触文字と
して判定された画像を接触文字辞書と比較し、接触文字
の認識結果を得る接触文字認識部とを設けることによ
り、接触文字の認識を文書中の文字を組み合わせた疑似
的な接触文字画像と比較することで行い、接触文字を多
く含む文書においても認識結果を高精度かつ短時間に得
る、優れた文字認識装置を実現することができるという
効果を有する。
【図面の簡単な説明】
【図1】本発明の一実施例における文字認識装置の機能
ブロック図である。
【図2】本発明の一実施例における文字認識装置の装置
ブロック図である。
【図3】本発明の一実施例における文字認識装置の動作
説明のための流れ図である。
【図4】従来の文字認識装置の機能ブロック図である。
【符号の説明】
1,51…画像入力部、 2,52…画像格納部、 3,53
…外接矩形検出部、4…単語領域切り出し部、 5,54
…図形特徴抽出部、 6,55…文字認識部、7,20,56
…認識辞書、 8,57…認識結果格納部、 9…接触文
字画像格納部、 10…接触候補文字列生成部、 11…接
触文字候補文字列格納部、 12,21…単語辞書、 13…
疑似接触文字生成部、 14…接触文字辞書、 15…接触
文字認識部、 16,58…接触文字分割処理部、 17…ス
キャナ、 18…中央処理装置、19…制御プログラム、
22…リードオンリメモリ、 23…文書画像、 24…接触
文字画像、 25…認識結果、 26…接触候補文字列、
27…接触文字辞書、 28…ランダムアクセスメモリ、
29…キーボード、 30…表示装置、 31…内部バス。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 認識対象文書を入力する画像入力部と、
    入力された文書画像を記憶する画像格納部と、文書画像
    中の文字に外接する矩形を黒画素の連なりをもとに求め
    る外接矩形検出部と、求められた外接矩形の水平方向の
    間隔をもとに単語領域を求める単語領域切り出し部と、
    外接矩形内の黒画素の分布を図形特徴として抽出する図
    形特徴抽出部と、抽出した図形特徴と予め用意される認
    識辞書に格納される認識対象文字の図形特徴とを比較
    し、類似した特徴を有する文字が認識辞書中にあった場
    合に、該当文字を認識結果として認識結果格納部に記憶
    し、また、類似する特徴が認識辞書中にない場合に、矩
    形内の画像を文字と文字が接触している接触文字として
    判定し、その画像を接触文字画像格納部に記憶する文字
    認識部と、接触文字を含む単語文字列のうち接触文字以
    外の文字をキーとして、接触文字画像の認識結果となり
    得る文字列を、英単語を格納する単語辞書を検索するこ
    とにより求める接触候補文字列生成部と、求められた接
    触候補文字列にしたがって、認識結果を得た矩形内の画
    像を組み合わせることにより疑似的に接触文字画像を生
    成する疑似接触文字生成部と、疑似接触文字生成部にて
    生成された接触文字画像を記憶する接触文字辞書と、接
    触文字画像格納部に記憶された画像と接触文字辞書に記
    憶された接触文字画像とを比較し、一致した画像の文字
    組を接触文字画像の認識結果とする接触文字認識部と、
    前記接触文字認識部にて一致する画像が無かった場合
    に、接触文字画像の黒画素の縦方向のヒストグラムに注
    目し、その値が小さな部分を文字と文字との接触点とし
    て1文字ずつ分割する接触文字分割処理部とからなる文
    字認識装置。
JP4156708A 1992-06-16 1992-06-16 文字認識装置 Pending JPH05346974A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4156708A JPH05346974A (ja) 1992-06-16 1992-06-16 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4156708A JPH05346974A (ja) 1992-06-16 1992-06-16 文字認識装置

Publications (1)

Publication Number Publication Date
JPH05346974A true JPH05346974A (ja) 1993-12-27

Family

ID=15633602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4156708A Pending JPH05346974A (ja) 1992-06-16 1992-06-16 文字認識装置

Country Status (1)

Country Link
JP (1) JPH05346974A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738519B1 (en) 1999-06-11 2004-05-18 Nec Corporation Character recognition apparatus
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
JP2009245464A (ja) * 2009-07-30 2009-10-22 Fujitsu Ltd 単語認識プログラム、単語認識方法、単語認識装置
JP2010198308A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 文字認識プログラム、文字認識方法および文字認識装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738519B1 (en) 1999-06-11 2004-05-18 Nec Corporation Character recognition apparatus
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
JP2010198308A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 文字認識プログラム、文字認識方法および文字認識装置
JP2009245464A (ja) * 2009-07-30 2009-10-22 Fujitsu Ltd 単語認識プログラム、単語認識方法、単語認識装置

Similar Documents

Publication Publication Date Title
US5579408A (en) Character recognition method and apparatus
JP3452774B2 (ja) 文字認識方法
JP2008171379A (ja) 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体
US6035062A (en) Character recognition method and apparatus
JPH05346974A (ja) 文字認識装置
JPH05225394A (ja) 文字認識システムの候補文字分類方法
JP2002063197A (ja) 検索装置、記録媒体およびプログラム
JP3233803B2 (ja) 難読漢字検索装置
JP2675303B2 (ja) 文字認識方法
JP2917748B2 (ja) 文字入力装置
JP2703559B2 (ja) 文字認識支援装置
JPH1166230A (ja) 文書認識装置、文書認識方法及び媒体
JP3071745B2 (ja) 文字認識結果の後処理方法
JP3115459B2 (ja) 文字認識辞書の構成方法及び検索方法
JPH08190603A (ja) 文字認識装置及びその候補文字表示方法
JPH07271921A (ja) 文字認識装置および文字認識方法
JP2746345B2 (ja) 文字認識の後処理方法
JPH05307644A (ja) 文字認識装置
JP2002163291A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP2002342711A (ja) 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体
JP2000099635A (ja) 文字列予測装置及び文字列予測方法
JPH06139277A (ja) 電子辞書装置
JPH06149888A (ja) 電子ファイリングシステム
JP2947832B2 (ja) 単語照合方法
JP2851865B2 (ja) 文字認識装置