JPH05307644A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH05307644A
JPH05307644A JP4111183A JP11118392A JPH05307644A JP H05307644 A JPH05307644 A JP H05307644A JP 4111183 A JP4111183 A JP 4111183A JP 11118392 A JP11118392 A JP 11118392A JP H05307644 A JPH05307644 A JP H05307644A
Authority
JP
Japan
Prior art keywords
character
contact
image
contact character
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4111183A
Other languages
English (en)
Inventor
Ryoichi Yushimo
良一 湯下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4111183A priority Critical patent/JPH05307644A/ja
Publication of JPH05307644A publication Critical patent/JPH05307644A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文書画像中の文字を認識する文字認識装置に
おいて、接触文字の影響を最小限にとどめ、高精度の認
識結果を短時間で得ることの出来る文字認識装置を提供
することを目的とする。 【構成】 認識結果を得た文字画像を、統計的に接触し
易い文字の組み合せを格納した接触文字組リストにした
がって組み合わせ、疑似的な接触文字画像を生成し、接
触文字として判定された画像と生成された疑似的な接触
文字画像とを比較することにより接触文字の認識を行
い、接触文字を多く含む文章でも接触文字による認識精
度及び認識スピードの低下を抑える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像中の文字を認
識する文字認識装置に関するものである。
【0002】
【従来の技術】近年、画像入力装置をコンピュータ等の
文字入力装置として利用する要求が高まっており、安定
な認識結果を短時間で得ることの出来る文字認識装置が
コンピュータ等のシステム性能の向上に不可欠となって
いる。
【0003】以下に従来の文字認識装置について説明す
る。図4(a)は従来の文字認識装置の機能ブロック図
である。図4(a)において、1は認識対象文書を2値
画像として入力する画像入力装置、2は入力した文書画
像を記憶する画像格納手段、3は入力した文書画像を構
成する2値画像データのうち黒を表わす構成単位(以下
黒画素と略称する)の連なりをもとに文書画像中の文字
に仮想的に外接する矩形を求める外接矩形検出手段、4
は外接矩形検出手段3にて求められた矩形内の画像の黒
画素の分布を図形特徴データとして抽出する図形特徴抽
出手段、5は図形特徴抽出手段4にて求められた図形特
徴データと予め用意される認識対象文字の図形特徴デー
タとを比較し、類似する特徴を有する文字を文字の認識
結果と判定し、また、類似する特徴がない場合に矩形内
の画像を接触文字として判定する文字認識手段、6は認
識対象となる全ての文字の図形特徴データを記憶する認
識辞書手段、7は文字認識手段5にて文字と認識した認
識結果を記憶する認識結果格納手段、8は文字認識手段
5にて接触文字として判定された画像の黒画素の縦方向
の分布に注目し、その値が小さい部分を文字間の接触点
として1文字ずつ分離する接触文字分離処理手段であ
る。
【0004】以上のように構成された文字認識装置につ
いて、図4および5に基づいてその動作を説明する。ま
ず、画像入力装置1にて認識対象文書を2値画像として
入力し、画像格納手段2に記憶する。文書画像の一例を
図5(a)に示す。その格納形態は、文書37の中のX
座標38−1とY座標38−2上の交点が白か黒かを表
わす2値画像データで構成された文書画像である。次
に、画像格納手段2に記憶された文書画像から文字の黒
点の連らなりをもとにして行や列をもとに文字の点など
を補正したうえ、文字に外接する矩形の左上端の座標
(X、Y)および矩形の幅ΔX、高さΔY(以下矩形情
報と略称する)を外接矩形検出手段3によって求める。
求められた外接矩形の例と文字「a」の矩形情報との例
を図5(b)に示す。外接矩形を縦・横にさらに細かく
分割し、各分割構成単位に含まれている黒画素の数を求
めて外接矩形全体に対する黒画素の分布状態を算出し、
図形特徴として図形特徴抽出手段4にて抽出する。抽出
された図形特徴は文字認識手段5に送り、認識辞書手段
6として予め用意されている認識対象文字の図形特徴と
比較して差を求め、その特徴の差の値がある一定の判定
基準よりも小さい場合に類似する特徴を有する文字とし
て判定し、その文字の認識結果として認識結果格納手段
7に記憶する。その認識結果格納形態の一例を図4
(b)に示す。認識結果としての文字コード(例えばA
SC11コード)と矩形情報とが関連づけて格納され
る。また類似する特徴がない場合に矩形内の図形特徴は
接触文字として判定し、矩形内の文書画像を接触文字分
離処理手段8に送る。
【0005】接触文字分離処理手段8では文書画像の黒
画素の縦方向の分布を求め、その値が小さな部分を文字
間の接触点とし、接触点にて文書画像を分離することに
より接触した文字を1文字ずつ分離する。分離された文
書画像は再び図形特徴抽出手段4に送られ、図形特徴を
抽出した後、文字認識手段5にて認識される。
【0006】以上の処理にて、文書画像中の接触文字を
含む全ての文字が認識されることとなる。
【0007】
【発明が解決しようとする課題】しかしながら上記の従
来の文字認識装置では、1文字ずつ認識処理を行うこと
により結果を得ており、文書画像中に接触した文字列、
すなわち接触文字が存在している場合、その図形特徴を
もとに1文字ずつ分離した後、認識していたため、接触
文字が多く存在する文書を認識する際、接触文字の分離
精度の不安定さによる認識精度の低下、及び、分離処理
・認識処理が多く発生することによる処理時間の増大と
いう問題点を有していた。
【0008】本発明は上記問題点を解決するもので、接
触文字の影響を最小限にとどめ、高精度の認識結果を短
時間で得ることの出来る文字認識装置を提供することを
目的とする。
【0009】
【課題を解決するための手段】この目的を達成するため
に本発明の文字認識装置は、統計的に接触し易い文字の
組み合せを格納した接触文字組リスト手段、認識結果を
得た文書画像を接触文字組リスト手段にしたがって組み
合わせ、疑似的な接触文字画像を生成する疑似接触文字
生成手段、疑似接触文字生成手段にて生成された接触文
字画像を記憶する接触文字辞書手段、接触文字として判
定された文字画像を格納しておく接触文字画像格納手
段、接触文字画像を接触文字辞書手段と比較し、接触文
字の認識結果を得る接触文字認識手段、および接触文字
の認識結果が得られなかった場合は接触点で文書画像を
分離する接触文字分離処理手段を有する。
【0010】
【作用】これ等の手段によって、既に認識結果が得られ
た文書画像を、統計的に求められた接触し易い文字組リ
ストにしたがって組み合わせることにより、疑似的な接
触文字画像を生成し、これを辞書として文書中の接触文
字の認識を行うことで、接触文字による認識精度の低
下、及び、処理の増大を最小限にとどめ、高精度の認識
結果を短時間で得ることができる。
【0011】
【実施例】以下、本発明の一実施例について、図面を参
照しながら説明する。
【0012】図1及び図2はそれぞれ、本発明の一実施
例における文字認識装置の機能ブロック図、装置ブロッ
ク図である。
【0013】図1において、9は認識対象文書を2値画
像として入力する画像入力装置、10は入力した文書画
像を記憶する画像格納手段、11は文書画像中の文字に
仮想的に外接する矩形を黒画素の連なりをもとに求める
外接矩形検出手段、12は外接矩形検出手段11にて求
められた矩形内の画像の黒画素の分布を図形特徴として
抽出する図形特徴抽出手段、13は図形特徴抽出手段1
2にて求められた図形特徴と、予め用意される全ての認
識対象文字の図形特徴とを比較し、類似する特徴を有す
る文字を文字の認識結果と判定し、また、類似する特徴
がない場合に矩形内の画像を接触文字として判定する文
字認識手段、14は認識対象となる全ての文字の図形特
徴を記憶する認識辞書手段、15は文字認識手段13に
て出力された認識結果を記憶する認識結果格納手段、1
6は文字認識手段13にて接触文字と判定された文書画
像を記憶する接触文字画像格納手段、17は接触し易い
文字の組み合せをさまざまな印刷物から統計的に求め、
例えば接触し易い“th”、“re”といった文字組を
記憶している接触文字組リスト手段、18は接触文字組
リスト手段17にしたがって、文字認識手段13にて文
字の認識結果を得た矩形内の文書画像を組み合わせるこ
とにより疑似的に接触文字画像を生成する疑似接触文字
生成手段、19は疑似接触文字生成手段18にて生成さ
れた接触文字画像を記憶しておく接触文字辞書手段、2
0は接触文字画像格納手段16に記憶している接触文字
画像と接触文字辞書手段19に記憶している疑似的な接
触文字とを比較し、一致した接触文字画像を接触文字の
認識結果とする接触文字認識手段、21は接触文字認識
手段20にて一致する接触文字画像が無かった場合に、
接触文字画像の黒画素の縦方向の分布に注目し、その値
が小さい部分を文字間の接触点として1文字ずつ分離す
る接触文字分離処理手段である。
【0014】また、図2において、22は認識対象文書
を2値画像として読み込むスキャナ等の画像入力装置、
23は全体の制御を行う中央処理装置(以下CPUと略
称する)である。26は、データを固定的に記憶してお
くためのリードオンリメモリ(ROM)であって、CP
U23が装置全体を制御するための制御プログラム24
と、認識辞書のデータ25−1および接触文字組リスト
のデータ25−2とを含む。31は処理途上のデータを
一時的に記憶しておくためのランダムアクセスメモリ
(RAM)であって、画像格納データ27、接触文字画
像格納データ28、認識結果格納データ29および接触
文字辞書データ30を含む。32はCPU23に対して
外部より開始・終了等の指令を与えるためのキーボー
ド、33は認識結果を表示する為の表示装置、34は2
2から33の各手段をつなぐ内部の信号伝送バスライン
である。
【0015】以上のように構成された文字認識装置につ
いて、図3を用いてその動作を説明する。認識対象文書
を画像入力装置9にて入力し、画像格納手段10に文書
画像として記憶し(S1)、その文書画像中において、
黒画素の連なりを行や列をもとに文字の点などを補正し
たうえ、文字に仮想的に外接する矩形情報を外接矩形検
出手段11にて求める(S2)。
【0016】次に、求められた外接矩形の矩形情報を図
形特徴抽出手段12に送り、矩形情報をもとに画像格納
手段10から文書画像を取り出し、外接矩形中の黒画素
の分布を図形特徴データとして図形特徴抽出手段12に
て抽出する(S3)。
【0017】抽出された図形特徴データを文字認識手段
13に送り、予め用意されている全ての認識対象文字の
図形特徴データを記憶する認識辞書手段14から順次取
り出す各文字の図形特徴データと比較して差を求め、そ
の特徴の差の値を求める(SS4)。
【0018】S4で求めた各文書画像の特徴の差の値
が、ある一定の判定基準よりも大きい場合は、類似する
特徴が認識辞書手段14に記憶されていないものとし、
この図形特徴データを持つ文書画像を接触文字であると
判定し(S5)、この文書画像を接触文字画像格納手段
16に記憶する(S7)。
【0019】S5において、特徴の差の値がある一定の
判定基準よりも小さい場合は、類似する特徴を持つ文字
が認識辞書手段14中に存在し正しい文字の認識結果を
得たものとして、認識結果としての文字コードと矩形情
報とを関連づけて認識結果格納手段15に文字コードを
記憶する(S6)。このようにしてS1からS6までの
動作によって、広範な認識対象文書の中のどこかで一度
は正しい文字の認識結果が得られた文書画像を、文字コ
ードに関連づけることができる。
【0020】以上、S3からS7までの処理を文書画像
中の全ての矩形に対して行うため、未処理の矩形がある
場合はS3から処理を繰り返す(S8)。
【0021】全ての矩形に対して処理を施した後、接触
文字画像格納手段16に記憶された画像が無い場合は、
文書画像中の全ての文字の認識結果が得られたものとし
て、S18に処理を移し、認識結果を表示装置33に表
示した後、全処理を終了する。また、接触文字画像格納
手段16に記憶された画像が有る場合は、S10に処理
を移す(S9)。
【0022】接触文字画像格納手段16に記憶された画
像が有る場合、すなわち、文書画像中に接触文字があっ
た場合は、接触文字を認識するために利用する接触文字
辞書を次の手順で作成する(S10)。まず、多くの文
書から統計的に求められた接触し易い文字の組み合わせ
を、接触文字組リスト手段17から文字コードとして取
り出す。取り出した文字コードを認識結果格納手段15
に照合し、S6で得られた文字コードに対応する文書画
像を、画像格納手段10から取り出す。取り出した文書
画像を接触文字組リスト手段17の組み合わせに従って
相互に組み合わせ、疑似的な接触文字画像を疑似接触文
字生成手段18にて生成する。生成された接触文字画像
は接触文字辞書手段19に記憶される。
【0023】次に、S11では、接触文字画像格納手段
16に記憶されている接触文字画像と、S10で生成さ
れた接触文字辞書手段19に記憶されている疑似的な接
触文字画像とを、接触文字認識手段20で相互に比較し
て差を求める。そして、その画像の差の値がある一定の
判定基準より小さい接触文字画像が接触文字辞書手段1
9中にあった場合は、その接触文字画像を生成した元の
文字の組み合わせを接触文字画像の認識結果とする。S
11にて認識結果が得られた場合は、処理をS16に移
し認識結果を認識結果格納手段15に記憶し、得られな
かった場合は処理をS13に移す(S12)。
【0024】S13では接触文字分離処理手段21にお
いて接触文字画像の黒画素の縦方向の分布を求め、その
値がある一定の判定基準より小さい場合にその部分を文
字間の接触点として、接触点にて文書画像を分離し1文
字ずつの文書画像とする。
【0025】分離された文書画像は図形特徴抽出手段1
2に送られ、図形特徴データを抽出する(S14)。文
字認識手段13では抽出された図形特徴データと認識辞
書手段14に記憶されている図形特徴データとを比較し
最も類似した特徴を持つ文字を認識結果とし(S1
5)、認識結果格納手段15に記憶する(S16)。
【0026】以上のS11からS16までの処理を全て
の接触文字画像に対して行うため、未処理の接触文字画
像がある場合は処理をS11に移し、S11からS16
を繰り返す。また、未処理の接触文字画像が無い場合は
処理をS18に移す(S17)。S18ではCPU23
が認識結果格納手段15に記憶された認識結果を取り出
し、表示装置33に表示する。S19にて全ての処理を
終了する。
【0027】以上のように本発明によれば、接触文字の
認識を文書中の文字を組み合わせた疑似的な接触文字画
像と比較することで行うことにより、接触文字を多く含
む文書においても認識結果を高精度かつ短時間に得られ
る。
【0028】
【発明の効果】以上のように本発明は、統計的に接触し
易い文字の組み合せを格納した接触文字組リスト手段、
認識結果を得た文字画像を接触文字組リストにしたがっ
て組み合わせ、疑似的な接触文字画像を生成する疑似接
触文字生成手段、疑似接触文字生成手段にて生成された
接触文字画像を記憶する接触文字辞書手段、接触文字と
して判定された画像を格納しておく接触文字画像格納手
段、接触文字画像を接触文字辞書手段と比較し、接触文
字の認識結果を得る接触文字認識手段を設けることによ
り、接触文字の認識を文書中の文字を組み合わせた疑似
的な接触文字画像と比較することで行い、接触文字を多
く含む文書においても認識結果を高精度かつ短時間に得
る、優れた文字認識装置を実現するものである。
【図面の簡単な説明】
【図1】本発明の実施例における文字認識装置の機能ブ
ロック図
【図2】本発明の実施例における文字認識装置の装置ブ
ロック図
【図3】本発明の実施例における文字認識装置の動作説
明のためのフローチャート
【図4】従来の文字認識装置の機能ブロック図 (a)機能ブロック図 (b)認識結果格納手段7の格納形態を表す図
【図5】文書画像および接触文字の例を表わす図 (a)文書画像 (b)接触文字判定結果
【符号の説明】
9 画像入力装置 10 画像格納手段 11 外接矩形検出手段 12 図形特徴抽出手段 13 文字認識手段 14 認識辞書手段 15 認識結果格納手段 16 接触文字画像格納手段 17 接触文字組リスト手段 18 疑似接触文字生成手段 19 接触文字辞書手段 20 接触文字認識手段 21 接触文字分離処理手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】認識対象画像として入力された画像を記憶
    する画像格納手段と、画像中の黒画素の連なりをもとに
    して仮想的に外接する矩形を求める外接矩形検出手段
    と、外接矩形内の黒画素の分布を抽出して図形特徴を求
    める図形特徴抽出手段と、認識対象画像を構成する文字
    の図形特徴を記憶しておく認識辞書手段と、多くの文書
    から接触し易い文字の組合せを統計的に求め、組合せに
    従って予め生成した接触状態の画像を記憶しておく接触
    文字辞書手段と、前記図形特徴抽出手段で求めた図形特
    徴と前記認識辞書手段にある図形特徴を比較して差を求
    め、その特徴の差の値がある一定の判定基準よりも小さ
    い場合に文字と判定する文字認識手段と、前記文字認識
    手段で文字と判定することができなかった画像と前記接
    触文字辞書手段から得られる文書画像を比較して差を求
    め、画像の差がある一定の判定基準よりも小さい場合に
    前記接触状態の画像を生成する元の文字の接触文字と判
    定する接触文字認識手段と、文字と判定できた場合は、
    文書画像に対応する文字の認識結果を記憶しておく認識
    結果格納手段と、特定の文字と判定することができなか
    った画像を黒画素の縦方向の分布の最も小さな部分で分
    離する接触文字分離処理手段と、を備えたことを特徴と
    する文字認識装置。
  2. 【請求項2】多くの文書から接触し易い文字の組合せを
    統計的に求めた接触文字組リスト手段と、前記認識結果
    格納手段に記憶されている文書画像を前記接触文字組リ
    スト手段に従って組み合わせ疑似的な接触状態の画像を
    生成する疑似接触文字生成手段と、を備え、前記疑似接
    触文字生成手段で得られた疑似的な接触状態の画像が前
    記接触文字辞書手段の辞書に格納されていることを特徴
    とする請求項1記載の文字認識装置。
JP4111183A 1992-04-30 1992-04-30 文字認識装置 Pending JPH05307644A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4111183A JPH05307644A (ja) 1992-04-30 1992-04-30 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4111183A JPH05307644A (ja) 1992-04-30 1992-04-30 文字認識装置

Publications (1)

Publication Number Publication Date
JPH05307644A true JPH05307644A (ja) 1993-11-19

Family

ID=14554603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4111183A Pending JPH05307644A (ja) 1992-04-30 1992-04-30 文字認識装置

Country Status (1)

Country Link
JP (1) JPH05307644A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738519B1 (en) 1999-06-11 2004-05-18 Nec Corporation Character recognition apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738519B1 (en) 1999-06-11 2004-05-18 Nec Corporation Character recognition apparatus

Similar Documents

Publication Publication Date Title
US6212299B1 (en) Method and apparatus for recognizing a character
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
EP0584776A2 (en) Information processing method and apparatus
JP3319203B2 (ja) 文書ファイリング方法及び装置
JPH05307644A (ja) 文字認識装置
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
JPH06180771A (ja) 英文字認識装置
JPH05346974A (ja) 文字認識装置
JP2703559B2 (ja) 文字認識支援装置
JPH0830725A (ja) 画像処理装置及び方法
JPH06119484A (ja) 文字認識装置
JP3100825B2 (ja) 線認識方法
JPH0728930A (ja) 文字認識装置
JPH03126188A (ja) 文字認識装置
JP2002236877A (ja) 文字列認識方法、文字認識装置およびプログラム
JPH01292587A (ja) 画像処理方法
KR100246475B1 (ko) 문자인식을 위한 동적 그물눈 추출 방법
JPH07168911A (ja) 文書認識装置
JPH06139277A (ja) 電子辞書装置
JP2000020638A (ja) 文字列方向判別方法
JPH08185473A (ja) 文字認識装置
JPH07160811A (ja) 文字認識装置
JPH08115380A (ja) 画像処理装置及び方法
JPH08115421A (ja) 画像処理装置及び方法
JPH07141468A (ja) 手書入力文字装置における手書文字認識処理方法