JPH07254048A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPH07254048A
JPH07254048A JP6044549A JP4454994A JPH07254048A JP H07254048 A JPH07254048 A JP H07254048A JP 6044549 A JP6044549 A JP 6044549A JP 4454994 A JP4454994 A JP 4454994A JP H07254048 A JPH07254048 A JP H07254048A
Authority
JP
Japan
Prior art keywords
character
distance
template
line
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6044549A
Other languages
English (en)
Inventor
Koji Hashimoto
幸治 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6044549A priority Critical patent/JPH07254048A/ja
Publication of JPH07254048A publication Critical patent/JPH07254048A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】入力したイメージ文字の識別を行う文字認識方
法に関し、欠けや汚れによる低品質活字文字も正読可能
なものを提供することを目的とする。 【構成】イメージ文字とテンプレート文字との相違度を
表わす距離の計算を行う際、テンプレート文字の文字線
内部における距離と、文字線外部における距離とを別々
に計算し、文字線内部における距離又は文字線外部にお
ける距離が予め設定された値より小さい場合、該テンプ
レート文字を該イメージ文字と同じものとして選択する
ことにより構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字を光学的に読み取
ると共に、二値化された文字等のイメージ情報を、あら
かじめ持っている辞書(テンプレート)と比較すること
により、入力したイメージ文字の識別を行う文字認識装
置の文字認識方法に関する。
【0002】
【従来の技術】活字の文字認識は、特定フォントの文字
認識とマルチフォントの文字認識とに分けられるが、特
定フォントの活字を文字認識する場合は、パターンマッ
チングと言われている。パターンマッチングでは、読み
取った文字の二値化イメージと辞書(テンプレート)と
を直接比較し、識別する手法を一般的に用いている。
【0003】従来から行われてきた活字文字認識の代表
的手法であるパターンマッチングを、非常に簡略化した
形で説明する。まず、 I ( x,y ): 読み取った文字の二値化イメージ T(p,x,y): あらかじめ持っている文字のテン
プレート [ただし、x,yは座標、pは文字パターン・カテゴ
リ]とすれば、あるパターンpと、読み取ったイメージ
Iとの距離は、
【数1】 ただし、f(I,T)=0[I=Tのとき] f(I,T)=1[I≠Tのとき] で表わされる。
【0004】ここで、距離Dp が最も小さいパターンp
を、読み取った文字であるとみなすが、確認のため二番
目に小さいパターンpにおける距離Dp との距離差を求
める。そして、この差が一定値以下ならば、両パターン
ともに読み取った文字と同じ文字である可能性があるの
で、判定不能とする。以上の手法は、文字認識の基本的
手法ではあるが、特定フォント活字の文字認識において
は高い認識率を得ている。
【0005】しかし、実用上、特定フォントの活字を認
識するには、100%に極めて近い認識率が求められ
る。そのため、少しでも誤読やリジェクト(判定不能)
を減らし、正読を増やすための努力がなされている。
【0006】図10は、従来の文字認識装置における文
字認識処理の一例を示す流れ図である。図示する従来の
文字認識処理は、読み取りをしてから前処理を行ってイ
メージを文字を得て、続いてイメージ文字とテンプレー
ト文字との距離を計算して、その判定を行うというもの
である。最終的に、読み取り文字又は判定不能の結果出
力が行われる。
【0007】
【発明が解決しようとする課題】従来は、二値化したイ
メージ文字とテンプレート文字との相違度を表わす距離
を計算する際、読み取ったイメージ文字とテンプレート
文字の各ドットを比較し、一致か不一致かを”切り出
し”された画像全体で計算している。そのため、読み取
ったイメージ文字とテンプレート文字との距離が、本質
的な文字形の違いによるものなのか、文字の部分的な変
形(汚れやかすれ)によるものなのかがわからない。
【0008】すなわち、上記の距離Dp が、読み取った
イメージ文字とテンプレート文字との差を表わしている
だけで、その差が、文字形状の本質的な違いによるもの
なのか、品質(かすれ、汚れ)によるものなのかを区別
できないという問題点があった。
【0009】また、各文字は”切り出し”された画像内
で色々な面積を占めるが、その面積は本質的に個々の文
字で違うために、とりわけ文字線部分の占有面積が小さ
い文字、例えば”,”と”.”とはどうしても距離差が
小さくなり識別が困難となる問題点があった。
【0010】本発明は、上記のような問題点に鑑み、欠
けや汚れによる低品質活字文字も正読可能な文字認識方
法を提供することを目的とする。
【0011】
【課題を解決するための手段】本発明によれば、上述の
目的は、前記特許請求の範囲に記載した手段にて達成さ
れる。
【0012】すなわち、請求項1の発明は、文字を光学
的に読み取り、二値化したイメージ文字として取り込む
と共に、あらかじめ用意した辞書を用いてイメージ文字
とテンプレート文字とを比較し、パターンマッチングを
行って、イメージ文字がどのテンプレート文字と同じも
のなのかを識別する文字認識装置の文字認識方法におい
て、イメージ文字とテンプレート文字との相違度を表わ
す距離の計算を行う際、テンプレート文字の文字線内部
における距離と、文字線外部における距離とを別々に計
算し、文字線内部における距離又は文字線外部における
距離が予め設定された値より小さい場合、該テンプレー
ト文字を該イメージ文字と同じものとして選択する文字
認識方法である。
【0013】また、請求項2の発明は、テンプレート文
字に接する枠と、イメージ文字に接する枠とを仮想し、
二つの枠の重ね位置を変化させていくと共に、各重ね位
置における距離計算を行い、最も小さい値をそのテンプ
レート文字における距離と決定する文字認識方法であ
る。
【0014】また、請求項3の発明は、イメージ文字と
テンプレート文字とを比較する時に、文字線内部におけ
る総ドット数と文字線内部における不一致ドット数の比
率、及び文字線外部における総ドット数と文字線外部に
おける不一致ドット数の比率を計算し、求めた比率を距
離として用いる文字認識方法である。
【0015】また、請求項4の発明は、イメージ文字と
テンプレート文字とを比較する時に、文字線内部におけ
る各ドットが有する重みの総和と文字線内部における不
一致ドットの重みの総和の比率、及び文字線外部におけ
る各ドットが有する重みの総和と文字線外部における不
一致ドットの重みの総和の比率を計算し、求めた比率を
距離として用いる文字認識方法である。
【0016】
【作用】本発明では、テンプレート文字の文字線内部に
おける距離と、文字線外部における距離とを別々に計算
し、複数種類の距離に基づいて文字認識を行う。とりわ
け、第一候補文字と第二候補文字との間で、文字線内・
外いずれかの種類の距離差が十分に大きくなった場合に
は、認識不可能すなわちリジェクトとせずに、文字認識
結果を出力するようになる。
【0017】また、各文字は、それぞれ固有の文字面積
を持っているが、認識文字を距離に基づいて判断する場
合、本発明では、この文字面積を考慮して認識結果を出
力するようになる。すなわち、不一致ドット数ではなく
不一致比率により文字認識を行うようになる。あるい
は、テンプレート文字の重み付けの総和が文字間で等し
くなるように距離計算を行うようになる。
【0018】さらに、これらの手法を、現在かなり高い
性能を持つ活字文字認識装置に採用する場合、従来法で
リジェクトとなったときのみ、本発明による手法を用い
るようになる。こうすれば、従来からの高い性能を保ち
つつ、本発明が持つ効果も奏せるようになる。
【0019】
【実施例】以下、本発明を簡単な例を使って説明する。
まず、距離Dp を計算する際、 Dp = Din + Dout として、文字線内部における距離Dinと、文字線外部に
おける距離Dout とを別々に計算する。
【0020】
【数2】 [ただし、T=1のとき]
【0021】
【数3】 [ただし、T=0のとき]
【0022】これらを基に識別の判定を行う。ここで、
従来の距離Dp のみによる判定(表1)と、本発明の距
離Din、距離Dout による判定(表2)とを比較する。
【0023】
【表1】
【0024】
【表2】
【0025】図6(イ)の場合のように、距離Dp の値
が小さいときは読み取ったイメージ文字とテンプレート
文字とが一致していると言え、また、図6(ロ)の場合
のように、距離Dp の値が大きい場合には全く違う文字
であると言える。このように、距離Dp の値が小さいと
き及び距離Dp の値が大きいときは、従来の判定法でも
本発明の判定法でも同様の結果が得られる。
【0026】しかし、距離Dp の値が中程度のときでは
異なる。距離Dp の値が中程度の場合、従来法でははっ
きりした判定ができずにリジェクトとなることが多い
が、本発明によれば、リジェクトとなることは少なくな
る。本発明の場合、距離Dp の値が中程度のとき、その
判定結果は以下の三通りに分けられる。
【0027】Din値=‘大’、Dout値=‘小’ つまり、文字線外部は一致するが、文字線内部で一致し
ない。図7(イ)に示すような場合が該当する。
【0028】Din値=‘小’、Dout値=‘大’ つまり、文字線内部は一致するが、文字線外部で一致し
ない。図7(ロ)に示すような場合が該当する。
【0029】Din値=‘中’、Dout値=‘中’ つまり、文字線内部、文字線外部ともに一致しない。
【0030】なお、距離Dinの値と距離Dout の値とで
‘大’、‘小’といっているのは、距離Dp の値におけ
る割合でほとんどを占めている方を‘大’と、そうでな
い方を‘小’としている。両者に極端な違いがない場合
は、ともに‘中’としている。また、距離Dp の値が
‘中’とは、距離Dp の値だけでは判定しかね、距離D
inの値と距離Dout の値との大小関係が有効な情報にな
るであろう状態を指す。
【0031】本発明においては、上記の場合は、距離
は文字形の本質的な違いによるもの、そして上記,
の場合は、距離は文字の低品質化によるものであると判
断できる。よってこの情報(距離の原因)を考慮すれ
ば、認識能力は向上するものと考えられる。
【0032】ところで、図4(イ)に示すように、欠け
文字や汚れ文字は、テンプレート文字との部分的形状の
違いから正しい重ね合わせがなされないことがあり得
る。そこで、最適な重ね位置を探し、正しい距離を計算
するために、図4(ロ)に示すように、テンプレート文
字に接する枠と、図4(ハ)に示すように、読み取った
イメージ文字に接する枠とを考える。
【0033】そして、図5(イ)に示すように、小さい
方の枠を大きい方の枠の中で一ドットずつずらしなが
ら、それぞれの重ね位置における距離を計算し、図5
(ロ)に示すように、最も小さい距離をそのテンプレー
ト文字における距離とする。以上の方法により低品質文
字に対応することができる。
【0034】一般に距離は、読み取ったイメージとテン
プレート文字の不一致ドット数で計算される。しかし、
文字は文字ごとに文字線部分の占める面積が違う。図9
(イ)に示す入力イメージ”.”は、図9(ロ)に示す
テンプレート文字”.”との距離が小さく、かつ図9
(ハ)に示すテンプレート文字”,”との距離も同じよ
うに小さい。このように、面積の小さい文字の場合、距
離差が大きくならず判定が困難となる場合がある。
【0035】本発明では、距離を不一致ドット数とする
のではなく、不一致比とすることを提案する。例えば、
不一致比Cを、 C=(不一致ドット数)÷(調査対象ドット数) とすれば、文字間の面積差を無くすことができる。
【0036】例えば、距離が最も小さい第一候補文字
と、その次に距離が小さい第二候補文字との距離差が
‘50’以内のときに、リジェクトとなる文字認識シス
テムがあったとする。図1(イ)の左側に示す英文字’
O’の入力イメージを、英文字’O’のテンプレート及
び英文字’Q’のテンプレートと比較し、それぞれ距離
を計算すると次のようになる。なお、図中の数字はドッ
ト数である。
【0037】英文字”O”のテンプレートについては、 Din =400−375=25 Dout =600−600=0 Dp = Din + Dout =25+0=25 となる。
【0038】また、英文字”Q”のテンプレートについ
ては、 Din=500−375=125 Dout =500−500=0 Dp = Din + Dout =125+0=125 となる。
【0039】以上の結果、英文字”O”のテンプレート
における距離と、英文字”Q”のテンプレートにおける
距離との距離差は、[125−25=100]で‘5
0’以上となるから、リジェクトにはならない。
【0040】ここで、比率を使って距離を計算すれば、
英文字”O”のテンプレートについては、 Cin=25÷400=0.0625 Cout =0÷600=0.00 Cp =Cin+Cout =0.0625+0.00=0.0
625 となる。
【0041】また、英文字”Q”のテンプレートについ
ては、 Cin=125÷500=0.25 Cout =0÷500=0.00 Cp =Cin+Cout =0.25+0.00=0.25 となり、距離差はいっそう大きくなる。
【0042】一方、図1(ロ)の左側に示す文字’.’
の入力イメージを、文字’.’のテンプレート及び文
字’,’のテンプレートと比較し、それぞれの距離を計
算してみる。図中の数字はドット数である。
【0043】文字”.”のテンプレートについては、 Din=100−90=10 Dout =900−900=0 Dp =Din+Dout =10+0=10 となる。
【0044】また、文字”,”のテンプレートについて
は、 Din=120−90=30 Dout =880−880=0 Dp =Din+Dout =30+0=30 となる。
【0045】以上の結果、文字’.’のテンプレートに
おける距離と、文字’,’のテンプレートにおける距離
との距離差は、[30−10=20]となる。よって、
両者のテンプレート文字における距離差が‘50’以下
と小さすぎるため、判定不能(リジェクト)となる。
【0046】しかし、比率を使って距離を計算すると、
文字”.”のテンプレートの場合には、 Cin=10÷100=0.10 Cout =0÷900=0.00 Cp =Cin+Cout =0.10+0.00=0.10 となる。
【0047】また、文字”,”のテンプレートの場合に
は、 Cin=30÷120=0.25 Cout =0÷880=0.00 Cp =Cin+Cout =0.25+0.00=0.25 となり、両者の距離差が鮮明に現われる。
【0048】このように比率を用いることにより、テン
プレート文字の文字線部分が占める面積が小さい場合
に、リジェクトとなりやすいものを救うことができる。
【0049】ところで、パターンマッチングで用いるテ
ンプレート文字では、各ドットに重み付けがされている
ことが多い。そこで重み付けの総和を文字間で等しくな
るように設定すれば、文字面積の差を吸収することがで
きる。
【0050】例えば、ドットの位置による重みの差が無
い場合には、図2(イ)、(ロ)に示すように、文字線
内部・外部の総ドット数に対する一ドットの比を重みと
する。図2(イ)の場合、一ドットあたり、‘0.00
25’となり、図2(ロ)の場合、一ドットあたり、
‘0.010’となる。
【0051】一方、ドットの位置による重みの差がある
場合には、図2(ハ)に示すように、文字線内部・外部
の重みの総和に対する各ドットの重みの比を、新しい重
みとする。図2(ハ)の場合、全ドットの重みの総和
は、 1×50+2×40+3×10=160 である。
【0052】図2(ハ)において、重みが‘1’であっ
た最も外側の領域内の‘50’ドットは、それぞれ‘1
÷160’の重みを持つとする。また、重みが‘2’で
あった領域内の‘40’ドットは、それぞれ‘2÷16
0’の重みを持つとする。重みが‘3’であった最も内
側の領域内の‘10’ドットは、それぞれ‘3÷16
0’の重みを持つとするのである。
【0053】すると、重みが‘1’であった領域内にお
ける‘50’ドット全体の重みの総和は、 (1÷160)×50=(50÷160) となり、重みが‘2’であった領域内の‘40’ドット
全体の重みの総和は、 (2÷160)×40=(80÷160) となり、重みが‘3’であった領域内の‘10’ドット
全体の重みの総和は、 (3÷160)×10=(30÷160) となる。よって、全領域‘100’ドットの重みの総和
は、 (50+80+30)÷160=1 となる。
【0054】いうまでもなく、本発明の持つ一つの特徴
は実施が容易なことである。従来技術からの変更は、テ
ンプレートとパラメータの変更程度なので、計算部分を
いじることは無い。また、テンプレートの作成も簡単な
計算でできる。
【0055】ところで、現在、特定フォントの活字にお
ける文字認識はかなりの認識精度を出している。よっ
て、本発明による判定法を用いることにより一方で能力
が上がっても他方で能力が下がることがあれば望ましく
ない。
【0056】従って従来の能力を落とさないために、従
来の判定法でリジェクトとなった文字のみに対し本発明
による判定方法を用いることを提案する。そうすれば、
本発明の効果を十分に発揮することができ、本発明の採
用に伴う処理時間の増加を小さくすることができる。
【0057】図3は本発明による文字認識処理の一例を
示す流れ図である。図示する文字認識処理では、読み取
りをしてから前処理を行ってイメージを文字を得た後、
イメージ文字とテンプレート文字との距離を計算してそ
の判定を行う。当例では、さらにその判定で正しい文字
が得られなかった場合に、文字線内外における距離を別
々に計算して、上述した新判定を行い正しい文字を得
る。最終的に結果出力が行われる。
【0058】例えば、第一候補文字と第二候補文字との
距離差が‘200’以下のときにリジェクトとなるシス
テムがあり、図8(イ)に示すような数字‘3’の文字
イメージが読み取られたとする。これを数字‘3’と数
字‘2’の二つのテンプレート文字で距離計算をする
と、従来手法では図8(ロ),(ハ)に示すように、共
に距離差‘200’でリジェクトになる。
【0059】ところが本発明によれば、図8(ロ)の方
では、距離Dout の値が‘10’と十分に小さいことか
ら、距離Dp の値が‘200’と大きいのは文字の低品
質化が原因であると判断することができる。また、図8
(ハ)の方では、距離Dinの値も、距離Dout の値もど
ちらも大きいので、文字形が本質的に違うと判断するこ
とができ、結局、入力したイメージ文字は‘3’である
と正読することができる。
【0060】
【発明の効果】以上説明したように、本発明によれば、
従来の文字認識方法では正読できなかった低品質活字の
正読が可能となり、認識率の向上を図れるという効果が
ある。
【図面の簡単な説明】
【図1】文字線内・外における距離についての説明図で
ある。
【図2】重みについての説明図である。
【図3】本発明による文字認識処理の一例を示す流れ図
である。
【図4】重ね位置についての説明図である。
【図5】文字枠の重ね合わせ方法を示す図である。
【図6】距離についての説明図である。
【図7】低品質活字についての説明図である。
【図8】本発明の効果についての説明図である。
【図9】面積が小さい文字についての説明図である。
【図10】従来の文字認識処理の一例を示す流れ図であ
る。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】文字を光学的に読み取り、二値化したイメ
    ージ文字として取り込むと共に、あらかじめ用意した辞
    書を用いてイメージ文字とテンプレート文字とを比較
    し、パターンマッチングを行って、イメージ文字がどの
    テンプレート文字と同じものなのかを識別する文字認識
    装置の文字認識方法において、 イメージ文字とテンプレート文字との相違度を表わす距
    離の計算を行う際、テンプレート文字の文字線内部にお
    ける距離と、文字線外部における距離とを別々に計算
    し、文字線内部における距離又は文字線外部における距
    離が予め設定された値より小さい場合、該テンプレート
    文字を該イメージ文字と同じものとして選択することを
    特徴とする文字認識方法。
  2. 【請求項2】テンプレート文字に接する枠と、イメージ
    文字に接する枠とを仮想し、二つの枠の重ね位置を変化
    させていくと共に、各重ね位置における距離計算を行
    い、最も小さい値をそのテンプレート文字における距離
    と決定する請求項1記載の文字認識方法。
  3. 【請求項3】イメージ文字とテンプレート文字とを比較
    する時に、文字線内部における総ドット数と文字線内部
    における不一致ドット数の比率、及び文字線外部におけ
    る総ドット数と文字線外部における不一致ドット数の比
    率を計算し、求めた比率を距離として用いる請求項1記
    載の文字認識方法。
  4. 【請求項4】イメージ文字とテンプレート文字とを比較
    する時に、文字線内部における各ドットが有する重みの
    総和と文字線内部における不一致ドットの重みの総和の
    比率、及び文字線外部における各ドットが有する重みの
    総和と文字線外部における不一致ドットの重みの総和の
    比率を計算し、求めた比率を距離として用いる請求項1
    記載の文字認識方法。
JP6044549A 1994-03-16 1994-03-16 文字認識方法 Withdrawn JPH07254048A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6044549A JPH07254048A (ja) 1994-03-16 1994-03-16 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6044549A JPH07254048A (ja) 1994-03-16 1994-03-16 文字認識方法

Publications (1)

Publication Number Publication Date
JPH07254048A true JPH07254048A (ja) 1995-10-03

Family

ID=12694588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6044549A Withdrawn JPH07254048A (ja) 1994-03-16 1994-03-16 文字認識方法

Country Status (1)

Country Link
JP (1) JPH07254048A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010032308A (ja) * 2008-07-28 2010-02-12 Hitachi High-Technologies Corp 欠陥レビュー装置、欠陥レビュー方法及び欠陥レビュー実行プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010032308A (ja) * 2008-07-28 2010-02-12 Hitachi High-Technologies Corp 欠陥レビュー装置、欠陥レビュー方法及び欠陥レビュー実行プログラム

Similar Documents

Publication Publication Date Title
US6970601B1 (en) Form search apparatus and method
US5504822A (en) Character recognition system
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
RU2001107822A (ru) Распознавание знаков
CN111814673B (zh) 一种修正文本检测边界框的方法、装置、设备及存储介质
US6240209B1 (en) Method for deriving character features in a character recognition system
JPH07254048A (ja) 文字認識方法
JP3370934B2 (ja) 光学的文字読み取り方法とその装置
WO1988002157A1 (en) Character and pattern recognition machine and method
US5426712A (en) Method and apparatus for describing a character image based on its contours, and for classifying the character image for character recognition based on a resulting contour-based description of the character image
JPH08101880A (ja) 文字認識装置
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式
JPH0916715A (ja) 文字認識装置および方法
JPH06251202A (ja) 文字認識装置
JP2734387B2 (ja) 文字認識装置
JPH07107698B2 (ja) 文字認識方法
JPS63269267A (ja) 文字認識方法
JPH04260980A (ja) 図形認識装置
JP2963474B2 (ja) 類似文字識別方法
JPS6379193A (ja) 文字読取装置
JPH0567238A (ja) 文字読取装置
JPH05135208A (ja) オンライン文字認識方法およびオンライン文字認識装置
JPH09128487A (ja) パタン認識装置
JPH04139593A (ja) 郵便番号認識装置
JPH08123872A (ja) 光学式文字読取装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010605