JPH04373090A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH04373090A
JPH04373090A JP3150509A JP15050991A JPH04373090A JP H04373090 A JPH04373090 A JP H04373090A JP 3150509 A JP3150509 A JP 3150509A JP 15050991 A JP15050991 A JP 15050991A JP H04373090 A JPH04373090 A JP H04373090A
Authority
JP
Japan
Prior art keywords
characters
character
dissimilarity
degree
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3150509A
Other languages
English (en)
Inventor
Naoki Maeda
直樹 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Electric Industries Ltd
Original Assignee
Sumitomo Electric Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Electric Industries Ltd filed Critical Sumitomo Electric Industries Ltd
Priority to JP3150509A priority Critical patent/JPH04373090A/ja
Publication of JPH04373090A publication Critical patent/JPH04373090A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文字認識装置に関し、さ
らに詳細にいえば、画像入力装置またはファクシミリ装
置等の通信媒体を通して文字、記号等(以下代表して「
文字」という。)を表す画像信号を取得し、認識すべき
文字の特徴量を抽出し、この特徴量を基に演算を行って
候補文字をひとまず選定し、上記候補文字のなかから、
被読取対象である文字に最も近い文字を詳細識別して当
該文字を表す文字コードを出力することができる文字認
識装置に関するものである。
【0002】
【従来の技術】図10は、従来から用いられている文字
認識装置の一例の構成を示すブロック図である。表面に
文字を形成した被読取対象1の画像は、スキャナ等の画
像入力手段2により読み取られる。読み取られた画像は
、文字切出手段3により、1文字ずつが含まれる単位画
像毎に切り出されて、特徴抽出手段4に与えられる。 この特徴抽出手段4では、文字認識に必要な特徴量が抽
出される。抽出された特徴量は識別手段5に与えられ、
認識用辞書6の記憶内容と照合されて、1または2以上
の候補文字が選択されて出力される。認識用辞書6には
、認識可能な全ての文字の特徴量、特徴量の平均値や分
布の状態、各特徴量が認識に影響を与える順位などが記
憶されている。識別手段5は、特徴抽出手段4で抽出さ
れた特徴量と、認識用辞書6に記憶された全ての文字の
特徴量とを比較照合する。そして、たとえば相違度が小
さな1または複数の文字を候補文字として出力する。 この候補文字は、候補文字決定手段7に与えられ、たと
えば操作者の判断や判定用辞書(図示せず。)のデータ
に基づいて、最適な一つの候補文字が選択されることに
なる。
【0003】ところが、この従来技術は、読取対象の文
字種が少ない英数字などを認識する場合には有効である
が、漢字のように文字種の極めて多い文字の認識には適
していない。すなわち、漢字のような多文字種の文字認
識を行おうとすると、識別能力を高めるためには詳細な
識別を行う識別関数を用いる必要が生じるため、複雑な
計算が必要となる。また、全文字種に対して繰り返し比
較演算を行うためには、膨大な計算量が必要となる。こ
のため1文字当たりの識別時間が増大し、文字入力処理
を効率的に行うことができない。
【0004】そこで、漢字などを含む原稿の入力処理効
率を高めるために、図11に示す他の従来技術が提供さ
れている。なお、図11において上記の図10に示され
た各部と同等の機能を有する部分には同一の参照符号を
付して示す。この従来技術では、最初に、識別の対象と
する文字を少数に絞る大分類が行われ、この大分類によ
り絞り込まれた少数の文字に基づいてさらに詳細な識別
処理が行われる。
【0005】すなわち、特徴抽出手段4で抽出された特
徴量に基づいて、大分類識別手段11では、処理が簡単
な識別関数を用いて、大分類識別用辞書12に記憶され
た文字の中から所定数の文字が選択され、この選択され
た文字が候補文字として出力される。大分類識別辞書1
2には、識別可能な全ての文字に関して大分類のために
必要な特徴量が記憶されている。
【0006】大分類識別手段11からの候補文字は、詳
細識別手段13に与えられる。この詳細式識別手段13
は、詳細識別用辞書14に蓄えられた各候補文字の特徴
量に関する情報を得て、特徴抽出手段4で抽出された特
徴量と比較し、詳細な識別処理を行う。この詳細識別に
より得られた候補文字が候補文字決定手段7に与えられ
ることになる。なお、詳細識別手段13での識別処理に
は、大分類用辞書12に記憶された特徴量が用いられる
こともある。
【0007】この構成では、詳細識別手段13における
詳細識別処理の回数が、大分類識別手段11で絞り込ま
れた候補文字の数に抑えられるから、全体として文字認
識処理を高速に行わせることができる。
【0008】
【発明が解決しようとする課題】ところが、この従来技
術では、大分類識別手段11における大分類識別処理が
単純であるため識別性能が不十分となる。すなわち、所
定数の候補文字を選択するときに、この選択した文字の
中に正解の文字が必ずしも含まれているとは限らない。 この場合には、上記所定数の候補文字に基づいて識別処
理を行う詳細識別手段13では、当然に正しい識別結果
を得ることはできず、識別不良となる。
【0009】この不具合を解決するために、大分類識別
手段11で選択される候補文字の数を増やしたり、大分
類識別関数の精度を高めたりする(たとえば文字特徴量
の計算の次元数を増やす。)ことが考えられる。しかし
、候補文字数の増大は、当然に、詳細識別手段13での
識別処理時間の増大を招き、文字識別処理に要する全体
の時間が増大することになる。また、大分類識別関数に
複雑な関数を適用すると、大分類に要する時間が増大す
ることになって、大分類を行う意味がなくなる。
【0010】一方、大分類の過程では、通常、相違度の
計算の結果を相違度の小さい順に並び変えるソート処理
が行われ、相違度の小さい方から所定順位までの文字が
候補文字として決定される。ところが、ソート処理に要
する時間のオーダーが相違度の計算に要する時間のオー
ダーに近い場合には、大分類でのソート処理時間が無視
できなくなり、大分類のための処理時間の短縮化を妨げ
ることになる。
【0011】たとえば、3000種ある漢字を認識する
場合を想定すると、大分類識別処理で得られる相違度の
データは3000個となるから、3000個のデータの
ソート処理が必要となる。このソート処理は図12に示
されている。辞書内の各文字に関するデータの配置にも
よるが、辞書内の文字の配列順に従って相違度のデータ
を配列すると、図12(a) に示すように無秩序な配
列となる。この無秩序に配列されたデータを、図12(
b) に示すように相違度が小さい順にソートする。こ
のとき、処理が最も速く行えるとされている、クイック
ソート法を適用したとしても、平均n×log(n)(
ただし、nはデータ個数を示し、上記の例では3000
である。)の相対的な時間が必要である。このようなデ
ータのソートが必要なのは、図10に示された第1の従
来技術の場合でも同様である。
【0012】このように長時間を要するソート処理を無
くした先行技術として、特公平2−59504号公報に
開示された技術がある。この先行技術では、文字種毎に
閾値テーブルを設け、大分類識別関数に基づいて得られ
た相違度の最小値に、この最小値の文字種に対応する上
記閾値テーブルの値を加算して閾値が設定される。そし
て、この閾値により、相違度に基づいて候補文字を振り
分け、これにより複数の候補文字を選択するようにして
いる。なお、上記の公告公報の記載では、候補文字の選
択のために「類似度」を用いているが、類似度と相違度
とは大小関係が逆になるだけであるので、実質的に等価
であると言える。
【0013】ところが、上記の先行技術では、閾値テー
ブルの作成が困難であり、実際には、フォント(字形)
の違いや、文字の品質(つぶれ、かすれなどの変形)な
どに対応できないことがある。また、大分類識別関数に
基づいて得られた最小相違度の候補文字が正解の文字と
異なる場合には、設定すべき閾値と実際に設定される閾
値とが大きく異なるおそれがあり、極端な場合には、候
補文字のなかに正解の文字が含まれないこともあり得る
。したがって、上記の先行技術では、大分類識別処理に
要する時間は短縮されるものの、文字識別性能が劣化す
るおそれがある。
【0014】そこで、本発明の目的は、上述の技術的課
題を解決し、大分類のための処理時間を短縮して文字識
別処理時間を短縮することができるとともに、簡単な構
成で確実な文字認識処理が行えるようにした文字認識装
置を提供することである。
【0015】
【課題を解決するための手段】上記の目的を達成するた
めの本発明の文字認識装置は、図1に示すように、文字
を含む被読取対象21を表す画像信号を取得する画像信
号取得手段22と、取得された画像信号を、認識しよう
とする1文字単位の画像信号に分割する文字切出手段2
3と、切り出した1文字分の画像信号から、所定の法則
に従って当該文字の特徴量を抽出する特徴抽出手段24
と、文字の認識に必要な特徴量を認識可能な全ての文字
のそれぞれに対応付けて記憶した認識用辞書25と、上
記特徴抽出手段24で抽出された特徴量に基づいて、上
記認識用辞書25に記憶された文字のうち所定の範囲の
文字を選択する辞書選択手段26と、上記特徴抽出手段
24で抽出された特徴量と、上記辞書選択手段26によ
って選択された範囲内の各文字の特徴量との各相違度を
算出する第1相違度算出手段27と、この第1相違度算
出手段27での演算結果に基づいて、相違度が小さい方
から所定の順位以内の文字を候補文字として出力する第
1分類手段28と、上記第1相違度算出手段27での演
算結果に基づいて、相違度が小さい方から所定の順位の
文字の上記相違度を閾値として設定する閾値設定手段2
9と、上記特徴抽出手段24で抽出した特徴量と、上記
辞書選択手段26によって選択された範囲外の各文字に
対応した特徴量との各相違度を上記閾値を上限として演
算し、相違度が上記閾値に満たない文字を候補文字とし
て出力するとともに、相違度の算出過程で上記閾値に達
した文字はその時点で相違度の演算を打ち切って候補文
字から除外する第2相違度算出手段30と、上記第1分
類手段28が出力した候補文字と、上記第2相違度算出
手段30が出力した候補文字とから、各候補文字に関し
て上記第1相違度算出手段27または上記第2相違度算
出手段30で算出された各相違度に基づいて、相違度が
小さい方から所定の順位以内の文字を候補文字として選
定して出力する第2分類手段31と、上記特徴抽出手段
24で抽出された特徴量と、上記第2分類手段31から
出力された各候補文字に対応する特徴量との比較演算を
行い、候補文字をさらに選定する詳細識別手段32と、
この詳細識別手段32で選定された候補文字から一の候
補文字を所定の基準で選択して、当該選択された文字の
文字コードを出力する候補文字決定手段33とを含んで
いる。
【0016】
【作用】上記の構成によれば、第1相違度算出手段27
では、辞書選択手段26で選択された所定の範囲内の文
字に関して、認識用辞書25に記憶された特徴量と特徴
抽出手段24で抽出された特徴量との相違度が算出され
る。そして、第1分類手段28において、相違度の小さ
い方から所定の順位以内の文字が候補文字として選択さ
れる。このように、第1相違度算出手段27での相違度
の算出、および第1分類手段28での候補文字の選択の
ための処理は、辞書選択手段26で選択された範囲の文
字に関して行われるに過ぎないので、各処理に長時間を
要することはない。
【0017】一方、第2相違度算出手段30では、辞書
選択手段27で選択された範囲外の文字の特徴量と、特
徴量抽出手段24で抽出された特徴量との相違度が演算
される。この相違度の演算は、閾値設定手段29から与
えられる閾値を上限として行われる。この閾値は、第1
相違度算出手段27で算出された相違度のうち、小さい
方から所定の順位(第1分類手段28が候補文字を決定
するときの所定の順位と等しくてもよく、また異なる順
位であってもよい。)の相違度の値である。第2相違度
算出手段30は、認識用辞書25に記憶された各文字と
の相違度の算出過程で、演算途中の相違度が上記の閾値
に達したときには、その時点で当該文字についての相違
度演算を中止して、次の文字についての相違度演算に移
る。そして、最終的に算出された相違度が上記の閾値に
達しない文字があれば、このような文字を候補文字とし
て、第2分類手段31に与える。このように、第2相違
度算出手段30では、辞書選択手段26が選択する範囲
外の文字について相違度演算を行うのであるが、この相
違度の演算は第1相違度算出手段27での相違度演算の
結果として得られる閾値を上限として行われるので、各
文字について相違度の算出を完結させる場合に比較して
、演算量が大幅に軽減されている。しかも、相違度順に
文字を並べ変えるソート処理が不要である。したがって
、第2相違度算出手段30における相違度の算出および
候補文字の選択は、短時間の処理で達成することができ
る。
【0018】第2分類手段31には、第1分類手段28
からの候補文字と、第2相違度算出手段30からの候補
文字とが与えられる。すなわち、辞書選択手段26で選
択した範囲内の文字についての相違度演算の結果として
得られた候補文字と、辞書選択手段26で選択された範
囲外の文字についての相違度演算の結果として得られた
候補文字とが与えられることになる。換言すれば、認識
用辞書25に記憶された全ての文字に関して相違度演算
を行った結果として得られた候補文字が第2分類手段3
1に与えられる。そして、第2分類手段31では、相違
度が小さい方から所定の順位以内の候補文字をさらに選
定して詳細識別手段32に与える。このようにして、第
1段階の分類である大分類が達成される。この大分類は
、結果として、認識用辞書25に記憶された全ての文字
に関して行われた処理であると言えるから、認識対象の
文字を候補文字の中に確実に含ませることができる。
【0019】詳細識別手段32では、特徴抽出手段24
で抽出された認識対象の文字の特徴量と、第2分類手段
31から与えられた候補文字に対応して認識用辞書25
に記憶された特徴量との比較演算を行い、詳細な識別処
理の結果として、候補文字をさらに選定して候補文字決
定手段に与える。そして、この候補文字決定手段おいて
、一の候補文字が選択され、この文字の文字コードが出
力されることになる。
【0020】
【実施例】以下実施例を示す添付図面によって詳細に説
明する。図2は、本発明の一実施例の文字認識装置の基
本的な構成を示すブロック図である。たとえば白色の背
景に黒色の文字を含む画像を形成した被読取対象である
原稿51は、画像信号取得手段であるイメージスキャナ
52により読み取られて画像信号に変換される。イメー
ジスキャナ52は、たとえば原稿51全体を撮像するこ
とができるビジコンや固体撮像素子などの撮像手段と、
この撮像手段の出力を二値化して整形された信号を導出
する二値化回路とを有している。
【0021】イメージスキャナ52からの画像信号は、
文字切出部53に与えられる。この文字切出部53は、
与えられた画像信号から、1文字分に対応する画像を切
り出すものである。この切り出された1文字分の画像信
号は、特徴抽出部54に与えられ、所定の特徴量が抽出
される。抽出される特徴量は、文字認識に必要な複数種
類の特徴量を含んでおり、たとえば文字輪郭線の方向ベ
クトルのヒストグラム(たとえば特開昭59−1775
84号公報、電子情報通信学会論文誌D Vol.J7
0−D No.7  pp.1390−1397 参照
。)や空白領域の分布などである。
【0022】特徴抽出部54で抽出された特徴量は、第
1相違度算出部55と、辞書選択範囲決定部56に与え
られる。辞書選択範囲決定部56では、認識用辞書57
に記憶された文字のうち、先ず第1段階の分類である大
分類のための所定の範囲(以下「選択範囲」という。)
の文字を選択する。認識用辞書57には、当該装置によ
り認識可能な全ての文字の文字コードとともに、各文字
毎の特徴抽出部54で抽出される特徴量が文字コードに
対応付けられて記憶されており、さらに特徴量の平均値
や分布の状態および各特徴量が認識に影響を与える順位
などが記憶されている。
【0023】辞書選択範囲決定部56では、たとえば文
字輪郭線長に基づいて上記選択範囲が決定される。特徴
抽出部54での特徴量抽出のために、たとえば加重方向
ヒストグラム法(たとえば上述の特開昭59−1775
84号公報、電子情報通信学会論文誌D Vol.J7
0−D No.7  pp.1390−1397 参照
。)を適用する場合、その中間結果として文字輪郭線の
データを得ることができる。文字輪郭線は、文字切出部
53で切り出されたイメージデータにおける、黒画素と
白画素との境界画素の数により与えられる。各画素は、
二次元平面上での水平座標と垂直座標とをそれぞれ表す
データ対により特定されるから、境界の画素に対応する
データ対の個数が文字輪郭線長に相当する。
【0024】図3は輪郭線の抽出の様子を簡略化して示
す図である。図3(a) に示す切出画像から、輪郭線
OLを抽出した状態が図3(b) に示されている。図
4は、同様な処理を文字「漢」の切出画像に関して行っ
た様子を示している。この場合には、輪郭線は1本では
なく、7本の輪郭線OL1〜OL7が存在することとな
る。このように輪郭線は、1本または複数本存在するこ
ととなるが、本実施例では、簡単のために、全部の輪郭
線の長さの総和を文字輪郭線長と定義するものとする。 なお、図3および図4において、黒画素に対応する部分
には斜線を付して示す。
【0025】上記選択範囲の決定のためには、文字輪郭
線長の他に、輪郭線の数、各輪郭線の長さが用いられて
もよい。また、文字のストローク特徴を抽出できれば文
字の画数も検出可能であり、これを順位決定の引き数と
してもよい。図5および図6は、文字輪郭線長に基づく
選択範囲の決定のための処理を説明するための図である
。図5は認識用辞書57に記憶された全ての文字に関し
て、実際の文字をイメージスキャナ52で読み取って文
字輪郭線長を調べ、その平均値を小さい順にソートして
グラフ化したものである。横軸には文字輪郭線長がとら
れ、縦軸にはソート後の文字番号(文字輪郭線長の大小
に従って昇順に付した番号)がとられている。図5にお
いて斜線を付して示す領域は、読み取られた文字におけ
る輪郭線長のばらつきを表している。この図5では、文
字輪郭線長が文字の大きさに依存しないように、文字の
大きさを正規化処理した結果が示されている。一般に、
文字輪郭線長が小さい方には英数記号や画数が少ない漢
字が並び、大きい方には画数の多い漢字が並ぶ。本実施
例においては、図5のグラフデータが、辞書選択範囲決
定部56内の図外のメモリに記憶されている。
【0026】図6には図5のグラフデータを用いた選択
範囲の決定方法が示されている。特徴抽出部54で算出
された認識対象の文字の文字輪郭線長をLxとすると、
たとえばこの文字輪郭線長Lxに最も近い輪郭線長を持
つ文字に対応した文字番号C3を中心としたN0 個の
文字の範囲、すなわち文字番号C2〜C4の範囲の文字
が大分類のための選択範囲とされる。N0 は、認識対
象の文字の品質や相違度計算関数の精度にもよるが、後
述するN2 よりも大きい範囲で可及的に小さい値とさ
れることが好ましく、その値は実験的に決定される。
【0027】このようにして決定された選択範囲の文字
コードと、これらに対応する特徴量のデータなどは、第
1辞書選択部58により読み出されて第1相違度算出部
55に与えられる。すなわち、第1相違度算出部55は
、上記選択範囲内の文字に関して、文字認識のための第
1段階の分類である大分類に必要な相違度の算出を行う
。この相違度の算出は、たとえば下記第(1) 式で表
される市街地距離(シティブロック距離)cdなどを用
いることにより、比較的高速に行うことができる。市街
値距離の他に、ユークリッド距離を適用することもでき
る。なお、本実施例では、辞書選択範囲決定部56およ
び第1辞書選択部58を含んで辞書選択手段が構成され
ている。
【0028】
【数1】
【0029】図7(a) は第1相違度算出部55にお
ける相違度算出結果を示す図である。この図7(a) 
では、文字番号C2〜C4の順に相違度の算出結果が示
されている。この相違度を表すデータは、その文字コー
ドとともに第1分類手段である第1ソート部59に与え
られて、相違度に関して昇順にソートされる。このソー
ト処理の結果は、図7(b) に示されている。この図
7(b) において、縦軸は相違度を示し、横軸はソー
ト後に各文字に付与された文字番号を示す。第1ソート
部59におけるソート処理は、上述の選択範囲に対応し
たN0 個のデータに関して行われるに過ぎないので、
このソート処理に長時間を要することはない。
【0030】このソート処理の結果として、第1ソート
部59は、相違度の小さい方からN1 番目までの相違
度の文字コードと、このN1 個の文字コードに対応す
る各相違度とを第2分類手段である第2ソート部60に
与える。また、上記相違度を表すデータは、大分類のた
めの閾値THを設定する閾値設定部61にも与えられる
。この閾値設定部61は、上記N1番目の相違度、すな
わち、第1ソート部59から導出される相違度のうち最
大のものを閾値THとして設定し、第2相違度算出部6
2に与える。なお、閾値THには、N1 番目以外の相
違度を適用してもよい。
【0031】この第2相違度算出部62には、第2辞書
選択部63によって認識用辞書57から読み出された文
字コードおよびその特徴量が与えられる。第2辞書選択
部63には、上述の辞書選択範囲決定部56から、上記
選択範囲についての情報が与えられる。そして、第2辞
書選択部63は、選択範囲以外の範囲(以下「非選択範
囲」という。)についてのデータを認識用辞書57から
読み出して、第2相違度算出部62に与える。すなわち
、文字番号C2〜C4の範囲以外の範囲の文字について
、文字コードと、それに対応した特徴量とが第2相違度
算出部62に与えられることになる。
【0032】第2相違度算出部62では、非選択範囲の
文字に関して、第1相違度算出部55における演算と同
様にして、相違度の算出が各文字毎に行われる。ただし
、この第2相違度算出部62における相違度の演算では
、上記第(1)式に従う加算演算の過程において、この
計算途中の相違度が上記の閾値THに達したときには、
その時点で当該文字に関する相違度の演算が中止される
。たとえば、第(1) 式による相違度の計算は、通常
は、ループ処理により行われるが、このループ処理中に
演算値が閾値THを超えているかどうかを検出する条件
判断処理を入れ、この条件判断に基づいてループ処理を
抜け出させるようにすれば、相違度の演算途中で処理を
中止させることができる。なお、条件判断は、相違度の
算出のための各ループ処理毎に行わせる必要はなく、一
定回数のループ処理毎に行わせてもよい。このようにす
れば、条件判断に比較的長い演算時間を要するときでも
、全体の処理を高速化できる。
【0033】相違度の演算途中で演算値が上記閾値TH
に達すると、その文字についての相違度の演算は打ち切
られ、次の文字についての相違度の演算が開始される。 一方、相違度が最終的に算出されてもなお閾値THに達
しない文字があれば、このような文字は候補文字として
、第2ソート部60に与えられる。逆に、相違度の演算
途中で演算値が閾値THに達した文字は、候補文字から
除外されることになる。
【0034】図8は第2相違度算出部62での処理を説
明するための図である。認識用辞書57に記憶された全
ての文字に関して上記第(1) 式に従って相違度を算
出したとすると、この相違度は、たとえば、図8におい
て曲線L1で示すように変化する。文字番号C2〜C4
の範囲は上述の選択範囲であり、この選択範囲に関して
大分類候補文字を選定する処理が第1相違度算出部53
および第1ソート部59において行われるのは上述のと
おりである。第2相違度算出部62で相違度の演算が行
われるのは、文字番号C1〜C2および文字番号C4〜
C5の範囲の文字に関してである。ところが、上述のよ
うに、第2相違度算出部62では、相違度の演算をいわ
ば閾値THを上限として行うこととしているため、実際
に行われる相違度の演算量は、図8において斜線を付し
て示される領域の面積によって象徴的に表される。すな
わち、文字番号C1〜C2および文字番号C4〜C5の
範囲の全ての文字に関して相違度の算出をそれぞれ完結
させる場合の演算量は、曲線L1と図8の横軸とに囲ま
れた領域の面積により象徴的に表されるから、この場合
に比較して、第2相違度算出部62での相違度算出演算
は格段に軽減されていることが理解される。
【0035】そして、図8において、参照符号A1,A
2で示す部分に対応する文字については、最終的に算出
された相違度が閾値THに達していないので、これらの
文字は候補文字として選定され、その文字コードと、対
応する特徴量とが第2ソート部60に与えられる。第2
ソート部60では、第1ソート部59から与えられたN
1 個の候補文字と、第2相違度算出部62から与えら
れた候補文字とが、それぞれについて算出されている相
違度に基づいて昇順にソートされる。この第2ソート部
60での処理は、図9に示されている。すなわち、第1
ソート部59から与えられる文字番号C2〜C4の範囲
の候補文字と、第2相違度算出部62から与えられる文
字番号C1〜C2および文字番号C4〜C5の範囲の候
補文字とにつき、各相違度を基礎として、共通にソート
処理が行わる。すなわち、図9(a) の状態から、ソ
ート処理を経て、図9(b) の状態となる。
【0036】さらに第2ソート部60は、上記のソート
処理の結果から、相違度の小さいものからN2 番目ま
での候補文字を選択し、最終的な大分類候補文字として
、詳細識別部64に与える。すなわち、最終的な大分類
候補文字の文字コードと、それぞれに対応する特徴量が
詳細識別部64に与えられることになる。もちろん、特
徴抽出部54で抽出された、認識対象の文字の特徴量も
詳細識別部64に与えられる。
【0037】詳細識別部64では、第2ソート部60か
ら与えられるN2 個の大分類候補文字を基礎として、
特徴量抽出部54で抽出されたたとえば全ての特徴量に
基づき、詳細識別処理が行われる。この詳細識別処理に
は、従来から知られている公知の識別処理を適用するこ
とができ、たとえば、マハラノビス識別関数を用いた識
別技術(たとえば特開昭59−177584号公報、電
子情報通信学会論文誌DVol.J70−D No.7
  pp.1390−1397 参照。)などを適用す
ることができる。
【0038】このような詳細識別部6での詳細識別処理
により、認識対象の文字の候補として、1または数個の
文字の文字コードが候補文字決定部65に与えられる。 この候補文字決定部65においては、たとえば操作者に
よる図外のキー入力部などからの入力操作により、また
は公知のアルゴリズムに従う処理によって自動的に、1
個の文字が決定され、この文字の文字コードが出力され
る。
【0039】以上のように本実施例の文字認識装置では
、辞書選択範囲決定部56で大分類の対象となる選択範
囲が決定され、この選択範囲内で相違度の小さなN1 
個の文字が選択される。一方、非選択範囲に関しても大
分類が行われるが、この非選択範囲に関する大分類は、
選択範囲についての大分類の結果に基づいて設定した閾
値THを上限とした相違度演算により行われる。すなわ
ち、相違度計算の途中で閾値THに達した文字に関して
は、その時点で相違度計算を中止するとともに当該文字
を候補文字から除外し、相違度が閾値TH未満である文
字は候補文字とされる。したがって、非選択範囲におけ
る大分類では、相違度計算が軽減されており、しかもソ
ート処理も行われない。この結果、非選択範囲に関する
大分類には長時間を要することがない。選択範囲につい
ての大分類は、少ない個数の文字に関して行われるに過
ぎないので、第1ソート部59でのソート処理が行われ
るにも拘わらず長時間を要することはない。
【0040】このようにして、認識用辞書57に格納さ
れている全ての文字に関して大分類を行っているにもか
かわらず大分類に要する時間を短時間に抑制することが
できる。しかも、全ての文字について大分類を行ってい
るのであるから、第2ソート部60から詳細識別部64
に与えられる最終的な大分類候補文字の中に、認識対象
の文字を確実に含ませることができる。すなわち、認識
対象の文字がかすれていたり、つぶれが生じていたりし
て文字品質が悪い場合などには、文字輪郭線長にばらつ
きが生じるから、第1相違度算出部55および第1ソー
ト部59での処理を経て選択される候補文字のなかに、
正解の文字が含まれていない可能性がある。しかし、本
実施例では、第2相違度算出部62における上記の非選
択範囲に関する大分類処理によって、文字品質が悪い場
合でも、正解の文字を第2ソート部60に候補文字とし
て与えることができる。同様に、認識対象のフォントの
相違による文字輪郭線長のばらつきにも対応することが
できる。
【0041】ただし、極端に文字輪郭線長が変化してし
まっているような場合には、第2ソート部60から出力
されるN2 個の最終的な大分類の候補文字の中に正解
の文字が含まれない場合がある。しかし、このことは、
従来技術の場合も同様であり、本実施例の装置における
固有の欠点ではない。このような不具合は、第2ソート
部60での候補文字数であるN2 を大きくとれば解決
されることもある。したがって、本実施例では大分類処
理を高速に行えるのであるから、従来技術と同一の時間
を許容されれば、第2ソート部60でさらに多くの候補
文字を選択することが可能である。
【0042】一方、選択範囲を決定する辞書選択範囲決
定部56での処理は、認識用辞書57に格納されている
文字を文字輪郭線長により予めソートしたデータに基づ
き、特徴量抽出部54で検出された認識対象の文字の文
字輪郭線長を上記のソート結果に照らして、当該検出し
た文字輪郭線長の近傍の文字輪郭線長を有する所定個数
の文字を選択範囲としているのであるから、極めて簡単
な処理に過ぎない。したがって、格別に複雑な構成が必
要となることもない。このように、簡単な構成で、高速
にしかも確実に文字認識を行えるようになる。
【0043】なお、本発明は上記の実施例に限定される
ものではない。たとえば、上記の実施例では、第2相違
度算出部や第2ソート部は1段の構成となっているが、
この部分を2つ以上設けて閾値を次第に少なくし、大分
類での候補文字をさらに絞るように構成してもよい。ま
た、上記の実施例では、イメージスキャナを用いて原稿
画像を入力しているが、識別すべき文字を含む画像に対
応する画像信号は、ファクシミリ等の回線を介して取得
されるものであってもよい。さらに、上記の実施例では
、相違度の演算に基づいて大分類が行われているが、類
似度と相違度とが反対の概念であることから、結局、類
似度の演算は相違度の演算を行うことと等価であり、当
然に、類似度に基づいて大分類を行う構成も、本発明の
範囲内のものである。また、上記の大分類などを含む文
字識別処理は、論理回路などにより構成されたハードウ
ェアにより実現してもよく、ソフトウェアにより実現し
てもよい。その他、本発明の要旨を変更しない範囲で種
々の設計変更を施すことが可能である。
【0044】
【発明の効果】以上のように本発明の文字認識装置によ
れば、辞書選択手段で選択された所定の範囲の文字につ
いて相違度の演算が行われ、この相違度演算に基づいて
、相違度の小さい文字が大分類の候補文字として選択さ
れる。このような上記所定の範囲の文字についての大分
類は、限定された個数の文字に関して行われるに過ぎな
いので、長時間を要することはない。
【0045】一方、辞書選択手段で選択されない範囲の
文字についても相違度の演算が行われるが、この相違度
の演算は、閾値設定手段で設定された閾値を上限として
行われる。そして、最終的に算出された相違度が閾値に
達しないときに、その文字が大分類の候補文字とされる
。したがって、辞書選択手段で選択された範囲外の文字
に関する大分類では、相違度計算が軽減されており、し
かもソート処理も行われない。このため、辞書選択手段
で選択されない範囲の文字に関する大分類もまた、短時
間で行える。
【0046】このようにして、認識用辞書に特徴量が格
納されている全ての文字に関して大分類を行っているに
もかかわらず大分類に要する時間を短時間に抑制するこ
とができる。しかも、全ての文字を対象として大分類を
行っているのであるから、大分類の結果として第2分類
手段から出力される候補文字の中には、確実に認識対象
の文字を含ませることができる。
【0047】このようにして、簡単な構成で、高速にし
かも確実に文字認識を行えるようになる。
【図面の簡単な説明】
【図1】本発明の文字認識装置の基本構成を示すブロッ
ク図である。
【図2】本発明の一実施例の文字認識装置の基本的な構
成を示すブロック図である。
【図3】文字輪郭線の抽出処理を説明するための図であ
る。
【図4】文字輪郭線の抽出処理を説明するための図であ
る。
【図5】認識用辞書に格納された全ての文字を、実際の
文字について検出した文字輪郭線長に基づいてソートし
た結果を示す図である。
【図6】辞書選択範囲決定部における選択範囲の決定処
理を説明するための図である。
【図7】第1ソート部でのソート処理を説明するための
図である。
【図8】第2相違度算出部での処理を説明するための図
である。
【図9】第2ソート部でのソート処理を説明するための
図である。
【図10】従来技術の基本的な構成を示すブロック図で
ある。
【図11】他の従来技術の基本的な構成を示すブロック
図である。
【図12】相違度に基づくソート処理を説明するための
図である。
【符号の説明】
21  被読取対象 22  画像信号取得手段 23  文字切出手段 24  特徴抽出手段 25  認識用辞書 26  辞書選択手段 27  第1相違度算出手段 28  第1分類手段 29  閾値設定手段 30  第2相違度算出手段 31  第2分類手段 32  詳細識別手段 33  候補文字決定手段 51  原稿 52  イメージスキャナ 53  文字切出部 54  特徴抽出部 55  第1相違度算出部 56  辞書選択範囲決定部 57  認識用辞書 58  第1辞書選択部 59  第1ソート部 60  第2ソート部 61  閾値設定部 62  第2相違度算出部 63  第2辞書選択部 64  詳細識別部 65  候補文字決定部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文字を含む被読取対象を表す画像信号を取
    得する画像信号取得手段と、取得された画像信号を、認
    識しようとする1文字単位の画像信号に分割する文字切
    出手段と、切り出した1文字分の画像信号から、所定の
    法則に従って当該文字の特徴量を抽出する特徴抽出手段
    と、文字の認識に必要な特徴量を認識可能な全ての文字
    のそれぞれに対応付けて記憶した認識用辞書と、上記特
    徴抽出手段で抽出された特徴量に基づいて、上記認識用
    辞書に記憶された文字のうち所定の範囲の文字を選択す
    る辞書選択手段と、上記特徴抽出手段で抽出された特徴
    量と、上記辞書選択手段によって選択された範囲内の各
    文字の特徴量との各相違度を算出する第1相違度算出手
    段と、この第1相違度算出手段での演算結果に基づいて
    、相違度が小さい方から所定の順位以内の文字を候補文
    字として出力する第1分類手段と、上記第1相違度算出
    手段での演算結果に基づいて、相違度が小さい方から所
    定の順位の文字の上記相違度を閾値として設定する閾値
    設定手段と、上記特徴抽出手段で抽出した特徴量と、上
    記辞書選択手段によって選択された範囲外の各文字に対
    応した特徴量との各相違度を上記閾値を上限として演算
    し、相違度が上記閾値に満たない文字を候補文字として
    出力するとともに、相違度の算出過程で上記閾値に達し
    た文字はその時点で相違度の演算を打ち切って候補文字
    から除外する第2相違度算出手段と、上記第1分類手段
    が出力した候補文字と、上記第2相違度算出手段が出力
    した候補文字とから、各候補文字に関して上記第1相違
    度算出手段または上記第2相違度算出手段で算出された
    各相違度に基づいて、相違度が小さい方から所定の順位
    以内の文字を候補文字として選定して出力する第2分類
    手段と、上記特徴抽出手段で抽出された特徴量と、上記
    第2分類手段から出力された各候補文字に対応する特徴
    量との比較演算を行い、候補文字をさらに選定する詳細
    識別手段と、この詳細識別手段で選定された候補文字か
    ら一の候補文字を所定の基準で選択して、当該選択され
    た文字の文字コードを出力する候補文字決定手段とを含
    むことを特徴とする文字認識装置。
JP3150509A 1991-06-21 1991-06-21 文字認識装置 Pending JPH04373090A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3150509A JPH04373090A (ja) 1991-06-21 1991-06-21 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3150509A JPH04373090A (ja) 1991-06-21 1991-06-21 文字認識装置

Publications (1)

Publication Number Publication Date
JPH04373090A true JPH04373090A (ja) 1992-12-25

Family

ID=15498422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3150509A Pending JPH04373090A (ja) 1991-06-21 1991-06-21 文字認識装置

Country Status (1)

Country Link
JP (1) JPH04373090A (ja)

Similar Documents

Publication Publication Date Title
US4903312A (en) Character recognition with variable subdivisions of a character region
US4757551A (en) Character recognition method and system capable of recognizing slant characters
US6335986B1 (en) Pattern recognizing apparatus and method
US5058182A (en) Method and apparatus for handwritten character recognition
US7519226B2 (en) Form search apparatus and method
US5410611A (en) Method for identifying word bounding boxes in text
US5539841A (en) Method for comparing image sections to determine similarity therebetween
EP0163377B1 (en) Pattern recognition system
KR100324847B1 (ko) 수신인명 리드장치와 우편물등 구분기 및 문자열 인식방법
US7233697B2 (en) Character recognition device and a method therefor
EP0385009A1 (en) Apparatus and method for use in image processing
EP0649113A2 (en) Multifont optical character recognition using a box connectivity approach
US6834121B2 (en) Apparatus for rough classification of words, method for rough classification of words, and record medium recording a control program thereof
US5621818A (en) Document recognition apparatus
JPH06501801A (ja) 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置
EP1073002B1 (en) Character extracting method
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JPH04373090A (ja) 文字認識装置
JP2005149395A (ja) 文字認識装置、ナンバープレート認識システム
JPH06501803A (ja) 抽出されたデータから特定の部分を分離して抽出することを含む文字認識方法
JP2571236B2 (ja) 文字切出し識別判定方法
KR930012139B1 (ko) 문자인식을 위한 자획추출방법
JPH0795336B2 (ja) 文字認識方式
JP4215385B2 (ja) パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0877293A (ja) 文字認識装置および文字認識用辞書作成方法