JPH01259477A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH01259477A
JPH01259477A JP63087129A JP8712988A JPH01259477A JP H01259477 A JPH01259477 A JP H01259477A JP 63087129 A JP63087129 A JP 63087129A JP 8712988 A JP8712988 A JP 8712988A JP H01259477 A JPH01259477 A JP H01259477A
Authority
JP
Japan
Prior art keywords
character
candidate
processing
post
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63087129A
Other languages
English (en)
Other versions
JP2895486B2 (ja
Inventor
Toshiaki Yagasaki
矢ヶ崎 敏明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP63087129A priority Critical patent/JP2895486B2/ja
Publication of JPH01259477A publication Critical patent/JPH01259477A/ja
Application granted granted Critical
Publication of JP2895486B2 publication Critical patent/JP2895486B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文字認識装置、特に入力文字を認識するための
識別手段の算出結果に基づいて、後処理の実行を制御す
る文字認識装置に関するものである。
[従来の技術] 従来、文字認識装置においては、まず入力文字を認識す
るための識別処理を実行し、該入力文字に対して複数の
候補文字を選出し、次に、識別処理で選出された複数の
候補文字から後処理によって単語辞書をアクセスし、も
つとも単語らしきものを最終候補文字として選出するこ
とがなされている。
第6図に従来の文字認識装置の構成図を示す。−スキャ
ナ等の画像入力部lOから入力された文字イメージは、
前処理部11による文字の切り出しや正規化等の前処理
の後、特徴抽出部12でベクトル等による特徴の抽出を
する。この特徴と予め格納された標準文字イメージの特
徴とを比較して、候補文字選出部13で候補文字が選出
される。候補文字は全て後処理部15に送られ、単語比
較部15aで前後の候補文字と共に予め格納された単語
パターンと比較され、最終文字選出部15bで最終文字
が認識結果として文字出力部16に出力される。   
[発明が解決しようとしている課題] しかしながら、上記従来例では、すべての入力文字に対
して、識別処理の後単語単位の後処理を実行するため、
単語が複数にまたがりさらに候補文字が複数個あるよう
な場合には、その組合せが多く処理時間の莫大な増加が
考えられる。さらに、組合せが多くなれば意味のある単
語も多くなり、得られた候補単語の中から最終結果を選
出するためには、別のパラメータも必要となってくるし
、文章単位で単語の関連性を考慮するような処理系も考
えなくてはならない。
前述の課題をさらに詳細に述べると第7図(a)、(b
)のようになる。つまり、第7図(a)のように入力文
字として“文字”というデータを入力すると、識別処理
において“文”は第1位候補文字として“文”、第2候
補文字として“丈”、以下複数個の候補文字が選出され
る。
“字”も同様に候補文字の選出が行われる。
次に、選出された候補文字は、上位から数文字(例えば
第5位まで)選出され後処理を実行する。そして、2文
字の組合せをつくり、組合せごとに単語辞書をアクセス
してマツチングをとる。この結果一致したものが単語候
補文字として選出され、その内の第一候補単語を出力す
る。
この場合、第7図(b)のように候補単語は、文字ごと
の候補順位の小さいほうの組合せが上位にくる。
ところが、上述したように例えば1文字に対して第5位
候補文字までを選出すると2文字で25通りの組合せが
あり、第10位までにすると100通りと組合せがべき
乗で増大する。そのため、処理スピードが極め′て遅く
なるばかりでなく、組合せにより単位辞書にマツチする
単語が増えると、1つの単語だけでなく文章単位の選択
という処理を考える必要があり、処理系も複雑になって
いく。
本発明は、前記従来例の欠点を除去し、簡単な構成で処
理速度を落すことなく、誤認識を少なくする文字認識装
置を提供する。
更に詳細には、無駄な演算あるいは識別処理をなくし、
且つ認識率を向上させる文字認識装置を提供する。
[課題を解決するための手段] この課題を解決するために、本発明の文字認識装置は、
入力パターンに従って識別された候補文字から、単語単
位の文字間の関連性により最終候補文字を選出する文字
認識装置において、前記識別された候補文字から予め後
処理を行う文字を選別する選別手段と、該選別手段によ
り選別された文字により、文字の関連性を評価する後処
理手段とを備える。
ここで、選別手段は、候補文字のエラー率を算出するエ
ラー率算出手段と、算出されたエラー率の大小に基づい
て、後処理手段への候補文字を選出する手段とを備える
又、選別手段は、前記識別時に算出された候補文字と第
2位以降の候補文字との距離計算値の差分を取る差分算
出手段と、該差分に応じて、後処理手段への候補文字を
選出する手段とを備える。
又、選別手段は、隣接する候補文字の前記識別時の距離
計算値の差分な取る差分算出手段と、該差分に応じて、
後処理手段への候補文字を選出する手段とを備える。
[作用] かかる構成において、文字の関連性を評価する後処理手
段には、選別手段により候補文字から予め選別された文
字のみが処理される。
この選別手段は、エラー率算出手段により算出されたエ
ラー率の値の大小に基づいて、後処理手段への候補文字
を選出する。
又、選別手段は、差分算出手段による前記識別時に算出
された候補文字と第2位以降の候補文字との距離計算値
の差分に応じて、後処理手段への候補文字を選出する。
又、選別手段は、差分算出手段による隣接する候補文字
の前記識別時の距離計算値の差分に応じて、後処理手段
への候補文字を選出する。
[実施例コ 第1図は本実施例の文字認識装置の構成図である。スキ
ャナ等の画像入力部10から入力された文字イメージは
、前処理部11による文字の切り出しや正規化等の前処
理の後、特徴抽出部12でベクトル等による特徴の抽出
をする。この特徴と予め格納された標準文字イメージの
特徴とを比較して、候補文字選出部13で候補文字が選
出されろ。候補文字は候補文字評価部14において、全
候補文字の中から後処理を行う候補文字を選択し、後処
理部15に送られる。単語比較部15aで前後の候補文
字と共に予め格納された単語パターンと比較され、最終
文字選出部15bで最終文字が認識結果として文字出力
部16に出力される。
尚、候補文字評価部14と文字出力部16を繋ぐ点線は
、候補文字評価部14での評価に従って後処理部15を
バイパス°する第1実施例を表している。
第2図は、本実施例の文字認識装置のハードウェア構成
を示す図である。図中、1は文書原稿の入力するスキャ
ナ、2は該スキャナを制御するスキャナ・インタフェー
スである。3は装置全体をコントロールするためのマイ
フロプロセッサ(CPU)、4はプログラムが格納され
ているプログラムメモリ。9はCPU3によりスキャナ
1が動作した場合に、該スキャナ1からの読み取ったイ
メージデータを格納しておくイメージメモリである。C
PU3は、該イメージメモリ9に格納された画像データ
から文字画像データを1文字づつ分離して、文字辞書5
に格納された文字イメージをアクセスし識別処理を行う
。その結果を評価した後、距離の小さい順(識別処理に
おける入力文字の確度の大きい順)に単語辞書6に格納
された単語を基に後処理を行う。
後処理では、入力した候補文字と、この前にすでに入力
してきている候補文字で単語をつくり、あり得る単語を
捜す。その結果は、CRT・インタフェース7を介して
CRT8に表示するような構成になっている。
く第1実施例〉 本実施例では、候補文字評価部14で、識別処理によっ
て得られた距離計算値に対してエラー率を算出し、該結
果に応じた処理系、例えば後処理を実行しなかったり、
それぞれの入力文字に対して異なる候補文字において後
処理の実行を行うものである。
第3図は本実施例の文字認識装置の処理フローチャート
である。ステップSIOの画像入力はのスキャナ1によ
って実行さhる。そしてイメージメモリ9に格納され、
ステップSllで文字の切出しが実行される。これによ
り1文字ずつに分離され、さらにステップS12で文字
辞書5に格納されている標準パターンの大きさに文字を
そろえるための正規化が実行される。正規化された文字
パターンは、情報収縮のためステップS13で文字辞書
5に格納されている文字サイズのものと同一のベクトル
空間に展開するための特徴抽出が実行される。
ステップS14でこの特徴抽出された特徴ベクトルと文
字辞書5による識別が実行される。
ステップS15では、該結果をもとにソーティングが実
行されて候補文字選出が行われ、ステップS16で前述
のエラー率が計算され、このエラー率を基にステップS
17で後処理の実行の有無が決定される。ステップS1
7.318では、エラー率が所定の値αより小さい候補
文字を選び、ステップS19で選ばれた候補文字に1つ
を後処理をせずに表示する。
尚、単語を形成する第1番目の文字のときは、ここでバ
ッファリングされ、次の文字候補の入力を待つ。第2番
目で複数の文字のときは、第1番目の文字とともに後処
理に送られる。この場合、第1位候補のみしか選出され
ないときは、後処理部15を経ないで単語が決定され表
示される。
ここでエラー率の求め方について説明する。
エラー率というのは事後確率であり理論的に求まる。事
後確率は、 sl となる。ここで、Wlはi番目の文字クラス、Xは特徴
ベクトルである。
すべての事前確率は等しいことを前提とすると、 J冨! i=1の場合は、第−位候補文字の事後確率どなる。
これから、ベイス識別のときは、 となる条件付き確率が得られる。ここで、g”’ (x
)は識別関数で、距離計算値をあてはめることにより、 エラー率は、 で求められる。従って、Parr>TIとして所定値T
、(フローチャートではαで示す)を与えることで本実
施例を実行する。
く第2実施例〉 本実施例では、候補文字評価部14で、それぞれの候補
文字と第1位候補文字との差分が計算される。そして、
この差分が所定の値より大きいところで候補文字の決定
を中止し、該差分の実行されるまえまでの候補文字が後
処理に送られる。
従って、ともに第1位候補のみしか選出されないときは
、後処理部には1文字だけとなる。
第4図は本実施例の処理フローチャートである。尚、ス
テップS16までは第3図のフローチャートと同様なの
で省く。ステップS21でn=2に初期設定され、ス°
テップS22で差分が計算される。ステップS23で差
分が所定値βより小さい場合は、ステップS24でnを
カウントアツプし、これを繰り返す。差分が所定値βよ
り大きくなると、ステップ325で後処理の実行の候補
文字数が決定され、ステップS26で表示される。
ここで、差分の求め方について説明する。差分は、エラ
ー率である事後確率から理論的に求まる。事後確率は、
前述した如く、  ml である。ここでは、式の簡略化を考慮して以下のように
する。
exp(−−g”’ (X)) P(wix) =□  ・ j峠   2 1+exp[−−(g” (x)−g”’ (x))]
+exp[−−(g” (x) ・・・ここで、g(J
l (x)は識別演算による演算結果であり、 g ” (x) −g ”’ (x)<72g”(x)
−g”’(x)<T。
のとき、エラー率が高くなる。つまり、これは第1位候
補文字と第2位候補文字との演算結果の差分、あるいは
第1位候補文字と第3位候補文字との演算結果の差分で
ある。これを各候補文字に対して実行する。従って、上
記T a 、 T 3の値を決定することで第1位と第
2位、第1位と第3位・・・の差分が所定より小さいと
き後処理を実行する構成とする。尚、T 2 、 T 
sは同一の値でもよい。
第2図(b)は本実施例の候補文字評価部14をハード
ウェアで実現したブロック図である。
候補文字選出部13でソーティングした全候補文字は、
カウンタ113に同期しながら1文字づつの候補文字メ
モリ111に格納される。格納された第1位候補文字は
、セレクタ112の切り換えで第1位データラッチ11
4と後処理用メモリ119に転送される。次降のデータ
は第2位以降データラッチ115へ転送され、減算器1
16で減算されたのち基準値118と比較され所定値以
下の場合のみゲート120が開いて、後処理メモリ11
9に転送される。この操作により、後処理メモリ119
には、基準値118のデータを越えた候補文字は転送さ
れないことになる。尚、通信路121は第3実施例のた
めのものである。
く第3実施例〉 本実施例においては、候補文字評価部14において、隣
接する候補文字との差分が計算される。
そして、この差分が所定の値より大きくなったところで
候補文字の決定を中止し、該差分の実行されるまえまで
の候補文字が後処理に送られる。
従って、ともに第1位候補文字のみしか選出されないと
きは、後処理部には第1位候補文字だけとなる。
本実施例においては、第1位と第2位、第2位と第3位
というように隣接成分の差分を計算することにより、後
者の文字(第2位、第3位)が前者の文字(第1位、第
2位)と比べてどれだけ近い値になっているかを調べる
ことに主眼をおいている。そのため、エラー率の計算値
の近さが検査される。つまり、候補文字の計算値が得ら
れた場合、第2位と第1位とが近く第3位と第1位とは
差分が大きいかもしれないが、第3位と第2位とは近い
という場合があるので、全体のエラー率ではある程度大
きくなっても、隣接成分の近さというものに重点を置き
候補文字を選出する。従って、第3位候補文字の決定の
仕方は、第2実施例で示した計算式で第1位候補文字を
除いて計算されたものと同じことになる。
第5図は本実施例の処理フローチャートである。尚、ス
テップS16までは第3図のフローチャートと同様なの
で省く。ステップS31でm=1に初期設定され、ステ
ップS32で差分が計算される。ステップS33で差分
が所定値γより小さい場合は、ステップS34でnをカ
ウントアツプし、これを繰り返す。差分が所定値βより
大きくなると、ステップS35で後処理の実行の候補文
字数が決定され、ステップS36で表示される。
第2図(b)は本実施例の候補文字評価部15をハード
ウェアで実現したブロック図である。
本実施例によると、候補文字選出部13によってソーテ
ィングされた候補文字データは、候補文字メモリ111
に格納される。格納が終了すると、1文字データごとセ
レクタ112を通して第1位候補文字は第1位データ・
ラッチ114に第2位以降は最初は第三位以降データ・
ラッチ115に送られる。
このとき減算処理116が実行されるときに、データ1
15は通信路121を通して、第1位データ・ラッチ1
14に送られる。この間、減算処理116を実行してい
るデータは、処理後基帛値118のデータと比較器11
7で大小関係が判定される。このとき、基準値118よ
り大きくなった時には、ゲート120を閉じ後処理メモ
リ119にはデータを送ならいようになっている。
つまり、第1位と第2位との差分、第2位と第3位との
差分・・・が引きつづき小さいときは、後処理メモリ1
19に候補文字が転送され、基準値を越えた時点でゲー
ト120が閉じられることになる。
以上説明した本実施例による効果をまとめてみると、 (1)エラー率を計算することにより第−位候補文字に
対して後処置の実行がなくなるため高速に ・なる。
(2)後処理による組合わせの回数が少なくなるため、
後処理による単語レベルの認識率の信頼性を向上する。
(3)組合せによる回数が少なくなるため高速性が保持
される。
(4)後処理の構成が簡略になる。つまり、複数の単語
レベルの候補文字の出てきた場合に前後関係の単語を考
慮しなくてはいけないが、その数が少なくなるために後
処理が簡単になる。
[発明の効果コ 本発明により、簡単な構成で処理速度を落すことなく、
誤認識を少なくする文字認識装置を提供できる。
更に詳細には、無駄な演算あるいは識別処理をなくし、
且つ認識率を向上させる文字認識装置を提供できる。
【図面の簡単な説明】
第1図は本実施例の文字認識装置のブロック構成図、 第2図(a)は本実施例の文字認識装置のハードウェア
構成図、 第2図(b)は本実施例の文字認識装置の候補文字評価
部の構成側図、 第3図は第1実施例の処理フローチャート、第4図は第
2実施例の処理フローチャート、第5図は第3実施例の
処理フローチャート、第6図は従来例の文字認識装置の
ブロック構成図、 第7図(a)、(b)は従来例の文字認識を説明する図
である。 図中、1・・・スキャナ、2・・・スキャナ・インタフ
ェース、3・・・CPU、4・・・プログラムメモリ、
5・・・文字辞書、6・・・単語辞書、7・・・CRT
・インタフェース、8・・・CRT、9・・・イメージ
メモリ、10・・・画像入力部、11・・・前処理部、
12・・・特徴抽出部、13・・・候補文字選出部、1
4・・・候補文字評価部、15・・・後処理部、15a
・・・単語比較部、15b・・・最終文字選出部、16
・・・文字出力部、20・・・候補文字選出部である。

Claims (4)

    【特許請求の範囲】
  1. (1)入力パターンに従つて識別された候補文字から、
    単語単位の文字間の関連性により最終候補文字を選出す
    る文字認識装置において、 前記識別された候補文字から予め後処理を行う文字を選
    別する選別手段と、 該選別手段により選別された文字により、文字の関連性
    を評価する後処理手段とを備えることを特徴とする文字
    認識装置。
  2. (2)選別手段は、候補文字のエラー率を算出するエラ
    ー率算出手段と、 算出されたエラー率の大小に基づいて、後処理手段への
    候補文字を選出する手段とを備えることを特徴とする請
    求項第1項記載の文字認識装置。
  3. (3)選別手段は、前記識別時に算出された候補文字と
    第2位以降の候補文字との距離計算値の差分を取る差分
    算出手段と、 該差分に応じて、後処理手段への候補文字を選出する手
    段とを備えることを特徴とする請求項第1項記載の文字
    認識装置。
  4. (4)選別手段は、隣接する候補文字の前記識別時の距
    離計算値の差分を取る差分算出手段と、該差分に応じて
    、後処理手段への候補文字を選出する手段とを備えるこ
    とを特徴とする請求項第1項記載の文字認識装置。
JP63087129A 1988-04-11 1988-04-11 文字認識方法及び装置 Expired - Lifetime JP2895486B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63087129A JP2895486B2 (ja) 1988-04-11 1988-04-11 文字認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63087129A JP2895486B2 (ja) 1988-04-11 1988-04-11 文字認識方法及び装置

Publications (2)

Publication Number Publication Date
JPH01259477A true JPH01259477A (ja) 1989-10-17
JP2895486B2 JP2895486B2 (ja) 1999-05-24

Family

ID=13906354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63087129A Expired - Lifetime JP2895486B2 (ja) 1988-04-11 1988-04-11 文字認識方法及び装置

Country Status (1)

Country Link
JP (1) JP2895486B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60134992A (ja) * 1983-12-23 1985-07-18 Hitachi Ltd 文字入力装置
JPS62202285A (ja) * 1986-03-01 1987-09-05 Ricoh Co Ltd パタ−ン認識の後処理方式
JPS6330991A (ja) * 1986-07-25 1988-02-09 Matsushita Electric Ind Co Ltd 文字認識装置
JPH01311390A (ja) * 1988-06-10 1989-12-15 Toshiba Corp 文字置換制御方式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60134992A (ja) * 1983-12-23 1985-07-18 Hitachi Ltd 文字入力装置
JPS62202285A (ja) * 1986-03-01 1987-09-05 Ricoh Co Ltd パタ−ン認識の後処理方式
JPS6330991A (ja) * 1986-07-25 1988-02-09 Matsushita Electric Ind Co Ltd 文字認識装置
JPH01311390A (ja) * 1988-06-10 1989-12-15 Toshiba Corp 文字置換制御方式

Also Published As

Publication number Publication date
JP2895486B2 (ja) 1999-05-24

Similar Documents

Publication Publication Date Title
CN108829757B (zh) 一种聊天机器人的智能服务方法、服务器及存储介质
US7689418B2 (en) Method and system for non-intrusive speaker verification using behavior models
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
US20200349464A1 (en) Multi-module and multi-task machine learning system based on an ensemble of datasets
US20040197013A1 (en) Face meta-data creation and face similarity calculation
CN107229627B (zh) 一种文本处理方法、装置及计算设备
US20200293807A1 (en) Adaptive image cropping for face recognition
US9355303B2 (en) Face recognition using multilayered discriminant analysis
CN110491375B (zh) 一种目标语种检测的方法和装置
CN110781677A (zh) 药品信息匹配处理方法、装置、计算机设备和存储介质
CN115687980A (zh) 数据表的脱敏分类方法、分类模型训练方法及装置
JP4665764B2 (ja) パターン識別システム、パターン識別方法、及びパターン識別プログラム
EP1470549A1 (en) Method and system for non-intrusive speaker verification using behavior models
JPH09245125A (ja) パターン認識装置及び同装置における辞書修正方法
JPH01259477A (ja) 文字認識装置
Çakmak et al. Audio CAPTCHA recognition using rastaplp features by svm
CN114723073B (zh) 语言模型预训练、产品搜索方法、装置以及计算机设备
Aoki Workload Based Model of Large Scale 1: N Biometrics Multi-Step Narrowing Down Process
JPH0256086A (ja) 文字認識の後処理方法
JP3930174B2 (ja) 文字認識方法および文字認識装置
CN117609611A (zh) 多模态信息处理方法、设备、存储介质及装置
JP2953706B2 (ja) パターン認識装置
JPH09138838A (ja) 文字認識方法およびその装置
CN112150251A (zh) 物品名称治理方法和装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080305

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 10