JPH06119497A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPH06119497A
JPH06119497A JP4263339A JP26333992A JPH06119497A JP H06119497 A JPH06119497 A JP H06119497A JP 4263339 A JP4263339 A JP 4263339A JP 26333992 A JP26333992 A JP 26333992A JP H06119497 A JPH06119497 A JP H06119497A
Authority
JP
Japan
Prior art keywords
character
kanji
similarity
recognition
outputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4263339A
Other languages
English (en)
Inventor
Tamotsu Maeda
保 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4263339A priority Critical patent/JPH06119497A/ja
Publication of JPH06119497A publication Critical patent/JPH06119497A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 高精度かつ高速な文字認識方法を提供する。 【構成】 1は画像入力部、2は文字切り出し部、3は
特徴抽出部、4は上記特徴データと非漢字辞書領域10
を照合し文字コードを出力する非漢字認識部、5は非漢
字認識部4による認識結果の信頼度を判定する信頼度判
定部、6は上記特徴データと漢字辞書領域11を照合し
文字コードを出力する漢字認識部、7は非漢字認識部4
と漢字認識部6の結果を比較して認識文字を判定する認
識文字決定部、8は非漢字認識部4あるいは漢字認識部
7の結果を出力する表示部である。 【効果】 非漢字辞書領域と照合した時点で認識文字が
正解である可能性が高いときは処理を打ち切り、それ以
外のときは漢字辞書領域との照合を行うため、一般の日
本語文書では認識精度を維持し、かつ処理速度を向上で
きる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字パターンを読み取
って、その文字パターンに対応する文字コードを出力す
る文字認識方法に関するものである。
【0002】
【従来の技術】日本語で書かれた一般的な文書において
使用される、漢字ののべ文字数と非漢字(平がな、片か
な、英数字、記号など)ののべ文字数を比較すると、ば
らつきはあるもののほぼ同程度である。特に、外来語が
多く使われる雑誌や技術系の文書などでは片仮名が多く
使われるために漢字ののべ文字数はさらに少ない。
【0003】これにもかかわらず、従来の文字認識装置
では文字パターンから抽出した特徴データを辞書中の全
ての文字カテゴリに対して照合していた。
【0004】
【発明が解決しようとする課題】上記の従来の方法で
は、どの文字に対しても辞書に登録された全文字カテゴ
リと照合するために多くの処理時間を要するという問題
点を有していた。
【0005】
【課題を解決するための手段】本発明は、上記問題点を
解決するため、入力文字パターンから抽出した特徴デー
タと辞書内の非漢字カテゴリに対する特徴データとの間
で類似度(あるいは距離、以下では類似度とだけ表記す
る)を計算し、この結果出力された認識文字が正解であ
る可能性が高い場合に処理を打ち切り、それ以外の場合
に漢字カテゴリに対して類似度を計算し、この類似度と
先に非漢字カテゴリから求めた類似度を比較して認識候
補文字を決定する。
【0006】
【作用】本発明は入力文字の特徴データを辞書内の非漢
字カテゴリに対する特徴データと照合した時点で認識文
字が正解である可能性が高いときは処理を打ち切り、そ
れ以外のときはさらに漢字カテゴリに対する特徴データ
との照合を行いこのときの類似度と非漢字カテゴリとの
照合から求めた類似度に対して認識文字を出力するた
め、一般の日本語文書では従来と同等の認識精度を維持
し、かつ処理速度を向上できる。
【0007】
【実施例】図1は本発明の一実施例における文字認識方
法を用いた文字認識装置の機能ブロック図を示すもので
ある。図1において1は文書を光電変換して2値化デー
タとしてRAM(ランダム・アクセス・メモリ)101
中の画像領域102に記憶させる画像入力部、2は上記
2値化データから文字部分を切り出す文字切り出し部、
3は文字切り出し部2により切り出された文字パターン
から特徴データを抽出する特徴抽出部、4は上記特徴デ
ータと辞書9の非漢字辞書領域10を照合し文字コード
を出力する非漢字認識部、5は非漢字認識部4による認
識結果の信頼度を判定し信頼度が高ければ処理を打ち切
って結果を表示部8に出力し、それ以外のときは漢字認
識部6に非漢字認識部4の結果を出力する信頼度判定
部、6は上記特徴データと辞書9の漢字辞書領域11を
照合し文字コードを出力する漢字認識部、7は非漢字認
識部4と漢字認識部6の結果を比較して認識文字を判定
する認識文字決定部、8は非漢字認識部4あるいは漢字
認識部7の結果を出力する表示部である。
【0008】図2は本実施例の文字認識方法を用いた文
字認識装置の構成を示すブロック図である。ここで10
0は文書を読み取るイメージスキャナであり、読み取っ
た文書をビットデータにして出力する。101はRAM
であり、イメージスキャナ100からのビットデータを
記憶する画像領域102、画像領域102内の画像から
抽出した文字領域の外接長方形の座標を記憶する文字パ
ターン領域103、文字パターン領域103で示される
画像領域102内の文字パターンから抽出した特徴デー
タを記憶する特徴データ領域104、特徴データ領域1
04の内容と漢字辞書領域10または非漢字辞書領域1
1を照合した文字コードを記憶する文字コード領域10
5、処理で使用するカウンタ等を記憶する作業領域10
6を有している。108はROM(リード・オンリー・
メモリ)であり、漢字カテゴリに対応する辞書を記憶す
る漢字辞書領域10、漢字以外の文字カテゴリに対応す
る辞書を記憶する非漢字辞書領域11、及び図3に示す
フローチャートに従った制御プログラムを記憶したプロ
グラム記憶領域111を有する。107はプログラム記
憶領域111に記憶された制御プログラムに従って処理
を行う処理回路である。113は命令やデータを入力す
るためのキーボードであり、112は文字パターン領域
103内の文字パターン領域105内の文字コード、ま
たはこれに対応する文字フォントを表示する表示部であ
る。
【0009】以上のように構成された文字認識装置の認
識文字の修正方法について図3のフローチャートに従っ
て説明する。
【0010】ステップS1で、画像入力部1により読み
込まれた文書画像から切り出された文字パターンから特
徴データを抽出する。ここで使用する特徴データはたと
えば文字の濃淡・輪郭・背景・方向等何でもよい。
【0011】ステップS2で、この特徴データを辞書9
の非漢字辞書領域10と照合して類似度を計算する。
【0012】ステップS3で、類似度の最大値ρ1、こ
のときの文字カテゴリa、2番目に大きい類似度ρ2を
求める。以下では、類似度が最大の文字カテゴリを第1
候補文字、2番目に大きい文字カテゴリを第2候補文字
とよぶ。
【0013】ステップS4で、非漢字辞書領域10によ
る第1候補文字が正しいか否かを判断するために、第1
候補文字の類似度ρ1がしきい値α以上で、かつ第1候
補文字の類似度ρ1と第2候補文字の類似度ρ2の差が
しきい値β以上という条件を満足するかどうかを調べ
る。この条件を満足する場合は非漢字辞書領域10での
認識により正解文字が得られたと判断して処理を打ち切
りステップS9に進む。満足しない場合は漢字辞書領域
11による認識結果と比較した後で認識文字を判断する
ためにステップS5に進む。なお、αとβは不正解文字
がこの条件を満足しないように余裕をみて大きめに決め
ておく方がよい。類似度の差の代わりにρ1とρ2の比
を使ってもよい。しきい値を用いる代わりにρ1とρ2
を入力、第1候補文字の正解/不正解を出力とする関数
f(ρ1−ρ2)を使用してもよい。たとえば、ρ1と
(ρ1−ρ2)の分布は図4のように共に値が小さいほ
ど不正解が多い相関関係がみられるが、正解と不正解の
境界を4次曲線ρ1=g(ρ1−ρ2)で近似すると、
第1候補文字が正解のときはρ1は曲線の上、不正解の
ときは下にあるから、関数f(ρ1−ρ2)はg(ρ1
−ρ2)≦ρ1のときf(ρ1−ρ2)=1(正解)、
g(ρ1−ρ2)>ρ1のときf(ρ1−ρ2)=0
(不正解)と定義できる。ここで、g(ρ1−ρ2)=
A*(ρ1−ρ2)**4+B*(ρ1−ρ2)**3
+C*(ρ1−ρ2)**2+D*(ρ1−ρ2)+E
とおき、境界付近のρ1とρ2を5点以上代入すれば定
数A、B、C、D、Eを決定できる。関数f(ρ1−ρ
2)は4次曲線以外の曲線・直線あるいは神経回路網等
を使用してもよい。
【0014】ステップS5で、ステップS1で求めた特
徴データを辞書9の漢字辞書領域11と照合して類似度
を計算する。
【0015】ステップS6で、類似度の最大値ξ1、こ
のときの文字カテゴリbを求める。ステップS7で、ξ
1<ρ1かどうかを判定し、小さいときはステップS9
に、それ以外はステップS8に進む。この条件は、漢字
辞書領域11で照合したときの最大類似度ξ1が非漢字
辞書領域10での最大類似度ρ1より小さければ非漢字
カテゴリが、大きければ漢字カテゴリが正解であるとい
う処理をするためのものである。
【0016】ステップS8では漢字カテゴリである文字
カテゴリbを出力する。ステップS9では非漢字カテゴ
リである文字カテゴリaを出力する。
【0017】認識対象例題文字列パターン「日本と比べ
ると」を例に、図5を用いて以下その動作を説明する。
まず、画像入力部1および文字切り出し部2で1文字毎
に分離された文字パターンのうち、「日」という文字パ
ターンから特徴抽出部3により特徴データを抽出する。
次に非漢字認識部4により非漢字辞書領域10との照合
を行い、「B」という第1候補文字aとその類似度ρ1
および第2候補文字の類似度ρ2が出力される。しきい
値をα=80、β=10と設定する。信頼度判定部5に
よると「日」ではρ1=75、ρ2=50であるからス
テップS4の条件を満足しないことがわかる。そこで漢
字認識部により漢字辞書領域11との照合を行うと、第
1候補文字「日」の類似度ξ1=95が得られる。最後
に、認識文字決定部7によりρ1とξ1の大きい方を正
解とすると、「日」が最終的な認識文字として決定され
る。「本」という文字も同様に処理される。
【0018】文字「と」ではρ1=96、ρ2=75で
あり、信頼度判定部5によりステップS4の条件を満た
すことが分かるので、第1候補文字a=「と」を最終的
な認識文字として出力する。
【0019】他の文字も同様に処理される。以上のよう
に本実施例によれば、非漢字認識部4、信頼度判定部
5、漢字認識部6および認識文字判定部7を設けること
により、入力文字の特徴データを非漢字辞書領域と照合
した時点で認識文字が正解である可能性が高いときは処
理を打ち切り、可能性が高くないときはさらに漢字辞書
領域との照合を行いこのときの類似度と非漢字辞書領域
から求めた類似度に対して認識文字を出力するため、一
般の日本語文書では認識精度を維持し、かつ処理速度を
向上できる。
【0020】
【発明の効果】本発明は入力文字の特徴データを非漢字
辞書領域と照合した時点で認識文字が正解である可能性
が高いときは処理を打ち切り、可能性が高くないときは
さらに漢字辞書領域との照合を行いこのときの類似度と
非漢字辞書領域から求めた類似度に対して認識文字を出
力するため、一般の日本語文書では認識精度を維持し、
かつ処理速度を向上できる。
【図面の簡単な説明】
【図1】本発明の一実施例における文字認識方法を用い
た文字認識装置の構成図
【図2】本実施例を用いた文字認識装置のブロック図
【図3】本実施例の処理の流れを説明するフローチャー
【図4】認識文字の類似度の分布を説明するための図
【図5】本実施例による処理の例を示す説明図
【符号の説明】
1 画像入力部 2 文字切り出し部 3 特徴抽出部 4 非漢字認識部 5 信頼度判定部 6 漢字認識部 7 認識文字決定部 8 表示部 9 辞書 10 非漢字領域 11 漢字領域

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文字パターンから抽出した特徴データと辞
    書内に登録したデータとの間で類似度あるいは距離を計
    算し、類似度が最大である文字あるいは距離が最小であ
    る文字を出力することにより文字を認識する文字認識方
    法において、 上記特徴データを上記辞書内の漢字以外の文字種に対応
    するデータとの間で文字認識を行い第1候補文字の文字
    コードと類似度あるいは距離および第2候補文字の類似
    度あるいは距離を出力し、 第1候補文字の類似度あるいは距離と第2候補文字の類
    似度あるいは距離の絶対値、大小関係、相関関係、差あ
    るいは比を用いて当該文字コードが正解であるかの判断
    を行い、 正解であると判断した場合は処理を打ち切り、それ以外
    の場合は上記辞書内の漢字に対応するデータとの間で文
    字認識を行い第1候補文字の文字コードと類似度あるい
    は距離を出力し、 類似度と類似度のうち大きい方に対応する文字コードあ
    るいは距離と距離のうち小さい方に対応する文字コード
    を出力することを特徴とする文字認識方法。
JP4263339A 1992-10-01 1992-10-01 文字認識方法 Pending JPH06119497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4263339A JPH06119497A (ja) 1992-10-01 1992-10-01 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4263339A JPH06119497A (ja) 1992-10-01 1992-10-01 文字認識方法

Publications (1)

Publication Number Publication Date
JPH06119497A true JPH06119497A (ja) 1994-04-28

Family

ID=17388103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4263339A Pending JPH06119497A (ja) 1992-10-01 1992-10-01 文字認識方法

Country Status (1)

Country Link
JP (1) JPH06119497A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004046315A (ja) * 2002-07-09 2004-02-12 Canon Inc 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JP2006092138A (ja) * 2004-09-22 2006-04-06 Oki Electric Ind Co Ltd 複数の認識辞書を利用した文字認識装置
JP2008059248A (ja) * 2006-08-31 2008-03-13 Star Micronics Co Ltd 磁気インク文字読取装置及びその制御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004046315A (ja) * 2002-07-09 2004-02-12 Canon Inc 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JP2006092138A (ja) * 2004-09-22 2006-04-06 Oki Electric Ind Co Ltd 複数の認識辞書を利用した文字認識装置
JP2008059248A (ja) * 2006-08-31 2008-03-13 Star Micronics Co Ltd 磁気インク文字読取装置及びその制御方法

Similar Documents

Publication Publication Date Title
JPH11194793A (ja) 音声ワープロ
JPH06119497A (ja) 文字認識方法
JPS592191A (ja) 手書き日本語文の認識処理方式
JP3812719B2 (ja) 文書検索装置
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3659688B2 (ja) 文字認識装置
JPS63150788A (ja) 文字認識装置
JP3151866B2 (ja) 英文字認識方法
JP2851102B2 (ja) 文字切出し方法
JPS60138689A (ja) 文字認識方法
KR930000035B1 (ko) 자획의 폭 변화에 의한 고딕체 한글자소의 특징 추출방법
JPH0433083A (ja) パターン識別装置
JP3595081B2 (ja) 文字認識方法
JP2972443B2 (ja) 文字認識装置
JPH01171080A (ja) 誤り自動訂正文字認識装置
JPS6120180A (ja) 光学的文字認識装置
JP2851865B2 (ja) 文字認識装置
JPH06231310A (ja) 文字認識装置における文字認識方法
JPH0562020A (ja) 文字認識装置
JPH1011542A (ja) 文字認識装置
JP2006338682A (ja) 文書校正装置およびプログラム記憶媒体
JPH02292691A (ja) 文字認識装置
JPS6081688A (ja) 情報認識方式
JPS60110089A (ja) 文字認識装置
JPH10198764A (ja) 文字列認識装置および知識データベース学習方法