JPH02186484A - 認識辞書の学習方式 - Google Patents

認識辞書の学習方式

Info

Publication number
JPH02186484A
JPH02186484A JP1005823A JP582389A JPH02186484A JP H02186484 A JPH02186484 A JP H02186484A JP 1005823 A JP1005823 A JP 1005823A JP 582389 A JP582389 A JP 582389A JP H02186484 A JPH02186484 A JP H02186484A
Authority
JP
Japan
Prior art keywords
character
recognition dictionary
feature
recognition
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1005823A
Other languages
English (en)
Inventor
Michiyoshi Tachikawa
道義 立川
Takakuni Minewaki
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1005823A priority Critical patent/JPH02186484A/ja
Publication of JPH02186484A publication Critical patent/JPH02186484A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は1文字認識システムにおける文字認識のだめの
辞書(認識辞書)の学習方式に関する。
〔従来の技術と発明が解決しようとする課題〕従来、文
字認識システムの認識辞書は、システム提供メーカにお
いて、大型計算機などを用いた専用の処理システムを使
用して作成し、これを標準辞書として文字!!!識シス
テムの利用者に提供している。
このようにして提供される標準的な認識辞書は、必ずし
も全ての文字認識システムの利用者に最適ではなく、シ
ばしば認識辞書の変更・修正あるいは専用辞書の作成が
必要となる。しかし5文字認識システムの利用者は、一
般に辞書作成のための専用処理システムを持たないため
、認識辞書の修正・変更や専用辞書の作成をシステム提
供メーカに依頼しなければならず、かなりの費用と時間
がかかり、認識辞書を頻繁に更新することは実際上不可
能であった。
本発明の目的は5文字認識システムにおいて、システム
利用者が簡単に認識辞書の修正・変更を行う方式を提供
することにある。
〔課題を解決するための手段〕
本発明は1文字L&識システムにおいて、認WtN果中
のリジェクト文字または誤認文字の修正時に。
リジェクト文字または誤認文字のパターンの特徴量と、
このリジェクト文字または誤認文字の正解文字に対応す
る認識辞書内あるいはフォント別特徴量ファイル内の特
徴量との合成によって新しい特徴量を生成し、この新し
い特徴量を認識辞書内の特徴量と入れ替えるか、または
認識辞書に追加することを特徴とするものである。
〔作 用〕
このように本発明によれば、リジェクト文字または誤認
文字の修正の際に1文字認識システム自体で認識辞書の
学習(修正・変更)を行うため、外部へ依頼したり専用
システムを使用せずに、したがって簡単・迅速に、かつ
格別の費用を要せずに5個々のシステム利用者に最適な
認識辞書を獲得し、認識率を向上させることが可能とな
る。
また、リジェクト文字または誤認文字のパターンから抽
出した特徴量をそのまま!!識辞書に追加したり、ある
いは、その特徴量で認識辞書を書き換えた場合、文字パ
ターンの変動がそのまま認識辞書に反映されてしまい、
−膜性のない認識辞書になる恐れがある。
これに対し、本発明によれば、認識辞書の特徴量と入れ
替えられる。または認識辞書に追加される特徴量は、リ
ジェクト文字または誤認文字のパターンの特徴量と、認
識辞書またはフォント別特徴景ファイルに格納されてい
る正解文字の特徴量との合成によって生成されるもので
あるから、適切な合成方法とすることにより文字パター
ンの変動を適度に吸収し、認識辞書の一般性を損なわな
い学習が可能である。
〔実施例〕 以下、図面を用い本発明の詳細な説明する。
本発明の各実施例に係る文字認識システムは。
第1図に示すように、文字認識装置(OCR)1とホス
トコンピュータ2とを接続してなる。ただし、文字認識
装置1とホストコンピュータ2とを物理的に一体化して
もよい。
文字認識装置1は認識対象の文書などの画像データを読
み取るスキャナー3、この画像データを蓄積し文字切出
し・正規化などの前処理を行う前処理部4.前処理後の
文字パターンの特徴量を抽出する特徴抽出部5、抽出さ
れた特徴量と認識辞書との比較照合を行うマツチング部
6.認識辞書を記憶する認識辞書メモリ7、文字認識装
置内の各部の制御およびホストコンピュータ2との通信
などを行う制御部8より構成されている。
ホストコンピュータ2はCPUIQ、メインメモリ11
、デイスプレィ12.キーボーg13、補助メモリ14
より構成されている。メインメモリ11には認識結果の
修正処理などの従来と同様の各種処理プログラム20、
処理データなどが記憶される。この各種処理プログラム
2oに1本発明に係わる認識辞書の学習処理のためのプ
ログラムも含まれている。ホストコンピュータ2は補助
メモリ14上に認識辞書21を持っている。このL!!
識辞書21がシステム立ち上げ時に文字認識装置l内の
認識辞書メモリ7にロードされる。
ここまで説明したシステム構成は各実施例に共通である
。以下、各実施例について別々に説明する。
実施例1 認識辞書21は文字毎の文字コードと特徴量のほかに、
辞書作成に用いられたパターン数(またはフォント数)
を持っており、例えば第2図および第3図に示す構造の
ものである。なお、第2図の構造においては認識辞書全
体の作成に用いられたパターン数(またはフォント数)
Nを持ち、第3図の構造においては個々の文字毎に辞書
作成に用いられたパターン数(またはフォント数)Na
N h * N Q +・・・を持っている。
次に、リジェクト文字または誤認文字の修正処理と認識
辞書の学習処理について説明する。
文字認識装置1において、スキャナー3によって入力さ
れた文書の文字パターンの特徴量を特徴抽出部5によっ
て抽出し、マツチング部6によって、この特徴量と認識
辞書メモリ7内の認識辞書との比較・照合を行い、距離
の小さい順に候補を選ぶ、各入力文字に対して最終的に
誤られた候補のデータ(文字コードまたはリジェクトコ
ード)は、認識結果として制御部8によりホストコンピ
ュータ2へ転送される。
ホストコンピュータ2においては、この認識結果をメイ
ンメモリ11に一時的に記憶するとともに、デイスプレ
ィ12の画面に表示させる。
第4(a)は画面表示の例であり、■印はリジェクト文
字、○印で囲んだ文字は誤認文字である。
オペレータはキーボード13によってデイスプレィ12
の画面上のリジェクト文字または誤認文字を指定し、そ
の正解文字のコードを入力するという対話的処理によっ
て、メインメモリ11内のP!識結果の修正を行う、こ
の修正により画面表示も更新されるため、第4図(a)
の画面は修正後は第4図(b)に示す画面になる。この
ような修正処理はCPUl0によるプログラム処理であ
る。
ここまでの動作は従来システムと同様であるが。
本実施例のシステムにおいては、リジェクト文字または
誤認文字の修正と同時に認識辞書21の学習処理(CP
UIOによるプログラム処理)も実行される。第5図は
この学習処理のフローチャートである。
一つのリジェクト文字または誤認文字の修正がなされる
と、このリジェクト文字または誤認文字のパターンから
抽出された特徴量の転送指令がCPUl0より文字認識
装置1の制御部8へ出される。制御部8はこの指令に応
答して、その特徴量Foのデータを特徴抽出部5より受
は取ってホストコンピュータ2へ転送する。この特徴デ
ータはメインメモリ11に格納される。これがステップ
■である。
次にCPU1.Oでは、リジェクト文字または誤認文字
の正解文字(オペレータにより指定された文字)に対応
する認識辞書21内の特徴量Fおよびパターン数(また
はフォント数)Mを補助メモリ14より読み込み、学習
後の特徴MF’ を次式により求める(ステップ■)。
F’=(Fo+MXF)/(L+M)   −−・ci
)(Mは第2図のNまたは第3図のNiである)次にC
PUl0は、学習後の特徴量F′ (これ迄の特徴量と
人力文字から抽出された特徴量とを合成した新しい特徴
量)を認識辞書21に追加するか、あるいは前の特徴量
と入れ替える。これがステップ■である。
このようにして、一つの文字について認識辞書21の学
習が終了する。
ここで、(1)式について説明する。リジェクト文字ま
たは誤認文字のパターンから抽出した特徴1(FO)を
新しい特徴ffl (F’ )としてそのまま用いた場
合は、認識辞書21の一般性が損なわれる恐れが大きい
、抽出特徴1(Fo)と前の特徴jil (F)との単
純平均によって新しい特徴量(I”’)を合成すれば、
そのような恐れは減るが。
それでもリジェクト文字または誤認文字のパターンの変
形が極端なときなどに、新しい特徴量(F′)が不適切
なものとなって認識辞書21の一般性が失われる恐れが
かなりある。
これに対し、辞書作成に用いられたパターン数(または
フォント数)を導入した(1)式により合成された新し
い特徴M (F’ )は、リジェクト文字または誤認文
字のパターンが極端に変形したときでも、その影響はパ
ターン数(またはフォント数)で平均化され緩和される
ため、上のようなIm題の発生を避けることができる。
なお、認識辞書メモリ7はシステム立ち上げ時に書き換
えられるので、学習処理では認識辞書21の書き換えだ
けが行われる。ただし、学習処理で!?(識辞丑メモリ
7を傅き換えてもよい。
実施例2 この実施例においては、学習処理において新しい特徴量
F′を次式により求めることが実施例1と違う。
F’ = (F’o+RXF)/ (L+R)   −
(2)ここでR(≧0)は合成比率であって、キーボー
ド13より指定されてメインメモリll上に記憶される
か、あるいは学習処理プログラム(20)に予め設定さ
れる。
実施例1では、認識辞書作成に用いられたパターン数(
またはフォント数)で特徴量の平均化を行うので、上に
述べたように極端な変形パターンによる悪影響を避ける
ことができる。しかし反面、この平均化のために、辞書
作成に用いられたパターン数(またはフォント数)が大
きいと、リジェクト文字または誤認文字の特徴量が合成
後の新しい特徴音に充分反映しない恐れもある。
これに対し、この実施例2においては、合成比率Rを適
切に選べば、極端なパターン変形による過度な影響を避
け、かつ辞書作成に使用したパターン数(フォント数)
が大きくても、リジェクト文字または誤認文字の特徴量
を必要充分に反映させた新しい特徴量を合成できる。
なお、この実施例2においては、認識辞書21にパター
ン数(またはフォント数)を持たせる必要はない。
実施例3 ホストコンピュータ2は、認識辞書21とは別に、フォ
ント別の特徴量ファイル22を補助メモリ14上に持っ
ている。この特徴量ファイル22は、認識辞書21の1
次辞書であり、例えば、各フォントの原稿を文字認識装
置1に入力し、各文字の特徴量を抽出させてホストコン
ピュータ2へ転送させ、ホストコンピュータ2において
、その特徴量をフォント別にファイル化することによっ
て作成される。当初の認a+!!辞書21は、特徴量フ
ァイル22に格納されている特徴量を合成する(例えば
後述の(3)式のような平均をとる)ことによって作成
される。
この実施例においても、リジェクト文字または誤認文字
の修正時に認識辞書21の学習処理が行われる。この学
習処理は前記各実施例と基本的に同じであるが、1次辞
書であるフォント別特徴斌ファイル22を用い、次式に
よって新しい特徴量F′を合成することが違う。
F’ = (F’o+Fi+・・・Fn)/ (n+1
)・・・(3) ここで、Foはリジェクト文字または誤認文字のパター
ンより抽出された特徴量、Fユ、F2.・・・Fnはそ
の文字の正解文字に対する各フォント別特徴量ファイル
22(ここではフォント種類がn)に格納されている特
徴量である。
なお、フォント別特徴址ファイル22の選択情報をキー
ボード13などから入力し、この選択情報によって指定
されたフォントの特徴量ファイル22内の特徴量だけを
用いて(3)式に従って新しい特徴量を合成してもよい
、ただし、(3)式中のnは選択した特徴量ファイル2
2の個数に応じて増減することになる。このようにすれ
ば、特徴量ファイル22の選択ないし組合せによって、
1種類または複数種類の特定のフォントに対する認識率
を高めた認識辞書21を得ることができる。
実施例4 認識辞書21の学習処理において、新しい特徴量F′を
次式に従って合成する。これ以外は実施例3と同様であ
る。
F’ = (Fo+R/nXΣFi)/(1+R)・・
・(4) ここで、Fiはフォント(i)の特徴量ファイル22内
の特徴量である、またR(≧0)は実施例2と同様の合
成比率であり、キーボード13などによって指定される
か、予めプログラム中に設定される。
この実施例は実施例2と同様の利点がある。
なお、この実施例においても、実施例3におけると同様
に認識辞lF21の学習に用いるフォント別特徴量ファ
イル22を選択情報によって選択してもよい。
〔発明の効果〕
以」二説明したように1本発明によれば、リジェクト文
字または誤認文字の修正時に認m辞傅の学習が文字認識
システムにおいて行われるため、システム利用考は最適
な認識辞書を簡単・迅速に。
かつ格別の費用を要せずに獲得し、文字認識システムの
認識率を向上させることができる。
【図面の簡単な説明】
第1図は本発明の各実施例に係る文字認識システムの概
略構成図、第2図および第3図はそれぞれ認識辞書の構
造の説明図、第4図は認識結果の修正前後の画面表示の
例を示す図、第5図は認識辞書の学習処理の概略フロー
チャートである。 1・・・文字認識装置L(OCR)、 2・・・ホストコンピュータ、 3・・・スキャナー5
・・・特徴抽出部、  6・・・マツチング部。 7・・・認識辞芹メモリ、 8・・・制御部、10・・
・CPU、  11・・・メインメモリ。 12・・・デイスプレィ、  13・・・キーボーF、
14・・・補助メモリ、 21・・・認識辞書、22・
・・フォント別特8i量ファイル。 第1図 7オ二F月オキrt文1ヒフTメレ 第2図 第3 図 蘂4 図 (a) (ト) O51,け認良色 第5図

Claims (7)

    【特許請求の範囲】
  1. (1)文字認識システムにおいて、認識結果中のリジェ
    クト文字または誤認文字の修正時に、リジェクト文字ま
    たは誤認文字のパターンの特徴量と、このリジェクト文
    字または誤認文字の正解文字に対応する認識辞書内の特
    徴量との合成によって新しい特徴量を生成し、この新し
    い特徴量を認識辞書内の特徴量と入れ替えるか、または
    認識辞書に追加することを特徴とする認識辞書の学習方
    式。
  2. (2)リジェクト文字または誤認文字のパターンの特徴
    量Fo、認識辞書内の正解文字に対する特徴量F、この
    特徴量Fの作成または認識辞書内の全文字の特徴量の作
    成に使用されたパターン数またはフォント数Mにり、新
    しい特徴量F′を式 F′=(Fo+M×F)/(1+M) に従って合成することを特徴とする請求項(1)記載の
    認識辞書の学習方式。
  3. (3)リジェクト文字または誤認文字のパターンの特徴
    量Fo、認識辞書内の正解文字に対する特徴量F、合成
    比率Rより、新しい特徴量F′を式 F′=(Fo+R×F)/(1+R) に従って合成することを特徴とする請求項(1)記載の
    認識辞書の学習方式。
  4. (4)文字認識システムにおいて、認識結果中のリジェ
    クト文字または誤認文字の修正時に、リジェクト文字ま
    たは誤認文字のパターンの特徴量と、このリジェクト文
    字または誤認文字の正解文字に対応するフォント別特徴
    量ファイル内の特徴量との合成によって新しい特徴量を
    生成し、この新しい特徴量を認識辞書内の特徴量と入れ
    替えるか、または認識辞書に追加することを特徴とする
    認識辞書の学習方式。
  5. (5)リジェクト文字または誤認文字のパターンの特徴
    量Fo、n種のフォント別の特徴量ファイル内の正解文
    字に対する特徴量Fiより、新しい特徴量F′を式 F′=(Fo+ΣFi)/(n+1) に従って合成するこを特徴とする請求項(4)記載の認
    識辞書の学習方式。
  6. (6)リジェクト文字または誤認文字のパターンの特徴
    量Fo、n種のフォント別の特徴ファイル内の正解文字
    に対する特徴量Fi、合成比率Rより、新しい特徴量F
    ′を式 F′=(Fo+R/n×ΣFi)/(1+R)に従って
    合成することを特徴とする請求項(4)記載の認識辞書
    の学習方式。
  7. (7)複数のフォント別特徴量ファイルにより選択情報
    に従って選択したフォント別特徴量ファイル内の特徴量
    だけを新しい特徴量の合成に使用することを特徴とする
    請求項(5)または(6)記載の認識辞書の学習方式。
JP1005823A 1989-01-12 1989-01-12 認識辞書の学習方式 Pending JPH02186484A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1005823A JPH02186484A (ja) 1989-01-12 1989-01-12 認識辞書の学習方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1005823A JPH02186484A (ja) 1989-01-12 1989-01-12 認識辞書の学習方式

Publications (1)

Publication Number Publication Date
JPH02186484A true JPH02186484A (ja) 1990-07-20

Family

ID=11621793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1005823A Pending JPH02186484A (ja) 1989-01-12 1989-01-12 認識辞書の学習方式

Country Status (1)

Country Link
JP (1) JPH02186484A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680331B2 (en) 2004-05-25 2010-03-16 Fuji Xerox Co., Ltd. Document processing device and document processing method
WO2010100687A1 (ja) * 2009-03-06 2010-09-10 パナソニック株式会社 画像検索装置及び画像検索方法
JP2010231256A (ja) * 2009-03-25 2010-10-14 Hitachi Ltd データ認識装置、データ認識方法及びプログラム
JP2013509664A (ja) * 2009-11-02 2013-03-14 ビーデージービー・エンタープライズ・ソフトウェア・エスエーアールエル 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法
US9141691B2 (en) 2001-08-27 2015-09-22 Alexander GOERKE Method for automatically indexing documents
US9159584B2 (en) 2000-08-18 2015-10-13 Gannady Lapir Methods and systems of retrieving documents
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159584B2 (en) 2000-08-18 2015-10-13 Gannady Lapir Methods and systems of retrieving documents
US9141691B2 (en) 2001-08-27 2015-09-22 Alexander GOERKE Method for automatically indexing documents
US7680331B2 (en) 2004-05-25 2010-03-16 Fuji Xerox Co., Ltd. Document processing device and document processing method
WO2010100687A1 (ja) * 2009-03-06 2010-09-10 パナソニック株式会社 画像検索装置及び画像検索方法
JP2010211261A (ja) * 2009-03-06 2010-09-24 Panasonic Corp 画像検索装置及び画像検索方法
US8401254B2 (en) 2009-03-06 2013-03-19 Panasonic Corporation Image search device and image search method
JP2010231256A (ja) * 2009-03-25 2010-10-14 Hitachi Ltd データ認識装置、データ認識方法及びプログラム
JP2013509664A (ja) * 2009-11-02 2013-03-14 ビーデージービー・エンタープライズ・ソフトウェア・エスエーアールエル 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法
US9152883B2 (en) 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks

Similar Documents

Publication Publication Date Title
JPH02186484A (ja) 認識辞書の学習方式
JP3437037B2 (ja) 文字パターン生成装置
JP2568180B2 (ja) 画像処理方法
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JP2020126485A (ja) 情報処理装置及びプログラム
JP7401202B2 (ja) 画像処理装置、その制御方法、及びプログラム
JP3528249B2 (ja) 文書処理装置
JP4276402B2 (ja) 帳票処理装置
JP3792171B2 (ja) 文字パターン生成装置
JP4261831B2 (ja) 文字認識処理方法、文字認識処理装置、文字認識プログラム
JP2006178543A (ja) 画像処理方法、画像処理装置
JPH04138583A (ja) 文字認識装置
JP2976990B2 (ja) 文字認識装置
JPH09237322A (ja) 認識装置の候補修正方式
JP2986255B2 (ja) 文字認識装置
JPH03134771A (ja) 画面帳票形式の自動作成方法
JP2874815B2 (ja) 日本語文字読取装置
JPH09138836A (ja) 文字認識結果の修正方式
JPH0749923A (ja) Ocr装置
JPH07141340A (ja) 文書出力方法及び文書処理装置
JPH11143993A (ja) 認識文字修正装置およびその方法
JPH07210629A (ja) 文字認識方式
JPH07105194A (ja) かな漢字変換方法
JPH04293185A (ja) ファイリング装置
JPH03196283A (ja) キャラクタ認識装置