JPH10232905A - 文字認識装置における学習辞書の更新方法及び文字認識装置 - Google Patents

文字認識装置における学習辞書の更新方法及び文字認識装置

Info

Publication number
JPH10232905A
JPH10232905A JP9033654A JP3365497A JPH10232905A JP H10232905 A JPH10232905 A JP H10232905A JP 9033654 A JP9033654 A JP 9033654A JP 3365497 A JP3365497 A JP 3365497A JP H10232905 A JPH10232905 A JP H10232905A
Authority
JP
Japan
Prior art keywords
character
recognition
learning dictionary
similarity
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9033654A
Other languages
English (en)
Other versions
JP3455643B2 (ja
Inventor
Makoto Takimoto
誠 滝本
Katsuhiro Takano
勝寛 高野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP03365497A priority Critical patent/JP3455643B2/ja
Publication of JPH10232905A publication Critical patent/JPH10232905A/ja
Application granted granted Critical
Publication of JP3455643B2 publication Critical patent/JP3455643B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 印刷機等により印刷した文字について誤読率
を低下させる。 【解決手段】 文字画像データ取得手段1と、文字画像
データについて文字認識処理を行うための情報が固定的
に記憶された固定辞書3と、修正入力を反映させる学習
辞書4と、上記文字画像取得手段1により得られた文字
画像について前記固定辞書3及び学習辞書4を参照して
文字認識処理を行う認識処理部2と、認識結果について
なされた修正入力に対して、当該認識結果における前記
修正入力に係る文字の類似度に応じて修正入力された文
字を正文字として前記学習辞書3に登録または非登録と
する制御部5とを具備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文字認識装置
(OCR;光学的文字読取装置)における学習辞書の更
新方法及び文字認識装置に関するものである。
【0002】
【従来の技術】従来のOCRにおいては、文字認識結果
をオペレータが目視して、誤読文字が発生するとその都
度修正入力を行い、正しい結果に直すようにしている。
【0003】
【発明が解決しようとする課題】このため、修正に時間
を要し、また、オペレータの負荷も多大なものであっ
た。特に、OCRに入力する文字は、通常、特定の印刷
機、特定のプリンタにより印刷した文字であるから、特
定の文字または文字列であることが多い。つまり、特定
の文字や文字列が常に誤読され、そのためにオペレータ
が修正する作業を要するのである。
【0004】本発明は上記従来の文字認識装置が有する
問題点を解決せんとしてなされたもので、その目的は、
特に、特定の印刷機、特定のプリンタにより印刷した文
字について誤読が発生する確率を低下することのできる
文字認識装置における学習辞書の更新方法及び文字認識
装置を提供することである。
【0005】
【課題を解決するための手段】本発明の請求項1の文字
認識装置における学習辞書の更新方法は、文字イメージ
を光電変換して文字画像データを得て、この文字画像デ
ータについて文字認識処理を行うための情報が固定的に
記憶された固定辞書及び修正入力を反映させる学習辞書
を参照して文字認識処理を行い、認識結果について行わ
れた修正入力に対しては、当該認識結果における前記修
正入力に係る文字の類似度に応じて修正入力された文字
を認識結果に係る文字の正文字として前記学習辞書に登
録または非登録とすることを特徴とする。これによっ
て、修正入力された文字を認識結果に係る文字の正文字
として学習辞書に対し登録するか否かが、当該認識結果
における上記修正入力に係る文字の類似度に応じて自動
決定され、所要の場合にのみ登録が行われ、修正入力な
された場合であっても不必要な場合に登録を排除して適
切な内容を持つ学習辞書を作成することができる。
【0006】本発明の請求項2の文字認識装置における
学習辞書の更新方法では、認識結果において、修正入力
に係る文字との類似度が所定値の範囲の場合には非登録
とし、当該類似度が前記所定値の範囲より大である場合
には登録とすることを特徴とする。これにより、修正入
力なされた場合であっても認識結果において修正入力に
係る文字との類似度が零の場合には登録を排除して、類
似度が零である場合まで学習辞書に登録され適切な認識
を妨げる状況を防止することができる。
【0007】本発明の請求項3の文字認識装置における
学習辞書の更新方法における学習辞書には、認識処理の
対象の1文字及びその前後の文字を1セットとして、文
字認識を行うための情報が記憶されることを特徴とす
る。これによって、認識処理の対象の1文字及びその前
後の文字についての文字認識を行うための情報が1セッ
トとされることから、これらが全体として参照され、文
字列が所定である場合の誤読を減少させることができ
る。
【0008】本発明の請求項4の文字認識装置は、文字
イメージを光電変換して文字画像データとする文字画像
データ取得手段と、文字画像データについて文字認識処
理を行うための情報が固定的に記憶された固定辞書と、
修正入力を反映させる学習辞書と、上記文字画像取得手
段により得られた文字画像について前記固定辞書及び学
習辞書を参照して文字認識処理を行う認識処理部と、こ
の認識処理部による文字認識処理の結果を表示するため
の表示部と、情報を入力するための入力部と、前記表示
部に表示されている認識結果について前記入力部から行
われた修正入力に対しては、当該認識結果における前記
修正入力に係る文字の類似度に応じて修正入力された文
字を認識結果に係る文字の正文字として前記学習辞書に
登録または非登録とする制御部とを具備することを特徴
とする。これによって、修正入力された文字を認識結果
に係る文字の正文字として学習辞書に対し登録するか否
かが、当該認識結果における上記修正入力に係る文字の
類似度に応じて自動決定され、所要の場合にのみ登録が
行われ、修正入力なされた場合であっても不必要な場合
に登録を排除して適切な内容を持つ学習辞書を作成する
ことができる。
【0009】本発明の請求項5の文字認識装置では、制
御部が、認識結果において修正入力に係る文字の類似度
が所定値の範囲にある場合には非登録とし、当該類似度
が前記所定値の範囲より大である場合には登録とするこ
とを特徴とする。これにより、修正入力なされた場合で
あっても認識結果の文字と修正入力に係る文字との類似
度が所定値の範囲にある場合には登録を排除して、類似
度が小さい場合まで学習辞書に登録され適切な認識を妨
げる状況を防止することができる。
【0010】本発明の請求項6の文字認識装置の学習辞
書には、認識処理の対象の1文字及びその前後の文字を
1セットとして、文字認識を行うための情報が記憶され
ることを特徴とする。これによって、認識処理の対象の
1文字及びその前後の文字についての文字認識を行うた
めの情報が1セットとされることから、これらが全体と
して参照され、文字列が所定である場合の誤読を減少さ
せることができる。
【0011】本発明の請求項7の文字認識装置では、認
識処理部が、学習辞書を参照して認識結果に訂正を加え
る場合には、前記学習辞書において認識結果文字に対し
て登録されている前後の文字の情報が一致していること
を条件とすることを特徴とする。これによって、学習辞
書を参照して認識結果に訂正を加える場合には、学習辞
書において認識結果文字に対して登録されている前後の
文字の情報が一致していることが条件とされ、文字列単
位での誤読を減少させることができる。
【0012】本発明の請求項8の文字認識装置では、認
識処理部が、学習辞書を参照して認識結果に訂正を加え
る場合には、前記学習辞書において正文字に対して登録
されている類似度と認識処理により得られた結果におけ
る類似度とが所定範囲内にあることを条件とすることを
特徴とする。これによって、学習辞書を参照して認識結
果に訂正を加える場合には、学習辞書において正文字に
対して登録されている類似度と認識処理により得られた
結果における類似度とが所定範囲内にあることを条件と
され、所定の類似度にある場合の文字が正文字とされ適
切な訂正を保証する。
【0013】
【発明の実施の形態】以下添付図面を参照して本発明に
実施例に係る文字認識装置及び文字認識装置における学
習辞書の更新方法を説明する。各図において同一の構成
要素には同一の符号を付し、重複する説明を省略する。
図1には、本発明に実施例に係る文字認識装置の構成図
が示されている。文字認識装置には、文字画像データ取
得手段1が備えられており、文字イメージを光電変換し
て文字画像データとするように構成されている。文字画
像データ取得手段1には、光電変換を行う読取部11、
読取部11により得られた信号からノイズ除去等の正規
化を行う正規化部12、正規化部12の出力である文字
列のイメージデータから各1文字の切り出しを行う検出
切出部13が備えられている。検出切出部13により切
り出された各文字の画像データは認識処理部2へ送られ
る。
【0014】認識処理部2には、文字画像データについ
て文字認識処理を行うための情報が固定的に記憶された
固定辞書3と修正入力を反映させる学習辞書4とが接続
されており、認識処理部2は上記文字画像取得手段1に
より得られた文字画像について固定辞書3及び学習辞書
4を参照して文字認識処理を行う。文字認識結果は制御
部5へ送出される。制御部5には、情報を表示するため
のCRTディスプレイ装置等の表示部6、情報やコマン
ドを入力するためのキーボード入力装置等の入力部7、
認識の最終結果データ等を保存するためのファイル部8
が接続されると共に、学習辞書部4に接続され、この学
習辞書部4の内容の更新を行うように構成されている。
【0015】以上のように構成された文字認識装置によ
る文字認識処理のフローチャートが図2に示されている
ので、これを参照して動作の説明を行う。まず、文字画
像データ取得手段1によってイメージ(文字画像)デー
タ取得処理が行われる(S1)。この結果、帳票または
原稿に記載された文字に関するイメージデータが得ら
れ、イメージファイルの作成が行われる。イメージファ
イルは、図1においては、認識処理部2内に作成される
ものである。
【0016】次に、認識処理部2がイメージファイルを
参照して認識対象に係る文字を読み出し、固定辞書3を
参照して当該認識対象に係る文字の認識処理を行う(S
2)。この認識処理では、パターンマッチング法や特徴
抽出法等が用いられ、各候補文字の類似度の算出が行わ
れる。そして、認識結果を用い、学習辞書4を参照して
認識結果に対する訂正処理が行われる(S3)。
【0017】次に、制御部5は訂正された認識結果を表
示部6に表示する。これを目視したオペレータは認識結
果の確認を行い、誤読されている文字を修正する(S
4)。例えば、表示されている誤読された文字にカーソ
ルを移動し、正しい文字を上書き入力する。このように
して修正された結果について学習処理が行われる(S
5)。つまり、修正結果に基づき学習辞書4の内容の更
新を行う訳であるが、この更新実行・非実行は、修正結
果に係る文字が認識結果においてどの様な類似度となっ
ているかに応じて行われる。そして次の結果出力処理に
おいて、修正結果はファイル部8に文字認識結果ファイ
ルとして記憶される(S6)。
【0018】上記図2に示した処理の詳細を図3を参照
して説明する。この図3の例では、OCR帳票またはO
CR原稿21に、「・・・私は日本人です・・」と記載
されているものとする。OCR10はイメージデータ取
得処理(S1)において、上記OCR原稿21上のイメ
ージを光電変換してイメージデータとする。更に、OC
R10は、イメージデータについて図1における固定辞
書3及び学習辞書4に相当する記憶領域の情報を参照し
て文字認識を行い(S2)、認識結果を表示部6に表示
する。この認識結果においては、「・・・私は日木人で
す・・」と誤読されたものとする。
【0019】次の訂正処理(S3)においては、オペレ
ータ22が表示部6の画面上に表示された認識結果を目
視して確認し、「日本人」が「日木人」と誤読されてい
ると判断する。そこで、オペレータ22は入力部7から
修正入力を行って「木」を「本」に修正する。次に、O
CR10は所定の指示入力により或いは自動的に学習処
理(S5)へ進み、修正結果に係る文字が認識結果にお
いてどのような類似度とされているかに応じて(似てい
る、似ていないに基づき)記憶領域20の学習辞書4に
対応する領域に対し、当該修正結果の文字を正文字とす
る登録・非登録の制御を行う。記憶領域20の学習辞書
4に登録される文字情報は、誤読文字(上記では
「木」)と正文字(上記では、「本」)、更に前後文字
(上記では「日」と「人」)、類似度(イメージデータ
に対する文字の類似性を表す度合い)等である。そし
て、学習が完了すると、次回以降においては記憶領域2
0の結果を用いた文字認識処理がOCR10にて行われ
る。
【0020】図4には、上記処理中の訂正処理の詳細が
示されているので、これを説明する。文字画像データ取
得手段1により得られたイメージデータ23に対し固定
辞書3を用いて認識処理を行い、文字データ「ADC」
が得られたものとする。ここでは、印刷されたイメージ
は「ABC」であり、「B」を「D」と誤読したことを
示している。次に、訂正処理が行われるが、この訂正処
理は該当の文字(ここでは「D」)が学習辞書に存在す
ることが前提である。そこで、認識処理部2は、S11
に示すように学習辞書4の検索を行い、ここでは、対象
文字「D」についての登録がなされており、「有」と判
定して、S12へ進む。
【0021】認識処理部2が印刷文字「B」に係るイメ
ージデータについて行った認識の結果、候補文字「D」
が得られたのであるが、この認識結果は候補文字テーブ
ル25に示されるように、複数の候補文字が得られてい
る。そして、類似度が最大である文字「D」を候補文字
として出力したものである。
【0022】一方、学習辞書4に登録されていた文字
「D」に対応する学習情報は文字情報テーブル24に示
される通りである。即ち、誤読文字「D」について、そ
の前の文字が「A」であり、その後の文字が「C」であ
り、その誤読文字の類似度が「95」であり、更に、正
文字(誤読文字に代わる正解の文字)が「B」であり、
その正文字の類似度が「85」であり、正文字の順位が
「3」であったことを示す。つまり、過去の履歴とし
て、文字「B」を誤読したことがあり、そのときには、
「D」と誤読されとことを示す。そして、そのときの認
識結果(候補文字テーブル25に対応)の候補文字とし
ては、「D」と「B」とが含まれ、それぞれの類似度が
「95」、「85」であり、候補文字「B」については
順位が「3」であったことを示す。
【0023】そこで、認識処理部3は、今回の認識結果
に係る文字データを参照し、認識対象の候補文字「D」
の前文字と後文字を検出する。ここでは、前文字
「A」、後文字「C」が検出され、学習辞書4の文字情
報テーブル24内の情報と一致することが検出される。
また、認識処理部3は、候補文字テーブル25を参照し
て、誤読文字「D」の類似度「95」、正文字「B」に
ついての類似度「85」及び順位「3」を検出し、学習
辞書4の文字情報テーブル24内の情報と一致すること
を検出する。つまり、今回の認識対象に係る候補文字
「D」に関する状況が、学習辞書4の誤読文字「D」に
関する文字情報テーブル24内の情報と全く一致してい
ることを検出する。従って、全ての条件が一致するとし
て、候補文字「D」を「B」に訂正し出力する。
【0024】このように、今回の認識対象に係る候補文
字に関する状況が、学習辞書4の誤読文字に関する文字
情報テーブル内の情報と全く一致していることを検出す
ると訂正を行うことにより、同一の印刷機やプリンタに
より印刷した場合の文字に対する誤読を適切に訂正でき
る。なお、本実施の形態においては、全くの一致を条件
としたが、類似度には、所定の範囲(例えば、前後に
「5」程度)を設けて、その範囲であれば訂正を行うよ
うにしても良い。従って、今回の認識結果において誤読
文字である「D」の類似度が「100〜90」にあり、
今回の認識結果において正文字である「B」の類似度が
「90〜80」にあれば訂正を行う。このように幅を持
たせることにより、同一の印刷機やプリンタにより印刷
した文字についての認識であっても、印刷条件の変動等
から、各回で類似度の算出結果が僅かに異なることにな
る場合を救済して適切な修正を行うことが可能である。
【0025】上記の例では、前後文字が一致することを
条件としている。従って、先頭文字の場合には前文字は
「なし」となり、末尾文字の場合には後文字は「なし」
となる。しかし、条件を緩くした実施の形態にあって
は、前後文字の参照は行わない。このようにした場合に
あっても、今回の認識対象に係る候補文字に関する状況
が、学習辞書4の誤読文字に関する文字情報テーブル内
の情報と全く一致していることを条件とするなど、類似
度について条件を厳しくすることにより適切な訂正が行
われる。
【0026】ここで、学習辞書4のファイル構造を第6
図に示し、これを説明する。学習辞書4のファイルは、
ヘッド部とポインタ部とデータ部とから構成されてい
る。ヘッダ部には、文字コードの種類(英数字、漢字、
かな、記号など)と同じレコード数+1レコードが割り
当てられ、レコード番号がその文字コードに対応するよ
うになっている。たとえば、JISコードで“D”の文
字コードは2234であるが、ヘッダー部では2234レコード
目が“D”の情報位置となる。また、ヘッダ部の最終レ
コードは、最終登録位置情報(学習ファイルに登録した
最後のレコード番号)が記録されており、登録時にこの
レコードを参照して、登録後に更新する。レコードには
文字コードの学習情報として、ポインタ部およびデータ
部の参照位置が記録されており、当該文字コードに対象
となる学習情報が存在しない場合は、ゼロ(0)が記録
される。ただし、初期状態で全てのレコードにゼロ
(0)を記録することにより、学習情報が存在しない場
合の更新は不要となる。
【0027】ポインタ部には、その文字コードの学習情
報に対して、次候補が存在する場合、次候補のポインタ
部の参照位置が記録されている。次候捕が存在しない場
合は、ゼロ(0)が記録される。上記のヘッダ部と同様
に、初期状態で全てのレコードにゼロ(0)を記録する
ことにより、次候補が存在しない場合の更新は不要とな
る。また、ポインタ部のレコード数は任意であるが、設
定したレコード数分だけ学習情報を記録することができ
る。
【0028】データ部には、当該学習辞書4に登録され
た順に、学習情報(前文字、後文字、誤読文字類似度、
正文字、正文字順位、正文字類似度)が記録されてい
る。レコード数はポインタ部のレコード数と同じであ
る。
【0029】次に、学習辞書4のファイルを参照する場
合の動作を図7を用いて説明する。ファイルの先頭か
ら、文字“D゛の文字コードレコード目(図7)の位
置へ遷移する。図7の例(ex.)で説明すると、遷移
先は2234レコード目となる。遷移先(図7)のデータ
(図7では0002)を読み込む。このデータはポインタ部
およびデータ部の位置情報であり、もし0が記録されて
いる場合に限り「候補なし」となる。
【0030】ここでは0002が読み出されたことにより、
次にデータ部のO002レコード目の位置(図7)に遷移
する。このデータ部の学習情報(前文字、後文字、誤読
文字類似度、正文字、正文字順位、正文字類似度)を読
み出し、認識結果の候補文字テーブル等の内容と比較し
た結果が一致であれば、ここで検索を終了し、不一致で
あればポインタ部の0002レコード目(図7)に遷移す
る。
【0031】そして、ポインタ部の0002レコード目(図
7)のデータを読み込む。ここのデータは0014である
ので、次にデータ部の0014レコード目(図7)の学習
情報を読み出し、認識結果の候補文字テーブル等の内容
と比較を行う。比較した結果が一致であれば、ここで検
索を終了し、不一致であればポインタ部の0014レコード
目(図7)に遷移する。
【0032】ポインタ部の0014レコード目(図7)の
位置情報はOO1Fであり、次はデータ部の001Fレコード目
(図7)へ遷移し、学習情報の比較を行う。ここで、
さらに不一致であれば、ポインタ部の001Fレコード目
(図7)に遷移し、データを読み出すことになるので
あるが、この例においてはポインタ部の001Fレコード目
(図7)のデータはゼロ(0)であるため、次候補は
存在せず当該文字に関する参照処理を終了する。次候補
が存在しない場合は、文字の置き換え(訂正処理)は行
われず、文字認識結果をそのまま添削処理へ出力する。
【0033】図5には、上記文字認識装置の処理中の学
習処理の詳細が示されているので、これを説明する。文
字画像データ取得手段1により得られたイメージデータ
23に対し固定辞書3及び学習辞書4を用いて訂正処理
を含む認識処理を行い、文字データ「ADC」が得られ
たものとする。ここでは、印刷されたイメージは「AB
C」であり、「B」を「D」と誤読したことを示してい
る。
【0034】オペレータは添削処理S4において、入力
部から修正入力を行って「D」を「B」に修正する。次
に、制御部5は所定の指示入力により或いはOCR原稿
の1頁分の修正が終了すると自動的に学習処理S5へ進
み、文字データと候補文字テーブル25から学習辞書4
へ登録すべき文字情報テーブル24の内容に係る学習情
報を取得する。
【0035】即ち、誤読文字「D」を正文字「B」に代
えられた履歴情報に基づき、誤読文字「D」、正文字
「B」を得る。また、添削処理が行われた後の文字デー
タから、上記正文字「B」の前文字「A」及び後文字
「C」を得る。そして、候補文字テーブル25から誤読
文字「D」の類似度「95」を検出し、正文字「B」の
類似度「85」及び順位「3」を得て、図示の文字情報
テーブル24の内容に係る学習情報を取得する。そし
て、正文字「B」の類似度、つまり、イメージデータに
ついて行った認識結果において、修正入力された文字
(正文字)の類似度が零より大きいことから、上記文字
情報テーブル24の内容に係る学習情報を学習辞書4に
登録する。
【0036】なお、上記においては、イメージデータに
ついて行った認識結果において、修正された文字(正文
字)の類似度が零より大きいことを条件に学習辞書4へ
の登録を行ったが、上記類似度が所定値(例えば、「4
0」)以上である場合に学習辞書4への登録を行う用に
しても良い。このようにすると、余りにも似ていない場
合には学習辞書4の更新がなさない度合いを高くでき
る。また、上記文字情報テーブル24の内容としては、
必ずしも上記の内容に限らず、前後文字を登録しない実
施の形態や、正文字順位を登録しない実施の形態があ
る。また、前後の文字についての類似度や順位等を登録
する実施の形態も存在する。このようにしても、学習辞
書4を用いて適切な文字認識処理が行われる。なお、前
後の文字についての類似度や順位等を登録する実施の形
態においては、これらが一致するか、類似度については
所定範囲となることが訂正実行の条件である。
【0037】次に、図8を参照して学習辞書4のファイ
ルに登録を行う場合の処理動作を説明する。ファイルの
先頭から、文字“D”の文字コードレコード目(図8
)の位置へ遷移する。図8の例(ex.)で説明する
と、遷移先は2234レコード目となる。遷移先(図8)
のデータ0002が読み出される。ここのデータはポインタ
部およびデータ部の位置情報であり、0が記録されてい
る場合に限り「候補なし」となる。
【0038】この例では、データが0002であるため、次
にポインタ部の0002レコード目(図8)に遷移し、記
憶内容に係るデータ0014を読み出す。データ0014は次候
補のポインタ部及びデータ部における位置情報であるの
で、次にはポインタ部の0014レコード目(図8)に遷
移し、そこに記憶されているデータOO1Fを読み出す。同
様に、ポインタ部の001Fレコード目(図8)に遷移
し、そこに記憶されているデータゼロ(0)を読み出
す。ゼロ(0)は、次候捕無し(最終の候補)を意味す
るので、この次にあるレコードが次候補の位置登録とな
る。制御部5の主記憶領域にはこのレコード位置001Fを
記憶しておく。
【0039】次に、ヘッダ部の最終レコード(図8)
ヘ遷移し、データ(最終登録位置情報)0109を読み出
す。最終登録位置情報は、ポインタ部及びデータ部にお
けるデータが登録されている最終レコード番号であるの
で、この値に「1」を加えた値が次の登録位置となる。
ただし、ここで最終登録位置情報に「1」を加えた値が
ファイルの最終レコードを越える場合は、登録中断とな
り登録されない。最終レコードを越えない場合は、ヘッ
ダ部の最終レコード(図8)の最終登録位置情報0109
に1を加えたO1OAが登録後の最終登録位置情報となる。
【0040】次に、データ部の01OAレコード目(図8
)へ遷移し、この位置に文字情報テーブル24の学習
情報(前文字、後文字、誤読文字類似度、正文字、正文
字順位、正文字類似度)を書き込む。書き込みが終了し
たら、ポインタ部の001Fレコード目(図8)に遷移
し、この位置のデータとして先に求めた最終登録位置情
報と同じO1OAを書き込む。最後に、ヘッダ部の最終レコ
ード(図8)に遷移し、最終登録位置情報としてO1OA
を書き込んで登録を終了する。
【0041】学習辞書4のファイル構造が以上のように
構成されている結果、1つの誤読文字に対して複数の正
文字の候補を順次登録し、また、登録されている1つの
誤読文字に対する複数の正文字の候補を順次読み出すこ
とができ、誤読が生じた複数のケースに対応して適切な
登録と学習辞書4を用いた文字認識がなされる。
【0042】
【発明の効果】以上説明したように請求項1に記載の文
字認識装置における学習辞書の更新方法によれば、修正
入力された文字を認識結果に係る文字の正文字として学
習辞書に対し登録するか否かが、当該認識結果における
上記修正入力に係る文字の類似度に応じて自動決定さ
れ、所要の場合にのみ登録が行われ、修正入力なされた
場合であっても不必要な場合に登録を排除して適切な内
容を持つ学習辞書を作成することができる。
【0043】以上説明したように請求項2に記載の文字
認識装置における学習辞書の更新方法によれば、修正入
力なされた場合であっても認識結果において修正入力に
係る文字の類似度が所定値の範囲の場合には登録が排除
されるので、類似度が前記所定値の範囲より小さい場合
まで学習辞書に登録され適切な認識を妨げる状況を防止
することができる。
【0044】以上説明したように請求項3に記載の文字
認識装置における学習辞書の更新方法によれば、認識処
理の対象の1文字及びその前後の文字についての文字認
識を行うための情報が1セットとされることから、これ
らが全体として参照され、文字列が所定である場合の誤
読を減少させることができる。
【0045】以上説明したように請求項4に記載の文字
認識装置によれば、修正入力された文字を認識結果に係
る文字の正文字として学習辞書に対し登録するか否か
が、当該認識結果における上記修正入力に係る文字の類
似度に応じて自動決定され、所要の場合にのみ登録が行
われ、修正入力なされた場合であっても不必要な場合に
登録がなされないので、適切な内容を持つ学習辞書を持
つ文字認識装置を提供することができる。
【0046】以上説明したように請求項5に記載の文字
認識装置によれば、修正入力なされた場合であっても認
識結果において修正入力に係る文字の類似度が所定値の
範囲にある場合には登録が排除され、類似度が小さい場
合まで学習辞書に登録され適切な認識を妨げる状況を防
止することができる。
【0047】以上説明したように請求項6に記載の文字
認識装置によれば、認識処理の対象の1文字及びその前
後の文字についての文字認識を行うための情報が1セッ
トとされることから、これらが全体として参照され、文
字列が所定である場合の誤読を減少させることができ
る。
【0048】以上説明したように請求項7に記載の文字
認識装置によれば、学習辞書を参照して認識結果に訂正
を加える場合には、学習辞書において認識結果文字に対
して登録されている前後の文字の情報が一致しているこ
とが条件とされるので、文字列単位での誤読を減少させ
ることができる。
【0049】以上説明したように請求項8に記載の文字
認識装置によれば、学習辞書を参照して認識結果に訂正
を加える場合には、学習辞書において正文字に対して登
録されている類似度と認識処理により得られた結果にお
ける類似度とが所定範囲内にあることを条件とされるの
で、所定の類似度にある場合の文字が正文字とされ適切
な訂正を保証する。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る文字認識装置の構成
図。
【図2】本発明の実施の形態に係る文字認識装置の動作
を説明するためのフローチャート。
【図3】本発明の実施の形態に係る文字認識装置におけ
る学習辞書更新動作を説明するための図。
【図4】本発明の実施の形態に係る文字認識装置におけ
る学習辞書を用いた文字認識動作を説明するための図。
【図5】本発明の実施の形態に係る文字認識装置におけ
る学習辞書更新動作を説明するための図。
【図6】本発明の実施の形態に係る文字認識装置におけ
る学習辞書のファイル構造を説明するための図。
【図7】本発明の実施の形態に係る文字認識装置におけ
る文字認識動作時の学習辞書の参照手法を説明するため
の図。
【図8】本発明の実施の形態に係る文字認識装置におけ
る文字認識動作時の学習辞書の更新手法を説明するため
の図。
【符号の説明】
1 文字画像データ取得手段 2 認識処理部 3 固定辞書 4 学習辞書 5 制御部 6 表示部 7 入力部 8 ファイル部 11 読取部 12 正規化部 13 検出切出部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文字イメージを光電変換して文字画像デ
    ータを得て、この文字画像データについて文字認識処理
    を行うための情報が固定的に記憶された固定辞書及び修
    正入力を反映させる学習辞書を参照して文字認識処理を
    行い、 認識結果について行われた修正入力に対しては、当該認
    識結果における前記修正入力に係る文字の類似度に応じ
    て修正入力された文字を認識結果に係る文字の正文字と
    して前記学習辞書に登録または非登録とすることを特徴
    とする文字認識装置における学習辞書の更新方法。
  2. 【請求項2】 認識結果において、修正入力に係る文字
    の類似度が所定値の範囲にある場合には非登録とし、当
    該類似度が前記所定値の範囲より大である場合には登録
    とすることを特徴とする請求項1に記載の文字認識装置
    における学習辞書の更新方法。
  3. 【請求項3】 学習辞書には、 認識処理の対象の1文字及びその前後の文字を1セット
    として、文字認識を行うための情報が記憶されることを
    特徴とする請求項1または請求項2に記載の文字認識装
    置における学習辞書の更新方法。
  4. 【請求項4】 文字イメージを光電変換して文字画像デ
    ータとする文字画像データ取得手段と、 文字画像データについて文字認識処理を行うための情報
    が固定的に記憶された固定辞書と、 修正入力を反映させる学習辞書と、 上記文字画像取得手段により得られた文字画像について
    前記固定辞書及び学習辞書を参照して文字認識処理を行
    う認識処理部と、 この認識処理部による文字認識処理の結果を表示するた
    めの表示部と、 情報を入力するための入力部と、 前記表示部に表示されている認識結果について前記入力
    部から行われた修正入力に対しては、当該認識結果にお
    ける前記修正入力に係る文字の類似度に応じて修正入力
    された文字を認識結果に係る文字の正文字として前記学
    習辞書に登録または非登録とする制御部と、 を具備することを特徴とする文字認識装置。
  5. 【請求項5】 制御部は、 認識結果において、修正入力に係る文字の類似度が所定
    値の範囲にある場合には非登録とし、当該類似度が前記
    所定値の範囲より大である場合には登録とすることを特
    徴とする請求項4に記載の文字認識装置。
  6. 【請求項6】 学習辞書には、 認識処理の対象の1文字及びその前後の文字を1セット
    として、文字認識を行うための情報が記憶されることを
    特徴とする請求項4または請求項5に記載の文字認識装
    置。
  7. 【請求項7】 認識処理部は、 学習辞書を参照して認識結果に訂正を加える場合には、
    前記学習辞書において認識結果文字に対して登録されて
    いる前後の文字の情報が一致していることを条件とする
    ことを特徴とする請求項6に記載の文字認識装置。
  8. 【請求項8】 認識処理部は、 学習辞書を参照して認識結果に訂正を加える場合には、
    前記学習辞書において正文字に対して登録されている類
    似度と認識処理により得られた結果における類似度とが
    所定範囲内にあることを条件とすることを特徴とする請
    求項6に記載の文字認識装置。
JP03365497A 1997-02-18 1997-02-18 文字認識装置における学習辞書の更新方法及び文字認識装置 Expired - Fee Related JP3455643B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03365497A JP3455643B2 (ja) 1997-02-18 1997-02-18 文字認識装置における学習辞書の更新方法及び文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03365497A JP3455643B2 (ja) 1997-02-18 1997-02-18 文字認識装置における学習辞書の更新方法及び文字認識装置

Publications (2)

Publication Number Publication Date
JPH10232905A true JPH10232905A (ja) 1998-09-02
JP3455643B2 JP3455643B2 (ja) 2003-10-14

Family

ID=12392445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03365497A Expired - Fee Related JP3455643B2 (ja) 1997-02-18 1997-02-18 文字認識装置における学習辞書の更新方法及び文字認識装置

Country Status (1)

Country Link
JP (1) JP3455643B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007029625A1 (ja) * 2005-09-06 2007-03-15 Tosho Inc. 処方箋受付装置
JP2010218041A (ja) * 2009-03-13 2010-09-30 Omron Corp 携帯式文字認識装置、文字認識プログラム及び文字認識方法
JP2011076481A (ja) * 2009-09-30 2011-04-14 Fujitsu Ltd 検証装置、検証方法、検証プログラム及び作成装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007029625A1 (ja) * 2005-09-06 2007-03-15 Tosho Inc. 処方箋受付装置
JP2010218041A (ja) * 2009-03-13 2010-09-30 Omron Corp 携帯式文字認識装置、文字認識プログラム及び文字認識方法
JP2011076481A (ja) * 2009-09-30 2011-04-14 Fujitsu Ltd 検証装置、検証方法、検証プログラム及び作成装置

Also Published As

Publication number Publication date
JP3455643B2 (ja) 2003-10-14

Similar Documents

Publication Publication Date Title
US6205261B1 (en) Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
GB2422709A (en) Correcting errors in OCR of electronic document using common prefixes or suffixes
JPH07152774A (ja) 文書検索方法および装置
JPH10232905A (ja) 文字認識装置における学習辞書の更新方法及び文字認識装置
JP2990077B2 (ja) 文書作成装置およびその入力方法
JP2001320571A (ja) 帳票筆跡データの処理システム及び処理方法
JP3221968B2 (ja) 文字認識装置
JP7401202B2 (ja) 画像処理装置、その制御方法、及びプログラム
JP2939945B2 (ja) ローマ字住所認識装置
JPH11120294A (ja) 文字認識装置および媒体
JP2024067409A (ja) 文字認識装置、文字認識方法及びプログラム
JP2677271B2 (ja) 文字認識装置
JP3077580B2 (ja) 文字読取装置
JP3355289B2 (ja) 文字データの自動校正方法及び装置
JP3310063B2 (ja) 文書処理装置
JPH05298495A (ja) 文字認識装置と誤認識文字修正方法並びに欧文文書処理装置
JPH05210635A (ja) 入力装置
JPH11143993A (ja) 認識文字修正装置およびその方法
JPH06251204A (ja) 文字認識装置
JP2907947B2 (ja) 光学文字読取システム
JP2829186B2 (ja) 光学的文字読取装置
JPH09138835A (ja) 文字認識装置
JPH06333083A (ja) 光学式文字読取装置
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH08202811A (ja) 文字読取装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030715

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080725

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090725

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090725

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100725

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100725

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees