JP3113712B2 - 文字認識方法及びその装置 - Google Patents

文字認識方法及びその装置

Info

Publication number
JP3113712B2
JP3113712B2 JP03279087A JP27908791A JP3113712B2 JP 3113712 B2 JP3113712 B2 JP 3113712B2 JP 03279087 A JP03279087 A JP 03279087A JP 27908791 A JP27908791 A JP 27908791A JP 3113712 B2 JP3113712 B2 JP 3113712B2
Authority
JP
Japan
Prior art keywords
character
word
candidate
uncertainty
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03279087A
Other languages
English (en)
Other versions
JPH05120493A (ja
Inventor
和之 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP03279087A priority Critical patent/JP3113712B2/ja
Publication of JPH05120493A publication Critical patent/JPH05120493A/ja
Application granted granted Critical
Publication of JP3113712B2 publication Critical patent/JP3113712B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文字認識方法及びその装
置、特に認識対象の原稿画像中の各文字パターンを対応
する文字コードに認識する文字認識方法及びその装置に
関するものである。
【0002】
【従来の技術】従来、文字認識装置における認識結果に
は、1つの原稿文字について一個もしくは複数個の認識
候補文字が発生する。また、誤認識の訂正処理として
は、その認識候補文字を先頭から1文字ずつ取り出して
はキー文字として単語辞書から単語を検索し認識結果と
のマッチングを行い、複数の単語候補の中から最も一致
度の高い単語候補を選択して誤認識の訂正を行う、いわ
ゆる単語照合処理が用いられている。
【0003】
【発明が解決しようとしている課題】しかしながら、上
記従来例では、単語辞書から単語を検索する際のキー文
字を認識結果の先頭から一文字ずつ取り出すため、その
都度照合処理を行うことになる。従って、認識処理時間
が大きくなるという欠点がある。更には、正当率の高い
候補文字を単語照合することで誤った文字に修正されて
しまうという危惧がある。
【0004】
【課題を解決するための手段】本発明はかかる問題点に
鑑みなされたものであり、文字認識処理における単語照
合処理を可能な限り省きながらも高認識率及び高認識速
度を可能にする文字認識方法及びその装置を提供しよう
とするものである。
【0005】この課題を解決するため本発明の文字認識
方法は以下の工程を備える。すなわち、原稿画像に対し
て文字認識処理を行い、当該文字認識処理の結果によっ
て得られた認識候補を、確実性の高い確実文字候補と不
確実性の高い不確実文字候補とを区別し、認識された各
文字候補の文字列に対して訂正を行う文字認識方法であ
って、単語の先頭文字位置を特定する先頭位置特定ステ
ップと、前記単語の先頭文字位置から始めて次の文字へ
と順次、当該次の文字の候補文字が不確実候補文字であ
るか否か判断する不確実候補判断ステップと、前記不確
実候補判断ステップで、当該候補文字が不確実候補文字
であったとき、前記先頭文字位置から当該不確実候補文
字までの文字列の確実文字候補列部分をキー文字とし
て、前記先頭文字位置から当該不確実候補文字までの文
字列を含む照合対象文字列に対して単語照合処理を行う
単語照合処理ステップと、前記先頭文字から当該不確実
候補文字までの文字列を含む照合対象文字列を、前記単
語照合処理ステップで照合された単語で訂正する単語訂
正ステップとを有し、前記先頭位置特定ステップでは、
前記単語訂正ステップで訂正された単語より後ろの文字
を、次の単語の先頭文字位置として特定することを特徴
とする。
【0006】また、本発明の文字認識装置は以下の構成
を備える。すなわち、原稿画像に対して文字認識処理を
行い、当該文字認識処理の結果によって得られた認識候
補を、確実性の高い確実文字候補と不確実性の高い不確
実文字候補とを区別し、認識された各文字候補の文字列
に対して訂正を行う文字認識装置であって、単語の先頭
文字位置を特定する先頭位置特定手段と、前記単語の先
頭文字位置から始めて次の文字へと順次、当該次の文字
の候補文字が不確実候補文字であるか否か判断する不確
実候補判断手段と、前記不確実候補判断手段で、当該候
補文字が不確実候補文字であったとき、前記先頭文字位
置から当該不確実候補文字までの文字列の確実文字候補
列部分をキー文字として、前記先頭文字位置から当該不
確実候補文字までの文字列を含む照合対象文字列に対し
て単語照合処理を行う単語照合処理手段と、前記先頭文
字から当該不確実候補文字までの文字列を含む照合対象
文字列を、前記単語照合処理手段で照合された単語で訂
正する単語訂正手段とを有し、前記先頭位置特定手段で
は、前記単語訂正手段で訂正された単語より後ろの文字
を、次の単語の先頭文字位置として特定することを特徴
とする。
【0007】
【作用】かかる本発明の工程或いは構成において、文字
認識処理によって得られた候補文字において、先頭文字
位置を特定し、その位置から始めて次の文字へと順次、
当該次の文字の候補文字が不確実候補文字であるか否か
判断していく。そして、不確実候補文字があった場合、
先頭文字位置からこの不確実候補文字までの確実文字候
補列部分をキーとして、先頭文字位置から不確実候補文
字までの文字列を含む照合対象文字列に対し単語照合処
理を行う。そしてその照合対象文字列を、照合された単
語で訂正し、訂正された単語より後ろの文字を、次の単
語の先頭文字位置として特定する。
【0008】
【実施例】以下、添付図面に従って本発明に係る実施例
を詳細に説明する。
【0009】図1は実施例の文字認識装置の概略構成を
示すブロック図である。
【0010】同図において、101は原稿を光電的に読
み取って入力する画像データ読取部、102は読み取っ
た画像データを格納するための画像データ格納部、10
3は画像データ格納部102内の画像データから1つ1
つの文字の画像データに切り離す文字切り出し部、10
4は切り出した文字の画像データの特徴を数値化する特
徴抽出部、105はあらかじめ文字種ごとの特徴を数値
化した特徴データが格納されている認識辞書部である。
【0011】106は、特徴抽出部によって得られた入
力文字に対する特徴データと、認識辞書105に格納さ
れている各種文字の特徴データを比較して、複数の認識
候補文字の選出及び、入力文字の特徴データと認識候補
文字の特徴データの相違度の算出を行う識別部である。
107は識別部によって得られた認識候補文字の相違度
があらかじめ定めた一定の値以下である場合にその候補
文字の認識精度は不確実であるという印を付加する不確
実候補文字設定部である。108は不確実候補文字設定
部によって印を付加された認識候補文字を用いて単語辞
書検索の際のキー文字を定め、単語辞書部から単語を検
索し、認識候補文字の修正を行う単語照合部である。ま
た、109はあらかじめ複数の単語データが格納されて
いる単語辞書部、110は認識結果あるいはオペレータ
への指示を表示する表示部である。
【0012】図2に実施例の文字認識装置を実現するハ
ードウェア構成図を示す。
【0013】同図において、201は装置全体の制御を
司るCPU、202はCPU201の制御プログラム
(例えば図3のフローチャートにかかるプログラム)や
各種データを記憶しているROMである。203はスキ
ャナ等の画像データ読取り部で、原稿を光電的に読み取
って入力する。204は画像データ読取り部203で読
み取った画像データの格納するためのRAMであり、C
PU201のワークエリアや単語辞書、認識辞書等の格
納にも用いられている。205はキーボードやマウス等
の入力部で、オペレータが指示を行うのに用いる。20
6はCRT等の表示部で、認識結果あるいはオペレータ
への指示を表示する。
【0014】上述した本実施例の文字認識装置の構成に
おける動作概要を簡単に説明すれば以下の通りである。
【0015】すなわち、文字認識処理そのものは公知の
技術によるものとするが、通常は注目している文字パタ
ーンから得た特徴量と辞書に登録されているそれとを順
次比較し、最もそれらの間の距離が小さい(類似度の高
い)順に並べ、それの先頭を候補として認識している。
本実施例でも、このような方式で文字の認識をおこなう
ものとするが、候補との距離が所定値以上ある場合、す
なわち、確実な候補として決定するには無理がある場
合、得られた候補に対しては不確実候補文字であること
を示す印を付し、後の処理に渡す。
【0016】実施例では、文字認識行程から得られた候
補文字が不確実候補文字かどうかを1つの判断の材料と
し、単語辞書照合処理を効率良くする。その内容を詳細
に説明すると次の如くである。図3のフローチャートに
従って説明する。
【0017】尚、以下の説明でP,NはそれぞれRAM
204内の所定アドレスに確保されたポインタを示して
おり、ポインタPは認識して得られた文字列に対しての
単語照合する先頭文字位置が格納され、ポインタNはポ
インタPから何文字までの文字列を単語照合処理に使用
するかを示すデータが格納されている。説明を簡単にす
るためポインタP、Nの内容を単にP,Nとして説明す
る。
【0018】先ず、ステップS1で認識結果の原稿に対
応した文字位置Pを1進める。次に、ステップS2でル
ープ内の処理中の文字位置を示すNを0に初期化する。
【0019】ステップS3では、現在の文字位置P+N
が全認識文字数よりも大きいかどうかを判断する。
【0020】現在の注目文字位置P+Nが全認識文字数
よりも大きければ、全ての文字にたいしての単語照合処
理が済んだことになるので、本処理を終える。
【0021】また、現在の文字位置P+Nが全認識文字
数よりも小さいときは、ステップS4に進み、現在の文
字位置P+Nの候補文字が不確実候補文字であるかどう
かを判断する。このステップS4で注目している候補文
字が不確実候補文字でない、つまり、その候補がほとん
ど正しいと判断したら、次のステップS5に進み、その
候補文字が漢字または仮名であるかどうかを判断する。
【0022】注目している文字位置P+Nが漢字や仮名
でない、つまり、英文字や数字等の単語を構成しない文
字であると判断したら、ステップS7に進んで単語照合
する基準位置を次の文字位置とするためPをN進め、ス
テップS1に戻る。
【0023】また、漢字、もしくは仮名(平仮名及び片
仮名)である場合、注目している文字が単語の一部(ま
た途中)の文字を構成していると考えて良いから、Nを
1つ進め、ステップS3に戻る。
【0024】さて、ステップS4で、注目している文字
位置P+Nの候補文字が不確実候補文字であることが判
明すると、処理はステップS8に進み、その文字が漢字
か仮名であるかを判断する。
【0025】漢字または仮名であると判断した場合に
は、ステップS9に進み、原稿文字位置Pを単語検索の
際のキー文字としてステップS9で単語照合を行う。そ
して次のステップS10において、照合する単語があっ
た否かを判断し、なければステップS1に戻ってPを1
つ進める処理を行う。
【0026】また、照合する単語が存在する場合には、
ステップS11で、文字位置Pを単語の長さLから1引
いた分だけ進め、ステップS1に戻る。1を引く意味
は、Pを単語の最後尾位置に移動させ、ステップS1で
新たな基準位置にするためである。
【0027】一方、注目している文字位置P+Nが不確
実候補文字であって、漢字や仮名ではなく例えば英数字
等であると場合、処理はステップS8からステップS1
2に進む。
【0028】ステップS12では、次の文字、すなわ
ち、文字位置P+N+1が全認識文字数を越えたか否か
を判断し、越えていれば本処理を終える。また、全認識
文字の途中であると判断した場合には、ステップS13
に進み、文字位置P+N+1が英数字であるか否かを判
断する。英数字以外、つまり、漢字や仮名であると判断
した場合には、ステップS9に進み、上述した処理を行
う。また、ステップS13の判断で、注目している文字
意図の次の文字が英数字であると判断したら、ステップ
S14で、文字位置PをN進め、ステップS1に戻る。
【0029】以上説明したように本実施例によれば、不
確実候補文字設定処理によって不確実候補文字の印をつ
けられた文字を単語照合処理に利用することが可能とな
り、単語照合処理の処理時間を短縮することができる。
従って、文字認識全体の処理時間を短縮することができ
る。また、本来、正しく認識しているにも拘らず、正当
率の高い候補文字を誤って単語照合処理してしまう危険
性を減らすことも可能になる。
【0030】尚、上述した実施例の変形例として、不確
実候補文字の設定を不確実候補文字設定部の変わりにあ
るいは補助として、直にオペレータが認識結果を見て入
力部より指示することによりさらに正確な単語照合処理
を行うことが可能である。この場合、表示部206に生
の認識結果の文書を表示し、入力部205(例えばポイ
ンティングデバイス)によって該当する文字を指定すれ
ばよい。
【0031】また、不確実候補文字の設定とは逆に確実
な候補文字の設定を行い、その候補文字については単語
照合処理を行わない、あるいは照合処理をしても変更し
ない等の処理を行うことによって、単語照合処理による
誤った変更を行う危険性を減らすことができる。
【0032】また、実施例では認識対象を画像データ読
み取り部203から入力すると説明したが、例えば別個
の装置で読み取った画像データをフロッピー等の記憶媒
体に記憶させ、そのデータを認識対象としても良い。
【0033】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることは言うまでもない。
【0034】
【発明の効果】以上説明したように本発明によれば、文
字認識処理における単語照合処理を可能な限り省きなが
らも高認識率及び高認識速度とすることが可能になる。
【図面の簡単な説明】
【図1】実施例の文字認識装置の概略構成を示すブロッ
ク図である。
【図2】実施例の文字認識装置を実現するハードウェア
構成図である。
【図3】本実施例の文字認識装置における単語照合処理
を示すフローチャートである。
【符号の説明】
101 画像データ読取り部 102 画像データ格納部 103 文字切り部 104 特徴抽出部 105 識別部 106 認識辞書部 107 不確実候補文字設定部 108 単語照合部 109 単語辞書部 110 表示部 201 CPU 202 ROM 204 RAM 205 入力部 207,208,209 各種インターフェース部

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 原稿画像に対して文字認識処理を行い、
    当該文字認識処理の結果によって得られた認識候補を、
    確実性の高い確実文字候補と不確実性の高い不確実文字
    候補とを区別し、認識された各文字候補の文字列に対し
    て訂正を行う文字認識方法であって、 単語の先頭文字位置を特定する先頭位置特定ステップ
    と、 前記単語の先頭文字位置から始めて次の文字へと順次、
    当該次の文字の候補文字が不確実候補文字であるか否か
    判断する不確実候補判断ステップと、 前記不確実候補判断ステップで、当該候補文字が不確実
    候補文字であったとき、前記先頭文字位置から当該不確
    実候補文字までの文字列の確実文字候補列部分をキー文
    字として、前記先頭文字位置から当該不確実候補文字ま
    での文字列を含む照合対象文字列に対して単語照合処理
    を行う単語照合処理ステップと、 前記先頭文字から当該不確実候補文字までの文字列を含
    む照合対象文字列を、前記単語照合処理ステップで照合
    された単語で訂正する単語訂正ステップとを有し、 前記先頭位置特定ステップでは、前記単語訂正ステップ
    で訂正された単語より後ろの文字を、次の単語の先頭文
    字位置として特定することを特徴とする文字認識方法。
  2. 【請求項2】 前記先頭位置特定ステップでは、当該単
    語に不確実候補が含まれていなかった場合、次の単語の
    先頭文字位置を特定することを特徴とする請求項1に記
    載の文字認識方法。
  3. 【請求項3】 前記先頭位置特定ステップで特定される
    単語の先頭文字は、漢字であることを特徴とする請求項
    1に記載の文字認識方法。
  4. 【請求項4】 前記先頭位置特定ステップで特定される
    単語の先頭文字は、仮名文字であることを特徴とする請
    求項1に記載の文字認識方法。
  5. 【請求項5】 原稿画像に対して文字認識処理を行い、
    当該文字認識処理の結果によって得られた認識候補を、
    確実性の高い確実文字候補と不確実性の高い不確実文字
    候補とを区別し、認識された各文字候補の文字列に対し
    て訂正を行う文字認識装置であって、 単語の先頭文字位置を特定する先頭位置特定手段と、 前記単語の先頭文字位置から始めて次の文字へと順次、
    当該次の文字の候補文字が不確実候補文字であるか否か
    判断する不確実候補判断手段と、 前記不確実候補判断手段で、当該候補文字が不確実候補
    文字であったとき、前記先頭文字位置から当該不確実候
    補文字までの文字列の確実文字候補列部分をキー文字と
    して、前記先頭文字位置から当該不確実候補文字までの
    文字列を含む照合対象文字列に対して単語照合処理を行
    う単語照合処理手段と、 前記先頭文字から当該不確実候補文字までの文字列を含
    む照合対象文字列を、前記単語照合処理手段で照合され
    た単語で訂正する単語訂正手段とを有し、 前記先頭位置特定手段では、前記単語訂正手段で訂正さ
    れた単語より後ろの文字を、次の単語の先頭文字位置と
    して特定することを特徴とする文字認識装置。
  6. 【請求項6】 前記先頭位置特定手段では、当該単語に
    不確実候補が含まれていなかった場合、次の単語の先頭
    文字位置を特定することを特徴とする請求項5に記載の
    文字認識装置。
  7. 【請求項7】 前記先頭位置特定手段で特定される単語
    の先頭文字は、漢字であることを特徴とする請求項5に
    記載の文字認識装置。
  8. 【請求項8】 前記先頭位置特定手段で特定される単語
    の先頭文字は、仮名文字であることを特徴とする請求項
    5に記載の文字認識装置。
JP03279087A 1991-10-25 1991-10-25 文字認識方法及びその装置 Expired - Fee Related JP3113712B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03279087A JP3113712B2 (ja) 1991-10-25 1991-10-25 文字認識方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03279087A JP3113712B2 (ja) 1991-10-25 1991-10-25 文字認識方法及びその装置

Publications (2)

Publication Number Publication Date
JPH05120493A JPH05120493A (ja) 1993-05-18
JP3113712B2 true JP3113712B2 (ja) 2000-12-04

Family

ID=17606240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03279087A Expired - Fee Related JP3113712B2 (ja) 1991-10-25 1991-10-25 文字認識方法及びその装置

Country Status (1)

Country Link
JP (1) JP3113712B2 (ja)

Also Published As

Publication number Publication date
JPH05120493A (ja) 1993-05-18

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
US5717794A (en) Document recognition method and system
US7305382B2 (en) Information searching apparatus and method, information searching program, and storage medium storing the information searching program
JPH0772905B2 (ja) 記号列の認識方法
US5905811A (en) System for indexing document images
JP2000315247A (ja) 文字認識装置
JP3113712B2 (ja) 文字認識方法及びその装置
EP0519713B1 (en) Character input method and apparatus
KR950001061B1 (ko) 문서인식 수정장치
JP3673553B2 (ja) ファイリング装置
JP3376808B2 (ja) 単語入力装置並びに単語入力方法
JPH07319880A (ja) キーワード抽出・検索装置
JPH05217017A (ja) 光学式文字読取装置
JP2731394B2 (ja) 文字入力装置
JPH11143983A (ja) 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0728944A (ja) 英文字認識装置
JPH04302070A (ja) 文字認識装置及び方法
JPH1069494A (ja) 画像検索方法とその装置
JPH06251187A (ja) 文字認識誤り修正方法及び装置
JP3138665B2 (ja) 手書き文字認識方式および記録媒体
JP2950286B2 (ja) 画面イメージ読み取り装置
JPS60128579A (ja) 情報認識方法
JP2829186B2 (ja) 光学的文字読取装置
JPH07107700B2 (ja) 文字認識装置
JPH0535911A (ja) 画像処理方法及び装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000818

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070922

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080922

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110922

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees