JPH0363895A - 文字認識方式 - Google Patents

文字認識方式

Info

Publication number
JPH0363895A
JPH0363895A JP1200692A JP20069289A JPH0363895A JP H0363895 A JPH0363895 A JP H0363895A JP 1200692 A JP1200692 A JP 1200692A JP 20069289 A JP20069289 A JP 20069289A JP H0363895 A JPH0363895 A JP H0363895A
Authority
JP
Japan
Prior art keywords
character
recognition
character string
scanning
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1200692A
Other languages
English (en)
Inventor
Takenori Kawamata
武典 川又
Keiji Kobayashi
啓二 小林
Kozo Tomono
伴野 浩三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP1200692A priority Critical patent/JPH0363895A/ja
Publication of JPH0363895A publication Critical patent/JPH0363895A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、ハンドスキャナのような走査幅の狭い走査手
段を用いて文字列を読み取る文字認識方式に関するもの
で、さらに詳しくは、走査手段の走査幅を越える文字列
を容易に読み取ることができる文字認識方式に関するも
のである。
〔従来の技術〕
第6図は従来の文字認識方式を採用した文字認識装置の
構成を示すブロック図である。
図において、1は読み取るべき文字パターンが記入また
は印刷されている帳票や用紙等の記録媒体であり、ここ
では、以下帳票として説明する。
2は帳票1上の文字を走査して光電変換するハンドスキ
ャナ等の走査手段、3は認識対象文字の基準パターンを
ROM等に格納した認識辞書、4は走査手段2から送ら
れる入力文字パターンと認識辞書3内の基準パターンを
比較することにより、類似度の高い順に規定個数の認識
候補文字およびその類似度を出力する認識手段、5は認
識手段4から送られてくる認識候補文字およびその類似
度を記憶するRAM等からなる記憶手段、6は走査手段
2で走査された帳票のイメージや記憶手段5に記憶され
た認識結果の文字および認識候補文字を表示するCRT
デイスプレィ等の表示手段、7は表示手段6に表示され
た帳票のイメージから読み取り対象領域の指定を行った
り、認識結果かられかる読み取り不能文字や誤読文字に
対して、認識候補文字の中から正しい文字を選択したり
、不要文字の削除などを行うためのキーボード等の入力
手段、8は上記記憶手段5、表示手段6および入力手段
7を制御し、記憶手段5に記憶された認識候補文字およ
びその類似度にもとづく認識結果を表示手段6に表示し
たり、入力手段7からの修正作業に基づき読み取り不能
文字や誤読文字の正しい文字への置き換え処理を行う制
御手段である。
なお、上記認識手段4および制御手段8はマイクロプロ
セッサ等により実現されるものである。
次に動作について説明する。
帳票1上の文字を走査手段2で走査し光電変換して得ら
れた入力文字パターンが認識手段4へ出力される。認識
手段4では、走査手段2から送られてくる入力文字パタ
ーンと認識辞書3の基準パターンを比較し、類似度の高
いものから順に規定個数の認識候補文字およびそれらの
類似性を示す類似度(0〜50の値をとる)を出力し、
記憶手段5に記憶する。制御手段8は記憶手段5に記憶
された認識候補文字の中で最も類似度の高い第1位の認
識候補文字を表示手段6の画面上に表示する。
第7図は帳票1上に印刷された文字の一例である。ここ
で、帳票1上の文字列10.11は、走査手段2の走査
幅よりも長いため1回の走査では水平方向の文字列全体
を走査することができない。
したがって、文字列を2つの領域に分割して走査する。
第8図が2つの領域に分けて走査した場合のイメージを
表示手段6に表示した例である。第8図の12.13は
それぞれ第7図の文字列10゜11の分割文字列Nl、
14.15は分割文字列N2である。ハンドスキャナな
どの簡易な走査手段2は、オペレータが手で走査し、か
つ分割して走査するため、分割領域中に重複部分が存在
したり、分割境界に文字パターンの切れが生じている。
第9図が第8図のイメージを認識手段4で認識し、表示
手段6に認識結果の第1位の候補文字を表示したもので
ある。文字列11の分割文字列13゜15の認識結果1
7.19中の文字「◆」は、文字パターンが欠けたため
に認識不能となった文字である。次に各分割文字列中に
は重複する文字列が存在するので、重複文字列の削除を
行い、分割文字列同士を併合する。例えば、文字列1o
の分割文字列16.18には、「開法に」という重複文
字列が存在する。第10図は入力手段のカーソル等で重
複文字列「開法にJ20を指定したものである。重複文
字列20を削除し、分割文字列16.18を併合したも
のが第11図の文字列21である。残りの分割文字列も
同様に重複文字列の削除および併合を行う。第12図が
残りの分割文字列17.19についても削除および併合
を行った後の文字列22を含むものである。
〔発明が解決しようとする課題〕
従来の文字認識は方式は以上のように構成されており、
前記の動作例で示したように文字列を分割して走査した
場合に、オペレータがそれぞれの認識結果を観測し、重
複文字列が存在する場合はそれらを削除しなければなら
ず、従来例に示したように重複文字列中に誤読文字が存
在した場合は原文との対応がつきに<<、重複文字列の
チェフクおよび削除作業に時間がかかるという問題点が
あった。また、イメージを表示手段に表示させて重複部
分を発生させないように読取り領域を指定する場合でも
、各文字列の文字間隔が一定でない場合や、イメージが
傾いた場合は複数の文字列を一度に領域指定することが
出来ず、領域指定に時間を要していた。また、走査手段
の走査方向を文字列方向に水平に行うこともできるが、
この場合において認識するにはイメージを90度回転す
る回転機構を設ける必要があり、また、走査幅の広い走
査手段を用いることは装置が高価になるという問題点が
あった。
この発明は上記のような問題点を解消するためになされ
たもので、走査幅の狭いハンドスキャナ等の走査手段で
、走査幅を越える文字列でも簡単に、しかも高速に読み
取ることができる文字認識方式を得ることを目的とする
〔課題を解決するための手段〕
この発明に係る文字認識方式では、認識候補文字および
その類似度を用い、分割された複数の文字列中に同一文
字への置き換え処理を判定する同一文字列判定手段9を
備え、走査手段2が記録媒体(帳票1)上の文字列を設
け、制御手段8aは各分割領域の認識結果を用いて同一
文字列判定手段9により各重複文字列を判定し、複数の
分割領域の認識結果から上記同一文字列判定手段により
重複文字列を削除し、複数の分割領域の認識結果を併合
することを特徴とするものである。
を特徴とするものである。
〔作用〕
走査手段2が記録媒体(帳票1)上の文字列を設け、重
複文字列は各分割領域の認識結果を用いて同一文字列判
定手段9によって判定され、制御手段8aによってその
重複文字列部分の一方が削除される。そして、 複数の分割領域の認識結果が併合される。
〔発明の実施例〕
第1図はこの一実施例に係る文字認識方式を採用した文
字認識装置の構成を示すブロック図である。第1図にお
いて、第6図に示す構成要素に対応するものには同一の
符号を付し、その説明を省略する。第1図において、9
は文字の認識候補文字およびその類似度を用いて2つの
文字列中に同一文字への置き換え処理を判定する同一文
字列判定手段である。また、この実施例の制御手段8a
は、従来の制御手段8の機能のほかに、文字列を重複部
分を設けて分割して走査した場合に、それぞれの認識結
果の重複部分を上記同一文字列判定手段9を用いて判定
し、分割された認識結果を重複部分で自動的に併合する
機能が付加されている。
なお、上記同一文字列判定手段9および制御手段8aは
マイクロプロセッサ等により実現されるものである。
次に本実施例の動作を説明する。なお、前記〔従来の技
術〕の項で記述した内容と重複するものの説明は省略し
、ここでは新たに追加、変更した手段についてのみ説明
する。
第7図の帳票を2分割して走査し、第2図に示すような
認識結果を得たとする。まず、同一文字列判定手段9は
、2つに分割された認識結果を用いて重複文字列部分を
捜す。重複文字列の捜し方は以下のように行う。2つに
分割された認識結果のうち左側にくる認識結果を文字列
N1、右側にくる認識結果を文字列N2とし、文字列N
1の最後の文字から認識不能でない文字を捜し、同一文
字列判定手段9はその文字と文字列N2の先頭から認識
不能でない文字とを順番に同一文字か否か判定する。第
2図中、1行目の文字列N1は16で、文字列N2は1
8である。文字列N1(16)中の最後の文字は「に」
23でこれは認識不能文字でないので、この文字と、分
割文字列2(18)の先頭文字から同一文字か否かを判
定する。
同一文字の判定は、記憶手段5より認識候補文字および
その類似度を入力し、例えば上位3個の認識候補文字が
一致し、かつ各文字の類似度の差が3以下の場合に同一
文字と判定する。第3図に第2図の文字「にJ23.r
間J24.r法」25、「に」26の認識結果とその類
似度を示す。
文字23と認識結果の候補文字が最初に一致するのは文
字26で、本来この2つの文字は帳票1上では同一文字
であるため、走査時の光学系の変動や走査の傾きなどは
あるが、認識結果の候補文字および各候補文字の類似度
は一致あるいは類似している。これより、文字26が文
字23と同−文字と判定することができる。
同一文字と判定されると、制御手段8aは、次に文字列
N2で同一文字と判定された文字より前に認識不能でな
い文字が存在するかチエツクする。
存在するならば、文字列Nl、N2ともに同一判定対象
文字を前力向に文字列N2中の先頭文字まで1文字ずつ
ずらし、上記と同様に同一文字か否か判定する。第2図
では2文字「法」27と文字25、文字「間」28と文
字24を同一文字か否か判定する。第4図に文字27と
文字28の認識結果を示す。これより、文字 28,2
7.23から構成される文字列と文字24,25.26
から構成される文字列が同一文字列と判定される。
ここで、第5図(a)に示したように、文字列N1の最
終文字と同一文字が文字列N2中に複数個ある場合は、
最初文字「て」29と文字「て」30が同一文字と判定
されるが、文字「い」31と文字「き」32が認識結果
の1番目の候補文字が異なり、同一文字でないと判定さ
れるので、文字31..29から構成される文字列と文
字32゜30から構成される文字列は、異なる文字列と
判定される。したがって、次に文字「い」33以降の文
字について文字29と同一文字の判定を行う。
その結果、文字「て」34が文字29と同一文字と判定
される。この後は、上記と同様にしてその前の文字列に
ついて判定が行われ、文字「き]35、「てJ 36,
31.29から構成される文字列「きていて」と文字3
2.30,33.34から構成される文字列「きていて
jだ同一文字列判定される。また、第5図(b)に示す
ように、重複領域を設けずに分割走査した場合は、文字
列Nlの最後の文字「て」37と同一文字が文字列2中
に存在せず、失敗する。この場合は、重複文字列なしと
判定する。
次に制御手段8aは、文字列Nl中から同−二“字列と
判定された文字列を同一文字列して削除し、文字列N2
と併合する。その際、文字列N】の最後の文字あるいは
文字列N2の先頭文字に認識不能文字がある場合は文字
イメージの一部が欠けたためであると予想されるので、
その文字を削除した後に併合する。重複文字列なしの場
合は、文字列N1と文字列N2をそのまま併合する。そ
の後の誤読文字の修正は従来例と同様に行う。
なお、上記実施例では、併合対象文字列の対の指定を行
わないものとした。即ち文字列N1に対応する文字列N
2をみつけるのは自明な方法で自動的に行うものとした
が、対応する分割文字列をみつけるのが困難な場合には
、走査イメージを表示手段に表示して、マウス等の入力
手段により併合対象文字列の対を指定するようにしても
よい。
また、上記実施例では、文字列間の関係を用いなかった
が、各文字列中の重複文字列の長さがほぼ一定になると
いった関係などの文字列間にまたがる情報を用いるよう
にして、精度を上げるようにしてもよい。また、上記実
施例では、重複文字列を捜す場合に、分割文字列N1の
最後の文字と、同一文字がみつかるまで、分割文字列N
2中の文字と判定を行ったが、分割文字列N2中の判定
対象文字を規定個数に絞るようにと7てもよい。また、
上記実施例では、分割文字列N2中で所定の条件を満た
すものが1つでもみつかれば無条件に同一文字列したが
、分割文字列N2中に条件を満足する複数の重複文字列
が存在する場合は、それらを候補文字列として表示する
ようにし、入力手段で選択できるようにしてもよい。
〔発明の効果〕
以上のように本発明によれば、文字列を設け、それらの
分割領域の認識結果を用いて重複文字列を判定し、複数
の分割領域の認識結果から上記同一文字列判定手段によ
り重複文字列を削除し、複数の分割領域の認識結果を併
合するようにしたので、走査幅の狭いハンドスキャナ等
の走査手段で、走査幅を越える文字列でも、分割走査す
る際の位置合わせ冬厳密に行うことなく簡単に走査でき
、これにより修正時間を短縮され、したがって文字読み
嵌め速度が向上するという効果が得られる。
【図面の簡単な説明】
第1図はこの発明の一実施例の文字認識方式を採用した
文字認識装置の構成を示すブロック図、第2図は重複文
字列の捜し方を示す図、第3図および第4図は文字の認
識結果の候補文字およびその類似度を示す図、第5図は
同一文字が複数ある場合および重複文字列が存在しない
場合の例を示す図、第6図は従来の文字認識方式を採用
した文字認識装置の構成を示すブロック図、第7図は入
力帳票を示す図、第8図は入力帳票を2つの領域に分割
走査しそのイメージを表示手段に表示した図、第9図は
分割走査した各領域の認識結果を示す図、第10図は認
識結果中の重複文字列を指定した図、第11図は1行目
の重複文字列を削除した図、第12図はすべての重複文
字列を削除した図である。 1は帳票(記録媒体)、2は走査手段、3は認識辞書、
4は認識手段、5は記憶手段、6は表示手段、7は入力
手段、8aは制御手段、9は同一文字列判定手段。 第1図 gg2図

Claims (1)

    【特許請求の範囲】
  1.  記録媒体上の文字を走査して光電変換する走査手段と
    、認識対象文字の基準パターンを格納した認識辞書と、
    上記走査手段から得られる文字パターンと上記認識辞書
    内の基準パターンとを比較して類似度の高い認識候補文
    字およびその類似度を出力する認識手段と、上記認識候
    補文字およびその類似度を記憶する記憶手段と、上記文
    字の認識結果を表示する表示手段と、この表示手段に表
    示された認識結果に応じて修正入力を行なう入力手段と
    、上記記憶手段と上記表示手段と上記入力手段とを制御
    し認識候補文字およびその類似度に基づく認識結果の表
    示および修正入力に基づく正しい文字への置き換え処理
    を行なう制御手段とを備えた文字認識装置において、上
    記認識候補文字およびその類似度を用い、分割された複
    数の文字列中に同一文字列があるか否かを判定する同一
    文字列判定手段を設け、上記走査手段が上記記録媒体上
    の文字列を重複領域を含んで分割走査した場合、上記制
    御手段は各分割領域の認識結果を用いて上記同一文字列
    判定手段により重複文字列を判定し、複数の分割領域の
    認識結果から上記重複文字列と判定された文字列部分の
    一方を削除し、複数の分割領域の認識結果を併合するこ
    とを特徴とする文字認識方式。
JP1200692A 1989-08-02 1989-08-02 文字認識方式 Pending JPH0363895A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1200692A JPH0363895A (ja) 1989-08-02 1989-08-02 文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1200692A JPH0363895A (ja) 1989-08-02 1989-08-02 文字認識方式

Publications (1)

Publication Number Publication Date
JPH0363895A true JPH0363895A (ja) 1991-03-19

Family

ID=16428661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1200692A Pending JPH0363895A (ja) 1989-08-02 1989-08-02 文字認識方式

Country Status (1)

Country Link
JP (1) JPH0363895A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024762A (ja) * 2000-06-30 2002-01-25 Toshiba Corp 文書認識装置及びその方法
US7221796B2 (en) 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program
JP2016201093A (ja) * 2015-04-08 2016-12-01 東芝テック株式会社 画像処理装置及び画像処理方法
JP2016201094A (ja) * 2015-04-08 2016-12-01 東芝テック株式会社 画像処理装置及び画像処理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024762A (ja) * 2000-06-30 2002-01-25 Toshiba Corp 文書認識装置及びその方法
US7221796B2 (en) 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program
JP2016201093A (ja) * 2015-04-08 2016-12-01 東芝テック株式会社 画像処理装置及び画像処理方法
JP2016201094A (ja) * 2015-04-08 2016-12-01 東芝テック株式会社 画像処理装置及び画像処理方法
JP2020030857A (ja) * 2015-04-08 2020-02-27 東芝テック株式会社 画像処理装置及び画像処理方法

Similar Documents

Publication Publication Date Title
US6466694B2 (en) Document image processing device and method thereof
JPH0363895A (ja) 文字認識方式
JPS63249267A (ja) 電子ファイリング装置の管理方法
JPH04104367A (ja) ファイルシステム
JPH087071A (ja) 画像ファイル装置
JP2810491B2 (ja) 文書ファイリング装置
JPH09114918A (ja) 光学式文字読取装置
JPH0388086A (ja) 文書読取装置
JP3101073B2 (ja) 文字認識の後処理方法
JPH08185470A (ja) 文書読取装置
JPH07306863A (ja) ドキュメント・辞書間リンク生成装置
JPH04288691A (ja) 文字認識装置
JP3466761B2 (ja) 文書処理装置及びその制御方法
JPH0365779A (ja) 文書入力方式
JPS63208180A (ja) 文字認識装置
JPH1069494A (ja) 画像検索方法とその装置
JPH08137860A (ja) 仮名漢字変換装置、および仮名漢字変換方法
JP3310063B2 (ja) 文書処理装置
JPH0417085A (ja) 光学文字読取システム
JPH08202811A (ja) 文字読取装置
JPH06325202A (ja) 文字列修正装置
JPH05298474A (ja) 光学的文字読取装置
JPH1055405A (ja) 住所録読み取り装置及び住所録読み取り方法
JPS61279989A (ja) 認識結果の修正方式
JPH10134120A (ja) 表処理方法および表処理装置