JPH04372086A - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JPH04372086A JPH04372086A JP3150016A JP15001691A JPH04372086A JP H04372086 A JPH04372086 A JP H04372086A JP 3150016 A JP3150016 A JP 3150016A JP 15001691 A JP15001691 A JP 15001691A JP H04372086 A JPH04372086 A JP H04372086A
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition
- erroneous
- section
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 abstract description 13
- 230000011218 segmentation Effects 0.000 abstract description 12
- 238000012986 modification Methods 0.000 abstract description 4
- 230000004048 modification Effects 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、新聞、雑誌などの活字
、ドット文字及び手書き文字パターンをJISコード等
のコード情報に変換する文字認識装置に関するものであ
る。
、ドット文字及び手書き文字パターンをJISコード等
のコード情報に変換する文字認識装置に関するものであ
る。
【0002】
【従来の技術】従来の文字認識装置において、半角の2
文字からなる認識対象文字“12”を認識した結果、切
り出し誤りにより全角の1文字“位”が認識結果として
得られた場合、誤り訂正処理は以下のようになる。
文字からなる認識対象文字“12”を認識した結果、切
り出し誤りにより全角の1文字“位”が認識結果として
得られた場合、誤り訂正処理は以下のようになる。
【0003】“位”の認識類似度があるしきい値よりも
低ければ、切り出し誤りの可能性が高いと判断され、“
位”に相当する認識対象文字“12”を再切り出しする
。再切り出しにより、“1”“2”が得られる。
低ければ、切り出し誤りの可能性が高いと判断され、“
位”に相当する認識対象文字“12”を再切り出しする
。再切り出しにより、“1”“2”が得られる。
【0004】次に、“1”“2”を文字認識する事にな
るが、文字認識部では正解の文字種がわからないために
辞書中のすべての文字との照合処理を行わねばならず、
認識処理に時間がかかる。また、“位”の認識類似度が
しきい値よりも高ければ再切り出しは行なわれず、訂正
は不可能である。
るが、文字認識部では正解の文字種がわからないために
辞書中のすべての文字との照合処理を行わねばならず、
認識処理に時間がかかる。また、“位”の認識類似度が
しきい値よりも高ければ再切り出しは行なわれず、訂正
は不可能である。
【0005】
【発明が解決しようとする課題】従来の文字認識装置で
は、切り出し誤りによる誤認識が生じた場合、以前に生
じた同様な切り出し誤りがあったとしても、その時点に
おいて行なわれた訂正処理情報を利用することが考えら
れていない。よって、再切り出し後の文字認識に時間が
かかる。更に、再切り出しを必要とする部分を発見でき
ない可能性が高い。
は、切り出し誤りによる誤認識が生じた場合、以前に生
じた同様な切り出し誤りがあったとしても、その時点に
おいて行なわれた訂正処理情報を利用することが考えら
れていない。よって、再切り出し後の文字認識に時間が
かかる。更に、再切り出しを必要とする部分を発見でき
ない可能性が高い。
【0006】
【課題を解決するための手段】本発明は、前記問題点を
解決するため、以下に示す手段を設ける。
解決するため、以下に示す手段を設ける。
【0007】文字認識の結果、誤認識部分が含まれてい
たならば、エディタによってユーザーが誤認識部分を手
修正する。このとき、誤認識部分の文字数と訂正後の文
字数が違っていれば切り出し誤りと判断できる。切り出
し誤りならば、誤認識文字の文字種、訂正後の文字種、
誤認識文字の直前・直後の文字をパターンとして記憶し
ておく。
たならば、エディタによってユーザーが誤認識部分を手
修正する。このとき、誤認識部分の文字数と訂正後の文
字数が違っていれば切り出し誤りと判断できる。切り出
し誤りならば、誤認識文字の文字種、訂正後の文字種、
誤認識文字の直前・直後の文字をパターンとして記憶し
ておく。
【0008】以後の文字認識時に、記憶されたパターン
と一致する認識結果が得られたならば、文字切り出し部
において再切り出しを行ない、文字認識部ではパターン
登録されている訂正文字の文字種に限定して辞書との照
合を行う。
と一致する認識結果が得られたならば、文字切り出し部
において再切り出しを行ない、文字認識部ではパターン
登録されている訂正文字の文字種に限定して辞書との照
合を行う。
【0009】
【作用】本発明は前記の構成により、訂正するべき切り
出し誤り部分を見逃すことなく、高速に訂正処理を行う
ことができる。
出し誤り部分を見逃すことなく、高速に訂正処理を行う
ことができる。
【0010】
【実施例】本発明の一実施例について図面を参照して説
明する。図1は、本発明の一実施例における文字認識装
置の構成を示したブロック図である。
明する。図1は、本発明の一実施例における文字認識装
置の構成を示したブロック図である。
【0011】図1において、11は画像読み取り装置か
ら読み取った画像データより文字領域を切り出す文字切
り出し部、12は切り出された文字領域の画像データを
文字認識して文字コードに変換する文字認識部、13は
文字認識結果を記憶する認識結果記憶部、14は認識誤
りを訂正する誤認識訂正部、15は誤認識訂正部におい
て訂正された誤認識文字が切り出し誤りであった場合誤
認識文字の文字種と、訂正された正解文字の文字種と、
誤認識文字の直前・直後の文字とを記憶する誤切り出し
パターン記憶部、16は文字認識結果と誤切り出しパタ
ーンを照合する誤切り出しパターン照合部、17は誤切
り出しパターン照合部において発見された誤切り出し部
分に対する再切り出し情報と、再切り出しされる文字領
域の候補文字種情報とを作成する修正情報作成部である
。
ら読み取った画像データより文字領域を切り出す文字切
り出し部、12は切り出された文字領域の画像データを
文字認識して文字コードに変換する文字認識部、13は
文字認識結果を記憶する認識結果記憶部、14は認識誤
りを訂正する誤認識訂正部、15は誤認識訂正部におい
て訂正された誤認識文字が切り出し誤りであった場合誤
認識文字の文字種と、訂正された正解文字の文字種と、
誤認識文字の直前・直後の文字とを記憶する誤切り出し
パターン記憶部、16は文字認識結果と誤切り出しパタ
ーンを照合する誤切り出しパターン照合部、17は誤切
り出しパターン照合部において発見された誤切り出し部
分に対する再切り出し情報と、再切り出しされる文字領
域の候補文字種情報とを作成する修正情報作成部である
。
【0012】以上のように構成された本実施例の文字認
識装置について、図1、図2、図3、図4、図5を基に
説明する。
識装置について、図1、図2、図3、図4、図5を基に
説明する。
【0013】図2(a)は、一枚目の文字認識対象用紙
に印刷されている文字認識対象文字列である。
に印刷されている文字認識対象文字列である。
【0014】文字切り出し部11において、図2(a)
に対する文字切り出しを行ない、切り出し情報を文字認
識部12へ送出する(s51)。
に対する文字切り出しを行ない、切り出し情報を文字認
識部12へ送出する(s51)。
【0015】次に、文字認識部(12)では文字認識を
行ない、結果を認識結果記憶部13へ送出する(s52
)。
行ない、結果を認識結果記憶部13へ送出する(s52
)。
【0016】次に、何枚目の認識処理なのかを判定する
(s53)。一枚目の認識処理なので、誤認識訂正部1
4へ処理を移す。
(s53)。一枚目の認識処理なので、誤認識訂正部1
4へ処理を移す。
【0017】次に、誤認識訂正部14では、認識結果中
に存在する誤認識部分をエディタによって修正する(s
54)。このとき、誤認識文字の文字数と修正後の文字
数が異なるならば、切り出し誤りがあったものと判断さ
れ、誤認識文字の文字種と、訂正された正解文字の文字
種と、誤認識文字の直前・直後の文字を誤切り出しパタ
ーン記憶部15へ記憶する(s55)。
に存在する誤認識部分をエディタによって修正する(s
54)。このとき、誤認識文字の文字数と修正後の文字
数が異なるならば、切り出し誤りがあったものと判断さ
れ、誤認識文字の文字種と、訂正された正解文字の文字
種と、誤認識文字の直前・直後の文字を誤切り出しパタ
ーン記憶部15へ記憶する(s55)。
【0018】図2(b)は、認識結果である。本来なら
ば、“1”“2”であるはずの文字が、全角の一文字と
して誤って切り出されたため“位”と認識されてしまっ
ている。同様に、“1”“3”であるはずの文字が、全
角の一文字として誤って切り出されたため“価”と認識
されてしまっている。これら2カ所の誤認識部分は、誤
認識された状態では文字数1であるが、修正後は文字数
2となるので、誤認識パターン記憶部15へ記憶される
。図3は誤認識パターン記憶部15へ記憶される情報で
ある。
ば、“1”“2”であるはずの文字が、全角の一文字と
して誤って切り出されたため“位”と認識されてしまっ
ている。同様に、“1”“3”であるはずの文字が、全
角の一文字として誤って切り出されたため“価”と認識
されてしまっている。これら2カ所の誤認識部分は、誤
認識された状態では文字数1であるが、修正後は文字数
2となるので、誤認識パターン記憶部15へ記憶される
。図3は誤認識パターン記憶部15へ記憶される情報で
ある。
【0019】次に、一枚目の認識結果におけるすべての
誤認識文字について修正作業が終了したならば、二枚目
の認識対象用紙の認識処理へ処理を移す(s56)。
誤認識文字について修正作業が終了したならば、二枚目
の認識対象用紙の認識処理へ処理を移す(s56)。
【0020】図4(a)は、二枚目の文字認識対象用紙
に印刷されている文字認識対象文字列である。
に印刷されている文字認識対象文字列である。
【0021】文字切り出し部11において、図4(a)
に対する文字切り出しを行ない、切り出し情報を文字認
識部へ送出する(s51)。
に対する文字切り出しを行ない、切り出し情報を文字認
識部へ送出する(s51)。
【0022】次に、文字認識部12では文字認識を行な
い、結果を認識結果記憶部13へ送出する(s52)。
い、結果を認識結果記憶部13へ送出する(s52)。
【0023】次に、何枚目の認識処理なのかを判定する
(s53)。一枚目の認識処理ではないので、誤切り出
しパターン照合部16へ処理を移す。
(s53)。一枚目の認識処理ではないので、誤切り出
しパターン照合部16へ処理を移す。
【0024】次に、誤切り出しパターン照合部16では
、誤切り出しパターン記憶部15に記憶された誤認識パ
ターンと認識結果を照合して、切り出し誤り箇所を検索
する(s57)。
、誤切り出しパターン記憶部15に記憶された誤認識パ
ターンと認識結果を照合して、切り出し誤り箇所を検索
する(s57)。
【0025】図4(b)は、認識結果である。“2”“
4”であるはずの文字が、全角の一文字として誤って切
り出されたため“能”と認識されてしまっている。 “図能に”は、誤認識パターン“図*に”と一致する。 よって、“能”は数字2文字を誤切り出ししたものと判
断される。
4”であるはずの文字が、全角の一文字として誤って切
り出されたため“能”と認識されてしまっている。 “図能に”は、誤認識パターン“図*に”と一致する。 よって、“能”は数字2文字を誤切り出ししたものと判
断される。
【0026】誤切り出し部分が検出されたので処理を修
正情報作成部17へ移す(s58)。
正情報作成部17へ移す(s58)。
【0027】次に、検出された誤切り出し部分に対する
修正情報を作成する(s59)。誤認識パターンより“
能”は2文字の数字であると判断され、文字切り出し部
11へは「認識対象文字列の第2文字は、2文字に分離
できる」(修正情報1)という情報が作成される。文字
認識部12へは「2文字の認識対象文字は、数字である
」(修正情報2)という情報が作成される。
修正情報を作成する(s59)。誤認識パターンより“
能”は2文字の数字であると判断され、文字切り出し部
11へは「認識対象文字列の第2文字は、2文字に分離
できる」(修正情報1)という情報が作成される。文字
認識部12へは「2文字の認識対象文字は、数字である
」(修正情報2)という情報が作成される。
【0028】次に、認識結果に対して、すべての誤認識
パターンとの照合が終了したならば、処理を文字切り出
しへ移す(s5A)。
パターンとの照合が終了したならば、処理を文字切り出
しへ移す(s5A)。
【0029】次に、文字切り出し部11では(修正情報
1)に応じて再切り出しを行う。
1)に応じて再切り出しを行う。
【0030】次に、文字認識部12では再切り出しされ
た文字に対して認識処理を行う。このとき辞書との照合
は、(修正情報2)により数字との照合のみ行なわれる
。
た文字に対して認識処理を行う。このとき辞書との照合
は、(修正情報2)により数字との照合のみ行なわれる
。
【0031】以上の処理によって、図4(a)に示す正
解が得られる。
解が得られる。
【0032】
【発明の効果】本発明は前記の構成により、訂正するべ
き切り出し誤り部分を見逃すことなく、高速に訂正処理
を行うことができる。
き切り出し誤り部分を見逃すことなく、高速に訂正処理
を行うことができる。
【図1】本発明の一実施例におけるブロック図
【図2】
本発明の実施例を説明するための例文1の説明図
本発明の実施例を説明するための例文1の説明図
【図3】本発明の実施例を説明するための例文1で得ら
れた誤認識パターンの説明図
れた誤認識パターンの説明図
【図4】本発明の実施例を説明するための例文2の説明
図
図
【図5】本発明の実施例におけるフローチャート図
1 文字切り出し部
2 文字認識部
3 認識結果記憶部
4 誤認識訂正部
5 誤切り出しパターン記憶部
6 誤切り出しパターン照合部
7 修正情報作成部
Claims (1)
- 【請求項1】画像読み取り装置から読み取った画像デー
タより文字領域を切り出す文字切り出し部と、切り出さ
れた文字領域の画像データを文字認識して文字コードに
変換する文字認識部と、文字認識結果を記憶する認識結
果記憶部と、認識誤りを訂正する誤認識訂正部と、誤認
識訂正部において訂正された誤認識文字が切り出し誤り
であった場合誤認識文字の文字種と訂正された正解文字
の文字種と誤認識文字の直前・直後の文字とを記憶する
誤切り出しパターン記憶部と、文字認識結果と誤切り出
しパターンを照合する誤切り出しパターン照合部と、誤
切り出しパターン照合部において発見された誤切り出し
部分に対する再切り出し情報と、再切り出しされる文字
領域の候補文字種情報を作成する修正情報作成部とを備
えることにより切り出し誤りによる誤認識の修正を確実
且つ高速に行えることを特徴とする文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3150016A JPH04372086A (ja) | 1991-06-21 | 1991-06-21 | 文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3150016A JPH04372086A (ja) | 1991-06-21 | 1991-06-21 | 文字認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04372086A true JPH04372086A (ja) | 1992-12-25 |
Family
ID=15487641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3150016A Pending JPH04372086A (ja) | 1991-06-21 | 1991-06-21 | 文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04372086A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008084105A (ja) * | 2006-09-28 | 2008-04-10 | Oki Electric Ind Co Ltd | 文字切出方法及び文字認識装置 |
US9098759B2 (en) | 2012-05-15 | 2015-08-04 | Fuji Xerox Co., Ltd. | Image processing apparatus, method, and medium for character recognition |
-
1991
- 1991-06-21 JP JP3150016A patent/JPH04372086A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008084105A (ja) * | 2006-09-28 | 2008-04-10 | Oki Electric Ind Co Ltd | 文字切出方法及び文字認識装置 |
US9098759B2 (en) | 2012-05-15 | 2015-08-04 | Fuji Xerox Co., Ltd. | Image processing apparatus, method, and medium for character recognition |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7162086B2 (en) | Character recognition apparatus and method | |
JPH04372086A (ja) | 文字認識装置 | |
JP2000089786A (ja) | 音声認識結果の修正方法および装置 | |
JPH06215184A (ja) | 抽出領域のラベリング装置 | |
JPS6262388B2 (ja) | ||
JP2004046723A (ja) | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 | |
JPH051512B2 (ja) | ||
JP2856409B2 (ja) | 文字認識装置および方法 | |
JPH06290297A (ja) | 文字認識装置 | |
JP2968354B2 (ja) | 文字認識結果の後処理方法 | |
JPH02230484A (ja) | 文字認識装置 | |
JP2922949B2 (ja) | 文字認識の後処理方法 | |
JPH09185674A (ja) | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 | |
JPH09167206A (ja) | 日英混在文書のスペース検出方法、ピッチ書式判定方法、定ピッチ英数文字列のスペース検出方法、及びプロポーショナルピッチ英数文字列のスペース検出方法 | |
JP3151866B2 (ja) | 英文字認識方法 | |
JP2891368B2 (ja) | 文字認識結果の後処理方法 | |
JPH0944604A (ja) | 文字認識処理方法 | |
JPH06259595A (ja) | 文字認識処理装置及び認識処理方法 | |
JPH06282680A (ja) | 文字認識処理装置 | |
JPH0496882A (ja) | 全角/半角判定方法 | |
JPS6139171A (ja) | 文字認識方式 | |
JP3595081B2 (ja) | 文字認識方法 | |
JPH0696286A (ja) | 文字認識装置 | |
JPH08221507A (ja) | 文書認識方法および装置 | |
JPH06309507A (ja) | 文字認識装置 |