JPH07107700B2 - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JPH07107700B2 JPH07107700B2 JP62105165A JP10516587A JPH07107700B2 JP H07107700 B2 JPH07107700 B2 JP H07107700B2 JP 62105165 A JP62105165 A JP 62105165A JP 10516587 A JP10516587 A JP 10516587A JP H07107700 B2 JPH07107700 B2 JP H07107700B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition
- unit
- character pattern
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】 産業上の利用分野 本発明は、新聞・雑誌等の活字及び手書き文字を認識
し、例えばJISコード等の情報量に変換する文字認識装
置に関するものである。
し、例えばJISコード等の情報量に変換する文字認識装
置に関するものである。
従来の技術 従来の文字認識装置(昭和61年度電子通信学会総合全国
大会予稿中1515)では文字切り出し部で文字を切り出し
た後、文字認識部で認識対象文字パターンを認識辞書と
照合することにより認識候補文字を抽出し、認識結果と
して出力していた。
大会予稿中1515)では文字切り出し部で文字を切り出し
た後、文字認識部で認識対象文字パターンを認識辞書と
照合することにより認識候補文字を抽出し、認識結果と
して出力していた。
発明が解決しようとする問題点 しかしながら上記のような構成では、文字切り出し結果
が誤っていた場合、誤って認識候補文字に対応する認識
対象文字パターンをオペレータが入力画像中で指定し
て、再認識させなければならないという問題点を有して
いた。
が誤っていた場合、誤って認識候補文字に対応する認識
対象文字パターンをオペレータが入力画像中で指定し
て、再認識させなければならないという問題点を有して
いた。
本発明はかかる点に鑑み、認識部で認識候補文字を抽出
した後、再認識制御部において、サブ文字パターン抽出
部で得られたサブ文字パターンの組み合わせを変化させ
て新たに再認識対象文字パターンを決定し、再認識対象
文字パターンを認識部へ転送することにより再認識を行
なう文字認識装置を提供することを目的とする。
した後、再認識制御部において、サブ文字パターン抽出
部で得られたサブ文字パターンの組み合わせを変化させ
て新たに再認識対象文字パターンを決定し、再認識対象
文字パターンを認識部へ転送することにより再認識を行
なう文字認識装置を提供することを目的とする。
問題点を解決するための手段 本発明による文字認識装置は前記問題点を解決するた
め、認識対象文字を含む画像を入力する画像入力部と、
前記画像入力部で入力された画像から認識対象となる文
字の集合である文字列を抽出する文字列抽出部部と、前
記文字列抽出部において抽出された文字例について文字
の構成要素であるサブ文字パターンを抽出するサブ文字
パターン抽出部と、前記サブ文字パターン抽出部におい
て得られたサブ文字パターンから認識対象文字パターン
を決定する認識対象文字パターン決定部と、前記認識対
象文字パターン決定部により得られた認識対象文字パタ
ーンの特徴を計算し前記特徴とする予め辞書に格納され
ている標準文字の特徴とを照合することにより認識候補
文字を決定する認識部と,前記認識部で得られた認識候
補文字を表示する表示部と,前記表示部で表示された認
識候補文字の中で誤認識された連続する文字群を選択す
る選択部と、前記選択部で選択された連続する文字群に
対応する認識対象文字パターンを構成するサブ文字パタ
ーンの組み合わせを変化させて再認識対象文字パターン
を決定し前記認識部に転送する再認識制御部で構成され
ている。
め、認識対象文字を含む画像を入力する画像入力部と、
前記画像入力部で入力された画像から認識対象となる文
字の集合である文字列を抽出する文字列抽出部部と、前
記文字列抽出部において抽出された文字例について文字
の構成要素であるサブ文字パターンを抽出するサブ文字
パターン抽出部と、前記サブ文字パターン抽出部におい
て得られたサブ文字パターンから認識対象文字パターン
を決定する認識対象文字パターン決定部と、前記認識対
象文字パターン決定部により得られた認識対象文字パタ
ーンの特徴を計算し前記特徴とする予め辞書に格納され
ている標準文字の特徴とを照合することにより認識候補
文字を決定する認識部と,前記認識部で得られた認識候
補文字を表示する表示部と,前記表示部で表示された認
識候補文字の中で誤認識された連続する文字群を選択す
る選択部と、前記選択部で選択された連続する文字群に
対応する認識対象文字パターンを構成するサブ文字パタ
ーンの組み合わせを変化させて再認識対象文字パターン
を決定し前記認識部に転送する再認識制御部で構成され
ている。
作用 本発明は前記の技術的手段により、認識部で得られた認
識候補文字が誤っていた場合、再認識を行うためサブ文
字パターンの組み合わせを変化させ再認識制御部で再認
識する対象を抽出するため、認識候補文字に対応する認
識対象文字パターンをオペレータが指示する必要がなく
なり、操作を敏速かつ正確に行うことができる。
識候補文字が誤っていた場合、再認識を行うためサブ文
字パターンの組み合わせを変化させ再認識制御部で再認
識する対象を抽出するため、認識候補文字に対応する認
識対象文字パターンをオペレータが指示する必要がなく
なり、操作を敏速かつ正確に行うことができる。
実施例 本発明の実施例について図面を参照しながら説明する。
第1図は、本発明による文字認識装置の一実施例の構成
図である。1は画像入力部であり、認識対象文字領域を
含む画像を走査して2値信号で画像を入力し画像メモリ
2に格納する。3は文字列抽出部であり、画像メモリ2
を走査して文字列を矩形で切り出す。4はサブ文字パタ
ーン抽出部であり、文字列切り出し部3で切り出した文
字列を列方向と垂直に走査して文字部のヒストグラムを
求め文字パターンの構成要素であるサブ文字パターンを
抽出する。5は認識対象文字パターン決定部であり、サ
ブ文字パターン抽出部4で抽出したサブ文字パターンに
ついて、サブ文字パターンの文字列に垂直な方向の幅、
位置、及びそのサブ文字パターンと隣接するサブ文字パ
ターンとの距離を考慮して独立した認識対象文字パター
ンを決定する。6は認識部であり、認識対象文字パター
ン決定部5で得られた各認識対象文字パターンのストロ
ーク等の特徴量を求め、予め辞書7に登録されている文
字の特徴量と照合し、最も似た文字を認識候補文字とす
る。8は表示部であり、認識部6で得られた認識候補文
字を表示する。9は選択部であり、表示部8で表示され
た認識候補文字の中で誤認識された連続する文字群を選
択する。10は再認識制御部であり、選択部9で選択され
た連続する文字群に対応する認識対象文字パターンに含
まれるサブ文字パターンのすべての組み合わせて認識部
6に転送する。
図である。1は画像入力部であり、認識対象文字領域を
含む画像を走査して2値信号で画像を入力し画像メモリ
2に格納する。3は文字列抽出部であり、画像メモリ2
を走査して文字列を矩形で切り出す。4はサブ文字パタ
ーン抽出部であり、文字列切り出し部3で切り出した文
字列を列方向と垂直に走査して文字部のヒストグラムを
求め文字パターンの構成要素であるサブ文字パターンを
抽出する。5は認識対象文字パターン決定部であり、サ
ブ文字パターン抽出部4で抽出したサブ文字パターンに
ついて、サブ文字パターンの文字列に垂直な方向の幅、
位置、及びそのサブ文字パターンと隣接するサブ文字パ
ターンとの距離を考慮して独立した認識対象文字パター
ンを決定する。6は認識部であり、認識対象文字パター
ン決定部5で得られた各認識対象文字パターンのストロ
ーク等の特徴量を求め、予め辞書7に登録されている文
字の特徴量と照合し、最も似た文字を認識候補文字とす
る。8は表示部であり、認識部6で得られた認識候補文
字を表示する。9は選択部であり、表示部8で表示され
た認識候補文字の中で誤認識された連続する文字群を選
択する。10は再認識制御部であり、選択部9で選択され
た連続する文字群に対応する認識対象文字パターンに含
まれるサブ文字パターンのすべての組み合わせて認識部
6に転送する。
以上のように構成された文字認識装置の動作について、
まず第2図に示すような画像を入力した場合を例に説明
する。
まず第2図に示すような画像を入力した場合を例に説明
する。
画像入力部1から入力された第2図に示すような画像は
2値化された画像メモリ2に格納される。文字列り出し
部3は画像メモリ2に蓄えられている入力画像から予め
絶対的な位置が決められている文字列を第3図(a)に
示すように幅W,高さHの矩形Rで切り出す。
2値化された画像メモリ2に格納される。文字列り出し
部3は画像メモリ2に蓄えられている入力画像から予め
絶対的な位置が決められている文字列を第3図(a)に
示すように幅W,高さHの矩形Rで切り出す。
次にサブ文字パターン抽出部4では、矩形Rで切りださ
れた文字列に対し、文字列方向に対し垂直に走査して文
字列のヒストグラムを第3図(b)に示すように求め、
連続する文字部により構成される文字パターを切り出
し,各サブ文字パターンの幅wi(i=1,2,・・・8)を
求める。第3図(C)に切り出されたサブ文字パターン
Ps1,s2,・・・,Ps8を示す。
れた文字列に対し、文字列方向に対し垂直に走査して文
字列のヒストグラムを第3図(b)に示すように求め、
連続する文字部により構成される文字パターを切り出
し,各サブ文字パターンの幅wi(i=1,2,・・・8)を
求める。第3図(C)に切り出されたサブ文字パターン
Ps1,s2,・・・,Ps8を示す。
認識対象文字パターン決定部5では,サブ文字パターン
抽出部で抽出された各サブ文字パターンの中からサブ文
字パターンの幅wiと矩形Rで切り出した文字列の高さH
とを比較し、その最大値を基準値Aとする。例えば,第
3図(b)ではHが最大であり,基準値AはHとなる。
さらに隣接するサブ文字パターンの幅と隣接距離の和が
一定の定数以内の場合、即ちサブ文字パターンPsiに着
目した場合、 を満たすような関係にある場合には、隣接するサブ文字
パターンを組み合わせて1つの認識対象文字パターンと
する。通常は第3図の例「認」、「識」のように2つの
サブ文字パターンPsiとPs(i+1)の組合せが多い
が、「湘」や「郷」のように3つ以上のサブ文字パター
ンに分かれる場合、隣接するサブ文字パターンPsi、Ps
(i+1)、Ps(i+2)…の組合せも認識対象文字パ
ターンとなる。上述の手順によって、認識対象文字パタ
ーンP1,P2,・・・,P6を第4図に示すように決定する。
抽出部で抽出された各サブ文字パターンの中からサブ文
字パターンの幅wiと矩形Rで切り出した文字列の高さH
とを比較し、その最大値を基準値Aとする。例えば,第
3図(b)ではHが最大であり,基準値AはHとなる。
さらに隣接するサブ文字パターンの幅と隣接距離の和が
一定の定数以内の場合、即ちサブ文字パターンPsiに着
目した場合、 を満たすような関係にある場合には、隣接するサブ文字
パターンを組み合わせて1つの認識対象文字パターンと
する。通常は第3図の例「認」、「識」のように2つの
サブ文字パターンPsiとPs(i+1)の組合せが多い
が、「湘」や「郷」のように3つ以上のサブ文字パター
ンに分かれる場合、隣接するサブ文字パターンPsi、Ps
(i+1)、Ps(i+2)…の組合せも認識対象文字パ
ターンとなる。上述の手順によって、認識対象文字パタ
ーンP1,P2,・・・,P6を第4図に示すように決定する。
認識部6では、認識対象文字パターン抽出部で得られた
認識対象文字パターンPiについて、第5図(d)の矢印
が示す方向に着目画素を含んでM個以上連なっているか
否かを調べて着目画素に方向コードを付与し、方向コー
ド毎に画素の連結性を調べてストロークを抽出し、スト
ロークの数・位置・長さ等をn次元の特徴量fij(J=
1,・・・,n)として抽出する。第5図(a)に認識対象
文字パターン「文」のストローク抽出結果を示す。さら
に、得られた認識対象文字パターンPiの特徴量fijと予
め貯えられている認識用辞書6の各文字Ckの特徴量ckj
との距離Dikを Dik=Σ|fij−ckj| により求め、Dikが小さいものを認識候補文字とする。
認識対象文字パターンPiについて、第5図(d)の矢印
が示す方向に着目画素を含んでM個以上連なっているか
否かを調べて着目画素に方向コードを付与し、方向コー
ド毎に画素の連結性を調べてストロークを抽出し、スト
ロークの数・位置・長さ等をn次元の特徴量fij(J=
1,・・・,n)として抽出する。第5図(a)に認識対象
文字パターン「文」のストローク抽出結果を示す。さら
に、得られた認識対象文字パターンPiの特徴量fijと予
め貯えられている認識用辞書6の各文字Ckの特徴量ckj
との距離Dikを Dik=Σ|fij−ckj| により求め、Dikが小さいものを認識候補文字とする。
表示部8は、画像メモリ2に格納されている2値画像と
認識対象文字パターン決定部5で得られた認識対象文字
パターンPiを含む矩形を第6図上段のように、認識部6
で得られた認識候補文字を第6図下段のように表示す
る。
認識対象文字パターン決定部5で得られた認識対象文字
パターンPiを含む矩形を第6図上段のように、認識部6
で得られた認識候補文字を第6図下段のように表示す
る。
ここで、第7図上段に示されるように認識対象文字パタ
ーン決定部5において切り出し誤りが生じた場合は、表
示部8において表示された認識候補文字の中から、選択
部9により切り出しが誤っている『言』『た』『哉』と
いる文字群を選択する。なお、選択部9はキーボードや
マウス等の指示手段により構成されており、オペレータ
がこれらの指示手段を用いて会話的に誤った切り出し文
字を指示することが可能である。
ーン決定部5において切り出し誤りが生じた場合は、表
示部8において表示された認識候補文字の中から、選択
部9により切り出しが誤っている『言』『た』『哉』と
いる文字群を選択する。なお、選択部9はキーボードや
マウス等の指示手段により構成されており、オペレータ
がこれらの指示手段を用いて会話的に誤った切り出し文
字を指示することが可能である。
再認識制御部10では、選択部9によって選択された文字
群とサブ文字パターン抽出部4によって抽出されたサブ
文字パターンを照合して誤認識文字群に対応するサブ文
字パターンを抽出する。抽出されたサブ文字パターン
は、第8図におけるQ3,Q4,Q5,Q6である。次に、この4
つのサブ文字パターンのすべての組み合わせを再認識対
象文字パターンとして認識部6に出力する。再認識制御
部10で求められた再認識対象文字パターンを第9図に示
す。
群とサブ文字パターン抽出部4によって抽出されたサブ
文字パターンを照合して誤認識文字群に対応するサブ文
字パターンを抽出する。抽出されたサブ文字パターン
は、第8図におけるQ3,Q4,Q5,Q6である。次に、この4
つのサブ文字パターンのすべての組み合わせを再認識対
象文字パターンとして認識部6に出力する。再認識制御
部10で求められた再認識対象文字パターンを第9図に示
す。
認識部6では、再認識制御部10で求められた再認識対象
文字パターンに対して認識処理を行ない認識候補文字を
表示部8へ転送し、表示部8では第10図のように表示す
る。オペレータは、第10図の中から正しい認識候補文字
を選択することにより文字切り出しの訂正を行う。
文字パターンに対して認識処理を行ない認識候補文字を
表示部8へ転送し、表示部8では第10図のように表示す
る。オペレータは、第10図の中から正しい認識候補文字
を選択することにより文字切り出しの訂正を行う。
発明の効果 本発明では、認識対象文字パターン決定部で文字の切り
出し誤りが生じた場合、再認識制御部においてサブ文字
パターンの組み合わせを変えることにより再認識対象文
字パターンを決定するので、オペレータが認識候補文字
に対応する認識対象文字パターンを探し出して指示する
必要がなくなり、文字切り出しの訂正を敏速に行える。
また、オペレータが誤って認識候補文字に対応しない認
識対象文字パターンを指定することもなくなるので、訂
正を正確に行える。したがって、本発明における文字認
識装置は、極めて産業上価値の高いものである。
出し誤りが生じた場合、再認識制御部においてサブ文字
パターンの組み合わせを変えることにより再認識対象文
字パターンを決定するので、オペレータが認識候補文字
に対応する認識対象文字パターンを探し出して指示する
必要がなくなり、文字切り出しの訂正を敏速に行える。
また、オペレータが誤って認識候補文字に対応しない認
識対象文字パターンを指定することもなくなるので、訂
正を正確に行える。したがって、本発明における文字認
識装置は、極めて産業上価値の高いものである。
第1図は本発明の一実施例に於ける文字認識装置の構成
図、第2図は入力画像の一例を示す説明図、第3図は本
発明の一実施例に於ける文字の切り出し方法を示す説明
図、第4図は本発明の一実施例に於ける文字切り出し方
法による文字切り出し結果の説明図、第5図は本発明の
一実施例に於ける特徴量の抽出方法を示す説明図、第6
図は本発明の一実施例に於いて表示部で表示された認識
候補文字の説明図、第7図は本発明の一実施例に於いて
誤切り出しを生じた場合の画像と切り出し結果と認識候
補文字の説明図、第8図は本発明の一実施例に於いて誤
切り出しを生じた場合のサブ文字パターンの説明図、第
9図は本発明の一実施例に於ける再認識制御部で得られ
た再認識対象文字パターンの説明図、第10図は本発明の
一実施例に於いて再認識を行って抽出された認識候補文
字の説明図である。 1……画像入力部、2……画像メモリ部、3……文字列
抽出部,4……サブ文字パターン抽出部、5……認識対象
文字パターン決定部、6……認識部、7……辞書、8…
…表示部、9……選択部、10……再認識制御部。
図、第2図は入力画像の一例を示す説明図、第3図は本
発明の一実施例に於ける文字の切り出し方法を示す説明
図、第4図は本発明の一実施例に於ける文字切り出し方
法による文字切り出し結果の説明図、第5図は本発明の
一実施例に於ける特徴量の抽出方法を示す説明図、第6
図は本発明の一実施例に於いて表示部で表示された認識
候補文字の説明図、第7図は本発明の一実施例に於いて
誤切り出しを生じた場合の画像と切り出し結果と認識候
補文字の説明図、第8図は本発明の一実施例に於いて誤
切り出しを生じた場合のサブ文字パターンの説明図、第
9図は本発明の一実施例に於ける再認識制御部で得られ
た再認識対象文字パターンの説明図、第10図は本発明の
一実施例に於いて再認識を行って抽出された認識候補文
字の説明図である。 1……画像入力部、2……画像メモリ部、3……文字列
抽出部,4……サブ文字パターン抽出部、5……認識対象
文字パターン決定部、6……認識部、7……辞書、8…
…表示部、9……選択部、10……再認識制御部。
Claims (1)
- 【請求項1】認識対象文字を含む画像を入力する画像入
力部と、前記画像入力部で入力された画像から認識対象
となる文字の集合である文字列を抽出する文字列抽出部
と、前記文字列抽出部において得られた文字列について
文字の構成要素であるサブ文字パターンを抽出するサブ
文字パターン抽出部と、前記サブ文字パターン抽出部に
おいて得られたサブ文字パターンから認識対象文字パタ
ーンを決定する認識対象文字パターン決定部と、前記認
識対象文字パターン決定部により得られた認識対象文字
パターンの特徴を計算し当該特徴と予め辞書に格納され
ている標準文字の特徴とを照合することにより認識候補
文字を決定する認識部と、前記認識部で得られた認識候
補文字を表示する表示部と、前記表示部で表示された認
識候補文字の中で誤認識された連続する文字群を選択す
る選択部と、前記選択部で選択された連続する文字群に
対応する認識対象文字パターンを構成するサブ文字パタ
ーンの組み合せを変化させて再認識対象文字パターンを
決定し前記認識部に転送する再認識制御部を有すること
を特徴とする文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62105165A JPH07107700B2 (ja) | 1987-04-28 | 1987-04-28 | 文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62105165A JPH07107700B2 (ja) | 1987-04-28 | 1987-04-28 | 文字認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63271588A JPS63271588A (ja) | 1988-11-09 |
JPH07107700B2 true JPH07107700B2 (ja) | 1995-11-15 |
Family
ID=14400075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62105165A Expired - Fee Related JPH07107700B2 (ja) | 1987-04-28 | 1987-04-28 | 文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07107700B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02278392A (ja) * | 1989-04-20 | 1990-11-14 | Fuji Electric Co Ltd | 文字認識装置 |
JP2021144307A (ja) * | 2020-03-10 | 2021-09-24 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59197971A (ja) * | 1983-04-23 | 1984-11-09 | Nippon Telegr & Teleph Corp <Ntt> | 文字切出し装置 |
JPH0789363B2 (ja) * | 1983-05-25 | 1995-09-27 | 株式会社東芝 | 文字認識装置 |
JPS6111886A (ja) * | 1984-06-28 | 1986-01-20 | Mitsubishi Electric Corp | 文字認識方式 |
-
1987
- 1987-04-28 JP JP62105165A patent/JPH07107700B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPS63271588A (ja) | 1988-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4813078A (en) | Character recognition apparatus | |
JP2713622B2 (ja) | 表形式文書読取装置 | |
US7512272B2 (en) | Method for optical recognition of a multi-language set of letters with diacritics | |
JP2000315247A (ja) | 文字認識装置 | |
JPH07107700B2 (ja) | 文字認識装置 | |
JP3159087B2 (ja) | 文書照合装置および方法 | |
JP2661898B2 (ja) | 文字認識装置 | |
JP2917427B2 (ja) | 図面読取装置 | |
KR950001061B1 (ko) | 문서인식 수정장치 | |
JPH09259222A (ja) | フォーマット認識装置及び文字読取り装置 | |
JP2993533B2 (ja) | 情報処理装置及び文字認識装置 | |
JP2537973B2 (ja) | 文字認識装置 | |
KR100248384B1 (ko) | 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 | |
JPH0877293A (ja) | 文字認識装置および文字認識用辞書作成方法 | |
KR940009749B1 (ko) | 글자 분할 방법 | |
JP2004341754A (ja) | 文字認識結果修正装置及びその方法並びに文字認識結果修正プログラム | |
CN116311264A (zh) | 一种基于字符轮廓的字符识别方法 | |
JP2000207491A (ja) | 文字列読取方法及び装置 | |
JPS6337490A (ja) | 文字認識装置 | |
JPH11120294A (ja) | 文字認識装置および媒体 | |
JP2974396B2 (ja) | 画像処理方法及び装置 | |
JPH09326012A (ja) | 文字認識装置および文字認識方法 | |
JPH0576671B2 (ja) | ||
JPS6219990A (ja) | 文字認識装置 | |
JPH07117995B2 (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |