JPH08272909A - 文字認識方法および文字認識装置 - Google Patents

文字認識方法および文字認識装置

Info

Publication number
JPH08272909A
JPH08272909A JP7072145A JP7214595A JPH08272909A JP H08272909 A JPH08272909 A JP H08272909A JP 7072145 A JP7072145 A JP 7072145A JP 7214595 A JP7214595 A JP 7214595A JP H08272909 A JPH08272909 A JP H08272909A
Authority
JP
Japan
Prior art keywords
character
similar
recognition
recognition target
closed loop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7072145A
Other languages
English (en)
Inventor
Mitsuru Kubota
満 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP7072145A priority Critical patent/JPH08272909A/ja
Publication of JPH08272909A publication Critical patent/JPH08272909A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 類似文字間の細かい差異に注目して、正確な
類似文字の識別を可能とし、特に、類似文字として濁音
文字と半濁音文字の区別を的確に行うことを目的とす
る。 【構成】 あらかじめ類似文字をグループ分けし、それ
ぞれのグループ毎に類似文字テーブルを設ける。そし
て、あらかじめ格納されている各文字ごとの標準的な特
徴と認識対象文字の特徴との相違度を求め、相違度の最
も小さい文字を第1位の認識候補とし、この第1位の認
識候補文字が前記類似文字テーブルに属するか否かを判
断して、いずれかの類似文字テーブルに属すると判断さ
れた場合には、前記認識対象文字とそれに類似する類似
文字の特定部分について識別を行う。この特定部分の識
別は、認識対象文字の文字パターンを構成する画素が閉
ループを形成している領域を検出するとともに、その閉
ループ領域内にホール部が形成されているか否かによ
り、認識対象文字が濁音文字か半濁音文字かを識別す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、類似文字を的確に識別
可能な文字認識方法および文字認識装置に関し、特に、
類似文字として濁音文字と半濁音文字との区別を行うに
有効な文字認識方法および文字認識装置に関する。
【0002】
【従来の技術】文字認識では、多くの文字種の中から最
終的に候補文字を1つに絞ることが重要な問題となって
いる。特に、日本語文字認識においては、形状が類似し
た類似文字が多く存在し、類似文字識別が一層難しくな
っている。たとえば、漢字を例に取れば、「休」と
「体」、ひらがなでは「ば」と「ぱ」、「べ」と「ぺ」
といった類似文字が多く存在する。このような類似文字
を識別する方法の一例としては、従来、特開平01ー2
33678で示されるような手段(以下、従来技術とい
う)が提案されている。この従来技術について、図8を
参照して説明する。
【0003】図8において、801は画像入力部であ
り、認識対象文字を含む画像を入力する。802は文字
切り出し部であり、画像入力部801で入力された画像
から認識対象文字画像を文字枠(外接矩形)で切り出
す。803は特徴算出部であり、文字切り出し部802
で得られた認識対象文字画像の外接矩形を縦方向に4分
割、横方向に4分割して、合計16個の矩形領域に分
け、各矩形領域における文字部(黒画素部分)の面積を
求め、その面積を特徴成分とする特徴量として算出し、
その特徴量を特徴量記憶部812に記憶させる。
【0004】また、811は辞書であり、各文字の標準
的な特徴を示す特徴成分から成る標準特徴量が予め記憶
されている。804は大分類部であり、前記特徴量記憶
部812に記憶された認識対象文字の特徴量と辞書81
1に記憶されている各文字の標準特徴量とを全特徴成分
を用いて照合し、認識対象文字に対する複数の認識候補
文字を求める。805はキー特徴成分決定部であり、大
分類部804で得られた認識候補文字について、標準特
徴量の特徴成分毎に分散を求め、分散の大きい特徴成分
を、キーとなる特徴成分(キー特徴成分)として決定す
る。806は詳細分類部であり、特徴量記憶部812に
記憶された認識対象文字の特徴量と辞書に記憶されてい
る認識候補文字の標準特徴量とをキー特徴成分決定部8
05で決定されたキー特徴成分のみを用いて照合し、認
識対象文字に対する認識結果を決定する。
【0005】すなわち、この従来技術は、辞書811に
格納されている各認識候補文字の特徴成分同志を比較し
て、差分の大きい特徴成分が類似文字を比較する際に有
効な箇所であると判断して、その有効な箇所の特徴成分
のみを用いて類似文字を識別する方法である。
【0006】
【発明が解決しようとする課題】しかし、前記従来技術
の方法では、類似文字として濁音文字と半濁音文字、た
とえば、「ば」と「ぱ」を考えた場合、必ずしも、特徴
成分の比較によって有効な箇所を比較することができる
とは限らない。つまり、この場合の有効箇所は、濁音で
あることを表す箇所(以下、濁音点という)「゛」と、
半濁音であることを表す箇所(以下、半濁音点という)
「°」であるが、濁音文字「ば」の標準特徴と半濁音文
字「ぱ」の標準特徴を比較した場合、前記濁音点「゛」
と半濁音点「°」以外の文字パターン、つまり「は」の
部分は全く同じわけではなく、両者に差異が生じる場合
もある。これは、手書き文字などの場合は特に顕著であ
る。すなわち、手書き文字の場合には、濁音点「゛」と
半濁音点「°」以外の「は」の部分においても、その文
字パターンは大きく異なる場合も多い。この差異が、前
記濁音点と半濁音点の差異より大きい場合、「ば」と
「ぱ」の区別に有効な部分である前記濁音点と半濁音点
の抽出が行えなくなる虞れもある。このように、従来の
技術では、類似文字間の区別に有効な箇所の抽出が正確
に行えないこともあり、認識率を低くする原因ともなっ
ていた。
【0007】そこで、本発明では、類似文字間の区別に
有効な箇所の抽出を確実に行い、正確な類似文字の識別
を可能とし、特に、類似文字として濁音文字と半濁音文
字の区別に有効な文字認識方法および文字認識装置を提
供することを目的とする。
【0008】
【課題を解決するための手段】本発明の文字認識方法
は、あらかじめ類似文字を類似文字同志ごとにグループ
分けし、それぞれのグループ毎に類似文字テーブルを設
け、2値化された認識対象文字画像の文字パターンをそ
の文字の外接矩形により切り出し、切り出された文字パ
ターンからその認識対象文字の特徴を抽出し、あらかじ
め格納されている各文字ごとの標準的な特徴と前記切り
出された文字パターンの文字の特徴との相違度を求め、
相違度の小さい順に順序付けを行ったのち、相違度のも
っとも小さい文字を第1位の認識候補とし、この第1位
の認識候補文字が前記類似文字テーブルに属するか否か
を判断して、いずれかの類似文字テーブルに属すると判
断された場合には、前記認識対象文字と、この認識対象
文字と同一グループに属する類似文字との間の識別を行
たのち、認識結果を出力する。
【0009】そして、前記認識対象文字と、この認識対
象文字と同一グループ内の類似文字との間の識別は、認
識対象文字の文字パターンにおいて、その文字パターン
を構成する画素が閉ループを形成している領域を検出す
るとともに、閉ループを形成している領域の有無および
その閉ループ領域にホール部が存在するか否かの判断に
より行い、この判断に基づいて認識対象文字が濁音文字
か半濁音文字かを識別する。
【0010】前記認識対象文字の文字パターンにおける
閉ループ領域の有無の判定は、認識対象文字文字パター
ンを幾つかの領域に分割し、濁音文字か半濁音文字かの
識別に必要な検出領域をあらかじめ設定し、その検出領
域内に閉ループが存在するか否かにより判定する。
【0011】また、本発明の文字認識装置は、2値化さ
れた認識対象文字画像の文字パターンをその文字の外接
矩形により切り出す文字枠切り出し手段と、この文字枠
切り出し手段により切り出された文字パターンからその
認識対象文字の特徴を抽出する特徴抽出手段と、あらか
じめ各文字ごとの標準的な特徴が格納されている標準特
徴格納手段と、この標準特徴格納手段の標準的な特徴と
前記切り出された文字パターンの文字の特徴との相違度
を求める相違度計算手段と、この相違度計算手段から出
力される相違度をもとに、相違度の小さい順に順序づけ
する相違度ソート手段と、あらかじめ類似文字を類似文
字同志ごとにグループ分けし、それぞれのグループ毎に
類似文字テーブルを設け、前記相違度ソート部から得ら
れる第1位の認識候補文字がいずれかの類似文字テーブ
ルに属するか否かを判断する類似文字テーブル参照手段
と、この類似文字テーブル参照手段により、前記第1位
の認識候補文字がいずれかの類似文字テーブルに属する
と判断された場合には、前記認識対象文字と、この認識
対象文字と同一グループに属する類似文字との間の識別
を行う類似文字識別手段と、この類似文字識別手段から
の出力をもとに認識結果を出力する認識結果出力手段と
を有している。
【0012】そして、前記認識対象文字と、この認識対
象文字と同一グループ内の類似文字との間の識別は、認
識対象文字の文字パターンにおいて、その文字パターン
を構成する画素が閉ループを形成している領域を検出す
るとともに、閉ループを形成している領域の有無および
その閉ループ領域にホール部が存在するか否かの判断に
より行い、この判断に基づいて認識対象文字が濁音文字
か半濁音文字かを識別するようにしている。
【0013】前記認識対象文字の文字パターンにおける
閉ループ領域の有無の判定検出は、認識対象文字文字パ
ターンを幾つかの領域に分割し、濁音文字か半濁音文字
かの識別に必要な検出領域をあらかじめ設定し、その検
出領域内に閉ループが存在するか否かにより判定する。
【0014】
【作用】本発明は、あらかじめ類似文字を類似文字同志
ごとにグループ分けして、それぞれの類似文字テーブル
に格納しておき、入力された認識対象文字に対する第1
位の認識候補文字に対して類似文字テーブルを参照し、
その第1位の認識候補文字がいずれかの類似文字グルー
プに存在すると判断されると、入力された認識対象文字
と同一グループ内の類似文字との間で、或る特定部分に
ついての識別を行うことにより、類似文字間の細かい差
異に着目して区別することができるため、類似文字が存
在しても正確に文字認識することができる。また、認識
対象文字を構成する特定部分の画素が閉ループを形成し
ている領域が有るか否かを検出し、さらにその閉ループ
領域内に黒画素の存在しないホール部が存在するか否か
を判断することによって、認識対象文字が濁音文字か半
濁音文字かを的確に識別することができる。
【0015】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。
【0016】図1は、本発明の実施例の構成を説明する
ブロック図であり、概略的には、文字枠切り出し部1
0、特徴抽出部20、相違度計算部30、標準特徴格納
部40、相違度ソート部50、類似文字テーブル参照部
60、類似文字識別部70、認識結果出力部80から構
成されている。
【0017】前記文字枠切り出し部10は、図示されて
いない画像入力手段から入力された認識対象文字の文字
パターンをその文字全体の外接矩形により切り出し、切
り出した文字パターンを特徴抽出部20に与える。ここ
でいう外接矩形とは、或る1つの文字に接するが如くそ
の文字を包含する矩形をいう。
【0018】特徴抽出部20は、文字枠切り出し部10
から与えられた文字パターンより文字認識に用いるため
の特徴量を抽出し、その特徴量を相違度計算部30に出
力する。相違度計算部30では、特徴抽出部20より得
られた入力文字パターンの特徴量と、標準特徴格納部4
0にあらかじめ蓄えられている各文字ごとの標準特徴量
との相違度を計算し、その結果を相違度ソート部50に
出力する。そして、相違度ソート部50では、相違度計
算部30で計算された相違度をもとに、相違度の小さい
順に認識候補文字を並べて出力する。このようにして並
べられた幾つかの認識候補文字の中で、入力文字(認識
対象文字)との相違度が最も小さい文字を第1位の認識
候補文字として出力する。
【0019】以上のようにして得られた第1位の認識候
補文字は、類似文字テーブル参照部60に送られる。こ
の類似文字テーブル参照部60とそれ以降の類似文字識
別部70、認識結果出力部80については、以下に詳細
に説明する。
【0020】図2は前記類似文字テーブル参照部60、
類似文字識別部70、認識結果出力部80の関係を具体
的に示すブロック図である。なお、説明をわかりやすく
するため、ここでは、類似文字として、「ば」と
「ぱ」、「べ」と「ぺ」、「ぶ」と「ぷ」などの濁音文
字と半濁音文字を例にとって説明する。
【0021】類似文字テーブル参照部60は、類似文字
を類似文字同志ごとにあらかじめグループ分けし、それ
ぞれのグループに対応して幾つかの類字文字テーブル6
01,602,603,・・・が設けられている。これ
らの類字文字テーブル601,602,603,・・・
は、各グループ毎にそれぞれの類似文字に対する文字コ
ードが格納されている。たとえば、類字文字テーブル6
01には、第1の類似文字グループとして、前記「ば」
の文字コードと「ぱ」の文字コードが格納され、類字文
字テーブル602には、第2の類似文字グループとし
て、前記「べ」の文字コードと「ぺ」の文字コードがあ
らかじめ格納され、類字文字テーブル603には第3の
類似文字グループとして、前記「ぶ」の文字コードと
「ぷ」の文字コードが格納されている。このように、各
類字文字テーブルには、あらかじめグループ分けされた
類似文字の文字コードが各グループ毎に格納されてい
る。
【0022】この類似文字テーブル参照部60の具体的
な動作としては、前記相違度ソート部50から出力され
る第1位の認識候補文字データ(文字コード)と同じ文
字コードを有する類字文字テーブルが有るか否かを判定
するものである。つまり、第1位の認識候補文字コード
と各類字文字テーブルのコードとを比較し、或る類字文
字テーブルにおいて、第1位の認識候補文字コードに一
致するコードが有れば、その第1位の認識候補文字は類
似文字が有ると判断し、どの類字文字テーブルにも一致
するコードがなければ、その第1位の認識候補文字は類
似文字がないと判断する。
【0023】たとえば今、相違度ソート部50から出力
された第1位の認識候補文字の文字コードが、「ば」の
文字コードであったとすると、類字文字テーブル601
にてコードの一致がとれることになり、「ば」に対して
は類似文字が有ることが判定される。なお、この場合の
類似文字は同一グループとして分類された「ぱ」という
ことになる。
【0024】そして、類似文字テーブル参照部60によ
って、第1位の認識候補文字に対して類似文字が有ると
判定された場合には、文字枠切り出し部10から出力さ
れた認識対象文字に対して、その認識対象文字が何であ
るかの識別を、類似文字識別部70により行い(この類
似文字識別部70による識別処理方法については後述す
る)、識別した結果を認識結果出力手段80から出力す
る。
【0025】次に、前記類似文字識別部70による文字
識別処理方法について説明する。図3は前記相違度ソー
ト部50から出力された第1位の認識候補文字に対し
て、類似文字テーブル参照部60により類似文字テーブ
ルを参照し、認識候補文字がいずれかの類似文字テーブ
ル中に存在するか否かを判断したのち、類似文字がある
と判断された場合には、類似文字識別部70により類似
文字グループに対応した識別ルーチンにしたがって類似
文字識別を行って、その識別結果を出力する処理を概略
的に説明するフローチャートである。
【0026】図3において、第1位の認識候補文字が類
似文字テーブル601,602,603,・・・のいず
れかに存在するか否かを判定し(ステップs1)、存在
すると判定された場合には、類似文字識別部70により
後述する識別方法を用いて、文字枠切り出し部10から
の認識対象文字が何の文字であるかの識別を行い(ステ
ップs2)、その識別結果を認識結果出力手段80から
出力する(ステップs3)。
【0027】一方、前記ステップs1の判断にて、第1
位の認識候補文字が類似文字テーブル601,602,
603,・・・のいずれにも存在しないと判定された場
合には、その第1位の認識候補文字を認識結果文字とし
て、類似文字識別部70を介して認識結果出力部80か
ら出力する(ステップs3)。すなわち、この場合は、
類似文字がないと判断された場合であり、相違度ソート
部50からの第1位の順位の認識候補文字は、そのまま
認識結果として出力しても差し支えないと判断される。
【0028】次に、前記類似文字識別処理方法について
説明する。ここでは、類似文字としては、濁音文字
「ば」と半濁音文字「ぱ」の識別方法について説明す
る。
【0029】図4(a),(b)は、「ば」と「ぱ」の
文字が実際にスキャナ入力されて、文字枠切り出し部1
0により切り出された文字画像であり、同図において、
110,120はそれぞれ外接矩形を表し、111は半
濁音点「°」、121は濁音点「゛」を表している。
【0030】たとえば、図4(a)で示すような認識対
象文字の文字パターンが特徴抽出部20に入力されたと
すると、相違度計算部30によって標準特徴格納部40
に格納された各文字の標準特徴量との間で相違度が計算
され、その相違度に基づいて、相違度ソート部50から
は、相違度の小さい順に認識候補文字が出力される。こ
のとき、相違度ソート部50から出力される第1位の認
識候補文字は、「ぱ」または「ば」である。この相違度
ソート部50から出力される「ぱ」または「ば」の文字
コードは、類似文字テーブル参照部60に入力され、各
類字文字テーブル601,602,603,・・・内の
各文字コードと比較され、一致するコードが有るか否か
の判断が行われる。この場合、前記したように、類字文
字テーブル601に一致するコードが有るため、その認
識対象文字には類似文字があると判断される。この類字
文字テーブル601の類似文字グループは、「ぱ」およ
び「ば」であるため、文字枠切り出し部10からの認識
対象文字が「ば」または「ぱ」のいずれで有るかの判断
を類似文字識別部70にて改めて行う。
【0031】この実施例では、濁音、半濁音の区別を認
識対象文字の文字画像中に半濁音点「°」が存在するか
否かで行う。すなわち、図4(a),(b)で示すよう
な認識対象文字が入力された場合、その文字画像の中に
半濁音点111が存在するか否かで、その認識対象文字
が濁音文字か、半濁音文字かを区別する。この例では、
半濁音点「°」が存在すると判定された場合は、認識対
象文字は「ぱ」であり、半濁音点が存在しないと判定さ
れた場合には、認識対象文字は、「ば」であるとの判定
を行う。
【0032】ところで、前記半濁音点と濁音点の区別
は、文字画像領域内において黒画素による閉ループ領域
が形成されているか否かを検出するとともに、その閉ル
ープ領域内に黒画素に囲まれた白画素部、つまり、ホー
ル領域が有るか否かによって区別できる。従って、文字
画像中に閉ループ領域を検出して、その閉ループ領域内
にホール領域が存在するか否かを検出することにより、
その認識対象文字が濁音文字か半濁音かを区別すること
ができる。この濁音文字か半濁音文字かの区別は、ホー
ル領域の検出によって可能なため、濁音点、半濁音点を
持つすべての文字種に対して識別可能となる。以下に、
本発明による濁音文字か半濁音文字かの識別方法を図5
のフローチャート及び図6を用いて説明する。
【0033】図5において、まず最初に、入力された認
識候補文字画像の文字パターン(図4参照)を縦方向お
よび横方向にそれぞれ2分割して(図4において一点鎖
線で示す)、その右上の1/4の領域E1を、閉ループ
を検出するための閉ループ検出領域とし、その閉ループ
検出領域E1においてホール輪郭候補点(説明を後述す
る)を抽出する(ステップs11)。ここで、閉ループ
検出領域を文字パターンの右上1/4の領域E1の範囲
に限定したのは、濁音点や半濁音点は文字パターンの右
上1/4の領域に存在するからであるとともに、例え
ば、「ば」や「ぼ」のように文字の下側の領域において
ホールが存在する文字もあり、このような文字に対して
は、単に、ホール領域が有るか否かだけで濁音文字か半
濁音文字かを判断すると誤認識してしまうためである。
このように、領域を限定して閉ループ領域の抽出を行う
ことにより、半濁音点のホールを正しく認識することが
できる。
【0034】また、ここで言うホールとは、白画素の回
りが黒画素で囲まれた領域であるから、前記ホール輪郭
候補点とは文字の図示上側の外接辺から下に向かって走
査して、黒画素から白画素に変化する点として考えるこ
とができる。図6(a),(b)は図4(a),(b)
の文字画像における濁音点および半濁音点の部分の画像
を拡大したものであり、図6(a)は濁音点を構成する
画像、図6(b)は半濁音点を構成する画像を示してい
る。ここで、これらがホールであるか否かを検出するた
めに、上記したように、図示上側の外接辺から下に向か
って走査して、黒画素から白画素に変化する点をホール
輪郭候補点とするという方法に基づいてホール輪郭候補
点の抽出を行うと、図6(a)の場合は、たとえば、画
素G10および画素G20がホール輪郭候補点として抽
出され、図6(b)にあっては、たとえば、画素G30
がホール輪郭候補点として抽出される。
【0035】図5のフローチャートに説明が戻って、ス
テップs12にて、ホール輪郭候補点を出発点として8
連結境界線抽出による輪郭追跡(これについての説明は
後述する)を行った後、閉ループが存在するか否かの判
断(ステップs13)、さらに抽出された閉ループ領域
にホールが存在するか否かの判断を行う(ステップs1
4)。
【0036】以下、前記8連結境界線抽出方法による輪
郭追跡について説明する。図7は、8連結境界線抽出の
ための画素探査順序を示した図であり、まず最初に、ホ
ール輪郭候補点を注目画素G40として、この注目画素
を中心に、1〜8の順序で画素を探査し、最初に見つか
った黒画素を次の注目画素として順次移動していく。た
とえば、1番目の部分に黒画素がなければ、2番目の部
分を探査し、この2番目の部分に黒画素が有れば、その
2番目の黒画素を注目画素とし、今度は、この注目画素
を起点に、3番目に黒画素が有るか否かを探査するとい
うような方法で、順次画素を探査して行く。
【0037】この方法を用いて、図6の例について説明
する。図6(a)においては、まず、ホール輪郭候補点
としての画素(黒画素)G10を注目画素とし、この画
素G10を起点に、黒画素G11へ、さらに黒画素G1
2へというように、順次、黒画素を探査しながら輪郭追
跡して行くと、結果的に、輪郭追跡によるループL1が
形成される。同様に、ホール輪郭候補点としての画素
(黒画素)G20を注目画素とし、この画素G20を起
点に、黒画素G21へ、さらに黒画素G22へというよ
うに、順次、黒画素を探査しながら輪郭追跡して行く
と、結果的に、輪郭追跡によるループL2が形成され
る。また、図6(b)においては、まず、ホール輪郭候
補点としての画素(黒画素)G30を注目画素とし、こ
の画素G30を起点に、黒画素G31へ、さらに黒画素
G32へというように、順次、黒画素を探査しながら輪
郭追跡して行くと、結果的に、輪郭追跡によるループL
3が形成される。
【0038】以上のような輪郭追跡を行い、最終的に開
始点であるホール輪郭候補点の画素に戻ったとき、画像
中には、半濁音点及び濁音点に相当する閉ループ領域が
存在することになる。たとえば、画素G10を注目画素
とし、この画素G10を起点に、黒画素G11へ、さら
に黒画素G12へというように、黒画素を探査しながら
輪郭追跡した場合、最終的に開始点であるホール輪郭候
補点の画素G10に戻ってきた場合には、その画像中に
は閉ループ領域が存在すると判断することができ、その
画像は半濁音点及び濁音点に相当する画像であるとみな
すことができる。ただし、この時点では、その画像が半
濁音点の画像か濁音点の画像かの区別はできない。
【0039】前記した方法によって、この例では、3種
類の閉ループL1,L2,L3が抽出できる。次に、抽
出された閉ループ領域にホールが存在するか否かを調べ
る。ところで、ホール輪郭候補点を開始点として輪郭追
跡した場合、外側の画素の輪郭追跡を行っている場合
は、右回り(時計方向)の閉ループとして抽出すること
ができる。また、内側の画素の輪郭追跡を行っている場
合、つまり、ホール部を追跡している場合、左回り(反
時計方向)の閉ループとして抽出することができる。こ
れは、たとえば外側に存在するホール輪郭候補点の画素
G10を起点に、図7に基づいて、輪郭追跡を行うと、
画素G10の次に探査される黒画素は黒画素G11であ
り、その次は、黒画素G13であるため、結果的に左回
りのループL1が形成され、一方、内側に存在するホー
ル輪郭候補点の画素G20を起点に、図7に基づいて、
輪郭追跡をした場合、画素G20の次に探査される黒画
素は黒画素G21であり、その次は、黒画素G22であ
るため、結果的に右回りのループL2が形成されるため
である。
【0040】したがって、ループの形成される方向を見
ることによって、どのループがホール部を追跡している
ループであるかを知ることができる。この場合、前記3
種類の閉ループL1,L2,L3のなかで、図6(a)
の閉ループL2がホール部を追跡しているループである
と判断することができる。つまり、図6(a)の画像は
閉ループ領域が形成されており、なおかつ、その閉ルー
プ領域内にホール領域を持つ画像であると判断できる。
【0041】これによって、認識対象文字の文字パター
ンとして、図4(a)に相当する文字パターンが類似文
字識別部70に入力された場合には、以上のような識別
処理により、閉ループ領域が形成されており、なおか
つ、その閉ループ領域内にホール領域を持つ画像である
ことから、図4(a)の文字は、半濁音文字「ぱ」であ
ると判断され、認識結果としては「ぱ」が出力される。
一方、認識対象文字の文字パターンとして、図4(b)
に相当する文字パターンが類似文字識別部70に入力さ
れた場合には、以上のような識別処理により、閉ループ
領域が形成されているが、その閉ループ領域内にホール
領域を持たないと判定され、図4(b)のも字は、濁音
文字「ば」であると判断され、認識結果としては「ば」
が出力される。
【0042】以上の処理は、図5において、ステップs
13からステップs15で示されている。すなわち、閉
ループ領域が存在するか否かを判断して(ステップs1
3)、閉ループ領域が存在している場合には、その閉ル
ープ領域内にホールが有るか否かを判断し(ステップs
14)、ホールがあれば、その画像(濁音点または半濁
音に相当する画像)を有する文字は半濁音文字であると
判定して、それを認識結果として出力する(ステップs
15)。一方、前記ステップs14にて、閉ループ領域
内にホールがなければ、その画像を有する文字は濁音文
字であると判定して、それを認識結果として出力する
(ステップs16)。
【0043】なお、前記ステップs13により、閉ルー
プ検出領域内の画像(濁音点または半濁音に相当する画
像)に閉ループ領域が存在しないと判断された場合に
は、その画像を有する文字は濁音文字であると判定し
て、それを認識結果として出力する(ステップs1
6)。つまり、この場合は、前記した3つの閉ループL
1.L2.L3がすべて形成されないと言うことであ
り、少なくとも、ホール部は存在しないと判断できる。
ホール部が存在しないということは、半濁音点でないこ
とが明らかである。したがって、このような場合には、
濁音点が文字部と接触している(たとえば、「ば」を例
に取れば「゛」が「は」に接触している)ものとみなし
て、この時点で、その画像を有する文字は濁音文字で有
ると判断でき、それを認識結果として出力する。このよ
うな現象は手書き文字などの場合には多く発生すること
が考えられる。
【0044】以上説明したように、この実施例では、あ
らかじめ類似文字同志をグループ分けし、グループ毎の
類字文字テーブルを用意しておき、スキャナなどにより
読みとられた文字パターンから全体的(標準的)な特徴
量を抽出し、あらかじめ格納されている標準特徴量との
比較を行い、相違度を計算して、相違度の最も小さい文
字を第1位の認識候補文字として出力し、この第1位の
認識候補文字に対する類似文字が有るか否かを、前記類
字文字テーブルを参照することで判断して、類似文字が
有る場合には、前記読みとられた文字パターンと同一グ
ループ内の類字文字との間で、特定部分における識別を
行うようにしている。特に、類字文字として濁音文字と
半濁音文字を考えた場合、その濁音点または半濁音点の
画像を、前記したような輪郭追跡処理を用いて閉ループ
領域の有無を検出するとともに、その閉ループ領域内に
ホール部が存在するか否か検出し、これにより、読みと
られた文字パターンが濁音文字であるか半濁音文字であ
るかを判断するようにしている。
【0045】このような本発明の実施例で説明した方法
を採用して、スキャナなどにより実際に入力した文字画
像を用いて認識を行った結果、濁音、半濁音の文字に対
して92%以上の高い認識率が得られることがわかっ
た。これに対して、本発明の類似文字識別方法を採用し
ない場合は、80%程度であり、実験の結果からも本発
明は高い認識率が得られることがわかる。
【0046】
【発明の効果】以上説明したように、請求項1によれ
ば、あらかじめ類似文字をグループ分けし、それぞれの
グループ毎に類似文字テーブルを設け、あらかじめ格納
されている各文字ごとの標準的な特徴と認識対象文字の
特徴との相違度を求め、相違度の小さい順に順序付けを
行ったのち、相違度のもっとも小さい文字を第1位の認
識候補とし、この第1位の認識候補文字が前記類似文字
テーブルに属するか否かを判断して、いずれかの類似文
字テーブルに属すると判断された場合には、前記認識対
象文字とそれに類似する類似文字の特定部分についての
識別を行うようにしたので、類似文字間の細かい差異に
着目して区別することができるため、入力された認識対
象文字に類似文字が存在しても正確に文字認識すること
ができる。
【0047】また、請求項2によれば、認識対象文字の
文字パターンを構成する画素が閉ループを形成している
か否かを検出するとともに、その閉ループ内にホール領
域が存在するか否かによって、認識対象文字が濁音文字
か半濁音文字かを識別するようにしたので、類似文字と
しての濁音文字と半濁音文字を簡単にしかも正確に区別
することができる。
【0048】また、請求項3によれば、前記認識対象文
字の文字パターンにおける閉ループ領域の有無の判定
は、認識対象文字パターンを幾つかの領域に分割し、濁
音文字か半濁音文字かの識別に必要な検出領域をあらか
じめ設定し、その検出領域内に閉ループが存在するか否
かにより判定するようにしたので、濁音点または半濁音
点の検出に関係する領域内の閉ループのみを検出するこ
とができ、これにより、濁音点または半濁音点以外の文
字本体の閉ループ部を誤って検出することがないため、
濁音文字か半濁音文字かの判定をより高精度に行うこと
ができる。
【0049】また、本発明の文字認識装置は、請求項4
によれば、あらかじめ類似文字をグループ分けし、それ
ぞれのグループ毎に類似文字テーブルを設け、あらかじ
め格納されている各文字ごとの標準的な特徴と認識対象
文字の特徴との相違度を求め、相違度の小さい順に順序
付けを行ったのち、相違度のもっとも小さい文字を第1
位の認識候補とし、この第1位の認識候補文字が前記類
似文字テーブルに属するか否かを判断して、いずれかの
類似文字テーブルに属すると判断された場合には、前記
認識対象文字とそれに類似する類似文字の特定部分につ
いての識別を行うようにしたので、類似文字間の細かい
差異に着目して区別することができるため、入力された
認識対象文字に類似文字が存在しても正確に文字認識す
ることができる。
【0050】また、請求項5によれば、認識対象文字の
文字パターンを構成する画素が閉ループを形成している
か否かを検出するとともに、その閉ループ内にホール領
域が存在するか否かによって、認識対象文字が濁音文字
か半濁音文字かを識別するようにしたので、類似文字と
しての濁音文字と半濁音文字を簡単にしかも正確に区別
することができる。
【0051】また、請求項6によれば、前記認識対象文
字の文字パターンにおける閉ループ領域の有無の判定
は、認識対象文字パターンを幾つかの領域に分割し、濁
音文字か半濁音文字かの識別に必要な検出領域をあらか
じめ設定し、その検出領域内に閉ループが存在するか否
かにより判定するようにしたので、濁音点または半濁音
点の検出に関係する領域内の閉ループのみを検出するこ
とができ、これにより、濁音点または半濁音点以外の文
字本体の閉ループ部を誤って検出することがないため、
濁音文字か半濁音文字かの判定をより高精度に行うこと
ができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を説明するブロック図。
【図2】図1における要部の構成を説明するブロック
図。
【図3】実施例における類似文字テーブル参照から認識
結果出力までの処理を概略的に説明するフローチャー
ト。
【図4】認識対象文字例として濁音文字と半濁音文字の
文字パターン例を説明する図。
【図5】濁音文字か半濁音文字かの判定処理を説明する
フローチャート。
【図6】濁音点と半濁音点の輪郭追跡による閉ループ検
出の具体例を説明する図。
【図7】輪郭追跡を行うための8連結境界線抽出を説明
する図。
【図8】従来の文字認識方法の1例を説明するブロック
図。
【符号の説明】
10・・・文字枠切り取り部 20・・・特徴抽出部 30・・・相違度計算部 40・・・標準特徴格納部 50・・・相違度ソート部 60・・・類似文字参照テーブル部 70・・・類似文字識別部 80・・・認識結果出力部 110・・・「ぱ」の外接矩形 111・・・半濁音点 120・・・「ば」の外接矩形 121・・・濁音点 601,602,・・・類字文字テーブル E1・・・閉ループ検出領域 G10,G20,G30,G40・・・起点となる注目
画素

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 あらかじめ類似文字を類似文字同志ごと
    にグループ分けし、それぞれのグループ毎に類似文字テ
    ーブルを設け、2値化された認識対象文字画像の文字パ
    ターンをその文字の外接矩形により切り出し、切り出さ
    れた文字パターンからその認識対象文字の特徴を抽出
    し、あらかじめ格納されている各文字ごとの標準的な特
    徴と前記切り出された文字パターンの文字の特徴との相
    違度を求め、相違度の小さい順に順序付けを行ったの
    ち、相違度のもっとも小さい文字を第1位の認識候補と
    し、この第1位の認識候補文字が前記類似文字テーブル
    に属するか否かを判断して、いずれかの類似文字テーブ
    ルに属すると判断された場合には、前記認識対象文字
    と、この認識対象文字と同一グループ内の類似文字との
    間の識別を行ったのち、認識結果を出力することを特徴
    とする文字認識方法。
  2. 【請求項2】 前記認識対象文字と、この認識対象文字
    と同一グループ内の類似文字との間の識別は、認識対象
    文字の文字パターンにおいて、その文字パターンを構成
    する画素が閉ループを形成している領域を検出するとと
    もに、閉ループを形成している領域の有無およびその閉
    ループ領域にホール部が存在するか否かの判断により行
    い、この判断に基づいて認識対象文字が濁音文字か半濁
    音文字かを識別することを特徴とする請求項1記載の文
    字認識方法。
  3. 【請求項3】 前記認識対象文字の文字パターンにおけ
    る閉ループ領域の有無判定は、認識対象文字文字パター
    ンを幾つかの領域に分割し、濁音文字か半濁音文字かの
    識別に必要な検出領域をあらかじめ設定し、その検出領
    域内に閉ループが存在するか否かにより判定することを
    特徴とする請求項2記載の文字認識方法。
  4. 【請求項4】 2値化された認識対象文字画像の文字パ
    ターンをその文字の外接矩形により切り出す文字枠切り
    出し手段と、 この文字枠切り出し手段により切り出された文字パター
    ンからその認識対象文字の特徴を抽出する特徴抽出手段
    と、 あらかじめ各文字ごとの標準的な特徴が格納されている
    標準特徴格納手段と、 この標準特徴格納手段の標準的な特徴と前記切り出され
    た文字パターンの文字の特徴との相違度を求める相違度
    計算手段と、 この相違度計算手段から出力される相違度をもとに相違
    度の小さい順に順序づけする相違度ソート手段と、 あらかじめ類似文字を類似文字同志ごとにグループ分け
    し、それぞれのグループ毎に類似文字テーブルを設け、
    前記相違度ソート部から得られる第1位の認識候補文字
    がいずれかの類似文字テーブルに属するか否かを判断す
    る類似文字テーブル参照手段と、 この類似文字テーブル参照手段により、前記第1位の認
    識候補文字がいずれかの類似文字テーブルに属すると判
    断された場合には、前記認識対象文字と、この認識対象
    文字と同一グループに属する類似文字との間の識別を行
    う類似文字識別手段と、 この類似文字識別手段からの出力をもとに認識結果を出
    力する認識結果出力手段と、 を有することを特徴とする文字認識装置。
  5. 【請求項5】 前記認識対象文字と、この認識対象文字
    と同一グループ内の類似文字との間の識別は、認識対象
    文字の文字パターンにおいて、その文字パターンを構成
    する画素が閉ループを形成している領域を検出するとと
    もに、閉ループを形成している領域の有無およびその閉
    ループ領域にホール部が存在するか否かの判断により行
    い、この判断に基づいて認識対象文字が濁音文字か半濁
    音文字かを識別することを特徴とする請求項4記載の文
    字認識装置。
  6. 【請求項6】 前記認識対象文字の文字パターンにおけ
    る閉ループ領域の有無判定は、認識対象文字文字パター
    ンを幾つかの領域に分割し、濁音文字か半濁音文字かの
    識別に必要な検出領域をあらかじめ設定し、その検出領
    域内に閉ループが存在するか否かにより判定することを
    特徴とする請求項5記載の文字認識装置。
JP7072145A 1995-03-29 1995-03-29 文字認識方法および文字認識装置 Pending JPH08272909A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7072145A JPH08272909A (ja) 1995-03-29 1995-03-29 文字認識方法および文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7072145A JPH08272909A (ja) 1995-03-29 1995-03-29 文字認識方法および文字認識装置

Publications (1)

Publication Number Publication Date
JPH08272909A true JPH08272909A (ja) 1996-10-18

Family

ID=13480819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7072145A Pending JPH08272909A (ja) 1995-03-29 1995-03-29 文字認識方法および文字認識装置

Country Status (1)

Country Link
JP (1) JPH08272909A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618504B1 (en) 1996-11-15 2003-09-09 Toho Business Management Center Business management system
CN112840383A (zh) * 2018-10-24 2021-05-25 富士通先端科技株式会社 纸币检查装置、纸币检查方法及纸币检查程序

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618504B1 (en) 1996-11-15 2003-09-09 Toho Business Management Center Business management system
CN112840383A (zh) * 2018-10-24 2021-05-25 富士通先端科技株式会社 纸币检查装置、纸币检查方法及纸币检查程序
CN112840383B (zh) * 2018-10-24 2024-03-08 富士通先端科技株式会社 纸币检查装置、纸币检查方法及纸币检查程序

Similar Documents

Publication Publication Date Title
US6970601B1 (en) Form search apparatus and method
JP5837205B2 (ja) 画像領域を使用するテキスト検出
US8027978B2 (en) Image search method, apparatus, and program
US5621818A (en) Document recognition apparatus
JPH09204492A (ja) 帳票処理装置
JPH08272909A (ja) 文字認識方法および文字認識装置
JPH11184971A (ja) 手書き文字認識機能を持つ文字入力装置及び方法
JPH06215184A (ja) 抽出領域のラベリング装置
JPH06180771A (ja) 英文字認識装置
JPH0749926A (ja) 文字認識装置
KR100473660B1 (ko) 단어인식방법
JP3074691B2 (ja) 文字認識装置
JPH07160810A (ja) 文字認識装置
JPH08202822A (ja) 文字切り出し装置、及び文字切り出し方法
JPH08293002A (ja) 文字認識装置及び文字認識方法
JPH0855185A (ja) 文字認識装置
JP2000207491A (ja) 文字列読取方法及び装置
JPH05120483A (ja) 文字認識装置
JPH06162269A (ja) 手書き文字認識装置
Green et al. Layout analysis of book pages
JPH05233877A (ja) 単語読み取り方法
JPH08147414A (ja) 文字列読み取り装置
JPH05242299A (ja) 文字認識装置
JPH06195508A (ja) 文字切り出し方法
JP2000181989A (ja) 文字認識装置及びその方法並びにその方法をプログラムとして記録したコンピュータ読み取り可能な記録媒体