JPH0944597A - 特徴抽出方法 - Google Patents

特徴抽出方法

Info

Publication number
JPH0944597A
JPH0944597A JP7189473A JP18947395A JPH0944597A JP H0944597 A JPH0944597 A JP H0944597A JP 7189473 A JP7189473 A JP 7189473A JP 18947395 A JP18947395 A JP 18947395A JP H0944597 A JPH0944597 A JP H0944597A
Authority
JP
Japan
Prior art keywords
pattern
sub
character
black
scanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7189473A
Other languages
English (en)
Inventor
Masaharu Nagata
政晴 永田
Masahiro Sakurai
雅寛 櫻井
Koichi Higuchi
浩一 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7189473A priority Critical patent/JPH0944597A/ja
Publication of JPH0944597A publication Critical patent/JPH0944597A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 ノイズの影響による認識精度の低下を回避で
きる特徴量抽出方法を提供する。 【構成】 文字枠46内を線幅方向に走査して、走査線上
で対を成す白黒変化点及び黒白変化点を検出し、これら
変化点の中点を求める。そして文字枠46をI×J個のセ
ル領域に分割し、求めた中点が存在するセル領域の中点
累積個数を計数する。この計数は、各セル領域毎に個別
に行なう。文字枠46全面の走査を終了した時点での各セ
ル領域の中点累積個数を、マトリクス要素として、特徴
マトリクスを作成する。この際、対を成す白黒及び黒白
変化点の離間距離Hが閾値T未満となるとき当該距離H
の変化点はノイズNの変化点であると判定して中点累積
個数を計数せず、離間距離Hが閾値T以上となるとき当
該距離Hの変化点は認識対象となる文字線部分の変化点
であると判定して中点累積個数を+1加算する。従って
ノイズNの白黒及び黒白変化点の中点が、特徴量となる
中点累積個数に加算されてしまうのを、回避できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、特徴抽出方法、特に
文書、帳票等の記録媒体に載っている文字図形を認識す
るための特徴量を抽出する方法に関する。
【0002】
【従来の技術】一般に文字認識においては、記録媒体に
載っている文字図形を、スキャナを介して、白黒2値の
電気信号で表される文字パタンに変換し、そのパタンか
ら特徴を抽出する。そして抽出された文字パタンの特徴
と予め用意された標準パタンの特徴とを照合し、類似度
の高い標準パタンに付与されているカテゴリ名例えば文
字コードを認識結果とする。
【0003】特徴抽出を行なうための従来技術として、
例えば特開昭62−125485号(特願昭60−26
3672)に開示されているものがある。これら従来技
術によれば、文字パタンを、水平、垂直、右斜め45
°、左斜め45°の各方向に走査し、文字パタンの線幅
に基づいて、各方向毎に、サブパタンを抽出する。そし
て文字パタンの文字枠を検出し、サブパタンの文字枠対
応領域を複数のセル領域に分割する。次いで各サブパタ
ン毎に、セル領域内の黒ビット数を用いて表される特徴
マトリクスを作成する。各サブパタンの特徴マトリクス
が、文字認識のための特徴に用いられる。
【0004】
【発明が解決しようとする課題】しかしながらスキャナ
の特性変動や量子化誤差といった要因により、セル領域
内にノイズが存在すると、ノイズの黒ビット数も計数し
て特徴マトリクスを作成することとなり、これが認識精
度の低下例えば誤読や、不読をもたらす。
【0005】このため、ノイズが存在しても、精度良く
文字認識を行なうことができる特徴の抽出方法が望まれ
ていた。
【0006】
【課題を解決するための手段及び作用】上述した従来の
課題を解決するため、請求項1の発明の特徴抽出方法
は、認識対象の文字図形を光電変換して得た文字パタン
を格納する文字パタンメモリと、文字パタンから抽出さ
れたサブパタンを格納するサブパタンメモリと、サブパ
タンの各セル領域毎に、セル領域内の中点累積個数を格
納する中点累積メモリとを設け、文字パタンメモリに格
納された文字パタンを、第一主走査方向に走査し、文字
パタンの黒ビットのうち、第一走査線上でα≧Nw(N
は定数、wは文字パタンの線幅)を満足する長さαだけ
連続して検出した黒ビットを、サブパタンの黒ビットと
すると共に、文字パタンの残りの黒ビット及び白ビット
を、サブパタンの白ビットとして、サブパタンを抽出す
るサブパタン抽出処理と、文字パタンメモリに格納され
た文字パタンの文字枠を検出する文字枠検出処理と、サ
ブパタンメモリに格納されたサブパタンを第一主走査方
向と直交する第二主走査方向に走査して、第二走査線上
の、白黒変化点と当該変化点の次の黒白変化点とを対と
成して検出し、対を成す白黒及び黒白変化点の中点座標
X、Yを求め、サブパタンメモリに格納されたサブパタ
ンの文字枠対応領域をI×J個のセル領域に分割し、I
×J個のセル領域のなかから、前記中点座標X、Yが存
在するセル領域を検出して、当該存在領域の中点累積メ
モリに格納されている中点累積個数をカウントアップ
し、サブパタン走査終了時の中点累積個数を特徴量とし
て、I×J個の特徴量を抽出し、これら特徴量を用いて
文字パタンの特徴マトリクスを作成する特徴マトリクス
作成処理とを行なう特徴抽出方法において、対を成す白
黒及び黒白変化点の、第二主走査方向における離間距離
Hが、閾値T未満となるときは中点累積個数をカウント
アップせずに、離間距離Hが閾値T以上となるとき中点
累積個数をカウントアップして、特徴量を抽出すること
を特徴とする。
【0007】請求項1の発明によれば、対を成す白黒及
び黒白変化点の離間距離Hが閾値T以上となるとき中点
累積個数をカウントアップするので、認識対象となる文
字図形本来の白黒及び黒白変化点について求めた中点
(以下、文字図形本来の中点)を、特徴量となる中点累
積個数に加算できる。しかも対を成す白黒及び黒白変化
点の離間距離Hが閾値T未満となるときは中点累積個数
をカウントアップしないので、ノイズの白黒及び黒白変
化点について求めた中点(以下、ノイズの中点)が、特
徴量となる中点累積個数に加算されてしまうのを、回避
できる。
【0008】対を成す白黒及び黒白変化点の離間距離H
はサブパタンが含む文字線部分の線幅に対応するもので
あり、従って閾値Tを任意好適に設定することにより、
文字図形本来の中点を、特徴量となる中点累積個数に加
算できる。
【0009】例えば、閾値Tを認識対象となる文字図形
の線幅W0 と等しいかそれよりも小さくし、或は、文字
パタンの線幅wを検出し閾値Tを文字パタンの線幅wと
等しいかそれよりも小さくし、或は、サブパタンの線幅
を検出し閾値Tをサブパタンの線幅と等しくするかそれ
よりも小さくすることにより、文字図形本来の中点を、
特徴量となる中点累積個数に加算できる。
【0010】認識対象となる文字図形の線幅W0 は、文
字図形の種類例えばゴシック体とか明朝体とかいった字
体や12ポイントとか10.5ポイントといった字の大
きさによって異なり、また1個の文字図形を構成する線
要素でも方向及び又は位置の異なる線要素例えば縦線と
横線とでは、線幅W0 が異なる。これら種々の線幅W0
のうち最小の線幅W0 をW0minと表せば、例えば、W
0min>Tとすることができる。
【0011】また文字図形の線要素のうち、線幅W01
上の線要素は用い、かつ、線幅W02未満の線要素は用い
ずに、標準パタンの特徴マトリクスと文字図形パタンの
特徴マトリクスとを作成して文字認識を行なう場合に
は、例えばW01≧T>W02とすることもできる。
【0012】さらにサブパタン中に含まれるノイズの線
幅WN は、特徴抽出に用いる画像処理装置特にスキャナ
を用いてサブパタンを作成することにより、予め調べて
おくことができる。従って閾値Tを予め調べたノイズの
線幅WN よりも大きくすることにより(T>WN とする
ことにより)、ノイズの中点が、特徴量となる中点累積
個数に加算されるのを、回避できる。
【0013】画像処理装置の性能、使用環境等によって
ノイズの線幅WN が異なる場合には、それぞれの場合に
ついてノイズの線幅WN を調べ、閾値Tを、これら種々
の線幅WN のうち最大の線幅WNmaxよりも大きくすれば
良い(T>WN とすれば良い)。
【0014】また請求項2の発明の特徴抽出方法は、認
識対象の文字図形を光電変換して得た文字パタンを格納
する文字パタンメモリと、文字パタンから抽出されたサ
ブパタンを格納するサブパタンメモリと、サブパタンの
各セル領域毎に、セル領域内の黒ビット累積個数を格納
する黒ビット累積メモリとを設け、文字パタンメモリに
格納された文字パタンを、第一主走査方向に走査し、文
字パタンの黒ビットのうち、第一走査線上でα≧Nw
(Nは定数、wは文字パタンの線幅)を満足する長さα
だけ連続して検出した黒ビットを、サブパタンの黒ビッ
トとすると共に、文字パタンの残りの黒ビット及び白ビ
ットを、サブパタンの白ビットとして、サブパタンを抽
出するサブパタン抽出処理と、文字パタンメモリに格納
された文字パタンの文字枠を検出する文字枠検出処理
と、サブパタンメモリに格納されたサブパタンを第一主
走査方向と直交する第二主走査方向に走査して、第二走
査線上で連続する黒ビットを検出し、サブパタンメモリ
に格納されたサブパタンの文字枠対応領域をI×J個の
セル領域に分割し、I×J個のセル領域のなかから、第
二走査線上で連続する黒ビットが存在するセル領域を検
出して、当該存在領域の黒ビット累積メモリに格納され
ている黒ビット累積個数をカウントアップし、サブパタ
ン走査終了時の黒ビット累積個数を特徴量として、I×
J個の特徴量を抽出し、これら特徴量を用いて文字パタ
ンの特徴マトリクスを作成する特徴マトリクス作成処理
とを行なう特徴抽出方法において、第二走査線上で連続
する黒ビットの長さhが閾値T未満となるときは黒ビッ
ト累積個数をカウントアップせずに、長さhが閾値T以
上となるとき黒ビット累積個数をカウントアップして、
特徴量を抽出することを特徴とする。
【0015】請求項2の発明によれば、第二走査線上で
連続する黒ビットの長さhが閾値T以上となるとき黒ビ
ット累積個数をカウントアップするので、認識対象とな
る文字図形本来の黒ビットを、特徴量となる黒ビット累
積個数に累積できる。しかも長さhが閾値T未満となる
ときは黒ビット累積個数をカウントアップしないので、
ノイズの黒ビットが特徴量となる黒ビット累積個数に加
算されてしまうのを、回避できる。
【0016】第二走査線上で連続する黒ビットの長さh
は、サブパタンが含む文字線部分の線幅に対応するもの
であり、従って閾値Tを任意好適に設定することによ
り、文字図形本来の黒ビットを、特徴量となる黒ビット
累積個数に加算できる。
【0017】例えば、閾値Tを認識対象となる文字図形
の線幅W0 と等しいかそれよりも小さくし、或は、文字
パタンの線幅wを検出し閾値Tを文字パタンの線幅wと
等しいかそれよりも小さくし、或は、サブパタンの線幅
を検出し閾値Tをサブパタンの線幅と等しくするかそれ
よりも小さくすることにより、文字図形本来の中点を、
特徴量となる黒ビット累積個数に加算できる。
【0018】認識対象となる文字図形の線幅W0 は、文
字図形の種類例えばゴシック体とか明朝体とかいった字
体や12ポイントとか10.5ポイントといった字の大
きさによって異なり、また1個の文字図形を構成する線
要素でも方向及び又は位置の異なる線要素例えば縦線と
横線とでは、線幅W0 が異なる。これら種々の線幅W0
のうち最小の線幅W0 をW0minと表せば、例えば、W
0min>Tとすることができる。
【0019】また文字図形の線要素のうち、線幅W01
上の線要素は用い、かつ、線幅W02以下の線要素は用い
ずに、標準パタンの特徴マトリクスと文字図形パタンの
特徴マトリクスとを作成して文字認識を行なう場合に
は、例えばW01≧T>W02とすることができる。
【0020】さらにサブパタン中に含まれるノイズの線
幅WN は、特徴抽出に用いる画像処理装置特にスキャナ
を用いてサブパタンを作成することにより、予め調べて
おくことができる。従って閾値Tを予め調べた既知の線
幅WN よりも大きくすることにより(T>WN とするこ
とにより)、ノイズの黒ビットが、特徴量として黒ビッ
ト累積個数に加算されるのを、回避できる。
【0021】画像処理装置の性能、使用環境等によって
ノイズの線幅WN が異なる場合には、それぞれの場合に
ついてノイズの線幅WN を調べ、閾値Tをこれら種々の
線幅WN のうち最大の線幅WNmaxよりも大きくすれば良
い(T>WN とすれば良い)。
【0022】
【実施例】
<請求項1の発明の実施例>図1は文字認識装置の一構
成例を示す図である。同図に示す文字認識装置10は、
情報媒体の画像パタンを格納する画像メモリ12と、情
報媒体の画像パタンから文字パタンを切り出す切出し部
14と、文字パタンの特徴抽出を行なう特徴抽出装置1
6と、標準パタンを格納する辞書18と、文字パタンの
特徴を標準パタンの特徴と比較照合し、該照合結果に基
づいて文字パタンの認識結果を生成する照合部20とを
備える。
【0023】情報媒体は例えば文書或は帳票であり、情
報媒体の読取り面には、認識対象となる文字図形を載せ
てある。
【0024】スキャナ22は、情報媒体を走査して、そ
の読取り面に対応する画像パタンを画像メモリ12に格
納する。
【0025】切出し部14は、画像メモリ12に格納さ
れた画像パタンを走査して、1文字単位に、文字パタン
を切り出す。
【0026】特徴抽出装置16は、請求項1の発明の実
施例を実施するための装置であって、文字パタンメモリ
24、サブパタンメモリ26及び中点累積メモリ28
と、線幅検出部30、サブパタン抽出部32、文字枠検
出部34及び特徴マトリクス作成部36を備える。
【0027】文字パタンメモリ24は、認識対象の文字
図形を光電変換して得た文字パタンここでは切出し部1
4からの文字パタンを格納する。
【0028】サブパタンメモリ26は、文字パタンから
抽出された一又は複数種のサブパタンを格納するための
ものであって、ここでは複数種のサブパタンを、各サブ
パタン毎に格納する。例えば、垂直サブパタンを格納す
るためのサブパタンメモリ26(以下、VSPメモリ2
6V)、水平サブパタンを格納するためのサブパタンメ
モリ26(以下、HSPメモリ26H)、右斜め45°
サブパタンを格納するためのサブパタンメモリ26(以
下、RSPメモリ26R)及び左斜め45°サブパタン
を格納するためのサブパタンメモリ26(以下、LSP
メモリ26L)の4個のサブパタンメモリ26を設け
る。
【0029】中点累積メモリ28は、サブパタンの各セ
ル領域毎に、セル領域内の中点累積個数を格納する。後
述するようにサブパタンをI×J個のセル領域に分割す
るので、これらセル領域毎に個別に、I×J個の中点累
積メモリ28を設ける。
【0030】線幅検出部30は、文字パタンの線幅wを
検出する。尚、文字パタンメモリ24に格納した文字パ
タンを入力して線幅wを検出しても良いし、切出し部1
4からの文字パタンを入力して線幅wを検出しても良
い。また、線幅wが予め判っている場合、例えば認識対
象となる印刷文字の線幅を文字パタンの線幅wとして用
いる場合には、線幅検出部30を設けなくても良い。
【0031】サブパタン抽出部32は、サブパタン抽出
処理を行なう。この処理では、文字パタンメモリ24に
格納された文字パタンを、第一主走査方向に走査し、文
字パタンの黒ビットのうち、第一走査線上でα≧Nw
(Nは定数、wは)を満足する長さαだけ連続して検出
した黒ビットを、サブパタンの黒ビットとすると共に、
文字パタンの残りの黒ビット及び白ビットを、サブパタ
ンの白ビットとして、サブパタンを抽出する。このサブ
パタン抽出を、一又は複数種の方向を第一主走査方向と
して行なう。ここでは、それぞれ方向が異なる複数の方
向を第一主走査方向として各方向毎にサブパタン抽出を
行なう。
【0032】文字枠検出部34は、文字枠検出処理を行
なう。この処理では、文字パタンメモリ24に格納され
た文字パタンの文字外接枠を検出し、これを文字枠とす
る。
【0033】特徴マトリクス作成部36は、特徴マトリ
クス作成処理を行なう。この処理では、サブパタンメモ
リ26に格納されたサブパタンを第一主走査方向と直交
する第二主走査方向に走査して、第二走査線上の、白黒
変化点と当該変化点の次の黒白変化点とを対と成して検
出し、対を成す白黒及び黒白変化点の中点座標X、Yを
求める。そしてサブパタンメモリ26に格納されたサブ
パタンの文字枠対応領域をI×J個のセル領域に分割
し、I×J個のセル領域のなかから、中点座標X、Yが
存在するセル領域を検出して、当該存在領域の中点累積
メモリ26に格納されている中点累積個数をカウントア
ップする。そしてサブパタン走査終了時の中点累積個数
を特徴量として、I×J個の特徴量を抽出し、これら特
徴量を用いて文字パタンの特徴マトリクスを作成する。
この際、対を成す白黒及び黒白変化点の、第二主走査方
向における離間距離Hが、閾値T未満となるときは中点
累積個数をカウントアップせずに、離間距離Hが閾値T
以上となるとき中点累積個数をカウントアップして、特
徴量を抽出する。ここでは、複数種のサブパタンの各サ
ブパタン毎に、I×J個の特徴量を抽出して特徴マトリ
スクを作成する。
【0034】以下、文字認識装置10の動作説明と共
に、請求項1の発明の実施例について説明する。
【0035】記録媒体例えば帳票の画像パタンがスキャ
ナ22により画像メモリ12に格納されると、切出し部
14は画像メモリ12の画像パタンを走査して、一文字
単位に文字パタンを切り出す。
【0036】文字パタンメモリ24は、切出し部14か
らの文字パタンを格納する。図2に、文字パタンの一例
を示す。図中、メモリ24の文字パタン格納領域24a
に格納された文字パタン38の、文字線部分38aを白
地で表すと共に背景部分38bをハッチングを付し実線
で囲んで表す。
【0037】文字パタン格納領域24a上にはX−Y座
標系を仮想的に設定し、この座標系で表される画素位置
の文字パタン38を、文字パタンメモリ24から読み出
せるようにしてある。文字パタン38は白黒2値の電気
信号であって、文字線部分38aを黒ビットで及び背景
部分38bを白ビットで表す。
【0038】文字パタン24への文字パタン38格納と
並行して、線幅検出部30は、切出し部14から入力し
た文字パタン38の線幅wを検出する。ここでは、2ビ
ット×2ビットの窓の全ての点が黒ビットとなる状態の
個数Qと文字パタン38中の全黒ビットの個数Aとを計
数し、従来周知の次式(1)に基づいて線幅wを求め
る。
【0039】w=A/(A−Q) ……(1) サブパタン抽出部32は、第一主走査方向を垂直方向
(Y軸方向)、水平方向(X軸方向)、右斜め45°方
向(X軸と右斜め上りに45°で交差する方向)及び左
斜め45°方向(X軸と左斜め上りに45°で交差する
方向)の4方向として、各第一主走査方向に対応する垂
直サブパタン、水平サブパタン、右斜めサブパタン及び
左斜めサブパタンを抽出する。これら垂直、水平、右斜
め及び左斜めのサブパタンの黒ビットはそれぞれ、垂直
方向、水平方向、右斜め45°方向及び左斜め45°方
向における文字パタン38の線分要素を表す。
【0040】垂直サブパタンを抽出する場合、第一主走
査方向は垂直方向及び第一走査線は垂直方向の走査線で
あって、サブパタン抽出部32は、文字パタン38を垂
直方向に走査して、垂直サブパタンを、文字パタン38
から抽出しVSPメモリ26に格納する。ここで文字パ
タン38の黒ビットのうち、垂直方向の走査線上でα≧
Nwを満足する長さαだけ連続して検出した黒ビット
を、サブパタンの黒ビットとし、文字パタン38の黒ビ
ットのうち、垂直方向の走査線上でα≧Nwを満足しな
い長さαの黒ビットを、サブパタンの白ビットとし、か
つ、文字パタン28の白ビットを、サブパタンの白ビッ
トとして、垂直サブパタンを抽出する。
【0041】水平サブパタンを抽出する場合、第一主走
査方向は水平方向及び第一走査線は水平方向の走査線で
あって、サブパタン抽出部32は、文字パタン38を水
平方向に走査して、水平サブパタンを、文字パタン38
から抽出しHSPメモリ26に格納する。ここで文字パ
タン38の黒ビットのうち、水平方向の走査線上でα≧
Nwを満足する長さαだけ連続して検出した黒ビット
を、サブパタンの黒ビットとし、文字パタン38の黒ビ
ットのうち、水平方向の走査線上でα≧Nwを満足しな
い長さαの黒ビットを、サブパタンの白ビットとし、か
つ、文字パタン28の白ビットを、サブパタンの白ビッ
トとして、水平サブパタンを抽出する。
【0042】右斜めサブパタンを抽出する場合、第一主
走査方向は右斜め45°方向及び第一走査線は右斜め4
5°方向の走査線であって、サブパタン抽出部32は、
文字パタン38を右斜め45°方向に走査して、右斜め
サブパタンを、文字パタン38から抽出しRSPメモリ
26に格納する。ここで文字パタン38の黒ビットのう
ち、右斜め45°方向の走査線上でα≧Nwを満足する
長さαだけ連続して検出した黒ビットを、サブパタンの
黒ビットとし、文字パタン38の黒ビットのうち、右斜
め45°方向の走査線上でα≧Nwを満足しない長さα
の黒ビットを、サブパタンの白ビットとし、かつ、文字
パタン28の白ビットを、サブパタンの白ビットとし
て、右斜めサブパタンを抽出する。
【0043】左斜めサブパタンを抽出する場合、第一主
走査方向は左斜め45°方向及び第一走査線は左斜め4
5°方向の走査線であって、サブパタン抽出部32は、
文字パタン38を左斜め45°方向に走査して、左斜め
サブパタンを、文字パタン38から抽出しLSPメモリ
26に格納する。ここで文字パタン38の黒ビットのう
ち、左斜め45°方向の走査線上でα≧Nwを満足する
長さαだけ連続して検出した黒ビットを、サブパタンの
黒ビットとし、文字パタン38の黒ビットのうち、左斜
め45°方向の走査線上でα≧Nwを満足しない長さα
の黒ビットを、サブパタンの白ビットとし、かつ、文字
パタン28の白ビットを、サブパタンの白ビットとし
て、左斜めサブパタンを抽出する。
【0044】これら各サブパタンの抽出において、長さ
αの検出は走査線上で連続する黒ビットの塊毎に行な
う。例えば、走査線上で6個の黒ビット、2個の白ビッ
ト及び10個の黒ビットを順次に検出した場合には、2
個の白ビットにより黒ビットが途切れるので、6個の黒
ビットの塊の長さαと10個の黒ビットの塊の長さαと
をそれぞれ個別に、検出することになる。ここでは、連
続する黒ビットの塊を構成する黒ビットの総個数を、長
さαとして用いる。
【0045】従来周知のように定数Nを任意好適に設定
することによって、文字パタン38から、垂直、水平、
右斜め及び左斜めの各サブパタンを抽出できる。ここで
は、垂直、水平、右斜め及び左斜めの各サブパンを抽出
する場合に用いるNの値を全て等しくし、例えばN=2
とする。尚、Nの値は各サブパタン抽出に適した任意好
適な値とすることができ、ここで述べたほか、垂直及び
水平のサブパタンを抽出するのに用いるNを共通の値N1
とすると共に右斜め及び左斜めのサブパタンを抽出する
のに用いるNを他の共通の値N2としても良いし、或は、
垂直、水平、右斜め及び左斜めの各サブパタン毎に異な
る値のNを用いるようにしても良い。
【0046】図2の文字パタン38から抽出された垂直
サブパタン40、水平サブパタン42及び右斜めサブパ
タン44を、図3、図4及び図5に示す。図中、各サブ
パタン40、42及び44の、文字線部分40a、42
a及び44aをハッチングを付し実線で囲んで示すと共
に、背景部分40b、42b及び44bを白地で示す。
【0047】図2の例では、文字パタン38は、垂直、
水平及び右斜め上り45°の方向の線分要素を有するの
で、垂直、水平及び右斜めのサブパタン40、42及び
44は、文字線部分及び背景部分から成る。また文字パ
タン38は、左斜め上り45°の方向の線分要素を有さ
ないので、この文字パタン38から抽出された左斜めサ
ブパタンは、図示せずも、文字線部分を含まない背景部
分のみから成る。
【0048】サブパタン抽出部32は、文字パタン38
から抽出した垂直、水平、右斜め及び左斜めのサブパタ
ンを、VSPメモリ26V、HSPメモリ26H、RS
Pメモリ26R及びLSPメモリ26Lに格納する。
【0049】VSPメモリ26V、HSPメモリ26
H、RSPメモリ26R及びLSPメモリ26Lの各サ
ブパタン格納領域26a上には、文字パタンメモリ24
上に設定したX−Y座標系に相対応するX−Y座標系を
設定してあり、この座標系で表される画素位置のサブパ
タンを、各メモリ26から読み出すことができるように
してある。
【0050】図6はサブパタン抽出の原理的説明図であ
る。ここでは説明の簡単化のために、文字図形本来の線
要素の線幅が、その線要素が延びている方向やその線要
素が存在する位置によらず、ほぼ一定である場合、例え
ばゴシック体の文字を考える。図2の文字パタン38
は、このようなほぼ一定線幅の文字の画像パタンであ
る。
【0051】文字パタン38において、水平サブパタン
42に対応する水平ストローク381を図6(A)に、
垂直サブパタン40に対応する垂直ストローク382を
図6(B)に、さらに右斜めサブパタン44に対応する
右斜めストローク383を示す。図中、これらストロー
ク381〜383の長さを符号Sで及び線幅を符号wで
示してある。各ストロークにおいてS>wである。
【0052】例えば垂直サブパタン40の抽出を考え
て、第一の主走査方向を垂直方向とすれば、第一走査線
上で連続する黒ビットの長さα(図においてはα(垂
直)と表してある)は、水平ストローク381ではα=
w、垂直ストローク382ではα=S、右斜めストロー
ク383ではα=21/2 ・wとなる。従ってこの場合、
例えばN=2としてα≧Nwなる長さαだけ連続する黒
ビットのみを垂直サブパタン40の黒ビットとすること
により、垂直ストローク382に対応する垂直サブパタ
ン40を抽出できる。
【0053】また右斜めサブパタン44の抽出を考え
て、第一の主走査方向を右斜め45°の方向とすれば、
第一走査線上で連続する黒ビットの長さα(図において
はα(右斜め)と表してある)は、水平ストローク38
1ではα=21/2 ・w、垂直ストローク382ではα=
1/2 ・w、右斜めストローク383ではα=Sとな
る。従ってこの場合、例えばN=2としてα≧Nwなる
長さαだけ連続する黒ビットのみを右斜めサブパタン4
4の黒ビットとすることにより、右斜めストローク38
3に対応する右斜めサブパタン44を抽出できる。
【0054】文字枠検出部34は、文字パタンメモリ2
4に格納された文字パタン38を走査して、文字パタン
38の文字線部分38aに外接する外接枠を検出し、こ
れを文字枠とする。図2中に、この文字枠を、符号46
を付した二点鎖線で示す。
【0055】この文字枠46の上側端縁位置をYU 、下
側端縁位置をYD 、左側端縁位置をXL 及び右側端縁位
置をXR と表せば、文字枠46は、左上頂点A(XL
U)、右上頂点B(XR 、YU )、左下頂点C(X
L 、YD )及び右下頂点D(XR 、YD )を結ぶ矩形で
ある。
【0056】上側端縁位置YU の検出に当たっては、文
字パタンメモリ24の格納領域24a上に設定したX軸
に平行な走査線を、格納領域24aの上辺から下辺へ向
けて線順次に移動させて、各副走査位置Y毎に、走査線
上の文字画素(文字線を表す画素)の有無を判定する。
ここでは、文字画素は黒ビットである。格納領域24a
の上辺から線順次に移動させて行く過程で、最初に文字
画素を検出した走査線の副走査位置Yを、上側端縁位置
U として検出する。
【0057】下側端縁位置YD の検出に当たっては、文
字パタンメモリ24の格納領域24a上に設定したX軸
に平行な走査線を、格納領域24aの下辺から上辺へ向
けて線順次に移動させて、各副走査位置Y毎に、走査線
上の文字画素の有無を判定する。格納領域24aの下辺
から線順次に移動させて行く過程で、最初に文字画素を
検出した走査線の副走査位置Yを、下側端縁位置YU
して検出する。
【0058】左側端縁位置XL の検出に当たっては、文
字パタンメモリ24の格納領域24a上に設定したY軸
に平行な走査線を、格納領域24aの左辺から右辺へ向
けて線順次に移動させて、各副走査位置X毎に、走査線
上の文字画素の有無を判定する。格納領域24aの左辺
から線順次に移動させて行く過程で、最初に文字画素を
検出した走査線の副走査位置Xを、左側端縁位置XL
して検出する。
【0059】右側端縁位置XR の検出に当たっては、文
字パタンメモリ24の格納領域24a上に設定したY軸
に平行な走査線を、格納領域24aの右辺から左辺へ向
けて線順次に移動させて、各副走査位置X毎に、走査線
上の文字画素の有無を判定する。格納領域24aの右辺
から線順次に移動させて行く過程で、最初に文字画素を
検出した走査線の副走査位置Xを、右側端縁位置XL
して検出する。
【0060】特徴マトリクス作成部36は、VSPメモ
リ26V、HSPメモリ26H、RSPメモリ26R及
びLSPメモリ26Lの各サブパタン格納領域26a上
に、文字パタン38の文字枠46を設定する。そしてこ
の文字枠46が囲む領域を文字枠対応領域として、文字
枠対応領域を、それぞれ広さの等しいI×J個のセル領
域に分割する。これらセル領域の分割個数I×J個と同
数の中点累積メモリ28を設ける。
【0061】文字枠対応領域は、XL ≦X≦XR かつY
U ≦Y≦YD 成る矩形領域であり、例えば文字枠対応領
域が100ビット×100ビットの広さを有しI=J=
5とした場合、各セル領域は20ビット×20ビットの
広さを有する。
【0062】特徴マトリクス作成部36は、垂直、水
平、右斜め及び左斜めの各サブパタン毎に、サブパタン
抽出時の第一主走査方向と直交する第二主走査方向にサ
ブパタンを走査して、サブパタンから特徴量を抽出す
る。
【0063】ここで、特徴抽出のためのサブパタンの走
査で一番最初に走査する第二走査線を、最初の第二走査
線ST と表し、特徴抽出のためのサブパタンの走査で一
番最後に走査する走査線を最後の第二走査線SL と表
す。
【0064】垂直サブパタン40からの特徴抽出の場
合、第二主走査方向を水平方向とするので、第二副走査
方向は垂直方向となりさらに第二走査線は水平方向の走
査線となる。この場合、例えば、最初の第二走査線ST
を文字枠46の上辺(頂点A、Bを結ぶ線分)を通る水
平方向の走査線、さらに最後の第二走査線SL を文字枠
46の下辺(頂点C、Dを結ぶ線分)を通る水平方向の
走査線とし(図3参照)、第二走査線を、文字枠46の
上辺から下辺に向けて線順次に移動させて、垂直サブパ
タン40の特徴抽出を行なう。尚、第二走査線を、文字
枠46の下辺から上辺に向けて線順次に移動させて、垂
直サブパタン40の特徴抽出を行なっても良い。
【0065】水平サブパタン42からの特徴抽出の場
合、第二主走査方向を垂直方向とするので、第二副走査
方向は水平方向となりさらに第二走査線は水平方向の走
査線となる。この場合、例えば、最初の第二走査線ST
を文字枠46の左辺(頂点A、Cを結ぶ線分)を通る垂
直方向の走査線、さらに最後の第二走査線SL を文字枠
46の右辺(頂点B、Dを結ぶ線分)を通る垂直方向の
走査線とし(図4参照)、第二走査線を、文字枠46の
左辺から右辺に向けて線順次に移動させて、水平サブパ
タン42の特徴抽出を行なう。尚、第二走査線を、文字
枠46の右辺から左辺に向けて線順次に移動させて、水
平サブパタン42の特徴抽出を行なっても良い。
【0066】右斜めサブパタン44からの特徴抽出の場
合、第二主走査方向を左斜め上り45°方向とするの
で、第二副走査方向は右斜め上り45°方向さらに第二
走査線は左斜め上り45°方向の走査線となる。この場
合、例えば、最初の第二走査線ST を文字枠46の左下
頂点Cを通る左斜め上り45°方向の走査線、さらに最
後の第二走査線SL を文字枠46の右上頂点Bを通る左
斜め上り45°方向の走査線とし(図5参照)、第二走
査線を、文字枠46の左下頂点Cから右上頂点Bに向け
て線順次に移動させて、右斜めサブパタン44の特徴抽
出を行なう。尚、第二走査線を、文字枠46の右上頂点
Bから左下頂点Cに向けて線順次に移動させて、右斜め
サブパタン44の特徴抽出を行なっても良い。
【0067】左斜めサブパタンからの特徴抽出の場合、
第二主走査方向を右斜め上り45°方向とするので、第
二副走査方向は左斜め上り45°方向さらに第二走査線
は右斜め上り45°方向の走査線となる。この場合、例
えば、最初の第二走査線STを文字枠46の左上頂点A
を通る右斜め上り45°方向の走査線、さらに最後の第
二走査線SL を文字枠46の右下頂点Dを通る右斜め上
り45°方向の走査線とし、第二走査線を、文字枠46
の左上頂点Aから右下頂点Dに向けて線順次に移動させ
て、左斜めサブパタン44の特徴抽出を行なう。尚、第
二走査線を、文字枠46の右下頂点Dから左上頂点Aに
向けて線順次に移動させて、左斜めサブパタンの特徴抽
出を行なっても良い。
【0068】第二主走査方向及び第二走査線が異なるほ
かは、これら各サブパタンの特徴抽出に関わる特徴マト
リクス作成部36の動作の流れは同様である。その動作
の流れの一例を図7に示す。
【0069】以下、図7を参照して、サブパタンの特徴
抽出に関わる特徴マトリクス作成部36の動作の流れに
つき説明する。
【0070】文字枠検出及びサブパタン抽出が終了する
と、特徴マトリクス作成部36は、サブパタンの特徴抽
出を開始し(開始)、I×J個の各中点累積メモリ28
を零に初期化すると共に前走査点情報を白に初期化する
(S1)。前走査点情報は、前走査点(現走査点の一画
素前の走査点)が黒、白のいずれのビットであったかを
表す情報である。前走査点情報を白に初期化するのは、
第二走査線と文字枠46との交点が第二走査線上の最初
の走査点であり、文字枠46の外側には認識対象となる
文字図形本来の文字線部分ここでは黒ビットは存在せず
背景部分ここでは白ビットのみが存在するからである。
【0071】次に特徴マトリクス作成部36は、最初の
第二走査線ST 上の走査を開始する(S2)。この走査
では、文字枠46で切り取られる第二走査線ST 上の走
査点を順次に走査してゆく。次いで特徴マトリクス作成
部36は、現走査点が白、黒のいずれのビットであるか
を判定する(S3)。
【0072】<A>S3の判定結果が黒ビットであった
場合;特徴マトリクス作成部36は、前走査点が白ビッ
トであったか否かを判定する(S4)。この判定は、前
走査点情報に基づいて行なう。
【0073】S4の判定結果が白ビットであった場合、
前走査点で白ビットが検出され次いで現走査点で黒ビッ
トが検出された場合であるので、当該現走査点の座標
X、Yを白黒変化点の座標XWB、YWBとして記憶し(S
5)、然る後、前走査点情報を黒に書き換える(S
6)。S4の判定結果が白ビットではなかった場合すな
わち黒ビットであった場合、このときの現走査点は白黒
変化点ではないので、S5を行なわずに、S6を行な
う。
【0074】S6の後、特徴マトリクス作成部36は、
現在の走査線上の全ての走査点を走査し終えたか否かを
判定する(S7)。S7で全走査点を走査し終えていな
いと判定した場合には、現在の第二走査線上の残りの走
査点を走査すべく、現走査点の次の走査点を現走査点と
し(S8)、然る後、S3の判定を行なう。S7で全走
査点を走査し終えたと判定した場合には、次いで文字枠
対応領域の全面を走査し終えたか否かを判定する(S
9)。
【0075】S9で全面を走査し終えていないと判定し
た場合には、特徴マトリクス作成部36は、文字枠対応
領域の残りの領域を走査すべく、前走査点情報を白に初
期化し(S10)、然る後、次の第二走査線上の走査を
開始する(S11)。この走査では、文字枠46で切り
取られる第二走査線上の走査点を順次に走査してゆく。
次いで特徴マトリクス作成部36はS3の判定を行な
う。
【0076】S9で全面を走査し終えたと判定した場合
には、特徴マトリクス作成部36は、当該走査終了時点
でI×J個の各中点累積メモリ28に格納されている中
点累積個数を、マトリクス要素として、I×J次元の特
徴マトリクスを作成し、その後、当該走査を終了したサ
ブパタンの特徴抽出に関わる処理を終了する(終了)。
【0077】<B>S3の判定結果が白ビットであった
場合;特徴マトリクス作成部36は、前走査点が黒ビッ
トであったか否かを判定する(S12)。この判定は、
前走査点情報に基づいて行なう。
【0078】S12の判定結果が黒ビットではなかった
場合すなわち白ビットであった場合、このときの現走査
点は黒白変化点ではないので、特徴マトリクス作成部3
6は、後述するS13〜S15を行なわずに、前走査点
情報を白に書き換える(S18)。然る後、特徴マトリ
クス作成部36は現在の走査線上の全ての走査点を走査
し終えたか否かを判定し(S7)、以後、S7の判定結
果に応じた処理を行なう。
【0079】S12の判定結果が黒ビットであった場
合、前走査点で黒ビットが検出され次いで現走査点で白
ビットが検出された場合であるので、前走査点の座標
X、Yを黒白変化点の座標XBW、YBWとして記憶し(S
13)、然る後、白黒変化点及び黒白変化点の間の離間
距離Hを算出する(S14)。
【0080】 H={|XWB−XBW2 +|YWB−YBW21/2 ……(2) 但し、垂直サブパタンからの特徴量抽出の場合には、Y
WB=YBWとなるので、(2)式を次式(3)の如く書き
換えることができる。
【0081】H=|XWB−XBW| ……(3) 水平サブパタンからの特徴量抽出の場合には、XWB=X
BWとなるので、(2)式を次式(4)の如く書き換える
ことができる。
【0082】H=|YWB−YBW| ……(4) 次に特徴マトリクス作成部36は、距離Hが閾値T以上
であるか否かを判定する(S15)。ここでは、閾値T
=k・w(1≧k>0)とする。
【0083】距離Hは黒ビットで表される文字線部分の
線幅に相当するので、kの値を任意好適に設定すること
により、H<Tなる距離Hを得た白黒及び黒白変化点
を、文字パタン38の線幅wよりも狭い線幅を有するノ
イズNの変化点と判定することができる。線幅wよりも
狭い線幅を有するノイズNの線幅は、予備実験によりサ
ブパタンの抽出を行なって予め調べておくことができる
ので、k・wが予め調べたノイズの線幅よりも大きくな
るように、kの値を定めれば良い。
【0084】さらに1≧kとしているので、H≧Tなる
距離Hを得た白黒及び黒白変化点を、文字パタン38の
変化点である可能性の高い変化点(文字パタン38の線
幅wと等しいかそれ以上の線幅を有するノイズの変化点
である可能性もある)と判定できる。尚、文字パタン3
8が線幅wよりも狭い線幅のノイズNを有し、このノイ
ズNを含む水平サブパタン42が抽出された場合を、図
2及び図4に示す。
【0085】S15で閾値T以上であると判定した場合
には、特徴マトリクス作成部36は、白黒変化点及び黒
白変化点の中点座標XS 、Ys を求める(S16)。
【0086】 XS =(XWB+XBW)/2、 YS =(YWB+YBW)/2 ……(5) 但し、垂直サブパタンからの特徴量抽出の場合には、Y
WB=YBWとなるので、(5)式を次式(6)の如く書き
換えることができる。
【0087】 XS =(XWB+XBW)/2、 YS =YWB=YBW ……(6) 水平サブパタンからの特徴量抽出の場合には、XWB=X
BWとなるので、(5)式を次式(7)の如く書き換える
ことができる。
【0088】 XS =XWB=XBW、 YS =(YWB+YBW)/2 ……(7) 次に特徴マトリクス作成部36は、求めた中点座標X
S 、YS が存在するセル領域を検出し、当該中点が存在
するセル領域に対応した中点累積メモリ28の中点累積
個数を+1だけカウントアップする(S17)。次いで
特徴マトリクス作成部36は、S3で現走査点を白ビッ
トと判定しているので、前走査点情報を白に書き換え
(S18)、然る後、走査線上の全走査点を走査し終え
たか否かを判定する(S7)。
【0089】S15で閾値T未満であると判定した場合
には、特徴マトリクス作成部36は、S16〜S17を
行なわずに、S18の書換えを行ない、然る後、S7の
判定を行なう。
【0090】S7で全走査点を走査し終えていないと判
定した場合には、現在の第二走査線上の残りの走査点を
走査すべく、現走査点の次の走査点を現走査点とし(S
8)、然る後、S3の判定を行なう。S7で全走査点を
走査し終えたと判定した場合には、次いで文字枠対応領
域の全面を走査し終えたか否か(最後の第二走査線SL
を走査し終えたか否か)を判定する(S9)。
【0091】S9で全面を走査し終えていないと判定し
た場合には、特徴マトリクス作成部36は、文字枠対応
領域の残りの領域を走査すべく、前走査点情報を白に初
期化し(S10)、然る後、次の第二走査線上の走査を
開始する(S11)。この走査では、文字枠46で切り
取られる第二走査線上の走査点を順次に走査してゆく。
次いで特徴マトリクス作成部36はS3の判定を行な
う。
【0092】S9で全面を走査し終えたと判定した場合
には、特徴マトリクス作成部36は、当該走査終了時点
でI×J個の各中点累積メモリ28に格納されている中
点累積個数を、マトリクス要素として、I×J次元の特
徴マトリクスを作成し、その後、当該走査を終了したサ
ブパタンの特徴抽出に関わる処理を終了する(終了)。
走査終了時点で中点累積メモリ28に格納されている中
点累積個数は、当該メモリ28に対応したセル領域に存
在する文字線部分の線長であって、第二主走査方向と直
交する方向すなわち第一主走査方向における線長に相当
する。
【0093】特徴マトリクス作成部36は、サブパタン
の特徴抽出に関わる処理を終了すると、I×J次元の特
徴マトリクスの各要素を正規化して、I×J次元の正規
化した特徴マトリクスを作成する。
【0094】ここで、I×J次元の特徴マトリクスの第
i行第j列の要素をqij、要素qijを正規化した要素を
ij、文字枠46の水平方向における長さ(文字枠46
の上辺もしくは下辺の長さ)をΔX、文字枠46の垂直
方向における長さ(文字枠46の左辺もしくは右辺の長
さ)をΔYとすると、垂直サブパタンのI×J次元の特
徴マトリクスに関しては次式(8)に従って、水平サブ
パタンのI×J次元の特徴マトリクスに関しては次式
(9)に従って、さらに右斜め及び左斜めのサブパタン
に関しては次式(10)に従って、正規化した要素Qij
を求める。
【0095】 垂直サブパタン:Qij=qij/ΔY ……(8) 水平サブパタン:Qij=qij/ΔX ……(9) 右斜め、左斜めサブパタン: Qij=qij/(ΔX2 +ΔY21/2 ……(10) 特徴マトリクス作成部36は、垂直、水平、右斜め及び
左斜めの各サブパタン毎に正規化した特徴マトリクスを
得ると、これら正規化したマトリクスから成るI×J×
4次元の特徴マトリクスfA を作成する。
【0096】辞書部18は、複数の標準パタンの文字名
及び標準マトリクスfB を格納する。標準マトリクスf
B は、文字パタン38の場合と同一の表現形式で記述さ
れており、この実施例では、標準パタンの垂直、水平、
右斜め及び左斜めサブパタンから得たI×J×4次元の
特徴マトリクスを標準マトリクスfB としている。
【0097】識別部20は、特徴マトリクス作成部36
から文字パタン38の特徴マトリクスfA を入力する
と、入力した特徴マトリクスfA と辞書部18の各標準
マトリクスfB との間の距離Dとを求め、最小の距離D
を得た標準マトリクスfB の標準パタンに対し与えられ
ている文字名例えば文字コードを、文字パタン38の認
識結果として出力する。距離Dとしては、例えば次式
(11)に表される従来周知の距離を用いることができ
る。
【0098】 D={Σ(fB −fA21/2 …(11) この実施例によれば、スキャナ22の特性変動、量子化
誤差、ノイズ等の影響により、文字パタン38の文字線
部分にノイズNを生じ(図2参照)、この文字パタン3
8からノイズNを含んだサブパタン42を抽出した(図
4参照)場合でも、白黒及び黒白変化点の離間距離Hが
閾値T(T=k・w、1≧k>0)未満となるときは、
当該距離Hを得た白黒及び黒白変化点を、ノイズNの白
黒及び黒白変化点と判定して、中点累積個数のカウント
アップを行なわない。従って文字パタンの線幅wよりも
細い線幅を有するノイズNについて、白黒及び黒白変化
点の中点が、特徴量となる中点累積個数に加算されるの
を回避できるので、特徴量及び特徴マトリクスfA とし
て、ノイズの影響がより少ないものを得ることができ
る。
【0099】ノイズの影響が少ない特徴マトリクスfA
を用いて文字認識を行なうことにより、誤読及び不読を
減少させ、認識精度を向上させることができる。
【0100】請求項1の発明は上述した実施例にのみ限
定されるものはなく、この発明の趣旨の範囲内で任意好
適に変更できる。
【0101】例えば上述した実施例では、第一主走査方
向を垂直、水平、右斜め45°及び左斜め45°の方向
として各第一主走査方向に対応するサブパタンを抽出し
たが、第一主走査方向及びサブパタンはこれら特定の4
種に限定されるものではなく、第一主走査方向をそれぞ
れ方向の異なるK種類(Kは2以上の自然数)の任意好
適な方向とし、各第一主走査方向の種別毎にサブパタン
を抽出してK種類のサブパタンを抽出しても良い。また
第一主走査方向を一方向のみとし、一種のサブパタンの
みを抽出するようにしても良い。
【0102】上述した実施例では、閾値T=k・w(k
は1≧k>0の範囲の一定の値)とすることにより、入
力文字の線幅wを係数としているため、様々なサイズの
文字を入力した場合でも最適な閾値が設定され、文字線
が削除されることがなく、ノイズ成分だけ除去でき、必
要な特徴のみが抽出されるという効果がある。
【0103】また、光電変換部の汚れや電気的特性によ
るノイズ等により、ノイズの幅が文字線幅に比べて小さ
く、ほぼ一定となる場合は、閾値Tを1≦T≦wの範囲
の一定の値とすることができる。これによると線幅wに
関係のない、一定の閾値で特徴の要・不要が判定できる
ため、演算処理が簡単となり構成を簡略化できるという
効果がある。
【0104】<請求項2の発明の実施例>図8は文字認
識装置の一構成例を示す図である。以下の説明では、図
1の文字認識装置10と同様の構成成分については同一
の符号を付して示し、図1の文字認識装置10と同様の
点についてはその詳細な説明を省略する。
【0105】図8に示す文字認識装置50は、情報媒体
の画像パタンを格納する画像メモリ12と、情報媒体の
画像パタンから文字パタンを切り出す切出し部14と、
文字パタンの特徴抽出を行なう特徴抽出装置52と、標
準パタンを格納する辞書54と、文字パタンの特徴を標
準パタンの特徴と比較照合し、該照合結果に基づいて文
字パタンの認識結果を生成する照合部56とを備える。
【0106】特徴抽出装置52は、請求項2の発明の実
施例を実施するための装置であって、文字パタンメモリ
24、サブパタンメモリ26及び黒ビット累積メモリ5
8と、線幅検出部30、サブパタン抽出部32、文字枠
検出部34及び特徴マトリクス作成部60とを備える。
【0107】黒ビット累積メモリ58は、サブパタンの
各セル領域毎に、セル領域内の黒ビット累積個数を格納
する。後述するようにサブパタンをI×J個のセル領域
に分割するので、これらセル領域毎に個別に、I×J個
の中点累積メモリ28を設ける。
【0108】特徴マトリクス作成部60は、特徴マトリ
クス作成処理を行なう。この処理では、サブパタンメモ
リ26に格納されたサブパタンを第一主走査方向と直交
する第二主走査方向に走査して、第二走査線上で連続す
る黒ビットを検出する。そしてサブパタンメモリ26に
格納されたサブパタンの文字枠対応領域をI×J個のセ
ル領域に分割し、I×J個のセル領域のなかから、第二
走査線上で連続する黒ビットが存在するセル領域を検出
して、当該存在領域の黒ビット累積メモリに格納されて
いる黒ビット累積個数をカウントアップする。そしてサ
ブパタン走査終了時の黒ビット累積個数を特徴量とし
て、I×J個の特徴量を抽出し、これら特徴量を用いて
文字パタンの特徴マトリクスを作成する。この際、第二
走査線上で連続する黒ビットの長さhが閾値T未満とな
るときは黒ビット累積個数をカウントアップせずに、長
さhが閾値T以上となるとき黒ビット累積個数をカウン
トアップして、特徴量を抽出する。ここでは、複数種の
サブパタンの各サブパタン毎に、I×J個の特徴量を抽
出して特徴マトリクスを作成する。
【0109】以下、文字認識装置50の動作説明と共
に、請求項2の発明の実施例について説明する。切出し
部14、線幅検出部30、サブパタン抽出部32及び文
字枠検出部34の動作と、画像メモリ12、文字パタン
メモリ24及びサブパタンメモリ26の構成とは、図1
の文字認識装置10の場合と同様であるので、説明を省
略する。
【0110】特徴マトリクス作成部60は、VSPメモ
リ26V、HSPメモリ26H、RSPメモリ26R及
びLSPメモリ26Lの各サブパタン格納領域26a上
に、文字パタン38の文字枠46を設定する。そしてこ
の文字枠46が囲む領域を文字枠対応領域として、文字
枠対応領域を、それぞれ広さの等しいI×J個のセル領
域に分割する。これらセル領域の分割個数I×J個と同
数の中点累積メモリ28を設ける。文字枠対応領域は、
L ≦X≦XR かつYU ≦Y≦YD 成る矩形領域であ
る。
【0111】特徴マトリクス作成部60は、垂直、水
平、右斜め及び左斜めの各サブパタン毎に、サブパタン
抽出時の第一主走査方向と直交する第二主走査方向にサ
ブパタンを走査して、サブパタンから特徴量を抽出す
る。
【0112】ここで、特徴抽出のためのサブパタンの走
査で一番最初に走査する第二走査線を、最初の第二走査
線ST と表し、特徴抽出のためのサブパタンの走査で一
番最後に走査する走査線を最後の第二走査線SL と表
す。
【0113】垂直サブパタン40からの特徴抽出の場
合、第二主走査方向を水平方向とするので、第二副走査
方向は垂直方向となりさらに第二走査線は水平方向の走
査線となる。この場合、例えば、最初の第二走査線ST
を文字枠46の上辺(頂点A、Bを結ぶ線分)を通る水
平方向の走査線、さらに最後の第二走査線SL を文字枠
46の下辺(頂点C、Dを結ぶ線分)を通る水平方向の
走査線とし(図3参照)、第二走査線を、文字枠46の
上辺から下辺に向けて線順次に移動させて、垂直サブパ
タン40の特徴抽出を行なう。尚、第二走査線を、文字
枠46の下辺から上辺に向けて線順次に移動させて、垂
直サブパタン40の特徴抽出を行なっても良い。
【0114】水平サブパタン42からの特徴抽出の場
合、第二主走査方向を垂直方向とするので、第二副走査
方向は水平方向となりさらに第二走査線は水平方向の走
査線となる。この場合、例えば、最初の第二走査線ST
を文字枠46の左辺(頂点A、Cを結ぶ線分)を通る垂
直方向の走査線、さらに最後の第二走査線SL を文字枠
46の右辺(頂点B、Dを結ぶ線分)を通る垂直方向の
走査線とし(図4参照)、第二走査線を、文字枠46の
左辺から右辺に向けて線順次に移動させて、水平サブパ
タン42の特徴抽出を行なう。尚、第二走査線を、文字
枠46の右辺から左辺に向けて線順次に移動させて、水
平サブパタン42の特徴抽出を行なっても良い。
【0115】右斜めサブパタン44からの特徴抽出の場
合、第二主走査方向を左斜め上り45°方向とするの
で、第二副走査方向は右斜め上り45°方向さらに第二
走査線は左斜め上り45°方向の走査線となる。この場
合、例えば、最初の第二走査線ST を文字枠46の左下
頂点Cを通る左斜め上り45°方向の走査線、さらに最
後の第二走査線SL を文字枠46の右上頂点Bを通る左
斜め上り45°方向の走査線とし(図5参照)、第二走
査線を、文字枠46の左下頂点Cから右上頂点Bに向け
て線順次に移動させて、右斜めサブパタン44の特徴抽
出を行なう。尚、第二走査線を、文字枠46の右上頂点
Bから左下頂点Cに向けて線順次に移動させて、右斜め
サブパタン44の特徴抽出を行なっても良い。
【0116】左斜めサブパタンからの特徴抽出の場合、
第二主走査方向を右斜め上り45°方向とするので、第
二副走査方向は左斜め上り45°方向さらに第二走査線
は右斜め上り45°方向の走査線となる。この場合、例
えば、最初の第二走査線STを文字枠46の左上頂点A
を通る右斜め上り45°方向の走査線、さらに最後の第
二走査線SL を文字枠46の右下頂点Dを通る右斜め上
り45°方向の走査線とし、第二走査線を、文字枠46
の左上頂点Aから右下頂点Dに向けて線順次に移動させ
て、左斜めサブパタン44の特徴抽出を行なう。尚、第
二走査線を、文字枠46の右下頂点Dから左上頂点Aに
向けて線順次に移動させて、左斜めサブパタンの特徴抽
出を行なっても良い。
【0117】第二主走査方向及び第二走査線が異なるほ
かは、これら各サブパタンの特徴抽出に関わる特徴マト
リクス作成部60の動作の流れは同様である。その動作
の流れの一例を図9に示す。
【0118】以下、図9を参照して、サブパタンの特徴
抽出に関わる特徴マトリクス作成部60の動作の流れに
つき説明する。
【0119】文字枠検出及びサブパタン抽出が終了する
と、特徴マトリクス作成部60は、サブパタンの特徴抽
出を開始し(開始)、まず第二走査線上で連続する黒ビ
ットの長さhを零に初期化し、そしてI×J個の黒ビッ
ト累積メモリ58をそれぞれ零に初期化し、さらに前走
査点情報を白に初期化する(S1)。前走査点情報は、
前走査点(現走査点の一画素前の走査点)が黒、白のい
ずれのビットであったかを表す情報である。前走査点情
報を白に初期化するのは、第二走査線と文字枠46との
交点が、第二走査線上の最初の走査点であり、文字枠4
6の外側には認識対象となる文字図形本来の文字線部分
ここでは黒ビットは存在せず背景部分ここでは白ビット
のみが存在するからである。
【0120】次に特徴マトリクス作成部60は、最初の
第二走査線ST 上の走査を開始する(S2)。この走査
では、文字枠46で切り取られる第二走査線ST 上の走
査点を順次に走査してゆく。次いで特徴マトリクス作成
部60は、現走査点が白、黒のいずれのビットであるか
を判定する(S3)。S3の判定は、各走査点毎に行な
う。
【0121】<A>S3の判定結果が黒ビットであった
場合;特徴マトリクス作成部60は、第二走査線上で連
続する黒ビットの長さhを検出すべく、長さhに+1を
加算し(S4)、然る後、前走査点が白ビットであった
か否かを判定する(S5)。S5の判定は、前走査点情
報に基づいて行なう。
【0122】S5の判定結果が白ビットであった場合
は、前走査点で白ビットを検出し次いで現走査点で黒ビ
ットを検出したので、現走査点を第二走査線上で連続す
る黒ビットの始点として記憶し(S6)、然る後、前走
査点情報を黒に書き換える(S7)。S5の判定結果が
黒ビットであった場合、現走査点は第二走査線上で連続
する黒ビットの始点ではないので、S6の記憶を行なわ
ずにS7の書き換えを行なう。
【0123】S6に次いで、特徴マトリクス作成部60
は、現在の第二走査線上の全ての走査点を走査し終えた
か否かを判定する(S8)。
【0124】S8で全ての走査点を走査し終えていない
と判定した場合には、現在の第二走査線上の残りの走査
点を走査すべく、現走査点の次の走査点を現走査点とし
(S9)、然る後、S3の判定を行なう。S8で全ての
走査点を走査し終えたと判定した場合には、次いで文字
枠対応領域の全面を走査し終えたか否かを判定する(S
10)。
【0125】S10で全面を走査し終えていないと判定
した場合には、特徴マトリクス作成部60は、文字枠対
応領域の残りの領域を走査すべく、前走査点情報を白に
初期化する(S11)。白に初期化するのは、第二走査
線と文字枠46との交点が、第二走査線上の最初の走査
点であり、文字枠46の外側には認識対象となる文字図
形本来の文字線部分は存在せず背景部分のみが存在する
からである。然る後、特徴マトリクス作成部60は、次
の第二走査線上の走査を開始する(S12)。この走査
では、文字枠46で切り取られる第二走査線上の走査点
を順次に走査してゆく。次いで特徴マトリクス作成部6
0は、各走査点毎にS3の判定を行なう。
【0126】S10で全面を走査し終えたと判定した場
合には、特徴マトリクス作成部60は、当該走査終了時
点でI×J個の各黒ビット累積メモリ58に格納されて
いる黒ビット累積個数を、マトリクス要素として、I×
J次元の特徴マトリクスを作成し、その後、当該走査を
終了したサブパタンの特徴抽出に関わる処理を終了する
(終了)。
【0127】<B>S3の判定結果が白ビットであった
場合;特徴マトリクス作成部60は、前走査点が黒ビッ
トであったか否かを判定する(S13)。この判定は、
前走査点情報に基づいて行なう。
【0128】S13の判定結果が黒ビットではなかった
場合すなわち白ビットであった場合、特徴マトリクス作
成部60は、S3で白ビットと判定しているので前走査
点情報を白に書き換え(S14)、然る後、現在の第二
走査線上の全ての走査点を走査し終えたか否かを判定す
る(S8)。以後、S8の判定結果に応じた処理を行な
う。
【0129】S13の判定結果が黒ビットであった場
合、前走査点で黒ビットを検出し次いで現走査点で白ビ
ットを検出したので、現走査点を第二走査線上で連続す
る黒ビットの終点として記憶し(S15)、然る後、長
さhが閾値T以上となるか否かを判定する(S16)。
ここでは、閾値T=k・w(1≧k>0)とする。例え
ばk=0.5である。
【0130】長さhは黒ビットで表される文字線部分の
線幅に相当するので、kの値を任意好適に設定すること
により、h<Tなる長さhだけ第二走査線上で連続して
検出した黒ビットの塊(以下、黒ラン)を、文字パタン
38の線幅wよりも狭い線幅を有するノイズNの黒ラン
と判定することができる。線幅wよりも狭い線幅を有す
るノイズNの線幅は、予備実験によりサブパタンの抽出
を行なって予め調べておくことができるので、k・wが
予め調べたノイズの線幅よりも大きくなるように、kの
値を定めれば良い。
【0131】さらに1≧kとしているので、h≧Tなる
長さhだけ第二走査線上で連続して検出した黒ランを、
文字パタン38の黒ランである可能性の高い黒ラン(文
字パタン38の線幅wと等しいかそれ以上の線幅を有す
るノイズの黒ランである可能性もある)と判定できる。
【0132】S16でh≧Tであると判定した場合に
は、当該h≧Tなる長さhの黒ランを構成する黒ビット
が存在するセル領域を検出し、当該黒ビットが存在する
セル領域の黒ビット累積個数を、その存在個数だけ加算
する(S17)。この際、h≧Tなる長さhの黒ランを
構成する黒ビットの全部が、一つのセル領域内に存在す
れば、黒ランを構成する黒ビットの総個数を、当該一つ
のセル領域の黒ビット累積個数に加算する。またh≧T
なる長さhの黒ランを構成する黒ビットが複数のセル領
域に跨がって存在する場合には、セル領域に存在する黒
ビットの個数だけ黒ビット累積個数を加算する。例えば
黒ランを構成する黒ビットのうちV個がセル領域vに存
在し残りのW個がセル領域wに存在する場合には、セル
領域v内の黒ビット存在個数Vを、当該セル領域vの黒
ビット累積個数に加算すると共に、セル領域w内の黒ビ
ット存在個数Wを、当該セル領域wの黒ビット累積個数
に加算する。
【0133】S17に次いで、特徴マトリクス作成部6
0は、S3で現走査点を白ビットと判定しているので前
走査点情報を白に書き換え(S14)、然る後、走査線
上の全走査点を走査し終えたか否かを判定する(S
8)。
【0134】S8で全走査点を走査し終えていないと判
定した場合には、現在の第二走査線上の残りの走査点を
走査すべく、現走査点の次の走査点を現走査点とし(S
9)、然る後、S3の判定を行なう。S8で全走査点を
走査し終えたと判定した場合には、次いで文字枠対応領
域の全面を走査し終えたか否か(最後の第二走査線SL
上の全ての走査点を走査し終えたか否か)を判定する
(S10)。
【0135】S10で全面を走査し終えていないと判定
した場合には、特徴マトリクス作成部60は、文字枠対
応領域の残りの領域を走査すべく、前走査点情報を白に
初期化し(S11)、然る後、次の第二走査線上の走査
を開始する(S12)。この走査では、文字枠46で切
り取られる第二走査線上の走査点を順次に走査してゆ
く。次いで特徴マトリクス作成部60はS3の判定を行
なう。
【0136】S10で全面を走査し終えたと判定した場
合には、特徴マトリクス作成部60は、当該走査終了時
点でI×J個の各黒ビット累積メモリ58に格納されて
いる黒ビット累積個数をそれぞれ、マトリクス要素とし
て、I×J次元の特徴マトリクスを作成し、然る後、当
該走査を終了したサブパタンの特徴抽出に関わる処理を
終了する(終了)。
【0137】走査終了時点で黒ビット累積メモリ58に
格納されている黒ビット累積個数は、当該メモリ28に
対応したセル領域に存在する文字線部分の線長であっ
て、第二主走査方向と直交する方向すなわち第一主走査
方向における線長に相当する。また第i行第j列(i=
1、2、……、I。j=1、2、……、J。)のセル領
域に対応する黒ビット累積メモリ58に格納されている
黒ビット累積個数Bijが、この特徴マトリクスの第i行
第j列の要素Bijとなる。
【0138】特徴マトリクス作成部60は、サブパタン
の特徴抽出に関わる処理を終了すると、I×J次元の特
徴マトリクスの各要素を正規化して、I×J次元の正規
化した特徴マトリクスを作成する。
【0139】そして特徴マトリクス作成部60は、垂
直、水平、右斜め及び左斜めの各サブパタン毎に正規化
した特徴マトリクスを得ると、これら正規化したマトリ
クスから成るI×J×3次元の特徴マトリクスfA を作
成する。
【0140】ここで垂直、水平、右斜め及び左斜めサブ
パタンの要素BijをそれぞれBij(V) 、Bij(H) 、B
ij(R) 及びBij(L) 、垂直、水平、右斜め及び左斜めサ
ブパタンの正規化した要素BijをそれぞれSij(V) 、S
ij(H) 、Sij(R) 及びSij(L)と表せば、正規化した要
素Sij(V) 、Sij(H) 、Sij(R) 及びSij(L) は次式
(12)、(13)、(14)及び(15)により表せ
る。
【0141】Sij(V) =Bij(V) /w ……(12) Sij(H) =Bij(H) /w ……(13) Sij(R) =Bij(R) /w ……(14) Sij(L) =Bij(L) /w ……(15) 特徴マトリクスfA は、要素Sij(V) と要素Sij(H)
要素(Sij(R) +Sij(L) )とから成るI×J×3次元
のマトリクスである。
【0142】辞書部54は、複数の標準パタンの文字名
及び標準マトリクスfB を格納する。標準マトリクスf
B は、文字パタン38の場合と同一の表現形式で記述さ
れており、この実施例では、標準パタンの垂直、水平、
右斜め及び左斜めサブパタンの特徴マトリクスから作成
したI×J×3次元の特徴マトリクスを、標準マトリク
スfB としている。
【0143】識別部56は、特徴マトリクス作成部60
から文字パタン38の特徴マトリクスfA を入力する
と、入力した特徴マトリクスfA と辞書部54の各標準
マトリクスfB との間の距離Dとを求め、最小の距離D
を得た標準マトリクスfB の標準パタンに対し与えられ
ている文字名例えば文字コードを、文字パタン38の認
識結果として出力する。距離Dとしては、例えば式(1
1)に表される従来周知の距離を用いることができる。
【0144】この実施例によれば、スキャナ22の特性
変動、量子化誤差、ノイズ等の影響により、文字パタン
38の文字線部分にノイズNを生じ(図2参照)、この
文字パタン38からノイズNを含んだサブパタン42を
抽出した(図4参照)場合でも、第二走査線上で連続す
る黒ビットの長さhが閾値T(ここではT=k・w、1
≧k>0)未満となるときは、当該長さhを得た黒ビッ
トを、ノイズNの黒ビットと判定して、黒ビット累積個
数のカウントアップを行なわない。従って文字パタンの
線幅wよりも細い線幅を有するノイズNの黒ビットが、
特徴量となる中点累積個数に加算されるのを回避できる
ので、特徴量及び特徴マトリクスfA として、ノイズの
影響がより少ないものを得ることができる。
【0145】ノイズの影響が少ない特徴マトリクスfA
を用いて文字認識を行なうことにより、誤読及び不読を
減少させ、認識精度を向上させることができる。
【0146】請求項2の発明は上述した実施例にのみ限
定されるものはなく、この発明の趣旨の範囲内で任意好
適に変更できる。
【0147】例えば上述した実施例では、第一主走査方
向を垂直、水平、右斜め45°及び左斜め45°の方向
として各第一主走査方向に対応するサブパタンを抽出し
たが、第一主走査方向及びサブパタンはこれら特定の4
種に限定されるものではなく、第一主走査方向をそれぞ
れ方向の異なるK種類(Kは2以上の自然数)の任意好
適な方向とし、各第一主走査方向の種別毎にサブパタン
を抽出してK種類のサブパタンを抽出しても良い。また
第一主走査方向を一方向のみとし、一種のサブパタンの
み抽出するようにしても良い。
【0148】上述した実施例では、閾値T=k・w(k
は1≧k>0の範囲の一定の値)とすることにより、入
力文字の線幅wを係数としているため、様々なサイズの
文字を入力した場合でも最適な閾値が設定され、文字線
が削除されることがなく、ノイズ成分だけ除去でき、必
要な特徴のみが抽出されるという効果がある。
【0149】また、光電変換部の汚れや電気的特性によ
るノイズ等により、ノイズの幅が文字線幅に比べて小さ
く、ほぼ一定となる場合は、閾値Tを1≦T≦wの範囲
の一定の値とすることができる。これによると線幅wに
関係のない、一定の閾値で特徴の要・不要が判定できる
ため、演算処理が簡単となり構成を簡略化できるという
効果がある。
【0150】
【発明の効果】上述した説明からも明らかなように、請
求項1の発明の特徴抽出方法によれば、対を成す白黒及
び黒白変化点の離間距離Hが閾値T未満となるときは中
点累積個数をカウントアップせずに、離間距離Hが閾値
T以上となるとき中点累積個数をカウントアップして、
特徴量を抽出するので、サブパタンがノイズの黒ビット
を含む場合でも、ノイズの白黒及び黒白変化点について
求めた中点が、特徴量となる中点累積個数に加算されて
しまうのを、回避できる。これがため文字認識に用いる
特徴量として、ノイズの影響の少ない特徴量を得ること
ができ、従って文字認識の際の誤読や不読を少なくして
文字認識の精度を向上できる特徴量を、抽出できる。
【0151】さらに請求項2の発明の特徴抽出方法によ
れば、第二走査線上で連続する黒ビットの長さhが閾値
T未満となるときは黒ビット累積個数をカウントアップ
せずに、長さhが閾値T以上となるとき黒ビット累積個
数をカウントアップして、特徴量を抽出するので、サブ
パタンがノイズの黒ビットを含む場合でも、ノイズの黒
ビットが特徴量となる黒ビット累積個数に加算されてし
まうのを、回避できる。これがため文字認識に用いる特
徴量として、ノイズの影響の少ない特徴量を得ることが
でき、従って文字認識の際の誤読や不読を少なくして、
文字認識の精度を向上できる特徴量を、抽出できる。
【図面の簡単な説明】
【図1】請求項1の発明の実施例を実施するための特徴
抽出装置を備えた文字認識装置の構成の一例を示す図で
ある。
【図2】文字パタンの一例を示す図である。
【図3】垂直サブパタンの一例を示す図である。
【図4】水平サブパタンの一例を示す図である。
【図5】右斜めサブパタンの一例を示す図である。
【図6】(A)〜(C)はサブパタン抽出の原理的説明
に供する図である。
【図7】請求項1の発明の実施例について、サブパタン
からの特徴抽出に関する動作の流れを示す図である。
【図8】請求項2の発明の実施例を実施するための特徴
抽出装置を備えた文字認識装置の構成の一例を示す図で
ある。
【図9】請求項2の発明の実施例について、サブパタン
からの特徴抽出に関する動作の流れを示す図である。
【符号の説明】
16、52:特徴抽出装置 24:文字パタンメモリ 26:サブパタンメモリ 28:中点累積メモリ 30:線幅検出部 32:サブパタン抽出部 34:文字枠検出部 36、60:特徴マトリクス作成部 58:黒ビット累積メモリ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 認識対象の文字図形を光電変換して得た
    文字パタンを格納する文字パタンメモリと、該文字パタ
    ンから抽出されたサブパタンを格納するサブパタンメモ
    リと、サブパタンの各セル領域毎に、セル領域内の中点
    累積個数を格納する中点累積メモリとを設け、 文字パタンメモリに格納された文字パタンを、第一主走
    査方向に走査し、文字パタンの黒ビットのうち、第一走
    査線上でα≧Nw(Nは定数、wは文字パタンの線幅を
    表す)を満足する長さαだけ連続して検出した黒ビット
    を、サブパタンの黒ビットとすると共に、文字パタンの
    残りの黒ビット及び白ビットを、サブパタンの白ビット
    として、サブパタンを抽出するサブパタン抽出処理と、 文字パタンメモリに格納された文字パタンの文字枠を検
    出する文字枠検出処理と、 サブパタンメモリに格納されたサブパタンを第一主走査
    方向と直交する第二主走査方向に走査して、第二走査線
    上の、白黒変化点と当該変化点の次の黒白変化点とを対
    と成して検出し、該対を成す白黒及び黒白変化点の中点
    座標X、Yを求め、 サブパタンメモリに格納されたサブパタンの文字枠対応
    領域をI×J個のセル領域に分割し、I×J個のセル領
    域のなかから、前記中点座標X、Yが存在するセル領域
    を検出して、当該存在領域の中点累積メモリに格納され
    ている中点累積個数をカウントアップし、 サブパタン走査終了時の中点累積個数を特徴量として、
    I×J個の特徴量を抽出し、これら特徴量を用いて文字
    パタンの特徴マトリクスを作成する特徴マトリクス作成
    処理とを行なう特徴抽出方法において、 対を成す白黒及び黒白変化点の、第二主走査方向におけ
    る離間距離Hが、閾値T未満となるときは中点累積個数
    をカウントアップせずに、離間距離Hが閾値T以上とな
    るとき中点累積個数をカウントアップして、特徴量を抽
    出することを特徴とする特徴抽出方法。
  2. 【請求項2】 認識対象の文字図形を光電変換して得た
    文字パタンを格納する文字パタンメモリと、該文字パタ
    ンから抽出されたサブパタンを格納するサブパタンメモ
    リと、サブパタンの各セル領域毎に、セル領域内の黒ビ
    ット累積個数を格納する黒ビット累積メモリとを設け、 文字パタンメモリに格納された文字パタンを、第一主走
    査方向に走査し、文字パタンの黒ビットのうち、第一走
    査線上でα≧Nw(Nは定数、wは文字パタンの線幅)
    を満足する長さαだけ連続して検出した黒ビットを、サ
    ブパタンの黒ビットとすると共に、文字パタンの残りの
    黒ビット及び白ビットを、サブパタンの白ビットとし
    て、サブパタンを抽出するサブパタン抽出処理と、 文字パタンメモリに格納された文字パタンの文字枠を検
    出する文字枠検出処理と、 サブパタンメモリに格納されたサブパタンを第一主走査
    方向と直交する第二主走査方向に走査して、第二走査線
    上で連続する黒ビットを検出し、 サブパタンメモリに格納されたサブパタンの文字枠対応
    領域をI×J個のセル領域に分割し、I×J個のセル領
    域のなかから、前記第二走査線上で連続する黒ビットが
    存在するセル領域を検出して、当該存在領域の黒ビット
    累積メモリに格納されている黒ビット累積個数をカウン
    トアップし、 サブパタン走査終了時の黒ビット累積個数を特徴量とし
    て、I×J個の特徴量を抽出し、これら特徴量を用いて
    文字パタンの特徴マトリクスを作成する特徴マトリクス
    作成処理とを行なう特徴抽出方法において、 第二走査線上で連続する黒ビットの長さhが閾値T未満
    となるときは黒ビット累積個数をカウントアップせず
    に、長さhが閾値T以上となるとき黒ビット累積個数を
    カウントアップして、特徴量を抽出することを特徴とす
    る特徴抽出方法。
  3. 【請求項3】 請求項1又は2記載の特徴抽出方法にお
    いて、閾値TをT=k・w(1≧k>0)としたことを
    特徴とする特徴抽出方法。
  4. 【請求項4】 請求項1又は2記載の特徴抽出方法にお
    いて、閾値Tを1≦T≦wとしたことを特徴とする特徴
    抽出方法。
JP7189473A 1995-07-25 1995-07-25 特徴抽出方法 Withdrawn JPH0944597A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7189473A JPH0944597A (ja) 1995-07-25 1995-07-25 特徴抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7189473A JPH0944597A (ja) 1995-07-25 1995-07-25 特徴抽出方法

Publications (1)

Publication Number Publication Date
JPH0944597A true JPH0944597A (ja) 1997-02-14

Family

ID=16241857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7189473A Withdrawn JPH0944597A (ja) 1995-07-25 1995-07-25 特徴抽出方法

Country Status (1)

Country Link
JP (1) JPH0944597A (ja)

Similar Documents

Publication Publication Date Title
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US5907631A (en) Document image processing method and system having function of determining body text region reading order
US5335290A (en) Segmentation of text, picture and lines of a document image
EP0881591B1 (en) Ordering groups of text in an image
JP3950777B2 (ja) 画像処理方法、画像処理装置および画像処理プログラム
US5033104A (en) Method for detecting character strings
JP2001092919A (ja) 2次元バーコードのねじれ角決定法
JPS63158678A (ja) 単語間スペ−ス検出方法
US4901365A (en) Method of searching binary images to find search regions in which straight lines may be found
JPH02293989A (ja) 文字認識装置
JP2868134B2 (ja) 画像処理方法及び装置
JPH0944597A (ja) 特徴抽出方法
EP0702320A1 (en) Skew detection
JPH03126181A (ja) 文書画像の領域分割方法
JP2644477B2 (ja) 画像処理方法
JPS62121589A (ja) 文字切出し方法
JPH0728934A (ja) 文書画像処理装置
JP2708604B2 (ja) 文字認識方法
JPH07120392B2 (ja) 文字パターン切り出し装置
JP2859307B2 (ja) 文字切出し装置
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JPH0433074B2 (ja)
JPH05114047A (ja) 文字切り出し装置
JPH04316178A (ja) 文書画像の属性判別方法
JP3127413B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20021001