JPH01152585A - 特徴抽出方法 - Google Patents
特徴抽出方法Info
- Publication number
- JPH01152585A JPH01152585A JP62310882A JP31088287A JPH01152585A JP H01152585 A JPH01152585 A JP H01152585A JP 62310882 A JP62310882 A JP 62310882A JP 31088287 A JP31088287 A JP 31088287A JP H01152585 A JPH01152585 A JP H01152585A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- black
- feature
- character
- black run
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title description 25
- 238000000605 extraction Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 abstract description 50
- 230000015654 memory Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005452 bending Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、文字認識装置等に適用される特徴抽出方法に
関する。
関する。
(従来の技術)
従来、例えば文字図形認識装置に於ては、紙面等から読
み取られた文字図形パターンよりその文字等を構成する
ストロークを抽出し、それら抽出されたストロークの位
置、長さ、ストローク間の相互関係等を用いて文字等を
認識する方法が多く採用されていた。
み取られた文字図形パターンよりその文字等を構成する
ストロークを抽出し、それら抽出されたストロークの位
置、長さ、ストローク間の相互関係等を用いて文字等を
認識する方法が多く採用されていた。
例えばその第1の手法においては、文字図形パターンの
輪郭を追跡することにより検出された輪郭点系列(座標
値の集合)についてその曲率を計算し、曲率の大きな値
の点を分割点として輪郭点系列を分割し、分割された系
列を組合わせることによりストロークを抽出して、その
ストロークについて幾何学的な特徴等を抽出して標準文
字マスクと照合し、文字図形を認識するようにしていた
。
輪郭を追跡することにより検出された輪郭点系列(座標
値の集合)についてその曲率を計算し、曲率の大きな値
の点を分割点として輪郭点系列を分割し、分割された系
列を組合わせることによりストロークを抽出して、その
ストロークについて幾何学的な特徴等を抽出して標準文
字マスクと照合し、文字図形を認識するようにしていた
。
又、第2の手法においては、文字図形パターンの細線化
処理を行なって骨格化し、その骨格パターンの連結性及
び骨格パターンを追跡し、急激な角度の変化点等を検出
してストロークを抽出し、そのストロークについて第1
の手法と同様に幾何学的な特徴等を抽出して文字図形の
認識を行なっていた。
処理を行なって骨格化し、その骨格パターンの連結性及
び骨格パターンを追跡し、急激な角度の変化点等を検出
してストロークを抽出し、そのストロークについて第1
の手法と同様に幾何学的な特徴等を抽出して文字図形の
認識を行なっていた。
しかしながら上記第1の手法は、文字図形パターンが大
きくなり、又文字図形パターンが複雑化すると、その処
理量が増大し処理速度の低下を招く欠点があった。
きくなり、又文字図形パターンが複雑化すると、その処
理量が増大し処理速度の低下を招く欠点があった。
又、第2の手法は、文字図形パターンを細線化する必要
があり、その細線化によるパターンのひずみ、屈曲点等
における不要なヒゲの発生等の問題があり、その後の処
理を複雑なものとしていた。
があり、その細線化によるパターンのひずみ、屈曲点等
における不要なヒゲの発生等の問題があり、その後の処
理を複雑なものとしていた。
このような問題を解決するために、本出願人は、先の出
願(特開昭62−154079号公報)により、以下の
(a)から(f)の手順に従って文字図形パターンの特
徴抽出を行なう方法を提案している。
願(特開昭62−154079号公報)により、以下の
(a)から(f)の手順に従って文字図形パターンの特
徴抽出を行なう方法を提案している。
第2図(a)〜(e)にその構成を図解した。
(a)先ず、紙面等に記載された文字図形パターンをイ
メージラインセンサ等で読み取り、光電変換して量子化
することにより、黒ビット及び白ビットで表わされるデ
ィジタル信号の原パターン21を作成する[第2図(a
)]。
メージラインセンサ等で読み取り、光電変換して量子化
することにより、黒ビット及び白ビットで表わされるデ
ィジタル信号の原パターン21を作成する[第2図(a
)]。
(b)次に、その原パターン中の文字図形の線幅Wを算
出する。
出する。
(C)次に、文字に外接する文字枠22により文字を取
り囲む。そして、その文字枠内領域において、原パター
ン21について複数の方向(例えば縦、横、斜め方向)
に第1の走査(それぞれ全面走査)を行なって、各方向
の走査について各走査列毎の黒ビットの連続個数を検出
し、当該黒ビットの連続個数と前記線幅Wとに基づいて
、第1の走査の複数の方向毎に対応した複数のサブパタ
ーン(VSP、H3P、H3P、 、LSP)を抽出す
る。
り囲む。そして、その文字枠内領域において、原パター
ン21について複数の方向(例えば縦、横、斜め方向)
に第1の走査(それぞれ全面走査)を行なって、各方向
の走査について各走査列毎の黒ビットの連続個数を検出
し、当該黒ビットの連続個数と前記線幅Wとに基づいて
、第1の走査の複数の方向毎に対応した複数のサブパタ
ーン(VSP、H3P、H3P、 、LSP)を抽出す
る。
これは即ち、第2図(a)の原パターンから、縦方向の
ストローク、横方向のストローク、斜め方向のストロー
クのみをそれぞれ抽出して、これらをもとに、サブパタ
ーン23a〜23dを得ることを意味する[第2図(b
)]。
ストローク、横方向のストローク、斜め方向のストロー
クのみをそれぞれ抽出して、これらをもとに、サブパタ
ーン23a〜23dを得ることを意味する[第2図(b
)]。
(d)次に、上記原パターン21の文字枠内領域を上記
各サブパターン毎に(NXM)個の領域(N、Mは整数
、図の例ではM=N=5)に分割し、更に各サブパター
ンの抽出の際に走査した第1の走査の方向と所定の角度
を成す方向にそれぞれ第2の走査を行ない、白ビットか
ら黒ビット、黒ビットから白ビットへ変化したときの黒
ビットの座標位置を基に線長マトリクスを作成する。
各サブパターン毎に(NXM)個の領域(N、Mは整数
、図の例ではM=N=5)に分割し、更に各サブパター
ンの抽出の際に走査した第1の走査の方向と所定の角度
を成す方向にそれぞれ第2の走査を行ない、白ビットか
ら黒ビット、黒ビットから白ビットへ変化したときの黒
ビットの座標位置を基に線長マトリクスを作成する。
実際には、第2図(b)の垂直サブパターン(vsp)
中に例示したように、第2の走査27を行なったとき、
線28との交叉部分の中点29を求める。そして、その
中点29が存在する線長マトリクス上のデータに“1”
を加算する。各サブパターンの100X 100画素構
成の全画素について第2の走査を行なえば、各分割され
た領域はそれぞれ20回走査されるから、その領域内で
一端から他端まで連続する線についての特徴量は、それ
ぞれ“20”となる。領域内で終端する線についての特
徴量は、その領域内における線の長さに応じた値となる
。その結果、例えば第2図(c)のような線長マトリク
ス24a〜24dを得る。
中に例示したように、第2の走査27を行なったとき、
線28との交叉部分の中点29を求める。そして、その
中点29が存在する線長マトリクス上のデータに“1”
を加算する。各サブパターンの100X 100画素構
成の全画素について第2の走査を行なえば、各分割され
た領域はそれぞれ20回走査されるから、その領域内で
一端から他端まで連続する線についての特徴量は、それ
ぞれ“20”となる。領域内で終端する線についての特
徴量は、その領域内における線の長さに応じた値となる
。その結果、例えば第2図(c)のような線長マトリク
ス24a〜24dを得る。
(e)次に、その線長マトリクスを文字の大きさで正規
化して特徴マトリクスを作成する。
化して特徴マトリクスを作成する。
これは、標準マスクとこのマトリクスを比較する前に、
原パターン21の縦横比やサイズを正規のものに近づけ
るための補正演算を行なうことを意味する。
原パターン21の縦横比やサイズを正規のものに近づけ
るための補正演算を行なうことを意味する。
(f)こうして得られた特徴マトリクス25を、予め用
意した文字図形パターンの標準文字マスクと照合して文
字図形を認識する。
意した文字図形パターンの標準文字マスクと照合して文
字図形を認識する。
(発明が解決しようとする問題点)
ところで、文字図形パターンな光電変換するイメージセ
ンサの分解能の不足や、文字図形パターンそのものの画
像のボケ等により、実質的に読み取られる文字図形パタ
ーンが、例えば第3図(b)に示すようにつぶれてしま
う現象がある。
ンサの分解能の不足や、文字図形パターンそのものの画
像のボケ等により、実質的に読み取られる文字図形パタ
ーンが、例えば第3図(b)に示すようにつぶれてしま
う現象がある。
尚、第3図(a)はつぶれていないパターンを示したも
のである。
のである。
各サブパターンを走査して得られる白ビットから黒ビッ
ト、又は黒ビットから白ビットに変化するときの黒ビッ
トの座標位置を基にして線長マトリクスを作成する先に
説明した方法では、文字図形パターンがつぶれている部
分で、白ビットから黒ビット又は黒ビットから白ビット
に変化する点が、本来検出されるべき位置で検出できな
い。
ト、又は黒ビットから白ビットに変化するときの黒ビッ
トの座標位置を基にして線長マトリクスを作成する先に
説明した方法では、文字図形パターンがつぶれている部
分で、白ビットから黒ビット又は黒ビットから白ビット
に変化する点が、本来検出されるべき位置で検出できな
い。
従って、抽出する特徴量が大幅に変わり、誤認識の原因
となっていた。
となっていた。
そこで、第3図(a)、(b)に示す明朝体活字パター
ン例のような、ある程度のパターンの変形を許容し、認
識精度を向上させるために、認識辞書の複数化を従来行
なっていた。しかしながら、この認識辞書の複雑化は、
装置の大型化を招くと共に、照合に要する処理時間を増
大させるという欠点があった。
ン例のような、ある程度のパターンの変形を許容し、認
識精度を向上させるために、認識辞書の複数化を従来行
なっていた。しかしながら、この認識辞書の複雑化は、
装置の大型化を招くと共に、照合に要する処理時間を増
大させるという欠点があった。
同様な問題は、特公昭58−55551号公報に記載さ
れているような走査線と、ストロークの交叉数を特徴量
として抽出する特徴抽出方法でも存在していた。
れているような走査線と、ストロークの交叉数を特徴量
として抽出する特徴抽出方法でも存在していた。
本発明は、以上述べたように、文字図形パターンのつぶ
れによって文字図形パターンからの特徴抽出が不安定で
精度が低くなるという問題点を除去し、文字認識装置な
どに適用される安定で信頼性の高い特徴抽出方法を提供
することを目的とする。
れによって文字図形パターンからの特徴抽出が不安定で
精度が低くなるという問題点を除去し、文字認識装置な
どに適用される安定で信頼性の高い特徴抽出方法を提供
することを目的とする。
(問題点を解決するための手段)
本発明の特徴抽出方法は、認識すべき文字図形パターン
な光電変換して量子化し、これに基づいて黒ビット及び
白ビットで表わされるディジタル信号のパターンを得て
、前記パターンを所定の方向に走査して、その走査列中
での前記黒ビットの連続個数に相当する黒ランを検出し
、前記走査列における黒ラン中の任意の点、もしくは当
該点を含む近傍領域に与える特徴量を、前記黒ランと所
定値との比に比例させて抽出することを特徴とするもの
である。
な光電変換して量子化し、これに基づいて黒ビット及び
白ビットで表わされるディジタル信号のパターンを得て
、前記パターンを所定の方向に走査して、その走査列中
での前記黒ビットの連続個数に相当する黒ランを検出し
、前記走査列における黒ラン中の任意の点、もしくは当
該点を含む近傍領域に与える特徴量を、前記黒ランと所
定値との比に比例させて抽出することを特徴とするもの
である。
(作用)
本発明においては、ディジタル信号化したパターンを全
面に渡って走査し、その走査列における黒ラン中の任意
の点あるいは領域について、その特徴を数値化してとら
える。
面に渡って走査し、その走査列における黒ラン中の任意
の点あるいは領域について、その特徴を数値化してとら
える。
この数値化されたものが特徴量である。そして、この特
徴量は、黒ランと予め設定した定数である所定値との比
をもとにして求める。
徴量は、黒ランと予め設定した定数である所定値との比
をもとにして求める。
こうして得られた特徴量は、文字図形パターンのつぶれ
に対しても誤認識が発生し難い。
に対しても誤認識が発生し難い。
(実施例)
以下、本発明を、文字認識装置に適用した一実施例に基
づき、図面を参照して詳細に説明する。
づき、図面を参照して詳細に説明する。
〈文字認識装置の概要〉
先ず、第4図は、本発明の′方法の実施に適する文字認
識装置を示すブロック図である。
識装置を示すブロック図である。
この装置は、光信号入力端子1と、光電変換部2と、パ
ターンレジスタ3と、線幅計算部4と、文字枠検出部5
と、垂直サブパターン抽出部6と、水平サブパターン抽
出部7と、右斜めサブパターン抽出部8と、左斜めサブ
パターン抽出部9と、特徴マトリクス抽出部10と、認
識部11と、文字名出力端子12とから構成されている
。
ターンレジスタ3と、線幅計算部4と、文字枠検出部5
と、垂直サブパターン抽出部6と、水平サブパターン抽
出部7と、右斜めサブパターン抽出部8と、左斜めサブ
パターン抽出部9と、特徴マトリクス抽出部10と、認
識部11と、文字名出力端子12とから構成されている
。
く装置各ブロックの機能〉
ここで、光電変換部2はイメージラインセンサ等から成
り、原パターンの光信号入力を2値の量子化されたディ
ジタル電気信号に変換する回路である。パターンレジス
タ3はランダム・アクセス・メモリ等から成り、この電
気信号を例えば1文字分格納する回路である。この格納
の際、文字は例えば100X100個の画素に分解され
て、各画素を白ビット又は黒ビットで表わすディジタル
信号がパターンレジスタ3に記憶される。線幅計算部4
は周知のフィルタ回路と同様にシフトレジスタ構成とな
っている。この回路は、例えば下記に示すような既知の
近似式を用いて原パターン中の文字図形の線幅Wを計算
する。
り、原パターンの光信号入力を2値の量子化されたディ
ジタル電気信号に変換する回路である。パターンレジス
タ3はランダム・アクセス・メモリ等から成り、この電
気信号を例えば1文字分格納する回路である。この格納
の際、文字は例えば100X100個の画素に分解され
て、各画素を白ビット又は黒ビットで表わすディジタル
信号がパターンレジスタ3に記憶される。線幅計算部4
は周知のフィルタ回路と同様にシフトレジスタ構成とな
っている。この回路は、例えば下記に示すような既知の
近似式を用いて原パターン中の文字図形の線幅Wを計算
する。
W= 1/ (1−(Q/A))
上式において、Qは、原パターンを2×2ビツトのウィ
ンドウからのぞいた場合、その全ての点が黒ビットとな
る場合の数である。又、Aは、全黒ビットの個数である
。即ち、これらQ及びAを計算し、その結果から上式に
従ってWを演算して求める。
ンドウからのぞいた場合、その全ての点が黒ビットとな
る場合の数である。又、Aは、全黒ビットの個数である
。即ち、これらQ及びAを計算し、その結果から上式に
従ってWを演算して求める。
文字枠検出部5は、パターンレジスタ3内の原パターン
の文字図形に外接する文字枠を検出し、その文字枠を特
定するデータを特徴マトリクス抽出部10へ送る回路で
ある。
の文字図形に外接する文字枠を検出し、その文字枠を特
定するデータを特徴マトリクス抽出部10へ送る回路で
ある。
又、垂直サブパターン抽出部6は、パターンレジスタ3
に格納された原パターンについて、垂直スキャンを全面
に行なって、各走査列毎に黒ビットの連続個数を検出し
、その長さと線幅計算部4に於て計算された線幅との関
係より、垂直サブパターン(vsp)を抽出する回路で
ある。このサブパターンは第2図(b)で説明したとお
りのものである。同様に水平サブパターン抽出部7は水
平スキャンにより水平サブパターン(HSP)を、右斜
めサブパターン抽出部8は右斜め(45°)スキャンに
より、右斜めサブパターン(RSP)を、左斜めサブパ
ターン抽出部9は左斜め(45°)スキャンにより、左
斜めサブパターン(LSP)を抽出する回路である。こ
れらのサブパターン抽出部6〜9は、パターンレジスタ
と同様のランダム・アクセス・メモリ等から構成される
。
に格納された原パターンについて、垂直スキャンを全面
に行なって、各走査列毎に黒ビットの連続個数を検出し
、その長さと線幅計算部4に於て計算された線幅との関
係より、垂直サブパターン(vsp)を抽出する回路で
ある。このサブパターンは第2図(b)で説明したとお
りのものである。同様に水平サブパターン抽出部7は水
平スキャンにより水平サブパターン(HSP)を、右斜
めサブパターン抽出部8は右斜め(45°)スキャンに
より、右斜めサブパターン(RSP)を、左斜めサブパ
ターン抽出部9は左斜め(45°)スキャンにより、左
斜めサブパターン(LSP)を抽出する回路である。こ
れらのサブパターン抽出部6〜9は、パターンレジスタ
と同様のランダム・アクセス・メモリ等から構成される
。
特徴マトリクス抽出部10はマイクロプロセッサ等から
構成され、各サブパターンの文字枠検出部5で検出した
文字枠に囲まれた領域を、(NXM)の領域(例えばN
=M=5)に分割し、最終的に特徴マトリクスを得る回
路である。例えば文字が100X 100の画素から構
成され、N=M=5の場合には、各領域は20X20の
画素を有することになる。この特徴マトリクスを得るた
めに線長マトリクスを求めるが、線長マトリクスと特徴
マトリクスの構成は、いずれも第2図(C)。
構成され、各サブパターンの文字枠検出部5で検出した
文字枠に囲まれた領域を、(NXM)の領域(例えばN
=M=5)に分割し、最終的に特徴マトリクスを得る回
路である。例えば文字が100X 100の画素から構
成され、N=M=5の場合には、各領域は20X20の
画素を有することになる。この特徴マトリクスを得るた
めに線長マトリクスを求めるが、線長マトリクスと特徴
マトリクスの構成は、いずれも第2図(C)。
(d)に示したものとほぼ同様の形式となる。
〈線長マトリクスの作成〉
ここで、第5図に示した垂直サブパターン(vsp)を
例にとり、特徴マトリクスを抽出する方法を説明する。
例にとり、特徴マトリクスを抽出する方法を説明する。
特徴マトリクス抽出部10(第1図)は、各分割領域1
5毎に設けた図示していない合計(NXM)個の線長マ
トリクス用メモリの記憶する数値を“0”にする。その
一方で、文字枠16内を水平に左から右(主走査方向1
7)へ走査し、その走査列単位に、白ビット(文字背影
部)から黒ビット(文字線部18)へ変化した時の黒ビ
ットの座標位置(Xwa、 Y、 )と、黒ビットから
白ビットへ変化した時の黒ビットの座標位置(Xaw、
Yn )を検出し、その中点の位置座標(x、、y、
)を次式(1)により計算する。
5毎に設けた図示していない合計(NXM)個の線長マ
トリクス用メモリの記憶する数値を“0”にする。その
一方で、文字枠16内を水平に左から右(主走査方向1
7)へ走査し、その走査列単位に、白ビット(文字背影
部)から黒ビット(文字線部18)へ変化した時の黒ビ
ットの座標位置(Xwa、 Y、 )と、黒ビットから
白ビットへ変化した時の黒ビットの座標位置(Xaw、
Yn )を検出し、その中点の位置座標(x、、y、
)を次式(1)により計算する。
尚、Ynはそのままであることはいうまでもない。即ち
、この実施例では、走査列と文字線部との交鎖部分の中
点を特徴点としてとらえ、この特徴点の存在する領域に
ついて、特徴量を数゛値化して求めるようにしている。
、この実施例では、走査列と文字線部との交鎖部分の中
点を特徴点としてとらえ、この特徴点の存在する領域に
ついて、特徴量を数゛値化して求めるようにしている。
特徴点は必ずしも中点でなくて、その近傍の点であれば
よい。
よい。
xn= (Xws+Xsw) /2−(t )次に、こ
の中点の位置座標(X、、Yn)即ち特徴点が、分割領
域15のどこに存在しているかを判断し、判断した分割
領域15′に対応するメモリに定数Kを加算する。最終
的に得られる各領域に対応する特徴量は、その領域を2
0回走査列が通る場合にはに×20の値になる。この特
徴量は、その領域を通る線の長さに比例する。このよう
にして、その垂直サブパターンについて、MXNの行列
データ(MXN次元の線長マトリクスと呼ぶ)を得る。
の中点の位置座標(X、、Yn)即ち特徴点が、分割領
域15のどこに存在しているかを判断し、判断した分割
領域15′に対応するメモリに定数Kを加算する。最終
的に得られる各領域に対応する特徴量は、その領域を2
0回走査列が通る場合にはに×20の値になる。この特
徴量は、その領域を通る線の長さに比例する。このよう
にして、その垂直サブパターンについて、MXNの行列
データ(MXN次元の線長マトリクスと呼ぶ)を得る。
尚、このメモリの増分には、白ビットから黒ビットに変
化した時の黒ビットから、黒ビットから白ビットへ変化
した時の黒ビットまでの黒ビットの連続個数を黒ランと
定義したとき、その黒ランと、先に線幅計算部4で計算
した線幅Wを用いて、次式(2)のように算出する。但
し、Kは整数であり、右辺の計算結果の小数点以下を切
り捨てて求める。
化した時の黒ビットから、黒ビットから白ビットへ変化
した時の黒ビットまでの黒ビットの連続個数を黒ランと
定義したとき、その黒ランと、先に線幅計算部4で計算
した線幅Wを用いて、次式(2)のように算出する。但
し、Kは整数であり、右辺の計算結果の小数点以下を切
り捨てて求める。
K = a X (Xaw Xwi+ 1 ) /W
+ b ・・・(2)(a、bは定数、本実施例では
a=0.4゜b=1とする) 第2図で説明した従来技術では、このKを単に“1″と
おいている。
+ b ・・・(2)(a、bは定数、本実施例では
a=0.4゜b=1とする) 第2図で説明した従来技術では、このKを単に“1″と
おいている。
一方、本発明では、先ず黒ランを求める。この黒ランは
上式(Xaw Xwa+ 1 )に相当する値である
。そして、黒ランと線幅Wとの比を求め、定数aとの積
をとり一定数すを加算している。
上式(Xaw Xwa+ 1 )に相当する値である
。そして、黒ランと線幅Wとの比を求め、定数aとの積
をとり一定数すを加算している。
この結果、黒ランが文字のつぶれ等により大きな値にな
ると、Kもそれにほぼ比例して大きくなる。理論的には
、Kを(X aw−X we + 1 )とWの比から
直接求めればよいが、文字図形を構成する線の輪郭の性
質等を考慮して、実験的に最適な換算式を求めた結果、
上記a、bを得た。
ると、Kもそれにほぼ比例して大きくなる。理論的には
、Kを(X aw−X we + 1 )とWの比から
直接求めればよいが、文字図形を構成する線の輪郭の性
質等を考慮して、実験的に最適な換算式を求めた結果、
上記a、bを得た。
く線長マトリクス作成回路〉
第1図は、本発明の方法を実施する特徴マトリクス抽出
部を詳細に示したブロック図である。
部を詳細に示したブロック図である。
この図には、パターンレジスタ3(第4図)の出力信号
3Aを処理して識別部11(第4図)の入力信号10A
、即ち特徴マトリクスを得る部分が示されている。特徴
マトリクス抽出部10は、サブパターン切換部101、
黒ラン検出部102、特徴量増分計算部103、特徴マ
トリクス作成部104から構成される。
3Aを処理して識別部11(第4図)の入力信号10A
、即ち特徴マトリクスを得る部分が示されている。特徴
マトリクス抽出部10は、サブパターン切換部101、
黒ラン検出部102、特徴量増分計算部103、特徴マ
トリクス作成部104から構成される。
サブパターン切換部101は、垂直サブパターン抽出部
6、水平サブパターン抽出部7、右斜めサブパターン抽
出部8、左斜めサブパターン抽出部9で得られたサブパ
ターンを切換えて選択的に受は入れるマルチプレクサ等
から成る回路である。黒ラン検出部102は、そのサブ
パターンを各サブパターン毎に定められた方向に走査し
く第2の走査)、黒ランの長さを求める回路である。
6、水平サブパターン抽出部7、右斜めサブパターン抽
出部8、左斜めサブパターン抽出部9で得られたサブパ
ターンを切換えて選択的に受は入れるマルチプレクサ等
から成る回路である。黒ラン検出部102は、そのサブ
パターンを各サブパターン毎に定められた方向に走査し
く第2の走査)、黒ランの長さを求める回路である。
尚、第2の走査方向は、vSPについては先に説明した
ように、主走査方向を水平に左から右へ、副走査方向を
垂直に上から下へとる。又、HSPについては主走査方
向を垂直に上から下へ、副走査方向を水平に左から右へ
走査する。
ように、主走査方向を水平に左から右へ、副走査方向を
垂直に上から下へとる。又、HSPについては主走査方
向を垂直に上から下へ、副走査方向を水平に左から右へ
走査する。
R3P%LSPは主走査方向を垂直に上から下へ副走査
方向を水平に左から右へ、又は、主走査方向を水平に左
から右へ、副走査方向を垂直に上から下へ走査する。
方向を水平に左から右へ、又は、主走査方向を水平に左
から右へ、副走査方向を垂直に上から下へ走査する。
特徴量増分計算部103は、この黒ランの長さと、線幅
計算部4で求めた線幅Wを用いて、メモリの増分Kを前
述の(2)式を用いて算出し、特徴マトリクス作成部1
04に出力する回路である。特徴マトリクス作成部10
4は、この増分Kを用いて第2図(C)に示したような
線長マトリクスを作成する回路である。この回路は、線
長マトリクスを保持するメモリと、その線長マトリクス
から特徴マトリクスを作成して出力する変換回路とから
構成されている。
計算部4で求めた線幅Wを用いて、メモリの増分Kを前
述の(2)式を用いて算出し、特徴マトリクス作成部1
04に出力する回路である。特徴マトリクス作成部10
4は、この増分Kを用いて第2図(C)に示したような
線長マトリクスを作成する回路である。この回路は、線
長マトリクスを保持するメモリと、その線長マトリクス
から特徴マトリクスを作成して出力する変換回路とから
構成されている。
く特徴マトリクスの作成〉
特徴マトリクス作成部104は、抽出した線長マトリク
スを標準的な文字の大きさに正規化し、特徴マトリクス
を作成する。
スを標準的な文字の大きさに正規化し、特徴マトリクス
を作成する。
その方法は、正規化前の線長マトリクスの1要素なei
j 、正規化後の1要素をLij、文字枠の水平方向の
長さ(画素数)をΔX、垂直方向の長さ(画素数)をΔ
Yとすると、下記の様な処理を行なう。
j 、正規化後の1要素をLij、文字枠の水平方向の
長さ(画素数)をΔX、垂直方向の長さ(画素数)をΔ
Yとすると、下記の様な処理を行なう。
(1)垂直サブパターン(vsp)マトリクスの場合
Lij =eij /ΔY −(3)(2)水
平サブパターン(H3P)マトリクスの場合 1ij =eij /ΔX −(4)(3)斜
めサブパターン(R3P%LSP)マトリクスの場合 Lij =eij/((△X)”+(ΔY)”)””
・ (5)以上の処理により、特徴マトリクス抽出部
10は、最終的に原パターンを表現する ((NXM)
X4)次元の正規化した特徴マトリクスを作成して、識
別部11(第4図)に向けて出力する。
平サブパターン(H3P)マトリクスの場合 1ij =eij /ΔX −(4)(3)斜
めサブパターン(R3P%LSP)マトリクスの場合 Lij =eij/((△X)”+(ΔY)”)””
・ (5)以上の処理により、特徴マトリクス抽出部
10は、最終的に原パターンを表現する ((NXM)
X4)次元の正規化した特徴マトリクスを作成して、識
別部11(第4図)に向けて出力する。
識別部11は、図示しないメモリに予め格納した標準文
字マスク(gI)と、特徴マトリクス抽出部10に於て
抽出された特徴マトリクス(fl)を比較する回路であ
る。この回路は、この種の文字認識手段として従来から
多用されているように、(gI)と(fl)の距離(D
)を求める。その手法は次式(6)に示す通りである。
字マスク(gI)と、特徴マトリクス抽出部10に於て
抽出された特徴マトリクス(fl)を比較する回路であ
る。この回路は、この種の文字認識手段として従来から
多用されているように、(gI)と(fl)の距離(D
)を求める。その手法は次式(6)に示す通りである。
そして、その距離(D)が最少の値を与える標準文字マ
スクのカテゴリ名を文字名として出力する。
スクのカテゴリ名を文字名として出力する。
D=(Σ (gI f+)”)t/z ・・・
(6)以上のようにして原パターンを特定の文字名と
対応付け、その認識を行なうことができる。
(6)以上のようにして原パターンを特定の文字名と
対応付け、その認識を行なうことができる。
く本発明の方法の効果の証明〉
次に、本発明の方法を用いた場合に、つぶれの生じた原
パターンが、従来の方法と比較してより正確に認識でき
ることを証明する。
パターンが、従来の方法と比較してより正確に認識でき
ることを証明する。
さて、第6図は第3図に示した「解」という文字につい
ての垂直サブパターンの、左下部分に設定された1つの
領域を表わした図である。
ての垂直サブパターンの、左下部分に設定された1つの
領域を表わした図である。
この領域は、第3図(a)中に示したラインXi、X2
.Yl、Y2に囲まれた領域である。
.Yl、Y2に囲まれた領域である。
第6図(a)は、つぶれていない文字から抽出した垂直
サブパターン、同図(b)はつぶれた文字から抽出した
垂直サブパターンである。
サブパターン、同図(b)はつぶれた文字から抽出した
垂直サブパターンである。
この図を用いて、本発明の方法の線長マトリクスの計算
方法とその効果を以下詳細に説明する。
方法とその効果を以下詳細に説明する。
第6図中の黒丸31は、走査列30中で白ビットから黒
ビットに変化した部分の黒ビット、黒丸32は黒ビット
から白ビットに変化した部分の黒ビット、白丸33はこ
れらの2つの黒ビットの中点である。尚、この領域は例
えば25X25ドツトの画素から構成されているものと
する。
ビットに変化した部分の黒ビット、黒丸32は黒ビット
から白ビットに変化した部分の黒ビット、白丸33はこ
れらの2つの黒ビットの中点である。尚、この領域は例
えば25X25ドツトの画素から構成されているものと
する。
第6図(a)に示したような垂直サブパターンを図のよ
うに水平方向に走査すると、中点33を3個検出する。
うに水平方向に走査すると、中点33を3個検出する。
これに基づいて前述(2)式を用いて増分Kを求める。
ここで、黒ランの長さは例えばそれぞれ5とする。又、
この原パターンについて、線幅計算部で求められた線幅
はW = 4.1であったとする。その場合、増分K
=0.4 X 5/4.1 + 1 = 1となる。故
にこの領域については、中点33が3個存在しそれぞれ
に対応する増分Kが“1”であるから、走査列30につ
いてこの領域に対応するメモリの増分は3”となる。
この原パターンについて、線幅計算部で求められた線幅
はW = 4.1であったとする。その場合、増分K
=0.4 X 5/4.1 + 1 = 1となる。故
にこの領域については、中点33が3個存在しそれぞれ
に対応する増分Kが“1”であるから、走査列30につ
いてこの領域に対応するメモリの増分は3”となる。
一方、第6図(b)に示した垂直サブパターンを図のよ
うに水平方向に走査すると、つぶれのために走査列30
中で中点33は1個しか検出されない。又、当該走査列
30中の黒ランの長さは25となる。一方、この原パタ
ーンの線幅計算部で求められた線幅はつぶれの影響によ
りやや増加し、W = 4.8となる。故に前述の(2
)式でKを求めると、K=0.4 x 25 /4.
8 + 1 = 3となる。故に、その領域に対応する
メモリは3だけ増加する。
うに水平方向に走査すると、つぶれのために走査列30
中で中点33は1個しか検出されない。又、当該走査列
30中の黒ランの長さは25となる。一方、この原パタ
ーンの線幅計算部で求められた線幅はつぶれの影響によ
りやや増加し、W = 4.8となる。故に前述の(2
)式でKを求めると、K=0.4 x 25 /4.
8 + 1 = 3となる。故に、その領域に対応する
メモリは3だけ増加する。
即ち、第6図(b)のつぶれた垂直サブパターンについ
ては、中点数が1個しか検出されていないのにもかかわ
らず、当該走査方向の黒ランの長さに比例してカウンタ
の増分を決定する本発明の方法によれば、第3図(a)
のつぶれていないパターンと同等の線長マトリクスを得
ることができる。
ては、中点数が1個しか検出されていないのにもかかわ
らず、当該走査方向の黒ランの長さに比例してカウンタ
の増分を決定する本発明の方法によれば、第3図(a)
のつぶれていないパターンと同等の線長マトリクスを得
ることができる。
く他の適用範囲〉
本発明の方法は以上の実施例に限定されない。
本発明の方法は、例えば先に説明した特公昭58−55
551号公報に記載されているような特徴量抽出装置に
おいても適用することができ、同様の効果を得ることが
できる。
551号公報に記載されているような特徴量抽出装置に
おいても適用することができ、同様の効果を得ることが
できる。
即ち、この例は、走査線と文字を構成するストロークと
の交点数を特徴量としてとらえているが、文字につぶれ
があれば交点数も減少する。ここで、その交点数と線幅
との比をとって換算して特徴量を求めれば、つぶれによ
る誤認を防止できる。
の交点数を特徴量としてとらえているが、文字につぶれ
があれば交点数も減少する。ここで、その交点数と線幅
との比をとって換算して特徴量を求めれば、つぶれによ
る誤認を防止できる。
(発明の効果)
以上詳細に説明したように本発明によれば、抽出する特
徴量を、黒ランと当該原パターンの線幅等の所定の定数
との比に基づいて求めたので、文字図形パターンにつぶ
れがある場合でも抽出する特徴が変動せず、安定、とな
り信頼性が高い。故に、認識精度を向上させるための認
識辞書の複数化が不要となり、小型で処理速度の速い文
字認識装置が実現できる。
徴量を、黒ランと当該原パターンの線幅等の所定の定数
との比に基づいて求めたので、文字図形パターンにつぶ
れがある場合でも抽出する特徴が変動せず、安定、とな
り信頼性が高い。故に、認識精度を向上させるための認
識辞書の複数化が不要となり、小型で処理速度の速い文
字認識装置が実現できる。
第1図は本発明の方法を実施する文字認識装置の特徴マ
トリクス抽出部のブロック図、第2図は本発明者等が先
に開発した方法の説明図、第3図は認識すべき文字の原
パターンのつぶれの例を示す説明図、第4図は本発明の
方法を実施する文字認識装置のブロック図、第5図は本
発明の特徴マトリクス抽出法の説明図、第6図は本発明
の方法の具体的な効果を証明する説明図である。 4・・・線幅計算部、5・・・文字枠検出部、6・・・
垂直サブパターン抽出部、 7・・・水平サブパターン抽出部、 8・・・右斜めサブパターン抽出部、 9・・・左斜めサブパターン抽出部、 10・・・特徴マトリクス抽出部、 102・・・黒ラン検出部、 103・・・特徴量増分計算部。 特許出願人 沖電気工業株式会社 ブプパターン 手続補正書(自発) 1 平成元年 1月17日
トリクス抽出部のブロック図、第2図は本発明者等が先
に開発した方法の説明図、第3図は認識すべき文字の原
パターンのつぶれの例を示す説明図、第4図は本発明の
方法を実施する文字認識装置のブロック図、第5図は本
発明の特徴マトリクス抽出法の説明図、第6図は本発明
の方法の具体的な効果を証明する説明図である。 4・・・線幅計算部、5・・・文字枠検出部、6・・・
垂直サブパターン抽出部、 7・・・水平サブパターン抽出部、 8・・・右斜めサブパターン抽出部、 9・・・左斜めサブパターン抽出部、 10・・・特徴マトリクス抽出部、 102・・・黒ラン検出部、 103・・・特徴量増分計算部。 特許出願人 沖電気工業株式会社 ブプパターン 手続補正書(自発) 1 平成元年 1月17日
Claims (1)
- 【特許請求の範囲】 1、認識すべき文字図形パターンを光電変換して量子化
し、これに基づいて黒ビット及び白ビットで表わされる
ディジタル信号のパターンを得て、前記パターンを所定
の方向に走査して、その走査列中での前記黒ビットの連
続個数に相当する黒ランを検出し、 前記走査列における黒ラン中の任意の点、もしくは当該
点を含む近傍領域に与える特徴量を、前記黒ランと所定
値との比に比例させて抽出することを特徴とする特徴抽
出方法。 2、前記定数として、前記原パターンから検出した前記
文字図形の線幅を使用することを特徴とする特許請求の
範囲第1項記載の特徴抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62310882A JPH0833908B2 (ja) | 1987-12-10 | 1987-12-10 | 特徴抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62310882A JPH0833908B2 (ja) | 1987-12-10 | 1987-12-10 | 特徴抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01152585A true JPH01152585A (ja) | 1989-06-15 |
JPH0833908B2 JPH0833908B2 (ja) | 1996-03-29 |
Family
ID=18010519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62310882A Expired - Lifetime JPH0833908B2 (ja) | 1987-12-10 | 1987-12-10 | 特徴抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0833908B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60140487A (ja) * | 1983-12-28 | 1985-07-25 | Ricoh Co Ltd | 文字特徴抽出方式 |
JPS62154079A (ja) * | 1985-12-27 | 1987-07-09 | Oki Electric Ind Co Ltd | 文字認識方式 |
JPS62271085A (ja) * | 1986-05-19 | 1987-11-25 | Fujitsu Ltd | 水平パタ−ン検出装置 |
-
1987
- 1987-12-10 JP JP62310882A patent/JPH0833908B2/ja not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60140487A (ja) * | 1983-12-28 | 1985-07-25 | Ricoh Co Ltd | 文字特徴抽出方式 |
JPS62154079A (ja) * | 1985-12-27 | 1987-07-09 | Oki Electric Ind Co Ltd | 文字認識方式 |
JPS62271085A (ja) * | 1986-05-19 | 1987-11-25 | Fujitsu Ltd | 水平パタ−ン検出装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH0833908B2 (ja) | 1996-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5075895A (en) | Method and apparatus for recognizing table area formed in binary image of document | |
JPH03122773A (ja) | 画像形成装置 | |
WO1991020055A1 (en) | Self-centering character stroke thickening for optical character recognition | |
JPH01152585A (ja) | 特徴抽出方法 | |
JPH01152586A (ja) | 文字図形認識方法 | |
JPH01152587A (ja) | 文字図形認識方法 | |
JPH0310389A (ja) | 文字認識装置 | |
JP3095470B2 (ja) | 文字認識装置 | |
JPH0916713A (ja) | 画像領域分割方法 | |
JP2715930B2 (ja) | 線分検出方法 | |
JP2708604B2 (ja) | 文字認識方法 | |
JPH0656625B2 (ja) | 特徴抽出方式 | |
JPH0266681A (ja) | 図面処理装置 | |
JPH03126188A (ja) | 文字認識装置 | |
JP2749946B2 (ja) | 文字認識方法 | |
JPH0545991B2 (ja) | ||
JPS5837780A (ja) | 文字認識方式 | |
JP3365941B2 (ja) | 文字パターン認識方法及びその装置 | |
JPS62154079A (ja) | 文字認識方式 | |
JPH05274472A (ja) | 画像認識装置 | |
JPS6318787B2 (ja) | ||
JPS62157983A (ja) | 文字認識方式 | |
JPH04588A (ja) | 文字認識方法 | |
JPH0554187A (ja) | 文字パターン傾き検出方法 | |
JPH0656624B2 (ja) | 特徴抽出方式 |