JPH01152587A

JPH01152587A - 文字図形認識方法

Info

Publication number: JPH01152587A
Application number: JP62310884A
Authority: JP
Inventors: Hirohisa Goto; 後藤　裕久; Koichi Higuchi; 浩一樋口; Yoshiyuki Yamashita; 山下　義征
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1987-12-10
Filing date: 1987-12-10
Publication date: 1989-06-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、文字認識装置等に適用される特徴抽出方法に
関する。

（従来の技術）従来、例えば文字図形認識装置に於ては、紙面等から読
み取られた文字図形パターンよりその文字等を構成する
ストロークを抽出し、それら抽出されたストロークの位
置、長さ、ストローク間の相互関係等を用いて文字等を
認識する方法が多く採用されていた。

例えばその第１の手法においては、文字図形パターンの
輪郭を追跡することにより検出された輪郭点系列（座標
値の集合）についてその曲率を計算し、曲率の大きな値
の点を分割点として輪郭点系列を分割し、分割された系
列を組合わせることによりストロークを抽出して、その
ストロークについて幾何学的な特徴等を抽出して標準文
字マスクと照合し、文字図形を認識するようにしていた
。

又、第２の手法においては、文字図形パターンの細線化
処理を行なって骨格化し、その骨格パターンの連結性及
び骨格パターンを追跡し、急激な角度の変化点等を検出
してストロークを抽出し、そのストロークについて第１
の手法と同様に幾何学的な特徴等を抽出して文字図形の
認識を行なっていた。

しかしながら上記第１の手法は、文字図形パターンが大
きくなり、又文字図形パターンが複雑化すると、その処
理量が増大し処理速度の低下を招く欠点があった。

又、第２の手法は、文字図形パターンを細線化する必要
があり、その細線化によるパターンのひずみ、屈曲点等
における不要なヒゲの発生等の問題があり、その後の処
理を複雑なものとしていた。

このような問題を解決するために、本出願人は、先の出
願（特開昭６２−１５４０７９号公報）により、以下の
（ａ）から（ｆ）の手順に従って文字図形パターンの特
徴抽出を行なう方法を提案している。

第２図（ａ）〜（ｅ）にその構成を図解した。

（ａ）先ず、紙面等に記載された文字図形パターンをイ
メージラインセンサ等で読み取り、光電変換して量子化
することにより、黒ビット及び白ビットで表わされるデ
ィジタル信号の原パターン２１を作成する［第２図（ａ
）］。

（ｂ）次に、その原パターン中の文字図形の線幅Ｗを算
出する。

（Ｃ）次に、文字に外接する文字枠２２により文字を取
り囲む。そして、その文字枠内領域において、原パター
ン２１について複数の方向（例えば縦、横、斜め方向）
に第１の走査（それぞれ全面走査）を行なって、各方向
の走査について各走査列毎の黒ビットの連続個数を検出
し、当該黒ビットの連続個数と前記線幅Ｗとに基づいて
、第１の走査の複数の方向毎に対応した複数のサブパタ
ーンを（ＶＳＰ、Ｈ３Ｐ、ＲＳＰ、ＬＳＰ）抽出する。

これは即ち、第２図（ａ）の原パターンから、縦方向の
ストローク、横方向のストローク、斜め方向のストロー
クのみをそれぞれ抽出して、これらをもとに、サブパタ
ーン２３ａ〜２３ｄを得ることを意味する［第２図（ｂ
）］。

（ｄ）次に、上記原パターン２１の文字枠内領域を上記
各サブパターン毎に（ＮＸＭ）個の領域（Ｎ、Ｍは整数
、図の例ではＭ＝Ｎ＝５）に分割し、更に各サブパター
ンの抽出の際に走査した第１の走査の方向と所定の角度
を成す方向にそれぞれ第２の走査を行ない、白ビットか
ら黒ビット、黒ビットから白ビットへ変化したときの黒
ビットの座標位置を基に線長マトリクスを作成する。

実際には、第２図（ｂ）の垂直サブパターン（ｖｓｐ）
中に例示したように、第２の走査２７を行なったとき、
線２８との交叉部分の中点２９を求める。そして、その
中点２９が存在する線長マトリクス上のデータに“１”
を加算する。各サブパターンの１００Ｘ　１００画素構
成の全画素について第２の走査を行なえば、各分割され
た領域はそれぞれ２０回走査されるから、その領域内で
一端から他端まで連続する線についての特徴量は、それ
ぞれ“２０”となる。領域内で終端する線についての特
徴量は、その領域内における線の長さに応じた値となる
。その結果、例えば第２図（Ｃ）のような線長マトリク
ス２４ａ〜２４ｄを得る。

（ｅ）次に、その線長マトリクスを文字の大きさで正規
化して特徴マトリクスを作成する。

これは、標準マスクとこのマトリクスを比較する前に、
原パターン２１の縦横比やサイズを正規のものに近づけ
るための補正演算を行なうことを意味する。

（ｆ）こうして得られた特徴マトリクス２５を、予め用
意した文字図形パターンの標準文字マスクと照合して文
字図形を認識する。

（発明が解決しようとする問題点）ところで、文字図形パターンな光電変換するイメージセ
ンサの分解能の不足や、文字図形パターンそのものの画
像のボケ等により、実質的に読み取られる文字図形パタ
ーンが、例えば第３図（ｂ）に示すようにつぶれてしま
う現象がある。

尚、第３図（ａ）はつぶれていないパターンを示したも
のである。

各サブパターンを走査して得られる白ビットから黒ビッ
ト、又は黒ビットから白ビットに変化するときの黒ビッ
トの座標位置を基にして線長マトリクスを作成する先に
説明した方法では、文字図形パターンがつぶれている部
分で、白ビットから黒ビット又は黒ビットから白ビット
に変化する点が、本来検出されるべき位置で検出できな
い。

従って、抽出する特徴量が大幅に変わり、誤認識の原因
となっていた。

そこで、第３図（ａ）、（ｂ）に示す明朝体活字パター
ン例のような、ある程度のパターンの変形を許容し、認
識精度を向上させるために、認識辞書の複数化を従来行
なっていた。しかしながら、この認識辞書の複雑化は、
装置の大型化を招くと共に、照合に要する処理時間を増
大させるという欠点があった。

同様な問題は、特公昭５８−５５５５１号公報に記載さ
れているような走査線と、ストロークの交叉数を特徴量
として抽出する特徴抽出方法でも存在していた。

本発明は、以上述べたように、文字図形パターンのつぶ
れによって文字図形パターンからの特徴抽出が不安定で
精度が低くなるという問題点を除去し、文字認識装置な
どに適用される安定で信頼性の高い特徴抽出方法を提供
することを目的とする。

（問題点を解決するための手段）本発明の文字図形認識方法は、認識すべき文字図形パタ
ーンな光電変換して量子化し、黒ビット及び白ビットで
表わされるディジタル信号の原パターンを得て、この原
パターン中の前記文字図形の線幅を求め、かつ前記文字
図形パターンが含まれる帳票の他の文字図形パターン中
の前記文字図形の線幅との平均値を求めて、これを基準
線幅に設定し、さらに、前記文字図形に外接する文字枠
を設定し、前記文字枠において、前記原パターンを複数
の方向に第１の走査を行なって、前記原パターンから特
定の方向の文字図形成分のみを抽出した複数のサブパタ
ーンを作成し、この各サブパターンの前記文字枠に囲ま
れた部分をＭ×Ｎ個（Ｍ、Ｎは整数）の領域に分割し、
前記各サブパターンについて前記特定の方向と異なる方
向に第２の走査を行ない、その走査列中で前記黒ビット
の連続個数に相当する黒ランを検出するとともに、その
黒ビットの連続部分に含まれる一点を特徴点として認識
する一方、前記線幅が所定の閾値以下のとき、前記線幅
と前記黒ランとの比に基づいて特徴量を求め、前記線幅
が所定の閾値な超えたとき、前記基準線幅と前記黒ラン
との比に基づいて特徴量を求めて、前記Ｍ×Ｎ個の領域
に対応させて設定したＭ行Ｎ列のデータから成るマトリ
クスの、前記特徴点が含まれる領域に対応するデータを
、前記特徴量に基づいて決定し、こうして得られた前記
サブパターンに対応するＭ行Ｎ列のマトリクスに、正規
化のための所定の補正演算を行なって特徴マトリクスを
得て、その特徴マトリクスと標準文字図形について用意
された標準マトリクスとを比較して、前記原パターンに
対応する文字図形を認識することを特徴とするものであ
る。

（作用）以上の方法においては、黒ラン中の一点を特徴点として
とらえる。そして、その特徴点が含まれる所定の分割さ
れた領域ごとに、黒ランと所定の定数との比に基づいて
特徴量を求める。

各領域の特徴量は、その領域内の特徴点の数と黒ランの
大きさとに依存する。故に、こうして得られたＭ行Ｎ列
のマトリクスは、文字図形パターンと良く対応したもの
となる。

又、黒ランと線幅の比に基づいて特徴量を求めると、文
字のつぶれによる影響が少ない。しかも、認識すべき文
字図形パターンの含まれる帳票中の他のパターンの線幅
の平均値をとって線幅を求めるので、線幅としてより実
際的な値が得られる。

（実施例）以下、本発明を、文字認識装置に適用した一実施例に基
づき、図面を参照して詳細に説明する。

く文字認識装置の概要〉先ず、第４図は、本発明の方法の実施に適する文字認識
装置を示すブロック図である。

この装置は、光信号入力端子１と、光電変換部２と、パ
ターンレジスタ３と、線幅計算部４と、文字枠検出部５
と、垂直サブパターン抽出部６と、水平サブパターン抽
出部７と、右斜めサブパターン抽出部８と、左斜めサブ
パターン抽出部９と、特徴マトリクス抽出部１０と、認
識部１１と、文字名出力端子１２と、帳票吸入部１３と
、線幅処理部１４とから構成されている。尚、線幅処理
部１４は、線幅保存部１４１と平均線幅計算部１４２と
から構成されている。

又、帳票吸入部１３は、認識すべき文字図形を記載した
帳票を吸入したとき、帳票吸入信号を線幅処理部１４へ
送出する回路である。線幅処理部１４における線幅保存
部１４１は、レジスタから構成され、線幅計算部４の出
力する線幅を受は入−れて保持する回路である。この線
幅保存部１４１へ上記帳票吸入信号が入力すると、その
レジスタのアドレスカウンタと入力文字カウンタがＯ”
にされ初期化される。

線幅保存部１４１は、予め定めた固定値ＷＫと（本実施
例ではＷＫ　＝　４．０）と線幅計算部４で計算された
入カバターンの線幅Ｗとを比較し、Ｗ≦Ｗにならば線幅
レジスタに線幅Ｗを格納し、線幅レジスタのアドレスカ
ウンタを歩進し、入力文字カウンタを歩進させる。平均
線幅計算部１４２は、線幅保存部の入力文字カウンタの
値ＩがＪ文字（Ｊは定数、Ｊ≧５が好ましく、本実施例
ではＪ　＝　ｌ　Ｏ）以上ならば、線幅レジスタに格納
されたＩ文字分の線幅を平均して平均線幅ＷＭを求める
。そして、その平均線幅Ｗと入カバターンに基づいて線
幅計算部４で算出した線幅Ｗと比較する。その結果、Ｗ
≦ＷＭならば、該線幅Ｗを特徴マトリクス抽出部１０に
出力し、Ｗ＞Ｗ、Ａならば前述のＩ文字分の平均線幅Ｗ
Ｍを基準線幅として特徴マトリクス抽出部１０に出力す
る。

又、線幅保存部１４１の入力文字カウンタの値■がＪ文
字未満ならば、予め定めておいた基準線幅Ｗｃ　（本実
施例では４．０）を特徴マトリクス抽出部１０へ出力す
る。

線幅処理部１４は、以上のような動作を行なう回路であ
る。

く装置者ブロックの機能〉ここで、光電変換部２はイメージラインセンサ等から成
り、原パターンの光信号入力を２値の量子化されたディ
ジタル電気信号に変換する回路である。パターンレジス
タ３はランダム・アクセス・メモリ等から成り、この電
気信号を例えば１文字分格納する回路である。この格納
の際、文字は例えば１ｏＯ×１００個の画素に分解され
て、各画素を白ビット又は黒ビットで表わすディジタル
信号がパターンレジスタ３に記憶される。線幅計算部４
は周知のフィルタ回路と同様にシフトレジスタ構成とな
っている。この回路は、例えば下記に示すような既知の
近似式を用いて原パターン中の文字図形の線幅Ｗを計算
する。

Ｗ＝　１／　（１−（Ｑ／Ａ））上式において、Ｑは、原パターンを２×２ビツトのウィ
ンドウからのぞいた場合、その全ての点が黒ビットとな
る場合の数である。又、Ａは、全黒ビットの個数である
。即ち、これらＱ及びＡを計算し、その結果から上式に
従ってＷを演算して求める。

文字枠検出部５は、パターンレジスタ３内の原パターン
の文字図形に外接する文字枠を検出し、その文字枠を特
定するデータを特徴マトリクス抽出部ｌＯへ送る回路で
ある。

又、垂直サブパターン抽出部６は、パターンレジスタ３
に格納された原パターンについて、垂直スキャンを全面
に行なって、各走査列毎に黒ビットの連続個数を検出し
、その長さと線幅計算部４に於て計算された線幅との関
係より、垂直サブパターン（ｖｓｐ）を抽出する回路で
ある。このサブパターンは第２図（ｂ）で説明したとお
りのものである。同様に水平サブパターン抽出部７は水
平スキャンにより水平サブパターン（Ｈ３Ｐ）を、右斜
めサブパターン抽出部８は右斜め（４５’）スキャンに
より、右斜めサブパターン（Ｈ３Ｐ）を、左斜めサブパ
ターン抽出部９は左斜め（４５°）スキャンにより、左
斜めサブパターン（ＬＳＰ）を抽出する回路である。こ
れらのサブパターン抽出部６〜９は、パターンレジスタ
と同様のランダム・アクセス・メモリ等から構成される
。

特徴マトリクス抽出部ｌＯはマイクロプロセッサ等から
構成され、各サブパターンの文字枠検出部５で検出した
文字枠に囲まれた領域を、（ＮＸＭ）（７）領域（例え
ばＮ＝Ｍ＝５）に分割し、最終的に特徴マトリクスを得
る回路である。

例えば文字が１００Ｘ　１００の画素から構成され、Ｎ
＝Ｍ＝５の場合には、各領域は２０Ｘ２０の画素を有す
ることになる。この特徴マトリクスを得るために線長マ
トリクスを求めるが、線長マトリクスと特徴マトリクス
の構成は、いずれも第２図（ｃ）、（ｄ）に示したもの
とほぼ同様の形式となる。

く線長マトリクスの作成〉ここで、第５図に示した垂直サブパターン（ｖｓｐ）を
例にとり、特徴マトリクスを抽出する方法を説明する。

特徴マトリクス抽出部１０（第１図）は、各分割領域１
５毎に設けた図示していない合計（ＮＸＭ）個の線長マ
トリクス用メモリの記憶する数値を“０”にする。その
一方で、文字枠１６内を水平に左から右（主走査方向１
７）へ走査し、その走査列単位に、白ビット（文字背影
部）から黒ビット（文字線部１８）へ変化した時の黒ビ
ットの座標位置（Ｘｗａ、Ｙｎ）と、黒ビットから白ビ
ットへ変化した時の黒ビットの座標位置（Ｘｅｗ、Ｙｎ
）を検出し、その中点の位置座標（ｘｎ、ｙｎ）を次式
（１）により計算する。

尚、Ｙｎはそのままであることはいうまでもない。即ち
、この実施例では、走査列と文字線部との交鎖部分の中
点を特徴点としてとらえ、この特徴点の存在する領域に
ついて、特徴量を数値化して求めるようにしている。特
徴量は必ずしも中点でなくて、その近傍の点であればよ
い。

Ｘ、１＝　（Ｘｗａ＋Ｘｓｗ）／２　　・　（１）次に
、この中点の位置座標（ｘｎ、ｙｎ）即ち特徴点が、分
割領域１５のどこに存在しているかを判断し、判断した
分割領域１５′に対応するメモリに定数Ｋを加算する。

最終的に得られる各領域に対応する特徴量は、その領域
を２０回走査列が通る場合にはＫＸ２０の値になる。こ
の特徴量は、その領域を通る線の長さに比例する。この
ようにして、その垂直サブパターンについて、Ｍ×Ｎの
行列データ（Ｍ　Ｘ　Ｎ次元の線長マトリクスと呼ぶ）
を得る。

尚、このメモリの増分には、白ビットから黒ビットに変
化した時の黒ビットから、黒ビットから白ビットへ変化
した時の黒ビットまでの黒ビットの連続個数を黒ランと
定義したとき、その黒ランと、先に線幅計算部４で計算
した線幅Ｗ等を用いて、次式のように算出する。但し、
Ｋは整数であり、右辺の計算結果の小数点以下を切り捨
てて求める。

Ｗ≦ＷＭのときに□　ａｘ　（Ｘａｗ　　Ｘｗａ”ｌ）／　Ｗ　＋　ｂ
　　・・・（２１）Ｗ　＞　Ｗ　Ｍのときに＝ａｘ　（Ｘａｗ　　ＸＷＢ”ｌ）／　ＷＡ　”　ｂ
　”’　（２’−２）ここで、ａ、ｂ、はいずれも定数
で、本実施例ではａ＝０．６．　ｂ＝１と定めた。又、
ＷＡは上記線幅処理部１４で求めたＷＭ又はＷｃである
。

第２図で説明した従来技術では、このＫを単に“１”と
おいている。

一方、本発明では、先ず黒ランを求める。この黒ランは
上式（ＸＢＷ　　Ｘｗａ＋　１　）に相当する値である
。そして、黒ランと線幅Ｗとの比を求め、定数ａとの積
をとり一定数すを加算している。

この結果、黒ランが文字のつぶれ等により大きな値にな
ると、Ｋもそれにほぼ比例して大きくなる。理論的には
、Ｋを（ＸＢＷ　　ＸＷＩｌ＋　１　）　トＷＯ’）比
から直接求めればよいが、文字図形を構成する線の輪郭
の性質等を考慮して、実験的に最適な換算式を求めた結
果、上記ａ、ｂを得た。

く線長マトリクス作成回路〉第１図は、本発明の方法を実施する特徴マトリクス抽出
部を詳細に示したブロック図である。

この図には、パターンレジスタ３（第４図）の出力信号
３Ａを処理して識別部１１（第４図）の入力信号１０Ａ
、即ち特徴マトリクスを得る部分が示されている。特徴
マトリクス抽出部１０は、サブパターン切換部１０１、
黒ラン検出部１０２、特徴量増分計算部１０３、特徴マ
トリクス作成部１０４から構成される。

サブパターン切換部１０１は、垂直サブパターン抽出部
６、水平サブパターン抽出部７、右斜めサブパターン抽
出部８、左斜めサブパターン抽出部９で得られたサブパ
ターンを切換えて選択的に受は入れるマルチプレクサ等
から成る回路である。黒ラン検出部１０２は、そのサブ
パターンを各サブパターン毎に定められた方向に走査し
く第２の走査）、黒ランの長さを求める回路である。

尚、第２の走査方向は、■ＳＰについては先に説明した
ように、主走査方向を水平に左から右へ、副走査方向を
垂直に上から下へとる。又、ＨＳＰについては主走査方
向を垂直に上から下へ、副走査方向を水平に左から右へ
走査する。

ＲＳＰ、ＬＳＰは主走査方向を垂直に上から下へ副走査
方向を水平に左から右へ、又は、主走査方向を水平に左
から右へ、副走査方向を垂直に上から下へ走査する。

特徴量増分計算部１０３は、この黒ランの長さと、線幅
計算部４で求めた線幅Ｗを用いて、メモリの増分Ｋを前
述の（２）式を用いて算出し、特徴マトリクス作成部１
０４に出力する回路である。特徴マトリクス作成部１０
４は、この増分Ｋを用いて第２図（Ｃ）に示したような
線長マトリクスを作成する回路である。この回路は、線
長マトリクスを保持するメモリと、その線長マトリクス
から特徴マトリクスを作成して出力する変換回路とから
構成されている。

く特徴マトリクスの作成〉 −特徴マトリクス作成部１０４は、抽出した線長マトリ
クスを標準的な文字の大きさに正規化し、特徴マトリク
スを作成する。

その方法は、正規化前の線長マトリクスの１要素をｅｉ
ｊ、正規化後の１要素をＬｉｊ　、文字枠の水平方向の
長さ（画素数）をΔＸ、垂直方向の長さ（画素数）を△
Ｙとすると、下記の様な処理を行なう。

（１）垂直サブパターン（ｖｓｐ）マトリクスの場合Ｌｉｊ　＝ｅｉｊ　／△Ｙ　　　　　・（３）（２）水
平サブパターン（ＨＳＰ）マトリクスの場合Ｌｉｊ　＝ｅｉｊ　／△Ｘ　　　　　・（４）（３）斜
めサブパターン（Ｒ３Ｐ、ＬＳＰ）マトリクスの場合Ｌｉｊ　＝　ｅｉｊ／（（八Ｘ）”＋（ΔＹ　）２）　
ｌ／２　　、、、　（５）以上の処理により、特徴マト
リクス抽出部１０は、最終的に原パターンを表現する　
（（ＮＸＭ）Ｘ４）次元の正規化した特徴マトリクスを
作成して、識別部１１（第４図）に向けて出力する。

識別部１１は、図示しないメモリに予め格納した標準文
字マスク（ｇ＋）と、特徴マトリクス抽出部１０に於て
抽出された特徴マトリクス（ｆｌ）を比較する回路であ
る。この回路は、この種の文字認識手段として従来から
多用されているように、（ｇ＋　）と（ｆｌ）の距離（
Ｄ）を求める。その手法は次式（６）に示す通りである
。

そして、その距離（Ｄ）が最少の値を与える標準文字マ
スクのカテゴリ名を文字名として出力する。

Ｄ＝（Σ　（ｇ＋　　　ｆｌ　　）”　　）ｌ／２　　
　・・・　（６）以上のようにして原パターンを特定の
文字名と対応付け、その認識を行なうことができる。

〈本発明の方法の効果の証明〉次に、本発明の方法を用いた場合に、つぶれの生じた原
パターンが、従来の方法と比較してより正確に認識でき
ることを証明する。

さて、第６図は第３図に示した「解」という文字につい
ての垂直サブパターンの、左下部分に設定された１つの
領域を表わした図である。

この領域は、第３図（ａ）中に示したラインＸＩ、Ｘ２
．Ｙｌ、Ｙ２に囲まれた領域である。

第６図（ａ）は、つぶれていない文字から抽出した垂直
サブパターン、同図（ｂ）はつぶれた文字から抽出した
垂直サブパターンである。

この図を用いて、本発明の方法の線長マトリクスの計算
方法とその効果を以下詳細に説明する。

第６図中の黒丸３１は、走査列３０中で白ビットから黒
ビットに変化した部分の黒ビット、黒丸３２は黒ビット
から白ビットに変化した部分の黒、ビット、白丸３３は
これらの２つの黒ビットの中点である。尚、この領域は
例えば２５Ｘ２５ドツトの画素から構成されているもの
とする。

第６図（ａ）に示したような垂直サブパターンを図のよ
うに水平方向に走査すると、中点３３を３個検出する。

これに基づいて前述（２）式を用いて増分Ｋを求める。

ここで、黒ランの長さは例えばそれぞれ５とする。又、
この原パターンについて、線幅計算部で求められた線幅
はＷ　＝　４．１であったとする。その場合、増分に＝０．４　ｘ５／４．１　＋　１　＝　１となる。故
にこの領域については、中点３３が３個存在しそれぞれ
に対応する増分Ｋが“１”であるから、走査列３゜につ
いてこの領域に対応するメモリの増分は°３”となる。

一方、第６図（ｂ）に示した垂直サブパターンを図のよ
うに水平方向に走査すると、っぷれのために走査列３０
中で中点３３は１個しか検出されない。又、当該走査列
３０中の黒ランの長さは２５となる。一方、この原パタ
ーンの線幅計算部で求められた線幅はっぷれの影響によ
りやや増加し、Ｗ　＝　４．８となる。故に前述の（２
）式でＫを求めると、Ｋ＝０．４　ｘ　　２５　／４．
８　＋　１　＝　３となる。故に、その領域に対応する
メモリは３だけ増加する。

即ち、第６図（ｂ）のつぶれた垂直サブパターンについ
ては、中点数が１個しか検出されていないのにもかかわ
らず、当該走査方向の黒ランの長さに比例してカウンタ
の増分を決定する本発明の方法によれば、第３図（ａ）
のつぶれていないパターンと同等の線長マトリクスを得
ることができる。

く線幅の平均を求めるようにした効果〉更に、線幅の平
均値を求めるようにすると、次のような効果がある。

例えば第７図に示すように、「轟」という文字がつぶれ
たような場合、その原パターン中の黒ビットの数が正常
なものに比べて非常に多くなる。もちろん、２×２のウ
ィンドウから見て、全てが黒ビットである場合の数も増
加する。

従って、先に第２図の説明中で示したこのようなデータ
をもとにして算出される線幅は、っぷれがひどくなるほ
ど大きく計算される。故に、っぷれが著しい場合、線幅
が実情にあわなくなる。これも誤認識の原因となる。

そこで、本発明において同−帳票内で他の文字図形等の
線幅を参考に、その平均値をとって適切な線幅を得てい
る。又、もし、そのデータ量が平均値をとるのに十分で
ない場合には、線幅が異常に大きいような場合、閾値と
してＷｃを設けた。

この閾値な設けた効果を以下に述べる。

第８図は、その効果を実証するための説明図である。

第８図（ｂ）は第７図の左下の「車」の部分の水平サブ
パターンの一領域を示した図である。

又、第８図（ａ）は第８図（ｂ）と同じ部分で、つぶれ
ていない場合の水平サブパターンを示したものである。

さて、第８図中の黒丸３１は、白ビットから黒ビットに
変化した黒ビット、黒丸３２は、黒ビットから白ビット
に変化した黒ビット、白丸３３は上記黒ビット３１．３
２の中点である。

ここで、第８図（ａ）のパターンを図のように垂直方向
に走査して得られた黒ランの長さを例えば３とし、線幅
計算部４で求められた線幅Ｗ＝３．０とする。先に説明
したように、Ｗ　ＴＨ＝　４．０なので、Ｗ≦ＷＴＨと
なり前述（２−１）式でＫを求めるとに＝０．６Ｘ　３
／　３．０　＋　１　＝　１となる。

この垂直方向の走査で検出した中点３３は５個あるので
、前述の特徴マトリクス抽出部に設けた線長マトリクス
用メモリの内容は１本の走査列について５だ−け増加す
る。

一方、第８図（ｂ）のパターンを図のように垂直方向に
走査すると、例えば黒ランの長さは２７で線幅計算部４
で求められた線幅Ｗ＝７．７７となる。ＷＴ□＝４．０
なのでＷ　＞　Ｗ　Ｔ　Ｈとなり前述（２−２）式でＫ
を求めると、Ｋ　＝０．６　Ｘ　２７／４．０　＋　１
　＝　５となる。この垂直方向の１回の走査で検出した
中点３３は１個であるが、Ｋ＝５なので、線長マトリク
ス用メモリの値は５だけ増加する。

即ち、第８図（ｂ）のつぶれたパターンについては、中
点数が１個しか検出されていないのにも関わらず、当該
走査方向の黒ランの長さと線幅の比に比例して特徴量の
増分を決定し、しかも線幅が一定の値以上のパターンで
は、基準線幅を実際の線幅の代わりに用いて、当該走査
方向の黒ランの長さと基準線幅との比に比例してカウン
タの増分を決定しているので、第８図（ａ）のつぶれて
いないパターンと同等の特徴量を得ることができる。

く他の適用範囲〉本発明の方法は以上の実施例に限定されない。

本発明の方法は、例えば先に説明した特公昭５８−５５
５５１号公報に記載されているような特徴量抽出装置に
おいても適用することができ、同様の効果を得ることが
できる。

即ち、この例は、走査線と文字を構成するストロークと
の交点の数を特徴量としてとらえているが、文字につぶ
れがあれば交点数も減少する。ここで、その交点数と線
幅との比をとって換算して特徴量を求めれば、つぶれに
よる誤認を防止できる。

（発明の効果）以上詳細に説明したように本発明によれば、抽出する特
徴量を、黒ランと当該原パターンの線幅等の所定の定数
との比に基づいて求めたので、文字図形パターンにつぶ
れがある場合でも抽出する特徴が変動せず、安定となり
信頼性が高い。又、同一帳票中の線幅の平均値をとるよ
うにしたので、線のつぶれの影響を十分緩和することが
できる。故に、認識精度を向上させるための認識辞書の
複数化が不要となり、小型で処理速度の速い文字認識装
置が実現できる。

【図面の簡単な説明】

第１図は本発明の方法を実施する文字認識装置の特徴マ
トリクス抽出部のブロック図、第２図は本発明者等が先
に開発した方法の説明図、第３図は認識すべき文字の原
パターンのっぷれの例を示す説明図、第４図は本発明の
方法を実施する文字認識装置のブロック図、第５図と第
７図は本発明の特徴マトリクス抽出法の説明図、第６図
と第８図は本発明の方法の具体的な効果を証明する説明
図である。４・・・線幅計算部、５・・・文字枠検出部、６・・・
垂直サブパターン抽出部、７・・・水平サブパターン抽出部、８・・・右斜めサブパターン抽出部、９・・・左斜めサブパターン抽出部、１０・・・特徴マトリクス抽出部、１３・・・帳票吸入部、１４・・・線幅処理部、１０２
・・・黒ラン検出部、１０３・・・特徴量増分計算部、１４１・・・線幅保存部、１４２・・・平均線幅計算部
。特許出願人　沖電気工業株式会社サプパクーン繰畏マトリクス（Ｃ）（０）つ、ばれていないパグーン本発明の方法の具体的な効５第６図（ｂ）つぶれた／ぐクーンのっ、〜２れの例図（ｂ）従の８は明図つ、ばれたゴシック体活字パター７第７図（０）つぶ）ｔズいない水平サブパターン　　（１））
っ、ばれた水子ナブパクー７本発明の方法の具体的な効
罠の説明図第８図手続補正書（自発）平成元年　１月１７日

Claims

【特許請求の範囲】１、認識すべき文字図形パターンを光電変換して量子化
し、黒ビット及び白ビットで表わされるディジタル信号
の原パターンを得て、この原パターン中の前記文字図形の線幅を求め、かつ前
記文字図形パターンが含まれる帳票の他の文字図形パタ
ーン中の前記文字図形の線幅との平均値を求めて、これ
を基準線幅に設定し、さらに、前記文字図形に外接する
文字枠を設定し、前記文字枠において、前記原パターンを複数の方向に第
１の走査を行なって、前記原パターンから特定の方向の
文字図形成分のみを抽出した複数のサブパターンを作成
し、この各サブパターンの前記文字枠に囲まれた部分をＭ×
Ｎ個（Ｍ、Ｎは整数）の領域に分割し、前記各サブパタ
ーンについて前記特定の方向と異なる方向に第２の走査
を行ない、その走査列中で前記黒ビットの連続個数に相当する黒ラ
ンを検出するとともに、その黒ビットの連続部分に含ま
れる一点を特徴点として認識する一方、前記線幅が所定の閾値以下のとき、前記線幅と前記黒ラ
ンとの比に基づいて特徴量を求め、前記線幅が所定の閾
値を超えたとき、前記基準線幅と前記黒ランとの比に基
づいて特徴量を求めて、前記Ｍ×Ｎ個の領域に対応させ
て設定したＭ行Ｎ列のデータから成るマトリクスの、前
記特徴点が含まれる領域に対応するデータを、前記特徴
量に基づいて決定し、こうして得られた前記サブパターンに対応するＭ行Ｎ列
のマトリクスに、正規化のための所定の補正演算を行な
って特徴マトリクスを得て、その特徴マトリクスと標準
文字図形について用意された標準マトリクスとを比較し
て、前記原パターンに対応する文字図形を認識すること
を特徴とする文字図形認識方法。２、前記定数として、前記原パターンから検出した前記
文字図形の線幅を使用し、この線幅が所定の閾値を超え
たとき、所定の基準線幅を前記定数として使用すること
を特徴とする特許請求の範囲第１項記載の文字図形認識
方法。３、前記第１の走査を複数の方向について行ない、各走
査方向ごとに前記サブパターンを作成し、各走査方向ご
とに前記特徴マトリクスを得ることを特徴とする特許請
求の範囲第１項記載の文字図形認識方法。