JPH0576673B2 - - Google Patents
Info
- Publication number
- JPH0576673B2 JPH0576673B2 JP61004966A JP496686A JPH0576673B2 JP H0576673 B2 JPH0576673 B2 JP H0576673B2 JP 61004966 A JP61004966 A JP 61004966A JP 496686 A JP496686 A JP 496686A JP H0576673 B2 JPH0576673 B2 JP H0576673B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- pattern
- line width
- sub
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012567 pattern recognition method Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 description 18
- 238000000605 extraction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 206010064127 Solar lentigo Diseases 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は文字図形パターン認識方式、特に印
刷漢字の光学的読取装置OCRに適用して好適な
高速かつ安定な文字図形パターン認識方式に関す
る。 (従来の技術) 従来より、種々のタイプの文字図形認識方式が
開発され実用に供されている。これら文字認識方
式を利用して各種のデータベース作成のため、日
本語印刷文書を計算機に入力する業務が益々増加
するものと予想され、これがため入力の省力化及
び高速化のために、印刷漢字OCRの必要性が高
まつている。 しかしながらら、印刷文書は主として明朝体及
びゴシツク体の字体で作成されるので、各種の文
書を識別するために次のような識別方法が取られ
ている。 字体に応じた複数の辞書を用意しておき、予
め字体を帳票フオーマツトにより指定し、指定
された辞書を使用して識別する方法及び 字体に応じた複数の辞書を用意し、入力され
た文字について複数の辞書の全てを使用して識
別する方法 がある。例えば、本文は明朝体で印刷されている
が意味を強調する部分はゴシツク体で印刷されて
いるといつたように同一行中に複数の字体が混在
している場合には字体を帳票フオーマツトにより
指定することが出来ないため、複数の辞書の全て
を使用して識別する方法が取られている。 (発明が解決しようとする問題点) しかしながら、前述したの方法では、文字認
識に際して帳票フオーマツトを作成する際に認識
する字体を設定する必要があるため、帳票フオー
マツト作成作業が面倒で煩わしいという操作性上
の問題点があつた。 また、同一行中に複数の字体が混在している場
合等に適用される前述したの方式では、用意さ
れた辞書全てについて照合を行うため処理時間が
長時間となるという問題点があつた。 このような従来の問題点の解決を図るため、こ
の出願の発明者等は明朝体及びゴシツク体のそれ
ぞれの線幅に着目し、それぞれの縦線幅と横線幅
との比(縦線幅/横線幅)について測定を行つた
結果を別表1に示す。この測定は印刷漢字の
「亜」の文字について、明朝体及びゴシツク体の
字体につき活字の大きさ8、12及び16ポイントを
対象にして行つた。この場合の横線幅及び縦線幅
の測定は、分解37.5〓mのイメージスキヤンによ
り得られた2値パターンについて後述する線幅測
定方法により行つた。 この別表1の測定結果から理解出来るように、
縦線幅と横線幅との比(縦線幅/横線幅)がゴシ
ツク体では“1”であるのに対し、明朝体では
“2.8”以上あり、従つて、この(縦線幅/横線
幅)の値を用いれば入力された文字図形パターン
が明朝体であるかゴシツク体であるかの識別が可
能である。 ところで、この出願人に係る特公昭60−24513
号公報に文字認識方式の一例が開示されている。
この文字認識方式は高速で安定な文字認識方式で
あり、この方式について第1図を参照して簡単に
説明する。 第1図に示す文字認識装置において、1は光信
号入力、2は光電変換部、3はパターンレジス
タ、4は線幅計算部、5は垂直、水平、右斜め及
び左斜めの各サブパターン抽出部、6は文字枠検
出部、7は文字枠分割決定部、8は特徴マトリク
ス抽出部、9は辞書メモリ部、10は識別部であ
る。 同図において、文字の光信号入力1は光電変換
部2で2値の量子化されたデイジタル電気信号に
変換され、パターンレジスタ3に格納される。そ
れと同時に、線幅計算部4において入力パターン
の線幅が計算される。この線幅計算部4は周知の
フイルタ回路と同様にシフトレジスタ構成となつ
ており、例えば下記に示すような周知の近似式(1)
を用いて線幅Wを計算する。 W=1/{1−(Q/A)} (1) (1)式において、Qは(2×2)の窓のすべての点
が黒点となる点の個数であり、Aは全黒点の個数
であり、これらQ及びAを計数し、その結果から
(1)式に従つてWを演算して求める。 次に、サブパターン抽出部5は、パターンレジ
スタ3について垂直走査を全面に行つて黒点(文
字線部を黒点とする)の連続する長さと、線幅計
算部4において計算された線幅Wとの関係によ
り、垂直サブパターン(VSP)を抽出する。同
様に、水平走査により水平サブパターン(HSP)
を、右斜め45゜走査により右斜めサブパターン
(RSP)を、左斜め45゜走査により左斜めサブパタ
ーン(LSP)をそれぞれ抽出する。第2図はこの
ようにして原パターン(第2図A)から得られた
垂直サブパターン(第2図B)、水平サブパター
ン(第2図C)、右斜めサブパターン(第2図
D)、左斜めサブパターン(第2図E)をそれぞ
れ示す。 文字枠検出部6はパターンレジスタ3内の文字
パターンに外接する文字枠を検出し、その結果を
文字枠分割決定部7へ送る。 文字枠分割決定部7は、検出された文字枠の内
部領域をM×Nの領域(M、Nは整数であり、こ
の例ではM=N=5とする)に分割するためのX
軸、Y軸上の分割点座標を決定する。ここで、X
軸は文字枠の水平方向を、Y軸は文字枠の垂直方
向をそれぞれ示す。 次に、特徴マトリクス抽出部8は、文字枠分割
決定部7によつて決定された分割点座標に基づい
て、垂直、水平、右斜め及び左斜めの各サブパタ
ーン(VSP、HSP、RSP及びLSP)のレジスタ
上の文字枠領域をM×Nの領域に分割し、得られ
た各分割領域内の黒点数Bijを計数する。この黒
点数Bijと先に求めた線幅Wとを用いて次式(2)に
よつて文字線長Lijを示す特徴を計算し、M×N
×4次元の特徴マトリクスを作成する。 Lij=Bij/W (2) 次に、この特徴マトリクス抽出部8内におい
て、垂直サブパターン(VSP)の特徴マトリク
スに対しては文字枠のY軸方向の長さ〓Yで、水
平サブパターン(HSP)の特徴マトリクスはX
軸方向の長さ〓Xで、右斜め及び左斜めサブパタ
ーン(RSP及びLSP)の特徴マトリクスに対し
ては(〓X+〓Y)/2でそれぞれ正規化を行つ
て文字の大きさによる変動を吸収したM×N×4
次元の特徴マトリクスを作成する。 辞書メモリ部9には照合辞書マスクが格納され
ていて、この辞書マスクを識別部10に参照させ
る。 識別部10は各特徴毎に指定された照合辞書マ
スク(fj)と、抽出された特徴マトリクス(fi)
との間に次式(3)で定義される距離Dを適用し、こ
の距離Dが最小の値となるような辞書マスクのカ
テゴリ名を文字名出力11へ出力するように構成
されている。 D=√〓(−)2 (3) このように、従来提案された文字認識方式では
文字枠分割を黒点数分布により決定しているの
で、文字線がその文字線の方向に分割されること
が無く、又特徴を文字の大きさに正規化している
ので文字の大きさの変動を吸収しており、文字線
の移動変動、文字の大きさの変動に対して安定に
しかも高速に特徴抽出が出来る利点がある。 従つて、この発明の目的はこのような従来の安
定で高速の文字認識方式に、活字文字の文字線の
縦線幅と横線幅との比の値の相違に基づく照合辞
書マスクの選択方式を適用して、明朝体及びゴシ
ツク体の識別を操作性良くかつ短時間で行えるよ
うにした文字図形パターン認識方式を提供するこ
とにある。 (問題点を解決するための手段) この目的の達成のため、この発明の文字図形パ
ターン認識方式においては次のような手段を用い
る(第1図参照)。 先ず、文字図形パターンを予め定めた複数方向
毎に走査して検出した文字線の断面の中からその
断面長が前記文字図形パターン内の線幅よりも十
分に長い断面を抽出することにより複数のサブパ
ターンを作成するサブパターン作成部21を具え
る。このサブパターン作成部21を例えば光電変
換部2、パターンレジスタ3、線幅計算部4、サ
ブパターン抽出部5を以つて形成する。 さらに、サブパターンにおける任意の分割単位
領域の黒点数を前記文字線幅とストローク方向に
対応した文字枠の大きさとで正規化して得られる
量を特徴マトリツクスとして出力する特徴マトリ
クス作成部22を具える。この特徴マトリクス作
成部22を例えば文字枠検出部6、文字枠分割決
定部7及び特徴マトリクス抽出部8を以つて形成
する。 さらに、特徴マトリツクスを照合辞書マスクと
照合して当該文字図形パターンを認識する認識部
23を具える。この認識部23を例えば辞書メモ
リ部9と、識別部10とで形成する。 さらに、サブパターン作成部21から得られる
これらサブパターンのうち水平サブパターン及び
垂直サブパターンの各々について文字線幅Wh及
びWvを計算する水平・垂直サブパターン線幅計
算部24を具える。 さらに、水平サブパターン及び垂直サブパター
ンの線幅比(Wh/Wv)と予め設定された線幅
基準値Wthとの大きさの比較により、辞書メモリ
部9に格納されている、特徴マトリツクスと同形
式で記述された複数の辞書マスクから文字図形パ
ターンの字体として最適な辞書マスクを照合辞書
マスクとして選択するための辞書選択部25を具
える。 (作用) このように構成すれば、サブパターン作成部2
1から得られる水平及び垂直サブパターンに対
し、水平及び垂直サブパターン線幅計算部24に
おいて、横線幅Wh及び縦線幅Wvのそれぞれを
算出し、それぞれの値を辞書選択部25に送る。
この辞書選択部25で両サブパターンの横線幅と
縦線幅との比(横線幅/縦線幅)をそれぞれ算出
して、この比の値を線幅基準値Wthと比較し、よ
つてその比較結果に応じた辞書選択信号を認識部
23の辞書メモリ9に送る。この辞書選択信号に
対応した辞書マスクを選択して識別部10におい
て特徴マトリクスと照合して辞書マトリクスのカ
テゴリ名を文字名出力11として出力する。 このように、この発明によれば、読取印刷活字
の字体に合つた辞書マスクのみを自動的に選択し
照合を行うので、認識処理が高速化し、しかも、
認識精度が向上する。 (実施例) 以下、図面を参照して、この発明の文字図形パ
ターン認識方式の実施例を説明する。 第1図はこの発明の文字図形パターン認識方式
の実施例を説明するための文字認識装置を示すブ
ロツク線図であり、また、第3図A〜Fは一例と
して認識しようとする明朝体及びゴシツク体のそ
れぞれの印刷漢字「亜」の原パターン及びサブパ
ターンを説明するための説明図である。 通常は、印刷文書の字体が第3図A及びDに示
すように明朝体及びゴシツク体である。これらの
印刷文字をスキヤナで走査して文字の光信号1が
サブパターン作成部21の光電変換部2に入力
し、光電変換されてデイジタル信号となる。この
デイジタル信号によつてパターンレジスタ3には
文字パターンが格納される。また、このデイジタ
ル信号が線幅計算部4に供給されて入力パターン
の線幅が算出されサブパターン抽出部5に供給さ
れる。一方、このサブパターン抽出部5にはパタ
ーンレジスタ3の全面を走査して得られた黒点長
の情報が供給され、この読取られた文字の垂直サ
ブパターン、水平サブパターン、右斜めサブパタ
ーン及び左斜めサブパターンを抽出する。 次に、水平・垂直サブパターン線幅計算部24
にこれらサブパターンから水平及び垂直サブパタ
ーン(明朝体のこれらサブパターンを第3図B及
びCにそれぞれ示し、ゴシツク体のこれらサブパ
ターンを第3図E及びFにそれぞれ示す)のみを
取込む。ところで、既に説明したが、第3図B及
びCに示すように、明朝体の垂直成分の線幅が水
平成分の成分よりも十分大きく、又、第3図E及
びFに示すように、ゴシツク体の垂直成分の線幅
と水平成分の線幅とがほぼ等しい。従つて、この
明朝体及びゴシツク体の区別を行うための手段と
して、先ず、この垂直・水平サブパターン線幅計
算部24においてこれら垂直及び水平サブパター
ンの線幅Wv及びWhをそれぞれ計算する。 これらの線幅Wv及びWhを辞書選択部25に
送出し、ここでその比の値(Wv/Wh)を算出
する。さらに、この辞書選択部25のメモリ(図
示せず)に予め格納されている線幅基準値Wthを
読み出して、値の大きさを比較する。この場合、
例えば Wv/Wh>Wth (4) の式を満足する場合には、この印刷活字の字体は
明朝体の辞書マスクを選択し、それ以外はゴシツ
ク体の辞書マスクを選択するような選択信号を認
識部23の辞書メモリ9へ出力するように構成す
る。ここで、前述した別表1のデータからこの基
準値Wthを2と設定するのが好適であるがこの値
に限定されるものではない。 識別部10においては、明朝体又はゴシツク体
に応じてそれぞれ自動的に選択された照合辞書マ
スクと、特徴マトリクス作成部22から送られて
きた特徴マトリクスとを照合し、前述したように
(3)式で定義される距離Dを算出し、この距離Dが
最小となる辞書マスクのカテゴリ名11を文字名
として出力させる。 ところで、垂直及び水平サブパターンの線幅
Wv又はWhが“0”の時は明朝体とゴシツク体
の両方の辞書マスクを辞書メモリ部9から選択出
来る選択信号を辞書メモリ部9へ送出するように
構成し、その場合には識別部10において特徴マ
トリクスを両辞書マスクに照合して識別を行うよ
うにする。 さらに、上述した実施例では第1図に示した構
成の文字認識装置につき説明したが、この構成に
のみ限定されるものではなく、多くの変形及び変
更をなして、前述の実施例と同様な効果を達成す
ることが出来る。 また、上述した各構成成分は通常の電子回路技
術を用いて容易に形成することが出来るものであ
る。 (発明の効果) 上述した実施例からも明らかなように、この発
明によれば、入力された印刷漢字に対応する入力
文字の垂直成分及び水平成分の線幅比から自動的
に辞書を選択し、この選択された辞書だけを使用
して印刷文字の認識を行う構成となつているの
で、例えば同一行中に複数の字体で印刷されてい
る文書の場合であつても、高速な認識が可能であ
る。 さらに、複数の辞書から字体に適合した辞書の
みを自動的に選択する構成となているので、認識
精度が向上する。 従つて、この発明によれば、高速でしかも認識
精度の良い文字図形パターン認識方式を提供する
ことができる。 【表】
刷漢字の光学的読取装置OCRに適用して好適な
高速かつ安定な文字図形パターン認識方式に関す
る。 (従来の技術) 従来より、種々のタイプの文字図形認識方式が
開発され実用に供されている。これら文字認識方
式を利用して各種のデータベース作成のため、日
本語印刷文書を計算機に入力する業務が益々増加
するものと予想され、これがため入力の省力化及
び高速化のために、印刷漢字OCRの必要性が高
まつている。 しかしながらら、印刷文書は主として明朝体及
びゴシツク体の字体で作成されるので、各種の文
書を識別するために次のような識別方法が取られ
ている。 字体に応じた複数の辞書を用意しておき、予
め字体を帳票フオーマツトにより指定し、指定
された辞書を使用して識別する方法及び 字体に応じた複数の辞書を用意し、入力され
た文字について複数の辞書の全てを使用して識
別する方法 がある。例えば、本文は明朝体で印刷されている
が意味を強調する部分はゴシツク体で印刷されて
いるといつたように同一行中に複数の字体が混在
している場合には字体を帳票フオーマツトにより
指定することが出来ないため、複数の辞書の全て
を使用して識別する方法が取られている。 (発明が解決しようとする問題点) しかしながら、前述したの方法では、文字認
識に際して帳票フオーマツトを作成する際に認識
する字体を設定する必要があるため、帳票フオー
マツト作成作業が面倒で煩わしいという操作性上
の問題点があつた。 また、同一行中に複数の字体が混在している場
合等に適用される前述したの方式では、用意さ
れた辞書全てについて照合を行うため処理時間が
長時間となるという問題点があつた。 このような従来の問題点の解決を図るため、こ
の出願の発明者等は明朝体及びゴシツク体のそれ
ぞれの線幅に着目し、それぞれの縦線幅と横線幅
との比(縦線幅/横線幅)について測定を行つた
結果を別表1に示す。この測定は印刷漢字の
「亜」の文字について、明朝体及びゴシツク体の
字体につき活字の大きさ8、12及び16ポイントを
対象にして行つた。この場合の横線幅及び縦線幅
の測定は、分解37.5〓mのイメージスキヤンによ
り得られた2値パターンについて後述する線幅測
定方法により行つた。 この別表1の測定結果から理解出来るように、
縦線幅と横線幅との比(縦線幅/横線幅)がゴシ
ツク体では“1”であるのに対し、明朝体では
“2.8”以上あり、従つて、この(縦線幅/横線
幅)の値を用いれば入力された文字図形パターン
が明朝体であるかゴシツク体であるかの識別が可
能である。 ところで、この出願人に係る特公昭60−24513
号公報に文字認識方式の一例が開示されている。
この文字認識方式は高速で安定な文字認識方式で
あり、この方式について第1図を参照して簡単に
説明する。 第1図に示す文字認識装置において、1は光信
号入力、2は光電変換部、3はパターンレジス
タ、4は線幅計算部、5は垂直、水平、右斜め及
び左斜めの各サブパターン抽出部、6は文字枠検
出部、7は文字枠分割決定部、8は特徴マトリク
ス抽出部、9は辞書メモリ部、10は識別部であ
る。 同図において、文字の光信号入力1は光電変換
部2で2値の量子化されたデイジタル電気信号に
変換され、パターンレジスタ3に格納される。そ
れと同時に、線幅計算部4において入力パターン
の線幅が計算される。この線幅計算部4は周知の
フイルタ回路と同様にシフトレジスタ構成となつ
ており、例えば下記に示すような周知の近似式(1)
を用いて線幅Wを計算する。 W=1/{1−(Q/A)} (1) (1)式において、Qは(2×2)の窓のすべての点
が黒点となる点の個数であり、Aは全黒点の個数
であり、これらQ及びAを計数し、その結果から
(1)式に従つてWを演算して求める。 次に、サブパターン抽出部5は、パターンレジ
スタ3について垂直走査を全面に行つて黒点(文
字線部を黒点とする)の連続する長さと、線幅計
算部4において計算された線幅Wとの関係によ
り、垂直サブパターン(VSP)を抽出する。同
様に、水平走査により水平サブパターン(HSP)
を、右斜め45゜走査により右斜めサブパターン
(RSP)を、左斜め45゜走査により左斜めサブパタ
ーン(LSP)をそれぞれ抽出する。第2図はこの
ようにして原パターン(第2図A)から得られた
垂直サブパターン(第2図B)、水平サブパター
ン(第2図C)、右斜めサブパターン(第2図
D)、左斜めサブパターン(第2図E)をそれぞ
れ示す。 文字枠検出部6はパターンレジスタ3内の文字
パターンに外接する文字枠を検出し、その結果を
文字枠分割決定部7へ送る。 文字枠分割決定部7は、検出された文字枠の内
部領域をM×Nの領域(M、Nは整数であり、こ
の例ではM=N=5とする)に分割するためのX
軸、Y軸上の分割点座標を決定する。ここで、X
軸は文字枠の水平方向を、Y軸は文字枠の垂直方
向をそれぞれ示す。 次に、特徴マトリクス抽出部8は、文字枠分割
決定部7によつて決定された分割点座標に基づい
て、垂直、水平、右斜め及び左斜めの各サブパタ
ーン(VSP、HSP、RSP及びLSP)のレジスタ
上の文字枠領域をM×Nの領域に分割し、得られ
た各分割領域内の黒点数Bijを計数する。この黒
点数Bijと先に求めた線幅Wとを用いて次式(2)に
よつて文字線長Lijを示す特徴を計算し、M×N
×4次元の特徴マトリクスを作成する。 Lij=Bij/W (2) 次に、この特徴マトリクス抽出部8内におい
て、垂直サブパターン(VSP)の特徴マトリク
スに対しては文字枠のY軸方向の長さ〓Yで、水
平サブパターン(HSP)の特徴マトリクスはX
軸方向の長さ〓Xで、右斜め及び左斜めサブパタ
ーン(RSP及びLSP)の特徴マトリクスに対し
ては(〓X+〓Y)/2でそれぞれ正規化を行つ
て文字の大きさによる変動を吸収したM×N×4
次元の特徴マトリクスを作成する。 辞書メモリ部9には照合辞書マスクが格納され
ていて、この辞書マスクを識別部10に参照させ
る。 識別部10は各特徴毎に指定された照合辞書マ
スク(fj)と、抽出された特徴マトリクス(fi)
との間に次式(3)で定義される距離Dを適用し、こ
の距離Dが最小の値となるような辞書マスクのカ
テゴリ名を文字名出力11へ出力するように構成
されている。 D=√〓(−)2 (3) このように、従来提案された文字認識方式では
文字枠分割を黒点数分布により決定しているの
で、文字線がその文字線の方向に分割されること
が無く、又特徴を文字の大きさに正規化している
ので文字の大きさの変動を吸収しており、文字線
の移動変動、文字の大きさの変動に対して安定に
しかも高速に特徴抽出が出来る利点がある。 従つて、この発明の目的はこのような従来の安
定で高速の文字認識方式に、活字文字の文字線の
縦線幅と横線幅との比の値の相違に基づく照合辞
書マスクの選択方式を適用して、明朝体及びゴシ
ツク体の識別を操作性良くかつ短時間で行えるよ
うにした文字図形パターン認識方式を提供するこ
とにある。 (問題点を解決するための手段) この目的の達成のため、この発明の文字図形パ
ターン認識方式においては次のような手段を用い
る(第1図参照)。 先ず、文字図形パターンを予め定めた複数方向
毎に走査して検出した文字線の断面の中からその
断面長が前記文字図形パターン内の線幅よりも十
分に長い断面を抽出することにより複数のサブパ
ターンを作成するサブパターン作成部21を具え
る。このサブパターン作成部21を例えば光電変
換部2、パターンレジスタ3、線幅計算部4、サ
ブパターン抽出部5を以つて形成する。 さらに、サブパターンにおける任意の分割単位
領域の黒点数を前記文字線幅とストローク方向に
対応した文字枠の大きさとで正規化して得られる
量を特徴マトリツクスとして出力する特徴マトリ
クス作成部22を具える。この特徴マトリクス作
成部22を例えば文字枠検出部6、文字枠分割決
定部7及び特徴マトリクス抽出部8を以つて形成
する。 さらに、特徴マトリツクスを照合辞書マスクと
照合して当該文字図形パターンを認識する認識部
23を具える。この認識部23を例えば辞書メモ
リ部9と、識別部10とで形成する。 さらに、サブパターン作成部21から得られる
これらサブパターンのうち水平サブパターン及び
垂直サブパターンの各々について文字線幅Wh及
びWvを計算する水平・垂直サブパターン線幅計
算部24を具える。 さらに、水平サブパターン及び垂直サブパター
ンの線幅比(Wh/Wv)と予め設定された線幅
基準値Wthとの大きさの比較により、辞書メモリ
部9に格納されている、特徴マトリツクスと同形
式で記述された複数の辞書マスクから文字図形パ
ターンの字体として最適な辞書マスクを照合辞書
マスクとして選択するための辞書選択部25を具
える。 (作用) このように構成すれば、サブパターン作成部2
1から得られる水平及び垂直サブパターンに対
し、水平及び垂直サブパターン線幅計算部24に
おいて、横線幅Wh及び縦線幅Wvのそれぞれを
算出し、それぞれの値を辞書選択部25に送る。
この辞書選択部25で両サブパターンの横線幅と
縦線幅との比(横線幅/縦線幅)をそれぞれ算出
して、この比の値を線幅基準値Wthと比較し、よ
つてその比較結果に応じた辞書選択信号を認識部
23の辞書メモリ9に送る。この辞書選択信号に
対応した辞書マスクを選択して識別部10におい
て特徴マトリクスと照合して辞書マトリクスのカ
テゴリ名を文字名出力11として出力する。 このように、この発明によれば、読取印刷活字
の字体に合つた辞書マスクのみを自動的に選択し
照合を行うので、認識処理が高速化し、しかも、
認識精度が向上する。 (実施例) 以下、図面を参照して、この発明の文字図形パ
ターン認識方式の実施例を説明する。 第1図はこの発明の文字図形パターン認識方式
の実施例を説明するための文字認識装置を示すブ
ロツク線図であり、また、第3図A〜Fは一例と
して認識しようとする明朝体及びゴシツク体のそ
れぞれの印刷漢字「亜」の原パターン及びサブパ
ターンを説明するための説明図である。 通常は、印刷文書の字体が第3図A及びDに示
すように明朝体及びゴシツク体である。これらの
印刷文字をスキヤナで走査して文字の光信号1が
サブパターン作成部21の光電変換部2に入力
し、光電変換されてデイジタル信号となる。この
デイジタル信号によつてパターンレジスタ3には
文字パターンが格納される。また、このデイジタ
ル信号が線幅計算部4に供給されて入力パターン
の線幅が算出されサブパターン抽出部5に供給さ
れる。一方、このサブパターン抽出部5にはパタ
ーンレジスタ3の全面を走査して得られた黒点長
の情報が供給され、この読取られた文字の垂直サ
ブパターン、水平サブパターン、右斜めサブパタ
ーン及び左斜めサブパターンを抽出する。 次に、水平・垂直サブパターン線幅計算部24
にこれらサブパターンから水平及び垂直サブパタ
ーン(明朝体のこれらサブパターンを第3図B及
びCにそれぞれ示し、ゴシツク体のこれらサブパ
ターンを第3図E及びFにそれぞれ示す)のみを
取込む。ところで、既に説明したが、第3図B及
びCに示すように、明朝体の垂直成分の線幅が水
平成分の成分よりも十分大きく、又、第3図E及
びFに示すように、ゴシツク体の垂直成分の線幅
と水平成分の線幅とがほぼ等しい。従つて、この
明朝体及びゴシツク体の区別を行うための手段と
して、先ず、この垂直・水平サブパターン線幅計
算部24においてこれら垂直及び水平サブパター
ンの線幅Wv及びWhをそれぞれ計算する。 これらの線幅Wv及びWhを辞書選択部25に
送出し、ここでその比の値(Wv/Wh)を算出
する。さらに、この辞書選択部25のメモリ(図
示せず)に予め格納されている線幅基準値Wthを
読み出して、値の大きさを比較する。この場合、
例えば Wv/Wh>Wth (4) の式を満足する場合には、この印刷活字の字体は
明朝体の辞書マスクを選択し、それ以外はゴシツ
ク体の辞書マスクを選択するような選択信号を認
識部23の辞書メモリ9へ出力するように構成す
る。ここで、前述した別表1のデータからこの基
準値Wthを2と設定するのが好適であるがこの値
に限定されるものではない。 識別部10においては、明朝体又はゴシツク体
に応じてそれぞれ自動的に選択された照合辞書マ
スクと、特徴マトリクス作成部22から送られて
きた特徴マトリクスとを照合し、前述したように
(3)式で定義される距離Dを算出し、この距離Dが
最小となる辞書マスクのカテゴリ名11を文字名
として出力させる。 ところで、垂直及び水平サブパターンの線幅
Wv又はWhが“0”の時は明朝体とゴシツク体
の両方の辞書マスクを辞書メモリ部9から選択出
来る選択信号を辞書メモリ部9へ送出するように
構成し、その場合には識別部10において特徴マ
トリクスを両辞書マスクに照合して識別を行うよ
うにする。 さらに、上述した実施例では第1図に示した構
成の文字認識装置につき説明したが、この構成に
のみ限定されるものではなく、多くの変形及び変
更をなして、前述の実施例と同様な効果を達成す
ることが出来る。 また、上述した各構成成分は通常の電子回路技
術を用いて容易に形成することが出来るものであ
る。 (発明の効果) 上述した実施例からも明らかなように、この発
明によれば、入力された印刷漢字に対応する入力
文字の垂直成分及び水平成分の線幅比から自動的
に辞書を選択し、この選択された辞書だけを使用
して印刷文字の認識を行う構成となつているの
で、例えば同一行中に複数の字体で印刷されてい
る文書の場合であつても、高速な認識が可能であ
る。 さらに、複数の辞書から字体に適合した辞書の
みを自動的に選択する構成となているので、認識
精度が向上する。 従つて、この発明によれば、高速でしかも認識
精度の良い文字図形パターン認識方式を提供する
ことができる。 【表】
第1図はこの発明及び従来の文字図形パターン
認識方式の説明に供するブロツク図、第2図A〜
Eは原パターンと各サブパターンの例を示す線
図、第3図A〜Fは明朝体及びゴシツク体の原パ
ターン及び垂直及び水平サブパターンを示す線図
である。 1……文字の光信号入力、2……光電変換部、
3……パターンレジスタ、4……線幅計算部、5
……サブパターン抽出部、6……文字枠検出部、
7……文字枠分割決定部、8……特徴マトリクス
抽出部、9……辞書メモリ部、10……識別部、
11……カテゴリ名出力、21……サブパターン
作成部、22……特徴マトリクス作成部、23…
…認識部、24……水平・垂直サブパターン線幅
計算部、25……辞書選択部。
認識方式の説明に供するブロツク図、第2図A〜
Eは原パターンと各サブパターンの例を示す線
図、第3図A〜Fは明朝体及びゴシツク体の原パ
ターン及び垂直及び水平サブパターンを示す線図
である。 1……文字の光信号入力、2……光電変換部、
3……パターンレジスタ、4……線幅計算部、5
……サブパターン抽出部、6……文字枠検出部、
7……文字枠分割決定部、8……特徴マトリクス
抽出部、9……辞書メモリ部、10……識別部、
11……カテゴリ名出力、21……サブパターン
作成部、22……特徴マトリクス作成部、23…
…認識部、24……水平・垂直サブパターン線幅
計算部、25……辞書選択部。
Claims (1)
- 【特許請求の範囲】 1 (a) 文字図形パターンを予め定めた複数方向
毎に走査して検出した文字線の断面の中からそ
の断面長が前記文字図形パターン内の線幅より
も十分に長い断面を抽出することにより複数の
サブパターンを作成するサブパターン作成部
と、 (b) 前記サブパターンにおける任意の分割単位領
域の黒点数を前記文字線幅とストローク方向に
対応した文字枠の大きさとで正規化して得られ
る量を特徴マトリツクスとして出力する特徴マ
トリクス作成部と、 (c) 該特徴マトリツクスを照合辞書マスクと照合
して当該文字図形パターンを認識する認識部と を含む文字図形パターン認識方式において、 (d) これらサブパターンのうち水平サブパターン
及び垂直サブパターンの各々について文字線幅
を計算する水平及び垂直サブパターン線幅計算
部と、 (e) 該水平サブパターン及び垂直サブパターンの
線幅比と予め設定された線幅基準値との大きさ
の比較により、複数の辞書マスクから前記文字
図形パターンの字体として最適な辞書マスクを
照合辞書マスクとして選択するための辞書選択
部と を具えることを特徴とする文字図形パターン認識
方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61004966A JPS62164182A (ja) | 1986-01-16 | 1986-01-16 | 文字図形パタ−ン認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61004966A JPS62164182A (ja) | 1986-01-16 | 1986-01-16 | 文字図形パタ−ン認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62164182A JPS62164182A (ja) | 1987-07-20 |
JPH0576673B2 true JPH0576673B2 (ja) | 1993-10-25 |
Family
ID=11598328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61004966A Granted JPS62164182A (ja) | 1986-01-16 | 1986-01-16 | 文字図形パタ−ン認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62164182A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4909149B2 (ja) * | 2007-03-29 | 2012-04-04 | ゼブラ株式会社 | 筆記具用クリップ取付構造及び該筆記具用クリップ取付構造の製造方法 |
-
1986
- 1986-01-16 JP JP61004966A patent/JPS62164182A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS62164182A (ja) | 1987-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6366695B1 (en) | Method and apparatus for producing a hybrid data structure for displaying a raster image | |
JP2007042126A (ja) | ラスタ画像表示用ハイブリッドデータ構造生成方法及び装置 | |
JPH03122773A (ja) | 画像形成装置 | |
JPH0576673B2 (ja) | ||
JPS6311832B2 (ja) | ||
JP2747136B2 (ja) | 文字認識装置 | |
JP3083609B2 (ja) | 情報処理装置及びそれを用いた文字認識装置 | |
JP2827288B2 (ja) | 文字認識装置 | |
KR100317653B1 (ko) | 대용량인쇄체문자인식을위한특징추출방법 | |
JPH0545992B2 (ja) | ||
JP2708604B2 (ja) | 文字認識方法 | |
JP2918363B2 (ja) | 文字分類方法及び文字認識装置 | |
JP3127413B2 (ja) | 文字認識装置 | |
JP2582611B2 (ja) | マルチフオント辞書の作成法 | |
JPS62125485A (ja) | 文字認識方式 | |
JPS62154079A (ja) | 文字認識方式 | |
JP3036166B2 (ja) | 単語種別判定装置 | |
JPH06301817A (ja) | 文字認識装置 | |
JP2980636B2 (ja) | 文字認識装置 | |
JPH05174179A (ja) | 文書画像処理装置 | |
JPS6019287A (ja) | 文字認識方法 | |
JPS6318787B2 (ja) | ||
JPH05274472A (ja) | 画像認識装置 | |
JPH03246779A (ja) | 文字認識装置 | |
JPS5837780A (ja) | 文字認識方式 |