JPS58182791A - 文字パタ−ンの特徴抽出法および分類法 - Google Patents

文字パタ−ンの特徴抽出法および分類法

Info

Publication number
JPS58182791A
JPS58182791A JP57066061A JP6606182A JPS58182791A JP S58182791 A JPS58182791 A JP S58182791A JP 57066061 A JP57066061 A JP 57066061A JP 6606182 A JP6606182 A JP 6606182A JP S58182791 A JPS58182791 A JP S58182791A
Authority
JP
Japan
Prior art keywords
runs
character
change
black
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57066061A
Other languages
English (en)
Inventor
Akira Sakurai
彰 桜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP57066061A priority Critical patent/JPS58182791A/ja
Publication of JPS58182791A publication Critical patent/JPS58182791A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/184Extraction of features or characteristics of the image by analysing segments intersecting the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、白黒2値の文字パターンの特徴を抽出する方
法、およびそれによって抽出した特徴によって文字ツク
ターンを分類する方法に関する。
文字パターンの分類を行なうには、まず文字パターンの
特徴を抽出し、ついで、抽出した特徴と特徴辞書に登録
された分類クラス毎の特徴とを比較するという手順が一
般的である。したがって、文字パターンの分類処理にお
いては、文字・母ターンの特徴としてどのようなノfラ
メータを、どのような方法で抽出するかが極めて重要な
技術的課題となる。
本発明の目的は、文字・Pターンの分類用の・母うメー
タとして好適な特徴を文字・ぐターンから抽出するだめ
の新規な方法、およびその方法で抽出した特徴を用いて
文字・ぐターンを分類する新規な方法を提供するどとに
ある。
本発明に関連した従来技術として、特開昭55−146
575号公報に開示された文字・ぐターンの分類処理方
式がある。この従来技術は、文字・やターンの外部情報
(被りフェラル特徴)だけでなく、文字・ぐターンの内
部構造の特徴情報をも抽出し、分類のi9ラメータとし
て利用する。したがって、ペリフェラル特徴だけを抽出
する場合よりも、分類精度を向上できる可能性がある。
しかしこの従来技術は、文字・母ターンのサイズや縦横
比が変化すると、抽出される特徴も変化を受けるという
問題点がある。これに対処するには、文字パターンのサ
イズや縦横比によって、抽出した特徴を正規化する必要
があり、特徴抽出処理の複雑化が避けられない。また、
文字線の傾き等の変形の激しい手書き文字などの文字パ
ターンの分類に適用しようとした場合、十分な分類精度
を達成するには特徴辞書が相当に大規模になってしまう
したがって本発明の目的は、より具体的に述べれば、文
字・にターンのサイズや縦横比の変化に影響されにくい
安定な特徴を単純な処理によって抽出する方法を提供す
ることである。本発明のもう1つの目的は、手書き文字
などの変形の激しい文字・やターンについても、特徴辞
書を大規模化することなく、高い分類精度を達成できる
文字・やターン分類法を提供することにある。
しかして本発明の特徴抽出法は、白黒2値の文字・にタ
ーンを横方向および縦方向にそれぞれラスク走査し、黒
ランまたは白ランの数(ラン数)が直前の走査ラインに
対し変化する走査ライン(変化ライン)を検出し、変化
ラインを検出するたびにその変化ライン上のラン数を順
次記憶することにより、当該文字パターンの横方向およ
び縦方向のそれぞれについてのラン数の変化ieターン
を得、この2組のラン数変化ノ9ターンを当該文字ノf
ターンの特徴として抽出することを特徴とするものであ
る。
また本発明の文字・ぐターン分類法は、前述のような方
法によって文字・母ターンから特徴を抽出し、文字の分
類クラス毎に予め特徴辞書に登録されている同様の特徴
と比較することにより、当該文字・母ターンと特徴が一
致する特定の分類クラスを識別することを特徴とするも
のである。
以下、図面を参照して本発明を具体的に説明する。
第1図は、本発明によって文字・母ターンの特徴抽出処
理および分類処理を行なう装置の一例を示すブロック図
である。
同図において、10は文字ノ4ターンメモリであり、1
文字分(または複数文字分)の2値化された文字・ぐタ
ーンのデータが格納される。読出回路12、は、文字ツ
クターンメモリ10内の文字ノ(ターンを横方向および
縦方向にそれぞれラスク走査し、横方向にラスク走査し
て読み出した文字・母ターンデータをシリアルに白黒変
化検出器14Xへ送り、縦方向にラスク走査して読み出
した文字i4ターンデータをシリアルに白黒変化検出器
14Yへ送る。
このラスク走査の動作について、第2図によりさらに説
明する。
第2図は文字“E ”の・ぐターンの一例を示す。
読出回路12の横方向のラスク走査は、主走査方向をX
方向として、例えば文字領域50を左上角より右下角に
向ってラスク走査する。また縦方向のラスク走査は、主
走査方向をY方向とし、例えば文字領域50を左上角よ
り右下角に向ってラスク走査する。
白黒変化検出器14Xは、横方向ラスク走査により読み
出されるシリアルな文字・ぐターンデータ(本実施例で
は、白画素は0”ビット、黒画素は“1#ビツトで表現
されているとする)の0”ビットから°゛1”ビットへ
の変化を検出するたびに、黒ランカウンタ16Xを1だ
けインクリメントする。この黒ランカウンタ16Xは、
各主走査ラインの開始時点でリセットされる。しだがっ
て、X方向の各走査ライン上の黒ランの数(ラン数)4
が黒ランカウンタ16Xで計数される。
同様に、縦方向ラスク走査によって読み出されるシリア
ルな文字ノeターンデータの“()”ビットから” 1
 ”ビットへの変化も白黒検出器14Yで検出され、そ
の検出のたびに黒ランカウンタ16Yがインクリメント
される。この黒ランカウンタ16Yも各走査ラインの開
始時点でリセットされる。したがって、各走査ライン(
Y方向)上の黒ランの数(ラン数)が黒ランカウンタ1
6Yで計数される。
黒ランカウンタ16X、16Yによって求められた現走
査ライン上のラン数は、走査ラインの終点で差分検出器
20X、20Yにおいて、レジスタ18X、18Yに一
時的に保持されている直前走査ラインのラン数との差が
検出される。ラン数の差がゼロならば、現走査ラインの
ラン数はレジスタ22X、22Yにセットされない。差
がゼロでないならば(現走査ラインはラン数が直前走査
ラインと異なる変化ラインと判定される)、差分検出器
20X、20Yよりセット信号がレジスタ22X、22
Yへ送られ、現走査ライン(変化ライン)のラン数がレ
ジスタ22X、22Yにセットされる。なお、差分検出
器20X、20Yの検出終了時点で、現走査ラインのラ
ン数はレジスタ18X、18Yにセットされる。この時
、それまでのレジスタ18X、18Yの内容はクリヤさ
れる。
レジスタ22X、22Yは例えばシフトレジスタで構成
され、各変化ラインのラン数を変化ラインの出現する順
番に順次記憶する。したがって、文字領域の全域をラス
ク走査すると、文字・ぐターンを横方向にラスク走査し
たときのラン数の変化パターンがX方向特徴ベクトルと
してレジスタ22Xに、縦方向にラスク走査したときの
ラン数の変化ノeターンがY方向特徴ベクトルとしてレ
ジスタ22Yに、それぞれ得られる。
例えば第2図の文字パターンの場合、横方向のラスク走
査では、先頭の走査ラインはラン数(黒ランの数)は0
である。前の説明では述べなかったが、先頭ラインのラ
ン数は無条件にレジスタ22Xにセットされる。以後、
(イ)位置の前の走査ラインのラン数は0のままである
から、ラン数はレジスタ22Xにセットされない。(イ
)位置の走査ラインでラン数が・1に変化するので、そ
のラン数1がレジスタ22Xにセットされる。以後、(
ロ)位置まではラン数は1のままで変化しないので、こ
の範囲の走査ラインのラン数はレジスタ22Xにセット
されない。(ロ)位置の走査ラインでラン数が0に変化
するので、そのラン数0がレジスタ22Xにセットされ
る。以後はラン数が00ままであるので、レジスタ22
Xにはセットされない。つまり、横方向にラスク走査し
た場合、ラン数の変化ノやターンは0−1−〇であり、
レジスタ22Xには第3図に示すよりなX方向特徴ベク
トルが得られる。
縦方向のラスク走査についても同様に(ハ)、に)。
(ホ)、(へ)の位置でそれぞれラン数が変化し、ラン
数の変化ツヤターンは0−1−3−2−0である。した
がって第3図に示すよりなY方向特徴ベクトルがレジス
タ22Yに得られる。
このように、本発明は文字・ぞターンの横方向お(9) よび縦方向のラン数の°゛変化の・母ターンを特徴とし
て抽出する。このため、正規化処理を行なわなくても、
文字・母ターンのサイズの変化や、縦横比の変化に関係
しない安定な特徴を抽出できる。
このことは、例えば第2図の文字・ぐターンの各方向の
サイズを任意に変化させて考えてみれば、容易に理解で
きる。そして、このような特徴を用いて文字パターンを
分類する本発明の分類法は、文字パターンのサイズの変
化や縦横比の変化に影響されにくいことも、また明らか
である。
さらに、前述のようにして抽出される特徴を用いる本発
明の分類法は、文字線の傾き等の変形の激しい文字・母
ターンについても、特徴辞書を大規模化することなく精
度良く分類できるという利点を有するが、これは以下の
説明によって明らかにする。
第1図に戻って、レジスタ22X、22Yに得られた文
字・ぞターンのX方向、Y方向の各特徴ベクトルは比較
回路24に送られ、特徴辞書メモリ26の内容と比較さ
れ、分類される。特徴辞書メ(10) モリ26は文字パターンの分類のだめの特徴辞書を格納
1−でいる。この特徴辞書は、文字棟毎に文字・やター
ンを1つまたは2つ以上のクラスに分け、各クラス毎に
そのX、Y方向の特徴ベクトルを登録したファイルであ
る。1文字種当りのクラス数は、本発明による場合は、
せいぜい1ないし3クラス程度で足りる。これば、従来
ならば数クラスに分けるべきいくつかの変形した文字パ
ターンの特徴ベクトルを容易に統合した形で特徴辞書に
登録できるからである。
これについて、文字“′E″を例にして具体的に説明す
る。
第2図の文字” E”のパターンから抽出されるX方向
、Y方向特徴ベクトルは第3図の如くであった。一方、
文字”E″′を傾けた第4図のような・ぐターンから抽
出されるX方向、Y方向特徴ベクトルは、第5図に示す
如くとなることは明らかである。さらに、第4図の文字
・ぐターンの中央(の横線Pが水平に変化した第6図の
79ターンの特徴ベクトルは、第7図に示す如くになる
。つまり、第5図に示しだX方向特徴ベクトルの5番目
の成分が抜けたX方向特徴ベクトルとなる。Y方向特徴
ベクトルは変化しない。
特徴辞書には、例えば第2図、第4図、第6図の文字)
々ターンを文字”E″の1つのクラスと考え、それらの
特徴ベクトル(第3図、第5図、第7図)が第8図のよ
うに統合した形式で登録される。ただし、Y方向ベクト
ルも同様に考えればよいので、第8図にはX方向ベクト
ルのみ示す。第8図において、弧線(、) 、 (b)
はバイパスを意味する。
実際には各バイパスの始点および終点となる成分を指定
するパイ・ぐス情報が特徴ベクトルに付加されて登録さ
れるが、このような技術は周知であるのでバイパス情報
の詳細については省略する。
このように、変形したいくつかの文字・ぐターンを1つ
のクラスに分類し、それらの特徴ベクトルを統合した形
で容易に登録できるので、特徴辞書の規模縮小を図るこ
とができる。
さて、文字・ぞターンの分類は次のようにして行なわれ
る。比較回路24はレジスタ22X、22Yに得られる
X方向、Y方向特徴ベクトルを、特徴辞書メモリ26か
ら読与出しだ各文字種の各クラスのX方向、Y方向特徴
ベクトルとそれぞれ比較し、ある文字種のあるクラスと
X方向およびY方向の特徴ベクトルが一致すると、その
文字種のコードを分類結果として出力する。
今、第2図の文字” E”の・ぐターンが入力され、第
3図に示しだ特徴ベクトルがレジスタ22X。
22Yに得られたとする。そして、特徴辞書メモリ26
から第8図に示すX方向特徴ベクトルを持つ文字“E”
のクラスのX方向、Y方向特徴ベクトルが読み出された
とする。比較回路24においては、抽出X方向特徴ベク
トル(第3図)と登録X方向特徴ベクトル(第8図)と
が、先ず先頭の成分から比較される。先頭成分同士は一
致するので、2番目の成分同士が比較される。これも一
致するので、3番目の成分同士が比較される。これは一
致しないが、登録X方向特徴ベクトル(第8図)の2番
目から最終の成分に至るバイi’?ス(、)が指定され
ている。そこで比較回路24は、登録X(13) 方向特徴ベクトルの最終成分と抽出X方向特徴ベクトル
の3番目(最終)の成分とを比較する。この比較は一致
するので、比較回路24はX方向特徴ベクトル同士の一
致がとれたと判定する。
Y方向特徴ベクトルについても同様の比較が行なわれる
。そして、X方向およびY方向の特徴ベクトルが共に一
致すれば、その文字種(ここでは文字パE″)のコード
が比較回路24より出力される。
同様にして、第4図および第6図に示す変形した文字・
ぐターンも文字“E nと分類されることは明らかであ
る。
なお、以上の説明では、個々の文字種に分類しだが、複
数の文字種を含む分類クラスに粗く大分類することも可
能である′ことは明らかである。この場合、複数の文字
種を含む分類クラス毎に前述したように統合化した特徴
ベクトルを作成し登録すればよい。また前記実施例では
文字パターンの黒ラン数の変化i+ターンを抽出したが
、白ラン数の変化・ぞターンを抽出することも可能であ
る0(14) 以上に詳述したように、本発明によれば文字・ぞターン
のサイズや縦横比に影響されない安定した特徴を、正規
化処理等を含まない簡単な処理によって容易に抽出する
ことができる。また本発明によれば、特徴辞書を大規模
化することなく、手書き文字などの変形の激しい文字・
ぐターンについても、精度良く分類することができる。
このように、本発明は多くの利点を有するもので、文字
認識装置等に適用すると多くの効果が得られる。
【図面の簡単な説明】
第1図は本発明により文字・ぐター矛の特徴抽:出およ
び分類を実行する装置の一例を示すブロック図、第2図
、第4図および第6図は特徴抽出処理を説明するだめの
文字パターンを示す図、第3図、第5図および第7図は
それぞれ第2図、第4図および第6図の文字・ぐターン
から抽出される特徴ベクトルの説明図、第8図は特徴辞
書に登録される特徴ベクトルの説明図である。 10・・・文字・ぞターンメモリ、12・・・読出回路
、14X、14Y・・・白黒変化検出器、16X、16
Y・・・黒ランカウンタ、18X、18Y、22X。 22Y・・・レジスタ、20X、20Y・・・差分検出
器、24・・・比較回路、26・・・特徴辞書メモリ。 第2図 第3図 第5図

Claims (2)

    【特許請求の範囲】
  1. (1)  白黒2値の文字・ぐターンを横方向および縦
    方向にそれぞれラスク走査し、黒ランまたは白ランの数
    (ラン数)が直前の走査ラインに対し変化する走査ライ
    ン(変化ライン)を検出し、変化ラインを検出するたび
    にその変化ライン上のラン数を順次記憶することにより
    、当該文字パターンの横方向および縦方向のそれぞれに
    ついてのラン数の変化・七ターンを得、この2組のラン
    数の変化ノ4’ターンを当該文字パターンの特徴として
    抽出することを特徴とする文字・ぐターンの特徴抽出法
  2. (2)  白黒2値の文字・やターンを横方向および縦
    方向にそれぞれラスク走査し、黒ランまたは白ランの数
    (ラン数)が直前の走査ラインに対し変化する走査ライ
    ン(変化ライン)を検出し、変化ラインを検出するたび
    にその変化ライン上のラン数を順次記憶することにより
    、当該文字・ぐターンの横方向および縦方向のそれぞれ
    についてのラン数の変化ノ4ターンを抽出し、この抽出
    した2組のラン数置化ノ4ターンと、文字の分類クラス
    毎に予め用意されているラン数変化・ぞターンとを比較
    することにより、当該文字パターンとラン数変化パター
    ンの一致する特定の分類クラスを識別することを特徴と
    する文字・母ターンの分類法。
JP57066061A 1982-04-20 1982-04-20 文字パタ−ンの特徴抽出法および分類法 Pending JPS58182791A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57066061A JPS58182791A (ja) 1982-04-20 1982-04-20 文字パタ−ンの特徴抽出法および分類法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57066061A JPS58182791A (ja) 1982-04-20 1982-04-20 文字パタ−ンの特徴抽出法および分類法

Publications (1)

Publication Number Publication Date
JPS58182791A true JPS58182791A (ja) 1983-10-25

Family

ID=13304964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57066061A Pending JPS58182791A (ja) 1982-04-20 1982-04-20 文字パタ−ンの特徴抽出法および分類法

Country Status (1)

Country Link
JP (1) JPS58182791A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63208181A (ja) * 1987-02-25 1988-08-29 Canon Inc パターン認識方法及び情報処理装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5161736A (en) * 1974-11-27 1976-05-28 Tokyo Keiki Kk Mojininshikihoho

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5161736A (en) * 1974-11-27 1976-05-28 Tokyo Keiki Kk Mojininshikihoho

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63208181A (ja) * 1987-02-25 1988-08-29 Canon Inc パターン認識方法及び情報処理装置

Similar Documents

Publication Publication Date Title
EP0163377B1 (en) Pattern recognition system
EP1357508B1 (en) Layout analysis
JPH0196771A (ja) 円弧部認識方法
US5050224A (en) Character recognition apparatus
US4769849A (en) Method and apparatus for separating overlapping patterns
US5119441A (en) Optical character recognition apparatus and method using masks operation
US5596657A (en) Method of sorting out candidate characters in character recognition system
JPS58182791A (ja) 文字パタ−ンの特徴抽出法および分類法
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JPS58189783A (ja) パタ−ン判別装置
US4607387A (en) Pattern check device
JP2008186399A (ja) 文字認識装置
JPH06180771A (ja) 英文字認識装置
JP3074691B2 (ja) 文字認識装置
JP3186712B2 (ja) 文書読取装置
JPH06187450A (ja) パターン認識方法と認識装置
JPH07109612B2 (ja) 画像処理方法
JPH01201788A (ja) 文字読取方法
JPS63674A (ja) パタ−ン検査方法
KR940011699B1 (ko) 2진 영상의 윤곽선 추출방법
JPH05128309A (ja) 文字認識におけるエツジ検出方法
JPS603676B2 (ja) 交差点抽出方式
CN117116409A (zh) 基于深度学习和自动纠错的化验报告单结构化识别方法
JP2929710B2 (ja) 文字読み取り方法
JP2578768B2 (ja) 画像処理方法