JPH0289193A - パターン変換方式 - Google Patents

パターン変換方式

Info

Publication number
JPH0289193A
JPH0289193A JP63240212A JP24021288A JPH0289193A JP H0289193 A JPH0289193 A JP H0289193A JP 63240212 A JP63240212 A JP 63240212A JP 24021288 A JP24021288 A JP 24021288A JP H0289193 A JPH0289193 A JP H0289193A
Authority
JP
Japan
Prior art keywords
size
character
image
binary
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63240212A
Other languages
English (en)
Inventor
Atsushi Shimoyama
霜山 篤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63240212A priority Critical patent/JPH0289193A/ja
Publication of JPH0289193A publication Critical patent/JPH0289193A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、パターン認識装置に入力されたノイターンの
2値化情報を変換するパターン変換方式番こ関する。
3、発明の詳細な説明 (従来の技術) 従来から、文字認識装置に於いて、文字を認識する為に
、スキャナー等で、読み取られた文字の大きさを正規化
することが、−iに行われている。
正規化とは、ある文字の外接四辺形の大きさが所定の大
きさより大きい時に、又は、前記文字の外接四辺形が小
さい時に、前記文字が含まれる外接四辺形の大きさを所
定の大きさに変更することを言う。
第6図と、第7図は、文字の2値化情報の変換の過程を
示す図である。
以下、図面に従って、従来例を説明する。
先ず、第6図と、第7図を使用して、文字読み取りから
認識迄の処理を説明する。
最初に、スキャナーから紙に書かれた文字の1ペ一ジ分
の情報が2値化され、イメージメモリに記憶される(以
下、2値化された情報をイメージと呼ぶことがある)。
その後、文字位置検出プログラムが起動し、前記2値化
された文字の外接四辺形を求める。第6図(a)は、前
記2値化されたイメージである。用紙の左上の隅を(0
,0)とし、前記外接四辺形の左上の隅の座標を(x、
y)前記外接四辺形の横縦の長さをそれぞれ、w、  
hとし、1文字毎の(x、y、w、b)を文字位置メモ
リに記憶する。
次いで、前記イメージを、左右上下に、2値情報が、そ
れぞれ、48個並ぶ領域に正規化する。
48X4 Bの領域の2値化情報で文字が表される(こ
の、2値化された情報の領域の大きさをイメージサイズ
と呼ぶ)、以下、正規化の処理を、第7図(a)、 (
b)、 (C)を使って、詳しく説明する。
この処理は、イメージメモリと文字位置メモリのメモリ
から1文字分の2値イメージを読み出し、左右の長さW
が、48以上の時は、左右の1走査線上の、前記2値化
された文字領域(外接四辺形)の2値化情報を、幾つか
ごとに間引き、48個の2値化情報にする。つまり、第
7図(a)の2値イメージの左右幅が、96あるとする
と、前記96の2値イメージを、1つ置きに減らし、左
右幅を48にする。最初は、左右の幅を48に変換して
、前記イメージを正規化−時イメージ(第7図(b))
に格納する。その後、正規化−時イメージメモリに格納
された2値イメージ(第7図う))を上下の走査線につ
いても大きさを変換する。上下幅が96あるとすると、
前記左右の場合と同様1つ置きに間引いて行く。そして
、変換後の情報を正規化イメージメモリ(第7図(C)
)に格納する。また、前記文字の左右幅Wが、48以下
の時は、前記W個の中の、幾つかの2値化情報を追加し
て、左右幅を48にする。上下幅についても同様である
。つまり、前記正規化前の文字領域の大きさが、所定の
大きさでない時は、前記正規化前の走査線上の2値情報
の内、幾つかの2値情報を、幾つか毎に減らすか、若し
くは、増やすかして、文字領域を所定の大きさに変換す
る。
その後、特徴抽出プログラムが起動し、正規化イメージ
メモリに記憶された1文字分の2値化イメージを、左右
、縦横等に走査して、特徴を抽出し、特徴抽出メモリに
記憶される。
前記特徴抽出メモリのデータを、照合ハードウェアによ
り、辞書と比較し、相違点の最も少ないものから順に、
答の出力用メモリに格納する。
その後、入力された文字が複数字であれば、同様の処理
を行う。全ての文字について処理が終われば、処理は終
了する。第6図の)は、変換前と変換後の文字を示す図
である。左が変換前の文字、右が変換後の文字である。
大きい文字6I、複雑な文字62、小さい文字63に関
係なく、どの文字も一定の大きさに変換される。
〔発明が解決しようする課題] さて、文字を認識するためには、文字を正規化した後に
、正規化イメージを左右、上下に走査して、前記文字の
特徴を抽出する。その後、前記抽出された特徴を辞書と
照合して、文字を認識する。
前記特徴抽出処理は、前記正規化イメージの1走査線上
に、白(0)の部分が、どの位置にどれだけ存在し、ま
た、どれだけ連続しで続くかを抽出するものである。ま
た特徴抽出処理は、左右上下の走査線にそって、2方向
からおこなわれる。従って、文字認識処理に於いて、前
記処理が占める時間の割合は、非常に高く、時間の短縮
がかねてから求められていた。
前記処理は、文字の2値化イメージのサイズによって速
度が変わる。従って、正規化イメージを小さくすれば、
特徴抽出の時間は、削減できるが、文字によっては、正
規化イメージを小さくすることによって、特徴が失われ
てしまうことがある。
即ち、画数が少ない文字、例えば、r±j等は、正規化
イメージが小さくても、前記文字の特徴は抽出できるが
、画数が多い文字「冨」、「通」等は、正規化イメージ
を小さくすると、正規化処理の過程で、減らされる2値
化情報の内、文字の特徴を構成するものまで、減らされ
、前記文字の特徴が失われてしまい、認識が困難となる
従って、本発明は、前記課題を悉く解決し、/%−ドウ
エアを増加することなしに、文字の面積を小さ(して、
特徴抽出の時間を短縮する方式を提供するものである。
前記2値化されたパターン情報の外接四辺形内の領域を
所定の方向に走査し、その走査線上の2値化情報の2値
の変化点を求め、前記変化点の数を求める手段と、前記
変化点の数によって、前記パターンが変換される大きさ
を決定する手段と、前記大きさを決定する手段によって
決定された大きさに、前記パターンの2値化情報を変換
する手段を設ける構成とする。
〔作用〕
外接四辺形の一走査線上の2値化されたパターン情報の
2値の変化点を求め、前記変化点の位置と、前記変化点
の数を求める手段により、前記数を求める。正規化の大
きさは、定められた一つの大きさでは無く、前記数によ
り、変換後の大きさを決定する。その後、前記手段によ
って決定された大きさに合わせて、パターンの2値化情
報を変換する。
〔課題を解決する為の手段] 〔実施例〕
第1図は、本発明の一実施例のブロック図、第2図及び
第3図は、実施例動作時におけるフローチャート図、第
4図及び第5図は実施例文字処理時における説明図であ
る。
以下、図面に従って、実施例を説明する。
()内の番号は、フローチャート内の処理番号に対応す
る。
先ず、第1図と、第2図と第4図を使用して、文字読み
取りから、認識迄の処理を説明する。
最初に、スキャナー2から紙に書かれた文字の1ペ一ジ
分の情報が2値化され、イメージメモリ3に記憶される
(第2図、22)。
その後、文字位置検出プログラム4が起動し、前記2値
化された文字の外接四辺形を求める。第4図(a)は、
前記2値化されたイメージである。用紙の左上の隅を(
0,0)とし、前記外接四辺形の左上の隅の座標を、x
、y、前記外接四辺形の横縦の長さをそれぞれ、w、 
 hとし、−文字毎の(x、y、w、h)を文字位置メ
モリ5に記憶する(第2図、23)、以上の処理は、従
来と同様である。
次いで、文字の正規化(第2図、24)を行う。
この処理は、イメージメモリ2と文字位置検出メモリ5
を利用して、正規化を行い、正規化イメージメモリll
に記憶する。(文字の正規化については、後行説明する
。) その後、特徴抽出プログラム12が起動し、正規化イメ
ージメモリに記憶された、1文字分の2値化イメージを
、左右、縦横等に走査して、特徴を抽出し、特徴メモリ
13に記憶される。
次いで、前記特徴メモリ13内のデータの、補正を行う
(第2図、26)。この補正についても、後はど説明す
る。その後前記補正されたデータを、照合ハードウェア
15により、辞書と比較しく27)、相違点の最も少な
いものから順に、答の出力用メモリ14に格納する(2
8)。
そして、全ての文字について、処理が終了したら、答え
の出力用メモリ14に格納された記憶をホストインター
フェース制御部17に入力する(201)。
入力された用紙が複数枚であれば、同様の処理を行う。
全ての用紙について、処理が終われば、処理は終了する
以上、文字認識の処理の流れを説明した。
以下、文字の正規化と特@量の補正について、説明する
。第3図は、前記文字の正規化のフローチャートである
。第4図及び第5図は、正規化処理を説明する図面であ
る。
まず、イメージメモリ2と文字位置メモリ5のメモリか
ら1文字分の2値イメージを読み出す。
前記2値イメージは、第4図(a)だとする。
その後、エツジアドレステーブル作成プログラム6が起
動し、前記文字の2値イメージの左右を走査して、白(
0)から黒(1)、黒(1)から白(0)の変化点の位
置を求める(前記変化点の位置をエツジ点と呼ぶ)、2
値化情報は、白を“°0”で、黒を”1”で表している
。第4図(b)では、2値イメージの一番上の左右の走
査で、前記エツジ点がaとbの位置だったとする。前記
情報は、エツジアドレステーブルメモリ7に記憶される
。前記エツジアドレステーブルメモリ7は、第4図(ロ
)の様に記憶されていて、上から6番目の走査線のエツ
ジ点は、m、n、p、qで、エツジ数は4である(32
)。
その後前記2値化イメージの左右の走査が、全て行われ
、エツジアドレステーブルメモリ7にエツジ点を格納す
る(33)。
次いで、少なくとも同じエツジ数を有する走査線が3本
存在するエツジ数の内、最大のエツジ数をkとする(3
4)。何故、少なくとも3本かと言うと、前記イメージ
メモリの2値化情報を、紙面からスキャナーを通して読
み取った際に、細かい埃等が付いているかも知れないか
らである。細かい埃が付いていると、エツジ数は、2増
えることになる。従って、単純に、最大の走査線の数を
kとせず、少なくとも同じエツジ数を有する走査線が3
本存在するエツジ数の内、最大のエツジ数をkとする。
前記にの値が8以上ならば、正規化後の左右の幅を48
にする(36)、また前記にの値が8より小さければ左
右の幅を36とする(37)。つまり、エツジ点が多い
と言うことは、文字が複雑と言うことであるから、幅を
48にする。また、エツジ点が少ない場合は、幅を36
にする。前記決定された左右の幅36又は48を八、と
する。
前記A1の値が2値価された文字イメージの外接四辺形
の左右幅Wよりも、小さいときに(38)、イメージ作
成プログラム10が起動し、エツジアドレステーブルメ
モリのデータと、入力のイメージサイズW、出力(正規
化後のイメージサイズ)サイズA、より、各々の変換後
のエツジ点を、次の様に求める。
各エツジ点をdとすると、変換後のエツジ点fは、f=
dX^1÷Wで求められる。前記fの値は、四捨五入、
切り上げ等で整数値で求められる。
尚、この時の計算で、計算値が前のエツジの値と同じに
なる場合、即ち線が近接している2値化イメージの場合
は、■走査を削除するように、エツジデータの黒から白
の変化点と、次の白から黒の変化点を削除する。この方
式は、特開昭58−112166  画素密度変換方式
で公知であるから、詳しい説明は省略する。
前記変換されたエツジ点間を、変換前のエツジ点の前後
の2値情報から、黒づめするか、白づめするかを決定し
て、イメージを生成し、結果のイメージを正規化−時メ
モリ9に格納する(39)。
その後、上下の走査線についても同様の処理を行う。以
下、説明する。前記正規化−時メモリ9を上下に走査し
、上下のエツジアドレステーブル7をテーブル作成プロ
グラム6により左右の場合と同様に作成し格納する(3
01)。
左右の走査線の変換処理同様、少なくとも同じエツジ数
を有する走査線が3本存在するエツジ数の内、最大のエ
ツジ数をkとする(303)前記にの値が8以上ならば
、正規化後の左右の幅を48にする(305)、また前
記にの値が8より小さければ左右の幅を36とする(3
06)。
前記決定された左右の幅をA2とする。
前記A2の値が2値化された文字イメージの外接四辺形
の上下幅りよりも、小さいときは、前記幅hをA2に変
更する。その後、イメージ作成プログラム10が起動し
、エツジアドレステーブルメモリのデータと、入力のイ
メージサイズh、出力(正規化後のイメージサイズ)サ
イズ八、より、各々のエツジアドレスを、次の様に求め
る。
各エツジのアドレスをdとすると、出力アドレスrは、
f=dxAz+hで求め、左右の走査線の変換の時と同
様の処理を行い、前記変換された結果は、正規化イメー
ジメモリ11に格納される(308)。以上の処理で、
文字の正規化は終了する(304)。また、処理38と
処理307で、変換前の横縦幅のサイズ、w、hとA、
、 Atの比較を行ったが、これは、w、hがそれぞれ
、前記変換サイズA、、 A、よりも小さい場合は、エ
ツジ点の変換を行わないで正規化サイズA、、 A!に
格納するためである。これは、正規化サイズが、実際の
文字よりも、大きい場合は、前記変換式(f=dX^t
+W、f=dXA、−’−,h)で、変換すると、文字
を拡大することになるからである。小さな文字を拡大し
ても、文字の特徴は変わらないので、この場合は変換し
ない。上記の様に、変換しない場合は、文字を正規化サ
イズAr、 Atの’671 Mに左づめする。
この結果、文字の2値価イメージの大きさは、縦横48
X4B、48X36,36X4B、36×36の何れか
になる。つまり、この正規化は、エツジ点が少ない場合
は、36のサイズにし、エツジ点が多い場合は48にし
ている。エツジ点が多いというのは、文字が複雑な場合
で、前記の場合は、正規化後の幅を、大きいほうの48
にする。
エツジ点が少ない場合、つまり、文字が単純な場合は、
正規化の幅を、小さいほうの36にする。
第5図は、正規化される前の文字の大きさと、正規化後
の文字の大きさを説明するための図面である。左から、
正規化前のイメージ、正規化−時イメージ、正規化イメ
ージの順である。第5図に示す様に、単純な文字52.
54は、縦横36×36の2値化イメージに変換され、
複雑な文字53は、48X48の2値化イメージに変換
される。
また、イメージメモリ入力時から、小さい文字52は、
36X36の領域に変換される。上下方向のみ複雑な文
字は、縦横48x36の2値化イメージに変換される。
以上、正規化について説明した。以下、特徴の読み出し
について、説明する。
前記正規化イメージメモリ11に格納された文字を上下
左右に走査して、前記文字の特徴を抽出する。前記左右
上下の特徴は、前記正規化されたイメージの左右上下そ
れぞれの1走査線の2値情報の中で、白の部分がどの位
置にどれだけあるかを抽出する。この処理時間は、正規
化イメージの面積に比例する。よって、幅が36の、正
規化イメージの前記処理は、当然、幅48のものよりも
早い。
その後、前記正規化イメージの大きさの縦横何れかの大
きさが、36であれば、前記特徴量を補正する。よって
前記特徴量は、4 B/36倍される。つまり、その後
前記特徴を照合ハードウェア15で、辞書メモリ16内
の情報と比較するのであるが、前記辞書メモリ16内の
情報は、正規化イメージメモリが縦横48X48の大き
さの場合の特徴が、入っているからである。以上、実施
例によれば、正規化イメージサイズの幅を2通り用意し
、文字が複雑かどうかをエツジ数で判断し、前記判断に
より、変換後の幅を選択することによって、特徴抽出処
理の速度を高めることできる。
以上、本発明の実施例について詳しく説明した。
実施例では、前記正規化の幅を2通り用意したが、3通
りでも、4通りでも一向に構わない。
本発明は、本発明の要旨に従い、種々の変形が可能で有
り、本発明はそれらを排除するものではない。
〔効果〕
本発明によれば、特徴抽出処理を、ハードウェアの増加
すること無しに、容易に行える。
【図面の簡単な説明】
第1図は、本発明の一実施例のブロック図、第2図及び
第3図は、実施例動作時におけるフローチャート図、第
4図及び第5図は実施例文字処理時における良明図であ
る。第6図は、第7図は、従来の文字の2値化情報の変
換の過程を示す図である。 l・・・中央処理装置 2・・・スキャナー 3・・・イメージメモリ 4・・・文字位置検出プログラム 5・・・文字位置メモリ 6・・・エツジアドレステーブル作成プログラム7・・
・エツジアドレステーブルメモリ8・・・正規化サイズ
判定プログラム 9・・・正規化−時イメージメモリ 10・・・イメージ作成プログラム 11・・・正規化イメージメモリ 12・・・特徴抽出プログラムメモリ 13・・・特徴メモリ 14・・・答えの出力用メモリ 15・・・照合ハードウェア 16・・・辞書メモリ 17・ 18・ ・・ホストインターフェース制御部 ・・基本プログラム 天万tイ’i”l、nプロ・・!り因 v−l  図 、:XN H 聾 \ Nl’n  略 噂 (ト 〜 ) )第6 田 tθノ 女芋尺理時113LFJPI口 東5図 従来tnZ樋化情報71棲j連4−訛明図をI:、図(
b) −1−I旨9奴森1硅 、J−1旨C−麺:蟹 、L1%q奴宿璧

Claims (1)

  1. 【特許請求の範囲】 パターンを2値化する手段を有するパターン認識装置に
    於いて、 前記2値化されたパターン情報の外接四辺形内の領域を
    所定の方向に走査し、その走査線上の2値化情報の2値
    の変化点を求め、前記変化点の数を求める手段(6)と
    、 前記変化点の数によって、前記パターンが変換される大
    きさを決定する手段(8)と、 前記大きさを決定する手段によって決定された大きさに
    、前記パターンの2値化情報を変換する手段(10)を
    有することを特徴とする文字変換方式。
JP63240212A 1988-09-26 1988-09-26 パターン変換方式 Pending JPH0289193A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63240212A JPH0289193A (ja) 1988-09-26 1988-09-26 パターン変換方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63240212A JPH0289193A (ja) 1988-09-26 1988-09-26 パターン変換方式

Publications (1)

Publication Number Publication Date
JPH0289193A true JPH0289193A (ja) 1990-03-29

Family

ID=17056121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63240212A Pending JPH0289193A (ja) 1988-09-26 1988-09-26 パターン変換方式

Country Status (1)

Country Link
JP (1) JPH0289193A (ja)

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US5452374A (en) Skew detection and correction of a document image representation
JP2930612B2 (ja) 画像形成装置
JP3878401B2 (ja) 画像処理装置、画像処理方法およびそれを記録した記録媒体
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
JP3883696B2 (ja) 多数の写真をスキャンしかつ検出するとともに人工エッジを除去するための方法
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JP3278471B2 (ja) 領域分割方法
JPH0418351B2 (ja)
JPH08317193A (ja) ディジタル化画像の縦横ラインを検知し修正する方法および装置
JP2871601B2 (ja) 文字列検出装置及び方法
JP3172498B2 (ja) イメージ認識用特徴値抽出方法、およびその装置、イメージ解析プログラムを格納する記憶媒体
JPH0289193A (ja) パターン変換方式
JP3046653B2 (ja) 文字原稿の傾き補正方法
JP2827227B2 (ja) 文字認識方法
JP2762476B2 (ja) 清書装置
JPH09128478A (ja) 画像処理装置
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP2755299B2 (ja) 画像処理方法
JP3046656B2 (ja) 文字原稿の傾き補正方法
JP3157534B2 (ja) 表認識方法
JP2954218B2 (ja) 画像処理方法及び装置
JP3355234B2 (ja) 画像2値化装置
JP2844618B2 (ja) 文字切り出し装置
JP2931041B2 (ja) 表内文字認識方法