JP3628000B2 - 画像認識方法 - Google Patents
画像認識方法 Download PDFInfo
- Publication number
- JP3628000B2 JP3628000B2 JP03589297A JP3589297A JP3628000B2 JP 3628000 B2 JP3628000 B2 JP 3628000B2 JP 03589297 A JP03589297 A JP 03589297A JP 3589297 A JP3589297 A JP 3589297A JP 3628000 B2 JP3628000 B2 JP 3628000B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- rectangle
- information
- identification object
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、カラー画像および白黒画像から特定画像を抽出して認識する画像認識方法に関する。
【0002】
【従来の技術】
カラー画像を処理する製品、例えばカラー複写機、カラープリンタ、カラースキャナ、カラー画像通信機器などは、今後ますます増加するものと予想される。カラー画像は、ハードウェアの進歩、特にメモリの低価格化および大容量化、通信コストの低下などにより、以前に比べて利用しやすくなってきたものの、カラー画像データはそのデータ量が膨大であるため、2値画像と同じような処理ができないのが現状である。
【0003】
特に、画像認識(特定画像の認識、OCRなど)などの複雑な処理を要する技術においては、処理量が膨大になり、カラー画像における画像認識は実現がより困難である。
【0004】
【発明が解決しようとする課題】
従来、特定のカラー画像を識別する方法として、例えば、画像を構成する各絵柄部分は固有の色空間上での分布を持っていることを利用し、各絵柄部分に現われる固有の色空間上での分布を特定し、この特定された特徴と同一の特徴を有する画像部分を抽出する方法がある(特開平4−180348号公報を参照)。しかし、この方法では、色空間中での拡がりが同じ画像については、その内部での色の分布が異なっていても識別することができず、つまり色空間の拡がりが同じであれば、拡がりの中での色の分布が異なる画像をも特定の画像として誤検出する可能性がある。
【0005】
これを解決する方法として、入力されたカラー画像信号を複数の領域に分割し、該分割された領域内のカラー画像から特徴量を抽出し、該抽出された特徴量を予め作成されたコードブックと比較することによりベクトル量子化し、前記カラー画像のベクトル量子化された値と識別対象物の辞書とを照合することにより、カラー画像を認識処理する方法を提案した(特開平7−311848号公報を参照)。この方法は、認識対象物が回転しているときの認識を考慮しているものの、認識の精度が若干低いという欠点がある。
【0006】
また、ある特定の対象物を認識させるとき、その対象物が回転している可能性があるので、それを想定して処理する必要がある。そして、認識対象物の種類によっては、対象物が回転しているとき認識されない場合がある。このような場合、認識対象物について、取り込みたいと想定している情報と、実際に取り込んだ情報が異なるために認識されない可能性が高い。
【0007】
本発明は上記した事情を考慮してなされたもので、
本発明の目的は、回転判定が容易なものと容易でないものを予め調査して辞書に設定することにより、識別対象物が回転しているときの認識の精度を向上させた画像認識方法を提供することにある。
【0008】
【課題を解決するための手段】
前記各目的を達成するために、請求項1記載の発明では、画像信号から識別対象物を抽出し、該識別対象物と複数の辞書内の矩形情報とを照合することにより前記識別対象物を認識処理する画像認識方法であって、前記各辞書毎に、回転判定が容易であることを示す第1の情報、または回転判定が容易でないことを示す第2の情報を格納し、前記辞書の照合時に前記第1の情報が格納されていた場合は、前記識別対象物の回転の有無を判定し、回転の有無に応じて、前記識別対象物の異なる矩形情報と辞書内の矩形情報とを照合し、前記辞書の照合時に前記第2の情報が格納されていた場合は、前記識別対象物の外接矩形情報と辞書内の矩形情報とを照合することを特徴としている。
【0009】
請求項2記載の発明では、前記識別対象物が回転していると判定されたとき、識別対象物の内接矩形情報と辞書内の矩形情報とを照合することを特徴としている。
【0010】
請求項3記載の発明では、前記識別対象物が回転していないと判定されたとき、識別対象物の外接矩形情報と辞書内の矩形情報とを照合することを特徴としている。
【0011】
請求項4記載の発明では、前記識別対象物が長方形であるとき、前記辞書に前記第1の情報を格納することを特徴としている。
【0012】
請求項5記載の発明では、前記識別対象物が長方形でないとき、前記辞書に前記第2の情報を格納することを特徴としている。
【0013】
請求項6記載の発明では、前記照合の結果、辞書と一致した識別対象物について、さらに識別対象物の有効小領域数を辞書と照合し、一致した識別対象物についてのみ詳細な認識処理を行うことを特徴としている。
【0014】
請求項7記載の発明では、前記識別対象物はカラー画像または白黒画像であることを特徴としている。
【0015】
【発明の実施の形態】
以下、本発明の一実施例を図面を用いて具体的に説明する。
図1は、本発明の実施例の構成を示す。本実施例は、識別対象物のRGBデータから矩形座標を作成する矩形抽出部1と、識別対象物のRGBデータからベクトル量子化値を作成するベクトル量子化部2と、辞書用原稿データから矩形を抽出する矩形抽出部3と、辞書用原稿データと矩形座標を基に辞書を作成する辞書作成部4と、複数の辞書5と、識別対象物のデータと辞書データとを照合し評価結果を出力する辞書照合部6から構成されている。
【0016】
本発明の辞書は、識別対象物毎に複数個設けられている。すなわち、識別対象となる第1の矩形について、その辞書名、回転判定が容易であるか、または容易でないかのフラグ(例えば、第1の矩形の回転判定が容易である場合には、容易であることを示すフラグがセットされる)、第1の矩形の長辺の上下限、逆背景の場合の長辺の上下限などの情報が第1の辞書に格納されている。第2、第3...の矩形についても同様にして各種の情報が各辞書に格納されている。
【0017】
また、ベクトル量子化部2は、前掲した特開平7−311848号公報と同様に機能する。すなわち、入力されたカラー画像を小領域に分割し、小領域内のカラー画像データから特徴量を抽出し、抽出された特徴量と予め作成してあるコードブックとを比較することによりベクトル量子化を行う。辞書照合部6は、入力画像のベクトル量子化値のヒストグラムを作成し、辞書内のベクトル量子化値のヒストグラムとマッチングして、認識処理する。
【0018】
図2は、本発明の処理フローチャートである。抽出された識別対象矩形は辞書の情報と照合され、候補を選別し、選別された識別対象矩形に対してのみ評価値の計算を行う。
【0019】
以下、図2を参照して本発明の処理動作を説明する。矩形抽出部1は、入力カラー画像から識別対象矩形を抽出し(ステップ101)、その矩形座標を辞書照合部6に与える。辞書照合部6は、全ての辞書5から、最大の対角線と最小の短辺を検索し抽出する(ステップ102)。抽出された識別対象矩形について、外接矩形の長辺と短辺の長さを計算し、長辺が辞書内の最大の対角線以下であり、またその短辺が辞書内の最小の短辺を超えるものを選別し(ステップ103)、以下の処理を行う。
【0020】
辞書照合部6は、ステップ103で選別した識別対象矩形について、その内接矩形、外接矩形の長辺、短辺を計算する。また、ベクトル量子化値を基に、内接矩形内、外接矩形内のベクトル量子化値ヒストグラムを作成する。さらに、内接矩形内、外接矩形内の有効小領域数を計算する。また、これらの座標情報を基に識別対象矩形が回転しているか否かの判定を行う(ステップ104)。ここで、小領域とは、識別対象物のカラー画像信号を一定の大きさの複数の小領域に分割した領域であり、有効小領域数とは、この小領域の総数から一定の条件に合致した小領域(例えば、マッチングに有効でない「べた領域」、何も印刷されていない領域など)を減算した数である。
【0021】
上記したように選別された識別対象矩形は、全ての辞書5と照合される。このとき、照合した辞書に、「回転の判定が容易である」とフラグがセットされている場合で(ステップ105)、識別対象矩形が回転していないと判定されている場合は(ステップ106)、外接矩形座標と辞書の矩形情報を照合し(ステップ107)、一致したとき外接矩形で計算した小領域数と辞書の小領域数の照合を行う(ステップ108)。ステップ107、108で一致しないとき、ステップ105に戻り、次の辞書との照合を行う。ここで、外接矩形との照合は、外接矩形の長辺、短辺を、辞書のそれらと比較する。
【0022】
次に、照合した辞書に、「回転の判定が容易である」とフラグがセットされている場合で(ステップ105)、識別対象矩形が回転していると判定されている場合は(ステップ106)、内接矩形座標と辞書の矩形情報を照合し(ステップ109)、一致したとき内接矩形で計算した小領域数と辞書の小領域数の照合を行う(ステップ110)。ステップ109、110で一致しないとき、ステップ105に戻り、次の辞書との照合を行う。ここで、内接矩形との照合は、内接矩形の長辺、短辺を、辞書のそれらと比較する。
【0023】
また、照合した辞書に、「回転判定が容易でない」とフラグがセットされていた場合には(ステップ105)、識別対象矩形が回転しているか否かに係らず、外接矩形座標と辞書の矩形情報を照合し(ステップ111)、一致したとき外接矩形で計算した小領域数と辞書の小領域数の照合を行う(ステップ112)。ステップ111、112で一致しないとき、ステップ105に戻り、次の辞書との照合を行う。ここで外接矩形との照合は、外接矩形の長辺、短辺と、辞書の対角線、短辺との比較判定を行う。
【0024】
これらの照合の結果、辞書と一致した対象矩形のみ、辞書のベクトル量子化値ヒストグラムとの比較、つまり、評価値の計算を行う(ステップ113)。そして、評価値と所定の閾値とを比較し(ステップ114)、評価値が閾値未満であるとき、識別対象物であると認識する。評価値が閾値以上のときは、次の辞書との照合を行う。入力画像から複数の矩形が抽出された場合には、ステップ102で検索されたすべての矩形について、ステップ103以下の処理を行う。
【0025】
図3は、矩形座標の辞書照合方法を説明する図である。すなわち、回転判定が容易なものの場合、識別対象矩形の回転判定の結果、回転なしとなったとき(a)、識別対象矩形の外接矩形の短辺、長辺、小領域数およびベクトル量子化値ヒストグラムを辞書のそれと比較する。回転判定の結果、回転ありとなった場合は(b)、識別対象矩形の内接矩形の短辺、長辺、小領域数およびベクトル量子化値ヒストグラムを辞書のそれと比較する。
【0026】
また、回転判定が容易でないものの場合は、回転しているか否かに係らず外接矩形を比較の対象とする。外接矩形の短辺、長辺と辞書内の短辺、対角線とを比較し、小領域数およびベクトル量子化値ヒストグラムを辞書のそれと比較する。
【0027】
また、上記した比較において、辞書の短辺、長辺、対角線、小領域数は、辞書の各値を一定のパーセンテージで計算した上限値と下限値を設定していて、認識対象矩形の短辺、長辺、対角線、小領域数がこれの範囲内であるか否かで判定している。パーセンテージは、例えば上限値は+20%、下限値は−20%などの値をとる。また、認識対象矩形が変倍している場合は変倍率で割った値を用いる。比較の際、より正確に認識させるために、背景が逆の辞書とも同様に比較を行う。
【0028】
図4は、識別対象矩形の回転判定を説明する図である。本発明では、認識対象物が長方形であることを利用して回転判定を行い、長方形の対象物の認識精度を向上させることを目的とする。長方形でないものは“回転なし”と判定されるが、条件によっては回転していないにも係らず、回転していると判定される場合もある。
【0029】
図4に示すように、黒連結成分(図中の内接矩形)の外接矩形ACEG、本来の黒連結成分矩形BDFHの2つが得られる。識別対象矩形が変倍されている場合は、変倍される前の元の座標値に戻す。そして、2つの矩形ACEGとBDFHの座標情報から矩形が回転しているか否かを判定する。
【0030】
具体的に矩形の回転判定は次のように行う。
(イ)直角三角形aとb、直角三角形cとdの2組の三角形が合同である。
(ロ)合同と判定された対応する三角形の辺の長さの差の最小値が所定の閾値以下である。
(ハ)2つの対角線BFとDHの長さの差が所定の閾値以下である。
以上の条件を全て満たす場合に、「矩形が回転している」と判定する。
【0031】
まず、図4に示したような直角三角形aとbおよびcとdの合同を判定する。aとbの場合を例にとると、これらの三角形は直角三角形であるから、直角を挾む2辺の長さを比較すればよい。つまり、辺ABとEF、辺AHとDEがそれぞれ対応する辺になる。
【0032】
辺ABとEFで、
辺AB=α、辺EF=βとし、(1)式の条件で判定を行う。
α>βのとき、|α−β|≦β/4
α≦βのとき、|α−β|≦α/4 (1)
同様に、辺AHとDEについても、
辺AH=α、辺DE=βとし、(1)式の条件で判定を行う。
【0033】
辺ABとEF、辺AHとDEについて、その両方が(1)式の条件を満たしたとき、直角三角形aとbは合同であると判定する(判定結果1)。
【0034】
同様に、直角三角形cとdについても合同の判定を行い、その両方が(1)式の条件を満たしたとき、直角三角形cとdは合同であると判定する(判定結果2)。
【0035】
上記で合同判定された場合、AB、EF、AH、DE、BC、FG、CD、GHの8辺について、その最小値を求め、これが所定の閾値(例えば8画素)より大きいことを判定する(判定結果3)。
【0036】
2つの対角線BFとDHをそれぞれ
辺BF=γ、辺DH=δとし、(2)式に示す条件で判定を行う(判定結果4)。
γ>δのとき、|γ−δ|≦δ/8
γ≦δのとき、|γ−δ|≦γ/8 (2)
上記した判定結果1〜4の全てを満たしたとき、矩形が回転していると判定する。
【0037】
図4では、識別対象矩形が長方形である場合を説明した。この例のように識別対象矩形が長方形の場合では、回転判定を容易に行うことができる。従って、長方形の対象物を識別したい場合には、辞書の回転判定が容易であるか否かを示すフラグには“容易である”と設定する。
【0038】
図5は、識別対象矩形が長方形でない(多角形)場合の例を示す。図6は、長方形でない識別対象矩形が回転している場合の外接矩形と内接矩形を示す。この対象矩形の内接矩形/外接矩形から、前述した回転判定を行うと、図7に示すように、対象となる三角形aとb、三角形cとdは合同ではなく、“回転なし”と判定される。本来は、“回転あり”と判定すべきであるが、その判定を行うのは難しい。そこで、このような対象物を識別したい場合は、辞書の回転判定が容易であるか否かを示すフラグには“容易でない”と設定する。
【0039】
従って、本発明の辞書が、例えば第1の矩形情報を格納した第1の辞書と、第2の矩形情報を格納した第2の辞書と、第3の矩形情報を格納した第3の辞書とから構成されていて、第1、第3の矩形について回転の判定が容易であるときは第1、第3の辞書に“容易である”フラグを設定し、第2の矩形について回転の判定が容易でないときは第2の辞書に“容易でない”フラグを設定することになる。
【0040】
なお、本発明は上記したものに限定されず、ソフトウェアによっても実現することができる。本発明をソフトウェアによって実現する場合には、図8に示すように、CPU、ROM、RAM、表示装置、ハードディスク、キーボード、CD−ROMドライブ、モデムなどからなる汎用の処理装置を用意し、CD−ROMなどのコンピュータ記憶媒体には、本発明の画像認識機能を実現するプログラムが記憶されている。また、識別対象物はスキャナ、ファックスなどを用いて画像を取り込む。
【0041】
【発明の効果】
以上、説明したように、本発明によれば、入力された原稿の画像信号から特定の対象物を抽出して認識処理を行う際に、辞書内に格納された回転判定が容易であるか否かを示す情報を参照しているので、識別対象画像が回転していても誤認識を防止することができる。また、評価を行う識別対象矩形の数を減らすことも可能となる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の処理フローチャートである。
【図3】矩形座標の辞書照合方法を説明する図である。
【図4】識別対象矩形の回転判定方法を説明する図である。
【図5】識別対象矩形が長方形でない(多角形)場合の例を示す。
【図6】長方形でない識別対象矩形が回転している場合の外接矩形と内接矩形を示す。
【図7】長方形でない識別対象矩形の回転判定を説明する図である。
【図8】本発明をソフトウェアによって実現する場合の構成例を示す。
【符号の説明】
1、3 矩形抽出部
2 ベクトル量子化部
4 辞書作成部
5 辞書
6 辞書照合部
Claims (7)
- 画像信号から識別対象物を抽出し、該識別対象物と複数の辞書内の矩形情報とを照合することにより前記識別対象物を認識処理する画像認識方法であって、前記各辞書毎に、回転判定が容易であることを示す第1の情報、または回転判定が容易でないことを示す第2の情報を格納し、前記辞書の照合時に前記第1の情報が格納されていた場合は、前記識別対象物の回転の有無を判定し、回転の有無に応じて、前記識別対象物の異なる矩形情報と辞書内の矩形情報とを照合し、前記辞書の照合時に前記第2の情報が格納されていた場合は、前記識別対象物の外接矩形情報と辞書内の矩形情報とを照合することを特徴とする画像認識方法。
- 前記識別対象物が回転していると判定されたとき、識別対象物の内接矩形情報と辞書内の矩形情報とを照合することを特徴とする請求項1記載の画像認識方法。
- 前記識別対象物が回転していないと判定されたとき、識別対象物の外接矩形情報と辞書内の矩形情報とを照合することを特徴とする請求項1記載の画像認識方法。
- 前記識別対象物が長方形であるとき、前記辞書に前記第1の情報を格納することを特徴とする請求項1記載の画像認識方法。
- 前記識別対象物が長方形でないとき、前記辞書に前記第2の情報を格納することを特徴とする請求項1記載の画像認識方法。
- 前記照合の結果、辞書と一致した識別対象物について、さらに識別対象物の有効小領域数を辞書と照合し、一致した識別対象物についてのみ詳細な認識処理を行うことを特徴とする請求項1、2または3記載の画像認識方法。
- 前記識別対象物はカラー画像または白黒画像であることを特徴とする請求項1乃至6のいずれか1項に記載の画像認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03589297A JP3628000B2 (ja) | 1996-03-04 | 1997-02-20 | 画像認識方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8-46093 | 1996-03-04 | ||
JP4609396 | 1996-03-04 | ||
JP03589297A JP3628000B2 (ja) | 1996-03-04 | 1997-02-20 | 画像認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09297852A JPH09297852A (ja) | 1997-11-18 |
JP3628000B2 true JP3628000B2 (ja) | 2005-03-09 |
Family
ID=26374895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03589297A Expired - Fee Related JP3628000B2 (ja) | 1996-03-04 | 1997-02-20 | 画像認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3628000B2 (ja) |
-
1997
- 1997-02-20 JP JP03589297A patent/JP3628000B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09297852A (ja) | 1997-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4607633B2 (ja) | 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 | |
US5539841A (en) | Method for comparing image sections to determine similarity therebetween | |
EP0807297B1 (en) | Method and apparatus for separating foreground from background in images containing text | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
US5033104A (en) | Method for detecting character strings | |
US6014450A (en) | Method and apparatus for address block location | |
US6798906B1 (en) | Image processing apparatus and method including line segment data extraction | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
US7277584B2 (en) | Form recognition system, form recognition method, program and storage medium | |
US5835638A (en) | Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols | |
JP2000132690A (ja) | ト―クン化によるイメ―ジ分割を用いたイメ―ジ処理方法および装置 | |
EP0949580B1 (en) | Classification-driven thresholding of a normalized grayscale image | |
CN110210467B (zh) | 一种文本图像的公式定位方法、图像处理装置、存储介质 | |
EP0780782A2 (en) | Separation of touching characters in optical character recognition | |
JP2864735B2 (ja) | 物体識別方法および装置ならびに物体識別のための画像処理方法および装置 | |
CN115410191B (zh) | 文本图像识别方法、装置、设备和存储介质 | |
JP3628000B2 (ja) | 画像認識方法 | |
US7508986B2 (en) | Document recognition device, document recognition method and program, and storage medium | |
US20220189182A1 (en) | Reading system, reading device, and storage medium | |
Sherkat et al. | Use of colour for hand-filled form analysis and recognition | |
JP4409713B2 (ja) | 文書画像認識装置及び記録媒体 | |
JP3868637B2 (ja) | 文字認識装置および辞書作成方法および記録媒体 | |
US5754689A (en) | Image processing method and apparatus | |
JP3428504B2 (ja) | 文字認識装置 | |
JP2001291058A (ja) | 文字認識装置及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040831 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041206 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071217 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081217 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081217 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091217 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121217 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |