JP2004094644A - 画像処理装置、画像処理方法、記憶媒体及びプログラム - Google Patents

画像処理装置、画像処理方法、記憶媒体及びプログラム Download PDF

Info

Publication number
JP2004094644A
JP2004094644A JP2002255491A JP2002255491A JP2004094644A JP 2004094644 A JP2004094644 A JP 2004094644A JP 2002255491 A JP2002255491 A JP 2002255491A JP 2002255491 A JP2002255491 A JP 2002255491A JP 2004094644 A JP2004094644 A JP 2004094644A
Authority
JP
Japan
Prior art keywords
image
class
pattern
image data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002255491A
Other languages
English (en)
Inventor
Masakazu Yagi
八木 雅和
Sunao Shibata
柴田 直
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rohm Co Ltd
Original Assignee
Rohm Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rohm Co Ltd filed Critical Rohm Co Ltd
Priority to JP2002255491A priority Critical patent/JP2004094644A/ja
Priority to US10/647,356 priority patent/US20040197023A1/en
Priority to EP03019513A priority patent/EP1394726A3/en
Publication of JP2004094644A publication Critical patent/JP2004094644A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

【課題】類似する画像を画像処理した際には、類似した画像データとして認識することを可能とし、比較的複雑な画像でも正確に認識する。
【解決手段】入力画像内の所定の位置に対応して定義された領域の画像データが取り出され、この画像データをベクトル表記するベクトル生成部1と、所定のクラスに属する参照パターンを少なくとも1つ含むパターングループを複数有する記憶部2と、ベクトル化された画像データと各参照パターンとを照合し、各参照パターン毎についての画像データとの類似度を評価する類似度演算部3と、類似度の各評価値に所定の演算を施して少なくとも1つの評価値を決定するWTA回路4とを含み、決定された評価値に対応した参照パターンのクラスを特定し、当該参照パターンの評価値及び特定されたクラスを所定の位置に対応させる。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、画像処理方法、画像処理方法を言己憶した記憶媒体及び画像処理装置に関し、特に画像の特徴を抽出する画像処理に用いて好適なものである。
【0002】
【従来の技術】
CCDイメージセンサ等から認識した画像の情報を記録する方法として、例えば図37に示す方法がある。図37は漢字の「三」という文字を2次元のCCDイメージセンサによって光電変換し、CCDイメージセンサの上端から下端までのそれぞれの画素列毎の輝度情報を1列に並べて1次元データとして認識したものである。
【0003】
【発明が解決しようとする課題】
しかしながら、図37に示す方法で漢字の「三」を1次元データ化した場合、人間の眼には同じ「三」と認識される文字であっても、1次元化されたデータは図37(a)〜(c)に示す各場合において大きく異なる
【0004】
すなわち、図37に示す方法で漢字の・三・を1次元データ化すると、文字の位置が図37(b)のように上側へずれているだけで、図37(a)と全く異なるデータが認識されることになる。また、図37(c)に示すように線が曲がっているだけで、線が真っ直ぐな図37(a)に示す「三」と全く異なるデータが認識される。
【0005】
このように、公知の方法で画像を認識した場合、人間の眼には同じ画像として認識される画像であっても、画像の位置、画像の大きさ等の要因により、全く異なる画像データが認識されてしまう。
【0006】
本発明は、このような問題を解決するために成されたものであり、類似する画像を画像処理した際には、類似した画像データとして認識することを可能とし、比較的複雑な画像でも正確に認識することができる画像処理装置方法及び画像処理方法、プログラム及び記録媒体を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の画像処理装置は、入力画像の画像データを処理し、前記画像データに含まれる意味情報を抽出する画像処理装置であって、所定のクラスに属する参照パターンを少なくとも1つ含むパターングループを複数有する第1の手段と、前記入力画像内の所定の位置に対応して定義された領域の前記画像データを取り出し、前記画像データと前記各パターングループに含まれる前記各参照パターンとを照合し、前記各参照パターン毎についての前記画像データとの類似度を評価する第2の手段と、前記類似度の各評価値に所定の演算を施して少なくとも1つの前記評価値を決定するとともに、決定された前記評価値に対応した前記参照パターンの前記クラスを特定し、当該参照パターンの前記評価値及び特定された前記クラスを前記所定の位置に対応させる第3の手段とを含む。
【0008】
本発明の画像処理装置の一態様では、前記入力画像の複数の前記所定の位置毎に前記評価値及び前記クラスを特定し、各々を複数の前記所定の位置に対応させて分布図を作成する。
【0009】
本発明の画像処理装置の一態様では、前記分布図から1次元のデータ列を作成する第4の手段を含み、前記第4の手段は、同一の前記クラスに属する前記所定の位置の数を所定の方向に加算する処理を行う。
【0010】
本発明の画像処理装置の一態様では、前記分布図から1次元のデータ列を作成する第5の手段を含み、前記第5の手段は、同一の前記クラスに属する前記所定の位置に対応する前記評価値を所定の方向に加算する処理を行う。
【0011】
本発明の画像処理装置の一態様では、複数の前記パターングループが少なくとも2つのカテゴリーに分類されており、第1のカテゴリーに属する前記各パターングループは、前記入力画像の前記所定の位置における前記評価値及び前記クラスの特定に供され、第2のカテゴリーに属する前記各パターングループは、前記入力画像の前記所定の位置に対応して選択された場合、当該位置に対して前記参照パターンが存在しないという意味付けが付与されるものである。
【0012】
本発明の画像処理装置の一態様では、前記入力画像内の所定の位置に対応して定義された領域の前記画像データをベクトル表記する第6の手段を含み、前記第2の手段は、前記各参照パターンをベクトルとして保持しており、前記画像データのベクトルと照合して前記類似度を評価する。
【0013】
本発明の画像処理方法は、入力画像の画像データを処理し、前記画像データに含まれる意味情報を抽出する画像処理方法であって、前記入力画像内の所定の位置に対応して定義された領域の前記画像データを取り出す第1のステップと、所定のクラスに属する参照パターンを少なくとも1つ含む複数のパターングループを記憶しておき、前記画像データと前記各パターングループに含まれる前記各参照パターンとを照合し、前記各参照パターン毎についての前記画像データとの類似度を評価する第2のステップと、前記類似度の各評価値に所定の演算を施して少なくとも1つの前記評価値を決定するとともに、決定された前記評価値に対応した前記参照パターンの前記クラスを特定し、当該参照パターンの前記評価値及び特定された前記クラスを前記所定の位置に対応させる第3のステップとを含む。
【0014】
本発明の画像処理方法の一態様では、前記入力画像の複数の前記所定の位置毎に前記評価値及び前記クラスを特定し、各々を複数の前記所定の位置に対応させて分布図を作成する。
【0015】
本発明の画像処理方法の一態様では、前記分布図から1次元のデータ列を作成する第4のステップを含み、同一の前記クラスに属する前記所定の位置の数を所定の方向に加算する処理を行う。
【0016】
本発明の画像処理方法の一態様では、前記分布図から1次元のデータ列を作成する第5のステップを含み、同一の前記クラスに属する前記所定の位置に対応する前記評価値を所定の方向に加算する処理を行う。
【0017】
本発明の画像処理方法の一態様では、複数の前記パターングループが少なくとも2つのカテゴリーに分類されており、第1のカテゴリーに属する前記各パターングループは、前記入力画像の前記所定の位置における前記評価値及び前記クラスの特定に供され、第2のカテゴリーに属する前記各パターングループは、前記入力画像の前記所定の位置に対応して選択された場合、当該位置に対して前記参照パターンが存在しないという意味付けが付与されるものである。
【0018】
本発明の画像処理方法の一態様では、前記入力画像内の所定の位置に対応して定義された領域の前記画像データをベクトル表記する第6のステップを含み、前記第2のステップでは、前記各参照パターンがベクトルとして保持されており、前記画像データのベクトルと照合して前記類似度を評価する。
【0019】
本発明のプログラムは、入力画像の画像データを処理し、前記画像データに含まれる意味情報を抽出するに際して、前記入力画像内の所定の位置に対応して定義された領域の前記画像データを取り出す第1のステップと、所定のクラスに属する参照パターンを少なくとも1つ含む複数のパターングループを記憶しておき、前記画像データと前記各パターングループに含まれる前記各参照パターンとを照合し、前記各参照パターン毎についての前記画像データとの類似度を評価する第2のステップと、前記類似度の各評価値に所定の演算を施して少なくとも1つの前記評価値を決定するとともに、決定された前記評価値に対応した前記参照パターンの前記クラスを特定し、当該参照パターンの前記評価値及び特定された前記クラスを前記所定の位置に対応させる第3のステップとをコンピュータに実行させるためのものである。
【0020】
本発明の記録媒体は、前記プログラムを記録したことを特徴とするコンピュータ読み取り可能なものである。
【0021】
【発明の実施の形態】
以下、本発明を適用した好適な諸実施形態について図面を参照しながら詳細に説明する。
【0022】
(第1の実施形態)
図1は、第1の実施形態の画像処理装置の概略構成を示す模式図である。
この画像処理装置は、図1(a)に示すように、入力画像内の所定の位置に対応して定義された領域(x,y)の画像データが取り出され、この画像データをベクトル表記するベクトル生成部1と、所定のクラスに属する参照パターンを少なくとも1つ含むパターングループを複数有する記憶部2と、ベクトル化された画像データと各パターングループに含まれる各参照パターンとを照合し、各参照パターン毎についての画像データとの類似度を評価する類似度演算部3と、類似度の各評価値に所定の演算を施して少なくとも1つの評価値を決定するウィナー・テーク・オール(Winner Take All)回路4とを含む。但し、ここで必ずしもウィナー・テーク・オール回路を利用するとは限らない。また、必ずしも1つの評価値だけを取り出すとは限らず、場合によっては複数個決定することもあり得る。
【0023】
この画像処理装置は、決定された評価値に対応した参照パターンのクラスを特定し、当該参照パターンの評価値及び特定されたクラスを所定の位置に対応させる(例えば、f(x,y)=クラス9)ものであり、入力画像の複数の所定の位置毎に評価値及びクラスを特定し、各々を複数の所定の位置に対応させて2次元分布図を作成し、更には後述するように当該分布図から1次元のデータ列を作成する変換部5を有する。
【0024】
記憶部2は、パターングループとして例えば10個のテンプレートグループを持つ。但し、テンプレート数は10個に限定されず、100でも1000でも良い。また、数多くのサンプル群に対して学習アルゴリズムを適用し、テンプレート数を減少させるということも可能である。それぞれのテンプレートグループは、後述するPAP(Principal Axis Projection)手法(特許出願[1]参照)によって生成されたベクトル表現を1つずつ持つ。本実施形態では、図2に示すようなTimes New Romanフォント72ptの0〜9の数字画像からPAP手法によってそれぞれベクトル表現に変換したものを、別々の10個のテンプレートグループにその数字のパターンクラスという意味付けと共に保持させた。ここで、テンプレートが保持するベクトル表現は必ずしもこのような文字フォントから生成されたものであるとは限らず、また、ベクトル表現への変換手法はPAP手法である必要はない。また、1つのパターングループが持つベクトル表現(参照パターン)の数はここでは1つの場合を例示するが、必ずしも1つであるとは限らない。例えば、図1(b)に示すように、相異なる複数(ここでは6つ)の参照パターンを用いても良い。
【0025】
この画像処理装置では、先ず、与えられた入力画像における(x,y)を中心とした64×64の部分画像を切り出す(ステップ1)。ここで、部分画像における(x,y)の位置は必ずしも中心であるとは限らない。また、切り出す大きさも必ずしも64×64であるとは限らない。
【0026】
そして、その部分画像をベクトル生成部2に入力し 、PAP手法(論文[1−4]参照)によりベクトル表現に変換する(ステップ2)。ここで、2次元の部分画像からベクトル表現に変換する際に必ずしもPAP手法を利用するとは限らない(2次元画像からのベクトル表現生成手法)。
【0027】
[特許出願[1] ]特願平10−326253号
[1] Masakazu Yagi, Masayoshi Adachi, and Tadashi Shibata, ”A Hardware−Friendly Soft−Computing Algorithm for Image Recognition,” Proceedings of 10th European Signal Processing Conference (EUSIPCO 2000), pp. 729−732, Tampere, Finland, Sept. 4−8, 2000.
[2] Masakazu Yagi and Tadashi Shibata, ”A Human−Perception−like Image Recognition System based on PAP Vector Representation with Multi Resolution Concept,” in the Proceedings of 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2002), Vol. I, pp.1041−1048, Florida, May 13−17, 2002.
[3] Masakazu Yagi, Tadashi Shibata and Kenji Takada, ”Optimizing Feature−Vector Extraction Algorithm from Grayscale Images for Robust Medical Radiograph Analysis,” in press in The Proceedings of Fourth International Conference on Multimedia and Image Processing (IFMIP 2002), Orland, June
9−13, 2002.
[4]Masakazu YAGI, Tadashi SHIBATA, and Kenji TAKADA, ”Human−Perception−Like Image Recognition System Based on the Associative Processor Architecture,” to be published in the Proceedings of XI European Signal Processing Conference, Sep. 3−6, 2002 Toulouse, France (2002).
【0028】
入力画像から切り出された部分画像から生成されたベクトル表現と、システムに記憶された全てのパターングループ内に存在する全てのベクトル表現とされた参照パターンとの類似度の評価値を、類似度演算部3によりマンハッタン距離演算を用いて生成する(ステップ3)。ここで、類似度の評価値の演算は必ずしも全てのパターングループに対して行われるとは限らない。例えば、類似度を演算するパターングループがその一部であることもありうる。また、類似度の演算はマンハッタン距離演算を必ず利用するとは限らない。ユークリッド距離演算やヒストグラムインターセクション、カルバック距離などを利用することもあり得る(ベクトル間の距離演算手法)。
【0029】
そして、上記のベクトル間の距離演算手法で演算された類似度の評価値の中で最も類似度が高いパターングループを決定し、その類似度の評価値を持つパターングループを同定する(ステップ4)。そして、2次元上の分布図において位置情報(x,y)にそのパターン情報を保持する。ここで、そのパターン情報と同時に類似度情報もシステムは保持する。ここで、決定されるパターングループは1つとしたが必ず1つとは限らない。また決定する方法は、類似度評価値の中で最も類似度が高いパターングループを選ぶとしたが、必ずしもこの手法に従うとは限らない。例えば、テンプレートグループ全体の評価値を用いてグループとして評価をする場合もあれば、それぞれのテンプレートグループの上位複数個の評価値の平均を利用する場合もある。また、全体の上位複数個に入っているパターンクラスの数が多いものを選ぶという場合もあり得る。
【0030】
図3に示すEuclidフォント72ptのうち、数字”0”を含む150×150pel画像に対して上記方法をした例を図4に示す。ここではこの画像サイズは必ずしも150×150pelでなくとも良い。加えて、数字”4”を含む同様の画像に対して上記方法を適用した例を図5に示す。このような表現を用いることにより、対象となる文字をさまざまな構成要素に分解して情報を抽出することを実現した。
【0031】
−ベクトル生成部の構成−
ここで、図1におけるベクトル生成部1のVLSI技術における実装を行った(論文[5]参照)。その回路構成図を図6に示す。
PAP(Principal Axis Projection) 変換VLSIは大きく二つのブロックに分かれている。まず、入力される2次元画像データからエッジ特徴を抽出し特徴表現フラグを生成するエッジ特徴抽出器11が設けられ、その特徴表現フラグを入力とするベクトル生成器12が設けられている。このような構成でPAP変換VLSIを構成した。チップ写真を図7に示す。
【0032】
この回路の測定結果を図8に示す。
図8に示したように、64×64ピクセルの画像から64次元のベクトル列に変換するのに、ワークステーションであれば数分かかるが、340msec.で演算する機能を実現した。
【0033】
[5] Masakazu Yagi and Tadashi Shibata, ”An Associative−Processor−Based Mixed Signal System for Robust Image Recognition,” in the Proceedings of 2002 IEEE International Symposium on Circuits and Systems (ISCAS 2002), pp. V−137−V−140, Arizona, May 26−29, 2002.
【0034】
−記憶部及び類似度評価部の構成−
ベクトルの1要素に対してデータを保持し類似度演算を行う基本回路を図9に示す(特許出願[2]及び論文[6−8]参照)。
この基本回路は、図9に示すように、入力電圧VGGを変化させることによって消費電力を減少させる機能と、入力電圧A,B,Cを変化させることによって柔軟に類似度演算器の演算評価方法を変化させる機能を持つ。この特性を図10に示す。VGGを低下させることによってピークの電流値が下がっており、また、入力電圧A,B,Cを変化させることで、さまざまな鋭さを持った評価関数が実現されていることが判る。
【0035】
この基本回路では、最初のリセット動作の時に記憶させるテンプレートベクトルの1要素を電圧で入力する。そして、その後に類似度評価を行うベクトルの1要素を電圧で入力する。類似度情報は電流に変換され、IOUTから出力される。類似度が高いほど多くの電流が出力される。このIOUTをテンプレート情報と入力されたベクトル情報の類似度評価値として利用する。
【0036】
この基本回路は図11のような機能を実現している。
先ず、最初に知識の断片を電圧として記憶させ、その後電圧として入力されたベクトルの1要素との類似度を電流値として出力する。類似度が高ければ高いほど、多くの電流が流れる。
【0037】
この基本回路の機能はベクトルの1要素の類似度演算のみであるが、図12のように出力電流の合計をとることで、先に記憶させた知識であるテンプレートベクトルMと入力ベクトルXの類似度を出力する回路を容易に実現できる。例えば、PAP手法によって生成されたベクトルであれば、ベクトルの次元数は64次元であるので64個の出力を繋げば良い。但し、この数は必ずしも64個である必要はなく、利用するベクトルの次元数に応じて数は変化する。
【0038】
記憶及び類似度演算機能を持つ機能ブロックとしては、図13のようにして実現する。
図12の回路を並列に並べ、入力ベクトルXを同時に全ての回路に入力する。このような構成にすることで、入力ベクトルと複数のパターングループ群内のテンプレートベクトルの全ての類似度を同時に高速に演算を行うことが可能である。
【0039】
このような処理を実現した例を図14に示す。
このシステムではベクトルの次元数は4とした。図14の上部にこの回路に記憶させたパターンを示す。下側には提示されたパターン群を示している。グラフは、記憶させたパターンと提示されたパターンの類似度を示す。青線は理論値、赤線は測定値を示す。全く同じパターン7が入力された場合大きい電流が流れ高い類似度を示している。また、パターン7と類似したパターン1を入力した場合も非常に高い類似度を示している。しかし、類似していないパターン6に対しては低い類似度を示している。また、消費電力に関しても、類似度が高く最も電流が流れる場合でも160μA程度であり、非常に低い消費電力で実現されている。ここでは、次元数が4つの例に関して示したが、必ずしも4つとは限らない。PAPによって生成されたベクトルであれば64になるし、それ以外のベクトル生成手法を利用した場合はそのベクトルの次元数に応じて変化するものである。
【0040】
[特許出願[2]]特願2000−326158号
[6] T. Yamasaki and T. Shibata, ”An Analog Similarity Evaluation CircuitFeaturing Variable Functional Forms,” Proceedings of The 2001 IEEE International Symposium on Circuits and Systems (ISCAS 2001), pp. III−561−564, Sydney, Australia, May. 6−9, 2001.[7] Toshihiko Yamasaki, Ken Yamamoto, and Tadashi Shibata, ”Analog Pattern Classifier with Flexible Matching Circuitry Based on Principal−Axis−Projection Vector Representation,” Proceedings of the 27th European Solid−State Circuits Conference (ESSCIRC 2001), Ed. by F. Dielacher and H. Grunbacher, pp. 212−215 (Frontier Group), Villach, Austria, September 18−20, 2001.
[8] T. Yamasaki and T. Shibata, ”Analog Soft−Pattern−Matching ClassifierUsing Floating−Gate MOS Technology,” Neural Information Processing Systems 14, in press.
【0041】
(第2の実施形態)
図15は、第2の実施形態の画像処理装置の概略構成を示す模式図である。
この画像処理装置は、第1の実施形態の画像処理装置とほぼ同様の構成を有するが、記憶部2におけるパターンクラスが異なる点で相違する。具体的には、以下のように2つのカテゴリーを持つパターングループ群を保持している。第1のカテゴリーのパターングループは第1の実施形態で記憶されたパターングループと同じものである。第2のカテゴリーのパターングループは、そこにパターンが存在しないという意味付けを持つパターングループである。本実施例では何もIntensityを持たないNullパターンを用いた。この場合、第2のカテゴリーに含まれるパターングループは必ずしもNullパターンのみとは限らず、認識対象から除外したい画像や背景画像群などを用いても良い。その他は第1の実施形態と同様の構成であり、パターンクラスの同定を行う。この際に、仮に“パターンクラスが存在しない”パターングループであると同定された場合、2次元分布図で記憶されるのは、第1の実施形態の場合とは異なり、“パターンはない”という情報を保持する。
【0042】
このような手法を図3に示したEuclidフォント72ptの文字”0”, ”4”, ”B”を含む150×150pelの画像に適用した例を図16、図17、図18に示す。対象は必ずしも文字フォントを利用するとは限らず、画像サイズも150×150pelであるとは限らない。
【0043】
このように、上記のような2つのカテゴリーをシステムに持たせることで第1の実施形態と比較して非常に効率的な特徴抽出が実現された。
【0044】
【実施例】
以下、第2の実施形態を画像処理に適用した具体例について説明する。
【0045】
(実施例1)
第2の実施形態の手法をAthleticフォント72ptの文字”0”,”B”を含む150x150pel画像に適用した例を図19に示す。第2の実施形態で示したEuclidフォントと非常に形の異なるフォントであるが、ほぼ同じような特徴をロバストに(対象におけるノイズ等の悪影響に対して強く柔軟に)抽出する機能を実現していることが判る。
【0046】
(実施例2)
第2の実施形態の手法を用いて対象画像を20%拡大したEuclidフォント86ptの”4”を含む150×150pel画像に適用した例を、72ptに適用した分布図と同時に図20に示す。
スケールが変化したにも関わらず得られた特徴は72ptのものとそれほど変化がなく非常にロバストな特徴抽出が実現されていることが判る。これは必ずしも拡大した場合のみではなく縮小された場合も実現される。
【0047】
(実施例3)
第2の実施形態の手法を用いて手書き文字”4”,”B”を含む150x150pel画像に適用した例を図21に示す。
手書きの文字はフォントの文字に比べ、線の太さが同じで文字にゆがみが存在するが、第2の実施形態で示されたEuclidフォントの分布図と類似しており、ロバストに特徴が抽出されている。
【0048】
(実施例4)
第2の実施形態の手法を一部が欠けた手書き文字”4”画像に適用した例を図22に示す。
手書きでしかも、従来のソフトウェアによる認識に用いられるようなクロスやコーナーを示す構成要素などの特徴が除かれているが、本手法では第2の実施形態におけるEuclidの”4”を適用した結果と類似したロバストな特徴抽出を行っていることが判る。
【0049】
(実施例5)
第2の実施形態の手法を用いて生成した2次元分布図から1次元の数値列(ベクトル)に変換する手法(ステップ5)を図23に示す。
図23(a)は、第2の実施形態と同様の手法をEuclidフォント72ptの150×150pel画像に適用して2次元分布図を作成したものである。この画像のサイズは必ずしもこの大きさである必要はない。このようにして作成された2次元分布図から図23(b)に示すように64×64の大きさで切り出す。但し、この大きさは必ずしも64×64とは限らない。
【0050】
そして、パターンクラス”0”からパターンクラス”9”にそれぞれ対応する位置情報の数を縦及び横の2方向に投影を行い、16要素を1つにする平滑化処理を行う。ここで、位置情報の数の投影を全てのパターンクラスに対して行っているが、必ずしも全てのパターンクラスに適用する必要はない。必要に応じて選択的に位置情報の投影を行う。また、必ずしもこの平滑化手法は16要素を1つにするとは限らない。例えば8でも32でもよい。それぞれの場合によって異なる。
【0051】
図23(b)では、パターンクラス”1”に対応した位置の数の投影を行っている。そして、パターンクラス”0”からパターンクラス”9”まで順にそれぞれ水平方向の投影情報、垂直方向の投影情報の順に並べ1次元の数値列、ベクトル表現を生成する。ここで、全てのパターンクラスに対する位置情報の投影情報を利用しているが、必ずしも全てのパターンクラスに適用する必要はない。必要に応じて選択的に投影情報を利用する。また、投影情報の並べる順は必ずしも前述した並べ方である必要はない。利用するパターンクラスによっても異なり、水平・垂直の投影情報も必ずしもこの順に従う必要はない。また、前記した処理でベクトル表現を生成するだけでなく、この処理の後に重みをつけてベクトル表現の平滑化を行うようなこともある。
【0052】
このような手法をEuclidフォント 72pt 文字“A”,”B”,”C”,”D”,”E”を含む150×150pel画像に適用した例を図24に示す。
但し、画像のサイズは必ずこのサイズである必要はない。このように数字のパターンクラスで表現した2次元分布図から生成した1次元の数値列はそれぞれのアルファベット文字の特徴を抽出してそれぞれ異なる表現になっていることが判る。この手法を利用しアルファベットの文字認識をロバストに行うことが実現された。
【0053】
(実施例6)
実施例5の手法を、手書き文字”4” ,”B”を含む150×150pelの画像に対して適用した例を、Euclidフォント同じ文字を含む同サイズの画像に適用した例と共に図25に示す。
線の太さや傾きなど非常に異なるが、ベクトルとしては非常に高い類似度が実現されロバストな特徴抽出が実現されている。
【0054】
(実施例7)
実施例5の手法を、部分的に欠けた手書き文字”4”を含む150x150pelの画像に対して適用した例を、Euclidフォント72ptの”4”を含む同サイズの画像に適用した例と共に図26に示す。
従来のアルゴリズムでは特徴として利用されるクロスやコーナー部が欠けているが、ベクトルとしては非常に高い類似度が表れておりロバストに特徴抽出が実現されている。
【0055】
(実施例8)
第2の実施形態の手法を用いて生成した2次元分布図から1次元の数値列(ベクトル)に変換する他の手法(ステップ6)を図27に示す。
2次元分布図のデータを切り出し、投影を行う方法は実施例5と同様である。但し本例では、投影の際に加算されるデータは位置情報の数ではなく、その位置におけるそのパターンクラスの類似度を加算する。また、この類似度の加算は必ずしもそのまま加算を行うとは限らず、ロバストな認識のために何らかの数値の演算処理を加えることもある。図27の例では図に示している位置のパターンクラスは1、類似度は124であるので、この位置で加算を行う場合は124を投影データに加える。このような処理を行うことでよりロバストで柔軟なベクトル表現を実現した。本例により生成されたベクトルを図28に示す。
【0056】
このように、類似度評価値を投影することで2次元分布図を非常にロバストに1次元の数値列(ベクトル表現)に変換することが実現できた。
【0057】
(実施例9)
実施例8で示した方法を、部分的に欠けた手書き文字”4”を含む150x150pelの画像に対して適用した例を、Euclidフォント72ptの”4”を含む同サイズの画像に適用した例と共に図29に示す。
従来のアルゴリズムでは特徴として利用されるクロスやコーナー部が欠けているが、ベクトルとしては非常に高い類似度が表れておりロバストに特徴抽出が実現されている。
【0058】
(実施例10)
第2の実施形態の手法を、図30に示すEuclidフォントの72ptの数字を持つ180x350pelの画像に適用した例を図31に示す。
このように、存在する数字の数が分からない場合でも、2次元分布図を生成することで、ロバストに特徴を抽出する機能を実現した。また、2次元分布図を1次元の数値列に変換する手法として実施例5の手法を用いても実施例12の手法を用いても正しくロバストにこのような対象画像を認識することができた。但し、2次元の分布図を1次元に変換する手法はこの2つには限定されない。
【0059】
(実施例11)
第2の実施形態の手法を、図32に示すEuclidフォントの72ptの”4”と”7”の重なり数字を持つ150×150pelの画像に適用した例を図33に示す。
このような問題は非常に解決が困難であるが、2次元分布図上でみるとロバストに”4”と”7”の特徴がそれぞれ抽出されていることが判る。また、2次元分布図を1次元の数値列に変換する手法として実施例5の手法を用いても実施例8の手法を用いても正しくロバストにこのような重なり画像を分離して認識することができた。但し、2次元分布図を1次元に変換する手法はこの2つには限定されない。
【0060】
(実施例12)
第2の実施形態の手法を、図34に示す一部が欠落した手書き数字画像に適用した例を図35に示す。
このように手書き文字で且つ一部が欠落している画像に対してもロバストに対象の特徴を抽出していることが判る。また、2次元分布図を1次元の数値列に変換する手法として実施例5の手法を用いても実施例8の手法を用いても正しくロバストにこのような対象画像を認識することができた。但し、2次元分布図を1次元に変換する手法はこの2つには限定されない。
【0061】
(本発明の他の実施形態)
上述した第1及び第2の実施形態、諸実施例による画像処理装置を構成する各手段、並びに画像処理方法の各ステップ(ステップ1〜6など)は、コンピュータのRAMやROMなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び当該プログラムを記録したコンピュータ読み取り可能な記憶媒体は本発明に含まれる。
【0062】
具体的に、前記プログラムは、例えばCD−ROMのような記録媒体に記録し、或いは各種伝送媒体を介し、コンピュータに提供される。前記プログラムを記録する記録媒体としては、CD−ROM以外に、フレキシブルディスク、ハードディスク、磁気テープ、光磁気ディスク、不揮発性メモリカード等を用いることができる。他方、前記プログラムの伝送媒体としては、プログラム情報を搬送波として伝搬させて供給するためのコンピュータネットワーク(LAN、インターネットの等のWAN、無線通信ネットワーク等)システムにおける通信媒体(光ファイバ等の有線回線や無線回線等)を用いることができる。
【0063】
また、コンピュータが供給されたプログラムを実行することにより上述の実施形態の機能が実現されるだけでなく、そのプログラムがコンピュータにおいて稼働しているOS(オペレーティングシステム)或いは他のアプリケーションソフト等と共同して上述の実施形態の機能が実現される場合や、供給されたプログラムの処理の全て或いは一部がコンピュータの機能拡張ボードや機能拡張ユニットにより行われて上述の実施形態の機能が実現される場合も、かかるプログラムは本発明に含まれる。
【0064】
例えば、図36は、一般的なパーソナルユーザ端末装置の内部構成を示す模式図である。この図36において、1200はコンピュータPCである。PC1200は、CPU1201を備え、ROM1202又はハードディスク(HD)1211に記憶された、或いはフレキシブルディスクドライブ(FD)1212より供給されるデバイス制御ソフトウェアを実行し、システムバス1204に接続される各デバイスを総括的に制御する。
【0065】
【発明の効果】
本発明によれば、類似する画像を画像処理した際には、類似した画像データとして認識することを可能とし、比較的複雑な画像でも正確に認識することができる画像処理装置方法及び画像処理方法、プログラム及び記憶媒体が実現する。
【図面の簡単な説明】
【図1】第1の実施形態による画像処理装置の概略構成を示す模式図である。
【図2】第1の実施形態で用いるTimes New Romanフォント72ptの0〜9の数字画像及びパターングループ9の各参照パターンを示す模式図である。
【図3】Euclidフォント72ptを示す模式図である。
【図4】図3に示すEuclidフォント72ptのうち、数字”0”を含む150×150pel画像に対する2次元分布図である。
【図5】図3に示すEuclidフォント72ptのうち、数字”4”を含む150×150pel画像に対する2次元分布図である。
【図6】図1におけるベクトル生成部の回路構成図である。
【図7】PAP変換VLSIのチップの表面の顕微鏡写真である。
【図8】ベクトル生成部の回路の測定結果を示す模式図である。
【図9】ベクトルの1要素に対してデータを保持し類似度演算を行う基本回路を示す回路図である。
【図10】図9の基本回路の機能特性を示す特性図である。
【図11】図9の基本回路の機能特性を説明するための模式図である。
【図12】テンプレートベクトルを記憶し類似度を演算する際の概念図である。
【図13】複数のテンプレートベクトルを記憶し類似度を演算する際の概念図である。
【図14】複数のテンプレートベクトルを記憶し類似度を演算した結果を示す特性図である。
【図15】第2の実施形態による画像処理装置の概略構成を示す模式図である。
【図16】Euclidフォント72ptのうち、数字”0”を含む150×150pel画像に対する2次元分布図である。
【図17】Euclidフォント72ptのうち、数字”4”を含む150×150pel画像に対する2次元分布図である。
【図18】Euclidフォント72ptのうち、数字”B”を含む150×150pel画像に対する2次元分布図である。
【図19】Athleticフォント72ptの文字”0”,”B”を含む150x150pel画像に対する2次元分布図である。
【図20】対象画像を20%拡大したEuclidフォント86ptの”4”を含む150×150pel画像に対する2次元分布図である。
【図21】手書き文字”4”,”B”を含む150x150pel画像に対する2次元分布図である。
【図22】一部が欠けた手書き文字”4”画像に対する2次元分布図である。
【図23】第2の実施形態の手法を用いて生成した2次元分布図から1次元の数値列(ベクトル)に変換する手法を示す模式図である。
【図24】Euclidフォント 72pt 文字“A”,”B”,”C”,”D”,”E”を含む150×150pel画像に対する1次元数値列を示す模式図である。
【図25】手書き文字”4” ,”B”を含む150×150pelの画像に対する1次元数値列を示す模式図である。
【図26】部分的に欠けた手書き文字”4”を含む150x150pelの画像に対する1次元数値列を示す模式図である。
【図27】第2の実施形態の手法を用いて生成した2次元分布図から1次元の数値列(ベクトル)に変換する他の手法を示す模式図である。
【図28】手書き文字”4” ,”B”を含む150×150pelの画像に対する1次元数値列を示す模式図である。
【図29】部分的に欠けた手書き文字”4”を含む150x150pelの画像に対する1次元数値列を示す模式図である。
【図30】Euclidフォントの72ptの数字群を示す模式図である。
【図31】図30に示すEuclidフォントの72ptの数字を持つ180x350pelの画像に対する2次元分布図である。
【図32】Euclidフォントの72ptの”4”と”7”の重なり数字画像を示す模式図である。
【図33】図32に示す重なり数字を持つ150×150pelの画像に対する2次元分布図である。
【図34】一部が欠落した手書き数字画像を示す模式図である。
【図35】図32に示す手書き数字画像に対する2次元分布図である。
【図36】一般的なパーソナルユーザ端末装置の内部構成を示す模式図である。
【図37】従来の画像の認識方法を示す模式図である。
【符号の説明】
1 ベクトル生成部
2 記憶部
3 類似度評価部
4 ウィナー・テーク・オール(Winner Take All)回路
5 変換部

Claims (14)

  1. 入力画像の画像データを処理し、前記画像データに含まれる意味情報を抽出する画像処理装置であって、
    所定のクラスに属する参照パターンを少なくとも1つ含むパターングループを複数有する第1の手段と、
    前記入力画像内の所定の位置に対応して定義された領域の前記画像データを取り出し、前記画像データと前記各パターングループに含まれる前記各参照パターンとを照合し、前記各参照パターン毎についての前記画像データとの類似度を評価する第2の手段と、
    前記類似度の各評価値に所定の演算を施して少なくとも1つの前記評価値を決定するとともに、決定された前記評価値に対応した前記参照パターンの前記クラスを特定し、当該参照パターンの前記評価値及び特定された前記クラスを前記所定の位置に対応させる第3の手段と
    を含むことを特徴とする画像処理装置。
  2. 前記入力画像の複数の前記所定の位置毎に前記評価値及び前記クラスを特定し、各々を複数の前記所定の位置に対応させて分布図を作成することを特徴とする請求項1に記載の画像処理装置。
  3. 前記分布図から1次元のデータ列を作成する第4の手段を含み、
    前記第4の手段は、同一の前記クラスに属する前記所定の位置の数を所定の方向に加算する処理を行うことを特徴とする請求項2に記載の画像処理装置。
  4. 前記分布図から1次元のデータ列を作成する第5の手段を含み、
    前記第5の手段は、同一の前記クラスに属する前記所定の位置に対応する前記評価値を所定の方向に加算する処理を行うことを特徴とする請求項2に記載の画像処理装置。
  5. 複数の前記パターングループが少なくとも2つのカテゴリーに分類されており、
    第1のカテゴリーに属する前記各パターングループは、前記入力画像の前記所定の位置における前記評価値及び前記クラスの特定に供され、
    第2のカテゴリーに属する前記各パターングループは、前記入力画像の前記所定の位置に対応して選択された場合、当該位置に対して前記参照パターンが存在しないという意味付けが付与されるものであることを特徴とする請求項1〜4のいずれか1項に記載の画像処理装置。
  6. 前記入力画像内の所定の位置に対応して定義された領域の前記画像データをベクトル表記する第6の手段を含み、
    前記第2の手段は、前記各参照パターンをベクトルとして保持しており、前記画像データのベクトルと照合して前記類似度を評価することを特徴とする請求項1〜5のいずれか1項に記載の画像処理装置。
  7. 入力画像の画像データを処理し、前記画像データに含まれる意味情報を抽出する画像処理方法であって、
    前記入力画像内の所定の位置に対応して定義された領域の前記画像データを取り出す第1のステップと、
    所定のクラスに属する参照パターンを少なくとも1つ含む複数のパターングループを記憶しておき、前記画像データと前記各パターングループに含まれる前記各参照パターンとを照合し、前記各参照パターン毎についての前記画像データとの類似度を評価する第2のステップと、
    前記類似度の各評価値に所定の演算を施して少なくとも1つの前記評価値を決定するとともに、決定された前記評価値に対応した前記参照パターンの前記クラスを特定し、当該参照パターンの前記評価値及び特定された前記クラスを前記所定の位置に対応させる第3のステップと
    を含むことを特徴とする画像処理方法。
  8. 前記入力画像の複数の前記所定の位置毎に前記評価値及び前記クラスを特定し、各々を複数の前記所定の位置に対応させて分布図を作成することを特徴とする請求項7に記載の画像処理方法。
  9. 前記分布図から1次元のデータ列を作成する第4のステップを含み、同一の前記クラスに属する前記所定の位置の数を所定の方向に加算する処理を行うことを特徴とする請求項8に記載の画像処理方法。
  10. 前記分布図から1次元のデータ列を作成する第5のステップを含み、同一の前記クラスに属する前記所定の位置に対応する前記評価値を所定の方向に加算する処理を行うことを特徴とする請求項8に記載の画像処理方法。
  11. 複数の前記パターングループが少なくとも2つのカテゴリーに分類されており、
    第1のカテゴリーに属する前記各パターングループは、前記入力画像の前記所定の位置における前記評価値及び前記クラスの特定に供され、
    第2のカテゴリーに属する前記各パターングループは、前記入力画像の前記所定の位置に対応して選択された場合、当該位置に対して前記参照パターンが存在しないという意味付けが付与されるものであることを特徴とする請求項7〜10のいずれか1項に記載の画像処理方法。
  12. 前記入力画像内の所定の位置に対応して定義された領域の前記画像データをベクトル表記する第6のステップを含み、
    前記第2のステップでは、前記各参照パターンがベクトルとして保持されており、前記画像データのベクトルと照合して前記類似度を評価することを特徴とする請求項7〜11のいずれか1項に記載の画像処理方法。
  13. 入力画像の画像データを処理し、前記画像データに含まれる意味情報を抽出するに際して、
    前記入力画像内の所定の位置に対応して定義された領域の前記画像データを取り出す第1のステップと、
    所定のクラスに属する参照パターンを少なくとも1つ含む複数のパターングループを記憶しておき、前記画像データと前記各パターングループに含まれる前記各参照パターンとを照合し、前記各参照パターン毎についての前記画像データとの類似度を評価する第2のステップと、
    前記類似度の各評価値に所定の演算を施して少なくとも1つの前記評価値を決定するとともに、決定された前記評価値に対応した前記参照パターンの前記クラスを特定し、当該参照パターンの前記評価値及び特定された前記クラスを前記所定の位置に対応させる第3のステップと
    をコンピュータに実行させるためのプログラム。
  14. 請求項13に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2002255491A 2002-08-30 2002-08-30 画像処理装置、画像処理方法、記憶媒体及びプログラム Pending JP2004094644A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002255491A JP2004094644A (ja) 2002-08-30 2002-08-30 画像処理装置、画像処理方法、記憶媒体及びプログラム
US10/647,356 US20040197023A1 (en) 2002-08-30 2003-08-26 Image processing device, image processing method, storage medium, and computer program product
EP03019513A EP1394726A3 (en) 2002-08-30 2003-08-28 Image processing for pattern recognition using edge detection and projections along predetermined directions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002255491A JP2004094644A (ja) 2002-08-30 2002-08-30 画像処理装置、画像処理方法、記憶媒体及びプログラム

Publications (1)

Publication Number Publication Date
JP2004094644A true JP2004094644A (ja) 2004-03-25

Family

ID=31492678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002255491A Pending JP2004094644A (ja) 2002-08-30 2002-08-30 画像処理装置、画像処理方法、記憶媒体及びプログラム

Country Status (3)

Country Link
US (1) US20040197023A1 (ja)
EP (1) EP1394726A3 (ja)
JP (1) JP2004094644A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201885A (ja) * 2005-01-18 2006-08-03 Sharp Corp 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体
JP2014123184A (ja) * 2012-12-20 2014-07-03 Toshiba Corp 認識装置、方法及びプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010076668A1 (en) * 2009-01-05 2010-07-08 Freescale Semiconductor, Inc. System and method for efficient image feature extraction
CN103914827B (zh) * 2013-09-06 2017-07-11 贵州大学 汽车密封条轮廓缺陷的视觉检测方法
CN106651890B (zh) * 2016-08-30 2019-05-03 南京鑫和汇通电子科技有限公司 基于边缘点自相似性的金属反光图像识别及teds系统
CN113742288A (zh) * 2020-05-29 2021-12-03 伊姆西Ip控股有限责任公司 用于数据索引的方法、电子设备和计算机程序产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5517988B2 (ja) * 1974-06-05 1980-05-15
US5287275A (en) * 1988-08-20 1994-02-15 Fujitsu Limited Image recognition apparatus and method for recognizing a pattern within an image
GB9326440D0 (en) * 1993-12-24 1994-02-23 Ncr Int Inc Neutral network for banknote recongnition and authentication
US6081621A (en) * 1996-10-01 2000-06-27 Canon Kabushiki Kaisha Positioning templates in optical character recognition systems

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201885A (ja) * 2005-01-18 2006-08-03 Sharp Corp 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体
JP2014123184A (ja) * 2012-12-20 2014-07-03 Toshiba Corp 認識装置、方法及びプログラム

Also Published As

Publication number Publication date
EP1394726A3 (en) 2004-12-01
US20040197023A1 (en) 2004-10-07
EP1394726A2 (en) 2004-03-03

Similar Documents

Publication Publication Date Title
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN110180186A (zh) 一种地形图转换方法及系统
Qi et al. Image classification with kernelized spatial-context
CN104008401A (zh) 一种图像文字识别的方法及装置
US11386589B2 (en) Method and device for image generation and colorization
CN111401099B (zh) 文本识别方法、装置以及存储介质
DANDIL et al. Real-time Facial Emotion Classification Using Deep Learning Article Sidebar
US7831068B2 (en) Image processing apparatus and method for detecting an object in an image with a determining step using combination of neighborhoods of a first and second region
KR102645698B1 (ko) 얼굴의 정렬 형태에 강인한 얼굴 인식 방법 및 그 장치
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
Jang et al. Smilenet: Registration-free smiling face detection in the wild
EP1930852B1 (en) Image search method and device
US6240209B1 (en) Method for deriving character features in a character recognition system
JP3634574B2 (ja) 情報処理方法及び装置
JP2004094644A (ja) 画像処理装置、画像処理方法、記憶媒体及びプログラム
KR20110057595A (ko) 상호 정보 최대화 기반의 국부 이진 패턴 코드를 이용한 패턴 인식 방법, 장치 및 그 기록 매체
Valiente et al. A process for text recognition of generic identification documents over cloud computing
CN114764941A (zh) 一种表情识别方法、装置以及电子设备
CN113705307A (zh) 图像处理方法、装置、设备及存储介质
JP4537097B2 (ja) パターン検出方法及び装置
JP4350228B2 (ja) パターン認識方法および装置
YN et al. Recognition of Printed Kannada Text in Scene Images using Machine Learning Techniques
Bhopi et al. Review on optical character recognition of Devanagari script using neural network
Pei et al. Free Lunch for Generating Effective Outlier Supervision

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081028