JP2002511175A - Image recognition method - Google Patents

Image recognition method

Info

Publication number
JP2002511175A
JP2002511175A JP54819999A JP54819999A JP2002511175A JP 2002511175 A JP2002511175 A JP 2002511175A JP 54819999 A JP54819999 A JP 54819999A JP 54819999 A JP54819999 A JP 54819999A JP 2002511175 A JP2002511175 A JP 2002511175A
Authority
JP
Japan
Prior art keywords
dimensional
image
feature
attribute
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP54819999A
Other languages
Japanese (ja)
Inventor
孝美 里中
康二 浅利
孝明 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2002511175A publication Critical patent/JP2002511175A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis

Abstract

(57)【要約】 矩形領域に分割した2次元画像の輝度信号から量子化した輝度分布により、3次元空間の対象の特徴量を抽出し、さらに、その特徴量を固定した基底の直交変換により、情報量を低減して、特徴量入力ベクトル(16)をニューラルネットワークで識別する。図4は本発明のニューラルネットワークは、対象特徴量である参照ベクトル(20)と分散ベクトル(21)を記憶するレジスタ、差の演算器(17)と乗算器(18)と2乗累積加算器(19)とにより構成され、画像の特徴量パターン分布を考慮した距離により任意の対象から得られた2次元画像を用いて、対象の属性を識別する。少ない学習で、3次元空間の対象を識別するために、画像合成、回転の学習、画像の特徴量パターンの分散を考慮した学習の最適化を提供する。 (57) [Abstract] A feature amount of a target in a three-dimensional space is extracted from a brightness distribution quantized from a brightness signal of a two-dimensional image divided into a rectangular area, and furthermore, an orthogonal transformation of a basis in which the feature amount is fixed is performed. , The amount of information is reduced, and the feature amount input vector (16) is identified by a neural network. FIG. 4 shows a neural network according to the present invention which includes a register for storing a reference vector (20) and a variance vector (21), which are target feature amounts, a difference arithmetic unit (17), a multiplier (18), and a square accumulator. (19), and the attribute of the target is identified using a two-dimensional image obtained from an arbitrary target at a distance in consideration of the feature pattern distribution of the image. In order to identify an object in a three-dimensional space with a small amount of learning, image synthesis, rotation learning, and optimization of learning in consideration of variance of a feature amount pattern of an image are provided.

Description

【発明の詳細な説明】 画像認識方法 技術分野 本発明は、3次元空間の物体(対象)を2次元画像の特徴量により識別する画 像認識方法に関するものである。 背景技術 従来の3次元空間の物体の認識方法では、3次元対象の代表的特徴を2次元画 像の集合として構成し、2次元の画像データの集合で表された特徴として物体の 種類を識別した。3次元物体の画像を2次元画像の輝度信号で構成すると、輝度 であらわされた情報量の次元が非常に大きくなるので、低次元の空間で表現する 必要があった。従来法(Face Recognition:Hybrid Neural Network Approach T echnical Reports,CS-TR-3608、University of Maryland、1996で提案され た)ニューラルネットワークでは、高次元空間の対象物体の特徴的な情報を低次 元の特徴空間で損失なく表現するために、主成分分析、Kahunen−Loe ve変換が用いられた。画像の特徴量の高次元空間における分布より、その分布 に依存した最適な基底を求めて、対象の特徴量抽出を行った。 多層型ニューラルネットワークは、入力パターンを重み付けする積和演算によ る識別素子から構成される。 パターンを入力する入力層、識別結果を出力する出力層、識別素子を配列した隠 れ層からなる。入力層の入力端子の数は、入力パターンと同じ次元である。隠れ 層の積和演算を行う識別素子は、入力層の入力パターンを入力して、出力層に演 算結果を出力する。出力層の積和演算を行う識別素子は、識別すべきクラスの数 と同数である。入力パターンが入力端子より入力されたときに、出力層の識別素 子は、それぞれの識別すべきクラスへの帰属度を出力する。入力パターンに対し て、入力パターンの属性を代表するクラスを識別する出力層の識別素子が最大値 を出力する。教師信号付き学習により、層間の信号の重み係数を、誤差逆伝播法 で更新する。誤差逆伝播法では、入力パターンと出力の期待値とが教師信号とし て、入力層、出力層に提示される。滑らかのシグモイド関数に対して0,1を入 力する。 kohonenは、対象の属性を代表する参照特徴パターンを記憶し、距離計算を行 う単層ニューラルネットを提案した。それは、参照特徴パターンと任意の入力特 徴パターンのユークリッド距離を判別した。(Kohonen,The self-organizing m ap,Proc.of the IEEE 78,1465-1480,1990)認識性能をさらに改善するために 、距離演算型ネットワークでは、対象のクラスに属する特徴パターンの帰属度( 尤度)を決める距離として、統計的分布を考慮したマハラノビス距離が用いられ た。画像通信を用いた画像認識では、MPEG、JPEG等の圧縮画像を転送し 、受けてそれを復元してから、特徴抽出を行い、画像の特徴を判別した。 従来、三次元空間の対象物体の画像を用いて対象物体を識別する方法の課題を 以下に述べる。 3次元空間の物体の画像では、対象物体の自由度が高く、対象の回転、位置の 変化、照明の変化に識別の性能が依存した。 3次元の対象を2次元画像で構成する場合に、少なくとも大容量メモリを必要 とした。情報量の削減のために用いる主成分分析、直交変換では、識別する対象 の特徴を表現する基底がデータの分布に依存した。しかも、その基底の計算に膨 大な演算量を必要した。 多層ニューラルネットワークは、複雑なネットワーク構成を持つので、学習時 間が長くなった。たとえば、Lawrenceらの方法では、40人の10種類の顔画像 からなるデータベースで、5種類の顔画像の特徴を学習されるのに、4時間を要 した。このように、少ない数の学習用画像サンプルを用いて、複雑なネットワー クを効率的に学習させることが課題であった。 さらに、有限個の比較的小数のデータベースを基にして対象識別を行うには、 対象の特徴量の統計分布が正規分布からのずれが大きかった。学習のサンプル数 が少数に限定されている場合、統計の分散の評価を考慮した画像の特徴量の識別 は、分散を考慮しない場合に比べて、認識率が低下することがあった。特に、統 計の分散の評価が困難であった。 発明の開示 次に本発明は、上の課題を解決するために、以下のような画像認識方法を提供 する。 第一手段は、輝度、色信号の量子化の手段である。ある属性を持つ対象の2次 元画像の全画素から求めた輝度信号の度数分布とその累積輝度分布を用いて、量 子化した輝度階調に属する画素数が総て等しくなるように、輝度を入力し、量子 化した輝度を出力する量子化テーブルを構成する。2次元画像の全ての画素の輝 度信号を量子化テーブルに入力して量子化する。 第2手段は、矩形領域を基本単位とする特徴量抽出の手段である。第1の手段で 得れた2次元画像を矩形領域単位に分割し、矩形領域ごとに、量子化された輝度 、色信号の各階調に属する画素数を求める。2次元画像から求められた3次元配 列の特徴量h(x,y,z)と記述する。x,yは、矩形領域座標、zは、量子化され た輝度階調を示す。 第3の手段は、特徴パターンの次元の削減の手段である。特徴パターンは、第1 、2の手段を用いて、任意の対象の2次元画像から求められた3次元配列の特徴 量h(x,y,z)を変換することにより求まる。各階調ごとに、矩形領域(x,y) の水平座標、垂直座標方向に2次元画像を取り出し、2次元画像の矩形領域の画 素数に2次元離散コサイン(もしくはサイン)を変換し、周波数成分を、求める 。認識率が最大となるように、周波数成分の数を選択する。 第4の手段は、特徴量の次元の削減の手段である。第1、2の手段を用いて対象 の2次元画像から求められた3次元配列の特徴量パターンhp(x,y,z)を3次元離 散コサイン(もしくはサイン)変換し、周波数成分を求め、認識率が最大となる ように、低周波成分の特徴量を用いることにより、特徴量の次元の削減を行う。 第5の手段は、相関距離による特徴量識別の手段である。特徴パターンは、3次 元マトリックス構造をもつ要素の画素数、周波数成分で表される。3次元マトリ ックス構造は、第1、第2、第3の手段、もしくは、第1、第2、第4の手段に より、同一の属性を持つ、対象を走査して得られた画像データベースから求める 。参照ベクトルと特徴パターンとの距離は、以下の式とする。 (座標(P1,P2,P3)は、3次元画素数の成分(x、y、z)、2次元D CTの周波数成分(u,v,z)、3次元DCTの周波数成分(u,v,w)と 同一である。距離は、正規分布を仮定した確率関数の対数値の2倍である。 同一の属性qの対象の二次元画像のデータベースから、第1、2の手段により求 めた3次元配列の各要素成分の特徴量hqp(x,y,z)の統計的分布の中心μqp(x,y, z)と分散σqp(x,y,z)を求め、これらを参照の基準として、任意の対象の2次元 画像から第1、2の手段で得た3次元配列の特徴量ベクトルhp(x,y,z)と参照ベ クトルμqp(x,y,z)との距離を計算する。 任意の2次元画像の3次元配列の特徴量ベクトルhp(x,y,z)は、複数個Mqの種 類の属性を有する対象の二次元画像の集合から得られた参照ベクトルとの相互距 離が最小である参照ベクトルで代表される種類mに属すると判定する。 第6の手段は、ニューラルネットワークの学習を利用した距離による特徴量識別 の手段である。 ニューラルネット識別素子の素子数は、識別すべき属性の数と同じである。識別 素子は、3次元配列の要素成分の個数と同数の入力端子とそれと全数結合した出 力素子を有している。任意の対象の2次元画像から特徴量入力ベクトルを入力し たとき、その対象の属性を代表する参照ベクトルを記憶している識別素子が最小 の出力値を出力する。識別素子は、3次元配列の各要素成分の特徴量の統計的分 布の中心、分散を参照、分散ベクトルを学習係数として記憶し、任意の対象の2 次元画像から求めた特徴量入力ベクトルと参照ベクトルとの距離を出力端子より 出力する。3次元マトリックス構造をもつ要素の画素数、周波数成分の特徴パタ ーン分布の中心、分散に対応した参照、分散ベクトルをニューラルネットワーク の学習で求める。 第7の手段は、3次元マトリックス構造をもつ要素の画素数、周波数成分の特徴 パターンの分布の混合モデルを用いた画像認識である。3次元マトリックス構造 は、第1、第2、第3の手段、もしくは、第1、第2、第4の手段により、同一 の属性を持つ、対象を走査して得られた画像データベースから求める。相関距離 計算のために、あるセットのクラスからなる混合クラスを構成する。ある属性を もつ物体の特徴パターンのクラスについて、異なる属性をもつ特徴パターンが混 合クラスに加える。混合クラスに属する最適なクラス数を選択する。最尤度分散 ベクトルの成分を、ある特徴量入力パターンの分散ベクトルの成分と、それと異 なる属性をもつ対象の分散ベクトルの成分との相互情報量の基準値を最少化する ことによって、3次元マトリックス構造をもつ各成分について、画素数成分、周 波数成分の混合分布から求める。情報基準値は、任意の対象の2次元画像から得 られた特徴量入力ベクトルの分散の対数値、その対象とは異なる対象の2次元画 像から得られた特徴量の分散の対数値とを用いて定義される。 第8の手段は、3次元マトリックス構造をもつ要素の画素数、周波数成分の特徴 パターン分布の中心と分散に対応した参照ベクトルと分散ベクトルを求めるニュ ーラルネットワークに入力する特徴量ベクトルの作成手段である。任意の対象の 特徴量の入力ベクトルにおいて、特徴量ベクトル空間において、その特徴量ベク トルと第5の手段における距離が最も近い異なる対象の入力画像の特徴量ベクト ルが選択される。これらの特徴パターンを相互に混合して得られる特徴量入力ベ クトルを、ニューラルネットワークに入力する。その付加する他の属性の対象の 特徴量その混合比を学習回数とともに低減させる。 第9の手段は、任意の属性をもつ3次元空間の対象からえられた複数の2次元画 像のデータセットから、第1の手段により求めた2次元画像の画素数、周波数成 分の3次元配列の特徴パターンを遠隔地から受信して符号化した信号を有線もし くは無線の媒体を通じて、第3手段で送られてきた画像の対象の属性を判定する 。第10の手段は、第1、2の手段により用いられる画像のデータベースの構成 方法である。対象の画像データベースは、3次元対象を一定の角度ごとに回転さ せながら、もしくは、3次元対象をある時間間隔で、撮影した2次元画像から構 成させる。 本発明は先述の課題を解決するもので、以下の作用をもつ。 本発明による画像認識方法で用いるニューラルネットは、回転、位置、照明の 変化に対して不変の特徴量を抽出する作用がある。ヒストグラムを用いた量子化 により、照明の変化に不変な特徴量を用いているので、外界の照明の変化に対し て強い識別する作用がある。本発明の特徴量の空間では、3次元物体の輝度の変 化を、量子化した輝度空間において、分散して記憶する作用がある。画像の特徴 量の画像の統計的なばらつきを最適化する作用がある。 図面の簡単な説明 図1は画像通信での本発明の対象識別法の実施例である。 図2は2次元画像のブロック分割とサンプリングによる特徴抽出の実施例であ る。 図3は本発明の画像認識ニューラルネットワークの構成図である。 図4はニューラルネット識別装置のハードウエアの実施例である。 図5はDCT係数の数、誤認識率、平均絶対誤差の関係である。 図6はヒストグラム正規化の有無による学習性能の比較である。 図7は本発明のニューラルネット学習のための画像合成の実施例である。 図8は本発明の画像合成による学習データを用いた認識性能である。 図9は混合クラスの関数である最尤度に混合クラスの構造である。 図10は平均分散、誤認識率、混合クラスのサンプル数との関係である。 図11は本発明の回転を考慮した対象認識方法の説明図である。 図12は回転角0〜60度の変動を有する回転物体の認識性能である。 図13は様々な方法で得たシステム性能である。 発明を実施するための最良の形態 (実施例1) 本発明における画像認識方法の実施例である。 図1は、画像通信での本発明の対象識別法の説明図である。 1は2次元画像の輝度信号入力、2は輝度信号の量子化、3は2次元画像の矩 形領域単位の特徴抽出、4は特徴量の情報圧縮、5は特徴量の符号化、6は特徴 量の暗号化、7は特徴量の解読化、8は特徴量の復号化、9はニューラルネット ワークによる識別である。 (1)、原画像は、CCD(固体撮像素子)で撮影される。 (2)、原画像の輝度、色信号の階調は、非線型テーブルにより、量子化された 階調に変換される。 (3)、量子化された画像は、複数の矩形領域に分割される。サンプリング器が 矩形領域ごとの量子化された階調に属する映像信号を持つ画素数を求める。 (4)、操作3のサンプリング得れた3次元のマトリックス構造で表された画素 数は、請求の範囲第1項〜第3項の方法により、2次元もしくは3次元DCTに より変換される。DCT係数の低周波成分は、対象識別の3次元の特徴量として 、選択される。 (5)、DCTの低周波成分から抽出された3次元の特徴パターンは、無線、有 線の転送線より符号化、暗号化されて転送される。 (6)、受信側で、転送された3次元の特徴パターンは、解読、復号化される。 (7)、復号されたDCT係数の低周波成分は、ニューラルネットワークに入力 される。 転送器は、原画像を転送することなしに受信器側で、遠隔認識を実現する特徴 抽出と圧縮の機能がある。 本発明で用いる特徴抽出は、JPEG、MPEGの規格と互換性のあるDCTが 用いられる。 有線、無線の送信側で3次元配列の画素数で代表する2次元画像の特徴量入力 ベクトルを符号化して送信し、受信側で符号化した2次元画像の特徴量の信号を 受信して、ニューラルネットワークを用いて、その特徴量の符号が代表する対象 の属性を判定する。本発明は、特徴量の情報圧縮は、離散コサイン変換のような 固定の係数の直交変換を行う。圧縮した特徴量を符号化して転送することにより 、圧縮画像を直接送信して受信側で特徴抽出と識別を行う場合に比べて、少ない 情報量で受信側のニューラルネットワークを用いて対象識別を行うことができる 。 (実施例2) 本発明の実施例では、画像データベースを用いた物体(対象)を識別するため の特徴抽出と識別の基本操作を示す。本発明の対象認識方法の基本画像データベ ースは、Mq種類の対象ごとにNp個の2次元画像から構成されている。(Mq= 40、Np=10) 画像認識方法の基本操作は、 (M1)非線形変換による2次元画像の全ての色、輝度信号の量子化 (M2)量子化した2次元画像の矩形領域分割とサンプリングから得られた3次 元メモリ構造による特徴量の表現法、 (M3)3次元特徴パターンの離散コサイン変換 (M4)本発明の距離の基準値を利用した特徴パターンの識別 である。 操作M1で、その累積輝度分布Gq(j)を用いて、原画像の色もしくは輝度信 号jは変換される。 [数式1] f(j)は、2次元画像の全画素の画像信号から求めた256階調の度数分布で ある。256階調の画像信号jは、Nz階調の信号yに変換される。全画素の信 号を量子化テーブルに入力し、最大階調NZの信号yqに変換する。得られた画像 を量子化された2次元画像と呼ぶ。 [数式2] 図2は、2次元ブロック分割とサンプリングによる特徴抽出である。3次元の メモリ構造を用いて、対象の特徴量を代表させる。10は、Nx x Ny画素の 矩形領域で、11は、特徴量に用いる量子化した2次元画像の矩形領域分割、1 2は、特徴量抽出した3次元配列の特徴である。 操作M2の操作で、量子化した2次元画像11は、Nx x Nyのサイズの矩 形領域10に分割され、各階調の区間に属する輝度、色信号の画素の数を計算す る。矩形領域ごとにサンプリングして量子化した階調ごとに度数分布は。3次元 配列hp(x,y,z)で表現される。(ここでx,y,zは、水平座標、垂直座標、量 子化し た輝度階調座標成分で、x=1〜Nx、y=1〜Ny、z=1〜Nzである。)Nz 階調の量子化された画像がNx x Nyの矩形領域に分割された場合には、ヒスト グラム度数は、Nx x Ny x Nzの3次元配列で表現される。 情報量の次元削減のために、操作M3で、ヒストグラム度数は2次元、3次元離 散コサイン変換により変換させる。ここでは、2次元画像離散コサイン変換を適 用すると、 [数式3] を得る。(c(V)=1/2√2(u≠0)、c(v)=1/2(u=0),u=1〜Nx-1、v=1 〜Ny-1、c) 2次元画像離散コサイン変換で得られた低周波数成分を用いることにより、特徴 量入力ベクトルの次元を削減できる。h2dct p(u,v,z)は、hp(x,y,z)の2次元離 散コサイン変換である。Nx x NyのDCT係数の低周波成分 h2dct p(u,v,z)はパターン識別の特徴パターンとして用いられる。たとえば、u= 0〜Ndctx−1、v=0〜Ndcty−1、z=0〜Nz−1の係数を用いて、Ndctx x Nd cty x Nzの3次元係数が得られる。実施例4で、説明する方法で、認識率を最大 にするように、最適なNdctx、Ndctyの値を選択した。 第4の操作では、特徴量入力ベクトルは、正規分布の確率関数P(h(u,v,z)| μq(u,v,z)、σq(u,v,z)|)の負対数尤度関数から求まる識別判定関数を用いて クラス分けされる。 [数式4] ただし、μ2dct q(u、v,z)、σ2dct q(u,v,z)は、正規分布を仮定したクラスの平均 、分散から得れた参照、分散ベクトルの成分である。Mq種類の対象の参照ベク トルとの距離が最小である参照ベクトルで代表される種類mに属すると判定する 。 [数式5] [数式6] (Npは学習サンプルの数である。) Mq個の対象をクラスわけするために、本発明では、Mp個の認識判別関数のセ ットを用いて、入力特徴パターンの認識判別関数が最少出力をもつクラスに帰属 するとして、最尤度クラスm*を同定する。 [数式7] 式3のかわりに、3次元DCTがヒストグラム密度の次元削減に用いる。 [数式8] (実施例3) 本発明の実施例では、任意属性を持つ対象の複数の2次元画像から求めた特徴 量入力ベクトルをニューラルネットワークに入力し、画像認識を行う。図3は、 本発明の画像認識ニューラルネットワークの構成の説明図である。 13は、入力端子、14は、識別素子、15は、出力端子である。ニューラルネ ットワークの各識別素子はNxxNyxNz個の入力端子と1つの出力素子とから 構成される。Mq個の種類の対象を識別するために、ニューラルネットワークは 、数式4で定義される識別判別関数をもつ、Mq個の識別素子から構成される。 任意の対象の2次元画像から求めた特徴量入力ベクトルに対して、対象を代表 する参照ベクトルを記憶した ニューラルネットワークの識別素子は、最小の出力値を出力する。 図4は、ニューラルネットの識別装置のハードウエアの実施例である。16は 、入力端子からの入力ベクトルのレジスタ、17は、差の演算器、18は、乗算 器、19は、2乗の累積加算器、20は、特徴量参照ベクトルレジスタ、21は 、特徴量分散ベクトルレジスタである。 各識別素子は、メモリレジスタ20と21に、特徴入力パターンの正規分布か ら求まる参照ベクトルと分散ベクトルを保持している。それは、入力レジスタ1 6に入力される3次元配列の入力特徴量パターンと参照ベクトルとの相対距離を 決める。差の演算機17を用いて、その参照ベクトルレジスタとNxxNyxNz 個の入力端子からの特徴入力ベクトルレジスタとの差が演算される。乗算器19 は、その結果と特徴量分散ベクトルレジスタの逆数との乗算を行う。2乗の蓄積 加算器19で、すべてのベクトル成分の2乗した値の総和加算を行うことにより 、参 照ベクトルと特徴量入力ベクトルの特徴との距離を演算する。 3次元構造の各成分ごとに、画素数、周波数成分の分布の平均と分散に対応す る参照、分散ベクトルは、ニューラルネットワークの学習により、求まる。ここ で、2次元DCTを用いたニューラルネットワークの学習の例を示している。ク ラスpの特徴量の入力ベクトルhp(u,v,z)を入力したとき、すべての識別素子は 、入力ベクトルと記憶している参照ベクトルとの距離を出力する。パターンの入 力と距離の最小値を出力する出力素子のクラスに対応する参照ベクトルを以下に 式により変更する。入力パターンがクラスkに属するとき、 [数式9] 入力パターンがクラス1に属さないとき、 [数式10] (μ(t) l(u,v,z)、μ(t) k(u,v,z)は、学習の繰返し回数tで、クラスkとlの分 散ベクトルの成分を示している。) また、β1、β2は、更新係数で、tは、更新の回数を示す。 [数式11] [数式12] (σ(t) l(u,v,z)、σ(t) k(u,v,z)は、学習の繰返し回数tで、クラスkとlの分 散ベクトルの成分を示している。) ζ(λ)は、更新関数である。 [数式13] λ>0 ζ(λ)=ζ0. [数式14] 任意のクラスPに対する参照、分散ベクトルの初期値は、DCT係数の成分ごと に正規分布を仮定して、平均と分散より求める。 [数式15] [数式16] (実施例4) 本発明は、対象の特徴をDCTにより表現するときの最適な係数の数を決める 手段を提供する。 本例では、h2dct (u,v,z)は、実施例2の操作M3で記述されたヒストグラム度 数hP(x,y,z)を2次元DCT変換して得られる。 図5は、DCT係数の数と、認識誤差率、平均絶対誤差の関係をそれぞれ22の 2次元DCT h(a)2dct (u,v,z)、23のh(b)2dct (u,v,z)に対して示している。 [数式17] [数式18] [数式19] ここで、N(a)dct、N(b)dctは、特徴量の低周波数成分(u,v)を規定する。 DCT近似表現において、誤差と複雑さとは相反する関係である。DCT係数の 次元を増やすと、近似誤差は減少するが、学習のニューラルネットワークの複雑 さは増大する。学習ニューラルネットワークの誤認識率は、係数の次元36(N(a)dct =5、N(b)dct=7)で最少になった。本発明によれば、DCT係数の次 元は、モデルの複雑さと平均絶対誤差との相反関係によって決まる認識エラーを 最少にするように、決める。 (実施例5) 発明したニューラルネットワークは、40人の10異なるポーズからなるORL (Olivetti Research Laboratory)データベースの400枚の画像を用いて、構 成した。5つのポーズの画像を学習に、残りの画像をテストに用いた。114x 88の入力画像を8x8x8の矩形ブロックに分割した。 図6は、ヒストグラム正規化の非線型テーブルを用いた場合25と用いない場 合24の学習性能を比較した。輝度の変化特性を評価するテスト画像は、ガンマ 変換g(y)=255*(Y/255)(1/ γ)を用いて生成した。γ係数が1であるとき、ヒスト グラム正規化を用いない量子化の誤り率は、本発明の誤り率より少し低いが、輝 度の変化が大きくなると、誤り率は非常に大きくなった。誤り率は、γが0.925 以下あるいは1.2以上では、0.1より大きくなった。それと比較して、ヒストグラ ム正規化を用いた量子化法の誤り率は、γが0.4から3.0の範囲では、0.04から0. 09の間で比較的低い誤り率であった。 本発明の画像合成方法の有効性を示すために、図7では、画像合成を用いた2 、3次元DCTによる顔認識性能の結果を、同じデータの他の方法と比較した。ブ ロックヒストグラム入力の次元は、4x4x4から4x4x8、もしくは4x4 x4に2もしくは3次元DCTにより削減した。 図7は、本発明の画像合成によるニューラルネットワーク学習のための画像合 成の説明図である。ふたつの異なる人顔A、Bの混合比を1/0、3/1、3/ 2、2/3、1/3、0/1にした場合の合成画像を示している。合成するふた つの画像をqとm(q)で表す。データベース画像において、任意の画像qに関 して式(4)で定義する参照パターンの最小距離をもつ画像m(q)を選択する 。 [数式21] [数式22] [数式23] その混合比を学習回数tに応じて変えていく。 [数式24] 認識性能の評価を、400人の顔画像からなるORLデータベースを用いた顔識別 試験により、行った。そのデータベースは、40人が目を開閉、笑顔の有無、眼 鏡の有無等の10種類の表情をとった顔画像からなる。図8は、本発明の画像合 成による学習データを用いた認識性能を示している。40人の10種類からなる 顔データベースで、学習サンプルの種類数を1から5の間で変えて、残りの9か ら5のサンプル数を認識のテスト画像として用いた。27は、2次元DCTで求 めたqとm(q)との類似の入力特徴量ベクトルを混合比A/B(α=0.5)で 混合し、混合比を時定数(η=200)で学習回数tの進行とともに、減少させ た。26は画像合成を用いない入力特徴量ベクトルをニューラルネットに入力し た識別結果である。 5人の学習サンプルで、混合比0.5で2次元DCT法を用いた本発明の誤認識率は 2.4%で、合成を用いない誤認識率13.6%に比べて非常に低くなった。した がって、2DCTの誤認識率は、ほぼ6倍改善されている。この結果は、本発明の 合成を用いた2次元DCTによる顔認識の有効性を実証する。 図13は、自己組織化写像法SOM(Self-organizing Map)、相関ネットワーク CN(Convolution Network)疑似2次元HHM(Hidden Marcov Model)顔の特徴固有 値法(Eigen face)による方法と比較した本発明の顔認識システムの性能を示し ている。SOM、HMM、Eigenfaceの結果は(S.Lawrence et al.Techical ReportC S-TR-3608,University Maryland 1996)から得れた。誤り率2.29%は、S0M+CN 、KLT+相関ネットワーク、疑似2次元HHM、顔の特徴固有値法の3.8%,5.3%、5% 、10.5%に比べて良かった。 (実施例6) 式(4)は,入力特徴パターンの正規分布を仮定して得られる参照ベクトルと分 散ベクトルと用いた判別方程式である。それは、対象の特徴を示す参照パターン と入力の特徴パターンとの相関距離を評価する。サンプルの数が少ないときには 、特徴パターン分布の仮定が正規分布からずれるために、画像認識の性能が低下 する。学習のサンプルが少ない場合でも、正しく対象を認識させるために、前件 の局所な特徴分布の混合モデルを発明した。本発明は、それぞれのクラスに、そ れを構成するクラス数が可変となるように、混合クラスに割り当る。モデルの分 布と真の分布との相互エントロピーを最小にするように、混合するクラスの数と 、局所的な距離パラメータ(参照ベクトルと分散ベクトル)を決める。 図9は、混合するクラス数をパラメータとして、最尤度関数lk(u,v,z) minによ る混合クラス造を説明する図である。混合クラスMk(m)(u,v,z)は、k(0)、k(1) 、…、k(m-1)(ただし、k(0)=k)のクラスのセットから構成される。 基準となるkごとに、クラスm番目のクラスk(m)は、最尤度関数lk(u,v,z) min の基準により、割り当てる。 [数式25] ある種類kである対象の特徴量ベクトルの分散と他の対象の特徴量ベクトルとの 分散のlogの和を最小にする対象の種類を調べる。m番に最小の値をもつ種類 をk(m)で表すとする。ある種類kである対象の特徴量ベクトルの分散と他の 対象の特徴量ベクトルとの分散のlogの和を逐次求める。クラスごとに、混合 モデルの最小のサイズが、最尤度関数lk(u,v,z) minの最小化により、ユニーク に求まる。 [数式26] 最適な分散は、数式(26)より求まる。 [数式27] k(q)は、クラスkの画像分散とq番目に分散の和の距離が小さい画像のクラスの 特徴量との混合分布の分散を持つ。 図10は、平均分散、誤認識率と、混合クラスのサンプル数との関係を示して いる。29、31で示す本発明の性能は、28と30とのすべての成分で同数の 成分数を用いた結果を示す。クラスの数の大きさが3、4であるときに、7.6 5%と8.24%の最小誤り率と、618と960の分散を得た。本発明を用い ることで、混合クラスの数を増加せると、誤り率と平均分散は低下して、6.2 8%と518に飽和した。本発明の重要な点は、混合クラスの数をパラメータと して、変化させることである。エントロピーの距離で定義された混合クラスの最 適なクラスの数を用いることで、クラスの数が可変な場合の誤り率は7.78% から6.28%に顕著に低下した。 (実施例7) 第7の実施例では、回転に対して不変な画像特徴量を識別するニューラルネッ トワークが、回転する物体の複数の画像をニューラルネットの学習データを用い ることで、構成させる本発明の方法を示す。 図11は、本発明の回転を考慮した対象識別方法の説明図である。32と33 の水平、垂直中心線の交点を中心に、回転物体34を角度0、60、120、1 80、240、300度の角度で回転する。 3次元空間で、回転物体を走査して得られる2次元画像の全ての画素の輝度信 号を非線形テーブルに入力し、量子化した値に変化される。量子化した2次元画 像は、複数の矩形領域に分割される。その矩形領域で、量子化された輝度信号に 対応した輝度分布の各階調に属する画素数を求める。 一人あたり6つの回転された画像から3次元構造の特徴パターンを求めて、ニ ューラルネットワークに入力する。回転物体の3次元表現を用いる本発明の方法 は、回転物体の矩形領域の同一位置で、異なる輝度信号の画素をサンプルするこ とにより得られる特徴パターンを異なる階調に割り当てる。これによって、ニュ ーラルネットワークは、回転させた画像の各信号の干渉なしに、特徴パターンを 分散記憶することが可能になる。 図12は0〜60度で回転角度を変化させた物体の認識性能を示している。ニ ューラルネットワークを構成するために、0、60、120、180、240度 の回転させた40人の顔画像から得れた入力パターンを用いた。本発明では、学 習サンプルの画像合成を用いた。(すなわち、θ=0、60、120、180、 240度)。それらの画像を、角度変化の範囲Δθを1から60度として、回転 させることによって、顔画像を求めた。テスト画像の回転角は、θ+Δθとなる 。本発明の認識の誤り率は、画像合成を用いない方法に比べて、低い。本発明の 実施例は、回転物体を認識する効果を説明する。 輝度空間で6つ回転角の画像の信号を重畳すると、矩形領域ごとの画素の輝度 信号で代表させた画像は、他の画像と干渉する。 以上のように、本発明では、回転、照明、位置の変化等に対して不変な画像特 徴量を入力してニューラルネットワークを構成するので、それらの変化に対して 優れた認識率を示す。 従来の距離の演算では、最適化が困難だった距離の演算の変わりに、本発明で は、特徴量ベクトルの分散の統計的分布の推定を最適化することで、少ない学習 数でも、効率良く、学習を行うことができる。 本発明では、時間的に混合比を変化させて、類似した画像の特徴量をノイズと して重畳するので、類似した画像間の識別率を向上させる効果がある。 本発明では、離散コサイン変換等の固定した係数で特徴量の圧縮を図るので、 通信の標準的な圧縮通信システムに組み込みやすい。DETAILED DESCRIPTION OF THE INVENTION                               Image recognition method Technical field   According to the present invention, an image (object) in a three-dimensional space is identified by a feature amount of a two-dimensional image. It relates to an image recognition method. Background art   In a conventional method for recognizing an object in a three-dimensional space, a representative feature of a three-dimensional object is represented by a two-dimensional image. It is configured as a set of images, and the feature of the object is expressed as a feature represented by a set of two-dimensional image data. Type identified. When an image of a three-dimensional object is composed of luminance signals of a two-dimensional image, Because the dimension of the amount of information represented by becomes very large, it is expressed in a low-dimensional space Needed. Conventional method (Face Recognition: Hybrid Neural Network Approach T proposed in echnical Reports, CS-TR-3608, University of Maryland, 1996 In addition, neural networks use low-order information In order to represent the original feature space without loss, principal component analysis, Kahunen-Loe The ve transform was used. From the distribution of image features in high dimensional space, its distribution Then, the optimal basis depending on was obtained, and the feature amount of the object was extracted.   Multilayer neural networks use a product-sum operation to weight the input pattern. And an identification element. An input layer for inputting patterns, an output layer for outputting identification results, and a hidden Layer. The number of input terminals in the input layer has the same dimension as the input pattern. Hiding The identification element that performs the product-sum operation of the layers inputs the input pattern of the input layer and performs an operation on the output layer. Outputs the calculation result. The number of classes to be identified is And the same number. When an input pattern is input from the input terminal, the identification The child outputs the degree of belonging to each class to be identified. For input pattern Therefore, the identification element of the output layer that identifies the class that represents the attribute of the input pattern has the maximum value. Is output. By supervised learning, the weighting coefficient of the signal between layers can be Update with. In the backpropagation method, the input pattern and the expected value of the output are used as teacher signals. And presented to the input and output layers. Enter 0 and 1 for smooth sigmoid function Power.   kohonen memorizes the reference feature pattern representing the target attribute and calculates the distance. A single-layer neural network was proposed. It consists of a reference feature pattern and any input features. The Euclidean distance of the sign pattern was determined. (Kohonen, The self-organizing m ap, Proc. of the IEEE 78,1465-1480,1990) To further improve recognition performance , The distance calculation type network, the degree of belonging of the feature pattern belonging to the target class ( Mahalanobis distance considering statistical distribution is used as distance to determine likelihood) Was. In image recognition using image communication, compressed images such as MPEG and JPEG are transferred. After receiving and restoring it, feature extraction was performed to determine the features of the image.   Conventionally, the problem of a method for identifying a target object using an image of the target object in a three-dimensional space is described. It is described below.   In an image of an object in a three-dimensional space, the degree of freedom of the target object is high, and the rotation and position of the target The performance of discrimination depended on changes in lighting and lighting.   When a 3D object is composed of 2D images, at least a large amount of memory is required And In principal component analysis and orthogonal transformation used to reduce the amount of information, The basis for expressing the characteristics of the data depended on the distribution of the data. Moreover, the calculation of the basis is expanded. It required a large amount of computation.   Multi-layer neural networks have a complex network configuration, The interval became longer. For example, in Lawrence et al.'S method, 10 face images of 40 people It takes 4 hours to learn the features of five types of facial images in a database consisting of did. In this way, using a small number of training image samples, The task was to make the students learn the work efficiently.   Furthermore, in order to perform object identification based on a finite number of relatively small databases, The deviation of the statistical distribution of the target feature from the normal distribution was large. Number of training samples Of image features considering evaluation of statistical variance when the number is limited to a small number In some cases, the recognition rate was lower than in the case where variance was not considered. In particular, It was difficult to evaluate the total variance. Disclosure of the invention   Next, the present invention provides the following image recognition method to solve the above problems. I do.   The first means is a means for quantizing the luminance and chrominance signals. Secondary of target with certain attribute Using the frequency distribution of the luminance signal obtained from all pixels of the original image and its cumulative luminance distribution, Input the luminance so that the number of pixels belonging to the A quantization table for outputting the converted luminance is configured. Brightness of all pixels in 2D image The degree signal is input to a quantization table and quantized. The second means is a means for extracting a feature amount using a rectangular area as a basic unit. By the first means The obtained two-dimensional image is divided into rectangular areas, and the quantized luminance is calculated for each rectangular area. , The number of pixels belonging to each gradation of the color signal is obtained. Three-dimensional arrangement determined from two-dimensional images Column feature h(x, y, z)It is described. x and y are rectangular area coordinates, and z is quantized. FIG. The third means is a means for reducing the dimension of the feature pattern. The feature pattern is the first Features of three-dimensional array obtained from two-dimensional image of arbitrary object using means of 2. Quantity h(x, y, z)Is obtained by converting. For each gradation, a rectangular area (x, y) The two-dimensional image is extracted in the horizontal and vertical coordinate directions of the Converts a two-dimensional discrete cosine (or sine) to a prime number and finds the frequency component . The number of frequency components is selected so that the recognition rate is maximized. The fourth means is a means for reducing the dimension of the feature amount. Target using the first and second means The feature pattern hp (x, y, z) of the three-dimensional array obtained from the two-dimensional image of Performs scattered cosine (or sine) conversion, finds frequency components, and maximizes recognition rate As described above, the dimension of the feature amount is reduced by using the feature amount of the low frequency component. A fifth means is a means for identifying a feature quantity based on a correlation distance. Feature pattern is tertiary It is represented by the number of pixels and frequency components of the element having the original matrix structure. 3D matri Box structure, the first, second and third means, or the first, second and fourth means From the image database obtained by scanning the object with the same attribute . The distance between the reference vector and the feature pattern is given by the following equationAnd (Coordinates (P1, P2, P3) are three-dimensional pixel number components (x, y, z) and two-dimensional D CT frequency components (u, v, z), three-dimensional DCT frequency components (u, v, w) Are identical. The distance is twice the logarithmic value of the probability function assuming a normal distribution. From the database of two-dimensional images of the same attribute q, The center μqp (x, y, z) of the statistical distribution of the feature quantity hqp (x, y, z) of each element component of the three-dimensional array z) and the variance σqp (x, y, z) are calculated, and these are used as a reference for two-dimensional The feature vector hp (x, y, z) of the three-dimensional array obtained from the image by the first and second means and the reference vector Calculate the distance from the vector μqp (x, y, z). A feature vector hp (x, y, z) of a three-dimensional array of an arbitrary two-dimensional image is a plurality of Mq seeds. Distance from reference vectors obtained from a set of two-dimensional images of objects with a class of attributes It is determined that it belongs to the type m represented by the reference vector having the smallest separation. The sixth means is feature amount discrimination by distance using learning of a neural network. Means. The number of elements of the neural network identification element is the same as the number of attributes to be identified. identification The elements have the same number of input terminals as the number of element components in the three-dimensional array and the output terminals connected to all the input terminals. It has a force element. Input a feature value input vector from a two-dimensional image of an arbitrary object The identification element storing the reference vector representing the attribute of the target is The output value of is output. The discriminating element is a statistical component of the feature amount of each element component of the three-dimensional array. The center of the cloth and the variance are referred to, and the variance vector is stored as a learning coefficient. From the output terminal, the distance between the feature input vector obtained from the two-dimensional image and the reference vector Output. The number of pixels of elements having a three-dimensional matrix structure and the characteristic pattern of frequency components Neural network for reference, variance vector corresponding to the center of variance, variance Find by learning. The seventh means is the feature of the number of pixels of the element having the three-dimensional matrix structure and the frequency component. Image recognition using a mixed model of the distribution of patterns. 3D matrix structure Are the same by the first, second, and third means or the first, second, and fourth means. Is obtained from an image database obtained by scanning an object having the attribute of Correlation distance Construct a mixed class of a set of classes for computation. An attribute In the class of the feature pattern of the object, the feature patterns with different attributes are mixed. Add to joint class. Select the optimal number of classes belonging to the mixed class. Maximum likelihood variance The components of the vector are the components of the variance vector of a certain feature Minimize the reference value of mutual information with the component of the variance vector of the target having the attribute Thus, for each component having a three-dimensional matrix structure, the number of pixels component, It is determined from the mixture distribution of wave number components. The information reference value is obtained from a two-dimensional image of any object. Logarithmic value of the variance of the input feature vector, and the two-dimensional image It is defined using the logarithmic value of the variance of the feature amount obtained from the image. Eighth means is the feature of the number of pixels and frequency components of an element having a three-dimensional matrix structure. A method for finding the reference vector and variance vector corresponding to the center and variance of the pattern distribution. This is a means for creating a feature vector to be input to the neural network. Any target In the feature vector, the feature vector And the feature vector of the input image of the different target whose distance is the closest in the fifth means. Is selected. A feature input database obtained by mixing these feature patterns with each other The vector is input to the neural network. The target of the other attributes The feature ratio is reduced with the number of times of learning. A ninth means is a method for generating a plurality of two-dimensional images obtained from an object in a three-dimensional space having arbitrary attributes. From the image data set, the number of pixels and frequency components of the two-dimensional image obtained by the first means The signal which received the characteristic pattern of the three-dimensional array from the remote place and encoded Or the attribute of the object of the image sent by the third means through a wireless medium . The tenth means is a configuration of a database of images used by the first and second means. Is the way. The image database of the object rotates the three-dimensional object by a certain angle. From a two-dimensional image taken of a three-dimensional object at certain time intervals Let it run.   The present invention solves the above-mentioned problem, and has the following operations.   The neural network used in the image recognition method according to the present invention includes rotation, position, and illumination. It has the effect of extracting a feature that is invariant to changes. Quantization using histogram Because of this, the invariant features are used for changes in lighting, Has a strong discriminating effect. In the feature space of the present invention, a change in the brightness of a three-dimensional object is obtained. There is an effect that the quantization is dispersed and stored in the quantized luminance space. Image features It has the effect of optimizing the statistical variability of the amount of images. BRIEF DESCRIPTION OF THE FIGURES   FIG. 1 shows an embodiment of the object identification method of the present invention in image communication.   FIG. 2 shows an embodiment of the feature extraction by block division and sampling of a two-dimensional image. You.   FIG. 3 is a configuration diagram of the image recognition neural network of the present invention.   FIG. 4 shows an embodiment of the hardware of the neural network identification device.   FIG. 5 shows the relationship between the number of DCT coefficients, the erroneous recognition rate, and the average absolute error.   FIG. 6 is a comparison of learning performance with and without histogram normalization.   FIG. 7 shows an embodiment of image synthesis for neural network learning according to the present invention.   FIG. 8 shows recognition performance using learning data obtained by image synthesis according to the present invention.   FIG. 9 shows the structure of the maximum likelihood mixture class as a function of the mixture class.   FIG. 10 shows the relationship among the average variance, the false recognition rate, and the number of samples in the mixed class.   FIG. 11 is an explanatory diagram of the object recognition method in consideration of rotation according to the present invention.   FIG. 12 shows the recognition performance of a rotating object having a rotation angle of 0 to 60 degrees.   FIG. 13 shows system performance obtained by various methods. BEST MODE FOR CARRYING OUT THE INVENTION (Example 1)   5 is an embodiment of an image recognition method according to the present invention.   FIG. 1 is an explanatory diagram of the object identification method of the present invention in image communication.   1 is a luminance signal input of a two-dimensional image, 2 is quantization of the luminance signal, and 3 is a rectangular signal of the two-dimensional image. Feature extraction in unit of shape area, 4 is information compression of feature, 5 is coding of feature, 6 is feature Encryption of quantity, 7 is decryption of feature quantity, 8 is decryption of feature quantity, 9 is neural network It is identification by work. (1) The original image is captured by a CCD (solid-state imaging device). (2) The luminance of the original image and the gradation of the color signal are quantized by a non-linear table. It is converted to gradation. (3) The quantized image is divided into a plurality of rectangular areas. Sampler The number of pixels having a video signal belonging to a quantized gradation for each rectangular area is obtained. (4) A pixel represented by a three-dimensional matrix structure obtained by sampling in operation 3 The number is converted to a two-dimensional or three-dimensional DCT by the method of claims 1 to 3. Is converted. The low-frequency component of the DCT coefficient is used as a three-dimensional feature for object identification. Is selected. (5) The three-dimensional feature pattern extracted from the low frequency components of the DCT is wireless, Encoded and encrypted from the line transfer line and transferred. (6) On the receiving side, the transferred three-dimensional feature pattern is decrypted and decoded. (7) The low frequency component of the decoded DCT coefficient is input to the neural network. Is done.   The transmitter realizes remote recognition on the receiver side without transmitting the original image. Has extraction and compression capabilities. The feature extraction used in the present invention is performed by DCT compatible with JPEG and MPEG standards. Used.   Input of feature values of two-dimensional images represented by the number of pixels in a three-dimensional array on the wired or wireless transmission side The vector is encoded and transmitted, and the signal of the feature amount of the two-dimensional image encoded on the receiving side is obtained. Receive and use a neural network to represent the object represented by the sign of the feature Is determined. According to the present invention, information compression of a feature Performs orthogonal transformation of fixed coefficients. By encoding and transferring the compressed features, Compared to the case where the compressed image is directly transmitted and the feature extraction and identification are performed on the receiving side. Object identification can be performed using the neural network on the receiving side based on the amount of information . (Example 2)   In the embodiment of the present invention, in order to identify an object (object) using an image database, The basic operation of feature extraction and identification is described. Basic image database of the object recognition method of the present invention The source is composed of Np two-dimensional images for each of the Mq types of objects. (Mq = 40, Np = 10)   The basic operation of the image recognition method is (M1) Quantization of all color and luminance signals of a two-dimensional image by non-linear transformation (M2) Third order obtained from rectangular area division and sampling of the quantized two-dimensional image Expression method of feature quantity by original memory structure, (M3) Discrete cosine transform of three-dimensional feature pattern (M4) Characteristic pattern identification using distance reference value of the present invention It is. In operation M1, the color or luminance signal of the original image is calculated using the cumulative luminance distribution Gq (j). The number j is transformed. [Formula 1] f (j) is a frequency distribution of 256 gradations obtained from the image signals of all the pixels of the two-dimensional image. is there. The image signal j of 256 gradations is converted into a signal y of Nz gradation. Signal of all pixels The signal is input to a quantization table and converted into a signal yq of the maximum gradation NZ. The obtained image Is referred to as a quantized two-dimensional image. [Formula 2]   FIG. 2 shows feature extraction by two-dimensional block division and sampling. Three-dimensional The feature amount of the object is represented using the memory structure. 10 is the Nx x Ny pixel Reference numeral 11 denotes a rectangular area division of a quantized two-dimensional image used for a feature amount; Reference numeral 2 denotes a feature of the three-dimensional array from which the feature amount is extracted.   By the operation of the operation M2, the two-dimensional image 11 quantized is converted into a rectangular shape having a size of NxxNy. Calculate the number of pixels of luminance and chrominance signals that are divided into the shape region 10 and belong to each gradation section. You. What is the frequency distribution for each gray level sampled and quantized for each rectangular area? 3D Array hp (x, y, z)Is represented by (Where x, y, z are horizontal coordinate, vertical coordinate, quantity Child X = 1 to Nx, y = 1 to Ny, z = 1 to Nz. ) Nz If the grayscale quantized image is divided into Nx x Ny rectangular areas, The gram frequency is represented by a three-dimensional array of Nx x Ny x Nz. In order to reduce the dimension of the amount of information, in operation M3, the histogram frequency is two-dimensionally and three-dimensionally separated. It is converted by a scattered cosine transform. Here, two-dimensional image discrete cosine transform is applied. If you use [Equation 3] Get. (C(V)= 1 / 2√2 (u ≠ 0), c(v)= 1/2 (u = 0), u = 1 to Nx-1, v = 1 ~ Ny-1, c) By using low-frequency components obtained by two-dimensional image discrete cosine transform, The dimension of the quantity input vector can be reduced. h2dct p (u, v, z)Is hp (x, y, z)Two-dimensional separation This is a scattered cosine transform. Low frequency component of DCT coefficient of NxxNy h2dct p (u, v, z)Are used as feature patterns for pattern identification. For example, u = 0-Ndctx-1, v = 0 to Ndcty-1, z = 0 to NzUsing a coefficient of -1, Ndctx x Nd cty  x NzAre obtained. In the fourth embodiment, the recognition rate is maximized by the method described below. The optimal Ndctx, NdctyValue was selected. In the fourth operation, the feature amount input vector is a probability function P (h(u, v, z)| μq (u, v, z), Σq (u, v, z)|) Using the discriminant judgment function obtained from the negative log likelihood function Classified. [Equation 4] Where μ2dct q (u, v, z), Σ2dct q (u, v, z)Is the mean of the class assuming a normal distribution , The reference obtained from the variance, and the components of the variance vector. Reference vectors of Mq types of objects Is determined to belong to the type m represented by the reference vector having the shortest distance to the . [Equation 5] [Equation 6] (Np is the number of learning samples.) In order to classify the Mq objects, in the present invention, a set of Mp recognition discriminant functions is used. The recognition discriminant function of the input feature pattern belongs to the class with the least output Then the maximum likelihood class m*Is identified. [Equation 7] Instead of Equation 3, a three-dimensional DCT is used to reduce the dimension of the histogram density. [Equation 8] (Example 3)   In the embodiment of the present invention, a feature obtained from a plurality of two-dimensional images of a target having an arbitrary attribute A quantity input vector is input to a neural network to perform image recognition. FIG. FIG. 1 is an explanatory diagram of a configuration of an image recognition neural network of the present invention. 13 is an input terminal, 14 is an identification element, and 15 is an output terminal. Neuralne Each identification element of the network consists of NxxNyxNz input terminals and one output element. Be composed. To identify Mq types of objects, the neural network , And Mq identification elements having an identification discriminant function defined by Equation (4).   Representing the target with respect to the feature input vector obtained from the two-dimensional image of the target Memorized reference vector The identification element of the neural network outputs the minimum output value.   FIG. 4 shows an embodiment of the hardware of the neural network identification device. 16 is , A register of the input vector from the input terminal, 17 is a difference arithmetic unit, and 18 is a multiplication , 19 is a square accumulator, 20 is a feature amount reference vector register, 21 is , A feature amount variance vector register.   Each discriminating element stores the normal distribution of the feature input pattern in the memory registers 20 and 21. It holds the reference vector and the variance vector obtained from it. It is input register 1 The relative distance between the input feature pattern of the three-dimensional array input to 6 and the reference vector Decide. Using the difference calculator 17, the reference vector register and NxxNyxNz The difference from the feature input vector registers from the input terminals is calculated. Multiplier 19 Multiplies the result by the reciprocal of the feature value variance vector register. Accumulation of squares The adder 19 performs the summation of the sum of the squared values of all the vector components. ,three The distance between the illumination vector and the feature of the feature input vector is calculated.   For each component of the three-dimensional structure, the number of pixels and the average and variance of the distribution of frequency components are The reference and the variance vector are obtained by learning of the neural network. here 2 shows an example of learning of a neural network using two-dimensional DCT. K The input vector h of the feature quantity of ras pp (u, v, z)When you enter , And outputs the distance between the input vector and the stored reference vector. Entering a pattern The reference vector corresponding to the class of the output element that outputs the minimum value of force and distance is shown below. Change by formula. When the input pattern belongs to class k, [Equation 9] When the input pattern does not belong to class 1, [Equation 10] (t) l (u, v, z), Μ(t) k (u, v, z)Is the number of iterations t of learning, and is the number of classes k and l The components of the scatter vector are shown. ) Β1 and β2 are update coefficients, and t indicates the number of updates. [Equation 11] [Equation 12] (t) l (u, v, z), Σ(t) k (u, v, z)Is the number of iterations t of learning, and is the number of classes k and l The components of the scatter vector are shown. ) ζ (λ) is an update function. [Equation 13] λ> 0 ζ (λ) = ζ0. [Equation 14] The initial value of the reference and variance vector for an arbitrary class P is set for each DCT coefficient component. Is calculated from the mean and variance, assuming a normal distribution. [Equation 15] [Equation 16] (Example 4)   The present invention determines the optimal number of coefficients when expressing a feature of an object by DCT. Provide a means. In this example, h2dct (u, v, z)Is the histogram degree described in the operation M3 of the second embodiment. Number hP (x, y, z)Is obtained by two-dimensional DCT transformation. FIG. 5 shows the relationship between the number of DCT coefficients, the recognition error rate, and the average absolute error, respectively. 2D DCT h(a) 2dct (u, v, z), 23 h(b) 2dct (u, v, z)Is shown. [Equation 17] [Equation 18] [Equation 19] Where N(a) dct, N(b) dctDefines the low frequency component (u, v) of the feature quantity. In the DCT approximation, the error and the complexity are contradictory. DCT coefficient Increasing the dimension reduces the approximation error but reduces the complexity of the learning neural network. It increases. The misrecognition rate of the learning neural network is determined by the coefficient dimension 36 (N(a) dct = 5, N(b) dct= 7), which was the minimum. According to the invention, the DCT coefficient Originally, recognition errors determined by the reciprocal relationship between model complexity and mean absolute error were introduced. Decide to minimize it. (Example 5)   The invented neural network is an ORL consisting of 10 different poses of 40 people (Olivetti Research Laboratory) Using 400 images from the database, Done. Images in five poses were used for learning and the remaining images were used for testing. 114x The 88 input images were divided into 8x8x8 rectangular blocks.   FIG. 6 shows a case where the non-linear table of histogram normalization is used 25 and a case where the non-linear table is not used. A total of 24 learning performances were compared. The test image used to evaluate the luminance change characteristics is gamma Conversion g (y) = 255 * (Y / 255)(1 / γ)Was generated using. When the γ coefficient is 1, The error rate of quantization without gram normalization is slightly lower than the error rate of the present invention, As the degree change increased, the error rate became very large. The error rate is that γ is 0.925 Below or above 1.2, it was larger than 0.1. In comparison, Histogram The error rate of the quantization method using the system normalization is 0.04 to 0 when γ is in the range of 0.4 to 3.0. The error rate was relatively low between 09.   In order to show the effectiveness of the image composition method of the present invention, FIG. 3. The results of face recognition performance by 3D DCT were compared with other methods of the same data. B The dimension of the lock histogram input is from 4x4x4 to 4x4x8 or 4x4 x4 reduced by two or three dimensional DCT.   FIG. 7 shows an image synthesis for neural network learning by image synthesis according to the present invention. FIG. The mixing ratio of two different human faces A and B is 1/0, 3/1, 3 / 2 shows a composite image when the image is set to 2, 2/3, 1/3, and 0/1. Lid to combine The two images are represented by q and m (q). In the database image, any image q To select the image m (q) having the minimum distance of the reference pattern defined by equation (4) . [Equation 21] [Equation 22] [Equation 23]  The mixture ratio is changed according to the number of times t of learning. [Formula 24] Recognition performance was evaluated using face identification using an ORL database consisting of 400 face images. The test was performed. The database contains 40 people who open and close their eyes, smile or not, It consists of face images with 10 different facial expressions such as the presence or absence of a mirror. FIG. 8 shows the image 4 shows the recognition performance using learning data based on the composition. It consists of 10 kinds of 40 people In the face database, change the number of learning sample types from 1 to 5 and select the remaining 9 5 samples were used as test images for recognition. 27 is obtained by two-dimensional DCT The similar input feature quantity vector between q and m (q) is calculated using the mixture ratio A / B (α = 0.5). And the mixture ratio is reduced with the time constant (η = 200) with the progress of the number of learning t. Was. 26 inputs an input feature vector not using image synthesis into a neural network This is the identification result.   The misrecognition rate of the present invention using the two-dimensional DCT method with a mixture ratio of 0.5 using five learning samples is At 2.4%, the misrecognition rate was very low as compared to 13.6% without using synthesis. did Therefore, the false recognition rate of the 2DCT is improved about 6 times. This result is We demonstrate the effectiveness of face recognition by two-dimensional DCT using synthesis.   FIG. 13 shows a self-organizing map (SOM) and a correlation network. CN (Convolution Network) pseudo two-dimensional HHM (Hidden Marcov Model) Shows the performance of the face recognition system of the present invention compared to the method based on the value method (Eigen face). ing. SOM, HMM, Eigenface results are shown in (S. Lawrence et al. Technical Report C S-TR-3608, obtained from University Maryland 1996). Error rate 2.29% is S0M + CN , KLT + correlation network, quasi-two-dimensional HHM, 3.8%, 5.3%, 5% of the facial feature eigenvalue method Was better than 10.5%. (Example 6)   Equation (4) expresses the reference vector obtained by assuming the normal distribution of the input feature pattern This is a discriminant equation used with a scatter vector. It is a reference pattern that indicates the feature of interest The correlation distance between the input and the feature pattern of the input is evaluated. When the number of samples is small , Image recognition performance deteriorates because feature pattern distribution assumption deviates from normal distribution I do. Even if the number of training samples is small, the prerequisite We have invented a mixed model of the local feature distribution. The present invention applies to each class. It is assigned to a mixed class so that the number of classes that compose it is variable. Model minutes To minimize the mutual entropy between the cloth and the true distribution, , Local distance parameters (reference vector and variance vector) are determined. FIG. 9 shows the maximum likelihood function l using the number of classes to be mixed as a parameter.k (u, v, z) minBy FIG. 4 is a diagram illustrating a mixed class construction. Mixed class Mk (m) (u, v, z)Is k (0), k (1) ,..., K (m-1) (where k (0) = k). For each reference k, the class k (m) of class m is the maximum likelihood function lk (u, v, z) min Assigned according to the criteria. [Equation 25] The variance of the feature amount vector of a target of a certain kind k and the feature amount vector of another target The type of the object that minimizes the log sum of the variance is examined. Type with minimum value in m-th Is represented by k (m). The variance of the feature amount vector of an object of a certain kind k and another The sum of the log of the variance with the target feature amount vector is sequentially obtained. Mixed for each class The minimum size of the model is the maximum likelihood function lk (u, v, z) minUnique by minimizing Is determined. [Equation 26] The optimum variance is obtained from Expression (26). [Equation 27] k (q) is the class of the image class in which the distance between the image variance of class k and the sum of the qth variance is small. It has the variance of the mixture distribution with the feature value.   FIG. 10 shows the relationship between the average variance, the false recognition rate, and the number of samples in the mixed class. I have. The performance of the present invention, denoted by 29 and 31, is the same for all 28 and 30 components. The result using the number of components is shown. When the number of classes is three or four, 7.6 Minimum error rates of 5% and 8.24% and variances of 618 and 960 were obtained. Using the present invention Therefore, when the number of mixed classes is increased, the error rate and the average variance are reduced, and 6.2 Saturated to 8% and 518. An important point of the present invention is that the number of mixed classes is a parameter. And change it. The maximum of the mixed class defined by the entropy distance By using an appropriate number of classes, the error rate when the number of classes is variable is 7.78%. From 6.28% to 6.28%. (Example 7)   In the seventh embodiment, a neural network that identifies image features that are invariant to rotation is used. Network uses neural network learning data to create multiple images of a rotating object. Thus, the method of the present invention to be constituted is shown.   FIG. 11 is an explanatory diagram of the object identification method in consideration of the rotation according to the present invention. 32 and 33 Of the rotating object 34 at angles 0, 60, 120, 1 around the intersection of the horizontal and vertical center lines of Rotate at 80, 240, and 300 degrees.   In three-dimensional space, luminance signals of all pixels of a two-dimensional image obtained by scanning a rotating object The signal is input to a non-linear table and is changed to a quantized value. Quantized two-dimensional image The image is divided into a plurality of rectangular areas. In that rectangular area, the quantized luminance signal The number of pixels belonging to each gradation of the corresponding luminance distribution is obtained.   The three-dimensional structure feature pattern is obtained from six rotated images per person, and Input to the neural network. Method of the invention using a three-dimensional representation of a rotating object Sample the pixels of different luminance signals at the same position in the rectangular area of the rotating object. Are assigned to different gradations. As a result, Neural networks can extract feature patterns without interference between the signals in the rotated image. Distributed storage is possible.   FIG. 12 shows the recognition performance of an object whose rotation angle is changed from 0 to 60 degrees. D 0, 60, 120, 180, 240 degrees to form a neural network The input pattern obtained from the rotated face images of 40 persons was used. In the present invention, The image synthesis of the training sample was used. (That is, θ = 0, 60, 120, 180, 240 degrees). The images are rotated with the angle change range Δθ being 1 to 60 degrees. Then, a face image was obtained. The rotation angle of the test image is θ + Δθ . The recognition error rate of the present invention is lower than that of the method not using image synthesis. Of the present invention The embodiment describes the effect of recognizing a rotating object.   When the signals of the image having six rotation angles are superimposed in the luminance space, the luminance of the pixel in each rectangular area is obtained. An image represented by a signal interferes with another image.   As described above, according to the present invention, image characteristics invariant to rotation, illumination, changes in position, and the like are obtained. Since the neural network is constructed by inputting the amount of measurement, Shows excellent recognition rate.   In the present invention, instead of distance calculation, which was difficult to optimize in conventional distance calculation, the present invention Optimizes the estimation of the statistical distribution of the variance of the feature vectors Even with numbers, learning can be performed efficiently.   In the present invention, by changing the mixing ratio over time, similar image feature amounts are regarded as noise. And superimposing, there is an effect of improving the identification rate between similar images.   In the present invention, since the feature amount is compressed with a fixed coefficient such as a discrete cosine transform, Easy to incorporate into standard compression communication system of communication.

Claims (1)

【特許請求の範囲】 1.画像認識方法が、第1と第2の操作からなり、第1の操作は、3次元空間 の対象を撮影して得た2次元画像において、全画素の色、輝度信号を非線型テー ブルに入力することで、量子化した画像を得る操作であり、第2の操作は、第1 の操作で得た2次元画像を複数の矩形領域に分割し、分割した矩形領域で、色、 輝度信号の量子化した量子化された階調に属する画素数を求める操作である。第 1の操作において、2次元画像の全画素の入力画像信号を量子化して得られる度 数分布で、量子化された階調に属する画素の総数が等しくなるように、第1の操 作の非線型テーブルを構成し、第1、2の操作において得られる各矩形領域にお いて、量子化された信号の強さを矩形領域の水平(xとおく)座標と垂直座標( yとおく)と、量子化された輝度座標(zとおく)の3次元配列(x,y,z) の画素数を用いて、3次元空間の対象を撮影して得た2次元画像の特徴パターン を代表する画像認識方法。 2.請求の範囲第1項に記載する画像認識方法において、3次元空間の対象を 撮影して得た2次元画像の画像信号に請求の範囲第1項の第1と第2の操作を行 って、2次元画像から、矩形要素の水平座標と垂直座標と、量子化された輝度座 標の3次元配列の度数成分で代表される対象の属性の特徴量パターンを求める代 わりに、量子化した2次元画像の信号の階調ごとに、請求の範囲第1項に記載す る3次元配列の度数成分から、水平座標、垂直座標方向に関する2次元配列の画 素数成分を構成し、2次元配列の画素数成分を2次元離散コサイン(もしくはサ イン)変換して、水平と垂直と2次元空間の周波数成分を求め、周波数成分の数 が認識率を最大とするように、2次元空間の周波数成分から選択された低周波成 分から、量子化した2次元画像の信号の階調ごとに、構成した3次元配列(xt ,yt,z)の特徴パターンを用いる画像認識方法。 3請求の範囲第1項に記載する画像認識方法において、3次元空間の対象を撮 影して得た2次元画像の画像信号に請求の範囲第1項の第1と第2の操作を行っ て、2次元画像から、矩形要素の水平座標と垂直座標と、量子化された輝度座標 の3次元配列の度数成分で代表される対象の属性の特徴量パターンを求める代わ りに、請求の範囲第1項に記載する3次元配列を、水平座標、垂直座標、量子化 した輝度座標方向に関する3次元離散コサイン(もしくはサイン)変換して、3 次元空間の周波数成分を求め、周波数成分の数が認識率を最大とするように、3 次元空間の周波数成分から選択された低周波成分から構成した3次元配列(xt, yt,z)の特徴パターンを用いる画像認識方法。 4.請求の範囲第1項の画像認識法において、任意の属性に属する3次元空間 の対象を撮影した複数の2次元画像、もしくは、画像データベースにおいて、請 求の範囲第1項に記載する方法で求めた、2次元画像の画素数、周波数成分の3 次元配列として代表された特徴量パターンにおいて、 3次元配列の画素数、周波数で代表する複数の2次元画像、もしくはデータベー スにおける対象の同一属性の特徴量パターンの集合ごとに、3次元配列の各要素 の画素数分布の平均と分散とで代表される参照ベクトルと分散ベクトルとを求め て、画像データベース以外の任意の対象の2次元画像から請求の範囲第1項に記 載する方法で求めた3次元配列の画素数で代表するされる特徴量入力ベクトルに 対して、分散ベクトル、参照ベクトルで定義される相関距離を、画像データベー ス以外の任意の2次元画像の対象の属性を判定することをの特徴とする画像認識 方法。 5.請求の範囲第4項に記載する画像認識法において、 任意の属性に属する3次元空間の対象を撮影した複数の2次元画像の集合、もし くは、画像データベースにおいて、請求の範囲第1項に記載する方法で求めた3 次元配列の画素数、周波数成分で、代表する2次元画像データベースにおける対 象の同一属性の特徴量の集合ごとに、3次元配列の各要素の画素数分布の分散ベ クトルを求めて、請求の範囲第4項に記載する3次元配列の各要素の画素数、周 波数分布の平均に相当する参照ベクトルをニューラルネットワークの学習により 求めることを特徴とし、 ニューラルネットワークは、請求の範囲第4項に記載する画像データベースの有 限個の種類の同一属性を代表する参照、分散ベクトルを学習係数として保持して 、画像データベース以外の2次元画像の請求の範囲第1項に記載する方法で求め た3次元配列の画素数で代表する属性の特徴量入力に対して、分散ベクトルと参 照ベクトルで定義される相関距離を判別して、画像データベース以外の任意の2 次元画像の対象の属性を判定することを特徴とする画像認識方法。 6.請求の範囲第4項に記載する画像認識装置で、 請求の範囲第1項の画像認識法において、任意の属性に属する3次元空間の対象 を撮影した複数の2次元画像、もしくは、画像データベースにおいて、請求の範 囲第1項に記載する方法で求めた、2次元画像の画素数、周波数成分の3次元配 列として代表された特徴量パターンにおいて、対象の同一属性の特徴量パターン の集合ごとに、3次元配列の各要素の画素数分布の分散ベクトルとを求めて、各 属性の分散ベクトルの成分において、それと異なる属性の分散ベクトルの成分と の相互情報量基準値を求め、各属性の分散ベクトルの成分を、その基準値を最小 するように、その属性とは異なる複数の属性の分散ベクトルの成分を用いて、決 めたことを特徴とする画像認識方法。 7.請求の範囲第5項に記載する画像認識方法において、 ニューラルネットワークの学習により 3次元配列の各要素の画素数、周波数分布の平均、分散に相当する参照、分散ベ クトルを求めるために、請求の範囲第5項に記載する複数の画像もしくは、画像 データベースの2次元画像から求めた3次元配列の画素数、周波数成分で代表す る属性の特徴量入力において、 ある属性の特徴量入力との請求の範囲第5項に記載する特徴量空間での相関距離 が最も小さく、かつ、その属性とは異なる特徴量パターン入力を求めて、それら の特徴量入力パターンを混合した特徴量をニューラルネットワークに入力し、そ の混合比を学習回数とともに変化させることを特徴とする画像認識方法。 8.請求の範囲第5項に記載する画像認識方法において、 3次元空間の対象を撮影して得た2次元画像の画像信号に請求の範囲第1項の操 作を行って、2次元画像から求めた、矩形要素の水平座標と垂直座標と、量子化 された輝度座標の3次元配列の画素数、周波数成分で代表される対象の属性の特 徴量パターンにおいて、 3次元配列の成分の特徴パターンの分布の平均、分散から求めた参照ベクトルと 分散ベクトルを有線、無線の受信側で記憶し、送信側で、請求の範囲第1項に記 載する方法で求めた3次元配列の画素数、周波数成分で代表する2次元画像の特 徴入力パターンを符号化、暗号化して送信し、受信側で、送られてきた2次元画 像の特徴量を解読、復号して、請求の範囲第5項に記載するのニューラルネット ワークを用いて、2次元画像の特徴量の代表する対象の属性を判定する画像認識 方法。 9.請求の範囲第1項に記載する画像認識法で、請求の範囲第1項に記載する 任意の属性に属する3次元空間の対象を撮影した複数の2次元画像、もしくは、 画像データベースの変わりに、2次元画像が、3次元対象を一定の角度ごとに回 転させて撮影したこと2次元画像であることを特徴とし、請求の範囲第1項の3 次元構成の画素数、周波数成分を用いる画像認識方法。[Claims]   1. The image recognition method includes first and second operations, and the first operation is a three-dimensional space In the two-dimensional image obtained by shooting the target, the color and luminance signals of all pixels The second operation is an operation of obtaining a quantized image by inputting the Is divided into a plurality of rectangular areas, and the divided rectangular areas This is an operation for obtaining the number of pixels belonging to the quantized gradation obtained by quantizing the luminance signal. No. In operation 1, the input image signal of all pixels of the two-dimensional image is obtained by quantization. In the number distribution, the first operation is performed so that the total number of pixels belonging to the quantized gradation becomes equal. A non-linear table is constructed, and each rectangular area obtained by the first and second operations is Then, the strength of the quantized signal is represented by the horizontal (x) and vertical (x) coordinates of the rectangular area. y) and a three-dimensional array (x, y, z) of quantized luminance coordinates (set as z) Pattern of a two-dimensional image obtained by shooting an object in a three-dimensional space using the number of pixels Image recognition method.   2. In the image recognition method according to claim 1, an object in a three-dimensional space is The first and second operations of claim 1 are performed on an image signal of a two-dimensional image obtained by shooting. From the two-dimensional image, the horizontal and vertical coordinates of the rectangular element and the quantized luminance A method for calculating a feature pattern of an attribute of a target represented by a frequency component of a three-dimensional array of markers. Instead, each of the gradations of the signal of the quantized two-dimensional image is described in claim 1. From the frequency components of the three-dimensional array, the two-dimensional array A prime number component is constructed, and a pixel number component of a two-dimensional array is converted into a two-dimensional discrete cosine (or In) Transform to find the frequency components in the horizontal, vertical and two-dimensional space, the number of frequency components Low-frequency components selected from frequency components in two-dimensional space so that The three-dimensional array (xt) is constructed for each gradation of the signal of the quantized two-dimensional image. , Yt, z).   3. The image recognition method according to claim 1, wherein an object in a three-dimensional space is photographed. The first and second operations of claim 1 are performed on an image signal of a two-dimensional image obtained by shadowing. From the two-dimensional image, the horizontal and vertical coordinates of the rectangular element, and the quantized luminance coordinates Instead of finding the feature pattern of the attribute of the object represented by the frequency component of the three-dimensional array In addition, the three-dimensional array described in claim 1 is subjected to horizontal coordinate, vertical coordinate, and quantization. Three-dimensional discrete cosine (or sine) conversion in the brightness coordinate direction The frequency components in the dimensional space are obtained, and 3 is set so that the number of frequency components maximizes the recognition rate. A three-dimensional array (xt, xt) composed of low-frequency components selected from frequency components in a three-dimensional space yt, z) An image recognition method using the feature pattern.   4. 3. A three-dimensional space belonging to an arbitrary attribute according to the image recognition method of claim 1. In a plurality of two-dimensional images taken of the target The number of pixels of the two-dimensional image and the frequency component 3 obtained by the method described in the first term In the feature pattern represented as a dimensional array, A plurality of two-dimensional images represented by the number of pixels in a three-dimensional array and frequency, or a database Each element of the three-dimensional array Find the reference vector and variance vector represented by the average and variance of the pixel number distribution of The method according to claim 1, wherein a two-dimensional image of any object other than the image database is described. The feature quantity input vector represented by the number of pixels of the three-dimensional array obtained by the method described above On the other hand, the correlation distance defined by the variance vector and the reference vector Image recognition characterized by determining a target attribute of an arbitrary two-dimensional image other than a source Method.   5. In the image recognition method described in claim 4, A set of a plurality of two-dimensional images obtained by capturing an object in a three-dimensional space belonging to an arbitrary attribute; In other words, in the image database, 3 is obtained by the method described in claim 1. The number of pixels in a two-dimensional array and the frequency component are represented by pairs in a representative two-dimensional image database. For each set of feature values of the same attribute of an elephant, the variance base of the pixel number distribution of each element of the three-dimensional array And calculating the number of pixels and the number of pixels of each element of the three-dimensional array according to claim 4. The reference vector corresponding to the average of the wave number distribution is obtained by learning the neural network. It is characterized by seeking The neural network has an image database described in claim 4. The reference and variance vector representing the same kind of attributes of a limited number are stored as learning coefficients. , A two-dimensional image other than an image database is obtained by the method described in claim 1. The feature vector input of the attribute represented by the number of pixels in the three-dimensional array By determining the correlation distance defined by the illumination vector, An image recognition method characterized by determining a target attribute of a two-dimensional image.   6. The image recognition device according to claim 4, 3. The image recognition method according to claim 1, wherein the object is a three-dimensional space belonging to an arbitrary attribute. Claims in a plurality of two-dimensional images or image databases The number of pixels of the two-dimensional image and the three-dimensional distribution of the frequency components obtained by the method described in the first item. In the feature amount pattern represented as a column, the feature amount pattern of the same attribute of the target And the variance vector of the pixel number distribution of each element of the three-dimensional array for each set of In the component of the variance vector of the attribute, the component of the variance vector of the different attribute The mutual information reference value of each attribute is calculated, and the component of the variance vector of each attribute is minimized. In this way, a decision is made using the components of the variance vector of multiple attributes different from that attribute. An image recognition method characterized by:   7. The image recognition method according to claim 5, By learning neural networks The number of pixels of each element of the three-dimensional array, the reference and variance A plurality of images or images according to claim 5 for obtaining a vector. Represented by the number of pixels and frequency components of a three-dimensional array obtained from a two-dimensional image in a database. In the input of the feature amount of the attribute 6. A correlation distance in a feature space described in claim 5 with a feature input of a certain attribute. Is the smallest and the attribute pattern input different from the attribute is calculated. The feature amount that is a mixture of the feature amount input patterns is input to the neural network, An image recognition method characterized by changing the mixture ratio of the learning with the number of times of learning.   8. The image recognition method according to claim 5, 2. The method according to claim 1, further comprising: Horizontal and vertical coordinates of the rectangular element obtained from the two-dimensional image, and quantization Of the attribute of the object represented by the number of pixels of the three-dimensional array of In the charge pattern, The reference vector obtained from the average and variance of the distribution of the feature patterns of the components of the three-dimensional array and The dispersion vector is stored on the wired or wireless receiving side, and is described in claim 1 on the transmitting side. Of the two-dimensional image represented by the number of pixels in the three-dimensional array The input pattern is encoded, encrypted and transmitted, and the received 2D image is received on the receiving side. The neural network according to claim 5, wherein the feature amount of the image is decoded and decoded. Image recognition for determining the attribute of a target represented by the feature of a two-dimensional image using a workpiece Method.   9. The image recognition method described in claim 1 and described in claim 1. A plurality of two-dimensional images of objects in a three-dimensional space belonging to an arbitrary attribute, or Instead of an image database, a two-dimensional image rotates a three-dimensional object at fixed angles. 3. The method according to claim 1, wherein the image is a two-dimensional image taken by rotating the image. An image recognition method using the number of pixels in a dimensional configuration and frequency components.
JP54819999A 1998-03-23 1998-03-23 Image recognition method Pending JP2002511175A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US1998/005443 WO1999049414A1 (en) 1998-03-23 1998-03-23 Image recognition method

Publications (1)

Publication Number Publication Date
JP2002511175A true JP2002511175A (en) 2002-04-09

Family

ID=22266637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54819999A Pending JP2002511175A (en) 1998-03-23 1998-03-23 Image recognition method

Country Status (2)

Country Link
JP (1) JP2002511175A (en)
WO (1) WO1999049414A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112010002677T5 (en) 2009-06-22 2012-11-08 Kabushiki Kaisha Toyota Jidoshokki METHOD AND DEVICE FOR DETERMINING FORM CONFORMITY IN THREE DIMENSIONS
JP2013025791A (en) * 2011-07-19 2013-02-04 Fuji Xerox Co Ltd Methods, systems and programs for clustering collections of geo-tagged photographs
JP2019036899A (en) * 2017-08-21 2019-03-07 株式会社東芝 Information processing unit, information processing method and program
KR102516198B1 (en) * 2021-12-22 2023-03-30 호서대학교 산학협력단 Apparatus for vision inspection using artificial neural network and method therefor

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7609893B2 (en) 2004-03-03 2009-10-27 Trw Automotive U.S. Llc Method and apparatus for producing classifier training images via construction and manipulation of a three-dimensional image model
CN111881920B (en) * 2020-07-16 2024-04-09 深圳力维智联技术有限公司 Network adaptation method of large-resolution image and neural network training device
CN112580666A (en) * 2020-12-18 2021-03-30 北京百度网讯科技有限公司 Image feature extraction method, training method, device, electronic equipment and medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5150433A (en) * 1989-12-01 1992-09-22 Eastman Kodak Company Histogram/variance mechanism for detecting presence of an edge within block of image data
US5274714A (en) * 1990-06-04 1993-12-28 Neuristics, Inc. Method and apparatus for determining and organizing feature vectors for neural network recognition
JPH04315272A (en) * 1991-04-12 1992-11-06 Eastman Kodak Japan Kk Graphic recognizing device

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112010002677T5 (en) 2009-06-22 2012-11-08 Kabushiki Kaisha Toyota Jidoshokki METHOD AND DEVICE FOR DETERMINING FORM CONFORMITY IN THREE DIMENSIONS
JP2013025791A (en) * 2011-07-19 2013-02-04 Fuji Xerox Co Ltd Methods, systems and programs for clustering collections of geo-tagged photographs
JP2019036899A (en) * 2017-08-21 2019-03-07 株式会社東芝 Information processing unit, information processing method and program
US11411575B2 (en) 2017-08-21 2022-08-09 Kabushiki Kaisha Toshiba Irreversible compression of neural network output
KR102516198B1 (en) * 2021-12-22 2023-03-30 호서대학교 산학협력단 Apparatus for vision inspection using artificial neural network and method therefor
KR102533365B1 (en) * 2021-12-22 2023-05-17 호서대학교 산학협력단 Apparatus for vision inspection using auto-encoder and method therefor

Also Published As

Publication number Publication date
WO1999049414A1 (en) 1999-09-30

Similar Documents

Publication Publication Date Title
US6236749B1 (en) Image recognition method
Liu et al. PQA-Net: Deep no reference point cloud quality assessment via multi-view projection
Farid Detecting hidden messages using higher-order statistical models
Pareek et al. IntOPMICM: intelligent medical image size reduction model
WO2019227479A1 (en) Method and apparatus for generating face rotation image
Khashman et al. Image compression using neural networks and Haar wavelet
KR20180004898A (en) Image processing technology and method based on deep learning
CN110599395A (en) Target image generation method, device, server and storage medium
CN110674677A (en) Multi-mode multi-layer fusion deep neural network for anti-spoofing of human face
Wang et al. JPEG steganography with content similarity evaluation
Hossain et al. A secured image steganography method based on ballot transform and genetic algorithm
Reddy et al. Image Compression and reconstruction using a new approach by artificial neural network
JP2002511175A (en) Image recognition method
Kumar et al. Real coded genetic algorithm based stereo image watermarking
CN117242493A (en) Point cloud decoding, upsampling and model training method and device
Trottier et al. Sparse dictionary learning for identifying grasp locations
Baviskar et al. Performance evaluation of high quality image compression techniques
Km et al. Secure image transformation using remote sensing encryption algorithm
JP2020112900A (en) Device associating depth image based on human body and composition value
Lyasheva et al. Image compression method based on analysis of energy features
Proskura et al. Classification of Compressed Multichannel Images and Its Improvement
Kaya An algorithm for image clustering and compression
Saudagar Minimize the percentage of noise in biomedical images using neural networks
Khan 2DOTS-multi-bit-encoding for robust and imperceptible image watermarking
JP2020112899A (en) Learning program associating three-dimensional model and depth image