JP2015185042A - Information processing device, authentication device and methods thereof - Google Patents
Information processing device, authentication device and methods thereof Download PDFInfo
- Publication number
- JP2015185042A JP2015185042A JP2014062728A JP2014062728A JP2015185042A JP 2015185042 A JP2015185042 A JP 2015185042A JP 2014062728 A JP2014062728 A JP 2014062728A JP 2014062728 A JP2014062728 A JP 2014062728A JP 2015185042 A JP2015185042 A JP 2015185042A
- Authority
- JP
- Japan
- Prior art keywords
- data
- information processing
- input
- unit
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Collating Specific Patterns (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、パターン識別に好適な特徴量を抽出する情報処理に関する。 The present invention relates to information processing for extracting feature values suitable for pattern identification.
顔認証などのパターン識別に有効な特徴量として、非特許文献1に記載されたlocal binary pattern(LBP、局所二値パターン)が提案されている。図1によりLBPの抽出処理の概要を説明する。
As a feature quantity effective for pattern identification such as face authentication, local binary pattern (LBP, local binary pattern) described in Non-Patent
座標(x, y)のLBPは、3×3画素領域における中心画素(x, y)を注目画素とし、注目画素に隣接する八つの参照画素(x+xn, y+yn)を用いて、式(1)によって計算される。
tn(x, y) = i(x+xn, y+yn) - i(x, y);
if (tn(x, y) ≧ 0)
s(tn(x, y)) = ‘1’;
else
s(tn(x, y)) = ‘0’;
LBP(x, y) = Σn=0 7{s(tn(x, y))・2n}; …(1)
ここで、i(x, y)は注目画素の画素値、
i(x+xn, y+yn)はn番目の参照画素の画素値、
xn={-1, 0, 1}、yn={-1, 0, 1}、xn 2+yn 2≠0。
The LBP of the coordinates (x, y) is expressed by an equation (8) using the center pixel (x, y) in the 3 × 3 pixel region as the target pixel and eight reference pixels (x + x n , y + y n ) adjacent to the target pixel. Calculated by 1).
t n (x, y) = i (x + x n , y + y n )-i (x, y);
if (t n (x, y) ≥ 0)
s (t n (x, y)) = '1';
else
s (t n (x, y)) = '0';
LBP (x, y) = Σ n = 0 7 {s (t n (x, y)) · 2 n };… (1)
Where i (x, y) is the pixel value of the target pixel,
i (x + x n , y + y n ) is the pixel value of the nth reference pixel,
x n = {-1, 0, 1}, y n = {-1, 0, 1}, x n 2 + y n 2 ≠ 0.
つまり、LBPは、注目画素の値と各参照画素の値の差分から得られるビット列の各要素に2nを乗算したスカラ値として得られる8ビットの特徴量である。 That is, LBP is an 8-bit feature quantity obtained as a scalar value obtained by multiplying each element of the bit string obtained from the difference between the value of the target pixel and each reference pixel by 2 n .
図1に示す例は、注目画素の左隣の画素を(x0, y0)とし、注目画素を中心に反時計回りに(x1, y1)、(x2, y2)、…、(x7, y7)とした例である。つまり、図1に示す例では、破線矢印の順にビットを並べてビット列‘00111010’が得られ、LBPの値は「58」である。 In the example shown in FIG. 1, the pixel adjacent to the left of the target pixel is (x 0 , y 0 ), and (x 1 , y 1 ), (x 2 , y 2 ), , (X 7 , y 7 ). In other words, in the example shown in FIG. 1, the bit string “00111010” is obtained by arranging the bits in the order of the dashed arrows, and the value of the LBP is “58”.
また、特許文献1は、LBPにおけるエンコード前のビット列を特徴量とする手法を提案する。非特許文献1におけるLBPが8ビット、一次元の特徴量(図1の例では58)に対して、特許文献1は、特徴量として1ビット、八次元の特徴量(図1の例では‘00111010’)を生成する。
また、特許文献2は、ビット列の変換方法を学習によって決定する手法を提案する。この手法は、画素パターンが似た3×3画素領域から得られるビット列同士のユークリッド距離を小さくする変換方法を学習によって決定する。具体的には、3×3画素領域の画素パターンの類似性を表現するP次元(P<8)の空間にビット列を射影する変換式を学習する。この手法によれば、元のデータの類似性を表現する、比較的低次元の特徴量を生成することができる。
LBPは、パターン識別に有効な特徴量として広く利用されている。LBPは、元来、LBPヒストグラムとしての使用を前提に設計されたため、LBPの値は単なるインデックスであり、値の大小関係に意味はない。パターン識別の中でも顔認証のように、詳細なテクスチャ情報が識別に有効な場合、ヒストグラム化前のデータをそのまま特徴量として使用する方が好ましい。しかし、LBPの値は大きさ自体に意味がないため、LBPの間の距離によって元のデータの間の類似度を適切に表現することができない。 LBP is widely used as an effective feature amount for pattern identification. Since LBP was originally designed on the assumption that it is used as an LBP histogram, the value of LBP is merely an index, and the magnitude relationship between the values is meaningless. When detailed texture information is effective for identification, such as face authentication, in pattern identification, it is preferable to use data before histogram formation as it is as a feature quantity. However, since the size of the LBP has no meaning in itself, the similarity between the original data cannot be appropriately expressed by the distance between the LBPs.
一方、特許文献1の手法によれば、各ビットそれぞれについて距離を計算することにより、元のデータの間の類似度を表現することが可能である。しかし、特徴量の次元が元のデータの八倍になるため、後段の処理における計算時間が増加する。
On the other hand, according to the method of
また、特許文献2の手法によれば、比較的低次元の特徴量により元のデータの間の類似度を表現することが可能である。しかし、この手法は、元のデータの類似性を表現可能な変換方法を学習するものであって、対象を識別するのに適した変換方法を学習するわけではない。そのため、学習によって得られる変換方法は、必ずしも、パターン識別に適しているとは限らない。
Further, according to the method of
本発明は、複数の要素から構成されるビット列をスカラ値に変換して特徴量を生成する際に、低次元かつパターン識別の対象に適した特徴量を得ることを目的とする。 An object of the present invention is to obtain a feature quantity suitable for a low-dimensional pattern identification target when generating a feature quantity by converting a bit string composed of a plurality of elements into a scalar value.
本発明は、前記の目的を達成する一手段として、以下の構成を備える。 The present invention has the following configuration as one means for achieving the above object.
本発明にかかる情報処理は、入力データにおける処理対象領域内の注目データの近傍の複数データをそれぞれ用いて演算処理を行い、前記複数データそれぞれに対応する演算処理結果を二値化処理し、変換パラメータを用いて、前記複数データそれぞれに対応する二値化処理結果から前記注目データに対する特徴データを生成し、同じクラスの入力データから生成される特徴データの間の距離が小さく、異なるクラスの入力データから生成される特徴データの間の距離が大きくなるように、前記変換パラメータを学習する。 The information processing according to the present invention performs arithmetic processing using each of a plurality of data near the target data in the processing target area in the input data, binarizes the arithmetic processing result corresponding to each of the plurality of data, and converts Using the parameters, feature data for the data of interest is generated from the binarization processing result corresponding to each of the plurality of data, and the distance between the feature data generated from the input data of the same class is small, and the input of different classes The conversion parameter is learned so that the distance between the feature data generated from the data is increased.
本発明によれば、ビット列をスカラ値に変換する変換パラメータの学習により、複数の要素から構成されるビット列をスカラ値に変換して特徴量を生成する際に、低次元かつパターン識別の対象に適した特徴量を得ることができる。 According to the present invention, when learning a conversion parameter for converting a bit string into a scalar value, a bit string composed of a plurality of elements is converted into a scalar value to generate a feature quantity, the object of low-dimensional pattern identification is obtained. A suitable feature amount can be obtained.
以下、本発明にかかる実施例の情報処理を図面を参照して詳細に説明する。 Hereinafter, information processing according to an embodiment of the present invention will be described in detail with reference to the drawings.
以下では、実施例の信号処理とその学習方法について説明し、実施例の信号処理および学習方法をパターン識別に適用する情報処理装置およびその方法を説明する。実施例の信号処理は、入力データ群からパターン識別に使用する特徴量を抽出するために用いられる。入力データ群は、複数の要素からなるデータの集合であり、例えば画像データである。 In the following, the signal processing and learning method of the embodiment will be described, and an information processing apparatus and method for applying the signal processing and learning method of the embodiment to pattern identification will be described. The signal processing of the embodiment is used to extract a feature amount used for pattern identification from an input data group. The input data group is a set of data composed of a plurality of elements, for example, image data.
また、以下では、顔画像から顔認証に適した特徴量を抽出するために実施例の信号処理を使用する例を挙げる。顔認証においては、入力された顔画像から特徴量を抽出し、抽出した特徴量と予め作成され登録された特徴量を比較することで個人を特定する。なお、実施例においては、本発明を顔認証における特徴抽出に適用する例を説明するが、本発明は他のパターン識別における特徴抽出にも適用可能である。 Hereinafter, an example in which the signal processing of the embodiment is used to extract a feature amount suitable for face authentication from a face image will be described. In face authentication, a feature quantity is extracted from an input face image, and an individual is specified by comparing the extracted feature quantity with a previously created and registered feature quantity. In the embodiment, an example in which the present invention is applied to feature extraction in face authentication will be described, but the present invention can also be applied to feature extraction in other pattern identification.
[信号処理部]
図2のブロック図により実施例1における信号処理部の構成例を説明する。
[Signal processing section]
A configuration example of the signal processing unit in the first embodiment will be described with reference to the block diagram of FIG.
入力画像データ101には、予め処理対象領域108が設定されている。図3により入力画像データ101と処理対象領域108の関係を説明する。目、鼻、口といった顔の特徴をよく表す部位を含む領域が処理対象領域108として設定される。
A
演算処理部105a-105cは、処理対象領域108の画像データに局所演算処理を施し、二次元データの局所演算処理結果102a-102cを生成する。局所演算処理は、予め定められた近傍領域に存在する複数データを用いる演算処理である。演算処理部105a-105cは、下式に示す、注目画素と予め指定された参照画素の間の画素値の差分rnを局所演算処理結果として計算する。
rn(x, y) = i(x+xn, y+yn) - i(x, y) …(2)
ここで、rn(x, y)はn番目の参照画素に対応する局所演算処理結果の画素値、
i(x, y)は注目画素の画素値、
i(x+xn, y+yn)はn番目の参照画素の画素値、
(xn, yn)はn番目の参照画素の注目画素に対する相対位置。
The
r n (x, y) = i (x + x n , y + y n )-i (x, y)… (2)
Here, r n (x, y) is the pixel value of the local calculation processing result corresponding to the nth reference pixel,
i (x, y) is the pixel value of the target pixel,
i (x + x n , y + y n ) is the pixel value of the nth reference pixel,
(x n , y n ) is the relative position of the nth reference pixel with respect to the target pixel.
図4により注目画素と参照画素の位置関係の一例を示す。相対位置(xn, yn)は、例えば、図4(a)(b)(c)の順に、それぞれ(x0, y0)=(0, -1)、(x1, y1)=(-1, 0)、(x2, y2)=(1, 1)である。 FIG. 4 shows an example of the positional relationship between the target pixel and the reference pixel. The relative positions (x n , y n ) are, for example, in the order of FIGS. 4 (a) (b) (c), (x 0 , y 0 ) = (0, −1), (x 1 , y 1 ) = (-1, 0), (x 2 , y 2 ) = (1, 1).
二値化処理部106a-106cは、局所演算処理結果102a-102cに二値化処理を施し、二次元データの二値化処理結果103a-103cを生成する。二値化処理部106a-106cは、例えば、二値化処理に下式のステップ関数処理を行う。
if (rn(x, y) ≧ 0)
bn(x, y) = ‘1’;
else
bn(x, y) = ‘0’; …(3)
ここで、bn(x, y)はn番目の参照画素に対応する二値化処理結果の画素値。
The
if (r n (x, y) ≥ 0)
b n (x, y) = '1';
else
b n (x, y) = '0';… (3)
Here, b n (x, y) is a pixel value of the binarization processing result corresponding to the nth reference pixel.
特徴データ生成部107は、積算器107a-107cにより二値化処理結果103a-103cそれぞれに重み係数w0-w2を乗算し、加算器107dにより乗算結果を加算処理して二次元データの特徴データ104を生成する生成処理を行う。以下では、処理対象領域108に対して使用する重み係数のセットw0-w2を「重み係数群」と呼ぶ。下式は二値化処理結果103a-103cから特徴データ104を生成する計算式である。
v(x, y) = Σn=0 N-1{bn(x, y)・wn} …(4)
ここで、v(x, y)は特徴データ104の画素値、
wnはn番目の参照画素に対応する二値処理結果の重み係数、
Nは二値化処理結果の数。
The feature
v (x, y) = Σ n = 0 N-1 {b n (x, y) ・ w n }… (4)
Where v (x, y) is the pixel value of the
w n is a weighting factor of the binary processing result corresponding to the nth reference pixel,
N is the number of binarization processing results.
図2に示す信号処理部はN=3の例であり、b0(x, y)からb2(x, y)は二値化処理結果103a-103cの画素値である。
The signal processing unit illustrated in FIG. 2 is an example of N = 3, and b 0 (x, y) to b 2 (x, y) are pixel values of the
学習部109は、詳細は後述するが、学習により、パターン識別の対象に適合する重み係数群w0-w2を決定する。
Although details will be described later, the
LBPは、ビット列の各ビットに2Nを乗算して、スカラ値を得る。実施例の信号処理部において、二値化処理結果103a-103cは、LBPにおけるエンコード処理前のビット列と等価である。そして、パターン識別の対象に適合するように学習された重み係数群w0-w2と各ビットの乗算結果を加算してスカラ値である特徴データ104を得る。つまり、重み係数群w0-w2がビット列をスカラ値に変換する変換パラメータに相当する。
LBP multiplies each bit of the bit string by 2 N to obtain a scalar value. In the signal processing unit of the embodiment, the
[学習部]
学習部109は、図2に示す信号処理部の出力である特徴データ104がパターン識別対象に有効な特徴量を示すように重み係数群w0-w2を学習により決定する。
[Learning Department]
The
図5のブロック図により学習部109の構成例を説明する。学習部109は、Siamese学習器(非特許文献2参照)を基本構成とする。Siamese学習器は、入力データのペアとそれらデータのクラスを示すラベル情報を基に、特徴データ間の距離を、同じクラスのデータに対しては小さくし、異なるクラスのデータに対しては大きくする、変換パラメータを学習する。
A configuration example of the
データベース(DB)406は、顔画像と当該顔画像に対応する人物IDからなる顔認証用のデータ群を格納する。人物IDは、顔画像に対応する人物を特定するための識別情報であり、例えば整数値で表される。例えば、DB406に登録された人物の順に人物IDとして例えば値0、1、2、…が設定される。さらに、人物IDに、名前やニックネームなどの文字列データを関連付けることが好ましい。 The database (DB) 406 stores a face authentication data group including a face image and a person ID corresponding to the face image. The person ID is identification information for specifying a person corresponding to the face image, and is represented by an integer value, for example. For example, values 0, 1, 2,... Are set as person IDs in the order of persons registered in the DB 406, for example. Furthermore, it is preferable to associate character string data such as a name and a nickname with the person ID.
DB406に登録する顔画像は、両目が水平に配置され、かつ、予め定められたサイズになるように画像変換された画像が好ましい。さらに、信号処理の出力として、各種変動に対してロバストな特徴量が得られるように、顔画像は、パン方向およびチルト方向への顔の傾き、表情、照明条件などについて、様々な変動を含むことが望ましい。 The face image registered in the DB 406 is preferably an image obtained by converting the images so that both eyes are arranged horizontally and have a predetermined size. Furthermore, the face image includes various variations in the tilt, facial expression, lighting conditions, etc. of the face in the pan direction and tilt direction so that a robust feature amount can be obtained as a signal processing output. It is desirable.
画像ペア選択部407は、DB406から学習に使用する顔画像のペアを選択する。顔画像のペアは、DB406に格納されたすべての顔画像の中から、毎回、ランダムに選択される。選択された顔画像の画像データ401a、401bはそれぞれ、特徴抽出部408aと408bに入力される。また、画像ペア選択部407は、選択した顔画像の人物IDが同じ場合は値0、異なる場合は値1のラベル405を設定する。ラベル405は、損失計算部404において損失が計算される際に使用される。
The image
特徴抽出部408a、408bは、入力された顔画像401a、401bに対して、図2に示す信号処理部と同等の処理を実行して特徴データ104を生成する。特徴抽出部408a、408bは同じ構成を有し、重み係数群402を共有するため、入力された顔画像が同じであれば同じ特徴データが得られる。
The
距離計算部403は、特徴抽出部408a、408bが生成した二つの特徴データの距離を計算する。本実施例においては距離尺度として、特徴データをベクトルとした場合のベクトル間のL1ノルムを使用する。例えば、特徴データのサイズをW×Hとすると、ベクトルの次元はW×Hになる。下式は、特徴抽出処理408a、bが生成した特徴データ間のL1ノルムを計算する計算式である。
E(w) = ‖v1(w) - v2(w)‖1 …(5)
ここで、E(w)は特徴データ間のL1ノルム、
wは重み係数群、
vm(w)は入力画像mから生成した特徴データ、
mは画像ペアにおけるインデックス。
The
E (w) = ‖v 1 (w)-v 2 (w) ‖ 1 … (5)
Where E (w) is the L1 norm between feature data,
w is a group of weight coefficients,
v m (w) is feature data generated from the input image m,
m is the index in the image pair.
式(5)において、重み係数群wは、本実施例の信号処理における重み係数を要素とするベクトルである。特徴データv、L1ノルムEは何れも重み係数により値が変化するため、wの関数として表す。特徴データv1(w)、v2(w)は、顔画像401a、401bから生成される特徴データである。つまり、式(5)により、第一の特徴データv1(w)の各要素を並べた一次元のベクトルと、第二の特徴データv2(w)の各要素を並べた一次元のベクトルの間のL1ノルムが計算される。
In Equation (5), the weighting factor group w is a vector having the weighting factors in the signal processing of this embodiment as elements. The feature data v and the L1 norm E are expressed as functions of w because the values change depending on the weighting coefficient. The feature data v 1 (w) and v 2 (w) are feature data generated from the
なお、距離尺度はベクトル間のL1ノルムに限らず、ユークリッド距離、コサイン距離など他の距離尺度を使用してもよい。 The distance scale is not limited to the L1 norm between vectors, and other distance scales such as Euclidean distance and cosine distance may be used.
損失計算部404は、距離計算部403が計算したL1ノルムと、画像ペア選択部407が生成したラベル405に基づき、損失を計算する。下式は、L1ノルムとラベル405から損失L(w)を計算する計算式である。
L(w) = (1 - Y)2/Q・E(w)2 + Y・2Q・exp{-2.77E(w)/Q} …(6)
ここで、Yはラベル405(値0は人物IDが同じ、値1は人物IDが異なる)、
QはL1ノルムE(w)の上限値(設定値)。
The
L (w) = (1-Y) 2 / Q ・ E (w) 2 + Y ・ 2Q ・ exp {-2.77E (w) / Q}… (6)
Where Y is label 405 (
Q is the upper limit (set value) of L1 norm E (w).
顔画像401a、401bの人物IDが同じ場合、ラベル405はY=0になり、損失L(w)は、L1ノルムE(w)が小さければ小さな値に、L1ノルムE(w)が大きければ大きな値になる(距離と損失が比例関係を示す)。つまり、同じ人物の顔画像については、特徴データ間の距離が小さいほど損失L(w)が小さな値になることを意味する。
If the
また、顔画像401a、401bの人物IDが異なる場合、ラベル405はY=1になり、損失L(w)は、L1ノルムE(w)が小さければ大きな値に、L1ノルムE(w)が大きければ小さな値になる(距離と損失が反比例関係を示す)。つまり、異なる人物の顔画像については、特徴データ間の距離が大きいほど損失L(w)が小さな値になることを意味する。
Further, when the person IDs of the
顔画像のペアから損失L(w)が計算されると、係数更新部409は、損失L(w)を基に勾配降下法を用いて重み係数群402を更新する。なお、重み係数群402は、学習を始める前に初期化する必要があり、係数更新部409は、乱数を用いて重み係数群402を初期化するか、以前の学習により得られた重み係数群wを重み係数群402の初期値に設定し、追加再学習を行うようにする。
When the loss L (w) is calculated from the pair of face images, the
下式は、勾配降下法により重み係数群wのi番目の要素の更新を示す式である。
w'i = wi - ρ・∂L(w)/∂wi …(7)
ここで、wiは更新前のi番目の要素、
w'iは更新後のi番目の要素、
ρは更新係数。
The following expression is an expression indicating the update of the i-th element of the weight coefficient group w by the gradient descent method.
w ' i = w i -ρ ・ ∂L (w) / ∂w i … (7)
Where w i is the i-th element before update,
w ' i is the i-th element after the update,
ρ is an update coefficient.
式(7)によりwiを更新するには∂L(w)/∂wiを求める必要がある。損失L(w)は、L1ノルムE(w)を通してのみwiに依存するため、偏微分の連鎖法則を適用し、∂L(w)/∂wiを下式のように変形する。
∂L(w)/∂wi = ∂L(w)/∂E(w)・∂E(w)/∂wi …(8)
In order to update w i by equation (7), it is necessary to obtain (L (w) / ∂w i . Since the loss L (w) depends on w i only through the L1 norm E (w), the partial differential chain law is applied to transform ∂L (w) / ∂w i as shown in the following equation.
∂L (w) / ∂w i = ∂L (w) / ∂E (w) ・ ∂E (w) / ∂w i … (8)
式(8)において、∂L(w)/∂E(w)は、式(6)をL1ノルムE(w)について偏微分することにより得られる。また、∂E(w)/∂wiは、∂L(w)/∂wiを分解した場合と同様に、下式のように変形することができる。
∂E(w)/∂wi = Σj{∂L(w)/∂vj・∂vj/∂wi} …(9)
ここで、vjは特徴データv(w)のj番目の要素。
In equation (8), ∂L (w) / ∂E (w) is obtained by partial differentiation of equation (6) with respect to L1 norm E (w). Further, ∂E (w) / ∂w i, as in the case of decomposing ∂L (w) / ∂w i, can be transformed into the following equation.
∂E (w) / ∂w i = Σ j {∂L (w) / ∂v j・ ∂v j / ∂w i }… (9)
Here, v j is the j-th element of the feature data v (w).
式(9)において、∂E(w)/∂vjは、式(5)をvjについて偏微分することにより得られる。ただし、∂E(w)/∂vjは、顔画像401aの特徴データv1(w)に含まれるvj、顔画像401bの特徴データv2(w)に含まれるvjそれぞれについて計算する必要がある。また、式(9)は、特徴データv(w)の各要素vjについて分解した結果を総和する。これは、L1ノルムE(w)が特徴データv(w)の全要素vjを通してwiに依存するためである。
In Equation (9), ∂E (w) / ∂v j is obtained by partial differentiation of Equation (5) with respect to v j . However, ∂E (w) / ∂v j is calculated for v j, respectively v j included in the feature data v 2 (w) of the
また、式(9)において、∂vj/∂wiは、式(4)をwiについて偏微分することにより得られる。このようにして得られる∂L(w)/∂wiを用いて、式(7)によりwiを更新する。 Further, in the equation (9), ∂v j / ∂w i is obtained by equation (4) is partially differentiated for w i. The thus obtained ∂L (w) / using ∂w i, and updates the w i by the equation (7).
なお、∂E(w)/∂vjには、特徴データv1(w)から算出されたものと、特徴データv2(w)から算出されたものがある。重み係数群wは、前者の∂E(w)/∂vjを用いて更新された後、後者の∂E(w)/∂vjを用いて更新されるものとする。 Note that ∂E (w) / ∂v j includes those calculated from the feature data v 1 (w) and those calculated from the feature data v 2 (w). Weight coefficient group w, after being updated using the former ∂E (w) / ∂v j, it shall be updated using the latter ∂E (w) / ∂v j.
以上の勾配降下法による重み係数群wの更新は、顔画像のペア一組に対して一回実行する。例えばM組(M≧1)のペアが選択される場合、式(7)による重み係数wの更新はM回実行される。 The updating of the weight coefficient group w by the gradient descent method described above is executed once for each pair of face images. For example, when M pairs (M ≧ 1) are selected, the updating of the weighting coefficient w by Expression (7) is executed M times.
[情報処理装置の構成]
図6のブロック図により実施例の情報処理装置の構成例を示す。
[Configuration of information processing device]
A block diagram of FIG. 6 shows a configuration example of the information processing apparatus of the embodiment.
CPU503は、RAM505をワークメモリとして、ROM504やデータ保存部501に格納されたOSや各種プログラムを実行し、システムバス509を介して、後述する構成を制御し、後述する機能を実行する。データ保存部501は、ハードディスクドライブ(HDD)、ディスクドライブ、メモリカード、USBメモリなどで構成され、記録媒体に画像データ、プログラムやその他のデータを保持する。データ保存部501に格納されたプログラムには、前述した信号処理部および学習部109を実現するプログラムやデータ、後述する顔認証を実行するプログラムやデータが含まれる。
The
表示部507は、ビデオカードおよびモニタから構成され、CPU503によって、画像処理前後の画像や、グラフィックスユーザインタフェイス(GUI)などを表示する。
The
入力部506は、キーボード、ポインティングデバイス、表示部507のモニタに重ねられたタッチパネルなどを有し、ユーザ指示を入力する。実施例の情報処理装置を例えばディジタルカメラやプリンタなどの機器に適用する場合、入力部506は、ボタン、ダイヤル、テンキー、タッチパネルなどに相当する。勿論、ソフトウェアキーボードをモニタに表示し、タッチパネルの操作によってユーザ指示が入力される構成も可能である。
The
通信部502は、有線または無線ネットワークを介して、機器間の通信を行うためのインタフェイスである。
The
CPU503は、顔認証対象の画像データを、例えば、入力部506に設けられたUSBなどのシリアルインタフェイスなどを介して外部の撮像装置から入力する。あるいは、通信部502を介して、ネットワーク上の撮像装置または情報処理装置やサーバ装置から顔認証対象の画像データを入力してもよい。また、図5に示すDB406は、データ保存部501またはネットワーク上のサーバ装置に格納されている。
The
なお、実施例の情報処理装置は、前述した信号処理部および学習部、後述する顔認証処理を実現するプログラムを汎用のコンピュータ機器に供給することで実現可能である。 The information processing apparatus according to the embodiment can be realized by supplying the above-described signal processing unit and learning unit, and a program for realizing face authentication processing described later to a general-purpose computer device.
[顔認証処理]
図7のフローチャートにより実施例の顔認証処理を説明する。なお、図7に示す処理はCPU503によって実行される。
[Face recognition processing]
The face authentication process of the embodiment will be described with reference to the flowchart of FIG. Note that the processing shown in FIG.
CPU503は、顔認証処理を開始すると、上述した信号処理に使用する処理対象領域108、参照画素の相対位置、重み係数群、後述する変換行列などに関する情報をRAM505の所定領域にロードする初期化処理を実行する(S601)。
When the face authentication process is started, the
図8により処理対象領域108、参照画素の相対位置、重み係数群に関する情報のメモリ格納形式の一例を示す。RAM505には、次の情報が格納される。処理対象領域の情報として、処理対象領域108の対角線上の二頂点の座標(Xlt, Ylt)と(Xrb, Yrb)が格納される。続いて、局所演算処理結果の数に対応する参照画素の数Nが格納される。続いて、参照画素数N分の参照画素の相対位置として(x0, y0)、(x1, y1)、…、(xN-1, yN-1)が格納される。さらに、参照画素数N分の重み係数群としてw0、w1、…、wN-1が格納される。
FIG. 8 shows an example of a memory storage format of information on the
重み係数群として、例えば乱数または以前の学習により得られた重み係数群が初期値として設定される。なお、図8に示す処理対象領域108、参照画素の相対位置、重み係数群に関する情報の格納形式は一例であり、CPU503がそれら情報を識別可能な形式であれば任意の格納方法でよい。
As the weight coefficient group, for example, a random number or a weight coefficient group obtained by previous learning is set as an initial value. Note that the storage format of information regarding the
次に、CPU503は、入力部506を介して、動作モードの指示が入力されたか否かを判定する(S602)。そして、動作モードの指示が入力されると、指示された動作モードに従い処理を分岐し(S603)、指示された動作モードに従う処理が終了すると、処理をステップ601に戻す。
Next, the
実施例における動作モードには、(a)学習モード、(b)識別モード、(c)登録モードの三つがある。学習モードにおいては、上述した学習処理(S604)が実行される。識別モードにおいては、上述した信号処理を用いて顔認証処理(S605)が実行される。登録モードにおいては、上述した信号処理を用いて顔認証に使用する登録データの作成処理(S606)が実行される。 There are three operation modes in the embodiment: (a) learning mode, (b) identification mode, and (c) registration mode. In the learning mode, the above-described learning process (S604) is executed. In the identification mode, face authentication processing (S605) is executed using the signal processing described above. In the registration mode, registration data creation processing (S606) used for face authentication is executed using the signal processing described above.
また、学習処理に使用される顔画像は、学習処理に先立ち、以下の手順に従い作成され、人物IDに関連付けられてデータ保存部501など割り当てられたDB406に格納されているとする。
Further, it is assumed that the face image used for the learning process is created according to the following procedure prior to the learning process and stored in the DB 406 assigned to the
CPU503は、学習対象の顔画像の画像データをデータ保存部501などからRAM505の所定領域にロードし、ロードした画像データを8ビット符号なし輝度画像に変換する。そして、顔検出手法を用いて、画像データから顔領域を検出し、所定サイズにリサイズした顔画像の画像データを人物IDに関連付けてDB406に格納する。
The
さらに、動的アピアランスモデルや動的形状モデルなどを用いて、目、鼻、口などの部位の位置を検出し、検出した位置に基づき、両目を水平に配置し、かつ、顔画像が所定サイズになるように画像変換することが好ましい。さらに、信号処理の出力として、各種変動に対してロバストな特徴量が得られるように、顔画像は、パン方向およびチルト方向への顔の傾き、表情、照明条件などについて、様々な変動を含むことが望ましい。 In addition, the position of the eyes, nose, mouth, and other parts are detected using a dynamic appearance model, a dynamic shape model, etc., and the eyes are horizontally arranged based on the detected positions, and the face image has a predetermined size. It is preferable to convert the image so that Furthermore, the face image includes various variations in the tilt, facial expression, lighting conditions, etc. of the face in the pan direction and tilt direction so that a robust feature amount can be obtained as a signal processing output. It is desirable.
なお、学習処理に使用される顔画像を作成する準備作業を外部の画像処理装置などによって実行することもできる。この場合、CPU503は、ネットワークや記録媒体を介して、外部で作成された顔画像と人物IDを入力し、顔画像と人物IDをDB406に格納する。
It should be noted that the preparatory work for creating the face image used for the learning process can also be executed by an external image processing device or the like. In this case, the
●学習モード
図9のフローチャートにより学習処理(S604)を説明する。
Learning Mode The learning process (S604) will be described with reference to the flowchart of FIG.
学習モードが指示されると、CPU503は、学習の完了を判定するためのカウンタpをp=0に初期化し(S611)、カウンタpのカウント値に基づき所定の繰返回数K(≧1)の学習が完了したか否かを判定する(S612)。つまり、p<Kの場合は学習が未了と判定され処理はステップS613に進み、p=Kになると学習が完了と判定され処理はステップS602に戻り、動作モードの指示入力を待つ。
When the learning mode is instructed, the
学習が未了の場合、CPU503は、学習に使用する一枚目の顔画像をDB406からランダムに選択し、選択した顔画像の画像データ401aと当該顔画像の人物IDをRAM505の所定領域にロードする(S613)。そして、上述した信号処理により、一枚目の顔画像の画像データ401aから特徴データを抽出する(S614)。
If the learning has not been completed, the
次に、CPU503は、学習に使用する二枚目の顔画像をDB406から選択し、選択した顔画像の画像データ401bと当該顔画像の人物IDをRAM505の所定領域にロードする(S615)。二枚目の顔画像は一枚目の顔画像を除く顔画像の中からランダムに選択される。そして、上述した信号処理により、二枚目の顔画像の画像データ401bから特徴データを抽出する(S616)。
Next, the
次に、CPU503は、一枚目の顔画像の人物IDと二枚目の顔画像の人物IDが一致するか否かを判定してラベル405を生成する(S617)。前述したように、人物IDが一致すればラベルY=0、一致しなければラベルY=1が生成される。
Next, the
次に、CPU503は、二つの特徴データとラベルYを用いて損失L(w)を計算し(S618)、損失L(w)を用いて、勾配降下法により、RAM505に格納した重み係数群を更新する(S619)。そして、カウンタpをインクリメントして(S620)、処理をステップS612に戻す。
Next, the
●識別モード
図10のフローチャートにより識別処理(S605)を説明する。
Identification Mode The identification process (S605) will be described with reference to the flowchart of FIG.
識別モードが指示されると、CPU503は、顔認証対象の画像データをRAM505の所定領域にロードし(S631)、当該画像データから顔画像を抽出する(S632)。なお、顔認証対象の画像データが複数の人物の顔画像を含む場合、複数の顔画像が抽出される。
When the identification mode is instructed, the
次に、CPU503は、動的アピアランスモデルや動的形状モデルなどを用いて、抽出した顔画像から目、鼻、口などの部位の位置を検出し、検出位置に基づき両目を水平に配置し、かつ、顔画像を所定サイズにする画像変換を前処理として行う(S633)。
Next, the
次に、CPU503は、上述した信号処理により、顔画像の画像データ(複数の顔画像を抽出した場合は一つの画像データ)から特徴データを抽出し(S634)、特徴データの次元を削減する(S635)。以下では、次元削減後の特徴データを「射影ベクトル」と呼ぶ。
Next, the
次元削減は、特徴データから識別に効果的な情報のみを抽出して、後段の処理における計算量を少なくする処理である。次元削減は、主成分分析(principal component analysis)や局所保存射影(locality preserving projection)などの予め決定された変換行列を用いて行えばよい。 The dimension reduction is processing for extracting only information effective for identification from feature data and reducing the amount of calculation in the subsequent processing. The dimension reduction may be performed using a predetermined transformation matrix such as principal component analysis or locality preserving projection.
変換行列は、次元削減後のベクトル空間を規定する基底ベクトルを配置したものである。変換行列を用いて、特徴データを一列に並べた特徴ベクトルを、元の空間から基底ベクトルが規定する空間へと射影する。変換行列は、ROM504やデータ保存部501に格納されていたり、または、プログラムの一部として提供され、初期化処理(S601)においてRAM505にロードされる。
The transformation matrix is an arrangement of base vectors that define a vector space after dimension reduction. Using the transformation matrix, the feature vector in which the feature data is arranged in a line is projected from the original space to the space defined by the base vector. The conversion matrix is stored in the
次に、CPU503は、射影ベクトルとDB406に格納された登録データを照合する識別処理を実行する(S636)。登録データは、例えば、登録された顔画像の画像データの射影ベクトル(以下、登録ベクトル)と、当該顔画像の人物IDとを有するデータであり、識別処理の照合用データである。なお、人物IDに関連付けて、当該人物の名前やニックネームなどの文字列データ、および、顔画像の画像データがDB406に登録されている。
Next, the
識別処理においては、射影ベクトルと登録ベクトルの間の類似度および所定の閾値に基づき、識別対象の顔画像の人物IDを特定する。ここでは、類似度を、次元削減後の特徴空間におけるベクトルの間のユークリッド距離として説明する。この場合、距離が小さいほど射影ベクトルと登録ベクトルは類似すると判定することができ、距離が小さい登録ベクトルに対応する顔画像ほど、識別対象の顔画像に類似すると判定される。 In the identification process, the person ID of the face image to be identified is specified based on the similarity between the projection vector and the registered vector and a predetermined threshold. Here, the similarity is described as the Euclidean distance between vectors in the feature space after dimension reduction. In this case, it can be determined that the projection vector and the registration vector are similar as the distance is small, and the face image corresponding to the registration vector with a small distance is determined to be similar to the face image to be identified.
CPU503は、射影ベクトルと登録ベクトルすべての間の距離を計算し、距離が小さい順に登録ベクトルをソートする。ソート後、先頭の登録ベクトルと射影ベクトルの間の距離(最小距離)を計算し、最小距離Dminと所定の閾値Dthを比較する。最小距離が閾値以下(Dmin≦Dth)であれば、識別対象の顔画像は、先頭の登録ベクトルに対応する人物IDに一致し、登録された顔画像であると判定する。他方、最小距離が閾値よりも大きい(Dmin>Dth)場合、識別対象の顔画像は未登録と判定する。なお、未登録の顔画像の場合、例えば、未登録人物に対応する所定のID値を識別対象の顔画像の人物IDとする。
The
次に、CPU503は、識別処理によって得た人物IDを識別対象の顔画像に関連付けてRAM505に格納する(S637)。RAM505に格納された顔画像には、顔認証結果を表示するための情報(例えば、顔認証対象の画像データにおける顔画像の位置とサイズなど)が関連付けられて保存されている。
Next, the
CPU503は、ステップS638の判定により、顔認証対象の画像データから抽出した顔画像すべての識別処理が終了するまで、ステップS634からS637の処理を繰り返す。そして、顔画像すべてについて識別処理が終了すると、識別結果を顔認証結果として出力し(S639)、処理をステップS602に戻し、動作モードの指示入力を待つ。
The
図11により顔認証結果の出力例を示す。RAM505に保存されている顔認証対象の画像データ、各顔画像の位置とサイズ、顔画像の人物IDに基づき、図11に示すような顔認証結果を示す画像を生成して表示部507に表示する。図11は、顔認証対象の画像データにおける各顔画像の領域を矩形枠で表し、矩形枠の上部に当該顔画像に関連する文字列を表示した出力例である。
FIG. 11 shows an output example of the face authentication result. Based on the face authentication target image data stored in the
顔認証結果の出力は表示部507への表示に限らず、顔認証対象の画像データ、顔画像の位置とサイズ、顔画像の人物IDなどを関連付けて、データ保存部501に保存してもよい。さらに、顔認証結果を通信部502を介して外部の機器に送信してもよい。
The output of the face authentication result is not limited to display on the
また、顔認証対象の画像データから抽出したすべての顔画像について識別処理が終了した後、顔認証結果を出力する例を説明したが、顔画像ごとの識別処理が終了する都度、顔認証結果を出力してもよい。 Further, the example in which the face authentication result is output after the identification process is completed for all the face images extracted from the image data to be face-authenticated has been described, but each time the identification process for each face image is completed, the face authentication result is It may be output.
また、識別精度を高めるために、前処理(S623)において、両目を水平に配置し、かつ、所定サイズにする画像変換を行う例を説明した。しかし、例えば、精度は多少低下してもよいが、顔認証速度の向上や顔認証処理のリソース削減を図るシステム要件がある場合など、前処理(S623)を省略してもよい。 Further, an example has been described in which image conversion is performed in which both eyes are horizontally arranged and have a predetermined size in the preprocessing (S623) in order to increase the identification accuracy. However, for example, the accuracy may be slightly reduced, but the preprocessing (S623) may be omitted when there is a system requirement for improving the face authentication speed or reducing the resources of the face authentication process.
●登録モード
前述したように、登録データは、例えば、登録された顔画像の画像データの射影ベクトル(登録ベクトル)と、当該顔画像の人物IDとを有するデータである。好ましくは、名前やニックネームなどの文字列データが人物IDに関連付けられて登録されている。
Registration Mode As described above, registration data is data having, for example, a projection vector (registration vector) of image data of a registered face image and a person ID of the face image. Preferably, character string data such as a name and a nickname is registered in association with the person ID.
図12のフローチャートにより登録処理(S606)を説明する。 The registration process (S606) will be described with reference to the flowchart of FIG.
登録モードが指示されると、CPU503は、登録対象の顔画像の画像データをRAM505の所定領域にロードし(S651)、当該画像データから顔画像を抽出し(S652)、抽出した顔画像を矩形枠で囲った画像を表示部507に表示する(S653)。なお、登録対象の画像データが複数の人物の顔画像を含む場合、複数の顔画像が抽出される。
When the registration mode is instructed, the
ユーザは、表示画像を参照し、入力部506を操作して、登録すべき顔画像を選択する(S654)。その際、ユーザは複数の顔画像を選択することができる。また、もし登録したい顔画像が存在しない場合は、次の顔画像の画像データの入力を指示することができる。
The user refers to the display image and operates the
次に、CPU503は、識別モードにおけるステップS633-S635の処理と同様に、ユーザが選択した顔画像の画像データに前処理を施す(S655)。そして、顔画像の画像データ(複数の顔画像が選択された場合は一つの画像データ)から特徴データを抽出し(S656)、特徴データの次元を削減した射影ベクトルを生成する(S657)。
Next, the
次に、CPU503は、既に登録されている人物ID(または人物IDに関連付けられた文字列データ)を表示部507に表示する(S658)。好ましくは、人物ID(または文字列データ)に対応する顔画像も表示する。ユーザは、表示を参照し、入力部506を操作して、選択した顔画像に該当すると思われる人物ID(または文字列データ)を指定するか、選択した顔画像に該当する人物ID(または文字列データ)が存在しない旨を入力する(S659)。
Next, the
CPU503は、人物IDが指定されたか否かを判定し(S660)、選択した顔画像に該当する人物IDが存在しない旨が入力された場合は、新たな人物IDを発行する(S661)。そして、指定された人物IDまたは発行した人物IDに射影ベクトルを関連付けた登録データをDB406に格納する(S662)。
The
CPU503は、ステップS663の判定により、ユーザが選択した顔画像すべての登録処理が終了するまで、ステップS656からS662の処理を繰り返す。そして、顔画像すべてについて識別処理が終了すると、処理をステップS602に戻し、動作モードの指示入力を待つ。
The
上記では、学習処理と顔認証処理の流れの違いが分かる好適な例として、学習処理と識別処理、登録処理を一つの機器またはプログラムによって実行する例を説明した。しかし、事前の学習処理によって重み係数群が用意され、それを別の機器やプログラムが参照して識別処理や登録処理を実行する構成も可能である。 In the above description, an example in which the learning process, the identification process, and the registration process are executed by a single device or program has been described as a preferable example in which the difference between the flows of the learning process and the face authentication process can be understood. However, a configuration is also possible in which a weighting coefficient group is prepared by prior learning processing, and identification processing and registration processing are performed by referring to the weighting coefficient group.
このように、LBPのような画素間の大小関係を表すビット列を値に変換して生成される特徴量において、スカラ値への変換に使用するパラメータ(重み係数群)を学習することで、低次元かつパターン識別の対象に適した特徴量を抽出することが可能になる。 In this way, by learning the parameters (weighting coefficient group) used for conversion to scalar values in the feature values generated by converting bit strings representing the magnitude relationship between pixels such as LBP to values, It is possible to extract a feature quantity suitable for a dimension and pattern identification target.
以下、本発明にかかる実施例2の情報処理を説明する。なお、実施例2において、実施例1と略同様の構成については、同一符号を付して、その詳細説明を省略する。 The information processing according to the second embodiment of the present invention will be described below. Note that the same reference numerals in the second embodiment denote the same parts as in the first embodiment, and a detailed description thereof will be omitted.
図13のブロック図により実施例2における信号処理部を説明する。 The signal processing unit according to the second embodiment will be described with reference to the block diagram of FIG.
二分木処理部901は、処理対象領域108に二分木処理を施して二次元データの二値化処理結果902a-902cを生成する。特徴データ生成部107は、二値化処理結果902a-902cそれぞれに重み係数群w0-w2を乗算し、乗算結果を加算処理して、二次元データの特徴データ104を生成する。なお、二値化処理結果902a-902cから特徴データ104を生成する処理と、重み係数群の学習方法は実施例1と同様である。
The binary
図14により二分木処理を説明する。実施例2では、すべてのノードが葉か二つの子をもち、かつ、すべての葉が同じ深さである完全二分木を使用する。図14に示す二分木は深さが「3」、葉の数が「8」の完全二分木である。 The binary tree process will be described with reference to FIG. Example 2 uses a complete binary tree where all nodes have leaves or two children and all leaves are the same depth. The binary tree shown in FIG. 14 is a complete binary tree having a depth of “3” and a number of leaves of “8”.
二分木処理は、入力データについて、根ノード1001から葉ノード1004a-1004hに到達するまで、順に、二つの子ノードの何れに分岐するかを判定する。実施例2では、子ノードをもつ各ノード(1001、1002a-1002b、1003a-1003d)それぞれについて、式(2)における参照画素の相対位置を予め設定しておく。
In the binary tree processing, it is determined which of the two child nodes is branched in order until the input data reaches the
データが入力されると、各注目画素(x, y)について、式(2)により注目画素と参照画素の間の差分rnを計算する(局所演算処理)。そして、式(3)に示すステップ関数処理の結果に基づき、分岐先を判定する(つまり、何れの子ノードに分岐するかを判定する二値化処理)。図14に示す例は、ステップ関数処理の結果が‘0’の場合は左の子ノードに、‘1’の場合は右の子ノードに進む。 When data is input, for each target pixel (x, y), calculates a difference r n between the reference pixel and the pixel of interest by the formula (2) (local processing). Then, based on the result of the step function processing shown in Expression (3), a branch destination is determined (that is, binarization processing for determining which child node to branch to). In the example shown in FIG. 14, when the result of the step function processing is “0”, the process proceeds to the left child node, and when it is “1”, the process proceeds to the right child node.
葉ノード1004a-1004hに到達すると、すべての判定結果を並べたバイナリ列を生成する。図14に破線矢印で示す例においてバイナリ列は‘001’になる。そして、生成したバイナリ列の各要素を図13に示す二値化処理結果902a-902cの座標(x, y)における画素値とする。
When the
このように、二分木の各階層における分岐の判定結果に対する重みを学習することにより、低次元かつパターン識別の対象に適した特徴量を抽出することができる。 In this way, by learning the weights for the branch determination results in each hierarchy of the binary tree, it is possible to extract a feature quantity suitable for a low-dimensional pattern identification target.
[変形例]
上記では、二次元の画像データに対して、上述した信号処理を適用する例を示したが、三次元以上のデータに対して、あるいは、音声信号などの一次元のデータに対しても本発明を適用することができる。つまり、様々な次元の入力データにおける処理対象領域内の注目データの近傍の複数データを用いて演算処理を行い、上述した信号処理を適用すればよい。
[Modification]
In the above, an example in which the above-described signal processing is applied to two-dimensional image data has been described. However, the present invention is also applied to three-dimensional data or one-dimensional data such as an audio signal. Can be applied. In other words, the above-described signal processing may be applied by performing arithmetic processing using a plurality of data in the vicinity of the data of interest in the processing target area in input data of various dimensions.
上記では、処理対象領域が一つの例を説明したが、処理対象領域の数は一つに限らず、複数の処理対象領域を設定し、処理対象領域おとに異なる重み係数群を設定してもよい。 In the above, an example in which there is one processing target area has been described. However, the number of processing target areas is not limited to one, a plurality of processing target areas are set, and different weight coefficient groups are set for each processing target area. Also good.
図15により複数の処理対象領域の設定例を説明する。図15は、左目領域1201、右目領域1202、鼻領域1203、口領域1204の四つの処理対象領域を設定する例を示す。これら四つの処理対象領域に対して、上述した学習手法を適用することにより、各処理対象領域に適切な重み係数群を決定することができる。ただし、左目領域1201と右目領域1202のように、特性が類似する領域については、それらを区別せずに重み係数群を学習し、得られた重み係数群をそれら領域に適用してもよい。
An example of setting a plurality of processing target areas will be described with reference to FIG. FIG. 15 shows an example in which four processing target areas, that is, a
上記では、二値化処理として式(3)に示すステップ関数を使用する例を説明したが、二値化処理として下式に示すパルス関数を用いてもよい。
if (|t| ≧ Th)
p(t) = ‘1’;
else
p(t) = ‘0’; …(10)
ここで、tは局所演算結果、
Thは所定の閾値。
In the above, an example in which the step function shown in Expression (3) is used as the binarization process has been described, but the pulse function shown in the following expression may be used as the binarization process.
if (| t | ≧ Th)
p (t) = '1';
else
p (t) = '0';… (10)
Where t is the result of local operation,
Th is a predetermined threshold.
ステップ関数を用いる場合、局所演算結果≧0であれば‘1’、局所演算結果<0であれば‘0’である。つまり、実施例1、2で説明したように、局所演算が注目画素と参照画素の大小比較である場合、参照画素値≧注目画素値であれば‘1’、参照画素値<注目画素値であれば‘0’になる。 In the case of using a step function, “1” if the local calculation result ≧ 0, and “0” if the local calculation result <0. That is, as described in the first and second embodiments, when the local calculation is a size comparison between the target pixel and the reference pixel, '1' if the reference pixel value ≧ the target pixel value, and the reference pixel value <the target pixel value. If there is, it will be '0'.
これに対して、パルス関数を用いる場合、局所演算結果の絶対値≧閾値であれば‘1’、絶対値<閾値であれば‘0’とする。つまり、注目画素値と参照画素値の差分絶対値が、閾値以上であれば‘1’、閾値未満であれば‘0’になる。そのため、画素値の大小関係よりも、画素値の差分に注目する場合はパルス関数の利用が有効である。 On the other hand, when the pulse function is used, the absolute value of the local calculation result ≧ 1 is set to ‘1’, and the absolute value <threshold is set to ‘0’. That is, the absolute value of the difference between the target pixel value and the reference pixel value is “1” if it is greater than or equal to the threshold, and “0” if it is less than the threshold. For this reason, the use of a pulse function is effective when focusing on the difference in pixel values rather than the magnitude relationship between pixel values.
また、局所演算処理として二つの画素値の比を計算し、パルス関数を用いて二値化してもよい。画像データ全体の値のレベルが変化(例えば明度の増減)しても、画素値の比は変化しないため、画素値の比を用いると画像データ全体の値のレベルの変化に依らず、同一の処理結果が得られる利点がある。 Further, as a local calculation process, a ratio of two pixel values may be calculated and binarized using a pulse function. Even if the level of the value of the entire image data changes (for example, increase or decrease in brightness), the ratio of the pixel values does not change. There is an advantage that a processing result can be obtained.
また、上記では、局所演算処理として入力画像データの注目画素と参照画素の画素値を比較する例を説明したが、これに限られない。注目画素を使用せずに、注目画素に対して所定の位置にある二つの参照画素を比較してもよい。図16により二つの参照画素を比較する例を示す。あるいは、注目画素および参照画素の画素値と所定の固定値の四則演算(加算、減算、乗算、除算)を実行してもよい。また、注目画素および参照画素の画素値の絶対値を計算してもよい。 Moreover, although the example which compares the pixel value of the attention pixel and reference pixel of input image data as local calculation processing was demonstrated above, it is not restricted to this. Two reference pixels at a predetermined position with respect to the target pixel may be compared without using the target pixel. FIG. 16 shows an example in which two reference pixels are compared. Alternatively, four arithmetic operations (addition, subtraction, multiplication, and division) of the pixel value of the target pixel and the reference pixel and a predetermined fixed value may be executed. Further, the absolute values of the pixel values of the target pixel and the reference pixel may be calculated.
また、上記では、局所演算処理において、入力画像データの画素値を比較する例を説明したが、一画素の画素値の代わりに、m×m画素領域の画素値の平均値を使用してもよい。 In the above description, an example in which the pixel value of the input image data is compared in the local calculation process has been described. Good.
[その他の実施例]
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記録媒体を介してシステム或いは装置に供給し、そのシステムあるいは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
[Other Examples]
The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various recording media, and a computer (or CPU, MPU, etc.) of the system or apparatus reads the program. It is a process to be executed.
105a-105c … 演算処理部、106a-106c … 二値化処理部、107 … 特徴データ生成部、109 … 学習部 105a-105c ... arithmetic processing unit, 106a-106c ... binarization processing unit, 107 ... feature data generation unit, 109 ... learning unit
Claims (22)
前記複数データそれぞれに対応する演算処理結果を二値化処理する二値化手段と、
変換パラメータを用いて、前記複数データそれぞれに対応する二値化処理結果から前記注目データに対する特徴データを生成する生成処理を行う生成手段と、
同じクラスの入力データから生成される特徴データの間の距離を小さくし、異なるクラスの入力データから生成される特徴データの間の距離を大きくするように、前記変換パラメータを学習する学習手段とを有する情報処理装置。 Arithmetic means for performing arithmetic processing using a plurality of data in the vicinity of the data of interest in the processing target area in the input data,
Binarization means for binarizing the arithmetic processing result corresponding to each of the plurality of data;
Generation means for performing generation processing for generating feature data for the attention data from a binarization processing result corresponding to each of the plurality of data using a conversion parameter;
Learning means for learning the conversion parameter so as to reduce the distance between feature data generated from input data of the same class and increase the distance between feature data generated from input data of different classes; Information processing apparatus.
前記二値化手段は、前記二分木の各ノードにおいて、前記差分に基づき分岐先の判定を前記二値化処理として行う請求項1に記載された情報処理装置。 The computing means calculates a difference between the attention data and one of the plurality of data in a predetermined positional relationship with respect to the attention data at each node of the binary tree,
2. The information processing apparatus according to claim 1, wherein the binarization unit determines a branch destination as the binarization process based on the difference at each node of the binary tree.
複数のデータから第一のデータおよび前記第一のデータと異なる第二のデータをランダムに選択し、前記第一のデータのクラスと前記第二のデータのクラスの関係を示すラベル情報を生成する選択手段と、
前記演算処理、前記二値化処理および前記生成処理により、前記第一のデータから第一の特徴データを生成し、前記第二のデータから第二の特徴データを生成する手段と、
前記第一の特徴データと前記第二の特徴データの間の距離を計算する距離計算手段と、
前記距離および前記ラベル情報に基づき損失を計算する損失計算手段と、
前記損失に基づき前記変換パラメータを更新する更新手段とを有する請求項1から請求項10の何れか一項に記載された情報処理装置。 The learning means includes
Randomly select first data and second data different from the first data from a plurality of data, and generate label information indicating a relationship between the class of the first data and the class of the second data A selection means;
Means for generating first feature data from the first data and generating second feature data from the second data by the arithmetic processing, the binarization processing and the generation processing;
Distance calculating means for calculating a distance between the first feature data and the second feature data;
A loss calculating means for calculating a loss based on the distance and the label information;
11. The information processing apparatus according to claim 1, further comprising an update unit that updates the conversion parameter based on the loss.
前記演算手段が、入力データにおける処理対象領域内の注目データの近傍の複数データをそれぞれ用いて演算処理を行い、
前記二値化手段が、前記複数データそれぞれに対応する演算処理結果を二値化処理し、
前記生成手段が、変換パラメータを用いて、前記複数データそれぞれに対応する二値化処理結果から前記注目データに対する特徴データを生成し、
前記学習手段が、同じクラスの入力データから生成される特徴データの間の距離を小さくし、異なるクラスの入力データから生成される特徴データの間の距離を大きくするように、前記変換パラメータを学習する情報処理方法。 An information processing method for an information processing apparatus having a calculation means, a binarization means, a generation means, and a learning means,
The arithmetic means performs arithmetic processing using each of a plurality of data in the vicinity of the data of interest in the processing target area in the input data,
The binarization means binarizes the calculation processing result corresponding to each of the plurality of data,
The generation unit generates feature data for the attention data from a binarization processing result corresponding to each of the plurality of data using a conversion parameter;
The learning means learns the conversion parameter so as to reduce the distance between feature data generated from input data of the same class and increase the distance between feature data generated from input data of different classes. Information processing method.
学習モードを示すユーザ指示が入力されると、前記情報処理装置を用いて前記格納手段に格納された画像データに基づく前記変換パラメータの更新を実行し、
登録モードを示すユーザ指示が入力されると、入力される画像データに含まれる顔画像を抽出し、前記情報処理装置を用いて前記顔画像の画像データから特徴データを抽出し、前記特徴データの次元を削減した照合用データと前記顔画像の画像データを識別情報に関連付けて前記格納手段に登録し、
識別モードを示すユーザ指示が入力されると、入力される画像データに含まれる顔画像を抽出し、前記情報処理装置を用いて前記顔画像の画像データから特徴データを抽出し、前記特徴データの次元を削減したデータと前記格納手段に格納された照合用データを用いて前記顔認証処理を行う請求項17に記載された認証装置。 The authentication apparatus includes a storage unit that stores image data and collation data of a face image associated with identification information, an input unit that inputs a user instruction and image data, and an authentication unit, and the authentication unit includes:
When a user instruction indicating a learning mode is input, the conversion parameter is updated based on the image data stored in the storage unit using the information processing apparatus,
When a user instruction indicating a registration mode is input, a face image included in the input image data is extracted, feature data is extracted from the image data of the face image using the information processing device, and the feature data The collation data with reduced dimensions and the image data of the face image are associated with identification information and registered in the storage means,
When a user instruction indicating an identification mode is input, a face image included in the input image data is extracted, feature data is extracted from the image data of the face image using the information processing device, and the feature data 18. The authentication apparatus according to claim 17, wherein the face authentication process is performed using data with reduced dimensions and collation data stored in the storage unit.
学習モードを示すユーザ指示が入力されると、前記情報処理装置を用いて前記格納手段に格納された画像データに基づく前記変換パラメータの更新を実行し、
登録モードを示すユーザ指示が入力されると、入力される画像データに含まれる顔画像を抽出し、前記情報処理装置を用いて前記顔画像の画像データから特徴データを抽出し、前記特徴データの次元を削減した照合用データと前記顔画像の画像データを識別情報に関連付けて前記格納手段に登録し、
識別モードを示すユーザ指示が入力されると、入力される画像データに含まれる顔画像を抽出し、前記情報処理装置を用いて前記顔画像の画像データから特徴データを抽出し、前記特徴データの次元を削減したデータと前記格納手段に格納された照合用データを用いて前記顔認証処理を行う認証処理方法。 16. The storage device according to claim 1, further comprising: a storage unit that stores image data and collation data of a face image associated with the identification information; an input unit that inputs a user instruction and image data; and an authentication unit. An authentication processing method of an authentication device that performs face authentication processing using the information processing device according to claim 1, wherein the authentication unit includes:
When a user instruction indicating a learning mode is input, the conversion parameter is updated based on the image data stored in the storage unit using the information processing apparatus,
When a user instruction indicating a registration mode is input, a face image included in the input image data is extracted, feature data is extracted from the image data of the face image using the information processing device, and the feature data The collation data with reduced dimensions and the image data of the face image are associated with identification information and registered in the storage means,
When a user instruction indicating an identification mode is input, a face image included in the input image data is extracted, feature data is extracted from the image data of the face image using the information processing device, and the feature data An authentication processing method for performing the face authentication processing using data with reduced dimensions and collation data stored in the storage means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014062728A JP6312485B2 (en) | 2014-03-25 | 2014-03-25 | Information processing apparatus, authentication apparatus, and methods thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014062728A JP6312485B2 (en) | 2014-03-25 | 2014-03-25 | Information processing apparatus, authentication apparatus, and methods thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015185042A true JP2015185042A (en) | 2015-10-22 |
JP6312485B2 JP6312485B2 (en) | 2018-04-18 |
Family
ID=54351462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014062728A Active JP6312485B2 (en) | 2014-03-25 | 2014-03-25 | Information processing apparatus, authentication apparatus, and methods thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6312485B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020057275A (en) * | 2018-10-03 | 2020-04-09 | 株式会社日立製作所 | Biometric authentication system, biometric authentication method and program |
JP2022520120A (en) * | 2019-08-12 | 2022-03-28 | 深▲セン▼市商▲湯▼科技有限公司 | Face image recognition methods and devices, electrical equipment and storage media |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009086926A (en) * | 2007-09-28 | 2009-04-23 | Kddi Corp | Image recognition method and device |
JP2009211179A (en) * | 2008-02-29 | 2009-09-17 | Canon Inc | Image processing method, pattern detection method, pattern recognition method, and image processing device |
US20120213422A1 (en) * | 2009-10-09 | 2012-08-23 | Visidon Oy | Face recognition in digital images |
-
2014
- 2014-03-25 JP JP2014062728A patent/JP6312485B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009086926A (en) * | 2007-09-28 | 2009-04-23 | Kddi Corp | Image recognition method and device |
JP2009211179A (en) * | 2008-02-29 | 2009-09-17 | Canon Inc | Image processing method, pattern detection method, pattern recognition method, and image processing device |
US20120213422A1 (en) * | 2009-10-09 | 2012-08-23 | Visidon Oy | Face recognition in digital images |
Non-Patent Citations (1)
Title |
---|
佐用 敦、外2名: ""口唇変化を利用した個人認証システムにおける識別器生成手法に関する検討"", 電子情報通信学会技術研究報告, vol. 110, no. 217, JPN6018005454, 28 September 2010 (2010-09-28), JP, pages 7 - 12, ISSN: 0003741170 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020057275A (en) * | 2018-10-03 | 2020-04-09 | 株式会社日立製作所 | Biometric authentication system, biometric authentication method and program |
JP7269711B2 (en) | 2018-10-03 | 2023-05-09 | 株式会社日立製作所 | Biometric authentication system, biometric authentication method and program |
US12067095B2 (en) | 2018-10-03 | 2024-08-20 | Hitachi, Ltd. | Biometric authentication system, biometric authentication method, and storage medium |
JP2022520120A (en) * | 2019-08-12 | 2022-03-28 | 深▲セン▼市商▲湯▼科技有限公司 | Face image recognition methods and devices, electrical equipment and storage media |
Also Published As
Publication number | Publication date |
---|---|
JP6312485B2 (en) | 2018-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220028126A1 (en) | Methods and Systems for Human Imperceptible Computerized Color Transfer | |
Arietta et al. | City forensics: Using visual elements to predict non-visual city attributes | |
WO2021036059A1 (en) | Image conversion model training method, heterogeneous face recognition method, device and apparatus | |
CN106096542B (en) | Image video scene recognition method based on distance prediction information | |
JP6137916B2 (en) | Signal processing apparatus, signal processing method, and signal processing system | |
US8861873B2 (en) | Image clustering a personal clothing model | |
CN105354248A (en) | Gray based distributed image bottom-layer feature identification method and system | |
JP2011013732A (en) | Information processing apparatus, information processing method, and program | |
CN110795925B (en) | Image-text typesetting method and device based on artificial intelligence and electronic equipment | |
JP6292911B2 (en) | Image processing method, image processing program, and image processing apparatus | |
JP2004355370A (en) | Document processing apparatus | |
CN107730568B (en) | Coloring method and device based on weight learning | |
KR102084782B1 (en) | Method generating personification character with gan algorithm | |
CN111553838A (en) | Model parameter updating method, device, equipment and storage medium | |
CN114299590B (en) | Training method of face completion model, face completion method and system | |
JP6312485B2 (en) | Information processing apparatus, authentication apparatus, and methods thereof | |
CN117373100B (en) | Face recognition method and system based on differential quantization local binary pattern | |
CN107368832A (en) | Target detection and sorting technique based on image | |
Zhou et al. | Learning a superpixel-driven speed function for level set tracking | |
JP6202938B2 (en) | Image recognition apparatus and image recognition method | |
JPH1185988A (en) | Face image recognition system | |
CN103679174A (en) | Shape descriptor generating method and device | |
CN112884074B (en) | Image design method, equipment, storage medium and device based on decision tree | |
JP2001195579A (en) | Image evaluating device | |
US11749021B2 (en) | Retrieval device, control method, and non-transitory storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180320 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6312485 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |