JP5407723B2 - Recognition device, recognition method, and program - Google Patents

Recognition device, recognition method, and program Download PDF

Info

Publication number
JP5407723B2
JP5407723B2 JP2009233623A JP2009233623A JP5407723B2 JP 5407723 B2 JP5407723 B2 JP 5407723B2 JP 2009233623 A JP2009233623 A JP 2009233623A JP 2009233623 A JP2009233623 A JP 2009233623A JP 5407723 B2 JP5407723 B2 JP 5407723B2
Authority
JP
Japan
Prior art keywords
matrix
learning data
base
data
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009233623A
Other languages
Japanese (ja)
Other versions
JP2011081614A (en
Inventor
満 安倍
悠一 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2009233623A priority Critical patent/JP5407723B2/en
Publication of JP2011081614A publication Critical patent/JP2011081614A/en
Application granted granted Critical
Publication of JP5407723B2 publication Critical patent/JP5407723B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、学習データを用いて行なった学習結果に基づき、入力データの認識を行なう認識装置、認識方法及びプログラムに関する。   The present invention relates to a recognition apparatus, a recognition method, and a program for recognizing input data based on a learning result performed using learning data.

音声認識や画像認識など、幅広い分野において、学習に基づく認識装置が用いられている。この学習に基づく認識は、例えば、以下のように行なわれる。   In a wide range of fields such as voice recognition and image recognition, recognition devices based on learning are used. Recognition based on this learning is performed as follows, for example.

学習段階として、まず、学習に用いる多くの学習データを用意する。そして、用意した学習データの各々を、N次元のベクトルで表現する。例えば、学習データが画像である場合、画像の局所領域における輝度分布の勾配方向をヒストグラム化したり、カラーデータ(RGB)をHSV変換したり、画像信号をウェーブレット変換するなどの各種の変換手法により、1枚の画像をN次元の特徴ベクトルで表現することができる。   As a learning stage, first, a lot of learning data used for learning is prepared. Then, each of the prepared learning data is expressed by an N-dimensional vector. For example, when the learning data is an image, the gradient direction of the luminance distribution in the local region of the image is converted into a histogram, the color data (RGB) is subjected to HSV conversion, and the image signal is subjected to wavelet conversion. One image can be expressed by an N-dimensional feature vector.

次に、N次元のベクトルで表現された学習データを、それよりも少ないM次元のベクトルに変換する写像を求める。例えば、主成分分析や非負行列因子分解(Non‐Negative Matrix Factorization)などにより、変換写像を求めることができる。求めた写像を用いて、学習データをM次元の部分空間に投影することにより、学習データをM次元のベクトルにて表現することができる。このような写像による変換を行なうことで、未知の入力データを認識する際の認識性能が高まることが知られている。   Next, a mapping for converting learning data represented by an N-dimensional vector into fewer M-dimensional vectors is obtained. For example, the transformation map can be obtained by principal component analysis or non-negative matrix factorization. By using the obtained mapping to project the learning data onto an M-dimensional subspace, the learning data can be expressed as an M-dimensional vector. It is known that recognition performance when recognizing unknown input data is enhanced by performing such conversion by mapping.

認識段階においては、まず、認識したいデータをN次元のベクトルで表現した入力データとする。このN次元のベクトルへの変換は、学習データと同じ変換手法が用いられる。学習により得た写像を用いて、入力データをM次元のベクトルに変換する。学習時に得られたM次元のベクトルから近いものを探し、それを認識結果とする。近似したベクトルの探索に関しては、k−NN法、ニューラルネットワーク、サポートベクターマシン(SVM)などの種々の手法が適用可能である。   In the recognition stage, first, data to be recognized is set as input data expressed by an N-dimensional vector. The conversion to the N-dimensional vector uses the same conversion method as the learning data. Using the mapping obtained by learning, the input data is converted to an M-dimensional vector. A close one is searched for from the M-dimensional vector obtained at the time of learning, and is used as a recognition result. Various methods such as a k-NN method, a neural network, and a support vector machine (SVM) can be applied to search for approximate vectors.

上述した考え方に基づいて、例えば特許文献1では、認識対象を青信号の画像とし、車載カメラ画像から青信号であるか否かを判断するようにしている。具体的には、データベースに記録された複数の異なる青信号の画像データに対して主成分分析処理を行ない、基底画像を導出して主成分空間を形成する。そして、カメラによって撮影された信号機の撮影画像を主成分分析によって形成された主成分空間に投影し、主成分空間における各主成分の係数を算出する。その後、主要な主成分及び係数を用いて撮影画像の近似画像を形成し、その近似画像に基づき、青信号か否かを判断する。   Based on the above-described concept, for example, in Patent Document 1, a recognition target is an image of a green signal, and it is determined whether the signal is a green signal from an in-vehicle camera image. Specifically, a principal component analysis process is performed on a plurality of different blue signal image data recorded in the database, and a base image is derived to form a principal component space. Then, the captured image of the traffic light imaged by the camera is projected onto the principal component space formed by principal component analysis, and the coefficient of each principal component in the principal component space is calculated. Thereafter, an approximate image of the photographed image is formed using main principal components and coefficients, and it is determined whether or not the signal is a blue signal based on the approximate image.

また、特許文献2では、上述した考え方に基づいて、監視画像における異常状態検知を行なっている。具体的には、歩く動作のような一般的な動作を正常動作とし、その正常動作を示すデータのベクトルに対して非負行列因子分解や主成分分析などを行なうことにより、特徴ベクトル空間に写像する。この特徴ベクトル空間において、正常データの特徴ベクトルは、1つあるいは複数の(超立体の)多角錘形状あるいは円錐形状の領域を合せた正常空間領域内に分布する。従って、監視画像の特徴ベクトルが、1つあるいは複数の多角錘あるいは円錐形状の領域の内の1つの内部に存在しているか否かを判定し、内部に存在していれば正常、そうでなければ異常と判定する。   Moreover, in patent document 2, the abnormal condition detection in the monitoring image is performed based on the concept mentioned above. Specifically, a normal motion such as a walking motion is regarded as a normal motion, and mapping to a feature vector space is performed by performing non-negative matrix factorization, principal component analysis, etc. on a vector of data indicating the normal motion. . In this feature vector space, the feature vector of normal data is distributed in a normal space region that is a combination of one or a plurality of (hyper-solid) polygonal cone or conical regions. Therefore, it is determined whether or not the feature vector of the monitoring image exists inside one or a plurality of polygonal cones or conical regions, and if it exists, it is normal. Is determined to be abnormal.

特開2006−244289号公報JP 2006-244289 A 特開2008−287478号公報JP 2008-287478 A

上述した従来の認識手法では、主成分分析や非負行列因子分解により形成した部分空間において、同じカテゴリに属する入力データのベクトル同士が、近い位置に写像されることを前提としている。例えば、特許文献2の異常検出装置では、異常状態の画像と正常状態の画像とが部分空間において遠く離れた位置に写像されることを利用して、正常、異常の判別を行なっている。   The conventional recognition method described above is based on the premise that vectors of input data belonging to the same category are mapped to close positions in a subspace formed by principal component analysis or non-negative matrix factorization. For example, in the abnormality detection device of Patent Document 2, normality / abnormality is discriminated using the fact that an abnormal state image and a normal state image are mapped at positions far apart in a partial space.

このため、従来の認識手法では、良く似ている画像データを区別して認識する必要がある場合には、必ずしも高い認識精度を期待することはできない。例えば、「木」「本」という文字画像は、パターンが非常に良く似ているため、部分空間に写像した場合、近接した位置に写像されることになる。このような例には、例えば、カメラを車両に搭載して、車両が走行している道路環境が高速道路であるか一般道路であるかを判別する場合や、人間の顔を撮影した顔画像から、それが誰であるかを認識しようとする場合なども該当する。   For this reason, in the conventional recognition method, when it is necessary to distinguish and recognize similar image data, high recognition accuracy cannot always be expected. For example, since the character images “tree” and “book” are very similar in pattern, when mapped to a partial space, they are mapped to close positions. In such an example, for example, when a camera is mounted on a vehicle to determine whether the road environment in which the vehicle is traveling is a highway or a general road, or a face image obtained by photographing a human face This is also the case when trying to recognize who it is.

本願発明は、このような点に鑑みてなされたものであり、良く似ているデータ同士であっても、区別して認識できる精度を向上した認識装置を提供することを目的とする。   The present invention has been made in view of these points, and an object of the present invention is to provide a recognition device with improved accuracy capable of distinguishing and recognizing even similar data.

上記目的を達成するために、請求項1に記載の認識装置は、
N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、学習データのN次元特徴ベクトルを基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解部と、
認識すべき入力データが入力されたときに、基底行列を用いて、入力データに対応する係数行列を算出し、基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識部と、を備えた認識装置であって、
基底分解部は、学習データを基底行列と係数行列の転置行列とに近似により分解する際に、学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データがM次元の部分空間において接近し、異なるカテゴリに属する学習データがM次元の部分空間において離間するように、基底行列と係数行列とを定めるものであり、
基底分解部は、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定したD行D列の教示行列をCとしたとき、以下の数式1で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gを定めることを特徴とする。

Figure 0005407723
In order to achieve the above object, a recognition apparatus according to claim 1 is provided.
D learning data represented by an N-dimensional feature vector is set as an N-row D-column input matrix, and the input matrix is set to an N-row M-column basis matrix in which the basis vectors are combined, and an N-dimensional feature of the learning data. A basis decomposition unit that decomposes by approximation into a D-row M-column coefficient matrix that summarizes coefficient data for mapping a vector into an M-dimensional subspace based on basis vectors;
When input data to be recognized is input, a coefficient matrix corresponding to the input data is calculated using the base matrix, and the input data is recognized based on the similarity to the coefficient row example calculated by the base decomposition unit. A recognition unit comprising:
When the learning data is decomposed into a base matrix and a transposed matrix of a coefficient matrix by approximation, the base decomposition unit uses the teaching data indicating the category of the learning data, and the learning data belonging to the same category is stored in the M-dimensional subspace. A base matrix and a coefficient matrix are determined so that learning data belonging to different categories are separated in an M-dimensional subspace .
When the i-th learning data and the j-th learning data are of the same type based on the teaching data, the base decomposition unit X is the input matrix X, the base matrix F, the coefficient matrix G, and the teaching data. When the j-th row and the i-th column are set to a negative value and the k-th learning data and the l-th learning data are of different types, the D-row D in which the k-row l-column and the l-row k-column are set to a positive value When the column teaching matrix is C, the base matrix F and the coefficient matrix G are determined so as to minimize the cost function J (F, G) represented by the following Equation 1 .
Figure 0005407723

従って、良く似ているが異なるカテゴリに属すべき学習データがあった場合、これらの学習データ同士がM次元の部分空間において離間した位置に写像されるように、教示データにより基底行列と係数行列とが強制的に修正される。逆に、あまり似ていないが同じカテゴリに属すべき学習データがあった場合には、これらの学習データ同士がM次元の部分空間において接近した位置に写像されるように、教示データにより基底行列と係数行列とが強制的に修正される。これらにより、データの類似性による影響を低減して、データの認識性能を向上することができる。具体的には、数式1における右辺の第1項により、入力行列Xが、基底行列Fと係数行列Gとに分解される。さらに、第2項により、係数行列Gに対して教示データによる事前知識が反映され、その結果、教示データにより基底行列Fと係数行列Gとが強制的に修正される。 Accordingly, when there is learning data that is similar but should belong to different categories, the teaching data sets the basis matrix and coefficient matrix so that these learning data are mapped to positions separated in the M-dimensional subspace. Is forcibly fixed. Conversely, when there is learning data that is not very similar but should belong to the same category, the teaching data sets the basis matrix and the learning data so that these learning data are mapped to close positions in the M-dimensional subspace. The coefficient matrix is forcibly corrected. As a result, the data recognition performance can be improved by reducing the influence of data similarity. Specifically, the input matrix X is decomposed into a base matrix F and a coefficient matrix G by the first term on the right side in Equation 1. Further, the second term reflects the prior knowledge based on the teaching data on the coefficient matrix G, and as a result, the base matrix F and the coefficient matrix G are forcibly corrected by the teaching data.

数式1に従って、コスト関数J(F,G)を最小化する基底行列Fと係数行列Gとを求める場合の具体的な演算手法として、請求項に記載したように、以下の数式2にて示される基底行列Fの更新と係数行列Gの更新を繰り返し実行すれば良い。この更新は、例えば予め定めた回数(例えば千回)、あるいは更新前後の変化量が所定値以下となるまで繰り返される。

Figure 0005407723
As a specific calculation method for obtaining a base matrix F and a coefficient matrix G that minimize the cost function J (F, G) according to Equation 1, as described in claim 2 , It suffices to repeatedly execute the update of the base matrix F and the coefficient matrix G shown. This update is repeated, for example, a predetermined number of times (for example, 1000 times) or until the amount of change before and after the update becomes a predetermined value or less.
Figure 0005407723

数式2では、特に、教示行列Cにおける負の要素について、符号を反転させた非負行列として扱っているので、入力行列Xを基底行列Fと係数行列Gとに分解する際に、非負行列因子分解を適用することができる。   In Equation 2, since negative elements in the teaching matrix C are treated as non-negative matrices with inverted signs, when the input matrix X is decomposed into a base matrix F and a coefficient matrix G, non-negative matrix factorization is performed. Can be applied.

また、請求項に記載したように、基底分解部は、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定した教示行列をCとしたとき、以下の数式3で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gを定めても良い。 According to a third aspect of the present invention, the basis decomposition unit calculates the input matrix X, the basis matrix F, the coefficient matrix G, and the i-th learning data and the j-th learning data based on the teaching data. If they are the same type, i row j column and j row i column are set to negative values, and if the k th learning data and the l th learning data are different types, k row l column and l row k The base matrix F and the coefficient matrix G may be determined so as to minimize the cost function J (F, G) represented by Equation 3 below, where C is a teaching matrix whose columns are set to positive values. .

Figure 0005407723
Figure 0005407723

上記ダイバージェンスを最小化することで、入力行列Xと、基底行列Fと係数行列Gの転置行列との積FGの分布がより近くなる。従って、数式3における右辺の第1項により、入力行列Xが、基底行列Fと係数行列Gとに分解される。さらに、第2項により、係数行列Gに対して教示データによる事前知識が反映され、その結果、教示データにより基底行列Fと係数行列Gとが強制的に修正される。 By minimizing the divergence, the input matrix X, distribution of the product FG T with transposed matrix of the basis matrix F and the coefficient matrix G becomes closer. Therefore, the input matrix X is decomposed into the base matrix F and the coefficient matrix G by the first term on the right side in Equation 3. Further, the second term reflects the prior knowledge based on the teaching data on the coefficient matrix G, and as a result, the base matrix F and the coefficient matrix G are forcibly corrected by the teaching data.

数式3に従って、コスト関数J(F,G)を最小化する基底行列Fと係数行列Gとを求める場合の具体的な演算手法として、請求項に記載したように、以下の数式4にて示される基底行列Fの更新と係数行列Gの更新を繰り返し実行すれば良い。 As a specific calculation method for obtaining a base matrix F and a coefficient matrix G that minimize the cost function J (F, G) according to Equation 3, as described in claim 4 , It suffices to repeatedly execute the update of the base matrix F and the coefficient matrix G shown.

Figure 0005407723
Figure 0005407723

数式4においても、教示行列Cにおける負の要素について、符号を反転させた非負行列として扱っているので、入力行列Xを基底行列Fと係数行列Gとに分解する際に、非負行列因子分解を適用することができる。   Also in Equation 4, since the negative element in the teaching matrix C is treated as a non-negative matrix with the sign inverted, when decomposing the input matrix X into the base matrix F and the coefficient matrix G, non-negative matrix factorization is performed. Can be applied.

請求項に記載したように、教示行列Cにおいて、教示データが与えられない学習データに対応する要素は、ゼロに設定すれば良い。すなわち、全ての学習データに教示データが与えられる必要はない。ただし、教示データが与えられる学習データが多いほど、認識精度の向上度合が高まるので、出来る限り、多くの教示データが与えられることが望ましい。 As described in claim 5 , in the teaching matrix C, elements corresponding to learning data for which teaching data is not given may be set to zero. That is, teaching data need not be given to all learning data. However, since the degree of improvement in recognition accuracy increases as the amount of learning data to which teaching data is given, it is desirable that as much teaching data as possible be given.

なお、認識対象外のデータを教示データなしで学習データの一部とすることにより、学習データにおける認識対象データは、認識対象外データと区別されるように基底行列と係数行列とが定められる。この結果、認識対象データの特徴をより良く捉えた認識装置とすることができる。従って、認識対象外データを、教示データなしで学習データに含めても良い。   It should be noted that by making the data not to be recognized as part of the learning data without the teaching data, the base matrix and the coefficient matrix are determined so that the recognition target data in the learning data is distinguished from the non-recognition data. As a result, a recognition apparatus that better captures the characteristics of the recognition target data can be obtained. Therefore, the non-recognition target data may be included in the learning data without the teaching data.

請求項に記載したように、学習データに対して、異なる複数の特徴変換を施し、その結果得られた異なる複数の特徴ベクトルを統合して、学習データに対応する特徴ベクトルとしても良い。複数の特徴ベクトルを統合することで、単一の特徴ベクトルでは認識が難しい認識対象であっても、認識精度の向上を図ることができる。 According to the sixth aspect of the present invention, a plurality of different feature transformations may be performed on the learning data, and a plurality of different feature vectors obtained as a result may be integrated to form a feature vector corresponding to the learning data. By integrating a plurality of feature vectors, recognition accuracy can be improved even for a recognition target that is difficult to recognize with a single feature vector.

請求項に記載したように、入力データは、画像の特徴量をN次元の特徴ベクトルにて表したものであり、この画像において、基底行列のベクトルに対応する小領域を決定することにより、認識した対象の位置を決定する検出部を備えても良い。これにより、画像の一部のみに認識対象が存在する場合に、画像において、認識対象の存在する範囲を特定することができる。 As described in claim 7 , the input data represents an image feature amount by an N-dimensional feature vector, and in this image, by determining a small region corresponding to a vector of a base matrix, You may provide the detection part which determines the position of the recognized object. Thereby, when the recognition target exists only in a part of the image, the range where the recognition target exists can be specified in the image.

なお、請求項8及び9は、上述した請求項1及び3に記載の認識装置により実行される認識方法を発明の対象としたものであり、請求項10及び11は、請求項1及び3に記載の認識装置における各機能をコンピュータにより実現するためのプログラムを発明の対象としたものである。これらの請求項に記載した発明から得られる効果は、請求項1及び3に記載の認識装置から得られる効果とほぼ同様であるため、説明を省略する。 Claims 8 and 9 are the subject of the recognition method executed by the recognition device according to claims 1 and 3 described above, and claims 10 and 11 are claims 1 and 3 . An object of the present invention is a program for realizing each function of the described recognition apparatus by a computer. Since the effects obtained from the inventions described in these claims are substantially the same as the effects obtained from the recognition device described in claims 1 and 3 , the description thereof is omitted.

本発明の実施形態による認識装置の構成を示す構成図である。It is a block diagram which shows the structure of the recognition apparatus by embodiment of this invention. 図1における、学習部の基底分解部の詳細な構成を示す構成図である。It is a block diagram which shows the detailed structure of the base decomposition | disassembly part of the learning part in FIG. 図1における、認識部の基底分解部の詳細な構成を示す構成図である。It is a block diagram which shows the detailed structure of the base decomposition | disassembly part of the recognition part in FIG. 車両の前方領域を撮影した画像データの認識結果に応じて、各種の制御を行なう例について示したフローチャートである。It is the flowchart shown about the example which performs various control according to the recognition result of the image data which image | photographed the front area | region of the vehicle. 変形例の構成を説明するための構成図である。It is a block diagram for demonstrating the structure of a modification.

(第1実施形態)
以下、本発明の第1実施形態による認識装置について、図面に基づいて説明する。図1は、本実施形態による認識装置の構成を示す構成図である。
(First embodiment)
Hereinafter, a recognition device according to a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a configuration diagram showing the configuration of the recognition apparatus according to the present embodiment.

図1において、学習部100は、予め用意した沢山の、認識対象を含む学習データ110をN次元の特徴ベクトルにて表し、その特徴ベクトルをまとめた入力行列を、基底ベクトルをまとめた基底行列と、学習データ110のN次元特徴ベクトルを基底ベクトルによるM次元の部分空間に写像するための係数データをまとめた係数行列とに、非負行列因子分解(Non-Negative Matrix Factorization)により分解する。その際に、認識対象のカテゴリを示す教示ラベルデータ120を用いることにより、同じカテゴリに属する学習データ110がM次元の部分空間において接近し、異なるカテゴリに属する学習データ110がM次元の部分空間において離間するように、基底行列と係数行列とを強制的に修正する。   In FIG. 1, the learning unit 100 represents a large number of prepared learning data 110 including recognition targets by N-dimensional feature vectors, and an input matrix obtained by collecting the feature vectors is represented by a basis matrix obtained by collecting the basis vectors. Then, the coefficient data for mapping the N-dimensional feature vector of the learning data 110 into the M-dimensional subspace based on the basis vector is decomposed by non-negative matrix factorization. At that time, by using the teaching label data 120 indicating the category to be recognized, the learning data 110 belonging to the same category approaches in the M-dimensional subspace, and the learning data 110 belonging to a different category in the M-dimensional subspace. The base matrix and the coefficient matrix are forcibly corrected so as to be separated from each other.

学習データ110は、認識対象を含む画像データであって、本実施形態では、例えば、車両が走行している道路が、高速道路であるか一般道路であるかを判別するために、種々の高速道路の様子を写した画像データ及び種々の一般道路の様子を写した画像データが学習データとして用意される。このとき、高速道路の様子を写した画像データには、そのカテゴリが「高速道路」である旨を示す教示ラベルデータが対応付けられ、一般道路の様子を写した画像データには、そのカテゴリが「高速道路」とは異なる「一般道路」である旨を示す教示ラベルデータが対応付けられる。   The learning data 110 is image data including a recognition target. In this embodiment, for example, in order to determine whether the road on which the vehicle is traveling is a highway or a general road, Image data showing the state of the road and image data showing the state of various general roads are prepared as learning data. At this time, teaching label data indicating that the category is “highway” is associated with the image data showing the state of the highway, and the category is included in the image data showing the state of the general road. Teach label data indicating that the road is a “general road” different from the “highway” is associated.

同様に、本実施形態では、視界不良であるか視界良好であるかを判別したり、道路前方が人や車で混雑しているか空いているかを判別したりするため、それらの状況を示す様々な画像データおよびそれらのカテゴリを示すデータが、学習データ110及び教示ラベルデータとして用意される。   Similarly, in the present embodiment, in order to determine whether the visibility is poor or good, or to determine whether the road ahead is crowded with people or cars or vacant, there are various types that indicate the situation. Image data and data indicating their categories are prepared as learning data 110 and teaching label data.

ただし、本実施形態では、用意した全ての画像データをまとめて処理するのではなく、判別したい対象ごとに画像データを処理する。従って、上述したように、判別したい対象が3種類(「高速道路」と「一般道路」、「視界不良」と「視界良好」、及び「混雑した状況」と「空いている状況」)ある場合には、それぞれの判別対象ごとに、図1に示す学習部100と認識部200とが個別に設けられる。   However, in this embodiment, not all the prepared image data is processed together, but the image data is processed for each target to be discriminated. Therefore, as described above, there are three types of objects to be discriminated (“highway” and “general road”, “bad visibility” and “good visibility”, “crowded situation” and “vacant situation”). The learning unit 100 and the recognition unit 200 shown in FIG. 1 are individually provided for each discrimination target.

なお、教示ラベルデータは、全ての学習データに対して与えられる必要はない。しかし、教示ラベルデータが与えられる学習データが多いほど、各々のカテゴリに属する認識対象の認識精度が向上するので、出来る限り、多くの教示ラベルデータが与えられることが望ましい。   The teaching label data need not be given to all learning data. However, as the learning data to which the teaching label data is given increases, the recognition accuracy of the recognition target belonging to each category improves. Therefore, it is desirable to provide as much teaching label data as possible.

また、認識対象外の画像データを教示ラベルデータなしで学習データの一部としても良い。これにより、学習データにおける認識対象の画像データは、認識対象外の画像データと区別されるように、基底行列と係数行列とが定められることになる。この結果、認識対象の画像データの特徴をより良く捉えた認識装置とすることができる。従って、認識対象外の画像データを、教示データなしで学習データに含めても良い。   Further, image data that is not a recognition target may be part of the learning data without the teaching label data. As a result, the base matrix and the coefficient matrix are determined so that the image data to be recognized in the learning data is distinguished from the image data that is not the recognition target. As a result, a recognition apparatus that better captures the characteristics of image data to be recognized can be obtained. Therefore, image data that is not a recognition target may be included in the learning data without the teaching data.

特徴変換部130は、学習データ110として入力された画像データをN次元の特徴ベクトルに変換するものである。このN次元特徴ベクトルに変換する手法として種々の方法が知られているが、本実施形態において採用した方法について、以下に簡単に説明する。   The feature conversion unit 130 converts the image data input as the learning data 110 into an N-dimensional feature vector. Various methods are known as a method for converting to this N-dimensional feature vector. The method employed in the present embodiment will be briefly described below.

まず、画像データから沢山の小領域を切り出して、各小領域の輝度分布の勾配方向のパターンを、SIFT(Scale-Invariant Feature Transform)特徴ベクトル(128次元のベクトル)として抽出する。なお、小領域の切り出し方法としては、例えば、画像においてエッジなどの特徴点を求め、その特徴点の周りの一定の領域を小領域としても良い。また、ある大きさの窓を用意し、画像上で少しずつずらしながら、窓内の領域を小領域として切り出しても良い。さらに、1枚の画像に対して、窓の大きさを変えつつ複数回小領域を切り出すようにしても良い。窓の形状は矩形に限られず、また窓は任意の角度に傾いていても良い。   First, a large number of small regions are cut out from the image data, and a pattern in the gradient direction of the luminance distribution of each small region is extracted as a SIFT (Scale-Invariant Feature Transform) feature vector (128-dimensional vector). Note that, as a method for extracting a small region, for example, a feature point such as an edge is obtained in an image, and a certain region around the feature point may be set as the small region. Alternatively, a window having a certain size may be prepared, and the area within the window may be cut out as a small area while being gradually shifted on the image. Further, a small area may be cut out multiple times for one image while changing the size of the window. The shape of the window is not limited to a rectangle, and the window may be inclined at an arbitrary angle.

次に、認識対象の識別に利用すべく、予め求めておいたN個のパターン(visual words)を用いて、各小領域のパターンであるSIFT特徴ベクトルを、類似するパターンに分類する。これにより、1枚の画像データからN個のパターンの出現頻度ヒストグラムが作成され、その結果、画像データをN次元のベクトルに特徴変換することができる。なお、このような特徴変換手法は、”Visual Categorization with Bags of Keypoints” Gabriella Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, Cedric Bray, In ECCV International Workshop on Statistical Learning in Computer Vision (2004) に詳しく説明されている。   Next, the SIFT feature vector, which is the pattern of each small region, is classified into similar patterns using N patterns (visual words) obtained in advance to be used for identifying the recognition target. As a result, an appearance frequency histogram of N patterns is created from one piece of image data, and as a result, the image data can be feature-converted into an N-dimensional vector. This feature conversion method is described in detail in “Visual Categorization with Bags of Keypoints” Gabriella Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, Cedric Bray, In ECCV International Workshop on Statistical Learning in Computer Vision (2004). Explained.

特徴変換部130によって画像データから変換されたN次元の特徴ベクトルは、教示ラベルデータとともに、基底分解部140に与えられる。基底分解部140は、以下の数式5に示すように、N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列Xとし、当該入力行列Xを、基底ベクトルをまとめたN行M列の基底行列Fと、学習データ110のN次元特徴ベクトルを基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列Gの転置行列Gとに近似により分解する。この分解においては、非負行列因子分解法が用いられる。 The N-dimensional feature vector converted from the image data by the feature conversion unit 130 is given to the base decomposition unit 140 together with the teaching label data. As shown in Equation 5 below, the basis decomposition unit 140 sets the D learning data represented by the N-dimensional feature vector as an N-row D-column input matrix X, and the input matrix X is converted into a basis vector. A transposed matrix of a coefficient matrix G of D rows and M columns, which is a collection of coefficient data for mapping the collected N-row M-column basis matrix F and the N-dimensional feature vector of the learning data 110 into an M-dimensional subspace based on the basis vectors. decomposed by approximation to a G T. In this decomposition, a non-negative matrix factorization method is used.

Figure 0005407723
Figure 0005407723

ただし、本実施形態では、入力行列Xを基底行列Fと係数行列Gの転置行列Gとに分解して、基底行列Fと係数行列Gとを定める際に、教示ラベルデータによる事前知識を反映させるために、基底分解部140は、まず、教示ラベルデータに基づいて、教示行列Cを定める。この教示行列Cは、係数行列Gにおけるi番目(i行目)の学習データとj番目(j行目)の学習データとが同じカテゴリである場合、i行j列及びj行i列を負の値に設定し、k番目(k行目)の学習データとl番目(l行目)の学習データとが異なるカテゴリである場合、k行l列及びl行k列を正の値に設定するとの規則に従って、D行D列の教示行列として定められる。 However, in this embodiment, to decompose the input matrix X to the transposed matrix G T basis matrix F and the coefficient matrix G, in determining the basis matrix F and the coefficient matrix G, reflecting prior knowledge according to the teachings label data For this purpose, the base decomposition unit 140 first determines the teaching matrix C based on the teaching label data. When the i-th (i-th row) learning data and the j-th (j-th row) learning data in the coefficient matrix G are in the same category, the teaching matrix C is negative for i-row j-column and j-row i-column. If the k-th (k-th) learning data and the l-th (l-th) learning data are in different categories, the k-th l-th column and the l-th row-k-th column are set to positive values. Then, according to the rule, it is determined as a teaching matrix of D rows and D columns.

設定する負の値及び正の値は、任意である。これらの値の絶対値が大きいほど、教示ラベルデータによる事前知識が、基底行列F及び係数行列Gの設定に与える影響を大きくすることができる。なお、教示ラベルデータが与えられていない学習データに対応する教示行列Cの要素はゼロに設定される。   The negative value and the positive value to be set are arbitrary. The larger the absolute value of these values, the greater the influence of prior knowledge based on the teaching label data on the setting of the base matrix F and the coefficient matrix G. Note that the elements of the teaching matrix C corresponding to learning data to which no teaching label data is given are set to zero.

そして、基底分解部140は、以下の数式6に示すコスト関数J(F,G)を最小化する基底行列Fと係数行列Gとを求める。   Then, the base decomposition unit 140 obtains a base matrix F and a coefficient matrix G that minimize the cost function J (F, G) shown in Equation 6 below.

Figure 0005407723

数式1において、右辺の第1項の記号は、行列要素の2乗和であるフロベニウスノルムを表し、第2項の関数trは、行列の対角要素の総和を表している。第1項により、入力行列Xに対して、基底行列Fと係数行列Gの転置行列Gとの積が最も小さくなるように、入力行列Xが基底行列Fと係数行列Gとに分解される。
Figure 0005407723

In Equation 1, the symbol of the first term on the right side represents the Frobenius norm that is the sum of squares of matrix elements, and the function tr of the second term represents the sum of the diagonal elements of the matrix. The first term, on the input matrix X, as the product of the transposed matrix G T basis matrix F and the coefficient matrix G is the smallest, input matrix X is decomposed into a basis matrix F and the coefficient matrix G .

また、第2項において、転置行列Gと係数行列Gとの積における各要素に関して、教示行列Cにより、同一カテゴリのデータ同士が掛け合わされた場合には、その積和結果に負の値が乗じられ、異なるカテゴリのデータ同士が掛け合わされた場合には、その積和結果に正の値が乗じられる。同一カテゴリに属すべきデータ同士であれば、係数行列Gにおける行方向の各要素の分布は類似すべきである。このため、同一カテゴリのデータ同士が掛け合わされた場合の要素には、負の値を乗じることにより、これらの要素の分布が類似するほど、コスト関数J(F,G)の値が減少するようにしている。一方、異なるカテゴリに属すべきデータ同士であれば、係数行列Gにおける行方向の各要素の分布が極力非類似となるべきである。このため、異なるカテゴリのデータ同士が掛け合わされた場合の要素には、正の値を乗じることにより、これらの要素の分布が類似するほど、コスト関数J(F,G)の値が増加するようにしている。従って、第2項により、係数行列Gに対して教示データによる事前知識が反映され、その結果、同一カテゴリのデータの係数行列Gの要素は類似し、異なるカテゴリのデータの係数行列Gの要素は極力非類似となるように、基底行列Fと係数行列Gとが強制的に修正される。 In the second paragraph, for each element in the product of the transposed matrix G T and the coefficient matrix G, the teachings matrix C, and if the data between the same category was multiplied is a negative value to the product-sum result When multiplied and data of different categories are multiplied, the product sum result is multiplied by a positive value. If the data should belong to the same category, the distribution of each element in the row direction in the coefficient matrix G should be similar. For this reason, by multiplying the elements when the data of the same category are multiplied by a negative value, the value of the cost function J (F, G) decreases as the distribution of these elements becomes similar. I have to. On the other hand, if the data should belong to different categories, the distribution of each element in the row direction in the coefficient matrix G should be as dissimilar as possible. Therefore, by multiplying the elements when data of different categories are multiplied by a positive value, the value of the cost function J (F, G) increases as the distribution of these elements becomes similar. I have to. Therefore, prior knowledge by the teaching data is reflected on the coefficient matrix G by the second term. As a result, the elements of the coefficient matrix G of the data in the same category are similar, and the elements of the coefficient matrix G of the data in the different categories are The base matrix F and the coefficient matrix G are forcibly corrected so as to be as dissimilar as possible.

上述した数式6に従って、基底行列Fと係数行列Gとを求める具体的な演算方法を以下の数式7に示す。   A specific calculation method for obtaining the base matrix F and the coefficient matrix G in accordance with Equation 6 described above is shown in Equation 7 below.

Figure 0005407723
Figure 0005407723

数式7の第1式により、基底行列Fが、コスト関数J(F,G)を最小化させる基底行列Fに近づくように更新される。なお、第2式は、更新した基底行列Fを正規化するためのものであり、この第2式は省略できる場合がある。   According to the first expression of Expression 7, the base matrix F is updated so as to approach the base matrix F that minimizes the cost function J (F, G). The second equation is for normalizing the updated basis matrix F, and this second equation may be omitted in some cases.

数式7の第3式により、更新及び正規化された基底行列F、入力行列X、及び教示行列Cを用いて、係数行列Gが、コスト関数J(F,G)を最小化させる係数行列Gに近づくように更新される。   Using the updated and normalized basis matrix F, the input matrix X, and the teaching matrix C, the coefficient matrix G minimizes the cost function J (F, G) according to the third equation of Equation 7. Updated to approach.

ここで、第3式において、Cは、教示行列Cの正の要素のみを残した行列であり、Cは、教示行列Cの負の要素のみを残し、符号を反転させた行列であり、それぞれ、以下の数式8に示すように定義される。 Here, in the third equation, C + is a matrix in which only the positive element of the teaching matrix C is left, and C is a matrix in which only the negative element of the teaching matrix C is left and the sign is inverted. , Respectively, are defined as shown in Equation 8 below.

Figure 0005407723
Figure 0005407723

このように、本実施形態では、教示行列Cの負の要素に関して、符号を反転させた非負行列として扱っている。従って、入力行列Xを基底行列Fと係数行列Gとに分解する際に、非負行列因子分解を適用することができる。   Thus, in the present embodiment, the negative element of the teaching matrix C is treated as a non-negative matrix with the sign inverted. Therefore, when decomposing the input matrix X into the base matrix F and the coefficient matrix G, non-negative matrix factorization can be applied.

上述した数式7による、基底行列Fと係数行列Gの更新は、例えば予め定めた回数(例えば千回)、あるいは更新前後の変化量(差や比率)が所定値以下となるまで繰り返される。   The update of the base matrix F and the coefficient matrix G according to the above-described Expression 7 is repeated, for example, until a predetermined number of times (for example, 1000 times) or the amount of change (difference or ratio) before and after the update becomes a predetermined value or less.

基底分解部140は、このような基底行列Fと係数行列Gとの更新を繰り返すことにより基底行列F及び係数行列Gを算出する。そのため、基底分解部140は、図2に示すように構成されている。   The base decomposition unit 140 calculates the base matrix F and the coefficient matrix G by repeating such updating of the base matrix F and the coefficient matrix G. Therefore, the base decomposition unit 140 is configured as shown in FIG.

すなわち、図2に示すように、基底分解部140では、予め基底行列F及び係数行列Gの初期値141が設定され記憶されている。基底行列F及び係数行列Gの初期値141は基底行列更新部142に入力される。なお、基底行列Fの列数M(係数行列Gの行数M)は、学習データに含まれるデータのカテゴリ数に応じて適宜設定される。   That is, as shown in FIG. 2, in the base decomposition unit 140, initial values 141 of the base matrix F and the coefficient matrix G are set and stored in advance. The initial values 141 of the base matrix F and the coefficient matrix G are input to the base matrix update unit 142. Note that the number of columns M of the base matrix F (the number of rows M of the coefficient matrix G) is appropriately set according to the number of categories of data included in the learning data.

基底行列更新部142は、入力された入力行列X,基底行列F,及び係数行列Gに基づいて、上記数式7の第1式及び第2式の演算を行なうことにより、基底行列Fを更新するとともに、更新した基底行列Fを正規化する。係数行列更新部143は、入力された入力行列X,基底行列F(更新値)、係数行列G、及び教示行列Cに基づいて、上記数式7の第3式の演算を行なうことにより、係数行列Gを更新する。   Based on the input matrix X, base matrix F, and coefficient matrix G, the base matrix update unit 142 updates the base matrix F by performing the calculations of the first expression and the second expression of Expression 7. At the same time, the updated basis matrix F is normalized. The coefficient matrix updating unit 143 performs the calculation of the third equation of the above equation 7 based on the input matrix X, basis matrix F (updated value), coefficient matrix G, and teaching matrix C that are input, thereby obtaining the coefficient matrix. Update G.

基底行列更新部142及び係数行列更新部143によって算出された基底行列F及び係数行列Gの更新値は、収束判定部145に与えられる。収束判定部145は、例えば所定回数の更新が行なわれたか否か、又は基底行列F及び係数行列Gの変化量が所定値以下となったか否かにより、基底行列F及び係数行列Gが収束したか否かを判定する。そして、収束したと判定した場合には、基底行列Fの収束解150及び係数行列Gの収束解160を、後述する認識部200に出力する。一方、収束判定部145により、基底行列F及び係数行列Gが収束していないと判定された場合には、基底行列F及び係数行列Gの更新値144が基底行列更新部142及び係数行列更新部143に与えられる。そして、基底行列更新部142及び係数行列更新部143は、収束判定部145により基底行列F及び係数行列Gが収束したと判定されるまで、基底行列Fと係数行列Gの更新を繰り返す。   The updated values of the base matrix F and the coefficient matrix G calculated by the base matrix update unit 142 and the coefficient matrix update unit 143 are given to the convergence determination unit 145. The convergence determination unit 145 converges the base matrix F and the coefficient matrix G depending on, for example, whether the update has been performed a predetermined number of times, or whether the amount of change in the base matrix F and the coefficient matrix G is equal to or less than a predetermined value. It is determined whether or not. If it is determined that the convergence has been achieved, the convergence solution 150 of the base matrix F and the convergence solution 160 of the coefficient matrix G are output to the recognition unit 200 described later. On the other hand, when the convergence determination unit 145 determines that the base matrix F and the coefficient matrix G have not converged, the updated values 144 of the base matrix F and the coefficient matrix G are converted into the base matrix update unit 142 and the coefficient matrix update unit. 143. Then, the base matrix update unit 142 and the coefficient matrix update unit 143 repeatedly update the base matrix F and the coefficient matrix G until the convergence determination unit 145 determines that the base matrix F and the coefficient matrix G have converged.

次に、図1及び図3に基づいて、認識部200について説明する。認識部200は、認識すべき未知の画像データ210が入力されたときに、学習部100における学習結果である基底行列F及び係数行列Gに基づいて、入力された画像データの認識を行なう。   Next, the recognition unit 200 will be described with reference to FIGS. 1 and 3. When the unknown image data 210 to be recognized is input, the recognition unit 200 recognizes the input image data based on the base matrix F and the coefficient matrix G that are learning results in the learning unit 100.

入力された画像データは、特徴変換部220において、学習データに対するのと同様の手法により、N次元のベクトルに特徴変換される。特徴変換部220により変換されたN次元のベクトルは、基底分解部230に入力される。   The input image data is feature-converted into an N-dimensional vector in the feature converter 220 by the same method as that for the learning data. The N-dimensional vector converted by the feature conversion unit 220 is input to the basis decomposition unit 230.

基底分解部230は、入力された画像データのN次元ベクトルをN行1列の入力行列yと置いた場合に、その入力行列yを、学習部100により学習された基底行列Fと係数行列gとに分解する。そのため、基底分解部230は、以下の数式9に示すコスト関数J(g)を最小化する係数行列gを求める。   When the N-dimensional vector of the input image data is placed as an N-row and 1-column input matrix y, the base decomposition unit 230 converts the input matrix y into the base matrix F and the coefficient matrix g learned by the learning unit 100. And decompose. For this reason, the base decomposition unit 230 obtains a coefficient matrix g that minimizes the cost function J (g) shown in Equation 9 below.

Figure 0005407723
Figure 0005407723

上述した数式9に従って、係数行列gを求める具体的な演算方法を以下の数式10に示す。   A specific calculation method for obtaining the coefficient matrix g in accordance with Equation 9 described above is shown in Equation 10 below.

Figure 0005407723
Figure 0005407723

上述した数式10による、係数行列gの更新は、例えば予め定めた回数、あるいは更新前後の変化量(差や比率)が所定値以下となるまで繰り返される。基底分解部230は、このような係数行列gの更新を繰り返すことにより係数行列gを算出する。そのため、基底分解部140は、図3に示すように構成されている。   The update of the coefficient matrix g according to the above-described Expression 10 is repeated, for example, a predetermined number of times or until the amount of change (difference or ratio) before and after the update becomes a predetermined value or less. The base decomposition unit 230 calculates the coefficient matrix g by repeating such updating of the coefficient matrix g. Therefore, the base decomposition unit 140 is configured as shown in FIG.

すなわち、図3に示すように、基底分解部230では、予め係数行列gの初期値231が設定され記憶されている。係数行列gの初期値231は係数行列更新部232に入力される。   That is, as shown in FIG. 3, in the base decomposition unit 230, the initial value 231 of the coefficient matrix g is set and stored in advance. The initial value 231 of the coefficient matrix g is input to the coefficient matrix update unit 232.

係数行列更新部232は、入力された入力行列y,基底行列F,及び係数行列gに基づいて、上記数式10の演算を行なうことにより、係数行列gを更新する。係数行列更新部232によって算出された係数行列gの更新値は、収束判定部234に与えられる。収束判定部234は、例えば所定回数の更新が行なわれたか否か、又は係数行列gの変化量が所定値以下となったか否かにより、係数行列gが収束したか否かを判定する。そして、収束したと判定した場合には、係数行列Gの収束解240を、後述する判定部250に出力する。一方、収束判定部234により、係数行列gが収束していないと判定された場合には、係数行列gの更新値233が係数行列更新部232に与えられる。そして、係数行列更新部232は、収束判定部234により係数行列gが収束したと判定されるまで、係数行列gの更新を繰り返す。   The coefficient matrix update unit 232 updates the coefficient matrix g by performing the calculation of Equation 10 based on the input matrix y, basis matrix F, and coefficient matrix g. The updated value of the coefficient matrix g calculated by the coefficient matrix update unit 232 is given to the convergence determination unit 234. The convergence determination unit 234 determines whether or not the coefficient matrix g has converged based on, for example, whether or not a predetermined number of updates have been performed, or whether or not the amount of change in the coefficient matrix g has become a predetermined value or less. And when it determines with having converged, the convergence solution 240 of the coefficient matrix G is output to the determination part 250 mentioned later. On the other hand, when the convergence determining unit 234 determines that the coefficient matrix g has not converged, the updated value 233 of the coefficient matrix g is given to the coefficient matrix updating unit 232. Then, the coefficient matrix update unit 232 repeats updating the coefficient matrix g until the convergence determination unit 234 determines that the coefficient matrix g has converged.

判定部250には、係数行列gの収束解240の他に、学習部100において算出された係数行列G(の収束解)と教示ラベルデータ120とが入力される。そして、判定部250は、基底分解部230により算出された、未知の画像データの特徴ベクトルに対応する係数行列gの要素に対して、類似性が高い要素を、係数行列Gの行方向の要素から抽出する。類似性の判断に関しては、従来用いられているk−NN法、サポートベクターマシン(SVM),ニューラルネットワークなどを用いることができる。これにより、入力された画像データが、学習データの中のいずれに類似しているかの判別が行なわれたことになる。そして、判定部250は、類似していると判別された学習データの教示ラベルデータを認識結果260として出力する。さらに判定部250は、類似判定した結果を検出部270に出力する。   In addition to the convergence solution 240 of the coefficient matrix g, the determination section 250 receives the coefficient matrix G (convergence solution) calculated by the learning section 100 and the teaching label data 120. Then, the determination unit 250 selects an element having a high similarity to the element of the coefficient matrix g corresponding to the feature vector of the unknown image data calculated by the base decomposition unit 230, as an element in the row direction of the coefficient matrix G. Extract from For determining similarity, a conventionally used k-NN method, support vector machine (SVM), neural network, or the like can be used. As a result, it is determined whether the input image data is similar to the learning data. Then, the determination unit 250 outputs the teaching label data of the learning data determined to be similar as the recognition result 260. Further, the determination unit 250 outputs the result of the similarity determination to the detection unit 270.

検出部270は、判定部250における類似判定結果と基底行列Fとを用いて、入力された画像データにおいて、認識対象の位置を検出する。すなわち、係数行列gに類似する要素に関して、係数行列Gの転置行列Gを基底行列Fに掛け合わせた際に、重みの強い基底成分に基づき、画像データ上で同様の基底成分を抽出することにより、画像データにおいて認識対象の位置を検出することができる。検出した認識対象については、検出結果280として、例えば基底成分を強調表示しつつ、画像をディスプレィに表示するなどして、視認者に対して注意喚起を行っても良い。 The detection unit 270 detects the position of the recognition target in the input image data using the similarity determination result in the determination unit 250 and the base matrix F. That is, for elements that are similar to the coefficient matrix g, when multiplied by the transposed matrix G T of the coefficient matrix G in the basis matrix F, based on the strong base component of weight, extracting the same basis components in the image data Thus, the position of the recognition target can be detected in the image data. For the detected recognition target, the viewer may be alerted by displaying the image on the display as the detection result 280 while highlighting the base component, for example.

次に、図4のフローチャートに基づき、本実施形態による認識装置の利用例について説明する。図4に示す例では、車両の進行方向前方を撮影するカメラが、車両に取り付けられ、そのカメラによって定期的に車両前方の様子を撮影する。そして、撮影した画像から、種々の走行環境を認識し、その認識結果に基づいて、車両の走行する道路が高速道路であるか否か、雨、雪、霧、窓の曇りなどで視界が不良な状況であるか否か、さらに道路前方が人や車で混雑した状況であるか否かなどを判定するものである。   Next, a usage example of the recognition apparatus according to the present embodiment will be described based on the flowchart of FIG. In the example illustrated in FIG. 4, a camera that captures the front of the vehicle in the traveling direction is attached to the vehicle, and the camera periodically captures the front of the vehicle. Then, it recognizes various driving environments from the captured images, and based on the recognition results, the visibility is poor due to whether the road on which the vehicle runs is an expressway, rain, snow, fog, cloudy windows, etc. It is determined whether or not the current situation is a situation, and whether or not the road ahead is crowded with people or cars.

まず、ステップS110では、カメラから画像が入力されたか否かを判定する。カメラから画像が入力された場合には、処理は、ステップS120に進み、入力された画像をN次元のベクトルに特徴変換する。続くステップS130では、学習により得られた基底行列Fを用いて、N次元のベクトルからなる入力行列yを、その基底行列Fと係数行列gとに分解する。ステップS140では、求めた係数行例gと、学習により得られた係数行列Gにおける各要素の類似性に基づいて、入力画像に含まれる認識対象を認識する。   First, in step S110, it is determined whether an image is input from the camera. If an image is input from the camera, the process proceeds to step S120, and the input image is feature-converted into an N-dimensional vector. In the subsequent step S130, the base matrix F obtained by learning is used to decompose the input matrix y composed of N-dimensional vectors into the base matrix F and the coefficient matrix g. In step S140, the recognition target included in the input image is recognized based on the obtained coefficient example g and the similarity of each element in the coefficient matrix G obtained by learning.

ステップS150では、ステップS140における認識結果に基づき、車両の走行する道路が高速道路であるか否かを判定する。   In step S150, based on the recognition result in step S140, it is determined whether the road on which the vehicle travels is an expressway.

ここで、高速道路と一般道路とは、ある程度類似するので、従来のように、高速道路と一般道路とを学習データとして、基底行列F及び係数行列Gとを定めても、高速道路の画像データと一般道路の画像データは、基底行列Fにより定められる部分空間において、近い位置に写像されてしまい、両者を高精度に区別して認識することは困難である。   Here, since the expressway and the general road are somewhat similar, even if the base matrix F and the coefficient matrix G are determined using the expressway and the general road as learning data as in the past, the image data of the expressway The image data of the general road is mapped to a close position in the partial space defined by the base matrix F, and it is difficult to distinguish and recognize both with high accuracy.

それに対して、本実施形態では、上述したように、高速道路の画像データと一般道路の画像データとは、基底行列Fにより定められる部分空間において、離れた位置に写像されるように、教示データラベルを用いて、基底行列F及び係数行列Gを強制的に修正する。このため、本実施形態では、学習により得られた基底行列F及び係数行列Gを用いて、車両が走行する道路が高速道路であるか否かを高精度に認識することができる。   On the other hand, in the present embodiment, as described above, the instruction data is such that the image data of the expressway and the image data of the general road are mapped to positions separated in the partial space defined by the base matrix F. The base matrix F and the coefficient matrix G are forcibly corrected using the labels. For this reason, in this embodiment, it is possible to recognize with high accuracy whether or not the road on which the vehicle travels is an expressway by using the base matrix F and the coefficient matrix G obtained by learning.

ステップS150において、車両は高速道路を走行していると判定された場合には、その判定結果が、例えば図示しないカーナビゲーション装置に送信される。これを受けて、カーナビゲーション装置は、自車両の位置を高速道路上に設定する。これにより、一般道路と高速道路とが並進していたり、高速道路の真下に一般道路が設けられていたりしても、カーナビゲーション装置は、自車両の正確な走行位置を地図に表示することができる。   If it is determined in step S150 that the vehicle is traveling on a highway, the determination result is transmitted to, for example, a car navigation device (not shown). In response, the car navigation device sets the position of the host vehicle on the highway. As a result, even if the general road and the highway are translating or a general road is provided directly under the highway, the car navigation device can display the exact travel position of the host vehicle on a map. it can.

ステップS170では、ステップS140での認識結果に基づいて、雨、雪、霧、窓の曇りなどで視界が不良な状況であるか否かを判定する。このような判定も、視界が不良となる各種の状況を、基底行列F及び係数行列Gを求める際の学習データとすることで、精度良く認識することが可能になる。ステップS170において視界不良と判定された場合には、ステップS180にて、音声やブザーにて運転者に注意喚起したり、上述したように、ディスプレィ上で、視界不良と認識した対象位置を強調表示しつつ、画像表示することにより、運転者への注意喚起を行う。   In step S170, based on the recognition result in step S140, it is determined whether or not the visibility is poor due to rain, snow, fog, cloudy windows, and the like. Such a determination can also be recognized with high accuracy by using, as learning data when obtaining the base matrix F and the coefficient matrix G, various situations in which the visibility is poor. If it is determined in step S170 that the field of view is poor, in step S180, the driver is alerted with a voice or a buzzer, or the target position recognized as a field of view is highlighted on the display as described above. However, the driver is alerted by displaying an image.

同様に、ステップS190では、道路前方が人や車で混雑しているか否かを判定し、混雑していると判定した場合には、画像上において混雑領域を検出し(S200)、その検出した混雑領域を強調表示しつつ、画像をディスプレィに表示する(S210)。この場合、音声やブザーによる注意喚起も併せて行っても良い。   Similarly, in step S190, it is determined whether or not the road ahead is crowded with people or cars. If it is determined that the road is crowded, a crowded area is detected on the image (S200), and the detected area is detected. The image is displayed on the display while the congestion area is highlighted (S210). In this case, alerting by voice or buzzer may be performed together.

(第2実施形態)
次に、本発明の第2実施形態による認識装置について説明する。本実施形態による認識装置は、上述した第1実施形態による認識装置と同様に構成されるので、構成に関する説明は省略する。
(Second Embodiment)
Next, a recognition apparatus according to the second embodiment of the present invention will be described. Since the recognition apparatus according to the present embodiment is configured in the same manner as the recognition apparatus according to the first embodiment described above, description regarding the configuration is omitted.

上述した第1実施形態では、入力行列Xに対する、基底行列Fと係数行列Gの転置行列Gとの積の差の二乗和(フロベニウスノルム)が最小となるように、入力行列Xを基底行列Fと係数行列Gとに分解した。 In the first embodiment described above, for the input matrix X, as the sum of squares of the difference between the product of the transposed matrix G T basis matrix F and the coefficient matrix G (Frobenius norm) is minimized, the basis matrix input matrix X F and coefficient matrix G were decomposed.

それに対して、本実施形態では、入力行列Xと、基底行列Fと係数行列Gの転置行列Gとの積とのダイバージェンスが最小となるように、入力行列Xを基底行列Fと係数行列Gとに分解する。特徴量がなんらかの頻度に基づくものである場合、頻度分布がどの程度異なっているかを測る尺度としてダイバージェンスが適切であることが知られている。そこで、本実施形態では、ダイバージェンスを最小化することで、入力行列Xと、基底行列Fと係数行列Gの転置行列Gとの積との分布がより近似するように、基底行列F及び係数行列Gを求める。 In contrast, in the present embodiment, an input matrix X, as divergence between the product of the transposed matrix G T basis matrix F and the coefficient matrix G is minimized, basis matrix input matrix X F and the coefficient matrix G And decompose. When the feature quantity is based on some frequency, it is known that divergence is appropriate as a measure for measuring how much the frequency distribution is different. Therefore, in this embodiment, by minimizing the divergence, the input matrix X, as the distribution of the product of the transposed matrix G T basis matrix F and the coefficient matrix G is more closely, the basis matrix F and the coefficient The matrix G is obtained.

具体的には、学習部100における基底分解部140では、以下の数式11に示すコスト関数J(F,G)を最小化する基底行列Fと係数行列Gとを求める。   Specifically, the base decomposition unit 140 in the learning unit 100 obtains a base matrix F and a coefficient matrix G that minimize the cost function J (F, G) shown in the following formula 11.

Figure 0005407723
Figure 0005407723

上記数式11における右辺の第1項により、入力行列Xと、基底行列Fと係数行列Gの転置行列Gとの積とのダイバージェンスが最小となるように、入力行列Xが基底行列Fと係数行列Gとに分解される。さらに、第2項により、係数行列Gに対して教示データによる事前知識が反映され、その結果、同一カテゴリのデータの係数行列Gの要素は類似し、異なるカテゴリのデータの係数行列Gの要素は極力非類似となるように、基底行列Fと係数行列Gとが強制的に修正される。 The first term on the right side in the equation 11, an input matrix X, as divergence between the product of the transposed matrix G T basis matrix F and the coefficient matrix G becomes minimum, input matrix X and a basis matrix F factor The matrix G is decomposed. Further, according to the second term, prior knowledge by the teaching data is reflected on the coefficient matrix G. As a result, the elements of the coefficient matrix G of the data in the same category are similar, and the elements of the coefficient matrix G of the data in different categories are The base matrix F and the coefficient matrix G are forcibly corrected so as to be as dissimilar as possible.

上述した数式11に従って、基底行列Fと係数行列Gとを求める具体的な演算方法を以下の数式12に示す。   A specific calculation method for obtaining the base matrix F and the coefficient matrix G according to the above-described equation 11 is shown in the following equation 12.

Figure 0005407723
Figure 0005407723

数式12の第1式により、基底行列Fが、コスト関数J(F,G)を最小化させる基底行列Fに近づくように更新される。なお、第2式は、更新した基底行列Fを正規化するためのものであり、この第2式は省略できる場合がある。   According to the first expression of Expression 12, the base matrix F is updated so as to approach the base matrix F that minimizes the cost function J (F, G). The second equation is for normalizing the updated basis matrix F, and this second equation may be omitted in some cases.

数式12の第3式により、更新及び正規化された基底行列F、入力行列X、及び教示行列Cを用いて、係数行列Gが、コスト関数J(F,G)を最小化させる係数行列Gに近づくように更新される。   Using the updated and normalized basis matrix F, input matrix X, and teaching matrix C, the coefficient matrix G minimizes the cost function J (F, G) according to the third equation of Equation 12. Updated to approach.

なお、第1実施形態と同様に、第3式における、Cは、教示行列Cの正の要素のみを残した行列であり、Cは、教示行列Cの負の要素のみを残し、符号を反転させた行列である。 As in the first embodiment, C + in the third equation is a matrix that leaves only the positive element of the teaching matrix C, and C leaves only the negative element of the teaching matrix C, and the sign Is a matrix in which is inverted.

上述した数式12による、基底行列Fと係数行列Gの更新は、例えば予め定めた回数(例えば千回)、あるいは更新前後の変化量(差や比率)が所定値以下となるまで繰り返される。基底分解部140は、このような基底行列Fと係数行列Gとの更新を繰り返すことにより基底行列F及び係数行列Gを算出することができる。   The update of the base matrix F and the coefficient matrix G according to the above-described Expression 12 is repeated, for example, a predetermined number of times (for example, 1000 times) or until the amount of change (difference or ratio) before and after the update becomes a predetermined value or less. The base decomposition unit 140 can calculate the base matrix F and the coefficient matrix G by repeating such updating of the base matrix F and the coefficient matrix G.

次に、本実施形態の認識部200における基底分解部230の演算内容について説明する。基底分解部230は、入力された画像データのN次元ベクトルをN行1列の入力行列yと置いた場合に、その入力行列yを、学習部100により学習された基底行列Fと係数行列gとに分解する。そのため、基底分解部230は、以下の数式13に示すコスト関数J(g)を最小化する係数行列gを求める。   Next, the calculation contents of the base decomposition unit 230 in the recognition unit 200 of the present embodiment will be described. When the N-dimensional vector of the input image data is placed as an N-row and 1-column input matrix y, the base decomposition unit 230 converts the input matrix y into the base matrix F and the coefficient matrix g learned by the learning unit 100. And decompose. Therefore, the base decomposition unit 230 obtains a coefficient matrix g that minimizes the cost function J (g) shown in the following Equation 13.

Figure 0005407723
Figure 0005407723

上述した数式13に従って、係数行列gを求める具体的な演算方法を以下の数式14に示す。   A specific calculation method for obtaining the coefficient matrix g in accordance with Equation 13 described above is shown in Equation 14 below.

Figure 0005407723
Figure 0005407723

上述した数式14による、係数行列gの更新は、例えば予め定めた回数、あるいは更新前後の変化量(差や比率)が所定値以下となるまで繰り返される。基底分解部230は、このような係数行列gの更新を繰り返すことにより係数行列gを算出する。   The update of the coefficient matrix g according to the above-described Expression 14 is repeated, for example, a predetermined number of times or until the amount of change (difference or ratio) before and after the update becomes a predetermined value or less. The base decomposition unit 230 calculates the coefficient matrix g by repeating such updating of the coefficient matrix g.

以上、本発明の好ましい実施形態について説明したが、本発明は上述した実施形態になんら制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形することが可能である。   The preferred embodiments of the present invention have been described above, but the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the spirit of the present invention.

例えば、上述した実施形態では、画像の局所領域における輝度分布の勾配方向をヒストグラム化することにより、画像データをN次元のベクトルに変換した。しかしながら、画像データをN次元のベクトルに変換する手法は、上述した手法に限られず、その他の手法を適用しても良い。例えば、カラーデータ(RGB)をHSV変換したり、画像信号をウェーブレット変換したり、画像の総ピクセル数がNになるようにリサイズするなどして、画像データをN次元のベクトルに変換することが可能である。   For example, in the above-described embodiment, the image data is converted into an N-dimensional vector by histogramming the gradient direction of the luminance distribution in the local region of the image. However, the method of converting the image data into an N-dimensional vector is not limited to the method described above, and other methods may be applied. For example, image data can be converted into an N-dimensional vector by performing HSV conversion of color data (RGB), wavelet conversion of an image signal, resizing so that the total number of pixels of the image is N, or the like. Is possible.

さらに、学習データである画像データに対して、異なる複数の特徴変換を施し、その結果得られた異なる複数の特徴ベクトルを統合して、学習データに対応する特徴ベクトルとしても良い。すなわち、図5に示すように、特徴変換部130は、同一の画像データに対して、異なる複数の特徴変換1,2,…、Kを施すブロック131,132,133と、これらのブロック132〜133にて特徴変換されたベクトルを統合する統合部134とを備えるものであっても良い。   Furthermore, a plurality of different feature transformations may be performed on the image data that is the learning data, and a plurality of different feature vectors obtained as a result may be integrated to form a feature vector corresponding to the learning data. That is, as shown in FIG. 5, the feature conversion unit 130 performs blocks 131, 132, 133 that perform different feature conversions 1, 2,. An integration unit 134 that integrates the vectors whose features are converted in 133 may be provided.

例えば、特徴変換1のブロック131にてN1次元のベクトルに変換し、特徴変換2のブロック132にてN2次元のベクトルに変換し、特徴変換KのブロックではNK次元のベクトルに変換したとする。統合部134では、これらのベクトルを単純に組み合わせたN1+N2+…+NK=N(次元)の特徴ベクトルとすれば良い。このように、複数の特徴ベクトルを統合することで、単一の特徴ベクトルでは認識が難しい認識対象であっても、認識精度の向上を図ることができる。   For example, it is assumed that an N1-dimensional vector is converted in the feature conversion block 131, an N2-dimensional vector is converted in the feature conversion block 132, and an NK-dimensional vector is converted in the feature conversion K block. In the integration unit 134, these vectors may be simply combined into a feature vector of N1 + N2 + ... + NK = N (dimensions). As described above, by integrating a plurality of feature vectors, recognition accuracy can be improved even for a recognition target that is difficult to recognize with a single feature vector.

また、上述した実施形態では、画像データを対象として、学習及び認識を行なう例について説明したが、本発明は、動画像を対象として、学習及び認識を行なうことも可能である。   In the above-described embodiment, an example in which learning and recognition are performed on image data has been described. However, the present invention can also perform learning and recognition on a moving image.

100…学習部
130…特徴変換部
140…基底分解部
200…認識部
220…特徴変換部
250…判定部
260…検出部
DESCRIPTION OF SYMBOLS 100 ... Learning part 130 ... Feature conversion part 140 ... Base decomposition part 200 ... Recognition part 220 ... Feature conversion part 250 ... Determination part 260 ... Detection part

Claims (11)

N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、前記学習データのN次元特徴ベクトルを前記基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解部と、
認識すべき入力データが入力されたときに、前記基底行列を用いて、入力データに対応する係数行列を算出し、前記基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識部と、を備えた認識装置であって、
前記基底分解部は、前記学習データを前記基底行列と前記係数行列の転置行列とに近似により分解する際に、前記学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データが前記M次元の部分空間において接近し、異なるカテゴリに属する学習データが前記M次元の部分空間において離間するように、前記基底行列と前記係数行列とを定めるものであり、
前記基底分解部は、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定したD行D列の教示行列をCとしたとき、以下の数式1で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gを定めることを特徴とする認識装置。
Figure 0005407723
D learning data represented by an N-dimensional feature vector is set as an N-row D-column input matrix, and the input matrix is set to an N-row M-column base matrix in which base vectors are combined, and the N-dimensional of the learning data A base decomposition unit that decomposes by approximation into a D-row and M-column coefficient matrix in which coefficient data for mapping a feature vector into an M-dimensional subspace based on the basis vector is collected;
When input data to be recognized is input, the base matrix is used to calculate a coefficient matrix corresponding to the input data, and the input data based on the similarity to the coefficient row example calculated by the base decomposition unit A recognition unit for recognizing
When the base decomposition unit decomposes the learning data into the base matrix and the transposed matrix of the coefficient matrix by approximation, the learning data belonging to the same category is used as teaching data indicating the category of the learning data. The basis matrix and the coefficient matrix are determined so that the learning data approaches in an M-dimensional subspace and learning data belonging to different categories are separated in the M-dimensional subspace ,
The base decomposition unit has an i row and j columns when the input data is X, the base matrix is F, the coefficient matrix is G, and the i-th learning data and the j-th learning data are of the same type based on the teaching data. And j rows and i columns are set to negative values, and the k th learning data and the l th learning data are different types, the D rows in which the k rows and l columns and the l rows and k columns are set to positive values. A recognition apparatus , wherein a base matrix F and a coefficient matrix G are determined so as to minimize a cost function J (F, G) expressed by the following formula 1 when a teaching matrix of a D column is C.
Figure 0005407723
前記基底分解部は、前記数式1に示されるコスト関数J(F,G)を最小化する基底行列Fと係数行列Gを求めるために、以下の数式2にて示される基底行列Fの更新と係数行列Gの更新を繰り返し実行することを特徴とする請求項1に記載の認識装置。
Figure 0005407723
In order to obtain a base matrix F and a coefficient matrix G for minimizing the cost function J (F, G) shown in Equation 1 , the basis decomposition unit updates the basis matrix F shown in Equation 2 below. The recognition apparatus according to claim 1, wherein the coefficient matrix G is repeatedly updated .
Figure 0005407723
N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、前記学習データのN次元特徴ベクトルを前記基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解部と、
認識すべき入力データが入力されたときに、前記基底行列を用いて、入力データに対応する係数行列を算出し、前記基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識部と、を備えた認識装置であって、
前記基底分解部は、前記学習データを前記基底行列と前記係数行列の転置行列とに近似により分解する際に、前記学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データが前記M次元の部分空間において接近し、異なるカテゴリに属する学習データが前記M次元の部分空間において離間するように、前記基底行列と前記係数行列とを定めるものであり、
前記基底分解部は、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定した教示行列をCとしたとき、以下の数式3で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gを定めることを特徴とする認識装置。
Figure 0005407723
D learning data represented by an N-dimensional feature vector is set as an N-row D-column input matrix, and the input matrix is set to an N-row M-column base matrix in which base vectors are combined, and the N-dimensional of the learning data A base decomposition unit that decomposes by approximation into a D-row and M-column coefficient matrix in which coefficient data for mapping a feature vector into an M-dimensional subspace based on the basis vector is collected;
When input data to be recognized is input, the base matrix is used to calculate a coefficient matrix corresponding to the input data, and the input data based on the similarity to the coefficient row example calculated by the base decomposition unit A recognition unit for recognizing
When the base decomposition unit decomposes the learning data into the base matrix and the transposed matrix of the coefficient matrix by approximation, the learning data belonging to the same category is used as teaching data indicating the category of the learning data. The basis matrix and the coefficient matrix are determined so that the learning data approaches in an M-dimensional subspace and learning data belonging to different categories are separated in the M-dimensional subspace,
The base decomposition unit has an i row and j columns when the input data is X, the base matrix is F, the coefficient matrix is G, and the i-th learning data and the j-th learning data are of the same type based on the teaching data. And j rows and i columns are set to negative values, and the k-th learning data and the l-th learning data are different types, the teaching matrix in which k rows and l columns and l rows and k columns are set to positive values. A recognition apparatus , wherein a base matrix F and a coefficient matrix G are determined so as to minimize a cost function J (F, G) expressed by the following Equation 3 when .
Figure 0005407723
前記基底分解部は、前記数式3に示されるコスト関数J(F,G)を最小化する基底行列Fと係数行列Gを求めるために、以下の数式4にて示される基底行列Fの更新と係数行列Gの更新を繰り返し実行することを特徴とする請求項に記載の認識装置。
Figure 0005407723
In order to obtain a base matrix F and a coefficient matrix G for minimizing the cost function J (F, G) shown in Formula 3, the base decomposition unit updates the base matrix F shown in Formula 4 below. The recognition apparatus according to claim 3 , wherein the coefficient matrix G is repeatedly updated.
Figure 0005407723
前記教示行列Cにおいて、教示データが与えられない学習データに対応する要素は、ゼロに設定されることを特徴とする請求項1乃至請求項4のいずれかに記載の認識装置。 5. The recognition apparatus according to claim 1, wherein in the teaching matrix C, an element corresponding to learning data to which teaching data is not given is set to zero . 前記学習データに対して、異なる複数の特徴変換を施し、その結果得られた異なる複数の特徴ベクトルを統合して、前記学習データに対応する特徴ベクトルとすることを特徴とする請求項1乃至5のいずれかに記載の認識装置。 6. A plurality of different feature transformations are performed on the learning data, and a plurality of different feature vectors obtained as a result are integrated into a feature vector corresponding to the learning data. The recognition apparatus in any one of. 前記入力データは、画像の特徴量をN次元の特徴ベクトルにて表したものであり、
前記画像において、基底行列のベクトルに対応する小領域を決定することにより、認識した対象の位置を決定する検出部を備えることを特徴とする請求項1乃至6のいずれかに記載の認識装置。
The input data represents an image feature amount by an N-dimensional feature vector,
The recognition apparatus according to claim 1, further comprising: a detection unit that determines a position of a recognized object by determining a small region corresponding to a vector of a base matrix in the image .
N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、前記学習データのN次元特徴ベクトルを前記基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解ステップと、
認識すべき入力データが入力されたときに、前記基底行列を用いて、入力データに対応する係数行列を算出し、前記基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識ステップと、を備えた認識方法であって、
前記基底分解ステップにおいて、前記学習データを前記基底行列と前記係数行列の転置行列とに近似により分解する際に、前記学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データが前記M次元の部分空間において接近し、異なるカテゴリに属する学習データが前記M次元の部分空間において離間するように、前記基底行列と前記係数行列とが定められるものであり、
前記基底分解ステップでは、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定したD行D列の教示行列をCとしたとき、以下の数式5で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gが定められることを特徴とする認識方法。
Figure 0005407723
D learning data represented by an N-dimensional feature vector is set as an N-row D-column input matrix, and the input matrix is set to an N-row M-column base matrix in which base vectors are combined, and the N-dimensional of the learning data A base decomposition step of approximating the feature vector into a transposed matrix of a D-row and M-column coefficient matrix that summarizes coefficient data for mapping the feature vector to the M-dimensional subspace based on the basis vectors;
When input data to be recognized is input, the base matrix is used to calculate a coefficient matrix corresponding to the input data, and the input data based on the similarity to the coefficient row example calculated by the base decomposition unit A recognition method comprising: a recognition step for recognizing
In the base decomposition step, when the learning data is decomposed by approximation into the base matrix and the transposed matrix of the coefficient matrix, the learning data belonging to the same category is used by using the teaching data indicating the category of the learning data. The base matrix and the coefficient matrix are determined so that the learning data approaches in an M-dimensional subspace and learning data belonging to different categories are separated in the M-dimensional subspace;
In the basis decomposition step, if the input matrix is X, the basis matrix is F, the coefficient matrix is G, and the i-th learning data and the j-th learning data are of the same type based on the teaching data, i rows and j columns And j rows and i columns are set to negative values, and the k th learning data and the l th learning data are different types, the D rows in which the k rows and l columns and the l rows and k columns are set to positive values. A recognition method characterized in that a base matrix F and a coefficient matrix G are determined so as to minimize a cost function J (F, G) represented by Equation 5 below, where C is a teaching matrix of D columns. .
Figure 0005407723
N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、前記学習データのN次元特徴ベクトルを前記基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解ステップと、
認識すべき入力データが入力されたときに、前記基底行列を用いて、入力データに対応する係数行列を算出し、前記基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識ステップと、を備えた認識方法であって、
前記基底分解ステップにおいて、前記学習データを前記基底行列と前記係数行列の転置行列とに近似により分解する際に、前記学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データが前記M次元の部分空間において接近し、異なるカテゴリに属する学習データが前記M次元の部分空間において離間するように、前記基底行列と前記係数行列と定められるものであり、
前記基底分解ステップでは、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定した教示行列をCとしたとき、以下の数式6で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gが定められることを特徴とする認識方法。
Figure 0005407723
D learning data represented by an N-dimensional feature vector is set as an N-row D-column input matrix, and the input matrix is set to an N-row M-column base matrix in which base vectors are combined, and the N-dimensional of the learning data A base decomposition step of approximating the feature vector into a transposed matrix of a D-row and M-column coefficient matrix that summarizes coefficient data for mapping the feature vector to the M-dimensional subspace based on the basis vectors;
When input data to be recognized is input, the base matrix is used to calculate a coefficient matrix corresponding to the input data, and the input data based on the similarity to the coefficient row example calculated by the base decomposition unit A recognition method comprising: a recognition step for recognizing
In the base decomposition step, when the learning data is decomposed by approximation into the base matrix and the transposed matrix of the coefficient matrix, the learning data belonging to the same category is used by using the teaching data indicating the category of the learning data. The base matrix and the coefficient matrix are determined so that the learning data approaches in an M-dimensional subspace and learning data belonging to different categories are separated in the M-dimensional subspace ;
In the basis decomposition step, if the input matrix is X, the basis matrix is F, the coefficient matrix is G, and the i-th learning data and the j-th learning data are of the same type based on the teaching data, i rows and j columns And j rows and i columns are set to negative values, and the k-th learning data and the l-th learning data are different types, the teaching matrix in which k rows and l columns and l rows and k columns are set to positive values. The recognition method is characterized in that the base matrix F and the coefficient matrix G are determined so as to minimize the cost function J (F, G) expressed by the following Equation 6 when .
Figure 0005407723
コンピュータにより、
N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、前記学習データのN次元特徴ベクトルを前記基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解手順と、
認識すべき入力データが入力されたときに、前記基底行列を用いて、入力データに対応する係数行列を算出し、前記基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識手順とを実行させるプログラムであって、
前記基底分解手順において、前記学習データを前記基底行列と前記係数行列の転置行列とに近似により分解する際に、前記学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データが前記M次元の部分空間において接近し、異なるカテゴリに属する学習データが前記M次元の部分空間において離間するように、前記基底行列と前記係数行列と定められるものであり、
前記基底分解手順では、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定したD行D列の教示行列をCとしたとき、以下の数式7で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gが定められることを特徴とするプログラム。
Figure 0005407723
By computer
D learning data represented by an N-dimensional feature vector is set as an N-row D-column input matrix, and the input matrix is set to an N-row M-column base matrix in which base vectors are combined, and the N-dimensional of the learning data A basis decomposition procedure for decomposing by approximation into a D-by-M coefficient matrix transposed into a coefficient matrix for mapping coefficient data for mapping a feature vector into an M-dimensional subspace based on the basis vectors;
When input data to be recognized is input, the base matrix is used to calculate a coefficient matrix corresponding to the input data, and the input data based on the similarity to the coefficient row example calculated by the base decomposition unit A program for executing a recognition procedure for recognizing
In the base decomposition procedure, when the learning data is decomposed by approximation into the base matrix and the transposed matrix of the coefficient matrix, the learning data belonging to the same category is used using the teaching data indicating the category of the learning data. The base matrix and the coefficient matrix are determined so that the learning data approaches in an M-dimensional subspace and learning data belonging to different categories are separated in the M-dimensional subspace ;
In the basis decomposition procedure, if the input matrix is X, the basis matrix is F, the coefficient matrix is G, and the i-th learning data and the j-th learning data are of the same type based on the teaching data, i rows and j columns And j rows and i columns are set to negative values, and the k th learning data and the l th learning data are different types, the D rows in which the k rows and l columns and the l rows and k columns are set to positive values. A program characterized in that a base matrix F and a coefficient matrix G are determined so as to minimize a cost function J (F, G) expressed by the following Equation 7 when the teaching matrix of the D column is C.
Figure 0005407723
コンピュータにより、
N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、前記学習データのN次元特徴ベクトルを前記基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解手順と、
認識すべき入力データが入力されたときに、前記基底行列を用いて、入力データに対応する係数行列を算出し、前記基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識手順とを実行させるプログラムであって、
前記基底分解手順において、前記学習データを前記基底行列と前記係数行列の転置行列とに近似により分解する際に、前記学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データが前記M次元の部分空間において接近し、異なるカテゴリに属する学習データが前記M次元の部分空間において離間するように、前記基底行列と前記係数行列とが定められるものであり、
前記基底分解手順では、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定した教示行列をCとしたとき、以下の数式8で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gが定められることを特徴とするプログラム。
Figure 0005407723







By computer
D learning data represented by an N-dimensional feature vector is set as an N-row D-column input matrix, and the input matrix is set to an N-row M-column base matrix in which base vectors are combined, and the N-dimensional of the learning data A basis decomposition procedure for decomposing by approximation into a D-by-M coefficient matrix transposed into a coefficient matrix for mapping coefficient data for mapping a feature vector into an M-dimensional subspace based on the basis vectors;
When input data to be recognized is input, the base matrix is used to calculate a coefficient matrix corresponding to the input data, and the input data based on the similarity to the coefficient row example calculated by the base decomposition unit A program for executing a recognition procedure for recognizing
In the base decomposition procedure, when the learning data is decomposed by approximation into the base matrix and the transposed matrix of the coefficient matrix, the learning data belonging to the same category is used using the teaching data indicating the category of the learning data. The base matrix and the coefficient matrix are determined so that the learning data approaches in an M-dimensional subspace and learning data belonging to different categories are separated in the M-dimensional subspace;
In the basis decomposition procedure, if the input matrix is X, the basis matrix is F, the coefficient matrix is G, and the i-th learning data and the j-th learning data are of the same type based on the teaching data, i rows and j columns And j rows and i columns are set to negative values, and the k-th learning data and the l-th learning data are different types, the teaching matrix in which k rows and l columns and l rows and k columns are set to positive values. A program characterized in that the base matrix F and the coefficient matrix G are determined so as to minimize the cost function J (F, G) represented by the following Equation 8 when.
Figure 0005407723







JP2009233623A 2009-10-07 2009-10-07 Recognition device, recognition method, and program Expired - Fee Related JP5407723B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009233623A JP5407723B2 (en) 2009-10-07 2009-10-07 Recognition device, recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009233623A JP5407723B2 (en) 2009-10-07 2009-10-07 Recognition device, recognition method, and program

Publications (2)

Publication Number Publication Date
JP2011081614A JP2011081614A (en) 2011-04-21
JP5407723B2 true JP5407723B2 (en) 2014-02-05

Family

ID=44075600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009233623A Expired - Fee Related JP5407723B2 (en) 2009-10-07 2009-10-07 Recognition device, recognition method, and program

Country Status (1)

Country Link
JP (1) JP5407723B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5662276B2 (en) * 2011-08-05 2015-01-28 株式会社東芝 Acoustic signal processing apparatus and acoustic signal processing method
JP5701787B2 (en) * 2012-02-17 2015-04-15 日本電信電話株式会社 Data classification prediction apparatus, method, and program
JP2015064602A (en) * 2014-12-04 2015-04-09 株式会社東芝 Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program
JP7357010B2 (en) * 2018-07-02 2023-10-05 ストワーズ インスティテュート フォー メディカル リサーチ Facial image recognition using pseudo images

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4772379B2 (en) * 2005-05-26 2011-09-14 株式会社東芝 Person search device, person search method, and entrance / exit management system

Also Published As

Publication number Publication date
JP2011081614A (en) 2011-04-21

Similar Documents

Publication Publication Date Title
US20240331375A1 (en) Systems for multiclass object detection and alerting and methods therefor
WO2019169816A1 (en) Deep neural network for fine recognition of vehicle attributes, and training method thereof
CN106250870B (en) A kind of pedestrian's recognition methods again of joint part and global similarity measurement study
Zhao et al. Car detection in low resolution aerial images
US9607228B2 (en) Parts based object tracking method and apparatus
CN111767882A (en) Multi-mode pedestrian detection method based on improved YOLO model
KR101834778B1 (en) Apparatus for recognizing traffic sign and method thereof
CN111126224A (en) Vehicle detection method and classification recognition model training method
CN111767878B (en) Deep learning-based traffic sign detection method and system in embedded device
Janahiraman et al. Traffic light detection using tensorflow object detection framework
CN107273832B (en) License plate recognition method and system based on integral channel characteristics and convolutional neural network
WO2012139228A1 (en) Video-based detection of multiple object types under varying poses
Shahab et al. How salient is scene text?
CN111274926B (en) Image data screening method, device, computer equipment and storage medium
CN111783654B (en) Vehicle weight identification method and device and electronic equipment
JP2019106193A (en) Information processing device, information processing program and information processing method
Liu et al. Multi-type road marking recognition using adaboost detection and extreme learning machine classification
CN107315990A (en) A kind of pedestrian detection algorithm based on XCS LBP features and cascade AKSVM
Kale et al. A road sign detection and the recognition for driver assistance systems
JP5407723B2 (en) Recognition device, recognition method, and program
Martins et al. Machine learning and SLIC for Tree Canopies segmentation in urban areas
CN110909656A (en) Pedestrian detection method and system with integration of radar and camera
JP6472504B1 (en) Information processing apparatus, information processing program, and information processing method
JP2007033931A (en) Road recognition system for map generation using satellite image or the like
Ghaffarian et al. Automatic vehicle detection based on automatic histogram-based fuzzy C-means algorithm and perceptual grouping using very high-resolution aerial imagery and road vector data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131021

R150 Certificate of patent or registration of utility model

Ref document number: 5407723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees