JP2011081614A - 認識装置、認識方法及びプログラム - Google Patents

認識装置、認識方法及びプログラム Download PDF

Info

Publication number
JP2011081614A
JP2011081614A JP2009233623A JP2009233623A JP2011081614A JP 2011081614 A JP2011081614 A JP 2011081614A JP 2009233623 A JP2009233623 A JP 2009233623A JP 2009233623 A JP2009233623 A JP 2009233623A JP 2011081614 A JP2011081614 A JP 2011081614A
Authority
JP
Japan
Prior art keywords
matrix
data
base
learning data
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009233623A
Other languages
English (en)
Other versions
JP5407723B2 (ja
Inventor
Mitsuru Abe
満 安倍
Yuichi Yoshida
悠一 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2009233623A priority Critical patent/JP5407723B2/ja
Publication of JP2011081614A publication Critical patent/JP2011081614A/ja
Application granted granted Critical
Publication of JP5407723B2 publication Critical patent/JP5407723B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】良く似ているデータ同士であっても、区別して認識できる精度を向上した認識装置を提供すること。
【解決手段】学習データ110を基底行列Fと係数行列Gの転置行列Gとに近似により分解する際に、学習データのカテゴリを示す教示ラベルデータ120を用いて、同じカテゴリに属する学習データ110が、基底行列Fにより定められる部分空間において接近し、異なるカテゴリに属する学習データが部分空間において離間するように、基底行列Fと係数行列Gとを強制的に修正する。この結果、よく似ているデータ同士であっても、データの認識性能を向上することができる。
【選択図】図1

Description

本発明は、学習データを用いて行なった学習結果に基づき、入力データの認識を行なう認識装置、認識方法及びプログラムに関する。
音声認識や画像認識など、幅広い分野において、学習に基づく認識装置が用いられている。この学習に基づく認識は、例えば、以下のように行なわれる。
学習段階として、まず、学習に用いる多くの学習データを用意する。そして、用意した学習データの各々を、N次元のベクトルで表現する。例えば、学習データが画像である場合、画像の局所領域における輝度分布の勾配方向をヒストグラム化したり、カラーデータ(RGB)をHSV変換したり、画像信号をウェーブレット変換するなどの各種の変換手法により、1枚の画像をN次元の特徴ベクトルで表現することができる。
次に、N次元のベクトルで表現された学習データを、それよりも少ないM次元のベクトルに変換する写像を求める。例えば、主成分分析や非負行列因子分解(Non‐Negative Matrix Factorization)などにより、変換写像を求めることができる。求めた写像を用いて、学習データをM次元の部分空間に投影することにより、学習データをM次元のベクトルにて表現することができる。このような写像による変換を行なうことで、未知の入力データを認識する際の認識性能が高まることが知られている。
認識段階においては、まず、認識したいデータをN次元のベクトルで表現した入力データとする。このN次元のベクトルへの変換は、学習データと同じ変換手法が用いられる。学習により得た写像を用いて、入力データをM次元のベクトルに変換する。学習時に得られたM次元のベクトルから近いものを探し、それを認識結果とする。近似したベクトルの探索に関しては、k−NN法、ニューラルネットワーク、サポートベクターマシン(SVM)などの種々の手法が適用可能である。
上述した考え方に基づいて、例えば特許文献1では、認識対象を青信号の画像とし、車載カメラ画像から青信号であるか否かを判断するようにしている。具体的には、データベースに記録された複数の異なる青信号の画像データに対して主成分分析処理を行ない、基底画像を導出して主成分空間を形成する。そして、カメラによって撮影された信号機の撮影画像を主成分分析によって形成された主成分空間に投影し、主成分空間における各主成分の係数を算出する。その後、主要な主成分及び係数を用いて撮影画像の近似画像を形成し、その近似画像に基づき、青信号か否かを判断する。
また、特許文献2では、上述した考え方に基づいて、監視画像における異常状態検知を行なっている。具体的には、歩く動作のような一般的な動作を正常動作とし、その正常動作を示すデータのベクトルに対して非負行列因子分解や主成分分析などを行なうことにより、特徴ベクトル空間に写像する。この特徴ベクトル空間において、正常データの特徴ベクトルは、1つあるいは複数の(超立体の)多角錘形状あるいは円錐形状の領域を合せた正常空間領域内に分布する。従って、監視画像の特徴ベクトルが、1つあるいは複数の多角錘あるいは円錐形状の領域の内の1つの内部に存在しているか否かを判定し、内部に存在していれば正常、そうでなければ異常と判定する。
特開2006−244289号公報 特開2008−287478号公報
上述した従来の認識手法では、主成分分析や非負行列因子分解により形成した部分空間において、同じカテゴリに属する入力データのベクトル同士が、近い位置に写像されることを前提としている。例えば、特許文献2の異常検出装置では、異常状態の画像と正常状態の画像とが部分空間において遠く離れた位置に写像されることを利用して、正常、異常の判別を行なっている。
このため、従来の認識手法では、良く似ている画像データを区別して認識する必要がある場合には、必ずしも高い認識精度を期待することはできない。例えば、「木」「本」という文字画像は、パターンが非常に良く似ているため、部分空間に写像した場合、近接した位置に写像されることになる。このような例には、例えば、カメラを車両に搭載して、車両が走行している道路環境が高速道路であるか一般道路であるかを判別する場合や、人間の顔を撮影した顔画像から、それが誰であるかを認識しようとする場合なども該当する。
本願発明は、このような点に鑑みてなされたものであり、良く似ているデータ同士であっても、区別して認識できる精度を向上した認識装置を提供することを目的とする。
上記目的を達成するために、請求項1に記載の認識装置は、
N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、学習データのN次元特徴ベクトルを基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解部と、
認識すべき入力データが入力されたときに、基底行列を用いて、入力データに対応する係数行列を算出し、基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識部と、を備えた認識装置であって、
基底分解部は、学習データを基底行列と係数行列の転置行列とに近似により分解する際に、学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データがM次元の部分空間において接近し、異なるカテゴリに属する学習データがM次元の部分空間において離間するように、基底行列と係数行列とを定めることを特徴とする。
従って、良く似ているが異なるカテゴリに属すべき学習データがあった場合、これらの学習データ同士がM次元の部分空間において離間した位置に写像されるように、教示データにより基底行列と係数行列とが強制的に修正される。逆に、あまり似ていないが同じカテゴリに属すべき学習データがあった場合には、これらの学習データ同士がM次元の部分空間において接近した位置に写像されるように、教示データにより基底行列と係数行列とが強制的に修正される。これらにより、データの類似性による影響を低減して、データの認識性能を向上することができる。
請求項2に記載したように、基底分解部は、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定したD行D列の教示行列をCとしたとき、以下の数式1で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gを定めても良い。
Figure 2011081614
数式1における右辺の第1項により、入力行列Xが、基底行列Fと係数行列Gとに分解される。さらに、第2項により、係数行列Gに対して教示データによる事前知識が反映され、その結果、教示データにより基底行列Fと係数行列Gとが強制的に修正される。
数式1に従って、コスト関数J(F,G)を最小化する基底行列Fと係数行列Gとを求める場合の具体的な演算手法として、請求項3に記載したように、以下の数式2にて示される基底行列Fの更新と係数行列Gの更新を繰り返し実行すれば良い。この更新は、例えば予め定めた回数(例えば千回)、あるいは更新前後の変化量が所定値以下となるまで繰り返される。
Figure 2011081614
数式2では、特に、教示行列Cにおける負の要素について、符号を反転させた非負行列として扱っているので、入力行列Xを基底行列Fと係数行列Gとに分解する際に、非負行列因子分解を適用することができる。
また、請求項4に記載したように、基底分解部は、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定した教示行列をCとしたとき、以下の数式3で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gを定めても良い。
Figure 2011081614
上記ダイバージェンスを最小化することで、入力行列Xと、基底行列Fと係数行列Gの転置行列との積FGの分布がより近くなる。従って、数式3における右辺の第1項により、入力行列Xが、基底行列Fと係数行列Gとに分解される。さらに、第2項により、係数行列Gに対して教示データによる事前知識が反映され、その結果、教示データにより基底行列Fと係数行列Gとが強制的に修正される。
数式3に従って、コスト関数J(F,G)を最小化する基底行列Fと係数行列Gとを求める場合の具体的な演算手法として、請求項5に記載したように、以下の数式4にて示される基底行列Fの更新と係数行列Gの更新を繰り返し実行すれば良い。
Figure 2011081614
数式4においても、教示行列Cにおける負の要素について、符号を反転させた非負行列として扱っているので、入力行列Xを基底行列Fと係数行列Gとに分解する際に、非負行列因子分解を適用することができる。
請求項6に記載したように、教示行列Cにおいて、教示データが与えられない学習データに対応する要素は、ゼロに設定すれば良い。すなわち、全ての学習データに教示データが与えられる必要はない。ただし、教示データが与えられる学習データが多いほど、認識精度の向上度合が高まるので、出来る限り、多くの教示データが与えられることが望ましい。
なお、認識対象外のデータを教示データなしで学習データの一部とすることにより、学習データにおける認識対象データは、認識対象外データと区別されるように基底行列と係数行列とが定められる。この結果、認識対象データの特徴をより良く捉えた認識装置とすることができる。従って、認識対象外データを、教示データなしで学習データに含めても良い。
請求項7に記載したように、学習データに対して、異なる複数の特徴変換を施し、その結果得られた異なる複数の特徴ベクトルを統合して、学習データに対応する特徴ベクトルとしても良い。複数の特徴ベクトルを統合することで、単一の特徴ベクトルでは認識が難しい認識対象であっても、認識精度の向上を図ることができる。
請求項8に記載したように、入力データは、画像の特徴量をN次元の特徴ベクトルにて表したものであり、この画像において、基底行列のベクトルに対応する小領域を決定することにより、認識した対象の位置を決定する検出部を備えても良い。これにより、画像の一部のみに認識対象が存在する場合に、画像において、認識対象の存在する範囲を特定することができる。
なお、請求項9は、上述した請求項1に記載の認識装置により実行される認識方法を発明の対象としたものであり、請求項10は、請求項1に記載の認識装置における各機能をコンピュータにより実現するためのプログラムを発明の対象としたものである。これらの請求項に記載した発明から得られる効果は、請求項1に記載の認識装置から得られる効果とほぼ同様であるため、説明を省略する。
本発明の実施形態による認識装置の構成を示す構成図である。 図1における、学習部の基底分解部の詳細な構成を示す構成図である。 図1における、認識部の基底分解部の詳細な構成を示す構成図である。 車両の前方領域を撮影した画像データの認識結果に応じて、各種の制御を行なう例について示したフローチャートである。 変形例の構成を説明するための構成図である。
(第1実施形態)
以下、本発明の第1実施形態による認識装置について、図面に基づいて説明する。図1は、本実施形態による認識装置の構成を示す構成図である。
図1において、学習部100は、予め用意した沢山の、認識対象を含む学習データ110をN次元の特徴ベクトルにて表し、その特徴ベクトルをまとめた入力行列を、基底ベクトルをまとめた基底行列と、学習データ110のN次元特徴ベクトルを基底ベクトルによるM次元の部分空間に写像するための係数データをまとめた係数行列とに、非負行列因子分解(Non-Negative Matrix Factorization)により分解する。その際に、認識対象のカテゴリを示す教示ラベルデータ120を用いることにより、同じカテゴリに属する学習データ110がM次元の部分空間において接近し、異なるカテゴリに属する学習データ110がM次元の部分空間において離間するように、基底行列と係数行列とを強制的に修正する。
学習データ110は、認識対象を含む画像データであって、本実施形態では、例えば、車両が走行している道路が、高速道路であるか一般道路であるかを判別するために、種々の高速道路の様子を写した画像データ及び種々の一般道路の様子を写した画像データが学習データとして用意される。このとき、高速道路の様子を写した画像データには、そのカテゴリが「高速道路」である旨を示す教示ラベルデータが対応付けられ、一般道路の様子を写した画像データには、そのカテゴリが「高速道路」とは異なる「一般道路」である旨を示す教示ラベルデータが対応付けられる。
同様に、本実施形態では、視界不良であるか視界良好であるかを判別したり、道路前方が人や車で混雑しているか空いているかを判別したりするため、それらの状況を示す様々な画像データおよびそれらのカテゴリを示すデータが、学習データ110及び教示ラベルデータとして用意される。
ただし、本実施形態では、用意した全ての画像データをまとめて処理するのではなく、判別したい対象ごとに画像データを処理する。従って、上述したように、判別したい対象が3種類(「高速道路」と「一般道路」、「視界不良」と「視界良好」、及び「混雑した状況」と「空いている状況」)ある場合には、それぞれの判別対象ごとに、図1に示す学習部100と認識部200とが個別に設けられる。
なお、教示ラベルデータは、全ての学習データに対して与えられる必要はない。しかし、教示ラベルデータが与えられる学習データが多いほど、各々のカテゴリに属する認識対象の認識精度が向上するので、出来る限り、多くの教示ラベルデータが与えられることが望ましい。
また、認識対象外の画像データを教示ラベルデータなしで学習データの一部としても良い。これにより、学習データにおける認識対象の画像データは、認識対象外の画像データと区別されるように、基底行列と係数行列とが定められることになる。この結果、認識対象の画像データの特徴をより良く捉えた認識装置とすることができる。従って、認識対象外の画像データを、教示データなしで学習データに含めても良い。
特徴変換部130は、学習データ110として入力された画像データをN次元の特徴ベクトルに変換するものである。このN次元特徴ベクトルに変換する手法として種々の方法が知られているが、本実施形態において採用した方法について、以下に簡単に説明する。
まず、画像データから沢山の小領域を切り出して、各小領域の輝度分布の勾配方向のパターンを、SIFT(Scale-Invariant Feature Transform)特徴ベクトル(128次元のベクトル)として抽出する。なお、小領域の切り出し方法としては、例えば、画像においてエッジなどの特徴点を求め、その特徴点の周りの一定の領域を小領域としても良い。また、ある大きさの窓を用意し、画像上で少しずつずらしながら、窓内の領域を小領域として切り出しても良い。さらに、1枚の画像に対して、窓の大きさを変えつつ複数回小領域を切り出すようにしても良い。窓の形状は矩形に限られず、また窓は任意の角度に傾いていても良い。
次に、認識対象の識別に利用すべく、予め求めておいたN個のパターン(visual words)を用いて、各小領域のパターンであるSIFT特徴ベクトルを、類似するパターンに分類する。これにより、1枚の画像データからN個のパターンの出現頻度ヒストグラムが作成され、その結果、画像データをN次元のベクトルに特徴変換することができる。なお、このような特徴変換手法は、”Visual Categorization with Bags of Keypoints” Gabriella Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, Cedric Bray, In ECCV International Workshop on Statistical Learning in Computer Vision (2004) に詳しく説明されている。
特徴変換部130によって画像データから変換されたN次元の特徴ベクトルは、教示ラベルデータとともに、基底分解部140に与えられる。基底分解部140は、以下の数式5に示すように、N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列Xとし、当該入力行列Xを、基底ベクトルをまとめたN行M列の基底行列Fと、学習データ110のN次元特徴ベクトルを基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列Gの転置行列Gとに近似により分解する。この分解においては、非負行列因子分解法が用いられる。
Figure 2011081614
ただし、本実施形態では、入力行列Xを基底行列Fと係数行列Gの転置行列Gとに分解して、基底行列Fと係数行列Gとを定める際に、教示ラベルデータによる事前知識を反映させるために、基底分解部140は、まず、教示ラベルデータに基づいて、教示行列Cを定める。この教示行列Cは、係数行列Gにおけるi番目(i行目)の学習データとj番目(j行目)の学習データとが同じカテゴリである場合、i行j列及びj行i列を負の値に設定し、k番目(k行目)の学習データとl番目(l行目)の学習データとが異なるカテゴリである場合、k行l列及びl行k列を正の値に設定するとの規則に従って、D行D列の教示行列として定められる。
設定する負の値及び正の値は、任意である。これらの値の絶対値が大きいほど、教示ラベルデータによる事前知識が、基底行列F及び係数行列Gの設定に与える影響を大きくすることができる。なお、教示ラベルデータが与えられていない学習データに対応する教示行列Cの要素はゼロに設定される。
そして、基底分解部140は、以下の数式6に示すコスト関数J(F,G)を最小化する基底行列Fと係数行列Gとを求める。
Figure 2011081614

数式1において、右辺の第1項の記号は、行列要素の2乗和であるフロベニウスノルムを表し、第2項の関数trは、行列の対角要素の総和を表している。第1項により、入力行列Xに対して、基底行列Fと係数行列Gの転置行列Gとの積が最も小さくなるように、入力行列Xが基底行列Fと係数行列Gとに分解される。
また、第2項において、転置行列Gと係数行列Gとの積における各要素に関して、教示行列Cにより、同一カテゴリのデータ同士が掛け合わされた場合には、その積和結果に負の値が乗じられ、異なるカテゴリのデータ同士が掛け合わされた場合には、その積和結果に正の値が乗じられる。同一カテゴリに属すべきデータ同士であれば、係数行列Gにおける行方向の各要素の分布は類似すべきである。このため、同一カテゴリのデータ同士が掛け合わされた場合の要素には、負の値を乗じることにより、これらの要素の分布が類似するほど、コスト関数J(F,G)の値が減少するようにしている。一方、異なるカテゴリに属すべきデータ同士であれば、係数行列Gにおける行方向の各要素の分布が極力非類似となるべきである。このため、異なるカテゴリのデータ同士が掛け合わされた場合の要素には、正の値を乗じることにより、これらの要素の分布が類似するほど、コスト関数J(F,G)の値が増加するようにしている。従って、第2項により、係数行列Gに対して教示データによる事前知識が反映され、その結果、同一カテゴリのデータの係数行列Gの要素は類似し、異なるカテゴリのデータの係数行列Gの要素は極力非類似となるように、基底行列Fと係数行列Gとが強制的に修正される。
上述した数式6に従って、基底行列Fと係数行列Gとを求める具体的な演算方法を以下の数式7に示す。
Figure 2011081614
数式7の第1式により、基底行列Fが、コスト関数J(F,G)を最小化させる基底行列Fに近づくように更新される。なお、第2式は、更新した基底行列Fを正規化するためのものであり、この第2式は省略できる場合がある。
数式7の第3式により、更新及び正規化された基底行列F、入力行列X、及び教示行列Cを用いて、係数行列Gが、コスト関数J(F,G)を最小化させる係数行列Gに近づくように更新される。
ここで、第3式において、Cは、教示行列Cの正の要素のみを残した行列であり、Cは、教示行列Cの負の要素のみを残し、符号を反転させた行列であり、それぞれ、以下の数式8に示すように定義される。
Figure 2011081614
このように、本実施形態では、教示行列Cの負の要素に関して、符号を反転させた非負行列として扱っている。従って、入力行列Xを基底行列Fと係数行列Gとに分解する際に、非負行列因子分解を適用することができる。
上述した数式7による、基底行列Fと係数行列Gの更新は、例えば予め定めた回数(例えば千回)、あるいは更新前後の変化量(差や比率)が所定値以下となるまで繰り返される。
基底分解部140は、このような基底行列Fと係数行列Gとの更新を繰り返すことにより基底行列F及び係数行列Gを算出する。そのため、基底分解部140は、図2に示すように構成されている。
すなわち、図2に示すように、基底分解部140では、予め基底行列F及び係数行列Gの初期値141が設定され記憶されている。基底行列F及び係数行列Gの初期値141は基底行列更新部142に入力される。なお、基底行列Fの列数M(係数行列Gの行数M)は、学習データに含まれるデータのカテゴリ数に応じて適宜設定される。
基底行列更新部142は、入力された入力行列X,基底行列F,及び係数行列Gに基づいて、上記数式7の第1式及び第2式の演算を行なうことにより、基底行列Fを更新するとともに、更新した基底行列Fを正規化する。係数行列更新部143は、入力された入力行列X,基底行列F(更新値)、係数行列G、及び教示行列Cに基づいて、上記数式7の第3式の演算を行なうことにより、係数行列Gを更新する。
基底行列更新部142及び係数行列更新部143によって算出された基底行列F及び係数行列Gの更新値は、収束判定部145に与えられる。収束判定部145は、例えば所定回数の更新が行なわれたか否か、又は基底行列F及び係数行列Gの変化量が所定値以下となったか否かにより、基底行列F及び係数行列Gが収束したか否かを判定する。そして、収束したと判定した場合には、基底行列Fの収束解150及び係数行列Gの収束解160を、後述する認識部200に出力する。一方、収束判定部145により、基底行列F及び係数行列Gが収束していないと判定された場合には、基底行列F及び係数行列Gの更新値144が基底行列更新部142及び係数行列更新部143に与えられる。そして、基底行列更新部142及び係数行列更新部143は、収束判定部145により基底行列F及び係数行列Gが収束したと判定されるまで、基底行列Fと係数行列Gの更新を繰り返す。
次に、図1及び図3に基づいて、認識部200について説明する。認識部200は、認識すべき未知の画像データ210が入力されたときに、学習部100における学習結果である基底行列F及び係数行列Gに基づいて、入力された画像データの認識を行なう。
入力された画像データは、特徴変換部220において、学習データに対するのと同様の手法により、N次元のベクトルに特徴変換される。特徴変換部220により変換されたN次元のベクトルは、基底分解部230に入力される。
基底分解部230は、入力された画像データのN次元ベクトルをN行1列の入力行列yと置いた場合に、その入力行列yを、学習部100により学習された基底行列Fと係数行列gとに分解する。そのため、基底分解部230は、以下の数式9に示すコスト関数J(g)を最小化する係数行列gを求める。
Figure 2011081614
上述した数式9に従って、係数行列gを求める具体的な演算方法を以下の数式10に示す。
Figure 2011081614
上述した数式10による、係数行列gの更新は、例えば予め定めた回数、あるいは更新前後の変化量(差や比率)が所定値以下となるまで繰り返される。基底分解部230は、このような係数行列gの更新を繰り返すことにより係数行列gを算出する。そのため、基底分解部140は、図3に示すように構成されている。
すなわち、図3に示すように、基底分解部230では、予め係数行列gの初期値231が設定され記憶されている。係数行列gの初期値231は係数行列更新部232に入力される。
係数行列更新部232は、入力された入力行列y,基底行列F,及び係数行列gに基づいて、上記数式10の演算を行なうことにより、係数行列gを更新する。係数行列更新部232によって算出された係数行列gの更新値は、収束判定部234に与えられる。収束判定部234は、例えば所定回数の更新が行なわれたか否か、又は係数行列gの変化量が所定値以下となったか否かにより、係数行列gが収束したか否かを判定する。そして、収束したと判定した場合には、係数行列Gの収束解240を、後述する判定部250に出力する。一方、収束判定部234により、係数行列gが収束していないと判定された場合には、係数行列gの更新値233が係数行列更新部232に与えられる。そして、係数行列更新部232は、収束判定部234により係数行列gが収束したと判定されるまで、係数行列gの更新を繰り返す。
判定部250には、係数行列gの収束解240の他に、学習部100において算出された係数行列G(の収束解)と教示ラベルデータ120とが入力される。そして、判定部250は、基底分解部230により算出された、未知の画像データの特徴ベクトルに対応する係数行列gの要素に対して、類似性が高い要素を、係数行列Gの行方向の要素から抽出する。類似性の判断に関しては、従来用いられているk−NN法、サポートベクターマシン(SVM),ニューラルネットワークなどを用いることができる。これにより、入力された画像データが、学習データの中のいずれに類似しているかの判別が行なわれたことになる。そして、判定部250は、類似していると判別された学習データの教示ラベルデータを認識結果260として出力する。さらに判定部250は、類似判定した結果を検出部270に出力する。
検出部270は、判定部250における類似判定結果と基底行列Fとを用いて、入力された画像データにおいて、認識対象の位置を検出する。すなわち、係数行列gに類似する要素に関して、係数行列Gの転置行列Gを基底行列Fに掛け合わせた際に、重みの強い基底成分に基づき、画像データ上で同様の基底成分を抽出することにより、画像データにおいて認識対象の位置を検出することができる。検出した認識対象については、検出結果280として、例えば基底成分を強調表示しつつ、画像をディスプレィに表示するなどして、視認者に対して注意喚起を行っても良い。
次に、図4のフローチャートに基づき、本実施形態による認識装置の利用例について説明する。図4に示す例では、車両の進行方向前方を撮影するカメラが、車両に取り付けられ、そのカメラによって定期的に車両前方の様子を撮影する。そして、撮影した画像から、種々の走行環境を認識し、その認識結果に基づいて、車両の走行する道路が高速道路であるか否か、雨、雪、霧、窓の曇りなどで視界が不良な状況であるか否か、さらに道路前方が人や車で混雑した状況であるか否かなどを判定するものである。
まず、ステップS110では、カメラから画像が入力されたか否かを判定する。カメラから画像が入力された場合には、処理は、ステップS120に進み、入力された画像をN次元のベクトルに特徴変換する。続くステップS130では、学習により得られた基底行列Fを用いて、N次元のベクトルからなる入力行列yを、その基底行列Fと係数行列gとに分解する。ステップS140では、求めた係数行例gと、学習により得られた係数行列Gにおける各要素の類似性に基づいて、入力画像に含まれる認識対象を認識する。
ステップS150では、ステップS140における認識結果に基づき、車両の走行する道路が高速道路であるか否かを判定する。
ここで、高速道路と一般道路とは、ある程度類似するので、従来のように、高速道路と一般道路とを学習データとして、基底行列F及び係数行列Gとを定めても、高速道路の画像データと一般道路の画像データは、基底行列Fにより定められる部分空間において、近い位置に写像されてしまい、両者を高精度に区別して認識することは困難である。
それに対して、本実施形態では、上述したように、高速道路の画像データと一般道路の画像データとは、基底行列Fにより定められる部分空間において、離れた位置に写像されるように、教示データラベルを用いて、基底行列F及び係数行列Gを強制的に修正する。このため、本実施形態では、学習により得られた基底行列F及び係数行列Gを用いて、車両が走行する道路が高速道路であるか否かを高精度に認識することができる。
ステップS150において、車両は高速道路を走行していると判定された場合には、その判定結果が、例えば図示しないカーナビゲーション装置に送信される。これを受けて、カーナビゲーション装置は、自車両の位置を高速道路上に設定する。これにより、一般道路と高速道路とが並進していたり、高速道路の真下に一般道路が設けられていたりしても、カーナビゲーション装置は、自車両の正確な走行位置を地図に表示することができる。
ステップS170では、ステップS140での認識結果に基づいて、雨、雪、霧、窓の曇りなどで視界が不良な状況であるか否かを判定する。このような判定も、視界が不良となる各種の状況を、基底行列F及び係数行列Gを求める際の学習データとすることで、精度良く認識することが可能になる。ステップS170において視界不良と判定された場合には、ステップS180にて、音声やブザーにて運転者に注意喚起したり、上述したように、ディスプレィ上で、視界不良と認識した対象位置を強調表示しつつ、画像表示することにより、運転者への注意喚起を行う。
同様に、ステップS190では、道路前方が人や車で混雑しているか否かを判定し、混雑していると判定した場合には、画像上において混雑領域を検出し(S200)、その検出した混雑領域を強調表示しつつ、画像をディスプレィに表示する(S210)。この場合、音声やブザーによる注意喚起も併せて行っても良い。
(第2実施形態)
次に、本発明の第2実施形態による認識装置について説明する。本実施形態による認識装置は、上述した第1実施形態による認識装置と同様に構成されるので、構成に関する説明は省略する。
上述した第1実施形態では、入力行列Xに対する、基底行列Fと係数行列Gの転置行列Gとの積の差の二乗和(フロベニウスノルム)が最小となるように、入力行列Xを基底行列Fと係数行列Gとに分解した。
それに対して、本実施形態では、入力行列Xと、基底行列Fと係数行列Gの転置行列Gとの積とのダイバージェンスが最小となるように、入力行列Xを基底行列Fと係数行列Gとに分解する。特徴量がなんらかの頻度に基づくものである場合、頻度分布がどの程度異なっているかを測る尺度としてダイバージェンスが適切であることが知られている。そこで、本実施形態では、ダイバージェンスを最小化することで、入力行列Xと、基底行列Fと係数行列Gの転置行列Gとの積との分布がより近似するように、基底行列F及び係数行列Gを求める。
具体的には、学習部100における基底分解部140では、以下の数式11に示すコスト関数J(F,G)を最小化する基底行列Fと係数行列Gとを求める。
Figure 2011081614
上記数式11における右辺の第1項により、入力行列Xと、基底行列Fと係数行列Gの転置行列Gとの積とのダイバージェンスが最小となるように、入力行列Xが基底行列Fと係数行列Gとに分解される。さらに、第2項により、係数行列Gに対して教示データによる事前知識が反映され、その結果、同一カテゴリのデータの係数行列Gの要素は類似し、異なるカテゴリのデータの係数行列Gの要素は極力非類似となるように、基底行列Fと係数行列Gとが強制的に修正される。
上述した数式11に従って、基底行列Fと係数行列Gとを求める具体的な演算方法を以下の数式12に示す。
Figure 2011081614
数式12の第1式により、基底行列Fが、コスト関数J(F,G)を最小化させる基底行列Fに近づくように更新される。なお、第2式は、更新した基底行列Fを正規化するためのものであり、この第2式は省略できる場合がある。
数式12の第3式により、更新及び正規化された基底行列F、入力行列X、及び教示行列Cを用いて、係数行列Gが、コスト関数J(F,G)を最小化させる係数行列Gに近づくように更新される。
なお、第1実施形態と同様に、第3式における、Cは、教示行列Cの正の要素のみを残した行列であり、Cは、教示行列Cの負の要素のみを残し、符号を反転させた行列である。
上述した数式12による、基底行列Fと係数行列Gの更新は、例えば予め定めた回数(例えば千回)、あるいは更新前後の変化量(差や比率)が所定値以下となるまで繰り返される。基底分解部140は、このような基底行列Fと係数行列Gとの更新を繰り返すことにより基底行列F及び係数行列Gを算出することができる。
次に、本実施形態の認識部200における基底分解部230の演算内容について説明する。基底分解部230は、入力された画像データのN次元ベクトルをN行1列の入力行列yと置いた場合に、その入力行列yを、学習部100により学習された基底行列Fと係数行列gとに分解する。そのため、基底分解部230は、以下の数式13に示すコスト関数J(g)を最小化する係数行列gを求める。
Figure 2011081614
上述した数式13に従って、係数行列gを求める具体的な演算方法を以下の数式14に示す。
Figure 2011081614
上述した数式14による、係数行列gの更新は、例えば予め定めた回数、あるいは更新前後の変化量(差や比率)が所定値以下となるまで繰り返される。基底分解部230は、このような係数行列gの更新を繰り返すことにより係数行列gを算出する。
以上、本発明の好ましい実施形態について説明したが、本発明は上述した実施形態になんら制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形することが可能である。
例えば、上述した実施形態では、画像の局所領域における輝度分布の勾配方向をヒストグラム化することにより、画像データをN次元のベクトルに変換した。しかしながら、画像データをN次元のベクトルに変換する手法は、上述した手法に限られず、その他の手法を適用しても良い。例えば、カラーデータ(RGB)をHSV変換したり、画像信号をウェーブレット変換したり、画像の総ピクセル数がNになるようにリサイズするなどして、画像データをN次元のベクトルに変換することが可能である。
さらに、学習データである画像データに対して、異なる複数の特徴変換を施し、その結果得られた異なる複数の特徴ベクトルを統合して、学習データに対応する特徴ベクトルとしても良い。すなわち、図5に示すように、特徴変換部130は、同一の画像データに対して、異なる複数の特徴変換1,2,…、Kを施すブロック131,132,133と、これらのブロック132〜133にて特徴変換されたベクトルを統合する統合部134とを備えるものであっても良い。
例えば、特徴変換1のブロック131にてN1次元のベクトルに変換し、特徴変換2のブロック132にてN2次元のベクトルに変換し、特徴変換KのブロックではNK次元のベクトルに変換したとする。統合部134では、これらのベクトルを単純に組み合わせたN1+N2+…+NK=N(次元)の特徴ベクトルとすれば良い。このように、複数の特徴ベクトルを統合することで、単一の特徴ベクトルでは認識が難しい認識対象であっても、認識精度の向上を図ることができる。
また、上述した実施形態では、画像データを対象として、学習及び認識を行なう例について説明したが、本発明は、動画像を対象として、学習及び認識を行なうことも可能である。
100…学習部
130…特徴変換部
140…基底分解部
200…認識部
220…特徴変換部
250…判定部
260…検出部

Claims (10)

  1. N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、前記学習データのN次元特徴ベクトルを前記基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解部と、
    認識すべき入力データが入力されたときに、前記基底行列を用いて、入力データに対応する係数行列を算出し、前記基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識部と、を備えた認識装置であって、
    前記基底分解部は、前記学習データを前記基底行列と前記係数行列の転置行列とに近似により分解する際に、前記学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データが前記M次元の部分空間において接近し、異なるカテゴリに属する学習データが前記M次元の部分空間において離間するように、前記基底行列と前記係数行列とを定めることを特徴とする認識装置。
  2. 前記基底分解部は、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定したD行D列の教示行列をCとしたとき、以下の数式1で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gを定めることを特徴とする請求項1に記載の認識装置。
    Figure 2011081614
  3. 前記基底分解部は、前記数式1に示されるコスト関数J(F,G)を最小化する基底行列Fと係数行列Gを求めるために、以下の数式2にて示される基底行列Fの更新と係数行列Gの更新を繰り返し実行することを特徴とする請求項2に記載の認識装置。
    Figure 2011081614
  4. 前記基底分解部は、入力行列をX,基底行列をF,係数行列をG、教示データに基づいて、i番目の学習データとj番目の学習データとが同じ種類である場合、i行j列及びj行i列を負の値に設定し、k番目の学習データとl番目の学習データとが異なる種類である場合、k行l列及びl行k列を正の値に設定した教示行列をCとしたとき、以下の数式3で示されるコスト関数J(F,G)を最小化するように、基底行列Fと係数行列Gを定めることを特徴とする請求項1に記載の認識装置。
    Figure 2011081614
  5. 前記基底分解部は、前記数式3に示されるコスト関数J(F,G)を最小化する基底行列Fと係数行列Gを求めるために、以下の数式4にて示される基底行列Fの更新と係数行列Gの更新を繰り返し実行することを特徴とする請求項4に記載の認識装置。
    Figure 2011081614
  6. 前記教示行列Cにおいて、教示データが与えられない学習データに対応する要素は、ゼロに設定されることを特徴とする請求項2乃至請求項5のいずれかに記載の認識装置。
  7. 前記学習データに対して、異なる複数の特徴変換を施し、その結果得られた異なる複数の特徴ベクトルを統合して、前記学習データに対応する特徴ベクトルとすることを特徴とする請求項1乃至6のいずれかに記載の認識装置。
  8. 前記入力データは、画像の特徴量をN次元の特徴ベクトルにて表したものであり、
    前記画像において、基底行列のベクトルに対応する小領域を決定することにより、認識した対象の位置を決定する検出部を備えることを特徴とする請求項1乃至7のいずれかに記載の認識装置。
  9. N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、前記学習データのN次元特徴ベクトルを前記基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解ステップと、
    認識すべき入力データが入力されたときに、前記基底行列を用いて、入力データに対応する係数行列を算出し、前記基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識ステップと、を備えた認識方法であって、
    前記基底分解ステップにおいて、前記学習データを前記基底行列と前記係数行列の転置行列とに近似により分解する際に、前記学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データが前記M次元の部分空間において接近し、異なるカテゴリに属する学習データが前記M次元の部分空間において離間するように、前記基底行列と前記係数行列とを定めることを特徴とする認識方法。
  10. コンピュータにより、
    N次元の特徴ベクトルにて表されたD個の学習データをN行D列の入力行列とし、当該入力行列を、基底ベクトルをまとめたN行M列の基底行列と、前記学習データのN次元特徴ベクトルを前記基底ベクトルによるM次元の部分空間に写像するための係数データをまとめたD行M列の係数行列の転置行列とに近似により分解する基底分解手順と、
    認識すべき入力データが入力されたときに、前記基底行列を用いて、入力データに対応する係数行列を算出し、前記基底分解部により算出された係数行例との類似度に基づいて入力データの認識を行なう認識手順とを実行させるプログラムであって、
    前記基底分解手順において、前記学習データを前記基底行列と前記係数行列の転置行列とに近似により分解する際に、前記学習データのカテゴリを示す教示データを用いて、同じカテゴリに属する学習データが前記M次元の部分空間において接近し、異なるカテゴリに属する学習データが前記M次元の部分空間において離間するように、前記基底行列と前記係数行列とを定めることを特徴とするプログラム。
JP2009233623A 2009-10-07 2009-10-07 認識装置、認識方法及びプログラム Expired - Fee Related JP5407723B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009233623A JP5407723B2 (ja) 2009-10-07 2009-10-07 認識装置、認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009233623A JP5407723B2 (ja) 2009-10-07 2009-10-07 認識装置、認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011081614A true JP2011081614A (ja) 2011-04-21
JP5407723B2 JP5407723B2 (ja) 2014-02-05

Family

ID=44075600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009233623A Expired - Fee Related JP5407723B2 (ja) 2009-10-07 2009-10-07 認識装置、認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5407723B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037152A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 音響信号処理装置および音響信号処理方法
JP2013171329A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> データ分類予測装置、方法、及びプログラム
JP2015064602A (ja) * 2014-12-04 2015-04-09 株式会社東芝 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
JP2021528728A (ja) * 2018-07-02 2021-10-21 ストワーズ インスティテュート フォー メディカル リサーチ 疑似画像を使用した顔画像認識

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331091A (ja) * 2005-05-26 2006-12-07 Toshiba Corp 人物検索装置、人物検索方法および入退場管理システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331091A (ja) * 2005-05-26 2006-12-07 Toshiba Corp 人物検索装置、人物検索方法および入退場管理システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200701042005; 杜 偉薇: 'クラスタリング写像を介する半教師付き局所保存射影' 電子情報通信学会技術研究報告 第106巻 第540号, 20070215, p.29-34, 社団法人電子情報通信学会 *
JPN6013004799; 杜 偉薇: 'クラスタリング写像を介する半教師付き局所保存射影' 電子情報通信学会技術研究報告 第106巻 第540号, 20070215, p.29-34, 社団法人電子情報通信学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037152A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 音響信号処理装置および音響信号処理方法
JP2013171329A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> データ分類予測装置、方法、及びプログラム
JP2015064602A (ja) * 2014-12-04 2015-04-09 株式会社東芝 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
JP2021528728A (ja) * 2018-07-02 2021-10-21 ストワーズ インスティテュート フォー メディカル リサーチ 疑似画像を使用した顔画像認識
US11769316B2 (en) 2018-07-02 2023-09-26 Stowers Institute For Medical Research Facial image recognition using pseudo-images
JP7357010B2 (ja) 2018-07-02 2023-10-05 ストワーズ インスティテュート フォー メディカル リサーチ 疑似画像を使用した顔画像認識

Also Published As

Publication number Publication date
JP5407723B2 (ja) 2014-02-05

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
WO2019169816A1 (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN112233097B (zh) 基于空时域多维融合的道路场景他车检测系统和方法
US10445602B2 (en) Apparatus and method for recognizing traffic signs
US8620026B2 (en) Video-based detection of multiple object types under varying poses
US9607228B2 (en) Parts based object tracking method and apparatus
EP2063393B1 (en) Color classifying method, color recognizing method, color classifying device, color recognizing device, color recognizing system, computer program, and recording medium
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
AU2021208647A1 (en) Systems for multiclass object detection and alerting and methods therefor
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
Janahiraman et al. Traffic light detection using tensorflow object detection framework
CN111767878B (zh) 嵌入式设备中基于深度学习的交通标志检测方法及系统
CN111126224A (zh) 车辆检测方法及分类识别模型训练方法
CN114359851A (zh) 无人驾驶目标检测方法、装置、设备及介质
CN111931683B (zh) 图像识别方法、装置及计算机可读存储介质
JP2019106193A (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法
Kale et al. A road sign detection and the recognition for driver assistance systems
JP5407723B2 (ja) 認識装置、認識方法及びプログラム
Martins et al. Machine learning and SLIC for Tree Canopies segmentation in urban areas
JP6472504B1 (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法
JP2007033931A (ja) 衛星画像等を用いた地図作成のための道路認識システム
Ghaffarian et al. Automatic vehicle detection based on automatic histogram-based fuzzy C-means algorithm and perceptual grouping using very high-resolution aerial imagery and road vector data
Kurnianggoro et al. Visual perception of traffic sign for autonomous vehicle using k-nearest cluster neighbor classifier
CN113989774A (zh) 一种交通灯检测方法、装置、车辆和可读存储介质
KhabiriKhatiri et al. Road Traffic Sign Detection and Recognition using Adaptive Color Segmentation and Deep Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131021

R150 Certificate of patent or registration of utility model

Ref document number: 5407723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees