JP2022178981A

JP2022178981A - 物体認識装置、および、物体認識方法

Info

Publication number: JP2022178981A
Application number: JP2021086154A
Authority: JP
Inventors: 健遠藤; Takeshi Endo; 春樹的野; Haruki Matono; 健永崎; Takeshi Nagasaki
Original assignee: Hitachi Astemo Ltd
Current assignee: Hitachi Astemo Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2022-12-02
Also published as: WO2022244333A1; DE112022001417T5

Abstract

【課題】走行可能領域を高精度に認識する物体認識装置及び物体認識方法を提供する。【解決手段】物体認識装置は、画像のテクスチャ情報と３次元情報を取得する入力信号取得部と、画像の一部領域のテクスチャ情報に基づくテクスチャ特徴量と、一部領域の３次元情報に基づく３次元特徴量を算出する特徴量算出部と、一部領域ごとに重みパラメータを生成する重みパラメータ生成部と、重みパラメータで重みづけすることにより、テクスチャ特徴量と３次元特徴量を統合した統合特徴量を生成し、該統合特徴量に基づき画像中の対象物を認識する対象物認識部と、を有する。【選択図】図１

Description

本発明は、車載カメラの撮像画像を解析して車両周辺の物体を認識する、物体認識装置、および、物体認識方法に関する。

車両運転中の居眠りや注意不足等に起因する単独事故を防止するための運転支援システムとして、走行路からの逸脱を防止する車線維持支援システム（ＬＫＡＳ、Lane Keep Assist System）に期待が寄せられている。この車線維持支援システムは、適切な操舵支援制御を実現するための前提機能として、車載カメラの撮像画像を解析し、画像内の領域を走行可能領域と走行不可領域に領域分割する機能を備えている。

また、領域分割方法を開示する公知文献として、特許文献１が知られている。この文献の要約書には「取得した対象画像を、互いに異なる特徴量を用いて領域分割し、領域分割に用いた特徴量で特徴付けられた複数の生成領域からなる生成領域群を、特徴量の種類の数だけ生成する(S130)。生成領域群の一つを基本領域とし、基本領域と重なり合う生成領域の特徴量を基本領域の特徴量に組み込むことにより、複数種類の特徴量で特徴付けられた複数の基本領域からなる単一の基本領域群を生成する(S140)。基本領域群を構成する基本領域の特徴量に基づいて、注目する基本領域Ｒtarと、これに隣接する基本領域Ｒ_kとの間の類似度を表す指標として、特徴量が表す多次元特徴空間内での両領域間の重み付きユークリッド距離を求め、この距離が統合条件を満たす場合に両領域を統合する(S150)。」と記載されており、対象画像が持つテクスチャ情報だけではなく、距離情報（重み付きユークリッド距離）も利用した領域分割方法が開示されている。

このように特許文献１では、対象画像と距離情報から特徴量を抽出し、特徴量毎に重みづけた距離に基づき対応付けを実施している。より詳細には、同文献の図３や段落００４６から段落００５０等で説明されるように、対象画像全体の明るさなどから重みを算出しており、ある画像に対する領域分割では領域に依らず同一の重みを利用している。

特開２００６－１２７０２４号公報

車線維持支援制御の前処理として走行可能領域を領域分割する場合、多数の物体が撮像されたシーンであっても正しく領域分割する必要がある。領域分割には、テクスチャ情報を積極的に利用する方法や、距離情報を積極的に利用する方法等が考えられるが、双方の情報をどの程度の重みで利用すべきかは、領域分割される物体の種別に応じて異なると考えられる。

そのため、１枚の対象画像を単一の重みを利用して領域分割する特許文献１では、撮像された物体毎に重みを変更することができず、本来利用すべき重みと乖離した重みを利用する場合には、対象画像内を正しく領域分割することが困難であった。

このような課題に鑑み、本発明は、画像領域毎に重みを変更することで、走行可能領域を高精度に認識する物体認識装置、および、物体認識方法の提供を目的とする。

画像のテクスチャ情報と３次元情報を取得する入力信号取得部と、前記画像の一部領域のテクスチャ情報に基づくテクスチャ特徴量と、前記一部領域の３次元情報に基づく３次元特徴量を算出する特徴量算出部と、前記一部領域ごとに重みパラメータを生成する重みパラメータ生成部と、前記重みパラメータで重みづけすることにより前記テクスチャ特徴量と前記３次元特徴量を統合した統合特徴量を生成し、該統合特徴量に基づき前記画像中の対象物を認識する対象物認識部と、を有することを特徴とする物体認識装置。

本発明の物体認識装置、および、物体認識方法によれば、画像領域毎に重みを変更することで、走行可能領域を高精度に認識することができる。

実施例１の物体認識装置の機能ブロック図。実施例１の物体認識装置の処理フローチャート。実施例１の物体認識装置が取得したテクスチャ画像の一例。図３Ａのテクスチャ画像の各画素のテクスチャ情報のデータ構造。実施例１の物体認識装置が取得した３次元画像の一例。図３Ｃの３次元画像の各画素の３次元情報のデータ構造。実施例１の物体認識装置のニューラルネットワークの概略説明図。実施例１のニューラルネットワークを利用したテクスチャ特徴量の抽出処理。実施例１のニューラルネットワークを利用した３次元特徴量の抽出処理。実施例１の物体認識装置の基準特徴量の決定方法の一例。実施例１の物体認識装置の走行可否判定処理を説明する図。実施例１の物体認識装置の重み算出の処理フローの一例。実施例２の物体認識装置の重み算出の処理フローの一例。実施例２の物体認識装置の基準特徴量の決定方法の一例。実施例２の物体認識装置の基準特徴量から重みを算出する方法の一例。実施例３の物体認識装置のニューラルネットワークの説明図。図１２のニューラルネットワークのうち重み算出レイヤーを示した図。実施例３の物体認識装置の重み算出の処理フローの一例。実施例４の物体認識装置の重み算出の処理フローの一例。

以下、図面を用いて、本発明の物体認識装置１００の実施例について詳細に説明する。

まず、図１から図８を用いて、本発明の実施例１に係る物体認識装置１００を説明する。

図１は、実施例１の物体認識装置１００の構成を示す機能ブロックである。この物体認識装置１００は、ハードウェアとして、車載カメラ等の外界センサ、ＣＰＵ等の演算装置、半導体メモリ等の記憶装置を備えており、記憶装置に格納された制御プログラムを演算装置が実行することで、図示する各種機能が動作する。なお、プログラムの実行による種々機能の実現は周知技術であるので、以下では演算装置等のハードウェアの具体的な動作については説明を省略する。

図１に示すように、物体認識装置１００は、上記ハードウェアにより実現される機能部として、入力信号取得部１、特徴量算出部２、記憶部３、重みパラメータ生成部４、対象物認識部５を有している。以下、各部を順次説明する。

＜入力信号取得部１＞
入力信号取得部１は、画像取得部１１と３次元情報取得部１２を有している。

画像取得部１１は、車載カメラの撮像フレーム単位でテクスチャ画像Ｆ_ｔを取得する。従って、画像取得部１１は、車載カメラが単眼カメラであれば、撮像フレーム毎に１枚のテクスチャ画像Ｆ_ｔを取得し、また、車載カメラがステレオカメラであれば撮像フレーム毎に左右２枚のテクスチャ画像Ｆ_ｔを取得する。

３次元情報取得部１２は、画像取得部１１がステレオカメラから左右２枚のテクスチャ画像Ｆ_ｔを取得した場合であれば、周知の視差計算方法を利用することで画素毎の３次元情報Ｉ_ｄを生成する。また、３次元情報取得部１２は、画像取得部１１が単眼カメラから１枚のテクスチャ画像Ｆ_ｔを取得した場合であれば、単眼カメラに併設したミリ波レーダやＬｉｄａｒから画素毎の３次元情報Ｉ_ｄを取得する。

＜特徴量算出部２＞
特徴量算出部２は、テクスチャ特徴量算出部２１と３次元特徴量算出部２２を有している。

テクスチャ特徴量算出部２１は、画像取得部１１で取得したテクスチャ画像Ｆ_ｔからテクスチャ特徴量ｆｅｔ_ｔを算出する。この特徴量には、エッジを利用したＨｏＧ特徴量を利用しても良いし、機械学習に基づくＩＣＦ特徴量などを利用しても良い。また、後述する畳み込みニューラルネットワーク（以下、単に「ニューラルネットワークＮ」と称する）から抽出した特徴量を利用しても良い。

３次元特徴量算出部２２は、３次元情報取得部１２で取得した３次元情報Ｉ_ｄから３次元特徴量ｆｅｔ_ｄを算出する。この特徴量には、距離情報を画像に投影することで取得した距離画像に対するＨｏＧ特徴量や、画像のチャンネルとして３次元情報が格納された３次元画像Ｆ_ｄのＩＣＦ特徴量や、３次元情報I_ｄを入力としたニューラルネットワークから抽出した特徴量を利用しても良い。

＜記憶部３＞
記憶部３は、テクスチャ基準特徴量格納部３１と３次元基準特徴量格納部３２を有している。テクスチャ基準特徴量格納部３１には、テクスチャ画像Ｆ_ｔのテクスチャ情報Ｉ_ｔから抽出したテクスチャ基準特徴量Ｂ_ｔが格納され、３次元基準特徴量格納部３２には、３次元情報Ｉ_ｄから抽出した３次元基準特徴量Ｂ_ｄが格納される。なお、実施例２で詳細に説明するように、テクスチャ基準特徴量格納部３１には複数のテクスチャ基準特徴量Ｂ_ｔを格納でき、３次元基準特徴量格納部３２には複数の３次元基準特徴量Ｂ_ｄを格納できる。

両格納部に格納される基準特徴量Ｂは、テクスチャ特徴量算出部２１と３次元特徴量算出部２２を利用した識別器をそれぞれ構築し、検証用データセットでの認識率の観点で決定する。具体的には、認識に成功した特徴量や、認識スコアが最大となる特徴量を基準特徴量Ｂとして各格納部に格納する。また、テクスチャ特徴量算出部２１と３次元特徴量算出部２２をネットワークの構成の一部としたニューラルネットワークの学習により算出したカーネルを基準特徴量Ｂとして格納してもよい。

＜重みパラメータ生成部４＞
重みパラメータ生成部４では、特徴量算出部２で算出した特徴量ｆｅｔに対する重みｗを、記憶部３に格納した基準特徴量Ｂを利用して算出する。具体的には、テクスチャ特徴量算出部２１とテクスチャ基準特徴量格納部３１の出力の内積を計算し、その内積をテクスチャ特徴量ｆｅｔ_ｔの重みｗ_ｔとする。同様に、３次元特徴量算出部２２と３次元基準特徴量格納部３２の出力の内積を計算し、その内積を３次元特徴量ｆｅｔ_ｄの重みｗ_ｄとする。

内積はベクトル同士の相関、すなわち類似性を表現するため、基準特徴量Ｂとの類似性に着目して重みｗを算出する。また、内積以外にもＬ２距離やバタチャリア距離を指数関数の指数としたものを重みｗとして利用してもよい。また、テクスチャ基準特徴量格納部３１と３次元基準特徴量格納部３２の各々に複数の基準特徴量Ｂが格納されていた場合、各基準特徴量の内積値の平均値を重みとすることができる。また、基準特徴量Ｂがニューラルネットワークのカーネルである場合には、特徴量と基準特徴量の内積の計算結果に対して、さらに畳み込み演算を実施することで重みｗを算出してもよい。

＜対象物認識部５＞
対象物認識部５では、特徴量算出部２で算出した特徴量を重みパラメータ生成部４で生成した重みｗにより統合した特徴量に基づき、対象物の認識を実施する。具体的には、テクスチャ特徴量ｆｅｔ_ｔと３次元特徴量ｆｅｔ_ｄを、重みパラメータ生成部４で生成した重みｗに従い加算することで、統合特徴量ｆｅｔ_Ｃを生成する。そして、統合特徴量ｆｅｔ_Ｃを利用した識別器により車両周囲の走行可能領域を認識する。

対象物認識部５が認識した走行可能領域は、図示しないＣＡＮ（Controller Area Network）を介して、ＥＣＵ（Electronic Control Unit）に出力される。このため、ＥＣＵは、車両周囲の走行可能領域を逸脱しないように操舵系の制御を支援することで、車線維持支援制御を実行する。

＜動作例＞
次に、上記した構成の物体認識装置１００の動作例を、図２のフローチャートを参照して詳細に説明する。以降の動作例では、車両前方を監視する姿勢で設置されたステレオカメラを利用する物体認識装置１００に関して述べる。なお、ステレオカメラは、左カメラと右カメラから構成されるため、撮像フレーム単位で左右２枚のテクスチャ画像Ｆ_ｔが撮像されるが、以下では、右カメラが撮像したテクスチャ画像Ｆ_ｔにおける走行可能領域を推定するものとする。

本実施例の物体認識装置１００は、入力情報取得処理（ステップＳ１）、テクスチャ特徴量抽出処理（ステップＳ２）、３次元特徴量抽出処理（ステップＳ３）、重み算出処理（ステップＳ４）、特徴量統合処理（ステップＳ５）、種別判定処理（ステップＳ６）を順に実施する。

まず、入力情報取得処理（ステップＳ１）では、左カメラと右カメラからの左右２枚のテクスチャ画像Ｆ_ｔを取得する。右カメラから取得したテクスチャ画像Ｆ_ｔを図３Ａに例示する。また、図３Ａのテクスチャ画像Ｆ_ｔの各画素のテクスチャ情報Ｉ_ｔのデータ構造を図３Ｂに示す。なお、図３Ｂに例示するテクスチャ情報Ｉ_ｔは、テクスチャ画像Ｆ_ｔの各画素の色を、Ｒ値、Ｇ値、Ｂ値の組み合わせで定義したデータであるが、色の定義方法は、この例に限定されない。

また、本ステップでは、取得した左右２枚のテクスチャ画像Ｆ_ｔに対して、右カメラ画像を基準として、左カメラ画像を走査することで視差画像を生成する。視差の算出には、例えば、ＳＡＤ（Sum of Absolute Difference）を利用する。そして、カメラの焦点距離、撮像素子のサイズ、カメラの基線長を参照し、視差画像に基づいて、カメラからの奥行距離Ｚ、横方向距離Ｘ、縦方向距離Ｙを算出し、３次元情報Ｉ_ｄを画像のチャンネルとした３次元画像Ｆ_ｄを生成する。このようにして生成された３次元画像Ｆ_ｄを図３Ｃに例示し、３次元画像Ｆ_ｄの各画素の３次元情報Ｉ_ｄのデータ構造を図３Ｄに示す。以降では、図３Ｃに示す３次元領域Ｒ_ｄの３次元情報Ｉ_ｄも考慮して、図３Ａに示すテクスチャ領域Ｒ_ｔが走行可能領域か走行不可領域かを判定する手続きに関して説明する。

テクスチャ特徴量抽出処理（ステップＳ２）では、ステップＳ１で取得した情報を用いてテクスチャ特徴量ｆｅｔ_ｔを抽出する。

まず、図４を用いて、テクスチャ画像Ｆ_ｔに基づいて走行可否を判定するニューラルネットワークＮｔの概略を説明する。図４のニューラルネットワークＮｔは、図３Ａのテクスチャ領域Ｒ_ｔと同サイズの任意の局所領域Ｒを入力したときに、その局所領域Ｒが走行可能領域であるか否かを判定できるように学習されたものである。なお、この学習には、正解値が付与された学習データセットを利用している。ここで、図４のニューラルネットワークＮｔは、前段の特徴量抽出のレイヤーＮ１ｔと、後段の識別処理のレイヤーＮ２ｔから構成されている。前段のレイヤーＮ１ｔは、多数の畳み込みカーネルと活性化関数Reluから構成されており、局所領域Ｒから識別に有効なテクスチャ特徴量ｆｅｔ_ｔを抽出する。また、後段のレイヤーＮ２ｔは、前段のレイヤーＮ１ｔで抽出したテクスチャ特徴量ｆｅｔ_ｔに対して、全結合層と活性化関数Softmaxにより局所領域Ｒが走行可能領域であるか否かを判断する構成となっている。

従って、図５Ａに示すように、特徴量抽出のレイヤーＮ１ｔに、テクスチャ領域Ｒ_ｔのテクスチャ情報Ｉ_ｔを入力することで、テクスチャ領域Ｒ_ｔのテクスチャ特徴量ｆｅｔ_ｔを算出することができる。

３次元特徴量抽出処理（ステップＳ３）でも、ステップＳ２と同様に、ステップＳ１で取得した情報を用いて３次元特徴量ｆｅｔ_ｄを抽出する。本ステップでは、３次元画像Ｆ_ｄに基づいて走行可否を判定するニューラルネットワークＮｄを利用する。このニューラルネットワークＮｄは、図３Ｃの３次元領域Ｒ_ｄと同サイズの任意の局所領域Ｒを入力したときに、その局所領域Ｒが走行可能領域であるか否かを判定できるように学習されたものであり、図４のニューラルネットワークＮｔと同様に、前段の特徴量抽出のレイヤーＮ１ｄと、後段の識別処理のレイヤーＮ２ｄから構成されている。

従って、図５Ｂに示すように、特徴量抽出のレイヤーＮ１ｄに、図３Ａのテクスチャ領域Ｒ_ｔに対応した図３Ｃの３次元領域Ｒ_ｄの３次元情報Ｉ_ｄを入力することで、３次元領域Ｒ_ｄの３次元特徴量ｆｅｔ_ｄを算出することができる。なお、テクスチャ領域Ｒ_ｔ用のレイヤーＮ１ｔ（図５Ａ）と３次元領域Ｒ_ｄ用のレイヤーＮ１ｄ（図５Ｂ）は、同一次元数の特徴量を抽出するものとする。

重み算出処理（ステップＳ４）では、ステップＳ２で抽出したテクスチャ特徴量ｆｅｔ_ｔに対する重みｗ_ｔと、ステップＳ３で抽出した３次元特徴量ｆｅｔ_ｄに対する重みｗ_ｄを計算する。以降、テクスチャ特徴量ｆｅｔ_ｔに対する重みｗ_ｔの算出方法を述べることとし、同様の考え方で算出可能な、３次元特徴量ｆｅｔ_ｄに対する重みｗ_ｄについては説明を省略する。

テクスチャ特徴量ｆｅｔ_ｔの重みｗ_ｔの計算には、テクスチャ基準特徴量Ｂ_ｔを利用する。まず、図６を用いて、テクスチャ基準特徴量Ｂ_ｔの決定方法を説明する。テクスチャ基準特徴量Ｂ_ｔの決定には、図４のニューラルネットワークＮｔを利用する。図６におけるＲ１、Ｒ２、Ｒ３は夫々、認識率の算出用に利用される検証用データセットの局所領域を示している。また、Ｅ１、Ｅ２、Ｅ３は夫々、局所領域Ｒ１、Ｒ２、Ｒ３を入力とした際のニューラルネットワークＮｔの認識結果を示している。図６では、局所領域Ｒ２の入力時の認識結果Ｅ２が正しく、局所領域Ｒ１とＲ３の入力時の認識結果Ｅ１とＥ３が間違っている。この場合、局所領域Ｒ２の入力時に前段のレイヤーＮ１ｔが出力したテクスチャ特徴量ｆｅｔ_ｔ２をテクスチャ基準特徴量Ｂ_ｔと決定して、テクスチャ基準特徴量格納部３１に格納する。このようにして決定したテクスチャ基準特徴量Ｂ_ｔは、テクスチャ領域Ｒ_ｔの位置に応じて変更される変数でなく、ステップＳ４の実行前に事前設定された定数である。

従って、本ステップでは、任意のテクスチャ領域Ｒ_ｔに対してステップＳ２で抽出したテクスチャ特徴量ｆｅｔ_ｔと、定数であるテクスチャ基準特徴量Ｂ_ｔを用い、（式１）に従い内積を計算することで、そのテクスチャ領域Ｒ_ｔにおける、テクスチャ特徴量ｆｅｔ_ｔに対する重みｗ_ｔを計算することができる。

なお、（式１）におけるＤは、テクスチャ基準特徴量Ｂ_ｔの次元数を示している。（式１）の計算結果は、テクスチャ特徴量ｆｅｔ_ｔとテクスチャ基準特徴量Ｂ_ｔとの相関値、すなわち類似度を表す。

同様の手続きを３次元画像Ｆ_ｄの３次元領域Ｒ_ｄに対しても実施することで、３次元基準特徴量Ｂ_ｄを算出し、ステップＳ３で抽出した３次元特徴量ｆｅｔ_ｄに対する重みｗ_ｄを、（式２）を用いて算出することができる。

特徴量統合処理（ステップＳ５）では、ステップＳ２で抽出したテクスチャ特徴量ｆｅｔ_ｔと、ステップＳ３で抽出した３次元特徴量ｆｅｔ_ｄを、ステップＳ４で算出した重みｗ_ｔ、ｗ_ｄを利用して統合した、統合特徴量ｆｅｔ_Ｃを計算する。特徴量の統合は、以下の（式３）に従い計算する。

種別判定処理（ステップＳ６）では、ステップＳ５で計算した統合特徴量ｆｅｔ_Ｃに基づき、走行可能領域か否かの判定を実施する。統合特徴量ｆｅｔ_Ｃに基づく走行可能領域の判定には、ニューラルネットワークＮ３を利用する。図７に本ステップの概念図を示す。ここに示すように、統合特徴量ｆｅｔ_ＣをニューラルネットワークＮ３の入力として、走行可能領域か否かを判断する。ニューラルネットワークＮ３は多数の畳み込み層と活性化関数Reluからなる特徴抽出部と、全結合層と活性化関数Softmaxからなる識別処理部から構成されている。上記したニューラルネットワークＮ２ｔは、テクスチャ特徴量ｆｅｔ_ｔを入力としたデータセットで学習されており、ニューラルネットワークのレイヤーＮ２ｄは、特徴量ｆｅｔ_ｄを入力としたデータセットで学習されていたが、図７のニューラルネットワークＮ３は、統合特徴量ｆｅｔ_Ｃを入力としたデータセットで学習されているものとする。

以上のステップＳ１からステップＳ６を順に実施することで、重みｗ_ｔや重みｗ_ｄを適宜調整しながら、図３Ａのテクスチャ領域Ｒ_ｔに対して走行可能か否かの判定を実施することができる。図３Ａのテクスチャ領域Ｒ_ｔ以外の領域も同様に、ステップＳ１からステップＳ６を順に実施することで、テクスチャ画像Ｆ_ｔの全体に対し走行可能領域判定を行うことができる。

以上より、本実施例の物体認識装置１００は、特徴量の重みを画像の画素毎に変更することができる。これにより、テクスチャ画像Ｆ_ｔ中にテクスチャ情報Ｉ_ｔを積極的に利用して判定すべき物体と、３次元情報Ｉ_ｄを積極的に利用して判定すべき物体が混在している場合であっても、各物体に異なる重みを設定することが可能となり、認識精度を高めることができる。

また、本実施例の物体認識装置１００では、事前に決定された基準特徴量Ｂと特徴量ｆｅｔを比較することで特徴量の重みを算出している。これにより、重み算出のために画像全体の輝度値を解析したりするなどの追加の画像解析処理が不要となり、重み算出を効率化することができる。

また、本実施例の物体認識装置１００では、基準特徴量と特徴量の内積計算により重みを算出している。内積計算は積和演算のみで実行できるため、重み算出を少ない演算量で実施できる。

また、本実施例の物体認識装置１００では、テクスチャ情報Ｉ_ｔと３次元情報Ｉ_ｄの基準特徴量Ｂの算出に、それぞれ異なるニューラルネットワークのレイヤーＮ１ｔ，Ｎ１ｄを利用している。テクスチャ基準特徴量Ｂ_ｔはテクスチャ情報Ｉ_ｔのみから決定し、３次元基準特徴量は３次元情報Ｉ_ｄのみから決定することができ、より正確に重みの算出を実施することができる。

また、本実施例の物体認識装置１００では、図６に例示したように、基準特徴量Ｂは検証用データに対する認識率に基づき生成されている。そのため、認識に成功した特徴量を基準特徴量として選択することができる。これにより、認識に成功した特徴量に類似した特徴量を積極的に利用する重みの算出が可能となり、より高精度に認識することができる。

本実施例の重み算出処理（ステップＳ４）は、常にテクスチャ情報Ｉ_ｔの重みｗ_ｔと３次元情報Ｉ_ｄの重みｗ_ｄを算出していたが、図８に示す重み算出方法に変更することもできる。まず、３次元情報有効性判断処理（ステップＳ４１）では、取得した３次元情報Ｉ_ｄの有効性を判断する。３次元情報Ｉ_ｄを取得できなかった画素、若しくは視差算出した際のコストが所定値以上であった場合には、その３次元画像Ｆ_ｄが無効だと判断する。無効と判断された場合には、テクスチャ情報Ｉ_ｔの重みｗ_ｔおよび３次元情報Ｉ_ｄの重みｗ_ｄを算出することなくステップＳ６に進む。すなわち、ステップＳ６では、図４のニューラルネットワークのレイヤーＮ２ｔを用い、テクスチャ特徴量ｆｅｔ_ｔのみに基づいて走行可否を判定する。

一方で、３次元画像Ｆ_ｄが有効と判定された場合には、テクスチャ情報Ｉ_ｔの重みｗ_ｔおよび３次元情報Ｉ_ｄの重みｗ_ｄを算出する（ステップＳ４２）。そして、重みｗ_ｔと重みｗ_ｄを用いて、ステップＳ５以降の処理を実行する。

こうすることで、３次元情報が取得できなかった場合、若しくは取得した３次元情報の信頼度が著しく低い場合に、重みの算出をしないことで処理負荷を低減することができる。

次に、図９から図１１を用いて、本発明の実施例２に係る物体認識装置１００を説明する。なお、実施例１との共通点は重複説明を省略する。

実施例１では、特徴量ｆｅｔ毎に１つの基準特徴量Ｂを設定したが（図６参照）、実施例２では、特徴量ｆｅｔ毎に複数の基準特徴量を設定可能にした。そのため、本実施例では、重み計算処理（ステップＳ４）を、図９に示すように、基準特徴量内積計算（ステップＳ４ａ）と平均値計算処理（ステップＳ４ｂ）で構成した。

まず、基準特徴量内積計算（ステップＳ４ａ）では、特徴量ｆｅｔ毎に設定した複数の基準特徴量Ｂのそれぞれを用いて、特徴量ｆｅｔとの内積計算を実施する。ここで、図１０を用いて、複数の基準特徴量Ｂの設定方法を説明する。なお、以降では、テクスチャ画像Ｆ_ｔに対応したテクスチャ基準特徴量Ｂ_ｔの設定方法に関して述べることとし、同様の考え方で設定可能な、３次元基準特徴量Ｂ_ｄについては説明を省略する。図１０の各符号の意味は、図６の各符号の意味と同様である。両図の違いは、図６では、局所領域Ｒ２に基づく認識結果Ｅ２だけが正しく、局所領域Ｒ１，Ｒ３に基づく認識結果Ｅ１，Ｅ３の双方が誤っていたが、図１０では、局所領域Ｒ１，Ｒ２に基づく認識結果Ｅ１，Ｅ２の双方が正しく、局所領域Ｒ３に基づく認識結果Ｅ３だけが誤っている点である。

そこで、本実施例では、識別に成功した局所領域Ｒ１，Ｒ２に起因するテクスチャ特徴量ｆｅｔ_ｔ１、ｆｅｔ_ｔ２の両方をテクスチャ基準特徴量Ｂ_ｔ１，Ｂ_ｔ２に設定し、両者を用いて、任意のテクスチャ領域Ｒ_ｔのテクスチャ特徴量ｆｅｔ_ｔの重みｗ_ｔを演算する。そのため、ステップＳ４ａでは、図１１に示すように、テクスチャ領域Ｒ_ｔから抽出したテクスチャ特徴量ｆｅｔ_ｔとテクスチャ基準特徴量Ｂ_ｔ１の内積値Ｓ_ｔ１、および、テクスチャ特徴量ｆｅｔ_ｔとテクスチャ基準特徴量Ｂ_ｔ２の内積値Ｓ_ｔ２を計算する。すなわち、各基準特徴量と、テクスチャ領域Ｒ_ｔのテクスチャ特徴量ｆｅｔ_ｔの類似性情報を計算する。

次に、平均値計算処理（ステップＳ４ｂ）では、ステップＳ４ａで計算した複数の内積値から、テクスチャ特徴量ｆｅｔ_ｔに対する重みｗ_ｔを算出する。重みｗ_ｔの算出には、次に示す（式４）を利用する。

ここで、Ａ_ｔはテクスチャ基準特徴量Ｂ_ｔのインデックス集合を示している。（式４）に従い計算することで、テクスチャ基準特徴量Ｂ_ｔの内積値の平均を求めることができる。実施例２では、複数のテクスチャ基準特徴量Ｂ_ｔから算出した内積値の平均値をテクスチャ特徴量ｆｅｔ_ｔに対する重みｗ_ｔとする。以上では、テクスチャ特徴量ｆｅｔ_ｔの重みｗ_ｔの算出方法について説明したが、３次元特徴量ｆｅｔ_ｄに対しても同様の手続きに従い、（式５）を利用して複数の３次元基準特徴量Ｂ_ｄの算出と内積の平均値による重みｗ_ｄの算出を実施する。

本実施例では、特徴量ｆｅｔ毎に複数の基準特徴量Ｂを設定し、それぞれの内積値の平均値をその特徴量ｆｅｔの重みｗとして利用する。これにより、単一の基準特徴量ではなく複数の基準特徴量に基づき重みの算出が可能となるため、ロバストに重みの算出を実施できる。

次に、図１２から図１４を用いて、本発明の実施例３に係る物体認識装置１００を説明する。なお、上記の実施例との共通点は重複説明を省略する。

実施例１では、図２に示す、テクスチャ特徴量抽出処理（ステップＳ２）、３次元特徴量抽出処理（ステップＳ３）、種別判定処理（ステップＳ６）の３ステップで夫々ニューラルネットワークを利用していた。つまり、実施例１では、図２の処理の実行に３種のニューラルネットワークを利用していた。これに対し本実施例では、実施例１の各ネットワークの機能をレイヤーとして取り込んだ、１つのニューラルネットワークＮを利用して、図２の処理を実行する。

図１２に、本実施例のニューラルネットワークＮの構成を示す。以降では、図２の処理フローとニューラルネットワークＮの対応関係について述べる。ただし、入力情報取得処理は実施例１と同様のため、それ以降の処理に関して述べる。

図１２に示すニューラルネットワークＮは、まず、テクスチャ領域Ｒ_ｔと３次元領域Ｒ_ｄを入力として、テクスチャ特徴量抽出処理（ステップＳ２）と、３次元特徴量抽出処理（ステップＳ３）を実施する。テクスチャ特徴量抽出処理（ステップＳ２）では、ニューラルネットワークＮのレイヤーＮ１ｔを利用してテクスチャ特徴量ｆｅｔ_ｔを抽出する。このレイヤーＮ１ｔは、多数の畳み込み層と活性化関数Reluから構成されている。同様に、３次元特徴量抽出処理（ステップＳ３）でも、ニューラルネットワークＮのレイヤーＮ１ｄを利用して３次元特徴量ｆｅｔ_ｄを抽出する。ここで、レイヤーＮ１ｔとレイヤーＮ１ｄで抽出されたテクスチャ特徴量ｆｅｔ_ｔと３次元特徴量ｆｅｔ_ｄの次元数は等しくなるようになっている。

重み算出処理（ステップＳ４）では、ニューラルネットワークＮのレイヤーＮ４ｔ、Ｎ５ｔを利用して、テクスチャ特徴量ｆｅｔ_ｔの重みｗ_ｔを算出し、レイヤーＮ４ｄ、Ｎ５ｄを利用して、３次元特徴量ｆｅｔ_ｄの重みｗ_ｄを算出する。以降では、テクスチャ特徴量ｆｅｔ_ｔに対する重みｗ_ｔの算出方法に関して述べ、同様の考え方で算出可能な、３次元特徴量ｆｅｔ_ｄに対する重みｗ_ｄについては説明を省略する。

テクスチャ特徴量ｆｅｔ_ｔに対する重みｗ_ｔを算出するレイヤーＮ４ｔとレイヤーＮ５ｔの構成の詳細を図１３に示す。レイヤーＮ４ｔとレイヤーＮ５ｔでの処理は、図１４に示す処理フローとなる。レイヤーＮ４ｔによる処理が、基準特徴量内積計算（ステップＳ４ｃ）に対応しており、レイヤーＮ５ｔによる処理が、基準類似度内積計算（ステップＳ４ｄ）に対応している。

まず、基準特徴量内積計算（ステップＳ４ｃ）に関して述べる。レイヤーＮ４ｔに示すテクスチャ基準特徴量Ｂ_ｔ１、Ｂ_ｔ２、…、Ｂ_ｔｎはレイヤーＮ４ｔにおけるカーネルである。テクスチャ基準特徴量Ｂ_ｔ１、Ｂ_ｔ２、…、Ｂ_ｔｎは、後述するニューラルネットワークＮを学習することで推定する。レイヤーＮ４ｔでは、テクスチャ特徴量ｆｅｔ_ｔに対してＢ_ｔ１、Ｂ_ｔ２、…、Ｂ_ｔｎとの内積を計算し、各カーネルとの内積値を要素とするベクトルｖｅｃを出力する。ここで、ベクトルｖｅｃの各要素は各基準特徴量との内積、つまり相関値であるため、各基準特徴量との類似度を表現したベクトルがｖｅｃの実体となる。以上の処理は、１ｘ１のカーネルによる畳み込み演算により実現できる。

次に、基準類似度内積計算（ステップＳ４ｄ）を実施する。レイヤーＮ５ｔにおける基準類似度Ｃは、ベクトルｖｅｃと同一次元のベクトルであり、積極的に利用すべき、つまり重みを強める特徴量と各基準特徴量の関係性が格納されている。具体的には、ベクトルｖｅｃの第一要素にテクスチャ特徴量ｆｅｔ_ｔとテクスチャ基準特徴量Ｂ_ｔ１との類似度が格納され、第二要素にテクスチャ特徴量ｆｅｔ_ｔとテクスチャ基準特徴量Ｂ_ｔ２との類似度が格納されており、算出した特徴量を積極的に利用すべき、つまり重みｗ_ｔを強める条件が、テクスチャ基準特徴量Ｂ_ｔ１と類似している一方で、テクスチャ基準特徴量Ｂ_ｔ２と類似していないという条件であった場合、基準類似度Ｃにおける第一要素は正値、第二要素は負値が格納される。基準類似度Ｃは後述する学習により推定する。レイヤーＮ５ｔでは、ベクトルｖｅｃと基準類似度Ｃとの内積を計算する。以上の処理は、１ｘ１のカーネルによる畳み込み演算により実現される。ベクトルｖｅｃと基準類似度Ｃとの内積値を重みｗ_ｔとする。同様の処理を、３次元特徴量ｆｅｔ_ｄを入力としてレイヤーＮ４ｄとレイヤーＮ５ｄを利用することで、３次元特徴量ｆｅｔ_ｄに対応した重みｗ_ｄを算出する。

特徴量統合処理（ステップＳ５）では、ニューラルネットワークＮのレイヤーＮ６に基づき特徴量を統合する。ニューラルネットワークＮのレイヤーＮ６は、上記した（式３）と同様の計算を行うレイヤーとなっており、統合特徴量ｆｅｔ_Ｃを出力する。

種別判定処理（ステップＳ６）では、ニューラルネットワークＮのレイヤーＮ３を利用して、統合特徴量ｆｅｔ_Ｃから走行可能領域か否かを判定する。レイヤーＮ３は畳み込み層と活性化関数Reluから構成されるレイヤーと、全結合層と活性化Softmaxから構成されており、種別の判定を実施する。

次に、ニューラルネットワークＮの学習方法に関して述べる。学習では、レイヤーＮ３の出力値と正解値とのクロスエントロピーを誤差関数として学習する。ニューラルネットワークＮは、全てのレイヤーが微分可能な構成となっており、レイヤーＮ３の出力に対して定義された誤差関数を減少するようにカーネルのパラメータを更新することで学習できる。これにより、レイヤーＮ４ｔとＮ５ｔで利用する基準特徴量と、レイヤーＮ４ｄとレイヤーＮ５ｄで利用する基準類似度の重みが、誤差関数が最小化されるように推定される。つまり、学習データの認識率を最大化するような基準特徴量と基準類似度を推定できる。

実施例３では、基準特徴量だけでなく、基準類似度に基づき重みの算出を利用していた。これにより、基準特徴量との類似性だけでなく、基準特徴量と似ていないことを含めて重みの算出をすることができるようになり、より複雑な条件に対応した重みづけが可能となり、性能の向上が可能となる。

また、実施例３では、基準特徴量と基準類似度をカーネルとした単一のニューラルネットワークに基づき走行可能領域の判定を実施する。また、ニューラルネットワークの出力に対して誤差関数を定義して学習していた。これにより、最終的な認識率を最大化するように基準特徴量と基準類似度を推定できるため、より高精度に認識することが可能となる。

また、実施例３では、単一のニューラルネットワークに利用して、特徴量の算出、重みの推定、物体の種別の推定を行う。これにより、複数のニューラルネットワークを個別に学習する必要がなくなり、学習時間の短縮や設計者の要する作業コストを低減できる。

次に、図１５を用いて、本発明の実施例４に係る物体認識装置１００を説明する。なお、上記の実施例との共通点は重複説明を省略する。

実施例１と実施例４の違いは、重み算出処理（ステップＳ４）の処理内容であるため、以降ではステップＳ４に関して説明する。実施例１では、撮像フレーム毎のテクスチャ画像Ｆ_ｔをそれぞれ独立して処理して重みｗを算出していたが、本実施例では、過去に算出した重み情報を参照して、今回フレームの重みを算出する。

本実施例における重み算出処理（ステップＳ４）を図１５に示す。ここに示すように、本実施例のステップＳ４は、過去フレーム位置算出処理（ステップＳ４ｅ）と、重み平均値計算処理（ステップＳ４ｆ）からなる。

まず、過去フレーム位置算出処理（ステップＳ４ｅ）では、今回フレームの認識対象の画像領域が、過去フレームの画像のどの位置に対応するのかを計算する。車両の速度、ヨーレートなどの情報から、今回フレームの画像領域が過去フレームのどの位置に対応するかを予測してもよいし、画像から特徴点を取得して、直前の時刻と今回の時刻で特徴点を対応付けることからカメラの移動量を計算することで過去フレームの位置を特定してもよい。

重み平均値計算処理（ステップＳ４ｆ）では、ステップＳ４ｅで特定した過去フレームの画像領域周辺の重みを利用し、今回フレームの認識対象の画像領域の重みを算出する。特定した過去フレームの画像領域の半径Ｒｐｉｘを定義し、その領域内に含まれる過去の重みの平均値を今回フレームで利用する重みとする。以上の処理を、テクスチャ特徴量ｆｅｔ_ｔおよび３次元特徴量ｆｅｔ_ｄの重み算出で実施する。

実施例４では、過去に算出した重みに基づき今回フレームで利用する重みを決定する。これにより、今回フレームにおいて、重みの算出を実施する必要がなくなり、処理負荷を低減できる。

なお、実施例１と実施例２では、検証用データに対する認識の成功、若しくは失敗という情報に基づき基準特徴量Ｂを選択していたが、認識スコアに基づき基準特徴量を選択してもよい。具体的には、基準特徴量を１つ決定する場合には識別スコアが最大となる特徴量を基準特徴量としてもよく、基準特徴量をＮ個決定する場合には識別スコアの上位Ｎ個を基準特徴量としてもよい。

以上、本発明を説明したが、本発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本発明の趣旨内で当事者が理解し得る様々な変更を加えることができる。

１００物体認識装置
１入力信号取得部
１１画像取得部
１２３次元情報取得部
２特徴量算出部
２１テクスチャ特徴量算出部
２２３次元特徴量算出部
３記憶部
３１テクスチャ基準特徴量格納部
３２３次元基準特徴量格納部
４重みパラメータ生成部
５対象物認識部
Ｆ_ｔテクスチャ画像
Ｒ_ｔテクスチャ領域
ｆｅｔ_ｔテクスチャ特徴量
Ｂ_ｔテクスチャ基準特徴量
Ｆ_ｄ３次元画像
Ｒ_ｄ３次元領域
ｆｅｔ_ｄ３次元特徴量
Ｂ_ｄ３次元基準特徴量
ｆｅｔ_Ｃ統合特徴量
ｗ重み

Claims

画像のテクスチャ情報と３次元情報を取得する入力信号取得部と、
前記画像の一部領域のテクスチャ情報に基づくテクスチャ特徴量と、前記一部領域の３次元情報に基づく３次元特徴量を算出する特徴量算出部と、
前記一部領域ごとに重みパラメータを生成する重みパラメータ生成部と、
前記重みパラメータで重みづけすることにより、前記テクスチャ特徴量と前記３次元特徴量を統合した統合特徴量を生成し、該統合特徴量に基づき前記画像中の対象物を認識する対象物認識部と、を有することを特徴とする物体認識装置。
前記テクスチャ特徴量に対応するテクスチャ基準特徴量と、前記３次元特徴量に対応する３次元基準特徴量を記憶する記憶部を更に備え、
前記重みパラメータ生成部は、前記テクスチャ特徴量および前記３次元特徴量をそれぞれ前記テクスチャ基準特徴量および前記３次元基準特徴量と比較した結果に基づいて、前記一部領域ごとに重みパラメータを生成することを特徴とする、請求項１に記載の物体認識装置。
前記記憶部は、複数の前記テクスチャ基準特徴量および複数の前記３次元基準特徴量を記憶し、
前記重みパラメータ生成部は、前記テクスチャ特徴量および前記３次元特徴量をそれぞれ複数の前記テクスチャ基準特徴量および複数の前記３次元基準特徴量と比較した結果に基づいて、前記一部領域ごとに重みパラメータを求めることを特徴とする、請求項２に記載の物体認識装置。
前記重み算出部は、前記テクスチャ特徴量および前記３次元特徴量とそれぞれ前記テクスチャ基準特徴量および前記３次元基準特徴量との内積値を前記重みパラメータとすることを特徴とする、請求項２に記載の物体認識装置。
前記テクスチャ基準特徴量は、前記テクスチャ特徴量を利用するテクスチャ識別器を利用して算出され、
前記３次元基準特徴量は、前記３次元特徴量を利用する３次元識別器を利用して算出されることを特徴とする、請求項２に記載の物体認識装置。
前記特徴量算出部、前記重みパラメータ生成部、前記記憶部、および前記対象物認識部は、単一のニューラルネットワークから構成されることを特徴とする、請求項２に記載の物体認識装置。
前記テクスチャ基準特徴量および前記３次元基準特徴量は、検証用データに対する認識率に基づき予め生成されることを特徴とする、請求項２に記載の物体認識装置。
前記重み算出部は、前記３次元情報が取得される領域に対して前記重みパラメータを算出し、
前記対象物認識部は、前記３次元情報が取得されない領域に対しては、前記テクスチャ特徴量に基づいて前記画像中の対象物を認識することを特徴とする、請求項１に記載の物体認識装置。
前記重みパラメータ生成部は、過去の前記重みパラメータから今回の前記重みパラメータを決定することを特徴とする、請求項１に記載の物体認識装置。
画像のテクスチャ情報と３次元情報を取得するステップと、
前記画像の一部領域のテクスチャ情報に基づくテクスチャ特徴量と、前記画像の一部領域の３次元情報に基づく３次元特徴量を算出するステップと、
前記一部領域ごとに重みパラメータを生成するステップと、
前記重みパラメータで重みづけすることにより、前記テクスチャ特徴量と前記３次元特徴量を統合した統合特徴量を生成するステップと、
該統合特徴量に基づき前記画像中の対象物を認識するステップと、
を有することを特徴とする物体認識方法。