JP2022178981A - 物体認識装置、および、物体認識方法 - Google Patents

物体認識装置、および、物体認識方法 Download PDF

Info

Publication number
JP2022178981A
JP2022178981A JP2021086154A JP2021086154A JP2022178981A JP 2022178981 A JP2022178981 A JP 2022178981A JP 2021086154 A JP2021086154 A JP 2021086154A JP 2021086154 A JP2021086154 A JP 2021086154A JP 2022178981 A JP2022178981 A JP 2022178981A
Authority
JP
Japan
Prior art keywords
feature amount
texture
dimensional
object recognition
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021086154A
Other languages
English (en)
Inventor
健 遠藤
Takeshi Endo
春樹 的野
Haruki Matono
健 永崎
Takeshi Nagasaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Astemo Ltd
Original Assignee
Hitachi Astemo Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Astemo Ltd filed Critical Hitachi Astemo Ltd
Priority to JP2021086154A priority Critical patent/JP2022178981A/ja
Priority to PCT/JP2022/004511 priority patent/WO2022244333A1/ja
Priority to DE112022001417.2T priority patent/DE112022001417T5/de
Publication of JP2022178981A publication Critical patent/JP2022178981A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】走行可能領域を高精度に認識する物体認識装置及び物体認識方法を提供する。【解決手段】物体認識装置は、画像のテクスチャ情報と3次元情報を取得する入力信号取得部と、画像の一部領域のテクスチャ情報に基づくテクスチャ特徴量と、一部領域の3次元情報に基づく3次元特徴量を算出する特徴量算出部と、一部領域ごとに重みパラメータを生成する重みパラメータ生成部と、重みパラメータで重みづけすることにより、テクスチャ特徴量と3次元特徴量を統合した統合特徴量を生成し、該統合特徴量に基づき画像中の対象物を認識する対象物認識部と、を有する。【選択図】図1

Description

本発明は、車載カメラの撮像画像を解析して車両周辺の物体を認識する、物体認識装置、および、物体認識方法に関する。
車両運転中の居眠りや注意不足等に起因する単独事故を防止するための運転支援システムとして、走行路からの逸脱を防止する車線維持支援システム(LKAS、Lane Keep Assist System)に期待が寄せられている。この車線維持支援システムは、適切な操舵支援制御を実現するための前提機能として、車載カメラの撮像画像を解析し、画像内の領域を走行可能領域と走行不可領域に領域分割する機能を備えている。
また、領域分割方法を開示する公知文献として、特許文献1が知られている。この文献の要約書には「取得した対象画像を、互いに異なる特徴量を用いて領域分割し、領域分割に用いた特徴量で特徴付けられた複数の生成領域からなる生成領域群を、特徴量の種類の数だけ生成する(S130)。生成領域群の一つを基本領域とし、基本領域と重なり合う生成領域の特徴量を基本領域の特徴量に組み込むことにより、複数種類の特徴量で特徴付けられた複数の基本領域からなる単一の基本領域群を生成する(S140)。基本領域群を構成する基本領域の特徴量に基づいて、注目する基本領域Rtarと、これに隣接する基本領域Rkとの間の類似度を表す指標として、特徴量が表す多次元特徴空間内での両領域間の重み付きユークリッド距離を求め、この距離が統合条件を満たす場合に両領域を統合する(S150)。」と記載されており、対象画像が持つテクスチャ情報だけではなく、距離情報(重み付きユークリッド距離)も利用した領域分割方法が開示されている。
このように特許文献1では、対象画像と距離情報から特徴量を抽出し、特徴量毎に重みづけた距離に基づき対応付けを実施している。より詳細には、同文献の図3や段落0046から段落0050等で説明されるように、対象画像全体の明るさなどから重みを算出しており、ある画像に対する領域分割では領域に依らず同一の重みを利用している。
特開2006-127024号公報
車線維持支援制御の前処理として走行可能領域を領域分割する場合、多数の物体が撮像されたシーンであっても正しく領域分割する必要がある。領域分割には、テクスチャ情報を積極的に利用する方法や、距離情報を積極的に利用する方法等が考えられるが、双方の情報をどの程度の重みで利用すべきかは、領域分割される物体の種別に応じて異なると考えられる。
そのため、1枚の対象画像を単一の重みを利用して領域分割する特許文献1では、撮像された物体毎に重みを変更することができず、本来利用すべき重みと乖離した重みを利用する場合には、対象画像内を正しく領域分割することが困難であった。
このような課題に鑑み、本発明は、画像領域毎に重みを変更することで、走行可能領域を高精度に認識する物体認識装置、および、物体認識方法の提供を目的とする。
画像のテクスチャ情報と3次元情報を取得する入力信号取得部と、前記画像の一部領域のテクスチャ情報に基づくテクスチャ特徴量と、前記一部領域の3次元情報に基づく3次元特徴量を算出する特徴量算出部と、前記一部領域ごとに重みパラメータを生成する重みパラメータ生成部と、前記重みパラメータで重みづけすることにより前記テクスチャ特徴量と前記3次元特徴量を統合した統合特徴量を生成し、該統合特徴量に基づき前記画像中の対象物を認識する対象物認識部と、を有することを特徴とする物体認識装置。
本発明の物体認識装置、および、物体認識方法によれば、画像領域毎に重みを変更することで、走行可能領域を高精度に認識することができる。
実施例1の物体認識装置の機能ブロック図。 実施例1の物体認識装置の処理フローチャート。 実施例1の物体認識装置が取得したテクスチャ画像の一例。 図3Aのテクスチャ画像の各画素のテクスチャ情報のデータ構造。 実施例1の物体認識装置が取得した3次元画像の一例。 図3Cの3次元画像の各画素の3次元情報のデータ構造。 実施例1の物体認識装置のニューラルネットワークの概略説明図。 実施例1のニューラルネットワークを利用したテクスチャ特徴量の抽出処理。 実施例1のニューラルネットワークを利用した3次元特徴量の抽出処理。 実施例1の物体認識装置の基準特徴量の決定方法の一例。 実施例1の物体認識装置の走行可否判定処理を説明する図。 実施例1の物体認識装置の重み算出の処理フローの一例。 実施例2の物体認識装置の重み算出の処理フローの一例。 実施例2の物体認識装置の基準特徴量の決定方法の一例。 実施例2の物体認識装置の基準特徴量から重みを算出する方法の一例。 実施例3の物体認識装置のニューラルネットワークの説明図。 図12のニューラルネットワークのうち重み算出レイヤーを示した図。 実施例3の物体認識装置の重み算出の処理フローの一例。 実施例4の物体認識装置の重み算出の処理フローの一例。
以下、図面を用いて、本発明の物体認識装置100の実施例について詳細に説明する。
まず、図1から図8を用いて、本発明の実施例1に係る物体認識装置100を説明する。
図1は、実施例1の物体認識装置100の構成を示す機能ブロックである。この物体認識装置100は、ハードウェアとして、車載カメラ等の外界センサ、CPU等の演算装置、半導体メモリ等の記憶装置を備えており、記憶装置に格納された制御プログラムを演算装置が実行することで、図示する各種機能が動作する。なお、プログラムの実行による種々機能の実現は周知技術であるので、以下では演算装置等のハードウェアの具体的な動作については説明を省略する。
図1に示すように、物体認識装置100は、上記ハードウェアにより実現される機能部として、入力信号取得部1、特徴量算出部2、記憶部3、重みパラメータ生成部4、対象物認識部5を有している。以下、各部を順次説明する。
<入力信号取得部1>
入力信号取得部1は、画像取得部11と3次元情報取得部12を有している。
画像取得部11は、車載カメラの撮像フレーム単位でテクスチャ画像Fを取得する。従って、画像取得部11は、車載カメラが単眼カメラであれば、撮像フレーム毎に1枚のテクスチャ画像Fを取得し、また、車載カメラがステレオカメラであれば撮像フレーム毎に左右2枚のテクスチャ画像Fを取得する。
3次元情報取得部12は、画像取得部11がステレオカメラから左右2枚のテクスチャ画像Fを取得した場合であれば、周知の視差計算方法を利用することで画素毎の3次元情報Iを生成する。また、3次元情報取得部12は、画像取得部11が単眼カメラから1枚のテクスチャ画像Fを取得した場合であれば、単眼カメラに併設したミリ波レーダやLidarから画素毎の3次元情報Iを取得する。
<特徴量算出部2>
特徴量算出部2は、テクスチャ特徴量算出部21と3次元特徴量算出部22を有している。
テクスチャ特徴量算出部21は、画像取得部11で取得したテクスチャ画像Fからテクスチャ特徴量fetを算出する。この特徴量には、エッジを利用したHoG特徴量を利用しても良いし、機械学習に基づくICF特徴量などを利用しても良い。また、後述する畳み込みニューラルネットワーク(以下、単に「ニューラルネットワークN」と称する)から抽出した特徴量を利用しても良い。
3次元特徴量算出部22は、3次元情報取得部12で取得した3次元情報Iから3次元特徴量fetを算出する。この特徴量には、距離情報を画像に投影することで取得した距離画像に対するHoG特徴量や、画像のチャンネルとして3次元情報が格納された3次元画像FのICF特徴量や、3次元情報Iを入力としたニューラルネットワークから抽出した特徴量を利用しても良い。
<記憶部3>
記憶部3は、テクスチャ基準特徴量格納部31と3次元基準特徴量格納部32を有している。テクスチャ基準特徴量格納部31には、テクスチャ画像Fのテクスチャ情報Iから抽出したテクスチャ基準特徴量Bが格納され、3次元基準特徴量格納部32には、3次元情報Iから抽出した3次元基準特徴量Bが格納される。なお、実施例2で詳細に説明するように、テクスチャ基準特徴量格納部31には複数のテクスチャ基準特徴量Bを格納でき、3次元基準特徴量格納部32には複数の3次元基準特徴量Bを格納できる。
両格納部に格納される基準特徴量Bは、テクスチャ特徴量算出部21と3次元特徴量算出部22を利用した識別器をそれぞれ構築し、検証用データセットでの認識率の観点で決定する。具体的には、認識に成功した特徴量や、認識スコアが最大となる特徴量を基準特徴量Bとして各格納部に格納する。また、テクスチャ特徴量算出部21と3次元特徴量算出部22をネットワークの構成の一部としたニューラルネットワークの学習により算出したカーネルを基準特徴量Bとして格納してもよい。
<重みパラメータ生成部4>
重みパラメータ生成部4では、特徴量算出部2で算出した特徴量fetに対する重みwを、記憶部3に格納した基準特徴量Bを利用して算出する。具体的には、テクスチャ特徴量算出部21とテクスチャ基準特徴量格納部31の出力の内積を計算し、その内積をテクスチャ特徴量fetの重みwとする。同様に、3次元特徴量算出部22と3次元基準特徴量格納部32の出力の内積を計算し、その内積を3次元特徴量fetの重みwとする。
内積はベクトル同士の相関、すなわち類似性を表現するため、基準特徴量Bとの類似性に着目して重みwを算出する。また、内積以外にもL2距離やバタチャリア距離を指数関数の指数としたものを重みwとして利用してもよい。また、テクスチャ基準特徴量格納部31と3次元基準特徴量格納部32の各々に複数の基準特徴量Bが格納されていた場合、各基準特徴量の内積値の平均値を重みとすることができる。また、基準特徴量Bがニューラルネットワークのカーネルである場合には、特徴量と基準特徴量の内積の計算結果に対して、さらに畳み込み演算を実施することで重みwを算出してもよい。
<対象物認識部5>
対象物認識部5では、特徴量算出部2で算出した特徴量を重みパラメータ生成部4で生成した重みwにより統合した特徴量に基づき、対象物の認識を実施する。具体的には、テクスチャ特徴量fetと3次元特徴量fetを、重みパラメータ生成部4で生成した重みwに従い加算することで、統合特徴量fetを生成する。そして、統合特徴量fetを利用した識別器により車両周囲の走行可能領域を認識する。
対象物認識部5が認識した走行可能領域は、図示しないCAN(Controller Area Network)を介して、ECU(Electronic Control Unit)に出力される。このため、ECUは、車両周囲の走行可能領域を逸脱しないように操舵系の制御を支援することで、車線維持支援制御を実行する。
<動作例>
次に、上記した構成の物体認識装置100の動作例を、図2のフローチャートを参照して詳細に説明する。以降の動作例では、車両前方を監視する姿勢で設置されたステレオカメラを利用する物体認識装置100に関して述べる。なお、ステレオカメラは、左カメラと右カメラから構成されるため、撮像フレーム単位で左右2枚のテクスチャ画像Fが撮像されるが、以下では、右カメラが撮像したテクスチャ画像Fにおける走行可能領域を推定するものとする。
本実施例の物体認識装置100は、入力情報取得処理(ステップS1)、テクスチャ特徴量抽出処理(ステップS2)、3次元特徴量抽出処理(ステップS3)、重み算出処理(ステップS4)、特徴量統合処理(ステップS5)、種別判定処理(ステップS6)を順に実施する。
まず、入力情報取得処理(ステップS1)では、左カメラと右カメラからの左右2枚のテクスチャ画像Fを取得する。右カメラから取得したテクスチャ画像Fを図3Aに例示する。また、図3Aのテクスチャ画像Fの各画素のテクスチャ情報Iのデータ構造を図3Bに示す。なお、図3Bに例示するテクスチャ情報Iは、テクスチャ画像Fの各画素の色を、R値、G値、B値の組み合わせで定義したデータであるが、色の定義方法は、この例に限定されない。
また、本ステップでは、取得した左右2枚のテクスチャ画像Fに対して、右カメラ画像を基準として、左カメラ画像を走査することで視差画像を生成する。視差の算出には、例えば、SAD(Sum of Absolute Difference)を利用する。そして、カメラの焦点距離、撮像素子のサイズ、カメラの基線長を参照し、視差画像に基づいて、カメラからの奥行距離Z、横方向距離X、縦方向距離Yを算出し、3次元情報Iを画像のチャンネルとした3次元画像Fを生成する。このようにして生成された3次元画像Fを図3Cに例示し、3次元画像Fの各画素の3次元情報Iのデータ構造を図3Dに示す。以降では、図3Cに示す3次元領域Rの3次元情報Iも考慮して、図3Aに示すテクスチャ領域Rが走行可能領域か走行不可領域かを判定する手続きに関して説明する。
テクスチャ特徴量抽出処理(ステップS2)では、ステップS1で取得した情報を用いてテクスチャ特徴量fetを抽出する。
まず、図4を用いて、テクスチャ画像Fに基づいて走行可否を判定するニューラルネットワークNtの概略を説明する。図4のニューラルネットワークNtは、図3Aのテクスチャ領域Rと同サイズの任意の局所領域Rを入力したときに、その局所領域Rが走行可能領域であるか否かを判定できるように学習されたものである。なお、この学習には、正解値が付与された学習データセットを利用している。ここで、図4のニューラルネットワークNtは、前段の特徴量抽出のレイヤーN1tと、後段の識別処理のレイヤーN2tから構成されている。前段のレイヤーN1tは、多数の畳み込みカーネルと活性化関数Reluから構成されており、局所領域Rから識別に有効なテクスチャ特徴量fetを抽出する。また、後段のレイヤーN2tは、前段のレイヤーN1tで抽出したテクスチャ特徴量fetに対して、全結合層と活性化関数Softmaxにより局所領域Rが走行可能領域であるか否かを判断する構成となっている。
従って、図5Aに示すように、特徴量抽出のレイヤーN1tに、テクスチャ領域Rのテクスチャ情報Iを入力することで、テクスチャ領域Rのテクスチャ特徴量fetを算出することができる。
3次元特徴量抽出処理(ステップS3)でも、ステップS2と同様に、ステップS1で取得した情報を用いて3次元特徴量fetを抽出する。本ステップでは、3次元画像Fに基づいて走行可否を判定するニューラルネットワークNdを利用する。このニューラルネットワークNdは、図3Cの3次元領域Rと同サイズの任意の局所領域Rを入力したときに、その局所領域Rが走行可能領域であるか否かを判定できるように学習されたものであり、図4のニューラルネットワークNtと同様に、前段の特徴量抽出のレイヤーN1dと、後段の識別処理のレイヤーN2dから構成されている。
従って、図5Bに示すように、特徴量抽出のレイヤーN1dに、図3Aのテクスチャ領域Rに対応した図3Cの3次元領域Rの3次元情報Iを入力することで、3次元領域Rの3次元特徴量fetを算出することができる。なお、テクスチャ領域R用のレイヤーN1t(図5A)と3次元領域R用のレイヤーN1d(図5B)は、同一次元数の特徴量を抽出するものとする。
重み算出処理(ステップS4)では、ステップS2で抽出したテクスチャ特徴量fetに対する重みwと、ステップS3で抽出した3次元特徴量fetに対する重みwを計算する。以降、テクスチャ特徴量fetに対する重みwの算出方法を述べることとし、同様の考え方で算出可能な、3次元特徴量fetに対する重みwについては説明を省略する。
テクスチャ特徴量fetの重みwの計算には、テクスチャ基準特徴量Bを利用する。まず、図6を用いて、テクスチャ基準特徴量Bの決定方法を説明する。テクスチャ基準特徴量Bの決定には、図4のニューラルネットワークNtを利用する。図6におけるR1、R2、R3は夫々、認識率の算出用に利用される検証用データセットの局所領域を示している。また、E1、E2、E3は夫々、局所領域R1、R2、R3を入力とした際のニューラルネットワークNtの認識結果を示している。図6では、局所領域R2の入力時の認識結果E2が正しく、局所領域R1とR3の入力時の認識結果E1とE3が間違っている。この場合、局所領域R2の入力時に前段のレイヤーN1tが出力したテクスチャ特徴量fett2をテクスチャ基準特徴量Bと決定して、テクスチャ基準特徴量格納部31に格納する。このようにして決定したテクスチャ基準特徴量Bは、テクスチャ領域Rの位置に応じて変更される変数でなく、ステップS4の実行前に事前設定された定数である。
従って、本ステップでは、任意のテクスチャ領域Rに対してステップS2で抽出したテクスチャ特徴量fetと、定数であるテクスチャ基準特徴量Bを用い、(式1)に従い内積を計算することで、そのテクスチャ領域Rにおける、テクスチャ特徴量fetに対する重みwを計算することができる。
Figure 2022178981000002
なお、(式1)におけるDは、テクスチャ基準特徴量Bの次元数を示している。(式1)の計算結果は、テクスチャ特徴量fetとテクスチャ基準特徴量Bとの相関値、すなわち類似度を表す。
同様の手続きを3次元画像Fの3次元領域Rに対しても実施することで、3次元基準特徴量Bを算出し、ステップS3で抽出した3次元特徴量fetに対する重みwを、(式2)を用いて算出することができる。
Figure 2022178981000003
特徴量統合処理(ステップS5)では、ステップS2で抽出したテクスチャ特徴量fetと、ステップS3で抽出した3次元特徴量fetを、ステップS4で算出した重みw、wを利用して統合した、統合特徴量fetを計算する。特徴量の統合は、以下の(式3)に従い計算する。
Figure 2022178981000004
種別判定処理(ステップS6)では、ステップS5で計算した統合特徴量fetに基づき、走行可能領域か否かの判定を実施する。統合特徴量fetに基づく走行可能領域の判定には、ニューラルネットワークN3を利用する。図7に本ステップの概念図を示す。ここに示すように、統合特徴量fetをニューラルネットワークN3の入力として、走行可能領域か否かを判断する。ニューラルネットワークN3は多数の畳み込み層と活性化関数Reluからなる特徴抽出部と、全結合層と活性化関数Softmaxからなる識別処理部から構成されている。上記したニューラルネットワークN2tは、テクスチャ特徴量fetを入力としたデータセットで学習されており、ニューラルネットワークのレイヤーN2dは、特徴量fetを入力としたデータセットで学習されていたが、図7のニューラルネットワークN3は、統合特徴量fetを入力としたデータセットで学習されているものとする。
以上のステップS1からステップS6を順に実施することで、重みwや重みwを適宜調整しながら、図3Aのテクスチャ領域Rに対して走行可能か否かの判定を実施することができる。図3Aのテクスチャ領域R以外の領域も同様に、ステップS1からステップS6を順に実施することで、テクスチャ画像Fの全体に対し走行可能領域判定を行うことができる。
以上より、本実施例の物体認識装置100は、特徴量の重みを画像の画素毎に変更することができる。これにより、テクスチャ画像F中にテクスチャ情報Iを積極的に利用して判定すべき物体と、3次元情報Iを積極的に利用して判定すべき物体が混在している場合であっても、各物体に異なる重みを設定することが可能となり、認識精度を高めることができる。
また、本実施例の物体認識装置100では、事前に決定された基準特徴量Bと特徴量fetを比較することで特徴量の重みを算出している。これにより、重み算出のために画像全体の輝度値を解析したりするなどの追加の画像解析処理が不要となり、重み算出を効率化することができる。
また、本実施例の物体認識装置100では、基準特徴量と特徴量の内積計算により重みを算出している。内積計算は積和演算のみで実行できるため、重み算出を少ない演算量で実施できる。
また、本実施例の物体認識装置100では、テクスチャ情報Iと3次元情報Iの基準特徴量Bの算出に、それぞれ異なるニューラルネットワークのレイヤーN1t,N1dを利用している。テクスチャ基準特徴量Bはテクスチャ情報Iのみから決定し、3次元基準特徴量は3次元情報Iのみから決定することができ、より正確に重みの算出を実施することができる。
また、本実施例の物体認識装置100では、図6に例示したように、基準特徴量Bは検証用データに対する認識率に基づき生成されている。そのため、認識に成功した特徴量を基準特徴量として選択することができる。これにより、認識に成功した特徴量に類似した特徴量を積極的に利用する重みの算出が可能となり、より高精度に認識することができる。
本実施例の重み算出処理(ステップS4)は、常にテクスチャ情報Iの重みwと3次元情報Iの重みwを算出していたが、図8に示す重み算出方法に変更することもできる。まず、3次元情報有効性判断処理(ステップS41)では、取得した3次元情報Iの有効性を判断する。3次元情報Iを取得できなかった画素、若しくは視差算出した際のコストが所定値以上であった場合には、その3次元画像Fが無効だと判断する。無効と判断された場合には、テクスチャ情報Iの重みwおよび3次元情報Iの重みwを算出することなくステップS6に進む。すなわち、ステップS6では、図4のニューラルネットワークのレイヤーN2tを用い、テクスチャ特徴量fetのみに基づいて走行可否を判定する。
一方で、3次元画像Fが有効と判定された場合には、テクスチャ情報Iの重みwおよび3次元情報Iの重みwを算出する(ステップS42)。そして、重みwと重みwを用いて、ステップS5以降の処理を実行する。
こうすることで、3次元情報が取得できなかった場合、若しくは取得した3次元情報の信頼度が著しく低い場合に、重みの算出をしないことで処理負荷を低減することができる。
次に、図9から図11を用いて、本発明の実施例2に係る物体認識装置100を説明する。なお、実施例1との共通点は重複説明を省略する。
実施例1では、特徴量fet毎に1つの基準特徴量Bを設定したが(図6参照)、実施例2では、特徴量fet毎に複数の基準特徴量を設定可能にした。そのため、本実施例では、重み計算処理(ステップS4)を、図9に示すように、基準特徴量内積計算(ステップS4a)と平均値計算処理(ステップS4b)で構成した。
まず、基準特徴量内積計算(ステップS4a)では、特徴量fet毎に設定した複数の基準特徴量Bのそれぞれを用いて、特徴量fetとの内積計算を実施する。ここで、図10を用いて、複数の基準特徴量Bの設定方法を説明する。なお、以降では、テクスチャ画像Fに対応したテクスチャ基準特徴量Bの設定方法に関して述べることとし、同様の考え方で設定可能な、3次元基準特徴量Bについては説明を省略する。図10の各符号の意味は、図6の各符号の意味と同様である。両図の違いは、図6では、局所領域R2に基づく認識結果E2だけが正しく、局所領域R1,R3に基づく認識結果E1,E3の双方が誤っていたが、図10では、局所領域R1,R2に基づく認識結果E1,E2の双方が正しく、局所領域R3に基づく認識結果E3だけが誤っている点である。
そこで、本実施例では、識別に成功した局所領域R1,R2に起因するテクスチャ特徴量fett1、fett2の両方をテクスチャ基準特徴量Bt1,Bt2に設定し、両者を用いて、任意のテクスチャ領域Rのテクスチャ特徴量fetの重みwを演算する。そのため、ステップS4aでは、図11に示すように、テクスチャ領域Rから抽出したテクスチャ特徴量fetとテクスチャ基準特徴量Bt1の内積値St1、および、テクスチャ特徴量fetとテクスチャ基準特徴量Bt2の内積値St2を計算する。すなわち、各基準特徴量と、テクスチャ領域Rのテクスチャ特徴量fetの類似性情報を計算する。
次に、平均値計算処理(ステップS4b)では、ステップS4aで計算した複数の内積値から、テクスチャ特徴量fetに対する重みwを算出する。重みwの算出には、次に示す(式4)を利用する。
Figure 2022178981000005
ここで、Aはテクスチャ基準特徴量Bのインデックス集合を示している。(式4)に従い計算することで、テクスチャ基準特徴量Bの内積値の平均を求めることができる。実施例2では、複数のテクスチャ基準特徴量Bから算出した内積値の平均値をテクスチャ特徴量fetに対する重みwとする。以上では、テクスチャ特徴量fetの重みwの算出方法について説明したが、3次元特徴量fetに対しても同様の手続きに従い、(式5)を利用して複数の3次元基準特徴量Bの算出と内積の平均値による重みwの算出を実施する。
Figure 2022178981000006
本実施例では、特徴量fet毎に複数の基準特徴量Bを設定し、それぞれの内積値の平均値をその特徴量fetの重みwとして利用する。これにより、単一の基準特徴量ではなく複数の基準特徴量に基づき重みの算出が可能となるため、ロバストに重みの算出を実施できる。
次に、図12から図14を用いて、本発明の実施例3に係る物体認識装置100を説明する。なお、上記の実施例との共通点は重複説明を省略する。
実施例1では、図2に示す、テクスチャ特徴量抽出処理(ステップS2)、3次元特徴量抽出処理(ステップS3)、種別判定処理(ステップS6)の3ステップで夫々ニューラルネットワークを利用していた。つまり、実施例1では、図2の処理の実行に3種のニューラルネットワークを利用していた。これに対し本実施例では、実施例1の各ネットワークの機能をレイヤーとして取り込んだ、1つのニューラルネットワークNを利用して、図2の処理を実行する。
図12に、本実施例のニューラルネットワークNの構成を示す。以降では、図2の処理フローとニューラルネットワークNの対応関係について述べる。ただし、入力情報取得処理は実施例1と同様のため、それ以降の処理に関して述べる。
図12に示すニューラルネットワークNは、まず、テクスチャ領域Rと3次元領域Rを入力として、テクスチャ特徴量抽出処理(ステップS2)と、3次元特徴量抽出処理(ステップS3)を実施する。テクスチャ特徴量抽出処理(ステップS2)では、ニューラルネットワークNのレイヤーN1tを利用してテクスチャ特徴量fetを抽出する。このレイヤーN1tは、多数の畳み込み層と活性化関数Reluから構成されている。同様に、3次元特徴量抽出処理(ステップS3)でも、ニューラルネットワークNのレイヤーN1dを利用して3次元特徴量fetを抽出する。ここで、レイヤーN1tとレイヤーN1dで抽出されたテクスチャ特徴量fetと3次元特徴量fetの次元数は等しくなるようになっている。
重み算出処理(ステップS4)では、ニューラルネットワークNのレイヤーN4t、N5tを利用して、テクスチャ特徴量fetの重みwを算出し、レイヤーN4d、N5dを利用して、3次元特徴量fetの重みwを算出する。以降では、テクスチャ特徴量fetに対する重みwの算出方法に関して述べ、同様の考え方で算出可能な、3次元特徴量fetに対する重みwについては説明を省略する。
テクスチャ特徴量fetに対する重みwを算出するレイヤーN4tとレイヤーN5tの構成の詳細を図13に示す。レイヤーN4tとレイヤーN5tでの処理は、図14に示す処理フローとなる。レイヤーN4tによる処理が、基準特徴量内積計算(ステップS4c)に対応しており、レイヤーN5tによる処理が、基準類似度内積計算(ステップS4d)に対応している。
まず、基準特徴量内積計算(ステップS4c)に関して述べる。レイヤーN4tに示すテクスチャ基準特徴量Bt1、Bt2、…、BtnはレイヤーN4tにおけるカーネルである。テクスチャ基準特徴量Bt1、Bt2、…、Btnは、後述するニューラルネットワークNを学習することで推定する。レイヤーN4tでは、テクスチャ特徴量fetに対してBt1、Bt2、…、Btnとの内積を計算し、各カーネルとの内積値を要素とするベクトルvecを出力する。ここで、ベクトルvecの各要素は各基準特徴量との内積、つまり相関値であるため、各基準特徴量との類似度を表現したベクトルがvecの実体となる。以上の処理は、1x1のカーネルによる畳み込み演算により実現できる。
次に、基準類似度内積計算(ステップS4d)を実施する。レイヤーN5tにおける基準類似度Cは、ベクトルvecと同一次元のベクトルであり、積極的に利用すべき、つまり重みを強める特徴量と各基準特徴量の関係性が格納されている。具体的には、ベクトルvecの第一要素にテクスチャ特徴量fetとテクスチャ基準特徴量Bt1との類似度が格納され、第二要素にテクスチャ特徴量fetとテクスチャ基準特徴量Bt2との類似度が格納されており、算出した特徴量を積極的に利用すべき、つまり重みwを強める条件が、テクスチャ基準特徴量Bt1と類似している一方で、テクスチャ基準特徴量Bt2と類似していないという条件であった場合、基準類似度Cにおける第一要素は正値、第二要素は負値が格納される。基準類似度Cは後述する学習により推定する。レイヤーN5tでは、ベクトルvecと基準類似度Cとの内積を計算する。以上の処理は、1x1のカーネルによる畳み込み演算により実現される。ベクトルvecと基準類似度Cとの内積値を重みwとする。同様の処理を、3次元特徴量fetを入力としてレイヤーN4dとレイヤーN5dを利用することで、3次元特徴量fetに対応した重みwを算出する。
特徴量統合処理(ステップS5)では、ニューラルネットワークNのレイヤーN6に基づき特徴量を統合する。ニューラルネットワークNのレイヤーN6は、上記した(式3)と同様の計算を行うレイヤーとなっており、統合特徴量fetを出力する。
種別判定処理(ステップS6)では、ニューラルネットワークNのレイヤーN3を利用して、統合特徴量fetから走行可能領域か否かを判定する。レイヤーN3は畳み込み層と活性化関数Reluから構成されるレイヤーと、全結合層と活性化Softmaxから構成されており、種別の判定を実施する。
次に、ニューラルネットワークNの学習方法に関して述べる。学習では、レイヤーN3の出力値と正解値とのクロスエントロピーを誤差関数として学習する。ニューラルネットワークNは、全てのレイヤーが微分可能な構成となっており、レイヤーN3の出力に対して定義された誤差関数を減少するようにカーネルのパラメータを更新することで学習できる。これにより、レイヤーN4tとN5tで利用する基準特徴量と、レイヤーN4dとレイヤーN5dで利用する基準類似度の重みが、誤差関数が最小化されるように推定される。つまり、学習データの認識率を最大化するような基準特徴量と基準類似度を推定できる。
実施例3では、基準特徴量だけでなく、基準類似度に基づき重みの算出を利用していた。これにより、基準特徴量との類似性だけでなく、基準特徴量と似ていないことを含めて重みの算出をすることができるようになり、より複雑な条件に対応した重みづけが可能となり、性能の向上が可能となる。
また、実施例3では、基準特徴量と基準類似度をカーネルとした単一のニューラルネットワークに基づき走行可能領域の判定を実施する。また、ニューラルネットワークの出力に対して誤差関数を定義して学習していた。これにより、最終的な認識率を最大化するように基準特徴量と基準類似度を推定できるため、より高精度に認識することが可能となる。
また、実施例3では、単一のニューラルネットワークに利用して、特徴量の算出、重みの推定、物体の種別の推定を行う。これにより、複数のニューラルネットワークを個別に学習する必要がなくなり、学習時間の短縮や設計者の要する作業コストを低減できる。
次に、図15を用いて、本発明の実施例4に係る物体認識装置100を説明する。なお、上記の実施例との共通点は重複説明を省略する。
実施例1と実施例4の違いは、重み算出処理(ステップS4)の処理内容であるため、以降ではステップS4に関して説明する。実施例1では、撮像フレーム毎のテクスチャ画像Fをそれぞれ独立して処理して重みwを算出していたが、本実施例では、過去に算出した重み情報を参照して、今回フレームの重みを算出する。
本実施例における重み算出処理(ステップS4)を図15に示す。ここに示すように、本実施例のステップS4は、過去フレーム位置算出処理(ステップS4e)と、重み平均値計算処理(ステップS4f)からなる。
まず、過去フレーム位置算出処理(ステップS4e)では、今回フレームの認識対象の画像領域が、過去フレームの画像のどの位置に対応するのかを計算する。車両の速度、ヨーレートなどの情報から、今回フレームの画像領域が過去フレームのどの位置に対応するかを予測してもよいし、画像から特徴点を取得して、直前の時刻と今回の時刻で特徴点を対応付けることからカメラの移動量を計算することで過去フレームの位置を特定してもよい。
重み平均値計算処理(ステップS4f)では、ステップS4eで特定した過去フレームの画像領域周辺の重みを利用し、今回フレームの認識対象の画像領域の重みを算出する。特定した過去フレームの画像領域の半径Rpixを定義し、その領域内に含まれる過去の重みの平均値を今回フレームで利用する重みとする。以上の処理を、テクスチャ特徴量fetおよび3次元特徴量fetの重み算出で実施する。
実施例4では、過去に算出した重みに基づき今回フレームで利用する重みを決定する。これにより、今回フレームにおいて、重みの算出を実施する必要がなくなり、処理負荷を低減できる。
なお、実施例1と実施例2では、検証用データに対する認識の成功、若しくは失敗という情報に基づき基準特徴量Bを選択していたが、認識スコアに基づき基準特徴量を選択してもよい。具体的には、基準特徴量を1つ決定する場合には識別スコアが最大となる特徴量を基準特徴量としてもよく、基準特徴量をN個決定する場合には識別スコアの上位N個を基準特徴量としてもよい。
以上、本発明を説明したが、本発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本発明の趣旨内で当事者が理解し得る様々な変更を加えることができる。
100 物体認識装置
1 入力信号取得部
11 画像取得部
12 3次元情報取得部
2 特徴量算出部
21 テクスチャ特徴量算出部
22 3次元特徴量算出部
3 記憶部
31 テクスチャ基準特徴量格納部
32 3次元基準特徴量格納部
4 重みパラメータ生成部
5 対象物認識部
テクスチャ画像
テクスチャ領域
fet テクスチャ特徴量
テクスチャ基準特徴量
3次元画像
3次元領域
fet 3次元特徴量
3次元基準特徴量
fet 統合特徴量
w 重み

Claims (10)

  1. 画像のテクスチャ情報と3次元情報を取得する入力信号取得部と、
    前記画像の一部領域のテクスチャ情報に基づくテクスチャ特徴量と、前記一部領域の3次元情報に基づく3次元特徴量を算出する特徴量算出部と、
    前記一部領域ごとに重みパラメータを生成する重みパラメータ生成部と、
    前記重みパラメータで重みづけすることにより、前記テクスチャ特徴量と前記3次元特徴量を統合した統合特徴量を生成し、該統合特徴量に基づき前記画像中の対象物を認識する対象物認識部と、を有することを特徴とする物体認識装置。
  2. 前記テクスチャ特徴量に対応するテクスチャ基準特徴量と、前記3次元特徴量に対応する3次元基準特徴量を記憶する記憶部を更に備え、
    前記重みパラメータ生成部は、前記テクスチャ特徴量および前記3次元特徴量をそれぞれ前記テクスチャ基準特徴量および前記3次元基準特徴量と比較した結果に基づいて、前記一部領域ごとに重みパラメータを生成することを特徴とする、請求項1に記載の物体認識装置。
  3. 前記記憶部は、複数の前記テクスチャ基準特徴量および複数の前記3次元基準特徴量を記憶し、
    前記重みパラメータ生成部は、前記テクスチャ特徴量および前記3次元特徴量をそれぞれ複数の前記テクスチャ基準特徴量および複数の前記3次元基準特徴量と比較した結果に基づいて、前記一部領域ごとに重みパラメータを求めることを特徴とする、請求項2に記載の物体認識装置。
  4. 前記重み算出部は、前記テクスチャ特徴量および前記3次元特徴量とそれぞれ前記テクスチャ基準特徴量および前記3次元基準特徴量との内積値を前記重みパラメータとすることを特徴とする、請求項2に記載の物体認識装置。
  5. 前記テクスチャ基準特徴量は、前記テクスチャ特徴量を利用するテクスチャ識別器を利用して算出され、
    前記3次元基準特徴量は、前記3次元特徴量を利用する3次元識別器を利用して算出されることを特徴とする、請求項2に記載の物体認識装置。
  6. 前記特徴量算出部、前記重みパラメータ生成部、前記記憶部、および前記対象物認識部は、単一のニューラルネットワークから構成されることを特徴とする、請求項2に記載の物体認識装置。
  7. 前記テクスチャ基準特徴量および前記3次元基準特徴量は、検証用データに対する認識率に基づき予め生成されることを特徴とする、請求項2に記載の物体認識装置。
  8. 前記重み算出部は、前記3次元情報が取得される領域に対して前記重みパラメータを算出し、
    前記対象物認識部は、前記3次元情報が取得されない領域に対しては、前記テクスチャ特徴量に基づいて前記画像中の対象物を認識することを特徴とする、請求項1に記載の物体認識装置。
  9. 前記重みパラメータ生成部は、過去の前記重みパラメータから今回の前記重みパラメータを決定することを特徴とする、請求項1に記載の物体認識装置。
  10. 画像のテクスチャ情報と3次元情報を取得するステップと、
    前記画像の一部領域のテクスチャ情報に基づくテクスチャ特徴量と、前記画像の一部領域の3次元情報に基づく3次元特徴量を算出するステップと、
    前記一部領域ごとに重みパラメータを生成するステップと、
    前記重みパラメータで重みづけすることにより、前記テクスチャ特徴量と前記3次元特徴量を統合した統合特徴量を生成するステップと、
    該統合特徴量に基づき前記画像中の対象物を認識するステップと、
    を有することを特徴とする物体認識方法。
JP2021086154A 2021-05-21 2021-05-21 物体認識装置、および、物体認識方法 Pending JP2022178981A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021086154A JP2022178981A (ja) 2021-05-21 2021-05-21 物体認識装置、および、物体認識方法
PCT/JP2022/004511 WO2022244333A1 (ja) 2021-05-21 2022-02-04 物体認識装置、および、物体認識方法
DE112022001417.2T DE112022001417T5 (de) 2021-05-21 2022-02-04 Objekterkennungsvorrichtung und objekterkennungsverfahren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021086154A JP2022178981A (ja) 2021-05-21 2021-05-21 物体認識装置、および、物体認識方法

Publications (1)

Publication Number Publication Date
JP2022178981A true JP2022178981A (ja) 2022-12-02

Family

ID=84140182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021086154A Pending JP2022178981A (ja) 2021-05-21 2021-05-21 物体認識装置、および、物体認識方法

Country Status (3)

Country Link
JP (1) JP2022178981A (ja)
DE (1) DE112022001417T5 (ja)
WO (1) WO2022244333A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4506409B2 (ja) 2004-10-27 2010-07-21 株式会社デンソー 領域分割方法及び装置、画像認識処理装置、プログラム、記録媒体
JP5820774B2 (ja) * 2012-06-21 2015-11-24 株式会社豊田中央研究所 路面境界推定装置及びプログラム
JP2018124177A (ja) * 2017-02-01 2018-08-09 トヨタ自動車株式会社 床面判断方法
JP7071154B2 (ja) * 2018-02-26 2022-05-18 株式会社Soken 道路境界検出装置

Also Published As

Publication number Publication date
WO2022244333A1 (ja) 2022-11-24
DE112022001417T5 (de) 2024-01-11

Similar Documents

Publication Publication Date Title
CN108537837B (zh) 一种深度信息确定的方法及相关装置
CN108961327B (zh) 一种单目深度估计方法及其装置、设备和存储介质
JP6832504B2 (ja) 物体追跡方法、物体追跡装置およびプログラム
US10789515B2 (en) Image analysis device, neural network device, learning device and computer program product
KR20200060194A (ko) 차선들의 깊이값을 예측하는 방법, 3차원 차선들을 출력하는 방법 및 그 장치
JP6946255B2 (ja) 学習装置、推定装置、学習方法およびプログラム
WO2016179808A1 (en) An apparatus and a method for face parts and face detection
US11804026B2 (en) Device and a method for processing data sequences using a convolutional neural network
CN109685830B (zh) 目标跟踪方法、装置和设备及计算机存储介质
CN111914878A (zh) 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
CN106611147B (zh) 车辆追踪方法和装置
WO2018030048A1 (ja) 物体追跡方法、物体追跡装置およびプログラム
US12002218B2 (en) Method and apparatus with object tracking
Huang et al. ES-Net: An efficient stereo matching network
Kim et al. Adversarial confidence estimation networks for robust stereo matching
CN111046755A (zh) 字符识别方法、装置、计算机设备和计算机可读存储介质
JP2021051347A (ja) 距離画像生成装置及び距離画像生成方法
WO2022244333A1 (ja) 物体認識装置、および、物体認識方法
CN111291607B (zh) 驾驶员分神检测方法、装置、计算机设备和存储介质
Zabihi et al. Frame-rate vehicle detection within the attentional visual area of drivers
KR102609829B1 (ko) 생성적 적대 신경망을 이용한 스테레오 매칭 신뢰도 추정 장치 및 방법
CN115191928A (zh) 信息处理装置、信息处理方法、学习方法以及存储介质
US20240153120A1 (en) Method to determine the depth from images by self-adaptive learning of a neural network and system thereof
WO2021024905A1 (ja) 画像処理装置、モニタリング装置、制御システム、画像処理方法、コンピュータプログラム、及び記憶媒体
CN111767940A (zh) 目标物体识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240625