JP7091686B2 - 3D object recognition device, image pickup device and vehicle - Google Patents

3D object recognition device, image pickup device and vehicle Download PDF

Info

Publication number
JP7091686B2
JP7091686B2 JP2018020830A JP2018020830A JP7091686B2 JP 7091686 B2 JP7091686 B2 JP 7091686B2 JP 2018020830 A JP2018020830 A JP 2018020830A JP 2018020830 A JP2018020830 A JP 2018020830A JP 7091686 B2 JP7091686 B2 JP 7091686B2
Authority
JP
Japan
Prior art keywords
image
dimensional object
model
recognition device
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018020830A
Other languages
Japanese (ja)
Other versions
JP2019139420A (en
Inventor
聖也 天野
亮介 笠原
潤 岸和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2018020830A priority Critical patent/JP7091686B2/en
Publication of JP2019139420A publication Critical patent/JP2019139420A/en
Application granted granted Critical
Publication of JP7091686B2 publication Critical patent/JP7091686B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Length Measuring Devices By Optical Means (AREA)
  • Measurement Of Optical Distance (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Description

本発明は、立体物認識装置、撮像装置および車両に関する。 The present invention relates to a three-dimensional object recognition device, an image pickup device, and a vehicle.

周囲環境を認識するために、画像や測距センサ等を用いて、対象物体の位置やセンサからの距離を測定する手法がある。例えば、ステレオカメラを用いた測位技術は、近年、車載用途などで活発に技術開発が行われている(例えば、特許文献1、特許文献2)。 In order to recognize the surrounding environment, there is a method of measuring the position of the target object and the distance from the sensor by using an image, a distance measuring sensor, or the like. For example, positioning technology using a stereo camera has been actively developed in recent years for in-vehicle use and the like (for example, Patent Document 1 and Patent Document 2).

特許文献1では、ステレオカメラから得られる視差画像に基づいて、視差塊毎に物体を検出した後で、検出された物体毎に、画像特徴や時間特徴に基づいて物体を特定している。 In Patent Document 1, after an object is detected for each parallax block based on a parallax image obtained from a stereo camera, an object is specified for each detected object based on an image feature and a time feature.

また、特許文献2では、輝度画像や視差画像等の2次元画像特徴に基づいて、検出対象の種別毎に物体を検出している。 Further, in Patent Document 2, an object is detected for each type of detection target based on two-dimensional image features such as a luminance image and a parallax image.

しかしながら、例えば特許文献1にあっては、検出対象以外の構造物が多く存在するシーンでは高精度な検出が困難という問題があった。すなわち、検出結果に対して検出対象を判別する手法であるため、判別精度がその検出精度に依存していた。そのため、物体同士が隣接している場合、異なる物体が一つの視差塊になるという問題があった。また、視差が出にくい環境において、一つの物体を分離して検出してしまうおそれがある場合に、判別性能が低下するという問題があった。 However, for example, in Patent Document 1, there is a problem that highly accurate detection is difficult in a scene where many structures other than the detection target are present. That is, since it is a method of discriminating the detection target based on the detection result, the discrimination accuracy depends on the detection accuracy. Therefore, when the objects are adjacent to each other, there is a problem that different objects become one parallax block. Further, in an environment where parallax is difficult to occur, there is a problem that the discrimination performance is deteriorated when there is a possibility that one object is separated and detected.

また、特許文献2にあっては、検出対象の画像上での写り方が多様である場合、高精度な検出が困難であるという問題があった。例えば、人間が検出対象の場合、人間の動作(歩行や腰曲げ動作、静止、物を抱えている、車両に乗っている)が様々であることや、服装によっても画像特徴が異なる。したがって、動作や服装等が統一されていない環境では安定した検出が難しかった。また、近場から遠方に亘って同じ手法で物体を検出するため、距離によらずに高い精度を発揮させるのが困難であるという問題があった。すなわち、遠方の物体ほど画像内で小さくなり、特徴が少なくなるため、情報量の多い近場の物体と情報量の少ない遠方の物体とを単一の手法で高精度に検出することが難しかった。 Further, in Patent Document 2, there is a problem that high-precision detection is difficult when there are various appearances on the image to be detected. For example, when a human is a detection target, the image features differ depending on the various human movements (walking, hip bending, stationary, holding an object, riding in a vehicle) and clothing. Therefore, stable detection was difficult in an environment where movements and clothes were not unified. Further, since the object is detected by the same method from the near field to the distant place, there is a problem that it is difficult to exhibit high accuracy regardless of the distance. In other words, the farther the object is, the smaller it is in the image and the less features it has, so it was difficult to detect a near-field object with a large amount of information and a distant object with a small amount of information with high accuracy using a single method. ..

本発明は、上記に鑑みてなされたものであり、3次元空間情報と2次元輝度画像情報とを効率的に用いて、画像の中で時刻とともにその位置が変化する非定常領域を検出することによって、複雑な環境においても高精度・高速に立体物を検出することが可能な立体物認識装置、撮像装置および車両を提供することを目的とする。 The present invention has been made in view of the above, and efficiently uses three-dimensional spatial information and two-dimensional brightness image information to detect a non-stationary region whose position changes with time in an image. It is an object of the present invention to provide a three-dimensional object recognition device, an image pickup device, and a vehicle capable of detecting a three-dimensional object with high accuracy and high speed even in a complicated environment.

前記した課題を解決し、目的を達成するために、本発明は、画素毎に距離情報を有する距離画像を時系列で取得する取得手段と、前記取得手段が取得した時系列の距離画像の中から立体物を識別する識別手段と、前記識別手段によって立体物として識別された領域を、時系列の俯瞰マップにマッピングするマッピング手段と、立体物として識別された領域について、当該立体物のモデルを作成するモデル作成手段と、前記マッピング手段によってマッピングされた俯瞰マップと、前記モデル作成手段が予め作成したモデルと、に基づいて、時系列の前記距離画像が含む立体物を判別する判別手段と、を備え、前記判別手段は、一つの入力画像に対して、複数の異なる空間フィルタを作用させて、複数のフィルタ画像を生成する生成手段と、前記複数のフィルタ画像の各々に対して、予め立体物の形状を表現するパラメータを有する1以上のモデルを含むモデル群を用いて、前記入力画像の各部分の発生確率を算出することによって、前記入力画像の中から非定常領域を検出する非定常領域検出手段と、を備えて、前記非定常領域検出手段は、前記複数の異なる空間フィルタに対応するモデル毎の前記入力画像の各部分の発生確率を、対応する部分を合わせて一の画像に統合した発生確率に基づいて、前記入力画像の中から非定常領域を検出する立体物認識装置である。 In order to solve the above-mentioned problems and achieve the object, the present invention includes an acquisition means for acquiring a distance image having distance information for each pixel in a time series and a time-series distance image acquired by the acquisition means. An identification means for identifying a three-dimensional object from the above, a mapping means for mapping a region identified as a three-dimensional object by the identification means to a time-series bird's-eye view map, and a model of the three-dimensional object for a region identified as a three-dimensional object. A discriminating means for discriminating a three-dimensional object included in the distance image in a time series based on the model creating means to be created, the bird's-eye view map mapped by the mapping means, and the model created in advance by the model creating means. The discriminating means is provided with a generation means for generating a plurality of filter images by acting a plurality of different spatial filters on one input image, and a stereoscopic effect on each of the plurality of filter images in advance. A non-stationary region is detected from the input image by calculating the occurrence probability of each part of the input image using a model group including one or more models having parameters expressing the shape of an object. The non-stationary region detecting means includes a region detecting means, and the non-stationary region detecting means sets the occurrence probability of each part of the input image for each model corresponding to the plurality of different spatial filters into one image by combining the corresponding parts. It is a three-dimensional object recognition device that detects a non-stationary region from the input image based on the integrated occurrence probability .

本発明によれば、複雑な環境においても高精度かつ高速に立体物を検出することができる。 According to the present invention, it is possible to detect a three-dimensional object with high accuracy and high speed even in a complicated environment.

図1は、実施の形態の立体物認識装置を搭載した車両の概略構成を示す模式図である。FIG. 1 is a schematic diagram showing a schematic configuration of a vehicle equipped with the three-dimensional object recognition device of the embodiment. 図2は、立体物認識装置のハードウェアの構成の一例を示すハードウェアブロック図である。FIG. 2 is a hardware block diagram showing an example of the hardware configuration of the three-dimensional object recognition device. 図3は、被写体と各撮像部の撮像レンズとの位置関係の一例を示す図である。FIG. 3 is a diagram showing an example of the positional relationship between the subject and the image pickup lens of each image pickup unit. 図4は、立体物認識装置の機能構成の一例を示す機能ブロック図であり、図4(a)は、背景データ処理を実現する機能構成の一例を示す機能ブロック図である。図4(b)は、学習モデル生成処理を実現する機能構成の一例を示す機能ブロック図である。図4(c)は、物体検出処理を実現する機能構成の一例を示す機能ブロック図である。FIG. 4 is a functional block diagram showing an example of a functional configuration of a three-dimensional object recognition device, and FIG. 4A is a functional block diagram showing an example of a functional configuration that realizes background data processing. FIG. 4B is a functional block diagram showing an example of a functional configuration that realizes a learning model generation process. FIG. 4C is a functional block diagram showing an example of a functional configuration that realizes an object detection process. 図5(a)は、撮像ユニットで撮像された撮影画像の一例を示す図である。図5(b)は、撮影画像に対応するVマップの一例を示す図である。FIG. 5A is a diagram showing an example of a photographed image captured by the imaging unit. FIG. 5B is a diagram showing an example of a V map corresponding to a captured image. 図6(a)は、撮像ユニットで撮像された撮影画像の一例を示す図である。図6(b)は、図6(a)の撮影画像に対応する俯瞰画像の一例を示す図である。FIG. 6A is a diagram showing an example of a photographed image captured by the imaging unit. FIG. 6B is a diagram showing an example of a bird's-eye view image corresponding to the captured image of FIG. 6A. 図7は、学習モデル生成部の詳細構成を示す機能ブロック図である。FIG. 7 is a functional block diagram showing a detailed configuration of the learning model generation unit. 図8は、学習部が行う処理の流れの一例を示すフローチャートである。FIG. 8 is a flowchart showing an example of the flow of processing performed by the learning unit. 図9は、学習部が行う処理の前提となるモデル推定問題についての説明図である。FIG. 9 is an explanatory diagram of a model estimation problem that is a premise of processing performed by the learning unit. 図10は、学習モデル生成部が統合スコアを算出するアルゴリズムの全体構成を示す模式図である。FIG. 10 is a schematic diagram showing the overall configuration of the algorithm in which the learning model generation unit calculates the integrated score. 図11は、学習モデル生成部が行う処理の変形例の流れを示す模式図である。FIG. 11 is a schematic diagram showing a flow of a modified example of the processing performed by the learning model generation unit. 図12は、孤立領域検出部が行うラベリング処理について説明する図であり、図12(a)は、仮の番号を付与した状態の一例を示す図である。図12(b)は、付与された仮の番号を付け替える処理の一例を示す図である。図12(c)は、ラベリング処理を完了した状態の一例を示す図である。FIG. 12 is a diagram for explaining the labeling process performed by the isolated region detection unit, and FIG. 12 (a) is a diagram showing an example of a state in which a temporary number is assigned. FIG. 12B is a diagram showing an example of a process of replacing the assigned temporary number. FIG. 12 (c) is a diagram showing an example of a state in which the labeling process is completed. 図13は、棄却処理で用いる設定値の一例を示す図である。FIG. 13 is a diagram showing an example of set values used in the rejection process. 図14は、物体検出処理の具体例を示す図であり、図14(a)は、撮像ユニットで撮像された撮影画像の一例を示す図である。図14(b)は、図14(a)の撮影画像に対応する俯瞰画像の一例を示す図である。図14(c)は、非定常領域の検出結果の一例を示す図である。図14(d)は、孤立領域の検出結果の一例を示す図である。FIG. 14 is a diagram showing a specific example of the object detection process, and FIG. 14A is a diagram showing an example of a captured image captured by the imaging unit. FIG. 14 (b) is a diagram showing an example of a bird's-eye view image corresponding to the captured image of FIG. 14 (a). FIG. 14 (c) is a diagram showing an example of the detection result of the unsteady region. FIG. 14D is a diagram showing an example of the detection result of the isolated region.

以下、添付図面を参照して、実施の形態の立体物認識装置10を詳細に説明する。図1は、実施の形態の立体物認識装置10を搭載した車両1の概略構成を示す模式図である。図1に示すように、立体物認識装置10は、移動体の一例である自動車等の車両1に設けられる。立体物認識装置10は、撮像ユニット2と解析ユニット3とを備える。なお、立体物認識装置10を撮像装置10aとして使用してもよい。また、車両1は、立体物認識装置10の出力に基づいて動作する、制御ユニット4と、表示部5と、を備える。 Hereinafter, the three-dimensional object recognition device 10 of the embodiment will be described in detail with reference to the accompanying drawings. FIG. 1 is a schematic diagram showing a schematic configuration of a vehicle 1 equipped with the three-dimensional object recognition device 10 of the embodiment. As shown in FIG. 1, the three-dimensional object recognition device 10 is provided in a vehicle 1 such as an automobile, which is an example of a moving body. The three-dimensional object recognition device 10 includes an image pickup unit 2 and an analysis unit 3. The three-dimensional object recognition device 10 may be used as the image pickup device 10a. Further, the vehicle 1 includes a control unit 4 and a display unit 5 that operate based on the output of the three-dimensional object recognition device 10.

撮像ユニット2は、車両1のフロントガラス6のルームミラー付近に設けられ、車両1の、例えば進行方向等の画像を撮像する。撮像ユニット2の撮像動作で得られる画像データを含む各種データは、解析ユニット3に供給される。解析ユニット3は、撮像ユニット2から供給される各種データに基づいて、車両1が走行中の路面を検出するとともに、路面から高さを有する立体物である、車両1の先行車両、歩行者、障害物等の立体物(オブジェクト)を解析する。 The image pickup unit 2 is provided near the rearview mirror of the windshield 6 of the vehicle 1 and captures an image of the vehicle 1, for example, the traveling direction. Various data including the image data obtained by the image pickup operation of the image pickup unit 2 are supplied to the analysis unit 3. The analysis unit 3 detects the road surface on which the vehicle 1 is traveling based on various data supplied from the image pickup unit 2, and is a three-dimensional object having a height from the road surface. Analyze three-dimensional objects (objects) such as obstacles.

制御ユニット4は、解析ユニット3の解析結果に基づいて、表示部5を介して、車両1の運転者へ警告等を行う。また、制御ユニット4は、解析結果に基づいて、各種車載機器の制御、車両1の操舵制御、加速制御、減速制御等の走行支援を行う。 The control unit 4 gives a warning to the driver of the vehicle 1 via the display unit 5 based on the analysis result of the analysis unit 3. Further, the control unit 4 performs running support such as control of various in-vehicle devices, steering control of the vehicle 1, acceleration control, deceleration control, etc. based on the analysis result.

(立体物認識装置のハードウェア構成の説明)
次に、図2を用いて、立体物認識装置10(撮像装置10a)のハードウェア構成について説明する。図2は、立体物認識装置10のハードウェアの構成の一例を示すハードウェアブロック図である。図2に示すように、撮像ユニット2は、例えば2つの撮像部10A、10Bを備えたステレオカメラ構成となっている。すなわち、2つの撮像部10A、10Bの光軸は、略平行になるように配置されている。なお、2つの撮像部10A、10Bは同じ構成を有している。具体的には、撮像部10A、10Bは、撮像レンズ11A、11Bと、受光素子が2次元配置された、例えばCCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)センサ等で構成された画像センサ12A、12Bと、画像センサ12A、12Bを撮像駆動するコントローラ13A、13Bとを有している。
(Explanation of hardware configuration of 3D object recognition device)
Next, the hardware configuration of the three-dimensional object recognition device 10 (imaging device 10a) will be described with reference to FIG. FIG. 2 is a hardware block diagram showing an example of the hardware configuration of the three-dimensional object recognition device 10. As shown in FIG. 2, the image pickup unit 2 has, for example, a stereo camera configuration including two image pickup units 10A and 10B. That is, the optical axes of the two image pickup units 10A and 10B are arranged so as to be substantially parallel to each other. The two imaging units 10A and 10B have the same configuration. Specifically, the image pickup units 10A and 10B are images composed of image pickup lenses 11A and 11B and, for example, a CCD (Charge Coupled Device) or CMOS (Complementary Metal Oxide Semiconductor) sensor in which light receiving elements are arranged in two dimensions. It has sensors 12A and 12B and controllers 13A and 13B for driving the image sensors 12A and 12B for image pickup.

解析ユニット3は、FPGA(Field-Programmable Gate Array)14と、RAM(Random Access Memory)15およびROM(Read Only Memory)16とを有している。また、解析ユニット3は、CPU(Central Processing Unit)17と、シリアルインタフェース(シリアルIF)18と、データインタフェース(データIF)19とを有している。FPGA14からデータIF19は、解析ユニット3の内部に設けられたデータバスライン21を介して、相互に接続されている。また、撮像ユニット2と解析ユニット3とは、データバスライン21およびシリアルバスライン20を介して、相互に接続されている。 The analysis unit 3 has an FPGA (Field-Programmable Gate Array) 14, a RAM (Random Access Memory) 15, and a ROM (Read Only Memory) 16. Further, the analysis unit 3 has a CPU (Central Processing Unit) 17, a serial interface (serial IF) 18, and a data interface (data IF) 19. The data IF 19s from the FPGA 14 are connected to each other via a data bus line 21 provided inside the analysis unit 3. Further, the image pickup unit 2 and the analysis unit 3 are connected to each other via the data bus line 21 and the serial bus line 20.

RAM15には、撮像ユニット2から供給される輝度画像データに基づいて生成された視差画像等が記憶される。ROM16には、オペレーションシステムおよびオブジェクト検出プログラム等の各種プログラムが記憶されている。 The RAM 15 stores a parallax image or the like generated based on the luminance image data supplied from the image pickup unit 2. Various programs such as an operation system and an object detection program are stored in the ROM 16.

FPGA14は、各撮像部10A、10Bでそれぞれ撮像された撮影画像のうち、一方を基準画像とすると共に他方を比較画像とする。そして、FPGA14は、撮像領域の中の同一地点に対応する基準画像上の対応画像部分と比較画像上の対応画像部分との位置ズレ量を、対応画像部分の視差値Dとして算出する。 The FPGA 14 uses one of the captured images captured by the imaging units 10A and 10B as a reference image and the other as a comparative image. Then, the FPGA 14 calculates the amount of positional deviation between the corresponding image portion on the reference image corresponding to the same point in the imaging region and the corresponding image portion on the comparative image as the parallax value D of the corresponding image portion.

ここで、図3を用いて、視差値Dの算出方法について説明する。図3は、被写体30と各撮像部10A、10Bの撮像レンズ11A、11Bとの位置関係の一例を示す図である。なお、各撮像部10A、10Bは、撮像レンズ11Aの中心から撮像レンズ11Bの中心に向かう方向をX軸として、各撮像部10A、10Bの光軸方向をZ軸とする、XYZ座標系に置かれているとする。また、各撮像レンズ11A、11Bの間の間隔b、および各撮像レンズ11A、11Bの焦点距離fは、ともに固定値であるとする。このとき、被写体30上の点Pの結像位置Paの撮像レンズ11Aの中心からのずれ量をΔ1とする。また、被写体30上の点Pの結像位置Pbの撮像レンズ11Bの中心からのずれ量をΔ2とする。この場合、FPGA14は、被写体30上の点Pに対する各撮像部10A、10Bの各撮像レンズ11A、11Bを通した結像位置の差である視差値Dを、式1によって算出する。 Here, a method of calculating the parallax value D will be described with reference to FIG. FIG. 3 is a diagram showing an example of the positional relationship between the subject 30 and the image pickup lenses 11A and 11B of the image pickup units 10A and 10B. Each image pickup unit 10A and 10B is placed in an XYZ coordinate system in which the direction from the center of the image pickup lens 11A toward the center of the image pickup lens 11B is the X-axis and the optical axis direction of each image pickup unit 10A and 10B is the Z axis. It is assumed that it has been done. Further, it is assumed that the distance b between the image pickup lenses 11A and 11B and the focal length f of the image pickup lenses 11A and 11B are both fixed values. At this time, the amount of deviation of the image formation position Pa of the point P on the subject 30 from the center of the image pickup lens 11A is set to Δ1. Further, the amount of deviation of the image formation position Pb of the point P on the subject 30 from the center of the image pickup lens 11B is set to Δ2. In this case, the FPGA 14 calculates the parallax value D, which is the difference in the imaging position through the imaging lenses 11A and 11B of the imaging units 10A and 10B with respect to the point P on the subject 30, by the equation 1.

D=|Δ1-Δ2|・・・(式1) D = | Δ1-Δ2 | ... (Equation 1)

FPGA14は、撮像ユニット2から供給される輝度画像データに対して、例えばガンマ補正処理および歪み補正処理(左右の撮影画像の平行化)等のリアルタイム性が要求される処理を施す。また、FPGA14は、このようなリアルタイム性が要求される処理を施した輝度画像データを用いて、式1の演算を行うことで、視差値Dを生成してRAM15に書き込む。 The FPGA 14 performs processing that requires real-time performance, such as gamma correction processing and distortion correction processing (parallelization of left and right captured images), on the luminance image data supplied from the image pickup unit 2. Further, the FPGA 14 generates a parallax value D and writes it in the RAM 15 by performing the calculation of the equation 1 using the luminance image data that has been subjected to such processing that requires real-time performance.

CPU17は、ROM16に記憶されているオペレーションシステムに基づいて動作し、各撮像部10A、10Bの撮像制御を行う。また、CPU17は、ROM16からオブジェクト検出プログラムをロードし、RAM15に書き込まれた視差値Dを用いて各種処理を実行する。具体的には、CPU17は、オブジェクト検出プログラムに基づいて、車両1に設けられた各センサから、データIF19を介して取得した車速、加速度、操舵角、ヨーレート等のCAN(Controller Area Network)情報を参照する。そして、CPU17は、路面、ガードレール、車両、人間等の認識対象物の認識処理、視差計算、認識対象物との間の距離の計算等を行う。なお、認識対象物の視差検出精度を向上させるために、視差検出中は車両1を停止させておいてもよい。 The CPU 17 operates based on the operation system stored in the ROM 16 and controls the imaging of the imaging units 10A and 10B. Further, the CPU 17 loads the object detection program from the ROM 16 and executes various processes using the parallax value D written in the RAM 15. Specifically, the CPU 17 obtains CAN (Controller Area Network) information such as vehicle speed, acceleration, steering angle, yaw rate, etc. acquired from each sensor provided in the vehicle 1 via the data IF19 based on the object detection program. refer. Then, the CPU 17 performs recognition processing of a recognition object such as a road surface, a guardrail, a vehicle, and a human being, parallax calculation, calculation of a distance to the recognition target, and the like. In addition, in order to improve the parallax detection accuracy of the recognition object, the vehicle 1 may be stopped during the parallax detection.

ここで、視差値Dは、図3に示す各撮像レンズ11A、11Bから被写体30までの距離をZoとして、以下の式2で算出できる。 Here, the parallax value D can be calculated by the following equation 2 with the distance from each of the image pickup lenses 11A and 11B shown in FIG. 3 to the subject 30 as Zo.

D=(b×f)/Zo・・・(式2) D = (b × f) / Zoo ... (Equation 2)

式2からわかるように、各撮像レンズ11A、11Bから被写体30までの距離Zoは、視差値Dを用いて、以下の式3で算出できる。 As can be seen from Equation 2, the distance Zo from each of the imaging lenses 11A and 11B to the subject 30 can be calculated by the following equation 3 using the parallax value D.

Zo=(b×f)/D・・・(式3) Zo = (b × f) / D ... (Equation 3)

CPU17は、撮像ユニット2から供給される前記の視差値Dを用いて、被写体30との間の距離Zoを算出する。 The CPU 17 calculates the distance Zo with the subject 30 by using the parallax value D supplied from the image pickup unit 2.

(立体物認識装置の機能構成の説明)
次に、図4を用いて、立体物認識装置10の機能構成について説明する。図4は、立体物認識装置10の機能構成の一例を示す機能ブロック図である。
(Explanation of the functional configuration of the three-dimensional object recognition device)
Next, the functional configuration of the three-dimensional object recognition device 10 will be described with reference to FIG. FIG. 4 is a functional block diagram showing an example of the functional configuration of the three-dimensional object recognition device 10.

立体物認識装置10は、背景データ処理と、学習モデル生成処理と、物体検出処理とを行う。背景データ処理は、撮像ユニット2で撮像したステレオ画像から視差画像D(x,y)(不図示)を生成するとともに、生成された視差画像D(x,y)の中から路面と物体(立体物、オブジェクト)とを識別して、識別された立体物を俯瞰画像にマッピングする処理である。学習モデル生成処理は、道路環境において、路面から高さを有する先行車両、歩行者、障害物等の立体物の学習モデルを生成する処理である。物体検出処理は、背景データ処理で生成した俯瞰画像と、学習モデル生成処理で生成したオブジェクトの学習モデルとに基づいて、撮像ユニット2で撮像したステレオ画像の中から、路面から高さを有する立体物を検出する処理である。 The three-dimensional object recognition device 10 performs background data processing, learning model generation processing, and object detection processing. In the background data processing, a parallax image D (x, y) (not shown) is generated from the stereo image captured by the image pickup unit 2, and a road surface and an object (stereoscopic) are generated from the generated parallax image D (x, y). It is a process of identifying an object (object) and mapping the identified three-dimensional object to a bird's-eye view image. The learning model generation process is a process of generating a learning model of a three-dimensional object such as a preceding vehicle, a pedestrian, or an obstacle having a height from the road surface in a road environment. The object detection process is a three-dimensional object having a height from the road surface from the stereo images captured by the image pickup unit 2 based on the bird's-eye view image generated by the background data processing and the learning model of the object generated by the learning model generation process. It is a process to detect an object.

立体物認識装置10は、FPGA14と、RAM15と、ROM16とが協働することによって、前記した各処理を実行する。そして、立体物認識装置10は、前記した各処理に応じた機能構成を実現する。 The three-dimensional object recognition device 10 executes each of the above-mentioned processes by the cooperation of the FPGA 14, the RAM 15, and the ROM 16. Then, the three-dimensional object recognition device 10 realizes a functional configuration corresponding to each of the above-mentioned processes.

(背景データ処理を実現する機能構成の説明)
図4(a)に示すように、背景データ処理は、ステレオ画像取得部40と、視差画像生成部41と、路面推定部42と、俯瞰画像群生成部43とで実現される。
(Explanation of the functional configuration that realizes background data processing)
As shown in FIG. 4A, the background data processing is realized by the stereo image acquisition unit 40, the parallax image generation unit 41, the road surface estimation unit 42, and the bird's-eye view image group generation unit 43.

ステレオ画像取得部40は、画素毎に距離情報を有する距離画像を時系列で取得する。より具体的には、ステレオ画像取得部40は、撮像ユニット2で撮像したステレオ画像を取得する。なお、ステレオ画像取得部40は、取得手段の一例である。 The stereo image acquisition unit 40 acquires a distance image having distance information for each pixel in time series. More specifically, the stereo image acquisition unit 40 acquires a stereo image captured by the image pickup unit 2. The stereo image acquisition unit 40 is an example of acquisition means.

視差画像生成部41は、ステレオ画像取得部40が取得したステレオ画像から、画素毎に距離情報を備えた距離画像の一例である視差画像D(x,y)を生成する。視差画像D(x,y)は、画素毎に視差値Dを有する画像である。 The parallax image generation unit 41 generates a parallax image D (x, y), which is an example of a distance image having distance information for each pixel, from the stereo image acquired by the stereo image acquisition unit 40. The parallax image D (x, y) is an image having a parallax value D for each pixel.

すなわち、視差画像生成部41は、撮像部10Aの輝度画像データを基準画像データとし、撮像部10Bの輝度画像データを比較画像データとし、前記した式1に示す演算を行うことで、基準画像データと比較画像データの視差値Dを算出する。具体的には、視差画像生成部41は、基準画像データの所定の「行」について、一つの注目画素を中心とした複数画素(例えば16画素×1画素)からなるブロックを定義する。一方、比較画像データにおける同じ「行」において、定義した基準画像データのブロックと同じサイズのブロックを1画素ずつ横ライン方向(X方向)へずらす。そして、視差画像生成部41は、基準画像データにおいて定義したブロックの画素値(画素に格納された値、輝度値)の特徴を示す特徴量と比較画像データにおける各ブロックの画素値の特徴を示す特徴量との相関を示す相関値を、それぞれ算出する。 That is, the parallax image generation unit 41 uses the brightness image data of the imaging unit 10A as the reference image data, the brightness image data of the imaging unit 10B as the comparison image data, and performs the calculation shown in the above equation 1 to perform the reference image data. And the parallax value D of the comparison image data is calculated. Specifically, the parallax image generation unit 41 defines a block composed of a plurality of pixels (for example, 16 pixels × 1 pixel) centered on one pixel of interest for a predetermined “row” of the reference image data. On the other hand, in the same "row" in the comparative image data, a block having the same size as the defined reference image data block is shifted one pixel at a time in the horizontal line direction (X direction). Then, the parallax image generation unit 41 shows the feature amount showing the feature of the pixel value (value stored in the pixel, the brightness value) of the block defined in the reference image data and the feature of the pixel value of each block in the comparison image data. Correlation values indicating the correlation with the feature amount are calculated respectively.

また、視差画像生成部41は、算出した相関値に基づき、比較画像データにおける各ブロックの中で最も基準画像データのブロックと相関があった比較画像データのブロックを選定するマッチング処理を行う。その後、基準画像データのブロックの注目画素と、マッチング処理で選定された比較画像データのブロックの対応画素との位置ズレ量を視差値Dとして算出する。このような視差値Dを算出する処理を基準画像データの全域、または特定の一領域について行うことで、視差画像D(x,y)を得る。 Further, the parallax image generation unit 41 performs a matching process of selecting the block of the comparative image data that has the most correlation with the block of the reference image data among the blocks in the comparative image data based on the calculated correlation value. After that, the amount of positional deviation between the pixel of interest of the block of the reference image data and the corresponding pixel of the block of the comparative image data selected by the matching process is calculated as the parallax value D. A parallax image D (x, y) is obtained by performing such a process of calculating the parallax value D for the entire area of the reference image data or a specific area.

マッチング処理に用いるブロックの特徴量としては、例えばブロックの中の各画素の値(輝度値)を用いることができる。また、相関値としては、例えば基準画像データのブロックの中の各画素の値(輝度値)と、これらの画素にそれぞれ対応する比較画像データのブロックの中の各画素の値(輝度値)との差分の絶対値の総和を用いることができる。この場合、総和が最も小さくなるブロックが、最も相関があるブロックとして検出される。 As the feature amount of the block used for the matching process, for example, the value (luminance value) of each pixel in the block can be used. The correlation values include, for example, the value of each pixel in the block of reference image data (brightness value) and the value of each pixel in the block of comparative image data corresponding to these pixels (brightness value). The sum of the absolute values of the differences can be used. In this case, the block with the smallest sum is detected as the most correlated block.

視差画像生成部41が行うマッチング処理としては、例えば、SSD(Sum of Squared Difference)、ZSSD(Zero-mean Sum of Squared Difference)、SAD(Sum of Absolute Difference)、またはZSAD(Zero-mean Sum of Absolute Difference)等の手法がよく知られている。なお、マッチング処理において、1画素未満のサブピクセルレベルの視差値Dが必要な場合は、推定値を用いる。推定値の推定手法としては、例えば等角直線方式、または二次曲線方式等を用いることができる。ただし、推定したサブピクセルレベルの視差値Dには誤差が発生する。このため、推定誤差を減少させるEEC(推定誤差補正)等の手法を用いてもよい。 The matching process performed by the parallax image generation unit 41 includes, for example, SSD (Sum of Squared Difference), ZSD (Zero-mean Sum of Squared Difference), SAD (Sum of Absolute Difference), or ZSAD (Zero-mean Sum of Absolute). Methods such as Difference) are well known. When the parallax value D at the sub-pixel level of less than one pixel is required in the matching process, the estimated value is used. As a method for estimating the estimated value, for example, an equiangular straight line method, a quadratic curve method, or the like can be used. However, an error occurs in the estimated parallax value D at the subpixel level. Therefore, a method such as EEC (estimation error correction) that reduces the estimation error may be used.

なお、本実施の形態においては、視差値Dと距離値が等価に扱えることから、距離画像の一例として視差画像D(x,y)を示すが、距離画像の形態はこれに限られない。例えば、ミリ波レーダやレーザレーダから得られる距離情報と、ステレオカメラで生成される視差値Dとを融合させて距離画像を生成しても良い。 In the present embodiment, since the parallax value D and the distance value can be treated equivalently, the parallax image D (x, y) is shown as an example of the distance image, but the form of the distance image is not limited to this. For example, a distance image may be generated by fusing the distance information obtained from the millimeter wave radar or the laser radar with the parallax value D generated by the stereo camera.

路面推定部42は、取得手段が取得した視差画像D(x,y)(距離画像)から、横軸を視差値D、縦軸をy座標値として、画素値を頻度とする2次元ヒストグラムを作成する。以下、この2次元ヒストグラムを「V-Disparityマップ(Vマップ)」と呼ぶ。そして、路面推定部42は、2次元ヒストグラムの中から立体物を識別する。なお、路面推定部42は、識別手段および路面検出手段の一例である。 From the parallax image D (x, y) (distance image) acquired by the acquisition means, the road surface estimation unit 42 obtains a two-dimensional histogram in which the horizontal axis is the parallax value D and the vertical axis is the y coordinate value and the pixel value is the frequency. create. Hereinafter, this two-dimensional histogram is referred to as a "V-Disparity map (V map)". Then, the road surface estimation unit 42 identifies a three-dimensional object from the two-dimensional histogram. The road surface estimation unit 42 is an example of the identification means and the road surface detecting means.

具体的には、路面推定部42は、例えば、撮像ユニット2が撮像した撮影画像P1(x,y)が、図5(a)に示すように、画面の奥に向かって延びる平坦な路面60上を走行する車両61の左側に電柱62が存在する景色である場合に、以下の処理を行う。すなわち、撮影画像P1(x,y)の中の、視差値Dおよびy座標値を有する画素(D,y)について、対応するVマップV(D,y)の画素(D,y)に、画素値を一つカウントアップした度数(頻度)を付与する。そして、路面推定部42は、横軸を視差値D、縦軸をy座標値、画素値を頻度とした2次元ヒストグラム上の各画素(D,y)に投票を行うことで、図5(b)に示すVマップV(D,y)を作成する。 Specifically, in the road surface estimation unit 42, for example, the captured image P1 (x, y) captured by the image pickup unit 2 extends toward the back of the screen as shown in FIG. 5A, and the flat road surface 60 When the electric pole 62 is present on the left side of the vehicle 61 traveling above, the following processing is performed. That is, for the pixels (D, y) having the parallax value D and the y coordinate value in the captured image P1 (x, y), the pixels (D, y) of the corresponding V map V (D, y) are displayed. A frequency (frequency) that counts up one pixel value is given. Then, the road surface estimation unit 42 votes for each pixel (D, y) on the two-dimensional histogram in which the horizontal axis is the parallax value D, the vertical axis is the y coordinate value, and the pixel value is the frequency, so that FIG. 5 ( The V map V (D, y) shown in b) is created.

作成されたVマップV(D,y)には、図5(b)に示すように、右下がりの直線として路面60を表す領域が投票される。そして、路面60を表す領域の上方に、車両61および電柱62を表す領域が投票される。路面推定部42は、このVマップV(D,y)における右下がりの直線状の画素群を特定することによって、路面60に相当する画素群を特定する。すなわち、図5(b)に示すVマップV(D,y)においては、路面60より下の部分の視差値Dは検出されない。このため、図5(b)に斜線で示す領域Aに相当する視差値Dはカウントされることはない。このように、路面推定部42は、ステレオ画像取得部40が取得した時系列のVマップV(D,y)の中から路面60を検出するとともに、路面60と路面60から高さを有する立体物とを識別する。 In the created V map V (D, y), as shown in FIG. 5B, a region representing the road surface 60 is voted as a straight line descending to the right. Then, above the area representing the road surface 60, the area representing the vehicle 61 and the utility pole 62 is voted. The road surface estimation unit 42 specifies a pixel group corresponding to the road surface 60 by specifying a linear pixel group that descends to the right in the V map V (D, y). That is, in the V map V (D, y) shown in FIG. 5B, the parallax value D in the portion below the road surface 60 is not detected. Therefore, the parallax value D corresponding to the region A shown by the diagonal line in FIG. 5B is not counted. In this way, the road surface estimation unit 42 detects the road surface 60 from the time-series V-map V (D, y) acquired by the stereo image acquisition unit 40, and has a height from the road surface 60 and the road surface 60. Identify things.

もしノイズ等により路面60より下の領域(路面60より低い部分)において視差値Dが検出されれば、これらの視差値Dは、以降のオブジェクト検出において利用しないようにすればよい。なお、オブジェクトの高さを検出するためには、路面60を正確に検出することが必要となる。そのため、立体物認識装置10を搭載した車両1が停止している状態において検出される路面60に相当する仮想直線(図5(b)における右下がりの直線)を用いて、当該仮想直線から所定距離内における画素(D,y)のみをマッピングしたVマップV(D,y)(制限Vマップ)、すなわち、路面から所定の高さ範囲を有する画素(D,y)のみを路面検出に利用してもよい。 If parallax values D are detected in a region below the road surface 60 (a portion lower than the road surface 60) due to noise or the like, these parallax values D may not be used in subsequent object detection. In order to detect the height of the object, it is necessary to accurately detect the road surface 60. Therefore, a virtual straight line (a straight line descending to the right in FIG. 5B) corresponding to the road surface 60 detected when the vehicle 1 equipped with the three-dimensional object recognition device 10 is stopped is used to determine from the virtual straight line. V-map V (D, y) (restricted V-map) that maps only pixels (D, y) within a distance, that is, only pixels (D, y) having a predetermined height range from the road surface are used for road surface detection. You may.

次に、生成されたVマップV(D,y)を用いて路面形状を検出する路面推定部42の動作を説明する。路面推定部42は、各オブジェクトの高さの基準とする基準オブジェクトの一例である路面60を検出する。路面推定部42は、VマップV(D,y)上で路面60と推定される位置を直線近似する。路面60が平坦な場合は、一本の直線で近似する。また、途中で勾配が変わる路面60の場合、VマップV(D,y)上を複数の区間に分割して直線近似を行う。これにより、途中で勾配が変わる路面60の場合でも、精度よく直線近似を行うことができる。 Next, the operation of the road surface estimation unit 42 that detects the road surface shape using the generated V-map V (D, y) will be described. The road surface estimation unit 42 detects the road surface 60, which is an example of a reference object that is used as a reference for the height of each object. The road surface estimation unit 42 linearly approximates the position estimated to be the road surface 60 on the V map V (D, y). When the road surface 60 is flat, it is approximated by a single straight line. Further, in the case of the road surface 60 whose slope changes on the way, the V map V (D, y) is divided into a plurality of sections and linear approximation is performed. As a result, even in the case of the road surface 60 whose slope changes on the way, it is possible to perform linear approximation with high accuracy.

具体的に説明すると、路面推定部42は、まず、VマップV(D,y)を用いて路面候補点を検出する。路面候補点の検出は、横軸を二つに分割し、それぞれの領域で候補点の検出方法を変える。具体的には、路面推定部42は、視差値Dの大きい近距離の領域においては、第1の候補点検出方法で路面候補点の検出を行う。また、路面推定部42は、視差値Dの小さい遠距離の領域においては、第2の候補点検出方法で路面候補点の検出を行う。 Specifically, the road surface estimation unit 42 first detects a road surface candidate point using the V map V (D, y). For the detection of road surface candidate points, the horizontal axis is divided into two, and the detection method of the candidate points is changed in each area. Specifically, the road surface estimation unit 42 detects road surface candidate points by the first candidate point detection method in a short-distance region where the parallax value D is large. Further, the road surface estimation unit 42 detects the road surface candidate point by the second candidate point detection method in a long-distance region where the parallax value D is small.

ここで、上記のように視差値Dの大きい近距離の領域と視差値Dの小さい遠距離の領域とで路面候補点の検出方法を変更する理由は、以下の通りである。すなわち、例えば、図5(a)に示す撮影画像P1(x,y)のように、近距離では路面60の面積が大きく、路面上の視差データがVマップV(D,y)に投票される頻度が大きいのに対し、遠距離では路面60の面積が小さくなり、路面60を表す座標の頻度が相対的に小さくなる。つまり、VマップV(D,y)で路面60として予測される点の頻度値は、遠距離では小さく、近距離では大きい。このため、同じ基準で路面候補点を検出すると、近距離では路面60の候補点は検出できるが、遠距離の路面候補点は検出困難となり、遠距離の路面検出精度が低下する。 Here, the reason for changing the detection method of the road surface candidate point between the short-distance region where the parallax value D is large and the long-distance region where the parallax value D is small as described above is as follows. That is, for example, as in the captured image P1 (x, y) shown in FIG. 5A, the area of the road surface 60 is large at a short distance, and the parallax data on the road surface is voted on the V map V (D, y). On the other hand, the area of the road surface 60 becomes small at a long distance, and the frequency of the coordinates representing the road surface 60 becomes relatively small. That is, the frequency value of the points predicted as the road surface 60 on the V map V (D, y) is small at a long distance and large at a short distance. Therefore, if the road surface candidate points are detected with the same criteria, the candidate points of the road surface 60 can be detected at a short distance, but the road surface candidate points at a long distance become difficult to detect, and the road surface detection accuracy at a long distance decreases.

このような欠点を解消するために、VマップV(D,y)を視差値Dの大きい領域と視差値Dの小さい領域とに分け、各領域で、路面候補点の検出の方法および基準を変更してもよい。これにより、近距離および遠距離の双方の路面検出精度を向上させることができる。 In order to eliminate such a defect, the V map V (D, y) is divided into a region having a large parallax value D and a region having a small parallax value D, and a method and a standard for detecting road surface candidate points are defined in each region. You may change it. This makes it possible to improve the road surface detection accuracy of both short-distance and long-distance.

俯瞰画像群生成部43は、マッピング手段の一例であって、ステレオ画像取得部40が取得した時系列の距離画像の中から、路面推定部42が立体物として識別した領域を、ステレオ画像取得部40の設置位置とは異なる位置、例えば路面を真上から見下ろした時系列の俯瞰マップJ2(x,D)にマッピングする。より具体的には、俯瞰画像群生成部43は、横軸に実距離x、縦軸に視差値Dをとり、画素値として頻度dをプロットした俯瞰画像、すなわち2次元ヒストグラムを生成する。なお、2次元ヒストグラムの横軸は実距離xに限定されるものではなく、実際の画素の位置としてもよい。 The bird's-eye view image group generation unit 43 is an example of mapping means, and is a stereo image acquisition unit for a region identified by the road surface estimation unit 42 as a stereoscopic object from the time-series distance images acquired by the stereo image acquisition unit 40. Map to a position different from the installation position of 40, for example, a time-series bird's-eye view map J2 (x, D) looking down on the road surface from directly above. More specifically, the bird's-eye view image group generation unit 43 generates a bird's-eye view image, that is, a two-dimensional histogram in which the actual distance x is taken on the horizontal axis and the parallax value D is taken on the vertical axis, and the frequency d is plotted as the pixel value. The horizontal axis of the two-dimensional histogram is not limited to the actual distance x, and may be the actual pixel position.

俯瞰画像群生成部43は、VマップV(D,y)に投票された点のうち、路面60からの高さが所定の範囲、例えば20cmから3mの範囲にあることを示す画素(D,y)のみを選択する。そして、俯瞰画像群生成部43は、選択された画素(D,y)を俯瞰画像にマッピングする。なお、俯瞰画像群生成部43が生成した俯瞰画像は、後述する学習モデル生成部44と、非定常領域検出部45および孤立領域検出部46に対する入力データとする。 The bird's-eye view image group generation unit 43 is a pixel (D,) indicating that the height from the road surface 60 is in a predetermined range, for example, in the range of 20 cm to 3 m, among the points voted for by the V map V (D, y). Select only y). Then, the bird's-eye view image group generation unit 43 maps the selected pixels (D, y) to the bird's-eye view image. The bird's-eye view image generated by the bird's-eye view image group generation unit 43 is input data to the learning model generation unit 44, which will be described later, the unsteady region detection unit 45, and the isolated region detection unit 46.

俯瞰画像群生成部43は、俯瞰画像と高さの俯瞰画像を同時に作成する。これは、横軸に実距離x、縦軸に視差値Dをとり、画素値にその画素(x,D)に投票された視差値Dの最大高さ(検出した路面60からのy方向の差分最大値)を記録したマップを作成することに相当する。画素(x,D)の分解能を、俯瞰画像と同じにすることによって、俯瞰画像の生成処理を簡便に行うことができる。作成された俯瞰画像は、後述する対応領域検出部47の入力データとする。なお、学習モデル生成時に、ノイズ等の影響を受けにくくするために、俯瞰画像生成時に平滑化等の処理を行ってもよい。 The bird's-eye view image group generation unit 43 simultaneously creates a bird's-eye view image and a bird's-eye view image of height. This has the actual distance x on the horizontal axis and the parallax value D on the vertical axis, and the maximum height of the parallax value D voted for the pixel (x, D) as the pixel value (in the y direction from the detected road surface 60). It is equivalent to creating a map that records the maximum difference). By making the resolution of the pixels (x, D) the same as the bird's-eye view image, the bird's-eye view image generation process can be easily performed. The created bird's-eye view image is used as input data of the corresponding area detection unit 47, which will be described later. In addition, in order to make it less susceptible to noise or the like when generating a learning model, processing such as smoothing may be performed when generating a bird's-eye view image.

次に、図6を用いて、俯瞰画像群生成部43の作用を具体的に説明する。図6(a)は、撮像ユニット2で撮像された撮影画像P2(x,y)の一例を示す図である。図6(b)は、図6(a)の撮影画像P2(x,y)に対応する俯瞰画像J2(x,D)の一例を示す図である。なお、俯瞰画像J2(x,D)は、俯瞰マップの一例である。 Next, the operation of the bird's-eye view image group generation unit 43 will be specifically described with reference to FIG. FIG. 6A is a diagram showing an example of a photographed image P2 (x, y) captured by the image pickup unit 2. FIG. 6B is a diagram showing an example of a bird's-eye view image J2 (x, D) corresponding to the captured image P2 (x, y) of FIG. 6A. The bird's-eye view image J2 (x, D) is an example of a bird's-eye view map.

図6(a)の撮影画像P2(x,y)は、左右に壁状のガードレール70a、70bが設けられた路面60に、3人の歩行者、すなわち、歩行者80a、80b、80cが立っている状態を示している。 In the captured image P2 (x, y) of FIG. 6A, three pedestrians, that is, pedestrians 80a, 80b, 80c stand on the road surface 60 provided with wall-shaped guardrails 70a, 70b on the left and right. It shows the state of being.

俯瞰画像群生成部43が、撮影画像P2(x,y)から俯瞰画像J2(x,D)を生成する。俯瞰画像J2(x,D)の横軸は、実距離xとなっている。なお、俯瞰画像J2(x,D)の縦軸Dは、例えば、距離に応じた間引き率を用いて間引き処理した視差値Dとしてもよい。例えば、50m以上の遠距離の場合、俯瞰画像群生成部43は、間引き処理しない視差値Dを用いてもよい。また、例えば、20~50m等の中距離の場合、俯瞰画像群生成部43は、1/2に間引き処理した視差値Dを用いてもよい。また、例えば10~20m等の近距離の場合、俯瞰画像群生成部43は、1/3に間引き処理した視差値Dを用いてもよい。また、例えば0~10m等の最近距離の場合、俯瞰画像群生成部43は、1/8に間引き処理した視差値Dを用いてもよい。 The bird's-eye view image group generation unit 43 generates a bird's-eye view image J2 (x, D) from the captured image P2 (x, y). The horizontal axis of the bird's-eye view image J2 (x, D) is the actual distance x. The vertical axis D of the bird's-eye view image J2 (x, D) may be, for example, a parallax value D that has been thinned out using a thinning rate according to the distance. For example, in the case of a long distance of 50 m or more, the bird's-eye view image group generation unit 43 may use the parallax value D that is not thinned out. Further, for example, in the case of a medium distance such as 20 to 50 m, the bird's-eye view image group generation unit 43 may use the parallax value D thinned to 1/2. Further, in the case of a short distance such as 10 to 20 m, the bird's-eye view image group generation unit 43 may use the parallax value D that has been thinned out to 1/3. Further, in the case of a recent distance such as 0 to 10 m, the bird's-eye view image group generation unit 43 may use the parallax value D that has been thinned out to 1/8.

遠方では、認識すべき立体物が小さいため、視差情報が少ない。また、距離の分解能も大きいため、間引き処理は行わない。これに対して、近距離の場合は、立体物が大きく写るため、視差情報が多く距離の分解能も小さい。このため、大きな間引き処理を行うことが可能となる。図6(b)の俯瞰画像J2(x,D)からわかるように、ガードレール70a、70bは、道路に沿って縦方向(奥行方向)に延びる直線状に表される。また、歩行者80a、80b、80cは、実際の存在位置に応じた位置に射影される。 At a distance, the parallax information is small because the three-dimensional object to be recognized is small. Moreover, since the resolution of the distance is large, the thinning process is not performed. On the other hand, in the case of a short distance, since a three-dimensional object is captured in a large size, the parallax information is large and the resolution of the distance is small. Therefore, it is possible to perform a large thinning process. As can be seen from the bird's-eye view image J2 (x, D) of FIG. 6B, the guardrails 70a and 70b are represented by a straight line extending in the vertical direction (depth direction) along the road. Further, the pedestrians 80a, 80b, and 80c are projected at positions corresponding to the actual existing positions.

俯瞰画像群生成部43は、前記した俯瞰画像J2(x,D)の生成処理を、所定の時間間隔t0で周期的に実行する。これにより、俯瞰画像J2(x,D,t)、J2(x,D,t+t0)、J2(x,D,t+2t0)、…が生成される。なお、俯瞰画像J2(x,D,t)は、時刻tにおいて生成された俯瞰画像J2(x,D)を表す。以下、簡単のため、俯瞰画像J2(x,D,t)を、単にJ2(x,D)と表記する。生成された一連の俯瞰画像群51は、例えばRAM15、または図2に不図示のHDD(Hard Disk Drive)等の記憶装置に記憶される。この俯瞰画像群51は、後述する学習モデル生成処理で用いられる。 The bird's-eye view image group generation unit 43 periodically executes the above-mentioned bird's-eye view image J2 (x, D) generation process at a predetermined time interval t0. As a result, bird's-eye view images J2 (x, D, t), J2 (x, D, t + t0), J2 (x, D, t + 2t0), ... Are generated. The bird's-eye view image J2 (x, D, t) represents the bird's-eye view image J2 (x, D) generated at time t. Hereinafter, for the sake of simplicity, the bird's-eye view image J2 (x, D, t) is simply referred to as J2 (x, D). The generated series of bird's-eye view images 51 is stored in, for example, a RAM 15 or a storage device such as an HDD (Hard Disk Drive) (not shown in FIG. 2). This bird's-eye view image group 51 is used in the learning model generation process described later.

(学習モデル生成処理を実現する機能構成の説明)
再び図4に戻って、立体物認識装置10の機能構成の説明を続ける。図4(b)に示すように、立体物認識装置10が行う学習モデル生成処理は、学習モデル生成部44で実現される。すなわち、学習モデル生成部44は、路面推定部42によって、立体物として識別された領域について、当該立体物の学習モデル52を作成する。なお、学習モデル生成部44は、モデル作成手段の一例である。
(Explanation of the functional configuration that realizes the learning model generation process)
Returning to FIG. 4, the description of the functional configuration of the three-dimensional object recognition device 10 will be continued. As shown in FIG. 4B, the learning model generation process performed by the three-dimensional object recognition device 10 is realized by the learning model generation unit 44. That is, the learning model generation unit 44 creates the learning model 52 of the three-dimensional object for the region identified as the three-dimensional object by the road surface estimation unit 42. The learning model generation unit 44 is an example of a model creation means.

次に、学習モデル生成部44の機能構成について、図7を用いて説明する。図7は、学習モデル生成部44の詳細構成を示す機能ブロック図である。 Next, the functional configuration of the learning model generation unit 44 will be described with reference to FIG. 7. FIG. 7 is a functional block diagram showing a detailed configuration of the learning model generation unit 44.

図7に示すように、学習モデル生成部44は、撮影画像取得部90と、生成手段の一例である生成部91と、学習部92と、非定常領域検出手段の一例である算出部93と、判別手段の一例である判別部94とを備える。 As shown in FIG. 7, the learning model generation unit 44 includes a captured image acquisition unit 90, a generation unit 91 which is an example of generation means, a learning unit 92, and a calculation unit 93 which is an example of unsteady region detection means. The discriminator unit 94, which is an example of the discriminating means, is provided.

学習モデル生成処理は、立体物認識装置10が検出する立体物(オブジェクト)、具体的には路面60上に存在する、路面60から高さを有して、時刻とともにその位置が変化する先行車両、歩行者、障害物等のいわゆる非定常領域を、予め学習させる処理である。なお、学習モデル生成処理は、後述する物体検出処理とは独立して実行してもよいし(オフライン処理)、物体検出処理を実行しながら学習モデル生成処理を実行してもよい(オンライン処理)。すなわち、オブジェクトの学習を事前に行ってもよいし、オブジェクトの検出を行いながらオブジェクトの学習を行ってもよい。なお、オンライン処理によって学習モデル52を生成する場合には、立体物認識装置10は、学習モデル生成部44をモデル生成装置44aとして、学習モデル生成処理を、物体検出処理と同時に動作させる。 In the learning model generation process, a three-dimensional object (object) detected by the three-dimensional object recognition device 10, specifically, a preceding vehicle having a height from the road surface 60 existing on the road surface 60 and whose position changes with time. This is a process for learning in advance so-called unsteady regions such as pedestrians and obstacles. The learning model generation process may be executed independently of the object detection process described later (offline processing), or the learning model generation process may be executed while executing the object detection process (online process). .. That is, the object may be learned in advance, or the object may be learned while the object is detected. When the learning model 52 is generated by online processing, the three-dimensional object recognition device 10 uses the learning model generation unit 44 as the model generation device 44a to operate the learning model generation process at the same time as the object detection process.

撮影画像取得部90は、撮像ユニット2から撮影画像P1(x,y)(図5(a)参照)を取得する。生成部91は、1枚の撮影画像P1(x,y)に対して、複数の異なる空間フィルタFi(i=1,2,…)を作用させて、図示しない複数のフィルタ画像Fi(x,y)を生成する。本実施の形態では、空間フィルタFiを作用させることによって、撮影画像P1(x,y)の中の、各空間フィルタFiに対応する方向を有するエッジ強度を表す複数のフィルタ画像Fi(x,y)を生成する。作用させる空間フィルタFiの数は、例えば12とするが、これに限るものではない。12個の空間フィルタFi(i=1~12)を用いる場合は、例えば、3つのスケール×4つのエッジ方向(0度方向、45度方向、90度方向、135度方向)等とする。フィルタ係数としては、例えば、以下の式4~式7で表される4つの係数の組を使用する。なお、式4~式7に示す空間フィルタFi(i=1~4)の各係数は、代表的なエッジ検出フィルタであるPrewittフィルタを構成しているが、他の形式のフィルタであってもよい。 The captured image acquisition unit 90 acquires the captured image P1 (x, y) (see FIG. 5A) from the image pickup unit 2. The generation unit 91 causes a plurality of different spatial filters Fi (i = 1, 2, ...) To act on one captured image P1 (x, y), and a plurality of filter images Fi (x,) (not shown). y) is generated. In the present embodiment, by acting the spatial filter Fi, a plurality of filter images Fi (x, y) representing the edge strength having a direction corresponding to each spatial filter Fi in the captured image P1 (x, y). ) Is generated. The number of spatial filters Fi to act on is, for example, 12, but is not limited to this. When 12 spatial filters Fi (i = 1 to 12) are used, for example, 3 scales × 4 edge directions (0 degree direction, 45 degree direction, 90 degree direction, 135 degree direction) and the like. As the filter coefficient, for example, a set of four coefficients represented by the following equations 4 to 7 is used. Each coefficient of the spatial filter Fi (i = 1 to 4) shown in the equations 4 to 7 constitutes a Prewitt filter which is a typical edge detection filter, but other types of filters may be used. good.

Figure 0007091686000001
Figure 0007091686000001
Figure 0007091686000002
Figure 0007091686000002
Figure 0007091686000003
Figure 0007091686000003
Figure 0007091686000004
Figure 0007091686000004

また、スケールとしては、等倍のものに加えて、例えば、撮影画像P1(x,y)を1/4倍、1/8倍に縮小したものを用いる。そして、各スケールの画像に対して前記した空間フィルタFiを作用させて、空間フィルタFiを作用させた結果を等倍に戻すことで、合計12個のフィルタ画像Fi(x,y)が得られる。また、本実施の形態では、前記の空間フィルタFiを作用させない状態の撮影画像P1(x,y)(例外的に、フィルタ画像Fi(x,y)の一態様と考えてもよい)も加えて、合計13個のフィルタ画像Fi(x,y)を用いて学習モデル52の生成を行う。 Further, as the scale, in addition to the one having the same magnification, for example, the one obtained by reducing the captured image P1 (x, y) to 1/4 times or 1/8 times is used. Then, by applying the above-mentioned spatial filter Fi to the image of each scale and returning the result of applying the spatial filter Fi to the same magnification, a total of 12 filter images Fi (x, y) can be obtained. .. Further, in the present embodiment, the captured image P1 (x, y) in a state where the spatial filter Fi is not acted upon (exceptionally, it may be considered as one aspect of the filter image Fi (x, y)) is added. Then, the learning model 52 is generated using a total of 13 filter images Fi (x, y).

学習部92は、予め用意された、オブジェクトの複数の画像を元に、当該オブジェクトを学習する。より具体的には、学習部92は、空間フィルタFi毎に、対象形状を表現するパラメータを有する1以上の学習モデル52を含むモデル群を学習する。すなわち、本実施の形態では、学習部92は、13個のフィルタ画像Fi(x,y)と1対1に対応する13個のモデル群を学習することになる。そして、本実施の形態では、パラメータとして、複数の撮影画像P1(x,y)の各画素値の平均(画素平均値)μ(x,y)と分散(画素分散値)σ(x,y)とを採用する。ただし、パラメータの種類は、これに限られるものではない。 The learning unit 92 learns the object based on a plurality of images of the object prepared in advance. More specifically, the learning unit 92 learns a model group including one or more learning models 52 having parameters expressing the target shape for each spatial filter Fi. That is, in the present embodiment, the learning unit 92 learns 13 filter images Fi (x, y) and 13 model groups corresponding to one-to-one. Then, in the present embodiment, as parameters, the average (pixel average value) μ (x, y) of each pixel value of the plurality of captured images P1 (x, y) and the dispersion (pixel dispersion value) σ 2 (x, y) and are adopted. However, the types of parameters are not limited to this.

以下、学習部92が行うオブジェクトの学習方法について説明する。ここでは、任意の一の空間フィルタFiに対して、複数(K個)のモデルを含むモデル群である学習モデル52を学習する場合を例に挙げて説明する。モデルとしては、撮影画像P1(x,y)の画素値が正規分布を持つと仮定して、そのようなモデルが複数(K個)存在することを前提とする。そして、撮影画像P1(x,y)は、複数の学習モデル52のうちの何れかから生成された画像であるとする。ここで、学習モデル52のいずれから生成された画像が観測されたものかは不明であり、隠れ変数となっている。オブジェクトの学習(学習モデル52の推定)が完了すると、モデル毎の画素平均値μ(x,y)と画素分散値σ(x,y)とが得られる。 Hereinafter, an object learning method performed by the learning unit 92 will be described. Here, a case where a learning model 52, which is a model group including a plurality of (K) models, is trained for any one spatial filter Fi will be described as an example. As a model, it is assumed that the pixel values of the captured image P1 (x, y) have a normal distribution, and it is assumed that there are a plurality of (K) such models. Then, it is assumed that the captured image P1 (x, y) is an image generated from any one of the plurality of learning models 52. Here, it is unknown from which of the learning model 52 the image generated is observed, and it is a hidden variable. When the learning of the object (estimation of the learning model 52) is completed, the pixel mean value μ (x, y) and the pixel dispersion value σ 2 (x, y) for each model are obtained.

隠れ変数とパラメータとは同時に決めることができないため、ここでは、隠れ変数を持つ場合のパラメータの推定に有効なEMアルゴリズムを用いて学習を行う。以下、EMアルゴリズムのEステップとMステップについて説明する。 Since hidden variables and parameters cannot be determined at the same time, learning is performed here using an EM algorithm that is effective for estimating parameters when there are hidden variables. Hereinafter, the E step and the M step of the EM algorithm will be described.

オブジェクトの学習は、まずEステップからスタートする。学習部92は、入力画像(前記した一の空間フィルタFiに対応するn枚の画像(オブジェクトを含むフィルタ画像Fi(x,y)))の各画素(x,y)について、K個のモデル毎のZスコアZnk(x,y)を算出する。ここで、入力画像であるn番目のフィルタ画像Fi(x,y)を、入力画像I(x,y)とすると、入力画像I(x,y)の画素(x,y)のk番目のモデルであるモデルk(k=1,…,K)に対するZスコアZnk(x,y)は、以下の式8で表される。

Figure 0007091686000005
Object learning starts from the E step. The learning unit 92 has K models for each pixel (x, y) of the input image (n images corresponding to the above-mentioned one spatial filter Fi (filter image Fi (x, y) including an object)). The Z score Z nk (x, y) for each is calculated. Here, assuming that the nth filter image Fi (x, y) which is the input image is the input image In (x, y), k of the pixel (x, y) of the input image In (x, y). The Z score Z nk (x, y) for the second model, the model k (k = 1, ..., K), is expressed by the following equation 8.
Figure 0007091686000005

式8において、μ(x,y)およびσ (x,y)は、モデルkの画素(x,y)のパラメータである。より具体的には、μ(x,y)は、モデルkの画素(x,y)の画素平均値、σ (x,y)は、モデルkの画素(x,y)の画素分散値である。なお、このZスコアZnk(x,y)は、ある値が分布の中でどのあたりに位置するかを、平均値0、標準偏差1の標準正規分布に置き換えて表した値である。なお、本実施の形態では、特徴量としてZスコアZnk(x,y)を用いるが、確率モデル的に画素値を用いて計算することができれば、特徴量はZスコアZnk(x,y)に限定されない。 In Equation 8, μ k (x, y) and σ 2 k (x, y) are parameters of the pixels (x, y) of the model k. More specifically, μ k (x, y) is the pixel mean value of the pixel (x, y) of the model k, and σ 2 k (x, y) is the pixel of the pixel (x, y) of the model k. It is a distributed value. The Z score Z nk (x, y) is a value represented by replacing the position of a certain value in the distribution with a standard normal distribution having a mean value of 0 and a standard deviation of 1. In the present embodiment, the Z score Z nk (x, y) is used as the feature amount, but if the calculation can be performed using the pixel value as a probabilistic model, the feature amount is the Z score Z nk (x, y). ) Is not limited.

次に、学習部92は、n番目の入力画像I(x,y)がモデルkに当てはまる確率enkを求める。確率enkは、以下の式9で表すことができる。式9において、記号Πは、総乗を示す記号である。本実施の形態では、学習部92は、ZスコアZnk(x,y)を平均0、分散1の標準正規分布の式に代入して、確率密度を画素(x,y)毎に求め、画素(x,y)毎または領域毎の確率密度の積を計算して同時確率を求める。なお、式9におけるX、Yは、それぞれ入力画像I(x,y)の横方向および縦方向の画素数である。ここでは、画素(x,y)毎ではなく入力画像I(x,y)全体に亘る画素値の分布から確率enkを求めている。このようにすることで、入力画像I(x,y)全体を見ながら、どの学習モデル52に該当するかを示す確率enkを適切に求めることができる。

Figure 0007091686000006
Next, the learning unit 92 obtains the probability enk that the nth input image In (x, y) fits into the model k. The probability enk can be expressed by the following equation 9. In equation 9, the symbol Π is a symbol indicating an infinite product. In the present embodiment, the learning unit 92 substitutes the Z score Z nk (x, y) into the formula of the standard normal distribution having an average of 0 and a variance of 1, and obtains the probability density for each pixel (x, y). The product of the probability densities for each pixel (x, y) or each region is calculated to obtain the simultaneous probability. Note that X and Y in Equation 9 are the number of pixels in the horizontal and vertical directions of the input image In (x, y), respectively. Here, the probability enk is obtained from the distribution of the pixel values over the entire input image In (x, y ), not for each pixel (x, y). By doing so, it is possible to appropriately obtain the probability enk indicating which learning model 52 corresponds to while looking at the entire input image In (x, y).
Figure 0007091686000006

次に、学習部92は、確率enkを使用して、入力画像I(x,y)が、それぞれどの学習モデル52から生成されたものかの期待値に相当する負担率γnkを求める。負担率γnkは、以下の式10により求めることができる。式10におけるNは、入力画像I(x,y)の総数、Kはモデル数を表す。以上がEステップの内容である。

Figure 0007091686000007
Next, the learning unit 92 uses the probability en nk to obtain the burden factor γ nk corresponding to the expected value of which learning model 52 each of the input images In (x, y) is generated from. .. The burden rate γ nk can be obtained by the following equation 10. In Equation 10, N represents the total number of input images In (x, y), and K represents the number of models. The above is the contents of the E step.
Figure 0007091686000007

Eステップ完了後、学習部92は、Mステップで各モデルkのパラメータを推定する。より具体的には、学習部92は、負担率γnkで重みを付けたモデルkの各画素(x,y)の画素平均値μ(x,y)を求める。本実施の形態の例では、画素平均値μ(x,y)は、以下の式11により求めることができる。

Figure 0007091686000008
After the completion of the E step, the learning unit 92 estimates the parameters of each model k in the M step. More specifically, the learning unit 92 obtains the pixel mean value μ k (x, y) of each pixel (x, y) of the model k weighted by the burden factor γ nk . In the example of this embodiment, the pixel mean value μ k (x, y) can be obtained by the following equation 11.
Figure 0007091686000008

また、学習部92は、負担率γnkで重みを付けたモデルkの各画素(x,y)の画素分散値σ (x,y)を求める。本実施の形態の例では、画素分散値σ (x,y)は、以下の式12により求めることができる。

Figure 0007091686000009
Further, the learning unit 92 obtains the pixel dispersion value σ 2 k (x, y) of each pixel (x, y) of the model k weighted by the burden factor γ nk . In the example of this embodiment, the pixel dispersion value σ 2 k (x, y) can be obtained by the following equation 12.
Figure 0007091686000009

なお、式11、式12におけるNは、以下の式13により求める。

Figure 0007091686000010
Nk in the formulas 11 and 12 is obtained by the following formula 13.
Figure 0007091686000010

Mステップが完了した後、学習部92は、前回からのパラメータの変動がしきい値以下になるまで(収束条件を満たすまで)、Eステップに戻って処理を繰り返す。Eステップの処理とMステップの処理とを繰り返すことにより、隠れ変数がある状態でモデルのパラメータを推定することができる。なお、初期値は一例として、μ(x,y)は乱数、σ (x,y)は1であってもよいし、立体物認識装置10の操作者が入力画像I(x,y)を見ながら、種類を分類できるように、入力画像I(x,y)をどちらのモデルに判別すべきかが明確な場合には、モデルの初期値として、その入力画像I(x,y)の画素値をμ(x,y)としてもよい。このようにして、学習部92は、モデルk(k=1,…,K)のパラメータ(μ(x,y)、σ (x,y))を学習する。 After the M step is completed, the learning unit 92 returns to the E step and repeats the process until the parameter fluctuation from the previous time becomes equal to or less than the threshold value (until the convergence condition is satisfied). By repeating the E-step process and the M-step process, the model parameters can be estimated with hidden variables. As an example, the initial value may be a random number for μ k (x, y) and 1 for σ 2 k (x, y), and the operator of the three-dimensional object recognition device 10 may input an image In (x ) . If it is clear which model the input image In (x, y ) should be discriminated from so that the types can be classified while looking at, y), the input image In (x, y ) is used as the initial value of the model. The pixel value of x, y) may be μ k (x, y). In this way, the learning unit 92 learns the parameters (μ k (x, y), σ 2 k (x, y)) of the model k (k = 1, ..., K).

なお、前記したEステップとMステップとを備えたアルゴリズム(EMアルゴリズム)は、統計学において、確率モデルのパラメータを最尤推定する手法の一つであり、確率モデルが観測不可能な潜在変数に依存する場合に用いられる手法である。EMアルゴリズムは、反復法の一種であり、期待値(expectation、E)ステップと最大化(maximization、M)ステップとを交互に繰り返すことで計算が進行する。Mステップでは、Eステップで求められた尤度の期待値を最大化するようなパラメータを求める。Mステップで決まったパラメータは、次のEステップで使われる潜在変数の分布を決定するために用いられる。 The algorithm (EM algorithm) including the above-mentioned E step and M step is one of the methods for maximum likelihood estimation of the parameters of the probability model in statistics, and the probability model is an unobservable latent variable. This is the method used when it depends. The EM algorithm is a kind of iterative method, and the calculation proceeds by alternately repeating the expected value (expectation, E) step and the maximization (M) step. In the M step, a parameter that maximizes the expected value of the likelihood obtained in the E step is obtained. The parameters determined in the M step are used to determine the distribution of latent variables used in the next E step.

図8は、学習部92が行う処理の流れの一例を示すフローチャートである。各ステップの具体的な内容は前記した通りであるので、適宜説明を省略する。なお、図8に示す各ステップの処理は、作用させる空間フィルタFiの個数分だけ実施されるが、ここでは、説明の便宜上、1つの空間フィルタFiに対応する処理を説明する。図8に示すように、学習部92は、対象となる空間フィルタFiに対応する入力画像I(x,y)に含まれる複数の画素(x,y)の各々について、K個のモデル毎のZスコアZnk(x,y)を算出する(ステップS11)。次に、学習モデル生成部44は、確率enkを求める(ステップS12)。次に、学習部92は、負担率γnkを求める(ステップS13)。次に、学習部92は、各モデルkのパラメータ(μ(x,y)、σ (x,y))を算出する(ステップS14)。なお、ステップS11からステップS13の処理はEステップに該当し、ステップS14の処理はMステップに該当する。 FIG. 8 is a flowchart showing an example of the flow of processing performed by the learning unit 92. Since the specific contents of each step are as described above, the description thereof will be omitted as appropriate. The processing of each step shown in FIG. 8 is performed for the number of spatial filters Fi to be operated, but here, for convenience of explanation, the processing corresponding to one spatial filter Fi will be described. As shown in FIG. 8, the learning unit 92 has K models for each of the plurality of pixels (x, y) included in the input image In (x, y) corresponding to the target spatial filter Fi. Z score Z nk (x, y) is calculated (step S11). Next, the learning model generation unit 44 obtains the probability enk (step S12). Next, the learning unit 92 obtains the burden rate γ nk (step S13). Next, the learning unit 92 calculates the parameters (μ k (x, y), σ 2 k (x, y)) of each model k (step S14). The processing of steps S11 to S13 corresponds to the E step, and the processing of the step S14 corresponds to the M step.

次に、学習モデル生成部44は、前回からのパラメータ(μ(x,y)、σ (x,y))の変動がしきい値以下であるか否かを判断する(ステップS15)。ステップS15の結果が否定の場合(ステップS15:No)、前記のステップS11以降の処理を繰り返す。ステップS15の結果が肯定の場合(ステップS15:Yes)、ステップS14で算出したパラメータ(μ(x,y)、σ (x,y))を最終的なパラメータとして決定する(ステップS16)。以上のようにして決定されたパラメータ(μ(x,y)、σ (x,y))は、学習モデル52(図4(b)参照)として、例えばRAM15、または図2に不図示のHDD等の記憶装置に記憶される。 Next, the learning model generation unit 44 determines whether or not the fluctuation of the parameters (μ k (x, y), σ 2 k (x, y)) from the previous time is equal to or less than the threshold value (step S15). ). If the result of step S15 is negative (step S15: No), the process after step S11 is repeated. If the result of step S15 is affirmative (step S15: Yes), the parameter calculated in step S14 (μ k (x, y), σ 2 k (x, y)) is determined as the final parameter (step S16). ). The parameters (μ k (x, y), σ 2 k (x, y)) determined as described above are not included in, for example, RAM 15 or FIG. 2 as the learning model 52 (see FIG. 4 (b)). It is stored in a storage device such as the illustrated HDD.

図9は、学習部92が行う処理の前提となるモデル推定問題についての説明図である。なお、図9のサンプル画像は、「画像応用技術専門委員会 外観検査アルゴリズムコンテスト2014」(外観検査アルゴリズムコンテスト2014、主催:精密工学会 画像応用技術専門委員会)の課題画像から引用したものを加工して使用している。図9は、モデルkが2種類(何れかの空間フィルタFiに対応するモデル群に含まれるモデルが2種類)、すなわちモデル数Kが2の場合の例である。図9では、各画素(x,y)(の画素値)が正規分布を持つと仮定したモデルが2つあり、観測できる画像は何れかのモデルkから生成された画像であるとする。ここで、観測画像がどのモデルkから生成されたのかは不明であり、隠れ変数となっている。学習が完了、つまりモデルkの推定が完了すると、図9の左に示すモデル毎の画素平均画像と画素分散画像とが得られる。 FIG. 9 is an explanatory diagram of a model estimation problem that is a premise of the processing performed by the learning unit 92. The sample image in FIG. 9 is processed from the subject image of the "Image Application Technology Expert Committee Appearance Inspection Algorithm Contest 2014" (Appearance Inspection Algorithm Contest 2014, sponsored by the Precision Engineering Society Image Application Technology Expert Committee). And use it. FIG. 9 is an example in which there are two types of models k (two types of models included in the model group corresponding to any of the spatial filters Fi), that is, the number of models K is two. In FIG. 9, it is assumed that there are two models in which each pixel (x, y) (pixel value) has a normal distribution, and the observable image is an image generated from any model k. Here, it is unknown from which model k the observed image was generated, and it is a hidden variable. When the learning is completed, that is, the estimation of the model k is completed, the pixel average image and the pixel distributed image for each model shown on the left of FIG. 9 are obtained.

前記したように、本実施の形態の学習処理では、負担率γnkを最適化させる画素平均値μ(x,y)および画素分散値σ (x,y)が決定されて記憶される。図9(a)は、図8のステップS16で決定された画素平均値μ(x,y)および画素分散値σ (x,y)を画素(x,y)毎にマッピングして可視化したものである。本実施の形態では、図9(a)に示す情報を使用して、確率enkおよび負担率γnkに基づいて、隠れ変数であるモデルを観測画像から推定する。 As described above, in the learning process of the present embodiment, the pixel mean value μ k (x, y) and the pixel dispersion value σ 2 k (x, y) for optimizing the burden rate γ nk are determined and stored. To. 9 (a) maps the pixel mean value μ k (x, y) and the pixel dispersion value σ 2 k (x, y) determined in step S16 of FIG. 8 for each pixel (x, y). It is a visualization. In this embodiment, the information shown in FIG. 9A is used to estimate a model, which is a hidden variable, from the observed image based on the probability enk and the burden rate γ nk .

再び、学習モデル生成部44の機能の説明を続ける。算出部93は、生成された複数のフィルタ画像Fi(x,y)と、学習されたモデル群とに基づいて、全てのモデルを考慮したZスコアである統合スコアを算出する。 The explanation of the function of the learning model generation unit 44 will be continued again. The calculation unit 93 calculates an integrated score, which is a Z score considering all the models, based on the generated plurality of filter images Fi (x, y) and the trained model group.

まず、算出部93は、複数のフィルタ画像Fi(x,y)と1対1に対応する複数のモデル群を用いて、複数のフィルタ画像Fi(x,y)の画素(x,y)毎に、対応するモデル群との差分に応じた値を示す(本実施の形態の例ではモデル群との差が大きいほど高い値を示す)スコアを算出する。算出部93は、複数のフィルタ画像Fi(x,y)の画素(x,y)毎に、該画素(x,y)の画素値と、対応するモデル群のパラメータとに基づいて、ZスコアZnk(x,y)を算出する。 First, the calculation unit 93 uses a plurality of filter image Fis (x, y) and a plurality of model groups corresponding to one-to-one, for each pixel (x, y) of the plurality of filter images Fi (x, y). In addition, a score indicating a value corresponding to the difference from the corresponding model group (in the example of the present embodiment, the larger the difference from the model group, the higher the value) is calculated. The calculation unit 93 sets the Z score for each pixel (x, y) of the plurality of filter images Fi (x, y) based on the pixel value of the pixel (x, y) and the parameters of the corresponding model group. Calculate Z nk (x, y).

以下、任意の一のフィルタ画像Fi(x,y)に対応するモデル群を用いて、該フィルタ画像Fi(x,y)に含まれる各画素(x,y)のZスコアZnk(x,y)を算出する方法を説明する。ここでは、任意の一のフィルタ画像Fi(x,y)に対応するモデル群にはK個のモデルが含まれている場合を例に挙げて説明するが、これに限らず、例えばモデル群には1個のモデルのみが含まれる形態であってもよい(モデル群に含まれるモデルの数は任意である)。 Hereinafter, using a model group corresponding to any one filter image Fi (x, y), the Z score Z nk (x, y) of each pixel (x, y) included in the filter image Fi (x, y) is used. The method of calculating y) will be described. Here, a case where K models are included in the model group corresponding to any one filter image Fi (x, y) will be described as an example, but the present invention is not limited to this, and the model group is not limited to this. May contain only one model (the number of models included in the model group is arbitrary).

算出部93は、上記一のフィルタ画像Fi(x,y)に含まれる各画素(x,y)について、式8を用いて、モデル毎のZスコアZnk(x,y)を求める。また、算出部93は、式9を用いて、確率enkを求める。そして、算出部93は、上記一のフィルタ画像Fi(x,y)に含まれる各画素(x,y)について、以下の式14を用いて、モデルからのハズレ量、つまり乖離量S(x,y)を求める。モデル群が複数のモデルを含む多モデルでは、この乖離量S(x,y)が、学習したモデルの発生確率に基づくZスコアZnk(x,y)となる。本実施の形態の例では、算出部93は、上記一のフィルタ画像Fi(x,y)の各画素(x,y)の乖離量S(x,y)を最終的なZスコアZnk(x,y)として算出する。つまり、本実施の形態では、何れかのフィルタ画像Fi(x,y)に対応するモデル群が複数のモデルを含む場合、算出部93は、該フィルタ画像Fi(x,y)に含まれる複数の画素(x,y)の各々について、該画素(x,y)の各モデルとの差分に応じた値を示す単位スコア(本実施の形態の例ではK個のモデル毎のZスコアZnk(x,y))と、該フィルタ画像が各モデルに当てはまる確率enkと、に基づいて該画素(x,y)の最終的なZスコアZnk(x,y)を決定している。

Figure 0007091686000011
The calculation unit 93 obtains a Z score Z nk (x, y) for each model using Equation 8 for each pixel (x, y) included in the above-mentioned filter image Fi (x, y). Further, the calculation unit 93 obtains the probability enk using the equation 9. Then, the calculation unit 93 uses the following equation 14 for each pixel (x, y) included in the above-mentioned one filter image Fi (x, y), and the amount of deviation from the model, that is, the amount of deviation Sn ( x, y) is obtained. In a multi-model in which the model group includes a plurality of models, this deviation amount Sn (x, y) becomes a Z score Z nk (x, y) based on the occurrence probability of the learned model. In the example of the present embodiment, the calculation unit 93 sets the dissociation amount Sn (x, y) of each pixel (x, y) of the above-mentioned filter image Fi (x, y) as the final Z score Z nk . Calculated as (x, y). That is, in the present embodiment, when the model group corresponding to any of the filter images Fi (x, y) includes a plurality of models, the calculation unit 93 includes a plurality of models included in the filter image Fi (x, y). A unit score indicating a value corresponding to the difference between each of the pixels (x, y) of the pixel (x, y) from each model of the pixel (x, y) (Z score Z nk for each of K models in the example of this embodiment). The final Z score Z nk (x, y) of the pixel (x, y) is determined based on (x, y)) and the probability enk that the filter image fits into each model.
Figure 0007091686000011

算出部93は、以上のようにして、複数のフィルタ画像Fi(x,y)の各々に含まれる画素(x,y)毎にZスコアZnk(x,y)を算出する。なお、以下の説明では、m番目のフィルタ画像Fi(x,y)の画素(x,y)のZスコアをZ(x,y)と表記する場合がある。 As described above, the calculation unit 93 calculates the Z score Z nk (x, y) for each pixel (x, y) included in each of the plurality of filter images Fi (x, y). In the following description, the Z score of the pixel (x, y) of the m-th filter image Fi (x, y) may be expressed as Z m (x, y).

なお、ここでは、各画素(x,y)の発生確率に正規分布を仮定しているので、このZスコアZnk(x,y)は、入力した画像の該当画素が学習したモデルを考えた時に、標準正規分布で何σ(σは標準偏差)の発生確率となるということを示している。なお、本実施の形態の例では多モデルを用いる場合について記載したが、もちろん単モデルを仮定して同じことを行ってもよく、その場合には、k=1として、学習時に式11および式12でモデルを求めて、検出時に式5によってZスコアZnk(x,y)を算出すればよい。また、ここでは各画素(x,y)は正規分布を持つと仮定したが、より精度を上げるには、上記多モデルで行ったのと同じように、EMアルゴリズムを用いて混合ガウス分布としてモデル化しても良い。なお、混合ガウス分布とは、複数のガウス分布の線形重ね合わせで表されるモデルである。 Here, since a normal distribution is assumed for the probability of occurrence of each pixel (x, y), this Z score Z nk (x, y) considers a model learned by the corresponding pixel of the input image. At times, it shows that what σ (σ is the standard deviation) is the probability of occurrence in the standard normal distribution. In the example of this embodiment, the case of using multiple models has been described, but of course, the same thing may be performed assuming a single model. In that case, the equation 11 and the equation are set at the time of learning with k = 1. The model may be obtained in No. 12, and the Z score Z nk (x, y) may be calculated by the equation 5 at the time of detection. In addition, although it is assumed here that each pixel (x, y) has a normal distribution, in order to improve the accuracy, the model is used as a mixed Gaussian distribution using the EM algorithm as in the case of the above multi-model. It may be changed. The mixed Gaussian distribution is a model represented by a linear superposition of a plurality of Gaussian distributions.

さらに算出部93は、複数のフィルタ画像Fi(x,y)に亘って互いに対応する複数の画素(x,y)の各々のZスコアZ(x,y)を統合した結果を示す統合スコアZtotal(x,y)を算出する。つまり、複数のフィルタ画像Fi(x,y)を統合した1枚の画像の各画素(x,y)の統合スコアZtotal(x,y)を算出すると考えてよい。本実施の形態の例では13個のフィルタ画像Fi(x,y)の画素数は同じであり、各画素(x,y)は互いに対応しているものとする。また、ここでは、ZスコアZ(x,y)は、標準正規分布における標準偏差であるので、算出部93は、複数のフィルタ画像Fi(x,y)に亘って互いに対応する画素(x,y)毎に、該複数の画素(x,y)の各々のZスコアZ(x,y)に対応する発生確率P(x,y)の同時確率に基づいて統合スコアZtotal(x,y)を算出する。より具体的には、算出部93は、以下の式15によりZスコアZ(x,y)に対応する発生確率P(x,y)を算出し、以下の式16により統合スコアZtotal(x,y)を算出する。

Figure 0007091686000012
Figure 0007091686000013
Further, the calculation unit 93 indicates an integrated score showing the result of integrating the Z scores Z m (x, y) of each of the plurality of pixels (x, y) corresponding to each other over the plurality of filter images Fi (x, y). Calculate Z total (x, y). That is, it may be considered that the integrated score Z total (x, y) of each pixel (x, y) of one image in which a plurality of filter images Fi (x, y) are integrated is calculated. In the example of this embodiment, it is assumed that the number of pixels of the 13 filter images Fi (x, y) is the same, and the pixels (x, y) correspond to each other. Further, here, since the Z score Z m (x, y) is the standard deviation in the standard normal distribution, the calculation unit 93 has pixels (x, y) corresponding to each other over the plurality of filter images Fi (x, y). , Y) For each of the plurality of pixels (x, y ), the integrated score Z total ( x, y) is calculated. More specifically, the calculation unit 93 calculates the occurrence probability P m (x, y) corresponding to the Z score Z m (x, y) by the following formula 15, and the integrated score Z total is calculated by the following formula 16. (X, y) is calculated.
Figure 0007091686000012
Figure 0007091686000013

なお、ここでは統合スコアZtotal(x,y)を統合するために同時確率を使用したが、それ以外にも以下の式のように、ZスコアZ(x,y)の平均値、または合計値などを用いても良い。

Figure 0007091686000014
Figure 0007091686000015
Here, the joint probability was used to integrate the integrated score Z total (x, y), but in addition to that, the average value of the Z score Z m (x, y) or the average value of the Z score Z m (x, y) is used as shown in the following equation. A total value or the like may be used.
Figure 0007091686000014
Figure 0007091686000015

なお、当然のことながら、学習時には、正常な画像(モデルとなる立体物の、途切れや階調異常のない画像)を用いることが望ましいが、正常な画像に対して、若干の異常が混入している場合であっても、本手法は異常が混入した画像の発生確率が若干低下するだけで適用が可能である。 As a matter of course, it is desirable to use a normal image (an image of a three-dimensional object as a model without interruptions or gradation abnormalities) at the time of learning, but some abnormalities are mixed with the normal image. Even if this is the case, this method can be applied only by slightly reducing the probability of occurrence of an image mixed with anomalies.

前記した統合スコアZtotal(x,y)は、全てのモデル群を考慮した値である。この値は、全ての空間フィルタFi、つまり多様なスケールや多様なエッジ方向などの要素を全て統一的に、標準正規分布における標準偏差という根拠ある発生確率として示したものであり、いわゆる生産工程などで良く用いられる何σまで許容するかという値と一致する。そのため、この統合スコアZtotal(x,y)でしきい値を決めることで、空間フィルタFi毎に個別のしきい値を設定する必要がなくなる。 The integrated score Z total (x, y) described above is a value considering all the model groups. This value shows all the spatial filter Fi, that is, all the elements such as various scales and various edge directions, as a grounded probability of occurrence of standard deviation in the standard normal distribution, so-called production process, etc. It agrees with the value of what σ is often used in. Therefore, by determining the threshold value with this integrated score Z total (x, y), it is not necessary to set an individual threshold value for each spatial filter Fi.

以上のように、学習モデル生成部44は、1枚の撮影画像P1(x,y)に複数の異なる空間フィルタFiを作用させて、複数のフィルタ画像Fi(x,y)を生成する。そして、学習部92は、生成した複数のフィルタ画像Fi(x,y)の各々に含まれる画素(x,y)毎に、対応するモデル群との差分に応じたZスコアZ(x,y)を算出する。そして、複数のフィルタ画像Fi(x,y)に亘って互いに対応する複数の画素(x,y)の各々のZスコアZ(x,y)を統合した統合スコアZtotal(x,y)を算出する。算出された統合スコアZtotal(x,y)は、学習モデル52として、例えばRAM15、または図2に不図示のHDD等の記憶装置等に記憶される。図10は、学習モデル生成部44が統合スコアZtotal(x,y)を算出するアルゴリズムの全体構成を示す模式図であり、前記した処理の流れを模式的に示した図である。 As described above, the learning model generation unit 44 causes a plurality of different spatial filter Fis to act on one captured image P1 (x, y) to generate a plurality of filter images Fi (x, y). Then, the learning unit 92 has a Z score Z m (x, y) according to the difference from the corresponding model group for each pixel (x, y) included in each of the generated plurality of filter images Fi (x, y). y) is calculated. Then, an integrated score Z total (x, y) that integrates the Z scores Z m (x, y) of each of the plurality of pixels (x, y) corresponding to each other over the plurality of filter images Fi (x, y). Is calculated. The calculated integrated score Z total (x, y) is stored as a learning model 52 in, for example, a RAM 15 or a storage device such as an HDD (not shown in FIG. 2). FIG. 10 is a schematic diagram showing the overall configuration of an algorithm in which the learning model generation unit 44 calculates the integrated score Z total (x, y), and is a diagram schematically showing the flow of the above-mentioned processing.

なお、学習モデル生成部44は、フィルタ群を一括して演算するWavelet変換を使用しても良い。その場合、学習モデル生成部44は、図11に示す処理を実行する。図11は、学習モデル生成部44が行う処理の変形例の流れを示す模式図である。 The learning model generation unit 44 may use the Wavelet transform that collectively calculates the filter group. In that case, the learning model generation unit 44 executes the process shown in FIG. FIG. 11 is a schematic diagram showing a flow of a modified example of the processing performed by the learning model generation unit 44.

すなわち、学習モデル生成部44は、図11に示すように、まず入力画像I(x,y)をWavelet変換することで、多階層の画像(前記した複数の空間フィルタFiと1対1に対応する複数の階層と考えてもよい)を含む1枚の画像に変換する(ステップS20)。すなわち、入力画像I(x,y)は、Wavelet変換により、マルチスケールと縦横のエッジを抽出した1枚の画像となる。次に、その画像を、予め学習により得られた学習モデル52と比較し(ステップS21)、前記した実施の形態と同様に、各画素(x,y)のZスコアZ(x,y)を算出する(ステップS22)。なお、この場合の1つのモデルは、フィルタ画像Fi(x,y)毎のモデル(階層毎のモデル)を統合した1つのモデルであると考えることができる。見方を変えれば、この場合の1つのモデルは、複数のフィルタ画像Fi(x,y)と1対1に対応する複数のモデルを含むと考えることもできる。 That is, as shown in FIG. 11, the learning model generation unit 44 first performs Wavelet transform of the input image In (x, y) to create a multi-layered image (one-to-one with the above-mentioned plurality of spatial filters Fi). It is converted into one image including (may be considered as a plurality of corresponding layers) (step S20). That is, the input image In (x, y) becomes one image obtained by extracting the multi-scale and vertical and horizontal edges by the Wavelet transform. Next, the image is compared with the learning model 52 obtained in advance by learning (step S21), and the Z score Z m (x, y) of each pixel (x, y) is the same as in the above-described embodiment. Is calculated (step S22). In addition, one model in this case can be considered as one model in which the model for each filter image Fi (x, y) (model for each layer) is integrated. From a different point of view, one model in this case can be considered to include a plurality of filter images Fi (x, y) and a plurality of models having a one-to-one correspondence.

その後、学習モデル52に当てはまるかを判別するしきい値処理を行う(ステップS23)。すなわち、ZスコアZ(x,y)が何σ以下であれば、学習モデル52に当てはまるかの判別基準となるしきい値を設定してしきい値処理を行う。そして、逆Wavelet変換により元の1枚の画像に戻す(ステップS24)ことで、画素(x,y)毎のZスコアZ(x,y)を統合した統合スコアZtotal(x,y)が得られる。結果として、前記した実施の形態と同様に、入力画像I(x,y)に含まれる各画素(x,y)の統合スコアZtotal(x,y)を得ることができる。この形態によれば、Wavelet変換を用いることで、フィルタ群を一括して演算するため、計算時間を減らすことができるというメリットがある。 After that, a threshold value process for determining whether or not the learning model 52 applies is performed (step S23). That is, if the Z score Z m (x, y) is σ or less, a threshold value is set as a criterion for determining whether the learning model 52 is applicable, and the threshold value processing is performed. Then, by returning to the original one image by the inverse Wavelet transform (step S24), the integrated score Z total (x, y) in which the Z score Z m (x, y) for each pixel (x, y) is integrated is obtained. Is obtained. As a result, the integrated score Z total (x, y) of each pixel (x, y) included in the input image In (x, y) can be obtained as in the above-described embodiment. According to this form, by using the Wavelet transform, the filter group is collectively calculated, so that there is an advantage that the calculation time can be reduced.

なお、学習モデル生成部44は、1枚の撮影画像P1(x,y)の中に存在する複数種類のオブジェクトをそれぞれ学習するようにしてもよい。例えば、撮影画像P1(x,y)の中に、先行車両と歩行者とが同時に写っている場合である。また、学習モデル生成部44は、1枚の撮影画像P1(x,y)の中に存在する複数の状態を有する立体物をそれぞれ学習するようにしてもよい。例えば、撮影画像P1(x,y)の中に、異なるポーズの複数の歩行者が写っている場合等である。 The learning model generation unit 44 may learn each of a plurality of types of objects existing in one captured image P1 (x, y). For example, the preceding vehicle and the pedestrian are simultaneously captured in the captured image P1 (x, y). Further, the learning model generation unit 44 may learn each of the three-dimensional objects having a plurality of states existing in one captured image P1 (x, y). For example, there is a case where a plurality of pedestrians in different poses are shown in the captured image P1 (x, y).

(物体検出処理を実現する機能構成の説明)
再び図4に戻って、立体物認識装置10の機能構成の説明を続ける。立体物認識装置10が行う物体検出処理は、背景データ処理(図4(a)参照)で説明した各機能部に加えて、図4(c)に示す非定常領域検出部45と、孤立領域検出部46と、対応領域検出部47と、実空間情報算出部48と、棄却処理部49と、トラッキング処理部50とで実現される。
(Explanation of functional configuration that realizes object detection processing)
Returning to FIG. 4, the description of the functional configuration of the three-dimensional object recognition device 10 will be continued. The object detection process performed by the three-dimensional object recognition device 10 includes the unsteady region detection unit 45 shown in FIG. 4C and the isolated region in addition to the functional units described in the background data processing (see FIG. 4A). It is realized by the detection unit 46, the corresponding area detection unit 47, the real space information calculation unit 48, the rejection processing unit 49, and the tracking processing unit 50.

非定常領域検出部45は、撮像ユニット2で撮像したステレオ画像の中から、時間とともにその位置が変化する非定常領域であって、尚且つ路面から高さを有する先行車両、歩行者、障害物等の立体物を検出する。 The unsteady region detection unit 45 is a non-stationary region whose position changes with time from the stereo image captured by the imaging unit 2, and which has a height above the road surface, such as a preceding vehicle, a pedestrian, or an obstacle. Etc. are detected.

孤立領域検出部46は、非定常領域を形成する画素群を一つのグループとして出力する孤立領域検出処理を行う。例えば、立体物認識装置10は、2人の隣接した歩行者が画像内に進入してきた場合等に、2人の歩行者を一つの非定常領域として出力する可能性がある。孤立領域検出部46は、そのような検出結果に対して俯瞰画像J2(x,D)上における画素の隣接状態をチェックすることにより、孤立領域毎にグルーピングし直して、立体物の分離性能を向上させる。 The isolated region detection unit 46 performs an isolated region detection process that outputs a group of pixels forming a non-stationary region as one group. For example, the three-dimensional object recognition device 10 may output two pedestrians as one unsteady region when two adjacent pedestrians enter the image. The isolated region detection unit 46 checks the adjacent state of the pixels on the bird's-eye view image J2 (x, D) with respect to such a detection result, thereby regrouping each isolated region to improve the separation performance of the three-dimensional object. Improve.

孤立領域検出処理は、非定常領域検出部45で得られる俯瞰画像J2(x,D)の中の検出矩形内を非定常領域としてその内部の視差に対して、隣接画素の連結から孤立領域毎にグルーピングする処理である。隣接画素を検出する手法としては、画像処理においてよく用いられているラベリング手法を用いる。本処理では8近傍の隣接関係を持つ画素に対して孤立領域を検出している。これは4近傍の隣接関係を持つ画素に対して実施しても良い。立体物が密接しているようなシーンでは、4近傍画素のラベリングを用いて分離性能を上げる等の処理を行ってもよい。 In the isolated region detection process, the inside of the detection rectangle in the bird's-eye view image J2 (x, D) obtained by the non-stationary region detection unit 45 is set as a non-stationary region, and the parallax inside the non-stationary region is changed from the connection of adjacent pixels to each isolated region. It is a process of grouping to. As a method for detecting adjacent pixels, a labeling method often used in image processing is used. In this process, an isolated region is detected for pixels having an adjacent relationship in the vicinity of eight. This may be performed for pixels having an adjacent relationship in the vicinity of four. In a scene where three-dimensional objects are in close contact with each other, processing such as improving the separation performance may be performed by using labeling of pixels in the vicinity of four.

図12は、孤立領域検出部46が行うラベリング処理について説明する図であり、図12(a)は、仮の番号を付与した状態の一例を示す図である。図12(b)は、付与された仮の番号を付け替える処理の一例を示す図である。図12(c)は、ラベリング処理を完了した状態の一例を示す図である。ラベリング処理は、2値画像、すなわち、立体物を示す画素に、例えば「1」が格納されて、立体物を示さない画素に、例えば「0」が格納された画像に対して適用される。 FIG. 12 is a diagram illustrating a labeling process performed by the isolated region detection unit 46, and FIG. 12A is a diagram showing an example of a state in which a temporary number is assigned. FIG. 12B is a diagram showing an example of a process of replacing the assigned temporary number. FIG. 12 (c) is a diagram showing an example of a state in which the labeling process is completed. The labeling process is applied to a binary image, that is, an image in which "1" is stored in a pixel showing a three-dimensional object and "0" is stored in a pixel not showing a three-dimensional object.

ラベリング処理のアルゴリズムは種々提案されているが、一般には、2段階に亘る処理が行われる。まず、図12(a)に示すように、対象となる画像上をラスタースキャンすることによって、立体物を示す画素、すなわち「1」が格納された画素に、仮の番号を付与する。図12(a)の例では、該当する画素に、1から4までの仮の番号が付与される。ここで、着目画素Qは、現在着目している画素を表す。図12(a)の例では、画素Qが立体物を示す画素である場合、着目画素Qには「5」が格納される。 Although various labeling algorithms have been proposed, generally, the processing is performed in two steps. First, as shown in FIG. 12A, a tentative number is assigned to a pixel indicating a three-dimensional object, that is, a pixel in which "1" is stored, by performing a raster scan on a target image. In the example of FIG. 12A, the corresponding pixel is assigned a temporary number from 1 to 4. Here, the pixel Q of interest represents the pixel currently being focused on. In the example of FIG. 12A, when the pixel Q is a pixel indicating a three-dimensional object, "5" is stored in the pixel of interest Q.

そして、対象となる画像全体に亘って、図12(a)に示す処理を行った後で、付与された仮の番号を付け替える処理を行う。このとき、立体物を示す着目画素Qに隣接する画素が存在する場合、隣接する画素に付与された最も小さい仮の番号を、画素Qに付与する。なお、本実施の形態では、着目画素Qに隣接する画素は、着目画素Qの上下左右、斜め上下の合計8画素とする(8隣接)。また、着目画素Qの上下左右の計4画素を隣接画素としてもよい(4隣接)。 Then, after performing the process shown in FIG. 12A over the entire target image, a process of replacing the assigned temporary number is performed. At this time, if there is a pixel adjacent to the pixel of interest Q indicating a three-dimensional object, the smallest temporary number assigned to the adjacent pixel is assigned to the pixel Q. In the present embodiment, the pixels adjacent to the pixel of interest Q are a total of 8 pixels vertically and horizontally and diagonally above and below the pixel of interest Q (8 adjacent pixels). Further, a total of 4 pixels on the top, bottom, left, and right of the pixel Q of interest may be used as adjacent pixels (4 adjacent pixels).

すなわち、図12(b)の例では、着目画素Qに隣接する8画素には、「8、9」が付与されているため、着目画素Qには、図12(a)の処理で付与された仮の番号である「5」が、図12(c)に示すように、「8」に付け替えられる。以上の処理を画像全体に対して行うことによって、画像内にある立体物毎に、立体物の数を示す番号が付与される。 That is, in the example of FIG. 12B, since "8, 9" is assigned to the 8 pixels adjacent to the pixel of interest Q, the pixel of interest Q is assigned by the process of FIG. 12A. The temporary number "5" is replaced with "8" as shown in FIG. 12 (c). By performing the above processing on the entire image, a number indicating the number of three-dimensional objects is assigned to each three-dimensional object in the image.

再び、図4に戻って説明を続ける。対応領域検出部47は、俯瞰画像J2(x,D)上で検出した立体物の位置と幅、最小視差に基づいて、視差画像D(x,y)の中から、検出するべき立体物の候補領域、すなわち、撮影画像P1(x,y)における立体物の水平範囲(xmin,xmax)(不図示)を決定する。 Returning to FIG. 4 again, the explanation will be continued. The corresponding area detection unit 47 is a three-dimensional object to be detected from the parallax image D (x, y) based on the position, width, and minimum parallax of the three-dimensional object detected on the bird's-eye view image J2 (x, D). The candidate region, that is, the horizontal range (xmin, xmax) (not shown) of the three-dimensional object in the captured image P1 (x, y) is determined.

また、対応領域検出部47は、視差画像D(x,y)において、立体物の高さと位置を決定する。すなわち、視差画像D(x,y)において、立体物の最小視差値Dmin(不図示)を与える、撮影画像P1(x,y)における路面60からの高さに相当する縦方向位置ymin(不図示)と、視差画像D(x,y)において、立体物の最大視差値Dmax(不図示)を与える、撮影画像P1(x,y)における路面60からの高さに相当する縦方向位置ymax(不図示)と、を決定する。 Further, the corresponding area detection unit 47 determines the height and position of the three-dimensional object in the parallax image D (x, y). That is, in the parallax image D (x, y), the vertical position ymin (not shown) corresponding to the height from the road surface 60 in the captured image P1 (x, y) that gives the minimum parallax value Dmin (not shown) of the three-dimensional object. In the figure) and the parallax image D (x, y), the vertical position ymax corresponding to the height from the road surface 60 in the captured image P1 (x, y) that gives the maximum parallax value Dmax (not shown) of the three-dimensional object. (Not shown) and.

そして、対応領域検出部47は、立体物の正確な位置を検出するために、設定した立体物の候補領域の内部を走査して、検出した矩形領域の奥行きが、最小視差値Dmin(不図示)と最大視差値Dmax(不図示)の範囲である視差値Dを有する画素を、立体物の候補画素として抽出する。 Then, the corresponding area detection unit 47 scans the inside of the set candidate area of the three-dimensional object in order to detect the accurate position of the three-dimensional object, and the depth of the detected rectangular area is the minimum parallax value Dmin (not shown). ) And a pixel having a parallax value D in the range of the maximum parallax value Dmax (not shown) are extracted as candidate pixels of a three-dimensional object.

実空間情報算出部48は、対応領域検出部47の検出結果から、撮像ユニット2に対する相対的な横位置と距離、実空間上での幅、奥行き(サイズ情報)をそれぞれ決定する。 The real space information calculation unit 48 determines the relative lateral position and distance to the image pickup unit 2, the width in the real space, and the depth (size information) from the detection result of the corresponding area detection unit 47.

棄却処理部49は、実空間情報算出部48が算出したオブジェクトのサイズ情報に基づいて、オブジェクトを判別する「サイズ棄却処理」を行う。検出対象が明確に決まっている場合は、ステレオカメラで得られる視差画像D(x,y)を用いた立体物の3次元的な形状に基づいた棄却処理である「形状棄却処理」や、輝度画像の特徴を用いた「輝度特徴処理」を用いても良い。 The rejection processing unit 49 performs "size rejection processing" for determining an object based on the size information of the object calculated by the real space information calculation unit 48. If the detection target is clearly determined, the "shape rejection process", which is a rejection process based on the three-dimensional shape of a three-dimensional object using the parallax image D (x, y) obtained by a stereo camera, or the brightness. You may use "brightness feature processing" using the feature of the image.

棄却処理部49は、画像上のサイズ、立体物の実空間上のサイズに基づいて、出力すべき立体物を選別する棄却処理を行う。撮影画像P1(x,y)上のサイズを用いた棄却処理では、立体物までの距離により考え方が異なるため、下限しきい値のみを設ける。例えば、i番目の立体物の画像幅をOPWi(不図示)、画像高さをOPHi(不図示)とし、幅下限しきい値をTHW(不図示)、高さ下限しきい値をTHH(不図示)とすると、棄却処理部49は、OPWi<THW、またはOPHi<THHとなる立体物を、検出対象となる立体物ではないと判断して棄却する。実空間上のサイズを用いた棄却処理では、検出対象を分類する場合は、検出したい立体物以外のサイズを持つ立体物を棄却する。 The rejection processing unit 49 performs a rejection process for selecting a three-dimensional object to be output based on the size on the image and the size on the real space of the three-dimensional object. In the rejection process using the size on the captured image P1 (x, y), since the way of thinking differs depending on the distance to the three-dimensional object, only the lower limit threshold value is provided. For example, the image width of the i-th three-dimensional object is OPWi (not shown), the image height is OPHi (not shown), the lower limit of the width is THW (not shown), and the lower limit of the height is THH (not shown). Then, the rejection processing unit 49 determines that the three-dimensional object having OPWi <THW or OPHi <THH is not the three-dimensional object to be detected, and rejects the three-dimensional object. In the rejection process using the size in the real space, when classifying the detection target, the three-dimensional object having a size other than the three-dimensional object to be detected is rejected.

例えば、形状棄却処理は、検出対象が人の場合はステレオカメラで得られる人が持つ山の形状特徴に基づいて棄却判断を行う処理としても良い。また検出対象が色で判別できる場合は、検出結果の中の色差に基づいて、棄却判断を行っても良い。 For example, in the shape rejection process, when the detection target is a person, the rejection may be determined based on the shape feature of the mountain obtained by the person obtained by the stereo camera. If the detection target can be discriminated by color, the rejection may be determined based on the color difference in the detection result.

棄却処理部49は、対応領域検出部47の検出結果に基づき、出力すべき立体物を選別する棄却処理を行う。棄却処理部49は、立体物のサイズに着目したサイズ棄却と、立体物同士の位置関係に着目したオーバラップ棄却とを実行する。例えば、図13は、棄却処理で用いる設定値の一例を示す図である。 The rejection processing unit 49 performs a rejection processing for selecting a three-dimensional object to be output based on the detection result of the corresponding area detection unit 47. The rejection processing unit 49 executes size rejection focusing on the size of the three-dimensional object and overlap rejection focusing on the positional relationship between the three-dimensional objects. For example, FIG. 13 is a diagram showing an example of set values used in the rejection process.

図13に示すオブジェクト情報は、RAM15等の記憶装置に記憶されている。図13に示すように、例えば、「幅1100mm未満、高さ2500mm未満、奥行き1000mmを超える」サイズのオブジェクトの種類は、自転車として規定されている。同様に、「幅1100mm未満、高さ2500mm未満、奥行き1000mm以下」のサイズのオブジェクトの種類は、歩行者として規定されている。同様に、「幅1100mm以下、高さ2500mm未満、奥行き5000mm未満」のサイズのオブジェクトの種類は、車両として規定されている。 The object information shown in FIG. 13 is stored in a storage device such as a RAM 15. As shown in FIG. 13, for example, the type of object having a size of "less than 1100 mm in width, less than 2500 mm in height, and more than 1000 mm in depth" is defined as a bicycle. Similarly, the type of object having a size of "width less than 1100 mm, height less than 2500 mm, depth 1000 mm or less" is defined as a pedestrian. Similarly, the type of object having a size of "width 1100 mm or less, height less than 2500 mm, depth less than 5000 mm" is defined as a vehicle.

棄却処理部49は、撮影画像P1(x,y)上の立体物のサイズと、図13に示すオブジェクト情報とを比較することによって、立体物の種類を特定する。そして、棄却処理部49は、図13に示すサイズ範囲に当てはまらないサイズの検出結果を棄却する。 The rejection processing unit 49 identifies the type of the three-dimensional object by comparing the size of the three-dimensional object on the captured image P1 (x, y) with the object information shown in FIG. Then, the rejection processing unit 49 rejects the detection result of the size that does not fall within the size range shown in FIG.

トラッキング処理部50は、時系列で得られる俯瞰画像群51に対して、前回の物体検出結果を利用して、新たな俯瞰画像J2(x,D)に対する物体検出処理を行う。具体的には、過去の撮像フレームの画像検出処理で検出されたオブジェクト(立体物)を追跡する処理を実行する。 The tracking processing unit 50 performs object detection processing on a new bird's-eye view image J2 (x, D) by using the previous object detection result on the bird's-eye view image group 51 obtained in time series. Specifically, a process of tracking an object (three-dimensional object) detected by an image detection process of a past image pickup frame is executed.

具体的には、過去の画像検出処理で検出されたオブジェクトの情報を示すオブジェクトデータリスト53が、例えばRAM15、または図2に不図示のHDD等の記憶装置に保存される。オブジェクトデータリスト53は、例えば、検出したオブジェクトデータの最新情報(最新の位置、大きさ、距離、相対速度、視差情報)に加え、オブジェクト予測データ(次の撮像フレームにおいて当該オブジェクトがどの位置にいるかを推測する情報)、非定常領域検出部45やトラッキング処理部50で利用するオブジェクト特徴量、当該オブジェクトが検出されたフレーム数、または連続して検出されなかったかを示す検出/未検出フレーム数、当該オブジェクトが追跡すべき対象かどうかを示す要追跡確度(安定フラグ)等を含む。 Specifically, the object data list 53 showing the information of the objects detected in the past image detection process is stored in, for example, the RAM 15 or a storage device such as an HDD (not shown in FIG. 2). In the object data list 53, for example, in addition to the latest information (latest position, size, distance, relative speed, parallax information) of the detected object data, the object prediction data (where the object is located in the next imaging frame) Information), the amount of object features used by the non-stationary area detection unit 45 and the tracking processing unit 50, the number of frames in which the object was detected, or the number of detected / undetected frames indicating whether the object was continuously detected. Includes tracking accuracy (stability flag), etc., which indicates whether the object should be tracked.

(物体検出処理の具体例の説明)
次に、図14を用いて、物体検出処理の具体例について説明する。図14は、物体検出処理の具体例を示す図であり、図14(a)は、撮像ユニット2で撮像された撮影画像P3(x,y)の一例を示す図である。図14(b)は、図14(a)の撮影画像P3(x,y)に対応する俯瞰画像J3(x,D)の一例を示す図である。図14(c)は、非定常領域の検出結果の一例を示す図である。図14(d)は、孤立領域の検出結果の一例を示す図である。
(Explanation of specific examples of object detection processing)
Next, a specific example of the object detection process will be described with reference to FIG. FIG. 14 is a diagram showing a specific example of the object detection process, and FIG. 14 (a) is a diagram showing an example of the captured image P3 (x, y) captured by the image pickup unit 2. 14 (b) is a diagram showing an example of a bird's-eye view image J3 (x, D) corresponding to the captured image P3 (x, y) of FIG. 14 (a). FIG. 14 (c) is a diagram showing an example of the detection result of the unsteady region. FIG. 14D is a diagram showing an example of the detection result of the isolated region.

図14(a)に示す撮影画像P3(x,y)の中には、路面60の左右に設けられた壁状のガードレール70a、70bと、2人の歩行者80d、80eが写っている。俯瞰画像群生成部43(図4参照)は、撮影画像P3(x,y)から生成したVマップV(D,y)(図14に不図示)を俯瞰画像J3(x,D)にマッピングする。 In the photographed image P3 (x, y) shown in FIG. 14A, wall-shaped guardrails 70a and 70b provided on the left and right sides of the road surface 60 and two pedestrians 80d and 80e are shown. The bird's-eye view image group generation unit 43 (see FIG. 4) maps the V map V (D, y) (not shown in FIG. 14) generated from the captured image P3 (x, y) to the bird's-eye view image J3 (x, D). do.

次に、非定常領域検出部45(図4参照)は、俯瞰画像J3(x,D)の中から、非定常領域を検出する。図14(c)の例では、左のガードレール70aに対応する領域と、右のガードレール70bに対応する領域と、歩行者80fに対応する領域とが検出される。 Next, the unsteady region detection unit 45 (see FIG. 4) detects the unsteady region from the bird's-eye view image J3 (x, D). In the example of FIG. 14C, a region corresponding to the left guardrail 70a, a region corresponding to the right guardrail 70b, and a region corresponding to the pedestrian 80f are detected.

孤立領域検出部46は、非定常領域の検出結果(図14(c))に対して、孤立領域検出処理を行う。その結果、図14(d)に示すように、歩行者80dと歩行者80eとを分離して検出することができる。 The isolated region detection unit 46 performs isolated region detection processing on the detection result of the unsteady region (FIG. 14 (c)). As a result, as shown in FIG. 14D, the pedestrian 80d and the pedestrian 80e can be detected separately.

なお、本実施の形態の例では、立体物認識装置10は、CPU17が、各種処理をソフトウェアで実現することとしたが、一部または全部を、IC(Integrated Circuit)等のハードウェアで実現してもよい。また、オブジェクト検出プログラムは、インストール可能な形式、または実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD、ブルーレイディスク(登録商標)、半導体メモリ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。DVDは、「Digital Versatile Disk」の略記である。また、オブジェクト検出プログラムは、インターネット等のネットワーク経由でインストールする形態で提供してもよい。また、オブジェクト検出プログラムは、機器内のROM等に予め組み込んで提供してもよい。 In the example of the present embodiment, in the three-dimensional object recognition device 10, the CPU 17 realizes various processes by software, but a part or all of the three-dimensional object recognition device 10 is realized by hardware such as an IC (Integrated Circuit). You may. The object detection program is a file in an installable format or an executable format in a computer device such as a CD-ROM, a flexible disc (FD), a CD-R, a DVD, a Blu-ray disc (registered trademark), or a semiconductor memory. It may be recorded and provided on a readable recording medium. DVD is an abbreviation for "Digital Versatile Disk". Further, the object detection program may be provided in the form of being installed via a network such as the Internet. Further, the object detection program may be provided by incorporating it into a ROM or the like in the device in advance.

以上説明したように、本実施の形態に係る立体物認識装置10によれば、ステレオ画像取得部40(取得手段)が、画素毎に距離情報を有する視差画像D(x,y)(距離画像)を時系列で取得して、路面推定部42(識別手段)が、ステレオ画像取得部40が取得した時系列の視差画像D(x,y)の中から立体物(オブジェクト)を識別して、俯瞰画像群生成部43(マッピング手段)が、ステレオ画像取得部40が取得した視差画像D(x,y)の中から、路面推定部42によって立体物として識別された領域を、ステレオ画像取得部40の設置位置とは異なる位置から見た時系列の俯瞰マップJ2(x,D)にマッピングする。そして、学習モデル生成部44(モデル作成手段)が、ステレオ画像取得部40によって立体物として識別された領域について、当該立体物の学習モデル52(モデル)を予め作成するとともに、判別部94(判別手段)が、俯瞰画像群生成部43によってマッピングされた俯瞰マップJ2(x,D)と、学習モデル生成部44が予め作成した学習モデル52と、に基づいて、時系列の視差画像D(x,y)が含む立体物を判別する。したがって、複雑な環境においても高精度・高速に動体を検出することができる。特に、予め生成した立体物の学習モデル52を用いて物体検出処理を行う(オフライン処理)ことができる。なお、ステレオ画像取得部40は、前記した一連の処理を完了するまでの間、すなわち、距離画像の取得から立体物を検出するまでの間、同じ位置に留まっている必要がある。 As described above, according to the stereoscopic object recognition device 10 according to the present embodiment, the stereo image acquisition unit 40 (acquisition means) has a parallax image D (x, y) (distance image) having distance information for each pixel. ) Is acquired in time series, and the road surface estimation unit 42 (identification means) identifies a stereoscopic object (object) from the time-series parallax image D (x, y) acquired by the stereo image acquisition unit 40. , The bird's-eye view image group generation unit 43 (mapping means) acquires a stereo image of a region identified as a stereoscopic object by the road surface estimation unit 42 from the parallax image D (x, y) acquired by the stereo image acquisition unit 40. Map to the time-series bird's-eye view map J2 (x, D) viewed from a position different from the installation position of the unit 40. Then, the learning model generation unit 44 (model creation means) creates a learning model 52 (model) of the three-dimensional object in advance for the region identified as a three-dimensional object by the stereo image acquisition unit 40, and the discrimination unit 94 (discrimination). The means) is a time-series parallax image D (x) based on the bird's-eye view map J2 (x, D) mapped by the bird's-eye view image group generation unit 43 and the learning model 52 created in advance by the learning model generation unit 44. , Y) is included in the three-dimensional object. Therefore, it is possible to detect a moving object with high accuracy and high speed even in a complicated environment. In particular, the object detection process (offline process) can be performed using the learning model 52 of the three-dimensional object generated in advance. The stereo image acquisition unit 40 needs to stay at the same position until the series of processes described above is completed, that is, from the acquisition of the distance image to the detection of the stereoscopic object.

また、本実施の形態に係る立体物認識装置10によれば、視差画像D(x,y)は、撮像ユニット2(ステレオカメラ)で撮像された画像情報に基づくものであるとともに、路面推定部42(識別手段)は、ステレオ画像取得部40(取得手段)が取得した時系列の視差画像D(x,y)の中から、路面60を検出する路面推定部42(路面検出手段)を更に備えて、俯瞰画像群生成部43(マッピング手段)は、路面推定部42が検出した路面60よりも高い位置に存在する立体物までの距離に対応する視差値Dを、俯瞰マップJ2(x,D)にマッピングする。したがって、路面60を検出した後、路面60から高さを有する領域のみに処理範囲を限定することによって、路面60の写り込みや路面60に引かれた白線等の影響を受けることなく、立体物を確実に検出することができる。 Further, according to the stereoscopic object recognition device 10 according to the present embodiment, the parallax image D (x, y) is based on the image information captured by the image pickup unit 2 (stereo camera), and is also a road surface estimation unit. The 42 (identification means) further includes a road surface estimation unit 42 (road surface detection means) that detects the road surface 60 from the time-series parallax image D (x, y) acquired by the stereo image acquisition unit 40 (acquisition means). In preparation, the bird's-eye view image group generation unit 43 (mapping means) sets the parallax value D corresponding to the distance to the stereoscopic object existing at a position higher than the road surface 60 detected by the road surface estimation unit 42 on the bird's-eye view map J2 (x, Map to D). Therefore, after detecting the road surface 60, by limiting the processing range to only the region having a height from the road surface 60, a three-dimensional object is not affected by the reflection of the road surface 60 or the white line drawn on the road surface 60. Can be reliably detected.

また、本実施の形態に係る立体物認識装置10によれば、俯瞰マップJ2(x,D)は、横軸を実距離x、縦軸を視差値Dとして、画素値に、当該画素の位置における視差値Dの発生頻度をマッピングした2次元ヒストグラムである。視差値Dは実距離に対応する量であるため、したがって、縦軸、横軸ともに実距離に相当するため、遠方の立体物も確実に検出することができる。 Further, according to the three-dimensional object recognition device 10 according to the present embodiment, in the bird's-eye view map J2 (x, D), the horizontal axis is the actual distance x and the vertical axis is the parallax value D, and the pixel value is the position of the pixel. It is a two-dimensional histogram which mapped the occurrence frequency of the parallax value D in. Since the parallax value D is an amount corresponding to the actual distance, therefore, both the vertical axis and the horizontal axis correspond to the actual distance, so that a distant three-dimensional object can be reliably detected.

また、本実施の形態に係る立体物認識装置10によれば、判別部94(判別手段)は、生成部91(生成手段)が、一つの入力画像I(x,y)に対して、複数の異なる空間フィルタFiを作用させることによって生成した複数のフィルタ画像Fi(x,y)に対して、算出部93(非定常領域検出手段)が、フィルタ画像Fi(x,y)の各々に対して、予め立体物の形状を表現するパラメータを有する1以上の学習モデル52を含むモデル群を用いて、複数の空間フィルタFiに対応するモデル毎の、入力画像I(x,y)の各部分の発生確率P(x,y)を、対応する部分を一の画像に統合した結果に基づいて、非定常領域を検出する。したがって、検出対象の種類によらずに、統一的な方法で、学習モデル52に合致する立体物を検出することができる。 Further, according to the three-dimensional object recognition device 10 according to the present embodiment, in the discrimination unit 94 (discrimination means), the generation unit 91 (generation means) with respect to one input image In (x, y ). For a plurality of filter images Fi (x, y) generated by applying a plurality of different spatial filter Fis, the calculation unit 93 (unsteady region detecting means) is applied to each of the filter images Fi (x, y). On the other hand, the input image In (x, y ) of each model corresponding to the plurality of spatial filters Fi is used by using a model group including one or more learning models 52 having parameters for expressing the shape of the three-dimensional object in advance. The unsteady region is detected based on the result of integrating the occurrence probability P m (x, y) of each part into one image. Therefore, it is possible to detect a three-dimensional object that matches the learning model 52 by a unified method regardless of the type of the detection target.

また、本実施の形態に係る立体物認識装置10によれば、算出部93(非定常領域検出手段)は、入力画像I(x,y)の各部分の発生確率P(x,y)の同時確率に基づく統合スコアZtotal(x,y)に基づいて、非定常領域を検出する。したがって、非定常領域を検出する際に、空間フィルタFi毎に個別のしきい値を設定する必要がなくなる。 Further, according to the three-dimensional object recognition device 10 according to the present embodiment, the calculation unit 93 (unsteady region detecting means) has a probability of occurrence P m (x, y ) of each part of the input image In (x, y). ), The unsteady region is detected based on the integrated score Z total (x, y). Therefore, when detecting the unsteady region, it is not necessary to set an individual threshold value for each spatial filter Fi.

また、本実施の形態に係る立体物認識装置10によれば、算出部93(非定常領域検出手段)は、入力画像I(x,y)の各部分の発生確率P(x,y)を、ある値が分布の中でどのあたりに位置するかを、平均値0、標準偏差1の標準正規分布に置き換えて表したZスコアZ(x,y)の平均値に基づいて、非定常領域を検出する。したがって、様々な入力画像I(x,y)に対して、統一的に一定の基準で、学習モデル52に合致する立体物を検出することができる。 Further, according to the three-dimensional object recognition device 10 according to the present embodiment, the calculation unit 93 (unsteady region detecting means) has a probability of occurrence P m (x, y ) of each part of the input image In (x, y). ) Is replaced with a standard normal distribution having a mean value of 0 and a standard deviation of 1 as to where a certain value is located in the distribution, based on the mean value of the Z score Z m (x, y). Detect non-stationary regions. Therefore, it is possible to detect a three-dimensional object that matches the learning model 52 with a uniform standard for various input images In (x, y).

また、本実施の形態に係る立体物認識装置10によれば、生成部91(生成手段)は、多重解像度を有するとともに、エッジ方向を算出する複数の空間フィルタFiを備える。したがって、路面60上に存在して、路面60との間に輝度差を有する立体物を、確実に検出することができる。 Further, according to the three-dimensional object recognition device 10 according to the present embodiment, the generation unit 91 (generation means) has multiple resolutions and includes a plurality of spatial filters Fi for calculating the edge direction. Therefore, it is possible to reliably detect a three-dimensional object that exists on the road surface 60 and has a luminance difference with the road surface 60.

また、本実施の形態に係る立体物認識装置10によれば、算出部93(非定常領域検出手段)は、複数の立体物を表現する複数の学習モデル52毎に、学習モデル52の中の複数の領域の特徴量である画素平均値μ(x,y)および画素分散値σ (x,y)を算出するとともに、入力画像I(x,y)が、複数の学習モデル52のいずれに当てはまるかを表す確率enkを計算して、算出した確率enkに基づいて特徴量を最適化した複数の学習モデル52を用いて、入力された入力画像I(x,y)を複数の学習モデル52と比較する。したがって、検出対象となる立体物の形状や姿勢に関する制約条件を緩和することができる。 Further, according to the three-dimensional object recognition device 10 according to the present embodiment, the calculation unit 93 (unsteady region detecting means) is included in the learning model 52 for each of the plurality of learning models 52 expressing the plurality of three-dimensional objects. The pixel mean value μ k (x, y) and the pixel dispersion value σ 2 k (x, y), which are the feature quantities of a plurality of regions, are calculated, and the input image In ( x, y) is a plurality of learning models. The input image In (x, y ) is input using a plurality of learning models 52 in which the feature amount is optimized based on the calculated probability enk by calculating the probability enk indicating which of 52 is applicable. ) Is compared with a plurality of learning models 52. Therefore, it is possible to relax the constraint conditions regarding the shape and posture of the three-dimensional object to be detected.

また、本実施の形態に係る立体物認識装置10によれば、算出部93(非定常領域検出手段)は、入力画像I(x,y)の各部分の発生確率P(x,y)を、正規分布に基づくモデルを用いて算出する。したがって、算出された発生確率P(x,y)に基づいて算出される統合スコアZtotal(x,y)は、いわゆる生産工程などで良く用いられる何σまで許容するかという値と一致する。そのため、モデルに合致する立体物であるかを判別する際に、この統合スコアZtotal(x,y)でしきい値を決めることによって、空間フィルタFi毎に個別のしきい値を設定する必要がなくなる。 Further, according to the three-dimensional object recognition device 10 according to the present embodiment, the calculation unit 93 (unsteady region detecting means) has a probability of occurrence P m (x, y ) of each part of the input image In (x, y). ) Is calculated using a model based on a normal distribution. Therefore, the integrated score Z total (x, y) calculated based on the calculated probability of occurrence P m (x, y) agrees with the value of what σ is often used in so-called production processes. .. Therefore, it is necessary to set an individual threshold value for each spatial filter Fi by determining a threshold value with this integrated score Z total (x, y) when determining whether the three-dimensional object matches the model. Is gone.

また、本実施の形態に係る立体物認識装置10によれば、ステレオ画像取得部40(取得手段)が、画素毎に距離情報を有する視差画像D(x,y)(距離画像)を時系列で取得して、路面推定部42(識別手段)が、ステレオ画像取得部40が取得した時系列の視差画像D(x,y)の中から立体物を識別して、俯瞰画像群生成部43(マッピング手段)が、ステレオ画像取得部40が取得した時系列の視差画像D(x,y)の中から、路面推定部42によって立体物として識別された領域を、ステレオ画像取得部40の設置位置とは異なる位置から見た時系列の俯瞰マップJ2(x,D)にマッピングする。そして、学習モデル生成部44(モデル作成手段)が、ステレオ画像取得部40によって立体物として識別された領域について、当該立体物の学習モデル52を作成するとともに、判別部94(判別手段)が、ステレオ画像取得部40が時系列で取得した視差画像D(x,y)に基づき学習モデル生成部44が随時作成した立体物の学習モデル52を用いて、視差画像D(x,y)が含む立体物を判別する。したがって、撮影画像P1(x,y)を撮像しながら、学習モデル生成処理と物体検出処理を同時に実行する(オンライン処理)ことができる。 Further, according to the stereoscopic object recognition device 10 according to the present embodiment, the stereo image acquisition unit 40 (acquisition means) produces a disparity image D (x, y) (distance image) having distance information for each pixel in a time series. The road surface estimation unit 42 (identification means) identifies a stereoscopic object from the time-series disparity images D (x, y) acquired by the stereo image acquisition unit 40, and the bird's-eye view image group generation unit 43. (Mapping means) installs the stereo image acquisition unit 40 in a region identified as a stereoscopic object by the road surface estimation unit 42 from the time-series parallax image D (x, y) acquired by the stereo image acquisition unit 40. Map to the time-series bird's-eye view map J2 (x, D) viewed from a position different from the position. Then, the learning model generation unit 44 (model creation means) creates a learning model 52 of the three-dimensional object for the region identified as a three-dimensional object by the stereo image acquisition unit 40, and the discrimination unit 94 (discrimination means) determines. The parallax image D (x, y) is included by using the learning model 52 of the three-dimensional object created by the learning model generation unit 44 at any time based on the parallax image D (x, y) acquired by the stereo image acquisition unit 40 in time series. Discriminate a three-dimensional object. Therefore, it is possible to simultaneously execute the learning model generation process and the object detection process (online process) while capturing the captured image P1 (x, y).

また、本実施の形態に係る撮像装置10aは、撮像ユニット2(撮像手段)が、ステレオ画像を撮像して、ステレオ画像取得部40(取得手段)が、撮像ユニット2により撮像されてから、画素毎に距離情報を有する視差画像D(x,y)(距離画像)を時系列で取得して、路面推定部42(識別手段)が、ステレオ画像取得部40が取得した時系列の視差画像D(x,y)の中から立体物を識別して、俯瞰画像群生成部43(マッピング手段)が、ステレオ画像取得部40が取得した時系列の視差画像D(x,y)の中から、路面推定部42によって立体物として識別された領域を、ステレオ画像取得部40の設置位置とは異なる位置から見た時系列の俯瞰マップJ2(x,D)にマッピングする。そして、学習モデル生成部44(モデル作成手段)が、ステレオ画像取得部40によって立体物として識別された領域について、当該立体物の学習モデル52を予め作成するとともに、判別部94(判別手段)が、俯瞰画像群生成部43によってマッピングされた俯瞰マップJ2(x,D)と、学習モデル生成部44が予め作成した学習モデル52と、に基づいて、時系列の視差画像D(x,y)が含む立体物を判別する。したがって、複雑な環境においても高精度・高速に立体物を検出することができる。 Further, in the image pickup apparatus 10a according to the present embodiment, the image pickup unit 2 (imaging means) captures a stereo image, and the stereo image acquisition unit 40 (acquisition means) is imaged by the image pickup unit 2, and then the pixels. The parallax image D (x, y) (distance image) having distance information for each is acquired in time series, and the road surface estimation unit 42 (identification means) acquires the parallax image D (x, y) (distance image) in time series acquired by the stereo image acquisition unit 40. A three-dimensional object is identified from (x, y), and the bird's-eye view image group generation unit 43 (mapping means) selects the three-dimensional object from the time-series disparity image D (x, y) acquired by the stereo image acquisition unit 40. The region identified as a three-dimensional object by the road surface estimation unit 42 is mapped to the time-series bird's-eye view map J2 (x, D) viewed from a position different from the installation position of the stereo image acquisition unit 40. Then, the learning model generation unit 44 (model creation means) creates a learning model 52 of the three-dimensional object in advance for the region identified as a three-dimensional object by the stereo image acquisition unit 40, and the discrimination unit 94 (discrimination means) , Time-series parallax image D (x, y) based on the bird's-eye view map J2 (x, D) mapped by the bird's-eye view image group generation unit 43 and the learning model 52 created in advance by the learning model generation unit 44. Determines the three-dimensional object contained in. Therefore, it is possible to detect a three-dimensional object with high accuracy and high speed even in a complicated environment.

また、本実施の形態に係る車両1は、立体物認識装置10または撮像装置10aを備える。したがって、走行中に路面60上の立体物を高精度・高速に検出することができる。特に、視差検出中は車両1を停止させておくことによって、立体物の視差検出精度を向上させることができる。なお、前記した一連の処理をリアルタイム(例えば、略ビデオレート)で実行することができれば、車両1が走行中であっても、立体物の検出を行うことができる。 Further, the vehicle 1 according to the present embodiment includes a three-dimensional object recognition device 10 or an image pickup device 10a. Therefore, it is possible to detect a three-dimensional object on the road surface 60 with high accuracy and high speed while traveling. In particular, by stopping the vehicle 1 during parallax detection, the parallax detection accuracy of a three-dimensional object can be improved. If the series of processes described above can be executed in real time (for example, at a substantially video rate), it is possible to detect a three-dimensional object even while the vehicle 1 is traveling.

以上、本発明の実施の形態について説明したが、前記した実施の形態は、例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能である。また、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。また、この実施の形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although the embodiments of the present invention have been described above, the above-described embodiments are presented as examples and are not intended to limit the scope of the present invention. This novel embodiment can be implemented in various other embodiments. In addition, various omissions, replacements, and changes can be made without departing from the gist of the invention. Further, this embodiment is included in the scope and gist of the invention, and is also included in the scope of the invention described in the claims and the equivalent scope thereof.

1 車両
2 撮像ユニット(撮像手段)
10 立体物認識装置
10a 撮像装置
40 ステレオ画像取得部(取得手段)
42 路面推定部(識別手段、路面検出手段)
43 俯瞰画像群生成部(マッピング手段)
44 学習モデル生成部(モデル作成手段)
44a モデル生成装置
45 非定常領域検出部(非定常領域検出手段)
51 俯瞰画像群
52 学習モデル
53 オブジェクトデータリスト
60 路面
91 生成部(生成手段)
93 算出部(非定常領域検出手段)
94 判別部(判別手段)
D 視差値
nk 確率
Fi 空間フィルタ
K モデル数
k モデル
D(x,y) 視差画像(距離画像)
Fi(x,y) フィルタ画像
(x,y) 入力画像
J2(x,D)、J3(x,D)、J2(x,D,t) 俯瞰画像(俯瞰マップ)
P1(x,y)、P2(x,y)、P3(x,y) 撮影画像
(x,y) 発生確率
(x,y) 乖離量
V(D,y) Vマップ
nk(x,y)、Z(x,y) Zスコア
total(x,y) 統合スコア
(x,y)、(D,y)、(x,D) 画素
1 vehicle
2 Imaging unit (imaging means)
10 3D object recognition device 10a Imaging device
40 Stereo image acquisition unit (acquisition means)
42 Road surface estimation unit (identification means, road surface detection means)
43 Bird's-eye view image group generator (mapping means)
44 Learning model generator (model creation means)
44a model generator
45 Unsteady region detection unit (unsteady region detection means)
51 Bird's-eye view image group
52 Learning model
53 Object data list
60 road surface
91 Generation unit (generation means)
93 Calculation unit (unsteady region detection means)
94 Discrimination unit (discrimination means)
D Parallax value
enk probability
Fi spatial filter
Number of K models
k model D (x, y) parallax image (distance image)
Fi (x, y) Filter image In (x, y) Input image J2 (x, D), J3 (x, D), J2 (x, D, t) Bird's-eye view image (bird's-eye view map)
P1 (x, y), P2 (x, y), P3 (x, y) Captured image P m (x, y) Occurrence probability Sn (x, y) Deviation amount V (D, y) V map Z nk (X, y), Z m (x, y) Z score Z total (x, y) Integrated score (x, y), (D, y), (x, D) Pixels

特開2013-003787号公報Japanese Unexamined Patent Publication No. 2013-003787 特開2013-210908号公報Japanese Unexamined Patent Publication No. 2013-210908

Claims (10)

画素毎に距離情報を有する距離画像を時系列で取得する取得手段と、
前記取得手段が取得した時系列の距離画像の中から立体物を識別する識別手段と、
前記識別手段によって立体物として識別された領域を、時系列の俯瞰マップにマッピングするマッピング手段と、
立体物として識別された領域について、当該立体物のモデルを作成するモデル作成手段と、
前記マッピング手段によってマッピングされた俯瞰マップと、前記モデル作成手段が予め作成したモデルと、に基づいて、時系列の前記距離画像が含む立体物を判別する判別手段と、
を備え
前記判別手段は、
一つの入力画像に対して、複数の異なる空間フィルタを作用させて、複数のフィルタ画像を生成する生成手段と、
前記複数のフィルタ画像の各々に対して、予め立体物の形状を表現するパラメータを有する1以上のモデルを含むモデル群を用いて、前記入力画像の各部分の発生確率を算出することによって、前記入力画像の中から非定常領域を検出する非定常領域検出手段と、
を備えて、
前記非定常領域検出手段は、前記複数の異なる空間フィルタに対応するモデル毎の前記入力画像の各部分の発生確率を、対応する部分を合わせて一の画像に統合した発生確率に基づいて、前記入力画像の中から非定常領域を検出する、
とを特徴とする立体物認識装置。
An acquisition means for acquiring a distance image having distance information for each pixel in chronological order,
An identification means for identifying a three-dimensional object from the time-series distance images acquired by the acquisition means,
A mapping means that maps the area identified as a three-dimensional object by the identification means to a time-series bird's-eye view map, and
For the area identified as a three-dimensional object, a model creation means for creating a model of the three-dimensional object, and
A discriminating means for discriminating a three-dimensional object included in the distance image in a time series based on a bird's-eye view map mapped by the mapping means and a model created in advance by the model creating means.
Equipped with
The discrimination means is
A generation means for generating a plurality of filter images by operating a plurality of different spatial filters on one input image.
For each of the plurality of filter images, the generation probability of each part of the input image is calculated by using a model group including one or more models having parameters for expressing the shape of a three-dimensional object in advance. A non-stationary region detection means that detects a non-stationary region from the input image,
In preparation for
The unsteady region detecting means said, based on the probability of occurrence of each part of the input image for each model corresponding to the plurality of different spatial filters, integrated the corresponding parts into one image. Detecting unsteady regions in the input image,
A three-dimensional object recognition device characterized by this.
前記距離画像は、ステレオカメラで撮像された画像情報に基づくものであるとともに、
前記識別手段は、前記取得手段が取得した時系列の距離画像の中から、路面を検出する路面検出手段を更に備えて、
前記マッピング手段は、前記路面検出手段が検出した路面よりも高い位置に存在する立体物までの距離に対応する視差値を、前記俯瞰マップにマッピングする、
ことを特徴とする請求項1に記載の立体物認識装置。
The distance image is based on the image information captured by the stereo camera and is also based on the image information.
The identification means further includes a road surface detecting means for detecting a road surface from the time-series distance images acquired by the acquiring means.
The mapping means maps a parallax value corresponding to a distance to a three-dimensional object existing at a position higher than the road surface detected by the road surface detecting means to the bird's-eye view map.
The three-dimensional object recognition device according to claim 1.
前記俯瞰マップは、
横軸が実距離に対応する量であり、
縦軸が前記視差値に対応する量であって、
当該俯瞰マップを構成する画素に対して、当該画素の位置における前記視差値の発生頻度をマッピングした2次元ヒストグラムである、
ことを特徴とする請求項2に記載の立体物認識装置。
The bird's-eye view map is
The horizontal axis is the amount corresponding to the actual distance,
The vertical axis is the amount corresponding to the parallax value.
It is a two-dimensional histogram in which the frequency of occurrence of the parallax value at the position of the pixel is mapped to the pixels constituting the bird's-eye view map.
The three-dimensional object recognition device according to claim 2.
前記非定常領域検出手段は、
前記入力画像の各部分の発生確率の同時確率に基づいて前記一の画像に統合した発生確率を算出する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の立体物認識装置。
The unsteady region detecting means is
The occurrence probability integrated into the one image is calculated based on the joint probability of the occurrence probability of each part of the input image.
The three-dimensional object recognition device according to any one of claims 1 to 3, wherein the three-dimensional object recognition device is characterized.
前記非定常領域検出手段は、
前記入力画像の各部分の発生確率を、ある値が分布の中でどのあたりに位置するかを、平均値0、標準偏差1の標準正規分布に置き換えて表したZスコアの平均値に基づいて前記一の画像に統合した発生確率を算出する、
ことを特徴とする請求項1から請求項4のいずれか1項に記載の立体物認識装置。
The unsteady region detecting means is
The probability of occurrence of each part of the input image is based on the mean value of the Z score, which is expressed by replacing the position of a certain value in the distribution with a standard normal distribution having a mean value of 0 and a standard deviation of 1. Calculate the probability of occurrence integrated into the above one image,
The three-dimensional object recognition device according to any one of claims 1 to 4, wherein the three-dimensional object recognition device is characterized.
前記生成手段は、
多重解像度を有するとともに、エッジ方向を算出する複数の空間フィルタを備える、
ことを特徴とする請求項から請求項のいずれか1項に記載の立体物認識装置。
The generation means is
It has multiple resolutions and has multiple spatial filters to calculate the edge direction.
The three-dimensional object recognition device according to any one of claims 1 to 5 , wherein the three-dimensional object recognition device is characterized.
前記非定常領域検出手段は、
複数の立体物を表現する複数のモデル毎に、前記モデルの中の複数の領域の特徴量を算出するとともに、
入力画像が、前記複数のモデルのいずれに当てはまるかを表す確率を計算して、
前記確率に基づいて前記特徴量を最適化した前記複数のモデルを用いて、前記入力画像を前記複数のモデルと比較する、
ことを特徴とする請求項から請求項のいずれか1項に記載の立体物認識装置。
The unsteady region detecting means is
For each of a plurality of models expressing a plurality of three-dimensional objects, the features of a plurality of regions in the model are calculated and the features are calculated.
Calculate the probability that the input image fits into any of the multiple models.
Using the plurality of models whose features are optimized based on the probability, the input image is compared with the plurality of models.
The three-dimensional object recognition device according to any one of claims 1 to 6 , wherein the three-dimensional object recognition device is characterized.
前記非定常領域検出手段は、
前記入力画像の各部分の発生確率を、正規分布に基づくモデルを用いて算出する、
ことを特徴とする請求項から請求項のいずれか1項に記載の立体物認識装置。
The unsteady region detecting means is
The probability of occurrence of each part of the input image is calculated using a model based on a normal distribution.
The three-dimensional object recognition device according to any one of claims 1 to 7 , wherein the three-dimensional object recognition device is characterized.
ステレオ画像を時系列で撮像する撮像手段と、
前記撮像手段により撮像された前記ステレオ画像から、画素毎に距離情報を有する距離画像を時系列で取得する取得手段と、
前記取得手段が取得した時系列の前記距離画像の中から立体物を識別する識別手段と、
前記識別手段によって立体物として識別された領域を、時系列の俯瞰マップにマッピングするマッピング手段と、
立体物として識別された領域について、当該立体物のモデルを作成するモデル作成手段と、
前記マッピング手段によってマッピングされた俯瞰マップと、前記モデル作成手段が予め作成したモデルと、に基づいて、時系列の前記距離画像が含む立体物を判別する判別手段と、
を備え
前記判別手段は、
一つの入力画像に対して、複数の異なる空間フィルタを作用させて、複数のフィルタ画像を生成する生成手段と、
前記複数のフィルタ画像の各々に対して、予め立体物の形状を表現するパラメータを有する1以上のモデルを含むモデル群を用いて、前記入力画像の各部分の発生確率を算出することによって、前記入力画像の中から非定常領域を検出する非定常領域検出手段と、
を備えて、
前記非定常領域検出手段は、前記複数の異なる空間フィルタに対応するモデル毎の前記入力画像の各部分の発生確率を、対応する部分を合わせて一の画像に統合した発生確率に基づいて、前記入力画像の中から非定常領域を検出する、
とを特徴とする撮像装置。
An imaging means that captures stereo images in chronological order,
An acquisition means for acquiring a distance image having distance information for each pixel from the stereo image captured by the imaging means in chronological order.
An identification means for identifying a three-dimensional object from the time-series distance images acquired by the acquisition means,
A mapping means that maps the area identified as a three-dimensional object by the identification means to a time-series bird's-eye view map, and
For the area identified as a three-dimensional object, a model creation means for creating a model of the three-dimensional object, and
A discriminating means for discriminating a three-dimensional object included in the distance image in a time series based on a bird's-eye view map mapped by the mapping means and a model created in advance by the model creating means.
Equipped with
The discrimination means is
A generation means for generating a plurality of filter images by operating a plurality of different spatial filters on one input image.
For each of the plurality of filter images, the generation probability of each part of the input image is calculated by using a model group including one or more models having parameters for expressing the shape of a three-dimensional object in advance. A non-stationary region detection means that detects a non-stationary region from the input image,
In preparation for
The unsteady region detecting means said, based on the probability of occurrence of each part of the input image for each model corresponding to the plurality of different spatial filters, integrated the corresponding parts into one image. Detecting unsteady regions in the input image,
An imaging device characterized by this .
請求項1から請求項8のいずれか1項に記載の立体物認識装置、または請求項に記載の撮像装置を備えた車両。 A vehicle provided with the three-dimensional object recognition device according to any one of claims 1 to 8 or the image pickup device according to claim 9 .
JP2018020830A 2018-02-08 2018-02-08 3D object recognition device, image pickup device and vehicle Active JP7091686B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018020830A JP7091686B2 (en) 2018-02-08 2018-02-08 3D object recognition device, image pickup device and vehicle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018020830A JP7091686B2 (en) 2018-02-08 2018-02-08 3D object recognition device, image pickup device and vehicle

Publications (2)

Publication Number Publication Date
JP2019139420A JP2019139420A (en) 2019-08-22
JP7091686B2 true JP7091686B2 (en) 2022-06-28

Family

ID=67694025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018020830A Active JP7091686B2 (en) 2018-02-08 2018-02-08 3D object recognition device, image pickup device and vehicle

Country Status (1)

Country Link
JP (1) JP7091686B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021161508A1 (en) * 2020-02-14 2021-08-19 三菱電機株式会社 Detection device, detection method, and detection program
DE112020006508T5 (en) * 2020-03-24 2022-11-17 Mitsubishi Electric Corporation INFORMATION PROCESSING EQUIPMENT AND INFORMATION PROCESSING PROCEDURES
JP7404173B2 (en) * 2020-07-07 2023-12-25 日立Astemo株式会社 Image processing device
JPWO2022163721A1 (en) * 2021-01-27 2022-08-04
JP7450654B2 (en) * 2022-02-10 2024-03-15 本田技研工業株式会社 Mobile object control device, mobile object control method, learning device, learning method, and program
JP2023180611A (en) * 2022-06-10 2023-12-21 日立Astemo株式会社 Environment recognition device and environment recognition method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005311691A (en) 2004-04-21 2005-11-04 Toyota Central Res & Dev Lab Inc Apparatus and method for detecting object
JP2015207281A (en) 2014-04-10 2015-11-19 株式会社リコー Solid detector, solid detection method, solid detection program, and mobile body equipment control system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005311691A (en) 2004-04-21 2005-11-04 Toyota Central Res & Dev Lab Inc Apparatus and method for detecting object
JP2015207281A (en) 2014-04-10 2015-11-19 株式会社リコー Solid detector, solid detection method, solid detection program, and mobile body equipment control system

Also Published As

Publication number Publication date
JP2019139420A (en) 2019-08-22

Similar Documents

Publication Publication Date Title
JP7091686B2 (en) 3D object recognition device, image pickup device and vehicle
CN109034047B (en) Lane line detection method and device
CN110569704A (en) Multi-strategy self-adaptive lane line detection method based on stereoscopic vision
JP6614247B2 (en) Image processing apparatus, object recognition apparatus, device control system, image processing method and program
WO2022099530A1 (en) Motion segmentation method and apparatus for point cloud data, computer device and storage medium
JP4429298B2 (en) Object number detection device and object number detection method
WO2020104423A1 (en) Method and apparatus for data fusion of lidar data and image data
JP6574611B2 (en) Sensor system for obtaining distance information based on stereoscopic images
CN103123687A (en) Fast obstacle detection
JP2007527569A (en) Imminent collision detection based on stereoscopic vision
WO2020154990A1 (en) Target object motion state detection method and device, and storage medium
JP6753134B2 (en) Image processing device, imaging device, mobile device control system, image processing method, and image processing program
CN108645375B (en) Rapid vehicle distance measurement optimization method for vehicle-mounted binocular system
JP7371053B2 (en) Electronic devices, mobile objects, imaging devices, and control methods, programs, and storage media for electronic devices
JP5073700B2 (en) Object detection device
JP7072765B2 (en) Image processing device, image recognition device, image processing program, and image recognition program
JP7165353B2 (en) Image feature output device, image recognition device, image feature output program, and image recognition program
Barua et al. An Efficient Method of Lane Detection and Tracking for Highway Safety
JP2018092608A (en) Information processing device, imaging device, apparatus control system, movable body, information processing method, and program
JP2018088217A (en) Information processing device, imaging device, apparatus control system, information processing method, and program
WO2018143278A1 (en) Image processing device, image recognition device, image processing program, and image recognition program
JP7052265B2 (en) Information processing device, image pickup device, device control system, mobile body, information processing method, and information processing program
CN113516685A (en) Target tracking method, device, equipment and storage medium
CN115063594B (en) Feature extraction method and device based on automatic driving
JP4956795B2 (en) Image processing apparatus for vehicle and image processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220530

R151 Written notification of patent or utility model registration

Ref document number: 7091686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151