JP7071215B2 - Recognition device - Google Patents

Recognition device Download PDF

Info

Publication number
JP7071215B2
JP7071215B2 JP2018099724A JP2018099724A JP7071215B2 JP 7071215 B2 JP7071215 B2 JP 7071215B2 JP 2018099724 A JP2018099724 A JP 2018099724A JP 2018099724 A JP2018099724 A JP 2018099724A JP 7071215 B2 JP7071215 B2 JP 7071215B2
Authority
JP
Japan
Prior art keywords
feature map
image
unit
block
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018099724A
Other languages
Japanese (ja)
Other versions
JP2019204338A (en
Inventor
博翔 陳
ホセイン テヘラニニキネジャド
ジョン ヴィジャイ
誠一 三田
咲子 西野
和寿 石丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota School Foundation
Denso Corp
Original Assignee
Toyota School Foundation
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota School Foundation, Denso Corp filed Critical Toyota School Foundation
Priority to JP2018099724A priority Critical patent/JP7071215B2/en
Publication of JP2019204338A publication Critical patent/JP2019204338A/en
Application granted granted Critical
Publication of JP7071215B2 publication Critical patent/JP7071215B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本開示は、認識装置及び認識方法に関する。 The present disclosure relates to a recognition device and a recognition method.

従来より、物体を撮像した画像から物体や領域を認識する技術として、まず、視差画像から物体候補領域を検出し、その後、輝度画像を用いて画像中の物体を認識する方法が開示されている(例えば、特許文献1)。 Conventionally, as a technique for recognizing an object or a region from an image obtained by capturing an object, a method of first detecting an object candidate region from a parallax image and then recognizing an object in the image using a luminance image has been disclosed. (For example, Patent Document 1).

特開2014-197378号公報Japanese Unexamined Patent Publication No. 2014-197378

しかし、特許文献1に記載の技術では、遠方の物体などのように、視差画像での認識が困難な物体については、認識することが困難であるという課題があった。このため、認識精度が高い他の技術が望まれていた。 However, the technique described in Patent Document 1 has a problem that it is difficult to recognize an object that is difficult to recognize with a parallax image, such as a distant object. Therefore, other techniques with high recognition accuracy have been desired.

本発明は、以下の形態として実現することが可能である。 The present invention can be realized as the following forms.

本発明の一形態によれば、学習済みのニューラルネットワークを用いて、領域と物体とを認識する認識装置(100)が提供される。この認識装置(100)は、前記領域と前記物体とが画像中に含まれる撮像画像の特徴マップを抽出する撮像画像特徴マップ抽出部(104)と、前記領域と前記物体とが画像中に含まれる距離画像の特徴マップを抽出する距離画像特徴マップ抽出部(105)と、前記撮像画像から抽出された特徴マップと、前記距離画像から抽出された特徴マップとを連結する特徴マップ連結部(106)と、前記連結された特徴マップと、前記撮像画像から抽出された特徴マップと、前記距離画像から抽出された特徴マップとを用いて、前記領域のセグメンテーションに用いる特徴マップを生成する領域セグメンテーション部(107)と、前記領域のセグメンテーションに用いる特徴マップを用いて、前記画像と前記領域とを関連付けるセマンティックセグメンテーションを行う領域出力部(109)と、前記連結された特徴マップと、前記撮像画像から抽出された特徴マップと、前記距離画像から抽出された特徴マップとを用いて、前記物体のセグメンテーションに用いる特徴マップを生成する物体セグメンテーション部(108)と、前記物体のセグメンテーションに用いる特徴マップを用いて、前記画像と前記物体とを関連付けるセマンティックセグメンテーションを行う物体出力部(110)と、を備え、前記撮像画像特徴マップ抽出部と、前記距離画像特徴マップ抽出部と、前記特徴マップ連結部と、前記領域セグメンテーション部と、前記物体セグメンテーション部とは、前記ニューラルネットワークにより構成されている。 According to one embodiment of the present invention, there is provided a recognition device (100) that recognizes a region and an object by using a trained neural network. The recognition device (100) includes a captured image feature map extraction unit (104) for extracting a feature map of a captured image in which the region and the object are included in the image, and the region and the object in the image. The distance image feature map extraction unit (105) that extracts the feature map of the distance image, and the feature map connection unit (106) that connects the feature map extracted from the captured image and the feature map extracted from the distance image. ), The linked feature map, the feature map extracted from the captured image, and the feature map extracted from the distance image, the region segmentation unit that generates the feature map used for the segmentation of the region. (107), a region output unit (109) that performs semantic segmentation that associates the image with the region using the feature map used for segmentation of the region, the linked feature map, and extraction from the captured image. Using the created feature map and the feature map extracted from the distance image, the object segmentation unit (108) that generates the feature map used for the segmentation of the object, and the feature map used for the segmentation of the object are used. An object output unit (110) that performs semantic segmentation that associates the image with the object, the captured image feature map extraction unit, the distance image feature map extraction unit, the feature map connection unit, and the above. The area segmentation section and the object segmentation section are configured by the neural network.

この形態の認識装置によれば、連結された特徴マップと、撮像画像から抽出された特徴マップと、距離画像から抽出された特徴マップとからセマンティックセグメンテーションを行うため、認識精度が向上する。 According to this form of the recognition device, semantic segmentation is performed from the connected feature map, the feature map extracted from the captured image, and the feature map extracted from the distance image, so that the recognition accuracy is improved.

認識装置を搭載した車両の機能ブロック図である。It is a functional block diagram of a vehicle equipped with a recognition device. 認識装置の構成を示すブロック図である。It is a block diagram which shows the structure of a recognition device. 認識処理のフローチャートを示す図である。It is a figure which shows the flowchart of the recognition process. 撮像画像特徴マップ抽出部104を説明する図である。It is a figure explaining the captured image feature map extraction unit 104. 距離画像特徴マップ抽出部105を説明する図である。It is a figure explaining the distance image feature map extraction unit 105. 領域セグメンテーション部107を説明する図である。It is a figure explaining the area segmentation part 107. 物体セグメンテーション部108を説明する図である。It is a figure explaining the object segmentation part 108. 画像取得部が取得した輝度画像と、セマンティックセグメンテーション後の領域画像及び物体画像との例を示す図である。It is a figure which shows the example of the luminance image acquired by the image acquisition part, and the area image and the object image after semantic segmentation. FuseNetを用いた比較例を示す図である。It is a figure which shows the comparative example using FuseNet. U-Netを用いた比較例を示す図である。It is a figure which shows the comparative example using U-Net. 変形例の認識装置の構成を示すブロック図である。It is a block diagram which shows the structure of the recognition device of a modification.

A.第1実施形態
図1に示すように、本実施形態では、認識装置100は、車両10に搭載されている。なお、認識装置100は、例えば、船舶やドローンなどの車両以外の物体に搭載されていてもよい。
A. First Embodiment As shown in FIG. 1, in this embodiment, the recognition device 100 is mounted on the vehicle 10. The recognition device 100 may be mounted on an object other than a vehicle such as a ship or a drone.

車両10は、さらに、撮像画像取得部21と距離画像取得部22とを備える。本実施形態では、撮像画像取得部21及び距離画像取得部22は、車両10の前方が撮像範囲となるように搭載されており、撮像画像取得部21として単眼カメラを用い、距離画像取得部22としてステレオカメラを用いる。本実施形態では、認識装置100は、撮像画像取得部21から撮像画像を取得し、距離画像取得部22から距離画像を取得する。 The vehicle 10 further includes a captured image acquisition unit 21 and a distance image acquisition unit 22. In the present embodiment, the captured image acquisition unit 21 and the distance image acquisition unit 22 are mounted so that the front of the vehicle 10 is the imaging range, and a monocular camera is used as the captured image acquisition unit 21 to obtain the distance image acquisition unit 22. A stereo camera is used as. In the present embodiment, the recognition device 100 acquires a captured image from the captured image acquisition unit 21 and acquires a distance image from the distance image acquisition unit 22.

認識装置100は、CPU11と、ROMやRAMなどのメモリ12と、を備える周知のコンピュータとして構成されている。認識装置100は、ニューラルネットワークにおける畳込み演算専用のチップを用いることが望ましい。認識装置100は、CPU11とメモリ12とを用いて、メモリ12に格納されているプログラムを実行することによって後述の認識処理を行う。具体的には、認識装置100は、学習済みのニューラルネットワークを用いて、撮像画像取得部21及び距離画像取得部22により取得された撮像画像及び距離画像から画像中の物体及び領域を認識する。認識処理によって得られた認識結果は、認識装置100により車両10の制御部30に入力される。制御部30は、入力された認識結果を用いて、車両10の動作を制御する。本実施形態では、ニューラルネットワークとして、畳込みニューラルネットワーク(Convolutional Neural Network:CNN)を用いるが、他の種類のニューラルネットワークを用いてもよい。ここで、本実施形態の物体として、例えば、車両10の前方に存在する車両や、石などの障害物が挙げられる。また、本実施形態の領域として、例えば、車両10の走行可能な領域が挙げられる。本実施形態では、ニューラルネットワークは、撮像画像と距離画像とにおける領域及び物体についてタグ付けされたデータを任意の枚数(例えば、9000枚)用いて、予め学習が行われている。 The recognition device 100 is configured as a well-known computer including a CPU 11 and a memory 12 such as a ROM or RAM. It is desirable that the recognition device 100 uses a chip dedicated to the convolution operation in the neural network. The recognition device 100 uses the CPU 11 and the memory 12 to execute a program stored in the memory 12 to perform the recognition process described later. Specifically, the recognition device 100 recognizes an object and a region in the image from the captured image and the distance image acquired by the captured image acquisition unit 21 and the distance image acquisition unit 22 by using the trained neural network. The recognition result obtained by the recognition process is input to the control unit 30 of the vehicle 10 by the recognition device 100. The control unit 30 controls the operation of the vehicle 10 by using the input recognition result. In this embodiment, a convolutional neural network (CNN) is used as the neural network, but other types of neural networks may be used. Here, examples of the object of the present embodiment include a vehicle existing in front of the vehicle 10 and an obstacle such as a stone. Further, as an area of the present embodiment, for example, a travelable area of the vehicle 10 can be mentioned. In the present embodiment, the neural network is pre-learned using an arbitrary number (for example, 9000) of data tagged about the region and the object in the captured image and the distance image.

図2に示すように、認識装置100は、撮像画像入力部101と、距離画像入力部102と、撮像画像特徴マップ抽出部104と、距離画像特徴マップ抽出部105と、特徴マップ連結部106と、領域セグメンテーション部107と、物体セグメンテーション部108と、領域出力部109と、物体出力部110と、を備える。このうち、撮像画像特徴マップ抽出部104、距離画像特徴マップ抽出部105、特徴マップ連結部106、領域セグメンテーション部107、及び物体セグメンテーション部108がニューラルネットワーク103として構成されている。上記各部は、実際には、CPU11が予め記憶されたプログラム(主として、行列演算や畳込み演算)を実効することにより実行される。各部の処理内容を図3に示す。各処理は、矢印に沿ってデータが送られることによって実効されるので、フローチャートのような順次処理としてではなく、データフローを中心に各処理を実行するブロックが存在するものとして説明する。 As shown in FIG. 2, the recognition device 100 includes a captured image input unit 101, a distance image input unit 102, a captured image feature map extraction unit 104, a distance image feature map extraction unit 105, and a feature map connecting unit 106. The region segmentation unit 107, the object segmentation unit 108, the region output unit 109, and the object output unit 110 are provided. Of these, the captured image feature map extraction unit 104, the distance image feature map extraction unit 105, the feature map connection unit 106, the region segmentation unit 107, and the object segmentation unit 108 are configured as the neural network 103. Each of the above parts is actually executed by the CPU 11 executing a program (mainly a matrix operation or a convolution operation) stored in advance. The processing contents of each part are shown in FIG. Since each process is executed by sending data along the arrow, it is described as assuming that there is a block that executes each process centering on the data flow, not as a sequential process as in a flowchart.

図3に示されるように、認識処理が開始されると、認識装置100の撮像画像入力部101は、撮像画像取得部21から取得された撮像画像をニューラルネットワーク103に入力する。なお、取得された撮像画像は、ニューラルネットワーク103に入力する前に、サイズの変更や歪みの補正などの処理を行ってもよい。 As shown in FIG. 3, when the recognition process is started, the captured image input unit 101 of the recognition device 100 inputs the captured image acquired from the captured image acquisition unit 21 to the neural network 103. The acquired image may be resized, corrected for distortion, or the like before being input to the neural network 103.

本実施形態では、撮像画像として、画素ごとに輝度(0~255)に変換された画像である輝度画像を用いるが、これに代えて、カラー画像を用いてもよい。輝度画像を用いることにより、照度の違いによる影響を小さくできるとともに、カラー画像よりも情報量が少ないため、処理を迅速に行うことができる。また、距離画像として視差画像を用い、撮像画像として輝度画像を用いることにより、遠方の物体が検出しやすくなるため、好ましい。 In the present embodiment, a luminance image, which is an image converted into luminance (0 to 255) for each pixel, is used as the captured image, but a color image may be used instead. By using the luminance image, the influence of the difference in illuminance can be reduced, and the amount of information is smaller than that of the color image, so that the processing can be performed quickly. Further, it is preferable to use a parallax image as a distance image and a luminance image as a captured image because it is easy to detect a distant object.

また、認識装置100の距離画像入力部102は、距離画像取得部22から取得された距離画像をニューラルネットワーク103に入力する。なお、取得された距離画像は、ニューラルネットワーク103に入力する前に、サイズの変更や歪みの補正などの処理を行ってもよい。 Further, the distance image input unit 102 of the recognition device 100 inputs the distance image acquired from the distance image acquisition unit 22 to the neural network 103. The acquired distance image may be subjected to processing such as size change and distortion correction before being input to the neural network 103.

本実施形態では、距離画像として、視差画像を用いるが、これに限られず、例えば、デプスカメラから取得するデプス画像や、LIDARやミリ波レーダーから取得する距離画像を用いてもよい。視差画像は、画素ごとに視差に応じた値(0~255)を与えた画像であり、本実施形態では、視差が大きいほど明るく表現される。視差画像を用いることにより、物体の領域や領域の境界が輝度画像よりも特徴として明確となるため、出力結果における境界の精度を向上できる。例えば、アスファルトなどの黒い路面を走行する黒い車両が走行している場合、輝度画像やカラー画像では路面と車両との境界の判別が困難となるが、視差画像を用いることにより、路面と車両との境界が明確となる。また、輝度画像やカラー画像では、車両の外観についても出力結果に影響を与えるが、距離画像を用いることにより、この影響を緩和できる。また、距離画像を用いることにより、撮像時の明るさの影響を緩和できる。このように、本実施形態では、入力画像として、撮像画像と距離画像とを用いることにより、お互いの特性を補完することができる。 In the present embodiment, the parallax image is used as the distance image, but the present invention is not limited to this, and for example, a depth image acquired from a depth camera or a distance image acquired from a lidar or a millimeter wave radar may be used. The parallax image is an image in which a value (0 to 255) corresponding to the parallax is given for each pixel, and in the present embodiment, the larger the parallax, the brighter the image is expressed. By using the parallax image, the area of the object and the boundary of the area become clearer as a feature than the luminance image, so that the accuracy of the boundary in the output result can be improved. For example, when a black vehicle traveling on a black road surface such as asphalt is traveling, it is difficult to distinguish the boundary between the road surface and the vehicle in a luminance image or a color image. The boundary of is clear. Further, in the luminance image and the color image, the appearance of the vehicle also affects the output result, and this influence can be mitigated by using the distance image. Further, by using a distance image, the influence of brightness at the time of imaging can be mitigated. As described above, in the present embodiment, the characteristics of each other can be complemented by using the captured image and the distance image as the input image.

次に、認識装置100の撮像画像特徴マップ抽出部104は、撮像画像の特徴マップを抽出する。つまり、撮像画像特徴マップ抽出部104は、メモリ12に記憶された学習済みモデルからの指令に従って、撮像画像の中に撮像された物体及び領域のセグメンテーションに有用な特徴マップを撮像画像から抽出する。 Next, the captured image feature map extraction unit 104 of the recognition device 100 extracts the feature map of the captured image. That is, the captured image feature map extraction unit 104 extracts a feature map useful for segmentation of an object and a region captured in the captured image from the captured image according to a command from the learned model stored in the memory 12.

図4に示すように、本実施形態では、撮像画像特徴マップ抽出部104は、畳込み層とプーリング層とを備える複数の撮像ブロックSB1~SB5(以下、単に、「撮像ブロックSB」とも呼ぶ)を備える。本実施形態では、撮像ブロックSBは、畳込み層が2層とプーリング層が1層とを、この順にデータを処理するように備える。ここで、図3以降の図では、畳込み層を「Conv.」と記載し、プーリング層を「Pooling」と記載する。撮像ブロックSBは、後述する走行ブロックの数より1個多く、本実施形態では、撮像画像特徴マップ抽出部104は、5個の撮像ブロックSBを備える。撮像ブロックSBにより抽出された特徴マップは、図3に示すように、領域セグメンテーション部107及び物体セグメンテーション部108へ出力される。 As shown in FIG. 4, in the present embodiment, the captured image feature map extraction unit 104 has a plurality of imaging blocks SB1 to SB5 including a convolutional layer and a pooling layer (hereinafter, also simply referred to as “imaging block SB”). To prepare for. In the present embodiment, the image pickup block SB is provided with two convolutional layers and one pooling layer so as to process data in this order. Here, in the drawings after FIG. 3, the convoluted layer is described as "Conv.", And the pooling layer is described as "Pooling". The number of the image pickup block SB is one more than the number of traveling blocks described later, and in the present embodiment, the image pickup image feature map extraction unit 104 includes five image pickup block SBs. As shown in FIG. 3, the feature map extracted by the image pickup block SB is output to the region segmentation unit 107 and the object segmentation unit 108.

撮像画像特徴マップ抽出部104は、さらに、撮像ブロックSBの下流側において、撮像アップサンプリングブロックSBU(以下、「撮像USブロックSBU」とも呼ぶ)を備える。撮像USブロックSBUは、畳込み層とアップサンプリング層とを備える。なお、図3以降の図では、アップサンプリング層を「US」と記載する。本実施形態では、撮像USブロックSBUは、畳込み層を2層と、アップサンプリング層を1層とを、この順にデータを処理するように備える。撮像USブロックSBUにより抽出された特徴マップは、特徴マップ連結部106へ出力される。 The captured image feature map extraction unit 104 further includes an imaging upsampling block SBU (hereinafter, also referred to as “imaging US block SBU”) on the downstream side of the imaging block SB. The imaging US block SBU includes a convolutional layer and an upsampling layer. In the figures after FIG. 3, the upsampling layer is referred to as "US". In the present embodiment, the imaging US block SBU is provided with two convolutional layers and one upsampling layer so as to process data in this order. The feature map extracted by the imaging US block SBU is output to the feature map connecting unit 106.

認識装置100の距離画像特徴マップ抽出部105は、距離画像の特徴マップを抽出する。つまり、距離画像特徴マップ抽出部105は、メモリ12に記憶された学習済みモデルからの指令に従って、距離画像の中に撮像された物体及び領域のセグメンテーションに有用な特徴マップを距離画像から抽出する。 The distance image feature map extraction unit 105 of the recognition device 100 extracts the feature map of the distance image. That is, the distance image feature map extraction unit 105 extracts a feature map useful for segmentation of an object and a region captured in the distance image from the distance image according to a command from the trained model stored in the memory 12.

図5に示すように、本実施形態では、距離画像特徴マップ抽出部105は、畳込み層とプーリング層とを備える複数の距離ブロックKB1~KB5(以下、単に、「距離ブロックKB」とも呼ぶ)を備える。本実施形態では、距離ブロックKBは、畳込み層が2層とプーリング層が1層とを、この順にデータを処理するように備える。本実施形態では、距離ブロックKBは、撮像ブロックと同じ個数である。本実施形態では、距離画像特徴マップ抽出部105は、5個の距離ブロックKBを備える。距離ブロックKBにより抽出された特徴マップは、領域セグメンテーション部107及び物体セグメンテーション部108へ出力される。 As shown in FIG. 5, in the present embodiment, the distance image feature map extraction unit 105 includes a plurality of distance blocks KB1 to KB5 (hereinafter, also simply referred to as “distance block KB”) including a folding layer and a pooling layer. To prepare for. In the present embodiment, the distance block KB is provided with two convolutional layers and one pooling layer so as to process data in this order. In this embodiment, the number of distance blocks KB is the same as the number of image pickup blocks. In the present embodiment, the distance image feature map extraction unit 105 includes five distance blocks KB. The feature map extracted by the distance block KB is output to the area segmentation unit 107 and the object segmentation unit 108.

距離画像特徴マップ抽出部105は、さらに、距離ブロックの下流側において、距離アップサンプリングブロックKBU(以下、「距離USブロックKBU」とも呼ぶ)を備える。距離USブロックKBUは、畳込み層とアップサンプリング層とを備える。本実施形態では、距離USブロックKBUは、畳込み層を2層と、アップサンプリング層を1層とを、この順にデータを処理するように備える。距離USブロックKBUにより抽出された特徴マップは、特徴マップ連結部106へ出力される。 The distance image feature map extraction unit 105 further includes a distance upsampling block KBU (hereinafter, also referred to as “distance US block KBU”) on the downstream side of the distance block. The distance US block KBU comprises a convolutional layer and an upsampling layer. In the present embodiment, the distance US block KBU is provided with two convolutional layers and one upsampling layer to process data in this order. The feature map extracted by the distance US block KBU is output to the feature map connecting unit 106.

図3から図5に示すように、認識装置100の特徴マップ連結部106は、撮像画像から抽出された特徴マップと、距離画像から抽出された特徴マップとを連結する。具体的には、特徴マップ連結部106は、最も下流側の撮像ブロックSB5により抽出された特徴マップと、最も下流側の距離ブロックKB5により抽出された特徴マップと、撮像USブロックSBUにより抽出された特徴マップと、距離USブロックKBUにより抽出された特徴マップとを連結させる。より具体的には、特徴マップ連結部106は、(i)撮像USブロックSBUのアップサンプリング層により抽出された特徴マップと、(ii)距離USブロックKBUのアップサンプリング層により抽出された特徴マップと、(iii)5番目の撮像ブロックSB5におけるプーリング層の前の畳込み層により抽出された特徴マップと、(iv)5番目の距離ブロックKB5におけるプーリング層の前の畳込み層により抽出された特徴マップと、を連結する。 As shown in FIGS. 3 to 5, the feature map connecting portion 106 of the recognition device 100 connects the feature map extracted from the captured image and the feature map extracted from the distance image. Specifically, the feature map connecting portion 106 was extracted by the feature map extracted by the most downstream image pickup block SB5, the feature map extracted by the most downstream distance block KB5, and the image pickup US block SBU. The feature map and the feature map extracted by the distance US block KBU are connected. More specifically, the feature map connecting portion 106 includes (i) a feature map extracted by the upsampling layer of the imaging US block SBU, and (ii) a feature map extracted by the upsampling layer of the distance US block KBU. , (Iii) Feature map extracted by the convolutional layer in front of the pooling layer in the 5th imaging block SB5, and (iv) Features extracted by the convolutional layer in front of the pooling layer in the 5th distance block KB5. Connect with the map.

その後、認識装置100は、連結された特徴マップと、撮像画像から抽出された特徴マップと、距離画像から抽出された特徴マップとを用いて、領域のセグメンテーションに用いる特徴マップを生成するとともに、物体のセグメンテーションに用いる特徴マップを制生成する。ここで、領域のセグメンテーションとは、画像の中の特定領域をピクセル単位で指定することを言い、物体のセグメンテーションとは、画像の中の特定物体をピクセル単位で指定することを言う。 After that, the recognition device 100 uses the connected feature map, the feature map extracted from the captured image, and the feature map extracted from the distance image to generate a feature map to be used for segmentation of the region, and also to generate an object. The feature map used for the segmentation of is generated. Here, the segmentation of an area means that a specific area in an image is specified in pixel units, and the segmentation of an object means that a specific object in an image is specified in pixel units.

本実施形態では、図6に示すように、領域セグメンテーション部107は、複数の領域ブロックRB1~RB4(以下、単に、「領域ブロックRB」とも呼ぶ)を備える。本実施形態では、領域セグメンテーション部107は、領域ブロックを4個備える。領域ブロックRBは、逆畳込み層と、アップサンプリング層と、結合層とを備える。なお、図6以降の図では、逆畳込み層を「Deconv.」と記載し、結合層を「Concat」と記載する。本実施形態では、領域ブロックRBは、逆畳込み層が2層と、アップサンプリング層と、結合層とを、この順にデータを処理するように備える。領域ブロックの結合層は、アップサンプリング層により抽出された特徴マップと、撮像画像特徴マップ抽出部104の撮像ブロック及び距離画像特徴マップ抽出部105の距離ブロックによってそれぞれ抽出された特徴マップとの結合を行う。 In the present embodiment, as shown in FIG. 6, the region segmentation unit 107 includes a plurality of region blocks RB1 to RB4 (hereinafter, also simply referred to as “region block RB”). In the present embodiment, the region segmentation unit 107 includes four region blocks. The region block RB includes a reverse convolution layer, an upsampling layer, and a coupling layer. In addition, in the figure after FIG. 6, the reverse convolution layer is described as "Deconv.", And the binding layer is described as "Concat". In the present embodiment, the region block RB is provided with two reverse convolution layers, an upsampling layer, and a coupling layer so as to process data in this order. The connection layer of the region block is a combination of the feature map extracted by the upsampling layer and the feature map extracted by the image pickup block of the captured image feature map extraction unit 104 and the distance block of the distance image feature map extraction unit 105, respectively. conduct.

領域セグメンテーション部107は、さらに、領域ブロックの下流側において、領域ドロップアウトブロックRBD(以下、「領域DOブロックRBD」とも呼ぶ)を備える。領域DOブロックRBDは、逆畳込み層と、ドロップアウト層とを備える。本実施形態では、領域DOブロックRBDは、逆畳込み層と、ドロップアウト層とを交互に2層ずつ、この順にデータを処理するように備える。領域DOブロックRBDにより抽出された特徴マップは、領域出力部109へ出力される。本実施形態はドロップアウト層を備えることにより、過学習を避けることができる。 The region segmentation unit 107 further includes a region dropout block RBD (hereinafter, also referred to as “region DO block RBD”) on the downstream side of the region block. The region DO block RBD comprises a reverse convolution layer and a dropout layer. In the present embodiment, the region DO block RBD is provided with two layers alternately of a reverse convolution layer and a dropout layer, so as to process data in this order. The feature map extracted by the area DO block RBD is output to the area output unit 109. The present embodiment can avoid overfitting by providing a dropout layer.

認識装置100の物体セグメンテーション部108は、連結された特徴マップと、撮像画像から抽出された特徴マップと、距離画像から抽出された特徴マップとを用いて、物体のセグメンテーションに用いる特徴マップを生成する。 The object segmentation unit 108 of the recognition device 100 generates a feature map used for object segmentation by using the connected feature map, the feature map extracted from the captured image, and the feature map extracted from the distance image. ..

本実施形態では、図7に示すように、物体セグメンテーション部108は、複数の物体ブロックBB1~BB4(以下、単に、「物体ブロックBB」とも呼ぶ)を備える。本実施形態では、物体セグメンテーション部108は、物体ブロックBBを4個備える。物体ブロックBBは、逆畳込み層と、アップサンプリング層と、結合層とを備える。本実施形態では、物体ブロックBBは、逆畳込み層が2層と、アップサンプリング層と、結合層とを、この順にデータを処理するよう備える。物体ブロックBBの結合層は、アップサンプリング層により抽出された特徴マップと、撮像画像特徴マップ抽出部104の撮像ブロック及び距離画像特徴マップ抽出部105の距離ブロックによってそれぞれ抽出された特徴マップとの結合を行う。 In the present embodiment, as shown in FIG. 7, the object segmentation unit 108 includes a plurality of object blocks BB1 to BB4 (hereinafter, also simply referred to as “object block BB”). In the present embodiment, the object segmentation unit 108 includes four object blocks BB. The object block BB includes a reverse convolution layer, an upsampling layer, and a coupling layer. In the present embodiment, the object block BB is provided with two reverse convolution layers, an upsampling layer, and a coupling layer so as to process data in this order. The coupling layer of the object block BB is a combination of the feature map extracted by the upsampling layer and the feature map extracted by the imaging block of the captured image feature map extraction unit 104 and the distance block of the distance image feature map extraction unit 105, respectively. I do.

物体セグメンテーション部108は、さらに、物体ブロックの下流側において、物体ドロップアウトブロックBBD(以下、「物体DOブロックBBD」とも呼ぶ)を備える。物体DOブロックBBDは、逆畳込み層と、ドロップアウト層とを備える。本実施形態では、物体DOブロックBBDは、逆畳込み層と、ドロップアウト層とを交互に2層ずつ、この順にデータを処理するよう備える。物体DOブロックBBDにより抽出された特徴マップは、物体出力部110へ出力される。本実施形態はドロップアウト層を備えることにより、過学習を避けることができる。 The object segmentation unit 108 further includes an object dropout block BBD (hereinafter, also referred to as “object DO block BBD”) on the downstream side of the object block. The object DO block BBD includes a reverse convolution layer and a dropout layer. In the present embodiment, the object DO block BBD is provided with two layers alternately of a reverse convolution layer and a dropout layer, and the data is processed in this order. The feature map extracted by the object DO block BBD is output to the object output unit 110. The present embodiment can avoid overfitting by providing a dropout layer.

そして、認識装置100の領域出力部109は、領域セグメンテーション部107により抽出された特徴マップから、画像と領域とを関連付けるセマンティックセグメンテーションを行う。本実施形態では、領域出力部109は、シグモイド活性化関数とバイナリクロスエントロピーエラー関数を用いることによって変換を行うことにより、セマンティックセグメンテーションを行う。 Then, the area output unit 109 of the recognition device 100 performs semantic segmentation that associates the image with the area from the feature map extracted by the area segmentation unit 107. In the present embodiment, the region output unit 109 performs semantic segmentation by performing conversion by using a sigmoid activation function and a binary cross entropy error function.

認識装置100の物体出力部110は、物体セグメンテーション部108により抽出された特徴マップから、画像と物体とを関連付ける物体に関するセマンティックセグメンテーションを行う。本実施形態では、物体出力部110は、シグモイド活性化関数とバイナリクロスエントロピーエラー関数を用いることによって変換を行うことにより、セマンティックセグメンテーションを行う。 The object output unit 110 of the recognition device 100 performs semantic segmentation regarding an object that associates an image with an object from a feature map extracted by the object segmentation unit 108. In the present embodiment, the object output unit 110 performs semantic segmentation by performing conversion by using a sigmoid activation function and a binary cross entropy error function.

以上により、撮像画像取得部21及び距離画像取得部22によって得られた画像データが、認識装置100で処理されることにより、撮像画像取得部21、距離画像取得部22に撮像された一組の画像に対する認識処理は終了する。なお、認識処理により得られた認識結果は、認識装置100により車両10の制御部30に入力される。上述した処理は、撮像画像取得部21及び距離画像取得部22による撮像が続く限り繰り返し行われる。 As described above, the image data obtained by the captured image acquisition unit 21 and the distance image acquisition unit 22 is processed by the recognition device 100, so that a set of images captured by the captured image acquisition unit 21 and the distance image acquisition unit 22. The recognition process for the image ends. The recognition result obtained by the recognition process is input to the control unit 30 of the vehicle 10 by the recognition device 100. The above-mentioned processing is repeated as long as the imaging by the captured image acquisition unit 21 and the distance image acquisition unit 22 continues.

図8には、撮像画像取得部21が取得した輝度画像と、セマンティックセグメンテーション後の領域画像及び物体画像との例が示されている。図8では、物体として前方の車両が認識されており、領域として車両が走行可能な領域が認識されている。図8から分かるように、物体の境界と領域の境界が明確に分かれていることが分かる。 FIG. 8 shows an example of a luminance image acquired by the captured image acquisition unit 21 and a region image and an object image after semantic segmentation. In FIG. 8, the vehicle in front is recognized as an object, and the area in which the vehicle can travel is recognized as an area. As can be seen from FIG. 8, it can be seen that the boundary between the object and the boundary of the area are clearly separated.

本実施形態では、撮像ブロックSBにより抽出された特徴マップは、下流側の撮像ブロックSBへ出力されるとともに、領域ブロックRB及び物体ブロックBBへ出力される。ここで、領域ブロックRBの個数をKとし、nを任意の整数(n=1~K)とすると、上流から起算してn個目の撮像ブロックSBは、n+1番目の撮像ブロックSBへ特徴マップを出力するとともに、上流から起算してK-n+1番目の領域ブロックRB及びK-n+1番目の物体ブロックBBへ特徴マップを出力する。ここで、n+1個目の撮像ブロックSBには、n個目の撮像ブロックSBのプーリング層から抽出された特徴マップが出力されるが、K-n+1番目の領域ブロックRB及びK-n+1番目の物体ブロックBBには、n個目の撮像ブロックSBのプーリング層の前の畳込み層により抽出された特徴マップが出力される。本実施形態では、領域ブロックの個数は4個であるため、例えば、上流から起算して1個目(n=1)の撮像ブロックSB1は、2番目の撮像ブロックSB2へ出力するととともに、上流から起算して4番目の領域ブロックRB4及び4番目の物体ブロックBB4へ出力される。 In the present embodiment, the feature map extracted by the image pickup block SB is output to the image pickup block SB on the downstream side, and is also output to the area block RB and the object block BB. Here, assuming that the number of region blocks RB is K and n is an arbitrary integer (n = 1 to K), the nth image pickup block SB counting from the upstream is a feature map to the n + 1th image pickup block SB. Is output, and the feature map is output to the Kn + 1st area block RB and the Kn + 1st object block BB counting from the upstream. Here, the feature map extracted from the pooling layer of the nth imaging block SB is output to the n + 1th imaging block SB, but the Kn + 1st region block RB and the Kn + 1st object. The feature map extracted by the convolutional layer in front of the pooling layer of the nth imaging block SB is output to the block BB. In the present embodiment, the number of region blocks is 4, so for example, the first (n = 1) image pickup block SB1 counting from the upstream is output to the second image pickup block SB2 and is output from the upstream. It is calculated and output to the fourth area block RB4 and the fourth object block BB4.

また、本実施形態では、距離ブロックKBにより抽出された特徴マップは、下流側の距離ブロックKBへ出力されるとともに、領域ブロックRB及び物体ブロックBBへ出力される。Kを領域ブロックの個数とし、nを任意の整数(n=1~K)とすると、上流から起算してn個目の距離ブロックKBは、n+1番目の距離ブロックKBへ出力するとともに、上流から起算してK-n+1番目の領域ブロックRB及びK-n+1番目の物体ブロックBBへ出力する。ここで、n+1個目の距離ブロックKBには、n個目の距離ブロックKBのプーリング層から抽出された特徴マップが出力されるが、K-n+1番目の領域ブロックRB及びK-n+1番目の物体ブロックBBには、n個目の距離ブロックKBのプーリング層の前の畳込み層により抽出された特徴マップが出力される。本実施形態では、距離ブロックの個数は4個であるため、例えば、上流から起算して1個目(n=1)の距離ブロックKB1は、2番目の距離ブロックKB2へ出力するととともに、上流から起算して4番目の領域ブロックRB4及び4番目の物体ブロックBB4へ出力される。 Further, in the present embodiment, the feature map extracted by the distance block KB is output to the distance block KB on the downstream side, and is also output to the area block RB and the object block BB. Assuming that K is the number of area blocks and n is an arbitrary integer (n = 1 to K), the nth distance block KB counting from the upstream is output to the n + 1th distance block KB and is output from the upstream. It is calculated and output to the Kn + 1st area block RB and the Kn + 1st object block BB. Here, the feature map extracted from the pooling layer of the nth distance block KB is output to the n + 1th distance block KB, but the Kn + 1st region block RB and the Kn + 1st object. The feature map extracted by the convolutional layer before the pooling layer of the nth distance block KB is output to the block BB. In the present embodiment, the number of distance blocks is 4, so for example, the first distance block KB1 (n = 1) counting from the upstream is output to the second distance block KB2 and is output from the upstream. It is calculated and output to the fourth area block RB4 and the fourth object block BB4.

つまり、本実施形態のニューラルネットワークは、特徴マップ連結部106により連結された特徴マップに加え、さらに、撮像画像特徴マップ抽出部104から抽出された特徴マップや、距離画像特徴マップ抽出部105から抽出された特徴マップが、特徴マップ連結部106を経ずに、直接、領域セグメンテーション部107や物体セグメンテーション部108に出力される。このため、一般的なニューラルネットワークでは層が増えるたびに誤差が伝わりにくくなるため、学習の効率が下がり、物体や領域の境界がぼやけるが、本実施形態によれば、ネットワークの出力層である領域セグメンテーション部107及び物体セグメンテーション部108で、境界の情報の多い入力層である撮像画像特徴マップ抽出部104及び距離画像特徴マップ抽出部105からの情報を照らし合わせるため、物体の境界がぼやけることなく、精度を向上させることができる。 That is, the neural network of the present embodiment is further extracted from the feature map extracted from the captured image feature map extraction unit 104 and the distance image feature map extraction unit 105 in addition to the feature map connected by the feature map connection unit 106. The created feature map is directly output to the area segmentation section 107 and the object segmentation section 108 without passing through the feature map connecting section 106. For this reason, in a general neural network, an error is less likely to be transmitted as the number of layers increases, so that learning efficiency decreases and the boundaries of objects and regions are blurred. However, according to the present embodiment, the region that is the output layer of the network. Since the segmentation unit 107 and the object segmentation unit 108 collate the information from the captured image feature map extraction unit 104 and the distance image feature map extraction unit 105, which are input layers with a large amount of boundary information, the boundaries of the object are not blurred. The accuracy can be improved.

ここで、本実施形態のニューラルネットワークの構造は、既知の他の構造とは異なる。図9に示すFuseNetを用いた比較例100Yは、本実施形態と比較して、(i)領域セグメンテーション部107及び物体セグメンテーション部108の代わりにセグメンテーション部107Yを備え、(ii)領域出力部109及び物体出力部110を備える代わりに出力部109Yを備える点で異なる。この相違点によって、本実施形態のニューラルネットワークの構造は、比較例100Yと比較して、物体や領域の境界がより明確となる。 Here, the structure of the neural network of this embodiment is different from other known structures. Comparative Example 100Y using the FaceNet shown in FIG. 9 includes (i) a segmentation unit 107Y instead of the region segmentation unit 107 and the object segmentation unit 108, and (ii) the region output unit 109 and The difference is that the output unit 109Y is provided instead of the object output unit 110. Due to this difference, the structure of the neural network of the present embodiment has a clearer boundary between an object and a region as compared with Comparative Example 100Y.

また、図10に示すU-Netを用いた比較例100Zは、本実施形態と比較して、距離画像入力部102、距離画像特徴マップ抽出部105、及び物体セグメンテーション部108、物体出力部110を備えず、領域セグメンテーション部107の代わりにセグメンテーション部107Zを備え、領域出力部109の代わりに出力部109Zを備える点が異なる。この相違点によって、本実施形態のニューラルネットワークの構造は、撮像画像特徴マップ抽出部104において撮像画像の特徴マップの抽出に特化しているとともに、距離画像特徴マップ抽出部105において距離画像の特徴マップの抽出に特化している点で比較例100Zと異なる。この結果、本実施形態のニューラルネットワークの構造は、比較例100Zと比較して、物体の境界と領域の境界との境界がより明確となる。 Further, in Comparative Example 100Z using U-Net shown in FIG. 10, the distance image input unit 102, the distance image feature map extraction unit 105, the object segmentation unit 108, and the object output unit 110 are compared with the present embodiment. The difference is that the segmentation unit 107Z is provided in place of the area segmentation unit 107, and the output unit 109Z is provided in place of the area output unit 109. Due to this difference, the structure of the neural network of the present embodiment is specialized in extracting the feature map of the captured image in the captured image feature map extraction unit 104, and the feature map of the distance image in the distance image feature map extraction unit 105. It differs from Comparative Example 100Z in that it specializes in the extraction of. As a result, in the structure of the neural network of the present embodiment, the boundary between the boundary of the object and the boundary of the region becomes clearer as compared with Comparative Example 100Z.

B.変形例
図11に示す変形例の認識装置100Aは、上述の認識装置100と比較して、さらに、カラー画像をニューラルネットワークに入力するカラー画像入力部102Aと、カラー画像の特徴マップを抽出するカラー画像特徴マップ抽出部105Aと、歩行者のセグメンテーションに用いる特徴マップを生成する歩行者セグメンテーション部108Aと、画像と歩行者とを関連付けるセマンティックセグメンテーションを行う歩行者出力部110Aと、を備える点で異なる。さらに、変形例の認識装置100Aは、上述の認識装置100と比較して、(i)カラー画像特徴マップ抽出部105Aにより抽出された特徴マップが、特徴マップ連結部106、領域セグメンテーション部107、及び物体セグメンテーション部108へ出力されるとともに、(ii)撮像画像特徴マップ抽出部104、距離画像特徴マップ抽出部105、及び特徴マップ連結部106により抽出された特徴マップが歩行者セグメンテーション部108Aへ出力される点が異なる。
B. Modification example The recognition device 100A of the modification shown in FIG. 11 is compared with the above-mentioned recognition device 100, and further includes a color image input unit 102A for inputting a color image into a neural network and a color for extracting a feature map of the color image. It differs in that it includes an image feature map extraction unit 105A, a pedestrian segmentation unit 108A that generates a feature map used for pedestrian segmentation, and a pedestrian output unit 110A that performs semantic segmentation that associates an image with a pedestrian. Further, in the recognition device 100A of the modified example, as compared with the above-mentioned recognition device 100, the feature map extracted by (i) the color image feature map extraction unit 105A has the feature map connecting unit 106, the area segmentation unit 107, and the feature map. In addition to being output to the object segmentation unit 108, (ii) the feature map extracted by the captured image feature map extraction unit 104, the distance image feature map extraction unit 105, and the feature map connection unit 106 is output to the pedestrian segmentation unit 108A. The point is different.

この変形例のように、本開示において入力する画像は、2種類ではなく3種類以上であってもよく、出力する画像は、2種類ではなく3種類以上であってもよい。 As in this modification, the images input in the present disclosure may be three or more types instead of two types, and the output images may be three or more types instead of two types.

本開示は、上述の実施形態および変形例に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば、発明の概要の欄に記載した各形態中の技術的特徴に対応する本実施形態、変形例中の技術的特徴は、上述の課題の一部又は全部を解決するために、あるいは、上述の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。 The present disclosure is not limited to the above-described embodiments and modifications, and can be realized with various configurations within a range not deviating from the gist thereof. For example, the technical features in the present embodiment and modifications corresponding to the technical features in each of the embodiments described in the column of the outline of the invention may be used to solve some or all of the above-mentioned problems, or the above-mentioned ones. It is possible to replace or combine them as appropriate in order to achieve some or all of the effects of. Further, if the technical feature is not described as essential in the present specification, it can be appropriately deleted.

10 車両、11 CPU、12 メモリ、21 撮像画像取得部、22 距離画像取得部、30 制御部、100 認識装置、100A 認識装置、100Y、100Z 比較例、101 撮像画像入力部、102 距離画像入力部、102A カラー画像入力部、104 撮像画像特徴マップ抽出部、105 距離画像特徴マップ抽出部、105A カラー画像特徴マップ抽出部、106 特徴マップ連結部、107 領域セグメンテーション部、107Y セグメンテーション部、108 物体セグメンテーション部、108A 歩行者セグメンテーション部、109 領域出力部、109Y 出力部、110A 歩行者出力部、110 物体出力部、BB 物体ブロック、BBD 物体DOブロック、KB 距離ブロック、KBU 距離USブロック、RB 領域ブロック、RBD 領域DOブロック、SB 撮像ブロック、SBU 撮像USブロック、 10 vehicle, 11 CPU, 12 memory, 21 captured image acquisition unit, 22 distance image acquisition unit, 30 control unit, 100 recognition device, 100A recognition device, 100Y, 100Z comparative example, 101 image capture image input unit, 102 distance image input unit , 102A color image input section, 104 captured image feature map extraction section, 105 distance image feature map extraction section, 105A color image feature map extraction section, 106 feature map connection section, 107 area segmentation section, 107Y segmentation section, 108 object segmentation section. , 108A pedestrian segmentation section, 109 area output section, 109Y output section, 110A pedestrian output section, 110 object output section, BB object block, BBD object DO block, KB distance block, KBU distance US block, RB area block, RBD Area DO block, SB imaging block, SBU imaging US block,

Claims (4)

学習済みのニューラルネットワークを用いて、領域と物体とを認識する認識装置(100)であって、
前記領域と前記物体とが画像中に含まれる撮像画像の特徴マップを抽出する撮像画像特徴マップ抽出部(104)と、
前記領域と前記物体とが画像中に含まれる距離画像の特徴マップを抽出する距離画像特徴マップ抽出部(105)と、
前記撮像画像から抽出された特徴マップと、前記距離画像から抽出された特徴マップとを連結する特徴マップ連結部(106)と、
前記連結された特徴マップと、前記撮像画像から抽出された特徴マップと、前記距離画像から抽出された特徴マップとを用いて、前記領域のセグメンテーションに用いる特徴マップを生成する領域セグメンテーション部(107)と、
前記領域のセグメンテーションに用いる特徴マップを用いて、前記画像と前記領域とを関連付けるセマンティックセグメンテーションを行う領域出力部(109)と、
前記連結された特徴マップと、前記撮像画像から抽出された特徴マップと、前記距離画像から抽出された特徴マップとを用いて、前記物体のセグメンテーションに用いる特徴マップを生成する物体セグメンテーション部(108)と、
前記物体のセグメンテーションに用いる特徴マップを用いて、前記画像と前記物体とを関連付けるセマンティックセグメンテーションを行う物体出力部(110)と、を備え、
前記撮像画像特徴マップ抽出部と、前記距離画像特徴マップ抽出部と、前記特徴マップ連結部と、前記領域セグメンテーション部と、前記物体セグメンテーション部とは、前記ニューラルネットワークにより構成されている、認識装置。
A recognition device (100) that recognizes an area and an object using a trained neural network.
An image capture image feature map extraction unit (104) that extracts a feature map of an image captured image in which the region and the object are included in the image, and
A distance image feature map extraction unit (105) that extracts a feature map of a distance image in which the region and the object are included in the image, and
A feature map connecting unit (106) that connects the feature map extracted from the captured image and the feature map extracted from the distance image, and
A region segmentation unit (107) that generates a feature map to be used for segmentation of the region by using the linked feature map, the feature map extracted from the captured image, and the feature map extracted from the distance image. When,
A region output unit (109) that performs semantic segmentation that associates the image with the region using a feature map used for segmentation of the region.
An object segmentation unit (108) that generates a feature map to be used for segmentation of the object by using the connected feature map, the feature map extracted from the captured image, and the feature map extracted from the distance image. When,
An object output unit (110) that performs semantic segmentation that associates the image with the object by using the feature map used for the segmentation of the object is provided.
A recognition device in which the captured image feature map extraction unit, the distance image feature map extraction unit, the feature map connection unit, the region segmentation unit, and the object segmentation unit are configured by the neural network.
請求項1に記載の認識装置であって、
前記ニューラルネットワークは、畳込みニューラルネットワークである、認識装置。
The recognition device according to claim 1.
The neural network is a recognition device which is a convolutional neural network.
請求項1又は請求項2に記載の認識装置であって、
前記撮像画像は、輝度画像である、認識装置。
The recognition device according to claim 1 or 2.
The captured image is a recognition device which is a luminance image.
請求項1から請求項3のいずれか1項に記載の認識装置であって、
前記距離画像は、視差画像である、認識装置。
The recognition device according to any one of claims 1 to 3.
The distance image is a parallax image, a recognition device.
JP2018099724A 2018-05-24 2018-05-24 Recognition device Active JP7071215B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018099724A JP7071215B2 (en) 2018-05-24 2018-05-24 Recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018099724A JP7071215B2 (en) 2018-05-24 2018-05-24 Recognition device

Publications (2)

Publication Number Publication Date
JP2019204338A JP2019204338A (en) 2019-11-28
JP7071215B2 true JP7071215B2 (en) 2022-05-18

Family

ID=68726999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018099724A Active JP7071215B2 (en) 2018-05-24 2018-05-24 Recognition device

Country Status (1)

Country Link
JP (1) JP7071215B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023242891A1 (en) * 2022-06-13 2023-12-21 日本電気株式会社 Object detection device, training device, object detection method, training method, object detection program, and training program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015133078A (en) 2014-01-15 2015-07-23 株式会社リコー Object recognition device for control, mobile apparatus control system, and program for object recognition for control
US20170124415A1 (en) 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015133078A (en) 2014-01-15 2015-07-23 株式会社リコー Object recognition device for control, mobile apparatus control system, and program for object recognition for control
US20170124415A1 (en) 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Caner Hazirbas et al.,"FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture",Asian Conference on Computer Vision (ACCV),ドイツ,Springer,2016年11月30日,pp.1-15,https://hazirbas.com/projects/fusenet/
Kaiming He et al.,"Mask R-CNN",2017 IEEE International Conference onComputer Vision (ICCV),米国,IEEE,2017年10月11日,pp.2980-2988
藤吉 弘亘、山下 隆義,"深層学習による画像認識",日本ロボット学会誌,日本,一般社団法人日本ロボット学会,2017年04月15日,Vol.35, No.3,pp.8-13

Also Published As

Publication number Publication date
JP2019204338A (en) 2019-11-28

Similar Documents

Publication Publication Date Title
Vennelakanti et al. Traffic sign detection and recognition using a CNN ensemble
JP7012880B2 (en) Target detection method and equipment, equipment and storage media
EP3561727A1 (en) A device and a method for extracting dynamic information on a scene using a convolutional neural network
CN107273788B (en) Imaging system for performing lane detection in a vehicle and vehicle imaging system
US10990820B2 (en) Heterogeneous convolutional neural network for multi-problem solving
JP6316976B2 (en) In-vehicle image recognition device
JP6601506B2 (en) Image processing apparatus, object recognition apparatus, device control system, image processing method, image processing program, and vehicle
CN110765890B (en) Lane and lane mark detection method based on capsule network deep learning architecture
Cao et al. Multi-view frustum pointnet for object detection in autonomous driving
WO2020131134A1 (en) Systems and methods for determining depth information in two-dimensional images
CN109196304B (en) Object distance detection device
US11804026B2 (en) Device and a method for processing data sequences using a convolutional neural network
JP2015203992A (en) Lane mark recognition device
US11694308B2 (en) Images for perception modules of autonomous vehicles
JP7071215B2 (en) Recognition device
Tran et al. Enhancement of robustness in object detection module for advanced driver assistance systems
JP6683245B2 (en) Image processing device, image processing method, image processing program, object recognition device, and device control system
US20200210730A1 (en) Vehicle exterior environment recognition apparatus
Lakmal et al. Pothole detection with image segmentation for advanced driver assisted systems
WO2018143277A1 (en) Image feature value output device, image recognition device, image feature value output program, and image recognition program
JP2019114150A (en) Extravehicular environment recognition device
Guo et al. Deep learning based lane line detection and segmentation using slice image feature
US20190188512A1 (en) Method and image processing entity for applying a convolutional neural network to an image
JP2011221613A (en) Object recognition device
Yamashita et al. Multiple skip connections and dilated convolutions for semantic segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220506

R150 Certificate of patent or registration of utility model

Ref document number: 7071215

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150