JP6830052B2 - Spatial information generator and spatial information generation method - Google Patents

Spatial information generator and spatial information generation method Download PDF

Info

Publication number
JP6830052B2
JP6830052B2 JP2017225930A JP2017225930A JP6830052B2 JP 6830052 B2 JP6830052 B2 JP 6830052B2 JP 2017225930 A JP2017225930 A JP 2017225930A JP 2017225930 A JP2017225930 A JP 2017225930A JP 6830052 B2 JP6830052 B2 JP 6830052B2
Authority
JP
Japan
Prior art keywords
captured image
stage
layer
post
outputs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017225930A
Other languages
Japanese (ja)
Other versions
JP2019096129A (en
Inventor
彰夫 石川
彰夫 石川
菅谷 史昭
史昭 菅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017225930A priority Critical patent/JP6830052B2/en
Publication of JP2019096129A publication Critical patent/JP2019096129A/en
Application granted granted Critical
Publication of JP6830052B2 publication Critical patent/JP6830052B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、機械学習モデルを用いて3次元の空間情報を生成する空間情報生成装置及び空間情報生成方法に関する。 The present invention relates to a spatial information generation device and a spatial information generation method for generating three-dimensional spatial information using a machine learning model.

複数の画像に基づいて、3次元空間における被写体の表面位置を示す3次元物体モデルを生成する装置が知られている。特許文献1には、複数のカメラで撮像した画像から被写体を抽出して3次元物体モデルを生成する技術が開示されている。 A device that generates a three-dimensional object model showing the surface position of a subject in a three-dimensional space based on a plurality of images is known. Patent Document 1 discloses a technique for generating a three-dimensional object model by extracting a subject from images captured by a plurality of cameras.

特開2010−122725号公報JP-A-2010-122725

複数のカメラで撮影した動画像に基づき、任意の位置から見た映像を再現する自由視点映像システムを実現するためには、各画像に表されている被写体の位置を示す情報、すなわち、3次元モデル情報を可能な限り正確に生成することが必要である。従来の技術を用いることで、複数の画像に基づいて、当該画像に写っている被写体の表面位置を推定することができる。しかし、複数の画像間で異なる被写体を同一の被写体であるとして抽出する可能性がある。この場合、正確な3次元モデル情報を生成することができない。 In order to realize a free-viewpoint video system that reproduces an image viewed from an arbitrary position based on moving images taken by a plurality of cameras, information indicating the position of the subject represented in each image, that is, three-dimensional It is necessary to generate model information as accurately as possible. By using the conventional technique, it is possible to estimate the surface position of the subject in the image based on a plurality of images. However, there is a possibility that different subjects among a plurality of images are extracted as the same subject. In this case, accurate 3D model information cannot be generated.

そこで、本発明はこれらの点に鑑みてなされたものであり、3次元空間における被写体の表面位置を推定する精度を向上させることができる空間情報生成装置及び空間情報生成方法を提供することを目的とする。 Therefore, the present invention has been made in view of these points, and an object of the present invention is to provide a spatial information generation device and a spatial information generation method capable of improving the accuracy of estimating the surface position of a subject in a three-dimensional space. And.

本発明の第1の態様に係る空間情報生成装置は、第1撮像装置で生成された第1撮像画像と、前記第1撮像装置とは異なる位置に設置された第2撮像装置で生成された第2撮像画像と、を取得する画像取得部と、前記第1撮像画像及び前記第2撮像画像のそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記第1撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1撮像画像出力と前記第2撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2撮像画像出力とを抽出する抽出部と、前記一以上の第1撮像画像出力に基づいて一以上の第1撮像画像特徴点を検出し、かつ前記一以上の第2撮像画像出力に基づいて一以上の第2撮像画像特徴点を検出する特徴点検出部と、前記一以上の第1撮像画像特徴点と前記一以上の第2撮像画像特徴点とに基づいて、3次元空間における前記被写体の表面位置を示す空間情報を生成する空間情報生成部と、を有する。 The spatial information generator according to the first aspect of the present invention is generated by the first image captured by the first image pickup device and the second image pickup device installed at a position different from the first image pickup device. Machine learning that can output the type of subject included in the second captured image, the image acquisition unit that acquires the second captured image, the first captured image, and the second captured image based on the input image. Common to both the propagation control unit that propagates the plurality of processing layers included in the model, the post-stage processing layer selected from the plurality of processing layers, and the pre-stage processing layer that is the processing layer immediately before the post-stage processing layer. One or more first captured image outputs output from the post-processed layer and the pre-processed layer based on the first captured image, and the post-processed layer and the post-processed layer based on the second captured image. An extraction unit that extracts one or more second captured image outputs output from the pre-stage processing layer, and one or more first captured image feature points are detected based on the one or more first captured image outputs, and the above A feature point detection unit that detects one or more second captured image feature points based on one or more second captured image outputs, the one or more first captured image feature points, and the one or more second captured image feature points. Based on the above, it has a spatial information generation unit that generates spatial information indicating the surface position of the subject in the three-dimensional space.

前記抽出部は、前記第1撮像画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1撮像画像出力、及び前記第2撮像画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2撮像画像出力から、共通に活性化している一以上の後段第1撮像画像出力及び一以上の後段第2撮像画像出力を抽出する後段抽出部と、前記一以上の後段第1撮像画像出力及び前記一以上の後段第2撮像画像出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1撮像画像出力、及び前記前段処理層から出力された複数の前段第2撮像画像出力のうち、共通に活性化している一以上の前段第1撮像画像出力及び一以上の前段第2撮像画像出力を抽出する前段抽出部と、を有してもよい。 The extraction unit outputs a plurality of post-stage first captured images output from the post-stage processing layer because the first captured image propagates in the order of the pre-stage processing layer and the post-stage processing layer which are a part of the plurality of processing layers. , And one or more post-stage first images that are commonly activated from the plurality of post-stage second captured image outputs output from the post-stage processing layer because the second captured image propagated in the order of the pre-stage processing layer and the post-stage processing layer. It is a factor that activates the post-stage extraction unit that extracts one captured image output and one or more post-stage second captured image outputs, the one or more post-stage first captured image output, and the one or more post-stage second captured image output. Of the plurality of pre-stage first captured image outputs output from the pre-stage processing layer and the plurality of pre-stage second captured image outputs output from the pre-stage processing layer, one or more pre-stage first images that are commonly activated. It may have a pre-stage extraction unit that extracts a captured image output and one or more pre-stage second captured image outputs.

前記前段抽出部は、前記複数の前段第1撮像画像出力及び前記複数の前段第2撮像画像出力のうち、活性化している大きさに基づいて、前記一以上の前段第1撮像画像出力及び前記一以上の前段第2撮像画像出力を抽出してもよい。 The pre-stage extraction unit has one or more pre-stage first captured image outputs and the above-mentioned one or more pre-stage first captured image outputs based on the activated size of the plurality of pre-stage first captured image outputs and the plurality of pre-stage second captured image outputs. One or more pre-stage second captured image outputs may be extracted.

前記機械学習モデルは、畳み込みニューラルネットワークを含み、前記後段処理層は、出力層、全結合層、正規化層、プーリング層、及び畳み込み層のうちのいずれかの層であってもよい。
前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層であってもよい。
The machine learning model includes a convolutional neural network, and the post-processing layer may be any one of an output layer, a fully connected layer, a regularized layer, a pooling layer, and a convolutional layer.
The pretreatment layer may be any one of a fully bonded layer, a regularized layer, a pooling layer, a convolution layer, and an input layer.

前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の第1撮像画像出力及び前記一以上の第2撮像画像出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の第1撮像画像出力及び前記一以上の第2撮像画像出力を抽出してもよい。 When the last layer, which is the last treatment layer, is selected as the subsequent treatment layer among the plurality of treatment layers, the extraction unit is one or more of the first ones that are commonly activated in the last treatment layer. When there is no captured image output and one or more second captured image outputs, the one or more first captured image outputs and the one or more second captured images that are commonly activated in the processing layer before the rearmost layer. The image output may be extracted.

前記空間情報生成装置は、前記特徴点検出部が特定した前記一以上の第1撮像画像特徴点及び前記一以上の第2撮像画像特徴点から、相互の対応関係に基づいて一部の第1撮像画像特徴点及び一部の第2撮像画像特徴点を選択する選択部をさらに有し、前記空間情報生成部は、前記一部の第1撮像画像特徴点と前記一部の第2撮像画像特徴点とに基づいて、前記空間情報を生成してもよい。 The spatial information generator is a part of the first image based on the mutual correspondence between the one or more first captured image feature points and the one or more second captured image feature points specified by the feature point detection unit. It further has a selection unit for selecting a captured image feature point and a part of the second captured image feature point, and the spatial information generation unit includes the first captured image feature point of the part and the second captured image of the part. The spatial information may be generated based on the feature points.

前記空間情報生成部は、前記第1撮像画像における前記一部の第1撮像画像特徴点の位置と、前記第2撮像画像における前記一部の第2撮像画像特徴点の位置との関係、並びに前記第1撮像装置及び前記第2撮像装置の視差に基づいて、前記空間情報として被写体との距離を推定してもよい。 The spatial information generation unit has a relationship between the positions of the first captured image feature points in the first captured image and the positions of the second captured image feature points in the second captured image, and The distance to the subject may be estimated as the spatial information based on the difference between the first image pickup device and the second image pickup device.

前記空間情報生成装置は、前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用してもよい。 The spatial information generation device further includes an instruction receiving unit that receives an instruction to select a processing layer to be used as the subsequent processing layer among the plurality of processing layers, and the extraction unit receives the instruction receiving unit. The treated layer indicated by the instruction may be used as the post-processed layer.

前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の第1撮像画像出力及び前記一以上の第2撮像画像出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の第1撮像画像出力及び前記一以上の第2撮像画像出力を抽出してもよい。 The extraction unit selects one of the plurality of processing layers as the post-processing layer, extracts the one or more first captured image outputs and the one or more second captured image outputs, and then extracts the one or more second captured image outputs. The processing layer selected as the processing layer may be selected as the post-stage processing layer to extract another one or more first captured image outputs and one or more second captured image outputs.

本発明の第2の態様に係る空間情報生成方法は、第1撮像装置で生成された第1撮像画像と、前記第1撮像装置とは異なる位置に設置された第2撮像装置で生成された第2撮像画像と、を取得するステップと、前記第1撮像画像及び前記第2撮像画像のそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記第1撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1撮像画像出力と前記第2撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2撮像画像出力とを抽出するステップと、前記一以上の第1撮像画像出力に基づいて一以上の第1撮像画像特徴点を検出し、かつ前記一以上の第2撮像画像出力に基づいて一以上の第2撮像画像特徴点を検出するステップと、前記一以上の第1撮像画像特徴点と前記一以上の第2撮像画像特徴点とに基づいて、3次元空間における前記被写体の表面位置を示す空間情報を生成するステップと、を有する。 The spatial information generation method according to the second aspect of the present invention is generated by the first image captured by the first image pickup device and the second image pickup device installed at a position different from the first image pickup device. A machine learning model capable of outputting the type of the subject included in the second captured image, the step of acquiring the second captured image, and the type of the subject included in the first captured image and the second captured image based on the input image. It is commonly activated in both the step of propagating the plurality of included treatment layers, the post-stage treatment layer selected from the plurality of treatment layers, and the pre-stage treatment layer which is the treatment layer immediately before the post-stage treatment layer. One or more first captured image outputs output from the post-stage processing layer and the pre-stage processing layer based on the first captured image, and from the post-stage processing layer and the pre-stage processing layer based on the second captured image. One or more first captured image feature points are detected based on the step of extracting one or more output second captured image outputs and the one or more first captured image outputs, and the one or more second captured image features. A three-dimensional space based on the step of detecting one or more second captured image feature points based on the captured image output, the one or more first captured image feature points, and the one or more second captured image feature points. It has a step of generating spatial information indicating the surface position of the subject in the above.

前記抽出するステップは、前記第1撮像画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1撮像画像出力、及び前記第2撮像画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2撮像画像出力から、共通に活性化している一以上の後段第1撮像画像出力及び一以上の後段第2撮像画像出力を抽出する前段抽出ステップと、前記一以上の後段第1撮像画像出力及び前記一以上の後段第2撮像画像出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1撮像画像出力、及び前記前段処理層から出力された複数の前段第2撮像画像出力のうち、共通に活性化している一以上の前段第1撮像画像出力及び一以上の前段第2撮像画像出力を抽出する後段抽出ステップと、を有してもよい。 In the extraction step, a plurality of post-stage first captured images output from the post-stage processing layer due to the propagation of the first captured image in the order of the pre-stage processing layer and the post-stage processing layer which are a part of the plurality of processing layers. One or more post-stages that are commonly activated from the output and the plurality of post-stage second captured image outputs output from the post-stage processing layer due to the propagation of the second-stage image in the order of the pre-stage processing layer and the post-stage processing layer. Factors that activate the first-stage extraction step for extracting the first captured image output and one or more subsequent-stage second captured image outputs, the one or more subsequent-stage first captured image output, and the one or more subsequent-stage second captured image output. Of the plurality of pre-stage first captured image outputs output from the pre-stage processing layer and the plurality of pre-stage second captured image outputs output from the pre-stage processing layer, one or more pre-stage first images that are commonly activated. It may have one captured image output and one or more pre-stage second captured image outputs.

前記空間情報生成方法は、前記前段抽出ステップを実行した後に、前記一以上の前段第1撮像画像出力及び前記一以上の前段第2撮像画像出力を、前記複数の後段第1撮像画像出力及び前記複数の後段第2撮像画像出力として、前記後段抽出ステップを実行してもよい。 In the spatial information generation method, after executing the pre-stage extraction step, one or more pre-stage first captured image outputs and one or more pre-stage second captured image outputs are combined with the plurality of rear-stage first captured image outputs and the said. The latter-stage extraction step may be executed as a plurality of second-stage second captured image outputs.

前記空間情報生成方法は、前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行してもよい。 In the spatial information generation method, the latter-stage extraction step and the first-stage extraction step may be executed for each of the plurality of processing layers.

本発明によれば、3次元空間における被写体の表面位置を推定する精度を向上させることができるという効果を奏する。 According to the present invention, there is an effect that the accuracy of estimating the surface position of the subject in the three-dimensional space can be improved.

空間情報を生成する処理の概要を説明するための図である。It is a figure for demonstrating the outline of the process of generating spatial information. 機械学習モデルの構成の一例を示す図である。It is a figure which shows an example of the structure of a machine learning model. 空間情報生成装置の構成を示す図である。It is a figure which shows the structure of the spatial information generation apparatus. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 空間情報生成装置が行う処理の流れを示すフローチャートである。It is a flowchart which shows the flow of processing performed by a spatial information generator. 抽出部が行う処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the process performed by the extraction part.

[空間情報生成装置1の概要]
図1は、空間情報を生成する処理の概要を説明するための図である。空間情報生成装置1は、例えばPC(Personal Computer)である。空間情報生成装置1は、それぞれ異なる位置に設置された複数の撮像装置によって生成された複数の画像に基づいて、機械学習モデルMを用いて3次元空間における当該画像に写っている被写体の表面位置を示す空間情報を生成する装置である。本明細書において、撮像装置の撮像パラメータ(例えば、撮像した位置及び撮像装置の向き等)は、既知であるとする。画像は、静止画像又は動画像である。空間情報生成装置1は、画像が動画像である場合、動画像に含まれるフレームごとに空間情報を生成する。
[Overview of spatial information generator 1]
FIG. 1 is a diagram for explaining an outline of a process for generating spatial information. The spatial information generation device 1 is, for example, a PC (Personal Computer). The spatial information generation device 1 uses a machine learning model M based on a plurality of images generated by a plurality of imaging devices installed at different positions, and uses a machine learning model M to position the surface of the subject in the image in a three-dimensional space. It is a device that generates spatial information indicating. In the present specification, it is assumed that the imaging parameters of the imaging device (for example, the imaging position and the orientation of the imaging device) are known. The image is a still image or a moving image. When the image is a moving image, the spatial information generation device 1 generates spatial information for each frame included in the moving image.

空間情報生成装置1は、第1撮像装置で生成された第1撮像画像Aを取得する(図1の(1))。第1撮像装置は、例えば、車両の前方に備える複数の撮像装置のうち、右側に設置されたカメラである。図1に例示した第1撮像画像Aには、前方を走行しているトラックT1及び道路を横断している歩行者T2が写っている。 The spatial information generation device 1 acquires the first captured image A generated by the first imaging device ((1) in FIG. 1). The first imaging device is, for example, a camera installed on the right side of a plurality of imaging devices provided in front of the vehicle. The first captured image A illustrated in FIG. 1 shows a truck T1 traveling ahead and a pedestrian T2 crossing a road.

続いて、空間情報生成装置1は、第1撮像装置とは異なる位置に設置された第2撮像装置で生成された第2撮像画像Bを取得する(図1の(2))。第2撮像装置は、例えば、車両の前方に備える複数の撮像装置のうち、左側に設置されたカメラである。図1に示した第2撮像画像Bには、第1撮像画像Aと同様に、トラックT1及び歩行者T2が写っている。 Subsequently, the spatial information generation device 1 acquires the second captured image B generated by the second imaging device installed at a position different from that of the first imaging device ((2) in FIG. 1). The second image pickup device is, for example, a camera installed on the left side of a plurality of image pickup devices provided in front of the vehicle. Similar to the first captured image A, the second captured image B shown in FIG. 1 shows the truck T1 and the pedestrian T2.

空間情報生成装置1は、取得した第1撮像画像A及び第2撮像画像Bそれぞれを機械学習モデルMに入力し、当該機械学習モデルMに含まれる複数の処理層を伝搬させる(図1の(3))。機械学習モデルMは、入力された画像に基づいて当該画像に含まれる被写体の種別を出力するように学習されたモデルである。 The spatial information generation device 1 inputs each of the acquired first captured image A and second captured image B into the machine learning model M, and propagates a plurality of processing layers included in the machine learning model M ((1) in FIG. 3)). The machine learning model M is a model learned to output the type of the subject included in the image based on the input image.

図2は、機械学習モデルMの構成の一例を示す図である。機械学習モデルMは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を含む。この場合において、機械学習モデルMは、入力層M1、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、第2の全結合層M9、及び出力層M10を有する。本明細書においては、隣接する2つの処理層のうち、第1撮像画像A及び第2撮像画像Bが伝搬する際の上流側の処理層を前段処理層と称し、下流側の処理層を後段処理層と称する。 FIG. 2 is a diagram showing an example of the configuration of the machine learning model M. The machine learning model M includes a convolutional neural network (CNN). In this case, the machine learning model M is an input layer M1, a first convolution layer M2, a second convolution layer M3, a first pooling layer M4, a normalization layer M5, a third convolution layer M6, and a second. It has a pooling layer M7, a first fully connected layer M8, a second fully connected layer M9, and an output layer M10. In the present specification, of the two adjacent processing layers, the processing layer on the upstream side when the first captured image A and the second captured image B propagate is referred to as a pre-stage processing layer, and the processing layer on the downstream side is referred to as a rear-stage processing layer. It is called a processing layer.

後段処理層となり得る処理層は、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、第2の全結合層M9、及び出力層M10のうちのいずれかの層である。また、前段処理層となり得る処理層は、入力層M1、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、及び第2の全結合層M9のうちのいずれかの層である。空間情報生成装置1は、取得した画像を機械学習モデルMに入力し、入力層M1から出力層M10までの各処理層を順伝搬させる、すなわち、推論させることにより、画像に写っている被写体の種別を出力させる。 The treatment layers that can be the subsequent treatment layers are the first convolution layer M2, the second convolution layer M3, the first pooling layer M4, the normalization layer M5, the third convolution layer M6, the second pooling layer M7, and the second. It is one of the fully bonded layer M8 of 1, the second fully bonded layer M9, and the output layer M10. The processing layers that can be the pre-stage processing layers are the input layer M1, the first convolution layer M2, the second convolution layer M3, the first pooling layer M4, the normalization layer M5, the third convolution layer M6, and the second. It is any one of the pooling layer M7, the first fully bonded layer M8, and the second fully bonded layer M9. The spatial information generation device 1 inputs the acquired image to the machine learning model M, and forward-propagates each processing layer from the input layer M1 to the output layer M10, that is, infers the subject in the image. Output the type.

図1に戻り、空間情報生成装置1は、機械学習モデルMが被写体の種別を出力するに至った各処理層における計算結果、すなわち、深層学習による抽象度の高い特徴量を用いて、第1撮像画像A及び第2撮像画像Bに共通する特徴点を検出する(図1の(4))。ここで、空間情報生成装置1は、共通する特徴点の検出を、伝搬させた順序とは逆の順序で行う。このようにすることで、空間情報生成装置1は、抽象度が高い特徴量に基づく特徴点を検出することができる。 Returning to FIG. 1, the spatial information generation device 1 uses the calculation results in each processing layer that led to the machine learning model M outputting the type of subject, that is, the features with a high degree of abstraction by deep learning. A feature point common to the captured image A and the second captured image B is detected ((4) in FIG. 1). Here, the spatial information generation device 1 detects the common feature points in the reverse order of the propagation order. By doing so, the spatial information generation device 1 can detect feature points based on features with a high degree of abstraction.

空間情報生成装置1は、共通する特徴点を検出することにより、第1撮像画像Aに写っているトラックT1及び歩行者T2と、第2撮像画像Bに写っているトラックT1及び歩行者T2とにそれぞれ対応関係があることを検出する。対応関係は、第1撮像画像の特徴点が示す第1撮像画像に含まれる画素と、第2撮像画像Bの特徴点が示す第2撮像画像に含まれる画素とが一致又は近似した関係である。 By detecting common feature points, the spatial information generation device 1 includes the truck T1 and the pedestrian T2 shown in the first captured image A and the truck T1 and the pedestrian T2 shown in the second captured image B. Detects that there is a correspondence between them. The correspondence relationship is a relationship in which the pixels included in the first captured image indicated by the feature points of the first captured image and the pixels included in the second captured image indicated by the feature points of the second captured image B match or approximate. ..

そして、空間情報生成装置1は、検出した対応関係にある第1撮像画像A及び第2撮像画像Bそれぞれの特徴点に基づいて、3次元空間におけるトラックT1及び歩行者T2の表面位置を示す空間情報を生成する(図1の(5))。このようにすることで、空間情報生成装置1は、3次元空間における被写体の表面位置を推定する精度を向上させることができる。
以下、空間情報生成装置1の詳細について説明する。
Then, the spatial information generation device 1 is a space indicating the surface positions of the track T1 and the pedestrian T2 in the three-dimensional space based on the feature points of the first captured image A and the second captured image B which are in the detected corresponding relationship. Information is generated ((5) in FIG. 1). By doing so, the spatial information generation device 1 can improve the accuracy of estimating the surface position of the subject in the three-dimensional space.
Hereinafter, the details of the spatial information generation device 1 will be described.

[空間情報生成装置1の構成]
図3は、空間情報生成装置1の構成を示す図である。空間情報生成装置1は、操作部11、記憶部12、及び制御部13を有する。
[Configuration of spatial information generator 1]
FIG. 3 is a diagram showing the configuration of the spatial information generation device 1. The spatial information generation device 1 has an operation unit 11, a storage unit 12, and a control unit 13.

操作部11は、ユーザの操作を受け付ける入力デバイスである。
記憶部12は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体である。記憶部12は、制御部13が実行する各種のプログラムを記憶する。記憶部12は、第1撮像画像及び第2撮像画像を記憶する。
The operation unit 11 is an input device that accepts user operations.
The storage unit 12 is, for example, a storage medium such as a ROM (Read Only Memory), a RAM (Random Access Memory), and a hard disk. The storage unit 12 stores various programs executed by the control unit 13. The storage unit 12 stores the first captured image and the second captured image.

制御部13は、例えばCPU(Central Processing Unit)である。制御部13は、記憶部12に記憶されているプログラムを実行することにより、空間情報生成装置1に係る機能を制御する。制御部13は、プログラムを実行することにより、画像取得部131、伝搬制御部132、抽出部133、指示受付部136、特徴点検出部137、選択部138、及び空間情報生成部139として機能する。 The control unit 13 is, for example, a CPU (Central Processing Unit). The control unit 13 controls the function related to the spatial information generation device 1 by executing the program stored in the storage unit 12. By executing the program, the control unit 13 functions as an image acquisition unit 131, a propagation control unit 132, an extraction unit 133, an instruction reception unit 136, a feature point detection unit 137, a selection unit 138, and a spatial information generation unit 139. ..

画像取得部131は、記憶部12に記憶されている第1撮像画像と第2撮像画像とを取得する。画像取得部131は、取得した第1撮像画像と第2撮像画像とを、伝搬制御部132に入力する。 The image acquisition unit 131 acquires the first captured image and the second captured image stored in the storage unit 12. The image acquisition unit 131 inputs the acquired first captured image and the second captured image to the propagation control unit 132.

伝搬制御部132は、第1撮像画像及び第2撮像画像のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。図2に示す例において、伝搬制御部132は、第1撮像画像及び第2撮像画像のそれぞれに、機械学習モデルMに含まれる入力層M1から出力層M10までの各処理層を、順に伝搬させる。 The propagation control unit 132 propagates a plurality of processing layers included in the machine learning model M to each of the first captured image and the second captured image. In the example shown in FIG. 2, the propagation control unit 132 propagates each of the processing layers from the input layer M1 to the output layer M10 included in the machine learning model M to each of the first captured image and the second captured image in order. ..

抽出部133は、複数の処理層から選択した後段処理層、及び後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、第1撮像画像に基づいて後段処理層及び前段処理層から出力された一以上の第1撮像画像出力と第2撮像画像に基づいて後段処理層及び前段処理層から出力された一以上の第2撮像画像出力とを抽出する。抽出部133が行う抽出処理の詳細については後述するが、抽出部133は、後段処理層で共通に活性化している第1撮像画像出力の一部である後段第1撮像画像出力及び第2撮像画像出力の一部である後段第2撮像画像出力を抽出する後段抽出部134と、前段処理層で共通に活性化している第1撮像画像出力の一部である前段第1撮像画像出力及び第2撮像画像出力の一部である前段第2撮像画像出力を抽出する前段抽出部135とを有する。 The extraction unit 133 is based on the first captured image that is commonly activated in both the processing layer of the post-stage processing layer selected from the plurality of processing layers and the processing layer of the pre-stage processing layer that is the processing layer immediately before the post-stage processing layer. Extract one or more first captured image outputs output from the post-stage processing layer and the pre-stage processing layer and one or more second captured image outputs output from the post-stage processing layer and the pre-stage processing layer based on the second captured image. .. The details of the extraction process performed by the extraction unit 133 will be described later, but the extraction unit 133 is a part of the first captured image output that is commonly activated in the subsequent processing layer, and is a part of the first captured image output and the second imaging. The post-stage extraction unit 134 that extracts the post-stage second captured image output that is a part of the image output, and the pre-stage first captured image output and the first that are a part of the first-stage captured image output that are commonly activated in the pre-stage processing layer. 2. It has a pre-stage extraction unit 135 that extracts a pre-stage second captured image output that is a part of the captured image output.

抽出部133が抽出する第1撮像画像出力及び第2撮像画像出力は、処理層に含まれる複数のユニットのうち、活性化しているユニットを示す情報である。ユニットは、画像に含まれる一以上の画素である。活性化の定義は、例えば、ユニットの出力値又はユニットの出力値と当該ユニットの結合の重みとの積が、所定の閾値を超えた場合でもよいし、出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。また、全結合層以外の処理層においては、例えば、チャンネルごとに出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。チャンネルは、フィルタ毎に畳み込み演算した出力である。 The first captured image output and the second captured image output extracted by the extraction unit 133 are information indicating the activated unit among the plurality of units included in the processing layer. A unit is one or more pixels contained in an image. The definition of activation may be, for example, when the product of the output value of the unit or the output value of the unit and the weight of the connection of the unit exceeds a predetermined threshold value, or a predetermined number or a predetermined number in descending order of output. It may be included in the ratio. Further, in the processing layer other than the fully connected layer, for example, it may be included in a predetermined number or a predetermined ratio in descending order of output for each channel. The channel is the output calculated by convolution for each filter.

抽出部133は、複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択することが好ましい。しかし、最後尾層において共通に活性化している第1撮像画像出力及び第2撮像画像出力がない場合がある。そこで、抽出部133は、複数の処理層のうち、最後尾層を後段処理層として選択した場合において、最後尾層において共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力がない場合、最後尾層より前の処理層において共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力を抽出してもよい。 It is preferable that the extraction unit 133 selects the last treatment layer, which is the last treatment layer, as the subsequent treatment layer among the plurality of treatment layers. However, there are cases where there is no first captured image output and second captured image output that are commonly activated in the rearmost layer. Therefore, when the rearmost layer is selected as the subsequent processing layer among the plurality of processing layers, the extraction unit 133 outputs one or more first captured images and one or more first images that are commonly activated in the rearmost layer. 2 When there is no captured image output, one or more first captured image outputs and one or more second captured image outputs that are commonly activated in the processing layer before the rearmost layer may be extracted.

例えば、抽出部133が、最後尾層である出力層M10を後段処理層として選択した場合において、出力層M10において共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力がないとする。この場合において、抽出部133は、出力層M10より前の各処理層に対して、共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力を繰り返し探索する。 For example, when the extraction unit 133 selects the output layer M10, which is the rearmost layer, as the post-processing layer, one or more first captured image outputs and one or more second imaging that are commonly activated in the output layer M10. Suppose there is no image output. In this case, the extraction unit 133 repeatedly searches for one or more first captured image outputs and one or more second captured image outputs that are commonly activated for each processing layer before the output layer M10.

抽出部133は、例えば、出力層M10の直前の処理層である第2の全結合層M9において共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力があった場合、第2の全結合層M9を後段処理層として選択する。そして、抽出部133は、後段処理層として選択した第2の全結合層M9において共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力を抽出する。このようにすることで、抽出部133は、第1撮像画像と第2撮像画像とで一致する領域が少ない場合であっても、それぞれに写る被写体を対応付けることができる。 The extraction unit 133 has, for example, one or more first captured image outputs and one or more second captured image outputs that are commonly activated in the second fully connected layer M9, which is the processing layer immediately before the output layer M10. If so, the second fully bonded layer M9 is selected as the post-treatment layer. Then, the extraction unit 133 extracts one or more first captured image outputs and one or more second captured image outputs that are commonly activated in the second fully connected layer M9 selected as the post-processing layer. By doing so, the extraction unit 133 can associate the subject to be captured in each of the first captured image and the second captured image even when there are few matching regions.

抽出部133は、ユーザによって指定された処理層を後段処理層として選択してもよい。具体的には、指示受付部136が、操作部11を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付ける。そして、抽出部133は、指示受付部136が受け付けた指示が示す処理層を、後段処理層として使用する。抽出部133は、図2に示す例において、ユーザが第2の全結合層M9を選択した場合に、指示受付部136が受け付けた指示が示す第2の全結合層M9を、後段処理層として使用する。抽出部133は、抽出した第1撮像画像出力と第2撮像画像出力とを特徴点検出部137に入力する。 The extraction unit 133 may select the processing layer specified by the user as the subsequent processing layer. Specifically, the instruction receiving unit 136 receives an instruction to select a processing layer to be used as the subsequent processing layer from the plurality of processing layers via the operation unit 11. Then, the extraction unit 133 uses the processing layer indicated by the instruction received by the instruction reception unit 136 as the subsequent processing layer. In the example shown in FIG. 2, the extraction unit 133 uses the second fully connected layer M9 indicated by the instruction received by the instruction receiving unit 136 as the subsequent processing layer when the user selects the second fully connected layer M9. use. The extraction unit 133 inputs the extracted first captured image output and the second captured image output to the feature point detection unit 137.

特徴点検出部137は、一以上の第1撮像画像出力に基づいて一以上の第1撮像画像特徴点を検出し、かつ一以上の第2撮像画像出力に基づいて一以上の第2撮像画像特徴点を検出する。具体的には、特徴点検出部137は、まず、一以上の第1撮像画像出力及び一以上の第2撮像画像出力に基づいて、対応する特徴点を探索する。そして、特徴点検出部137は、対応関係にある一以上の第1撮像画像出力に基づく一以上の第1撮像画像特徴点と、一以上の第2撮像画像出力に基づく一以上の第2撮像画像特徴点とを検出する。特徴点検出部137は、検出した第1撮像画像特徴点及び第2撮像画像特徴点を選択部138に入力する。 The feature point detection unit 137 detects one or more first captured image feature points based on one or more first captured image outputs, and one or more second captured images based on one or more second captured image outputs. Detect feature points. Specifically, the feature point detection unit 137 first searches for a corresponding feature point based on one or more first captured image outputs and one or more second captured image outputs. Then, the feature point detection unit 137 has one or more first captured image feature points based on one or more first captured image outputs and one or more second captured images based on one or more second captured image outputs. Detects image feature points. The feature point detection unit 137 inputs the detected first captured image feature point and the second captured image feature point to the selection unit 138.

選択部138は、特徴点検出部137が特定した一以上の第1撮像画像特徴点及び一以上の第2撮像画像特徴点から、相互の対応関係に基づいて一部の第1撮像画像特徴点及び一部の第2撮像画像特徴点を選択する。具体的には、選択部138は、誤検出した対応関係を除去し、除去した後の対応関係に基づく一以上の第1撮像画像特徴点及び一以上の第2撮像画像特徴点を選択する。対応関係の誤検出は、第1撮像画像特徴点及び第2撮像画像特徴点の対応関係に矛盾が生じている状態である。対応関係の誤検出は、例えば、被写体の表面位置を推定するために算出される被写体との距離、すなわち、奥行き値が負数になって正常な範囲に入らない場合、又は3つ以上の撮像画像に基づいて空間情報を生成する場合において、撮像画像の組み合わせによって同じ特徴点の奥行き値が著しく異なる場合等である。選択部138は、例えば、RANSAC(Random Sampling Consensus)法又は最小2乗メディアン(LMedS:Least Median of Square)法に基づいて絞り込みを行うことにより対応関係を除去する。 The selection unit 138 is a part of the first captured image feature points based on the mutual correspondence from one or more first captured image feature points and one or more second captured image feature points specified by the feature point detection unit 137. And some second captured image feature points are selected. Specifically, the selection unit 138 removes the erroneously detected correspondence, and selects one or more first captured image feature points and one or more second captured image feature points based on the correspondence after the removal. The erroneous detection of the correspondence relationship is a state in which the correspondence relationship between the first captured image feature point and the second captured image feature point is inconsistent. False detection of correspondence is, for example, the distance to the subject calculated to estimate the surface position of the subject, that is, when the depth value becomes a negative number and does not fall within the normal range, or three or more captured images. In the case of generating spatial information based on the above, the depth value of the same feature point is significantly different depending on the combination of captured images. The selection unit 138 removes the correspondence by, for example, narrowing down based on the RANSAC (Random Sampling Consensus) method or the least squares median (LMedS: Least Median of Square) method.

また、選択部138は、撮像装置の撮像パラメータに基づいて算出することができる多焦点テンソルが有する多重線形拘束を用いて、対応関係を除去してもよい。選択部138は、例えば、2つの撮像画像に基づいて空間情報を生成する場合、2つの撮像画像に対して、2重線形拘束を満たさない対応関係を除去する。また、選択部138は、例えば、3つの撮像画像に基づいて空間情報を生成する場合、3つの撮像画像に対して、3重線形拘束を満たさない対応関係を除去する。また、選択部138は、例えば、4つの撮像画像に基づいて空間情報を生成する場合、4つの撮像画像に対して、4重線形拘束を満たさない対応関係を除去する。 Further, the selection unit 138 may remove the correspondence by using the multi-linear constraint of the multifocal tensor that can be calculated based on the imaging parameters of the imaging device. When the selection unit 138 generates spatial information based on, for example, two captured images, the selection unit 138 removes a correspondence relationship that does not satisfy the double linear constraint for the two captured images. Further, when the selection unit 138 generates spatial information based on, for example, three captured images, the selection unit 138 removes a correspondence relationship that does not satisfy the triple linear constraint with respect to the three captured images. Further, when the selection unit 138 generates spatial information based on, for example, four captured images, the selection unit 138 removes a correspondence relationship that does not satisfy the quadruple linear constraint with respect to the four captured images.

また、選択部138は、多焦点テンソルに基づいて、抽出部133が行う抽出処理で抽出された撮像画像出力の絞り込みを行ってもよい。具体的には、選択部138は、まず、抽出部133によって抽出された撮像画像出力に基づいて、当該撮像画像出力が抽出された処理層から逆畳み込みを行い、当該撮像画像出力に対応する撮像画像の領域を特定する。そして、選択部138は、特定した領域が多重線形拘束を満たさない場合、当該領域に対応する撮像画像出力を、抽出部133によって抽出された撮像画像出力から除去する。 Further, the selection unit 138 may narrow down the captured image output extracted by the extraction process performed by the extraction unit 133 based on the multifocal tensor. Specifically, the selection unit 138 first deconvolves the captured image output from the extracted processing layer based on the captured image output extracted by the extraction unit 133, and performs imaging corresponding to the captured image output. Identify the area of the image. Then, when the specified region does not satisfy the multi-linear constraint, the selection unit 138 removes the captured image output corresponding to the region from the captured image output extracted by the extraction unit 133.

選択部138は、例えば、一の第1撮像画像出力に対応する第1撮像画像の領域である第1撮像画像領域を、当該一の第1撮像画像出力が抽出された処理層において逆畳み込みを行うことにより特定する。同様に、選択部138は、一の第2撮像画像出力に対応する第2撮像画像の領域である第2撮像画像領域を、当該一の第2撮像画像出力が抽出された処理層において逆畳み込みを行うことにより特定する。 The selection unit 138 deconvolves the first captured image region, which is the region of the first captured image corresponding to the first first captured image output, in the processing layer from which the first captured image output is extracted. Identify by doing. Similarly, the selection unit 138 deconvolves the second captured image region, which is the region of the second captured image corresponding to the first second captured image output, in the processing layer from which the first second captured image output is extracted. To identify by doing.

選択部138は、2重線形拘束(例えば、エピポーラ拘束)を用いて、第2撮像画像上に変換した第1撮像画像領域に、第2撮像画像領域と共通する部分があるか否かを判定する。同様に、選択部138は、2重線形拘束を用いて第1撮像画像上に変換した第2撮像画像領域に、第1撮像画像領域と共通する部分があるか否かを判定する。 The selection unit 138 determines whether or not the first captured image region converted on the second captured image has a part in common with the second captured image region by using the double linear constraint (for example, epipolar constraint). To do. Similarly, the selection unit 138 determines whether or not the second captured image region converted on the first captured image using the double linear constraint has a portion common to the first captured image region.

選択部138は、いずれかの判定において共通する部分がないと判定した場合、抽出すべき出力ではないと判断し、当該一の第1撮像画像出力及び当該一の第2撮像画像出力の対応関係を除去する。この場合、抽出部133は、選択部138が除去した対応関係にある当該一の第1撮像画像出力及び当該一の第2撮像画像出力に基づく抽出処理を中止する。一方、選択部138は、2つの判定において共通する部分があると判定した場合、当該一の第1撮像画像出力及び当該一の第2撮像画像出力の対応関係を維持し、次に抽出部133が抽出した第1撮像画像出力及び第2撮像画像出力の絞り込みを行う。 If the selection unit 138 determines that there is no common part in any of the determinations, it determines that the output should not be extracted, and the correspondence between the first captured image output and the second captured image output. To remove. In this case, the extraction unit 133 cancels the extraction process based on the one first captured image output and the first second captured image output that are in a corresponding relationship removed by the selection unit 138. On the other hand, when the selection unit 138 determines that there is a common part in the two determinations, the selection unit 138 maintains the correspondence between the one first captured image output and the first second captured image output, and then the extraction unit 133. The first captured image output and the second captured image output extracted by are narrowed down.

空間情報生成部139は、一以上の第1撮像画像特徴点と一以上の第2撮像画像特徴点とに基づいて、3次元空間における被写体の表面位置を示す空間情報を生成する。具体的には、空間情報生成部139は、選択部138が誤検出を除去した後の対応関係に基づく一部の第1撮像画像特徴点と一部の第2撮像画像特徴点とに基づいて、空間情報を生成する。 The spatial information generation unit 139 generates spatial information indicating the surface position of the subject in the three-dimensional space based on one or more first captured image feature points and one or more second captured image feature points. Specifically, the spatial information generation unit 139 is based on a part of the first captured image feature points and a part of the second captured image feature points based on the correspondence after the selection unit 138 removes the false detection. , Generate spatial information.

より具体的には、空間情報生成部139は、まず、第1撮像画像における一部の第1撮像画像特徴点の位置と、第2撮像画像における一部の第2撮像画像特徴点の位置との関係、並びに第1撮像装置及び第2撮像装置の視差に基づいて、空間情報として被写体との距離を推定する。そして、空間情報生成部139は、推定した被写体との距離に基づいて、3次元空間における被写体の表面位置を示す空間情報を生成する。空間情報生成部139は、空間情報として、第1撮像画像及び第2撮像画像において3次元空間の同一位置を示している画素の対応関係を示す視差マップを生成してもよい。空間情報生成部139が行う被写体との距離を推定する方法は、公知の技術を使用することができる。空間情報生成部139は、生成した空間情報を記憶部12に記憶させる。 More specifically, the spatial information generation unit 139 first determines the positions of some first captured image feature points in the first captured image and the positions of some second captured image feature points in the second captured image. The distance to the subject is estimated as spatial information based on the relationship between the above and the difference between the first image pickup device and the second image pickup device. Then, the spatial information generation unit 139 generates spatial information indicating the surface position of the subject in the three-dimensional space based on the estimated distance to the subject. The spatial information generation unit 139 may generate, as spatial information, a disparity map showing the correspondence between pixels indicating the same position in the three-dimensional space in the first captured image and the second captured image. As a method of estimating the distance to the subject performed by the spatial information generation unit 139, a known technique can be used. The spatial information generation unit 139 stores the generated spatial information in the storage unit 12.

[抽出処理]
続いて、抽出部133が行う抽出処理について説明する。上述のとおり、抽出部133は、後段抽出部134及び前段抽出部135を有する。後段抽出部134は、第1撮像画像が複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第1撮像画像出力、及び第2撮像画像が前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第2撮像画像出力から、共通に活性化している一以上の後段第1撮像画像出力及び一以上の後段第2撮像画像出力を抽出する。
[Extraction process]
Subsequently, the extraction process performed by the extraction unit 133 will be described. As described above, the extraction unit 133 has a rear-stage extraction unit 134 and a front-stage extraction unit 135. The post-stage extraction unit 134 has a plurality of post-stage first captured image outputs and a plurality of post-stage first captured image outputs output from the post-stage processing layer because the first-stage image is propagated in the order of the pre-stage processing layer and the post-stage processing layer which are a part of the plurality of processing layers. One or more post-stage first captured image outputs that are commonly activated from the plurality of post-stage second captured image outputs output from the post-stage processing layer due to the propagation of the second captured image in the order of the pre-stage processing layer and the post-stage processing layer. And one or more subsequent second captured image outputs are extracted.

前段抽出部135は、一以上の後段第1撮像画像出力及び一以上の後段第2撮像画像出力を活性化させる要因となった前段処理層から出力された複数の前段第1撮像画像出力、及び前段処理層から出力された複数の前段第2撮像画像出力のうち、共通に活性化している一以上の前段第1撮像画像出力及び一以上の前段第2撮像画像出力を抽出する。 The pre-stage extraction unit 135 includes a plurality of pre-stage first captured image outputs output from the pre-stage processing layer that has been a factor in activating one or more rear-stage first captured image outputs and one or more rear-stage second captured image outputs, and Of the plurality of pre-stage second captured image outputs output from the pre-stage processing layer, one or more pre-stage first captured image outputs and one or more pre-stage second captured image outputs that are commonly activated are extracted.

図4から図9は、抽出部133が行う抽出処理について説明するための図である。図4から図9は、前段処理層から後段処理層に伝搬させた状態を示している。図4から図9において、実線で示すユニットを結合する結合線は、結合するユニットから出力があったことを示し、破線で示す結合線は、結合するユニットから出力が無かったことを示す。また、結合線を示す線の太さは、結合するユニットからの出力の大きさを示す。 4 to 9 are diagrams for explaining the extraction process performed by the extraction unit 133. 4 to 9 show a state of propagation from the pre-stage processing layer to the post-stage processing layer. In FIGS. 4 to 9, the connecting line connecting the units shown by the solid line indicates that there was an output from the connecting unit, and the connecting line indicated by the broken line indicates that there was no output from the connecting unit. In addition, the thickness of the line indicating the connecting line indicates the magnitude of the output from the unit to be connected.

図4の場合において、後段処理層は、最後尾層(例えば、出力層又は全結合層等)又は抽出部133が選択した最後尾層より前の処理層(全結合層又はプーリング層等)であり、前段処理層は、後段処理層の直前の処理層(例えば、全結合層又はプーリング層等)である。図4においては、後段処理層が出力層M20であり、前段処理層が全結合層M19であるとして説明する。 In the case of FIG. 4, the post-stage treatment layer is a treatment layer (for example, an output layer or a fully connected layer) or a treatment layer before the last layer selected by the extraction unit 133 (such as a fully bonded layer or a pooling layer). Yes, the pre-stage treatment layer is a treatment layer immediately before the post-stage treatment layer (for example, a fully bonded layer or a pooling layer). In FIG. 4, it is assumed that the post-stage processing layer is the output layer M20 and the pre-stage processing layer is the fully connected layer M19.

図4(a)は、抽出前の状態であり、図4(b)は抽出後の状態である。第1撮像画像において、出力層M20は、ユニットU5、U8が活性化しており、全結合層M19は、ユニットU2、U5、U6、U7、U8が活性化している。第2撮像画像において、出力層M20は、ユニットU3、U5が活性化しており、全結合層M19は、ユニットU2、U4、U5、U8が活性化している。 FIG. 4A shows a state before extraction, and FIG. 4B shows a state after extraction. In the first captured image, units U5 and U8 are activated in the output layer M20, and units U2, U5, U6, U7 and U8 are activated in the fully connected layer M19. In the second captured image, the output layer M20 has the units U3 and U5 activated, and the fully connected layer M19 has the units U2, U4, U5 and U8 activated.

この場合において、後段抽出部134は、後段処理層である出力層M20から出力された後段第1撮像画像出力であるユニットU5、U8、及び出力層M20から出力された後段第2撮像画像出力であるユニットU3、U5を比較する。そして、後段抽出部134は、共通に活性化している後段第1撮像画像出力のユニットU5及び後段第2撮像画像出力のユニットU5を抽出する。 In this case, the post-stage extraction unit 134 is a rear-stage second captured image output output from the units U5 and U8, which are the rear-stage first captured image outputs, and the output layer M20, which are output from the output layer M20, which is the post-stage processing layer. Compare certain units U3 and U5. Then, the rear-stage extraction unit 134 extracts the unit U5 of the rear-stage first captured image output and the unit U5 of the rear-stage second captured image output that are commonly activated.

続いて、前段抽出部135は、後段第1撮像画像出力のユニットU5を活性化させる要因となった前段処理層である全結合層M19から出力された前段第1撮像画像出力であるユニットU2、U5、U6、及び後段第2撮像画像出力のユニットU5を活性化させる要因となった全結合層M19から出力された前段第2撮像画像出力であるユニットU2、U5、U8を比較する。そして、前段抽出部135は、共通に活性化している前段第1撮像画像出力のユニットU2、U5、及び前段第2撮像画像出力のユニットU2、U5を抽出する。 Subsequently, the front-stage extraction unit 135 includes a unit U2, which is a front-stage first captured image output, which is output from a fully connected layer M19, which is a front-stage processing layer, which is a factor that activates the unit U5 of the rear-stage first captured image output. The units U2, U5, and U8, which are the first-stage second captured image outputs, are compared with each other, which are the U5, U6, and the first-stage second captured image output units U5, which are the factors that activate the second-stage second captured image output unit U5. Then, the pre-stage extraction unit 135 extracts the units U2 and U5 of the pre-stage first captured image output and the units U2 and U5 of the pre-stage second captured image output that are commonly activated.

抽出部133は、出力層M20から全結合層M19までの出力を抽出すると、次の処理層に対する出力を抽出する。具体的には、抽出部133は、処理層ごとに、共通に活性化している第1撮像画像出力及び第2撮像画像出力を抽出する処理を、伝搬制御部132が伝搬させた順序とは逆の順序で繰り返し行う。より具体的には、抽出部133は、複数の処理層のうち一つの層を後段処理層として選択して一以上の第1撮像画像出力及び一以上の第2撮像画像出力を抽出した後に、前段処理層として選択した処理層を後段処理層として選択して、別の一以上の第1撮像画像出力及び一以上の第2撮像画像出力を抽出する。このようにすることで、抽出部133は、第1撮像画像及び第2撮像画像に対する比較の精度を高めることができる。 When the extraction unit 133 extracts the output from the output layer M20 to the fully connected layer M19, the extraction unit 133 extracts the output for the next processing layer. Specifically, the extraction unit 133 reverses the order in which the propagation control unit 132 propagates the process of extracting the first captured image output and the second captured image output that are commonly activated for each processing layer. Repeat in the order of. More specifically, the extraction unit 133 selects one of the plurality of processing layers as the post-processing layer and extracts one or more first captured image outputs and one or more second captured image outputs. The processing layer selected as the pre-stage processing layer is selected as the post-stage processing layer, and another one or more first captured image outputs and one or more second captured image outputs are extracted. By doing so, the extraction unit 133 can improve the accuracy of comparison with the first captured image and the second captured image.

図5は、第1撮像画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図6は、第2撮像画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図5及び図6の場合において、後段処理層は、全結合層M18であり、前段処理層は、全結合層以外の処理層(例えば、プーリング層又は畳み込み層等)である。図5及び図6においては、前段処理層がプーリング層M17であるとして説明する。また、図5及び図6において、前段処理層は、3つのチャンネルを有する。上段の第1チャンネルは、ユニットU11、U12、U13、U14、及びU15を含む。中段の第2チャンネルは、ユニットU21、U22、U23、U24、及びU25を含む。下段の第3チャンネルは、ユニットU31、U32、U33、U34、及びU35を含む。 FIG. 5 shows a state in which the image is propagated from the pre-stage processing layer to the post-stage processing layer based on the first captured image. FIG. 6 shows a state in which the image is propagated from the pre-stage processing layer to the post-stage processing layer based on the second captured image. In the case of FIGS. 5 and 6, the post-stage treatment layer is a fully bonded layer M18, and the front-stage treatment layer is a treatment layer other than the fully-bonded layer (for example, a pooling layer or a convolution layer). In FIGS. 5 and 6, the pretreatment layer will be described as the pooling layer M17. Further, in FIGS. 5 and 6, the pretreatment layer has three channels. The first channel in the upper row includes units U11, U12, U13, U14, and U15. The second channel in the middle stage includes units U21, U22, U23, U24, and U25. The lower third channel includes units U31, U32, U33, U34, and U35.

第1撮像画像において、プーリング層M17は、第1チャンネルに含まれるユニットU13及び第2チャンネルに含まれるユニットU21、U24が活性化している。第2撮像画像において、全結合層M18は、第2チャンネルに含まれるユニットU22、U24、U25及び第3チャンネルに含まれるユニットU32、U33が活性化している。 In the first captured image, in the pooling layer M17, the units U13 included in the first channel and the units U21 and U24 included in the second channel are activated. In the second captured image, in the fully connected layer M18, the units U22, U24, U25 included in the second channel and the units U32, U33 included in the third channel are activated.

前段抽出部135は、後段第1撮像画像出力のユニットU5を活性化させる要因となった前段処理層であるプーリング層M17から出力された前段第1撮像画像出力、及び後段第2撮像画像出力のユニットU5を活性化させる要因となったプーリング層M17から出力された前段第2撮像画像出力を比較する。前段抽出部135は、活性化しているユニットの有無を調べ、活性化している前段第1撮像画像出力の第1チャンネルに含まれるユニットU13及び第2チャンネルに含まれるU21、U24と、前段第2撮像画像出力の第2チャンネルに含まれるユニットU22、U24、U25及び第3チャンネルに含まれるU32、U33とに着目する。 The front-stage extraction unit 135 of the front-stage first captured image output and the rear-stage second captured image output output from the pooling layer M17, which is the front-stage processing layer, which is a factor that activates the unit U5 of the rear-stage first captured image output. The output of the second captured image in the previous stage output from the pooling layer M17, which is a factor that activates the unit U5, is compared. The pre-stage extraction unit 135 examines the presence or absence of the activated unit, and the unit U13 included in the first channel of the activated pre-stage first captured image output, U21 and U24 included in the second channel, and the pre-stage second Focus on the units U22, U24, U25 included in the second channel of the captured image output and U32, U33 included in the third channel.

そして、前段抽出部135は、前段第1撮像画像出力と前段第2撮像画像出力との両方において活性化しているユニットが存在しているチャンネルが第2チャンネルであることから、前段第1撮像画像出力の第2チャンネルに含まれるユニットU21、U24及び前段第2撮像画像出力の第2チャンネルに含まれるユニットU22、U24、U25を抽出する。 Then, in the pre-stage extraction unit 135, since the channel in which the unit activated in both the pre-stage first captured image output and the pre-stage second captured image output exists is the second channel, the pre-stage first captured image The units U21, U24 included in the second channel of the output and the units U22, U24, U25 included in the second channel of the second captured image output in the previous stage are extracted.

図7の場合において、後段処理層は、プーリング層M16であり、前段処理層は、プーリング層以外の処理層(例えば、畳み込み層又は正規化層等)である。図7においては、前段処理層が畳み込み層M15であるとして説明する。また、図7において、前段処理層は、チャンネルが1つであるとして説明する。第1撮像画像において、プーリング層M16は、ユニットU5が活性化しており、畳み込み層M15は、ユニットU3、U5が活性化している。第2撮像画像において、プーリング層M16は、ユニットU3が活性化しており、畳み込み層M15は、ユニットU3、U4が活性化している。 In the case of FIG. 7, the post-stage treatment layer is the pooling layer M16, and the front-stage treatment layer is a treatment layer other than the pooling layer (for example, a convolution layer or a regularization layer). In FIG. 7, the pre-stage processing layer will be described as the convolution layer M15. Further, in FIG. 7, the pre-stage processing layer will be described assuming that it has one channel. In the first captured image, the pooling layer M16 has the unit U5 activated, and the convolutional layer M15 has the units U3 and U5 activated. In the second captured image, the pooling layer M16 has the unit U3 activated, and the convolution layer M15 has the units U3 and U4 activated.

ここで、抽出部133は、画像の圧縮を行うプーリング層においては、直前の処理層からプーリング層に結合している複数のユニットのうち、チャンネルごとに活性化している程度に基づいて出力を抽出する。具体的には、前段抽出部135は、複数の前段第1撮像画像出力及び複数の前段第2撮像画像出力のうち、活性化している大きさに基づいて、一以上の前段第1撮像画像出力及び一以上の前段第2撮像画像出力を抽出する。前段抽出部135は、例えば、複数の前段第1撮像画像出力及び複数の前段第2撮像画像出力のうち、チャンネルごとに最も大きく活性化している一以上の前段第1撮像画像出力及び一以上の前段第2撮像画像出力を抽出する。 Here, in the pooling layer that compresses the image, the extraction unit 133 extracts the output based on the degree of activation for each channel among the plurality of units bonded to the pooling layer from the immediately preceding processing layer. To do. Specifically, the pre-stage extraction unit 135 outputs one or more pre-stage first captured images based on the activated size of the plurality of pre-stage first captured image outputs and the plurality of pre-stage second captured image outputs. And one or more pre-stage second captured image outputs are extracted. The pre-stage extraction unit 135 is, for example, one or more pre-stage first captured image outputs and one or more pre-stage first captured image outputs that are most activated for each channel among the plurality of front-stage first captured image outputs and the plurality of front-stage second captured image outputs. The second captured image output of the first stage is extracted.

この場合において、後段抽出部134は、直前の抽出処理において前段処理層として選択したプーリング層M16を選択して、プーリング層M16から出力された後段第1撮像画像出力のユニットU5、及びプーリング層M16から出力された後段第2撮像画像出力のユニットU3を抽出する。そして、前段抽出部135は、後段第1撮像画像出力のユニットU3、U5及び後段第2撮像画像出力のユニットU3、U4のうち、チャンネルごとに最も大きく活性化している前段第1撮像画像出力のユニットU5、及び前段第2撮像画像出力のユニットU4を抽出する。このようにすることで、前段抽出部135は、画像の中で特徴となる領域を特定することができる。 In this case, the post-stage extraction unit 134 selects the pooling layer M16 selected as the pre-stage processing layer in the immediately preceding extraction process, and the rear-stage first captured image output unit U5 and the pooling layer M16 output from the pooling layer M16. The unit U3 of the second-stage second captured image output output from is extracted. Then, the front-stage extraction unit 135 is the front-stage first captured image output that is most activated for each channel among the rear-stage first captured image output units U3 and U5 and the rear-stage second captured image output units U3 and U4. The unit U5 and the unit U4 of the second captured image output in the previous stage are extracted. By doing so, the pre-stage extraction unit 135 can specify a characteristic region in the image.

図8の場合において、後段処理層は、畳み込み層M14であり、前段処理層は、畳み込み層を含む他の処理層(例えば、正規化層又はプーリング層等)である。図8においては、前段処理層が正規化層M13であるとして説明する。また、図8において、前段処理層は、チャンネルが1つであるとして説明する。第1撮像画像において、畳み込み層M14は、ユニットU5が活性化しており、正規化層M13は、ユニットU3、U5、U6が活性化している。第2撮像画像において、畳み込み層M14は、ユニットU3が活性化しており、正規化層M13は、ユニットU3、U4、U5が活性化している。 In the case of FIG. 8, the post-stage treatment layer is a convolution layer M14, and the front-stage treatment layer is another treatment layer including the convolution layer (for example, a regularization layer or a pooling layer). In FIG. 8, the pre-stage processing layer will be described as the normalization layer M13. Further, in FIG. 8, the pre-stage processing layer will be described as having one channel. In the first captured image, the convolution layer M14 has the unit U5 activated, and the regularization layer M13 has the units U3, U5, and U6 activated. In the second captured image, the convolution layer M14 has the unit U3 activated, and the regularization layer M13 has the units U3, U4, and U5 activated.

この場合において、後段抽出部134は、直前の抽出処理において前段処理層として選択した畳み込み層M14を選択して、畳み込み層M14から出力された後段第1撮像画像出力のユニットU5、及び畳み込み層M14から出力された後段第2撮像画像出力のユニットU3を抽出する。 In this case, the post-stage extraction unit 134 selects the convolution layer M14 selected as the pre-stage processing layer in the immediately preceding extraction process, and the rear-stage first captured image output unit U5 and the convolution layer M14 output from the convolution layer M14. The unit U3 of the second-stage second captured image output output from is extracted.

続いて、前段抽出部135は、後段第1撮像画像出力のユニットU5を活性化させる要因となった前段処理層である正規化層M13から出力された前段第1撮像画像出力、及び後段第2撮像画像出力のユニットU3を活性化させる要因となった前段処理層である正規化層M13から出力された前段第2撮像画像出力を比較する。ここで、前段抽出部135は、後段処理層が畳み込み層である場合、後段抽出部134が後段処理層から抽出したユニットに結合する前段処理層の複数のユニットのうち、前段第1撮像画像出力と前段第2撮像画像出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットを抽出する。この場合、前段抽出部135は、前段第1撮像画像出力と前段第2撮像画像出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットとして、前段第1撮像画像出力のユニットU5、U6、及び前段第2撮像画像出力のユニットU3、U4を抽出する。 Subsequently, the front-stage extraction unit 135 outputs the front-stage first captured image output from the normalization layer M13, which is the front-stage processing layer, which is a factor that activates the unit U5 of the rear-stage first captured image output, and the rear-stage second. The second pre-stage captured image output output from the normalization layer M13, which is the pre-stage processing layer that became a factor for activating the captured image output unit U3, is compared. Here, when the post-stage processing layer is a convolutional layer, the pre-stage extraction unit 135 outputs the first-stage captured image among the plurality of units of the pre-stage processing layer that are coupled to the units extracted from the post-stage processing layer by the post-stage extraction unit 134. And the second captured image output in the previous stage, the units having the same position and the same channel are extracted. In this case, the front-stage extraction unit 135 is the unit U5 of the front-stage first captured image output as a unit in which the positions of the front-stage first captured image output and the front-stage second captured image output are relatively the same and the channels are common. , U6, and units U3 and U4 of the second captured image output in the previous stage are extracted.

図9の場合において、後段処理層は、正規化層M12であり、前段処理層は、正規化層以外の処理層(例えば、畳み込み層又はプーリング層等)である。図9においては、前段処理層がプーリング層M11であるとして説明する。また、図9において、前段処理層は、チャンネルが1つであるとして説明する。第1撮像画像において、正規化層M12は、ユニットU5が活性化している。第2撮像画像において、正規化層M12は、ユニットU3が活性化している。 In the case of FIG. 9, the post-stage treatment layer is a normalization layer M12, and the front-stage treatment layer is a treatment layer other than the normalization layer (for example, a convolution layer or a pooling layer). In FIG. 9, the pretreatment layer will be described as the pooling layer M11. Further, in FIG. 9, the pre-stage processing layer will be described as having one channel. In the first captured image, the unit U5 is activated in the normalized layer M12. In the second captured image, the unit U3 is activated in the normalized layer M12.

ここで、抽出部133は、画像に対して前処理を行う正規化層においては、後段処理層において活性化しているユニットに結合している前段処理層に含まれる複数のユニットのうち、中心のユニットを抽出する。この場合において、後段抽出部134は、後段処理層として選択した正規化層M12から出力された後段第1撮像画像出力のユニットU5、及び正規化層M12から出力された後段第2撮像画像出力のユニットU3を抽出する。 Here, in the normalization layer that preprocesses the image, the extraction unit 133 is the center of the plurality of units included in the pretreatment layer that is bound to the unit that is activated in the post-processing layer. Extract the unit. In this case, the post-stage extraction unit 134 is the unit U5 of the post-stage first captured image output output from the normalized layer M12 selected as the post-stage processing layer, and the rear-stage second captured image output output from the normalized layer M12. Extract unit U3.

そして、前段抽出部135は、正規化層M12から出力された後段第1撮像画像出力のユニットU5に結合しているプーリング層M11のユニットのうち、中心のユニットU5を抽出する。同様に、前段抽出部135は、正規化層M12から出力された後段第2撮像画像出力のユニットU3に結合しているプーリング層M11のユニットのうち、中心のユニットU3を抽出する。 Then, the front-stage extraction unit 135 extracts the central unit U5 from the units of the pooling layer M11 coupled to the unit U5 of the rear-stage first captured image output output from the normalization layer M12. Similarly, the front-stage extraction unit 135 extracts the central unit U3 from the units of the pooling layer M11 coupled to the unit U3 of the rear-stage second captured image output output from the normalization layer M12.

抽出部133は、上述の抽出処理を入力層まで繰り返し行うことが好ましい。しかし、抽出部133は、抽出処理を最初の処理層まで行わずに、途中の処理層(例えば、プーリング層又は正規化層等)で終了してもよい。このように、抽出部133は、伝搬制御部132が伝搬させた順序とは逆の順序で抽出処理を行うことにより、抽象度が高い出力を抽出することができる。 It is preferable that the extraction unit 133 repeats the above-mentioned extraction process up to the input layer. However, the extraction unit 133 may end the extraction process at an intermediate process layer (for example, a pooling layer, a normalization layer, etc.) without performing the extraction process up to the first process layer. In this way, the extraction unit 133 can extract an output having a high degree of abstraction by performing the extraction process in the order opposite to the order in which the propagation control unit 132 propagates.

[空間情報生成装置1の処理]
続いて、空間情報生成装置1が行う処理の流れを説明する。図10は、空間情報生成装置1が行う処理の流れを示すフローチャートである。本フローチャートは、記憶部12に記憶されている第1撮像画像と第2撮像画像とを取得したことを契機として開始する(S1)。
[Processing of spatial information generator 1]
Subsequently, the flow of processing performed by the spatial information generation device 1 will be described. FIG. 10 is a flowchart showing the flow of processing performed by the spatial information generation device 1. This flowchart starts when the first captured image and the second captured image stored in the storage unit 12 are acquired (S1).

画像取得部131は、取得した第1撮像画像と第2撮像画像とを、伝搬制御部132に入力する。伝搬制御部132は、画像取得部131から入力された第1撮像画像及び第2撮像画像のそれぞれに、機械学習モデルMに含まれる入力層M1から出力層M10までの複数の処理層を、入力層M1から順に伝搬させる(S2)。 The image acquisition unit 131 inputs the acquired first captured image and the second captured image to the propagation control unit 132. The propagation control unit 132 inputs a plurality of processing layers from the input layer M1 to the output layer M10 included in the machine learning model M to each of the first captured image and the second captured image input from the image acquisition unit 131. Propagate in order from layer M1 (S2).

抽出部133は、後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力を抽出する処理を行う(S3)。図11は、抽出部133が行う処理の流れを示すフローチャートである。抽出部133は、指示受付部136が、操作部11を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付けたか否かを判定する(S31)。 The extraction unit 133 performs a process of extracting one or more first captured image outputs and one or more second captured image outputs that are commonly activated in both the processing layers of the post-stage processing layer and the front-stage processing layer (S3). .. FIG. 11 is a flowchart showing the flow of processing performed by the extraction unit 133. The extraction unit 133 determines whether or not the instruction receiving unit 136 has received an instruction to select a processing layer to be used as the subsequent processing layer from the plurality of processing layers via the operation unit 11 (S31).

抽出部133は、指示受付部136が指示を受け付けたと判定した場合、指示受付部136が受け付けた指示が示す処理層を、後段処理層として選択する(S32)。抽出部133は、例えば、指示受付部136が第1の全結合層M8を示す指示を受け付けたと判定した場合、指示受付部136が受け付けた指示が示す第1の全結合層M8を、後段処理層として選択する。一方、抽出部133は、指示受付部136が指示を受け付けていないと判定した場合、最後尾層(例えば、出力層M10)で共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力があるか否かを判定する(S33)。 When the extraction unit 133 determines that the instruction receiving unit 136 has received the instruction, the extraction unit 133 selects the processing layer indicated by the instruction received by the instruction receiving unit 136 as the subsequent processing layer (S32). When, for example, the extraction unit 133 determines that the instruction receiving unit 136 has received the instruction indicating the first fully connected layer M8, the extraction unit 133 processes the first fully connected layer M8 indicated by the instruction received by the instruction receiving unit 136 in a subsequent stage. Select as a layer. On the other hand, when the extraction unit 133 determines that the instruction reception unit 136 has not received the instruction, one or more first captured image outputs and one or more that are commonly activated in the rearmost layer (for example, the output layer M10). It is determined whether or not there is a second captured image output of (S33).

抽出部133は、出力層M10で共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力があると判定した場合、最後尾層である出力層M10を、後段処理層として使用する(S34)。一方、抽出部133は、出力層M10で共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力がないと判定した場合、出力層M10より前の各処理層に対して、共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力を繰り返し探索する。そして、抽出部133は、共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力がある処理層(例えば、第2の全結合層M9)を、後段処理層として使用する(S35)。抽出部133は、選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、第1撮像画像に基づいて後段処理層及び前段処理層から出力された一以上の第1撮像画像出力と第2撮像画像に基づいて後段処理層及び前段処理層から出力された一以上の第2撮像画像出力とを抽出する。 When the extraction unit 133 determines that there is one or more first captured image outputs and one or more second captured image outputs that are commonly activated in the output layer M10, the output layer M10, which is the rearmost layer, is moved to the subsequent stage. It is used as a processing layer (S34). On the other hand, when the extraction unit 133 determines that there is no one or more first captured image outputs and one or more second captured image outputs commonly activated in the output layer M10, each processing layer before the output layer M10 On the other hand, one or more first captured image outputs and one or more second captured image outputs that are commonly activated are repeatedly searched. Then, the extraction unit 133 removes a processing layer (for example, a second fully connected layer M9) having one or more first captured image outputs and one or more second captured image outputs that are commonly activated into a subsequent processing layer. It is used as (S35). The extraction unit 133 is one or more first layers output from the post-processing layer and the pre-processing layer based on the first captured image, which are commonly activated in both the selected post-processing layer and the pre-processing layer. Based on one captured image output and the second captured image, one or more second captured image outputs output from the post-stage processing layer and the front-stage processing layer are extracted.

具体的には、まず、後段抽出部134は、選択した後段処理層から出力された複数の後段第1撮像画像出力、及び選択した後段処理層から出力された複数の後段第2撮像画像出力から、共通に活性化している一以上の後段第1撮像画像出力及び一以上の後段第2撮像画像出力を抽出する(S36)。そして、前段抽出部135は、後段抽出部134が抽出した一以上の後段第1撮像画像出力及び一以上の後段第2撮像画像出力を活性化させる要因となった前段処理層から出力された複数の前段第1撮像画像出力、及び前段処理層から出力された複数の前段第2撮像画像出力のうち、共通に活性化している一以上の前段第1撮像画像出力及び一以上の前段第2撮像画像出力を抽出する(S37)。 Specifically, first, the post-stage extraction unit 134 starts with a plurality of post-stage first captured image outputs output from the selected post-stage processing layer and a plurality of post-stage second captured image outputs output from the selected post-stage processing layer. , One or more post-stage first captured image outputs and one or more post-stage second captured image outputs that are commonly activated are extracted (S36). The front-stage extraction unit 135 is a plurality of outputs from the front-stage processing layer that has been a factor in activating one or more rear-stage first captured image outputs and one or more rear-stage second captured image outputs extracted by the rear-stage extraction unit 134. Of the multiple pre-stage first captured image outputs and the plurality of pre-stage second captured image outputs output from the pre-stage processing layer, one or more pre-stage first captured image outputs and one or more pre-stage second captured images that are commonly activated. The image output is extracted (S37).

続いて、抽出部133は、前段処理層より前に別の処理層があるか否かを判定する(S38)。抽出部133は、前段処理層(例えば、第2のプーリング層M7)より前に別の処理層(例えば、第3の畳み込み層M6)があると判定した場合、第2のプーリング層M7を後段処理層として選択し(S39)、処理をS36に戻す。一方、抽出部133は、前段処理層(例えば、入力層M1)より前に別の処理層がないと判定した場合、抽出した一以上の第1撮像画像出力及び一以上の第2撮像画像出力を特徴点検出部137に入力し、抽出処理を終了する。 Subsequently, the extraction unit 133 determines whether or not there is another processing layer before the pre-stage processing layer (S38). When the extraction unit 133 determines that there is another treatment layer (for example, the third convolution layer M6) before the front treatment layer (for example, the second pooling layer M7), the extraction unit 133 puts the second pooling layer M7 in the second stage. It is selected as the processing layer (S39), and the processing is returned to S36. On the other hand, when the extraction unit 133 determines that there is no other processing layer before the pre-stage processing layer (for example, the input layer M1), the extraction unit 133 outputs one or more extracted first captured images and one or more second captured images. Is input to the feature point detection unit 137, and the extraction process is completed.

図10に戻り、特徴点検出部137は、一以上の第1撮像画像出力及び一以上の第2撮像画像出力に基づいて、対応する特徴点を探索し、対応関係にある一以上の第1撮像画像出力に基づく一以上の第1撮像画像特徴点と、一以上の第2撮像画像出力に基づく一以上の第2撮像画像特徴点とを検出する(S4)。続いて、選択部138は、特徴点検出部137が検出した第1撮像画像特徴点及び第2撮像画像特徴点に不適切な特徴点があるか否かを判定する(S5)。選択部138は、例えば、RANSAC法に基づいて絞り込みを行う。 Returning to FIG. 10, the feature point detection unit 137 searches for the corresponding feature points based on one or more first captured image outputs and one or more second captured image outputs, and one or more first captured images having a corresponding relationship. One or more first captured image feature points based on the captured image output and one or more second captured image feature points based on one or more second captured image outputs are detected (S4). Subsequently, the selection unit 138 determines whether or not there are inappropriate feature points in the first captured image feature point and the second captured image feature point detected by the feature point detection unit 137 (S5). The selection unit 138 narrows down based on, for example, the RANSAC method.

選択部138は、第1撮像画像特徴点及び第2撮像画像特徴点に不適切な特徴点があると判定した場合、不適切な特徴点、すなわち、誤検出した対応関係にある第1撮像画像特徴点及び第2撮像画像特徴点を除去し(S6)、除去した後の対応関係に基づく一部の第1撮像画像特徴点及び一部の第2撮像画像特徴点を選択する。空間情報生成部139は、選択部138が、第1撮像画像特徴点及び第2撮像画像特徴点に不適切な特徴点がないと判定した場合、又は誤検出した対応関係を除去した後に、一以上の第1撮像画像特徴点と一以上の第2撮像画像特徴点とに基づいて、空間情報を生成する(S7)。 When the selection unit 138 determines that the first captured image feature point and the second captured image feature point have inappropriate feature points, the selection unit 138 determines that the first captured image feature point and the second captured image feature point have inappropriate feature points, that is, the first captured image having a corresponding erroneous detection. The feature points and the second captured image feature points are removed (S6), and some first captured image feature points and some second captured image feature points based on the correspondence after the removal are selected. The spatial information generation unit 139 determines that there are no inappropriate feature points in the first captured image feature point and the second captured image feature point, or after removing the erroneously detected correspondence, one Spatial information is generated based on the above first captured image feature points and one or more second captured image feature points (S7).

具体的には、空間情報生成部139は、まず、第1撮像画像における一部の第1撮像画像特徴点の位置と、第2撮像画像における一部の第2撮像画像特徴点の位置との関係、並びに第1撮像装置及び第2撮像装置の視差に基づいて、被写体との距離を推定する。そして、空間情報生成部139は、推定した被写体との距離に基づいて、3次元空間における被写体の表面位置を示す空間情報を生成する。空間情報生成部139は、生成した空間情報を記憶部12に記憶させる。 Specifically, the spatial information generation unit 139 first determines the positions of some of the first captured image feature points in the first captured image and the positions of some of the second captured image feature points in the second captured image. The distance to the subject is estimated based on the relationship and the difference between the first image pickup device and the second image pickup device. Then, the spatial information generation unit 139 generates spatial information indicating the surface position of the subject in the three-dimensional space based on the estimated distance to the subject. The spatial information generation unit 139 stores the generated spatial information in the storage unit 12.

[実施形態における効果]
以上説明したとおり、空間情報生成装置1は、取得した第1撮像画像及び第2撮像画像のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。空間情報生成装置1は、伝搬させた順とは逆の順序で後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の第1撮像画像出力及び一以上の第2撮像画像出力を、処理層ごとに抽出し、対応関係にある第1撮像画像特徴点及び第2撮像画像特徴点をそれぞれ検出する。そして、空間情報生成装置1は、誤検出した対応関係を除去した一以上の第1撮像画像特徴点と一以上の第2撮像画像特徴点とに基づいて、空間情報を生成する。
[Effect in Embodiment]
As described above, the spatial information generation device 1 propagates a plurality of processing layers included in the machine learning model M to each of the acquired first captured image and the second captured image. The spatial information generator 1 has one or more first captured image outputs and one or more second images that are commonly activated in both the processing layers of the post-stage processing layer and the front-stage processing layer in the reverse order of propagation. The captured image output is extracted for each processing layer, and the corresponding first captured image feature points and the second captured image feature points are detected, respectively. Then, the spatial information generation device 1 generates spatial information based on one or more first captured image feature points and one or more second captured image feature points from which the erroneously detected correspondence is removed.

このようにすることで、空間情報生成装置1は、畳み込みニューラルネットワークを含む機械学習モデルMを使用し、深層学習による抽象度が高い特徴量を求めることにより、被写体との距離を算出することができる。その結果、空間情報生成装置1は、3次元空間における被写体の表面位置を推定する精度を向上させることができる。 By doing so, the spatial information generation device 1 can calculate the distance to the subject by using the machine learning model M including the convolutional neural network and obtaining the feature amount with a high degree of abstraction by deep learning. it can. As a result, the spatial information generation device 1 can improve the accuracy of estimating the surface position of the subject in the three-dimensional space.

空間情報生成装置1は、例えば、複数の車載カメラから撮像した多視点画像を用いて、障害物との距離を示す情報を自動車の自動運転技術に提供することにより、障害物をより安全に回避させることができる。また、空間情報生成装置1は、例えば、車載カメラと路上カメラとの併用により撮像した多視点画像を用いて、自動車からでは物陰で見えない歩行者等の位置を示す情報を自動車に提供することにより、ドライバーに歩行者等の飛び出しを警告することができる。空間情報生成装置1は、多視点画像に基づく歩行者等の位置を示す空間情報と自由視点映像生成技術とを併用することにより、物陰を透視したかのような映像を作ることができる。 The spatial information generator 1 avoids obstacles more safely by, for example, using multi-viewpoint images captured by a plurality of in-vehicle cameras to provide information indicating the distance to the obstacles to the automatic driving technology of the automobile. Can be made to. Further, the spatial information generation device 1 provides the automobile with information indicating the position of a pedestrian or the like that cannot be seen in the shadow from the automobile by using, for example, a multi-viewpoint image captured by using an in-vehicle camera and a road camera in combination. This makes it possible to warn the driver of pedestrians and the like jumping out. The spatial information generation device 1 can create an image as if a shadow is seen through by using spatial information indicating the position of a pedestrian or the like based on a multi-viewpoint image and a free-viewpoint image generation technique in combination.

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。 Although the present invention has been described above using the embodiments, the technical scope of the present invention is not limited to the scope described in the above embodiments, and various modifications and changes can be made within the scope of the gist. is there. For example, the specific embodiment of the distribution / integration of the device is not limited to the above embodiment, and all or a part thereof may be functionally or physically dispersed / integrated in any unit. Can be done. Also included in the embodiments of the present invention are new embodiments resulting from any combination of the plurality of embodiments. The effect of the new embodiment produced by the combination has the effect of the original embodiment together.

1 空間情報生成装置
11 操作部
12 記憶部
13 制御部
131 画像取得部
132 伝搬制御部
133 抽出部
134 後段抽出部
135 前段抽出部
136 指示受付部
137 特徴点検出部
138 選択部
139 空間情報生成部
1 Spatial information generation device 11 Operation unit 12 Storage unit 13 Control unit 131 Image acquisition unit 132 Propagation control unit 133 Extraction unit 134 Post-stage extraction unit 135 Front-stage extraction unit 136 Instruction reception unit 137 Feature point detection unit 138 Selection unit 139 Spatial information generation unit

Claims (14)

第1撮像装置で生成された第1撮像画像と、前記第1撮像装置とは異なる位置に設置された第2撮像装置で生成された第2撮像画像と、を取得する画像取得部と、
前記第1撮像画像及び前記第2撮像画像のそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記第1撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1撮像画像出力と前記第2撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2撮像画像出力とを抽出する抽出部と、
前記一以上の第1撮像画像出力に基づいて一以上の第1撮像画像特徴点を検出し、かつ前記一以上の第2撮像画像出力に基づいて一以上の第2撮像画像特徴点を検出する特徴点検出部と、
前記一以上の第1撮像画像特徴点と前記一以上の第2撮像画像特徴点とに基づいて、3次元空間における前記被写体の表面位置を示す空間情報を生成する空間情報生成部と、
を有する空間情報生成装置。
An image acquisition unit that acquires a first captured image generated by the first imaging device and a second captured image generated by a second imaging device installed at a position different from that of the first imaging device.
A propagation control unit that propagates a plurality of processing layers included in a machine learning model capable of outputting the type of the subject included in the image based on the input image to each of the first captured image and the second captured image. When,
The latter stage based on the first captured image, which is commonly activated in both the post-stage treatment layer selected from the plurality of treatment layers and the pre-stage treatment layer which is the treatment layer immediately before the post-stage treatment layer. One or more first captured image outputs output from the processing layer and the pre-stage processing layer, and one or more second captured image outputs output from the post-stage processing layer and the pre-stage processing layer based on the second captured image. Extraction part to extract
One or more first captured image feature points are detected based on the one or more first captured image outputs, and one or more second captured image feature points are detected based on the one or more second captured image outputs. Feature point detector and
A spatial information generation unit that generates spatial information indicating the surface position of the subject in a three-dimensional space based on the one or more first captured image feature points and the one or more second captured image feature points.
Spatial information generator with.
前記抽出部は、
前記第1撮像画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1撮像画像出力、及び前記第2撮像画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2撮像画像出力から、共通に活性化している一以上の後段第1撮像画像出力及び一以上の後段第2撮像画像出力を抽出する後段抽出部と、
前記一以上の後段第1撮像画像出力及び前記一以上の後段第2撮像画像出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1撮像画像出力、及び前記前段処理層から出力された複数の前段第2撮像画像出力のうち、共通に活性化している一以上の前段第1撮像画像出力及び一以上の前段第2撮像画像出力を抽出する前段抽出部と、
を有する、
請求項1に記載の空間情報生成装置。
The extraction unit
A plurality of post-stage first captured image outputs output from the post-stage processing layer due to the propagation of the first captured image in the order of the pre-stage processing layer and the post-stage processing layer, which are a part of the plurality of processing layers, and the second-stage processing layer. One or more post-stage first captured image outputs and one or more post-stage first captured image outputs that are commonly activated from the plurality of post-stage second captured image outputs output from the post-stage processing layer because the captured images propagated in the order of the pre-stage processing layer and the post-stage processing layer. A post-stage extraction unit that extracts one or more post-stage second captured image outputs,
A plurality of pre-stage first captured image outputs output from the pre-stage processing layer, which are factors that activate the one or more post-stage first captured image outputs and the one or more post-stage second captured image outputs, and the pre-stage processing. Of the plurality of pre-stage second captured image outputs output from the layer, one or more pre-stage first captured image outputs and one or more pre-stage second captured image outputs that are commonly activated, and a pre-stage extraction unit that extracts one or more pre-stage second captured image outputs.
Have,
The spatial information generator according to claim 1.
前記前段抽出部は、前記複数の前段第1撮像画像出力及び前記複数の前段第2撮像画像出力のうち、活性化している大きさに基づいて、前記一以上の前段第1撮像画像出力及び前記一以上の前段第2撮像画像出力を抽出する、
請求項2に記載の空間情報生成装置。
The pre-stage extraction unit has one or more pre-stage first captured image outputs and said Extract one or more previous second captured image outputs,
The spatial information generator according to claim 2.
前記機械学習モデルは、畳み込みニューラルネットワークを含み、
前記後段処理層は、出力層、全結合層、正規化層、プーリング層、及び畳み込み層のうちのいずれかの層である、
請求項2又は3に記載の空間情報生成装置。
The machine learning model includes a convolutional neural network.
The post-treatment layer is any one of an output layer, a fully connected layer, a regularized layer, a pooling layer, and a convolution layer.
The spatial information generator according to claim 2 or 3.
前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層である、
請求項4に記載の空間情報生成装置。
The pretreatment layer is any one of a fully bonded layer, a regularized layer, a pooling layer, a convolution layer, and an input layer.
The spatial information generator according to claim 4.
前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の第1撮像画像出力及び前記一以上の第2撮像画像出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の第1撮像画像出力及び前記一以上の第2撮像画像出力を抽出する、
請求項1又は5に記載の空間情報生成装置。
When the last layer, which is the last treatment layer, is selected as the subsequent treatment layer among the plurality of treatment layers, the extraction unit is one or more of the first ones that are commonly activated in the last treatment layer. When there is no captured image output and one or more second captured image outputs, the one or more first captured image outputs and the one or more second captured images that are commonly activated in the processing layer before the rearmost layer. Extract image output,
The spatial information generator according to claim 1 or 5.
前記特徴点検出部が特定した前記一以上の第1撮像画像特徴点及び前記一以上の第2撮像画像特徴点から、相互の対応関係に基づいて一部の第1撮像画像特徴点及び一部の第2撮像画像特徴点を選択する選択部をさらに有し、
前記空間情報生成部は、前記一部の第1撮像画像特徴点と前記一部の第2撮像画像特徴点とに基づいて、前記空間情報を生成する、
請求項1から6のいずれか一項に記載の空間情報生成装置。
From the one or more first captured image feature points and the one or more second captured image feature points specified by the feature point detection unit, a part of the first captured image feature points and a part based on the mutual correspondence relationship. Further has a selection unit for selecting the second captured image feature point of
The spatial information generation unit generates the spatial information based on a part of the first captured image feature points and the part of the second captured image feature points.
The spatial information generator according to any one of claims 1 to 6.
前記空間情報生成部は、前記第1撮像画像における前記一部の第1撮像画像特徴点の位置と、前記第2撮像画像における前記一部の第2撮像画像特徴点の位置との関係、並びに前記第1撮像装置及び前記第2撮像装置の視差に基づいて、前記空間情報として被写体との距離を推定する、
請求項7に記載の空間情報生成装置。
The spatial information generation unit has a relationship between the positions of the first captured image feature points in the first captured image and the positions of the second captured image feature points in the second captured image, and The distance to the subject is estimated as the spatial information based on the difference between the first image pickup device and the second image pickup device.
The spatial information generator according to claim 7.
前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、
前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用する、
請求項1から8のいずれか一項に記載の空間情報生成装置。
Further, it has an instruction receiving unit that receives an instruction to select a processing layer to be used as the subsequent processing layer among the plurality of processing layers.
The extraction unit uses the processing layer indicated by the instruction received by the instruction receiving unit as the subsequent processing layer.
The spatial information generator according to any one of claims 1 to 8.
前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の第1撮像画像出力及び前記一以上の第2撮像画像出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の第1撮像画像出力及び前記一以上の第2撮像画像出力を抽出する、
請求項1から9のいずれか一項に記載の空間情報生成装置。
The extraction unit selects one of the plurality of processing layers as the post-processing layer, extracts the one or more first captured image outputs and the one or more second captured image outputs, and then extracts the one or more second captured image outputs. The processing layer selected as the processing layer is selected as the post-stage processing layer, and another one or more first captured image outputs and one or more second captured image outputs are extracted.
The spatial information generator according to any one of claims 1 to 9.
第1撮像装置で生成された第1撮像画像と、前記第1撮像装置とは異なる位置に設置された第2撮像装置で生成された第2撮像画像と、を取得するステップと、
前記第1撮像画像及び前記第2撮像画像のそれぞれに、入力された画像に基づいて当該画像に含まれる被写体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記第1撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1撮像画像出力と前記第2撮像画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2撮像画像出力とを抽出するステップと、
前記一以上の第1撮像画像出力に基づいて一以上の第1撮像画像特徴点を検出し、かつ前記一以上の第2撮像画像出力に基づいて一以上の第2撮像画像特徴点を検出するステップと、
前記一以上の第1撮像画像特徴点と前記一以上の第2撮像画像特徴点とに基づいて、3次元空間における前記被写体の表面位置を示す空間情報を生成するステップと、
を有する空間情報生成方法。
A step of acquiring a first captured image generated by the first imaging device and a second captured image generated by a second imaging device installed at a position different from that of the first imaging device.
A step of propagating a plurality of processing layers included in a machine learning model capable of outputting the type of the subject included in the image based on the input image to each of the first captured image and the second captured image.
The latter stage based on the first captured image, which is commonly activated in both the post-stage treatment layer selected from the plurality of treatment layers and the pre-stage treatment layer which is the treatment layer immediately before the post-stage treatment layer. One or more first captured image outputs output from the processing layer and the pre-stage processing layer, and one or more second captured image outputs output from the post-stage processing layer and the pre-stage processing layer based on the second captured image. And the steps to extract
One or more first captured image feature points are detected based on the one or more first captured image outputs, and one or more second captured image feature points are detected based on the one or more second captured image outputs. Steps and
A step of generating spatial information indicating the surface position of the subject in a three-dimensional space based on the one or more first captured image feature points and the one or more second captured image feature points.
Spatial information generation method having.
前記抽出するステップは、
前記第1撮像画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1撮像画像出力、及び前記第2撮像画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2撮像画像出力から、共通に活性化している一以上の後段第1撮像画像出力及び一以上の後段第2撮像画像出力を抽出する後段抽出ステップと、
前記一以上の後段第1撮像画像出力及び前記一以上の後段第2撮像画像出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1撮像画像出力、及び前記前段処理層から出力された複数の前段第2撮像画像出力のうち、共通に活性化している一以上の前段第1撮像画像出力及び一以上の前段第2撮像画像出力を抽出する前段抽出ステップと、
を有する、請求項11に記載の空間情報生成方法。
The extraction step
A plurality of post-stage first captured image outputs output from the post-stage processing layer due to the propagation of the first captured image in the order of the pre-stage processing layer and the post-stage processing layer, which are a part of the plurality of processing layers, and the second-stage processing layer. One or more post-stage first captured image outputs and one or more post-stage first captured image outputs that are commonly activated from the plurality of post-stage second captured image outputs output from the post-stage processing layer because the captured images propagated in the order of the pre-stage processing layer and the post-stage processing layer. A post-stage extraction step for extracting one or more post-stage second captured image outputs, and
A plurality of pre-stage first captured image outputs output from the pre-stage processing layer, which are factors that activate the one or more post-stage first captured image outputs and the one or more post-stage second captured image outputs, and the pre-stage processing. among the plurality of front second image output provided from the layer, and front extraction step of extracting a common activation to which one or more of the preceding first image output and one or more of the preceding second image output,
11. The spatial information generation method according to claim 11.
前記前段抽出ステップを実行した後に、前記一以上の前段第1撮像画像出力及び前記一以上の前段第2撮像画像出力を、前記複数の後段第1撮像画像出力及び前記複数の後段第2撮像画像出力として、前記後段抽出ステップを実行する、
請求項12に記載の空間情報生成方法。
After executing the pre-stage extraction step, the one or more pre-stage first captured image outputs and the one or more pre-stage second captured image outputs are combined with the plurality of rear-stage first captured image outputs and the plurality of rear-stage second captured images. As an output, the latter-stage extraction step is executed.
The spatial information generation method according to claim 12.
前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行する、
請求項12又は13に記載の空間情報生成方法。
The latter-stage extraction step and the first-stage extraction step are executed for each of the plurality of processing layers.
The spatial information generation method according to claim 12 or 13.
JP2017225930A 2017-11-24 2017-11-24 Spatial information generator and spatial information generation method Active JP6830052B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017225930A JP6830052B2 (en) 2017-11-24 2017-11-24 Spatial information generator and spatial information generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017225930A JP6830052B2 (en) 2017-11-24 2017-11-24 Spatial information generator and spatial information generation method

Publications (2)

Publication Number Publication Date
JP2019096129A JP2019096129A (en) 2019-06-20
JP6830052B2 true JP6830052B2 (en) 2021-02-17

Family

ID=66973031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017225930A Active JP6830052B2 (en) 2017-11-24 2017-11-24 Spatial information generator and spatial information generation method

Country Status (1)

Country Link
JP (1) JP6830052B2 (en)

Also Published As

Publication number Publication date
JP2019096129A (en) 2019-06-20

Similar Documents

Publication Publication Date Title
CN105069415B (en) Method for detecting lane lines and device
US9619733B2 (en) Method for generating a hierarchical structured pattern based descriptor and method and device for recognizing object using the same
US11017542B2 (en) Systems and methods for determining depth information in two-dimensional images
EP2593907B1 (en) Method for detecting a target in stereoscopic images by learning and statistical classification on the basis of a probability law
JP6226368B2 (en) Vehicle monitoring apparatus and vehicle monitoring method
CN103336957A (en) Network coderivative video detection method based on spatial-temporal characteristics
CN111797670B (en) Method and device for determining whether a hand cooperates with a manual steering element of a vehicle
US11804026B2 (en) Device and a method for processing data sequences using a convolutional neural network
CN113269720B (en) Defect detection method, system and readable medium for straight welded pipe
JP6946231B2 (en) Object tracking device and object tracking method
CN110088807A (en) Separator bar identification device
JP6830052B2 (en) Spatial information generator and spatial information generation method
Ramirez et al. Integrating motion and appearance for overtaking vehicle detection
CN113936138A (en) Target detection method, system, equipment and medium based on multi-source image fusion
JP6924128B2 (en) Morphing image generator and morphing image generation method
JP5715784B2 (en) Image contour detection method
CN114913519B (en) 3D target detection method and device, electronic equipment and storage medium
JP7010780B2 (en) Object area extraction device and object area extraction method
Nayan et al. Real time multi-class object detection and recognition using vision augmentation algorithm
Yang et al. A novel vision-based framework for real-time lane detection and tracking
JP6783742B2 (en) Parameter identification device and parameter identification method
de Macedo Rodrigues et al. Fingerprint verification using characteristic vectors based on planar graphics
JP6889653B2 (en) Video compression device and video compression method
CN117456586B (en) Micro expression recognition method, system, equipment and medium
Talu et al. A novel object recognition method based on improved edge tracing for binary images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210125

R150 Certificate of patent or registration of utility model

Ref document number: 6830052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150