JP2021107981A - Teacher data generation device - Google Patents
Teacher data generation device Download PDFInfo
- Publication number
- JP2021107981A JP2021107981A JP2019238712A JP2019238712A JP2021107981A JP 2021107981 A JP2021107981 A JP 2021107981A JP 2019238712 A JP2019238712 A JP 2019238712A JP 2019238712 A JP2019238712 A JP 2019238712A JP 2021107981 A JP2021107981 A JP 2021107981A
- Authority
- JP
- Japan
- Prior art keywords
- model
- teacher data
- image
- camera
- point cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Traffic Control Systems (AREA)
Abstract
Description
本発明は、教師データ生成装置に関し、特に実写画像とCG画像との間における認識性能を向上させる教師データ生成装置に関する。 The present invention relates to a teacher data generator, and more particularly to a teacher data generator that improves recognition performance between a live-action image and a CG image.
現在、車両の自動運転システムや運転支援システムを実現するため、様々な開発が進められている。例えば、こうしたシステムでは、自車両周辺の障害物や移動体などの自車両周辺の外界情報を認識し、自車両の外界周辺状況に応じた走行制御を行っている。したがって、外界情報の認識における誤検知や未検知は、安全上の重大な問題である。外界情報の認識における誤検知や未検知の問題を解決するため、外界情報の画像データからその特徴を段階的に学習するディープラーニング(機械学習)が用いられる。ディープラーニングによる認識性能を向上させるためには、リアリティ性の高い多数のサンプルが求められている。特許文献1では、CGにより実写に極めて類似した画像を生成することで学習のサンプル数を増やして、認識率を向上させることが開示されている。こうしたCGによりバリエーションに富んだ教師データを作成することができる。 Currently, various developments are underway to realize an automatic driving system and a driving support system for vehicles. For example, in such a system, the outside world information around the own vehicle such as obstacles and moving objects around the own vehicle is recognized, and traveling control is performed according to the situation around the outside world of the own vehicle. Therefore, false detection or non-detection in recognition of external information is a serious safety problem. In order to solve the problems of false detection and undetection in the recognition of external world information, deep learning (machine learning) is used in which the features are gradually learned from the image data of the external world information. In order to improve the recognition performance by deep learning, a large number of highly realistic samples are required. Patent Document 1 discloses that the number of learning samples is increased and the recognition rate is improved by generating an image very similar to a live-action image by CG. With such CG, it is possible to create a wide variety of teacher data.
しかしながら、実際には、実写画像に極めて類似したリアリティの高いCG画像であっても、CG画像と実写画像との間のドメインシフトのため、実画像に対して適用すると認識性能が悪化するという問題点がある。 However, in reality, even a highly realistic CG image that is very similar to the live-action image has a problem that the recognition performance deteriorates when applied to the real image due to the domain shift between the CG image and the live-action image. There is a point.
本発明は、このような事情に鑑みてなされたものであって、実写画像とCG画像との間における認識性能を向上させる教師データ生成装置を提供するものである。 The present invention has been made in view of such circumstances, and provides a teacher data generation device for improving recognition performance between a live-action image and a CG image.
本発明に係る教師データ生成装置は、3次元ポイントクラウドとカメラ映像により予め作成された背景CGモデル空間を格納する手段と、
路側に設置したカメラで撮影された映像の前景物体を認識し、前記前景物体に対応するCADモデルを前記背景CGモデル空間内に配置することでCGモデルを作成する手段と、
前記CGモデルと元フレーム画像との間の類似度を算出する手段と、
前記類似度に基づいて、前記作成したCGモデルから教師データを生成する手段と、
を備えるものである。
The teacher data generation device according to the present invention includes means for storing a background CG model space created in advance by a three-dimensional point cloud and a camera image, and
A means for creating a CG model by recognizing a foreground object of an image taken by a camera installed on the roadside and arranging a CAD model corresponding to the foreground object in the background CG model space.
A means for calculating the degree of similarity between the CG model and the original frame image,
A means for generating teacher data from the created CG model based on the similarity, and
Is provided.
本発明により、CGモデルから教師データを増やした場合において、その教師データの妥当性を判断することで、より精密な教師データを生成することができる。 According to the present invention, when the teacher data is increased from the CG model, more precise teacher data can be generated by judging the validity of the teacher data.
本発明によれば、実写画像とCG教師データをセットにして学習したときの認識性能が向上する。 According to the present invention, the recognition performance when learning a live-action image and CG teacher data as a set is improved.
まず本発明にかかる教師データ生成装置の概要を説明する。本発明では3次元ポイントクラウド(Point Cloud:点群)とカメラ映像により予め背景のCGモデル空間を作成する。路側に設置したカメラで撮影した映像の前景物体(例えば、車、バイク、人など)を認識し、対応するCADモデルを背景CGモデル空間内に配置していき、映像と一致するCGモデルを半自動で作成する。作成したCGモデルから、妥当性の高い各種の教師データを自動で出力することにより精度の高い教師データを作成する。これにより、大量のデータを識別・分類して正解ラベルを作成するアノテーション工数を削減することができる。さらに、学習時にはCG画像を使用せずに実写画像とCG教師データをセットにして学習することで、認識性能を向上させることができる。 First, an outline of the teacher data generation device according to the present invention will be described. In the present invention, a background CG model space is created in advance using a three-dimensional point cloud (point cloud) and a camera image. It recognizes the foreground object (for example, car, motorcycle, person, etc.) of the image taken by the camera installed on the roadside, arranges the corresponding CAD model in the background CG model space, and semi-automatically sets the CG model that matches the image. Create with. Highly accurate teacher data is created by automatically outputting various highly relevant teacher data from the created CG model. As a result, it is possible to reduce the man-hours for annotation to identify and classify a large amount of data and create a correct label. Further, the recognition performance can be improved by learning the live-action image and the CG teacher data as a set without using the CG image at the time of learning.
これまで、ディープラーニングにおいて教師データを手作業により作成するアノテーション作業には多大な工数を要していた。また、道路上の物体検出を行うために用いる距離センサやLiDARは、高額で導入コストが高い上に、距離や3次元の教師データを正確に作成するのは困難である。CGにより大量の教師データを簡易に作成できるが、フォトリアリスティックなCG画像であっても、CG教師データのみもしくは実データの教師データと混合して学習すると、適用時に認識性能が悪化するという問題があった。GAN(Generative Adversarial Nets)変換によりCG画像と実写画像のドメインシフトを軽減することができるが、完全に解決するわけではない。本発明の手法により実測、作成することが難しい距離や3次元の教師データも含めて半自動で作成でき、コストと工数の削減が期待できる。また、従来のCGとの混合学習方法よりも認識性能の向上が期待できる。 Until now, in deep learning, the annotation work of manually creating teacher data required a large amount of man-hours. In addition, distance sensors and LiDAR used for detecting objects on the road are expensive and expensive to introduce, and it is difficult to accurately create distance and three-dimensional teacher data. A large amount of teacher data can be easily created by CG, but even if it is a photorealistic CG image, if it is learned only with CG teacher data or mixed with teacher data of actual data, the recognition performance deteriorates at the time of application. was there. GAN (Generative Adversarial Nets) conversion can reduce the domain shift between CG images and live-action images, but it is not a complete solution. By the method of the present invention, distances and three-dimensional teacher data that are difficult to actually measure and create can be created semi-automatically, and cost and man-hours can be expected to be reduced. In addition, improvement in recognition performance can be expected as compared with the conventional mixed learning method with CG.
以下、本発明を適用した具体的な実施形態について、図面を参照しながら詳細に説明する。ただし、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載および図面は、適宜、簡略化されている。 Hereinafter, specific embodiments to which the present invention is applied will be described in detail with reference to the drawings. However, the present invention is not limited to the following embodiments. In addition, the following description and drawings have been simplified as appropriate to clarify the description.
図1は、本実施の形態にかかる学習装置の構成を示す概略ブロック図である。図2は、本実施の形態にかかるニューラルネットワーク学習を説明する図である。 FIG. 1 is a schematic block diagram showing a configuration of a learning device according to the present embodiment. FIG. 2 is a diagram illustrating neural network learning according to the present embodiment.
学習装置は、CPU等の演算処理装置を備え、細分化された処理のそれぞれを実行する機能演算部としての機能も担う。具体的には、学習装置は、路側カメラ動画入力部101、教師データ作成部102、精密教師データ作成部103及び学習部104を備える。また、学習装置は、前景物体CADモデルデータベース120と背景CGモデルデータベース130を備える。教師データ作成部102、精密教師データ作成部103、及び背景CGモデルデータベース130は、本発明の特徴部分の1つである、教師データ生成装置としても機能する。
The learning device includes an arithmetic processing unit such as a CPU, and also has a function as a functional arithmetic unit that executes each of the subdivided processes. Specifically, the learning device includes a roadside camera moving
路側カメラ動画入力部101は路側に設置したカメラ等のセンサ手段で撮影した動画を実写動画として入力する。
The roadside camera moving
前景物体CADモデルデータベース120は道路上を往来する可能性のある前景物体(例えば、車、バイク、人など)のテンプレートのCADモデルを格納している。背景CGモデルデータベース130は路側カメラが設置された道路や周辺構造物などの背景CADモデルを格納している。
The foreground object
教師データ作成部102は背景CADモデルに車などの前景物体を配置していき、路側カメラ動画入力部101から入力された実写動画に対応するCGモデル空間を作成し、各種の教師データTDを自動で作成する。
The teacher
作成された各種の教師データTDの例としては、例えば、2次元、3次元バウンディングボックス(2D,3D Bounding Box)、セマンティック(Semantic)、インスタンスセグメンテーション(Instance Segmentation)、デプスマップ(Depth Map)、クラウドポイント(Cloud Point)、クラス名、属性情報などが挙げられる。 Examples of various teacher data TDs created include, for example, 2D, 3D Bounding Box, Semantic, Instance Segmentation, Depth Map, and cloud. Points (Cloud Point), class name, attribute information, etc. can be mentioned.
精密教師データ作成部103は隠れによる未検知などの理由で自動作成できなかった不完全な教師データを修正し、高精度な教師データPTDを作成する。また、精密教師データ作成部103は、教師データTDの妥当性を判定し、高精度な教師データPTDを作成する。詳細は後述するが、精密教師データ作成部103は、作成したCGモデルと元フレーム画像との間の類似度を算出し、類似度に基づいて、作成したCGモデルから精密教師データPTDを生成する。
The precision teacher
学習部104は、路側カメラからの実写画像とCGにより作成した教師データをセットしてニューラルネットワークの訓練を行う。なお、本明細書では、公知のニューラルネットワーク、深層学習などについての詳細な説明を省略する。
The
図3は本発明の実施の形態にかかる学習装置の構成を示すブロック図である。学習装置は本発明の特徴部の1つである教師データ生成装置を含んでいる。 FIG. 3 is a block diagram showing a configuration of a learning device according to an embodiment of the present invention. The learning device includes a teacher data generation device which is one of the feature parts of the present invention.
高密度ポイントクラウド取得部311はMMS(Mobile Mapping System)やLiDAR(Light Detection and Ranging)などで高密度ポイントクラウドを取得する。カメラ映像入力部312は、ポイントクラウドを取得するときに同時にカメラ映像を撮影し、カメラ映像データを入力する。
The high-density point
路側カメラ動画入力部301は、路側に設置されたカメラで撮影した映像を入力する。路側カメラ設置情報データベース310は、路側カメラの設置情報(例えば、緯度、経度、高度、設置角度)を格納している。
The roadside camera
背景CGモデルデータベース330は、道路とその周辺構造物(例えば、信号機、標識など)のCADモデルとそれらを配置したCGモデル空間を格納している。
The background
前景物体CADモデルデータベース320は、車、バイク、人など道路を往来する前景物体のCADモデルを格納している。
The foreground object
教師データデータベース340は、フレーム毎に実写画像とCG教師データとをセットにして格納している。教師CGモデルデータベース350は各フレームに対応したCGモデル空間を格納している。
The
学習結果データベース360は、背景CGモデル作成部313を用いて随時訓練したネットワークモデル(学習済みモデル)を格納している。
The
背景CGモデル作成部313は、高密度ポイントクラウドとカメラ映像から道路とその周辺構造物のCADモデルを作成する。 The background CG model creation unit 313 creates a CAD model of the road and its surrounding structures from the high-density point cloud and the camera image.
フレームCGモデル作成部303は、路側カメラ動画から各フレームに対応するCGモデル空間を作成する。教師データ作成部302は、各フレームに対応する各種の教師データを作成する。妥当性判断部304は、作成した教師データの精度を確認し、妥当性を判断する。手作業修正部305は、自動生成に失敗したCGモデルをマニュアルで修正する。
The frame CG
ネットワーク訓練部306は、作成した教師データを用いて各種ネットワーク(例えば、ニューラルネットワーク)の訓練を行う。 The network training unit 306 trains various networks (for example, neural networks) using the created teacher data.
図4は背景CGモデル作成部313による背景CGモデル作成処理のフローチャートである。 FIG. 4 is a flowchart of the background CG model creation process by the background CG model creation unit 313.
ステップS40lでは「高密度ポイントクラウド取得部311」からのポイントクラウドと「カメラ映像入力部312」からのカメラ映像を引数に取る。LiDARで高密度のポイントクラウドを計測すると同時にカメラで映像を撮影する。LiDARとカメラとの間はキャリブレーションされており、取得されたポイントクラウドとカメラ映像は、フレーム毎に同期が取れているものとする。
In step S40l, the point cloud from the "high-density point
ステップS402では車両、歩行者などの背景以外のポイントクラウド(前景物体)を除去する。ステップS403では、フレーム画像に対してセマンティックセグメンテーション(Semantic Segmentation)などの手法を用いて、画素毎にクラス属性を付与する。 In step S402, a point cloud (foreground object) other than the background such as a vehicle or a pedestrian is removed. In step S403, a class attribute is assigned to each pixel of the frame image by using a method such as semantic segmentation.
ステップS404ではポイントクラウドをフレーム画像とセマンティックセグメンテーション画像ヘマッピングする。ステップS405ではマッピング結果から各ポイントクラウドへ色情報、クラス属性を付与する。これにより、色付き、クラス属性付きポイントクラウドが作成される。 In step S404, the point cloud is mapped to the frame image and the semantic segmentation image. In step S405, color information and class attributes are added to each point cloud from the mapping result. This creates a colored, class-attributed point cloud.
背景として分類される各クラス(道路、建物、樹木等)に対して以下のステップS406〜ステップS408を繰り返す。 The following steps S406 to S408 are repeated for each class (road, building, tree, etc.) classified as a background.
ステップS406では対象クラスのポイントクラウドのクラスタリングを行う。ステップS407ではクラスタリングされたポイントクラウドから3次元のCADモデルを作成(変換)する。ステップS408では作成したCADモデルをグローバルなCGモデル空間内に配置し、作成された背景CGモデルを前述した「背景CGモデルデータベース330」に格納する。
In step S406, the point cloud of the target class is clustered. In step S407, a three-dimensional CAD model is created (converted) from the clustered point cloud. In step S408, the created CAD model is arranged in the global CG model space, and the created background CG model is stored in the above-mentioned "background
図5A及び図5Bは、フレームCGモデル作成部303によるフレームCGモデル作成処理のフローチャートである。
ディープラーニングによる推論を行う処理では「学習結果データベース360」から精度のよいネットワークが作成できれば、適宜、更新された学習済みモデルに取り換えを行う。
5A and 5B are flowcharts of the frame CG model creation process by the frame CG
In the process of inferring by deep learning, if an accurate network can be created from the "learning
ステップS501では「路側カメラ動画入力部301」と「路側LiDARログ504」から順次フレーム毎の画像やポイントクラウドを取得する。この際、路側にLiDARを設置したほうが精度よくCGモデルを作成できる。
In step S501, images and point clouds for each frame are sequentially acquired from the “roadside camera moving
ステップS502では前フレーム画像に対応するCGモデルが存在するかを確認する。対応CGモデルが存在する(ステップS502でYES)場合は、「教師CGモデルデータベース350」から前フレームに対応するCGモデルを取得する(ステップS503)。一方、対応CGモデルが存在しない(ステップS502でNO)場合は、「路側カメラ設置情報データベース310」から大まかな設置位置を把握し、「背景CGモデルデータベース330」からカメラ周辺のCGモデルを取得する(ステップS504)。また、「路側カメラ設置情報データベース310」からCGモデル内のカメラパラメータを設定する。
In step S502, it is confirmed whether or not the CG model corresponding to the previous frame image exists. If the corresponding CG model exists (YES in step S502), the CG model corresponding to the previous frame is acquired from the "teacher
ステップS505ではフレーム内に存在する車、バイク、人などの前景物体を検出する(認識する)。前フレームに対応するCGモデルが取得できた場合はそれらの情報も参考にしてもよい。また、ディープラーニングによる物体検出の手法を用いてもよい。いくつかのネットワークの結果を比較して、検出精度を上げてもよい。 In step S505, foreground objects such as a car, a motorcycle, and a person existing in the frame are detected (recognized). If the CG model corresponding to the previous frame can be acquired, that information may also be referred to. Further, a method of object detection by deep learning may be used. The detection accuracy may be improved by comparing the results of several networks.
検出した前景物体に対して以下のステップS506〜ステップS514の処理を繰り返す。ステップS506では対象物体の詳細な属性を推定する。例えば、車とバイクの車種の判定、人の性別、年齢、及び体型を推定してもよい。ステップS507ではステップS506で推定した属性に応じて「前景物体CADモデルデータベース320」から類似した前景物体のCADモデルを取得する。人クラスの場合は類似度の高い体型のCADモデルを取得する必要がある。ステップS508では対象物体のカメラからの距離と、対象物体の姿勢(回転行列Rと併進ベクトルt)を推定する。
The following steps S506 to S514 are repeated for the detected foreground object. In step S506, the detailed attributes of the target object are estimated. For example, the vehicle type of a car and a motorcycle may be determined, and the gender, age, and body shape of a person may be estimated. In step S507, a CAD model of a similar foreground object is acquired from the "foreground object
ステップS509では対象物体が剛体とみなせるクラス(車、バイクなど)かどうか判定する。 In step S509, it is determined whether or not the target object is in a class (car, motorcycle, etc.) that can be regarded as a rigid body.
対象物体が人クラスの場合(ステップS509でNO、すなわち剛体でない場合)は以下の処理を行う。関節のキーポイント(画像から特徴的と思われる点)の3次元位置を推定する(ステップS510)。推定したキーポイントに合致するようにCADモデルを変形させる(調整する)(ステップS511)。ステップS512では、ステップS508で推定した変換行列(Rとt)を用いて対象物体(人)のCADモデルをCG空間内に配置する。 When the target object is of the human class (NO in step S509, that is, when it is not a rigid body), the following processing is performed. The three-dimensional position of the key point of the joint (the point that seems to be characteristic from the image) is estimated (step S510). The CAD model is deformed (adjusted) so as to match the estimated key point (step S511). In step S512, the CAD model of the target object (person) is arranged in the CG space using the transformation matrices (R and t) estimated in step S508.
一方、対象物体が剛体クラス(車、バイクなど)の場合(ステップS509でYES)は、直接、ステップS512に進み、ステップS508で推定した変換行列(Rとt)を用いて対象物体(車、バイクなど)のCADモデルをCG空間内に配置する。 On the other hand, when the target object is a rigid body class (car, motorcycle, etc.) (YES in step S509), the process directly proceeds to step S512, and the target object (car, t) is used by using the transformation matrix (R and t) estimated in step S508. A CAD model (such as a motorcycle) is placed in the CG space.
ステップS513ではCGモデルから該当領域のRGB画像をレンダリングする。CG画像と実画像でそれぞれエッジ及びコーナーの特徴量を比較し、類似度を算出する。ステップS514ではポイントクラウドの実データがあれば、その領域のポイントクラウドを切り出す。CGから該当モデル領域のポイントクラウドを出力し、実データからのポイントクラウドと、CGからのポイントクラウドを比較し、類似度を算出する。 In step S513, an RGB image of the corresponding region is rendered from the CG model. The feature amounts of the edges and corners are compared between the CG image and the actual image, and the similarity is calculated. In step S514, if there is actual data of the point cloud, the point cloud in that area is cut out. The point cloud of the corresponding model area is output from CG, the point cloud from actual data is compared with the point cloud from CG, and the degree of similarity is calculated.
ステップS515では、ステップS513とステップS514での比較結果を用いてCADモデルがCG空間内に精度よく配置されたかを判定する。CADモデルが精度よく配置されていない(ステップS515でNO)場合、ステップS516に進む。ステップS516では、ステップS513とステップS514が最小となるように変換行列(回転行列Rと併進ベクトルt)を最適化する。その後、再びステップS512に戻り、処理を繰り返す。 In step S515, it is determined whether or not the CAD model is accurately arranged in the CG space by using the comparison result in step S513 and step S514. If the CAD model is not accurately arranged (NO in step S515), the process proceeds to step S516. In step S516, the transformation matrix (rotation matrix R and translation vector t) is optimized so that step S513 and step S514 are minimized. After that, the process returns to step S512 and the process is repeated.
一方、CADモデルがCG空間内に精度よく配置されている(ステップS515でYES)場合、処理を終了する。 On the other hand, when the CAD model is accurately arranged in the CG space (YES in step S515), the process ends.
図6A及び図6Bは、教師データ作成部302による教師データ作成処理、妥当性判断部304による妥当性判断処理、及び手作業修正部305による手作業修正処理のフローチャートである。
6A and 6B are flowcharts of the teacher data creation process by the teacher
ステップS60lでは、教師データ作成部302は、「フレームCGモデル作成部303」からフレーム画像に対応するCGモデルを受け取り、各種の教師データを出力する。各種の教師データとしては、図7に示すように、2次元バウンディングボックス(2D Bounding Box)、セマンティックセグメンテーション(Semantic Segmentation)、インスタンスセグメンテーション(Instance Segmentation)、デプスマップ(Depth Map)、3次元バウンディングボックス(3D Bounding Box)、ポイントクラウド(Point Cloud)、クラス名(自動車、バイク、人など)、属性情報(車種、性別、年齢など)が挙げられる。
In step S60l, the teacher
ステップS602では、CG画像61をレンダリングする。
In step S602, the
ステップS603〜ステップS606では、妥当性判断部304は、作成したCG教師データの妥当性を判断する。具体的には、ステップS603では元フレーム画像62とCG画像61でそれぞれ、エッジとコーナーなどの特徴量を抽出し、比較して、類似度を算出する。ステップS604では元フレーム画像62をセマンティックセグメンテーションにより、クラス毎にピクセル値に塗り分ける。また、ステップS605では、ステップS604で作成したセグメンテーション画像とCGのセマンティックセグメンテーション教師画像の類似度を比較する。さらに、ステップS606では実測のポイントクラウド63とCGのポイントクラウドを比較し、類似度を算出する。
In steps S603 to S606, the
これらの類似度が高い(類似している)場合(すなわち、ステップS603、ステップS605、ステップS606でYESの場合)、ステップS607では、教師データとして妥当であると判断する。その後、元フレーム画像とCG教師データを「教師データデータベース340」へ格納する。CGモデルを「教師CGモデルデータベース350」へ格納する。格納するデータは、容量を削減するため、前フレームとの差分情報だけであってもよい。
When these similarities are high (similar) (that is, when YES in step S603, step S605, and step S606), in step S607, it is determined that the teacher data is valid. After that, the original frame image and the CG teacher data are stored in the "
一方、これらの類似度が近似していない場合(すなわち、ステップS603、ステップS605、ステップS606でNOの場合)、比較した各種の類似度の差が、闘値よりも低ければ(ステップS608でNO)、手作業による修正(ステップS609)を行う。具体的には、ステップS609では手作業による既存のCADモデルの配置調整や、未検出の物体のCADモデルを配置し、フレームCGモデルを修正する。 On the other hand, when these similarities are not similar (that is, when NO in step S603, step S605, and step S606), if the difference between the various similarities compared is lower than the fighting value (NO in step S608). ), Manually make corrections (step S609). Specifically, in step S609, the arrangement of the existing CAD model is manually adjusted, the CAD model of the undetected object is arranged, and the frame CG model is modified.
ステップS608では修正不可と判断した場合(ステップS608でYESの場合)は、CG画像を教師データデータベース340に格納することなく、処理を終了する。
If it is determined that the correction is not possible in step S608 (YES in step S608), the process ends without storing the CG image in the
このように、本実施の形態によれば、教師データとして妥当性の高いものを抽出することで、高精度な教師データを生成することができる。また、距離や3次元バウンディングボックス、ポイントクラウドなどの教師データを正確に作成するのは難しいが、このような妥当性の判断を行うことで、これらの教師データも利用できるようになる。 As described above, according to the present embodiment, highly accurate teacher data can be generated by extracting highly valid teacher data. In addition, it is difficult to accurately create teacher data such as distance, 3D bounding box, and point cloud, but by making such a validity judgment, these teacher data can also be used.
図8はネットワーク訓練部306による訓練処理のフローチャートである。
ある程度の教師データの蓄積後、各種のネットワークの訓練を行う。ステップS80lでは、教師データデータベース340から教師データ(CG教師データ)を取得して実写画像とCG教師データをセットにして各種ネットワークの学習を行う。ステップS802では学習済みモデルの評価を行う。評価結果と学習済みのネットワークモデルを学習結果データベース360へ格納する。ステップS803ではパラメータの最適化を行う。パラメータの最適化処理は、バッチ処理等で一括計算させてもよい。このように、学習時にはCG画像を使用せずに実写画像とCG教師データをセットにして学習することで、認識性能を向上させることができる。また、GAN変換によるドメインシフトの低減には限界があるので、本発明に示す手法は有効である。
FIG. 8 is a flowchart of the training process by the network training unit 306.
After accumulating some teacher data, various networks are trained. In step S80l, teacher data (CG teacher data) is acquired from the
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 In the above example, the program can be stored and supplied to a computer using various types of non-transitory computer readable medium. Non-transitory computer-readable media include various types of tangible storage media. Examples of non-temporary computer-readable media include magnetic recording media (eg, flexible discs, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical discs), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, DVD (Digital Versatile Disc), BD (Blu-ray (registered trademark) Disc), semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM ( Random Access Memory)) is included. The program may also be supplied to the computer by various types of transient computer readable medium. Examples of temporary computer-readable media include electrical, optical, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。 The present invention is not limited to the above embodiment, and can be appropriately modified without departing from the spirit.
61 CG画像
62 フレーム画像
63 フレームポイントクラウド
101 路側カメラ動画入力部
102 教師データ作成部
103 精密教師データ作成部
104 学習部
120 前景物体CADモデルデータベース
130 背景CGモデルデータベース
301 路側カメラ動画入力部
302 教師データ作成部
303 フレームCGモデル作成部
304 妥当性判断部
305 手作業修正部
306 ネットワーク訓練部
310 路側カメラ設置情報データベース
311 高密度ポイントクラウド取得部
312 カメラ映像入力部
313 背景CGモデル作成部
320 前景物体CADモデルデータベース
330 背景CGモデルデータベース
340 教師データデータベース
350 教師CGモデルデータベース
360 学習結果データベース
504 路側LiDARログ
TD 教師データ
PTD 精密教師データ
61
Claims (1)
路側に設置したカメラで撮影された映像の前景物体を認識し、前記前景物体に対応するCADモデルを前記背景CGモデル空間内に配置することでCGモデルを作成する手段と、
前記CGモデルと元フレーム画像との間の類似度を算出する手段と、
前記類似度に基づいて、前記作成したCGモデルから教師データを生成する手段と、
を備える、教師データ生成装置。 A means to store the background CG model space created in advance by the 3D point cloud and the camera image,
A means for creating a CG model by recognizing a foreground object of an image taken by a camera installed on the roadside and arranging a CAD model corresponding to the foreground object in the background CG model space.
A means for calculating the degree of similarity between the CG model and the original frame image,
A means for generating teacher data from the created CG model based on the similarity, and
A teacher data generator.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019238712A JP2021107981A (en) | 2019-12-27 | 2019-12-27 | Teacher data generation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019238712A JP2021107981A (en) | 2019-12-27 | 2019-12-27 | Teacher data generation device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021107981A true JP2021107981A (en) | 2021-07-29 |
Family
ID=76967925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019238712A Withdrawn JP2021107981A (en) | 2019-12-27 | 2019-12-27 | Teacher data generation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021107981A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023119989A1 (en) * | 2021-12-22 | 2023-06-29 | オプテックス株式会社 | Training data generation device, automatic door system, training data generation method, trained model generation method, control program, and recording medium |
WO2023157622A1 (en) * | 2022-02-15 | 2023-08-24 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
WO2023243185A1 (en) * | 2022-06-15 | 2023-12-21 | 株式会社日立製作所 | Learning data generation device |
-
2019
- 2019-12-27 JP JP2019238712A patent/JP2021107981A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023119989A1 (en) * | 2021-12-22 | 2023-06-29 | オプテックス株式会社 | Training data generation device, automatic door system, training data generation method, trained model generation method, control program, and recording medium |
WO2023157622A1 (en) * | 2022-02-15 | 2023-08-24 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
WO2023243185A1 (en) * | 2022-06-15 | 2023-12-21 | 株式会社日立製作所 | Learning data generation device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11861790B2 (en) | Procedural world generation using tertiary data | |
US11632536B2 (en) | Method and apparatus for generating three-dimensional (3D) road model | |
CN108229366B (en) | Deep learning vehicle-mounted obstacle detection method based on radar and image data fusion | |
WO2022083402A1 (en) | Obstacle detection method and apparatus, computer device, and storage medium | |
CN108921925B (en) | Semantic point cloud generation method and device based on laser radar and visual fusion | |
CN106845547B (en) | A kind of intelligent automobile positioning and road markings identifying system and method based on camera | |
WO2022016311A1 (en) | Point cloud-based three-dimensional reconstruction method and apparatus, and computer device | |
JP6595182B2 (en) | Systems and methods for mapping, locating, and attitude correction | |
CN110226186B (en) | Method and device for representing map elements and method and device for positioning | |
WO2020094033A1 (en) | Method and system for converting point cloud data for use with 2d convolutional neural networks | |
JP2021107981A (en) | Teacher data generation device | |
CN108764187A (en) | Extract method, apparatus, equipment, storage medium and the acquisition entity of lane line | |
KR101858902B1 (en) | System for extracting position information of object in point cloud data by using component | |
CN111680611B (en) | Road trafficability detection method, system and equipment | |
CN114359181B (en) | Intelligent traffic target fusion detection method and system based on image and point cloud | |
CN110197106A (en) | Object designation system and method | |
KR20210090384A (en) | Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor | |
CN112541908B (en) | Casting flash recognition method based on machine vision and storage medium | |
US11468687B2 (en) | Training and operating a machine learning system | |
CN117136315A (en) | Apparatus, system, method, and medium for point cloud data enhancement using model injection | |
CN115700796A (en) | Model generation method, model generation device, non-transitory storage medium, moving body posture estimation method, and moving body posture estimation device | |
Li et al. | 3D map system for tree monitoring in hong kong using google street view imagery and deep learning | |
US20220270327A1 (en) | Systems and methods for bounding box proposal generation | |
CN113591640B (en) | Road guardrail detection method and device and vehicle | |
CN107844749A (en) | Pavement detection method and device, electronic equipment, storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220125 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20220829 |