JP2019023858A - 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム - Google Patents
学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム Download PDFInfo
- Publication number
- JP2019023858A JP2019023858A JP2018101636A JP2018101636A JP2019023858A JP 2019023858 A JP2019023858 A JP 2019023858A JP 2018101636 A JP2018101636 A JP 2018101636A JP 2018101636 A JP2018101636 A JP 2018101636A JP 2019023858 A JP2019023858 A JP 2019023858A
- Authority
- JP
- Japan
- Prior art keywords
- model
- image
- learning data
- specific object
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Architecture (AREA)
- Geometry (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
【課題】CGデータを用いてアノテーション処理し学習データを構築する処理を簡易化する技術を提供する。
【解決手段】学習データ生成装置は、複数のモデルを含むCGデータのシーンデータを格納する第一記憶部と、前記シーンデータを用いて、シーンデータ用画像を生成する第一画像生成部と、特定物体モデル以外のモデルを前記シーンデータから削除し、前記特定物体モデルを特定色にするよう、前記シーンデータから学習データ生成用シーンデータを生成するモデル設定部と、前記学習データ生成用シーンデータを用いて、学習データ用画像を生成する第二画像生成部と、前記学習データ用画像において、前記特定物体モデルの領域を設定する物体領域設定部と、前記シーンデータ用画像と前記領域の情報とを対応付けて、学習データとして格納する第二記憶部とを備える。
【選択図】図1
【解決手段】学習データ生成装置は、複数のモデルを含むCGデータのシーンデータを格納する第一記憶部と、前記シーンデータを用いて、シーンデータ用画像を生成する第一画像生成部と、特定物体モデル以外のモデルを前記シーンデータから削除し、前記特定物体モデルを特定色にするよう、前記シーンデータから学習データ生成用シーンデータを生成するモデル設定部と、前記学習データ生成用シーンデータを用いて、学習データ用画像を生成する第二画像生成部と、前記学習データ用画像において、前記特定物体モデルの領域を設定する物体領域設定部と、前記シーンデータ用画像と前記領域の情報とを対応付けて、学習データとして格納する第二記憶部とを備える。
【選択図】図1
Description
本開示は、学習データ生成装置、学習データ生成方法、機械学習方法及びプログラムに関する。
機械学習のための学習データの構築等において、画像データの認識のためにラベル等のアノテーションが、画像データに付与される。例えば、特許文献1には、物体の形状及び動作を認識する物体認識装置が開示されている。物体認識装置は、対象物の3DCG(Three−dimensional computer graphics)画像を作成し、3DCG画像を2次元平面に投影した2D画像を作成し、この2D画像を、対象物の形状の学習画像とする。
例えば、街のような複雑な3DCGデータにおいて、街に含まれる人、車両等のモデルの配置位置、及びモデル間の相対位置関係から、ある視点から街を見た各モデルの見え方を算出するには、計算量が非常に多くなる。このような3DCGデータを用いて、対象物にアノテーションを付与し学習データを構築する場合、学習データの構築に多大な計算が必要となる。
本開示は、CGデータを用いてアノテーション処理し学習データを構築する処理の簡易化を図る学習データ生成装置、学習データ生成方法、機械学習方法及びプログラムを提供する。
本開示の非限定的で例示的な一態様に係る学習データ生成装置は、複数のモデルを含むCGデータを用いて学習データを生成する学習データ生成装置であって、前記CGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを格納する第一記憶部と、前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成する第一画像生成部と、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう、前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成するモデル設定部と、前記学習データ生成用シーンデータに含まれる、設定した前記1以上のパラメータを用いて、学習データ用画像を生成する第二画像生成部と、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定する物体領域設定部と、前記シーンデータ用画像と、前記特定物体領域の情報とを対応付けて、学習データとして格納する第二記憶部とを備える。
本開示の非限定的で例示的な一態様に係る学習データ生成方法は、複数のモデルを含むCGデータから学習データを生成する学習データ生成方法であって、前記CGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定された前記1以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する。
本開示の非限定的で例示的な一態様に係る機械学習方法は、本開示の非限定的で例示的な一態様に係る学習データ生成方法によって生成された前記学習データを入力し、前記学習データを用いて認識モデルを更新し、前記特定物体を含む画像が入力されたとき、前記更新された認識モデルを用いて前記特定物体を認識し、前記特定物体の種別及び動作の内容を出力する。
本開示の非限定的で例示的な一態様に係るプログラムは、複数のモデルを含むCGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定した前記1以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する、ことを、コンピュータに実行させる。
なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD−ROM(Compact Disc−Read Only Memory)等の不揮発性の記録媒体を含む。本開示の一態様の付加的な恩恵及び有利な点は本明細書及び図面から明らかとなる。この恩恵及び/又は有利な点は、本明細書及び図面に開示した様々な態様及び特徴により個別に提供され得るものであり、その1以上を得るために全てが必要ではない。
本開示による学習データ生成装置等によれば、CGデータを用いてアノテーション処理し学習データを構築する処理を簡易にすることができる。
[発明者による知見]
本開示に係る発明者ら、つまり本発明者らは、画像において人物及び物体等の対象物を認識及び検出する精度を向上するために、Deep Learning(深層学習)等のニューラルネットワークを用いた技術を用いることを検討した。Deep Learningでの対象物の認識には大量の学習用の画像データが必要となる。そして、学習用の画像データでは、対象物は、ラベル付けされる、つまり、対象物の内容、位置及び領域等を含む情報を、アノテーション情報として付与される。アノテーション情報の付与は、アノテーションの付与とも呼ばれる。本発明者らは、今後、画像において、対象物の認識及び検出にとどまらず、対象物の動作の認識、さらには、対象物の動作の予測が求められるようになると考えた。上記の対象物の動作の例として、自動車の自動運転において、歩行者の飛び出しなどの周囲の対象物の危険動作をカメラの画像から認識又は予測すること、監視カメラにおいて、盗難等の犯罪動作をカメラの画像から認識又は予測すること等が、挙げられる。しかしながら、このような例は、日常的に発生しない稀なケースである。
本開示に係る発明者ら、つまり本発明者らは、画像において人物及び物体等の対象物を認識及び検出する精度を向上するために、Deep Learning(深層学習)等のニューラルネットワークを用いた技術を用いることを検討した。Deep Learningでの対象物の認識には大量の学習用の画像データが必要となる。そして、学習用の画像データでは、対象物は、ラベル付けされる、つまり、対象物の内容、位置及び領域等を含む情報を、アノテーション情報として付与される。アノテーション情報の付与は、アノテーションの付与とも呼ばれる。本発明者らは、今後、画像において、対象物の認識及び検出にとどまらず、対象物の動作の認識、さらには、対象物の動作の予測が求められるようになると考えた。上記の対象物の動作の例として、自動車の自動運転において、歩行者の飛び出しなどの周囲の対象物の危険動作をカメラの画像から認識又は予測すること、監視カメラにおいて、盗難等の犯罪動作をカメラの画像から認識又は予測すること等が、挙げられる。しかしながら、このような例は、日常的に発生しない稀なケースである。
現在、学習用の画像データの構築は、一般的に、カメラによって実際に撮影された画像を使用して行われている。上記のような稀なケースは、実際に撮影された画像に含まれることが少ないため、このようなケースに関して、十分な学習用の画像データを収集することが困難であり収集に長期間を要する。このため、本発明者らは、CGデータを用いて、稀なケースの学習用の画像データを生成することを検討した。
例えば、自動車の自動運転に用いる学習用の画像データを生成する場合、街の3DCGデータのような自動車が走行する環境を表す3DCGデータが用いられ得る。上記の3DCGデータにおいて、自動車の運転席を視点とするカメラに写し出される画像が、学習用の画像データに用いられる。そして、生成された画像に写し出される人及び車両等の対象物に対して、アノテーションが付与される。対象物の配置位置、及び対象物間の相対的な位置関係から、上記カメラに写し出される対象物の見え方を算出することは、「背景技術」の欄で挙げた特許文献1に記載される技術では対応できず、困難であり、非常に多くの計算時間を要する。そこで、本発明者らは、3DCGデータを用いてアノテーション処理し学習データを構築する処理を簡易するために、以下に示す技術を考案した。
本開示の一態様に係る学習データ生成装置は、複数のモデルを含むCGデータを用いて学習データを生成する学習データ生成装置であって、前記CGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを格納する第一記憶部と、前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成する第一画像生成部と、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう、前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成するモデル設定部と、前記学習データ生成用シーンデータに含まれる、設定した前記1以上のパラメータを用いて、学習データ用画像を生成する第二画像生成部と、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定する物体領域設定部と、前記シーンデータ用画像と、前記特定物体領域の情報とを対応付けて、学習データとして格納する第二記憶部とを備える。
上記態様によると、学習データ生成用シーンデータは、シーンデータから、特定物体モデル以外のモデルを削除して生成される。このような学習データ生成用シーンデータを生成する処理は、簡易であり、処理量を低く抑えることができる。さらに、学習データ生成用シーンデータは、特定色にされた特定物体モデルのみをモデルとして含むため、データ量を低く抑えることができる。このような学習データ生成用シーンデータから第二画像生成部が学習データ用画像を生成する処理は、簡易であり、処理量を低く抑えることができる。また、学習データ用画像は、被写体として、特定物体モデルのみを含む。このため、物体領域設定部が特定物体領域を特定し設定する処理は、簡易であり、処理量を低く抑えることができる。このように、シーンデータから特定物体領域を設定する一連のアノテーション処理は、簡易であり、且つ処理量を低く抑えることができる。そして、特定物体領域の情報は学習データに適用される。よって、学習データ生成装置は、CGデータを用いてアノテーション処理し学習データを構築するための処理を簡易にすることができる。
本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、複数の前記特定物体モデルを選択し、前記モデル設定部は、前記複数の特定物体モデルそれぞれに対して、前記学習データ生成用シーンデータを生成してもよい。
上記態様によると、シーンデータに含まれる複数の特定物体モデルそれぞれに対して、学習データ生成用シーンデータが生成される。つまり、学習データ生成用シーンデータは、特定物体モデル毎に生成される。よって、シーンデータに複数の特定物体モデルが含まれる場合でも、各学習データ生成用シーンデータから生成される学習データ用画像を用いて、各特定物体モデルの特定物体領域を設定することが可能である。
本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、複数の前記特定物体モデルを選択し、前記複数の特定物体モデル以外の前記モデルを、前記シーンデータから削除し、異なる前記特定物体モデルに異なる特定色を適用し、前記第二画像生成部は、前記複数の特定物体モデルを含む前記学習データ生成用シーンデータを用いて、前記学習データ用画像を生成し、前記物体領域設定部は、前記学習データ用画像において、1つの前記特定物体モデルの上に別の前記特定物体モデルが重なって見える場合、前記1つの特定物体モデルのうちの見える領域を、前記特定物体領域に設定してもよい。
上記態様によると、複数の特定物体モデルを含む学習データ生成用シーンデータが生成される。さらに、学習データ生成用シーンデータから生成される学習データ用画像上において、各特定物体モデルの特定物体領域が特定される。この際、異なる特定物体モデル間で、特定物体モデルの特定色が異なるため、各特定物体領域の特定が容易になる。例えば、学習データ用画像上で互いに重なり合う特定物体モデルの特定物体領域は、特定色の違いに基づき容易に設定可能である。このような特定物体領域は、特定物体モデルのうちの他の特定物体モデルによって隠されずに見える領域を対象とすることができる。つまり、特定物体領域は、特定物体モデルの一部の領域を対象とすることができる。これにより、特定物体領域を用いた学習データは、特定物体モデルの一部の画像を対象とし得る。よって、このような学習データを用いて構築される認識モデルは、画像から対象物を検出する精度を向上することができる。
本開示の一態様に係る学習データ生成装置において、前記物体領域設定部は、前記学習データ用画像において、前記特定物体領域を囲むアノテーション枠を形成し、前記アノテーション枠の情報を、前記特定物体領域の情報として前記第二記憶部に格納してもよい。
上記態様によると、特定物体領域がアノテーション枠によって定められるため、特定物体領域の設定が容易になる。例えば、アノテーション枠の形状、大きさ及び位置を決定することによって、特定物体領域が決定され得る。このようなアノテーション枠の情報は、Deep Learning等の機械学習の学習データにおける特定物体領域の入力データとして、扱いやすいデータである。
本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、前記シーンデータに含まれる前記複数のモデルのうち少なくとも1つのモデルを変更し、前記第二画像生成部は、前記変更された前記シーンデータからも、前記特定物体領域の情報と対応付ける前記シーンデータ用画像を生成してもよい。
上記態様によると、第二画像生成部がシーンデータから生成するシーンデータ用画像は、シーンデータ及び変更されたシーンデータから生成された画像を含み得る。これにより、学習データにおいて、互いに対応付けられるシーンデータ用画像及び特定物体領域の情報の組み合わせを、増加することができる。よって、学習データのバリエーションが増え、このような学習データを用いて構築される認識モデルは、画像から対象物を検出する精度を向上することができる。
本開示の一態様に係る学習データ生成装置において、前記物体領域設定部は、前記学習データ用画像において、前記特定物体領域を囲むアノテーション枠を形成し、前記アノテーション枠の情報を、前記特定物体領域の情報とし、前記モデル設定部は、前記アノテーション枠の情報に基づいて、前記シーンデータに含まれる前記複数のモデルのうち少なくとも1つのモデルを変更してもよい。
上記態様によると、シーンデータの変更の際、アノテーション枠の情報に基づいて特定物体モデルが変更を受けるため、変更後の特定物体モデルに対するアノテーション枠の情報の再生成が、簡易又は不要となり得る。よって、シーンデータの変更処理の簡略化が可能になる。
本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、前記シーンデータの前記特定物体モデルを変更し、前記第二画像生成部は、変更される前記特定物体モデルの前記特定物体領域の情報に基づき、変更後の前記特定物体モデル及びその周辺の変更後画像を生成し、前記物体領域設定部は、前記変更後画像に基づき、前記変更後の特定物体モデルの前記特定物体領域を設定してもよい。
上記態様によると、特定物体モデルの変更に伴い、アノテーション枠の情報が再生成され得る。これにより、特定物体モデルの変更の自由度が増える。よって、学習データにおいて、特定物体モデルの特定物体領域のバリエーションが増える。
本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、変更後の前記特定物体モデルと他の前記物体モデルとの干渉の有無を判定し、干渉がある場合、前記特定物体モデルを変更しなくてもよい。
上記態様によると、特定物体モデルを、円滑に且つ実際の状況に即して変更することが可能になる。例えば、変更後の特定物体モデルが他の物体モデルと重なるように干渉するケースは、実現性の低いケースであり、このようなケースが学習データに含まれないようにすることが可能である。よって、認識モデルの検出精度が向上し得る。
本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、変更後の前記特定物体モデルと他の前記物体モデルとの干渉部分が前記シーンデータ用画像に写し出されない領域に含まれる場合、干渉の有無に関係なく、前記特定物体モデルを変更してもよい。
上記態様によると、シーンデータから生成されるシーンデータ用画像上に表されない干渉部分を判定の対象から除外することによって、特定物体モデルの変更処理の簡略化が可能になる。
本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、変更後の前記特定物体モデルが変更前よりも大きくなる場合、前記特定物体モデルを変更しなくてもよい。
上記態様によると、変更後の特定物体モデルと他の物体モデルとの干渉の有無の判定が不要になる。よって、特定物体モデルの変更処理の簡略化が可能になる。
本開示の一態様に係る学習データ生成方法は、複数のモデルを含むCGデータから学習データを生成する学習データ生成方法であって、前記CGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定された前記1以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する。上記態様によると、本開示の一態様に係る学習データ生成装置と同様の効果が得られる。
本開示の一態様に係る機械学習方法は、本開示の一態様に係る学習データ生成方法によって生成された前記学習データを入力し、前記学習データを用いて認識モデルを更新し、前記特定物体を含む画像が入力されたとき、前記更新された認識モデルを用いて前記特定物体を認識し、前記特定物体の種別及び動作の内容を出力する。上記態様によると、本開示の一態様に係る学習データ生成方法と同様の効果が得られる。
本開示の一態様に係る学習データ生成プログラムは、複数のモデルを含むCGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定した前記1以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成することを、コンピュータに実行させる。上記態様によると、本開示の一態様に係る学習データ生成装置と同様の効果が得られる。
なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD−ROM等の不揮発性の記録媒体を含む。
[実施の形態]
以下、本開示の実施の形態に係る学習データ生成装置100等について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ(工程)、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、以下の実施の形態の説明において、略平行、略直交のような「略」を伴った表現が、用いられる場合がある。例えば、略平行とは、完全に平行であることを意味するだけでなく、実質的に平行である、すなわち、例えば数%程度の差異を含むことも意味する。他の「略」を伴った表現についても同様である。また、各図は模式図であり、必ずしも厳密に図示されたものではない。さらに、各図において、実質的に同一の構成要素に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。
以下、本開示の実施の形態に係る学習データ生成装置100等について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ(工程)、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、以下の実施の形態の説明において、略平行、略直交のような「略」を伴った表現が、用いられる場合がある。例えば、略平行とは、完全に平行であることを意味するだけでなく、実質的に平行である、すなわち、例えば数%程度の差異を含むことも意味する。他の「略」を伴った表現についても同様である。また、各図は模式図であり、必ずしも厳密に図示されたものではない。さらに、各図において、実質的に同一の構成要素に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。
[1−1.学習データ生成装置の構成]
図1を参照して、実施の形態に係る学習データ生成装置100、及び学習データ生成装置100を備える画像認識システム10の構成を説明する。なお、図1は、実施の形態に係る学習データ生成装置100を備える画像認識システム10の概略的な構成の一例を示すブロック図である。画像認識システム10は、画像において対象物を検出するための認識モデルを構築し、当該認識モデルを用いて、画像に含まれる対象物を検出する。画像認識システム10は、学習データ生成装置100と、対象物認識装置200とを備える。
図1を参照して、実施の形態に係る学習データ生成装置100、及び学習データ生成装置100を備える画像認識システム10の構成を説明する。なお、図1は、実施の形態に係る学習データ生成装置100を備える画像認識システム10の概略的な構成の一例を示すブロック図である。画像認識システム10は、画像において対象物を検出するための認識モデルを構築し、当該認識モデルを用いて、画像に含まれる対象物を検出する。画像認識システム10は、学習データ生成装置100と、対象物認識装置200とを備える。
学習データ生成装置100は、撮像装置によって撮影された画像(以下、撮影画像とも呼ぶ)内及びCG画像内の対象物にアノテーションを付与し、認識モデルを構築するための学習用のデータ(以下、学習データとも呼ぶ)を生成する。さらに、学習データ生成装置100は、生成した学習データを用いて、画像から対象物を検出するための認識モデルを構築する。認識モデルの構築には、後述する学習モデルが適用される。学習データは、認識モデルが学習するために使用するデータである。学習データは、撮影画像及びCG画像と、撮影画像及びCG画像に付与されたアノテーションの情報とを含む。アノテーションの情報は、画像内の対象物の種別及び動作などの内容、対象物の位置及び領域等の情報を含む。
学習データ生成装置100は、学習データを用いて認識モデルに学習させることによって、検出精度を向上した認識モデルを構築する。本実施の形態では、認識モデルに適用される学習モデルは、Deep Learning(深層学習)等のニューラルネットワークを用いた機械学習モデルであるが、他の学習モデルであってもよい。例えば、学習モデルは、Random Forest、又はGenetic Programming等を用いた機械学習モデルであってもよい。
対象物認識装置200は、学習データ生成装置100が構築した認識モデルを用いて、画像認識システム10が取得する画像に含まれる対象物を検出する。さらに、対象物認識装置200は、対象物の検出結果を出力する。
以降において、図2に示すように、対象物認識装置200が、移動体、具体的には、自動車1に搭載され、学習データ生成装置100が、自動車1から離れた位置にあるサーバ2に搭載されるとして、説明する。自動車1の対象物認識装置200と、サーバ2とは、無線通信を介して接続され、例えば、インターネット等の通信網3を介して互いに無線通信する。学習データ生成装置100と対象物認識装置200とは、無線通信を介して、情報を送受信する。上記無線通信には、Wi−Fi(登録商標)(Wireless Fidelity)などの無線LAN(Local Area Network)が適用されてもよく、その他の無線通信が適用されてもよい。サーバ2は、コンピュータ等の情報処理装置であってもよい。サーバ2は、1つ以上のサーバを含んでもよく、クラウドシステムを構成してもよい。
学習データ生成装置100は、通信回路等の無線通信装置を備えてもよく、サーバ2が備える無線通信装置を利用してもよい。対象物認識装置200は、通信回路等の無線通信装置を備えてもよく、自動車1が備える無線通信装置を利用してもよい。なお、学習データ生成装置100と対象物認識装置200とは、無線通信を介して接続されず、有線通信を介して接続されてもよく、不揮発性メモリ等の記録媒体を介して、互いに情報を授受してもよい。
また、自動車1に搭載されるコンピュータが処理可能であれば、学習データ生成装置100が自動車1に搭載されてもよい。この場合、学習データ生成装置100と対象物認識装置200とは一体化されてもよい。そして、学習データ生成装置100は、無線通信、有線通信又は記録媒体を介して、自動車1の外部と、情報を授受してもよい。
さらに、図1を参照して、画像認識システム10の学習データ生成装置100及び対象物認識装置200の詳細な構成を説明する。なお、以降において、画像認識システム10が、学習データを生成するために3DCGデータを使用するケースを説明する。3DCGデータは、3次元空間内に配置された様々な仮想的な物体(以下、仮想的な物体のことをモデルとも呼ぶ)に関する情報等を含む。また、本実施の形態では、3DCGデータが、街の3DCGデータである例を説明するが、画像認識システム10に適用される3DCGデータは、いかなる環境の3DCGデータであってもよい。学習データ生成装置100は、モデル設定部101、レンダリング部102、物体領域設定部103、認識モデル構築部104、第一記憶部105、第二記憶部106及び第三記憶部107を備える。ここで、レンダリング部102は、第一画像生成部及び第二画像生成部の一例である。
第一記憶部105、第二記憶部106及び第三記憶部107は、種々の情報を格納し、且つ格納した情報を取り出すことができる。第一記憶部105、第二記憶部106及び第三記憶部107は、例えば、ROM(Read−Only Memory)、RAM(Random Access Memory)、フラッシュメモリなどの半導体メモリ、ハードディスクドライブ、又は、SSD(Solid State Drive)等の記憶装置によって実現される。第一記憶部105は、3DCGデータにおけるシーンデータを格納する。シーンデータは、3DCGデータが示す街等に配置されたカメラに写し出される光景に含まれる全ての要素に関する情報を含む。具体的には、例えば、シーンデータは、上記光景に含まれる人、車両及び建物等の物体のモデル(物体モデルとも呼ぶ)だけでなく、カメラの位置及び向き、上記光景の光源(光源モデルとも呼ぶ)、上記光景の背景の情報(背景モデルとも呼ぶ)、及び上記光景の環境の情報(環境モデルとも呼ぶ)等の様々なモデルも含み得る。3DCGデータにおいて位置及び向きが設定されたカメラを、カメラモデルとも呼ぶ。モデルは、3DCGデータの3次元空間を構成する様々な要素である。モデルには、当該3次元空間内において、その種別、形状、寸法、配置、動作、作用及び経時的な変化等の様々な事項が設定されている。また、第一記憶部105は、3DCGデータ全体を格納してもよい。
例えば、本実施の形態のように、3DCGデータが街のデータである場合、街全体が3Dモデル化されている。街の3DCGデータは、街に含まれる人、車両、建物及びその他の構造物等の物体モデルにおける種別及び動作などの内容、形状、並びに配置等の物体モデルに関する情報、太陽及び照明等の光源モデルの情報、背景モデルの情報、並びに、雨及び霧などの天候等の環境モデルの情報のような、街を構成する様々なモデルの情報を含み得る。物体モデルには、建物、道路、道路付属物、駐車場、公園、植物及びその他の構造物等の不動な物体モデル、並びに、人、動物及び車両等の移動可能な物体モデルが含まれる。3DCGデータは、3DCGデータ内でカメラモデルの位置及び向きを任意に設定することによって、カメラモデルが写し出す様々な光景を表示することができる。例えば、カメラモデルの位置が自動車の運転席である場合、3DCGデータは、当該自動車の運転席から見える光景を表示することができる。3DCGデータから生成されるシーンデータは、カメラモデルに写し出される光景に含まれる様々なモデルに関する情報を含み得る。つまり、シーンデータは、カメラモデルに対応したデータである。例えば、走行する自動車と共にカメラモデルが移動する場合、シーンデータは、カメラモデルの移動に伴った各モデルの変化を示すアニメーション情報を含む。
第二記憶部106は、学習データ生成装置100が第一記憶部105内のシーンデータから生成される画像に対して、画像内の対象物に付与したアノテーションの情報と、当該画像とを対応付けて格納する。第三記憶部107は、学習データ生成装置100が構築した認識モデルを格納する。
モデル設定部101は、3DCGデータ及びシーンデータ内に含まれるモデルの設定を行う。例えば、モデル設定部101は、3DCGデータ及びシーンデータ内の光源モデルを設定する。光源モデルは、太陽であっても、画像内の各モデルを表示するための照明などの光源であってもよい。モデル設定部101は、光源モデルの状態を設定することによって、シーンデータから生成される画像内でのモデルの表示のされ方を変更することができる。例えば、モデル設定部101は、光源モデルを削除することもできる。
また、モデル設定部101は、光源モデル以外のモデルの変更及び配置変更等のモデルに対する設定の変更も行う。また、モデル設定部101は、光源モデルを削除したシーンデータにおいて、処理の対象とするモデルを対象モデルに設定し、当該対象モデル以外のモデルを削除する処理も行う。このようなモデル設定部101は、シーンデータに対して、対象モデルのみを表示対象とする処理を行う。ここで、対象モデルは、特定物体モデルの一例である。
また、モデル設定部101は、3DCGデータ及びシーンデータ内のテクスチャの設定及びマテリアルのパラメータの設定をする。具体的には、モデル設定部101は、3DCGデータ及びシーンデータ内のモデルのテクスチャを設定する。また、モデル設定部101は、3DCGデータ及びシーンデータ内のモデルに対して、光学的特性及び材質感等の物体の材質を示すマテリアルのパラメータを設定する。また、モデル設定部101は、対象モデル以外のモデルを削除したシーンデータにおいて、対象モデルのテクスチャを設定する処理も行う。この場合、モデル設定部101は、対象モデルのテクスチャを白等の特定色に設定する。モデル設定部101は、対象モデルを発光させるようにテクスチャを設定してもよい。なお、モデル設定部101は、対象モデル以外のモデルを削除したシーンデータにおいて、対象モデルのマテリアルのパラメータを、特定のマテリアルに設定する処理を行ってもよい。ここで、対象モデルのテクスチャが特定色に設定されたシーンデータは、学習データ生成用シーンデータの一例である。
レンダリング部102は、画像に関する情報に基づいて画像を生成する。例えば、レンダリング部102は、シーンデータから、シーンデータに設定されたカメラモデルに写し出される光景の画像を生成する。シーンデータが、アニメーション情報を含む場合、レンダリング部102は、1つのシーンデータから、アニメーションを構成する複数のフレームの画像を生成する。また、レンダリング部102は、モデル設定部101が対象モデルのテクスチャを特定色に設定したシーンデータから、対象モデルを含む画像を生成する処理も行う。例えば、対象モデルのテクスチャが白に設定されている場合、レンダリング部102は、対象モデルの領域が白色であり且つ背景が黒色である画像を生成する。
物体領域設定部103は、画像上において、対象とするモデルの領域を設定する。例えば、物体領域設定部103は、対象モデルのテクスチャが特定色であるシーンデータからレンダリング部102が生成した画像において、対象モデルの領域の位置、形状及び大きさを設定する。ここで、対象モデルの領域は、物体特定領域の一例である。例えば、物体領域設定部103は、当該画像における対象モデルの領域である白色領域を外側から囲うアノテーション枠を、対象モデルの領域に設定する。この場合、物体領域設定部103は、例えば、対象モデルの白色領域に外接する矩形等の多角形のアノテーション枠を設定する。さらに、物体領域設定部103は、画像上におけるアノテーション枠の位置及び大きさを特定する。このように、物体領域設定部103は、アノテーション枠の位置、形状及び大きさを特定することによって、対象モデルの領域を設定する。なお、物体領域設定部103は、アノテーション枠を用いずに対象モデルの領域を設定してもよい。
さらに、物体領域設定部103は、対象モデルの種別及び動作等の内容、並びに、当該対象モデルのアノテーション枠の位置、形状及び大きさ等の情報を互いに関連付け、当該対象モデルのアノテーション情報として、第二記憶部106に格納する。上述のようにして、物体領域設定部103は、画像内の対象モデルにアノテーションを付与する。また、物体領域設定部103は、対象モデルへのアノテーションの付与に用いた画像に対応する処理前の画像と、アノテーション情報とを対応付ける。上記処理前の画像は、対象物へのアノテーションの付与に用いた画像と同じ光景を示す、つまり同じカメラモデルの画像であり、モデル設定部101によるモデルの削除等の上述の処理を受けていないシーンデータから生成される画像である。
認識モデル構築部104は、第二記憶部106に格納された対象モデルのアノテーション情報及び当該アノテーション情報に対応する画像を、学習データとして用いて、認識モデルを構築する。認識モデル構築部104は、アノテーションが実施された画像を、入力データとする。そして、認識モデル構築部104は、当該入力データが入力された認識モデルの出力結果が対象モデルを示すように、認識モデルに学習させる、つまり認識モデルを再構築する。認識モデルに学習させるとは、入力データに対して正解である結果が出力されるように、認識モデルを再構築することである。認識モデル構築部104は、様々な対象モデルの様々な画像を入力データとし、正解となる対象モデルが出力されるように、認識モデルの再構築を繰り返すことによって、認識モデルの出力精度を向上させる。認識モデル構築部104は、再構築を繰り返すことによって学習させた認識モデルを、第三記憶部107に格納する。
本実施の形態では、認識モデル構築部104は、認識モデルの学習モデルにニューラルネットワークを用いる。例えば、図3を参照すると、ニューラルネットワークのモデルの一例が示されている。ニューラルネットワークは、脳神経系をモデルにした情報処理モデルである。ニューラルネットワークは、入力層及び出力層を含む複数のノード層で構成されている。ノード層には、1つ以上のノードが含まれる。ニューラルネットワークのモデル情報は、ニューラルネットワークを構成するノード層の数と、各ノード層に含まれるノード数と、ニューラルネットワークの全体又は各ノード層の種別とを示す。ニューラルネットワークが、例えば、入力層、1つ以上の中間層及び出力層で構成される場合、ニューラルネットワークは、入力層のノードに入力された情報について、入力層から中間層への出力処理、中間層での処理、中間層から次の中間層又は出力層への出力処理、出力層での処理等を順次行い、入力情報に適合する出力結果を出力する。なお、1つの層の各ノードは、次の層の各ノードと接続されており、ノード間の接続には、重み付けがされている。1つの層のノードの情報は、ノード間の接続の重み付けが付与されて、次の層のノードに出力される。入力層、中間層及び出力層それぞれのノード数は、種々に設定され得る。
認識モデル構築部104は、アノテーション枠内の対象モデルの画像をニューラルネットワークに入力する。入力層の各ノードには、対象モデルの画像から抽出される特徴が入力される。さらに、認識モデル構築部104は、ニューラルネットワークからの出力が、アノテーション情報に含まれる対象モデルの内容と一致するように、ニューラルネットワークのノード間の重み付けを最適化する。このような重み付けの調整によって、認識モデル構築部104は、入力画像と対象モデルの内容との関係を、ニューラルネットワークに学習させ、出力精度の高いニューラルネットワークを再構築する。認識モデル構築部104は、上述のような再構築後のニューラルネットワークを、認識モデルとする。
なお、認識モデル構築部104は、ニューラルネットワークから出力される対象モデルの種別及び動作が、アノテーション情報に含まれる対象モデルの種別及び動作と一致するように、ニューラルネットワークのノード間の重み付けを最適化してもよい。このように構築されたニューラルネットワークは、入力された画像に基づき、対象モデルを検出するだけでなく、対象モデルが行っている又はこれから行う動作も検出することができる。
上述のようなモデル設定部101、レンダリング部102、物体領域設定部103及び認識モデル構築部104で構成される学習データ生成装置100の構成要素はそれぞれ、CPU(Central Processing Unit)、RAM、ROMなどからなるコンピュータシステム(図示せず)により構成されてもよい。上記構成要素の一部又は全部の機能は、CPUがRAMを作業用のメモリとして用いてROMに記録されたプログラムを実行することによって達成されてもよい。また、上記構成要素の一部又は全部の機能は、電子回路又は集積回路等の専用のハードウェア回路によって達成されてもよい。プログラムは、ROMに予め記録されたものであってもよく、アプリケーションとして、インターネット等の通信網を介した通信、モバイル通信規格による通信、その他の無線ネットワーク、有線ネットワーク、又は放送等で提供されるものであってもよい。
また、対象物認識装置200は、対象物検出部201と第四記憶部202とを備える。対象物検出部201は、サーバ2の学習データ生成装置100から、その第三記憶部107に格納された認識モデルを、無線通信等を介して取得し、第四記憶部202に格納する。学習データ生成装置100が認識モデルを更新すると、対象物検出部201は、更新後の最新の認識モデルを用いて、第四記憶部202に格納された認識モデルを更新する。第四記憶部202は、第一記憶部105等と同様に、例えば、ROM、RAM、フラッシュメモリなどの半導体メモリ、ハードディスクドライブ、又はSSD等の記憶装置によって実現される。
対象物検出部201は、自動車1に搭載された撮像装置1aから、撮像装置1aが撮影した画像を取得する。撮像装置1aは、例えば、デジタル画像を生成するカメラであり、動画及び/又は静止画を出力する。対象物検出部201は、取得した画像において、認識モデルを用いて対象物を検出する。具体的には、対象物検出部201は、取得した画像を、第四記憶部202に格納された認識モデルに入力し、認識モデルの出力結果を取得する。対象物検出部201は、画像から種々の特徴を抽出し、抽出した特徴を入力情報として、認識モデルに入力する。認識モデルは、入力情報に基づき、画像に含まれる対象物の種別及び動作等の内容並びに位置等を出力する。対象物検出部201は、対象物の種別及び動作等の内容並びに位置等を検出結果として出力する。対象物は、例えば、人及び車両であるが、道路の植栽、道路標識、道路標示及び信号などの道路付属物、工事用バリケードなどの道路上の障害物、動物等の様々な物体であってもよい。車両は、自動車、大型貨物車、バス、特殊車両、自動二輪車、自転車、その他の軽車両等であってもよい。
対象物検出部201は、検出結果を、自動車1に搭載された報知部1bに出力してもよく、自動車1のECU(電子制御ユニット、Electronic Control Unit)等の制御部1cに出力してもよい。報知部1bは、ディスプレイ及び/又はスピーカで構成されてよく、取得した検出結果を自動車1の運転者に報知する。ディスプレイは、液晶パネル、有機又は無機EL(Electro Luminescence)等の表示パネルで構成されてもよい。制御部1cは、自動車1が自動運転機能を備える場合、取得した検出結果に基づき、自動車1の動作を制御する。例えば、検出結果が道路を横断しようとする人を示す場合、制御部1cは、自動車1を停止する又は減速する制御を行う。自動運転機能は、衝突回避ブレーキ及び車線維持のような自動車の運転の一部を補助する機能であってもよく、全体を担う機能であってもよい。
上述のような対象物検出部201の構成は、モデル設定部101、レンダリング部102、物体領域設定部103及び認識モデル構築部104のような学習データ生成装置100の構成要素について説明した構成と同様であってもよい。対象物検出部201は、制御部1cに含まれてもよい。
[1−2.学習データ生成装置の動作]
図1及び図4を参照して、実施の形態に係る学習データ生成装置100の動作を説明する。なお、図4は、実施の形態に係る学習データ生成装置100が認識モデルを構築する処理の流れの一例を示すフローチャートである。図4に示すように、学習データ生成装置100は、ステップS101において、画像から対象物を検出するための認識モデルを構築するために、当該認識モデルの構築に使用する学習データを生成する。学習データは、画像データと、画像データ内の対象物に付与されたアノテーションの情報とを含む。
図1及び図4を参照して、実施の形態に係る学習データ生成装置100の動作を説明する。なお、図4は、実施の形態に係る学習データ生成装置100が認識モデルを構築する処理の流れの一例を示すフローチャートである。図4に示すように、学習データ生成装置100は、ステップS101において、画像から対象物を検出するための認識モデルを構築するために、当該認識モデルの構築に使用する学習データを生成する。学習データは、画像データと、画像データ内の対象物に付与されたアノテーションの情報とを含む。
次いで、ステップS102において、学習データ生成装置100は、生成した学習データを用いて、認識モデルに学習させることによって、認識モデルを構築する。具体的には、認識モデル構築部104は、画像データ内におけるアノテーションが付与された対象物の画像を認識モデルの入力データとしたとき、当該アノテーションの情報に含まれる対象物の種別及び動作等の内容、つまり正解の出力結果が出力されるように、認識モデルを調整する。認識モデル構築部104は、様々な対象物の様々な画像を用いて、認識モデルを調整することによって、認識モデルの出力精度を向上させる。認識モデル構築部104は、学習済みの認識モデルを、第三記憶部107に格納する。なお、認識モデル構築部104は、第三記憶部107に格納された認識モデルにさらに学習させ、認識モデルを更新してもよい。
さらに、図1及び図5を参照して、図4のステップS101の処理、つまり、学習データ生成装置100による学習データの生成処理の詳細を説明する。なお、図5は、実施の形態に係る学習データ生成装置100が学習データを生成する処理の流れの一例を示すフローチャートである。
まず、ステップS201において、学習データ生成装置100のレンダリング部102は、第一記憶部105から、街の3DCGデータの所定のシーンデータを取得する。例えば、シーンデータは、カメラモデルに関するパラメータ、及び、3DCGの街の道路を走る自動車の運転席に配置されたカメラモデルに写し出される前方の光景に関する複数のパラメータを含む。なお、カメラモデルの位置は、自動車のいかなる場所であってもよく、自動車以外の場所であってもよい。限定するものではないが、本実施の形態では、シーンデータは、自動車と共に移動するカメラモデルに写し出される光景に関する複数のパラメータに対応する。なお、第一記憶部105へ格納するシーンデータの選択、形成及び格納は、サーバ2の操作者によって行われてもよい。例えば、操作者は、サーバ2において、街の3DCGデータを操作し、3DCG内のカメラモデルの位置及び向きを選択する。さらに、操作者は、当該カメラモデルを、例えば、道路等に沿って移動させ、移動する過程でカメラモデルに連続的に写し出される光景に関するパラメータをシーンデータとして選択し、第一記憶部105に格納する。操作者は、様々なカメラモデルの位置、向き及び移動方向でシーンデータを作成し、第一記憶部105に格納する。これにより、様々な視点での光景に関する複数のパラメータを含むシーンデータが形成され、第一記憶部105に格納される。
レンダリング部102は、第一記憶部105に格納された様々なシーンデータの中から、サーバ2及び学習データ生成装置100の操作者が指定する位置及び向きのカメラモデルに写し出される光景に関する複数のパラメータを含むシーンデータを、所定のシーンデータとして取得する。
次のステップS202において、レンダリング部102は、所定のシーンデータに含まれる複数のパラメータを用いて、カメラモデルに写し出される光景の画像(以下、シーン画像とも呼ぶ)を生成する。連続的に変化するシーンは、例えばn個である複数のシーンで構成されており、n個のシーンそれぞれに対応するn個のカメラモデルが、シーンデータ内に存在する。このため、レンダリング部102は、シーンデータから、n個のカメラモデルそれぞれが写し出すn個のフレームのシーン画像を生成する。レンダリング部102は、生成したシーン画像をカメラモデルと対応付けて第二記憶部106に格納する。例えば、図6を参照すると、実施の形態に係る学習データ生成装置100のレンダリング部102がシーンデータから生成するシーン画像の一例が模式的に示されている。なお、シーンデータは、1つのカメラモデルのみを含む構成であってもよい。ここで、シーン画像は、シーンデータ用画像の一例である。
次いで、ステップS203において、モデル設定部101は、シーンデータのパラメータの設定を行うことによって、シーンデータに設定されている光源モデルを削除する。例えば、光源モデルが削除されたシーンデータから画像を生成すると、生成された画像全体が、黒色等の単色で塗りつぶされた状態となる。
次いで、ステップS204において、モデル設定部101は、シーンデータに含まれる複数のモデルの中から、処理の対象とする対象モデルを抽出する。本実施の形態では、モデル設定部101は、予め決められた規則に従って、移動可能な対象モデルを抽出する。なお、予め決められた規則は、抽出すべき対象モデルが移動可能であるという規則であるが、これに限定されない。このようなモデル設定部101は、人及び車両等の物体モデルを、対象モデルとして抽出する。例えば、図6に示す光景を含むシーンデータにおいて、モデル設定部101は、対象モデルA〜Eを抽出する。対象モデルAは歩行者であり、対象モデルBはバスであり、対象モデルCは自動二輪車であり、対象モデルDは自動車であり、対象モデルEは自転車である。ここで、対象モデルは、特定物体モデルの一例である。
さらに、ステップS205において、モデル設定部101は、ステップS204において抽出した、全ての対象モデルに対するアノテーションが完了したか否かを判定する。具体的には、モデル設定部101は、n個のフレームのシーン画像に含まれる全ての対象モデルに対して、アノテーション処理が完了したか否かを判定する。上記アノテーション処理は、ステップS205〜S215の処理である。モデル設定部101は、アノテーション処理が完了している場合(ステップS205でYES)、ステップS102へ進み、アノテーション処理が完了していない場合(ステップS205でNO)、ステップS206へ進む。
ステップS206では、モデル設定部101は、アノテーション処理がされていない対象モデルの中から、1つの対象モデル(以下、認識対象モデルと呼ぶ)を選ぶ。例えば、モデル設定部101は、アノテーション処理された対象モデルを図示しないメモリに記憶し、メモリに記憶されている対象モデル以外の対象モデルを、認識対象モデルとして選ぶ。
次のステップS207では、モデル設定部101は、認識対象モデルに対して、シーンデータに含まれる全てのカメラモデルに関してアノテーション処理が完了しているか否かを判定する。各カメラモデルに関するアノテーション処理は、ステップS207〜S215の処理である。モデル設定部101は、アノテーション処理が完了している場合(ステップS207でYES)、ステップS205へ戻り、アノテーション処理が完了していない場合(ステップS207でNO)、ステップS208へ進む。
ステップS208では、モデル設定部101は、認識対象モデルに設定するカメラモデル(以下、特定カメラモデルと呼ぶ)を、シーンデータに含まれるカメラモデルの中から選択する。なお、モデル設定部101は、アノテーション処理にまだ用いられていないカメラモデルを、特定カメラモデルとして選ぶ。
次のステップS209では、モデル設定部101は、シーンデータに含まれるモデルを探索し、モデルが認識対象モデルに該当するか否かを判定する。これにより、モデル設定部101は、モデルの中から、認識対象モデルを抽出する。モデル設定部101は、認識対象モデルに該当する場合(ステップS209でYES)、ステップS210へ進み、認識対象モデルに該当しない場合(ステップS209でNO)、ステップS211へ進む。
ステップS210では、モデル設定部101は、シーンデータのパラメータの設定を行うことによって、抽出された認識対象モデルのテクスチャを白色等の特定色の無地のテクスチャに張り替える。モデル設定部101は、認識対象モデルを発光させるように、テクスチャに張り替えてもよい。モデル設定部101は、ステップS210の後、ステップS212へ進む。
ステップS211では、モデル設定部101は、該当しないモデルを、シーンデータから削除する。このとき、モデル設定部101は、シーンデータのパラメータの設定を行うことによって、特定カメラモデル以外のカメラモデルを削除する。さらに、モデル設定部101は、シーンデータのパラメータの設定を行うことによって、認識対象モデル以外のモデルを削除する。例えば、モデル設定部101は、認識対象モデル以外の物体モデルの光の反射率を0にしてもよい。モデル設定部101は、ステップS211の後、ステップS212へ進む。
ステップS212において、モデル設定部101は、認識対象モデルに関するシーンデータの再構築が完了したか否かを判定する。上記のシーンデータの再構築とは、特定カメラモデルと、特定色のテクスチャを有する認識対象モデルとのみを、モデルとして含むシーンデータが再構築されることである。モデル設定部101は、シーンデータの再構築が完了している場合(ステップS212でYES)、ステップS213へ進み、シーンデータの再構築が完了していない場合(ステップS212でNO)、ステップS209へ戻る。そして、ステップS209〜S212の処理が繰り返されることによって、1つの特定カメラモデルと1つの認識対象モデルとの組み合わせに対して、1つのシーンデータが構築される。このようなステップS209〜S212の処理によって実現されるシーンデータの構築は、簡易であり、処理量を低く抑え得る。
ステップS213では、レンダリング部102は、再構築されたシーンデータから、画像(以下、アノテーション用画像とも呼ぶ)を生成する。レンダリング部102は、再構築されたシーンデータに含まれる特定カメラモデル及び認識対象モデルのパラメータを用いて、特定カメラモデルが写し出す認識対象モデルの画像を生成する。このような生成画像は、白色等の特定色の無地のテクスチャを有する認識対象モデルと、黒色等の無地の背景とで構成される画像である。そして、生成画像は、認識対象モデルのアノテーション用の画像として用いることができる。このような生成画像の例が、図7A〜図7Eに示されている。図7Aは、対象モデルAのアノテーション用画像の例である。図7Bは、対象モデルBのアノテーション用画像の例である。図7Cは、対象モデルCのアノテーション用画像の例である。図7Dは、対象モデルDのアノテーション用画像の例である。図7Eは、対象モデルEのアノテーション用画像の例である。アノテーション用画像は、1つの特定カメラモデルと1つの認識対象モデルとを含むシーンデータから生成されるため、アノテーション用画像の生成処理は、簡易であり、処理量を低く抑え得る。ここで、アノテーション用画像は、学習データ用画像の一例である。
なお、レンダリング部102が生成するアノテーション用画像は、1つの再構築後のシーンデータから生成され且つ1つの認識対象モデルを含む画像に限定されない。レンダリング部102は、複数の認識対象モデルに対応する複数の再構築後のシーンデータから、1つのアノテーション用画像を生成してもよい。また、モデル設定部101が、複数の認識対象モデルを含む1つの再構築後のシーンデータを生成し、レンダリング部102が、この再構築後のシーンデータから、1つのアノテーション用画像を生成してもよい。このようなアノテーション画像は、同一のカメラモデルによって写し出される複数の認識対象モデルを含み得る。
次いで、ステップS214において、物体領域設定部103は、ステップS213で生成されたアノテーション用画像から、当該アノテーション用画像に含まれる認識対象モデルのアノテーション情報を抽出する。物体領域設定部103は、アノテーション用画像における認識対象モデルの位置及び領域等の情報をアノテーション情報として抽出する。例えば、物体領域設定部103は、アノテーション用画像上において、認識対象モデルを囲い且つ認識対象モデルに外接するアノテーション枠を形成し、アノテーション枠の位置、形状及び大きさをアノテーション情報とする。アノテーション枠は、形状の特定が容易である矩形等の多角形であってもよく、本実施の形態では、矩形である。例えば、図8A〜図8Eを参照すると、図7A〜図7Eのアノテーション用画像の対象モデルA〜Eそれぞれに設定される矩形のアノテーション枠の例AF〜EFが示されている。アノテーション枠の位置及び大きさは、アノテーション用画像に設定される座標系である画像座標系を用いて表される。ここで、認識対象モデルの領域は、特定物体領域の一例である。
図8A〜図8Eに示すように、例えば、物体領域設定部103は、矩形をしたアノテーション用画像の左上の角に原点Оを設定する。さらに、物体領域設定部103は、アノテーション用画像に対して、原点Oから水平右方向へ正の値をとって延びるx軸と、原点Oから鉛直下方向へ正の値をとって延びるy軸とを設定する。さらに、物体領域設定部103は、アノテーション用画像の奥行き方向、つまりxy平面に垂直な方向にz軸を設定してもよい。本実施の形態では、x軸及びy軸上の値はそれぞれ、画素座標で定義され、具体的には、原点Oからの画素数、つまりピクセル数で定義される。z軸上の値は、3DCG内に設定される距離で定義されてもよい。
また、物体領域設定部103は、認識対象モデルのアノテーション枠において、左上の角に基準点Pを設定し、基準点Pのx及びyの画素座標値を用いてアノテーション枠の平面的な位置を規定する。さらに、物体領域設定部103は、基準点Pのz軸上の値を用いて、アノテーション枠の奥行き方向の位置を規定してもよい。基準点Pのz軸上の値は、アノテーション枠で囲まれる認識対象モデルとカメラモデルとの距離としてもよい。このような距離は、シーンデータが有する認識対象モデルの位置情報、又は、アノテーション用画像に設定される認識対象モデルの位置情報と、カメラモデルの位置情報とから取得されてもよい。さらに、物体領域設定部103は、アノテーション枠のx軸方向の長さ及びy軸方向の長さを用いて、アノテーション枠の大きさを規定する。
次いで、ステップS215において、物体領域設定部103は、アノテーション枠の基準点Pの座標と、アノテーション枠のx軸及びy軸方向の長さと、認識対象モデルの種別等の内容とを、認識対象モデルのアノテーション情報として、第二記憶部106に格納する。この際、物体領域設定部103は、認識対象モデルを含むアノテーション用画像と同一のカメラモデルのシーン画像を、第二記憶部106に格納されるシーン画像の中から特定し、特定したシーン画像とアノテーション情報とを対応付ける。第二記憶部106に格納されるシーン画像は、ステップS202においてレンダリング部102が生成した画像である。アノテーション情報が示すアノテーション枠を、当該アノテーション情報に対応するシーン画像に重畳した画像の例が、図9に示されている。なお、図9は、図6のシーン画像に対象モデルのアノテーション枠を重畳した図である。例えば、第二記憶部106から、1つのシーン画像と、当該シーン画像に対応する複数のアノテーション情報とを取得することによって、当該シーン画像上において、対象モデルA〜Fの領域を特定することが可能である。そして、物体領域設定部103は、ステップS215の完了後、ステップS207に戻る。
なお、図10を参照すると、第二記憶部106に格納されるアノテーション情報の例が示されている。アノテーション情報は、アノテーション情報のID(Identifier)情報、対象モデルつまり対象物の内容、アノテーション枠の基準点Pの座標、アノテーション枠のx軸方向の大きさ、アノテーション枠のy軸方向の大きさ、及び、アノテーション情報に対応するシーン画像のID情報等を含む。図10のアノテーション情報のIDはそれぞれ、対象モデルA〜Eのアノテーション情報の例である。
上述より、ステップS206〜S215の一連の処理において、ステップS207〜S215の処理を繰り返すことによって、1つの対象モデルに対して、全てのカメラモデルに関するアノテーション処理が行われる。さらに、ステップS204〜S215の一連の処理において、ステップS205〜S215の処理を繰り返すことによって、全ての対象モデルに対して、アノテーション処理が行われる。
次に、図11を参照して、実施の形態に係る対象物認識装置200の動作を説明する。なお、図11は、実施の形態に係る対象物認識装置200が画像から対象物を認識する処理の流れの一例を示すフローチャートである。図11に示すように、まず、ステップS301において、対象物認識装置200の対象物検出部201は、自動車1に搭載された撮像装置1aから、撮像装置1aが撮影した画像(以下、カメラ画像とも呼ぶ)を取得する。次いで、ステップS302において、対象物検出部201は、第四記憶部202から認識モデルを取得する。認識モデルは、撮像装置1aに対応する認識モデルであってもよい。例えば、撮像装置1aが自動車1の運転席から前方を撮影する場合、認識モデルは、運転席から前方に見える光景に関するものであってもよい。
さらに、ステップS303において、対象物検出部201は、取得したカメラ画像を認識モデルに入力し、認識モデルから出力結果を取得する。このとき、認識モデルは、カメラ画像において、所定の対象物を検出し、検出結果を対象物検出部201に出力する。所定の対象物は、認識モデルの構築時に、認識モデルが画像から検出するように設定された対象物であり、例えば、図4のステップS101の処理の説明における対象モデルに該当する対象物を含む。
ステップS304において、対象物検出部201は、検出された対象物の情報を出力する。対象物の情報の例は、対象物の種別、位置、移動方向等であってもよい。例えば、対象物検出部201は、自動車1の報知部1bに対象物の情報を出力してもよい。そして、報知部1bは、そのディスプレイに表示される撮像装置1aのカメラ画像上において、対象物を強調表示し、運転者に報知してもよい。若しくは、報知部1bは、対象物の情報を音声で報知してもよい。又は、対象物検出部201は、自動車1の制御部1cに対象物の情報を出力してもよい。制御部1cは、対象物の情報に基づき、自動車1の動作を制御してもよい。自動車1が自動運転機能を有する場合、制御部1cは、対象物が自動車1の走行に支障をきたす又は危険を及ぼすと判断すると、自動車1を停止する又は減速する等の制御をしてもよい。
[1−3.効果等]
上述したような実施の形態に係る学習データ生成装置100によると、学習データ生成用シーンデータの一例である再構築後のシーンデータは、シーンデータから、認識対象モデル以外のモデルを削除して生成される。このようなシーンデータを再構築する処理は、簡易であり、処理量を低く抑えることができる。さらに、再構築後のシーンデータは、特定カメラモデルと、特定色の認識対象モデルとのみをモデルとして含むため、データ量を低く抑えることができる。このような再構築後のシーンデータからアノテーション用画像を生成する処理は、簡易であり、処理量を低く抑えることができる。さらに、生成されたアノテーション用画像は、被写体として、認識対象モデルのみを含む。このため、当該アノテーション用画像において、認識対象モデルにアノテーション枠を形成する処理は、簡易であり、処理量を低く抑えることができる。このように、シーンデータの認識対象モデルへのアノテーション処理は、簡易であり、且つ処理量を低く抑えることができる。よって、学習データ生成装置100は、CGデータを用いてアノテーション処理し学習データを構築するための処理を簡易にすることができる。
上述したような実施の形態に係る学習データ生成装置100によると、学習データ生成用シーンデータの一例である再構築後のシーンデータは、シーンデータから、認識対象モデル以外のモデルを削除して生成される。このようなシーンデータを再構築する処理は、簡易であり、処理量を低く抑えることができる。さらに、再構築後のシーンデータは、特定カメラモデルと、特定色の認識対象モデルとのみをモデルとして含むため、データ量を低く抑えることができる。このような再構築後のシーンデータからアノテーション用画像を生成する処理は、簡易であり、処理量を低く抑えることができる。さらに、生成されたアノテーション用画像は、被写体として、認識対象モデルのみを含む。このため、当該アノテーション用画像において、認識対象モデルにアノテーション枠を形成する処理は、簡易であり、処理量を低く抑えることができる。このように、シーンデータの認識対象モデルへのアノテーション処理は、簡易であり、且つ処理量を低く抑えることができる。よって、学習データ生成装置100は、CGデータを用いてアノテーション処理し学習データを構築するための処理を簡易にすることができる。
また、実施の形態に係る学習データ生成装置100において、シーンデータに複数の認識対象モデルが含まれる場合、複数の認識対象モデルそれぞれに対して、シーンデータが再構築される。これにより、再構築後のシーンデータは、認識対象モデル毎に生成される。よって、シーンデータに複数の認識対象モデルが含まれる場合でも、再構築後のシーンデータから生成されるアノテーション用画像を用いて、各認識対象モデルの領域を特定することが可能である。
また、実施の形態に係る学習データ生成装置100において、認識対象モデルの領域が、アノテーション枠によって定められるため、当該領域の設定が容易である。例えば、アノテーション枠の形状、大きさ及び位置を決定することによって、認識対象モデルの領域が決定され得る。このようなアノテーション枠の情報は、Deep Learning等の機械学習の学習データにおける認識対象モデルの領域の入力データとして、扱いやすいデータである。
[変形例1]
[2−1.変形例1に係る学習データ生成装置の動作]
実施の形態に係る学習データ生成装置100において、モデル設定部101は、1つの対象モデルのみを含む再構築後のシーンデータを生成した。そして、レンダリング部102は、1つの再構築後のシーンデータから、1つの対象モデルのみを含むアノテーション用画像を生成した。実施の形態の変形例1に係る学習データ生成装置の動作において、モデル設定部101は、複数の対象モデルを含む再構築後のシーンデータを生成する。さらに、レンダリング部102は、複数の対象モデルを含むアノテーション用画像を生成する。そして、物体領域設定部103は、アノテーション用画像に含まれる複数の対象モデルそれぞれに対して、アノテーション枠を形成する。この際、2つの対象モデルが互いに部分的に重複して表示される場合、物体領域設定部103は、対象モデルのうちの見える部分に、アノテーション枠を形成する。以下において、変形例1について、実施の形態と異なる点を中心に説明する。
[2−1.変形例1に係る学習データ生成装置の動作]
実施の形態に係る学習データ生成装置100において、モデル設定部101は、1つの対象モデルのみを含む再構築後のシーンデータを生成した。そして、レンダリング部102は、1つの再構築後のシーンデータから、1つの対象モデルのみを含むアノテーション用画像を生成した。実施の形態の変形例1に係る学習データ生成装置の動作において、モデル設定部101は、複数の対象モデルを含む再構築後のシーンデータを生成する。さらに、レンダリング部102は、複数の対象モデルを含むアノテーション用画像を生成する。そして、物体領域設定部103は、アノテーション用画像に含まれる複数の対象モデルそれぞれに対して、アノテーション枠を形成する。この際、2つの対象モデルが互いに部分的に重複して表示される場合、物体領域設定部103は、対象モデルのうちの見える部分に、アノテーション枠を形成する。以下において、変形例1について、実施の形態と異なる点を中心に説明する。
具体的には、モデル設定部101は、図5のステップS206において、複数の認識対象モデルを選択する。そして、モデル設定部101は、図5のステップS207〜S212の処理を、実施の形態と同様に行う。本変形例では、ステップS207〜S212において、モデル設定部101は、シーンデータから、特定カメラモデル及び複数の認識対象モデル以外のモデルを削除する。そして、モデル設定部101は、シーンデータ内の複数の認識対象モデルそれぞれに対して、異なる特定色を用いてテクスチャを張り替える。つまり、モデル設定部101は、互いに異なる複数の認識対象モデルそれぞれに、色が重複しないように、異なる特定色を適用する。これにより、特定カメラモデルに関して、互いに異なる特定色にされた複数の認識対象モデルを含むシーンデータが再構築される。さらに、モデル設定部101は、再構築後のシーンデータに含まれる各認識対象モデルと、各認識対象モデルに設定した特定色とを対応付けて、図示しないメモリ等に記憶させる。例えば、モデル設定部101は、認識対象モデルA〜Eのみを含むシーンデータを再構築する。そして、モデル設定部101は、認識対象モデルA〜Eそれぞれに対して、異なる特定色を適用する。
レンダリング部102は、図5のステップS213と同様に、複数の認識対象モデルを含む1つの再構築後のシーンデータを用いて、1つのアノテーション用画像を生成する。例えば、レンダリング部102は、認識対象モデルA〜Eを含み且つカメラモデルが同一である図12に示すようなアノテーション用画像を生成する。なお、図12は、複数の対象モデルA〜Eを含むアノテーション用画像の例である。図12における対象モデルA〜Eの画像は、同一のシーン画像に対応する。さらに、図13及び図14を参照すると、図12における対象モデルB〜Dを含む領域Rを拡大した図が示され、さらに、図13における対象モデルCを拡大した図が示されている。
本変形例では、上述したように、認識対象モデルA〜Eに設定される特定色は、同一でなく、互いに異なっている。これにより、アノテーション用画像上において、認識対象モデルA〜Eを、特定色に基づき特定及び分別することが可能である。よって、物体領域設定部103は、アノテーション用画像上において、図示しないメモリに記憶された認識対象モデルと特定色との関係に基づき、複数の認識対象モデルそれぞれ及びその領域を抽出する。さらに、物体領域設定部103は、抽出した認識対象モデルの位置及び領域等の情報を、アノテーション枠等のアノテーション情報として抽出する。
図13及び図14に示すように、アノテーション用画像上において、認識対象モデルBが認識対象モデルCの一部の上に重なって表示される場合がある。物体領域設定部103は、このようなアノテーション用画像を用いても、アノテーション処理を行う。このとき、物体領域設定部103は、アノテーション用画像上において、認識対象モデルB及びCそれぞれの領域を特定する。例えば、物体領域設定部103は、認識対象モデルB及びCそれぞれの特定色に基づき、認識対象モデルB及びCそれぞれの領域を特定してもよい。特定される認識対象モデルCの領域は、認識対象モデルCの特定色の領域である。この領域は、認識対象モデルCのうちの認識対象モデルBによって隠されずに見えている領域であり、可視領域である。さらに、物体領域設定部103は、認識対象モデルCの可視領域を囲む可視アノテーション枠CFaを形成する。そして、物体領域設定部103は、可視アノテーション枠CFaの基準点Paの位置と、可視アノテーション枠CFaの大きさとを算出する。なお、枠CFbは、認識対象モデルC全体を囲む全体アノテーション枠であり、点Pbは、全体アノテーション枠CFbの基準点である。全体アノテーション枠CFb及び基準点Pbは、実施の形態において説明したように、認識対象モデルCのみを含む再構築後のシーンデータから生成されるアノテーション用画像を用いて、設定可能である。
認識モデル構築部104は、対象モデルのアノテーション情報及び当該アノテーション情報に対応するシーン画像から、当該対象モデルの見えている部分である一部の画像を、学習データとして用いて、認識モデルに学習させる。これにより、認識モデルは、対象物の一部の画像からでも、当該対象物を検出するように構築され、対象物の検出精度を向上させ得る。
[2−2.効果]
上述したような変形例1に係る学習データ生成装置によると、複数の対象モデルを含むシーンデータが再構築される。さらに、再構築後のシーンデータから生成されるアノテーション用画像上において、各対象モデルの領域が特定される。この際、異なる対象モデル間で、対象モデルの特定色が異なるため、各対象モデルの領域の特定が容易になる。また、特定の対象モデルの上に別の対象モデルが重なって見える場合、特定の対象モデルのうちの他の対象モデルによって隠されずに見える領域に、アノテーション枠が形成される。このようなアノテーション枠の領域は、対象モデルの一部の領域を対象とすることができる。これにより、対象モデルが存在する領域に対し、実際に画像として表示される可視領域、及び、対象モデルの領域に対する可視領域の割合を算出することが可能となる。よって、可視領域の割合が100%未満の学習データを用いることで、オクルージョンにロバストな認識モデルを生成できる。また、可視領域の割合があまりに小さい学習データは、学習の妨げになる可能性が高いため、例えば、可視領域の割合が50%未満の学習データを、学習に使用しないことによって、過学習を防止した認識モデルを生成することもできる。よって、このような学習データを用いて構築される認識モデルは、画像から対象物を検出する精度を向上することができる。
上述したような変形例1に係る学習データ生成装置によると、複数の対象モデルを含むシーンデータが再構築される。さらに、再構築後のシーンデータから生成されるアノテーション用画像上において、各対象モデルの領域が特定される。この際、異なる対象モデル間で、対象モデルの特定色が異なるため、各対象モデルの領域の特定が容易になる。また、特定の対象モデルの上に別の対象モデルが重なって見える場合、特定の対象モデルのうちの他の対象モデルによって隠されずに見える領域に、アノテーション枠が形成される。このようなアノテーション枠の領域は、対象モデルの一部の領域を対象とすることができる。これにより、対象モデルが存在する領域に対し、実際に画像として表示される可視領域、及び、対象モデルの領域に対する可視領域の割合を算出することが可能となる。よって、可視領域の割合が100%未満の学習データを用いることで、オクルージョンにロバストな認識モデルを生成できる。また、可視領域の割合があまりに小さい学習データは、学習の妨げになる可能性が高いため、例えば、可視領域の割合が50%未満の学習データを、学習に使用しないことによって、過学習を防止した認識モデルを生成することもできる。よって、このような学習データを用いて構築される認識モデルは、画像から対象物を検出する精度を向上することができる。
[変形例2]
[3−1.変形例2に係る学習データ生成装置の動作]
実施の形態に係る学習データ生成装置100において、物体領域設定部103は、アノテーション用画像から抽出した対象モデルのアノテーション情報と、レンダリング部102がシーンデータから生成したシーン画像とを対応付けた。実施の形態の変形例2に係る学習データ生成装置は、シーンデータに変更を加え、レンダリング部102が変更後のシーンデータから生成する画像(以下、変更シーン画像とも呼ぶ)と、対象モデルのアノテーション情報と対応付ける。そして、認識モデル構築部104は、対象モデルのアノテーション情報と、変更前及び変更後のシーンデータから生成されたシーン画像及び変更シーン画像とを対応付け、これらを学習データとして用いて、認識モデルを構築する。以下において、変形例2について、実施の形態及び変形例1と異なる点を中心に説明する。
[3−1.変形例2に係る学習データ生成装置の動作]
実施の形態に係る学習データ生成装置100において、物体領域設定部103は、アノテーション用画像から抽出した対象モデルのアノテーション情報と、レンダリング部102がシーンデータから生成したシーン画像とを対応付けた。実施の形態の変形例2に係る学習データ生成装置は、シーンデータに変更を加え、レンダリング部102が変更後のシーンデータから生成する画像(以下、変更シーン画像とも呼ぶ)と、対象モデルのアノテーション情報と対応付ける。そして、認識モデル構築部104は、対象モデルのアノテーション情報と、変更前及び変更後のシーンデータから生成されたシーン画像及び変更シーン画像とを対応付け、これらを学習データとして用いて、認識モデルを構築する。以下において、変形例2について、実施の形態及び変形例1と異なる点を中心に説明する。
具体的には、変形例2に係る学習データ生成装置は、シーンデータについて、モデルの配置及びカメラモデル等のカメラの光景内の構成を固定した状態で、同一ボリュームのモデル間でモデルの切り替えを行う。さらに、学習データ生成装置は、アノテーション枠に関する情報、並びに、対象モデルの種別及び動作を変更しないように、シーンデータに変更を加える。つまり、学習データ生成装置は、アノテーション枠の情報に基づいて、シーンデータに含まれる複数のモデルのうちの少なくとも1つのモデルに変更を加える。
例えば、学習データ生成装置のモデル設定部101は、対象モデルの周囲を変更する。このとき、モデル設定部101は、対象モデルの周囲のモデルを変更する。具体的には、モデル設定部101は、建物、植物等の不動な物体モデルの形状及びテクスチャを変更してもよい。また、モデル設定部101は、光源モデルを変更し、光景の時間帯を、朝、昼、夕方又は夜に変更してもよい。また、モデル設定部101は、背景モデルを変更し、空等の背景を変更してもよく、環境モデルを変更し、光景の天候を変更してもよい。
また、モデル設定部101は、対象モデル、及び、対象モデル以外の可動な物体モデルを変更してもよい。このとき、モデル設定部101は、対象モデル及び可動な物体モデルの種別及び動作を維持してもよい。例えば、モデル設定部101は、当該モデルの種別が人である場合、年齢層、性別、体格、服装等の人に関する情報を変更してもよい。また、モデル設定部101は、当該モデルの種別が自動車である場合、色、形状、車種等の自動車に関する情報を変更してもよい。また、モデル設定部101は、当該モデルの種別が自転車である場合、色、形状、自転車タイプ等の自転車に関する情報を変更してもよい。
上述から、対象モデルは、大きさ等のボリュームの変更を受けずに、その他の情報に関して変更を受ける。このため、変更後のシーンデータを用いて、実施の形態と同様に、対象モデルのアノテーション枠を形成する場合であっても、変更の前後で対応する対象モデル間において、アノテーション枠の位置、形状及び寸法等の枠情報は変化しない。
このため、学習データ生成装置のレンダリング部102が、変更後の様々なシーンデータを用いて様々な変更シーン画像を生成することによって、1つのアノテーション情報に対応する複数のシーン画像が生成される。これにより、認識モデル構築部104の学習データのバリエーションが増加する。例えば、画像上におけるアノテーション枠の領域は、対象モデルの画像と、対象モデルの周囲の画像とを含む。よって、対象モデルを変更することだけでなく、周囲の物体モデル、光源モデル、背景モデル及び環境モデルを変更することによっても、アノテーション枠内の画像のバリエーションが増加する。認識モデル構築部104は、様々なバリエーションの対象モデルの画像を、学習データとして用いることによって、対象物の検出精度を向上した認識モデルを構築する。
[3−2.効果]
上述したような変形例2に係る学習データ生成装置によると、レンダリング部102は、シーンデータ及び変更されたシーンデータからシーン画像を生成し得る。これにより、学習データにおいて、互いに対応付けられる対象モデルのアノテーション情報とアノテーション情報に対応するシーン画像との組み合わせが、増加する。よって、学習データのバリエーションが増えるため、認識モデルは、画像から対象物を検出する精度を向上することができる。
上述したような変形例2に係る学習データ生成装置によると、レンダリング部102は、シーンデータ及び変更されたシーンデータからシーン画像を生成し得る。これにより、学習データにおいて、互いに対応付けられる対象モデルのアノテーション情報とアノテーション情報に対応するシーン画像との組み合わせが、増加する。よって、学習データのバリエーションが増えるため、認識モデルは、画像から対象物を検出する精度を向上することができる。
また、変形例2に係る学習データ生成装置によると、シーンデータの変更の際、アノテーション枠の情報に基づいて対象モデルが変更を受けるため、変更後の対象モデルに対するアノテーション枠の情報の再生成が、不要又は簡易となり得る。例えば、シーンデータの変更の際、アノテーション枠の情報を変更しないように対象モデルが変更を受ける場合、変更後の対象モデルに対するアノテーション枠の情報の再生成が不要である。よって、シーンデータの変更処理の簡略化が可能になる。
[変形例3]
[4−1.変形例3に係る学習データ生成装置の動作]
変形例2に係る学習データ生成装置は、アノテーション枠に関する情報を変更しないように、シーンデータを変更した。実施の形態の変形例3に係る学習データ生成装置は、シーンデータの対象モデルの大きさ及び形状の変更に伴い、必要応じて、アノテーション枠を変更する。以下において、変形例3について、実施の形態並びに変形例1及び2と異なる点を中心に説明する。
[4−1.変形例3に係る学習データ生成装置の動作]
変形例2に係る学習データ生成装置は、アノテーション枠に関する情報を変更しないように、シーンデータを変更した。実施の形態の変形例3に係る学習データ生成装置は、シーンデータの対象モデルの大きさ及び形状の変更に伴い、必要応じて、アノテーション枠を変更する。以下において、変形例3について、実施の形態並びに変形例1及び2と異なる点を中心に説明する。
具体的には、変形例3に係る学習データ生成装置は、シーンデータについて、モデルの配置及びカメラモデル等のカメラの光景内の構成を固定した状態で、モデル間でモデルの切り替えを行う。さらに、学習データ生成装置は、対象モデルの種別及び動作を変更せずに、シーンデータに変更を加える。
例えば、学習データ生成装置のモデル設定部101は、シーンデータにおいて、種別及び動作を維持しつつ、対象モデルを変更する。モデル設定部101は、対象モデルの種別が人であり、人に関する情報を変更する際、例えば、子供を大人に変更する、又は、何も持たない大人を傘をさす大人に変更する。これにより、変更後の対象モデルが占める領域が大きくなり、変更前の対象モデルに設定されたアノテーション枠に収まらない場合がある。又は、例えば、対象モデルについて、大人を子供に変更する、又は、傘をさす大人を何も持たない大人に変更する場合、変更前のアノテーション枠内の画像において、変更後の対象モデル以外の領域が大きくなり、この領域に、変更後の対象モデル以外のモデルが含まれる場合がある。上述の2つのいずれの場合も、アノテーション枠内の画像が、変更後の対象モデルのアノテーション用の画像として好適でないことがあるため、学習データ生成装置は、アノテーション枠を再形成し得る。
具体的には、モデル設定部101は、変更後の対象モデルに対応する変更前の対象モデルのアノテーション情報を、第二記憶部106から取得する。アノテーション情報は、シーンデータに含まれる複数のカメラモデルそれぞれに対応して存在する。モデル設定部101は、変更後のシーンデータにおいて、変更後の対象モデルのテクスチャを特定色に変更する。さらに、レンダリング部102は、変更後のシーンデータから、各カメラモデルに関して、当該カメラモデルに対応するアノテーション情報に定められているアノテーション枠内及びその近傍の領域の画像を生成する。この領域の大きさは、変更前後での対象モデルの大きさの変化率等の変化量に基づき、決定されてもよい。例えば、領域は、変更後の対象物がより小さくなる場合、アノテーション枠よりも小さく設定され、変更後の対象物がより大きくなる場合、アノテーション枠よりも大きく設定され得る。
物体領域設定部103は、生成された画像上において、特定色の無地の領域を抽出し、当該特定色の領域を囲むアノテーション枠を、変更後アノテーション枠として形成する。物体領域設定部103は、変更後アノテーション枠の情報を、変更後の対象物のアノテーション情報として、第二記憶部106に格納する。物体領域設定部103による特定色の領域の抽出は、変更前のアノテーション枠の領域近辺の小さい画像内で行われるため、処理のための計算量を低く抑えることができる。また、レンダリング部102は、変更後のシーンデータから、各カメラモデルに関して、当該カメラモデルに対応する変更後シーン画像を生成する。物体領域設定部103は、変更後の対象物のアノテーション情報と、変更後シーン画像とを、それぞれのカメラモデルに基づき対応付ける。
なお、モデル設定部101は、シーンデータにおいて、対象モデルをより大きなモデルに変更する場合、変更後の対象モデルが他の物体モデルと衝突又は接触するか、つまり干渉するか否かを判定し、物体モデル同士に衝突及び接触が発生しない場合に、対象モデルを変更してもよい。この場合、モデル設定部101は、変更後の対象モデルの領域と他の物体モデルの領域とを比較してもよく、変更後の対象モデルのアノテーション枠の領域と、他の物体モデル又はそのアノテーション枠の領域とを比較してもよい。
上記に加えて、又は上記とは別に、モデル設定部101は、シーンデータにおいて、当該シーンデータのカメラモデルに写し出されない場所では、対象モデルを変更する場合に、変更後の対象モデルが他の物体モデルと衝突又は接触するか否かを判定しなくてもよい。この場合、モデル設定部101は、対象モデルの変更は可能であると判定してもよい。
又は、モデル設定部101は、シーンデータにおいて、対象モデルをより大きなモデルに変更することを禁止してもよい。
上述から、様々なアノテーション情報、及び、当該アノテーション情報に対応する様々な画像が生成される。そして、認識モデル構築部104は、このような様々なバリエーションの対象モデルの画像を、学習データとして用いることによって、対象物の検出精度を向上した認識モデルを構築する。
[4−2.効果]
上述したような変形例3に係る学習データ生成装置によると、対象モデルの変更に伴い、アノテーション枠の情報が再生成され得る。これにより、対象モデルの変更の自由度が増える。よって、学習データにおいて、アノテーション情報が対象とする対象モデルのバリエーションが増える。また、変更後の対象モデル及びその周辺の変更後画像に基づき、変更後の対象モデルのアノテーション枠が設定されるため、設定のための計算量を抑えることが可能になる。
上述したような変形例3に係る学習データ生成装置によると、対象モデルの変更に伴い、アノテーション枠の情報が再生成され得る。これにより、対象モデルの変更の自由度が増える。よって、学習データにおいて、アノテーション情報が対象とする対象モデルのバリエーションが増える。また、変更後の対象モデル及びその周辺の変更後画像に基づき、変更後の対象モデルのアノテーション枠が設定されるため、設定のための計算量を抑えることが可能になる。
また、変形例3に係る学習データ生成装置によると、変更後の対象モデルと他の物体モデルとに干渉がある場合、対象モデルが変更されなくてもよい。これにより、対象モデルが、円滑に且つ実際の状況に即して変更され得る。例えば、変更後の対象モデルが他の物体モデルと重なるように干渉するケースは、実現性の低いケースであり、このようなケースが学習データに含まれないようにすることが可能である。よって、認識モデルの検出精度が向上し得る。
また、変形例3に係る学習データ生成装置によると、変更後の対象モデルと他の物体モデルとの干渉部分が、カメラモデル、つまりシーン画像に写し出されない領域に含まれる場合、干渉の有無に関係なく、対象モデルが変更されてもよい。これにより、カメラモデルに写し出されない干渉部分が、干渉の有無の判定の対象から除外されるため、対象モデルの変更処理の簡略化が可能になる。
また、変形例3に係る学習データ生成装置によると、変更後の対象モデルが変更前よりも大きくなる場合、対象モデルが変更されなくてもよい。変更後の対象モデルと他の物体モデルとの干渉の有無の判定が不要になる。よって、対象モデルの変更処理の簡略化が可能になる。
[5.その他の変形例]
以上のように、本出願において開示する技術の例示として、実施の形態及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態の変形例又は他の実施の形態にも適用可能である。また、実施の形態及び変形例で説明する各構成要素を組み合わせて、新たな実施の形態又は変形例とすることも可能である。
以上のように、本出願において開示する技術の例示として、実施の形態及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態の変形例又は他の実施の形態にも適用可能である。また、実施の形態及び変形例で説明する各構成要素を組み合わせて、新たな実施の形態又は変形例とすることも可能である。
実施の形態及び変形例に係る学習データ生成装置100及び対象物認識装置200を備える画像認識システム10は、自動車に適用されるとした。画像認識システムは、画像から対象物を認識するシステムであれば、いかなるシステムに適用されてもよい。例えば、画像認識システムは、監視カメラのシステムに適用されてもよい。この場合、対象物認識装置200は監視カメラに搭載され、学習データ生成装置100は、監視カメラに搭載されてもよく、サーバ等の監視カメラから離れた装置に搭載されてもよい。また、画像認識システムに使用される3DCGデータは、街の3DCGデータに限定されず、対象物認識装置200が適用される撮像装置が撮影する対象に合わせて、変更されてもよい。例えば、対象物認識装置200が駅の監視カメラに適用される場合、3DCGデータは、駅構内の3DCGデータであってもよい。
なお、本開示の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD−ROM等の不揮発性の記録媒体を含む。
例えば、実施の形態及び変形例に係る画像認識システムに含まれる各構成要素は典型的には集積回路であるLSI(大規模集積回路、Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
なお、実施の形態及び変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、上記構成要素の一部又は全部は、脱着可能なIC(Integrated Circuit)カード又は単体のモジュールから構成されてもよい。ICカード又はモジュールは、マイクロプロセッサ、ROM、RAM等から構成されるコンピュータシステムである。ICカード又はモジュールは、上記のLSI又はシステムLSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ICカード又はモジュールは、その機能を達成する。これらICカード及びモジュールは、耐タンパ性を有するとしてもよい。
また、本開示の技術は、学習データ生成装置に限定されず、以下に記載するような学習データ生成方法によって、実現されてもよい。例えば、この学習データ生成方法は、複数のモデルを含むCGデータから学習データを生成する学習データ生成方法であって、前記CGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定された前記1以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する。
また、本開示の技術は、以下に記載するような機械学習方法によって、実現されてもよい。例えば、この機械学習方法は、上述のような学習データ生成方法によって生成された前記学習データを入力し、前記学習データを用いて認識モデルを更新し、前記特定物体を含む画像が入力されたとき、前記更新された認識モデルを用いて前記特定物体を認識し、前記特定物体の種別及び動作の内容を出力する。
なお、上記方法は、MPU、CPU、プロセッサ、LSIなどの回路、ICカード又は単体のモジュール等によって、実現されてもよい。
また、本開示の技術は、ソフトウェアプログラム又はソフトウェアプログラムからなるデジタル信号によって実現されてもよく、プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。例えば、実施の形態及び変形例での処理は、次のようなプログラムによって、実現される。例えば、このプログラムは、複数のモデルを含むCGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定した前記1以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成することを、コンピュータに実行させる。
なお、上記プログラム及び上記プログラムからなるデジタル信号は、コンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、SSD、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray(登録商標) Disc)、半導体メモリ等に記録したものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、記録媒体に記録して移送されることにより、又はネットワーク等を経由して移送されることにより、独立した他のコンピュータシステムにより実施されてもよい。
また、上記で用いた序数、数量等の数字は、全て本開示の技術を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。また、構成要素間の接続関係は、本開示の技術を具体的に説明するために例示するものであり、本開示の機能を実現する接続関係はこれに限定されない。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを1つの機能ブロックとして実現したり、1つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
本開示は、画像にアノテーションを付与する技術に利用可能である。
10 画像認識システム
100 学習データ生成装置
101 モデル設定部
102 レンダリング部(第一画像生成部、第二画像生成部)
103 物体領域設定部
105 第一記憶部
106 第二記憶部
100 学習データ生成装置
101 モデル設定部
102 レンダリング部(第一画像生成部、第二画像生成部)
103 物体領域設定部
105 第一記憶部
106 第二記憶部
Claims (13)
- 複数のモデルを含むCGデータを用いて学習データを生成する学習データ生成装置であって、
前記CGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを格納する第一記憶部と、
前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成する第一画像生成部と、
前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう、前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成するモデル設定部と、
前記学習データ生成用シーンデータに含まれる、設定した前記1以上のパラメータを用いて、学習データ用画像を生成する第二画像生成部と、
前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定する物体領域設定部と、
前記シーンデータ用画像と、前記特定物体領域の情報とを対応付けて、学習データとして格納する第二記憶部とを備える
学習データ生成装置。 - 前記モデル設定部は、複数の前記特定物体モデルを選択し、
前記モデル設定部は、前記複数の特定物体モデルそれぞれに対して、前記学習データ生成用シーンデータを生成する
請求項1に記載の学習データ生成装置。 - 前記モデル設定部は、複数の前記特定物体モデルを選択し、前記複数の特定物体モデル以外の前記モデルを、前記シーンデータから削除し、異なる前記特定物体モデルに異なる特定色を適用し、
前記第二画像生成部は、前記複数の特定物体モデルを含む前記学習データ生成用シーンデータを用いて、前記学習データ用画像を生成し、
前記物体領域設定部は、前記学習データ用画像において、1つの前記特定物体モデルの上に別の前記特定物体モデルが重なって見える場合、前記1つの特定物体モデルのうちの見える領域を、前記特定物体領域に設定する
請求項1に記載の学習データ生成装置。 - 前記物体領域設定部は、前記学習データ用画像において、前記特定物体領域を囲むアノテーション枠を形成し、前記アノテーション枠の情報を、前記特定物体領域の情報として前記第二記憶部に格納する
請求項1〜3のいずれか一項に記載の学習データ生成装置。 - 前記モデル設定部は、前記シーンデータに含まれる前記複数のモデルのうち少なくとも1つのモデルを変更し、
前記第二画像生成部は、前記変更された前記シーンデータからも、前記特定物体領域の情報と対応付ける前記シーンデータ用画像を生成する
請求項1〜3のいずれか一項に記載の学習データ生成装置。 - 前記物体領域設定部は、前記学習データ用画像において、前記特定物体領域を囲むアノテーション枠を形成し、前記アノテーション枠の情報を、前記特定物体領域の情報とし、
前記モデル設定部は、前記アノテーション枠の情報に基づいて、前記シーンデータに含まれる前記複数のモデルのうち少なくとも1つのモデルを変更する
請求項5に記載の学習データ生成装置。 - 前記モデル設定部は、前記シーンデータの前記特定物体モデルを変更し、
前記第二画像生成部は、変更される前記特定物体モデルの前記特定物体領域の情報に基づき、変更後の前記特定物体モデル及びその周辺の変更後画像を生成し、
前記物体領域設定部は、前記変更後画像に基づき、前記変更後の特定物体モデルの前記特定物体領域を設定する
請求項5に記載の学習データ生成装置。 - 前記モデル設定部は、変更後の前記特定物体モデルと他の前記物体モデルとの干渉の有無を判定し、干渉がある場合、前記特定物体モデルを変更しない
請求項7に記載の学習データ生成装置。 - 前記モデル設定部は、変更後の前記特定物体モデルと他の前記物体モデルとの干渉部分が前記シーンデータ用画像に写し出されない領域に含まれる場合、干渉の有無に関係なく、前記特定物体モデルを変更する
請求項8に記載の学習データ生成装置。 - 前記モデル設定部は、変更後の前記特定物体モデルが変更前よりも大きくなる場合、前記特定物体モデルを変更しない
請求項7に記載の学習データ生成装置。 - 複数のモデルを含むCGデータから学習データを生成する学習データ生成方法であって、
前記CGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを取得し、
前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成し、
前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、
前記学習データ生成用シーンデータに含まれる、設定された前記1以上のパラメータを用いて、学習データ用画像を生成し、
前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、
前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する
学習データ生成方法。 - 請求項11に記載の学習データ生成方法によって生成された前記学習データを入力し、
前記学習データを用いて認識モデルを更新し、
前記特定物体を含む画像が入力されたとき、前記更新された認識モデルを用いて前記特定物体を認識し、前記特定物体の種別及び動作の内容を出力する
機械学習方法。 - 複数のモデルを含むCGデータにおいて、前記複数のモデルに関する1以上のパラメータを含む、シーンデータを取得し、
前記シーンデータに含まれる前記1以上のパラメータを用いて、シーンデータ用画像を生成し、
前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記1以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、
前記学習データ生成用シーンデータに含まれる、設定した前記1以上のパラメータを用いて、学習データ用画像を生成し、
前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、
前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する
ことを、コンピュータに実行させるプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017142149 | 2017-07-21 | ||
JP2017142149 | 2017-07-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019023858A true JP2019023858A (ja) | 2019-02-14 |
Family
ID=62874708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018101636A Pending JP2019023858A (ja) | 2017-07-21 | 2018-05-28 | 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190026558A1 (ja) |
EP (1) | EP3432216A1 (ja) |
JP (1) | JP2019023858A (ja) |
CN (1) | CN109284661A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020183598A1 (ja) * | 2019-03-12 | 2020-09-17 | 日本電気株式会社 | 学習データ生成装置、学習データ生成方法および学習データ生成プログラム |
JP2020149601A (ja) * | 2019-03-15 | 2020-09-17 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
JP2020166473A (ja) * | 2019-03-29 | 2020-10-08 | 三井情報株式会社 | 学習済みモデル生成装置、プログラム及び学習済みモデル生成システム |
JP2021515325A (ja) * | 2018-05-18 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 仮想車両操作方法、モデルトレーニング方法、操作デバイス、および記憶媒体 |
WO2021193391A1 (ja) * | 2020-03-26 | 2021-09-30 | ソニーセミコンダクタソリューションズ株式会社 | データ生成方法、学習方法及び推定方法 |
JP7140933B1 (ja) | 2022-03-29 | 2022-09-21 | Pciソリューションズ株式会社 | 機械学習システム |
WO2023176202A1 (ja) * | 2022-03-15 | 2023-09-21 | 株式会社Nttドコモ | 疑似画像生成装置 |
WO2024070610A1 (ja) * | 2022-09-29 | 2024-04-04 | ソニーグループ株式会社 | 情報処理方法及び情報処理装置 |
US12124534B2 (en) | 2020-12-09 | 2024-10-22 | Brother Kogyo Kabushiki Kaisha | Method for generating a plurality of sets of training image data for training machine learning model |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10755112B2 (en) * | 2018-03-13 | 2020-08-25 | Toyota Research Institute, Inc. | Systems and methods for reducing data storage in machine learning |
DE102018214979A1 (de) * | 2018-09-04 | 2020-03-05 | Robert Bosch Gmbh | Verfahren und System zur verbesserten Objektmarkierung in Sensordaten |
US10902264B2 (en) * | 2018-11-25 | 2021-01-26 | International Business Machines Corporation | Automatic generation of secondary class annotations |
CN109858553B (zh) * | 2019-01-31 | 2023-12-12 | 锦图计算技术(深圳)有限公司 | 驾驶状态的监测模型更新方法、更新装置及存储介质 |
JP7229795B2 (ja) * | 2019-02-01 | 2023-02-28 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | アノテーション装置、アノテーション方法、及び、プログラム |
US20220130135A1 (en) * | 2019-03-13 | 2022-04-28 | Nec Corporation | Data generation method, data generation device, and program |
JP7074166B2 (ja) * | 2020-08-07 | 2022-05-24 | トヨタ自動車株式会社 | サーバ、車両の制御装置、および車両の機械学習システム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8081209B2 (en) * | 2008-06-26 | 2011-12-20 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and system of sparse code based object classification with sensor fusion |
JP2010211732A (ja) | 2009-03-12 | 2010-09-24 | Nippon Telegr & Teleph Corp <Ntt> | 物体認識装置および方法 |
JP5505409B2 (ja) * | 2009-03-13 | 2014-05-28 | 日本電気株式会社 | 特徴点生成システム、特徴点生成方法および特徴点生成プログラム |
WO2011086889A1 (ja) * | 2010-01-12 | 2011-07-21 | 日本電気株式会社 | 特徴点選択システム、特徴点選択方法および特徴点選択プログラム |
US10019657B2 (en) * | 2015-05-28 | 2018-07-10 | Adobe Systems Incorporated | Joint depth estimation and semantic segmentation from a single image |
-
2018
- 2018-05-28 JP JP2018101636A patent/JP2019023858A/ja active Pending
- 2018-06-20 US US16/012,794 patent/US20190026558A1/en not_active Abandoned
- 2018-07-05 EP EP18182050.7A patent/EP3432216A1/en not_active Withdrawn
- 2018-07-11 CN CN201810756956.2A patent/CN109284661A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021515325A (ja) * | 2018-05-18 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 仮想車両操作方法、モデルトレーニング方法、操作デバイス、および記憶媒体 |
WO2020183598A1 (ja) * | 2019-03-12 | 2020-09-17 | 日本電気株式会社 | 学習データ生成装置、学習データ生成方法および学習データ生成プログラム |
JPWO2020183598A1 (ja) * | 2019-03-12 | 2021-12-23 | 日本電気株式会社 | 学習データ生成装置、学習データ生成方法および学習データ生成プログラム |
JP2020149601A (ja) * | 2019-03-15 | 2020-09-17 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
JP7267044B2 (ja) | 2019-03-15 | 2023-05-01 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
JP2020166473A (ja) * | 2019-03-29 | 2020-10-08 | 三井情報株式会社 | 学習済みモデル生成装置、プログラム及び学習済みモデル生成システム |
JP7267068B2 (ja) | 2019-03-29 | 2023-05-01 | 三井情報株式会社 | 学習済みモデル生成装置、プログラム及び学習済みモデル生成システム |
WO2021193391A1 (ja) * | 2020-03-26 | 2021-09-30 | ソニーセミコンダクタソリューションズ株式会社 | データ生成方法、学習方法及び推定方法 |
US12124534B2 (en) | 2020-12-09 | 2024-10-22 | Brother Kogyo Kabushiki Kaisha | Method for generating a plurality of sets of training image data for training machine learning model |
WO2023176202A1 (ja) * | 2022-03-15 | 2023-09-21 | 株式会社Nttドコモ | 疑似画像生成装置 |
JP2023146041A (ja) * | 2022-03-29 | 2023-10-12 | Pciソリューションズ株式会社 | 機械学習システム |
JP7140933B1 (ja) | 2022-03-29 | 2022-09-21 | Pciソリューションズ株式会社 | 機械学習システム |
WO2024070610A1 (ja) * | 2022-09-29 | 2024-04-04 | ソニーグループ株式会社 | 情報処理方法及び情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3432216A1 (en) | 2019-01-23 |
CN109284661A (zh) | 2019-01-29 |
US20190026558A1 (en) | 2019-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019023858A (ja) | 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム | |
US11521009B2 (en) | Automatically generating training data for a lidar using simulated vehicles in virtual space | |
US20240096014A1 (en) | Method and system for creating and simulating a realistic 3d virtual world | |
US11861790B2 (en) | Procedural world generation using tertiary data | |
CN111615703B (zh) | 传感器数据分割 | |
JP6833630B2 (ja) | 物体検出装置、物体検出方法およびプログラム | |
US20190094858A1 (en) | Parking Location Prediction | |
CN110471058A (zh) | 用于拖车属性的自动检测的系统和方法 | |
EP3942794B1 (en) | Depth-guided video inpainting for autonomous driving | |
US10896542B2 (en) | Moving body image generation recording display device and program product | |
JP2019008519A (ja) | 移動体検出方法、移動体学習方法、移動体検出装置、移動体学習装置、移動体検出システム、および、プログラム | |
CN110998663A (zh) | 一种仿真场景的图像生成方法、电子设备和存储介质 | |
JPWO2014132747A1 (ja) | 物体検知装置 | |
CN115035236A (zh) | 变换传感器数据以训练与不同传感器配置一起使用的模型 | |
JP7376992B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
WO2019207577A1 (en) | System and method for training a machine-learning model to identify real-world elements | |
CN109997149A (zh) | 信息处理设备、成像设备、设备控制系统、移动体、信息处理方法和信息处理程序 | |
CN114581870A (zh) | 轨迹规划方法、装置、设备和计算机可读存储介质 | |
CN117015792A (zh) | 有凹图像放大用于自动驾驶生成物体检测标签的系统和方法 | |
CN113723170A (zh) | 危险检测整合架构系统和方法 | |
CN104915628A (zh) | 基于车载相机的场景建模进行运动行人预测的方法和装置 | |
CN112765302B (zh) | 位置信息的处理方法、装置及计算机可读介质 | |
JP2017182139A (ja) | 判定装置、判定方法、および判定プログラム | |
US11904892B2 (en) | Machine learning algorithm predicton of movements of simulated objects by using a velocity grid created in a simulation | |
US11928399B1 (en) | Simulating object occlusions |