JP2021157404A

JP2021157404A - 学習データ生成方法、学習データ生成装置、及び、プログラム

Info

Publication number: JP2021157404A
Application number: JP2020056123A
Authority: JP
Inventors: 省吾佐久間; Shogo Sakuma
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2021-10-07
Anticipated expiration: 2040-03-26
Also published as: JP7145440B2; DE112021000027T5; WO2021192515A1; US20220051055A1

Abstract

【課題】学習データ以外の情報を用いることなく、現実に起こり得るシーンの画像を含む学習データを生成することができる学習データ生成方法等を提供する。【解決手段】学習データ生成方法は、カメラ画像Ｃ１、当該カメラ画像Ｃ１にアノテーション情報が付与されたラベル画像Ｓ１、及び、学習モデルの検知対象である物体を示す物体画像Ｏを取得し（Ｓ１０）、ラベル画像Ｓ１に基づいて、物体に対応する特定の領域を特定し（Ｓ２０）、カメラ画像Ｃ１及びラベル画像Ｓ１における特定の領域に物体画像Ｏを合成する（Ｓ４０）。【選択図】図４

Description

本開示は、学習データ生成方法、学習データ生成装置、及び、プログラムに関する。

近年、ディープラーニングなどの機械学習により生成された学習モデルを用いて、物体を検知する物体検知装置の開発が行われている。学習モデルによる物体検知の精度を向上させるためには、学習に用いる学習データが大量に必要となる。特に、ディープラーニングでは、学習データの量が精度向上につながることが非常に多い。

そこで、既存の学習データを変換することで、データ数を増やす様々な技術が提案されている。特許文献１には２枚の画像のうち一方の画像の一定の領域を切り抜き、他方の画像に合成する技術が開示されている。また、特許文献２には、検査対象物の画像に含まれる検出対象部位を切り出して、別の検査対象物の画像に合成する技術が開示されている。

特開２０１７−４５４４１号公報特許第６５７３２２６号公報

しかしながら、特許文献１の技術では、例えば、空に車が浮いているなど、現実では起こり得ないシーンの画像が生成されることがある。このような画像を含む学習データを用いると、学習モデルの精度が劣化する場合がある。また、特許文献２の技術では、検出対象部位が別の検査対象物の画像に合成される位置は、統計情報に基づいて計算される。つまり、特許文献２の技術では、学習データ以外の情報が必要であり、事前に当該情報が取得されていない場合には、適用することができない。

そこで、本開示は、学習データ以外の情報を用いることなく、現実に起こり得るシーンの画像を含む学習データを生成することができる学習データ生成方法、学習データ生成装置、及び、プログラムに関する。

本開示の一態様に係る学習データ生成方法は、カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得し、前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定し、前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する。

本開示の一態様に係る学習データ生成装置は、カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得部と、前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定するラベル決定部と、前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する画像合成部とを備える。

本開示の一態様に係るプログラムは、上記の学習データ生成方法をコンピュータに実行させるためのプログラムである。

本開示の一態様に係る学習データ生成方法等によれば、学習データ以外の情報を用いることなく、現実に起こり得るシーンの画像を含む学習データを生成することができる。

図１は、実施の形態１に係る画像生成装置の機能構成を示すブロック図である。図２Ａは、実施の形態１に係る第１記憶部に記憶されているカメラ画像の一例を示す図である。図２Ｂは、実施の形態１に係る第１記憶部に記憶されているラベル画像の一例を示す図である。図２Ｃは、実施の形態１に係る第１記憶部に記憶されている物体画像の一例を示す図である。図３Ａは、実施の形態１に係る第２記憶部に記憶される合成カメラ画像の一例を示す図である。図３Ｂは、実施の形態１に係る第２記憶部に記憶される合成ラベル画像の一例を示す図である。図４は、実施の形態１に係る画像生成装置の動作を示すフローチャートである。図５は、実施の形態１に係る物体画像の合成処理の動作の一例を示すフローチャートである。図６は、実施の形態１に係る対象ラベルの中心座標の計算結果を示す図である。図７は、実施の形態１に係る対象ラベルの向きの計算結果を示す図である。図８は、実施の形態２に係る画像生成装置の機能構成を示すブロック図である。図９Ａは、実施の形態２に係る第２記憶部に記憶される合成カメラ画像を示す図である。図９Ｂは、実施の形態２に係る第２記憶部に記憶される合成ラベル画像を示す図である。図１０は、実施の形態２に係る物体画像の合成処理の動作を示すフローチャートである。

本開示の一態様に係る学習データ生成方法は、カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得し、前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定し、前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する。例えば、学習データ生成方法は、前記カメラ画像の前記特定の領域に前記物体画像を合成し、かつ、前記アノテーション付き画像の前記特定の領域に前記物体画像に対応するアノテーション情報を合成する。

これにより、物体画像を合成する領域をアノテーション付き画像に基づいて決定することができる。つまり、学習データ以外の情報を用いることなく、物体画像を合成する位置を決定することができる。例えば、空に車が浮いているような、現実に起こり得ない画像が生成されることを抑制することができる。よって、学習データ以外の情報を用いることなく、現実に起こり得るシーンの画像を含む学習データを生成することができる。

なお、カメラ画像及びアノテーション付き画像のセットにより、学習モデルの学習に用いられる学習データは、構成される。カメラ画像は、学習モデルの学習時には、入力画像として使用される画像である。アノテーション付き画像は、学習モデルの学習時には、正解データとして使用される画像である。

また、例えば、さらに、前記アノテーション付き画像に基づいて、前記特定の領域の中心座標を算出し、前記物体画像は、前記カメラ画像及び前記アノテーション付き画像における前記中心座標と重なる位置に合成されてもよい。

これにより、物体画像が合成される位置を、現実に起こり得る位置により近づけることができる。よって、より現実に起こり得るシーンの画像を含む学習データを生成することができる。

また、例えば、さらに、前記アノテーション付き画像に基づいて、前記特定の領域の向きを算出し、前記物体画像は、前記特定の領域の前記向きに応じた向きに合成されてもよい。

これにより、物体画像が合成される向きを、現実に起こり得る向きにより近づけることができる。よって、より現実に起こり得るシーンの画像を含む学習データを生成することができる。

また、例えば、さらに、前記アノテーション付き画像に基づいて、前記特定の領域の大きさを取得し、前記物体画像は、前記特定の領域の前記大きさ以下の大きさとなるように大きさが拡大又は縮小され合成されてもよい。

これにより、物体画像が合成される大きさを、現実に起こり得る大きさにより近づけることができる。よって、より現実に起こり得るシーンの画像を含む学習データを生成することができる。

また、例えば、前記アノテーション付き画像に基づいて、前記物体に対応する前記特定の領域の数を算出し、１以上の前記特定の領域に前記物体画像を合成する組み合わせを算出し、前記組み合わせのそれぞれにおいて、前記物体画像を合成してもよい。

これにより、現実に起こり得るシーンの画像を効率的に増やすことができる。よって、現実に起こり得るシーンの画像を含む学習データを効率的に生成することができる。

また、例えば、さらに、前記物体画像が合成された前記アノテーション付き画像の前記特定の領域の前記アノテーション情報を、前記物体画像に基づいて更新してもよい。

これにより、特定の領域のうち物体画像が合成された領域の属性の変化を、当該特定の領域の全域に反映することができる。よって、特定の領域のうち物体画像が合成された領域以外の領域が小さい場合に、当該物体画像が合成されたカメラ画像に適したアノテーション付き画像を生成することができる。

また、例えば、前記アノテーション付き画像は、前記カメラ画像に対して画像セグメンテーションが行われたラベル画像であり、前記ラベル画像における前記特定の領域に前記物体画像を合成してもよい。

これにより、画像セグメンテーション向けの学習データを手作業で生成している場合に比べて、学習データの生成コストを大幅に削減することができる。

本開示の一態様に係る学習データ生成装置は、カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得部と、前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定するラベル決定部と、前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する画像合成部とを備える。また、本開示の一態様に係るプログラムは、上記の学習データ生成方法をコンピュータに実行させるためのプログラムである。

これらにより、上記の学習データ生成方法と同様の効果を奏する。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭ等の非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。例えば、数値は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。

なお、本明細書においては、システムは、複数の装置で構成されていることに限定されず、１台の装置で構成されているものも含む。

（実施の形態１）
以下、本実施の形態に係る画像生成装置ついて、図１〜図３Ｂを参照しながら説明する。

［１−１．画像生成装置の構成］
まず、本実施の形態に係る画像生成装置の構成について、図１を参照しながら説明する。図１は、本実施の形態に係る画像生成装置１の機能構成を示すブロック図である。本実施の形態に係る画像生成装置１は、学習モデルの機械学習に用いられる学習データ（データセット）を生成する。具体的には、画像生成装置１は、例えば、既存の学習データに基づいて、機械学習に用いる学習データ数を自動で増加する処理を行い、増加された学習データを出力する。

なお、以下では、駐車場の駐車スペースに車の画像を合成することで学習データを生成する（増やす）例について説明する。また、以下では、学習モデルは、ＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ（画像セグメンテーション）を行うモデルである例について説明する。

図１に示すように、画像生成装置１は、取得部１０と、第１記憶部２０と、ラベル決定部３０と、画像合成部４０と、第２記憶部５０とを備える。画像生成装置１は、学習データ生成システムの一例である。

取得部１０は、画像生成装置１において処理される既知の学習データを取得する。取得部１０は、例えば、通信により外部の装置から既知の学習データを取得してもよい。この場合、取得部１０は、外部の装置と通信するための通信回路（通信モジュール）を含んで構成される。また、取得部１０は、既知の学習データが第１記憶部２０に記憶されている場合、当該第１記憶部２０から既知の学習データを読み出してもよい。既知の学習データは、例えば、予め生成された又は予め取得された学習データである。既知の学習データは、例えば、公開されている学習データ（データセット）であってもよい。

第１記憶部２０は、画像生成装置１が学習データを増やす処理を実行するときに用いられる各種情報を記憶する記憶装置である。第１記憶部２０は、画像生成装置１が学習データを増やすためのもとになる既知の学習データ、及び、学習モデルの検知対象の物体を示す物体画像を記憶する。第１記憶部２０は、例えば、半導体メモリにより実現される。なお、取得部１０が外部の装置から既知の学習データを取得する場合、第１記憶部２０は、既知の学習データを記憶していなくてもよい。

ここで、第１記憶部２０に記憶されている各種情報について、図２Ａ〜図２Ｃを参照しながら説明する。図２Ａは、本実施の形態に係る第１記憶部２０に記憶されているカメラ画像Ｃ１の一例を示す図である。図２Ｂは、本実施の形態に係る第１記憶部２０に記憶されているラベル画像Ｓ１の一例を示す図である。図２Ｃは、本実施の形態に係る第１記憶部２０に記憶されている物体画像Ｏの一例を示す図である。なお、学習データは、カメラ画像Ｃ１及びラベル画像Ｓ１のセットを複数含んで構成される。

図２Ａに示すように、第１記憶部２０は、カメラ画像Ｃ１を含む複数のカメラ画像を記憶する。カメラ画像は、カメラ（例えば、車載カメラ）などの撮像装置により撮像された画像である。カメラ画像Ｃ１は、例えば、３つの駐車スペースＰ１〜Ｐ３と、走行スペースＲとを含む画像である。なお、カメラ画像Ｃ１は、学習モデルの学習時には入力画像として使用される画像である。

図２Ｂに示すように、第１記憶部２０は、ラベル画像Ｓ１を含む複数のラベル画像を記憶する。ラベル画像Ｓ１は、カメラ画像Ｃ１中で同一の物体領域と考えられる部分の画素に対して１つのラベル値（例えば、整数値）を与えた、カメラ画像Ｃ１と同じ大きさの画像である。つまり、ラベル画像Ｓ１は、画素値としてラベル値を有する画像である。なお、ラベル画像Ｓ１は、学習モデルの学習時には正解データとして使用される画像である。ラベル値は、アノテーション情報の一例であり、ラベル画像Ｓ１は、アノテーション付き画像の一例である。

ラベル領域Ｌ１は、カメラ画像Ｃ１における駐車スペースＰ１に対応する領域であり、駐車可能であることを示す第１ラベル値が与えられた領域（横線の領域）である。ラベル画像Ｓ１におけるラベル領域Ｌ１の位置と、カメラ画像Ｃ１における駐車スペースＰ１の位置とは、同じ位置である。ラベル領域Ｌ２は、カメラ画像Ｃ１における駐車スペースＰ２に対応する領域であり、駐車可能であることを示す第２ラベル値が与えられた領域（縦線の領域）である。ラベル画像Ｓ１におけるラベル領域Ｌ２の位置と、カメラ画像Ｃ１における駐車スペースＰ２の位置とは、同じ位置である。

ラベル領域Ｌ３は、カメラ画像Ｃ１における駐車スペースＰ３に対応する領域であり、駐車可能であることを示す第３ラベル値が与えられた領域（斜め線の領域）である。ラベル画像Ｓ１におけるラベル領域Ｌ３の位置と、カメラ画像Ｃ１における駐車スペースＰ３の位置とは、同じ位置である。ラベル領域Ｌ４は、カメラ画像Ｃ１における走行スペースＲに対応する領域であり、走行スペースに対応するラベル値が与えられた領域である。ラベル画像Ｓ１におけるラベル領域Ｌ４の位置と、カメラ画像Ｃ１における走行スペースＲの位置とは、同じ位置である。

このように、本実施の形態では、ラベル領域Ｌ１〜Ｌ３は、駐車可能であることを示すラベル値が与えられた領域であり、ラベル領域Ｌ４は、駐車不可能であることを示すラベル値が与えられた領域であるとも言える。なお、第１ラベル値〜第３ラベル値は、互いに同じ値であってもよいし、異なる値であってもよい。なお、以降においては、ラベル領域を単にラベルとも記載する。

ラベル画像Ｓ１の生成方法は特に限定されず、既知のいかなる方法が用いられてもよい。ラベル画像Ｓ１は、カメラ画像Ｃ１に対して手作業によりラベル付けが行われることで生成されてもよいし、カメラ画像Ｃ１に対して画像セグメンテーションを行うことで自動的に生成されてもよい。

図２Ｃに示すように、第１記憶部２０は、物体画像Ｏを含む複数の物体画像を記憶する。本実施の形態では、物体画像Ｏは、車の画像である。物体画像Ｏは、撮像装置により撮像された画像から物体領域を切り取って生成された画像であってもよいし、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）画像であってもよい。物体画像Ｏは、後述する画像合成部４０により、カメラ画像Ｃ１及びラベル画像Ｓ１のそれぞれに合成される画像である。

なお、物体は車であることに限定されず、カメラ画像Ｃ１に応じた物体であればよい。物体はバイク、人などであってもよいし、その他であってもよい。

図１を再び参照して、ラベル決定部３０は、ラベル画像Ｓ１に基づいて、当該ラベル画像Ｓ１において物体画像Ｏを合成する対象となる対象ラベルを決定する。ラベル決定部３０は、ラベル計数部３１と、組合せ計算部３２とを有する。

ラベル計数部３１は、ラベル画像Ｓ１から当該ラベル画像Ｓ１におけるラベルの個数を計数する。図２Ｂの場合、ラベル計数部３１は、駐車スペースのラベルが３つ（ラベル領域Ｌ１〜Ｌ３）であり、走行スペースのラベルが１つ（ラベル領域Ｌ４）であると計数する。

そして、ラベル計数部３１は、ラベル画像Ｓ１における物体画像Ｏを合成する対象となるラベルの個数を計数する。ラベル計数部３１は、物体画像Ｏが示す物体（例えば、車）を合成する対象である対象ラベルの個数を、駐車スペースのラベルの個数である３とする。ラベル計数部３１は、例えば、物体画像Ｏが示す物体と、当該物体に対応するラベル値とが対応付けられたテーブルに基づいて、対象ラベルの個数を計数してもよい。本実施の形態において、駐車スペースＰ１〜Ｐ３に対応するラベル領域Ｌ１〜Ｌ３は、物体画像Ｏが示す物体に対応する特定の領域の一例である。ラベル計数部３１は、ラベル画像Ｓ１に基づいて、物体画像Ｏが示す物体に対応する特定の領域を特定するとも言える。

組合せ計算部３２は、ラベル計数部３１が計数したラベルの個数に基づいて、物体画像Ｏを合成するラベルの組み合わせを計算する。図２Ｂの場合、組合せ計算部３２は、物体画像Ｏを合成するラベルの組み合わせが７通りあると算出する。つまり、組合せ計算部３２は、ラベルの組み合わせが７通りであると決定する。

組み合わせは、ラベル領域Ｌ１、ラベル領域Ｌ２、ラベル領域Ｌ３、ラベル領域Ｌ１及びＬ２、ラベル領域Ｌ１及びＬ３、ラベル領域Ｌ２及びＬ３、ラベル領域Ｌ１〜Ｌ３の７通りである。このように、組合せ計算部３２は、効果的に学習データを増加させる観点から、全てのラベルの組み合わせを算出するとよい。なお、組合せ計算部３２は、全てのラベルの組み合わせを算出することに限定されない。

画像合成部４０は、ラベル決定部３０が決定したラベルの組合せに基づいて、カメラ画像Ｃ１に物体画像Ｏを合成する。画像合成部４０は、例えば、ラベルの組合せの全てにおいて、カメラ画像Ｃ１に物体画像Ｏを合成する。画像合成部４０は、位置計算部４１と、向き計算部４２と、拡縮率計算部４３と、合成部４４とを有する。

位置計算部４１は、ラベル計数部３１が計数した対象ラベルそれぞれの、ラベル画像Ｓ１上における座標（例えば、画素座標）を計算する。位置計算部４１は、対象ラベルそれぞれの、ラベル画像Ｓ１上における中心座標を計算する。位置計算部４１は、対象ラベルの重心座標に基づいて、当該対象ラベルの中心座標として計算する。中心座標は、当該対象ラベルに物体画像Ｏを合成する際に用いられる基準の座標である。

位置計算部４１は、例えば、対象ラベルの領域（例えば、ラベル領域Ｌ１）の重心座標を当該ラベル領域の中心座標として計算する。位置計算部４１は、例えば、対象ラベルの領域が矩形状である場合、当該対象ラベルを構成する４つの角それぞれの座標に基づいて当該対象ラベルの領域の中心座標を計算してもよい。これにより、対象ラベルの領域の中心付近の座標を中心座標として計算することができるので、後述する処理において、現実的に起こり得る位置に物体画像Ｏを合成することができる。

また、位置計算部４１は、対象ラベルの領域の重心座標を一定の範囲内で移動させた座標を、当該対象ラベルの中心座標として計算してもよい。位置計算部４１は、例えば、対象ラベルの領域の重心座標を一定の範囲内で正規分布に従う形で移動させてもよい。位置計算部４１は、対象ラベルの領域内から物体画像Ｏがはみ出さない範囲であれば、重心位置から中心位置を移動させてもよい。また、位置計算部４１は、１つの対象ラベルに対して複数の中心座標を計算してもよい。

なお、ラベル画像Ｓ１における対象ラベルの中心座標（例えば、画素座標）と、カメラ画像Ｃ１における当該対象ラベルに対応する駐車スペースの中心座標（例えば、画素座標）とは、同じ位置である。

向き計算部４２は、対象ラベルの向きを計算する。向き計算部４２は、例えば、対象ラベルの領域に含まれる各点（各座標）のラベル画像Ｓ１上での分布に対する主成分分析を行い、主成分分析の結果に基づいて、対象ラベルの向きを計算する。向き計算部４２は、例えば、当該主成分分析の結果として得られた固有ベクトルを用いることで、対象ラベルの向きを計算してもよい。

なお、向き計算部４２は、上記以外の公知の方法により向きを計算してもよい。向き計算部４２は、例えば、ラベルが矩形状である場合、長手方向及び短手方向の一方のラベル画像Ｓ１上での方向を計算してもよい。また、向き計算部４２は、例えば、ラベルが楕円状である場合、長軸方向及び短軸方向の一方のラベル画像Ｓ１上での方向を計算してもよい。なお、長軸方向は長手方向の一例であり、短軸方向は短手方向の一例である。

拡縮率計算部４３は、対象ラベルの領域の大きさに基づいて、物体画像Ｏの拡縮率を計算する。拡縮率計算部４３は、対象ラベルの領域をはみ出さずに物体画像Ｏを当該対象ラベルの領域に合成することができるように、物体画像Ｏの拡大率又は縮小率を計算する。拡縮率計算部４３は、例えば、物体画像Ｏの大きさが対象ラベルの領域の大きさ以下となるように、当該物体画像Ｏの拡大率又は縮小率を計算する。拡縮率計算部４３は、対象ラベルが複数ある場合、複数の対象ラベルのそれぞれにおいて、拡縮率を計算する。また、拡縮率計算部４３は、１つの対象ラベルに対して１つの拡縮率を計算してもよいし、複数の拡縮率を計算してもよい。

合成部４４は、ラベル画像Ｓ１における対象ラベルの中心座標に基づいて、カメラ画像Ｃ１及びラベル画像Ｓ１のそれぞれに物体画像Ｏを合成する。合成部４４は、例えば、ラベル画像Ｓ１における対象ラベルの中心座標の位置、及び、当該中心座標に対応するカメラ画像Ｃ１の位置のそれぞれに物体画像Ｏを重畳することで、カメラ画像Ｃ１及びラベル画像Ｓ１のそれぞれに物体画像Ｏを合成する。合成部４４は、例えば、カメラ画像Ｃ１の駐車スペースの中心座標に物体画像Ｏを重畳することで、カメラ画像Ｃ１に物体画像Ｏを合成し、ラベル画像Ｓ１のラベルの中心座標に物体画像Ｏに対応するラベル値を付与することで、ラベル画像Ｓ１に物体画像Ｏを合成する。合成部４４は、例えば、カメラ画像Ｃ１の駐車スペースの中心座標と、物体画像Ｏの中心座標とが重なるようにカメラ画像Ｃ１に物体画像Ｏを合成し、ラベル画像Ｓ１の対象ラベルの中心座標と、物体画像Ｏの中心座標とが重なるようにラベル画像Ｓ１に物体画像Ｏを合成してもよい。

また、合成部４４は、向き計算部４２が計算した対象ラベルの向きと物体画像Ｏの向きとが平行となるように、カメラ画像Ｃ１及びラベル画像Ｓ１のそれぞれに、物体画像Ｏを合成してもよい。また、合成部４４は、例えば、ラベルの長手方向及び短手方向の一方と、物体画像Ｏの長手方向及び短手方向の当該一方とが平行となるように、カメラ画像Ｃ１に物体画像Ｏを合成してもよい。ラベルの長手方向及び短手方向の一方は、ラベルの向きの一例である。合成部４４は、例えば、カメラ画像Ｃ１及びラベル画像Ｓ１のそれぞれに同じ向きに物体画像Ｏを合成する。

また、合成部４４は、拡縮率計算部４３が計算した対象ラベルに対応する拡縮率を用いて物体画像Ｏの大きさを変更し、カメラ画像Ｃ１に及びラベル画像Ｓ１のそれぞれに変更された物体画像Ｏを合成してもよい。合成部４４は、対象ラベルの領域の大きさ、つまり駐車スペースの大きさに応じて、物体画像Ｏの大きさを調整して、調整された物体画像Ｏをカメラ画像Ｃ１及びラベル画像Ｓ１に合成してもよい。合成部４４は、例えば、カメラ画像Ｃ１及びラベル画像Ｓ１のそれぞれに同じ拡縮率で拡大又は縮小された物体画像Ｏを合成する。

なお、合成部４４が画像を合成する方法は、特に限定されず、公知のいかなる方法が用いられてもよい。例えば、クロマキー合成により物体画像Ｏが合成されてもよい。

第２記憶部５０は、画像合成部４０により物体画像Ｏが合成されたカメラ画像Ｃ１及びラベル画像Ｓ１を記憶する記憶装置である。第２記憶部５０は、画像生成装置１が学習データを増やす処理を行うことで生成された学習データ（増加された学習データ）を記憶する。第２記憶部５０は、例えば、半導体メモリにより実現される。なお、以下において、物体画像Ｏが合成されたカメラ画像Ｃ１を合成カメラ画像とも記載し、物体画像Ｏが合成されたラベル画像Ｓ１を合成ラベル画像とも記載する。

ここで、第２記憶部５０に記憶される学習データについて図３Ａ及び図３Ｂを参照しながら説明する。図３Ａは、本実施の形態に係る第２記憶部５０に記憶される合成カメラ画像Ｃ２の一例を示す図である。図３Ｂは、本実施の形態に係る第２記憶部５０に記憶される合成ラベル画像Ｓ２の一例を示す図である。

図３Ａに示すように、第２記憶部５０は、合成カメラ画像Ｃ２を含む複数の合成カメラ画像を記憶する。合成カメラ画像Ｃ２は、カメラ画像Ｃ１の駐車スペースＰ１及びＰ２のそれぞれに物体画像Ｏが合成された画像であり、増加されたカメラ画像である。合成カメラ画像Ｃ２は、学習モデルの学習時には入力画像として使用される画像である。

図３Ｂに示すように、第２記憶部５０は、合成ラベル画像Ｓ２を含む複数の合成ラベル画像を記憶する。合成ラベル画像Ｓ２は、ラベル画像Ｓ１のラベル領域Ｌ１及びＬ２のそれぞれの領域に物体画像Ｏが合成された画像であり、増加されたラベル画像である。合成ラベル画像Ｓ２は、学習モデルの学習時には正解データとして使用される画像である。

ラベル領域Ｌ１ｂは、合成カメラ画像Ｃ２における駐車スペースＰ１に合成された物体画像Ｏに対応する領域であり、物体画像Ｏに対応するラベル値が与えられた領域である。合成ラベル画像Ｓ２におけるラベル領域Ｌ１ｂの位置と、合成カメラ画像Ｃ２における駐車スペースＰ１の物体画像Ｏの位置とは、同じ位置である。

ラベル領域Ｌ２ｂは、合成カメラ画像Ｃ２における駐車スペースＰ２に合成された物体画像Ｏに対応する領域であり、物体画像Ｏに対応するラベル値が与えられた領域である。合成ラベル画像Ｓ２におけるラベル領域Ｌ２ｂの位置と、合成カメラ画像Ｃ２における駐車スペースＰ２の物体画像Ｏの位置とは、同じ位置である。

ラベル領域Ｌ１ａは、図２Ｂに示すラベル領域Ｌ１のうちラベル領域Ｌ１ｂ以外の領域であり、駐車可能であることを示すラベル値が与えられた領域である。ラベル領域Ｌ２ａは、図２Ｂに示すラベル領域Ｌ２のうちラベル領域Ｌ２ｂ以外の領域であり、駐車可能であることを示すラベル値が与えられた領域である。

ラベル領域Ｌ１ａ及びＬ２ａは、駐車可能であることを示すラベル値が与えられた領域であり、ラベル領域Ｌ１ｂ及びＬ２ｂは、駐車不可能であることを示すラベル値が与えられた領域である。ラベル領域Ｌ１ｂ及びＬ２ｂは、ラベル領域Ｌ４と同じラベル値が与えられた領域であってもよい。このように、本実施の形態では、合成ラベル画像Ｓ２は、対象ラベルの領域のうち、物体画像Ｏが合成された領域のみのラベル値が更新される。これにより、例えば、１つの駐車スペースで複数台の車を駐車可能であり、かつ、当該駐車スペースに１台の車が駐車した場合に、残りの駐車可能な領域を検知することが可能となるような学習データを生成することができる。

以上のように、画像生成装置１は、ラベル画像Ｓ１に基づいて物体画像Ｏに対応する領域（例えば、駐車スペース）を特定し、カメラ画像Ｃ１及びラベル画像Ｓ１のそれぞれにおいて、当該特定された領域に物体画像Ｏを合成する。

［１−２．画像生成装置の動作］
続いて、本実施の形態に係る画像生成装置１の動作について、図４〜図７を参照しながら説明する。図４は、本実施の形態に係る画像生成装置１の動作を示すフローチャートである。

図４に示すように、取得部１０は、第１記憶部２０に各種情報が記憶されている場合、カメラ画像Ｃ１、ラベル画像Ｓ１及び物体画像Ｏを第１記憶部２０から読み込むことで取得する（Ｓ１０）。取得部１０は取得したラベル画像Ｓ１をラベル決定部３０に出力し、カメラ画像Ｃ１、ラベル画像Ｓ１及び物体画像Ｏを画像合成部４０に出力する。物体画像Ｏは、例えば、物体画像Ｏを合成する対象となるラベルに応じて決定されてもよいし、ユーザにより予め設定されていてもよい。なお、物体画像Ｏは複数種類取得されてもよい。例えば、物体画像Ｏは、車の場合、外形、色、大きさの少なくとも１つが異なる複数種類取得されてもよい。

次に、ラベル決定部３０のラベル計数部３１は、ラベル画像Ｓ１に基づいて、合成対象のラベルである対象ラベルの個数を計数する（Ｓ２０）。ラベル計数部３１は、例えば、ラベル画像Ｓ１に含まれる複数のラベルの中から、物体画像Ｏが示す物体（例えば、車）に応じたラベルを対象ラベルとして当該ラベルの個数を計数する。図２Ｂに示すラベル画像Ｓ１の場合、ラベル決定部３０は、ラベル領域Ｌ１〜Ｌ４のうち、車に応じた駐車スペースＰ１〜Ｐ３を示すラベル領域Ｌ１〜Ｌ３を、対象ラベルとしてラベルの個数を計数する。ラベル画像Ｓ１における対象ラベルの個数は、３個である。

次に、組合せ計算部３２は、対象ラベルの組み合わせを計算する（Ｓ３０）。組合せ計算部３２は、対象ラベルに基づいて、物体画像Ｏを合成するラベルの組合せを計算する。組合せ計算部３２は、例えば、物体画像Ｏを合成する全てのラベルの組合せを計算するとよい。図２Ｂの例では、組み合わせは全てで７通りである。組合せ計算部３２は、計算した組み合わせを画像合成部４０に出力する。

次に、画像合成部４０は、カメラ画像Ｃ１、ラベル画像Ｓ１及び物体画像Ｏと、ラベルの組み合わせとに基づいて、物体画像Ｏの合成処理を行う（Ｓ４０）。画像合成部４０は、対象ラベルがラベル領域Ｌ１である場合、カメラ画像Ｃ１のラベル領域Ｌ１に対応する駐車スペースＰ１に物体画像Ｏを合成する。また、画像合成部４０は、ラベル画像Ｓ１のラベル領域Ｌ１に物体画像Ｏを示すラベル値を合成する。ステップＳ４０の詳細は、後述する。なお、ラベル領域Ｌ１に物体画像Ｏを示すラベル値を合成することを、ラベル領域Ｌ１に物体画像Ｏを合成することの一例である。

次に、画像合成部４０は、全ラベルの組み合わせで物体画像Ｏを合成したか否かを判定する（Ｓ５０）。画像合成部４０は、組合せ計算部３２が計算した対象ラベルの組み合わせの全てにおいて、物体画像Ｏを合成したか否かを判定する。図２Ｂの例では、画像合成部４０は、７通りの組み合わせの全てにおいて、物体画像をＯ合成したか否かを判定する。

画像合成部４０は、全ラベルの組み合わせで物体画像Ｏを合成した場合（Ｓ５０でＹｅｓ）、学習データを生成する（増加する）処理を終了する。画像合成部４０は、生成した学習データを外部の装置に出力してもよい。また、画像合成部４０は、全ラベルの組み合わせで物体画像Ｏを合成していない場合（Ｓ５０でＮｏ）、残りのラベルの組み合わせに対して物体画像Ｏの合成処理を行う。

ここで、物体画像Ｏの合成処理について、図５〜図７を参照しながら説明する。図５は、本実施の形態に係る物体画像Ｏの合成処理の動作の一例を示すフローチャートである。なお、以下では、７通りあるラベルの組み合わせのうち、ラベル領域Ｌ１及びＬ２の組み合わせに対して、物体画像Ｏを合成する処理について説明する。

図５に示すように、位置計算部４１は、ラベル画像Ｓ１に基づいて、対象ラベルの中心座標を計算する（Ｓ４１）。位置計算部４１は、例えば、ラベル画像Ｓ１から対象ラベルの領域（例えば、ラベル領域Ｌ１）の重心座標を中心座標として計算する。

位置計算部４１は、ラベル計数部３１が計数した対象ラベルのそれぞれにおいて、中心座標を計算する。位置計算部４１は、計算した対象ラベルそれぞれの中心座標を合成部４４に出力する。

ここで、位置計算部４１が計算した対象ラベルの中心座標について、図６を参照しながら説明する。図６は、対象ラベルの中心座標の計算結果を示す図である。

図６に示すように、位置計算部４１は、ラベル領域Ｌ１の中心座標がＺ１（ｘ１、ｙ１）であり、ラベル領域Ｌ２の中心座標がＺ２（ｘ２、ｙ２）であると算出する。位置計算部４１は、組み合わせに含まれるラベル領域Ｌ１及びＬ２のそれぞれにおいて中心座標を計算する。なお、位置計算部４１は、過去にラベル領域Ｌ１及びＬ２の少なくとも一方のラベルの中心座標を計算している場合、記憶部（例えば、第１記憶部２０）に記憶されている当該ラベルの中心座標を読み出すことで当該ラベルの中心座標を取得してもよい。

図５を再び参照して、次に、向き計算部４２は、ラベル画像Ｓ１に基づいて、対象ラベルの向きを計算する（Ｓ４２）。向き計算部４２は、例えば、対象ラベルを主成分分析し固有ベクトルを用いることで、当該対象ラベルの向きを計算する。向き計算部４２は、ラベル計数部３１が計数した対象ラベルのそれぞれにおいて向きを計算する。向き計算部４２は、計算した対象ラベルそれぞれの向きを合成部４４に出力する。

ここで、向き計算部４２が計算した対象ラベルの向きについて図７を参照しながら説明する。図７は、対象ラベルの向きの計算結果を示す図である。

図７に示すように、向き計算部４２は、ラベル領域Ｌ１の向きがＤ１であり、ラベル領域Ｌ２の向きがＤ２であると算出する。向き計算部４２は、組み合わせに含まれるラベル領域Ｌ１及びＬ２のそれぞれにおいて向きを算出する。なお、向き計算部４２は、過去にラベル領域Ｌ１及びＬ２の少なくとも一方のラベルの向きを計算している場合、記憶部（例えば、第１記憶部２０）に記憶されている当該ラベルの向きを読み出すことで当該ラベルの向きを取得してもよい。

図５を再び参照して、拡縮率計算部４３は、ラベル領域Ｌ１の領域の大きさに基づいて、物体画像Ｏの拡縮率を計算する（Ｓ４３）。拡縮率計算部４３は、対象ラベルの領域をはみ出さずに物体画像Ｏを当該対象ラベルの領域に合成することができるように、物体画像Ｏの拡大率又は縮小率を計算する。拡縮率計算部４３は、物体画像Ｏの拡大率又は縮小率を合成部４４に出力する。

合成部４４は、カメラ画像Ｃ１、及び、ラベル画像Ｓ１に物体画像Ｏを合成する（Ｓ４４）。合成部４４は、例えば、カメラ画像Ｃ１の駐車スペースＰ１及びＰ２のそれぞれに物体画像Ｏを合成する。合成部４４は、例えば、カメラ画像Ｃ１の駐車スペースＰ１をはみ出さない位置、及び、駐車スペースＰ２をはみ出さない位置のそれぞれに物体画像Ｏを合成する。合成部４４は、例えば、駐車スペースＰ１の中心座標と物体画像Ｏの中心座標とのズレが所定範囲内となる位置に物体画像Ｏを合成する。合成部４４は、例えば、駐車スペースＰ１の中心座標と物体画像Ｏの中心座標とが重なる位置に、物体画像Ｏを合成する。駐車スペースＰ２に物体画像Ｏを合成する場合も、同様である。

なお、物体画像Ｏが複数ある場合、駐車スペースＰ１及びＰ２には、互いに異なる物体画像Ｏが合成されてもよいし、互いに同じ物体画像Ｏが合成されてもよい。

また、合成部４４は、１枚のカメラ画像Ｃ１に複数の物体画像Ｏを合成する場合、物体画像Ｏどうしが互いに重ならない位置を、それぞれの物体画像Ｏを合成する位置に決定してもよい。

また、合成部４４は、例えば、ラベル画像Ｓ１のラベル領域Ｌ１及びラベル領域Ｌ２のそれぞれに物体画像Ｏを合成する。具体的には、合成部４４は、例えば、ラベル画像Ｓ１のラベル領域Ｌ１及びＬ２のそれぞれに、物体画像Ｏに対応するラベル値を当該物体画像Ｏの大きさの領域に合成する。合成部４４は、物体画像Ｏを合成したカメラ画像Ｃ１上の位置（画素位置）と、物体画像Ｏを示すラベル値を合成したラベル画像Ｓ１上の位置（画素位置）とが等しくなるように、物体画像Ｏをラベル画像Ｓ１上の位置に合成する。これにより、例えば、駐車スペースＰ１を示すラベル値の領域（例えば、ラベル領域Ｌ１）のうち、物体画像Ｏが合成された領域が物体画像Ｏを示すラベル値に更新される。

このように、合成部４４は、カメラ画像Ｃ１の特定の領域（本実施の形態では、駐車スペースＰ１）に物体画像Ｏを合成し、かつ、ラベル画像Ｓ１の特定の領域（本実施の形態では、ラベル領域Ｌ１）に物体画像Ｏに対応するラベル値を合成する。これは、カメラ画像Ｃ１、及び、ラベル画像Ｓ１に物体画像Ｏを合成することの一例である。

次に、画像合成部４０は、合成部４４により物体画像Ｏが合成された合成カメラ画像Ｃ２及び合成ラベル画像Ｓ２を保存する（Ｓ４５）。具体的には、画像合成部４０は、合成カメラ画像Ｃ２及び合成ラベル画像Ｓ２を第２記憶部５０に記憶する。ラベルの組み合わせのそれぞれにおいて、物体画像Ｏの合成処理が行われることで、図３Ａに示す複数の合成カメラ画像、及び、図３Ｂに示す複数の合成ラベル画像が生成される。

上記のように、画像生成装置１は、ラベル画像Ｓ１に基づいて物体画像Ｏを合成する位置を決定するので、物体が宙に浮いた画像が生成されるなどの現実で起こり得ないような画像が生成されることを抑制することができる。言い換えると、画像生成装置１は、現実で起こり得る適切な学習データ、つまり質のよい学習データを生成することができる。このような学習データを用いて学習された学習モデルは、学習モデルの汎化性能の向上につながり、物体検知の精度向上が期待できる。

また、上記のように、画像生成装置１は、既存の学習データに基づいて、増加された学習データを自動で生成する。画像生成装置１は、ラベル画像Ｓ１のラベル値に基づいて、物体画像Ｏを合成するカメラ画像Ｃ１及びラベル画像Ｓ１上の位置を自動で決定することができるので、手作業で位置を決定する場合に比べて、学習データの生成にかかるコストを削減することができる。

特にＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ向けの学習データは、手作業で画素ごとにラベル付けを行う場合が多く、学習データの生成にかかるコストが膨大である。画像生成装置１は、ラベル画像Ｓ１を用いることで、ＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ向けの学習データを自動で生成することができるので、ＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ向けの学習データの生成にかかるコストを大幅に削減することができる。

また、画像生成装置１は、上記の方法で学習データを生成することで、特定の設備、特定のシーン（例えば、駐車場のシーン）など、一般的ではなく予め大量のデータの確保が困難なケースでも、合成により大量に学習データを生成することができる。

（実施の形態２）
以下、本実施の形態に係る画像生成装置ついて、図８〜図１０を参照しながら説明する。

［２−１．画像生成装置の構成］
まずは、本実施の形態に係る画像生成装置の構成について、図８〜図９Ｂを参照しながら説明する。図８は、本実施の形態に係る画像生成装置１ａの機能構成を示すブロック図である。なお、以降において、実施の形態１に係る画像生成装置１と同一又は類似の構成については、実施の形態１に係る画像生成装置１と同一の符号を付し、説明を省略する。

図８に示すように、本実施の形態に係る画像生成装置１ａは、画像合成部４０に替えて画像合成部４０ａを備える点において、実施の形態１に係る画像生成装置１と相違する。以下では、画像生成装置１との相違点を中心に説明する。

画像合成部４０ａは、実施の形態１に係る画像合成部４０に加えて、ラベル更新部４５を有する。

ラベル更新部４５は、合成ラベル画像Ｓ２において、物体画像Ｏが合成された対象ラベルの領域のラベル値を更新する。ラベル更新部４５は、物体画像Ｏが合成された対象ラベルの領域の全てを、当該物体画像Ｏを示すラベル値に更新する。例えば、ラベル更新部４５は、合成部４４により駐車スペースＰ１を示すラベル領域Ｌ１に物体画像Ｏが合成された場合、当該ラベル領域Ｌ１の全域、つまり、物体画像Ｏが合成されていないラベル領域Ｌ１（例えば、図３Ｂに示すラベル領域Ｌ１ｂ及びＬ２ｂ）を、物体画像Ｏを示すラベル値に更新する。

画像合成部４０ａは、ラベル更新部４５により対象ラベルの領域の全域のラベル値が更新された合成ラベル画像を第２記憶部５０に記憶する。また、画像合成部４０ａは、合成ラベル画像を外部の装置に出力してもよい。

ここで、第２記憶部５０に記憶される学習データについて図９Ａ及び図９Ｂを参照しながら説明する。図９Ａは、本実施の形態に係る第２記憶部５０に記憶される合成カメラ画像Ｃ２の一例を示す図である。図９Ｂは、本実施の形態に係る第２記憶部５０に記憶される合成ラベル画像Ｓ３の一例を示す図である。なお、図９Ａに示す合成カメラ画像Ｃ２は、実施の形態１の合成カメラ画像Ｃ２と同じ画像であり、説明を省略する。

図９Ｂに示すように、第２記憶部５０は、合成ラベル画像Ｓ３を含む複数の合成ラベル画像を記憶する。合成ラベル画像Ｓ３は、ラベル画像Ｓ１のラベル領域Ｌ１及びＬ２のそれぞれの領域の全域が物体画像Ｏを示すラベル値に更新された画像である。合成ラベル画像Ｓ３は、学習モデルの学習時には正解データとして使用される画像である。

ラベル領域Ｌ１１は、カメラ画像Ｃ１における駐車スペースＰ１に対応する領域であり、物体画像Ｏを示すラベル値が与えられた領域である。合成ラベル画像Ｓ３におけるラベル領域Ｌ１１の位置と、カメラ画像Ｃ１における駐車スペースＰ１の位置とは、同じ位置である。

ラベル領域Ｌ１２は、カメラ画像Ｃ１における駐車スペースＰ２に対応する領域であり、物体画像Ｏを示すラベル値が与えられた領域である。合成ラベル画像Ｓ３におけるラベル領域Ｌ１２の位置と、カメラ画像Ｃ１における駐車スペースＰ２の位置とは、同じ位置である。

なお、ラベル領域Ｌ１１とラベル領域Ｌ１２とは、例えば、同じラベル値であってもよい。当該ラベル値は、駐車不可を示すラベル値であってもよい。

［２−２．画像生成装置の動作］
続いて、本実施の形態に係る画像生成装置１ａの動作について、図１０を参照しながら説明する。図１０は、本実施の形態に係る物体画像Ｏの合成処理の動作を示すフローチャートである。図１０は、図４に示すステップＳ４０の他の一例を示す。なお、図１０に示すフローチャートは、図５に示すフローチャートにさらにステップＳ１４６及びＳ１４７を含む。

図１０に示すように、ラベル更新部４５は、ラベル画像Ｓ１の対象ラベルの領域の全域のラベル値を更新するか否かを判定する。ラベル更新部４５は、例えば、物体画像Ｏが合成されたラベル画像Ｓ１の対象ラベルにおける物体画像Ｏの領域（例えば、図３Ｂに示すラベル領域Ｌ１ａ及びＬ２ａの領域であり、物体領域とも記載する）の面積と、当該対象ラベルにおける残りの領域（例えば、図３Ｂに示すラベル領域Ｌ１ｂ及びＬ２ｂの領域であり、残存領域とも記載する）の面積とに基づいて、当該対象ラベルの領域の全域のラベル値を更新するか否かを判定する。ラベル更新部４５は、例えば、残存領域と物体領域との面積の差分が任意の閾値パラメータ（閾値）より小さいか否かにより、上記の判定を行ってもよい（Ｓ１４６）。なお、物体画像Ｏが合成されたラベル画像Ｓ１とは、ラベル画像Ｓ１に物体画像Ｏに対応するラベル値が付与された画像である。なお、閾値は、予め設定されており、例えば、正の値であるが、これに限定されない。閾値は、例えば、第２記憶部５０に記憶されている。

ラベル更新部４５は、残存領域と物体領域との面積の差分が閾値より小さい場合（Ｓ１４６でＹｅｓ）、物体画像Ｏが合成された対象ラベルのラベル値を更新する（Ｓ１４７）。ラベル更新部４５は、例えば、ステップＳ４４で物体画像Ｏが合成されたラベル領域Ｌ１及びＬ２の領域のラベル値を更新する。ラベル値が更新された合成ラベル画像Ｓ３（図９Ｂ参照）は、ステップＳ４５で第２記憶部５０に記憶される。

また、ラベル更新部４５は、残存領域と物体領域との面積の差分が閾値以上である場合（Ｓ１４６でＮｏ）、例えば、ステップＳ４４で物体画像Ｏが合成されたラベル画像Ｓ１を第２記憶部５０に記憶する。つまり、ステップＳ４４で物体画像Ｏが合成された合成ラベル画像Ｓ２（図３Ｂ参照）は、ステップＳ４５で第２記憶部５０に記憶される。

上記のように、画像生成装置１ａは、合成部４４が生成した合成ラベル画像Ｓ２の対象ラベルのラベル値を更新するラベル更新部４５を備える。物体画像Ｏが合成された対象ラベルの領域は、物体画像Ｏの合成により属性が変化する。そのため、ラベル更新部４５は、対象ラベルの領域のラベル値を更新する。

なお、ラベル更新部４５は、対象ラベルの領域に複数の残存領域が存在する場合、例えば、複数の残存領域のうち最も面積が広い残存領域の面積と、物体領域の面積との差分に基づいて、ステップＳ１４６の判定を行ってもよい。これにより、最も面積が広い残存領域にさらに物体を配置することが不可能である場合に、当該残存領域を含む対象ラベルの領域の全域のラベル値を更新することができる。なお、ラベル更新部４５は、対象ラベルの領域に複数の残存領域が存在する場合、例えば、複数の残存領域それぞれの面積を合計した合計面積と、物体領域の面積との差分に基づいて、ステップＳ１４６の判定を行ってもよい。

なお、上記では、ラベル更新部４５は、残存領域と物体領域との面積の差分に基づいて、対象ラベルの領域の全域のラベル値を更新するか否かを判定する例について説明したが、判定方法はこれに限定されない。ラベル更新部４５は、例えば、物体画像Ｏに対応するラベル値が所定のラベル値である場合、ステップＳ１４６でＹｅｓと判定してもよいし、物体画像Ｏの物体領域の大きさが所定の大きさ以上である場合、ステップＳ１４６でＹｅｓと判定してもよい。また、ラベル更新部４５は、残存領域と物体領域との面積の大小関係に基づいて、対象ラベルの領域の全域のラベル値を更新するか否かを判定してもよい。この場合、ラベル更新部４５は、例えば、残存領域が物体領域より大きい場合、ステップＳ１４６でＹｅｓと判定してもよい。また、ラベル更新部４５は、ステップＳ１４６の判定を行わなくてもよい。

（その他の実施の形態）
以上、一つまたは複数の態様に係る学習データ生成方法等について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示に含まれてもよい。

例えば、上記実施の形態等では、学習データ生成方法が駐車スペースにおける車の駐車の有無を検知可能とするための学習データの生成に用いられる例について説明したが、学習データ生成方法が生成する学習データは、これに限定されない。例えば、所定の空間（例えば、部屋）などにおいて、人がいる領域、及び、人がいない領域を検知可能とするための学習データの生成に用いられてもよいし、その他のいかなる学習データの生成に用いられてもよい。

また、上記実施の形態等では、アノテーション付き画像は、ラベル画像である例について説明したが、これに限定されない。アノテーション付き画像は、例えば、カメラ画像における所定の物体の位置を示す枠（例えば、矩形枠）の座標、又は、当該枠が重畳されたカメラ画像などであってもよい。枠の座標は、アノテーション情報の一例である。

また、上記実施の形態等における第１記憶部及び第２記憶部は、１つの記憶装置により実現されてもよいし、別々の記憶装置により実現されてもよい。

また、上記実施の形態等では、組合せ計算部は、ラベル画像におけるラベルの組み合わせの全てを算出する例について説明したが、これに限定されない。組合せ計算部は、例えば、予め設定された数のラベルの組合せを算出してもよい。

また、位置計算部による中心座標の計算、及び、向き計算部による向きの計算は、上記実施の形態に記載した計算方法以外の公知のいかなる計算方法により行われてもよい。

また、上記実施の形態等では、画像生成装置は、１つの装置により実現される例について説明したが、複数の装置により実現されてもよい。画像生成装置が複数の装置によって実現される場合、当該位置推定装置が有する各構成要素は、複数の装置にどのように振り分けられてもよい。

また、上記実施の形態等における画像生成装置が備える各構成要素の少なくとも１つは、サーバ装置により実現されてもよい。例えば、取得部、ラベル決定部、画像合成部などの処理部の少なくとも１つは、サーバ装置により実現されてもよい。また、画像生成装置がサーバ装置を含む複数の装置で実現される場合、当該画像生成装置が備える装置間の通信方法は、特に限定されず、無線通信であってもよいし、有線通信であってもよい。また、装置間では、無線通信および有線通信が組み合わされてもよい。

また、上記実施の形態等における第１記憶部及び第２記憶部の少なくとも１つは、画像生成装置の外部の装置（例えば、サーバ装置）が備えるデータベースであってもよい。画像生成装置は、既存の学習データを通信により取得し、かつ、増加した学習データを通信により出力してもよい。

また、上記実施の形態等で生成された学習データ（増加された学習データ）は、学習済みモデルの再学習に用いられてもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が他のステップと同時（並列）に実行されてもよいし、上記ステップの一部は実行されなくてもよい。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

また、上記実施の形態における画像生成装置が備える構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。

システムＬＳＩは、複数の処理部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

また、本開示の一態様は、図４、図５及び図１０などに示す学習モデル生成方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。例えば、プログラムは、コンピュータに実行させるためのプログラムであってもよい。また、本開示の一態様は、そのようなプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。例えば、そのようなプログラムを記録媒体に記録して頒布又は流通させてもよい。例えば、頒布されたプログラムを、他のプロセッサを有する装置にインストールして、そのプログラムをそのプロセッサに実行させることで、その装置に、上記各処理を行わせることが可能となる。

本開示は、学習モデルの機械学習に用いられる学習データを生成する画像生成装置に有用である。

１、１ａ画像生成装置
１０取得部
２０第１記憶部
３０ラベル決定部
３１ラベル計数部
３２組合せ計算部
４０、４０ａ画像合成部
４１位置計算部
４２向き計算部
４３拡縮率計算部
４４合成部
４５ラベル更新部
５０第２記憶部
Ｃ１カメラ画像
Ｃ２合成カメラ画像
Ｌ１、Ｌ１ａ、Ｌ１ｂ、Ｌ２、Ｌ２ａ、Ｌ２ｂ、Ｌ３、Ｌ４ラベル領域
Ｏ物体画像
Ｐ１、Ｐ２、Ｐ３駐車スペース
Ｒ走行スペース
Ｓ１ラベル画像
Ｓ２、Ｓ３合成ラベル画像

Claims

カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得し、
前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定し、
前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する
学習データ生成方法。
さらに、前記アノテーション付き画像に基づいて、前記特定の領域の中心座標を算出し、
前記物体画像は、前記カメラ画像及び前記アノテーション付き画像における前記中心座標と重なる位置に合成される
請求項１に記載の学習データ生成方法。
さらに、前記アノテーション付き画像に基づいて、前記特定の領域の向きを算出し、
前記物体画像は、前記特定の領域の前記向きに応じた向きに合成される
請求項１又は２に記載の学習データ生成方法。
さらに、前記アノテーション付き画像に基づいて、前記特定の領域の大きさを取得し、
前記物体画像は、前記特定の領域の前記大きさ以下の大きさとなるように大きさが拡大又は縮小され合成される
請求項１〜３のいずれか１項に記載の学習データ生成方法。
前記アノテーション付き画像に基づいて、前記物体に対応する前記特定の領域の数を算出し、
１以上の前記特定の領域に前記物体画像を合成する組み合わせを算出し、
前記組み合わせのそれぞれにおいて、前記物体画像を合成する
請求項１〜４のいずれか１項に記載の学習データ生成方法。
さらに、前記物体画像が合成された前記アノテーション付き画像の前記特定の領域の前記アノテーション情報を、前記物体画像に基づいて更新する
請求項１〜５のいずれか１項に記載の学習データ生成方法。
前記アノテーション付き画像は、前記カメラ画像に対して画像セグメンテーションが行われたラベル画像であり、
前記ラベル画像における前記特定の領域に前記物体画像を合成する
請求項１〜６のいずれか１項に記載の学習データ生成方法。
カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得部と、
前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定するラベル決定部と、
前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する画像合成部とを備える
学習データ生成システム。
請求項１〜７のいずれか１項に記載の学習データ生成方法をコンピュータに実行させるためのプログラム。