JP2021157404A - 学習データ生成方法、学習データ生成装置、及び、プログラム - Google Patents

学習データ生成方法、学習データ生成装置、及び、プログラム Download PDF

Info

Publication number
JP2021157404A
JP2021157404A JP2020056123A JP2020056123A JP2021157404A JP 2021157404 A JP2021157404 A JP 2021157404A JP 2020056123 A JP2020056123 A JP 2020056123A JP 2020056123 A JP2020056123 A JP 2020056123A JP 2021157404 A JP2021157404 A JP 2021157404A
Authority
JP
Japan
Prior art keywords
image
label
learning data
area
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020056123A
Other languages
English (en)
Other versions
JP7145440B2 (ja
Inventor
省吾 佐久間
Shogo Sakuma
省吾 佐久間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2020056123A priority Critical patent/JP7145440B2/ja
Priority to DE112021000027.6T priority patent/DE112021000027T5/de
Priority to PCT/JP2021/000980 priority patent/WO2021192515A1/ja
Publication of JP2021157404A publication Critical patent/JP2021157404A/ja
Priority to US17/512,012 priority patent/US20220051055A1/en
Application granted granted Critical
Publication of JP7145440B2 publication Critical patent/JP7145440B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/586Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of parking space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

【課題】学習データ以外の情報を用いることなく、現実に起こり得るシーンの画像を含む学習データを生成することができる学習データ生成方法等を提供する。【解決手段】学習データ生成方法は、カメラ画像C1、当該カメラ画像C1にアノテーション情報が付与されたラベル画像S1、及び、学習モデルの検知対象である物体を示す物体画像Oを取得し(S10)、ラベル画像S1に基づいて、物体に対応する特定の領域を特定し(S20)、カメラ画像C1及びラベル画像S1における特定の領域に物体画像Oを合成する(S40)。【選択図】図4

Description

本開示は、学習データ生成方法、学習データ生成装置、及び、プログラムに関する。
近年、ディープラーニングなどの機械学習により生成された学習モデルを用いて、物体を検知する物体検知装置の開発が行われている。学習モデルによる物体検知の精度を向上させるためには、学習に用いる学習データが大量に必要となる。特に、ディープラーニングでは、学習データの量が精度向上につながることが非常に多い。
そこで、既存の学習データを変換することで、データ数を増やす様々な技術が提案されている。特許文献1には2枚の画像のうち一方の画像の一定の領域を切り抜き、他方の画像に合成する技術が開示されている。また、特許文献2には、検査対象物の画像に含まれる検出対象部位を切り出して、別の検査対象物の画像に合成する技術が開示されている。
特開2017−45441号公報 特許第6573226号公報
しかしながら、特許文献1の技術では、例えば、空に車が浮いているなど、現実では起こり得ないシーンの画像が生成されることがある。このような画像を含む学習データを用いると、学習モデルの精度が劣化する場合がある。また、特許文献2の技術では、検出対象部位が別の検査対象物の画像に合成される位置は、統計情報に基づいて計算される。つまり、特許文献2の技術では、学習データ以外の情報が必要であり、事前に当該情報が取得されていない場合には、適用することができない。
そこで、本開示は、学習データ以外の情報を用いることなく、現実に起こり得るシーンの画像を含む学習データを生成することができる学習データ生成方法、学習データ生成装置、及び、プログラムに関する。
本開示の一態様に係る学習データ生成方法は、カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得し、前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定し、前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する。
本開示の一態様に係る学習データ生成装置は、カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得部と、前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定するラベル決定部と、前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する画像合成部とを備える。
本開示の一態様に係るプログラムは、上記の学習データ生成方法をコンピュータに実行させるためのプログラムである。
本開示の一態様に係る学習データ生成方法等によれば、学習データ以外の情報を用いることなく、現実に起こり得るシーンの画像を含む学習データを生成することができる。
図1は、実施の形態1に係る画像生成装置の機能構成を示すブロック図である。 図2Aは、実施の形態1に係る第1記憶部に記憶されているカメラ画像の一例を示す図である。 図2Bは、実施の形態1に係る第1記憶部に記憶されているラベル画像の一例を示す図である。 図2Cは、実施の形態1に係る第1記憶部に記憶されている物体画像の一例を示す図である。 図3Aは、実施の形態1に係る第2記憶部に記憶される合成カメラ画像の一例を示す図である。 図3Bは、実施の形態1に係る第2記憶部に記憶される合成ラベル画像の一例を示す図である。 図4は、実施の形態1に係る画像生成装置の動作を示すフローチャートである。 図5は、実施の形態1に係る物体画像の合成処理の動作の一例を示すフローチャートである。 図6は、実施の形態1に係る対象ラベルの中心座標の計算結果を示す図である。 図7は、実施の形態1に係る対象ラベルの向きの計算結果を示す図である。 図8は、実施の形態2に係る画像生成装置の機能構成を示すブロック図である。 図9Aは、実施の形態2に係る第2記憶部に記憶される合成カメラ画像を示す図である。 図9Bは、実施の形態2に係る第2記憶部に記憶される合成ラベル画像を示す図である。 図10は、実施の形態2に係る物体画像の合成処理の動作を示すフローチャートである。
本開示の一態様に係る学習データ生成方法は、カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得し、前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定し、前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する。例えば、学習データ生成方法は、前記カメラ画像の前記特定の領域に前記物体画像を合成し、かつ、前記アノテーション付き画像の前記特定の領域に前記物体画像に対応するアノテーション情報を合成する。
これにより、物体画像を合成する領域をアノテーション付き画像に基づいて決定することができる。つまり、学習データ以外の情報を用いることなく、物体画像を合成する位置を決定することができる。例えば、空に車が浮いているような、現実に起こり得ない画像が生成されることを抑制することができる。よって、学習データ以外の情報を用いることなく、現実に起こり得るシーンの画像を含む学習データを生成することができる。
なお、カメラ画像及びアノテーション付き画像のセットにより、学習モデルの学習に用いられる学習データは、構成される。カメラ画像は、学習モデルの学習時には、入力画像として使用される画像である。アノテーション付き画像は、学習モデルの学習時には、正解データとして使用される画像である。
また、例えば、さらに、前記アノテーション付き画像に基づいて、前記特定の領域の中心座標を算出し、前記物体画像は、前記カメラ画像及び前記アノテーション付き画像における前記中心座標と重なる位置に合成されてもよい。
これにより、物体画像が合成される位置を、現実に起こり得る位置により近づけることができる。よって、より現実に起こり得るシーンの画像を含む学習データを生成することができる。
また、例えば、さらに、前記アノテーション付き画像に基づいて、前記特定の領域の向きを算出し、前記物体画像は、前記特定の領域の前記向きに応じた向きに合成されてもよい。
これにより、物体画像が合成される向きを、現実に起こり得る向きにより近づけることができる。よって、より現実に起こり得るシーンの画像を含む学習データを生成することができる。
また、例えば、さらに、前記アノテーション付き画像に基づいて、前記特定の領域の大きさを取得し、前記物体画像は、前記特定の領域の前記大きさ以下の大きさとなるように大きさが拡大又は縮小され合成されてもよい。
これにより、物体画像が合成される大きさを、現実に起こり得る大きさにより近づけることができる。よって、より現実に起こり得るシーンの画像を含む学習データを生成することができる。
また、例えば、前記アノテーション付き画像に基づいて、前記物体に対応する前記特定の領域の数を算出し、1以上の前記特定の領域に前記物体画像を合成する組み合わせを算出し、前記組み合わせのそれぞれにおいて、前記物体画像を合成してもよい。
これにより、現実に起こり得るシーンの画像を効率的に増やすことができる。よって、現実に起こり得るシーンの画像を含む学習データを効率的に生成することができる。
また、例えば、さらに、前記物体画像が合成された前記アノテーション付き画像の前記特定の領域の前記アノテーション情報を、前記物体画像に基づいて更新してもよい。
これにより、特定の領域のうち物体画像が合成された領域の属性の変化を、当該特定の領域の全域に反映することができる。よって、特定の領域のうち物体画像が合成された領域以外の領域が小さい場合に、当該物体画像が合成されたカメラ画像に適したアノテーション付き画像を生成することができる。
また、例えば、前記アノテーション付き画像は、前記カメラ画像に対して画像セグメンテーションが行われたラベル画像であり、前記ラベル画像における前記特定の領域に前記物体画像を合成してもよい。
これにより、画像セグメンテーション向けの学習データを手作業で生成している場合に比べて、学習データの生成コストを大幅に削減することができる。
本開示の一態様に係る学習データ生成装置は、カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得部と、前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定するラベル決定部と、前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する画像合成部とを備える。また、本開示の一態様に係るプログラムは、上記の学習データ生成方法をコンピュータに実行させるためのプログラムである。
これらにより、上記の学習データ生成方法と同様の効果を奏する。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROM等の非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。例えば、数値は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。
なお、本明細書においては、システムは、複数の装置で構成されていることに限定されず、1台の装置で構成されているものも含む。
(実施の形態1)
以下、本実施の形態に係る画像生成装置ついて、図1〜図3Bを参照しながら説明する。
[1−1.画像生成装置の構成]
まず、本実施の形態に係る画像生成装置の構成について、図1を参照しながら説明する。図1は、本実施の形態に係る画像生成装置1の機能構成を示すブロック図である。本実施の形態に係る画像生成装置1は、学習モデルの機械学習に用いられる学習データ(データセット)を生成する。具体的には、画像生成装置1は、例えば、既存の学習データに基づいて、機械学習に用いる学習データ数を自動で増加する処理を行い、増加された学習データを出力する。
なお、以下では、駐車場の駐車スペースに車の画像を合成することで学習データを生成する(増やす)例について説明する。また、以下では、学習モデルは、Semantic Segmentation(画像セグメンテーション)を行うモデルである例について説明する。
図1に示すように、画像生成装置1は、取得部10と、第1記憶部20と、ラベル決定部30と、画像合成部40と、第2記憶部50とを備える。画像生成装置1は、学習データ生成システムの一例である。
取得部10は、画像生成装置1において処理される既知の学習データを取得する。取得部10は、例えば、通信により外部の装置から既知の学習データを取得してもよい。この場合、取得部10は、外部の装置と通信するための通信回路(通信モジュール)を含んで構成される。また、取得部10は、既知の学習データが第1記憶部20に記憶されている場合、当該第1記憶部20から既知の学習データを読み出してもよい。既知の学習データは、例えば、予め生成された又は予め取得された学習データである。既知の学習データは、例えば、公開されている学習データ(データセット)であってもよい。
第1記憶部20は、画像生成装置1が学習データを増やす処理を実行するときに用いられる各種情報を記憶する記憶装置である。第1記憶部20は、画像生成装置1が学習データを増やすためのもとになる既知の学習データ、及び、学習モデルの検知対象の物体を示す物体画像を記憶する。第1記憶部20は、例えば、半導体メモリにより実現される。なお、取得部10が外部の装置から既知の学習データを取得する場合、第1記憶部20は、既知の学習データを記憶していなくてもよい。
ここで、第1記憶部20に記憶されている各種情報について、図2A〜図2Cを参照しながら説明する。図2Aは、本実施の形態に係る第1記憶部20に記憶されているカメラ画像C1の一例を示す図である。図2Bは、本実施の形態に係る第1記憶部20に記憶されているラベル画像S1の一例を示す図である。図2Cは、本実施の形態に係る第1記憶部20に記憶されている物体画像Oの一例を示す図である。なお、学習データは、カメラ画像C1及びラベル画像S1のセットを複数含んで構成される。
図2Aに示すように、第1記憶部20は、カメラ画像C1を含む複数のカメラ画像を記憶する。カメラ画像は、カメラ(例えば、車載カメラ)などの撮像装置により撮像された画像である。カメラ画像C1は、例えば、3つの駐車スペースP1〜P3と、走行スペースRとを含む画像である。なお、カメラ画像C1は、学習モデルの学習時には入力画像として使用される画像である。
図2Bに示すように、第1記憶部20は、ラベル画像S1を含む複数のラベル画像を記憶する。ラベル画像S1は、カメラ画像C1中で同一の物体領域と考えられる部分の画素に対して1つのラベル値(例えば、整数値)を与えた、カメラ画像C1と同じ大きさの画像である。つまり、ラベル画像S1は、画素値としてラベル値を有する画像である。なお、ラベル画像S1は、学習モデルの学習時には正解データとして使用される画像である。ラベル値は、アノテーション情報の一例であり、ラベル画像S1は、アノテーション付き画像の一例である。
ラベル領域L1は、カメラ画像C1における駐車スペースP1に対応する領域であり、駐車可能であることを示す第1ラベル値が与えられた領域(横線の領域)である。ラベル画像S1におけるラベル領域L1の位置と、カメラ画像C1における駐車スペースP1の位置とは、同じ位置である。ラベル領域L2は、カメラ画像C1における駐車スペースP2に対応する領域であり、駐車可能であることを示す第2ラベル値が与えられた領域(縦線の領域)である。ラベル画像S1におけるラベル領域L2の位置と、カメラ画像C1における駐車スペースP2の位置とは、同じ位置である。
ラベル領域L3は、カメラ画像C1における駐車スペースP3に対応する領域であり、駐車可能であることを示す第3ラベル値が与えられた領域(斜め線の領域)である。ラベル画像S1におけるラベル領域L3の位置と、カメラ画像C1における駐車スペースP3の位置とは、同じ位置である。ラベル領域L4は、カメラ画像C1における走行スペースRに対応する領域であり、走行スペースに対応するラベル値が与えられた領域である。ラベル画像S1におけるラベル領域L4の位置と、カメラ画像C1における走行スペースRの位置とは、同じ位置である。
このように、本実施の形態では、ラベル領域L1〜L3は、駐車可能であることを示すラベル値が与えられた領域であり、ラベル領域L4は、駐車不可能であることを示すラベル値が与えられた領域であるとも言える。なお、第1ラベル値〜第3ラベル値は、互いに同じ値であってもよいし、異なる値であってもよい。なお、以降においては、ラベル領域を単にラベルとも記載する。
ラベル画像S1の生成方法は特に限定されず、既知のいかなる方法が用いられてもよい。ラベル画像S1は、カメラ画像C1に対して手作業によりラベル付けが行われることで生成されてもよいし、カメラ画像C1に対して画像セグメンテーションを行うことで自動的に生成されてもよい。
図2Cに示すように、第1記憶部20は、物体画像Oを含む複数の物体画像を記憶する。本実施の形態では、物体画像Oは、車の画像である。物体画像Oは、撮像装置により撮像された画像から物体領域を切り取って生成された画像であってもよいし、CG(Computer Graphics)画像であってもよい。物体画像Oは、後述する画像合成部40により、カメラ画像C1及びラベル画像S1のそれぞれに合成される画像である。
なお、物体は車であることに限定されず、カメラ画像C1に応じた物体であればよい。物体はバイク、人などであってもよいし、その他であってもよい。
図1を再び参照して、ラベル決定部30は、ラベル画像S1に基づいて、当該ラベル画像S1において物体画像Oを合成する対象となる対象ラベルを決定する。ラベル決定部30は、ラベル計数部31と、組合せ計算部32とを有する。
ラベル計数部31は、ラベル画像S1から当該ラベル画像S1におけるラベルの個数を計数する。図2Bの場合、ラベル計数部31は、駐車スペースのラベルが3つ(ラベル領域L1〜L3)であり、走行スペースのラベルが1つ(ラベル領域L4)であると計数する。
そして、ラベル計数部31は、ラベル画像S1における物体画像Oを合成する対象となるラベルの個数を計数する。ラベル計数部31は、物体画像Oが示す物体(例えば、車)を合成する対象である対象ラベルの個数を、駐車スペースのラベルの個数である3とする。ラベル計数部31は、例えば、物体画像Oが示す物体と、当該物体に対応するラベル値とが対応付けられたテーブルに基づいて、対象ラベルの個数を計数してもよい。本実施の形態において、駐車スペースP1〜P3に対応するラベル領域L1〜L3は、物体画像Oが示す物体に対応する特定の領域の一例である。ラベル計数部31は、ラベル画像S1に基づいて、物体画像Oが示す物体に対応する特定の領域を特定するとも言える。
組合せ計算部32は、ラベル計数部31が計数したラベルの個数に基づいて、物体画像Oを合成するラベルの組み合わせを計算する。図2Bの場合、組合せ計算部32は、物体画像Oを合成するラベルの組み合わせが7通りあると算出する。つまり、組合せ計算部32は、ラベルの組み合わせが7通りであると決定する。
組み合わせは、ラベル領域L1、ラベル領域L2、ラベル領域L3、ラベル領域L1及びL2、ラベル領域L1及びL3、ラベル領域L2及びL3、ラベル領域L1〜L3の7通りである。このように、組合せ計算部32は、効果的に学習データを増加させる観点から、全てのラベルの組み合わせを算出するとよい。なお、組合せ計算部32は、全てのラベルの組み合わせを算出することに限定されない。
画像合成部40は、ラベル決定部30が決定したラベルの組合せに基づいて、カメラ画像C1に物体画像Oを合成する。画像合成部40は、例えば、ラベルの組合せの全てにおいて、カメラ画像C1に物体画像Oを合成する。画像合成部40は、位置計算部41と、向き計算部42と、拡縮率計算部43と、合成部44とを有する。
位置計算部41は、ラベル計数部31が計数した対象ラベルそれぞれの、ラベル画像S1上における座標(例えば、画素座標)を計算する。位置計算部41は、対象ラベルそれぞれの、ラベル画像S1上における中心座標を計算する。位置計算部41は、対象ラベルの重心座標に基づいて、当該対象ラベルの中心座標として計算する。中心座標は、当該対象ラベルに物体画像Oを合成する際に用いられる基準の座標である。
位置計算部41は、例えば、対象ラベルの領域(例えば、ラベル領域L1)の重心座標を当該ラベル領域の中心座標として計算する。位置計算部41は、例えば、対象ラベルの領域が矩形状である場合、当該対象ラベルを構成する4つの角それぞれの座標に基づいて当該対象ラベルの領域の中心座標を計算してもよい。これにより、対象ラベルの領域の中心付近の座標を中心座標として計算することができるので、後述する処理において、現実的に起こり得る位置に物体画像Oを合成することができる。
また、位置計算部41は、対象ラベルの領域の重心座標を一定の範囲内で移動させた座標を、当該対象ラベルの中心座標として計算してもよい。位置計算部41は、例えば、対象ラベルの領域の重心座標を一定の範囲内で正規分布に従う形で移動させてもよい。位置計算部41は、対象ラベルの領域内から物体画像Oがはみ出さない範囲であれば、重心位置から中心位置を移動させてもよい。また、位置計算部41は、1つの対象ラベルに対して複数の中心座標を計算してもよい。
なお、ラベル画像S1における対象ラベルの中心座標(例えば、画素座標)と、カメラ画像C1における当該対象ラベルに対応する駐車スペースの中心座標(例えば、画素座標)とは、同じ位置である。
向き計算部42は、対象ラベルの向きを計算する。向き計算部42は、例えば、対象ラベルの領域に含まれる各点(各座標)のラベル画像S1上での分布に対する主成分分析を行い、主成分分析の結果に基づいて、対象ラベルの向きを計算する。向き計算部42は、例えば、当該主成分分析の結果として得られた固有ベクトルを用いることで、対象ラベルの向きを計算してもよい。
なお、向き計算部42は、上記以外の公知の方法により向きを計算してもよい。向き計算部42は、例えば、ラベルが矩形状である場合、長手方向及び短手方向の一方のラベル画像S1上での方向を計算してもよい。また、向き計算部42は、例えば、ラベルが楕円状である場合、長軸方向及び短軸方向の一方のラベル画像S1上での方向を計算してもよい。なお、長軸方向は長手方向の一例であり、短軸方向は短手方向の一例である。
拡縮率計算部43は、対象ラベルの領域の大きさに基づいて、物体画像Oの拡縮率を計算する。拡縮率計算部43は、対象ラベルの領域をはみ出さずに物体画像Oを当該対象ラベルの領域に合成することができるように、物体画像Oの拡大率又は縮小率を計算する。拡縮率計算部43は、例えば、物体画像Oの大きさが対象ラベルの領域の大きさ以下となるように、当該物体画像Oの拡大率又は縮小率を計算する。拡縮率計算部43は、対象ラベルが複数ある場合、複数の対象ラベルのそれぞれにおいて、拡縮率を計算する。また、拡縮率計算部43は、1つの対象ラベルに対して1つの拡縮率を計算してもよいし、複数の拡縮率を計算してもよい。
合成部44は、ラベル画像S1における対象ラベルの中心座標に基づいて、カメラ画像C1及びラベル画像S1のそれぞれに物体画像Oを合成する。合成部44は、例えば、ラベル画像S1における対象ラベルの中心座標の位置、及び、当該中心座標に対応するカメラ画像C1の位置のそれぞれに物体画像Oを重畳することで、カメラ画像C1及びラベル画像S1のそれぞれに物体画像Oを合成する。合成部44は、例えば、カメラ画像C1の駐車スペースの中心座標に物体画像Oを重畳することで、カメラ画像C1に物体画像Oを合成し、ラベル画像S1のラベルの中心座標に物体画像Oに対応するラベル値を付与することで、ラベル画像S1に物体画像Oを合成する。合成部44は、例えば、カメラ画像C1の駐車スペースの中心座標と、物体画像Oの中心座標とが重なるようにカメラ画像C1に物体画像Oを合成し、ラベル画像S1の対象ラベルの中心座標と、物体画像Oの中心座標とが重なるようにラベル画像S1に物体画像Oを合成してもよい。
また、合成部44は、向き計算部42が計算した対象ラベルの向きと物体画像Oの向きとが平行となるように、カメラ画像C1及びラベル画像S1のそれぞれに、物体画像Oを合成してもよい。また、合成部44は、例えば、ラベルの長手方向及び短手方向の一方と、物体画像Oの長手方向及び短手方向の当該一方とが平行となるように、カメラ画像C1に物体画像Oを合成してもよい。ラベルの長手方向及び短手方向の一方は、ラベルの向きの一例である。合成部44は、例えば、カメラ画像C1及びラベル画像S1のそれぞれに同じ向きに物体画像Oを合成する。
また、合成部44は、拡縮率計算部43が計算した対象ラベルに対応する拡縮率を用いて物体画像Oの大きさを変更し、カメラ画像C1に及びラベル画像S1のそれぞれに変更された物体画像Oを合成してもよい。合成部44は、対象ラベルの領域の大きさ、つまり駐車スペースの大きさに応じて、物体画像Oの大きさを調整して、調整された物体画像Oをカメラ画像C1及びラベル画像S1に合成してもよい。合成部44は、例えば、カメラ画像C1及びラベル画像S1のそれぞれに同じ拡縮率で拡大又は縮小された物体画像Oを合成する。
なお、合成部44が画像を合成する方法は、特に限定されず、公知のいかなる方法が用いられてもよい。例えば、クロマキー合成により物体画像Oが合成されてもよい。
第2記憶部50は、画像合成部40により物体画像Oが合成されたカメラ画像C1及びラベル画像S1を記憶する記憶装置である。第2記憶部50は、画像生成装置1が学習データを増やす処理を行うことで生成された学習データ(増加された学習データ)を記憶する。第2記憶部50は、例えば、半導体メモリにより実現される。なお、以下において、物体画像Oが合成されたカメラ画像C1を合成カメラ画像とも記載し、物体画像Oが合成されたラベル画像S1を合成ラベル画像とも記載する。
ここで、第2記憶部50に記憶される学習データについて図3A及び図3Bを参照しながら説明する。図3Aは、本実施の形態に係る第2記憶部50に記憶される合成カメラ画像C2の一例を示す図である。図3Bは、本実施の形態に係る第2記憶部50に記憶される合成ラベル画像S2の一例を示す図である。
図3Aに示すように、第2記憶部50は、合成カメラ画像C2を含む複数の合成カメラ画像を記憶する。合成カメラ画像C2は、カメラ画像C1の駐車スペースP1及びP2のそれぞれに物体画像Oが合成された画像であり、増加されたカメラ画像である。合成カメラ画像C2は、学習モデルの学習時には入力画像として使用される画像である。
図3Bに示すように、第2記憶部50は、合成ラベル画像S2を含む複数の合成ラベル画像を記憶する。合成ラベル画像S2は、ラベル画像S1のラベル領域L1及びL2のそれぞれの領域に物体画像Oが合成された画像であり、増加されたラベル画像である。合成ラベル画像S2は、学習モデルの学習時には正解データとして使用される画像である。
ラベル領域L1bは、合成カメラ画像C2における駐車スペースP1に合成された物体画像Oに対応する領域であり、物体画像Oに対応するラベル値が与えられた領域である。合成ラベル画像S2におけるラベル領域L1bの位置と、合成カメラ画像C2における駐車スペースP1の物体画像Oの位置とは、同じ位置である。
ラベル領域L2bは、合成カメラ画像C2における駐車スペースP2に合成された物体画像Oに対応する領域であり、物体画像Oに対応するラベル値が与えられた領域である。合成ラベル画像S2におけるラベル領域L2bの位置と、合成カメラ画像C2における駐車スペースP2の物体画像Oの位置とは、同じ位置である。
ラベル領域L1aは、図2Bに示すラベル領域L1のうちラベル領域L1b以外の領域であり、駐車可能であることを示すラベル値が与えられた領域である。ラベル領域L2aは、図2Bに示すラベル領域L2のうちラベル領域L2b以外の領域であり、駐車可能であることを示すラベル値が与えられた領域である。
ラベル領域L1a及びL2aは、駐車可能であることを示すラベル値が与えられた領域であり、ラベル領域L1b及びL2bは、駐車不可能であることを示すラベル値が与えられた領域である。ラベル領域L1b及びL2bは、ラベル領域L4と同じラベル値が与えられた領域であってもよい。このように、本実施の形態では、合成ラベル画像S2は、対象ラベルの領域のうち、物体画像Oが合成された領域のみのラベル値が更新される。これにより、例えば、1つの駐車スペースで複数台の車を駐車可能であり、かつ、当該駐車スペースに1台の車が駐車した場合に、残りの駐車可能な領域を検知することが可能となるような学習データを生成することができる。
以上のように、画像生成装置1は、ラベル画像S1に基づいて物体画像Oに対応する領域(例えば、駐車スペース)を特定し、カメラ画像C1及びラベル画像S1のそれぞれにおいて、当該特定された領域に物体画像Oを合成する。
[1−2.画像生成装置の動作]
続いて、本実施の形態に係る画像生成装置1の動作について、図4〜図7を参照しながら説明する。図4は、本実施の形態に係る画像生成装置1の動作を示すフローチャートである。
図4に示すように、取得部10は、第1記憶部20に各種情報が記憶されている場合、カメラ画像C1、ラベル画像S1及び物体画像Oを第1記憶部20から読み込むことで取得する(S10)。取得部10は取得したラベル画像S1をラベル決定部30に出力し、カメラ画像C1、ラベル画像S1及び物体画像Oを画像合成部40に出力する。物体画像Oは、例えば、物体画像Oを合成する対象となるラベルに応じて決定されてもよいし、ユーザにより予め設定されていてもよい。なお、物体画像Oは複数種類取得されてもよい。例えば、物体画像Oは、車の場合、外形、色、大きさの少なくとも1つが異なる複数種類取得されてもよい。
次に、ラベル決定部30のラベル計数部31は、ラベル画像S1に基づいて、合成対象のラベルである対象ラベルの個数を計数する(S20)。ラベル計数部31は、例えば、ラベル画像S1に含まれる複数のラベルの中から、物体画像Oが示す物体(例えば、車)に応じたラベルを対象ラベルとして当該ラベルの個数を計数する。図2Bに示すラベル画像S1の場合、ラベル決定部30は、ラベル領域L1〜L4のうち、車に応じた駐車スペースP1〜P3を示すラベル領域L1〜L3を、対象ラベルとしてラベルの個数を計数する。ラベル画像S1における対象ラベルの個数は、3個である。
次に、組合せ計算部32は、対象ラベルの組み合わせを計算する(S30)。組合せ計算部32は、対象ラベルに基づいて、物体画像Oを合成するラベルの組合せを計算する。組合せ計算部32は、例えば、物体画像Oを合成する全てのラベルの組合せを計算するとよい。図2Bの例では、組み合わせは全てで7通りである。組合せ計算部32は、計算した組み合わせを画像合成部40に出力する。
次に、画像合成部40は、カメラ画像C1、ラベル画像S1及び物体画像Oと、ラベルの組み合わせとに基づいて、物体画像Oの合成処理を行う(S40)。画像合成部40は、対象ラベルがラベル領域L1である場合、カメラ画像C1のラベル領域L1に対応する駐車スペースP1に物体画像Oを合成する。また、画像合成部40は、ラベル画像S1のラベル領域L1に物体画像Oを示すラベル値を合成する。ステップS40の詳細は、後述する。なお、ラベル領域L1に物体画像Oを示すラベル値を合成することを、ラベル領域L1に物体画像Oを合成することの一例である。
次に、画像合成部40は、全ラベルの組み合わせで物体画像Oを合成したか否かを判定する(S50)。画像合成部40は、組合せ計算部32が計算した対象ラベルの組み合わせの全てにおいて、物体画像Oを合成したか否かを判定する。図2Bの例では、画像合成部40は、7通りの組み合わせの全てにおいて、物体画像をO合成したか否かを判定する。
画像合成部40は、全ラベルの組み合わせで物体画像Oを合成した場合(S50でYes)、学習データを生成する(増加する)処理を終了する。画像合成部40は、生成した学習データを外部の装置に出力してもよい。また、画像合成部40は、全ラベルの組み合わせで物体画像Oを合成していない場合(S50でNo)、残りのラベルの組み合わせに対して物体画像Oの合成処理を行う。
ここで、物体画像Oの合成処理について、図5〜図7を参照しながら説明する。図5は、本実施の形態に係る物体画像Oの合成処理の動作の一例を示すフローチャートである。なお、以下では、7通りあるラベルの組み合わせのうち、ラベル領域L1及びL2の組み合わせに対して、物体画像Oを合成する処理について説明する。
図5に示すように、位置計算部41は、ラベル画像S1に基づいて、対象ラベルの中心座標を計算する(S41)。位置計算部41は、例えば、ラベル画像S1から対象ラベルの領域(例えば、ラベル領域L1)の重心座標を中心座標として計算する。
位置計算部41は、ラベル計数部31が計数した対象ラベルのそれぞれにおいて、中心座標を計算する。位置計算部41は、計算した対象ラベルそれぞれの中心座標を合成部44に出力する。
ここで、位置計算部41が計算した対象ラベルの中心座標について、図6を参照しながら説明する。図6は、対象ラベルの中心座標の計算結果を示す図である。
図6に示すように、位置計算部41は、ラベル領域L1の中心座標がZ1(x1、y1)であり、ラベル領域L2の中心座標がZ2(x2、y2)であると算出する。位置計算部41は、組み合わせに含まれるラベル領域L1及びL2のそれぞれにおいて中心座標を計算する。なお、位置計算部41は、過去にラベル領域L1及びL2の少なくとも一方のラベルの中心座標を計算している場合、記憶部(例えば、第1記憶部20)に記憶されている当該ラベルの中心座標を読み出すことで当該ラベルの中心座標を取得してもよい。
図5を再び参照して、次に、向き計算部42は、ラベル画像S1に基づいて、対象ラベルの向きを計算する(S42)。向き計算部42は、例えば、対象ラベルを主成分分析し固有ベクトルを用いることで、当該対象ラベルの向きを計算する。向き計算部42は、ラベル計数部31が計数した対象ラベルのそれぞれにおいて向きを計算する。向き計算部42は、計算した対象ラベルそれぞれの向きを合成部44に出力する。
ここで、向き計算部42が計算した対象ラベルの向きについて図7を参照しながら説明する。図7は、対象ラベルの向きの計算結果を示す図である。
図7に示すように、向き計算部42は、ラベル領域L1の向きがD1であり、ラベル領域L2の向きがD2であると算出する。向き計算部42は、組み合わせに含まれるラベル領域L1及びL2のそれぞれにおいて向きを算出する。なお、向き計算部42は、過去にラベル領域L1及びL2の少なくとも一方のラベルの向きを計算している場合、記憶部(例えば、第1記憶部20)に記憶されている当該ラベルの向きを読み出すことで当該ラベルの向きを取得してもよい。
図5を再び参照して、拡縮率計算部43は、ラベル領域L1の領域の大きさに基づいて、物体画像Oの拡縮率を計算する(S43)。拡縮率計算部43は、対象ラベルの領域をはみ出さずに物体画像Oを当該対象ラベルの領域に合成することができるように、物体画像Oの拡大率又は縮小率を計算する。拡縮率計算部43は、物体画像Oの拡大率又は縮小率を合成部44に出力する。
合成部44は、カメラ画像C1、及び、ラベル画像S1に物体画像Oを合成する(S44)。合成部44は、例えば、カメラ画像C1の駐車スペースP1及びP2のそれぞれに物体画像Oを合成する。合成部44は、例えば、カメラ画像C1の駐車スペースP1をはみ出さない位置、及び、駐車スペースP2をはみ出さない位置のそれぞれに物体画像Oを合成する。合成部44は、例えば、駐車スペースP1の中心座標と物体画像Oの中心座標とのズレが所定範囲内となる位置に物体画像Oを合成する。合成部44は、例えば、駐車スペースP1の中心座標と物体画像Oの中心座標とが重なる位置に、物体画像Oを合成する。駐車スペースP2に物体画像Oを合成する場合も、同様である。
なお、物体画像Oが複数ある場合、駐車スペースP1及びP2には、互いに異なる物体画像Oが合成されてもよいし、互いに同じ物体画像Oが合成されてもよい。
また、合成部44は、1枚のカメラ画像C1に複数の物体画像Oを合成する場合、物体画像Oどうしが互いに重ならない位置を、それぞれの物体画像Oを合成する位置に決定してもよい。
また、合成部44は、例えば、ラベル画像S1のラベル領域L1及びラベル領域L2のそれぞれに物体画像Oを合成する。具体的には、合成部44は、例えば、ラベル画像S1のラベル領域L1及びL2のそれぞれに、物体画像Oに対応するラベル値を当該物体画像Oの大きさの領域に合成する。合成部44は、物体画像Oを合成したカメラ画像C1上の位置(画素位置)と、物体画像Oを示すラベル値を合成したラベル画像S1上の位置(画素位置)とが等しくなるように、物体画像Oをラベル画像S1上の位置に合成する。これにより、例えば、駐車スペースP1を示すラベル値の領域(例えば、ラベル領域L1)のうち、物体画像Oが合成された領域が物体画像Oを示すラベル値に更新される。
このように、合成部44は、カメラ画像C1の特定の領域(本実施の形態では、駐車スペースP1)に物体画像Oを合成し、かつ、ラベル画像S1の特定の領域(本実施の形態では、ラベル領域L1)に物体画像Oに対応するラベル値を合成する。これは、カメラ画像C1、及び、ラベル画像S1に物体画像Oを合成することの一例である。
次に、画像合成部40は、合成部44により物体画像Oが合成された合成カメラ画像C2及び合成ラベル画像S2を保存する(S45)。具体的には、画像合成部40は、合成カメラ画像C2及び合成ラベル画像S2を第2記憶部50に記憶する。ラベルの組み合わせのそれぞれにおいて、物体画像Oの合成処理が行われることで、図3Aに示す複数の合成カメラ画像、及び、図3Bに示す複数の合成ラベル画像が生成される。
上記のように、画像生成装置1は、ラベル画像S1に基づいて物体画像Oを合成する位置を決定するので、物体が宙に浮いた画像が生成されるなどの現実で起こり得ないような画像が生成されることを抑制することができる。言い換えると、画像生成装置1は、現実で起こり得る適切な学習データ、つまり質のよい学習データを生成することができる。このような学習データを用いて学習された学習モデルは、学習モデルの汎化性能の向上につながり、物体検知の精度向上が期待できる。
また、上記のように、画像生成装置1は、既存の学習データに基づいて、増加された学習データを自動で生成する。画像生成装置1は、ラベル画像S1のラベル値に基づいて、物体画像Oを合成するカメラ画像C1及びラベル画像S1上の位置を自動で決定することができるので、手作業で位置を決定する場合に比べて、学習データの生成にかかるコストを削減することができる。
特にSemantic Segmentation向けの学習データは、手作業で画素ごとにラベル付けを行う場合が多く、学習データの生成にかかるコストが膨大である。画像生成装置1は、ラベル画像S1を用いることで、Semantic Segmentation向けの学習データを自動で生成することができるので、Semantic Segmentation向けの学習データの生成にかかるコストを大幅に削減することができる。
また、画像生成装置1は、上記の方法で学習データを生成することで、特定の設備、特定のシーン(例えば、駐車場のシーン)など、一般的ではなく予め大量のデータの確保が困難なケースでも、合成により大量に学習データを生成することができる。
(実施の形態2)
以下、本実施の形態に係る画像生成装置ついて、図8〜図10を参照しながら説明する。
[2−1.画像生成装置の構成]
まずは、本実施の形態に係る画像生成装置の構成について、図8〜図9Bを参照しながら説明する。図8は、本実施の形態に係る画像生成装置1aの機能構成を示すブロック図である。なお、以降において、実施の形態1に係る画像生成装置1と同一又は類似の構成については、実施の形態1に係る画像生成装置1と同一の符号を付し、説明を省略する。
図8に示すように、本実施の形態に係る画像生成装置1aは、画像合成部40に替えて画像合成部40aを備える点において、実施の形態1に係る画像生成装置1と相違する。以下では、画像生成装置1との相違点を中心に説明する。
画像合成部40aは、実施の形態1に係る画像合成部40に加えて、ラベル更新部45を有する。
ラベル更新部45は、合成ラベル画像S2において、物体画像Oが合成された対象ラベルの領域のラベル値を更新する。ラベル更新部45は、物体画像Oが合成された対象ラベルの領域の全てを、当該物体画像Oを示すラベル値に更新する。例えば、ラベル更新部45は、合成部44により駐車スペースP1を示すラベル領域L1に物体画像Oが合成された場合、当該ラベル領域L1の全域、つまり、物体画像Oが合成されていないラベル領域L1(例えば、図3Bに示すラベル領域L1b及びL2b)を、物体画像Oを示すラベル値に更新する。
画像合成部40aは、ラベル更新部45により対象ラベルの領域の全域のラベル値が更新された合成ラベル画像を第2記憶部50に記憶する。また、画像合成部40aは、合成ラベル画像を外部の装置に出力してもよい。
ここで、第2記憶部50に記憶される学習データについて図9A及び図9Bを参照しながら説明する。図9Aは、本実施の形態に係る第2記憶部50に記憶される合成カメラ画像C2の一例を示す図である。図9Bは、本実施の形態に係る第2記憶部50に記憶される合成ラベル画像S3の一例を示す図である。なお、図9Aに示す合成カメラ画像C2は、実施の形態1の合成カメラ画像C2と同じ画像であり、説明を省略する。
図9Bに示すように、第2記憶部50は、合成ラベル画像S3を含む複数の合成ラベル画像を記憶する。合成ラベル画像S3は、ラベル画像S1のラベル領域L1及びL2のそれぞれの領域の全域が物体画像Oを示すラベル値に更新された画像である。合成ラベル画像S3は、学習モデルの学習時には正解データとして使用される画像である。
ラベル領域L11は、カメラ画像C1における駐車スペースP1に対応する領域であり、物体画像Oを示すラベル値が与えられた領域である。合成ラベル画像S3におけるラベル領域L11の位置と、カメラ画像C1における駐車スペースP1の位置とは、同じ位置である。
ラベル領域L12は、カメラ画像C1における駐車スペースP2に対応する領域であり、物体画像Oを示すラベル値が与えられた領域である。合成ラベル画像S3におけるラベル領域L12の位置と、カメラ画像C1における駐車スペースP2の位置とは、同じ位置である。
なお、ラベル領域L11とラベル領域L12とは、例えば、同じラベル値であってもよい。当該ラベル値は、駐車不可を示すラベル値であってもよい。
[2−2.画像生成装置の動作]
続いて、本実施の形態に係る画像生成装置1aの動作について、図10を参照しながら説明する。図10は、本実施の形態に係る物体画像Oの合成処理の動作を示すフローチャートである。図10は、図4に示すステップS40の他の一例を示す。なお、図10に示すフローチャートは、図5に示すフローチャートにさらにステップS146及びS147を含む。
図10に示すように、ラベル更新部45は、ラベル画像S1の対象ラベルの領域の全域のラベル値を更新するか否かを判定する。ラベル更新部45は、例えば、物体画像Oが合成されたラベル画像S1の対象ラベルにおける物体画像Oの領域(例えば、図3Bに示すラベル領域L1a及びL2aの領域であり、物体領域とも記載する)の面積と、当該対象ラベルにおける残りの領域(例えば、図3Bに示すラベル領域L1b及びL2bの領域であり、残存領域とも記載する)の面積とに基づいて、当該対象ラベルの領域の全域のラベル値を更新するか否かを判定する。ラベル更新部45は、例えば、残存領域と物体領域との面積の差分が任意の閾値パラメータ(閾値)より小さいか否かにより、上記の判定を行ってもよい(S146)。なお、物体画像Oが合成されたラベル画像S1とは、ラベル画像S1に物体画像Oに対応するラベル値が付与された画像である。なお、閾値は、予め設定されており、例えば、正の値であるが、これに限定されない。閾値は、例えば、第2記憶部50に記憶されている。
ラベル更新部45は、残存領域と物体領域との面積の差分が閾値より小さい場合(S146でYes)、物体画像Oが合成された対象ラベルのラベル値を更新する(S147)。ラベル更新部45は、例えば、ステップS44で物体画像Oが合成されたラベル領域L1及びL2の領域のラベル値を更新する。ラベル値が更新された合成ラベル画像S3(図9B参照)は、ステップS45で第2記憶部50に記憶される。
また、ラベル更新部45は、残存領域と物体領域との面積の差分が閾値以上である場合(S146でNo)、例えば、ステップS44で物体画像Oが合成されたラベル画像S1を第2記憶部50に記憶する。つまり、ステップS44で物体画像Oが合成された合成ラベル画像S2(図3B参照)は、ステップS45で第2記憶部50に記憶される。
上記のように、画像生成装置1aは、合成部44が生成した合成ラベル画像S2の対象ラベルのラベル値を更新するラベル更新部45を備える。物体画像Oが合成された対象ラベルの領域は、物体画像Oの合成により属性が変化する。そのため、ラベル更新部45は、対象ラベルの領域のラベル値を更新する。
なお、ラベル更新部45は、対象ラベルの領域に複数の残存領域が存在する場合、例えば、複数の残存領域のうち最も面積が広い残存領域の面積と、物体領域の面積との差分に基づいて、ステップS146の判定を行ってもよい。これにより、最も面積が広い残存領域にさらに物体を配置することが不可能である場合に、当該残存領域を含む対象ラベルの領域の全域のラベル値を更新することができる。なお、ラベル更新部45は、対象ラベルの領域に複数の残存領域が存在する場合、例えば、複数の残存領域それぞれの面積を合計した合計面積と、物体領域の面積との差分に基づいて、ステップS146の判定を行ってもよい。
なお、上記では、ラベル更新部45は、残存領域と物体領域との面積の差分に基づいて、対象ラベルの領域の全域のラベル値を更新するか否かを判定する例について説明したが、判定方法はこれに限定されない。ラベル更新部45は、例えば、物体画像Oに対応するラベル値が所定のラベル値である場合、ステップS146でYesと判定してもよいし、物体画像Oの物体領域の大きさが所定の大きさ以上である場合、ステップS146でYesと判定してもよい。また、ラベル更新部45は、残存領域と物体領域との面積の大小関係に基づいて、対象ラベルの領域の全域のラベル値を更新するか否かを判定してもよい。この場合、ラベル更新部45は、例えば、残存領域が物体領域より大きい場合、ステップS146でYesと判定してもよい。また、ラベル更新部45は、ステップS146の判定を行わなくてもよい。
(その他の実施の形態)
以上、一つまたは複数の態様に係る学習データ生成方法等について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示に含まれてもよい。
例えば、上記実施の形態等では、学習データ生成方法が駐車スペースにおける車の駐車の有無を検知可能とするための学習データの生成に用いられる例について説明したが、学習データ生成方法が生成する学習データは、これに限定されない。例えば、所定の空間(例えば、部屋)などにおいて、人がいる領域、及び、人がいない領域を検知可能とするための学習データの生成に用いられてもよいし、その他のいかなる学習データの生成に用いられてもよい。
また、上記実施の形態等では、アノテーション付き画像は、ラベル画像である例について説明したが、これに限定されない。アノテーション付き画像は、例えば、カメラ画像における所定の物体の位置を示す枠(例えば、矩形枠)の座標、又は、当該枠が重畳されたカメラ画像などであってもよい。枠の座標は、アノテーション情報の一例である。
また、上記実施の形態等における第1記憶部及び第2記憶部は、1つの記憶装置により実現されてもよいし、別々の記憶装置により実現されてもよい。
また、上記実施の形態等では、組合せ計算部は、ラベル画像におけるラベルの組み合わせの全てを算出する例について説明したが、これに限定されない。組合せ計算部は、例えば、予め設定された数のラベルの組合せを算出してもよい。
また、位置計算部による中心座標の計算、及び、向き計算部による向きの計算は、上記実施の形態に記載した計算方法以外の公知のいかなる計算方法により行われてもよい。
また、上記実施の形態等では、画像生成装置は、1つの装置により実現される例について説明したが、複数の装置により実現されてもよい。画像生成装置が複数の装置によって実現される場合、当該位置推定装置が有する各構成要素は、複数の装置にどのように振り分けられてもよい。
また、上記実施の形態等における画像生成装置が備える各構成要素の少なくとも1つは、サーバ装置により実現されてもよい。例えば、取得部、ラベル決定部、画像合成部などの処理部の少なくとも1つは、サーバ装置により実現されてもよい。また、画像生成装置がサーバ装置を含む複数の装置で実現される場合、当該画像生成装置が備える装置間の通信方法は、特に限定されず、無線通信であってもよいし、有線通信であってもよい。また、装置間では、無線通信および有線通信が組み合わされてもよい。
また、上記実施の形態等における第1記憶部及び第2記憶部の少なくとも1つは、画像生成装置の外部の装置(例えば、サーバ装置)が備えるデータベースであってもよい。画像生成装置は、既存の学習データを通信により取得し、かつ、増加した学習データを通信により出力してもよい。
また、上記実施の形態等で生成された学習データ(増加された学習データ)は、学習済みモデルの再学習に用いられてもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が他のステップと同時(並列)に実行されてもよいし、上記ステップの一部は実行されなくてもよい。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
また、上記実施の形態における画像生成装置が備える構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。
システムLSIは、複数の処理部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
また、本開示の一態様は、図4、図5及び図10などに示す学習モデル生成方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。例えば、プログラムは、コンピュータに実行させるためのプログラムであってもよい。また、本開示の一態様は、そのようなプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。例えば、そのようなプログラムを記録媒体に記録して頒布又は流通させてもよい。例えば、頒布されたプログラムを、他のプロセッサを有する装置にインストールして、そのプログラムをそのプロセッサに実行させることで、その装置に、上記各処理を行わせることが可能となる。
本開示は、学習モデルの機械学習に用いられる学習データを生成する画像生成装置に有用である。
1、1a 画像生成装置
10 取得部
20 第1記憶部
30 ラベル決定部
31 ラベル計数部
32 組合せ計算部
40、40a 画像合成部
41 位置計算部
42 向き計算部
43 拡縮率計算部
44 合成部
45 ラベル更新部
50 第2記憶部
C1 カメラ画像
C2 合成カメラ画像
L1、L1a、L1b、L2、L2a、L2b、L3、L4 ラベル領域
O 物体画像
P1、P2、P3 駐車スペース
R 走行スペース
S1 ラベル画像
S2、S3 合成ラベル画像

Claims (9)

  1. カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得し、
    前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定し、
    前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する
    学習データ生成方法。
  2. さらに、前記アノテーション付き画像に基づいて、前記特定の領域の中心座標を算出し、
    前記物体画像は、前記カメラ画像及び前記アノテーション付き画像における前記中心座標と重なる位置に合成される
    請求項1に記載の学習データ生成方法。
  3. さらに、前記アノテーション付き画像に基づいて、前記特定の領域の向きを算出し、
    前記物体画像は、前記特定の領域の前記向きに応じた向きに合成される
    請求項1又は2に記載の学習データ生成方法。
  4. さらに、前記アノテーション付き画像に基づいて、前記特定の領域の大きさを取得し、
    前記物体画像は、前記特定の領域の前記大きさ以下の大きさとなるように大きさが拡大又は縮小され合成される
    請求項1〜3のいずれか1項に記載の学習データ生成方法。
  5. 前記アノテーション付き画像に基づいて、前記物体に対応する前記特定の領域の数を算出し、
    1以上の前記特定の領域に前記物体画像を合成する組み合わせを算出し、
    前記組み合わせのそれぞれにおいて、前記物体画像を合成する
    請求項1〜4のいずれか1項に記載の学習データ生成方法。
  6. さらに、前記物体画像が合成された前記アノテーション付き画像の前記特定の領域の前記アノテーション情報を、前記物体画像に基づいて更新する
    請求項1〜5のいずれか1項に記載の学習データ生成方法。
  7. 前記アノテーション付き画像は、前記カメラ画像に対して画像セグメンテーションが行われたラベル画像であり、
    前記ラベル画像における前記特定の領域に前記物体画像を合成する
    請求項1〜6のいずれか1項に記載の学習データ生成方法。
  8. カメラ画像、当該カメラ画像にアノテーション情報が付与されたアノテーション付き画像、及び、学習モデルの検知対象である物体を示す物体画像を取得部と、
    前記アノテーション付き画像に基づいて、前記物体に対応する特定の領域を特定するラベル決定部と、
    前記カメラ画像及び前記アノテーション付き画像における前記特定の領域に前記物体画像を合成する画像合成部とを備える
    学習データ生成システム。
  9. 請求項1〜7のいずれか1項に記載の学習データ生成方法をコンピュータに実行させるためのプログラム。
JP2020056123A 2020-03-26 2020-03-26 学習データ生成方法、学習データ生成装置、及び、プログラム Active JP7145440B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020056123A JP7145440B2 (ja) 2020-03-26 2020-03-26 学習データ生成方法、学習データ生成装置、及び、プログラム
DE112021000027.6T DE112021000027T5 (de) 2020-03-26 2021-01-14 Trainingsdatenerzeugungsverfahren, Trainingsdatenerzeugungsvorrichtung und Programm
PCT/JP2021/000980 WO2021192515A1 (ja) 2020-03-26 2021-01-14 学習データ生成方法、学習データ生成装置、及び、プログラム
US17/512,012 US20220051055A1 (en) 2020-03-26 2021-10-27 Training data generation method and training data generation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020056123A JP7145440B2 (ja) 2020-03-26 2020-03-26 学習データ生成方法、学習データ生成装置、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2021157404A true JP2021157404A (ja) 2021-10-07
JP7145440B2 JP7145440B2 (ja) 2022-10-03

Family

ID=77891289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020056123A Active JP7145440B2 (ja) 2020-03-26 2020-03-26 学習データ生成方法、学習データ生成装置、及び、プログラム

Country Status (4)

Country Link
US (1) US20220051055A1 (ja)
JP (1) JP7145440B2 (ja)
DE (1) DE112021000027T5 (ja)
WO (1) WO2021192515A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6800453B1 (ja) * 2020-05-07 2020-12-16 株式会社 情報システムエンジニアリング 情報処理装置及び情報処理方法
US11954932B2 (en) * 2020-10-16 2024-04-09 Bluebeam, Inc. Systems and methods for automatic detection of features on a sheet

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019212106A (ja) * 2018-06-06 2019-12-12 日本電信電話株式会社 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0984396A3 (en) * 1998-09-03 2003-08-20 Canon Kabushiki Kaisha Optimising image compositing
JP4973756B2 (ja) * 2010-03-30 2012-07-11 カシオ計算機株式会社 画像処理装置およびプログラム
JP5565041B2 (ja) * 2010-03-30 2014-08-06 ソニー株式会社 画像処理装置および方法、並びにプログラム
US10445772B1 (en) * 2011-09-09 2019-10-15 Google Llc Label placement based on objects in photographic images
JP6663285B2 (ja) 2015-08-28 2020-03-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像生成方法及び画像生成システム
JP6573226B2 (ja) 2017-12-15 2019-09-11 オムロン株式会社 データ生成装置、データ生成方法及びデータ生成プログラム
US10936905B2 (en) * 2018-07-06 2021-03-02 Tata Consultancy Services Limited Method and system for automatic object annotation using deep network
KR102641424B1 (ko) * 2019-08-09 2024-02-28 삼성전자주식회사 컴퓨팅 장치 및 그 동작 방법
JP6998360B2 (ja) * 2019-12-13 2022-01-18 本田技研工業株式会社 車両用表示装置及び駐車支援システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019212106A (ja) * 2018-06-06 2019-12-12 日本電信電話株式会社 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム

Also Published As

Publication number Publication date
JP7145440B2 (ja) 2022-10-03
DE112021000027T5 (de) 2022-01-13
WO2021192515A1 (ja) 2021-09-30
US20220051055A1 (en) 2022-02-17

Similar Documents

Publication Publication Date Title
US8031210B2 (en) Method and apparatus for creating a composite image
WO2021192515A1 (ja) 学習データ生成方法、学習データ生成装置、及び、プログラム
CN112651881B (zh) 图像合成方法、装置、设备、存储介质以及程序产品
CN111583381B (zh) 游戏资源图的渲染方法、装置及电子设备
JP6768123B2 (ja) 拡張現実方法及び装置
CN110428504B (zh) 文本图像合成方法、装置、计算机设备和存储介质
CN109934873B (zh) 标注图像获取方法、装置及设备
JP2005339127A (ja) 画像情報表示装置及び画像情報表示方法
CN111383311B (zh) 法线贴图生成方法、装置、设备及存储介质
JP3988879B2 (ja) 立体画像生成方法及び立体画像生成装置、ならびに立体画像生成プログラム及び記録媒体
JP2010205095A (ja) 3次元物体認識装置、並びに3次元物体認識プログラム及びこれが記録されたコンピュータ読み取り可能な記録媒体
JP2010108205A (ja) 超解像画像作成方法
JPH11250273A (ja) 画像合成装置
JP5703898B2 (ja) 帳票管理システム、帳票画像管理方法、及びプログラム
CN111429549B (zh) 路线图像的生成方法、装置及存储介质
CN115544622A (zh) 城乡参与式三维规划设计平台、方法、设备及存储介质
CN111369676B (zh) 地图图像处理方法、装置和车载设备
JP2005165283A (ja) 地図表示装置
CN112561889A (zh) 目标物检测方法、装置、电子设备及存储介质
JP5757463B2 (ja) 2次元カラーグラデーション表示装置
JP2010039968A (ja) オブジェクト検出装置及び検出方法
CN114066715A (zh) 图像风格迁移方法、装置、电子设备以及存储介质
JP2001289663A (ja) 経路案内情報提供装置及び経路案内情報提供方法
CN115100081B (zh) Lcd显示屏灰阶图像增强方法、装置、设备及存储介质
JP6810098B2 (ja) 統計データ処理装置、統計データ処理方法及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220907

R151 Written notification of patent or utility model registration

Ref document number: 7145440

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

SZ03 Written request for cancellation of trust registration

Free format text: JAPANESE INTERMEDIATE CODE: R313Z03