JP7833348B2

JP7833348B2 - 生成装置、生成方法及び生成プログラム

Info

Publication number: JP7833348B2
Application number: JP2022085562A
Authority: JP
Inventors: 裕人市川; 良介丹野; 健一郎島田; 知範泉谷
Original assignee: NTT Docomo Business Inc; NTT Communications Corp
Current assignee: NTT Docomo Business Inc
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2026-03-19
Anticipated expiration: 2042-05-25
Also published as: JP2023173367A

Description

本発明は、生成装置、生成方法及び生成プログラムに関する。

機械学習を用いた最も基本的な画像処理タスクの一つとして、画像・動画内の特定の物体のクラスと位置と検出する物体検出モデルがある。

物体検出モデルの検出精度を上げるには、学習データとして、多くの教師データを、物体検出モデルに与えることが一般的である。しかしながら、教師データは、手作業で生成することが多く、大量の教師ありデータを一度に用意することは容易ではない。

特に、物体検出に必要なクラスラベルやBounding Boxを設定するラベリングコストは、極めて大きい。さらに、正解ラベルの付け方も、ラベリングする個人によって揺らぎがあり、時にはドメイン知識を要求することがある。このため、大量の正解ラベルを付与した教師データを一度に作成することは極めて困難である。

どこで、これらの問題を解決するため、データ拡張が提案されている。データ拡張とは、既存のデータセットに類似した画像を水増しし、物体検出モデルの学習データに加えることで、モデルの汎化性能を上げる手法である。

データ拡張は、物体検出モデルのアーキテクチャを変えずに、少数の教師データを基に、学習に十分な量の教師データを生成することができる。このようなデータ拡張として、ルールベースのシンプルなものから、ニューラルネットワークを用いた複雑な手法まで様々な手法が提案されている。

Relja Arandjelovic and Andrew Zisserman, "Object Discovery with a Copy-Pasting GAN", CoRR, Vol.abs/1905.11369, (2019) Terrance DeVries1 and Graham W. Taylor, "Improved Regularization of Convolutional Neural Networks with Cutout", (2017)，［online］，［令和４年５月１８日検索］，インターネット＜ＵＲＬ：https://arxiv.org/pdf/1708.04552.pdf＞ Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and, Yoshua Bengio, "Generative Adversarial Networks", (2014) ，［online］，［令和４年５月１８日検索］，インターネット＜ＵＲＬ：https://arxiv.org/pdf/1406.2661.pdf＞ Sungeun Hong, Sungil Kang, and Donghyeon Cho, "Patch-Level Augmentation for Object Detection in Aerial Images", in 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), pp. 127－134 (2019). G. Jocher, A. Stoken, J. Borovec, et al.: "ultralytics/yolov5: v3.1 - Bug Fixes and Performance Improvements", (2020) Patrick Perez, Michel Gangnet, and Andrew Blake, "Poisson Image Editing", ACM Trans. Graph., Vol. 22, No. 3, p.313－318 (2003) Othman Sbai, Camille Couprie, and Mathieu Aubry. "Surprising Image Compositions", in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, pp. 3926－3930 (2021) Yukun Su, Ruizhou Sun, Guosheng Lin, and Qingyao Wu, "Context Decoupling Augmentation for Weakly Supervised Semantic Segmentation", (2021) Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo, "CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features", (2019)，［online］，［令和４年５月１８日検索］，インターネット＜ＵＲＬ：https:// https://openaccess.thecvf.com/content_ICCV_2019/papers/Yun_CutMix_Regularization_Strategy_to_Train_Strong_Classifiers_With_Localizable_Features_ICCV_2019_paper.pdf＞ Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, and David Lopez-Paz, "mixup: BEYOND EMPIRICAL RISK MINIMIZATION", CoRR, Vol. abs/1710.09412, (2017)

従来、ラベリングしたBounding Boxを切り出して背景画像に貼り付けるデータ拡張手法がある。しかしながら、この手法では、貼り付け元の画像の背景と貼り付け先の画像の背景との違いによる不自然さがあり、物体検出モデルの精度を十分に高めることができない場合があった。

本発明は、上記に鑑みてなされたものであって、物体検出モデルの学習データとして、少数のラベリング済みデータから適切な教師データを生成することで、物体検出モデルの精度向上を図ることができる生成装置、生成方法及び生成プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る生成装置は、画像に含まれるオブジェクトのクラスを示すラベルと前記オブジェクトの位置情報とが付与された第１の画像を取得する取得部と、教師なし学習によって学習が実行されたマスク生成モデルを用いて、前記第１の画像からオブジェクトを切り出すマスクを生成するマスク生成部と、前記マスクを基に、前記第１の画像から前記オブジェクトが写る領域をオブジェクト画像として抽出し、抽出した前記オブジェクト画像に前記オブジェクトのラベルを付与して出力する抽出部と、貼り付け先である第２の画像に、前記オブジェクト画像を、ランダムに貼り付ける貼り付け部と、前記第２の画像の背景と、前記オブジェクト画像との境界部分を滑らかに変換した第３の画像を生成する変換部と、を有することを特徴とする。

本発明によれば、物体検出モデルの学習データとして、少数のラベリング済みデータから適切な教師データを生成することで、物体検出モデルの精度向上を図ることができる。

図１は、実施の形態１における処理システムの構成の一例を模式的に示す図である。図２は、図１に示す生成装置の構成の一例を模式的に示す図である。図３は、図２に示す生成装置における処理の概要を説明する図である。図４は、図２に示す生成装置における処理の概要を説明する図である。図５－１は、図２に示す生成装置における処理の概要を説明する図である。図５－２は、図２に示す生成装置における処理の概要を説明する図である。図６は、実施の形態１に係る生成処理の処理手順を示すフローチャートである。図７は、従来技術を説明する図である。図８は、実施の形態１における物体検出を説明する図である。図９は、実施の形態２に係る生成装置の構成の一例を模式的に示す図である。図１０は、図９に示す生成装置の処理を説明する図である。図１１は、実施の形態２に係る生成処理の処理手順を示すフローチャートである。図１２は、実施の形態２の処理を説明するための図である。図１３は、プログラムを実行するコンピュータを示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態１］
図１は、実施の形態１における処理システムの構成の一例を模式的に示す図である。実施の形態１における処理システムは、学習装置２０と物体検出装置３０とを有する。

学習装置２０は、画像・動画内の特定の物体の位置情報とラベルとを検出する物体検出モデルの学習を実行する。物体検出装置３０は、学習装置２０によって学習された物体検出モデルを用いて、テストデータである画像または動画に写る物体のラベルと位置情報とを検出する。

実施の形態１における処理システムは、学習装置２０の前段に生成装置１０を有する。

生成装置１０は、教師データ（第１の画像）を水増しした水増しデータ（第３の画像）を、物体検出モデルの学習データとして学習装置２０に出力する。教師データは、物体検出モデルの学習用の画像データである。教師データの各画像データには、画像に含まれるオブジェクトのクラスを示すラベルとオブジェクトの位置情報とが付与されている。

［生成装置］
次に、図１に示す生成装置１０について説明する。図２は、図１に示す生成装置１０の構成の一例を模式的に示す図である。

生成装置１０は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、生成装置１０は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。

図２に示すように、生成装置１０は、取得部１１、マスク生成部１２、オブジェクト抽出部１３（抽出部）、生成部１４及び出力部１５を有する。

取得部１１は、教師データの入力を受け付けることで、教師データを取得する。

マスク生成部１２は、教師なし学習によって学習が実行されたマスク生成モデルを用いて、教師データからマスクを生成する。マスクは、教師データの領域のうちオブジェクト以外の領域をマスクすることで、教師データからオブジェクトを切り出す。マスク生成モデルは、ＧＡＮ（Generative Adversarial Network）等のＤＮＮ（Deep Neural Network）アーキテクチャや、ＣＰ－ＧＡＮ（Context Pyramid Generative Adversarial Network）などの教師なしセグメンテーションマスク生成モデルを採用することができる。

オブジェクト抽出部１３は、マスク生成部１２によって生成されたマスクを基に、教師データからオブジェクトが写る領域をオブジェクト画像として抽出する。オブジェクト抽出部１３は、抽出したオブジェクト画像にオブジェクトのラベルを付与して出力する。

生成部１４は、水増しデータを生成する。生成部１４は、貼り付け部１４２及び円滑化処理部１４３（変換部）を有する。

貼り付け部１４２は、貼り付け先画像（第２の画像）を取得し、この貼り付け先画像に、オブジェクト抽出部１３によって抽出されたオブジェクト画像を、ランダムに貼り付ける。

この際、貼り付け部１４２は、教師データに対するオブジェクト画像のラベル、数及びサイズに関する統計情報を基に、貼り付け先画像に貼り付けるオブジェクト画像のラベル（第１のラベル）、数（第１の数）、及びサイズ（第１のサイズ）を設定する。貼り付け部１４２は、設定したラベルが付与されたオブジェクト画像を、設定した数及び設定したサイズで貼り付け先画像に貼り付ける。

円滑化処理部１４３は、貼り付け先画像の背景と、この貼り付け先画像に貼り付けるオブジェクト画像との境界部分を滑らかに変換した画像を、水増しデータ（第３の画像）として生成する。

例えば、撮像時間が異なる場合（例えば、夜と昼との場合）や光源の当たり方が異なる場合に、貼り付け先画像の背景と、オブジェクト画像との境界部分とに不自然さが生じる。円滑化処理部１４３は、貼り付け先画像とオブジェクト画像とのコントラストや、画像全体の輝度を調整することによって、貼り付け先画像の背景と、オブジェクト画像との境界部分とが滑らかに見えるようにする。

円滑化処理部１４３は、Blur（例えば、Gaussian Blur（参考文献１，２））、Poisson Blending（非特許文献６）を採用して、貼り付け先画像の背景と貼り付けるオブジェクト画像の境界部分を滑らかにして自然な画像に変換する。
参考文献１：Blurred Borders in CSS, ［online］，［令和４年５月２４日検索］，インターネット＜ＵＲＬ：URL：https://css-tricks.com/blurred-borders-in-css/＞
参考文献２：Gaussian Blur, ［online］，［令和４年５月２４日検索］，インターネット＜ＵＲＬ：https://www.sciencedirect.com/topics/engineering/gaussian-blur＞

出力部１５は、水増しデータを、画像内の特定の物体の位置情報とラベルとを検出する物体検出モデルの学習用データとして、学習装置２０に出力する。

生成装置１０が生成した水増しデータでは、貼り付け先画像に貼り付けるオブジェクト画像との境界部分が、滑らかに変換されている。したがって、水増しデータには、貼り付け元の画像の背景と貼り付け先の画像の背景との境界部分に不自然さがない。このため、学習装置２０は、この水増しデータを学習データとして物体検出モデルに学習させることで、物体検出モデルの精度向上を図ることができる。

［生成装置の処理の概要］
次に、図３、図４、図５－１及び図５－２を参照して、生成装置１０の処理について説明する。図３、図４、図５－１及び図５－２は、図２に示す生成装置１０における処理の概要を説明する図である。

生成装置１０では、取得部１１が、貼り付け対象となるオブジェクトが写る教師データを取得する。教師データは、例えば、犬が写る画像であり、ラベル「犬」と犬の位置情報とが付与されている。生成装置１０では、教師データから、ラベリングしたBounding Box Ｇｓを切り出す（図３の（１））。

マスク生成部１２は、教師なしセグメンテーションマスク生成モデルを用いて、Bounding Box Ｇｓのうち、オブジェクト以外の領域をマスクできるマスクＭｓを生成する（図３の（２））。

続いて、オブジェクト抽出部１３は、マスクＭｓを用いて、教師データから切り出したBounding Box Ｇｓのうち、オブジェクト（物体）のみが写る領域をオブジェクト画像Ｇａとして抽出する（図３の（３））。オブジェクト抽出部１３は、例えば、犬、猫または鳥が写るBounding Box Ｇｓの背景を排し、犬、猫、鳥等のオブジェクトが写る領域のみをオブジェクト画像Ｇａとして抽出する。そして、オブジェクト抽出部１３は、各オブジェクト画像に、オブジェクトのラベルを付与する。

貼り付け部１４２は、オブジェクト画像Ｇａの貼り付け先の画像である貼り付け先画像Ｇ１を取得する（図３の（４））。例えば、貼り付け先画像Ｇ１は、平原と空とが写る画像である。

貼り付け部１４２は、貼り付け先画像Ｇ１に、オブジェクト画像Ｇａをランダムに貼り付ける（図３の（５））。例えば、貼り付け部１４２は、貼り付け先画像Ｇ１に、犬、猫、鳥のオブジェクト画像Ｇａを、ランダムに貼り付ける。

そして、円滑化処理部１４３は、貼り付け先画像Ｇ１の背景と、この貼り付け先画像Ｇ１に貼り付ける各オブジェクト画像Ｇａとの境界部分を滑らかに変換して、自然な画像に変換する境界円滑化を行う（図３の（６））。

生成部１４は、貼り付け先画像Ｇ１の背景と各オブジェクト画像Ｇａとの境界部分が円滑された合成画像Ｇ２を複数生成する（図３の（７））。出力部１５は、生成された複数の合成画像Ｇ２を水増しデータとして、学習装置２０に出力する。

ここで、図４に示すように、貼り付け部１４２は、貼り付け先画像Ｇ１に貼り付けるオブジェクト画像Ｇａのサイズ、数、ラベル等を、教師データＧｔの統計情報を基に決定する。

貼り付け部１４２は、教師データＧｔから、この教師データＧｔに含まれるオブジェクト画像のラベル、各ラベルの数、及び、オブジェクトのサイズに関する統計情報を抽出する（図４の（１））。例えば、貼り付け部１４２は、統計情報として、犬、猫、鳥の各ラベルに該当するオブジェクトの数、各オブジェクトのサイズ（図４では、犬のサイズの統計情報を示す。）を抽出する。

そして、貼り付け部１４２は、この統計情報から、確率分布の種類と、ハイパラメータを決定する（図４の（２），（３））。例えば、確率分布として、正規分布、対数正規分布、ポアソン分布、ＧＭＭ（Gaussian Mixture Model）、カーネル密度関数等を採用する。

そして、貼り付け部１４２は、設定した確率分布から、貼り付け対象のオブジェクト画像Ｇａの、ラベル、数、サイズを設定する。そして、貼り付け部１４２は、設定したラベルのオブジェクト画像Ｇａを、設定した数、設定したサイズで、貼り付け先画像Ｇ１に貼り付けて（図４の（４））、合成画像Ｇ２を生成する（図４の（５））。

ラベルが犬であるオブジェクト画像について、教師データＧｔと同じ傾向の水増しデータを生成したい場合について説明する。この場合、貼り付け部１４２は、ハイパラメータを調整して、教師データＧｔの犬のオブジェクト画像のサイズ及び数の分布（図５－１）と、同様の確率分布を作成する。貼り付け部１４２は、生成した確率分布にしたがって、貼り付け対象となる、犬のオブジェクト画像の数及びサイズを設定する。

このように、生成装置１０は、教師データＧｔの統計情報にしたがって、貼り付け先画像Ｇ１にオブジェクト画像Ｇａを貼り付けた複数の合成画像を生成する。このため、生成装置１０は、少数のラベリング済みの教師データＧｔから、適切なオブジェクト画像が適切な数及びサイズで配置された水増しデータを生成することができる。物体検出モデルは、教師データＧｔの統計情報にしたがった適切な水増しデータを多数学習することができるため、物体検出モデルの精度向上も期待できる。

また、生成装置１０は、教師データＧｔの入力を受け付けた後、自動的に水増しデータを生成する。このため、生成装置１０によれば、高精度な教師データを、作業者によるラベリング等の煩雑な処理を行うことなく、簡易に取得することができる。

また、ラベルが犬であるオブジェクト画像について、意図的にサイズの大きいオブジェクトを貼り付けた水増しデータを生成したい場合について説明する。この場合、貼り付け部１４２は、確率分布に対する分散パラメータを大きくし、図５－２に示す確率分布のように、分布の裾を広くする。貼り付け部１４２は、生成した図５－２に示す確率分布にしたがって、貼り付け対象となる、犬のオブジェクト画像の数及びサイズを設定する。

言い換えると、貼り付け部１４２は、統計情報から外れたラベル（第２のラベル）、数（第２の数）、及び、サイズ（第２のサイズ）を設定し、このラベルのオブジェクト画像を、統計情報から外れたサイズ及び数で貼り付け先画像Ｇ１に貼り付ける。なお、統計情報からの外れ度合いは、予め、設定されており、適宜更新される。

このように、貼り付け部１４２は、統計情報から外れた外れ値に対応する、ラベル、数、大きさで、オブジェクト画像を貼り付け先画像Ｇ１に貼り付けてもよい。このように作成された水増しデータを学習することによって、物体検出モデルは、統計情報から外れたサイズ等で写る物体についても学習することができるため、物体検出モデルの精度向上が期待できる。

［生成処理の処理手順］
次に、生成装置１０が実行する生成処理の処理手順について説明する。図６は、実施の形態１に係る生成処理の処理手順を示すフローチャートである。

図６に示すように、生成装置１０では、取得部１１が、教師データを取得すると（ステップＳ１）、マスク生成部１２は、教師なし学習によって学習が実行されたマスク生成モデルを用いて、教師データからマスクを生成する（ステップＳ２）。

オブジェクト抽出部１３は、マスク生成部１２によって生成されたマスクを基に、教師データからオブジェクトが写る領域をオブジェクト画像として抽出する（ステップＳ３）。

貼り付け部１４２は、貼り付け先画像を取得し、この貼り付け先画像に、オブジェクト抽出部１３によって抽出されたオブジェクト画像をランダムに貼り付ける（ステップＳ４）。

円滑化処理部１４３は、貼り付け先画像の背景と、この貼り付け先画像に貼り付けるオブジェクト画像との境界部分を滑らかに変換した画像を生成する円滑化処理を行う（ステップＳ５）。出力部１５は、円滑化処理が行われた画像を、水増しデータとして、学習装置２０に出力する（ステップＳ６）。

［実施の形態１の効果］
図７は、従来技術を説明する図である。従来、少数のラベリング済みの教師データＧｔから類似するデータを水増しする場合（図７の（１））、ラベリングしたBounding Boxを教師データＧｔから切り出して、貼り付け先画像に貼り付けるだけであった。

このように水増しした水増しデータＧｐ´を物体検出モデルの学習に使用すると（図７の（２））、貼り付け元であるBounding Boxの境界と貼り付け先画像の背景との違いによる不自然さのため、物体検出モデルの精度を十分に高めることができない場合があった。このため、従来技術では、テストデータを学習済みの物体検出モデルに入力しても（図７の（３））、物体検出モデルが出力した物体のラベルと位置情報との精度が十分でない場合があった（図７の（４））。例えば、従来の物体検出モデルでは、一部の物体が検出できない場合があった。

図８は、実施の形態１における物体検出を説明する図である。生成装置１０は、ラベリング済みの教師データＧｔから学習データを水増しする際に（図８の（１））、教師データからオブジェクト画像のみを抽出する。そして、生成装置１０は、貼り付け先画像の背景と、この貼り付け先画像に貼り付けるオブジェクト画像との境界部分を滑らかに変換した画像を、水増しデータとして生成する（図８の（１））。また、生成装置１０は、オブジェクト画像のサイズや、生成するデータのラベルの比率等を教師データの統計情報から求めて、水増しデータを生成する。

学習装置２０は、生成装置１０によって生成された十分な量の水増しデータＧｐを物体検出モデルに学習させる（図８の（２））。水増しデータＧｐは、オブジェクト画像の境界と貼り付け先画像の背景との境界が円滑化されているため、物体検出モデルは、不自然さのない適切な水増しデータＧｐを学習でき、精度を十分に高めることができる。

このため、テストデータを学習済みの物体検出モデルに入力した場合（図８の（３））、物体検出モデルが出力した物体のラベルと位置情報との検出精度が十分に確保できると考えられる（図８の（４））。

このように、生成装置１０が生成した水増しデータは、貼り付け先画像に貼り付けるオブジェクト画像との境界部分が滑らかに変換されており、貼り付け元の画像の背景と貼り付け先の画像の背景との境界部分に不自然さがない。このため、学習装置２０は、この水増しデータＧｐを学習データとして物体検出モデルに学習させることで、物体検出モデルの精度向上を図ることができる。

［実施の形態２］
次に、実施の形態２について説明する。図９は、実施の形態２に係る生成装置の構成の一例を模式的に示す図である。図１０は、図９に示す生成装置の処理を説明する図である。

図９に示すように、実施の形態２に係る生成装置２１０は、図２に示す生成装置１０と比して、生成部１４に代えて生成部２１４を有する。生成部２１４は、検出部２１４１、貼り付け部２１４２及び円滑化処理部１４３を有する。

検出部２１４１は、貼り付け先画像に対し、種別が異なる領域間の境界を検出する。検出部２１４１は、貼り付け先画像Ｇ１に写る地平線Ｈ１を検出する（図１０の（１））。検出部２１４１は、例えば、ハフ変換、または、線分ハフ変換を用いて、空と地面との境界である地平線Ｈ１を検出する。

貼り付け部２１４２は、貼り付け先画像の各領域に対応するラベルが付与されたオブジェクト画像を、貼り付け先画像の各領域に貼り付ける。なお、生成装置２１０は、貼り付け先画像の領域の識別情報と、該領域に対応するラベルの識別情報とが対応付けられた貼り付けルールを記憶する。例えば、貼り付けルールには、領域「空」に、ラベル「鳥」が対応付けられている。また、貼り付けルールには、領域「地面」に、ラベル「犬」，「猫」が対応付けられている。

貼り付け部２１４２は、地平線Ｈ１が検出された貼り付け先画像Ｇ１´に対し、地平線Ｈ１の上下に適切なオブジェクト画像Ｇａを配置する（図１０の（２））。

例えば、貼り付け部２１４２は、オブジェクト画像Ｇａのうち、「犬」，「猫」のオブジェクト画像を、地平線Ｈ１の下の領域「地面」に、オブジェクト画像の下端が位置するように、貼り付け先画像Ｇ１´に貼り付ける。また、貼り付け部２１４２は、例えば、オブジェクト画像Ｇａのうち、「鳥」のオブジェクト画像を、地平線Ｈ１の上の領域「空」に、オブジェクト画像の下端が位置するように、貼り付け先画像Ｇ１´に貼り付ける。

なお、貼り付け部２１４２は、貼り付け部１４２と同様に、貼り付け先画像Ｇ１´に貼り付けるオブジェクト画像Ｇａのサイズ、数、ラベル等を、教師データＧｔの統計情報を基に決定する。また、貼り付け部２１４２は、統計情報から外れたラベル、数、及び、サイズを設定し、このラベルのオブジェクト画像を、統計情報から外れたサイズ及び数で貼り付け先画像Ｇ１´に貼り付けてもよい。

そして、生成装置２１０は、円滑化処理部１４３による、貼り付け先画像Ｇ１の背景と、この貼り付け先画像Ｇ１に貼り付ける各オブジェクト画像Ｇａとの境界部分を滑らかに変換して、自然な画像に変換する境界円滑化を行う（図１０の（３））。生成装置２１０合成画像Ｇ３を複数生成する（図１０の（４））。

［生成処理の処理手順］
次に、生成装置２１０が実行する生成処理の処理手順について説明する。図１１は、実施の形態２に係る生成処理の処理手順を示すフローチャートである。

図１１に示すステップＳ１１～ステップＳ１３は、図６に示すステップＳ１～ステップＳ３と同じ処理である。

生成装置２１０では、検出部２１４１が、貼り付け先画像に写る地平線を検出する（ステップＳ１４）。そして、貼り付け部２１４２は、貼り付け先画像に対し、貼り付け先画像の各領域に対応するラベルが付与されたオブジェクト画像を、貼り付け先画像の各領域に貼り付ける（ステップＳ１５）。

図１１に示すステップＳ１６及びステップＳ１７は、図６に示すステップＳ５及びステップＳ６と同じ処理である。

［実施の形態２の効果］
図１２は、実施の形態２の処理を説明するための図である。図１２に示すように、オブジェクト画像Ｇａの属性を考慮せずに、貼り付け先画像Ｇ１に配置すると、本来、そのオブジェクトがいない領域に、オブジェクトが配置されてしまう場合がある。例えば、合成画像Ｇ４のように、空中に犬のオブジェクト画像が配置されてしまう。このような不自然な合成画像Ｇ４を物体検出モデルの学習データとして使用すると、物体検出モデルの検出精度が低下してしまうおそれがあった。

これに対し、実施の形態２に係る生成装置２１０では、貼り付け先画像における種別が異なる領域間の境界を判定し、貼り付け先画像の各領域に対応するラベルが付与されたオブジェクト画像を、貼り付け先画像の各領域に適切に貼り付けた水増し画像を生成する。言い換えると、生成装置２１０は、任意のオブジェクトについて、該オブジェクトが存在することが自然である領域に、そのオブジェクトが写るオブジェクト画像を貼り付ける。

したがって、生成装置２１０は、貼り付け先画像の各領域に、それぞれ存在することが自然であるオブジェクトが写るオブジェクト画像を貼り付け、貼り付け先画像の背景と、オブジェクト画像との境界部分を滑らかに変換した画像を、水増しデータとして生成する。このため、学習装置２０は、生成装置２１０が生成した不自然さがない水増しデータを学習データとして物体検出モデルに学習させることで、物体検出モデルの精度向上を図ることができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵやＧＰＵ及び当該ＣＰＵやＧＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
また、上記実施形態において説明した生成装置１０，２１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態における生成装置１０，２１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。

図１３は、プログラムを実行するコンピュータを示す図である。図１３に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

メモリ１０１０は、図１３に例示するように、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図１３に例示するように、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ここで、図１３に例示するように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の、プログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ１０９０に記憶される。

また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

なお、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０，２１０生成装置
１１取得部
１２マスク生成部
１３オブジェクト抽出部
１４，２１４生成部
１５出力部
２０学習装置
３０物体検出装置
１４２，２１４２貼り付け部
１４３円滑化処理部
２１４１検出部

Claims

画像に含まれるオブジェクトのクラスを示すラベルと前記オブジェクトの位置情報とが付与された第１の画像を取得する取得部と、
教師なし学習によって学習が実行されたマスク生成モデルを用いて、前記第１の画像からオブジェクトを切り出すマスクを生成するマスク生成部と、
前記マスクを基に、前記第１の画像から前記オブジェクトが写る領域をオブジェクト画像として抽出し、抽出した前記オブジェクト画像に前記オブジェクトのラベルを付与して出力する抽出部と、
貼り付け先画像の領域の識別情報と、前記領域に対応するラベルの識別情報とが対応付けられた貼り付けルールを記憶する記憶部と、
貼り付け先である第２の画像に対し、種別が異なる領域間の境界を検出する検出部と、
前記第２の画像に対し、前記貼り付けルールにしたがって、前記第２の画像の各領域に対応するラベルが付与された前記オブジェクト画像の下端が、それぞれ対応する前記第２の画像の各領域に位置するように、前記第２の画像の各領域に対応するラベルが付与された前記オブジェクト画像を、前記第２の画像の各領域に貼り付ける貼り付け部と、
前記第２の画像の背景と、前記オブジェクト画像との境界部分を滑らかに変換した第３の画像を生成する変換部と、
前記第３の画像を、画像内の特定の物体の位置情報とラベルとを検出する物体検出モデルの教師データとして出力する出力部と、
を有することを特徴とする生成装置。
前記貼り付け部は、前記第１の画像に対する前記オブジェクト画像のラベル、数及びサイズに関する統計情報を基に、前記第２の画像に貼り付ける前記オブジェクト画像の第１のラベル、第１の数、及び第１のサイズを設定し、前記第１のラベルが付与された前記オブジェクト画像を、前記第１の数及び前記第１のサイズで前記第２の画像に貼り付けることを特徴とする請求項１に記載の生成装置。
前記貼り付け部は、前記統計情報から外れた第２のラベル、第２の数、及び第２のサイズを設定し、前記第２のラベルが付与された前記オブジェクト画像を、前記第２の数及び前記第２のサイズで前記第２の画像に貼り付けることを特徴とする請求項２に記載の生成装置。
前記検出部は、前記第２の画像に写る地平線を検出することを特徴とする請求項１に記載の生成装置。
生成装置が実行する生成方法であって、
前記生成装置は、貼り付け先画像の領域の識別情報と、前記領域に対応するラベルの識別情報とが対応付けられた貼り付けルールを記憶する記憶部を有し、
画像に含まれるオブジェクトのクラスを示すラベルと前記オブジェクトの位置情報とが付与された第１の画像を取得する工程と、
教師なし学習によって学習が実行されたマスク生成モデルを用いて、前記第１の画像からオブジェクトを切り出すマスクを生成する工程と、
前記マスクを基に、前記第１の画像から前記オブジェクトが写る領域をオブジェクト画像として抽出し、抽出した前記オブジェクト画像に前記オブジェクトのラベルを付与して出力する工程と、
貼り付け先である第２の画像に対し、種別が異なる領域間の境界を検出する工程と、
前記第２の画像に対し、前記貼り付けルールにしたがって、前記第２の画像の各領域に対応するラベルが付与された前記オブジェクト画像の下端が、それぞれ対応する前記第２の画像の各領域に位置するように、前記第２の画像の各領域に対応するラベルが付与された前記オブジェクト画像を、前記第２の画像の各領域に貼り付ける工程と、
前記第２の画像の背景と、前記オブジェクト画像との境界部分を滑らかに変換した第３の画像を生成する工程と、
前記第３の画像を、画像内の特定の物体の位置情報とラベルとを検出する物体検出モデルの教師データとして出力する工程と、
を含んだことを特徴とする生成方法。
画像に含まれるオブジェクトのクラスを示すラベルと前記オブジェクトの位置情報とが付与された第１の画像を取得するステップと、
教師なし学習によって学習が実行されたマスク生成モデルを用いて、前記第１の画像からオブジェクトを切り出すマスクを生成するステップと、
前記マスクを基に、前記第１の画像から前記オブジェクトが写る領域をオブジェクト画像として抽出し、抽出した前記オブジェクト画像に前記オブジェクトのラベルを付与して出力するステップと、
貼り付け先である第２の画像に対し、種別が異なる領域間の境界を検出するステップと、
前記第２の画像に対し、貼り付け先画像の領域の識別情報と前記領域に対応するラベルの識別情報とが対応付けられた貼り付けルールにしたがって、前記第２の画像の各領域に対応するラベルが付与された前記オブジェクト画像の下端が、それぞれ対応する前記第２の画像の各領域に位置するように、前記第２の画像の各領域に対応するラベルが付与された前記オブジェクト画像を、前記第２の画像の各領域に貼り付けるステップと、
前記第２の画像の背景と、前記オブジェクト画像との境界部分を滑らかに変換した第３の画像を生成するステップと、
前記第３の画像を、画像内の特定の物体の位置情報とラベルとを検出する物体検出モデルの教師データとして出力するステップと、
をコンピュータに実行させるための生成プログラム。