JP7477663B2

JP7477663B2 - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP7477663B2
Application number: JP2023000588A
Authority: JP
Inventors: 健一郎島田; 良介丹野; 裕人市川
Original assignee: NTT DOCOMO BUSINESS, Inc.; NTT Communications Corp
Current assignee: NTT DOCOMO BUSINESS, Inc.; NTT Communications Corp
Priority date: 2021-08-19
Filing date: 2023-01-05
Publication date: 2024-05-01
Anticipated expiration: 2041-08-19
Also published as: JP2024091822A; JP7208314B1; JP2023030207A; JP2023028298A

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

物体検出等の画像解析タスクを行うための機械学習モデルを訓練するためには、画像とメタデータを組み合わせた教師データが必要である。メタデータは、検知対象の物体が画像のどの領域に写っているかを特定するための情報である。

一方で、教師データを用意するためには、実際に撮影した画像に写った物体を確認する作業等が必要になり、多大なコストがかかる場合がある。

これに対し、教師データを効率良く用意することを目的として、実際に撮影された画像を基に教師データを生成（水増し）する技術が提案されている（例えば、非特許文献１を参照）。

非特許文献１には、所定のオブジェクトが写る領域を画像からコピーし、コピーした画像を別の背景画像に貼り付けることで新たな教師データを得ることが記載されている。

Sungeun Hong, Sungil Kang, Donghyeon Cho, Patch-Level Augmentation for Object Detection in Aerial Images, Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 0-0

しかしながら、従来の技術には、教師データとして利用可能な自然な画像を生成することができない場合があるという問題がある。

例えば、非特許文献１に記載の技術では、貼り付けによって得られた画像において、カットした画像と背景画像との境界線部分が不自然に見えるという場合がある。

このような境界線部分の不自然さは、物体検出等のためのモデルの学習時にノイズとなり、意図しないオブジェクトの検出及び精度の低下等を生じさせる。例えば、境界線部分は、画像を周波数領域に変換した際にエッジ及びノイズに相当する高周波成分として現れる。

上述した課題を解決し、目的を達成するために、学習装置は、オブジェクトが写っていることが既知の第１の画像から、前記オブジェクトが写った領域をコピーし、当該コピーした領域を第２の画像に貼り付けた画像のうち、水平線、地平線、又は建物と外部の境界線によって囲まれる領域であって、前記第２の画像における前記オブジェクトの背景の領域が示す場所が、前記オブジェクトにあらかじめ対応付けられた場所と合致する画像を、前記第３の画像として作成することで第３の画像を作成する加工部と、入力された画像を基に画像を生成する生成器に、前記第３の画像を入力し、第４の画像を得る自然化処理部と、前記第４の画像を教師データとして画像解析のためのモデルの訓練を行う訓練部と、を有することを特徴とする。

本発明によれば、教師データとして利用可能な自然な画像を生成することができる。

図１は、第１の実施形態に係る学習装置の構成例を示す図である。図２は、教師データを説明する図である。図３は、画像の加工方法を説明する図である。図４は、生成モデルの構成例を示す図である。図５は、画像の加工方法を説明する図である。図６は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図７は、プログラムを実行するコンピュータの例を示す図である。

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態］
まず、図１を用いて、第１の実施形態に係る学習装置の構成について説明する。図１は、第１の実施形態に係る学習装置の構成例を示す図である。

学習装置１０は、教師データ（訓練用画像＋メタデータ）の入力を受け付け、学習済みの検出モデルのパラメータ等の情報を出力する。また、学習装置１０は、必要に応じて背景画像の入力を受け付ける。

検出モデルは、画像から物体を検出するためのモデル（例えばＹＯＬＯ）である。また、学習装置１０が訓練するモデルは、検出モデルに限られず、画像解析タスクを行うためのモデルであればよい。

学習装置１０は、教師データの生成（水増し）を行う。また、学習装置１０は、入力された教師データ及び生成した教師データを用いて、検出モデルを訓練する。

なお、学習装置１０は、Deeptector（ＵＲＬ：https://sc.nttcom.co.jp/ai/deeptector/）等の既存の画像解析システムに、教師データを生成する機能を追加することにより実現されてもよい。

図１に示すように、学習装置１０は、インタフェース部１１、記憶部１２及び制御部１３を有する。

インタフェース部１１は、データの入力及び出力のためのインタフェースである。例えば、インタフェース部１１はＮＩＣ（Network Interface Card）である。インタフェース部１１は他の装置との間でデータの送受信を行うことができる。

また、インタフェース部１１は、マウスやキーボード等の入力装置と接続されていてもよい。また、インタフェース部１１は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。

記憶部１２は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non Volatile Static Random Access Memory）等のデータを書き換え可能な半導体メモリであってもよい。

記憶部１２は、学習装置１０で実行されるＯＳ（Operating System）や各種プログラムを記憶する。例えば、記憶部１２は生成モデル情報１２１及び検出モデル情報１２２を記憶する。

生成モデル情報１２１は、教師データの生成のために用いられる生成モデルに関する情報である。例えば、生成モデル情報１２１は、ＧＡＮ（Generative Adversarial Network）を構築するための情報である。この場合、生成モデル情報１２１は、ＧＡＮに含まれるニューラルネットワークの重み等のパラメータを含む。なお、生成モデルについては後に説明する。

検出モデル情報１２２は、検出モデルに関する情報である。例えば、検出モデル情報１２２は、ニューラルネットワークの重み等のパラメータを含む。検出モデル情報１２２は、学習装置１０によって適宜更新される。

制御部１３は、学習装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の電子回路や、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路である。

また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。

制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、加工部１３１、自然化処理部１３２、検出部１３３及び更新部１３４を有する。

加工部１３１は、オブジェクトが写っていることが既知の訓練用画像から、オブジェクトが写った領域をコピー（クロップ）し、当該コピーした領域を背景画像に貼り付けることで加工済み画像を作成する。なお、訓練用画像、背景画像及び加工済み画像は、それぞれ第１の画像、第２の画像及び第３の画像の例である。

ここで、図２を用いて、訓練用画像及びメタデータについて説明する。図２は、教師データを説明する図である。

図２の画像２０１は訓練用画像の例である。画像２０１は、実在の犬を撮影した画像であり、自然な画像であるということができる。矩形の領域２５１には、犬が写っている。なお、犬は検出対象のオブジェクトの例である。

例えば、メタデータは、領域２５１にオブジェクトである犬が写っていることを示す情報、及び領域２５１の画像２０１における位置を特定する座標等の情報を含む。

図３は、画像の加工方法を説明する図である。図３の例では、加工部１３１は、訓練用画像である画像２０１から、オブジェクトを囲む矩形の領域２５１をコピーし、当該矩形の領域２５１を背景画像である画像２０２に貼り付けることで加工済み画像である画像２１１を作成する。

ここで、加工部１３１は、画像２１１を生成するとともに、画像２１１に対応するメタデータを得ることができる。例えば、加工部１３１は、領域２５１を貼り付けた位置を特定する座標等の情報を画像２１１と対応付けておく。

例えば、領域２５１がバウンディングボックスであれば、加工部１３１は当該バウンディングボックスをコピーして貼り付けることができる。そして、加工部１３１は、当該バウンディングボックスを貼り付けた位置を、加工済みの画像のメタデータとすることができる。

画像２０２は、学習装置１０に入力されてもよいし、学習装置１０の記憶部１２にあらかじめ記憶されていてもよい。

また、加工部１３１は、訓練用画像を背景画像として利用してもよい。この場合、加工部１３１は、領域をコピーする代わりに領域をカットしてもよい。

また、加工部１３１は、不自然な加工済み画像を除外するか、又は不自然な加工済み画像を作成しないようにしてもよい。

例えば、加工部１３１は、加工済み画像におけるオブジェクトの位置と、当該位置を含む背景画像の領域が示す場所とを比較し、不自然であるか否かを判定する。

加工部１３１は、コピーした領域を背景画像に貼り付けた画像のうち、背景画像におけるオブジェクトの背景が示す場所が、オブジェクトにあらかじめ対応付けられた場所と合致する画像を、加工済み画像として作成する。

まず、加工部１３１は、背景画像の各領域を、場所ごとに分類する。例えば、加工部１３１は、水平線、地平線、建物と外部の境界線等を検出し、検出した線によって囲まれる領域の特徴を基に分類を行う。

そして、加工部１３１は、あらかじめオブジェクトに対して決められた存在可能な場所に、分類結果が示す場所が含まれない場合、加工済み画像を不自然であると判定する。

例えば、加工部１３１は背景画像の領域を、海、陸、空中、屋内のいずれかに分類する。また、犬は、陸又は屋内に存在可能であると決められているものとする。

このとき、加工部１３１は、加工済み画像における犬の背景の領域が海又は空中等に分類されていれば、当該加工済み画像を不自然であると判定する。

図３に示すように、画像２１１において、貼り付けられた矩形の領域２６１の境界線部分がはっきりと現れている。このため、画像２１１は、加工によって作成されたことが明らかであり、不自然な画像であるということができる。

自然化処理部１３２は、不自然な画像を自然化する。例えば、自然化の方法として、境界線部分にブラー処理を施し、目立たなくすることが考えられる。

加工部１３１は、コピーした領域を、背景画像における所定の物体が検出された領域に貼り付けた画像を、加工済み画像として作成する。

例えば、加工部１３１は、背景画像における車両を検出し、当該車両を検出した領域に、訓練用画像からコピーした検知対象物（例えば、汚れ及び傷）が写る領域を貼り付けることによって、加工済み画像を作成する。

これにより、例えば汚れた状態の車両の画像を得ることができる。このような画像は、車両の汚れを検出するモデルを訓練するための教師データとして用いることができる。

また、自然化処理部１３２は、入力された画像を基に画像を生成する生成器に、加工済み画像を入力し、自然化画像を得ることができる。自然化画像は第４の画像の例である。

このとき、生成器が自然な画像を生成するように構築されたものであれば、自然でない画像を入力したとしても、境界線部分が目立たない自然な画像が生成されることが期待できる。

例えば、自然化処理部１３２は、生成器に、加工済み画像を低解像度化した画像を入力することで自然化画像を得る。

このとき、生成器は、入力された低解像度の画像を高解像度化する処理を行うものであればよい。例えば、生成器は、低解像度化により境界部分があいまいになった画像から高解像度の自然化画像を生成する。

画像を高解像度化する生成器は、ＧＡＮに関連する手法で用いられることがある（参考文献１又は参考文献２を参照）。例えば、参考文献２には、ＡＣ－ＧＡＮについて記載されている。
参考文献１：Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, CVPR, 2017（ＵＲＬ：https://openaccess.thecvf.com/content_cvpr_2017/papers/Ledig_Photo-Realistic_Single_Image_CVPR_2017_paper.pdf）
参考文献２：Conditional Image Synthesis with Auxiliary Classifier GANs（ＵＲＬ：https://arxiv.org/pdf/1610.09585）

そこで、自然化処理部１３２は、ＧＡＮを構成する生成器であって、入力された画像を高解像度化した画像を生成する生成器に、加工済み画像を低解像度化した画像を入力することで自然化画像を得る。

自然化処理部１３２は、生成モデル情報１２１を基に、図４に示すような学習済みの生成モデルを構築する。図４は、生成モデルの構成例を示す図である。

まず、自然化処理部１３２は、加工済み画像である画像２１１を低解像度化することにより画像２１２を得る。

なお、ここでの低解像度化は、単に解像度を小さくすることに限られず、所定の圧縮率を指定したＪＰＧ圧縮処理（ノイズ発生）、ぼかし及びモザイク等のフィルタ処理であってもよい。このため、例えば低解像度化は不明瞭化のように言い換えられてもよい。

自然化処理部１３２は、画像２１２を生成器１２１ａに入力し、自然化画像である画像２２１を得る。

また、自然化処理部１３２は、画像２２１に対する犬が写った領域の位置を、画像２１１に対する領域２６１の位置と同じとみなすことで、画像２２１に対応するメタデータを得ることができる。

自然化処理部１３２は、画像２２１とともに、加工部１３１によってコピーした領域が貼り付けられた位置を特定する情報を出力する。コピーした領域が貼り付けられた位置を特定する情報は、メタデータに相当する。

このため、学習装置１０は、画像２２１及び画像２２１に対応するメタデータを教師データとして得ることができる。

さらに、学習装置１０は、画像２２１を識別器１２１ｂに入力し、識別器１２１ｂが画像２２１を本物（Ｔｒｕｅ）と識別した場合に画像２２１を教師データとみなし、識別器１２１ｂが画像２２１を偽物（Ｆａｌｓｅ）と識別した場合には画像２２１を教師データとみなさないようにしてもよい。

また、学習装置１０は、加工部１３１及び自然化処理部１３２による自然化画像の生成を、ＣＰ－ＧＡＮ（ＵＲＬ：https://ai-scholar.tech/articles/treatise/gancopy-ai-160）により行ってもよい。

ＣＰ－ＧＡＮは、ＧＡＮの一種であり、コピーアンドペースト機能を有する。学習装置１０は、ＣＰ－ＧＡＮの生成器に訓練用画像と背景画像を入力する。そして、ＣＰ－ＧＡＮの生成器は、訓練用画像からオブジェクトが写った領域をコピーし、背景画像に貼り付けた画像を生成する。

検出部１３３及び更新部１３４は、自然な画像を教師データとして画像解析のためのモデルの訓練を行う。検出部１３３及び更新部１３４は、訓練部の例である。

例えば、検出部１３３は、検出モデル情報１２２から構築した検出モデルに、画像２２１を入力して犬が写った領域の位置を検出結果として得る。

更新部１３４は、検出部１３３によって得られた検出結果と、画像２２１に対応するメタデータとの差分が小さくなるように検出モデル情報１２２を更新する。

自然化処理部１３２が位置を特定する情報を出力している場合、検出部１３３及び更新部１３４は、画像２２１及び位置を特定する情報を教師データとして画像解析のためのモデルの訓練を行うことができる。

ここで、図５に示すように、加工部１３１は、コピーした領域を背景画像の複数の箇所に貼り付けてもよい。図５は、画像の加工方法を説明する図である。

図５の例では、加工部１３１は、画像２０１から領域２５１をコピーし、当該領域２５１を背景画像である画像２０２の複数の領域に貼り付けることで画像２３１を作成する。

画像２３１の領域２７１、領域２７２及び領域２７３は、加工部１３１によって領域２５１が貼り付けられた領域である。

さらに、自然化処理部１３２は、画像２３１を自然化する。図４の例では、自然化された画像として１匹の犬が写った自然な画像（画像２２１）が得られたのに対し、自然化処理部１３２は、画像２３１を自然化し、３匹の犬が写った自然な画像を得る。

図６は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図６に示すように、まず、学習装置１０は、訓練用画像における検出対象の物体が写る領域をコピーする（ステップＳ１０１）。

次に、学習装置１０は、コピーした領域を背景画像にペースト（貼り付け）する（ステップＳ１０２）。

続いて、学習装置１０は、ペーストによって得られた画像を低解像度化する（ステップＳ１０３）。そして、学習装置１０は、低解像度化した画像を学習済みのＧＡＮの生成器に入力し、画像を生成する（ステップＳ１０４）。

さらに、学習装置１０は、訓練用画像及び生成した画像を用いて検出モデルを訓練する（ステップＳ１０５）。

これまで説明してきたように、加工部１３１は、オブジェクトが写っていることが既知の第１の画像から、オブジェクトが写った領域をコピーし、当該コピーした領域を第２の画像に貼り付けることで第３の画像を作成する。自然化処理部１３２は、入力された画像を基に画像を生成する生成器に、第３の画像を入力し、第４の画像を得る。検出部１３３及び更新部１３４は、第４の画像を教師データとして画像解析のためのモデルの訓練を行う。

このように、学習装置１０は、単にコピーした領域を貼り付けるだけでなく、貼り付けた画像を自然化することができる。これにより、本実施形態によれば、教師データとして利用可能な自然な画像を生成することができる。

加工部１３１は、コピーした領域を第２の画像に貼り付けた画像のうち、第２の画像におけるオブジェクトの背景が示す場所が、オブジェクトにあらかじめ対応付けられた場所と合致する画像を、第３の画像として作成する。

これにより、不自然な画像をあらかじめ除外しておくことができる。

加工部１３１は、第１の画像から、オブジェクトを囲む矩形の領域をコピーし、当該矩形の領域を第２の画像に貼り付けることで第３の画像を作成する。

これにより、一般的なコピーアンドペーストの手法を利用して容易に第３の画像を作成することができる。

加工部１３１は、コピーした領域を、第２の画像における所定の物体が検出された領域に貼り付けた画像を、第３の画像として作成する。

これにより、オブジェクトの表面に付着した汚れ等を認識するためのモデルの訓練を行うための教師データを得ることができる。

自然化処理部１３２は、生成器に、第３の画像を低解像度化した画像を入力することで第４の画像を得る。

このように、低解像度化により境界線部分を目立たなくしておくことで、自然な画像を生成することができる。

自然化処理部１３２は、ＧＡＮを構成する生成器であって、入力された画像を高解像度化した画像を生成する生成器に、第３の画像を低解像度化した画像を入力することで第４の画像を得る。

このように、ＧＡＮの手法を利用することにより、より本物に近い画像を生成することができる。

自然化処理部１３２は、第４の画像とともに、加工部１３１によってコピーした領域が貼り付けられた位置を特定する情報を出力する。検出部１３３及び更新部１３４は、第４の画像及び位置を特定する情報を教師データとして画像解析のためのモデルの訓練を行う。

これにより、すぐに学習に利用可能な教師データを生成することができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central Processing Unit）及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の生成処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal Handyphone System）等の移動体通信端末、さらには、PDA（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、学習装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の生成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、教師データを入力とし、水増しした教師データ又は学習済みのモデル情報を出力するサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の生成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図７は、プログラムを実行するコンピュータの例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０の生成処理における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０学習装置
１１インタフェース部
１２記憶部
１３制御部
１２１生成モデル情報
１２１ａ生成器
１２１ｂ識別器
１２２検出モデル情報
１３１加工部
１３２自然化処理部
１３３検出部
１３４更新部
２０１、２０２、２１１、２１２、２２１、２３１画像
２５１、２６１、２７１、２７２、２７３領域

Claims

オブジェクトが写っていることが既知の第１の画像から、前記オブジェクトが写った領域をコピーし、当該コピーした領域を第２の画像に貼り付けた画像のうち、水平線、又は地平線によって囲まれる領域であって、前記第２の画像における前記オブジェクトの背景の領域が示す場所が、前記オブジェクトにあらかじめ対応付けられた場所と合致する画像を、第３の画像として作成する加工部と、
入力された画像を基に画像を生成する生成器に、前記第３の画像を入力し、第４の画像を得る自然化処理部と、
前記第４の画像を教師データとして画像解析のためのモデルの訓練を行う訓練部と、
を有することを特徴とする学習装置。
前記加工部は、前記第１の画像から、前記オブジェクトを囲む矩形の領域をコピーし、当該矩形の領域を前記第２の画像に貼り付けることを特徴とする請求項１に記載の学習装置。
前記加工部は、前記コピーした領域を、前記第２の画像における所定の物体が検出された領域に貼り付けることを特徴とする請求項１に記載の学習装置。
前記自然化処理部は、前記生成器に、前記第３の画像を低解像度化した画像を入力することで前記第４の画像を得ることを特徴とする請求項１から３のいずれか１項に記載の学習装置。
前記自然化処理部は、ＧＡＮ（Generative Adversarial Network）を構成する生成器であって、入力された画像を高解像度化した画像を生成する生成器に、前記第３の画像を低解像度化した画像を入力することで前記第４の画像を得ることを特徴とする請求項４に記載の学習装置。
前記自然化処理部は、前記第４の画像とともに、前記加工部によって前記コピーした領域が貼り付けられた位置を特定する情報を出力し、
前記訓練部は、前記第４の画像及び前記位置を特定する情報を教師データとして画像解析のためのモデルの訓練を行うことを特徴とする請求項１から５のいずれか１項に記載の学習装置。
学習装置によって実行される学習方法であって、
オブジェクトが写っていることが既知の第１の画像から、前記オブジェクトが写った領域をコピーし、当該コピーした領域を第２の画像に貼り付けた画像のうち、水平線、又は地平線によって囲まれる領域であって、前記第２の画像における前記オブジェクトの背景の領域が示す場所が、前記オブジェクトにあらかじめ対応付けられた場所と合致する画像を、第３の画像として作成することで第３の画像を作成する加工工程と、
入力された画像を基に画像を生成する生成器に、前記第３の画像を入力し、第４の画像を得る自然化処理工程と、
前記第４の画像を教師データとして画像解析のためのモデルの訓練を行う訓練工程と、
を含むことを特徴とする学習方法。
コンピュータを、請求項１から６のいずれか１項に記載の学習装置として機能させるための学習プログラム。