JP7477663B2 - 学習装置、学習方法及び学習プログラム - Google Patents

学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
JP7477663B2
JP7477663B2 JP2023000588A JP2023000588A JP7477663B2 JP 7477663 B2 JP7477663 B2 JP 7477663B2 JP 2023000588 A JP2023000588 A JP 2023000588A JP 2023000588 A JP2023000588 A JP 2023000588A JP 7477663 B2 JP7477663 B2 JP 7477663B2
Authority
JP
Japan
Prior art keywords
image
area
processing unit
learning device
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023000588A
Other languages
English (en)
Other versions
JP2023030207A (ja
Inventor
健一郎 島田
良介 丹野
裕人 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2023000588A priority Critical patent/JP7477663B2/ja
Publication of JP2023030207A publication Critical patent/JP2023030207A/ja
Priority to JP2024067792A priority patent/JP2024091822A/ja
Application granted granted Critical
Publication of JP7477663B2 publication Critical patent/JP7477663B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。
物体検出等の画像解析タスクを行うための機械学習モデルを訓練するためには、画像とメタデータを組み合わせた教師データが必要である。メタデータは、検知対象の物体が画像のどの領域に写っているかを特定するための情報である。
一方で、教師データを用意するためには、実際に撮影した画像に写った物体を確認する作業等が必要になり、多大なコストがかかる場合がある。
これに対し、教師データを効率良く用意することを目的として、実際に撮影された画像を基に教師データを生成(水増し)する技術が提案されている(例えば、非特許文献1を参照)。
非特許文献1には、所定のオブジェクトが写る領域を画像からコピーし、コピーした画像を別の背景画像に貼り付けることで新たな教師データを得ることが記載されている。
Sungeun Hong, Sungil Kang, Donghyeon Cho, Patch-Level Augmentation for Object Detection in Aerial Images, Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 0-0
しかしながら、従来の技術には、教師データとして利用可能な自然な画像を生成することができない場合があるという問題がある。
例えば、非特許文献1に記載の技術では、貼り付けによって得られた画像において、カットした画像と背景画像との境界線部分が不自然に見えるという場合がある。
このような境界線部分の不自然さは、物体検出等のためのモデルの学習時にノイズとなり、意図しないオブジェクトの検出及び精度の低下等を生じさせる。例えば、境界線部分は、画像を周波数領域に変換した際にエッジ及びノイズに相当する高周波成分として現れる。
上述した課題を解決し、目的を達成するために、学習装置は、オブジェクトが写っていることが既知の第1の画像から、前記オブジェクトが写った領域をコピーし、当該コピーした領域を第2の画像に貼り付けた画像のうち、水平線、地平線、又は建物と外部の境界線によって囲まれる領域であって、前記第2の画像における前記オブジェクトの背景の領域が示す場所が、前記オブジェクトにあらかじめ対応付けられた場所と合致する画像を、前記第3の画像として作成することで第3の画像を作成する加工部と、入力された画像を基に画像を生成する生成器に、前記第3の画像を入力し、第4の画像を得る自然化処理部と、前記第4の画像を教師データとして画像解析のためのモデルの訓練を行う訓練部と、を有することを特徴とする。
本発明によれば、教師データとして利用可能な自然な画像を生成することができる。
図1は、第1の実施形態に係る学習装置の構成例を示す図である。 図2は、教師データを説明する図である。 図3は、画像の加工方法を説明する図である。 図4は、生成モデルの構成例を示す図である。 図5は、画像の加工方法を説明する図である。 図6は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。 図7は、プログラムを実行するコンピュータの例を示す図である。
以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[第1の実施形態]
まず、図1を用いて、第1の実施形態に係る学習装置の構成について説明する。図1は、第1の実施形態に係る学習装置の構成例を示す図である。
学習装置10は、教師データ(訓練用画像+メタデータ)の入力を受け付け、学習済みの検出モデルのパラメータ等の情報を出力する。また、学習装置10は、必要に応じて背景画像の入力を受け付ける。
検出モデルは、画像から物体を検出するためのモデル(例えばYOLO)である。また、学習装置10が訓練するモデルは、検出モデルに限られず、画像解析タスクを行うためのモデルであればよい。
学習装置10は、教師データの生成(水増し)を行う。また、学習装置10は、入力された教師データ及び生成した教師データを用いて、検出モデルを訓練する。
なお、学習装置10は、Deeptector(URL:https://sc.nttcom.co.jp/ai/deeptector/)等の既存の画像解析システムに、教師データを生成する機能を追加することにより実現されてもよい。
図1に示すように、学習装置10は、インタフェース部11、記憶部12及び制御部13を有する。
インタフェース部11は、データの入力及び出力のためのインタフェースである。例えば、インタフェース部11はNIC(Network Interface Card)である。インタフェース部11は他の装置との間でデータの送受信を行うことができる。
また、インタフェース部11は、マウスやキーボード等の入力装置と接続されていてもよい。また、インタフェース部11は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。
記憶部12は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。
記憶部12は、学習装置10で実行されるOS(Operating System)や各種プログラムを記憶する。例えば、記憶部12は生成モデル情報121及び検出モデル情報122を記憶する。
生成モデル情報121は、教師データの生成のために用いられる生成モデルに関する情報である。例えば、生成モデル情報121は、GAN(Generative Adversarial Network)を構築するための情報である。この場合、生成モデル情報121は、GANに含まれるニューラルネットワークの重み等のパラメータを含む。なお、生成モデルについては後に説明する。
検出モデル情報122は、検出モデルに関する情報である。例えば、検出モデル情報122は、ニューラルネットワークの重み等のパラメータを含む。検出モデル情報122は、学習装置10によって適宜更新される。
制御部13は、学習装置10全体を制御する。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。
また、制御部13は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。
制御部13は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部13は、加工部131、自然化処理部132、検出部133及び更新部134を有する。
加工部131は、オブジェクトが写っていることが既知の訓練用画像から、オブジェクトが写った領域をコピー(クロップ)し、当該コピーした領域を背景画像に貼り付けることで加工済み画像を作成する。なお、訓練用画像、背景画像及び加工済み画像は、それぞれ第1の画像、第2の画像及び第3の画像の例である。
ここで、図2を用いて、訓練用画像及びメタデータについて説明する。図2は、教師データを説明する図である。
図2の画像201は訓練用画像の例である。画像201は、実在の犬を撮影した画像であり、自然な画像であるということができる。矩形の領域251には、犬が写っている。なお、犬は検出対象のオブジェクトの例である。
例えば、メタデータは、領域251にオブジェクトである犬が写っていることを示す情報、及び領域251の画像201における位置を特定する座標等の情報を含む。
図3は、画像の加工方法を説明する図である。図3の例では、加工部131は、訓練用画像である画像201から、オブジェクトを囲む矩形の領域251をコピーし、当該矩形の領域251を背景画像である画像202に貼り付けることで加工済み画像である画像211を作成する。
ここで、加工部131は、画像211を生成するとともに、画像211に対応するメタデータを得ることができる。例えば、加工部131は、領域251を貼り付けた位置を特定する座標等の情報を画像211と対応付けておく。
例えば、領域251がバウンディングボックスであれば、加工部131は当該バウンディングボックスをコピーして貼り付けることができる。そして、加工部131は、当該バウンディングボックスを貼り付けた位置を、加工済みの画像のメタデータとすることができる。
画像202は、学習装置10に入力されてもよいし、学習装置10の記憶部12にあらかじめ記憶されていてもよい。
また、加工部131は、訓練用画像を背景画像として利用してもよい。この場合、加工部131は、領域をコピーする代わりに領域をカットしてもよい。
また、加工部131は、不自然な加工済み画像を除外するか、又は不自然な加工済み画像を作成しないようにしてもよい。
例えば、加工部131は、加工済み画像におけるオブジェクトの位置と、当該位置を含む背景画像の領域が示す場所とを比較し、不自然であるか否かを判定する。
加工部131は、コピーした領域を背景画像に貼り付けた画像のうち、背景画像におけるオブジェクトの背景が示す場所が、オブジェクトにあらかじめ対応付けられた場所と合致する画像を、加工済み画像として作成する。
まず、加工部131は、背景画像の各領域を、場所ごとに分類する。例えば、加工部131は、水平線、地平線、建物と外部の境界線等を検出し、検出した線によって囲まれる領域の特徴を基に分類を行う。
そして、加工部131は、あらかじめオブジェクトに対して決められた存在可能な場所に、分類結果が示す場所が含まれない場合、加工済み画像を不自然であると判定する。
例えば、加工部131は背景画像の領域を、海、陸、空中、屋内のいずれかに分類する。また、犬は、陸又は屋内に存在可能であると決められているものとする。
このとき、加工部131は、加工済み画像における犬の背景の領域が海又は空中等に分類されていれば、当該加工済み画像を不自然であると判定する。
図3に示すように、画像211において、貼り付けられた矩形の領域261の境界線部分がはっきりと現れている。このため、画像211は、加工によって作成されたことが明らかであり、不自然な画像であるということができる。
自然化処理部132は、不自然な画像を自然化する。例えば、自然化の方法として、境界線部分にブラー処理を施し、目立たなくすることが考えられる。
加工部131は、コピーした領域を、背景画像における所定の物体が検出された領域に貼り付けた画像を、加工済み画像として作成する。
例えば、加工部131は、背景画像における車両を検出し、当該車両を検出した領域に、訓練用画像からコピーした検知対象物(例えば、汚れ及び傷)が写る領域を貼り付けることによって、加工済み画像を作成する。
これにより、例えば汚れた状態の車両の画像を得ることができる。このような画像は、車両の汚れを検出するモデルを訓練するための教師データとして用いることができる。
また、自然化処理部132は、入力された画像を基に画像を生成する生成器に、加工済み画像を入力し、自然化画像を得ることができる。自然化画像は第4の画像の例である。
このとき、生成器が自然な画像を生成するように構築されたものであれば、自然でない画像を入力したとしても、境界線部分が目立たない自然な画像が生成されることが期待できる。
例えば、自然化処理部132は、生成器に、加工済み画像を低解像度化した画像を入力することで自然化画像を得る。
このとき、生成器は、入力された低解像度の画像を高解像度化する処理を行うものであればよい。例えば、生成器は、低解像度化により境界部分があいまいになった画像から高解像度の自然化画像を生成する。
画像を高解像度化する生成器は、GANに関連する手法で用いられることがある(参考文献1又は参考文献2を参照)。例えば、参考文献2には、AC-GANについて記載されている。
参考文献1:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, CVPR, 2017(URL:https://openaccess.thecvf.com/content_cvpr_2017/papers/Ledig_Photo-Realistic_Single_Image_CVPR_2017_paper.pdf)
参考文献2:Conditional Image Synthesis with Auxiliary Classifier GANs(URL:https://arxiv.org/pdf/1610.09585)
そこで、自然化処理部132は、GANを構成する生成器であって、入力された画像を高解像度化した画像を生成する生成器に、加工済み画像を低解像度化した画像を入力することで自然化画像を得る。
自然化処理部132は、生成モデル情報121を基に、図4に示すような学習済みの生成モデルを構築する。図4は、生成モデルの構成例を示す図である。
まず、自然化処理部132は、加工済み画像である画像211を低解像度化することにより画像212を得る。
なお、ここでの低解像度化は、単に解像度を小さくすることに限られず、所定の圧縮率を指定したJPG圧縮処理(ノイズ発生)、ぼかし及びモザイク等のフィルタ処理であってもよい。このため、例えば低解像度化は不明瞭化のように言い換えられてもよい。
自然化処理部132は、画像212を生成器121aに入力し、自然化画像である画像221を得る。
また、自然化処理部132は、画像221に対する犬が写った領域の位置を、画像211に対する領域261の位置と同じとみなすことで、画像221に対応するメタデータを得ることができる。
自然化処理部132は、画像221とともに、加工部131によってコピーした領域が貼り付けられた位置を特定する情報を出力する。コピーした領域が貼り付けられた位置を特定する情報は、メタデータに相当する。
このため、学習装置10は、画像221及び画像221に対応するメタデータを教師データとして得ることができる。
さらに、学習装置10は、画像221を識別器121bに入力し、識別器121bが画像221を本物(True)と識別した場合に画像221を教師データとみなし、識別器121bが画像221を偽物(False)と識別した場合には画像221を教師データとみなさないようにしてもよい。
また、学習装置10は、加工部131及び自然化処理部132による自然化画像の生成を、CP-GAN(URL:https://ai-scholar.tech/articles/treatise/gancopy-ai-160)により行ってもよい。
CP-GANは、GANの一種であり、コピーアンドペースト機能を有する。学習装置10は、CP-GANの生成器に訓練用画像と背景画像を入力する。そして、CP-GANの生成器は、訓練用画像からオブジェクトが写った領域をコピーし、背景画像に貼り付けた画像を生成する。
検出部133及び更新部134は、自然な画像を教師データとして画像解析のためのモデルの訓練を行う。検出部133及び更新部134は、訓練部の例である。
例えば、検出部133は、検出モデル情報122から構築した検出モデルに、画像221を入力して犬が写った領域の位置を検出結果として得る。
更新部134は、検出部133によって得られた検出結果と、画像221に対応するメタデータとの差分が小さくなるように検出モデル情報122を更新する。
自然化処理部132が位置を特定する情報を出力している場合、検出部133及び更新部134は、画像221及び位置を特定する情報を教師データとして画像解析のためのモデルの訓練を行うことができる。
ここで、図5に示すように、加工部131は、コピーした領域を背景画像の複数の箇所に貼り付けてもよい。図5は、画像の加工方法を説明する図である。
図5の例では、加工部131は、画像201から領域251をコピーし、当該領域251を背景画像である画像202の複数の領域に貼り付けることで画像231を作成する。
画像231の領域271、領域272及び領域273は、加工部131によって領域251が貼り付けられた領域である。
さらに、自然化処理部132は、画像231を自然化する。図4の例では、自然化された画像として1匹の犬が写った自然な画像(画像221)が得られたのに対し、自然化処理部132は、画像231を自然化し、3匹の犬が写った自然な画像を得る。
図6は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図6に示すように、まず、学習装置10は、訓練用画像における検出対象の物体が写る領域をコピーする(ステップS101)。
次に、学習装置10は、コピーした領域を背景画像にペースト(貼り付け)する(ステップS102)。
続いて、学習装置10は、ペーストによって得られた画像を低解像度化する(ステップS103)。そして、学習装置10は、低解像度化した画像を学習済みのGANの生成器に入力し、画像を生成する(ステップS104)。
さらに、学習装置10は、訓練用画像及び生成した画像を用いて検出モデルを訓練する(ステップS105)。
これまで説明してきたように、加工部131は、オブジェクトが写っていることが既知の第1の画像から、オブジェクトが写った領域をコピーし、当該コピーした領域を第2の画像に貼り付けることで第3の画像を作成する。自然化処理部132は、入力された画像を基に画像を生成する生成器に、第3の画像を入力し、第4の画像を得る。検出部133及び更新部134は、第4の画像を教師データとして画像解析のためのモデルの訓練を行う。
このように、学習装置10は、単にコピーした領域を貼り付けるだけでなく、貼り付けた画像を自然化することができる。これにより、本実施形態によれば、教師データとして利用可能な自然な画像を生成することができる。
加工部131は、コピーした領域を第2の画像に貼り付けた画像のうち、第2の画像におけるオブジェクトの背景が示す場所が、オブジェクトにあらかじめ対応付けられた場所と合致する画像を、第3の画像として作成する。
これにより、不自然な画像をあらかじめ除外しておくことができる。
加工部131は、第1の画像から、オブジェクトを囲む矩形の領域をコピーし、当該矩形の領域を第2の画像に貼り付けることで第3の画像を作成する。
これにより、一般的なコピーアンドペーストの手法を利用して容易に第3の画像を作成することができる。
加工部131は、コピーした領域を、第2の画像における所定の物体が検出された領域に貼り付けた画像を、第3の画像として作成する。
これにより、オブジェクトの表面に付着した汚れ等を認識するためのモデルの訓練を行うための教師データを得ることができる。
自然化処理部132は、生成器に、第3の画像を低解像度化した画像を入力することで第4の画像を得る。
このように、低解像度化により境界線部分を目立たなくしておくことで、自然な画像を生成することができる。
自然化処理部132は、GANを構成する生成器であって、入力された画像を高解像度化した画像を生成する生成器に、第3の画像を低解像度化した画像を入力することで第4の画像を得る。
このように、GANの手法を利用することにより、より本物に近い画像を生成することができる。
自然化処理部132は、第4の画像とともに、加工部131によってコピーした領域が貼り付けられた位置を特定する情報を出力する。検出部133及び更新部134は、第4の画像及び位置を特定する情報を教師データとして画像解析のためのモデルの訓練を行う。
これにより、すぐに学習に利用可能な教師データを生成することができる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、学習装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の生成処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、学習装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の生成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、教師データを入力とし、水増しした教師データ又は学習済みのモデル情報を出力するサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の生成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図7は、プログラムを実行するコンピュータの例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10の生成処理における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習装置
11 インタフェース部
12 記憶部
13 制御部
121 生成モデル情報
121a 生成器
121b 識別器
122 検出モデル情報
131 加工部
132 自然化処理部
133 検出部
134 更新部
201、202、211、212、221、231 画像
251、261、271、272、273 領域

Claims (8)

  1. オブジェクトが写っていることが既知の第1の画像から、前記オブジェクトが写った領域をコピーし、当該コピーした領域を第2の画像に貼り付けた画像のうち、水平線、又は地平線によって囲まれる領域であって、前記第2の画像における前記オブジェクトの背景の領域が示す場所が、前記オブジェクトにあらかじめ対応付けられた場所と合致する画像を、第3の画像として作成する加工部と、
    入力された画像を基に画像を生成する生成器に、前記第3の画像を入力し、第4の画像を得る自然化処理部と、
    前記第4の画像を教師データとして画像解析のためのモデルの訓練を行う訓練部と、
    を有することを特徴とする学習装置。
  2. 前記加工部は、前記第1の画像から、前記オブジェクトを囲む矩形の領域をコピーし、当該矩形の領域を前記第2の画像に貼り付けることを特徴とする請求項1に記載の学習装置。
  3. 前記加工部は、前記コピーした領域を、前記第2の画像における所定の物体が検出された領域に貼り付けることを特徴とする請求項1に記載の学習装置。
  4. 前記自然化処理部は、前記生成器に、前記第3の画像を低解像度化した画像を入力することで前記第4の画像を得ることを特徴とする請求項1から3のいずれか1項に記載の学習装置。
  5. 前記自然化処理部は、GAN(Generative Adversarial Network)を構成する生成器であって、入力された画像を高解像度化した画像を生成する生成器に、前記第3の画像を低解像度化した画像を入力することで前記第4の画像を得ることを特徴とする請求項4に記載の学習装置。
  6. 前記自然化処理部は、前記第4の画像とともに、前記加工部によって前記コピーした領域が貼り付けられた位置を特定する情報を出力し、
    前記訓練部は、前記第4の画像及び前記位置を特定する情報を教師データとして画像解析のためのモデルの訓練を行うことを特徴とする請求項1から5のいずれか1項に記載の学習装置。
  7. 学習装置によって実行される学習方法であって、
    オブジェクトが写っていることが既知の第1の画像から、前記オブジェクトが写った領域をコピーし、当該コピーした領域を第2の画像に貼り付けた画像のうち、水平線、又は地平線によって囲まれる領域であって、前記第2の画像における前記オブジェクトの背景の領域が示す場所が、前記オブジェクトにあらかじめ対応付けられた場所と合致する画像を、第3の画像として作成することで第3の画像を作成する加工工程と、
    入力された画像を基に画像を生成する生成器に、前記第3の画像を入力し、第4の画像を得る自然化処理工程と、
    前記第4の画像を教師データとして画像解析のためのモデルの訓練を行う訓練工程と、
    を含むことを特徴とする学習方法。
  8. コンピュータを、請求項1から6のいずれか1項に記載の学習装置として機能させるための学習プログラム。
JP2023000588A 2021-08-19 2023-01-05 学習装置、学習方法及び学習プログラム Active JP7477663B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023000588A JP7477663B2 (ja) 2021-08-19 2023-01-05 学習装置、学習方法及び学習プログラム
JP2024067792A JP2024091822A (ja) 2021-08-19 2024-04-18 学習装置、学習方法及び学習プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021133920A JP7208314B1 (ja) 2021-08-19 2021-08-19 学習装置、学習方法及び学習プログラム
JP2023000588A JP7477663B2 (ja) 2021-08-19 2023-01-05 学習装置、学習方法及び学習プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021133920A Division JP7208314B1 (ja) 2021-08-19 2021-08-19 学習装置、学習方法及び学習プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024067792A Division JP2024091822A (ja) 2021-08-19 2024-04-18 学習装置、学習方法及び学習プログラム

Publications (2)

Publication Number Publication Date
JP2023030207A JP2023030207A (ja) 2023-03-07
JP7477663B2 true JP7477663B2 (ja) 2024-05-01

Family

ID=84939318

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2021133920A Active JP7208314B1 (ja) 2021-08-19 2021-08-19 学習装置、学習方法及び学習プログラム
JP2023000588A Active JP7477663B2 (ja) 2021-08-19 2023-01-05 学習装置、学習方法及び学習プログラム
JP2024067792A Pending JP2024091822A (ja) 2021-08-19 2024-04-18 学習装置、学習方法及び学習プログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021133920A Active JP7208314B1 (ja) 2021-08-19 2021-08-19 学習装置、学習方法及び学習プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024067792A Pending JP2024091822A (ja) 2021-08-19 2024-04-18 学習装置、学習方法及び学習プログラム

Country Status (1)

Country Link
JP (3) JP7208314B1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3271984B2 (ja) 1996-08-01 2002-04-08 アレクセービッチ ドン、エフゲニイ アキソイド力機構(afm)
JP2020149086A (ja) 2019-03-11 2020-09-17 オムロン株式会社 学習用データ生成装置、学習用データ生成方法、および学習用データ生成プログラム
US20200356810A1 (en) 2019-05-06 2020-11-12 Agora Lab, Inc. Effective Structure Keeping for Generative Adversarial Networks for Single Image Super Resolution
JP2020187736A (ja) 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation 地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステム
CN112308763A (zh) 2019-07-26 2021-02-02 奥多比公司 利用具有双流编码器架构的神经网络来生成合成数字图像

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0812692B2 (ja) * 1986-10-24 1996-02-07 キヤノン株式会社 画像処理装置
JPH03271984A (ja) * 1990-03-20 1991-12-03 Nec Corp デジタル画像データ切り抜き合成装置
US10540749B2 (en) 2018-03-29 2020-01-21 Mitsubishi Electric Research Laboratories, Inc. System and method for learning-based image super-resolution
JP7300331B2 (ja) * 2019-07-03 2023-06-29 株式会社日立製作所 機械学習用情報処理装置、機械学習用情報処理方法、および機械学習用情報処理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3271984B2 (ja) 1996-08-01 2002-04-08 アレクセービッチ ドン、エフゲニイ アキソイド力機構(afm)
JP2020149086A (ja) 2019-03-11 2020-09-17 オムロン株式会社 学習用データ生成装置、学習用データ生成方法、および学習用データ生成プログラム
US20200356810A1 (en) 2019-05-06 2020-11-12 Agora Lab, Inc. Effective Structure Keeping for Generative Adversarial Networks for Single Image Super Resolution
JP2020187736A (ja) 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation 地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステム
CN112308763A (zh) 2019-07-26 2021-02-02 奥多比公司 利用具有双流编码器架构的神经网络来生成合成数字图像

Also Published As

Publication number Publication date
JP7208314B1 (ja) 2023-01-18
JP2023030207A (ja) 2023-03-07
JP2023028298A (ja) 2023-03-03
JP2024091822A (ja) 2024-07-05

Similar Documents

Publication Publication Date Title
CN110555795B (zh) 高解析度风格迁移
US20190236759A1 (en) Method of image completion
US10152213B2 (en) Techniques for selecting objects in images
US11954828B2 (en) Portrait stylization framework using a two-path image stylization and blending
US11200645B2 (en) Previewing a content-aware fill
US11748865B2 (en) Hierarchical image decomposition for defect detection
JP6725452B2 (ja) 分類装置、分類方法および分類プログラム
CN113657396B (zh) 训练方法、译文展示方法、装置、电子设备以及存储介质
US20200175727A1 (en) Color Handle Generation for Digital Image Color Gradients using Machine Learning
CN111459501A (zh) 基于SVG的Web组态画面存储与展示系统和方法及介质
CN112101386A (zh) 文本检测方法、装置、计算机设备和存储介质
CN113506305B (zh) 三维点云数据的图像增强方法、语义分割方法及装置
CN109697722B (zh) 用于生成三分图的方法及装置
JP2007198912A (ja) 画像検査装置、画像検査方法、コンピュータを画像検査装置として機能させるためのプログラムおよび記録媒体
US11335050B2 (en) Generating digital image editing guides by determining and filtering raster image content boundaries
Rasheed et al. A Novel Model Driven Framework for Image Enhancement and Object Recognition
JP7477663B2 (ja) 学習装置、学習方法及び学習プログラム
KR20220043340A (ko) 건물 하자 이미지 생성 장치 및 방법
CN116524528A (zh) 用于分离被检测为一个文本边界框的单词的文本检测算法
CN116030256A (zh) 小目标分割方法、小目标分割系统、设备和介质
CN116246064A (zh) 一种多尺度空间特征增强方法及装置
US11887356B2 (en) System, method and apparatus for training a machine learning model
US20220343103A1 (en) Document segmentation for optical character recognition
JP7238510B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10586311B2 (en) Patch validity test

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240418

R150 Certificate of patent or registration of utility model

Ref document number: 7477663

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150