JP7167668B2

JP7167668B2 - 学習方法、学習装置、プログラムおよび記録媒体

Info

Publication number: JP7167668B2
Application number: JP2018225420A
Authority: JP
Inventors: 大気関井
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2022-11-09
Anticipated expiration: 2038-11-30
Also published as: JP2020087310A; US20200175376A1; JP2022189901A; JP7416170B2; US11113606B2

Description

本発明は、物体のＣＧ（Computer Graphics）モデルを含む合成画像から、物体の情報を認識するニューラルネットワークの認識機能を学習するための学習方法、学習装置、プログラムおよび記録媒体に関する。なお、ＣＧモデルとは、ＣＧ技術によって作成した画像または画像データを指す。

画像中の物体の情報（物体の存在の有無、物体の種類、物体の動作など）をＤＮＮ（Deep Neural Network）によって学習・認識する技術は、監視カメラシステムなどの多くのアプリケーションにとって有用である。認識対象である物体の情報に関して、物体の見え方や外観のバリエーションが多い場合、想定されるシーンの学習データ（画像および教師信号）を準備する人的コストが高くなる。

従来、人的コスト抑制のために、ＣＧモデルを用いた学習データの自動生成が試みられている。例えば特許文献１では、背景画像とＣＧモデルとを重畳させて教師画像データを生成するようにしている。

特開２０１８－１２４９３９号公報（請求項１、段落〔００１７〕、図１等参照）

ところが、ＣＧモデルを用いて学習データを自動生成する場合でも、従来は、生成するＣＧモデルのバリエーションに関するパラメータは、人（ユーザ）が予め設定していた。そのため、ＣＧ技術によって生成されるシーンが冗長である（例えば似ている）など、学習効果の低い画像しか生成されず、そのような画像を用いて学習を行った場合に、画像中の物体の情報の認識精度が低下する問題があった。

本発明は、上記の問題点を解決するためになされたもので、その目的は、物体のＣＧモデルを含む画像として学習効果の高い画像を得ることができ、上記画像を用いた学習によって画像認識の精度を向上させることができる学習方法、学習装置、プログラムおよび記録媒体を提供することにある。

本発明の一側面に係る学習方法は、物体のＣＧモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成ステップと、前記学習データを用いて、前記合成画像からニューロ演算によって前記物体の情報を認識する認識機能を学習する学習ステップとを含み、前記学習データ生成ステップでは、誤差逆伝搬法によって前記合成画像と前記教師信号とから計算される、前記合成画像の画素ごとの誤差の勾配に基づいて、新たな学習データを生成し、前記学習ステップでは、前記新たな学習データを用いて前記認識機能を学習する。

本発明の他の側面に係る学習装置は、物体のＣＧモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成部と、ニューロ演算によって入力画像に含まれる物体の情報を認識する物体認識部と、前記物体認識部の認識機能を学習する学習処理部とを備え、前記学習処理部は、誤差逆伝搬法によって前記合成画像と前記教師信号とから前記合成画像の画素ごとの誤差の勾配を計算し、前記学習データ生成部は、前記誤差の勾配に基づいて、新たな学習データを生成し、前記学習処理部は、前記新たな学習データを用いて前記認識機能を学習する。

本発明のさらに他の側面に係るプログラムは、上記した学習方法をコンピュータに実行させるためのプログラムである。

本発明のさらに他の側面に係る記録媒体は、上記プログラムを記録した、コンピュータ読取可能な記録媒体である。

物体のＣＧモデルを含む画像として学習効果の高い画像を得ることができ、上記画像を用いた学習によって画像認識の精度を向上させることができる。

本発明の実施の形態に係る学習装置の概略の構成を示すブロック図である。上記学習装置による学習方法の処理の流れを示すフローチャートである。上記学習方法による処理を模式的に示す説明図である。合成画像において、誤差の勾配の絶対値が異なる領域を模式的に示す説明図である。上記学習装置による他の学習方法の処理の流れを示すフローチャートである。

本発明の実施の形態について、図面に基づいて説明すれば、以下の通りである。なお、本発明は、以下の内容に限定されるわけではない。

〔学習装置の構成〕
図１は、本実施形態の学習装置１の概略の構成を示すブロック図である。学習装置１は、例えば、パーソナルコンピュータなどの端末装置で構成されている。この学習装置１は、入力部２と、記憶部３と、表示部４と、通信部５と、読取部６と、学習データ生成部７と、物体認識部８と、学習処理部９と、制御部１０とを有している。

入力部２は、例えばキーボード、マウス、タッチパッド、タッチパネルなどで構成されており、ユーザによる各種の指示入力を受け付ける。

記憶部３は、各種のデータを記憶するメモリである。上記各種のデータには、制御部１０の動作プログラムや、後述する学習データの生成に必要なデータ、すなわち、物体のＣＧモデル、他のモデル（例えば背景の画像）、上記物体の教師信号などが含まれる。上記教師信号には、例えば、物体の正解のクラスを示すラベル、物体の位置（ＸＹＺの各軸方向の位置）、物体の回転角度（ＸＹＺの各軸周りの回転角度）、物体の色などの情報が含まれる。なお、学習データの生成に必要な上記データは、学習装置１の外部の端末装置やサーバーに記憶されてもよい。

このような記憶部３は、例えばハードディスクで構成されるが、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、光ディスク、光磁気ディスク、不揮発性メモリなどの記録媒体から適宜選択して構成されてもよい。

表示部４は、各種の情報を表示するデバイスであり、例えば液晶表示装置で構成される。通信部５は、外部の端末装置やサーバーと通信するためのインターフェースであり、入出力端子などを含んで構成される。なお、学習装置１と外部の端末装置等との間の通信形態は、有線ケーブルやＬＡＮ（Local Area Network）などの通信回線を介した通信であってもよいし、無線通信であってもよい。後者の場合、通信部５は、アンテナ、送受信回路、変調回路、復調回路などをさらに含んで構成される。

読取部６は、記録媒体Ｒに記録された情報（例えば制御部１０の動作プログラム）を読み取る装置であり、例えばディスクドライブで構成される。なお、記録媒体Ｒが可搬型の不揮発性メモリである場合、上記不揮発性メモリの接続部が指し込まれる接続ポートも読取部６に含まれるとする。

学習データ生成部７、物体認識部８および学習処理部９は、例えばＧＰＵ（Graphics Processing Unit）で構成されている。ＧＰＵは、リアルタイムな画像処理に特化した演算装置である。

学習データ生成部７は、物体のＣＧモデルを含む合成画像と、上記物体の教師信号とを有する学習データを生成する。このような学習データの生成は、学習データ生成部７が、記憶部３から、物体のＣＧモデルと他のモデルとを読み出し、これらを合成して合成画像を生成するとともに、記憶部３から、上記物体の教師信号を読み出し、上記合成画像と上記教師信号とを組み合わせることで行うことができる。

特に、学習データ生成部７は、画像合成部７ａと、画質変換部７ｂとを含む。画像合成部７ａは、記憶部３に記憶されている物体のＣＧモデルと、他のモデルとを合成して合成画像を生成する。なお、上記他のモデルは、ＣＧモデルであってもよいし、カメラでの撮影によって取得された画像であってもよい。

画質変換部７ｂは、画像合成部７ａにて生成した合成画像を、該合成画像とは異なる画質の画像に変換する。例えば、画質変換部７ａは、複数のＣＧモデルを合成した合成画像を、現実的な画像（実際の撮影によって得られる、ＣＧらしくない画像）に近づくように、画質を変換する。このような画質変換技術としては、ＤＲＩＴ（Diverse Image-to-Image Translation via Disentangled Representations）を用いることができる。

画質変換部７ｂは、例えば畳み込み型ニューラルネットワーク（ＣＮＮ；Convolutional Neural Network）などの機械学習が可能なネットワークで構成されている。合成画像の入力に対して、ＣＮＮでの演算により、合成画像の画質を変換した画像が得られる。したがって、画質変換部７ｂは、画像合成部７ａにて生成した合成画像をニューロ演算によって異なる画質に変換すると言うこともできる。なお、本実施形態では、画質変換部７ｂによる画質変換を必ずしも行う必要はなく、それゆえ、画質変換部７ｂを省略して学習データ生成部７を構成することも可能である。

物体認識部８は、例えばＣＮＮで構成されており、ニューロ演算によって入力画像に含まれる物体の情報を認識（推定）し、その認識結果を出力する。上記認識結果には、推定された物体のクラス（種類）およびスコアが含まれる。

学習処理部９は、学習データ生成部７で生成された学習データ（合成画像＋教師データ）を用いて、物体認識部８の認識機能を学習する。ここで、「認識機能を学習する」とは、本実施形態のように物体認識部８がＣＮＮで構成されている場合、ＣＮＮの畳み込み層、プーリング層および出力層を構成する各ノードの重みを、ＣＮＮでの認識結果と教師信号との誤差に基づいて調整することを言う。

制御部１０は、例えば中央演算処理装置（ＣＰＵ；Central Processing Unit）で構成されており、記憶部３に記憶された動作プログラムに従って動作し、学習装置１の各部の動作を制御する。

〔学習方法〕
次に、本実施形態の学習方法について説明する。図２は、図１の学習装置１による学習方法の処理の流れを示すフローチャートである。また、図３は、上記学習方法による処理を模式的に示す説明図である。本実施形態の学習方法は、学習データ生成ステップ（Ｓ１）と、学習ステップ（Ｓ２）とを含む。以下、より詳細に説明する。

（Ｓ１；学習データ生成ステップ）
Ｓ１では、まず、制御部１０のカウンタ（図示せず）のカウント値ｎを、ｎ＝１に設定する（Ｓ１１）。なお、カウント値ｎは、ここでは学習回数を示す値とする。そして、学習データ生成部７は、物体のＣＧモデルを含む合成画像と、上記物体の教師信号とを有する学習データを生成する。

例えば、学習データ生成部７の画像合成部７ａは、記憶部３に記憶された（予め準備された）複数のＣＧモデルの中から、物体のＣＧモデルＭ１（便宜的に「前景物体画像」とも呼ぶ）と、別のＣＧモデルＭ２（便宜的に「背景物体画像」とも呼ぶ）とをランダムに選択して読み出すとともに、上記物体の教師信号Ｔを読み出す（Ｓ１２）。そして、読み出したＣＧモデルＭ１およびＭ２をＣＧ技術によって合成して合成画像Ｍを生成し（Ｓ１３）、合成画像Ｍと教師信号Ｔとを組み合わせて学習データとする。物体のＣＧモデルＭ１、ＣＧモデルＭ２、教師信号Ｔとしては、例えば、「鳥」、「地面」、「鳥であることを示すラベル」、をそれぞれ考えることができる。なお、記憶部３から読み出すＣＧモデルは、３つ以上であってもよい。

続いて、学習データ生成部７の画質変換部７ｂ（ＣＮＮ）は、合成画像Ｍをニューロ演算によって異なる画質に変換する（Ｓ１４）。これにより、合成画像Ｍよりもカメラで撮影した画像に近い合成画像Ｍ’が得られる。なお、Ｓ１４の工程は、必要に応じて行われればよい。以下、「合成画像Ｍ’」は、適宜「合成画像Ｍ」に置き換えることができるとする。

（Ｓ２；学習ステップ）
次に、学習処理部９は、Ｓ１で作成した学習データを用いて、合成画像Ｍ’からニューロ演算によって、合成画像Ｍ’に含まれる物体の情報を認識する認識機能を学習する。より具体的には、以下の通りである。

まず、合成画像Ｍ’を物体認識部８（ＣＮＮ）に入力し、物体認識部８にて、ニューロ演算による物体の認識結果を得る（Ｓ２１）。そして、学習処理部９は、物体の認識結果と教師信号Ｔとの誤差Ｅを計算し（Ｓ２２）、上記誤差を物体認識部８および画質変換部７ｂの順に逆伝搬して（誤差逆伝搬法）、物体認識部８および画質変換部７ｂを構成するＣＮＮを学習する（Ｓ２３）。これにより、学習処理部９は、変換前の合成画像Ｍの画素ごとの誤差の勾配を求めることができる（Ｓ２４）。

ここで、「誤差の勾配」とは、物体の認識結果の誤差Ｅを、ＣＮＮのノードの出力値ｙで偏微分した値（∂Ｅ／∂ｙ）を指し、誤差逆伝搬法によってノードの重みｗに関する誤差Ｅの偏微分の値（∂Ｅ／∂ｗ）を求める演算式において、微分の連鎖によって登場する項を指す。

すなわち、入力側からｉ番目の層の各ノードのそれぞれから信号ｙｉを受け取り、それぞれの重みｗ_ijを掛けて全て足し合わせた値ｖｊが、入力側からｊ番目の層に入力される場合を考える。この場合、
ｖｊ＝Σ（ｗ_ij・ｙｉ）
である。次に、このｖｊを入力としてｊ番目の層の出力ｙｊを計算すると、
ｙｊ＝φｊ（ｖｊ）
となる。ここで、φは、活性化関数である。

誤差Ｅを重みｗ_ijで偏微分するとき、微分の連鎖律により、
∂Ｅ／∂ｗ_ij＝（∂Ｅ／∂ｙｊ）・（∂ｙｊ／∂ｖｊ）・（∂ｖｊ／∂ｗ_ij）
が成り立つ。上式の右辺の第１項が、上述した「誤差の勾配」に相当する。この「誤差の勾配」は、ｊ番目の層の入力値ｙｊ、つまり、ｉ番目の層の各ノードの出力値（画素の値）が、誤差Ｅにどのくらい影響しているかを示す。したがって、ｉ番目の層をＣＮＮの入力層と考えることにより、入力画像の画素のごとの誤差の勾配、すなわち、合成画像Ｍの画素ごとの誤差の勾配を求めることができる。なお、ＣＮＮの層数がさらに増えても、上記と同様の考え方（微分の連鎖）に基づいて、合成画像Ｍの画素ごとの誤差の勾配を求めることができる。

次に、学習処理部９は、カウント値ｎが所定値ｋに達したか否かを判断する（Ｓ２５）。所定値ｋは、物体認識部８の学習回数として、ユーザによって予め設定された値である。なお、所定値ｋはデフォルトで設定されていてもよい。Ｓ２５にて、ｎ＝ｋである場合、物体認識部８の学習が所定回数行われたとして、処理を終了する。

一方、Ｓ２５にて、ｎ＝ｋでない場合、学習処理部９は、カウント値ｎをインクリメントし、ｎ＝ｎ＋１とする（Ｓ２６）。次に、学習処理部９は、合成画像Ｍの合成に用いたＣＧモデルＭ１およびＣＧモデルＭ２のそれぞれについて、上記で求めた誤差の勾配の絶対値の全画素（各モデルの領域）の平均を算出する（Ｓ２７）。そして、学習処理部９は、ＣＧモデルＭ１とＣＧモデルＭ２とのうち、上記平均が最も高いＣＧモデル以外のＣＧモデルを特定し、特定したＣＧモデルと置換すべき他のＣＧモデルを、記憶部３の中からランダムに選択する（Ｓ２８）。

図４は、合成画像Ｍにおいて、誤差の勾配の絶対値が異なる領域を模式的に示している。図中、ハッチングを付した領域は、ハッチングを付していない領域に比べて、誤差の勾配の絶対値が閾値よりも大きいことを示している。すなわち、同図の例では、物体のＣＧモデルＭ１（前景物体画像）のほうが、ＣＧモデルＭ２（背景物体画像）よりも、誤差の勾配の絶対値の平均が大きい。この場合、学習処理部９は、誤差の勾配の絶対値の平均がより小さいＣＧモデルＭ２を、他のＣＧモデルと置換すべきＣＧモデルと判断する。

なお、合成画像を構成するＣＧモデルが３つ以上ある場合、誤差の勾配の絶対値の平均が最も高いＣＧモデル以外の少なくとも１つのＣＧモデルを特定し、特定したＣＧモデルと置換すべき他のＣＧモデルを、記憶部３の中から選択すればよい。すなわち、合成画像中で他のＣＧモデルと置換すべきＣＧモデルは、２つ以上であってもよい。

次に、Ｓ１３に戻り、学習データ生成部７は、合成画像Ｍの一部を、Ｓ２８で選択された他のＣＧモデルで置換する。Ｓ１３以降の工程は、Ｓ２５にてｎ＝ｋとなるまで、つまり、学習回数が所定回数に達するまで、繰り返し行われる。したがって、２回目以降の学習ステップでは、上記他のＣＧモデルで置換した後の合成画像を有する学習データを用いて、物体認識部８の認識機能を学習することになる（Ｓ２１～Ｓ２３）。

〔効果〕
以上のように、Ｓ１の学習データ生成ステップでは、誤差逆伝搬法によって合成画像Ｍ（またはＭ’）と教師信号Ｔとから計算される、合成画像Ｍの画素ごとの誤差の勾配に基づいて、合成画像Ｍの一部を他のＣＧモデルで置換して、新たな学習データを生成する（Ｓ１３）。これにより、物体認識部８でのニューロ演算による物体の情報の認識結果と教師信号Ｔとの誤差が置換前よりも大きくなるような合成画像を得ることができる。つまり、人がパラメータを設定して生成したバリエーションの合成画像よりも、学習効果の高い（認識し難い）合成画像を得ることができる。したがって、Ｓ２の学習ステップにおいて、他のＣＧモデルで置換した後の合成画像を含む上記新たな学習データを用いて、物体認識部８の認識機能を学習することにより（Ｓ２３）、高い学習効果を得ることができ、物体認識部８における画像認識の精度を向上させることができる。

特に、学習処理部９は、合成画像Ｍに含まれる複数のＣＧモデルごとに、画素ごとの誤差の勾配の絶対値の平均を算出し（Ｓ２７）、学習データ生成部７は、上記平均が最も高いＣＧモデル以外のＣＧモデルを、他のＣＧモデルで置換する（Ｓ１３）。このように、画素ごとの誤差の勾配に基づいて、合成画像に含まれるＣＧモデルを他のＣＧモデルで置換することにより、物体認識部８での認識結果と教師信号Ｔとの誤差が置換前よりも大きい合成画像を確実に得ることができる。したがって、置換後の合成画像を含む新たな学習データを用いて学習を行うことにより、高い学習効果を確実に得ることができ、画像認識の精度を確実に向上させることができる。

また、Ｓ１の学習データ生成ステップでは、合成画像Ｍをニューロ演算によって異なる画質に変換する（Ｓ１４）。この画質変換により、物体認識部８でのニューロ演算による認識結果と教師信号Ｔとの誤差が、画質変換を行わない場合に比べて大きくなるような合成画像Ｍ’を得ることができる。したがって、このような合成画像Ｍ’を用いてＳ２の学習を行うことにより、さらに高い学習効果を得て、画像認識の精度をさらに向上させることができる。

〔他の学習方法〕
図５は、本実施形態の学習装置１による他の学習方法の処理の流れを示すフローチャートである。図５では、上述したＳ２の学習ステップにおいて、Ｓ２６とＳ２７との間に、パラメータ勾配を算出するステップ（Ｓ２６－１）が加わり、Ｓ２７とＳ２８との間に、パラメータの修正ステップ（Ｓ２７－１）が加わっている。それ以外は、図２のフローチャートと同様である。以下、図２と異なる点について説明する。

Ｓ２６－１では、学習処理部９は、Ｓ２４で取得した合成画像Ｍの画素ごとの誤差の勾配を用いて、物体のＣＧモデルＭ１のパラメータに関するパラメータ勾配を算出する。ここで、ＣＧモデルＭ１のパラメータとしては、例えば物体（例えば鳥）の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含む。具体的には、誤差の勾配を物体のＣＧモデルＭ１のパラメータで微分することにより、上記パラメータ勾配が得られる。上記パラメータ勾配は、物体のＣＧモデルＭ１のパラメータが誤差の勾配にどのくらい影響しているかを示す。

Ｓ２７－１では、物体のＣＧモデルＭ１のパラメータ（例えば物体の三次元位置）に、Ｓ２６－１で算出したパラメータ勾配に所定の負の係数を乗算した値を加えて、上記パラメータを修正する。

このように、Ｓ２６－１でパラメータ勾配を求め、Ｓ２７－１で、上記パラメータ勾配に基づいて、物体のＣＧモデルＭ１のパラメータを修正することにより、例えば、物体認識部８での物体の認識結果と教師信号Ｔとの誤差が大きくなる方向に上記パラメータを修正することができる。これにより、合成画像の一部を他のＣＧモデルで置換して（Ｓ１３）、さらに学習効果の高い（認識し難い）合成画像を得ることができる。したがって、上記合成画像を含む新たな学習データを用いて物体認識部８の学習を行うことにより（Ｓ２３）、高い学習効果をさらに得て、画像認識の精度をさらに向上させることができる。

また、ＣＧモデルのパラメータの数が増大すると、上記パラメータの修正パターンは指数関数的に増大する。例えば、上記パラメータとして、物体の三次元位置、角度、色の３種類を考えただけでも、修正パターンとしては、位置に関して３次元（ＸＹＺの各軸方向）、角度に関して３次元（ＸＹＺの各軸周り）、色に関してＭ次元（色がＭ種類ある場合）の計３×３×Ｍパターンが存在する。上記パラメータ勾配に基づいて、物体のＣＧモデルＭ１のパラメータ（例えば三次元位置）を修正することにより、修正パターンを一意に特定することができ、これによって、学習効果の高い合成画像を容易に得ることができる。

また、物体のＣＧモデルＭ１のパラメータに、Ｓ２６－１で算出したパラメータ勾配に所定の負の係数を乗算した値を加えて、上記パラメータを修正することにより、物体認識部８での認識結果と教師信号Ｔとの誤差が大きくなる方向に上記パラメータを確実に修正できる。その結果、学習効果の高い（認識し難い）画像を確実に得ることができる。

また、物体のＣＧモデルＭ１のパラメータは、物体の三次元位置、角度、色の少なくともいずれかに関する情報を含む。この場合、物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかについて、物体のＣＧモデルＭ１を修正して、認識結果と教師信号Ｔとの誤差が大きい画像、つまり、学習効果の高い画像を得ることができる。

〔プログラムおよび記録媒体〕
本実施形態で説明した学習装置１は、例えば、所定のプログラム（アプリケーションソフトウェア）をインストールしたコンピュータ（ＰＣ）で構成することができる。上記プログラムをコンピュータ（例えばＣＰＵとしての制御部１０）が読み取って実行することにより、学習装置１の各部を動作させて上述した各処理（各工程）を実行させることができる。このようなプログラムは、例えばネットワークを介して外部からダウンロードすることによって取得されて記憶部３に記憶される。また、上記プログラムは、例えばＣＤ－ＲＯＭ（Compact Disk-Read Only Memory）などのコンピュータ読取可能な記録媒体Ｒに記録され、この記録媒体Ｒから上記プログラムをコンピュータが読み取って記憶部３に記憶される形態であってもよい。

〔その他〕
以上で説明した本実施形態の学習方法、学習装置、プログラムおよび記録媒体は、以下のように表現することができる。

１．物体のＣＧモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成ステップと、
前記学習データを用いて、前記合成画像からニューロ演算によって前記物体の情報を認識する認識機能を学習する学習ステップとを含み、
前記学習データ生成ステップでは、誤差逆伝搬法によって前記合成画像と前記教師信号とから計算される、前記合成画像の画素ごとの誤差の勾配に基づいて、新たな学習データを生成し、
前記学習ステップでは、前記新たな学習データを用いて前記認識機能を学習することを特徴とする学習方法。

２．前記学習データ生成ステップでは、前記合成画像に含まれる複数のＣＧモデルごとに算出される、画素ごとの前記誤差の勾配に基づいて、前記合成画像に含まれる前記ＣＧモデルを他のＣＧモデルで置換することを特徴とする前記１に記載の学習方法。

３．前記学習データ生成ステップでは、前記合成画像をニューロ演算によって異なる画質に変換することを特徴とする前記１または２に記載の学習方法。

４．前記学習ステップでは、前記誤差の勾配を用いて、前記物体のＣＧモデルのパラメータに関するパラメータ勾配を算出し、前記パラメータ勾配に基づいて、前記物体のＣＧモデルのパラメータを修正することを特徴とする前記１から３のいずれかに記載の学習方法。

５．前記学習ステップでは、前記物体のＣＧモデルのパラメータに、算出した前記パラメータ勾配に所定の負の係数を乗算した値を加えて、前記パラメータを修正することを特徴とする前記４に記載の学習方法。

６．前記物体のＣＧモデルの前記パラメータは、前記物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含むことを特徴とする前記４または５に記載の学習方法。

７．物体のＣＧモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成部と、
ニューロ演算によって入力画像に含まれる物体の情報を認識する物体認識部と、
前記物体認識部の認識機能を学習する学習処理部とを備え、
前記学習処理部は、誤差逆伝搬法によって前記合成画像と前記教師信号とから前記合成画像の画素ごとの誤差の勾配を計算し、
前記学習データ生成部は、前記誤差の勾配に基づいて、新たな学習データを生成し、
前記学習処理部は、前記新たな学習データを用いて前記認識機能を学習することを特徴とする学習装置。

８．前記学習処理部は、前記合成画像に含まれる複数のＣＧモデルごとに、画素ごとの前記誤差の勾配を算出し、
前記学習データ生成部は、画素ごとの前記誤差の勾配に基づいて、前記合成画像に含まれる前記ＣＧモデルを他のＣＧモデルで置換することを特徴とする前記７に記載の学習装置。

９．前記学習データ生成部は、前記合成画像をニューロ演算によって異なる画質に変換することを特徴とする前記７または８に記載の学習装置。

１０．前記学習処理部は、前記誤差の勾配を用いて、前記物体のＣＧモデルのパラメータに関するパラメータ勾配を算出し、前記パラメータ勾配に基づいて、前記物体のＣＧモデルのパラメータを修正することを特徴とする前記７から９のいずれかに記載の学習装置。

１１．前記学習処理部は、前記物体のＣＧモデルのパラメータに、算出した前記パラメータ勾配に所定の負の係数を乗算した値を加えて、前記パラメータを修正することを特徴とする前記１０に記載の学習装置。

１２．前記物体のＣＧモデルの前記パラメータは、前記物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含むことを特徴とする前記１０または１１に記載の学習装置。

１３．前記１から６のいずれかに記載の学習方法をコンピュータに実行させるためのプログラム。

１４．前記１３に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。

以上、本実施形態では、物体認識部８での認識結果に基づいて、認識困難なＣＧモデルが適応的に選択されて修正（置換）され、修正後の合成画像を用いて物体認識部８のＣＮＮが学習される。これにより、人が設定したバリエーションよりも学習効果の高い新たな学習データの生成が可能であり、画像認識の精度を向上させることができる。なお、学習効果の高い「新たな学習データの生成」は、ＣＧモデルの修正のほか、ＣＧモデルのパラメータの修正、画質変換パラメータの修正などによって行うことができるが、これらに限定されるわけではない。画像または教師信号を生成する上で必要な要素については全て、合成画像の画素ごとの誤差の勾配に基づいて、物体の認識結果と教師信号との誤差が大きくなる方向に修正することにより、学習効果の高い「新たな学習データ」を生成できる対象となり得る。

以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。

本発明は、例えば物体のＣＧモデルを含む合成画像から、物体の情報を認識するニューラルネットワークの認識機能を学習する学習装置に利用可能である。

１学習装置
７学習データ生成部
８物体認識部
９学習処理部
Ｍ記録媒体

Claims

物体のＣＧモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成ステップと、
前記学習データを用いて、前記合成画像からニューロ演算によって前記物体の情報を認識する認識機能を学習する学習ステップとを含み、
前記学習データ生成ステップでは、誤差逆伝搬法によって前記合成画像と前記教師信号とから計算される、前記合成画像の画素ごとの誤差の勾配に基づいて、新たな学習データを生成し、
前記学習ステップでは、前記新たな学習データを用いて前記認識機能を学習するとともに、前記誤差の勾配を用いて、前記物体のＣＧモデルのパラメータに関するパラメータ勾配を算出し、前記パラメータ勾配に基づいて、前記物体のＣＧモデルのパラメータを修正することを特徴とする学習方法。
前記学習データ生成ステップでは、前記学習ステップで前記物体のＣＧモデルのパラメータが修正された前記合成画像の一部を他のＣＧモデルで置換して前記新たな学習データを生成することを特徴とする請求項１に記載の学習方法。
前記学習ステップでは、前記物体のＣＧモデルのパラメータに、算出した前記パラメータ勾配に所定の負の係数を乗算した値を加えて、前記パラメータを修正することを特徴とする請求項１または２に記載の学習方法。
前記物体のＣＧモデルの前記パラメータは、前記物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含むことを特徴とする請求項１から３のいずれかに記載の学習方法。
物体のＣＧモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成ステップと、
前記学習データを用いて、前記合成画像からニューロ演算によって前記物体の情報を認識する認識機能を学習する学習ステップとを含み、
前記学習データ生成ステップでは、誤差逆伝搬法によって前記合成画像に含まれる複数のＣＧモデルごとに算出される、前記合成画像の画素ごとの誤差の勾配に基づいて、前記合成画像に含まれる前記ＣＧモデルを他のＣＧモデルで置換して新たな学習データを生成し、
前記学習ステップでは、前記新たな学習データを用いて前記認識機能を学習することを特徴とする学習方法。
前記学習データ生成ステップでは、前記合成画像をニューロ演算によって異なる画質に変換することを特徴とする請求項１から５のいずれかに記載の学習方法。
物体のＣＧモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成部と、
ニューロ演算によって入力画像に含まれる物体の情報を認識する物体認識部と、
前記物体認識部の認識機能を学習する学習処理部とを備え、
前記学習処理部は、誤差逆伝搬法によって前記合成画像と前記教師信号とから前記合成画像の画素ごとの誤差の勾配を計算し、
前記学習データ生成部は、前記誤差の勾配に基づいて、新たな学習データを生成し、
前記学習処理部は、前記新たな学習データを用いて前記認識機能を学習するとともに、前記誤差の勾配を用いて、前記物体のＣＧモデルのパラメータに関するパラメータ勾配を算出し、前記パラメータ勾配に基づいて、前記物体のＣＧモデルのパラメータを修正することを特徴とする学習装置。
前記学習データ生成部は、前記学習処理部によって前記物体のＣＧモデルのパラメータが修正された前記合成画像の一部を他のＣＧモデルで置換して前記新たな学習データを生成することを特徴とする請求項７に記載の学習装置。
前記学習処理部は、前記物体のＣＧモデルのパラメータに、算出した前記パラメータ勾配に所定の負の係数を乗算した値を加えて、前記パラメータを修正することを特徴とする請求項７または８に記載の学習装置。
前記物体のＣＧモデルの前記パラメータは、前記物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含むことを特徴とする請求項７から９のいずれかに記載の学習装置。
物体のＣＧモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成部と、
ニューロ演算によって入力画像に含まれる物体の情報を認識する物体認識部と、
前記物体認識部の認識機能を学習する学習処理部とを備え、
前記学習処理部は、誤差逆伝搬法によって前記合成画像に含まれる複数のＣＧモデルごとに、前記合成画像の画素ごとの誤差の勾配を計算し、
前記学習データ生成部は、画素ごとの前記誤差の勾配に基づいて、前記合成画像に含まれる前記ＣＧモデルを他のＣＧモデルで置換して、新たな学習データを生成し、
前記学習処理部は、前記新たな学習データを用いて前記認識機能を学習することを特徴とする学習装置。
前記学習データ生成部は、前記合成画像をニューロ演算によって異なる画質に変換することを特徴とする請求項７から１１のいずれかに記載の学習装置。
請求項１から６のいずれかに記載の学習方法をコンピュータに実行させるためのプログラム。
請求項１３に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。