JP7167668B2 - 学習方法、学習装置、プログラムおよび記録媒体 - Google Patents

学習方法、学習装置、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP7167668B2
JP7167668B2 JP2018225420A JP2018225420A JP7167668B2 JP 7167668 B2 JP7167668 B2 JP 7167668B2 JP 2018225420 A JP2018225420 A JP 2018225420A JP 2018225420 A JP2018225420 A JP 2018225420A JP 7167668 B2 JP7167668 B2 JP 7167668B2
Authority
JP
Japan
Prior art keywords
learning
model
learning data
image
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018225420A
Other languages
English (en)
Other versions
JP2020087310A (ja
Inventor
大気 関井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2018225420A priority Critical patent/JP7167668B2/ja
Priority to US16/679,620 priority patent/US11113606B2/en
Publication of JP2020087310A publication Critical patent/JP2020087310A/ja
Priority to JP2022168157A priority patent/JP7416170B2/ja
Application granted granted Critical
Publication of JP7167668B2 publication Critical patent/JP7167668B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Description

本発明は、物体のCG(Computer Graphics)モデルを含む合成画像から、物体の情報を認識するニューラルネットワークの認識機能を学習するための学習方法、学習装置、プログラムおよび記録媒体に関する。なお、CGモデルとは、CG技術によって作成した画像または画像データを指す。
画像中の物体の情報(物体の存在の有無、物体の種類、物体の動作など)をDNN(Deep Neural Network)によって学習・認識する技術は、監視カメラシステムなどの多くのアプリケーションにとって有用である。認識対象である物体の情報に関して、物体の見え方や外観のバリエーションが多い場合、想定されるシーンの学習データ(画像および教師信号)を準備する人的コストが高くなる。
従来、人的コスト抑制のために、CGモデルを用いた学習データの自動生成が試みられている。例えば特許文献1では、背景画像とCGモデルとを重畳させて教師画像データを生成するようにしている。
特開2018-124939号公報(請求項1、段落〔0017〕、図1等参照)
ところが、CGモデルを用いて学習データを自動生成する場合でも、従来は、生成するCGモデルのバリエーションに関するパラメータは、人(ユーザ)が予め設定していた。そのため、CG技術によって生成されるシーンが冗長である(例えば似ている)など、学習効果の低い画像しか生成されず、そのような画像を用いて学習を行った場合に、画像中の物体の情報の認識精度が低下する問題があった。
本発明は、上記の問題点を解決するためになされたもので、その目的は、物体のCGモデルを含む画像として学習効果の高い画像を得ることができ、上記画像を用いた学習によって画像認識の精度を向上させることができる学習方法、学習装置、プログラムおよび記録媒体を提供することにある。
本発明の一側面に係る学習方法は、物体のCGモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成ステップと、前記学習データを用いて、前記合成画像からニューロ演算によって前記物体の情報を認識する認識機能を学習する学習ステップとを含み、前記学習データ生成ステップでは、誤差逆伝搬法によって前記合成画像と前記教師信号とから計算される、前記合成画像の画素ごとの誤差の勾配に基づいて、新たな学習データを生成し、前記学習ステップでは、前記新たな学習データを用いて前記認識機能を学習する。
本発明の他の側面に係る学習装置は、物体のCGモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成部と、ニューロ演算によって入力画像に含まれる物体の情報を認識する物体認識部と、前記物体認識部の認識機能を学習する学習処理部とを備え、前記学習処理部は、誤差逆伝搬法によって前記合成画像と前記教師信号とから前記合成画像の画素ごとの誤差の勾配を計算し、前記学習データ生成部は、前記誤差の勾配に基づいて、新たな学習データを生成し、前記学習処理部は、前記新たな学習データを用いて前記認識機能を学習する。
本発明のさらに他の側面に係るプログラムは、上記した学習方法をコンピュータに実行させるためのプログラムである。
本発明のさらに他の側面に係る記録媒体は、上記プログラムを記録した、コンピュータ読取可能な記録媒体である。
物体のCGモデルを含む画像として学習効果の高い画像を得ることができ、上記画像を用いた学習によって画像認識の精度を向上させることができる。
本発明の実施の形態に係る学習装置の概略の構成を示すブロック図である。 上記学習装置による学習方法の処理の流れを示すフローチャートである。 上記学習方法による処理を模式的に示す説明図である。 合成画像において、誤差の勾配の絶対値が異なる領域を模式的に示す説明図である。 上記学習装置による他の学習方法の処理の流れを示すフローチャートである。
本発明の実施の形態について、図面に基づいて説明すれば、以下の通りである。なお、本発明は、以下の内容に限定されるわけではない。
〔学習装置の構成〕
図1は、本実施形態の学習装置1の概略の構成を示すブロック図である。学習装置1は、例えば、パーソナルコンピュータなどの端末装置で構成されている。この学習装置1は、入力部2と、記憶部3と、表示部4と、通信部5と、読取部6と、学習データ生成部7と、物体認識部8と、学習処理部9と、制御部10とを有している。
入力部2は、例えばキーボード、マウス、タッチパッド、タッチパネルなどで構成されており、ユーザによる各種の指示入力を受け付ける。
記憶部3は、各種のデータを記憶するメモリである。上記各種のデータには、制御部10の動作プログラムや、後述する学習データの生成に必要なデータ、すなわち、物体のCGモデル、他のモデル(例えば背景の画像)、上記物体の教師信号などが含まれる。上記教師信号には、例えば、物体の正解のクラスを示すラベル、物体の位置(XYZの各軸方向の位置)、物体の回転角度(XYZの各軸周りの回転角度)、物体の色などの情報が含まれる。なお、学習データの生成に必要な上記データは、学習装置1の外部の端末装置やサーバーに記憶されてもよい。
このような記憶部3は、例えばハードディスクで構成されるが、RAM(Random Access Memory)、ROM(Read Only Memory)、光ディスク、光磁気ディスク、不揮発性メモリなどの記録媒体から適宜選択して構成されてもよい。
表示部4は、各種の情報を表示するデバイスであり、例えば液晶表示装置で構成される。通信部5は、外部の端末装置やサーバーと通信するためのインターフェースであり、入出力端子などを含んで構成される。なお、学習装置1と外部の端末装置等との間の通信形態は、有線ケーブルやLAN(Local Area Network)などの通信回線を介した通信であってもよいし、無線通信であってもよい。後者の場合、通信部5は、アンテナ、送受信回路、変調回路、復調回路などをさらに含んで構成される。
読取部6は、記録媒体Rに記録された情報(例えば制御部10の動作プログラム)を読み取る装置であり、例えばディスクドライブで構成される。なお、記録媒体Rが可搬型の不揮発性メモリである場合、上記不揮発性メモリの接続部が指し込まれる接続ポートも読取部6に含まれるとする。
学習データ生成部7、物体認識部8および学習処理部9は、例えばGPU(Graphics Processing Unit)で構成されている。GPUは、リアルタイムな画像処理に特化した演算装置である。
学習データ生成部7は、物体のCGモデルを含む合成画像と、上記物体の教師信号とを有する学習データを生成する。このような学習データの生成は、学習データ生成部7が、記憶部3から、物体のCGモデルと他のモデルとを読み出し、これらを合成して合成画像を生成するとともに、記憶部3から、上記物体の教師信号を読み出し、上記合成画像と上記教師信号とを組み合わせることで行うことができる。
特に、学習データ生成部7は、画像合成部7aと、画質変換部7bとを含む。画像合成部7aは、記憶部3に記憶されている物体のCGモデルと、他のモデルとを合成して合成画像を生成する。なお、上記他のモデルは、CGモデルであってもよいし、カメラでの撮影によって取得された画像であってもよい。
画質変換部7bは、画像合成部7aにて生成した合成画像を、該合成画像とは異なる画質の画像に変換する。例えば、画質変換部7aは、複数のCGモデルを合成した合成画像を、現実的な画像(実際の撮影によって得られる、CGらしくない画像)に近づくように、画質を変換する。このような画質変換技術としては、DRIT(Diverse Image-to-Image Translation via Disentangled Representations)を用いることができる。
画質変換部7bは、例えば畳み込み型ニューラルネットワーク(CNN;Convolutional Neural Network)などの機械学習が可能なネットワークで構成されている。合成画像の入力に対して、CNNでの演算により、合成画像の画質を変換した画像が得られる。したがって、画質変換部7bは、画像合成部7aにて生成した合成画像をニューロ演算によって異なる画質に変換すると言うこともできる。なお、本実施形態では、画質変換部7bによる画質変換を必ずしも行う必要はなく、それゆえ、画質変換部7bを省略して学習データ生成部7を構成することも可能である。
物体認識部8は、例えばCNNで構成されており、ニューロ演算によって入力画像に含まれる物体の情報を認識(推定)し、その認識結果を出力する。上記認識結果には、推定された物体のクラス(種類)およびスコアが含まれる。
学習処理部9は、学習データ生成部7で生成された学習データ(合成画像+教師データ)を用いて、物体認識部8の認識機能を学習する。ここで、「認識機能を学習する」とは、本実施形態のように物体認識部8がCNNで構成されている場合、CNNの畳み込み層、プーリング層および出力層を構成する各ノードの重みを、CNNでの認識結果と教師信号との誤差に基づいて調整することを言う。
制御部10は、例えば中央演算処理装置(CPU;Central Processing Unit)で構成されており、記憶部3に記憶された動作プログラムに従って動作し、学習装置1の各部の動作を制御する。
〔学習方法〕
次に、本実施形態の学習方法について説明する。図2は、図1の学習装置1による学習方法の処理の流れを示すフローチャートである。また、図3は、上記学習方法による処理を模式的に示す説明図である。本実施形態の学習方法は、学習データ生成ステップ(S1)と、学習ステップ(S2)とを含む。以下、より詳細に説明する。
(S1;学習データ生成ステップ)
S1では、まず、制御部10のカウンタ(図示せず)のカウント値nを、n=1に設定する(S11)。なお、カウント値nは、ここでは学習回数を示す値とする。そして、学習データ生成部7は、物体のCGモデルを含む合成画像と、上記物体の教師信号とを有する学習データを生成する。
例えば、学習データ生成部7の画像合成部7aは、記憶部3に記憶された(予め準備された)複数のCGモデルの中から、物体のCGモデルM1(便宜的に「前景物体画像」とも呼ぶ)と、別のCGモデルM2(便宜的に「背景物体画像」とも呼ぶ)とをランダムに選択して読み出すとともに、上記物体の教師信号Tを読み出す(S12)。そして、読み出したCGモデルM1およびM2をCG技術によって合成して合成画像Mを生成し(S13)、合成画像Mと教師信号Tとを組み合わせて学習データとする。物体のCGモデルM1、CGモデルM2、教師信号Tとしては、例えば、「鳥」、「地面」、「鳥であることを示すラベル」、をそれぞれ考えることができる。なお、記憶部3から読み出すCGモデルは、3つ以上であってもよい。
続いて、学習データ生成部7の画質変換部7b(CNN)は、合成画像Mをニューロ演算によって異なる画質に変換する(S14)。これにより、合成画像Mよりもカメラで撮影した画像に近い合成画像M’が得られる。なお、S14の工程は、必要に応じて行われればよい。以下、「合成画像M’」は、適宜「合成画像M」に置き換えることができるとする。
(S2;学習ステップ)
次に、学習処理部9は、S1で作成した学習データを用いて、合成画像M’からニューロ演算によって、合成画像M’に含まれる物体の情報を認識する認識機能を学習する。より具体的には、以下の通りである。
まず、合成画像M’を物体認識部8(CNN)に入力し、物体認識部8にて、ニューロ演算による物体の認識結果を得る(S21)。そして、学習処理部9は、物体の認識結果と教師信号Tとの誤差Eを計算し(S22)、上記誤差を物体認識部8および画質変換部7bの順に逆伝搬して(誤差逆伝搬法)、物体認識部8および画質変換部7bを構成するCNNを学習する(S23)。これにより、学習処理部9は、変換前の合成画像Mの画素ごとの誤差の勾配を求めることができる(S24)。
ここで、「誤差の勾配」とは、物体の認識結果の誤差Eを、CNNのノードの出力値yで偏微分した値(∂E/∂y)を指し、誤差逆伝搬法によってノードの重みwに関する誤差Eの偏微分の値(∂E/∂w)を求める演算式において、微分の連鎖によって登場する項を指す。
すなわち、入力側からi番目の層の各ノードのそれぞれから信号yiを受け取り、それぞれの重みwijを掛けて全て足し合わせた値vjが、入力側からj番目の層に入力される場合を考える。この場合、
vj=Σ(wij・yi)
である。次に、このvjを入力としてj番目の層の出力yjを計算すると、
yj=φj(vj)
となる。ここで、φは、活性化関数である。
誤差Eを重みwijで偏微分するとき、微分の連鎖律により、
∂E/∂wij=(∂E/∂yj)・(∂yj/∂vj)・(∂vj/∂wij
が成り立つ。上式の右辺の第1項が、上述した「誤差の勾配」に相当する。この「誤差の勾配」は、j番目の層の入力値yj、つまり、i番目の層の各ノードの出力値(画素の値)が、誤差Eにどのくらい影響しているかを示す。したがって、i番目の層をCNNの入力層と考えることにより、入力画像の画素のごとの誤差の勾配、すなわち、合成画像Mの画素ごとの誤差の勾配を求めることができる。なお、CNNの層数がさらに増えても、上記と同様の考え方(微分の連鎖)に基づいて、合成画像Mの画素ごとの誤差の勾配を求めることができる。
次に、学習処理部9は、カウント値nが所定値kに達したか否かを判断する(S25)。所定値kは、物体認識部8の学習回数として、ユーザによって予め設定された値である。なお、所定値kはデフォルトで設定されていてもよい。S25にて、n=kである場合、物体認識部8の学習が所定回数行われたとして、処理を終了する。
一方、S25にて、n=kでない場合、学習処理部9は、カウント値nをインクリメントし、n=n+1とする(S26)。次に、学習処理部9は、合成画像Mの合成に用いたCGモデルM1およびCGモデルM2のそれぞれについて、上記で求めた誤差の勾配の絶対値の全画素(各モデルの領域)の平均を算出する(S27)。そして、学習処理部9は、CGモデルM1とCGモデルM2とのうち、上記平均が最も高いCGモデル以外のCGモデルを特定し、特定したCGモデルと置換すべき他のCGモデルを、記憶部3の中からランダムに選択する(S28)。
図4は、合成画像Mにおいて、誤差の勾配の絶対値が異なる領域を模式的に示している。図中、ハッチングを付した領域は、ハッチングを付していない領域に比べて、誤差の勾配の絶対値が閾値よりも大きいことを示している。すなわち、同図の例では、物体のCGモデルM1(前景物体画像)のほうが、CGモデルM2(背景物体画像)よりも、誤差の勾配の絶対値の平均が大きい。この場合、学習処理部9は、誤差の勾配の絶対値の平均がより小さいCGモデルM2を、他のCGモデルと置換すべきCGモデルと判断する。
なお、合成画像を構成するCGモデルが3つ以上ある場合、誤差の勾配の絶対値の平均が最も高いCGモデル以外の少なくとも1つのCGモデルを特定し、特定したCGモデルと置換すべき他のCGモデルを、記憶部3の中から選択すればよい。すなわち、合成画像中で他のCGモデルと置換すべきCGモデルは、2つ以上であってもよい。
次に、S13に戻り、学習データ生成部7は、合成画像Mの一部を、S28で選択された他のCGモデルで置換する。S13以降の工程は、S25にてn=kとなるまで、つまり、学習回数が所定回数に達するまで、繰り返し行われる。したがって、2回目以降の学習ステップでは、上記他のCGモデルで置換した後の合成画像を有する学習データを用いて、物体認識部8の認識機能を学習することになる(S21~S23)。
〔効果〕
以上のように、S1の学習データ生成ステップでは、誤差逆伝搬法によって合成画像M(またはM’)と教師信号Tとから計算される、合成画像Mの画素ごとの誤差の勾配に基づいて、合成画像Mの一部を他のCGモデルで置換して、新たな学習データを生成する(S13)。これにより、物体認識部8でのニューロ演算による物体の情報の認識結果と教師信号Tとの誤差が置換前よりも大きくなるような合成画像を得ることができる。つまり、人がパラメータを設定して生成したバリエーションの合成画像よりも、学習効果の高い(認識し難い)合成画像を得ることができる。したがって、S2の学習ステップにおいて、他のCGモデルで置換した後の合成画像を含む上記新たな学習データを用いて、物体認識部8の認識機能を学習することにより(S23)、高い学習効果を得ることができ、物体認識部8における画像認識の精度を向上させることができる。
特に、学習処理部9は、合成画像Mに含まれる複数のCGモデルごとに、画素ごとの誤差の勾配の絶対値の平均を算出し(S27)、学習データ生成部7は、上記平均が最も高いCGモデル以外のCGモデルを、他のCGモデルで置換する(S13)。このように、画素ごとの誤差の勾配に基づいて、合成画像に含まれるCGモデルを他のCGモデルで置換することにより、物体認識部8での認識結果と教師信号Tとの誤差が置換前よりも大きい合成画像を確実に得ることができる。したがって、置換後の合成画像を含む新たな学習データを用いて学習を行うことにより、高い学習効果を確実に得ることができ、画像認識の精度を確実に向上させることができる。
また、S1の学習データ生成ステップでは、合成画像Mをニューロ演算によって異なる画質に変換する(S14)。この画質変換により、物体認識部8でのニューロ演算による認識結果と教師信号Tとの誤差が、画質変換を行わない場合に比べて大きくなるような合成画像M’を得ることができる。したがって、このような合成画像M’を用いてS2の学習を行うことにより、さらに高い学習効果を得て、画像認識の精度をさらに向上させることができる。
〔他の学習方法〕
図5は、本実施形態の学習装置1による他の学習方法の処理の流れを示すフローチャートである。図5では、上述したS2の学習ステップにおいて、S26とS27との間に、パラメータ勾配を算出するステップ(S26-1)が加わり、S27とS28との間に、パラメータの修正ステップ(S27-1)が加わっている。それ以外は、図2のフローチャートと同様である。以下、図2と異なる点について説明する。
S26-1では、学習処理部9は、S24で取得した合成画像Mの画素ごとの誤差の勾配を用いて、物体のCGモデルM1のパラメータに関するパラメータ勾配を算出する。ここで、CGモデルM1のパラメータとしては、例えば物体(例えば鳥)の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含む。具体的には、誤差の勾配を物体のCGモデルM1のパラメータで微分することにより、上記パラメータ勾配が得られる。上記パラメータ勾配は、物体のCGモデルM1のパラメータが誤差の勾配にどのくらい影響しているかを示す。
S27-1では、物体のCGモデルM1のパラメータ(例えば物体の三次元位置)に、S26-1で算出したパラメータ勾配に所定の負の係数を乗算した値を加えて、上記パラメータを修正する。
このように、S26-1でパラメータ勾配を求め、S27-1で、上記パラメータ勾配に基づいて、物体のCGモデルM1のパラメータを修正することにより、例えば、物体認識部8での物体の認識結果と教師信号Tとの誤差が大きくなる方向に上記パラメータを修正することができる。これにより、合成画像の一部を他のCGモデルで置換して(S13)、さらに学習効果の高い(認識し難い)合成画像を得ることができる。したがって、上記合成画像を含む新たな学習データを用いて物体認識部8の学習を行うことにより(S23)、高い学習効果をさらに得て、画像認識の精度をさらに向上させることができる。
また、CGモデルのパラメータの数が増大すると、上記パラメータの修正パターンは指数関数的に増大する。例えば、上記パラメータとして、物体の三次元位置、角度、色の3種類を考えただけでも、修正パターンとしては、位置に関して3次元(XYZの各軸方向)、角度に関して3次元(XYZの各軸周り)、色に関してM次元(色がM種類ある場合)の計3×3×Mパターンが存在する。上記パラメータ勾配に基づいて、物体のCGモデルM1のパラメータ(例えば三次元位置)を修正することにより、修正パターンを一意に特定することができ、これによって、学習効果の高い合成画像を容易に得ることができる。
また、物体のCGモデルM1のパラメータに、S26-1で算出したパラメータ勾配に所定の負の係数を乗算した値を加えて、上記パラメータを修正することにより、物体認識部8での認識結果と教師信号Tとの誤差が大きくなる方向に上記パラメータを確実に修正できる。その結果、学習効果の高い(認識し難い)画像を確実に得ることができる。
また、物体のCGモデルM1のパラメータは、物体の三次元位置、角度、色の少なくともいずれかに関する情報を含む。この場合、物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかについて、物体のCGモデルM1を修正して、認識結果と教師信号Tとの誤差が大きい画像、つまり、学習効果の高い画像を得ることができる。
〔プログラムおよび記録媒体〕
本実施形態で説明した学習装置1は、例えば、所定のプログラム(アプリケーションソフトウェア)をインストールしたコンピュータ(PC)で構成することができる。上記プログラムをコンピュータ(例えばCPUとしての制御部10)が読み取って実行することにより、学習装置1の各部を動作させて上述した各処理(各工程)を実行させることができる。このようなプログラムは、例えばネットワークを介して外部からダウンロードすることによって取得されて記憶部3に記憶される。また、上記プログラムは、例えばCD-ROM(Compact Disk-Read Only Memory)などのコンピュータ読取可能な記録媒体Rに記録され、この記録媒体Rから上記プログラムをコンピュータが読み取って記憶部3に記憶される形態であってもよい。
〔その他〕
以上で説明した本実施形態の学習方法、学習装置、プログラムおよび記録媒体は、以下のように表現することができる。
1.物体のCGモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成ステップと、
前記学習データを用いて、前記合成画像からニューロ演算によって前記物体の情報を認識する認識機能を学習する学習ステップとを含み、
前記学習データ生成ステップでは、誤差逆伝搬法によって前記合成画像と前記教師信号とから計算される、前記合成画像の画素ごとの誤差の勾配に基づいて、新たな学習データを生成し、
前記学習ステップでは、前記新たな学習データを用いて前記認識機能を学習することを特徴とする学習方法。
2.前記学習データ生成ステップでは、前記合成画像に含まれる複数のCGモデルごとに算出される、画素ごとの前記誤差の勾配に基づいて、前記合成画像に含まれる前記CGモデルを他のCGモデルで置換することを特徴とする前記1に記載の学習方法。
3.前記学習データ生成ステップでは、前記合成画像をニューロ演算によって異なる画質に変換することを特徴とする前記1または2に記載の学習方法。
4.前記学習ステップでは、前記誤差の勾配を用いて、前記物体のCGモデルのパラメータに関するパラメータ勾配を算出し、前記パラメータ勾配に基づいて、前記物体のCGモデルのパラメータを修正することを特徴とする前記1から3のいずれかに記載の学習方法。
5.前記学習ステップでは、前記物体のCGモデルのパラメータに、算出した前記パラメータ勾配に所定の負の係数を乗算した値を加えて、前記パラメータを修正することを特徴とする前記4に記載の学習方法。
6.前記物体のCGモデルの前記パラメータは、前記物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含むことを特徴とする前記4または5に記載の学習方法。
7.物体のCGモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成部と、
ニューロ演算によって入力画像に含まれる物体の情報を認識する物体認識部と、
前記物体認識部の認識機能を学習する学習処理部とを備え、
前記学習処理部は、誤差逆伝搬法によって前記合成画像と前記教師信号とから前記合成画像の画素ごとの誤差の勾配を計算し、
前記学習データ生成部は、前記誤差の勾配に基づいて、新たな学習データを生成し、
前記学習処理部は、前記新たな学習データを用いて前記認識機能を学習することを特徴とする学習装置。
8.前記学習処理部は、前記合成画像に含まれる複数のCGモデルごとに、画素ごとの前記誤差の勾配を算出し、
前記学習データ生成部は、画素ごとの前記誤差の勾配に基づいて、前記合成画像に含まれる前記CGモデルを他のCGモデルで置換することを特徴とする前記7に記載の学習装置。
9.前記学習データ生成部は、前記合成画像をニューロ演算によって異なる画質に変換することを特徴とする前記7または8に記載の学習装置。
10.前記学習処理部は、前記誤差の勾配を用いて、前記物体のCGモデルのパラメータに関するパラメータ勾配を算出し、前記パラメータ勾配に基づいて、前記物体のCGモデルのパラメータを修正することを特徴とする前記7から9のいずれかに記載の学習装置。
11.前記学習処理部は、前記物体のCGモデルのパラメータに、算出した前記パラメータ勾配に所定の負の係数を乗算した値を加えて、前記パラメータを修正することを特徴とする前記10に記載の学習装置。
12.前記物体のCGモデルの前記パラメータは、前記物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含むことを特徴とする前記10または11に記載の学習装置。
13.前記1から6のいずれかに記載の学習方法をコンピュータに実行させるためのプログラム。
14.前記13に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。
以上、本実施形態では、物体認識部8での認識結果に基づいて、認識困難なCGモデルが適応的に選択されて修正(置換)され、修正後の合成画像を用いて物体認識部8のCNNが学習される。これにより、人が設定したバリエーションよりも学習効果の高い新たな学習データの生成が可能であり、画像認識の精度を向上させることができる。なお、学習効果の高い「新たな学習データの生成」は、CGモデルの修正のほか、CGモデルのパラメータの修正、画質変換パラメータの修正などによって行うことができるが、これらに限定されるわけではない。画像または教師信号を生成する上で必要な要素については全て、合成画像の画素ごとの誤差の勾配に基づいて、物体の認識結果と教師信号との誤差が大きくなる方向に修正することにより、学習効果の高い「新たな学習データ」を生成できる対象となり得る。
以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。
本発明は、例えば物体のCGモデルを含む合成画像から、物体の情報を認識するニューラルネットワークの認識機能を学習する学習装置に利用可能である。
1 学習装置
7 学習データ生成部
8 物体認識部
9 学習処理部
M 記録媒体

Claims (14)

  1. 物体のCGモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成ステップと、
    前記学習データを用いて、前記合成画像からニューロ演算によって前記物体の情報を認識する認識機能を学習する学習ステップとを含み、
    前記学習データ生成ステップでは、誤差逆伝搬法によって前記合成画像と前記教師信号とから計算される、前記合成画像の画素ごとの誤差の勾配に基づいて、新たな学習データを生成し、
    前記学習ステップでは、前記新たな学習データを用いて前記認識機能を学習するとともに、前記誤差の勾配を用いて、前記物体のCGモデルのパラメータに関するパラメータ勾配を算出し、前記パラメータ勾配に基づいて、前記物体のCGモデルのパラメータを修正することを特徴とする学習方法。
  2. 前記学習データ生成ステップでは、前記学習ステップで前記物体のCGモデルのパラメータが修正された前記合成画像の一部を他のCGモデルで置換して前記新たな学習データを生成することを特徴とする請求項1に記載の学習方法。
  3. 前記学習ステップでは、前記物体のCGモデルのパラメータに、算出した前記パラメータ勾配に所定の負の係数を乗算した値を加えて、前記パラメータを修正することを特徴とする請求項1または2に記載の学習方法。
  4. 前記物体のCGモデルの前記パラメータは、前記物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含むことを特徴とする請求項1から3のいずれかに記載の学習方法。
  5. 物体のCGモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成ステップと、
    前記学習データを用いて、前記合成画像からニューロ演算によって前記物体の情報を認識する認識機能を学習する学習ステップとを含み、
    前記学習データ生成ステップでは、誤差逆伝搬法によって前記合成画像に含まれる複数のCGモデルごとに算出される、前記合成画像の画素ごとの誤差の勾配に基づいて、前記合成画像に含まれる前記CGモデルを他のCGモデルで置換して新たな学習データを生成し、
    前記学習ステップでは、前記新たな学習データを用いて前記認識機能を学習することを特徴とする学習方法。
  6. 前記学習データ生成ステップでは、前記合成画像をニューロ演算によって異なる画質に変換することを特徴とする請求項1から5のいずれかに記載の学習方法。
  7. 物体のCGモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成部と、
    ニューロ演算によって入力画像に含まれる物体の情報を認識する物体認識部と、
    前記物体認識部の認識機能を学習する学習処理部とを備え、
    前記学習処理部は、誤差逆伝搬法によって前記合成画像と前記教師信号とから前記合成画像の画素ごとの誤差の勾配を計算し、
    前記学習データ生成部は、前記誤差の勾配に基づいて、新たな学習データを生成し、
    前記学習処理部は、前記新たな学習データを用いて前記認識機能を学習するとともに、前記誤差の勾配を用いて、前記物体のCGモデルのパラメータに関するパラメータ勾配を算出し、前記パラメータ勾配に基づいて、前記物体のCGモデルのパラメータを修正することを特徴とする学習装置。
  8. 前記学習データ生成部は、前記学習処理部によって前記物体のCGモデルのパラメータが修正された前記合成画像の一部を他のCGモデルで置換して前記新たな学習データを生成することを特徴とする請求項7に記載の学習装置。
  9. 前記学習処理部は、前記物体のCGモデルのパラメータに、算出した前記パラメータ勾配に所定の負の係数を乗算した値を加えて、前記パラメータを修正することを特徴とする請求項7または8に記載の学習装置。
  10. 前記物体のCGモデルの前記パラメータは、前記物体の三次元位置、角度、色、模様、形状、反射特性、照明条件の少なくともいずれかに関する情報を含むことを特徴とする請求項7から9のいずれかに記載の学習装置。
  11. 物体のCGモデルを含む合成画像と、前記物体の教師信号とを有する学習データを生成する学習データ生成部と、
    ニューロ演算によって入力画像に含まれる物体の情報を認識する物体認識部と、
    前記物体認識部の認識機能を学習する学習処理部とを備え、
    前記学習処理部は、誤差逆伝搬法によって前記合成画像に含まれる複数のCGモデルごとに、前記合成画像の画素ごとの誤差の勾配を計算し、
    前記学習データ生成部は、画素ごとの前記誤差の勾配に基づいて、前記合成画像に含まれる前記CGモデルを他のCGモデルで置換して、新たな学習データを生成し、
    前記学習処理部は、前記新たな学習データを用いて前記認識機能を学習することを特徴とする学習装置。
  12. 前記学習データ生成部は、前記合成画像をニューロ演算によって異なる画質に変換することを特徴とする請求項7から11のいずれかに記載の学習装置。
  13. 請求項1から6のいずれかに記載の学習方法をコンピュータに実行させるためのプログラム。
  14. 請求項13に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。
JP2018225420A 2018-11-30 2018-11-30 学習方法、学習装置、プログラムおよび記録媒体 Active JP7167668B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018225420A JP7167668B2 (ja) 2018-11-30 2018-11-30 学習方法、学習装置、プログラムおよび記録媒体
US16/679,620 US11113606B2 (en) 2018-11-30 2019-11-11 Learning method, learning device, program, and recording medium
JP2022168157A JP7416170B2 (ja) 2018-11-30 2022-10-20 学習方法、学習装置、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018225420A JP7167668B2 (ja) 2018-11-30 2018-11-30 学習方法、学習装置、プログラムおよび記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022168157A Division JP7416170B2 (ja) 2018-11-30 2022-10-20 学習方法、学習装置、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2020087310A JP2020087310A (ja) 2020-06-04
JP7167668B2 true JP7167668B2 (ja) 2022-11-09

Family

ID=70848710

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018225420A Active JP7167668B2 (ja) 2018-11-30 2018-11-30 学習方法、学習装置、プログラムおよび記録媒体
JP2022168157A Active JP7416170B2 (ja) 2018-11-30 2022-10-20 学習方法、学習装置、プログラムおよび記録媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022168157A Active JP7416170B2 (ja) 2018-11-30 2022-10-20 学習方法、学習装置、プログラムおよび記録媒体

Country Status (2)

Country Link
US (1) US11113606B2 (ja)
JP (2) JP7167668B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7136849B2 (ja) * 2020-07-13 2022-09-13 三菱ロジスネクスト株式会社 学習用データの生成方法、人検知モデルの学習方法、及び学習用データの生成装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6054005B1 (ja) 2015-06-03 2016-12-27 三菱電機株式会社 推論装置及び推論方法
JP2018163444A (ja) 2017-03-24 2018-10-18 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2018185759A (ja) 2017-04-27 2018-11-22 シスメックス株式会社 画像解析方法、装置、プログラムおよび深層学習アルゴリズムの製造方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011113154B4 (de) * 2011-09-14 2015-12-03 Airbus Defence and Space GmbH Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern
US9904849B2 (en) * 2015-08-26 2018-02-27 Digitalglobe, Inc. System for simplified generation of systems for broad area geospatial object detection
US9767565B2 (en) * 2015-08-26 2017-09-19 Digitalglobe, Inc. Synthesizing training data for broad area geospatial object detection
JP6298035B2 (ja) * 2015-12-17 2018-03-20 ファナック株式会社 モデル生成装置、位置姿勢算出装置、およびハンドリングロボット装置
WO2017145960A1 (ja) 2016-02-24 2017-08-31 日本電気株式会社 学習装置、学習方法および記録媒体
US20180308281A1 (en) * 2016-04-01 2018-10-25 draw, Inc. 3-d graphic generation, artificial intelligence verification and learning system, program, and method
US11080918B2 (en) * 2016-05-25 2021-08-03 Metail Limited Method and system for predicting garment attributes using deep learning
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
US10163003B2 (en) * 2016-12-28 2018-12-25 Adobe Systems Incorporated Recognizing combinations of body shape, pose, and clothing in three-dimensional input images
CN110235146A (zh) * 2017-02-03 2019-09-13 西门子股份公司 用于检测图像中的感兴趣对象的方法和装置
JP2018124939A (ja) 2017-02-03 2018-08-09 日本電信電話株式会社 画像合成装置、画像合成方法、及び画像合成プログラム
US10255681B2 (en) * 2017-03-02 2019-04-09 Adobe Inc. Image matting using deep learning
US10692000B2 (en) * 2017-03-20 2020-06-23 Sap Se Training machine learning models
WO2018173800A1 (ja) 2017-03-21 2018-09-27 日本電気株式会社 画像処理装置、画像処理方法及び記録媒体
JP6441980B2 (ja) 2017-03-29 2018-12-19 三菱電機インフォメーションシステムズ株式会社 教師画像を生成する方法、コンピュータおよびプログラム
CN107766929B (zh) * 2017-05-05 2019-05-24 平安科技(深圳)有限公司 模型分析方法及装置
KR102117050B1 (ko) * 2017-09-08 2020-05-29 삼성전자주식회사 이미지 내 휴먼 분리를 위한 전자 장치 및 방법
WO2019060787A1 (en) * 2017-09-21 2019-03-28 Lexset.Ai Llc DETECTION OF AT LEAST ONE OBJECT IN AN IMAGE, OR A SEQUENCE OF IMAGES, AND DETERMINATION OF A CATEGORY AND AT LEAST ONE DESCRIPTOR FOR EACH OF THESE OBJECTS, GENERATION OF SYNTHETIC LEARNING DATA, AND FORMATION OF A NEURONAL NETWORK USING SYNTHETIC LEARNING DATA
US10346721B2 (en) * 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
CN111316291B (zh) * 2017-11-03 2023-06-23 西门子股份公司 用生成式对抗神经网络分割和去噪深度图像用于识别应用
JP7345236B2 (ja) * 2017-11-10 2023-09-15 株式会社小松製作所 作業車両の動作を推定するための方法、システム、学習済みの分類モデルの製造方法、学習データ、及び学習データの製造方法
GB2568475A (en) * 2017-11-15 2019-05-22 Cubic Motion Ltd A method of generating training data
US10755115B2 (en) * 2017-12-29 2020-08-25 Here Global B.V. Method, apparatus, and system for generating synthetic image data for machine learning
US10719742B2 (en) * 2018-02-15 2020-07-21 Adobe Inc. Image composites using a generative adversarial neural network
US10970765B2 (en) * 2018-02-15 2021-04-06 Adobe Inc. Generating user-customized items using a visually-aware image generation network
JP6753874B2 (ja) * 2018-02-16 2020-09-09 日本電信電話株式会社 分散深層学習システム
JP6981543B2 (ja) * 2018-04-13 2021-12-15 日本電気株式会社 動作認識装置、動作認識方法、及びプログラム
US11138731B2 (en) * 2018-05-30 2021-10-05 Siemens Healthcare Gmbh Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium
US10713569B2 (en) * 2018-05-31 2020-07-14 Toyota Research Institute, Inc. System and method for generating improved synthetic images
GB2576322B (en) * 2018-08-13 2022-11-09 Imperial College Innovations Ltd Mapping object instances using video data
US10915787B2 (en) * 2018-11-15 2021-02-09 Toyota Research Institute, Inc. System and method for generating training data from synthetic images
US10860836B1 (en) * 2018-11-15 2020-12-08 Amazon Technologies, Inc. Generation of synthetic image data for computer vision models
US10867444B2 (en) * 2018-11-29 2020-12-15 Adobe Inc. Synthetic data generation for training a machine learning model for dynamic object compositing in scenes
US10885386B1 (en) * 2019-09-16 2021-01-05 The Boeing Company Systems and methods for automatically generating training image sets for an object

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6054005B1 (ja) 2015-06-03 2016-12-27 三菱電機株式会社 推論装置及び推論方法
JP2018163444A (ja) 2017-03-24 2018-10-18 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2018185759A (ja) 2017-04-27 2018-11-22 シスメックス株式会社 画像解析方法、装置、プログラムおよび深層学習アルゴリズムの製造方法

Also Published As

Publication number Publication date
US11113606B2 (en) 2021-09-07
JP2020087310A (ja) 2020-06-04
JP7416170B2 (ja) 2024-01-17
JP2022189901A (ja) 2022-12-22
US20200175376A1 (en) 2020-06-04

Similar Documents

Publication Publication Date Title
JP5520387B2 (ja) 拡張現実における動的モデリングによる頑強なオブジェクト認識
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
CN111199531A (zh) 基于泊松图像融合及图像风格化的交互式数据扩展方法
WO2019093152A1 (ja) 作業車両の動作を推定するための方法、システム、学習済みの分類モデルの製造方法、学習データ、及び学習データの製造方法
JP2022503647A (ja) クロスドメイン画像変換
US10977549B2 (en) Object animation using generative neural networks
KR20220017900A (ko) 단일 이미지-기반 실시간 신체 애니메이션
US20220392162A1 (en) Synthesizing high resolution 3d shapes from lower resolution representations for synthetic data generation systems and applications
JP2021065955A (ja) ロボット制御システム及びその制御方法及びプログラム
JP7416170B2 (ja) 学習方法、学習装置、プログラムおよび記録媒体
WO2022201803A1 (ja) 情報処理装置、情報処理方法、及びプログラム
EP3591620B1 (en) Image processing device and two-dimensional image generation program
AU2022241513B2 (en) Transformer-based shape models
JP6996455B2 (ja) 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
US20230093827A1 (en) Image processing framework for performing object depth estimation
US20230145498A1 (en) Image reprojection and multi-image inpainting based on geometric depth parameters
CN115205487A (zh) 单目相机人脸重建方法及装置
WO2023003642A1 (en) Adaptive bounding for three-dimensional morphable models
CN114359961A (zh) 行人属性识别方法及相关设备
CN113454678A (zh) 三维面部扫描增强
KR102549778B1 (ko) 다시점에 관련한 복수의 이미지에 대한 전처리를 수행하고, 전처리된 복수의 이미지를 통해 큐브맵을 생성하기 위한 방법, 서버 및 컴퓨터 프로그램
KR102583675B1 (ko) 이미지 분류 방법 및 시스템
US20230290057A1 (en) Action-conditional implicit dynamics of deformable objects
WO2024075251A1 (ja) データ生成システム、産業機械、データ生成方法、およびデータ生成プログラム
JP7035912B2 (ja) 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221010

R150 Certificate of patent or registration of utility model

Ref document number: 7167668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150