JP2019197311A - 学習方法、学習プログラム、および学習装置 - Google Patents

学習方法、学習プログラム、および学習装置 Download PDF

Info

Publication number
JP2019197311A
JP2019197311A JP2018089931A JP2018089931A JP2019197311A JP 2019197311 A JP2019197311 A JP 2019197311A JP 2018089931 A JP2018089931 A JP 2018089931A JP 2018089931 A JP2018089931 A JP 2018089931A JP 2019197311 A JP2019197311 A JP 2019197311A
Authority
JP
Japan
Prior art keywords
neural network
learning
loss
input
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018089931A
Other languages
English (en)
Inventor
辰也 佐々木
Tatsuya Sasaki
辰也 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2018089931A priority Critical patent/JP2019197311A/ja
Publication of JP2019197311A publication Critical patent/JP2019197311A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】人の横顔の画像から正面の顔の画像を生成する場合において、コンピューターの計算量を低減しつつ、後段の認識タスクの認識精度を維持または向上できる学習方法、学習プログラム、および学習装置を提供する。【解決手段】生成器として機能する第1のニューラルネットワーク210と、識別器として機能する第2のニューラルネットワーク220を有するニューラルネットワークを学習させる方法であって、第1のニューラルネットワークのロスを算出するための正則化項の係数を第1の入力データに応じて変更するステップ(S107)と、上記係数および第1のニューラルネットワークの出力データに基づいて、第1のニューラルネットワークのロスを算出するステップ(S108)と、算出された上記ロスを使用して第1のニューラルネットワークを学習させるステップ(S109)と、を有する学習方法。【選択図】図4

Description

本発明は、学習方法、学習プログラム、および学習装置に関する。
近年、ディープラーニング(深層学習)に関する技術の進展が著しい。ディープラーニングは、ディープニューラルネットワーク(DNN:Deep Neural Network)と称される人間の脳を模して作られたアルゴリズムにより実現される。
ディープラーニングを用いた技術として、敵対的生成ネットワーク(GAN:Generative Adversarial Network)が知られている(非特許文献1)。GANは、生成器(Generator)と識別器(Discriminator)の2つのDNNを競合させながら学習させていく生成モデルであり、他の生成モデルと比較してくっきりとした画像が得られる傾向がある。
非特許文献1では、人の横顔を撮像して得られた横顔の画像から、その人の正面の顔の画像を推定し、生成する技術が開示されている。この技術では、目、鼻、口など顔の部分の正面の画像を個別に生成するローカル経路と、全体的な正面の顔の画像を生成するグローバル経路と、を有し、生成された、顔の部分的な正面の画像と全体的な正面の顔の画像とを合成して正面の顔の画像を生成している。また、正面の顔の左右対称性に関する損失関数により損失(以下、「ロス」という)を算出し、正面の顔の左右対称性を考慮することにより、生成画像の「見た目」の改善を図っている。
また、非特許文献2では、識別器への入力を所定の小区画(たとえば70ピクセル×70ピクセル)に分割し、各小区画単位で識別器を学習させることにより、計算量を削減しつつ、出力の精度を向上させることを目的としている。
Rui Huang 外3名、「Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis」、ARXIV、eprint arXiv:1704.04086、2017年4月 Phllip Isola 他3名、「Image−to−Image Translation with Conditional Adversarial Networks」、ARXIV、eprint arXiv:1611.07004、2017年11月
しかしながら、非特許文献1の技術では、ローカル経路およびグローバル経路は、それぞれDNNを含み、それぞれのDNNにおいて学習が行われ、ローカル経路は、顔の部分の数に応じて複数の生成器を必要とするので、計算量が多くなるという問題がある。また、顔の左右対称性に関するロスを導入することにより生成画像の「見た目」は改善されるものの、顔の左右対称化を進め過ぎると、たとえば後段の顔認識タスクに生成画像を入力した場合における認識精度が低下するという問題もある。
また、非特許文献2の技術では、識別器への入力を所定の小区画に分割しているものの、分割の単位が一律であるので、目、鼻、口など大きさの異なる部分を含む顔の正面化には適していない。
本発明は、上述した課題に鑑みてなされたものである。したがって、本発明の目的は、人の横顔の画像から正面の顔の画像を生成する場合において、計算量を低減しつつ、後段の認識タスクの認識精度を維持または向上できる学習方法、学習プログラム、および学習装置を提供することである。
本発明の上記目的は、下記の手段によって達成される。
(1)第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習方法であって、前記第1のニューラルネットワークのロスを算出するための正則化項の係数を前記第1の入力データに応じて変更するステップ(a)と、前記係数および前記出力データに基づいて、前記第1のニューラルネットワークのロスを算出するステップ(b)と、算出された前記ロスを使用して前記第1のニューラルネットワークを学習させるステップ(c)と、を有する学習方法。
(2)前記ステップ(a)の前に、前記第1の入力データに関する属性を推定するタスクを学習するステップをさらに有し、前記ステップ(a)では、前記ロスのうち、左右対称性に関するロスの正則化項の係数を、前記タスクによる前記属性の推定の最適化問題のパラメーターとした場合に、前記タスクによる推定の精度を最大化するように、前記係数を前記第1の入力データに応じて変更する、上記(1)に記載の学習方法。
(3)前記第1の入力データは、人物の画像データであり、前記タスクは、前記人物の年齢を推定するタスク、前記人物の性別を推定するタスク、および前記人物の姿勢を推定するタスクのうちの少なくとも1つである、上記(2)に記載の学習方法。
(4)前記第1の入力データは、人物の画像データであり、前記タスクは、前記人物の姿勢を推定するタスクであり、前記ステップ(a)では、前記人物の顔の向きが正面に対して45度未満の場合は、前記係数を無効とし、45度以上の場合は、有効とする、上記(2)に記載の学習方法。
(5)前記第2のニューラルネットワークへ入力される前記出力データの有効範囲およびその重みを前記第1の入力データに応じて切り替えるステップ(d)と、前記出力データおよび前記第2の入力データに基づいて、前記第2のニューラルネットワークのロスを算出するステップ(e)と、算出された前記ロスを使用して前記第2のニューラルネットワークを学習させるステップ(f)と、をさらに有する、上記(1)〜(4)のいずれか1つに記載の学習方法。
(6)第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習方法であって、前記第2のニューラルネットワークへ入力される前記出力データの有効範囲およびその重みを前記第1の入力データに応じて切り替えるステップ(a)と、前記出力データおよび前記第2の入力データに基づいて、前記第2のニューラルネットワークのロスを算出するステップ(b)と、算出された前記ロスを使用して前記第2のニューラルネットワークを学習させるステップ(c)とを有する、学習方法。
(7)前記ステップ(a)の前に、前記第1の入力データに関する属性を推定するタスクを学習するステップをさらに有し、前記ステップ(a)では、前記タスクが前記出力データの画像内において着目している範囲を特定し、特定された当該範囲を前記第2のニューラルネットワークに入力される前記有効範囲とする、上記(6)に記載の学習方法。
(8)前記第2のニューラルネットワークに入力される前記出力データは、人物の画像データであり、前記ステップ(a)では、顔検出が可能になるまで前記第1および第2のニューラルネットワークの学習が進んだ段階において、前記出力データから顔におけるランドマークを検出し、検出された前記顔におけるランドマークを各々含む範囲を前記第2のニューラルネットワークに入力される前記有効範囲とし、それ以外の範囲を所定サイズのパッチとする、上記(6)に記載の学習方法。
(9)前記ステップ(a)の前に、前記第1の入力データに関する属性を推定するタスクを学習するステップをさらに有し、前記ステップ(a)では、前記有効範囲、前記パッチの重み、および前記パッチのサイズのうちの少なくともいずれかを、前記タスクによる前記属性の推定の最適化問題のパラメーターとした場合に、前記タスクによる推定の精度を最大化する、上記(8)に記載の学習方法。
(10)前記出力データは、人物の画像データであり、前記タスクは、前記人物の年齢を推定するタスク、前記人物の性別を推定するタスク、および前記人物の姿勢を推定するタスクのうちの少なくとも1つである、上記(7)または(9)に記載の学習方法。
(11)第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習プログラムであって、前記第1のニューラルネットワークのロスを算出するための正則化項の係数を前記第1の入力データに応じて変更する手順(a)と、前記係数および前記出力データに基づいて、前記第1のニューラルネットワークのロスを算出する手順(b)と、算出された前記ロスを使用して前記第1のニューラルネットワークを学習させる手順(c)と、をコンピューターに実行させるための学習プログラム。
(12)第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習プログラムであって、前記第2のニューラルネットワークへ入力される前記出力データの有効範囲およびその重みを前記第1の入力データに応じて切り替える手順(a)と、前記出力データおよび前記第2の入力データに基づいて、前記第2のニューラルネットワークのロスを算出する手順(b)と、算出された前記ロスを使用して前記第2のニューラルネットワークを学習させる手順(c)と、をコンピューターに実行させるための学習プログラム。
(13)第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習装置であって、前記第1のニューラルネットワークのロスを算出するための正則化項の係数を前記第1の入力データに応じて変更するロス変更部と、前記係数および前記出力データに基づいて、前記第1のニューラルネットワークのロスを算出するロス算出部と、を有し、前記第1のニューラルネットワークは、算出された前記ロスを使用して学習する、学習装置。
(14)第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習装置であって、前記第2のニューラルネットワークへ入力される前記出力データの有効範囲およびその重みを前記第1の入力データに応じて切り替える構造変更部と、前記出力データおよび前記第2の入力データに基づいて、前記第2のニューラルネットワークのロスを算出するロス算出部と、を有し、前記第2のニューラルネットワークは、算出された前記ロスを使用して学習する、学習装置。
本発明によれば、生成器の学習段階において、生成器の対称性ロスの正則化項の係数を入力画像データに応じて切り替えるので、生成器によって生成される生成画像における顔の対称性を不必要に高めることを回避できる。したがって、生成画像を後段の認識タスクに入力した場合における認識精度を向上できる。また、識別器の学習段階において、識別器への入力画像の有効範囲およびその重みを入力画像に応じて切り替えることにより、識別器のロスを切り替えるので、生成器を増加させずに、横顔から正面の顔の画像を細部まで精度よく識別できる。その結果、生成器を増加させないので、従来の技術と比べて演算部の計算量を低減することが可能である。
一実施形態に係る学習装置の概略構成を示すブロック図である。 一実施形態に係るGANの生成器の学習段階におけるGANの概略構成を示すブロック図である。 図2に示すロス変更部の概略構成を例示するブロック図である。 学習装置により実行される生成器学習処理の手順を例示するフローチャートである。 対称性ロスの正則化項の係数をパラメーターとした場合の属性推定タスクの最適化を例示する概念図である。 一実施形態のGANの識別器の学習段階におけるGANの概略構成を例示するブロック図である。 図6に示す構造変更部の概略構成を例示するブロック図である。 識別器への入力画像の有効領域およびパッチの設定を例示する模式図である。 学習装置により実行される識別器学習処理の手順を例示するフローチャートである。 有効領域、パッチの重み、またはパッチのサイズをパラメーターとした場合の属性推定タスクの最適化を例示する概念図である。
(一実施形態)
以下、図面を参照して、本発明の実施形態を詳細に説明する。図1は、本発明の一実施形態に係る学習装置の概略構成を示すブロック図である。学習装置100は、演算部110、記憶部120、表示部130、入力部140、および通信インターフェース150を備えており、これらは信号をやり取りするためのバス160を介して相互に接続されている。
演算部110は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)を含み、プログラムにしたがって、上記各部の制御や各種の演算処理を行う。
記憶部120は、予め各種プログラムや各種データを格納しておくROM(Read Only Memory)、作業領域として一時的にプログラムやデータを記憶するRAM(Random Access Memory)、各種プログラムや各種データを格納するハードディスク等からなる。
表示部130は、たとえば、液晶ディスプレイであり、各種の情報を表示する。
入力部140は、マウス等のポインティングデバイスやキーボードを含み、各種の入力を行うために使用される。
通信インターフェース150は、他の機器と通信するためのインターフェースであり、イーサネット(登録商標)、トークンリング、およびFDDI(Fiber Distributed Data Interface)等の規格が用いられる。
なお、学習装置100は、上記構成要素以外の構成要素を含んでいてもよく、あるいは、上記構成要素のうちの一部が含まれていなくてもよい。
次に、図2を参照して、本実施形態の学習装置100において用いられるGAN(Conditional GAN)について説明する。GANは、ニューラルネットワークで構成される生成器と識別器とが、既知の入力データを使用して交互に学習を行うことにより進化し、未知の入力データに対する適用性を高めていくように構成されている。
<生成器210の学習段階の構成>
図2は本実施形態のGANの生成器の学習段階におけるGANの概略構成を示すブロック図であり、図3は図2に示すロス変更部の概略構成を例示するブロック図である。なお、以下では、学習装置100が、人の横顔を撮像して得られた画像データ(以下、「横顔画像データ」と称する)310から、正面の顔の画像データ330を生成する顔向き補正を行う場合を例に挙げて説明する。
図2に示すとおり、GAN200は、生成器210、識別器220、ロス算出部230、およびロス変更部240を備えている。
本実施形態では、横顔画像データ310と、横顔画像データ310の人物と同一人物の顔を正面から撮像して得られた、「本物」としての正面顔画像データ320とが複数人分(たとえば、10000人分)用意されている。横顔画像データ310は、生成器210に入力される画像データ(第1の入力データ)である。また、正面顔画像データ320は、第2の入力データとして、識別器220に入力される。
生成器210は、横顔画像データ310から特徴量を抽出し、当該特徴量に基づいて画像データ330(出力データ)を生成するとともに、画像データ330が正面顔画像データ320に近付くように学習する第1のニューラルネットワークである。生成器210は、エンコーダ・デコーダ型のDNNであり、入力された横顔画像データ310に対してコンボリューションおよびデコンボリューション処理を行い、横顔画像データ310から画像データ330を生成する。また、生成器210は、画像データ330に基づいて算出される生成器210のロスの値を最小化するように、誤差逆伝播法により重み係数を更新して学習する。なお、生成器210のロスの詳細については後述する。
識別器220は、エンコーダ型のDNN(第2のニューラルネットワーク)であり、入力された画像データを識別する。識別器220には、画像データ330および正面顔画像データ320のうちのいずれか一方が入力される。識別器220は、入力された画像データに対してコンボリューション処理を行い、入力された画像データが「本物」の正面顔画像データ320である確率を出力する。また、識別器220は、入力画像データが正面顔画像データ320である確率を算出するとともに、生成器210により生成された画像データ330と「本物」の正面顔画像データ320とを正確に分類できるように学習する。なお、生成器210の学習段階においては、識別器220のDNNの重み係数は固定の値が使用される。
ロス算出部230は、ニューラルネットワークで構成され、ロスを算出し、生成器210に伝達する。本実施形態では、ロス算出部230により、交差エントロピーロス(cross entropy loss)Lceに適当な係数αをかけたαLceに、下記の合成ロスを加えた総合的なロスLtotalが算出され、生成器210のロスとして生成器210に伝達される。交差エントロピーロスは、識別器220によって算出された確率に基づいて求められる。
本実施形態では、合成ロスは、たとえば、ピクセルロス(pixel−wise loss)、対称性ロス(symmetry loss)、敵対的ロス(adversarial loss)、個性保存ロス(identity preserving loss)、およびトータルバリエーションロス(total variation regularization loss)を含みうる。
上記ピクセルロス、対称性ロス、敵対的ロス、個性保存ロス、およびトータルバリエーションロスの正則化項をそれぞれLpixel、Lsym、Ladv、Lip、およびLtvと表し、Lsym、Ladv、Lip、およびLtvの係数をそれぞれλ〜λと表した場合、合成ロスLsynは、たとえば、下記の数式(1)のように表すことができる。
ピクセルロスの正則化項Lpixelは、生成器210によって生成された画像データ330と、「本物」の正面顔画像データ320との間におけるピクセルに関するロス(Lロス)である。
また、対称性ロスの正則化項Lsymは、生成器210によって生成された画像データ330における顔の左右対称性に関するロスである。より具体的には、画像データ330のサイズを幅W×高さH、幅W方向の変数x、高さH方向の変数をy、画像データ330の位置(x、y)の画素値をIx,yで表した場合、対称性ロスの正則化項Lsymは下記の数式(2)のように表すことができる。
また、敵対的ロスの正則化項Ladvは、正面顔画像データ320と、生成器210によって生成された画像データ330と、の識別器220による識別に関するロスである。学習装置100は、画像データ330が正面顔画像データ320に限りなく近付くように、横顔画像データ310および正面顔画像データ320のペアを多数使用して生成器210および識別器220を繰り返し学習させる。敵対的ロスの正則化項Ladvは、識別器220が、生成器210によって生成された画像データ330から「本物」の正面顔画像データ320をどの程度識別できているかを表す。言い換えれば、敵対的ロスの正則化項Ladvは、生成器210が、どの程度、正面顔画像データ320に近い画像データ330を生成できているかを表す。
個性保存ロスの正則化項Lipは、横顔画像データ310から画像データ330への変換で、どの程度、個性、すなわち横顔画像データ310の人物の「らしさ」が保存されているかを表す。
また、トータルバリエーションロスの正則化項Ltvは、生成器210によって生成された画像データ330の「滑らかさ」を表す。
なお、上記数式(1)は、ロスを表現する数式の一例であって、ピクセルロス、対称性ロス、敵対的ロス、個性保存ロス、およびトータルバリエーションロスのうち、いずれかを省略することも、他の観点からロスを追加することもできる。
ロス変更部240は、ニューラルネットワークで構成され、ロスの正則化項の係数を変更する。図3に示すように、ロス変更部240は、年齢推定部241、性別推定部242、姿勢推定部243、および変更実行部244を有する。
年齢推定部241は、画像データ330が人物の画像であるとして、その人物の属性として年齢を推定する属性推定タスクとして機能する。また、性別推定部242は、画像データ330が人物の画像であるとして、その人物の属性として性別(男性/女性)を推定する属性推定タスクとして機能する。
姿勢推定部243は、画像データ330が人物の画像であるとして、その人物の属性として姿勢を推定または評価する属性推定タスクとして機能する。姿勢推定部243は、たとえば、その人物が正面に対してどれくらいの角度を向いているかを推定する。
変更実行部244は、年齢推定部241の推定結果、性別推定部242の推定結果、および姿勢推定部243の推定結果の少なくとも1つに基づいて、ロスの正則化項の係数を変更する。変更実行部244は、たとえば、横顔画像データ310に対する姿勢推定部243の推定結果に基づいて、対称性ロスの正則化項Lsymの係数λを変更する。新たな係数λを決定する具体的な方法については、後述する。
なお、ニューラルネットワークを使用して、年齢推定、性別推定、および姿勢推定を実現する方法は公知であるので、詳細な説明を省略する。
また、生成器210、識別器220、ロス算出部230、およびロス変更部240の機能は、学習装置100の演算部110が、記憶部120に記憶されているプログラム(学習プログラム)を実行することによって実現される。また、以上では、説明の便宜上、ロス算出部230およびロス変更部240を個別のモジュールとして説明したが、ロス算出部230およびロス変更部240は、生成器210に組み込まれていてもよい。
<生成器210の学習段階の処理手順>
図4および図5を参照して、生成器210の学習段階における処理手順について説明する。図4は、学習装置100により実行される生成器学習処理の手順を例示するフローチャートである。なお、図4に示すフローチャートの処理は、予め用意された多数の横顔画像データ310を生成器210に入力して生成器210を学習させる処理を所定のエポック数だけ行う過程において繰り返し実行される。また、図5は、対称性ロスの正則化項の係数をパラメーターとした場合の属性推定タスクの最適化を例示する概念図である。
まず、学習装置100は、属性推定タスクを学習する(ステップS101)。より具体的には、属性(年齢、性別、または姿勢)を推定するタスク(年齢推定部241、性別推定部242、または姿勢推定部243)をオフラインで学習させる。その際、学習装置100は、横顔画像データ310の人物の実際の年齢、性別、および姿勢に関する情報を予め記憶部120に記憶させておき、訓練用のデータとして使用する。すなわち、横顔画像データ310と上記情報とに基づいて、属性推定タスクを学習する。
次に、学習装置100は、学習用に用意された多数の横顔画像データ310の中から、所定のバッチサイズの横顔画像データ310を抽出し、抽出した横顔画像データ310を訓練データとして生成器210に入力する(ステップS102)。
次に、生成器210は、生成器210に入力された横顔画像データ310から画像データ330を生成する(ステップS103)。
次に、学習装置100は、生成器210に入力された横顔画像データ310と、生成器210により生成された画像データ330とを記憶部120に記憶させる(ステップS104)。
次に、識別器220に画像データを入力する(ステップS105)。学習装置100は、生成器210により生成された画像データ330または正面顔画像データ320を識別器220に入力する。
次に、確率を出力する(ステップS106)。より具体的には、識別器220は、入力された画像が正面顔画像データ320である確率を0〜1のスカラー値で出力する。したがって、この場合、入力された画像が正面顔画像データ320であると断定されるときに「1」が、入力された画像が正面顔画像データ320である可能性がまったくないときに「0」が出力される。
次に、ロスの正則化項の係数を変更する(ステップS107)。ロス変更部240は、たとえば、対称性ロスの正則化項Lsymの係数λを変更する。対称性ロスの正則化項Lsymは、人の顔が左右対称であることを前提としている。しかし、通常、多くの人では、顔は左右でわずかに異なっており、完全な左右対称ではない。また、顔の左右対称化を進め過ぎると、生成画像に基づいて行われる後段のタスク(たとえば、人の顔を認識する顔認識など)の精度が低下するという問題も指摘されている。したがって、対称性ロスの正則化項Lsymは、横顔画像データ310に応じて、調整または制約されることが望ましい。
これに対し、本実施形態では、横顔画像データ310に応じて、対称性ロスの正則化項Lsymの係数λを変更することにより、ロスを調整する。ロス変更部240は、たとえば係数λを、属性推定タスク(たとえば、姿勢推定部243)による推定の最適化問題のパラメーターとした場合、この推定の精度を最大化するように係数λを横顔画像データ310に応じて変更する。
より具体的には、図5に示すように、たとえば、属性推定タスクの精度をQとした場合、Qが最大値Q1maxとなる係数λ1maxを求め、このλ1maxを対称性ロスの正則化項Lsymの係数とする。
また、ロス変更部240は、属性推定タスクとして、姿勢推定部243を使用する場合、横顔画像データ310の人物の向きに応じて、対称性ロスの正則化項Lsymの係数λを有効または無効にできる。たとえば、ロス変更部240は、横顔画像データ310の人物の顔の向きが正面に対して45度未満の場合は、λを無効、すなわちλ=0とする。これは、人物の顔の向きが正面に対して45度未満の場合は、顔の一方の側(たとえば、左側)に加えて他方の側(たとえば、右側)に関する情報がある程度得られるためである。一方、人物の顔の向きが正面に対して45度以上の場合は、顔の一方の側(たとえば、左側)に関する情報は十分得られるが、他方の側(たとえば、右側)に関する情報は十分ではないため、λを有効とする。
次に、ロス算出部230は、生成器210のロスを算出する(ステップS108)。ロス算出部230は、上記数式(1)に基づいて合成ロスLsynを算出する。さらに、ロス算出部230は、総合的なロスLtotalを算出し、生成器210のロスとして生成器210に伝達する。
次に、生成器210を学習させる。生成器210は、生成器210のロスを最小化するように、重み係数を更新して学習する(ステップS109)。すなわち、正面顔画像データ320と画像データ330とに基づいて、生成器210を学習する。
以上のように、図4のフローチャートに示す処理では、生成器210のロスを算出するための正則化項の係数を横顔画像データ310に応じて変更し、上記係数と、生成器210によって生成された画像データ330とに基づいて、生成器210のロスを算出する。そして、算出された生成器210のロスを使用して生成器210を学習させる。
<識別器220の学習段階の構成>
次に、識別器220の学習段階の概略構成について説明する。図6は本実施形態のGAN200の識別器の学習段階におけるGAN200の概略構成を例示するブロック図であり、図7は図6に示す構造変更部の概略構成を例示するブロック図である。なお、説明の重複を避けるため、生成器210の学習段階の構成と同じ構成については詳細な説明を省略する。
図6に示すように、識別器220の学習段階において、GAN200は、生成器210、識別器220、ロス算出部230、および構造変更部250を有する。
識別器220には、横顔画像データ310、生成器210により生成された画像データ330、および正面顔画像データ320のうちの1つが入力される。
学習装置100は、横顔画像データ310および画像データ330のペア、または横顔画像データ310および正面顔画像データ320のペアを訓練データとして識別器220に入力して識別器220を学習させる。
横顔画像データ310および画像データ330のペアが訓練データとして入力された場合、入力された画像が画像データ330であることを識別する能力が識別器220の学習により向上する。
一方、横顔画像データ310および正面顔画像データ320のペアが訓練データとして入力された場合、入力された画像が正面顔画像データ320であることを識別する能力が識別器220の学習により向上する。
なお、識別器220の学習段階においては、生成器210のDNNの重み係数は固定の値が使用される。
ロス算出部230は、識別器220に入力された画像が、画像データ330である確率、または正面顔画像データ320である確率に応じて識別器220のロスを算出する。識別器220は、識別器220のロスの値を最小化するように、誤差逆伝播法によりDNNの重み係数を更新して学習する。
構造変更部250は、ニューラルネットワークで構成され、識別器220のDNNの構造を変更する。図7に示すように、構造変更部250は、年齢推定部251、性別推定部252、姿勢推定部253、顔検知部254、ランドマーク検知部255、有効領域設定部256、重み設定部257、およびロス切替実行部258を有する。
年齢推定部251、性別推定部252、姿勢推定部253については、生成器210の学習段階におけるロス変更部240の年齢推定部241、性別推定部242、姿勢推定部243とそれぞれ同じ構成であるので、詳細な説明を省略する。
顔検知部254は、画像データ330が人物の画像であるとして、その人物の顔を検知するタスクとして機能する。なお、DNNを使用して顔検知を実現する方法は公知であるので、詳細な説明を省略する。
ランドマーク検知部255は、顔検知部254によって検知された顔におけるランドマーク(たとえば、目、鼻、口など)を検知するタスクとして機能する。なお、DNNを使用してランドマーク検知を実現する方法は公知であるので、詳細な説明を省略する。
有効領域設定部256は、識別器220への入力画像に少なくとも1つの有効領域、すなわち、入力画像における有効範囲を設定する。たとえば、有効領域設定部256は、特徴箇所特定部を備え、属性推定タスク(たとえば、年齢推定部251、性別推定部242、または姿勢推定部253)が着目している特徴箇所を特定し、識別器220への入力画像に有効領域を設定する。特徴箇所特定部は、たとえば、GRAD−CAM(Gradient−weighted Class Activation Mapping)であり、勾配情報に基づいて、各属性推定タスクが画像内で着目している範囲を特定する。有効領域設定部256は、特徴箇所特定部によって特定された画像の範囲を有効領域に設定する。なお、後述するように、設定された有効領域は、学習段階において最適化される。
また、有効領域設定部256は、ランドマーク検知部255によって検知された顔の部分(たとえば、目、鼻、口など)を含む領域を有効領域に設定することもできる。図8に示すように、有効領域設定部256は、目、鼻、および口にそれぞれ対応する画像の領域321,322,323を有効領域に設定する。
また、有効領域設定部256は、ユーザーの指示に応じて、識別器220への入力画像に少なくとも1つの有効領域を設定することもできる。ユーザーは、たとえば入力部140のマウス等を使用して、識別器220の学習を進める上で重要と考えられる顔の部分(たとえば、目、鼻、および口)を指定する。
さらに、有効領域設定部256は、識別器220への入力画像における有効領域以外の領域にパッチ(patch)を設定することができる。パッチは、識別器220への入力画像における小領域であり、たとえば顔の一部に対して設定されうる。なお、パッチの形状は、たとえば矩形状が好ましいが、矩形状に限定されない。また、パッチのサイズについては、初期値としてユーザーによる指定値、または予め記憶部120に保持された規定値が設定され、その後、学習段階において最適化される。図8には、顔の一部(顎部)にパッチ324が設定された場合を例示している。
重み設定部257は、有効領域設定部256によって設定されたそれぞれの有効領域およびパッチについて重みを設定する。重みは、初期値として、ユーザーの指定による入力値または予め記憶部に120に保持している規定値が使用され、学習段階において最適化される。ユーザーが重みの初期値を指定する場合、たとえば入力部140のマウス等を使用して、有効領域およびパッチに設定された顔の部分についてそれぞれ重みの値を指定する。
ロス切替実行部258は、識別器220への入力画像に設定された有効領域またはパッチの重みに基づいて、識別器220のロスを切り替える。より具体的には、ロス切替実行部258は、有効領域またはパッチごとに、重みに応じて識別器220のロスを切り替える。たとえば、「目」を含む有効領域に対しては、その重みに応じて、目についての特徴を細部にわたり反映できるロスに切り替える。このようにロスを切り替えて学習を進めることにより、識別器220のDNNが、目の識別に特化した重み係数を獲得し、目の識別力を向上させることができる。さらに、目についてのロスに加えて、鼻または口についての特徴を細部にわたり反映できるロスを導入することにより、目に加えて鼻または口の識別力を向上させることができる。
このように、識別器220への入力画像に有効領域およびパッチ、ならびにそれらの重みを設定し、それらの重みに応じて識別器220のロスを切り替えることにより、識別器220のDNNの重み係数を更新し、学習することによりDNNの構造が変更される。したがって、横顔の画像から正面の顔の画像を細部まで精度よく識別できる。その結果、DNNを増加しないので、従来の技術と比べて計算量を低減できる。
なお、生成器210、識別器220、ロス算出部230、および構造変更部250の機能は、学習装置100の演算部110が、記憶部120に記憶されているプログラム(学習プログラム)を実行することによって実現される。また、以上では、説明の便宜上、ロス算出部230および構造変更部250を個別のモジュールとして説明したが、ロス算出部230および構造変更部250は、識別器220に組み込まれていてもよい。
<識別器220の学習段階の処理手順>
次に、図9および図10を参照して、識別器220の学習段階の処理手順について説明する。図9は、学習装置100により実行される識別器学習処理の手順を例示するフローチャートである。なお、図9に示すフローチャートの処理は、予め用意された多数の横顔画像データ310および正面顔画像データ320を識別器220に入力して識別器220を学習させる処理を所定のエポック数だけ行う過程において繰り返し実行される。また、図10は、有効領域もしくはパッチの重み、またはパッチのサイズをパラメーターとした場合の属性推定タスクの最適化を例示する概念図である。
図9におけるステップS201〜S204の処理は、生成器210の学習段階におけるステップS101〜S104の処理と同様であるので、詳細な説明を省略する。
ステップS205において、有効領域設定部256は、識別器220への入力画像(画像データ330)の有効領域、パッチを設定する。有効領域設定部256は、たとえば、目、鼻、および口にそれぞれ対応する画像の領域321,322,323を有効領域に設定する。また、有効領域設定部256は、画像データ330の顔の有効領域以外の領域にパッチを設定する。
次に、有効領域、パッチごとに重みを設定する(ステップS206)。重み設定部257は、有効領域「目」、「鼻」、および「口」について、それぞれ、たとえば0.5、0.1、0.2の重みを設定する。この重みの設定では、目、口、鼻の順で重要視されている。パッチについては、顔の部位に応じて、たとえば0.01〜0.09の重みが設定されうる。なお、顔以外の背景部分については、重み0(ゼロ)に設定される。
次に、学習装置100は、識別器220に訓練データを入力する(ステップS207)。学習装置100は、横顔画像データ310および画像データ330のペア、または横顔画像データ310および正面顔画像データ320のペアを訓練データとして識別器220に入力して識別器220を学習させる。
次に、識別器220が確率を出力する(ステップS208)。より具体的には、識別器220は、識別器220への入力画像データとして、横顔画像データ310および正面顔画像データ320のペアが入力されている確率を0〜1のスカラー値で出力する。学習が進んでいない段階では、横顔画像データ310および正面顔画像データ320のペアが入力されても、識別器220は確率1を出力できない。しかし、横顔画像データ310および正面顔画像データ320のペアが「正解」であることを教えることにより、学習が進むにつれて1に近い確率を出力するようになる。また、学習が進んでいない段階では、横顔画像データ310および画像データ330のペアが入力されても、識別器220は確率0を出力できない。しかし、横顔画像データ310および正面顔画像データ320のペアが正しいペアではないことを教えることにより、学習が進むにつれて0に近い確率を出力するようになる。
次に、識別器220への入力範囲を切り替える(ステップS209)。有効領域設定部256は、属性推定タスクが画像データ330の画像内において着目している領域を特定し、特定された上記領域を識別器220への入力画像の有効領域とする。あるいは、顔検出が可能になるまで生成器210および識別器220の学習が進んでいれば、ランドマーク検知部255は、画像データ330から顔におけるランドマークを検出できる。そして、有効領域設定部256は、検出された顔におけるランドマークを各々含む領域を、識別器220に入力される有効領域とし、それ以外の領域を所定サイズのパッチとする。
有効領域、パッチの重み、およびパッチのサイズは、たとえば、以下に示すように最適化される。図10に示すように、有効領域、パッチの重み、およびパッチのサイズの少なくともいずれかを、属性推定タスクによる推定の最適化問題のパラメーターとした場合に、属性推定タスクによる推定の精度を最大化するパラメーター値を求める。たとえば、パラメーターを有効領域とし、属性推定タスクの精度をQとした場合、Qが最大値Q2maxとなる有効領域Pmaxを求める。
このように、有効領域設定部256は、画像データ330に応じて、識別器220へ入力する画像データ330の有効領域、すなわち入力範囲を切り替える。そして、ロス切替実行部258は、有効領域またはパッチごとに、重みに応じて識別器220のロスを切り替える。
次に、ロス算出部230は、識別器220のロスを算出する(ステップS210)。ロス算出部230は、生成器210の学習段階の場合と同様に、総合的なロスLtotalを算出し、識別器220のロスとして生成器210に伝達する。
次に、識別器220を学習させる(ステップS211)。識別器220は、識別器220のロスを最小化するように、DNNの重み係数を更新してDNNの構造を変更する。
学習装置100は、横顔画像データ310および画像データ330のペアが入力されている場合、「正解」を0として識別器220を学習させる。これにより、画像データ330を識別する能力が向上する。一方、学習装置100は、横顔画像データ310および正面顔画像データ320のペアが入力されている場合、「正解」を1として識別器220を学習させる。これにより、正面顔画像データ320を識別する能力が向上する。
以上のとおり、図9のフローチャートに示す処理では、識別器220へ入力される画像データ330の有効範囲およびその重みを画像データ330に応じて切り替える。続いて、横顔画像データ310と、画像データ330および正面顔画像データ320のいずれか一方とに基づいて、識別器220のロスを算出する。そして、算出された識別器220のロスを使用して識別器220を学習させる。
以上のとおり説明した本実施形態の生成器210の学習方法では、生成器210の対称性ロスの正則化項Lsymの係数λを横顔画像データ310に応じて切り替えるので、生成器210によって生成される生成画像における顔の対称性を不必要に高めることを回避できる。したがって、後段の認識タスクに生成画像を入力した場合における認識精度を向上できる。また、識別器220の学習段階では、識別器220への入力画像の有効領域およびその重みを入力画像に応じて切り替えるので、DNNを大幅に増加させなくても細部まで精度よく正面の顔の画像を識別できる。その結果、従来では複数の生成器を使用して学習行っていたところを1つの生成器で行えるので、従来の技術と比べて演算部の計算量を低減することが可能である。
本発明は、上述した実施形態のみに限定されるものではなく、特許請求の範囲内において、種々改変することができる。
たとえば、上述の実施形態では、生成器210の対称性ロスの正則化項Lsymの係数λを横顔画像データ310に応じて切り替える場合について説明した。しかしながら、本発明はこのような場合に限定されず、敵対的ロスの正則化項Ladvの係数λ、個性保存ロスの正則化項Lipの係数λ、またはトータルバリエーションロスの正則化項Ltvの係数λを変更するように構成することもできる。
また、識別器220は、識別器220の学習段階において、複数の識別器を備えることもできる。たとえば、識別器220はそれぞれの識別器に「目」用、「鼻」用、および「口」用に対応する3つの識別器を備えるように構成することもできる。このように識別器220を構成することにより、規模の大きい生成器210のDNNの数を増加させずに規模の小さい識別器の数を増加させるので、DNNの数が大幅に増加することなく、横顔から正面の顔の画像を細部まで精度よく識別できる。その結果、DNNを大幅に増加させないので、従来の技術と比べて演算部110の計算量を低減することが可能である。
また、上述の実施形態では、横顔画像データ310に応じてロスを切り替えることにより、識別器220のDNNの重み係数を更新し、DNNの構造を変更する場合について説明した。しかしながら、本発明はこのような場合に限定されず、横顔画像データ310に応じて識別器220のDNNのノード数などの層構造を変更することもできる。
上述した実施形態に係る学習装置100における各種処理を行う手段および方法は、専用のハードウエア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、たとえば、CD−ROM(Compact Disc Read Only Memory)等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、学習装置100の一機能としてその装置のソフトウエアに組み込まれてもよい。
100 学習装置、
110 演算部、
120 記憶部、
130 表示部、
140 入力部、
150 通信インターフェース、
160 バス、
200 敵対的生成ネットワーク(GAN)、
210 生成器、
220 識別器、
230 ロス算出部、
240 ロス変更部、
241 年齢推定部、
242 性別推定部、
243 姿勢推定部、
244 変更実行部、
250 構造変更部、
251 年齢推定部、
252 性別推定部、
253 姿勢推定部、
254 顔検知部、
255 ランドマーク検知部、
256 有効領域設定部、
257 重み設定部、
258 ロス切替実行部、
310 横顔画像データ、
320,330 正面顔画像データ。

Claims (14)

  1. 第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習方法であって、
    前記第1のニューラルネットワークのロスを算出するための正則化項の係数を前記第1の入力データに応じて変更するステップ(a)と、
    前記係数および前記出力データに基づいて、前記第1のニューラルネットワークのロスを算出するステップ(b)と、
    算出された前記ロスを使用して前記第1のニューラルネットワークを学習させるステップ(c)と、
    を有する学習方法。
  2. 前記ステップ(a)の前に、
    前記第1の入力データに関する属性を推定するタスクを学習するステップをさらに有し、
    前記ステップ(a)では、
    前記ロスのうち、左右対称性に関するロスの正則化項の係数を、前記タスクによる前記属性の推定の最適化問題のパラメーターとした場合に、前記タスクによる推定の精度を最大化するように、前記係数を前記第1の入力データに応じて変更する、請求項1に記載の学習方法。
  3. 前記第1の入力データは、人物の画像データであり、
    前記タスクは、前記人物の年齢を推定するタスク、前記人物の性別を推定するタスク、および前記人物の姿勢を推定するタスクのうちの少なくとも1つである、請求項2に記載の学習方法。
  4. 前記第1の入力データは、人物の画像データであり、
    前記タスクは、前記人物の姿勢を推定するタスクであり、
    前記ステップ(a)では、
    前記人物の顔の向きが正面に対して45度未満の場合は、前記係数を無効とし、45度以上の場合は、有効とする、請求項2に記載の学習方法。
  5. 前記第2のニューラルネットワークへ入力される前記出力データの有効範囲およびその重みを前記第1の入力データに応じて切り替えるステップ(d)と、
    前記出力データおよび前記第2の入力データに基づいて、前記第2のニューラルネットワークのロスを算出するステップ(e)と、
    算出された前記ロスを使用して前記第2のニューラルネットワークを学習させるステップ(f)と、
    をさらに有する、請求項1〜4のいずれか1項に記載の学習方法。
  6. 第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習方法であって、
    前記第2のニューラルネットワークへ入力される前記出力データの有効範囲およびその重みを前記第1の入力データに応じて切り替えるステップ(a)と、
    前記出力データおよび前記第2の入力データに基づいて、前記第2のニューラルネットワークのロスを算出するステップ(b)と、
    算出された前記ロスを使用して前記第2のニューラルネットワークを学習させるステップ(c)と
    を有する、学習方法。
  7. 前記ステップ(a)の前に、
    前記第1の入力データに関する属性を推定するタスクを学習するステップをさらに有し、
    前記ステップ(a)では、
    前記タスクが前記出力データの画像内において着目している範囲を特定し、特定された当該範囲を前記第2のニューラルネットワークに入力される前記有効範囲とする、請求項6に記載の学習方法。
  8. 前記第2のニューラルネットワークに入力される前記出力データは、人物の画像データであり、
    前記ステップ(a)では、
    顔検出が可能になるまで前記第1および第2のニューラルネットワークの学習が進んだ段階において、前記出力データから顔におけるランドマークを検出し、検出された前記顔におけるランドマークを各々含む範囲を前記第2のニューラルネットワークに入力される前記有効範囲とし、それ以外の範囲を所定サイズのパッチとする、請求項6に記載の学習方法。
  9. 前記ステップ(a)の前に、
    前記第1の入力データに関する属性を推定するタスクを学習するステップをさらに有し、
    前記ステップ(a)では、
    前記有効範囲、前記パッチの重み、および前記パッチのサイズのうちの少なくともいずれかを、前記タスクによる前記属性の推定の最適化問題のパラメーターとした場合に、前記タスクによる推定の精度を最大化する、請求項8に記載の学習方法。
  10. 前記出力データは、人物の画像データであり、
    前記タスクは、前記人物の年齢を推定するタスク、前記人物の性別を推定するタスク、および前記人物の姿勢を推定するタスクのうちの少なくとも1つである、請求項7または9に記載の学習方法。
  11. 第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習プログラムであって、
    前記第1のニューラルネットワークのロスを算出するための正則化項の係数を前記第1の入力データに応じて変更する手順(a)と、
    前記係数および前記出力データに基づいて、前記第1のニューラルネットワークのロスを算出する手順(b)と、
    算出された前記ロスを使用して前記第1のニューラルネットワークを学習させる手順(c)と、
    をコンピューターに実行させるための学習プログラム。
  12. 第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習プログラムであって、
    前記第2のニューラルネットワークへ入力される前記出力データの有効範囲およびその重みを前記第1の入力データに応じて切り替える手順(a)と、
    前記出力データおよび前記第2の入力データに基づいて、前記第2のニューラルネットワークのロスを算出する手順(b)と、
    算出された前記ロスを使用して前記第2のニューラルネットワークを学習させる手順(c)と、
    をコンピューターに実行させるための学習プログラム。
  13. 第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習装置であって、
    前記第1のニューラルネットワークのロスを算出するための正則化項の係数を前記第1の入力データに応じて変更するロス変更部と、
    前記係数および前記出力データに基づいて、前記第1のニューラルネットワークのロスを算出するロス算出部と、を有し、
    前記第1のニューラルネットワークは、算出された前記ロスを使用して学習する、学習装置。
  14. 第1の入力データから特徴量を抽出し、当該特徴量に基づいて出力データを生成する第1のニューラルネットワークと、前記出力データおよび第2の入力データが入力され、前記出力データが前記第2の入力データである確率を出力する第2のニューラルネットワークと、を有するネットワークを学習させる学習装置であって、
    前記第2のニューラルネットワークへ入力される前記出力データの有効範囲およびその重みを前記第1の入力データに応じて切り替える構造変更部と、
    前記出力データおよび前記第2の入力データに基づいて、前記第2のニューラルネットワークのロスを算出するロス算出部と、を有し、
    前記第2のニューラルネットワークは、算出された前記ロスを使用して学習する、学習装置。
JP2018089931A 2018-05-08 2018-05-08 学習方法、学習プログラム、および学習装置 Pending JP2019197311A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018089931A JP2019197311A (ja) 2018-05-08 2018-05-08 学習方法、学習プログラム、および学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018089931A JP2019197311A (ja) 2018-05-08 2018-05-08 学習方法、学習プログラム、および学習装置

Publications (1)

Publication Number Publication Date
JP2019197311A true JP2019197311A (ja) 2019-11-14

Family

ID=68538435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018089931A Pending JP2019197311A (ja) 2018-05-08 2018-05-08 学習方法、学習プログラム、および学習装置

Country Status (1)

Country Link
JP (1) JP2019197311A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553463A (zh) * 2020-04-17 2020-08-18 东南大学 基于深度学习和网络参数估计无线接入点吞吐量的方法
KR102253402B1 (ko) * 2019-11-28 2021-05-17 광운대학교 산학협력단 Ai방식을 이용한 적대적 이미지 생성장치 및 그 방법
JP2021089493A (ja) * 2019-12-02 2021-06-10 キヤノン株式会社 情報処理装置およびその学習方法
WO2023286251A1 (en) * 2021-07-15 2023-01-19 Nec Corporation Adversarial image generation apparatus, control method, and computer-readable storage medium
KR20230013468A (ko) * 2021-07-19 2023-01-26 서울대학교병원 딥러닝 기반의 입천장심장얼굴 증후군(vcfs) 진단 지원 시스템 및 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102253402B1 (ko) * 2019-11-28 2021-05-17 광운대학교 산학협력단 Ai방식을 이용한 적대적 이미지 생성장치 및 그 방법
JP2021089493A (ja) * 2019-12-02 2021-06-10 キヤノン株式会社 情報処理装置およびその学習方法
JP7398938B2 (ja) 2019-12-02 2023-12-15 キヤノン株式会社 情報処理装置およびその学習方法
CN111553463A (zh) * 2020-04-17 2020-08-18 东南大学 基于深度学习和网络参数估计无线接入点吞吐量的方法
CN111553463B (zh) * 2020-04-17 2022-11-18 东南大学 基于深度学习和网络参数估计无线接入点吞吐量的方法
WO2023286251A1 (en) * 2021-07-15 2023-01-19 Nec Corporation Adversarial image generation apparatus, control method, and computer-readable storage medium
KR20230013468A (ko) * 2021-07-19 2023-01-26 서울대학교병원 딥러닝 기반의 입천장심장얼굴 증후군(vcfs) 진단 지원 시스템 및 방법
KR102591395B1 (ko) * 2021-07-19 2023-10-20 서울대학교병원 딥러닝 기반의 입천장심장얼굴 증후군(vcfs) 진단 지원 시스템 및 방법

Similar Documents

Publication Publication Date Title
JP2019197311A (ja) 学習方法、学習プログラム、および学習装置
US11232286B2 (en) Method and apparatus for generating face rotation image
CN110096156B (zh) 基于2d图像的虚拟换装方法
JP2019526878A (ja) 統計モデルを用いた画像データからの深度予測
CN111598998A (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
EP4060560B1 (en) Systems, methods, and storage media for generating synthesized depth data
WO2022143645A1 (zh) 三维人脸重建的方法、装置、设备和存储介质
Saini et al. A review on particle swarm optimization algorithm and its variants to human motion tracking
CN110084193A (zh) 用于面部图像生成的数据处理方法、设备和介质
JP2009020761A (ja) 画像処理装置及びその方法
CN109165735A (zh) 基于生成对抗网络与自适应比例生成新样本的方法
JP2023524252A (ja) 生成的非線形人間形状モデル
JP2019191981A (ja) 行動認識装置、モデル構築装置及びプログラム
CN115689869A (zh) 一种视频美妆迁移方法及系统
WO2022087941A1 (zh) 人脸重建模型的训练方法及装置、人脸重建方法及装置、电子设备和可读存储介质
US20230290101A1 (en) Data processing method and apparatus, electronic device, and computer-readable storage medium
CN111582120A (zh) 用于捕捉眼球活动特征的方法、终端设备
CN116977544A (zh) 图像处理方法、装置、设备及存储介质
Tang et al. A multi-task neural network for action recognition with 3D key-points
US20230326238A1 (en) Optimization-based parametric model fitting via deep learning
US20220180548A1 (en) Method and apparatus with object pose estimation
JP2019125014A (ja) 学習装置、学習方法、および学習プログラム
JP7464512B2 (ja) 三次元人物姿勢推定装置、方法およびプログラム
WO2022236647A1 (en) Methods, devices, and computer readable media for training a keypoint estimation network using cgan-based data augmentation
CN114943799A (zh) 一种面部图像处理方法、装置和计算机可读存储介质