JP7161111B2

JP7161111B2 - 重みマスク生成装置、重みマスク生成方法及びプログラム

Info

Publication number: JP7161111B2
Application number: JP2019059362A
Authority: JP
Inventors: 瑛彦高島; 誠明松村; 肇能登; 英明木全
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2022-10-26
Anticipated expiration: 2039-03-26
Also published as: JP2020160792A; US20220172383A1; WO2020195810A1

Description

本発明は、重みマスク生成装置、重みマスク生成方法及びプログラムに関する。

機械学習のモデルを用いて、顔の３次元形状（以下「顔形状」という。）が顔の２次元画像（以下「顔画像」という。）から復元される場合がある（非特許文献１参照）。顔形状データは、顔形状の各特徴点（点群）を表す。顔形状の各特徴点とは、例えば、瞳の中央点、目の端点、顔の正面から見える鼻の中央点などである。学習モデル生成装置は、機械学習のモデルに入力された顔画像データから、顔形状の推定データを導出する。機械学習のモデルは、例えば、ディープ・ニューラル・ネットワーク（Deep Neural Network：DNN）を用いた機械学習のモデルである。

３次元形状の隣接関係が保持されたまま、ジオメトリ・イメージ（Geometry Images）のデータ形式の２次元画像に、３次元形状データが格納される場合がある（非特許文献２参照）。例えば、ジオメトリ・イメージのデータ形式の２次元画像には、顔形状の正解データが格納される。

機械学習の学習フェイズにおいて、顔形状の各特徴点の重み値を表す２次元画像（以下「重みマスク」という。）を用いて、顔形状の正解データに対する顔形状の推定データの誤差を学習モデル生成装置が導出する場合がある。重みマスクは、ジオメトリ・イメージのデータ形式で予め生成される。従来の重みマスクでは、顔の表情の変化（顔形状の変形）に関係なく、顔形状の各特徴点（例えば、68 landmark points）に重み付けが与えられている。学習モデル生成装置は、顔形状の正解データに対する顔形状の推定データの誤差に基づいて、誤差逆伝播法によって、機械学習のモデルのパラメータを更新する。

図８は、従来の学習モデル生成装置の構成例を示す図である。学習モデル生成装置２は、学習済みの機械学習のモデルを生成する装置である。学習モデル生成装置２は、データ保持部１０と、学習部２０とを備える。

データ保持部１０は、顔画像データと所定の表情の顔形状データとの組み合わせを、顔の表情ごとに保持する。各顔画像における同一の２次元座標点に、各顔形状における部分領域（部位）の同一の特徴点が格納されるように、各顔形状の各特徴点は位置合わせされる。

学習部２０は、顔画像データと所定の表情の顔形状データとを、データ保持部１０から取得する。学習部２０は、重みマスクを取得する。学習部２０は、顔画像データを入力として、所定の表情の顔形状データを出力とする機械学習を、取得された重みマスクを用いて実行する。このようにして、学習部２０は、学習済みの機械学習のモデルを生成する。

図９は、学習モデル生成装置２の動作例を示すフローチャートである。学習部２０は、顔画像データと顔形状データとを、データ保持部１０から取得する（ステップＳ１０）。学習部２０は、顔画像データを入力として、顔形状データを出力とする機械学習を、取得された重みマスクを用いて実行する（ステップＳ２０）。

Yao Feng, Fan Wu, Xiaohu Shao, Yanfeng Wang, Xi Zhou, "Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network", ECCV (14) 2018: pp.557-574. Gu, X., Gortler, S.J., Hoppe, H., "Geometry images", ACM Transactions on Graphics (TOG) 21(3), 355-361 (2002)

人の顔には、動きの大きい部分領域（例えば、口元）と、動きの小さい部分領域（例えば、眉）とがある。人が注目する部分領域において、顔形状の推定データと顔形状の正解データとの誤差が大きくなった場合、推定された顔の表情は、実際の表情とは異なる表情となる。このように、従来の重みマスク生成装置では、顔画像から復元された顔形状の表情の再現度が低い場合がある。

上記事情に鑑み、本発明は、顔画像から復元された顔形状の表情の再現度を向上させることが可能である重みマスク生成装置、重みマスク生成方法及びプログラムを提供することを目的としている。

本発明の一態様は、顔形状の全体領域の各特徴点の移動量を導出する移動量導出部と、前記顔形状の全体領域の各特徴点の移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量を導出する分離部と、正規化された前記分離済み移動量である正規化分離済み移動量を、前記顔形状の部分領域の変形パターンごとに導出する正規化部と、前記顔形状の部分領域の変形パターンごとの前記正規化分離済み移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の全体領域の各特徴点の重み値を生成する重み値生成部とを備える重みマスク生成装置である。

本発明の一態様は、上記の重みマスク生成装置であって、前記顔形状に対応付けられた顔画像に基づいて、前記顔形状の部分領域の変形パターンごとの変形度を導出する変形度導出部を更に備える。

本発明の一態様は、上記の重みマスク生成装置であって、前記変形度導出部は、顔面動作符号化システムの規格において定義されたアクション・ユニットごとに、前記変形度を導出する。

本発明の一態様は、上記の重みマスク生成装置が実行する重みマスク生成方法であって、重みマスク生成装置が実行する重みマスク生成方法であって、前記重みマスク生成装置の移動量導出部が、顔形状の全体領域の各特徴点の移動量を導出する移動量ステップと、前記重みマスク生成装置の分離部が、前記顔形状の全体領域の各特徴点の移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量を導出する分離ステップと、前記重みマスク生成装置の正規化部が、正規化された前記分離済み移動量である正規化分離済み移動量を、前記顔形状の部分領域の変形パターンごとに導出する正規化ステップと、前記重みマスク生成装置の重み値生成部が、前記顔形状の部分領域の変形パターンごとの前記正規化分離済み移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の全体領域の各特徴点の重み値を生成する重み値生成ステップとを含む重みマスク生成方法である。

本発明の一態様は、上記の重みマスク生成装置としてコンピュータを機能させるためのプログラムである。

本発明により、顔画像から復元された顔形状の表情の再現度を向上させることが可能である。

実施形態における、学習モデル生成装置の構成例を示す図である。実施形態における、重みマスク生成部の構成例を示す図である。実施形態における、平均移動量及び正方行列の例を示す図である。実施形態における、学習部の構成例を示す図である。実施形態における、学習モデル生成装置の動作例を示すフローチャートである。実施形態における、重みマスク生成部の動作例を示すフローチャートである。実施形態における、学習部の動作例を示すフローチャートである。従来における、学習モデル生成装置の構成例を示す図である。従来における、学習モデル生成装置の動作例を示すフローチャートである。

本発明の実施形態について、図面を参照して詳細に説明する。
実施形態の学習モデル生成装置は、学習済みの機械学習のモデル（以下「学習済みモデル」という。）を重みマスクに基づいて生成する情報処理装置である。学習モデル生成装置は、顔の表情に応じて変化する顔形状の全体領域における各特徴点の移動量（顔形状の変形量）を、顔形状の全体領域ごとに導出する。学習モデル生成装置は、顔形状の部分領域（部位）の変形パターン（動作パターン）ごとの変形度（動作強度）（以下「部位動作強度」という。）と、顔形状の全体領域における各特徴点の移動量とに基づいて、顔形状の部分領域の変形パターンごとの各特徴点の移動量を導出する。

部位動作強度は、顔の表情に変化を与える顔形状の部分領域の変形パターンごとに定義される。例えば、部位動作強度は、目（部位）の開き度（変形度）「２．０」、左の口角（部位）の上がり具合（変形度）「１．５」のように定義される。目の開き度は、例えば、所定の表情の顔形状における目の開き度の最大値「５．０」から、無表情の顔形状における目の開き度の最小値「０．０」までの範囲で定義される。

学習モデル生成装置は、顔形状の部分領域の変形パターンごとの各特徴点の移動量（以下「分離済み移動量」という。）を、部位動作強度ごとに、特徴点の移動量について正規化する。学習モデル生成装置は、正規化された分離済み移動量（以下「正規化分離済み移動量」という。）を、部位動作強度を用いて再結合する。すなわち、学習モデル生成装置は、正規化分離済み移動量と部位動作強度とに基づいて、顔形状の全体領域の各特徴点の重み値を表す重みマスクを、顔形状の全体領域ごとに生成する。学習モデル生成装置は、重みマスクを用いて、学習済みモデルを生成する。

図１は、学習モデル生成装置１の構成例を示す図である。学習モデル生成装置１は、データ保持部１００と、重みマスク生成部２００と、学習部３００とを備える。重みマスク生成部２００及び学習部３００の一部又は全部は、ＣＰＵ（Central Processing Unit）又はＧＰＵ（Graphics Processing Unit）等のプロセッサが、不揮発性の記録媒体（非一時的な記録媒体）であるメモリに記憶されたプログラムを実行することにより、ソフトウェアとして実現される。重みマスク生成部２００及び学習部３００の一部又は全部は、例えば、ＬＳＩ（Large Scale Integration）又はＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。

データ保持部１００は、不揮発性の記録媒体（非一時的な記録媒体）と、揮発性の記録媒体とのうちのいずれでもよい。データ保持部１００は、顔画像データと所定の表情の顔形状データとの組み合わせを、機械学習用のデータセット（以下「学習データセット」という。）として、所定の表情の顔形状ごとに保持する。データ保持部１００は、無表情の顔形状データを保持する。各顔画像における同一の２次元座標点に、各顔形状における部分領域（部位）の同一の特徴点が格納されるように、顔形状の各特徴点は、顔形状ごとに位置合わせされる。

重みマスク生成部２００は、顔画像データと顔形状データと無表情顔形状データとを、データ保持部１００から取得する。重みマスク生成部２００は、顔画像データと顔形状データと無表情顔形状データとに基づいて、重みマスクを学習データセットごとに生成する。重みマスクの２次元座標と顔画像データの２次元座標とは一致している。重みマスク生成部２００は、生成された重みマスクを、学習データセットごとに学習部３００に出力する。

学習部３００は、顔画像データを入力として、所定の表情の顔形状データを出力とする機械学習を、重みマスクを用いて学習データセットごとに実行する。このようにして、学習部３００は、機械学習の実行結果である学習済みモデルを生成する。

次に、重みマスク生成部２００の構成例を説明する。
図２は、重みマスク生成部２００の構成例を示す図である。重みマスク生成部２００は、機械学習における学習用の重みマスクを生成する装置である。重みマスク生成部２００は、部位動作強度導出部２０１と、移動量導出部２０２と、分離部２０３と、正規化部２０４と、再結合部２０５とを備える。

部位動作強度導出部２０１（変形度導出部）は、複数の顔画像データを、データ保持部１００から取得する。顔画像の全体領域は、顔画像の各部分領域（部位）に分割されている。部位動作強度導出部２０１は、顔画像データに基づいて、顔画像データごとに部位動作強度を導出する。部位動作強度導出部２０１は、顔画像の部分領域の変形パターンに対応付けられた各部位動作強度を、顔画像データごとに導出する。

部位動作強度は、Ｎ次元（Ｎは、顔画像の部分領域の変形パターンの数）の強度データ（見た目の強度）のベクトルである。部位動作強度導出部２０１は、各部分領域の変形パターンの部位動作強度を導出する。部位動作強度導出部２０１は、取得された顔画像データに基づく顔画像の全体領域（各部分領域）に対応付けられた複数の部位動作強度を、顔画像データごとに分離部２０３及び再結合部２０５に出力する。

部分領域の変形パターンとは、顔画像の部分領域（部位）における特定の変形動作のパターンであり、例えば、「口の周囲（部分領域）における、口角を上げる動作」、「眉（部分領域）における、外眉を上げる動作」等である。

取得された顔画像の部分領域における特徴点の位置が、無表情の顔形状の部分領域における特徴点（対応点）の位置から離れるほど、部位動作強度の値は大きくなる。例えば、部位動作強度の最小値「０」は、取得された顔画像の部分領域における特徴点の位置と、無表情の顔形状の部分領域における特徴点（対応点）の位置とが一致していることを表す。

部位動作強度導出部２０１は、例えば、顔面動作符号化システム（Facial Action Coding System）において定義されたアクション・ユニットごとに、部位動作強度を導出する。顔面動作符号化システムの規格では、数十個のアクション・ユニット（Action Unit : AU）が、部分領域ごとの変形パターン（動作パターン）として定義されている。アクション・ユニットとは、解剖学、心理学的知見から顔面の動作を４０以上の最小単位に分けたものである。部分領域ごとの変形パターンは、例えば、ＡＵ１「眉の内側を上げる」と、ＡＵ５「上瞼を上げる」と、ＡＵ１２「口の端を上げる」とのように表現される。変形パターンごとの変形度は、「ＡＵ１：１．５」と、「ＡＵ５：４．２」とのように表現される。

なお、各部分領域における各変形パターンの各顔画像を被験者が注視することによって、被験者が注目する各部分領域における変形パターンの部位動作強度を、被験者の主観に基づいて、被験者が導出してもよい。この場合、被験者は、手動で部位動作強度を分離部２０３及び再結合部２０５に入力する。重みマスク生成部２００は部位動作強度導出部２０１を備えなくてもよい。

移動量導出部２０２は、学習データセットを、顔画像データごとにデータ保持部１００から取得する。すなわち、データ保持部１００は、所定の表情の顔形状データと無表情の顔形状データとの組み合わせを、顔画像データごとにデータ保持部１００から取得する。

移動量導出部２０２は、所定の表情の顔形状の各特徴点の３次元座標に対して、ジオメトリ処理を実行する。すなわち、移動量導出部２０２は、所定の表情の顔形状の各特徴点の３次元座標を、平面上の２次元座標に変換する。移動量導出部２０２は、ジオメトリ・イメージのデータ形式の２次元画像に、所定の表情の顔形状データを含める。各顔画像における同一の２次元座標点に、各顔形状における部分領域（部位）の同一の特徴点が格納されるように、所定の表情の顔形状の各特徴点は、顔形状ごとに位置合わせされる。例えば、各顔形状の鼻の中央点が同一の２次元座標点になるように、顔の正面から見える鼻の中央点は、顔形状ごとに位置合わせされる。

移動量導出部２０２は、顔形状の全体領域の各特徴点の移動量を、学習データセットごとに導出する。すなわち、移動量導出部２０２は、顔形状の全体領域の各特徴点の移動量を、部位動作強度導出部２０１に取得された顔画像に対応付けられた顔形状ごとに導出する。移動量導出部２０２は、ジオメトリ・イメージのデータ形式の顔画像における２次元座標が各顔形状において同一である特徴点の３次元座標同士の差分を導出する。すなわち、移動量導出部２０２は、部位動作強度導出部２０１に取得された顔画像に対応付けられた無表情の顔形状の特徴点の位置と、その顔画像に対応付けられた所定の表情の顔形状の特徴点の位置との差（３次元形状の差）を、顔形状の特徴点の移動量として導出する。移動量導出部２０２は、所定の表情の顔形状の各特徴点の移動量の情報を、ジオメトリ・イメージのデータ形式で、分離部２０３に出力する。

分離部２０３は、顔形状の特徴点の移動量の情報を、顔画像データごとに移動量導出部２０２から取得する。分離部２０３は、部位動作強度の情報を、部位動作強度導出部２０１から取得する。

顔形状の特徴点の移動量と部位動作強度とはいずれも顔画像データ及び顔形状データから生成されるので、顔形状の特徴点の移動量と部位動作強度とは、各顔画像データに対応付けられる。顔形状の特徴点の移動量と部位動作強度との組み合わせごとに、１個の分離済み移動量（Ｎ次元のベクトルデータ）を分離部２０３が導出するので、顔形状の特徴点の移動量と部位動作強度と顔画像データとの対応付けの情報は、分離部２０３が実行する処理には必須でない。

分離部２０３は、顔形状の全体領域の各特徴点の移動量と、部位動作強度とに基づいて、分離済み移動量を導出する。例えば、分離部２０３は、顔形状の全体領域の各特徴点の移動量の平均値（平均移動量）と、部位動作強度の平均値（平均強度ベクトル）とに基づいて、分離済み移動量を導出する。分離済み移動量は、顔形状の部分領域（部位）における変形パターンの部位動作強度が１である場合における、その部分領域の各特徴点の移動量を表す。分離済み移動量は、ｎ次元（ｎは、顔形状の部分領域の変形パターンの数）のベクトルデータである。分離部２０３は、顔形状の特徴点の移動量と部位動作強度との組み合わせごとに、１個の分離済み移動量（Ｎ次元のベクトルデータ）を導出する。

分離済み移動量の導出方法の例を説明する。
分離部２０３は、所定閾値「Ｔ」よりも大きい部位動作強度「ｖ（ＡＵｎ）＞Ｔ」を有するサンプルを、部位動作強度「ｖ」ごとに、全ての学習データセットのうちから抽出する。したがって、抽出されていないサンプルでは、部位動作強度「ｖ」が閾値「Ｔ」以下である。なお、閾値「Ｔ」は、所定の表情が知覚可能である程度の部位動作強度が抽出できるように、顔形状の部分領域ごとに予め定められている。

分離部２０３は、抽出されたサンプルを対象として、顔形状の特徴点の移動量「Ｄ」の平均値である平均移動量「Ｄ_ＡＵ」と、部位動作強度「ｖ」のベクトルの平均値である平均強度ベクトル「ｖ_ＡＵ」とを導出する。平均移動量「Ｄ_ＡＵ」と、平均強度ベクトル「ｖ_ＡＵ」と、分離済み移動量「Ａ」との関係は、式（１）のように表される。

顔形状の部分領域の変形パターンの順（ＡＵ１、ＡＵ２、…）に平均移動量「Ｄ_ＡＵ」が並べられた列ベクトル「Ｄ_ｖ」は、式（２）のように表される。

図３は、平均移動量「Ｄ_ＡＵ」及び正方行列「Ｍ」の例を示す図である。式（２）の右辺における「ｖ_ＡＵ１」から「ｖ_ＡＵｘ」までは、それぞれ列ベクトルである。したがって、行ベクトルの各要素として各列ベクトルが展開された場合、式（２）の右辺における「ｖ_ＡＵ１」から「ｖ_ＡＵｘ」までは、（ｎ×ｎ）のサイズの対角優位な正方行列「Ｍ」となる。このため、分離部２０３は、列ベクトル「Ｄ_ｖ」に対して逆行列「Ｍ^－１」を用いて、部位動作強度「ｖ」ごとに定義される分離済み移動量「Ａ」を、式（３）のように導出する。

分離済み移動量「Ａ」は、任意の顔形状に対して利用可能である。図３には、３次元の平均移動量「Ｄ_ＡＵ」（重み付け）を顔形状の特徴点ごとに表す重みマスク３０の例が、平均強度ベクトル「ｖ_ＡＵ」ごとに示されている。重みマスク３０では、３次元の平均移動量「Ｄ_ＡＵ」が大きい特徴点ほど、明るい色で表される。分離部２０３は、Ｎ次元のベクトルデータである分離済み移動量「Ａ」を、正規化部２０４に出力する。

正規化部２０４は、分離済み移動量「Ａ」を、分離部２０３から取得する。正規化部２０４は、例えば、分離済み移動量「Ａ」の各成分の大きさのうちの最大値を、顔形状の部分領域の変形パターンごとに導出する。正規化部２０４は、導出された最大値で、分離済み移動量「Ａ」を除算する。

このようにして、正規化部２０４は、Ｎ次元のベクトルデータである分離済み移動量「Ａ」の各成分を正規化し、正規化分離済み移動量を生成する。正規化分離済み移動量は、Ｎ次元のベクトルデータである。正規化部２０４は、正規化分離済み移動量を、再結合部２０５に出力する。

再結合部２０５（重み値生成部）は、正規化分離済み移動量を、正規化部２０４から取得する。再結合部２０５は、部位動作強度の情報を、顔画像データごとに部位動作強度導出部２０１から取得する。再結合部２０５は、正規化分離済み移動量と部位動作強度とに基づいて、顔形状の全体領域の各特徴点の重み値を生成する。すなわち、再結合部２０５は、正規化分離済み移動量と各顔画像に対応する部位動作強度との積を導出することによって、正規化分離済み移動量を再結合する。

再結合部２０５は、例えば、正規化分離済み移動量と各顔画像に対応する部位動作強度とを線形結合することによって、正規化分離済み移動量を再結合する。再結合部２０５は、例えば、所定の非線形関数を正規化分離済み移動量に適用し、適用結果と各顔画像に対応する部位動作強度とに基づいて、正規化分離済み移動量を再結合してもよい。

再結合部２０５は、顔画像データに基づいて導出された全ての部位動作強度について、正規化分離済み移動量が再結合することによって、重みマスクを顔画像データごとに生成する。再結合部２０５は、生成された重みマスクを、顔画像データごとに出力する。

次に、学習部３００の構成例を説明する。
図４は、学習部３００の構成例を示す図である。学習部３００は、初期パラメータ設定部３０１と、推定部３０２と、誤差導出部３０３と、パラメータ更新部３０４と、学習済みモデル保存部３０５とを備える。

初期パラメータ設定部３０１は、ニューラル・ネットワークを用いた機械学習のモデルのパラメータの初期値を、例えばランダムに決定する。初期パラメータ設定部３０１は、決定されたパラメータの初期値を、推定部３０２に出力する。

推定部３０２は、パラメータの初期値を、初期パラメータ設定部３０１から取得する。推定部３０２は、パラメータの初期値を取得した場合、ニューラル・ネットワークを用いた学習済みモデルに、パラメータの初期値を設定する。

推定部３０２は、顔画像データと所定の表情の顔形状データとの組み合わせを、学習データセットとしてデータ保持部１００から取得する。推定部３０２は、パラメータの更新値を、パラメータ更新部３０４から取得する。推定部３０２は、パラメータの更新値を取得した場合、ニューラル・ネットワークを用いた学習済みモデルに、パラメータの更新値を設定する。

推定部３０２は、ニューラル・ネットワークを用いた学習済みモデルに、顔画像データを入力する。推定部３０２は、顔画像データを入力として、顔形状の推定データを出力とする推定処理を、学習済みモデルを用いて実行する。すなわち、推定部３０２は、学習済みモデルを用いて、顔形状の推定データを顔画像データから導出する。このようにして、推定部３０２は顔形状を推定する。推定部３０２は、顔形状の推定データ、顔形状の推定データに対応付けられた顔形状の正解データとを、誤差導出部３０３に出力する。

誤差導出部３０３は、顔形状の推定データと、顔形状の推定データに対応付けられた顔形状の正解データとを、推定部３０２から取得する。誤差導出部３０３は、顔形状の正解データに対応付けられた重みマスクを、重みマスク生成部２００から取得する。誤差導出部３０３は、ジオメトリ・イメージのデータ形式の同一の２次元座標点に格納されている顔形状の３次元座標点の各成分について、顔形状の正解データに対する顔形状の推定データの絶対誤差を導出する。

誤差導出部３０３は、導出された絶対誤差に基づいて、顔形状の推定データと顔形状の正解データとの重み付き誤差を導出する。すなわち、誤差導出部３０３は、顔形状の全体領域の各特徴点について、導出された絶対誤差と重みマスクにおける２次元座標点（特徴点）の重み値とを乗算する。誤差導出部３０３は、顔形状の全体領域における、絶対誤差と重み値との乗算結果の平均値を、重み付き誤差（平均絶対誤差）として導出する。

このようにして、誤差導出部３０３は、機械学習の学習フェイズにおいて、顔形状の正解データに対する顔形状の推定データの重み付き誤差を、重みマスクを用いて導出する。誤差導出部３０３は、重み付き誤差の情報を、パラメータ更新部３０４に出力する。

パラメータ更新部３０４は、重み付き誤差の情報を、誤差導出部３０３から取得する。パラメータ更新部３０４は、重み付き誤差に対して誤差逆伝播法を実行することによって、機械学習のモデルのパラメータを更新する。パラメータ更新部３０４は、パラメータの更新値を推定部３０２に出力する。

パラメータ更新部３０４は、パラメータの更新値を、保存用パラメータとして学習済みモデル保存部３０５に出力してもよい。保存用パラメータは、新たな学習済みのモデルのパラメータとして使用される。

学習済みモデル保存部３０５は、保存用パラメータを記憶する。学習済みモデル保存部３０５は、新たな学習済みのモデルを、保存用パラメータを用いて生成する。学習済みモデル保存部３０５は、新たな学習済みのモデルを、所定の外部装置に出力する。

次に、学習モデル生成装置１の動作例を説明する。
図５は、学習モデル生成装置１の動作例を示すフローチャートである。学習モデル生成装置１は、顔画像データと、所定の表情の顔形状データと、無表情の顔形状データとの組み合わせを取得する（ステップＳ１００）。学習モデル生成装置１は、重みマスクを学習データセットごとに生成する（ステップＳ２００）。学習モデル生成装置１は、顔画像データを入力として、顔形状データを出力とする機械学習を、重みマスクを用いて実行する（ステップＳ３００）。機械学習の結果として導出されたパラメータを用いて、新たな学習済モデルが生成される。

次に、重みマスク生成部２００の動作例を説明する。
図６は、重みマスク生成部２００の動作例を示すフローチャートである。部位動作強度導出部２０１は、顔画像の各部分領域に対応付けられた複数の部位動作強度を、顔画像データごとに導出する（ステップＳ２０１）。移動量導出部２０２は、顔形状の全体領域の各特徴点の移動量を、学習データセットごとに導出する（ステップＳ２０２）。分離部２０３は、顔形状の全体領域の特徴点の移動量と部位動作強度とに基づいて、分離済み移動量を導出する（ステップＳ２０３）。正規化部２０４は、分離済み移動量の各成分を正規化する（ステップＳ２０４）。再結合部２０５は、正規化分離済み移動量を、部位動作強度を用いて再結合する（ステップＳ２０５）。これによって、重みマスクが生成される。

次に、学習部３００の動作例を説明する。
図７は、学習部３００の動作例を示すフローチャートである。推定部３０２は、ニューラル・ネットワークを用いた学習済みモデルに、パラメータの初期値を設定する（ステップＳ３０１）。推定部３０２は、顔形状の推定データを、顔画像データから導出する（ステップＳ３０２）。誤差導出部３０３は、導出された絶対誤差に基づいて、顔形状の推定データと顔形状の正解データとの重み付き誤差を導出する（ステップＳ３０３）。パラメータ更新部３０４は、重み付き誤差に基づいて、機械学習のモデルのパラメータを更新する。推定部３０２は、ステップＳ３０２を再実行する（ステップＳ３０４）。学習済みモデル保存部３０５は、新たな学習済みのモデルを、保存用パラメータを用いて生成する（ステップＳ３０５）。

以上のように、実施形態の重みマスク生成部２００（重みマスク生成装置）は、移動量導出部２０２と、分離部２０３と、正規化部２０４と、再結合部２０５（重み値生成部）とを備える。移動量導出部２０２は、顔形状の全体領域の各特徴点の移動量「Ｄ」を導出する。分離部２０３は、顔形状の全体領域の各特徴点の移動量（例えば、移動量の平均値「Ｄ_ＡＵ」）と、顔形状の部分領域の変形パターンごとの変形度（部位動作強度）（例えば、変形度の平均値「ｖ_ＡＵ」）とに基づいて、顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量「Ａ」を導出する。正規化部２０４は、正規化された分離済み移動量である正規化分離済み移動量を、顔形状の部分領域の変形パターンごとに導出する。再結合部２０５は、顔形状の部分領域の変形パターンごとの正規化分離済み移動量と、顔形状の部分領域の変形パターンごとの変形度（部位動作強度）とに基づいて、顔形状の全体領域の各特徴点の重み値を、重みマスクとして生成する。

このように、重みマスク生成部２００は、顔の全体領域の各部位の動きの大小に関係なく、各部位の動作の重み値（部位動作強度）を生成する。重みマスク生成部２００は、表情に関して人に注目される顔の各部位を重点的に学習する。重みマスク生成部２００は、それらの部位における、顔形状の推定データと顔形状の正解データとの誤差を低減する。これによって、実施形態の重みマスク生成部２００は、顔画像から復元された顔形状の表情の再現度を向上させることが可能である。すなわち、実際の表情に近い３次元の顔形状が復元される。

被験者の主観に基づいて被験者が部位動作強度を導出してもよいが、重みマスク生成部２００（重みマスク生成装置）は、部位動作強度導出部２０１を更に備えてもよい。部位動作強度導出部２０１（変形度導出部）は、顔形状に対応付けられた顔画像に基づいて、部位動作強度を導出する。部位動作強度導出部２０１は、例えば、顔面動作符号化システムの規格において定義されたアクション・ユニットごとに、部位動作強度を導出する。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、機械学習用の重みマスクを生成する装置、３次元形状データを生成する装置に適用可能である。

１…学習モデル生成装置、２…学習モデル生成装置、１０…データ保持部、２０…学習部、３０…重みマスク、１００…データ保持部、２００…重みマスク生成部、２０１…部位動作強度導出部、２０２…移動量導出部、２０３…分離部、２０４…正規化部、２０５…再結合部、３００…学習部、３０１…初期パラメータ設定部、３０２…推定部、３０３…誤差導出部、３０４…パラメータ更新部、３０５…学習済みモデル保存部

Claims

顔形状の全体領域の各特徴点の移動量を導出する移動量導出部と、
前記顔形状の全体領域の各特徴点の移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量を導出する分離部と、
正規化された前記分離済み移動量である正規化分離済み移動量を、前記顔形状の部分領域の変形パターンごとに導出する正規化部と、
前記顔形状の部分領域の変形パターンごとの前記正規化分離済み移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の全体領域の各特徴点の重み値を生成する重み値生成部と
を備える重みマスク生成装置。
前記顔形状に対応付けられた顔画像に基づいて、前記顔形状の部分領域の変形パターンごとの変形度を導出する変形度導出部を更に備える、
請求項１に記載の重みマスク生成装置。
前記変形度導出部は、顔面動作符号化システムの規格において定義されたアクション・ユニットごとに、前記変形度を導出する、
請求項２に記載の重みマスク生成装置。
重みマスク生成装置が実行する重みマスク生成方法であって、
前記重みマスク生成装置の移動量導出部が、顔形状の全体領域の各特徴点の移動量を導出する移動量ステップと、
前記重みマスク生成装置の分離部が、前記顔形状の全体領域の各特徴点の移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量を導出する分離ステップと、
前記重みマスク生成装置の正規化部が、正規化された前記分離済み移動量である正規化分離済み移動量を、前記顔形状の部分領域の変形パターンごとに導出する正規化ステップと、
前記重みマスク生成装置の重み値生成部が、前記顔形状の部分領域の変形パターンごとの前記正規化分離済み移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の全体領域の各特徴点の重み値を生成する重み値生成ステップと
を含む重みマスク生成方法。
請求項１から請求項３のいずれか一項に記載の重みマスク生成装置としてコンピュータを機能させるためのプログラム。