JP7161111B2 - 重みマスク生成装置、重みマスク生成方法及びプログラム - Google Patents

重みマスク生成装置、重みマスク生成方法及びプログラム Download PDF

Info

Publication number
JP7161111B2
JP7161111B2 JP2019059362A JP2019059362A JP7161111B2 JP 7161111 B2 JP7161111 B2 JP 7161111B2 JP 2019059362 A JP2019059362 A JP 2019059362A JP 2019059362 A JP2019059362 A JP 2019059362A JP 7161111 B2 JP7161111 B2 JP 7161111B2
Authority
JP
Japan
Prior art keywords
face shape
movement amount
unit
deformation
weight mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019059362A
Other languages
English (en)
Other versions
JP2020160792A (ja
Inventor
瑛彦 高島
誠明 松村
肇 能登
英明 木全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019059362A priority Critical patent/JP7161111B2/ja
Priority to PCT/JP2020/010431 priority patent/WO2020195810A1/ja
Priority to US17/441,018 priority patent/US20220172383A1/en
Publication of JP2020160792A publication Critical patent/JP2020160792A/ja
Application granted granted Critical
Publication of JP7161111B2 publication Critical patent/JP7161111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本発明は、重みマスク生成装置、重みマスク生成方法及びプログラムに関する。
機械学習のモデルを用いて、顔の3次元形状(以下「顔形状」という。)が顔の2次元画像(以下「顔画像」という。)から復元される場合がある(非特許文献1参照)。顔形状データは、顔形状の各特徴点(点群)を表す。顔形状の各特徴点とは、例えば、瞳の中央点、目の端点、顔の正面から見える鼻の中央点などである。学習モデル生成装置は、機械学習のモデルに入力された顔画像データから、顔形状の推定データを導出する。機械学習のモデルは、例えば、ディープ・ニューラル・ネットワーク(Deep Neural Network:DNN)を用いた機械学習のモデルである。
3次元形状の隣接関係が保持されたまま、ジオメトリ・イメージ(Geometry Images)のデータ形式の2次元画像に、3次元形状データが格納される場合がある(非特許文献2参照)。例えば、ジオメトリ・イメージのデータ形式の2次元画像には、顔形状の正解データが格納される。
機械学習の学習フェイズにおいて、顔形状の各特徴点の重み値を表す2次元画像(以下「重みマスク」という。)を用いて、顔形状の正解データに対する顔形状の推定データの誤差を学習モデル生成装置が導出する場合がある。重みマスクは、ジオメトリ・イメージのデータ形式で予め生成される。従来の重みマスクでは、顔の表情の変化(顔形状の変形)に関係なく、顔形状の各特徴点(例えば、68 landmark points)に重み付けが与えられている。学習モデル生成装置は、顔形状の正解データに対する顔形状の推定データの誤差に基づいて、誤差逆伝播法によって、機械学習のモデルのパラメータを更新する。
図8は、従来の学習モデル生成装置の構成例を示す図である。学習モデル生成装置2は、学習済みの機械学習のモデルを生成する装置である。学習モデル生成装置2は、データ保持部10と、学習部20とを備える。
データ保持部10は、顔画像データと所定の表情の顔形状データとの組み合わせを、顔の表情ごとに保持する。各顔画像における同一の2次元座標点に、各顔形状における部分領域(部位)の同一の特徴点が格納されるように、各顔形状の各特徴点は位置合わせされる。
学習部20は、顔画像データと所定の表情の顔形状データとを、データ保持部10から取得する。学習部20は、重みマスクを取得する。学習部20は、顔画像データを入力として、所定の表情の顔形状データを出力とする機械学習を、取得された重みマスクを用いて実行する。このようにして、学習部20は、学習済みの機械学習のモデルを生成する。
図9は、学習モデル生成装置2の動作例を示すフローチャートである。学習部20は、顔画像データと顔形状データとを、データ保持部10から取得する(ステップS10)。学習部20は、顔画像データを入力として、顔形状データを出力とする機械学習を、取得された重みマスクを用いて実行する(ステップS20)。
Yao Feng, Fan Wu, Xiaohu Shao, Yanfeng Wang, Xi Zhou, "Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network", ECCV (14) 2018: pp.557-574. Gu, X., Gortler, S.J., Hoppe, H., "Geometry images", ACM Transactions on Graphics (TOG) 21(3), 355-361 (2002)
人の顔には、動きの大きい部分領域(例えば、口元)と、動きの小さい部分領域(例えば、眉)とがある。人が注目する部分領域において、顔形状の推定データと顔形状の正解データとの誤差が大きくなった場合、推定された顔の表情は、実際の表情とは異なる表情となる。このように、従来の重みマスク生成装置では、顔画像から復元された顔形状の表情の再現度が低い場合がある。
上記事情に鑑み、本発明は、顔画像から復元された顔形状の表情の再現度を向上させることが可能である重みマスク生成装置、重みマスク生成方法及びプログラムを提供することを目的としている。
本発明の一態様は、顔形状の全体領域の各特徴点の移動量を導出する移動量導出部と、前記顔形状の全体領域の各特徴点の移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量を導出する分離部と、正規化された前記分離済み移動量である正規化分離済み移動量を、前記顔形状の部分領域の変形パターンごとに導出する正規化部と、前記顔形状の部分領域の変形パターンごとの前記正規化分離済み移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の全体領域の各特徴点の重み値を生成する重み値生成部とを備える重みマスク生成装置である。
本発明の一態様は、上記の重みマスク生成装置であって、前記顔形状に対応付けられた顔画像に基づいて、前記顔形状の部分領域の変形パターンごとの変形度を導出する変形度導出部を更に備える。
本発明の一態様は、上記の重みマスク生成装置であって、前記変形度導出部は、顔面動作符号化システムの規格において定義されたアクション・ユニットごとに、前記変形度を導出する。
本発明の一態様は、上記の重みマスク生成装置が実行する重みマスク生成方法であって、重みマスク生成装置が実行する重みマスク生成方法であって、前記重みマスク生成装置の移動量導出部が、顔形状の全体領域の各特徴点の移動量を導出する移動量ステップと、前記重みマスク生成装置の分離部が、前記顔形状の全体領域の各特徴点の移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量を導出する分離ステップと、前記重みマスク生成装置の正規化部が、正規化された前記分離済み移動量である正規化分離済み移動量を、前記顔形状の部分領域の変形パターンごとに導出する正規化ステップと、前記重みマスク生成装置の重み値生成部が、前記顔形状の部分領域の変形パターンごとの前記正規化分離済み移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の全体領域の各特徴点の重み値を生成する重み値生成ステップとを含む重みマスク生成方法である。
本発明の一態様は、上記の重みマスク生成装置としてコンピュータを機能させるためのプログラムである。
本発明により、顔画像から復元された顔形状の表情の再現度を向上させることが可能である。
実施形態における、学習モデル生成装置の構成例を示す図である。 実施形態における、重みマスク生成部の構成例を示す図である。 実施形態における、平均移動量及び正方行列の例を示す図である。 実施形態における、学習部の構成例を示す図である。 実施形態における、学習モデル生成装置の動作例を示すフローチャートである。 実施形態における、重みマスク生成部の動作例を示すフローチャートである。 実施形態における、学習部の動作例を示すフローチャートである。 従来における、学習モデル生成装置の構成例を示す図である。 従来における、学習モデル生成装置の動作例を示すフローチャートである。
本発明の実施形態について、図面を参照して詳細に説明する。
実施形態の学習モデル生成装置は、学習済みの機械学習のモデル(以下「学習済みモデル」という。)を重みマスクに基づいて生成する情報処理装置である。学習モデル生成装置は、顔の表情に応じて変化する顔形状の全体領域における各特徴点の移動量(顔形状の変形量)を、顔形状の全体領域ごとに導出する。学習モデル生成装置は、顔形状の部分領域(部位)の変形パターン(動作パターン)ごとの変形度(動作強度)(以下「部位動作強度」という。)と、顔形状の全体領域における各特徴点の移動量とに基づいて、顔形状の部分領域の変形パターンごとの各特徴点の移動量を導出する。
部位動作強度は、顔の表情に変化を与える顔形状の部分領域の変形パターンごとに定義される。例えば、部位動作強度は、目(部位)の開き度(変形度)「2.0」、左の口角(部位)の上がり具合(変形度)「1.5」のように定義される。目の開き度は、例えば、所定の表情の顔形状における目の開き度の最大値「5.0」から、無表情の顔形状における目の開き度の最小値「0.0」までの範囲で定義される。
学習モデル生成装置は、顔形状の部分領域の変形パターンごとの各特徴点の移動量(以下「分離済み移動量」という。)を、部位動作強度ごとに、特徴点の移動量について正規化する。学習モデル生成装置は、正規化された分離済み移動量(以下「正規化分離済み移動量」という。)を、部位動作強度を用いて再結合する。すなわち、学習モデル生成装置は、正規化分離済み移動量と部位動作強度とに基づいて、顔形状の全体領域の各特徴点の重み値を表す重みマスクを、顔形状の全体領域ごとに生成する。学習モデル生成装置は、重みマスクを用いて、学習済みモデルを生成する。
図1は、学習モデル生成装置1の構成例を示す図である。学習モデル生成装置1は、データ保持部100と、重みマスク生成部200と、学習部300とを備える。重みマスク生成部200及び学習部300の一部又は全部は、CPU(Central Processing Unit)又はGPU(Graphics Processing Unit)等のプロセッサが、不揮発性の記録媒体(非一時的な記録媒体)であるメモリに記憶されたプログラムを実行することにより、ソフトウェアとして実現される。重みマスク生成部200及び学習部300の一部又は全部は、例えば、LSI(Large Scale Integration)又はFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。
データ保持部100は、不揮発性の記録媒体(非一時的な記録媒体)と、揮発性の記録媒体とのうちのいずれでもよい。データ保持部100は、顔画像データと所定の表情の顔形状データとの組み合わせを、機械学習用のデータセット(以下「学習データセット」という。)として、所定の表情の顔形状ごとに保持する。データ保持部100は、無表情の顔形状データを保持する。各顔画像における同一の2次元座標点に、各顔形状における部分領域(部位)の同一の特徴点が格納されるように、顔形状の各特徴点は、顔形状ごとに位置合わせされる。
重みマスク生成部200は、顔画像データと顔形状データと無表情顔形状データとを、データ保持部100から取得する。重みマスク生成部200は、顔画像データと顔形状データと無表情顔形状データとに基づいて、重みマスクを学習データセットごとに生成する。重みマスクの2次元座標と顔画像データの2次元座標とは一致している。重みマスク生成部200は、生成された重みマスクを、学習データセットごとに学習部300に出力する。
学習部300は、顔画像データを入力として、所定の表情の顔形状データを出力とする機械学習を、重みマスクを用いて学習データセットごとに実行する。このようにして、学習部300は、機械学習の実行結果である学習済みモデルを生成する。
次に、重みマスク生成部200の構成例を説明する。
図2は、重みマスク生成部200の構成例を示す図である。重みマスク生成部200は、機械学習における学習用の重みマスクを生成する装置である。重みマスク生成部200は、部位動作強度導出部201と、移動量導出部202と、分離部203と、正規化部204と、再結合部205とを備える。
部位動作強度導出部201(変形度導出部)は、複数の顔画像データを、データ保持部100から取得する。顔画像の全体領域は、顔画像の各部分領域(部位)に分割されている。部位動作強度導出部201は、顔画像データに基づいて、顔画像データごとに部位動作強度を導出する。部位動作強度導出部201は、顔画像の部分領域の変形パターンに対応付けられた各部位動作強度を、顔画像データごとに導出する。
部位動作強度は、N次元(Nは、顔画像の部分領域の変形パターンの数)の強度データ(見た目の強度)のベクトルである。部位動作強度導出部201は、各部分領域の変形パターンの部位動作強度を導出する。部位動作強度導出部201は、取得された顔画像データに基づく顔画像の全体領域(各部分領域)に対応付けられた複数の部位動作強度を、顔画像データごとに分離部203及び再結合部205に出力する。
部分領域の変形パターンとは、顔画像の部分領域(部位)における特定の変形動作のパターンであり、例えば、「口の周囲(部分領域)における、口角を上げる動作」、「眉(部分領域)における、外眉を上げる動作」等である。
取得された顔画像の部分領域における特徴点の位置が、無表情の顔形状の部分領域における特徴点(対応点)の位置から離れるほど、部位動作強度の値は大きくなる。例えば、部位動作強度の最小値「0」は、取得された顔画像の部分領域における特徴点の位置と、無表情の顔形状の部分領域における特徴点(対応点)の位置とが一致していることを表す。
部位動作強度導出部201は、例えば、顔面動作符号化システム(Facial Action Coding System)において定義されたアクション・ユニットごとに、部位動作強度を導出する。顔面動作符号化システムの規格では、数十個のアクション・ユニット(Action Unit : AU)が、部分領域ごとの変形パターン(動作パターン)として定義されている。アクション・ユニットとは、解剖学、心理学的知見から顔面の動作を40以上の最小単位に分けたものである。部分領域ごとの変形パターンは、例えば、AU1「眉の内側を上げる」と、AU5「上瞼を上げる」と、AU12「口の端を上げる」とのように表現される。変形パターンごとの変形度は、「AU1:1.5」と、「AU5:4.2」とのように表現される。
なお、各部分領域における各変形パターンの各顔画像を被験者が注視することによって、被験者が注目する各部分領域における変形パターンの部位動作強度を、被験者の主観に基づいて、被験者が導出してもよい。この場合、被験者は、手動で部位動作強度を分離部203及び再結合部205に入力する。重みマスク生成部200は部位動作強度導出部201を備えなくてもよい。
移動量導出部202は、学習データセットを、顔画像データごとにデータ保持部100から取得する。すなわち、データ保持部100は、所定の表情の顔形状データと無表情の顔形状データとの組み合わせを、顔画像データごとにデータ保持部100から取得する。
移動量導出部202は、所定の表情の顔形状の各特徴点の3次元座標に対して、ジオメトリ処理を実行する。すなわち、移動量導出部202は、所定の表情の顔形状の各特徴点の3次元座標を、平面上の2次元座標に変換する。移動量導出部202は、ジオメトリ・イメージのデータ形式の2次元画像に、所定の表情の顔形状データを含める。各顔画像における同一の2次元座標点に、各顔形状における部分領域(部位)の同一の特徴点が格納されるように、所定の表情の顔形状の各特徴点は、顔形状ごとに位置合わせされる。例えば、各顔形状の鼻の中央点が同一の2次元座標点になるように、顔の正面から見える鼻の中央点は、顔形状ごとに位置合わせされる。
移動量導出部202は、顔形状の全体領域の各特徴点の移動量を、学習データセットごとに導出する。すなわち、移動量導出部202は、顔形状の全体領域の各特徴点の移動量を、部位動作強度導出部201に取得された顔画像に対応付けられた顔形状ごとに導出する。移動量導出部202は、ジオメトリ・イメージのデータ形式の顔画像における2次元座標が各顔形状において同一である特徴点の3次元座標同士の差分を導出する。すなわち、移動量導出部202は、部位動作強度導出部201に取得された顔画像に対応付けられた無表情の顔形状の特徴点の位置と、その顔画像に対応付けられた所定の表情の顔形状の特徴点の位置との差(3次元形状の差)を、顔形状の特徴点の移動量として導出する。移動量導出部202は、所定の表情の顔形状の各特徴点の移動量の情報を、ジオメトリ・イメージのデータ形式で、分離部203に出力する。
分離部203は、顔形状の特徴点の移動量の情報を、顔画像データごとに移動量導出部202から取得する。分離部203は、部位動作強度の情報を、部位動作強度導出部201から取得する。
顔形状の特徴点の移動量と部位動作強度とはいずれも顔画像データ及び顔形状データから生成されるので、顔形状の特徴点の移動量と部位動作強度とは、各顔画像データに対応付けられる。顔形状の特徴点の移動量と部位動作強度との組み合わせごとに、1個の分離済み移動量(N次元のベクトルデータ)を分離部203が導出するので、顔形状の特徴点の移動量と部位動作強度と顔画像データとの対応付けの情報は、分離部203が実行する処理には必須でない。
分離部203は、顔形状の全体領域の各特徴点の移動量と、部位動作強度とに基づいて、分離済み移動量を導出する。例えば、分離部203は、顔形状の全体領域の各特徴点の移動量の平均値(平均移動量)と、部位動作強度の平均値(平均強度ベクトル)とに基づいて、分離済み移動量を導出する。分離済み移動量は、顔形状の部分領域(部位)における変形パターンの部位動作強度が1である場合における、その部分領域の各特徴点の移動量を表す。分離済み移動量は、n次元(nは、顔形状の部分領域の変形パターンの数)のベクトルデータである。分離部203は、顔形状の特徴点の移動量と部位動作強度との組み合わせごとに、1個の分離済み移動量(N次元のベクトルデータ)を導出する。
分離済み移動量の導出方法の例を説明する。
分離部203は、所定閾値「T」よりも大きい部位動作強度「v(AUn)>T」を有するサンプルを、部位動作強度「v」ごとに、全ての学習データセットのうちから抽出する。したがって、抽出されていないサンプルでは、部位動作強度「v」が閾値「T」以下である。なお、閾値「T」は、所定の表情が知覚可能である程度の部位動作強度が抽出できるように、顔形状の部分領域ごとに予め定められている。
分離部203は、抽出されたサンプルを対象として、顔形状の特徴点の移動量「D」の平均値である平均移動量「DAU」と、部位動作強度「v」のベクトルの平均値である平均強度ベクトル「vAU」とを導出する。平均移動量「DAU」と、平均強度ベクトル「vAU」と、分離済み移動量「A」との関係は、式(1)のように表される。
Figure 0007161111000001
顔形状の部分領域の変形パターンの順(AU1、AU2、…)に平均移動量「DAU」が並べられた列ベクトル「D」は、式(2)のように表される。
Figure 0007161111000002
図3は、平均移動量「DAU」及び正方行列「M」の例を示す図である。式(2)の右辺における「vAU1」から「vAUx」までは、それぞれ列ベクトルである。したがって、行ベクトルの各要素として各列ベクトルが展開された場合、式(2)の右辺における「vAU1」から「vAUx」までは、(n×n)のサイズの対角優位な正方行列「M」となる。このため、分離部203は、列ベクトル「D」に対して逆行列「M-1」を用いて、部位動作強度「v」ごとに定義される分離済み移動量「A」を、式(3)のように導出する。
Figure 0007161111000003
分離済み移動量「A」は、任意の顔形状に対して利用可能である。図3には、3次元の平均移動量「DAU」(重み付け)を顔形状の特徴点ごとに表す重みマスク30の例が、平均強度ベクトル「vAU」ごとに示されている。重みマスク30では、3次元の平均移動量「DAU」が大きい特徴点ほど、明るい色で表される。分離部203は、N次元のベクトルデータである分離済み移動量「A」を、正規化部204に出力する。
正規化部204は、分離済み移動量「A」を、分離部203から取得する。正規化部204は、例えば、分離済み移動量「A」の各成分の大きさのうちの最大値を、顔形状の部分領域の変形パターンごとに導出する。正規化部204は、導出された最大値で、分離済み移動量「A」を除算する。
このようにして、正規化部204は、N次元のベクトルデータである分離済み移動量「A」の各成分を正規化し、正規化分離済み移動量を生成する。正規化分離済み移動量は、N次元のベクトルデータである。正規化部204は、正規化分離済み移動量を、再結合部205に出力する。
再結合部205(重み値生成部)は、正規化分離済み移動量を、正規化部204から取得する。再結合部205は、部位動作強度の情報を、顔画像データごとに部位動作強度導出部201から取得する。再結合部205は、正規化分離済み移動量と部位動作強度とに基づいて、顔形状の全体領域の各特徴点の重み値を生成する。すなわち、再結合部205は、正規化分離済み移動量と各顔画像に対応する部位動作強度との積を導出することによって、正規化分離済み移動量を再結合する。
再結合部205は、例えば、正規化分離済み移動量と各顔画像に対応する部位動作強度とを線形結合することによって、正規化分離済み移動量を再結合する。再結合部205は、例えば、所定の非線形関数を正規化分離済み移動量に適用し、適用結果と各顔画像に対応する部位動作強度とに基づいて、正規化分離済み移動量を再結合してもよい。
再結合部205は、顔画像データに基づいて導出された全ての部位動作強度について、正規化分離済み移動量が再結合することによって、重みマスクを顔画像データごとに生成する。再結合部205は、生成された重みマスクを、顔画像データごとに出力する。
次に、学習部300の構成例を説明する。
図4は、学習部300の構成例を示す図である。学習部300は、初期パラメータ設定部301と、推定部302と、誤差導出部303と、パラメータ更新部304と、学習済みモデル保存部305とを備える。
初期パラメータ設定部301は、ニューラル・ネットワークを用いた機械学習のモデルのパラメータの初期値を、例えばランダムに決定する。初期パラメータ設定部301は、決定されたパラメータの初期値を、推定部302に出力する。
推定部302は、パラメータの初期値を、初期パラメータ設定部301から取得する。推定部302は、パラメータの初期値を取得した場合、ニューラル・ネットワークを用いた学習済みモデルに、パラメータの初期値を設定する。
推定部302は、顔画像データと所定の表情の顔形状データとの組み合わせを、学習データセットとしてデータ保持部100から取得する。推定部302は、パラメータの更新値を、パラメータ更新部304から取得する。推定部302は、パラメータの更新値を取得した場合、ニューラル・ネットワークを用いた学習済みモデルに、パラメータの更新値を設定する。
推定部302は、ニューラル・ネットワークを用いた学習済みモデルに、顔画像データを入力する。推定部302は、顔画像データを入力として、顔形状の推定データを出力とする推定処理を、学習済みモデルを用いて実行する。すなわち、推定部302は、学習済みモデルを用いて、顔形状の推定データを顔画像データから導出する。このようにして、推定部302は顔形状を推定する。推定部302は、顔形状の推定データ、顔形状の推定データに対応付けられた顔形状の正解データとを、誤差導出部303に出力する。
誤差導出部303は、顔形状の推定データと、顔形状の推定データに対応付けられた顔形状の正解データとを、推定部302から取得する。誤差導出部303は、顔形状の正解データに対応付けられた重みマスクを、重みマスク生成部200から取得する。誤差導出部303は、ジオメトリ・イメージのデータ形式の同一の2次元座標点に格納されている顔形状の3次元座標点の各成分について、顔形状の正解データに対する顔形状の推定データの絶対誤差を導出する。
誤差導出部303は、導出された絶対誤差に基づいて、顔形状の推定データと顔形状の正解データとの重み付き誤差を導出する。すなわち、誤差導出部303は、顔形状の全体領域の各特徴点について、導出された絶対誤差と重みマスクにおける2次元座標点(特徴点)の重み値とを乗算する。誤差導出部303は、顔形状の全体領域における、絶対誤差と重み値との乗算結果の平均値を、重み付き誤差(平均絶対誤差)として導出する。
このようにして、誤差導出部303は、機械学習の学習フェイズにおいて、顔形状の正解データに対する顔形状の推定データの重み付き誤差を、重みマスクを用いて導出する。誤差導出部303は、重み付き誤差の情報を、パラメータ更新部304に出力する。
パラメータ更新部304は、重み付き誤差の情報を、誤差導出部303から取得する。パラメータ更新部304は、重み付き誤差に対して誤差逆伝播法を実行することによって、機械学習のモデルのパラメータを更新する。パラメータ更新部304は、パラメータの更新値を推定部302に出力する。
パラメータ更新部304は、パラメータの更新値を、保存用パラメータとして学習済みモデル保存部305に出力してもよい。保存用パラメータは、新たな学習済みのモデルのパラメータとして使用される。
学習済みモデル保存部305は、保存用パラメータを記憶する。学習済みモデル保存部305は、新たな学習済みのモデルを、保存用パラメータを用いて生成する。学習済みモデル保存部305は、新たな学習済みのモデルを、所定の外部装置に出力する。
次に、学習モデル生成装置1の動作例を説明する。
図5は、学習モデル生成装置1の動作例を示すフローチャートである。学習モデル生成装置1は、顔画像データと、所定の表情の顔形状データと、無表情の顔形状データとの組み合わせを取得する(ステップS100)。学習モデル生成装置1は、重みマスクを学習データセットごとに生成する(ステップS200)。学習モデル生成装置1は、顔画像データを入力として、顔形状データを出力とする機械学習を、重みマスクを用いて実行する(ステップS300)。機械学習の結果として導出されたパラメータを用いて、新たな学習済モデルが生成される。
次に、重みマスク生成部200の動作例を説明する。
図6は、重みマスク生成部200の動作例を示すフローチャートである。部位動作強度導出部201は、顔画像の各部分領域に対応付けられた複数の部位動作強度を、顔画像データごとに導出する(ステップS201)。移動量導出部202は、顔形状の全体領域の各特徴点の移動量を、学習データセットごとに導出する(ステップS202)。分離部203は、顔形状の全体領域の特徴点の移動量と部位動作強度とに基づいて、分離済み移動量を導出する(ステップS203)。正規化部204は、分離済み移動量の各成分を正規化する(ステップS204)。再結合部205は、正規化分離済み移動量を、部位動作強度を用いて再結合する(ステップS205)。これによって、重みマスクが生成される。
次に、学習部300の動作例を説明する。
図7は、学習部300の動作例を示すフローチャートである。推定部302は、ニューラル・ネットワークを用いた学習済みモデルに、パラメータの初期値を設定する(ステップS301)。推定部302は、顔形状の推定データを、顔画像データから導出する(ステップS302)。誤差導出部303は、導出された絶対誤差に基づいて、顔形状の推定データと顔形状の正解データとの重み付き誤差を導出する(ステップS303)。パラメータ更新部304は、重み付き誤差に基づいて、機械学習のモデルのパラメータを更新する。推定部302は、ステップS302を再実行する(ステップS304)。学習済みモデル保存部305は、新たな学習済みのモデルを、保存用パラメータを用いて生成する(ステップS305)。
以上のように、実施形態の重みマスク生成部200(重みマスク生成装置)は、移動量導出部202と、分離部203と、正規化部204と、再結合部205(重み値生成部)とを備える。移動量導出部202は、顔形状の全体領域の各特徴点の移動量「D」を導出する。分離部203は、顔形状の全体領域の各特徴点の移動量(例えば、移動量の平均値「DAU」)と、顔形状の部分領域の変形パターンごとの変形度(部位動作強度)(例えば、変形度の平均値「vAU」)とに基づいて、顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量「A」を導出する。正規化部204は、正規化された分離済み移動量である正規化分離済み移動量を、顔形状の部分領域の変形パターンごとに導出する。再結合部205は、顔形状の部分領域の変形パターンごとの正規化分離済み移動量と、顔形状の部分領域の変形パターンごとの変形度(部位動作強度)とに基づいて、顔形状の全体領域の各特徴点の重み値を、重みマスクとして生成する。
このように、重みマスク生成部200は、顔の全体領域の各部位の動きの大小に関係なく、各部位の動作の重み値(部位動作強度)を生成する。重みマスク生成部200は、表情に関して人に注目される顔の各部位を重点的に学習する。重みマスク生成部200は、それらの部位における、顔形状の推定データと顔形状の正解データとの誤差を低減する。これによって、実施形態の重みマスク生成部200は、顔画像から復元された顔形状の表情の再現度を向上させることが可能である。すなわち、実際の表情に近い3次元の顔形状が復元される。
被験者の主観に基づいて被験者が部位動作強度を導出してもよいが、重みマスク生成部200(重みマスク生成装置)は、部位動作強度導出部201を更に備えてもよい。部位動作強度導出部201(変形度導出部)は、顔形状に対応付けられた顔画像に基づいて、部位動作強度を導出する。部位動作強度導出部201は、例えば、顔面動作符号化システムの規格において定義されたアクション・ユニットごとに、部位動作強度を導出する。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、機械学習用の重みマスクを生成する装置、3次元形状データを生成する装置に適用可能である。
1…学習モデル生成装置、2…学習モデル生成装置、10…データ保持部、20…学習部、30…重みマスク、100…データ保持部、200…重みマスク生成部、201…部位動作強度導出部、202…移動量導出部、203…分離部、204…正規化部、205…再結合部、300…学習部、301…初期パラメータ設定部、302…推定部、303…誤差導出部、304…パラメータ更新部、305…学習済みモデル保存部

Claims (5)

  1. 顔形状の全体領域の各特徴点の移動量を導出する移動量導出部と、
    前記顔形状の全体領域の各特徴点の移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量を導出する分離部と、
    正規化された前記分離済み移動量である正規化分離済み移動量を、前記顔形状の部分領域の変形パターンごとに導出する正規化部と、
    前記顔形状の部分領域の変形パターンごとの前記正規化分離済み移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の全体領域の各特徴点の重み値を生成する重み値生成部と
    を備える重みマスク生成装置。
  2. 前記顔形状に対応付けられた顔画像に基づいて、前記顔形状の部分領域の変形パターンごとの変形度を導出する変形度導出部を更に備える、
    請求項1に記載の重みマスク生成装置。
  3. 前記変形度導出部は、顔面動作符号化システムの規格において定義されたアクション・ユニットごとに、前記変形度を導出する、
    請求項2に記載の重みマスク生成装置。
  4. 重みマスク生成装置が実行する重みマスク生成方法であって、
    前記重みマスク生成装置の移動量導出部が、顔形状の全体領域の各特徴点の移動量を導出する移動量ステップと、
    前記重みマスク生成装置の分離部が、前記顔形状の全体領域の各特徴点の移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の部分領域の変形パターンごとの各特徴点の移動量である分離済み移動量を導出する分離ステップと、
    前記重みマスク生成装置の正規化部が、正規化された前記分離済み移動量である正規化分離済み移動量を、前記顔形状の部分領域の変形パターンごとに導出する正規化ステップと、
    前記重みマスク生成装置の重み値生成部が、前記顔形状の部分領域の変形パターンごとの前記正規化分離済み移動量と、前記顔形状の部分領域の変形パターンごとの変形度とに基づいて、前記顔形状の全体領域の各特徴点の重み値を生成する重み値生成ステップと
    を含む重みマスク生成方法。
  5. 請求項1から請求項3のいずれか一項に記載の重みマスク生成装置としてコンピュータを機能させるためのプログラム。
JP2019059362A 2019-03-26 2019-03-26 重みマスク生成装置、重みマスク生成方法及びプログラム Active JP7161111B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019059362A JP7161111B2 (ja) 2019-03-26 2019-03-26 重みマスク生成装置、重みマスク生成方法及びプログラム
PCT/JP2020/010431 WO2020195810A1 (ja) 2019-03-26 2020-03-11 重みマスク生成装置、重みマスク生成方法及びプログラム
US17/441,018 US20220172383A1 (en) 2019-03-26 2020-03-11 Weighted mask generating apparatus, weighted mask generating method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019059362A JP7161111B2 (ja) 2019-03-26 2019-03-26 重みマスク生成装置、重みマスク生成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020160792A JP2020160792A (ja) 2020-10-01
JP7161111B2 true JP7161111B2 (ja) 2022-10-26

Family

ID=72610555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019059362A Active JP7161111B2 (ja) 2019-03-26 2019-03-26 重みマスク生成装置、重みマスク生成方法及びプログラム

Country Status (3)

Country Link
US (1) US20220172383A1 (ja)
JP (1) JP7161111B2 (ja)
WO (1) WO2020195810A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11587277B2 (en) * 2020-12-16 2023-02-21 Sony Interactive Entertainment LLC Weight maps to generate off-center split maps of a shape

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257324A (ja) 2006-03-23 2007-10-04 Space Vision:Kk 顔モデル作成システム
WO2015029982A1 (ja) 2013-08-29 2015-03-05 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3358501B1 (en) * 2003-07-18 2020-01-01 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
EP3259704B1 (en) * 2015-02-16 2023-08-23 University Of Surrey Three dimensional modelling
CN108876879B (zh) * 2017-05-12 2022-06-14 腾讯科技(深圳)有限公司 人脸动画实现的方法、装置、计算机设备及存储介质
CN109242961B (zh) * 2018-09-26 2021-08-10 北京旷视科技有限公司 一种脸部建模方法、装置、电子设备和计算机可读介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257324A (ja) 2006-03-23 2007-10-04 Space Vision:Kk 顔モデル作成システム
WO2015029982A1 (ja) 2013-08-29 2015-03-05 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIAO, C.T. et al.,Learning Spatial Weighting via Quadratic Programming for Facial Expression Analysis,2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition [online],IEEE,2010年06月,pp. 86-93,[retrieved on 2022.09.01], Retrieved from the Internet <URL:https://ieeexplore.ieee.org/abstract/document/5543261>

Also Published As

Publication number Publication date
JP2020160792A (ja) 2020-10-01
US20220172383A1 (en) 2022-06-02
WO2020195810A1 (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
US11514947B1 (en) Method for real-time video processing involving changing features of an object in the video
JP2018200690A (ja) 情報処理方法及び情報処理装置
JP4618098B2 (ja) 画像処理システム
CN110097130A (zh) 分类任务模型的训练方法、装置、设备及存储介质
US20170083751A1 (en) Method for estimating locations of facial landmarks in an image of a face using globally aligned regression
WO2018051944A1 (ja) 人流推定装置、人流推定方法および記録媒体
JP5505409B2 (ja) 特徴点生成システム、特徴点生成方法および特徴点生成プログラム
JP2009020761A (ja) 画像処理装置及びその方法
US20230169727A1 (en) Generative Nonlinear Human Shape Models
US10860755B2 (en) Age modelling method
JP6465027B2 (ja) 特徴点位置推定装置、特徴点位置推定方法および特徴点位置推定プログラム
Saval-Calvo et al. 3D non-rigid registration using color: color coherent point drift
US11282218B2 (en) Systems and methods for providing medical guidance using a patient depth image
JP6283124B2 (ja) 画像特性推定方法およびデバイス
JP7161111B2 (ja) 重みマスク生成装置、重みマスク生成方法及びプログラム
US11769310B2 (en) Combining three-dimensional morphable models
US11354844B2 (en) Digital character blending and generation system and method
US20230046705A1 (en) Storage medium, determination device, and determination method
US20240013357A1 (en) Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method
Vera-Perez et al. Automatic parameter configuration: A case study on a rehabilitation oriented human limb tracking algorithm
CN113056744A (zh) 数据扩充
Yakushiji et al. Shape space estimation by higher-rank of SOM
Duan et al. OCT segmentation: Integrating open parametric contour model of the retinal layers and shape constraint to the Mumford-Shah functional
US20230057235A1 (en) Computer-readable recording medium storing determination program, determination device, and determination method
CN114155565A (zh) 人脸特征点坐标获取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220926

R150 Certificate of patent or registration of utility model

Ref document number: 7161111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150