JP7396509B2

JP7396509B2 - 機械学習プログラム、機械学習方法および推定装置

Info

Publication number: JP7396509B2
Application number: JP2022551068A
Authority: JP
Inventors: 淳哉斎藤; 昭嘉内田; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2023-12-12
Anticipated expiration: 2040-09-25
Also published as: JPWO2022064660A1; US20230237845A1; WO2022064660A1; EP4220546A4; CN116018613A; EP4220546A1

Description

本発明の実施形態は、表情の推定技術に関する。

表情を推定するには、まず推定対象とする表情の記述方法を規定しなければならない。これまでに、ＡＵ（Action Unit：アクションユニット）と呼ばれる表情の記述方法が提案されている。ＡＵは、顔面筋の解剖学的知見に基づき定義された、表情表出に関与する表情筋の動きを表す。

ＡＵを推定するＡＵ推定エンジンの代表的な形態は、大量の教師データに基づく機械学習をベースとし、教師データとして、顔表情の画像データと、各ＡＵのＯｃｃｕｒｒｅｎｃｅ（発生の有無）やＩｎｔｅｎｓｉｔｙ（発生強度）が用いられる。また、教師データのＯｃｃｕｒｒｅｎｃｅやＩｎｔｅｎｓｉｔｙは、Ｃｏｄｅｒ（コーダ）と呼ばれる専門家によりＡｎｎｏｔａｔｉｏｎ（アノテーション）される。なお、以下では、Ｉｎｔｅｎｓｉｔｙのみを挙げて説明することがあるが、Ｏｃｃｕｒｒｅｎｃｅについても同様である。

米国特許出願公開第２０１９／２９４８６８号明細書特開２０２０－５７１１１号公報特開２０１８－３６７３４号公報

ＡＵのＩｎｔｅｎｓｉｔｙは、表情筋の動きとして統一的に定義されている。ただし、外から観察できるものは、皮膚表面の移動量や見た目の変化（シワなど）であり、これは、年齢や骨格、肥満の程度、皮膚と表情筋の繋がり方などによって様々なバリエーションがあるため、全ての人に統一的なＩｎｔｅｎｓｉｔｙの境界基準（以下、単に「基準」と称する場合もある）を定義することは難しい。したがって、外から観察できるＩｎｔｅｎｓｉｔｙの境界基準は、曖昧なものにならざるを得ない。

コーダは、例えば、正解ラベルとしてＩｎｔｅｎｓｉｔｙを付与する対象の被写体の動画を見ながら、表情筋の動きを推測して一つ一つのフレーム画像にＩｎｔｅｎｓｉｔｙを付与していく。しかしながら、外から観察できるＩｎｔｅｎｓｉｔｙの境界基準は曖昧で、全ての人に対して統一的なものではないため、コーダが付与する正解ラベルは、被写体によって、境界の基準がずれることがある。

このため、上記の従来技術では、このような基準の異なるデータを含めて機械学習を行うことで誤った特徴を捉えたモデルが生成される場合があり、推定精度が低下するという問題がある。

１つの側面では、表情推定の精度を高めることができる機械学習プログラム、機械学習方法および推定装置を提供することを目的とする。

第１の案では、機械学習プログラムは、訓練済みモデルを生成する処理と、第３のモデルを生成する処理とをコンピュータに実行させる。訓練済みモデルを生成する処理は、第１の画像と第２の画像との組と、第１の画像と第２の画像とのうちどちらの画像が被写体の表情筋の動きが大きいかを示す第１のラベルとを含む訓練データの入力に応じて、第１の画像を第１のモデルに入力して得られる第１の出力値と、第２の画像を第１のモデルとパラメータを共有する第２のモデルに入力して得られる第２の出力値と、第１のラベルとに基づいた第１のモデルの機械学習を実行することによって、訓練済みモデルを生成する。第３のモデルを生成する処理は、第３の画像を訓練済みモデルに入力して得られた第３の出力値と、第３の画像に含まれる被写体の表情筋の動きの発生強度もしくは発生の有無を示す第２のラベルとに基づいた機械学習によって第３のモデルを生成する。

表情推定の精度を高めることができる。

図１は、実施形態の概要を説明する説明図である。図２は、第１の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図３は、第１の実施形態にかかる情報処理装置の動作例を示すフローチャートである。図４は、第１の実施形態にかかる情報処理装置の動作例を示すフローチャートである。図５は、第２の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図６は、第３の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図７は、第４の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図８は、第４の実施形態にかかる情報処理装置の処理内容を説明する説明図である。図９は、コンピュータ構成の一例を示すブロック図である。

以下、図面を参照して、実施形態にかかる機械学習プログラム、機械学習方法および推定装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する機械学習プログラム、機械学習方法および推定装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

（概要）
以下で説明する第１、第２、第３および第４の実施形態（まとめて本実施形態）では、ＡＵ推定エンジンの機械学習において、学習用の学習データセット（訓練データ）の中からＩｎｔｅｎｓｉｔｙの境界基準について、変化の影響を受けている情報を除外して学習を行う。

例えば、年齢や骨格、肥満の程度、皮膚と表情筋の繋がり方などによって訓練データに含まれる被写体間で基準が変化していても、同一被写体において基準は変化していない。そこで、本実施形態では、訓練データの中の同一被写体におけるＩｎｔｅｎｓｉｔｙの順序関係（どちらのＩｎｔｅｎｓｉｔｙが大きか）を学習し、Ｉｎｔｅｎｓｉｔｙの順序関係が保証されるＩｎｔｅｎｓｉｔｙ（順序Ｉｎｔｅｎｓｉｔｙと呼ぶ）を推定できるモデルを生成する。

図１は、実施形態の概要を説明する説明図である。図１に示すように、本実施形態では、同一の被写体ａの画像の組である画像ペア（ａ_１、ａ_２）と、その画像ペアのうちどちらの画像が被写体ａの表情筋の動きが大きいかを示す正解ラベルとを学習データセットＤ１とする。

例えば、本実施形態では、コーダが正解フラグとして各画像に付与したＩｎｔｅｎｓｉｔｙを比較して正解ラベルを得る。一例として、画像ａ_１におけるＩｎｔｅｎｓｉｔｙが画像ａ_２におけるＩｎｔｅｎｓｉｔｙよりも大きい場合は「１」を正解ラベルとする。また、画像ａ_１におけるＩｎｔｅｎｓｉｔｙが画像ａ_２におけるＩｎｔｅｎｓｉｔｙよりも小さい場合は「０」を正解ラベルとする。本実施形態では、この学習データセットＤ１を複数の被写体それぞれについて用意する。

次いで、本実施形態では、用意した学習データセットＤ１を用いて、順序関係が保証される順序Ｉｎｔｅｎｓｉｔｙを算出できるようにニューラルネットワークＮＮの学習を行う。具体的には、ニューラルネットワークＮＮは、一般物体認識のデータセットなどで事前に学習させた事前学習モデルＭ１、Ｍ２（互いのパラメータ（重み）は共有）と、事前学習モデルＭ１、Ｍ２の出力値を評価するｌｏｓｓ関数Ｆ１とを用いたネットワークである。

例えば、事前学習モデルＭ１からは、学習データセットＤ１における画像ａ_１の入力に対して、順序Ｉｎｔｅｎｓｉｔｙ（Ｉ_ａ１）を出力値として得る。また、事前学習モデルＭ２からは、学習データセットＤ１における画像ａ_２の入力に対して、順序Ｉｎｔｅｎｓｉｔｙ（Ｉ_ａ２）を出力値として得る。ｌｏｓｓ関数Ｆ１は、正解ラベルＬ１と、事前学習モデルＭ１、Ｍ２の出力値（Ｉ_ａ１，Ｉ_ａ２）をもとに、正解ラベルが１でＩ_ａ１＞Ｉ_ａ２もしくは、正解ラベルが０でＩ_ａ１＜Ｉ_ａ２であれば順序が正しいため、ｌｏｓｓ値を小さく算出する。また、ｌｏｓｓ関数Ｆ１は、正解ラベルが１でＩ_ａ１＜Ｉ_ａ２もしくは、正解ラベルが０でＩ_ａ１＞Ｉ_ａ２であれば順序が正しくないため、ｌｏｓｓ値を大きく算出し、算出したｌｏｓｓ値を出力する。

本実施形態では、ｌｏｓｓ関数Ｆ１の出力するｌｏｓｓ値が小さくなるように、ニューラルネットワークＮＮにおけるパラメータ（事前学習モデルＭ１のパラメータ）を再学習させる。これにより、再学習したパラメータを用いたモデル（訓練済みモデル）では、入力された画像に対し、順序関係が保証される順序Ｉｎｔｅｎｓｉｔｙを算出できるようになる。

次いで、本実施形態では、生成したモデルが推定した順序Ｉｎｔｅｎｓｉｔｙと、訓練データに含まれるコーダが付与した正解フラグ（例えば範囲が０～５のＩｎｔｅｎｓｉｔｙの値）から、順序ＩｎｔｅｎｓｉｔｙをＩｎｔｅｎｓｉｔｙに変換する変換関数を学習する。この変換関数は、コーダが付与したＯｃｃｕｒｒｅｎｃｅに関する正解フラグから、順序ＩｎｔｅｎｓｉｔｙをＯｃｃｕｒｒｅｎｃｅに変換するものであってもよい。

なお、基準の変化により、順序Ｉｎｔｅｎｓｉｔｙとコーダの正解フラグ（例えばＩｎｔｅｎｓｉｔｙの値）にはノイズが含まれるが、変換関数については、単純な単調増加関数の形を取るため、ノイズの影響を受けずに学習することが可能である。

このように、本実施形態では、機械学習を２段階に分けてモデルおよび変換関数を生成することで、Ｉｎｔｅｎｓｉｔｙの境界基準について、変化の影響を受けている情報を除外して学習を行う。このような機械学習により、本実施形態では、表情筋の動きなどの表情推定に関する特徴を正しく捉えたモデルを生成することができ、ＡＵ推定エンジンにおける表情推定の精度を高めることができる。

（第１の実施形態）
図２は、第１の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図２に示すように、情報処理装置１は、ペアデータセット作成部１０、順序スコア学習部１１、変換データセット作成部１２、変換関数学習部１３、順序スコア推定部３０および変換処理部３１を有する。

ここで、ペアデータセット作成部１０、順序スコア学習部１１、変換データセット作成部１２および変換関数学習部１３は、機械学習を実行する学習フェーズ（Ｓ１）に関する処理を主に行う機能部である。また、順序スコア推定部３０および変換処理部３１は、機械学習により生成したモデルを用いて推定対象の画像５０からラベル５１を推定する推定フェーズ（Ｓ２）に関する処理を主に行う機能部である。

ペアデータセット作成部１０は、機械学習を行うための訓練データを格納する画像・ラベルＤＢ４０から、同一の被写体ａの画像ペア（ａ_１、ａ_２）と、その画像ペアのどちらの画像が被写体ａの表情筋の動きが大きいかを示す正解ラベルとを含む学習データセットＤ１を作成する処理部である。

具体的には、画像・ラベルＤＢ４０は、例えばコーダなどによる正解フラグ（例えばＩｎｔｅｎｓｉｔｙ）と、被写体ａを示す被写体情報などのメタデータとが付与された複数の被写体ａに関する各画像を訓練データとして格納する。なお、画像・ラベルＤＢ４０が格納する訓練データには、各画像を一フレームとする動画像を含めてもよい。ペアデータセット作成部１０は、例えば、画像・ラベルＤＢ４０の各画像におけるメタデータをもとに同一の被写体ａの画像の組である画像ペアを得る。また、ペアデータセット作成部１０は、互いの画像における被写体ａの表情筋の動きの差（例えばＩｎｔｅｎｓｉｔｙの差）が特定値以上である画像ペアを画像・ラベルＤＢ４０より得てもよい。

なお、同一の被写体ａについては、本実施形態では例えば被写体情報における被写体ＩＤが同じ同一人物であるものとするが、被写体間でＩｎｔｅｎｓｉｔｙの境界基準が変化しないような属性（例えば年齢、性別、人種）が同一の被写体ａであってもよい。また、同一人物の動画が複数に分けられており、分けられた動画の単位で、コーダが正解フラグを付与する場合、Ｉｎｔｅｎｓｉｔｙの境界基準の曖昧さにより、同一人物であっても、動画によって基準がぶれている可能性があるため、このような場合では、動画が同じ場合のみ、同一の被写体ａとして扱うようにしてもよい。

次いで、ペアデータセット作成部１０は、画像ペアのメタデータに含まれる正解フラグを比較することで、画像ペアのどちらの画像が被写体ａの表情筋の動きが大きいかを示す正解ラベルを得る。上記の処理を繰り返すことで、ペアデータセット作成部１０では、複数の被写体ａそれぞれについての学習データセットＤ１を作成する。

順序スコア学習部１１は、ペアデータセット作成部１０が作成した学習データセットＤ１を用いて、順序関係が保証される順序Ｉｎｔｅｎｓｉｔｙを算出できるようにニューラルネットワークＮＮの学習を行う処理部である。

具体的には、順序スコア学習部１１は、事前学習モデルＭ１、Ｍ２のパラメータ（重み）を格納する事前学習モデルＤＢ４１より取得したパラメータで事前学習モデルＭ１、Ｍ２（互いのパラメータは共有）を構築する。事前学習モデルＭ１、Ｍ２は、例えば、ＩｍａｇｅＮｅｔデータセットで事前に学習させたＶＧＧ１６などであり、最終層の出力を１次元としている。

また、順序スコア学習部１１は、事前学習モデルＭ１、Ｍ２の出力値と、正解ラベルＬ１をもとに、ｌｏｓｓ関数Ｆ１により、ｌｏｓｓ値を得るようにする。ここで、ｌｏｓｓ関数Ｆ１については、例えば、次の式（１）のような関数を用いるものとする。

次いで、順序スコア学習部１１は、ｌｏｓｓ関数Ｆ１の出力するｌｏｓｓ値が小さくなるように、ニューラルネットワークＮＮにおけるパラメータ（事前学習モデルＭ１のパラメータ）を再学習させる。なお、ニューラルネットワークＮＮについては、他の例として、ＲｅｓＮｅｔとしてもよい。また、顔画像データセットを用いて事前学習させたモデルを利用してもよい。さらに、事前学習させず、乱数により重みを初期化したモデルを利用してもよい。順序スコア学習部１１は、再学習により得られたパラメータを学習モデルＤＢ２０に格納する。

変換データセット作成部１２は、変換関数学習部１３が変換関数を学習するためのデータセットを作成する処理部である。具体的には、変換データセット作成部１２は、画像・ラベルＤＢ４０の訓練データに含まれる画像と、画像に付与された正解フラグ（例えばＩｎｔｅｎｓｉｔｙまたはＯｃｃｕｒｒｅｎｃｅ）とを読み取る。次いで、変換データセット作成部１２は、読み取った画像を順序スコア推定部３０に入力し、順序スコア学習部１１の学習により生成した訓練済みモデルからの出力（順序Ｉｎｔｅｎｓｉｔｙ）を取得する。次いで、変換データセット作成部１２は、取得した順序Ｉｎｔｅｎｓｉｔｙに対して画像に付与された正解フラグのＩｎｔｅｎｓｉｔｙ（またはＯｃｃｕｒｒｅｎｃｅ）を正解ラベルとするデータセットを作成する。

変換関数学習部１３は、変換データセット作成部１２が作成したデータセットを用いて、順序ＩｎｔｅｎｓｉｔｙをＩｎｔｅｎｓｉｔｙ（またはＯｃｃｕｒｒｅｎｃｅ）に変換する変換関数を機械学習する処理部である。変換関数学習部１３は、機械学習により得られた変換関数に関するパラメータを変換モデルＤＢ２１に格納する。

具体的には、変換関数学習部１３は、変換データセット作成部１２が作成したデータセットをもとに、範囲が０～５のＩｎｔｅｎｓｉｔｙの値を連続値として出力するように、回帰学習をして変換関数を求める。また、変換関数学習部１３は、［０，１，２，３，４，５］の離散値を出力するように（Ｏｃｃｕｒｒｅｎｃｅの場合は０，１の離散値）、分類学習をして変換関数を求めてもよい。回帰学習または分類学習のいずれの場合も、変換関数学習部１３は、ニューラネットワークやＳＶＭ（Support Vector Machine）などの公知の機械学習手法により変換関数を得ることができる。

順序スコア推定部３０は、入力された画像（例えば推定対象として入力された画像５０）から順序Ｉｎｔｅｎｓｉｔｙを推定する処理部である。

具体的には、順序スコア推定部３０は、順序スコア学習部１１が学習して生成したモデルのパラメータ（重み）を学習モデルＤＢ２０より読み出し、モデルを構築する。次いで、順序スコア推定部３０は、推定対象の画像５０をモデルに入力することで、順序Ｉｎｔｅｎｓｉｔｙを推定する。

変換処理部３１は、順序スコア推定部３０が推定した順序Ｉｎｔｅｎｓｉｔｙを変換関数によりＩｎｔｅｎｓｉｔｙ（またはＯｃｃｕｒｒｅｎｃｅ）に変換する処理部である。変換処理部３１は、変換したＩｎｔｅｎｓｉｔｙ（またはＯｃｃｕｒｒｅｎｃｅ）を画像５０に対する推定結果を示す画像５０として出力する。

具体的には、変換処理部３１は、変換関数学習部１３が学習した変換関数のパラメータを変換モデルＤＢ２１から読み出し、変換関数を構築する。次いで、変換処理部３１は、構築した変換関数により、順序スコア推定部３０が推定した順序ＩｎｔｅｎｓｉｔｙをＩｎｔｅｎｓｉｔｙ（またはＯｃｃｕｒｒｅｎｃｅ）に変換し、画像５０として出力する。

なお、変換処理部３１は、変換関数について連続値を出力するように回帰学習した場合は、出力範囲を定義域（０～５）内に制限するため、上限５、下限０で制限するように補正してもよい。また、変換処理部３１は、小数点以下の四捨五入により、０，１，２，３，４，５の６段階に出力値を離散化してもよい。

図３は、第１の実施形態にかかる情報処理装置１の動作例を示すフローチャートである。より具体的には、図３は、情報処理装置１における学習フェーズ（Ｓ１）の動作例を示すフローチャートである。

図３に示すように、処理が開始されると、ペアデータセット作成部１０は、画像・ラベルＤＢ４０から同一の被写体ａに関する画像ペアと、Ｉｎｔｅｎｓｉｔｙの順序関係を表す正解ラベルとを含む学習データセットＤ１を作成する（Ｓ１１）。

次いで、順序スコア学習部１１は、作成した学習データセットＤ１よりニューラルネットワークＮＮの再学習を行い（Ｓ１２）、学習したニューラルネットワークＮＮのパラメータ（事前学習モデルＭ１のパラメータ）を学習モデルＤＢ２０に格納する（Ｓ１３）。次いで、変換データセット作成部１２は、画像・ラベルＤＢ４０から画像と、画像に付与された正解フラグ（例えばＩｎｔｅｎｓｉｔｙ）とを読み込む（Ｓ１４）。

次いで、変換データセット作成部１２は、読み取った画像を順序スコア推定部３０に入力し、順序スコア学習部１１の学習により生成した訓練済みモデルからの出力（順序Ｉｎｔｅｎｓｉｔｙ）を取得する。次いで、変換データセット作成部１２は、取得した順序Ｉｎｔｅｎｓｉｔｙに対して画像に付与された正解フラグのＩｎｔｅｎｓｉｔｙを正解ラベルとする学習データセットを作成する（Ｓ１５）。

次いで、変換関数学習部１３は、変換データセット作成部１２が作成した学習データセットより、変換関数の学習を行う（Ｓ１６）。次いで、変換関数学習部１３は、学習した変換関数のパラメータを変換モデルＤＢ２１に格納し（Ｓ１７）、処理を終了する。

図４は、第１の実施形態にかかる情報処理装置１の動作例を示すフローチャートである。より具体的には、図４は、情報処理装置１における推定フェーズ（Ｓ２）の動作例を示すフローチャートである。

図４に示すように、処理が開始されると、順序スコア推定部３０は、推定対象の画像５０を取得する（Ｓ２１）。次いで、順序スコア推定部３０は、学習モデルＤＢ２０よりパラメータを取得してニューラルネットワーク（訓練済みモデル）を構築する（Ｓ２２）。

次いで、順序スコア推定部３０は、構築したニューラルネットワーク（訓練済みモデル）に画像５０を入力して出力値を得ることで、画像５０に対する順序Ｉｎｔｅｎｓｉｔｙを推定する（Ｓ２３）。

次いで、変換処理部３１は、変換モデルＤＢ２１よりパラメータを取得して変換関数を構築する（Ｓ２４）。次いで、変換処理部３１は、構築した変換関数により、順序スコア推定部３０が推定した順序ＩｎｔｅｎｓｉｔｙをＩｎｔｅｎｓｉｔｙに変換する（Ｓ２５）。次いで、変換処理部３１は、変換したＩｎｔｅｎｓｉｔｙを推定したラベル５１として出力する（Ｓ２６）。

（第２の実施形態）
第２の実施形態では、訓練データの付与される正解フラグについて、コーダのものだけでなく、被写体の表情筋の動きを計測した計測装置の計測結果（Ｉｎｔｅｎｓｉｔｙもしくは表情筋移動量）を含めるものとする。

図５は、第２の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図５に示すように、画像・ラベルＤＢ４０ａは、計測装置の計測結果（Ｉｎｔｅｎｓｉｔｙもしくは表情筋移動量）の正解フラグと、被写体ａを示す被写体情報などのメタデータとが付与された複数の被写体ａに関する各画像を訓練データとして格納する。

情報処理装置１ａのペアデータセット作成部１０ａは、画像・ラベルＤＢ４０、４０ａを参照し、同一の被写体ａの画像ペア（ａ_１、ａ_２）と、その画像ペアのどちらの画像が被写体ａの表情筋の動きが大きいかを示す正解ラベルとを含む学習データセットＤ１を作成する。

コーダが付与した正解フラグ（例えばＩｎｔｅｎｓｉｔｙ）には、人為的なミスにより、同一の被写体ａであってもノイズが含まれる場合がある。これに対し、計測装置の計測結果には、人為的なミスによるノイズが生じない。したがって、計測装置の計測結果を正解フラグに含めることで、順序関係の学習精度を高める効果を期待できる。

（第３の実施形態）
第３の実施形態では、コーダが正解フラグを付与した訓練データを用いず、計測装置の計測結果が正解フラグとして付与された訓練データを用いて第１段階の学習を行うものとする。なお、第２段階の学習（変換関数の学習）については、コーダが正解フラグを付与した訓練データを用いるものとする。

図６は、第３の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図６に示すように、情報処理装置１ｂのペアデータセット作成部１０ａは、画像・ラベルＤＢ４０を参照せず、画像・ラベルＤＢ４０ａを参照して学習データセットＤ１を作成する。なお、変換データセット作成部１２は、画像・ラベルＤＢ４０を参照して変換関数学習部１３が変換関数を学習するためのデータセットを作成する。

このように、情報処理装置１ｂでは、コーダが付与した正解フラグを用いず、計測装置の計測結果を用いて順序関係を学習することで、順序関係の学習精度をより高める効果を期待できる。

（第４の実施形態）
第４の実施形態では、学習フェーズ（Ｓ１）において、画像を一フレーム画像として含む、動画像の特徴量を含めた機械学習により変換関数を機械学習する。また、推定フェーズ（Ｓ２）では、推定対象の画像５０を一フレーム画像として含む元動画の特徴量をもとに、変換関数によりラベル５１を推定する。

図７は、第４の実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図７に示すように、情報処理装置１ｃの変換データセット作成部１２ａは、画像・ラベルＤＢ４０に含まれる画像とともに、その画像を一フレームとする動画像を取得する。次いで、変換データセット作成部１２ａは、取得した動画像を解析することで、動画像の特徴量を取得し、取得した特徴量を変換関数を学習するためのデータセットに含める。

情報処理装置１ｃの変換関数学習部１３ａは、変換データセット作成部１２が作成したデータセットを用いて、順序ＩｎｔｅｎｓｉｔｙをＩｎｔｅｎｓｉｔｙ（またはＯｃｃｕｒｒｅｎｃｅ）に変換する変換関数を機械学習する際に、動画像に基づく特徴量を含めた機械学習を行う。

図８は、第４の実施形態にかかる情報処理装置１ｃの処理内容を説明する説明図である。図８におけるＳ３０は、変換データセット作成部１２ａが実行する具体的な処理を示す。また、図８におけるＳ４０は、変換関数学習部１３ａでの処理に関係する構成を示す。

図８に示すように、変換データセット作成部１２ａは、画像・ラベルＤＢ４０の画像４２を順序スコア推定部３０に入力し、訓練済みモデル（ニューラルネットワーク（ＶＧＧ））からの出力値（順序Ｉｎｔｅｎｓｉｔｙ）を取得する（Ｓ３１）。

また、変換データセット作成部１２ａは、画像４２を一フレームとする動画像４３を順序スコア推定部３０に入力し、訓練済みモデル（ニューラルネットワーク（ＶＧＧ））から時系列の出力値（順序Ｉｎｔｅｎｓｉｔｙの時系列データ）を取得する（Ｓ３２）。

Ｓ３２に次いで、変換データセット作成部１２ａは、時系列データの分布に関する特徴量を抽出する（Ｓ３３）。具体的には、変換データセット作成部１２ａは、時系列データに基づくヒストグラム（例えば順序Ｉｎｔｅｎｓｉｔｙ－１０以下の頻度、－１０～－９の頻度、－９～－８の頻度、…、９～１０の頻度、１０以上の頻度）を求める。また、変換データセット作成部１２ａは、時系列データに基づくパーセンタイル（０－ｔｈｐｅｒｃｅｎｔｉｌｅ、１０－ｔｈｐｅｒｃｅｎｔｉｌｅ、…、１００－ｔｈｐｅｒｃｅｎｔｉｌｅ）を求める。

また、Ｓ３２に次いで、変換データセット作成部１２ａは、時系列データに基づく画像選定処理を行う（Ｓ３４）。具体的には、変換データセット作成部１２ａは、時系列データの中で順序Ｉｎｔｅｎｓｉｔｙが所定の条件を満たす１または複数の画像を選定する（例えば最小の順序Ｉｎｔｅｎｓｉｔｙの画像の選定）。

Ｓ３４に次いで、変換データセット作成部１２ａは、選定した画像について、画像特徴量・顔特徴量などの抽出処理を行う（Ｓ３５）。具体的には、変換データセット作成部１２ａは、画像のＳＩＦＴ特徴量と、その画像のランドマークなどを抽出する。

変換関数学習部１３ａでは、Ｓ３０により作成されたデータセットを変換関数のモデルであるＬＳＴＭ２２、ＶＧＧ２３および全結合ニューラルネットワーク２４に入力し、Ｉｎｔｅｎｓｉｔｙ２５を得る。

具体的には、全結合ニューラルネットワーク２４には、Ｓ３１による画像の順序Ｉｎｔｅｎｓｉｔｙと、その他の特徴量が入力されるように構成する。例えば、時系列データそのものが入力されるネットワークにはＬＳＴＭ２２などの時系列データ向けのネットワークを使用する。また、画像データそのものが入力されるネットワークにはＶＧＧ２３などの画像データ向けのネットワークを使用する。また、ＬＳＴＭ２２の出力およびＶＧＧ２３の出力が、全結合ニューラルネットワーク２４に接続されるように構成する。

図７に戻り、変換処理部３１ａは、変換モデルＤＢ２１のパラメータをもとに構築した変換関数により、順序スコア推定部３０が推定した順序Ｉｎｔｅｎｓｉｔｙと、元動画５０ａの特徴量とをもとにラベル５１を推定する。具体的には、変換処理部３１ａは、元動画５０ａの特徴量を変換データセット作成部１２ａと同様に求め、順序Ｉｎｔｅｎｓｉｔｙと共に変換関数に入力することでラベル５１を推定する。

このように、第４の実施形態では、動画の特徴量を含めることで、より精度の高い表情推定を実現することが可能となる。

以上のように、情報処理装置１は、画像・ラベルＤＢ４０に含まれる画像ペアと、画像ペアのうちどちらの画像が被写体の表情筋の動きが大きいかを示す正解ラベルとを含むペアデータセットを作成する。次いで、情報処理装置１は、画像ペアのうちの第１の画像を事前学習モデルＭ１に入力して得られる出力値と画像ペアのうちの第２の画像を事前学習モデルＭ１とパラメータを共有する事前学習モデルＭ２に入力して得られる出力値と、第１のラベルとに基づいた事前学習モデルＭ１の機械学習を実行することによって、訓練済みモデルを生成する。次いで、情報処理装置１は、画像・ラベルＤＢ４０に含まれる第３の画像を訓練済みモデルに入力して得られた出力値と、その画像に含まれる被写体の表情筋の動きの発生強度もしくは発生の有無を示すラベルとに基づいた機械学習によってモデル（変換関数）を生成する。

このように２段階に分けた機械学習により、情報処理装置１は、表情筋の動きなどの表情推定に関する特徴を正しく捉えて推定するためのモデルを生成することができる。また、情報処理装置１は、このように生成したモデルを用いて、推定対象の画像５０に対するラベル５１の推定、すなわち表情推定を行うことで、表情推定の精度を高めることができる。

また、訓練済みモデルの生成に関する画像ペアは、同じ被写体の画像ペアである。例えば、年齢や骨格、肥満の程度、皮膚と表情筋の繋がり方などによって画像・ラベルＤＢ４０に含まれる画像の被写体間で基準が変化していても、同じ被写体において基準は変化していない。したがって、同じ被写体の画像ペアで訓練済みモデルの生成を行うことで、情報処理装置１では、被写体の表情筋の動きが大きいかを（Ｉｎｔｅｎｓｉｔｙの順序関係）をより適切に推定できる訓練済みモデルを生成することができる。

また、ペアデータセットにおける正解ラベルは、被写体の表情筋の動きを計測した計測装置の計測結果（例えばＩｎｔｅｎｓｉｔｙ）に基づいて付与される。例えば、同じ表情筋の動きであってもその移動量は人によって異なるものであり、専門家であるコーダが付与した場合と同様に、計測装置の計測結果においても被写体によって基準がずれたものとなる。情報処理装置１では、このような計測装置の計測結果に基づく正解ラベルが付与される場合においても、表情推定に関する特徴を正しく捉えて推定するためのモデルを生成することができる。

また、訓練済みモデルの生成に関する画像ペアは、互いの画像における被写体の表情筋の動きの差が特定値以上である。このように、被写体の表情筋の動きの差が特定値以上であり、被写体の表情筋の動きに明確な違いのある画像ペアを使用することで、より精度のよいモデルを生成することができる。

また、訓練済みモデルの生成に関する画像ペアは、表情筋の動きの大きさが同じペアでもよいとする。この場合は、ｌｏｓｓ関数Ｆ１として、例えば次の式（２）を使用する。

情報処理装置１では、表情筋の動きの大きさが同じペアも使用することで、より精度のよいモデルを生成することができる。

また、情報処理装置は、第３の画像を含む動画像に基づく特徴量を含めた機械学習によってモデル（変換関数）を生成する。このように動画の特徴量を含めることで、情報処理装置は、より精度のよいモデルを生成することができる。

また、第３の画像を含む動画像に基づく特徴量は、動画像に含まれる画像群による時系列データ、この時系列データの分布に関する特徴量、時系列データの分布に基づいて画像群より選択した１または複数の画像、および、この１または複数の画像の特徴量の少なくとも１つであってもよい。情報処理装置では、このような特徴量を含めて機械学習を行うことで、より精度のよいモデルを生成することができる。

（その他）
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、情報処理装置１、１ａ、１ｂ、１ｃにおける学習フェーズ（Ｓ１）を行う機能構成と、推定フェーズ（Ｓ２）を行う機能構成とは、分離した構成であってもよく、それぞれが独立した装置構成で実現してもよい。

また、情報処理装置１、１ａ、１ｂ、１ｃで行われるペアデータセット作成部１０、１０ａ、順序スコア学習部１１、変換データセット作成部１２、１２ａ、変換関数学習部１３、１３ａ、順序スコア推定部３０および変換処理部３１、３１ａの各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータやＧＰＵ（Graphics Processing Unit））上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータやＧＰＵ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置１、１ａ、１ｂ、１ｃで行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

（コンピュータ構成例）
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成（ハードウエア）の一例を説明する。図９は、コンピュータ構成の一例を示すブロック図である。

図９に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、データ入力を受け付ける入力装置２０２と、モニタ２０３と、スピーカー２０４とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０５と、各種装置と接続するためのインタフェース装置２０６と、有線または無線により外部機器と通信接続するための通信装置２０７とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０８と、ハードディスク装置２０９とを有する。また、コンピュータ２００内の各部（２０１～２０９）は、バス２１０に接続される。

ハードディスク装置２０９には、上記の各実施形態で説明した機能構成（例えばペアデータセット作成部１０、１０ａ、順序スコア学習部１１、変換データセット作成部１２、１２ａ、変換関数学習部１３、１３ａ、順序スコア推定部３０および変換処理部３１、３１ａ）における各種の処理を実行するためのプログラム２１１が記憶される。また、ハードディスク装置２０９には、プログラム２１１が参照する各種データ２１２が記憶される。入力装置２０２は、例えば、操作者から操作情報の入力を受け付ける。モニタ２０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置２０６は、例えば印刷装置等が接続される。通信装置２０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ２０１は、ハードディスク装置２０９に記憶されたプログラム２１１を読み出して、ＲＡＭ２０８に展開して実行することで、上記の機能構成（例えばペアデータセット作成部１０、１０ａ、順序スコア学習部１１、変換データセット作成部１２、１２ａ、変換関数学習部１３、１３ａ、順序スコア推定部３０および変換処理部３１、３１ａ）に関する各種の処理を行う。なお、プログラム２１１は、ハードディスク装置２０９に記憶されていなくてもよい。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラム２１１を読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム２１１を記憶させておき、コンピュータ２００がこれらからプログラム２１１を読み出して実行するようにしてもよい。

１、１ａ、１ｂ、１ｃ…情報処理装置
１０、１０ａ…ペアデータセット作成部
１１…順序スコア学習部
１２、１２ａ…変換データセット作成部
１３、１３ａ…変換関数学習部
２０…学習モデルＤＢ
２１…変換モデルＤＢ
２２…ＬＳＴＭ
２３…ＶＧＧ
２４…全結合ニューラルネットワーク
２５…Ｉｎｔｅｎｓｉｔｙ
３０…順序スコア推定部
３１、３１ａ…変換処理部
４０、４０ａ…画像・ラベルＤＢ
４１…事前学習モデルＤＢ
４２…画像
４３…動画像
５０…画像
５０ａ…元動画
５１…ラベル
２００…コンピュータ
２０１…ＣＰＵ
２０２…入力装置
２０３…モニタ
２０４…スピーカー
２０５…媒体読取装置
２０６…インタフェース装置
２０７…通信装置
２０８…ＲＡＭ
２０９…ハードディスク装置
２１０…バス
２１１…プログラム
２１２…各種データ
ａ…被写体
Ｄ１…学習データセット
Ｆ１…ｌｏｓｓ関数
Ｌ１…正解ラベル
Ｍ１、Ｍ２…事前学習モデル
ＮＮ…ニューラルネットワーク

Claims

第１の画像と第２の画像との組と、前記第１の画像と前記第２の画像とのうちどちらの画像が被写体の表情筋の動きが大きいかを示す第１のラベルとを含む訓練データの入力に応じて、前記第１の画像を第１のモデルに入力して得られる第１の出力値と、前記第２の画像を前記第１のモデルとパラメータを共有する第２のモデルに入力して得られる第２の出力値と、前記第１のラベルとに基づいた前記第１のモデルの機械学習を実行することによって、訓練済みモデルを生成し、
第３の画像を前記訓練済みモデルに入力して得られた第３の出力値と、前記第３の画像に含まれる被写体の表情筋の動きの発生強度もしくは発生の有無を示す第２のラベルとに基づいた機械学習によって第３のモデルを生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
前記第１の画像と前記第２の画像との組は、同じ被写体の画像の組である、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記第１のラベルは、前記被写体の表情筋の動きを計測した計測装置の計測結果に基づいて付与される、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記第１の画像と前記第２の画像との組は、互いの画像における前記被写体の表情筋の動きの差が特定値以上の画像の組である、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記第３のモデルを生成する処理は、前記第３の画像を含む動画像に基づく特徴量を含めた機械学習によって前記第３のモデルを生成する、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記特徴量は、前記動画像に含まれる画像群を前記訓練済みモデルに入力して得られた出力値の時系列データ、当該時系列データの分布に関する特徴量、前記時系列データの分布に基づいて前記画像群より選択した１または複数の画像、および、当該１または複数の画像の特徴量の少なくとも１つである、
ことを特徴とする請求項５に記載の機械学習プログラム。
第１の画像と第２の画像との組と、前記第１の画像と前記第２の画像とのうちどちらの画像が被写体の表情筋の動きが大きいかを示す第１のラベルとを含む訓練データの入力に応じて、前記第１の画像を第１のモデルに入力して得られる第１の出力値と、前記第２の画像を前記第１のモデルとパラメータを共有する第２のモデルに入力して得られる第２の出力値と、前記第１のラベルとに基づいた前記第１のモデルの機械学習を実行することによって、訓練済みモデルを生成し、
第３の画像を前記訓練済みモデルに入力して得られた第３の出力値と、前記第３の画像に含まれる被写体の表情筋の動きの発生強度もしくは発生の有無を示す第２のラベルとに基づいた機械学習によって第３のモデルを生成する、
処理をコンピュータが実行することを特徴とする機械学習方法。
第１の画像と第２の画像との組と、前記第１の画像と前記第２の画像とのうちどちらの画像が被写体の表情筋の動きが大きいかを示す第１のラベルとを含む訓練データに基づいた機械学習によって生成された第１の機械学習モデルに第３の画像を入力し、第１の出力結果を取得し、
第４の画像を前記機械学習モデルに入力して得られた第２の出力結果と、前記第４の画像に含まれる被写体の表情筋の動きの発生強度を示す第２のラベルとを含む訓練データに基づいた機械学習によって生成された第２の機械学習モデルに、前記第１の出力結果を入力し、前記第３の画像に含まれる被写体の表情筋の動きの発生強度もしくは発生の有無を推定する、
処理を実行する制御部を有する推定装置。