JP2019121374A

JP2019121374A - 表情認識方法、オブジェクト認識方法、表情認識装置及び表情トレーニング方法

Info

Publication number: JP2019121374A
Application number: JP2018230089A
Authority: JP
Inventors: 炳仁兪; Byungin Yoo; 榮竣郭; Youngjun Kwak; 暎星金; Youngsung Kim; 曙炯李; Seohyung Lee
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-01-08
Filing date: 2018-12-07
Publication date: 2019-07-22
Anticipated expiration: 2038-12-07
Also published as: CN110020580B; CN110020580A; US20190213399A1; KR102564855B1; EP3509011B1; EP3509011A1; KR20190093714A; JP7097801B2; US10885317B2

Abstract

【課題】表情認識装置及び方法、表情トレーニング装置及び方法が提供される。【解決手段】表情認識装置は発話モデルに基づいてオブジェクトの各部分に対して発話に関する程度を示す発話マップを生成し、表情モデルに基づいて表情に関する表情特徴を抽出し、発話マップ及び表情特徴に基づいてオブジェクトの表情を認識する。表情トレーニング装置は、上述した表情モデル及び発話モデルをトレーニングさせ得る。【選択図】図４

Description

以下、表情変化に堅牢なオブジェクト及び表情を認識する技術が提供される。

近年、入力パターンを特定グループに分類する問題を解決するために、人が有する効率的なパターン認識方法を実際のコンピュータに適用しようとする研究が盛んに行われている。このような研究の１つとして、人の生物学的な神経細胞の特性を数学的な表現によってモデリングした人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）に対する研究が行われている。入力パターンを特定グループに分類する問題を解決するために、人工ニューラルネットワークは、人が有している学習という能力を模倣したアルゴリズムを用いる。このアルゴリズムにより人工ニューラルネットワークは、入力パターンと出力パターンとの間のマッピングを生成し、このようなマッピングを生成する能力は、人工ニューラルネットワークの学習能力と表現される。また、人工ニューラルネットワークは、学習された結果に基づいて学習に利用されていない入力パターンに対して比較的正しい出力を生成できる一般化能力を有する。

一実施形態に係る課題は、表情認識装置において、オブジェクトの発話の有無を考慮して適切に表情を認識することである。

一実施形態に係る発話に基づいた表情認識方法は、オブジェクトを含むオブジェクトイメージを取得するステップと、発話モデルに基づいて前記オブジェクトイメージから発話マップを抽出するステップと、表情モデルに基づいて前記オブジェクトイメージから表情特徴を抽出するステップと、前記表情特徴及び前記発話マップに基づいて前記オブジェクトの表情を認識するステップとを含む。

前記オブジェクトの表情を認識するステップは、前記発話マップに基づいて前記表情特徴のうち発話に関わりやすい特徴に対応する値を減少させるステップと、前記発話マップに基づいて前記表情特徴のうち発話と関わりにくい特徴に対応する値を増加させるステップとを含み得る。

前記発話マップを抽出するステップは、前記発話モデルに基づいて前記オブジェクトイメージの領域ごとに発話に関する程度に応じて加重値を決定することで前記発話マップを生成するステップを含み得る。

前記発話マップを生成するステップは、前記発話モデルに基づいて、前記オブジェクトイメージの対象領域が発話に関する程度が大きいほど前記対象領域に対して加重値を増加させるステップと、前記発話モデルに基づいて、前記オブジェクトイメージの対象領域が発話に関する程度が小さいほど前記対象領域に対して加重値を減少させるステップとを含み得る。

前記オブジェクトの表情を認識するステップは、前記発話マップを反転させるステップと、前記反転した発話マップ及び前記表情特徴に基づいて前記オブジェクトの表情を認識するステップとを含み得る。

前記発話マップを反転させるステップは、最大値から前記発話マップの値を差し引くことにより前記発話マップを反転させるステップを含み得る。

前記発話マップを抽出するステップは、前記発話モデルに基づいて、前記オブジェクトイメージから前記オブジェクトの発話に対応する部分を指示する発話特徴ベクトルを抽出するステップを含み、前記表情特徴を抽出するステップは、前記表情モデルに基づいて、前記オブジェクトイメージから前記オブジェクトの表情に対応する部分を指示する表情特徴ベクトルを抽出するステップを含み得る。

前記オブジェクトの表情を認識するステップは、前記発話特徴ベクトルを反転させて反転ベクトルを生成するステップと、前記反転ベクトルを前記表情特徴ベクトルに適用して対象ベクトルを生成するステップと、前記対象ベクトルに基づいて前記オブジェクトの表情を識別するステップとを含み得る。

前記対象ベクトルに基づいて前記オブジェクトの表情を識別するステップは、前記対象ベクトルに基づいて、表情レイブルのうち前記オブジェクトの表情に対応する表情レイブルを決定するステップを含み得る。

前記対象ベクトルに基づいて前記オブジェクトの表情を識別するステップは、前記対象ベクトルを正規化することにより正規化されたベクトルを生成するステップと、前記正規化されたベクトルに基づいて前記オブジェクトの表情を識別するステップとを含み得る。

前記オブジェクトの表情を認識するステップは、前記オブジェクトの音声信号を表情認識から排除するステップを含み得る。

前記オブジェクトイメージを取得するステップは、前記オブジェクトに関する複数の連続したフレームイメージを含む入力イメージを取得するステップと、前記フレームイメージからいずれかのフレームイメージを前記オブジェクトイメージで順次選択するステップとを含み、前記オブジェクトの表情を認識するステップは、前記複数のフレームイメージのそれぞれに対して順次前記オブジェクトの表情を認識するステップを含み得る。

方法は、前記オブジェクトに関する音声信号を取得するステップをさらに含み、前記発話マップを抽出するステップは、前記音声信号及び前記発話モデルにさらに基づいて前記オブジェクトイメージから前記発話マップを抽出するステップを含み得る。

一実施形態に係る発話に基づいたオブジェクト認識方法は、オブジェクトを含むオブジェクトイメージを取得するステップと、発話モデルに基づいて前記オブジェクトイメージから発話マップを抽出するステップと、オブジェクトモデルに基づいて前記オブジェクトイメージからオブジェクト特徴を抽出するステップと、前記オブジェクト特徴及び前記発話マップに基づいて、前記オブジェクトを認識するステップとを含む。

一実施形態に係る発話に基づいた表情トレーニング方法は、基準イメージ及び基準表情を取得するステップと、表情モデル及び発話モデルに基づいてプロセッサが前記基準イメージから前記基準表情を出力するよう、前記表情モデルのパラメータ及び前記発話モデルのパラメータをトレーニングさせるステップとを含み、前記表情モデルは、オブジェクトイメージから表情特徴を抽出するように構成され、前記発話モデルは、前記オブジェクトイメージから発話マップを抽出するように構成される。

前記基準イメージ及び前記基準表情を取得するステップは、前記基準イメージに対応する基準音声をさらに取得するステップを含み、前記トレーニングさせるステップは、前記発話モデルに基づいて前記基準イメージから抽出された、発話マップから音声情報を復元するステップと、前記復元された音声情報及び前記基準音声間の発話損失を最小化することで前記発話モデルをトレーニングさせるステップとを含み得る。

前記トレーニングさせるステップは、前記表情モデル及び前記発話モデルに基づいて前記基準イメージから認識される表情及び前記基準表情間の表情損失を最小化することで前記表情モデルをトレーニングさせるステップを含み得る。

前記トレーニングさせるステップは、前記表情モデルに基づいて前記基準イメージから抽出された表情特徴に前記発話モデルに基づいて、前記基準イメージから抽出された発話マップを適用するステップと、前記発話マップが適用された表情特徴に基づいて決定された表情レイブル及び前記基準表情に対応するレイブル間の表情損失を最小化するステップとをさらに含み得る。

前記発話マップを適用するステップは、前記基準イメージから抽出された発話マップを反転させた、反転された発話マップを前記基準イメージから抽出された表情特徴に反映するステップを含み得る。

一実施形態に係る発話に基づいて表情を認識する装置は、表情モデル、発話モデル、及び命令を格納するメモリと、前記命令を実行するプロセッサとを含み、前記命令は、オブジェクトのイメージを取得し、前記発話モデルに基づいて前記イメージから発話マップを抽出し、前記表情モデルに基づいて前記イメージから表情特徴を抽出し、前記発話マップ及び前記表情特徴に基づいて前記オブジェクトの表情を認識するためのものである。

前記プロセッサは、前記オブジェクトの前記発話に対応する前記イメージの部分を指示する発話特徴ベクトルを前記発話モデルに基づいて抽出し、前記発話特徴ベクトルを反転させ、前記表情に対応する前記イメージの部分を指示する表情特徴ベクトルを、前記表情モデルに基づいて抽出し、前記表情特徴ベクトルに前記反転したベクトルを適用することに基づいて前記表情を識別し得る。

前記プロセッサは、前記イメージをキャプチャーするイメージ取得部と、前記発話に対応する前記イメージの部分を指示する発話特徴ベクトルを、前記発話モデルに基づいて検出する発話特徴検出部と、前記表情に対応する前記イメージの部分を指示する表情特徴ベクトルを、前記表情モデルに基づいて抽出する表情特徴抽出部と、前記発話特徴ベクトル及び前記表情特徴ベクトルに基づいて前記オブジェクトの前記表情に対応するレイブルを決定する表情認識部とを含み得る。

前記プロセッサは、音声信号を取得する音声取得部をさらに含み、前記発話特徴検出部は、前記イメージ及び前記音声信号に基づいて前記発話特徴ベクトルを検出し得る。

一実施形態に係る発話に基づいた表情認識装置は、オブジェクトで発話の有無を考慮して表情を認識することにより、高い表情認識の正確度を示すことができる。

一実施形態に係るモデルの例示を説明する図である。一実施形態に係る発話に基づいた表情変化を説明する図である。一実施形態に係る発話に基づいた表情認識方法を説明するフローチャートである。一実施形態に係る発話に基づいたオブジェクト認識方法を説明するフローチャートである。一実施形態に係る表情モデル及び発話モデルに基づいた表情認識過程を説明する図である。一実施形態に係る表情特徴及び発話特徴に基づいた表情認識を説明する図である。一実施形態に係るオブジェクト特徴及び発話特徴に基づいた表情認識を説明する図である。一実施形態に係る発話に基づいた表情認識装置を説明するブロック図である。一実施形態に係る発話に基づいたオブジェクト認識装置を説明するブロック図である。一実施形態に係る表情モデル及び発話モデルに基づいて表情認識結果を出力する過程を説明する図である。一実施形態に係る発話に基づいた表情トレーニング方法を説明するフローチャートである。一実施形態に係る発話に基づいた表情トレーニング装置を説明するブロック図である。一実施形態に係る表情モデル及び発話モデルをトレーニングさせる過程を説明する図である。一実施形態に係る表情認識装置の例示を説明する図である。一実施形態に係る表情認識装置の例示を説明する図である。

以下、添付する図面を参照しながら実施形態を詳細に説明する。しかし、特許出願の範囲がこのような実施形態によって制限も限定もされることはない。各図面に提示された同一の参照符号は同一の部材を示す。

本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。

本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なる定義がされない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

また、添付図面を参照して説明することにおいて、図面符号に関係なく同一の構成要素は同一の参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。

図１は、一実施形態に係るモデルの例示を説明する図である。

一実施形態によれば、表情モデル、オブジェクトモデル及び発話モデルはニューラルネットワーク１００を含む。ニューラルネットワーク１００に基づいて、表情認識を行う方法及びその方法を行う装置（以下、表情認識装置）が提案され、該当ニューラルネットワーク１００をトレーニングさせる方法及び装置（以下、表情トレーニング装置）が提案される。本明細書で、認識は、検証及び識別を含む。検証は、入力データが真であるか又は偽であるかを判断する動作を含み、識別は、複数のレイブル又はラベル（ｌａｂｅｌ）のうち入力データが指示するレイブルを判断する動作を示す。

一実施形態に係る表情認識を説明する前に、先ず、ニューラルネットワーク１００の概略的な構造を説明する。

一実施形態によれば、ニューラルネットワーク１００は、複数のノードで構成される複数のレイヤを含む。また、ニューラルネットワーク１００は、複数のレイヤのそれぞれに含まれた複数のノードを他のレイヤに含まれたノードに連結させる接続加重値を含む。表情トレーニング装置は、ニューラルネットワーク１００をメモリに格納された内部データベースから取得し、通信部を介して外部サーバから受信して取得する。

例えば、ニューラルネットワーク１００は、連結線（ｅｄｇｅ）に接続された複数の人工ニューロンを用いて生物学的なシステムの算出能力を模倣する認識モデルを示す。ニューラルネットワーク１００は、ソフトウェア、ハードウェア、又は、その組合で具現する。ニューラルネットワーク１００は、人工ニューラルネットワークに称される。

ニューラルネットワーク１００は、生物学的なニューロンの機能を単純化させた人工ニューロンを用いる。人工ニューロンは、ノードに称される。人工ニューロンは、接続加重値を有する連結線によって相互接続される。接続加重値は、連結線が有する特定の値として、シナプス加重値又は接続強度と称される。

ニューラルネットワーク１００は、複数のレイヤを含む。例えば、ニューラルネットワーク１００は、入力レイヤ１１０、隠れレイヤ１２０、出力レイヤ１３０を含む。入力レイヤ１１０は、トレーニング又は認識を行うための入力を受信して隠れレイヤ１２０に伝達し、出力レイヤ１３０は、隠れレイヤ１２０から受信した信号に基づいてニューラルネットワーク１００の出力を生成する。隠れレイヤ１２０は、入力レイヤ１１０と出力レイヤ１３０の間に位置し、入力レイヤ１１０によって伝えられたトレーニングデータのトレーニング入力を予測しやすい値に変化させ得る。

入力レイヤ１１０、隠れレイヤ１２０、及び出力レイヤ１３０は、複数のノードを含む。入力レイヤ１１０に含まれたノードは入力ノードに称され、隠れレイヤ１２０に含まれたノードは隠れノードに称され、出力レイヤ１３０に含まれたノードは出力ノードに称される。

入力レイヤ１１０に含まれた入力ノードと隠れレイヤ１２０に含まれた隠れノードは、接続加重値を有する連結線によって接続される。隠れレイヤ１２０に含まれた隠れノードと出力レイヤ１３０に含まれた出力ノードは、接続加重値を有する連結線によって接続される。

図面に図示しなていないが、ニューラルネットワークは、複数の隠れレイヤを含む。複数の隠れレイヤを含むニューラルネットワークは、深度ニューラルネットワーク、又はｎ個レイヤニューラルネットワークに称される。ＤＮＮ又はｎ個レイヤニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ、ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、循環ニューラルネットワーク（ＲＮＮ、ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＤＢＮ（ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、ＦＣネットワーク（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｎｅｔｗｏｒｋ）、双方向ニューラルネットワーク（ｂｉ−ｄｉｒｅｃｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、制限されたボルツマンマシン（ｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｍａｃｈｉｎｅ）に対応し、又は、異なるニューラルネットワークの部分又は重なるニューラルネットワークの部分をそれぞれ完全接続、畳み込み接続、循環接続、及び／又は双方向接続として含み得る。例えば、ニューラルネットワーク１００はＣＮＮとして具現されるが、これに限定されることはない。図１で、ニューラルネットワーク１００の例示に対応するＣＮＮの数個の畳み込みレイヤが示されているが、ＣＮＮは、示された畳み込みレイヤに加えてプールレイヤ又は完全接続レイヤなどをさらに含んでもよい。

深度ニューラルネットワークを学習させることは深度学習のように称される。隠れレイヤ１２０に第１隠れレイヤ、第２隠れレイヤ、及び第３隠れレイヤが含まれる場合を仮定すると、第１隠れレイヤに属する隠れノードの出力は、第２隠れレイヤに属する隠れノードに接続される。第２隠れレイヤに属する隠れノードの出力は、第３隠れレイヤに属する隠れノードに接続される。

例えば、表情トレーニング装置及び表情認識装置は、各隠れレイヤに以前隠れレイヤに含まれた以前隠れノードの出力を接続加重値を有する連結線によって入力し、以前隠れノードの出力に接続加重値が適用された値及び活性化関数に基づいて隠れレイヤに含まれた隠れノードの出力を生成する。一実施形態によれば、次の隠れノードに出力を発話するため、活性化関数の結果は現在の隠れノードの閾値を超過しなければならない。この場合、ノードは、入力ベクトルによって特定の閾値活性化強度に達する前には次のノードに信号を発話することなく、不活性化状態を保持する。

一実施形態に係る表情トレーニング装置は、教師あり学習によってニューラルネットワーク１００をトレーニングさせ得る。表情トレーニング装置は、ソフトウェアモジュール、ハードウェアモジュール、又は、その組合せで具現される。教師あり学習は、トレーニングデータのトレーニング入力に対応するトレーニング出力とともにニューラルネットワーク１００に入力し、トレーニングデータのトレーニング出力に対応する出力データが出力されるよう、連結線の接続加重値をアップデートする方式である。トレーニングデータは、トレーニング入力及びトレーニング出力の対を含むデータである。図１は、ニューラルネットワークの構造をノード構造として表現したが、実施形態は、このようなノード構造に限定されない。メモリストレージにニューラルネットワークを格納するために様々なデータ構造が用いられる。

一実施形態によれば、表情トレーニング装置は、ニューラルネットワークに逆伝播される損失及びニューラルネットワークに含まれたノードの出力値に基づいた勾配下降（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）方式によって、ノードのパラメータを決定する。例えば、表情トレーニング装置は、損失逆伝播学習によってノード間の接続加重値をアップデートする。損失逆伝播学習は、与えられたトレーニングデータに対してフォワード算出により損失を推定した後、出力レイヤ１３０から始まって隠れレイヤ１２０及び入力レイヤ１１０に向かう逆方向に推定した損失を伝播しながら、損失を減らす方向に接続加重値をアップデートする方法である。ニューラルネットワーク１００の処理は、入力レイヤ１１０、隠れレイヤ１２０、及び出力レイヤ１３０の方向に進行されるが、損失逆伝播トレーニングで接続加重値のアップデート方向は、出力レイヤ１３０、隠れレイヤ１２０、及び入力レイヤ１１０の方向に進行される。１つ又はそれ以上のプロセッサは、ニューラルネットワークを所望する方向に処理するため、レイヤ又は一連の算出データを格納するバッファメモリを用いることができる。

表情トレーニング装置は、現在に設定された接続加重値がどれほど最適に近接しているかを測定するための目的関数を定義し、目的関数の結果に基づいて接続加重値を引き続き変更し、トレーニングを繰り返し行ってもよい。例えば、目的関数は、ニューラルネットワーク１００がトレーニングデータのトレーニング入力に基づいて実際出力した出力値と出力の所望する期待値との間の損失を算出するための損失関数である。表情トレーニング装置は、損失関数の値を減らす方向に接続加重値をアップデートし得る。

図２は、一実施形態に係る発話に基づいた表情変化を説明する図である。

本明細書において、発話はオブジェクトが声を出して話す行為を含む。オブジェクトは、例えば人であってもよい。

オブジェクトが話す間に該当オブジェクトを複数のフレームイメージに撮影する場合、複数のフレームイメージのそれぞれはオブジェクトが話す一連の過程の一時的な側面を示す。したがって、話すオブジェクトの内部状態（例えば、感情）は変わらないが、該当オブジェクトの外部状態（例えば、全般的な印象（ｌｏｏｋ））は変わるように認識され得る。

例えば、図２は、オブジェクトが話す過程で内部状態２１０と外部状態２２０のギャップを説明する。オブジェクトの発話によって音声信号２４０が生成され、該当音声信号２４０に対応する、オブジェクトに関する複数のフレームイメージ２３０が取得される。オブジェクトの内部状態２１０は、発話の開始から終了まで中立（又はニュートラル）であってもよい。一方、オブジェクトの外部状態２２０は、発話の開始から終了まで喜び（ｈａｐｐｙ）、驚き（ｓｕｒｐｒｉｓｅ）、及び軽蔑（ｃｏｎｔｅｍｐｔ）のように変化するように見える。

以下、発話に基づいた表情認識によって、オブジェクトが話す間にも正確に表情を認識する方法及び装置を説明する。

図３Ａは、一実施形態に係る発話に基づいた表情認識方法を説明するフローチャートである。

まず、ステップＳ３１０において、発話に基づいた表情認識装置は、オブジェクトを含むオブジェクトイメージを取得する。オブジェクトは、上述したようにの人であってもよい。オブジェクトイメージは、オブジェクトの少なくとも一部を含むイメージである。例えば、オブジェクトイメージは、人の少なくとも一部として顔を含むイメージであってもよい。表情認識装置は、カメラによってオブジェクトの少なくとも一部を撮影することで、オブジェクトイメージを取得する。また、表情認識装置は、オブジェクトに関する、複数の連続したフレームイメージを含む入力イメージを取得する。表情認識装置は、複数のフレームイメージのうち１つのフレームイメージを順次オブジェクトイメージとして選択する。

そして、ステップＳ３２０において、表情認識装置は、発話モデルに基づいてオブジェクトイメージから発話マップを抽出する。表情認識装置のプロセッサは、発話モデルにオブジェクトイメージを入力することで発話マップを算出する。発話マップは、オブジェクトイメージで発話に関する領域を示す情報であり得る。例えば、発話マップは、横でｍ個、縦でｎ個のエレメントを含んでもよく、各エレメントに割り当てられた値は発話に関する程度を示す。ここで、ｍ及びｎは、整数である。オブジェクトイメージについても、横でｍ個、縦でｎ個のピクセルを含む。発話マップのエレメントは、オブジェクトイメージのピクセルに対応する。例えば、オブジェクトイメージの任意のピクセルに対応するエレメントに割り当てられた値は、該当ピクセルが発話に関する程度を示す。ただし、オブジェクトイメージを構成するピクセルの個数及び解像度が発話マップを構成するエレメントの個数及び解像度と同一なものと限定することはない。発話モデルは、基準イメージから基準音声に対応する発話マップを出力するようトレーニングされたモデルとして、例えば、ニューラルネットワークを含む機械学習構造であり得る。

次に、ステップＳ３３０において、表情認識装置は、表情モデルに基づいてオブジェクトイメージから表情特徴を抽出する。表情認識装置のプロセッサは、表情モデルにオブジェクトイメージを入力することで表情特徴を抽出する。表情特徴は、オブジェクトの表情に関わりやすい特徴を示す。表情モデルは、基準イメージから基準表情を出力するようトレーニングされたモデルとして、例えば、ニューラルネットワークを含む機械学習構造であり得る。

そして、ステップＳ３４０において、表情認識装置は、表情特徴及び発話マップに基づいてオブジェクトの表情を認識する。例えば、表情認識装置は、発話マップを反転させ、反転された発話マップを表情特徴に反映して対象ベクトルを生成し、生成された対象ベクトルに基づいてオブジェクトの表情を識別する。一実施形態によれば、複数のフレームイメージを取得した場合に応答して、表情認識装置は、複数のフレームイメージのそれぞれに対して順次オブジェクトの表情を認識する。

また、表情認識装置は、オブジェクトの音声信号を表情認識から排除する。表情認識装置は、音声信号を排除しても発話モデルに基づいて発話マップを抽出し得る。

ただし、これに限定されることなく、表情認識装置は、オブジェクトに関する音声信号を取得する。表情認識装置は、基準イメージ及び音声信号に基づいてオブジェクトイメージから発話マップを抽出する。

図３Ｂは、一実施形態に係る発話に基づいたオブジェクト認識方法を説明するフローチャートである。

図３Ａでは、発話に基づいて表情を認識する方法を説明したが、これに限定されることはない。オブジェクト認識装置は、発話に基づいてオブジェクトを認識してもよい。

まず、ステップＳ３５０において、発話に基づいたオブジェクト認識装置は、オブジェクトを含むオブジェクトイメージを取得する。オブジェクトは、上述したように人であり得る。オブジェクトイメージは、オブジェクトの少なくとも一部を含むイメージである。例えば、オブジェクトイメージは、人の少なくとも一部として顔を含むイメージであり得る。

そして、ステップＳ３６０において、オブジェクト認識装置は、発話モデルに基づいてオブジェクトイメージから発話マップを抽出する。オブジェクト認識装置のプロセッサは、発話モデルにオブジェクトイメージを入力することによって、発話マップを算出する。

次に、ステップＳ３７０において、オブジェクト認識装置は、オブジェクトモデルに基づいてオブジェクトイメージからオブジェクト特徴を抽出する。オブジェクト認識装置のプロセッサは、オブジェクトモデルにオブジェクトイメージを入力することによりオブジェクト特徴を抽出する。オブジェクト特徴は、オブジェクトに関する特徴として、オブジェクトが抽象化された特徴を示す。例えば、オブジェクトが人であり、オブジェクトイメージが人の少なくとも一部として顔を含んでいる場合、オブジェクト特徴は顔に関する特徴を示す。オブジェクトモデルは、基準イメージから基準オブジェクトを出力するようトレーニングされたモデルとして、ニューラルネットワークを含む機械学習構造であり得る。

そして、ステップＳ３８０において、オブジェクト認識装置は、オブジェクト特徴及び発話マップに基づいてオブジェクトを認識する。

例えば、オブジェクト認識装置は、発話マップを反転させ、反転された発話マップをオブジェクト特徴に反映して対象ベクトルを生成し、生成された対象ベクトルに基づいてオブジェクトを識別する。オブジェクト認識装置は、対象ベクトルから、複数のオブジェクトレイブル（ｏｂｊｅｃｔｌａｂｅｌｓ）のうちオブジェクトに対応するオブジェクトレイブルを決定する。オブジェクトレイブルは、例えば、オブジェクトのアイデンティティを示す。

異なる例として、オブジェクト認識装置は、第１オブジェクトイメージからオブジェクトモデルに基づいて第１オブジェクト特徴を抽出してもよい。オブジェクト認識装置は、第１オブジェクト特徴に反転した発話マップを反映して第１対象ベクトルを生成する。また、オブジェクト認識装置は、第２オブジェクトイメージからオブジェクトモデルに基づいて第２オブジェクト特徴を抽出する。オブジェクト認識装置は、第２オブジェクト特徴に反転した発話マップを反映して第２対象ベクトルを生成する。オブジェクト認識装置は、第１対象ベクトル及び第２対象ベクトルに基づいてオブジェクトを検証する。例えば、第１オブジェクトイメージは検証の対象となる対象イメージであってもよく、第２オブジェクトイメージは、検証の基準となる登録イメージであってもよいが、これに限定されることはない。

一実施形態によれば、オブジェクト認識装置は、第１対象ベクトル及び第２対象ベクトル間の比較に基づいて、第１オブジェクトイメージ及び第２オブジェクトイメージが同一のオブジェクトを指示するか否かを検証する。オブジェクト認識装置は、第１対象ベクトル及び第２対象ベクトル間の類似度スコアを算出し、類似度スコアが閾値類似を超過する場合、第１対象ベクトル及び第２対象ベクトルが類似するものと決定する。オブジェクト認識装置は、第１対象ベクトル及び第２対象ベクトルが類似していると判断される場合、第１オブジェクトイメージ及び第２オブジェクトイメージが同一のオブジェクトを指示するものと決定する。例えば、オブジェクト認識装置は、登録イメージのオブジェクトと対象イメージのオブジェクトが同一の場合、対象イメージのオブジェクトに対応するユーザに対する認証が有効であるものと決定する。したがって、オブジェクト認識装置がスマート機器及び認証機器などによって具現された場合、オブジェクト認識装置は、上述した動作を行って対象イメージと登録イメージとの間のオブジェクトの同一性を決定し、認証が有効な場合、スマート機器に対するアクセスを許容する。

図４は、一実施形態に係る表情モデル及び発話モデルに基づいた表情認識過程を説明する図である。

まず、表情認識装置は、オブジェクトイメージ４１０を取得する。上述したように、表情認識装置のカメラがオブジェクトを撮影することで、オブジェクトイメージ４１０を生成する。表情認識装置は、オブジェクトイメージ４１０から表情特徴を抽出する。

そして、表情認識装置は、オブジェクトイメージ４１０から発話マップ４２０を抽出する。発話マップ４２０に含まれたエレメントのそれぞれは、オブジェクトイメージ４１０に含まれたピクセルに対応し、該当のピクセルが発話に関する程度に対応する値を有する。例えば、表情認識装置は、発話モデルに基づいてオブジェクトイメージ４１０の領域ごとに発話に関する程度に応じて加重値を決定することで発話マップ４２０を生成する。図４に示された発話マップ４２０は、発話に関する程度を指示する強度値に表現されたマップであり得る。

図４において、発話マップ４２０は、オブジェクトイメージ４１０を構成する各ピクセルと同じ個数のエレメントを含み、各エレメントは各ピクセルに対応する。発話マップ４２０を構成するエレメントには、強度値が割り当てられる。図４に示された発話マップ４２０では、エレメントに割り当てられた強度値が大きいほど、該当エレメントがさらに明るく図示される。したがって、図４に示された発話マップ４２０において明るい部分は、発話に関する程度が大きい部分を示す。また、発話マップ４２０は、発話特徴ベクトルに表現され得る。

一実施形態によれば、表情認識装置は、発話モデルに基づいてオブジェクトイメージ４１０の対象領域が発話に関する程度が大きいほど、対象領域に対して高い加重値を決定する。また、表情認識装置は、発話モデルに基づいてオブジェクトイメージ４１０の対象領域が発話に関する程度が小さいほど、対象領域に対して低い加重値を決定する。対象領域は、例えば、オブジェクトイメージで発話に関する複数のピクセルを含む。例えば、表情認識装置は、対象ピクセルが発話に関する情報に比例して決定された予め決定された範囲内の値（例えば、０から１の間の値）を対象ピクセルに対応するエレメントに割り当てることができる。

次に、表情認識装置は、発話マップ４２０を反転させ、反転された発話マップ４３０を生成する。表情認識装置は、所定の最大値（例えば、１）から発話マップ４２０の値を差し引くことで発話マップ４２０を反転させ得る。一実施形態によれば、所定の最大値は、発話マップ４２０の各エレメントに割り当てられる加重値に対して予め一定の範囲の最大値である。例えば、予め決定された範囲が０から１の間の範囲である場合、所定の最大値は１である。ただし、予め一定の範囲をこれに限定されることなく、設計に応じて変更され得る。

反転された発話マップ４３０に含まれた各エレメントは、発話に関する程度が低いほど高い値を有する。例えば、人が話す間に顔のうち口の周辺が変化し、オブジェクトイメージ４１０で口を含む領域は。発話に関する程度が大きい。したがって、発話マップ４２０では、口の周辺に関するエレメントが高い加重値を有し、それと異なって、反転された発話マップ４３０では口の周辺に関するエレメントが目に関するエレメントに比べて低い加重値を有する図４に示された反転した発話マップ４３０で明るい部分は、発話に関する程度が小さい部分を示す。反転した発話マップ４３０は、反転ベクトルのように表現されてもよい。

そして、表情認識装置は、反転された発話マップ４３０及び表情特徴に基づいてオブジェクトの表情を認識する。

例えば、表情認識装置は、オブジェクトイメージ４１０から抽出された表情特徴に反転した発話マップ４３０を適用する。表情認識装置は、反転ベクトルを表情特徴ベクトルに適用して対象ベクトル４４０を生成する。表情認識装置は、オブジェクトの表情に対応する部分を指示する、反転された発話マップ４３０の加重値を表情特徴ベクトルに乗算することで対象ベクトル４４０を生成する。対象ベクトルは加重された特徴ベクトルであり得る。ただし、対象ベクトル４４０の生成をこれに限定することなく、対象ベクトル４４０は、反転された発話マップ４３０及び表情特徴ベクトルを変数にする関数に基づいて生成されてもよい。例えば、反転された発話マップ４３０及び表情特徴ベクトルの次元及び元素の個数が同じである場合、アダマール積（Ｈａｄａｍａｒｄｐｒｏｄｕｃｔ）が使用され、この場合、対象ベクトル４４０は、反転された発話マップ４３０の各エレメント及び表情特徴ベクトルの各エレメントを乗算した結果を示す。

一実施形態によれば、表情認識装置は、発話マップ４２０に基づいて表情特徴のうち発話に関わりやすい特徴に対応する値を減少させ得る。表情認識装置は、発話に関する程度を示す発話マップ４２０を反転させ、反転された発話マップ４３０を表情特徴に適用することで発話に関わりやすい特徴に対応する値を減少させ得る。例えば、図４に示すように、加重された特徴ベクトル４４０で口に関する領域４４３に対応する表情特徴は弱く強調することができる。

反対に、表情認識装置は、発話マップ４２０に基づいて表情特徴のうち発話と関わりにくい特徴に対応する値を増加させ得る。表情認識装置は、発話に関する程度を示す発話マップ４２０を反転させ、反転された発話マップ４３０を表情特徴に適用することで、発話と関わりにくい特徴に対応する値を増加させ得る。例えば、図４に示すように、対象ベクトル４４０で、目に関する領域４４１，４４２に対応する表情特徴は強調され得る。

表情認識装置は、対象ベクトル４４０に基づいてオブジェクトの表情を識別する。例えば、表情認識装置は、対象ベクトル４４０から複数の表情レイブルのうちオブジェクトの表情に対応する表情レイブル４５０を決定する。

参考として、図４は、主に表情認識について説明したが、これに限定されることはない。図４を参照して説明した動作は、オブジェクト認識にも適用され得る。例えば、オブジェクト認識装置は、表情モデルの代わりに、オブジェクトモデルを用いてもよい。例えば、オブジェクト認識装置は、オブジェクトモデルに基づいてオブジェクトイメージから抽出されたオブジェクト特徴に反転した発話マップを適用する。オブジェクト特徴のうち発話に関わりやすい特徴は弱く強調され、発話と関わりにくい特徴は強調される。

図５Ａは、一実施形態に係る表情特徴及び発話特徴に基づいた表情認識を説明する図である。

表情認識装置は、イメージ取得部５１０、表情特徴抽出部５３０、発話特徴検出部５４０、及び表情認識部５５０を含む。

イメージ取得部５１０は、上述したようにオブジェクトイメージ５０１を取得する。表情特徴抽出部５３０、は表情モデルに基づいてオブジェクトイメージ５０１からオブジェクトの表情に対応する部分を指示する表情特徴ベクトルを抽出する。発話特徴検出部５４０は、発話モデルに基づいてオブジェクトイメージ５０１からオブジェクトの発話に対応する部分を指示する発話特徴ベクトルを抽出する。表情認識部５５０は、表情特徴ベクトル及び発話特徴ベクトルに基づいて表情認識結果５０９を出力する。表情認識結果５０９は、例えば、オブジェクトの表情を指示するレイブルであり得る。

本明細書において、表情は、怒り、軽蔑、嫌悪、恐怖、喜び、悲しみ、驚き、及び中立（例えば、無感情）などの感情を示す情報である。異なる例として、表情は、眠気、集中、否定、肯定、興奮、及び均衡などの状態を示す情報である。ただし、表情の種類をこれに限定することなく、設計に応じて他の分類体系が使用されてもよい。表情レイブルは、上述したように分類される表情タイプのうちの１つを指示するレイブルを示す。

また、表情認識装置は、音声取得部５２０をさらに含んでもよい。音声取得部５２０は、オブジェクトの発話から生成される音声信号５０２を取得する。この場合、発話特徴検出部５４０は、オブジェクトイメージ５０１及び音声信号５０２に基づいて発話特徴ベクトルを抽出してもよい。その後、表情認識部５５０は、表情特徴ベクトル及び発話特徴ベクトルに基づいて表情認識結果５０９を出力し得る。

図５Ｂは、一実施形態に係るオブジェクト特徴及び発話特徴に基づいた表情認識を説明する図である。

参考として、図５Ａは主に表情認識について説明したが、これに限定されることはない。図５Ａを参照して説明した動作は、図５Ｂに示すようにオブジェクト認識にも適用され得る。

例えば、オブジェクト認識装置は、表情モデルの代わりに、オブジェクトモデルを用いてもよい。一実施形態によれば、オブジェクト認識装置は、表情特徴抽出部５３０の代わりにオブジェクト特徴抽出部５３１を、表情認識部５５０の代わりにオブジェクト認識部５５１を含んでもよい。

オブジェクト特徴抽出部５３１は、オブジェクトモデルに基づいてオブジェクトイメージ５０１からオブジェクトの特徴が抽象化されたオブジェクト特徴ベクトルを抽出する。オブジェクト認識部５５１は、オブジェクト特徴ベクトル及び発話特徴ベクトルに基づいてオブジェクト認識結果５０８を出力する。オブジェクト認識結果５０８は、例えば、オブジェクトのアイデンティティを指示するレイブルであり得る。

図６Ａは、一実施形態に係る発話に基づいた表情認識装置を説明するブロック図である。

発話に基づいた表情認識装置６００は、イメージ取得部６３０、プロセッサ６１０、及びメモリ６２０を含む。

イメージ取得部６３０は、オブジェクトイメージを取得する。例えば、イメージ取得部６３０はカメラを含んでもよく、オブジェクトを撮影することによって該当オブジェクトを含むオブジェクトイメージを取得し得る。

プロセッサ６１０は、表情モデル６２１及び発話モデル６２２に基づいてオブジェクトイメージからオブジェクトの表情を認識する。例えば、プロセッサ６１０は、表情モデル６２１にオブジェクトイメージを入力して表情特徴ベクトルを算出し、発話モデル６２２にオブジェクトイメージを入力して発話特徴ベクトルを算出する。プロセッサ６１０は発話特徴ベクトルを反転して生成した、反転ベクトルを上述した表情特徴ベクトルに適用することで対象ベクトルを生成する。プロセッサ６１０は、対象ベクトルに対応する表情を識別する。例えば、プロセッサ６１０は、対象ベクトルに対応する表情レイブルを決定する。

メモリ６２０は、表情モデル６２１及び発話モデル６２２を格納する。表情モデル６２１及び発話モデル６２２は、トレーニングデータに基づいて予めトレーニングされたモデルであり得る。また、表情モデル６２１及び発話モデル６２２は、ニューラルネットワークで構成されてもよい。

図６Ｂは、一実施形態に係る発話に基づいたオブジェクト認識装置を説明するブロック図である。

図６Ａを参照して表情認識を主に説明したが、これに限定されることなく、発話モデルをオブジェクト認識にも適用され得る。この場合、オブジェクト認識装置６９０は、表情モデルの代わりにオブジェクトモデル６２３を発話モデル６２２と共に利用してもよい。

例えば、オブジェクト認識装置６９０は、表情認識装置６００と同様にプロセッサ６１０、メモリ６２０、及びイメージ取得部６３０を含む。メモリ６２０は、表情モデルの代わりにオブジェクトモデル６２３を発話モデル６２２と共に格納する。ただし、これに限定されることなく、メモリ６２０は、表情モデル、オブジェクトモデル６２３及び発話モデル６２２を全て格納してもよい。

プロセッサ６１０は、オブジェクトモデル６２３及び発話モデル６２２に基づいてオブジェクトイメージからオブジェクトを認識する。例えば、プロセッサ６１０は、オブジェクトモデル６２３にオブジェクトイメージを入力してオブジェクト特徴ベクトルを算出し、発話モデル６２２にオブジェクトイメージを入力して発話特徴ベクトルを算出する。プロセッサ６１０は、発話特徴ベクトルを反転して生成した、反転ベクトルを上述したオブジェクト特徴ベクトルに適用することで対象ベクトルを生成する。プロセッサ６１０は、対象ベクトルに対応するオブジェクトを識別する。例えば、プロセッサ６１０は、対象ベクトルに対応するオブジェクトレイブルを決定する。

また、これに限定されることなく、プロセッサ６１０は、対象ベクトルに基づいてオブジェクトを検証してもよい。

説明の便宜のために省略したが、図６Ａの残りの動作についても図６Ｂに適用され得る。

図７は、一実施形態に係る表情モデル及び発話モデルに基づいて表情認識結果を出力する過程を説明する図である。

表情認識装置は、表情モデル７１０にオブジェクトイメージ７０１を入力する。表情認識装置は、表情モデル７１０に基づいてオブジェクトイメージ７０１から表情特徴ベクトルｖ_ｅｘｔを算出する。表情モデル７１０は、例えば、ｖ_ｅｘｔ＝ｆ_ｅｘｔ（Ｉ；Ｗ_ｅｘｔ）により表現される。ここで、Ｉはオブジェクトイメージ７０１であり、Ｗ_ｅｘｔは表情モデル７１０のパラメータとして接続加重値を示す。ｆ_ｅｘｔは予めトレーニングされた表情モデル７１０のパラメータＷ_ｅｘｔにより、オブジェクトイメージ７０１Ｉから表情特徴ベクトルｖ_ｅｘｔを出力するモデルがモデリングされた関数を示す。

また、表情認識装置は、発話モデル７２０にオブジェクトイメージ７０１を入力する。表情認識装置は、発話モデル７２０に基づいてオブジェクトイメージ７０１から発話特徴ベクトルｖ_ａｔｔを抽出する。発話モデル７２０は、例えば、ｖ_ａｔｔ＝ｆ_ａｔｔ（Ｉ；Ｗ_ａｔｔ）により表現される。ここで、Ｉはオブジェクトイメージ７０１であり、Ｗ_ａｔｔは発話モデル７２０のパラメータとして接続加重値を示す。ｆ_ａｔｔは、予めトレーニングされた発話モデル７２０のパラメータＷ_ａｔｔにより、オブジェクトイメージ７０１Ｉから発話特徴ベクトルｖ_ａｔｔを出力するモデルがモデリングされた関数を示す。

表情認識装置は、表情認識部７３０に上述した表情特徴ベクトルｖ_ｅｘｔ及び発話特徴ベクトルｖ_ａｔｔを入力し、表情認識結果７０９を算出する。表情認識部７３０は、各特徴ベクトルを受信するためのレイヤ７３１，７３２を含み、反転演算７３３、アテンション演算７３４、正規化演算７３５、及び認識演算７３６を行う。

例えば、表情認識装置は、表情特徴ベクトルｖ_ｅｘｔを表情認識部７３０の第１レイヤ７３１に入力する。また、表情認識装置は、発話特徴ベクトルｖ_ａｔｔを第２レイヤ７３２に入力する。第１レイヤ７３１及び第２レイヤ７３２は、表情特徴ベクトルｖ_ｅｘｔ及び発話特徴ベクトルｖ_ａｔｔを表情モデル７１０及び発話モデル７２０から受信する複数のノードを含み、受信されたベクトルを次のレイヤに伝達するように構成される。表情認識装置は、発話特徴ベクトルｖ_ａｔｔに対して反転演算７３３を行って反転ベクトル＾ｖ_ａｔｔを生成する。反転演算７３３は、例えば、下記の数式（１）のように示す。

上述した数式（１）において、反転ベクトル＾ｖ_ａｔｔは所定の最大値（例えば、１）から発話特徴ベクトルｖ_ａｔｔを差し引いたベクトルに表現される。上述した数式（１）において、発話特徴ベクトルｖ_ａｔｔの各エレメントは、例えば、０から１の間の値を有し、所定の最大値は１であり得る。

表情認識装置はアテンション演算７３４を行って、表情特徴ベクトルｖ_ｅｘｔ及び反転ベクトル＾ｖ_ａｔｔを統合する。表情認識装置は、２つの特徴ベクトルを統合するために、表情特徴ベクトルｖ_ｅｘｔに反転ベクトル＾ｖ_ａｔｔを適用する。例えば、表情認識装置は、表情特徴ベクトルｖ_ｅｘｔ及び反転ベクトル＾ｖ_ａｔｔの積によって対象ベクトルｖ^＊を生成する。アテンション演算７３４は、例えば、下記の数式（２）のように示す。

表情認識装置は、対象ベクトルｖ^＊を正規化する正規化演算７３５を行って正規化された対象ベクトル⁻ｖ^＊を生成する。正規化演算７３５は、例えば、下記の数式（３）のように示す。

上述した数式（３）のように、表情認識装置は、対象ベクトルｖ^＊及び対象ベクトルｖ^＊の最小値の間の差を、対象ベクトルｖ^＊の最大値と最小値との間の差に割ることで対象ベクトルｖ^＊を正規化する。正規化された対象ベクトル^-ｖ^＊は０から１間の値を有する。

表情認識装置は、正規化された対象ベクトル^-ｖ^＊に基づいて認識演算７３６を行うことで、オブジェクトの表情を識別し得る。例えば、表情認識装置は、下記の数式（４）による認識演算７３６を行う。

一実施形態によれば、表情認識装置は、プールレイヤ（ｐｏｏｌｉｎｇｌａｙｅｒ）に基づいて認識演算７３６を行ってもよい。この場合、上述した数式（４）において、Ｗ_ｒｅｃはプールレイヤの接続加重値を示す。ｃは任意の表情レイブルを示し、ｙは現在のオブジェクトイメージ７０１の表情を示す。したがって、表情認識装置は、数式（４）により、与えられた正規化された対象ベクトル^-ｖ^＊及びプールレイヤの接続加重値Ｗ_ｒｅｃに対し、オブジェクトイメージ７０１の表情ｙが特定表情レイブルｃである確率Ｐ（ｙ＝ｃ｜Ｉ）を算出する。

したがって、表情認識装置は、表情認識部７３０によって下記の数式（５）のように、オブジェクトイメージ７０１が特定表情レイブルに対応する確率Ｐ（ｙ＝ｃ｜Ｉ）を決定する。表情認識結果７０９は、オブジェクトイメージ７０１が特定表情レイブルに対応する確率Ｐ（ｙ＝ｃ｜ｃ）であり得る。

さらに、図７は、主に表情認識について説明したが、これに限定されることはない。例えば、表情モデル７１０がオブジェクトモデルに代替されて具現されてもよく、この場合オブジェクト認識装置は、オブジェクトモデル及び発話モデル７２０に基づいてオブジェクトを認識し得る。

図８は、一実施形態に係る発話に基づいた表情トレーニング方法を説明するフローチャートである。

まず、ステップＳ８１０において、表情トレーニング装置は、基準イメージ及び基準表情を取得する。基準イメージは、トレーニングのために与えられたオブジェクトを含むイメージを示す。基準表情は、基準イメージにマッピングされた表情として、基準イメージに含まれたオブジェクトが示す表情を指示するレイブルであり得る。トレーニングデータは、基準イメージ及び基準表情の対を含む。表情トレーニング装置は、メモリからトレーニングデータをロードして取得する。ただし、これに限定されることなく、表情トレーニング装置は、外部からトレーニングデータを取得してもよい。また、表情トレーニング装置は、基準イメージに対応する基準音声をさらに取得する。

そして、ステップＳ８２０において、表情トレーニング装置は、オブジェクトイメージから表情特徴を抽出する表情モデル及びオブジェクトイメージから発話マップを抽出する発話モデルに基づいてプロセッサが基準イメージから基準表情を出力するように、表情モデルのパラメータ及び発話モデルのパラメータをトレーニングさせ得る。例えば、トレーニングの間に表情トレーニング装置は、基準イメージからトレーニング発話マップ及びトレーニング表情特徴を抽出してトレーニング発話マップ及びトレーニング表情特徴に基づいてトレーニング表情レイブルを算出し、トレーニング表情レイブル及び基準表情間の表情損失が最小化されるよう表情モデルをトレーニングさせ得る。また、表情トレーニング装置は、トレーニング発話マップから音声情報を復元し、復元された音声情報及び基準音声との発話損失が最小化されるよう発話モデルをトレーニングさせ得る。

表情モデル及び発話モデルのトレーニングは、下記で詳細に説明する。

図９は、一実施形態に係る発話に基づいた表情トレーニング装置を説明するブロック図である。

発話に基づいた表情トレーニング装置９００は、プロセッサ９１０及びメモリ９２０を含む。

プロセッサ９１０は、上述したようにトレーニングデータ９２３を取得し、取得されたトレーニングデータ９２３に基づいて表情モデル９２１及び発話モデル９２２をトレーニングする。

例えば、プロセッサ９１０は、発話モデル９２２が基準イメージから基準音声に対応する発話特徴を出力するよう、発話モデル９２２をトレーニングさせる。プロセッサ９１０は、トレーニングの間に発話モデル９２２に基づいて基準イメージからトレーニング発話特徴を抽出し、該当トレーニング発話特徴を音声信号形態に変換して基準音声と比較する。プロセッサ９１０は、トレーニング発話特徴から復元されたトレーニング音声及び基準音声間の発話損失が最小化されるよう、発話モデル９２２のパラメータをアップデートすることで発話モデル９２２をトレーニングさせることができる。

また、プロセッサ９１０は、表情モデル９２１が基準イメージから基準表情に対応する表情レイブルを出力するよう、表情モデル９２１をトレーニングさせる。例えば、プロセッサ９１０は、表情モデル９２１及び発話モデル９２２に基づいて基準イメージから認識される表情及び基準表情間の表情損失を最小化することで表情モデル９２１をトレーニングさせ得る。プロセッサ９１０は、トレーニングの間に、表情モデル９２１に基づいて基準イメージからトレーニング表情特徴を抽出し、該当トレーニング表情特徴に対応する表情レイブルを算出して基準表情と比較する。プロセッサ９１０は、トレーニング表情特徴に対応する表情レイブル及び基準表情間の表情損失が最小化されるよう、表情モデル９２１のパラメータをアップデートすることで表情モデル９２１をトレーニングさせ得る。

上述した表情モデル９２１及び発話モデル９２２のトレーニングは同時に実行されるが、これに限定されることはない。発話モデル９２２のトレーニングが先に実行され、発話モデル９２２のパラメータが決定された後、表情トレーニング装置９００は表情モデル９２１をトレーニングさせてもよい。

メモリ９２０は、表情モデル９２１及び発話モデル９２２を格納する。また、メモリ９２０は、トレーニングデータ９２３で格納する。プロセッサ９１０は、メモリ９２０からトレーニングデータ９２３をロードしてトレーニングに使用してもよい。プロセッサ９１０は、トレーニングの間パラメータがアップデートされる、表情モデル９２１及び発話モデル９２２を格納する。

図１０は、一実施形態に係る表情モデル及び発話モデルをトレーニングさせる過程を説明する図である。

表情トレーニング装置は、図７を参照して説明した構造の表情モデル１０１０及び発話モデル１０２０をトレーニングさせる。一実施形態によれば、表情トレーニング装置は、発話モデル１０２０をトレーニングさせた後、表情モデル１０１０をトレーニングさせる。ただし、これに限定されることなく、表情トレーニング装置は、表情モデル１０１０及び発話モデル１０２０を一度にトレーニングさせてもよい。表情トレーニング装置は、基準イメージ１００１及び基準表情の対を含むトレーニングデータに基づいて、表情モデル１０１０及び発話モデル１０２０をトレーニングさせてもよく、追加的に基準音声をさらに含んでもよい。

例えば、表情トレーニング装置は、発話モデル１０２０をトレーニングさせるために発話損失１００８を算出する。表情トレーニング装置は、基準イメージ１００１からトレーニング発話特徴を発話モデル１０２０に基づいて算出する。表情トレーニング装置は、表情認識部１０３０の第２レイヤ１０３２にトレーニング発話特徴を入力する。表情トレーニング装置は、トレーニング発話特徴から、それに対応するトレーニング音声を復号化演算１０３７によって復元する。トレーニング音声は、発話モデル１０２０のトレーニングの間に一時的に算出されたトレーニング発話特徴から復元された音声を示す。復号化演算１０３７は、下記の数式（６）のように示す。

上述した数式（６）において、ｖ_ａｔｔはトレーニング発話特徴を示し、Ｗ_ｄｅｃは復号化演算１０３７のパラメータを示し、ｆ_ｄｅｃは復号化演算１０３７のパラメータＷ_ｄｅｃを用いてトレーニング発話特徴ｖ_ａｔｔからトレーニング音声＾ｖ_{ｖｏｉｃｅ}を復元する復号化演算１０３７がモデリングされた関数を示す。上述した数式（６）は、クロスモダリティ関数（ｃｒｏｓｓ−ｍｏｄａｌｉｔｙｆｕｎｃｔｉｏｎ）とも示す。

表情トレーニング装置は、発話損失１００８を下記の数式（７）のように算出される。

表情トレーニング装置は、発話損失１００８Ｌ_ｔｌｋを、上述した数式（７）のようにトレーニング音声＾ｖ_{ｖｏｉｃｅ}及び基準音声ｖ_{ｖｏｉｃｅ}間のＬ２−ｎｏｒｍに算出し得る。表情トレーニング装置は、上述した数式（７）による発話損失１００８Ｌ_ｔｌｋが最小化されるよう、発話モデル１０２０のパラメータをアップデートすることで発話モデル１０２０をトレーニングさせる。ただし、発話損失１００８の関数を上述したものに限定することなく、設計に応じて様々な損失関数が使用されてもよい。

一実施形態によれば、表情トレーニング装置は、上述したように発話損失１００８Ｌ_ｔｌｋの最小化により学習された発話モデル１０２０のパラメータＷ_ａｔｔをフリージングした後、表情モデル１０１０をトレーニングさせ得る。

表情トレーニング装置は、表情モデル１０１０をトレーニングさせるために表情損失１００９を算出する。表情トレーニング装置は、表情モデル１０１０に基づいて基準イメージ１００１から抽出された表情特徴に発話モデル１０２０に基づいて基準イメージ１００１から抽出された発話マップを適用する。ここで、表情トレーニング装置は、基準イメージ１００１から抽出された発話マップを反転させた、反転された発話マップを基準イメージ１００１から抽出された表情特徴に反映する。表情トレーニング装置は、発話マップが適用された表情特徴に基づいて決定された表情レイブル及び基準表情に対応するレイブル間の表情損失を最小化できる。

例えば、表情トレーニング装置は、基準イメージ１００１からトレーニング表情特徴を表情モデル１０１０に基づいて算出する。表情トレーニング装置は、表情認識部１０３０の第１レイヤ１０３１にトレーニング表情特徴を入力する。表情トレーニング装置は、トレーニング表情特徴に反転ベクトル＾ｖ_ａｔｔを適用することによりアテンション演算１０３４を行ってもよい。反転ベクトル＾ｖ_ａｔｔは、トレーニング発話特徴ｖ_ａｔｔに対して反転演算１０３３が実行されたベクトルである。表情トレーニング装置は、アテンション演算１０３４によって生成された対象ベクトルｖ^＊を正規化１０３５して正規化された対象ベクトル^-ｖ^＊を生成し、正規化された対象ベクトル^-ｖ^＊に認識演算１０３６を行うことでトレーニング表情レイブルＰ（ｙ＝ｃ｜Ｉ）を決定し得る。表情トレーニング装置は、下記の数式（８）のように表情損失１００９Ｌ_ｒｅｃを算出する。

表情トレーニング装置は、上述した数式（８）により算出された表情損失１００９Ｌ_ｒｅｃが最小化されるよう表情モデル１０１０のパラメータをアップデートすることで、表情モデル１０１０をトレーニングさせ得る。ただし、表情損失１００９の関数を上述したものに限定することなく、設計に応じて様々な損失関数が使用されてもよい。

図１０において、説明の便宜のために、表情モデル１０１０及び発話モデル１０２０のトレーニングを順に説明したが、これに限定されることはない。表情トレーニング装置は、１つのトレーニングサイクルの間に表情損失１００９及び発話損失１００８が最小化されるよう表情モデル１０１０及び発話モデル１０２０のパラメータを一度にアップデートしてもよい。

また、図８ないし図１０は、主に表情認識のための表情モデルについて説明したが、これに限定されることはない。表情モデルの代わりに、オブジェクトモデルが発話モデルと共にトレーニングされてもよい。

例えば、トレーニングデータは、基準イメージ及び基準オブジェクトの対を含む。オブジェクトトレーニング装置は、メモリからトレーニングデータをロードして取得する。オブジェクトトレーニング装置は、オブジェクトイメージからオブジェクト特徴を抽出するオブジェクトモデル及びオブジェクトイメージから発話マップを抽出する発話モデルに基づいて、プロセッサが基準イメージから基準オブジェクトを出力するよう、オブジェクトモデルのパラメータ及び発話モデルのパラメータをトレーニングさせ得る。

トレーニングの間にオブジェクトトレーニング装置は、基準イメージからトレーニング発話マップ及びトレーニングオブジェクト特徴を抽出する。オブジェクトトレーニング装置は、トレーニング発話マップ及びトレーニングオブジェクト特徴に基づいてトレーニングオブジェクトレイブルを算出する。オブジェクトトレーニング装置は、トレーニングオブジェクトレイブル及び基準オブジェクト間のオブジェクト損失が最小化されるようオブジェクトモデルをトレーニングさせ得る。また、表情トレーニング装置は、トレーニング発話マップから音声情報を復元し、復元された音声情報及び基準音声との発話損失が最小化されるよう発話モデルをトレーニングさせ得る。

説明の便宜のために省略したが、図８ないし図１０の残りの動作についてもオブジェクトトレーニング装置に適用されてもよい。例えば、図８ないし図１０で動作は表情モデルをオブジェクトモデルであり、表情特徴をオブジェクト特徴で、表情レイブルをオブジェクトレイブルで、基準表情を基準オブジェクトで、表情損失をオブジェクト損失で置き換え、オブジェクトトレーニング装置に適用される。

図１１及び図１２は、一実施形態に係る表情認識装置の例示を説明する図である。

図１１は、モバイル装置で具現された表情認識装置１１００を示す。図１２は、ロボットで具現された表情認識装置１２００を示す。また、表情認識装置１１００，１２００は、スマートＴＶなどのような様々なスマート機器で具現される。

一実施形態に係る表情認識装置１１００，１２００は、オブジェクトが話している状況でもオブジェクトの表情を正確に認識できる。上述したように、表情認識装置１１００，１２００は、発話マップを抽出することによりオブジェクトで表情に関する部分に集中し、発話に関する部分には少なく集中し、オブジェクトの表情を認識し得る。また、表情認識装置１１００，１２００は、別途の音声信号の取得なくてもオブジェクトから発話に関する部分を排除できる。

図１１及び図１２は、主に表情認識装置１１００，１２００を説明したが、これに限定されることはない。オブジェクト認識装置もスマート機器などで具現され得る。

また、図１ないし図１２を参照して説明した表情認識装置及びオブジェクト認識装置は、単一の認識機器に統合されて具現されてもよい。例えば、認識機器は、表情モデル、オブジェクトモデル、及び発話モデルを含む。認識機器は、表情モデルに基づいて抽出した表情特徴及びオブジェクトモデルに基づいてオブジェクト特徴に発話モデルに基づいた発話マップを反転して適用することで対象ベクトルを生成し得る。認識機器は、対象ベクトルに基づいて表情を認識したりオブジェクトを認識し得る。

以上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はこののうちの１つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読み取り可能な記録媒体に格納される。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＹＩＪＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

６００：表情認識装置
６１０：プロセッサ
６２０：メモリ
６３０：イメージ取得部

Claims

発話に基づいた表情認識方法において、
オブジェクトを含むオブジェクトイメージを取得するステップと、
発話モデルに基づいて前記オブジェクトイメージから発話マップを抽出するステップと、
表情モデルに基づいて前記オブジェクトイメージから表情特徴を抽出するステップと、
前記表情特徴及び前記発話マップに基づいて前記オブジェクトの表情を認識するステップと、
を含む発話に基づいた表情認識方法。
前記オブジェクトの表情を認識するステップは、
前記発話マップに基づいて前記表情特徴のうち発話に関わりやすい特徴に対応する値を減少させるステップと、
前記発話マップに基づいて前記表情特徴のうち発話と関わりにくい特徴に対応する値を増加させるステップと、
を含む、請求項１に記載の発話に基づいた表情認識方法。
前記発話マップを抽出するステップは、前記発話モデルに基づいて前記オブジェクトイメージの領域ごとに発話に関する程度に応じて加重値を決定することで前記発話マップを生成するステップを含む、請求項１又は２に記載の発話に基づいた表情認識方法。
前記発話マップを生成するステップは、
前記発話モデルに基づいて、前記オブジェクトイメージの対象領域が発話に関する程度が大きいほど前記対象領域に対して加重値を増加させるステップと、
前記発話モデルに基づいて、前記オブジェクトイメージの対象領域が発話に関する程度が小さいほど前記対象領域に対して加重値を減少させるステップと、
を含む、請求項３に記載の発話に基づいた表情認識方法。
前記オブジェクトの表情を認識するステップは、
前記発話マップを反転させるステップと、
前記反転した発話マップ及び前記表情特徴に基づいて前記オブジェクトの表情を認識するステップと、
を含む、請求項１に記載の発話に基づいた表情認識方法。
前記発話マップを反転させるステップは、最大値から前記発話マップの値を差し引くことにより前記発話マップを反転させるステップを含む、請求項５に記載の発話に基づいた表情認識方法。
前記発話マップを抽出するステップは、前記発話モデルに基づいて、前記オブジェクトイメージから前記オブジェクトの発話に対応する部分を指示する発話特徴ベクトルを抽出するステップを含み、
前記表情特徴を抽出するステップは、前記表情モデルに基づいて、前記オブジェクトイメージから前記オブジェクトの表情に対応する部分を指示する表情特徴ベクトルを抽出するステップを含む、請求項１又は２に記載の発話に基づいた表情認識方法。
前記オブジェクトの表情を認識するステップは、
前記発話特徴ベクトルを反転させて反転ベクトルを生成するステップと、
前記反転ベクトルを前記表情特徴ベクトルに適用して対象ベクトルを生成するステップと、
前記対象ベクトルに基づいて前記オブジェクトの表情を識別するステップと、
を含む、請求項７に記載の発話に基づいた表情認識方法。
前記対象ベクトルに基づいて前記オブジェクトの表情を識別するステップは、前記対象ベクトルに基づいて、表情レイブルのうち前記オブジェクトの表情に対応する表情レイブルを決定するステップを含む、請求項８に記載の発話に基づいた表情認識方法。
前記対象ベクトルに基づいて前記オブジェクトの表情を識別するステップは、
前記対象ベクトルを正規化することにより正規化されたベクトルを生成するステップと、
前記正規化されたベクトルに基づいて前記オブジェクトの表情を識別するステップと、
を含む、請求項８に記載の発話に基づいた表情認識方法。
前記オブジェクトの表情を認識するステップは、前記オブジェクトの音声信号を表情認識から排除するステップを含む、請求項１に記載の発話に基づいた表情認識方法。
前記オブジェクトイメージを取得するステップは、
前記オブジェクトに関する連続した複数のフレームイメージを含む入力イメージを取得するステップと、
前記フレームイメージからいずれかのフレームイメージを前記オブジェクトイメージで順次選択するステップと、
を含み、
前記オブジェクトの表情を認識するステップは、前記複数のフレームイメージのそれぞれに対して順次前記オブジェクトの表情を認識するステップを含む、請求項１ないし１１のうち何れか一項に記載の発話に基づいた表情認識方法。
前記オブジェクトに関する音声信号を取得するステップをさらに含み、
前記発話マップを抽出するステップは、前記音声信号及び前記発話モデルにさらに基づいて前記オブジェクトイメージから前記発話マップを抽出するステップを含む、請求項１ないし１２のうち何れか一項に記載の発話に基づいた表情認識方法。
請求項１ないし１３のいずれか一項に記載の方法を装置のコンピュータに実行させるための命令語を含むコンピュータプログラム。
発話に基づいたオブジェクト認識方法において、
オブジェクトを含むオブジェクトイメージを取得するステップと、
発話モデルに基づいて前記オブジェクトイメージから発話マップを抽出するステップと、
オブジェクトモデルに基づいて前記オブジェクトイメージからオブジェクト特徴を抽出するステップと、
前記オブジェクト特徴及び前記発話マップに基づいて、前記オブジェクトを認識するステップと、
を含む発話に基づいたオブジェクト認識方法。
発話に基づいた表情トレーニング方法において、
基準イメージ及び基準表情を取得するステップと、
表情モデル及び発話モデルに基づいてプロセッサが前記基準イメージから前記基準表情を出力するよう、前記表情モデルのパラメータ及び前記発話モデルのパラメータをトレーニングさせるステップと、
を含み、
前記表情モデルは、オブジェクトイメージから表情特徴を抽出するように構成され、前記発話モデルは、前記オブジェクトイメージから発話マップを抽出するように構成される、発話に基づいた表情トレーニング方法。
前記基準イメージ及び前記基準表情を取得するステップは、前記基準イメージに対応する基準音声をさらに取得するステップを含み、
前記トレーニングさせるステップは、
前記発話モデルに基づいて前記基準イメージから抽出された、発話マップから音声情報を復元するステップと、
前記復元された音声情報及び前記基準音声間の発話損失を最小化することで前記発話モデルをトレーニングさせるステップと、
を含む、請求項１６に記載の発話に基づいた表情トレーニング方法。
前記トレーニングさせるステップは、前記表情モデル及び前記発話モデルに基づいて前記基準イメージから認識される表情及び前記基準表情間の表情損失を最小化することで前記表情モデルをトレーニングさせるステップを含む、請求項１６又は１７に記載の発話に基づいた表情トレーニング方法。
前記トレーニングさせるステップは、
前記表情モデルに基づいて前記基準イメージから抽出された表情特徴に前記発話モデルに基づいて、前記基準イメージから抽出された発話マップを適用するステップと、
前記発話マップが適用された表情特徴に基づいて決定された表情レイブル及び前記基準表情に対応するレイブル間の表情損失を最小化するステップと、
をさらに含む、請求項１８に記載の発話に基づいた表情トレーニング方法。
前記発話マップを適用するステップは、前記基準イメージから抽出された発話マップを反転させた、反転された発話マップを前記基準イメージから抽出された表情特徴に反映するステップを含む、請求項１９に記載の発話に基づいた表情トレーニング方法。
発話に基づいて表情を認識する装置において、
表情モデル、発話モデル、及び命令を格納するメモリと、
前記命令を実行するプロセッサと、
を含み、
前記命令は、
オブジェクトのイメージを取得し、
前記発話モデルに基づいて前記イメージから発話マップを抽出し、
前記表情モデルに基づいて前記イメージから表情特徴を抽出し、
前記発話マップ及び前記表情特徴に基づいて前記オブジェクトの表情を認識する、発話に基づいて表情を認識する装置。
前記プロセッサは、
前記オブジェクトの前記発話に対応する前記イメージの部分を指示する発話特徴ベクトルを前記発話モデルに基づいて抽出し、
前記発話特徴ベクトルを反転させ、
前記表情に対応する前記イメージの部分を指示する表情特徴ベクトルを、前記表情モデルに基づいて抽出し、
前記表情特徴ベクトルに前記反転したベクトルを適用することに基づいて前記表情を識別する、請求項２１に記載の発話に基づいて表情を認識する装置。
前記プロセッサは、
前記イメージをキャプチャーするイメージ取得部と、
前記発話に対応する前記イメージの部分を指示する発話特徴ベクトルを、前記発話モデルに基づいて検出する発話特徴検出部と、
前記表情に対応する前記イメージの部分を指示する表情特徴ベクトルを、前記表情モデルに基づいて抽出する表情特徴抽出部と、
前記発話特徴ベクトル及び前記表情特徴ベクトルに基づいて前記オブジェクトの前記表情に対応するレイブルを決定する表情認識部と、
を含む、請求項２１又は２２に記載の発話に基づいて表情を認識する装置。
前記プロセッサは、音声信号を取得する音声取得部をさらに含み、
前記発話特徴検出部は、前記イメージ及び前記音声信号に基づいて前記発話特徴ベクトルを検出する、請求項２３に記載の発話に基づいて表情を認識する装置。