JP2019200671A

JP2019200671A - 学習装置、学習方法、プログラム、データ生成方法及び識別装置

Info

Publication number: JP2019200671A
Application number: JP2018095725A
Authority: JP
Inventors: 荘介下山; Sosuke Shimoyama
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2019-11-21

Abstract

【課題】顔画像及び発声データを識別する識別モデルを教師なし学習で構築することができる学習装置等を提供する。【解決手段】学習装置１は、人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する取得部と、前記複数のデータセット夫々の前記顔画像を第１の抽出器に入力し、前記顔画像の特徴量を抽出する第１抽出部と、前記複数のデータセット夫々の前記発声データを第２の抽出器に入力し、前記発声データの特徴量を抽出する第２抽出部と、前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第１及び第２の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する生成部とを備えることを特徴とする。【選択図】図１

Description

本発明は、学習装置、学習方法、プログラム、データ生成方法及び識別装置に関する。

機械学習の手法を用いて、人間を撮像した画像、発話音声等から必要な特徴を学習した学習済みモデルを構築する技術がある。例えば特許文献１では、感情を表す情報がラベル付けされた顔画像を畳み込みニューラルネットワーク（ＣＮＮ；Convolution Neural Network）に入力して機械学習を行い、構築した学習済みモデルを用いてユーザの顔画像から感情を推定し、ユーザの発話内容の意味解析に利用する発話意味分析プログラム等が開示されている。

特開２０１７−１５６８５４号公報

しかしながら、特許文献１に係る発明では教師あり学習によって学習済みモデルを構築しており、人手でラベル付けされた学習用のデータが必要になる。

一つの側面では、顔画像及び発声データを識別する学習済みモデルを低コストで構築することができる学習装置等を提供することを目的とする。

一つの側面では、学習装置は、人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する取得部と、前記複数のデータセット夫々の前記顔画像を第１の抽出器に入力し、前記顔画像の特徴量を抽出する第１抽出部と、前記複数のデータセット夫々の前記発声データを第２の抽出器に入力し、前記発声データの特徴量を抽出する第２抽出部と、前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第１及び第２の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する生成部とを備えることを特徴とする。

一つの側面では、顔画像及び発声データを識別する学習済みモデルを低コストで構築することができる。

学習装置の構成例を示すブロック図である。サンプリング処理を説明するための説明図である。学習処理を説明するための説明図である。感情識別処理について説明するための説明図である。学習処理の処理手順の一例を示すフローチャートである。サンプリングのサブルーチンの処理手順を示すフローチャートである。感情識別処理の処理手順の一例を示すフローチャートである。実施の形態２に係るサンプリングのサブルーチンの処理手順を示すフローチャートである。実施の形態３に係る学習処理の処理手順の一例を示すフローチャートである。実施の形態３に係るサンプリングのサブルーチンの処理手順を示すフローチャートである。上述した形態の学習装置の動作を示す機能ブロック図である。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
（実施の形態１）
図１は、学習装置１の構成例を示すブロック図である。本実施の形態では、画像及び音声の双方からマルチモーダルに感情を推定可能とすべく、人物の顔画像と、顔画像を撮像時に人物が発話した発声データとの対応関係を学習する機械学習を行う学習装置１について説明する。学習装置１は、種々の情報処理が可能な学習装置であり、例えばサーバコンピュータ、パーソナルコンピュータ等の装置である。

学習装置１は、制御部１１、主記憶部１２、通信部１３、及び補助記憶部１４を備える。
制御部１１は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置を有し、補助記憶部１４に記憶されたプログラムＰを読み出して実行することにより、学習装置１に係る種々の情報処理、制御処理等を行う。主記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等の一時記憶領域であり、制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。通信部１３は、外部と通信を行うための通信インターフェイス等を備え、端末２との間で種々の情報の送受信を行う。端末２は、例えばパーソナルコンピュータ、多機能端末等の端末装置であり、ユーザによる操作入力を受け付け、情報の入出力を行う。

補助記憶部１４は大容量メモリ、ハードディスク等であり、制御部１１が処理を実行するために必要なプログラムＰ、その他のデータを記憶している。また、補助記憶部１４は、機械学習処理によって生成される識別器１４１（識別モデル）のデータを記憶する。

なお、補助記憶部１４は学習装置１に接続された外部記憶装置であってもよい。また、学習装置１は複数のコンピュータからなるマルチコンピュータであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。

図２は、サンプリング処理を説明するための説明図である。以下で学習装置１が行う学習処理の概要について説明するが、学習装置１は機械学習を行うための前処理として、入力データを学習用にサンプリングする処理を行う。ここでは図２を用いて、サンプリング処理の概要について説明する。

学習装置１は、例えば端末２を介して学習用の入力データを取得する。当該データは、発話音声を含む被写体人物の撮像動画データである。動画データは、被写体である人物を撮像した画像（動画像）と、当該人物を撮像時に集音された発話音声とを含む。動画は、少なくとも人物の顔部分を撮像範囲に含む画像である。学習装置１は、複数の動画データを取得し、後述する機械学習のために必要なデータを各動画データからサンプリングする。

まず学習装置１は、取得した動画に対する画像認識を行い、被写体人物の顔における特定の器官の動きを検出する。例えば学習装置１は、口の動きを検知する。これにより学習装置１は、被写体人物が発話しているものと推定される発話時点を特定する。例えば学習装置１は、人物の口が動いている時間のうち、ランダムなタイミングを発話時点として特定し、顔画像のフレーム（静止画）を抽出する。すなわち学習装置１は、発話時の顔画像をサンプリングする。

学習装置１は、抽出した顔画像において顔領域のサイズと画像フレームのサイズとの比率が均一になるようにクロップ（補正）しておく。これにより学習装置１は、後述する学習処理で各動画からサンプリングした顔画像を均等に扱えるように前処理しておく。

次に学習装置１は、発話時の顔画像に対応する発話音声を動画データからサンプリングする。具体的には、学習装置１は、動画内の音声データから、顔画像を抽出した時点に対応する一定時間の音声を抽出する。例えば学習装置１は、顔画像を抽出した時点の前後０．１秒間の音声を抽出する。

本実施の形態で学習装置１は、後述するように発話音声を画像として処理可能なように、動画から抽出した音声をスペクトログラム画像に変換する。例えば学習装置１は、抽出した音声に対する短時間フーリエ変換を行い、ログスペクトログラムを計算する。図２において顔画像の下に、発話音声の変換処理を概念的に図示してある。白抜き矢印の上側に示す図は変換前の音声データであり、横軸が時間を、縦軸が振幅を表す。白抜き矢印の下側に示す図は変換後のログスペクトログラムであり、横軸が時間を、縦軸が周波数を表す。なお、実際にはログスペクトログラムは縦軸の位置に応じた各周波数成分の音声の強度を輝度や色で表すが、図２では図示の便宜上、各周波数成分の強度を表さずに単なる黒線を図示してある。

上述の変換処理により、顔画像に対応する発話音声が画像化される。学習装置１は、口の動きに応じて動画から抽出した顔画像と、発話時の音声を画像化したスペクトログラム画像とを対応付けて、一の入力データのセットとして保持する。学習装置１は上述のサンプリング処理を各動画に対して行い、顔画像及びスペクトログラム画像をペアにした学習用のデータセットを生成する。学習装置１は、当該データセットを用いて学習処理を行う。

図３は、学習処理を説明するための説明図である。図３では、学習装置１が機械学習によって構築する識別モデル（識別器１４１）の概要を図示してある。図３に基づき、学習装置１が行う学習処理について説明する。

本実施の形態で学習装置１は、識別モデルとして畳み込みニューラルネットワークを構築する。具体的には、識別モデルは、顔画像の特徴量を抽出する画像ネットワーク（第１の抽出器）と、発話音声に対応するスペクトログラム画像の特徴量を抽出する音声ネットワーク（第２の抽出器）と、画像ネットワーク及び音声ネットワークそれぞれからの出力値（特徴量）の対応度を算出して出力する出力ネットワーク（識別器）とを有するニューラルネットワークである。以下の説明では便宜上、本実施の形態に係るニューラルネットワークを構成する３つのネットワーク部分を「サブネットワーク」とも呼ぶ。

画像ネットワークは、顔画像の各画素の画素値に対して畳み込み及びプーリング演算を行って特徴量を抽出するサブネットワークであり、２つの畳み込み層（Convolution Layer、図３では「ｃｏｎｖ」と図示）と、１つのプーリング層（Pooling Layer、図３では「ｐｏｏｌ」）とから成る層群が４つ連なって成る。学習装置１は、サンプリングした顔画像を１群目の畳み込み層に入力して各層での計算を行い、４群目のプーリング層から、顔画像の特徴量に係る出力値を得る。

なお、上記のサブネットワークの構造は一例であり、サブネットワーク内の層数や各層の順序は特に限定されない。他のサブネットワークも同様である。

音声ネットワークは、画像ネットワークと同様の構成を有するサブネットワークである。本実施の形態では、同様の２つのサブネットワークが併存し、各々が顔画像及びスペクトログラム画像を処理する。音声ネットワークの構造は画像ネットワークと同じく、２つの畳み込み層と１つのプーリング層とから成る層群が４つ連なって成る。学習装置１は、発話音声に相当するスペクトログラム画像を音声ネットワークに入力し、４群目のプーリング層からスペクトログラム画像の特徴量に係る出力値を得る。

出力ネットワークは、画像ネットワーク及び音声ネットワークそれぞれの出力値を入力とし、顔画像及びスペクトログラム画像（発話音声）が対応するか否かを１又は０の二値で出力するネットワーク層である。出力ネットワークは、各サブネットワークからの出力値を一の入力値として連結する１つの連結層（Concatenation Layer、図２では「ｃｏｎｃａｔ」）と、多変数で表される入力値（特徴量）の各変数を結合する２つの全結合層（Fully-Connected Layer、図２では「ｆｃ１」及び「ｆｃ２」）と、活性化関数（本実施の形態ではソフトマックス関数）を用いて最終的な出力値を演算する出力層（Softmax Layer、図２では「ｓｏｆｔｍａｘ」）とから成る。学習装置１は、画像ネットワーク及び音声ネットワークそれぞれの出力値を出力ネットワークの連結層に入力し、顔画像とスペクトログラム画像とが対応するか否か、２クラス分類した結果を出力層から１又は０の値で出力する。

なお、上記では顔画像及びスペクトログラム画像が対応するか否か、２クラス分類した結果が１又は０の二値で出力されるものとしたが、本実施の形態はこれに限定されるものではない。例えば学習装置１は、各画像が対応するか否かを０から１までの確率値で出力してもよい。すなわち学習装置１は、顔画像及びスペクトログラム画像を入力として各画像の対応度を学習した識別器を生成可能であればよく、その値は二値に限定されない。

学習装置１は、出力ネットワークから出力された出力値を、データセットにおける顔画像及びスペクトログラム画像の対応関係と比較して、各サブネットワークの重み等のパラメータを調整する機械学習を行う。すなわち学習装置１は、図３左に示す各画像がデータセットにおいて対応付けられていたか否か、ペアであったか否かを正解値とした機械学習を行う。学習装置１は、各画像がペアであった場合、出力ネットワークからの出力値が１となるように画像ネットワーク、音声ネットワーク、及び出力ネットワークの各層のパラメータを調整する。各画像がペアでなかった場合、学習装置１は、出力ネットワークからの出力値が０となるように各サブネットワークのパラメータを調整する。

なお、上記では３つのサブネットワーク全てのパラメータを調整しているが、本実施の形態はこれに限定されず、例えば画像ネットワーク及び音声ネットワークのみパラメータを調整する、というように、一部のサブネットワークのみについて学習を行うようにしてもよい。

上述の如く、学習装置１は、顔画像及びスペクトログラム画像がペアであったか否か、すなわち同じ動画から抽出された顔画像及び発話音声であったか否かに応じて正解値を定め、顔の表情と、その時の発話音声との対応関係を学習する。元の動画が同じか否かで学習時の正解値を定めることができるため、教師なしであっても学習を行い、識別モデルを構築することができる。

人間のある感情が表情及び声に表れる場合、同じようなパターンの表情で、同じようなパターンの声を出すと考えられる。例えば笑う場合は、同じような笑顔で同じような笑い声を出す。上記の処理によって学習装置１は、その表情及び声の対応関係を学習する。すなわち、子供のように「見て、聞いて」覚えていくことになる。当該学習により、学習装置１は、人間の表情の特徴を捉える画像ネットワークと、人間の声の特徴を捉える音声ネットワークとを同時に構築することができる。

図４は、感情識別処理について説明するための説明図である。本実施の形態で学習装置１は、上記で生成した識別モデルを感情識別タスクに応用し、顔画像又は発話音声から人間の感情を識別（推定）する処理を行う。

具体的には、学習装置１は、顔画像又は発声データに被写体人物の感情を表す情報がラベル付けされた教師データを別途用いてファインチューニングを行い、上記で生成済みの画像ネットワーク、又は音声ネットワークを利用して感情識別を行う識別モデル（第２の識別器）を生成する。図４に、ファインチューニングによって感情識別用の識別モデルが生成される様子を太線部分に概念的に図示する。学習装置１は、上述の識別モデルの一部である画像ネットワーク又は音声ネットワークをそれぞれ、上述の出力ネットワークとは異なる、感情識別用の出力ネットワーク（図４では「ｏｕｔｐｕｔ」と図示）に結合する。この出力ネットワークは、図４の右側中央に示す教師なし学習時の出力ネットワークと同じ構成であってもよく、異なる構成であってもよい。学習装置１は、感情のラベル値が付された教師データの入力を受け付け、人間の感情を識別モデルに学習させる。

例えば図４上側に示す、画像ネットワークを用いた識別モデルであれば、学習装置１は、教師データである顔画像を画像ネットワークに入力し、顔画像の特徴量を抽出して出力ネットワークに入力する。学習装置１は、出力ネットワークからの出力値を感情のラベル値（正解値）と比較し、画像ネットワーク及び出力ネットワークのパラメータを調整する。これにより学習装置１は、顔画像から被写体人物の感情を識別する識別モデルを構築する。

音声の場合も同様に、学習装置１は音声ネットワークに発声データを入力し、発声データの特徴量を抽出して出力ネットワークに入力する。学習装置１は、出力ネットワークから出力される出力値をラベル値と比較し、発声データから感情を識別する識別モデルを構築する。

また、学習装置１は、画像又は音声のいずれかのみから感情を識別するモデルだけでなく、画像及び音声の双方から感情を識別するマルチモーダルな識別モデルも構築可能である。例えば学習装置１は、感情のラベル値が付された動画データを教師データとして取得し、顔画像及び発声データをサンプリングして画像ネットワーク及び音声ネットワークに入力する。そして学習装置１は、各サブネットワークで抽出した顔画像及び発声データそれぞれの特徴量を出力ネットワークに入力して連結し、教師データに含まれるラベル値を用いて機械学習を行う。この場合の出力ネットワークは、教師なし学習時の出力ネットワークとは異なるサブネットワークとしてもよいが、同じサブネットワークとしてもよい。例えば学習装置１は、図４の右側中央に示す出力ネットワークにおいて、顔画像及び発声データの対応度を算出する最終層（図中の「ｓｏｆｔｍａｘ」）を、感情の推定値を算出する出力層とすればよい。

上述のように、学習装置１は教師なし学習で生成した識別モデルの画像ネットワーク又は音声ネットワークを流用して、感情識別用の識別モデルを構築する。画像ネットワーク又は音声ネットワークは教師なし学習によって構築済みであるため、学習装置１は最小限の教師データによって識別モデルを構築することができる。

感情の識別を行う場合、学習装置１は、識別対象である顔画像、又は発話音声の入力を受け付け、画像ネットワーク又は音声ネットワークに入力し、感情識別用の出力ネットワークから感情の推定値を取得する。上述の如く、学習装置１は、顔画像（静止画）のみ、あるいは音声のみの入力を受け付け、いずれかについて識別を行うようにしてもよい。または、学習装置１は顔画像及び音声の双方を含む動画データの入力を受け付け、顔画像及び音声の双方から識別を行うようにしてもよい。

学習装置１は、上記と同様に事前のサンプリングを行い、クロップ済みの顔画像、あるいはスペクトログラム画像に変換した発声データを各サブネットワークに入力する。学習装置１は、顔画像が画像ネットワークに入力された場合、顔画像の特徴量を抽出し、ラベル付けされた感情の情報に従い識別結果を出力する。同様に学習装置１は、発声データが音声ネットワークに入力された場合、発声データの特徴量を抽出し、ラベル付けされた感情の情報に従い識別結果を出力する。

上述のように、教師なし学習で構築した識別モデルを流用し、感情識別用の識別モデルを構築する。教師なし学習で顔画像又は発声データの特徴量を抽出するサブネットワークを構築済みであるため、識別モデルの構築に必要な教師データを最小限に止めることができ、学習コストを大幅に低減させることができる。

図５は、学習処理の処理手順の一例を示すフローチャートである。図５に基づき、顔画像及び発声データの対応関係を元に学習済みモデルを構築する学習処理の処理内容について説明する。
学習装置１の制御部１１は、学習対象とする複数の動画を取得する（ステップＳ１１）。ステップＳ１１で取得する動画データは、被写体である人物を撮像した動画に加え、該動画を撮像時に集音された発話音声を含む。制御部１１は、ステップＳ１１で取得した各動画から、人物の顔画像と、当該顔画像に対応する人物の発話音声とをサンプリングして、ニューラルネットワークに入力する複数のデータセットを生成する処理を実行する（ステップＳ１２）。

制御部１１は、ステップＳ１２で生成されたデータセットの顔画像及び発声データを、顔画像の特徴量を抽出する画像ネットワーク（第１の抽出器）と、発声データの特徴量を抽出する音声ネットワーク（第２の抽出器）とにそれぞれ入力する（ステップＳ１３）。制御部１１は各サブネットワークから、顔画像の特徴量と、発声データの特徴量とを取得する（ステップＳ１４）。

制御部１１は、顔画像及び発声データそれぞれの特徴量を、顔画像及び発声データの対応度を出力する出力ネットワークに入力する（ステップＳ１５）。制御部１１は出力ネットワークから、顔画像及び発声データの対応度を取得（算出）する（ステップＳ１６）。制御部１１は、出力ネットワークから取得した対応度と、データセットにおける顔画像及び発声データの対応関係とに基づき、画像ネットワーク、音声ネットワーク、及び出力ネットワークを用いて顔画像及び発声データを識別する識別モデル（識別器）を生成する（ステップＳ１７）。すなわち制御部１１は、データセットにおいて顔画像及び発声データが対応していたか否かを正解値として、出力ネットワークからの出力値が正解値に近づくように各サブネットワークの重み等のパラメータを調整する。制御部１１は、ステップＳ１２で各動画から生成した全てのデータセットについて上述のステップＳ１３〜１７の処理を行い、３つのサブネットワークから成るニューラルネットワークを構築する。

全てのデータセットについてステップＳ１７の学習処理を完了後、制御部１１は、顔画像又は発声データに感情を表す情報がラベル付けされた教師データを取得する（ステップＳ１８）。教師データは、顔画像のみであってもよく、発声データのみであってもよく、顔画像及び発声データの双方を含むデータ（例えば動画）であってもよい。制御部１１は、取得した教師データに基づいてステップＳ１７で生成済みの識別モデルのファインチューニングを行い、顔画像又は発声データから感情を識別する識別モデル（第２の識別器）を生成する（ステップＳ１９）。具体的には上述の如く、制御部１１は、ステップＳ１７で生成された識別モデルを構成するサブネットワークであって、顔画像の特徴量を抽出する画像ネットワーク、又は発声データの特徴量を抽出する音声ネットワークを有する識別モデルを、教師データに含まれるラベル値に基づく教師あり学習により生成する。制御部１１は、一連の処理を終了する。

図６は、サンプリングのサブルーチンの処理手順を示すフローチャートである。図６に基づき、ステップＳ１２のサブルーチンの処理内容について説明する。
学習装置１の制御部１１は、学習対象として取得した複数の動画から一の動画を選択する（ステップＳ３１）。制御部１１は当該動画から、被写体である人物の顔器官、具体的には口の動きを検出する（ステップＳ３２）。制御部１１は、検出した口の動きに基づいて発話時を特定し、当該発話時の顔画像（静止画）を抽出する（ステップＳ３３）。例えば制御部１１は、動画内で口が動いている時間のうち、ランダムな時点の画像フレームを抽出する。制御部１１は、顔画像に含まれる人物の顔領域の大きさと、画像フレームとの比率が均一になるように顔画像をクロップ（補正）する（ステップＳ３４）。

制御部１１は、ステップＳ３３で顔画像を抽出した時点（発話時）に対応する発話音声のデータを動画から抽出する（ステップＳ３５）。例えば制御部１１は、顔画像を抽出した時点の前後０．１秒間の発話音声を抽出する。制御部１１は、抽出した発話音声に対するフーリエ変換を行い、スペクトログラム画像を生成する（ステップＳ３６）。制御部１１は、ステップＳ３４でクロップした顔画像と、ステップＳ３６で生成したスペクトログラム画像（発声データ）とを対応付けたデータセットを生成する（ステップＳ３７）。

制御部１１は、全ての動画についてデータセットの生成を完了したか否かを判定する（ステップＳ３８）。全ての動画について完了していないと判定した場合（Ｓ３８：ＮＯ）、制御部１１は処理をステップＳ３１に戻す。全ての動画について完了したと判定した場合（Ｓ３８：ＹＥＳ）、制御部１１はサブルーチンをリターンする。

図７は、感情識別処理の処理手順の一例を示すフローチャートである。図７に基づき、入力画像又は音声から感情を識別する処理の処理内容について説明する。
学習装置１の制御部１１は、感情の識別対象である顔画像又は発話音声を取得する（ステップＳ４１）。ステップＳ４１で取得するデータは顔画像のみ、又は音声のみであってもよい。あるいは、ステップＳ４１で取得するデータは学習時と同様に、画像及び音声を含む動画データであってもよい。

制御部１１は、生成済みの識別モデルを用いて、取得した顔画像又は発話音声に対応する感情を識別する（ステップＳ４２）。具体的には上述の如く、制御部１１は、必要なサンプリング処理を顔画像又は発話音声に施した後、顔画像は画像ネットワークに、発声データは音声ネットワークに入力して特徴量を抽出し、出力ネットワークに入力して感情の識別結果を取得する。制御部１１は識別結果を外部に出力し（ステップＳ４３）、一連の処理を終了する。

なお、上記では特段説明しなかったが、一の動画から複数の時点の顔画像及び発話音声を抽出し、複数のデータセットを生成してもよいことは勿論である。

また、上記で学習装置１は、被写体人物の口の動きに基づいて動画から発話時点を特定したが、本実施の形態はこれに限定されるものではない。例えば学習装置１は、発話音声の音量に基づいて発話開始時点を特定するようにしてもよい。すなわち学習装置１は、動画内の音声から発話時点を特定してもよい。

また、上記では一の学習装置１が機械学習から感情識別に至る一連の処理を行うものとして説明したが、本実施の形態はこれに限定するものではなく、感情識別のための識別モデル（第２の識別器）の構築と、当該識別モデルを用いた感情識別とは別装置で実現されてもよい。具体的には、上述の如く学習装置１が、複数のデータセットそれぞれの顔画像及び発声データと、データセットにおける当該顔画像及び発声データの対応関係とから教師なし学習で識別モデルを生成し、当該識別モデルの一部（画像ネットワーク又は音声ネットワーク）を用いて、感情ラベルを含む教師データから感情識別用の識別モデルを生成する。そして学習装置１は、生成した識別モデルに係るデータを、例えば図１で図示した端末２に出力（インストール）する。端末２は識別モデルに係るデータを記憶しておき、推定対象である顔画像又は発声データを外部から取得して、識別モデルを用いた感情識別を行う。このように、感情識別のための学習を行う学習装置と、感情識別を行う識別装置とは別装置としてもよい。

また、上記では教師なし学習によって構築した識別モデル（識別器）に対し、別途教師データを用いてファインチューニングを行うことで感情識別用の識別モデル（第２の識別器）を生成し、チューニング後の識別モデルによって感情の識別を行ったが、本実施の形態はこれに限定されるものではない。教師なし学習のみで構築した識別モデルであっても顔画像又は発話データを分類することは可能であるため、学習装置１は当該識別モデルのみを用いて識別を行ってもよい。つまり学習装置１は、データセットでの対応関係のみから教師なし学習で生成した識別モデル（識別器）、あるいは当該識別モデルに教師データを適用して生成した識別モデル（第２の識別器）を用いて顔画像又は発話データを分類可能であればよく、感情の識別まで行うことは必須ではない。

以上より、本実施の形態１によれば、データセットにおける顔画像及び発声データの対応関係を正解値として識別モデル（学習済みモデル）を構築可能であるため、教師なしで学習を行うことができ、識別モデルの作成コストを低減することができる。

また、本実施の形態１によれば、教師なし学習で識別モデルを構築した後、別途教師データを用いて識別モデルのファインチューニングを行い、感情識別用の識別モデルを構築する。識別モデルの一部として用いられる画像ネットワーク又は音声ネットワークは、教師なし学習によって構築済みであるため、最小限の教師データによって識別モデルを構築することができる。

また、本実施の形態１によれば、動画から学習用の顔画像及び発声データをサンプリングすることで、顔画像及び発声データの対応関係を自動で識別することができ、一連の学習処理を自動的に行うことができる。

また、本実施の形態１によれば、例えば口のような人間の特定の器官の動きに基づき顔画像及び発話音声を抽出することで、感情識別のための適切なサンプリングを行うことができる。

また、本実施の形態１によれば、発話音声をスペクトログラム画像に変換することで、顔の表情だけでなく音声も画像として処理することができ、同様の畳み込みニューラルネットワークで各入力データを処理することができる。

また、本実施の形態１によれば、顔領域のサイズを画像フレームのサイズと均一になるように補正（クロップ）しておくことで、各動画から抽出した顔画像を均等に扱い、適切な学習を行うことができる。

（実施の形態２）
本実施の形態では、動画からサンプリングした音声を音量に応じて学習対象から除外する形態について述べる。なお、実施の形態１と重複する内容については同一の符号を付して説明を省略する。
実施の形態１で、顔画像のフレームに対応する時点の音声を動画からサンプリングし、当該音声を用いて学習を行う旨を述べた。しかし、例えば口は動いているが声を発していない場合、すなわち無音の場合などは、学習対象としては不適である。そこで本実施の形態では、このように音量の小さい音声は学習用から除外する。

図８は、実施の形態２に係るサンプリングのサブルーチンの処理手順を示すフローチャートである。図８に基づき、本実施の形態におけるステップＳ１２のサブルーチンの処理内容について説明する。

顔画像の抽出した時点（発話時）に対応する発話音声を抽出した後（ステップＳ３５）、学習装置１の制御部１１は、抽出した発話音声の音量が閾値未満であるか否かを判定する（ステップＳ２０１）。閾値未満であると判定した場合（Ｓ２０１：ＹＥＳ）、制御部１１は当該音声と顔画像とを入力データとしてセットせず、処理をステップＳ３１に戻す。閾値未満でないと判定した場合（Ｓ２０１：ＮＯ）、制御部１１は処理をステップＳ３６に移行し、スペクトログラム画像を生成して入力データとしてセットする。

なお、上記では音量が閾値未満である場合、すなわち音量が小さい場合に学習対象から除外する旨を説明したが、本実施の形態はこれに限定されるものではない。例えば学習装置１は、雑音が多いために音量が大きくなっている場合、すなわち音量が閾値以上である場合に、動画から抽出した音声を学習対象から除外するようにしてもよい。すなわち学習装置１は、音量に応じて発話音声のサンプリングを行うことができればよく、学習対象から除外するケースは音量が小さい場合に限定されない。

以上より、本実施の形態２によれば、学習に不適な入力データを学習対象から除外することができ、学習の精度を高めることができる。

（実施の形態３）
本実施の形態では、発話音声を画像ではなく、テキストに変換して学習を行う形態について述べる。
詳細な図示は省略するが、例えば学習装置１は、音声ネットワークとして画像解析用のニューラルネットワークではなく、テキスト解析用のニューラルネットワークを用意しておく。当該ニューラルネットワークは、例えば回帰型ニューラルネットワーク（Recurrent Neural Network；ＲＮＮ）、ＬＳＴＭ（Long Short Term Memory）等であるが、これらに限定されない。学習装置１は、テキストの特徴量を抽出するこれらのネットワークを音声ネットワークとして用意し、顔画像との対応関係を学習する。

学習装置１は、実施の形態１と同じく動画から発話音声をサンプリングする。本実施の形態で学習装置１は、サンプリングした発話音声に対する音声認識を行い、発話音声をテキストに変換する。学習装置１は、変換したテキストと、同じ動画からサンプリングされた顔画像とを対応付けてデータセットとする。

学習装置１は、発話音声に対応するテキストを上述の音声ネットワークに入力し、テキストの特徴量を抽出して、出力ネットワークに入力する。後は実施の形態１と同じく、学習装置１は顔画像及び発話テキストの対応関係から各サブネットワークのパラメータを調整し、識別モデルを構築する。そして学習装置１は、音声ネットワークからの出力値に対するラベル付けの入力を受け付け、テキストベースでの感情識別を可能とする。

感情識別処理を実行する場合、学習装置１は入力音声をテキストに変換し、音声ネットワークに入力する。そして学習装置１は、音声ネットワークから当該入力音声が示す感情を識別した識別結果を取得し、出力する。このように、学習装置１は画像ベース、あるいは音声ベースだけではなく、テキストベースでの感情の識別も行うことができる。

図９は、実施の形態３に係る学習処理の処理手順の一例を示すフローチャートである。図９に基づき、本実施の形態における学習処理の処理内容について説明する。
学習用の複数の動画データを取得した後（ステップＳ１１）、学習装置１の制御部１１は、動画データから顔画像及び発声データをサンプリングする処理を実行する（ステップＳ３０１）。具体的には、制御部１１は動画内から顔画像のフレームを抽出すると共に、顔画像の抽出時点に対応する発話音声を抽出し、当該音声をテキストに変換する処理を行う。制御部１１は、顔画像を画像ネットワークに入力すると共に、発話音声を変換したテキストを音声ネットワークに入力する（ステップＳ３０２）。制御部１１は、各サブネットワークから出力される顔画像の特徴量、及び発話音声に係るテキストの特徴量を取得する（ステップＳ３０３）。

制御部１１は、取得した顔画像及びテキストそれぞれの特徴量を出力ネットワークに入力する（ステップＳ３０４）。制御部１１は出力ネットワークから、顔画像及びテキストの対応度を取得する（ステップＳ３０５）。制御部１１は、取得した対応度を、入力データにおける顔画像及び発話音声の対応関係と比較して各サブネットワークのパラメータを調整し、識別モデルを生成する（ステップＳ３０６）。各動画データについてデータセットの学習を完了後、制御部１１は処理をステップＳ１８に移行する。

図１０は、実施の形態３に係るサンプリングのサブルーチンの処理手順を示すフローチャートである。図１０に基づき、本実施の形態におけるステップＳ３０１のサブルーチンの処理内容について説明する。
顔画像を抽出した時点（発話時）に対応する発話音声を抽出した後（ステップＳ３５）、学習装置１の制御部１１は、抽出した発話音声に対する音声認識を行い、当該音声をテキストに変換する（ステップＳ３２１）。制御部１１は、変換したテキストを顔画像と対応付けてデータセットを生成し（ステップＳ３２２）、処理をステップＳ３８に移行する。

以上より、本実施の形態３によれば、発話音声を画像ではなく、テキストに変換して識別モデルを構築することもできる。

（実施の形態４）
図１１は、上述した形態の学習装置１の動作を示す機能ブロック図である。制御部１１がプログラムＰを実行することにより、学習装置１は以下のように動作する。取得部１１１は、人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する。第１抽出部１１２は、前記複数のデータセット夫々の前記顔画像を第１の抽出器に入力し、前記顔画像の特徴量を抽出する。第２抽出部１１３は、前記複数のデータセット夫々の前記発声データを第２の抽出器に入力し、前記発声データの特徴量を抽出する。生成部１１４は、前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第１及び第２の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する。

本実施の形態４は以上の如きであり、その他は実施の形態１から３と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１学習装置
１１制御部
１２主記憶部
１３通信部
１４補助記憶部
Ｐプログラム
１４１識別器
２端末

Claims

人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する取得部と、
前記複数のデータセット夫々の前記顔画像を第１の抽出器に入力し、前記顔画像の特徴量を抽出する第１抽出部と、
前記複数のデータセット夫々の前記発声データを第２の抽出器に入力し、前記発声データの特徴量を抽出する第２抽出部と、
前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第１及び第２の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する生成部と
を備えることを特徴とする学習装置。
前記生成部による識別器の生成後、顔画像又は発声データに人物の感情を表す情報がラベル付けされた教師データを取得する教師データ取得部と、
前記教師データに基づき、前記第１又は第２の抽出器を用いて前記人物の感情を推定する第２の識別器を生成する第２生成部と
を備えることを特徴とする請求項１に記載の学習装置。
前記取得部は、前記人物の発話音声を含む複数の動画を取得し、
前記動画夫々から、前記人物の発話時の前記顔画像と、該発話時に対応する前記発話音声とを抽出して前記データセットを生成するデータ生成部を備える
ことを特徴とする請求項１又は２に記載の学習装置。
前記データ生成部は、前記人物の顔器官の動きを前記動画から検出することで、前記発話時を特定する
ことを特徴とする請求項３に記載の学習装置。
前記データ生成部は、前記複数の動画夫々から抽出した前記顔画像を、画像フレームに対する前記人物の顔領域のサイズが均一になるように補正する
ことを特徴とする請求項３又は４に記載の学習装置。
前記データ生成部は、前記動画から抽出した前記発話音声からスペクトログラム画像を生成し、
前記第２抽出部は、前記スペクトログラム画像を前記第２の抽出器に入力し、前記スペクトログラム画像の特徴量を抽出する
ことを特徴とする請求項３〜５のいずれか１項に記載の学習装置。
前記データ生成部は、前記発話時における前記発話音声の音量に応じて、該発話時の前記顔画像及び発話音声を抽出する
ことを特徴とする請求項３〜６のいずれか１項に記載の学習装置。
前記データ生成部は、前記動画から抽出した前記発話音声をテキストに変換し、
前記第２抽出部は、前記テキストを前記第２の抽出器に入力し、前記テキストの特徴量を抽出する
ことを特徴とする請求項３〜７のいずれか１項に記載の学習装置。
人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得し、
前記複数のデータセット夫々の前記顔画像を第１の抽出器に入力し、前記顔画像の特徴量を抽出し、
前記複数のデータセット夫々の前記発声データを第２の抽出器に入力し、前記発声データの特徴量を抽出し、
前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第１及び第２の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する
処理をコンピュータに実行させることを特徴とする学習方法。
人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得し、
前記複数のデータセット夫々の前記顔画像を第１の抽出器に入力し、前記顔画像の特徴量を抽出し、
前記複数のデータセット夫々の前記発声データを第２の抽出器に入力し、前記発声データの特徴量を抽出し、
前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第１及び第２の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する
処理をコンピュータに実行させることを特徴とするプログラム。
人物の顔を撮像した動画であって、該人物の発話音声を含む動画を取得し、
取得した前記動画から、前記人物の顔器官の動きを検出することで発話時を特定し、
該発話時の顔画像と、前記発話時に対応する前記発話音声とを前記動画から抽出し、
抽出した前記発話音声からスペクトログラム画像を生成し、
前記顔画像及びスペクトログラム画像を対応付けたデータセットを生成する
処理をコンピュータに実行させることを特徴とするデータ生成方法。
請求項１〜８のいずれか１項に記載の学習装置を用いて生成された識別器と、識別対象である顔画像又は発声データとを取得する識別対象取得部と、
前記識別器を用いて、前記顔画像又は発声データに対応する分類に識別する識別部と
を備えることを特徴とする識別装置。