JP2019200671A - 学習装置、学習方法、プログラム、データ生成方法及び識別装置 - Google Patents

学習装置、学習方法、プログラム、データ生成方法及び識別装置 Download PDF

Info

Publication number
JP2019200671A
JP2019200671A JP2018095725A JP2018095725A JP2019200671A JP 2019200671 A JP2019200671 A JP 2019200671A JP 2018095725 A JP2018095725 A JP 2018095725A JP 2018095725 A JP2018095725 A JP 2018095725A JP 2019200671 A JP2019200671 A JP 2019200671A
Authority
JP
Japan
Prior art keywords
data
face image
utterance
image
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018095725A
Other languages
English (en)
Inventor
荘介 下山
Sosuke Shimoyama
荘介 下山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2018095725A priority Critical patent/JP2019200671A/ja
Publication of JP2019200671A publication Critical patent/JP2019200671A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】顔画像及び発声データを識別する識別モデルを教師なし学習で構築することができる学習装置等を提供する。【解決手段】学習装置1は、人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する取得部と、前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出する第1抽出部と、前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出する第2抽出部と、前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する生成部とを備えることを特徴とする。【選択図】図1

Description

本発明は、学習装置、学習方法、プログラム、データ生成方法及び識別装置に関する。
機械学習の手法を用いて、人間を撮像した画像、発話音声等から必要な特徴を学習した学習済みモデルを構築する技術がある。例えば特許文献1では、感情を表す情報がラベル付けされた顔画像を畳み込みニューラルネットワーク(CNN;Convolution Neural Network)に入力して機械学習を行い、構築した学習済みモデルを用いてユーザの顔画像から感情を推定し、ユーザの発話内容の意味解析に利用する発話意味分析プログラム等が開示されている。
特開2017−156854号公報
しかしながら、特許文献1に係る発明では教師あり学習によって学習済みモデルを構築しており、人手でラベル付けされた学習用のデータが必要になる。
一つの側面では、顔画像及び発声データを識別する学習済みモデルを低コストで構築することができる学習装置等を提供することを目的とする。
一つの側面では、学習装置は、人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する取得部と、前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出する第1抽出部と、前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出する第2抽出部と、前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する生成部とを備えることを特徴とする。
一つの側面では、顔画像及び発声データを識別する学習済みモデルを低コストで構築することができる。
学習装置の構成例を示すブロック図である。 サンプリング処理を説明するための説明図である。 学習処理を説明するための説明図である。 感情識別処理について説明するための説明図である。 学習処理の処理手順の一例を示すフローチャートである。 サンプリングのサブルーチンの処理手順を示すフローチャートである。 感情識別処理の処理手順の一例を示すフローチャートである。 実施の形態2に係るサンプリングのサブルーチンの処理手順を示すフローチャートである。 実施の形態3に係る学習処理の処理手順の一例を示すフローチャートである。 実施の形態3に係るサンプリングのサブルーチンの処理手順を示すフローチャートである。 上述した形態の学習装置の動作を示す機能ブロック図である。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、学習装置1の構成例を示すブロック図である。本実施の形態では、画像及び音声の双方からマルチモーダルに感情を推定可能とすべく、人物の顔画像と、顔画像を撮像時に人物が発話した発声データとの対応関係を学習する機械学習を行う学習装置1について説明する。学習装置1は、種々の情報処理が可能な学習装置であり、例えばサーバコンピュータ、パーソナルコンピュータ等の装置である。
学習装置1は、制御部11、主記憶部12、通信部13、及び補助記憶部14を備える。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、学習装置1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、外部と通信を行うための通信インターフェイス等を備え、端末2との間で種々の情報の送受信を行う。端末2は、例えばパーソナルコンピュータ、多機能端末等の端末装置であり、ユーザによる操作入力を受け付け、情報の入出力を行う。
補助記憶部14は大容量メモリ、ハードディスク等であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。また、補助記憶部14は、機械学習処理によって生成される識別器141(識別モデル)のデータを記憶する。
なお、補助記憶部14は学習装置1に接続された外部記憶装置であってもよい。また、学習装置1は複数のコンピュータからなるマルチコンピュータであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
図2は、サンプリング処理を説明するための説明図である。以下で学習装置1が行う学習処理の概要について説明するが、学習装置1は機械学習を行うための前処理として、入力データを学習用にサンプリングする処理を行う。ここでは図2を用いて、サンプリング処理の概要について説明する。
学習装置1は、例えば端末2を介して学習用の入力データを取得する。当該データは、発話音声を含む被写体人物の撮像動画データである。動画データは、被写体である人物を撮像した画像(動画像)と、当該人物を撮像時に集音された発話音声とを含む。動画は、少なくとも人物の顔部分を撮像範囲に含む画像である。学習装置1は、複数の動画データを取得し、後述する機械学習のために必要なデータを各動画データからサンプリングする。
まず学習装置1は、取得した動画に対する画像認識を行い、被写体人物の顔における特定の器官の動きを検出する。例えば学習装置1は、口の動きを検知する。これにより学習装置1は、被写体人物が発話しているものと推定される発話時点を特定する。例えば学習装置1は、人物の口が動いている時間のうち、ランダムなタイミングを発話時点として特定し、顔画像のフレーム(静止画)を抽出する。すなわち学習装置1は、発話時の顔画像をサンプリングする。
学習装置1は、抽出した顔画像において顔領域のサイズと画像フレームのサイズとの比率が均一になるようにクロップ(補正)しておく。これにより学習装置1は、後述する学習処理で各動画からサンプリングした顔画像を均等に扱えるように前処理しておく。
次に学習装置1は、発話時の顔画像に対応する発話音声を動画データからサンプリングする。具体的には、学習装置1は、動画内の音声データから、顔画像を抽出した時点に対応する一定時間の音声を抽出する。例えば学習装置1は、顔画像を抽出した時点の前後0.1秒間の音声を抽出する。
本実施の形態で学習装置1は、後述するように発話音声を画像として処理可能なように、動画から抽出した音声をスペクトログラム画像に変換する。例えば学習装置1は、抽出した音声に対する短時間フーリエ変換を行い、ログスペクトログラムを計算する。図2において顔画像の下に、発話音声の変換処理を概念的に図示してある。白抜き矢印の上側に示す図は変換前の音声データであり、横軸が時間を、縦軸が振幅を表す。白抜き矢印の下側に示す図は変換後のログスペクトログラムであり、横軸が時間を、縦軸が周波数を表す。なお、実際にはログスペクトログラムは縦軸の位置に応じた各周波数成分の音声の強度を輝度や色で表すが、図2では図示の便宜上、各周波数成分の強度を表さずに単なる黒線を図示してある。
上述の変換処理により、顔画像に対応する発話音声が画像化される。学習装置1は、口の動きに応じて動画から抽出した顔画像と、発話時の音声を画像化したスペクトログラム画像とを対応付けて、一の入力データのセットとして保持する。学習装置1は上述のサンプリング処理を各動画に対して行い、顔画像及びスペクトログラム画像をペアにした学習用のデータセットを生成する。学習装置1は、当該データセットを用いて学習処理を行う。
図3は、学習処理を説明するための説明図である。図3では、学習装置1が機械学習によって構築する識別モデル(識別器141)の概要を図示してある。図3に基づき、学習装置1が行う学習処理について説明する。
本実施の形態で学習装置1は、識別モデルとして畳み込みニューラルネットワークを構築する。具体的には、識別モデルは、顔画像の特徴量を抽出する画像ネットワーク(第1の抽出器)と、発話音声に対応するスペクトログラム画像の特徴量を抽出する音声ネットワーク(第2の抽出器)と、画像ネットワーク及び音声ネットワークそれぞれからの出力値(特徴量)の対応度を算出して出力する出力ネットワーク(識別器)とを有するニューラルネットワークである。以下の説明では便宜上、本実施の形態に係るニューラルネットワークを構成する3つのネットワーク部分を「サブネットワーク」とも呼ぶ。
画像ネットワークは、顔画像の各画素の画素値に対して畳み込み及びプーリング演算を行って特徴量を抽出するサブネットワークであり、2つの畳み込み層(Convolution Layer、図3では「conv」と図示)と、1つのプーリング層(Pooling Layer、図3では「pool」)とから成る層群が4つ連なって成る。学習装置1は、サンプリングした顔画像を1群目の畳み込み層に入力して各層での計算を行い、4群目のプーリング層から、顔画像の特徴量に係る出力値を得る。
なお、上記のサブネットワークの構造は一例であり、サブネットワーク内の層数や各層の順序は特に限定されない。他のサブネットワークも同様である。
音声ネットワークは、画像ネットワークと同様の構成を有するサブネットワークである。本実施の形態では、同様の2つのサブネットワークが併存し、各々が顔画像及びスペクトログラム画像を処理する。音声ネットワークの構造は画像ネットワークと同じく、2つの畳み込み層と1つのプーリング層とから成る層群が4つ連なって成る。学習装置1は、発話音声に相当するスペクトログラム画像を音声ネットワークに入力し、4群目のプーリング層からスペクトログラム画像の特徴量に係る出力値を得る。
出力ネットワークは、画像ネットワーク及び音声ネットワークそれぞれの出力値を入力とし、顔画像及びスペクトログラム画像(発話音声)が対応するか否かを1又は0の二値で出力するネットワーク層である。出力ネットワークは、各サブネットワークからの出力値を一の入力値として連結する1つの連結層(Concatenation Layer、図2では「concat」)と、多変数で表される入力値(特徴量)の各変数を結合する2つの全結合層(Fully-Connected Layer、図2では「fc1」及び「fc2」)と、活性化関数(本実施の形態ではソフトマックス関数)を用いて最終的な出力値を演算する出力層(Softmax Layer、図2では「softmax」)とから成る。学習装置1は、画像ネットワーク及び音声ネットワークそれぞれの出力値を出力ネットワークの連結層に入力し、顔画像とスペクトログラム画像とが対応するか否か、2クラス分類した結果を出力層から1又は0の値で出力する。
なお、上記では顔画像及びスペクトログラム画像が対応するか否か、2クラス分類した結果が1又は0の二値で出力されるものとしたが、本実施の形態はこれに限定されるものではない。例えば学習装置1は、各画像が対応するか否かを0から1までの確率値で出力してもよい。すなわち学習装置1は、顔画像及びスペクトログラム画像を入力として各画像の対応度を学習した識別器を生成可能であればよく、その値は二値に限定されない。
学習装置1は、出力ネットワークから出力された出力値を、データセットにおける顔画像及びスペクトログラム画像の対応関係と比較して、各サブネットワークの重み等のパラメータを調整する機械学習を行う。すなわち学習装置1は、図3左に示す各画像がデータセットにおいて対応付けられていたか否か、ペアであったか否かを正解値とした機械学習を行う。学習装置1は、各画像がペアであった場合、出力ネットワークからの出力値が1となるように画像ネットワーク、音声ネットワーク、及び出力ネットワークの各層のパラメータを調整する。各画像がペアでなかった場合、学習装置1は、出力ネットワークからの出力値が0となるように各サブネットワークのパラメータを調整する。
なお、上記では3つのサブネットワーク全てのパラメータを調整しているが、本実施の形態はこれに限定されず、例えば画像ネットワーク及び音声ネットワークのみパラメータを調整する、というように、一部のサブネットワークのみについて学習を行うようにしてもよい。
上述の如く、学習装置1は、顔画像及びスペクトログラム画像がペアであったか否か、すなわち同じ動画から抽出された顔画像及び発話音声であったか否かに応じて正解値を定め、顔の表情と、その時の発話音声との対応関係を学習する。元の動画が同じか否かで学習時の正解値を定めることができるため、教師なしであっても学習を行い、識別モデルを構築することができる。
人間のある感情が表情及び声に表れる場合、同じようなパターンの表情で、同じようなパターンの声を出すと考えられる。例えば笑う場合は、同じような笑顔で同じような笑い声を出す。上記の処理によって学習装置1は、その表情及び声の対応関係を学習する。すなわち、子供のように「見て、聞いて」覚えていくことになる。当該学習により、学習装置1は、人間の表情の特徴を捉える画像ネットワークと、人間の声の特徴を捉える音声ネットワークとを同時に構築することができる。
図4は、感情識別処理について説明するための説明図である。本実施の形態で学習装置1は、上記で生成した識別モデルを感情識別タスクに応用し、顔画像又は発話音声から人間の感情を識別(推定)する処理を行う。
具体的には、学習装置1は、顔画像又は発声データに被写体人物の感情を表す情報がラベル付けされた教師データを別途用いてファインチューニングを行い、上記で生成済みの画像ネットワーク、又は音声ネットワークを利用して感情識別を行う識別モデル(第2の識別器)を生成する。図4に、ファインチューニングによって感情識別用の識別モデルが生成される様子を太線部分に概念的に図示する。学習装置1は、上述の識別モデルの一部である画像ネットワーク又は音声ネットワークをそれぞれ、上述の出力ネットワークとは異なる、感情識別用の出力ネットワーク(図4では「output」と図示)に結合する。この出力ネットワークは、図4の右側中央に示す教師なし学習時の出力ネットワークと同じ構成であってもよく、異なる構成であってもよい。学習装置1は、感情のラベル値が付された教師データの入力を受け付け、人間の感情を識別モデルに学習させる。
例えば図4上側に示す、画像ネットワークを用いた識別モデルであれば、学習装置1は、教師データである顔画像を画像ネットワークに入力し、顔画像の特徴量を抽出して出力ネットワークに入力する。学習装置1は、出力ネットワークからの出力値を感情のラベル値(正解値)と比較し、画像ネットワーク及び出力ネットワークのパラメータを調整する。これにより学習装置1は、顔画像から被写体人物の感情を識別する識別モデルを構築する。
音声の場合も同様に、学習装置1は音声ネットワークに発声データを入力し、発声データの特徴量を抽出して出力ネットワークに入力する。学習装置1は、出力ネットワークから出力される出力値をラベル値と比較し、発声データから感情を識別する識別モデルを構築する。
また、学習装置1は、画像又は音声のいずれかのみから感情を識別するモデルだけでなく、画像及び音声の双方から感情を識別するマルチモーダルな識別モデルも構築可能である。例えば学習装置1は、感情のラベル値が付された動画データを教師データとして取得し、顔画像及び発声データをサンプリングして画像ネットワーク及び音声ネットワークに入力する。そして学習装置1は、各サブネットワークで抽出した顔画像及び発声データそれぞれの特徴量を出力ネットワークに入力して連結し、教師データに含まれるラベル値を用いて機械学習を行う。この場合の出力ネットワークは、教師なし学習時の出力ネットワークとは異なるサブネットワークとしてもよいが、同じサブネットワークとしてもよい。例えば学習装置1は、図4の右側中央に示す出力ネットワークにおいて、顔画像及び発声データの対応度を算出する最終層(図中の「softmax」)を、感情の推定値を算出する出力層とすればよい。
上述のように、学習装置1は教師なし学習で生成した識別モデルの画像ネットワーク又は音声ネットワークを流用して、感情識別用の識別モデルを構築する。画像ネットワーク又は音声ネットワークは教師なし学習によって構築済みであるため、学習装置1は最小限の教師データによって識別モデルを構築することができる。
感情の識別を行う場合、学習装置1は、識別対象である顔画像、又は発話音声の入力を受け付け、画像ネットワーク又は音声ネットワークに入力し、感情識別用の出力ネットワークから感情の推定値を取得する。上述の如く、学習装置1は、顔画像(静止画)のみ、あるいは音声のみの入力を受け付け、いずれかについて識別を行うようにしてもよい。または、学習装置1は顔画像及び音声の双方を含む動画データの入力を受け付け、顔画像及び音声の双方から識別を行うようにしてもよい。
学習装置1は、上記と同様に事前のサンプリングを行い、クロップ済みの顔画像、あるいはスペクトログラム画像に変換した発声データを各サブネットワークに入力する。学習装置1は、顔画像が画像ネットワークに入力された場合、顔画像の特徴量を抽出し、ラベル付けされた感情の情報に従い識別結果を出力する。同様に学習装置1は、発声データが音声ネットワークに入力された場合、発声データの特徴量を抽出し、ラベル付けされた感情の情報に従い識別結果を出力する。
上述のように、教師なし学習で構築した識別モデルを流用し、感情識別用の識別モデルを構築する。教師なし学習で顔画像又は発声データの特徴量を抽出するサブネットワークを構築済みであるため、識別モデルの構築に必要な教師データを最小限に止めることができ、学習コストを大幅に低減させることができる。
図5は、学習処理の処理手順の一例を示すフローチャートである。図5に基づき、顔画像及び発声データの対応関係を元に学習済みモデルを構築する学習処理の処理内容について説明する。
学習装置1の制御部11は、学習対象とする複数の動画を取得する(ステップS11)。ステップS11で取得する動画データは、被写体である人物を撮像した動画に加え、該動画を撮像時に集音された発話音声を含む。制御部11は、ステップS11で取得した各動画から、人物の顔画像と、当該顔画像に対応する人物の発話音声とをサンプリングして、ニューラルネットワークに入力する複数のデータセットを生成する処理を実行する(ステップS12)。
制御部11は、ステップS12で生成されたデータセットの顔画像及び発声データを、顔画像の特徴量を抽出する画像ネットワーク(第1の抽出器)と、発声データの特徴量を抽出する音声ネットワーク(第2の抽出器)とにそれぞれ入力する(ステップS13)。制御部11は各サブネットワークから、顔画像の特徴量と、発声データの特徴量とを取得する(ステップS14)。
制御部11は、顔画像及び発声データそれぞれの特徴量を、顔画像及び発声データの対応度を出力する出力ネットワークに入力する(ステップS15)。制御部11は出力ネットワークから、顔画像及び発声データの対応度を取得(算出)する(ステップS16)。制御部11は、出力ネットワークから取得した対応度と、データセットにおける顔画像及び発声データの対応関係とに基づき、画像ネットワーク、音声ネットワーク、及び出力ネットワークを用いて顔画像及び発声データを識別する識別モデル(識別器)を生成する(ステップS17)。すなわち制御部11は、データセットにおいて顔画像及び発声データが対応していたか否かを正解値として、出力ネットワークからの出力値が正解値に近づくように各サブネットワークの重み等のパラメータを調整する。制御部11は、ステップS12で各動画から生成した全てのデータセットについて上述のステップS13〜17の処理を行い、3つのサブネットワークから成るニューラルネットワークを構築する。
全てのデータセットについてステップS17の学習処理を完了後、制御部11は、顔画像又は発声データに感情を表す情報がラベル付けされた教師データを取得する(ステップS18)。教師データは、顔画像のみであってもよく、発声データのみであってもよく、顔画像及び発声データの双方を含むデータ(例えば動画)であってもよい。制御部11は、取得した教師データに基づいてステップS17で生成済みの識別モデルのファインチューニングを行い、顔画像又は発声データから感情を識別する識別モデル(第2の識別器)を生成する(ステップS19)。具体的には上述の如く、制御部11は、ステップS17で生成された識別モデルを構成するサブネットワークであって、顔画像の特徴量を抽出する画像ネットワーク、又は発声データの特徴量を抽出する音声ネットワークを有する識別モデルを、教師データに含まれるラベル値に基づく教師あり学習により生成する。制御部11は、一連の処理を終了する。
図6は、サンプリングのサブルーチンの処理手順を示すフローチャートである。図6に基づき、ステップS12のサブルーチンの処理内容について説明する。
学習装置1の制御部11は、学習対象として取得した複数の動画から一の動画を選択する(ステップS31)。制御部11は当該動画から、被写体である人物の顔器官、具体的には口の動きを検出する(ステップS32)。制御部11は、検出した口の動きに基づいて発話時を特定し、当該発話時の顔画像(静止画)を抽出する(ステップS33)。例えば制御部11は、動画内で口が動いている時間のうち、ランダムな時点の画像フレームを抽出する。制御部11は、顔画像に含まれる人物の顔領域の大きさと、画像フレームとの比率が均一になるように顔画像をクロップ(補正)する(ステップS34)。
制御部11は、ステップS33で顔画像を抽出した時点(発話時)に対応する発話音声のデータを動画から抽出する(ステップS35)。例えば制御部11は、顔画像を抽出した時点の前後0.1秒間の発話音声を抽出する。制御部11は、抽出した発話音声に対するフーリエ変換を行い、スペクトログラム画像を生成する(ステップS36)。制御部11は、ステップS34でクロップした顔画像と、ステップS36で生成したスペクトログラム画像(発声データ)とを対応付けたデータセットを生成する(ステップS37)。
制御部11は、全ての動画についてデータセットの生成を完了したか否かを判定する(ステップS38)。全ての動画について完了していないと判定した場合(S38:NO)、制御部11は処理をステップS31に戻す。全ての動画について完了したと判定した場合(S38:YES)、制御部11はサブルーチンをリターンする。
図7は、感情識別処理の処理手順の一例を示すフローチャートである。図7に基づき、入力画像又は音声から感情を識別する処理の処理内容について説明する。
学習装置1の制御部11は、感情の識別対象である顔画像又は発話音声を取得する(ステップS41)。ステップS41で取得するデータは顔画像のみ、又は音声のみであってもよい。あるいは、ステップS41で取得するデータは学習時と同様に、画像及び音声を含む動画データであってもよい。
制御部11は、生成済みの識別モデルを用いて、取得した顔画像又は発話音声に対応する感情を識別する(ステップS42)。具体的には上述の如く、制御部11は、必要なサンプリング処理を顔画像又は発話音声に施した後、顔画像は画像ネットワークに、発声データは音声ネットワークに入力して特徴量を抽出し、出力ネットワークに入力して感情の識別結果を取得する。制御部11は識別結果を外部に出力し(ステップS43)、一連の処理を終了する。
なお、上記では特段説明しなかったが、一の動画から複数の時点の顔画像及び発話音声を抽出し、複数のデータセットを生成してもよいことは勿論である。
また、上記で学習装置1は、被写体人物の口の動きに基づいて動画から発話時点を特定したが、本実施の形態はこれに限定されるものではない。例えば学習装置1は、発話音声の音量に基づいて発話開始時点を特定するようにしてもよい。すなわち学習装置1は、動画内の音声から発話時点を特定してもよい。
また、上記では一の学習装置1が機械学習から感情識別に至る一連の処理を行うものとして説明したが、本実施の形態はこれに限定するものではなく、感情識別のための識別モデル(第2の識別器)の構築と、当該識別モデルを用いた感情識別とは別装置で実現されてもよい。具体的には、上述の如く学習装置1が、複数のデータセットそれぞれの顔画像及び発声データと、データセットにおける当該顔画像及び発声データの対応関係とから教師なし学習で識別モデルを生成し、当該識別モデルの一部(画像ネットワーク又は音声ネットワーク)を用いて、感情ラベルを含む教師データから感情識別用の識別モデルを生成する。そして学習装置1は、生成した識別モデルに係るデータを、例えば図1で図示した端末2に出力(インストール)する。端末2は識別モデルに係るデータを記憶しておき、推定対象である顔画像又は発声データを外部から取得して、識別モデルを用いた感情識別を行う。このように、感情識別のための学習を行う学習装置と、感情識別を行う識別装置とは別装置としてもよい。
また、上記では教師なし学習によって構築した識別モデル(識別器)に対し、別途教師データを用いてファインチューニングを行うことで感情識別用の識別モデル(第2の識別器)を生成し、チューニング後の識別モデルによって感情の識別を行ったが、本実施の形態はこれに限定されるものではない。教師なし学習のみで構築した識別モデルであっても顔画像又は発話データを分類することは可能であるため、学習装置1は当該識別モデルのみを用いて識別を行ってもよい。つまり学習装置1は、データセットでの対応関係のみから教師なし学習で生成した識別モデル(識別器)、あるいは当該識別モデルに教師データを適用して生成した識別モデル(第2の識別器)を用いて顔画像又は発話データを分類可能であればよく、感情の識別まで行うことは必須ではない。
以上より、本実施の形態1によれば、データセットにおける顔画像及び発声データの対応関係を正解値として識別モデル(学習済みモデル)を構築可能であるため、教師なしで学習を行うことができ、識別モデルの作成コストを低減することができる。
また、本実施の形態1によれば、教師なし学習で識別モデルを構築した後、別途教師データを用いて識別モデルのファインチューニングを行い、感情識別用の識別モデルを構築する。識別モデルの一部として用いられる画像ネットワーク又は音声ネットワークは、教師なし学習によって構築済みであるため、最小限の教師データによって識別モデルを構築することができる。
また、本実施の形態1によれば、動画から学習用の顔画像及び発声データをサンプリングすることで、顔画像及び発声データの対応関係を自動で識別することができ、一連の学習処理を自動的に行うことができる。
また、本実施の形態1によれば、例えば口のような人間の特定の器官の動きに基づき顔画像及び発話音声を抽出することで、感情識別のための適切なサンプリングを行うことができる。
また、本実施の形態1によれば、発話音声をスペクトログラム画像に変換することで、顔の表情だけでなく音声も画像として処理することができ、同様の畳み込みニューラルネットワークで各入力データを処理することができる。
また、本実施の形態1によれば、顔領域のサイズを画像フレームのサイズと均一になるように補正(クロップ)しておくことで、各動画から抽出した顔画像を均等に扱い、適切な学習を行うことができる。
(実施の形態2)
本実施の形態では、動画からサンプリングした音声を音量に応じて学習対象から除外する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
実施の形態1で、顔画像のフレームに対応する時点の音声を動画からサンプリングし、当該音声を用いて学習を行う旨を述べた。しかし、例えば口は動いているが声を発していない場合、すなわち無音の場合などは、学習対象としては不適である。そこで本実施の形態では、このように音量の小さい音声は学習用から除外する。
図8は、実施の形態2に係るサンプリングのサブルーチンの処理手順を示すフローチャートである。図8に基づき、本実施の形態におけるステップS12のサブルーチンの処理内容について説明する。
顔画像の抽出した時点(発話時)に対応する発話音声を抽出した後(ステップS35)、学習装置1の制御部11は、抽出した発話音声の音量が閾値未満であるか否かを判定する(ステップS201)。閾値未満であると判定した場合(S201:YES)、制御部11は当該音声と顔画像とを入力データとしてセットせず、処理をステップS31に戻す。閾値未満でないと判定した場合(S201:NO)、制御部11は処理をステップS36に移行し、スペクトログラム画像を生成して入力データとしてセットする。
なお、上記では音量が閾値未満である場合、すなわち音量が小さい場合に学習対象から除外する旨を説明したが、本実施の形態はこれに限定されるものではない。例えば学習装置1は、雑音が多いために音量が大きくなっている場合、すなわち音量が閾値以上である場合に、動画から抽出した音声を学習対象から除外するようにしてもよい。すなわち学習装置1は、音量に応じて発話音声のサンプリングを行うことができればよく、学習対象から除外するケースは音量が小さい場合に限定されない。
以上より、本実施の形態2によれば、学習に不適な入力データを学習対象から除外することができ、学習の精度を高めることができる。
(実施の形態3)
本実施の形態では、発話音声を画像ではなく、テキストに変換して学習を行う形態について述べる。
詳細な図示は省略するが、例えば学習装置1は、音声ネットワークとして画像解析用のニューラルネットワークではなく、テキスト解析用のニューラルネットワークを用意しておく。当該ニューラルネットワークは、例えば回帰型ニューラルネットワーク(Recurrent Neural Network;RNN)、LSTM(Long Short Term Memory)等であるが、これらに限定されない。学習装置1は、テキストの特徴量を抽出するこれらのネットワークを音声ネットワークとして用意し、顔画像との対応関係を学習する。
学習装置1は、実施の形態1と同じく動画から発話音声をサンプリングする。本実施の形態で学習装置1は、サンプリングした発話音声に対する音声認識を行い、発話音声をテキストに変換する。学習装置1は、変換したテキストと、同じ動画からサンプリングされた顔画像とを対応付けてデータセットとする。
学習装置1は、発話音声に対応するテキストを上述の音声ネットワークに入力し、テキストの特徴量を抽出して、出力ネットワークに入力する。後は実施の形態1と同じく、学習装置1は顔画像及び発話テキストの対応関係から各サブネットワークのパラメータを調整し、識別モデルを構築する。そして学習装置1は、音声ネットワークからの出力値に対するラベル付けの入力を受け付け、テキストベースでの感情識別を可能とする。
感情識別処理を実行する場合、学習装置1は入力音声をテキストに変換し、音声ネットワークに入力する。そして学習装置1は、音声ネットワークから当該入力音声が示す感情を識別した識別結果を取得し、出力する。このように、学習装置1は画像ベース、あるいは音声ベースだけではなく、テキストベースでの感情の識別も行うことができる。
図9は、実施の形態3に係る学習処理の処理手順の一例を示すフローチャートである。図9に基づき、本実施の形態における学習処理の処理内容について説明する。
学習用の複数の動画データを取得した後(ステップS11)、学習装置1の制御部11は、動画データから顔画像及び発声データをサンプリングする処理を実行する(ステップS301)。具体的には、制御部11は動画内から顔画像のフレームを抽出すると共に、顔画像の抽出時点に対応する発話音声を抽出し、当該音声をテキストに変換する処理を行う。制御部11は、顔画像を画像ネットワークに入力すると共に、発話音声を変換したテキストを音声ネットワークに入力する(ステップS302)。制御部11は、各サブネットワークから出力される顔画像の特徴量、及び発話音声に係るテキストの特徴量を取得する(ステップS303)。
制御部11は、取得した顔画像及びテキストそれぞれの特徴量を出力ネットワークに入力する(ステップS304)。制御部11は出力ネットワークから、顔画像及びテキストの対応度を取得する(ステップS305)。制御部11は、取得した対応度を、入力データにおける顔画像及び発話音声の対応関係と比較して各サブネットワークのパラメータを調整し、識別モデルを生成する(ステップS306)。各動画データについてデータセットの学習を完了後、制御部11は処理をステップS18に移行する。
図10は、実施の形態3に係るサンプリングのサブルーチンの処理手順を示すフローチャートである。図10に基づき、本実施の形態におけるステップS301のサブルーチンの処理内容について説明する。
顔画像を抽出した時点(発話時)に対応する発話音声を抽出した後(ステップS35)、学習装置1の制御部11は、抽出した発話音声に対する音声認識を行い、当該音声をテキストに変換する(ステップS321)。制御部11は、変換したテキストを顔画像と対応付けてデータセットを生成し(ステップS322)、処理をステップS38に移行する。
以上より、本実施の形態3によれば、発話音声を画像ではなく、テキストに変換して識別モデルを構築することもできる。
(実施の形態4)
図11は、上述した形態の学習装置1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、学習装置1は以下のように動作する。取得部111は、人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する。第1抽出部112は、前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出する。第2抽出部113は、前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出する。生成部114は、前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する。
本実施の形態4は以上の如きであり、その他は実施の形態1から3と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 学習装置
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 識別器
2 端末

Claims (12)

  1. 人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する取得部と、
    前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出する第1抽出部と、
    前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出する第2抽出部と、
    前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する生成部と
    を備えることを特徴とする学習装置。
  2. 前記生成部による識別器の生成後、顔画像又は発声データに人物の感情を表す情報がラベル付けされた教師データを取得する教師データ取得部と、
    前記教師データに基づき、前記第1又は第2の抽出器を用いて前記人物の感情を推定する第2の識別器を生成する第2生成部と
    を備えることを特徴とする請求項1に記載の学習装置。
  3. 前記取得部は、前記人物の発話音声を含む複数の動画を取得し、
    前記動画夫々から、前記人物の発話時の前記顔画像と、該発話時に対応する前記発話音声とを抽出して前記データセットを生成するデータ生成部を備える
    ことを特徴とする請求項1又は2に記載の学習装置。
  4. 前記データ生成部は、前記人物の顔器官の動きを前記動画から検出することで、前記発話時を特定する
    ことを特徴とする請求項3に記載の学習装置。
  5. 前記データ生成部は、前記複数の動画夫々から抽出した前記顔画像を、画像フレームに対する前記人物の顔領域のサイズが均一になるように補正する
    ことを特徴とする請求項3又は4に記載の学習装置。
  6. 前記データ生成部は、前記動画から抽出した前記発話音声からスペクトログラム画像を生成し、
    前記第2抽出部は、前記スペクトログラム画像を前記第2の抽出器に入力し、前記スペクトログラム画像の特徴量を抽出する
    ことを特徴とする請求項3〜5のいずれか1項に記載の学習装置。
  7. 前記データ生成部は、前記発話時における前記発話音声の音量に応じて、該発話時の前記顔画像及び発話音声を抽出する
    ことを特徴とする請求項3〜6のいずれか1項に記載の学習装置。
  8. 前記データ生成部は、前記動画から抽出した前記発話音声をテキストに変換し、
    前記第2抽出部は、前記テキストを前記第2の抽出器に入力し、前記テキストの特徴量を抽出する
    ことを特徴とする請求項3〜7のいずれか1項に記載の学習装置。
  9. 人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得し、
    前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出し、
    前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出し、
    前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する
    処理をコンピュータに実行させることを特徴とする学習方法。
  10. 人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得し、
    前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出し、
    前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出し、
    前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する
    処理をコンピュータに実行させることを特徴とするプログラム。
  11. 人物の顔を撮像した動画であって、該人物の発話音声を含む動画を取得し、
    取得した前記動画から、前記人物の顔器官の動きを検出することで発話時を特定し、
    該発話時の顔画像と、前記発話時に対応する前記発話音声とを前記動画から抽出し、
    抽出した前記発話音声からスペクトログラム画像を生成し、
    前記顔画像及びスペクトログラム画像を対応付けたデータセットを生成する
    処理をコンピュータに実行させることを特徴とするデータ生成方法。
  12. 請求項1〜8のいずれか1項に記載の学習装置を用いて生成された識別器と、識別対象である顔画像又は発声データとを取得する識別対象取得部と、
    前記識別器を用いて、前記顔画像又は発声データに対応する分類に識別する識別部と
    を備えることを特徴とする識別装置。
JP2018095725A 2018-05-17 2018-05-17 学習装置、学習方法、プログラム、データ生成方法及び識別装置 Pending JP2019200671A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018095725A JP2019200671A (ja) 2018-05-17 2018-05-17 学習装置、学習方法、プログラム、データ生成方法及び識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018095725A JP2019200671A (ja) 2018-05-17 2018-05-17 学習装置、学習方法、プログラム、データ生成方法及び識別装置

Publications (1)

Publication Number Publication Date
JP2019200671A true JP2019200671A (ja) 2019-11-21

Family

ID=68613179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018095725A Pending JP2019200671A (ja) 2018-05-17 2018-05-17 学習装置、学習方法、プログラム、データ生成方法及び識別装置

Country Status (1)

Country Link
JP (1) JP2019200671A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021162965A (ja) * 2020-03-30 2021-10-11 デジタルア−ツ株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
WO2022025359A1 (ko) * 2020-07-27 2022-02-03 주식회사 딥브레인에이아이 발화 영상 생성 방법 및 장치
JP2022054326A (ja) * 2020-09-25 2022-04-06 Kddi株式会社 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
JP2022153360A (ja) * 2020-07-30 2022-10-12 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
JP7475105B2 (ja) 2020-06-22 2024-04-26 パナソニックオートモーティブシステムズ株式会社 学習装置、学習方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108392A (ja) * 2000-09-29 2002-04-10 Casio Comput Co Ltd 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体
JP2017156854A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108392A (ja) * 2000-09-29 2002-04-10 Casio Comput Co Ltd 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体
JP2017156854A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
熊谷 章吾: "口唇動作と音声の共起に着目した被写体と話者の不一致検出", 電子情報通信学会技術研究報告 VOL.111 NO.38, vol. MVE2011-12 (2011-05), JPN6022008452, 6 May 2011 (2011-05-06), JP, pages 75 - 80, ISSN: 0004778509 *
青田 亨: "感情認識における画像情報と音声情報の統合", FIT2006 第5回情報科学技術フォーラム 一般講演論文集 第3分冊 画像認識・メディア理解 グラ, vol. K_059, JPN6022008451, 21 August 2006 (2006-08-21), JP, pages 509 - 510, ISSN: 0004778510 *
齊藤 剛史: "口内領域形状に基づく日本語単音の分類", 電子情報通信学会技術研究報告 VOL.106 NO.606, vol. PRMU2006-282 (2007-3), JPN6022008450, 9 March 2007 (2007-03-09), JP, pages 161 - 166, ISSN: 0004778511 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021162965A (ja) * 2020-03-30 2021-10-11 デジタルア−ツ株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7455788B2 (ja) 2020-03-30 2024-03-26 デジタルアーツ株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7475105B2 (ja) 2020-06-22 2024-04-26 パナソニックオートモーティブシステムズ株式会社 学習装置、学習方法及びプログラム
WO2022025359A1 (ko) * 2020-07-27 2022-02-03 주식회사 딥브레인에이아이 발화 영상 생성 방법 및 장치
JP2022153360A (ja) * 2020-07-30 2022-10-12 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
JP7361163B2 (ja) 2020-07-30 2023-10-13 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
JP2022054326A (ja) * 2020-09-25 2022-04-06 Kddi株式会社 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法
JP7423490B2 (ja) 2020-09-25 2024-01-29 Kddi株式会社 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
CN114882873B (zh) * 2022-07-12 2022-09-23 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质

Similar Documents

Publication Publication Date Title
JP2019200671A (ja) 学習装置、学習方法、プログラム、データ生成方法及び識別装置
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
Kang et al. Real-time sign language fingerspelling recognition using convolutional neural networks from depth map
Ilyas et al. AVFakeNet: A unified end-to-end Dense Swin Transformer deep learning model for audio–visual​ deepfakes detection
CN112686048B (zh) 基于语音、语义、面部表情融合的情绪识别方法及装置
CN112100337B (zh) 交互对话中的情绪识别方法及装置
CN111881707B (zh) 图像翻拍检测方法、身份验证方法、模型训练方法及装置
CN111563422A (zh) 基于双模态情绪识别网络的服务评价获取方法及其装置
CN113536999B (zh) 人物情绪识别方法、系统、介质及电子设备
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN115699082A (zh) 缺陷检测方法及装置、存储介质及电子设备
Sonare et al. Video-based sign language translation system using machine learning
Rajan et al. American sign language alphabets recognition using hand crafted and deep learning features
CN115423908A (zh) 虚拟人脸的生成方法、装置、设备以及可读存储介质
Dhivyasri et al. An efficient approach for interpretation of Indian sign language using machine learning
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及系统
Rahim et al. Dynamic hand gesture based sign word recognition using convolutional neural network with feature fusion
CN114639150A (zh) 情绪识别方法、装置、计算机设备和存储介质
KR20200018154A (ko) 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
CN115631274B (zh) 一种人脸图像生成方法、装置、设备及存储介质
CN112232221A (zh) 用于人物图像处理的方法、系统和程序载体
CN108197593B (zh) 基于三点定位方法的多尺寸人脸表情识别方法及装置
CN110569707A (zh) 一种身份识别方法和电子设备
CN116257816A (zh) 一种陪护机器人情绪识别方法、装置、存储介质及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220524