JP7475105B2

JP7475105B2 - 学習装置、学習方法及びプログラム

Info

Publication number: JP7475105B2
Application number: JP2020106847A
Authority: JP
Inventors: 豊吉濱
Original assignee: Panasonic Automotive Systems Co Ltd
Current assignee: Panasonic Automotive Systems Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2024-04-26
Anticipated expiration: 2040-06-22
Also published as: US12182699B2; JP2022002023A; US20210397954A1

Description

本開示は、学習装置、学習方法及びプログラムに関する。

例えば特許文献１には、ニューラルネットワークを用いて、撮影画像に含まれる顔の表情を認識する表情認識方法等が開示されている。特許文献１に開示されている技術では、サンプル画像から抽出した顔の凸凹情報、質感情報及び輪郭情報を活用し、表情を認識する精度を向上させている。

特開２０１８－５５４７０号公報

しかしながら、特許文献１に開示されている技術では、顔の凸凹情報、質感情報及び輪郭情報を活用してはいるものの、撮影画像といった単一のモーダル情報のみを用いて表情を認識させているため、精度の向上が十分ではないという問題がある。

したがって、ニューラルネットワークを用いて、単一のモーダル情報のみから、表情の認識などといった推論を行う場合、同様に、推論の精度が十分ではなく、推論の精度をより向上させることが期待されると考えられる。

本開示は、上述の事情を鑑みてなされたもので、ニューラルネットワークを用いた推論の精度をより向上させることができる学習装置等を提供することを目的とする。

上記課題を解決するために、本開示の一形態に係る学習装置は、プロセッサと、メモリと、を備え、前記プロセッサは、前記メモリに記録されたプログラムを用いて、２以上のモーダル情報と前記２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNN（Deep Neural Network）モデルを学習させ、前記DNNモデルは、２以上のDNNと、前記２以上のDNNそれぞれの一部を融合した構成を含み、前記２以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成される。

なお、これらの全般的または具体的な態様は、装置、方法、システム、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、装置、方法、システム、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示の学習装置等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。

図１は、実施の形態に係る情報処理装置の構成の一例を示すブロック図である。図２は、図１に示すFusion DNNモデルの構成の一例を示すブロック図である。図３Ａは、図２に示すDNN（映像）の詳細構成の一例を概念的に示す図である。図３Ｂは、図２に示すDNN（音声）の詳細構成の一例を概念的に示す図である。図３Ｃは、図２に示すFusionの詳細構成の一例を概念的に示す図である。図４は、実施の形態に係る学習装置の構成の一例を示すブロック図である。図５は、実施の形態に係る学習方法の処理を示すフローチャートである。図６Ａは、実施例１に係る教師Fusion DNNモデルの構成の一例を示すブロック図である。図６Ｂは、実施例１に係る生徒Fusion DNNモデルの構成の一例を示すブロック図である。図７は、実施例１に係る学習方法を概念的に示す図である。図８は、実施例１に係る学習方法の処理を示すフローチャートである。図９は、図８に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。図１０は、実施例１に係る２以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。図１１Ａは、実施例２に係る教師Fusion DNNモデルの構成の一例を示すブロック図である。図１１Ｂは、実施例２に係る生徒Fusion DNNモデルの構成の一例を示すブロック図である。図１２は、実施例２に係る学習方法の処理を示すフローチャートである。図１３は、図１２に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。図１４は、実施例２に係る２以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。図１５は、実施例３に係るFusion DNNモデルの構成の一例を示すブロック図である。図１６は、実施例３に係る学習方法を概念的に示す図である。図１７は、実施例３に係る学習方法の処理を示すフローチャートである。図１８は、図１７に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。図１９は、実施例３に係る２以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。

本開示の一形態に係る学習装置は、プロセッサと、メモリと、を備え、前記プロセッサは、前記メモリに記録されたプログラムを用いて、２以上のモーダル情報と前記２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNN（Deep Neural Network）モデルを学習させ、前記DNNモデルは、２以上のDNNと、前記２以上のDNNそれぞれの一部を融合した構成を含み、前記２以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成される。

この構成により、単一のモーダル情報ではなく２以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークを学習させることができる。これにより、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。

また、例えば、前記プロセッサは、前記DNNモデルを学習させる際、前記学習用データを用いて、前記DNNモデルを学習させるとともに、前記DNNモデルにおける中間層で前記蒸留を行い、前記蒸留を行う際、前記学習用データのうちの前記２以上のモーダル情報を前記DNNモデルに入力したとき、前記Fusionの中間層の出力を蒸留ラベルとして、前記２以上のDNNそれぞれの中間層の出力を学習させることで、前記蒸留を行うとしてもよい。

これにより、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。さらに、一つのDNNモデル（Fusion DNNモデル）に対して通常学習と蒸留学習とを同時に行えるので、従来、蒸留を行うために必要であった単一のモーダル情報ごとの事前学習が不要となり、学習の工数を減少させることができる。

ここで、例えば、前記蒸留を行う際、前記Fusionの前記中間層の出力として得られる温度付きのソフトマックス関数の出力を前記蒸留ラベルとして、前記２以上のDNNそれぞれの前記中間層の出力として得られる前記温度付きのソフトマックス関数の出力を学習させることで、前記蒸留を行うとしてもよい。

また、例えば、前記教師モデルと前記生徒モデルとは、同一の前記DNNモデルであり、前記プロセッサは、前記DNNモデルを学習させる際、前記学習用データを用いて、前記教師モデルとして前記DNNモデルを学習させ、前記学習用データのうちの前記２以上のモーダル情報を入力したときの、前記教師モデルとして学習させた前記DNNモデルの出力を、当該２以上のモーダル情報を入力したときの、前記生徒モデルとして学習させる前記DNNモデルの出力の正解、かつ、前記生徒モデルとして学習させる前記DNNモデルにおける前記２以上のDNNそれぞれの中間層の出力の正解である蒸留ラベルとして、前記生徒モデルとしての前記DNNモデルを学習させることで、前記蒸留を行うとしてもよい。

これにより、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。さらに、同一のDNNモデル（Fusion DNNモデル）である生徒モデルと教師モデルとに対して、学習と蒸留とを行うので、従来、蒸留を行うために必要であった単一のモーダル情報ごとの事前学習が不要となり、学習の工数を減少させることができる。

また、例えば、前記プロセッサは、前記DNNモデルを学習させる際、前記DNNモデルのうちの前記２以上のDNNそれぞれと同一構成のモデルである第１教師モデルを、前記学習用データのうちの前記２以上のモーダル情報の中で対応する第１モーダル情報と、前記第１モーダル情報に対する正解ラベルとを用いて学習させ、前記DNNモデルと同一構成のモデルであって、学習させた前記第１教師モデルそれぞれの一部を融合した構成を含み、学習させた前記第１教師モデルそれぞれの出力である特徴量が入力されるモデルである教師Fusionと、学習させた前記第１教師モデルとで構成された教師DNNモデルを、前記学習用データを用いて学習させ、学習させた前記教師DNNモデルに、前記２以上のモーダル情報を入力したときの出力を正解とする蒸留ラベルと、前記第１モーダル情報とを用いて、前記２以上のDNNそれぞれを前記生徒モデルとして学習させ、前記蒸留ラベルと、前記２以上のモーダル情報とを用いて、前記DNNモデルを前記生徒モデルとして学習させることで、前記蒸留を行うとしてもよい。

これにより、単一のモーダル情報ではなく２以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークを学習させることができる。よって、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。

また、例えば、前記２以上のDNNそれぞれの最終層は、前記２以上のDNNそれぞれの出力である特徴量を出力する第１全結合層であり、前記Fusionは、前記２以上のDNNそれぞれの前記最終層を連結した層であって前記２以上のＤＮＮそれぞれの出力である特徴量が入力される層を含むとしてもよい。

また、例えば、前記DNNモデルの出力は、前記Fusionの出力として得られる、前記２以上のモーダル情報に対する推論結果であってもよい。

また、例えば、前記２以上のモーダル情報は、対象人物が映る動画像の音声情報と映像情報とを含み、前記DNNモデルは、前記推論結果として、前記対象人物の感情を出力してもよい。

これにより、ニューラルネットワークを用いた推論として対象人物の感情判別を行うことができる。

また、本開示の一形態に係る学習方法は、２以上のモーダル情報と２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNNモデルを学習させ、前記DNNモデルは、２以上のDNNと、前記２以上のDNNそれぞれの一部を融合した構成を含み、前記２以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成される。

また、本開示の一形態に係るプログラムは、２以上のモーダル情報と２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、２以上のDNNと、前記２以上のDNNそれぞれの一部を融合した構成を含み、前記２以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成されるDNNモデルを学習させることを、コンピュータに実行させるためのプログラム。

以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
以下では、図面を参照しながら、実施の形態における文書分類装置等の説明を行う。

［情報処理装置１０の構成］
図１は、実施の形態に係る情報処理装置１０の構成の一例を示すブロック図である。

情報処理装置１０は、ニューラルネットワークを用いたコンピュータ等で実現され、図１に示すように入力部１１とFusion DNN（Deep Neural Network）モデル１２と出力部１３とで構成されている。情報処理装置１０は、マルチモーダル情報が入力されると、Fusion DNNモデル１２で推論処理を行い、その結果である推論結果を出力する。

本実施の形態では、ニューラルネットワークを用いた推論として対象人物の感情判別を行う場合を例に挙げて説明するが、この例に限られない。

［入力部１１］
入力部１１は、マルチモーダル情報が入力されると、マルチモーダル情報を２以上のモーダル情報に分離して、Fusion DNNモデル１２に入力する。

ここで、マルチモーダル情報は、視覚、聴覚、嗅覚、味覚、触覚などの複数の形式（modal）の情報であり、複数の情報とも称される。マルチモーダル情報は、映像、音声、心拍など、対象者に関する情報であってもよいし、対象物の映像及び対象物のセンシング情報など、対象物に関する情報であってもよい。本実施の形態では、マルチモーダル情報は、２以上のモーダル情報からなり、３以上のモーダル情報からなっていてもよい。

なお、情報処理装置１０に対象人物の感情判別を行わせる場合、２以上のモーダル情報は、対象人物が映る動画像の音声情報と映像情報とを含むことになる。

［出力部１３］
出力部１３は、Fusion DNNモデル１２により推論処理が行われた結果である推論結果を出力する。

なお、情報処理装置１０に対象人物の感情判別を行わせる場合、Fusion DNNモデル１２による推論結果として、対象人物の感情を出力する。ここで、対象人物の感情は、入力部１１に入力された、対象者に関する２つのモーダル情報すなわち対象人物が映る動画像の音声情報と映像情報とから推論された対象物の感情であって８感情のうちの一の感情が出力される。８感情とは、例えばニュートラル、穏やか、幸せ、悲しみ、怒り、恐れ、嫌悪及び驚きである。

［Fusion DNNモデル１２］
Fusion DNNモデル１２は、プロセッサと、メモリとを備えたコンピュータに用いられて推論処理を行う。Fusion DNNモデル１２は、入力部１１から入力された２以上のモーダル情報に対して推論処理を行い、推論結果を出力する。

なお、情報処理装置１０に対象人物の感情判別を行わせる場合、Fusion DNNモデル１２は、対象人物が映る動画像の音声情報と映像情報とを含む２以上のモーダル情報に対して推論処理を行い、推論結果として、当該対象人物の感情を出力する。

図２は、図１に示すFusion DNNモデル１２の構成の一例を示すブロック図である。

本実施の形態では、Fusion DNNモデル１２は、図２に示すように、DNN部１２１と、Fusion１２２とを備える。

＜DNN部１２１＞
DNN部１２１は、２以上のDNNを有し、入力された２以上のモーダル情報それぞれから、入力された２以上のモーダル情報それぞれの特徴量を算出して出力する。ここで、２以上のDNNそれぞれの最終層は、当該２以上のＤＮＮそれぞれの出力である特徴量を出力する全結合層であってもよい。

本実施の形態では、DNN部１２１は、図２に示すように、DNN（映像）１２１１と、DNN（音声）１２１２と、…DNN（…）１２１ｍ（ｍは３以上の整数）とを備える。

≪DNN（映像）１２１１≫
DNN（映像）１２１１は、２以上のモーダル情報のうち映像に対応するモーダル情報（映像）が入力され、入力されたモーダル情報（映像）の特徴量を算出して、Fusion１２２に出力する。

ここで、情報処理装置１０に対象人物の感情判別を行わせる場合を例にして、DNN（映像）１２１１の詳細構成の一例について図３Ａを用いて説明する。

図３Ａは、図２に示すDNN（映像）１２１１の詳細構成の一例を概念的に示す図である。

すなわち、DNN（映像）１２１１は、例えば図３Ａに示すように、Conv2Dと、Global Average Poolingと、FC層と、出力層とで構成されてもよい。

Conv2Dは、畳み込みを行うことで、モーダル情報（映像）の特徴を抽出した２次元の特徴マップを出力する畳み込み層である。Conv2Dは、例えば空間方向とチャネル方向の畳み込みを順に行うMobileNet-V1であるが、これに限らない。Conv2Dは、例えば空間方向とチャネル方向の畳み込みを同時に行う多層の畳み込み層で構成されていてもよい。

Global Average Pooling（GAP層）は、Conv2Dが出力した特徴マップの出力を平均して出力する。

FC（Fully Connected）層は、全結合層とも称され、Global Average Poolingから出力された２次元データをフラット（１次元）にして出力する。図３Ａに示す例では、FC層は、１２８個の特徴量を出力する。

出力層は、全結合層からの出力を元に、ソフトマックス関数を用いて確率に変換し、それぞれの領域に正しく分類される確率を最大化することによって分類を行う。図３Ａに示す例では、出力層は、８つのノードからなり８感情を分類する。なお、出力層は、DNN（映像）１２１１に備えられなくてもよい。また、FC層が１２８個の特徴量をFusion１２２に出力する場合、この出力層を、中間層と称し、FC層を最終層と称する場合もある。

≪DNN（音声）１２１２≫
DNN（音声）１２１２は、２以上のモーダル情報のうち音声に対応するモーダル情報（音声）が入力され、入力されたモーダル情報（音声）の特徴量を算出して、Fusion１２２に出力する。

ここで、情報処理装置１０に対象人物の感情判別を行わせる場合を例にして、DNN（音声）１２１２の詳細構成の一例について図３Ｂを用いて説明する。

図３Ｂは、図２に示すDNN（音声）１２１２の詳細構成の一例を概念的に示す図である。

すなわち、DNN（音声）１２１２は、例えば図３Ｂに示すように、特徴量抽出部と、特徴量ベクトル算出部と、Conv2Dと、ＡＤＤ層と、Global Average Poolingと、出力層とで構成されてもよい。

特徴量抽出部は、モーダル情報（音声）の特徴量を抽出する。特徴量抽出部は、図３Ｂに示す例では、モーダル情報（音声）から、例えばMFCC（Mel Frequency Cepstrum Coefficient）などの特徴量を抽出する。なお、MFCCは、人の聴覚特性を考慮しながらスペクトルの概形を表現する特徴量である。

特徴量ベクトル算出部は、特徴量抽出部により抽出された特徴量のベクトル（以下特徴量ベクトルと称する）を算出する。

前段のConv2Dは、畳み込みを行うことで、特徴量ベクトル算出部で算出された特徴量ベクトルの特徴を抽出した特徴マップを出力する畳み込み層である。

ＡＤＤ層は、Conv2Dからの複数の入力を加算する。

後段のConv2Dは、畳み込みを行うことで、ＡＤＤ層で合計されたものの特徴を抽出した特徴マップを出力する畳み込み層である。

Global Average Pooling（GAP層）は、後段のConv2Dが出力した特徴マップの出力を平均したものを出力する。なお、GAP層はFC層であってもよい。

出力層は、Global Average Poolingから出力されたものを元に、ソフトマックス関数を用いて確率に変換し、それぞれの領域に正しく分類される確率を最大化することによって分類を行う。出力層は、図３Ｂに示す例では、８つのノードからなり８感情を分類する。なお、出力層は、DNN（音声）１２１２に備えられなくてもよい。また、GAP層が１２８個の特徴量をFusion１２２に出力する場合、この出力層を、中間層と称し、GAP層を最終層と称する場合もある。

≪DNN（…）１２１ｍ≫
DNN（…）１２１ｍは、２以上のモーダル情報のうち対応するモーダル情報（…）が入力され、入力されたモーダル情報（…）の特徴量を算出して、Fusion１２２に出力する。

なお、詳細構成は、対応するモーダル情報（…）によって異なり、対応するモーダル情報（…）から算出したい特徴量に適応する構成であればよい。

＜Fusion１２２＞
Fusion１２２は、DNN部１２１を構成する２以上のDNNそれぞれの一部を融合した構成を含み、当該２以上のDNNそれぞれの出力である特徴量が入力される。より具体的には、Fusion１２２は、２以上のＤＮＮそれぞれの最終層を連結した層であって２以上のＤＮＮそれぞれの出力である特徴量が入力される層を含む。Fusion１２２は、入力された特徴量から、推論を行う。

ここで、情報処理装置１０に対象人物の感情判別を行わせる場合を例にして、Fusion１２２の詳細構成の一例について図３Ｃを用いて説明する。

図３Ｃは、図２に示すFusion１２２の詳細構成の一例を概念的に示す図である。

すなわち、Fusion１２２は、例えば図３Ｃに示すように、FC層と、出力層とで構成されてもよい。

FC層は、DNN部１２１を構成する２以上のDNNそれぞれの一部（例えば最終層）であるFC層またはGlobal Average Poolingを融合したものであり、当該２以上のDNNそれぞれの出力である特徴量が入力される。FC層は、図３Ｃに示す例では、２以上のDNNそれぞれの一部として、DNN（映像）１２１１のFC層及びDNN（音声）１２１２のGlobal Average Poolingが融合された層である。FC層は、DNN（映像）１２１１のFC層及びDNN（音声）１２１２それぞれから出力された特徴量のベクトルを足し合わせた２５６個の特徴量のベクトルを、特徴量として出力する。

出力層は、前段のFC層からの出力を元に、ソフトマックス関数を用いて確率に変換し、それぞれの領域に正しく分類される確率を最大化することによって分類を行う。出力層は、図３Ｃに示す例でも、８つのノードからなり８感情を分類する。

以上のように構成されるFusion DNNモデル１２の出力は、Fusion１２２の出力として得られる、２以上のモーダル情報に対する推論結果である。

続いて、以上のように構成されるFusion DNNモデル１２を学習するための学習装置２０について説明する。

［学習装置２０］
図４は、実施の形態に係る学習装置２０の構成の一例を示すブロック図である。

学習装置２０は、ＣＰＵなどのプロセッサ（マイクロプロセッサ）、メモリ等を備えるコンピュータで実現される。学習装置２０は、例えば図４に示すように、取得部２１と、学習処理部２２と、モデル部２３とを備える。

＜取得部２１＞
取得部２１は、２以上のモーダル情報と２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを取得する。また、取得部２１は、モデル部２３から蒸留ラベル（ソフトターゲット）を取得してもよい。

＜学習処理部２２＞
学習処理部２２は、取得部２１が取得した学習用データを用いて、モデル部２３に格納されたモデルに対して蒸留を利用した学習を行う。なお、学習処理部２２は、不図示のプロセッサとメモリとを備え、プロセッサは、メモリに記録されたプログラムを用いて、学習処理を行う。

より具体的には、学習処理部２２は、学習用データを用いて、かつ、蒸留を行って、Fusion DNNモデルを学習させる。Fusion DNNモデルは、DNNモデルの一例である。Fusion DNNモデルは、上述したように、２以上のDNNと、当該２以上のDNNそれぞれの一部を融合した構成を含み、当該２以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成される。また、Fusion１２２は、２以上のDNNそれぞれの一部を融合した構成を含み、当該２以上のDNNそれぞれの出力である特徴量が入力される。より具体的には、Fusion１２２は、２以上のＤＮＮそれぞれの最終層を連結した層であって２以上のＤＮＮそれぞれの出力である特徴量が入力される層を含む。

ここで、蒸留について説明する。

蒸留は、知識の蒸留（Knowledge Distillation）とも呼ばれ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である。

典型的には、蒸留は、教師モデルである大きくて複雑なニューラルネットワークを学習させ、学習させた教師モデルの出力を知識として、生徒モデルである小さくて軽量なニューラルネットワークの学習に利用する。これにより、小さくて軽量なニューラルネットワークである生徒モデルでありながら教師モデルに匹敵する精度のモデルを得ることができる。

本実施の形態では、生徒モデルと教師モデルとで同一アーキテクチャのモデルを用いて蒸留を行う。これにより、教師モデルの知識が同じアーキテクチャの生徒モデルに蒸留されることで、教師モデルを凌ぐ推論の精度を得ること、すなわち推論の精度をより向上させることを図っている。

＜モデル部２３＞
モデル部２３は、学習処理部２２が学習対象とするニューラルネットワークを含むモデルを格納する。モデル部２３が格納するモデルは、学習処理部２２により蒸留を利用した学習が行われる。

本実施の形態では、モデル部２３は、Fusion DNNモデル、Fusion DNNモデルを構成する２以上のDNNそれぞれ、または、Fusion DNNモデルを構成するFusionを、学習対象とするモデルとして格納する。

［学習装置２０の動作］
続いて、上述のように構成された学習装置２０の動作の一例について以下説明する。

図５は、実施の形態に係る学習方法の処理を示すフローチャートである。

学習装置２０は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップＳ１０及びステップＳ２０の処理を行う。

より具体的には、まず、学習装置２０は、２以上のモーダル情報と、当該２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを準備する（Ｓ１０）。

次に、学習装置２０は、ステップＳ１０で準備された学習用データを用いて、かつ、蒸留を行って、Fusion DNNモデル２０を学習させる（Ｓ２０）。

［効果等］
このようにして、学習装置２０は、単一のモーダル情報ではなく２以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークであるFusion DNNモデル１２を学習させることができる。

より具体的には、学習装置２０は、２以上のモーダル情報を用いてFusion DNNモデル１２を学習させるので、単一のモーダル情報で学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度を向上させることができる。さらに、Fusion DNNモデル１２に対して蒸留学習を行うことで、２以上のモーダル情報を用いて学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度をさらに向上させることができる。

以下、実施例１～実施例３を挙げて、本実施の形態に係る蒸留を利用したFusion DNNモデルの学習方法の具体的態様について説明する。

（実施例１）
まず、実施例１では、教師モデルとしてFusion DNNモデル１２の個々の構成に対して学習させ、その後、生徒モデルとしてFusion DNNモデル１２の個々の構成に対して蒸留学習させる学習方法について説明する。なお、以下では、情報処理装置１０に対象人物の感情判別を行わせる場合の構成等について説明するが、一例でありこれに限られない。

図６Ａは、実施例１に係る教師Fusion DNNモデル１２ａの構成の一例を示すブロック図である。図６Ｂは、実施例１に係る生徒Fusion DNNモデル１２ｂの構成の一例を示すブロック図である。教師Fusion DNNモデル１２ａと生徒Fusion DNNモデル１２ｂとは、同一アーキテクチャのモデルであり、上述したFusion DNNモデル１２の構成と同じである。

教師Fusion DNNモデル１２ａは、図６Ａに示すように、教師DNN部１２１ａと、教師Fusion１２２ａとを備える。教師DNN部１２１ａは、教師DNN（映像）１２１１ａと、教師DNN（音声）１２１２ａとを備える。

教師DNN（映像）１２１１ａの詳細構成は、図３Ａに示されるDNN（映像）１２１１と同様であり、教師DNN（音声）１２１２ａの詳細構成も、図３Ｂに示されるDNN（音声）１２１２と同様である。また、教師Fusion１２２ａの詳細構成は、図３Ｃに示されるFusion１２２と同様である。このため、教師DNN（映像）１２１１ａ、教師DNN（音声）１２１２ａ及び教師Fusion１２２ａの詳細構成についての説明を省略する。

このように構成される教師Fusion DNNモデル１２ａは、図２に示すFusion DNNモデル１２のDNN部１２１が２つのDNNのみを有する場合に相当し、モーダル情報（映像）及びモーダル情報（音声）の２つのモーダル情報が入力され、推論結果として８感情を分類する。また、図６Ａでは、モーダル情報（映像）及びモーダル情報（音声）を映像データ及び音声データとして表現している。

生徒Fusion DNNモデル１２ｂは、図６Ｂに示すように、生徒DNN部１２１ｂと、生徒Fusion１２２ｂと、を備える。生徒DNN部１２１ｂは、生徒DNN（映像）１２１１ｂと、生徒DNN（音声）１２１２ｂとを備える。

生徒DNN（映像）１２１１ｂの詳細構成は、図３Ａに示されるDNN（映像）１２１１と同様であり、生徒DNN（音声）１２１２ｂの詳細構成は、図３Ｂに示されるDNN（音声）１２１２と同様である。また、生徒Fusion１２２ｂの詳細構成は、図３Ｃに示されるFusion１２２と同様である。このため、生徒DNN（映像）１２１１ｂ、生徒DNN（音声）１２１２ｂ及び生徒Fusion１２２ｂの詳細構成についての説明を省略する。

このように構成される生徒Fusion DNNモデル１２ｂは、図２に示すFusion DNNモデル１２のDNN部１２１が２つのDNNのみを有する場合に相当し、モーダル情報（映像）及びモーダル情報（音声）の２つのモーダル情報が入力され、推論結果として８感情を分類する。また、図６Ｂでも、モーダル情報（映像）及びモーダル情報（音声）を映像データ及び音声データとして表現している。

図７は、実施例１に係る学習方法を概念的に示す図である。

図７に示すように、実施例１に係る学習方法では、学習済の教師Fusion DNNモデル１２ａの出力を蒸留ラベル（ソフトターゲット）として用いて、生徒Fusion DNNモデル１２ｂの個々の構成を学習させる。

より具体的には、学習済の教師Fusion DNNモデル１２ａの出力を蒸留ラベルとして用いて、生徒DNN（映像）１２１１ｂを蒸留学習させる。図７に示す例では、学習済の教師Fusion DNNモデル１２ａの出力と生徒DNN（映像）１２１１ｂの出力として、logitsを温度パラメータＴで割った値を入力とした温度付きのソフトマックス関数の出力を用いて、誤差関数により蒸留学習させている。なお、ここでの誤差関数は、例えばＬ２ノルムであってもよいし、ＭＡＥ（Mean Absolute Error）であってもよい。また、logitsとは、ソフトマックス関数に入力する手前の層の出力（変数）である。

同様に、学習済の教師Fusion DNNモデル１２ａの出力を蒸留ラベルとして用いて、生徒DNN（音声）１２１２ｂを蒸留学習させる。図７に示す例では、学習済の教師Fusion DNNモデル１２ａの出力と生徒DNN（音声）１２１２ｂの出力として、logitsを温度パラメータＴで割った値を入力とした温度付きのソフトマックス関数の出力を用いて、誤差関数により蒸留学習させている。なお、ここでの誤差関数も、例えばＬ２ノルムであってもよいし、ＭＡＥであってもよい。

また、学習済の教師Fusion DNNモデル１２ａの出力を蒸留ラベルとして用いて、生徒Fusion１２２ｂを蒸留学習させる。

次に、図７で概念的に示した実施例１に係る学習方法の処理について図８を用いて説明する。

図８は、実施例１に係る学習方法の処理を示すフローチャートである。図９は、図８に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。図８及び図９において、モーダル情報（映像）及びモーダル情報（音声）は映像データ及び音声データとして表現されている。

学習装置２０は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップＳ１０１～ステップＳ２０６の処理を行う。

より具体的には、まず、学習装置２０は、学習用データを、学習用の音声データと映像データとに分離する（Ｓ１０１）。また、学習装置２０は、学習対象のモデルとして、教師Fusion DNNモデル１２ａをモデル部２３に格納する。

次に、学習装置２０は、学習用の映像データと、当該映像データそれぞれに対する正解ラベルとを用いて、教師Fusion DNNモデル１２ａのうちの教師DNN（映像）１２１１ａを学習させる（Ｓ２０１）。

次に、学習装置２０は、学習用の音声データと、当該音声データそれぞれに対する正解ラベルとを用いて、教師Fusion DNNモデル１２ａのうちの教師DNN（音声）１２１２ａを学習させる（Ｓ２０２）。

次に、学習装置２０は、教師Fusion DNNモデル１２ａを、学習用データすなわち学習用の映像データ、音声データ及び対応する正解ラベルを用いて学習させる（Ｓ２０３）。ここで、学習される教師Fusion DNNモデル１２ａは、教師Fusion１２２ａと、ステップＳ２０１で学習させた教師DNN（映像）１２１１ａと、ステップＳ２０２で学習させた教師DNN（音声）１２１２ａとで構成される。教師Fusion１２２ａは、ステップＳ２０１で学習させた教師DNN（映像）１２１１ａの一部と、ステップＳ２０２で学習させた教師DNN（音声）１２１２ａの一部を融合させた構成を有する。

次に、学習装置２０は、学習用の映像データと、蒸留ラベルとしての当該映像データそれぞれに対する学習済の教師Fusion DNNモデル１２ａの出力とを用いて、生徒Fusion DNNモデル１２ｂのうちの生徒DNN（映像）１２１１ｂを、蒸留学習させる（Ｓ２０４）。なお、学習装置２０は、ステップＳ２０４を行う前に、学習対象のモデルとして、生徒Fusion DNNモデル１２ｂをモデル部２３に格納している。

次に、学習装置２０は、学習用の音声データと、蒸留ラベルとしての当該音声データそれぞれに対する学習済の教師Fusion DNNモデル１２ａの出力とを用いて、生徒Fusion DNNモデル１２ｂのうちの生徒DNN（音声）１２１２ｂを、蒸留学習させる（Ｓ２０５）。

次に、学習装置２０は、学習用データと、蒸留ラベルとしての当該学習用の音声データ及び映像データに対する、学習済の教師Fusion DNNモデル１２ａの出力とを用いて、生徒Fusion DNNモデル１２ｂを、蒸留学習させる（Ｓ２０６）。ここで、蒸留学習される生徒Fusion DNNモデル１２ｂは、生徒Fusion１２２ｂと、ステップＳ２０４で蒸留学習させた生徒DNN（映像）１２１１ｂと、ステップＳ２０５で蒸留学習させた生徒DNN（音声）１２１２ｂとで構成される。生徒Fusion１２２ｂは、ステップＳ２０４で蒸留学習させた生徒DNN（映像）１２１１ｂの一部と、ステップＳ２０５で蒸留学習させた生徒DNN（音声）１２１２ｂの一部を融合させた構成を有する。

なお、ステップＳ２０４、Ｓ２０５及びＳ２０６において、当該学習用の音声データ及び映像データに対する、学習済の教師Fusion DNNモデル１２ａの出力を、共通の蒸留ラベルとして用いてもよい。共通の蒸留ラベルとしての学習済の教師Fusion DNNモデル１２ａの出力の数が多い場合には、ステップＳ２０４、Ｓ２０５及びＳ２０６においてそれぞれの蒸留ラベルを用いる場合と比較して同等の推論結果の精度を得られ、有用である。

なお、上記では、映像データ及び音声データと表現したモーダル情報（映像）及びモーダル情報（音声）の２つのモーダル情報が入力され、推論結果として８感情を分類するFusion DNNモデル１２の個々の構成を蒸留学習する場合について説明したが、これに限らない。

２以上のモーダル情報が入力され、分類結果を含む推論結果を出力するFusion DNNモデル１２を蒸留学習してもよい。

この場合、学習装置２０は、図２に示すFusion DNNモデル１２と同一アーキテクチャのモデルを、教師モデルまたは生徒モデルとして格納し、上記同様に、教師モデルの個々の構成を学習後に、生徒モデルを蒸留学習させればよい。

この場合の学習方法の処理について図１０を用いて説明する。

図１０は、実施例１に係る２以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。以下では、学習済の教師モデルであるFusion DNNモデル１２の出力を共通の蒸留ラベルとして、生徒モデルとしてのFusion DNNモデル１２の個々の構成を蒸留学習する場合について説明する。なお、共通の蒸留ラベルとしてのデータ数が少ない場合には、図８で説明したように、各モーダル情報に対する学習済の教師モデルであるFusion DNNモデルの出力を、蒸留ラベルとして用いるとよい。

学習装置２０は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップＳ２１１～ステップＳ２１４の処理を行う。

より具体的には、まず、学習装置２０は、学習対象のモデルとして、教師モデルとなる図２に示すFusion DNNモデル１２をモデル部２３に格納する。

次に、学習装置２０は、DNN部１２１を構成する２以上のDNNそれぞれと同一構成のモデルである第１教師モデルを、学習用データのうちの２以上のモーダル情報の中で対応する第１モーダル情報と、第１モーダル情報に対する正解ラベルとを用いて学習させる（Ｓ２１１）。ここで、第１教師モデルは、教師モデルとなる図２に示すFusion DNNモデル１２のDNN（映像）１２１１、DNN（音声）１２１２、…及びDNN（…）１２１ｍのそれぞれである。第１教師モデルのそれぞれは、対応するモーダル情報と正解ラベルとを用いて学習される。

次に、学習装置２０は、教師モデルとなるFusion DNNモデル１２すなわち教師Fusion DNNモデルを、２以上のモーダル情報と対応する正解ラベルとで構成される学習用データを用いて学習させる（Ｓ２１２）。ここで、教師Fusion DNNモデルは、Fusion DNNモデル１２と同一構成（つまり同一アーキテクチャ）のモデルであって、教師モデルとなるFusionすなわち教師Fusionと、ステップＳ２１１で学習させた第１教師モデルとで構成される。教師Fusionは、ステップＳ２１１で学習させた第１教師モデルそれぞれの一部を融合した構成を含み、ステップＳ２１１で学習させた第１教師モデルそれぞれの出力である特徴量が入力されるモデルである。

次に、学習装置２０は、ステップＳ２１２で学習させた教師Fusion DNNモデルの出力である蒸留ラベルと、２以上のモーダル情報の中で対応する第１モーダル情報とを用いて、２以上のDNNそれぞれを生徒モデルとして蒸留学習させる（Ｓ２１３）。なお、この蒸留ラベルは、ステップＳ２１２で学習させた教師Fusion DNNモデルに、２以上のモーダル情報を入力したときの出力である。この蒸留ラベルは、ステップＳ２１３の蒸留学習時に正解として扱われる。

次に、学習装置２０は、ステップＳ２１２で学習させた教師Fusion DNNモデルの出力である当該蒸留ラベルと、２以上のモーダル情報とを用いて、Fusion DNNモデルを生徒モデルとして蒸留学習させる（Ｓ２１４）。なお、この蒸留ラベルは、ステップＳ２１４の蒸留学習時に正解として扱われる。

以上のように、実施例１の学習方法等によれば、単一のモーダル情報ではなく２以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークであるFusion DNNモデル１２を学習させることができる。

これにより、実施例１の学習方法等では、２以上のモーダル情報を用いて学習させるので、単一のモーダル情報で学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度を向上させることができる。さらに、蒸留を行うことで、２以上のモーダル情報を用いて学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度をさらに向上させることができる。

よって、実施例１の学習方法等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。

（実施例２）
次に、実施例２では、教師モデルとしてFusion DNNモデルを学習させ、その後、生徒モデルとしてのFusion DNNモデルの出力を、その中間層の出力とともに蒸留ラベルを用いて蒸留学習させる場合について説明する。なお、以下でも、情報処理装置１０に対象人物の感情判別を行わせる場合の構成等について説明するが、一例でありこれに限られない。

図１１Ａは、実施例２に係る教師Fusion DNNモデル１２ｃの構成の一例を示すブロック図である。図１１Ｂは、実施例２に係る生徒Fusion DNNモデル１２ｄの構成の一例を示すブロック図である。教師Fusion DNNモデル１２ｃと生徒Fusion DNNモデル１２ｄは、同一アーキテクチャのモデルであり、上述したFusion DNNモデル１２の構成と同じである。

教師Fusion DNNモデル１２ｃは、図１１Ａに示すように、教師DNN部１２１ｃと、教師Fusion１２２ｃとを備える。教師DNN部１２１ｃは、教師DNN（映像）１２１１ｃと、教師DNN（音声）１２１２ｃとを備える。

教師DNN（映像）１２１１ｃの詳細構成は、図３Ａに示されるDNN（映像）１２１１と同様であり、教師DNN（音声）１２１２ｃの詳細構成は、図３Ｂに示されるDNN（音声）１２１２と同様であるため、ここでの説明を省略する。なお、図１１Ａに示されるように、教師DNN（映像）１２１１ｃ及び教師DNN（音声）１２１２ｃは、特徴量を出力するとともに、推論結果すなわち分類した８感情を出力する。本実施例では、教師DNN（映像）１２１１ｃ及び教師DNN（音声）１２１２ｃは、特徴量を出力する層以外の層から推論結果すなわち分類した８感情を出力する。以下、特徴量を出力する層以外の層を中間層と称する。

また、教師Fusion１２２ｃの詳細構成は、図３Ｃに示されるFusion１２２と同様であるため、ここでの説明を省略する。

このように構成される教師Fusion DNNモデル１２ｃは、図２に示すFusion DNNモデル１２のDNN部１２１が２つのDNNのみを有する場合に相当し、モーダル情報（映像）及びモーダル情報（音声）の２つのモーダル情報が入力され、推論結果として８感情を分類する。また、図１１Ａでも、モーダル情報（映像）及びモーダル情報（音声）を映像データ及び音声データとして表現している。

生徒Fusion DNNモデル１２ｄは、図１１Ｂに示すように、生徒DNN部１２１ｄと、生徒Fusion１２２ｄとを備える。生徒DNN部１２１ｄは、生徒DNN（映像）１２１１ｄと、生徒DNN（音声）１２１２ｄとを備える。

生徒DNN（映像）１２１１ｄの詳細構成は、図３Ａに示されるDNN（映像）１２１１と同様であり、生徒DNN（音声）１２１２ｄの詳細構成は、図３Ｂに示されるDNN（音声）１２１２と同様であるため、ここでの説明を省略する。なお、図１１Ｂに示されるように、生徒DNN（映像）１２１１ｄ及び生徒DNN（音声）１２１２ｄは、特徴量を出力するとともに、推論結果すなわち分類した８感情を出力する。本実施例では、生徒DNN（映像）１２１１ｄ及び生徒DNN（音声）１２１２ｄは、特徴量を出力する層以外の層から推論結果すなわち分類した８感情を出力する。以下、特徴量を出力する層以外の層を中間層と称する。

また、生徒Fusion１２２ｄの詳細構成は、図３Ｃに示されるFusion１２２と同様であるため、ここでの説明を省略する。

このように構成される生徒Fusion DNNモデル１２ｄは、図２に示すFusion DNNモデル１２のDNN部１２１が２つのDNNのみを有する場合に相当し、モーダル情報（映像）及びモーダル情報（音声）の２つのモーダル情報が入力され、推論結果として８感情を分類する。また、図１１Ｂでも、モーダル情報（映像）及びモーダル情報（音声）を映像データ及び音声データとして表現している。

図１２は、実施例２に係る学習方法の処理を示すフローチャートである。図１３は、図１２に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。図１２及び図１３において、モーダル情報（映像）及びモーダル情報（音声）は映像データ及び音声データとして表現されている。以下では、学習済の教師モデルであるFusion DNNモデルの出力を共通の蒸留ラベルとして用いる場合について説明する。なお、共通の蒸留ラベルとしてのデータ数が少ない場合には、実施例１と同様に、各モーダル情報に対する学習済の教師モデルであるFusion DNNモデルの出力を蒸留ラベルとして用いるとよい。図１３には、この場合の図１２に示す学習方法の処理が示されている。このため、以下で説明する学習方法の処理では、図１３に示される映像データ＆蒸留ラベルと音声データ＆蒸留ラベルとは、映像データ及び音声データ＆蒸留ラベルとなる。

学習装置２０は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップＳ１０１～ステップＳ２２３の処理を行う。

より具体的には、まず、学習装置２０は、学習用データを、学習用の音声データと映像データとに分離する（Ｓ１０１）。また、学習装置２０は、学習対象のモデルとして、教師Fusion DNNモデル１２ｃをモデル部２３に格納する。

次に、学習装置２０は、学習用の映像データ及び音声データと、当該映像データ及び音声データそれぞれに対する正解ラベルとを用いて、教師Fusion DNNモデル１２ｃを学習させる（Ｓ２２１）。

次に、学習装置２０は、学習用の映像データ及び音声データに対する学習済の教師Fusion DNNモデル１２ｃの出力を蒸留ラベルとして取得する（Ｓ２２２）。なお、この蒸留ラベルは、例えば８感情の分類結果（推論結果）となっている。

次に、学習装置２０は、学習用の映像データ及び音声データと、ステップＳ２２２で取得した蒸留ラベルとを用いて、生徒Fusion DNNモデル１２ｄを、蒸留学習させる（Ｓ２２３）。より具体的には、学習装置２０は、学習用の映像データ及び音声データと、ステップＳ２２２で取得した蒸留ラベルとを用いて、生徒Fusion DNNモデル１２ｄを、蒸留学習させる。それとともに、学習装置２０は、学習用の映像データ及び音声データと、ステップＳ２２２で取得した蒸留ラベルとを用いて、生徒DNN（映像）１２１１ｄ及び生徒DNN（音声）１２１２ｄを蒸留学習させる。

なお、上記では、映像データ及び音声データと表現したモーダル情報（映像）及びモーダル情報（音声）の２つのモーダル情報が入力され、推論結果として８感情を分類するFusion DNNモデル１２を、蒸留学習する場合について説明したが、これに限らない。

この場合、学習装置２０は、図２に示すFusion DNNモデル１２と同一アーキテクチャのモデルを、教師モデルまたは生徒モデルとして格納し、上記同様に、教師モデルの学習後に、生徒モデルを、学習済の教師モデルの中間層の出力も使って蒸留学習させればよい。

この場合の学習方法の処理について図１４を用いて説明する。

図１４は、実施例２に係る２以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。

学習装置２０は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップＳ２３１及びステップＳ２３２の処理を行う。なお、ステップＳ２３１及びステップＳ２３２の処理を行う際の、教師モデルと生徒モデルとは、同一アーキテクチャのFusion DNNモデル１２である。

次に、学習装置２０は、教師Fusion DNNモデルすなわち教師モデルとなるFusion DNNモデル１２を、学習用データを用いて学習させる（Ｓ２３１）。

次に、学習装置２０は、ステップＳ２３１で学習済の教師Fusion DNNモデルの出力である蒸留ラベルを用いて、生徒モデルとしてのFusion DNNモデルの出力とその中間層の出力とを、蒸留学習させる（Ｓ２３２）。ここで、蒸留ラベルは、学習済の教師Fusion DNNモデルの出力であり、例えば８感情の分類結果などの推論結果である。また、この蒸留ラベルは、ステップＳ２３２において、生徒モデルとしてのFusion DNNモデルの出力の正解、かつ、生徒モデルとしてのFusion DNNモデルの中間層の出力の正解として用いられる。

以上のように、実施例２の学習方法等によれば、単一のモーダル情報ではなく２以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークであるFusion DNNモデル１２を学習させることができる。

これにより、実施例２の学習方法等では、２以上のモーダル情報を用いて学習させるので、単一のモーダル情報で学習させる場合と比較してニューラルネットワークを用いた推論結果の精度を向上させることができる。また、蒸留を行うことで、２以上のモーダル情報を用いて学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度をさらに向上させることができる。

よって、実施例２の学習方法等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。

さらに、実施例２の学習方法を行うことで、入力される２以上のモーダル情報が、学習済のFusion DNNモデル１２を構成する２以上のDNNの数よりも少なくても、学習済のFusion DNNモデル１２は、正常に動作して、推論結果を出力することができる。

また、実施例２の学習方法によれば、同一のDNNモデルである生徒モデルと教師モデルとに対して、学習と蒸留とを行うので、従来、蒸留を行うために必要であった単一のモーダル情報ごとの事前学習が不要となり、学習の工数を減少させることができる。

また、実施例２の学習方法によれば、実施例１と比較して、Fusion DNNモデル１２の各構成を単一のモーダル情報で学習しなくてもよく、学習に要する工数を削減できる。

（実施例３）
次に、実施例３では、蒸留技術を応用して、Fusion DNNモデルに対して学習と蒸留学習とを同時に行う場合について説明する。なお、以下でも、情報処理装置１０に対象人物の感情判別を行わせる場合の構成等について説明するが、一例でありこれに限られない。

図１５は、実施例３に係るFusion DNNモデル１２ｅの構成の一例を示すブロック図である。図１５に示すFusion DNNモデル１２ｅは、図２に示すFusion DNNモデル１２がDNN部１２１で２つのDNNのみを有する場合と同一アーキテクチャのモデルである。

Fusion DNNモデル１２ｅは、図１５に示すように、DNN部１２１ｅと、Fusion１２２ｅとを備える。DNN部１２１ｅは、DNN（映像）１２１１ｅと、DNN（音声）１２１２ｅとを備える。

DNN（映像）１２１１ｅの詳細構成は、図３Ａに示されるDNN（映像）１２１１と同様であり、DNN（音声）１２１２ｅの詳細構成は、図３Ｂに示されるDNN（音声）１２１２と同様であるため、ここでの説明を省略する。なお、図１５に示されるように、DNN（映像）１２１１ｅ及びDNN（音声）１２１２ｅは、特徴量を出力するとともに、推論結果すなわち分類した８感情を出力する。本実施例でも、DNN（映像）１２１１ｅ及びDNN（音声）１２１２ｅは、特徴量を出力する層以外の層である中間層から推論結果すなわち分類した８感情を出力するとして説明する。

また、Fusion１２２ｅの詳細構成は、図３Ｃに示されるFusion１２２と同様であるため、ここでの説明を省略する。

このように構成されるFusion DNNモデル１２ｅは、図２に示すFusion DNNモデル１２のDNN部１２１が２つのDNNのみを有する場合に相当し、モーダル情報（映像）及びモーダル情報（音声）の２つのモーダル情報が入力され、推論結果として８感情を分類する。また、図１５でも、モーダル情報（映像）及びモーダル情報（音声）を映像データ及び音声データとして表現している。

図１６は、実施例３に係る学習方法を概念的に示す図である。

図１６に示すように、実施例３に係る学習方法では、Fusion DNNモデル１２ｅを学習（通常学習）させるとともに、Fusion DNNモデル１２ｅにおける中間層で蒸留学習させる。

より具体的には、映像データ及び音声データと対応する正解ラベルとを用いてFusion DNNモデル１２ｅを学習する。これと同時に、当該映像データ及び音声データをFusion DNNモデル１２ｅに入力したとき、１）Fusion１２２ｅの中間層の出力から得られる蒸留ラベルを正解として、２）DNN（映像）１２１１ｅ及びDNN（音声）１２１２ｅそれぞれの中間層の出力を蒸留学習させる。

図１６に示す蒸留学習の例では、Fusion１２２ｅの中間層の出力として得られる温度付きのソフトマックス関数の出力を蒸留ラベルとしている。そして、DNN（映像）１２１１ｅ及びDNN（音声）１２１２ｅそれぞれの中間層の出力として得られる温度付きのソフトマックス関数の出力を、蒸留ラベルを用いて蒸留学習させる。なお、図１６に示す例では、温度付きのソフトマックス関数の出力を用いて誤差関数により蒸留学習させているが、ここでの誤差関数は、例えばＬ２ノルムであってもよいし、ＭＡＥであってもよい。

図１７は、実施例３に係る学習方法の処理を示すフローチャートである。図１８は、図１７に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。図１７及び図１８において、モーダル情報（映像）及びモーダル情報（音声）は映像データ及び音声データとして表現されている。

学習装置２０は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップＳ１０１及びステップＳ２４１の処理を行う。

より具体的には、まず、学習装置２０は、学習用データを、学習用の音声データと映像データとに分離する（Ｓ１０１）。また、学習装置２０は、学習対象のモデルとしてFusion DNNモデル１２ｅを、モデル部２３に格納する。

次に、学習装置２０は、学習用の映像データ及び音声データと対応する正解ラベルを含む学習用データを用いて、Fusion DNNモデル１２ｅを学習させるとともに、Fusion DNNモデル１２ｅの中間層で蒸留学習させる（Ｓ２４１）。

蒸留学習の詳細は、次の通りである。すなわち、学習装置２０は、当該映像データ及び音声データをFusion DNNモデル１２ｅに入力したときに、Fusion１２２ｅの中間層の出力を蒸留ラベルとして、DNN（映像）１２１１ｅ及びDNN（音声）１２１２ｅそれぞれの中間層の出力を蒸留学習させる。

なお、上記では、映像データ及び音声データと表現したモーダル情報（映像）及びモーダル情報（音声）の２つのモーダル情報が入力され、推論結果として８感情を分類するFusion DNNモデル１２ｅを、蒸留学習する場合について説明したが、これに限らない。

この場合、学習装置２０は、図２に示すFusion DNNモデル１２と同一アーキテクチャのモデルを格納し、上記同様に、学習と蒸留学習とを同時に行えばよい。

この場合の学習方法の処理について図１９を用いて説明する。

図１９は、実施例３に係る２以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。

学習装置２０は、プロセッサとメモリとを備え、プロセッサと、メモリに記録されたプログラムとを用いて、以下のステップＳ２５１の処理を行う。

より具体的には、まず、学習装置２０は、学習対象のモデルとして、図２に示すFusion DNNモデル１２をモデル部２３に格納する。

次に、学習装置２０は、学習用データを用いて、Fusion DNNモデル１２を学習させるとともに、学習用データのうちの２以上のモーダル情報をFusion DNNモデル１２に入力したとき、Fusionの中間層の出力を蒸留ラベルとして、２以上のDNNそれぞれの中間層の出力を蒸留学習させる（Ｓ２５１）。

以上のように、実施例３の学習方法等によれば、単一のモーダル情報ではなく２以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークであるFusion DNNモデル１２を学習させることができる。

これにより、実施例３の学習方法等では、２以上のモーダル情報を用いて学習させるので、単一のモーダル情報で学習させる場合と比較してニューラルネットワークを用いた推論結果の精度を向上させることができる。また、蒸留を行うことで、２以上のモーダル情報を用いて学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度をさらに向上させることができる。

よって、実施例３の学習方法等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。

さらに、実施例３の学習方法を行うことで、入力される２以上のモーダル情報が、Fusion DNNモデル１２を構成する２以上のDNNの数よりも少なくても、学習済のFusion DNNモデル１２は、正常に動作して、推論結果を出力することができる。

また、実施例３の学習方法によれば、一つのFusion DNNモデル１２に対して通常学習と蒸留学習とを同時に行えるので、従来、蒸留を行うために必要であった単一のモーダル情報ごとの事前学習が不要となり、学習の工数を減少させることができる。

さらに、実施例３の学習方法によれば、実施例２と比較して、Fusion DNNモデル１２の各構成を単一のモーダル情報で学習しなくてもよく、さらに蒸留学習を行う回数を最小限に減らせるので、さらに学習に要する工数を削減できる。

（実施例４）
実施例４では、実施例１～実施例３で説明した蒸留を利用した学習方法の有効性について検証した。その実験結果について以下説明する。

本実験では、学習用データとして、RAVDESS（The Ryerson Audio-Visual Database of Emotional Speech and Song）を用いた。ここで、RAVDESSは、男女２４人（男１２人、女１２人）のアメリカ英語話者の感情演技動画のデータセットである。１つの動画の長さは５～１０秒程度であり、２８８０個のSpeechと２０２４個のSongとの動画からなる。動画それぞれには、ニュートラル（neutral）、穏やか（calm）、幸せ（happy）、悲しみ（sad）、怒り（angry）、恐れ（fearful）、嫌悪（disgust）または驚き（surprised）の８感情とそれに対する分類タグが付与されている。

＜実験条件＞
本実験では、学習率を０．０００１、バッチサイズを３２に設定し、それ以外のパラメータをデフォルト（初期値）としてAdam optimizerを用いて学習を行った。また、学習は、それぞれepoch数を～２００程度とし、Validationデータで学習が進まなくなったら終了するとした。また、誤差関数（Loss Function）としてはＭＡＥを利用した。

また、本実験では、図２に示すFusion DNNモデル１２のDNN部１２１が２つのDNNのみを有し、モーダル情報（映像）及びモーダル情報（音声）の２つのモーダル情報が入力され、推論結果として８感情を分類するFusion DNNモデルを学習に用いた。Fusion DNNモデルの各構成は、図３Ａ～図３Ｃで示したものを用いた。

＜実験結果＞
本実験では、実施例１～実施例３で説明した蒸留を利用した学習方法で学習したFusion DNNモデルの感情認識精度を評価した。評価は、k‐fold cross validationを利用して行った。ここで、k‐fold cross validationは、予測モデルの汎化性能を正確に検証する方法として知られており、ｋ分割交差検証とも称される。k‐fold cross validationを利用して評価する場合、例えば訓練データセットをｋ個のサブセットに分割して、そのうちｋ－１個のサブセットで学習し、残りの１個のサブセットで評価（検証）するという作業をすべての組み合わせに対して行う。ｋ分割の場合は、計ｋ回の学習と評価を繰り返すことになる。

本実験では、RAVDESSのデータセットにおいて、４－ｆｏｌｄで人に対して分割を行い、１８人のデータを使って６人の評価を行うということを×４回行った。これにより、２８８０個＋２０２４個の学習データをランダムに分割してｋ－ｆｏｌで評価を行う場合と比較して、評価対象者が学習データに含めずに評価するため、タスクとしては難しいがより正確に評価できる。

その結果、実施例１の学習方法では０．７３程度、実施例２の学習方法では０．７５程度、実施例３の学習方法では０．７６程度の感情認識精度を得た。比較例として、蒸留を利用せずに、Fusion DNNモデルの各構成をそれぞれ学習させた学習方法では、０．７０程度であった。

以上の実験結果から、実施例１～３の学習方法等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができることがわかった。

これにより、実施例１～実施例３で説明した蒸留を利用した学習方法の有効性が検証できた。

（他の実施態様の可能性）
以上、実施の形態において本開示の学習装置、学習方法及びプログラムについて説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサなど（以下に説明）によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。

なお、本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。

また、本開示は、さらに、以下のような場合も含まれる。

（１）上記の装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

（５）また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

本開示は、ニューラルネットワークの学習装置、学習方法及びプログラムに利用でき、特に、対象人物についての２以上のモーダル情報から、対象人物の感情を推論する場合に用いることができる車両などに搭載されるニューラルネットワークの学習装置、学習方法及びプログラムに利用できる。

１０情報処理装置
１１入力部
１２ Fusion DNNモデル
１２ａ、１２ｃ教師Fusion DNNモデル
１２ｂ、１２ｄ生徒Fusion DNNモデル
１３出力部
２０学習装置
２１取得部
２２学習処理部
２３モデル部
１２１、１２１ｅ DNN部
１２１ａ、１２１ｃ教師DNN部
１２１ｂ、１２１ｄ生徒DNN部
１２２、１２２ｅ Fusion
１２２ａ、１２２ｃ教師Fusion
１２２ｂ、１２２ｄ生徒Fusion
１２１１、１２１１ｅ DNN（映像）
１２１１ａ、１２１１ｃ教師DNN（映像）
１２１１ｂ、１２１１ｄ生徒DNN（映像）
１２１２、１２１２ｅ DNN（音声）
１２１２ａ、１２１２ｃ教師DNN（音声）
１２１２ｂ、１２１２ｄ生徒DNN（音声）
１２１ｍ DNN（…）

Claims

プロセッサと、
メモリと、を備え、
前記プロセッサは、前記メモリに記録されたプログラムを用いて、
２以上のモーダル情報と前記２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNN（Deep Neural Network）モデルを学習させ、
前記DNNモデルは、２以上のDNNと、前記２以上のDNNそれぞれの一部を融合した構成を含み、前記２以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成され、
前記プロセッサは、
前記DNNモデルを学習させる際、
前記学習用データを用いて、前記DNNモデルを学習させるとともに、前記DNNモデルにおける中間層で前記蒸留を行う、
学習装置。
前記プロセッサは、
前記蒸留を行う際、
前記学習用データのうちの前記２以上のモーダル情報を前記DNNモデルに入力したとき、前記Fusionの中間層の出力を蒸留ラベルとして、前記２以上のDNNそれぞれの中間層の出力を学習させることで、前記蒸留を行う、
請求項１に記載の学習装置。
前記蒸留を行う際、
前記Fusionの前記中間層の出力として得られる温度付きのソフトマックス関数の出力を前記蒸留ラベルとして、前記２以上のDNNそれぞれの前記中間層の出力として得られる前記温度付きのソフトマックス関数の出力を学習させることで、前記蒸留を行う、
請求項２に記載の学習装置。
前記教師モデルと前記生徒モデルとは、同一の前記DNNモデルであり、
前記プロセッサは、
前記DNNモデルを学習させる際、
前記学習用データを用いて、前記教師モデルとして前記DNNモデルを学習させ、
前記学習用データのうちの前記２以上のモーダル情報を入力したときの、前記教師モデルとして学習させた前記DNNモデルの出力を、当該２以上のモーダル情報を入力したときの、前記生徒モデルとして学習させる前記DNNモデルの出力の正解、かつ、前記生徒モデルとして学習させる前記DNNモデルにおける前記２以上のDNNそれぞれの中間層の出力の正解である蒸留ラベルとして、前記生徒モデルとしての前記DNNモデルを学習させることで、前記蒸留を行う、
請求項１に記載の学習装置。
プロセッサと、
メモリと、を備え、
前記プロセッサは、前記メモリに記録されたプログラムを用いて、
２以上のモーダル情報と前記２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNN（Deep Neural Network）モデルを学習させ、
前記DNNモデルは、２以上のDNNと、前記２以上のDNNそれぞれの一部を融合した構成を含み、前記２以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成され、
前記プロセッサは、
前記DNNモデルを学習させる際、
前記DNNモデルのうちの前記２以上のDNNそれぞれと同一構成のモデルである第１教師モデルを、前記学習用データのうちの前記２以上のモーダル情報の中で対応する第１モーダル情報と、前記第１モーダル情報に対する正解ラベルとを用いて学習させ、
前記DNNモデルと同一構成のモデルであって、学習させた前記第１教師モデルそれぞれの一部を融合した構成を含み、学習させた前記第１教師モデルそれぞれの出力である特徴量が入力されるモデルである教師Fusionと、学習させた前記第１教師モデルとで構成された教師DNNモデルを、前記学習用データを用いて学習させ、
学習させた前記教師DNNモデルに、前記２以上のモーダル情報を入力したときの出力を正解とする蒸留ラベルと、前記第１モーダル情報とを用いて、前記２以上のDNNそれぞれを前記生徒モデルとして学習させ、
前記蒸留ラベルと、前記２以上のモーダル情報とを用いて、前記DNNモデルを前記生徒モデルとして学習させることで、前記蒸留を行う、
学習装置。
前記２以上のDNNそれぞれの最終層は、前記２以上のDNNそれぞれの出力である特徴量を出力する第１全結合層であり、
前記Fusionは、前記２以上のDNNそれぞれの前記最終層を連結した層であって前記２以上のＤＮＮそれぞれの出力である特徴量が入力される層を含む、
請求項１～５のいずれか１項に記載の学習装置。
前記DNNモデルの出力は、前記Fusionの出力として得られる、前記２以上のモーダル情報に対する推論結果である、
請求項１～６のいずれか１項に記載の学習装置。
前記２以上のモーダル情報は、対象人物が映る動画像の音声情報と映像情報とを含み、
前記DNNモデルは、前記推論結果として、前記対象人物の感情を出力する、
請求項７に記載の学習装置。
２以上のモーダル情報と２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNNモデルを学習させ、
前記DNNモデルは、２以上のDNNと、前記２以上のDNNそれぞれの一部を融合した構成を含み、前記２以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成され、
前記DNNモデルを学習させる際、
前記学習用データを用いて、前記DNNモデルを学習させるとともに、前記DNNモデルにおける中間層で前記蒸留を行う、
学習方法。
２以上のモーダル情報と２以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、２以上のDNNと、前記２以上のDNNそれぞれの一部を融合した構成を含み、前記２以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成されるDNNモデルを学習させることを、
コンピュータに実行させ、
前記DNNモデルを学習させる際、
前記学習用データを用いて、前記DNNモデルを学習させるとともに、前記DNNモデルにおける中間層で前記蒸留を行う、
プログラム。