JP7475105B2 - 学習装置、学習方法及びプログラム - Google Patents

学習装置、学習方法及びプログラム Download PDF

Info

Publication number
JP7475105B2
JP7475105B2 JP2020106847A JP2020106847A JP7475105B2 JP 7475105 B2 JP7475105 B2 JP 7475105B2 JP 2020106847 A JP2020106847 A JP 2020106847A JP 2020106847 A JP2020106847 A JP 2020106847A JP 7475105 B2 JP7475105 B2 JP 7475105B2
Authority
JP
Japan
Prior art keywords
model
dnn
learning
fusion
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020106847A
Other languages
English (en)
Other versions
JP2022002023A (ja
Inventor
豊 吉濱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PANASONIC AUTOMOTIVE SYSTEMS CO., LTD.
Original Assignee
PANASONIC AUTOMOTIVE SYSTEMS CO., LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PANASONIC AUTOMOTIVE SYSTEMS CO., LTD. filed Critical PANASONIC AUTOMOTIVE SYSTEMS CO., LTD.
Priority to JP2020106847A priority Critical patent/JP7475105B2/ja
Priority to US17/314,832 priority patent/US20210397954A1/en
Publication of JP2022002023A publication Critical patent/JP2022002023A/ja
Application granted granted Critical
Publication of JP7475105B2 publication Critical patent/JP7475105B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Description

本開示は、学習装置、学習方法及びプログラムに関する。
例えば特許文献1には、ニューラルネットワークを用いて、撮影画像に含まれる顔の表情を認識する表情認識方法等が開示されている。特許文献1に開示されている技術では、サンプル画像から抽出した顔の凸凹情報、質感情報及び輪郭情報を活用し、表情を認識する精度を向上させている。
特開2018-55470号公報
しかしながら、特許文献1に開示されている技術では、顔の凸凹情報、質感情報及び輪郭情報を活用してはいるものの、撮影画像といった単一のモーダル情報のみを用いて表情を認識させているため、精度の向上が十分ではないという問題がある。
したがって、ニューラルネットワークを用いて、単一のモーダル情報のみから、表情の認識などといった推論を行う場合、同様に、推論の精度が十分ではなく、推論の精度をより向上させることが期待されると考えられる。
本開示は、上述の事情を鑑みてなされたもので、ニューラルネットワークを用いた推論の精度をより向上させることができる学習装置等を提供することを目的とする。
上記課題を解決するために、本開示の一形態に係る学習装置は、プロセッサと、メモリと、を備え、前記プロセッサは、前記メモリに記録されたプログラムを用いて、2以上のモーダル情報と前記2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNN(Deep Neural Network)モデルを学習させ、前記DNNモデルは、2以上のDNNと、前記2以上のDNNそれぞれの一部を融合した構成を含み、前記2以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成される。
なお、これらの全般的または具体的な態様は、装置、方法、システム、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、装置、方法、システム、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
本開示の学習装置等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。
図1は、実施の形態に係る情報処理装置の構成の一例を示すブロック図である。 図2は、図1に示すFusion DNNモデルの構成の一例を示すブロック図である。 図3Aは、図2に示すDNN(映像)の詳細構成の一例を概念的に示す図である。 図3Bは、図2に示すDNN(音声)の詳細構成の一例を概念的に示す図である。 図3Cは、図2に示すFusionの詳細構成の一例を概念的に示す図である。 図4は、実施の形態に係る学習装置の構成の一例を示すブロック図である。 図5は、実施の形態に係る学習方法の処理を示すフローチャートである。 図6Aは、実施例1に係る教師Fusion DNNモデルの構成の一例を示すブロック図である。 図6Bは、実施例1に係る生徒Fusion DNNモデルの構成の一例を示すブロック図である。 図7は、実施例1に係る学習方法を概念的に示す図である。 図8は、実施例1に係る学習方法の処理を示すフローチャートである。 図9は、図8に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。 図10は、実施例1に係る2以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。 図11Aは、実施例2に係る教師Fusion DNNモデルの構成の一例を示すブロック図である。 図11Bは、実施例2に係る生徒Fusion DNNモデルの構成の一例を示すブロック図である。 図12は、実施例2に係る学習方法の処理を示すフローチャートである。 図13は、図12に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。 図14は、実施例2に係る2以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。 図15は、実施例3に係るFusion DNNモデルの構成の一例を示すブロック図である。 図16は、実施例3に係る学習方法を概念的に示す図である。 図17は、実施例3に係る学習方法の処理を示すフローチャートである。 図18は、図17に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。 図19は、実施例3に係る2以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。
本開示の一形態に係る学習装置は、プロセッサと、メモリと、を備え、前記プロセッサは、前記メモリに記録されたプログラムを用いて、2以上のモーダル情報と前記2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNN(Deep Neural Network)モデルを学習させ、前記DNNモデルは、2以上のDNNと、前記2以上のDNNそれぞれの一部を融合した構成を含み、前記2以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成される。
この構成により、単一のモーダル情報ではなく2以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークを学習させることができる。これにより、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。
また、例えば、前記プロセッサは、前記DNNモデルを学習させる際、前記学習用データを用いて、前記DNNモデルを学習させるとともに、前記DNNモデルにおける中間層で前記蒸留を行い、前記蒸留を行う際、前記学習用データのうちの前記2以上のモーダル情報を前記DNNモデルに入力したとき、前記Fusionの中間層の出力を蒸留ラベルとして、前記2以上のDNNそれぞれの中間層の出力を学習させることで、前記蒸留を行うとしてもよい。
これにより、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。さらに、一つのDNNモデル(Fusion DNNモデル)に対して通常学習と蒸留学習とを同時に行えるので、従来、蒸留を行うために必要であった単一のモーダル情報ごとの事前学習が不要となり、学習の工数を減少させることができる。
ここで、例えば、前記蒸留を行う際、前記Fusionの前記中間層の出力として得られる温度付きのソフトマックス関数の出力を前記蒸留ラベルとして、前記2以上のDNNそれぞれの前記中間層の出力として得られる前記温度付きのソフトマックス関数の出力を学習させることで、前記蒸留を行うとしてもよい。
また、例えば、前記教師モデルと前記生徒モデルとは、同一の前記DNNモデルであり、前記プロセッサは、前記DNNモデルを学習させる際、前記学習用データを用いて、前記教師モデルとして前記DNNモデルを学習させ、前記学習用データのうちの前記2以上のモーダル情報を入力したときの、前記教師モデルとして学習させた前記DNNモデルの出力を、当該2以上のモーダル情報を入力したときの、前記生徒モデルとして学習させる前記DNNモデルの出力の正解、かつ、前記生徒モデルとして学習させる前記DNNモデルにおける前記2以上のDNNそれぞれの中間層の出力の正解である蒸留ラベルとして、前記生徒モデルとしての前記DNNモデルを学習させることで、前記蒸留を行うとしてもよい。
これにより、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。さらに、同一のDNNモデル(Fusion DNNモデル)である生徒モデルと教師モデルとに対して、学習と蒸留とを行うので、従来、蒸留を行うために必要であった単一のモーダル情報ごとの事前学習が不要となり、学習の工数を減少させることができる。
また、例えば、前記プロセッサは、前記DNNモデルを学習させる際、前記DNNモデルのうちの前記2以上のDNNそれぞれと同一構成のモデルである第1教師モデルを、前記学習用データのうちの前記2以上のモーダル情報の中で対応する第1モーダル情報と、前記第1モーダル情報に対する正解ラベルとを用いて学習させ、前記DNNモデルと同一構成のモデルであって、学習させた前記第1教師モデルそれぞれの一部を融合した構成を含み、学習させた前記第1教師モデルそれぞれの出力である特徴量が入力されるモデルである教師Fusionと、学習させた前記第1教師モデルとで構成された教師DNNモデルを、前記学習用データを用いて学習させ、学習させた前記教師DNNモデルに、前記2以上のモーダル情報を入力したときの出力を正解とする蒸留ラベルと、前記第1モーダル情報とを用いて、前記2以上のDNNそれぞれを前記生徒モデルとして学習させ、前記蒸留ラベルと、前記2以上のモーダル情報とを用いて、前記DNNモデルを前記生徒モデルとして学習させることで、前記蒸留を行うとしてもよい。
これにより、単一のモーダル情報ではなく2以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークを学習させることができる。よって、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。
また、例えば、前記2以上のDNNそれぞれの最終層は、前記2以上のDNNそれぞれの出力である特徴量を出力する第1全結合層であり、前記Fusionは、前記2以上のDNNそれぞれの前記最終層を連結した層であって前記2以上のDNNそれぞれの出力である特徴量が入力される層を含むとしてもよい。
また、例えば、前記DNNモデルの出力は、前記Fusionの出力として得られる、前記2以上のモーダル情報に対する推論結果であってもよい。
また、例えば、前記2以上のモーダル情報は、対象人物が映る動画像の音声情報と映像情報とを含み、前記DNNモデルは、前記推論結果として、前記対象人物の感情を出力してもよい。
これにより、ニューラルネットワークを用いた推論として対象人物の感情判別を行うことができる。
また、本開示の一形態に係る学習方法は、2以上のモーダル情報と2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNNモデルを学習させ、前記DNNモデルは、2以上のDNNと、前記2以上のDNNそれぞれの一部を融合した構成を含み、前記2以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成される。
また、本開示の一形態に係るプログラムは、2以上のモーダル情報と2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、2以上のDNNと、前記2以上のDNNそれぞれの一部を融合した構成を含み、前記2以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成されるDNNモデルを学習させることを、コンピュータに実行させるためのプログラム。
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
以下では、図面を参照しながら、実施の形態における文書分類装置等の説明を行う。
[情報処理装置10の構成]
図1は、実施の形態に係る情報処理装置10の構成の一例を示すブロック図である。
情報処理装置10は、ニューラルネットワークを用いたコンピュータ等で実現され、図1に示すように入力部11とFusion DNN(Deep Neural Network)モデル12と出力部13とで構成されている。情報処理装置10は、マルチモーダル情報が入力されると、Fusion DNNモデル12で推論処理を行い、その結果である推論結果を出力する。
本実施の形態では、ニューラルネットワークを用いた推論として対象人物の感情判別を行う場合を例に挙げて説明するが、この例に限られない。
[入力部11]
入力部11は、マルチモーダル情報が入力されると、マルチモーダル情報を2以上のモーダル情報に分離して、Fusion DNNモデル12に入力する。
ここで、マルチモーダル情報は、視覚、聴覚、嗅覚、味覚、触覚などの複数の形式(modal)の情報であり、複数の情報とも称される。マルチモーダル情報は、映像、音声、心拍など、対象者に関する情報であってもよいし、対象物の映像及び対象物のセンシング情報など、対象物に関する情報であってもよい。本実施の形態では、マルチモーダル情報は、2以上のモーダル情報からなり、3以上のモーダル情報からなっていてもよい。
なお、情報処理装置10に対象人物の感情判別を行わせる場合、2以上のモーダル情報は、対象人物が映る動画像の音声情報と映像情報とを含むことになる。
[出力部13]
出力部13は、Fusion DNNモデル12により推論処理が行われた結果である推論結果を出力する。
なお、情報処理装置10に対象人物の感情判別を行わせる場合、Fusion DNNモデル12による推論結果として、対象人物の感情を出力する。ここで、対象人物の感情は、入力部11に入力された、対象者に関する2つのモーダル情報すなわち対象人物が映る動画像の音声情報と映像情報とから推論された対象物の感情であって8感情のうちの一の感情が出力される。8感情とは、例えばニュートラル、穏やか、幸せ、悲しみ、怒り、恐れ、嫌悪及び驚きである。
[Fusion DNNモデル12]
Fusion DNNモデル12は、プロセッサと、メモリとを備えたコンピュータに用いられて推論処理を行う。Fusion DNNモデル12は、入力部11から入力された2以上のモーダル情報に対して推論処理を行い、推論結果を出力する。
なお、情報処理装置10に対象人物の感情判別を行わせる場合、Fusion DNNモデル12は、対象人物が映る動画像の音声情報と映像情報とを含む2以上のモーダル情報に対して推論処理を行い、推論結果として、当該対象人物の感情を出力する。
図2は、図1に示すFusion DNNモデル12の構成の一例を示すブロック図である。
本実施の形態では、Fusion DNNモデル12は、図2に示すように、DNN部121と、Fusion122とを備える。
<DNN部121>
DNN部121は、2以上のDNNを有し、入力された2以上のモーダル情報それぞれから、入力された2以上のモーダル情報それぞれの特徴量を算出して出力する。ここで、2以上のDNNそれぞれの最終層は、当該2以上のDNNそれぞれの出力である特徴量を出力する全結合層であってもよい。
本実施の形態では、DNN部121は、図2に示すように、DNN(映像)1211と、DNN(音声)1212と、…DNN(…)121m(mは3以上の整数)とを備える。
≪DNN(映像)1211≫
DNN(映像)1211は、2以上のモーダル情報のうち映像に対応するモーダル情報(映像)が入力され、入力されたモーダル情報(映像)の特徴量を算出して、Fusion122に出力する。
ここで、情報処理装置10に対象人物の感情判別を行わせる場合を例にして、DNN(映像)1211の詳細構成の一例について図3Aを用いて説明する。
図3Aは、図2に示すDNN(映像)1211の詳細構成の一例を概念的に示す図である。
すなわち、DNN(映像)1211は、例えば図3Aに示すように、Conv2Dと、Global Average Poolingと、FC層と、出力層とで構成されてもよい。
Conv2Dは、畳み込みを行うことで、モーダル情報(映像)の特徴を抽出した2次元の特徴マップを出力する畳み込み層である。Conv2Dは、例えば空間方向とチャネル方向の畳み込みを順に行うMobileNet-V1であるが、これに限らない。Conv2Dは、例えば空間方向とチャネル方向の畳み込みを同時に行う多層の畳み込み層で構成されていてもよい。
Global Average Pooling(GAP層)は、Conv2Dが出力した特徴マップの出力を平均して出力する。
FC(Fully Connected)層は、全結合層とも称され、Global Average Poolingから出力された2次元データをフラット(1次元)にして出力する。図3Aに示す例では、FC層は、128個の特徴量を出力する。
出力層は、全結合層からの出力を元に、ソフトマックス関数を用いて確率に変換し、それぞれの領域に正しく分類される確率を最大化することによって分類を行う。図3Aに示す例では、出力層は、8つのノードからなり8感情を分類する。なお、出力層は、DNN(映像)1211に備えられなくてもよい。また、FC層が128個の特徴量をFusion122に出力する場合、この出力層を、中間層と称し、FC層を最終層と称する場合もある。
≪DNN(音声)1212≫
DNN(音声)1212は、2以上のモーダル情報のうち音声に対応するモーダル情報(音声)が入力され、入力されたモーダル情報(音声)の特徴量を算出して、Fusion122に出力する。
ここで、情報処理装置10に対象人物の感情判別を行わせる場合を例にして、DNN(音声)1212の詳細構成の一例について図3Bを用いて説明する。
図3Bは、図2に示すDNN(音声)1212の詳細構成の一例を概念的に示す図である。
すなわち、DNN(音声)1212は、例えば図3Bに示すように、特徴量抽出部と、特徴量ベクトル算出部と、Conv2Dと、ADD層と、Global Average Poolingと、出力層とで構成されてもよい。
特徴量抽出部は、モーダル情報(音声)の特徴量を抽出する。特徴量抽出部は、図3Bに示す例では、モーダル情報(音声)から、例えばMFCC(Mel Frequency Cepstrum Coefficient)などの特徴量を抽出する。なお、MFCCは、人の聴覚特性を考慮しながらスペクトルの概形を表現する特徴量である。
特徴量ベクトル算出部は、特徴量抽出部により抽出された特徴量のベクトル(以下特徴量ベクトルと称する)を算出する。
前段のConv2Dは、畳み込みを行うことで、特徴量ベクトル算出部で算出された特徴量ベクトルの特徴を抽出した特徴マップを出力する畳み込み層である。
ADD層は、Conv2Dからの複数の入力を加算する。
後段のConv2Dは、畳み込みを行うことで、ADD層で合計されたものの特徴を抽出した特徴マップを出力する畳み込み層である。
Global Average Pooling(GAP層)は、後段のConv2Dが出力した特徴マップの出力を平均したものを出力する。なお、GAP層はFC層であってもよい。
出力層は、Global Average Poolingから出力されたものを元に、ソフトマックス関数を用いて確率に変換し、それぞれの領域に正しく分類される確率を最大化することによって分類を行う。出力層は、図3Bに示す例では、8つのノードからなり8感情を分類する。なお、出力層は、DNN(音声)1212に備えられなくてもよい。また、GAP層が128個の特徴量をFusion122に出力する場合、この出力層を、中間層と称し、GAP層を最終層と称する場合もある。
≪DNN(…)121m≫
DNN(…)121mは、2以上のモーダル情報のうち対応するモーダル情報(…)が入力され、入力されたモーダル情報(…)の特徴量を算出して、Fusion122に出力する。
なお、詳細構成は、対応するモーダル情報(…)によって異なり、対応するモーダル情報(…)から算出したい特徴量に適応する構成であればよい。
<Fusion122>
Fusion122は、DNN部121を構成する2以上のDNNそれぞれの一部を融合した構成を含み、当該2以上のDNNそれぞれの出力である特徴量が入力される。より具体的には、Fusion122は、2以上のDNNそれぞれの最終層を連結した層であって2以上のDNNそれぞれの出力である特徴量が入力される層を含む。Fusion122は、入力された特徴量から、推論を行う。
ここで、情報処理装置10に対象人物の感情判別を行わせる場合を例にして、Fusion122の詳細構成の一例について図3Cを用いて説明する。
図3Cは、図2に示すFusion122の詳細構成の一例を概念的に示す図である。
すなわち、Fusion122は、例えば図3Cに示すように、FC層と、出力層とで構成されてもよい。
FC層は、DNN部121を構成する2以上のDNNそれぞれの一部(例えば最終層)であるFC層またはGlobal Average Poolingを融合したものであり、当該2以上のDNNそれぞれの出力である特徴量が入力される。FC層は、図3Cに示す例では、2以上のDNNそれぞれの一部として、DNN(映像)1211のFC層及びDNN(音声)1212のGlobal Average Poolingが融合された層である。FC層は、DNN(映像)1211のFC層及びDNN(音声)1212それぞれから出力された特徴量のベクトルを足し合わせた256個の特徴量のベクトルを、特徴量として出力する。
出力層は、前段のFC層からの出力を元に、ソフトマックス関数を用いて確率に変換し、それぞれの領域に正しく分類される確率を最大化することによって分類を行う。出力層は、図3Cに示す例でも、8つのノードからなり8感情を分類する。
以上のように構成されるFusion DNNモデル12の出力は、Fusion122の出力として得られる、2以上のモーダル情報に対する推論結果である。
続いて、以上のように構成されるFusion DNNモデル12を学習するための学習装置20について説明する。
[学習装置20]
図4は、実施の形態に係る学習装置20の構成の一例を示すブロック図である。
学習装置20は、CPUなどのプロセッサ(マイクロプロセッサ)、メモリ等を備えるコンピュータで実現される。学習装置20は、例えば図4に示すように、取得部21と、学習処理部22と、モデル部23とを備える。
<取得部21>
取得部21は、2以上のモーダル情報と2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを取得する。また、取得部21は、モデル部23から蒸留ラベル(ソフトターゲット)を取得してもよい。
<学習処理部22>
学習処理部22は、取得部21が取得した学習用データを用いて、モデル部23に格納されたモデルに対して蒸留を利用した学習を行う。なお、学習処理部22は、不図示のプロセッサとメモリとを備え、プロセッサは、メモリに記録されたプログラムを用いて、学習処理を行う。
より具体的には、学習処理部22は、学習用データを用いて、かつ、蒸留を行って、Fusion DNNモデルを学習させる。Fusion DNNモデルは、DNNモデルの一例である。Fusion DNNモデルは、上述したように、2以上のDNNと、当該2以上のDNNそれぞれの一部を融合した構成を含み、当該2以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成される。また、Fusion122は、2以上のDNNそれぞれの一部を融合した構成を含み、当該2以上のDNNそれぞれの出力である特徴量が入力される。より具体的には、Fusion122は、2以上のDNNそれぞれの最終層を連結した層であって2以上のDNNそれぞれの出力である特徴量が入力される層を含む。
ここで、蒸留について説明する。
蒸留は、知識の蒸留(Knowledge Distillation)とも呼ばれ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である。
典型的には、蒸留は、教師モデルである大きくて複雑なニューラルネットワークを学習させ、学習させた教師モデルの出力を知識として、生徒モデルである小さくて軽量なニューラルネットワークの学習に利用する。これにより、小さくて軽量なニューラルネットワークである生徒モデルでありながら教師モデルに匹敵する精度のモデルを得ることができる。
本実施の形態では、生徒モデルと教師モデルとで同一アーキテクチャのモデルを用いて蒸留を行う。これにより、教師モデルの知識が同じアーキテクチャの生徒モデルに蒸留されることで、教師モデルを凌ぐ推論の精度を得ること、すなわち推論の精度をより向上させることを図っている。
<モデル部23>
モデル部23は、学習処理部22が学習対象とするニューラルネットワークを含むモデルを格納する。モデル部23が格納するモデルは、学習処理部22により蒸留を利用した学習が行われる。
本実施の形態では、モデル部23は、Fusion DNNモデル、Fusion DNNモデルを構成する2以上のDNNそれぞれ、または、Fusion DNNモデルを構成するFusionを、学習対象とするモデルとして格納する。
[学習装置20の動作]
続いて、上述のように構成された学習装置20の動作の一例について以下説明する。
図5は、実施の形態に係る学習方法の処理を示すフローチャートである。
学習装置20は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップS10及びステップS20の処理を行う。
より具体的には、まず、学習装置20は、2以上のモーダル情報と、当該2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを準備する(S10)。
次に、学習装置20は、ステップS10で準備された学習用データを用いて、かつ、蒸留を行って、Fusion DNNモデル20を学習させる(S20)。
[効果等]
このようにして、学習装置20は、単一のモーダル情報ではなく2以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークであるFusion DNNモデル12を学習させることができる。
より具体的には、学習装置20は、2以上のモーダル情報を用いてFusion DNNモデル12を学習させるので、単一のモーダル情報で学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度を向上させることができる。さらに、Fusion DNNモデル12に対して蒸留学習を行うことで、2以上のモーダル情報を用いて学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度をさらに向上させることができる。
以下、実施例1~実施例3を挙げて、本実施の形態に係る蒸留を利用したFusion DNNモデルの学習方法の具体的態様について説明する。
(実施例1)
まず、実施例1では、教師モデルとしてFusion DNNモデル12の個々の構成に対して学習させ、その後、生徒モデルとしてFusion DNNモデル12の個々の構成に対して蒸留学習させる学習方法について説明する。なお、以下では、情報処理装置10に対象人物の感情判別を行わせる場合の構成等について説明するが、一例でありこれに限られない。
図6Aは、実施例1に係る教師Fusion DNNモデル12aの構成の一例を示すブロック図である。図6Bは、実施例1に係る生徒Fusion DNNモデル12bの構成の一例を示すブロック図である。教師Fusion DNNモデル12aと生徒Fusion DNNモデル12bとは、同一アーキテクチャのモデルであり、上述したFusion DNNモデル12の構成と同じである。
教師Fusion DNNモデル12aは、図6Aに示すように、教師DNN部121aと、教師Fusion122aとを備える。教師DNN部121aは、教師DNN(映像)1211aと、教師DNN(音声)1212aとを備える。
教師DNN(映像)1211aの詳細構成は、図3Aに示されるDNN(映像)1211と同様であり、教師DNN(音声)1212aの詳細構成も、図3Bに示されるDNN(音声)1212と同様である。また、教師Fusion122aの詳細構成は、図3Cに示されるFusion122と同様である。このため、教師DNN(映像)1211a、教師DNN(音声)1212a及び教師Fusion122aの詳細構成についての説明を省略する。
このように構成される教師Fusion DNNモデル12aは、図2に示すFusion DNNモデル12のDNN部121が2つのDNNのみを有する場合に相当し、モーダル情報(映像)及びモーダル情報(音声)の2つのモーダル情報が入力され、推論結果として8感情を分類する。また、図6Aでは、モーダル情報(映像)及びモーダル情報(音声)を映像データ及び音声データとして表現している。
生徒Fusion DNNモデル12bは、図6Bに示すように、生徒DNN部121bと、生徒Fusion122bと、を備える。生徒DNN部121bは、生徒DNN(映像)1211bと、生徒DNN(音声)1212bとを備える。
生徒DNN(映像)1211bの詳細構成は、図3Aに示されるDNN(映像)1211と同様であり、生徒DNN(音声)1212bの詳細構成は、図3Bに示されるDNN(音声)1212と同様である。また、生徒Fusion122bの詳細構成は、図3Cに示されるFusion122と同様である。このため、生徒DNN(映像)1211b、生徒DNN(音声)1212b及び生徒Fusion122bの詳細構成についての説明を省略する。
このように構成される生徒Fusion DNNモデル12bは、図2に示すFusion DNNモデル12のDNN部121が2つのDNNのみを有する場合に相当し、モーダル情報(映像)及びモーダル情報(音声)の2つのモーダル情報が入力され、推論結果として8感情を分類する。また、図6Bでも、モーダル情報(映像)及びモーダル情報(音声)を映像データ及び音声データとして表現している。
図7は、実施例1に係る学習方法を概念的に示す図である。
図7に示すように、実施例1に係る学習方法では、学習済の教師Fusion DNNモデル12aの出力を蒸留ラベル(ソフトターゲット)として用いて、生徒Fusion DNNモデル12bの個々の構成を学習させる。
より具体的には、学習済の教師Fusion DNNモデル12aの出力を蒸留ラベルとして用いて、生徒DNN(映像)1211bを蒸留学習させる。図7に示す例では、学習済の教師Fusion DNNモデル12aの出力と生徒DNN(映像)1211bの出力として、logitsを温度パラメータTで割った値を入力とした温度付きのソフトマックス関数の出力を用いて、誤差関数により蒸留学習させている。なお、ここでの誤差関数は、例えばL2ノルムであってもよいし、MAE(Mean Absolute Error)であってもよい。また、logitsとは、ソフトマックス関数に入力する手前の層の出力(変数)である。
同様に、学習済の教師Fusion DNNモデル12aの出力を蒸留ラベルとして用いて、生徒DNN(音声)1212bを蒸留学習させる。図7に示す例では、学習済の教師Fusion DNNモデル12aの出力と生徒DNN(音声)1212bの出力として、logitsを温度パラメータTで割った値を入力とした温度付きのソフトマックス関数の出力を用いて、誤差関数により蒸留学習させている。なお、ここでの誤差関数も、例えばL2ノルムであってもよいし、MAEであってもよい。
また、学習済の教師Fusion DNNモデル12aの出力を蒸留ラベルとして用いて、生徒Fusion122bを蒸留学習させる。
次に、図7で概念的に示した実施例1に係る学習方法の処理について図8を用いて説明する。
図8は、実施例1に係る学習方法の処理を示すフローチャートである。図9は、図8に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。図8及び図9において、モーダル情報(映像)及びモーダル情報(音声)は映像データ及び音声データとして表現されている。
学習装置20は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップS101~ステップS206の処理を行う。
より具体的には、まず、学習装置20は、学習用データを、学習用の音声データと映像データとに分離する(S101)。また、学習装置20は、学習対象のモデルとして、教師Fusion DNNモデル12aをモデル部23に格納する。
次に、学習装置20は、学習用の映像データと、当該映像データそれぞれに対する正解ラベルとを用いて、教師Fusion DNNモデル12aのうちの教師DNN(映像)1211aを学習させる(S201)。
次に、学習装置20は、学習用の音声データと、当該音声データそれぞれに対する正解ラベルとを用いて、教師Fusion DNNモデル12aのうちの教師DNN(音声)1212aを学習させる(S202)。
次に、学習装置20は、教師Fusion DNNモデル12aを、学習用データすなわち学習用の映像データ、音声データ及び対応する正解ラベルを用いて学習させる(S203)。ここで、学習される教師Fusion DNNモデル12aは、教師Fusion122aと、ステップS201で学習させた教師DNN(映像)1211aと、ステップS202で学習させた教師DNN(音声)1212aとで構成される。教師Fusion122aは、ステップS201で学習させた教師DNN(映像)1211aの一部と、ステップS202で学習させた教師DNN(音声)1212aの一部を融合させた構成を有する。
次に、学習装置20は、学習用の映像データと、蒸留ラベルとしての当該映像データそれぞれに対する学習済の教師Fusion DNNモデル12aの出力とを用いて、生徒Fusion DNNモデル12bのうちの生徒DNN(映像)1211bを、蒸留学習させる(S204)。なお、学習装置20は、ステップS204を行う前に、学習対象のモデルとして、生徒Fusion DNNモデル12bをモデル部23に格納している。
次に、学習装置20は、学習用の音声データと、蒸留ラベルとしての当該音声データそれぞれに対する学習済の教師Fusion DNNモデル12aの出力とを用いて、生徒Fusion DNNモデル12bのうちの生徒DNN(音声)1212bを、蒸留学習させる(S205)。
次に、学習装置20は、学習用データと、蒸留ラベルとしての当該学習用の音声データ及び映像データに対する、学習済の教師Fusion DNNモデル12aの出力とを用いて、生徒Fusion DNNモデル12bを、蒸留学習させる(S206)。ここで、蒸留学習される生徒Fusion DNNモデル12bは、生徒Fusion122bと、ステップS204で蒸留学習させた生徒DNN(映像)1211bと、ステップS205で蒸留学習させた生徒DNN(音声)1212bとで構成される。生徒Fusion122bは、ステップS204で蒸留学習させた生徒DNN(映像)1211bの一部と、ステップS205で蒸留学習させた生徒DNN(音声)1212bの一部を融合させた構成を有する。
なお、ステップS204、S205及びS206において、当該学習用の音声データ及び映像データに対する、学習済の教師Fusion DNNモデル12aの出力を、共通の蒸留ラベルとして用いてもよい。共通の蒸留ラベルとしての学習済の教師Fusion DNNモデル12aの出力の数が多い場合には、ステップS204、S205及びS206においてそれぞれの蒸留ラベルを用いる場合と比較して同等の推論結果の精度を得られ、有用である。
なお、上記では、映像データ及び音声データと表現したモーダル情報(映像)及びモーダル情報(音声)の2つのモーダル情報が入力され、推論結果として8感情を分類するFusion DNNモデル12の個々の構成を蒸留学習する場合について説明したが、これに限らない。
2以上のモーダル情報が入力され、分類結果を含む推論結果を出力するFusion DNNモデル12を蒸留学習してもよい。
この場合、学習装置20は、図2に示すFusion DNNモデル12と同一アーキテクチャのモデルを、教師モデルまたは生徒モデルとして格納し、上記同様に、教師モデルの個々の構成を学習後に、生徒モデルを蒸留学習させればよい。
この場合の学習方法の処理について図10を用いて説明する。
図10は、実施例1に係る2以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。以下では、学習済の教師モデルであるFusion DNNモデル12の出力を共通の蒸留ラベルとして、生徒モデルとしてのFusion DNNモデル12の個々の構成を蒸留学習する場合について説明する。なお、共通の蒸留ラベルとしてのデータ数が少ない場合には、図8で説明したように、各モーダル情報に対する学習済の教師モデルであるFusion DNNモデルの出力を、蒸留ラベルとして用いるとよい。
学習装置20は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップS211~ステップS214の処理を行う。
より具体的には、まず、学習装置20は、学習対象のモデルとして、教師モデルとなる図2に示すFusion DNNモデル12をモデル部23に格納する。
次に、学習装置20は、DNN部121を構成する2以上のDNNそれぞれと同一構成のモデルである第1教師モデルを、学習用データのうちの2以上のモーダル情報の中で対応する第1モーダル情報と、第1モーダル情報に対する正解ラベルとを用いて学習させる(S211)。ここで、第1教師モデルは、教師モデルとなる図2に示すFusion DNNモデル12のDNN(映像)1211、DNN(音声)1212、…及びDNN(…)121mのそれぞれである。第1教師モデルのそれぞれは、対応するモーダル情報と正解ラベルとを用いて学習される。
次に、学習装置20は、教師モデルとなるFusion DNNモデル12すなわち教師Fusion DNNモデルを、2以上のモーダル情報と対応する正解ラベルとで構成される学習用データを用いて学習させる(S212)。ここで、教師Fusion DNNモデルは、Fusion DNNモデル12と同一構成(つまり同一アーキテクチャ)のモデルであって、教師モデルとなるFusionすなわち教師Fusionと、ステップS211で学習させた第1教師モデルとで構成される。教師Fusionは、ステップS211で学習させた第1教師モデルそれぞれの一部を融合した構成を含み、ステップS211で学習させた第1教師モデルそれぞれの出力である特徴量が入力されるモデルである。
次に、学習装置20は、ステップS212で学習させた教師Fusion DNNモデルの出力である蒸留ラベルと、2以上のモーダル情報の中で対応する第1モーダル情報とを用いて、2以上のDNNそれぞれを生徒モデルとして蒸留学習させる(S213)。なお、この蒸留ラベルは、ステップS212で学習させた教師Fusion DNNモデルに、2以上のモーダル情報を入力したときの出力である。この蒸留ラベルは、ステップS213の蒸留学習時に正解として扱われる。
次に、学習装置20は、ステップS212で学習させた教師Fusion DNNモデルの出力である当該蒸留ラベルと、2以上のモーダル情報とを用いて、Fusion DNNモデルを生徒モデルとして蒸留学習させる(S214)。なお、この蒸留ラベルは、ステップS214の蒸留学習時に正解として扱われる。
以上のように、実施例1の学習方法等によれば、単一のモーダル情報ではなく2以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークであるFusion DNNモデル12を学習させることができる。
これにより、実施例1の学習方法等では、2以上のモーダル情報を用いて学習させるので、単一のモーダル情報で学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度を向上させることができる。さらに、蒸留を行うことで、2以上のモーダル情報を用いて学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度をさらに向上させることができる。
よって、実施例1の学習方法等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。
(実施例2)
次に、実施例2では、教師モデルとしてFusion DNNモデルを学習させ、その後、生徒モデルとしてのFusion DNNモデルの出力を、その中間層の出力とともに蒸留ラベルを用いて蒸留学習させる場合について説明する。なお、以下でも、情報処理装置10に対象人物の感情判別を行わせる場合の構成等について説明するが、一例でありこれに限られない。
図11Aは、実施例2に係る教師Fusion DNNモデル12cの構成の一例を示すブロック図である。図11Bは、実施例2に係る生徒Fusion DNNモデル12dの構成の一例を示すブロック図である。教師Fusion DNNモデル12cと生徒Fusion DNNモデル12dは、同一アーキテクチャのモデルであり、上述したFusion DNNモデル12の構成と同じである。
教師Fusion DNNモデル12cは、図11Aに示すように、教師DNN部121cと、教師Fusion122cとを備える。教師DNN部121cは、教師DNN(映像)1211cと、教師DNN(音声)1212cとを備える。
教師DNN(映像)1211cの詳細構成は、図3Aに示されるDNN(映像)1211と同様であり、教師DNN(音声)1212cの詳細構成は、図3Bに示されるDNN(音声)1212と同様であるため、ここでの説明を省略する。なお、図11Aに示されるように、教師DNN(映像)1211c及び教師DNN(音声)1212cは、特徴量を出力するとともに、推論結果すなわち分類した8感情を出力する。本実施例では、教師DNN(映像)1211c及び教師DNN(音声)1212cは、特徴量を出力する層以外の層から推論結果すなわち分類した8感情を出力する。以下、特徴量を出力する層以外の層を中間層と称する。
また、教師Fusion122cの詳細構成は、図3Cに示されるFusion122と同様であるため、ここでの説明を省略する。
このように構成される教師Fusion DNNモデル12cは、図2に示すFusion DNNモデル12のDNN部121が2つのDNNのみを有する場合に相当し、モーダル情報(映像)及びモーダル情報(音声)の2つのモーダル情報が入力され、推論結果として8感情を分類する。また、図11Aでも、モーダル情報(映像)及びモーダル情報(音声)を映像データ及び音声データとして表現している。
生徒Fusion DNNモデル12dは、図11Bに示すように、生徒DNN部121dと、生徒Fusion122dとを備える。生徒DNN部121dは、生徒DNN(映像)1211dと、生徒DNN(音声)1212dとを備える。
生徒DNN(映像)1211dの詳細構成は、図3Aに示されるDNN(映像)1211と同様であり、生徒DNN(音声)1212dの詳細構成は、図3Bに示されるDNN(音声)1212と同様であるため、ここでの説明を省略する。なお、図11Bに示されるように、生徒DNN(映像)1211d及び生徒DNN(音声)1212dは、特徴量を出力するとともに、推論結果すなわち分類した8感情を出力する。本実施例では、生徒DNN(映像)1211d及び生徒DNN(音声)1212dは、特徴量を出力する層以外の層から推論結果すなわち分類した8感情を出力する。以下、特徴量を出力する層以外の層を中間層と称する。
また、生徒Fusion122dの詳細構成は、図3Cに示されるFusion122と同様であるため、ここでの説明を省略する。
このように構成される生徒Fusion DNNモデル12dは、図2に示すFusion DNNモデル12のDNN部121が2つのDNNのみを有する場合に相当し、モーダル情報(映像)及びモーダル情報(音声)の2つのモーダル情報が入力され、推論結果として8感情を分類する。また、図11Bでも、モーダル情報(映像)及びモーダル情報(音声)を映像データ及び音声データとして表現している。
図12は、実施例2に係る学習方法の処理を示すフローチャートである。図13は、図12に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。図12及び図13において、モーダル情報(映像)及びモーダル情報(音声)は映像データ及び音声データとして表現されている。以下では、学習済の教師モデルであるFusion DNNモデルの出力を共通の蒸留ラベルとして用いる場合について説明する。なお、共通の蒸留ラベルとしてのデータ数が少ない場合には、実施例1と同様に、各モーダル情報に対する学習済の教師モデルであるFusion DNNモデルの出力を蒸留ラベルとして用いるとよい。図13には、この場合の図12に示す学習方法の処理が示されている。このため、以下で説明する学習方法の処理では、図13に示される映像データ&蒸留ラベルと音声データ&蒸留ラベルとは、映像データ及び音声データ&蒸留ラベルとなる。
学習装置20は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップS101~ステップS223の処理を行う。
より具体的には、まず、学習装置20は、学習用データを、学習用の音声データと映像データとに分離する(S101)。また、学習装置20は、学習対象のモデルとして、教師Fusion DNNモデル12cをモデル部23に格納する。
次に、学習装置20は、学習用の映像データ及び音声データと、当該映像データ及び音声データそれぞれに対する正解ラベルとを用いて、教師Fusion DNNモデル12cを学習させる(S221)。
次に、学習装置20は、学習用の映像データ及び音声データに対する学習済の教師Fusion DNNモデル12cの出力を蒸留ラベルとして取得する(S222)。なお、この蒸留ラベルは、例えば8感情の分類結果(推論結果)となっている。
次に、学習装置20は、学習用の映像データ及び音声データと、ステップS222で取得した蒸留ラベルとを用いて、生徒Fusion DNNモデル12dを、蒸留学習させる(S223)。より具体的には、学習装置20は、学習用の映像データ及び音声データと、ステップS222で取得した蒸留ラベルとを用いて、生徒Fusion DNNモデル12dを、蒸留学習させる。それとともに、学習装置20は、学習用の映像データ及び音声データと、ステップS222で取得した蒸留ラベルとを用いて、生徒DNN(映像)1211d及び生徒DNN(音声)1212dを蒸留学習させる。
なお、上記では、映像データ及び音声データと表現したモーダル情報(映像)及びモーダル情報(音声)の2つのモーダル情報が入力され、推論結果として8感情を分類するFusion DNNモデル12を、蒸留学習する場合について説明したが、これに限らない。
2以上のモーダル情報が入力され、分類結果を含む推論結果を出力するFusion DNNモデル12を蒸留学習してもよい。
この場合、学習装置20は、図2に示すFusion DNNモデル12と同一アーキテクチャのモデルを、教師モデルまたは生徒モデルとして格納し、上記同様に、教師モデルの学習後に、生徒モデルを、学習済の教師モデルの中間層の出力も使って蒸留学習させればよい。
この場合の学習方法の処理について図14を用いて説明する。
図14は、実施例2に係る2以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。
学習装置20は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップS231及びステップS232の処理を行う。なお、ステップS231及びステップS232の処理を行う際の、教師モデルと生徒モデルとは、同一アーキテクチャのFusion DNNモデル12である。
より具体的には、まず、学習装置20は、学習対象のモデルとして、教師モデルとなる図2に示すFusion DNNモデル12をモデル部23に格納する。
次に、学習装置20は、教師Fusion DNNモデルすなわち教師モデルとなるFusion DNNモデル12を、学習用データを用いて学習させる(S231)。
次に、学習装置20は、ステップS231で学習済の教師Fusion DNNモデルの出力である蒸留ラベルを用いて、生徒モデルとしてのFusion DNNモデルの出力とその中間層の出力とを、蒸留学習させる(S232)。ここで、蒸留ラベルは、学習済の教師Fusion DNNモデルの出力であり、例えば8感情の分類結果などの推論結果である。また、この蒸留ラベルは、ステップS232において、生徒モデルとしてのFusion DNNモデルの出力の正解、かつ、生徒モデルとしてのFusion DNNモデルの中間層の出力の正解として用いられる。
以上のように、実施例2の学習方法等によれば、単一のモーダル情報ではなく2以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークであるFusion DNNモデル12を学習させることができる。
これにより、実施例2の学習方法等では、2以上のモーダル情報を用いて学習させるので、単一のモーダル情報で学習させる場合と比較してニューラルネットワークを用いた推論結果の精度を向上させることができる。また、蒸留を行うことで、2以上のモーダル情報を用いて学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度をさらに向上させることができる。
よって、実施例2の学習方法等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。
さらに、実施例2の学習方法を行うことで、入力される2以上のモーダル情報が、学習済のFusion DNNモデル12を構成する2以上のDNNの数よりも少なくても、学習済のFusion DNNモデル12は、正常に動作して、推論結果を出力することができる。
また、実施例2の学習方法によれば、同一のDNNモデルである生徒モデルと教師モデルとに対して、学習と蒸留とを行うので、従来、蒸留を行うために必要であった単一のモーダル情報ごとの事前学習が不要となり、学習の工数を減少させることができる。
また、実施例2の学習方法によれば、実施例1と比較して、Fusion DNNモデル12の各構成を単一のモーダル情報で学習しなくてもよく、学習に要する工数を削減できる。
(実施例3)
次に、実施例3では、蒸留技術を応用して、Fusion DNNモデルに対して学習と蒸留学習とを同時に行う場合について説明する。なお、以下でも、情報処理装置10に対象人物の感情判別を行わせる場合の構成等について説明するが、一例でありこれに限られない。
図15は、実施例3に係るFusion DNNモデル12eの構成の一例を示すブロック図である。図15に示すFusion DNNモデル12eは、図2に示すFusion DNNモデル12がDNN部121で2つのDNNのみを有する場合と同一アーキテクチャのモデルである。
Fusion DNNモデル12eは、図15に示すように、DNN部121eと、Fusion122eとを備える。DNN部121eは、DNN(映像)1211eと、DNN(音声)1212eとを備える。
DNN(映像)1211eの詳細構成は、図3Aに示されるDNN(映像)1211と同様であり、DNN(音声)1212eの詳細構成は、図3Bに示されるDNN(音声)1212と同様であるため、ここでの説明を省略する。なお、図15に示されるように、DNN(映像)1211e及びDNN(音声)1212eは、特徴量を出力するとともに、推論結果すなわち分類した8感情を出力する。本実施例でも、DNN(映像)1211e及びDNN(音声)1212eは、特徴量を出力する層以外の層である中間層から推論結果すなわち分類した8感情を出力するとして説明する。
また、Fusion122eの詳細構成は、図3Cに示されるFusion122と同様であるため、ここでの説明を省略する。
このように構成されるFusion DNNモデル12eは、図2に示すFusion DNNモデル12のDNN部121が2つのDNNのみを有する場合に相当し、モーダル情報(映像)及びモーダル情報(音声)の2つのモーダル情報が入力され、推論結果として8感情を分類する。また、図15でも、モーダル情報(映像)及びモーダル情報(音声)を映像データ及び音声データとして表現している。
図16は、実施例3に係る学習方法を概念的に示す図である。
図16に示すように、実施例3に係る学習方法では、Fusion DNNモデル12eを学習(通常学習)させるとともに、Fusion DNNモデル12eにおける中間層で蒸留学習させる。
より具体的には、映像データ及び音声データと対応する正解ラベルとを用いてFusion DNNモデル12eを学習する。これと同時に、当該映像データ及び音声データをFusion DNNモデル12eに入力したとき、1)Fusion122eの中間層の出力から得られる蒸留ラベルを正解として、2)DNN(映像)1211e及びDNN(音声)1212eそれぞれの中間層の出力を蒸留学習させる。
図16に示す蒸留学習の例では、Fusion122eの中間層の出力として得られる温度付きのソフトマックス関数の出力を蒸留ラベルとしている。そして、DNN(映像)1211e及びDNN(音声)1212eそれぞれの中間層の出力として得られる温度付きのソフトマックス関数の出力を、蒸留ラベルを用いて蒸留学習させる。なお、図16に示す例では、温度付きのソフトマックス関数の出力を用いて誤差関数により蒸留学習させているが、ここでの誤差関数は、例えばL2ノルムであってもよいし、MAEであってもよい。
図17は、実施例3に係る学習方法の処理を示すフローチャートである。図18は、図17に示す学習方法の処理をデータの流れとDNNモデルの流れとで表現した図である。図17及び図18において、モーダル情報(映像)及びモーダル情報(音声)は映像データ及び音声データとして表現されている。
学習装置20は、プロセッサとメモリとを備え、プロセッサとメモリに記録されたプログラムとを用いて、以下のステップS101及びステップS241の処理を行う。
より具体的には、まず、学習装置20は、学習用データを、学習用の音声データと映像データとに分離する(S101)。また、学習装置20は、学習対象のモデルとしてFusion DNNモデル12eを、モデル部23に格納する。
次に、学習装置20は、学習用の映像データ及び音声データと対応する正解ラベルを含む学習用データを用いて、Fusion DNNモデル12eを学習させるとともに、Fusion DNNモデル12eの中間層で蒸留学習させる(S241)。
蒸留学習の詳細は、次の通りである。すなわち、学習装置20は、当該映像データ及び音声データをFusion DNNモデル12eに入力したときに、Fusion122eの中間層の出力を蒸留ラベルとして、DNN(映像)1211e及びDNN(音声)1212eそれぞれの中間層の出力を蒸留学習させる。
なお、上記では、映像データ及び音声データと表現したモーダル情報(映像)及びモーダル情報(音声)の2つのモーダル情報が入力され、推論結果として8感情を分類するFusion DNNモデル12eを、蒸留学習する場合について説明したが、これに限らない。
2以上のモーダル情報が入力され、分類結果を含む推論結果を出力するFusion DNNモデル12を蒸留学習してもよい。
この場合、学習装置20は、図2に示すFusion DNNモデル12と同一アーキテクチャのモデルを格納し、上記同様に、学習と蒸留学習とを同時に行えばよい。
この場合の学習方法の処理について図19を用いて説明する。
図19は、実施例3に係る2以上のモーダル情報を用いた学習方法の処理を示すフローチャートである。
学習装置20は、プロセッサとメモリとを備え、プロセッサと、メモリに記録されたプログラムとを用いて、以下のステップS251の処理を行う。
より具体的には、まず、学習装置20は、学習対象のモデルとして、図2に示すFusion DNNモデル12をモデル部23に格納する。
次に、学習装置20は、学習用データを用いて、Fusion DNNモデル12を学習させるとともに、学習用データのうちの2以上のモーダル情報をFusion DNNモデル12に入力したとき、Fusionの中間層の出力を蒸留ラベルとして、2以上のDNNそれぞれの中間層の出力を蒸留学習させる(S251)。
以上のように、実施例3の学習方法等によれば、単一のモーダル情報ではなく2以上のモーダル情報とそれらの正解データとを含む学習用データを用いることに加えて、蒸留を行ってニューラルネットワークであるFusion DNNモデル12を学習させることができる。
これにより、実施例3の学習方法等では、2以上のモーダル情報を用いて学習させるので、単一のモーダル情報で学習させる場合と比較してニューラルネットワークを用いた推論結果の精度を向上させることができる。また、蒸留を行うことで、2以上のモーダル情報を用いて学習させる場合と比較して、ニューラルネットワークを用いた推論結果の精度をさらに向上させることができる。
よって、実施例3の学習方法等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができる。
さらに、実施例3の学習方法を行うことで、入力される2以上のモーダル情報が、Fusion DNNモデル12を構成する2以上のDNNの数よりも少なくても、学習済のFusion DNNモデル12は、正常に動作して、推論結果を出力することができる。
また、実施例3の学習方法によれば、一つのFusion DNNモデル12に対して通常学習と蒸留学習とを同時に行えるので、従来、蒸留を行うために必要であった単一のモーダル情報ごとの事前学習が不要となり、学習の工数を減少させることができる。
さらに、実施例3の学習方法によれば、実施例2と比較して、Fusion DNNモデル12の各構成を単一のモーダル情報で学習しなくてもよく、さらに蒸留学習を行う回数を最小限に減らせるので、さらに学習に要する工数を削減できる。
(実施例4)
実施例4では、実施例1~実施例3で説明した蒸留を利用した学習方法の有効性について検証した。その実験結果について以下説明する。
本実験では、学習用データとして、RAVDESS(The Ryerson Audio-Visual Database of Emotional Speech and Song)を用いた。ここで、RAVDESSは、男女24人(男12人、女12人)のアメリカ英語話者の感情演技動画のデータセットである。1つの動画の長さは5~10秒程度であり、2880個のSpeechと2024個のSongとの動画からなる。動画それぞれには、ニュートラル(neutral)、穏やか(calm)、幸せ(happy)、悲しみ(sad)、怒り(angry)、恐れ(fearful)、嫌悪(disgust)または驚き(surprised)の8感情とそれに対する分類タグが付与されている。
<実験条件>
本実験では、学習率を0.0001、バッチサイズを32に設定し、それ以外のパラメータをデフォルト(初期値)としてAdam optimizerを用いて学習を行った。また、学習は、それぞれepoch数を~200程度とし、Validationデータで学習が進まなくなったら終了するとした。また、誤差関数(Loss Function)としてはMAEを利用した。
また、本実験では、図2に示すFusion DNNモデル12のDNN部121が2つのDNNのみを有し、モーダル情報(映像)及びモーダル情報(音声)の2つのモーダル情報が入力され、推論結果として8感情を分類するFusion DNNモデルを学習に用いた。Fusion DNNモデルの各構成は、図3A~図3Cで示したものを用いた。
<実験結果>
本実験では、実施例1~実施例3で説明した蒸留を利用した学習方法で学習したFusion DNNモデルの感情認識精度を評価した。評価は、k‐fold cross validationを利用して行った。ここで、k‐fold cross validationは、予測モデルの汎化性能を正確に検証する方法として知られており、k分割交差検証とも称される。k‐fold cross validationを利用して評価する場合、例えば訓練データセットをk個のサブセットに分割して、そのうちk-1個のサブセットで学習し、残りの1個のサブセットで評価(検証)するという作業をすべての組み合わせに対して行う。k分割の場合は、計k回の学習と評価を繰り返すことになる。
本実験では、RAVDESSのデータセットにおいて、4-foldで人に対して分割を行い、18人のデータを使って6人の評価を行うということを×4回行った。これにより、2880個+2024個の学習データをランダムに分割してk-folで評価を行う場合と比較して、評価対象者が学習データに含めずに評価するため、タスクとしては難しいがより正確に評価できる。
その結果、実施例1の学習方法では0.73程度、実施例2の学習方法では0.75程度、実施例3の学習方法では0.76程度の感情認識精度を得た。比較例として、蒸留を利用せずに、Fusion DNNモデルの各構成をそれぞれ学習させた学習方法では、0.70程度であった。
以上の実験結果から、実施例1~3の学習方法等によれば、ニューラルネットワークを用いた推論結果の精度をより向上させることができることがわかった。
これにより、実施例1~実施例3で説明した蒸留を利用した学習方法の有効性が検証できた。
(他の実施態様の可能性)
以上、実施の形態において本開示の学習装置、学習方法及びプログラムについて説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。
なお、本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
また、本開示は、さらに、以下のような場合も含まれる。
(1)上記の装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
(5)また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
本開示は、ニューラルネットワークの学習装置、学習方法及びプログラムに利用でき、特に、対象人物についての2以上のモーダル情報から、対象人物の感情を推論する場合に用いることができる車両などに搭載されるニューラルネットワークの学習装置、学習方法及びプログラムに利用できる。
10 情報処理装置
11 入力部
12 Fusion DNNモデル
12a、12c 教師Fusion DNNモデル
12b、12d 生徒Fusion DNNモデル
13 出力部
20 学習装置
21 取得部
22 学習処理部
23 モデル部
121、121e DNN部
121a、121c 教師DNN部
121b、121d 生徒DNN部
122、122e Fusion
122a、122c 教師Fusion
122b、122d 生徒Fusion
1211、1211e DNN(映像)
1211a、1211c 教師DNN(映像)
1211b、1211d 生徒DNN(映像)
1212、1212e DNN(音声)
1212a、1212c 教師DNN(音声)
1212b、1212d 生徒DNN(音声)
121m DNN(…)

Claims (10)

  1. プロセッサと、
    メモリと、を備え、
    前記プロセッサは、前記メモリに記録されたプログラムを用いて、
    2以上のモーダル情報と前記2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNN(Deep Neural Network)モデルを学習させ、
    前記DNNモデルは、2以上のDNNと、前記2以上のDNNそれぞれの一部を融合した構成を含み、前記2以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成され
    前記プロセッサは、
    前記DNNモデルを学習させる際、
    前記学習用データを用いて、前記DNNモデルを学習させるとともに、前記DNNモデルにおける中間層で前記蒸留を行う、
    学習装置。
  2. 前記プロセッサは
    前記蒸留を行う際、
    前記学習用データのうちの前記2以上のモーダル情報を前記DNNモデルに入力したとき、前記Fusionの中間層の出力を蒸留ラベルとして、前記2以上のDNNそれぞれの中間層の出力を学習させることで、前記蒸留を行う、
    請求項1に記載の学習装置。
  3. 前記蒸留を行う際、
    前記Fusionの前記中間層の出力として得られる温度付きのソフトマックス関数の出力を前記蒸留ラベルとして、前記2以上のDNNそれぞれの前記中間層の出力として得られる前記温度付きのソフトマックス関数の出力を学習させることで、前記蒸留を行う、
    請求項2に記載の学習装置。
  4. 前記教師モデルと前記生徒モデルとは、同一の前記DNNモデルであり、
    前記プロセッサは、
    前記DNNモデルを学習させる際、
    前記学習用データを用いて、前記教師モデルとして前記DNNモデルを学習させ、
    前記学習用データのうちの前記2以上のモーダル情報を入力したときの、前記教師モデルとして学習させた前記DNNモデルの出力を、当該2以上のモーダル情報を入力したときの、前記生徒モデルとして学習させる前記DNNモデルの出力の正解、かつ、前記生徒モデルとして学習させる前記DNNモデルにおける前記2以上のDNNそれぞれの中間層の出力の正解である蒸留ラベルとして、前記生徒モデルとしての前記DNNモデルを学習させることで、前記蒸留を行う、
    請求項1に記載の学習装置。
  5. プロセッサと、
    メモリと、を備え、
    前記プロセッサは、前記メモリに記録されたプログラムを用いて、
    2以上のモーダル情報と前記2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNN(Deep Neural Network)モデルを学習させ、
    前記DNNモデルは、2以上のDNNと、前記2以上のDNNそれぞれの一部を融合した構成を含み、前記2以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成され、
    前記プロセッサは、
    前記DNNモデルを学習させる際、
    前記DNNモデルのうちの前記2以上のDNNそれぞれと同一構成のモデルである第1教師モデルを、前記学習用データのうちの前記2以上のモーダル情報の中で対応する第1モーダル情報と、前記第1モーダル情報に対する正解ラベルとを用いて学習させ、
    前記DNNモデルと同一構成のモデルであって、学習させた前記第1教師モデルそれぞれの一部を融合した構成を含み、学習させた前記第1教師モデルそれぞれの出力である特徴量が入力されるモデルである教師Fusionと、学習させた前記第1教師モデルとで構成された教師DNNモデルを、前記学習用データを用いて学習させ、
    学習させた前記教師DNNモデルに、前記2以上のモーダル情報を入力したときの出力を正解とする蒸留ラベルと、前記第1モーダル情報とを用いて、前記2以上のDNNそれぞれを前記生徒モデルとして学習させ、
    前記蒸留ラベルと、前記2以上のモーダル情報とを用いて、前記DNNモデルを前記生徒モデルとして学習させることで、前記蒸留を行う、
    習装置。
  6. 前記2以上のDNNそれぞれの最終層は、前記2以上のDNNそれぞれの出力である特徴量を出力する第1全結合層であり、
    前記Fusionは、前記2以上のDNNそれぞれの前記最終層を連結した層であって前記2以上のDNNそれぞれの出力である特徴量が入力される層を含む、
    請求項1~5のいずれか1項に記載の学習装置。
  7. 前記DNNモデルの出力は、前記Fusionの出力として得られる、前記2以上のモーダル情報に対する推論結果である、
    請求項1~6のいずれか1項に記載の学習装置。
  8. 前記2以上のモーダル情報は、対象人物が映る動画像の音声情報と映像情報とを含み、
    前記DNNモデルは、前記推論結果として、前記対象人物の感情を出力する、
    請求項7に記載の学習装置。
  9. 2以上のモーダル情報と2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、DNNモデルを学習させ、
    前記DNNモデルは、2以上のDNNと、前記2以上のDNNそれぞれの一部を融合した構成を含み、前記2以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成され
    前記DNNモデルを学習させる際、
    前記学習用データを用いて、前記DNNモデルを学習させるとともに、前記DNNモデルにおける中間層で前記蒸留を行う、
    学習方法。
  10. 2以上のモーダル情報と2以上のモーダル情報それぞれに対する正解ラベルとで構成される学習用データを用いて、かつ、教師モデルが学習した知識を生徒モデルの学習に利用する技術である蒸留を行って、2以上のDNNと、前記2以上のDNNそれぞれの一部を融合した構成を含み、前記2以上のDNNそれぞれの出力である特徴量が入力されるFusionとで構成されるDNNモデルを学習させることを、
    コンピュータに実行させ、
    前記DNNモデルを学習させる際、
    前記学習用データを用いて、前記DNNモデルを学習させるとともに、前記DNNモデルにおける中間層で前記蒸留を行う、
    プログラム。
JP2020106847A 2020-06-22 2020-06-22 学習装置、学習方法及びプログラム Active JP7475105B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020106847A JP7475105B2 (ja) 2020-06-22 2020-06-22 学習装置、学習方法及びプログラム
US17/314,832 US20210397954A1 (en) 2020-06-22 2021-05-07 Training device and training method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020106847A JP7475105B2 (ja) 2020-06-22 2020-06-22 学習装置、学習方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2022002023A JP2022002023A (ja) 2022-01-06
JP7475105B2 true JP7475105B2 (ja) 2024-04-26

Family

ID=79022365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020106847A Active JP7475105B2 (ja) 2020-06-22 2020-06-22 学習装置、学習方法及びプログラム

Country Status (2)

Country Link
US (1) US20210397954A1 (ja)
JP (1) JP7475105B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200128938A (ko) 2019-05-07 2020-11-17 삼성전자주식회사 모델 학습 방법 및 장치
GB202206105D0 (en) * 2022-04-27 2022-06-08 Samsung Electronics Co Ltd Method for knowledge distillation and model generation
CN114664290B (zh) * 2022-05-17 2022-08-19 深圳比特微电子科技有限公司 声音事件检测方法、装置及可读存储介质
US20240127047A1 (en) * 2022-10-13 2024-04-18 GE Precision Healthcare LLC Deep learning image analysis with increased modularity and reduced footprint
CN115496077B (zh) * 2022-11-18 2023-04-18 之江实验室 一种基于模态观察和评分的多模态情感分析方法和装置
CN115762484B (zh) * 2023-01-09 2023-06-02 季华实验室 用于语音识别的多模态数据融合方法、装置、设备及介质
CN116719945B (zh) * 2023-08-08 2023-10-24 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质
CN117610608B (zh) * 2023-10-20 2024-08-27 重庆理工大学 基于多阶段特征融合的知识蒸馏方法、设备及介质
CN118230752B (zh) * 2024-01-31 2024-10-25 安徽大学 语音分离模型的训练方法和装置、语音分离方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019167883A1 (ja) 2018-02-28 2019-09-06 富士フイルム株式会社 機械学習装置および方法
JP2019200671A (ja) 2018-05-17 2019-11-21 大日本印刷株式会社 学習装置、学習方法、プログラム、データ生成方法及び識別装置
US20200160843A1 (en) 2018-11-16 2020-05-21 Deepmind Technologies Limited Cross-modal sequence distillation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019167883A1 (ja) 2018-02-28 2019-09-06 富士フイルム株式会社 機械学習装置および方法
JP2019200671A (ja) 2018-05-17 2019-11-21 大日本印刷株式会社 学習装置、学習方法、プログラム、データ生成方法及び識別装置
US20200160843A1 (en) 2018-11-16 2020-05-21 Deepmind Technologies Limited Cross-modal sequence distillation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KRUTHIVENTI, Srinivas S. S. et al.,"Low-light pedestrian detection from RGB images using multi-modal knowledge distillation",2017 IEEE International Conference on Image Processing (ICIP) [online],IEEE,2017年09月,p. 4207-4211,[2023年12月25日検索],インターネット<URL:https://ieeexplore.ieee.org/document/8297075>,DOI: 10.1109/ICIP.2017.8297075
LI, Wei et al.,"Improving Audio-visual Speech Recognition Performance with Cross-modal Student-teacher Training",2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) [online],IEEE,2019年03月,p. 6560-6564,[2023年12月25日検索],インターネット<URL:https://ieeexplore.ieee.org/document/8682868>,DOI: 10.1109/ICASSP.2019.8682868
原田誠一 ほか,"モダリティを統合したDNNの認識・単一化複合タスクによる感情の数理的表現",電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2019年12月,Vol. 119,No. 348,HIP2019-65

Also Published As

Publication number Publication date
US20210397954A1 (en) 2021-12-23
JP2022002023A (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
JP7475105B2 (ja) 学習装置、学習方法及びプログラム
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
Alam et al. Survey on deep neural networks in speech and vision systems
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
EP3915063B1 (en) Multi-model structures for classification and intent determination
KR102306658B1 (ko) 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치
US20220172710A1 (en) Interactive systems and methods
KR102586799B1 (ko) 인공지능 모델을 활용한 웹소설 기반 웹북 생성 자동화 처리 방법, 장치 및 시스템
CN109447129A (zh) 一种多模式情绪识别方法、装置及计算机可读存储介质
CN111557010A (zh) 学习装置和方法以及程序
Somogyi The Application of Artificial Intelligence
Rungta et al. A deep learning based approach to measure confidence for virtual interviews
CN108810625A (zh) 一种多媒体数据的播放控制方法、装置及终端
Rodrigues et al. Classification of facial expressions under partial occlusion for VR games
Filali et al. Meaningful learning for deep facial emotional features
KR102564182B1 (ko) 인공지능 모델을 활용하여 영상 데이터 기반 얼굴 표정 영상 추출 및 이를 활용한 콘텐츠 생성 방법, 장치 및 시스템
US11798578B2 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
Karras et al. A Hybrid Ensemble Deep Learning Approach for Emotion Classification
Cambria et al. Speaker-independent multimodal sentiment analysis for big data
CN115936801A (zh) 基于神经网络的产品推荐方法、装置、设备和存储介质
CN112328774B (zh) 基于多文档的任务型人机对话任务的实现方法
CN113886539A (zh) 话术推荐方法、装置、客服设备及存储介质
KR20220021470A (ko) 시퀀싱 및 플래닝을 위한 시스템
Ramesh Chandra et al. Emoji Creation from Facial Expression Detection Using CNN

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240301

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20240304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240410

R150 Certificate of patent or registration of utility model

Ref document number: 7475105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150