JP7184831B2

JP7184831B2 - 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法

Info

Publication number: JP7184831B2
Application number: JP2020015574A
Authority: JP
Inventors: パニコスイラクレウス
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-01-31
Filing date: 2020-01-31
Publication date: 2022-12-06
Anticipated expiration: 2040-01-31
Also published as: JP2021124531A

Description

本発明は、音声から、当該音声の発声主体に係る情報を推定する技術に関する。

現在、発話者（発声主体）の感情をその音声から推定する感情推定技術が大いに注目されている。このような感情推定技術は、今後、ユーザ（人間）とコンピュータとが関わり合う場面でより重要な役割を果たすことが予測される。

例えば、警察や救急病院等への通報がなされた緊急事態において、通報者の電話での音声からその感情状態をコンピュータが瞬時に推定できれば、その感情推定結果に基づき、より適切な対応や配慮が可能となる。また、例えば対話ロボットが、対話先のユーザの感情状態を推定することにより、その感情に合った動作・振る舞いを実施することもできる。さらには、コールセンターにおいてオペレータが、電話対応先である顧客の感情状態をコンピュータ経由で認識できれば、例えば当該顧客の満足度を的確に把握することも可能となるのである。

このような音声による感情推定技術の開発には従来、種々様々な識別・分類器や音声特徴量抽出法が用いられてきた。このうち識別・分類器については、混合ガウスモデル（ＧＭＭ，Gaussian Mixture Models）、隠れマルコフモデル（ＨＭＭ，Hidden Markov Models）や、サポートベクタマシン（ＳＶＭ，Support Vector Machines）、さらにはニューラルネットワーク（ＮＮ，Neural Networks）や、ディープニューラルネットワーク（ＤＮＮ，Deep Neural Networks）等が利用されている。一方、特徴量抽出については、i-vectors、メル周波数ケプストラム係数（ＭＦＣＣ，Mel-Frequency Cepstral Coefficients）や、ＬＬＤ（Low-Level Descriptors）等が採用されてきた。

ここで、以上に説明した音声による感情推定技術は従来、例えば非特許文献１に開示された技術のように、その大多数が特定の１つの言語による音声を対象とした技術である。これに対し、複数の言語による音声に対応した多言語対応の感情推定技術は、例えば非特許文献２に開示されたものを含め極少数にとどまっている。

そのような状況の下、本願発明者は、非特許文献３を筆頭著者として著し、新たに考案した多言語対応の感情推定技術を提案している。この技術では、言語識別モデルを利用して最初に入力音声の言語種別を特定し（言語を識別し）、次いで特定した言語種別に応じた感情認識モデルを用いて感情の推定を実施している。すなわち、２度の認識・識別処理を実施することにより、感情推定における多言語対応を図っているのである。

C. Busso, M. Bulut, and S. Narayanan, "Toward Effective Automatic Recognition Systems of Emotion in Speech" In Social emotions in nature and artifact: emotions in human and human-computer interaction, S. Marsella J. Gratch, Ed. Oxford University Press, pp.110-127, ２０１３年 X. Li and M. Akagi, "Improving Multilingual Speech Emotion Recognition by Combining Acoustic Features in a Three-layer Model" Speech Communication (a publication of the European Association for Signal Processing), vol. 110, pp. 1-12, ２０１９年 Panikos Heracleous, Akio Yoneyama, "A Comprehensive Study on Bilingual and Multilingual Speech Emotion Recognition Using a Two-pass Classification Scheme", ２０１９年８月, [online], ［令和１年１２月２０日検索］, インターネット＜URL: https://doi.org/10.1371/journal.pone.0220386＞

現在、外国語会話教室・教育機関の現場や、多数の外国人とのコミュニケーションが常時発生するような空港や免税店等の施設、さらには電話等を介した外国人を含むユーザ向けサービス提供の現場では、様々な言語を第１言語とする可能性のあるユーザに対し、その音声から感情推定を実施したいニーズが少なからず存在し、今後もますます増大していくことが予想される。したがって、少なくとも１つの言語に限定されない実用的な感情推定技術の開発が大いに望まれるところとなっている。

しかしながら、上述したように多言語対応の感情推定技術は未だ極少数にとどまっており、またそのうちの非特許文献２に開示された技術にしても、実際に発せられた音声を利用する観点からすると、少ない種別の言語について感情推定結果が得られているにすぎない。特に、この非特許文献２の技術は、ＤＮＮといったような高度の機械学習アルゴリズムを使用しておらず、先進的とは言えない識別・分類器や特徴量抽出技術の利用にとどまっており、それ故、多言語の音声に対する感情推定における推定精度の点では依然、課題が残っている。

また、上述した非特許文献３に開示された技術は、言語識別に関し決定論的（deterministic）であり、最初の言語識別処理において言語種別を確定させた上で、その確定結果に基づいて感情推定処理を実施している。したがって、確定した言語種別が誤りであった場合、最終的な感情推定結果に対する信頼性は低下してしまう。

そこで、本発明は、音声からその発話者（発声主体）の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる感情推定モデル及び装置、並びに当該モデルの生成方法を提供することを目的とする。

本発明によれば、入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分と、
当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分と、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部と、
当該結合部の出力から、当該音声データの発声主体に係る感情種別を推定する感情推定部と
を有する感情推定モデルが提供される。

この本発明による感情推定モデルにおいて、当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを、当該感情特徴抽出部自身に係る言語の音声データとして、感情に係る特徴を抽出することも好ましい。またこの場合、当該結合部は複数の結合部であって、当該複数の結合部はそれぞれ、当該言語識別モデル部分の出力と、上記の複数の感情認識モデル部分のそれぞれの出力とを結合することも好ましい。

または、本発明による感情推定モデルにおいて、当該言語識別モデル部分は、互いに異なる種別の言語に係る複数の言語識別モデル部分であって、各言語識別モデル部分の言語特徴抽出部は、当該音声データについて、自身に係る種別の言語の音声データであるか否かに関する特徴を抽出し、
当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを自身に係る言語の音声データとして、感情に係る特徴を抽出し、
当該結合部は、互いに異なる種別の言語に係る複数の結合部であって、当該互いに異なる種別の言語毎に、当該種別の言語に係る結合部が、当該種別の言語に係る言語識別モデル部分の出力と、当該種別の言語に係る感情認識モデル部分の出力とを結合する
ことも好ましい。

また、本発明による感情推定モデルにおいて、当該感情認識モデル部分は、互いに異なる感情種別に係る複数の感情特徴抽出部を有し、各感情特徴抽出部は、当該音声データについて、自身に係る感情種別に係る音声データであるか否かに関する特徴を抽出することも好ましい。

さらに、本発明による感情推定モデルにおいて、当該言語識別モデル部分は、学習済みの言語識別モデルにおいて少なくともその出力部を外したものであり、当該感情認識モデル部分は、学習済みの感情認識モデルにおいて少なくともその出力部を外したものであることも好ましい。

さらにまた、本発明による感情推定モデルにおいて、当該結合部及び当該感情推定部は、学習済みの当該言語識別モデル部分と学習済みの当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を行うことによって学習済みとなった部分であることも好ましい。また、本発明による感情推定モデルにおいて、当該言語識別モデル部分、当該感情認識モデル部分、当該結合部及び当該感情推定部はニューラルネットワークで構成されていることも好ましい。

本発明によれば、また、以上に述べたような感情推定モデルを用いて、入力された音声データから、当該音声データの発声主体に係る感情を推定する感情推定装置が提供される。

本発明によれば、さらに、
入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分を、学習済みの言語識別モデルにおいてその出力部を外すことによって生成し、また、当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分を、学習済みの感情認識モデルにおいて少なくともその出力部を外すことによって生成するステップと、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部を生成するステップと、
当該結合部の出力側に、当該音声データの発声主体に係る感情種別を推定するための感情推定部を付与するステップと、
当該言語識別モデル部分と当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を実施するステップと
を有することを特徴とするコンピュータによる感情推定モデルの生成方法が提供される。

本発明による感情推定モデル及び感情推定装置によれば、音声からその発話者（発声主体）の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。また、本発明による感情推定モデルの生成方法によれば、そのような感情推定モデルを生成することが可能となる。

本発明による感情推定モデルを用いて感情推定処理を実施する感情推定装置の一実施形態を示す模式図である。本発明に係る結合スコア生成部を生成する処理における一実施形態を概略的に示す模式図である。本発明に係る多言語対応感情推定モデル１の構築（学習）方法の一実施形態を説明するための模式図である。本発明による感情推定モデルにおける他の実施形態を示す模式図である。本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。本発明による多言語対応感情推定モデルを用いて実際に感情推定処理を実施した実施例における感情推定結果を説明するためのテーブルである。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

［感情推定装置，感情推定モデル］
図１は、本発明による感情推定モデルを用いて感情推定処理を実施する感情推定装置の一実施形態を示す模式図である。

図１に示した本実施形態の感情推定装置９は、ユーザ（発声主体であり、以後発話者とも称する）の発話音声を例えばマイクを介して取り込んで音声データとし、その音声データから、本発明による構築（学習）済みの多言語対応感情推定モデル１を用いて当該ユーザの感情を推定する装置であり、具体的には、当該ユーザが発話時に、如何なる感情種別に該当する感情状態にあるのかについての情報を決定する。

また同じく図１に示した本実施形態の多言語対応感情推定モデル１は、互いに異なる複数の言語（例えば英語、イタリア語及びスペイン語等）による発話音声のうち、いずれの音声データを入力しても、その音声データに係る発話者の感情に係るスコアを出力可能なように構築されている。その結果、本実施形態の感情推定装置９は、これら複数の言語のうちのいずれかを発声するユーザに対し、その音声から感情推定を実施することができるのである。

ここで具体的に、多言語対応感情推定モデル１はその特徴として、
（Ａ）入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部（図１では言語特徴抽出層）を備えた「言語識別モデル部分」（図１では言語識別モデル部分１１１）と、
（Ｂ）当該音声データから感情に係る特徴を抽出する感情特徴抽出部（図１では感情特徴抽出層）を備えた「感情認識モデル部分」（図１では複数の感情認識モデル部分１１２Ａ，１１２Ｂ，１１２Ｃ，・・・）と、
（Ｃ）「言語識別モデル部分」の出力と、「感情認識モデル部分」の出力とを結合する「結合部（concatenating部，merging部）」（図１では複数の結合層１１３Ａ，１１３Ｂ，１１３Ｃ，・・・）と、
（Ｄ）「結合部」の出力から、当該音声データの発話者（発声主体）に係る感情種別を推定する「感情推定部」（図１では感情推定部１２）と
を有している。

このように、多言語対応感情推定モデル１においては、「言語識別モデル部分」の出力と、「感情認識モデル部分」の出力とを結合した上で、「感情推定部」において感情推定処理を実施する。ここで、「言語識別モデル部分」の出力は、当該音声データから言語特徴抽出部によって抽出された、当該音声データの言語に係る特徴を示す量となっており、１つの言語種別を特定する量（当該音声データの言語種別を１つに決定した量）とはなっていない。

この点、比較例として、最初に言語識別処理を行って言語種別を確定させた上でその確定結果に基づいて感情推定処理を実施する従来技術のケースを考えると、確定した言語種別が誤りであった場合、最終的な感情推定結果の信頼性は低下してしまうことになる。

これに対し、多言語対応感情推定モデル１によれば、言語識別に関し上述したように決定論的（deterministically）ではなく非確定的・発見的（heuristically）に処理を実施することができ、その結果、音声からその発話者（発声主体）の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することが可能となるのである。

ここで、図１に示した本実施形態の多言語対応感情推定モデル１においては、上記構成（Ｂ）の「感情認識モデル部分」は、互いに異なる種別の言語（図１では言語Ａ，Ｂ，Ｃ，・・・）に係る複数の感情認識モデル部分、すなわち、言語Ａ感情認識モデル部分１１２Ａ，言語Ｂ感情認識モデル部分１１２Ｂ，言語Ｃ感情認識モデル部分１１２Ｃ，・・・となっている。

また、これらの感情認識モデル部分（１１２Ａ，１１２Ｂ，１１２Ｃ，・・・）の感情特徴抽出部は、当該音声データを自身に係る言語（例えば、言語Ｂ感情認識モデル部分１１２Ｂであれば言語Ｂ）の音声データとして、感情に係る特徴を抽出するのであり、さらに、これらの感情認識モデル部分（１１２Ａ，１１２Ｂ，１１２Ｃ，・・・）の出力（特徴抽出結果）の各々が、「結合部」において「言語識別モデル部分」の出力と個別に対をなして結合される（concatenated, merged）のである。

これにより、これら複数の言語（図１では言語Ａ，Ｂ，Ｃ，・・・）のうちのいずれかを発声する発話者に対し、当該発話者の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することが可能となるのである。

なお、多言語対応感情推定モデル１の上記構成（Ａ）～（Ｄ）は、当該モデルを実現する機械学習アルゴリズムを具現したプログラムの構成・構造を表現したものである。ここで本実施形態において適用されている機械学習アルゴリズムは、本技術分野において先進的とされているＤＮＮ（Deep Neural Networks）であり、当該モデルにおける推定精度の向上を含む高性能化に資するものとなっている。

ただし当然に、多言語対応感情推定モデル１を実現する機械学習アルゴリズムは、ＤＮＮに限定されるものではない。しかしながら、言語種別に係る特徴や感情に係る特徴を取り扱うことを考慮すると、「言語識別モデル部分」、「感情認識モデル部分」、「結合部」及び「感情推定部」は、ＤＮＮを含めニューラルネットワーク（ＮＮ，Neural Networks）で構成されることも好ましいのである。

また、感情推定装置９（多言語対応感情推定モデル１）が推定する「感情」は本実施形態において、予め設定された複数の感情種別、例えば"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"の５つのうちのいずれか１つとして表されることができ、または、予め設定された複数の感情種別の各々についてのスコア（当該感情種別であることの確からしさ）の組として表現されてもよい。

［モデル構成］
同じく図１によれば、多言語対応感情推定モデル１は、感情推定装置９に搭載された本発明による感情推定プログラムに取り込まれて感情推定処理の主要ステップを実行可能にするモデルであり、その構成要素として、入力層１０と、結合スコア生成部１１Ａ、１１Ｂ及び１１Ｃと、感情推定部１２とを備えている。またこのうち、結合スコア生成部１１Ａ、１１Ｂ及び１１Ｃは、
（ａ）共通（共用）の言語識別モデル部分１１１と、
（ｂ）それぞれ感情認識モデル部分１１２Ａ、１１２Ｂ及び１１２Ｃと、
（ｃ）それぞれ結合層１１３Ａ、１１３Ｂ及び１１３Ｃと
を備えている。

ここで以上では、結合スコア生成部として言語Ａ、Ｂ及Ｃに対応する３つを挙げたが、多言語対応感情推定モデル１がＮ（Ｎは２以上の整数）個の言語に対応するものであるならば、これらの結合スコア生成部と同様の構造を有するＮ個の結合スコア生成部（言語識別モデル部分、感情認識モデル部分及び結合層）が設けられることになる。このように、多言語対応感情推定モデル１においては、対応すべき様々な言語の組合せに応じ、その構造を容易に変更することも可能となるのである。

ちなみにこの後、結合スコア生成部（言語識別モデル部分、感情認識モデル部分及び結合層）１１Ａ、１１Ｂ及び１１Ｃの各々について行う説明の内容は、Ｎ個の結合スコア生成部が設けられた場合における各結合スコア生成部（言語識別モデル部分、感情認識モデル部分及び結合層）についても当てはまることになる。

同じく図１において、感情推定装置９は、入力部９１と、学習部９２と、感情推定部９３と、出力部９４とを備えており、このうち学習部９２及び感情推定部９３は、本発明による感情推定プログラムの一実施形態を保存したプロセッサ・メモリの機能と捉えることができる。またこのことから、感情推定装置９は、感情推定の専用装置であってもよいが、本発明による感情推定プログラムを搭載した、例えばクラウドサーバ、非クラウドのサーバ装置、パーソナル・コンピュータ（ＰＣ）、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることも可能である。

以下、上述した各構成要素について説明を行う。最初に、入力層１０は、感情推定対象である発話者の音声に係る音声データを取り込み、当該音声データを結合スコア生成部１１Ａ、１１Ｂ及び１１Ｃの各々へ分配し入力する。ここで、当該音声データは、例えば、様々な協会・組織によって提供されている学習データ源としてのネイティブコーパスに収められている音声データと同様の形式のデータとすることができる。

同じく図１において、結合スコア生成部１１Ａでは（他の結合スコア生成部においても同様であるが）、
（ア）言語識別モデル部分１１１の言語特徴抽出層において、受け取った音声データから「言語種別に係る特徴」を抽出し、
（イ）感情認識モデル部分１１２Ａの言語Ａ感情特徴抽出層において、受け取った音声データから「感情に係る特徴」を抽出し、
（ウ）結合層１１３Ａにおいて、受け取った「言語種別に係る特徴」及び「感情に係る特徴」を結合（concatenate）し、両特徴の融合（merge）した結果である「結合感情スコア」を生成し出力する。

ここで本実施形態では、後に詳細に説明するが、言語識別モデル部分１１１及び感情認識モデル部分１１２Ａはそれぞれ、例えば、
（ａ）学習済みのＤＮＮ言語識別モデルにおいてその出力部（例えばsoftmax層）を外したもの、及び
（ｂ）（言語Ａの音声データによって）学習済みのＤＮＮ感情認識モデルにおいてその出力部（例えばsoftmax層）を外したもの
である。したがって、それらの言語特徴抽出層や言語Ａ感情特徴抽出層は、それらのＤＮＮモデルにおける出力部（出力層）以前の層部分となっている。

またそれ故、上記（イ）の言語Ａ感情特徴抽出層で抽出される「感情に係る特徴」は、当該音声データを、（言語Ａ感情特徴抽出層自体に係る言語である）言語Ａの音声データであるとみなして抽出したものとなっており、さらにその結果、上記（ウ）の「結合感情スコア」は、当該音声データが言語Ａであるか否かの言語特徴情報と、言語Ａとした場合の発話者の感情を特徴付ける感情特徴情報とをともに反映した指標値であると把握することができるのである。

また、結合スコア生成部１１Ｂ及び１１Ｃにおいても、その出力である「結合感情スコア」につき、その内容を上記と同様に理解することができるのである。

ここで、結合スコア生成部１１Ａ、１１Ｂ及び１１Ｃから出力される「結合感情スコア」の各々には、共通の（共有の）１つの言語識別モデル部分１１１が関わっている。すなわち、言語識別モデル部分１１１は、異なる言語に係る複数の（ここでは３つの）感情認識モデル部分の各々に対し、その感情認識能を向上させる役割を果たしている。

またさらに、これらの感情認識モデル部分のうち、受け取った（入力された）音声データの言語と同じ言語に係る感情認識モデル部分が結局、データに対する重み付けの観点から常に優位に働くのであるから、これらの感情認識モデル部分全体を見渡した場合にも、言語識別モデル部分１１１は、その全体における感情認識能を向上させるように機能するものと理解される。

具体的には例えば、受け取った（入力された）音声データの言語とは異なる言語に係る感情認識モデル部分の出力は、言語識別モデル部分１１１の出力と結合することによってエラーデータとして適切に学習されるのである。

図２は、本発明に係る結合スコア生成部を生成する処理における一実施形態を概略的に示す模式図である。ここで図２には、結合スコア生成部１１Ａ（１１Ａ’）の生成方法が示されているが、当然に他の結合スコア生成部１１Ｂ，１１Ｃ，・・・も、同様の方法で生成することが可能である。

図２に示した実施形態によれば、最初に、学習を受ける前の言語識別モデル１１１’及び感情認識モデル１１２Ａ’の各々に対し学習処理を実施して、学習済みのモデルを構築している。

ここで、言語識別モデル１１１’及び感情認識モデル１１２Ａ’は、例えば全結合型のＤＮＮで構成されたものとすることができる。また本実施形態において、言語識別モデル１１１’の出力層（出力部）におけるニューロン数は、多言語対応感情推定モデル１が対応可能な言語の数（例えば言語Ａ、Ｂ及びＣに対応可能ならば3）に設定される。さらに、感情認識モデル１１２Ａ’の出力層（出力部）におけるニューロン数は、多言語対応感情推定モデル１が識別する感情種別の数（例えば感情種別が"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"ならば5）に設定される。また本実施形態において、感情認識モデル１１２Ａ’に対しては特に、正解ラベルの付与された言語Ａの音声データを学習データとして、学習処理を実施することとなる。

次いで同じく図２に示すように、学習済みとなった言語識別モデル１１１’及び感情認識モデル１１２Ａ’から、出力層を取り外して、それぞれ言語識別モデル部分１１１及び感情認識モデル部分１１２Ａとするのである。

最後に、生成した言語識別モデル部分１１１及び感情認識モデル部分１１２Ａの出力側を結合層１１３Ａ’に接続し、結合スコア生成部１１Ａ’を構成する。ここで、結合層１１３Ａ’は、例えば全結合型のＤＮＮで構成されたものとすることができ、言語識別モデル部分１１１の出力である「言語種別に係る特徴」と、感情認識モデル部分１１２Ａの出力である「感情に係る特徴」とを結合（concatenate）させる機能を果たす。

なお、この結合スコア生成部１１Ａ’は、後に図３を用いて説明するように多言語対応感情推定モデル全体に対し学習処理が実施された後には、結合スコア生成部１１Ａ（図１）として機能し、感情推定処理時には「言語種別に係る特徴」と「感情に係る特徴」との融合（merge）した結果である「結合感情スコア」を生成し出力するのである。

なお、以上の説明では、取り外す出力層（出力部）はsoftmax層そのものであったが、変更態様として、全結合層部分とsoftmax層とで構成される部位を、取り外す出力層（出力部）としてもよい。また以上の説明では、取り外す対象は出力層（出力部）となっているが、この出力層（出力部）と合わせて、当該出力層に接続された中間層の後段部分も取り外したものを、言語識別モデル部分１１１及び感情認識モデル部分１１２Ａとしてもよい。

図１に戻って、感情推定部１２は、
（ａ）結合スコア生成部１１Ａの出力である言語Ａに係る「結合感情スコア」と、
（ｂ）結合スコア生成部１１Ｂの出力である言語Ｂに係る「結合感情スコア」と、
（ｃ）結合スコア生成部１１Ｃの出力である言語Ｃに係る「結合感情スコア」と、
・・・
を全て取りまとめて入力とし、最初に入力された音声データの発話者（発声主体）に係る感情種別を推定する。

例えば感情推定部１２は、感情推定層を含み、具体的には全結合型のＤＮＮで構成されたものであってもよい。また、感情推定部１２の出力層（出力部）におけるニューロン数は、多言語対応感情推定モデル１が識別する感情種別の数（例えば感情種別が"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"ならば5）に設定されることができる。

ちなみにこの場合、感情推定部１２による最終的な推定結果は、出力層における各ニューロンの出力値、すなわち各感情種別（例えば"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"の各々）についてのスコアの組となる。ここで例えば、最もスコアの高い感情種別を、発話者について推定される感情に決定してもよい。

いずれにしても、感情推定部１２は、対応すべき各言語に係る「結合感情スコア」をさらに統合して処理することにより、いずれの言語の音声データに対しても、高い精度で発話者の感情を推定可能とするのである。

さらに、この感情推定部１２を含め多言語対応感情推定モデル１全体を見てみると、本実施形態のモデル１は、入力される音声データの言語種別を決定しないまま、当該言語種別の特徴を考慮しつつ各言語についての（単言語用）感情認識器を並行して同時に動作させ、最後にそれらの認識結果を好適に統合したモデルである、と理解することもできる。

またそれ故、多言語対応感情推定モデル１においては、対応すべき言語の種別及びその数を、任意に設定することが容易に可能となっている。また、新たな種別の言語を対応すべき言語としてモデル１に追加する場合でも、モデル構成の小変更（マイナーチェンジ）で済むのである。

［モデルの構築（学習）］
図３は、本発明に係る多言語対応感情推定モデル１の構築（学習）方法の一実施形態を説明するための模式図である。

図３に示した実施形態によれば、最初に、学習前の多言語対応感情推定モデル１’として、（図２を用いて詳細に説明を行った）結合スコア生成部１１Ａ’、１１Ｂ’及び１１Ｃ’の出力側に、学習前の感情推定部１２’を接続したものを用意している。

次いで、この学習前の多言語対応感情推定モデル１’に対し、誤差逆伝播（バックプロパゲーション）アルゴリズムをもって学習処理を行い、多言語対応感情推定モデル１を構築する。ここでこの際、結合スコア生成部１１Ａ’、１１Ｂ’及び１１Ｃ’内の言語識別モデル部分１１１及び感情認識モデル部分１１２Ａ、１１２Ｂ及び１１２Ｃは、学習対象外として凍結（freeze）する。

すなわち、これらのモデル部分は、図２を用いて説明したように、すでに学習済みの特徴抽出層を含んでおり、その学習結果（決定された層間重み）をそのまま、多言語対応感情推定モデル１に活用するのである。これにより、より効率的に高い推定精度の多言語対応感情推定モデル１を構築することも可能となる。

さらに、以上に説明したことから理解されるように、多言語対応感情推定モデル１における結合層１１３Ａ、１１３Ｂ及び１１３Ｃ並びに感情推定部１２は、（言語識別モデル部分及び感情認識モデル部分を学習対象外とした上で）多言語対応感情推定モデル全体の学習処理を行うことによって、学習済みとなったのである。

ここで、図２及び図３を用いて説明した学習処理に使用する学習データについて説明する。このような学習データの一生成方法として、例えば外部の音声データコーパスから取得した（正解感情ラベル付きの）全音声データ群を、第１のトレーニングデータ群、第２のトレーニングデータ群、及び検証データ群に分けてもよい。次いで、このうち、
（ａ）第１のトレーニングデータ群のデータを、図２の説明で言及した言語識別モデル１１１’及び感情認識モデル１１２Ａ’を構築するための学習データとして使用し、
（ｂ）第２のトレーニングデータ群のデータを、図３を用いて説明した多言語対応感情推定モデル１’を構築するための学習データとして使用し、さらに、
（ｃ）検証データ群のデータを、構築した学習済みの多言語対応感情推定モデル１のテスト用として使用する
ことも好ましいのである。

［モデルの他の実施形態］
図４は、本発明による感情推定モデルにおける他の実施形態を示す模式図である。

図４によれば、本実施形態の多言語対応感情推定モデル２は、図１に示した多言語対応感情推定モデル１と同様、入力層（２０）と、結合スコア生成部（２１）と、感情推定部（２２）とを備えた構成となっており、このうち入力層２０及び感情推定部２２は、結合スコア生成部２１との接続部分を除き、それぞれ入力層１０（図１）及び感情推定部１２（図１）と同様の構成とすることができる。

しかしながら、多言語対応感情推定モデル２における結合スコア生成部の数は、多言語対応感情推定モデル１とは異なり１つとなっている。ここで、この１つの結合スコア生成部２１は、言語識別モデル部分２１１と、複数の感情認識モデル部分２１２Ａ，２１２Ｂ，２１２Ｃ，・・・と、これらの出力を一括して結合（concatenate）させる１つの結合層２１３とを備えている。なお、言語識別モデル部分２１１及び複数の感情認識モデル部分２１２Ａ，２１２Ｂ，２１２Ｃ，・・・は、それぞれ言語識別モデル部分１１１（図１）及び複数の感情認識モデル部分１１２Ａ，１１２Ｂ，１１２Ｃ，・・・（図１）と同様に生成することができる。

このように、多言語対応感情推定モデル２においては、言語識別モデル部分２１１の出力である「言語種別に係る特徴」と、複数の感情認識モデル部分２１２Ａ，２１２Ｂ，２１２Ｃ，・・・の出力である複数の「感情に係る特徴」とを一括して結合した上で、これらを全て融合（merge）させた結果としての「結合感情スコア」を、感情推定部２２へ出力するのである。

すなわち、多言語対応感情推定モデル２においても、言語識別に関し決定論的（deterministically）ではなく非確定的・発見的（heuristically）に処理を実施することができ、その結果、複数の言語のうちのいずれかの音声から、その発話者（発声主体）の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することが可能となる。

ここで、改めて多言語対応感情推定モデル１（図１）を見てみると、このモデル１では、上記の多言語対応感情推定モデル２とは異なり、複数の感情認識モデル部分１１２Ａ，１１２Ｂ，１１２Ｃ，・・・の出力である複数の「感情に係る特徴」は、言語識別モデル部分１１１の出力である「言語種別に係る特徴」と、それぞれ対をなして一先ず個別に結合される。その結果、特定の言語を前提とした個々の「感情に係る特徴」は、他の言語を前提とした「感情に係る特徴」とそのまま混ぜ合わされることなく、正解の言語に係る正しい感情推定結果をより導きやすい形となった上で、感情推定部１２へ入力されると考えられるのである。

図５は、本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。

図５によれば、本実施形態の感情推定モデル３も、図１に示した多言語対応感情推定モデル１と同様、入力層（３０）と、結合スコア生成部（３１）と、感情推定部（３２）とを備えた構成となっており、このうち入力層３０及び感情推定部３２は、結合スコア生成部３１との接続部分を除き、それぞれ入力層１０（図１）及び感情推定部１２（図１）と同様の構成とすることができる。

しかしながら、この感情推定モデル３における結合スコア生成部の数も、多言語対応感情推定モデル１とは異なり１つとなっている。またさらに、この１つの結合スコア生成部２１は、言語識別モデル部分３１１と、１つの感情認識モデル部分３１２Ａと、これらの出力を結合（concatenate）させる１つの結合層３１３とを備えている。なお、これらの言語識別モデル部分３１１及び感情認識モデル部分３１２Ａも、それぞれ言語識別モデル部分１１１（図１）及び感情認識モデル部分１１２Ａ（図１）と同様に生成することができる。

このように、感情推定モデル３においては、多言語対応感情推定モデル２（図４）とも異なり、言語識別モデル部分３１１の出力である「言語種別に係る特徴」と、１つの感情認識モデル部分３１２Ａの出力である１つの「感情に係る特徴」とを結合した上で、これらを融合（merge）させた結果としての「結合感情スコア」を、感情推定部３２へ出力するのである。

すなわち、感情推定モデル３においても、言語識別に関し決定論的ではなく非確定的・発見的に処理を実施することができ、その結果、音声から、その発話者（発声主体）の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することが可能となる。

ここで、上述した構成から理解されるように、感情推定モデル３は多言語対応にはなっていない。しかしながら例えば、言語Ａを含む複数の言語のうちのいずれかの音声が入力された場合に、当該音声が言語Ａであるならば、より高いスコア、すなわちより高い確からしさをもって推定感情種別を決定することができ、一方、当該音声が言語Ａではないならば、決定した推定感情種別を、より低いスコア、すなわちより低い確からしさをもって出力することが可能となるのである。

したがって、感情推定モデル３は、多言語対応ではないが、言語Ａの音声により好適に対応し、一方、言語Ａ以外の言語の音声にも適切に対処し、高い精度の推定結果を出力可能なモデルとなっているのである。

図６は、本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。

図６によれば、本実施形態の多言語対応感情推定モデル４は、図１に示した多言語対応感情推定モデル１と同様、（図示していないが）入力層と、複数の結合スコア生成部（４１Ａ，４１Ｂ，・・・）と、感情推定部４２とを備えた構成となっており、このうち入力層、結合スコア生成部（４１Ａ，４１Ｂ，・・・）の有する感情認識モデル部分（４１２Ａ，４１２Ｂ，・・・）、及び感情推定部４２はそれぞれ、図１に示された入力層１０、感情認識モデル部分（１１２Ａ，１１２Ｂ，・・・）、及び感情推定部１２と同様の構成となっている。

しかしながら図１に示した多言語対応感情推定モデル１とは異なり、この多言語対応感情推定モデル４における複数の結合スコア生成部（４１Ａ，４１Ｂ，・・・）はそれぞれ、互いに異なる種別の言語（言語Ａ，言語Ｂ，・・・）に係る複数の言語識別モデル部分（４１１Ａ，４１１Ｂ，・・・）を有している。

ここで、各言語識別モデル部分（４１１Ａ，４１１Ｂ，・・・）の言語特徴抽出層（言語特徴抽出部）は、入力された音声データについて、自身に係る種別の言語（言語Ａ，言語Ｂ，・・・）の音声データであるか否かに関する（言語種別に係る）特徴を抽出するのである。

また、この多言語対応感情推定モデル４における結合層（結合部）は、互いに異なる種別の言語に係る複数の結合層（４１３Ａ，４１３Ｂ，・・・）となっており、互いに異なる種別の言語毎に、当該種別の言語に係る結合層（４１３Ａ，４１３Ｂ，・・・）が、
（ａ）当該種別の言語に係る言語識別モデル部分（４１１Ａ，４１１Ｂ，・・・）の出力と、
（ｂ）当該種別の言語に係る感情認識モデル部分（４１２Ａ，４１２Ｂ，・・・）の出力と
を結合するのである。

このような構成を有する多言語対応感情推定モデル４においても、複数の言語（言語Ａ，Ｂ，・・・）のうちのいずれかを発声する発話者に対し、当該発話者の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することが可能となるのである。

なお、以上に説明した言語識別モデル部分（４１１Ａ，４１１Ｂ，・・・）は、例えば、
（ａ）入力された音声データが、特定の種別の言語に係るものか否かを判定する（例えば当該特定の種別の言語である尤度情報を出力する）学習済みの言語識別モデルを構築し、
（ｂ）構築された言語識別モデルから、その出力部（例えばsigmoid関数の活性化層を含む層部分）を取り外す
ことによって生成することができる。

図７は、本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。

図７によれば、本実施形態の多言語対応感情推定モデル５は、図１に示した多言語対応感情推定モデル１と同様、（図示していないが）入力層と、複数の結合スコア生成部（５１Ａ，・・・）と、感情推定部５２とを備えた構成となっており、このうち入力層、結合スコア生成部（５１Ａ，・・・）の有する言語識別モデル部分５１１、及び感情推定部５２はそれぞれ、図１に示された入力層１０、言語識別モデル部分１１１、及び感情推定部１２と同様の構成となっている。

しかしながら図１に示した多言語対応感情推定モデル１とは異なり、この多言語対応感情推定モデル５における各結合スコア生成部（５１Ａ，・・・）の感情認識モデル部分（５１２Ａ，・・・）は、互いに異なる感情種別（感情種別α，感情種別β，感情種別γ，・・・）に係る複数の感情特徴抽出層（感情特徴抽出部）を有し、各感情特徴抽出層（各感情特徴抽出部）は、入力された音声データについて、自身に係る感情種別に係る音声データであるか否かに関する特徴を抽出する。

例えば図７において、感情認識モデル部分５１２Ａは、入力された音声データが言語Ａの音声データであるとして、
（ａ）当該音声データに係る発話者の感情が、感情種別αであるか否かに関する特徴（例えば感情種別αである尤度に係る特徴）を抽出する言語Ａ感情α感情特徴抽出層と、
（ｂ）当該音声データに係る発話者の感情が、感情種別βであるか否かに関する特徴（例えば感情種別βである尤度に係る特徴）を抽出する言語Ａ感情β感情特徴抽出層と、
（ｃ）当該音声データに係る発話者の感情が、感情種別γであるか否かに関する特徴（例えば感情種別γである尤度に係る特徴）を抽出する言語Ａ感情γ感情特徴抽出層と、
・・・
を有しているのである。

また、この多言語対応感情推定モデル５における結合層（結合部）は、互いに異なる種別の言語に係る複数の結合層（５１３Ａ，・・・）となっており、互いに異なる種別の言語毎に、当該種別の言語に係る結合層（５１３Ａ，・・・）が、
（ａ）言語識別モデル部分５１１の出力と、
（ｂ）当該種別の言語に係る感情認識モデル部分（５１２Ａ，・・・）の出力、すなわち互いに異なる感情種別に係る複数の感情特徴抽出層（感情特徴抽出部）からの全ての出力と
を取りまとめて結合するのである。

このような構成を有する多言語対応感情推定モデル５においても、複数の言語（言語Ａ，・・・）のうちのいずれかを発声する発話者に対し、当該発話者の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することが可能となる。

なお、以上に説明した感情識別モデル部分（５１２Ａ，・・・）の感情特徴抽出層（感情特徴抽出部）は、
（ａ）入力された音声データが、特定の感情種別に係るものか否かを判定する（特定の感情種別である尤度情報を出力する）学習済みの感情認識モデルを構築し、
（ｂ）構築された感情認識モデルから、その出力部（例えばsigmoid関数の活性化層を含む層部分）を取り外す
ことによって生成することができる。

図８は、本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。

図８によれば、本実施形態の多言語対応感情推定モデル５’は、図７に示した多言語対応感情推定モデル５において、複数の結合スコア生成部（５１Ａ，・・・）における言語識別モデル部分５１１（図７）を、それぞれ、図６で説明した言語識別モデル部分（４１１Ａ，・・・）に置き換え、これにより複数の結合スコア生成部（５１Ａ’，・・・）を形成した構成となっている。

このような構成を有する多言語対応感情推定モデル５’においても、複数の言語（言語Ａ，・・・）のうちのいずれかを発声する発話者に対し、当該発話者の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することが可能となる。

なお、以上図６～８を用いて説明を行った多言語対応感情推定モデル４、５及び５’のいずれにおいても、図４に示した結合層２１３のように、複数の結合スコア生成部の出力を全て取りまとめて結合する１つの結合層（結合部）を備えた実施形態をとることも可能である。このような実施形態においても、音声に係る言語種別を先に決めてしまうことのない、多言語に対応した高い精度の感情推定処理を実施することが可能となる。

［装置構成］
次に、図１に戻り、以上に説明したような（多言語対応）感情推定モデル１、２、３、４、５及び５’のいずれかを搭載し、ユーザ（発話者）の感情を推定可能とする感情推定装置９について説明する。

図１において、感情推定装置９の入力部９１は、通信機能を備えていて、例えば外部の音声データコーパスから正解感情ラベルの付された音声データ群を受信し、学習部９２に保存させる。また、例えば外部のマイクと接続されていて、感情推定対象のユーザ（発話者）の音声を受け取った当該マイクから音声データを取得し、推定処理対象データ・学習データ用の所定の形式に変換した上で、感情推定部９３へ出力する。

なお変更態様として、入力部９１は例えば、感情推定対象のユーザ（例えばコールセンターへの問合せ者）の電話端末と通話接続している外部の電話端末から、当該ユーザの音声データを取得することも好ましい。

ここで、入力部９１は、当該所定の形式に変換した音声データに対し、（外部から指定された）正解感情ラベルを付与した上で、付与済みの当該音声データを学習データとして学習部９２に保存させてもよい。

学習部９２は、自ら保存している正解感情ラベルの付された音声データ群を用いて、多言語対応感情推定モデル１（勿論、他の感情推定モデル２、３、４、５又は５’でもよい）のいずれかを構築し、感情推定部９３に出力する。この際、例えば図２及び３を用いて詳細に説明したモデル構築手順によって、多言語対応感情推定モデル１を構築することができる。

感情推定部９３は、入力部９１より受け取ったユーザの音声データを、学習部９２から受け取った学習済みの多言語対応感情推定モデル１へ入力し、その出力として、予め設定された感情種別（例えば"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"の５つ）毎のスコアを取得する。ここで、感情推定部９３は例えば、最も高いスコアを有する感情種別（例えば"喜び"）を感情推定結果として、出力部９４へ出力する。

出力部９４は、受け取った感情推定結果を例えば、ディスプレイに表示させたり、（通信機能を備えている場合に）外部の情報処理装置に送信したりすることができる。ここで、表示・送信される感情推定結果は、例えば「（入力された音声データに係る）ユーザは、発話時点において"喜び"の状態にある」旨の情報となる。

［実施例］
図９は、多言語対応感情推定モデル１を用いて実際に感情推定処理を実施した実施例における感情推定結果を説明するためのテーブルである。

ここで図９のテーブルには、本実施例を評価するため、同じく音声からの感情推定処理を実施した従来例１及び従来例２における感情推定結果も合せて挙げている。このうち従来例１は、対応する複数の言語（後述するように具体的には、英語、イタリア語及びスペイン語の３つ）の音声データを学習データとして、ベースラインモデルとなる１つの感情推定モデルを構築し、このモデルを用いて感情推定処理を実施したものである。ここで勿論、この感情推定モデルは、言語種別（の識別）に係る情報を一切使用せずに構築されている。

一方、従来例２は、音声に対し評価者による感情評価、すなわち人為評価を行ったものである。ここで使用された感情評価の手法は、非特許文献４：E. P-Cabaleiro, G. Costantini, A. Batliner, A. Baird, and B. Schuller, “Categorical vs Dimensional Perception of Italian Emotional Speech” In Proc. of Interspeech 2018, pp. 3638-3642, ２０１８年に記載されたものとなっている。

また、本実施例で使用された多言語対応感情推定モデル１は、全結合型・順伝播型のＤＮＮによって構成されている。

さらに、本実施例、従来例１（ベースラインアプローチ）、及び従来例２（人為評価）において、推定すべき感情種別は、"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"の５つに設定されており、また、対応した言語は、英語、イタリア語及びスペイン語の３つとなっている。ここで、学習用及び推定処理用の音声データは、上記の非特許文献４に記載された多言語音声データコーパスであるEmoFilmを含め、既存の音声データコーパスを利用して取得している。

図９のテーブルには、以上に説明したような従来例１（ベースラインアプローチ）、従来例２（人為評価）、及び本実施例における、感情推定結果から導出される感情種別毎の再現率（Recall）、及び５つの感情種別にわたる再現率の平均値が記録されている。

ここで、再現率（Recall）は、推定結果の評価尺度の１つであり、推定結果が「正解である感情種別」となったデータの数をTPとし、推定結果が「正解である感情種別」とは異なるものとなったデータの数をFNとして、次式
（１） Recall＝TP／(TP＋FN)
によって算出される。すなわち、各感情種別の再現率（Recall）は、正解が当該感情種別であるデータのうち、推定結果が当該感情種別となったデータの割合を示す値となっている。

図９のテーブルによれば、従来例１（ベースラインアプローチ）の再現率の平均は65.8％であり、一方、従来例２（人為評価）の再現率の平均は71.8％である。これに対し、本実施例では、再現率の平均が72.2％となっており、従来例１（ベースラインアプローチ）は勿論、従来例２（人為評価）よりも高い再現率を達成していることが分かる。

またこのような結果から、本発明による感情推定モデルにおいては、「言語種別に係る特徴」を「感情に係る特徴」の抽出段階で考慮しつつ感情推定処理を進めることによって、そのような配慮の全くなされていないベースラインモデルは勿論、人為評価をも超える推定精度が実現可能となっていることが理解されるのである。

以上詳細に説明したように、本発明の感情推定モデルによれば、言語識別モデル部分の出力である「言語種別に係る特徴」と、感情認識モデル部分の出力である「感情に係る特徴」とを結合した上で、感情推定部において感情推定処理を実施する。すなわち、言語識別に関し決定論的ではなく非確定的・発見的に処理を実施することができ、その結果、音声からその発声主体の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することが可能となる。

また、本発明の感情推定モデルにおいて、互いに異なる種別の言語に係る複数の感情認識モデル部分を適用した場合には、これらの言語のうちのいずれかを発声する発生主体に対し、当該発声主体の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することも可能となるのである。

さらに、本発明によれば特に、語学学校や公的教育機関において言語教育サービスを提供する際、個々の学習者における学習時の感情状態を、高い精度で把握して学習成果の向上に役立てることも可能となる。また、医療サービスや健康管理系サービスを提供する際にも、患者やユーザにおけるサービス提供時の感情状態を高い精度で把握し、当該感情状態を考慮したより適切な対応や提案を行うことも可能となるのである。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１、１’、２、４、５、５’ 多言語対応感情推定モデル
１０、２０、３０入力層
１１Ａ、１１Ａ’、１１Ｂ、１１Ｂ’、１１Ｃ、１１Ｃ’、２１、３１、４１Ａ、４１Ｂ、５１Ａ、５１Ａ’ 結合スコア生成部
１１１、２１１、３１１、４１１Ａ、４１１Ｂ、５１１言語識別モデル部分
１１１’ 言語識別モデル
１１２Ａ、１１２Ｂ、１１２Ｃ、２１２Ａ、２１２Ｂ、２１２Ｃ、３１２Ａ、４１２Ａ、４１２Ｂ、５１２Ａ感情認識モデル部分
１１２Ａ’ 感情認識モデル
１１３Ａ、１１３Ａ’、１１３Ｂ、１１３Ｂ’、１１３Ｃ、１１３Ｃ’、２１３、３１３、４１３Ａ、４１３Ｂ、５１３Ａ結合層（結合部）
１２、１２’、２２、３２、４２、５２感情推定部
３感情推定モデル
９感情推定装置
９１入力部
９２学習部
９３感情推定部
９４出力部

Claims

入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分と、
当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分と、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部と、
当該結合部の出力から、当該音声データの発声主体に係る感情種別を推定する感情推定部と
を有することを特徴とする感情推定モデル。
当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを自身に係る言語の音声データとして、感情に係る特徴を抽出することを特徴とする請求項１に記載の感情推定モデル。
当該結合部は複数の結合部であって、当該複数の結合部はそれぞれ、当該言語識別モデル部分の出力と、前記複数の感情認識モデル部分のそれぞれの出力とを結合することを特徴とする請求項２に記載の感情推定モデル。
当該言語識別モデル部分は、互いに異なる種別の言語に係る複数の言語識別モデル部分であって、各言語識別モデル部分の言語特徴抽出部は、当該音声データについて、自身に係る種別の言語の音声データであるか否かに関する特徴を抽出し、
当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを自身に係る言語の音声データとして、感情に係る特徴を抽出し、
当該結合部は、互いに異なる種別の言語に係る複数の結合部であって、当該互いに異なる種別の言語毎に、当該種別の言語に係る結合部が、当該種別の言語に係る言語識別モデル部分の出力と、当該種別の言語に係る感情認識モデル部分の出力とを結合する
ことを特徴とする請求項１又は２に記載の感情推定モデル。
当該感情認識モデル部分は、互いに異なる感情種別に係る複数の感情特徴抽出部を有し、各感情特徴抽出部は、当該音声データについて、自身に係る感情種別に係る音声データであるか否かに関する特徴を抽出することを特徴とする請求項１から４のいずれか１項に記載の感情推定モデル。
当該言語識別モデル部分は、学習済みの言語識別モデルにおいて少なくともその出力部を外したものであり、当該感情認識モデル部分は、学習済みの感情認識モデルにおいて少なくともその出力部を外したものであることを特徴とする請求項１から５のいずれか１項に記載の感情推定モデル。
当該結合部及び当該感情推定部は、学習済みの当該言語識別モデル部分と学習済みの当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を行うことによって学習済みとなった部分であることを特徴とする請求項１から６のいずれか１項に記載の感情推定モデル。
当該言語識別モデル部分、当該感情認識モデル部分、当該結合部及び当該感情推定部はニューラルネットワークで構成されていることを特徴とする請求項１から７のいずれか１項に記載の感情推定モデル。
請求項１から８のいずれか１項に記載された感情推定モデルを用いて、入力された音声データから、当該音声データの発声主体に係る感情を推定することを特徴とする感情推定装置。
入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分を、学習済みの言語識別モデルにおいて少なくともその出力部を外すことによって生成し、また、当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分を、学習済みの感情認識モデルにおいてその出力部を外すことによって生成するステップと、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部を生成するステップと、
当該結合部の出力側に、当該音声データの発声主体に係る感情種別を推定するための感情推定部を付与するステップと、
当該言語識別モデル部分と当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を実施するステップと
を有することを特徴とするコンピュータによる感情推定モデルの生成方法。