JP7184831B2 - 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法 - Google Patents

音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法 Download PDF

Info

Publication number
JP7184831B2
JP7184831B2 JP2020015574A JP2020015574A JP7184831B2 JP 7184831 B2 JP7184831 B2 JP 7184831B2 JP 2020015574 A JP2020015574 A JP 2020015574A JP 2020015574 A JP2020015574 A JP 2020015574A JP 7184831 B2 JP7184831 B2 JP 7184831B2
Authority
JP
Japan
Prior art keywords
emotion
language
model
output
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020015574A
Other languages
English (en)
Other versions
JP2021124531A (ja
Inventor
パニコス イラクレウス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020015574A priority Critical patent/JP7184831B2/ja
Publication of JP2021124531A publication Critical patent/JP2021124531A/ja
Application granted granted Critical
Publication of JP7184831B2 publication Critical patent/JP7184831B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声から、当該音声の発声主体に係る情報を推定する技術に関する。
現在、発話者(発声主体)の感情をその音声から推定する感情推定技術が大いに注目されている。このような感情推定技術は、今後、ユーザ(人間)とコンピュータとが関わり合う場面でより重要な役割を果たすことが予測される。
例えば、警察や救急病院等への通報がなされた緊急事態において、通報者の電話での音声からその感情状態をコンピュータが瞬時に推定できれば、その感情推定結果に基づき、より適切な対応や配慮が可能となる。また、例えば対話ロボットが、対話先のユーザの感情状態を推定することにより、その感情に合った動作・振る舞いを実施することもできる。さらには、コールセンターにおいてオペレータが、電話対応先である顧客の感情状態をコンピュータ経由で認識できれば、例えば当該顧客の満足度を的確に把握することも可能となるのである。
このような音声による感情推定技術の開発には従来、種々様々な識別・分類器や音声特徴量抽出法が用いられてきた。このうち識別・分類器については、混合ガウスモデル(GMM,Gaussian Mixture Models)、隠れマルコフモデル(HMM,Hidden Markov Models)や、サポートベクタマシン(SVM,Support Vector Machines)、さらにはニューラルネットワーク(NN,Neural Networks)や、ディープニューラルネットワーク(DNN,Deep Neural Networks)等が利用されている。一方、特徴量抽出については、i-vectors、メル周波数ケプストラム係数(MFCC,Mel-Frequency Cepstral Coefficients)や、LLD(Low-Level Descriptors)等が採用されてきた。
ここで、以上に説明した音声による感情推定技術は従来、例えば非特許文献1に開示された技術のように、その大多数が特定の1つの言語による音声を対象とした技術である。これに対し、複数の言語による音声に対応した多言語対応の感情推定技術は、例えば非特許文献2に開示されたものを含め極少数にとどまっている。
そのような状況の下、本願発明者は、非特許文献3を筆頭著者として著し、新たに考案した多言語対応の感情推定技術を提案している。この技術では、言語識別モデルを利用して最初に入力音声の言語種別を特定し(言語を識別し)、次いで特定した言語種別に応じた感情認識モデルを用いて感情の推定を実施している。すなわち、2度の認識・識別処理を実施することにより、感情推定における多言語対応を図っているのである。
C. Busso, M. Bulut, and S. Narayanan, "Toward Effective Automatic Recognition Systems of Emotion in Speech" In Social emotions in nature and artifact: emotions in human and human-computer interaction, S. Marsella J. Gratch, Ed. Oxford University Press, pp.110-127, 2013年 X. Li and M. Akagi, "Improving Multilingual Speech Emotion Recognition by Combining Acoustic Features in a Three-layer Model" Speech Communication (a publication of the European Association for Signal Processing), vol. 110, pp. 1-12, 2019年 Panikos Heracleous, Akio Yoneyama, "A Comprehensive Study on Bilingual and Multilingual Speech Emotion Recognition Using a Two-pass Classification Scheme", 2019年8月, [online], [令和1年12月20日検索], インターネット<URL: https://doi.org/10.1371/journal.pone.0220386>
現在、外国語会話教室・教育機関の現場や、多数の外国人とのコミュニケーションが常時発生するような空港や免税店等の施設、さらには電話等を介した外国人を含むユーザ向けサービス提供の現場では、様々な言語を第1言語とする可能性のあるユーザに対し、その音声から感情推定を実施したいニーズが少なからず存在し、今後もますます増大していくことが予想される。したがって、少なくとも1つの言語に限定されない実用的な感情推定技術の開発が大いに望まれるところとなっている。
しかしながら、上述したように多言語対応の感情推定技術は未だ極少数にとどまっており、またそのうちの非特許文献2に開示された技術にしても、実際に発せられた音声を利用する観点からすると、少ない種別の言語について感情推定結果が得られているにすぎない。特に、この非特許文献2の技術は、DNNといったような高度の機械学習アルゴリズムを使用しておらず、先進的とは言えない識別・分類器や特徴量抽出技術の利用にとどまっており、それ故、多言語の音声に対する感情推定における推定精度の点では依然、課題が残っている。
また、上述した非特許文献3に開示された技術は、言語識別に関し決定論的(deterministic)であり、最初の言語識別処理において言語種別を確定させた上で、その確定結果に基づいて感情推定処理を実施している。したがって、確定した言語種別が誤りであった場合、最終的な感情推定結果に対する信頼性は低下してしまう。
そこで、本発明は、音声からその発話者(発声主体)の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる感情推定モデル及び装置、並びに当該モデルの生成方法を提供することを目的とする。
本発明によれば、入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分と、
当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分と、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部と、
当該結合部の出力から、当該音声データの発声主体に係る感情種別を推定する感情推定部と
を有する感情推定モデルが提供される。
この本発明による感情推定モデルにおいて、当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを、当該感情特徴抽出部自身に係る言語の音声データとして、感情に係る特徴を抽出することも好ましい。またこの場合、当該結合部は複数の結合部であって、当該複数の結合部はそれぞれ、当該言語識別モデル部分の出力と、上記の複数の感情認識モデル部分のそれぞれの出力とを結合することも好ましい。
または、本発明による感情推定モデルにおいて、当該言語識別モデル部分は、互いに異なる種別の言語に係る複数の言語識別モデル部分であって、各言語識別モデル部分の言語特徴抽出部は、当該音声データについて、自身に係る種別の言語の音声データであるか否かに関する特徴を抽出し、
当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを自身に係る言語の音声データとして、感情に係る特徴を抽出し、
当該結合部は、互いに異なる種別の言語に係る複数の結合部であって、当該互いに異なる種別の言語毎に、当該種別の言語に係る結合部が、当該種別の言語に係る言語識別モデル部分の出力と、当該種別の言語に係る感情認識モデル部分の出力とを結合する
ことも好ましい。
また、本発明による感情推定モデルにおいて、当該感情認識モデル部分は、互いに異なる感情種別に係る複数の感情特徴抽出部を有し、各感情特徴抽出部は、当該音声データについて、自身に係る感情種別に係る音声データであるか否かに関する特徴を抽出することも好ましい。
さらに、本発明による感情推定モデルにおいて、当該言語識別モデル部分は、学習済みの言語識別モデルにおいて少なくともその出力部を外したものであり、当該感情認識モデル部分は、学習済みの感情認識モデルにおいて少なくともその出力部を外したものであることも好ましい。
さらにまた、本発明による感情推定モデルにおいて、当該結合部及び当該感情推定部は、学習済みの当該言語識別モデル部分と学習済みの当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を行うことによって学習済みとなった部分であることも好ましい。また、本発明による感情推定モデルにおいて、当該言語識別モデル部分、当該感情認識モデル部分、当該結合部及び当該感情推定部はニューラルネットワークで構成されていることも好ましい。
本発明によれば、また、以上に述べたような感情推定モデルを用いて、入力された音声データから、当該音声データの発声主体に係る感情を推定する感情推定装置が提供される。
本発明によれば、さらに、
入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分を、学習済みの言語識別モデルにおいてその出力部を外すことによって生成し、また、当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分を、学習済みの感情認識モデルにおいて少なくともその出力部を外すことによって生成するステップと、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部を生成するステップと、
当該結合部の出力側に、当該音声データの発声主体に係る感情種別を推定するための感情推定部を付与するステップと、
当該言語識別モデル部分と当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を実施するステップと
を有することを特徴とするコンピュータによる感情推定モデルの生成方法が提供される。
本発明による感情推定モデル及び感情推定装置によれば、音声からその発話者(発声主体)の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。また、本発明による感情推定モデルの生成方法によれば、そのような感情推定モデルを生成することが可能となる。
本発明による感情推定モデルを用いて感情推定処理を実施する感情推定装置の一実施形態を示す模式図である。 本発明に係る結合スコア生成部を生成する処理における一実施形態を概略的に示す模式図である。 本発明に係る多言語対応感情推定モデル1の構築(学習)方法の一実施形態を説明するための模式図である。 本発明による感情推定モデルにおける他の実施形態を示す模式図である。 本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。 本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。 本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。 本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。 本発明による多言語対応感情推定モデルを用いて実際に感情推定処理を実施した実施例における感情推定結果を説明するためのテーブルである。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
[感情推定装置,感情推定モデル]
図1は、本発明による感情推定モデルを用いて感情推定処理を実施する感情推定装置の一実施形態を示す模式図である。
図1に示した本実施形態の感情推定装置9は、ユーザ(発声主体であり、以後発話者とも称する)の発話音声を例えばマイクを介して取り込んで音声データとし、その音声データから、本発明による構築(学習)済みの多言語対応感情推定モデル1を用いて当該ユーザの感情を推定する装置であり、具体的には、当該ユーザが発話時に、如何なる感情種別に該当する感情状態にあるのかについての情報を決定する。
また同じく図1に示した本実施形態の多言語対応感情推定モデル1は、互いに異なる複数の言語(例えば英語、イタリア語及びスペイン語等)による発話音声のうち、いずれの音声データを入力しても、その音声データに係る発話者の感情に係るスコアを出力可能なように構築されている。その結果、本実施形態の感情推定装置9は、これら複数の言語のうちのいずれかを発声するユーザに対し、その音声から感情推定を実施することができるのである。
ここで具体的に、多言語対応感情推定モデル1はその特徴として、
(A)入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部(図1では言語特徴抽出層)を備えた「言語識別モデル部分」(図1では言語識別モデル部分111)と、
(B)当該音声データから感情に係る特徴を抽出する感情特徴抽出部(図1では感情特徴抽出層)を備えた「感情認識モデル部分」(図1では複数の感情認識モデル部分112A,112B,112C,・・・)と、
(C)「言語識別モデル部分」の出力と、「感情認識モデル部分」の出力とを結合する「結合部(concatenating部,merging部)」(図1では複数の結合層113A,113B,113C,・・・)と、
(D)「結合部」の出力から、当該音声データの発話者(発声主体)に係る感情種別を推定する「感情推定部」(図1では感情推定部12)と
を有している。
このように、多言語対応感情推定モデル1においては、「言語識別モデル部分」の出力と、「感情認識モデル部分」の出力とを結合した上で、「感情推定部」において感情推定処理を実施する。ここで、「言語識別モデル部分」の出力は、当該音声データから言語特徴抽出部によって抽出された、当該音声データの言語に係る特徴を示す量となっており、1つの言語種別を特定する量(当該音声データの言語種別を1つに決定した量)とはなっていない。
この点、比較例として、最初に言語識別処理を行って言語種別を確定させた上でその確定結果に基づいて感情推定処理を実施する従来技術のケースを考えると、確定した言語種別が誤りであった場合、最終的な感情推定結果の信頼性は低下してしまうことになる。
これに対し、多言語対応感情推定モデル1によれば、言語識別に関し上述したように決定論的(deterministically)ではなく非確定的・発見的(heuristically)に処理を実施することができ、その結果、音声からその発話者(発声主体)の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することが可能となるのである。
ここで、図1に示した本実施形態の多言語対応感情推定モデル1においては、上記構成(B)の「感情認識モデル部分」は、互いに異なる種別の言語(図1では言語A,B,C,・・・)に係る複数の感情認識モデル部分、すなわち、言語A感情認識モデル部分112A,言語B感情認識モデル部分112B,言語C感情認識モデル部分112C,・・・となっている。
また、これらの感情認識モデル部分(112A,112B,112C,・・・)の感情特徴抽出部は、当該音声データを自身に係る言語(例えば、言語B感情認識モデル部分112Bであれば言語B)の音声データとして、感情に係る特徴を抽出するのであり、さらに、これらの感情認識モデル部分(112A,112B,112C,・・・)の出力(特徴抽出結果)の各々が、「結合部」において「言語識別モデル部分」の出力と個別に対をなして結合される(concatenated, merged)のである。
これにより、これら複数の言語(図1では言語A,B,C,・・・)のうちのいずれかを発声する発話者に対し、当該発話者の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することが可能となるのである。
なお、多言語対応感情推定モデル1の上記構成(A)~(D)は、当該モデルを実現する機械学習アルゴリズムを具現したプログラムの構成・構造を表現したものである。ここで本実施形態において適用されている機械学習アルゴリズムは、本技術分野において先進的とされているDNN(Deep Neural Networks)であり、当該モデルにおける推定精度の向上を含む高性能化に資するものとなっている。
ただし当然に、多言語対応感情推定モデル1を実現する機械学習アルゴリズムは、DNNに限定されるものではない。しかしながら、言語種別に係る特徴や感情に係る特徴を取り扱うことを考慮すると、「言語識別モデル部分」、「感情認識モデル部分」、「結合部」及び「感情推定部」は、DNNを含めニューラルネットワーク(NN,Neural Networks)で構成されることも好ましいのである。
また、感情推定装置9(多言語対応感情推定モデル1)が推定する「感情」は本実施形態において、予め設定された複数の感情種別、例えば"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"の5つのうちのいずれか1つとして表されることができ、または、予め設定された複数の感情種別の各々についてのスコア(当該感情種別であることの確からしさ)の組として表現されてもよい。
[モデル構成]
同じく図1によれば、多言語対応感情推定モデル1は、感情推定装置9に搭載された本発明による感情推定プログラムに取り込まれて感情推定処理の主要ステップを実行可能にするモデルであり、その構成要素として、入力層10と、結合スコア生成部11A、11B及び11Cと、感情推定部12とを備えている。またこのうち、結合スコア生成部11A、11B及び11Cは、
(a)共通(共用)の言語識別モデル部分111と、
(b)それぞれ感情認識モデル部分112A、112B及び112Cと、
(c)それぞれ結合層113A、113B及び113Cと
を備えている。
ここで以上では、結合スコア生成部として言語A、B及Cに対応する3つを挙げたが、多言語対応感情推定モデル1がN(Nは2以上の整数)個の言語に対応するものであるならば、これらの結合スコア生成部と同様の構造を有するN個の結合スコア生成部(言語識別モデル部分、感情認識モデル部分及び結合層)が設けられることになる。このように、多言語対応感情推定モデル1においては、対応すべき様々な言語の組合せに応じ、その構造を容易に変更することも可能となるのである。
ちなみにこの後、結合スコア生成部(言語識別モデル部分、感情認識モデル部分及び結合層)11A、11B及び11Cの各々について行う説明の内容は、N個の結合スコア生成部が設けられた場合における各結合スコア生成部(言語識別モデル部分、感情認識モデル部分及び結合層)についても当てはまることになる。
同じく図1において、感情推定装置9は、入力部91と、学習部92と、感情推定部93と、出力部94とを備えており、このうち学習部92及び感情推定部93は、本発明による感情推定プログラムの一実施形態を保存したプロセッサ・メモリの機能と捉えることができる。またこのことから、感情推定装置9は、感情推定の専用装置であってもよいが、本発明による感情推定プログラムを搭載した、例えばクラウドサーバ、非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等とすることも可能である。
以下、上述した各構成要素について説明を行う。最初に、入力層10は、感情推定対象である発話者の音声に係る音声データを取り込み、当該音声データを結合スコア生成部11A、11B及び11Cの各々へ分配し入力する。ここで、当該音声データは、例えば、様々な協会・組織によって提供されている学習データ源としてのネイティブコーパスに収められている音声データと同様の形式のデータとすることができる。
同じく図1において、結合スコア生成部11Aでは(他の結合スコア生成部においても同様であるが)、
(ア)言語識別モデル部分111の言語特徴抽出層において、受け取った音声データから「言語種別に係る特徴」を抽出し、
(イ)感情認識モデル部分112Aの言語A感情特徴抽出層において、受け取った音声データから「感情に係る特徴」を抽出し、
(ウ)結合層113Aにおいて、受け取った「言語種別に係る特徴」及び「感情に係る特徴」を結合(concatenate)し、両特徴の融合(merge)した結果である「結合感情スコア」を生成し出力する。
ここで本実施形態では、後に詳細に説明するが、言語識別モデル部分111及び感情認識モデル部分112Aはそれぞれ、例えば、
(a)学習済みのDNN言語識別モデルにおいてその出力部(例えばsoftmax層)を外したもの、及び
(b)(言語Aの音声データによって)学習済みのDNN感情認識モデルにおいてその出力部(例えばsoftmax層)を外したもの
である。したがって、それらの言語特徴抽出層や言語A感情特徴抽出層は、それらのDNNモデルにおける出力部(出力層)以前の層部分となっている。
またそれ故、上記(イ)の言語A感情特徴抽出層で抽出される「感情に係る特徴」は、当該音声データを、(言語A感情特徴抽出層自体に係る言語である)言語Aの音声データであるとみなして抽出したものとなっており、さらにその結果、上記(ウ)の「結合感情スコア」は、当該音声データが言語Aであるか否かの言語特徴情報と、言語Aとした場合の発話者の感情を特徴付ける感情特徴情報とをともに反映した指標値であると把握することができるのである。
また、結合スコア生成部11B及び11Cにおいても、その出力である「結合感情スコア」につき、その内容を上記と同様に理解することができるのである。
ここで、結合スコア生成部11A、11B及び11Cから出力される「結合感情スコア」の各々には、共通の(共有の)1つの言語識別モデル部分111が関わっている。すなわち、言語識別モデル部分111は、異なる言語に係る複数の(ここでは3つの)感情認識モデル部分の各々に対し、その感情認識能を向上させる役割を果たしている。
またさらに、これらの感情認識モデル部分のうち、受け取った(入力された)音声データの言語と同じ言語に係る感情認識モデル部分が結局、データに対する重み付けの観点から常に優位に働くのであるから、これらの感情認識モデル部分全体を見渡した場合にも、言語識別モデル部分111は、その全体における感情認識能を向上させるように機能するものと理解される。
具体的には例えば、受け取った(入力された)音声データの言語とは異なる言語に係る感情認識モデル部分の出力は、言語識別モデル部分111の出力と結合することによってエラーデータとして適切に学習されるのである。
図2は、本発明に係る結合スコア生成部を生成する処理における一実施形態を概略的に示す模式図である。ここで図2には、結合スコア生成部11A(11A’)の生成方法が示されているが、当然に他の結合スコア生成部11B,11C,・・・も、同様の方法で生成することが可能である。
図2に示した実施形態によれば、最初に、学習を受ける前の言語識別モデル111’及び感情認識モデル112A’の各々に対し学習処理を実施して、学習済みのモデルを構築している。
ここで、言語識別モデル111’及び感情認識モデル112A’は、例えば全結合型のDNNで構成されたものとすることができる。また本実施形態において、言語識別モデル111’の出力層(出力部)におけるニューロン数は、多言語対応感情推定モデル1が対応可能な言語の数(例えば言語A、B及びCに対応可能ならば3)に設定される。さらに、感情認識モデル112A’の出力層(出力部)におけるニューロン数は、多言語対応感情推定モデル1が識別する感情種別の数(例えば感情種別が"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"ならば5)に設定される。また本実施形態において、感情認識モデル112A’に対しては特に、正解ラベルの付与された言語Aの音声データを学習データとして、学習処理を実施することとなる。
次いで同じく図2に示すように、学習済みとなった言語識別モデル111’及び感情認識モデル112A’から、出力層を取り外して、それぞれ言語識別モデル部分111及び感情認識モデル部分112Aとするのである。
最後に、生成した言語識別モデル部分111及び感情認識モデル部分112Aの出力側を結合層113A’に接続し、結合スコア生成部11A’を構成する。ここで、結合層113A’は、例えば全結合型のDNNで構成されたものとすることができ、言語識別モデル部分111の出力である「言語種別に係る特徴」と、感情認識モデル部分112Aの出力である「感情に係る特徴」とを結合(concatenate)させる機能を果たす。
なお、この結合スコア生成部11A’は、後に図3を用いて説明するように多言語対応感情推定モデル全体に対し学習処理が実施された後には、結合スコア生成部11A(図1)として機能し、感情推定処理時には「言語種別に係る特徴」と「感情に係る特徴」との融合(merge)した結果である「結合感情スコア」を生成し出力するのである。
なお、以上の説明では、取り外す出力層(出力部)はsoftmax層そのものであったが、変更態様として、全結合層部分とsoftmax層とで構成される部位を、取り外す出力層(出力部)としてもよい。また以上の説明では、取り外す対象は出力層(出力部)となっているが、この出力層(出力部)と合わせて、当該出力層に接続された中間層の後段部分も取り外したものを、言語識別モデル部分111及び感情認識モデル部分112Aとしてもよい。
図1に戻って、感情推定部12は、
(a)結合スコア生成部11Aの出力である言語Aに係る「結合感情スコア」と、
(b)結合スコア生成部11Bの出力である言語Bに係る「結合感情スコア」と、
(c)結合スコア生成部11Cの出力である言語Cに係る「結合感情スコア」と、
・・・
を全て取りまとめて入力とし、最初に入力された音声データの発話者(発声主体)に係る感情種別を推定する。
例えば感情推定部12は、感情推定層を含み、具体的には全結合型のDNNで構成されたものであってもよい。また、感情推定部12の出力層(出力部)におけるニューロン数は、多言語対応感情推定モデル1が識別する感情種別の数(例えば感情種別が"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"ならば5)に設定されることができる。
ちなみにこの場合、感情推定部12による最終的な推定結果は、出力層における各ニューロンの出力値、すなわち各感情種別(例えば"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"の各々)についてのスコアの組となる。ここで例えば、最もスコアの高い感情種別を、発話者について推定される感情に決定してもよい。
いずれにしても、感情推定部12は、対応すべき各言語に係る「結合感情スコア」をさらに統合して処理することにより、いずれの言語の音声データに対しても、高い精度で発話者の感情を推定可能とするのである。
さらに、この感情推定部12を含め多言語対応感情推定モデル1全体を見てみると、本実施形態のモデル1は、入力される音声データの言語種別を決定しないまま、当該言語種別の特徴を考慮しつつ各言語についての(単言語用)感情認識器を並行して同時に動作させ、最後にそれらの認識結果を好適に統合したモデルである、と理解することもできる。
またそれ故、多言語対応感情推定モデル1においては、対応すべき言語の種別及びその数を、任意に設定することが容易に可能となっている。また、新たな種別の言語を対応すべき言語としてモデル1に追加する場合でも、モデル構成の小変更(マイナーチェンジ)で済むのである。
[モデルの構築(学習)]
図3は、本発明に係る多言語対応感情推定モデル1の構築(学習)方法の一実施形態を説明するための模式図である。
図3に示した実施形態によれば、最初に、学習前の多言語対応感情推定モデル1’として、(図2を用いて詳細に説明を行った)結合スコア生成部11A’、11B’及び11C’の出力側に、学習前の感情推定部12’を接続したものを用意している。
次いで、この学習前の多言語対応感情推定モデル1’に対し、誤差逆伝播(バックプロパゲーション)アルゴリズムをもって学習処理を行い、多言語対応感情推定モデル1を構築する。ここでこの際、結合スコア生成部11A’、11B’及び11C’内の言語識別モデル部分111及び感情認識モデル部分112A、112B及び112Cは、学習対象外として凍結(freeze)する。
すなわち、これらのモデル部分は、図2を用いて説明したように、すでに学習済みの特徴抽出層を含んでおり、その学習結果(決定された層間重み)をそのまま、多言語対応感情推定モデル1に活用するのである。これにより、より効率的に高い推定精度の多言語対応感情推定モデル1を構築することも可能となる。
さらに、以上に説明したことから理解されるように、多言語対応感情推定モデル1における結合層113A、113B及び113C並びに感情推定部12は、(言語識別モデル部分及び感情認識モデル部分を学習対象外とした上で)多言語対応感情推定モデル全体の学習処理を行うことによって、学習済みとなったのである。
ここで、図2及び図3を用いて説明した学習処理に使用する学習データについて説明する。このような学習データの一生成方法として、例えば外部の音声データコーパスから取得した(正解感情ラベル付きの)全音声データ群を、第1のトレーニングデータ群、第2のトレーニングデータ群、及び検証データ群に分けてもよい。次いで、このうち、
(a)第1のトレーニングデータ群のデータを、図2の説明で言及した言語識別モデル111’及び感情認識モデル112A’を構築するための学習データとして使用し、
(b)第2のトレーニングデータ群のデータを、図3を用いて説明した多言語対応感情推定モデル1’を構築するための学習データとして使用し、さらに、
(c)検証データ群のデータを、構築した学習済みの多言語対応感情推定モデル1のテスト用として使用する
ことも好ましいのである。
[モデルの他の実施形態]
図4は、本発明による感情推定モデルにおける他の実施形態を示す模式図である。
図4によれば、本実施形態の多言語対応感情推定モデル2は、図1に示した多言語対応感情推定モデル1と同様、入力層(20)と、結合スコア生成部(21)と、感情推定部(22)とを備えた構成となっており、このうち入力層20及び感情推定部22は、結合スコア生成部21との接続部分を除き、それぞれ入力層10(図1)及び感情推定部12(図1)と同様の構成とすることができる。
しかしながら、多言語対応感情推定モデル2における結合スコア生成部の数は、多言語対応感情推定モデル1とは異なり1つとなっている。ここで、この1つの結合スコア生成部21は、言語識別モデル部分211と、複数の感情認識モデル部分212A,212B,212C,・・・と、これらの出力を一括して結合(concatenate)させる1つの結合層213とを備えている。なお、言語識別モデル部分211及び複数の感情認識モデル部分212A,212B,212C,・・・は、それぞれ言語識別モデル部分111(図1)及び複数の感情認識モデル部分112A,112B,112C,・・・(図1)と同様に生成することができる。
このように、多言語対応感情推定モデル2においては、言語識別モデル部分211の出力である「言語種別に係る特徴」と、複数の感情認識モデル部分212A,212B,212C,・・・の出力である複数の「感情に係る特徴」とを一括して結合した上で、これらを全て融合(merge)させた結果としての「結合感情スコア」を、感情推定部22へ出力するのである。
すなわち、多言語対応感情推定モデル2においても、言語識別に関し決定論的(deterministically)ではなく非確定的・発見的(heuristically)に処理を実施することができ、その結果、複数の言語のうちのいずれかの音声から、その発話者(発声主体)の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することが可能となる。
ここで、改めて多言語対応感情推定モデル1(図1)を見てみると、このモデル1では、上記の多言語対応感情推定モデル2とは異なり、複数の感情認識モデル部分112A,112B,112C,・・・の出力である複数の「感情に係る特徴」は、言語識別モデル部分111の出力である「言語種別に係る特徴」と、それぞれ対をなして一先ず個別に結合される。その結果、特定の言語を前提とした個々の「感情に係る特徴」は、他の言語を前提とした「感情に係る特徴」とそのまま混ぜ合わされることなく、正解の言語に係る正しい感情推定結果をより導きやすい形となった上で、感情推定部12へ入力されると考えられるのである。
図5は、本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。
図5によれば、本実施形態の感情推定モデル3も、図1に示した多言語対応感情推定モデル1と同様、入力層(30)と、結合スコア生成部(31)と、感情推定部(32)とを備えた構成となっており、このうち入力層30及び感情推定部32は、結合スコア生成部31との接続部分を除き、それぞれ入力層10(図1)及び感情推定部12(図1)と同様の構成とすることができる。
しかしながら、この感情推定モデル3における結合スコア生成部の数も、多言語対応感情推定モデル1とは異なり1つとなっている。またさらに、この1つの結合スコア生成部21は、言語識別モデル部分311と、1つの感情認識モデル部分312Aと、これらの出力を結合(concatenate)させる1つの結合層313とを備えている。なお、これらの言語識別モデル部分311及び感情認識モデル部分312Aも、それぞれ言語識別モデル部分111(図1)及び感情認識モデル部分112A(図1)と同様に生成することができる。
このように、感情推定モデル3においては、多言語対応感情推定モデル2(図4)とも異なり、言語識別モデル部分311の出力である「言語種別に係る特徴」と、1つの感情認識モデル部分312Aの出力である1つの「感情に係る特徴」とを結合した上で、これらを融合(merge)させた結果としての「結合感情スコア」を、感情推定部32へ出力するのである。
すなわち、感情推定モデル3においても、言語識別に関し決定論的ではなく非確定的・発見的に処理を実施することができ、その結果、音声から、その発話者(発声主体)の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することが可能となる。
ここで、上述した構成から理解されるように、感情推定モデル3は多言語対応にはなっていない。しかしながら例えば、言語Aを含む複数の言語のうちのいずれかの音声が入力された場合に、当該音声が言語Aであるならば、より高いスコア、すなわちより高い確からしさをもって推定感情種別を決定することができ、一方、当該音声が言語Aではないならば、決定した推定感情種別を、より低いスコア、すなわちより低い確からしさをもって出力することが可能となるのである。
したがって、感情推定モデル3は、多言語対応ではないが、言語Aの音声により好適に対応し、一方、言語A以外の言語の音声にも適切に対処し、高い精度の推定結果を出力可能なモデルとなっているのである。
図6は、本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。
図6によれば、本実施形態の多言語対応感情推定モデル4は、図1に示した多言語対応感情推定モデル1と同様、(図示していないが)入力層と、複数の結合スコア生成部(41A,41B,・・・)と、感情推定部42とを備えた構成となっており、このうち入力層、結合スコア生成部(41A,41B,・・・)の有する感情認識モデル部分(412A,412B,・・・)、及び感情推定部42はそれぞれ、図1に示された入力層10、感情認識モデル部分(112A,112B,・・・)、及び感情推定部12と同様の構成となっている。
しかしながら図1に示した多言語対応感情推定モデル1とは異なり、この多言語対応感情推定モデル4における複数の結合スコア生成部(41A,41B,・・・)はそれぞれ、互いに異なる種別の言語(言語A,言語B,・・・)に係る複数の言語識別モデル部分(411A,411B,・・・)を有している。
ここで、各言語識別モデル部分(411A,411B,・・・)の言語特徴抽出層(言語特徴抽出部)は、入力された音声データについて、自身に係る種別の言語(言語A,言語B,・・・)の音声データであるか否かに関する(言語種別に係る)特徴を抽出するのである。
また、この多言語対応感情推定モデル4における結合層(結合部)は、互いに異なる種別の言語に係る複数の結合層(413A,413B,・・・)となっており、互いに異なる種別の言語毎に、当該種別の言語に係る結合層(413A,413B,・・・)が、
(a)当該種別の言語に係る言語識別モデル部分(411A,411B,・・・)の出力と、
(b)当該種別の言語に係る感情認識モデル部分(412A,412B,・・・)の出力と
を結合するのである。
このような構成を有する多言語対応感情推定モデル4においても、複数の言語(言語A,B,・・・)のうちのいずれかを発声する発話者に対し、当該発話者の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することが可能となるのである。
なお、以上に説明した言語識別モデル部分(411A,411B,・・・)は、例えば、
(a)入力された音声データが、特定の種別の言語に係るものか否かを判定する(例えば当該特定の種別の言語である尤度情報を出力する)学習済みの言語識別モデルを構築し、
(b)構築された言語識別モデルから、その出力部(例えばsigmoid関数の活性化層を含む層部分)を取り外す
ことによって生成することができる。
図7は、本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。
図7によれば、本実施形態の多言語対応感情推定モデル5は、図1に示した多言語対応感情推定モデル1と同様、(図示していないが)入力層と、複数の結合スコア生成部(51A,・・・)と、感情推定部52とを備えた構成となっており、このうち入力層、結合スコア生成部(51A,・・・)の有する言語識別モデル部分511、及び感情推定部52はそれぞれ、図1に示された入力層10、言語識別モデル部分111、及び感情推定部12と同様の構成となっている。
しかしながら図1に示した多言語対応感情推定モデル1とは異なり、この多言語対応感情推定モデル5における各結合スコア生成部(51A,・・・)の感情認識モデル部分(512A,・・・)は、互いに異なる感情種別(感情種別α,感情種別β,感情種別γ,・・・)に係る複数の感情特徴抽出層(感情特徴抽出部)を有し、各感情特徴抽出層(各感情特徴抽出部)は、入力された音声データについて、自身に係る感情種別に係る音声データであるか否かに関する特徴を抽出する。
例えば図7において、感情認識モデル部分512Aは、入力された音声データが言語Aの音声データであるとして、
(a)当該音声データに係る発話者の感情が、感情種別αであるか否かに関する特徴(例えば感情種別αである尤度に係る特徴)を抽出する言語A感情α感情特徴抽出層と、
(b)当該音声データに係る発話者の感情が、感情種別βであるか否かに関する特徴(例えば感情種別βである尤度に係る特徴)を抽出する言語A感情β感情特徴抽出層と、
(c)当該音声データに係る発話者の感情が、感情種別γであるか否かに関する特徴(例えば感情種別γである尤度に係る特徴)を抽出する言語A感情γ感情特徴抽出層と、
・・・
を有しているのである。
また、この多言語対応感情推定モデル5における結合層(結合部)は、互いに異なる種別の言語に係る複数の結合層(513A,・・・)となっており、互いに異なる種別の言語毎に、当該種別の言語に係る結合層(513A,・・・)が、
(a)言語識別モデル部分511の出力と、
(b)当該種別の言語に係る感情認識モデル部分(512A,・・・)の出力、すなわち互いに異なる感情種別に係る複数の感情特徴抽出層(感情特徴抽出部)からの全ての出力と
を取りまとめて結合するのである。
このような構成を有する多言語対応感情推定モデル5においても、複数の言語(言語A,・・・)のうちのいずれかを発声する発話者に対し、当該発話者の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することが可能となる。
なお、以上に説明した感情識別モデル部分(512A,・・・)の感情特徴抽出層(感情特徴抽出部)は、
(a)入力された音声データが、特定の感情種別に係るものか否かを判定する(特定の感情種別である尤度情報を出力する)学習済みの感情認識モデルを構築し、
(b)構築された感情認識モデルから、その出力部(例えばsigmoid関数の活性化層を含む層部分)を取り外す
ことによって生成することができる。
図8は、本発明による感情推定モデルにおける更なる他の実施形態を示す模式図である。
図8によれば、本実施形態の多言語対応感情推定モデル5’は、図7に示した多言語対応感情推定モデル5において、複数の結合スコア生成部(51A,・・・)における言語識別モデル部分511(図7)を、それぞれ、図6で説明した言語識別モデル部分(411A,・・・)に置き換え、これにより複数の結合スコア生成部(51A’,・・・)を形成した構成となっている。
このような構成を有する多言語対応感情推定モデル5’においても、複数の言語(言語A,・・・)のうちのいずれかを発声する発話者に対し、当該発話者の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することが可能となる。
なお、以上図6~8を用いて説明を行った多言語対応感情推定モデル4、5及び5’のいずれにおいても、図4に示した結合層213のように、複数の結合スコア生成部の出力を全て取りまとめて結合する1つの結合層(結合部)を備えた実施形態をとることも可能である。このような実施形態においても、音声に係る言語種別を先に決めてしまうことのない、多言語に対応した高い精度の感情推定処理を実施することが可能となる。
[装置構成]
次に、図1に戻り、以上に説明したような(多言語対応)感情推定モデル1、2、3、4、5及び5’のいずれかを搭載し、ユーザ(発話者)の感情を推定可能とする感情推定装置9について説明する。
図1において、感情推定装置9の入力部91は、通信機能を備えていて、例えば外部の音声データコーパスから正解感情ラベルの付された音声データ群を受信し、学習部92に保存させる。また、例えば外部のマイクと接続されていて、感情推定対象のユーザ(発話者)の音声を受け取った当該マイクから音声データを取得し、推定処理対象データ・学習データ用の所定の形式に変換した上で、感情推定部93へ出力する。
なお変更態様として、入力部91は例えば、感情推定対象のユーザ(例えばコールセンターへの問合せ者)の電話端末と通話接続している外部の電話端末から、当該ユーザの音声データを取得することも好ましい。
ここで、入力部91は、当該所定の形式に変換した音声データに対し、(外部から指定された)正解感情ラベルを付与した上で、付与済みの当該音声データを学習データとして学習部92に保存させてもよい。
学習部92は、自ら保存している正解感情ラベルの付された音声データ群を用いて、多言語対応感情推定モデル1(勿論、他の感情推定モデル2、3、4、5又は5’でもよい)のいずれかを構築し、感情推定部93に出力する。この際、例えば図2及び3を用いて詳細に説明したモデル構築手順によって、多言語対応感情推定モデル1を構築することができる。
感情推定部93は、入力部91より受け取ったユーザの音声データを、学習部92から受け取った学習済みの多言語対応感情推定モデル1へ入力し、その出力として、予め設定された感情種別(例えば"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"の5つ)毎のスコアを取得する。ここで、感情推定部93は例えば、最も高いスコアを有する感情種別(例えば"喜び")を感情推定結果として、出力部94へ出力する。
出力部94は、受け取った感情推定結果を例えば、ディスプレイに表示させたり、(通信機能を備えている場合に)外部の情報処理装置に送信したりすることができる。ここで、表示・送信される感情推定結果は、例えば「(入力された音声データに係る)ユーザは、発話時点において"喜び"の状態にある」旨の情報となる。
[実施例]
図9は、多言語対応感情推定モデル1を用いて実際に感情推定処理を実施した実施例における感情推定結果を説明するためのテーブルである。
ここで図9のテーブルには、本実施例を評価するため、同じく音声からの感情推定処理を実施した従来例1及び従来例2における感情推定結果も合せて挙げている。このうち従来例1は、対応する複数の言語(後述するように具体的には、英語、イタリア語及びスペイン語の3つ)の音声データを学習データとして、ベースラインモデルとなる1つの感情推定モデルを構築し、このモデルを用いて感情推定処理を実施したものである。ここで勿論、この感情推定モデルは、言語種別(の識別)に係る情報を一切使用せずに構築されている。
一方、従来例2は、音声に対し評価者による感情評価、すなわち人為評価を行ったものである。ここで使用された感情評価の手法は、非特許文献4:E. P-Cabaleiro, G. Costantini, A. Batliner, A. Baird, and B. Schuller, “Categorical vs Dimensional Perception of Italian Emotional Speech” In Proc. of Interspeech 2018, pp. 3638-3642, 2018年に記載されたものとなっている。
また、本実施例で使用された多言語対応感情推定モデル1は、全結合型・順伝播型のDNNによって構成されている。
さらに、本実施例、従来例1(ベースラインアプローチ)、及び従来例2(人為評価)において、推定すべき感情種別は、"怒り"、"嫌悪"、"恐れ"、"喜び"、及び"悲しみ"の5つに設定されており、また、対応した言語は、英語、イタリア語及びスペイン語の3つとなっている。ここで、学習用及び推定処理用の音声データは、上記の非特許文献4に記載された多言語音声データコーパスであるEmoFilmを含め、既存の音声データコーパスを利用して取得している。
図9のテーブルには、以上に説明したような従来例1(ベースラインアプローチ)、従来例2(人為評価)、及び本実施例における、感情推定結果から導出される感情種別毎の再現率(Recall)、及び5つの感情種別にわたる再現率の平均値が記録されている。
ここで、再現率(Recall)は、推定結果の評価尺度の1つであり、推定結果が「正解である感情種別」となったデータの数をTPとし、推定結果が「正解である感情種別」とは異なるものとなったデータの数をFNとして、次式
(1) Recall=TP/(TP+FN)
によって算出される。すなわち、各感情種別の再現率(Recall)は、正解が当該感情種別であるデータのうち、推定結果が当該感情種別となったデータの割合を示す値となっている。
図9のテーブルによれば、従来例1(ベースラインアプローチ)の再現率の平均は65.8%であり、一方、従来例2(人為評価)の再現率の平均は71.8%である。これに対し、本実施例では、再現率の平均が72.2%となっており、従来例1(ベースラインアプローチ)は勿論、従来例2(人為評価)よりも高い再現率を達成していることが分かる。
またこのような結果から、本発明による感情推定モデルにおいては、「言語種別に係る特徴」を「感情に係る特徴」の抽出段階で考慮しつつ感情推定処理を進めることによって、そのような配慮の全くなされていないベースラインモデルは勿論、人為評価をも超える推定精度が実現可能となっていることが理解されるのである。
以上詳細に説明したように、本発明の感情推定モデルによれば、言語識別モデル部分の出力である「言語種別に係る特徴」と、感情認識モデル部分の出力である「感情に係る特徴」とを結合した上で、感情推定部において感情推定処理を実施する。すなわち、言語識別に関し決定論的ではなく非確定的・発見的に処理を実施することができ、その結果、音声からその発声主体の感情を、当該音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することが可能となる。
また、本発明の感情推定モデルにおいて、互いに異なる種別の言語に係る複数の感情認識モデル部分を適用した場合には、これらの言語のうちのいずれかを発声する発生主体に対し、当該発声主体の感情を、その音声に係る言語種別を先に決めてしまうリスクを回避しつつ、高い精度で推定することができる。言い換えると、多言語に対応した高い精度の感情推定処理を実施することも可能となるのである。
さらに、本発明によれば特に、語学学校や公的教育機関において言語教育サービスを提供する際、個々の学習者における学習時の感情状態を、高い精度で把握して学習成果の向上に役立てることも可能となる。また、医療サービスや健康管理系サービスを提供する際にも、患者やユーザにおけるサービス提供時の感情状態を高い精度で把握し、当該感情状態を考慮したより適切な対応や提案を行うことも可能となるのである。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1、1’、2、4、5、5’ 多言語対応感情推定モデル
10、20、30 入力層
11A、11A’、11B、11B’、11C、11C’、21、31、41A、41B、51A、51A’ 結合スコア生成部
111、211、311、411A、411B、511 言語識別モデル部分
111’ 言語識別モデル
112A、112B、112C、212A、212B、212C、312A、412A、412B、512A 感情認識モデル部分
112A’ 感情認識モデル
113A、113A’、113B、113B’、113C、113C’、213、313、413A、413B、513A 結合層(結合部)
12、12’、22、32、42、52 感情推定部
3 感情推定モデル
9 感情推定装置
91 入力部
92 学習部
93 感情推定部
94 出力部

Claims (10)

  1. 入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分と、
    当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分と、
    当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部と、
    当該結合部の出力から、当該音声データの発声主体に係る感情種別を推定する感情推定部と
    を有することを特徴とする感情推定モデル。
  2. 当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを自身に係る言語の音声データとして、感情に係る特徴を抽出することを特徴とする請求項1に記載の感情推定モデル。
  3. 当該結合部は複数の結合部であって、当該複数の結合部はそれぞれ、当該言語識別モデル部分の出力と、前記複数の感情認識モデル部分のそれぞれの出力とを結合することを特徴とする請求項2に記載の感情推定モデル。
  4. 当該言語識別モデル部分は、互いに異なる種別の言語に係る複数の言語識別モデル部分であって、各言語識別モデル部分の言語特徴抽出部は、当該音声データについて、自身に係る種別の言語の音声データであるか否かに関する特徴を抽出し、
    当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを自身に係る言語の音声データとして、感情に係る特徴を抽出し、
    当該結合部は、互いに異なる種別の言語に係る複数の結合部であって、当該互いに異なる種別の言語毎に、当該種別の言語に係る結合部が、当該種別の言語に係る言語識別モデル部分の出力と、当該種別の言語に係る感情認識モデル部分の出力とを結合する
    ことを特徴とする請求項1又は2に記載の感情推定モデル。
  5. 当該感情認識モデル部分は、互いに異なる感情種別に係る複数の感情特徴抽出部を有し、各感情特徴抽出部は、当該音声データについて、自身に係る感情種別に係る音声データであるか否かに関する特徴を抽出することを特徴とする請求項1から4のいずれか1項に記載の感情推定モデル。
  6. 当該言語識別モデル部分は、学習済みの言語識別モデルにおいて少なくともその出力部を外したものであり、当該感情認識モデル部分は、学習済みの感情認識モデルにおいて少なくともその出力部を外したものであることを特徴とする請求項1から5のいずれか1項に記載の感情推定モデル。
  7. 当該結合部及び当該感情推定部は、学習済みの当該言語識別モデル部分と学習済みの当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を行うことによって学習済みとなった部分であることを特徴とする請求項1から6のいずれか1項に記載の感情推定モデル。
  8. 当該言語識別モデル部分、当該感情認識モデル部分、当該結合部及び当該感情推定部はニューラルネットワークで構成されていることを特徴とする請求項1から7のいずれか1項に記載の感情推定モデル。
  9. 請求項1から8のいずれか1項に記載された感情推定モデルを用いて、入力された音声データから、当該音声データの発声主体に係る感情を推定することを特徴とする感情推定装置。
  10. 入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分を、学習済みの言語識別モデルにおいて少なくともその出力部を外すことによって生成し、また、当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分を、学習済みの感情認識モデルにおいてその出力部を外すことによって生成するステップと、
    当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部を生成するステップと、
    当該結合部の出力側に、当該音声データの発声主体に係る感情種別を推定するための感情推定部を付与するステップと、
    当該言語識別モデル部分と当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を実施するステップと
    を有することを特徴とするコンピュータによる感情推定モデルの生成方法。
JP2020015574A 2020-01-31 2020-01-31 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法 Active JP7184831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020015574A JP7184831B2 (ja) 2020-01-31 2020-01-31 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020015574A JP7184831B2 (ja) 2020-01-31 2020-01-31 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法

Publications (2)

Publication Number Publication Date
JP2021124531A JP2021124531A (ja) 2021-08-30
JP7184831B2 true JP7184831B2 (ja) 2022-12-06

Family

ID=77458660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020015574A Active JP7184831B2 (ja) 2020-01-31 2020-01-31 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法

Country Status (1)

Country Link
JP (1) JP7184831B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110004473A1 (en) 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
JP2016103270A (ja) 2014-11-12 2016-06-02 株式会社アドバンスト・メディア 情報処理システム、受付サーバ、情報処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110004473A1 (en) 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
JP2016103270A (ja) 2014-11-12 2016-06-02 株式会社アドバンスト・メディア 情報処理システム、受付サーバ、情報処理方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ahmed H. abo absa et al.,A Two-Stage Hierarchical Multilingual Emotion Recognition System Using Hidden Markov Models and Neural Networks,2017 9th IEEE-GCC Conference and Exhibition,2017年05月,p.1-6
坂口巧一,加藤昇平,音声からの感情推定における転移学習を用いた多言語補填,2019年度人工知能学会全国大会(第33回),2019年06月,p.1-4

Also Published As

Publication number Publication date
JP2021124531A (ja) 2021-08-30

Similar Documents

Publication Publication Date Title
US10950219B2 (en) Systems and methods for providing a virtual assistant
WO2021104099A1 (zh) 一种基于情景感知的多模态抑郁症检测方法和系统
US9635178B2 (en) Coordinating voice calls between representatives and customers to influence an outcome of the call
US9900436B2 (en) Coordinating voice calls between representatives and customers to influence an outcome of the call
Mendels et al. Hybrid Acoustic-Lexical Deep Learning Approach for Deception Detection.
Alam et al. Annotating and modeling empathy in spoken conversations
WO2021047319A1 (zh) 基于语音的个人信用评估方法、装置、终端及存储介质
Macary et al. AlloSat: A new call center french corpus for satisfaction and frustration analysis
CN113380271B (zh) 情绪识别方法、系统、设备及介质
CN110610705A (zh) 一种基于人工智能的语音交互提示器
Atassi et al. A speaker independent approach to the classification of emotional vocal expressions
Kopparapu Non-linguistic analysis of call center conversations
CN112233680A (zh) 说话人角色识别方法、装置、电子设备及存储介质
Badshah et al. Divide-and-conquer based ensemble to spot emotions in speech using MFCC and random forest
Xin et al. Exploring the effectiveness of self-supervised learning and classifier chains in emotion recognition of nonverbal vocalizations
Seneviratne et al. Multimodal depression classification using articulatory coordination features and hierarchical attention based text embeddings
Jia et al. A deep learning system for sentiment analysis of service calls
JP7184831B2 (ja) 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치
CN116883888A (zh) 基于多模态特征融合的银行柜面服务问题溯源系统及方法
Ullah et al. Speech emotion recognition using deep neural networks
Getahun et al. Emotion identification from spontaneous communication
Pranto et al. Aims talk: Intelligent call center support in bangla language with speaker authentication
Lefter et al. EmoReSp: an online emotion recognizer based on speech
Jeon et al. Level of interest sensing in spoken dialog using decision-level fusion of acoustic and lexical evidence

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221124

R150 Certificate of patent or registration of utility model

Ref document number: 7184831

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150