JP7184831B2 - 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法 - Google Patents
音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法 Download PDFInfo
- Publication number
- JP7184831B2 JP7184831B2 JP2020015574A JP2020015574A JP7184831B2 JP 7184831 B2 JP7184831 B2 JP 7184831B2 JP 2020015574 A JP2020015574 A JP 2020015574A JP 2020015574 A JP2020015574 A JP 2020015574A JP 7184831 B2 JP7184831 B2 JP 7184831B2
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- language
- model
- output
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分と、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部と、
当該結合部の出力から、当該音声データの発声主体に係る感情種別を推定する感情推定部と
を有する感情推定モデルが提供される。
当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを自身に係る言語の音声データとして、感情に係る特徴を抽出し、
当該結合部は、互いに異なる種別の言語に係る複数の結合部であって、当該互いに異なる種別の言語毎に、当該種別の言語に係る結合部が、当該種別の言語に係る言語識別モデル部分の出力と、当該種別の言語に係る感情認識モデル部分の出力とを結合する
ことも好ましい。
入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分を、学習済みの言語識別モデルにおいてその出力部を外すことによって生成し、また、当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分を、学習済みの感情認識モデルにおいて少なくともその出力部を外すことによって生成するステップと、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部を生成するステップと、
当該結合部の出力側に、当該音声データの発声主体に係る感情種別を推定するための感情推定部を付与するステップと、
当該言語識別モデル部分と当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を実施するステップと
を有することを特徴とするコンピュータによる感情推定モデルの生成方法が提供される。
図1は、本発明による感情推定モデルを用いて感情推定処理を実施する感情推定装置の一実施形態を示す模式図である。
(A)入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部(図1では言語特徴抽出層)を備えた「言語識別モデル部分」(図1では言語識別モデル部分111)と、
(B)当該音声データから感情に係る特徴を抽出する感情特徴抽出部(図1では感情特徴抽出層)を備えた「感情認識モデル部分」(図1では複数の感情認識モデル部分112A,112B,112C,・・・)と、
(C)「言語識別モデル部分」の出力と、「感情認識モデル部分」の出力とを結合する「結合部(concatenating部,merging部)」(図1では複数の結合層113A,113B,113C,・・・)と、
(D)「結合部」の出力から、当該音声データの発話者(発声主体)に係る感情種別を推定する「感情推定部」(図1では感情推定部12)と
を有している。
同じく図1によれば、多言語対応感情推定モデル1は、感情推定装置9に搭載された本発明による感情推定プログラムに取り込まれて感情推定処理の主要ステップを実行可能にするモデルであり、その構成要素として、入力層10と、結合スコア生成部11A、11B及び11Cと、感情推定部12とを備えている。またこのうち、結合スコア生成部11A、11B及び11Cは、
(a)共通(共用)の言語識別モデル部分111と、
(b)それぞれ感情認識モデル部分112A、112B及び112Cと、
(c)それぞれ結合層113A、113B及び113Cと
を備えている。
(ア)言語識別モデル部分111の言語特徴抽出層において、受け取った音声データから「言語種別に係る特徴」を抽出し、
(イ)感情認識モデル部分112Aの言語A感情特徴抽出層において、受け取った音声データから「感情に係る特徴」を抽出し、
(ウ)結合層113Aにおいて、受け取った「言語種別に係る特徴」及び「感情に係る特徴」を結合(concatenate)し、両特徴の融合(merge)した結果である「結合感情スコア」を生成し出力する。
(a)学習済みのDNN言語識別モデルにおいてその出力部(例えばsoftmax層)を外したもの、及び
(b)(言語Aの音声データによって)学習済みのDNN感情認識モデルにおいてその出力部(例えばsoftmax層)を外したもの
である。したがって、それらの言語特徴抽出層や言語A感情特徴抽出層は、それらのDNNモデルにおける出力部(出力層)以前の層部分となっている。
(a)結合スコア生成部11Aの出力である言語Aに係る「結合感情スコア」と、
(b)結合スコア生成部11Bの出力である言語Bに係る「結合感情スコア」と、
(c)結合スコア生成部11Cの出力である言語Cに係る「結合感情スコア」と、
・・・
を全て取りまとめて入力とし、最初に入力された音声データの発話者(発声主体)に係る感情種別を推定する。
図3は、本発明に係る多言語対応感情推定モデル1の構築(学習)方法の一実施形態を説明するための模式図である。
(a)第1のトレーニングデータ群のデータを、図2の説明で言及した言語識別モデル111’及び感情認識モデル112A’を構築するための学習データとして使用し、
(b)第2のトレーニングデータ群のデータを、図3を用いて説明した多言語対応感情推定モデル1’を構築するための学習データとして使用し、さらに、
(c)検証データ群のデータを、構築した学習済みの多言語対応感情推定モデル1のテスト用として使用する
ことも好ましいのである。
図4は、本発明による感情推定モデルにおける他の実施形態を示す模式図である。
(a)当該種別の言語に係る言語識別モデル部分(411A,411B,・・・)の出力と、
(b)当該種別の言語に係る感情認識モデル部分(412A,412B,・・・)の出力と
を結合するのである。
(a)入力された音声データが、特定の種別の言語に係るものか否かを判定する(例えば当該特定の種別の言語である尤度情報を出力する)学習済みの言語識別モデルを構築し、
(b)構築された言語識別モデルから、その出力部(例えばsigmoid関数の活性化層を含む層部分)を取り外す
ことによって生成することができる。
(a)当該音声データに係る発話者の感情が、感情種別αであるか否かに関する特徴(例えば感情種別αである尤度に係る特徴)を抽出する言語A感情α感情特徴抽出層と、
(b)当該音声データに係る発話者の感情が、感情種別βであるか否かに関する特徴(例えば感情種別βである尤度に係る特徴)を抽出する言語A感情β感情特徴抽出層と、
(c)当該音声データに係る発話者の感情が、感情種別γであるか否かに関する特徴(例えば感情種別γである尤度に係る特徴)を抽出する言語A感情γ感情特徴抽出層と、
・・・
を有しているのである。
(a)言語識別モデル部分511の出力と、
(b)当該種別の言語に係る感情認識モデル部分(512A,・・・)の出力、すなわち互いに異なる感情種別に係る複数の感情特徴抽出層(感情特徴抽出部)からの全ての出力と
を取りまとめて結合するのである。
(a)入力された音声データが、特定の感情種別に係るものか否かを判定する(特定の感情種別である尤度情報を出力する)学習済みの感情認識モデルを構築し、
(b)構築された感情認識モデルから、その出力部(例えばsigmoid関数の活性化層を含む層部分)を取り外す
ことによって生成することができる。
次に、図1に戻り、以上に説明したような(多言語対応)感情推定モデル1、2、3、4、5及び5’のいずれかを搭載し、ユーザ(発話者)の感情を推定可能とする感情推定装置9について説明する。
図9は、多言語対応感情推定モデル1を用いて実際に感情推定処理を実施した実施例における感情推定結果を説明するためのテーブルである。
(1) Recall=TP/(TP+FN)
によって算出される。すなわち、各感情種別の再現率(Recall)は、正解が当該感情種別であるデータのうち、推定結果が当該感情種別となったデータの割合を示す値となっている。
10、20、30 入力層
11A、11A’、11B、11B’、11C、11C’、21、31、41A、41B、51A、51A’ 結合スコア生成部
111、211、311、411A、411B、511 言語識別モデル部分
111’ 言語識別モデル
112A、112B、112C、212A、212B、212C、312A、412A、412B、512A 感情認識モデル部分
112A’ 感情認識モデル
113A、113A’、113B、113B’、113C、113C’、213、313、413A、413B、513A 結合層(結合部)
12、12’、22、32、42、52 感情推定部
3 感情推定モデル
9 感情推定装置
91 入力部
92 学習部
93 感情推定部
94 出力部
Claims (10)
- 入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分と、
当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分と、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部と、
当該結合部の出力から、当該音声データの発声主体に係る感情種別を推定する感情推定部と
を有することを特徴とする感情推定モデル。 - 当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを自身に係る言語の音声データとして、感情に係る特徴を抽出することを特徴とする請求項1に記載の感情推定モデル。
- 当該結合部は複数の結合部であって、当該複数の結合部はそれぞれ、当該言語識別モデル部分の出力と、前記複数の感情認識モデル部分のそれぞれの出力とを結合することを特徴とする請求項2に記載の感情推定モデル。
- 当該言語識別モデル部分は、互いに異なる種別の言語に係る複数の言語識別モデル部分であって、各言語識別モデル部分の言語特徴抽出部は、当該音声データについて、自身に係る種別の言語の音声データであるか否かに関する特徴を抽出し、
当該感情認識モデル部分は、互いに異なる種別の言語に係る複数の感情認識モデル部分であって、各感情認識モデル部分の感情特徴抽出部は、当該音声データを自身に係る言語の音声データとして、感情に係る特徴を抽出し、
当該結合部は、互いに異なる種別の言語に係る複数の結合部であって、当該互いに異なる種別の言語毎に、当該種別の言語に係る結合部が、当該種別の言語に係る言語識別モデル部分の出力と、当該種別の言語に係る感情認識モデル部分の出力とを結合する
ことを特徴とする請求項1又は2に記載の感情推定モデル。 - 当該感情認識モデル部分は、互いに異なる感情種別に係る複数の感情特徴抽出部を有し、各感情特徴抽出部は、当該音声データについて、自身に係る感情種別に係る音声データであるか否かに関する特徴を抽出することを特徴とする請求項1から4のいずれか1項に記載の感情推定モデル。
- 当該言語識別モデル部分は、学習済みの言語識別モデルにおいて少なくともその出力部を外したものであり、当該感情認識モデル部分は、学習済みの感情認識モデルにおいて少なくともその出力部を外したものであることを特徴とする請求項1から5のいずれか1項に記載の感情推定モデル。
- 当該結合部及び当該感情推定部は、学習済みの当該言語識別モデル部分と学習済みの当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を行うことによって学習済みとなった部分であることを特徴とする請求項1から6のいずれか1項に記載の感情推定モデル。
- 当該言語識別モデル部分、当該感情認識モデル部分、当該結合部及び当該感情推定部はニューラルネットワークで構成されていることを特徴とする請求項1から7のいずれか1項に記載の感情推定モデル。
- 請求項1から8のいずれか1項に記載された感情推定モデルを用いて、入力された音声データから、当該音声データの発声主体に係る感情を推定することを特徴とする感情推定装置。
- 入力された音声データから言語種別に係る特徴を抽出する言語特徴抽出部を備えた言語識別モデル部分を、学習済みの言語識別モデルにおいて少なくともその出力部を外すことによって生成し、また、当該音声データから感情に係る特徴を抽出する感情特徴抽出部を備えた感情認識モデル部分を、学習済みの感情認識モデルにおいてその出力部を外すことによって生成するステップと、
当該言語識別モデル部分の出力と、当該感情認識モデル部分の出力とを結合する結合部を生成するステップと、
当該結合部の出力側に、当該音声データの発声主体に係る感情種別を推定するための感情推定部を付与するステップと、
当該言語識別モデル部分と当該感情認識モデル部分とを学習対象外とした上で、感情推定モデル全体の学習を実施するステップと
を有することを特徴とするコンピュータによる感情推定モデルの生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020015574A JP7184831B2 (ja) | 2020-01-31 | 2020-01-31 | 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020015574A JP7184831B2 (ja) | 2020-01-31 | 2020-01-31 | 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021124531A JP2021124531A (ja) | 2021-08-30 |
JP7184831B2 true JP7184831B2 (ja) | 2022-12-06 |
Family
ID=77458660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020015574A Active JP7184831B2 (ja) | 2020-01-31 | 2020-01-31 | 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7184831B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004473A1 (en) | 2009-07-06 | 2011-01-06 | Nice Systems Ltd. | Apparatus and method for enhanced speech recognition |
JP2016103270A (ja) | 2014-11-12 | 2016-06-02 | 株式会社アドバンスト・メディア | 情報処理システム、受付サーバ、情報処理方法及びプログラム |
-
2020
- 2020-01-31 JP JP2020015574A patent/JP7184831B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004473A1 (en) | 2009-07-06 | 2011-01-06 | Nice Systems Ltd. | Apparatus and method for enhanced speech recognition |
JP2016103270A (ja) | 2014-11-12 | 2016-06-02 | 株式会社アドバンスト・メディア | 情報処理システム、受付サーバ、情報処理方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
Ahmed H. abo absa et al.,A Two-Stage Hierarchical Multilingual Emotion Recognition System Using Hidden Markov Models and Neural Networks,2017 9th IEEE-GCC Conference and Exhibition,2017年05月,p.1-6 |
坂口巧一,加藤昇平,音声からの感情推定における転移学習を用いた多言語補填,2019年度人工知能学会全国大会(第33回),2019年06月,p.1-4 |
Also Published As
Publication number | Publication date |
---|---|
JP2021124531A (ja) | 2021-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10950219B2 (en) | Systems and methods for providing a virtual assistant | |
WO2021104099A1 (zh) | 一种基于情景感知的多模态抑郁症检测方法和系统 | |
US9635178B2 (en) | Coordinating voice calls between representatives and customers to influence an outcome of the call | |
US9900436B2 (en) | Coordinating voice calls between representatives and customers to influence an outcome of the call | |
Mendels et al. | Hybrid Acoustic-Lexical Deep Learning Approach for Deception Detection. | |
Alam et al. | Annotating and modeling empathy in spoken conversations | |
WO2021047319A1 (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
Macary et al. | AlloSat: A new call center french corpus for satisfaction and frustration analysis | |
CN113380271B (zh) | 情绪识别方法、系统、设备及介质 | |
CN110610705A (zh) | 一种基于人工智能的语音交互提示器 | |
Atassi et al. | A speaker independent approach to the classification of emotional vocal expressions | |
Kopparapu | Non-linguistic analysis of call center conversations | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
Badshah et al. | Divide-and-conquer based ensemble to spot emotions in speech using MFCC and random forest | |
Xin et al. | Exploring the effectiveness of self-supervised learning and classifier chains in emotion recognition of nonverbal vocalizations | |
Seneviratne et al. | Multimodal depression classification using articulatory coordination features and hierarchical attention based text embeddings | |
Jia et al. | A deep learning system for sentiment analysis of service calls | |
JP7184831B2 (ja) | 音声の言語特徴と感情特徴を結合させて感情推定を行うモデル及び装置、並びに当該モデルの生成方法 | |
KR20210123545A (ko) | 사용자 피드백 기반 대화 서비스 제공 방법 및 장치 | |
CN116883888A (zh) | 基于多模态特征融合的银行柜面服务问题溯源系统及方法 | |
Ullah et al. | Speech emotion recognition using deep neural networks | |
Getahun et al. | Emotion identification from spontaneous communication | |
Pranto et al. | Aims talk: Intelligent call center support in bangla language with speaker authentication | |
Lefter et al. | EmoReSp: an online emotion recognizer based on speech | |
Jeon et al. | Level of interest sensing in spoken dialog using decision-level fusion of acoustic and lexical evidence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7184831 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |