JP7001126B2 - 感情推定装置、感情推定方法及びプログラム - Google Patents
感情推定装置、感情推定方法及びプログラム Download PDFInfo
- Publication number
- JP7001126B2 JP7001126B2 JP2020104161A JP2020104161A JP7001126B2 JP 7001126 B2 JP7001126 B2 JP 7001126B2 JP 2020104161 A JP2020104161 A JP 2020104161A JP 2020104161 A JP2020104161 A JP 2020104161A JP 7001126 B2 JP7001126 B2 JP 7001126B2
- Authority
- JP
- Japan
- Prior art keywords
- accent
- emotion
- voice
- voice data
- mora
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本実施形態では、音声データから発話者の感情を推定する感情推定器を生成する感情推定器生成装置について説明した後、音声を発話した時の発話者の感情を推定する感情推定装置について説明する。本実施形態では、感情推定装置が、発話者の感情を悲しんでいる状態(悲しみ)、退屈している状態(退屈)、怒っている状態(怒り)、驚いている状態(驚き)、落胆している状態(落胆)、嫌悪感を抱いている状態(嫌悪)、喜んでいる状態(喜び)、の基本的な7種類の感情状態のいずれかであると推定する場合について説明する。
なお、以下の実施形態では、音声データの特徴量の変化パターンをアクセント型と称する。
実施形態1では、アクセント型を判別するために特徴量をモーラ区間の単位で解析する説明をした。変形例1では、モーラ区間の中の母音区間に限定して特徴量を解析する説明を行う。具体的には、図12に示すように、母音区間のみの音声データを取り出して、図13に示すように特徴量の解析を行う。基本周波数の解析方法は実施形態1の説明と同じである。
実施形態1の説明では、アクセント型抽出部132が、音声の特徴量として音声のピッチ情報(音声の基本周波数)を利用する場合について説明した。変形例2では、音声の特徴量として音声の強度情報を利用する場合について説明する。ここでは、発話時の感情状態によって母音の発話区間における音声のエネルギー分布が変化することに着目した技術について説明する。
変形例3では、音声の特徴量として音素の継続時間長を利用する場合について説明する。怒ったり喜んだりした状態で発話すると音素の継続時間長は短くなる傾向があり、退屈な状態や悲しい状態で発話すると音素の継続時間長が長くなる傾向があるので、この傾向を利用するものである。
実施形態1と変形例1では、音声の特徴量として音声のピッチ情報を利用してアクセント型を抽出する技術の説明をした。また、変形例2では、音声の強度情報を利用してアクセント型を抽出する技術を紹介し、変形例3では、音素の継続時間長を利用してアクセント型を抽出する技術を紹介した。アクセント型を抽出する場合、これらの技術を単独で使用することもできるが、音声のピッチ情報と音声の強度情報のように2つ以上の技術を組み合わせてアクセント型を抽出することもできる。2つ以上の情報を組み合わせるとアクセント型の種類が増えることになるが、感情推定の精度を向上させることができる。
実施形態1の説明では、解析対象の文に含まれるアクセント句ごとの感情推定結果に基づいて、最も多かった感情をその文を発話したときの発話者の感情として推定する技術について説明を行った。しかし、統合処理の仕方はこれに限定する必要は無い。例えば、「少し驚きを伴った喜び」のように、複数の感情を含む推定を行うこともできる。感情推定器を構成する分類器では、特徴量をベクトルとして取得し、そのベクトルと識別閾値との距離に基づいて、いずれの感情に分類するかを決める場合が多い。例えば、「坊主が」、「屏風に」、「上手に」、「坊主の」、「絵を」、「描いた」の7つのアクセント句に対応する特徴量を、図15に示す1から7に示す位置ベクトルで表し、7つの位置ベクトルを合成した平均ベクトルが、図15に「平均」で示した位置ベクトルであったとする。この場合、位置ベクトル「平均」は、喜びの領域に属しているが、喜びと驚きの境界に近い位置に存在する。このような場合には、「少し驚きの感情が混在している可能性がある」というニュアンスを含めた感情推定結果を出力するようにしてもよい。
教師データの元となる音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記特徴量の変化パターンごとに分類された音声データを教師データとして、前記特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成ステップと、
を含む感情推定器生成方法。
前記変化パターン決定ステップは、
前記解析区間に含まれる音声データを、音節の単位であるモーラ区間に分割するモーラ区間抽出ステップと、
前記解析区間における音声データの特徴量の平均値と、前記モーラ区間における音声データの特徴量の平均値と、をモーラ区間ごとに比較した比較結果に基づいて、前記解析区間の音声データを発話したときのモーラ区間ごとに変化する音声の特徴量の変化パターンを抽出する変化パターン抽出ステップと、
を含むことを特徴とする付記1に記載の感情推定器生成方法。
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の基本周波数を用い、前記解析区間における音声の平均基本周波数と、前記モーラ区間における音声の平均基本周波数と、をモーラ区間ごとに比較し、モーラ区間の音声の平均基本周波数が解析区間の音声の平均基本周波数よりも高い場合にはHighを、低い場合にはLowを付与し、モーラ区間ごとにHighとLowに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記2に記載の感情推定器生成方法。
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の強度を用い、前記解析区間における音声の平均強度と、前記モーラ区間における音声の平均強度と、をモーラ区間ごとに比較し、モーラ区間の音声の平均強度が解析区間の音声の平均強度よりも高い場合にはHighを、低い場合にはLowを付与し、モーラ区間ごとにHighとLowに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記2に記載の感情推定器生成方法。
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音素の継続時間長を用い、前記解析区間における音素の平均継続時間長と、前記モーラ区間における音素の平均継続時間長と、をモーラ区間ごとに比較し、モーラ区間の音素の平均継続時間長が解析区間の音素の平均継続時間長よりも長い場合にはHighを、短い場合にはLowを付与し、モーラ区間ごとにHighとLowに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記2に記載の感情推定器生成方法。
前記変化パターン抽出ステップでは、音声の特徴量として、音声の基本周波数、音声の強度、音素の継続時間長の少なくとも何れか1つを使用して音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記2から5の何れか一つに記載の感情推定器生成方法。
前記解析区間設定ステップでは、音声データを、言語の意味を持つ最小の単位である形態素に分割し、当該形態素の後で発話された助詞又は助動詞と結合したアクセント句の区間を前記解析区間として設定する、
ことを特徴とする付記1から6の何れか一つに記載の感情推定器生成方法。
前記モーラ区間抽出ステップでは、音声データをテキスト表示した場合に、仮名文字1文字を1モーラ区間とし、小書きの仮名文字はその前の仮名文字と一緒にして1モーラ区間とし、長音は独立して1モーラ区間とする、
ことを特徴とする付記2に記載の感情推定器生成方法。
前記感情推定器は、発話者の発話時の感情を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の何れかの感情であると推定する、
ことを特徴とする付記1から8の何れか一つに記載の感情推定器生成方法。
前記複数のクラスに分類された変化パターンを設定する変化パターン設定ステップを含む、
ことを特徴とする付記1から9の何れか一つに記載の感情推定器生成方法。
教師データの元となる音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記特徴量の変化パターンごとに分類された音声データを教師データとして、前記特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段と、
を含む感情推定器生成装置。
コンピュータを
教師データの元となる音声データの特徴量を解析する解析区間を設定する解析区間設定手段、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段、
前記特徴量の変化パターンごとに分類された音声データを教師データとして、前記特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段、
として機能させるためのプログラム。
解析対象とする音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記特徴量の変化パターンごとに、同じ特徴量の変化パターンを有する教師データに基づいて生成された感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定ステップと、
を含む感情推定方法。
解析対象とする音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記特徴量の変化パターンごとに、同じ特徴量の変化パターンを有する教師データに基づいて生成された感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定手段と、
を備えた感情推定装置。
Claims (4)
- アクセント型毎に当該アクセント型に対応させた感情推定テーブルが登録されている記憶手段と、
取得した音声データにおけるアクセント句毎に前記アクセント型を特定する第1特定手段と、
前記第1特定手段により特定されたアクセント型に対応する前記感情推定テーブルに基づいて、当該アクセント型として前記第1特定手段により特定されたアクセント句に該当する感情状態を、前記取得した音声データにおけるアクセント句毎に特定する第2特定手段と、
前記取得した音声データを対象にして前記第2特定手段により特定された感情状態のうち最も多く特定された感情状態を前記取得した音声データを発話した発話者の感情状態として推定する推定手段と、
を備え、
前記アクセント型は、アクセント句を構成するモーラ区間の数の違い、及び、モーラ区間における音声周波数の高さを示す指標がアクセント句を構成するモーラ区間の並びに従って並べられた音声周波数の変化パターンの違いによって分類されている、
ことを特徴とする感情推定装置。 - 前記感情推定テーブルは、感情状態がアクセント句毎の音声の特徴量として、音声の大きさ、音声のピッチまたは音素の時間長に対応付けられており、
前記第2特定手段は、前記取得した音声データにおけるアクセント句毎に前記音声の特徴量を特定したうえで、前記感情推定テーブルに基づいて前記感情状態を特定する、
ことを特徴とする請求項1に記載の感情推定装置。 - アクセント型毎に当該アクセント型に対応させた感情推定テーブルが登録されている記憶手段を備えた感情推定装置が実行する感情推定方法であって、
取得した音声データにおけるアクセント句毎に前記アクセント型を特定する第1特定ステップと、
前記第1特定ステップで特定されたアクセント型に対応する前記感情推定テーブルに基づいて、当該アクセント型として前記第1特定ステップで特定されたアクセント句に該当する感情状態を、前記取得した音声データにおけるアクセント句毎に特定する第2特定ステップと、
前記取得した音声データを対象にして前記第2特定ステップで特定された感情状態のうち最も多く特定された感情状態を前記取得した音声データを発話した発話者の感情状態として推定する推定ステップと、
を有し、
前記アクセント型は、アクセント句を構成するモーラ区間の数の違い、及び、モーラ区間における音声周波数の高さを示す指標がアクセント句を構成するモーラ区間の並びに従って並べられた音声周波数の変化パターンの違いによって分類されている、
ことを特徴とする感情推定方法。 - アクセント型毎に当該アクセント型に対応させた感情推定テーブルが登録されている記憶手段を備えた感情推定装置のコンピュータを、
取得した音声データにおけるアクセント句毎に前記アクセント型を特定する第1特定手段、
前記第1特定手段により特定されたアクセント型に対応する前記感情推定テーブルに基づいて、当該アクセント型として前記第1特定手段により特定されたアクセント句に該当する感情状態を、前記取得した音声データにおけるアクセント句毎に特定する第2特定手段、
前記取得した音声データを対象にして前記第2特定手段により特定された感情状態のうち最も多く特定された感情状態を前記取得した音声データを発話した発話者の感情状態として推定する推定手段、
として機能させ、
前記アクセント型は、アクセント句を構成するモーラ区間の数の違い、及び、モーラ区間における音声周波数の高さを示す指標がアクセント句を構成するモーラ区間の並びに従って並べられた音声周波数の変化パターンの違いによって分類されている、
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020104161A JP7001126B2 (ja) | 2020-06-17 | 2020-06-17 | 感情推定装置、感情推定方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020104161A JP7001126B2 (ja) | 2020-06-17 | 2020-06-17 | 感情推定装置、感情推定方法及びプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015247885A Division JP6720520B2 (ja) | 2015-12-18 | 2015-12-18 | 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020154332A JP2020154332A (ja) | 2020-09-24 |
JP7001126B2 true JP7001126B2 (ja) | 2022-01-19 |
Family
ID=72558982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020104161A Active JP7001126B2 (ja) | 2020-06-17 | 2020-06-17 | 感情推定装置、感情推定方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7001126B2 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003162294A (ja) | 2001-10-05 | 2003-06-06 | Sony Internatl Europ Gmbh | 感情検出方法及び感情検出装置 |
JP2005283647A (ja) | 2004-03-26 | 2005-10-13 | Matsushita Electric Ind Co Ltd | 感情認識装置 |
WO2008032787A1 (fr) | 2006-09-13 | 2008-03-20 | Nippon Telegraph And Telephone Corporation | ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme |
JP2009282824A (ja) | 2008-05-23 | 2009-12-03 | Toyota Central R&D Labs Inc | 感情推定装置及びプログラム |
JP2010217502A (ja) | 2009-03-17 | 2010-09-30 | Advanced Telecommunication Research Institute International | 発話意図情報検出装置及びコンピュータプログラム |
JP2013015693A (ja) | 2011-07-05 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | はなし言葉分析装置とその方法とプログラム |
WO2015037073A1 (ja) | 2013-09-11 | 2015-03-19 | 株式会社日立製作所 | 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体 |
-
2020
- 2020-06-17 JP JP2020104161A patent/JP7001126B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003162294A (ja) | 2001-10-05 | 2003-06-06 | Sony Internatl Europ Gmbh | 感情検出方法及び感情検出装置 |
JP2005283647A (ja) | 2004-03-26 | 2005-10-13 | Matsushita Electric Ind Co Ltd | 感情認識装置 |
WO2008032787A1 (fr) | 2006-09-13 | 2008-03-20 | Nippon Telegraph And Telephone Corporation | ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme |
JP2009282824A (ja) | 2008-05-23 | 2009-12-03 | Toyota Central R&D Labs Inc | 感情推定装置及びプログラム |
JP2010217502A (ja) | 2009-03-17 | 2010-09-30 | Advanced Telecommunication Research Institute International | 発話意図情報検出装置及びコンピュータプログラム |
JP2013015693A (ja) | 2011-07-05 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | はなし言葉分析装置とその方法とプログラム |
WO2015037073A1 (ja) | 2013-09-11 | 2015-03-19 | 株式会社日立製作所 | 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2020154332A (ja) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6720520B2 (ja) | 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム | |
US7809572B2 (en) | Voice quality change portion locating apparatus | |
JP4025355B2 (ja) | 音声合成装置及び音声合成方法 | |
JP2022107032A (ja) | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
Zwicker et al. | Automatic speech recognition using psychoacoustic models | |
JP2815579B2 (ja) | 音声認識における単語候補削減装置 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
Martinez et al. | Prosodic features and formant modeling for an ivector-based language recognition system | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
JP2007219286A (ja) | 音声のスタイル検出装置、その方法およびそのプログラム | |
Přibil et al. | GMM-based speaker gender and age classification after voice conversion | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
Erro et al. | Emotion conversion based on prosodic unit selection | |
JP7001126B2 (ja) | 感情推定装置、感情推定方法及びプログラム | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2002041084A (ja) | 対話処理システム | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP5294700B2 (ja) | 音声認識及び合成システム、プログラム及び方法 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP2009229932A (ja) | 音声出力装置 | |
Vasuki | Design of Hierarchical Classifier to Improve Speech Emotion Recognition. | |
JP3584002B2 (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200714 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210608 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7001126 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |