JP2020154332A

JP2020154332A - 感情推定装置、感情推定方法及びプログラム

Info

Publication number: JP2020154332A
Application number: JP2020104161A
Authority: JP
Inventors: 浩一中込; Koichi Nakagome; 佐藤　勝彦; Katsuhiko Sato; 勝彦佐藤; 崇史山谷; Takashi Yamatani
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-09-24
Anticipated expiration: 2035-12-18
Also published as: JP7001126B2

Abstract

【課題】音声データから発話者の感情を推定する推定精度を向上する。【解決手段】感情推定器生成装置１００は、教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定部１２０と、解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する解析区間に含まれる音声データの特徴量の変化パターンとして決定するアクセント型決定部１３０と、感情ごとに対応する特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成部１５０と、を備える。【選択図】図２

Description

本発明は、感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラムに関する。

感情をラベリングした音声データ群を教師データとして機械学習により生成された感情推定装置を用いて、発話者の感情を推定する技術の開発が進められている。例えば、特許文献１は、音声の強度、音声のテンポ、音声の抑揚のそれぞれの変化量を求め、求めた変化量に基づいて発話者の感情を推定する技術を開示している。

特開２００２−９１４８２号公報

一般に、興奮した状態で発話すると、通常の発話時よりも話し方が早くなり、声が高くなる傾向がある。また、落胆した状態で発話すると、通常の発話時よりも話し方が遅くなり、声が低くなる傾向がある。このように、発話時の発話者の感情と音声の特徴量とは相関性がある。特許文献１は、このような音声データの特徴量の変化を解析することにより、発話者の感情を推定する技術を開示している。

ところで、通常の感情状態で発話された音声の特徴量と怒った感情状態で発話された音声の特徴量とを比較した場合、短い言葉と長い言葉とでは特徴量の変化の傾向が異なる場合がある。例えば、発話しやすい短い言葉は、発話時の感情状態によって音声の特徴量の変化が大きい場合が多い。これに対して、早口言葉のように発話しにくい長い言葉は、発話時の感情状態によって音声の特徴量の変化が小さい場合がある。特許文献１が開示する技術は、このように発話時の感情状態によって音声の特徴量に変化が少ない言葉と変化が大きい言葉とを一律にして発話者の感情推定を行うので、推定精度が上がりにくいという問題があった。

本発明は、このような状況を鑑みてなされたものであり、音声データから発話者の感情を推定する推定精度を向上することができる感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明の第１の観点に係る感情推定器生成方法は、
教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成ステップと、
を含むことを特徴とする。

また、本発明の第２の観点に係る感情推定器生成装置は、
教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段と、
を含むことを特徴とする。

また、本発明の第３の観点に係るプログラムは、
コンピュータを
教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段、
前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段、
として機能させることを特徴とする。

また、本発明の第４の観点に係る感情推定方法は、
解析対象とする複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記感情ごとに対応する前記特徴量の変化パターンごとに、前記特徴量の変化パターンと同じ特徴量の変化パターンを有する教師データに基づいて生成された、音声を発話したときの発話者の感情を推定する感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定ステップと、
を含むことを特徴とする。

また、本発明の第５の観点に係る感情推定装置は、
解析対象とする複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記感情ごとに対応する前記特徴量の変化パターンごとに、前記特徴量の変化パターンと同じ特徴量の変化パターンを有する教師データに基づいて生成された、音声を発話したときの発話者の感情を推定する感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定手段と、
を備えることを特徴とする。

本発明によれば、音声データから発話者の感情を推定する推定精度を向上することができる。

本発明の実施形態１に係る感情推定器生成装置の物理構成を示すブロック図である。本発明の実施形態１に係る感情推定器生成装置の機能構成を示すブロック図である。形態素について説明するための図である。モーラ区間について説明するための図である。特徴量の解析方法について説明するための図である。特徴量の解析方法について説明するための図である。クラス分けについて説明するための図である。生成された感情推定装置の識別閾値のイメージについて説明するための図である。感情推定装置の機能構成を示すブロック図である。感情推定器の生成処理について説明するためのフローチャートである。感情推定処理について説明するためのフローチャートである。変形例１に係る特徴量の解析区間について説明するための図である。変形例１に係る特徴量の解析方法について説明するための図である。変形例２に係る音声の強度による特徴量の解析について説明するための図である。変形例５に係る複数の感情の度合いを推定する技術について説明するための図である。

以下、本発明の実施形態に係る感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。

（実施形態１）
本実施形態では、音声データから発話者の感情を推定する感情推定器を生成する感情推定器生成装置について説明した後、音声を発話した時の発話者の感情を推定する感情推定装置について説明する。本実施形態では、感情推定装置が、発話者の感情を悲しんでいる状態（悲しみ）、退屈している状態（退屈）、怒っている状態（怒り）、驚いている状態（驚き）、落胆している状態（落胆）、嫌悪感を抱いている状態（嫌悪）、喜んでいる状態（喜び）、の基本的な７種類の感情状態のいずれかであると推定する場合について説明する。
なお、以下の実施形態では、音声データの特徴量の変化パターンをアクセント型と称する。

実施形態１に係る感情推定器生成装置１００は、物理的には、図１に示すように、制御部１と、記憶部２と、入出力部３と、バス４と、を備える。

制御部１は、ＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）と、ＣＰＵ（Central Processing Unit）と、を備える。ＲＯＭは、本実施形態に係る感情推定器生成プログラム、及び、各種初期設定、ハードウェアの検査、プログラムのロード等を行うための初期プログラム等を記憶する。ＲＡＭは、ＣＰＵが実行する各種ソフトウェアプログラム、これらのソフトウェアプログラムの実行に必要なデータ等を一時的に記憶するワークエリアとして機能する。ＣＰＵは、各種ソフトウェアプログラムを実行することにより、様々な処理及び演算を実行する中央演算処理部である。

記憶部２は、ハードディスクドライブ、フラッシュメモリ等の不揮発性メモリを備える。記憶部２は、教師データとする音声データ等を記憶する。

入出力部３は、教師データとする音声データを取得するための音声入力装置、ＣＤ（Compact Disc）ドライブ、ＵＳＢ（Universal Serial Bus）インタフェースを備える。入出力部３は、教師データとする音声データを取得する。また、入出力部３は、生成した感情推定器をプログラムもしくは感情推定器の特性を決めるパラメータを外部装置に出力する。

バス４は、制御部１と、記憶部２と、入出力部３と、を接続する。

感情推定器生成装置１００は、機能的には、図２に示すように、音声データ取得部１１０と、解析区間設定部１２０と、アクセント型決定部１３０と、特徴量抽出部１４０と、感情推定器生成部１５０と、を含む。また、解析区間設定部１２０は、形態素解析部１２１とアクセント句抽出部１２２と、を含む。また、アクセント型決定部１３０は、モーラ区間抽出部１３１と、アクセント型抽出部１３２と、を含む。

音声データ取得部１１０は、入出力部３を介して感情推定器を生成するために教師データとして使用する音声データを取得する。教師データは、例えば、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の７種類の感情状態で発話された音声から構成される。また、教師データは、十分に多くの種類の語句を含む音声データで構成される。教師データを発話する人数及び教師データに含まれるアクセント句の種類は多い方が好ましい。アクセント句とは、名詞と助詞、もしくは動詞と助動詞を結合した音声データを区分する単位である。例えば、教師データとして、５００人程度の多人数が７種類の感情状態で発話した、１０００種類以上のアクセント句を含む音声データを準備する。

解析区間設定部１２０は、教師データとする音声データの特徴を解析する単位である解析区間を設定する。そのために、解析区間設定部１２０は、形態素解析部１２１とアクセント句抽出部１２２とを備える。

形態素解析部１２１は、取得した音声データを形態素に分割する。形態素とは、言語としての意味を有する最小単位である。例えば、「坊主が屏風に上手に坊主の絵を描いた」という音声は、図３に示すように、「坊主」、「が」、「屏風」、「に」、「上手」、「に」、「坊主」、「の」、「絵」、「を」、「描い」、「た」の１２個の形態素に分割される。

アクセント句抽出部１２２は、取得した音声データからアクセント句を抽出する。アクセント句とは、形態素に分割した名詞又は動詞に、それに続く助詞又は助動詞を結合した区間である。上述の例では、アクセント句は、「坊主が」、「屏風に」、「上手に」、「坊主の」、「絵を」、「描いた」となる。本実施形態では、このアクセント句の単位で音声データの特徴を解析する場合について説明する。アクセント句の単位で音声データを解析する理由は、アクセント句の単位で発話者の感情状態が変化する場合が多いからである。

アクセント型決定部１３０は、アクセント句のアクセント型を決定する。アクセント型とは、アクセント句を構成する音節が発話されている区間であるモーラ区間ごとに、音声の特徴量が平均特徴量に対して大きい場合には「Ｈ」、小さい場合には「Ｌ」を付与して得られる「Ｈ」と「Ｌ」の組み合わせのパターンである。アクセント型を決定するために、アクセント型決定部１３０は、モーラ区間抽出部１３１とアクセント型抽出部１３２とを備える。

モーラ区間抽出部１３１は、図４に示すように、解析対象のアクセント句区間の音声データから、モーラ区間を抽出する。モーラ区間は１つの音節が発話されている区間である。アクセント句「坊主が」の場合で説明すると、「ボ」、「ウ」、「ズ」、「ガ」のそれぞれの音節がモーラ区間である。

アクセント型抽出部１３２は、モーラ区間のそれぞれが「Ｈ」もしくは「Ｌ」のいずれに該当するかを判別し、アクセント句のアクセント型を抽出する。アクセント型の抽出方法には、音声の強度、音声のピッチ、音素の発話時間長等の特徴量を使用する方法がある。ここでは、音声のピッチに着目した抽出方法について、図５と図６を参照しながら説明する。

アクセント型抽出部１３２は、図５に示すように、モーラ区間をさらに細分する所定時間の時間窓を設定する。１つのモーラ区間に対して、窓１を設定し、その窓内の音声データをＦＦＴ（Fast Fourier Transform）変換する。次に、窓１を所定時間ｄｔずらした窓２内の音声データをＦＦＴ変換する。以下、同様に窓ｎ内の音声データをＦＦＴ変換する。時間窓の設定方法は、例えば、モーラ区間内に１０以上の時間窓を構成するように時間窓とずらす時間幅ｄｔを設定する。時間窓の数が少なすぎると、計算精度が低下するからである。

図６は、上記のＦＦＴ変換により得られた各窓内の音声データのスペクトル分布を示した例である。横軸は周波数であり、縦軸はスペクトルの強度である。このスペクトルの中で最も低い周波数領域に存在するピーク周波数をｆ０とする。このｆ０は、その窓区間の音声データから得られた発話者固有の基本周波数を示す。窓１から得られたｆ０をｆ０＿１、窓２から得られたｆ０をｆ０＿２、とする。同様にして、窓ｎから得られたｆ０をｆ０＿ｎとする。そして、アクセント型抽出部１３２は、ｆ０＿１からｆ０＿ｎまでの平均値を計算し、第１モーラ区間の平均基本周波数１＿ｆ０とする。

アクセント型抽出部１３２は、アクセント句に含まれる全てのモーラ区間について同様の計算をする。第ｍモーラ区間の平均基本周波数ｍ＿ｆ０は、式１を用いて算出することができる。

m_f0=1/n・Σf0_n （式１）

次に、アクセント型抽出部１３２は、アクセント句区間における平均基本周波数ｍ＿ｔｈを式２を用いて求める。

m_th={max(1_f0，・・・，n_f0)−min(1_f0，・・・，n_f0)}/2 （式２）

次に、アクセント型抽出部１３２は、モーラ区間の平均基本周波数ｍ＿ｆ０とアクセント句区間の平均基本周波数ｍ＿ｔｈとを比較し、ｍ＿ｆ０≧ｍ＿ｔｈであれば「Ｈ」、ｍ＿ｆ０＜ｍ＿ｔｈであれば「Ｌ」をそれぞれのモーラ区間に付与する。アクセント型抽出部１３２は、このようにアクセント句を構成するモーラ区間ごとに「Ｈ」と「Ｌ」を付与することにより、ＨとＬの組み合わせで構成されるアクセント型を抽出する。

アクセント型決定部１３０は、教師データから生成されたアクセント句の全てについて、この処理を行う。図７に示すアクセント型の例は、大量の教師データから得られたアクセント型の中で発生頻度が高い順に２０種類のアクセント型を選択した、モーラ区間数が６以下の例である。解析対象のアクセント句に含まれるモーラ区間の数が６以下である場合、この２０種類のアクセント型に対して順にクラス１からクラス２０までのクラス名を付与する。アクセント型とクラスとは１対１に対応している。アクセント型決定部１３０は、教師データとするアクセント句単位の音声データとアクセント型（クラス）とを対応付けて記憶部２に記憶する。なお、この２０種類のアクセント型に該当しなかったアクセント句は、教師データから除外する。以後、本実施形態では、解析対象とするアクセント句に含まれるモーラ区間数が６以下である場合について説明する。

ここで、アクセント句に含まれるモーラ区間数が６以下の場合における２０種類のアクセント型の選択方法は、７種類の感情で発話された大量の日本語を統計処理した実験結果に基づいて、発生頻度が高い順に２０種類のアクセント型を選択する。アクセント型のクラス数を減らすと、アクセント型に該当しない教師データの頻度が高くなり、生成された感情推定器を内蔵した感情推定装置の推定精度が低下することになる。一方、アクセント型のクラス数を増やすと、生成する感情推定器の種類が増えるので感情推定装置の製造コストが高くなることになる。したがって、この２つの兼ね合いでアクセント型のクラス数を決定する。なお、アクセント型を２０種類としたのはアクセント句に含まれるモーラ区間数が６以下の場合である日本語の場合の例である。アクセント句に含まれるモーラ区間数が７以上である場合、もしくは他の言語の場合は、アクセント型の発生頻度についてさらに統計処理して決める必要がある。

図２に戻って、特徴量抽出部１４０は、アクセント句ごとの音声の特徴量を抽出する。音声の特徴量とは、音声の大きさ、音声のピッチ、音素の発話時間長等である。そして、抽出した特徴量にアクセント型決定部１３０で決定したクラス１からクラス２０のクラス名を付与し、教師データとして記憶部２に記憶する。

感情推定器生成部１５０は、教師データをクラスごとに記憶部２から取得し、それぞれのクラスに適応した感情推定器を生成する。具体的には、感情推定器生成部１５０は、クラス１に分類された教師データを取得し、その教師データの発話時の感情状態を、７種類の感情状態である悲しんでいる状態（悲しみ）、退屈している状態（退屈）、怒っている状態（怒り）、驚いている状態（驚き）、落胆している状態（落胆）、嫌悪感を抱いている状態（嫌悪）、喜んでいる状態（喜び）、に分類するクラス１用の感情推定器を生成する。図８は、７種類の感情に識別する識別閾値を２次元で表現したイメージ図である。教師データに基づいて感情推定器を生成する方法には公知の技術を用いることができる。次に、感情推定器生成部１５０は、クラス２に分類された教師データを取得し、その教師データの発話時の感情状態を、７種類の感情状態である悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類するクラス２用の感情推定器を生成する。同様にして、感情推定器生成部１５０は、クラス２０までの感情推定器を生成する。

次に、上記の説明により生成した２０種類の感情推定器を内蔵する感情推定装置２００の構成について、図９を参照しながら説明する。感情推定装置２００は、物理的には、図１に示す構成と同じである。

制御部１が備えるＲＯＭは、本実施形態に係る感情推定器生成装置１００で生成された感情推定プログラムを記憶する。記憶部２は、解析対象とする音声データ等を記憶する。入出力部３は、解析対象とする音声データを取得するための音声入力装置、ＣＤドライブ、ＵＳＢインタフェースを備える。また、入出力部３は、感情推定器生成装置１００で生成された感情推定器の特性を決定するパラメータを取得するようにしてもよい。また、入出力部３は、感情を推定した結果を出力するための表示装置もしくは音声出力装置を備える。

感情推定装置２００は、図９に示すように、音声データ取得部２１０と、話者分割部２２０と、解析区間設定部２３０と、アクセント型決定部２４０と、選択部２５０と、特徴量抽出部２６０と、感情推定部２７０と、統合部２８０と、の機能を含む。また、解析区間設定部２３０は、形態素解析部２３１とアクセント句抽出部２３２との機能を含む。また、アクセント型決定部２４０は、モーラ区間抽出部２４１とアクセント型抽出部２４２との機能を含む。

音声データ取得部２１０は、ユーザが発話した解析対象とする音声を取得する。音声データ取得部２１０は、マイク等の音声取得装置から構成される。また、音声データ取得部２１０は、ＣＤドライブ、ＵＳＢインタフェースを備え、音声データとしてユーザの音声を取得することもできる。

話者分割部２２０は、取得した解析対象の音声データを話者ごとに分割する。音声データの中に複数人の音声データが存在する場合、１人の話者が発話した文ごとに発話者の感情を推定するためである。音声データを話者ごとに分割する方法は、公知の技術を用いて行う。例えば、音声の強度、音声のピッチ、音素の発話時間長等の相関性に基づいて分割することができる。

解析区間設定部２３０、アクセント型決定部２４０は、感情推定器の生成時と同じ条件下で解析対象の音声データを解析するために、感情推定器生成装置１００と同じ構成を有している。つまり、解析区間設定部２３０は、音声データからアクセント句を抽出し、アクセント型決定部２４０は、アクセント句ごとにアクセント型（クラス）を決定する。

選択部２５０は、クラス分けされたアクセント句ごとに、該当するクラスに対応する感情推定器を選択する。具体的には、感情推定装置２００に内蔵している２０種類の感情推定器の中から、解析対象のアクセント句のクラスに対応する感情推定器を選択する。

特徴量抽出部２６０は、感情推定器生成装置１００と同じ構成を有しており、同じ条件下で音声データから特徴量を抽出する。そして、特徴量抽出部２６０は、抽出した特徴量とアクセント型を示すクラス名とを対応付けて記憶部２に記憶する。

感情推定部２７０は、選択部２５０が選択した感情推定器を用いて、アクセント句ごとに発話者の感情を推定する。具体的には、感情推定部２７０は、クラス１に分類されたアクセント句の感情を推定する場合には、クラス１用の感情推定器を選択して発話者の感情を推定する。感情推定部２７０は、クラスｎに分類されたアクセント句の感情を推定する場合には、クラスｎ用の感情推定器を選択して発話者の感情を推定する。そして、感情推定部２７０は、解析対象のアクセント句を発話したときの発話者の感情状態が、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、のいずれの感情状態に該当するかを推定する。

統合部２８０は、発話者の感情を音声データの文単位で推定する。具体的には、統合部２８０は、１文の中で最も多かった感情をその文を発話した発話者の感情として推定する。例えば、「坊主が」、「屏風に」、「上手に」、「坊主の」、「絵を」、「描い」、「た」の７つのアクセント句から構成される「坊主が屏風に上手に坊主の絵を描いた」という文において、「喜び」と判別されたアクセント句の数が４であり、「怒り」と判別されたアクセント句の数が２であり、「驚き」と判別されたアクセント句の数が１であった場合、一番多い「喜び」をこの「坊主が屏風に上手に坊主の絵を描いた」を発話したときの発話者の感情として推定する。

次に、以上の構成を有する感情推定器生成装置１００が感情推定器を生成する処理について、図１０を参照しながら説明する。教師データとして使用する悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の７種類の感情状態で発話された音声データは、予め記憶部２に記憶されているものとする。解析対象の音声データに含まれるアクセント句のモーラ区間数は６以下であると仮定する。感情推定器を生成する担当者が、感情推定器生成装置１００に予めインストールされている感情推定器生成プログラムを起動することにより、図１０に示すフローチャートは開始される。

制御部１は、感情推定器生成プログラムが起動されると、記憶部２に記憶されている教師データを音声データ取得部１１０に取得する（ステップＳ１１）。そして、形態素解析部１２１は、取得した音声データを形態素の単位で分割する（ステップＳ１２）。次に、アクセント句抽出部１２２は、音声データの特徴を解析する単位であるアクセント句を抽出し、音声データをアクセント句に分割する（ステップＳ１３）。

次に、モーラ区間抽出部１３１は、アクセント句に含まれるモーラ区間を抽出する（ステップＳ１４）。そして、アクセント型抽出部１３２は、アクセント句のアクセント型を抽出する（ステップＳ１５）。具体的には、アクセント型抽出部１３２は、図７を用いて説明したように、教師データとして使用するアクセント句を２０のクラスに分類する（ステップＳ１６）。アクセント型抽出部１３２は、その分類をするために、図５と図６を用いて説明したように、モーラ区間ごとの平均基本周波数ｍ＿ｆ０とアクセント句区間の平均基本周波数ｍ＿ｔｈとを比較し、ｍ＿ｆ０≧ｍ＿ｔｈであれば「Ｈ」、ｍ＿ｆ０＜ｍ＿ｔｈであれば「Ｌ」をそれぞれのモーラ区間に付与する。アクセント型抽出部１３２は、このようにして教師データとして使用するアクセント句に対して、アクセント句を構成するモーラ区間ごとにＨとＬを付与し、ＨとＬのパターンによりアクセント型を抽出する。そして、アクセント型決定部１３０は、教師データのアクセント型を図７に示す２０のアクセント型（クラス）の何れかに決定する。

次に、特徴量抽出部１４０は、教師データとする音声データの特徴量をアクセント句ごとに抽出し、抽出した特徴量のデータと分類されたクラスとを対応付けて教師データとして記憶部２に記憶する（ステップＳ１７）。

感情推定器生成部１５０は、アクセント型（クラス）ごとに分類された教師データに基づいて、それぞれのクラスごとに感情推定器を生成する（ステップＳ１８）。具体的には、感情推定器生成部１５０は、クラス１に分類された教師データ（アクセント句）を取得して、その教師データの発話時の感情状態を、７種類の感情状態である悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類することが可能な感情推定器を生成する。より具体的には、図８に示すよな７種類の感情に分類するための識別閾値（分類器を構成する数式のパラメータ）を生成する。次に、感情推定器生成部１５０は、クラス２に分類された教師データ（アクセント句）を取得して、その教師データの発話時の感情状態を、７種類の感情状態である悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類することが可能な２つめの感情推定器を生成する。感情推定器生成部１５０は、このように２０種類の感情推定器を生成する。以上で、感情推定器生成装置１００の感情推定器生成処理の説明を終了する。

次に、感情推定器生成装置１００が生成した２０種類の感情推定器を内蔵する感情推定装置２００が発話者の感情を推定する感情推定処理について、図１１を参照しながら説明する。ユーザが、感情推定装置２００に予めインストールされている感情推定プログラムを起動し、解析対象とする音声データを感情推定装置２００に入力することにより、図１１に示すフローチャートは開始される。

制御部１は、感情推定プログラムが起動され、ユーザが解析対象の音声データを感情推定装置２００に入力すると、話者分割部２２０は、取得した音声データを話者ごとに分割して記憶部２に記憶する。次に、解析区間設定部２３０は、話者ごとに音声データを記憶部２から取得する（ステップＳ３１）。次に、形態素解析部２３１は、任意の話者の音声データを形態素に分解し（ステップＳ３２）、アクセント句抽出部２３２は、解析単位であるアクセント句を決定する（ステップＳ３３）。

次に、アクセント型決定部２４０は、感情推定器生成装置１００の動作説明と同様に、アクセント句ごとにアクセント型（クラス）を決定する。具体的には、モーラ区間抽出部２４１が、該当するアクセント句に含まれるモーラ区間を抽出し（ステップＳ３４）、アクセント型抽出部２４２が、そのアクセント句のアクセント型を抽出する（ステップＳ３５）。そして、アクセント型決定部２４０は、抽出したアクセント型からそのアクセント句が属するクラスを決定する。そして、選択部２５０は、該当するアクセント句を発話したときの発話者の感情を推定するために使用する感情推定器として、同じアクセント型（クラス）の教師データに基づいて感情推定器生成装置１００が生成した感情推定器を選択する（ステップＳ３６）。

一方、特徴量抽出部２６０は、解析対象のアクセント句の音声の強度、音声のピッチ、音素の継続時間長といった音声の特徴量を抽出し、抽出した特徴量と判別したクラスとを対応付けて記憶部２に記憶する（ステップＳ３７）。

次に、感情推定部２７０は、選択部２５０が選択した感情推定器を用いて、該当するアクセント句を発話したときの発話者の感情を推定する（ステップＳ３８）。

アクセント句の１つについて感情推定が完了すると、感情推定装置２００は、まだ解析が完了していないアクセント句が存在するか否かを判別する（ステップＳ３９）。解析が完了していないアクセント句が存在する場合（ステップＳ３９：Ｎｏ）、解析が完了していない他のアクセント句を抽出し（ステップＳ４０）、そのアクセント句に該当する感情を推定する。

すべてのアクセント句の解析が完了している場合（ステップＳ３９：Ｙｅｓ）、感情推定装置２００は、解析した文単位で統合処理を行う（ステップＳ４１）。具体的には、統合部２８０は、解析対象の文に含まれるアクセント句ごとの感情推定結果に基づいて、最も多かった感情をその文を発話したときの発話者の感情として推定する。

次に、感情推定装置２００は、最初に取得した任意の人が発話したすべての文について解析が完了したか否かを判別する（ステップＳ４２）。すべての文について解析が完了していない場合は（ステップＳ４２：Ｎｏ）、他の文を抽出し（ステップＳ４３）、他の文について感情推定処理を継続する。

一方、感情推定装置２００は、すべての文について解析が完了している場合は（ステップＳ４２：Ｙｅｓ）、音声データに含まれているすべての人について感情推定が完了しているか否かを判別する（ステップＳ４４）。すべての人について解析が完了していない場合は（ステップＳ４４：Ｎｏ）、他の人の音声データを抽出して感情推定処理を継続する（ステップＳ４５）。すべての人について解析処理が完了している場合は（ステップＳ４４：Ｙｅｓ）、感情推定処理を終了する。

以上に説明したように感情推定器生成装置１００は、アクセント型ごとに分類した教師データに基づいて、アクセント型ごとに感情推定器を生成する。そして、感情推定装置２００は、アクセント型ごとに生成された感情推定器を使用して、発話者の感情を推定する。具体的には、感情推定装置２００は、解析対象の音声データをアクセント型ごとに分類し、同じアクセント型を有する教師データに基づいて生成された感情推定器を用いて発話者の感情を推定する。これにより、音声データから発話者の感情を推定する推定精度を向上することができる。

また、アクセント型抽出部１３２は、モーラ区間の単位で音声の特徴量の変化を抽出するので、感情推定器生成装置１００は、発話者の感情をより細かく解析することが可能な感情推定器を生成することができる。

また、アクセント型抽出部１３２は、音声の基本周波数の変化に基づいてアクセント型を抽出する。発話時の感情状態により音声の基本周波数は変化する傾向がある。したがって、感情推定器生成装置１００は、発話者の感情をより正確に推定することが可能な感情推定器を生成することができる。また、同じ理由により、感情推定装置２００は、発話者の感情をより正確に推定することができる。

解析区間設定手段１２０は、形態素の単位で音声を解析するので、感情推定器生成装置１００は、発話者の感情をより正確に解析することが可能な感情推定器を生成することができる。

感情推定器生成装置１００は、発話者の発話時の感情を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類する感情推定器を生成する。この推定器を内蔵する感情推定装置２００は、発話者の発話時の感情状態を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、に分類することができる。

（変形例１）
実施形態１では、アクセント型を判別するために特徴量をモーラ区間の単位で解析する説明をした。変形例１では、モーラ区間の中の母音区間に限定して特徴量を解析する説明を行う。具体的には、図１２に示すように、母音区間のみの音声データを取り出して、図１３に示すように特徴量の解析を行う。基本周波数の解析方法は実施形態１の説明と同じである。

母音区間にのみ着目する理由は、子音区間よりも母音区間の方が音素の継続時間長が長く、含まれる音声のエネルギーも大きいので、感情の変化による特徴量の変化は、子音区間よりも母音区間の方に顕著に現れるからである。

このように、変形例１に係る感情推定装置２００は、母音区間に限定して特徴量の解析を行うことにより、感情推定の推定精度を向上することができる。

（変形例２）
実施形態１の説明では、アクセント型抽出部１３２が、音声の特徴量として音声のピッチ情報（音声の基本周波数）を利用する場合について説明した。変形例２では、音声の特徴量として音声の強度情報を利用する場合について説明する。ここでは、発話時の感情状態によって母音の発話区間における音声のエネルギー分布が変化することに着目した技術について説明する。

具体的には、アクセント型抽出部１３２は、図１４に点線の丸印で示した音声のエネルギーのピークが、母音区間の前半に存在するか後半に存在するかを判別する。例えば、前半にピークが存在した場合には「Ｈ」を付与し、後半にピークが存在した場合には「Ｌ」を付与する。これにより、アクセント型決定部１３０は、アクセント型を決定する。音声の強度によりアクセント型を分類する場合は、実験データに基づいてクラス分けの仕方を検討する必要がある。その他の説明は実施形態１の説明と同じである。

なお、変形例２の説明では、音声エネルギーのピーク点の時間位置の変化に着目する解析方法を説明したが、音声の強度の変化を用いてアクセント型を抽出することもできる。怒った状態で発話すると音声の強度は高くなる傾向があり、悲しい状態で発話すると音声の強度は低くなる傾向があるので、この傾向を利用するものである。この場合、例えば、アクセント句区間に含まれるモーラ区間ごとの音声のピーク強度を計測して、アクセント句区間の平均ピーク強度を求める。そして、モーラ区間の音声のピーク強度と平均ピーク強度とを比較して、モーラ区間ごとに「Ｈ」又は「Ｌ」を付与することにより、アクセント型を抽出することもできる。

このように、変形例２に係る感情推定装置２００は、音声の発話時の感情状態を音声の強度の変化情報を利用して解析するので、感情推定の推定精度を向上することができる。

（変形例３）
変形例３では、音声の特徴量として音素の継続時間長を利用する場合について説明する。怒ったり喜んだりした状態で発話すると音素の継続時間長は短くなる傾向があり、退屈な状態や悲しい状態で発話すると音素の継続時間長が長くなる傾向があるので、この傾向を利用するものである。

具体的には、アクセント型抽出部１３２は、モーラ区間に含まれる母音の継続時間長と、教師データに含まれる同じ母音の平均継続時間長とを比較し、モーラ区間に含まれる母音の継続時間長が平均継続時間長よりも長い場合は「Ｈ」を、短い場合は「Ｌ］を付与する。これにより、アクセント型決定部１３０は、アクセント型を決定する。

実施形態１、変形例１、変形例２の説明では、解析区間であるアクセント句の区間における音声の特徴量の平均値とモーラ区間の平均値とを比較した。しかし、音素の継続時間長で比較する場合、感情推定器生成装置１００のアクセント型抽出部１３２は、平均継続時間長を解析区間内の音声データの平均ではなく、教師データ全体の平均継続時間長と比較する。母音によって継続時間長は異なるので、異なる母音の継続時間長と比較することはできない。アクセント句に含まれる同じ母音の数が少ないため、平均継続時間長のバラツキが大きくなり、誤判定の要因となるので、教師データ全体の平均をとることが好ましい。

一方、感情推定装置２００のアクセント型抽出部２４２は、話者分類部２２０が分類した話者ごとの音声データについて、母音ごとに平均継続時間長を計算することが好ましい。

音素の継続時間長によりアクセント型を分類する場合は、実験データに基づいてクラス分けの仕方を検討する必要がある。その他の説明は実施形態１の説明と同じである。

このように、変形例３に係る感情推定装置２００は、音声の発話時の感情状態を音素の発話時間長の変化情報を利用して解析するので、感情推定の推定精度を向上することができる。

（変形例４）
実施形態１と変形例１では、音声の特徴量として音声のピッチ情報を利用してアクセント型を抽出する技術の説明をした。また、変形例２では、音声の強度情報を利用してアクセント型を抽出する技術を紹介し、変形例３では、音素の継続時間長を利用してアクセント型を抽出する技術を紹介した。アクセント型を抽出する場合、これらの技術を単独で使用することもできるが、音声のピッチ情報と音声の強度情報のように２つ以上の技術を組み合わせてアクセント型を抽出することもできる。２つ以上の情報を組み合わせるとアクセント型の種類が増えることになるが、感情推定の精度を向上させることができる。

なお、上記の説明では、音声の特徴量として、音声の強度、音声のピッチ、音素の継続時間長を例にして説明したが、これに限定する必要はない。例えば、音声の強度の変化量、音声のピッチの変化量、音素の継続時間長の変化量等を抽出してアクセント型を決定することもできる。

（変形例５）
実施形態１の説明では、解析対象の文に含まれるアクセント句ごとの感情推定結果に基づいて、最も多かった感情をその文を発話したときの発話者の感情として推定する技術について説明を行った。しかし、統合処理の仕方はこれに限定する必要は無い。例えば、「少し驚きを伴った喜び」のように、複数の感情を含む推定を行うこともできる。感情推定器を構成する分類器では、特徴量をベクトルとして取得し、そのベクトルと識別閾値との距離に基づいて、いずれの感情に分類するかを決める場合が多い。例えば、「坊主が」、「屏風に」、「上手に」、「坊主の」、「絵を」、「描いた」の７つのアクセント句に対応する特徴量を、図１５に示す１から７に示す位置ベクトルで表し、７つの位置ベクトルを合成した平均ベクトルが、図１５に「平均」で示した位置ベクトルであったとする。この場合、位置ベクトル「平均」は、喜びの領域に属しているが、喜びと驚きの境界に近い位置に存在する。このような場合には、「少し驚きの感情が混在している可能性がある」というニュアンスを含めた感情推定結果を出力するようにしてもよい。

図８と図１５とは、７次元の識別空間を２次元でイメージ表現した図であるので、複雑な例を表現することは困難である。しかし、感情推定器を構成する分類器の中では、それぞれの識別境界との距離を数値で計算することが可能である。したがって、「怒りと悲しみ」、「怒りと落胆」のように、複数の感情の組み合わせと、その感情の度合い（識別境界との距離）を数値計算することが可能である。さらに、複数の閾値を設定することにより、「怒り、悲しみ、落胆」のように２つ以上の感情を含めた感情推定も可能である。また、複数の感情の複合度合いも推定することができる。

変形例５で説明した構成および処理を設けることにより、感情推定器生成装置１００は、複数の感情の度合いを推定可能な感情推定器を生成することが可能となる。また、複数の感情の度合いを推定可能な感情推定器を内蔵する感情推定装置２００は、発話者の複数の感情度合いを推定することができる。

なお、実施形態１の説明では、発話者の感情状態を悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の７種類に分類する説明をしたが、感情の分類方法はこれに限定する必要はない。例えば、喜、怒、哀、楽の４種類に分類してもよい。

また、実施形態１の説明では、発話者の発話時の感情状態を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の７つの感情状態の何れかに分類する場合について説明し、いずれにも該当しない教師データは除外する説明をした。しかし、発話者の感情として、「普通」という感情状態を設け、７つの感情に分類できなかった教師データを感情「普通」に分類するようにしてもよい。これにより、感情推定器生成装置１００は、発話者の感情を７つの感情に「普通」を加えた８つの感情に推定可能な感情推定器を生成することができる。また、感情推定装置２００は、発話者の感情を７つの感情に「普通」を加えた８つの感情に推定することができる。

また、実施形態１の説明では、解析区間をアクセント句の区間単位とする説明をしたが、解析区間はこれに限定する必要はない。例えば、解析区間を単語の発話区間としてもよいし、息継ぎ区間である呼気段落区間としてもよいし、文の発話区間としてもよい。解析区間を文の発話区間とした場合には、統合部２８０は、文単位で発話者の感情を推定してもよいし、さらに複数の文をまとめた単位で発話者の感情を推定するようにしてもよい。

また、式１の説明では、平均値を用いてその区間の特徴量を代表する処理について説明したが、平均値の代わりに中央値を用いて処理を行ってもよい。また、最も低い周波数を代表値として処理を行うようにしてもよい。

また、式２の説明では、中央値を用いてその区間の特徴量を代表する処理について説明したが、中央値の代わりに平均値を用いて処理を行ってもよい。

また、本発明に係る機能を実現するための構成を予め備えた感情推定器生成装置１００、感情推定装置２００として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る感情推定器生成装置１００、感情推定装置２００として機能させることもできる。すなわち、上記実施形態で例示した感情推定器生成装置１００、感情推定装置２００による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するＣＰＵ等が実行できるように適用することで、本発明に係る感情推定器生成装置１００、感情推定装置２００として機能させることができる。また、本発明に係る感情推定器生成方法及び感情推定方法は、感情推定器生成装置１００、感情推定装置２００を用いて実施できる。

また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体（ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory）、ＤＶＤ（Digital Versatile Disc）、ＭＯ（Magneto Optical disc）等）に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、原出願の出願当初の特許請求の範囲に記載された発明を付記する。

（付記１）
教師データの元となる音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記特徴量の変化パターンごとに分類された音声データを教師データとして、前記特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成ステップと、
を含む感情推定器生成方法。

（付記２）
前記変化パターン決定ステップは、
前記解析区間に含まれる音声データを、音節の単位であるモーラ区間に分割するモーラ区間抽出ステップと、
前記解析区間における音声データの特徴量の平均値と、前記モーラ区間における音声データの特徴量の平均値と、をモーラ区間ごとに比較した比較結果に基づいて、前記解析区間の音声データを発話したときのモーラ区間ごとに変化する音声の特徴量の変化パターンを抽出する変化パターン抽出ステップと、
を含むことを特徴とする付記１に記載の感情推定器生成方法。

（付記３）
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の基本周波数を用い、前記解析区間における音声の平均基本周波数と、前記モーラ区間における音声の平均基本周波数と、をモーラ区間ごとに比較し、モーラ区間の音声の平均基本周波数が解析区間の音声の平均基本周波数よりも高い場合にはＨｉｇｈを、低い場合にはＬｏｗを付与し、モーラ区間ごとにＨｉｇｈとＬｏｗに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記２に記載の感情推定器生成方法。

（付記４）
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の強度を用い、前記解析区間における音声の平均強度と、前記モーラ区間における音声の平均強度と、をモーラ区間ごとに比較し、モーラ区間の音声の平均強度が解析区間の音声の平均強度よりも高い場合にはＨｉｇｈを、低い場合にはＬｏｗを付与し、モーラ区間ごとにＨｉｇｈとＬｏｗに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記２に記載の感情推定器生成方法。

（付記５）
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音素の継続時間長を用い、前記解析区間における音素の平均継続時間長と、前記モーラ区間における音素の平均継続時間長と、をモーラ区間ごとに比較し、モーラ区間の音素の平均継続時間長が解析区間の音素の平均継続時間長よりも長い場合にはＨｉｇｈを、短い場合にはＬｏｗを付与し、モーラ区間ごとにＨｉｇｈとＬｏｗに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記２に記載の感情推定器生成方法。

（付記６）
前記変化パターン抽出ステップでは、音声の特徴量として、音声の基本周波数、音声の強度、音素の継続時間長の少なくとも何れか１つを使用して音声の特徴量の変化パターンを抽出する、
ことを特徴とする付記２から５の何れか一つに記載の感情推定器生成方法。

（付記７）
前記解析区間設定ステップでは、音声データを、言語の意味を持つ最小の単位である形態素に分割し、当該形態素の後で発話された助詞又は助動詞と結合したアクセント句の区間を前記解析区間として設定する、
ことを特徴とする付記１から６の何れか一つに記載の感情推定器生成方法。

（付記８）
前記モーラ区間抽出ステップでは、音声データをテキスト表示した場合に、仮名文字１文字を１モーラ区間とし、小書きの仮名文字はその前の仮名文字と一緒にして１モーラ区間とし、長音は独立して１モーラ区間とする、
ことを特徴とする付記２に記載の感情推定器生成方法。

（付記９）
前記感情推定器は、発話者の発話時の感情を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の何れかの感情であると推定する、
ことを特徴とする付記１から８の何れか一つに記載の感情推定器生成方法。

（付記１０）
前記複数のクラスに分類された変化パターンを設定する変化パターン設定ステップを含む、
ことを特徴とする付記１から９の何れか一つに記載の感情推定器生成方法。

（付記１１）
教師データの元となる音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記特徴量の変化パターンごとに分類された音声データを教師データとして、前記特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段と、
を含む感情推定器生成装置。

（付記１２）
コンピュータを
教師データの元となる音声データの特徴量を解析する解析区間を設定する解析区間設定手段、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段、
前記特徴量の変化パターンごとに分類された音声データを教師データとして、前記特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段、
として機能させるためのプログラム。

（付記１３）
解析対象とする音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記特徴量の変化パターンごとに、同じ特徴量の変化パターンを有する教師データに基づいて生成された感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定ステップと、
を含む感情推定方法。

（付記１４）
解析対象とする音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記特徴量の変化パターンごとに、同じ特徴量の変化パターンを有する教師データに基づいて生成された感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定手段と、
を備えた感情推定装置。

１…制御部、２…記憶部、３…入出力部、４…バス、１００…感情推定器生成装置、１１０、２１０…音声データ取得部、１２０、２３０…解析区間設定部、１２１、２３１…形態素解析部、１２２、２３２…アクセント句抽出部、１３０、２４０…アクセント型決定部、１３１、２４１…モーラ区間抽出部、１３２、２４２…アクセント型抽出部、１４０、２６０…特徴量抽出部、１５０…感情推定器生成部、２００…感情推定装置、２２０…話者分割部、２５０…選択部、２７０…感情推定部、２８０…統合部

本発明は、感情推定装置、感情推定方法及びプログラムに関する。

本発明は、このような状況を鑑みてなされたものであり、音声データから発話者の感情を推定する推定精度を向上することができる感情推定装置、感情推定方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明の第１の観点に係る感情推定装置は、
教師データの元となる複数の感情状態を含む第１の音声データの特徴量を解析する解析区間を設定し、前記解析区間に含まれる前記第１の音声データの特徴量の変化パターンに基づいて、前記第１の音声データを、前記特徴量の変化パターンがそれぞれ異なり、且つ、複数の感情を含む、複数のクラスの何れかに分類することにより、発話者の感情を推定するための教師データとして感情推定器に対応付けることで感情推定器を生成する感情推定器生成手段と、
前記発話者が発話した複数の感情状態を含む第２の音声データを取得する音声取得手段と、
前記第２の音声データの特徴量を解析する解析区間を設定し、前記解析区間に含まれる前記第２の音声データの特徴量の変化パターンと、前記感情推定器に対応付けられた前記教師データとに基づいて、前記第２の音声データに含まれる１又は複数の感情を推定する感情推定手段と、
を備えることを特徴とする。

また、本発明の第２の観点に係る発話者が発話した音声に含まれる感情を推定する感情推定装置における感情推定方法は、
教師データの元となる複数の感情状態を含む第１の音声データの特徴量を解析する解析区間を設定し、前記解析区間に含まれる前記第１の音声データの特徴量の変化パターンに基づいて、前記第１の音声データを、前記特徴量の変化パターンがそれぞれ異なり、且つ、複数の感情を含む、複数のクラスの何れかに分類することにより、発話者の感情を推定するための教師データとして感情推定器に対応付けることで感情推定器を生成する感情推定器生成ステップと、
前記発話者が発話した複数の感情状態を含む第２の音声データを取得する音声取得ステップと、
前記第２の音声データの特徴量を解析する解析区間を設定し、前記解析区間に含まれる前記第２の音声データの特徴量の変化パターンと、前記感情推定器に対応付けられた前記教師データとに基づいて、前記第２の音声データに含まれる１又は複数の感情を推定する感情推定ステップと、
を含むことを特徴とする。

また、本発明の第３の観点に係るプログラムは、
発話者が発話した音声に含まれる感情を推定する感情推定装置のコンピュータを、
教師データの元となる複数の感情状態を含む第１の音声データの特徴量を解析する解析区間を設定し、前記解析区間に含まれる前記第１の音声データの特徴量の変化パターンに基づいて、前記第１の音声データを、前記特徴量の変化パターンがそれぞれ異なり、且つ、複数の感情を含む、複数のクラスの何れかに分類することにより、発話者の感情を推定するための教師データとして感情推定器に対応付けることで感情推定器を生成する感情推定器生成手段、
前記発話者が発話した複数の感情状態を含む第２の音声データを取得する音声取得手段、
前記第２の音声データの特徴量を解析する解析区間を設定し、前記解析区間に含まれる前記第２の音声データの特徴量の変化パターンと、前記感情推定器に対応付けられた前記教師データとに基づいて、前記第２の音声データに含まれる１又は複数の感情を推定する感情推定手段、
として機能させることを特徴とする。

Claims

教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成ステップと、
を含む感情推定器生成方法。
前記変化パターン決定ステップは、
前記解析区間に含まれる音声データを、音節の単位であるモーラ区間に分割するモーラ区間抽出ステップと、
前記解析区間における音声データの特徴量の平均値と、前記モーラ区間における音声データの特徴量の平均値と、をモーラ区間ごとに比較した比較結果に基づいて、前記解析区間の音声データを発話したときのモーラ区間ごとに変化する音声の特徴量の変化パターンを抽出する変化パターン抽出ステップと、
を含むことを特徴とする請求項１に記載の感情推定器生成方法。
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の基本周波数を用い、前記解析区間における音声の平均基本周波数と、前記モーラ区間における音声の平均基本周波数と、をモーラ区間ごとに比較し、モーラ区間の音声の平均基本周波数が解析区間の音声の平均基本周波数よりも高い場合にはＨｉｇｈを、低い場合にはＬｏｗを付与し、モーラ区間ごとにＨｉｇｈとＬｏｗに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする請求項２に記載の感情推定器生成方法。
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音声の強度を用い、前記解析区間における音声の平均強度と、前記モーラ区間における音声の平均強度と、をモーラ区間ごとに比較し、モーラ区間の音声の平均強度が解析区間の音声の平均強度よりも高い場合にはＨｉｇｈを、低い場合にはＬｏｗを付与し、モーラ区間ごとにＨｉｇｈとＬｏｗに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする請求項２に記載の感情推定器生成方法。
前記変化パターン抽出ステップでは、音声の特徴量として音声データから抽出した音素の継続時間長を用い、前記解析区間における音素の平均継続時間長と、前記モーラ区間における音素の平均継続時間長と、をモーラ区間ごとに比較し、モーラ区間の音素の平均継続時間長が解析区間の音素の平均継続時間長よりも長い場合にはＨｉｇｈを、短い場合にはＬｏｗを付与し、モーラ区間ごとにＨｉｇｈとＬｏｗに変化する音声の特徴量の変化パターンを抽出する、
ことを特徴とする請求項２に記載の感情推定器生成方法。
前記変化パターン抽出ステップでは、音声の特徴量として、音声の基本周波数、音声の強度、音素の継続時間長の少なくとも何れか１つを使用して音声の特徴量の変化パターンを抽出する、
ことを特徴とする請求項２から５の何れか一項に記載の感情推定器生成方法。
前記解析区間設定ステップでは、音声データを、言語の意味を持つ最小の単位である形態素に分割し、当該形態素の後で発話された助詞又は助動詞と結合したアクセント句の区間を前記解析区間として設定する、
ことを特徴とする請求項１から６の何れか一項に記載の感情推定器生成方法。
前記モーラ区間抽出ステップでは、音声データをテキスト表示した場合に、仮名文字１文字を１モーラ区間とし、小書きの仮名文字はその前の仮名文字と一緒にして１モーラ区間とし、長音は独立して１モーラ区間とする、
ことを特徴とする請求項２に記載の感情推定器生成方法。
前記感情推定器は、発話者の発話時の感情を、悲しみ、退屈、怒り、驚き、落胆、嫌悪、喜び、の何れかの感情であると推定する、
ことを特徴とする請求項１から８の何れか一項に記載の感情推定器生成方法。
前記複数の感情のクラスに分類された変化パターンを設定する変化パターン設定ステップを含む、
ことを特徴とする請求項１から９の何れか一項に記載の感情推定器生成方法。
教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段と、
を含む感情推定器生成装置。
コンピュータを
教師データの元となる複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段、
前記感情ごとに対応する前記特徴量の変化パターンごとに分類された音声データを教師データとして、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成手段、
として機能させるためのプログラム。
解析対象とする複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定ステップと、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定ステップと、
前記感情ごとに対応する前記特徴量の変化パターンごとに、前記特徴量の変化パターンと同じ特徴量の変化パターンを有する教師データに基づいて生成された、音声を発話したときの発話者の感情を推定する感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定ステップと、
を含む感情推定方法。
解析対象とする複数の感情状態を含む音声データの特徴量を解析する解析区間を設定する解析区間設定手段と、
前記解析区間に含まれる音声データの特徴量の変化するパターンを、複数の感情のクラスに分類された変化パターンに基づいて、前記複数の感情のクラスに対応する前記解析区間に含まれる音声データの特徴量の変化パターンとして決定する変化パターン決定手段と、
前記感情ごとに対応する前記特徴量の変化パターンごとに、前記特徴量の変化パターンと同じ特徴量の変化パターンを有する教師データに基づいて生成された、音声を発話したときの発話者の感情を推定する感情推定器を用いて、前記解析区間の音声を発話した時の発話者の感情を推定する感情推定手段と、
を備えた感情推定装置。