JP7159655B2

JP7159655B2 - 感情推定システムおよびプログラム

Info

Publication number: JP7159655B2
Application number: JP2018129928A
Authority: JP
Inventors: 旋羅
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2022-10-25
Anticipated expiration: 2038-07-09
Also published as: US20200013428A1; US11355140B2; JP2020008730A; CN110706689A

Description

本発明は、感情推定システムおよびプログラムに関する。

音声から発話者の感情を推定する従来技術がある。下記の特許文献１には、教師データの元となる音声データに対して音声認識処理した結果を形態素解析処理およびアクセント句抽出処理することにより音声データの特徴量を解析する解析区間を設定する解析区間設定部と、解析区間に含まれる音声データの特徴量の変化するパターンを、複数のクラスに分類された変化パターンに基づいて、解析区間に含まれる音声データの特徴量の変化パターンとして決定するアクセント型決定部と、特徴量の変化パターンごとに分類された音声データを教師データとして、特徴量の変化パターンごとに、音声を発話したときの発話者の感情を推定する感情推定器を生成する感情推定器生成部と、を備える感情推定器生成装置が開示されている。

また、下記の特許文献２には、入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段と、特徴的音色検出手段で検出した特徴的音色に基づいて、入力音声に含まれる音韻の種類を認識する音声認識手段と、音声認識手段で認識された音韻の種類に基づいて、特徴的音色の発生され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指標計算手段と、特徴的音色発生指標が小さいほど感情が強くなる規則に基づいて、特徴的音色発生指標計算手段で計算された特徴的音色発生指標から特徴的音色が発生した音韻における入力音声の発話者の感情を判定する感情判定手段とを備え、入力音声から当該入力音声の発話者の感情を認識する感情認識装置が開示されている。

特開２０１７－１１１７６０号公報特許第４０８５１３０号公報

音声に対して音声認識処理を行った結果を解析して発話者の感情を推定する場合、音声認識処理を行うことによる負荷が大きかった。また、雑音等の影響を受けやすく感情推定の精度が低かった。

本発明は、音声認識した結果に基づいて発話者の感情を推定する構成と比較して、処理の負荷が小さく、雑音等の影響を受けにくく、精度の高い、発話音声に基づく発話者の感情の推定技術を提供することを目的とする。

請求項１に係る本発明は、
収録された発話音声を解析して予め定められた特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された前記特徴量に基づいて母音が発音された区間を特定する母音区間特定手段と、
前記母音区間特定手段により特定された母音区間の前記特徴量に基づいて発話者の感情を推定する推定手段と、を備え、
前記推定手段は、
前記母音区間特定手段により特定された母音区間ごとに当該母音区間の特徴量から当該母音区間における発話者の感情を推定し、
母音の組み合わせごとに一の母音区間における感情から他の一の母音区間の感情の遷移確率を記録した遷移確率データベースを参照して、前記発話音声に含まれる複数の母音区間の各々に対して推定された母音間の感情の遷移確率を求め、
前記母音区間ごとの感情の推定結果および各母音区間の間の感情の遷移確率に基づき、前記発話音声全体における発話者の感情を特定することを特徴とする、感情推定システムである。
請求項２に係る本発明は、
前記推定手段は、各母音に関して予め定められた感情の種類ごとに特徴量のパターンを記録した母音別確率データベースを参照し、前記母音区間特定手段により特定された母音区間の特徴量のパターンが前記感情の種類の各々に該当する確率を求めることを特徴とする、請求項１に記載の感情推定システムである。
請求項３に係る本発明は、
前記推定手段は、前記母音区間特定手段により特定された母音区間を複数のフレームに分割し、当該フレームごとの特徴量のパターンに関して、前記母音別確率データベースを参照して前記感情の種類の各々に該当する確率を求め、得られたフレームごとの当該確率に基づいて当該母音区間が該当する感情の種類を特定することを特徴とする、請求項２に記載の感情推定システムである。
請求項４に係る本発明は、
前記母音区間における前記フレームごとの特徴量のパターンを、当該母音区間に対応する母音の特徴量のパターンとして前記母音別確率データベースに記録する母音別確率データベース更新手段をさらに備えることを特徴とする、請求項３に記載の感情推定システムである。
請求項５に係る本発明は、
前記推定手段により得られた前記発話音声に含まれる各母音間の感情の遷移確率に基づき、該当する母音間の感情の遷移確率を更新する遷移確率データベース更新手段をさらに備えることを特徴とする、請求項１に記載の感情推定システムである。
請求項６に係る本発明は、
コンピュータに読み込まれて実行されるプログラムであって、
収録された発話音声を解析して予め定められた特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された前記特徴量に基づいて母音が発音された区間を特定する母音区間特定手段と、
前記母音区間特定手段により特定された母音区間の前記特徴量に基づいて発話者の感情を推定する推定手段として、
前記コンピュータを機能させ、
前記推定手段の機能として、
前記母音区間特定手段により特定された母音区間ごとに当該母音区間の特徴量から当該母音区間における発話者の感情を推定し、
母音の組み合わせごとに一の母音区間における感情から他の一の母音区間の感情の遷移確率を記録した遷移確率データベースを参照して、前記発話音声に含まれる複数の母音区間の各々に対して推定された母音間の感情の遷移確率を求め、
前記母音区間ごとの感情の推定結果および各母音区間の間の感情の遷移確率に基づき、前記発話音声全体における発話者の感情を特定する処理を前記コンピュータに実行させることを特徴とする、プログラムである。
請求項７に係る本発明は、
前記推定手段の機能として、各母音に関して予め定められた感情の種類ごとに特徴量のパターンを記録した母音別確率データベースを参照し、前記母音区間特定手段により特定された母音区間の特徴量のパターンが前記感情の種類の各々に該当する確率を求める処理を前記コンピュータに実行させることを特徴とする、請求項６に記載のプログラムである。
請求項８に係る本発明は、
前記推定手段の機能として、前記母音区間特定手段により特定された母音区間を複数のフレームに分割し、当該フレームごとの特徴量のパターンに関して、前記母音別確率データベースを参照して前記感情の種類の各々に該当する確率を求め、得られたフレームごとの当該確率に基づいて当該母音区間が該当する感情の種類を特定する処理を前記コンピュータに実行させることを特徴とする、請求項７に記載のプログラムである。
請求項９に係る本発明は、
前記母音区間における前記フレームごとの特徴量のパターンを、当該母音区間に対応する母音の特徴量のパターンとして前記母音別確率データベースに記録する母音別確率データベース更新手段として、前記コンピュータを機能させることを特徴とする、請求項８に記載のプログラムである。
請求項１０に係る本発明は、
前記推定手段により得られた前記発話音声に含まれる各母音間の感情の遷移確率に基づき、該当する母音間の感情の遷移確率を更新する遷移確率データベース更新手段として、前記コンピュータを機能させることを特徴とする、請求項６に記載のプログラムである。

請求項１の発明によれば、母音区間ごとの推定結果のみを用いて音声全体の感情の推定を行う構成と比較して、母音区間ごとの推定結果に表れる突発的な変化等の影響を抑制することができ、推定の精度を向上させることができる。
請求項２の発明によれば、特徴量パターンのマッチングで推定することにより、音声認識を用いた推定と比較して、処理の負荷を減少させることができる。
請求項３の発明によれば、母音区間を細分化して判断することにより、音声認識で得られた母音ごとに推定を行う構成と比較して、精度を向上させることができる。
請求項４の発明によれば、予め用意されたデータベースのデータのみを用いて処理を行う構成と比較して、ユーザの発話における特徴をデータベースに反映させることができ、推定の精度を向上させることができる。
請求項５の発明によれば、予め用意されたデータベースのデータのみを用いて処理を行う構成と比較して、母音間の感情の遷移確率に関して、ユーザの発話における特徴をデータベースに反映させることができ、推定の精度を向上させることができる。
請求項６の発明によれば、本発明のプログラムを実装したコンピュータにおいて、母音区間ごとの推定結果のみを用いて音声全体の感情の推定を行う構成と比較して、母音区間ごとの推定結果に表れる突発的な変化等の影響を抑制することができ、推定の精度を向上させることができる。
請求項７の発明によれば、本発明のプログラムを実装したコンピュータにおいて、特徴量パターンのマッチングで推定することにより、音声認識を用いた推定と比較して、処理の負荷を減少させることができる。
請求項８の発明によれば、本発明のプログラムを実装したコンピュータにおいて、母音区間を細分化して判断することにより、音声認識で得られた母音ごとに推定を行う構成と比較して、精度を向上させることができる。
請求項９の発明によれば、本発明のプログラムを実装したコンピュータにおいて、予め用意されたデータベースのデータのみを用いて処理を行う構成と比較して、ユーザの発話における特徴をデータベースに反映させることができ、推定の精度を向上させることができる。
請求項１０の発明によれば、本発明のプログラムを実装したコンピュータにおいて、予め用意されたデータベースのデータのみを用いて処理を行う構成と比較して、母音間の感情の遷移確率に関して、ユーザの発話における特徴をデータベースに反映させることができ、推定の精度を向上させることができる。

本実施形態による感情推定システムの全体構成を示す図である。特徴量抽出部による音声フレームの設定例を示す図である。母音区間の特定処理を示す図であり、図３（Ａ）は、母音区間の始点および終点を特定した様子を示す図であり、図３（Ｂ）は、母音区間を特定してＩＤを付した様子を示す図である。第１フォルマントおよび第２フォルマントの周波数と日本語の母音との関係を示す図である。母音区間の感情推定処理を示す図である。母音区間の間の状態遷移解析処理を示す図である。感情推定システムの動作を示すフローチャートである。感情推定システムとして用いられるコンピュータのハードウェア構成例を示す図である。

発話音声に関して、発話者の感情が発話音声における母音の音響に影響することが知られている。また、音声のうち母音の音響は、子音の音響と比較して雑音等の影響を受けにくい。そこで、本発明では、発話音声における母音の音響に着目して発話者の感情を推定する。以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。

＜システム構成＞
図１は、本実施形態による感情推定システムの全体構成を示す図である。感情推定システム１００は、音声取得部１０と、特徴量抽出部２０と、母音区間特定部３０と、感情推定部４０と、母音別確率データベース（ＤＢ）５０と、遷移確率データベース（ＤＢ）６０と、出力部７０とを備える。

音声取得部１０は、感情を推定する処理対象の音声を取得する手段である。音声取得部１０としては、例えばマイクロフォンが用いられる。また、ネットワーク・インターフェイスを介して外部装置に接続し、この外部装置から処理対象の音声データを受信する構成としても良い。また、システムの周辺装置として音声データを記憶した記憶装置を設けておき、この記憶装置から処理対象の音声データを読み出す構成としても良い。なお、本実施形態では、一人の話者の音声を取得するものとする。

特徴量抽出部２０は、音声取得部１０により取得した音声を解析し、予め定められた特徴量を抽出する。特徴量抽出部２０は、特徴量抽出手段の一例である。ここで、特徴量とは、音声から母音の区間を特定するために用いられる、音声信号の特徴を示す値である。言い換えれば、特徴量とは、母音の音声信号を特徴付ける要素に関する値である。特徴量としては、例えば、音声信号の振幅、零点交差率、フォルマント（formant）等が用いられる。特徴量抽出部２０の処理および特徴量の詳細については後述する。

母音区間特定部３０は、特徴量抽出部２０により抽出された特徴量に基づいて、音声取得部１０により取得した音声から母音の区間を特定する。母音区間特定部３０は、母音区間特定手段の一例である。母音区間特定部３０は、処理対象の音声信号から母音区間を特定する。母音区間とは、処理対象の音声信号のうち、特徴量に基づき母音の特徴を有する区間である。これにより、処理対象の音声信号から母音区間が特定される。母音区間特定部３０は、音声信号のうち母音区間を特定するのみであり、母音を特定する音声認識処理は行わない。母音区間特定部３０の処理の詳細は後述する。

感情推定部４０は、母音区間特定部３０により特定された母音区間の特徴量に基づいて処理対象の音声を発した際の発話者の感情を推定する。感情推定部４０は、推定手段の一例である。感情推定部４０は、母音別感情推定部４１と母音間状態遷移解析部４２とを有する。母音別感情推定部４１は、母音区間ごとに、その母音区間の音声信号の特徴量に基づいて、その母音区間の音声を発した発話者の感情を推定する。母音間状態遷移解析部４２は、一の母音区間に対して推定された感情と、この一の母音区間に続く他の一の母音区間に対して推定された感情との関係を解析する。感情推定部４０は、母音別感情推定部４１の推定結果および母音間状態遷移解析部４２の解析結果を用いて、音声取得部１０により取得した音声を発した際の発話者の感情を推定する。母音別感情推定部４１および母音間状態遷移解析部４２の処理を含む感情推定部４０の処理の詳細は後述する。

母音別確率ＤＢ５０は、母音の種類ごとに、予め定められた感情の種類に対して対応する特徴量のパターンの情報を格納している。ここで、感情の種類とは、感情推定システム１００により推定される予め設定された感情の種類である。具体的な種別は、個々のシステムごとに個別に設定し得る。例えば、「喜」、「怒」、「哀」、「楽」の４種類としても良いし、これらに加えて「驚き」や「嫌悪」や「落胆」等の感情を設定しても良い。また、「ポジティブ」と「ネガティブ」の２種類、あるいはこれに中間状態を加えた３種類等としても良い。その他、感情推定システム１００の利用者の利用目的等に応じて様々に感情の種類を設定し得る。

ここでいう特徴量とは、特徴量抽出部２０により抽出される音声信号の特徴量である。そして、特徴量のパターンとは、複数の特徴量の組み合わせパターンである。母音別確率ＤＢ５０には、母音の種類ごとに、予め設定されている感情の種類の各々に対する各特徴量のパターンの確率分布の情報が格納されている。ここで、感情の種類に対する各特徴量のパターンの確率分布とは、発話者がある感情ｅ_jであるときにある特徴量のパターンＶ_khが発生する確率ｂ（Ｖ_kh｜ｅ_j）の各感情の種類に対する分布である。母音別感情推定部４１は、この母音別確率ＤＢ５０を参照し、処理対象の音声における母音区間から得られた特徴量のパターンが各感情に該当する確率（母音区間別確率）を得る。そして、母音別感情推定部４１は、得られた母音区間別確率に基づき、この母音区間における発話者の感情を推定する。

遷移確率ＤＢ６０は、母音の種類の組み合わせごとに母音間状態遷移確率の情報を格納している。ここで、母音間状態遷移確率とは、一の母音区間における発話者の感情から他の一の母音区間における発話者の感情へ状態遷移する確率である。例えば、感情の種類として「喜」、「怒」、「哀」、「楽」の４種類が設定されており、一の母音区間における発話者の感情が「喜」である場合を考える。この母音区間の次の母音区間における発話者の感情が「怒」である確率が、「喜」から「怒」へ（以下、「喜」→「怒」と記載）の母音間状態遷移確率である。この場合、「喜」を起点とすると「喜」→「喜」、「喜」→「怒」、「喜」→「哀」、「喜」→「楽」の４種類の状態遷移があり得るので、この４種類の状態遷移に関してそれぞれ母音間状態遷移確率が得られる。同様に、「怒」、「哀」、「楽」をそれぞれ起点として４種類ずつの状態遷移があり、それぞれ母音間状態遷移確率が得られる。これらの母音間状態遷移確率は、サンプルとして収集された音声における母音区間ごとの感情の推定結果を用い、隣接する母音区間の組み合わせにおける状態遷移のパターンを処理することにより得られる。状態遷移のパターンの集合から母音間状態遷移確率を求める手法としては、例えば、隠れマルコフモデルを用いた処理、再帰型ニューラルネットワークによる処理、その他、既存の種々の統計的処理等を用いて良い。母音間状態遷移解析部４２は、この遷移確率ＤＢ６０を参照し、母音別感情推定部４１により推定された各母音区間の感情に基づいて、各母音区間の間の母音間状態遷移確率を求める。

出力部７０は、感情推定部４０による推定結果を出力する。詳しくは後述するが、感情推定部４０は、音声を発した際の発話者の感情として、予め定められた感情の種類ごとに該当する確率を特定する。したがって、出力内容としては、最も確率の高い感情の種類を推定結果として出力しても良い。また、推定結果としての感情の種類に確率の値を付して出力しても良い。また、設定されている感情の種類ごとの確率値を出力しても良い。出力手段としては、表示装置に上記のような出力内容を表示出力しても良いし、音声出力機構を用いて音声メッセージにより上記のような出力内容を出力しても良い。

＜特徴量の抽出処理＞
次に、特徴量抽出部２０による特徴量の抽出処理について説明する。特徴量抽出部２０は、処理対象の音声信号を単位時間ごとの音声フレームに分割し、この音声フレームごとに各特徴量の値を特定する。

図２は、特徴量抽出部２０による音声フレームの設定例を示す図である。特徴量抽出部２０は、処理対象の音声信号に対して設定された音声フレームごとに特徴量を抽出する。音声フレームの長さ（単位時間の長さ）およびシフト幅は特に限定されず、音声の収録特性等に応じて設定して良い。図２に示す例では、フレームＦ１～Ｆｉの音声フレームが図中の矢印方向に順に切り出される様子が示されている。また、図２に示す例では、フレームＦ１とフレームＦ２とが重なっており、フレーム長よりも短いシフト幅で移動しながら音声フレームが取得される。なお、図２において、音声フレームＦ２は、音声フレームＦ１と重なる位置にあるため、図面上で識別しやすくするために、破線で、音声フレームＦ１よりも若干小さく表示されているが、実際にはフレームＦ１からフレームＦｉまで同じサイズの音声フレームが取得される。また、図２に示す例では、図示された音声信号の部分的な範囲にフレームＦ１～Ｆｉが表示されているが、実際には、音声取得部１０により取得された音声の最初から最後までを対象として音声フレームが取得される。また、音声取得部１０により取得された音声のうち、一定以上の大きさの音声が収録されている個所について音声フレームを取得するようにしても良い。

特徴量抽出部２０は、上記のようにして特定した各音声フレームにおける音声信号の特徴量を抽出する。特徴量としては、種々の情報を示す値を抽出し得るが、少なくともフォルマントを抽出するものとする。フォルマントとは、音声信号の周波数スペクトルにおいて認識される複数のピークである。周波数の低い方から順に、第一フォルマント、第二フォルマント、…と呼ばれる。各フォルマントの周波数は、母音の種類に応じて特徴的な関係を有し、特に低次の第１フォルマントおよび第２フォルマントの関係が母音の識別に重要である。したがって、本実施形態では母音区間の特定に用いるため、音声フレームにおける音声信号の特徴量として、各音声フレームの音声信号から少なくとも第１フォルマントおよび第２フォルマントを抽出する。

＜母音区間の特定処理＞
次に、母音区間特定部３０による母音区間の特定処理について説明する。母音区間特定部３０は、特徴量抽出部２０により抽出された音声フレームごとの特徴量を用いて母音区間を特定する。

図３は、母音区間の特定処理を示す図である。図３（Ａ）は、母音区間の始点および終点を特定した様子を示す図であり、図３（Ｂ）は、母音区間を特定してＩＤを付した様子を示す図である。母音区間特定部３０は、特徴量抽出部２０により抽出された特徴量に基づいて、音声信号のうちの母音区間を特定する。上述したように、母音の識別には特徴量のうち第１フォルマントおよび第２フォルマントが重要であるので、一例として、母音区間特定部３０による母音区間の特定には、主にこれらの特徴量が用いられる。

図４は、第１フォルマントおよび第２フォルマントの周波数と日本語の母音「あ」、「い」、「う」、「え」、「お」との関係を示す図である。図４において、横軸は第１フォルマント（ｆ１）の周波数（ｋＨｚ）を示し、縦軸は第２フォルマント（ｆ２）の周波数（ｋＨｚ）を示す。図示のように第１フォルマントおよび第２フォルマントは、母音の種類に応じて特徴的な関係を示す。そのため、母音区間特定部３０は、処理対象の音声信号のうちの特定の区間において、第１フォルマントおよび第２フォルマントの値がこれらの値に該当する場合、すなわち母音であることを特徴付ける値である場合、その区間を母音区間として特定する。

さらに詳細に説明すると、特徴量は音声フレームごとに得られているため、母音区間特定部３０は、各音声フレームの特徴量を調べ、個々の音声フレームが母音フレームか否かを判断する。ここで母音フレームとは、特徴量の値が母音であることを特徴付ける値である音声フレームである。そして、母音区間特定部３０は、例えば、母音フレームの出現頻度が一定以上である区間を母音区間とする。また、母音区間特定部３０は、母音区間の最初に母音フレームが出現した個所を母音区間の始点、最後に母音フレームが出現した個所を母音区間の終点とする。なお、母音区間を特定するための条件の具体的な内容（上記の母音フレームの出現頻度、始点および終点の位置等）は特に限定されず、個々のシステムにおいて個別に設定して良い。

図３（Ａ）に示す例では、処理対象の音声信号において、母音フレームが出現する区間の始点と終点の組が４か所（始点Ｖ１Ｓと終点Ｖ１Ｅの組、始点Ｖ２Ｓと終点Ｖ２Ｅの組、始点Ｖ３Ｓと終点Ｖ３Ｅの組、始点Ｖ４Ｓと終点Ｖ４Ｅの組）検出されている。この結果、図３（Ｂ）に示すように、各始点と終点の組に挟まれた区間が母音区間Ｖ１、Ｖ２、Ｖ３、Ｖ４として特定される。また、図３（Ａ）（Ｂ）において、母音区間Ｖ２の終点Ｖ２Ｅの直後に、何らかの音声が収録されている個所（音声信号の振幅が大きくなっている個所）が存在するが、この箇所の音声フレームには母音フレームが存在しなかったものとする。したがって、この区間Ｎは、母音区間ではなく雑音（ノイズ）とされる。

＜母音区間ごとの感情推定処理＞
次に、母音別感情推定部４１による母音区間ごとの感情推定処理について説明する。母音別感情推定部４１は、母音区間特定部３０により特定された母音区間ごとに、母音別確率ＤＢ５０に格納されている設定された感情ごとの特徴量のパターンの確率分布を参照して、各母音区間が設定された各感情に該当する確率を求め、得られた確率に応じて各母音区間における発話者の感情を推定する。

図５は、母音区間の感情推定処理を示す図である。母音別感情推定部４１は、まず、母音区間特定部３０により特定された母音区間の一つに着目し、処理対象とする。図５に示す例では、母音区間Ｖ１が処理対象として着目されたものとする。次に、母音別感情推定部４１は、母音区間Ｖ１に含まれる各音声フレームＦ１～Ｆｉのそれぞれについて、特徴量のパターンを抽出する。そして、母音別感情推定部４１は、母音別確率ＤＢ５０を参照して、各音声フレームＦ１～Ｆｉの特徴量のパターンが、設定された各感情に該当する確率を求める。そして、母音別感情推定部４１は、各音声フレームＦ１～Ｆｉの特徴量のパターンと設定された各感情との関係に基づき、母音区間Ｖ１が、設定された各感情に該当する確率を求める。一例として、Ｅ個の感情の種類が設定されており、発話者がそのうちの一の感情ｅ_j（ｊ＝１～Ｅ）であるときに発せられた音声が、特定の母音Ｖｋである確率Ｐ（Ｖ_k｜ｅ_j）は、次式（数１）で表される。なお、ｂ（Ｖ_kh｜ｅ_j）は、発話者が感情ｅ_jであるときに発した音声に特定の特徴量のパターンＶ_kh（ｈ＝１～ｍ）である音声フレームが出現する確率である。

母音別感情推定部４１は、以上の処理を、母音区間特定部３０により特定された各母音区間に対して行う。これにより、音声信号の各母音区間における発話者の感情が推定される。

＜母音区間の間の状態遷移解析処理＞
次に、母音間状態遷移解析部４２による母音間の状態遷移解析処理について説明する。母音間状態遷移解析部４２は、母音別感情推定部４１による母音区間ごとの感情の推定結果に基づき、遷移確率ＤＢ６０に格納されている母音間状態遷移確率を参照して、各母音区間の間で感情が遷移する確率を求める。

図６は、母音区間の間の状態遷移解析処理を示す図である。母音間状態遷移解析部４２は、まず、音声信号において隣接する二つの母音区間に着目する。そして、母音間状態遷移解析部４２は、これらの母音区間の組み合わせに対応する母音間状態遷移確率を遷移確率ＤＢ６０から取得する。図示の例では、Ｖ１とＶ２、……、Ｖｋ－１とＶｋ、というｋ－１個の母音区間の組について母音間状態遷移確率が得られる。

＜処理対象の音声に対する感情推定処理＞
次に、感情推定部４０による処理対象の音声全体に対する感情の推定処理について説明する。感情推定部４０は、母音別感情推定部４１による母音区間ごとの感情の推定結果と、母音間状態遷移解析部４２により得られた母音間状態遷移確率に基づいて、これらの母音区間が含まれる音声における発話者の感情を推定する。具体的には、感情推定部４０は、感情推定システム１００において設定された感情の種類の各々に関して、処理対象の音声における発話者の感情が該当する確率を求め、最も高い確率である感情を発話者の感情とする。処理対象の音声Ｘにおける発話者の感情が、感情推定システム１００において設定された感情の種類のうちの一の感情ｅ_j（ｊ＝１～Ｅ）に該当する確率Ｐ（ｅ_j｜Ｘ）は、例えば、次式（数２）で表される。

なお、Ｐ（Ｖ_K｜ｅ_j）は発話者の感情ｅ_jのときに発せられた音声が、母音ＶＫ（Ｋ＝１～ｋ）である確率であり、Ａ（Ｖ_KＶ_K+1｜ｅ_j）は、発話者の感情ｅ_jのときに母音間の状態遷移ＶＫ→ＶＫ＋１（Ｋ＝１～ｋ－１）が起こる確率である。そして、音声Ｘにおける発話者の感情Ｅ（Ｘ）は、次のように表される。

＜感情推定システムの動作＞
図７は、感情推定システム１００の動作を示すフローチャートである。感情推定システム１００による処理においては、まず、音声取得部１０が、処理対象の音声（対象音声）を取得する（Ｓ７０１）。ここで、対象音声は、一人の話者による発話音声である。収録音声が複数の話者による発話音声を含んでいる場合、収録音声の中から一人の話者による発話音声を切り出して対象音声とする。なお、一人の話者による発話音声の切り出しは、人が音声を聞いて行っても良いし、一定時間の空白部分で切り分ける等の既存の手法を用いて行っても良い。

次に、特徴量抽出部２０が、対象音声を音声フレームに分割し、この音声フレームごとに特徴量を抽出する（Ｓ７０２）。そして、母音区間特定部３０が、特徴量抽出部２０により抽出された音声フレームごとの特徴量を用いて母音区間を特定する（Ｓ７０３）。上述したように、ここでは音声信号の特徴量に基づいて対象音声における母音区間を特定しており、音声認識処理は行わない。ただし、特徴量であるフォルマント等に基づき、母音区間における母音の種類を特定しても良い。

次に、感情推定部４０の母音別感情推定部４１が、母音区間ごとに、その母音区間の音声信号の特徴量に基づいて、その母音区間の音声を発した発話者の感情を推定する（Ｓ７０４）。上述したように、ここでは、母音別感情推定部４１は、感情推定システム１００により設定された各感情に関して、着目中の母音区間に含まれる音声フレームの特徴量のパターンが出現する確率を求め、最も高い確率が得られる感情を、その母音区間における感情の推定結果とする。

次に、感情推定部４０の母音間状態遷移解析部４２が、対象音声に含まれる各母音区間の間の状態遷移を解析する（Ｓ７０５）。そして、感情推定部４０が、母音別感情推定部４１による母音区間ごとの感情の推定結果と、母音間状態遷移解析部４２により得られた母音間状態遷移確率に基づき、対象音声における発話者の感情を推定する。上述したように、ここでは、感情推定部４０は、発話者の感情が感情推定システム１００により設定された各感情に関して、対象音声における母音区間ごとの感情の推定結果および母音間状態遷移確率が出現する確率を求める。そして、感情推定部４０は、対象音声における感情の推定結果として、最も高い確率が得られる感情を特定する（Ｓ７０６）。この後、出力部７０が、感情推定部４０により特定された感情を、対象音声における感情の推定結果として出力する（Ｓ７０７）。

＜ハードウェア構成例＞
図８は、感情推定システム１００として用いられるコンピュータのハードウェア構成例を示す図である。図８に示すコンピュータ２００は、演算手段であるＣＰＵ（Central Processing Unit）２０１と、記憶手段である主記憶装置（メイン・メモリ）２０２および外部記憶装置２０３を備える。ＣＰＵ２０１は、外部記憶装置２０３に格納されたプログラムを主記憶装置２０２に読み込んで実行する。主記憶装置２０２としては、例えばＲＡＭ（Random Access Memory）が用いられる。外部記憶装置２０３としては、例えば磁気ディスク装置やＳＳＤ（Solid State Drive）等が用いられる。また、コンピュータ２００は、表示装置２１０に表示出力を行うための表示機構２０４と、コンピュータ２００のユーザによる入力操作が行われる入力デバイス２０５とを備える。入力デバイス２０５としては、例えばキーボードやマウス等が用いられる。また、コンピュータ２００は、ネットワークに接続するためのネットワーク・インターフェイス２０６を備える。なお、図７に示すコンピュータ２００の構成は一例に過ぎず、本実施形態で用いられるコンピュータは図８の構成例に限定されるものではない。例えば、記憶装置としてフラッシュ・メモリ等の不揮発性メモリやＲＯＭ（Read Only Memory）を備える構成としても良い。

図１に示した感情推定システム１００が図８に示すコンピュータ２００により実現される場合、特徴量抽出部２０、母音区間特定部３０、母音別感情推定部４１と母音間状態遷移解析部４２とを含む感情推定部４０は、例えば、ＣＰＵ２０１がプログラムを実行することにより実現される。母音別確率ＤＢ５０および遷移確率ＤＢ６０は、例えば、外部記憶装置２０３により実現される。出力部７０は、例えば、表示機構２０４および表示装置２１０により実現される。

＜変形例＞
本実施形態の感情推定システム１００において、母音別確率ＤＢ５０に格納されている特徴量のパターンの確率分布および遷移確率ＤＢ６０に格納されている母音間状態遷移確率は、サンプルとして収集された音声（サンプル音声）に対して統計処理を行うことにより、予め用意されている。本実施形態の変形例として、具体的な音声に関して感情を推定する処理を行った結果を感情推定システム１００にフィードバックする構成を設けても良い。具体的には、感情推定システム１００により発話者の感情を推定する過程で抽出された音声フレームの特徴量のパターンおよび母音間の状態遷移のパターンを、母音別確率ＤＢ５０および遷移確率ＤＢ６０に格納し、反映させる。発話音声における特徴量のパターンや母音間の状態遷移のパターンには発話者ごとの個人差があることが想定される。そこで、発話者の具体的な音声に対する実際の処理結果を感情推定システム１００にフィードバックして各データベースに反映させることにより、感情推定システム１００が発話者の発話音声に対して最適化され、推定精度が向上する。感情推定システム１００により感情を推定される発話者が複数存在する場合、処理結果の情報に発話者の識別情報を付加してフィードバックし、発話者ごとに最適化されたデータベースを構築しても良い。

なお、特徴量のフォルマントの説明において、日本語の母音とフォルマントとの関係を参照して説明した（図４）。しかしながら、発話音声において母音が感情の表現に大きく影響することは日本語に限定される特徴ではなく、様々な言語において当てはまる。ただし、母音の音声信号における特徴量と感情との具体的な関係については、言語ごとに個別の関係があることが想定される。本実施形態の感情推定システム１００は、サンプル音声に対して統計処理を行って得られた母音区間の音声信号における特徴量のパターンの確率分布および母音間状態遷移確率を用いるため、サンプル音声の言語を選択することにより、種々の言語による音声に対して適用し得る。

以上、本発明の実施形態について説明したが、本発明の技術的範囲は上記実施形態には限定されない。本発明の技術思想の範囲から逸脱しない様々な変更や構成の代替は、本発明に含まれる。

１０…音声取得部、２０…特徴量抽出部、３０…母音区間特定部、４０…感情推定部、４１…母音別感情推定部、４２…母音間状態遷移解析部、５０…母音別確率データベース（ＤＢ）、６０…遷移確率データベース（ＤＢ）、７０…出力部、１００…感情推定システム

Claims

収録された発話音声を解析して予め定められた特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された前記特徴量に基づいて母音が発音された区間を特定する母音区間特定手段と、
前記母音区間特定手段により特定された母音区間の前記特徴量に基づいて発話者の感情を推定する推定手段と、を備え、
前記推定手段は、
前記母音区間特定手段により特定された母音区間ごとに当該母音区間の特徴量から当該母音区間における発話者の感情を推定し、
母音の組み合わせごとに一の母音区間における感情から他の一の母音区間の感情の遷移確率を記録した遷移確率データベースを参照して、前記発話音声に含まれる複数の母音区間の各々に対して推定された母音間の感情の遷移確率を求め、
前記母音区間ごとの感情の推定結果および各母音区間の間の感情の遷移確率に基づき、前記発話音声全体における発話者の感情を特定することを特徴とする、感情推定システム。
前記推定手段は、各母音に関して予め定められた感情の種類ごとに特徴量のパターンを記録した母音別確率データベースを参照し、前記母音区間特定手段により特定された母音区間の特徴量のパターンが前記感情の種類の各々に該当する確率を求めることを特徴とする、請求項１に記載の感情推定システム。
前記推定手段は、前記母音区間特定手段により特定された母音区間を複数のフレームに分割し、当該フレームごとの特徴量のパターンに関して、前記母音別確率データベースを参照して前記感情の種類の各々に該当する確率を求め、得られたフレームごとの当該確率に基づいて当該母音区間が該当する感情の種類を特定することを特徴とする、請求項２に記載の感情推定システム。
前記母音区間における前記フレームごとの特徴量のパターンを、当該母音区間に対応する母音の特徴量のパターンとして前記母音別確率データベースに記録する母音別確率データベース更新手段をさらに備えることを特徴とする、請求項３に記載の感情推定システム。
前記推定手段により得られた前記発話音声に含まれる各母音間の感情の遷移確率に基づき、該当する母音間の感情の遷移確率を更新する遷移確率データベース更新手段をさらに備えることを特徴とする、請求項１に記載の感情推定システム。
コンピュータに読み込まれて実行されるプログラムであって、
収録された発話音声を解析して予め定められた特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された前記特徴量に基づいて母音が発音された区間を特定する母音区間特定手段と、
前記母音区間特定手段により特定された母音区間の前記特徴量に基づいて発話者の感情を推定する推定手段として、前記コンピュータを機能させ、
前記推定手段の機能として、
前記母音区間特定手段により特定された母音区間ごとに当該母音区間の特徴量から当該母音区間における発話者の感情を推定し、
母音の組み合わせごとに一の母音区間における感情から他の一の母音区間の感情の遷移確率を記録した遷移確率データベースを参照して、前記発話音声に含まれる複数の母音区間の各々に対して推定された母音間の感情の遷移確率を求め、
前記母音区間ごとの感情の推定結果および各母音区間の間の感情の遷移確率に基づき、前記発話音声全体における発話者の感情を特定する処理を前記コンピュータに実行させることを特徴とする、プログラム。
前記推定手段の機能として、各母音に関して予め定められた感情の種類ごとに特徴量のパターンを記録した母音別確率データベースを参照し、前記母音区間特定手段により特定された母音区間の特徴量のパターンが前記感情の種類の各々に該当する確率を求める処理を前記コンピュータに実行させることを特徴とする、請求項６に記載のプログラム。
前記推定手段の機能として、前記母音区間特定手段により特定された母音区間を複数のフレームに分割し、当該フレームごとの特徴量のパターンに関して、前記母音別確率データベースを参照して前記感情の種類の各々に該当する確率を求め、得られたフレームごとの当該確率に基づいて当該母音区間が該当する感情の種類を特定する処理を前記コンピュータに実行させることを特徴とする、請求項７に記載のプログラム。
前記母音区間における前記フレームごとの特徴量のパターンを、当該母音区間に対応する母音の特徴量のパターンとして前記母音別確率データベースに記録する母音別確率データベース更新手段として、前記コンピュータを機能させることを特徴とする、請求項８に記載のプログラム。
前記推定手段により得られた前記発話音声に含まれる各母音間の感情の遷移確率に基づき、該当する母音間の感情の遷移確率を更新する遷移確率データベース更新手段として、前記コンピュータを機能させることを特徴とする、請求項６に記載のプログラム。