JP5039045B2

JP5039045B2 - 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体

Info

Publication number: JP5039045B2
Application number: JP2008534386A
Authority: JP
Inventors: 豪入江; 浩太日高; 隆佐藤; 行信谷口; 信弥中嶌
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-09-13
Filing date: 2007-09-13
Publication date: 2012-10-03
Anticipated expiration: 2027-09-13
Also published as: KR101029786B1; US20090265170A1; CN101506874A; US8386257B2; CN101506874B; EP2063416B1; EP2063416A1; JPWO2008032787A1; KR20090038475A; WO2008032787A1; EP2063416A4

Description

本発明は、音声信号データに基づく感情検出技術に関するものである。

現在、マルチメディアコンテンツの増加に伴い、短時間での視聴を可能とするコンテンツ要約技術が市場から求められている。また、コンテンツの種類も、たとえば、映画、ドラマ、ホームビデオ、ニュース、ドキュメンタリ、音楽コンテンツなど多様化しており、それらに応じて視聴者の視聴要求も多様化してきている。
その視聴要求の多様化に伴い、視聴者の視聴要求に対して、観たい映像、シーンを即座に検索、提示するための技術が求められている。その技術に関して、例えば、視聴コンテンツに含まれる音声信号データに基づいてコンテンツを要約するコンテンツ要約技術（例えば、特許文献１、特許文献２参照）が知られている。

前記の特許文献１のコンテンツ要約技術では、音声データを解析し、基本周波数，パワー，動的特徴量の時間変動特性の少なくとも１つ及び／又はそれらのフレーム間差分の少なくとも１つの音声特徴量の組を音声特徴量ベクトルとして抽出する。その抽出された音声特徴量ベクトルを量子化して得た代表ベクトルと、話者の感情、感情表出確率を対応付けた符号帳を用いて、笑い，怒り，哀しみの感情的状態の表出確率を求める。
この感情的状態の表出確率に基づいて感情的状態であると判定された区間を含む部分をコンテンツ中の重要部分と判定し、抽出する感情検出方法について開示されている。

また、同様に、前記特許文献２のコンテンツ要約技術は、音声データを解析し、基本周波数、パワー、動的特徴量の時間変動特性の少なくとも１つ及び／又はそれらのフレーム間差分の少なくとも１つの音声特徴量の組を音声特徴量ベクトルとして抽出する。その抽出された音声特徴量ベクトルを量子化して得た代表ベクトルと、発話の強調状態確率及び平静状態確率とをそれぞれ対応付けた符号帳を用いて、強調状態、平静状態の表出確率を求める。
前記の感情検出方法では、学習用音声信号データを複数保存し、新たに入力された音声信号データとそれらを比較することによって、これを感情的状態の判定基準としていたため、判定精度を高めるためには多くの学習用音声信号データを保存しなければならず、メモリ、及び計算時間のコストが膨大になるという問題が知られている。

なお、関連技術として、基本周波数及びパワーの抽出法（例えば、非特許文献１参照）、発話速度の時間変動特性の抽出方法（例えば、非特許文献２参照）、確率モデルのパラメータ推定方法（例えば、非特許文献３、非特許文献４参照）、一般化状態空間モデルを求める方法（例えば、非特許文献５参照）が知られている。
特開2005-345496号公報（段落[0011]〜[0014]等）。特許第3803311号。古井貞熙、「ディジタル音声処理第４章４．９ピッチ抽出」、東海大学出版会、1985年9月、pp.57-59。嵯峨山茂樹、板倉文忠、「音声の動的尺度に含まれる個人性情報」、日本音響学会昭和54年度春季研究発表会講演論文集、3-2-7、1979年、pp.589-590。石井健一郎、上田修功、前田栄作、村瀬洋、「わかりやすいパターン認識」、オーム社、第１版、1998年8月、pp.52-54。汪金芳、手塚集、上田修功、田栗正章、「計算統計Ｉ確率計算の新しい手法統計科学のフロンティア１１第III章３ＥＭ法４変分ベイズ法」、岩波書店、2003年6月、pp.157-186。 Kitagawa, G., "Non-Gaussian state-space modeling of nonstationary time series," Journal of the American Statistical Association, 1987年12月、pp.1032-1063。

上述の感情検出方法では、感情的発話に頻繁に現れる、声のうわずりや叫び声、震えといった発生状況に対する考慮がなされていないため、判定できる感情的状態は、典型的な笑い，怒り，哀しみといった、限られた種類にしか対応できなかった。
また、音声特徴量から得られる情報のみに基づいて、強調状態や感情的状態の判定を行なっていたために、雑音成分の強い音声を対象とした場合に、音声特徴量から得られる情報のみからでは十分な判定の根拠が得られない。このため、例えば、本来ならば怒りの感情的状態と判定されるべき音声であるにもかかわらず、雑音の影響を受けた音声特徴量が、たまたま哀しみの感情的状態に似ている場合に、哀しみであると判定されてしまう、といった誤検出が多く見られた。

同様に、本来、笑いの感情的状態であると判定されるべき１つ以上のフレームを含む区間に、哀しみの感情的状態である確率が非常に高い値を持つフレームが存在した場合に、哀しみであると誤った判定をされるという問題があった。
また、フレーム毎に音声特徴量ベクトルを量子化し、連続量である音声特徴量ベクトルをいくつかの代表ベクトルに代表させていたため、感情的状態における発声に特徴的に現れる音声特徴量ベクトルの重要な変化を検出できず、その結果、感情的状態の判定精度が低いという問題があった。

本発明は、前記課題に基づいてなされたものであって、感情的状態における発声に特徴的に現れる音声特徴量ベクトルの重要な変化を検出し、さらに、音声特徴量ベクトルの変化のみではなく、感情的状態そのものの性質を考慮することで、雑音の強い音声を対象とするような場合においても感情的状態の判定精度を高め、より広範な領域に実施可能な感情検出方法、感情検出装置及びその方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体を提供することにある。
ここで感情的状態そのものの性質とは、感情的状態の振舞いに関わる性質である。例えば、感情的状態には変化のしやすさ、しにくさが存在し、直前まで喜びの感情的状態であるのに、急激に哀しみの感情的状態に変化することは起こりにくい。

従って、例えば、ある区間の感情的状態を判定する際に、たとえその区間の音声特徴量が哀しみの場合に類似していても、その区間前後の区間の感情的状態を判断材料として推論し、これらが喜びである可能性が高い場合には、これに基づいて単純に哀しみ、と判断してしまうことを避けることができる。
このような感情的状態の振舞いそのものを考慮して判定を行なうことで、音声特徴量のみからの判定では誤りやすい場合においても、高い精度で判定できる感情検出方法、感情検出装置及びその方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体を提供する。

この発明の第１の観点によれば、入力された音声信号データの音声特徴量に基づいて感情検出処理を行なう感情検出方法又は装置は、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、１つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶し、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力された学習用音声データに基づいて構成された第１統計モデルを用いて、１つ以上の感情的状態の系列を条件として前記音声特徴量ベクトルとなる音声特徴量出現確率を算出し、
第２統計モデルを用いて、１つ以上の感情的状態の系列の時間方向への遷移確率を感情的状態遷移確率として算出し、
前記音声特徴量出現確率と前記感情的状態遷移確率に基づいて感情的状態確率を計算し、
前記算出された感情的状態確率に基づいて、分析フレームを１つ以上含む各区間の感情的状態に関する情報を出力する。

この発明の第２の観点によれば、入力された音声信号データの音声特徴量に基づいて感情検出処理を行う感情検出方法又は装置は、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、１つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶し、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力された学習用音声信号データに基づいて構成された１つ以上の統計モデルを用いて、１つ以上の感情的状態の系列に対する前記音声特徴量ベクトルを条件とした感情的状態確率を計算し、
前記感情的状態確率に基づいて、前記分析フレームを含む区間の感情的状態を判定し、
前記判定された感情的状態に関する情報を出力する。

更に、この発明の前記第１又は第２の観点による感情検出方法を実装したコンピュータプログラム及びそのプログラムを記録した記録媒体を提供する。更に、この発明は、前記第１または第２の観点による感情検出方法を実装したコンピュータで実施可能なプログラム及びそのプログラムを記録した記録媒体を含む。

以上示したようにこの発明の第１の観点の方法又は装置によれば、音声特徴量に関する統計モデルのみではなく、感情的状態系列の遷移確率に関する統計モデルを合わせて利用し、これら処理する情報の異なる２つの統計モデルに基づいて感情的状態確率を計算しているので、感情的状態に関する情報及びその自然な遷移をより正確に捉えることができる。しかも、感情的状態が基本的な性質として備える感情の時間的遷移特性を考慮して感情的状態に関する情報を得るため、音声特徴量に強い雑音が重畳しても、従来のように音声特徴量のみに基づいて計算した場合にフレームの音声特徴量出現確率が本来の値と異なってしまうことによる感情的状態に関する情報の不正確さを改善することができる。

この発明の第２の観点の方法又は装置によれば、音声特徴量に関する統計モデルに基づいて、感情的状態での発話において頻出する音声特徴量の変化を捉えるため、感情的発話における特徴的な発声状況を考慮した感情的状態の判定を可能とし、より多様な感情的状態をより高精度に判定できる。
前記第１又は第２の観点の方法又は装置において、得られた感情的状態確率の降順に感情的状態を選択することにより、混合した複数の感情的状態及びその変化のより詳細な情報を検出することができる。

前記第１又は第２の観点の方法又は装置において、１つの感情的状態である確率と、それ以外の感情的状態である確率の凸結合と、の差に基づいて感情的状態を判定することにより、異なる感情的状態の想起関係を考慮した感情的状態の判定を行なうことができる。
前記第１又は第２の観点の方法又は装置において、入力音声信号データを連続する発話区間ごとの音声小段落にまとめ、各音声小段落の感情度に基づいてコンテンツ要約を抽出することにより、視聴者の要約要求条件に対してより柔軟に対応できる。
前記第１又は第２の観点の方法又は装置において、入力音声信号データを周期性に基づいて１つ以上の連続した分析フレームの区間にまとめ、各音声小段落の感情度に基づいてコンテンツ要約を抽出することにより、視聴者の要約要求条件に対してより柔軟に対応できる。

これらを以って感情検出技術分野に貢献できる。

本実施形態における感情検出方法を説明するフローチャート。本実施形態における統計モデルを構成するステップの処理詳細を示すフローチャート。基本周波数の時間変動特性を求める方法の概念図。音声特徴量ベクトルの時間的な変化を説明するための図。一般化状態空間モデルの概念図。喜び、哀しみ、平静の感情的状態を扱った場合の感情的状態確率の一例を示す図。音声小段落と感情度の関係を示す概念図。音声段落の生成の方法の一例を示す図。音声段落と感情度の関係を示す概念図。コンテンツの感情的状態を判定し、要約コンテンツを生成する処理フローチャート。本実施形態における感情検出装置の論理的な構成図。本実施形態における感情検出装置の物理的な構成図。

本実施形態における感情検出方法を図１に基づいて説明する。図１は、本実施形態における感情検出方法を説明するフローチャートである。なお、本実施形態の説明におけるデータは、汎用的な記憶部（例えば、メモリやハードディスク装置）あるいは記憶手段に記憶され、アクセスされるものとする。
まず、ステップＳ１１０（統計モデル構築処理ステップ）は、本実施形態に係る感情検出方法によって、実際に感情的状態の判定を行う前に、予め行っておくステップであり、感情的状態確率を計算するために用いる２つの統計モデル（第１統計モデル及び第２統計モデルと呼ぶ）を構築するステップである。なお、前記統計モデルの実体とは、その統計を計算する関数、及び、統計量などのパラメータをプログラムとして記載したものである。前記統計モデルのパラメータ及び関数型を表す符号は記憶部に格納されることになるが、それらのための記憶容量は実際のデータを全て格納しておくよりも小さい。

次に、ステップＳ１２０（音声特徴量抽出処理ステップ）では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量をベクトルとして１つ以上の分析フレーム（以下、単にフレームとも呼ぶ）毎に計算し、抽出する。具体的には、例えば各分析フレームは複数のサブフレームから構成されており、入力音声信号データはサブフレームごとに分析され音声特徴量である基本周波数及びパワーが計算され、各分析フレーム毎に、そのフレームを含む１以上の所定数の分析フレームに含まれるサブフレームの音声特徴量に基づいて音声特徴量ベクトルが構成される。なお、この音声特徴量ベクトルは、基本周波数，基本周波数の時間変動特性の系列，パワー，パワーの時間変動特性の系列，発話速度の時間変動特性のうち１つ以上の要素で構成されるベクトルである。また、音声信号データは、音声信号データ入力手段（例えば、後述する図１２の入力部２１０）によって、入力されるものとする。抽出された音声特徴量は、記憶部に記憶される。ステップＳ１２０〜Ｓ１５０は感情的状態確率を計算する処理である。

次に、ステップＳ１３０（音声特徴量出現確率計算処理ステップ）では、ステップＳ１２０において計算され記憶部に記憶された音声特徴量ベクトルに基づき、フレーム毎に、感情的状態に対応する音声特徴量ベクトルが出現する確率を、ステップＳ１１０において予め構成された第１統計モデルによって算出し、その算出結果を音声特徴量出現確率と見做す。
次に、ステップＳ１４０（感情的状態遷移確率計算処理ステップ）では、フレーム毎に、ステップＳ１１０において予め構成された第２統計モデルを用いて、感情的状態に対応する１つ以上の状態変数の時間方向への遷移確率を算出し、その算出結果を感情的状態遷移確率と見做す。

次に、ステップＳ１５０（感情的状態確率計算処理ステップ）では、フレーム毎に、ステップＳ１３０で計算した音声特徴量出現確率及びＳ１４０で計算した感情的状態遷移確率に基づいて、感情的状態確率を計算し、フレーム番号、時刻情報の何れか１つに対応させて記憶部に記憶する。
そして、ステップＳ１６０（感情的状態判定処理ステップ）では、フレーム毎に、ステップＳ１５０で計算した感情的状態確率に基づいて、該フレームの感情的状態を判定し、対応するフレーム番号とともに出力する。判定は、例えばフレームごとの最大の感情的状態確率を与える感情的状態を判定してもよいし、最大の感情的状態確率から降順に所定数の感情的状態を判定してもよいし、単に全感情的状態の感情的状態確率の大きい順を判定してもよい。これらの判定は、後述する音声小段落、あるいは音声段落といった１つ以上のフレームによって構成される区間毎に行なってもよい。

このようにして判定した結果を音声信号データの感情的状態に関する情報として出力する。例えば、入力音声信号データが視聴用コンテンツである場合、視聴者にこのフレーム番号あるいは時刻情報に対応つけられた判定結果をコンテンツと共に提供すれば、視聴者は、判定結果を使ってコンテンツ中の所望の感情的状態を条件とするフレームあるいは区間を検索することができる。
必要であれば、ステップＳ１７０（要約コンテンツ生成出力処理ステップ）において、ステップＳ１６０において判定された感情的状態が連続する１つ以上のフレームで構成される区間を単位としたコンテンツの要約を生成し、出力する。ステップＳ１５０で得られた感情的状態確率は、入力音声信号データのフレーム毎の感情的状態を表す情報であり、従って、上述のステップＳ１６０の判定を行わず、フレーム番号又は時刻情報と対応付けた感情的状態確率を出力してもよい。例えば、このフレーム番号に対応つけられた感情的状態確率を視聴者にコンテンツと共に提供し、視聴者が感情的状態確率に対し所望の基準を設定してコンテンツから要約を抽出することに利用できる。

以下に、感情検出方法の各ステップを詳細に説明する。
まず、２つの統計モデルを構成するステップＳ１１０の処理詳細を図２に基づいて説明する。なお、統計モデルは、学習用音声信号データから学習を行うことによって獲得するものとする。
まず、ステップＳ１１１において、学習用音声信号データを入力する。なお、学習用音声信号データは、コンテンツ音声信号データの入力手段と同じ入力手段から入力されても良いし、学習用音声信号データ専用の入力手段（例えば学習用音声信号データを記録した記録媒体）から入力されても良い。

次に、ステップＳ１１２において、この学習用音声信号データに対して、学習用音声信号データ全てに渡って、フレーム毎に、人間が実際に視聴して判断したそのフレームにおける感情的状態ｅの値を設定する。ここで、各フレームに対し、人間によって判定された感情的状態ｅの値を定める情報をラベルと呼ぶこととし、判定された感情的状態の値をそのフレームに対応付けて入力する行為をラベル付けと呼ぶこととする。ラベルとしては、着目する感情の種類をそれぞれ区別できるものであれば数値でも符号でもよい。
また、厳密にはフレーム毎に感情的状態ｅのラベルが与えられていない場合であっても、フレーム単位にラベル付けされるように変換できるものであれば、これに変換することで利用してもよい。ラベル付けの例としては、ある複数の連続するフレームに渡る区間において感情的状態ｅのラベルが付与されている場合もある。この場合には、その区間に含まれる各フレームに対して、区間に付与されたラベルと同じラベルを付与することによって、フレーム毎にラベル付けできる。より具体的には、音声のある時刻t1からt2の区間が感情的状態ｅとラベル付けされている場合は、該区間の全フレームは全てｅとラベルが与えられている。

次に、ステップＳ１１３において、フレーム毎に、前記ステップＳ１２０と同様に、音声特徴量ベクトルｘを抽出する。後述するように、各フレームにおける音声特徴量ベクトルｘはそのフレームの音声特徴量のみならず、それより過去の所定数のフレームの音声特徴量も含めて決定してもよい。以下では、フレーム番号ｔのフレームF_tにおける音声特徴量ベクトルをx_t、感情的状態をe_tと表す。
次に、ステップＳ１１４において、音声特徴量出現確率を計算するための第１統計モデルと、感情的状態遷移確率を計算するための第２統計モデルをそれぞれ学習によって構成する。

まず、音声特徴量出現確率を計算するための第１統計モデルの学習方法の一例を説明する。
音声特徴量出現確率を計算するための第１統計モデルは、フレーム毎に与えられる音声特徴量ベクトルｘ空間上の確率分布であって、例えば、フレームF_tにおいては、そのフレームからそれ以前の所定数ｎまでの連続するフレーム区間における感情的状態の系列E_t＝{e_t, e_t-1, …, e_t-n+1}に依存してx_tが出現する確率を表す条件付き確率分布p^A(x_t|E_t)として作成する。ｎは１以上の整数であるが、例えば、２〜３程度とするものでよい。

この条件付き確率分布p^A(x_t|E_t)は、例えば、E_tの取り得る値毎に、x_tの出現確率の正規分布、混合正規分布、隠れマルコフモデル(Hidden Markov Model:HMM)などといった、確率モデルを用いて構成してもよい。また、更に音声特徴量の種類別に、正規分布、多項分布や、それらの混合分布などといった、確率モデルを用いて構成するのでもよい。これら確率モデルのパラメータを学習用音声信号データから従来の学習手法により推定し、第１統計モデルとする。
なお、従来のパラメータの推定方法としては、例えば、最尤推定法や、ＥＭアルゴリズム、変分Bayes法などの公知のもの（例えば、非特許文献３、非特許文献４などを参照）を用いることができる。

次に、感情的状態遷移確率を計算するための第２統計モデルを説明する。
感情的状態遷移確率を計算するための第２統計モデルは、音声特徴量出現確率を計算するための第１統計モデル同様、学習用音声信号データから、学習を行うことによって獲得する。
前記ステップＳ１１１〜Ｓ１１３において、前記学習用音声信号データは、学習用音声信号データ全てに渡って、フレーム毎に抽出された音声特徴量ベクトルｘと、人間が実際に聴取して判断したそのフレームにおける感情的状態ｅのラベルと、が与えられているという前提で、以下に、ステップＳ１１４の学習を行うステップの一例について説明する。なお、フレーム番号ｔにおける感情的状態をe_tと表す。

感情的状態遷移確率計算のための第２統計モデルは、t-n+1番目からｔ番目のフレームにおける感情的状態の系列E_t空間上の確率分布であって、F_t以前の(n-1)フレームにおける感情的状態の系列E_t-1＝{e_t-1, e_t-2, …, e_t-n}に依存して、E_t＝{e_t, e_t-1, …, e_t-n+1}が出現する確率を表す条件付き確率分布p^B(E_t|E_t-1)として作成する。
なお、e_tは、“喜び”、“哀しみ”、“怖い”、“激しい”、“かっこいい”、“かわいい”、“エキサイティング”、“情熱的”、“ロマンチック”、“暴力的”、“穏やか”、“癒される”、“暖かい”、“冷たい”、“不気味”といった感情や、“笑い”、“泣き”、“叫び”、“悲鳴”、“ささやき”などの感情表出といった感情的状態の表記の変数であり、離散変数であるから、前記条件付き確率分布p^B(E_t|E_t-1)は、例えば、bi-gram型の確率分布を作成することで構成することができる。この場合は、学習用音声信号データに基づき、E_t-1が与えられている時に、各感情的状態の系列E_tが何度出現するのかを計数することによってこれを構成することができる。これは最尤推定法に他ならないが、このほか、適当な事前分布を定めてBayes法によって学習するものとしてもよい。

以上がステップＳ１１０の詳細処理である。
次に、ステップＳ１２０では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量ベクトルをフレーム毎に抽出する。なお、本発明における音声とは、人間による会話音声のみではなく、歌唱音声、または音楽なども含むものとする。
以下に、音声特徴量ベクトル抽出方法の一例を説明する。
まず、音声特徴量について説明する。本実施形態における音声特徴量としては、高次の音声スペクトルピーク等と比較して、雑音環境下でも安定して得られ、かつ感情的状態を判定するにあたり、話者のプロフィールに依存しにくいものが好ましい。上述のような条件を満たす音声特徴量として、基本周波数f0，基本周波数の時間変動特性の系列{rf0ⁱ}，パワーｐ，パワーの時間変動特性の系列{rpⁱ}，発話速度の時間変動特性等の１つ以上を抽出する。なお、ｉは時間変動特性のインデクスである。

また、本実施形態においては、系列とは１つ以上の要素を持つ集合であると定義する。時間変動特性の例としては、例えば、回帰係数、フレーム内変化量の平均値，最大値，最小値や、フレーム内変化量の絶対値の累積和、レンジなどが考えられ、必要に応じて選択すれば良い。特に、回帰係数の場合には、インデクスは次数に対応づけることができる。回帰係数は、何次までを用いてもよいが、例えば、１〜３次程度としてもよい。以下の例では、時間変動特性として回帰係数のみを採用した場合について説明するが、この他の時間変動特性と組み合わせて用いてもよい。パワーｐは、音声信号波形の振幅値を用いるものでもよいし、絶対値や平滑値、rms値を用いるのでもよい。また、ある周波数帯域、例えば、人間の聞き取り易い500Hz〜4KHzなどの領域におけるパワーの平均値などを用いるのでもよい。また、各種抽出した音声特徴量に対して、適当な座標変換（例えば、主成分分析など）を含む線形変換、非線形変換、積分変換（例えば、フーリエ変換、コサイン変換など）を１つ以上行なった結果得られる値を、改めて音声特徴量として採用してもよい。

前記抽出すべき基本周波数f0及びパワーｐの抽出法は様々である。それらの抽出方法は公知であり、その詳細については、例えば、上述の非特許文献１に記載の方法等を参照されたい。
前記抽出すべき発話速度の時間変動特性は、既知の方法（例えば、非特許文献２、特許文献１参照）によって、動的尺度ｍの時間変動特性rmとして抽出する。例えば、動的尺度のピークを検出し、その数をカウントすることで発話速度を検出する方法をとってもよく、また、発話リズムに相当するピーク間隔の平均値、分散値を計算して発話速度の時間変動特性を検出する方法をとるのでもよい。

以下の説明では、動的尺度のピーク間隔平均値を用いた、動的尺度の時間変動特性をrmとして用い、説明することとする。前記抽出すべき基本周波数の時間変動特性の系列{rf0ⁱ}、及びパワーの時間変動特性の系列{rpⁱ}として、回帰係数を抽出する方法の一例について説明する。
分析するフレームの時刻をｔとしたとき、時刻ｔにおいて抽出された基本周波数f0_t又はp_tと、{rf0ⁱ _t}又は{rpⁱ _t}との関係は、次の近似式によって表される。

ただし、Ｉは回帰関数の最大次数を表す。例えばI=1の場合は直線近似を表し、I=2の場合は２次曲線近似を表す。ｔの近傍でこの近似誤差が小さくなるように{rf0ⁱ _t}及び{rpⁱ _t}を決定すればよく、これを実現する方法として、例えば、最小自乗法を用いることができる。
Ｉは任意の値でよいが、ここでは、例として、Ｉ＝１であるときのrf0¹ _tを求める場合について説明する。分析するフレームの時刻をｔとすると、ｔにおける基本周波数の時間変動特性rf0¹ _tは、

と求めることができる。図３は音声信号データからフレームごとに求めた基本周波数f0の系列を示す。I=0の時間変動特性rf0_t ^I=0である式(4) は、区間(t-d)〜(t+d)における基本周波数f0の平均を表しており、I=1の時間変動特性rf0_t ^I=1である式(3) は図３中に模式的に示す区間(t-d)〜(t+d)におけるf0から最小自乗法により求めた近似直線３Ａの勾配を表している。ここで、ｄは時間変動特性の計算に用いる時刻ｔ前後のサブフレームの数であり、ｔの近傍に対応する。例えば、ｄ＝２とする。あるフレームの回帰係数を求める際、必ずしもそのフレーム内に収まらない範囲のサブフレームを利用して計算を行なってもよい。rp¹ _tについても同様に計算できる。

以下では、例えば、Ｉ＝１の場合に求めたrf0¹ _t、rp¹ _tのみをそれぞれ基本周波数の時間変動特性rf0、パワーの時間変動特性rpとして扱う場合について説明する。
分析フレーム毎に音声特徴量を計算する方法の一例を説明する。１分析フレームの長さ（以下、フレーム長と呼ぶ）を100msecとし、次のフレームは現フレームに対して50msecの時間シフトによって形成されるものとする。実際には、音声信号データから図３に示すように分析フレーム長よりかなり短い例えば１０msec間隔のサブフレーム毎に音声特徴量である基本周波数及びパワーが抽出され、各分析フレーム内でのこれらサブフレームの音声特徴量の平均値、つまり、平均基本周波数f0’、基本周波数の平均時間変動特性rf0’、平均パワーp’、パワーの平均時間変動特性rp’、動的尺度の平均ピーク間隔平均値rm’が計算される。あるいは、これらの平均値のみではなく、フレーム内での各音声特徴量の最大値、最小値、または変動幅などを計算して用いてもよい。以下では、平均値のみを用いた場合について説明する。

各音声特徴量は予め規格化しておくことが好ましい。規格化は、例えば各フレームのf0’に対して、例えば、処理対象となる音声信号データ全体に渡る平均基本周波数を差し引く、もしくは、平均基本周波数で割ることによって行うのでもよいし、標準正規化して平均０分散１にするのでもよい。その他の音声特徴量についても、同様に行うことが考えられる。また、必要な場合には平滑化処理を行なっておく。
感情的状態の判定においては、音声特徴量の時間的な変化を捉えることが必要である。本実施形態では、フレーム毎に、そのフレームを含む１つ以上所定数のフレームの音声特徴量を用いて音声特徴量ベクトルを構成して、音声特徴量の時間的な変化の捕捉を実現する。なお、この音声特徴量ベクトルを抽出する区間を、音声特徴量ベクトル抽出区間（例えば、図４中の符号Ｗで示される区間）と呼ぶこととする。

以下、その音声特徴量の時間的な変化の捕捉方法の一例を図４に基づいて説明する。
現フレームＦについて、そのフレーム番号をｊとおき、F_jと表す。F_jに含まれる音声特徴量をそれぞれ、平均基本周波数f0’_j、基本周波数の平均時間変動特性rf0’_j、平均パワーp’_j、パワーの平均時間変動特性rp’_j、動的尺度の平均ピーク間隔平均値rm’_jとする。
以上で求めた音声特徴量に基づいた音声特徴量ベクトルの構成方法は、例えば、音声特徴量ベクトル抽出区間に含まれるフレーム毎の音声特徴量を、遅延座標空間に埋め込むことで構成する方法が考えられる。即ち、現フレームF_tからＳフレーム分過去のフレームF_t-Sまでに含まれる所望の音声特徴量をベクトル表記することで構成するものとする。

例えば、平均基本周波数の場合、図４に示す例では、フレームF_t, F_t-1, …, F_t-Sのそれぞれの音声特徴量から取り出した平均基本周波数f0’_t, f0’_t-1, …, f0’_t-Sにより、f0^v＝{f0’_t, f0’_t-1, …, f0’_t-S}^Tで表される平均基本周波数の音声特徴量ベクトルf0^vを求める。
あるいは、音声特徴量毎に現フレームF_tと、それからＳフレーム分過去のフレームF_t-Sまでのフレーム間差分量を計算し、これをベクトル表記することで構成する方法も考えられる。フレーム間差分としては、例えば現フレームF_tと、その直前からＳフレーム過去のフレームF_t-SまでのそれぞれのフレームF_t-1, …, F_t-Sとの間の音声特徴量の差分を求める。

ここで、上記Ｓの値を、例えば、Ｓ＝５とすると、前述の分析フレーム長が100msecで、隣接フレームが50msecシフトされている場合は、音声特徴量ベクトル抽出区間Ｗの長さは例えば350msecとなる。同様に、基本周波数の平均時間変動特性の音声特徴量ベクトルrf0^v、平均パワーの音声特徴量ベクトルp^v、パワーの平均時間変動特性の音声特徴量ベクトルrp^v、動的尺度の平均時間変動特性の音声特徴量ベクトルrm^vを構成する。
予め、感情的状態を判定するために使用すると決定した全音声特徴量ベクトルを並べたものをｘと表記するものとする。例えば、抽出した音声特徴量全てを使用する場合は、x＝{f0^vT, rf0^vT, p^vT, rp^vT, rm^vT}^Tとなる。あるいは、基本周波数の時間変動特性rf0、パワーの時間変動特性rp、動的尺度のピーク間隔平均値rmを使用する場合にはx＝{rf0^vT,rp^vT, rm^vT}^Tとなる。なお、上述では例えばベクトルf0^vは列ベクトルと規定しているので、その転置を表すベクトルf0^vTは行ベクトルを規定している。

本実施形態においては、前記音声特徴量のうち１つ以上を使用すれば、感情的状態を判定することが可能である。ただし、感情的状態において特徴的に現れる発話においては、基本周波数f0そのものの抽出が困難な場合が多く、しばしば欠損することがある。このため、そのような欠損を補完する効果を容易に得ることのできる、基本周波数の時間変動特性rf0を含むことが好ましい。更には、話者依存性を低く抑えたまま、判定精度を高めるため、パワーの時間変動特性rpを更に含むことが好ましい。
以上のように、コンテンツ全体に渡りフレーム毎に音声特徴量、音声特徴量ベクトルの計算処理を行うことで、全てのフレームについて音声特徴量ベクトルを得ることが可能である。

以上がステップＳ１２０の詳細処理である。
次に、ステップＳ１３０は、ステップＳ１２０において抽出された各フレームの音声特徴量ベクトルと、ステップＳ１１０において予め構成しておいた第１統計モデルとを用いて各感情的状態における音声特徴量ベクトルの出現確率（音声特徴量出現確率）を計算する。
以下に、ステップＳ１３０で実行する処理の一例を説明する。
ステップＳ１１０で作成した第１統計モデルに基づき、音声特徴量ベクトルの出現確率を計算する方法の一例を説明する。

第１統計モデルは、フレーム毎に与えられる音声特徴量ベクトルx_t空間上の条件付き確率分布p^A(x_t|E_t)であるため、入力された音声特徴量ベクトルx_tについて、ステップＳ１１０によって予め作成した第１統計モデルp^A(x_t|E_t)に基づいてフレーム毎にE_tの取り得る各値に対するx_tの尤度を全て計算する。この計算した尤度を、各感情的状態系列E_tにおいてx_tが出現する音声特徴量出現確率と見做す。
以上の処理を、コンテンツ（入力音声信号データ）の全てのフレームに渡って行うことで、全てのフレームに対して音声特徴量出現確率を計算することができる。

以上がステップＳ１３０の詳細処理である。
次に、ステップＳ１４０では、第２統計モデルを用いて、感情的状態を判定するフレーム（現フレーム）直前の１つ以上遡ったフレームの感情的状態に依存して、現フレームで各感情的状態に遷移する遷移確率（即ち、感情的状態遷移確率）が計算される。
以下に、ステップＳ１４０を実行するため処理の一例を説明する。
まず、ステップＳ１１０で作成した第２統計モデルに基づき、感情的状態遷移確率を計算する方法の一例を説明する。

第２統計モデルは、感情的状態E_tの空間上の条件付き確率分布p^B(E_t|E_t-1)であるから、E_t-1の全ての取り得る値に対して、p^B(E_t|E_t-1)の値が全て計算されている。この計算された値を、感情的状態遷移確率とする。
以上の処理を、全てのフレームに渡って行うことで、全てのフレームに対して感情的状態遷移確率を計算することができる。
以上がステップＳ１４０の詳細処理である。
次に、ステップＳ１５０では、ステップＳ１３０及びステップＳ１４０において計算された音声特徴量出現確率及び感情的状態遷移確率に基づいて、感情的状態確率が計算される。

以下に、ステップＳ１５０で行う感情的状態確率を計算する処理の一例について説明する。
前記２つの統計モデルp^A(x_t|E_t)とp^B(E_t|E_t-1)の組は、合わせて一般化状態空間モデルと呼ばれる構造を有しており、音声認識などによく用いられるLeft-to-Right型のHMM(Hidden Markov Models)などと同様の因果構造（例えば、図５中の符号S_t1で示される感情状態E_t-1，E_tと、符号S_t2で示される音声特徴量x_t-1，x_tである）を有する。
一般化状態空間モデルでは、時刻ｔまでの音声特徴量ベクトルの系列{x_t}を得た場合に、時刻ｔでの感情的状態系列E_tの確率p(E_t|{x_t})は、p^A(x_t|E_t)とp^B(E_t|E_t-1)に基づき、以下の式を再帰的に計算することで求めることができる（例えば、非特許文献５参照）。

ただし、SEは、E_tが取り得る全ての値の集合を表す。

一般に、一般化状態空間モデルにおいては、SEの値が非常に大きな値となるため、前記式(5), (6)を直接計算してp(E_t|{x_t})の値を求めることは困難である。
本実施形態では、E_tが取りうる全ての値は、取り扱う感情的状態、例えば、“喜び”、“哀しみ”、“怖い”、“激しい”、“かっこいい”、“かわいい”、“エキサイティング”、“情熱的”、“ロマンチック”、“暴力的”、“穏やか”、“癒される”、“暖かい”、“冷たい”、“不気味”といった感情や、“笑い”、“泣き”、“叫び”、“悲鳴”、“ささやき”などの感情表出などに限られており、この数を|E|とすると、E_t＝{e_t, e_t-1, …, e_t-n+1}における可能な全ての組み合わせを考えたとき、SEのサイズは|E|ⁿである。

例えば、本実施形態においては、想定する取り扱う感情的状態の数|E|は、上記の例の場合、およそ１０の数倍程度である。このとき、例えば、ｎ＝３とすれば、SEのサイズはオーダにして１０³程度であり、現在普及している汎用的なコンピュータであっても、前記式(5), (6)を十分に直接計算可能な規模である。
従って、本実施形態では、式(5), (6)を使ってコンピュータにより確率p(E_t|{x_t})の値を感情的状態確率として直接計算するものとする。計算が困難である場合には、例えば非特許文献５に記載の近似方法などを採用すればよい。

更に、E_tの要素からe_tを除外したものをE’_t＝{e_t-1, …, e_t-n+1}とし、かつE’_tが取りうる全ての値の集合をSE’と表すとすると、式(6) で求めたp(E_t|{x_t})からフレーム毎の感情的状態e_tの感情的状態確率は、

を計算することで求めることが可能である。図６に、喜び、哀しみ、平静の感情的状態を扱った場合の感情的状態確率の例を示す。即ち、図６中の符号L1で示す曲線が喜びの感情的状態確率、符号L2で示す曲線が平静の感情的状態確率、符号L3で示す曲線が哀しみの感情的状態確率である。

上述の方法は、感情的状態E_tの確率を求めるために、時刻ｔまでの音声特徴量ベクトルの系列{x_t}に基づいて計算を実行するため、実時間で処理を実行できる方法である。一方、実時間処理を行なう必要のない場合には、より頑健な検出を実現するために、時刻Ｔ＞ｔまでの音声特徴量ベクトル系列{x_T}を得た場合の感情的状態系列E_tの確率p(E_t|{x_T})を計算し、これを感情的状態確率としてもよい。p(E_t|{x_T})は、式(5), (6)に加え、さらに以下の式を用いることで求めることができる（例えば、非特許文献５参照）。

ただし、SEは、E_t+1がとり得る全ての値の集合である。この場合のフレームごとの感情的状態e_tの感情的状態確率は、

を計算することで求めることができる。

以上の処理を全てのフレームに渡って行うことによって、全てのフレームに対して感情的状態確率を計算することが可能である。
以上がステップＳ１５０の詳細処理である。
ステップＳ１６０において、ステップＳ１５０において計算された感情的状態確率が感情判定手段に取り込まれ、感情的状態確率に基づいて感情的状態が判定される。

以下、感情的状態を判定するステップＳ１６０の処理の一例を説明する。なお、以下の説明では、取り扱う感情的状態のカテゴリを順にe¹, e², …, e^Kとインデクス付けする。例えば、喜び、怒り、哀しみ、恐怖、驚き、焦り、平静の感情的状態を取り扱う場合には、e¹：喜び、e²：怒り、e³：哀しみ、e⁴：恐怖、e⁵：驚き、e⁶：焦り、e⁷：平静などとすればよく、この場合は、K=7である。
ステップＳ１５０で、フレーム番号ｔのフレームF_tにおける感情的状態がe^kである感情的状態確率p^k _t＝p(e_t＝e^k|{x_t})がk=1, …, Kについてそれぞれ計算されているため、それを使って最も単純には、この確率p^k _tが最も高いe^kに対応する感情的状態を、F_tにおける感情的状態と判定することができる。あるいは、p^k _tが高い値をとるe^kを、降順に１つ以上選出し、これらの感情的状態を持って判定結果としてもよい。

または、感情的状態によっては、同時刻に相互想起しやすいものと、しにくいものとがある。例えば、喜びと哀しみは同時に想起しにくいことは容易に想像できる。このような現象を考慮して、ある感情的状態e^kに対応する感情的状態確率p^k _tから、その他の感情的状態{e¹, e², …, e^k-1, e^k+1, …, e^K}に対応する感情的状態確率{p¹ _t, p² _t, …, p^k-1 _t, p^k+1 _t, …, p^K _t}の凸結合である、

を減算し、規格化したものを新たなp^k _tとして、これをそれぞれの感情的状態間で比較してもよい。

または、簡単に、予めある閾値を定め、これよりも値の大きなp^k _tに対応する感情的状態e^kを、そのフレームF_tの感情的状態と判定してもよい。
以上の処理を全てのフレームに渡って行うことによって、フレーム毎に感情的状態を判定することが可能である。
以上がステップＳ１６０の詳細処理である。

以上のステップＳ１１０〜Ｓ１６０によって、任意の音声信号データを含むコンテンツに対して、フレーム毎に感情的状態を判定することが可能となる。
そして、ステップＳ１７０では、ステップＳ１５０において計算された感情的状態確率，ステップＳ１６０で判定した感情的状態に基づいて要約コンテンツを生成し出力する。
以下、要約コンテンツを生成する処理の一例について説明する。
本発明の原理によれば、フレーム毎に感情的状態確率及び感情的状態が与えられるため、最小単位としてはフレーム単位での要約提示が可能であるが、要約されたコンテンツは、視聴者にとって意味が理解可能であることが好ましい。よって、本実施形態においては、連続する１つ以上のフレームを１つの区間としてまとめる処理を行っておく。以下、この区間のことを音声小段落と呼ぶ。

ここで、音声小段落を生成する方法の一例を説明する。
まず、コンテンツ音声信号データから発話区間であると考えられる区間を抽出する。このような区間を抽出する方法の一例としては、音声波形における発話区間の周期性を利用して、音声信号データの自己相関関数の高い区間を発話区間であると見做して、該当区間を抽出する方法がある。
具体的には、例えば、フレーム毎に自己相関関数値をある所定閾値と比較し、閾値よりも大であれば発話フレームであると判定し、そうでなければ非発話フレームと判定する。閾値よりも高い自己相関関数値を示す一連の発話フレームの区間を発話区間と判定し、そうでない区間を非発話区間と判定する。この閾値の与え方は、予め定数、例えば0.7として与えてもよいし、要約するコンテンツ全体の自己相関関数値を計算した後、一般の場合の発話時間（または、有声時間）と非発話時間（または、無声時間）の割合を基準として、この基準に近い発話時間割合になるように閾値を決定してもよい。

本実施形態においては、発話区間を抽出する他の方法として、音声特徴量ベクトルに含まれている基本周波数が所定周波数範囲（例えば50〜350Hz）内に収まっている一連のフレームを発話区間と判定してもよい。
以上の処理によって、コンテンツ中からフレーム単位で発話区間と非発話区間を分離することが可能である。
次に、抽出された発話区間のうち、連続する発話であると考えられる一連の発話区間の集合を１つの音声小段落としてまとめていく。このような音声小段落を生成する方法の一例について説明する。

コンテンツ中の発話区間F’の集合を時刻の早いものから順に{F’₁, F’₂, …, F’_N}とする。ここで、Ｎは発話区間の総数である。
次に、時間軸上隣り合う発話区間F’_i、F’_i+1の時間間隔、即ち、発話区間F’_iの終了時刻t_iendと、次の発話区間F’_i+1の開始時刻t_i+1startについて、その時刻の差t_i+1start−t_iendを計算する。
次に、その計算結果を予め決定したある閾値と比較して小さければ、F’ _iとF’ _i+1は連続する発話区間であると考え、同じ音声小段落に属するものとする。そして、これを全ての発話区間に渡り繰り返すことで、連続発話と考えられる一連の発話区間を音声小段落にまとめることができる。

また、音声小段落を生成する方法の他例としては、次のようなものが考えられる。
まず、要約するコンテンツ全体に渡り発話区間毎に開始時刻、終了時刻を求め、これらを纏めて２次元のベクトルと見做す。
そして、このベクトルについて、要約するコンテンツ全体の発話時間と非発話時間の比が、一般の場合の発話時間と非発話時間の割合と同じ程度になるようにボトムアップクラスタリング法を適用し、音声小段落を生成する。例えば、一般の場合の発話時間と非発話時間の割合が６：４であったとする。このとき、次のように音声小段落を構成することができる。

まず、発話区間F’_iの開始時刻t_istartと終了時刻t_iendを並べたベクトルをt_iとする。このとき、コンテンツ中の全発話時間はt_istart-t_iendの総和によって定義でき、非発話時間は、コンテンツ全体の長さから全発話時間を減算したものとして定義できる。それぞれのベクトルt_iについてベクトルt_i+1又はt_i-1とのノルムを計算する。このノルムは、例えば２次のノルム|t_i-t_i-1|²であれば(t_istart-t_i-1start)²+(t_iend-t_i-1end)²により計算する。このノルムに閾値を設け、閾値以下である発話区間同士を連結することで、新たな発話区間F’_iを定義し、その開始時刻t_istartと終了時刻t_iendを計算し直す。これによって、時刻的に近い発話区間は順に一連の発話区間、即ち音声小段落にまとめられていくことになり、発話時間は増加する。以下、これをノルムに対する閾値を段階的に高くして、発話区間と非発話区間の時間の割合が６：４に最も近づく割合となるまで繰り返せばよい。

この方法は、予め閾値を決定しておく方法とは異なり、コンテンツ間の発話速度の差を吸収し、適応的に音声小段落を構成できる。
その他の方法の一例としては、音声の連続発話、非発話によらず、音声の周期性に基づいて音声小段落を構成する方法がある。この周期性は、前述の例と同様、自己相関関数の値を用いて判断するものとしてもよいし、スペクトルによって判断するものとしてもよい。
自己相関関数値を用いる場合には、分類基準を設けて、これに基づいて音声小段落を構成してもよい。例えば、自己相関関数値が0.3以下であるならば周期性が低い、0.3より大きく、0.7以下であるならば周期性はやや高い、0.7よりも大きい場合には周期性が高い、などと分類基準を設け、これに基づいて音声小段落を構成してもよい。例えば、隣接区間の自己相関関数値がこれら３つの領域の１つから他の１つに変化している場合は、その隣接区間の間を音声小段落の境界と判定する。あるいは、明確な分類基準を設けるのではなく、自己相関関数の値がある一定値よりも大きく変化した隣接区間の間を音声小段落の境界として、音声小段落を構成してもよい。

スペクトルを用いる場合も、自己相関関数値を用いる場合と同様、分類基準を設けるか、変化の大きさに基準を設けて、音声小段落を構成する。分類基準を設ける場合には、例えば、0〜500Hzのスペクトルの平均パワーが一定値以上／以下であるか、500Hz〜1kHzのスペクトルの平均パワーがある一定値以上／以下であるか、などによって多様な分類基準を設定し、ある区間の該当する分類基準がその直前の区間の該当する分類基準から変化していた場合、これら２つの区間の間を音声小段落の境界と判定する。また、着目する帯域（例えば0〜500Hz）を予め決めておき、隣接区間でその帯域のスペクトルの平均パワーがある一定値よりも大きく変化した場合（例えば平均パワー差分又は平均パワー比が所定値以上になった場合）、隣接区間の間を音声小段落の境界として、音声小段落を構成してもよい。

以上の処理によって、コンテンツからフレーム単位で音声小段落を抽出することが可能である。
以上の処理により、フレーム全体を、いくつかの音声小段落にまとめることが可能である。
次に、構成した音声小段落単位での感情的状態の感情度を計算する。以下、この感情度を計算する方法の一例を図７に基づいて説明する。
コンテンツ中の音声小段落Ｓの集合を時刻の早いものから順に{S₁, S₂, …, S_NS}とする。例えば、図７中では、音声小段落S_i-1, S_i, S_i+1を示している。NSは音声小段落の総数である。また、ある音声小段落S_iに含まれる一連のフレームを{f₁, f₂, …, f_NFi}と表す。NFiは音声小段落S_iに含まれるフレーム数である。

各フレームf_tは、感情的状態確率計算手段によって、感情的状態確率p(e_t|{ｘ_t})が式(7) 又は(9)により与えられている。音声小段落S_iの感情的状態ｅが、e^kである感情度p_Si(e＝e^k)は、例えば、平均値を表す次式によって計算することが考えられる。

あるいは、例えば、最大値を表す次式によって計算してもよい。

これら以外にも、例えば、音声小段落内で窓掛けを行ってから感情度を計算するなど、方法はさまざま考えられるが、音声小段落間で感情度を比較する場合があるため、感情度はある一定の値の範囲内、例えば０〜１の間に収まるようにすることが好ましい。
なお、図７には各音声小段落S_i内の一連のフレームに対し、それぞれの感情的状態e¹, e², …, e^Kについての決定された感情度p_Si(e=e¹), p_Si(e=e²), …, p_Si(e=e^K)を示している。

以上のような計算を、全ての音声小段落について行い、全ての音声小段落に対して全ての感情的状態の感情度を計算することが可能である。
次に、図１におけるステップＳ１７０の要約コンテンツ生成について説明する。
要約コンテンツは、感情度の高い音声小段落を含む一連の音声小段落により構成された目標時間長以内の音声段落をコンテンツから順次抽出することにより作成する。音声段落の目標時間は、例えば、５sec（秒）又は１０sec程度に設定し、これに近づくように音声小段落をまとめていく。

この処理方法を、図８を用いて説明する。コンテンツから抽出された全音声小段落のうち、最後から遡る方向に目標時間内で、又は最初から進む方向に目標時間内で最も高い感情度（どの感情的状態のものでもよい）を付与されている音声小段落をS_iとする。この音声小段落S_iを起点に、更に目標時間に達するまで、時刻をi-1, i-2, …と遡る方向、または起点から時刻をi+1, i+2, …と進む方向にまとめていく。あるいは、その両方向に交互にまとめていってもよい。このようにして１つの音声段落が決まると、次の目標時間内の最も高い感情度の音声小段落を基点として同様の処理により音声段落を決める。このような処理を全コンテンツに渡って実行することにより一連の音声段落を生成することができる。

例えば、時刻を遡る方向にまとめていく場合には、要約コンテンツにおいて、感情的状態の強く表れている音声小段落S_iが、図８に示すように、音声段落VCの最後に配置される。この音声段落VCを視聴すると、最後の音声小段落S_iより先行する音声小段落S_i-1, S_i-2, …に、感情的状態が強くなる原因となった事象が示される可能性が高い。従って、感情的状態が表れるに至る原因と結果が反映された要約コンテンツとすることができる利点がある。
一方、時刻を進む方向にまとめていく場合には、要約コンテンツにおいて、感情的状態の強く表れている音声小段落S_iが、音声段落の最初に配置される。この音声段落を視聴すると、印象的な感情的状態が表れている区間を最初に視聴することのできる要約コンテンツとなり、より印象的な要約コンテンツとなる利点がある。

あるいは、隣接音声小段落間の時間長が、ある一定の閾値以下である場合にはこれらをまとめることで音声段落を構成してもよい。
図９は上述のようにして決められた一連の音声段落VC1, VC2, VC3を示し、VC1は３つの音声小段落S₁₁, S₁₂, S₁₃から構成され、VC2は４つの音声小段落S₁₄, S₁₅, S₁₆, S₁₇から構成され、VC3は３つの音声小段落S₁₈, S₁₉, S₂₀から構成されている例を示している。
感情度は、音声小段落単位で与えられているため、各音声段落は、(音声小段落の数)×(感情的状態数)だけ感情度を有していることになる。図９では各音声段落内のそれぞれの音声小段落S_iに対して求められている感情度p_Si(e=e¹), p_Si(e=e²), …, p_Si(e=e^K)を×印で示し、同じ種類の感情的状態e^kについての感情度を直線で連結して示している。

実際には、各感情的状態e^kについての感情度に基づいて、各音声段落内の累積感情度を計算する。この計算方法としては、例えば、各音声小段落の感情度の平均、又は重み付け平均、又は最大値を音声段落に渡って累積加算して音声段落の累積感情度を求める。あるいは、累積加算結果をその音声段落の音声小段落数で割り算して得た平均値を累積感情度としてもよい。
要約コンテンツは、累積感情度（各音声段落には感情的状態数Ｋ個と同じ数の累積感情度が得られている）が最大の音声段落から降順にランキングし、全コンテンツとの比である圧縮率をある一定の目標値に近づくように上位から順番に音声段落を抽出することで作成してもよい。

なお、この目標値は視聴者が希望のものを入力してもよい。更には、視聴者が所望の感情的状態についての累積感情度の所望の基準値を入力し、その基準値に整合する音声段落を優先的に抽出して要約を作成してもよい。
更に、コンテンツが視聴者の望む感情的状態にある部分を含むか否かを判定する方法の一例を図１０に基づいて説明する。
まず、ステップＳ１８１において、音声段落毎に付与された各感情的状態e^k(k=1, …, K)の累積感情度に対して、例えば、コンテンツ全体を通した平均、重み付け平均、最大値などを計算し、その計算結果に基づいて各感情的状態e^kについてのコンテンツ全体の感情度（以降、コンテンツ感情度と呼び、PC^kで表すことにする）をそれぞれ計算する。このＫ個のコンテンツ感情度PC^k(k=1, …, K)によって、そのコンテンツがどのような感情的状態をどの程度含んでいるかについての指標を与えることができる。

次に、ステップＳ１８２において、視聴者が所望の感情的状態e^kとその感情的状態での所望のコンテンツ感情度RPC^kを条件として入力する。
次に、ステップＳ１８３において、コンテンツに付与されたコンテンツ感情度PC^kと、入力条件RPC^kを比較参照することで、コンテンツが視聴者の所望の感情的状態e^kを含むコンテンツであるか否かの判定を行う。
その判定方法は、例えば、条件として指定された感情的状態e^k のコンテンツ感情度RPC^kと、コンテンツに付与された対応する感情的状態e^kのコンテンツ感情度PC^kとの差の絶対値|RPC^k-PC^k|が、予め決定された閾値より小さければそのコンテンツは条件を満たすコンテンツであると判定することが考えられる。あるいは、PC^k＞RPC^kであれば条件を満たすコンテンツであると判定してもよい。

そして、ステップＳ１８４において、視聴者の所望のコンテンツであれば、要約コンテンツを作成し、判定結果と共に提示する。
以上の処理によって、コンテンツが視聴者の望む感情的状態にある部分を含むか否かを判定できる。
以上がステップＳ１７０での要約コンテンツ生成処理についての詳細である。
以上、本実施形態における感情検出方法を詳細に説明した。
なお、本実施形態の感情検出方法における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の感情検出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。

図１１は、この発明による感情検出装置の機能構成を示すブロック図である。図１１において、感情検出装置８００は、音声特徴量抽出部８２０，音声特徴量出現確率計算部８３０，感情的状態遷移確率計算部８４０，感情的状態確率計算部８５０，感情的状態判定部８６０，コンテンツ要約部８７０から構成される。
さらに、音声特徴量出現確率計算部８３０は第１統計モデル810Aを、感情的状態遷移確率計算部８４０は第２統計モデル810Bをそれぞれ備えている。
第１及び第２統計モデル810A、810Bは、学習用音声信号データに含まれる音声特徴量及びその音声から推測される感情的状態に基づき、従来の手法により学習を行って構築した音声特徴量出現確率分布p^A(x_t|E_t)と感情的状態遷移確率分布p^B(E_t|E_t-1)をそれぞれモデル化したものである。

音声特徴量抽出部８２０は、入力されるコンテンツ音声信号データに含まれる音声特徴量ベクトルを、フレーム毎に抽出する。
音声特徴量出現確率計算部８３０は、抽出した音声特徴量ベクトルが感情的状態において出現する確率p(x_t|E_t)を第１統計モデル810Aに基づいて計算する。
感情的状態遷移確率計算部８４０は、第２統計モデル810Bに基づいて、感情的状態の時間的な遷移確率p(E_t|E_t-1)を計算する。
感情的状態確率計算部８５０は、音声特徴量出現確率計算部８３０が計算した出現確率p(x_t|E_t)と、感情的状態遷移確率計算部８４０が計算した遷移確率p(E_t|E_t-1)とに基づいて、式(5), (6)を使って感情的状態確率p(E_t|{x_t})を計算する。

感情的状態判定部８６０は、感情的状態確率計算部８５０が計算した感情的状態確率p(E_t|{x _t })に基づいて入力音声信号データの各フレームの感情的状態e^k(k=1, …, K)を判定する。
コンテンツ要約部８７０は、感情検出装置８００に必要に応じて備えられるものであって、判定された感情的状態，感情的状態確率，連続発話時間及び連続非発話時間のうち１つ以上に基づいて、感情的状態にある区間を検出し、これを基にコンテンツの要約を作成する。

図１１に示した感情検出装置８００の機能構成を実施するコンピュータの具体的な装置構成例を図１２に基づいて説明する。
図１２中の入力部２１０に外部からディジタル信号として入力された音声信号データを含むコンテンツは、制御部であるCPU(Central Processing Unit)２２１の制御によりハードディスク装置２２２に一時格納される。
入力部２１０には、例えば、マウス等のポインティングデバイス２１２とキーボード２１１等が接続されている。

なお、コンテンツは、通信ネットワークを介して受信されたコンテンツでもよいし、ＣＤ(Compact Disk)、ＤＶＤ(Digital Versatile Disk)等から光学ディスクドライブ装置２１３を用いて読み出されたコンテンツでもよい。
表示部２３０は、例えば、液晶画面等のモニタ画面を有し、キーボード２１１あるいはポインティングデバイス２１２の操作に応じてＣＰＵ２２１から出力する情報を表示することができる。表示部２３０のモニタ画面には、入力データ，処理経過，処理結果，要約、コンテンツ、その他の情報が必要に応じて表示される。また、音声も再生できるものとする。

図１１に示した感情検出装置８００における音声特徴量抽出部８２０，音声特徴量出現確率計算部８３０，感情的状態遷移確率計算部８４０，感情的状態確率計算部８５０，感情的状態判定部８６０，コンテンツ要約部８７０の処理機能を記述したプログラムは図１２中のＣＰＵ２２１によって実行し実現される。なお、そのプログラムは、例えば、ハードディスク装置２２２に格納されてあって、実行時には必要なプログラム及びデータがRAM(Random Access Memory)２２４に読み込まれる。その読み込まれたプログラムはＣＰＵ２２１によって実行される。

ハードディスク装置２２２にはその他、第１統計モデル810Aと第２統計モデル810Bが格納されており、また、入力されたコンテンツが格納される。ROM(Read Only Memory)２２３は、コンピュータを起動するための基本プログラム、その他のプログラム及び制御用のパラメータ等を記憶する。
出力部２４０は、付加的機能としてＣＰＵ２２１のプログラム実行によって入力されたコンテンツにおける音声信号データ中の感情的状態である部分を抽出し、これに基づいて生成した要約コンテンツを出力する機能を有する。さらに、出力部２４０は、前記生成した要約コンテンツをＣＤ、ＤＶＤ等へ記録する機能を含んでいても良い。出力部２４０は、通信機能を有し、外部にデータを送信可能なものでもよい。出力部２４０は、音声信号データに対応する区間の映像信号データを抽出し、要約コンテンツとして必要に応じて音声と共に出力してもよい。

以上のように、本実施形態では、音声特徴量として基本周波数の時間変動特性の系列を含むことで、基本周波数の欠損がある場合でもそれを補完する効果を得ることができ、より安定した判定をすることができる。これは、感情的状態における発話で、基本周波数をしばしば抽出できない、という従来技術の問題に対処したものである。また、保存するものは第１及び第２統計モデルの関数型を表す符号及びそのパラメータの符号のみでよく、使用するメモリ、及び計算時間コストをより小さくできる。
以下に、この本実施形態によって所望の感情的状態を判定、要約コンテンツ生成を行う実施例を示す。

［第１実施例］
第１実施例は、「感情的である」か「感情的でない」か、という２種類の感情的状態を扱い、それぞれを判定する実施例である。第１実施例を以下に説明する。
第１実施例では、学習用音声信号データ中の、「感情的である」と判断される区間に「感情的」とラベル付けを行い、それ以外の区間で、「感情的でない」と判断される区間に「非感情的」とラベル付けを行う。
この学習用音声信号データにおいて、ラベル付けの施された区間に含まれるフレームを全て抽出し、それぞれ抽出した区間に施されたラベルと同じラベルをフレームに付与する。これによって、フレーム単位でラベル付けされた学習用音声信号データを得ることができる。

この学習用音声信号データに基づき、音声特徴量出現確率を計算するための第１統計モデルp^A(x_t|E_t)（例えば、図１１中の具体的な第１統計モデル810A）と感情的状態遷移確率を計算するための第２統計モデルp^B(E_t|E_t-1)（例えば、図１１中の具体的な第２統計モデル810B）を構築し記憶しておく。
第１実施例における感情的状態判定の手順は以下の通りである。
まず、入力されたコンテンツから音声信号データを取り込み、フレーム単位に分割する（ステップ１）。次に、フレーム毎に、音声特徴量ベクトルを抽出する（ステップ２）。そして、予め構築しておいた第１統計モデルを用いて、フレーム毎に「感情的である」確率と、「感情的でない」確率を計算して、「感情的でない」確率と比較して、「感情的である」確率の方が高いフレームを「感情的である」フレームと判定する（ステップ３）。

［第２実施例］
第２実施例は、前記第１実施例で計算した、フレーム毎の「感情的である」感情的状態確率、及び「感情的でない」感情的状態確率を用いて、音声段落を生成し、コンテンツの要約を生成する実施例である。
第２実施例においても第１実施例のステップ１〜ステップ３と同じ処理手順を行う。ステップ３に続いて、発話フレームを自己相関関数値を利用して抽出した後、全てのフレームに対して、音声段落区間とそれ以外の区間の比がある一定の目標値に近づくようにボトムアップクラスタリング法を適用して音声段落を生成する（ステップ４）。

次に、ステップ４で生成した各音声段落について、「感情的である」累積感情度と「感情的でない」累積感情度を計算する（ステップ５）。そして、次の何れかの提示方法を選択し、要約コンテンツを作成し、提示する（ステップ６）。
第１提示方法としては、視聴者が要約時間を入力し、音声段落について、「感情的である」累積感情度の高いものから降順に、入力された要約時間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し提示する。
第２提示方法としては、音声段落について、「感情的である」累積感情度の高いものから降順に、予め定めた要約時間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し提示する。

第３提示方法としては、視聴者が閾値を入力する、もしくは予め閾値を決定しておき、この閾値よりも高い「感情的である」累積感情度を持つ音声段落を抽出し、結合して要約コンテンツを作成し提示する。

第１実施例と同様に、学習用音声信号データ中の、それぞれの感情的状態にあると考えられる区間に対応するラベルを付与する。
この学習用音声信号データからラベル付けの施された区間に含まれるフレームを全て抽出し、それぞれ抽出した区間に施されたラベルと同じラベルをフレームに付与する。これによって、フレーム単位でラベル付けされた学習用音声信号データを得ることができる。この学習用音声信号データに基づき、音声特徴量出現確率を計算する第１統計モデルと、感情的状態遷移確率を計算する第２統計モデルを構築し記憶しておく。

第３実施例における感情的状態判定の手順は以下の通りである。
まず、入力されたコンテンツから音声信号データを取り込み、フレーム単位に分割する（ステップ１）。次に、フレーム毎に、音声特徴量ベクトルを抽出する（ステップ２）。そして、予め構築しておいた第１及び第２統計モデルを用いて、フレーム毎に各感情的状態確率を計算し、最も感情的状態確率の高い感情的状態をそのフレームにおける感情的状態であると判定する（ステップ３）。
［第４実施例］
第４実施例は、前記第３実施例で計算した、フレーム毎の各感情的状態確率を用いて、音声段落を生成し、コンテンツの要約を生成する実施例である。

第４実施例におけるステップ１〜ステップ３までは第３実施例の場合と同様の手順で行う。それ以降は以下のような手順となる。
ステップ３に続いて、発話フレームを自己相関関数値を利用して抽出した後、全てのフレームに対して、音声段落区間とそれ以外の区間の比がある一定の目標値に近づくようにボトムアップクラスタリング法を適用して音声段落を生成する（ステップ４）。次に、ステップ４で生成した各音声段落について、各感情的状態の累積感情度を計算する（ステップ５）。次に、次の何れかの方法を選択し、要約コンテンツを作成し、提示する（ステップ６）。

第１提示方法としては、視聴者が所望の感情的状態、及び要約時間を入力し、音声段落について、入力された感情的状態の累積感情度の高いものから降順に、入力された要約時間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し提示する。
第２提示方法としては、視聴者が所望の感情的状態を入力し、音声段落について、入力された感情的状態の累積感情度の高いものから降順に、予め定めた要約時間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し提示する。
第３提示方法としては、視聴者が入力した感情的状態、及び視聴者が入力した、もしくは予め決定した閾値に基づいて、入力された感情的状態について、この閾値よりも高い累積感情度を持つ音声段落を抽出し、結合して要約コンテンツを作成し提示する。

［第５実施例］
第５実施例は、前記第３実施例で計算した、フレーム毎の各感情的状態確率及び判定された感情的状態を用いて、コンテンツが、視聴者が指定した感情的状態を含むかどうかの判定を行う実施例である。
第５実施例のステップ１からステップ５までは第４実施例の場合と同様の手順で行う。それ以降は以下のような手順となる。
ステップ５に続いて、次の何れかの判定方法を選択しコンテンツの判定を行う。

第１判定方法としては、視聴者が所望の感情的状態及びコンテンツ感情度の閾値を入力し、入力された感情的状態のコンテンツ感情度が、入力された閾値よりも高い場合にはその感情的状態を含むと判定し、結果を出力する。
第２判定方法としては、視聴者が所望の感情的状態を入力し、入力された感情的状態のコンテンツ感情度が予め決定した閾値よりも高い場合にはその感情的状態を含むと判定し、結果を出力する。
更に、第５実施例では、前記第４実施例のステップ６と同様に、判定されたコンテンツについて要約を生成し、提示してもよい。

以上、本発明の実施形態について説明したが、本発明は説明した実施形態に限定されるものでなく、各請求項に記載した範囲において各種の変形を行うことが可能である。
例えば、生成された要約コンテンツを含むＸＭＬ(eXtensible Markup Language)データを生成しても良い。汎用的なＸＭＬデータであれば、要約コンテンツの利用性を高めることができる。

Claims

入力された音声信号データの音声特徴量に基づいて、感情検出処理を行なう感情検出方法であり、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、１つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶する音声特徴量抽出ステップと、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、各フレームに対応する感情的な状態を示すラベルである感情的状態の1つ以上の系列が与えられたときの音声特徴量ベクトルの条件付き出現確率として構成された第１統計モデルに基づいて、１つ以上の分析フレームを含む区間における前記感情的状態の系列を条件としたときに前記音声特徴量ベクトルが出現する確率である音声特徴量出現確率を計算する音声特徴量出現確率計算処理ステップと、
前記１つ以上の分析フレームを含む区間において、前記感情的状態の系列が出現する確率である感情的状態遷移確率を、該区間より少なくとも１分析フレーム以上前の区間の感情的状態の系列を与えられたときの現分析フレームでの感情的状態の系列の条件付き遷移確率として構成された第２統計モデルに基づいて計算する感情的状態遷移確率計算処理ステップと、
前記音声特徴量出現確率と前記感情的状態遷移確率に基づいて、前記音声特徴量ベクトルが与えられたときの感情的状態の条件付き確率である感情的状態確率を計算する感情的状態確率計算処理ステップと、
前記算出された感情的状態確率に基づいて、分析フレームを１つ以上含む各区間の感情的状態に関する情報を出力する情報出力ステップと、
を含む感情検出方法。
入力された音声信号データの音声特徴量に基づいて、感情検出処理を行う感情検出方法であり、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、１つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶する音声特徴量抽出処理ステップと、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、各フレームに対応する感情的な状態を示すラベルである感情的状態の1つ以上の系列が与えられたときの音声特徴量ベクトルの条件付き出現確率として構成された第１統計モデルに基づいて、１つ以上の分析フレームを含む区間における前記感情的状態の系列を条件としたときに前記音声特徴量ベクトルが出現する確率である音声特徴量出現確率を計算する音声特徴量出現確率計算処理ステップと、
前記１つ以上の分析フレームを含む区間において、前記感情的状態の系列が出現する確率である感情的状態遷移確率を、該区間より少なくとも１分析フレーム以上前の区間の感情的状態の系列を与えられたときの現分析フレームでの感情的状態の系列の条件付き遷移確率として構成された第２統計モデルに基づいて計算する感情的状態遷移確率計算処理ステップと、
前記音声特徴量出現確率と前記感情的状態遷移確率に基づいて、前記音声特徴量ベクトルが与えられたときの感情的状態の条件付き確率である感情的状態確率を計算する感情的状態確率計算処理ステップと、
前記感情的状態確率に基づいて、前記分析フレームを含む区間の感情的状態を判定する感情的状態判定ステップと、
を含む感情検出方法。
請求項２記載の感情検出方法において、前記感情的状態判定ステップは、前記感情的状態確率の降順に前記感情的状態を選出し、該選出された感情的状態を前記分析フレームを含む区間の感情的状態であると判定するステップを含む。
請求項２記載の感情検出方法において、前記感情的状態判定ステップは、１つの前記感情的状態である確率と、それ以外の感情的状態である確率の凸結合との差をそれぞれの前記感情的状態について計算し、この差が最も大きいものから降順に１つ以上の感情的状態を選出し、その選出された感情的状態を前記分析フレームを含む区間の感情的状態であると判定するステップを含む。
請求項１乃至４の何れかに記載の感情検出方法であって、更に、分析フレーム毎に音声特徴量ベクトルと、感情的状態のラベルが付加された学習用音声信号データを入力するステップを含む。
請求項１乃至５の何れかに記載の感情検出方法は、更に、分析フレーム毎に発話フレームであるか否か判定し、１つ以上の連続した発話フレーム毎に発話区間を構成し、連続する１つ以上の発話区間毎に音声小段落を構成し、各音声小段落毎にそれに含まれる分析フレームの前記感情的状態確率に基づいて感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号データからコンテンツの要約を抽出するステップを含む。
請求項１乃至５の何れかに記載の感情検出方法は、更に、分析フレーム毎に前記音声信号データから信号の周期性を求め、上記周期性に基づいて１つ以上の連続した分析フレーム毎に区間を構成し、該区間毎に前記感情的状態確率に基づいて感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号データからコンテンツの要約を抽出するステップを含む。
入力された音声信号データの音声特徴量に基づいて、感情検出処理を行なう感情検出装置であり、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、１つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶する音声特徴量抽出手段と、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、各フレームに対応する感情的な状態を示すラベルである感情的状態の1つ以上の系列が与えられたときの音声特徴量ベクトルの条件付き出現確率として構成された第１統計モデルに基づいて、１つ以上の分析フレームを含む区間における前記感情的状態の系列を条件としたときに前記音声特徴量ベクトルが出現する確率である音声特徴量出現確率を計算する音声特徴量出現確率計算処理手段と、
前記１つ以上の分析フレームを含む区間において、前記感情的状態の系列が出現する確率である感情的状態遷移確率を、該区間より少なくとも１分析フレーム以上前の区間の感情的状態の系列を与えられたときの現分析フレームでの感情的状態の系列の条件付き遷移確率として構成された第２統計モデルに基づいて計算する感情的状態遷移確率計算処理手段と、
前記音声特徴量出現確率と前記感情的状態遷移確率とに基づいて、前記音声特徴量ベクトルが与えられたときの感情的状態の条件付き確率である感情的状態確率を計算する感情的状態確率計算処理手段と、
前記算出された感情的状態確率に基づいて、分析フレームを１つ以上含む各区間の感情的状態に関する情報を出力する情報出力手段と、
を含む感情検出装置。
入力された音声信号データの音声特徴量に基づいて、感情検出処理を行う感情検出装置であり、
前記音声信号データから分析フレーム毎に、基本周波数，基本周波数の時間変動特性の系列，パワー，パワーの時間変動特性の系列，発話速度の時間変動特性のうち、１つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶する音声特徴量抽出処理手段と、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、各フレームに対応する感情的な状態を示すラベルである感情的状態の1つ以上の系列が与えられたときの音声特徴量ベクトルの条件付き出現確率として構成された第１統計モデルに基づいて、１つ以上の分析フレームを含む区間における前記感情的状態の系列を条件としたときに前記音声特徴量ベクトルが出現する確率である音声特徴量出現確率を計算する音声特徴量出現確率計算処理手段と、
前記１つ以上の分析フレームを含む区間において、前記感情的状態の系列が出現する確率である感情的状態遷移確率を、該区間より少なくとも１分析フレーム以上前の区間の感情的状態の系列を与えられたときの現分析フレームでの感情的状態の系列の条件付き遷移確率として構成された第２統計モデルに基づいて計算する感情的状態遷移確率計算処理手段と、
前記音声特徴量出現確率と前記感情的状態遷移確率とに基づいて、前記音声特徴量ベクトルが与えられたときの感情的状態の条件付き確率である感情的状態確率を計算する感情的状態確率計算処理手段と、
前記感情的状態確率に基づいて、前記分析フレームを含む区間の感情的状態を判定する感情的状態判定手段と、
を含む感情検出装置。
請求項９記載の感情検出装置において、前記感情的状態判定手段は、前記感情的状態確率の降順に前記感情的状態を選出し、該選出された感情的状態を前記分析フレームを含む区間の感情的状態であると判定する手段を含む。
請求項９記載の感情検出装置において、前記感情的状態判定手段は、１つの前記感情的状態である確率と、それ以外の感情的状態である確率の凸結合との差をそれぞれの前記感情的状態について計算し、この差が最も大きいものから降順に１つ以上の感情的状態を選出し、その選出された感情的状態を前記分析フレームの感情的状態であると判定する手段を含む。
請求項８乃至１１の何れかに記載の感情検出装置は、更に、分析フレーム毎に音声特徴量ベクトルと感情的状態のラベルが付加された学習用音声信号データを入力する手段を含む。
請求項８乃至１２の何れかに記載の感情検出装置は、更に、分析フレーム毎に発話フレームであるか否か判定し、１つ以上の連続した発話フレーム毎に発話区間を構成し、連続する１つ以上の発話区間毎に音声小段落を構成し、各音声小段落毎にそれに含まれる分析フレームの前記感情的状態確率に基づいて感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号データからコンテンツの要約を抽出する手段を含む。
請求項８乃至１２の何れかに記載の感情検出装置は、更に、分析フレーム毎に前記音声信号データから信号の周期性を求め、上記周期性に基づいて１つ以上の連続した分析フレーム毎に区間を構成し、該区間毎に前記感情的状態確率に基づいて感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号データからコンテンツの要約を抽出する手段を含む。
請求項１乃至７の何れか記載の感情検出方法をコンピュータで実施可能なプログラム。
請求項１５記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。