JP2003162294A

JP2003162294A - 感情検出方法及び感情検出装置

Info

Publication number: JP2003162294A
Application number: JP2002293926A
Authority: JP
Inventors: Raquel Tato; タト、ラッケル; Thomas Kemp; ケムプ、トーマス; Krzysztof Marasek; マラセック、クリシトフ
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2001-10-05
Filing date: 2002-10-07
Publication date: 2003-06-06
Also published as: EP1300831B1; EP1300831A1; DE60115653D1; DE60115653T2; US20030069728A1; US7729914B2

Abstract

(57)【要約】【課題】感応検出処理の精度を高め、誤差が発生する
可能性を低減する。【解決手段】所定の入力音声に基づいて、少なくとも
第１の特徴クラスの特徴及び第２の特徴クラスの特徴の
少なくとも一部を評価、導出及び／又は抽出し、特徴か
ら現在の話者の現在の感情状態及び／又は感情状態のパ
ラメータを導出する。第１及び第２の特徴クラスは、覚
醒度及び快度等、基底に存在する感情多様体又は感情空
間の個別の次元又は部分空間に割り当てられる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、感情検出方法及び
感情検出装置に関し、詳しくは、いわゆる部分空間スペ
シャリスト（subspace specialists）を用いて、入力音
声（speech input）から感情を検出する感情検出方法及
び感情検出装置に関する。

【０００２】

【従来の技術】様々なアプリケーションにおいて、例え
ば装置のユーザ等、人間の話者の現在の感情状態を検出
することが望まれる場合がある。これまで、人間の感情
状態を検出する多くの手法が提案されている。これらの
周知の手法の多くは、視覚的情報源、音響的情報源、及
び例えば肌の緊張度、湿度及び体温、血圧、心拍数等で
ある他の物理的情報源等の異なる特徴的情報源を評価す
ることにより感情を検出する。

【０００３】

【発明が解決しようとする課題】ユーザが入力した入力
音声を音響的情報源とする場合、音声が示す感情が異な
る話者間で大きく異なるために、感情の検出は非常に困
難であった。したがって、入力音声を単一の特徴クラス
として評価し、人間の話者の現在の感情状態を検出する
手法は、十分に信頼できるものではなかった。

【０００４】そこで、本発明は、上述の課題に鑑みてな
されたものであり、本発明の目的は、音響的な入力音声
に基づく感情検出方法及び感情検出装置であって、検出
処理において誤差が発生する可能性が極めて低く、且
つ、より正確で高精度な感情検出を行うことができる感
情検出方法及び感情検出装置を提供することである。

【０００５】

【課題を解決するための手段】本発明は、人間の様々な
感情（emotion）及び情動（affect）を多次元空間、特
に２次元空間において表現でき、及び各次元又は両次元
が分類及び認識に関係しているという発見及び仮定に基
づいている。

【０００６】上述の課題を解決するために、本発明に係
る感情検出方法は、所定の入力音声に基づいて、少なく
とも第１の特徴クラスの特徴及び第２の特徴クラスの特
徴の少なくとも一部を評価、導出及び／又は抽出する。
これらの特徴からは、現在の話者の現在の感情状態及び
／又は感情状態のパラメータが導出される。第１及び第
２の特徴クラスは、基底に存在する感情多様体又は感情
空間の個別の次元又は部分空間、特に覚醒度及び快度に
よって特定され、及び／又は基底に存在する感情多様体
又は感情空間の個別の次元又は部分空間、特に覚醒度及
び快度に割り当てられる。

【０００７】すなわち、所定の感情多様体、個別の第１
及び第２の特徴クラスを感情空間又は感情空間の部分空
間の次元により区別し、又は感情空間又は感情空間の部
分空間の次元に割り当てることが本発明の基本的な着想
である。音声から感情を検出する従来の手法と異なり、
本発明は、複数の特徴クラスを用いるのみではなく、こ
れらの特徴クラスを感情多様体又は感情空間の次元によ
り区別し、又はこれらの次元にマッピングすることによ
り、特徴をより精密に記述し、したがって、話者の感情
状態をより精密に検出することができる。この処理は、
各次元について異なる複雑性の度合いに基づいて実行す
ることができる。

【０００８】本発明の好ましい実施例においては、各特
徴クラスについて、感情多様体又は感情空間の各次元又
は部分空間及び／又は次元又は部分空間のグループに対
して、独立した及び／又は個別のスペシャリスト、特に
部分空間スペシャリスト、又は特化された分類器が使用
及び／又は構築される。各分類器は、割り当てられた特
徴クラス及び／又は割り当てられた次元又は部分空間か
ら、現在の話者の現在の感情状態及び／又は感情状態の
パラメータとして、特徴を分類又は取得する。通常、特
徴は、個別の分類器の１つのみに用いられる。さらに、
複数の又は全ての分類器に用いられる特徴もある。ここ
で、所定の分類器用の特徴クラスとは、この所定の分類
器の処理に必要な特徴の完全な集合を指す。

【０００９】さらに、本発明の好ましい実施例において
は、個別に特化された分類器は、既に抽出されている異
なる特徴クラス及び／又は入力音声に直接適用される。
分類器によって評価、導出及び／又は抽出された特徴、
感情及び／又は特徴又は感情のパラメータは、処理結果
の結合による最終的な分類のために、収集及び／又は保
存される。

【００１０】さらに、特に異なる特徴部分空間から評
価、導出及び／又は抽出された特徴、感情及び／又は特
徴又は感情のパラメータは、結合され、特に現在の話者
の現在の感情状態及び／又は感情状態のパラメータを表
すものであってもよい。

【００１１】本発明の好ましい実施例においては、各特
徴クラスに対して個別に特化された分類器及び／又は分
類器の特徴又は出力は、結合、融合又は併合されて包括
的分類器が形成され、特に非直交の部分空間又は分類器
の場合、特に経験的重み付けアルゴリズムにより包括的
分類器が形成される。これにより、基底に存在する感情
状態から、人間の話者の胸中の振舞い及びこれに依存す
る情報を取り扱い、及び考慮することができる。

【００１２】また、特に感情又は感情多様体における覚
醒度及び／又は覚醒の次元等である第１の特徴クラスの
少なくとも一部として、韻律的特徴のクラスを使用して
もよい。

【００１３】これに代えて、又はこれに加えて、特に感
情又は感情多様体における快度及び／又は快楽の次元等
である第２の特徴クラスの少なくとも一部として、音声
又は声の質的特徴のクラスを使用してもよい。

【００１４】さらに、特に韻律的特徴又は韻律的特徴ク
ラス用の分類器として、簡単な単次元分類器を使用して
もよい。

【００１５】これに代えて、又はこれに加えて、音声及
び／又は声の質的特徴又は質的特徴クラス用の分類器と
して、複雑な単次元分類器を使用してもよい。ここで、
単次元分類器又は１次元分類器とは、その出力を混合し
ない分類器を指す。

【００１６】複雑な分類器は、特に、話者依存性を実現
することにより、複数の単一の分類器を備えていてもよ
い。この話者依存性には、話者の年齢や性別等が含まれ
る。

【００１７】さらに、本発明に係る感情検出方法におい
て、異なる分類器は、出力として、固有の感情のみでは
なく、入力される特徴部分空間に応じた快度及び覚醒度
の度合いを含む感情の度合いを出力してもよく、快度及
び覚醒度の度合いは、後に結合され、これに基づいて話
者の現在の感情状態を判定してもよい。

【００１８】韻律的特徴としては、音高、音高範囲、イ
ントネーション傾向（Intonation attitude）、声の大
きさ、発話速度、音の長さ及び／又は音声要素の期間的
特徴（speech element duration features）等を使用し
てもよい。

【００１９】また、音声及び／又は声の質的特徴として
は、調音法、音質的特徴、スペクトル傾斜（spectral t
ilt）、高調波とフォルマントの間の振幅差、フォルマ
ントの帯域幅、ジッタ及び／又は高調波対雑音比を使用
してもよい。

【００２０】さらに、上述の課題を解決するために、本
発明は、上述した感情検出方法を実行又は実現して入力
音声から感情を検出する感情検出装置、感情検出器等を
提供する。

【００２１】さらに、上述の課題を解決するために、本
発明は、コンピュータ又はデジタル信号処理手段により
実行されて、上述の感情検出方法を実行及び／又は実現
するコンピュータプログラムを備えるコンピュータプロ
グラム製品を提供する。

【００２２】以下、本発明のさらなる特徴について説明
する。

【００２３】感情次元を用いて、自動感情認識又は自動
感情検出のための分類器（classifier）を設計するとい
うことが本発明の基本的な着想である。人間の様々な感
情及び情動は、多次元、特に２次元の空間又は多様体
（manifold）によって表現することができる。一方の次
元は、例えば、覚醒度（activation）又は覚醒（arousa
l）である。他方の次元は、快度（evaluation）又は快
楽（pleasure）である。感情多様体又は感情空間におけ
る同一の領域に配置される感情は、音響的に類似する特
徴を有し、したがって、分類することがより困難であ
る。ここで、感情次元と特徴空間の関係に基づく部分空
間スペシャリスト（subspace specialist）及びその手
法を適用することにより、認識率が高め、誤り率を低減
することができる。

【００２４】一般的な周知の分類スキームにおいては、
ニューラルネットワーク、学習ベクトル量子化（learni
ng vector quantization）、線形判別分析（linear dis
criminant analysis）、ＣＡＲＴ（classification and
regression trees）、最近傍識別（nearest neighbou
r）、Ｋ最近傍識別（K-nearest neighbour）等の様々な
異なる分類法が使用されている。しかしながら、現在で
も、音声信号から感情を認識することは、容易ではな
い。多くの分類法は、韻律学的特徴又は韻律的特徴を利
用している。これらの韻律的特徴は、扱いが比較的容易
であるが、これらの特徴からは、いわゆる感情の覚醒度
又は覚醒次元に関する情報のみしか得ることができな
い。

【００２５】一方、本発明では、感情空間における少な
くとも１つの第２の次元を考慮する。特に、本発明で
は、感情空間又は感情多様体における快楽又は快感の次
元を評価する。このような次元は、音声又は声の質的特
徴、すなわち、ソース信号及び声道特性（vocal tract
properties）の変化により生じる音響的特徴に影響され
る。これらの質的特徴は、話者に強く依存している。

【００２６】感情認識又は感情検出のための分類器を設
計する場合、話者が異なると、同じ感情が異なる特徴で
表現され、又は異なる特徴にマッピングされてしまうと
いう問題が生じやすい。感情空間における可能な感情次
元のうちの１つの感情次元のみを変化させる話者もい
る。また、複数の感情次元を変化させる話者について
は、感情に関する共通の範囲を定義することが困難であ
る。

【００２７】感情空間における複数の感情次元、特に上
述の例では２つの感情次元が正確な感情分類に関連し、
これらの感情が異なる複雑性を有する異なる音声的特徴
に関連するとの仮定に基づき、本発明では、両方の概念
を用いて、最適な分類器を設計する。

【００２８】本発明では、複数の感情次元を利用して、
自動感情認識及び自動感情検出のための分類器を設計す
る。さらに、この手法は、感情次元と特徴空間の関連付
けに基づく部分空間スペシャリスト法（subspace speci
alist technique）と組み合わせることができる。な
お、基本的には、本発明に基づき、韻律的特徴及び質的
特徴に割り当てられた各特徴部分空間に異なる分類器を
適用し、異なる分類器による判定結果を組み合わせる処
理でも十分な効果を得ることができる。

【００２９】本発明のさらなる態様においては、以下に
示す２つの手法のいずれか、又はこれらの組み合わせに
よって、上述の基本的な手法をさらに向上させる。
（ａ）２次元概念に基づく感情空間の２つの次元は、そ
れぞれ異なる複雑性の度合いを有する異なる音声の特徴
に関連しているため、問題を分離し、２つの分類法を設
計することは有意義である。これらの２つの分類法は、
感情多様体の部分空間又は感情部分空間に注目し、すな
わち、異なる特徴に注目する。最も処理が難しい場合、
すなわち質的特徴の部分空間については、この部分空間
に対して２以上の分類器を用い、さらに年齢や性別等の
話者へのある種の依存性を分析に含ませてもよい。分類
アルゴリズムは、それぞれの部分空間における処理の
後、部分空間スペシャリストの結果を最終的に併合（me
rge）するようにしてもよい。（ｂ）一方、与えられた
感情における快楽（pleasure）及び覚醒度（activatio
n）の度合いを判定することは比較的容易である。した
がって、この知識に基づいて、一組の候補を用いてこの
ような感情の分類を推定することもできる。この場合、
異なるレベルの覚醒度と快楽のラベルが適切に付された
トレーニングデータベースを使用し、又は感情のラベル
が付されたデータベースを用いて、覚醒度及び快楽の両
次元の固定された座標にこれらの各感情を関連付ける必
要がある。このようなレベルに基づいて分類を行うこと
ができ、また、感情空間の任意の領域から異なる感情へ
のマッピングを行うこともできる。

【００３０】

【発明の実施の形態】以下、本発明に係る感情検出方法
及び感情検出装置について、添付の図面を参照して詳細
に説明する。

【００３１】本明細書においては、説明を簡潔に行うた
めに、個別の感情次元（emotionaldimensions）である
覚醒（arousal）と快感（evaluation）をそれぞれ単に
Ａ、Ｅと表記する。

【００３２】図１は、話者自身の可能な感情状態（emot
ional states）ＣＥＳを反映した抽象的なエンティティ
として与えられる感情空間（emotional space）ＥＳを
示している。すなわち、この感情空間ＥＳ内の各点は、
所定の話者の現在の可能な感情状態ＣＥＳを表す。入力
音声（speech Input）ＳＩを分析し、所定の特徴クラス
の組（set）Ｅ、Ａに基づいて、特徴ｆ１、ｆ２、ｆ３
又は特徴値を抽出することにより、いわゆる特徴空間
（feature space）ＦＳから感情空間ＥＳへのマッピン
グＭが定義される。特徴空間ＦＳ内の各点ＦＣＥＳは、
抽出された特徴ｆ１、ｆ２、ｆ３のパラメータ値又は特
徴値であるｎタプル＜ｆ１，ｆ２，ｆ３＞（n-tuple <f
_１, f_２, f_３>）として表され、したがって、現在の可
能な感情状態のパラメータ表現及び／又は近似値（appr
oximation）である。

【００３３】感情空間ＥＳの横座標及び縦座標には、そ
れぞれ個別の特徴クラスＥ及びＡが割り当てられてお
り、特徴空間ＦＳの各軸には、入力音声ＳＩから抽出す
べき個別の特徴が割り当てられている。個別の特徴パラ
メータの値は、入力音声を分析することにより判定され
る。感情空間ＥＳ内の個別の感情次元の値又は度合い、
すなわち覚醒（arousal）Ａ及び快感（evaluation）Ｅ
の度合いは、個別に割り当てられた分類器（classifier
s）ＣＥ、ＣＡによって判定される。

【００３４】通常、分類器ＣＡ、ＣＥのいずれか一方の
みに必要とされる特徴がある。また、２つの分類器Ｃ
Ｅ、ＣＡの両方に用いられる特徴がある場合もある。単
次元又は１次元分類器の場合、分類器ＣＡ、ＣＥは、そ
れぞれ次元Ａ及び次元Ｅに関して、それぞれの出力を混
合せず、すなわち、分類器ＣＡはＡのみを分類し、分類
器ＣＥはＥのみを分類する。

【００３５】各可能な感情状態ＣＥＳは、特徴空間ＦＳ
における、特定の点ＦＣＥＳのマッピングＭ又はｎタプ
ルパラメータによって得られるイメージであるとみなす
ことができる。感情空間ＥＳの軸、すなわち次元Ｅ、Ａ
は、感情空間ＥＳ内の所定の特徴クラスＥ、Ａに割り当
てられる。これらの次元は、感情状態ＣＥＳのイメージ
のパラメータ表現ＦＣＥＳを定義し、すなわち、現在の
話者の現在の感情状態ＣＥＳを覚醒度（activation/aro
usal）の高低（active/passive）及び快度（evaluation
/pleasure）の高低（negative/positive）によって分類
する。

【００３６】感情空間ＥＳの各次元に関しては、個別の
異なる分類器ＣＡ、ＣＥが適用され、これらの分類器Ｃ
Ａ、ＣＥには、それぞれ対応する特徴クラスＡ、Ｅが入
力され、分類器ＣＡ、ＣＥは、それぞれに割り当てられ
た軸又は次元に対応した感情空間ＥＳ内における点ＣＥ
Ｓの位置を出力する。これにより、覚醒度（activation
/arousal）又は快度（evaluation/pleasure）の次元に
よって、所定の話者の感情状態は、悲しみ（sad）、退
屈（bored）、満足（content）、リラックス（relaxe
d）、喜び（pleased）、幸福（happy）、興奮（excite
d）、怒り（angry）、恐怖（afraid）等に分類される。
これらの各特性（property）は、対応する次元Ａ、Ｅに
関する度合いによって表現されている。

【００３７】図２は、本発明に基づき、入力音声から感
情を検出する処理の手順の具体例を示すフローチャート
である。この検出処理は、まず、導入ステップであるス
テップＳ０から開始され、このステップＳ０において、
予備データ（preliminary data）が準備され、評価され
る。ステップＳ１において、入力音声ＳＩが入力され
る。このステップＳ１は、後に繰り返し実行される。

【００３８】図２に示す処理は、第１の処理セクション
Ｓ１０と第２の処理セクションＳ２０に分割される。第
１の処理セクションＳ１０では、感情空間ＥＳにおける
第１の感情次元である覚醒度（arousal/activation）Ａ
に割り当てられる第１の特徴クラスに関して入力音声Ｓ
Ｉを評価し、第２の処理セクションＳ２０では、感情空
間ＥＳにおける第２の感情次元である快度（evaluation
/pleasure）Ｅに割り当てられる第２の特徴クラスに関
して入力音声ＳＩを評価する。第１及び第２の処理セク
ションＳ１０、Ｓ２０は、実質的に相互に独立した処理
であるため、これらは、順次実行してもよく、平行して
実行してもよい。

【００３９】第１の処理セクション１０のステップＳ１
１において、韻律的特徴（prosodicfeature）のクラス
である第１の特徴クラスＡにおける韻律的特徴又はその
パラメータが、入力された入力音声Ｓ１の分析から生成
及び抽出される。韻律的特徴とは、例えば音高（pitc
h）、音高範囲（pitch range）、音量（loudness）、発
話速度（speaking rate）等であってもよい。

【００４０】次に、処理セクション１０のステップＳ１
２において、上述のようにして生成及び抽出された韻律
的特徴又はそのパラメータから特徴ベクトルが構築さ
れ、これらの特徴ベクトルは、現在の話者の感情を覚醒
度（activation/arousal）の高低（passive/active）に
より分類する第１の特徴クラスＡに基づいて、覚醒度の
部分空間（subspace）にマッピングされる。覚醒度の部
分空間に現在の話者の感情状態ＣＥＳを分類する分類器
ＣＡは、比較的簡単な（comparative low complexity）
な構成であり、この分類器ＣＡは、覚醒度Ａの度合いを
判定する。

【００４１】一方、第２の処理セクションＳ２０のステ
ップＳ２１において、声又は音声の質的特徴（quality
feature）の組に属する第２の特徴クラスＥの特徴が生
成される。これらの質的特徴には、例えばスペクトル傾
斜（spectral tilt）、高調波とフォルマントの間の振
幅差、フォルマントの帯域幅、ジッタ、高調波対雑音比
等が含まれる。

【００４２】ステップＳ２２において、これらの質的特
徴から特徴ベクトルが構築され、これらの特徴ベクトル
は、現在の話者の感情を快度（evaluation/pleasure）
の高低（negative/positive）により分類する第２の特
徴クラスＥに基づいて、快度の部分空間又は次元にマッ
ピングされる。快度の部分空間において話者の感情状態
ＣＥＳを分類する分類器ＣＥは、比較的複雑な構成を有
し、この分類器ＣＥは、快度Ｅの度合いを判定する。分
類器ＣＥが複雑な理由は、実際、複数の分類器（multi-
classifier system）が必要であったり、年齢及び性別
を含む話者に依存した（dependencies）分類器等である
からである。

【００４３】ステップＳ１２及びステップＳ２２におけ
る分類処理から導き出される結果は、ステップＳ３０に
おいて、最後の分類アルゴリズムにおける評価によって
併合（merged）及び融合（fused）される。

【００４４】そして、ステップＳ４０において、現在の
話者の現在の感情状態ＣＥＳがこの処理の結果として検
出及び／又は出力される。

【００４５】部分空間スペシャリスト（subspace speci
alists）の概念は、本質的には、任意の特徴の部分空間
に関して、又は任意の特徴の部分空間において、それぞ
れ特化された（specialized）分類器を使用するという
手法に基づいている。特徴クラスの区別及び感情空間又
はその部分空間の任意の次元に対する特徴クラスの割り
当ては、音声学的及び音韻論的理論、並びに心理学的及
び生理学的研究等に基づいて行うことができる。上述し
た分類器又は分類装置を構築するために、特徴ベクトル
を分類するいかなる手法を用いてもよい。これらの手法
には、例えば、ニューラルネットワーク、サポートベク
トルマシン（support vector machines）、ガウス混合
（Gaussian mixtures）、Ｋ最近傍識別（K-next neighb
ours）等が含まれる。

【００４６】各特徴部分空間に対応する異なる分類器又
はスペシャリストによる処理結果の結合は、最終段の分
類器である第３の分類器により行うことができる。この
第３の分類器には、各次元の度合い又は各次元に対応す
る条件付き感情（conditional emotions）が入力され、
第３の分類器は、分類された感情を出力する。

【００４７】なお、本発明は、上述の実施例に限定され
るものではなく、例えば、上述の感情検出方法をコンピ
ュータプログラムで実現して、コンピュータ又はデジタ
ルシグナルプロセッサ（ＤＳＰ）で実行するようにして
もよい。

【００４８】

【発明の効果】以上のように、本発明に係る感情検出方
法は、所定の入力音声に基づいて、少なくとも第１の特
徴クラスの特徴及び第２の特徴クラスの特徴の少なくと
も一部を評価、導出及び／又は抽出し、特徴から現在の
話者の現在の感情状態及び／又は感情状態のパラメータ
を導出し、第１及び第２の特徴クラスは、覚醒度及び快
度を含む、基底に存在する感情多様体又は感情空間の個
別の次元又は部分空間によって特定され、及び／又は覚
醒度及び快度を含む、基底に存在する感情多様体又は感
情空間の個別の次元又は部分空間に割り当てられる。こ
れにより、検出処理において誤差が発生する可能性が極
めて低く、且つ、より正確で高精度な感情検出を行うこ
とができる

【図面の簡単な説明】

【図１】所定の感情空間と各特徴空間の間の関係を説明
する図である。

【図２】本発明を適用した感情検出処理の手順を示すフ
ローチャートである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者タト、ラッケルドイツ連邦共和国 70327 シュトゥットゥガルトハインリッヒヘルツシュトラーセ１ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドバンスドテクノロジーセンターシュトゥットゥガルト内 (72)発明者ケムプ、トーマスドイツ連邦共和国 70327 シュトゥットゥガルトハインリッヒヘルツシュトラーセ１ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドバンスドテクノロジーセンターシュトゥットゥガルト内 (72)発明者マラセック、クリシトフドイツ連邦共和国 70327 シュトゥットゥガルトハインリッヒヘルツシュトラーセ１ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドバンスドテクノロジーセンターシュトゥットゥガルト内Ｆターム(参考） 5D015 AA06 CC04

Claims

【特許請求の範囲】

【請求項１】入力音声から感情を検出する感情検出方
法において、所定の入力音声（ＳＩ）に基づいて、少なくとも第１の
特徴クラス（Ａ）の特徴及び第２の特徴クラス（Ｅ）の
特徴の少なくとも一部を評価、導出及び／又は抽出する
ステップと、上記特徴から現在の話者の現在の感情状態（ＣＥＳ）及
び／又は感情状態のパラメータ（ＣＦＳ）を導出するス
テップとを有し、上記第１及び第２の特徴クラス（Ａ，Ｅ）は、覚醒度及
び快度を含む、基底に存在する感情多様体（ＥＭ）又は
感情空間（ＥＳ）の個別の次元又は部分空間によって特
定され、及び／又は覚醒度及び快度を含む、基底に存在
する感情多様体（ＥＭ）又は感情空間（ＥＳ）の個別の
次元又は部分空間に割り当てられることを特徴とする感
情検出方法。
【請求項２】上記第１及び第２の特徴クラス（Ａ，
Ｅ）について、上記感情多様体（ＥＭ）又は感情空間
（ＥＳ）の各次元又は部分空間及び／又は次元又は部分
空間のグループに対して、部分空間スペシャリストを含
む独立した及び／又は個別のスペシャリスト又は特化さ
れた分類器（ＣＡ，ＣＥ）が使用及び／又は構築され、
該分類器は、上記割り当てられた第１及び第２の特徴ク
ラス（Ａ，Ｅ）及び／又は割り当てられた次元又は部分
空間から、上記現在の話者の現在の感情状態（ＣＥＳ）
及び／又は該感情状態のパラメータとして、特徴を分類
又は取得することを特徴とする請求項１記載の感情検出
方法。
【請求項３】上記個別に特化された分類器（ＣＡ，Ｃ
Ｅ）は、既に抽出されている異なる上記第１及び第２の
特徴クラス（Ａ，Ｅ）及び／又は入力音声（ＳＩ）に直
接適用され、該分類器（ＣＡ，ＣＥ）によって評価、導
出及び／又は抽出された特徴、感情及び／又は特徴又は
感情のパラメータは、処理結果の結合による最終的な分
類のために、収集及び／又は保存されることを特徴とす
る請求項１又は２記載の感情検出方法。
【請求項４】異なる特徴部分空間から評価、導出及び
／又は抽出された上記特徴、感情及び／又は特徴又は感
情のパラメータは、結合され、上記現在の話者の現在の
感情状態（ＣＥＳ）及び／又は該感情状態のパラメータ
を表すことを特徴とする請求項３記載の感情検出方法。
【請求項５】上記第１及び第２の特徴クラス（Ａ，
Ｅ）に対して個別に特化された分類器（ＣＡ，ＣＥ）及
び／又は該分類器の特徴又は出力は、結合、融合又は併
合されて包括的分類器が形成され、非直交の部分空間又
は分類器の場合、経験的重み付けアルゴリズムにより包
括的分類器が形成されることを特徴とする請求項１乃至
４いずれか１項記載の感情検出方法。
【請求項６】上記感情又は感情多様体（ＥＭ）におけ
る覚醒度及び／又は覚醒の次元を含む上記第１の特徴ク
ラス（Ａ）の少なくとも一部として、韻律的特徴のクラ
スが用いられることを特徴とする請求項１乃至５いずれ
か１項記載の感情検出方法。
【請求項７】上記感情又は感情多様体（ＥＭ）におけ
る快度及び／又は快楽の次元を含む上記第２の特徴クラ
ス（Ｅ）の少なくとも一部として、音声又は声の質的特
徴のクラスが用いられることを特徴とする請求項１乃至
６いずれか１項記載の感情検出方法。
【請求項８】上記韻律的特徴用の分類器として、簡単
な単次元分類器（ＣＡ）が用いられることを特徴とする
請求項２乃至７いずれか１項記載の感情検出方法。
【請求項９】上記音声及び／又は声の質的特徴用の分
類器として、複雑な単次元分類器（ＣＥ）が用いられる
ことを特徴とする請求項２乃至７いずれか１項記載の感
情検出方法。
【請求項１０】上記複雑な分類器（ＣＥ）は、年齢及
び性別を含む話者依存性に対応する複数の分類器を含む
ことを特徴とする請求項９記載の感情検出方法。
【請求項１１】上記異なる分類器は、出力として、固
有の感情のみではなく、入力される特徴部分空間に応じ
た快度及び覚醒度の度合いを含む感情の度合いを出力
し、該快度及び覚醒度の度合いは、後に結合され、これ
に基づいて上記話者の現在の感情状態（ＣＥＳ）が判定
されることを特徴とする請求項８乃至１０いずれか１項
記載の感情検出方法。
【請求項１２】上記韻律的特徴として、音高、音高範
囲、イントネーション傾向、声の大きさ、発話速度、音
の長さ及び／又は音声要素の期間的特徴が用いられるこ
とを特徴とする請求項１乃至１１いずれか１項記載の感
情検出方法。
【請求項１３】上記音声及び／又は声の質的特徴とし
て、調音法、音質的特徴、スペクトル傾斜、高調波とフ
ォルマントの間の振幅差、フォルマントの帯域幅、ジッ
タ及び／又は高調波対雑音比が用いられることを特徴と
する請求項１乃至１２記載の感情検出方法。
【請求項１４】請求項１乃至１３いずれか１項記載の
感情検出方法を実行及び／又は実現することにより、入
力音声から感情を検出する感情検出装置。
【請求項１５】コンピュータ又はデジタル信号処理手
段により実行されて、請求項１乃至１３いずれか１項記
載の感情検出方法を実行及び／又は実現するコンピュー
タプログラムを備えるコンピュータプログラム製品。