JP4941966B2

JP4941966B2 - 感情の判別方法、感情判別装置、雰囲気情報通信端末

Info

Publication number: JP4941966B2
Application number: JP2006257983A
Authority: JP
Inventors: 一郎山田; 誠志村; 洋介本橋; ジャン・ジャック・ドロネー; 正俊梶村; 文彦竹石
Original assignee: University of Tokyo NUC; GS Yuasa International Ltd
Current assignee: University of Tokyo NUC; GS Yuasa International Ltd
Priority date: 2006-09-22
Filing date: 2006-09-22
Publication date: 2012-05-30
Anticipated expiration: 2026-09-22
Also published as: JP2008076904A

Description

本発明は音声に基づいて人の感情を判別する感情の判別方法、感情判別装置、並びにそれを使用した雰囲気情報通信端末に関する。

従来より、音声に基づいて話者の感情を判別する感情判別装置が提案されている（例えば、特許文献１）。特許文献１の装置では、感情を判別するための感情データベースを予め作成している。そして、マイクロフォンで音声が検出されると、その後、音声の特徴部分を抽出する処理が行われ、これを感情データベースに参照させることで話者の感情判別を行っている。
特開２００２−９１４８２公報

感情データベースというのは、複数人からサンプル音声（音声資料）を得て、それを平均値化して作られる。すなわち、データベースには、怒りの特徴、悲しみの特徴、喜びの特徴等が記憶されているが、これらは、あくまで平均的な傾向を表しているに過ぎない。すなわち、ある基準に対して、声が大きい傾向にあれば怒っているとか、声が高い傾向にあれば悲しんでいるとか、などである。

一方、人の発する音声は、少なからず個体差があり、話者が普通に話したとしても、先の基準から声の傾向がずれていることがある。例えば、元から声が大きい特徴を持っている人などがその一例であり、仮に、この声の大きい特徴を持っている人の音声データを感情データベースに参照させると、怒ってない場合であっても怒っていると誤判定されてしまうことがある。
本発明は上記のような事情に基づいて完成されたものであって、判定率が高く、信頼性ある感情判別装置等を提供することを目的とする。

上記の目的を達成するための手段として、請求項１の発明は、話者の音声を取得する音声取得手段と、取得された音声から特徴を抽出する特徴抽出手段とを備え、得られた特徴を要素とする音声データを、複数人のサンプル音声から作成され各感情のカテゴリの音声データからなる感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて話者の感情のカテゴリを判定する感情判別装置であって、判定された話者の音声データの平均と前記サンプル音声の音声データの平均とに基づいて、話者が元から持つ音声の特徴に応じた補正値として判定対象となる話者の音声データのデータ中心と前記感情データベースのデータ中心との間の距離である中心間距離Ｌを決定し、以降に判定される話者の音声データを前記補正値である中心間距離Ｌにて補正するデータ補正手段を備え、前記補正後の音声データを、前記感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて感情のカテゴリを判定すると共に、判定された話者の音声データを累積的に記憶する記憶手段を備え、前記データ補正手段は、所定時間経過ごとに前記記憶手段から前記音声データを読み出して、判定対象となる話者の音声データの平均を改めて算出し、前記補正値である中心間距離Ｌを更新するところに特徴を有する。
尚、話者が元から持つというのは、話者が生まれつき持つ、或いは日常的に持つという意味である。

請求項２の発明は、請求項１に記載のものにおいて、前記データ補正手段による前記補正処理、並びにこれに続くカテゴリの判定処理が、前記音声取得手段が話者の音声を取得する処理と並行して行われるところに特徴を有する。

請求項３の発明は、話者から取得された音声から特徴を抽出し、得られた特徴を要素とする音声データを、複数人のサンプル音声から作成され各感情のカテゴリの音声データからなる感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて話者の感情のカテゴリを判定する感情の判別方法であって、判定された話者の音声データの平均と前記サンプル音声の音声データの平均とに基づいて、話者が元から持つ音声の特徴に応じた補正値として判定対象となる話者の音声データのデータ中心と前記感情データベースのデータ中心との間の距離である中心間距離Ｌを決定し、以降に判定される話者の音声データを前記補正値である中心間距離Ｌにて補正した上で、前記感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて感情のカテゴリを判定すると共に、判定された話者の音声データを記憶手段に対して累積的に記憶し、所定時間経過ごとに前記記憶手段から前記音声データを読み出して、判定対象となる話者の音声データの平均を改めて算出し、前記補正値である中心間距離Ｌを更新するところに特徴を有する。

請求項４の発明は、互いに離間した室内間をネットワークを通じて通信可能に接続し、室内の雰囲気情報を前記ネットワークを通じて一方側から他方側へ送信して他方側の室内において表示させる雰囲気情報通信システムに用いられる雰囲気情報通信端末であって、請求項１又は請求項２に記載された感情判別装置と、前記感情判別装置で判別された、前記雰囲気情報としての感情情報を前記ネットワークを通じて相手側に送信する送信部と、を有するところに特徴を有する。
尚、ここでいう、雰囲気情報というのは、メディアコミュニケーションで用いる言語や映像などによるメッセージ以外のものであって、室内の環境に関する情報や、人が無意識に発する情報などである。

＜請求項１並びに請求項３の発明＞
請求項１並びに請求項３の発明によれば、話者が元から持つ音声の特徴に応じた補正値で音声データを補正した上で、感情データに参照させている。このような構成であれば、音声の個体差に起因するカテゴリの誤判定を少なく出来るので、判別率が高まる。また、補正値を音声データの平均に基づいて算出している。平均であれば、演算が比較的簡単に出来るので、データ補正手段の処理負担が少なくて済む。

また、請求項１並びに請求項３の発明によれば、所定時間経過するごとに、補正値を更新することとした。このような構成であれば、新しく検出された音声が、データの補正に反映されるから、判定率の向上が期待できる。また、使用状況によっては、話者が途中で変わってしまうことがあるが、本構成であれば、話者の変更にも対応できる。

＜請求項２の発明＞
請求項２の発明によれば、データ補正手段による補正処理、並びにこれに続くカテゴリの判定処理が、音声取得手段が話者の音声を取得する処理と並行して行われるようにした。このような構成であれば、高い判定率を維持しつつ、リアルタイムで感情を判別出来るので、商品性が高まる。

＜請求項４の発明＞
請求項４の発明によれば、雰囲気情報通信システムによって、雰囲気情報を授受させているが、これに感情情報を含ませることとした。感情情報は、相手の様子を最も表す情報のうちの一つであるので、これを、授受させることで、利用者間によるコミニュケーションの増進が期待できる。

本実施形態は、本発明に係る感情判別装置を雰囲気情報通信端末Ｓ１、Ｓ２に搭載したものである。
１．雰囲気情報通信端末の構成
図１は、雰囲気情報通信端末Ｓ１、Ｓ２の分解斜視図である。雰囲気情報通信端末Ｓ１、Ｓ２は端末本体２０と、筒状の外部ケーシング４０とから構成されている。端末本体２０は円盤状をなすベース部２１上にＬＥＤ基板３１を縦向きに固定したものである。係る雰囲気情報通信端末Ｓ１、Ｓ２は、図２に示すように、２つの住居１、２にそれぞれ設置され、ネットワークＮＷを介して通信可能に接続されている。

図３には、端末Ｓ１、Ｓ２の電気的構成が示されている。同図に示すように両端末Ｓ１、Ｓ２は環境センサ５０、人検知センサ６０、記憶部７１、表示部Ｄｓ、並びに制御装置７５などから構成されている。端末Ｓ１、Ｓ２は室内の雰囲気情報として、環境面に関する情報（以下、環境情報）と、人が発する情報（以下、人情報）を検出する構成になっており、環境情報の検出機能を環境センサ５０が担い、人情報の検出機能を人検知センサ６０が担っている。

環境センサ５０は温度センサ５１、照度センサ５５からなる。これら両センサ５１、５５により、室内の温度情報、照度情報（明るさ）が検出される。尚、環境センサ５０の具体的な設置場所は、図１に示す通りであり、ＬＥＤ基板３１の上部において、センサ基板３７上に実装される形で設置されている。

一方、人検知センサ６０は焦電センサ６１、マイクロフォン６５の２つのセンサからなる。焦電センサ６１は焦電効果を利用した赤外線検出器であって、人体から照射される赤外線を検出することで、人の存在情報を検出する。焦電センサ６１は、図１に示すように、ベース部２１の外周面において等間隔で周方向に３個設けられている。

また、マイクロフォン６５は、感情判別装置を構成するものであって、室内において発せられる音声を検出する機能を有する。詳細には後述するが、本実施形態のものは、マイクロフォン６５で検出される音声に基づいて話者の感情のカテゴリを判定するようになっている。

かくして、人検知センサ６０（６１、６５）により、室内の人情報として、人の存在情報、感情情報が検出されるようになっている。

記憶部７１には、端末Ｓ１、Ｓ２の制御、並びに各種センサから出力されたデータの処理に必要とされるプログラムなどが記憶されるとともに、感情のカテゴリを判別するための感情データベースＤＢが設けられている。

制御装置７５は各端末Ｓ１、Ｓ２を制御統括するものであって、所定のタイミング（例えば、数分おき）で相手側の端末Ｓ１、Ｓ２とネットワークＮＷを介して雰囲気情報を授受し、相手側の雰囲気情報を表示させる処理を行う。

図４に示すように、ＬＥＤ基板３１上には、回路基板３５に実装される形でＬＥＤマトリクスＭｔと、上下１０段に亘ってＬＥＤが配置されている。ＬＥＤマトリクスＭｔは人情報の表示に割り当てられ、上下１０段のＬＥＤ１〜ＬＥＤ１０は、環境情報の表示に割り当てられている。これらＬＥＤは、光の強さ、発光色を選択・変更できるようになっている。

これにより、相手側の端末Ｓ１、Ｓ２から、雰囲気情報が送信されてくると、制御装置７５によって、各ＬＥＤの発光状態（光の強さ、発光色など）が制御され、人情報、環境情報が発光表示される（図５参照）。この結果、離れていながら相手側の雰囲気情報を知ることが出来る。尚、外部ケーシング９０はＬＥＤ基板３１と共に表示部Ｄｓを構成しており、ＬＥＤが発光すると内部から照らされて、全体が発光するようになっている。

２．感情判別装置
図６は、感情判別装置の電気的構成を示すブロック図である。
感情判別装置はマイクロフォン６５、Ａ／Ｄ変換器９１、フレームメモリ９３、音声信号解析部１００、感情データベースＤＢ、データ格納部１０１並びに出力回路１０３などから構成されている。

マイクロフォン６５は室内の音声を検出し、これを電気信号（以下、音声信号と呼ぶ）に変換して出力するものである。

Ａ／Ｄ変換器９１は、出力された音声信号をＡ／Ｄ変換し、ディジタル信号にして出力するものである。出力された音声信号はフレーズ(意味をもった、言葉のまとまり)ごとに区切られ、フレームメモリ９３に記憶される。例えば、マイクロフォン６５によって図７に示す波形の音声が検出された場合であれば、Ｄ１とＤ２の２区間に区切られて記憶されることとなる。

尚、フレーズは無音区間が５００ｍｓ程度続いたときに、区切ることが好ましい。

音声信号解析部１００は特徴抽出機能、音声データの生成機能、補正機能、判定機能を備え、図８に示す判定フローに従って、話者の感情を判定するものである。尚、音声信号解析部１００による感情の判定処理は、マイクロフォン６５で音声を検出するのと並行して行われる。係る構成とすることで、リアルタイムで話者の感情を判別出来る。

さて、判定処理が開始されると、まず、ステップ１０でフレームメモリ９３から音声信号を読み出す処理が行われる。音声信号の読み出しはフレーズ単位で行われる。

そして、これ以降の各ステップ２０〜ステップ７０で、音声信号の解析処理がなされ、これに続いて感情のカテゴリを判定する処理が行われるが、これらの処理についても、フレーズを１単位として行われる。

ステップ２０、３０では音声信号の特徴を抽出する処理と、特徴量を算出する処理が行われる。本実施形態のものは、音声信号の特徴として、音の強さ、並びに音のピッチ（基本周波数）を抽出することとしている。

音の強さは１フレーズの全音声信号を対象に、振幅に基づいて算出される。そして、得られた音の強さから、それらの分散値、最大値、文頭値、差分値など合計５個の特徴量が算出される。

尚、本実施形態のものは、これら音の強さに関する特徴量の算出過程において、これらの値を、平均値（１フレーズにおける音の強さの平均値）で除してデータの標準化を図っている。これは、マイクロフォン６５から話者までの距離の違いによって検出される音の強さが異なるなどの、検出誤差を考慮したものである。

次に、ピッチの抽出であるが、本実施形態のものは、これを、下記の（１）式に示す自己相関関数Ｒに基づいて算出している。自己相関関数Ｒは、関数の時間的特性を表すことが知られており、得られた自己相関関数Ｒの値が最小となるｋの数値求めることで、音声のピッチが得られる。

尚、ｎはデータの番号であり、ｋは遅れ時間である。
また、Ｘ（ｎ）は、ｎ番目のデータの数値である。

尚、本実施形態のものは、上記のように、自己相関関数として差分関数を用いている。差分関数であれば、少ない演算量でピッチを算出できるので、音声信号解析部１００による処理負担を軽減できる。

そして、得られたピッチから、それらの平均値、分散値、最大値、最小値、差分値など合計５個の特徴量が算出される。

かくして、１フレーズの音声より１０個の特徴量が得られる。この１０個の特徴量をパラメータとする１０次元のデータを以下、音声データと呼ぶものとする。

ステップ４０〜ステップ６０では、音声データを感情データベースＤＢと照合する処理が行われる。尚、ステップ５０では、音声データの座標値を補正する処理が行われるが、これについては、後に詳しく述べる。

感情データベースＤＢは複数人から取得したサンプル音声（音声資料）を元に作成されたものである。取得されたサンプル音声に対しては、上述したステップ２０、ステップ３０の解析処理と同様の処理を行ってあり、各サンプル音声は１０個の特徴量をパラメータとする音声データとしてデータ化されている。

感情データベースＤＢの構成は、図９に示す通りであり、男女ごとに設けられている。男性／女性の各感情データベースには、「怒り」、「悲しみ」「喜び」のカテゴリに区分して音声データが記憶されている。尚、音声データを感情ごとに区分できるのは、サンプル音声（音声資料）を発してもらう複数人には、予め、感情を含ませた状態で言葉を発してもらっているからである。

本実施形態のものは男女の判定、並びに感情のカテゴリの判定を、いわゆるマハラノビスの距離に基づいて行っている。マハラノビスの距離というのは、カテゴリのデータ中心（一般的に言えば、母集団の重心位置）から判定対象となるデータまでの距離であって、この距離が短いほど判定対象のデータはそのカテゴリの属性に近いというこが出来る。

尚、カテゴリのデータ中心というのは、そのカテゴリが有する特徴量の平均値のことである。具体的に言えば、本実施形態において、１つの音声データは、１０個の特徴量を持っているから、各特徴量について、それぞれカテゴリ内の平均をとった１０次元のデータが、カテゴリのデータ中心である。また、以下の説明において、感情データベースＤＢのデータ中心Ｇｏに対する言及があるが、データ中心Ｇｏとは、各特徴量について、それぞれ感情データベース内の平均をとった１０次元のデータのことである。

そして、ここでは、判定対象となる音声データがステップ４０の処理で男性のものであると判定された、と仮定して判定フローの説明を進める。ステップ４０で男性と判定されると、ステップ６０では男性用の感情データベースＤＢが読み出される。図１０には、男性用の感情データベースＤＢを２次元平面に展開した状態を表してある。

音声データは先にも述べたように、特徴量をパラメータとする１０次元のデータであるが、本実施形態のものは、これに主成分分析を行って全体の持つ情報量を保持しつつデータの次元を下げている。ここでは、理解を容易にするため音声データを２次元まで下げたものが例示してある。

図１１に示す点Ｏ１は「喜び」のカテゴリのデータ中心であり、点Ｏ２は「怒り」のカテゴリのデータ中心であり、点Ｏ３は「悲しみ」のカテゴリのデータ中心は点Ｏ３である。

また、点Ａは判定対象となる音声データの座標である。この例であれば、点Ａは「怒り」のカテゴリのデータ中心Ｏ２に最も近いので、話者の感情は「怒り」であると判定される。

尚、データによっては、中心Ｏ１、Ｏ２、Ｏ３のいずれに対しても近距離でない、或いはほぼ等しい距離にある場合があるが、本実施形態は、このような場合を「平静」と判定している。

かくしてステップ６０で、感情のカテゴリが判定されると、ステップ７０に移行する。ステップ７０では、判定対象となった音声データ、並びに判定結果をデータ格納部１０１にそれぞれ記憶させる処理が行われる。

その後、ステップ８０では、音声検出が開始されてから１分が経過したか、判定が行われる。開始から１分以内であれば、ＮＯ判定され、ステップ１０に移行する。

ステップ１０では、次の音声信号がフレームメモリ９３から読み出される。その後、上記した要領に従ってステップ２０〜ステップ６０の処理が行われ、男女の別、並びに感情のカテゴリが判定される。

そして、ステップ７０で判定対象となった音声データ、並びに判定結果がデータ格納部１０１に記憶される。その後、ステップ８０で判定処理が行われ、音声検出の開始から１分以内であれば、再び、ステップ１０に移行され、次の音声信号が読み出される。

係る処理が繰り返し行われることで、図１２に示すようにデータ格納部１０１に、判定結果、並びに音声データがストックされてゆく。

やがて、音声検出の開始から１分が経過すると、ステップ８０の判定処理を行ったときに、Ｙｅｓ判定されて、ステップ９０に移行される。

ステップ９０では、データ格納部１０１から、それまでの１分間に判定された判定結果が読み出される。読み出された判定結果は、感情のカテゴリごとに判定回数がカウントされる。そして、判定回数の大小により、１分当たりの感情のカテゴリが判定される。

図１３の例であれば、１分間に合計で１５回の判定がなされ、そのうちの９回が「怒り」と判定されている。一方、「悲しみ」、「喜び」の判定回数は、それぞれ「２回」「３回」であり、また、「平静」と判定されたのは１回である。そのため、この場合であれば、「怒り」の判定回数が最も多く、１分間トータルの感情は「怒り」であると判定される。

このように、本実施形態のものは、感情の判定をフレーズ単位で行ってはいるものの、更に、これを所定時間（本例では、１分）ごとに、まとめて判定を行い、これを最終的な判定結果としている。これは、以下の点を考慮したためである。

人の感情表現は一様でなく、ある瞬間の音声については、他のカテゴリの特徴に似通っていることがある。そのため、音声の特徴部分を抽出してある程度正確に判定を行ったとしても、これが誤判定を生じさせ、判定率の低下を招いている。

一方、感情の変化は早くても数分単位で起きることが予想され、それより短い単位で起きることは稀である。すなわち、１分程度の時間であれば、表現が一様でないとしても同じ感情が続く可能性が高く、その間は、同じ判定結果が続く傾向にある。

従って、同じ感情が続くと考えられる期間内であれば、感情を正しく判定できた数が、誤って判定された数を上回るので、これを１つにまとめて判定してやれば、高い確率で正しい判定結果が得られる。

そして、ステップ９０の判定処理が完了すると、処理はステップ１００に移行され、最終的な判定結果が出力回路１０３を通じて出力される。これにより、本実施形態であれば、一方側の端末Ｓ１から他方側の端末Ｓ２、或いは他方側の端末Ｓ２から一方側の端末Ｓ１に感情の判定結果が送信されることとなる。

その後、処理はステップ１１０に移行され、音声信号解析部１００により補正値を算出する処理が行われる。

ステップ１１０では、まず、ストックされた音声データ（判定対象となったデータ）をデータ格納部１０１から読み出す処理が行われる。図１２の例であれば、最初の１分間が経過したところでは、１５の音声データがストックされており、これら全音声データが読み出されることとなる。

そして、読み出された音声データを対象として演算処理、具体的には、データ個々の特徴量の平均値を算出する処理が実行される。これにより、判定対象となった音声データのデータ中心Ｗ１が得られる。

そして、音声データのデータ中心Ｗ１と、感情データベースＤＢのデータ中心Ｇｏと、の間の距離（以下、中心間距離）Ｌが算出され、これが、補正値とされる（図１４参照）。

感情データベースＤＢのデータ中心Ｇｏはデータベースを構成するデータ個々の特徴量の平均であり、人が発する音声の平均データ（ここでは、サンプル音声を提供した複数人の平均データ）ということが出来る。

一方、データ中心Ｗ１は、最初の１分間における音声の平均データである。従って、サンプル数としては少ないものの、中心間距離Ｌは、平均的に人が発する声に対する話者の音声のずれ、すなわち話者が元（生まれつき）から持つ音声の特徴に相当する量であるといえる。

そして、ステップ１１０において補正値（中心間距離Ｌ）が算出されると、ステップ１２０に移行して、時刻Ｔがリセットされる。これにて、第一回目の判定サイクルが終了する。時刻Ｔは１サイクル（すなわち、本例では１分）を計時するものであり、これがリセットされることで、第二回目の判定サイクルが開始されることとなる。

それ以降は、ステップ１０〜ステップ８０までの処理が上述した要領で繰り返し行われる。そして、ステップ１０〜ステップ８０の処理を行う過程で、ステップ６０において判定対象となる音声データの座標値を補正する処理が行われる。

具体的に説明すると、座標値の補正は、音声データの座標値を、データ中心Ｗ１からデータ中心Ｇｏに向かう方向に、補正値（中心間距離Ｌ）の大きさ分だけシフト（移動）させることにより行われる。これにより、音声データの座標が、話者が元から持つ音声の特徴を含んだ位置から、同音声の特徴を取り除いた位置に補正される。

図１５の例であれば、補正前の音声データの座標が点Ｐであったとすると、これが補正処理により、同図に示す矢印方向に中心間距離Ｌだけ座標が移動され、補正後には音声データの座標がＰ'とされる。

そして、この座標Ｐ'に基づいてマハラノビスの距離が算出される結果、この例であれば、感情は「喜び」と判別される。仮に、上述のような補正処理が行われないとすると、話者が元（生まれつき）から持つ音声の特徴を含んだ状態のままマハラノビスの距離が算出される結果、話者が元から持つ音声の特徴が顕著である場合には、誤判定が起きてしまう。この点、本実施形態のように、話者が元から持つ音声の特徴を予め見込んで音声データの座標を補正しておけば、話者が元から持つ音声の特徴の影響を排除した状態でマハラノビスの距離が算出され、正しい判別結果を得ることが可能となる。

尚、２サイクル目が終了するときには、再び、ステップ１１０で補正値（中心間距離Ｌ）を算出する処理が行われ、本実施形態のものは、ここで、補正値を更新している。

すなわち、図１２の例であれば、１サイクル目で１５個、２サイクル目で１４個、合計で２９個の音声データがデータ格納部１０１に記憶されている。そのため、ステップ１３０では、この記憶されたデータを対象として、データ中心Ｗ２が算出される。そして、３サイクル目には、補正値として、感情データベースＤＢのデータ中心Ｇｏと、新たに算出された音声データのデータ中心Ｗ２との間の中心間距離Ｌが、補正値として適用される。

このように、本実施形態のものは、１つの判定サイクルが終了すると、そのサイクルの音声データを取り込んでデータ中心Ｗの算出に反映させている。従って、時間の経過とともに、フィードバックされるデータの量が増える結果、データ中心Ｗが、図１６に示すように、話者の声の真のデータ中心Ｗｏに近づいてゆくこととなり、判定精度（判定率）を一層高めることが可能となる。

補足しておくと、最初の１分間においてトータルの感情は「怒り」であると判定されている。そのため、１サイクル目が終了した時点のデータ中心Ｗ１は「怒り」のカテゴリに近い位置にある筈である。しかし、それ以降についても、判定対象となった音声データを継続的に取り込んでデータ中心Ｗを更新してゆくことで、「怒り」のデータの他にも、「悲しみ」、「喜び」などの特徴をもった話者の音声データが取り込まれ、やがて、データ中心Ｗが話者の発する声の真のデータ中心Ｗｏに近づいてゆくのである。

また、本実施形態のものは、ある一定の音声データが蓄積されたら、それ以降は、古い音声データを消去し、新しいもののみを残すようにしている。例えば、音声の検出が開始されてから、１時間を経過したときには、それ以降に取得された音声データを保存させる処理と並行して、古い音声データを消去し、直近１時間の音声データのみを記憶させている。そして、データ中心Ｗについても、直近１時間の音声データに基づいて算出することとしている。

このようにしているのは、長時間に渡って使用状態が続いていると、途中で話者が入れ替わることもあり、古いデータを使用しない方が、現在いる人の特徴を効果的に、反映出来るからである。

３．本実施形態の効果
以上述べたように、本実施形態のものは、話者が元から持つ音声の特徴を排除する処理を行った上で、感情のカテゴリを判定しているので、感情のカテゴリを正確に判定できる。また、話者が元から持つ音声の特徴を排除する処理は、中心間距離Ｌの算出と、音声データの座標をシフトする処理によって実現されている。中心間距離Ｌの算出、並びに座標のシフトは比較的簡単な処理であり、音声信号解析部１００の処理負担が少ないので高速処理が可能となる。また、本実施形態のものは、音声を検出する処理と、カテゴリを判定する処理を並行して行っているので、リアルタイムで感情の判定をすることが可能で、商品性に優れるものとなっている。

＜他の実施形態＞
本発明は上記記述及び図面によって説明した実施形態に限定されるものではなく、例えば次のような実施形態も本発明の技術的範囲に含まれ、更に、下記以外にも要旨を逸脱しない範囲内で種々変更して実施することができる。

（１）上記実施形態では、音声の特徴として、強さ、ピッチなどを抽出したが、これ以外の要素、例えば、音色（周波数成分の違い）を抽出するものであってもよい。

（２）上記実施形態では、人の属性については男女のみ判別しているが、声紋などによって話者を特定する機能を新たに加え、個人を判別するようにしてもよい。この場合に、音声データのデータ中心Ｗについても、各個人ごとに生成・記憶させておく構成とすることが好ましい。係る構成とすることで、使用中に話者が変わっても、個人のデータ中心Ｗを読み出すなどすることで、話者が元から持つ音声の特徴を効果的に排除できる。

本実施形態に係る雰囲気情報通信端末の分解斜視図雰囲気情報通信端末の使用例を示す図雰囲気情報通信端末の電気的構成を示すブロック図雰囲気情報通信端末の垂直断面図雰囲気情報通信端末の斜視図感情判別装置の電気的構成を示すブロック図音声信号の一例を示す図感情判定処理の流れを示すフローチャート図感情データベースのデータ構成を示す図感情データベースを二次元平面に展開した状態を示す図マハラノビスの距離を示す図データ格納部に、判別結果並びに音声データがストックされた様子を示す図１分間の判定結果を示す図感情データベースのデータ中心に対する、音声データのデータ中心のずれを示す図補正前の音声データと、補正後の音声データの関係を示す図データ中心Ｗが時間の経過とともに、更新される様子を示す図

６５…マイクロフォン（本発明の「音声取得手段」に相当）
９３…フレームメモリ
１００…信号解析部（本発明の「特徴検出手段」、「データ補正手段」に相当）
１０１…データ格納部（本発明の「記憶手段」に相当）
Ｓ１、Ｓ２…雰囲気情報通信端末
ＤＢ…感情データベース（本発明の「感情データ」に相当）

Claims

話者の音声を取得する音声取得手段と、
取得された音声から特徴を抽出する特徴抽出手段とを備え、得られた特徴を要素とする音声データを、複数人のサンプル音声から作成され各感情のカテゴリの音声データからなる感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて話者の感情のカテゴリを判定する感情判別装置であって、
判定された話者の音声データの平均と前記サンプル音声の音声データの平均とに基づいて、話者が元から持つ音声の特徴に応じた補正値として判定対象となる話者の音声データのデータ中心と前記感情データベースのデータ中心との間の距離である中心間距離Ｌを決定し、以降に判定される話者の音声データを前記補正値である中心間距離Ｌにて補正するデータ補正手段を備え、
前記補正後の音声データを、前記感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて感情のカテゴリを判定すると共に、
判定された話者の音声データを累積的に記憶する記憶手段を備え、
前記データ補正手段は、所定時間経過ごとに前記記憶手段から前記音声データを読み出して、判定対象となる話者の音声データの平均を改めて算出し、前記補正値である中心間距離Ｌを更新することを特徴とする感情判別装置。
前記データ補正手段による前記補正処理、並びにこれに続くカテゴリの判定処理が、前記音声取得手段が話者の音声を取得する処理と並行して行われることを特徴とする請求項１に記載の感情判別装置。
話者から取得された音声から特徴を抽出し、得られた特徴を要素とする音声データを、複数人のサンプル音声から作成され各感情のカテゴリの音声データからなる感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて話者の感情のカテゴリを判定する感情の判別方法であって、
判定された話者の音声データの平均と前記サンプル音声の音声データの平均とに基づいて、話者が元から持つ音声の特徴に応じた補正値として判定対象となる話者の音声データのデータ中心と前記感情データベースのデータ中心との間の距離である中心間距離Ｌを決定し、以降に判定される話者の音声データを前記補正値である中心間距離Ｌにて補正した上で、前記感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて感情のカテゴリを判定すると共に、
判定された話者の音声データを記憶手段に対して累積的に記憶し、
所定時間経過ごとに前記記憶手段から前記音声データを読み出して、判定対象となる話者の音声データの平均を改めて算出し、前記補正値である中心間距離Ｌを更新することを特徴とする感情の判別方法。
互いに離間した室内間をネットワークを通じて通信可能に接続し、室内の雰囲気情報を前記ネットワークを通じて一方側から他方側へ送信して他方側の室内において表示させる雰囲気情報通信システムに用いられる雰囲気情報通信端末であって、
請求項１又は請求項２に記載された感情判別装置と、
前記感情判別装置で判別された、前記雰囲気情報としての感情情報を前記ネットワークを通じて相手側に送信する送信部と、を有する雰囲気情報通信端末。