JP4941966B2 - 感情の判別方法、感情判別装置、雰囲気情報通信端末 - Google Patents

感情の判別方法、感情判別装置、雰囲気情報通信端末 Download PDF

Info

Publication number
JP4941966B2
JP4941966B2 JP2006257983A JP2006257983A JP4941966B2 JP 4941966 B2 JP4941966 B2 JP 4941966B2 JP 2006257983 A JP2006257983 A JP 2006257983A JP 2006257983 A JP2006257983 A JP 2006257983A JP 4941966 B2 JP4941966 B2 JP 4941966B2
Authority
JP
Japan
Prior art keywords
data
emotion
speaker
voice
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006257983A
Other languages
English (en)
Other versions
JP2008076904A (ja
Inventor
一郎 山田
誠 志村
洋介 本橋
ジャン・ジャック・ドロネー
正俊 梶村
文彦 竹石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
GS Yuasa International Ltd
Original Assignee
University of Tokyo NUC
GS Yuasa International Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC, GS Yuasa International Ltd filed Critical University of Tokyo NUC
Priority to JP2006257983A priority Critical patent/JP4941966B2/ja
Publication of JP2008076904A publication Critical patent/JP2008076904A/ja
Application granted granted Critical
Publication of JP4941966B2 publication Critical patent/JP4941966B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は音声に基づいて人の感情を判別する感情の判別方法、感情判別装置、並びにそれを使用した雰囲気情報通信端末に関する。
従来より、音声に基づいて話者の感情を判別する感情判別装置が提案されている(例えば、特許文献1)。特許文献1の装置では、感情を判別するための感情データベースを予め作成している。そして、マイクロフォンで音声が検出されると、その後、音声の特徴部分を抽出する処理が行われ、これを感情データベースに参照させることで話者の感情判別を行っている。
特開2002−91482公報
感情データベースというのは、複数人からサンプル音声(音声資料)を得て、それを平均値化して作られる。すなわち、データベースには、怒りの特徴、悲しみの特徴、喜びの特徴等が記憶されているが、これらは、あくまで平均的な傾向を表しているに過ぎない。すなわち、ある基準に対して、声が大きい傾向にあれば怒っているとか、声が高い傾向にあれば悲しんでいるとか、などである。
一方、人の発する音声は、少なからず個体差があり、話者が普通に話したとしても、先の基準から声の傾向がずれていることがある。例えば、元から声が大きい特徴を持っている人などがその一例であり、仮に、この声の大きい特徴を持っている人の音声データを感情データベースに参照させると、怒ってない場合であっても怒っていると誤判定されてしまうことがある。
本発明は上記のような事情に基づいて完成されたものであって、判定率が高く、信頼性ある感情判別装置等を提供することを目的とする。
上記の目的を達成するための手段として、請求項1の発明は、話者の音声を取得する音声取得手段と、取得された音声から特徴を抽出する特徴抽出手段とを備え、得られた特徴を要素とする音声データを、複数人のサンプル音声から作成され各感情のカテゴリの音声データからなる感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて話者の感情のカテゴリを判定する感情判別装置であって、判定された話者の音声データの平均と前記サンプル音声の音声データの平均とに基づいて、話者が元から持つ音声の特徴に応じた補正値として判定対象となる話者の音声データのデータ中心と前記感情データベースのデータ中心との間の距離である中心間距離Lを決定し、以降に判定される話者の音声データを前記補正値である中心間距離Lにて補正するデータ補正手段を備え、前記補正後の音声データを、前記感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて感情のカテゴリを判定すると共に、判定された話者の音声データを累積的に記憶する記憶手段を備え、前記データ補正手段は、所定時間経過ごとに前記記憶手段から前記音声データを読み出して、判定対象となる話者の音声データの平均を改めて算出し、前記補正値である中心間距離Lを更新するところに特徴を有する。
尚、話者が元から持つというのは、話者が生まれつき持つ、或いは日常的に持つという意味である。
請求項2の発明は、請求項1に記載のものにおいて、前記データ補正手段による前記補正処理、並びにこれに続くカテゴリの判定処理が、前記音声取得手段が話者の音声を取得する処理と並行して行われるところに特徴を有する。
請求項3の発明は、話者から取得された音声から特徴を抽出し、得られた特徴を要素とする音声データを、複数人のサンプル音声から作成され各感情のカテゴリの音声データからなる感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて話者の感情のカテゴリを判定する感情の判別方法であって、判定された話者の音声データの平均と前記サンプル音声の音声データの平均とに基づいて、話者が元から持つ音声の特徴に応じた補正値として判定対象となる話者の音声データのデータ中心と前記感情データベースのデータ中心との間の距離である中心間距離Lを決定し、以降に判定される話者の音声データを前記補正値である中心間距離Lにて補正した上で、前記感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて感情のカテゴリを判定すると共に、判定された話者の音声データを記憶手段に対して累積的に記憶し、所定時間経過ごとに前記記憶手段から前記音声データを読み出して、判定対象となる話者の音声データの平均を改めて算出し、前記補正値である中心間距離Lを更新するところに特徴を有する。
請求項4の発明は、互いに離間した室内間をネットワークを通じて通信可能に接続し、室内の雰囲気情報を前記ネットワークを通じて一方側から他方側へ送信して他方側の室内において表示させる雰囲気情報通信システムに用いられる雰囲気情報通信端末であって、請求項1又は請求項2に記載された感情判別装置と、前記感情判別装置で判別された、前記雰囲気情報としての感情情報を前記ネットワークを通じて相手側に送信する送信部と、を有するところに特徴を有する。
尚、ここでいう、雰囲気情報というのは、メディアコミュニケーションで用いる言語や映像などによるメッセージ以外のものであって、室内の環境に関する情報や、人が無意識に発する情報などである。
<請求項1並びに請求項3の発明>
請求項1並びに請求項3の発明によれば、話者が元から持つ音声の特徴に応じた補正値で音声データを補正した上で、感情データに参照させている。このような構成であれば、音声の個体差に起因するカテゴリの誤判定を少なく出来るので、判別率が高まる。また、補正値を音声データの平均に基づいて算出している。平均であれば、演算が比較的簡単に出来るので、データ補正手段の処理負担が少なくて済む。
また、請求項1並びに請求項3の発明によれば、所定時間経過するごとに、補正値を更新することとした。このような構成であれば、新しく検出された音声が、データの補正に反映されるから、判定率の向上が期待できる。また、使用状況によっては、話者が途中で変わってしまうことがあるが、本構成であれば、話者の変更にも対応できる。
請求項2の発明>
請求項2の発明によれば、データ補正手段による補正処理、並びにこれに続くカテゴリの判定処理が、音声取得手段が話者の音声を取得する処理と並行して行われるようにした。このような構成であれば、高い判定率を維持しつつ、リアルタイムで感情を判別出来るので、商品性が高まる。
請求項4の発明>
請求項4の発明によれば、雰囲気情報通信システムによって、雰囲気情報を授受させているが、これに感情情報を含ませることとした。感情情報は、相手の様子を最も表す情報のうちの一つであるので、これを、授受させることで、利用者間によるコミニュケーションの増進が期待できる。
本実施形態は、本発明に係る感情判別装置を雰囲気情報通信端末S1、S2に搭載したものである。
1.雰囲気情報通信端末の構成
図1は、雰囲気情報通信端末S1、S2の分解斜視図である。雰囲気情報通信端末S1、S2は端末本体20と、筒状の外部ケーシング40とから構成されている。端末本体20は円盤状をなすベース部21上にLED基板31を縦向きに固定したものである。係る雰囲気情報通信端末S1、S2は、図2に示すように、2つの住居1、2にそれぞれ設置され、ネットワークNWを介して通信可能に接続されている。
図3には、端末S1、S2の電気的構成が示されている。同図に示すように両端末S1、S2は環境センサ50、人検知センサ60、記憶部71、表示部Ds、並びに制御装置75などから構成されている。端末S1、S2は室内の雰囲気情報として、環境面に関する情報(以下、環境情報)と、人が発する情報(以下、人情報)を検出する構成になっており、環境情報の検出機能を環境センサ50が担い、人情報の検出機能を人検知センサ60が担っている。
環境センサ50は温度センサ51、照度センサ55からなる。これら両センサ51、55により、室内の温度情報、照度情報(明るさ)が検出される。尚、環境センサ50の具体的な設置場所は、図1に示す通りであり、LED基板31の上部において、センサ基板37上に実装される形で設置されている。
一方、人検知センサ60は焦電センサ61、マイクロフォン65の2つのセンサからなる。焦電センサ61は焦電効果を利用した赤外線検出器であって、人体から照射される赤外線を検出することで、人の存在情報を検出する。焦電センサ61は、図1に示すように、ベース部21の外周面において等間隔で周方向に3個設けられている。
また、マイクロフォン65は、感情判別装置を構成するものであって、室内において発せられる音声を検出する機能を有する。詳細には後述するが、本実施形態のものは、マイクロフォン65で検出される音声に基づいて話者の感情のカテゴリを判定するようになっている。
かくして、人検知センサ60(61、65)により、室内の人情報として、人の存在情報、感情情報が検出されるようになっている。
記憶部71には、端末S1、S2の制御、並びに各種センサから出力されたデータの処理に必要とされるプログラムなどが記憶されるとともに、感情のカテゴリを判別するための感情データベースDBが設けられている。
制御装置75は各端末S1、S2を制御統括するものであって、所定のタイミング(例えば、数分おき)で相手側の端末S1、S2とネットワークNWを介して雰囲気情報を授受し、相手側の雰囲気情報を表示させる処理を行う。
図4に示すように、LED基板31上には、回路基板35に実装される形でLEDマトリクスMtと、上下10段に亘ってLEDが配置されている。LEDマトリクスMtは人情報の表示に割り当てられ、上下10段のLED1〜LED10は、環境情報の表示に割り当てられている。これらLEDは、光の強さ、発光色を選択・変更できるようになっている。
これにより、相手側の端末S1、S2から、雰囲気情報が送信されてくると、制御装置75によって、各LEDの発光状態(光の強さ、発光色など)が制御され、人情報、環境情報が発光表示される(図5参照)。この結果、離れていながら相手側の雰囲気情報を知ることが出来る。尚、外部ケーシング90はLED基板31と共に表示部Dsを構成しており、LEDが発光すると内部から照らされて、全体が発光するようになっている。
2.感情判別装置
図6は、感情判別装置の電気的構成を示すブロック図である。
感情判別装置はマイクロフォン65、A/D変換器91、フレームメモリ93、音声信号解析部100、感情データベースDB、データ格納部101並びに出力回路103などから構成されている。
マイクロフォン65は室内の音声を検出し、これを電気信号(以下、音声信号と呼ぶ)に変換して出力するものである。
A/D変換器91は、出力された音声信号をA/D変換し、ディジタル信号にして出力するものである。出力された音声信号はフレーズ(意味をもった、言葉のまとまり)ごとに区切られ、フレームメモリ93に記憶される。例えば、マイクロフォン65によって図7に示す波形の音声が検出された場合であれば、D1とD2の2区間に区切られて記憶されることとなる。
尚、フレーズは無音区間が500ms程度続いたときに、区切ることが好ましい。
音声信号解析部100は特徴抽出機能、音声データの生成機能、補正機能、判定機能を備え、図8に示す判定フローに従って、話者の感情を判定するものである。尚、音声信号解析部100による感情の判定処理は、マイクロフォン65で音声を検出するのと並行して行われる。係る構成とすることで、リアルタイムで話者の感情を判別出来る。
さて、判定処理が開始されると、まず、ステップ10でフレームメモリ93から音声信号を読み出す処理が行われる。音声信号の読み出しはフレーズ単位で行われる。
そして、これ以降の各ステップ20〜ステップ70で、音声信号の解析処理がなされ、これに続いて感情のカテゴリを判定する処理が行われるが、これらの処理についても、フレーズを1単位として行われる。
ステップ20、30では音声信号の特徴を抽出する処理と、特徴量を算出する処理が行われる。本実施形態のものは、音声信号の特徴として、音の強さ、並びに音のピッチ(基本周波数)を抽出することとしている。
音の強さは1フレーズの全音声信号を対象に、振幅に基づいて算出される。そして、得られた音の強さから、それらの分散値、最大値、文頭値、差分値など合計5個の特徴量が算出される。
尚、本実施形態のものは、これら音の強さに関する特徴量の算出過程において、これらの値を、平均値(1フレーズにおける音の強さの平均値)で除してデータの標準化を図っている。これは、マイクロフォン65から話者までの距離の違いによって検出される音の強さが異なるなどの、検出誤差を考慮したものである。
次に、ピッチの抽出であるが、本実施形態のものは、これを、下記の(1)式に示す自己相関関数Rに基づいて算出している。自己相関関数Rは、関数の時間的特性を表すことが知られており、得られた自己相関関数Rの値が最小となるkの数値求めることで、音声のピッチが得られる。
Figure 0004941966
尚、nはデータの番号であり、kは遅れ時間である。
また、X(n)は、n番目のデータの数値である。
尚、本実施形態のものは、上記のように、自己相関関数として差分関数を用いている。差分関数であれば、少ない演算量でピッチを算出できるので、音声信号解析部100による処理負担を軽減できる。
そして、得られたピッチから、それらの平均値、分散値、最大値、最小値、差分値など合計5個の特徴量が算出される。
かくして、1フレーズの音声より10個の特徴量が得られる。この10個の特徴量をパラメータとする10次元のデータを以下、音声データと呼ぶものとする。
ステップ40〜ステップ60では、音声データを感情データベースDBと照合する処理が行われる。尚、ステップ50では、音声データの座標値を補正する処理が行われるが、これについては、後に詳しく述べる。
感情データベースDBは複数人から取得したサンプル音声(音声資料)を元に作成されたものである。取得されたサンプル音声に対しては、上述したステップ20、ステップ30の解析処理と同様の処理を行ってあり、各サンプル音声は10個の特徴量をパラメータとする音声データとしてデータ化されている。
感情データベースDBの構成は、図9に示す通りであり、男女ごとに設けられている。男性/女性の各感情データベースには、「怒り」、「悲しみ」「喜び」のカテゴリに区分して音声データが記憶されている。尚、音声データを感情ごとに区分できるのは、サンプル音声(音声資料)を発してもらう複数人には、予め、感情を含ませた状態で言葉を発してもらっているからである。
本実施形態のものは男女の判定、並びに感情のカテゴリの判定を、いわゆるマハラノビスの距離に基づいて行っている。マハラノビスの距離というのは、カテゴリのデータ中心(一般的に言えば、母集団の重心位置)から判定対象となるデータまでの距離であって、この距離が短いほど判定対象のデータはそのカテゴリの属性に近いというこが出来る。
尚、カテゴリのデータ中心というのは、そのカテゴリが有する特徴量の平均値のことである。具体的に言えば、本実施形態において、1つの音声データは、10個の特徴量を持っているから、各特徴量について、それぞれカテゴリ内の平均をとった10次元のデータが、カテゴリのデータ中心である。また、以下の説明において、感情データベースDBのデータ中心Goに対する言及があるが、データ中心Goとは、各特徴量について、それぞれ感情データベース内の平均をとった10次元のデータのことである。
そして、ここでは、判定対象となる音声データがステップ40の処理で男性のものであると判定された、と仮定して判定フローの説明を進める。ステップ40で男性と判定されると、ステップ60では男性用の感情データベースDBが読み出される。図10には、男性用の感情データベースDBを2次元平面に展開した状態を表してある。
音声データは先にも述べたように、特徴量をパラメータとする10次元のデータであるが、本実施形態のものは、これに主成分分析を行って全体の持つ情報量を保持しつつデータの次元を下げている。ここでは、理解を容易にするため音声データを2次元まで下げたものが例示してある。
図11に示す点O1は「喜び」のカテゴリのデータ中心であり、点O2は「怒り」のカテゴリのデータ中心であり、点O3は「悲しみ」のカテゴリのデータ中心は点O3である。
また、点Aは判定対象となる音声データの座標である。この例であれば、点Aは「怒り」のカテゴリのデータ中心O2に最も近いので、話者の感情は「怒り」であると判定される。
尚、データによっては、中心O1、O2、O3のいずれに対しても近距離でない、或いはほぼ等しい距離にある場合があるが、本実施形態は、このような場合を「平静」と判定している。
かくしてステップ60で、感情のカテゴリが判定されると、ステップ70に移行する。ステップ70では、判定対象となった音声データ、並びに判定結果をデータ格納部101にそれぞれ記憶させる処理が行われる。
その後、ステップ80では、音声検出が開始されてから1分が経過したか、判定が行われる。開始から1分以内であれば、NO判定され、ステップ10に移行する。
ステップ10では、次の音声信号がフレームメモリ93から読み出される。その後、上記した要領に従ってステップ20〜ステップ60の処理が行われ、男女の別、並びに感情のカテゴリが判定される。
そして、ステップ70で判定対象となった音声データ、並びに判定結果がデータ格納部101に記憶される。その後、ステップ80で判定処理が行われ、音声検出の開始から1分以内であれば、再び、ステップ10に移行され、次の音声信号が読み出される。
係る処理が繰り返し行われることで、図12に示すようにデータ格納部101に、判定結果、並びに音声データがストックされてゆく。
やがて、音声検出の開始から1分が経過すると、ステップ80の判定処理を行ったときに、Yes判定されて、ステップ90に移行される。
ステップ90では、データ格納部101から、それまでの1分間に判定された判定結果が読み出される。読み出された判定結果は、感情のカテゴリごとに判定回数がカウントされる。そして、判定回数の大小により、1分当たりの感情のカテゴリが判定される。
図13の例であれば、1分間に合計で15回の判定がなされ、そのうちの9回が「怒り」と判定されている。一方、「悲しみ」、「喜び」の判定回数は、それぞれ「2回」「3回」であり、また、「平静」と判定されたのは1回である。そのため、この場合であれば、「怒り」の判定回数が最も多く、1分間トータルの感情は「怒り」であると判定される。
このように、本実施形態のものは、感情の判定をフレーズ単位で行ってはいるものの、更に、これを所定時間(本例では、1分)ごとに、まとめて判定を行い、これを最終的な判定結果としている。これは、以下の点を考慮したためである。
人の感情表現は一様でなく、ある瞬間の音声については、他のカテゴリの特徴に似通っていることがある。そのため、音声の特徴部分を抽出してある程度正確に判定を行ったとしても、これが誤判定を生じさせ、判定率の低下を招いている。
一方、感情の変化は早くても数分単位で起きることが予想され、それより短い単位で起きることは稀である。すなわち、1分程度の時間であれば、表現が一様でないとしても同じ感情が続く可能性が高く、その間は、同じ判定結果が続く傾向にある。
従って、同じ感情が続くと考えられる期間内であれば、感情を正しく判定できた数が、誤って判定された数を上回るので、これを1つにまとめて判定してやれば、高い確率で正しい判定結果が得られる。
そして、ステップ90の判定処理が完了すると、処理はステップ100に移行され、最終的な判定結果が出力回路103を通じて出力される。これにより、本実施形態であれば、一方側の端末S1から他方側の端末S2、或いは他方側の端末S2から一方側の端末S1に感情の判定結果が送信されることとなる。
その後、処理はステップ110に移行され、音声信号解析部100により補正値を算出する処理が行われる。
ステップ110では、まず、ストックされた音声データ(判定対象となったデータ)をデータ格納部101から読み出す処理が行われる。図12の例であれば、最初の1分間が経過したところでは、15の音声データがストックされており、これら全音声データが読み出されることとなる。
そして、読み出された音声データを対象として演算処理、具体的には、データ個々の特徴量の平均値を算出する処理が実行される。これにより、判定対象となった音声データのデータ中心W1が得られる。
そして、音声データのデータ中心W1と、感情データベースDBのデータ中心Goと、の間の距離(以下、中心間距離)Lが算出され、これが、補正値とされる(図14参照)。
感情データベースDBのデータ中心Goはデータベースを構成するデータ個々の特徴量の平均であり、人が発する音声の平均データ(ここでは、サンプル音声を提供した複数人の平均データ)ということが出来る。
一方、データ中心W1は、最初の1分間における音声の平均データである。従って、サンプル数としては少ないものの、中心間距離Lは、平均的に人が発する声に対する話者の音声のずれ、すなわち話者が元(生まれつき)から持つ音声の特徴に相当する量であるといえる。
そして、ステップ110において補正値(中心間距離L)が算出されると、ステップ120に移行して、時刻Tがリセットされる。これにて、第一回目の判定サイクルが終了する。時刻Tは1サイクル(すなわち、本例では1分)を計時するものであり、これがリセットされることで、第二回目の判定サイクルが開始されることとなる。
それ以降は、ステップ10〜ステップ80までの処理が上述した要領で繰り返し行われる。そして、ステップ10〜ステップ80の処理を行う過程で、ステップ60において判定対象となる音声データの座標値を補正する処理が行われる。
具体的に説明すると、座標値の補正は、音声データの座標値を、データ中心W1からデータ中心Goに向かう方向に、補正値(中心間距離L)の大きさ分だけシフト(移動)させることにより行われる。これにより、音声データの座標が、話者が元から持つ音声の特徴を含んだ位置から、同音声の特徴を取り除いた位置に補正される。
図15の例であれば、補正前の音声データの座標が点Pであったとすると、これが補正処理により、同図に示す矢印方向に中心間距離Lだけ座標が移動され、補正後には音声データの座標がP'とされる。
そして、この座標P'に基づいてマハラノビスの距離が算出される結果、この例であれば、感情は「喜び」と判別される。仮に、上述のような補正処理が行われないとすると、話者が元(生まれつき)から持つ音声の特徴を含んだ状態のままマハラノビスの距離が算出される結果、話者が元から持つ音声の特徴が顕著である場合には、誤判定が起きてしまう。この点、本実施形態のように、話者が元から持つ音声の特徴を予め見込んで音声データの座標を補正しておけば、話者が元から持つ音声の特徴の影響を排除した状態でマハラノビスの距離が算出され、正しい判別結果を得ることが可能となる。
尚、2サイクル目が終了するときには、再び、ステップ110で補正値(中心間距離L)を算出する処理が行われ、本実施形態のものは、ここで、補正値を更新している。
すなわち、図12の例であれば、1サイクル目で15個、2サイクル目で14個、合計で29個の音声データがデータ格納部101に記憶されている。そのため、ステップ130では、この記憶されたデータを対象として、データ中心W2が算出される。そして、3サイクル目には、補正値として、感情データベースDBのデータ中心Goと、新たに算出された音声データのデータ中心W2との間の中心間距離Lが、補正値として適用される。
このように、本実施形態のものは、1つの判定サイクルが終了すると、そのサイクルの音声データを取り込んでデータ中心Wの算出に反映させている。従って、時間の経過とともに、フィードバックされるデータの量が増える結果、データ中心Wが、図16に示すように、話者の声の真のデータ中心Woに近づいてゆくこととなり、判定精度(判定率)を一層高めることが可能となる。
補足しておくと、最初の1分間においてトータルの感情は「怒り」であると判定されている。そのため、1サイクル目が終了した時点のデータ中心W1は「怒り」のカテゴリに近い位置にある筈である。しかし、それ以降についても、判定対象となった音声データを継続的に取り込んでデータ中心Wを更新してゆくことで、「怒り」のデータの他にも、「悲しみ」、「喜び」などの特徴をもった話者の音声データが取り込まれ、やがて、データ中心Wが話者の発する声の真のデータ中心Woに近づいてゆくのである。
また、本実施形態のものは、ある一定の音声データが蓄積されたら、それ以降は、古い音声データを消去し、新しいもののみを残すようにしている。例えば、音声の検出が開始されてから、1時間を経過したときには、それ以降に取得された音声データを保存させる処理と並行して、古い音声データを消去し、直近1時間の音声データのみを記憶させている。そして、データ中心Wについても、直近1時間の音声データに基づいて算出することとしている。
このようにしているのは、長時間に渡って使用状態が続いていると、途中で話者が入れ替わることもあり、古いデータを使用しない方が、現在いる人の特徴を効果的に、反映出来るからである。
3.本実施形態の効果
以上述べたように、本実施形態のものは、話者が元から持つ音声の特徴を排除する処理を行った上で、感情のカテゴリを判定しているので、感情のカテゴリを正確に判定できる。また、話者が元から持つ音声の特徴を排除する処理は、中心間距離Lの算出と、音声データの座標をシフトする処理によって実現されている。中心間距離Lの算出、並びに座標のシフトは比較的簡単な処理であり、音声信号解析部100の処理負担が少ないので高速処理が可能となる。また、本実施形態のものは、音声を検出する処理と、カテゴリを判定する処理を並行して行っているので、リアルタイムで感情の判定をすることが可能で、商品性に優れるものとなっている。
<他の実施形態>
本発明は上記記述及び図面によって説明した実施形態に限定されるものではなく、例えば次のような実施形態も本発明の技術的範囲に含まれ、更に、下記以外にも要旨を逸脱しない範囲内で種々変更して実施することができる。
(1)上記実施形態では、音声の特徴として、強さ、ピッチなどを抽出したが、これ以外の要素、例えば、音色(周波数成分の違い)を抽出するものであってもよい。
(2)上記実施形態では、人の属性については男女のみ判別しているが、声紋などによって話者を特定する機能を新たに加え、個人を判別するようにしてもよい。この場合に、音声データのデータ中心Wについても、各個人ごとに生成・記憶させておく構成とすることが好ましい。係る構成とすることで、使用中に話者が変わっても、個人のデータ中心Wを読み出すなどすることで、話者が元から持つ音声の特徴を効果的に排除できる。
本実施形態に係る雰囲気情報通信端末の分解斜視図 雰囲気情報通信端末の使用例を示す図 雰囲気情報通信端末の電気的構成を示すブロック図 雰囲気情報通信端末の垂直断面図 雰囲気情報通信端末の斜視図 感情判別装置の電気的構成を示すブロック図 音声信号の一例を示す図 感情判定処理の流れを示すフローチャート図 感情データベースのデータ構成を示す図 感情データベースを二次元平面に展開した状態を示す図 マハラノビスの距離を示す図 データ格納部に、判別結果並びに音声データがストックされた様子を示す図 1分間の判定結果を示す図 感情データベースのデータ中心に対する、音声データのデータ中心のずれを示す図 補正前の音声データと、補正後の音声データの関係を示す図 データ中心Wが時間の経過とともに、更新される様子を示す図
65…マイクロフォン(本発明の「音声取得手段」に相当)
93…フレームメモリ
100…信号解析部(本発明の「特徴検出手段」、「データ補正手段」に相当)
101…データ格納部(本発明の「記憶手段」に相当)
S1、S2…雰囲気情報通信端末
DB…感情データベース(本発明の「感情データ」に相当)

Claims (4)

  1. 話者の音声を取得する音声取得手段と、
    取得された音声から特徴を抽出する特徴抽出手段とを備え、得られた特徴を要素とする音声データを、複数人のサンプル音声から作成され各感情のカテゴリの音声データからなる感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて話者の感情のカテゴリを判定する感情判別装置であって、
    判定された話者の音声データの平均と前記サンプル音声の音声データの平均とに基づいて、話者が元から持つ音声の特徴に応じた補正値として判定対象となる話者の音声データのデータ中心と前記感情データベースのデータ中心との間の距離である中心間距離Lを決定し、以降に判定される話者の音声データを前記補正値である中心間距離Lにて補正するデータ補正手段を備え、
    前記補正後の音声データを、前記感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて感情のカテゴリを判定すると共に、
    判定された話者の音声データを累積的に記憶する記憶手段を備え、
    前記データ補正手段は、所定時間経過ごとに前記記憶手段から前記音声データを読み出して、判定対象となる話者の音声データの平均を改めて算出し、前記補正値である中心間距離Lを更新することを特徴とする感情判別装置。
  2. 前記データ補正手段による前記補正処理、並びにこれに続くカテゴリの判定処理が、前記音声取得手段が話者の音声を取得する処理と並行して行われることを特徴とする請求項1に記載の感情判別装置。
  3. 話者から取得された音声から特徴を抽出し、得られた特徴を要素とする音声データを、複数人のサンプル音声から作成され各感情のカテゴリの音声データからなる感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて話者の感情のカテゴリを判定する感情の判別方法であって、
    判定された話者の音声データの平均と前記サンプル音声の音声データの平均とに基づいて、話者が元から持つ音声の特徴に応じた補正値として判定対象となる話者の音声データのデータ中心と前記感情データベースのデータ中心との間の距離である中心間距離Lを決定し、以降に判定される話者の音声データを前記補正値である中心間距離Lにて補正した上で、前記感情データベースに参照し、各感情のカテゴリのデータ中心から判定対象となる話者の音声データまでの距離を求め、求めた距離に基づいて感情のカテゴリを判定すると共に、
    判定された話者の音声データを記憶手段に対して累積的に記憶し、
    所定時間経過ごとに前記記憶手段から前記音声データを読み出して、判定対象となる話者の音声データの平均を改めて算出し、前記補正値である中心間距離Lを更新することを特徴とする感情の判別方法。
  4. 互いに離間した室内間をネットワークを通じて通信可能に接続し、室内の雰囲気情報を前記ネットワークを通じて一方側から他方側へ送信して他方側の室内において表示させる雰囲気情報通信システムに用いられる雰囲気情報通信端末であって、
    請求項1又は請求項2に記載された感情判別装置と、
    前記感情判別装置で判別された、前記雰囲気情報としての感情情報を前記ネットワークを通じて相手側に送信する送信部と、を有する雰囲気情報通信端末。
JP2006257983A 2006-09-22 2006-09-22 感情の判別方法、感情判別装置、雰囲気情報通信端末 Expired - Fee Related JP4941966B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006257983A JP4941966B2 (ja) 2006-09-22 2006-09-22 感情の判別方法、感情判別装置、雰囲気情報通信端末

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006257983A JP4941966B2 (ja) 2006-09-22 2006-09-22 感情の判別方法、感情判別装置、雰囲気情報通信端末

Publications (2)

Publication Number Publication Date
JP2008076904A JP2008076904A (ja) 2008-04-03
JP4941966B2 true JP4941966B2 (ja) 2012-05-30

Family

ID=39349001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006257983A Expired - Fee Related JP4941966B2 (ja) 2006-09-22 2006-09-22 感情の判別方法、感情判別装置、雰囲気情報通信端末

Country Status (1)

Country Link
JP (1) JP4941966B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8902050B2 (en) * 2009-10-29 2014-12-02 Immersion Corporation Systems and methods for haptic augmentation of voice-to-text conversion
KR101330268B1 (ko) 2012-09-12 2013-11-15 가천대학교 산학협력단 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법
CN104939810B (zh) * 2014-03-25 2017-09-01 上海斐讯数据通信技术有限公司 一种控制情绪的方法及装置
JP6755304B2 (ja) * 2016-04-26 2020-09-16 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
JP7279287B2 (ja) * 2019-06-07 2023-05-23 株式会社Nttドコモ 感情推定装置、及び、感情推定システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63118797A (ja) * 1986-11-07 1988-05-23 日本電気株式会社 音声認識装置
JPH01107240U (ja) * 1988-01-08 1989-07-19
JPH01200294A (ja) * 1988-02-04 1989-08-11 Sony Corp 音声認識装置
JP3526911B2 (ja) * 1993-04-20 2004-05-17 クラリオン株式会社 音声認識装置及び音声認識方法
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
JP3824848B2 (ja) * 2000-07-24 2006-09-20 シャープ株式会社 通信装置および通信方法
JP3676969B2 (ja) * 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
JP2003066991A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体
DE60115653T2 (de) * 2001-10-05 2006-08-10 Sony Deutschland Gmbh Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten
JP2003330490A (ja) * 2002-05-15 2003-11-19 Fujitsu Ltd 音声対話装置
JP2004317822A (ja) * 2003-04-17 2004-11-11 Agi:Kk 感情分析・表示装置
JP3953024B2 (ja) * 2003-11-20 2007-08-01 ソニー株式会社 感情算出装置及び感情算出方法、並びに携帯型通信装置
JP4546767B2 (ja) * 2004-06-09 2010-09-15 日本放送協会 感情推定装置及び感情推定プログラム
JP2006259641A (ja) * 2005-03-18 2006-09-28 Univ Waseda 音声認識装置及び音声認識用プログラム
JP4587854B2 (ja) * 2005-03-23 2010-11-24 東京電力株式会社 感情解析装置、感情解析プログラム、プログラム格納媒体

Also Published As

Publication number Publication date
JP2008076904A (ja) 2008-04-03

Similar Documents

Publication Publication Date Title
JP6502249B2 (ja) 音声認識方法及び音声認識装置
US11335322B2 (en) Learning device, learning method, voice synthesis device, and voice synthesis method
US10579912B2 (en) User registration for intelligent assistant computer
JP5075664B2 (ja) 音声対話装置及び支援方法
US11655622B2 (en) Smart toilet and electric appliance system
US8892424B2 (en) Audio analysis terminal and system for emotion estimation of a conversation that discriminates utterance of a user and another person
US8036898B2 (en) Conversational speech analysis method, and conversational speech analyzer
JP4941966B2 (ja) 感情の判別方法、感情判別装置、雰囲気情報通信端末
JP7259307B2 (ja) 議事録出力装置および議事録出力装置の制御プログラム
JP2018036653A (ja) 音声応答装置
JP2010232780A (ja) 通信制御装置、通信制御方法、及び通信制御プログラム
CN110914897B (zh) 语音识别系统和语音识别装置
WO2020013296A1 (ja) 精神・神経系疾患を推定する装置
US20200251120A1 (en) Method and system for individualized signal processing of an audio signal of a hearing device
JP6239826B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP4631464B2 (ja) 体調判定装置およびそのプログラム
JP2008076905A (ja) 感情判別方法
CN113764099A (zh) 基于人工智能的心理状态分析方法、装置、设备及介质
WO2020250828A1 (ja) 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
WO2020021861A1 (ja) 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
Pittman et al. Detecting and learning new words: The impact of advancing age and hearing loss
KR20070043962A (ko) 시스템에 대한 사용자의 액세스를 확립하는 방법
JP6392578B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP2022157372A (ja) 情報処理システム、音声識別方法及びプログラム
JP2022038344A (ja) コミュニケーションシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090910

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100507

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100709

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100916

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101026

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110525

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20110607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120222

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees