JPH09206291A

JPH09206291A - 人の感情・状態を検出する装置

Info

Publication number: JPH09206291A
Application number: JP8040387A
Authority: JP
Inventors: Hiroyuki Kuno; 裕之久野; Megumi Takano; 恵高野
Original assignee: JAPAN SMALL CORP
Current assignee: JAPAN SMALL CORP
Priority date: 1996-02-02
Filing date: 1996-02-02
Publication date: 1997-08-12

Abstract

(57)【要約】【課題】人の感情・状態（例えば拍手や歓声等の喜
び、ブーイング等の怒り）を、人が発する音（音波）を
介して、低いコストで、かつ多人数の感情を効率的に検
出（認識）する。【解決手段】人が発する音波の波形をフーリエ変換に
より（周波数）スペクトラムに変換し、さらにそのスペ
クトラムの中心（周波数重心）Ｇを求め、この周波数重
心Ｇが所定のしきい値より大きいかどうかで、人の感情
（例えば拍手・歓声等）を認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、人の感情・状態
を検出（認識）する装置に関する。

【０００２】

【従来の技術】例えば、商店街やイベント会場等で客の
反応を見て対話等をするロボットがある。これは例えば
何らかの動作を行い、客がこれに喜んで拍手等をする
と、ロボットが御礼を言ったり、あるいはこれに対応す
る次の会話に移るといったものである。

【０００３】ここで、人の感情を認識する方法として、
画像処理を用いて人の表情を識別する方法がある。

【０００４】

【発明が解決しようとする課題】しかしながら、このよ
うに画像処理を行う方法は、装置が大がかりになり、コ
ストがかかる上に、演算量が多くなるので、処理時間が
多くかかってしまう。さらに、一人の人間の感情を認識
するのには向いているが、多人数全体の感情を把握する
ことは難しい。

【０００５】本発明の課題は、低いコストで人間の感情
を認識すること、及び多人数の感情を効率的に認識・検
出することにある。

【０００６】

【課題を解決するための手段及び作用・効果】このよう
な課題を解決するために、本発明では、次のような各手
段を含む。人の発する音波の波形データを検出する波形データ検
出手段。人の発する音波の特定種類のものの判別データを記憶
する判別データ記憶手段。上記波形データ検出手段で検出された音波の波形デー
タと、上記判別データ記憶手段に記憶されている判別デ
ータとを比較・分析して、人の発する音波がその判別デ
ータに対応する種類かどうかを判定する判定手段。このような構成により、低コストで多人数の感情（例え
ば拍手等）を効果的に認識することができる。

【０００７】また、その人の発する音波の判別のため
に、人の発する音波の波形を周波数分解して（周波数）
スペクトラムに変換し、このスペクトラムの中心（周波
数重心）を求め、この周波数重心が特定種類の周波数帯
域との関係で、当該周波数帯域に属するかどうかを見る
ことができる。この周波数重心を用いる手法では、周波
数帯域を区分する周波数しきい値と上記周波数重心との
相対関係により、人の発する音の特定種類を判別するこ
とができる。このように周波数重心を用いるやり方で
は、少ない計算量で認識が終了するので、人の感情をダ
イナミックに測定するのに適している。

【０００８】別の判別の手法として、予め人の発する音
波の特定種類の標準波形パターンを記憶しておき、これ
と実際の音波の波形パターンとを照合・比較するパター
ンマッチングを行い、その類似度に基づいて、人の発す
る音波の特定種類を判定することもできる。

【０００９】このパターンマッチングの手法によれば、
一種類の標準波形パターンに限らず、互いに異なる複数
種類の標準波形パターン（例えば拍手、笑い、ブーイン
グ等）を記憶しておき、実際の音波の波形パターンがど
れに最も近いかにより判定を行うことができるため、人
の感情をより正確に認識することが可能である。

【００１０】

【発明の実施の形態】以下、図面に示す実施例に基づ
き、本発明の実施の形態を説明する。図１はコンピュー
タを用いた装置構成の一例を示すもので、マイク１から
入力される人の音波は、Ａ／Ｄコンバータ２によりＡＤ
変換され、Ｉ／Ｏポート３を経てＣＰＵ４、ＲＯＭ５及
びＲＡＭ６を含むコンピュータに取り込まれる。ＲＯＭ
５は後述の人の感情等を判別する判別プログラム５ａ等
を記憶し、ＲＡＭ６は人から出る実際の音波の周波数重
心（後述）を一時的に記憶する重心バッファメモリ６ａ
等、必要なメモリ領域を備える。

【００１１】図３は人の音波として、例えば多人数の拍
手の状態を検出する流れを示すものである。ステップＳ
１で、人から音波が発生すると、Ｓ２でマイク１等を介
して音波が入力される。Ｓ３でその音波がＡ／Ｄ変換さ
れ、これがＣＰＵ４を主体とするコンピュータに取り込
まれる。Ｓ４では、ＣＰＵ４が、その音波信号をフーリ
エ変換してスペクトラムに変換する。あるいは、ＦＦＴ
スペクトラムアナライザ２ａ（図１）等の変換器により
フーリエ変換を行い、上記音波信号をスペクトラムに変
換して、その信号をＣＰＵ４を主体とするコンピュータ
に取り込む。

【００１２】一般にスペクトラムアナライザは、例えば
「電気工学ハンドブック（第４版）電気学会編（１９９
１年１月３０日第４版第２刷発行）の第３９７頁〜３９
８頁等に記載のように、周波数ドメインの測定器といわ
れる。その３９７頁の説明図を図６に示す。これは一つ
の音波信号をタイムドメインと周波数ドメインで観測し
た場合の相互関係を示しているが、周波数ドメインでみ
ると各周波数数分ごとの振幅が分離されて検出される。
これが一般に（周波数）スペクトラムと呼ばれるもので
ある。言い換えれば、スペクトラムは音波の強さを周波
数の関数としてとられたものである。

【００１３】そして、前記文献「電気工学ハンドブッ
ク」の第４０３頁〜４０４頁に記載のように、スペクト
ラムアナライザは走査形と非走査に分類され、前者が単
にスペクトラルアナライザ、後者がリアルタイムスペク
トラムアナライザ又はＦＦＴアナライザと呼ばれる。そ
の基本原理、動作原理は前記文献の第３９７頁〜３９８
頁に記載のように周知であるが、ＦＦＴスペクトラルア
ナライザを例にとれば、高速フーリエ変換（Fast Fouri
er Transform）を行うデジタル信号処理により、時間ド
メイン（振幅対時間）を周波数ドメイン（振幅対周波
数）に変換する。

【００１４】ＦＦＴスペクトラムアナライザの動作は、
まず入力された音波信号を後に続く回路に合う電圧に調
整し、その後帯域外信号を取り除くためのローパルスフ
ィルタを通す。さらに、そのフィルタを通り抜けた音波
信号は、デジタル変換され、デジタルフィルタリングや
サンプリング処理され、サンプルされたデータは規定の
タイムレコードになるまで、タイムバッファにストアさ
れる。タイムレコードが完成すると、ＦＦＴ論理回路に
入り、分析される（ここで重み関数を入れたり平均化を
行う）。その結果、スペクトラムのデータが得られる。
これを概念的に示せば、例えば図２に示すように、横軸
を周波数、縦軸を音の強さとして、どのような周波数に
音が分布しているかが分かる。

【００１５】図３に戻って、そのＳ５では、ＣＰＵ４が
図２に例示的に示すスペクトラムの中心（周波数重心と
いえる）Ｇを検出する。この重心Ｇを求めるには、通常
の図形の重心を求める方法と同様の方法を採用すること
ができる。例えば、図２において各棒の長さを求め、か
つ、これらの棒の重心の合成によって、全体の波形（各
棒の頂点をつないだもの）の重心を求める。

【００１６】そして図３のＳ６で、その周波数重心（ス
ペクトラムの中心）が所定の周波数のしきい値より大き
いかどうかを判断する。通常のノイズ（ざわつき等）の
周波数重心は一般に周波数が低く、拍手、人の歓声や喜
びの表現は、その周波数重心が高いところにある。

【００１７】従って、経験値等からこの周波数のしきい
値を設定し、これより実際の周波数重心Ｇが大きい場合
は、拍手等観衆が喜んでいる状況と認識することができ
る。つまり図３のＳ７で、例えば拍手等の特定種類の音
と判定し、周波数重心がしきい値より小さければ、Ｓ８
で特定種類以外の音（例えばざわつき等のノイズ）と判
定する。

【００１８】このように周波数重心としきい値を比較す
る態様では、図１のＲＯＭ５（場合によってはＲＡＭ６
等も含んで）が判別データ記憶手段に相当し、例えばＲ
ＯＭ５に前述の周波数のしきい値等が判別プログラム５
ａの中に記憶されることとなる。またＣＰＵ４は、前述
の周波数のしきい値と重心とを比較することに基づく判
定手段として機能し、さらに具体的な機能として、重心
検出部等の機能を果たす。そして、このようにＣＰＵ４
を主体として判定された拍手など人間の感情・状態に関
する判定結果は、Ｉ／Ｏポート３を介して外部に出力さ
れることとなる。

【００１９】なお、Ｓ６のステップをさらに具体的に図
７に示す。この例では、重心しきい値Ｇａ、Ｇｂが、周
波数と音波信号の強さとの相関的な関係に基づく関数し
きい値とされ、例えば一次関数的な傾斜した直線、その
他の適宜の関数で規定される。

【００２０】そして、例えば重心の位置が、図のＡ領域
にあれば観客は喜んでいる、Ｂ領域にあれば観客は反応
なし、Ｃ領域にあれば観客はのっていない（シラケてい
る；喜んでいない）、等と判定する。なお、上述のしき
い値は単なる周波数固定値（縦軸と平行）でも、上述の
関数しきい値でもよいが、いずれにしても、例えば実験
データ等により経験的に求めること、あるいは推論又は
理論式等によって求めることができる。

【００２１】次に、別の態様を図４及び図５に基づいて
説明する。図４に示すようにこの態様では、スペクトラ
ムの中心（周波数重心）という概念を用いるのではな
く、人の音（音波）の種類、例えば拍手、笑い又はブー
イングといった音の種類に対応する標準波形パターン
（ＡないしＣ・・・）を予めＲＯＭ５等に記憶してい
る。そして実際に検出された人の音のパターンとのパタ
ーンマッチングを行い、実際に発せられている音が人間
の感情・状態等に関連してどのような種類であるかを判
定する。この処理の流れの一例を図５に示す。

【００２２】ステップＲ1で人の音が入力され、Ｒ2でそ
の波形の特徴分析が行われる。例えばその波形の特徴パ
ターンが抽出され、これがＲＡＭ６に一時記憶される。
このような処理を行うに際し、ＲＯＭ５には、標準波形
パターン辞書部が設けられ、ここに図４等に示す標準波
形パターンデータが記憶されている。

【００２３】図５に戻って、そのＲ3で実際の音の特徴
波形パターンと上述の各標準波形パターンとを参照・比
較し、類似度計算の一種である例えば距離計算を行う。
さらにＲ4で、その計算によって求められた類似度が最
大のものが実際の人の感情・状態（例えば拍手等）に対
応すると判定する。つまり図４に概念的に示すように、
実際の音の波形パターンＸと標準波形パターンＡ、Ｂ、
Ｃ等との間の類似度計算により、どの標準波形パターン
に最も近いかを見て、類似度が最大のもの（第１候補）
を選定することに基づいて、実際の感情等の判定処理を
行うこととなる。

【００２４】なお、図５のＲ4のステップで、類似度が
最大の第１候補を選定した後、その次に類似度の高い第
２候補との類似度の差、あるいは類似度の比等を算出す
るステップを加え、それらの類似度の差や比を補強判断
材料として、第１候補を正しい認識として選ぶ際に、そ
の選択（認定）の精度を高めるようにすることもでき
る。

【図面の簡単な説明】

【図１】本発明の装置構成の一例を示すブロック図。

【図２】スペクトラムとその中心（周波数重心）の関係
等の一例を説明する図。

【図３】スペクトラムの中心（周波数重心）を用いた処
理の一例を示すフローチャート。

【図４】パターンマッチングを行う場合を概念的に示す
図。

【図５】そのパターンマッチングに基づく処理の一例を
示すフローチャート。

【図６】（周波数）スペクトラムの概念を示す図。

【図７】スペクトラムの中心（周波数重心）としきい値
との関係の一例を示す図。

【符号の説明】

１マイク４ＣＰＵ５ＲＯＭ６ＲＡＭ

Claims

【特許請求の範囲】

【請求項１】人の発する音波の波形データを検出する
波形データ検出手段と、人の発する音の特定種類のものの判別データを記憶する
判別データ記憶手段と、前記波形データ検出手段で検出された音波の波形データ
と前記判別データ記憶手段に記憶されている判別データ
とを比較・分析して、前記人の発する音波が前記判別デ
ータに対応する種類かどうかを判定する判定手段と、を含むことを特徴とする人の感情・状態を検出する装
置。
【請求項２】前記波形データ検出手段は、前記音波をフーリエ変換してスペクトラムに変換する周
波数分解部と、そのスペクトラムの中心（周波数重心）
を検出する重心検出手段とを含み、前記判別データ記憶手段は、前記周波数重心と前記音の
特定種類の周波数帯域との関係を前記判別データとして
記憶しており、前記判定手段は、その周波数重心の属する周波数帯域に
基づいて前記人の発する音波が前記特定種類のものであ
るかどうかを判別することを特徴とする請求項１記載の
装置。
【請求項３】前記判別データ記憶手段は、前記周波数
帯域を区分する周波数しきい値を判別データとして記憶
しており、前記判定手段は、前記周波数重心と特定の周波数しきい
値との相対関係を判定して、前記人の発する音波の種類
を判別することを特徴とする請求項２記載の装置。
【請求項４】前記判別データ記憶手段は、前記人の発
する音波の特定種類の標準波形パターンのデータを前記
判別データとして記憶しており、前記判定手段は、前記波形データ検出手段で検出された
音波の波形データと前記判別データ記憶手段に記憶され
ている特定種類の標準波形パターンデータとを照合・比
較するパターンマッチングを行い、その類似度に基づい
て前記人の発する音波が前記特定種類のものであるかを
判定するものである請求項１記載の装置。