JP2007133227A

JP2007133227A - ニューラルネット学習装置および感情判断装置

Info

Publication number: JP2007133227A
Application number: JP2005327536A
Authority: JP
Inventors: Seiichi Amashiro; 成一天白
Original assignee: Arcadia Co Ltd
Current assignee: Arcadia Co Ltd
Priority date: 2005-11-11
Filing date: 2005-11-11
Publication date: 2007-05-31

Abstract

【課題】発話音声波形データから発話者の感情をより正確に検出する。
【解決手段】発話区間区分手段３は感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する。線形予測係数演算手段５は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数を演算する。残差波形演算手段７は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数の逆フィルタを演算し、前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから残差波形を演算する。区分別残差波形データ演算手段９は、得られた残差波形を所定区間に区分して、区分別残差波形データを演算する。ニューラルネット手段１１は、前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行う。
【選択図】図１

Description

この発明は、人間の感情を検出する感情検出方法及び感情検出装置に関する。

特許文献１には、音声データのスペクトル分析などを行うことにより、音声の強度、音声の出現速度を表すテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出し、検出された音声の強度，音声のテンポ及び音声の抑揚のそれぞれについて変化量を求め、求めた変化量に基づいて、感情を判断する技術が開示されている。

特開2004-317822号公報

しかしながら、上記のように、従来の感情判断方法では、怒っている場合には声が高くなるとか、大きくなるというように、特定のパターンに当てはまる場合には、これを検出することができるが、特定のパターンを外れた場合、例えば、静かにしゃべっているが、怒っている場合などは、正確な判断ができなかった。

この発明は、被験者である人間の感情をより正確に検出可能な感情検出方法及び感情検出装置を提供することを目的とする。

１）本発明にかかるニューラルネット学習装置は、1)感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する発話区間区分手段、2)各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数を演算する線形予測係数演算手段、3)前記各発話区間毎の線形予測係数から各発話区間毎の逆フィルタを演算する逆フィルタ演算手段、4)前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから、残差波形を演算する残差波形演算手段、5)得られた残差波形を所定区間に区分して、区分別残差波形データを演算する区分別残差波形データ演算手段、6)前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行うニューラルネット学習手段を備えている。したがって、残差波形についてのニューラルネット学習が可能となる。

２）本発明にかかるニューラルネット学習装置は、1)感情評価についての肯定評価または否定評価が付与された発話音声データについて、声道フィルタ特性を分離した音源波形データを演算する音源波形データ演算手段、2)前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行う学習手段を備えている。したがって、声道フィルタ特性を除いた音源波形データに基づく学習が可能となる。

３）本発明にかかるニューラルネット学習装置においては、前記音源波形データ演算手段は、a1)感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する発話区間区分手段、a2)各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数の逆フィルタを演算する線形予測逆フィルタ演算手段、a3)前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから残差波形を演算する残差波形演算手段を備え、前記学習手段は、b1)得られた残差波形を所定区間に区分して、区分別残差波形データを演算する区分別残差波形データ演算手段、b2)前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行うニューラルネット学習手段を備えている。したがって、簡易に、声道フィルタ特性を分離した音源波形データを得ることができる。また、区分別残差波形データからニューラルネット学習ができる。

４）本発明にかかる感情判断装置は、1)感情評価についての肯定評価または否定評価が付与された発話音声データについて、声道フィルタ特性を分離した音源波形データを得て、かかる音源波形データについて、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られたニューラルネット学習情報を記憶するニューラルネット学習情報記憶手段、2)前記ニューラルネット学習情報と、判断対象の発話音声データとを対比し、その肯定的感情評価または否定感情評価を判断する判断手段を備えている。したがって、声道フィルタ特性を分離した音源波形データに基づき、感情判断が可能となる。

５）本発明にかかるニューラルネット学習方法は、コンピュータに以下のステップを実行させる。1)感情評価についての肯定評価または否定評価が付与された発話音声データを入力させるステップ、2)前記発話音声データから声道フィルタ特性を分離した音源波形データを演算するステップ、3)前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行うステップ。したがって、声道フィルタ特性を分離した音源波形データに基づくニューラルネット情報の学習が可能となる。

６）本発明にかかるコンピュータによる感情判断方法は、前記コンピュータに、感情評価についての肯定評価または否定評価が付与されたテスト発話音声データについて、声道フィルタ特性を分離した音源波形データを演算し、この音源波形データについて、前記テスト発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られた情報である、ニューラルネット学習情報を記憶させておき、判断対象の発話音声データが与えられると、前記ニューラルネット学習情報と比較させ、当該発話音声データの肯定的感情評価または否定感情評価をコンピュータによって判断させる。したがって、声道フィルタ特性を分離した音源波形データに基づいて構築されたニューラルネット情報を用いた感情判断が可能となる。

７）本発明にかかるニューラルネットプログラムは、コンピュータに以下のステップを実行させるためのニューラルネット学習プログラムである。1)感情評価についての肯定評価または否定評価が付与された発話音声データを入力させるステップ、2)前記発話音声データから声道フィルタ特性を分離した音源波形データを演算するステップ、3)前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行うステップ。したがって、声道フィルタ特性を分離した音源波形データに基づいたニューラルネット情報を構築することが可能となる
８）本発明にかかる感情判断プログラムは、Ａ)前記コンピュータに、ニューラルネット学習情報を記憶させておくステップ、a1)前記ニューラルネット学習情報は、感情評価についての肯定評価または否定評価が付与されたテスト発話音声データについて、声道フィルタ特性を分離した音源波形データを演算し、この音源波形データについて、前記テスト発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られた情報である、Ｂ）判断対象の発話音声データが与えられると、前記ニューラルネット学習情報と比較し、当該発話音声データの肯定的感情評価または否定感情評価を判断するステップ。したがって、声道フィルタ特性を分離した音源波形データに基づいて構築されたニューラルネット情報を用いた感情判断が可能となる。

なお、本明細書において、「声道フィルタ特性」とは、音源波形データから発話音声データが得るための特性値をいう。

１．機能ブロック図
図１に、本件発明にかかる感情判断装置１の全体構成を示す。感情判断装置１は、発話区間区分手段３、線形予測係数演算手段５、残差波形演算手段７、区分別残差波形データ演算手段９、ニューラルネット手段１１、および記憶手段１３を備えている。

記憶手段１３は、感情評価についての肯定評価または否定評価が付与された発話音声データが記憶される。発話区間区分手段３は感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する。線形予測係数演算手段５は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数を演算する。残差波形演算手段７は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数の逆フィルタを演算し、前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから残差波形を演算する。区分別残差波形データ演算手段９は、得られた残差波形を所定区間に区分して、区分別残差波形データを演算する。ニューラルネット手段１１は、前記各区分別残差波形データについて、既に存在するニューラルネット情報に基づき、感情評価についての肯定評価または否定評価を行う。また、記憶手段１３に記憶された当該発話音声データに付与された肯定評価または否定評価が教示信号として与えられると、ニューラルネット情報の学習処理を行う。

２．ハードウェア構成
図１に示す感情判断装置１のハードウェア構成について、図２を用いて説明する。図２は、ＣＰＵを用いて構成したハードウェア構成の一例である。

感情判断装置１は、ＣＰＵ２３、メモリ２７、ハードディスク２６、モニタ３０、ＣＤＤ（ＣＤ−ＲＯＭドライブ）２５、入力デバイス２８、音声入力部２４およびバスライン２９を備えている。ＣＰＵ２３は、ハードディスク２６に記憶された各プログラムにしたがいバスライン２９を介して、各部を制御する。

ハードディスク２６は、オペレーティングシステムプログラム２６ｏ（以下ＯＳと略す）、ニューラルネットプログラム２６n、メインプログラム２６m、が記憶される。

ニューラルネットプログラム２６ｎは、ニューラルネット処理を行うプログラム（エンジン）であり、波形データが与えられると、それ以前の波形データから学習した学習結果と比較して、肯定的または否定的評価を出力する。また、これについて教示信号が与えられると、当該教示信号に基づき、ニューラルネット学習を行う。

メインプログラム２６zは、本装置における学習処理および判断処理を行うプログラムである。メインプログラム２６mは、後述するように、与えられた音声データを区間分割し、各区間について線形予測分析を行い、各区間について逆フィルタを求め、区間毎の逆フィルタを演算して、これと与えられた音声データから声道特徴を分離した音源波形データを求める。また、残差波形データを正規化し、区間分析し、区間毎の値の組情報を生成し、ニューラルネットプログラム２６nに与える。また、ニューラルネットプログラム２６ｎから与えられた判断結果について総合判断を行う。詳細は後述する。

本実施形態においては、オペレーティングシステムプログラム（ＯＳ）２６ｏとして、LINUX（商標）を採用したが、これに限定されるものではない。

なお、上記各プログラムは、ＣＤＤ２５を介して、プログラムが記憶されたＣＤＲＯＭ２５ａから読み出されてハードディスク２６にインストールされたものである。なお、ＣＤ−ＲＯＭ以外に、フレキシブルディスク（ＦＤ）、ＩＣカード等のプログラムをコンピュータ可読の記録媒体から、ハードディスクにインストールさせるようにしてもよい。さらに、通信回線を用いてダウンロードするようにしてもよい。

本実施形態においては、プログラムをＣＤ−ＲＯＭからハードディスク２６にインストールさせることにより、ＣＤ−ＲＯＭに記憶させたプログラムを間接的にコンピュータに実行させるようにしている。しかし、これに限定されることなく、ＣＤ−ＲＯＭに記憶させたプログラムをＣＤＤ２５から直接的に実行するようにしてもよい。なお、コンピュータによって、実行可能なプログラムとしては、そのままインストールするだけで直接実行可能なものはもちろん、一旦他の形態等に変換が必要なもの（例えば、データ圧縮されているものを、解凍する等）、さらには、他のモジュール部分と組合して実行可能なものも含む。

３．プログラムによる処理について
図３を用いて、メインプログラムおよびニューラルネットプログラムによる処理について説明する。図３のステップＳ２１の処理がニューラルネットプログラム２６nによる処理であり、他はメインプログラム２６mによる処理である。また、以下の例では、ハードディスク２６に、音声入力部２４を介して、図４に示す発話音声波形データが記憶されており、かかる発話音声波形データを用いて、学習処理をする場合について説明する。なお、図４に示す発話音声波形データは、人間がこれを聞いた場合、感情判断が肯定的であるものとする。図４では、上から音声波形、狭帯域スペクトログラム、広帯域スペクトログラム、パワーを示す。

ＣＰＵ２３は、ハードディスク２６に記憶された発話音声波形データを読み出し、発話区間のデータを取り出し、これを64ms毎の区間データとする(ステップＳ１）。音声区間は入力音声のパワーを参照しながら始点・終点を求めればよい。なお、本実施形態においては、各区間データのパワーを16ビットで定義した。

ＣＰＵ２３は処理対象区間番号iを初期化し（ステップＳ３）、i番目の処理対象区間について、線形予測係数（ＬＰＣ係数）を演算する(ステップＳ５）。この場合、i=0であるので、０番目の処理対象区間データのＬＰＣ係数を演算する。ＣＰＵ２３は、ＬＰＣ係数から逆フィルタを演算する(ステップＳ7)。ＣＰＵ２３は、最終の処理対象区間か否か判断し(ステップＳ９）、この場合、０番目であり、次が存在するので、処理対象区間番号iをインクリメントし（ステップＳ１１）、ステップＳ５以下の処理を繰り返す。

ステップＳ９にて全処理対象区間について逆フィルタを求めると、ＣＰＵ２３は、元の発話音声波形データと、ステップＳ７にて求めた逆フィルタから、残差波形を演算する(ステップＳ１３）。このようにして得られた残差波形データを図５に示す。かかる残差波形データは、発話音声波形データから声道フィルタ特性を分離した音源波形データである。図5と図4とを比べると、前者では、広帯域スペクトログラムからフォルマント情報が取り除かれていることが表れている。これは、線形予測分析によって声道の特徴（すなわちフォルマント情報）を取り除いたためであると考えられる。なお、フォルマントとは、スペクトログラム表示した場合、集中している部分があり（黒く浮き出ている)、その部分が該当する。

また、図５においては、残差波形の振幅が、発話音声波形データよりも大きく表されている。これは、発話音声波形データと同じ値で表現すると、ほとんど変化がわからないためである。この例では、残差波形の変化を明確に表すために最大値が32767になるように正規化している。

つぎに、ＣＰＵ２３は、残差波形を正規化し、一定の時間長ずつに区分する(ステップＳ１５）。本実施形態においては、得られた残差波形の振幅の絶対値が１．０となるように、正規化し、一定の時間長として64msを採用した。また、各区間データは8kHzの16ビットデータで表した。すなわち、各区間データは、５１２個の点データの集合の波形データとしてで表される。

ＣＰＵ２３は、処理番号jを初期化し（ステップＳ１７）、j番目の区間波形をその教示とともにニューラルネットプログラム２６nに与える(ステップＳ１９）。この場合、かかる波形データの元となった発話音声波形データは感情判断が肯定的であるので、肯定的であるとの教示信号をニューラルネットプログラム２６ｎに与える。

ＣＰＵ２３は、かかる５１２のデータで構成された波形データについて、肯定的or否定的の判断を行い、与えられた教示に基づき係数を変化させることにより、学習を行う（ステップＳ２１）。

ＣＰＵ２３は、最終の区間か否か判断し(ステップＳ２３）、この場合、０番目であり、次が存在するので、処理対象区間番号jをインクリメントし（ステップＳ２５）、ステップＳ１９以下の処理を繰り返す。

これにより、１の発話音声波形データから複数のニューラルネット学習が可能となる。

つぎに、学習させたニューラルネットプログラムを用いた感情判断について図６を用いて説明する。図６のステップＳ５１の処理がニューラルネットプログラム２６nによる処理であり、他はメインプログラム２６mによる処理である。なお、当然、判断対象の発話音声波形データは教示無しで与えられる。

かかる発話音声波形データを区分処理し、残差波形データを求め、これを正規化し、一定時間毎に区分するまでの処理(ステップＳ３１〜ステップＳ４５）は、図３ステップＳ１〜ステップＳ１５と同様であるので説明は省略する。

ＣＰＵ２３は、処理番号jを初期化し（ステップＳ４７）、j番目の区間波形をニューラルネットプログラム２６nに与える(ステップＳ４９）。ＣＰＵ２３は、ニューラルネットプログラムにより、かる５１２のデータで構成された波形データについて、肯定的or否定的の判断を行い、結果をメモリ２７に記憶する(ステップＳ５１）。

ＣＰＵ２３は、最終の区間か否か判断し(ステップＳ５３）、この場合、０番目であり、次が存在するので、処理対象区間番号jをインクリメントし（ステップＳ５５）、ステップＳ４９以下の処理を繰り返す。ＣＰＵ２３は、最終の区間までニューラルネットプログラム２６ｎによる判断が行われると、当該発話音声波形データの感情判断を行う。本実施形態においては、区間毎の評価「０」か「１」を抽出し、多い方の評価を当該発話音声波形データの感情判断として採用した。

一般に、音声情報のみから喜怒哀楽のような感情を抽出することは、その定義を明確に与えることができないために、難しいとされている。しかし、人間が判断する場合、音声を聞いただけで印象（雰囲気）のようなものはある程度一致した感覚として判別しているのが現状である。発明者は、発話音声波形データ自体を、ニューラルネット学習させて感情判断をすることも考えた。しかし、発話音声波形データには個人差などがありすぎて、ニューラルネット学習を行っても、正確な判定が不可能であった。

そこで、発明者は、声道フィルタ特性を取り除いた残差波形に着目した。かかる残差波形については、感情による波形データの特性が表れているか否かについては不明であるが、実験をした結果、ニューラルネット学習を行うことにより、かなりの確率で判断が可能であった。

このように、本実施形態においては、発話音声波形データから声道フィルタ特性を取り除いた音源データを得て、これをニューラルネット学習を行っている。また、人間が視聴した場合に、一般的には何をいっているのかわからないような音源情報を用いて、これをニューラルネット学習させることにより、感情判断を行っている。したがって、種々のパターンに合致した感情判断が可能である。

また、音源情報のうち、どの特徴量が感情を示しているのかについては定かではない。したがって、本実施形態においては、残差波形データをさらに区分けした区分データを用いて、これらを全てニューラルネット学習を行っている。

本発明は、例えば、電話お客様相談センターにおけるオペレータの対応を入力しておき、これを後日、解析して、結果をフィードバックすることにより、顧客満足度（ＣＳ値）を向上させることができる。また、お客様の対話音声を記憶しておき、リアルタイムでこれを判断することにより、感情の変化を把握することもできる。これにより、顧客の感情が決定的に悪くなる前に、オペレータを変更するなどの対応を取ることもできる。

本実施形態においては、発話内容のコンテキスト（文脈）に関係なく感情判断ができるので、言語の種類を問わないで学習および判断が可能となる。

なお、本実施形態においては、中間層が４段（１６、８、４、２）のニューラルネットで学習を行ったが、これに限定されるものではない。

なお、本実施形態においては、分析次数を１６としたが、これに限定されない。

４．他の実施形態
上記実施形態においては、図１に示す機能を実現する為に、ＣＰＵを用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。

なお、上記プログラムの一部の処理をオペレーティングシステム（ＯＳ）にさせるようにしてもよい。

本発明にかかる感情判断装置１の機能ブロック図である。図１に示す感情判断装置１をＣＰＵを用いて実現したハードウェア構成の一例を示す図である。学習フローチャートである。発話音声波形データである。残差波形データである。判断フローチャートである。

符号の説明

１・・・・感情判断装置
２３・・・ＣＰＵ
２７・・・メモリ

Claims

感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する発話区間区分手段、
各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数を演算する線形予測係数演算手段、
前記各発話区間毎の線形予測係数から各発話区間毎の逆フィルタを演算する逆フィルタ演算手段、
前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから、残差波形を演算する残差波形演算手段、
得られた残差波形を所定区間に区分して、区分別残差波形データを演算する区分別残差波形データ演算手段、
前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行うニューラルネット学習手段、
を備えたことを特徴とするニューラルネット学習装置。
感情評価についての肯定評価または否定評価が付与された発話音声データについて、声道フィルタ特性を分離した音源波形データを演算する音源波形データ演算手段、
前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行う学習手段、
を備えたことを特徴とするニューラルネット学習装置。
請求項２のニューラルネット学習装置において、
前記音源波形データ演算手段は、
感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する発話区間区分手段、
各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数の逆フィルタを演算する線形予測逆フィルタ演算手段、
前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから残差波形を演算する残差波形演算手段、
を備え、
前記学習手段は、
得られた残差波形を所定区間に区分して、区分別残差波形データを演算する区分別残差波形データ演算手段、
前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行うニューラルネット学習手段、
を備えていること、
を特徴とするもの。
感情評価についての肯定評価または否定評価が付与された発話音声データについて、声道フィルタ特性を分離した音源波形データを得て、かかる音源波形データについて、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られたニューラルネット学習情報を記憶するニューラルネット学習情報記憶手段、
前記ニューラルネット学習情報と、判断対象の発話音声データとを対比し、その肯定的感情評価または否定感情評価を判断する判断手段、
を備えたことを特徴とする感情判断装置。
コンピュータに以下のステップを実行させるニューラルネット学習方法。
感情評価についての肯定評価または否定評価が付与された発話音声データを入力させるステップ、
前記発話音声データから声道フィルタ特性を分離した音源波形データを演算するステップ、
前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行うステップ。
コンピュータによる感情判断方法であって、
前記コンピュータに、ニューラルネット学習情報を記憶させておき、
前記ニューラルネット学習情報は、感情評価についての肯定評価または否定評価が付与されたテスト発話音声データについて、声道フィルタ特性を分離した音源波形データを演算し、この音源波形データについて、前記テスト発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られた情報である、
前記コンピュータは、判断対象の発話音声データが与えられると、前記ニューラルネット学習情報と比較し、当該発話音声データの肯定的感情評価または否定感情評価を判断すること、
を特徴とするコンピュータによる感情判断方法。
コンピュータに以下のステップを実行させるためのニューラルネット学習プログラム。
感情評価についての肯定評価または否定評価が付与された発話音声データを入力させるステップ、
前記発話音声データから声道フィルタ特性を分離した音源波形データを演算するステップ、
前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行うステップ。
コンピュータに以下のステップを実行させるための感情判断プログラム。
前記コンピュータに、ニューラルネット学習情報を記憶させておくステップ、
前記ニューラルネット学習情報は、感情評価についての肯定評価または否定評価が付与されたテスト発話音声データについて、声道フィルタ特性を分離した音源波形データを演算し、この音源波形データについて、前記テスト発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られた情報である、
判断対象の発話音声データが与えられると、前記ニューラルネット学習情報と比較し、当該発話音声データの肯定的感情評価または否定感情評価を判断するステップ。