JP2007133227A - ニューラルネット学習装置および感情判断装置 - Google Patents
ニューラルネット学習装置および感情判断装置 Download PDFInfo
- Publication number
- JP2007133227A JP2007133227A JP2005327536A JP2005327536A JP2007133227A JP 2007133227 A JP2007133227 A JP 2007133227A JP 2005327536 A JP2005327536 A JP 2005327536A JP 2005327536 A JP2005327536 A JP 2005327536A JP 2007133227 A JP2007133227 A JP 2007133227A
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- neural network
- data
- waveform data
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】 発話音声波形データから発話者の感情をより正確に検出する 。
【解決手段】 発話区間区分手段3は感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する。線形予測係数演算手段5は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数を演算する。残差波形演算手段7は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数の逆フィルタを演算し、前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから残差波形を演算する。区分別残差波形データ演算手段9は、得られた残差波形を所定区間に区分して、区分別残差波形データを演算する。ニューラルネット手段11は、前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行う。
【選択図】 図1
【解決手段】 発話区間区分手段3は感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する。線形予測係数演算手段5は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数を演算する。残差波形演算手段7は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数の逆フィルタを演算し、前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから残差波形を演算する。区分別残差波形データ演算手段9は、得られた残差波形を所定区間に区分して、区分別残差波形データを演算する。ニューラルネット手段11は、前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行う。
【選択図】 図1
Description
この発明は、人間の感情を検出する感情検出方法及び感情検出装置に関する。
特許文献1には、音声データのスペクトル分析などを行うことにより、音声の強度、音声の出現速度を表すテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出し、検出された音声の強度,音声のテンポ及び音声の抑揚のそれぞれについて変化量を求め、求めた変化量に基づいて、感情を判断する技術が開示されている。
しかしながら、上記のように、従来の感情判断方法では、怒っている場合には声が高くなるとか、大きくなるというように、特定のパターンに当てはまる場合には、これを検出することができるが、特定のパターンを外れた場合、例えば、静かにしゃべっているが、怒っている場合などは、正確な判断ができなかった。
この発明は、被験者である人間の感情をより正確に検出可能な感情検出方法及び感情検出装置を提供することを目的とする。
1)本発明にかかるニューラルネット学習装置は、1)感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する発話区間区分手段、2)各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数を演算する線形予測係数演算手段、3)前記各発話区間毎の線形予測係数から各発話区間毎の逆フィルタを演算する逆フィルタ演算手段、4)前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから、残差波形を演算する残差波形演算手段、5)得られた残差波形を所定区間に区分して、区分別残差波形データを演算する区分別残差波形データ演算手段、6)前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行うニューラルネット学習手段を備えている。したがって、残差波形についてのニューラルネット学習が可能となる。
2)本発明にかかるニューラルネット学習装置は、1)感情評価についての肯定評価または否定評価が付与された発話音声データについて、声道フィルタ特性を分離した音源波形データを演算する音源波形データ演算手段、2)前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行う学習手段を備えている。したがって、声道フィルタ特性を除いた音源波形データに基づく学習が可能となる。
3)本発明にかかるニューラルネット学習装置においては、前記音源波形データ演算手段は、a1)感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する発話区間区分手段、a2)各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数の逆フィルタを演算する線形予測逆フィルタ演算手段、a3)前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから残差波形を演算する残差波形演算手段を備え、前記学習手段は、b1)得られた残差波形を所定区間に区分して、区分別残差波形データを演算する区分別残差波形データ演算手段、b2)前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行うニューラルネット学習手段を備えている。したがって、簡易に、声道フィルタ特性を分離した音源波形データを得ることができる。また、区分別残差波形データからニューラルネット学習ができる。
4)本発明にかかる感情判断装置は、1)感情評価についての肯定評価または否定評価が付与された発話音声データについて、声道フィルタ特性を分離した音源波形データを得て、かかる音源波形データについて、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られたニューラルネット学習情報を記憶するニューラルネット学習情報記憶手段、2)前記ニューラルネット学習情報と、判断対象の発話音声データとを対比し、その肯定的感情評価または否定感情評価を判断する判断手段を備えている。したがって、声道フィルタ特性を分離した音源波形データに基づき、感情判断が可能となる。
5)本発明にかかるニューラルネット学習方法は、コンピュータに以下のステップを実行させる。1)感情評価についての肯定評価または否定評価が付与された発話音声データを入力させるステップ、2)前記発話音声データから声道フィルタ特性を分離した音源波形データを演算するステップ、3)前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行うステップ。したがって、声道フィルタ特性を分離した音源波形データに基づくニューラルネット情報の学習が可能となる。
6)本発明にかかるコンピュータによる感情判断方法は、前記コンピュータに、感情評価についての肯定評価または否定評価が付与されたテスト発話音声データについて、声道フィルタ特性を分離した音源波形データを演算し、この音源波形データについて、前記テスト発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られた情報である、ニューラルネット学習情報を記憶させておき、判断対象の発話音声データが与えられると、前記ニューラルネット学習情報と比較させ、当該発話音声データの肯定的感情評価または否定感情評価をコンピュータによって判断させる。したがって、声道フィルタ特性を分離した音源波形データに基づいて構築されたニューラルネット情報を用いた感情判断が可能となる。
7)本発明にかかるニューラルネットプログラムは、コンピュータに以下のステップを実行させるためのニューラルネット学習プログラムである。1)感情評価についての肯定評価または否定評価が付与された発話音声データを入力させるステップ、2)前記発話音声データから声道フィルタ特性を分離した音源波形データを演算するステップ、3)前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行うステップ。したがって、声道フィルタ特性を分離した音源波形データに基づいたニューラルネット情報を構築することが可能となる
8)本発明にかかる感情判断プログラムは、A)前記コンピュータに、ニューラルネット学習情報を記憶させておくステップ、a1)前記ニューラルネット学習情報は、感情評価についての肯定評価または否定評価が付与されたテスト発話音声データについて、声道フィルタ特性を分離した音源波形データを演算し、この音源波形データについて、前記テスト発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られた情報である、B)判断対象の発話音声データが与えられると、前記ニューラルネット学習情報と比較し、当該発話音声データの肯定的感情評価または否定感情評価を判断するステップ。したがって、声道フィルタ特性を分離した音源波形データに基づいて構築されたニューラルネット情報を用いた感情判断が可能となる。
8)本発明にかかる感情判断プログラムは、A)前記コンピュータに、ニューラルネット学習情報を記憶させておくステップ、a1)前記ニューラルネット学習情報は、感情評価についての肯定評価または否定評価が付与されたテスト発話音声データについて、声道フィルタ特性を分離した音源波形データを演算し、この音源波形データについて、前記テスト発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られた情報である、B)判断対象の発話音声データが与えられると、前記ニューラルネット学習情報と比較し、当該発話音声データの肯定的感情評価または否定感情評価を判断するステップ。したがって、声道フィルタ特性を分離した音源波形データに基づいて構築されたニューラルネット情報を用いた感情判断が可能となる。
なお、本明細書において、「声道フィルタ特性」とは、音源波形データから発話音声データが得るための特性値をいう。
1.機能ブロック図
図1に、本件発明にかかる感情判断装置1の全体構成を示す。感情判断装置1は、発話区間区分手段3、線形予測係数演算手段5、残差波形演算手段7、区分別残差波形データ演算手段9、ニューラルネット手段11、および記憶手段13を備えている。
図1に、本件発明にかかる感情判断装置1の全体構成を示す。感情判断装置1は、発話区間区分手段3、線形予測係数演算手段5、残差波形演算手段7、区分別残差波形データ演算手段9、ニューラルネット手段11、および記憶手段13を備えている。
記憶手段13は、感情評価についての肯定評価または否定評価が付与された発話音声データが記憶される。発話区間区分手段3は感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する。線形予測係数演算手段5は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数を演算する。残差波形演算手段7は、各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数の逆フィルタを演算し、前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから残差波形を演算する。区分別残差波形データ演算手段9は、得られた残差波形を所定区間に区分して、区分別残差波形データを演算する。ニューラルネット手段11は、前記各区分別残差波形データについて、既に存在するニューラルネット情報に基づき、感情評価についての肯定評価または否定評価を行う。また、記憶手段13に記憶された当該発話音声データに付与された肯定評価または否定評価が教示信号として与えられると、ニューラルネット情報の学習処理を行う。
2.ハードウェア構成
図1に示す感情判断装置1のハードウェア構成について、図2を用いて説明する。図2は、CPUを用いて構成したハードウェア構成の一例である。
図1に示す感情判断装置1のハードウェア構成について、図2を用いて説明する。図2は、CPUを用いて構成したハードウェア構成の一例である。
感情判断装置1は、CPU23、メモリ27、ハードディスク26、モニタ30、CDD(CD−ROMドライブ)25、入力デバイス28、音声入力部24およびバスライン29を備えている。CPU23は、ハードディスク26に記憶された各プログラムにしたがいバスライン29を介して、各部を制御する。
ハードディスク26は、オペレーティングシステムプログラム26o(以下OSと略す)、ニューラルネットプログラム26n、メインプログラム26m、が記憶される。
ニューラルネットプログラム26nは、ニューラルネット処理を行うプログラム(エンジン)であり、波形データが与えられると、それ以前の波形データから学習した学習結果と比較して、肯定的または否定的評価を出力する。また、これについて教示信号が与えられると、当該教示信号に基づき、ニューラルネット学習を行う。
メインプログラム26zは、本装置における学習処理および判断処理を行うプログラムである。メインプログラム26mは、後述するように、与えられた音声データを区間分割し、各区間について線形予測分析を行い、各区間について逆フィルタを求め、区間毎の逆フィルタを演算して、これと与えられた音声データから声道特徴を分離した音源波形データを求める。また、残差波形データを正規化し、区間分析し、区間毎の値の組情報を生成し、ニューラルネットプログラム26nに与える。また、ニューラルネットプログラム26nから与えられた判断結果について総合判断を行う。詳細は後述する。
本実施形態においては、オペレーティングシステムプログラム(OS)26oとして、LINUX(商標)を採用したが、これに限定されるものではない。
なお、上記各プログラムは、CDD25を介して、プログラムが記憶されたCDROM25aから読み出されてハードディスク26にインストールされたものである。なお、CD−ROM以外に、フレキシブルディスク(FD)、ICカード等のプログラムをコンピュータ可読の記録媒体から、ハードディスクにインストールさせるようにしてもよい。さらに、通信回線を用いてダウンロードするようにしてもよい。
本実施形態においては、プログラムをCD−ROMからハードディスク26にインストールさせることにより、CD−ROMに記憶させたプログラムを間接的にコンピュータに実行させるようにしている。しかし、これに限定されることなく、CD−ROMに記憶させたプログラムをCDD25から直接的に実行するようにしてもよい。なお、コンピュータによって、実行可能なプログラムとしては、そのままインストールするだけで直接実行可能なものはもちろん、一旦他の形態等に変換が必要なもの(例えば、データ圧縮されているものを、解凍する等)、さらには、他のモジュール部分と組合して実行可能なものも含む。
3.プログラムによる処理について
図3を用いて、メインプログラムおよびニューラルネットプログラムによる処理について説明する。図3のステップS21の処理がニューラルネットプログラム26nによる処理であり、他はメインプログラム26mによる処理である。また、以下の例では、ハードディスク26に、音声入力部24を介して、図4に示す発話音声波形データが記憶されており、かかる発話音声波形データを用いて、学習処理をする場合について説明する。なお、図4に示す発話音声波形データは、人間がこれを聞いた場合、感情判断が肯定的であるものとする。図4では、上から音声波形、狭帯域スペクトログラム、広帯域スペクトログラム、パワーを示す。
図3を用いて、メインプログラムおよびニューラルネットプログラムによる処理について説明する。図3のステップS21の処理がニューラルネットプログラム26nによる処理であり、他はメインプログラム26mによる処理である。また、以下の例では、ハードディスク26に、音声入力部24を介して、図4に示す発話音声波形データが記憶されており、かかる発話音声波形データを用いて、学習処理をする場合について説明する。なお、図4に示す発話音声波形データは、人間がこれを聞いた場合、感情判断が肯定的であるものとする。図4では、上から音声波形、狭帯域スペクトログラム、広帯域スペクトログラム、パワーを示す。
CPU23は、ハードディスク26に記憶された発話音声波形データを読み出し、発話区間のデータを取り出し、これを64ms毎の区間データとする(ステップS1)。音声区間は入力音声のパワーを参照しながら始点・終点を求めればよい。なお、本実施形態においては、各区間データのパワーを16ビットで定義した。
CPU23は処理対象区間番号iを初期化し(ステップS3)、i番目の処理対象区間について、線形予測係数(LPC係数)を演算する(ステップS5)。この場合、i=0であるので、0番目の処理対象区間データのLPC係数を演算する。CPU23は、LPC係数から逆フィルタを演算する(ステップS7)。CPU23は、最終の処理対象区間か否か判断し(ステップS9)、この場合、0番目であり、次が存在するので、処理対象区間番号iをインクリメントし(ステップS11)、ステップS5以下の処理を繰り返す。
ステップS9にて全処理対象区間について逆フィルタを求めると、CPU23は、元の発話音声波形データと、ステップS7にて求めた逆フィルタから、残差波形を演算する(ステップS13)。このようにして得られた残差波形データを図5に示す。かかる残差波形データは、発話音声波形データから声道フィルタ特性を分離した音源波形データである。図5と図4とを比べると、前者では、広帯域スペクトログラムからフォルマント情報が取り除かれていることが表れている。これは、線形予測分析によって声道の特徴(すなわちフォルマント情報)を取り除いたためであると考えられる。なお、フォルマントとは、スペクトログラム表示した場合、集中している部分があり(黒く浮き出ている)、その部分が該当する。
また、図5においては、残差波形の振幅が、発話音声波形データよりも大きく表されている。これは、発話音声波形データと同じ値で表現すると、ほとんど変化がわからないためである。この例では、残差波形の変化を明確に表すために最大値が32767になるように正規化している。
つぎに、CPU23は、残差波形を正規化し、一定の時間長ずつに区分する(ステップS15)。本実施形態においては、得られた残差波形の振幅の絶対値が1.0となるように、正規化し、一定の時間長として64msを採用した。また、各区間データは8kHzの16ビットデータで表した。すなわち、各区間データは、512個の点データの集合の波形データとしてで表される。
CPU23は、処理番号jを初期化し(ステップS17)、j番目の区間波形をその教示とともにニューラルネットプログラム26nに与える(ステップS19)。この場合、かかる波形データの元となった発話音声波形データは感情判断が肯定的であるので、肯定的であるとの教示信号をニューラルネットプログラム26nに与える。
CPU23は、かかる512のデータで構成された波形データについて、肯定的or否定的の判断を行い、与えられた教示に基づき係数を変化させることにより、学習を行う(ステップS21)。
CPU23は、最終の区間か否か判断し(ステップS23)、この場合、0番目であり、次が存在するので、処理対象区間番号jをインクリメントし(ステップS25)、ステップS19以下の処理を繰り返す。
これにより、1の発話音声波形データから複数のニューラルネット学習が可能となる。
つぎに、学習させたニューラルネットプログラムを用いた感情判断について図6を用いて説明する。図6のステップS51の処理がニューラルネットプログラム26nによる処理であり、他はメインプログラム26mによる処理である。なお、当然、判断対象の発話音声波形データは教示無しで与えられる。
かかる発話音声波形データを区分処理し、残差波形データを求め、これを正規化し、一定時間毎に区分するまでの処理(ステップS31〜ステップS45)は、図3ステップS1〜ステップS15と同様であるので説明は省略する。
CPU23は、処理番号jを初期化し(ステップS47)、j番目の区間波形をニューラルネットプログラム26nに与える(ステップS49)。CPU23は、ニューラルネットプログラムにより、かる512のデータで構成された波形データについて、肯定的or否定的の判断を行い、結果をメモリ27に記憶する(ステップS51)。
CPU23は、最終の区間か否か判断し(ステップS53)、この場合、0番目であり、次が存在するので、処理対象区間番号jをインクリメントし(ステップS55)、ステップS49以下の処理を繰り返す。CPU23は、最終の区間までニューラルネットプログラム26nによる判断が行われると、当該発話音声波形データの感情判断を行う。本実施形態においては、区間毎の評価「0」か「1」を抽出し、多い方の評価を当該発話音声波形データの感情判断として採用した。
一般に、音声情報のみから喜怒哀楽のような感情を抽出することは、その定義を明確に与えることができないために、難しいとされている。しかし、人間が判断する場合、音声を聞いただけで印象(雰囲気)のようなものはある程度一致した感覚として判別しているのが現状である。発明者は、発話音声波形データ自体を、ニューラルネット学習させて感情判断をすることも考えた。しかし、発話音声波形データには個人差などがありすぎて、ニューラルネット学習を行っても、正確な判定が不可能であった。
そこで、発明者は、声道フィルタ特性を取り除いた残差波形に着目した。かかる残差波形については、感情による波形データの特性が表れているか否かについては不明であるが、実験をした結果、ニューラルネット学習を行うことにより、かなりの確率で判断が可能であった。
このように、本実施形態においては、発話音声波形データから声道フィルタ特性を取り除いた音源データを得て、これをニューラルネット学習を行っている。また、人間が視聴した場合に、一般的には何をいっているのかわからないような音源情報を用いて、これをニューラルネット学習させることにより、感情判断を行っている。したがって、種々のパターンに合致した感情判断が可能である。
また、音源情報のうち、どの特徴量が感情を示しているのかについては定かではない。したがって、本実施形態においては、残差波形データをさらに区分けした区分データを用いて、これらを全てニューラルネット学習を行っている。
本発明は、例えば、電話お客様相談センターにおけるオペレータの対応を入力しておき、これを後日、解析して、結果をフィードバックすることにより、顧客満足度(CS値)を向上させることができる。また、お客様の対話音声を記憶しておき、リアルタイムでこれを判断することにより、感情の変化を把握することもできる。これにより、顧客の感情が決定的に悪くなる前に、オペレータを変更するなどの対応を取ることもできる。
本実施形態においては、発話内容のコンテキスト(文脈)に関係なく感情判断ができるので、言語の種類を問わないで学習および判断が可能となる。
なお、本実施形態においては、中間層が4段(16、8、4、2)のニューラルネットで学習を行ったが、これに限定されるものではない。
なお、本実施形態においては、分析次数を16としたが、これに限定されない。
4.他の実施形態
上記実施形態においては、図1に示す機能を実現する為に、CPUを用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。
上記実施形態においては、図1に示す機能を実現する為に、CPUを用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。
なお、上記プログラムの一部の処理をオペレーティングシステム(OS)にさせるようにしてもよい。
1・・・・ 感情判断装置
23・・・CPU
27・・・メモリ
23・・・CPU
27・・・メモリ
Claims (8)
- 感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する発話区間区分手段、
各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数を演算する線形予測係数演算手段、
前記各発話区間毎の線形予測係数から各発話区間毎の逆フィルタを演算する逆フィルタ演算手段、
前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから、残差波形を演算する残差波形演算手段、
得られた残差波形を所定区間に区分して、区分別残差波形データを演算する区分別残差波形データ演算手段、
前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行うニューラルネット学習手段、
を備えたことを特徴とするニューラルネット学習装置。 - 感情評価についての肯定評価または否定評価が付与された発話音声データについて、声道フィルタ特性を分離した音源波形データを演算する音源波形データ演算手段、
前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行う学習手段、
を備えたことを特徴とするニューラルネット学習装置。 - 請求項2のニューラルネット学習装置において、
前記音源波形データ演算手段は、
感情評価についての肯定評価または否定評価が付与された発話音声データを、複数の発話区間に区分する発話区間区分手段、
各発話区間について、線形予測分析を行い各発話区間毎の線形予測係数の逆フィルタを演算する線形予測逆フィルタ演算手段、
前記複数の発話区間毎の逆フィルタを用いて、前記発話音声データから残差波形を演算する残差波形演算手段、
を備え、
前記学習手段は、
得られた残差波形を所定区間に区分して、区分別残差波形データを演算する区分別残差波形データ演算手段、
前記各区分別残差波形データについて、前記発話音声データに付与された肯定評価または否定評価の波形データであるとして、ニューラルネット学習を行うニューラルネット学習手段、
を備えていること、
を特徴とするもの。 - 感情評価についての肯定評価または否定評価が付与された発話音声データについて、声道フィルタ特性を分離した音源波形データを得て、かかる音源波形データについて、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られたニューラルネット学習情報を記憶するニューラルネット学習情報記憶手段、
前記ニューラルネット学習情報と、判断対象の発話音声データとを対比し、その肯定的感情評価または否定感情評価を判断する判断手段、
を備えたことを特徴とする感情判断装置。 - コンピュータに以下のステップを実行させるニューラルネット学習方法。
感情評価についての肯定評価または否定評価が付与された発話音声データを入力させるステップ、
前記発話音声データから声道フィルタ特性を分離した音源波形データを演算するステップ、
前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行うステップ。 - コンピュータによる感情判断方法であって、
前記コンピュータに、ニューラルネット学習情報を記憶させておき、
前記ニューラルネット学習情報は、感情評価についての肯定評価または否定評価が付与されたテスト発話音声データについて、声道フィルタ特性を分離した音源波形データを演算し、この音源波形データについて、前記テスト発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られた情報である、
前記コンピュータは、判断対象の発話音声データが与えられると、前記ニューラルネット学習情報と比較し、当該発話音声データの肯定的感情評価または否定感情評価を判断すること、
を特徴とするコンピュータによる感情判断方法。 - コンピュータに以下のステップを実行させるためのニューラルネット学習プログラム。
感情評価についての肯定評価または否定評価が付与された発話音声データを入力させるステップ、
前記発話音声データから声道フィルタ特性を分離した音源波形データを演算するステップ、
前記音源波形データが、前記発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行うステップ。 - コンピュータに以下のステップを実行させるための感情判断プログラム。
前記コンピュータに、ニューラルネット学習情報を記憶させておくステップ、
前記ニューラルネット学習情報は、感情評価についての肯定評価または否定評価が付与されたテスト発話音声データについて、声道フィルタ特性を分離した音源波形データを演算し、この音源波形データについて、前記テスト発話音声データに付与された肯定評価または否定評価であるとしてニューラルネット学習を行って得られた情報である、
判断対象の発話音声データが与えられると、前記ニューラルネット学習情報と比較し、当該発話音声データの肯定的感情評価または否定感情評価を判断するステップ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005327536A JP2007133227A (ja) | 2005-11-11 | 2005-11-11 | ニューラルネット学習装置および感情判断装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005327536A JP2007133227A (ja) | 2005-11-11 | 2005-11-11 | ニューラルネット学習装置および感情判断装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007133227A true JP2007133227A (ja) | 2007-05-31 |
Family
ID=38154933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005327536A Pending JP2007133227A (ja) | 2005-11-11 | 2005-11-11 | ニューラルネット学習装置および感情判断装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007133227A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9189471B2 (en) | 2011-11-18 | 2015-11-17 | Samsung Electronics Co., Ltd. | Apparatus and method for recognizing emotion based on emotional segments |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
-
2005
- 2005-11-11 JP JP2005327536A patent/JP2007133227A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9189471B2 (en) | 2011-11-18 | 2015-11-17 | Samsung Electronics Co., Ltd. | Apparatus and method for recognizing emotion based on emotional segments |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
CN108847223B (zh) * | 2018-06-20 | 2020-09-29 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6523005B2 (en) | Method and configuration for determining a descriptive feature of a speech signal | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
KR20130133858A (ko) | 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출 | |
JP2012508903A (ja) | 自動音声テキスト変換のためのシステムと方法 | |
JP6908045B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN104464755B (zh) | 语音评测方法和装置 | |
CN110797032B (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
JP2007171944A (ja) | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
JP2007219286A (ja) | 音声のスタイル検出装置、その方法およびそのプログラム | |
KR20170073113A (ko) | 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치 | |
JP2018180334A (ja) | 感情認識装置、方法およびプログラム | |
US20230206924A1 (en) | Voice wakeup method and voice wakeup device | |
CN114373452A (zh) | 基于深度学习的嗓音异常识别和评价的方法及系统 | |
JP2009020460A (ja) | 音声処理装置およびプログラム | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
GB2576960A (en) | Speaker recognition | |
CN105895079A (zh) | 语音数据的处理方法和装置 | |
Grewal et al. | Isolated word recognition system for English language | |
Latorre et al. | Speech intonation for TTS: study on evaluation methodology. | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
JP2007133227A (ja) | ニューラルネット学習装置および感情判断装置 | |
Jung et al. | Selecting feature frames for automatic speaker recognition using mutual information | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Effective date: 20080630 Free format text: JAPANESE INTERMEDIATE CODE: A7424 |