JP4580190B2 - 音声処理装置、音声処理方法およびそのプログラム - Google Patents
音声処理装置、音声処理方法およびそのプログラム Download PDFInfo
- Publication number
- JP4580190B2 JP4580190B2 JP2004161471A JP2004161471A JP4580190B2 JP 4580190 B2 JP4580190 B2 JP 4580190B2 JP 2004161471 A JP2004161471 A JP 2004161471A JP 2004161471 A JP2004161471 A JP 2004161471A JP 4580190 B2 JP4580190 B2 JP 4580190B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- state
- expression
- likelihood
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
特許文献1に開示する技術は、音声データを解析して、音声のスペクトル幅、ピーク周波数、信号レベル等の音声特徴量を生成し、生成した音声特徴量が予め決められている条件を満たすか否かで重要部分を判定し、抽出するものである。例えば、観客の歓声があがったときの音声データの音声特徴量を予め取得しておき、この音声特徴量と比較し、音声特徴量が類似または近似する部分を重要部分として抽出し、抽出した重要部分をつなぎ合わせて要約を生成するものである。
本発明はこのような問題を解決するためになされたもので、コンテンツに含まれる音声データに基づき、このコンテンツ中の感情表出を検出することができる音声処理装置、音声処理方法およびそのプログラムを提供するものである。
この構成により複数の感情表出状態を精度良く判定することができる。
図1は、本発明の実施の形態に係る音声処理装置の機能構成を示すブロック図である。図1において、音声処理装置100は、学習音声を用いて生成された符号帳であって、学習音声に含まれる音声特徴量の組から生成されたベクトル量子化された音声特徴量ベクトルとそれに対応する符号、音声を発した話者の感情、話者の感情表出があったときの音声特徴量ベクトルの出現確率である感情表出確率、および、話者の感情表出がなかったときの音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する符号帳110CBを予め記憶する記憶手段110と、入力音声に含まれる音声特徴量ベクトルを抽出する音声特徴量抽出手段120と、音声特徴量抽出手段120が抽出した音声特徴量ベクトルに対応する音声特徴量ベクトルを符号帳から検出し、この符号帳から検出された音声特徴量ベクトルに対応する感情表出確率に基づいて、話者の感情表出についての尤度である感情表出状態尤度を算出する感情表出状態尤度算出手段130と、音声特徴量抽出手段120が抽出した音声特徴量ベクトルに対応する音声特徴量ベクトルを符号帳110CBから検出し、この符号帳110CBから検出された音声特徴量ベクトルに対応する平静状態確率に基づいて、話者の平静状態についての尤度である平静状態尤度を算出する平静状態尤度算出手段140と、感情表出状態尤度算出手段130が算出した感情表出状態尤度、および、平静状態尤度算出手段140が算出した平静状態尤度に基づいて、音声特徴量抽出手段120が入力音声から抽出した所定の音声特徴量を含む入力音声の各音声部分に、話者の感情表出があったか否かを判定する感情表出判定手段150とを含むように構成されている。この実施例では更に、感情表出判定手段150によって話者の感情表出があったと判定された音声部分に対応するコンテンツ部分を含む要約コンテンツを生成する要約コンテンツ生成手段160を設けた場合を示している。
図2は、音声処理装置100の具体的構成の一例を示す図である。図2において、入力部210に外部からディジタル信号として入力された音声コンテンツは、CPU(Central Processing Unit)231の制御によりハードディスク235に一時格納される。入力部210には、例えば、マウス等のポインティングデバイス212とキーボード211等が接続されている。なお、音声コンテンツとしては、外部の通信ネットワークから受信されたコンテンツでもよいし、あるいはフレキシブルディスクドライブやCD(Compact Disk)、DVD(Digital Versatile Disk)等のドライブから読み出されたものを入力してもよい。ここではコンテンツは映像コンテンツであってもよく、その場合は、映像コンテンツに含まれている音声信号を入力部210に入力する。
図1における音声特徴量抽出手段120、感情表出状態尤度算出手段130、平静状態尤度算出手段140、感情表出判定手段150、および、要約コンテンツ生成手段160の機能は、図2においてそれぞれの処理を記述したプログラムをCPU231により実行することにより実現される。それらのプログラムは例えばハードディスク235に格納されており、実行時には必要なプログラムがRAM(Random Access Memory)233に読み込まれ、CPU231により実行される。ハードディスク235にはそのほか、後述する符号帳が格納されており、また、前述の入力音声コンテンツもしくは映像コンテンツが格納される。
出力部240は、付加的機能としてCPU231がプログラム実行により入力音声コンテンツ中の感情表出部分を抽出し、生成した要約コンテンツを出力する機能を有し、フレキシブルディスクドライブやDVD等への記録機能をさらに含んでもよく、通信機能を有し、外部にデータを送信できるようにしてもよい。また、音声コンテンツに対応する区間の映像コンテンツを抽出し、要約コンテンツとして必要に応じて音声とともに出力してもよい。
まず、学習音声を用いて生成された符号帳であって、学習音声に含まれる所定の音声特徴量の組(パラメータの組)である音声特徴量ベクトル、音声を発した話者の感情、話者の感情表出があったとき(以下、感情表出状態という。)の音声特徴量ベクトルの出現確率である感情表出確率、および、話者の感情表出がなかったときの音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する符号帳が予め作成され、図1の記憶手段110に格納されている(S310)。この処理は、任意の入力音声データについてこの発明に従ってコンテンツの要約を生成する処理を開始する前に行っておく。符号帳作成の詳細とともに後述するが、音声特徴量ベクトルは、特許文献2に開示されているような音声のフレームごとに検出する基本周波数、平均パワー、動的特徴量の時間変化特性の少なくともいずれか1つ以上及び/又はそれらのフレーム間差分の少なくともいずれか1つ以上のパラメータの組を含むベクトルである。
S320で入力音声の所定区間(判定区間)から抽出した一連の音声特徴量ベクトルにそれぞれ最も近い音声特徴量ベクトルを符号帳から検出し、この符号帳からその検出された音声特徴量ベクトルの、感情表出状態での出現確率を読み出し、この一連の出現確率に基づいて、話者の感情表出についての尤度である感情表出状態尤度を算出する。この感情表出状態尤度の計算は、入力音声の一連の音声特徴量ベクトルの判定区間ごと(例えば後述の音声小段落ごと、または一定区間長ごと)に行う。
次に、ステップS330で算出した感情表出状態尤度、および平静状態尤度に基づいて、ステップS320で入力音声から抽出した所定の音声特徴量の組を含む入力音声の音声部分に、話者の感情表出があったか否かを判定区間ごとに判定する(S340)。
最後に、必要に応じてステップS340で話者の感情表出があったと判定された区間に対応するコンテンツ部分を全て入力音声コンテンツから抽出し、要約コンテンツとする(S350)。
これらの音声特徴量の抽出法は公知であり、その詳細については、例えば、非特許文献1、非特許文献2、非特許文献3等を参照されたい。
LPCケプストラム係数の次数kは、1からKまでの整数のいずれかである。動的特徴量d(t)の単位時間当たりの極大点の数、または、単位時間当たりの変化率は発話速度の尺度となる。
この規格化は、例えば、f0'、Δf0'(-i)、Δf0'(i)のそれぞれを、例えば、処理対象の音声データ全体の平均基本周波数で割ることによって行うのでもよいし、標準化して平均0、分散1にしてもよい。また、処理対象の音声データ全体の平均基本周波数の代わりに、後述する音声小段落や音声段落毎の平均基本周波数や、数秒や数分等の時間内での平均基本周波数等を用いるのでもよい。
動的特徴量(ダイナミックメジャー)のピークの本数は、以下のように算出する。まず、現フレームの開始時刻を中心に現フレームより十分長い時間幅(2T1、ただしT1は例えばフレーム長の10倍程度とする)の区間を設ける。次に、この区間内における動的特徴量d(t)の時間変化の極大点を算出し、極大点の個数dp(以下、単にdpという)を計数する。
上記の、T1、T2、T3の値は、それぞれ、フレーム長より十分長いものとし、以下では、T1=T2=T3=450msとする。ただし、これらの値に限られるものではない。また、フレームの前後の無声区間の長さを、それぞれ、tSR、tSFとする。ステップS320では、上記のf0"、Δf0"(-i)、Δf0"(i)、p”、Δp"(-i)、Δp"(i)、dp、Δdp(-T2)、Δdp(T3)等(以下、それぞれをパラメータと呼ぶ)の値をフレーム毎に抽出する。
ステップS320では、入力音声を対象に、上記の音声特徴量パラメータf0"、Δf0"(-i)、Δf0"(i)、p”、Δp"(-i)、Δp"(i)、dp、Δdp(-T2)、Δdp(T3)等のパラメータのうち、符号帳に記録された音声特徴量ベクトルで使用されているパラメータ、例えば前述の(f0",p",dp)の値をフレームごとに算出し、全音声コンテンツに渡る一連の音声特徴量ベクトルを得る。これによって、音声コンテンツの各音声特徴量ベクトルに対応する符号帳中の音声特徴量ベクトルを特定でき、感情表出確率および平静状態確率を決定できることになる。
具体的には、入力信号の短時間スペクトルからスペクトル包絡を除去し、得られた予測残差の自己相関関数(以下、変形相関関数という)を算出し、変形相関関数のピーク値が所定の閾値より大きいか否かによって有声/無声の判定を行う。また、そのようなピークが得られる相関処理の遅延時間に基づいて、ピッチ周期1/f0の抽出を行う。
具体的には、復号された利得係数の絶対値または二乗値をパワーとして用い、ピッチ成分の利得係数と非周期成分の利得係数との比に基づいて有声/無声の判定を行うことができる。また、復号されたピッチ周期の逆数をピッチ周波数、すなわち基本周波数として用いることができる。また、上記の式(1) で説明した動的特徴量の計算に使用するLPCケプストラム係数は、CELP符号を復号して得られたものを変換して求めることができる。
図4に戻って、有声区間の両側の無声区間の時間tSR、tSFがそれぞれ予め決めたtS以上になるとき、その無声区間によって囲まれた有声区間を含む信号部分を音声小段落Sとして抽出する(S332)。以下では、この無声区間の時間tSの値を、例えば、tS=400msとする。
音声小段落の抽出は、上記の有声区間を囲む無声区間の時間がtS以上となるという条件で行う。図5に、音声小段落としてSj-1、Sj、Sj+1を示し、以下では音声小段落Sjを処理対象の音声小段落とする。音声小段落Sjは、Qj個の有声区間から構成され、音声小段落Sjの平均パワーをPjとする。
ステップS335での感情表出状態尤度の算出に先立って、図6を用いて符号帳の作成方法について説明する。まず、多数の学習用音声を被験者から採取し、感情表出があった発話と平静状態での発話とを識別できるようにラベルを付ける(S311)。例えば、音声が、笑っている、怒っている、悲しんでいる、とそれぞれ判断した区間にラベル付けを行う。
ステップS311で上記のラベル付けを行ったら、ラベル付けされた音声データから、ステップS320での処理と同様に予め決めたパラメータの組の音声特徴量、例えば(f0",p",dp)の値を音声特徴量ベクトル値としてフレームごとに抽出する(S312)。ラベル付けによって得られる感情表出状態または平静状態の情報と、感情表出状態または平静状態とされたラベル区間(ラベル付けされた音声区間)について得られる音声特徴量ベクトルとを用いて、LBGアルゴリズムに従って符号帳を作成する(S313)。
符号帳に記録されるエントリの数(以下、符号長サイズという。)は、2m個(mは、1以上の整数)確保できると共に可変であり、エントリのインデックスとしてコードCが用いられ、インデックスにはコードCに対応したmビットの量子化ベクトル(C=00…0〜11…1)が用いられる。
符号帳には、この量子化ベクトル(コードC)に対応させて、フレーム長より十分長い所望の区間、例えば学習音声のラベル区間に得られる全音声特徴量ベクトルを使って上記LBGアルゴリズムにより決められた代表ベクトルを符号帳の音声特徴量代表ベクトルとして記録しておく。その際、各音声特徴量を、例えば、その平均値と標準偏差で規格化してもよい。以下の説明では、符号帳の音声特徴量代表ベクトルも単に音声特徴量ベクトルと呼ぶ。
上記の式(3) および式(4) 中の各条件付出現確率Pemo(Ci|C1…Ci-1)、Pnrm(Ci|C1…Ci-1)にN-gramモデルを適用すると、各条件付出現確率は以下の式(5) および式(6) に示すように近似される。
Pnrm(Ci|C1…Ci-1)=Pnrm(Ci|Ci-N+1…Ci-1) (6)
上記の式(5) のPemo(Ci|Ci-N+1…Ci-1)および式(6) のPnrm(Ci|Ci-N+1…Ci-1)は、通常、符号帳から全て得られるようになっているが、一部のものについては、学習音声から得られないものもある。その場合は、他の条件付出現確率や単独出現確率から補間によって求めたものでもよい。例えば、低次(すなわち、コード列が短い)の条件付出現確率と単独出現確率等とから高次(すなわち、コード列が長い)の条件付出現確率を補間して求めることができる。
この補間の方法では、Pemo(Ci|Ci-2Ci-1)およびPnrm(Ci|Ci-2Ci-1)を、上記の感情表出状態での3つの出現確率、または、平静状態での3つの出現確率を用い、以下の式(7) および式(8) に基づいて算出する。
PAemo=Pemo(C3|C1C2)…Pemo(CFA|CFA-2CFA=1) (9)
PAnrm=Pnrm(C3|C1C2)…Pnrm(CFA|CFA-2CFA-1) (10)
本発明の実施の形態では、上記のように補間と、感情表出状態尤度PAemoおよび平静状態尤度PAnrmの算出とができるように、上記の例では、trigram (N=3)、bigram (N=2)、および、unigram (N=1)を各コードについて算出しておき、符号帳に格納しておくものとする。つまり、符号帳には、各コードに対応して、音声特徴量ベクトルと、その感情表出状態での出現確率と、平静状態での出現確率との組が格納される。
図8は、音声データの処理を説明するための模式図である。時刻tから始まる音声小段落のうち、第1フレームから第4フレームまでを符号i〜i+3を付して示している。フレーム長およびフレームシフトを、上記のように、それぞれ、100ms、50msとした。ここでは、フレーム番号i(時刻t〜t+100)のフレームについてコードC1が、フレーム番号i+1(時刻t+50〜t+150)のフレームについてコードC2が、フレーム番号i+2(時刻t+100〜t+200)のフレームについてコードC3が、そして、フレーム番号i+1(時刻t+50〜t+150)のフレームについてコードC4が得られているものとする。すなわち、フレーム順にコードがC1、C2、C3、C4であるとする。
PSemo=Pemo(C3|C1C2)Pemo(C4|C2C3) (11)
PSnrm=Pnrm(C3|C1C2)Pnrm(C4|C2C3) (12)
この例では、符号帳からコードC3、C4の感情表出状態および平静状態の各単独出現確率を求め、コードC2の次にコードC3が感情表出状態および平静状態で出現する条件付出現確率を求め、さらに、コードC3が連続するコードC1C2の次に感情表出状態および平静状態で出現し、コードC4が連続するコードC2C3の次に感情表出状態および平静状態で出現する条件付出現確率を求めると以下のようになる。
(13)
Pemo(C4|C2C3)=λemo1Pemo(C4|C2C3)+λemo2Pemo(C4|C3)+λemo3Pemo(C4)
(14)
Pnrm(C3|C1C2)=λnrm1Pnrm(C3|C1C2)+λnrm2Pnrm(C3|C2)+λrnm3Pnrm(C3)
(15)
Pnrm(C4|C2C3)=λnrm1Pnrm(C4|C2C3)+λnrm2Pnrm(C4|C3)+λnrm3Pnrm(C4)
(16)
上記の式(13)〜(16)を用いることによって、式(11)と(12)とで示される第3フレームまでの感情表出状態尤度PSemoと平静状態尤度をPSnrmが求まる。ここで、条件付出現確率Pemo(C3|C1C2)およびPnrm(C3|C1C2)は、フレーム番号i+2以降で計算できる。
RE=(logPAemo-logPAnrm)/L>W (19)
を満足することを条件とすることにより、小段落のフレーム数Lに応じて重み付けの影響を増減するようにしてもよい。
(a1) PAlau>PAnrm
(b1) WLPAlau>PAnrm、
(c1) RL=(logPAlau-logPAnrm)/L>W、
のいずれか予め決めた条件を使って、その条件を満足していれば笑いの表出状態であると判定する。「怒り」であるか「平静」であるかの判定は式(23)を使って尤度PAangを計算し、
(a2) PAang>PAnrm、
(b2) WLPAang>PAnrm、
(c2) RA=(logPAang-logPAnrm)/L>W、
のいずれか予め決めた条件を使って、その条件を満足していれば怒りの表出状態と判定する。同様に、「悲しみ」であるか「平静」であるかの判定は式(24)を使って尤度PAsadを計算し、
(a3) PAsad>PAnrm、
(b3) WLPAsad>PAnrm、
(c3) RS=(logPAsad-logPAnrm)/L>W、
のいずれか予め決めた条件を使って、その条件を満足するか判定すればよい。判定条件はこれ以外にもいろいろなものが容易に考えられる。
この発明の原理によれば、前述のように、音声特徴量として基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか1つ以上及び/又はこれらのフレーム間差分の少なくともいずれか1つ以上を使用すればよいが、これらの音声特徴量のうち、動的特徴量の時間変化特性を含むことことが好ましい。更に、音声特徴量として少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのフレーム間差分を使用することにより感情検出の精度を高めることができる。音声特徴量として少なくとも特に基本周波数、動的特徴量の時間変化特性は実用的な特徴量として好ましい。
第1実施形態
この実施形態は3つの感情、「笑い」、「怒り」、「悲しみ」を区別せず、何れの感情表出も「感情」として検出する場合である。
学習音声中の「笑い」の表出区間、「怒り」の表出区間、「悲しみ」の表出区間は区別せず、全て「感情」のラベリングをし、その他の区間で、平静である区間に「平静」のラベリングをして図9に示すように1つの符号帳を作成しておく。
ステップS1:入力音声コンテンツから所定の音声区間Sを取り込む。音声区間は前述の音声小段落であってもよいし、あるいは予め決めた少なくとも1フレームを含む一定長の音声区間であってもよい。
ステップS2:取り込んだ音声区間を分析してフレーム毎の音声特徴量ベクトルを求め、図9の符号帳を参照して例えば式(17), (18)又は式(19), (20)により平静状態尤度PAnrmと感情表出状態尤度PAemoを計算する。
ステップS3:残りの音声区間があるか判定し、あればステップS1に戻り、次の音声区間について同様の処理を行う。
ステップS5:ステップS4で検出した区間S'の位置に対応する音声区間を入力音声コンテンツから感情表出区間として抽出する。
この実施形態は、上記第1実施形態において検出した感情表出区間S'を、図10のステップS5において更に感情表出が「笑い」、「怒り」、「悲しみ」のどれであるかを判定する。この第2実施形態は第1実施形態で使用する図9の感情表出検出用の符号帳に加えて次の符号帳を予め作成しておく。
上記「感情」のラベルがつけられた学習音声区間中の笑いの表出区間に「笑い」をラベリングし、怒りの表出区間に「怒り」をラベリングし、悲しみの表出区間に「悲しみ」をラベリングし、これら「笑い」、「怒り」、「悲しみ」がラベリングされた音声区間に基いて図12に示す符号帳を作成する。
ステップS5:ステップS4で検出された1つの感情表出区間S’内の一連の音声特徴量ベクトルを得る。これはステップS1〜S3において全音声区間についての音声特徴量ベクトルが既に求められているので、その中から区間S’に対応する一連の音声特徴量ベクトルを取り出せばよい。
ステップS7:これら尤度PAlau, PAang, PAsadのうち、最大の尤度を判定し、その最大尤度の感情を表すマーク、例えば笑いはLau、怒りはAng、悲しみはSadのマークをその検出区間S’の位置に対応して記憶する。
ステップS8:未処理の感情表出検出区間S’が残っているか判定し、残っていればステップS5に戻り、次の感情表出検出区間S’について同様の処理を実行する。
ステップS9:全ての感情表出検出区間S’について最大尤度の判定が終了していれば、全ての感情表出検出区間S’の中からマークLau, Ang, Sadのうち、例えば利用者により指定された感情のマークの検出区間と対応する音声区間を入力の音声コンテンツから抽出する。
このように、第2実施形態に拠れば、利用者が1種類又は複数種類の感情表出を指定すれば、その指定された感情表出を音声コンテンツから抽出することができる。
上述の第2実施形態では音声コンテンツからまず感情表出区間を検出し、次に各感情表出区間が「笑い」、「怒り」、「悲しみ」のいずれであるかを判定する場合を示したが、この第3実施形態では、音声コンテンツから直接「笑い」、「怒り」、「悲しみ」の任意の感情表出を検出する。符号帳は図12に示したものを使用する。図14は第3実施形態による感情表出区間の検出処理手順を示す。
ステップS1:音声区間Sを入力音声コンテンツから取り込む。
ステップS2:音声区間Sの一連のフレームの音声特徴量ベクトルを求め、図12の符号帳を参照して笑い表出尤度PAlau、怒り表出尤度PAang、悲しみ表出尤度PAsadをそれぞれ計算する。
ステップS4:未処理の音声区間Sが残っているが判定し、残っていればステップS1に戻り、次の音声区間Sについて同様の処理を実行する。
ステップS5:全ての音声区間Sについて最大尤度の判定が終了していれば、全ての音声区間Sの中からマークLau, Ang, Sadのうち例えば利用者により指定されたマークの検出区間と対応する音声区間を入力音声コンテンツから抽出する。
この実施形態も、例えば「笑い」、「怒り」、「悲しみ」の3種類の感情表出の任意のもの(1つ又は複数)を抽出することを可能にするものであり、予め次の3つの符号帳を作成しておく(図7の例と同様である)。
(1) 学習音声中の全ての笑いの表出区間に「笑い」のラベリングをし、全ての平静状態区間に「平静」のラベリングをして笑い検出用符号帳を作成する。
(2) 学習音声中の全ての怒りの表出区間に「怒り」のラベリングをし、全ての平静状態区間に「平静」のラベリングをして怒り検出用符号帳を作成する。
(3) 学習音声中の全ての悲しみの表出区間に「悲しみ」のラベリングをし、全ての平静状態区間に「悲しみ」のラベリングをして悲しみ検出用符号帳を作成する。
ステップS1:入力音声コンテンツから音声区間Sを取り込む。音声区間Sは前述のように音声小段落でもよいし、予め決めた一定長の区間でもよい。
ステップS2:音声区間Sを分析してフレーム毎の音声特徴量を求め、上記笑い検出用符号帳を参照して笑い表出尤度PAlauとそれに対する平静状態尤度PAnrmを求め、笑い尤度比
RL=(logPAlau-logPAnrm)/L
を計算する。上記怒り検出用符号帳を参照して怒り表出尤度PAangとそれに対する平静状態尤度PAnrmを求め、怒り尤度比
RA=(logPAang-logPAnrm)/L
を計算する。更に、上記悲しみ検出用符号帳を参照して悲しみ表出尤度PAsadとそれに対する平静状態尤度PAnrmを求め、悲しみ尤度比
RS=(logPAsad-logPAnrm)/L
を計算する。計算したこれら尤度比RL, RA, RSを記憶する。
ステップS4,S5,S6:ステップS1,S2,S3の処理により例えば図16に概念的に示すように、縦軸を尤度比Rとして笑い表出尤度比RL、怒り表出尤度比RA、悲しみ表出尤度比RSの曲線がそれぞれえられており、これらと予め決めた閾値Rthを比較し、Rthより大となる区間を検出し、それらの位置と感情マークLau, Ang, Sadを対応させて記憶する。
このように、この第3実施形態においても「笑い」、「怒り」、「悲しみ」の任意の感情表出を選択してコンテンツから抽出することが可能である。
この実施形態は第4実施形態の変形例である。第4実施形態では感情表出区間を検出するために各感情表出状態尤度比を一定閾値Rthと比較したが、ここでは、各感情表出状態尤度を共通の平静状態尤度と比較して各感情表出区間を検出する。そのために、学習音声中の笑い表出区間、怒り表出区間、悲しみ表出区間にそれぞれ「笑い」、「怒り」、「悲しみ」をラベリングし、音声が平静となる区間に「平静」をそれぞれラベリングし、図17に示す符号帳を作成しておく。図17に示すように、符号帳には笑い、怒り、悲しみ、平静の各感情表出における符号の単独出現確率(unigram)、条件付出現確率(bigram, trigram)が学習音声から求められ、書き込まれている。
ステップS1:入力音声コンテンツから音声区間Sを取り込む。
ステップS2:音声区間Sを分析してフレーム毎の音声特徴量を求め、図17の符号帳を参照して笑い表出尤度PAlau、怒り表出尤度PAang、悲しみ表出尤度PAsad、平静状態尤度PAnrmを計算し、記憶する。
ステップS3:残りの音声区間があるか判定し、あればステップS1に戻り、次の音声区間について同様の処理を実行する。残りの音声区間がなければ、「笑い」、「怒り」、「悲しみ」のうち利用者により指定された1つ又は複数についてステップS4,S5,S6の対応するものを実行する。
ステップS7:「笑い」、「怒り」、「悲しみ」のうち、利用者により指定された感情の検出区間に対応する音声区間を音声コンテンツから抽出する。
この実施形態では、予め学習音声中の「笑い」、「怒り」、「悲しみ」の音声区間にそれぞれ対応するラベルをつけ、「笑い」の音声区間と「怒り」の音声区間の全フレームの音声特徴量ベクトルから笑い表出についての各量子化音声特徴量ベクトルの各出現確率と、怒り表出についての量子化音声特徴量ベクトルの各出現確率を求め、図20に示す符号帳CB−1を作成し、同様に「怒り」の音声区間と「悲しみ」の音声区間の全フレームの音声特徴量ベクトルから怒り表出についての各量子化音声特徴量ベクトルの各出現確率と、悲しみ表出についての量子化音声特徴量ベクトルの各出現確率を求め、図20に示す符号帳CB−2を作成し、「悲しみ」の音声区間と「笑い」の音声区間の全フレームの音声特徴量ベクトルから悲しみ表出についての各量子化音声特徴量ベクトルの各出現確率と、笑い表出についての量子化音声特徴量ベクトルの各出現確率を求め、図20に示す符号帳CB−3を作成しておく。
ステップS1〜S4は図10の各感情を区別しない場合の処理手順と同様であり、図9の符号帳を使って全音声区間について得た感情表出状態尤度WLPAemoと平静状態尤度PAnrmの曲線からWLPAemo>PAnrmとなる区間を感情表出区間S’として全て検出し、一時記憶する。
ステップS5:感情表出区間S’を取り込む。
ステップS6:感情表出区間S’の一連の音声特徴量ベクトルから図20の符号帳CB−1を参照して笑い表出尤度PAlau1と怒り表出尤度PAang2を求め、符号帳CB−2を参照して怒り表出尤度PAang1と悲しみ表出尤度PAsad2を求め、符号帳CB−3を参照して悲しみ表出尤度PAsad1と笑い表出尤度PAlau2を求める。
ステップS7:上記尤度から笑い、怒り、悲しみについてそれぞれ2つの尤度を以下のように決める。
怒り尤度: PANG1=PAang1/PAsad2; PANG2=PAang2/PAlau1
悲しみ尤度:PSAD1=PAsad1/PAlau2; PSAD2=PAsad2/PAang1
ステップS8:笑い度、怒り度、悲しみ度を以下のように決める。
笑い度: LAU=(PLAU1+PLAU2)/2
怒り度: ANG=(PANG1+PANG2)/2
悲しみ度: SAD=(PSAD1+PSAD2)/2
LAU>ANGかつLAU>SADの区間を検出し、Lauのマークをつける。
ANG>SADかつANG>LAUの区間を検出し、Angのマークをつける。
SAD>LAUかつSAD>ANGの区間を検出し、Sadのマークをつける。
ステップS10:全ての検出区間S’について処理が終了したか判定し、終了してなければステップS5に戻って次の感情表出検出区間S’についてステップS6〜S9で同様の処理を実行する。
ステップS11:全ての検出区間S’について終了していれば、利用者により指定された感情のマークの区間を音声コンテンツから抽出する。あるいはユーザが希望する指定の時間長で要約を視聴したい、笑っているところだけ見たい、などの要求を満足する閾値Rth以上の区間を抽出してもよい(図22の破線参照)。
以上説明したように、本発明の実施の形態に係る音声処理装置は、学習音声から感情表出があった部分の音声特徴量を抽出し、その音声特徴量に基づいて入力音声の感情表出を判定するため、コンテンツに含まれる音声データに基づき、このコンテンツを感情面に着目して要約することができる。
また、音声特徴量が、少なくとも、基本周波数、パワー、動的特徴量のうち、いずれか1つ以上を含み、話者依存性の少ない音声特徴量に基づいて要約コンテンツを作成するため、より正確に感情表出を検出できる。
また、本発明の実施の形態では、音声処理装置が上記のS310〜S360の各ステップでの処理を行う音声処理動作について説明したが、これらのステップS310〜S360を含む音声処理動作を実行させるための音声処理プログラムがインストールされた所定のコンピュータを用いて実施することも可能である。
110 記憶手段
110CB 符号帳
120 音声特徴量抽出手段
130 感情表出状態尤度算出手段
140 平静状態尤度算出手段
150 感情表出判定手段
160 要約コンテンツ生成手段
210 入力部
220 表示部
231 CPU
232 ROM
233 RAM
234 EEPROM
235 ハードディスク
240 出力部
Claims (14)
- フレーム毎の音声特徴量の組に基づき音声の感情表出状態を判定する音声処理方法であって、
(a) 基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか1つ以上及び/又はこれらのフレーム間差分の少なくともいずれか1つ以上を含む音声特徴量の組から成る各音声特徴量ベクトルと感情表出状態でのその音声特徴量ベクトルの出現確率と、各音声特徴量ベクトルの平静状態での出現確率とがコードごとに格納された第1符号帳と、複数種類の感情表出状態の各感情表出状態と他の全ての各感情表出状態との組のそれぞれの感情表出状態における音声特徴量ベクトルの出現確率がコードごとに格納された複数の第2符号帳と、が予め設けられており、入力音声の少なくとも1フレーム以上を含む区間の上記音声特徴量の組を量子化した上記第1符号帳中の対応する音声特徴量ベクトルの感情表出状態及び平静状態での出現確率をそれぞれ求めるステップと、
(b) 上記区間の上記音声特徴量ベクトルの感情表出状態での出現確率に基づいて感情表出状態となる尤度と、上記音声特徴量ベクトルの平静状態での出現確率に基づいて平静状態となる尤度とを算出するステップと、
(c) 上記感情表出状態となる尤度と上記平静状態となる尤度を比較して上記区間が感情表出状態であるか否かを判定するステップと、
(d) 上記感情表出状態と判定された区間に対して、更に、その区間において上記複数の第2符号帳を参照して上記複数種類の各感情表出についての上記音声の音声特徴量ベクトルの複数の出現確率をそれぞれ求めるステップと、
(e) 上記各感情表出についての音声特徴量ベクトルの上記複数の出現確率に基づいて上記区間における上記各感情表出の複数の尤度をそれぞれ求めるステップと、
(f) 上記各感情表出の複数の尤度のそれぞれに対して、他の異なる各感情表出の尤度との比をそれぞれ計算し、それら比の平均値を計算し、各感情表出状態に対応する比の平均値を互いに比較して上記区間がどの感情表出であるかを判定するステップ、
とを含むことを特徴とする音声処理方法。 - 請求項1記載の方法において、各上記音声特徴量ベクトルは、少なくとも動的特徴量の時間変化特性を含むことを特徴とする音声処理方法。
- 請求項1記載の方法において、各上記音声特徴量ベクトルは、少なくとも基本周波数、パワー、動的特徴量の時間変化特性を含むことを特徴とする音声処理方法。
- 請求項1記載の方法において、各上記音声特徴量ベクトルは、少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのフレーム間差分を含むことを特徴とする音声処理方法。
- 請求項1記載の方法において、上記ステップ(c) は上記感情表出状態となる尤度が上記平静状態となる尤度より高いとき、感情表出状態と判定するステップであることを特徴とする音声処理方法。
- 請求項1記載の方法において、上記ステップ(c) は、上記感情表出状態となる尤度と上記平静状態となる尤度の比に基づいて判定するステップであることを特徴とする音声処理方法。
- 請求項1記載の方法において、上記複数種類の感情表出は笑い表出、怒り表出、悲しみ表出の少なくともいずれか2つ以上であることを特徴とする音声処理方法。
- 請求項1乃至6のいずれかに記載の方法において、上記符号帳に各コードに対応して格納されている上記感情表出状態での出現確率は、そのコードの音声特徴量ベクトルが感情表出状態となる単独出現確率と、直前の所定数のコードの次にそのコードの音声特徴量ベクトルが感情表出状態となる条件付確率とを含み、
上記ステップ(b) は、現在のフレームの上記音声特徴量の組を量子化した音声特徴量ベクトルに対応する感情表出状態での単独出現確率と、上記条件付確率とに基づいて上記区間が感情表出状態となる尤度を求めるステップを含むことを特徴とする音声処理方法。 - フレームごとの音声特徴量の組に基づいて音声の感情表出状態を判定する音声処理装置であり、
基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか1つ以上及び/又はこれらのフレーム間差分の少なくともいずれか1つ以上を含む音声特徴量の組から成る各音声特徴量ベクトルと感情表出状態でのその音声特徴量ベクトルの出現確率と、各音声特徴量ベクトルの平静状態での出現確率とがコードごとに格納された第1符号帳と、複数種類の感情表出状態の各感情表出状態と他の全ての各感情表出状態との組のそれぞれの感情表出状態における音声特徴量ベクトルの出現確率がコードごとに格納された複数の第2符号帳と、
上記第1符号帳を参照し、上記音声特徴量の組を量子化した音声特徴量ベクトルの感情表出状態での出現確率に基づいて入力音声の少なくとも1つ以上のフレームを含む区間が感情表出状態となる尤度を求める感情表出尤度算出手段と、
上記第1符号帳を参照し、上記音声特徴量の組を量子化した音声特徴量ベクトルの平静状態での出現確率に基づいて上記区間が平静状態となる尤度を求める平静状態尤度算出手段と、
上記求めた上記感情表出状態となる尤度と上記平静状態となる尤度との比較に基づいて上記区間が感情表出状態か否かを判定する感情表出状態判定手段と、
感情表出状態と判定された区間に対し、更にその区間において上記複数の第2符号帳を参照して上記複数種類の各感情表出についての上記音声の音声特徴量ベクトルの複数の出現確率を求め、それら複数の出現確率に基づいて上記区間における上記各感情表出の複数の尤度をそれぞれ求め、上記各感情表出の複数の尤度のそれぞれに対して、他の異なる感情表出の尤度との比をそれぞれ計算し、それらの比の平均値を計算し、各感情表出状態に対応する比の平均値を互いに比較して上記区間がどの感情表出であるかを判定する感情表出判定手段、
とを含むことを特徴とする音声処理装置。 - 請求項9記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも動的特徴量の時間変化特性を含むことを特徴とする音声処理装置。
- 請求項9記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特徴とする音声処理装置。
- 請求項9記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はこれらのフレーム間差分を含むことを特徴とする音声処理装置。
- 請求項9乃至12のいずれかに記載の音声処理装置において、上記複数種類の感情表出は笑い表出、怒り表出、悲しみ表出のうちの少なくともいずれか2つ以上であることを特徴とする音声処理装置。
- 請求項1乃至8のいずれか記載の音声処理方法をコンピュータにより実行可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004161471A JP4580190B2 (ja) | 2004-05-31 | 2004-05-31 | 音声処理装置、音声処理方法およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004161471A JP4580190B2 (ja) | 2004-05-31 | 2004-05-31 | 音声処理装置、音声処理方法およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005345496A JP2005345496A (ja) | 2005-12-15 |
JP4580190B2 true JP4580190B2 (ja) | 2010-11-10 |
Family
ID=35497981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004161471A Expired - Fee Related JP4580190B2 (ja) | 2004-05-31 | 2004-05-31 | 音声処理装置、音声処理方法およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4580190B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972341B2 (en) | 2014-01-22 | 2018-05-15 | Samsung Electronics Co., Ltd. | Apparatus and method for emotion recognition |
KR20180057970A (ko) * | 2016-11-23 | 2018-05-31 | 한국전자통신연구원 | 음성감성 인식 장치 및 방법 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007069361A1 (ja) * | 2005-12-16 | 2007-06-21 | Matsushita Electric Industrial Co., Ltd. | 情報処理端末 |
JP5099711B2 (ja) * | 2006-03-06 | 2012-12-19 | 株式会社マザー&チャイルド | 乳児の情動を判定する方法、そのための装置とプログラム |
KR100790494B1 (ko) | 2006-06-22 | 2008-01-02 | 중앙대학교 산학협력단 | 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법 |
EP2063416B1 (en) | 2006-09-13 | 2011-11-16 | Nippon Telegraph And Telephone Corporation | Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program |
JP5054653B2 (ja) * | 2008-10-08 | 2012-10-24 | 日本電信電話株式会社 | 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP5129198B2 (ja) * | 2009-06-03 | 2013-01-23 | 日本電信電話株式会社 | 映像予告生成装置、映像予告生成方法および映像予告生成プログラム |
CN108346436B (zh) * | 2017-08-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 语音情感检测方法、装置、计算机设备及存储介质 |
EP3641344B1 (en) * | 2018-10-16 | 2023-12-06 | Sivantos Pte. Ltd. | A method for operating a hearing instrument and a hearing system comprising a hearing instrument |
JP7355244B2 (ja) * | 2020-06-15 | 2023-10-03 | 日本電信電話株式会社 | 情報処理装置、情報処理方法およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003280685A (ja) * | 2002-03-26 | 2003-10-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声着信方法、音声着信装置、音声着信プログラム |
JP2003316398A (ja) * | 2002-04-25 | 2003-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号符号化方法、符号化器及びそのプログラム |
JP2003316378A (ja) * | 2001-08-08 | 2003-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声処理方法及びその方法を使用した装置及びそのプログラム |
-
2004
- 2004-05-31 JP JP2004161471A patent/JP4580190B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316378A (ja) * | 2001-08-08 | 2003-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声処理方法及びその方法を使用した装置及びそのプログラム |
JP2003280685A (ja) * | 2002-03-26 | 2003-10-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声着信方法、音声着信装置、音声着信プログラム |
JP2003316398A (ja) * | 2002-04-25 | 2003-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号符号化方法、符号化器及びそのプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972341B2 (en) | 2014-01-22 | 2018-05-15 | Samsung Electronics Co., Ltd. | Apparatus and method for emotion recognition |
KR20180057970A (ko) * | 2016-11-23 | 2018-05-31 | 한국전자통신연구원 | 음성감성 인식 장치 및 방법 |
KR102607373B1 (ko) | 2016-11-23 | 2023-12-05 | 한국전자통신연구원 | 음성감성 인식 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP2005345496A (ja) | 2005-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573693B (zh) | 文本到语音系统和方法以及其存储介质 | |
WO2021201970A1 (en) | Generating and using text-to-speech data for speech recognition models | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
CN114203147A (zh) | 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法 | |
JP6370749B2 (ja) | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
KR20080018622A (ko) | 휴대용 단말기의 음성 인식 시스템 | |
JP4580190B2 (ja) | 音声処理装置、音声処理方法およびそのプログラム | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
US7315819B2 (en) | Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof | |
JP4630136B2 (ja) | ストレス状態推定緩和装置及びそのプログラム | |
KR101862982B1 (ko) | LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법 | |
Salishev et al. | Voice activity detector (VAD) based on long-term mel frequency band features | |
JP3803311B2 (ja) | 音声処理方法及びその方法を使用した装置及びそのプログラム | |
JPH05197398A (ja) | 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム | |
JP4256393B2 (ja) | 音声処理方法及びそのプログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2005352311A (ja) | 音声合成装置および音声合成プログラム | |
JP4691327B2 (ja) | 情報処理装置および情報処理プログラム | |
KR101890303B1 (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
JP2005352893A (ja) | 通信端末および通信プログラム | |
JP2005352420A (ja) | 要約コンテンツ生成装置、生成方法及びそのプログラム | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP2006011159A (ja) | コンテンツ応答処理装置、処理方法及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060801 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060801 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100817 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100827 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |