JP4691327B2 - 情報処理装置および情報処理プログラム - Google Patents

情報処理装置および情報処理プログラム Download PDF

Info

Publication number
JP4691327B2
JP4691327B2 JP2004174542A JP2004174542A JP4691327B2 JP 4691327 B2 JP4691327 B2 JP 4691327B2 JP 2004174542 A JP2004174542 A JP 2004174542A JP 2004174542 A JP2004174542 A JP 2004174542A JP 4691327 B2 JP4691327 B2 JP 4691327B2
Authority
JP
Japan
Prior art keywords
emotion
likelihood
expression
speech
laughter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004174542A
Other languages
English (en)
Other versions
JP2005352892A (ja
Inventor
浩太 日高
宣彦 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004174542A priority Critical patent/JP4691327B2/ja
Publication of JP2005352892A publication Critical patent/JP2005352892A/ja
Application granted granted Critical
Publication of JP4691327B2 publication Critical patent/JP4691327B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Description

本発明は、音声に基づいて人の感情の表出を検知する情報処理装置および情報処理プログラムに関する。
従来の情報処理装置としては、表情変形用顔部品を描画させる描画ルールおよび表情変形用顔部品を変形させる変形ルールに関連付けられた表情変形用顔部品を表わす特徴点データ、並びに表情変形の無い不変顔部品を表わす特徴点データを獲得する手段と、ふつうの顔、笑った顔、怒った顔、または哀しい顔などの似顔絵の表情を指定する手段と、表情変形用顔部品の特徴点データに変形ルールを連用し特徴点データを変形する手段と、表情変形用顔部品の特徴点データに描画ルールを適用し、不変顔部品の描画ルールを特徴点データに適用し、似顔絵を描画する手段とを備え、顔の像を含む顔画像を表現するものが知られている(例えば特許文献1参照)。
特開2001−307123号公報(要約および第1図) 特開2002−230598号公報 特開平5−289691号公報 「音響・音声工学」、吉井貞熙、近代科学社、1992 「音声符号化」、守谷健弘、電子情報通信学会、1998 「ディジタル音声処理」、吉井貞熙、東海大学出版会、1985 Y.Linde, A.Buzo and R.M.Gray. "An algorithm for vector Quantizer design",IEEE Trans.Commun.,vol. Com-28, pp.84-95, 1980
しかしながら、このような従来の情報処理装置は、笑った顔、怒った顔、または哀しい顔などの似顔絵の表情を利用者が手動で指定することにより、似顔絵を描画していたが、自動的に推測した利用者の感情に応じた顔画像を描画させることができなかった。
本発明はこのような課題を解決するためになされたもので、自動的に推測した利用者の感情に応じた顔画像を描画させることができる情報処理装置および情報処理プログラムを提供することを目的とする。
本発明の情報処理装置は、
学習音声に含まれる音声特徴量の組である音声特徴量ベクトル、音声を発した話者の感情を示す情報、前記話者の感情表出状態の前記音声特徴量ベクトルの出現確率である感情表出確率、及び前記話者の感情表出がなかったときの前記音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する学習音声を用いて生成された符号帳を、笑い、怒り、悲しみの感情、および平静状態に対応させて作成し、作成した該符号帳を記憶する符号帳記憶手段と、
顔の像を含む顔画像を表す顔画像情報を記憶する画像情報記憶手段と、
利用者が発声した音声から得られた音声信号を受信する音声信号受信手段と、
前記音声信号受信手段によって受信された音声信号から前記音声特徴量ベクトルを抽出する音声特徴量抽出手段と、
前記音声特徴量抽出手段によって抽出された前記音声特徴量ベクトルから、笑い、怒り、悲しみ、それぞれの感情に対応した前記符号帳に基づいて前記利用者の笑い、怒り、悲しみ、それぞれの感情表出についての尤度である感情表出状態尤度を算出する感情表出尤度算出手段と、
前記音声特徴量抽出手段によって抽出された前記音声特徴量ベクトルから前記符号帳に基づいて前記利用者の平静状態についての尤度である平静状態尤度を算出する平静状態算出手段と、
前記笑い、怒り、悲しみ、それぞれの感情表出尤度及び前記平静状態尤度に基づき、感情表出があったときの前記利用者の笑い、怒り、悲しみのいずれかの感情表出を推測する感情推測手段と、
前記感情推測手段が推測した感情に対応する表情になるように前記顔画像を変化させる画像変化手段と、
前記画像変化手段によって変化された顔画像を表示する表示手段と
を備えた構成を有している。
この構成により、利用者が発生した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、自動的に推測した利用者の感情に応じた顔画像を描画させることができる。
この構成により、電子メールに含まれる画像情報から顔画像情報を検出したとき、利用者が発声した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、ビデオメールなどの電子メールに付加価値を与えることができる。
この構成により、ネットワークを介して相手の端末から得られた音声信号に基づいて通信相手の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、通信相手の感情面に着目して魅力的な通信を実現することができる。
本発明の情報処理プログラムは、
学習音声に含まれる音声特徴量の組である音声特徴量ベクトル、音声を発した話者の感情を示す情報、前記話者の感情表出状態の前記音声特徴量ベクトルの出現確率である感情表出確率、及び前記話者の感情表出がなかったときの前記音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する学習音声を用いて生成された符号帳を、笑い、怒り、悲しみの感情、および平静状態に対応させて作成し、作成した該符号帳を記憶する符号帳記憶手段と、顔の像を含む顔画像を表す顔画像情報を記憶する画像情報記憶手段とを有するコンピュータに、
利用者が発声した音声から得られた音声信号を受信する音声信号受信ステップと、
前記音声信号受信ステップで受信された音声信号から前記音声特徴量ベクトルを抽出する音声特徴量抽出ステップと、
前記音声特徴量抽出ステップによって抽出された前記音声特徴量ベクトルから、笑い、怒り、悲しみ、それぞれの感情に対応した前記符号帳に基づいて前記利用者の笑い、怒り、悲しみ、それぞれの感情表出についての尤度である感情表出状態尤度を算出する感情表出尤度算出ステップと、
前記音声特徴量抽出ステップによって抽出された前記音声特徴量ベクトルから前記符号帳に基づいて前記利用者の平静状態についての尤度である平静状態尤度を算出する平静状態算出ステップと、
前記笑い、怒り、悲しみ、それぞれの感情表出尤度及び前記平静状態尤度に基づき、感情表出があったときの前記利用者の笑い、怒り、悲しみのいずれかの感情表出を推測する感情推測ステップと、
前記感情推測ステップで推測した感情に対応する表情になるように前記顔画像を変化させる画像変化ステップと、
前記画像変化ステップで変化した顔画像を表示する表示ステップと
を実行させ。
このプログラムにより、利用者が発生した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、自動的に推測した利用者の感情に応じた顔画像を描画させることができる。

このプログラムにより、電子メールに含まれる画像情報から顔画像情報を検出したとき、利用者が発声した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、ビデオメールなどの電子メールに付加価値を与えることができる。
このプログラムにより、ネットワークを介して相手の端末から得られた音声信号に基づいて通信相手の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、通信相手の感情面に着目して魅力的な通信を実現することができる。
本発明は、話者の感情を推測し、推測した感情に応じた顔画像を描画させることができる情報処理装置および情報処理ブログラムを提供するものである。
以下、本発明を実施するための最良の形態について説明する。
まず、本発明の第1の実施の形態について、図面を用いて説明する。図1は、本発明の第1の実施の形態に係る情報処理装置のブロック構成図である。図1に示すように、情報処理装置100は、画像情報記憶手段110、音声信号受信手段120、感情推測手段130、画像変化手段140、および表示手段150を備えて構成されている。
画像情報記憶手段110は、顔の像を含む顔画像を表す顔画像情報を記憶するようになっている。画像情報記憶手段110は、顔画像情報を電子ファイルとしてハードディスク105に記憶させるようにしてもよい。なお、顔画像情報は、予め利用者によって入力されている。顔画像は、人の顔の像でもよく、アニメーションのキャラクタを表す顔の像でもよい。
音声信号受信手段120は、利用者が発声した音声から得られた音声信号を受信するようになっている。なお、音声信号受信手段120は、マイクロフォンやインタフェース部106(後述)など介して音声信号を受信するようになっている。
感情推測手段130は、音声信号受信手段120によって受信された音声信号に基づいて利用者の感情を推測するようになっている。感情推測手段130の詳細な説明は後述する。
画像変化手段140は、感情推測手段130が推測した感情に対応する表情になるように、画像情報記憶手段110が記憶した顔画像を変化させるようになっている。なお、感情に対応して顔画像を変化させる技術は、FACS(Facial Action Coding System)などを用いてもよい。
例えば、感情を表す感情情報が感情推測手段130によって出力されたとき、画像変化手段140は、感情情報に応じて顔画像を変化させるようになっている。感情情報が「笑い」を表していた場合、画像変化手段140は、「笑い」の表情になるように顔画像を変化させるようになっている。また、感情情報が「怒り」を表していた場合、画像変化手段140は、「怒り」の表情になるように、顔画像を変化させるようになっている。また、感情情報が「悲しみ」を表していた場合、画像変化手段140は、「悲しみ」の表情になるように、顔画像を変化させるようになっている。
このように、「笑い」、「怒り」、「悲しみ」などのように複数の種類の感情を用意しておき、画像変化手段140は、感情に対応して顔画像を変化させるようになっている。
表示手段150は、画像変化手段140によって変化された顔画像を表示するようになっている。例えば、表示手段150は、画像変化手段140によって変化された顔画像を表す情報をディスプレイ107に表示するようになっている。
次に、図2は、本発明の第1の実施の形態に係る情報処理装置のハードウエア構成を示す概略図である。CPU(Central Processing Unit)101は、情報処理装置に関わるプログラムを実行するようになっている。ROM(Read Only Memory)102は、CPU101が読み出すプログラム、CPU101を立ち上げるためのプログラム、その他のプログラム、および、制御用のパラメータ等を記憶するようになっている。なお、画像情報記憶手段110、音声信号受信手段120、感情推測手段130、画像変化手段140、および表示手段150は、CPU101によって実行されるプログラムのモジュールでもよい。
RAM(Random Access Memory)103は、CPU101の動作中にCPU101の動作に要するプログラムやデータ等を記憶するようになっている。EEPROM(Electrically Erasable Programmable Read-only Memory)104は、プログラムや所定のデータを不揮発かつ書替可能に記憶するようになっている。ハードディスク105は、各種データなどを記憶するようになっている。インタフェース部106は、ネットワークに接続されている装置と所定の通信プロトコルに準拠して通信するようになっている。なお、情報処理装置100の装置規模を大きくできない場合には、ハードディスク105に代えて他の小型記憶媒体を備えるようにしてもよい。
その他、情報処理装置100は、液晶ディスプレイなどのディスプレイ107、マイクロフォン、キーボード、マウスなどの入力機器、およびスピーカなどの出力機器などを備え、情報処理装置100の装置規模を大きくできる場合には、フレキシブルディスクドライブやCD(Compact Disc)、DVD(Digital Versatile Disc)等のドライブをさらに備えるようにしてもよい。なお、情報処理装置100は、パソコンを含むコンピュータを用いても実現可能である。
記憶手段131は、学習音声を用いて生成されたた符号帳であって、学習音声に含まれる音声特徴量の組から生成されたベクトル量子化された音声特徴量ベクトルとそれに対応する符号、音声を発した話者の感情、話者の感情表出があったときの音声特徴量ベクトルの出現確率である感情表出確率、および、話者の感情表出がなかったときの音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する符号帳131CBを予め記憶するようになっている。例えば、図9に示すように符号帳は、「笑い」、「怒り」、「悲しみ」などの感情に対応して作成されている。なお、感情毎に対応する符号帳は、「笑い」、「怒り」、「悲しみ」の3つに限定されず、多数用意してもよい。
音声特徴量抽出手段132は、音声信号受信手段12によって受信された入力コンテンツに含まれる音声データから音声特徴量ベクトルを抽出するようになっている。
感情表出尤度算出手段133は、音声特徴量抽出手段132が抽出した音声特徴量ベクトルに対応する音声特徴量ベクトルを符号帳から検出し、この符号帳から検出された音声特徴量ベクトルに対応する感情表出確率に基づいて、話者の感情表出についての尤度である感情表出状態尤度を算出するようになっている。例えば、感情表出尤度算出手段133は、それぞれの感情に対応した符号帳に基づいてそれぞれの感情表出状態尤度を算出するようになっている。
平静状態尤度算出手段134は、音声特徴量抽出手段132が抽出した音声特徴量ベクトルに対応する音声特徴量ベクトルを符号帳から検出し、この符号帳から検出された音声特徴量ベクトルに対応する平静状態確率に基づいて、話者の平静状態についての尤度である平静状態尤度を算出するようになっている。例えば、平静状態尤度算出手段134は、それぞれの感情に対応した符号帳に基づいてそれぞれの平静状態尤度を算出するようになっている。
感情表出判定手段135は、感情表出尤度算出手段133が算出した感情表出状態尤度、および、平静状態尤度算出手段134が算出した平静状態尤度に基づいて、音声特徴量抽出手段132が音声データから抽出した音声特徴量ベクトルを含む音声の各区間に、話者の感情表出があったか否かを判定するようになっている。感情表出があったとき、感情表出判定手段135は、判定した感情を表す感情情報を画像抽出手段14に出力するようになっている。
例えば、話者が「笑い」を感情表出していたか否かを判定する場合には、感情表出尤度算出手段133が「笑い」の符号帳を用いて算出した「笑い」に対応する感情表出尤度、および平静状態尤度算出手段134が「笑い」の符号帳を用いて算出した「笑い」に対応する平静状態尤度に基づいて、感情表出判定手段135が「笑い」の感情表出があったか否かを判定するようになっている。
図3には示していないが、音声特徴量抽出手段132はバッファメモリ手段を有しており、入力された音声コンテンツを一時的に格納し、そのバッファメモリ手段内のコンテンツに含まれる音声データを分析して音声特徴量ベクトルを抽出する。
以下、本発明の第1の実施の形態に係る情報処理装置が実行するプログラムについて、図面を参照して説明する。図4は、本発明の第1の実施の形態に係る情報処理装置の動作の流れを示すフローチャートである。
まず、利用者が発声した音声から得られた音声信号は、音声信号受信手段120によって受信され(S101)、受信された音声信号に基づいて利用者の感情は、感情推測手段130によって推測される(S102)。
次に、予め決められた顔画像は、画像変化手段140によって感情推測手段130が推測した感情に対応する表情になるように変化され(S103)、変化された顔画像は、表示手段150によって表示される(S104)。
次に、本発明の実施の形態に係る感情推測手段130の動作について説明する。図5は、本発明の実施の形態に係る感情推測手段130の動作を説明するためのフローチャートである。
まず、学習音声を用いて生成された符号帳であって、学習音声に含まれる所定の音声特徴量の組(パラメータの組)である音声特徴量ベクトル、音声を発した話者の感情、話者の感情表出があったとき(以下、感情表出状態という。)の音声特徴量ベクトルの出現確率である感情表出確率、および、話者の感情表出がなかったときの音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する符号帳が予め作成され、図1の記憶手段131に格納されている(S310)。この符号帳作成処理は、この発明の装置を構成する上で必要なものとして予め行う。符号帳作成の詳細については、後述するが、音声特徴量ベクトルは、特許文献2に開示されているような音声のフレーム毎に検出する少なくとも基本周波数、平均パワー、動的特徴量の時間変化特性の少なくともいずれか1つ以上及び/又はそれらのフレーム間差分の少なくともいずれか1つ以上のパラメータの組を含むベクトルである。
ステップS320〜S340は感情表出検出処理である。まず、入力コンテンツの全体が記憶手段131に取り込まれ、その取り込まれた音声データから予め決められた複数種類の音声特徴量の組(音声特徴量ベクトル)を抽出する(S320)。
S320で音声データの所定区間(判定区間)から抽出した一連の音声特徴量ベクトルにそれぞれ最も近い音声特徴量ベクトルを符号帳から検出し、この符号帳からその検出された音声特徴量ベクトルの、感情表出状態での出現確率を読み出し、この一連の出願確率に基づいて、話者の感情表出についての尤度である感情表出状態尤度を算出する。この感情表出状態尤度の計算は、音声データの一連の音声特徴量ベクトルの判定区間ごと(例えば後述の音声小段落ごと、または一定区間長ごと)に行う。
同様に、音声データから抽出した音声特徴畳ベクトルの、平静状態での出現確率を符号帳から読み出し、この確率に基づいて、話者の平静状態についての尤度である平静状態尤度を上記感情表出状態尤度の算出と同じ判定区間ごとに算出する(S330)。
次に、ステップS330で算出した感情表出状態尤度、および平静状態尤度に基づいて、ステップS320で音声データから抽出した所定の音声特徴量の組を含む音声データの判定区間に、話者の感情表出があったか否かを判定する(S340)。
以下に、上記の各ステップでの処理について詳細に説明する。まず、各ステップでの処理についての詳細な説明に先立ち、上記の音声特徴量の組について説明する。音声特徴量としては、音声スペクトル等の情報に比べて、雑音環境下でも安定して得られ、かつ感情表出状態か否かの判定が話者依存性の低いものを用いる。このような条件を満たす音声特徴量として、本発明の実施の形態では、基本周波数f、パワーp、動的特徴量d(t).無声区間T等を抽出する。
これらの音声特徴量の抽出法は公知であり、その詳細については、例えば、非特許文献1、非特許文献2、非特許文献3等を参照されたい。
ここで、上記の動的特徴量d(t)は、以下の式(1)によって定義され、その時間変化量は発話速度の尺度となるパラメータである。
Figure 0004691327
ここで、tは時刻、C(t)は時刻tにおけるk次のLPCケプストラム係数、±Fは対象とするフレーム(以下、現フレームという)の前後のフレーム数(必ずしも整数個のフレームでなくとも一定の時間区間でもよい)をいう。なお、動的特徴量d(t)としては、特許文献3に定義されたものを用いるのでもよい。
LPCケプストラム係数の次数kは、1からKまでの整数のいずれかである。動的特徴量d(t)の単位時間当たりの極大点の数、または、単位時間当たりの変化率は発話速度の尺度となる。
以下では、1フレームの長さ(以下、フレーム長という)を100msとし、このフレームの開始時刻から50msずらして次のフレームを形成するものとする。また、フレーム毎に、平均基本周波数f’、平均パワーPを算出するものとする。平均基本周波数f’及び平均パワーp’は、基本周波数fが信頼できるフレームについてのみ使用して算出する。例えば、基本周波数fの抽出の際の自己相関係数を利用してもよい。さらに、現フレームの基本周波数f’と、現フレームからiフレーム前の基本周波数f’および現フレームからiフレーム後の基本周波数f’のそれぞれと差分Δf’(−i)、Δf’(i)と、をとる。平均パワーp’についても同様に、現フレームの平均パワーp’と、現フレームからiフレーム前の平均パワーp’および現フレームからiフレーム後の平均パワーp’のそれぞれと差分Δp’(−i)、Δp’(i)と、をとる。
次に、これらフレーム毎の、基本周波数f’、基本周波数の差分Δf’(−i)、Δf’(i)、平均パワーp’、平均パワーの差分Δp’(−i)、Δp’(i)を規格化する。以下では、基本周波数f’、基本周波数の差分Δf’(−i)、Δf’(i)、平均パワーp’、平均パワーの差分Δp’(−i)、Δp’(i)のそれぞれを、単に、f’、Δf’(−i)、Δf’(i)、p’、Δp’(−i)、Δp’(i)と表し、規格化されたものを、それぞれ、f”、Δf”(−i)、Δf”(i)、p”、Δp”(−i)、Δp”(i)と表す。
この規格化は、例えば、f’、Δf’(−i)、Δf’(i)のそれぞれを、例えば、処理対象の音声データ全体の平均基本周波数で割ることによって行うのでもよいし、標準化して平均0、分散1にしてもよい。また、処理対象の音声データ全件の平均基本周波数の代わりに、後述する音声小段落や音声段落毎の平均基本周波数や、数秒や数分等の時間内での平均基本周波数を用いるのでもよい。
同様に、p’についても、処理対象の音声データ全件の平均パワーで割り、規格化又は標準化する。また、処理対象の音声データ全体の平均パワーの代わりに、後述する音声小段落や音声段落毎の平均パワーや、数秒や数分等の時間内での平均パワー等を用いるのでもよい。ここで、上記iの値を、例えば、4とする。
動的特徴量(ダイナミックメジャー)のピークの本数は、以下のように算出する。まず、現フレームの開始時刻を中心に現フレームより十分長い時間幅(2T、ただし、Tは例えばフレーム長の10倍程度とする)の区間を設ける。次に、この区間内における動的特徴量d(t)の時間変化の極大点を算出し、極大点の個数d(以下、単にdという)を計数する。
また、ダイナミックメジャーのピーク本数の差分値も、以下に述べるようにして算出しておく。即ち、現フレームの開始時刻のT前の時刻を中心とする幅2T内区間におけるdから、現フレームのdを差し引いた差成分Δd(−T)を求める。同様に、現フレームの終了時刻のT後の時刻を中心とする幅2T内の区間におけるdを、現フレームのdから差し引いた差成分Δd(T)を求める。
上記の、T、T、Tの値は、それぞれ、フレーム長より十分長いものとし、以下では、T=T=T=450msとする。ただし、これらの値に限られるものではない。また、フレームの前後の無声区間の長さを、それぞれ、tSB、tSFとする。ステップS320では、上記のf”、Δf”(−i)、Δf”(i)、p”、Δp”(−i)、Δp”(i)、d、Δd(−T)、Δd(T)等(以下、それぞれをパラメータと呼ぶ)の値をフレーム毎に抽出する。
符号帳作成の際は、上記のf”、Δf”(−i)、Δf”(i)、p”、Δp”(−i)、Δp”(i)、d、Δd”(−T)、Δd”(T)等のパラメータの中から選択されたパラメータの組、例えば(f”、p”、d)(音声特徴量ベクトル)に対応させて、感情表出確率および平静状態確率が算出され、選ばれたパラメータと感情表出確率および平静状態確率とを対応させて符号帳に記録している。符号帳には、上記のパラメータの組と同じ組のパラメータが音声特徴量ベクトルとして記録されている。
ステップS320では、入力音声を対象に、上記の音声特徴量パラメータf”、Δf”(−i)、Δf”(i)、p”、Δp”(−i)、Δp”(i)、d、Δd”(−T)、Δd”(T)等のパラメータのうち、符号帳に記憶された音声特徴量ベクトルで使用されているパラメータ、例えば前述の(f”、p”、d)の値をフレームごとに算出し、全音声コンテンツに渡る一連の音声特徴量ベクトルを得る。これによって、音声データの各音声特徴量ベクトルに対応する符号帳の音声特徴量ベクトルを特定でき、感情表出確率および平静状態確率を決定できることになる。
ステップS330での処理の詳細を、図6を用いて説明する。ステップS330では、まず、ステップS331〜S333で、音声小段落および音声段落を抽出する。次に、ステップS334、S335、S336で、感情表出状態尤度及び平静状態尤度を算出する。この実施例では音声小段落を、感情表出状態か否かを判定する対象の単位とし、音声段落は、例えば、400ms程度またはそれ以上の無声区間ではさまれた、少なくとも1つ以上の音声小段落を含む区間であるものとする。図7に音声小段落と音声段落の関係を概念的に示す。
音声段落の抽出には、まず、音声データの無声区間と有声区間を抽出する(S331)。有声区間であるか無声区間であるかの判定(以下、単に、有声/無声の判走という)は、周期性の有無の判定と等価であるとみなして、自己相関関数や変形相関関数のピーク値に基づいて行われることが多い。
具体的には、入力信号の短時間スペクトルからスペクトル包絡を除去し、得られた予測残渣の自己相関関数(以下、変形相関関数という)を算出し、変形相関関数のピーク値が所定の閾値より大きいか否かによって有声/無声の判定を行う。また、そのようなピーク値が得られる相関処理の遅延時間に基づいて、ピッチ周期1/fの抽出を行う。
上記では、フレーム毎に各音声特徴量を音声データから抽出する場合について述べたが、音声データが、例えば、CELP(Code-Excited Linear Prediction)などにより、既にフレーム毎に符号化(すなわ、分析)されており、この符号化で得られる係数または符号を用いて音声特徴量を生成するのでもよい。CELPによって得られる符号(以下、CELP符号という)には、一般に、線形予測係数、利得係数、ピッチ周期等が含まれる。そのため、CELP符号を復号して上記の音声特徴畳を得ることができる。
具体的には、復号された利得係数の絶対値または二乗値をパワーとして用い、ピッチ成分の利得係数と非周期成分の利得係数との比に基づいて有声/無線の判定を行うことができる。また、復号されたピッチ周期の逆数をピッチ周波数、すなわち基本周波数として用いることができる。また、上記の式(l)で説明した動的特徴量の計算に使用するLPCケプストラム係数は、CELP符号を復号して得られたものを変換して求めることができる。
また、CELP符号にLSP(Line Spectrum Pair)係数が含まれていれば、LSP係数を一旦LPCケプストラム係数に変換し、変換して得られたLPCケブストラム係数から求めてもよい。このように、CELP符号には本発明で使用できる音声特徴量が含まれているので、CELP符号を復号し、フレーム毎に必要な音声特徴量の組を取り出すことができる。
図6に戻って、有声区間の両側の無声区間の時間tSM、tSFがそれぞれ予め決めたt以上になるとき、その無声区間によって囲まれた有声区間を含む信号部分を音声小段落Sとして抽出する(S332)。以下では、この無声区間の時間tの値を、例えば、t=400msとする。
次に、この音声小段落S内の、好ましくは後学部の有声区間内の平均パワーpと、この音声小段落Sの平均パワー値Pの定数β倍とを比較し、p<βPであれば、その音声小段落Sを末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現在の末尾音声小段落までを音声段落と決定して抽出する(S333)。
音声小段落の抽出は、上記の有声区間を囲む無声区間の時間がt以上となるという条件で行う。図7に、音声小段落としてSj−1、S、Sj+1を示し、以下では音声小段落Sを処理対象の音声小段落とする。音声小段落Sは、Q個の有声区間から構成され、音声小段落Sの平均パワーをPとする。
また、音声小段落Sに含まれるq番目の有声区間V(q=1、2、・・・、Q)の平均パワーをpと表す。音声小段落Sが音声段落Bの末尾の音声小段落であるか否かは、音声小段落Sを構成する後半部分の有声区間の平均パワーに基づいで判定する。具体的には、以下の式(2)に示す条件が満たされるか否かで判定する。
Figure 0004691327
この条件を満たすとき、音声小段落Sが音声段落Bの末尾音声小段落であると判定する。
ここで、αはQ/2以下の値をとる定数であり、βは例えば0.5〜1.5程度の値をとる定数である。これらの値は、音声段落の抽出を最適化するように、予め実験により決めでおく。ただし、有声区間の平均パワーpは、その有声区間内の全フレームの平均パワーである。本発明の実施の形態では、α=3、β=0.8とした。上記のようにすることによって、隣接する末尾音声小段落間の音声小段落の集合を音声段落と判定できる。あるいは、音声小段落を固定長t(s)、シフト幅S(s)と決めてもよい。例えば、t(s)=S(s)=1msecの固定長、シフト幅としてもよい。音声段落についてもΔSの無声区間で囲まれた区間としてもよい。
次に、図6に戻って感情表出状態尤度を算出する処理(S334、S335)について説明する(以下、この処理を感情表出判定処理という)。まず、ステップS310で予め作成した符号帳に記録される音声特徴量ベクトルに合わせて、ステップS320で抽出した入力音声に含まれる音声特徴量の組をベクトル量子化し、符号列C,C,C,…を得る(S334)。
ステップS335での感情表出状態尤度の算出に先立って、図8を用いて符号帳の作成方法について説明する。まず、多数の学習用音声を被験者から採取し、感情表出があった発話と平静状態での発話とを識別できるようにラベルを付ける(S311)。例えば、音声が、笑っている、怒っている、悲しんでいる、とそれぞれ判断した区間にラベル付けを行う。
反対に平静状態と判定する理由を、上記の笑い、怒り、悲しみのいずれにも該当せず、発話が平静であると感じられることとする。
ステップS311で上記のラベル付けを行ったら、ラベル付けされた音声データから、ステップS320での処理と同様に予め決めたパラメータの組の音声特徴量、例えば(f”、p”、d)の値を音声特徴量ベクトル値としてフレームごとに抽出する(S312)。ラベル付けによって得られる感情表出状態または平静状態の情報と、感情表出状態または平静状態とされたラベル区間(ラベル付けされた音声区間)について得られる音声特徴量ベクトルとを用いて、LBGアルゴリズムに従って符号帳を作成する(S313)。
LBGアルゴリズムは公知であり、その詳細は、例えば、非特許文献4を参照されたい。
符号帳に記録されるエントリの数(以下、符号長サイズという)は、2個(mは、1以上の整数)確保できると共に可変であり、エントリのインデックスとしてコードCが用いられ、インデックスにはコードCに対応したmビットの量子化ベクトル(C=00…0〜11…1)が用いられる。
符号長には、この量子化ベクトル(コードC)に対応させて、フレーム長より十分長い所望の区間、例えば学習音声のラベル区間に得られる全音声特徴量ベクトルを使って上記LBGアルゴリズムにより決められた代表ベクトルを音声特徴量代表ベクトルとして記録しておく。その際、各音声特徴量を、例えば、その平均値と標準偏差で規格化してもよい。以下の説明では、符号帳の音声特徴量代表ベクトルも単に音声特徴量ベクトルと呼ぶ。
入力音声データから抽出した音声特徴量のパラメータのうち、感情表出判定処理に使用するパラメータの組は、上記の符号帳作成に用いたパラメータの組と同じものである。感情表出状態または平静状態の音声小段落を特定するために、音声小段落中のコードC(エントリのインデックス)に対応させて、各感情表出状態での出現確率と平静状態での出現確率をそれぞれ算出する。その際、感情を「笑い」、「怒り」、「悲しみ」などに分類しておき、それぞれの感情について上記の感情表出状態と平静状態の各出現確率を算出し、1つの符号帳に記録する。従って、符号帳には、上記のコードCと、音声特徴量ベクトルと、感情表出状態での出現確率と平静状態の出現確率とが対応して記録されている。これらは感情の種類毎に分類して別々の符号帳に記録してもよい。
以下に、ステップS335で行う話者の感情表出についての尤度である感情表出尤度の算出、および、ステップS336で行う平静状態についての尤度である平静状態尤度の算出方法の一例について説明する。まず、学習音声中のラベル区間に含まれるフレームの数をnとし、それぞれのフレームから得られる音声特徴量の組に対応するコードが時系列でC,C,…,Cとなっているものとする。
上記で説明したように、ラベル区間は、符号帳を作成する処理のステップS311で、ラベルが付けられた1つの音声区間である。このとき、ステップS335、S336で算出される、ラベル区間Aの感情表出尤度PAemoおよび平静状態尤度PAnrmは、それぞれ、以下の式(3)および式(4)に示すように表される。
Figure 0004691327
ここで、Pemo(C|C…Ci−1)は、コード列C,…,Ci−1の次にコードCが感情表出状態となる条件付確率、Pnrm(C|C…Ci−1)は、同様にコード列C,…,Ci−1の次にコードCが平静状態となる条件付確率である。また、Pemo(C)は、符号帳を作成する処理において、音声が感情表出状態とラベル付けされた部分に存在した音声特徴量ベクトルに対応するコードCの総個数を数え、その総個数を、感情表出状態とラベル付けされた音声データの全コード数(=フレーム数)で割算した値である。一方、Pnrm(C)は、コードCが平静状態とラベル付けされた部分に存在した個数を,平静状態とラベル付けされた音声データの全コード数で割算した値である。
以下では、各条件付確率をN−gram(N<i)モデルで近似し、感情表出状態尤度および平静状態尤度の計算を簡単にする。N−gramモデルは、ある時点でのある事象の出現がその直前のN−1個の事象の出現に依存すると近似するモデルである。ここで、N=3のときはtrigram、N=2のときはbigram、N=1のときはunigramとよばれる。このモデルでは、例えば、i番目のフレームにコードCが出現する確率P(C)は、P(C)=P(C|Ci−N+1…Ci−1)とされる。
上記の式(3)および式(4)中の各条件付出現確率Pemo(C|C…Ci−1)、Pnrm(C|C…Ci−1)にN−gramモデルを適用すると、各条件付出現確率は以下の式(5)および式(6)に示すように近似される。
emo(C|C…Ci−1)=Pemo(C|Ci-N+1…Ci−1) (5)
nrm(C|C…Ci−1)=Pnrm(C|Ci-N+1…Ci−1) (6)
上記の式(5)のPemo(C|Ci−N+1…Ci−1)および式(6)のPnrm(C|Ci−N+1…Ci−1)は、通常、符号帳から全て得られるようになっているが、一部のものについては、学習音声から得られないものもある。その場合は、他の条件付出現確率や単独出現確率から補間によって求めたものでもよい。例えば、低次(即ち、コード列が短い)の条件付出現確率と単独出現確率等とから高次(即ち、コード列が長い)の条件付出現確率を補間して求めることができる。
以下に、この補間の方法について説明する。以下では、上記のtrigram(N=3)、bigram(N=2)、および、unigram(N=1)を例にとり説明する。各出現確率は、trigram(N=3)では、Pemo(C|Ci−2i−1)、Pnrm(C|Ci−2i−1)、bigram(N=2)では、Pemo(C|Ci−1)、Pnrm(C|Ci−1)、そして、unigram(N=1)では、Pemo(C)、Pnrm(C)と表される。
この補間の方法では、Pemo(C|Ci−2i−1)およびPnrm(C|Ci−2i−1)を、上記の感情表出状態での3つの出現確率、または、平静状態での3つの出現確率を用い、以下の式(7)および式(8)に基づいて算出する。
Figure 0004691327
ここで、上記のλemo1、λemo2、λemo3は、trigramの感情表出状態とラベル付けされた学習データのフレーム数をnとし、時系列でコードC,C,…,Cが得られたとき、以下のように表される。
Figure 0004691327
ただし、λemo1、λemo2、λemo3を求めるときの音声データは、符号帳を作成するときの音声データ以外のものとする。符号帳を作成するときの音声データと同じ音声データを用いると、λemo1=1、λemo2=λemo3=0の自明な解となってしまうからである。同様に、λnrm1、λnrm2、λnrm3も求められる。
次に、trigramを用い、ラベル区間Aのフレーム数がFであり、得られたコードがC,C,…,CFAのとき、このラベル区間Aの感情表出状態尤度PAemoおよび平静状態尤度PAnrmは、それぞれ、以下の式(9)および式(10)に示すように表される。
Aemo=Pemo(C|C)…Pemo(CFA|CFA−2FA−1) (9)
Anrm=Pnrm(C|C)…Pnrm(CFA|CFA−2FA−1) (10)
本発明の実施の形態では、上記のように補間と、感情表出状態尤度PAemoおよび平静状態尤度PAnrmの算出とができるように、上記の例では、trigram(N=3)、bigram(N=2)、および、unigram(N=1)を各コードについて算出しておき、符号帳に格納しておくものとする。つまり、符号帳には、各コードに対応して、音声特徴量ベクトルと、その感情表出状態での出現確率と、平静状態での出現確率との組が格納される。
その感情表出状態での出現確率としては、各コードが過去のフレームで出現したコードと無関係に感情表出状態で出現する確率(単独出現確率)、直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが感情表出状態で出現する条件付確率、またはそれら両方を使用する。同様に、平静状態での出現確率、そのコードが過去のフレームで出現したコードと無関係に平静状態で出現する単独出現確率、直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが平静状態で出現する条件付出現確率、またはそれら両方を使用する。
図9に、符号帳に記録される内容の一例を示す。以下の各符号帳の作成において、学習音声から使用する平静状態のフレーム総数と、対応する感情(例えば笑い)の表出状態のフレーム総数は等しく選ばれている。この例では学習音声中の笑いのラベル区間と平静のラベル区間を分析して作成した符号帳CB−1と、怒りのラベル区間と平静のラベル区間を分析して作成した符号帳CB−2と、悲しみのラベル区間と平静のラベル区間を分析して作成した符号帳CB−3とを示している。図9に示すように、符号帳には各コードC,C,…毎に、その音声特徴量ベクトルと、その単独出現確率が、感情表出状態および平静状態について格納され、条件付出現確率が感情表出状態および平静状態についてそれぞれ組として格納されている。ここで、コードC,C,C,…は、符号帳の各音声特徴量ベクトルに対応したコード(インデックス)を表し、それぞれmビットの値“00…00”、“00…01”、“00…10”、…である。
符号帳におけるh番目のコードをCで表し、例えばCは第1番目のコードを表すものとする。以下では、この発明に好適な音声特徴量の組の例として、パラメータf”、p”、dを使用し、符号帳サイズ(音声特徴量ベクトルの数)が2の場合の感情表出状態および平静状態での、条件付出現確率をtrigramで近似した例について説明する。
図10は、音声データの処理を説明するための模式図である。時刻tから始まる音声小段落のうち、第1フレームから第4フレームまでを符号i〜i+3を付して示している。フレーム長およびフレームシフトを、上記のように、それぞれ、100ms、50msとした。ここでは、フレーム番号i(時刻t〜t+100)のフレームについてコードCが、フレーム番号i+1(時刻t+50〜t+150)のフレームについてコードCが、フレーム番号i+2(時刻t+100〜t+200)のフレームについてコードCが、そして、フレーム番号i+1(時刻t+50〜t+150)のフレームについてコードCが得られているものとする。すなわち、フレーム順にコードがC、C、C、Cであるとする。
この場合、フレーム番号i+2以上のフレームでは、trigramが計算できる。いま、音声小段落Sの感情表出状態尤度をPSemo、平静状態尤度をPSnrmとすると、第4フレームまでの各尤度はそれぞれ、以下の式(11)および式(12)によって与えられる。
Semo=Pemo(C|C)Pemo(C|C) (11)
Snrm=Pnrm(C|C)Pnrm(C|C) (12)
この例では、符号帳からコードC、Cの感情表出状態および平静状態の各単独出現確率を求め、コードCの次にコードCが感情表出状態および平静状態で出現する条件付確率を求め、さらに、コードCが連続するコードCの次に感情表出状態および平静状態で出現し、コードCが連続するコードCの次に感情表出状態および平静状態で出現する条件付確率を求めると以下のようになる。
Pemo(C3|C1C2)=λemo1Pemo(C3|C1C2)+λemo2Pemo(C3|C2)+λemo3Pemo(C3) (13)
Pemo(C4|C2C3)=λemo1Pemo(C4|C2C3)+λemo2Pemo(C4|C3)+λemo3Pemo(C4) (14)
Pnrm(C3|C1C2)=λnrm1Pnrm(C3|C1C2)+λnrm2Pnrm(C3|C2)+λnrm3Pemo(C3) (15)
Pnrm(C4|C2C3)=λnrm1Pnrm(C4|C2C3)+λnrm2Pnrm(C4|C3)+λnrm3Pnrm(C4) (16)
上記の式(13)〜(16)を用いることによって、式(11)と(12)とで示される第3フレームまでの感情表出状態尤度PSemoと平静状態尤度をPSnrmが求まる。ここで、条件付出願確率Pemo(C|C)およびPnrm(C|C)は、フレーム番号i+2以降で計算できる。
以上の説明は、第4フレームi+3までの計算についてであったが、フレーム数Fの音声小段落Sについても同様に適用できる。例えば、フレーム数Fの音声小段落Sのそれぞれのフレームから得られたコードがC、C、…、CFAのとき、この音声小段落Sが感情表出状態になる尤度PAemoと平静状態になる尤度PAnrmを以下の式(17)および式(18)に示すように計算する。
Figure 0004691327
上記のように算出した尤度が、PAemo>PAnrm、であれば、その音声小段落Sの発話状態は、感情表出状態であると判定する。逆に、PAemo≦PAnrmであれば、実質的に平静状態と判定されることになる。同様に、PAemo/PAnrm>1、であることを感情表出状態と判定するための条件とするのでもよい。また、正の重み係数Wに対しWAemo/PAnrm、を満足することを条件とすることにより、あるいは
=(logPAemo−logPAnrm)/L>W (19)
を満足することを条件とすることにより、小段落のフレーム数Lに応じて重み付けの影響を増減するようにしてもよい。ここでLは例えばL=FA−2としてもよい。
「笑い」、「怒り」、「悲しみ」の各感情表出状態判定方法においても、用いる音声特徴量については前述の方法の場合と同様であり、音声特徴量の組としては例えばパラメータ基本周波数、パワー、動的特徴量の時間変化特性の少なくとも1つ以上及び/又はこれらのフレーム間差分の少なくとも1つ以上を含むことが好ましい。出現確率も単独出現確率又はこれと条件付出現確率の組合せでもよく、更にこの組合せを用いる場合は、条件付出現確率の計算に対し線形補間法を用いることが好ましい。またこの感情表出状態判定方法においても、音声小段落又はこれよりも長い適当な区間ごとに、あるいは全体の音声信号の各音声特徴量の平均値で各音声特徴量を規格化し、あるいは標準化してフレームごとの音声特徴量の組を形成し、ベクトル量子化以降の処理を行うことが好ましい。
感情表出状態判定方法としては、例えば、音声小段落に対する「笑い」、「怒り」、「悲しみ」についての尤度PAlau、PAang、PAsadを式(17)と同様に次式
Figure 0004691327
により計算し、これにより例えば「笑い」であるか、「平静」であるかを判定する場合には、前述と同様に笑いの表出尤度PAlauと生成状態尤度PAnrmから条件
(a1)PAlau>PAnrm
(b1)WAlau>PAnrm
(c1)R=(logPAlau−logPAnrm)/L>W、
のいずれか予め決めた条件を使って、その条件を満足していれば笑いの表出状態であると判定する。「怒り」であるか「平静」であるかの判定は式(21)を使って尤度PAangを計算し、
(a2)PAang>PAnrm
(b2)WAang>PAnrm
(c2)R=(logPAang−logPAnrm)/L>W、
のいずれか予め決めた条件を使って、その条件を満足していれば怒りの表出状態と判定する。同様に、「悲しみ」であるか「平静」であるかの判定は式(22)を使って尤度PAsadを計算し、
(a3)PAsad>PAnrm
(b3)WAsad>PAnrm
(c3)R=(logPAsad−logPAnrm)/L>W、
のいずれか予め決めた条件を使って、その条件を満足するか判定すればよい。判定条件はこれ以外にもいろいろなものが容易に考えられる。
感情表出が「笑い」であるか、「怒り」であるか、「悲しみ」であるかを判定する場合は、例えば上記条件式(c1)、(c2)、(c3)による笑い尤度比R、怒り尤度比R、悲しみ尤度比Rを計算し、これらの尤度比を比較することにより決めることができる。
この発明の原理によれば、前述のように、音声特徴量として基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか1つ以上及び/又はこれらのフレーム間差分の少なくともいずれか1つ以上を使用すればよいが、これらの音声特徴量のうち、動的特徴量の時間変化特性を含むことが好ましい。更に、音声特徴量として少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのフレーム間差分を使用することにより感情検出の精度を高めることができる。音声特徴量として少なくとも特に基本周波数、パワー、動的特徴量の時間変化特性は実用的な特徴量として好ましい。
以上、この発明による感情表出検出方法で使用される符号帳の作成と、その符号帳を使った感情表出の検出について詳細に説明した。以下には、この発明を使って所望の感情表出、ここでは笑い、怒り、悲しみの所望の音声区間を抽出する実施形態を示す。
第1実施形態
この実施形態は3つの感情、「笑い」、「怒り」、「悲しみ」を区別せず、何れの感情表出も「感情」として検出する場合である。
学習音声中の「笑い」の表出区間、「怒り」の表出区間、「悲しみ」の表出区間を区別せず、全ての「感情」のラベリングをし、その他の区間を全て「平静」のラベリングをして図11に示すように1つの符号帳を作成しておく。
図12は第1実施形態による感情表出区間の検出処理手順を示す。
ステップS1:入力コンテンツの音声データから所定の判定区間Sを取り込む。判定区間は前述の音声小段落であってもよいし、あるいは予め決めた少なくとも1フレームを含む一定長の音声区間であってもよい。
ステップS2:取り込んだ判定区間を分析してフレーム毎の音声特徴量ベクトルを求め、図11の符号帳を参照して例えば式(17)、(18)又は式(19)、(20)により平静状態尤度PAnrmと感情表出状態尤度PAemoを計算する。
ステップS3:残りの判定区間があるか判定し、あればステップS1に戻り、次の判定区間について同様の処理を行う。
ステップS4:全ての判定区間について感情表出状態尤度PAemoと平静状態尤度PAnrmが例えば図13に概念的に示すように求まると、WAemo>PAnrmを満たす区間S’を検出し、その各検出区間S’の位置(例えば検出区間の開始及び終了フレーム番号、又はコンテンツの最初から検出区間の開始時刻及び終了時刻)を記憶手段に記憶する。Wは予め決めた正の定数であり、Lは各区間S毎のフレーム数である。尚、図13には、WAemo,PAnrmを連続曲線で示しているが、実際には判定区間Sごとの不連続な曲線である。
ステップS5:ステップS4で検出した区間S’の位置に対応する区間をコンテンツから感情表出区間として抽出する。
第2実施形態
この実施形態は、上記第1実施形態において検出した感情表出区間S’を、図12のステップS5において更に感情表出が「笑い」、「怒り」、「悲しみ」のどれであるかを判定する。この第2実施形態は第1実施形態で使用する図11の感情表出検出用の符号帳に加えて次の符号帳を予め作成しておく。
上記「感情」のラベルがつけられた学習音声区間中の笑いの表出区間に「笑い」をラベリングし、怒りの表出区間に「怒り」をラベリングし、悲しみの表出区間に「悲しみ」をラベリングし、これら「笑い」、「怒り」、「悲しみ」がラベリングされた音声区間に基づいて図14に示す符号帳を作成する。
図15は、第2実施形態による「笑い」、「怒り」、「悲しみ」の感情表出区間を検出する処理手順を示す。ステップS1〜S4は図11の符号帳を使って図12に示した第1実施形態による感情表出区間の検出処理と同じであり、これにより、「笑い」、「怒り」、「悲しみ」のいずれかを含む感情表出区間S’が検出される。以降のステップS5〜S8により、感情表出区間S’の「笑い」、「怒り」、「悲しみ」のどれであるかを判別する。
ステップS5:ステップS4で検出された感情表出区間S’内の一連の音声特徴量ベクトルを得る。これはステップS1〜S3において全音声区間についての音声特徴量ベクトルが既に求められているので、その中から区間S’に対応する一連の音声特徴量ベクトルを取り出せばよい。
ステップS6:図14の符号帳を参照して検出感情表出区間S’の笑い表出尤度PAlau、怒りの表出尤度PAang、悲しみ表出尤度PAsadをそれぞれ計算する。
ステップS7:これら尤度PAlau、PAang、PAsadのうち、最大の尤度を判定し、その最大尤度の感情を表すマーク、例えば笑いはLau、怒りはAng、悲しみはSadのマークをその検出区間S’の位置に対応して記憶する。
ステップS8:未処理の感情表出検出区間S’が残っているか判定し、残っていればステップS5に戻り、次の感情表出検出区間S’について同様の処理を実行する。
ステップS9:全ての感情表出検出区間S’について最大尤度の判定が終了していれば、全ての感情表出検出区間S’の中からマークLau、Ang、Sadのうち、例えば利用者により指定された感情のマークの検出区間に対応する区間をコンテンツから抽出する。
このように、第2実施形態に拠れば、利用者が1種類又は複数種類の感情表出を指定すれば、その指定された感情表出に対応する部分をコンテンツから抽出することができる。
第3実施形態
上述の第2実施形態では音声データからまず感情表出区間を検出し、次に各感情表出区間が「笑い」、「怒り」、「悲しみ」のいずれかであるかを判定する場合を示したが、この第3実施形態では、音声データから直接「笑い」、「怒り」、「悲しみ」の任意の感情表出を検出する。符号帳は図14に示したものを使用する。図16は第3実施形態による感情表出区間の検出処理手順を示す。
ステップS1:判定区間Sを入力音声コンテンツから取り込む。
ステップS2:判定区間Sの一連のフレーム音声特徴量ベクトルを求め、図14の符号帳を参照して笑い表出尤度PAlau、怒り表出尤度PAang、悲しみ表出尤度PAsadをそれぞれ計算する。
ステップS3:これら尤度PAlau、PAang、PAsadのうち、最大の尤度を判定し、その最大尤度の感情を表すマーク例えば笑いはLau、怒りはAng、悲しみはSadのマークをその判定区間Sの位置に対応して記憶する。
ステップS4:未処理の判定区間Sが残っているか判定し、残っていればステップS1に戻り、次の判定区間Sについて同様の処理を実行する。
ステップS5:全ての判定区間Sについて最大尤度の判定が終了していれば、全ての判定区間Sの中からマークLau、Ang、Sadのうち、例えば利用者により指定されたマークの検出区間に対応する区間をコンテンツから抽出する。
このように、第3実施形態によっても、利用者が1種類又は複数種類の感情表出を指定すれば、その指定された感情表出に対応する部分をコンテンツから抽出することができる。この第3実施形態の場合は、第1実施形態における符号帳は使用しないので、平静状態尤度を使用しないことになる。即ち、この発明による感情表出の検出には、平静状態尤度の計算を必ずしも必要としない。
第4実施形態
この実施形態も、例えば「笑い」、「怒り」、「悲しみ」の3種類の感情表出の任意のもの(1つ又は複数)を抽出することを可能にするものであり、予め次の3つの符号帳を作成しておく(図9の例と同様である)。
(1)学習音声中の全ての笑いの表出区間に「笑い」のラベリングをし、全ての平静状態区間に「平静」のラベリングをして笑い検出用符号帳を作成する。
(2)学習音声中の全ての怒りの表出区間に「怒り」のラベリングをし、全ての平静状態区間に「平静」のラベリングをして怒り検出用符号帳を作成する。
(3)学習音声中の全ての悲しみの表出区間に「悲しみ」のラベリングをし、全ての平静状態区間に「平静」のラベリングをして悲しみ検出用符号帳を作成する。
図17は第4実施形態の処理手順を示す。この実施形態においても、3種類の感情表出の任意の1つ又は複数を検出できる。
ステップS1:コンテンツの音声データから判定区間Sを取り込む。判定区間Sは前述のように音声小段落でもよいし、予め決めた一定長の区間でもよい。
ステップS2:判定区間Sを分析してフレーム毎の音声特徴量を求め、上記笑い検出用符号帳を参照して笑い表出尤度PAlauとそれに対する平静状態尤度PAnrmを求め、笑い尤度比
=(logPAlau−logPAnrm)/L
を計算する。上記怒り検出用符号帳を参照して怒り表出尤度PAangとそれに対する平静状態尤度PAnrmを求め、怒り尤度比
=(logPAang−logPAnrm)/L
を計算する。更に、上記悲しみ検出用符号帳を参照して悲しみ表出尤度PAsadとそれに対する平常状態尤度PAnrmを求め、悲しみ尤度比
=(logPAsad−logPAnrm)/L
を計算する。計算したこれら尤度比R,R,Rを記憶する。
ステップS3:残りの判定区間Sがあるか判定し、あればステップS1に戻り次の判定区間Sについて同様の処理を実行する。音声データの全区間について終了していれば、利用者により指定された「笑い」、「怒り」、「悲しみ」の任意の1つ又は複数について次のステップS4,S5,S6のうち、指定された感情に対応するものを実行する。
ステップS4,S5,S6:ステップS1,S2,S3の処理により例えば図18に概念的に示すように、縦軸を尤度比Rとして笑い表出尤度比R、怒り表出尤度比R、悲しみ表出尤度比Rの曲線がそれぞれ得られており、これらと予め決めた閾値Rthを比較し、Rthより大となる区間を検出し、それらの位置と感情マークLau,Ang,Sadを対応させて記憶する。
ステップS7:「笑い」、「怒り」、「悲しみ」のうち、利用者により指定されたものの検出区間をコンテンツから抽出する。
このように、この第3実施形態においても「笑い」、「怒り」、「悲しみ」の任意の感情表出を選択してコンテンツから抽出することが可能である。
第5実施形態
この実施形態は第4実施形態の変形例である。第4実施形態では感情表出区間を検出するために各感情表出状態尤度比を一定閾値Rthと比較したが、ここでは、各感情表出状態尤度を共通の平静状態尤度と比較して各感情表出区間を検出する。そのために、学習音声中の笑い表出区間、怒り表出区間、悲しみ表出区間にそれぞれ「笑い」、「怒り」、「悲しみ」をラベリングし、音声が平静となる区間に「平静」をそれぞれラベリングし、図19に示す符号帳を作成しておく。図19に示すように、符号帳には笑い、怒り、悲しみ、平静の各感情表出における符号の単独出現確率(unigram)、条件付出現確率(bigram、trigram)が学習音声から求められ、書き込まれている。
図20は第5実施形態の処理手順を示す。
ステップS1:コンテンツの音声データから判定区間Sを取り込む。
ステップS2:判定区間Sを分析してフレーム毎の音声特徴量を求め、図19の符号帳を参照して笑い表出尤度PAlau、怒り表出尤度PAang、悲しみ表出尤度PAsad、平静状態尤度PAnrmを計算し、記憶する。
ステップS3:残りの判定区間があるか判定し、あればステップS1に戻り、次の判定区間について同様の処理を実行する。残りの判定区間がなければ、「笑い」、「怒り」、「悲しみ」のうち利用者により指定された1つ又は複数についてステップS4、S5,S6の対応するものを実行する。
ステップS4,S5,S6:ステップS1,S2,S3の処理が終了した段階で例えば図21に概念的に示すように、笑い表出尤度PAlau、怒り表出尤度PAang、悲しみ表出尤度PAsad、平常状態尤度PAnrmの曲線が得られている。ただし、図21ではフレーム数FAの区間の各感情表出尤度PAlau、PAang、PAsadに重みWを乗算した曲線を示している。これら尤度曲線WAlau、WAang、WAsadと曲線PAnrmと比較し、WAlau>PAnrm、WAang>PAnrm、WAsad>PAnrmを満足し、かつPAlau、PAang、PAsadのうち最大のものの区間をそれぞれ検出し、それぞれ検出区間の位置とマークを対応させて記憶する。
ステップS7:「笑い」、「怒り」、「悲しみ」のうち、利用者に指定された感情の検出区間に対応する区間を音声コンテンツから抽出する。
第6実施形態
この実施形態では、予め学習音声中の「笑い」、「怒り」、「悲しみ」の音声区間にそれぞれ対応するラベルをつけ、「笑い」の音声区間と「怒り」の音声区間の全フレームの音声特徴量スペクトルから笑い表出についての各量子化音声特徴量ベクトルの各出現確率と、怒り表出についての量子化音声特徴量ベクトルの各出現確率を求め、図22に示す符号帳CB−1を作成し、同様に「怒り」の音声区間と「悲しみ」の音声区間の全フレームの音声特徴量ベクトルから怒り表出についての各量子化音声特徴量ベクトルの各出現確率と、悲しみ表出についての量子化音声特徴量ベクトルの各出現確率を求め、図22に示す符号帳CB−2を作成し、「悲しみ」の音声区間と「笑い」の音声区間の全フレームの音声特徴量ベクトルから悲しみ表出についての各量子化音声特徴量ベクトルの各出現確率と、笑い表出についての量子化音声特徴量ベクトルの各出現確率を求め、図22に示す符号帳CB−3を作成しておく。
図23は第6実施形態による感情表出検出処理手順を示す。
ステップS1〜S4は図12の各感情を区別しない場合の処理手順と同様であり、図11の符号帳を使って全音声区間について得た感情表出状態尤度WAemoと平静状態尤度PAnrmの曲線からWAemo>PAnrmとなる区間を感情表出区間S’として全て検出し、一時記憶する。
ステップS5:感情表出区間S’を取り込む。
ステップS6:感情表出区間S’の一連の音声特徴量スペクトルから図22の符号帳CB−1を参照して笑い表出尤度PAlau1と怒り表出尤度PAang2を求め、符号帳CB−2を参照して怒り表出尤度PAang1と悲しみ表出尤度PAsad2を求め、符号帳CB−3を参照して悲しみ表出尤度PAsad1と笑い表出尤度PAlau3を求める。
ステップS7:上記尤度から笑い、怒り、悲しみについてそれぞれ2つの尤度を以下のように決める。
笑い尤度:PLAU1=PAlau1/PAang2; PLAU2=PAlau2/PAsad1
怒り尤度:PANG1=PAang1/PAsad2; PANG2=PAang2/PAlau1
悲しみ尤度:PSAD1=PAsad1/PAlau2; PSAD2=PAsad2/PAang1
ステップS8:笑い度、怒り度、悲しみ度を以下のように決める。
笑い度:LAU=(PLAU1+PLAU2)/2
怒り度:ANG=(PANG1+PANG2)/2
悲しみ度:SAD=(PSAD1+PSAD2)/2
ステップS9:図24に示すように、
LAU>ANGかつLAU>SADの区間を検出し、Lauのマークを付ける。
ANG>SADかつANG>LAUの区間を検出し、Angのマークを付ける。
SAD>LAUかつSAD>ANGの区間を検出し、Sadのマークを付ける。
ステップS10:全ての検出区間S’について処理が終了したか判定し、終了してなければステップS5に戻って次の感情表出検出区間S’についてステップS6〜S9で同様の処理を実行する。
ステップS11:全ての検出区間S’について終了していれば、利用者により指定された感情のマークの区間を音声コンテンツから抽出する。あるいはユーザが希望する指定の時間長で要約を視聴したい、笑っているところだけを見たい、などの要求を満足する閾値Rth以上の区間を抽出してもよい(図22の破線参照)。
上述の第1から第6実施形態における各感情表出状態尤度PAlau、PAng、PAsadはいずれも前記式(17)または(19)のいずれを使用して計算してもよい。
以上説明したように、本発明の第1の実施の形態に係る情報処理装置および情報処理プログラムは、利用者が発声した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、自動的に推測した利用者の感情に応じた顔画像を描画させることができる。
また、入力音声の音声特徴量の組を量子化し、符号帳中の対応する音声特徴量ベクトルが感情表出状態で出現する確率を符号帳から求め、この出現確率からその感情表出であるか否かを判定しているため、利用者の声質に依存することなく利用者の感情を特定することができ、特定した感情に応じた顔画像を描画させることができる。
B.第2の実施の形態
本発明の第2の実施の形態について、図面を用いて説明する。図25は、本発明の第2の実施の形態に係る情報処理装置のブロック構成図である。図25に示すように、情報処理装置200は、画像情報記憶手段110、音声信号受信手段120、感情推測手段130、画像変化手段140、表示手段150、電子メール選択手段260、および顔画像検出手段270を備えて構成されている。これらの手段は、CPU101によって実行されるプログラムのモジュールでもよい。また、情報処理装置200は、パソコンを含むコンピュータを用いても実現可能である。
なお、本発明の第2の実施の形態に係る情報処理装置を構成する手段のうち、本発明の第1の実施の形態に係る情報処理装置を構成する手段と同一の手段には同一の符号を付し、それぞれの説明を省略する。また、本発明の第2の実施の形態に係る情報処理装置のハードウエア構成は、本発明の第1の実施の形態に係る情報処理装置のハードウエア構成と同様である。
電子メール選択手段260は、受信した電子メールのうち任意の電子メールを利用者に選択させるようになっている。例えば、電子メール選択手段260は、POP3、SMTP、またはIMAP4などのプロトコルに準拠した電子メールのクライアントソフトなどによって構成されている。
顔画像検出手段270は、電子メール選択手段260によって選択された電子メールに含まれる画像情報から顔画像情報を検出し、画像情報記憶手段110は、顔画像検出手段270が検出した顔画像情報を記憶するようになっている。例えば、顔画像検出手段270は、電子メールに添付された画像ファイルがあれば、顔認証技術を用いて画像ファイルから顔画像情報を検出するようになっている。
以下、本発明の第2の実施の形態に係る情報処理装置が実行するプログラムについて、図面を参照して説明する。図26は、本発明の第2の実施の形態に係る情報処理装置の動作の流れを示すフローチャートである。
まず、利用者は電子メールのクライアントソフトを操作して、任意の電子メールを構成する電子ファイルが、電子メール選択手段260によって選択される(S201)。任意の電子メールを構成する電子ファイルが選択されたとき、電子メールに添付されている画像情報から顔画像情報が顔画像検出手段270によって検出されたか否か、確認される(S202)。
顔画像情報が検出されたとき、顔画像情報は、画像情報記憶手段110によって記憶される(S203)。ここで、利用者が音声を発声すれば、利用者が発声した音声に従って利用者の感情が推定され、感情に対応する表情になるように顔画像検出手段270によって検出された顔画像は変化する。
以上説明したように、本発明の第2の実施の形態に係る情報処理装置および情報処理プログラムは、電子メールに含まれる画像情報から顔画像情報を検出したとき、利用者が発声した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、ビデオメールなどの電子メールに付加価値を与えることができる。
また、本発明の第2の実施の形態に係る情報処理装置および情報処理プログラムは、顔画像を通じて感情を利用者に共有させることができ、例えば、利用者が悲しい内容の電子メールを読んでいるとき、利用者の泣き声に応じて顔画像が変化し、可笑しい内容の電子メールを読んでいるとき、利用者の笑い声に応じて顔画像が変化するため、顔画像を通じて感情を利用者に共有させることができる。
C.第3の実施の形態
本発明の第3の実施の形態について、図面を用いて説明する。図27は、本発明の第3の実施の形態に係る情報処理装置のブロック構成図である。図27に示すように、情報処理装置300は、通信手段301、画像情報記憶手段110、感情推測手段130、画像変化手段140、および表示手段150を備えて構成されている。これらの手段は、CPU101によって実行されるプログラムのモジュールでもよい。また、情報処理装置300は、パソコンを含むコンピュータを用いても実現可能である。
なお、本発明の第3の実施の形態に係る情報処理装置を構成する手段のうち、本発明の第1の実施の形態に係る情報処理装置を構成する手段と同一の手段には同一の符号を付し、それぞれの説明を省略する。また、本発明の第3の実施の形態に係る情報処理装置のハードウエア構成は、本発明の第1の実施の形態に係る情報処理装置のハードウエア構成と同様である。
通信手段301は、音声信号受信手段320を備えて構成されている。また、情報処理装置300と通信端末10との間では、ネットワーク20を介してテレビ電話としての通信を行うようになっている。また、インタフェース部106などを介して発呼や着呼などに関わる処理、または、通信端末10との間のデータの送受などを行うようになっている。
音声信号受信手段320は、ネットワーク20を介して相手の通信端末10から得られた音声信号を受信するようになっている。
以下、本発明の第3の実施の形態に係る情報処理装置が実行するプログラムについて、図面を参照して説明する。図28は、本発明の第3の実施の形態に係る情報処理装置の動作の流れを示すフローチャートである。なお、本発明の第3の実施の形態に係る情報処理装置が行う処理のうち、本発明の第1の実施の形態に係る情報処理装置が行う処理と同一のものには同一の符号を付している。
まず、相手が発声した音声から得られた音声信号は、音声信号受信手段320によってネットワーク20を介して受信され(S301)、受信された音声信号に基づいて通信相手の感情は、感情推測手段130によって推測される(S102)。
次に、予め決められた顔画像は、画像変化手段140によって感情推測手段130が推測した感情に対応する表情になるように変化され(S103)、変化された顔画像は、表示手段150によって表示される(S104)。なお、予め決められた顔画像に代えて、通信端末10が有するカメラから相手の顔の像を撮像し、撮像された顔の像を表す情報をネットワーク20を介して得られた顔画像でもよい。
以上説明したように、本発明の第3の実施の形態に係る情報処理装置および情報処理プログラムは、ネットワーク20を介して相手の端末から得られた音声信号に基づいて通信相手の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、通信相手の感情面に着目して魅力的な通信を実現することができる。
また、本発明の実施の形態では、音声処理装置が上記のS310〜S340の各ステップでの処理を行う音声処理動作について説明したが、これらのステップS310〜S340を含む音声処理動作を実行させるための音声処理プログラムがインストールされた所定のコンピュータを用いて実施することも可能である。
本発明に係る情報処理装置および情報処理プログラムは、自動的に推測した利用者の感情に応じた顔画像を描画させることができるという効果が有し、パソコン、携帯電話、または公共施設に設置されている端末などの用途にも利用可能である。
本発明の第1の実施の形態に係る情報処理装置の構成を示すブロック図。 本発明の第1の実施の形態に係る情報処理装置のハードウエア構成を示す概略図。 本発明の第1の実施の形態に係る感情推測手段の構成を示すブロック図。 本発明の第1の実施の形態に係る情報処理装置の動作の流れを示すフローチャート。 本発明の第1の実施の形態に係る感情推測手段130の動作を説明するためのフローチャート。 ステップS330での処理の詳細を説明するためのフローチャート。 音声小段落、音声段落等を説明するための概念図。 ステップS310での処理の詳細を説明するためのフローチャート。 符号帳の記録例を示す図。 音声データの処理を説明するための模式図。 第1実施形態に使用する符号帳の例を示す図。 第1実施形態の処理手順を示すフローチャート。 尤度の比較による感情表出区間の検出を説明するための概念図。 第1実施形態で使用される符号帳の例を示す図。 第2実施形態の処理手順を示すフローチャート。 第3実施形態の処理手順を示すフローチャート。 第4実施形態の処理手順を示すフローチャート。 尤度比に基づく感情表出区間の検出を説明するための概念図。 第4実施形態で使用される符号帳の例を示す図。 第5実施形態の処理手順を示すフローチャート。 尤度比較に基づく感情表出区間の検出を説明するための概念図。 第6実施形態で使用される符号帳の例を示す図。 第6実施形態の処理手順を示すフローチャート。 笑い度、怒り度、悲しみなどの比較による感情表出を説明するための概念図。 本発明の第2の実施の形態に係る情報処理装置の構成を示すブロック図。 本発明の第2の実施の形態に係る情報処理装置の動作の流れを示すフローチャート。 本発明の第3の実施の形態に係る情報処理装置の構成を示すブロック図。 本発明の第3の実施の形態に係る情報処理装置の動作の流れを示すフローチャート。
符号の説明
100,200,300 情報処理装置
101 CPU
102 ROM
103 RAM
104 EEPROM
105 ハードディスク
106 インタフェース部
107 ディスプレイ
110 画像情報記憶手段
120,320 音声信号受信手段
130 感情推測手段
131 記憶手段
132 音声特徴量抽出手段
133 感情表出尤度算出手段
134 平静状態尤度算出手段
135 感情表出判定手段
140 画像変化手段
150 表示手段
260 電子メール選択手段
270 顔画像検出手段
301 通信手段

Claims (2)

  1. 学習音声に含まれる音声特徴量の組である音声特徴量ベクトル、音声を発した話者の感情を示す情報、前記話者の感情表出状態の前記音声特徴量ベクトルの出現確率である感情表出確率、及び前記話者の感情表出がなかったときの前記音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する学習音声を用いて生成された符号帳を、笑い、怒り、悲しみの感情、および平静状態に対応させて作成し、作成した該符号帳を記憶する符号帳記憶手段と、
    顔の像を含む顔画像を表す顔画像情報を記憶する画像情報記憶手段と、
    利用者が発声した音声から得られた音声信号を受信する音声信号受信手段と、
    前記音声信号受信手段によって受信された音声信号から前記音声特徴量ベクトルを抽出する音声特徴量抽出手段と、
    前記音声特徴量抽出手段によって抽出された前記音声特徴量ベクトルから、笑い、怒り、悲しみ、それぞれの感情に対応した前記符号帳に基づいて前記利用者の笑い、怒り、悲しみ、それぞれの感情表出についての尤度である感情表出状態尤度を算出する感情表出尤度算出手段と、
    前記音声特徴量抽出手段によって抽出された前記音声特徴量ベクトルから前記符号帳に基づいて前記利用者の平静状態についての尤度である平静状態尤度を算出する平静状態算出手段と、
    前記笑い、怒り、悲しみ、それぞれの感情表出尤度及び前記平静状態尤度に基づき、感情表出があったときの前記利用者の笑い、怒り、悲しみのいずれかの感情表出を推測する感情推測手段と、
    前記感情推測手段が推測した感情に対応する表情になるように前記顔画像を変化させる画像変化手段と、
    前記画像変化手段によって変化された顔画像を表示する表示手段と
    を備えたことを特徴とする情報処理装置。
  2. 学習音声に含まれる音声特徴量の組である音声特徴量ベクトル、音声を発した話者の感情を示す情報、前記話者の感情表出状態の前記音声特徴量ベクトルの出現確率である感情表出確率、及び前記話者の感情表出がなかったときの前記音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する学習音声を用いて生成された符号帳を、笑い、怒り、悲しみの感情、および平静状態に対応させて作成し、作成した該符号帳を記憶する符号帳記憶手段と、顔の像を含む顔画像を表す顔画像情報を記憶する画像情報記憶手段とを有するコンピュータに、
    利用者が発声した音声から得られた音声信号を受信する音声信号受信ステップと、
    前記音声信号受信ステップで受信された音声信号から前記音声特徴量ベクトルを抽出する音声特徴量抽出ステップと、
    前記音声特徴量抽出ステップによって抽出された前記音声特徴量ベクトルから、笑い、怒り、悲しみ、それぞれの感情に対応した前記符号帳に基づいて前記利用者の笑い、怒り、悲しみ、それぞれの感情表出についての尤度である感情表出状態尤度を算出する感情表出尤度算出ステップと、
    前記音声特徴量抽出ステップによって抽出された前記音声特徴量ベクトルから前記符号帳に基づいて前記利用者の平静状態についての尤度である平静状態尤度を算出する平静状態算出ステップと、
    前記笑い、怒り、悲しみ、それぞれの感情表出尤度及び前記平静状態尤度に基づき、感情表出があったときの前記利用者の笑い、怒り、悲しみのいずれかの感情表出を推測する感情推測ステップと、
    前記感情推測ステップで推測した感情に対応する表情になるように前記顔画像を変化させる画像変化ステップと、
    前記画像変化ステップで変化した顔画像を表示する表示ステップと
    を実行させることを特徴とする情報処理プログラム。
JP2004174542A 2004-06-11 2004-06-11 情報処理装置および情報処理プログラム Expired - Fee Related JP4691327B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004174542A JP4691327B2 (ja) 2004-06-11 2004-06-11 情報処理装置および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004174542A JP4691327B2 (ja) 2004-06-11 2004-06-11 情報処理装置および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2005352892A JP2005352892A (ja) 2005-12-22
JP4691327B2 true JP4691327B2 (ja) 2011-06-01

Family

ID=35587318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004174542A Expired - Fee Related JP4691327B2 (ja) 2004-06-11 2004-06-11 情報処理装置および情報処理プログラム

Country Status (1)

Country Link
JP (1) JP4691327B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008076905A (ja) * 2006-09-22 2008-04-03 Univ Of Tokyo 感情判別方法
JP5381994B2 (ja) * 2008-10-21 2014-01-08 日本電気株式会社 情報処理装置
JP5377167B2 (ja) * 2009-09-03 2013-12-25 株式会社レイトロン 悲鳴検出装置および悲鳴検出方法
EP2618311A1 (en) * 2012-01-17 2013-07-24 NTT DoCoMo, Inc. A computer-implemented method and apparatus for performing a head animation
CN112785667A (zh) * 2021-01-25 2021-05-11 北京有竹居网络技术有限公司 视频生成方法、装置、介质及电子设备

Also Published As

Publication number Publication date
JP2005352892A (ja) 2005-12-22

Similar Documents

Publication Publication Date Title
CN108573693B (zh) 文本到语音系统和方法以及其存储介质
JP6903129B2 (ja) ささやき声変換方法、装置、デバイス及び可読記憶媒体
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
US11133025B2 (en) Method and system for speech emotion recognition
US20140114663A1 (en) Guided speaker adaptive speech synthesis system and method and computer program product
JP7228998B2 (ja) 音声合成装置及びプログラム
KR20080018622A (ko) 휴대용 단말기의 음성 인식 시스템
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
KR20120044809A (ko) 감성적 음성합성 장치 및 그 방법
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4580190B2 (ja) 音声処理装置、音声処理方法およびそのプログラム
JP2003036097A (ja) 情報検出装置及び方法、並びに情報検索装置及び方法
JP4691327B2 (ja) 情報処理装置および情報処理プログラム
CN114999443A (zh) 语音生成方法及装置、存储介质、电子设备
Kons et al. Neural TTS voice conversion
JP3803311B2 (ja) 音声処理方法及びその方法を使用した装置及びそのプログラム
KR101862982B1 (ko) LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법
JP2005352893A (ja) 通信端末および通信プログラム
JP2005352311A (ja) 音声合成装置および音声合成プログラム
JP4256393B2 (ja) 音声処理方法及びそのプログラム
JP2005354519A (ja) 撮像装置および撮像プログラム
JP2017049535A (ja) 音声合成システムならびにその予測モデル学習方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080618

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080924

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081121

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20081201

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090424

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090709

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110221

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4691327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees