JP2005352892A - 情報処理装置および情報処理プログラム - Google Patents
情報処理装置および情報処理プログラム Download PDFInfo
- Publication number
- JP2005352892A JP2005352892A JP2004174542A JP2004174542A JP2005352892A JP 2005352892 A JP2005352892 A JP 2005352892A JP 2004174542 A JP2004174542 A JP 2004174542A JP 2004174542 A JP2004174542 A JP 2004174542A JP 2005352892 A JP2005352892 A JP 2005352892A
- Authority
- JP
- Japan
- Prior art keywords
- face image
- emotion
- expression
- information processing
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】 顔の像を含む顔画像を表す顔画像情報を記憶する画像情報記憶手段110と、利用者が発声した音声から得られた音声信号を受信する音声信号受信手段120と、音声信号受信手段120によって受信された音声信号に基づいて利用者の感情を推測する感情推測手段130と、感情推測手段130が推測した感情に対応する表情になるように顔画像を変化させる画像変化手段140と、画像変化手段140によって変化された顔画像を表示する表示手段150とを備えて構成する。
【選択図】 図1
Description
この構成により、利用者が発声した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、自動的に推測した利用者の感情に応じた顔画像を描画させることができる。
この構成により、電子メールに含まれる画像情報から顔画像情報を検出したとき、利用者が発声した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、ビデオメールなどの電子メールに付加価値を与えることができる。
この構成により、ネットワークを介して相手の端末から得られた音声信号に基づいて通信相手の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、通信相手の感情面に着目して魅力的な通信を実現することができる。
このプログラムにより、利用者が発声した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、自動的に推測した利用者の感情に応じた顔画像を描画させることができる。
このブログラムにより、電子メールに含まれる画像情報から顔画像情報を検出したとき、利用者が発声した音声から得られた音声信号に基づいて利用者の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、ビデオメールなどの電子メールに付加価値を与えることができる。
このブログラムにより、ネットワークを介して相手の端末から得られた音声信号に基づいて通信相手の感情を推測し、推測した感情に対応する表情になるように顔画像を変化させるため、通信相手の感情面に着目して魅力的な通信を実現することができる。
Pnrm(Ci|Ci…Ci−1)=Pnrm(Ci|Ci-N+1…Ci−1) (6)
PAnrm=Pnrm(C3|C1C2)…Pnrm(CFA|CFA−2CFA−1) (10)
PSnrm=Pnrm(C3|C1C2)Pnrm(C4|C2C3) (12)
Pemo(C4|C2C3)=λemo1Pemo(C4|C2C3)+λemo2Pemo(C4|C3)+λemo3Pemo(C4) (14)
Pnrm(C3|C1C2)=λnrm1Pnrm(C3|C1C2)+λnrm2Pnrm(C3|C2)+λnrm3Pemo(C3) (15)
Pnrm(C4|C2C3)=λnrm1Pnrm(C4|C2C3)+λnrm2Pnrm(C4|C3)+λnrm3Pnrm(C4) (16)
RE=(logPAemo−logPAnrm)/L>W (19)
を満足することを条件とすることにより、小段落のフレーム数Lに応じて重み付けの影響を増減するようにしてもよい。ここでLは例えばL=FA−2としてもよい。
(a1)PAlau>PAnrm、
(b1)WLPAlau>PAnrm、
(c1)RL=(logPAlau−logPAnrm)/L>W、
のいずれか予め決めた条件を使って、その条件を満足していれば笑いの表出状態であると判定する。「怒り」であるか「平静」であるかの判定は式(21)を使って尤度PAangを計算し、
(b2)WLPAang>PAnrm、
(c2)RA=(logPAang−logPAnrm)/L>W、
のいずれか予め決めた条件を使って、その条件を満足していれば怒りの表出状態と判定する。同様に、「悲しみ」であるか「平静」であるかの判定は式(22)を使って尤度PAsadを計算し、
(b3)WLPAsad>PAnrm、
(c3)RS=(logPAsad−logPAnrm)/L>W、
のいずれか予め決めた条件を使って、その条件を満足するか判定すればよい。判定条件はこれ以外にもいろいろなものが容易に考えられる。
この実施形態は3つの感情、「笑い」、「怒り」、「悲しみ」を区別せず、何れの感情表出も「感情」として検出する場合である。
ステップS1:入力コンテンツの音声データから所定の判定区間Sを取り込む。判定区間は前述の音声小段落であってもよいし、あるいは予め決めた少なくとも1フレームを含む一定長の音声区間であってもよい。
ステップS3:残りの判定区間があるか判定し、あればステップS1に戻り、次の判定区間について同様の処理を行う。
この実施形態は、上記第1実施形態において検出した感情表出区間S’を、図12のステップS5において更に感情表出が「笑い」、「怒り」、「悲しみ」のどれであるかを判定する。この第2実施形態は第1実施形態で使用する図11の感情表出検出用の符号帳に加えて次の符号帳を予め作成しておく。
ステップS7:これら尤度PAlau、PAang、PAsadのうち、最大の尤度を判定し、その最大尤度の感情を表すマーク、例えば笑いはLau、怒りはAng、悲しみはSadのマークをその検出区間S’の位置に対応して記憶する。
ステップS9:全ての感情表出検出区間S’について最大尤度の判定が終了していれば、全ての感情表出検出区間S’の中からマークLau、Ang、Sadのうち、例えば利用者により指定された感情のマークの検出区間に対応する区間をコンテンツから抽出する。
上述の第2実施形態では音声データからまず感情表出区間を検出し、次に各感情表出区間が「笑い」、「怒り」、「悲しみ」のいずれかであるかを判定する場合を示したが、この第3実施形態では、音声データから直接「笑い」、「怒り」、「悲しみ」の任意の感情表出を検出する。符号帳は図14に示したものを使用する。図16は第3実施形態による感情表出区間の検出処理手順を示す。
ステップS2:判定区間Sの一連のフレーム音声特徴量ベクトルを求め、図14の符号帳を参照して笑い表出尤度PAlau、怒り表出尤度PAang、悲しみ表出尤度PAsadをそれぞれ計算する。
ステップS5:全ての判定区間Sについて最大尤度の判定が終了していれば、全ての判定区間Sの中からマークLau、Ang、Sadのうち、例えば利用者により指定されたマークの検出区間に対応する区間をコンテンツから抽出する。
この実施形態も、例えば「笑い」、「怒り」、「悲しみ」の3種類の感情表出の任意のもの(1つ又は複数)を抽出することを可能にするものであり、予め次の3つの符号帳を作成しておく(図9の例と同様である)。
(2)学習音声中の全ての怒りの表出区間に「怒り」のラベリングをし、全ての平静状態区間に「平静」のラベリングをして怒り検出用符号帳を作成する。
(3)学習音声中の全ての悲しみの表出区間に「悲しみ」のラベリングをし、全ての平静状態区間に「平静」のラベリングをして悲しみ検出用符号帳を作成する。
ステップS1:コンテンツの音声データから判定区間Sを取り込む。判定区間Sは前述のように音声小段落でもよいし、予め決めた一定長の区間でもよい。
RL=(logPAlau−logPAnrm)/L
を計算する。上記怒り検出用符号帳を参照して怒り表出尤度PAangとそれに対する平静状態尤度PAnrmを求め、怒り尤度比
RA=(logPAang−logPAnrm)/L
を計算する。更に、上記悲しみ検出用符号帳を参照して悲しみ表出尤度PAsadとそれに対する平常状態尤度PAnrmを求め、悲しみ尤度比
RS=(logPAsad−logPAnrm)/L
を計算する。計算したこれら尤度比RL,RA,RSを記憶する。
このように、この第3実施形態においても「笑い」、「怒り」、「悲しみ」の任意の感情表出を選択してコンテンツから抽出することが可能である。
この実施形態は第4実施形態の変形例である。第4実施形態では感情表出区間を検出するために各感情表出状態尤度比を一定閾値Rthと比較したが、ここでは、各感情表出状態尤度を共通の平静状態尤度と比較して各感情表出区間を検出する。そのために、学習音声中の笑い表出区間、怒り表出区間、悲しみ表出区間にそれぞれ「笑い」、「怒り」、「悲しみ」をラベリングし、音声が平静となる区間に「平静」をそれぞれラベリングし、図19に示す符号帳を作成しておく。図19に示すように、符号帳には笑い、怒り、悲しみ、平静の各感情表出における符号の単独出現確率(unigram)、条件付出現確率(bigram、trigram)が学習音声から求められ、書き込まれている。
ステップS1:コンテンツの音声データから判定区間Sを取り込む。
ステップS2:判定区間Sを分析してフレーム毎の音声特徴量を求め、図19の符号帳を参照して笑い表出尤度PAlau、怒り表出尤度PAang、悲しみ表出尤度PAsad、平静状態尤度PAnrmを計算し、記憶する。
ステップS7:「笑い」、「怒り」、「悲しみ」のうち、利用者に指定された感情の検出区間に対応する区間を音声コンテンツから抽出する。
この実施形態では、予め学習音声中の「笑い」、「怒り」、「悲しみ」の音声区間にそれぞれ対応するラベルをつけ、「笑い」の音声区間と「怒り」の音声区間の全フレームの音声特徴量スペクトルから笑い表出についての各量子化音声特徴量ベクトルの各出現確率と、怒り表出についての量子化音声特徴量ベクトルの各出現確率を求め、図22に示す符号帳CB−1を作成し、同様に「怒り」の音声区間と「悲しみ」の音声区間の全フレームの音声特徴量ベクトルから怒り表出についての各量子化音声特徴量ベクトルの各出現確率と、悲しみ表出についての量子化音声特徴量ベクトルの各出現確率を求め、図22に示す符号帳CB−2を作成し、「悲しみ」の音声区間と「笑い」の音声区間の全フレームの音声特徴量ベクトルから悲しみ表出についての各量子化音声特徴量ベクトルの各出現確率と、笑い表出についての量子化音声特徴量ベクトルの各出現確率を求め、図22に示す符号帳CB−3を作成しておく。
ステップS1〜S4は図12の各感情を区別しない場合の処理手順と同様であり、図11の符号帳を使って全音声区間について得た感情表出状態尤度WLPAemoと平静状態尤度PAnrmの曲線からWLPAemo>PAnrmとなる区間を感情表出区間S’として全て検出し、一時記憶する。
ステップS6:感情表出区間S’の一連の音声特徴量スペクトルから図22の符号帳CB−1を参照して笑い表出尤度PAlau1と怒り表出尤度PAang2を求め、符号帳CB−2を参照して怒り表出尤度PAang1と悲しみ表出尤度PAsad2を求め、符号帳CB−3を参照して悲しみ表出尤度PAsad1と笑い表出尤度PAlau3を求める。
ステップS7:上記尤度から笑い、怒り、悲しみについてそれぞれ2つの尤度を以下のように決める。
怒り尤度:PANG1=PAang1/PAsad2; PANG2=PAang2/PAlau1
悲しみ尤度:PSAD1=PAsad1/PAlau2; PSAD2=PAsad2/PAang1
笑い度:LAU=(PLAU1+PLAU2)/2
怒り度:ANG=(PANG1+PANG2)/2
悲しみ度:SAD=(PSAD1+PSAD2)/2
LAU>ANGかつLAU>SADの区間を検出し、Lauのマークを付ける。
ANG>SADかつANG>LAUの区間を検出し、Angのマークを付ける。
SAD>LAUかつSAD>ANGの区間を検出し、Sadのマークを付ける。
ステップS11:全ての検出区間S’について終了していれば、利用者により指定された感情のマークの区間を音声コンテンツから抽出する。あるいはユーザが希望する指定の時間長で要約を視聴したい、笑っているところだけを見たい、などの要求を満足する閾値Rth以上の区間を抽出してもよい(図22の破線参照)。
本発明の第2の実施の形態について、図面を用いて説明する。図25は、本発明の第2の実施の形態に係る情報処理装置のブロック構成図である。図25に示すように、情報処理装置200は、画像情報記憶手段110、音声信号受信手段120、感情推測手段130、画像変化手段140、表示手段150、電子メール選択手段260、および顔画像検出手段270を備えて構成されている。これらの手段は、CPU101によって実行されるプログラムのモジュールでもよい。また、情報処理装置200は、パソコンを含むコンピュータを用いても実現可能である。
本発明の第3の実施の形態について、図面を用いて説明する。図27は、本発明の第3の実施の形態に係る情報処理装置のブロック構成図である。図27に示すように、情報処理装置300は、通信手段301、画像情報記憶手段110、感情推測手段130、画像変化手段140、および表示手段150を備えて構成されている。これらの手段は、CPU101によって実行されるプログラムのモジュールでもよい。また、情報処理装置300は、パソコンを含むコンピュータを用いても実現可能である。
101 CPU
102 ROM
103 RAM
104 EEPROM
105 ハードディスク
106 インタフェース部
107 ディスプレイ
110 画像情報記憶手段
120,320 音声信号受信手段
130 感情推測手段
131 記憶手段
132 音声特徴量抽出手段
133 感情表出尤度算出手段
134 平静状態尤度算出手段
135 感情表出判定手段
140 画像変化手段
150 表示手段
260 電子メール選択手段
270 顔画像検出手段
301 通信手段
Claims (6)
- 顔の像を含む顔画像を表す顔画像情報を記憶する画像情報記憶手段と、
利用者が発声した音声から得られた音声信号を受信する音声信号受信手段と、
前記音声信号受信手段によって受信された音声信号に基づいて前記利用者の感情を推測する感情推測手段と、
前記感情推測手段が推測した感情に対応する表情になるように前記顔画像を変化させる画像変化手段と、
前記画像変化手段によって変化された顔画像を表示する表示手段と
を備えたことを特徴とする情報処理装置。 - 前記情報処理装置は、
受信した電子メールのうち任意の電子メールを前記利用者に選択させる電子メール選択手段と、
前記電子メール選択手段によって選択された電子メールに含まれる画像情報から前記顔画像情報を検出する顔画像検出手段とを備え、
前記画像情報記憶手段は、前記顔画像検出手段が顔画像情報を検出したとき、検出された顔画像情報を記憶することを特徴とする請求項1に記載の情報処理装置。 - 前記音声信号受信手段は、ネットワークを介して相手の通信端末から得られた音声信号を受信し、前記相手の通信端末との間でテレビ電話としての通信を行うことを特徴とする請求項1に記載の情報処理装置。
- 顔の像を含む顔画像を表す顔画像情報を記憶する画像情報記憶手段を有するコンピュータに、
利用者が発声した音声から得られた音声信号を受信する音声信号受信ステップと、
前記音声信号受信ステップで受信した音声信号に基づいて前記利用者の感情を推測する感情推測ステップと、
前記感情推測ステップで推測した感情に対応する表情になるように前記顔画像を変化させる画像変化ステップと、
前記画像変化ステップで変化した顔画像を表示する表示ステップと
を実行させることを特徴とする情報処理プログラム。 - 電子メールを前記利用者に選択させる電子メール選択ステップと、
前記電子メール選択ステップで選択した電子メールに含まれる画像情報から前記顔画像情報を検出する顔画像検出ステップと、
前記顔画像検出ステップで顔画像情報を検出したとき、前記画像情報記憶手段に、検出された顔画像情報を記憶させるステップとを実行させることを特徴とする請求項4に記載の情報処理プログラム。 - 前記音声信号受信ステップで、ネットワークを介して相手の通信端末から得られた音声信号を受信し、前記相手の通信端末との間でテレビ電話としての通信を行うように実行することを特徴とする請求項4に記載の情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004174542A JP4691327B2 (ja) | 2004-06-11 | 2004-06-11 | 情報処理装置および情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004174542A JP4691327B2 (ja) | 2004-06-11 | 2004-06-11 | 情報処理装置および情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005352892A true JP2005352892A (ja) | 2005-12-22 |
JP4691327B2 JP4691327B2 (ja) | 2011-06-01 |
Family
ID=35587318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004174542A Expired - Fee Related JP4691327B2 (ja) | 2004-06-11 | 2004-06-11 | 情報処理装置および情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4691327B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008076905A (ja) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | 感情判別方法 |
WO2010047027A1 (ja) * | 2008-10-21 | 2010-04-29 | 日本電気株式会社 | 情報処理装置 |
JP2011053557A (ja) * | 2009-09-03 | 2011-03-17 | Raytron:Kk | 悲鳴検出装置および悲鳴検出方法 |
JP2013152715A (ja) * | 2012-01-17 | 2013-08-08 | Ntt Docomo Inc | 頭部アニメーションを実行するためのコンピュータによる方法及び装置 |
CN112785667A (zh) * | 2021-01-25 | 2021-05-11 | 北京有竹居网络技术有限公司 | 视频生成方法、装置、介质及电子设备 |
-
2004
- 2004-06-11 JP JP2004174542A patent/JP4691327B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008076905A (ja) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | 感情判別方法 |
WO2010047027A1 (ja) * | 2008-10-21 | 2010-04-29 | 日本電気株式会社 | 情報処理装置 |
JP2011053557A (ja) * | 2009-09-03 | 2011-03-17 | Raytron:Kk | 悲鳴検出装置および悲鳴検出方法 |
JP2013152715A (ja) * | 2012-01-17 | 2013-08-08 | Ntt Docomo Inc | 頭部アニメーションを実行するためのコンピュータによる方法及び装置 |
CN112785667A (zh) * | 2021-01-25 | 2021-05-11 | 北京有竹居网络技术有限公司 | 视频生成方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4691327B2 (ja) | 2011-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240112667A1 (en) | Synthesis of speech from text in a voice of a target speaker using neural networks | |
CN108573693B (zh) | 文本到语音系统和方法以及其存储介质 | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN109785824B (zh) | 一种语音翻译模型的训练方法及装置 | |
JP6903129B2 (ja) | ささやき声変換方法、装置、デバイス及び可読記憶媒体 | |
US20210390973A1 (en) | Method and system for speech emotion recognition | |
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
US20140114663A1 (en) | Guided speaker adaptive speech synthesis system and method and computer program product | |
JP7228998B2 (ja) | 音声合成装置及びプログラム | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
JP2023507889A (ja) | オーディオ相互作用における感情検出 | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
JP2006285254A (ja) | 音声速度測定方法及び装置並びに録音装置 | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
KR101862982B1 (ko) | LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP4580190B2 (ja) | 音声処理装置、音声処理方法およびそのプログラム | |
CN114999443A (zh) | 语音生成方法及装置、存储介质、电子设备 | |
JP2003036097A (ja) | 情報検出装置及び方法、並びに情報検索装置及び方法 | |
JP4691327B2 (ja) | 情報処理装置および情報処理プログラム | |
Kons et al. | Neural TTS voice conversion | |
JP3803311B2 (ja) | 音声処理方法及びその方法を使用した装置及びそのプログラム | |
JP2005352893A (ja) | 通信端末および通信プログラム | |
CN117765932A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
JP2005352311A (ja) | 音声合成装置および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080618 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080924 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081121 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20081201 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090424 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090709 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090909 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110221 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4691327 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140225 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |