JP2003177772A - 感情合成装置の処理を制御する方法及び装置 - Google Patents

感情合成装置の処理を制御する方法及び装置

Info

Publication number
JP2003177772A
JP2003177772A JP2002206013A JP2002206013A JP2003177772A JP 2003177772 A JP2003177772 A JP 2003177772A JP 2002206013 A JP2002206013 A JP 2002206013A JP 2002206013 A JP2002206013 A JP 2002206013A JP 2003177772 A JP2003177772 A JP 2003177772A
Authority
JP
Japan
Prior art keywords
emotion
variable
value
parameter
vpi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002206013A
Other languages
English (en)
Inventor
Pierre Yves Oudeyer
イブス オードイェ ピエール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony France SA
Original Assignee
Sony France SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20010401880 external-priority patent/EP1256932B1/en
Priority claimed from EP20010402176 external-priority patent/EP1256933B1/en
Application filed by Sony France SA filed Critical Sony France SA
Publication of JP2003177772A publication Critical patent/JP2003177772A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Toys (AREA)

Abstract

(57)【要約】 (修正有) 【課題】感情合成システム及びアルゴリズムの制御可能
性に新たな自由度を加える。 【解決手段】感情合成装置の処理を制御するものであ
り、特に音声により感情が伝達され、少なくとも1つの
入力パラメータ(Pi)を有し、その値(Ei)により
伝達する感情タイプが設定され、少なくとも1つの上記
パラメータを所定の制御範囲に亘る変数パラメータ(V
Pi)とすることによって、伝達する上記感情タイプの
程度を変化させるタイプの感情合成装置の処理を制御す
るものである。上記変数パラメータ(VPi)は、上記
制御範囲に亘る局所モデルに従って可変とされ、上記局
所モデルは、感情程度制御変数(δ)と上記変数パラメ
ータとを関連付け、上記感情程度制御変数は、上記変数
パラメータの値を可変に生成するために用いられる。好
ましくは、上記変化は、線形モデルに従い、変数パラメ
ータは、感情程度制御変数(δ)の変化に応じて線形的
に変化する。

Description

【発明の詳細な説明】
【0001】本発明は、感情を例えば音声信号でシミュ
レートする感情合成の分野に関する。より詳細には、本
発明は、感情合成システム及びアルゴリズムの制御可能
性に新たな自由度を加えることを目的とする。
【0002】音声データで感情を伝達する場合におい
て、音声データとしては、意味を持った言葉であっても
よく、例えば幼児語(babble)や動物似の声などの意味
を持たない発声或いは音声であってもよい。
【0003】このような感情合成は、例えばペット型ロ
ボット、ヒューマノイド、インタラクティブな機械、教
育訓練、テキストを読むシステム、映画のサウンドトラ
ック制作、アニメーションなどのコミュニケーション対
象を生き生きとしたものにする際に適用できる。
【0004】ここで、FIG.1は、感情シミュレーシ
ョンアルゴリズムに基づく従来からの発話による感情合
成システム2の基本的な概念を図示したものである。
【0005】このようなシステムは、典型的には中立
(neutral)である音声データVinを入力4とし、こ
の入力音声データVinに感情が付加された音声データ
Voutを出力6とする。その音声データは、典型的に
はデータ要素が連続したものであり、それぞれのデータ
要素が音素や音節といった音声要素に対応する。また、
一般にデータ要素により、対応する音声要素のピッチ及
び/又は強度及び/又は継続時間長に関連する一又は複
数の値が特定される。発話による感情合成は、所望の感
情となるように所定の方法でこれらの値の少なくとも1
つを変更するアルゴリズムのステップで行われる。
【0006】感情シミュレーションアルゴリズムは、シ
ステム2における適切な入力8として用いられる一連の
入力パラメータP1,P2,P3,... ,PN(感情設
定パラメータという)によって制御される。これらのパ
ラメータは通常数値であり、感情シミュレーションアル
ゴリズムをパラメータ化する際の指標となり得る。ま
た、これらのパラメータは、経験上決定されるものであ
る。
【0007】表現する各感情Eには、特定の感情設定パ
ラメータが存在する。例えば、感情設定パラメータP
1,P2,P3,... ,PNは、「平静(calm)」につ
いてはC1,C2,C3,... ,CNとなり、「喜び
(happy)」についてはH1,H2,H3,... ,HN
となり、「悲しみ(sad)」についてはS1,S2,S
3,... ,SNとなる。
【0008】また、音声データの入力ストリームを変換
せず、感情が付加された音声データVoutを内部的に
生成するという、完全に生成的(generative)な感情シ
ミュレーションアルゴリズムシステムも存在する。この
システムでは、上述したパラメータに類似した一連のパ
ラメータP1,P2,P3,... ,PNが、生成する感
情タイプを決定するために使用される。
【0009】どのような感情シミュレーションアルゴリ
ズムシステムであっても、パラメータ化により対応する
感情を効果的に合成することができるが、その一方で、
合成された感情Eにさらにその強さを関連付けたいとい
う要求がある。例えば、与えられた感情Eについて、例
えば穏やかなものから激しいものまで、音声データVo
utで表現される感情の程度に幅を持たせることができ
れば有益である。
【0010】1つの可能性としては、与えられた感情に
ついて、各々が表現する感情の程度に対応するパラメー
タセットを経験的に決定して追加することが挙げられ
る。しかしながら、そのようなアプローチには重大な欠
点がある。すなわち、 −追加されたセットの調整(elaboration)が非常に煩
雑であり、 −それらをアプリケーション内に保存することでメモリ
の一部が占有されるため、小型のペット型ロボットのよ
うにメモリが制限された装置の場合には不利であり、 −追加されたセットを管理し、処理するには、処理能力
が非常に必要とされ、そして、パフォーマンスの観点か
らいえば、感情の程度をスムーズに変化させるような実
施例を想定した場合には不適である。
【0011】そこで、以下に説明する本発明の第1の側
面は、少なくとも1つの入力パラメータを有し、その値
が表現する感情タイプを設定するために用いられる音声
合成装置の処理を制御する方法を提供するものであり、
その方法は、少なくとも1つのパラメータを所定の制御
範囲に亘る変数パラメータとするステップを有し、これ
により、伝達する感情タイプの程度を変えることができ
る。
【0012】典型的な応用例では、上記合成は、音声に
よって伝達される感情の合成である。
【0013】好ましくは、少なくとも1つの変数パラメ
ータは、制御範囲に亘る局所モデルに従って可変とさ
れ、その局所モデルは、感情程度制御変数と変数パラメ
ータとを関連付けるものであり、上記感情程度制御変数
は、上記変数パラメータの値を可変に生成するために用
いられる。
【0014】この局所モデルは、一又は複数のパラメー
タ値の異なるセットにより異なる認識可能な感情を生成
することができる一方で、与えられた感情タイプを実現
するために選択された一連のパラメータ値が十分に安定
であり、対応する感情の性質を無秩序に変化させること
なく、そのパラメータ値から局所的に変化させることが
できるという仮定に基づくものとすることができる。す
なわち、上記変化とは、感情の程度の変化である。した
がって、上記所定の制御範囲とは、局所的な変位(excu
rsions)の範囲内となる。
【0015】この局所モデルは、制御範囲及び与えられ
た感情タイプについての局所線形モデルであることが好
ましく、変数パラメータは、感情程度制御変数によって
制御範囲に亘って線形的に変化させられる。
【0016】好ましい実施例では、感情程度制御変数
(δ)により、以下の式で示される関係に従って感情パ
ラメータが変更される。 VPi=A+δ・B ここで、VPiは、当該変数パラメータの値を示し、A
及びBは、制御範囲内の値を示し、δは、感情程度制御
変数を示す。
【0017】好ましくは、Aは、制御範囲内の値であ
り、感情程度制御変数は、値0を含む区間内で可変とさ
れる。
【0018】また、値Aは制御範囲の中間の値としても
よく、感情程度制御変数は、中間の値が0となる区間内
で可変とすることができる。
【0019】感情程度制御変数は、好ましくは−1から
1までの区間内で可変である。
【0020】好ましい実施例では、値Bは、B=(Ei
max−A)、又はB=(Eimin+A)で求められ
る。
【0021】ここで、Eimaxは、制御範囲内で伝達
される感情タイプの程度が最大となる入力パラメータの
値である。
【0022】また、Eiminは、制御範囲内で伝達さ
れる感情タイプの程度が最小となる入力パラメータの値
である。
【0023】値Aは、伝達する感情を設定するために予
め特定された標準パラメータ値と同値とすることができ
る。
【0024】また、値Eimax又は値Eiminは、
伝達する感情を設定するために予め特定された標準パラ
メータ値の変位(excursion)によって、及び制御範囲
で与えられる感情の大きさに所望の制限を加えるため
に、増加方向又は減少方向における最大の変更量を決定
することによって、実験的に決定することができる。
【0025】本発明では、感情合成装置における変数パ
ラメータの過半数を集合的に生成するために、同じ感情
程度制御変数を用いることができる。
【0026】また、第2の側面によれば、本発明は、少
なくとも1つの入力パラメータを有し、その値が表現す
る感情のタイプを設定するために用いられる感情合成シ
ステムの処理を制御する装置に関連するものであり、そ
の装置は、少なくとも1つのパラメータを所定の制御範
囲に亘る変数パラメータとする変化手段を有し、これに
より、伝達する感情タイプの程度を変えることができ
る。
【0027】上述した本発明の第1の側面(方法)にお
ける付加的な特徴は、必要に応じて変更を加えて第2の
側面(装置)に適用することができるが、簡単のため繰
り返して説明しない。
【0028】さらに、第3の側面によれば、本発明は、
音声により伝達される感情を合成する装置において感情
の程度を調整するために、上述の装置を使用する使用方
法に関連するものである。
【0029】さらにまた、第4の側面によれば、本発明
は、少なくとも1つのパラメータを受け取るための少な
くとも1つの入力端子を有し、そのパラメータの値が表
現する感情タイプを設定するために用いられる感情合成
装置と、上記変数を上記少なくとも1つの入力端子に供
給するように機能的に接続された第3の側面における装
置とを備え、伝達する上記感情タイプの程度に変化をも
たらすシステムに関連するものである。
【0030】また、第5の側面によれば、本発明は、コ
ンピュータによって実行可能な命令を与えるコンピュー
タプログラムに関連するものであり、そのコンピュータ
プログラムがデータプロセッサーにロードされると、デ
ータプロセッサーは上述の方法を実行する。このコンピ
ュータプログラムは、あらゆる適切な記録媒体に記録す
ることも可能である。
【0031】FIG.2は、本発明の好ましい実施例に
おける感情程度変化システム10の機能ユニットとその
処理とを図示したものである。この感情程度変化システ
ム10は、音声に基づく感情シミュレーションアルゴリ
ズムシステム12と協調して動作する。本具体例では、
後者は生成タイプ(generative type)、すなわち決定
された感情Eを伝達する音声データを生成する独自の手
段を有するものである。実施例システム10は、他のタ
イプの感情シミュレーションアルゴリズムシステム、例
えばFIG.1を参照しながら説明した中立音声データ
が入力端子に供給されるシステムとでも、同様によく動
作することは勿論である。これらの感情シミュレーショ
ンアルゴリズムシステムも、実施例システムが協調して
動作可能な他のシステムも、本分野において公知であ
る。音声による感情アルゴリズム及びシステムに関する
さらなる情報は、特に文献「Cahn,J. (1990) "The gene
ration of affect in synthesised speech", Journal o
f the I/O Voice American Society, 8:1-19」、文献
「Iriondo I., et al (2000) "Validation of an acous
tical modeling of emotional expression in Spanish
using speech synthesistechniques", Proceedings of
ISCA workshop on speech and emotion」、文献「Eding
ton M.D. (1997) "Investigating the limitations of
concatenative speech synthesis", Proceedings of Eu
roSpeech '97,Rhodes,Greece」、及び文献「Iida A., e
t al (2000) "A speech synthesis system with emotio
n for assisting communication", ISCA workshop on s
peech and emotion」から得ることができる。
【0032】また、感情合成方法及び装置は、本件出願
人による以下の2つの欧州特許出願、すなわち2001
年5月11日付けの欧州特許出願第01 401 203.3号及び
2001年7月13日付けの欧州特許出願第01 401 88
0.8号に記載されており、本件出願は、これらの出願を
優先権主張の基礎としている。
【0033】ところで、感情シミュレーションアルゴリ
ズムシステム12は、FIG.1を参照しながら説明し
たように、与えられた感情Eを生成するために、感情設
定パラメータP1,P2,P3,... ,PN(総称して
Pという)の数Nを使用している。このパラメータの数
Nは、アルゴリズムによって典型的には1から16或い
はそれ以上まで、大きく変化する。また、このパラメー
タPは、経験的に決定された数値又は指標であり、本ア
ルゴリズムの計算ステップ又は決定ステップで利用され
る。このパラメータは、目的設計インターフェース(pu
rpose designedinterface)を介して、又はパラメータ
ロードルーチンによって、感情シミュレーションアルゴ
リズムシステム12にロードされる。本具体例では、パ
ラメータPの挿入がシステム12に入力する直線によっ
て象徴的に示されており、システム12には、このパラ
メータを外部から導くための適切なインターフェース又
はローディングユニットが統合されている。
【0034】このようにして、感情シミュレーションア
ルゴリズムシステム12は、各パラメータP1,P2,
P3,... ,PNについてのN個の適切な値によって、
例えば「平静(calm)」、「怒り(angry)」、「喜び
(happy)」、「悲しみ(sad)」等の種々の感情Eを生
成することができる。考慮している状況では、システム
12は、以下のようなパラメータ、すなわちP1=E
1、P2=E2、P3=E3、... 、PN=ENとし
て、与えられた感情Eを生成するように予めプログラム
されている。なお、値E1−ENは、感情Eを生成する
ように予め見つけられたものである。
【0035】一方、感情程度変化システム10は、線形
モデルに従ってこれらの値E1−ENに変化を加えるよ
うに動作するものである。言い換えれば、E1−ENが
線形的に(又は連続的に)変化することにより、感情シ
ミュレーションアルゴリズムシステムの反応が連続的に
変化する。本件出願人が発見したところによれば、当該
反応は、少なくとも値E1−ENの所定の変化範囲内に
おける感情Eの程度、すなわち強度の変化である。
【0036】E1−ENに上述したような変化を加える
ために、先ず、これらの各値についての変化可能な範囲
が決定される。そして、所定のパラメータPi(iは1
からNまでの任意の整数)について感情シミュレーショ
ンアルゴリズムシステム12による探索(exploratio
n)が行われ、パラメータPiが元の標準値Eiから感
情Eの最大強度に対応する値Eimaxに変化する。な
お、この値Eimaxは、実験的に決定されるものであ
る。この値は、一般的に、その値以上で感情Eの程度が
殆ど増加しなくなる(すなわち飽和する)ような値か、
又はその値以下で感情Eのタイプが変化し、若しくは歪
んでしまうような値に対応する。ここで、値Eimax
は、標準値Eiより大きくても小さくてもよい。すなわ
ち、パラメータPiに応じて、標準値Eiの増加又は減
少により、感情の程度が大きくなる。
【0037】あるパラメータPiについての最大強度E
imaxは、他の全てのパラメータを元の標準値に保つ
か、種々のパラメータP1−PNについての相互作用の
知識に従って、他のパラメータの一部又は全部を変化さ
せることにより決定することができる。
【0038】上述した手順は、標準パラメータ値Pi周
辺の制御可能な動態という局所モデルに従う。後者は十
分に安定なものであり、対応する感情の性質を無秩序に
変化させることなく、そのパラメータ値から局所的に変
化させることができるという仮定に基づくものとするこ
とができる。したがって、上記所定の制御範囲とは、局
所的な変位(excursions)の範囲内となる。
【0039】この最初のセットアップフェーズにより、
一連の最大強度パラメータ値E1max、E2max、
E3max、... 、ENmaxが得られる。これらは、
それぞれパラメータP1,P2,P3,... ,PNによ
って生成される感情Eの最大強度に対応する。これらの
最大強度パラメータ値は、対応する標準初期パラメータ
値Eiとの関連性の下、メモリユニット14に格納され
る。すなわち、パラメータPiについて、メモリユニッ
ト14は、2つの値Ei及びEimaxを対応付ける。
典型的な応用例では、感情シミュレーションアルゴリズ
ムユニット12で生成され、その程度を変化させる必要
のある感情Eのそれぞれについて、上述の手順が実行さ
れる。なお、各感情Eについて、それぞれ値Ei及び値
Eimaxのセットがメモリユニット14に格納されて
いる。
【0040】メモリユニット14に格納されている値
は、変数パラメータ生成ユニット16によって利用され
る。このユニットの機能は、感情シミュレーションアル
ゴリズムシステム12のパラメータP1−PNを対応す
る変数パラメータVP1−VPNで置き換えるものであ
る。
【0041】この変数パラメータ生成ユニット16は、
共通の制御変数と、対応付けられた値であるEi及びE
imaxとに基づいて、以下の式(1)に従って各変数
パラメータVPiを生成する。 VPi=Ei+δ・(Eimax−Ei) ・・・(1)
【0042】この方程式は、標準形がy=mx+cであ
る線形モデルに従うものである。ここで、yはVPiに
対応し、mは(Eimax−Ei)に対応し、xはδに
対応し、cはEiに対応する。
【0043】このようにして変数パラメータ生成ユニッ
ト16で生成された変数パラメータ値VP1−VPN
は、それぞれ出力端子17−1乃至17−Nに供給され
る。この出力端子は、感情シミュレーションアルゴリズ
ムシステム12においてパラメータを受け取る入力端子
13−1乃至13−Nと接続されている。通常、変数パ
ラメータ生成ユニット16から感情シミュレーションア
ルゴリズムシステム12への図に示す接続は、任意の適
切な形態で実現することができる。すなわち、任意の適
切なデータ転送プロトコルを用いて、パラレル若しくは
シリアルデータバス、又は無線接続等により実現可能で
ある。変数パラメータVPのロードは、感情シミュレー
ションアルゴリズムシステム12のレベルにおけるルー
チンにより制御することができる。
【0044】ここで、制御変数δは、−1から1までの
範囲内の値である。その値は、感情程度選択ユニット1
8によって設定される。この感情程度選択ユニット18
は、ユーザがアクセス可能なインターフェースとしても
よく、例えばその程度を指示する外部コマンドの機能と
して、又は例えばペット型ロボット等の処理の環境、経
緯、内容等に自動的に依存して生成する感情の程度に従
って動作する電気的な制御ユニットとしてもよい。
【0045】図中では、δの変化範囲が目盛り(scal
e)20で表されており、その目盛りに沿って、[−
1,1]の区間内で所望のδの値を示すためにポインタ
22がスライド可能とされている。感情の程度がユーザ
によって制御可能な場合には、目盛り20及びポインタ
22は、グラフィックインターフェースとして実現する
ことができ、コンピュータ又はペット型ロボットの構成
部におけるモニタースクリーン上のカーソルとして表示
される。この場合、ポインタ22は、キーボード、ボタ
ン、マウス等で置換可能である。また、目盛りもポテン
ショメータ或いは同様の変数コンポーネントで定義可能
である。
【0046】なお、δの値は、実際上、範囲[−1,
1]に亘って連続的に増加してもよく、段階的に増加し
てもよい。
【0047】ポインタ20で示されたδの値は、感情程
度選択ユニット18で生成され、変数パラメータ生成ユ
ニット16の入力端子22に供給される。この変数パラ
メータ生成ユニット16は、制御変数を受け取り、それ
を上述した式(1)に与えるのに適合している。
【0048】ここで、[−1,1]の区間に規格化され
た目盛りを用いることは、変数パラメータ生成ユニット
16で使用される値の扱いが簡略化されるため、有益で
ある。より具体的には、これにより、スケーリングファ
クタを持ち出すことなく、式(1)と同様にメモリユニ
ット14の値を直接使用することができる。しかしなが
ら、δの範囲としては、δ=0の位置(この場合、式
(1)は標準パラメータ設定VPi=Eiとなる)に関
して非対称な場合を含む他の範囲とすることもできる。
式(1)を用いることにより、変数パラメータVPiの
値は、感情強度の最小値であるEimin=2Ei−E
imax(δ=−1の場合)から感情強度の最大値であ
るEimax(δ=+1の場合)までの全ての範囲の値
を取り得る。このEiminの数値は、このような線形
モデルに基づくアプローチで制御可能な感情程度に沿う
ものであった。言い換えれば、このようにして得られた
Eiminの値は、伝達する感情の許容できる最低レベ
ルに対応し、標準パラメータ設定Ei(δ=0に対応す
る)は、実際に感情設定の中間範囲の程度であるような
印象を効果的に与えるものであった。しかしながら、必
ずしもEiと一致しない任意の中間範囲値を選択するこ
とも可能である。そこで、式(1)は、より一般的にV
Pi=Emr+δ・(Eimax−Emr)と示され
る。
【0049】注目すべきことに、実施例では変数δが同
じであっても感情シミュレーションアルゴリズムシステ
ム12のN個の変数パラメータ値VPiのそれぞれを変
化させ、パラメータP1−PNのそれそれの値の範囲を
変更することができる。
【0050】ここで、式(1)に基づく変化法則では、
感情の程度を大きくするには値を増加させる必要がある
ようなパラメータであっても、感情の程度を大きくする
には値を減少させる必要があるようなパラメータであっ
ても扱うことができる。後者の場合、当該Eimaxの
値は、Eiよりも小さくなる。そして、式(1)の括弧
を含む項は負になり、その大きさは、変数δで選択され
る感情程度が0と+1との間で大きくなるにつれて増大
する。一方、δの負の値が増大するとVPiが増大し、
感情程度が小さくなる。
【0051】さらに、δの全ての値について、変数パラ
メータVPはそれぞれの範囲内で同じ相対位置となり、
これにより感情程度選択部14で生成される変化が全て
の変数パラメータに亘ってよく均衡がとれ、一様なもの
となる。
【0052】ところで、通常この実施例には様々な変更
を加えることができる。例えば、 −変数パラメータVPとされるパラメータPの数。N個
のパラメータPを全て制御するのではなく、一又はそれ
以上のパラメータからなる部分集合のみを変数パラメー
タ生成ユニット16によってアクセスさせ、残りは標準
値のままとする。 −形式及び値に関する式(1)の選択。Eiは既知であ
りEiminは単純に実験的に決定される値であるた
め、式(1)に定数Ei及びEiminを用いるのは有
益なことである。しかしながら、これらの値や他の値を
用いて、他の数的処理を行うことも可能である。例え
ば、式(1)は、独立に決定されるEiminに従い、
Eimaxに従わないものとすることができる。この場
合、式(1)を以下のように表現し直すことができる。 VPi=Ei+δ・(Eimin+Ei) ・・・(1') Eiminの値は、上述と類似の方法で変数とされた各
パラメータについて、実験的に決定することができる。
すなわち、Eiminは、最も小さい程度の感情を生じ
させる値であり、この値未満では実用的に利用できるほ
ど感情程度が小さくならないか、又は感情タイプが歪ん
でしまう。なお、この場合、メモリにはEimaxでは
なくEiminが格納される。また、中間範囲の値は、
標準値Eiと異なるものであってもよい。 −上述したような制御因子δ及びその区間の選択。1以
上の制御可能な変数を用いる、より複雑な変数とするこ
ともできる。 −上述したような感情シミュレーションアルゴリズムの
選択。実際、本発明から得られる教示(teaching)は、
感情シミュレーションアルゴリズムに関して言えば非常
に一般的なものである。この教示は、例えば発話、感情
等を表現するための顔の表情に関わるパラメータに変化
を生じさせる場合など、必要に応じて変更を加えて他の
シミュレーションアルゴリズムに適用することができ
る。
【0053】また、上述の教示は、感情シミュレーショ
ンアルゴリズムでシミュレートされた全ての感情E、す
なわち「平静(calm)」、「喜び(happy)」、「怒り
(angry)」、「悲しみ(sad)」、「不安(anxiou
s)」などに適用可能である。
【0054】ここで、感情シミュレーションアルゴリズ
ムシステムにとって、FIG.2を参照しながら説明し
た感情程度変化システム10がどのように有益であるか
を、2つの例を用いて説明する。
【0055】第1の例。音声合成器で生成された変調音
声によって感情を表現できるペット型ロボット。上記音
声合成器は、音声により伝達する感情を定義する一連の
入力パラメータを有する。
【0056】この例は、本件出願人が先に提案し、本件
出願の優先権主張の基礎とされている2001年5月1
1日付けの欧州特許出願第01 401 203.3号「音声合成方
法及び装置、並びにロボット装置」の内容に基づくもの
である。
【0057】この感情合成アルゴリズムは、感情は「奮
起(arousal)」成分と「力価(valence)」成分とで構
成される特徴空間で表現されるという概念に基づいてい
る。例えば、「怒り(angry)」、「悲しみ(sadnes
s)」及び「落ち着き(comfort)」は、奮起−力価特徴
空間の所定の領域で表現される。
【0058】このアルゴリズムでは、一連のパラメータ
Pが表されたテーブルが参照される。このパラメータP
は、少なくとも音素の継続時間長(DUR)、ピッチ(PIT
CH)及び音(SOUND)を含み、各基本感情について予め
定義されている。これらのパラメータは、数値或いは状
態(例えば「上昇」或いは「下降」)である。この状態
パラメータは、標準設定に維持し、感情程度変化システ
ム10によって制御されないようにすることもできる。
【0059】以下に示す表1は、パラメータの一例と、
「喜び(happiness)」の感情である場合におけるそれ
らの値を示したものである。名前の付されたパラメータ
は、認識されるユニットの一又は複数の音節又は音素か
らなり、特にピッチ特徴、継続時間長、輪郭(contou
r)、音量等によって特定された無意味語に適用され
る。これらの特徴は、本アルゴリズムで認識されるフォ
ーマット化されたデータ構造で表現される。
【0060】
【表1】
【0061】なお、これ以外の感情についても、同じ特
徴について独自のパラメータ値或いは状態を有する。
【0062】このアルゴリズムが組み込まれたペット型
ロボットでは、伝えようとする感情に応じて、あるパラ
メータ値のセットから別のセットへと変化する。
【0063】この場合、表1において数値で表されてい
た特徴は、与えられた感情について固定ではなく、感情
程度変化システム10を利用して変数パラメータVPと
なる。
【0064】例えば、「喜び(happiness)」の感情に
おける平均ピッチの特徴の場合、標準パラメータ値であ
る400(Hz)は、そのパラメータについて式(1)
のEiの値となる。そして先ず決定ステップにおいて、
i)より喜びの表現が強くなるように、この値の方向
(増加/減少)が変更される。その後のステップでは、
ii)この強度を有効に増加させるために、この方向でど
の程度までパラメータを変化させればよいかが決定され
る。この限界値は、式(1)におけるEimaxであ
る。このようにして、その特徴の変数パラメータのスケ
ールを変化させるために必要な全ての情報が得られる。
同様の処理が感情程度変化システム10によってパラメ
ータが変数パラメータVPとされた他の全ての特徴につ
いて行われる。
【0065】第2の例。意味を持った言葉又は意味を持
たない音に対応する中立的な入力音声データに対して感
情内容を付加し、処理後の音声データが再生されたとき
にその感情を感じさせるシステム。
【0066】この例は、本件出願人が先に提案し、本件
出願の優先権主張の基礎とされている2001年7月1
3日付けの欧州特許出願第01 401 880.8号「音声による
感情合成方法及び装置」の内容に基づくものである。
【0067】このシステムは、感情シミュレーションア
ルゴリズムシステムからなり、Fig.1の場合と同様
に、音声データを受け取るための入力端子と、同じフォ
ーマットであるが伝達する感情に従ってデータ値が変更
された音声データを出力するための出力端子とを有す
る。このため、このシステムは、音声データのソースと
音声データ再生装置、例えばインターポレータ(interp
olator)及び合成器との間にユーザが意識しないような
形で(transparent manner)連続して配置することがで
きる。
【0068】データ値の変更は、変更するデータ値に適
用されるオペレータによってなされる。典型的には、音
声データはデータ要素が連続したものであり、各データ
要素が例えば合成器で再生される音節又は音素に対応す
る。このデータ要素により、例えば音声要素の継続時間
長と、その継続時間内に存在する一又は複数のピッチの
値が特定される。また、データ要素によって再生する音
節が指定されることもあり、そのデータ要素にアクセン
トを置くか否かの指示を関連付けることもできる。例え
ば、“be”という音節のデータ要素は、“be:10
0,P1,P2,P3,P4,P5”というようなデー
タ構造を有する。ここで、最初の数字100は、継続時
間長をミリ秒で表したものである。また、それに続く5
つの値(P1−P5で記号化されている)は、その継続
時間内の5つの連続した区間におけるピッチの値(F
0)を表したものである。
【0069】なお、このシステムの異なったタイプのオ
ペレータを適用すれば、適用されたデータ要素に異なっ
た変更が施される。
【0070】ここで、Fig.3は、感情シミュレーシ
ョンアルゴリズムシステムを上述した感情合成器26と
どのように統合し、強度の変化する感情が付加された音
声データを生成するかを機能的に示すブロック図であ
る。
【0071】感情シミュレーションアルゴリズムシステ
ム26は、発声データファイル28から読み出された音
節データに対して、選択的にオペレータOを適用する。
ここで、これらのオペレータは、そのタイプに従って、
ピッチデータ(ピッチオペレータ)又は音節の継続時間
長データ(継続時間長オペレータ)を変更することがで
きる。なお、これらの変更は、インターポレータ30の
前段、例えばデコーダ32の手前で行われる。これによ
り、オペレータによって変更された値に基づいて補間処
理が行われることになる。後述するが、この変更は、中
立的な発話文を、選択された感情(悲しみ、平静、喜
び、怒り)を選択された程度伝えるような発話文に変化
させるものである。
【0072】基本的なオペレータは、オペレータセット
ライブラリ34に格納されており、オペレータセット構
成ユニット36によって選択的にアクセスされる。オペ
レータセット構成ユニット36は、現在の要求に従って
オペレータを準備し、パラメータ化する。この目的のた
めにオペレータパラメータ化ユニット38が設けられ、
後述するように、オペレータのパラメータ化を、i)発
話文に付加する感情(平静、悲しみ、喜び、怒りな
ど)、ii)場合によってはその感情の程度(又は強度)
と、iii)その音節の内容との両方に従ってオペレータ
のパラメータ化を決定する。FIG.2に示した実施例
を実現するために、このオペレータパラメータ化ユニッ
ト38は、感情程度変化システム10の変数パラメータ
生成ユニット16及びメモリ14を含んでいる。
【0073】感情とその感情の程度とは、ユーザUのア
クセス可能な入力を示す感情選択インターフェース40
によってオペレータパラメータ化ユニット38に指示さ
れる。実施例を実現するために、このユーザインターフ
ェースは、感情程度選択ユニット18(FIG.2参
照)と、身体的又は電気的にユーザと置換可能な装置で
あるポインタ22とを有している。したがって、インタ
ーフェース40で問題となるコマンドは変数δである。
この感情選択インターフェース40は、画面上のメニュ
ーやアイコンを有し、必要な感情特徴全てと、他のオペ
レータに関するパラメータとをユーザUに示すコンピュ
ータインターフェースとすることができる。
【0074】本具体例では、オペレータによって影響さ
れる音節の内容は、i)あるオペレータはフレーズの最
初と最後の音節にしか適用されないなど、フレーズ内で
の音節の位置、ii)その音節が有意味語の文章に関係す
るか、無意味な音声(幼児語など)に関係するか、そし
て、iii)ある状況下では、考慮している音節が発声デ
ータファイル28においてアクセントを置くことが許さ
れているか否か、というものである。
【0075】このため、最初/最後音節検出ユニット4
2と、音節アクセント検出ユニット44とが設けられて
いる。この両者とも、発声データファイル28にアクセ
スすることができ、オペレータパラメータ化ユニット3
8に適切な内容依存パラメータを伝える。
【0076】詳細は後述するが、アクセントの置かれる
音節(“アクセント可能な(accentuable)”音節)に
対して特異的に適用されるオペレータセットが存在す
る。これらのオペレータは、全てのアクセント可能な音
節に対して適用されるのではなく、候補となる音節から
ランダムに選択された音節に対してのみ適用される。な
お、候補となる音節は、発声データに依存する。すなわ
ち、もし発声データにどの音節がアクセント可能かとい
う情報が含まれているならば、候補となる音節は、これ
らのアクセント可能な音節の中からのみ選ばれる。通常
これは、自然な発生とするために一部の音節にアクセン
トが置かれない有意味語の場合に該当する。一方、発声
データにそのような情報が含まれていない場合には、全
ての音節がランダム選択の候補となる。通常これは、無
意味語の場合に該当する。
【0077】このランダムな選択は、音節アクセントユ
ニット44とオペレータパラメータ化ユニット38との
間に接続された確率制御可能なランダム選択ユニット4
6によって行われる。このランダム選択ユニット38
は、候補から音節を選択するための制御可能な確率値を
有している。具体的には、ある候補が選択される確率を
Nとし、Nが0から1の範囲をとるとすれば、P個の候
補音節について平均でN・P個の音節が選択され、ラン
ダムなアクセント化に関連する特定のオペレータセット
に委ねられる。なお、このランダムに選択された候補の
分布は、基本的に一連の音節に亘って一定である。
【0078】ここで、オペレータセット構成ユニット2
6からの適切に構成されたオペレータセットは、音節デ
ータ変更ユニット48に送られる。音節データ変更ユニ
ット48では、このオペレータセットによって音節デー
タが処理される。このため、音節データ変更ユニット4
8は、発声データファイル28から音節データを直接受
け取る。このようにして受け取られた音節データは、オ
ペレータセットの機能により、音節データ変更ユニット
48において特にそのピッチと継続時間長とが変更され
る。得られた変更音節データ(新たな音節データ)は、
発声データファイルにおける構成と同様の構成で音節デ
ータ変更ユニット48からデコーダ32に供給される。
これにより、デコーダは、発声データファイルから直接
得られたかのように、新たな音節データを扱うことがで
きる。その後、新たな音節データは、補間され(インタ
ーポレータ30)、音響周波数音声処理器、音響増幅
器、スピーカによって処理される。しかしながら、スピ
ーカから発せられる音声は中立的なものではなく、寧ろ
ユーザUによって定義された感情をシミュレートする音
声に対応する。
【0079】なお、上述した全ての機能ユニットは、逐
次制御ユニット(operations sequencer unit)50に
よって全体的に制御される。この逐次制御ユニット50
は、所定の規則に従って、感情合成処理の実行を完全に
制御する。
【0080】Fig.4は、音声データで特定された合
成音声要素のピッチ曲線に対して、ピッチオペレータセ
ットOPを適用した効果を図示したものである。この図
では、ピッチオペレータを適用する前と後のピッチ曲線
(時間tに対する基本周波数f)を、各オペレータにつ
いてそれぞれ左の列と右の列に示している。この例で
は、入力したピッチ曲線は全てのオペレータについて同
一で、比較的平坦なものとなっている。
【0081】図示されたセットには以下のように4つの
オペレータが存在する(図の上から下に対応する)。 −“登り坂”ピッチオペレータOPrsは、どのような
ピッチ曲線に対しても時間的に上昇させる。すなわち、
元のピッチ輪郭での周波数が時間と共に上昇する。 −“下り坂”ピッチオペレータOPfsは、どのような
ピッチ曲線に対しても時間的に下降させる。すなわち、
元のピッチ輪郭での周波数が時間と共に下降する。 −“シフトアップ”ピッチオペレータOPsuは、どの
ようなピッチ曲線に対しても元の周波数を一様に上にシ
フトさせる。そのシフトは任意の時間で同じであるた
め、ピッチ輪郭は、元の周波数軸から単純に下降する。 −“シフトダウン”ピッチオペレータOPsdは、どの
ようなピッチ曲線に対しても元の周波数を一様に下にシ
フトさせる。そのシフトは任意の時間で同じであるた
め、ピッチ輪郭は、元の周波数軸から単純に上昇する。
【0082】実施例では、登り坂オペレータOPrs及
び下り坂オペレータOPfsは、以下のような特徴を有
する。すなわち、時間的に中心の位置(継続時間長t1
については1/2t1)でのピッチは、オペレータを適
用する前後で変化しない。言い換えれば、そのオペレー
タは、時間的に中心の位置でのピッチの値を中心とし
て、所望の勾配になるように入力したピッチ曲線を回転
させる。つまり、登り坂オペレータOPrsの場合に
は、図示のように、時間的な中心位置よりも前のピッチ
の値が事実上下降する。一方、下り坂オペレータOPf
sの場合には、図示のように、時間的な中心位置よりも
前のピッチの値が事実上上昇する。
【0083】また、OIで示される強度オペレータを追
加的に設けてもよい。このオペレータの効果をFig.
5に示す。このFig.5は、Fig.4に直接対応する
ものである。このオペレータも4つ存在し、時間tに対
する強度Iの曲線に対して作用する他は、ピッチオペレ
ータOPに対応する。したがって、簡単のために各オペ
レータについての詳細な説明は省略する。
【0084】ピッチオペレータ及び強度オペレータは、
それぞれ以下のようにパラメータ化される。 −登り坂又は下り坂オペレータ(OPrs、OPfs、OIrs、OI
fs)の場合:入力した輪郭に施される坂(スロープ)の
勾配。スロープは、規格化されたスロープ値で表現する
ことができる。例えば、0はスロープを形成しない場合
に対応する。この場合、オペレータは、入力に対して何
も作用しない(このようなオペレータを中立化された
(neutralised)、或いは中立の(neutral)オペレータ
という)。この対極として、最大値maxでは入力した
曲線の勾配が無限となる。すなわち、殆ど垂直に上昇或
いは下降する。この両極の間の任意のパラメータ値が、
入力した曲線に対して所望のスロープを形成するために
対応付けられる。 −シフトオペレータ(OPsu、OPsd、OIsu、OIsd)の場
合:入力した輪郭に対する、基本周波数(ピッチについ
て)又は強度の絶対値で示すシフトアップ又はシフトダ
ウンの量。対応するパラメータは、ピッチ軸又は強度軸
での増加単位又は減少単位とすることができる。
【0085】Fig.6は、音節の継続時間長(又は時
間)に対してオペレータODを適用した効果を図示した
ものである。この図では、継続時間長オペレータを適用
する前と後の音節の継続時間長(水平な線が時間t1の
長さを表す)をそれぞれ左の列と右の列に示している。
【0086】この継続時間長オペレータは、以下のよう
なものとすることができる。 −音節の継続時間長を長くする延長オペレータ。その増
加量は、パラメータD(正のDパラメータという)で表
される。例えば、継続時間長の初期値がミリ秒で表され
ている場合には、Dを単に初期値に加える継続時間長の
ミリ秒数とすることができる。これにより、オペレータ
は、当該音節の継続時間長t1に値Dを加えるのみでよ
い。この結果、インターポレータ30及びその後段にお
けるデータ処理により、その音節は、伸びたように発音
される。 −音節の継続時間長を長くする短縮オペレータ。その減
少量は、同じパラメータDで表される(但し、この場合
は負のパラメータである)。例えば、継続時間長の初期
値がミリ秒で表されている場合には、Dを単に初期値か
ら引く継続時間長のミリ秒数とすることができる。これ
により、オペレータは、当該音節の継続時間長t1から
値Dを引くのみでよい。この結果、インターポレータ3
0及びその後段におけるデータ処理により、その音節
は、縮まったように(短くなったように)発音される。
【0087】このオペレータも、パラメータDとして0
を挿入することで、中立化し、又は中立のパラメータと
することができる。
【0088】なお、継続時間長パラメータは、延長と短
縮との2種類あるものとして示したが、その違いはパラ
メータDの前がプラスかマイナスかの違いのみであるこ
とは明らかである。したがって、正の数と負の数とを取
り得る場合には、同じオペレータメカニズムで両方のオ
ペレータ(延長及び短縮)の機能を得ることができる。
【0089】また、Dの取り得る値及び可能な変化量の
範囲は、要求に従って選択することができる。
【0090】以下では、オペレータOP、OI、ODの
パラメータ表示として、特定のオペレータの最後の文字
にそれぞれのオペレータ特有の接尾辞を付けた変数によ
り表現する。すなわち、Prsは、登り坂ピッチオペレ
ータOPrsの正のスロープ値であり、Pfsは、下り
坂ピッチオペレータOPfsの負のスロープ値である。
また、Psuは、シフトアップピッチオペレータOPs
uの上方シフト量の値であり、Psdは、シフトダウン
ピッチオペレータOPsdの下方シフト量の値である。
さらに、Irsは、登り坂強度オペレータOIrsの正
のスロープ値であり、Ifsは、下り坂強度オペレータ
OIfsの負のスロープ値である。さらにまた、Isu
は、シフトアップ強度オペレータOIsuの上方シフト
量の値であり、Isdは、シフトダウン強度オペレータ
OIsdの下方シフト量の値である。また、Ddは、継
続時間長延長オペレータODdの加算時間の値であり、
Dcは、継続時間長短縮オペレータODcの減算(短
縮)時間の値である。
【0091】実施例では、さらに細かいオペレータを用
いることでランダム選択ユニット46における確率Nを
定める。この値は、0(選択される確率がない)から1
(確実に選択される)までの範囲から選ばれる。この値
Nによって、再生する感情の性質にとって適切なものと
なるように、出力音声においてアクセントの置かれる音
節の密度が制御される。
【0092】また、本具体例では、OP、OI、OD及
びNをパラメータ化したそれぞれの値又は選択された値
は、Fig.2を参照して説明したように、変数パラメ
ータ生成ユニット16がメモリ14及び感情程度選択ユ
ニット18と協調して動作することにより、可変とされ
る。したがって、与えられた変数パラメータVPiは、
上述のように定義したパラメータ値、すなわちPrs、
Pfs、Psu、Psd、Irs、Ifs、Isu、I
sd、Dd、Dcの少なくとも1つが変数とされたもの
に対応する。なお、これらの値で変数とされる数及びそ
の選択は、ユーザインターフェース40で選択可能であ
る。
【0093】ここで、Fig.7A,7Bは、Fig.3
に示すようなシステムに基づいて、音節データに対して
選択的に上述のオペレータを構成し適用する手順のフロ
ーチャートを示したものである。なお、Fig.7B
は、7Aの続きである。
【0094】先ず、発声データファイル28からの入力
音節データのロードを含む初期化フェーズP1から開始
される(ステップS2)。
【0095】次に、インターフェース40を用いて、フ
レーズ又はパッセージによって伝える感情がロードされ
る(ステップS4)。このフレーズ又はパッセージは、
ロードされた音節データによってその一部が構成されて
いる。ここで、感情は、例えば「平静(calm)」、「悲
しみ(sad)」、「喜び(happy)」、「怒り(angr
y)」などである。さらにインターフェースは、例えば
重み値を設定することによる感情の程度を入力する(ス
テップS6)。この重み値は、変数パラメータ値VPi
の標準値Pi(=Ei)からの変位(excursion)とし
て表現でき、Fig.2を参照して説明したように変数
δで定義される。
【0096】そしてシステムはユニバーサルオペレータ
フェーズP2に進む。このフェーズP2では、全ての音
節に対して一律にユニバーサルオペレータセットOS
(U)が適用される。ここで、このユニバーサルオペレー
タセットOS(U)は、Fig.4,6に示す全てのオペ
レータ、すなわち4つのピッチオペレータを構成するO
Prs、OPfs、OPsu、OPsdと2つの継続時
間長オペレータを構成するODd、ODcを含む。オペ
レータセットOS(U)の各オペレータは、それぞれに対
応する値で、すなわち上述したようにそれぞれPrs
(U)、Pfs(U)、Psu(U)、Psd(U)、
Dd(U)及びDc(U)でパラメータ化される(ステ
ップS8)。このステップは、これらのパラメータに数
値を割り当てることも含み、オペレータセット構成ユニ
ット26によって実行される。なお、オペレータセット
OS(U)についてのパラメータ値は、プログラムされた
感情及びその性質、並びに状況に応じた他の要素の機能
として、オペレータパラメータ化ユニット8によって選
択される。本具体例では、これらの各パラメータは、変
数δによって変数とされ、それぞれVPrs(U)、V
Pfs(U)、VPsu(U)、VPsd(U)、VD
d(U)及びVDc(U)で示される(以下では、この
ようにして変数δによって変数とされた全てのパラメー
タ値、又はオペレータ/オペレータセットを、一般的に
最初の文字としてVを加えることにより特定する)。
【0097】続いて、フレーズ或いはフレーズ群の全て
の音節に対して一律にユニバーサルオペレータセットV
OS(U)が適用される(ステップS10)。これは、そ
の音節データの数値t1、P1−P5を変更する処理を
含む。ここでピッチオペレータについて説明すると、坂
パラメータVPrs及びVPfsは、5つの異なる値に
変換され、それぞれ値P1−P5に対して算術的に当て
はめられる。これらの異なる値は、P1−P5の各値を
動かすように選択される。但し、中間の値P3は、上述
したように基本的には変化しない。例えば、登り坂パラ
メータの最初の2つの値は、ピッチの前半を下降させる
ために負の値となり、最後の2つの値は、ピッチの後半
を上昇させるために正の値となる。これにより、Fi
g.6に示すように、中間の時間において登り坂調子の
発声が生成される。なお、パラメータを構成する傾きの
程度は、これらの異なった値により表現される。これと
逆ではあるが同様のアプローチが、下り坂オペレータに
対しても適用可能である。
【0098】ここで、シフトアップオペレータ又はシフ
トダウンオペレータは、坂オペレータを適用する前又は
後の何れで適用しても構わない。これらのオペレータ
は、5つのピッチの値P1−P5に対して、パラメータ
で規定される値を単純に加算し、又は減算する。なお、
オペレータは、排他的な対を形成する。すなわち、下り
坂オペレータが適用されている場合には登り坂オペレー
タは適用されない。シフトアップオペレータ、シフトダ
ウンオペレータ及び継続時間長オペレータについても同
様である。
【0099】オペレータの適用(すなわち、データパラ
メータt1、P1−P5の変更計算)は、音節データ変
更ユニット48によって行われる。
【0100】音節に対してユニバーサルオペレータセッ
トVOS(U)が適用された後、さらなる処理が必要であ
れば、その音節は一時的に保持される。
【0101】次にシステムは確率的なアクセント化フェ
ーズP2に進む。このフェーズP2では、別のオペレー
タアクセント化パラメータセットVOS(PA)が準備さ
れる。このオペレータセットは、ユニバーサルオペレー
タセットと同様のものであるが、パラメータとして別の
値を有する。ユニバーサルオペレータセットでの取り決
めを用いると、オペレータセットVOS(PA)は、それ
ぞれ対応する値、すなわちVPrs(PA)、VPfs
(PA)、VPsu(PA)、VPsd(PA)、VD
d(PA)、VDc(PA)でパラメータ化される。こ
れらのパラメータ値は、感情及びその感情の程度、並び
にインターフェース40から供給されたその他の要素の
機能として、オペレータパラメータ化ユニット38によ
って同様に計算される。このパラメータは、一般的に、
意図している感情に従って発話文に対してある種のイン
トネーション(韻律)を与えるために選択される。ま
た、確率的アクセント化オペレータセットVOS(PA)
のさらなるパラメータは、先に定義した確率Nであり、
変数δによって変数(VN)とされる。この値は、感情
及びその感情の程度の他、例えばその音節ファイルの性
質によって変化する。
【0102】パラメータが得られると、それらのパラメ
ータは、オペレータセット構成ユニット26に供給さ
れ、確率的アクセント化パラメータセットVOS(PA)
が完全に構成される(ステップS12)。
【0103】次に、このオペレータセットVOS(PA)
をどの音節に対して適用するかがランダム選択ユニット
46で決定される(ステップS14)。ランダム選択ユ
ニット46は、このオペレータセットでアクセント化す
るランダムに選ばれた音節のリストを有している。上述
したように、候補となる音節は、 −無意味語であるか、又はアクセントを置くことが禁止
されている音節がない場合には全ての音節、又は −ファイルで特定されている場合には、許されている
(アクセント可能な)音節である。通常これは、有意味
語の場合に該当する。
【0104】候補からランダムに選択された音節は、音
節データ変更ユニット48によって、確率的アクセント
化オペレータセットVOS(PA)で処理される(ステッ
プS16)。実際の処理は、含まれるパラメータ値が異
なる他は、上述したユニバーサルオペレータセットと技
術思想として同様である。
【0105】ここで、確率的アクセント化オペレータセ
ットVOS(PA)は、既にユニバーサルオペレータセッ
トVOS(U)の適用された音節に対して適用される。こ
のことは、ステップS14で既に選択されたファイルの
音節データアイテムSiについて、数学的には、VOS(P
A).VOS(U).Si→Sipaccと表される。ここで、Sipaccは、
音節にアクセントが置かれた結果のデータを示す。
【0106】そして、音節データ変更ユニット48で
は、発声データファイル28に含まれるフレーズの最初
と最後の単語を除く全ての音節について、以下のように
変更された音節データを生成する。 −VOS(U).S→Spna:ステップS14で選択されていない
音節データの場合。ここで、Spnaは処理後のアクセント
の置かれていない音節を示す。 −VOS(PA).VOS(U).S→Spacc:ステップS14で選択さ
れた音節データの場合。ここで、Spaccは処理後のアク
セントの置かれた音節を示す。
【0107】最後に、フレーズの最初と最後の音節に対
してのみアクセント化処理を行うフェーズP4に進む。
ここで、フレーズが有意味語で構成されている場合、こ
のフェーズP4では、フレーズ内の最初と最後の単語の
全ての音節にアクセントが置かれる。なお、フレーズと
は、意味を有する文の通常の文法的な意味によって、す
なわち話すときの間(ポーズ)によって決まるものであ
る。これに対して、無意味語の場合、フレーズとは、間
(ポーズ)で特徴付けられる発声の最初と最後とによっ
て決まるものである。典型的には、このようなフレーズ
は、約1秒間乃至3,4秒間続く。一方、無意味語の場
合、このフェーズP4では、少なくとも最初と最後の音
節、好ましくは最初のm個と最後のn個の音節にアクセ
ントが置かれる。ここで、m及びnは、約2又は3であ
り、同じ値であっても異なる値であってもよい。
【0108】そして、以前のフェーズと同様に、オペレ
ータVOPrs、VOPfs、VOPsu、VOPs
d、VODd、VODcの特定のパラメータで処理され
る。このオペレータは、最初と最後の音節アクセント化
オペレータセットVOS(FL)に含まれ、それぞれ対応
する値、すなわちVPrs(FL)、VPfs(F
L)、VPsu(FL)、VPsd(FL)、VDd
(FL)、VDc(FL)でパラメータ化される(ステ
ップS18)。これらのパラメータ値は、感情及びその
感情の程度、並びにインターフェース30から供給され
たその他の要素の機能として、オペレータパラメータ化
ユニット28によって同様に計算される。
【0109】続いて、得られたオペレータセットVOS
(FL)がフレーズ毎に最初と最後の音節に対して適用さ
れる(ステップS20)。これらの音節は、最初/最後
音節検出ユニット34によって特定される。
【0110】ここで、オペレータセットVOS(FL)が
適用された音節データの中には、ステップS10におい
てユニバーサルオペレータセットVOS(U)が適用され
たものが存在する可能性がある。さらに、最初と最後の
音節がステップS14のランダム選択で選ばれ、確率的
アクセント化オペレータセットVOS(PA)が適用され
た可能性もある。
【0111】したがって、最初と最後の音節を処理する
場合には、以下に示すような2通りの可能性が考えられ
る。なお、以下の記号は上述と同様である。 −第1の可能性:先ずオペレータセットVOS(U)で処
理し、次にオペレータセットVOS(FL)で処理する。
すなわち、VOS(FL).VOS(U).S→Spfl(1)。 −第2の可能性:オペレータセットVOS(U)、VOS
(PA)、VOS(FL)で連続的に処理する。すなわち、
VOS(FL).VOS(PA).VOS(U).S→Spfl(2)。
【0112】この簡便なオペレータベースのアプローチ
によって、無意味語と有意味語の双方において、より複
雑なシステムと少なくとも比較し得る程度の結果が得ら
れている。
【0113】ところで、所望の感情を表現するためのパ
ラメータの選択は、非常に受動的なものであり、発声方
法や言語等によって大きく異なる。しかしながら、リア
ルタイム処理にあまり時間のかからない簡単且つ洗練さ
れたパラメータを有しているため、多くのパラメータの
組み合わせを試し、最も満足のいくオペレータセットを
見つけることも容易である。
【0114】また、生成された感情の程度を制御する本
発明に従って、与えられた感情に関連するそれぞれのパ
ラメータについて、パラメータ値の変化範囲を固定する
ことも可能である。
【0115】一例として、本件出願人は、以下のような
パラメータによってよい結果が得られることを発見し
た。 −悲しみ(Sad):ユニバーサルオペレータセットのピ
ッチ=傾きの小さい下り坂 継続時間長オペレータ=延長 アクセント化の選択確率N=低い −平静(Calm):オペレータセットを適用しないか、又
は僅かにパラメータ化されたオペレータセットを適用す
る −喜び(Happy):ユニバーサルオペレータセットのピ
ッチ=適度に傾きの大きい登り坂 ユニバーサルオペレータセットの継続時間長=短縮 アクセント化オペレータセットの継続時間長=延長 −怒り(Angry):全てのオペレータセットのピッチ=
適度に傾きの大きい下り坂 全てのオペレータセットの継続時間長=短縮
【0116】この例で特定していないオペレータセット
については、全てのオペレータセットに対して、一般的
なタイプのパラメータを用いることができる。一般的に
言えば、変化のタイプ(登り坂、短縮など)は、全ての
オペレータセットで同様であり、実際の値のみが異な
る。通常、ユニバーサルオペレータセットは、変化が最
小となるようにこの値を選択し、最初と最後の音節アク
セント化オペレータは、変化が最大となるようにこの値
を選択する。そして、確率的アクセントかオペレータセ
ットのピッチは、中程度の変化を生じさせる。
【0117】なお、このシステムでは、用いられている
パラメータに応じて、強度オペレータOIをオペレータ
セットに用いることもできる。
【0118】また、インターフェース40は、他の制御
を行うためにコンピュータインターフェースに統合する
こともできる。そして、ユーザUにシステムを調整可能
とするために、ここから上述した様々なオペレータセッ
トのパラメータを直接選択可能とすることもできる。こ
のインターフェースは、例えば様々なパラメータについ
ての傾きの値やシフトの値、或いは短縮/延長の値を視
覚的に表示することで、ユーザフレンドリーなものとな
る。
【0119】さらに、本発明は、多様なタイプの感情合
成システムをカバーすることができる。合成システムに
最適なものは音声又は音響により感情を伝達するもので
あるが、本発明は、他の形態で、例えば顔、体の表現や
映像効果等といった、パラメータが伝達する感情を反映
するような物体の動きで感情を伝達するシステムにも適
用可能である。
【図面の簡単な説明】
【図1】Fig.1は、従来の中立的な音声データを変
換するタイプの感情シミュレーションアルゴリズムシス
テムを説明する図である。
【図2】Fig.2は、本発明の好ましい実施例におけ
る感情程度変化システムを説明するブロック図である。
【図3】Fig.3は、Fig.2の感情程度変化シス
テムが実装されたオペレータベースの感情生成システム
の一例を説明するブロック図である。
【図4】Fig.4は、Fig.3のシステムで用いら
れるピッチオペレータを概略的に示す図である。
【図5】Fig.5は、Fig.3のシステムで追加的
に用いられる強度オペレータを概略的に示す図である。
【図6】Fig.6は、Fig.3のシステムで用いら
れる継続時間長オペレータを概略的に示す図である。
【図7】Fig.7Aは、Fig.3のシステムにより
音節データに対して施される感情生成処理を説明するフ
ローチャートである。
【図8】Fig.7Bは、Fig.3のシステムにより
音節データに対して施される感情生成処理を説明するフ
ローチャートであり、Fig.7Aの続きである。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 2C150 BA11 CA01 CA02 CA04 DF03 DF04 DF06 DF33 EF16 EF17 EF29 5D045 AA07

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも1つの入力パラメータ(P
    i)を有し、その値(Ei)により伝達する感情タイプ
    が設定される感情合成装置(2;12)の処理を制御す
    る方法であって、 少なくとも1つの上記パラメータを所定の制御範囲に亘
    る変数パラメータ(VPi)とし、伝達する上記感情タ
    イプの程度を変化させるステップを有することを特徴と
    する前記方法。
  2. 【請求項2】 請求項1記載の方法において、 音声により伝達される感情を合成する際に用いられるこ
    とを特徴とする前記方法。
  3. 【請求項3】 請求項1又は請求項2記載の方法におい
    て、 上記少なくとも1つの変数パラメータは、上記制御範囲
    に亘る局所モデルに従って可変とされ、 上記局所モデルは、感情程度制御変数(δ)と上記変数
    パラメータ(VPi)とを関連付けるものであり、 上記感情程度制御変数は、上記変数パラメータの値を可
    変に生成するために用いられることを特徴とする前記方
    法。
  4. 【請求項4】 請求項3記載の方法において、 上記局所モデルは、上記制御範囲及び与えられた感情タ
    イプについての局所線形モデルであり、上記感情程度制
    御変数(δ)によって上記変数パラメータ(VPi)が
    上記制御範囲に亘って変化させられることを特徴とする
    前記方法。
  5. 【請求項5】 請求項1乃至請求項4のいずれか1項記
    載の方法において、 上記感情程度は、以下の式で示される関係に従って上記
    変数パラメータ(VPi)を変更する制御変数(δ)に
    よって決定されることを特徴とする前記方法。 VPi=A+δ・B ここで、 VPiは、当該変数パラメータの値を示し、 A及びBは、制御範囲内の値を示し、 δは、感情程度制御変数を示す。
  6. 【請求項6】 請求項5記載の方法において、 Aは、上記制御範囲内の値であり、 上記感情程度制御変数(δ)は、値0を含む区間内で可
    変とされていることを特徴とする前記方法。
  7. 【請求項7】 請求項6記載の方法において、 Aは、上記制御範囲の中間値(Emr)であり、 上記感情程度制御変数(δ)は、中間値が0となる区間
    内で可変とされていることを特徴とする前記方法。
  8. 【請求項8】 請求項7記載の方法において、 上記感情程度制御変数(δ)は、−1から1までの区間
    内で可変とされていることを特徴とする前記方法。
  9. 【請求項9】 請求項5乃至請求項8のいずれか1項記
    載の方法において、 Bは、B=(Eimax−A)又はB=(Eimin+
    A)で求められ、 Eimaxは、上記制御範囲内で伝達される感情タイプ
    の程度が最大となる入力パラメータの値であり、 Eiminは、上記制御範囲内で伝達される感情タイプ
    の程度が最小となる入力パラメータの値であることを特
    徴とする前記方法。
  10. 【請求項10】 請求項5乃至請求項9のいずれか1項
    記載の方法において、 Aは、伝達する感情タイプを設定するために予め特定さ
    れた標準パラメータ値(Ei)と同値であることを特徴
    とする前記方法。
  11. 【請求項11】 請求項9又は請求項10記載の方法に
    おいて、 上記値Eimax又は上記値Eiminは、伝達する感
    情タイプを設定するために予め特定された標準パラメー
    タ値の変位によって、及び制御範囲で与えられる感情の
    大きさに所望の制限を加えるために、増加方向又は減少
    方向における最大の変更量を決定することによって、実
    験的に決定されることを特徴とする前記方法。
  12. 【請求項12】 請求項1乃至請求項11のいずれか1
    項記載の方法において、 上記感情合成装置(2;12)の変数パラメータ(VP
    1−VPN)の過半数を集合的に生成するために、同じ
    感情程度制御変数(δ)が用いられることを特徴とする
    前記方法。
  13. 【請求項13】 少なくとも1つの入力パラメータ(P
    i)を有し、その値(Ei)により伝達する感情タイプ
    が設定される感情合成システム(2;12)の処理を制
    御する装置であって、 少なくとも1つの上記パラメータを所定の制御範囲に亘
    る変数パラメータ(VPi)とし、伝達する上記感情タ
    イプの程度を変化させる変化手段(14,16,18)
    を備えることを特徴とする前記装置。
  14. 【請求項14】 請求項13記載の装置において、 上記変化手段(14,16,20)は、上記変数パラメ
    ータ(VPi)の値を可変に生成するためにアクセス可
    能とされている感情程度制御変数(δ)に従って、上記
    少なくとも1つの変数パラメータ(VPi)を変化させ
    るために、アクセス可能とされていることを特徴とする
    前記装置。
  15. 【請求項15】 請求項14記載の装置において、 上記変化手段(14,16,18)は、種々の上記感情
    程度制御変数(δ)による局所線形モデルに従って、上
    記変数パラメータ(VPi)を線形的に変化させること
    を特徴とする前記装置。
  16. 【請求項16】 請求項14又は請求項15記載の装置
    において、 上記感情程度制御変数(δ)は、値0を含む区間内で可
    変とされていることを特徴とする前記装置。
  17. 【請求項17】 請求項16記載の装置において、 上記感情程度制御変数(δ)は、−1から1までの区間
    内で可変とされていることを特徴とする前記装置。
  18. 【請求項18】 請求項13乃至請求項17のいずれか
    1項記載の装置において、 上記変化手段(14,16,20)は、上記感情程度制
    御変数(δ)に応じて、以下の式に従って上記少なくと
    も1つの変数パラメータ(VPi)を変化させることを
    特徴とする前記装置。 VPi=Emr+δ・(Eimax−Emr)、又は VPi=Emr+δ・(Eimin+Emr) ここで、 δは、感情程度制御変数の値を示し、 Emrは、上記制御範囲のほぼ中間の値、好ましくは伝
    達する感情タイプを設定するために予め特定された標準
    パラメータ値(Ei)と等しい値を示し、 Eimaxは、上記制御範囲内で伝達される感情タイプ
    の程度が最大となる入力パラメータの値を示し、 Eiminは、上記制御範囲内で伝達される感情タイプ
    の程度が最小となる入力パラメータの値を示す。
  19. 【請求項19】 請求項13乃至請求項18のいずれか
    1項記載の装置において、 上記変数パラメータを可変に生成するために、同じ感情
    程度制御変数(δ)を用いて、上記感情合成システム
    (2;12)の変数パラメータ(VP1−VPN)の過
    半数を集合的に生成することを特徴とする前記装置。
  20. 【請求項20】 音声により伝達される感情を合成する
    装置において感情程度を調整するために、請求項13乃
    至請求項19のいずれか1項記載の装置を使用すること
    を特徴とする使用方法。
  21. 【請求項21】 少なくとも1つのパラメータを受け取
    るための少なくとも1つの入力端子を有し、そのパラメ
    ータの値(Ei)が表現する感情タイプを設定するため
    に用いられる感情合成装置と、 上記変数(VPi)を上記少なくとも1つの入力端子に
    供給するように機能的に接続された請求項13乃至請求
    項19のいずれか1項記載の装置(10)とを備え、 伝達する上記感情タイプの程度に変化をもたらすことを
    特徴とするシステム。
  22. 【請求項22】 コンピュータによって実行可能な命令
    を与えるコンピュータプログラムであって、 当該コンピュータプログラムがデータプロセッサーにロ
    ードされると、上記データプロセッサーは、請求項1乃
    至請求項12のいずれか1項記載の方法を実行すること
    を特徴とする前記コンピュータプログラム。
JP2002206013A 2001-07-13 2002-07-15 感情合成装置の処理を制御する方法及び装置 Withdrawn JP2003177772A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP01401880.8 2001-07-13
EP20010401880 EP1256932B1 (en) 2001-05-11 2001-07-13 Method and apparatus for synthesising an emotion conveyed on a sound
EP01402176.0 2001-08-14
EP20010402176 EP1256933B1 (en) 2001-05-11 2001-08-14 Method and apparatus for controlling the operation of an emotion synthesising device

Publications (1)

Publication Number Publication Date
JP2003177772A true JP2003177772A (ja) 2003-06-27

Family

ID=26077247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002206013A Withdrawn JP2003177772A (ja) 2001-07-13 2002-07-15 感情合成装置の処理を制御する方法及び装置

Country Status (1)

Country Link
JP (1) JP2003177772A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330060A (ja) * 2005-05-23 2006-12-07 Univ Waseda 音声合成装置、音声処理装置、およびプログラム
JP2016066088A (ja) * 2012-03-14 2016-04-28 株式会社東芝 音声合成方法、装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330060A (ja) * 2005-05-23 2006-12-07 Univ Waseda 音声合成装置、音声処理装置、およびプログラム
JP2016066088A (ja) * 2012-03-14 2016-04-28 株式会社東芝 音声合成方法、装置及びプログラム

Similar Documents

Publication Publication Date Title
Kochanski et al. Prosody modeling with soft templates
US5860064A (en) Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US20030093280A1 (en) Method and apparatus for synthesising an emotion conveyed on a sound
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
JP3070127B2 (ja) 音声合成装置のアクセント成分制御方式
KR20210082153A (ko) 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
KR102493141B1 (ko) 객체 기반 오디오 콘텐츠 생성 방법 및 시스템
JP2003099084A (ja) 音声による感情合成方法及び装置
JP2015034920A (ja) 音声解析装置
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JP2017097176A (ja) 音声合成装置および音声合成方法
JP2007183421A (ja) 音声合成装置
Feugère et al. Cantor Digitalis: chironomic parametric synthesis of singing
CN111418006A (zh) 声音合成方法、声音合成装置及程序
US7457752B2 (en) Method and apparatus for controlling the operation of an emotion synthesizing device
JP2016090916A (ja) 音声合成装置
KR20220165666A (ko) 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템
Morise et al. v. morish’09: A morphing-based singing design interface for vocal melodies
JP2017045073A (ja) 音声合成方法および音声合成装置
JP2017097332A (ja) 音声合成装置および音声合成方法
JP2003177772A (ja) 感情合成装置の処理を制御する方法及び装置
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
Tsirulnik et al. Singing voice database
EP1256932B1 (en) Method and apparatus for synthesising an emotion conveyed on a sound
EP1256933B1 (en) Method and apparatus for controlling the operation of an emotion synthesising device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051004