JP2003177772A

JP2003177772A - 感情合成装置の処理を制御する方法及び装置

Info

Publication number: JP2003177772A
Application number: JP2002206013A
Authority: JP
Inventors: Pierre Yves Oudeyer; イブスオードイェピエール
Original assignee: Sony France SA
Current assignee: Sony France SA
Priority date: 2001-07-13
Filing date: 2002-07-15
Publication date: 2003-06-27

Abstract

(57)【要約】（修正有）【課題】感情合成システム及びアルゴリズムの制御可能
性に新たな自由度を加える。【解決手段】感情合成装置の処理を制御するものであ
り、特に音声により感情が伝達され、少なくとも１つの
入力パラメータ（Ｐｉ）を有し、その値（Ｅｉ）により
伝達する感情タイプが設定され、少なくとも１つの上記
パラメータを所定の制御範囲に亘る変数パラメータ（Ｖ
Ｐｉ）とすることによって、伝達する上記感情タイプの
程度を変化させるタイプの感情合成装置の処理を制御す
るものである。上記変数パラメータ（ＶＰｉ）は、上記
制御範囲に亘る局所モデルに従って可変とされ、上記局
所モデルは、感情程度制御変数（δ）と上記変数パラメ
ータとを関連付け、上記感情程度制御変数は、上記変数
パラメータの値を可変に生成するために用いられる。好
ましくは、上記変化は、線形モデルに従い、変数パラメ
ータは、感情程度制御変数（δ）の変化に応じて線形的
に変化する。

Description

【発明の詳細な説明】

【０００１】本発明は、感情を例えば音声信号でシミュ
レートする感情合成の分野に関する。より詳細には、本
発明は、感情合成システム及びアルゴリズムの制御可能
性に新たな自由度を加えることを目的とする。

【０００２】音声データで感情を伝達する場合におい
て、音声データとしては、意味を持った言葉であっても
よく、例えば幼児語（babble）や動物似の声などの意味
を持たない発声或いは音声であってもよい。

【０００３】このような感情合成は、例えばペット型ロ
ボット、ヒューマノイド、インタラクティブな機械、教
育訓練、テキストを読むシステム、映画のサウンドトラ
ック制作、アニメーションなどのコミュニケーション対
象を生き生きとしたものにする際に適用できる。

【０００４】ここで、ＦＩＧ.１は、感情シミュレーシ
ョンアルゴリズムに基づく従来からの発話による感情合
成システム２の基本的な概念を図示したものである。

【０００５】このようなシステムは、典型的には中立
（neutral）である音声データＶｉｎを入力４とし、こ
の入力音声データＶｉｎに感情が付加された音声データ
Ｖｏｕｔを出力６とする。その音声データは、典型的に
はデータ要素が連続したものであり、それぞれのデータ
要素が音素や音節といった音声要素に対応する。また、
一般にデータ要素により、対応する音声要素のピッチ及
び／又は強度及び／又は継続時間長に関連する一又は複
数の値が特定される。発話による感情合成は、所望の感
情となるように所定の方法でこれらの値の少なくとも１
つを変更するアルゴリズムのステップで行われる。

【０００６】感情シミュレーションアルゴリズムは、シ
ステム２における適切な入力８として用いられる一連の
入力パラメータＰ１，Ｐ２，Ｐ３，... ，ＰＮ（感情設
定パラメータという）によって制御される。これらのパ
ラメータは通常数値であり、感情シミュレーションアル
ゴリズムをパラメータ化する際の指標となり得る。ま
た、これらのパラメータは、経験上決定されるものであ
る。

【０００７】表現する各感情Ｅには、特定の感情設定パ
ラメータが存在する。例えば、感情設定パラメータＰ
１，Ｐ２，Ｐ３，... ，ＰＮは、「平静（calm）」につ
いてはＣ１，Ｃ２，Ｃ３，... ，ＣＮとなり、「喜び
（happy）」についてはＨ１，Ｈ２，Ｈ３，... ，ＨＮ
となり、「悲しみ（sad）」についてはＳ１，Ｓ２，Ｓ
３，... ，ＳＮとなる。

【０００８】また、音声データの入力ストリームを変換
せず、感情が付加された音声データＶｏｕｔを内部的に
生成するという、完全に生成的（generative）な感情シ
ミュレーションアルゴリズムシステムも存在する。この
システムでは、上述したパラメータに類似した一連のパ
ラメータＰ１，Ｐ２，Ｐ３，... ，ＰＮが、生成する感
情タイプを決定するために使用される。

【０００９】どのような感情シミュレーションアルゴリ
ズムシステムであっても、パラメータ化により対応する
感情を効果的に合成することができるが、その一方で、
合成された感情Ｅにさらにその強さを関連付けたいとい
う要求がある。例えば、与えられた感情Ｅについて、例
えば穏やかなものから激しいものまで、音声データＶｏ
ｕｔで表現される感情の程度に幅を持たせることができ
れば有益である。

【００１０】１つの可能性としては、与えられた感情に
ついて、各々が表現する感情の程度に対応するパラメー
タセットを経験的に決定して追加することが挙げられ
る。しかしながら、そのようなアプローチには重大な欠
点がある。すなわち、 −追加されたセットの調整（elaboration）が非常に煩
雑であり、 −それらをアプリケーション内に保存することでメモリ
の一部が占有されるため、小型のペット型ロボットのよ
うにメモリが制限された装置の場合には不利であり、 −追加されたセットを管理し、処理するには、処理能力
が非常に必要とされ、そして、パフォーマンスの観点か
らいえば、感情の程度をスムーズに変化させるような実
施例を想定した場合には不適である。

【００１１】そこで、以下に説明する本発明の第１の側
面は、少なくとも１つの入力パラメータを有し、その値
が表現する感情タイプを設定するために用いられる音声
合成装置の処理を制御する方法を提供するものであり、
その方法は、少なくとも１つのパラメータを所定の制御
範囲に亘る変数パラメータとするステップを有し、これ
により、伝達する感情タイプの程度を変えることができ
る。

【００１２】典型的な応用例では、上記合成は、音声に
よって伝達される感情の合成である。

【００１３】好ましくは、少なくとも１つの変数パラメ
ータは、制御範囲に亘る局所モデルに従って可変とさ
れ、その局所モデルは、感情程度制御変数と変数パラメ
ータとを関連付けるものであり、上記感情程度制御変数
は、上記変数パラメータの値を可変に生成するために用
いられる。

【００１４】この局所モデルは、一又は複数のパラメー
タ値の異なるセットにより異なる認識可能な感情を生成
することができる一方で、与えられた感情タイプを実現
するために選択された一連のパラメータ値が十分に安定
であり、対応する感情の性質を無秩序に変化させること
なく、そのパラメータ値から局所的に変化させることが
できるという仮定に基づくものとすることができる。す
なわち、上記変化とは、感情の程度の変化である。した
がって、上記所定の制御範囲とは、局所的な変位（excu
rsions）の範囲内となる。

【００１５】この局所モデルは、制御範囲及び与えられ
た感情タイプについての局所線形モデルであることが好
ましく、変数パラメータは、感情程度制御変数によって
制御範囲に亘って線形的に変化させられる。

【００１６】好ましい実施例では、感情程度制御変数
（δ）により、以下の式で示される関係に従って感情パ
ラメータが変更される。ＶＰｉ＝Ａ＋δ・Ｂここで、ＶＰｉは、当該変数パラメータの値を示し、Ａ
及びＢは、制御範囲内の値を示し、δは、感情程度制御
変数を示す。

【００１７】好ましくは、Ａは、制御範囲内の値であ
り、感情程度制御変数は、値０を含む区間内で可変とさ
れる。

【００１８】また、値Ａは制御範囲の中間の値としても
よく、感情程度制御変数は、中間の値が０となる区間内
で可変とすることができる。

【００１９】感情程度制御変数は、好ましくは−１から
１までの区間内で可変である。

【００２０】好ましい実施例では、値Ｂは、Ｂ＝（Ｅｉ
ｍａｘ−Ａ）、又はＢ＝（Ｅｉｍｉｎ＋Ａ）で求められ
る。

【００２１】ここで、Ｅｉｍａｘは、制御範囲内で伝達
される感情タイプの程度が最大となる入力パラメータの
値である。

【００２２】また、Ｅｉｍｉｎは、制御範囲内で伝達さ
れる感情タイプの程度が最小となる入力パラメータの値
である。

【００２３】値Ａは、伝達する感情を設定するために予
め特定された標準パラメータ値と同値とすることができ
る。

【００２４】また、値Ｅｉｍａｘ又は値Ｅｉｍｉｎは、
伝達する感情を設定するために予め特定された標準パラ
メータ値の変位（excursion）によって、及び制御範囲
で与えられる感情の大きさに所望の制限を加えるため
に、増加方向又は減少方向における最大の変更量を決定
することによって、実験的に決定することができる。

【００２５】本発明では、感情合成装置における変数パ
ラメータの過半数を集合的に生成するために、同じ感情
程度制御変数を用いることができる。

【００２６】また、第２の側面によれば、本発明は、少
なくとも１つの入力パラメータを有し、その値が表現す
る感情のタイプを設定するために用いられる感情合成シ
ステムの処理を制御する装置に関連するものであり、そ
の装置は、少なくとも１つのパラメータを所定の制御範
囲に亘る変数パラメータとする変化手段を有し、これに
より、伝達する感情タイプの程度を変えることができ
る。

【００２７】上述した本発明の第１の側面（方法）にお
ける付加的な特徴は、必要に応じて変更を加えて第２の
側面（装置）に適用することができるが、簡単のため繰
り返して説明しない。

【００２８】さらに、第３の側面によれば、本発明は、
音声により伝達される感情を合成する装置において感情
の程度を調整するために、上述の装置を使用する使用方
法に関連するものである。

【００２９】さらにまた、第４の側面によれば、本発明
は、少なくとも１つのパラメータを受け取るための少な
くとも１つの入力端子を有し、そのパラメータの値が表
現する感情タイプを設定するために用いられる感情合成
装置と、上記変数を上記少なくとも１つの入力端子に供
給するように機能的に接続された第３の側面における装
置とを備え、伝達する上記感情タイプの程度に変化をも
たらすシステムに関連するものである。

【００３０】また、第５の側面によれば、本発明は、コ
ンピュータによって実行可能な命令を与えるコンピュー
タプログラムに関連するものであり、そのコンピュータ
プログラムがデータプロセッサーにロードされると、デ
ータプロセッサーは上述の方法を実行する。このコンピ
ュータプログラムは、あらゆる適切な記録媒体に記録す
ることも可能である。

【００３１】ＦＩＧ.２は、本発明の好ましい実施例に
おける感情程度変化システム１０の機能ユニットとその
処理とを図示したものである。この感情程度変化システ
ム１０は、音声に基づく感情シミュレーションアルゴリ
ズムシステム１２と協調して動作する。本具体例では、
後者は生成タイプ（generative type）、すなわち決定
された感情Ｅを伝達する音声データを生成する独自の手
段を有するものである。実施例システム１０は、他のタ
イプの感情シミュレーションアルゴリズムシステム、例
えばＦＩＧ.１を参照しながら説明した中立音声データ
が入力端子に供給されるシステムとでも、同様によく動
作することは勿論である。これらの感情シミュレーショ
ンアルゴリズムシステムも、実施例システムが協調して
動作可能な他のシステムも、本分野において公知であ
る。音声による感情アルゴリズム及びシステムに関する
さらなる情報は、特に文献「Cahn,J. (1990) "The gene
ration of affect in synthesised speech", Journal o
f the I/O Voice American Society, 8:1-19」、文献
「Iriondo I., et al (2000) "Validation of an acous
tical modeling of emotional expression in Spanish
using speech synthesistechniques", Proceedings of
ISCA workshop on speech and emotion」、文献「Eding
ton M.D. (1997) "Investigating the limitations of
concatenative speech synthesis", Proceedings of Eu
roSpeech '97,Rhodes,Greece」、及び文献「Iida A., e
t al (2000) "A speech synthesis system with emotio
n for assisting communication", ISCA workshop on s
peech and emotion」から得ることができる。

【００３２】また、感情合成方法及び装置は、本件出願
人による以下の２つの欧州特許出願、すなわち２００１
年５月１１日付けの欧州特許出願第01 401 203.3号及び
２００１年７月１３日付けの欧州特許出願第01 401 88
0.8号に記載されており、本件出願は、これらの出願を
優先権主張の基礎としている。

【００３３】ところで、感情シミュレーションアルゴリ
ズムシステム１２は、ＦＩＧ.１を参照しながら説明し
たように、与えられた感情Ｅを生成するために、感情設
定パラメータＰ１，Ｐ２，Ｐ３，... ，ＰＮ（総称して
Ｐという）の数Ｎを使用している。このパラメータの数
Ｎは、アルゴリズムによって典型的には１から１６或い
はそれ以上まで、大きく変化する。また、このパラメー
タＰは、経験的に決定された数値又は指標であり、本ア
ルゴリズムの計算ステップ又は決定ステップで利用され
る。このパラメータは、目的設計インターフェース（pu
rpose designedinterface）を介して、又はパラメータ
ロードルーチンによって、感情シミュレーションアルゴ
リズムシステム１２にロードされる。本具体例では、パ
ラメータＰの挿入がシステム１２に入力する直線によっ
て象徴的に示されており、システム１２には、このパラ
メータを外部から導くための適切なインターフェース又
はローディングユニットが統合されている。

【００３４】このようにして、感情シミュレーションア
ルゴリズムシステム１２は、各パラメータＰ１，Ｐ２，
Ｐ３，... ，ＰＮについてのＮ個の適切な値によって、
例えば「平静（calm）」、「怒り（angry）」、「喜び
（happy）」、「悲しみ（sad）」等の種々の感情Ｅを生
成することができる。考慮している状況では、システム
１２は、以下のようなパラメータ、すなわちＰ１＝Ｅ
１、Ｐ２＝Ｅ２、Ｐ３＝Ｅ３、... 、ＰＮ＝ＥＮとし
て、与えられた感情Ｅを生成するように予めプログラム
されている。なお、値Ｅ１−ＥＮは、感情Ｅを生成する
ように予め見つけられたものである。

【００３５】一方、感情程度変化システム１０は、線形
モデルに従ってこれらの値Ｅ１−ＥＮに変化を加えるよ
うに動作するものである。言い換えれば、Ｅ１−ＥＮが
線形的に（又は連続的に）変化することにより、感情シ
ミュレーションアルゴリズムシステムの反応が連続的に
変化する。本件出願人が発見したところによれば、当該
反応は、少なくとも値Ｅ１−ＥＮの所定の変化範囲内に
おける感情Ｅの程度、すなわち強度の変化である。

【００３６】Ｅ１−ＥＮに上述したような変化を加える
ために、先ず、これらの各値についての変化可能な範囲
が決定される。そして、所定のパラメータＰｉ（ｉは１
からＮまでの任意の整数）について感情シミュレーショ
ンアルゴリズムシステム１２による探索（exploratio
n）が行われ、パラメータＰｉが元の標準値Ｅｉから感
情Ｅの最大強度に対応する値Ｅｉｍａｘに変化する。な
お、この値Ｅｉｍａｘは、実験的に決定されるものであ
る。この値は、一般的に、その値以上で感情Ｅの程度が
殆ど増加しなくなる（すなわち飽和する）ような値か、
又はその値以下で感情Ｅのタイプが変化し、若しくは歪
んでしまうような値に対応する。ここで、値Ｅｉｍａｘ
は、標準値Ｅｉより大きくても小さくてもよい。すなわ
ち、パラメータＰｉに応じて、標準値Ｅｉの増加又は減
少により、感情の程度が大きくなる。

【００３７】あるパラメータＰｉについての最大強度Ｅ
ｉｍａｘは、他の全てのパラメータを元の標準値に保つ
か、種々のパラメータＰ１−ＰＮについての相互作用の
知識に従って、他のパラメータの一部又は全部を変化さ
せることにより決定することができる。

【００３８】上述した手順は、標準パラメータ値Ｐｉ周
辺の制御可能な動態という局所モデルに従う。後者は十
分に安定なものであり、対応する感情の性質を無秩序に
変化させることなく、そのパラメータ値から局所的に変
化させることができるという仮定に基づくものとするこ
とができる。したがって、上記所定の制御範囲とは、局
所的な変位（excursions）の範囲内となる。

【００３９】この最初のセットアップフェーズにより、
一連の最大強度パラメータ値Ｅ１ｍａｘ、Ｅ２ｍａｘ、
Ｅ３ｍａｘ、... 、ＥＮｍａｘが得られる。これらは、
それぞれパラメータＰ１，Ｐ２，Ｐ３，... ，ＰＮによ
って生成される感情Ｅの最大強度に対応する。これらの
最大強度パラメータ値は、対応する標準初期パラメータ
値Ｅｉとの関連性の下、メモリユニット１４に格納され
る。すなわち、パラメータＰｉについて、メモリユニッ
ト１４は、２つの値Ｅｉ及びＥｉｍａｘを対応付ける。
典型的な応用例では、感情シミュレーションアルゴリズ
ムユニット１２で生成され、その程度を変化させる必要
のある感情Ｅのそれぞれについて、上述の手順が実行さ
れる。なお、各感情Ｅについて、それぞれ値Ｅｉ及び値
Ｅｉｍａｘのセットがメモリユニット１４に格納されて
いる。

【００４０】メモリユニット１４に格納されている値
は、変数パラメータ生成ユニット１６によって利用され
る。このユニットの機能は、感情シミュレーションアル
ゴリズムシステム１２のパラメータＰ１−ＰＮを対応す
る変数パラメータＶＰ１−ＶＰＮで置き換えるものであ
る。

【００４１】この変数パラメータ生成ユニット１６は、
共通の制御変数と、対応付けられた値であるＥｉ及びＥ
ｉｍａｘとに基づいて、以下の式（１）に従って各変数
パラメータＶＰｉを生成する。ＶＰｉ＝Ｅｉ＋δ・（Ｅｉｍａｘ−Ｅｉ）・・・（１）

【００４２】この方程式は、標準形がｙ＝ｍｘ＋ｃであ
る線形モデルに従うものである。ここで、ｙはＶＰｉに
対応し、ｍは（Ｅｉｍａｘ−Ｅｉ）に対応し、ｘはδに
対応し、ｃはＥｉに対応する。

【００４３】このようにして変数パラメータ生成ユニッ
ト１６で生成された変数パラメータ値ＶＰ１−ＶＰＮ
は、それぞれ出力端子１７−１乃至１７−Ｎに供給され
る。この出力端子は、感情シミュレーションアルゴリズ
ムシステム１２においてパラメータを受け取る入力端子
１３−１乃至１３−Ｎと接続されている。通常、変数パ
ラメータ生成ユニット１６から感情シミュレーションア
ルゴリズムシステム１２への図に示す接続は、任意の適
切な形態で実現することができる。すなわち、任意の適
切なデータ転送プロトコルを用いて、パラレル若しくは
シリアルデータバス、又は無線接続等により実現可能で
ある。変数パラメータＶＰのロードは、感情シミュレー
ションアルゴリズムシステム１２のレベルにおけるルー
チンにより制御することができる。

【００４４】ここで、制御変数δは、−１から１までの
範囲内の値である。その値は、感情程度選択ユニット１
８によって設定される。この感情程度選択ユニット１８
は、ユーザがアクセス可能なインターフェースとしても
よく、例えばその程度を指示する外部コマンドの機能と
して、又は例えばペット型ロボット等の処理の環境、経
緯、内容等に自動的に依存して生成する感情の程度に従
って動作する電気的な制御ユニットとしてもよい。

【００４５】図中では、δの変化範囲が目盛り（scal
e）２０で表されており、その目盛りに沿って、［−
１，１］の区間内で所望のδの値を示すためにポインタ
２２がスライド可能とされている。感情の程度がユーザ
によって制御可能な場合には、目盛り２０及びポインタ
２２は、グラフィックインターフェースとして実現する
ことができ、コンピュータ又はペット型ロボットの構成
部におけるモニタースクリーン上のカーソルとして表示
される。この場合、ポインタ２２は、キーボード、ボタ
ン、マウス等で置換可能である。また、目盛りもポテン
ショメータ或いは同様の変数コンポーネントで定義可能
である。

【００４６】なお、δの値は、実際上、範囲［−１，
１］に亘って連続的に増加してもよく、段階的に増加し
てもよい。

【００４７】ポインタ２０で示されたδの値は、感情程
度選択ユニット１８で生成され、変数パラメータ生成ユ
ニット１６の入力端子２２に供給される。この変数パラ
メータ生成ユニット１６は、制御変数を受け取り、それ
を上述した式（１）に与えるのに適合している。

【００４８】ここで、［−１，１］の区間に規格化され
た目盛りを用いることは、変数パラメータ生成ユニット
１６で使用される値の扱いが簡略化されるため、有益で
ある。より具体的には、これにより、スケーリングファ
クタを持ち出すことなく、式（１）と同様にメモリユニ
ット１４の値を直接使用することができる。しかしなが
ら、δの範囲としては、δ＝０の位置（この場合、式
（１）は標準パラメータ設定ＶＰｉ＝Ｅｉとなる）に関
して非対称な場合を含む他の範囲とすることもできる。
式（１）を用いることにより、変数パラメータＶＰｉの
値は、感情強度の最小値であるＥｉｍｉｎ＝２Ｅｉ−Ｅ
ｉｍａｘ（δ＝−１の場合）から感情強度の最大値であ
るＥｉｍａｘ（δ＝＋１の場合）までの全ての範囲の値
を取り得る。このＥｉｍｉｎの数値は、このような線形
モデルに基づくアプローチで制御可能な感情程度に沿う
ものであった。言い換えれば、このようにして得られた
Ｅｉｍｉｎの値は、伝達する感情の許容できる最低レベ
ルに対応し、標準パラメータ設定Ｅｉ（δ＝０に対応す
る）は、実際に感情設定の中間範囲の程度であるような
印象を効果的に与えるものであった。しかしながら、必
ずしもＥｉと一致しない任意の中間範囲値を選択するこ
とも可能である。そこで、式（１）は、より一般的にＶ
Ｐｉ＝Ｅｍｒ＋δ・（Ｅｉｍａｘ−Ｅｍｒ）と示され
る。

【００４９】注目すべきことに、実施例では変数δが同
じであっても感情シミュレーションアルゴリズムシステ
ム１２のＮ個の変数パラメータ値ＶＰｉのそれぞれを変
化させ、パラメータＰ１−ＰＮのそれそれの値の範囲を
変更することができる。

【００５０】ここで、式（１）に基づく変化法則では、
感情の程度を大きくするには値を増加させる必要がある
ようなパラメータであっても、感情の程度を大きくする
には値を減少させる必要があるようなパラメータであっ
ても扱うことができる。後者の場合、当該Ｅｉｍａｘの
値は、Ｅｉよりも小さくなる。そして、式（１）の括弧
を含む項は負になり、その大きさは、変数δで選択され
る感情程度が０と＋１との間で大きくなるにつれて増大
する。一方、δの負の値が増大するとＶＰｉが増大し、
感情程度が小さくなる。

【００５１】さらに、δの全ての値について、変数パラ
メータＶＰはそれぞれの範囲内で同じ相対位置となり、
これにより感情程度選択部１４で生成される変化が全て
の変数パラメータに亘ってよく均衡がとれ、一様なもの
となる。

【００５２】ところで、通常この実施例には様々な変更
を加えることができる。例えば、 −変数パラメータＶＰとされるパラメータＰの数。Ｎ個
のパラメータＰを全て制御するのではなく、一又はそれ
以上のパラメータからなる部分集合のみを変数パラメー
タ生成ユニット１６によってアクセスさせ、残りは標準
値のままとする。 −形式及び値に関する式（１）の選択。Ｅｉは既知であ
りＥｉｍｉｎは単純に実験的に決定される値であるた
め、式（１）に定数Ｅｉ及びＥｉｍｉｎを用いるのは有
益なことである。しかしながら、これらの値や他の値を
用いて、他の数的処理を行うことも可能である。例え
ば、式（１）は、独立に決定されるＥｉｍｉｎに従い、
Ｅｉｍａｘに従わないものとすることができる。この場
合、式（１）を以下のように表現し直すことができる。ＶＰｉ＝Ｅｉ＋δ・（Ｅｉｍｉｎ＋Ｅｉ）・・・（１'）Ｅｉｍｉｎの値は、上述と類似の方法で変数とされた各
パラメータについて、実験的に決定することができる。
すなわち、Ｅｉｍｉｎは、最も小さい程度の感情を生じ
させる値であり、この値未満では実用的に利用できるほ
ど感情程度が小さくならないか、又は感情タイプが歪ん
でしまう。なお、この場合、メモリにはＥｉｍａｘでは
なくＥｉｍｉｎが格納される。また、中間範囲の値は、
標準値Ｅｉと異なるものであってもよい。 −上述したような制御因子δ及びその区間の選択。１以
上の制御可能な変数を用いる、より複雑な変数とするこ
ともできる。 −上述したような感情シミュレーションアルゴリズムの
選択。実際、本発明から得られる教示（teaching）は、
感情シミュレーションアルゴリズムに関して言えば非常
に一般的なものである。この教示は、例えば発話、感情
等を表現するための顔の表情に関わるパラメータに変化
を生じさせる場合など、必要に応じて変更を加えて他の
シミュレーションアルゴリズムに適用することができ
る。

【００５３】また、上述の教示は、感情シミュレーショ
ンアルゴリズムでシミュレートされた全ての感情Ｅ、す
なわち「平静（calm）」、「喜び（happy）」、「怒り
（angry）」、「悲しみ（sad）」、「不安（anxiou
s）」などに適用可能である。

【００５４】ここで、感情シミュレーションアルゴリズ
ムシステムにとって、ＦＩＧ.２を参照しながら説明し
た感情程度変化システム１０がどのように有益であるか
を、２つの例を用いて説明する。

【００５５】第１の例。音声合成器で生成された変調音
声によって感情を表現できるペット型ロボット。上記音
声合成器は、音声により伝達する感情を定義する一連の
入力パラメータを有する。

【００５６】この例は、本件出願人が先に提案し、本件
出願の優先権主張の基礎とされている２００１年５月１
１日付けの欧州特許出願第01 401 203.3号「音声合成方
法及び装置、並びにロボット装置」の内容に基づくもの
である。

【００５７】この感情合成アルゴリズムは、感情は「奮
起（arousal）」成分と「力価（valence）」成分とで構
成される特徴空間で表現されるという概念に基づいてい
る。例えば、「怒り（angry）」、「悲しみ（sadnes
s）」及び「落ち着き（comfort）」は、奮起−力価特徴
空間の所定の領域で表現される。

【００５８】このアルゴリズムでは、一連のパラメータ
Ｐが表されたテーブルが参照される。このパラメータＰ
は、少なくとも音素の継続時間長（DUR）、ピッチ（PIT
CH）及び音（SOUND）を含み、各基本感情について予め
定義されている。これらのパラメータは、数値或いは状
態（例えば「上昇」或いは「下降」）である。この状態
パラメータは、標準設定に維持し、感情程度変化システ
ム１０によって制御されないようにすることもできる。

【００５９】以下に示す表１は、パラメータの一例と、
「喜び（happiness）」の感情である場合におけるそれ
らの値を示したものである。名前の付されたパラメータ
は、認識されるユニットの一又は複数の音節又は音素か
らなり、特にピッチ特徴、継続時間長、輪郭（contou
r）、音量等によって特定された無意味語に適用され
る。これらの特徴は、本アルゴリズムで認識されるフォ
ーマット化されたデータ構造で表現される。

【００６０】

【表１】

【００６１】なお、これ以外の感情についても、同じ特
徴について独自のパラメータ値或いは状態を有する。

【００６２】このアルゴリズムが組み込まれたペット型
ロボットでは、伝えようとする感情に応じて、あるパラ
メータ値のセットから別のセットへと変化する。

【００６３】この場合、表１において数値で表されてい
た特徴は、与えられた感情について固定ではなく、感情
程度変化システム１０を利用して変数パラメータＶＰと
なる。

【００６４】例えば、「喜び（happiness）」の感情に
おける平均ピッチの特徴の場合、標準パラメータ値であ
る４００（Ｈｚ）は、そのパラメータについて式（１）
のＥｉの値となる。そして先ず決定ステップにおいて、
ｉ）より喜びの表現が強くなるように、この値の方向
（増加／減少）が変更される。その後のステップでは、
ii）この強度を有効に増加させるために、この方向でど
の程度までパラメータを変化させればよいかが決定され
る。この限界値は、式（１）におけるＥｉｍａｘであ
る。このようにして、その特徴の変数パラメータのスケ
ールを変化させるために必要な全ての情報が得られる。
同様の処理が感情程度変化システム１０によってパラメ
ータが変数パラメータＶＰとされた他の全ての特徴につ
いて行われる。

【００６５】第２の例。意味を持った言葉又は意味を持
たない音に対応する中立的な入力音声データに対して感
情内容を付加し、処理後の音声データが再生されたとき
にその感情を感じさせるシステム。

【００６６】この例は、本件出願人が先に提案し、本件
出願の優先権主張の基礎とされている２００１年７月１
３日付けの欧州特許出願第01 401 880.8号「音声による
感情合成方法及び装置」の内容に基づくものである。

【００６７】このシステムは、感情シミュレーションア
ルゴリズムシステムからなり、Ｆｉｇ.１の場合と同様
に、音声データを受け取るための入力端子と、同じフォ
ーマットであるが伝達する感情に従ってデータ値が変更
された音声データを出力するための出力端子とを有す
る。このため、このシステムは、音声データのソースと
音声データ再生装置、例えばインターポレータ（interp
olator）及び合成器との間にユーザが意識しないような
形で（transparent manner）連続して配置することがで
きる。

【００６８】データ値の変更は、変更するデータ値に適
用されるオペレータによってなされる。典型的には、音
声データはデータ要素が連続したものであり、各データ
要素が例えば合成器で再生される音節又は音素に対応す
る。このデータ要素により、例えば音声要素の継続時間
長と、その継続時間内に存在する一又は複数のピッチの
値が特定される。また、データ要素によって再生する音
節が指定されることもあり、そのデータ要素にアクセン
トを置くか否かの指示を関連付けることもできる。例え
ば、“ｂｅ”という音節のデータ要素は、“ｂｅ：１０
０，Ｐ１，Ｐ２，Ｐ３，Ｐ４，Ｐ５”というようなデー
タ構造を有する。ここで、最初の数字１００は、継続時
間長をミリ秒で表したものである。また、それに続く５
つの値（Ｐ１−Ｐ５で記号化されている）は、その継続
時間内の５つの連続した区間におけるピッチの値（Ｆ
０）を表したものである。

【００６９】なお、このシステムの異なったタイプのオ
ペレータを適用すれば、適用されたデータ要素に異なっ
た変更が施される。

【００７０】ここで、Ｆｉｇ.３は、感情シミュレーシ
ョンアルゴリズムシステムを上述した感情合成器２６と
どのように統合し、強度の変化する感情が付加された音
声データを生成するかを機能的に示すブロック図であ
る。

【００７１】感情シミュレーションアルゴリズムシステ
ム２６は、発声データファイル２８から読み出された音
節データに対して、選択的にオペレータＯを適用する。
ここで、これらのオペレータは、そのタイプに従って、
ピッチデータ（ピッチオペレータ）又は音節の継続時間
長データ（継続時間長オペレータ）を変更することがで
きる。なお、これらの変更は、インターポレータ３０の
前段、例えばデコーダ３２の手前で行われる。これによ
り、オペレータによって変更された値に基づいて補間処
理が行われることになる。後述するが、この変更は、中
立的な発話文を、選択された感情（悲しみ、平静、喜
び、怒り）を選択された程度伝えるような発話文に変化
させるものである。

【００７２】基本的なオペレータは、オペレータセット
ライブラリ３４に格納されており、オペレータセット構
成ユニット３６によって選択的にアクセスされる。オペ
レータセット構成ユニット３６は、現在の要求に従って
オペレータを準備し、パラメータ化する。この目的のた
めにオペレータパラメータ化ユニット３８が設けられ、
後述するように、オペレータのパラメータ化を、ｉ）発
話文に付加する感情（平静、悲しみ、喜び、怒りな
ど）、ii）場合によってはその感情の程度（又は強度）
と、iii）その音節の内容との両方に従ってオペレータ
のパラメータ化を決定する。ＦＩＧ.２に示した実施例
を実現するために、このオペレータパラメータ化ユニッ
ト３８は、感情程度変化システム１０の変数パラメータ
生成ユニット１６及びメモリ１４を含んでいる。

【００７３】感情とその感情の程度とは、ユーザＵのア
クセス可能な入力を示す感情選択インターフェース４０
によってオペレータパラメータ化ユニット３８に指示さ
れる。実施例を実現するために、このユーザインターフ
ェースは、感情程度選択ユニット１８（ＦＩＧ.２参
照）と、身体的又は電気的にユーザと置換可能な装置で
あるポインタ２２とを有している。したがって、インタ
ーフェース４０で問題となるコマンドは変数δである。
この感情選択インターフェース４０は、画面上のメニュ
ーやアイコンを有し、必要な感情特徴全てと、他のオペ
レータに関するパラメータとをユーザＵに示すコンピュ
ータインターフェースとすることができる。

【００７４】本具体例では、オペレータによって影響さ
れる音節の内容は、ｉ）あるオペレータはフレーズの最
初と最後の音節にしか適用されないなど、フレーズ内で
の音節の位置、ii）その音節が有意味語の文章に関係す
るか、無意味な音声（幼児語など）に関係するか、そし
て、iii）ある状況下では、考慮している音節が発声デ
ータファイル２８においてアクセントを置くことが許さ
れているか否か、というものである。

【００７５】このため、最初／最後音節検出ユニット４
２と、音節アクセント検出ユニット４４とが設けられて
いる。この両者とも、発声データファイル２８にアクセ
スすることができ、オペレータパラメータ化ユニット３
８に適切な内容依存パラメータを伝える。

【００７６】詳細は後述するが、アクセントの置かれる
音節（“アクセント可能な（accentuable）”音節）に
対して特異的に適用されるオペレータセットが存在す
る。これらのオペレータは、全てのアクセント可能な音
節に対して適用されるのではなく、候補となる音節から
ランダムに選択された音節に対してのみ適用される。な
お、候補となる音節は、発声データに依存する。すなわ
ち、もし発声データにどの音節がアクセント可能かとい
う情報が含まれているならば、候補となる音節は、これ
らのアクセント可能な音節の中からのみ選ばれる。通常
これは、自然な発生とするために一部の音節にアクセン
トが置かれない有意味語の場合に該当する。一方、発声
データにそのような情報が含まれていない場合には、全
ての音節がランダム選択の候補となる。通常これは、無
意味語の場合に該当する。

【００７７】このランダムな選択は、音節アクセントユ
ニット４４とオペレータパラメータ化ユニット３８との
間に接続された確率制御可能なランダム選択ユニット４
６によって行われる。このランダム選択ユニット３８
は、候補から音節を選択するための制御可能な確率値を
有している。具体的には、ある候補が選択される確率を
Ｎとし、Ｎが０から１の範囲をとるとすれば、Ｐ個の候
補音節について平均でＮ・Ｐ個の音節が選択され、ラン
ダムなアクセント化に関連する特定のオペレータセット
に委ねられる。なお、このランダムに選択された候補の
分布は、基本的に一連の音節に亘って一定である。

【００７８】ここで、オペレータセット構成ユニット２
６からの適切に構成されたオペレータセットは、音節デ
ータ変更ユニット４８に送られる。音節データ変更ユニ
ット４８では、このオペレータセットによって音節デー
タが処理される。このため、音節データ変更ユニット４
８は、発声データファイル２８から音節データを直接受
け取る。このようにして受け取られた音節データは、オ
ペレータセットの機能により、音節データ変更ユニット
４８において特にそのピッチと継続時間長とが変更され
る。得られた変更音節データ（新たな音節データ）は、
発声データファイルにおける構成と同様の構成で音節デ
ータ変更ユニット４８からデコーダ３２に供給される。
これにより、デコーダは、発声データファイルから直接
得られたかのように、新たな音節データを扱うことがで
きる。その後、新たな音節データは、補間され（インタ
ーポレータ３０）、音響周波数音声処理器、音響増幅
器、スピーカによって処理される。しかしながら、スピ
ーカから発せられる音声は中立的なものではなく、寧ろ
ユーザＵによって定義された感情をシミュレートする音
声に対応する。

【００７９】なお、上述した全ての機能ユニットは、逐
次制御ユニット（operations sequencer unit）５０に
よって全体的に制御される。この逐次制御ユニット５０
は、所定の規則に従って、感情合成処理の実行を完全に
制御する。

【００８０】Ｆｉｇ.４は、音声データで特定された合
成音声要素のピッチ曲線に対して、ピッチオペレータセ
ットＯＰを適用した効果を図示したものである。この図
では、ピッチオペレータを適用する前と後のピッチ曲線
（時間ｔに対する基本周波数ｆ）を、各オペレータにつ
いてそれぞれ左の列と右の列に示している。この例で
は、入力したピッチ曲線は全てのオペレータについて同
一で、比較的平坦なものとなっている。

【００８１】図示されたセットには以下のように４つの
オペレータが存在する（図の上から下に対応する）。 −“登り坂”ピッチオペレータＯＰｒｓは、どのような
ピッチ曲線に対しても時間的に上昇させる。すなわち、
元のピッチ輪郭での周波数が時間と共に上昇する。 −“下り坂”ピッチオペレータＯＰｆｓは、どのような
ピッチ曲線に対しても時間的に下降させる。すなわち、
元のピッチ輪郭での周波数が時間と共に下降する。 −“シフトアップ”ピッチオペレータＯＰｓｕは、どの
ようなピッチ曲線に対しても元の周波数を一様に上にシ
フトさせる。そのシフトは任意の時間で同じであるた
め、ピッチ輪郭は、元の周波数軸から単純に下降する。 −“シフトダウン”ピッチオペレータＯＰｓｄは、どの
ようなピッチ曲線に対しても元の周波数を一様に下にシ
フトさせる。そのシフトは任意の時間で同じであるた
め、ピッチ輪郭は、元の周波数軸から単純に上昇する。

【００８２】実施例では、登り坂オペレータＯＰｒｓ及
び下り坂オペレータＯＰｆｓは、以下のような特徴を有
する。すなわち、時間的に中心の位置（継続時間長ｔ１
については１／２ｔ１）でのピッチは、オペレータを適
用する前後で変化しない。言い換えれば、そのオペレー
タは、時間的に中心の位置でのピッチの値を中心とし
て、所望の勾配になるように入力したピッチ曲線を回転
させる。つまり、登り坂オペレータＯＰｒｓの場合に
は、図示のように、時間的な中心位置よりも前のピッチ
の値が事実上下降する。一方、下り坂オペレータＯＰｆ
ｓの場合には、図示のように、時間的な中心位置よりも
前のピッチの値が事実上上昇する。

【００８３】また、ＯＩで示される強度オペレータを追
加的に設けてもよい。このオペレータの効果をＦｉｇ.
５に示す。このＦｉｇ.５は、Ｆｉｇ.４に直接対応する
ものである。このオペレータも４つ存在し、時間ｔに対
する強度Ｉの曲線に対して作用する他は、ピッチオペレ
ータＯＰに対応する。したがって、簡単のために各オペ
レータについての詳細な説明は省略する。

【００８４】ピッチオペレータ及び強度オペレータは、
それぞれ以下のようにパラメータ化される。 −登り坂又は下り坂オペレータ（OPrs、OPfs、OIrs、OI
fs）の場合：入力した輪郭に施される坂（スロープ）の
勾配。スロープは、規格化されたスロープ値で表現する
ことができる。例えば、０はスロープを形成しない場合
に対応する。この場合、オペレータは、入力に対して何
も作用しない（このようなオペレータを中立化された
（neutralised）、或いは中立の（neutral）オペレータ
という）。この対極として、最大値ｍａｘでは入力した
曲線の勾配が無限となる。すなわち、殆ど垂直に上昇或
いは下降する。この両極の間の任意のパラメータ値が、
入力した曲線に対して所望のスロープを形成するために
対応付けられる。 −シフトオペレータ（OPsu、OPsd、OIsu、OIsd）の場
合：入力した輪郭に対する、基本周波数（ピッチについ
て）又は強度の絶対値で示すシフトアップ又はシフトダ
ウンの量。対応するパラメータは、ピッチ軸又は強度軸
での増加単位又は減少単位とすることができる。

【００８５】Ｆｉｇ.６は、音節の継続時間長（又は時
間）に対してオペレータＯＤを適用した効果を図示した
ものである。この図では、継続時間長オペレータを適用
する前と後の音節の継続時間長（水平な線が時間ｔ１の
長さを表す）をそれぞれ左の列と右の列に示している。

【００８６】この継続時間長オペレータは、以下のよう
なものとすることができる。 −音節の継続時間長を長くする延長オペレータ。その増
加量は、パラメータＤ（正のＤパラメータという）で表
される。例えば、継続時間長の初期値がミリ秒で表され
ている場合には、Ｄを単に初期値に加える継続時間長の
ミリ秒数とすることができる。これにより、オペレータ
は、当該音節の継続時間長ｔ１に値Ｄを加えるのみでよ
い。この結果、インターポレータ３０及びその後段にお
けるデータ処理により、その音節は、伸びたように発音
される。 −音節の継続時間長を長くする短縮オペレータ。その減
少量は、同じパラメータＤで表される（但し、この場合
は負のパラメータである）。例えば、継続時間長の初期
値がミリ秒で表されている場合には、Ｄを単に初期値か
ら引く継続時間長のミリ秒数とすることができる。これ
により、オペレータは、当該音節の継続時間長ｔ１から
値Ｄを引くのみでよい。この結果、インターポレータ３
０及びその後段におけるデータ処理により、その音節
は、縮まったように（短くなったように）発音される。

【００８７】このオペレータも、パラメータＤとして０
を挿入することで、中立化し、又は中立のパラメータと
することができる。

【００８８】なお、継続時間長パラメータは、延長と短
縮との２種類あるものとして示したが、その違いはパラ
メータＤの前がプラスかマイナスかの違いのみであるこ
とは明らかである。したがって、正の数と負の数とを取
り得る場合には、同じオペレータメカニズムで両方のオ
ペレータ（延長及び短縮）の機能を得ることができる。

【００８９】また、Ｄの取り得る値及び可能な変化量の
範囲は、要求に従って選択することができる。

【００９０】以下では、オペレータＯＰ、ＯＩ、ＯＤの
パラメータ表示として、特定のオペレータの最後の文字
にそれぞれのオペレータ特有の接尾辞を付けた変数によ
り表現する。すなわち、Ｐｒｓは、登り坂ピッチオペレ
ータＯＰｒｓの正のスロープ値であり、Ｐｆｓは、下り
坂ピッチオペレータＯＰｆｓの負のスロープ値である。
また、Ｐｓｕは、シフトアップピッチオペレータＯＰｓ
ｕの上方シフト量の値であり、Ｐｓｄは、シフトダウン
ピッチオペレータＯＰｓｄの下方シフト量の値である。
さらに、Ｉｒｓは、登り坂強度オペレータＯＩｒｓの正
のスロープ値であり、Ｉｆｓは、下り坂強度オペレータ
ＯＩｆｓの負のスロープ値である。さらにまた、Ｉｓｕ
は、シフトアップ強度オペレータＯＩｓｕの上方シフト
量の値であり、Ｉｓｄは、シフトダウン強度オペレータ
ＯＩｓｄの下方シフト量の値である。また、Ｄｄは、継
続時間長延長オペレータＯＤｄの加算時間の値であり、
Ｄｃは、継続時間長短縮オペレータＯＤｃの減算（短
縮）時間の値である。

【００９１】実施例では、さらに細かいオペレータを用
いることでランダム選択ユニット４６における確率Ｎを
定める。この値は、０（選択される確率がない）から１
（確実に選択される）までの範囲から選ばれる。この値
Ｎによって、再生する感情の性質にとって適切なものと
なるように、出力音声においてアクセントの置かれる音
節の密度が制御される。

【００９２】また、本具体例では、ＯＰ、ＯＩ、ＯＤ及
びＮをパラメータ化したそれぞれの値又は選択された値
は、Ｆｉｇ.２を参照して説明したように、変数パラメ
ータ生成ユニット１６がメモリ１４及び感情程度選択ユ
ニット１８と協調して動作することにより、可変とされ
る。したがって、与えられた変数パラメータＶＰｉは、
上述のように定義したパラメータ値、すなわちＰｒｓ、
Ｐｆｓ、Ｐｓｕ、Ｐｓｄ、Ｉｒｓ、Ｉｆｓ、Ｉｓｕ、Ｉ
ｓｄ、Ｄｄ、Ｄｃの少なくとも１つが変数とされたもの
に対応する。なお、これらの値で変数とされる数及びそ
の選択は、ユーザインターフェース４０で選択可能であ
る。

【００９３】ここで、Ｆｉｇ.７Ａ，７Ｂは、Ｆｉｇ.３
に示すようなシステムに基づいて、音節データに対して
選択的に上述のオペレータを構成し適用する手順のフロ
ーチャートを示したものである。なお、Ｆｉｇ.７Ｂ
は、７Ａの続きである。

【００９４】先ず、発声データファイル２８からの入力
音節データのロードを含む初期化フェーズＰ１から開始
される（ステップＳ２）。

【００９５】次に、インターフェース４０を用いて、フ
レーズ又はパッセージによって伝える感情がロードされ
る（ステップＳ４）。このフレーズ又はパッセージは、
ロードされた音節データによってその一部が構成されて
いる。ここで、感情は、例えば「平静（calm）」、「悲
しみ（sad）」、「喜び（happy）」、「怒り（angr
y）」などである。さらにインターフェースは、例えば
重み値を設定することによる感情の程度を入力する（ス
テップＳ６）。この重み値は、変数パラメータ値ＶＰｉ
の標準値Ｐｉ（＝Ｅｉ）からの変位（excursion）とし
て表現でき、Ｆｉｇ.２を参照して説明したように変数
δで定義される。

【００９６】そしてシステムはユニバーサルオペレータ
フェーズＰ２に進む。このフェーズＰ２では、全ての音
節に対して一律にユニバーサルオペレータセットＯＳ
(Ｕ)が適用される。ここで、このユニバーサルオペレー
タセットＯＳ(Ｕ)は、Ｆｉｇ.４，６に示す全てのオペ
レータ、すなわち４つのピッチオペレータを構成するＯ
Ｐｒｓ、ＯＰｆｓ、ＯＰｓｕ、ＯＰｓｄと２つの継続時
間長オペレータを構成するＯＤｄ、ＯＤｃを含む。オペ
レータセットＯＳ(Ｕ)の各オペレータは、それぞれに対
応する値で、すなわち上述したようにそれぞれＰｒｓ
（Ｕ）、Ｐｆｓ（Ｕ）、Ｐｓｕ（Ｕ）、Ｐｓｄ（Ｕ）、
Ｄｄ（Ｕ）及びＤｃ（Ｕ）でパラメータ化される（ステ
ップＳ８）。このステップは、これらのパラメータに数
値を割り当てることも含み、オペレータセット構成ユニ
ット２６によって実行される。なお、オペレータセット
ＯＳ(Ｕ)についてのパラメータ値は、プログラムされた
感情及びその性質、並びに状況に応じた他の要素の機能
として、オペレータパラメータ化ユニット８によって選
択される。本具体例では、これらの各パラメータは、変
数δによって変数とされ、それぞれＶＰｒｓ（Ｕ）、Ｖ
Ｐｆｓ（Ｕ）、ＶＰｓｕ（Ｕ）、ＶＰｓｄ（Ｕ）、ＶＤ
ｄ（Ｕ）及びＶＤｃ（Ｕ）で示される（以下では、この
ようにして変数δによって変数とされた全てのパラメー
タ値、又はオペレータ／オペレータセットを、一般的に
最初の文字としてＶを加えることにより特定する）。

【００９７】続いて、フレーズ或いはフレーズ群の全て
の音節に対して一律にユニバーサルオペレータセットＶ
ＯＳ(Ｕ)が適用される（ステップＳ１０）。これは、そ
の音節データの数値ｔ１、Ｐ１−Ｐ５を変更する処理を
含む。ここでピッチオペレータについて説明すると、坂
パラメータＶＰｒｓ及びＶＰｆｓは、５つの異なる値に
変換され、それぞれ値Ｐ１−Ｐ５に対して算術的に当て
はめられる。これらの異なる値は、Ｐ１−Ｐ５の各値を
動かすように選択される。但し、中間の値Ｐ３は、上述
したように基本的には変化しない。例えば、登り坂パラ
メータの最初の２つの値は、ピッチの前半を下降させる
ために負の値となり、最後の２つの値は、ピッチの後半
を上昇させるために正の値となる。これにより、Ｆｉ
ｇ.６に示すように、中間の時間において登り坂調子の
発声が生成される。なお、パラメータを構成する傾きの
程度は、これらの異なった値により表現される。これと
逆ではあるが同様のアプローチが、下り坂オペレータに
対しても適用可能である。

【００９８】ここで、シフトアップオペレータ又はシフ
トダウンオペレータは、坂オペレータを適用する前又は
後の何れで適用しても構わない。これらのオペレータ
は、５つのピッチの値Ｐ１−Ｐ５に対して、パラメータ
で規定される値を単純に加算し、又は減算する。なお、
オペレータは、排他的な対を形成する。すなわち、下り
坂オペレータが適用されている場合には登り坂オペレー
タは適用されない。シフトアップオペレータ、シフトダ
ウンオペレータ及び継続時間長オペレータについても同
様である。

【００９９】オペレータの適用（すなわち、データパラ
メータｔ１、Ｐ１−Ｐ５の変更計算）は、音節データ変
更ユニット４８によって行われる。

【０１００】音節に対してユニバーサルオペレータセッ
トＶＯＳ(Ｕ)が適用された後、さらなる処理が必要であ
れば、その音節は一時的に保持される。

【０１０１】次にシステムは確率的なアクセント化フェ
ーズＰ２に進む。このフェーズＰ２では、別のオペレー
タアクセント化パラメータセットＶＯＳ(ＰＡ)が準備さ
れる。このオペレータセットは、ユニバーサルオペレー
タセットと同様のものであるが、パラメータとして別の
値を有する。ユニバーサルオペレータセットでの取り決
めを用いると、オペレータセットＶＯＳ(ＰＡ)は、それ
ぞれ対応する値、すなわちＶＰｒｓ（ＰＡ）、ＶＰｆｓ
（ＰＡ）、ＶＰｓｕ（ＰＡ）、ＶＰｓｄ（ＰＡ）、ＶＤ
ｄ（ＰＡ）、ＶＤｃ（ＰＡ）でパラメータ化される。こ
れらのパラメータ値は、感情及びその感情の程度、並び
にインターフェース４０から供給されたその他の要素の
機能として、オペレータパラメータ化ユニット３８によ
って同様に計算される。このパラメータは、一般的に、
意図している感情に従って発話文に対してある種のイン
トネーション（韻律）を与えるために選択される。ま
た、確率的アクセント化オペレータセットＶＯＳ(ＰＡ)
のさらなるパラメータは、先に定義した確率Ｎであり、
変数δによって変数（ＶＮ）とされる。この値は、感情
及びその感情の程度の他、例えばその音節ファイルの性
質によって変化する。

【０１０２】パラメータが得られると、それらのパラメ
ータは、オペレータセット構成ユニット２６に供給さ
れ、確率的アクセント化パラメータセットＶＯＳ(ＰＡ)
が完全に構成される（ステップＳ１２）。

【０１０３】次に、このオペレータセットＶＯＳ(ＰＡ)
をどの音節に対して適用するかがランダム選択ユニット
４６で決定される（ステップＳ１４）。ランダム選択ユ
ニット４６は、このオペレータセットでアクセント化す
るランダムに選ばれた音節のリストを有している。上述
したように、候補となる音節は、 −無意味語であるか、又はアクセントを置くことが禁止
されている音節がない場合には全ての音節、又は −ファイルで特定されている場合には、許されている
（アクセント可能な）音節である。通常これは、有意味
語の場合に該当する。

【０１０４】候補からランダムに選択された音節は、音
節データ変更ユニット４８によって、確率的アクセント
化オペレータセットＶＯＳ(ＰＡ)で処理される（ステッ
プＳ１６）。実際の処理は、含まれるパラメータ値が異
なる他は、上述したユニバーサルオペレータセットと技
術思想として同様である。

【０１０５】ここで、確率的アクセント化オペレータセ
ットＶＯＳ(ＰＡ)は、既にユニバーサルオペレータセッ
トＶＯＳ(Ｕ)の適用された音節に対して適用される。こ
のことは、ステップＳ１４で既に選択されたファイルの
音節データアイテムＳｉについて、数学的には、VOS(P
A).VOS(U).Si→Sipaccと表される。ここで、Sipaccは、
音節にアクセントが置かれた結果のデータを示す。

【０１０６】そして、音節データ変更ユニット４８で
は、発声データファイル２８に含まれるフレーズの最初
と最後の単語を除く全ての音節について、以下のように
変更された音節データを生成する。 −VOS(U).S→Spna：ステップＳ１４で選択されていない
音節データの場合。ここで、Spnaは処理後のアクセント
の置かれていない音節を示す。 −VOS(PA).VOS(U).S→Spacc：ステップＳ１４で選択さ
れた音節データの場合。ここで、Spaccは処理後のアク
セントの置かれた音節を示す。

【０１０７】最後に、フレーズの最初と最後の音節に対
してのみアクセント化処理を行うフェーズＰ４に進む。
ここで、フレーズが有意味語で構成されている場合、こ
のフェーズＰ４では、フレーズ内の最初と最後の単語の
全ての音節にアクセントが置かれる。なお、フレーズと
は、意味を有する文の通常の文法的な意味によって、す
なわち話すときの間（ポーズ）によって決まるものであ
る。これに対して、無意味語の場合、フレーズとは、間
（ポーズ）で特徴付けられる発声の最初と最後とによっ
て決まるものである。典型的には、このようなフレーズ
は、約１秒間乃至３，４秒間続く。一方、無意味語の場
合、このフェーズＰ４では、少なくとも最初と最後の音
節、好ましくは最初のｍ個と最後のｎ個の音節にアクセ
ントが置かれる。ここで、ｍ及びｎは、約２又は３であ
り、同じ値であっても異なる値であってもよい。

【０１０８】そして、以前のフェーズと同様に、オペレ
ータＶＯＰｒｓ、ＶＯＰｆｓ、ＶＯＰｓｕ、ＶＯＰｓ
ｄ、ＶＯＤｄ、ＶＯＤｃの特定のパラメータで処理され
る。このオペレータは、最初と最後の音節アクセント化
オペレータセットＶＯＳ(ＦＬ)に含まれ、それぞれ対応
する値、すなわちＶＰｒｓ（ＦＬ）、ＶＰｆｓ（Ｆ
Ｌ）、ＶＰｓｕ（ＦＬ）、ＶＰｓｄ（ＦＬ）、ＶＤｄ
（ＦＬ）、ＶＤｃ（ＦＬ）でパラメータ化される（ステ
ップＳ１８）。これらのパラメータ値は、感情及びその
感情の程度、並びにインターフェース３０から供給され
たその他の要素の機能として、オペレータパラメータ化
ユニット２８によって同様に計算される。

【０１０９】続いて、得られたオペレータセットＶＯＳ
(ＦＬ)がフレーズ毎に最初と最後の音節に対して適用さ
れる（ステップＳ２０）。これらの音節は、最初／最後
音節検出ユニット３４によって特定される。

【０１１０】ここで、オペレータセットＶＯＳ(ＦＬ)が
適用された音節データの中には、ステップＳ１０におい
てユニバーサルオペレータセットＶＯＳ(Ｕ)が適用され
たものが存在する可能性がある。さらに、最初と最後の
音節がステップＳ１４のランダム選択で選ばれ、確率的
アクセント化オペレータセットＶＯＳ(ＰＡ)が適用され
た可能性もある。

【０１１１】したがって、最初と最後の音節を処理する
場合には、以下に示すような２通りの可能性が考えられ
る。なお、以下の記号は上述と同様である。 −第１の可能性：先ずオペレータセットＶＯＳ(Ｕ)で処
理し、次にオペレータセットＶＯＳ(ＦＬ)で処理する。
すなわち、VOS(FL).VOS(U).S→Spfl(1)。 −第２の可能性：オペレータセットＶＯＳ(Ｕ)、ＶＯＳ
(ＰＡ)、ＶＯＳ(ＦＬ)で連続的に処理する。すなわち、
VOS(FL).VOS(PA).VOS(U).S→Spfl(2)。

【０１１２】この簡便なオペレータベースのアプローチ
によって、無意味語と有意味語の双方において、より複
雑なシステムと少なくとも比較し得る程度の結果が得ら
れている。

【０１１３】ところで、所望の感情を表現するためのパ
ラメータの選択は、非常に受動的なものであり、発声方
法や言語等によって大きく異なる。しかしながら、リア
ルタイム処理にあまり時間のかからない簡単且つ洗練さ
れたパラメータを有しているため、多くのパラメータの
組み合わせを試し、最も満足のいくオペレータセットを
見つけることも容易である。

【０１１４】また、生成された感情の程度を制御する本
発明に従って、与えられた感情に関連するそれぞれのパ
ラメータについて、パラメータ値の変化範囲を固定する
ことも可能である。

【０１１５】一例として、本件出願人は、以下のような
パラメータによってよい結果が得られることを発見し
た。 −悲しみ（Sad）：ユニバーサルオペレータセットのピ
ッチ＝傾きの小さい下り坂継続時間長オペレータ＝延長アクセント化の選択確率Ｎ＝低い −平静（Calm）：オペレータセットを適用しないか、又
は僅かにパラメータ化されたオペレータセットを適用す
る −喜び（Happy）：ユニバーサルオペレータセットのピ
ッチ＝適度に傾きの大きい登り坂ユニバーサルオペレータセットの継続時間長＝短縮アクセント化オペレータセットの継続時間長＝延長 −怒り（Angry）：全てのオペレータセットのピッチ＝
適度に傾きの大きい下り坂全てのオペレータセットの継続時間長＝短縮

【０１１６】この例で特定していないオペレータセット
については、全てのオペレータセットに対して、一般的
なタイプのパラメータを用いることができる。一般的に
言えば、変化のタイプ（登り坂、短縮など）は、全ての
オペレータセットで同様であり、実際の値のみが異な
る。通常、ユニバーサルオペレータセットは、変化が最
小となるようにこの値を選択し、最初と最後の音節アク
セント化オペレータは、変化が最大となるようにこの値
を選択する。そして、確率的アクセントかオペレータセ
ットのピッチは、中程度の変化を生じさせる。

【０１１７】なお、このシステムでは、用いられている
パラメータに応じて、強度オペレータＯＩをオペレータ
セットに用いることもできる。

【０１１８】また、インターフェース４０は、他の制御
を行うためにコンピュータインターフェースに統合する
こともできる。そして、ユーザＵにシステムを調整可能
とするために、ここから上述した様々なオペレータセッ
トのパラメータを直接選択可能とすることもできる。こ
のインターフェースは、例えば様々なパラメータについ
ての傾きの値やシフトの値、或いは短縮／延長の値を視
覚的に表示することで、ユーザフレンドリーなものとな
る。

【０１１９】さらに、本発明は、多様なタイプの感情合
成システムをカバーすることができる。合成システムに
最適なものは音声又は音響により感情を伝達するもので
あるが、本発明は、他の形態で、例えば顔、体の表現や
映像効果等といった、パラメータが伝達する感情を反映
するような物体の動きで感情を伝達するシステムにも適
用可能である。

【図面の簡単な説明】

【図１】Ｆｉｇ．１は、従来の中立的な音声データを変
換するタイプの感情シミュレーションアルゴリズムシス
テムを説明する図である。

【図２】Ｆｉｇ．２は、本発明の好ましい実施例におけ
る感情程度変化システムを説明するブロック図である。

【図３】Ｆｉｇ．３は、Ｆｉｇ．２の感情程度変化シス
テムが実装されたオペレータベースの感情生成システム
の一例を説明するブロック図である。

【図４】Ｆｉｇ．４は、Ｆｉｇ．３のシステムで用いら
れるピッチオペレータを概略的に示す図である。

【図５】Ｆｉｇ．５は、Ｆｉｇ．３のシステムで追加的
に用いられる強度オペレータを概略的に示す図である。

【図６】Ｆｉｇ．６は、Ｆｉｇ．３のシステムで用いら
れる継続時間長オペレータを概略的に示す図である。

【図７】Ｆｉｇ．７Ａは、Ｆｉｇ．３のシステムにより
音節データに対して施される感情生成処理を説明するフ
ローチャートである。

【図８】Ｆｉｇ．７Ｂは、Ｆｉｇ．３のシステムにより
音節データに対して施される感情生成処理を説明するフ
ローチャートであり、Ｆｉｇ．７Ａの続きである。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 2C150 BA11 CA01 CA02 CA04 DF03 DF04 DF06 DF33 EF16 EF17 EF29 5D045 AA07

Claims

【特許請求の範囲】

【請求項１】少なくとも１つの入力パラメータ（Ｐ
ｉ）を有し、その値（Ｅｉ）により伝達する感情タイプ
が設定される感情合成装置（２；１２）の処理を制御す
る方法であって、少なくとも１つの上記パラメータを所定の制御範囲に亘
る変数パラメータ（ＶＰｉ）とし、伝達する上記感情タ
イプの程度を変化させるステップを有することを特徴と
する前記方法。
【請求項２】請求項１記載の方法において、音声により伝達される感情を合成する際に用いられるこ
とを特徴とする前記方法。
【請求項３】請求項１又は請求項２記載の方法におい
て、上記少なくとも１つの変数パラメータは、上記制御範囲
に亘る局所モデルに従って可変とされ、上記局所モデルは、感情程度制御変数（δ）と上記変数
パラメータ（ＶＰｉ）とを関連付けるものであり、上記感情程度制御変数は、上記変数パラメータの値を可
変に生成するために用いられることを特徴とする前記方
法。
【請求項４】請求項３記載の方法において、上記局所モデルは、上記制御範囲及び与えられた感情タ
イプについての局所線形モデルであり、上記感情程度制
御変数（δ）によって上記変数パラメータ（ＶＰｉ）が
上記制御範囲に亘って変化させられることを特徴とする
前記方法。
【請求項５】請求項１乃至請求項４のいずれか１項記
載の方法において、上記感情程度は、以下の式で示される関係に従って上記
変数パラメータ（ＶＰｉ）を変更する制御変数（δ）に
よって決定されることを特徴とする前記方法。ＶＰｉ＝Ａ＋δ・Ｂここで、ＶＰｉは、当該変数パラメータの値を示し、Ａ及びＢは、制御範囲内の値を示し、 δは、感情程度制御変数を示す。
【請求項６】請求項５記載の方法において、Ａは、上記制御範囲内の値であり、上記感情程度制御変数（δ）は、値０を含む区間内で可
変とされていることを特徴とする前記方法。
【請求項７】請求項６記載の方法において、Ａは、上記制御範囲の中間値（Ｅｍｒ）であり、上記感情程度制御変数（δ）は、中間値が０となる区間
内で可変とされていることを特徴とする前記方法。
【請求項８】請求項７記載の方法において、上記感情程度制御変数（δ）は、−１から１までの区間
内で可変とされていることを特徴とする前記方法。
【請求項９】請求項５乃至請求項８のいずれか１項記
載の方法において、Ｂは、Ｂ＝（Ｅｉｍａｘ−Ａ）又はＢ＝（Ｅｉｍｉｎ＋
Ａ）で求められ、Ｅｉｍａｘは、上記制御範囲内で伝達される感情タイプ
の程度が最大となる入力パラメータの値であり、Ｅｉｍｉｎは、上記制御範囲内で伝達される感情タイプ
の程度が最小となる入力パラメータの値であることを特
徴とする前記方法。
【請求項１０】請求項５乃至請求項９のいずれか１項
記載の方法において、Ａは、伝達する感情タイプを設定するために予め特定さ
れた標準パラメータ値（Ｅｉ）と同値であることを特徴
とする前記方法。
【請求項１１】請求項９又は請求項１０記載の方法に
おいて、上記値Ｅｉｍａｘ又は上記値Ｅｉｍｉｎは、伝達する感
情タイプを設定するために予め特定された標準パラメー
タ値の変位によって、及び制御範囲で与えられる感情の
大きさに所望の制限を加えるために、増加方向又は減少
方向における最大の変更量を決定することによって、実
験的に決定されることを特徴とする前記方法。
【請求項１２】請求項１乃至請求項１１のいずれか１
項記載の方法において、上記感情合成装置（２；１２）の変数パラメータ（ＶＰ
１−ＶＰＮ）の過半数を集合的に生成するために、同じ
感情程度制御変数（δ）が用いられることを特徴とする
前記方法。
【請求項１３】少なくとも１つの入力パラメータ（Ｐ
ｉ）を有し、その値（Ｅｉ）により伝達する感情タイプ
が設定される感情合成システム（２；１２）の処理を制
御する装置であって、少なくとも１つの上記パラメータを所定の制御範囲に亘
る変数パラメータ（ＶＰｉ）とし、伝達する上記感情タ
イプの程度を変化させる変化手段（１４，１６，１８）
を備えることを特徴とする前記装置。
【請求項１４】請求項１３記載の装置において、上記変化手段（１４，１６，２０）は、上記変数パラメ
ータ（ＶＰｉ）の値を可変に生成するためにアクセス可
能とされている感情程度制御変数（δ）に従って、上記
少なくとも１つの変数パラメータ（ＶＰｉ）を変化させ
るために、アクセス可能とされていることを特徴とする
前記装置。
【請求項１５】請求項１４記載の装置において、上記変化手段（１４，１６，１８）は、種々の上記感情
程度制御変数（δ）による局所線形モデルに従って、上
記変数パラメータ（ＶＰｉ）を線形的に変化させること
を特徴とする前記装置。
【請求項１６】請求項１４又は請求項１５記載の装置
において、上記感情程度制御変数（δ）は、値０を含む区間内で可
変とされていることを特徴とする前記装置。
【請求項１７】請求項１６記載の装置において、上記感情程度制御変数（δ）は、−１から１までの区間
内で可変とされていることを特徴とする前記装置。
【請求項１８】請求項１３乃至請求項１７のいずれか
１項記載の装置において、上記変化手段（１４，１６，２０）は、上記感情程度制
御変数（δ）に応じて、以下の式に従って上記少なくと
も１つの変数パラメータ（ＶＰｉ）を変化させることを
特徴とする前記装置。ＶＰｉ＝Ｅｍｒ＋δ・（Ｅｉｍａｘ−Ｅｍｒ）、又はＶＰｉ＝Ｅｍｒ＋δ・（Ｅｉｍｉｎ＋Ｅｍｒ）ここで、 δは、感情程度制御変数の値を示し、Ｅｍｒは、上記制御範囲のほぼ中間の値、好ましくは伝
達する感情タイプを設定するために予め特定された標準
パラメータ値（Ｅｉ）と等しい値を示し、Ｅｉｍａｘは、上記制御範囲内で伝達される感情タイプ
の程度が最大となる入力パラメータの値を示し、Ｅｉｍｉｎは、上記制御範囲内で伝達される感情タイプ
の程度が最小となる入力パラメータの値を示す。
【請求項１９】請求項１３乃至請求項１８のいずれか
１項記載の装置において、上記変数パラメータを可変に生成するために、同じ感情
程度制御変数（δ）を用いて、上記感情合成システム
（２；１２）の変数パラメータ（ＶＰ１−ＶＰＮ）の過
半数を集合的に生成することを特徴とする前記装置。
【請求項２０】音声により伝達される感情を合成する
装置において感情程度を調整するために、請求項１３乃
至請求項１９のいずれか１項記載の装置を使用すること
を特徴とする使用方法。
【請求項２１】少なくとも１つのパラメータを受け取
るための少なくとも１つの入力端子を有し、そのパラメ
ータの値（Ｅｉ）が表現する感情タイプを設定するため
に用いられる感情合成装置と、上記変数（ＶＰｉ）を上記少なくとも１つの入力端子に
供給するように機能的に接続された請求項１３乃至請求
項１９のいずれか１項記載の装置（１０）とを備え、伝達する上記感情タイプの程度に変化をもたらすことを
特徴とするシステム。
【請求項２２】コンピュータによって実行可能な命令
を与えるコンピュータプログラムであって、当該コンピュータプログラムがデータプロセッサーにロ
ードされると、上記データプロセッサーは、請求項１乃
至請求項１２のいずれか１項記載の方法を実行すること
を特徴とする前記コンピュータプログラム。