JP2003084800A

JP2003084800A - 音声による感情合成方法及び装置

Info

Publication number: JP2003084800A
Application number: JP2002206012A
Authority: JP
Inventors: Pierre Yves Oudeyer; イブスオードイェピエール
Original assignee: Sony France SA
Current assignee: Sony France SA
Priority date: 2001-07-13
Filing date: 2002-07-15
Publication date: 2003-03-19
Also published as: US20030093280A1

Abstract

(57)【要約】（修正有）【課題】音声を発する前に、オペレータ適用ステップに
おいてその基本音声要素の少なくとも１つを選択的に変
更することで、音声により伝えられる感情を合成する。【解決手段】少なくとも１つのオペレータが少なくとも
１つの上記基本音声要素に対して適用され、合成する感
情に従ってその特徴に特定の変更が加えられる。このこ
とは、基本音声要素の強度特徴を変更するオペレータの
少なくとも１つ、及び／又は基本音声要素のピッチを設
定された勾配特徴に従って選択的に上昇又は下降させる
選択的に上昇若しくは下降させるオペレータ、及び／又
は基本音声要素のピッチを設定された値だけ一様に選択
的に上昇又は下降させるオペレータ、及び／又は基本音
声要素の継続時間長を設定された値だけ選択的に長くし
又は短くするオペレータを適用することで実現される。

Description

【発明の詳細な説明】

【０００１】本発明は、制御可能な感情内容を伴う音声
合成、或いは音声再生に関する。より詳細には、本発明
は、合成され若しくは収集された音声に対して制御可能
に感情表現を加える方法及び装置、又は会話その他の音
声を発する物体の話しぶりをより自然若しくは面白くす
ることに関する。

【０００２】人間の声が感情に大きく影響を受けること
はよく知られているが、それは意識的（例えば、怒りを
表現するために声を強める）な場合もあれば、感情若し
くはそれによって生じる口渇、呼吸パターンの変化など
に対する身体的な反応という無意識的な場合もある。こ
のような感情に由来する音声や話しぶりの変化というも
のは、話者によって伝えられる情報に受動的な次元を加
えると同時に、上手くコミュニケーションをとるために
有用なものである。

【０００３】ところで、人間や動物の行動を模して形成
されたペット型のロボット装置など、発話によりコミュ
ニケーションをとる、かつてない複雑なものが出現して
きて、そのコミュニケーションに感情表現を加えるため
の技術的手段に対する要求が高まってきている。実際
上、ロボット装置等における機能として発話に感情表現
を加えることは、人間との親密性を高めるために非常に
有効に働く。また、単に社交性の向上だけではなく、自
身の満足や不満足を示すことで人間を刺激し、その感情
表現に反応するように人間をし向けることができる。こ
のような機能は、学習機能を持つロボット装置において
は有効に作用する機能になる。

【０００４】また、発話に感情表現を加えることは、何
らかの理由により文字が読めない人のためにテキスト文
を読むようなコンピュータシステムにおいても有効であ
る。例えば、小説や雑誌の記事を読むようなシステムの
場合、読んでいる音声が感情をシミュレートしたもので
あれば、聞いているときの喜びを増進させることができ
る。

【０００５】ここで、従来、発話に感情を加えるために
３つのアプローチが知られている。

【０００６】１番目のアプローチは、イントネーション
を決定する言語学的な理論に基づくものであるが、最も
複雑であり、恐らく最も満足のいく結果が得られないも
のである。

【０００７】２番目は、人間が様々な感情を伴って発し
たフレーズを格納したデータベースを用いる。特定のフ
レーズを所望の感情内容で発する場合には、対応する感
情において最も近いフレーズがデータベースから選ばれ
る。そして、ピッチの輪郭（contour）が測定され、選
択されたフレーズを生成するためにコピーされる。この
アプローチは、主として、データベースと生成されたフ
レーズとが非常に類似した文法構造を有する場合に利用
することができるが、実施が困難でもある。

【０００８】３番目のアプローチは、録音された人間の
声からサンプルを抽出する音声合成器を利用するもので
あり、最も効果的と考えられている。この合成器は、所
望の発話文に対応する音声系列を再合成するために、人
間の声から得られた音素、或いは短い音節を連結する。
また、そのデータベースには、中立（neutral）な音声
のみならず、様々な感情で発せられた音声が格納されて
いる。しかしながら、そのシステムには２つの基本的な
制約がある。先ず第１に、そのシステムは実施が困難で
ある。そして第２に、そのデータベースは、実用上の理
由により通常様々な人間の声によって構成される。この
ことは、合成音は常に同じ発話者から発せられると聴取
者が考えている場合に欠点となり得る。

【０００９】この他、所定数のパラメータを制御可能と
する音声合成ソフトウェアも存在するが、閉じたアーキ
テクチャの範囲内であり、新しいアプリケーションを開
発することは困難である。

【００１０】そこで、以下に説明する本発明では、実施
が容易であり、納得のいく結果が得られ、パラメータ化
が容易な新たなアプローチを提案する。

【００１１】本発明では、単にパラメータを操作するの
みで、意味を持った理解可能な言葉で発せられた合成音
声に感情を伴わせて再生することができる。この音声
は、自然に聞こえる音声であっても、例えば漫画のキャ
ラクターや声を発する動物又は人間でない生物によって
発せられたような、非常に歪んだ誇張された音声であっ
てもよい。また、本発明は、例えば幼児語（babble）の
ような意味を持たない言葉に対して感情を付与する場合
にも適用可能である。

【００１２】より具体的には、本発明の第１の側面は、
音を発する前にその音を構成している要素の少なくとも
１つを選択的に変更することで、音に現れる感情を合成
する方法を提供するものである。

【００１３】ここで、上述の変更は、オペレータを適用
するステップで行われる。このステップでは、合成する
感情に従って、少なくとも１つのオペレータが少なくと
も１つの基本音声要素に対して選択的に適用され、その
ピッチや継続時間長といった特徴に特定の変更が加えら
れる。

【００１４】また、オペレータ適用ステップでは、少な
くとも１つのオペレータセットを構成することが好まし
い。このオペレータセットには、基本音声要素のピッチ
を変更するための少なくとも１つのオペレータ、及び／
又は基本音声要素の継続時間長を変更するための少なく
とも１つのオペレータが含まれる。

【００１５】さらに、オペレータ適用ステップでは、基
本音声要素の強さを変更する少なくとも１つのオペレー
タを適用することもできる。

【００１６】実施例では、少なくとも１つのオペレータ
を数値パラメータとしてパラメータ化するステップを有
しており、この数値パラメータにより、合成する感情に
応じてそのオペレータによって特定の変更を加える程度
が影響される。

【００１７】オペレータ変更ステップでは、以下に示す
ような、−時間経過に伴い、基本音声要素のピッチを設
定された勾配特徴に従って選択的に上昇又は下降させる
オペレータ、及び／又は−時間経過に伴い、基本音声要
素のピッチを設定された値だけ一様に選択的に上昇又は
下降させるオペレータ、及び／又は−基本音声要素の継
続時間長を設定された値だけ選択的に長くし、又は短く
するオペレータを適用することが好ましい。

【００１８】本発明の方法は、決められた音系列を構成
する基本音声要素の全てに対して、少なくとも１つのオ
ペレータを機械的に適用するというユニバーサルフェー
ズを有してもよい。

【００１９】このフェーズでは、少なくとも１つのオペ
レータが同じようにパラメータ化されて、決められた音
系列を構成する基本音声要素の全てに対して適用され
る。

【００２０】また、本発明の方法は、確率的アクセント
化フェーズを有してもよい。このフェーズでは、アクセ
ントを置くように選択された基本音声要素に対しての
み、少なくとも１つのオペレータが適用される。

【００２１】その基本音声要素は、候補となる基本音声
要素からランダムに選択することができ、好ましくはプ
ログラム可能な確率で基本音声要素を選択する。

【００２２】ここで、候補となる基本音声要素は、−基
本音声要素のソースが何れかの要素にアクセントを置く
ことを禁止していない場合には全ての基本音声要素、又
は−基本音声要素のソースが何れかの要素にアクセント
を置くことを禁止している場合には禁止されていない基
本音声要素である。

【００２３】この確率的なアクセント化段階において
も、上述した少なくとも１つのオペレータを同様にパラ
メータ化するようにしても構わない。

【００２４】また、本発明の方法は、最初と最後の基本
音声要素をアクセント化するフェーズを有してもよい。
このフェーズでは、上述の決められた音系列の最初と最
後を構成する少なくとも１つの基本音声要素から成る要
素群に対してのみ、少なくとも１つのオペレータが適用
される。なお、決められた音系列とは、例えばフレーズ
である。

【００２５】ここで、上述の基本音声要素は、音節又は
音素に対応する。

【００２６】また、上述の決められた音系列は、意味を
持つ発話文であっても意味を持たない発話文であっても
よい。

【００２７】さらに、上述の基本音声要素は、継続時間
長及び／又は少なくとも１つのピッチの値を特定するフ
ォーマット化されたデータ値として与えられる。ここ
で、ピッチの値は、上述した基本音声要素の特定部分、
或いは基本音声要素の全体に亘って存在する。

【００２８】この場合、上述のオペレータは、このデー
タ値を選択的に変更するように作用する。

【００２９】本発明の方法では、基本音声要素のデータ
フォーマットも変更されず、補間段階の前段における処
理も変更されない。補間段階では、合成する感情に従っ
て変更された基本音声要素と、任意のソースから得られ
た基本音声要素とが同様に扱われる。

【００３０】次に、本発明の第２の側面は、音を発する
前にその音を構成している要素の少なくとも１つを選択
的に変更する手段を備えることで音に現れる感情を合成
する装置を提供するものである。

【００３１】ここで、上述の変更手段は、オペレータを
適用する手段を有する。この手段は、合成する感情に合
わせて、少なくとも１つのオペレータを少なくとも１つ
の基本音声要素に対して選択的に適用し、そのピッチや
継続時間長といった特徴に特定の変更を加える。

【００３２】上述した本発明の方法（第１の側面）にお
ける付加的な特徴は、必要に応じて変更を加えて第２の
側面の装置に適用することができる。

【００３３】続いて、本発明の第３の側面は、上述した
第１の側面における方法を実行するソフトウェアモジュ
ール手段を有するデータ記録媒体を提供するものであ
る。

【００３４】本発明及びその利点は、以下に説明する好
ましい実施例と添付図面とにより一層明らかにされるで
あろう。なお、この実施例は、本発明を限定するもので
はない。

【００３５】ところで、本発明は、本件出願人による２
００１年５月１１付けの欧州特許出願第01 401 203.3号
の目的を発展させたものであり、本出願は、この先の出
願に対する優先権主張を伴うものである。

【００３６】この先の出願は、少なくとも感情モデルを
有し、音声を発することのできる装置からの情報に基づ
いて、音声を合成する音声合成方法に関するものであ
る。この方法は、音声を発することのできる装置におけ
る上記感情モデルの感情状態を判別する感情判別工程
と、音声として発する内容を表す発話文を出力する発話
文出力工程と、上記感情判別工程にて判別された感情状
態に応じて音声合成のためのパラメータを制御するパラ
メータ制御工程と、上記発話文出力工程にて出力された
発話文を音声合成部に入力して上記制御されたパラメー
タに基づいて音声合成する音声合成工程とを有する。

【００３７】特に、この先の出願における発話文は、無
意味な内容の文である。

【００３８】ここで、上記発話文出力工程は、上記感情
モデルの感情状態が所定の閾値を超えたときに、上記発
話文を出力して上記音声合成部に供給する。

【００３９】また、上記発話文出力工程は、発話毎にラ
ンダムに得られた上記発話文を出力して上記音声合成部
に供給することができる。

【００４０】また、上記発話文は、複数の音素を有して
成り、上記パラメータは、上記音素の継続時間長、ピッ
チ、音量を含むものである。

【００４１】また、上記装置は、供給された入力情報に
基づいて動作を行う自律型のロボット装置である。そし
て、その感情モデルは、上記動作を生じさせるものであ
る。この音声合成方法は、上記入力情報に基づいて上記
感情モデルの状態を変化させることにより上記動作を決
定する感情モデル変化工程をさらに有してもよい。

【００４２】また、上述の先の出願は、上述の方法を実
行する装置についても包含するものである。

【００４３】また、上述の先の出願は、自律型の例えば
ロボット装置をも包含するものである。このロボット装
置は、供給された入力情報に基づいて動作を行う自律型
のロボット装置であって、上記動作に起因する感情モデ
ルと、上記感情モデルの感情状態を判別する感情判別手
段と、音声として発する内容を表す発話文を出力する発
話文出力手段と、上記感情判別手段により判別された感
情状態に応じて音声合成のためのパラメータを制御する
パラメータ制御手段と、上記発話文出力手段により出力
された発話文が供給され、上記制御されたパラメータに
基づいて音声合成する音声合成手段とを備える。

【００４４】本発明の実施例を詳細に説明する前に、以
下の節では、本件出願人による先行研究を要約する。な
お、この先行研究の特徴は、上述した欧州特許出願に含
まれるものである。

【００４５】先行研究上述した優先権主張の基礎となる欧州特許出願のさらな
る特徴を、「人間の被験者による確認」という節の最後
までに示す。近年、個人用ロボットの開発が非常に発展
してきており、新たな教育技術（Druin A.,Hendler J.
(2000) "Robotsfor kids:exploring new technologies
for learning", Morgan Kauffman Publishers）や、純
粋なエンターテイメント（Fujita M.,Kitano H. (1998)
"Development of an autonomous quadruped robot for
robot entertainment", Autonomous Robots, 5; Kusah
ara.M."The art of creating subjective reality:an a
nalysis of Japanese digital pets, in Boudreau E.,e
d., in Artificial Life 7Workshop Proceedings, pp.1
41-144）の用途に用いられている。特に、これらのロボ
ットは、犬や猫等の馴染み深いペットを模していたり
（ソニー株式会社のＡＩＢＯを参照）、時には人間型の
ＳＤＲ３−Ｘ（ソニー株式会社）のように、人間の子供
を模していたりする。

【００４６】これらの装置とのインタラクションは、人
間が従来のコンピュータに対して行ってきたものとは著
しく異なる。従来、人間は、非常に不自然な規則や、キ
ーボード、ダイアログウィンドウといった手段を学習す
る必要があり、コンピュータを動作させるために膨大な
知識を身につけなければならなかった。これに対して、
個人用ロボットは、人間が数千年間利用してきた自然な
規則（例えば、自然な言語や、礼儀正しさのような社会
規範）や、手段（例えば、会話や接触）をロボット自身
が学習しようとする。

【００４７】このような個人用ロボットに必要な機能の
うち、最も基本的なものの１つとして、人間の感情を捉
えることが挙げられ（Picard R. (1997) Affective Com
puting, MIT Press.）、特に人間の感情を認識すると共
に自身の感情を表現することが必要となる。尤も、人間
を理解する際には感情以外も重要であるが、感情は社会
規範の中心であり（Halliday M. (1975) "Learning hou
to mean:explorations in the development of langua
ge, Elsevier, NY）、特に会話の流れを左右する中心で
ある。感情によるコミュニケーションは原始的であると
同時に効果的なものであるため、人間は、ペットと触れ
合う際に、特にペットを飼い慣らすときに、その感情に
よるコミュニケーションを多用する。またこれは、子供
が言葉を学ぼうとするきっかけともなり（Halliday,197
5 前掲）、ロボットに自然な言葉を教える場合にも用い
るべきものである。

【００４８】ここで、言葉によるものを除けば、人間は
主として２つの方法で感情を表現することができる。す
なわち、顔の表情の変化と（Ekman,P. (1982) Emotions
inthe human face, Cambridge University Press, Cam
bridge）、声のイントネーションの変化とである（Bans
e,R. and Sherer,K.R., (1996) Acoustic Profilesin V
ocal Emotion Expression, Journal of Personality an
d Social Psychology, 70(3): 614-636）。顔の表情に
表れる感情を自動で認識する研究は、現在非常に多くな
されているが（A.Samal,P.Iyenger (1992)"Automatic r
ecognition and analysis of himan faces and facial
expression:a survay". Pattern Recognition, 25(1):6
5--77）、自動で生成し機械で認識するための会話のモ
ダリティに関連する研究は、最近になってなされるよう
になった（Bosh L.T. (2000)"Emotions:what is possib
le in the ASR framework ?", in Proceedings of theI
SCA Workshop on Speech and Emotion.）。

【００４９】本件出願人は、子供を模したロボット装置
に対して、音声により感情を表現させる研究を行ってい
る。また、他の研究とは異なり、本件出願人は、漫画的
な無意味な内容の文により感情を伝える可能性について
も研究している。これは、例えば大人のような普通の感
情を伴う発話文を生成する場合と比較して、異なる要求
や制約が存在する。例えば、異なった文化的、或いは言
語的な背景を有する人間に感情が理解されることを目標
としていた。そのアプローチは、連続的な発話文の合成
を用いており、そのアルゴリズムは、例えばBreazalに
よる他の研究と比較して、より簡単で完全に特化された
ものである。

【００５０】人間の発話における感情の音響的相関この目的を達成するために、感情／情動と音声信号の音
響特性とについて、有意な音響的相関があるか否かが確
かめられた。この問題については、多くの研究者が調査
を行っている（Fairbanks 1940, Burkhardt F., Sendlm
eier W.,"Verification of acoustical correlates of
emotional speech using formant-synthesis", in Proc
eedings of the ISCA Workshop in Speech and Emotio
n., BanseR. and Sherer K.R. 1996 "Acoustic profile
sin vocal emotion expression",Journal of Personali
ty and Social Psycology, 70(3):614-636)。

【００５１】これらの報告によると、発話は心理学的な
条件や幾つかの基本的な情動クラスとの相関があること
が判っている。また逆に驚きと怖れ、退屈と悲しみなど
のある特定の感情に関しては違いを見つけることが難し
いことなども報告されている。実際、特定の情動がある
身体的な状態と結びついていることはよくあり（Picard
1997 "Affective Computing", MIT Press）、予想可能
な物理的な影響を発話に対してもたらす。この影響は、
特にピッチ（基本周波数Ｆ０）、タイミング、そして声
質に対してもたらされる。例えば、ある人が怒りや怖れ
や喜びを覚えたときは交感神経系が奮起し、心拍数や血
圧が上昇し、口内は乾き、時には筋肉に震えが起こる。
こうしたときには発話は大きく速くなり、高周波成分に
強いエネルギーを持つことになる。またある人が退屈や
悲しみを感じているとき、副交感神経系が奮起し、心拍
数や血圧が減少し、唾液が多く分泌される。この結果、
発話はゆっくりとしたピッチの遅いものになり、高周波
成分のエネルギーは弱くなる（Breazal,2000）。

【００５２】さらに、これらの身体的影響は万国共通で
あるために、基本的な情動と発話の音響的な特性の間に
は民族や文化に寄らない相関関係が存在すると考えられ
ている。このことは、例えば文献「Abelin A, Allwood
J., (2000)"Cross-linguistic interpretation of emot
ional prosody", in Proceedings of the ISCA Worksho
p on Speech and Emotion.」や、文献「Tickle A. (200
0)"English and Japanese speaker's emotion vocalisa
tions and recognition: a comparison highlighting v
owel quality", ISCA Workshop on Speech and Emotio
n,Belfast 2000」において詳しく調査されている。彼ら
は、アメリカ人に対して音響的な情報のみ（発話は意味
がないため、意味的な情報はない）によって他のアメリ
カ人や日本人の感情を理解させる実験を行った。

【００５３】同様に、日本人に対しても、他の日本人や
アメリカ人がどのような感情を伝えようとしているかを
当てさせた。この結果から、以下の２つの点が明らかに
されている。すなわち、１）同じ言語を話す人か異なる
言語を話す人かによって、伝えられる感情の認識率に変
化はなく、このことは日本人の被験者についてもアメリ
カ人の被験者についてもあてはまる。そして、２）被験
者の認識結果は芳しくなく、最高でも６０％程度であっ
た（なお、この結果は、被験者が非常に不自然な意味の
ない言葉を発するように言われていた事実からある程度
は説明がつくが、意味的には中立であるが意味のある文
を発するようにした研究によっても、この結果は裏付け
られている（Burkhart and Sendlemeier 2000 前
掲））。

【００５４】１つ目の結果は、無意味語によって装置に
感情を表現させ、様々な文化的背景を持つ人にその感情
を正確に伝達させるという目標が理論的に可能であるこ
とを示している。また、２つ目の結果は、完璧な理解は
期待し得ないことを示している。人間がそれほどよく理
解できないという事実は、主として、幾つかの感情が心
理学的に非常に相関があるため、音響的に相関があると
いう事実による。現実の状況では、人間は発話文の内
容、及び／又はその他のモダリティによって、その曖昧
さを解決している。実際、幾つかの実験によって、情動
表現のマルチモーダルな性質により感情のマガーク（Mc
Gurk）効果が得られることや（Massaro D., (2000) "Mu
ltimodal emotion perception : analogous to speech
processes", ISCA Workshop on Speech and Emotion,Be
lfast 2000）、内容が異なれば、人間は、それぞれの内
容について同じイントネーションであっても異なる感情
を表すと解釈する（Cauldwell R. (2000) "Where did t
he anger go ? The role ofcontext in interpretimg e
motions in speech" ISCA Workshop on Speech andEmot
ion.）ということが示されている。これらの発見は、装
置がより識別可能な言葉を発する必要がないことを示し
ている。したがって、最も基本的は情動についてのみ調
べればよい。

【００５５】コンピュータ技術を用いた音声処理の実験
の多くは、音声のどの特徴が感情を最も正確に反映して
いるかを調べるものであった（Murray I.R., Arnott J.
L.,(1993) "Towards a simulation of emotion in synt
hetic speech: a review ofthe literature on human v
ocal emotion, JASA 93(2), pp.1097-1108., Banseand
Scherer, 1996; Burkhardt and Sendlmeier, 2000; Wil
liams and Stevens, 1972, 前掲）。基本的には、最も
重要な特徴は、例えばピッチ（又はｆ０）の輪郭や、強
さの輪郭や、発するタイミングなど、韻律に関係するも
のであるとして一致している。より最近の研究では、声
質（Gobl C., Chasaide A.N. (2000)"Testing affectiv
e correlates of voice quality through analysis and
resynthesis", in Proceedings of the ISCA Workshop
on Emotion and Speech.）や、ある種の共発声（co-ar
ticulatory）現象（Kienast M., Sendlmeier W. (2000)
"Acoustical analysis of spectral and temporal cha
nges in emotional speech", in Proceedings of the I
SCA Workshop on Emotion and Speech.）も、ある種の
感情とよく相関していることが示されている。

【００５６】漫画的な感情を伴う発話文の作成上述した内容について、本件出願人は、漫画的な感情を
伴う発話文の生成に向けて多数の研究を行ってきた（し
かし、本発明の範囲は、自然な人間の発話など、全ての
発話様式を含むものである）。しかし、その目的は感情
を伴う発話文を合成する他の研究の殆どとは著しく異な
るものであった。つまり、伝統的には、大人のような自
然な感情の発話を目的とするものであったが（Cahn J.
(1990) "The generation of affect in synthesized sp
eech" Journal of the I/O VoiceAmerican Society, 8:
1-19., Iriondo I.,et al. (2000) "Validation of an
acoustical modelling of emotional expression in Sp
anish using speech synthesis Tecniques", in Procee
dings of ISCA workshop on speech and emotion., Edg
ington M.D., (1997) "Investigating the limitations
of concatenativespeech synthesis", in Proceedings
of EuroSpeech'97, Rhode, Greece., Iida et al. 200
0 参照）、本件出願人の目的は、幼い生物に、無意味語
を用いて、自身の感情を誇張された漫画的な方法で表現
する能力を与えることであった（この無意味語という必
要性は、言語を覚えなければならないロボット装置で実
験を行ったためである。この基本的な感情を表現するた
めにイントネーションのみを用いるという前言語的な能
力は、自発的な学習に役立つ。その発話文は、生き生き
とし、毎回異なり、幼児語に似たものでなければならな
かった。）。

【００５７】さらに、そのアルゴリズムは、できる限り
パラメータを少なくし、単純なものでなければならなか
った。簡単には、韻律の変化を伴う感情を伝え得る最少
のパラメータが探索された。また、その発話文は質がよ
く、且つコンピュータで生成しやすいものでなければな
らなかった（ロボット装置は通常僅かなリソースしか有
していない）。これらの理由から、連続音声合成器（co
ncatenative speech synthesizer）である（Dutoit T.
and Leich H. (1993) "MBR-PSOLA: Text-to-Speech syn
thesis based on an MBE re-synthesis of the segment
s database", Speech Communication.）ＭＢＲＯＬＡソ
フトウェアが基礎として用いられた。このソフトウェア
は、ウェブページ（http://tcts.fpms.ac.be/synthesis
/mbrola.html）において無料で利用することができ、よ
り昔からあるＰＳＯＬＡの技術を向上させたものである
（ピッチを操作しても殆ど歪みが生じない）。なお、信
号を制御することは殆どできないが、単純化の必要性と
は合致するものである。

【００５８】これら全ての制約から、現在までのところ
５つの感情状態のみを選択して実験に用いている。この
５つの感情状態は、「平静（calm）」と、奮起（arouse
ness）及び力価（valence）という２次元で定義される
４つの領域のそれぞれに対応する「怒り（anger）」、
「悲しみ（sadness）」、「喜び（happiness）」及び
「落ち着き（comfort）」とである。

【００５９】上述したように、現在までの研究は、大人
のような自然に聞こえる感情を伴った発話を実現しよう
とするものであり、その殆どは１つの言語のみを扱って
いた。また、その多くは基礎としてホルマント合成を用
いていた（Cahn,1990 "The generatioin of affect in
synthesised speech", Journal of the I/O AmericanSo
ciety, 8:1-19; Murray E., Arnott J.L., (1995) "Imp
lementation and testing of a system for producing
emotion-by-rule in systhetic speech" Speech Commun
ication, 16(4), pp.369-390; Burkhardt and Sendleme
ier, 2000 前掲、参照）。これは、音声信号に対して、
詳細且つ様々な制御が可能であるためである。すなわ
ち、声質、ピッチ、強度、スペクトルのエネルギー分
布、倍音とノイズとの比率（harmonics-to-noise rati
o）、或いは感情を伴う発話において生じている多くの
共発声効果をモデル化する発音精度を制御することがで
きる。ホルマント合成の欠点は、生成された発話が、満
足のいくものではないことである（声はかなり不自然で
あることが多い）。さらに、この場合に用いられるアル
ゴリズムは複雑であり、多くのパラメータを制御する必
要があるため、調整が非実用的なものとなっている（Ca
hn, 1990 前掲、参照）。これらの研究と異なり、文献
「Breazal, 2000 "Sociable machines: expressive soc
ial exchange between humans and robots, PhD thesi
s, MIT AI Lab.」には、意味を持たない感情を伴った発
話を行うロボットである“Kismet”について記載されて
いる。しかしながら、Cahnの研究と同様に、Breazalの
研究は市販されている音声合成器に大きく依存してい
る。この音声合成器における数多くのパラメータは、高
レベル（例えば、文章中のピッチのベースラインを特定
する）であり、記載されていない方法で実施される。こ
の結果、このアプローチは、他の音声合成システムを基
礎として用いる場合に殆ど再現できないものである。逆
に、本件出願人によるアルゴリズムは、後述するよう
に、完全に特化されたものであり、ＰＳＯＬＡに基づく
システムであればどのようなものであっても使用するこ
とができる（加えて、実際に用いられるシステムは無料
でダウンロード可能である。上記参照のこと。）。

【００６０】Breazalの研究における他の欠点は、用い
られる合成器がホルマントに基づくものであるため、直
面している制約に対応していないということである。

【００６１】ところで、連続音声合成器は、非常に性能
のよいものであるため、近年よく用いられるようになっ
ており、研究者の中には、感情語を合成するためにそれ
を用いようとしてきた。これは難題であり、ホルマント
合成よりもずっと困難である。というのは、ピッチの輪
郭、強度の輪郭、或いは音素の継続時間長しか制御でき
ないためである（そうであったとしても、この制御には
殆ど制約がない）。本件出願人の知る限り、２つのアプ
ローチが文献に示されている。第１のアプローチは、例
えば文献「Iida et al., 2000 "A speech synthesis sy
stem with emotion for assisting communication", IS
CA Workshop on Speech and Emotion」に記載されてい
るように、既に録音された要素を合成過程で連結するた
めの基礎として、各感情について１つのデータベースを
使用するものである。このアプローチは満足のいく結果
が得られるものであるが、例えば声を変えたり、新たな
感情を加えたり、或いは感情の度合いを制御したりする
場合には、実現が非常に困難である。

【００６２】第２のアプローチは、人間が発声した感情
語のデータベースを作成してそのピッチの輪郭と強度の
輪郭とを計算し、それを合成する文章に適用するもので
ある（例えば、Edgington M.D. "Investigating the in
tonation of concatenativespeech synthesis", Procee
dings of EuroSpeech'97, Rhode, Greece 参照）。この
アプローチでは連結の際に問題が生じるが、文章同士の
構文の類似性を利用することで、問題を多少は解決する
ことができる。しかしながら、Edgingtonが示している
ように、この方法では、満足のいかない結果しか得られ
ていない（発話が不自然に終了し、また、聴取者は感情
をあまり理解できない）。

【００６３】したがって、これらの２つの方法をすぐに
漫画に適用することはできない。誇張された漫画的な幼
児語についてのデータベースを作成するのが非常に困難
なためである。

【００６４】本発明で採用しているアプローチは、アル
ゴリズムの観点から、完全に生成するものであり（録音
された人間の発話文を入力とするものではない）、連続
音声合成器を基礎として用いている。このアプローチで
は、ホルマント合成と同程度に効率的に感情を表現でき
ながら、ホルマント合成よりも制御が簡単で、より生物
感のある音声信号を合成できた。

【００６５】単純且つ完全なアルゴリズム本件出願人が開発したアルゴリズムは、意味のない文章
を生成し、そのピッチの輪郭と音素の継続時間長（すな
わち、文章のリズム）とを特定するものである。簡単の
ため、ピッチについては各音素につき１つの目標値しか
設けていないが、これで十分なことが多い。

【００６６】強度の輪郭についても制御可能であるが、
ピッチ操作により聴覚的に強度変化が生じているように
聞こえるため、これは必ずしも必要でない。すなわち、
文章全体の音量を制御するのみで、よい結果を得ること
ができる。

【００６７】プログラムで生成されたファイルを以下の
表１に示す。なお、このファイルは、ＭＢＲＯＬＡ音声
合成器に供給される。

【００６８】

【表１】

【００６９】本アルゴリズムの概念は、先ず、ランダム
な単語で構成される文を生成することである。各単語
は、ランダムな音節（ＣＶタイプ又はＣＣＶタイプ）で
構成される。最初は、全ての音素の継続時間長は一定で
あり、各音素のピッチは予め設定された値と一致してい
る（このピッチにノイズを加えることで、文が自然に聞
こえるようになる。様々なノイズについて実験を行った
が、ノイズの種類が異なっていてもあまり変化は生じな
かった。なお、後述する知覚実験では、ガウスのノイズ
を用いた。）。そして、特定の感情を付与するために、
この文章のピッチと継続時間長の情報が変化される。こ
こで、この変更は、多数の音節にアクセントを置くこと
や、これらの音節の継続時間長を変更すると共に所定の
アクセント輪郭を適用することである。また、全ての音
節についてピッチ輪郭及び継続時間長が所定のデフォル
トにより変形される。

【００７０】各音素については、その音素の継続時間長
の８０％に固定された時点におけるピッチの目標値のみ
が設定されている。

【００７１】上述した優先権主張の基礎となる先の欧州
特許出願では、上述したアルゴリズムに基づいて音声合
成手段に発声させるための文章を生成するプログラムが
Ｆｉｇ.３及びＦｉｇ.４に示されている。本件において
も、同じプログラムがＦｉｇ.１ａ及びＦｉｇ.１ｂに示
されており、後者は前者の続きである（大文字で書かれ
た単語は、本アルゴリズムにおいて各感情毎に設定する
必要のあるパラメータを表す）。

【００７２】このアルゴリズムに関して、幾つか言及す
る。先ず、単にランダムな音節列を扱うのではなく、単
語を有することが好ましい。これにより、隣接する音節
に何度もアクセントを置くことがなくなる。また、これ
により、最後の単語に対して行われた処理を容易に表現
することができる。特に、文章中の単語の最大数（MAXW
ORD）は、特定の情動に依存するものではないが、自由
に変えられるというよりも、寧ろパラメータに近いもの
である。本アルゴリズムの重要な特徴としては確率的な
部分がある。すなわち、一方には、与えられたパラメー
タから毎回異なる発話文が生成される（これは、主とし
て単語の数のランダムさ、音節内の音素構成のランダム
さ、或いはアクセント位置が確率的に決まることによ
る）。そして、他方には、音素の継続時間長やピッチに
ノイズが加えられることにより（Ｆｉｇ.１の１４行
目、１５行目を参照。random(n)とは、０からｎまでの
ランダムな数字を意味する。）、発声が自然なものにな
るという利点がある（もし固定のままでは、明らかに機
械が発声していると認識される）。そして、アクセント
は、音量ではなくピッチの変化によって実現される。そ
れにも関わらずよい結果が得られているのは、人間の発
話では音量の増加がピッチの上昇と相関しているためで
ある。このため、時にはピッチの調整を大げさなものに
する必要があるが、上述したように、人間が感情を表現
する方法を常に忠実に再現することではなく、人間が感
情を表現する方法を生き生きと自然且つ大げさに（すな
わち、漫画的に）真似ることを目標としているため、寧
ろ好ましいことである。

【００７３】さらに、幼い子供に特有の声を得るため
に、本アルゴリズムには最後の工程が加えられる。音声
ファイルのサンプリングレートは、ＭＢＲＯＬＡの１６
０００Ｈｚと比較して、３００００乃至３５０００Ｈｚ
という高いものである（これはファイルクイッカー（fi
le quicker）を使っているときと同程度である）。勿
論、発声速度を普通にするために、ＭＢＲＯＬＡに送ら
れるプログラムでは、予めゆっくりなものとされてい
る。この最後の工程は、ＭＢＲＯＬＡに子供の声のデー
タベースがないことから好ましいものである（これは、
子供にとってそのようなデータベースを作成することが
困難であることからも理解できる）。したがって、大人
の女性の声が選択された。

【００７４】本アルゴリズムの詳細を説明するために、
以下に示す表２では、５つの情動、すなわち、「平静
（calm）」、「怒り（anger）」、「悲しみ（sadnes
s）」、「喜び（happiness）」、「落ち着き（comfor
t）」について得られるパラメータの値の例を示す。

【００７５】これらのパラメータは、先ず各感情の音響
的相関について記載された研究を調べ（例えば、Murray
and Arnott 1993, Sendlemeier and Burkhartd 2000、
前掲）、ある程度統一性のあるパラメータ初期値を推定
し、これを満足のいく結果が得られるまで、試行錯誤に
より手動で修正することにより得られた。なお、その性
質の評価については、次の節に示す。

【００７６】

【表２】

【００７７】人間の被験者による確認先の節で述べたアルゴリズムを評価するために、人間の
被験者に対して、本システムで生成された発話文を聞い
て、どのような感情を感じたかを当てさせる実験を行っ
た。（サンプル音声の一部については、関連するウェブ
ページwww.csl.sony.fr/pyで入手可能である。）より詳
しくは、各被験者は、先ずそのシステムの言葉に慣れる
ために、感情がランダムに選択された１０種類の発話文
を聞いた。そして、被験者に対してそれぞれがランダム
に選択された感情に対応する３０種類の発話文が示され
（教師なしシリーズ（unsupervised series））、「平
静（Calm）」、「怒り（Anger）」、「悲しみ（Sadnes
s）」、「落ち着き（Comfort）」、「喜び（Happines
s）」の何れであるかが尋ねられた。

【００７８】なお、被験者は各サンプルを１度しか聞く
ことができない。また、別の被験者に対する２番目の実
験では、先ず、被験者に対して各感情に対応する４種類
の教師サンプルが与えられた。すなわち、被験者に対し
て、発話文と共に、意図した感情を表すラベルが示され
た。そして、再度、被験者に対して３０種類の発話文が
示され、被験者は、上述した感情の何れであるかを識別
した。ここで、それぞれの実験では、８人の大人の被験
者が用意された。そのうち３人はフランス人、１人はイ
ギリス人、１人はドイツ人、１人はブラジル人、そして
２人は日本人である（この研究について知っている者
や、発話文における感情の音響的相関について特別な知
識を持っている者はいない）。教師なしシリーズの実験
結果を以下の表３に示す。（列の感情、行の感情）にお
ける数字は、その列に示す感情を意図した発話文がその
行に示す感情であると認識されたパーセントを示したも
のである。例えば、表３において「悲しみ（sadnes
s）」を意図した発話文のうちの７６％は、その感情で
あると認識されている。

【００７９】この教師なしシリーズの実験は、機械では
なく人間が発した発話文での実験と比較する必要があ
る。この点、例えば文献「Tickle A. 2000 "English an
d Japanese speaker's emotion vocalisations and rec
ognition: a comparison highlighting vowel qualit
y", ISCA Workshop on Speech and Emotion Recognitio
n,Belfast 2000」に示されているように、同じようなセ
ットアップで被験者が意味のない感情を伴った発話を行
わせた実験において、最もよかった被験者でも６０パー
セントの正解率であり、多くはそれよりも悪かった。こ
れに対して、先の結果では平均で５７パーセントの正解
率であり、人間が発話した場合と同程度である。ここ
で、結果をよく見ると、誤りは多くの場合、特に発話文
の奮起（arouseness）に関しては“悪い”誤りではない
ことが分かる。すなわち、「喜び」は多くの場合「怒
り」と混同されており（何れも奮起度が高い）、「平
静」は多くの場合「悲しみ」や「落ち着き」と混同され
ている（何れも奮起度が低い）。実際、奮起についての
誤りは５パーセント以下である。つまり、多くの誤り
は、「平静（calm）／中立（neutral）」の感情におけ
るものである。このため、２度目の教師なしシリーズの
実験では、ここでの実験に似ているものの、「平静（ca
lm）」の情動を除外した。

【００８０】この結果、平均正解率は７５パーセントと
なり、前回よりも向上すると同時に、人間が発話した場
合よりもよい結果であった。これは、１つには、感情の
音響的特性が誇張されていることによる。なお、ここで
示した結果は、文献「Breazal 2000」で報告されている
結果と同様のものであり、パラメータの非常に少ない連
続合成器を用いても、感情を伝えること（そして、一般
により生物感のある音声を生成すること）ができること
が分かる。

【００８１】

【表３】

【００８２】一方、教師ありシリーズの実験では、意図
した感情についての発話文を僅かに（各感情につき４種
類）示すことで、結果が大幅によくなることが分かる。
因みに、現在では７７パーセントの正解率が達成されて
いる。この実験においても、幾つかの誤りは“悪い”も
のではなかった。そこで、同様に「平静（calm）」の情
動を除外したところ、平均正解率が８９パーセントに向
上した。この指示は、デジタルペットの場合、実現が極
めて容易である。すなわち、多くのデジタルペットは、
カラーＬＥＤの光の組み合わせによって自身の「感情」
を表現しており、この実験においても、ロボットが感情
語を発している間に数回ロボットを視覚的に見るのみで
十分であり、これにより、ロボットが意図している感情
を後に発話を聞くのみで認識できる。

【００８３】

【表４】

【００８４】ここで、上述した各感情が「感情空間」の
どこに位置するのかをＦｉｇ.２に示す。この感情空間
では、「力価（valence）」及び「奮起（excitemen
t）」のパラメータがそれぞれ垂直軸２及び水平軸４に
沿って表されている。力価の軸は、ネガティブな値から
ポジティブな値まで有し、奮起の軸は、低い値から高い
値まで有する。また、交点Ｏは、図の中心にあたり、
「平静（calm）／中立（neutral）」の感情に対応す
る。そして、その点から４つの領域が定義され、それぞ
れが以下に示す感情状態を含む。すなわち、「喜び（ha
ppy）／賞賛（praising）」（四分円Ｑ１）は、力価が
ポジティブであり奮起度が高いとして特徴付けられ、
「落ち着き（comfort）／鎮静（soothing）」（四分円
Ｑ２）は、力価がポジティブであり奮起度が低いとして
特徴付けられる。また、「悲しみ（sad）」（四分円Ｑ
３）は、力価がネガティブであり奮起度が低いとして特
徴付けられ、「怒り（angry）／警告（admonishing）」
（四分円Ｑ４）は、力価がネガティブであり奮起度が高
いとして特徴付けられる。

【００８５】本発明の好ましい実施例本発明に係る方法及び装置は、上述した概念を発展させ
たものである。すなわち、その概念は、音声合成器によ
って生成されたフレーズについて、ピッチの輪郭、強度
の輪郭及びリズムの少なくとも１つを制御するものであ
る。本発明のアプローチは、比較的大げさなものであ
り、また、他の研究者が容易に再現できるものである。
特に、好ましい実施例は、無料で利用できるソフトウェ
アモジュールを発展させたものである。このソフトウェ
アモジュールについては、よく記述されており、使用が
容易であるため、同様な技術が数多く存在する。したが
って、本発明の実施例で提案されるモジュールは、完全
に明白（transparent）なものである。

【００８６】実施例では、ピッチの輪郭やリズム（音素
の継続時間長）等を完全に、又は高程度に制御する。

【００８７】なお、このアプローチは、概念としては上
述した優先権主張の基礎とされた欧州特許出願よりも一
般的なものである。

【００８８】本発明のアプローチは、フレーズを音節の
連続と捉えることに基づいている。ここで、フレーズ
は、意味を持った言語による発話文でもよく、意味を持
たない発声であってもよい。各音節については、ピッチ
（ｆ０）の輪郭を完全に制御することが可能であり、追
加的に強度（音量）の輪郭、或いは音素の継続時間長を
制御することができる。しかしながら、ピッチを調整す
ることで強度が変化したように聞こえるため、少なくと
も強度の制御は必須ではない。

【００８９】ここで、与えられた感情に対応するイント
ネーションを生成するために、これらの輪郭（ピッチの
輪郭、継続時間長、そして場合によっては強度の輪郭）
を決定する方法が問題となる。

【００９０】解決方法の概念は以下のようなものであ
る。先ず、各音節について設定された輪郭（ｆ０）、設
定された強度、そして設定された継続時間長を有するフ
レーズから始める。この参照フレーズは、最初の輪郭
（ｆ０）、最初の継続時間長（ｔ）そして場合によって
は最初の強度を設定することにより、意味の分かる言語
についての音声合成器から生成することができる。或い
は、幼児語のような意味のない発声からこの参照フレー
ズを生成しても構わない。この場合、最初には、設定さ
れた初期値で“平坦な”ピッチ輪郭（ｆ０）と、設定さ
れた初期値で“平坦な”強度輪郭と、設定された初期値
で“固定の”継続時間長とが存在する。なお、これらの
特徴は、音声合成器が理解可能な所定のフォーマットで
設定される。

【００９１】音声合成器に供給されるデータは、所定の
プロトコルでフォーマット化されている。例えば、合成
される各音節は、以下のように符号化することができる
（音節“be”の場合には、継続時間長と、その継続時間
内における５つの連続したピッチの値によって特徴付け
られる。）。音節の同定：“ｂｅ”；継続時間長（ミリ秒）ｔ１＝１
００；ピッチデータ（Ｈｚ）−第１部分Ｐ１＝８０、第２部分
Ｐ２＝１００、第３部分Ｐ３＝１２０、第４部分Ｐ４＝
９０、第５部分Ｐ５＝２３０

【００９２】このデータは、例えば（be;100,80,100,12
0,90,230）と符号化されてフレームに含まれ、それぞれ
がプロトコルに従って合成器によって同定される。

【００９３】ここで、Ｆｉｇ.３は、これらのデジタル
データが合成された音声出力に変換されるまでの各段階
を示したものである。

【００９４】先ず最初に、音声メッセージが発声される
音節の連続として構成されている。このメッセージは、
理解可能な言語で意味を伝えるような、文法的な文章を
構成する意味のある単語であってもよく、幼児語、動物
に似た声、或いは完全に想像上の声といった、意味のな
いものであってもよい。その音節は、発声データファイ
ル１０において、上述したデジタルデータフォーマット
に従って符号化されている。

【００９５】そして、デコーダ１２は、データファイル
１０から連続した音節データを読み出す。

【００９６】Ｆｉｇ.４ａは、これらのデータがデコー
ダ１２でどのように処理されるかを、ピッチの基本周波
数（ヘルツ）を横軸とし、時間（ミリ秒）を縦軸とした
座標グリッドで図示したものである。このグリッド領域
は、矢印線で示されるように、上述の５つの継続時間長
にそれぞれ対応する５つのカラムに分割される。それぞ
れのカラムの中心には、対応するピッチデータで定義さ
れるピッチの値が縦軸に対して垂直に表される。

【００９７】その後、音節データは、インターポレータ
（interpolator）１４に供給される。インターポレータ
１４は、一般的な補間技術を用いて、５つの基本周波数
の値Ｐ１−Ｐ５から補間されたピッチの値を連続的に生
成する。この結果、Ｆｉｇ.４ｂに示すように、音節
“ｂｅ”の継続時間長１００ｍｓに亘って、比較的滑ら
かなピッチ変化の曲線が得られる。この工程は、音節デ
ータが入力される毎に繰り返され、そのフレーズの連続
した音節に亘って、連続的なピッチ曲線が得られる。

【００９８】このようにしてインターポレータで生成さ
れたピッチ波形は、音響周波数音声処理器１６に供給さ
れ、ここで対応する調整された振幅音響信号が生成され
る。なお、この音声処理器は、合成音声をより実際の音
声に近づけるため、上述したように、最終的な音響信号
に何らかのランダムノイズを付加するようにしても構わ
ない。この最終的な音響信号は、音響増幅器１８に供給
されて適切な音量となるまでそのレベルが上昇され、ス
ピーカ２０に供給される。そして、スピーカは、発声デ
ータファイル１０から得られた合成音声を再生する。

【００９９】ここで、発声データファイル１０が意味を
有するフレーズを含む場合、その音節び関係する音節デ
ータの一部は、通常、より自然に発声するためにはどの
音節にアクセントを置けばよいかという情報を含むこと
になる。

【０１００】通常、そのような音節データに含まれるピ
ッチの値は、“中立的”な発話、すなわち認識可能な感
情を持たない発話に対応する。

【０１０１】Ｆｉｇ.５は、好ましい実施例における感
情生成器２２を、Ｆｉｇ.３に示した合成器１とどのよ
うに統合するかを機能的に示すブロック図である。

【０１０２】感情生成器２２は、発声データファイル１
０から読み出された音節データに対して、選択的にオペ
レータを適用する。ここで、これらのオペレータは、そ
のタイプに従って、ピッチデータ（ピッチオペレータ）
又は音節の継続時間長データ（継続時間長オペレータ）
を変更することができる。なお、これらの変更は、イン
ターポレータ１４の前段、例えばデコーダ１２の手前で
行われる。これにより、オペレータによって変更された
値に基づいて補間処理が行われることになる。後述する
が、この変更は、中立的な発話文を選択された感情（悲
しみ、平静、喜び、怒り）を選択された程度伝えるよう
な発話文に変化させるものである。

【０１０３】基本的なオペレータは、オペレータセット
ライブラリ２４に格納されており、オペレータセット構
成ユニット２６によって選択的にアクセスされる。オペ
レータセット構成ユニット２６は、現在の要求に従って
オペレータを準備し、パラメータ化する。この目的のた
めにオペレータパラメータ化ユニット２８が設けられ、
後述するように、オペレータのパラメータ化を、ｉ）発
話文に付加する感情（平静、悲しみ、喜び、怒りな
ど）、ii）場合によってはその感情の程度（又は強度）
と、iii）その音節の内容との両方に従ってオペレータ
のパラメータ化を決定する。そして、感情とその感情の
程度とは、ユーザ３２の利用しやすい入力を示す感情選
択インターフェース３０によってオペレータパラメータ
化ユニット２８に指示される。この感情選択インターフ
ェースは、画面上のメニューやアイコンを有し、必要な
感情特徴全てと、他のオペレータに関するパラメータと
をユーザ３２に示すコンピュータインターフェースとす
ることができる。

【０１０４】実施例では、オペレータによって影響され
る音節の内容は、ｉ）あるオペレータはフレーズの最初
と最後の音節にしか適用されないなど、フレーズ内での
音節の位置、ii）その音節が有意味語の文章に関係する
か、無意味な音声（幼児語など）に関係するか、そし
て、iii）ある状況下では、考慮している音節が発声デ
ータファイル１０においてアクセントを置くことが許さ
れているか否か、というものである。

【０１０５】このため、最初／最後音節検出ユニット３
４と、音節アクセント検出ユニット３６とが設けられて
いる。この両者とも、発声データファイル１０にアクセ
スすることができ、オペレータパラメータ化ユニット２
８に適切な内容依存パラメータを伝える。

【０１０６】詳細は後述するが、アクセントの置かれる
音節（“アクセント可能な（accentuable）”音節）に
対して特異的に適用されるオペレータセットが存在す
る。これらのオペレータは、全てのアクセント可能な音
節に対して適用されるのではなく、候補となる音節から
ランダムに選択された音節に対してのみ適用される。な
お、候補となる音節は、発声データに依存する。すなわ
ち、もし発声データにどの音節がアクセント可能かとい
う情報が含まれているならば、候補となる音節は、これ
らのアクセント可能な音節の中からのみ選ばれる。通常
これは、自然な発生とするために一部の音節にアクセン
トが置かれない有意味語の場合に該当する。一方、発声
データにそのような情報が含まれていない場合には、全
ての音節がランダム選択の候補となる。通常これは、無
意味語の場合に該当する。

【０１０７】このランダムな選択は、音節アクセントユ
ニット３６とオペレータパラメータ化ユニット２８との
間に接続された確率制御可能なランダム選択ユニット３
８によって行われる。このランダム選択ユニット３８
は、候補から音節を選択するための制御可能な確率値を
有している。具体的には、ある候補が選択される確率を
Ｎとし、Ｎが０から１の範囲をとるとすれば、Ｐ個の候
補音節について平均でＮ・Ｐ個の音節が選択され、ラン
ダムなアクセント化に関連する特定のオペレータセット
に委ねられる。なお、このランダムに選択された候補の
分布は、基本的に一連の音節に亘って一定である。

【０１０８】ここで、オペレータセット構成ユニット２
６からの適切に構成されたオペレータセットは、音節デ
ータ変更ユニット４０に送られる。音節データ変更ユニ
ット４０では、このオペレータセットによって音節デー
タが処理される。このため、音節データ変更ユニット４
０は、Ｆｉｇ.３におけるデコーダ１２と同様に、発声
データファイル１０から音節データを直接受け取る。こ
のようにして受け取られた音節データは、オペレータセ
ットの機能により、音節データ変更ユニット４０におい
て特にそのピッチと継続時間長とが変更される。得られ
た変更音節データ（新たな音節データ）は、発声データ
ファイルにおける構成と同様の構成で（Ｆｉｇ.２ａ参
照）、音節データ変更ユニット４０からデコーダ１２に
供給される。これにより、デコーダは、発声データファ
イルから直接得られたかのように、新たな音節データを
扱うことができる。その後、新たな音節データは、補間
され（インターポレータ１４）、Ｆｉｇ.３の他の後段
のユニットによって同様の方法で処理される。しかしな
がら、スピーカから発せられる音声は中立的なものでは
なく、寧ろユーザ３２によって定義された感情をシミュ
レートする音声に対応する。

【０１０９】なお、上述した全ての機能ユニットは、逐
次制御ユニット（operations sequencer unit）４２に
よって全体的に制御される。この逐次制御ユニット４２
は、所定の規則に従って、感情合成処理の実行を完全に
制御する。

【０１１０】ここで、Ｆｉｇ.６は、合成音声の（Ｆｉ
ｇ.４ｂのような）ピッチ曲線に対して、ピッチオペレ
ータセットＯＰを適用した効果を図示したものである。
この図では、ピッチオペレータを適用する前と後のピッ
チ曲線（時間ｔに対する基本周波数ｆ）を、各オペレー
タについてそれぞれ左の列と右の列に示している。この
例では、入力したピッチ曲線は全てのオペレータについ
て同一で、比較的平坦なものとなっている。

【０１１１】図示されたセットには以下のように４つの
オペレータが存在する（図の上から下に対応する）。 −“登り坂”ピッチオペレータＯＰｒｓは、どのような
ピッチ曲線に対しても時間的に上昇させる。すなわち、
元のピッチ輪郭での周波数が時間と共に上昇する。 −“下り坂”ピッチオペレータＯＰｆｓは、どのような
ピッチ曲線に対しても時間的に下降させる。すなわち、
元のピッチ輪郭での周波数が時間と共に下降する。 −“シフトアップ”ピッチオペレータＯＰｓｕは、どの
ようなピッチ曲線に対しても元の周波数を一様に上にシ
フトさせる。そのシフトは任意の時間で同じであるた
め、ピッチ輪郭は、元の周波数軸から単純に下降する。 −“シフトダウン”ピッチオペレータＯＰｓｄは、どの
ようなピッチ曲線に対しても元の周波数を一様に下にシ
フトさせる。そのシフトは任意の時間で同じであるた
め、ピッチ輪郭は、元の周波数軸から単純に上昇する。

【０１１２】実施例では、登り坂オペレータＯＰｒｓ及
び下り坂オペレータＯＰｆｓは、以下のような特徴を有
する。すなわち、時間的に中心の位置（継続時間長ｔ１
については１／２ｔ１）でのピッチは、オペレータを適
用する前後で変化しない。言い換えれば、そのオペレー
タは、時間的に中心の位置でのピッチの値を中心とし
て、所望の勾配になるように入力したピッチ曲線を回転
させる。つまり、登り坂オペレータＯＰｒｓの場合に
は、図示のように、時間的な中心位置よりも前のピッチ
の値が事実上下降する。一方、下り坂オペレータＯＰｆ
ｓの場合には、図示のように、時間的な中心位置よりも
前のピッチの値が事実上上昇する。

【０１１３】また、ＯＩで示される強度オペレータを追
加的に設けてもよい。このオペレータの効果をＦｉｇ.
７に示す。このＦｉｇ.７は、Ｆｉｇ.６に直接対応する
ものである。このオペレータも４つ存在し、時間ｔに対
する強度Ｉの曲線に対して作用する他は、ピッチオペレ
ータＯＰに対応する。したがって、簡単のために各オペ
レータについての詳細な説明は省略する。

【０１１４】ピッチオペレータ及び強度オペレータは、
それぞれ以下のようにパラメータ化される。 −登り坂又は下り坂オペレータ（OPrs、OPfs、OIrs、OI
fs）の場合：入力した輪郭に対する坂（スロープ）の勾
配。スロープは、規格化されたスロープ値で表現するこ
とができる。例えば、０はスロープを形成しない場合に
対応する。この場合、オペレータは、入力に対して何も
作用しない（このようなオペレータを中立化された（ne
utralised）、或いは中立の（neutral）オペレータとい
う）。この対極として、最大値ｍａｘでは入力した曲線
の勾配が無限となる。すなわち、殆ど垂直に上昇或いは
下降する。この両極の間の任意のパラメータ値が、入力
した曲線に対して所望のスロープを形成するために対応
付けられる。 −シフトオペレータ（OPsu、OPsd、OIsu、OIsd）の場
合：入力した輪郭に対する、基本周波数（ピッチについ
て）又は強度の絶対値で示すシフトアップ又はシフトダ
ウンの量。対応するパラメータは、ピッチ軸又は強度軸
での増加単位又は減少単位とすることができる。

【０１１５】Ｆｉｇ.８は、音節の継続時間長（又は時
間）に対してオペレータＯＤを適用した効果を図示した
ものである。この図では、継続時間長オペレータを適用
する前と後の音節の継続時間長（水平な線が時間ｔ１の
長さを表す）をそれぞれ左の列と右の列に示している。

【０１１６】この継続時間長オペレータは、以下のよう
なものとすることができる。 −音節の継続時間長を長くする延長オペレータ。その増
加量は、パラメータＤ（正のＤパラメータという）で表
される。例えば、継続時間長の初期値がミリ秒で表され
ている場合には、Ｄを単に初期値に加える継続時間長の
ミリ秒数とすることができる。これにより、オペレータ
は、当該音節の継続時間長ｔ１に値Ｄを加えるのみでよ
い。この結果、インターポレータ１４及びその後段にお
けるデータ処理により、その音節は、伸びたように発音
される。 −音節の継続時間長を長くする短縮オペレータ。その減
少量は、同じパラメータＤで表される（但し、この場合
は負のパラメータである）。例えば、継続時間長の初期
値がミリ秒で表されている場合には、Ｄを単に初期値か
ら引く継続時間長のミリ秒数とすることができる。これ
により、オペレータは、当該音節の継続時間長ｔ１から
値Ｄを引くのみでよい。この結果、インターポレータ１
４及びその後段におけるデータ処理により、その音節
は、縮まったように（短くなったように）発音される。

【０１１７】このオペレータも、パラメータＤとして０
を挿入することで、中立化し、又は中立のパラメータと
することができる。

【０１１８】なお、継続時間長パラメータは、延長と短
縮との２種類あるものとして示したが、その違いはパラ
メータＤの前がプラスかマイナスかの違いのみであるこ
とは明らかである。したがって、正の数と負の数とを取
り得る場合には、同じオペレータメカニズムで両方のオ
ペレータ（延長及び短縮）の機能を得ることができる。

【０１１９】また、Ｄの取り得る値及び可能な変化量の
範囲は、要求に従って選択することができる。

【０１２０】以下では、オペレータＯＰ、ＯＩ、ＯＤの
パラメータ表示として、特定のオペレータの最後の文字
にそれぞれのオペレータ特有の接尾辞を付けた変数によ
り表現する。すなわち、Ｐｒｓは、登り坂オペレータＯ
Ｐｒｓの正の坂パラメータの値であり、Ｐｆｓは、下り
坂オペレータＯＰｆｓの負の坂パラメータの値である。
また、Ｐｓｕは、シフトアップオペレータＯＰｓｕの上
方シフト量の値であり、Ｐｓｄは、シフトダウンオペレ
ータＯＰｓｄの下方シフト量の値である。さらに、Ｄｄ
は、継続時間長延長オペレータＯＤｄの加算時間の値で
あり、Ｄｃは、継続時間長短縮オペレータＯＤｃの減算
（短縮）時間の値である。

【０１２１】実施例では、さらに細かいオペレータを用
いることでランダム選択部３８における確率Ｎを定め
る。この値は、０（選択される確率がない）から１（確
実に選択される）までの範囲から選ばれる。この値Ｎに
よって、再生する感情の性質にとって適切なものとなる
ように、出力音声においてアクセントの置かれる音節の
密度が制御される。

【０１２２】ここで、Ｆｉｇ.９Ａ，９Ｂは、Ｆｉｇ.５
に示すようなシステムに基づいて、音節データに対して
選択的に上述のオペレータを構成し適用する手順のフロ
ーチャートを示したものである。なお、Ｆｉｇ.９Ｂ
は、９Ａの続きである。

【０１２３】先ず、発声データファイル１０からの入力
音節データのロードを含む初期化フェーズＰ１から開始
される（ステップＳ２）。データは、例えば“ｂｅ”と
いう音節データの特徴を示したものである。すなわち、
Ｆｉｇ.４ａで示したように、“ｂｅ”の後にその音節
の通常の継続時間長を表す初期値ｔ１が続き、その後に
継続時間長ｔ１の５つの連続した間隔におけるピッチの
基本周波数を表す値Ｐ１からＰ５が続く。

【０１２４】次に、インターフェース３０を用いて、フ
レーズ又はパッセージによって伝える感情がロードされ
る（ステップＳ４）。このフレーズ又はパッセージは、
ロードされた音節データによってその一部が構成されて
いる。ここで、感情は、例えば「平静（calm）」、「悲
しみ（sad）」、「喜び（happy）」、「怒り（angr
y）」などである。さらにインターフェースは、例えば
重み値を設定することによる感情の程度を入力する（ス
テップＳ６）。

【０１２５】そしてシステムはユニバーサルオペレータ
フェーズＰ２に進む。このフェーズＰ２では、全ての音
節に対して一律にユニバーサルオペレータセットＯＳ
(Ｕ)が適用される。ここで、このユニバーサルオペレー
タセットＯＳ(Ｕ)は、Ｆｉｇ.６，８に示す全てのオペ
レータ、すなわち４つのピッチオペレータを構成するＯ
Ｐｒｓ、ＯＰｆｓ、ＯＰｓｕ、ＯＰｓｄと２つの継続時
間長オペレータを構成するＯＤｄ、ＯＤｃを含む。オペ
レータセットＯＳ(Ｕ)の各オペレータは、それぞれに対
応する値で、すなわち上述したようにそれぞれＰｒｓ
（Ｕ）、Ｐｆｓ（Ｕ）、Ｐｓｕ（Ｕ）、Ｐｓｄ（Ｕ）、
Ｄｄ（Ｕ）、Ｄｃ（Ｕ）でパラメータ化される（ステッ
プＳ８）。このステップは、これらのパラメータに数値
を割り当てることも含み、オペレータセット構成ユニッ
ト２６によって実行される。なお、オペレータセットＯ
Ｓ(Ｕ)についてのパラメータ値は、プログラムされた感
情及びその性質、並びに状況に応じた他の要素の機能と
して、オペレータパラメータ化ユニット８によって選択
される。

【０１２６】続いて、フレーズ或いはフレーズ群の全て
の音節に対して一律にユニバーサルオペレータセットＯ
Ｓ(Ｕ)が適用される（ステップＳ１０）。これは、その
音節データの数値ｔ１、Ｐ１−Ｐ５を変更する処理を含
む。ここでピッチオペレータについて説明すると、坂パ
ラメータＰｒｓ及びＰｆｓは、５つの異なる値に変換さ
れ、それぞれ値Ｐ１−Ｐ５に対して算術的に当てはめら
れる。これらの異なる値は、Ｐ１−Ｐ５の各値を動かす
ように選択される。但し、中間の値Ｐ３は、上述したよ
うに基本的には変化しない。例えば、登り坂パラメータ
の最初の２つの値は、ピッチの前半を下降させるために
負の値となり、最後の２つの値は、ピッチの後半を上昇
させるために正の値となる。これにより、Ｆｉｇ.６に
示すように、中間の時間において登り坂調子の発声が生
成される。なお、パラメータを構成する傾きの程度は、
これらの異なった値により表現される。これと逆ではあ
るが同様のアプローチが、下り坂オペレータに対しても
適用可能である。

【０１２７】ここで、シフトアップオペレータ又はシフ
トダウンオペレータは、坂オペレータを適用する前又は
後の何れで適用しても構わない。これらのオペレータ
は、５つのピッチの値Ｐ１−Ｐ５に対して、パラメータ
で規定される値を単純に加算し、又は減算する。なお、
オペレータは、排他的な対を形成する。すなわち、下り
坂オペレータが適用されている場合には登り坂オペレー
タは適用されない。シフトアップオペレータ、シフトダ
ウンオペレータ及び継続時間長オペレータについても同
様である。

【０１２８】オペレータの適用（すなわち、データパラ
メータｔ１、Ｐ１−Ｐ５の修正計算）は、音節データ変
更ユニット４０によって行われる。

【０１２９】音節に対してユニバーサルオペレータセッ
トＯＳ(Ｕ)が適用された後、さらなる処理が必要であれ
ば、その音節は一時的に保持される。

【０１３０】次にシステムは確率的アクセント化フェー
ズＰ２に進む。このフェーズＰ２では、別のオペレータ
アクセント化パラメータセットＯＳ(ＰＡ)が準備され
る。このオペレータセットは、ユニバーサルオペレータ
セットと同様のものであるが、パラメータとして別の値
を有する。ユニバーサルオペレータセットでの取り決め
を用いると、オペレータセットＯＳ(ＰＡ)は、それぞれ
対応する値、すなわちＰｒｓ（ＰＡ）、Ｐｆｓ（Ｐ
Ａ）、Ｐｓｕ（ＰＡ）、Ｐｓｄ（ＰＡ）、Ｄｄ（Ｐ
Ａ）、Ｄｃ（ＰＡ）でパラメータ化される。これらのパ
ラメータ値は、感情及びその感情の度合い、並びにイン
ターフェース３０から供給されたその他の要素の機能と
して、オペレータパラメータ化ユニット２８によって同
様に計算される。このパラメータは、一般的に、意図し
ている感情に従って発話文に対してある種のイントネー
ション（韻律）を与えるために選択される。また、確率
的アクセント化オペレータセットＯＳ(ＰＡ)のさらなる
パラメータは、先に定義した確率Ｎである。この値は、
感情及びその感情の度合いの他、例えばその音節ファイ
ルの性質によって変化する。

【０１３１】パラメータが得られると、それらのパラメ
ータは、オペレータセット構成部２６に供給され、確率
的アクセント化パラメータセットＯＳ(ＰＡ)が完全に構
成される（ステップＳ１２）。

【０１３２】次に、このオペレータセットＯＳ(ＰＡ)を
どの音節に対して適用するかがランダム選択ユニット３
８で決定される（ステップＳ１４）。ランダム選択ユニ
ット３８は、このオペレータセットでアクセント化する
ランダムに選ばれた音節のリストを有している。上述し
たように、候補となる音節は、−無意味語であるか、又
はアクセントを置くことが禁止されている音節がない場
合には全ての基本音声要素、又は−ファイルで特定され
ている場合には、許されている（アクセント可能な）音
節である。通常これは、有意味語の場合に該当する。

【０１３３】候補からランダムに選択された音節は、音
節データ変更ユニット４０によって、確率的アクセント
化オペレータセットＯＳ(ＰＡ)で処理される（ステップ
Ｓ１６）。実際の処理は、含まれるパラメータ値が異な
る他は、上述したユニバーサルオペレータセットと技術
思想として同様である。

【０１３４】ここで、確率的アクセント化オペレータセ
ットＯＳ(ＰＡ)は、既にユニバーサルオペレータセット
ＯＳ(Ｕ)の適用された音節に対して適用される。このこ
とは、ステップＳ１４で既に選択されたファイルの音節
データアイテムＳｉについて、数学的には、OS(PA).OS
(U).Si→Sipaccと表される。ここで、Sipaccは、音節に
アクセントが置かれた結果のデータを示す。

【０１３５】そして、音節データ変更ユニット４０で
は、発声データファイル１０に含まれるフレーズの最初
と最後の単語を除く全ての音節について、以下のような
修正された音節データを生成する。 −OS(U).S→Spna：ステップＳ１４で選択されていない
音節データの場合。ここで、Spnaは処理後のアクセント
の置かれていない音節を示す。 −OS(PA).OS(U).S→Spacc：ステップＳ１４で選択され
た音節データの場合。ここで、Spaccは処理後のアクセ
ントの置かれた音節を示す。

【０１３６】最後に、フレーズの最初と最後の音節に対
してのみアクセント化処理を行うフェーズＰ４に進む。
ここで、フレーズが有意味語で構成されている場合、こ
のフェーズＰ４では、フレーズ内の最初と最後の単語の
全ての音節にアクセントが置かれる。なお、フレーズと
は、意味を有する文の通常の文法的な意味によって、す
なわち話すときの間（ポーズ）によって決まるものであ
る。これに対して、無意味語の場合、フレーズとは、間
（ポーズ）で特徴付けられる発声の最初と最後とによっ
て決まるものである。典型的には、このようなフレーズ
は、約１秒間乃至３，４秒間続く。一方、無意味語の場
合、このフェーズＰ４では、少なくとも最初と最後の音
節、好ましくは最初のｍ個と最後のｎ個の音節にアクセ
ントが置かれる。ここで、ｍ及びｎは、約２又は３であ
り、同じ値であっても異なる値であってもよい。

【０１３７】そして、以前のフェーズと同様に、オペレ
ータＯＰｒｓ、ＯＰｆｓ、ＯＰｓｕ、ＯＰｓｄ、ＯＤ
ｄ、ＯＤｃの特定のパラメータで処理される。このオペ
レータは、最初と最後の音節アクセント化オペレータセ
ットＯＳ(ＦＬ)に含まれ、それぞれ対応する値、すなわ
ちＰｒｓ（ＦＬ）、Ｐｆｓ（ＦＬ）、Ｐｓｕ（ＦＬ）、
Ｐｓｄ（ＦＬ）、Ｄｄ（ＦＬ）、Ｄｃ（ＦＬ）でパラメ
ータ表示される（ステップＳ１８）。これらのパラメー
タ値は、感情及びその感情の度合い、並びにインターフ
ェース３０から供給されたその他の要素の機能として、
オペレータパラメータ化部２８によって同様に計算され
る。

【０１３８】続いて、得られたオペレータセットＯＳ
(ＦＬ)がフレーズ毎に最初と最後の音節に対して適用さ
れる（ステップＳ２０）。これらの音節は、最初／最後
音節検出部３４によって特定される。

【０１３９】ここで、オペレータセットＯＳ(ＦＬ)が適
用された音節データの中には、ステップＳ１０において
ユニバーサルオペレータセットＯＳ(Ｕ)が適用されたも
のが存在する可能性がある。さらに、最初と最後の音節
がステップＳ１４のランダム選択で選ばれ、確率的アク
セント化オペレータセットＯＳ(ＰＡ)が適用された可能
性もある。

【０１４０】したがって、最初と最後の音節を処理する
場合には、以下に示すような２通りの可能性が考えられ
る。なお、以下の記号は上述と同様である。 −第１の可能性：先ずオペレータセットＯＳ(Ｕ)で処理
し、次にオペレータセットＯＳ(ＦＬ)で処理する。すな
わち、OS(FL).OS(U).S→Spfl(1)。 −第２の可能性：オペレータセットＯＳ(Ｕ)、ＯＳ(Ｐ
Ａ)、ＯＳ(ＦＬ)で連続的に処理する。すなわち、OS(F
L).OS(PA).OS(U).S→Spfl(2)。

【０１４１】この簡便なオペレータベースのアプローチ
によって、無意味語と有意味語の双方において、より複
雑なシステムと少なくとも比較し得る程度の結果が得ら
れている。

【０１４２】ところで、所望の感情を表現するためのパ
ラメータの選択は、非常に受動的なものであり、発声方
法や言語等によって大きく異なる。しかしながら、リア
ルタイム処理にあまり時間のかからない簡単且つ洗練さ
れたパラメータを有しているため、多くのパラメータの
組み合わせを試し、最も満足のいくオペレータセットを
見つけることも容易である。

【０１４３】一例として、本件出願人は、以下のような
パラメータによってよい結果が得られることを発見し
た。 −悲しみ（Sad）：ユニバーサルオペレータセットのピ
ッチ＝傾きの小さい下り勾配継続時間長オペレータ＝延長アクセント化の選択確率Ｎ＝低い −平静（Calm）：オペレータセットを適用しないか、又
は僅かにパラメータ化されたオペレータセットを適用す
る −喜び（Happy）：ユニバーサルオペレータセットのピ
ッチ＝適度に傾きの大きい登り勾配ユニバーサルオペレータセットの継続時間長＝短縮アクセント化オペレータセットの継続時間長＝延長 −怒り（Angry）：全てのオペレータセットのピッチ＝
適度に傾きの大きい下り勾配全てのオペレータセットの継続時間長＝短縮

【０１４４】この例で特定していないオペレータセット
については、全てのオペレータセットに対して、一般的
なタイプのパラメータを用いることができる。一般的に
言えば、変化のタイプ（登り坂、短縮など）は、全ての
オペレータセットで同様であり、実際の値のみが異な
る。通常、ユニバーサルオペレータセットは、変化が最
小となるようにこの値を選択し、最初と最後の音節アク
セント化オペレータは、変化が最大となるようにこの値
を選択する。そして、確率的アクセントかオペレータセ
ットのピッチは、中程度の変化を生じさせる。

【０１４５】なお、このシステムでは、用いられている
パラメータに応じて、強度オペレータＯＩをオペレータ
セットに用いることもできる。

【０１４６】また、インターフェース３０は、他の制御
を行うためにコンピュータインターフェースに統合する
こともできる。そして、ユーザ３２にシステムを調整可
能とするために、ここから上述した様々なオペレータセ
ットのパラメータを直接選択可能とすることもできる。
このインターフェースは、例えば様々なパラメータにつ
いての傾きの値やシフトの値、或いは短縮／延長の値を
視覚的に表示することで、ユーザフレンドリーなものと
なる。

【０１４７】さらに、Ｆｉｇ.６，７，８に示され、Ｆ
ｉｇ.９ａ，９ｂで用いられた基本的なオペレータが分
割されているのは、より理解を容易にするためであるこ
とは明らかである。通常は、登り勾配オペレータ及び下
り勾配オペレータといった相補的なオペレータ対は、１
つのオペレータに統合し、パラメータに応じて登り勾配
又は下り勾配を生じさせることができる。同様に、シフ
トアップオペレータ及びシフトダウンオペレータについ
ても、１つのオペレータに統合し、パラメータに応じて
ピッチ又は強度をシフトさせることができる。

【０１４８】さらにまた、上述した例では音声データに
ついての所定のフォーマットを示したが、他の任意のフ
ォーマットが適用可能であることは明らかである。例え
ば、例で示されたピッチ或いは強度の値の数は５でなく
てもよく、典型的にはその値の数は１から５以上まで変
化する。

【０１４９】また、本発明は、合成される音声を表す数
値データが予め保存されていることを前提として記載し
たが、デジタル又はアナログである発話に関する電気信
号を扱うシステムとすることもできる。この場合、上述
のオペレータは、ピッチ、強度、或いは振幅波形に対し
て直接的に作用する。これは、デジタル音声処理器、又
はランプ波発生器、レベルシフタ、遅延線等といったア
ナログ回路によって実現可能である。

【０１５０】この実施例は、例えばペット型ロボットや
他の知的電子生物、教育用音声システム、スタジオ制作
（幼児語、音声アニメーション、ナレーションなど）、
テキスト（書籍、記事、手紙など）を音読する装置、音
響実験システム（音響心理学研究など）、ＰＣ、楽器そ
の他の機器における人間的なコンピュータインターフェ
ース、或いはその他の装置など、多数の装置に適用可能
である。

【０１５１】また、実施例の形式は、完全に合成された
音声を再生する独立機器（Ｆｉｇ.３参照）とすること
もでき、既存の音声合成に対する付属的な処理とするこ
ともでき、また、媒体に記録したソフトウェアモジュー
ル、或いはダウンロード可能な形式として対応した処理
システムにおいて実行可能とすることができる。

【図面の簡単な説明】

【図１】Ｆｉｇ.１ａは、本件出願人が先に出願し、本
出願の優先権主張の基礎とされている欧州特許出願に記
載されている手順に従って発声する文を生成するための
プログラムの一例である。

【図２】Ｆｉｇ.１ｂは、本件出願人が先に出願し、本
出願の優先権主張の基礎とされている欧州特許出願に記
載されている手順に従って発声する文を生成するための
プログラムの一例である。

【図３】Ｆｉｇ.２は、力価及び奮起を表す直角軸にお
いて基本感情が何処に位置するかを示す図である。

【図４】Ｆｉｇ.３は、本発明が適用される音声合成シ
ステムの機能ユニットを示すブロック図である。

【図５】Ｆｉｇ.４ａは、Ｆｉｇ.３に示すシステムで利
用される、音節を特定する典型的なデータ構造を示す図
である。

【図６】Ｆｉｇ.４ｂは、補間処理後にＦｉｇ.４ａに示
すデータからどのようにピッチ信号輪郭が生成されるか
を示す図である。

【図７】Ｆｉｇ.５は、本発明の好ましい実施例におけ
る、オペレータベースの感情合成装置を示すブロック図
である。

【図８】Ｆｉｇ.６は、Ｆｉｇ.５のシステムで用いられ
るピッチオペレータを概略的に示す図である。

【図９】Ｆｉｇ.７は、Ｆｉｇ.５のシステムで用いられ
る強度オペレータを概略的に示す図である。

【図１０】Ｆｉｇ.８は、Ｆｉｇ.５のシステムで用いら
れる継続時間長オペレータを概略的に示す図である。

【図１１】Ｆｉｇ.５のシステムにより音節データに対
して施される感情生成処理を説明するフローチャートで
ある。

【図１２】Ｆｉｇ.５のシステムにより音節データに対
して施される感情生成処理を説明するフローチャートで
ある。

Claims

【特許請求の範囲】

【請求項１】音声を発する前に、その基本音声要素
（Ｓ）の少なくとも１つを選択的に変更することで、音
声により伝えられる感情を合成する方法であって、上記変更は、オペレータ適用ステップ（Ｓ１０，Ｓ１
６，Ｓ２０）においてなされ、当該ステップでは、少な
くとも１つのオペレータ（ＯＰ，ＯＤ；ＯＩ）が少なく
とも１つの上記基本音声要素（Ｓ）に対して適用され、
合成する感情に従ってその特徴に特定の変更が加えられ
ることを特徴とする前記方法。
【請求項２】請求項１記載の方法において、上記特徴は、上記基本音声要素のピッチと継続時間長と
の少なくとも１つであることを特徴とする前記方法。
【請求項３】請求項２記載の方法において、上記オペレータ適用ステップ（Ｓ１０，Ｓ１６，Ｓ２
０）では、少なくとも１つのオペレータセット（ＯＳ
(Ｕ)，ＯＳ(ＰＡ)，ＯＳ(ＦＬ)）が構成され、上記オペレータセットは、上記基本音声要素（Ｓ）にお
けるピッチの特徴を変更するためのオペレータ（ＯＰｆ
ｓ，ＯＰｓｕ，ＯＰｓｄ）の少なくとも１つ、及び／又
は上記基本音声要素（Ｓ）における継続時間長の特徴を
変更するためのオペレータ（ＯＤｄ，ＯＤｃ）の少なく
とも１つを含むことを特徴とする前記方法。
【請求項４】請求項１乃至請求項３のいずれか１項記
載の方法において、上記オペレータ適用ステップ（Ｓ１０，Ｓ１６，Ｓ２
０）では、上記基本音声要素における強度の特徴を変更
するためのパラメータ（ＯＩｒｓ，ＯＩｆｓ，ＯＩｓ
ｕ，ＯＩｓｄ）の少なくとも１つが適用されることを特
徴とする前記方法。
【請求項５】請求項１乃至請求項４のいずれか１項記
載の方法において、上記オペレータ（ＯＰ，ＯＩ，ＯＤ）の少なくとも１つ
をパラメータ化するステップ（Ｓ８，Ｓ１２，Ｓ１８）
をさらに有し、当該ステップでは、合成する感情に従っ
て、上記オペレータによる上記特定の変更の程度に影響
する数値パラメータにパラメータ化されることを特徴と
する前記方法。
【請求項６】請求項１乃至請求項５のいずれか１項記
載の方法において、上記オペレータ適用ステップ（Ｓ１０，Ｓ１６，Ｓ２
０）では、上記基本音声要素（Ｓ）のピッチを設定され
た勾配特徴（Ｐｒｓ，Ｐｆｓ）に従って選択的に上昇又
は下降させるオペレータ（ＯＰｒｓ，ＯＰｆｓ）が適用
されることを特徴とする前記方法。
【請求項７】請求項１乃至請求項６のいずれか１項記
載の方法において、上記オペレータ適用ステップ（Ｓ１０，Ｓ１６，Ｓ２
０）では、上記基本音声要素（Ｓ）のピッチを設定され
た値（Ｐｓｕ，Ｐｓｄ）だけ一様に選択的に上昇又は下
降させるオペレータ（ＯＰｓｕ，ＯＰｓｄ）が適用され
ることを特徴とする前記方法。
【請求項８】請求項１乃至請求項７のいずれか１項記
載の方法において、上記オペレータ適用ステップ（Ｓ１０，Ｓ１６，Ｓ２
０）では、上記基本音声要素（Ｓ）の継続時間長（ｔ
１）を設定された値（Ｄ）だけ選択的に長くし又は短く
するオペレータ（ＯＤｄ，ＯＤｃ）が適用されることを
特徴とする前記方法。
【請求項９】請求項１乃至請求項８のいずれか１項記
載の方法において、ユニバーサルフェーズ（Ｐ２）を有し、当該フェーズで
は、上記音声の所定の系列を構成する全ての基本音声要
素（Ｓ）に対して、少なくとも１つの上記オペレータ
（ＯＰ(Ｕ)，ＯＤ(Ｕ)）が適用される（Ｓ１０）ことを
特徴とする前記方法。
【請求項１０】請求項９記載の方法において、上記少なくとも１つのオペレータは、同じようにパラメ
ータ化され（Ｓ８）、上記音声の所定の系列を構成する
全ての基本音声要素（Ｓ）に対して適用されることを特
徴とする前記方法。
【請求項１１】請求項１乃至請求項１０のいずれか１
項記載の方法において、確率的アクセント化フェーズ（Ｐ３）を有し、当該フェ
ーズでは、アクセント化するように選択された基本音声
要素（Ｓ）に対してのみ、少なくとも１つの上記オペレ
ータ（ＯＰ(ＰＡ)，ＯＤ(ＰＡ)）が適用される（Ｓ１
６）ことを特徴とする前記方法。
【請求項１２】請求項１１記載の方法において、上記選択された基本音声要素（Ｓ）は、候補となる基本
音声要素（Ｓ）からランダム選択（Ｓ１４）により選択
されることを特徴とする前記方法。
【請求項１３】請求項１２記載の方法において、上記ランダム選択では、プログラム可能な確率（Ｎ）で
基本音声要素（Ｓ）が選択されることを特徴とする前記
方法。
【請求項１４】請求項１１又は請求項１２記載の方法
において、上記候補となる基本音声要素は、−基本音声要素のソー
ス（１０）が何れかの要素にアクセントを置くことを禁
止していない場合には全ての基本音声要素、又は−基本
音声要素のソース（１０）が何れかの要素にアクセント
を置くことを禁止している場合には禁止されていない基
本音声要素であることを特徴とする前記方法。
【請求項１５】請求項１１乃至請求項１４のいずれか
１項記載の方法において、確率的アクセント化フェーズ（Ｐ３）における上記少な
くとも１つのオペレータ（ＯＰ(ＰＡ)，ＯＤ(ＰＡ)）
が、同じようにパラメータ化される（Ｓ１２）ことを特
徴とする前記方法。
【請求項１６】請求項１乃至請求項１５のいずれか１
項記載の方法において、最初と最後の基本音声要素をアクセント化するフェーズ
（Ｐ４）を有し、当該フェーズでは、上記音声の所定の
系列の最初と最後を構成する少なくとも１つの基本音声
要素のグループに対してのみ、少なくとも１つの上記オ
ペレータ（ＯＰ(ＦＬ)，ＯＤ(ＦＬ)）が適用される（Ｓ
１０）ことを特徴とする前記方法。
【請求項１７】請求項９乃至請求項１６のいずれか１
項記載の方法において、上記音声の所定の系列は、フレーズであることを特徴と
する前記方法。
【請求項１８】請求項９乃至請求項１７のいずれか１
項記載の方法において、上記基本音声要素（Ｓ）は、音節又は音素に対応するこ
とを特徴とする前記方法。
【請求項１９】請求項９乃至請求項１８のいずれか１
項記載の方法において、上記基本音声要素は、有意味語に対応することを特徴と
する前記方法。
【請求項２０】請求項９乃至請求項１９のいずれか１
項記載の方法において、上記基本音声要素は、無意味語に対応することを特徴と
する前記方法。
【請求項２１】請求項１乃至請求項２０のいずれか１
項記載の方法において、上記基本音声要素は、継続時間長（ｔ１）及び／又は上
記基本音声要素の上記継続時間長の特定部分若しくは全
部に亘って存在するピッチ値（Ｐ１−Ｐ５）の少なくと
も１つを特定するフォーマット化されたデータ値として
表されることを特徴とする前記方法。
【請求項２２】請求項２０記載の方法において、上記オペレータ（ＯＰ，ＯＰ，ＯＤ）は、上記データ値
を選択的に変更することを特徴とする前記方法。
【請求項２３】請求項２１又は請求項２２記載の方法
において、上記基本音声要素のデータ構造及び上記補間段階（１
４）の前段における処理が変更されず、上記補間段階で
は、合成する感情に従って変更されたデータが、上記基
本音声要素（Ｓ）のソース（１０）から任意に得られた
データと同様の手法で処理されることを特徴とする前記
方法。
【請求項２４】音声を発する前に、その基本音声要素
（Ｓ）の少なくとも１つを選択的に変更する手段を用い
ることで、音声により伝えられる感情を合成する装置で
あって、上記手段は、オペレータ適用手段（２２）を有し、当該
オペレータ適用手段は、少なくとも１つのオペレータ
（ＯＰ，ＯＤ；ＯＩ）を少なくとも１つの上記基本音声
要素（Ｓ）に対して適用し（Ｓ１０，Ｓ１６，Ｓ２
０）、合成する感情に従ってその特徴に特定の変更を加
えることを特徴とする前記装置。
【請求項２５】請求項２４記載の装置において、上記オペレータ適用手段（２２）は、少なくとも１つの
オペレータセット（ＯＳ(Ｕ)，ＯＳ(ＰＡ)，ＯＳ(Ｆ
Ｌ)）を構成する手段（２６，２８）を有し、上記オペレータセットは、上記基本音声要素（Ｓ）にお
けるピッチの特徴を変更するためのオペレータ（ＯＰｆ
ｓ，ＯＰｓｕ，ＯＰｓｄ）の少なくとも１つ、及び／又
は上記基本音声要素（Ｓ）における継続時間長の特徴を
変更するためのオペレータ（ＯＤｄ，ＯＤｃ）の少なく
とも１つを含むことを特徴とする前記装置。
【請求項２６】請求項２４又は請求項２５記載の装置
において、上記基本音声要素（Ｓ）のピッチを設定された勾配特徴
（Ｐｒｓ，Ｐｆｓ）に従って選択的に上昇又は下降させ
るオペレータ（ＯＰｒｓ，ＯＰｆｓ）を有することを特
徴とする前記装置。
【請求項２７】請求項２４乃至請求項２６のいずれか
１項記載の装置において、上記基本音声要素（Ｓ）のピッチを設定された値（Ｐｓ
ｕ，Ｐｓｄ）だけ一様に選択的に上昇又は下降させるオ
ペレータ（ＯＰｓｕ，ＯＰｓｄ）を有することを特徴と
する前記装置。
【請求項２８】請求項２４乃至請求項２７のいずれか
１項記載の装置において、上記基本音声要素（Ｓ）の継続時間長（ｔ１）を設定さ
れた値（Ｄ）だけ選択的に長くし又は短くするオペレー
タ（ＯＤｄ，ＯＤｃ）を有することを特徴とする前記装
置。
【請求項２９】請求項２４乃至請求項２８のいずれか
１項記載の装置において、以下に示す３つの段階、すなわち、ｉ）上記音声の所定の系列を構成する全ての基本音声要
素（Ｓ）に対して、少なくとも１つの上記オペレータ
（ＯＰ(Ｕ)，ＯＤ(Ｕ)）が適用される（Ｓ１０）ユニバ
ーサルフェーズ（Ｐ２）、 ii）アクセント化するように選択された基本音声要素
（Ｓ）に対してのみ、少なくとも１つの上記オペレータ
（ＯＰ(ＰＡ)，ＯＤ(ＰＡ)）が適用される（Ｓ１６）確
率的アクセント化フェーズ（Ｐ３）、及びiii）上記音
声の所定の系列の最初と最後を構成する少なくとも１つ
の基本音声要素のグループに対してのみ、少なくとも１
つの上記オペレータ（ＯＰ(ＦＬ)，ＯＤ(ＦＬ)）が適用
される（Ｓ１０）最初と最後の基本音声要素をアクセン
ト化するフェーズ（Ｓ４）の少なくとも１つを実行する
ことを特徴とする前記装置。
【請求項３０】請求項２４乃至請求項２９のいずれか
１項記載の装置において、上記オペレータ適用手段（２２）は、継続時間長（ｔ
１）及び／又は上記基本音声要素の上記継続時間長の特
定部分若しくは全部に亘って存在するピッチ値（Ｐ１−
Ｐ５）の少なくとも１つを特定する、外部から供給され
たフォーマット化されたデータ値を処理することを特徴
とする前記装置。
【請求項３１】請求項３０記載の装置において、上記オペレータ適用手段（２２）は、上記基本音声要素
のデータ構造及び上記補間段階（１４）の前段における
処理を変更せず、上記補間段階では、合成する感情に従
って変更されたデータが、上記基本音声要素（Ｓ）のソ
ース（１０）から任意に得られたデータと同様の手法で
処理されることを特徴とする前記装置。
【請求項３２】請求項１乃至請求項２３のいずれか１
項記載の方法を実行するソフトウェアモジュール手段を
有することを特徴とするデータ記録媒体。