JP2003084800A - 音声による感情合成方法及び装置 - Google Patents

音声による感情合成方法及び装置

Info

Publication number
JP2003084800A
JP2003084800A JP2002206012A JP2002206012A JP2003084800A JP 2003084800 A JP2003084800 A JP 2003084800A JP 2002206012 A JP2002206012 A JP 2002206012A JP 2002206012 A JP2002206012 A JP 2002206012A JP 2003084800 A JP2003084800 A JP 2003084800A
Authority
JP
Japan
Prior art keywords
operator
basic
speech
pitch
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002206012A
Other languages
English (en)
Inventor
Pierre Yves Oudeyer
イブス オードイェ ピエール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony France SA
Original Assignee
Sony France SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20010401880 external-priority patent/EP1256932B1/en
Application filed by Sony France SA filed Critical Sony France SA
Publication of JP2003084800A publication Critical patent/JP2003084800A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Toys (AREA)

Abstract

(57)【要約】 (修正有) 【課題】音声を発する前に、オペレータ適用ステップに
おいてその基本音声要素の少なくとも1つを選択的に変
更することで、音声により伝えられる感情を合成する。 【解決手段】少なくとも1つのオペレータが少なくとも
1つの上記基本音声要素に対して適用され、合成する感
情に従ってその特徴に特定の変更が加えられる。このこ
とは、基本音声要素の強度特徴を変更するオペレータの
少なくとも1つ、及び/又は基本音声要素のピッチを設
定された勾配特徴に従って選択的に上昇又は下降させる
選択的に上昇若しくは下降させるオペレータ、及び/又
は基本音声要素のピッチを設定された値だけ一様に選択
的に上昇又は下降させるオペレータ、及び/又は基本音
声要素の継続時間長を設定された値だけ選択的に長くし
又は短くするオペレータを適用することで実現される。

Description

【発明の詳細な説明】
【0001】本発明は、制御可能な感情内容を伴う音声
合成、或いは音声再生に関する。より詳細には、本発明
は、合成され若しくは収集された音声に対して制御可能
に感情表現を加える方法及び装置、又は会話その他の音
声を発する物体の話しぶりをより自然若しくは面白くす
ることに関する。
【0002】人間の声が感情に大きく影響を受けること
はよく知られているが、それは意識的(例えば、怒りを
表現するために声を強める)な場合もあれば、感情若し
くはそれによって生じる口渇、呼吸パターンの変化など
に対する身体的な反応という無意識的な場合もある。こ
のような感情に由来する音声や話しぶりの変化というも
のは、話者によって伝えられる情報に受動的な次元を加
えると同時に、上手くコミュニケーションをとるために
有用なものである。
【0003】ところで、人間や動物の行動を模して形成
されたペット型のロボット装置など、発話によりコミュ
ニケーションをとる、かつてない複雑なものが出現して
きて、そのコミュニケーションに感情表現を加えるため
の技術的手段に対する要求が高まってきている。実際
上、ロボット装置等における機能として発話に感情表現
を加えることは、人間との親密性を高めるために非常に
有効に働く。また、単に社交性の向上だけではなく、自
身の満足や不満足を示すことで人間を刺激し、その感情
表現に反応するように人間をし向けることができる。こ
のような機能は、学習機能を持つロボット装置において
は有効に作用する機能になる。
【0004】また、発話に感情表現を加えることは、何
らかの理由により文字が読めない人のためにテキスト文
を読むようなコンピュータシステムにおいても有効であ
る。例えば、小説や雑誌の記事を読むようなシステムの
場合、読んでいる音声が感情をシミュレートしたもので
あれば、聞いているときの喜びを増進させることができ
る。
【0005】ここで、従来、発話に感情を加えるために
3つのアプローチが知られている。
【0006】1番目のアプローチは、イントネーション
を決定する言語学的な理論に基づくものであるが、最も
複雑であり、恐らく最も満足のいく結果が得られないも
のである。
【0007】2番目は、人間が様々な感情を伴って発し
たフレーズを格納したデータベースを用いる。特定のフ
レーズを所望の感情内容で発する場合には、対応する感
情において最も近いフレーズがデータベースから選ばれ
る。そして、ピッチの輪郭(contour)が測定され、選
択されたフレーズを生成するためにコピーされる。この
アプローチは、主として、データベースと生成されたフ
レーズとが非常に類似した文法構造を有する場合に利用
することができるが、実施が困難でもある。
【0008】3番目のアプローチは、録音された人間の
声からサンプルを抽出する音声合成器を利用するもので
あり、最も効果的と考えられている。この合成器は、所
望の発話文に対応する音声系列を再合成するために、人
間の声から得られた音素、或いは短い音節を連結する。
また、そのデータベースには、中立(neutral)な音声
のみならず、様々な感情で発せられた音声が格納されて
いる。しかしながら、そのシステムには2つの基本的な
制約がある。先ず第1に、そのシステムは実施が困難で
ある。そして第2に、そのデータベースは、実用上の理
由により通常様々な人間の声によって構成される。この
ことは、合成音は常に同じ発話者から発せられると聴取
者が考えている場合に欠点となり得る。
【0009】この他、所定数のパラメータを制御可能と
する音声合成ソフトウェアも存在するが、閉じたアーキ
テクチャの範囲内であり、新しいアプリケーションを開
発することは困難である。
【0010】そこで、以下に説明する本発明では、実施
が容易であり、納得のいく結果が得られ、パラメータ化
が容易な新たなアプローチを提案する。
【0011】本発明では、単にパラメータを操作するの
みで、意味を持った理解可能な言葉で発せられた合成音
声に感情を伴わせて再生することができる。この音声
は、自然に聞こえる音声であっても、例えば漫画のキャ
ラクターや声を発する動物又は人間でない生物によって
発せられたような、非常に歪んだ誇張された音声であっ
てもよい。また、本発明は、例えば幼児語(babble)の
ような意味を持たない言葉に対して感情を付与する場合
にも適用可能である。
【0012】より具体的には、本発明の第1の側面は、
音を発する前にその音を構成している要素の少なくとも
1つを選択的に変更することで、音に現れる感情を合成
する方法を提供するものである。
【0013】ここで、上述の変更は、オペレータを適用
するステップで行われる。このステップでは、合成する
感情に従って、少なくとも1つのオペレータが少なくと
も1つの基本音声要素に対して選択的に適用され、その
ピッチや継続時間長といった特徴に特定の変更が加えら
れる。
【0014】また、オペレータ適用ステップでは、少な
くとも1つのオペレータセットを構成することが好まし
い。このオペレータセットには、基本音声要素のピッチ
を変更するための少なくとも1つのオペレータ、及び/
又は基本音声要素の継続時間長を変更するための少なく
とも1つのオペレータが含まれる。
【0015】さらに、オペレータ適用ステップでは、基
本音声要素の強さを変更する少なくとも1つのオペレー
タを適用することもできる。
【0016】実施例では、少なくとも1つのオペレータ
を数値パラメータとしてパラメータ化するステップを有
しており、この数値パラメータにより、合成する感情に
応じてそのオペレータによって特定の変更を加える程度
が影響される。
【0017】オペレータ変更ステップでは、以下に示す
ような、−時間経過に伴い、基本音声要素のピッチを設
定された勾配特徴に従って選択的に上昇又は下降させる
オペレータ、及び/又は−時間経過に伴い、基本音声要
素のピッチを設定された値だけ一様に選択的に上昇又は
下降させるオペレータ、及び/又は−基本音声要素の継
続時間長を設定された値だけ選択的に長くし、又は短く
するオペレータを適用することが好ましい。
【0018】本発明の方法は、決められた音系列を構成
する基本音声要素の全てに対して、少なくとも1つのオ
ペレータを機械的に適用するというユニバーサルフェー
ズを有してもよい。
【0019】このフェーズでは、少なくとも1つのオペ
レータが同じようにパラメータ化されて、決められた音
系列を構成する基本音声要素の全てに対して適用され
る。
【0020】また、本発明の方法は、確率的アクセント
化フェーズを有してもよい。このフェーズでは、アクセ
ントを置くように選択された基本音声要素に対しての
み、少なくとも1つのオペレータが適用される。
【0021】その基本音声要素は、候補となる基本音声
要素からランダムに選択することができ、好ましくはプ
ログラム可能な確率で基本音声要素を選択する。
【0022】ここで、候補となる基本音声要素は、−基
本音声要素のソースが何れかの要素にアクセントを置く
ことを禁止していない場合には全ての基本音声要素、又
は−基本音声要素のソースが何れかの要素にアクセント
を置くことを禁止している場合には禁止されていない基
本音声要素である。
【0023】この確率的なアクセント化段階において
も、上述した少なくとも1つのオペレータを同様にパラ
メータ化するようにしても構わない。
【0024】また、本発明の方法は、最初と最後の基本
音声要素をアクセント化するフェーズを有してもよい。
このフェーズでは、上述の決められた音系列の最初と最
後を構成する少なくとも1つの基本音声要素から成る要
素群に対してのみ、少なくとも1つのオペレータが適用
される。なお、決められた音系列とは、例えばフレーズ
である。
【0025】ここで、上述の基本音声要素は、音節又は
音素に対応する。
【0026】また、上述の決められた音系列は、意味を
持つ発話文であっても意味を持たない発話文であっても
よい。
【0027】さらに、上述の基本音声要素は、継続時間
長及び/又は少なくとも1つのピッチの値を特定するフ
ォーマット化されたデータ値として与えられる。ここ
で、ピッチの値は、上述した基本音声要素の特定部分、
或いは基本音声要素の全体に亘って存在する。
【0028】この場合、上述のオペレータは、このデー
タ値を選択的に変更するように作用する。
【0029】本発明の方法では、基本音声要素のデータ
フォーマットも変更されず、補間段階の前段における処
理も変更されない。補間段階では、合成する感情に従っ
て変更された基本音声要素と、任意のソースから得られ
た基本音声要素とが同様に扱われる。
【0030】次に、本発明の第2の側面は、音を発する
前にその音を構成している要素の少なくとも1つを選択
的に変更する手段を備えることで音に現れる感情を合成
する装置を提供するものである。
【0031】ここで、上述の変更手段は、オペレータを
適用する手段を有する。この手段は、合成する感情に合
わせて、少なくとも1つのオペレータを少なくとも1つ
の基本音声要素に対して選択的に適用し、そのピッチや
継続時間長といった特徴に特定の変更を加える。
【0032】上述した本発明の方法(第1の側面)にお
ける付加的な特徴は、必要に応じて変更を加えて第2の
側面の装置に適用することができる。
【0033】続いて、本発明の第3の側面は、上述した
第1の側面における方法を実行するソフトウェアモジュ
ール手段を有するデータ記録媒体を提供するものであ
る。
【0034】本発明及びその利点は、以下に説明する好
ましい実施例と添付図面とにより一層明らかにされるで
あろう。なお、この実施例は、本発明を限定するもので
はない。
【0035】ところで、本発明は、本件出願人による2
001年5月11付けの欧州特許出願第01 401 203.3号
の目的を発展させたものであり、本出願は、この先の出
願に対する優先権主張を伴うものである。
【0036】この先の出願は、少なくとも感情モデルを
有し、音声を発することのできる装置からの情報に基づ
いて、音声を合成する音声合成方法に関するものであ
る。この方法は、音声を発することのできる装置におけ
る上記感情モデルの感情状態を判別する感情判別工程
と、音声として発する内容を表す発話文を出力する発話
文出力工程と、上記感情判別工程にて判別された感情状
態に応じて音声合成のためのパラメータを制御するパラ
メータ制御工程と、上記発話文出力工程にて出力された
発話文を音声合成部に入力して上記制御されたパラメー
タに基づいて音声合成する音声合成工程とを有する。
【0037】特に、この先の出願における発話文は、無
意味な内容の文である。
【0038】ここで、上記発話文出力工程は、上記感情
モデルの感情状態が所定の閾値を超えたときに、上記発
話文を出力して上記音声合成部に供給する。
【0039】また、上記発話文出力工程は、発話毎にラ
ンダムに得られた上記発話文を出力して上記音声合成部
に供給することができる。
【0040】また、上記発話文は、複数の音素を有して
成り、上記パラメータは、上記音素の継続時間長、ピッ
チ、音量を含むものである。
【0041】また、上記装置は、供給された入力情報に
基づいて動作を行う自律型のロボット装置である。そし
て、その感情モデルは、上記動作を生じさせるものであ
る。この音声合成方法は、上記入力情報に基づいて上記
感情モデルの状態を変化させることにより上記動作を決
定する感情モデル変化工程をさらに有してもよい。
【0042】また、上述の先の出願は、上述の方法を実
行する装置についても包含するものである。
【0043】また、上述の先の出願は、自律型の例えば
ロボット装置をも包含するものである。このロボット装
置は、供給された入力情報に基づいて動作を行う自律型
のロボット装置であって、上記動作に起因する感情モデ
ルと、上記感情モデルの感情状態を判別する感情判別手
段と、音声として発する内容を表す発話文を出力する発
話文出力手段と、上記感情判別手段により判別された感
情状態に応じて音声合成のためのパラメータを制御する
パラメータ制御手段と、上記発話文出力手段により出力
された発話文が供給され、上記制御されたパラメータに
基づいて音声合成する音声合成手段とを備える。
【0044】本発明の実施例を詳細に説明する前に、以
下の節では、本件出願人による先行研究を要約する。な
お、この先行研究の特徴は、上述した欧州特許出願に含
まれるものである。
【0045】先行研究 上述した優先権主張の基礎となる欧州特許出願のさらな
る特徴を、「人間の被験者による確認」という節の最後
までに示す。近年、個人用ロボットの開発が非常に発展
してきており、新たな教育技術(Druin A.,Hendler J.
(2000) "Robotsfor kids:exploring new technologies
for learning", Morgan Kauffman Publishers)や、純
粋なエンターテイメント(Fujita M.,Kitano H. (1998)
"Development of an autonomous quadruped robot for
robot entertainment", Autonomous Robots, 5; Kusah
ara.M."The art of creating subjective reality:an a
nalysis of Japanese digital pets, in Boudreau E.,e
d., in Artificial Life 7Workshop Proceedings, pp.1
41-144)の用途に用いられている。特に、これらのロボ
ットは、犬や猫等の馴染み深いペットを模していたり
(ソニー株式会社のAIBOを参照)、時には人間型の
SDR3−X(ソニー株式会社)のように、人間の子供
を模していたりする。
【0046】これらの装置とのインタラクションは、人
間が従来のコンピュータに対して行ってきたものとは著
しく異なる。従来、人間は、非常に不自然な規則や、キ
ーボード、ダイアログウィンドウといった手段を学習す
る必要があり、コンピュータを動作させるために膨大な
知識を身につけなければならなかった。これに対して、
個人用ロボットは、人間が数千年間利用してきた自然な
規則(例えば、自然な言語や、礼儀正しさのような社会
規範)や、手段(例えば、会話や接触)をロボット自身
が学習しようとする。
【0047】このような個人用ロボットに必要な機能の
うち、最も基本的なものの1つとして、人間の感情を捉
えることが挙げられ(Picard R. (1997) Affective Com
puting, MIT Press.)、特に人間の感情を認識すると共
に自身の感情を表現することが必要となる。尤も、人間
を理解する際には感情以外も重要であるが、感情は社会
規範の中心であり(Halliday M. (1975) "Learning hou
to mean:explorations in the development of langua
ge, Elsevier, NY)、特に会話の流れを左右する中心で
ある。感情によるコミュニケーションは原始的であると
同時に効果的なものであるため、人間は、ペットと触れ
合う際に、特にペットを飼い慣らすときに、その感情に
よるコミュニケーションを多用する。またこれは、子供
が言葉を学ぼうとするきっかけともなり(Halliday,197
5 前掲)、ロボットに自然な言葉を教える場合にも用い
るべきものである。
【0048】ここで、言葉によるものを除けば、人間は
主として2つの方法で感情を表現することができる。す
なわち、顔の表情の変化と(Ekman,P. (1982) Emotions
inthe human face, Cambridge University Press, Cam
bridge)、声のイントネーションの変化とである(Bans
e,R. and Sherer,K.R., (1996) Acoustic Profilesin V
ocal Emotion Expression, Journal of Personality an
d Social Psychology, 70(3): 614-636)。顔の表情に
表れる感情を自動で認識する研究は、現在非常に多くな
されているが(A.Samal,P.Iyenger (1992)"Automatic r
ecognition and analysis of himan faces and facial
expression:a survay". Pattern Recognition, 25(1):6
5--77)、自動で生成し機械で認識するための会話のモ
ダリティに関連する研究は、最近になってなされるよう
になった(Bosh L.T. (2000)"Emotions:what is possib
le in the ASR framework ?", in Proceedings of theI
SCA Workshop on Speech and Emotion.)。
【0049】本件出願人は、子供を模したロボット装置
に対して、音声により感情を表現させる研究を行ってい
る。また、他の研究とは異なり、本件出願人は、漫画的
な無意味な内容の文により感情を伝える可能性について
も研究している。これは、例えば大人のような普通の感
情を伴う発話文を生成する場合と比較して、異なる要求
や制約が存在する。例えば、異なった文化的、或いは言
語的な背景を有する人間に感情が理解されることを目標
としていた。そのアプローチは、連続的な発話文の合成
を用いており、そのアルゴリズムは、例えばBreazalに
よる他の研究と比較して、より簡単で完全に特化された
ものである。
【0050】人間の発話における感情の音響的相関 この目的を達成するために、感情/情動と音声信号の音
響特性とについて、有意な音響的相関があるか否かが確
かめられた。この問題については、多くの研究者が調査
を行っている(Fairbanks 1940, Burkhardt F., Sendlm
eier W.,"Verification of acoustical correlates of
emotional speech using formant-synthesis", in Proc
eedings of the ISCA Workshop in Speech and Emotio
n., BanseR. and Sherer K.R. 1996 "Acoustic profile
sin vocal emotion expression",Journal of Personali
ty and Social Psycology, 70(3):614-636)。
【0051】これらの報告によると、発話は心理学的な
条件や幾つかの基本的な情動クラスとの相関があること
が判っている。また逆に驚きと怖れ、退屈と悲しみなど
のある特定の感情に関しては違いを見つけることが難し
いことなども報告されている。実際、特定の情動がある
身体的な状態と結びついていることはよくあり(Picard
1997 "Affective Computing", MIT Press)、予想可能
な物理的な影響を発話に対してもたらす。この影響は、
特にピッチ(基本周波数F0)、タイミング、そして声
質に対してもたらされる。例えば、ある人が怒りや怖れ
や喜びを覚えたときは交感神経系が奮起し、心拍数や血
圧が上昇し、口内は乾き、時には筋肉に震えが起こる。
こうしたときには発話は大きく速くなり、高周波成分に
強いエネルギーを持つことになる。またある人が退屈や
悲しみを感じているとき、副交感神経系が奮起し、心拍
数や血圧が減少し、唾液が多く分泌される。この結果、
発話はゆっくりとしたピッチの遅いものになり、高周波
成分のエネルギーは弱くなる(Breazal,2000)。
【0052】さらに、これらの身体的影響は万国共通で
あるために、基本的な情動と発話の音響的な特性の間に
は民族や文化に寄らない相関関係が存在すると考えられ
ている。このことは、例えば文献「Abelin A, Allwood
J., (2000)"Cross-linguistic interpretation of emot
ional prosody", in Proceedings of the ISCA Worksho
p on Speech and Emotion.」や、文献「Tickle A. (200
0)"English and Japanese speaker's emotion vocalisa
tions and recognition: a comparison highlighting v
owel quality", ISCA Workshop on Speech and Emotio
n,Belfast 2000」において詳しく調査されている。彼ら
は、アメリカ人に対して音響的な情報のみ(発話は意味
がないため、意味的な情報はない)によって他のアメリ
カ人や日本人の感情を理解させる実験を行った。
【0053】同様に、日本人に対しても、他の日本人や
アメリカ人がどのような感情を伝えようとしているかを
当てさせた。この結果から、以下の2つの点が明らかに
されている。すなわち、1)同じ言語を話す人か異なる
言語を話す人かによって、伝えられる感情の認識率に変
化はなく、このことは日本人の被験者についてもアメリ
カ人の被験者についてもあてはまる。そして、2)被験
者の認識結果は芳しくなく、最高でも60%程度であっ
た(なお、この結果は、被験者が非常に不自然な意味の
ない言葉を発するように言われていた事実からある程度
は説明がつくが、意味的には中立であるが意味のある文
を発するようにした研究によっても、この結果は裏付け
られている(Burkhart and Sendlemeier 2000 前
掲))。
【0054】1つ目の結果は、無意味語によって装置に
感情を表現させ、様々な文化的背景を持つ人にその感情
を正確に伝達させるという目標が理論的に可能であるこ
とを示している。また、2つ目の結果は、完璧な理解は
期待し得ないことを示している。人間がそれほどよく理
解できないという事実は、主として、幾つかの感情が心
理学的に非常に相関があるため、音響的に相関があると
いう事実による。現実の状況では、人間は発話文の内
容、及び/又はその他のモダリティによって、その曖昧
さを解決している。実際、幾つかの実験によって、情動
表現のマルチモーダルな性質により感情のマガーク(Mc
Gurk)効果が得られることや(Massaro D., (2000) "Mu
ltimodal emotion perception : analogous to speech
processes", ISCA Workshop on Speech and Emotion,Be
lfast 2000)、内容が異なれば、人間は、それぞれの内
容について同じイントネーションであっても異なる感情
を表すと解釈する(Cauldwell R. (2000) "Where did t
he anger go ? The role ofcontext in interpretimg e
motions in speech" ISCA Workshop on Speech andEmot
ion.)ということが示されている。これらの発見は、装
置がより識別可能な言葉を発する必要がないことを示し
ている。したがって、最も基本的は情動についてのみ調
べればよい。
【0055】コンピュータ技術を用いた音声処理の実験
の多くは、音声のどの特徴が感情を最も正確に反映して
いるかを調べるものであった(Murray I.R., Arnott J.
L.,(1993) "Towards a simulation of emotion in synt
hetic speech: a review ofthe literature on human v
ocal emotion, JASA 93(2), pp.1097-1108., Banseand
Scherer, 1996; Burkhardt and Sendlmeier, 2000; Wil
liams and Stevens, 1972, 前掲)。基本的には、最も
重要な特徴は、例えばピッチ(又はf0)の輪郭や、強
さの輪郭や、発するタイミングなど、韻律に関係するも
のであるとして一致している。より最近の研究では、声
質(Gobl C., Chasaide A.N. (2000)"Testing affectiv
e correlates of voice quality through analysis and
resynthesis", in Proceedings of the ISCA Workshop
on Emotion and Speech.)や、ある種の共発声(co-ar
ticulatory)現象(Kienast M., Sendlmeier W. (2000)
"Acoustical analysis of spectral and temporal cha
nges in emotional speech", in Proceedings of the I
SCA Workshop on Emotion and Speech.)も、ある種の
感情とよく相関していることが示されている。
【0056】漫画的な感情を伴う発話文の作成 上述した内容について、本件出願人は、漫画的な感情を
伴う発話文の生成に向けて多数の研究を行ってきた(し
かし、本発明の範囲は、自然な人間の発話など、全ての
発話様式を含むものである)。しかし、その目的は感情
を伴う発話文を合成する他の研究の殆どとは著しく異な
るものであった。つまり、伝統的には、大人のような自
然な感情の発話を目的とするものであったが(Cahn J.
(1990) "The generation of affect in synthesized sp
eech" Journal of the I/O VoiceAmerican Society, 8:
1-19., Iriondo I.,et al. (2000) "Validation of an
acoustical modelling of emotional expression in Sp
anish using speech synthesis Tecniques", in Procee
dings of ISCA workshop on speech and emotion., Edg
ington M.D., (1997) "Investigating the limitations
of concatenativespeech synthesis", in Proceedings
of EuroSpeech'97, Rhode, Greece., Iida et al. 200
0 参照)、本件出願人の目的は、幼い生物に、無意味語
を用いて、自身の感情を誇張された漫画的な方法で表現
する能力を与えることであった(この無意味語という必
要性は、言語を覚えなければならないロボット装置で実
験を行ったためである。この基本的な感情を表現するた
めにイントネーションのみを用いるという前言語的な能
力は、自発的な学習に役立つ。その発話文は、生き生き
とし、毎回異なり、幼児語に似たものでなければならな
かった。)。
【0057】さらに、そのアルゴリズムは、できる限り
パラメータを少なくし、単純なものでなければならなか
った。簡単には、韻律の変化を伴う感情を伝え得る最少
のパラメータが探索された。また、その発話文は質がよ
く、且つコンピュータで生成しやすいものでなければな
らなかった(ロボット装置は通常僅かなリソースしか有
していない)。これらの理由から、連続音声合成器(co
ncatenative speech synthesizer)である(Dutoit T.
and Leich H. (1993) "MBR-PSOLA: Text-to-Speech syn
thesis based on an MBE re-synthesis of the segment
s database", Speech Communication.)MBROLAソ
フトウェアが基礎として用いられた。このソフトウェア
は、ウェブページ(http://tcts.fpms.ac.be/synthesis
/mbrola.html)において無料で利用することができ、よ
り昔からあるPSOLAの技術を向上させたものである
(ピッチを操作しても殆ど歪みが生じない)。なお、信
号を制御することは殆どできないが、単純化の必要性と
は合致するものである。
【0058】これら全ての制約から、現在までのところ
5つの感情状態のみを選択して実験に用いている。この
5つの感情状態は、「平静(calm)」と、奮起(arouse
ness)及び力価(valence)という2次元で定義される
4つの領域のそれぞれに対応する「怒り(anger)」、
「悲しみ(sadness)」、「喜び(happiness)」及び
「落ち着き(comfort)」とである。
【0059】上述したように、現在までの研究は、大人
のような自然に聞こえる感情を伴った発話を実現しよう
とするものであり、その殆どは1つの言語のみを扱って
いた。また、その多くは基礎としてホルマント合成を用
いていた(Cahn,1990 "The generatioin of affect in
synthesised speech", Journal of the I/O AmericanSo
ciety, 8:1-19; Murray E., Arnott J.L., (1995) "Imp
lementation and testing of a system for producing
emotion-by-rule in systhetic speech" Speech Commun
ication, 16(4), pp.369-390; Burkhardt and Sendleme
ier, 2000 前掲、参照)。これは、音声信号に対して、
詳細且つ様々な制御が可能であるためである。すなわ
ち、声質、ピッチ、強度、スペクトルのエネルギー分
布、倍音とノイズとの比率(harmonics-to-noise rati
o)、或いは感情を伴う発話において生じている多くの
共発声効果をモデル化する発音精度を制御することがで
きる。ホルマント合成の欠点は、生成された発話が、満
足のいくものではないことである(声はかなり不自然で
あることが多い)。さらに、この場合に用いられるアル
ゴリズムは複雑であり、多くのパラメータを制御する必
要があるため、調整が非実用的なものとなっている(Ca
hn, 1990 前掲、参照)。これらの研究と異なり、文献
「Breazal, 2000 "Sociable machines: expressive soc
ial exchange between humans and robots, PhD thesi
s, MIT AI Lab.」には、意味を持たない感情を伴った発
話を行うロボットである“Kismet”について記載されて
いる。しかしながら、Cahnの研究と同様に、Breazalの
研究は市販されている音声合成器に大きく依存してい
る。この音声合成器における数多くのパラメータは、高
レベル(例えば、文章中のピッチのベースラインを特定
する)であり、記載されていない方法で実施される。こ
の結果、このアプローチは、他の音声合成システムを基
礎として用いる場合に殆ど再現できないものである。逆
に、本件出願人によるアルゴリズムは、後述するよう
に、完全に特化されたものであり、PSOLAに基づく
システムであればどのようなものであっても使用するこ
とができる(加えて、実際に用いられるシステムは無料
でダウンロード可能である。上記参照のこと。)。
【0060】Breazalの研究における他の欠点は、用い
られる合成器がホルマントに基づくものであるため、直
面している制約に対応していないということである。
【0061】ところで、連続音声合成器は、非常に性能
のよいものであるため、近年よく用いられるようになっ
ており、研究者の中には、感情語を合成するためにそれ
を用いようとしてきた。これは難題であり、ホルマント
合成よりもずっと困難である。というのは、ピッチの輪
郭、強度の輪郭、或いは音素の継続時間長しか制御でき
ないためである(そうであったとしても、この制御には
殆ど制約がない)。本件出願人の知る限り、2つのアプ
ローチが文献に示されている。第1のアプローチは、例
えば文献「Iida et al., 2000 "A speech synthesis sy
stem with emotion for assisting communication", IS
CA Workshop on Speech and Emotion」に記載されてい
るように、既に録音された要素を合成過程で連結するた
めの基礎として、各感情について1つのデータベースを
使用するものである。このアプローチは満足のいく結果
が得られるものであるが、例えば声を変えたり、新たな
感情を加えたり、或いは感情の度合いを制御したりする
場合には、実現が非常に困難である。
【0062】第2のアプローチは、人間が発声した感情
語のデータベースを作成してそのピッチの輪郭と強度の
輪郭とを計算し、それを合成する文章に適用するもので
ある(例えば、Edgington M.D. "Investigating the in
tonation of concatenativespeech synthesis", Procee
dings of EuroSpeech'97, Rhode, Greece 参照)。この
アプローチでは連結の際に問題が生じるが、文章同士の
構文の類似性を利用することで、問題を多少は解決する
ことができる。しかしながら、Edgingtonが示している
ように、この方法では、満足のいかない結果しか得られ
ていない(発話が不自然に終了し、また、聴取者は感情
をあまり理解できない)。
【0063】したがって、これらの2つの方法をすぐに
漫画に適用することはできない。誇張された漫画的な幼
児語についてのデータベースを作成するのが非常に困難
なためである。
【0064】本発明で採用しているアプローチは、アル
ゴリズムの観点から、完全に生成するものであり(録音
された人間の発話文を入力とするものではない)、連続
音声合成器を基礎として用いている。このアプローチで
は、ホルマント合成と同程度に効率的に感情を表現でき
ながら、ホルマント合成よりも制御が簡単で、より生物
感のある音声信号を合成できた。
【0065】単純且つ完全なアルゴリズム 本件出願人が開発したアルゴリズムは、意味のない文章
を生成し、そのピッチの輪郭と音素の継続時間長(すな
わち、文章のリズム)とを特定するものである。簡単の
ため、ピッチについては各音素につき1つの目標値しか
設けていないが、これで十分なことが多い。
【0066】強度の輪郭についても制御可能であるが、
ピッチ操作により聴覚的に強度変化が生じているように
聞こえるため、これは必ずしも必要でない。すなわち、
文章全体の音量を制御するのみで、よい結果を得ること
ができる。
【0067】プログラムで生成されたファイルを以下の
表1に示す。なお、このファイルは、MBROLA音声
合成器に供給される。
【0068】
【表1】
【0069】本アルゴリズムの概念は、先ず、ランダム
な単語で構成される文を生成することである。各単語
は、ランダムな音節(CVタイプ又はCCVタイプ)で
構成される。最初は、全ての音素の継続時間長は一定で
あり、各音素のピッチは予め設定された値と一致してい
る(このピッチにノイズを加えることで、文が自然に聞
こえるようになる。様々なノイズについて実験を行った
が、ノイズの種類が異なっていてもあまり変化は生じな
かった。なお、後述する知覚実験では、ガウスのノイズ
を用いた。)。そして、特定の感情を付与するために、
この文章のピッチと継続時間長の情報が変化される。こ
こで、この変更は、多数の音節にアクセントを置くこと
や、これらの音節の継続時間長を変更すると共に所定の
アクセント輪郭を適用することである。また、全ての音
節についてピッチ輪郭及び継続時間長が所定のデフォル
トにより変形される。
【0070】各音素については、その音素の継続時間長
の80%に固定された時点におけるピッチの目標値のみ
が設定されている。
【0071】上述した優先権主張の基礎となる先の欧州
特許出願では、上述したアルゴリズムに基づいて音声合
成手段に発声させるための文章を生成するプログラムが
Fig.3及びFig.4に示されている。本件において
も、同じプログラムがFig.1a及びFig.1bに示
されており、後者は前者の続きである(大文字で書かれ
た単語は、本アルゴリズムにおいて各感情毎に設定する
必要のあるパラメータを表す)。
【0072】このアルゴリズムに関して、幾つか言及す
る。先ず、単にランダムな音節列を扱うのではなく、単
語を有することが好ましい。これにより、隣接する音節
に何度もアクセントを置くことがなくなる。また、これ
により、最後の単語に対して行われた処理を容易に表現
することができる。特に、文章中の単語の最大数(MAXW
ORD)は、特定の情動に依存するものではないが、自由
に変えられるというよりも、寧ろパラメータに近いもの
である。本アルゴリズムの重要な特徴としては確率的な
部分がある。すなわち、一方には、与えられたパラメー
タから毎回異なる発話文が生成される(これは、主とし
て単語の数のランダムさ、音節内の音素構成のランダム
さ、或いはアクセント位置が確率的に決まることによ
る)。そして、他方には、音素の継続時間長やピッチに
ノイズが加えられることにより(Fig.1の14行
目、15行目を参照。random(n)とは、0からnまでの
ランダムな数字を意味する。)、発声が自然なものにな
るという利点がある(もし固定のままでは、明らかに機
械が発声していると認識される)。そして、アクセント
は、音量ではなくピッチの変化によって実現される。そ
れにも関わらずよい結果が得られているのは、人間の発
話では音量の増加がピッチの上昇と相関しているためで
ある。このため、時にはピッチの調整を大げさなものに
する必要があるが、上述したように、人間が感情を表現
する方法を常に忠実に再現することではなく、人間が感
情を表現する方法を生き生きと自然且つ大げさに(すな
わち、漫画的に)真似ることを目標としているため、寧
ろ好ましいことである。
【0073】さらに、幼い子供に特有の声を得るため
に、本アルゴリズムには最後の工程が加えられる。音声
ファイルのサンプリングレートは、MBROLAの16
000Hzと比較して、30000乃至35000Hz
という高いものである(これはファイルクイッカー(fi
le quicker)を使っているときと同程度である)。勿
論、発声速度を普通にするために、MBROLAに送ら
れるプログラムでは、予めゆっくりなものとされてい
る。この最後の工程は、MBROLAに子供の声のデー
タベースがないことから好ましいものである(これは、
子供にとってそのようなデータベースを作成することが
困難であることからも理解できる)。したがって、大人
の女性の声が選択された。
【0074】本アルゴリズムの詳細を説明するために、
以下に示す表2では、5つの情動、すなわち、「平静
(calm)」、「怒り(anger)」、「悲しみ(sadnes
s)」、「喜び(happiness)」、「落ち着き(comfor
t)」について得られるパラメータの値の例を示す。
【0075】これらのパラメータは、先ず各感情の音響
的相関について記載された研究を調べ(例えば、Murray
and Arnott 1993, Sendlemeier and Burkhartd 2000、
前掲)、ある程度統一性のあるパラメータ初期値を推定
し、これを満足のいく結果が得られるまで、試行錯誤に
より手動で修正することにより得られた。なお、その性
質の評価については、次の節に示す。
【0076】
【表2】
【0077】人間の被験者による確認 先の節で述べたアルゴリズムを評価するために、人間の
被験者に対して、本システムで生成された発話文を聞い
て、どのような感情を感じたかを当てさせる実験を行っ
た。(サンプル音声の一部については、関連するウェブ
ページwww.csl.sony.fr/pyで入手可能である。)より詳
しくは、各被験者は、先ずそのシステムの言葉に慣れる
ために、感情がランダムに選択された10種類の発話文
を聞いた。そして、被験者に対してそれぞれがランダム
に選択された感情に対応する30種類の発話文が示され
(教師なしシリーズ(unsupervised series))、「平
静(Calm)」、「怒り(Anger)」、「悲しみ(Sadnes
s)」、「落ち着き(Comfort)」、「喜び(Happines
s)」の何れであるかが尋ねられた。
【0078】なお、被験者は各サンプルを1度しか聞く
ことができない。また、別の被験者に対する2番目の実
験では、先ず、被験者に対して各感情に対応する4種類
の教師サンプルが与えられた。すなわち、被験者に対し
て、発話文と共に、意図した感情を表すラベルが示され
た。そして、再度、被験者に対して30種類の発話文が
示され、被験者は、上述した感情の何れであるかを識別
した。ここで、それぞれの実験では、8人の大人の被験
者が用意された。そのうち3人はフランス人、1人はイ
ギリス人、1人はドイツ人、1人はブラジル人、そして
2人は日本人である(この研究について知っている者
や、発話文における感情の音響的相関について特別な知
識を持っている者はいない)。教師なしシリーズの実験
結果を以下の表3に示す。(列の感情、行の感情)にお
ける数字は、その列に示す感情を意図した発話文がその
行に示す感情であると認識されたパーセントを示したも
のである。例えば、表3において「悲しみ(sadnes
s)」を意図した発話文のうちの76%は、その感情で
あると認識されている。
【0079】この教師なしシリーズの実験は、機械では
なく人間が発した発話文での実験と比較する必要があ
る。この点、例えば文献「Tickle A. 2000 "English an
d Japanese speaker's emotion vocalisations and rec
ognition: a comparison highlighting vowel qualit
y", ISCA Workshop on Speech and Emotion Recognitio
n,Belfast 2000」に示されているように、同じようなセ
ットアップで被験者が意味のない感情を伴った発話を行
わせた実験において、最もよかった被験者でも60パー
セントの正解率であり、多くはそれよりも悪かった。こ
れに対して、先の結果では平均で57パーセントの正解
率であり、人間が発話した場合と同程度である。ここ
で、結果をよく見ると、誤りは多くの場合、特に発話文
の奮起(arouseness)に関しては“悪い”誤りではない
ことが分かる。すなわち、「喜び」は多くの場合「怒
り」と混同されており(何れも奮起度が高い)、「平
静」は多くの場合「悲しみ」や「落ち着き」と混同され
ている(何れも奮起度が低い)。実際、奮起についての
誤りは5パーセント以下である。つまり、多くの誤り
は、「平静(calm)/中立(neutral)」の感情におけ
るものである。このため、2度目の教師なしシリーズの
実験では、ここでの実験に似ているものの、「平静(ca
lm)」の情動を除外した。
【0080】この結果、平均正解率は75パーセントと
なり、前回よりも向上すると同時に、人間が発話した場
合よりもよい結果であった。これは、1つには、感情の
音響的特性が誇張されていることによる。なお、ここで
示した結果は、文献「Breazal 2000」で報告されている
結果と同様のものであり、パラメータの非常に少ない連
続合成器を用いても、感情を伝えること(そして、一般
により生物感のある音声を生成すること)ができること
が分かる。
【0081】
【表3】
【0082】一方、教師ありシリーズの実験では、意図
した感情についての発話文を僅かに(各感情につき4種
類)示すことで、結果が大幅によくなることが分かる。
因みに、現在では77パーセントの正解率が達成されて
いる。この実験においても、幾つかの誤りは“悪い”も
のではなかった。そこで、同様に「平静(calm)」の情
動を除外したところ、平均正解率が89パーセントに向
上した。この指示は、デジタルペットの場合、実現が極
めて容易である。すなわち、多くのデジタルペットは、
カラーLEDの光の組み合わせによって自身の「感情」
を表現しており、この実験においても、ロボットが感情
語を発している間に数回ロボットを視覚的に見るのみで
十分であり、これにより、ロボットが意図している感情
を後に発話を聞くのみで認識できる。
【0083】
【表4】
【0084】ここで、上述した各感情が「感情空間」の
どこに位置するのかをFig.2に示す。この感情空間
では、「力価(valence)」及び「奮起(excitemen
t)」のパラメータがそれぞれ垂直軸2及び水平軸4に
沿って表されている。力価の軸は、ネガティブな値から
ポジティブな値まで有し、奮起の軸は、低い値から高い
値まで有する。また、交点Oは、図の中心にあたり、
「平静(calm)/中立(neutral)」の感情に対応す
る。そして、その点から4つの領域が定義され、それぞ
れが以下に示す感情状態を含む。すなわち、「喜び(ha
ppy)/賞賛(praising)」(四分円Q1)は、力価が
ポジティブであり奮起度が高いとして特徴付けられ、
「落ち着き(comfort)/鎮静(soothing)」(四分円
Q2)は、力価がポジティブであり奮起度が低いとして
特徴付けられる。また、「悲しみ(sad)」(四分円Q
3)は、力価がネガティブであり奮起度が低いとして特
徴付けられ、「怒り(angry)/警告(admonishing)」
(四分円Q4)は、力価がネガティブであり奮起度が高
いとして特徴付けられる。
【0085】本発明の好ましい実施例 本発明に係る方法及び装置は、上述した概念を発展させ
たものである。すなわち、その概念は、音声合成器によ
って生成されたフレーズについて、ピッチの輪郭、強度
の輪郭及びリズムの少なくとも1つを制御するものであ
る。本発明のアプローチは、比較的大げさなものであ
り、また、他の研究者が容易に再現できるものである。
特に、好ましい実施例は、無料で利用できるソフトウェ
アモジュールを発展させたものである。このソフトウェ
アモジュールについては、よく記述されており、使用が
容易であるため、同様な技術が数多く存在する。したが
って、本発明の実施例で提案されるモジュールは、完全
に明白(transparent)なものである。
【0086】実施例では、ピッチの輪郭やリズム(音素
の継続時間長)等を完全に、又は高程度に制御する。
【0087】なお、このアプローチは、概念としては上
述した優先権主張の基礎とされた欧州特許出願よりも一
般的なものである。
【0088】本発明のアプローチは、フレーズを音節の
連続と捉えることに基づいている。ここで、フレーズ
は、意味を持った言語による発話文でもよく、意味を持
たない発声であってもよい。各音節については、ピッチ
(f0)の輪郭を完全に制御することが可能であり、追
加的に強度(音量)の輪郭、或いは音素の継続時間長を
制御することができる。しかしながら、ピッチを調整す
ることで強度が変化したように聞こえるため、少なくと
も強度の制御は必須ではない。
【0089】ここで、与えられた感情に対応するイント
ネーションを生成するために、これらの輪郭(ピッチの
輪郭、継続時間長、そして場合によっては強度の輪郭)
を決定する方法が問題となる。
【0090】解決方法の概念は以下のようなものであ
る。先ず、各音節について設定された輪郭(f0)、設
定された強度、そして設定された継続時間長を有するフ
レーズから始める。この参照フレーズは、最初の輪郭
(f0)、最初の継続時間長(t)そして場合によって
は最初の強度を設定することにより、意味の分かる言語
についての音声合成器から生成することができる。或い
は、幼児語のような意味のない発声からこの参照フレー
ズを生成しても構わない。この場合、最初には、設定さ
れた初期値で“平坦な”ピッチ輪郭(f0)と、設定さ
れた初期値で“平坦な”強度輪郭と、設定された初期値
で“固定の”継続時間長とが存在する。なお、これらの
特徴は、音声合成器が理解可能な所定のフォーマットで
設定される。
【0091】音声合成器に供給されるデータは、所定の
プロトコルでフォーマット化されている。例えば、合成
される各音節は、以下のように符号化することができる
(音節“be”の場合には、継続時間長と、その継続時間
内における5つの連続したピッチの値によって特徴付け
られる。)。 音節の同定:“be”;継続時間長(ミリ秒)t1=1
00; ピッチデータ(Hz)−第1部分P1=80、第2部分
P2=100、第3部分P3=120、第4部分P4=
90、第5部分P5=230
【0092】このデータは、例えば(be;100,80,100,12
0,90,230)と符号化されてフレームに含まれ、それぞれ
がプロトコルに従って合成器によって同定される。
【0093】ここで、Fig.3は、これらのデジタル
データが合成された音声出力に変換されるまでの各段階
を示したものである。
【0094】先ず最初に、音声メッセージが発声される
音節の連続として構成されている。このメッセージは、
理解可能な言語で意味を伝えるような、文法的な文章を
構成する意味のある単語であってもよく、幼児語、動物
に似た声、或いは完全に想像上の声といった、意味のな
いものであってもよい。その音節は、発声データファイ
ル10において、上述したデジタルデータフォーマット
に従って符号化されている。
【0095】そして、デコーダ12は、データファイル
10から連続した音節データを読み出す。
【0096】Fig.4aは、これらのデータがデコー
ダ12でどのように処理されるかを、ピッチの基本周波
数(ヘルツ)を横軸とし、時間(ミリ秒)を縦軸とした
座標グリッドで図示したものである。このグリッド領域
は、矢印線で示されるように、上述の5つの継続時間長
にそれぞれ対応する5つのカラムに分割される。それぞ
れのカラムの中心には、対応するピッチデータで定義さ
れるピッチの値が縦軸に対して垂直に表される。
【0097】その後、音節データは、インターポレータ
(interpolator)14に供給される。インターポレータ
14は、一般的な補間技術を用いて、5つの基本周波数
の値P1−P5から補間されたピッチの値を連続的に生
成する。この結果、Fig.4bに示すように、音節
“be”の継続時間長100msに亘って、比較的滑ら
かなピッチ変化の曲線が得られる。この工程は、音節デ
ータが入力される毎に繰り返され、そのフレーズの連続
した音節に亘って、連続的なピッチ曲線が得られる。
【0098】このようにしてインターポレータで生成さ
れたピッチ波形は、音響周波数音声処理器16に供給さ
れ、ここで対応する調整された振幅音響信号が生成され
る。なお、この音声処理器は、合成音声をより実際の音
声に近づけるため、上述したように、最終的な音響信号
に何らかのランダムノイズを付加するようにしても構わ
ない。この最終的な音響信号は、音響増幅器18に供給
されて適切な音量となるまでそのレベルが上昇され、ス
ピーカ20に供給される。そして、スピーカは、発声デ
ータファイル10から得られた合成音声を再生する。
【0099】ここで、発声データファイル10が意味を
有するフレーズを含む場合、その音節び関係する音節デ
ータの一部は、通常、より自然に発声するためにはどの
音節にアクセントを置けばよいかという情報を含むこと
になる。
【0100】通常、そのような音節データに含まれるピ
ッチの値は、“中立的”な発話、すなわち認識可能な感
情を持たない発話に対応する。
【0101】Fig.5は、好ましい実施例における感
情生成器22を、Fig.3に示した合成器1とどのよ
うに統合するかを機能的に示すブロック図である。
【0102】感情生成器22は、発声データファイル1
0から読み出された音節データに対して、選択的にオペ
レータを適用する。ここで、これらのオペレータは、そ
のタイプに従って、ピッチデータ(ピッチオペレータ)
又は音節の継続時間長データ(継続時間長オペレータ)
を変更することができる。なお、これらの変更は、イン
ターポレータ14の前段、例えばデコーダ12の手前で
行われる。これにより、オペレータによって変更された
値に基づいて補間処理が行われることになる。後述する
が、この変更は、中立的な発話文を選択された感情(悲
しみ、平静、喜び、怒り)を選択された程度伝えるよう
な発話文に変化させるものである。
【0103】基本的なオペレータは、オペレータセット
ライブラリ24に格納されており、オペレータセット構
成ユニット26によって選択的にアクセスされる。オペ
レータセット構成ユニット26は、現在の要求に従って
オペレータを準備し、パラメータ化する。この目的のた
めにオペレータパラメータ化ユニット28が設けられ、
後述するように、オペレータのパラメータ化を、i)発
話文に付加する感情(平静、悲しみ、喜び、怒りな
ど)、ii)場合によってはその感情の程度(又は強度)
と、iii)その音節の内容との両方に従ってオペレータ
のパラメータ化を決定する。そして、感情とその感情の
程度とは、ユーザ32の利用しやすい入力を示す感情選
択インターフェース30によってオペレータパラメータ
化ユニット28に指示される。この感情選択インターフ
ェースは、画面上のメニューやアイコンを有し、必要な
感情特徴全てと、他のオペレータに関するパラメータと
をユーザ32に示すコンピュータインターフェースとす
ることができる。
【0104】実施例では、オペレータによって影響され
る音節の内容は、i)あるオペレータはフレーズの最初
と最後の音節にしか適用されないなど、フレーズ内での
音節の位置、ii)その音節が有意味語の文章に関係する
か、無意味な音声(幼児語など)に関係するか、そし
て、iii)ある状況下では、考慮している音節が発声デ
ータファイル10においてアクセントを置くことが許さ
れているか否か、というものである。
【0105】このため、最初/最後音節検出ユニット3
4と、音節アクセント検出ユニット36とが設けられて
いる。この両者とも、発声データファイル10にアクセ
スすることができ、オペレータパラメータ化ユニット2
8に適切な内容依存パラメータを伝える。
【0106】詳細は後述するが、アクセントの置かれる
音節(“アクセント可能な(accentuable)”音節)に
対して特異的に適用されるオペレータセットが存在す
る。これらのオペレータは、全てのアクセント可能な音
節に対して適用されるのではなく、候補となる音節から
ランダムに選択された音節に対してのみ適用される。な
お、候補となる音節は、発声データに依存する。すなわ
ち、もし発声データにどの音節がアクセント可能かとい
う情報が含まれているならば、候補となる音節は、これ
らのアクセント可能な音節の中からのみ選ばれる。通常
これは、自然な発生とするために一部の音節にアクセン
トが置かれない有意味語の場合に該当する。一方、発声
データにそのような情報が含まれていない場合には、全
ての音節がランダム選択の候補となる。通常これは、無
意味語の場合に該当する。
【0107】このランダムな選択は、音節アクセントユ
ニット36とオペレータパラメータ化ユニット28との
間に接続された確率制御可能なランダム選択ユニット3
8によって行われる。このランダム選択ユニット38
は、候補から音節を選択するための制御可能な確率値を
有している。具体的には、ある候補が選択される確率を
Nとし、Nが0から1の範囲をとるとすれば、P個の候
補音節について平均でN・P個の音節が選択され、ラン
ダムなアクセント化に関連する特定のオペレータセット
に委ねられる。なお、このランダムに選択された候補の
分布は、基本的に一連の音節に亘って一定である。
【0108】ここで、オペレータセット構成ユニット2
6からの適切に構成されたオペレータセットは、音節デ
ータ変更ユニット40に送られる。音節データ変更ユニ
ット40では、このオペレータセットによって音節デー
タが処理される。このため、音節データ変更ユニット4
0は、Fig.3におけるデコーダ12と同様に、発声
データファイル10から音節データを直接受け取る。こ
のようにして受け取られた音節データは、オペレータセ
ットの機能により、音節データ変更ユニット40におい
て特にそのピッチと継続時間長とが変更される。得られ
た変更音節データ(新たな音節データ)は、発声データ
ファイルにおける構成と同様の構成で(Fig.2a参
照)、音節データ変更ユニット40からデコーダ12に
供給される。これにより、デコーダは、発声データファ
イルから直接得られたかのように、新たな音節データを
扱うことができる。その後、新たな音節データは、補間
され(インターポレータ14)、Fig.3の他の後段
のユニットによって同様の方法で処理される。しかしな
がら、スピーカから発せられる音声は中立的なものでは
なく、寧ろユーザ32によって定義された感情をシミュ
レートする音声に対応する。
【0109】なお、上述した全ての機能ユニットは、逐
次制御ユニット(operations sequencer unit)42に
よって全体的に制御される。この逐次制御ユニット42
は、所定の規則に従って、感情合成処理の実行を完全に
制御する。
【0110】ここで、Fig.6は、合成音声の(Fi
g.4bのような)ピッチ曲線に対して、ピッチオペレ
ータセットOPを適用した効果を図示したものである。
この図では、ピッチオペレータを適用する前と後のピッ
チ曲線(時間tに対する基本周波数f)を、各オペレー
タについてそれぞれ左の列と右の列に示している。この
例では、入力したピッチ曲線は全てのオペレータについ
て同一で、比較的平坦なものとなっている。
【0111】図示されたセットには以下のように4つの
オペレータが存在する(図の上から下に対応する)。 −“登り坂”ピッチオペレータOPrsは、どのような
ピッチ曲線に対しても時間的に上昇させる。すなわち、
元のピッチ輪郭での周波数が時間と共に上昇する。 −“下り坂”ピッチオペレータOPfsは、どのような
ピッチ曲線に対しても時間的に下降させる。すなわち、
元のピッチ輪郭での周波数が時間と共に下降する。 −“シフトアップ”ピッチオペレータOPsuは、どの
ようなピッチ曲線に対しても元の周波数を一様に上にシ
フトさせる。そのシフトは任意の時間で同じであるた
め、ピッチ輪郭は、元の周波数軸から単純に下降する。 −“シフトダウン”ピッチオペレータOPsdは、どの
ようなピッチ曲線に対しても元の周波数を一様に下にシ
フトさせる。そのシフトは任意の時間で同じであるた
め、ピッチ輪郭は、元の周波数軸から単純に上昇する。
【0112】実施例では、登り坂オペレータOPrs及
び下り坂オペレータOPfsは、以下のような特徴を有
する。すなわち、時間的に中心の位置(継続時間長t1
については1/2t1)でのピッチは、オペレータを適
用する前後で変化しない。言い換えれば、そのオペレー
タは、時間的に中心の位置でのピッチの値を中心とし
て、所望の勾配になるように入力したピッチ曲線を回転
させる。つまり、登り坂オペレータOPrsの場合に
は、図示のように、時間的な中心位置よりも前のピッチ
の値が事実上下降する。一方、下り坂オペレータOPf
sの場合には、図示のように、時間的な中心位置よりも
前のピッチの値が事実上上昇する。
【0113】また、OIで示される強度オペレータを追
加的に設けてもよい。このオペレータの効果をFig.
7に示す。このFig.7は、Fig.6に直接対応する
ものである。このオペレータも4つ存在し、時間tに対
する強度Iの曲線に対して作用する他は、ピッチオペレ
ータOPに対応する。したがって、簡単のために各オペ
レータについての詳細な説明は省略する。
【0114】ピッチオペレータ及び強度オペレータは、
それぞれ以下のようにパラメータ化される。 −登り坂又は下り坂オペレータ(OPrs、OPfs、OIrs、OI
fs)の場合:入力した輪郭に対する坂(スロープ)の勾
配。スロープは、規格化されたスロープ値で表現するこ
とができる。例えば、0はスロープを形成しない場合に
対応する。この場合、オペレータは、入力に対して何も
作用しない(このようなオペレータを中立化された(ne
utralised)、或いは中立の(neutral)オペレータとい
う)。この対極として、最大値maxでは入力した曲線
の勾配が無限となる。すなわち、殆ど垂直に上昇或いは
下降する。この両極の間の任意のパラメータ値が、入力
した曲線に対して所望のスロープを形成するために対応
付けられる。 −シフトオペレータ(OPsu、OPsd、OIsu、OIsd)の場
合:入力した輪郭に対する、基本周波数(ピッチについ
て)又は強度の絶対値で示すシフトアップ又はシフトダ
ウンの量。対応するパラメータは、ピッチ軸又は強度軸
での増加単位又は減少単位とすることができる。
【0115】Fig.8は、音節の継続時間長(又は時
間)に対してオペレータODを適用した効果を図示した
ものである。この図では、継続時間長オペレータを適用
する前と後の音節の継続時間長(水平な線が時間t1の
長さを表す)をそれぞれ左の列と右の列に示している。
【0116】この継続時間長オペレータは、以下のよう
なものとすることができる。 −音節の継続時間長を長くする延長オペレータ。その増
加量は、パラメータD(正のDパラメータという)で表
される。例えば、継続時間長の初期値がミリ秒で表され
ている場合には、Dを単に初期値に加える継続時間長の
ミリ秒数とすることができる。これにより、オペレータ
は、当該音節の継続時間長t1に値Dを加えるのみでよ
い。この結果、インターポレータ14及びその後段にお
けるデータ処理により、その音節は、伸びたように発音
される。 −音節の継続時間長を長くする短縮オペレータ。その減
少量は、同じパラメータDで表される(但し、この場合
は負のパラメータである)。例えば、継続時間長の初期
値がミリ秒で表されている場合には、Dを単に初期値か
ら引く継続時間長のミリ秒数とすることができる。これ
により、オペレータは、当該音節の継続時間長t1から
値Dを引くのみでよい。この結果、インターポレータ1
4及びその後段におけるデータ処理により、その音節
は、縮まったように(短くなったように)発音される。
【0117】このオペレータも、パラメータDとして0
を挿入することで、中立化し、又は中立のパラメータと
することができる。
【0118】なお、継続時間長パラメータは、延長と短
縮との2種類あるものとして示したが、その違いはパラ
メータDの前がプラスかマイナスかの違いのみであるこ
とは明らかである。したがって、正の数と負の数とを取
り得る場合には、同じオペレータメカニズムで両方のオ
ペレータ(延長及び短縮)の機能を得ることができる。
【0119】また、Dの取り得る値及び可能な変化量の
範囲は、要求に従って選択することができる。
【0120】以下では、オペレータOP、OI、ODの
パラメータ表示として、特定のオペレータの最後の文字
にそれぞれのオペレータ特有の接尾辞を付けた変数によ
り表現する。すなわち、Prsは、登り坂オペレータO
Prsの正の坂パラメータの値であり、Pfsは、下り
坂オペレータOPfsの負の坂パラメータの値である。
また、Psuは、シフトアップオペレータOPsuの上
方シフト量の値であり、Psdは、シフトダウンオペレ
ータOPsdの下方シフト量の値である。さらに、Dd
は、継続時間長延長オペレータODdの加算時間の値で
あり、Dcは、継続時間長短縮オペレータODcの減算
(短縮)時間の値である。
【0121】実施例では、さらに細かいオペレータを用
いることでランダム選択部38における確率Nを定め
る。この値は、0(選択される確率がない)から1(確
実に選択される)までの範囲から選ばれる。この値Nに
よって、再生する感情の性質にとって適切なものとなる
ように、出力音声においてアクセントの置かれる音節の
密度が制御される。
【0122】ここで、Fig.9A,9Bは、Fig.5
に示すようなシステムに基づいて、音節データに対して
選択的に上述のオペレータを構成し適用する手順のフロ
ーチャートを示したものである。なお、Fig.9B
は、9Aの続きである。
【0123】先ず、発声データファイル10からの入力
音節データのロードを含む初期化フェーズP1から開始
される(ステップS2)。データは、例えば“be”と
いう音節データの特徴を示したものである。すなわち、
Fig.4aで示したように、“be”の後にその音節
の通常の継続時間長を表す初期値t1が続き、その後に
継続時間長t1の5つの連続した間隔におけるピッチの
基本周波数を表す値P1からP5が続く。
【0124】次に、インターフェース30を用いて、フ
レーズ又はパッセージによって伝える感情がロードされ
る(ステップS4)。このフレーズ又はパッセージは、
ロードされた音節データによってその一部が構成されて
いる。ここで、感情は、例えば「平静(calm)」、「悲
しみ(sad)」、「喜び(happy)」、「怒り(angr
y)」などである。さらにインターフェースは、例えば
重み値を設定することによる感情の程度を入力する(ス
テップS6)。
【0125】そしてシステムはユニバーサルオペレータ
フェーズP2に進む。このフェーズP2では、全ての音
節に対して一律にユニバーサルオペレータセットOS
(U)が適用される。ここで、このユニバーサルオペレー
タセットOS(U)は、Fig.6,8に示す全てのオペ
レータ、すなわち4つのピッチオペレータを構成するO
Prs、OPfs、OPsu、OPsdと2つの継続時
間長オペレータを構成するODd、ODcを含む。オペ
レータセットOS(U)の各オペレータは、それぞれに対
応する値で、すなわち上述したようにそれぞれPrs
(U)、Pfs(U)、Psu(U)、Psd(U)、
Dd(U)、Dc(U)でパラメータ化される(ステッ
プS8)。このステップは、これらのパラメータに数値
を割り当てることも含み、オペレータセット構成ユニッ
ト26によって実行される。なお、オペレータセットO
S(U)についてのパラメータ値は、プログラムされた感
情及びその性質、並びに状況に応じた他の要素の機能と
して、オペレータパラメータ化ユニット8によって選択
される。
【0126】続いて、フレーズ或いはフレーズ群の全て
の音節に対して一律にユニバーサルオペレータセットO
S(U)が適用される(ステップS10)。これは、その
音節データの数値t1、P1−P5を変更する処理を含
む。ここでピッチオペレータについて説明すると、坂パ
ラメータPrs及びPfsは、5つの異なる値に変換さ
れ、それぞれ値P1−P5に対して算術的に当てはめら
れる。これらの異なる値は、P1−P5の各値を動かす
ように選択される。但し、中間の値P3は、上述したよ
うに基本的には変化しない。例えば、登り坂パラメータ
の最初の2つの値は、ピッチの前半を下降させるために
負の値となり、最後の2つの値は、ピッチの後半を上昇
させるために正の値となる。これにより、Fig.6に
示すように、中間の時間において登り坂調子の発声が生
成される。なお、パラメータを構成する傾きの程度は、
これらの異なった値により表現される。これと逆ではあ
るが同様のアプローチが、下り坂オペレータに対しても
適用可能である。
【0127】ここで、シフトアップオペレータ又はシフ
トダウンオペレータは、坂オペレータを適用する前又は
後の何れで適用しても構わない。これらのオペレータ
は、5つのピッチの値P1−P5に対して、パラメータ
で規定される値を単純に加算し、又は減算する。なお、
オペレータは、排他的な対を形成する。すなわち、下り
坂オペレータが適用されている場合には登り坂オペレー
タは適用されない。シフトアップオペレータ、シフトダ
ウンオペレータ及び継続時間長オペレータについても同
様である。
【0128】オペレータの適用(すなわち、データパラ
メータt1、P1−P5の修正計算)は、音節データ変
更ユニット40によって行われる。
【0129】音節に対してユニバーサルオペレータセッ
トOS(U)が適用された後、さらなる処理が必要であれ
ば、その音節は一時的に保持される。
【0130】次にシステムは確率的アクセント化フェー
ズP2に進む。このフェーズP2では、別のオペレータ
アクセント化パラメータセットOS(PA)が準備され
る。このオペレータセットは、ユニバーサルオペレータ
セットと同様のものであるが、パラメータとして別の値
を有する。ユニバーサルオペレータセットでの取り決め
を用いると、オペレータセットOS(PA)は、それぞれ
対応する値、すなわちPrs(PA)、Pfs(P
A)、Psu(PA)、Psd(PA)、Dd(P
A)、Dc(PA)でパラメータ化される。これらのパ
ラメータ値は、感情及びその感情の度合い、並びにイン
ターフェース30から供給されたその他の要素の機能と
して、オペレータパラメータ化ユニット28によって同
様に計算される。このパラメータは、一般的に、意図し
ている感情に従って発話文に対してある種のイントネー
ション(韻律)を与えるために選択される。また、確率
的アクセント化オペレータセットOS(PA)のさらなる
パラメータは、先に定義した確率Nである。この値は、
感情及びその感情の度合いの他、例えばその音節ファイ
ルの性質によって変化する。
【0131】パラメータが得られると、それらのパラメ
ータは、オペレータセット構成部26に供給され、確率
的アクセント化パラメータセットOS(PA)が完全に構
成される(ステップS12)。
【0132】次に、このオペレータセットOS(PA)を
どの音節に対して適用するかがランダム選択ユニット3
8で決定される(ステップS14)。ランダム選択ユニ
ット38は、このオペレータセットでアクセント化する
ランダムに選ばれた音節のリストを有している。上述し
たように、候補となる音節は、−無意味語であるか、又
はアクセントを置くことが禁止されている音節がない場
合には全ての基本音声要素、又は−ファイルで特定され
ている場合には、許されている(アクセント可能な)音
節である。通常これは、有意味語の場合に該当する。
【0133】候補からランダムに選択された音節は、音
節データ変更ユニット40によって、確率的アクセント
化オペレータセットOS(PA)で処理される(ステップ
S16)。実際の処理は、含まれるパラメータ値が異な
る他は、上述したユニバーサルオペレータセットと技術
思想として同様である。
【0134】ここで、確率的アクセント化オペレータセ
ットOS(PA)は、既にユニバーサルオペレータセット
OS(U)の適用された音節に対して適用される。このこ
とは、ステップS14で既に選択されたファイルの音節
データアイテムSiについて、数学的には、OS(PA).OS
(U).Si→Sipaccと表される。ここで、Sipaccは、音節に
アクセントが置かれた結果のデータを示す。
【0135】そして、音節データ変更ユニット40で
は、発声データファイル10に含まれるフレーズの最初
と最後の単語を除く全ての音節について、以下のような
修正された音節データを生成する。 −OS(U).S→Spna:ステップS14で選択されていない
音節データの場合。ここで、Spnaは処理後のアクセント
の置かれていない音節を示す。 −OS(PA).OS(U).S→Spacc:ステップS14で選択され
た音節データの場合。ここで、Spaccは処理後のアクセ
ントの置かれた音節を示す。
【0136】最後に、フレーズの最初と最後の音節に対
してのみアクセント化処理を行うフェーズP4に進む。
ここで、フレーズが有意味語で構成されている場合、こ
のフェーズP4では、フレーズ内の最初と最後の単語の
全ての音節にアクセントが置かれる。なお、フレーズと
は、意味を有する文の通常の文法的な意味によって、す
なわち話すときの間(ポーズ)によって決まるものであ
る。これに対して、無意味語の場合、フレーズとは、間
(ポーズ)で特徴付けられる発声の最初と最後とによっ
て決まるものである。典型的には、このようなフレーズ
は、約1秒間乃至3,4秒間続く。一方、無意味語の場
合、このフェーズP4では、少なくとも最初と最後の音
節、好ましくは最初のm個と最後のn個の音節にアクセ
ントが置かれる。ここで、m及びnは、約2又は3であ
り、同じ値であっても異なる値であってもよい。
【0137】そして、以前のフェーズと同様に、オペレ
ータOPrs、OPfs、OPsu、OPsd、OD
d、ODcの特定のパラメータで処理される。このオペ
レータは、最初と最後の音節アクセント化オペレータセ
ットOS(FL)に含まれ、それぞれ対応する値、すなわ
ちPrs(FL)、Pfs(FL)、Psu(FL)、
Psd(FL)、Dd(FL)、Dc(FL)でパラメ
ータ表示される(ステップS18)。これらのパラメー
タ値は、感情及びその感情の度合い、並びにインターフ
ェース30から供給されたその他の要素の機能として、
オペレータパラメータ化部28によって同様に計算され
る。
【0138】続いて、得られたオペレータセットOS
(FL)がフレーズ毎に最初と最後の音節に対して適用さ
れる(ステップS20)。これらの音節は、最初/最後
音節検出部34によって特定される。
【0139】ここで、オペレータセットOS(FL)が適
用された音節データの中には、ステップS10において
ユニバーサルオペレータセットOS(U)が適用されたも
のが存在する可能性がある。さらに、最初と最後の音節
がステップS14のランダム選択で選ばれ、確率的アク
セント化オペレータセットOS(PA)が適用された可能
性もある。
【0140】したがって、最初と最後の音節を処理する
場合には、以下に示すような2通りの可能性が考えられ
る。なお、以下の記号は上述と同様である。 −第1の可能性:先ずオペレータセットOS(U)で処理
し、次にオペレータセットOS(FL)で処理する。すな
わち、OS(FL).OS(U).S→Spfl(1)。 −第2の可能性:オペレータセットOS(U)、OS(P
A)、OS(FL)で連続的に処理する。すなわち、OS(F
L).OS(PA).OS(U).S→Spfl(2)。
【0141】この簡便なオペレータベースのアプローチ
によって、無意味語と有意味語の双方において、より複
雑なシステムと少なくとも比較し得る程度の結果が得ら
れている。
【0142】ところで、所望の感情を表現するためのパ
ラメータの選択は、非常に受動的なものであり、発声方
法や言語等によって大きく異なる。しかしながら、リア
ルタイム処理にあまり時間のかからない簡単且つ洗練さ
れたパラメータを有しているため、多くのパラメータの
組み合わせを試し、最も満足のいくオペレータセットを
見つけることも容易である。
【0143】一例として、本件出願人は、以下のような
パラメータによってよい結果が得られることを発見し
た。 −悲しみ(Sad):ユニバーサルオペレータセットのピ
ッチ=傾きの小さい下り勾配 継続時間長オペレータ=延長 アクセント化の選択確率N=低い −平静(Calm):オペレータセットを適用しないか、又
は僅かにパラメータ化されたオペレータセットを適用す
る −喜び(Happy):ユニバーサルオペレータセットのピ
ッチ=適度に傾きの大きい登り勾配 ユニバーサルオペレータセットの継続時間長=短縮 アクセント化オペレータセットの継続時間長=延長 −怒り(Angry):全てのオペレータセットのピッチ=
適度に傾きの大きい下り勾配 全てのオペレータセットの継続時間長=短縮
【0144】この例で特定していないオペレータセット
については、全てのオペレータセットに対して、一般的
なタイプのパラメータを用いることができる。一般的に
言えば、変化のタイプ(登り坂、短縮など)は、全ての
オペレータセットで同様であり、実際の値のみが異な
る。通常、ユニバーサルオペレータセットは、変化が最
小となるようにこの値を選択し、最初と最後の音節アク
セント化オペレータは、変化が最大となるようにこの値
を選択する。そして、確率的アクセントかオペレータセ
ットのピッチは、中程度の変化を生じさせる。
【0145】なお、このシステムでは、用いられている
パラメータに応じて、強度オペレータOIをオペレータ
セットに用いることもできる。
【0146】また、インターフェース30は、他の制御
を行うためにコンピュータインターフェースに統合する
こともできる。そして、ユーザ32にシステムを調整可
能とするために、ここから上述した様々なオペレータセ
ットのパラメータを直接選択可能とすることもできる。
このインターフェースは、例えば様々なパラメータにつ
いての傾きの値やシフトの値、或いは短縮/延長の値を
視覚的に表示することで、ユーザフレンドリーなものと
なる。
【0147】さらに、Fig.6,7,8に示され、F
ig.9a,9bで用いられた基本的なオペレータが分
割されているのは、より理解を容易にするためであるこ
とは明らかである。通常は、登り勾配オペレータ及び下
り勾配オペレータといった相補的なオペレータ対は、1
つのオペレータに統合し、パラメータに応じて登り勾配
又は下り勾配を生じさせることができる。同様に、シフ
トアップオペレータ及びシフトダウンオペレータについ
ても、1つのオペレータに統合し、パラメータに応じて
ピッチ又は強度をシフトさせることができる。
【0148】さらにまた、上述した例では音声データに
ついての所定のフォーマットを示したが、他の任意のフ
ォーマットが適用可能であることは明らかである。例え
ば、例で示されたピッチ或いは強度の値の数は5でなく
てもよく、典型的にはその値の数は1から5以上まで変
化する。
【0149】また、本発明は、合成される音声を表す数
値データが予め保存されていることを前提として記載し
たが、デジタル又はアナログである発話に関する電気信
号を扱うシステムとすることもできる。この場合、上述
のオペレータは、ピッチ、強度、或いは振幅波形に対し
て直接的に作用する。これは、デジタル音声処理器、又
はランプ波発生器、レベルシフタ、遅延線等といったア
ナログ回路によって実現可能である。
【0150】この実施例は、例えばペット型ロボットや
他の知的電子生物、教育用音声システム、スタジオ制作
(幼児語、音声アニメーション、ナレーションなど)、
テキスト(書籍、記事、手紙など)を音読する装置、音
響実験システム(音響心理学研究など)、PC、楽器そ
の他の機器における人間的なコンピュータインターフェ
ース、或いはその他の装置など、多数の装置に適用可能
である。
【0151】また、実施例の形式は、完全に合成された
音声を再生する独立機器(Fig.3参照)とすること
もでき、既存の音声合成に対する付属的な処理とするこ
ともでき、また、媒体に記録したソフトウェアモジュー
ル、或いはダウンロード可能な形式として対応した処理
システムにおいて実行可能とすることができる。
【図面の簡単な説明】
【図1】Fig.1aは、本件出願人が先に出願し、本
出願の優先権主張の基礎とされている欧州特許出願に記
載されている手順に従って発声する文を生成するための
プログラムの一例である。
【図2】Fig.1bは、本件出願人が先に出願し、本
出願の優先権主張の基礎とされている欧州特許出願に記
載されている手順に従って発声する文を生成するための
プログラムの一例である。
【図3】Fig.2は、力価及び奮起を表す直角軸にお
いて基本感情が何処に位置するかを示す図である。
【図4】Fig.3は、本発明が適用される音声合成シ
ステムの機能ユニットを示すブロック図である。
【図5】Fig.4aは、Fig.3に示すシステムで利
用される、音節を特定する典型的なデータ構造を示す図
である。
【図6】Fig.4bは、補間処理後にFig.4aに示
すデータからどのようにピッチ信号輪郭が生成されるか
を示す図である。
【図7】Fig.5は、本発明の好ましい実施例におけ
る、オペレータベースの感情合成装置を示すブロック図
である。
【図8】Fig.6は、Fig.5のシステムで用いられ
るピッチオペレータを概略的に示す図である。
【図9】Fig.7は、Fig.5のシステムで用いられ
る強度オペレータを概略的に示す図である。
【図10】Fig.8は、Fig.5のシステムで用いら
れる継続時間長オペレータを概略的に示す図である。
【図11】Fig.5のシステムにより音節データに対
して施される感情生成処理を説明するフローチャートで
ある。
【図12】Fig.5のシステムにより音節データに対
して施される感情生成処理を説明するフローチャートで
ある。

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 音声を発する前に、その基本音声要素
    (S)の少なくとも1つを選択的に変更することで、音
    声により伝えられる感情を合成する方法であって、 上記変更は、オペレータ適用ステップ(S10,S1
    6,S20)においてなされ、当該ステップでは、少な
    くとも1つのオペレータ(OP,OD;OI)が少なく
    とも1つの上記基本音声要素(S)に対して適用され、
    合成する感情に従ってその特徴に特定の変更が加えられ
    ることを特徴とする前記方法。
  2. 【請求項2】 請求項1記載の方法において、 上記特徴は、上記基本音声要素のピッチと継続時間長と
    の少なくとも1つであることを特徴とする前記方法。
  3. 【請求項3】 請求項2記載の方法において、 上記オペレータ適用ステップ(S10,S16,S2
    0)では、少なくとも1つのオペレータセット(OS
    (U),OS(PA),OS(FL))が構成され、 上記オペレータセットは、上記基本音声要素(S)にお
    けるピッチの特徴を変更するためのオペレータ(OPf
    s,OPsu,OPsd)の少なくとも1つ、及び/又
    は上記基本音声要素(S)における継続時間長の特徴を
    変更するためのオペレータ(ODd,ODc)の少なく
    とも1つを含むことを特徴とする前記方法。
  4. 【請求項4】 請求項1乃至請求項3のいずれか1項記
    載の方法において、 上記オペレータ適用ステップ(S10,S16,S2
    0)では、上記基本音声要素における強度の特徴を変更
    するためのパラメータ(OIrs,OIfs,OIs
    u,OIsd)の少なくとも1つが適用されることを特
    徴とする前記方法。
  5. 【請求項5】 請求項1乃至請求項4のいずれか1項記
    載の方法において、 上記オペレータ(OP,OI,OD)の少なくとも1つ
    をパラメータ化するステップ(S8,S12,S18)
    をさらに有し、当該ステップでは、合成する感情に従っ
    て、上記オペレータによる上記特定の変更の程度に影響
    する数値パラメータにパラメータ化されることを特徴と
    する前記方法。
  6. 【請求項6】 請求項1乃至請求項5のいずれか1項記
    載の方法において、 上記オペレータ適用ステップ(S10,S16,S2
    0)では、上記基本音声要素(S)のピッチを設定され
    た勾配特徴(Prs,Pfs)に従って選択的に上昇又
    は下降させるオペレータ(OPrs,OPfs)が適用
    されることを特徴とする前記方法。
  7. 【請求項7】 請求項1乃至請求項6のいずれか1項記
    載の方法において、 上記オペレータ適用ステップ(S10,S16,S2
    0)では、上記基本音声要素(S)のピッチを設定され
    た値(Psu,Psd)だけ一様に選択的に上昇又は下
    降させるオペレータ(OPsu,OPsd)が適用され
    ることを特徴とする前記方法。
  8. 【請求項8】 請求項1乃至請求項7のいずれか1項記
    載の方法において、 上記オペレータ適用ステップ(S10,S16,S2
    0)では、上記基本音声要素(S)の継続時間長(t
    1)を設定された値(D)だけ選択的に長くし又は短く
    するオペレータ(ODd,ODc)が適用されることを
    特徴とする前記方法。
  9. 【請求項9】 請求項1乃至請求項8のいずれか1項記
    載の方法において、 ユニバーサルフェーズ(P2)を有し、当該フェーズで
    は、上記音声の所定の系列を構成する全ての基本音声要
    素(S)に対して、少なくとも1つの上記オペレータ
    (OP(U),OD(U))が適用される(S10)ことを
    特徴とする前記方法。
  10. 【請求項10】 請求項9記載の方法において、 上記少なくとも1つのオペレータは、同じようにパラメ
    ータ化され(S8)、上記音声の所定の系列を構成する
    全ての基本音声要素(S)に対して適用されることを特
    徴とする前記方法。
  11. 【請求項11】 請求項1乃至請求項10のいずれか1
    項記載の方法において、 確率的アクセント化フェーズ(P3)を有し、当該フェ
    ーズでは、アクセント化するように選択された基本音声
    要素(S)に対してのみ、少なくとも1つの上記オペレ
    ータ(OP(PA),OD(PA))が適用される(S1
    6)ことを特徴とする前記方法。
  12. 【請求項12】 請求項11記載の方法において、 上記選択された基本音声要素(S)は、候補となる基本
    音声要素(S)からランダム選択(S14)により選択
    されることを特徴とする前記方法。
  13. 【請求項13】 請求項12記載の方法において、 上記ランダム選択では、プログラム可能な確率(N)で
    基本音声要素(S)が選択されることを特徴とする前記
    方法。
  14. 【請求項14】 請求項11又は請求項12記載の方法
    において、 上記候補となる基本音声要素は、−基本音声要素のソー
    ス(10)が何れかの要素にアクセントを置くことを禁
    止していない場合には全ての基本音声要素、又は−基本
    音声要素のソース(10)が何れかの要素にアクセント
    を置くことを禁止している場合には禁止されていない基
    本音声要素であることを特徴とする前記方法。
  15. 【請求項15】 請求項11乃至請求項14のいずれか
    1項記載の方法において、 確率的アクセント化フェーズ(P3)における上記少な
    くとも1つのオペレータ(OP(PA),OD(PA))
    が、同じようにパラメータ化される(S12)ことを特
    徴とする前記方法。
  16. 【請求項16】 請求項1乃至請求項15のいずれか1
    項記載の方法において、 最初と最後の基本音声要素をアクセント化するフェーズ
    (P4)を有し、当該フェーズでは、上記音声の所定の
    系列の最初と最後を構成する少なくとも1つの基本音声
    要素のグループに対してのみ、少なくとも1つの上記オ
    ペレータ(OP(FL),OD(FL))が適用される(S
    10)ことを特徴とする前記方法。
  17. 【請求項17】 請求項9乃至請求項16のいずれか1
    項記載の方法において、 上記音声の所定の系列は、フレーズであることを特徴と
    する前記方法。
  18. 【請求項18】 請求項9乃至請求項17のいずれか1
    項記載の方法において、 上記基本音声要素(S)は、音節又は音素に対応するこ
    とを特徴とする前記方法。
  19. 【請求項19】 請求項9乃至請求項18のいずれか1
    項記載の方法において、 上記基本音声要素は、有意味語に対応することを特徴と
    する前記方法。
  20. 【請求項20】 請求項9乃至請求項19のいずれか1
    項記載の方法において、 上記基本音声要素は、無意味語に対応することを特徴と
    する前記方法。
  21. 【請求項21】 請求項1乃至請求項20のいずれか1
    項記載の方法において、 上記基本音声要素は、継続時間長(t1)及び/又は上
    記基本音声要素の上記継続時間長の特定部分若しくは全
    部に亘って存在するピッチ値(P1−P5)の少なくと
    も1つを特定するフォーマット化されたデータ値として
    表されることを特徴とする前記方法。
  22. 【請求項22】 請求項20記載の方法において、 上記オペレータ(OP,OP,OD)は、上記データ値
    を選択的に変更することを特徴とする前記方法。
  23. 【請求項23】 請求項21又は請求項22記載の方法
    において、 上記基本音声要素のデータ構造及び上記補間段階(1
    4)の前段における処理が変更されず、上記補間段階で
    は、合成する感情に従って変更されたデータが、上記基
    本音声要素(S)のソース(10)から任意に得られた
    データと同様の手法で処理されることを特徴とする前記
    方法。
  24. 【請求項24】 音声を発する前に、その基本音声要素
    (S)の少なくとも1つを選択的に変更する手段を用い
    ることで、音声により伝えられる感情を合成する装置で
    あって、 上記手段は、オペレータ適用手段(22)を有し、当該
    オペレータ適用手段は、少なくとも1つのオペレータ
    (OP,OD;OI)を少なくとも1つの上記基本音声
    要素(S)に対して適用し(S10,S16,S2
    0)、合成する感情に従ってその特徴に特定の変更を加
    えることを特徴とする前記装置。
  25. 【請求項25】 請求項24記載の装置において、 上記オペレータ適用手段(22)は、少なくとも1つの
    オペレータセット(OS(U),OS(PA),OS(F
    L))を構成する手段(26,28)を有し、 上記オペレータセットは、上記基本音声要素(S)にお
    けるピッチの特徴を変更するためのオペレータ(OPf
    s,OPsu,OPsd)の少なくとも1つ、及び/又
    は上記基本音声要素(S)における継続時間長の特徴を
    変更するためのオペレータ(ODd,ODc)の少なく
    とも1つを含むことを特徴とする前記装置。
  26. 【請求項26】 請求項24又は請求項25記載の装置
    において、 上記基本音声要素(S)のピッチを設定された勾配特徴
    (Prs,Pfs)に従って選択的に上昇又は下降させ
    るオペレータ(OPrs,OPfs)を有することを特
    徴とする前記装置。
  27. 【請求項27】 請求項24乃至請求項26のいずれか
    1項記載の装置において、 上記基本音声要素(S)のピッチを設定された値(Ps
    u,Psd)だけ一様に選択的に上昇又は下降させるオ
    ペレータ(OPsu,OPsd)を有することを特徴と
    する前記装置。
  28. 【請求項28】 請求項24乃至請求項27のいずれか
    1項記載の装置において、 上記基本音声要素(S)の継続時間長(t1)を設定さ
    れた値(D)だけ選択的に長くし又は短くするオペレー
    タ(ODd,ODc)を有することを特徴とする前記装
    置。
  29. 【請求項29】 請求項24乃至請求項28のいずれか
    1項記載の装置において、 以下に示す3つの段階、すなわち、 i)上記音声の所定の系列を構成する全ての基本音声要
    素(S)に対して、少なくとも1つの上記オペレータ
    (OP(U),OD(U))が適用される(S10)ユニバ
    ーサルフェーズ(P2)、 ii)アクセント化するように選択された基本音声要素
    (S)に対してのみ、少なくとも1つの上記オペレータ
    (OP(PA),OD(PA))が適用される(S16)確
    率的アクセント化フェーズ(P3)、及びiii)上記音
    声の所定の系列の最初と最後を構成する少なくとも1つ
    の基本音声要素のグループに対してのみ、少なくとも1
    つの上記オペレータ(OP(FL),OD(FL))が適用
    される(S10)最初と最後の基本音声要素をアクセン
    ト化するフェーズ(S4)の少なくとも1つを実行する
    ことを特徴とする前記装置。
  30. 【請求項30】 請求項24乃至請求項29のいずれか
    1項記載の装置において、 上記オペレータ適用手段(22)は、継続時間長(t
    1)及び/又は上記基本音声要素の上記継続時間長の特
    定部分若しくは全部に亘って存在するピッチ値(P1−
    P5)の少なくとも1つを特定する、外部から供給され
    たフォーマット化されたデータ値を処理することを特徴
    とする前記装置。
  31. 【請求項31】 請求項30記載の装置において、 上記オペレータ適用手段(22)は、上記基本音声要素
    のデータ構造及び上記補間段階(14)の前段における
    処理を変更せず、上記補間段階では、合成する感情に従
    って変更されたデータが、上記基本音声要素(S)のソ
    ース(10)から任意に得られたデータと同様の手法で
    処理されることを特徴とする前記装置。
  32. 【請求項32】 請求項1乃至請求項23のいずれか1
    項記載の方法を実行するソフトウェアモジュール手段を
    有することを特徴とするデータ記録媒体。
JP2002206012A 2001-07-13 2002-07-15 音声による感情合成方法及び装置 Withdrawn JP2003084800A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01401880.8 2001-07-13
EP20010401880 EP1256932B1 (en) 2001-05-11 2001-07-13 Method and apparatus for synthesising an emotion conveyed on a sound

Publications (1)

Publication Number Publication Date
JP2003084800A true JP2003084800A (ja) 2003-03-19

Family

ID=8182805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002206012A Withdrawn JP2003084800A (ja) 2001-07-13 2002-07-15 音声による感情合成方法及び装置

Country Status (2)

Country Link
US (1) US20030093280A1 (ja)
JP (1) JP2003084800A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143038B2 (en) 2003-04-28 2006-11-28 Fujitsu Limited Speech synthesis system
WO2007010680A1 (ja) * 2005-07-20 2007-01-25 Matsushita Electric Industrial Co., Ltd. 声質変化箇所特定装置
US8185395B2 (en) 2004-09-14 2012-05-22 Honda Motor Co., Ltd. Information transmission device
CN106444374A (zh) * 2016-08-31 2017-02-22 中国科学院空间应用工程与技术中心 基于2d‑psd的六自由度相对运动测量建模方法

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156625A1 (en) * 2004-01-06 2007-07-05 Neuric Technologies, Llc Method for movie animation
US7089218B1 (en) * 2004-01-06 2006-08-08 Neuric Technologies, Llc Method for inclusion of psychological temperament in an electronic emulation of the human brain
US7925492B2 (en) 2004-01-06 2011-04-12 Neuric Technologies, L.L.C. Method for determining relationships through use of an ordered list between processing nodes in an emulated human brain
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US7472065B2 (en) * 2004-06-04 2008-12-30 International Business Machines Corporation Generating paralinguistic phenomena via markup in text-to-speech synthesis
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
US8473449B2 (en) * 2005-01-06 2013-06-25 Neuric Technologies, Llc Process of dialogue and discussion
US8036899B2 (en) * 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems
WO2008102594A1 (ja) * 2007-02-19 2008-08-28 Panasonic Corporation 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
US8721554B2 (en) 2007-07-12 2014-05-13 University Of Florida Research Foundation, Inc. Random body movement cancellation for non-contact vital sign detection
JP4327241B2 (ja) * 2007-10-01 2009-09-09 パナソニック株式会社 音声強調装置および音声強調方法
JP5198046B2 (ja) * 2007-12-07 2013-05-15 株式会社東芝 音声処理装置及びそのプログラム
US8489399B2 (en) 2008-06-23 2013-07-16 John Nicholas and Kristin Gross Trust System and method for verifying origin of input through spoken language analysis
US8752141B2 (en) 2008-06-27 2014-06-10 John Nicholas Methods for presenting and determining the efficacy of progressive pictorial and motion-based CAPTCHAs
CN101727074B (zh) * 2008-10-24 2011-12-21 鸿富锦精密工业(深圳)有限公司 具有生物时钟的类生物装置及其行为控制方法
US8731932B2 (en) * 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
US10163455B2 (en) * 2013-12-03 2018-12-25 Lenovo (Singapore) Pte. Ltd. Detecting pause in audible input to device
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
US11051702B2 (en) 2014-10-08 2021-07-06 University Of Florida Research Foundation, Inc. Method and apparatus for non-contact fast vital sign acquisition based on radar signal
US9786299B2 (en) 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
US9833200B2 (en) 2015-05-14 2017-12-05 University Of Florida Research Foundation, Inc. Low IF architectures for noncontact vital sign detection
JP6483578B2 (ja) * 2015-09-14 2019-03-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US11134308B2 (en) 2018-08-06 2021-09-28 Sony Corporation Adapting interactions with a television user

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
CA2221762C (en) * 1995-06-13 2002-08-20 British Telecommunications Public Limited Company Ideal phonetic unit duration adjustment for text-to-speech system
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
JP3361066B2 (ja) * 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
JP3515039B2 (ja) * 2000-03-03 2004-04-05 沖電気工業株式会社 テキスト音声変換装置におけるピッチパタン制御方法
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143038B2 (en) 2003-04-28 2006-11-28 Fujitsu Limited Speech synthesis system
US8185395B2 (en) 2004-09-14 2012-05-22 Honda Motor Co., Ltd. Information transmission device
WO2007010680A1 (ja) * 2005-07-20 2007-01-25 Matsushita Electric Industrial Co., Ltd. 声質変化箇所特定装置
US7809572B2 (en) 2005-07-20 2010-10-05 Panasonic Corporation Voice quality change portion locating apparatus
CN106444374A (zh) * 2016-08-31 2017-02-22 中国科学院空间应用工程与技术中心 基于2d‑psd的六自由度相对运动测量建模方法

Also Published As

Publication number Publication date
US20030093280A1 (en) 2003-05-15

Similar Documents

Publication Publication Date Title
JP2003084800A (ja) 音声による感情合成方法及び装置
Pierre-Yves The production and recognition of emotions in speech: features and algorithms
JP4363590B2 (ja) 音声合成
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
JP4458321B2 (ja) 感情認識方法および感情認識装置
DE60119496T2 (de) Verfahren und Vorrichtung um eine mittels eines Klangs übermittelte Emotion zu synthetisieren
Murray et al. Synthesizing emotions in speech: Is it time to get excited?
JP2003114693A (ja) 音声制御情報ストリームに基づいて音声信号を合成する方法
JP3616250B2 (ja) 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
Nose et al. HMM-based expressive singing voice synthesis with singing style control and robust pitch modeling
Hill et al. Low-level articulatory synthesis: A working text-to-speech solution and a linguistic tool1
Gahlawat et al. Natural speech synthesizer for blind persons using hybrid approach
EP1256932B1 (en) Method and apparatus for synthesising an emotion conveyed on a sound
Lobanov et al. TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian)
Olaszy The most important prosodic patterns of Hungarian
Gahlawat et al. Integrating human emotions with spatial speech using optimized selection of acoustic phonetic units
Oudeyer The synthesis of cartoon emotional speech
JPH05224689A (ja) 音声合成装置
Thakur et al. Study of various kinds of speech synthesizer technologies and expression for expressive text to speech conversion system
Vine et al. Synthesis of emotional speech using RP-PSOLA
Makarova et al. Phonetics of emotion in Russian speech
Nguyen A Study on Correlates of Acoustic Features to Emotional Singing Voice Synthesis
Henton et al. Generating and manipulating emotional synthetic speech on a personal computer
James Modeling Prosodic Features for Empathetic Speech of a Healthcare Robot
Sairanen Deep learning text-to-speech synthesis with Flowtron and WaveGlow

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051004