JP2003036090A

JP2003036090A - 音声合成方法及び装置、並びにロボット装置

Info

Publication number: JP2003036090A
Application number: JP2002135962A
Authority: JP
Inventors: Pierre Yves Oudeyer; イブスオードイェピエール; Kotaro Sabe; 浩太郎佐部
Original assignee: Sony France SA; Sony Corp
Current assignee: Sony France SA; Sony Corp
Priority date: 2001-05-11
Filing date: 2002-05-10
Publication date: 2003-02-07
Also published as: DE60119496T2; EP1256931A1; US20020198717A1; DE60124225D1; DE60119496D1; DE60124225T2

Abstract

(57)【要約】【課題】生物等の感情表現により近いような聴覚的な
感情表現をする。【解決手段】ロボット装置は、感情モデルの感情状態
を判別する感情判別工程（ステップＳ１）と、音声とし
て発する内容を表す発話文を出力する発話文出力工程
（ステップＳ２）と、感情判別工程により判別された感
情状態に応じて音声合成のためのパラメータを制御する
パラメータ制御工程（ステップＳ３）と、発話文出力工
程により出力された発話文を音声合成部に入力して制御
されたパラメータに基づいて音声合成する音声合成工程
（ステップＳ４）とにより、音声合成による発話文の生
成を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、発話主体が出力す
る音声を生成するための音声合成方法及び音声合成装
置、並びに音声を出力するロボット装置に関する。

【０００２】

【従来の技術】近年、外観形状が犬や猫等の動物に模し
て形成された例えばペット型のロボット装置が提供され
ている。そのようなロボット装置には、外部からの情報
や内部の状態に応じて自律的に動作するものがある。

【０００３】そのような、ロボット装置に用いられる人
工知能（ＡＩ：artificial intelligence）は、推論・
判断等の知的な機能を人工的に実現したものであり、さ
らに感情や本能等の機能をも人工的に実現することが試
みられている。このような人工知能の外部への表現手段
としての視覚的な表現手段や聴覚的な表現手段等の内
で、聴覚的なものの一例として、音声を用いることが挙
げられる。

【０００４】そのようなロボット装置においては、その
発声を使って人間（飼い主等）に自身の感情を訴える機
能は有効である。これは、人間は実際の犬や猫等のペッ
トが何を言っているのか直接理解することはできない
が、経験から愛犬、愛猫が今どのような機嫌なのか知る
ことができるのであり、そのひとつの要素がペットの発
声により判断しているからである。

【０００５】

【発明が解決しようとする課題】ところで、現在市場に
供給されているロボット装置として、聴覚的な感情表現
を電子的な音（電子音）で行っているものが知られてい
る。具体的には、例えば、短く高い音が喜びを表し、ゆ
っくりとした低い音が悲しみを表すなどである。そし
て、これらの電子音は予め作曲されており、人間の主観
によってそれぞれの感情クラスに振り分けられ、再生に
用いられる。ここで、感情クラスとは、喜び、怒り等と
して分類される情動のクラスである。従来よりなされて
いる電子音を用いた聴覚的な感情表現においては、
（i）機械的である、（ii）常に同じ表現を繰り返す、
（iii）表現力が適切であるか不明である、などの点が
犬や猫等の生物のペットの感情表現と大きく異なる点と
して挙げられ、さらなる改善が望まれているのが実情で
ある。

【０００６】そこで、本発明は、上述の実情に鑑みてな
されたものであり、生物等の感情表現により近いような
聴覚的な感情表現を可能とする音声合成方法及び音声合
成装置、並びにロボット装置の提供を目的とする。

【０００７】

【課題を解決するための手段】本発明に係る音声合成方
法は、上述の課題を解決するために、発音主体の感情モ
デルの感情状態を判別する感情判別工程と、音声として
発する内容を表す発話文を出力する発話文出力工程と、
感情判別工程により判別された感情状態に応じて音声合
成のためのパラメータを制御するパラメータ制御工程
と、発話文出力工程により出力された発話文を音声合成
部に入力して制御されたパラメータに基づいて音声合成
する音声合成工程とを有する。

【０００８】このような音声合成方法は、発声主体の感
情モデルの感情状態に応じて制御した音声合成のための
パラメータに基づいて発音主体の発話文を生成する。

【０００９】また、本発明に係る音声合成装置は、上述
の課題を解決するために、発音主体の感情モデルの感情
状態を判別する感情判別手段と、音声として発する内容
を表す発話文を出力する発話文出力手段と、感情判別手
段により判別された感情状態に応じて音声合成のための
パラメータを制御するパラメータ制御手段と、発話文出
力手段により出力された発話文が供給され、制御された
パラメータに基づいて音声合成する音声合成手段とを備
える。

【００１０】このような構成を備える音声合成装置は、
発音主体の感情モデルの感情状態を判別する感情判別手
段により判別された感情状態に応じて音声合成のための
パラメータをパラメータ制御手段により制御して、発話
文出力手段により出力された発話文が供給され、制御さ
れたパラメータに基づいて音声合成手段により音声合成
する。これにより、音声合成装置は、発声主体の感情モ
デルの感情状態に応じて制御した音声合成のためのパラ
メータに基づいて発音主体の発話文を生成する。

【００１１】また、本発明に係るロボット装置は、上述
の課題を解決するために、動作に起因する感情モデル
と、感情モデルの感情状態を判別する感情判別手段と、
音声として発する内容を表す発話文を出力する発話文出
力手段と、感情判別手段により判別された感情状態に応
じて音声合成のためのパラメータを制御するパラメータ
制御手段と、発話文出力手段により出力された発話文が
供給され、制御されたパラメータに基づいて音声合成す
る音声合成手段とを備える。

【００１２】このような構成を備えるロボット装置は、
動作に起因する感情モデルの感情状態を判別する感情判
別手段により判別された感情状態に応じて音声合成のた
めのパラメータをパラメータ制御手段により制御して、
発話文出力手段により出力された発話文が供給され、制
御されたパラメータに基づいて音声合成手段により音声
合成する。これにより、ロボット装置は、発声主体の感
情モデルの感情状態に応じて制御した音声合成のための
パラメータに基づいて発音主体の発話文を生成する。

【００１３】

【発明の実施の形態】先ず、本発明に係る音声合成方法
及び装置、並びにロボット装置の好ましい実施の形態の
説明に先立って、音声による感情表現をペット型のロボ
ット装置等の機能として採用することの意味、及び適切
な音声による感情表現について説明する。

【００１４】（１）音声による感情表現ロボット装置等における機能として発話に感情表現を加
えることは、人間との親密性を高めるために非常に有効
に働く。また、単に社交性の向上だけではなく、自身の
満足や不満足を示すことで人間に対して刺激を要求する
ことができる。このような機能は、学習機能を持つロボ
ット装置においては有効に作用する機能になる。

【００１５】一方、人間の持つ感情と発せられる音声の
音響特性に相関があるかどうかについて、Fairbanksの
報告（Fairbanks G.(1940), Recent experimental inve
stigations of vocal pitch in speech, Journal of th
e Acoustical Society of America,(11):457-466.）やB
urkhardtらの報告（Burkhardt F. and Sendlmeier W.
F., Verification of Acoustic Correlates of Emotion
al Speech unsing Formant Synthesis, ISCA Workshop
on Speech and Emotion, Belfast 2000.）等があり、こ
のように多くの研究者による報告が知られている。

【００１６】これらの報告によると、発話は心理学的な
条件や幾つかの基本的な情動クラスとの相関があること
が判っている。また逆に驚きと怖れ、退屈と悲しみなど
のある特定の感情に関しては違いを見つけることが難し
いことなども報告されている。ある情動についてはある
身体的な状態と結びついており、容易に予想可能な物理
的な影響を発話に対してもたらす。

【００１７】例えば、ある人が怒りや怖れや喜びを覚え
たときは交感神経系が奮起し、心拍数や血圧が上昇す
る。口内は乾き、時には筋肉に震えが起こる。こうした
ときには発話は大きく速くなり、高周波成分に強いエネ
ルギーを持つことになる。またある人が退屈や悲しみを
感じているとき、副交感神経系が奮起する。心拍数や血
圧は減少し、唾液が多く分泌される。この結果発話はゆ
っくりとしたピッチの遅いものになる。そして、これら
身体的特徴は万国共通であるために、基本的な情動と発
話の音響的な特性の間には民族や文化に寄らない相関関
係が存在すると考えられている。

【００１８】また、日本人とアメリカ人に意味の無い単
語の羅列を色々な感情で発話させてお互いの感情がどの
程度認識されるかの実験を行った結果がAbelinらの報告
（Abelin A., Allwood J., Cross Linguistic Interp
retation of Emotional Prosody, Workshop on Emotion
s in Speech, ISCA Workshop on Speech and Emotion，
Belfast 2000.）や、Tickleの報告（Tickle A., Englis
h and Japanese Speaker’s Emotion Vocalizations an
d Recognition : A Comparison HighlightingVowel Qua
lity, SCAWorkshop on Speech and Emotion, Belfast 2
000.）にある。このような報告にある結果から、（i）
言語の違いによって感情の認識率は変わらない、（ii）
認識結果はあまり芳しくなく６０％程度である、とい
う、２つの点が明らかにされている。

【００１９】これらの研究結果を考慮すると、人間と例
えばロボット装置との間に、意味の伝達を必要としない
無意味語による感情の伝達が、非常にあいまいではある
が、可能であることがわかる。例えば、その感情の認識
率は６０％程度とされている。また、情動と音響特性の
相関をモデル化することでそうした発話を合成すること
が可能であることも示している。

【００２０】本発明の実施の形態では、このような音響
特性に基づいた発話をすることにより、感情を表出させ
て発話をするようにしている。さらに、本発明の実施の
形態では、（i）スピーチのような、（ii）意味を持た
ない、（iii）毎回違う、発声を実現している。

【００２１】ここで、図１は、本発明に係る音声合成方
法の実施の形態の基本構成を示すフローチャートであ
り、発音主体としては、少なくとも感情モデル、音声合
成手段及び発音手段を有する例えばロボット装置を想定
しているが、これに限定されず、各種ロボット装置や、
ロボット以外の各種コンピュータＡＩ（artificial int
elligence) 等への適用も可能であることは勿論であ
る。なお、感情モデルについては後で詳述する。

【００２２】この図１において、最初のステップＳ１で
は、発音主体の感情モデルの感情状態を判別する。具体
的には、例えば、周囲の環境（外的要因）や内部の状態
（内的要因）に応じて感情モデルの状態（感情状態）が
変化し、この感情状態について、例えば平静、怒り、悲
しみ、喜び、落ち着き、のいずれかであるかを判別す
る。

【００２３】ここで、ロボット装置の場合には、行動モ
デルとして、内部に確率状態遷移モデル（例えば、後述
するように、状態遷移表を有するモデル）を有してお
り、各状態が認識結果や感情や本能の値によって異なる
遷移確率テーブルを持ち、その確率に従って次の状態へ
遷移し、この遷移に関連づけられた行動を出力する。

【００２４】感情による喜びや悲しみの表現行動がこの
確率状態遷移モデル（或いは確率遷移表）に記述されて
おり、この表現行動の１つとして、音声による（発話に
よる）感情表現が含まれている。従って、この具体例で
は、感情モデルの感情状態を表すパラメータを行動モデ
ルが参照することにより決定される行動の１つの要素と
して感情表現があり、行動決定部の一部機能として、感
情状態の判別が行われることになる。

【００２５】なお、本発明は、この具体例に限定される
ものではなく、ステップＳ１では少なくとも感情モデル
の感情状態の判別が行われればよく、後のステップで
は、判別された感情状態を音声で表現するような音声合
成が行われるものである。

【００２６】次のステップＳ２では、音声として発する
内容を表す発話文を出力する。このステップＳ２は、ス
テップＳ１の前、あるいは後述するステップＳ３の後で
もよい。また、毎回新たな発話文を生成してもよく、予
め生成されて用意された複数の発話文のいずれかをラン
ダムに選択するようにしてもよい。ただし、本発明の実
施の形態においては、無意味な発話文であることが必要
とされる。これは、特にロボット装置に適用する場合に
おいて、実際に意味を持った対話を実現することは困難
であるが、無意味語の発話であれば簡単な構成で実現で
き、しかも感情表現が伴うことにより、無意味語でも充
分に対話しているように感じさせることができ、また、
無意味語の方が聞き手の側の想像の余地が広がって、不
適切な意味のある発話内容よりも親近感、親密感が高ま
ること等を考慮したものである。また、発話文の生成あ
るいは選択をランダムに行うことにより、音声合成され
て再生される発声が毎回違うようになり、常に新鮮に感
じることになる。

【００２７】このようにこのステップＳ２において出力
される発話文は、ランダムな単語で構成される文であ
り、具体的には、それぞれの単語をランダムな音節にす
ることによって実現している。ここでいう音節とは、音
素である子音Ｃと母音Ｖとを組み合わせて、例えばＣＶ
若しくはＣＣＶとしたものである。実施の形態では、音
素を予め用意しており、その全ての音素は、最初は固定
されたパラメータとしての持続時間やピッチを有してい
るが、感情状態の判別結果に応じて制御される。感情状
態の判別結果に応じたそのようなパラメータの制御によ
り、感情表現がなされた発話になる。このような感情表
現の判別結果に応じたパラメータの制御については後で
詳述する。

【００２８】なお、本実施の形態においては、出力され
る発話文は、感情モデルの感情状態やその判別結果とは
無関係であるが、感情状態等に応じて、出力される発話
文をある程度調整したり、発話文の生成あるいは選択処
理自体を制御するようにしてもよい。

【００２９】次に、ステップＳ３では、上述のステップ
Ｓ１での感情状態の判別結果に応じて、音声合成のため
のパラメータを制御する。音声合成のためのパラメータ
とは、例えば上述の音素の持続時間やピッチ、あるいは
音量等のことであり、感情状態の判別結果、例えば、平
静、怒り、悲しみ、喜び、落ち着き等に応じてこれらの
パラメータを変えることで感情表現を行わせる。具体的
には、上述の判別結果としての各感情（平静、怒り、悲
しみ、喜び、落ち着き等）に対応するパラメータの組合
せテーブルを予め作成しておき、実際に判別された感情
に応じてこれらのテーブルを切り換えることが挙げられ
る。各感情に応じて用意するテーブルについては後で具
体例を示している。

【００３０】次のステップＳ４では、上述のステップＳ
２で出力された発話文を音声合成器（スピーチシンセサ
イザ：speech synthesizer）に送り、上述のステップＳ
３で制御されたパラメータに従って音声合成する。音声
合成されて得られた音声時系列データは、Ｄ／Ａ変換器
やアンプ等を介してスピーカに送られることにより、実
際の音声として発せられる。例えば、ロボット装置であ
る場合には、このような処理が、いわゆるバーチャルロ
ボットにおいてなされてスピーカから、そのときの感情
を表現するような発話がなされるようになる。

【００３１】以上説明した本発明の基本的な実施の形態
によれば、身体的状態に関連する感情に応じて、音声合
成のためのパラメータ（音素の持続期間、ピッチ、音量
等）を制御することで、感情表現をともなった発話がで
き、音素をランダムに選ぶために単語や文自体に意味を
持たせる必要がなく、それでいて発話のように聞こえ、
また、前述パラメータの一部をランダムに変更したり、
音素の組合せや、単語、文の長さをランダムに決定する
ことで合成する度に違う発話を作り出すことができると
共に、制御するパラメータが少ないために実装が簡便で
ある。

【００３２】（２）感情と無意味語の合成アルゴリズム感情と発話文となる無意味語との合成アルゴリズムにつ
いて詳細に説明する。実施の形態において、合成アルゴ
リズムの目標とするところは、スピーチのような、意味
を持たない、毎回違う、発話文を生成することである。
そして、そのような発話文に感情表現を伴わせることで
ある。

【００３３】このような発話文の生成のために音声合成
器（スピーチシンセサイザ：speechsynthesizer）、あ
るいは音声合成システムを利用する。音声合成器（スピ
ーチシンセサイザ：speech synthesizer）、あるいは音
声合成システムヘの入力は、音素のリストとそれぞれの
音素に対する、持続期間、目標とするピッチと到達時刻
（持続期間に対するパーセンテージで表現）等である。
このような音声合成を実現するアルゴリズムの概略は、
以下のようになっている。

【００３４】（２−２）発話文の生成無意味語の発話文の生成は、ランダムな単語により構成
することに実現している。さらに、それぞれの単語をラ
ンダムな音節によって構成している。ここで、音節は、
音素である子音Ｃと母音Ｖとを組み合わせてなり、ＣＶ
もしくはＣＣＶとして表されるものとしている。ここ
で、音素は、リストとして有している。そして、リスト
として有するすべての音素は、固定された持続期間やピ
ッチをもって先ず登録されている。

【００３５】例えば、ある音素「ｂ」は「448 10 150 8
0 158」といった値によって表現されて、リストに登録
されている。ここで、”448”は、音素「b」の持続期間
が448msであることを示している。また、次の”10”及
びその次の”150”は、持続時間448msの10％で150Hzに
到達することを示している。また、その次の”80”及び
その次の”158”は、持続時間448msの80％には158Hzに
到達することを示している。このようにしてリストのす
べての音素が表現される。

【００３６】図２には、「131 80 179」により与えられ
る音素「ｂ」と、「77 20 200 80 229」により与えられ
る音素「＠」と、「405 80 169」により与えられる音素
「ｂ」との結合によって表現される音節を示している。
この例では、実際には不連続の関係にある各音素を連続
となるように結合した音節として示している。

【００３７】このような音節を構成するものとなる音素
が各感情表現にあわせて変更を加えられることで、発話
文に感情表現がなされるようになる。具体的には、上述
したような音素の個性或いは特性を示す情報でもある持
続期間やピッチが感情表現のために変更される。

【００３８】このような音素から構成する発話文は、大
別して、単語の組合せであり、また、その単語が、音節
の組合せとされ、さらに、その音節が音素の組合せとさ
れて構成されるものである。以下にそのような発話文を
構成する各段階毎＜１＞〜＜５＞における処理について
詳しく説明する。＜１＞先ず、文の中の単語の数を決める。例えば、２
０〜MAXWORDSの間の乱数として決定する。MAXWORDSは、
文章を構成する単語の最大数であり、音声合成のための
パラメータである。＜２＞各単語を生成する。具体的には、先ず、文章中
において単語にアクセントがあるかどうかを確率（PROB
ACCENT）で決定する。

【００３９】以下の＜３−１＞〜＜３−７＞の手続きに
より単語の音節及びその音素を決定し、単語を決定す
る。＜３−１＞各単語の中の音節の数を決める。例えば、
２〜MAXSYLLの間の乱数として決定する。MAXSYLLは、単
語を構成する音節の最大数であり、音声合成のためのパ
ラメータである。＜３−２＞ここで、アクセントがある単語であるな
ら、音節のうちの一つをランダムに選んでアクセントを
マークする。＜３−３＞各音節をＣＶ表現かＣＣＶ表現のものとし
て決定する。例えば、ＣＶ表現の音節が0.8％の確率で
選択されるように決定する。＜３−４＞そのように選んだＣＶ或いはＣＣＶのＣ及
びＶに割り当てる子音と母音を音素データベース（或い
は音素リスト）からランダムに読み出す。＜３−５＞各音素の持続期間を、MEANDUR＋random(DU
RVAR)で計算する。ここで、MEANDURは固定の持続時間で
あり、random(DURVAR)は乱数に決定される値である。こ
こで、MEANDUR及びDURVARは、音声合成のためのパラメ
ータである。＜３−６−１＞音素のピッチの計算を、e＝MEANPITCH
＋random(PITCHVAR)で計算する。ここで、MEANPITCHは
固定のピッチであり、random(PITCHVAR)は乱数に決定さ
れる値である。ここで、MEANPITCH及びPITCHVARは、例
えば感情に応じて決定されるパラメータにしている。＜３−６−２＞ここで、音素が子音なら、e−PITCHVA
Rとして子音のピッチを得る。また、音素が母音なら、
ｅ＋PITCHVARとして母音のピッチを得る。＜３−７−１＞もし、音節にアクセントがあるなら、
持続期間にDURVARを追加する。＜３−７−２＞そして、アクセントがある場合におい
て、DEFAULTCONTOUR＝risingであるときには、子音のピ
ッチを、MAXPITCH−PITCHVARとし、母音のピッチを、MA
XPITCH＋PITCHVARとする。また、DEFAULTCONTOUR＝fall
ingであるときには、子音のピッチを、MAXPITCH＋PITCH
VARとし、母音のピッチを、MAXPITCH−PITCHVARとす
る。さらに、DEFAULTCONTOUR＝ stableであるときに
は、子音及び母音のピッチを、MAXPITCHとする。DEFAUL
TCONTOURは、音節の特性（CONTOUR）を示すものとな
る。また、MAXPITCHは、音声合成のためのパラメータで
ある。

【００４０】以上のような＜３−１＞〜＜３−７＞の手
続きにより単語の音節及びその音素が決定される。そし
て、最後に発話文の最後にくる単語のcontour（輪郭）
を変更する処理を行う。＜４−１＞文章の最後の単語にアクセントか無けれ
ば、e＝PITCHVAR/2にする。ここで、CONTOURLASTWORD＝
falingであるときには、各音節について、-(I+1)*eを加
え、e＝e+eとする。Iは音素のインデックスを示すもの
となる。また、パラメータCONTOURLASTWORD＝risingで
あるときには、各音節について、+(I+1)*eを加え、e＝e
+eとする。＜４−２＞一方、最後の単語にアクセントかあれば、
CONTOURLASTWORD＝fallingであるときには、各音節の持
続期間に、DURVARを加える。そして、子音のピッチを、
MAXPITCH＋PITCHVARとし、母音のピッチを、MAXPITCH−
PITCHVARとする。もし、パラメータCONTOURLASTWORD＝r
isingであるときには、各音節の持続期間に、DURVARを
加える。そして、子音のピッチを、MAXPITCH−PITCHVAR
とし、母音のピッチを、MAXPITCH＋PITCHVARとする。＜５＞最後に文全体のボリュームをVOLUMEに設定す
る。ここで、VOLUMEは、音声合成のためのパラメータで
ある。

【００４１】以上のような各段階毎における処理によ
り、発話文が生成されるようになる。そして、発話文の
決定に使用する幾つかのパラメータを乱数によって与え
ているので、意味を持たない、毎回違う、無意味語を生
成することができるようになる。そして、上述したよう
な各種パラメータを感情に応じて与えることにより、そ
のような発話文に感情表現がなされるようになる。

【００４２】なお、図３及び図４には、上述したような
処理をハードウェアによって実現するためのプログラム
（ソースコード）の記述を示している。図３にはプログ
ラムの前段部分、図４には後段部分を示している。

【００４３】（２−２）各感情に応じて与えられるパラ
メータ上述したような文章生成のアルゴリズムにおいて使用し
たパラメータを感情に応じて制御することで発話文に感
情表現をもたせることができる。ここで、例えば、その
ように発話文の表出される感情としては、平静、怒り、
悲しみ、喜び或いは落ち着き（calm，anger，sadness，
happiness，comfort）等が挙げられる。なお、ここで列
記する感情に限定されないことはいうまでもない。

【００４４】例えば、このような情動はそれぞれ、奮起
（Arousal）と力価（valence）とを要素とする特徴空間
上にて表現できる。例えば、図５に示すように、奮起
（Arousal）と力価（valence）とを要素とする特徴空間
上において、怒り、悲しみ、喜び或いは落ち着き（ange
r，sadness，happiness，comfort）の領域が構成され、
その中心に平静（calm）の領域が構成されるというよう
にである。例えば、「怒り（anger）」は奮起とネガテ
ィブとして表され、「悲しみ（sadness）」は「奮起で
ないとネガティブ」として表される。

【００４５】以下の表には、怒り、悲しみ、喜び及び落
ち着き等の各感情に対応して予め決定されているパラメ
ータ（少なくとも音素の持続期間（DUR）、ピッチ（PIT
CH）及び音量（VOLUME）等）の組合せテーブルを示して
いる。このようなテーブルを各感情の特質に基づいて予
め生成しておく。

【００４６】

【表１】

【００４７】

【表２】

【００４８】

【表３】

【００４９】

【表４】

【００５０】

【表５】

【００５１】このようにして予め用意しておいた各感情
に対応されるパラメータからなるテーブルを、実際に判
別された感情に応じて切り換えることにより、音声合成
に使用するパラメータの感情に応じた制御を実現してい
る。

【００５２】そして、そのように感情に応じて選択され
たテーブルのパラメータを使用した音声合成がなされる
ことにより、感情表現がなされた発話文が生成されるよ
うになる。そしてこのように生成された感情表現がなさ
れた無意味語の発話文をロボット装置が発話することに
より、人間は、ロボット装置の発話内容自体はわからな
いが、ロボット装置の感情を知ることができるようにな
る。そして、そのような発話が、さらに毎回異なるもの
となるので、人間は、ロボット装置との対話を常に新鮮
に感じることができる。次に、本発明の実施の形態であ
るロボット装置について説明し、その後、そのようなロ
ボット装置への上述の発話のアルゴリズムの実装形態を
具体的に説明する。

【００５３】なお、実施の形態では、感情に応じたパラ
メータの制御を、感情に対応して予め用意しているパラ
メータからなるテーブルを実際の感情により切り換える
ことにより実現しているが、感情に応じたパラメータの
制御がこの実施の形態に限定されないことはいうまでも
ない。

【００５４】（３）本実施の形態によるロボット装置の
具体例（３−１）ロボット装置の構成以下、本発明のより具体的な実施の形態として、４本足
の自律型ペットロボットに本発明を適用した例につい
て、図面を参照しながら詳細に説明する。このペット型
ロボット装置のソフトウェアに感情・本能モデルを導入
し、より生物に近い行動を得ることかできるようにして
いる。本実施の形態では実際に動作をするロボットを用
いているが、無意味語による発話はスピーカを持つコン
ピュータ・システムであれば容易に実現可能であり、人
間と機械とのインタラクション（或いは対話）の場で有
効な機能である。従って本発明の適用範囲はロボットシ
ステムに限られるものでは無い。

【００５５】具体例としてのロボット装置は、図６に示
すように、「犬」を模した形状のいわゆるペットロボッ
トとされ、胴体部ユニット２の前後左右にそれぞれ脚部
ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが連結されると共に、
胴体部ユニット２の前端部及び後端部にそれぞれ頭部ユ
ニット４及び尻尾部ユニット５が連結されて構成されて
いる。

【００５６】胴体部ユニット２には、図７に示すよう
に、ＣＰＵ（Central Processing Unit）１０、ＤＲＡ
Ｍ（Dynamic Random Access Memory）１１、フラッシュ
ＲＯＭ（Read ０nly Memory）１２、ＰＣ（Personal Co
mputer）カードインターフェース回路１３及び信号処理
回路１４が内部バス１５を介して相互に接続されること
により形成されたコントロール部１６と、このロボット
装置１の動力源としてのバッテリ１７とが収納されてい
る。また、胴体部ユニット２には、ロボット装置１の向
きや動きの加速度を検出するための角速度センサ１８及
び加速度センサ１９なども収納されている。

【００５７】また、頭部ユニット４には、外部の状況を
撮像するためのＣＣＤ（Charge Coupled Device）カメ
ラ２０と、使用者からの「撫でる」や「叩く」といった
物理的な働きかけにより受けた圧力を検出するためのタ
ッチセンサ２１と、前方に位置する物体までの距離を測
定するための距離センサ２２と、外部音を集音するため
のマイクロホン２３と、鳴き声等の音声を出力するため
のスピーカ２４と、ロボット装置１の「目」に相当する
ＬＥＤ（Light Emitting Diode）（図示せず）となどが
それぞれ所定位置に配置されている。

【００５８】さらに、各脚部ユニット３Ａ〜３Ｄの関節
部分や各脚部ユニット３Ａ〜３Ｄ及び胴体部ユニット２
の各連結部分、頭部ユニット４及び胴体部ユニット２の
連結部分、並びに尻尾部ユニット５の尻尾５Ａの連結部
分などにはそれぞれ自由度数分のアクチュエータ２５_１
〜２５_ｎ及びポテンショメータ２６_１〜２６_ｎが配設さ
れている。例えば、アクチュエータ２５_１〜２５_ｎはサ
ーボモータを構成として有している。サーボモータの駆
動により、脚部ユニット３Ａ〜３Ｄが制御されて、目標
の姿勢或いは動作に遷移する。

【００５９】そして、これら角速度センサ１８、加速度
センサ１９、タッチセンサ２１、距離センサ２２、マイ
クロホン２３、スピーカ２４及び各ポテンショメータ２
６_１〜２６_ｎなどの各種センサ並びにＬＥＤ及び各アク
チュエータ２５_１〜２５_ｎは、それぞれ対応するハブ
２７_１〜２７_ｎを介してコントロール部１６の信号処理
回路１４と接続され、ＣＣＤカメラ２０及びバッテリ１
７は、それぞれ信号処理回路１４と直接接続されてい
る。

【００６０】信号処理回路ｌ４は、上述の各センサから
供給されるセンサデータや画像データ及び音声データを
順次取り込み、これらをそれぞれ内部バス１５を介して
ＤＲＡＭ１１内の所定位置に順次格納する。また信号処
理回路１４は、これと共にバッテリ１７から供給される
バッテリ残量を表すバッテリ残量データを順次取り込
み、これをＤＲＡＭ１１内の所定位置に格納する。

【００６１】このようにしてＤＲＡＭ１１に格納された
各センサデータ、画像データ、音声データ及びバッテリ
残量データは、この後ＣＰＵ１０がこのロボット装置１
の動作制御を行う際に利用される。

【００６２】実際上ＣＰＵ１０は、ロボット装置１の電
源が投入された初期時、胴体部ユニット２の図示しない
ＰＣカードスロットに装填されたメモリカード２８又は
フラッシュＲＯＭ１２に格納された制御プログラムをＰ
Ｃカードインターフェース回路１３を介して又は直接読
み出し、これをＤＲＡＭ１１に格納する。

【００６３】また、ＣＰＵ１０は、この後上述のように
信号処理回路１４よりＤＲＡＭ１１に順次格納される各
センサデータ、画像データ、音声データ及びバッテリ残
量データに基づいて自己及び周囲の状況や、使用者から
の指示及び働きかけの有無などを判断する。

【００６４】さらに、ＣＰＵ１０は、この判断結果及び
ＤＲＡＭ１１に格納しだ制御プログラムに基づいて続く
行動を決定すると共に、当該決定結果に基づいて必要な
アクチュエータ２５_１〜２５_ｎを駆動させることによ
り、頭部ユニット４を上下左右に振らせたり、尻尾部ユ
ニット５の尻尾５Ａを動かせたり、各脚部ユニット３Ａ
〜３Ｄを駆動させて歩行させるなどの行動を行わせる。

【００６５】また、この際ＣＰＵ１０は、必要に応じて
音声データを生成し、これを信号処理回路１４を介して
音声信号としてスピーカ２４に与えることにより当該音
声信号に基づく音声を外部に出力させたり、上述のＬＥ
Ｄを点灯、消灯又は点滅させる。

【００６６】このようにしてこのロボット装置１におい
ては、自己及び周囲の状況や、使用者からの指示及び働
きかけに応じて自律的に行動し得るようになされてい
る。

【００６７】（３−２）制御プログラムのソフトウェア
構成ここで、ロボット装置１における上述の制御プログラム
のソフトウェア構成は、図８に示すようになる。この図
８において、デバイス・ドライバ・レイヤ３０は、この
制御プログラムの最下位層に位置し、複数のデバイス・
ドライバからなるデバイス・ドライバ・セット３１から
構成されている。この場合、各デバイス・ドライバは、
ＣＣＤカメラ２０（図７）やタイマ等の通常のコンピュ
ータで用いられるハードウェアに直接アクセスするごと
を許されたオブジェクトであり、対応するハードウェア
からの割り込みを受けて処理を行う。

【００６８】また、ロボティック・サーバ・オブジェク
ト３２は、デバイス・ドライバ・レイヤ３０の最下位層
に位置し、例えば上述の各種センサやアクチュエータ２
５_１〜２５_ｎ等のハードウェアにアクセスするためのイ
ンターフェースを提供するソフトウェア群でなるバーチ
ャル・ロボット３３と、電源の切換えなどを管理するソ
フトウェア群でなるバワーマネージャ３４と、他の種々
のデバイス・ドライバを管理するソフトウェア群でなる
デバイス・ドライバ・マネージャ３５と、ロボット装置
１の機構を管理するソフトウェア群でなるデザインド・
ロボット３６とから構成されている。

【００６９】マネージャ・オブジェクト３７は、オブジ
ェクト・マネージャ３８及びサービス・マネージャ３９
から構成されている。オブジェクト・マネージャ３８
は、ロボティック・サーバ・オブジェクト３２、ミドル
・ウェア・レイヤ４０、及びアプリケーション・レイヤ
４１に含まれる各ソフトウェア群の起動や終了を管理す
るソフトウェア群であり、サービス・マネージャ３９
は、メモリカード２８（図７）に格納されたコネクショ
ンファイルに記述されている各オブジェクト間の接続情
報に基づいて各オブジェクトの接続を管理するソフトウ
ェア群である。

【００７０】ミドル・ウェア・レイヤ４０は、ロボティ
ック・サーバ・オブジェクト３２の上位層に位置し、画
像処理や音声処理などのこのロボット装置１の基本的な
機能を提供するソフトウェア群から構成されている。ま
た、アプリケーション・レイヤ４１は、ミドル・ウェア
・レイヤ４０の上位層に位置し、当該ミドル・ウェア・
レイヤ４０を構成する各ソフトウェア群によって処理さ
れた処理結果に基づいてロボット装置１の行動を決定す
るためのソフトウェア群から構成されている。

【００７１】なお、ミドル・ウェア・レイヤ４０及びア
プリケーション・レイヤ４１の具体なソフトウェア構成
をそれぞれ図９に示す。

【００７２】ミドル・ウェア・レイヤ４０は、図９に示
すように、騒音検出用、温度検出用、明るさ検出用、音
階認識用、距離検出用、姿勢検出用、タッチセンサ用、
動き検出用及び色認識用の各信号処理モジュール５０〜
５８並びに入力セマンティクスコンバータモジュール５
９などを有する認識系６０と、出力セマンティクスコン
バータモジュール６８並びに姿勢管理用、トラッキング
用、モーション再生用、歩行用、転倒復帰用、ＬＥＤ点
灯用及び音再生用の各信号処理モジュール６１〜６７な
どを有する出力系６９とから構成されている。

【００７３】認識系６０の各信号処理モジュール５０〜
５８は、ロボティック・サーバ・オブジェクト３２のバ
ーチャル・ロボット３３によりＤＲＡＭ１１（図７）か
ら読み出される各センサデータや画像データ及び音声デ
ータのうちの対応するデータを取り込み、当該データに
基づいて所定の処理を施して、処理結果を入力セマンテ
ィクスコンバータモジュール５９に与える。ここで、例
えば、バーチャル・ロボット３３は、所定の通信規約に
よって、信号の授受或いは変換をする部分として構成さ
れている。

【００７４】入力セマンティクスコンバータモジュール
５９は、これら各信号処理モジュール５０〜５８から与
えられる処理結果に基づいて、「うるさい」、「暑
い」、「明るい」、「ボールを検出した」、「転倒を検
出した」、「撫でられた」、「叩かれた」、「ドミソの
音階が聞こえた」、「動く物体を検出した」又は「障害
物を検出した」などの自己及び周囲の状況や、使用者か
らの指令及び働きかけを認識し、認識結果をアプリケー
ション・レイヤ４１（図７）に出力する。

【００７５】アプリケーション・レイヤ４ｌは、図１０
に示すように、行動モデルライブラリ７０、行動切換え
モジュール７１、学習モジュール７２、感情モデル７３
及び本能モデル７４の５つのモジュールから構成されて
いる。ここで、感情モデル７３が、外部からの刺激等に
より状態が変化される感情の状態を変化させるモデルで
あって、このような感情モデルにより決定される感情に
応じて上述したような発話文への感情表現の重畳がなさ
れる。また、このような感情モデル７３や本能モデル７
４等の状態の監視、すなわちその状態の判別等は、ＣＰ
Ｕ１０等の制御手段によってなされる。

【００７６】行動モデルライブラリ７０には、図１１に
示すように、「バッテリ残量が少なくなった場合」、
「転倒復帰する」、「障害物を回避する場合」、「感情
を表現する場合」、「ボールを検出した場合」などの予
め選択されたいくつかの条件項目にそれぞれ対応させ
て、それぞれ独立した行動モデル７０_１〜７０_ｎが設け
られている。

【００７７】そして、これら行動モデル７０_１〜７０_ｎ
は、それぞれ入力セマンティクスコンバータモジュール
５９から認識結果が与えられたときや、最後の認識結果
が与えられてから一定時間が経過したときなどに、必要
に応じて後述のように感情モデル７３に保持されている
対応する情動のパラメータ値や、本能モデル７４に保持
されている対応する欲求のパラメータ値を参照しながら
続く行動をそれぞれ決定し、決定結果を行動切換えモジ
ュール７１に出力する。

【００７８】なお、この実施の形態の場合、各行動モデ
ル７０_１〜７０_ｎは、次の行動を決定する手法として、
図１２に示すような１つのノード（状態）ＮＯＤＥ_０〜
ＮＯＤＥ_ｎから他のどのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎ
に遷移するかを各ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに間を
接続するアークＡＲＣ_１〜ＡＲＣ_ｎに対してそれぞれ設
定された遷移確率Ｐ_１〜Ｐ_ｎに基づいて確率的に決定す
る有限確率オートマトンと呼ばれるアルゴリズムを用い
る。

【００７９】具体的に、各行動モデル７０_１〜７０
_ｎは、それぞれ自己の行動モデル７０_１〜７０_ｎを形成
するノードＮＯＤＥ_０〜ＮＯＤＥ_ｎにそれぞれ対応させ
て、これらノードＮＯＤＥ_０〜ＮＯＤＥ_ｎごとに図１３
に示すような状態遷移表８０を有している。

【００８０】この状態遷移表８０では、そのノードＮＯ
ＤＥ_０〜ＮＯＤＥ_ｎにおいて遷移条件とする入力イベン
ト（認識結果）が「入力イベント名」の行に優先順に列
記され、その遷移条件についてのさらなる条件が「デー
タ名」及び「データ範囲」の行における対応する列に記
述されている。

【００８１】したがって、図１３の状態遷移表８０で表
されるノードＮＯＤＥ_１００では、「ボールを検出（Ｂ
ＡＬＬ）」という認識結果が与えられた場合に、当該認
識結果と共に与えられるそのボールの「大きさ（ＳＩＺ
Ｅ）」が「0から1000」の範囲であることや、「障害物
を検出（ＯＢＳＴＡＣＬＥ）」という認識結果が与えら
れた場合に、当該認識結果と共に与えられるその障害物
までの「距離（ＤＩＳＴＡＮＣＥ）」が「0から100」の
範囲であることが他のノードに遷移するための条件とな
っている。

【００８２】また、このノードＮＯＤＥ_１００では、認
識結果の入力がない場合においても、行動モデル７０_１
〜７０_ｎが周期的に参照する感情モデル７３及び本能モ
デル７４にそれぞれ保持された各情動及び各欲求のパラ
メータ値のうち、感情モデル７３に保持された「喜び
（ＪＯＹ）」、「驚き（ＳＵＲＰＲＩＳＥ）」若しくは
「悲しみ（ＳＵＤＮＥＳＳ）」のいずれかのパラメータ
値が「50から100」の範囲であるときには他のノードに
遷移することができるようになっている。

【００８３】また、状態遷移表８０では、「他のノード
ヘの遷移確率」の欄における「遷移先ノード」の列にそ
のノードＮＯＤＥ_０〜ＮＯＤＥ_ｎから遷移できるノー
ド名が列記されていると共に、「入力イベント名」、
「データ値」及び「データの範囲」の行に記述された全
ての条件が揃ったときに遷移できる他の各ノードＮＯＤ
Ｅ_０〜ＮＯＤＥ_ｎへの遷移確率が「他のノードヘの遷移
確率」の欄内の対応する箇所にそれぞれ記述され、その
ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移する際に出力すべ
き行動が「他のノードヘの遷移確率」の欄における「出
力行動」の行に記述されている。なお、「他のノードヘ
の遷移確率」の欄における各行の確率の和は１００
［％］となっている。

【００８４】したがって、図１３の状態遷移表８０で表
されるノードＮＯＤＥ_１００では、例えば「ボールを検
出（ＢＡＬＬ）」し、そのボールの「ＳＩＺＥ（大き
さ）」が「0から1000」の範囲であるという認識結果が
与えられた場合には、「30［％］」の確率で「ノードＮ
ＯＤＥ_１２０（node 120）」に遷移でき、そのとき「Ａ
ＣＴＩＯＮ１」の行動が出力されることとなる。

【００８５】各行動モデル７０_１〜７０_ｎは、それぞれ
このような状態遷移表８０として記述されたノードＮＯ
ＤＥ_０〜ＮＯＤＥ_ｎがいくつも繋がるようにして構成
されており、入力セマンティクスコンバータモジュール
５９から認識結果が与えられたときなどに、対応するノ
ードＮＯＤＥ_０〜ＮＯＤＥ_ｎの状態遷移表を利用して確
率的に次の行動を決定し、決定結果を行動切換えモジュ
ール７１に出力するようになされている。

【００８６】図１０に示す行動切換えモジュール７１
は、行動モデルライブラリ７０の各行動モデル７０_１〜
７０_ｎからそれぞれ出力される行動のうち、予め定めら
れた優先順位の高い行動モデル７０_１〜７０_ｎから出力
された行動を選択し、当該行動を実行すべき旨のコマン
ド（以下、これを行動コマンドという。）をミドル・ウ
ェア・レイヤ４０の出力セマンティクスコンバータモジ
ュール６８に送出する。なお、この実施の形態において
は、図１１において下側に表記された行動モデル７０_１
〜７０_ｎほど優先順位が高く設定されている。

【００８７】また、行動切換えモジュール７１は、行動
完了後に出力セマンティクスコンバータモジュール６８
から与えられる行動完了情報に基づいて、その行動が完
了したことを学習モジュール７２、感情モデル７３及び
本能モデル７４に通知する。

【００８８】一方、学習モジュール７２は、入力セマン
ティクスコンバータモジュール５９から与えられる認識
結果のうち、「叩かれた」や「撫でられた」など、使用
者からの働きかけとして受けた教示の認識結果を入力す
る。

【００８９】そして、学習モジュール７２は、この認識
結果及び行動切換えモジュール７１からの通知に基づい
て、「叩かれた（叱られた）」ときにはその行動の発現
確率を低下させ、「撫でられた（誉められた）」ときに
はその行動の発現確率を上昇させるように、行動モデル
ライブラリ７０における対応する行動モデル７０_１〜７
０_ｎの対応する遷移確率を変更する。

【００９０】他方、感情モデル７３は、「喜び（jo
y）」、「悲しみ（sadness）」、「怒り（anger）」、
「驚き（surprise）」、「嫌悪（disgust）」及び「恐
れ（fear）」の合計６つの情動について、各情動ごとに
その情動の強さを表すパラメータを保持している。そし
て、感情モデル７３は、これら各情動のパラメータ値
を、それぞれ入力セマンティクスコンバータモジュール
５９から与えられる「叩かれた」及び「撫でられた」な
どの特定の認識結果と、経過時間及び行動切換えモジュ
ール７１からの通知となどに基づいて周期的に更新す
る。

【００９１】具体的には、感情モデル７３は、入力セマ
ンティクスコンバータモジュール５９から与えられる認
識結果と、そのときのロボット装置１の行動と、前回更
新してからの経過時間となどに基づいて所定の演算式に
より算出されるそのときのその情動の変動量を△Ｅ
［ｔ］、現在のその情動のパラメータ値をＥ［ｔ］、そ
の情動の感度を表す係数をｋ_ｅとして、（１）式によっ
て次の周期におけるその情動のパラメータ値Ｅ［ｔ＋
１］を算出し、これを現在のその情動のパラメータ値Ｅ
［ｔ］と置き換えるようにしてその情動のパラメータ値
を更新する。また、感情モデル７３は、これと同様にし
て全ての情動のパラメータ値を更新する。

【００９２】

【数１】

【００９３】なお、各認識結果や出力セマンティクスコ
ンバータモジュール６８からの通知が各情動のパラメー
タ値の変動量△Ｅ［ｔ］にどの程度の影響を与えるかは
予め決められており、例えば「叩かれた」といった認識
結果は「怒り」の情動のパラメータ値の変動量△Ｅ
［ｔ］に大きな影響を与え、「撫でられた」といった認
識結果は「喜び」の情動のパラメータ値の変動量△Ｅ
［ｔ］に大きな影響を与えるようになっている。

【００９４】ここで、出力セマンティクスコンバータモ
ジュール６８からの通知とは、いわゆる行動のフィード
バック情報（行動完了情報）であり、行動の出現結果の
情報であり、感情モデル７３は、このような情報によっ
ても感情を変化させる。これは、例えば、「吠える」と
いった行動により怒りの感情レベルが下がるといったよ
うなことである。なお、出力セマンティクスコンバータ
モジュール６８からの通知は、上述した学習モジュール
７２にも入力されており、学習モジュール７２は、その
通知に基づいて行動モデル７０_１〜７０_ｎの対応する遷
移確率を変更する。

【００９５】なお、行動結果のフィードバックは、行動
切換えモジュレータ７１の出力（感情が付加された行
動）によりなされるものであってもよい。

【００９６】一方、本能モデル７４は、「運動欲（exer
cise）」、「愛情欲（affection）」、「食欲（appetit
e）」及び「好奇心（curiosity）」の互いに独立した４
つの欲求について、これら欲求ごとにその欲求の強さを
表すパラメータを保持している。そして、本能モデル７
４は、これらの欲求のパラメータ値を、それぞれ入力セ
マンティクスコンバータモジュール５９から与えられる
認識結果や、経過時間及び行動切換えモジュール７１か
らの通知などに基づいて周期的に更新する。

【００９７】具体的には、本能モデル７４は、「運動
欲」、「愛情欲」及び「好奇心」については、認識結
果、経過時間及び出力セマンティクスコンバータモジュ
ール６８からの通知などに基づいて所定の演算式により
算出されるそのときのその欲求の変動量をΔＩ［ｋ］、
現在のその欲求のパラメータ値をＩ［ｋ］、その欲求の
感度を表す係数ｋ_ｉとして、所定周期で（２）式を用い
て次の周期におけるその欲求のパラメータ値Ｉ［ｋ＋
１］を算出し、この演算結果を現在のその欲求のパラメ
ータ値Ｉ［ｋ］と置き換えるようにしてその欲求のパラ
メータ値を更新する。また、本能モデル７４は、これと
同様にして「食欲」を除く各欲求のパラメータ値を更新
する。

【００９８】

【数２】

【００９９】なお、認識結果及び出力セマンティクスコ
ンバータモジュール６８からの通知などが各欲求のパラ
メータ値の変動量△Ｉ［ｋ］にどの程度の影響を与える
かは予め決められており、例えば出力セマンティクスコ
ンバータモジュール６８からの通知は、「疲れ」のパラ
メータ値の変動量△Ｉ［ｋ］に大きな影響を与えるよう
になっている。

【０１００】なお、本実施の形態においては、各情動及
び各欲求（本能）のパラメータ値がそれぞれ0から100ま
での範囲で変動するように規制されており、また係数ｋ
_ｅ、ｋ_ｉの値も各情動及び各欲求ごとに個別に設定され
ている。

【０１０１】一方、ミドル・ウェア・レイヤ４０の出力
セマンティクスコンバータモジュール６８は、図９に示
すように、上述のようにしてアプリケーション・レイヤ
４１の行動切換えモジュール７１から与えられる「前
進」、「喜ぶ」、「鳴く」又は「トラッキング（ボール
を追いかける）」といった抽象的な行動コマンドを出力
系６９の対応する信号処理モジュール６１〜６７に与え
る。

【０１０２】そしてこれら信号処理モジュール６１〜６
７は、行動コマンドが与えられると当該行動コマンドに
基づいて、その行動を行うために対応するアクチュエー
タ２５_１〜２５_ｎ（図７）に与えるべきサーボ指令値
や、スピーカ２４（図７）から出力する音の音声データ
及び又は「目」のＬＥＤに与える駆動データを生成し、
これらのデータをロボティック・サーバ・オブジェクト
３２のバーチャル・ロボット３３及び信号処理回路１４
（図７）を順次介して対応するアクチュエータ２５_１〜
２５_ｎ又はスピーカ２４又はＬＥＤに順次送出する。

【０１０３】このようにしてロボット装置１において
は、制御プログラムに基づいて、自己（内部）及び周囲
（外部）の状況や、使用者からの指示及び働きかけに応
じた自律的な行動を行うことができるようになされてい
る。

【０１０４】（３−３）ロボット装置への発話のアルゴ
リズムの実装上述したようにロボット装置を構成することができる。
上述の発話のアルゴリスムは、このようなロボット装置
１の図９中の音再生モジュール６７として実装される。

【０１０５】音再生モジュール６７では、上位の部分
（例えば、行動モデル）にて決定された音出力コマンド
（例えば、「喜びで発話せよ」など）を受け、実際の音
声時系列データを生成し、順にバーチャルロボット３３
のスピーカデバイスに対してデータを送信する。これに
よりロボット装置において、図７に示すスピーカ２４か
ら感情表現がなされた無意味語からなる発話文が発せら
れる。

【０１０６】感情に合わせた発話コマンドを生成する行
動モデル（以下、発話行動モデルという。）について説
明する。発話行動モデルは、図１０に示した行動モデル
ライブラリ７０にて一の行動モデルとして用意されてい
る。

【０１０７】発話行動モデルでは、感情モデル７３や本
能モデル７４から常に最新のパラメータ値を参照して、
そのような各パラメータ値に基づいて図１０に示すよう
な状態遷移表８０を利用して、発話内容を決定してい
る。すなわち、ある状態からの遷移条件として感情の値
を用い、その感情に即した発話行動を遷移時に実行する
ようにしている。

【０１０８】発話行動モデルが使用する状態遷移表は、
例えば、図１４に示すように表現することができる。な
お、図１４に示す発話行動モデルに使用する状態遷移表
は、上述の図１３に示した状態遷移表８０の表記形成が
異なっているが、実質的には異なるものではない。図１
４のように示される状態遷移表について説明する。

【０１０９】この例では、ノードが“node XXX” から
他のノードへの遷移条件として喜び（HAPPY）、悲しみ
（SAD）、怒り（ANGER）及びタイムアウト（TIMEOUT）
が与えられている。そして、喜び（HAPPY）、悲しみ（S
AD）、怒り（ANGER）及びタイムアウト（TIMEOUT）への
遷移条件としての具体的な数値が、それぞれ HAPPY＞7
0、SAD＞７０、ANGER＞７０及びTIMEOUT＝timout.1とし
て与えられている。ここで、timout.1は数値であり、例
えば所定時間を示す値である。

【０１１０】また、ノードが“node XXX”から遷移可能
なノードとして、nodeＹＹＹ、nodeＺＺＺ、nodeＷＷ
Ｗ、nodeＶＶＶが用意されており、そのような各ノード
に対して実行される行動がそれぞれ「バンザイ（BANZA
I）」、「落ち込む（OTIKOMU）」、「ぶるぶる（BURUBU
RU）」及び「あくび（AKUBI）」として割り当てられて
いる。

【０１１１】ここで、「万歳（BANZAI）」の表現行動
は、「喜び」が感情表現される発話（talk_happy）を
し、また前脚等による万歳の動作（motion_banzai）を
し、さらに尻尾を振る動作（motion_swingtail）をする
ものとして定義している。ここで「喜び」の感情表現を
した発話をするために、上述したような予め用意されて
いる喜びの感情表現のためのパラメータを使用する。す
なわち、先に説明している発話のアルゴリズムに基づい
て喜びの発話を行う。

【０１１２】また、「落ち込む（OTIKOMU）」の表現行
動は、「悲しみ」が感情表現される発話（talk_sad）を
し、またいわゆるいじけた動作（motion_Ijiiji）をす
るものとして定義している。ここで「悲しみ」の感情表
現をした発話をするために、上述したような予め用意さ
れている悲しみの感情表現のためのパラメータを使用す
る。すなわち、先に説明している発話のアルゴリズムに
基づいて悲しみの発話を行う。

【０１１３】また、「ぶるぶる（BURUBURU）」の表現行
動は、「怒り」が感情表現される発話（talk_anger）を
し、また怒りのために震えている動作（motion_burubur
u）をするものとして定義している。ここで「怒り」の
感情表現をした発話をするために、上述したような予め
用意されている怒りの感情表現のためのパラメータを使
用する。すなわち、先に説明している発話のアルゴリズ
ムに基づいて怒りの発話を行う。

【０１１４】また、「あくび（AKUBI）」の表現行動
は、何もなく退屈なのであくびをする動作（motion_aku
bi）として定義している。

【０１１５】このように遷移可能な各ノードにおいて実
行される各行動が定義されており、そのような各ノード
への遷移については、確率テーブルによって決定されて
いる。すなわち、遷移条件に合致した場合の行動確率が
記述された確率テーブルにて、各ノードへの遷移を決定
している。

【０１１６】図１４に示す例では、喜び（HAPPY）の場
合、すなわちHAPPYの値が所定の閾値とされる７０を超
えた場合には100％の確率で「万歳（BANZAI）」の表現
行動で選択される。また、悲しみ（SAD）の場合、すな
わちSADの値が所定の閾値とされる７０を超えた場合に
は、100％の確率で「落ち込む（OTIKOMU）」の表現行動
で選択される。また、怒り（ANGER）の場合、すなわりA
NGERの値が所定の閾値とされる７０を超えた場合には、
100％の確率で「ぶるぶる（BURUBURU）」の表現行動が
選択される。そして、タイムアウト（TIMEOUT）の場
合、すなわちTIMEOUTの値が所定の閾値とされるtimout.
1となった場合には、100％の確率で「あくび（AKUB
I）」の表現行動が選択される。なお、本例では、全て1
00％の確率で行動を選択される場合を示しており、すな
わち必ず行動が発言される場合を例にしているが、これ
に限定さなることはない。すなわち例えば、喜び（HAPP
Y）の場合に、「万歳（BANZAI）」の行動を70％で選択
するようにしてもよい。

【０１１７】以上のように発話行動モデルの状態遷移表
を定義することにより、ロボット装置に感情に見合った
発話をその他のセンサの入力やロボットの状態に合わせ
て自由に制御することかできるようになる。

【０１１８】なお、上述の実施の形態では、感情によっ
て制御されるパラメータとして、持続時間、ピッチ及び
音量を例に挙げて説明した。しかし、これに限定される
ことなく、感情によって影響される文章構成因子をパラ
メータとして用いることもできる。

【０１１９】また、上述の実施の形態の説明では、ロボ
ット装置の感情モデルが喜び、怒り等の感情によって構
成される場合を説明した。しかし、このような例に挙げ
た感情によって感情モデルが構成されることに限定され
るものではなく、感情に影響を与える他の因子によって
構成することもできる。そして、この場合、このような
他の因子によって、文章を構成するパラメータの制御を
行う。

【０１２０】

【発明の効果】本発明に係る音声合成方法は、発音主体
の感情モデルの感情状態を判別する感情判別工程と、音
声として発する内容を表す発話文を出力する発話文出力
工程と、感情判別工程により判別された感情状態に応じ
て音声合成のためのパラメータを制御するパラメータ制
御工程と、発話文出力工程により出力された発話文を音
声合成部に入力して制御されたパラメータに基づいて音
声合成する音声合成工程とを有することにより、発声主
体の感情モデルの感情状態に応じて制御した音声合成の
ためのパラメータに基づいて発音主体の発話文を生成す
ることができる。

【０１２１】また、本発明に係る音声合成装置は、発音
主体の感情モデルの感情状態を判別する感情判別手段
と、音声として発する内容を表す発話文を出力する発話
文出力手段と、感情判別手段により判別された感情状態
に応じて音声合成のためのパラメータを制御するパラメ
ータ制御手段と、発話文出力手段により出力された発話
文が供給され、制御されたパラメータに基づいて音声合
成する音声合成手段とを備えることにより、発音主体の
感情モデルの感情状態を判別する感情判別手段により判
別された感情状態に応じて音声合成のためのパラメータ
をパラメータ制御手段により制御して、発話文出力手段
により出力された発話文が供給され、制御されたパラメ
ータに基づいて音声合成手段により音声合成することが
できる。これにより、音声合成装置は、発声主体の感情
モデルの感情状態に応じて制御した音声合成のためのパ
ラメータに基づいて発音主体の発話文を生成することが
できる。

【０１２２】また、本発明に係るロボット装置は、動作
に起因する感情モデルと、感情モデルの感情状態を判別
する感情判別手段と、音声として発する内容を表す発話
文を出力する発話文出力手段と、感情判別手段により判
別された感情状態に応じて音声合成のためのパラメータ
を制御するパラメータ制御手段と、発話文出力手段によ
り出力された発話文が供給され、制御されたパラメータ
に基づいて音声合成する音声合成手段とを備えることに
より、動作に起因する感情モデルの感情状態を判別する
感情判別手段により判別された感情状態に応じて音声合
成のためのパラメータをパラメータ制御手段により制御
して、発話文出力手段により出力された発話文が供給さ
れ、制御されたパラメータに基づいて音声合成手段によ
り音声合成することができる。これにより、ロボット装
置は、発声主体の感情モデルの感情状態に応じて制御し
た音声合成のためのパラメータに基づいて発音主体の発
話文を生成することができる。

【図面の簡単な説明】

【図１】本発明に係る音声合成方法の実施の形態の基本
構成を示すフローチャートである。

【図２】各音素の持続時間とピッチとの関係を示す図で
ある。

【図３】音声合成による発話文の作成のためのプログラ
ムであって、その前半部分を示す図である。

【図４】音声合成による発話文の作成のためのプログラ
ムであって、その後半部分を示す図である。

【図５】特徴空間或いは作用平面における各感情のクラ
スの関係を示す図である。

【図６】本発明の実施の形態であるロボット装置の外観
構成を示す斜視図である。

【図７】上述のロボット装置の回路構成を示すブロック
図である。

【図８】上述のロボット装置のソフトウェア構成を示す
ブロック図である。

【図９】上述のロボット装置のソフトウェア構成におけ
るミドル・ウェア・レイヤの構成を示すブロック図であ
る。

【図１０】上述のロボット装置のソフトウェア構成にお
けるアプリケーション・レイヤの構成を示すブロック図
である。

【図１１】上述のアプリケーション・レイヤの行動モデ
ルライブラリの構成を示すブロック図である。

【図１２】ロボット装置の行動決定のための情報となる
有限確率オートマトンを説明するために使用した図であ
る。

【図１３】有限確率オートマトンの各ノードに用意され
た状態遷移表を示す図である。

【図１４】発話行動モデルの状態遷移表を示す図であ
る。

【符号の説明】

１ロボット装置、１０ＣＰＵ、１４信号処理回
路、２４スピーカ、７０行動モデル、７３感情モ
デル

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 13/06 Ｇ１０Ｌ 3/00 Ｑ (72)発明者ピエールイブスオードイェフランス国、75005 パリ市アミヨ通り６番地ソニーコンピュータサイエンス研究所パリオフィス内 (72)発明者佐部浩太郎東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 2C150 BA11 CA01 CA02 CA04 DA05 DA24 DA26 DA27 DA28 DF03 DF04 DF06 DF33 ED10 ED42 ED47 ED52 EF03 EF07 EF16 EF17 EF22 EF23 EF28 EF29 EF33 EF36 3C007 AS36 CS08 MT14 WA04 WA14 WB13 WB16 WB27 WC07 5D045 AB11

Claims

【特許請求の範囲】

【請求項１】少なくとも感情モデルを有する発音主体
からの情報に基づいて音声を合成する音声合成方法であ
って、上記発音主体の上記感情モデルの感情状態を判別する感
情判別工程と、音声として発する内容を表す発話文を出力する発話文出
力工程と、上記感情判別工程により判別された感情状態に応じて音
声合成のためのパラメータを制御するパラメータ制御工
程と、上記発話文出力工程により出力された発話文を音声合成
部に入力して上記制御されたパラメータに基づいて音声
合成する音声合成工程とを有することを特徴とする音声
合成方法。
【請求項２】上記発話文は、無意味な内容の文である
ことを特徴とする請求項１記載の音声合成方法。
【請求項３】上記発話文出力工程は、上記感情モデル
の感情状態が所定の閾値を超えたときに上記発話文を出
力して上記音声合成部に供給することを特徴とする請求
項１記載の音声合成方法。
【請求項４】上記発話文出力工程は、発話毎にランダ
ムに得られた上記発話文を出力して上記音声合成部に供
給することを特徴とする請求項１記載の音声合成方法。
【請求項５】上記発話文は、複数の音素を有して成
り、上記パラメータは、上記音素の持続時間、ピッチ、
音量を含むことを特徴とする請求項１記載の音声合成方
法。
【請求項６】上記発音主体は、供給された入力情報に
基づいて動作を行う自律型ロボット装置であり、上記感
情モデルとして、上記動作に起因する感情モデルを有
し、上記入力情報に基づいて上記感情モデルの状態を変
化させることにより上記動作を決定する感情モデル変化
工程を有することを特徴とする請求項１記載の音声合成
方法。
【請求項７】少なくとも感情モデルを有する発音主体
からの情報に基づいて音声を合成する音声合成装置であ
って、上記発音主体の上記感情モデルの感情状態を判別する感
情判別手段と、音声として発する内容を表す発話文を出力する発話文出
力手段と、上記感情判別手段により判別された感情状態に応じて音
声合成のためのパラメータを制御するパラメータ制御手
段と、上記発話文出力手段により出力された発話文が供給さ
れ、上記制御されたパラメータに基づいて音声合成する
音声合成手段とを有することを特徴とする音声合成装
置。
【請求項８】上記発話文は、無意味な内容の文である
ことを特徴とする請求項７記載の音声合成装置。
【請求項９】上記発話文出力手段は、上記感情モデル
の感情状態が所定の閾値を超えたときに上記発話文を出
力して上記音声合成手段に供給することを特徴とする請
求項７記載の音声合成装置。
【請求項１０】上記発話文出力手段は、発話毎にラン
ダムに得られた上記発話文を出力して上記音声合成手段
に供給することを特徴とする請求項７記載の音声合成装
置。
【請求項１１】上記発話文は、複数の音素を有して成
り、上記パラメータは、上記音素の持続時間、ピッチ、
音量を含むことを特徴とする請求項７記載の音声合成装
置。
【請求項１２】上記発音主体は、供給された入力情報
に応じた動作を行う自律型ロボット装置であり、上記感
情モデルとして、上記動作に起因する感情モデルを有
し、上記入力情報に基づいて上記感情モデルの状態を変
化させることにより上記動作を決定する感情モデル変化
手段を備えることを特徴とする請求項７記載の音声合成
装置。
【請求項１３】供給された入力情報に基づいて動作を
行う自律型のロボット装置であって、上記動作に起因する感情モデルと、上記感情モデルの感情状態を判別する感情判別手段と、音声として発する内容を表す発話文を出力する発話文出
力手段と、上記感情判別手段により判別された感情状態に応じて音
声合成のためのパラメータを制御するパラメータ制御手
段と、上記発話文出力手段により出力された発話文が供給さ
れ、上記制御されたパラメータに基づいて音声合成する
音声合成手段とを備えることを特徴とするロボット装
置。
【請求項１４】上記発話文は、無意味な内容の文であ
ることを特徴とする請求項１３記載のロボット装置。
【請求項１５】上記発話文出力手段は、上記感情モデ
ルの感情状態が所定の閾値を超えたときに上記発話文を
出力して上記音声合成手段に供給することを特徴とする
請求項１３記載のロボット装置。
【請求項１６】上記発話文出力手段は、発話毎にラン
ダムに得られた上記発話文を出力して上記音声合成手段
に供給することを特徴とする請求項１３記載のロボット
装置。
【請求項１７】上記発話文は、複数の音素を有して成
り、上記パラメータは、上記音素の持続時間、ピッチ、
音量を含むことを特徴とする請求項１３記載のロボット
装置。
【請求項１８】上記入力情報に基づいて上記感情モデ
ルの状態を変化させることにより上記動作を決定する感
情モデル変化手段を備えることを特徴とする請求項１３
記載のロボット装置。