JP2002304187A

JP2002304187A - 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体

Info

Publication number: JP2002304187A
Application number: JP2001104326A
Authority: JP
Inventors: Keiichi Yamada; 敬一山田; Nobuhide Yamazaki; 信英山崎; Tomoaki Nitsuta; 朋晃新田; Erika Kobayashi; 恵理香小林; Kenichiro Kobayashi; 賢一郎小林; Makoto Akaha; 誠赤羽
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-04-03
Filing date: 2001-04-03
Publication date: 2002-10-18

Abstract

(57)【要約】【課題】パラ言語情報を、効果的に伝達することので
きる合成音を、容易に生成する。【解決手段】音声韻律情報生成部２５は、言語解析部
２１が出力する音声記号に基づいて、合成音の韻律を制
御する音声韻律情報を生成し、音楽韻律情報生成部２６
は、音楽的要素により韻律を制御し、ロボットの感情を
表現するパラ言語情報を付与する音楽韻律情報を生成す
る。韻律情報調整部２７は、音声韻律情報と音楽韻律情
報を調整することにより、最終的な韻律情報を生成す
る。そして、波形合成部２８は、その最終的な韻律情報
により韻律を制御した合成音を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声合成装置およ
び音声合成方法、並びにプログラムおよび記録媒体に関
し、特に、例えば、パラ言語情報を、効果的に伝達する
ことのできる合成音を、容易に生成することができるよ
うにする音声合成装置および音声合成方法、並びにプロ
グラムおよび記録媒体に関する。

【０００２】

【従来の技術】人間の発話である自然音声には、言語上
の意味を伝達する言語情報の他に、その発話者の個性
（個人性）や、意志（意図）、感情等を表現するパラ言
語情報が含まれる。

【０００３】一方、音声合成装置では、例えば、テキス
トから合成音を生成する音声合成処理（ＴＴＳ(Text-To
-Speech)処理）の際に、自然音声により近い合成音を生
成するために、合成音に対して、パラ言語情報が付与さ
れる。

【０００４】即ち、音声合成装置では、合成音における
ピッチ周波数の時間変化であるピッチパターンや、合成
音のパワーの時間変化であるパワーパターン、合成音を
構成する各音韻の継続時間長（音韻継続時間長）といっ
た韻律を制御することにより、感情等を表現するパラ言
語情報が、合成音に付与される。

【０００５】なお、ピッチパターンによるピッチ周波数
により、合成音による声の高さが規定される。また、パ
ワーパターンによるパワーにより、合成音による声の強
弱が規定される。さらに、音韻継続時間長により、合成
音の発話速度やリズム等が規定される。

【０００６】

【発明が解決しようとする課題】合成音に対して、自然
音声に含まれるのと同様のパラ言語情報を付与すること
ができれば、自然音声に近い合成音を得ることが可能と
なる。

【０００７】しかしながら、例えば、規則音声合成のよ
うに、ある規則にしたがって音声合成を行う場合等にお
いては、自然音声に含まれるのと同様のパラ言語情報を
付与する規則を記述することは容易ではなく、従って、
パラ言語情報を、効果的に伝達することのできる合成音
を、容易に生成することのできる手法の提案が要請され
ている。

【０００８】本発明は、このような状況に鑑みてなされ
たものであり、パラ言語情報を、効果的に伝達すること
のできる合成音を、容易に生成することができるように
するものである。

【０００９】

【課題を解決するための手段】本発明の音声合成装置
は、入力データに基づいて、合成音の韻律を制御する第
１の韻律情報を生成する第１の韻律情報生成手段と、音
楽的要素により韻律を制御し、合成音に対してパラ言語
情報を付与する第２の韻律情報を生成する第２の韻律情
報生成手段と、第１と第２の韻律情報を調整し、最終的
な韻律情報を生成する韻律情報調整手段と、最終的な韻
律情報により韻律を制御した合成音を生成する音声合成
手段とを備えることを特徴とする。

【００１０】本発明の音声合成方法は、入力データに基
づいて、合成音の韻律を制御する第１の韻律情報を生成
する第１の韻律情報生成ステップと、音楽的要素により
韻律を制御し、合成音に対してパラ言語情報を付与する
第２の韻律情報を生成する第２の韻律情報生成ステップ
と、第１と第２の韻律情報を調整し、最終的な韻律情報
を生成する韻律情報調整ステップと、最終的な韻律情報
により韻律を制御した合成音を生成する音声合成ステッ
プとを備えることを特徴とする。

【００１１】本発明のプログラムは、入力データに基づ
いて、合成音の韻律を制御する第１の韻律情報を生成す
る第１の韻律情報生成ステップと、音楽的要素により韻
律を制御し、合成音に対してパラ言語情報を付与する第
２の韻律情報を生成する第２の韻律情報生成ステップ
と、第１と第２の韻律情報を調整し、最終的な韻律情報
を生成する韻律情報調整ステップと、最終的な韻律情報
により韻律を制御した合成音を生成する音声合成ステッ
プとを備えることを特徴とする。

【００１２】本発明の記録媒体は、入力データに基づい
て、合成音の韻律を制御する第１の韻律情報を生成する
第１の韻律情報生成ステップと、音楽的要素により韻律
を制御し、合成音に対してパラ言語情報を付与する第２
の韻律情報を生成する第２の韻律情報生成ステップと、
第１と第２の韻律情報を調整し、最終的な韻律情報を生
成する韻律情報調整ステップと、最終的な韻律情報によ
り韻律を制御した合成音を生成する音声合成ステップと
を備えるプログラムが記録されていることを特徴とす
る。

【００１３】本発明の音声合成装置および音声合成方
法、並びにプログラムにおいては、入力データに基づい
て、合成音の韻律を制御する第１の韻律情報が生成され
るとともに、音楽的要素により韻律を制御し、合成音に
対してパラ言語情報を付与する第２の韻律情報が生成さ
れる。さらに、第１と第２の韻律情報が調整され、最終
的な韻律情報が生成される。そして、その最終的な韻律
情報により韻律を制御した合成音が生成される。

【００１４】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図２は、
その電気的構成例を示している。

【００１５】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット２の前後左右に、それぞれ脚部ユニット３Ａ，
３Ｂ，３Ｃ，３Ｄが連結されるとともに、胴体部ユニッ
ト２の前端部と後端部に、それぞれ頭部ユニット４と尻
尾部ユニット５が連結されることにより構成されてい
る。

【００１６】尻尾部ユニット５は、胴体部ユニット２の
上面に設けられたベース部５Ｂから、２自由度をもって
湾曲または揺動自在に引き出されている。

【００１７】胴体部ユニット２には、ロボット全体の制
御を行うコントローラ１０、ロボットの動力源となるバ
ッテリ１１、並びにバッテリセンサ１２および熱センサ
１３からなる内部センサ部１４などが収納されている。

【００１８】頭部ユニット４には、「耳」に相当するマ
イク（マイクロフォン）１５、「目」に相当するＣＣＤ
(Charge Coupled Device)カメラ１６、触覚に相当する
タッチセンサ１７、「口」に相当するスピーカ１８など
が、それぞれ所定位置に配設されている。また、頭部ユ
ニット４には、口の下顎に相当する下顎部４Ａが１自由
度をもって可動に取り付けられており、この下顎部４Ａ
が動くことにより、ロボットの口の開閉動作が実現され
るようになっている。

【００１９】脚部ユニット３Ａ乃至３Ｄそれぞれの関節
部分や、脚部ユニット３Ａ乃至３Ｄそれぞれと胴体部ユ
ニット２の連結部分、頭部ユニット４と胴体部ユニット
２の連結部分、頭部ユニット４と下顎部４Ａの連結部
分、並びに尻尾部ユニット５と胴体部ユニット２の連結
部分などには、図２に示すように、それぞれアクチュエ
ータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ
₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、
５Ａ₁および５Ａ₂が配設されている。

【００２０】頭部ユニット４におけるマイク１５は、ユ
ーザからの発話を含む周囲の音声（音）を集音し、得ら
れた音声信号を、コントローラ１０に送出する。ＣＣＤ
カメラ１６は、周囲の状況を撮像し、得られた画像信号
を、コントローラ１０に送出する。

【００２１】タッチセンサ１７は、例えば、頭部ユニッ
ト４の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ１０に送出する。

【００２２】胴体部ユニット２におけるバッテリセンサ
１２は、バッテリ１１の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ１０に送
出する。熱センサ１３は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ１０に
送出する。

【００２３】コントローラ１０は、ＣＰＵ(Central Pro
cessing Unit)１０Ａやメモリ１０Ｂ等を内蔵してお
り、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。

【００２４】即ち、コントローラ１０は、マイク１５
や、ＣＣＤカメラ１６、タッチセンサ１７、バッテリセ
ンサ１２、熱センサ１３から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。

【００２５】さらに、コントローラ１０は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁
乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ
_K、４Ａ₁乃至４Ａ_L、５Ａ₁、５Ａ₂のうちの必要なもの
を駆動させる。これにより、頭部ユニット４を上下左右
に振らせたり、下顎部４Ａを開閉させる。さらには、尻
尾部ユニット５を動かせたり、各脚部ユニット３Ａ乃至
３Ｄを駆動して、ロボットを歩行させるなどの行動を行
わせる。

【００２６】また、コントローラ１０は、必要に応じ
て、合成音を生成し、スピーカ１８に供給して出力させ
たり、ロボットの「目」の位置に設けられた図示しない
ＬＥＤ（Light Emitting Diode）を点灯、消灯または点
滅させる。

【００２７】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。

【００２８】なお、メモリ１０Ｂは、例えば、メモリス
ティック（商標）等の、容易に着脱が可能なメモリカー
ドで構成することが可能である。

【００２９】次に、図３は、図２のコントローラ１０の
機能的構成例を示している。なお、図３に示す機能的構
成は、ＣＰＵ１０Ａが、メモリ１０Ｂに記憶された制御
プログラムを実行することで実現されるようになってい
る。

【００３０】コントローラ１０は、特定の外部状態を認
識するセンサ入力処理部５０、センサ入力処理部５０の
認識結果を累積して、感情や、本能、成長の状態を表現
するモデル記憶部５１、センサ入力処理部５０の認識結
果等に基づいて、続く行動を決定する行動決定機構部５
２、行動決定機構部５２の決定結果に基づいて、実際に
ロボットに行動を起こさせる姿勢遷移機構部５３、各ア
クチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動制御
する制御機構部５４、並びに合成音を生成する音声合成
部５５から構成されている。

【００３１】センサ入力処理部５０は、マイク１５や、
ＣＣＤカメラ１６、タッチセンサ１７等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部５１および行動決定機構部５２に通知
する。

【００３２】即ち、センサ入力処理部５０は、音声認識
部５０Ａを有しており、音声認識部５０Ａは、マイク１
５から与えられる音声信号について音声認識を行う。そ
して、音声認識部５０Ａは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令その他を、状態認識情報として、モデル記
憶部５１および行動決定機構部５２に通知する。

【００３３】また、センサ入力処理部５０は、画像認識
部５０Ｂを有しており、画像認識部５０Ｂは、ＣＣＤカ
メラ１６から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部５０Ｂは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部５１および行動
決定機構部５２に通知する。

【００３４】さらに、センサ入力処理部５０は、圧力処
理部５０Ｃを有しており、圧力処理部５０Ｃは、タッチ
センサ１７から与えられる圧力検出信号を処理する。そ
して、圧力処理部５０Ｃは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた（しかられた）」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た（ほめられた）」と認識して、その認識結果を、状態
認識情報として、モデル記憶部５１および行動決定機構
部５２に通知する。

【００３５】モデル記憶部５１は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。

【００３６】ここで、感情モデルは、例えば、「喜
び」、「悲しさ」、「怒り」、「驚き」、「恐れ」、
「落胆」、「平静」等の感情の状態（度合い）を、所定
の範囲（例えば、−１．０乃至１．０等）の値によって
それぞれ表し、センサ入力処理部５０からの状態認識情
報や時間経過等に基づいて、その値を変化させる。本能
モデルは、例えば、「食欲」、「睡眠欲」、「運動欲」
等の本能による欲求の状態（度合い）を、所定の範囲の
値によってそれぞれ表し、センサ入力処理部５０からの
状態認識情報や時間経過等に基づいて、その値を変化さ
せる。成長モデルは、例えば、「幼年期」、「青年
期」、「熟年期」、「老年期」等の成長の状態（度合
い）を、所定の範囲の値によってそれぞれ表し、センサ
入力処理部５０からの状態認識情報や時間経過等に基づ
いて、その値を変化させる。

【００３７】モデル記憶部５１は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部５２に送出する。

【００３８】なお、モデル記憶部５１には、センサ入力
処理部５０から状態認識情報が供給される他、行動決定
機構部５２から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、モデル
記憶部５１は、同一の状態認識情報が与えられても、行
動情報が示すロボットの行動に応じて、異なる状態情報
を生成するようになっている。

【００３９】即ち、例えば、ロボットが、ユーザに挨拶
をし、ユーザに頭を撫でられた場合には、ユーザに挨拶
をしたという行動情報と、頭を撫でられたという状態認
識情報とが、モデル記憶部５１に与えられ、この場合、
モデル記憶部５１では、「うれしさ」を表す感情モデル
の値が増加される。

【００４０】一方、ロボットが、何らかの仕事を実行中
に頭を撫でられた場合には、仕事を実行中であるという
行動情報と、頭を撫でられたという状態認識情報とが、
モデル記憶部５１に与えられ、この場合、モデル記憶部
５１では、「うれしさ」を表す感情モデルの値は変化さ
れない。

【００４１】このように、モデル記憶部５１は、状態認
識情報だけでなく、現在または過去のロボットの行動を
示す行動情報も参照しながら、感情モデルの値を設定す
る。これにより、例えば、何らかのタスクを実行中に、
ユーザが、いたずらするつもりで頭を撫でたときに、
「うれしさ」を表す感情モデルの値を増加させるよう
な、不自然な感情の変化が生じることを回避することが
できる。

【００４２】なお、モデル記憶部５１は、本能モデルお
よび成長モデルについても、感情モデルにおける場合と
同様に、状態認識情報および行動情報の両方に基づい
て、その値を増減させるようになっている。また、モデ
ル記憶部５１は、感情モデル、本能モデル、成長モデル
それぞれの値を、他のモデルの値にも基づいて増減させ
るようになっている。

【００４３】行動決定機構部５２は、センサ入力処理部
５０からの状態認識情報や、モデル記憶部５１からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部５３に送出する。

【００４４】即ち、行動決定機構部５２は、ロボットが
とり得る行動をステート（状態）(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部５
０からの状態認識情報や、モデル記憶部５１における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。

【００４５】ここで、行動決定機構部５２は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部５２は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部５１から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。

【００４６】なお、行動決定機構部５２は、上述したよ
うに、センサ入力処理部５０からの状態認識情報だけで
なく、モデル記憶部５１における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値（状態情報）によっては、ステートの遷移先は
異なるものとなる。

【００４７】その結果、行動決定機構部５２は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部５３に送出す
る。

【００４８】また、行動決定機構部５２は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部５３に送出する。

【００４９】また、行動決定機構部５２は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部５３に送出する。

【００５０】なお、行動決定機構部５２では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部５５に供給されるようになっており、音声合
成部５５に供給される行動指令情報には、音声合成部５
５に生成させる合成音に対応する漢字仮名混じり等のテ
キスト、あるいは音韻情報（読み）と、アクセントやポ
ーズの位置を示すタグからなる音声記号等の言語情報が
含まれる。そして、音声合成部５５は、行動決定部５２
から行動指令情報を受信すると、その行動指令情報に含
まれる言語情報に基づき、合成音を生成し、スピーカ１
８に供給して出力させる。これにより、スピーカ１８か
らは、例えば、ロボットの鳴き声、さらには、「お腹が
すいた」等のユーザへの各種の要求、「何？」等のユー
ザの呼びかけに対する応答その他の音声出力が行われ
る。

【００５１】ここで、音声合成部５５には、モデル記憶
部５１から状態情報も供給されるようになっており、音
声合成部５５は、この状態情報における感情モデルの値
（感情モデル値）に基づいて韻律を制御した合成音を生
成することが可能となっている。

【００５２】なお、音声合成部５５では、感情の他、本
能や本能の状態に基づいて韻律を制御した合成音を生成
することも可能である。また、行動決定機構部５２は、
合成音を出力する場合には、下顎部４Ａを開閉させる行
動指令情報を、必要に応じて生成し、姿勢遷移機構部５
３に出力する。この場合、合成音の出力に同期して、下
顎部４Ａが開閉し、ユーザに、ロボットがしゃべってい
るかのような印象を与えることができる。

【００５３】姿勢遷移機構部５３は、行動決定機構部５
２から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部５４に送出す
る。

【００５４】ここで、現在の姿勢から次に遷移可能な姿
勢は、例えば、胴体や手や足の形状、重さ、各部の結合
状態のようなロボットの物理的形状と、関節が曲がる方
向や角度のようなアクチュエータ３ＡＡ₁乃至５Ａ₁およ
び５Ａ₂の機構とによって決定される。

【００５５】制御機構部５４は、姿勢遷移機構部５３か
らの姿勢遷移情報にしたがって、アクチュエータ３ＡＡ
₁乃至５Ａ₁および５Ａ₂を駆動するための制御信号を生
成し、これを、アクチュエータ３ＡＡ₁乃至５Ａ₁および
５Ａ₂に送出する。これにより、アクチュエータ３ＡＡ₁
乃至５Ａ₁および５Ａ₂は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。

【００５６】次に、図４は、図３の音声合成部５５の構
成例を示している。

【００５７】言語解析部２１には、行動決定機構部５２
が出力する、音声合成の対象とする言語情報を含む行動
指令情報が供給されるようになっており、言語解析部２
１は、辞書記憶部２２や文法記憶部２３を参照しなが
ら、その行動指令情報に含まれる言語情報を解析する。

【００５８】即ち、辞書記憶部２２には、各単語の品詞
情報や、読み、アクセント等の情報が記述された単語辞
書が記憶されており、また、文法記憶部２３には、辞書
記憶部２２の単語辞書に記述された単語について、単語
連鎖に関する制約等の文法規則が記憶されている。そし
て、言語解析部２１は、この単語辞書および文法規則に
基づいて、そこに入力される言語情報の形態素解析や構
文解析等の言語解析を行うことにより、後段の韻律制御
部２４および波形合成部２８で行われる規則音声合成に
必要な情報を抽出する。ここで、規則音声合成に必要な
情報としては、例えば、ポーズの位置や、アクセントお
よびイントネーションを表す情報や、各単語の発音等の
音韻情報などがある。言語解析部２１は、言語解析が終
了すると、その言語解析の結果得られた情報から、音声
記号を生成して出力する。

【００５９】なお、言語解析部２１は、言語情報がテキ
ストである場合に、上述のような言語解析を行う。即
ち、言語情報が音声記号である場合には、一般に、音声
記号には、音韻情報と、ポーズの位置やアクセントを表
す情報（タグ）とが含まれているため、言語解析部２１
は、そのような音声記号については、特に処理を行わ
ず、そのまま出力する。

【００６０】言語解析部２１が出力する音声記号は、韻
律制御部２４に供給される。韻律制御部２４には、さら
に、モデル記憶部５１（図３）に記憶された感情モデル
値が、パラ言語情報として供給されるようになってお
り、韻律制御部２４は、言語解析部２１からの音声記号
に基づいて、韻律情報を生成するとともに、音楽的要素
により韻律を制御し、合成音に対して、モデル記憶部５
１からの感情モデル値が表す感情を表現する韻律情報を
生成する。さらに、韻律制御部２４は、その２つの韻律
情報から、最終的に合成音の韻律制御に用いる韻律情報
を生成する。

【００６１】即ち、韻律制御部２４は、音声韻律情報生
成部２５、音楽韻律情報生成部２６，および韻律情報調
整部２７から構成されている。

【００６２】音声韻律情報生成部２５は、言語解析部２
１が出力する音声記号に基づいて、例えば、従来の音声
合成装置と同様にして、合成音におけるピッチ周波数の
時間変化であるピッチパターンや、合成音のパワーの時
間変化であるパワーパターン、合成音を構成する各音韻
の継続時間長（音韻継続時間長）等の韻律情報を生成
し、韻律情報調整部２７に供給する。ここで、音声韻律
情報生成部２５が生成する韻律情報を、以下、適宜、音
声韻律情報という。

【００６３】音楽韻律情報生成部２６は、言語解析部２
１が出力する音声記号から、合成音の音韻や、ポーズの
位置、アクセントの位置等の言語的な情報を認識し、そ
れらの情報と、モデル記憶部５１からの感情モデル値に
基づいて、旋律（メロディ）、音階（スケール）、和音
（ハーモニ）、または拍子（ビート）（もしくは律動
（リズム））等の音楽的要素による韻律情報を生成す
る。

【００６４】即ち、音楽韻律情報生成部２６は、言語解
析部２１が出力する音声記号から認識される音韻につい
て、感情モデル値が表す感情とその状態に対応する所定
の旋律、音階、和音、または拍子（もしくは律動）のう
ちの１以上を与えるピッチパターンや、パワーパター
ン、音韻継続時間長等の韻律情報を生成し、韻律情報調
整部２７に供給する。

【００６５】具体的には、例えば、感情モデル値が、
「喜び」の感情が大きいことを表している場合には、音
楽韻律情報生成部２６は、長調の和音（例えば、「ドミ
ソ」など）や、速い拍子等を与えるピッチパターン、パ
ワーパターン、音韻継続時間長等の韻律情報を生成す
る。さらに、「喜び」の感情が、より大きい場合には、
音楽韻律情報生成部２６は、より高い音による和音や、
より速い拍子等を与える韻律情報を生成する。

【００６６】また、例えば、感情モデル値が、「悲し
み」の感情が大きいことを表している場合には、音楽韻
律情報生成部２６は、短調の和音（例えば、ミを半音下
げた「ド♭ミソ」など）や、遅い拍子等を与えるピッチ
パターン、パワーパターン、音韻継続時間長等の韻律情
報を生成する。

【００６７】ここで、音楽韻律情報生成部２６が生成す
る韻律情報を、音声韻律情報生成部２５が生成する韻律
情報（音声韻律情報）と区別するために、以下、適宜、
音楽韻律情報という。

【００６８】韻律情報調整部２７は、音声韻律情報生成
部２５からの音声韻律情報と、音楽韻律情報生成部２６
からの音楽韻律情報を調整し、最終的に、合成音の韻律
を制御する韻律情報（以下、適宜、最終韻律情報とい
う）を生成する。

【００６９】即ち、韻律情報調整部２７は、例えば、音
楽韻律情報が、ある特定の旋律を与えるものである場合
には、音楽韻律情報を、そのまま最終韻律情報とする。

【００７０】従って、この場合、音声韻律情報と音楽韻
律情報が、例えば、図５（Ａ）と図５（Ｂ）にそれぞれ
示すようなものであるときには、韻律情報調整部２７
は、図５（Ｃ）に示すように、図５（Ｂ）に示した音楽
韻律情報を、そのまま、最終韻律情報とする。

【００７１】ここで、図５においては（後述する図６乃
至図８においても同様）、テキスト「楽しいな」に対す
る韻律情報としてのピッチパターン、パワーパターン、
および音韻継続時間長を示してある。即ち、図５におい
て、太線で示す線（直線または曲線）は、ピッチパター
ンを表す。また、アルファベットで示してある各音韻
（音素）上に配置してある長方形の縦方向の長さ（高
さ）が、パワーを表し、その横方向の長さが、音韻継続
時間長を表す。

【００７２】その他、韻律情報調整部２７は、例えば、
音楽韻律情報が、ある特定の音階を与えるものである場
合には、音声韻律情報におけるピッチパターンを、音楽
韻律情報におけるピッチパターンを利用したものに置き
換え、そのピッチパターンの置き換え後の音声韻律情報
を、最終韻律情報とする。

【００７３】従って、この場合、音声韻律情報と音楽韻
律情報が、例えば、図６（Ａ）と図６（Ｂ）にそれぞれ
示すようなものであるときには、韻律情報調整部２７
は、図６（Ｃ）に示すような韻律情報を、最終韻律情報
とする。

【００７４】ここで、図６（Ｃ）の最終韻律情報は、図
６（Ａ）の音声韻律情報における各音韻（音節）のピッ
チ周波数を、そのピッチ周波数に対し、図６（Ｂ）の音
楽韻律情報のピッチ周波数の中で最も近いものに置き換
えたものとなっている。

【００７５】また、韻律情報調整部２７は、例えば、音
声韻律情報の一部を、その一部に対応する音楽韻律情報
の一部と置き換え、その置き換え後の音声韻律情報を、
最終韻律情報とする。

【００７６】従って、この場合、音声韻律情報と音楽韻
律情報が、例えば、図７（Ａ）と図７（Ｂ）にそれぞれ
示すようなものであるときには、韻律情報調整部２７
は、図７（Ｃ）に示すような韻律情報を、最終韻律情報
とする。

【００７７】ここで、図７（Ｃ）の最終韻律情報は、図
７（Ａ）の音声韻律情報における最後の音節（na）の部
分を、図７（Ｂ）の音楽韻律情報における最後の音節の
部分に置き換えたものとなっている。

【００７８】さらに、韻律情報調整部２７は、例えば、
音楽韻律情報が、ある特定の律動（あるいは拍子）を与
えるものである場合には、音声韻律情報における音韻継
続時間長を、音楽韻律情報における音韻継続時間長に置
き換え、その音韻継続時間長の置き換え後の音声韻律情
報を、最終韻律情報とする。

【００７９】従って、この場合、音声韻律情報と音楽韻
律情報が、例えば、図８（Ａ）と図８（Ｂ）にそれぞれ
示すようなものであるときには、韻律情報調整部２７
は、図８（Ｃ）に示すような韻律情報を、最終韻律情報
とする。

【００８０】ここで、図８（Ｃ）の最終韻律情報は、図
８（Ａ）の音声韻律情報における各音韻の音韻継続時間
長を、図８（Ｂ）の音楽韻律情報における各音韻の音韻
継続時間長に置き換えたものとなっている。さらに、音
韻継続時間長の置き換えにより、合成音の発話時間（音
声区間）が変化することから、図８（Ｃ）の最終韻律情
報は、そのような発話時間の変化に伴い、図８（Ａ）の
音声韻律情報におけるピッチパターンが時間軸伸縮され
たものとなっている。

【００８１】韻律情報調整部２７は、上述のようにし
て、音声韻律情報と音楽韻律情報を調整することによ
り、最終韻律情報を生成し、言語解析部２１から供給さ
れる音声記号とともに、波形合成部２８に出力する。

【００８２】なお、音声韻律情報と音楽韻律情報を調整
して最終韻律情報を生成する方法は、上述した方法に限
定されるものではない。

【００８３】波形合成部２８は、音素片記憶部２９を参
照し、韻律情報調整部２７からの最終韻律情報により韻
律を制御した、同じく韻律情報調整部２７からの音声記
号における音韻情報に対応する合成音データ（ディジタ
ルデータ）を生成する。

【００８４】即ち、音素片記憶部２９には、例えば、Ｃ
Ｖ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ等の形で音素
片データが記憶されており、波形合成部２８は、韻律情
報調整部２７からの音声記号における音韻情報に基づい
て、必要な音素片データを接続し、さらに、ポーズ、ア
クセント、イントネーション等を、韻律情報調整部２７
からの最終韻律情報にしたがって付加することで、言語
解析部２１に入力された言語情報に対応する合成音デー
タを生成する。

【００８５】この合成音データは、Ｄ／Ａ(Digtal/Anal
og)変換部３０に供給される。Ｄ／Ａ変換部３０は、デ
ィジタル信号としての合成音データを、アナログ信号と
しての音声信号にＤ／Ａ変換し、スピーカ１８に供給す
る。これにより、言語解析部２１に入力された言語情報
に対応し、かつ、音楽的要素によるパラ言語情報であっ
て、ロボットの感情を表現するものが付与された合成音
が出力される。

【００８６】次に、図９のフローチャートを参照して、
図４の音声合成部５５による音声合成処理について説明
する。

【００８７】行動決定機構部５２（図３）が、音声合成
の対象とする言語情報を含む行動指令情報を、音声合成
部５５に出力すると、言語解析部２１は、その行動指令
情報を受信する。そして、言語解析部２１は、その行動
指令情報に含まれる言語情報について、言語解析を行
い、その結果得られる音声記号を、韻律制御部２４の音
声韻律情報生成部２５、音楽韻律情報生成部２６、およ
び韻律情報調整部２７に供給する。

【００８８】その後、ステップＳ２に進み、音声韻律情
報生成部２５と音楽韻律情報生成部２６は、韻律情報を
生成する。

【００８９】即ち、音声韻律情報生成部２５は、言語解
析部２１が出力する音声記号に基づいて、例えば、標準
的な音声韻律情報を生成し、韻律情報調整部２７に供給
する。

【００９０】また、音楽韻律情報生成部２６は、モデル
記憶部５１（図３）から感情モデル値を、パラ言語情報
として読み出す。さらに、音楽韻律情報生成部２６は、
言語解析部２１が出力する音声記号から認識される音韻
について、感情モデル値が表す感情とその状態に対応す
る所定の旋律、音階、和音、または拍子（もしくは律
動）を与える音楽韻律情報を生成し、韻律情報調整部２
７に供給する。

【００９１】韻律情報調整部２７は、音声韻律情報生成
部２５から供給される音声韻律情報と、音楽韻律情報生
成部２６から供給される音楽韻律情報を受信すると、ス
テップＳ３において、その音声韻律情報と音楽韻律情報
とを調整することで、最終韻律情報を生成し、言語解析
部２１から供給される音声記号とともに、波形合成部２
８に出力する。

【００９２】波形合成部２８は、韻律情報調整部２７か
らの最終韻律情報と音声記号を受信し、ステップＳ４に
おいて、その最終韻律情報と音声記号に基づき、合成音
データを生成し、Ｄ／Ａ変換部３０に出力して処理を終
了する。

【００９３】これにより、合成音データは、Ｄ／Ａ変換
部３０でＤ／Ａ変換され、スピーカ１８に供給されて出
力される。

【００９４】従って、ロボットにおいては、音楽的要素
により韻律が制御され、ロボットの感情を表現するパラ
言語情報が付与された合成音が出力される。その結果、
ユーザに対して、感情の状態を、合成音によって認識さ
せる、エンタテイメント性の高いロボットを提供するこ
とが可能となる。

【００９５】以上のように、言語情報に基づいて、合成
音の韻律を制御する音声韻律情報を生成するとともに、
音楽的要素により韻律を制御することによって、合成音
に対してパラ言語情報を付与する音楽韻律情報を生成
し、その音声韻律情報と音楽韻律情報を調整して最終韻
律情報を生成するようにしたので、パラ言語情報を、和
音や拍子等によって、効果的に伝達することのできる合
成音を、容易に生成することができる。

【００９６】以上、本発明を、エンターテイメント用の
ロボット（疑似ペットとしてのロボット）に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、システムに感情等の内部状態が導入された対話シス
テムその他に広く適用することが可能である。

【００９７】また、本発明は、現実世界のロボットだけ
でなく、例えば、液晶ディスプレイ等の表示装置に表示
される仮想的なロボットにも適用可能である。

【００９８】なお、本実施の形態においては、上述した
一連の処理を、ＣＰＵ１０Ａにプログラムを実行させる
ことにより行うようにしたが、一連の処理は、それ専用
のハードウェアによって行うことも可能である。

【００９９】ここで、プログラムは、あらかじめメモリ
１０Ｂ（図２）に記憶させておく他、フロッピー（登録
商標）ディスク、CD-ROM(Compact Disc Read Only Memo
ry)，MO(Magnetooptical)ディスク，DVD(Digital Versa
tile Disc)、磁気ディスク、半導体メモリなどのリムー
バブル記録媒体に、一時的あるいは永続的に格納（記
録）しておくことができる。そして、このようなリムー
バブル記録媒体は、いわゆるパッケージソフトウエアと
して提供し、ロボット（メモリ１０Ｂ）にインストール
するようにすることができる。

【０１００】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ１０Ｂにインストールすることができる。

【０１０１】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ１０Ｂに、容易にインストールすることが
できる。

【０１０２】なお、本明細書において、ＣＰＵ１０Ａに
各種の処理を行わせるためのプログラムを記述する処理
ステップは、必ずしもフローチャートとして記載された
順序に沿って時系列に処理する必要はなく、並列的ある
いは個別に実行される処理（例えば、並列処理あるいは
オブジェクトによる処理）も含むものである。

【０１０３】また、プログラムは、１のＣＰＵにより処
理されるものであっても良いし、複数のＣＰＵによって
分散処理されるものであっても良い。

【０１０４】次に、図４の音声合成部５５は、専用のハ
ードウェアにより実現することもできるし、ソフトウェ
アにより実現することもできる。音声合成部５５をソフ
トウェアによって実現する場合には、そのソフトウェア
を構成するプログラムが、汎用のコンピュータ等にイン
ストールされる。

【０１０５】そこで、図１０は、音声合成部５５を実現
するためのプログラムがインストールされるコンピュー
タの一実施の形態の構成例を示している。

【０１０６】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク１０５やＲＯＭ１
０３に予め記録しておくことができる。

【０１０７】あるいはまた、プログラムは、フロッピー
ディスク、CD-ROM，MOディスク，DVD、磁気ディスク、
半導体メモリなどのリムーバブル記録媒体１１１に、一
時的あるいは永続的に格納（記録）しておくことができ
る。このようなリムーバブル記録媒体１１１は、いわゆ
るパッケージソフトウエアとして提供することができ
る。

【０１０８】なお、プログラムは、上述したようなリム
ーバブル記録媒体１１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN、インターネットといったネットワークを介
して、コンピュータに有線で転送し、コンピュータで
は、そのようにして転送されてくるプログラムを、通信
部１０８で受信し、内蔵するハードディスク１０５にイ
ンストールすることができる。

【０１０９】コンピュータは、CPU(Central Processing
Unit)１０２を内蔵している。CPU１０２には、バス１
０１を介して、入出力インタフェース１１０が接続され
ており、CPU１０２は、入出力インタフェース１１０を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部１０７が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)１０３に格納されているプログラムを実行
する。あるいは、また、CPU１０２は、ハードディスク
１０５に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部１０８で受信されてハー
ドディスク１０５にインストールされたプログラム、ま
たはドライブ１０９に装着されたリムーバブル記録媒体
１１１から読み出されてハードディスク１０５にインス
トールされたプログラムを、RAM(Random Access Memor
y)１０４にロードして実行する。これにより、CPU１０
２は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU１０２は、その処理結果を、必要に応
じて、例えば、入出力インタフェース１１０を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部１０６から出力、あるいは、通信部１０８から
送信、さらには、ハードディスク１０５に記録等させ
る。

【０１１０】なお、本実施の形態では、行動決定機構部
５２が生成するテキスト等の言語情報から合成音を生成
するようにしたが、本発明は、あからじめ用意されたテ
キスト等から合成音を生成する場合にも適用可能であ
る。

【０１１１】また、本実施の形態では、音楽韻律情報
を、感情モデル値に基づいて生成するようにしたが、音
楽韻律情報の生成は、感情モデル値以外に、例えば、本
能や成長その他のペットロボットの内部状態に基づいて
行うことが可能である。

【０１１２】さらに、音楽韻律情報は、音声韻律情報と
同様の記述方法で記述する他、例えば、MIDI（Musical
Instrument Digital Interface）の規格に準拠して記述
することも可能である。

【０１１３】

【発明の効果】以上の如く、本発明の音声合成装置およ
び音声合成方法、並びにプログラムによれば、入力デー
タに基づいて、合成音の韻律を制御する第１の韻律情報
が生成されるとともに、音楽的要素により韻律を制御
し、合成音に対してパラ言語情報を付与する第２の韻律
情報が生成される。そして、第１と第２の韻律情報か
ら、最終的な韻律情報が生成され、その最終的な韻律情
報により韻律を制御した合成音が生成される。従って、
パラ言語情報を、効果的に伝達することのできる合成音
を、容易に生成することが可能となる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。

【図２】ロボットの内部構成例を示すブロック図であ
る。

【図３】コントローラ１０の機能的構成例を示すブロッ
ク図である。

【図４】音声合成部５５の構成例を示すブロック図であ
る。

【図５】音声韻律情報と音楽韻律情報の調整方法を説明
する図である。

【図６】音声韻律情報と音楽韻律情報の調整方法を説明
する図である。

【図７】音声韻律情報と音楽韻律情報の調整方法を説明
する図である。

【図８】音声韻律情報と音楽韻律情報の調整方法を説明
する図である。

【図９】音声合成部５５の処理を説明するフローチャー
トである。

【図１０】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。

【符号の説明】

１頭部ユニット，４Ａ下顎部，１０コントロ
ーラ，１０ＡＣＰＵ，１０Ｂメモリ，１５
マイク，１６ＣＣＤカメラ，１７タッチセン
サ，１８スピーカ，２１言語解析部，２２
辞書記憶部，２３文法記憶部，２４韻律制御
部，２５音声韻律情報生成部，２６音楽韻律情報
生成部，２７韻律情報調整部，２８波形合成
部，２９音素片記憶部，３０Ｄ／Ａ変換部，５
０センサ入力処理部，５０Ａ音声認識部，５０Ｂ
画像認識部，５０Ｃ圧力処理部，５１モデル
記憶部，５２行動決定機構部，５３姿勢遷移機
構部，５４制御機構部，５５音声合成部，１
０１バス，１０２ CPU，１０３ ROM，１０４
RAM，１０５ハードディスク，１０６出力
部，１０７入力部，１０８通信部，１０９
ドライブ，１１０入出力インタフェース，１１１
リムーバブル記録媒体

───────────────────────────────────────────────────── フロントページの続き (72)発明者新田朋晃東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者小林恵理香東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者小林賢一郎東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者赤羽誠東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 2C150 CA02 DA05 DA23 DF01 DG22 DK02 ED08 ED42 ED49 ED52 ED59 EF11 EF16 EF21 EF23 EF28 FA01 FA03 5D015 KK02 5D045 AA07 AB11

Claims

【特許請求の範囲】

【請求項１】入力データに対応する合成音を生成する
音声合成装置であって、前記入力データに基づいて、前記合成音の韻律を制御す
る第１の韻律情報を生成する第１の韻律情報生成手段
と、音楽的要素により韻律を制御し、前記合成音に対してパ
ラ言語情報を付与する第２の韻律情報を生成する第２の
韻律情報生成手段と、前記第１と第２の韻律情報を調整し、最終的な韻律情報
を生成する韻律情報調整手段と、前記最終的な韻律情報により韻律を制御した合成音を生
成する音声合成手段とを備えることを特徴とする音声合
成装置。
【請求項２】前記第２の韻律情報生成手段は、旋律、
音階、和音、または拍子もしくは律動のうちの１以上の
音楽的要素により韻律を制御し、前記合成音に対してパ
ラ言語情報を付与する第２の韻律情報を生成することを
特徴とする請求項１に記載の音声合成装置。
【請求項３】前記第２の韻律情報生成手段は、前記合
成音に対して、感情を表現する前記パラ言語情報を付与
する第２の韻律情報を生成することを特徴とする請求項
１に記載の音声合成装置。
【請求項４】前記第２の韻律情報生成手段は、前記第
２の韻律情報として、MIDI(Musical Instrument Digiga
l Interface)の規格に準拠した情報を生成することを特
徴とする請求項１に記載の音声合成装置。
【請求項５】前記韻律情報調整手段は、前記第２の韻
律情報を、前記最終的な韻律情報とすることを特徴とす
る請求項１に記載の音声合成装置。
【請求項６】前記韻律情報調整手段は、前記第１の韻
律情報におけるピッチに関する情報を、前記第２の韻律
情報を利用したものに置き換えることにより、前記最終
的な韻律情報を生成することを特徴とする請求項１に記
載の音声合成装置。
【請求項７】前記韻律情報調整手段は、前記第１の韻
律情報の一部を、対応する前記第２の韻律情報の一部と
置き換えることにより、前記最終的な韻律情報を生成す
ることを特徴とする請求項１に記載の音声合成装置。
【請求項８】前記韻律情報調整手段は、前記第１の韻
律情報における音韻継続時間長を、前記第２の韻律情報
を利用したものに置き換えることにより、前記最終的な
韻律情報を生成することを特徴とする請求項１に記載の
音声合成装置。
【請求項９】入力データに対応する合成音を生成する
音声合成方法であって、前記入力データに基づいて、前記合成音の韻律を制御す
る第１の韻律情報を生成する第１の韻律情報生成ステッ
プと、音楽的要素により韻律を制御し、前記合成音に対してパ
ラ言語情報を付与する第２の韻律情報を生成する第２の
韻律情報生成ステップと、前記第１と第２の韻律情報を調整し、最終的な韻律情報
を生成する韻律情報調整ステップと、前記最終的な韻律情報により韻律を制御した合成音を生
成する音声合成ステップとを備えることを特徴とする音
声合成方法。
【請求項１０】入力データに対応する合成音を生成す
る音声合成処理を、コンピュータに行わせるプログラム
であって、前記入力データに基づいて、前記合成音の韻律を制御す
る第１の韻律情報を生成する第１の韻律情報生成ステッ
プと、音楽的要素により韻律を制御し、前記合成音に対してパ
ラ言語情報を付与する第２の韻律情報を生成する第２の
韻律情報生成ステップと、前記第１と第２の韻律情報を調整し、最終的な韻律情報
を生成する韻律情報調整ステップと、前記最終的な韻律情報により韻律を制御した合成音を生
成する音声合成ステップとを備えることを特徴とするプ
ログラム。
【請求項１１】入力データに対応する合成音を生成す
る音声合成処理を、コンピュータに行わせるプログラム
が記録されている記録媒体であって、前記入力データに基づいて、前記合成音の韻律を制御す
る第１の韻律情報を生成する第１の韻律情報生成ステッ
プと、音楽的要素により韻律を制御し、前記合成音に対してパ
ラ言語情報を付与する第２の韻律情報を生成する第２の
韻律情報生成ステップと、前記第１と第２の韻律情報を調整し、最終的な韻律情報
を生成する韻律情報調整ステップと、前記最終的な韻律情報により韻律を制御した合成音を生
成する音声合成ステップとを備えるプログラムが記録さ
れていることを特徴とする記録媒体。