JP2002189488A

JP2002189488A - ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム

Info

Publication number: JP2002189488A
Application number: JP2001016872A
Authority: JP
Inventors: Kazuo Ishii; 和夫石井; Jun Hiroi; 順広井; Wataru Onoki; 渡小野木; Takashi Toyoda; 崇豊田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-10-11
Filing date: 2001-01-25
Publication date: 2002-07-05
Anticipated expiration: 2021-01-25
Also published as: TW586056B; EP1326230A4; DE60142842D1; WO2002031810A1; KR20020067697A; CN1393010A; KR100814569B1; EP1326230A1; US20030055653A1; US7203642B2; JP4296714B2; CN1187734C; EP1326230B1

Abstract

(57)【要約】【課題】音声が受け付けられていることを、ユーザに
認識させる。【解決手段】マイク１５に入力されたユーザの音声
は、音声認識部５０Ａで音声認識され、行動決定機構部
５２は、その音声認識結果に基づいて、ロボットの次の
行動を決定する。一方、エコーバック部５６は、マイク
１５に入力されたユーザの音声の韻律情報を分析し、そ
の韻律情報に基づいて、韻律を制御した音声であるエコ
ーバック音声を生成する。このエコーバック音声は、出
力制御部５７を介してスピーカ１８に供給されて出力さ
れる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ロボット制御装置
およびロボット制御方法、記録媒体、並びにプログラム
に関し、特に、例えば、音声認識装置による音声認識結
果に基づいて行動するロボットに用いて好適なロボット
制御装置およびロボット制御方法、記録媒体、並びにプ
ログラムに関する。

【０００２】

【従来の技術】近年においては、例えば、玩具等とし
て、ユーザが発した音声を音声認識し、その音声認識結
果に基づいて、ある仕草をしたり、合成音を出力する等
の行動を行うロボット（本明細書においては、ぬいぐる
み状のものを含む）が製品化されている。

【０００３】

【発明が解決しようとする課題】しかしながら、ロボッ
トにおいては、音声認識結果が得られても、何の行動も
起こさない場合があり、この場合、ユーザは、ロボット
において音声が認識されているのかどうか、あるいはロ
ボットが故障しているのかどうか不安になる。

【０００４】本発明は、このような状況に鑑みてなされ
たものであり、ロボットにおいて、ユーザの音声が認識
されていることを分かるようにすることで、ユーザの不
安を解消すること等ができるようにするものである。

【０００５】

【課題を解決するための手段】本発明のロボット制御装
置は、音声認識されるユーザの音声の韻律情報を分析す
る分析手段と、韻律情報に基づいて、韻律を制御した音
声データである韻律制御音声データを生成する生成手段
と、韻律制御音声データの出力を制御する出力制御手段
とを備えることを特徴とする。

【０００６】本発明のロボット制御方法は、音声認識さ
れるユーザの音声の韻律情報を分析する分析ステップ
と、韻律情報に基づいて、韻律を制御した音声データで
ある韻律制御音声データを生成する生成ステップと、韻
律制御音声データの出力を制御する出力制御ステップと
を備えることを特徴とする。

【０００７】本発明の記録媒体は、音声認識されるユー
ザの音声の韻律情報を分析する分析ステップと、韻律情
報に基づいて、韻律を制御した音声データである韻律制
御音声データを生成する生成ステップと、韻律制御音声
データの出力を制御する出力制御ステップとを備えるプ
ログラムが記録されていることを特徴とする。

【０００８】本発明のプログラムは、音声認識されるユ
ーザの音声の韻律情報を分析する分析ステップと、韻律
情報に基づいて、韻律を制御した音声データである韻律
制御音声データを生成する生成ステップと、韻律制御音
声データの出力を制御する出力制御ステップとを備える
ことを特徴とする。

【０００９】本発明のロボット制御装置およびロボット
制御方法、並びにプログラムにおいては、音声認識され
るユーザの音声の韻律情報が分析され、その韻律情報に
基づいて、韻律を制御した音声データである韻律制御音
声データが生成されて出力される。

【００１０】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図２は、
その電気的構成例を示している。

【００１１】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット２の前後左右に、それぞれ脚部ユニット３Ａ，
３Ｂ，３Ｃ，３Ｄが連結されるとともに、胴体部ユニッ
ト２の前端部と後端部に、それぞれ頭部ユニット４と尻
尾部ユニット５が連結されることにより構成されてい
る。

【００１２】尻尾部ユニット５は、胴体部ユニット２の
上面に設けられたベース部５Ｂから、２自由度をもって
湾曲または揺動自在に引き出されている。

【００１３】胴体部ユニット２には、ロボット全体の制
御を行うコントローラ１０、ロボットの動力源となるバ
ッテリ１１、並びにバッテリセンサ１２および熱センサ
１３からなる内部センサ部１４などが収納されている。

【００１４】頭部ユニット４には、「耳」に相当するマ
イク（マイクロフォン）１５、「目」に相当するＣＣＤ
(Charge Coupled Device)カメラ１６、触覚に相当する
タッチセンサ１７、「口」に相当するスピーカ１８など
が、それぞれ所定位置に配設されている。また、頭部ユ
ニット４には、口の下顎に相当する下顎部４Ａが１自由
度をもって可動に取り付けられており、この下顎部４Ａ
が動くことにより、ロボットの口の開閉動作が実現され
るようになっている。

【００１５】脚部ユニット３Ａ乃至３Ｄそれぞれの関節
部分や、脚部ユニット３Ａ乃至３Ｄそれぞれと胴体部ユ
ニット２の連結部分、頭部ユニット４と胴体部ユニット
２の連結部分、頭部ユニット４と下顎部４Ａの連結部
分、並びに尻尾部ユニット５と胴体部ユニット２の連結
部分などには、図２に示すように、それぞれアクチュエ
ータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ
₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、
５Ａ₁および５Ａ₂が配設されている。

【００１６】頭部ユニット４におけるマイク１５は、ユ
ーザからの発話を含む周囲の音声（音）を集音し、得ら
れた音声信号を、コントローラ１０に送出する。ＣＣＤ
カメラ１６は、周囲の状況を撮像し、得られた画像信号
を、コントローラ１０に送出する。

【００１７】タッチセンサ１７は、例えば、頭部ユニッ
ト４の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ１０に送出する。

【００１８】胴体部ユニット２におけるバッテリセンサ
１２は、バッテリ１１の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ１０に送
出する。熱センサ１３は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ１０に
送出する。

【００１９】コントローラ１０は、ＣＰＵ(Central Pro
cessing Unit)１０Ａやメモリ１０Ｂ等を内蔵してお
り、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。

【００２０】即ち、コントローラ１０は、マイク１５
や、ＣＣＤカメラ１６、タッチセンサ１７、バッテリセ
ンサ１２、熱センサ１３から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。

【００２１】さらに、コントローラ１０は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁
乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ
_K、４Ａ₁乃至４Ａ_L、５Ａ₁、５Ａ₂のうちの必要なもの
を駆動させる。これにより、頭部ユニット４を上下左右
に振らせたり、下顎部４Ａを開閉させる。さらには、尻
尾部ユニット５を動かせたり、各脚部ユニット３Ａ乃至
３Ｄを駆動して、ロボットを歩行させるなどの行動を行
わせる。

【００２２】また、コントローラ１０は、必要に応じ
て、合成音、あるいは後述するようなエコーバック音声
を生成し、スピーカ１８に供給して出力させたり、ロボ
ットの「目」の位置に設けられた図示しないＬＥＤ（Li
ght Emitting Diode）を点灯、消灯または点滅させる。

【００２３】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。

【００２４】次に、図３は、図２のコントローラ１０の
機能的構成例を示している。なお、図３に示す機能的構
成は、ＣＰＵ１０Ａが、メモリ１０Ｂに記憶された制御
プログラムを実行することで実現されるようになってい
る。

【００２５】コントローラ１０は、特定の外部状態を認
識するセンサ入力処理部５０、センサ入力処理部５０の
認識結果を累積して、感情や、本能、成長の状態を表現
するモデル記憶部５１、センサ入力処理部５０の認識結
果等に基づいて、続く行動を決定する行動決定機構部５
２、行動決定機構部５２の決定結果に基づいて、実際に
ロボットに行動を起こさせる姿勢遷移機構部５３、各ア
クチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動制御
する制御機構部５４、合成音を生成する音声合成部５
５、エコーバック音声を出力するエコーバック部５６、
並びに音声データの出力を制御する出力制御部５７から
構成されている。

【００２６】センサ入力処理部５０は、マイク１５や、
ＣＣＤカメラ１６、タッチセンサ１７等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部５１および行動決定機構部５２に通知
する。

【００２７】即ち、センサ入力処理部５０は、音声認識
部５０Ａを有しており、音声認識部５０Ａは、マイク１
５から与えられる音声信号について音声認識を行う。そ
して、音声認識部５０Ａは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令その他を、状態認識情報として、モデル記
憶部５１および行動決定機構部５２に通知する。

【００２８】また、センサ入力処理部５０は、画像認識
部５０Ｂを有しており、画像認識部５０Ｂは、ＣＣＤカ
メラ１６から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部５０Ｂは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部５１および行動
決定機構部５２に通知する。

【００２９】さらに、センサ入力処理部５０は、圧力処
理部５０Ｃを有しており、圧力処理部５０Ｃは、タッチ
センサ１７から与えられる圧力検出信号を処理する。そ
して、圧力処理部５０Ｃは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた（しかられた）」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た（ほめられた）」と認識して、その認識結果を、状態
認識情報として、モデル記憶部５１および行動決定機構
部５２に通知する。

【００３０】モデル記憶部５１は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。

【００３１】ここで、感情モデルは、例えば、「うれし
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態（度合い）を、所定の範囲の値によってそれぞれ表
し、センサ入力処理部５０からの状態認識情報や時間経
過等に基づいて、その値を変化させる。本能モデルは、
例えば、「食欲」、「睡眠欲」、「運動欲」等の本能に
よる欲求の状態（度合い）を、所定の範囲の値によって
それぞれ表し、センサ入力処理部５０からの状態認識情
報や時間経過等に基づいて、その値を変化させる。成長
モデルは、例えば、「幼年期」、「青年期」、「熟年
期」、「老年期」等の成長の状態（度合い）を、所定の
範囲の値によってそれぞれ表し、センサ入力処理部５０
からの状態認識情報や時間経過等に基づいて、その値を
変化させる。

【００３２】モデル記憶部５１は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部５２に送出する。

【００３３】なお、モデル記憶部５１には、センサ入力
処理部５０から状態認識情報が供給される他、行動決定
機構部５２から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、モデル
記憶部５１は、同一の状態認識情報が与えられても、行
動情報が示すロボットの行動に応じて、異なる状態情報
を生成するようになっている。

【００３４】即ち、例えば、ロボットが、ユーザに挨拶
をし、ユーザに頭を撫でられた場合には、ユーザに挨拶
をしたという行動情報と、頭を撫でられたという状態認
識情報とが、モデル記憶部５１に与えられ、この場合、
モデル記憶部５１では、「うれしさ」を表す感情モデル
の値が増加される。

【００３５】一方、ロボットが、何らかの仕事を実行中
に頭を撫でられた場合には、仕事を実行中であるという
行動情報と、頭を撫でられたという状態認識情報とが、
モデル記憶部５１に与えられ、この場合、モデル記憶部
５１では、「うれしさ」を表す感情モデルの値は変化さ
れない。

【００３６】このように、モデル記憶部５１は、状態認
識情報だけでなく、現在または過去のロボットの行動を
示す行動情報も参照しながら、感情モデルの値を設定す
る。これにより、例えば、何らかのタスクを実行中に、
ユーザが、いたずらするつもりで頭を撫でたときに、
「うれしさ」を表す感情モデルの値を増加させるよう
な、不自然な感情の変化が生じることを回避することが
できる。

【００３７】なお、モデル記憶部５１は、本能モデルお
よび成長モデルについても、感情モデルにおける場合と
同様に、状態認識情報および行動情報の両方に基づい
て、その値を増減させるようになっている。また、モデ
ル記憶部５１は、感情モデル、本能モデル、成長モデル
それぞれの値を、他のモデルの値にも基づいて増減させ
るようになっている。

【００３８】行動決定機構部５２は、センサ入力処理部
５０からの状態認識情報や、モデル記憶部５１からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部５３に送出する。

【００３９】即ち、行動決定機構部５２は、ロボットが
とり得る行動をステート（状態）(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部５
０からの状態認識情報や、モデル記憶部５１における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。

【００４０】ここで、行動決定機構部５２は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部５２は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部５１から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。

【００４１】なお、行動決定機構部５２は、上述したよ
うに、センサ入力処理部５０からの状態認識情報だけで
なく、モデル記憶部５１における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値（状態情報）によっては、ステートの遷移先は
異なるものとなる。

【００４２】その結果、行動決定機構部５２は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部５３に送出す
る。

【００４３】また、行動決定機構部５２は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部５３に送出する。

【００４４】また、行動決定機構部５２は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部５３に送出する。

【００４５】なお、行動決定機構部５２には、モデル記
憶部５１から供給される状態情報が示す感情や、本能、
成長の状態に基づいて、遷移先のステートに対応する行
動のパラメータとしての、例えば、歩行の速度や、手足
を動かす際の動きの大きさおよび速度などを決定させる
ことができ、この場合、それらのパラメータを含む行動
指令情報が、姿勢遷移機構部５３に送出される。

【００４６】また、行動決定機構部５２では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部５５に供給されるようになっており、音声合
成部５５に供給される行動指令情報には、音声合成部５
５に生成させる合成音に対応するテキスト等が含まれ
る。そして、音声合成部５５は、行動決定部５２から行
動指令情報を受信すると、その行動指令情報に含まれる
テキストに基づき、合成音を生成し、出力制御部５７を
介して、スピーカ１８に供給して出力させる。これによ
り、スピーカ１８からは、例えば、ロボットの鳴き声、
さらには、「お腹がすいた」等のユーザへの各種の要
求、「何？」等のユーザの呼びかけに対する応答その他
の音声出力が行われる。

【００４７】姿勢遷移機構部５３は、行動決定機構部５
２から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部５４に送出す
る。

【００４８】ここで、現在の姿勢から次に遷移可能な姿
勢は、例えば、胴体や手や足の形状、重さ、各部の結合
状態のようなロボットの物理的形状と、関節が曲がる方
向や角度のようなアクチュエータ３ＡＡ₁乃至５Ａ₁およ
び５Ａ₂の機構とによって決定される。

【００４９】また、次の姿勢としては、現在の姿勢から
直接遷移可能な姿勢と、直接には遷移できない姿勢とが
ある。例えば、４本足のロボットは、手足を大きく投げ
出して寝転んでいる状態から、伏せた状態へ直接遷移す
ることはできるが、立った状態へ直接遷移することはで
きず、一旦、手足を胴体近くに引き寄せて伏せた姿勢に
なり、それから立ち上がるという２段階の動作が必要で
ある。また、安全に実行できない姿勢も存在する。例え
ば、４本足のロボットは、その４本足で立っている姿勢
から、両前足を挙げてバンザイをしようとすると、簡単
に転倒してしまう。

【００５０】このため、姿勢遷移機構部５３は、直接遷
移可能な姿勢をあらかじめ登録しておき、行動決定機構
部５２から供給される行動指令情報が、直接遷移可能な
姿勢を示す場合には、その行動指令情報を、そのまま姿
勢遷移情報として、制御機構部５４に送出する。一方、
行動指令情報が、直接遷移不可能な姿勢を示す場合に
は、姿勢遷移機構部５３は、遷移可能な他の姿勢に一旦
遷移した後に、目的の姿勢まで遷移させるような姿勢遷
移情報を生成し、制御機構部５４に送出する。これによ
りロボットが、遷移不可能な姿勢を無理に実行しようと
する事態や、転倒するような事態を回避することができ
るようになっている。

【００５１】制御機構部５４は、姿勢遷移機構部５３か
らの姿勢遷移情報にしたがって、アクチュエータ３ＡＡ
₁乃至５Ａ₁および５Ａ₂を駆動するための制御信号を生
成し、これを、アクチュエータ３ＡＡ₁乃至５Ａ₁および
５Ａ₂に送出する。これにより、アクチュエータ３ＡＡ₁
乃至５Ａ₁および５Ａ₂は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。

【００５２】エコーバック部５６は、マイク１５から与
えられ、音声認識部５０Ａで音声認識される音声信号を
監視しており、その音声信号を復唱するような音声（以
下、適宜、エコーバック音声という）を生成して出力す
る。このエコーバック音声は、出力制御部５７を介し
て、スピーカ１８に供給されて出力される。

【００５３】出力制御部５７には、音声合成部５５から
の合成音のディジタルデータと、エコーバック部５６か
らのエコーバック音声のディジタルデータとが供給され
るようになっており、それらのディジタルデータを、ア
ナログの音声信号にＤ／Ａ変換し、スピーカ１８に供給
して出力させる。また、出力制御部５７は、音声合成部
５５からの合成音と、エコーバック部５６からのエコー
バック音声の、スピーカ１８への出力が競合した場合
に、その競合を調整する。即ち、エコーバック部５６か
らのエコーバック音声の出力は、行動決定機構部５２の
制御にしたがって音声合成部５５が行う合成音の出力と
は独立に行われるようになっており、このため、エコー
バック音声の出力と合成音の出力とは競合する場合があ
る。そこで、出力制御部５７は、その競合の調停を行
う。

【００５４】次に、図４は、図３の音声認識部５０Ａの
構成例を示している。

【００５５】マイク１５からの音声信号は、ＡＤ(Analo
g Digital)変換部２１に供給される。ＡＤ変換部２１で
は、マイク１５からのアナログ信号である音声信号がサ
ンプリング、量子化され、ディジタル信号である音声デ
ータにＡ／Ｄ変換される。この音声データは、特徴抽出
部２２および音声区間検出部２７に供給される。

【００５６】特徴抽出部２２は、そこに入力される音声
データについて、適当なフレームごとに、例えば、ＭＦ
ＣＣ(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析の結果得られるＭＦＣＣを、特徴パラメー
タ（特徴ベクトル）として、マッチング部２３に出力す
る。なお、特徴抽出部２２では、その他、例えば、線形
予測係数、ケプストラム係数、線スペクトル対、所定の
周波数帯域ごとのパワー（フィルタバンクの出力）等
を、特徴パラメータとして抽出することが可能である。

【００５７】マッチング部２３は、特徴抽出部２２から
の特徴パラメータを用いて、音響モデル記憶部２４、辞
書記憶部２５、および文法記憶部２６を必要に応じて参
照しながら、マイク１５に入力された音声（入力音声）
を、例えば、連続分布ＨＭＭ(Hidden Markov Model)法
に基づいて音声認識する。

【００５８】即ち、音響モデル記憶部２４は、音声認識
する音声の言語における個々の音素や音節などの音響的
な特徴を表す音響モデルを記憶している。ここでは、連
続分布ＨＭＭ法に基づいて音声認識を行うので、音響モ
デルとしては、ＨＭＭ(Hidden Markov Model)が用いら
れる。辞書記憶部２５は、認識対象の各単語について、
その発音に関する情報（音韻情報）が記述された単語辞
書を記憶している。文法記憶部２６は、辞書記憶部２５
の単語辞書に登録されている各単語が、どのように連鎖
する（つながる）かを記述した文法規則を記憶してい
る。ここで、文法規則としては、例えば、文脈自由文法
（ＣＦＧ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）
などに基づく規則を用いることができる。

【００５９】マッチング部２３は、辞書記憶部２５の単
語辞書を参照することにより、音響モデル記憶部２４に
記憶されている音響モデルを接続することで、単語の音
響モデル（単語モデル）を構成する。さらに、マッチン
グ部２３は、幾つかの単語モデルを、文法記憶部２６に
記憶された文法規則を参照することにより接続し、その
ようにして接続された単語モデルを用いて、特徴パラメ
ータに基づき、連続分布ＨＭＭ法によって、マイク１５
に入力された音声を認識する。即ち、マッチング部２３
は、特徴抽出部２２が出力する時系列の特徴パラメータ
が観測されるスコア（尤度）が最も高い単語モデルの系
列を検出し、その単語モデルの系列に対応する単語列の
音韻情報（読み）を、音声の認識結果として出力する。

【００６０】より具体的には、マッチング部２３は、接
続された単語モデルに対応する単語列について、各特徴
パラメータの出現確率を累積し、その累積値をスコアと
して、そのスコアを最も高くする単語列の音韻情報を、
音声認識結果として出力する。

【００６１】以上のようにして出力される、マイク１５
に入力された音声の認識結果は、状態認識情報として、
モデル記憶部５１および行動決定機構部５２に出力され
る。

【００６２】なお、音声区間検出部２７は、ＡＤ変換部
２１からの音声データについて、特徴抽出部２２がＭＦ
ＣＣ分析を行うのと同様のフレームごとに、例えば、パ
ワーを算出している。さらに、音声区間検出部２７は、
各フレームのパワーを、所定の閾値と比較し、その閾値
以上のパワーを有するフレームで構成される区間を、ユ
ーザの音声が入力されている音声区間として検出する。
そして、音声区間検出部２７は、検出した音声区間を、
特徴抽出部２２とマッチング部２３に供給しており、特
徴抽出部２２とマッチング部２３は、音声区間のみを対
象に処理を行う。

【００６３】次に、図５は、図３の音声合成部５５の構
成例を示している。

【００６４】テキスト生成部３１には、行動決定機構部
５２が出力する、音声合成の対象とするテキストを含む
行動指令情報が供給されるようになっており、テキスト
生成部３１は、辞書記憶部３４や生成用文法記憶部３５
を参照しながら、その行動指令情報に含まれるテキスト
を解析する。

【００６５】即ち、辞書記憶部３４には、各単語の品詞
情報や、読み、アクセント等の情報が記述された単語辞
書が記憶されており、また、生成用文法記憶部３５に
は、辞書記憶部３４の単語辞書に記述された単語につい
て、単語連鎖に関する制約等の生成用文法規則が記憶さ
れている。そして、テキスト生成部３１は、この単語辞
書および生成用文法規則に基づいて、そこに入力される
テキストの形態素解析や構文解析等の解析を行い、後段
の規則合成部３２で行われる規則音声合成に必要な情報
を抽出する。ここで、規則音声合成に必要な情報として
は、例えば、ポーズの位置や、アクセントおよびイント
ネーションを制御するための情報その他の韻律情報や、
各単語の発音等の音韻情報などがある。

【００６６】テキスト生成部３１で得られた情報は、規
則合成部３２に供給され、規則合成部３２では、音素片
記憶部３６を参照しながら、テキスト生成部３１に入力
されたテキストに対応する合成音の音声データ（ディジ
タルデータ）が生成される。

【００６７】即ち、音素片記憶部３６には、例えば、Ｃ
Ｖ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ等の形で音素
片データが記憶されており、規則合成部３２は、テキス
ト生成部３１からの情報に基づいて、必要な音素片デー
タを接続し、さらに、音素片データの波形を加工するこ
とによって、ポーズ、アクセント、イントネーション等
を適切に付加し、これにより、テキスト生成部３１に入
力されたテキストに対応する合成音の音声データを生成
する。

【００６８】以上のようにして生成された音声データ
は、出力制御部５７（図３）を介して、スピーカ１８に
供給され、これにより、スピーカ１８からは、テキスト
生成部３１に入力されたテキストに対応する合成音が出
力される。

【００６９】なお、図３の行動決定機構部５２では、上
述したように、行動モデルに基づいて、次の行動が決定
されるが、合成音として出力するテキストの内容は、ロ
ボットの行動と対応付けておくことが可能である。

【００７０】即ち、例えば、ロボットが、座った状態か
ら、立った状態になる行動には、テキスト「よっこいし
ょ」などを対応付けておくことが可能である。この場
合、ロボットが、座っている姿勢から、立つ姿勢に移行
するときに、その姿勢の移行に同期して、合成音「よっ
こいしょ」を出力することが可能となる。

【００７１】次に、図６のフローチャートを参照して、
図３の出力制御部５７の処理（出力制御処理）について
説明する。

【００７２】出力制御部５７は、音声合成部５５からの
合成音を受信すると、エコーバック部５６からエコーバ
ック音声を受信していない限り、音声合成部５５からの
合成音を、スピーカ１８に供給して出力させる。

【００７３】そして、出力制御部５７は、エコーバック
部５６からエコーバック音声を受信した場合、図６のフ
ローチャートにしたがった出力制御処理を行う。

【００７４】即ち、出力制御部５７は、エコーバック部
５６からエコーバック音声を受信した場合、まず最初
に、ステップＳ１において、音声合成部５５から合成音
が出力されているかどうかを判定し、出力されていない
と判定された場合、ステップＳ２に進み、エコーバック
部５６から受信したエコーバック音声を、スピーカ１８
に供給して出力させ、処理を終了する。

【００７５】一方、ステップＳ１において、音声合成部
５５から合成音が出力されていると判定された場合、即
ち、音声合成部５５からの合成音の出力と、エコーバッ
ク部５６からのエコーバック音声の出力とが競合した場
合、ステップＳ３に進み、出力制御部５７は、エコーバ
ック音声の出力を制限し、音声合成部５５からの合成音
を、スピーカ１８に供給して、出力させ、処理を終了す
る。

【００７６】なお、出力制御部５７はエコーバック音声
の出力中に、音声合成部５５から合成音と受信した場
合、エコーバック音声の出力を中止し、音声合成部５５
からの合成音の出力を優先させる。

【００７７】以上のように、出力制御部５７は、音声合
成部５５からの合成音の出力と、エコーバック部５６か
らのエコーバック音声の出力とが競合した場合、音声合
成部５５からの合成音の出力を優先させる。これは、音
声合成部５５からの合成音の出力が、行動決定機構部５
２からの行動指令情報に基づくものであり、ロボットの
行動であるのに対して、エコーバック音声の出力は、ユ
ーザの発話を復唱するものであることから、音声合成部
５５からの合成音の方が、エコーバック音声に比較し
て、ユーザに対する重要度が高いと考えられるためであ
る。

【００７８】但し、出力制御部５７では、例えば、エコ
ーバック音声の出力を、音声合成部５５からの合成音の
出力より優先させることも可能であるし、また、例え
ば、エコーバック音声と、音声合成部５５からの合成音
のうち、先に受信した方の出力を優先させるようにする
こと等も可能である。

【００７９】次に、図７は、図３のエコーバック部５６
の構成例を示している。

【００８０】マイク１５からの音声信号は、ＡＤ変換部
４１に供給される。ＡＤ変換部４１では、マイク１５か
らのアナログ信号である音声信号がサンプリング、量子
化され、ディジタル信号である音声データにＡ／Ｄ変換
される。この音声データは、韻律分析部４２および音声
区間検出部４６に供給される。

【００８１】韻律分析部４２は、そこに入力される音声
データを、適当なフレームごとに音響分析することによ
り、例えば、ピッチ周波数やパワー等といった音声デー
タの韻律情報を抽出する。この韻律情報は、音生成部４
３に供給される。

【００８２】即ち、韻律分析部４２は、例えば、人間の
一般的なピッチ周期よりも長い３２ｍｓ等を１フレーム
として、ＡＤ変換部４１からの音声データのピッチ周波
数とパワーを、フレーム単位で求める。

【００８３】具体的には、韻律分析部４２は、第ｊフレ
ームのパワーＰ（ｊ）を、次式にしたがって求める。

【００８４】Ｐ（ｊ）＝Σｘ_i ² ・・・（１）但し、式（１）において、ｘ_iは、第ｊフレームの先頭
からｉ番目の音声データのサンプル値を表し、Σは、第
ｊフレームの音声データのサンプルすべてについてのサ
メーションを表す。

【００８５】また、韻律分析部４２は、第ｊフレームの
音声データのサンプルについて、自己相関値を演算し、
その自己相関値を最大にする、０でないずれ量（時間）
τを求めて、次式により、第ｊフレームのピッチ周波数
ｆ（ｊ）を演算する。

【００８６】ｆ（ｊ）＝１／τ ・・・（２）

【００８７】音生成部４３は、韻律分析部４２からの韻
律情報に基づいて、韻律を制御したエコーバック音声を
生成する。

【００８８】即ち、音生成部４３は、例えば、韻律分析
部４２からの韻律情報と同一の韻律を有する、音韻のな
い音声（以下、適宜、無音韻音声という）を、サイン(s
in)波を重畳することにより生成し、エコーバック音声
として、出力部４４に供給する。

【００８９】なお、韻律情報としての、例えば、ピッチ
周波数とパワーから音声データを生成する方法について
は、例えば、鈴木、石井、竹内、「非分節音による反響
的な模倣とその心理的影響」、情報処理学会論文誌、vo
l.41,No.5,pp1328-1337,May,2000や、特開2000-181896
号公報等に、その一例が記載されている。

【００９０】出力部４４は、音生成部４３からのエコー
バック音声のデータを、メモリ４５に記憶させるととも
に、出力制御部５７（図３）に出力する。

【００９１】音声区間検出部４６は、ＡＤ変換部４１か
らの音声データについて、図４の音声区間検出部２７に
おける場合と同様の処理を行うことにより、音声区間を
検出し、韻律分析部４２と音生成部４３に供給する。こ
れにより、韻律分析部４２と音生成部４３では、音声区
間のみを対象に処理が行われる。

【００９２】なお、図７のＡＤ変換部４１または音声区
間検出部４６と、図４のＡＤ変換部２１または音声区間
検出部２７とは、それぞれ兼用することが可能である。

【００９３】以上のように構成されるエコーバック部５
６では、例えば、図８のフローチャートにしたがったエ
コーバック処理が行われる。

【００９４】即ち、まず最初に、ステップＳ１１におい
て、音声区間検出部４６が、ＡＤ変換部４１の出力に基
づいて、音声区間であるかどうかを判定し、音声区間で
ないと判定した場合、処理を終了し、再度、ステップＳ
１１からのエコーバック処理を再開する。

【００９５】また、ステップＳ１１において、音声区間
であると判定された場合、即ち、マイク１５に、ユーザ
の音声が入力された場合、ステップＳ１２に進み、韻律
分析部４２は、ＡＤ変換部４１の出力、即ち、マイク１
５に入力されたユーザの音声を音響分析することによ
り、その韻律情報を取得し、音生成部４３に供給する。

【００９６】音生成部４３は、ステップＳ１３におい
て、韻律分析部４２からの韻律情報と同一の韻律を有す
る無音韻音声を生成し、エコーバック音声として、出力
部４４に供給する。

【００９７】出力部４４は、ステップＳ１４において、
音生成部４３からのエコーバック音声のデータを、メモ
リ４５に記憶させ、ステップＳ１５に進み、そのエコー
バック音声を、出力制御部５７（図３）に出力して、処
理を終了する。

【００９８】これにより、エコーバック音声は、出力制
御部５７を介して、スピーカ１８に供給されて出力され
る。

【００９９】従って、この場合、スピーカ１８からは、
ユーザが発した音声から、その音韻を無くしたものが、
エコーバック音声として出力される。

【０１００】このエコーバック音声は、音声認識部５０
Ａにおいて音声認識の対象とされるユーザの音声を復唱
するようなものであり、このようなエコーバック音声が
出力される結果、ユーザは、エコーバック音声を聴くこ
とにより、ロボットにおいて、自身の音声が受け付けら
れたことを認識することができる。従って、ロボット
が、ユーザからの音声に対する応答として、何の行動も
起こさない場合（音声認識部５０Ａにおいて、ユーザの
音声が正しく認識されている場合と、誤って認識されて
いる場合の両方を含む）であっても、ユーザにおいて、
ロボットが故障しているといったような勘違いをするこ
と等を防止することができる。

【０１０１】さらに、エコーバック音声は、ユーザが発
した音声そのものではなく、その音声の音韻をなくした
ものであるため、ユーザには、ロボットが、ユーザの音
声を理解し、自身の声で復唱しているかのように聞こえ
る。また、エコーバック音声は、ユーザが発した音声と
同一の韻律を有することから、その韻律から得られる感
情を表現するようなものとなっており、その結果、ユー
ザには、ロボットが、ユーザの感情を理解しているかの
ように聞こえる。従って、ロボットにおいて、ユーザの
音声を、単に録音して再生しているのではなく、理解し
ているかのような印象を、ユーザに与えることができ
る。

【０１０２】なお、ここでは、音生成部４３において、
サイン波を重畳することによって、エコーバック音声を
生成するようにしたが、その他、例えば、エコーバック
音声は、ロボットの鳴き声となるような複雑な波形を用
意しておき、その波形をつなぎ合わせることによって生
成することが可能である。さらに、エコーバック音声と
しては、例えば、ユーザの音声を構成する音素を認識
し、その音素列によって構成される音韻を有するような
ものを生成することが可能である。また、エコーバック
音声は、例えば、ユーザの音声について、ケプストラム
係数を得て、そのケプストラム係数をタップ係数とする
ディジタルフィルタによって生成すること等も可能であ
る。

【０１０３】但し、エコーバック音声が、ユーザの音声
に似過ぎると、ロボットにおいて、ユーザの音声を、単
に録音して再生しているかのような、いわば興ざめした
印象を、ユーザに与えかねないので、エコーバック音声
は、ユーザの音声に、あまり似たものにしない方が望ま
しい。

【０１０４】また、上述の場合には、音生成部４３にお
いて、ユーザの音声の韻律と同一の韻律を有するエコー
バック音声を生成するようにしたが、音生成部４３に
は、ユーザの音声の韻律に加工を加えた韻律を有するエ
コーバック音声を生成させることも可能である。

【０１０５】即ち、例えば、上述したようにして、韻律
分析部４２において、第ｊフレームのパワーＰ（ｊ）と
ピッチ周波数ｆ（ｊ）が求められる場合には、音生成部
４３では、そのパワーＰ（ｊ）とピッチ周波数ｆ（ｊ）
を用い、例えば、次式にしたがって、エコーバック音声
ｙ（ｔ）を生成することができる。

【０１０６】ｙ（ｔ）＝ｌｏｇ（Ｐ（ｊ））ｓｉｎ（２πＮｆ（ｊ）ｔ）・・・（３）但し、式（３）において、Ｎは、正の整数である。

【０１０７】式（３）によれば、第ｊフレームの音声に
対して、そのパワーＰ（ｊ）を対数によって非線形に
し、かつ、ピッチ周波数ｆ（ｊ）をＮ倍にしたエコーバ
ック音声ｙ（ｔ）が生成される。

【０１０８】なお、経験的には、Ｎを、例えば６等とし
た場合に、鳴き声らしく、かつ聞きやすいエコーバック
音声が得られる。

【０１０９】また、上述の場合においては、ユーザの音
声の音声区間と同一の時間長のエコーバック音声が出力
されることとなるが、エコーバック音声は、ユーザの音
声の音声区間と同一の時間長ではなく、異なる時間長と
することが可能である。

【０１１０】即ち、例えば、式（３）にしたがって、エ
コーバック音声を生成する場合においては、パワーＰ
（ｊ）やピッチ周波数ｆ（ｊ）を補間または間引きする
こと等によって、ユーザの音声の音声区間よりも長いま
たは短い時間長のエコーバック音声を生成するようにす
ることが可能である。

【０１１１】なお、経験的には、エコーバック音声は、
ユーザの音声の音声区間の、例えば、３／２倍等の、長
めの時間長にする方が、ユーザに自然な感じを与えるも
のとなる。

【０１１２】ところで、図７のエコーバック部５６にお
いては、メモリ４５に、エコーバック音声が記憶される
ようになっており、出力部４４は、このメモリ４５に記
憶されたエコーバック音声を、必要に応じて読み出して
出力する再エコーバック処理を行う。

【０１１３】即ち、再エコーバック処理では、図９のフ
ローチャートに示すように、出力部４４は、ステップＳ
２１において、所定のイベントが生じたかどうかを判定
し、生じていないと判定した場合、ステップＳ２１に戻
る。

【０１１４】また、ステップＳ２１において、所定のイ
ベントが生じたと判定された場合、ステップＳ２２に進
み、出力部４４は、メモリ４５に記憶された所定のエコ
ーバック音声のデータを読み出し、出力制御部５７を介
して、スピーカ１８に供給して、ステップＳ２１に戻
る。

【０１１５】従って、再エコーバック処理によれば、所
定のイベントが生じた場合に、メモリ４５に記憶された
所定のエコーバック音声が、スピーカ１８から出力され
る。

【０１１６】ここで、所定のイベントとしては、例え
ば、ある値を設定しておき、乱数を発生させて、その乱
数が、設定した値に一致した場合や、外部からの入力が
ない状態が、所定の時間連続した場合等を採用すること
ができる。この場合、ユーザからすれば、ロボットに対
して、何の刺激も与えていないのに、ロボットが、突然
喋りだしたように見えるので、ロボットのエンタテイメ
ント性を向上させることができる。

【０１１７】また、メモリ４５には、エコーバック音声
のデータを、行動決定機構部５２が出力する所定の行動
指令情報と対応付けて記憶させておき、行動決定機構部
５２が行動指令情報を出力した場合に、その行動指令情
報に対応付けられているエコーバック音声を、メモリ４
５から読み出すようにすることも可能である。この場
合、行動決定機構部５２が出力する行動指令情報に対応
する行動に同期して、その行動指令情報に対応付けられ
ているエコーバック音声が出力されることになる。

【０１１８】次に、図１０は、コントローラ１０の他の
構成例を示している。なお、図中、図３における場合と
対応する部分については、同一の符号を付してあり、以
下では、その説明は、適宜省略する。即ち、図１０のコ
ントローラ１０は、エコーバック部５６において、モデ
ル記憶部５１に記憶されたモデルが参照可能になってい
る他は、図３における場合と同様に構成されている。

【０１１９】コントローラ１０が図１０に示したように
構成される場合には、エコーバック部５６の音生成部４
３において、図７に点線で示すように、モデル記憶部５
１に記憶された感情モデルや、本能モデル、成長モデル
が参照される。

【０１２０】そして、音生成部４３は、感情モデルや、
本能モデル、成長モデルによって表されるロボットの感
情や、本能、成長の状態に基づいて、ユーザの音声から
抽出した韻律を制御したエコーバック音声を生成する。

【０１２１】即ち、音生成部４３は、例えば、ロボット
の喜びの度合い、または悲しみの度合いが大きい場合に
は、その度合いに応じて、ピッチ周波数が高い、または
低いエコーバック音声をそれぞれ生成する。また、音生
成部４３は、例えば、ロボットの怒りの度合いが大きい
場合には、その度合いに応じて、発話時間の短いエコー
バック音声を生成する。その他、音生成部４３には、例
えば、成長の度合いが高い場合には、語尾のピッチ周波
数を高くして、質問を行うようなエコーバック音声を生
成させること等が可能であり、この場合、ユーザに、次
の発話を促すことができる。

【０１２２】ここで、図９における場合には、再エコー
バック処理において、乱数や外部からの入力等を、所定
のイベントとして、メモリ４５に記憶された所定のエコ
ーバック音声を再生するようにしたが、図１０の実施の
形態のように、エコーバック部５６の音生成部４３にお
いて、モデル記憶部５１に記憶された感情モデルや、本
能モデル、成長モデルを参照する場合には、音生成部４
３で生成されたエコーバック音声を、そのエコーバック
音声が生成されたときの感情モデル等の値と対応付け
て、メモリ４５に記憶しておき、モデル記憶部５１に記
憶された感情モデル等の値が、メモリ４５に記憶された
ものと一致したことを、所定のイベントとして、その一
致した感情モデル等の値と対応付けられているエコーバ
ック音声を、メモリ４５から再生して出力するようにす
ることが可能である。

【０１２３】この場合、再エコーバック処理によれば、
メモリ４５に記憶されたエコーバック音声は、感情モデ
ル等の値が、そのエコーバック音声が過去に再生された
ときのものと同一になったときに再生されることとなる
から、ロボットは、ある感情等の状態になると、同一の
エコーバック音声を出力することとなる。そして、その
結果、ユーザは、そのようなエコーバック音声を聴くこ
とによって、ロボットの感情等の状態を把握することが
可能となるので、ユーザとロボットとの間で、いわば、
感情等を共有することが可能となる。

【０１２４】なお、行動決定機構部５２と出力制御部５
７とは、それらの間で通信を行うように構成することが
でき、この場合、行動決定機構部５２には、出力制御部
５７からスピーカ１８に音声データが出力されるとき
に、下顎部４Ａ（図１）を動かすアクチュエータを駆動
する行動指令情報を生成させるようにすることができ
る。この場合、スピーカ１８からの音声出力に同期し
て、下顎部４Ａが動くので、ユーザに、ロボットが実際
に喋っているかのような印象を与えることができる。

【０１２５】さらに、行動決定機構部５２では、下顎部
４Ａの動きを、出力制御部５７からスピーカ１８に出力
される音声データの、例えば、パワー等の韻律情報に基
づいて制御することが可能である。即ち、例えば、音声
データのパワーが大の場合には、下顎部４Ａの動きを大
きくし、これにより、ロボットの口の開き具合を大きく
する一方、音声データのパワーが小の場合には、下顎部
４Ａの動きを小さくし、これにより、ロボットの口の開
き具合を小さくすることが可能である。この場合、スピ
ーカ１８から出力される音の大きさに対応して、ロボッ
トの口の開き具合が変化するので、ロボットの喋り方
に、よりリアリティをもたせることができる。

【０１２６】以上、本発明を、エンターテイメント用の
ロボット（疑似ペットとしてのロボット）に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、産業用のロボット等の各種のロボットに広く適用す
ることが可能である。また、本発明は、現実世界のロボ
ットだけでなく、例えば、液晶ディスプレイ等の表示装
置に表示される仮想的なロボットにも適用可能である。

【０１２７】さらに、本実施の形態においては、上述し
た一連の処理を、ＣＰＵ１０Ａにプログラムを実行させ
ることにより行うようにしたが、一連の処理は、それ専
用のハードウェアによって行うことも可能である。

【０１２８】なお、プログラムは、あらかじめメモリ１
０Ｂ（図２）に記憶させておく他、フロッピー（登録商
標）ディスク、CD-ROM(Compact Disc Read Only Memor
y)，MO(Magneto optical)ディスク，DVD(Digital Versa
tile Disc)、磁気ディスク、半導体メモリなどのリムー
バブル記録媒体に、一時的あるいは永続的に格納（記
録）しておくことができる。そして、このようなリムー
バブル記録媒体を、いわゆるパッケージソフトウエアと
して提供し、ロボット（メモリ１０Ｂ）にインストール
するようにすることができる。

【０１２９】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ１０Ｂにインストールすることができる。

【０１３０】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ１０Ｂに、容易にインストールすることが
できる。

【０１３１】ここで、本明細書において、ＣＰＵ１０Ａ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０１３２】また、プログラムは、１のＣＰＵにより処
理されるものであっても良いし、複数のＣＰＵによって
分散処理されるものであっても良い。

【０１３３】

【発明の効果】本発明のロボット制御装置およびロボッ
ト制御方法、並びにプログラムによれば、音声認識され
るユーザの音声の韻律情報が分析され、その韻律情報に
基づいて、韻律を制御した音声データである韻律制御音
声データが生成されて出力される。従って、ユーザは、
韻律制御音声データを聴くことにより、ロボットにおい
て、自身の音声が受け付けられたことを認識することが
できる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。

【図２】ロボットの内部構成例を示すブロック図であ
る。

【図３】コントローラ１０の機能的構成例を示すブロッ
ク図である。

【図４】音声認識部５０Ａの構成例を示すブロック図で
ある。

【図５】音声合成部５５の構成例を示すブロック図であ
る。

【図６】出力制御部５７の処理を説明するフローチャー
トである。

【図７】エコーバック部５６の構成例を示すブロック図
である。

【図８】エコーバック部５６によるエコーバック処理を
説明するフローチャートである。

【図９】エコーバック部５６による再エコーバック処理
を説明するフローチャートである。

【図１０】コントローラ１０の他の機能的構成例を示す
ブロック図である。

【符号の説明】

１頭部ユニット，４Ａ下顎部，１０コントロ
ーラ，１０ＡＣＰＵ，１０Ｂメモリ，１５
マイク，１６ＣＣＤカメラ，１７タッチセン
サ，１８スピーカ，２１ＡＤ変換部，２２
特徴抽出部，２３マッチング部，２４音響モデ
ル記憶部，２５辞書記憶部，２６文法記憶部，
２７音声区間検出部，３１テキスト生成部，３
２規則合成部，３４辞書記憶部，３５生成用
文法記憶部，３６音素片記憶部，４１ＡＤ変換
部，４２韻律分析部，４３音生成部，４４
出力部，４５メモリ，４６音声区間検出部，
５０センサ入力処理部，５０Ａ音声認識部，５０
Ｂ画像認識部，５０Ｃ圧力処理部，５１モデル
記憶部，５２行動決定機構部，５３姿勢遷移機
構部，５４制御機構部，５５音声合成部，５６
エコーバック部，５７出力制御部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/10 Ｇ１０Ｌ 3/00 Ｑ 15/00 ５３１Ｎ５５１Ｈ (72)発明者小野木渡東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者豊田崇東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 2C150 BA06 BA11 CA01 CA02 CA04 DA05 DA24 DA25 DA26 DA27 DA28 DF03 DF04 DF06 DF33 ED42 ED52 EF07 EF16 EF23 EF29 EF33 EF36 3F059 AA00 BB06 DD18 FB11 FC15 3F060 AA00 BA00 CA14 5D015 CC13 KK01 5D045 AB11

Claims

【特許請求の範囲】

【請求項１】少なくとも音声認識結果に基づいて行動
するロボットを制御するロボット制御装置であって、音声認識されるユーザの音声の韻律情報を分析する分析
手段と、前記韻律情報に基づいて、韻律を制御した音声データで
ある韻律制御音声データを生成する生成手段と、前記韻律制御音声データの出力を制御する出力制御手段
とを備えることを特徴とするロボット制御装置。
【請求項２】前記生成手段は、音韻のない前記韻律制
御音声データを生成することを特徴とする請求項１に記
載のロボット制御装置。
【請求項３】前記ロボットの感情、本能、または成長
の状態を表すモデルを記憶するモデル記憶手段をさらに
備え、前記生成手段は、前記モデル記憶手段に記憶されたモデ
ルが表す前記ロボットの感情、本能、または成長の状態
にも基づいて、前記韻律制御音声データを生成すること
を特徴とする請求項１に記載のロボット制御装置。
【請求項４】前記韻律制御音声データを記憶するデー
タ記憶手段をさらに備え、前記出力制御手段は、所定のイベントが生じたときに、
前記データ記憶手段に記憶された韻律制御音声データを
出力することを特徴とする請求項１に記載のロボット制
御装置。
【請求項５】前記ロボットの行動を制御する行動制御
手段をさらに備え、前記出力制御手段は、前記行動制御手段による制御によ
って、音声の出力が行われる場合に、前記韻律制御音声
データの出力を制限することを特徴とする請求項１に記
載のロボット制御装置。
【請求項６】前記韻律制御音声データの出力に同期し
て、前記ロボットに、その口部を動かす行動をとらせる
行動制御手段をさらに備えることを特徴とする請求項１
に記載のロボット制御装置。
【請求項７】前記行動制御手段は、前記韻律制御音声
データに基づいて、前記ロボットの口部の動き具合を制
御することを特徴とする請求項６に記載のロボット制御
装置。
【請求項８】少なくとも音声認識結果に基づいて行動
するロボットを制御するロボット制御方法であって、音声認識されるユーザの音声の韻律情報を分析する分析
ステップと、前記韻律情報に基づいて、韻律を制御した音声データで
ある韻律制御音声データを生成する生成ステップと、前記韻律制御音声データの出力を制御する出力制御ステ
ップとを備えることを特徴とするロボット制御方法。
【請求項９】少なくとも音声認識結果に基づいて行動
するロボットを制御するロボット制御処理を、コンピュ
ータに行わせるプログラムが記録されている記録媒体で
あって、音声認識されるユーザの音声の韻律情報を分析する分析
ステップと、前記韻律情報に基づいて、韻律を制御した音声データで
ある韻律制御音声データを生成する生成ステップと、前記韻律制御音声データの出力を制御する出力制御ステ
ップとを備えるプログラムが記録されていることを特徴
とする記録媒体。
【請求項１０】少なくとも音声認識結果に基づいて行
動するロボットを制御するロボット制御処理を、コンピ
ュータに行わせるプログラムであって、音声認識されるユーザの音声の韻律情報を分析する分析
ステップと、前記韻律情報に基づいて、韻律を制御した音声データで
ある韻律制御音声データを生成する生成ステップと、前記韻律制御音声データの出力を制御する出力制御ステ
ップとを備えることを特徴とするプログラム。