JP4296714B2

JP4296714B2 - ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム

Info

Publication number: JP4296714B2
Application number: JP2001016872A
Authority: JP
Inventors: 和夫石井; 順広井; 渡小野木; 崇豊田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-10-11
Filing date: 2001-01-25
Publication date: 2009-07-15
Anticipated expiration: 2021-01-25
Also published as: TW586056B; US7203642B2; KR100814569B1; DE60142842D1; EP1326230A1; US20030055653A1; EP1326230A4; KR20020067697A; JP2002189488A; CN1187734C; WO2002031810A1; EP1326230B1; CN1393010A

Description

【０００１】
【発明の属する技術分野】
本発明は、ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラムに関し、特に、例えば、音声認識装置による音声認識結果に基づいて行動するロボットに用いて好適なロボット制御装置およびロボット制御方法、記録媒体、並びにプログラムに関する。
【０００２】
【従来の技術】
近年においては、例えば、玩具等として、ユーザが発した音声を音声認識し、その音声認識結果に基づいて、ある仕草をしたり、合成音を出力する等の行動を行うロボット（本明細書においては、ぬいぐるみ状のものを含む）が製品化されている。
【０００３】
【発明が解決しようとする課題】
しかしながら、ロボットにおいては、音声認識結果が得られても、何の行動も起こさない場合があり、この場合、ユーザは、ロボットにおいて音声が認識されているのかどうか、あるいはロボットが故障しているのかどうか不安になる。
【０００４】
本発明は、このような状況に鑑みてなされたものであり、ロボットにおいて、ユーザの音声が認識されていることを分かるようにすることで、ユーザの不安を解消すること等ができるようにするものである。
【０００５】
【課題を解決するための手段】
本発明のロボット制御装置は、音声認識されるユーザの音声の韻律情報を分析する分析手段と、韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成手段と、韻律制御音声データの出力を制御する出力制御手段とを備え、前記生成手段は、音韻のない前記韻律制御音声データを生成するロボット制御装置である。
【０００６】
本発明のロボット制御方法は、音声認識されるユーザの音声の韻律情報を分析する分析ステップと、韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成ステップと、韻律制御音声データの出力を制御する出力制御ステップとを備え、前記生成ステップでは、音韻のない前記韻律制御音声データを生成するロボット制御方法である。
【０００７】
本発明の記録媒体は、音声認識されるユーザの音声の韻律情報を分析する分析ステップと、韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成ステップと、韻律制御音声データの出力を制御する出力制御ステップとを備え、前記生成ステップでは、音韻のない前記韻律制御音声データを生成するロボット制御処理を、コンピュータに行わせるプログラムが記録されている記録媒体である。
【０００８】
本発明のプログラムは、音声認識されるユーザの音声の韻律情報を分析する分析ステップと、韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成ステップと、韻律制御音声データの出力を制御する出力制御ステップとを備え、前記生成ステップでは、音韻のない前記韻律制御音声データを生成するロボット制御処理を、コンピュータに行わせるプログラムである。
【０００９】
本発明においては、音声認識されるユーザの音声の韻律情報が分析され、その韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データが生成されて出力される。韻律制御音声データは、音韻のない音声データになっている。
【００１０】
【発明の実施の形態】
図１は、本発明を適用したロボットの一実施の形態の外観構成例を示しており、図２は、その電気的構成例を示している。
【００１１】
本実施の形態では、ロボットは、例えば、犬等の四つ足の動物の形状のものとなっており、胴体部ユニット２の前後左右に、それぞれ脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが連結されるとともに、胴体部ユニット２の前端部と後端部に、それぞれ頭部ユニット４と尻尾部ユニット５が連結されることにより構成されている。
【００１２】
尻尾部ユニット５は、胴体部ユニット２の上面に設けられたベース部５Ｂから、２自由度をもって湾曲または揺動自在に引き出されている。
【００１３】
胴体部ユニット２には、ロボット全体の制御を行うコントローラ１０、ロボットの動力源となるバッテリ１１、並びにバッテリセンサ１２および熱センサ１３からなる内部センサ部１４などが収納されている。
【００１４】
頭部ユニット４には、「耳」に相当するマイク（マイクロフォン）１５、「目」に相当するＣＣＤ(Charge Coupled Device)カメラ１６、触覚に相当するタッチセンサ１７、「口」に相当するスピーカ１８などが、それぞれ所定位置に配設されている。また、頭部ユニット４には、口の下顎に相当する下顎部４Ａが１自由度をもって可動に取り付けられており、この下顎部４Ａが動くことにより、ロボットの口の開閉動作が実現されるようになっている。
【００１５】
脚部ユニット３Ａ乃至３Ｄそれぞれの関節部分や、脚部ユニット３Ａ乃至３Ｄそれぞれと胴体部ユニット２の連結部分、頭部ユニット４と胴体部ユニット２の連結部分、頭部ユニット４と下顎部４Ａの連結部分、並びに尻尾部ユニット５と胴体部ユニット２の連結部分などには、図２に示すように、それぞれアクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、５Ａ₁および５Ａ₂が配設されている。
【００１６】
頭部ユニット４におけるマイク１５は、ユーザからの発話を含む周囲の音声（音）を集音し、得られた音声信号を、コントローラ１０に送出する。ＣＣＤカメラ１６は、周囲の状況を撮像し、得られた画像信号を、コントローラ１０に送出する。
【００１７】
タッチセンサ１７は、例えば、頭部ユニット４の上部に設けられており、ユーザからの「なでる」や「たたく」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号としてコントローラ１０に送出する。
【００１８】
胴体部ユニット２におけるバッテリセンサ１２は、バッテリ１１の残量を検出し、その検出結果を、バッテリ残量検出信号としてコントローラ１０に送出する。熱センサ１３は、ロボット内部の熱を検出し、その検出結果を、熱検出信号としてコントローラ１０に送出する。
【００１９】
コントローラ１０は、ＣＰＵ(Central Processing Unit)１０Ａやメモリ１０Ｂ等を内蔵しており、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された制御プログラムが実行されることにより、各種の処理を行う。
【００２０】
即ち、コントローラ１０は、マイク１５や、ＣＣＤカメラ１６、タッチセンサ１７、バッテリセンサ１２、熱センサ１３から与えられる音声信号、画像信号、圧力検出信号、バッテリ残量検出信号、熱検出信号に基づいて、周囲の状況や、ユーザからの指令、ユーザからの働きかけなどの有無を判断する。
【００２１】
さらに、コントローラ１０は、この判断結果等に基づいて、続く行動を決定し、その決定結果に基づいて、アクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、５Ａ₁、５Ａ₂のうちの必要なものを駆動させる。これにより、頭部ユニット４を上下左右に振らせたり、下顎部４Ａを開閉させる。さらには、尻尾部ユニット５を動かせたり、各脚部ユニット３Ａ乃至３Ｄを駆動して、ロボットを歩行させるなどの行動を行わせる。
【００２２】
また、コントローラ１０は、必要に応じて、合成音、あるいは後述するようなエコーバック音声を生成し、スピーカ１８に供給して出力させたり、ロボットの「目」の位置に設けられた図示しないＬＥＤ（Light Emitting Diode）を点灯、消灯または点滅させる。
【００２３】
以上のようにして、ロボットは、周囲の状況等に基づいて自律的に行動をとるようになっている。
【００２４】
次に、図３は、図２のコントローラ１０の機能的構成例を示している。なお、図３に示す機能的構成は、ＣＰＵ１０Ａが、メモリ１０Ｂに記憶された制御プログラムを実行することで実現されるようになっている。
【００２５】
コントローラ１０は、特定の外部状態を認識するセンサ入力処理部５０、センサ入力処理部５０の認識結果を累積して、感情や、本能、成長の状態を表現するモデル記憶部５１、センサ入力処理部５０の認識結果等に基づいて、続く行動を決定する行動決定機構部５２、行動決定機構部５２の決定結果に基づいて、実際にロボットに行動を起こさせる姿勢遷移機構部５３、各アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動制御する制御機構部５４、合成音を生成する音声合成部５５、エコーバック音声を出力するエコーバック部５６、並びに音声データの出力を制御する出力制御部５７から構成されている。
【００２６】
センサ入力処理部５０は、マイク１５や、ＣＣＤカメラ１６、タッチセンサ１７等から与えられる音声信号、画像信号、圧力検出信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ、ユーザからの指示等を認識し、その認識結果を表す状態認識情報を、モデル記憶部５１および行動決定機構部５２に通知する。
【００２７】
即ち、センサ入力処理部５０は、音声認識部５０Ａを有しており、音声認識部５０Ａは、マイク１５から与えられる音声信号について音声認識を行う。そして、音声認識部５０Ａは、その音声認識結果としての、例えば、「歩け」、「伏せ」、「ボールを追いかけろ」等の指令その他を、状態認識情報として、モデル記憶部５１および行動決定機構部５２に通知する。
【００２８】
また、センサ入力処理部５０は、画像認識部５０Ｂを有しており、画像認識部５０Ｂは、ＣＣＤカメラ１６から与えられる画像信号を用いて、画像認識処理を行う。そして、画像認識部５０Ｂは、その処理の結果、例えば、「赤い丸いもの」や、「地面に対して垂直なかつ所定高さ以上の平面」等を検出したときには、「ボールがある」や、「壁がある」等の画像認識結果を、状態認識情報として、モデル記憶部５１および行動決定機構部５２に通知する。
【００２９】
さらに、センサ入力処理部５０は、圧力処理部５０Ｃを有しており、圧力処理部５０Ｃは、タッチセンサ１７から与えられる圧力検出信号を処理する。そして、圧力処理部５０Ｃは、その処理の結果、所定の閾値以上で、かつ短時間の圧力を検出したときには、「たたかれた（しかられた）」と認識し、所定の閾値未満で、かつ長時間の圧力を検出したときには、「なでられた（ほめられた）」と認識して、その認識結果を、状態認識情報として、モデル記憶部５１および行動決定機構部５２に通知する。
【００３０】
モデル記憶部５１は、ロボットの感情、本能、成長の状態を表現する感情モデル、本能モデル、成長モデルをそれぞれ記憶、管理している。
【００３１】
ここで、感情モデルは、例えば、「うれしさ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部５０からの状態認識情報や時間経過等に基づいて、その値を変化させる。本能モデルは、例えば、「食欲」、「睡眠欲」、「運動欲」等の本能による欲求の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部５０からの状態認識情報や時間経過等に基づいて、その値を変化させる。成長モデルは、例えば、「幼年期」、「青年期」、「熟年期」、「老年期」等の成長の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部５０からの状態認識情報や時間経過等に基づいて、その値を変化させる。
【００３２】
モデル記憶部５１は、上述のようにして感情モデル、本能モデル、成長モデルの値で表される感情、本能、成長の状態を、状態情報として、行動決定機構部５２に送出する。
【００３３】
なお、モデル記憶部５１には、センサ入力処理部５０から状態認識情報が供給される他、行動決定機構部５２から、ロボットの現在または過去の行動、具体的には、例えば、「長時間歩いた」などの行動の内容を示す行動情報が供給されるようになっており、モデル記憶部５１は、同一の状態認識情報が与えられても、行動情報が示すロボットの行動に応じて、異なる状態情報を生成するようになっている。
【００３４】
即ち、例えば、ロボットが、ユーザに挨拶をし、ユーザに頭を撫でられた場合には、ユーザに挨拶をしたという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部５１に与えられ、この場合、モデル記憶部５１では、「うれしさ」を表す感情モデルの値が増加される。
【００３５】
一方、ロボットが、何らかの仕事を実行中に頭を撫でられた場合には、仕事を実行中であるという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部５１に与えられ、この場合、モデル記憶部５１では、「うれしさ」を表す感情モデルの値は変化されない。
【００３６】
このように、モデル記憶部５１は、状態認識情報だけでなく、現在または過去のロボットの行動を示す行動情報も参照しながら、感情モデルの値を設定する。これにより、例えば、何らかのタスクを実行中に、ユーザが、いたずらするつもりで頭を撫でたときに、「うれしさ」を表す感情モデルの値を増加させるような、不自然な感情の変化が生じることを回避することができる。
【００３７】
なお、モデル記憶部５１は、本能モデルおよび成長モデルについても、感情モデルにおける場合と同様に、状態認識情報および行動情報の両方に基づいて、その値を増減させるようになっている。また、モデル記憶部５１は、感情モデル、本能モデル、成長モデルそれぞれの値を、他のモデルの値にも基づいて増減させるようになっている。
【００３８】
行動決定機構部５２は、センサ入力処理部５０からの状態認識情報や、モデル記憶部５１からの状態情報、時間経過等に基づいて、次の行動を決定し、決定された行動の内容を、行動指令情報として、姿勢遷移機構部５３に送出する。
【００３９】
即ち、行動決定機構部５２は、ロボットがとり得る行動をステート（状態）(state)に対応させた有限オートマトンを、ロボットの行動を規定する行動モデルとして管理しており、この行動モデルとしての有限オートマトンにおけるステートを、センサ入力処理部５０からの状態認識情報や、モデル記憶部５１における感情モデル、本能モデル、または成長モデルの値、時間経過等に基づいて遷移させ、遷移後のステートに対応する行動を、次にとるべき行動として決定する。
【００４０】
ここで、行動決定機構部５２は、所定のトリガ(trigger)があったことを検出すると、ステートを遷移させる。即ち、行動決定機構部５２は、例えば、現在のステートに対応する行動を実行している時間が所定時間に達したときや、特定の状態認識情報を受信したとき、モデル記憶部５１から供給される状態情報が示す感情や、本能、成長の状態の値が所定の閾値以下または以上になったとき等に、ステートを遷移させる。
【００４１】
なお、行動決定機構部５２は、上述したように、センサ入力処理部５０からの状態認識情報だけでなく、モデル記憶部５１における感情モデルや、本能モデル、成長モデルの値等にも基づいて、行動モデルにおけるステートを遷移させることから、同一の状態認識情報が入力されても、感情モデルや、本能モデル、成長モデルの値（状態情報）によっては、ステートの遷移先は異なるものとなる。
【００４２】
その結果、行動決定機構部５２は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいていない」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「お手」という行動をとらせる行動指令情報を生成し、これを、姿勢遷移機構部５３に送出する。
【００４３】
また、行動決定機構部５２は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「手のひらをぺろぺろなめる」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部５３に送出する。
【００４４】
また、行動決定機構部５２は、例えば、状態情報が、「怒っている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、状態情報が、「お腹がすいている」ことを表していても、また、「お腹がすいていない」ことを表していても、「ぷいと横を向く」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部５３に送出する。
【００４５】
なお、行動決定機構部５２には、モデル記憶部５１から供給される状態情報が示す感情や、本能、成長の状態に基づいて、遷移先のステートに対応する行動のパラメータとしての、例えば、歩行の速度や、手足を動かす際の動きの大きさおよび速度などを決定させることができ、この場合、それらのパラメータを含む行動指令情報が、姿勢遷移機構部５３に送出される。
【００４６】
また、行動決定機構部５２では、上述したように、ロボットの頭部や手足等を動作させる行動指令情報の他、ロボットに発話を行わせる行動指令情報も生成される。ロボットに発話を行わせる行動指令情報は、音声合成部５５に供給されるようになっており、音声合成部５５に供給される行動指令情報には、音声合成部５５に生成させる合成音に対応するテキスト等が含まれる。そして、音声合成部５５は、行動決定部５２から行動指令情報を受信すると、その行動指令情報に含まれるテキストに基づき、合成音を生成し、出力制御部５７を介して、スピーカ１８に供給して出力させる。これにより、スピーカ１８からは、例えば、ロボットの鳴き声、さらには、「お腹がすいた」等のユーザへの各種の要求、「何？」等のユーザの呼びかけに対する応答その他の音声出力が行われる。
【００４７】
姿勢遷移機構部５３は、行動決定機構部５２から供給される行動指令情報に基づいて、ロボットの姿勢を、現在の姿勢から次の姿勢に遷移させるための姿勢遷移情報を生成し、これを制御機構部５４に送出する。
【００４８】
ここで、現在の姿勢から次に遷移可能な姿勢は、例えば、胴体や手や足の形状、重さ、各部の結合状態のようなロボットの物理的形状と、関節が曲がる方向や角度のようなアクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂の機構とによって決定される。
【００４９】
また、次の姿勢としては、現在の姿勢から直接遷移可能な姿勢と、直接には遷移できない姿勢とがある。例えば、４本足のロボットは、手足を大きく投げ出して寝転んでいる状態から、伏せた状態へ直接遷移することはできるが、立った状態へ直接遷移することはできず、一旦、手足を胴体近くに引き寄せて伏せた姿勢になり、それから立ち上がるという２段階の動作が必要である。また、安全に実行できない姿勢も存在する。例えば、４本足のロボットは、その４本足で立っている姿勢から、両前足を挙げてバンザイをしようとすると、簡単に転倒してしまう。
【００５０】
このため、姿勢遷移機構部５３は、直接遷移可能な姿勢をあらかじめ登録しておき、行動決定機構部５２から供給される行動指令情報が、直接遷移可能な姿勢を示す場合には、その行動指令情報を、そのまま姿勢遷移情報として、制御機構部５４に送出する。一方、行動指令情報が、直接遷移不可能な姿勢を示す場合には、姿勢遷移機構部５３は、遷移可能な他の姿勢に一旦遷移した後に、目的の姿勢まで遷移させるような姿勢遷移情報を生成し、制御機構部５４に送出する。これによりロボットが、遷移不可能な姿勢を無理に実行しようとする事態や、転倒するような事態を回避することができるようになっている。
【００５１】
制御機構部５４は、姿勢遷移機構部５３からの姿勢遷移情報にしたがって、アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動するための制御信号を生成し、これを、アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂に送出する。これにより、アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂は、制御信号にしたがって駆動し、ロボットは、自律的に行動を起こす。
【００５２】
エコーバック部５６は、マイク１５から与えられ、音声認識部５０Ａで音声認識される音声信号を監視しており、その音声信号を復唱するような音声（以下、適宜、エコーバック音声という）を生成して出力する。このエコーバック音声は、出力制御部５７を介して、スピーカ１８に供給されて出力される。
【００５３】
出力制御部５７には、音声合成部５５からの合成音のディジタルデータと、エコーバック部５６からのエコーバック音声のディジタルデータとが供給されるようになっており、それらのディジタルデータを、アナログの音声信号にＤ／Ａ変換し、スピーカ１８に供給して出力させる。また、出力制御部５７は、音声合成部５５からの合成音と、エコーバック部５６からのエコーバック音声の、スピーカ１８への出力が競合した場合に、その競合を調整する。即ち、エコーバック部５６からのエコーバック音声の出力は、行動決定機構部５２の制御にしたがって音声合成部５５が行う合成音の出力とは独立に行われるようになっており、このため、エコーバック音声の出力と合成音の出力とは競合する場合がある。そこで、出力制御部５７は、その競合の調停を行う。
【００５４】
次に、図４は、図３の音声認識部５０Ａの構成例を示している。
【００５５】
マイク１５からの音声信号は、ＡＤ(Analog Digital)変換部２１に供給される。ＡＤ変換部２１では、マイク１５からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データにＡ／Ｄ変換される。この音声データは、特徴抽出部２２および音声区間検出部２７に供給される。
【００５６】
特徴抽出部２２は、そこに入力される音声データについて、適当なフレームごとに、例えば、ＭＦＣＣ(Mel Frequency Cepstrum Coefficient)分析を行い、その分析の結果得られるＭＦＣＣを、特徴パラメータ（特徴ベクトル）として、マッチング部２３に出力する。なお、特徴抽出部２２では、その他、例えば、線形予測係数、ケプストラム係数、線スペクトル対、所定の周波数帯域ごとのパワー（フィルタバンクの出力）等を、特徴パラメータとして抽出することが可能である。
【００５７】
マッチング部２３は、特徴抽出部２２からの特徴パラメータを用いて、音響モデル記憶部２４、辞書記憶部２５、および文法記憶部２６を必要に応じて参照しながら、マイク１５に入力された音声（入力音声）を、例えば、連続分布ＨＭＭ(Hidden Markov Model)法に基づいて音声認識する。
【００５８】
即ち、音響モデル記憶部２４は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布ＨＭＭ法に基づいて音声認識を行うので、音響モデルとしては、ＨＭＭ(Hidden Markov Model)が用いられる。辞書記憶部２５は、認識対象の各単語について、その発音に関する情報（音韻情報）が記述された単語辞書を記憶している。文法記憶部２６は、辞書記憶部２５の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則を記憶している。ここで、文法規則としては、例えば、文脈自由文法（ＣＦＧ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則を用いることができる。
【００５９】
マッチング部２３は、辞書記憶部２５の単語辞書を参照することにより、音響モデル記憶部２４に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部２３は、幾つかの単語モデルを、文法記憶部２６に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴パラメータに基づき、連続分布ＨＭＭ法によって、マイク１５に入力された音声を認識する。即ち、マッチング部２３は、特徴抽出部２２が出力する時系列の特徴パラメータが観測されるスコア（尤度）が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列の音韻情報（読み）を、音声の認識結果として出力する。
【００６０】
より具体的には、マッチング部２３は、接続された単語モデルに対応する単語列について、各特徴パラメータの出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列の音韻情報を、音声認識結果として出力する。
【００６１】
以上のようにして出力される、マイク１５に入力された音声の認識結果は、状態認識情報として、モデル記憶部５１および行動決定機構部５２に出力される。
【００６２】
なお、音声区間検出部２７は、ＡＤ変換部２１からの音声データについて、特徴抽出部２２がＭＦＣＣ分析を行うのと同様のフレームごとに、例えば、パワーを算出している。さらに、音声区間検出部２７は、各フレームのパワーを、所定の閾値と比較し、その閾値以上のパワーを有するフレームで構成される区間を、ユーザの音声が入力されている音声区間として検出する。そして、音声区間検出部２７は、検出した音声区間を、特徴抽出部２２とマッチング部２３に供給しており、特徴抽出部２２とマッチング部２３は、音声区間のみを対象に処理を行う。
【００６３】
次に、図５は、図３の音声合成部５５の構成例を示している。
【００６４】
テキスト生成部３１には、行動決定機構部５２が出力する、音声合成の対象とするテキストを含む行動指令情報が供給されるようになっており、テキスト生成部３１は、辞書記憶部３４や生成用文法記憶部３５を参照しながら、その行動指令情報に含まれるテキストを解析する。
【００６５】
即ち、辞書記憶部３４には、各単語の品詞情報や、読み、アクセント等の情報が記述された単語辞書が記憶されており、また、生成用文法記憶部３５には、辞書記憶部３４の単語辞書に記述された単語について、単語連鎖に関する制約等の生成用文法規則が記憶されている。そして、テキスト生成部３１は、この単語辞書および生成用文法規則に基づいて、そこに入力されるテキストの形態素解析や構文解析等の解析を行い、後段の規則合成部３２で行われる規則音声合成に必要な情報を抽出する。ここで、規則音声合成に必要な情報としては、例えば、ポーズの位置や、アクセントおよびイントネーションを制御するための情報その他の韻律情報や、各単語の発音等の音韻情報などがある。
【００６６】
テキスト生成部３１で得られた情報は、規則合成部３２に供給され、規則合成部３２では、音素片記憶部３６を参照しながら、テキスト生成部３１に入力されたテキストに対応する合成音の音声データ（ディジタルデータ）が生成される。
【００６７】
即ち、音素片記憶部３６には、例えば、ＣＶ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ等の形で音素片データが記憶されており、規則合成部３２は、テキスト生成部３１からの情報に基づいて、必要な音素片データを接続し、さらに、音素片データの波形を加工することによって、ポーズ、アクセント、イントネーション等を適切に付加し、これにより、テキスト生成部３１に入力されたテキストに対応する合成音の音声データを生成する。
【００６８】
以上のようにして生成された音声データは、出力制御部５７（図３）を介して、スピーカ１８に供給され、これにより、スピーカ１８からは、テキスト生成部３１に入力されたテキストに対応する合成音が出力される。
【００６９】
なお、図３の行動決定機構部５２では、上述したように、行動モデルに基づいて、次の行動が決定されるが、合成音として出力するテキストの内容は、ロボットの行動と対応付けておくことが可能である。
【００７０】
即ち、例えば、ロボットが、座った状態から、立った状態になる行動には、テキスト「よっこいしょ」などを対応付けておくことが可能である。この場合、ロボットが、座っている姿勢から、立つ姿勢に移行するときに、その姿勢の移行に同期して、合成音「よっこいしょ」を出力することが可能となる。
【００７１】
次に、図６のフローチャートを参照して、図３の出力制御部５７の処理（出力制御処理）について説明する。
【００７２】
出力制御部５７は、音声合成部５５からの合成音を受信すると、エコーバック部５６からエコーバック音声を受信していない限り、音声合成部５５からの合成音を、スピーカ１８に供給して出力させる。
【００７３】
そして、出力制御部５７は、エコーバック部５６からエコーバック音声を受信した場合、図６のフローチャートにしたがった出力制御処理を行う。
【００７４】
即ち、出力制御部５７は、エコーバック部５６からエコーバック音声を受信した場合、まず最初に、ステップＳ１において、音声合成部５５から合成音が出力されているかどうかを判定し、出力されていないと判定された場合、ステップＳ２に進み、エコーバック部５６から受信したエコーバック音声を、スピーカ１８に供給して出力させ、処理を終了する。
【００７５】
一方、ステップＳ１において、音声合成部５５から合成音が出力されていると判定された場合、即ち、音声合成部５５からの合成音の出力と、エコーバック部５６からのエコーバック音声の出力とが競合した場合、ステップＳ３に進み、出力制御部５７は、エコーバック音声の出力を制限し、音声合成部５５からの合成音を、スピーカ１８に供給して、出力させ、処理を終了する。
【００７６】
なお、出力制御部５７はエコーバック音声の出力中に、音声合成部５５から合成音と受信した場合、エコーバック音声の出力を中止し、音声合成部５５からの合成音の出力を優先させる。
【００７７】
以上のように、出力制御部５７は、音声合成部５５からの合成音の出力と、エコーバック部５６からのエコーバック音声の出力とが競合した場合、音声合成部５５からの合成音の出力を優先させる。これは、音声合成部５５からの合成音の出力が、行動決定機構部５２からの行動指令情報に基づくものであり、ロボットの行動であるのに対して、エコーバック音声の出力は、ユーザの発話を復唱するものであることから、音声合成部５５からの合成音の方が、エコーバック音声に比較して、ユーザに対する重要度が高いと考えられるためである。
【００７８】
但し、出力制御部５７では、例えば、エコーバック音声の出力を、音声合成部５５からの合成音の出力より優先させることも可能であるし、また、例えば、エコーバック音声と、音声合成部５５からの合成音のうち、先に受信した方の出力を優先させるようにすること等も可能である。
【００７９】
次に、図７は、図３のエコーバック部５６の構成例を示している。
【００８０】
マイク１５からの音声信号は、ＡＤ変換部４１に供給される。ＡＤ変換部４１では、マイク１５からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データにＡ／Ｄ変換される。この音声データは、韻律分析部４２および音声区間検出部４６に供給される。
【００８１】
韻律分析部４２は、そこに入力される音声データを、適当なフレームごとに音響分析することにより、例えば、ピッチ周波数やパワー等といった音声データの韻律情報を抽出する。この韻律情報は、音生成部４３に供給される。
【００８２】
即ち、韻律分析部４２は、例えば、人間の一般的なピッチ周期よりも長い３２ｍｓ等を１フレームとして、ＡＤ変換部４１からの音声データのピッチ周波数とパワーを、フレーム単位で求める。
【００８３】
具体的には、韻律分析部４２は、第ｊフレームのパワーＰ（ｊ）を、次式にしたがって求める。
【００８４】
Ｐ（ｊ）＝Σｘ_i ²
・・・（１）
但し、式（１）において、ｘ_iは、第ｊフレームの先頭からｉ番目の音声データのサンプル値を表し、Σは、第ｊフレームの音声データのサンプルすべてについてのサメーションを表す。
【００８５】
また、韻律分析部４２は、第ｊフレームの音声データのサンプルについて、自己相関値を演算し、その自己相関値を最大にする、０でないずれ量（時間）τを求めて、次式により、第ｊフレームのピッチ周波数ｆ（ｊ）を演算する。
【００８６】
ｆ（ｊ）＝１／τ
・・・（２）
【００８７】
音生成部４３は、韻律分析部４２からの韻律情報に基づいて、韻律を制御したエコーバック音声を生成する。
【００８８】
即ち、音生成部４３は、例えば、韻律分析部４２からの韻律情報と同一の韻律を有する、音韻のない音声（以下、適宜、無音韻音声という）を、サイン(sin)波を重畳することにより生成し、エコーバック音声として、出力部４４に供給する。
【００８９】
なお、韻律情報としての、例えば、ピッチ周波数とパワーから音声データを生成する方法については、例えば、鈴木、石井、竹内、「非分節音による反響的な模倣とその心理的影響」、情報処理学会論文誌、vol.41,No.5,pp1328-1337,May,2000や、特開2000-181896号公報等に、その一例が記載されている。
【００９０】
出力部４４は、音生成部４３からのエコーバック音声のデータを、メモリ４５に記憶させるとともに、出力制御部５７（図３）に出力する。
【００９１】
音声区間検出部４６は、ＡＤ変換部４１からの音声データについて、図４の音声区間検出部２７における場合と同様の処理を行うことにより、音声区間を検出し、韻律分析部４２と音生成部４３に供給する。これにより、韻律分析部４２と音生成部４３では、音声区間のみを対象に処理が行われる。
【００９２】
なお、図７のＡＤ変換部４１または音声区間検出部４６と、図４のＡＤ変換部２１または音声区間検出部２７とは、それぞれ兼用することが可能である。
【００９３】
以上のように構成されるエコーバック部５６では、例えば、図８のフローチャートにしたがったエコーバック処理が行われる。
【００９４】
即ち、まず最初に、ステップＳ１１において、音声区間検出部４６が、ＡＤ変換部４１の出力に基づいて、音声区間であるかどうかを判定し、音声区間でないと判定した場合、処理を終了し、再度、ステップＳ１１からのエコーバック処理を再開する。
【００９５】
また、ステップＳ１１において、音声区間であると判定された場合、即ち、マイク１５に、ユーザの音声が入力された場合、ステップＳ１２に進み、韻律分析部４２は、ＡＤ変換部４１の出力、即ち、マイク１５に入力されたユーザの音声を音響分析することにより、その韻律情報を取得し、音生成部４３に供給する。
【００９６】
音生成部４３は、ステップＳ１３において、韻律分析部４２からの韻律情報と同一の韻律を有する無音韻音声を生成し、エコーバック音声として、出力部４４に供給する。
【００９７】
出力部４４は、ステップＳ１４において、音生成部４３からのエコーバック音声のデータを、メモリ４５に記憶させ、ステップＳ１５に進み、そのエコーバック音声を、出力制御部５７（図３）に出力して、処理を終了する。
【００９８】
これにより、エコーバック音声は、出力制御部５７を介して、スピーカ１８に供給されて出力される。
【００９９】
従って、この場合、スピーカ１８からは、ユーザが発した音声から、その音韻を無くしたものが、エコーバック音声として出力される。
【０１００】
このエコーバック音声は、音声認識部５０Ａにおいて音声認識の対象とされるユーザの音声を復唱するようなものであり、このようなエコーバック音声が出力される結果、ユーザは、エコーバック音声を聴くことにより、ロボットにおいて、自身の音声が受け付けられたことを認識することができる。従って、ロボットが、ユーザからの音声に対する応答として、何の行動も起こさない場合（音声認識部５０Ａにおいて、ユーザの音声が正しく認識されている場合と、誤って認識されている場合の両方を含む）であっても、ユーザにおいて、ロボットが故障しているといったような勘違いをすること等を防止することができる。
【０１０１】
さらに、エコーバック音声は、ユーザが発した音声そのものではなく、その音声の音韻をなくしたものであるため、ユーザには、ロボットが、ユーザの音声を理解し、自身の声で復唱しているかのように聞こえる。また、エコーバック音声は、ユーザが発した音声と同一の韻律を有することから、その韻律から得られる感情を表現するようなものとなっており、その結果、ユーザには、ロボットが、ユーザの感情を理解しているかのように聞こえる。従って、ロボットにおいて、ユーザの音声を、単に録音して再生しているのではなく、理解しているかのような印象を、ユーザに与えることができる。
【０１０２】
なお、ここでは、音生成部４３において、サイン波を重畳することによって、エコーバック音声を生成するようにしたが、その他、例えば、エコーバック音声は、ロボットの鳴き声となるような複雑な波形を用意しておき、その波形をつなぎ合わせることによって生成することが可能である。さらに、エコーバック音声としては、例えば、ユーザの音声を構成する音素を認識し、その音素列によって構成される音韻を有するようなものを生成することが可能である。また、エコーバック音声は、例えば、ユーザの音声について、ケプストラム係数を得て、そのケプストラム係数をタップ係数とするディジタルフィルタによって生成すること等も可能である。
【０１０３】
但し、エコーバック音声が、ユーザの音声に似過ぎると、ロボットにおいて、ユーザの音声を、単に録音して再生しているかのような、いわば興ざめした印象を、ユーザに与えかねないので、エコーバック音声は、ユーザの音声に、あまり似たものにしない方が望ましい。
【０１０４】
また、上述の場合には、音生成部４３において、ユーザの音声の韻律と同一の韻律を有するエコーバック音声を生成するようにしたが、音生成部４３には、ユーザの音声の韻律に加工を加えた韻律を有するエコーバック音声を生成させることも可能である。
【０１０５】
即ち、例えば、上述したようにして、韻律分析部４２において、第ｊフレームのパワーＰ（ｊ）とピッチ周波数ｆ（ｊ）が求められる場合には、音生成部４３では、そのパワーＰ（ｊ）とピッチ周波数ｆ（ｊ）を用い、例えば、次式にしたがって、エコーバック音声ｙ（ｔ）を生成することができる。
【０１０６】
ｙ（ｔ）＝ｌｏｇ（Ｐ（ｊ））ｓｉｎ（２πＮｆ（ｊ）ｔ）
・・・（３）
但し、式（３）において、Ｎは、正の整数である。
【０１０７】
式（３）によれば、第ｊフレームの音声に対して、そのパワーＰ（ｊ）を対数によって非線形にし、かつ、ピッチ周波数ｆ（ｊ）をＮ倍にしたエコーバック音声ｙ（ｔ）が生成される。
【０１０８】
なお、経験的には、Ｎを、例えば６等とした場合に、鳴き声らしく、かつ聞きやすいエコーバック音声が得られる。
【０１０９】
また、上述の場合においては、ユーザの音声の音声区間と同一の時間長のエコーバック音声が出力されることとなるが、エコーバック音声は、ユーザの音声の音声区間と同一の時間長ではなく、異なる時間長とすることが可能である。
【０１１０】
即ち、例えば、式（３）にしたがって、エコーバック音声を生成する場合においては、パワーＰ（ｊ）やピッチ周波数ｆ（ｊ）を補間または間引きすること等によって、ユーザの音声の音声区間よりも長いまたは短い時間長のエコーバック音声を生成するようにすることが可能である。
【０１１１】
なお、経験的には、エコーバック音声は、ユーザの音声の音声区間の、例えば、３／２倍等の、長めの時間長にする方が、ユーザに自然な感じを与えるものとなる。
【０１１２】
ところで、図７のエコーバック部５６においては、メモリ４５に、エコーバック音声が記憶されるようになっており、出力部４４は、このメモリ４５に記憶されたエコーバック音声を、必要に応じて読み出して出力する再エコーバック処理を行う。
【０１１３】
即ち、再エコーバック処理では、図９のフローチャートに示すように、出力部４４は、ステップＳ２１において、所定のイベントが生じたかどうかを判定し、生じていないと判定した場合、ステップＳ２１に戻る。
【０１１４】
また、ステップＳ２１において、所定のイベントが生じたと判定された場合、ステップＳ２２に進み、出力部４４は、メモリ４５に記憶された所定のエコーバック音声のデータを読み出し、出力制御部５７を介して、スピーカ１８に供給して、ステップＳ２１に戻る。
【０１１５】
従って、再エコーバック処理によれば、所定のイベントが生じた場合に、メモリ４５に記憶された所定のエコーバック音声が、スピーカ１８から出力される。
【０１１６】
ここで、所定のイベントとしては、例えば、ある値を設定しておき、乱数を発生させて、その乱数が、設定した値に一致した場合や、外部からの入力がない状態が、所定の時間連続した場合等を採用することができる。この場合、ユーザからすれば、ロボットに対して、何の刺激も与えていないのに、ロボットが、突然喋りだしたように見えるので、ロボットのエンタテイメント性を向上させることができる。
【０１１７】
また、メモリ４５には、エコーバック音声のデータを、行動決定機構部５２が出力する所定の行動指令情報と対応付けて記憶させておき、行動決定機構部５２が行動指令情報を出力した場合に、その行動指令情報に対応付けられているエコーバック音声を、メモリ４５から読み出すようにすることも可能である。この場合、行動決定機構部５２が出力する行動指令情報に対応する行動に同期して、その行動指令情報に対応付けられているエコーバック音声が出力されることになる。
【０１１８】
次に、図１０は、コントローラ１０の他の構成例を示している。なお、図中、図３における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図１０のコントローラ１０は、エコーバック部５６において、モデル記憶部５１に記憶されたモデルが参照可能になっている他は、図３における場合と同様に構成されている。
【０１１９】
コントローラ１０が図１０に示したように構成される場合には、エコーバック部５６の音生成部４３において、図７に点線で示すように、モデル記憶部５１に記憶された感情モデルや、本能モデル、成長モデルが参照される。
【０１２０】
そして、音生成部４３は、感情モデルや、本能モデル、成長モデルによって表されるロボットの感情や、本能、成長の状態に基づいて、ユーザの音声から抽出した韻律を制御したエコーバック音声を生成する。
【０１２１】
即ち、音生成部４３は、例えば、ロボットの喜びの度合い、または悲しみの度合いが大きい場合には、その度合いに応じて、ピッチ周波数が高い、または低いエコーバック音声をそれぞれ生成する。また、音生成部４３は、例えば、ロボットの怒りの度合いが大きい場合には、その度合いに応じて、発話時間の短いエコーバック音声を生成する。その他、音生成部４３には、例えば、成長の度合いが高い場合には、語尾のピッチ周波数を高くして、質問を行うようなエコーバック音声を生成させること等が可能であり、この場合、ユーザに、次の発話を促すことができる。
【０１２２】
ここで、図９における場合には、再エコーバック処理において、乱数や外部からの入力等を、所定のイベントとして、メモリ４５に記憶された所定のエコーバック音声を再生するようにしたが、図１０の実施の形態のように、エコーバック部５６の音生成部４３において、モデル記憶部５１に記憶された感情モデルや、本能モデル、成長モデルを参照する場合には、音生成部４３で生成されたエコーバック音声を、そのエコーバック音声が生成されたときの感情モデル等の値と対応付けて、メモリ４５に記憶しておき、モデル記憶部５１に記憶された感情モデル等の値が、メモリ４５に記憶されたものと一致したことを、所定のイベントとして、その一致した感情モデル等の値と対応付けられているエコーバック音声を、メモリ４５から再生して出力するようにすることが可能である。
【０１２３】
この場合、再エコーバック処理によれば、メモリ４５に記憶されたエコーバック音声は、感情モデル等の値が、そのエコーバック音声が過去に再生されたときのものと同一になったときに再生されることとなるから、ロボットは、ある感情等の状態になると、同一のエコーバック音声を出力することとなる。そして、その結果、ユーザは、そのようなエコーバック音声を聴くことによって、ロボットの感情等の状態を把握することが可能となるので、ユーザとロボットとの間で、いわば、感情等を共有することが可能となる。
【０１２４】
なお、行動決定機構部５２と出力制御部５７とは、それらの間で通信を行うように構成することができ、この場合、行動決定機構部５２には、出力制御部５７からスピーカ１８に音声データが出力されるときに、下顎部４Ａ（図１）を動かすアクチュエータを駆動する行動指令情報を生成させるようにすることができる。この場合、スピーカ１８からの音声出力に同期して、下顎部４Ａが動くので、ユーザに、ロボットが実際に喋っているかのような印象を与えることができる。
【０１２５】
さらに、行動決定機構部５２では、下顎部４Ａの動きを、出力制御部５７からスピーカ１８に出力される音声データの、例えば、パワー等の韻律情報に基づいて制御することが可能である。即ち、例えば、音声データのパワーが大の場合には、下顎部４Ａの動きを大きくし、これにより、ロボットの口の開き具合を大きくする一方、音声データのパワーが小の場合には、下顎部４Ａの動きを小さくし、これにより、ロボットの口の開き具合を小さくすることが可能である。この場合、スピーカ１８から出力される音の大きさに対応して、ロボットの口の開き具合が変化するので、ロボットの喋り方に、よりリアリティをもたせることができる。
【０１２６】
以上、本発明を、エンターテイメント用のロボット（疑似ペットとしてのロボット）に適用した場合について説明したが、本発明は、これに限らず、例えば、産業用のロボット等の各種のロボットに広く適用することが可能である。また、本発明は、現実世界のロボットだけでなく、例えば、液晶ディスプレイ等の表示装置に表示される仮想的なロボットにも適用可能である。
【０１２７】
さらに、本実施の形態においては、上述した一連の処理を、ＣＰＵ１０Ａにプログラムを実行させることにより行うようにしたが、一連の処理は、それ専用のハードウェアによって行うことも可能である。
【０１２８】
なお、プログラムは、あらかじめメモリ１０Ｂ（図２）に記憶させておく他、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。そして、このようなリムーバブル記録媒体を、いわゆるパッケージソフトウエアとして提供し、ロボット（メモリ１０Ｂ）にインストールするようにすることができる。
【０１２９】
また、プログラムは、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、有線で転送し、メモリ１０Ｂにインストールすることができる。
【０１３０】
この場合、プログラムがバージョンアップされたとき等に、そのバージョンアップされたプログラムを、メモリ１０Ｂに、容易にインストールすることができる。
【０１３１】
ここで、本明細書において、ＣＰＵ１０Ａに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。
【０１３２】
また、プログラムは、１のＣＰＵにより処理されるものであっても良いし、複数のＣＰＵによって分散処理されるものであっても良い。
【０１３３】
【発明の効果】
本発明によれば、ユーザは、音韻のない韻律制御音声データを聴くことにより、ロボットにおいて、自身の音声が受け付けられたことを認識することができる。
【図面の簡単な説明】
【図１】本発明を適用したロボットの一実施の形態の外観構成例を示す斜視図である。
【図２】ロボットの内部構成例を示すブロック図である。
【図３】コントローラ１０の機能的構成例を示すブロック図である。
【図４】音声認識部５０Ａの構成例を示すブロック図である。
【図５】音声合成部５５の構成例を示すブロック図である。
【図６】出力制御部５７の処理を説明するフローチャートである。
【図７】エコーバック部５６の構成例を示すブロック図である。
【図８】エコーバック部５６によるエコーバック処理を説明するフローチャートである。
【図９】エコーバック部５６による再エコーバック処理を説明するフローチャートである。
【図１０】コントローラ１０の他の機能的構成例を示すブロック図である。
【符号の説明】
１頭部ユニット，４Ａ下顎部，１０コントローラ，１０ＡＣＰＵ，１０Ｂメモリ，１５マイク，１６ＣＣＤカメラ，１７タッチセンサ，１８スピーカ，２１ＡＤ変換部，２２特徴抽出部，２３マッチング部，２４音響モデル記憶部，２５辞書記憶部，２６文法記憶部，２７音声区間検出部，３１テキスト生成部，３２規則合成部，３４辞書記憶部，３５生成用文法記憶部，３６音素片記憶部，４１ＡＤ変換部，４２韻律分析部，４３音生成部，４４出力部，４５メモリ，４６音声区間検出部，５０センサ入力処理部，５０Ａ音声認識部，５０Ｂ画像認識部，５０Ｃ圧力処理部，５１モデル記憶部，５２行動決定機構部，５３姿勢遷移機構部，５４制御機構部，５５音声合成部，５６エコーバック部，５７出力制御部

Claims

少なくとも音声認識結果に基づいて行動するロボットを制御するロボット制御装置であって、
音声認識されるユーザの音声の韻律情報を分析する分析手段と、
前記韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成手段と、
前記韻律制御音声データの出力を制御する出力制御手段と
を備え、
前記生成手段は、音韻のない前記韻律制御音声データを生成する
ロボット制御装置。
前記ロボットの感情、本能、または成長の状態を表すモデルを記憶するモデル記憶手段をさらに備え、
前記生成手段は、前記モデル記憶手段に記憶されたモデルが表す前記ロボットの感情、本能、または成長の状態にも基づいて、前記韻律制御音声データを生成する
請求項１に記載のロボット制御装置。
前記韻律制御音声データを記憶するデータ記憶手段をさらに備え、
前記出力制御手段は、所定のイベントが生じたときに、前記データ記憶手段に記憶された韻律制御音声データを出力する
請求項１に記載のロボット制御装置。
前記ロボットの行動を制御する行動制御手段をさらに備え、
前記出力制御手段は、前記行動制御手段による制御によって、音声の出力が行われる場合に、前記韻律制御音声データの出力を制限する
請求項１に記載のロボット制御装置。
前記韻律制御音声データの出力に同期して、前記ロボットに、その口部を動かす行動をとらせる行動制御手段をさらに備える
請求項１に記載のロボット制御装置。
前記行動制御手段は、前記韻律制御音声データに基づいて、前記ロボットの口部の動き具合を制御する
請求項５に記載のロボット制御装置。
少なくとも音声認識結果に基づいて行動するロボットを制御するロボット制御方法であって、
音声認識されるユーザの音声の韻律情報を分析する分析ステップと、
前記韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成ステップと、
前記韻律制御音声データの出力を制御する出力制御ステップと
を備え、
前記生成ステップでは、音韻のない前記韻律制御音声データを生成する
ロボット制御方法。
少なくとも音声認識結果に基づいて行動するロボットを制御するロボット制御処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
音声認識されるユーザの音声の韻律情報を分析する分析ステップと、
前記韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成ステップと、
前記韻律制御音声データの出力を制御する出力制御ステップと
を備え、
前記生成ステップでは、音韻のない前記韻律制御音声データを生成する
ロボット制御処理を、コンピュータに行わせるプログラムが記録されている記録媒体。
少なくとも音声認識結果に基づいて行動するロボットを制御するロボット制御処理を、コンピュータに行わせるプログラムであって、
音声認識されるユーザの音声の韻律情報を分析する分析ステップと、
前記韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成ステップと、
前記韻律制御音声データの出力を制御する出力制御ステップと
を備え、
前記生成ステップでは、音韻のない前記韻律制御音声データを生成する
ロボット制御処理を、コンピュータに行わせるプログラム。