JP4161490B2 - 音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体 - Google Patents
音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体 Download PDFInfo
- Publication number
- JP4161490B2 JP4161490B2 JP34047099A JP34047099A JP4161490B2 JP 4161490 B2 JP4161490 B2 JP 4161490B2 JP 34047099 A JP34047099 A JP 34047099A JP 34047099 A JP34047099 A JP 34047099A JP 4161490 B2 JP4161490 B2 JP 4161490B2
- Authority
- JP
- Japan
- Prior art keywords
- robot
- unit
- synthesized sound
- recognition
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Toys (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
【発明の属する技術分野】
本発明は、音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体に関し、特に、例えば、音声合成された合成音等の音響信号を出力するロボット等に用いて好適な音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体に関する。
【0002】
【従来の技術】
近年、玩具等として、タッチスイッチの押圧操作や時間経過等に対応して、音声を出力するロボット(本明細書においては、ぬいぐるみ状のものを含む)が数多く製品化されている。
【0003】
【発明が解決しようとする課題】
しかしながら、ロボットから出力される音声のパワーや高さ(周波数)は、あらかじめ設定された値とされているため、固定であり、従って、ロボットが使用される環境によっては、そのロボットが出力する音声が聞き取りにくい課題があった。
【0004】
即ち、例えば、ロボットが、雑音の大きな環境で使用される場合には、ロボットが出力する音声が、その雑音にかき消され、聞き取りにくいことがあった。
【0005】
また、例えば、ロボットが歩行等することによって移動可能なものである場合には、ロボットが、ユーザから遠方に移動したときに、ロボットが出力する音声が小さすぎて、聞き取りにくくなる課題があった。
【0006】
さらに、ロボットが、ユーザの近くに移動したときには、ロボットが出力する音声が大きすぎて、耳障りとなることがあった。
【0007】
そこで、例えば、ロボットに、それが出力する音声の音量(大きさ)を調整するボリュームスイッチを設け、そのボリュームスイッチを操作することで、適切な音量とする方法がある。しかしながら、この場合、ユーザは、ロボットを使用する環境ごとに、音量が適切となるように、ボリュームスイッチを操作しなければならず、面倒である。
【0008】
本発明は、このような状況に鑑みてなされたものであり、ロボットが出力する音声を、ユーザにとって適切なものとすることができるようにするものである。
【0009】
【課題を解決するための手段】
本発明の音響信号出力制御装置は、音声合成を行い、ロボットから出力する合成音 S(t)を生成する生成手段と、ロボットが使用される環境を認識する認識手段と、認識手段による環境の認識結果に基づいて、合成音 S(t)の出力特性を制御する制御手段とを備え、認識手段は、ロボットが使用される環境における雑音のパワー E(t)を認識するとともに、ロボットからユーザまでの距離 d(t) も認識し、制御手段は、認識手段により認識された雑音のパワー E(t)に対して、人間の聴覚特性に基づいたフィルタリング処理を施してフィルタリング結果 e(t) を生成し、式 y( t ) =ε (e(t) , d(t)) * S(t) に基づいて、合成音 S(t) を合成音 y(t) に変換する。ただし、関数ε (e(t) , d(t)) は、フィルタリング結果 e(t) 、およびユーザまでの距離 d(t) それぞれが大きくなるほど、大きくなるような関数であり、*は、畳み込み積分を表す。
【0011】
認識手段には、ユーザを撮像する撮像手段により撮像された画像、又は、赤外線がユーザに反射してロボットに戻ってくるまでの時間を検出する検出手段により検出された時間に基づいて、ロボットからユーザまでの距離d(t)を認識させることができる。
【0013】
本発明の音響信号出力制御方法は、音声合成を行い、ロボットから出力する合成音 S(t)を生成する生成ステップと、ロボットが使用される環境を認識する認識ステップと、認識ステップでの環境の認識結果に基づいて、合成音 S(t)の出力特性を制御する制御ステップとを含み、認識ステップは、ロボットが使用される環境における雑音のパワー E(t)を認識するとともに、ロボットからユーザまでの距離 d(t) も認識し、制御ステップは、認識ステップで認識された雑音のパワー E(t)に対して、人間の聴覚特性に基づいたフィルタリング処理を施してフィルタリング結果 e(t) を生成し、式 y( t ) =ε (e(t) , d(t)) * S(t) に基づいて、合成音 S(t) を合成音 y(t) に変換する。ただし、関数ε (e(t) , d(t)) は、フィルタリング結果 e(t) 、およびユーザまでの距離 d(t) それぞれが大きくなるほど、大きくなるような関数であり、*は、畳み込み積分を表す。
【0014】
本発明の記録媒体は、音声合成を行い、ロボットから出力する合成音 S(t)を生成する生成ステップと、ロボットが使用される環境を認識する認識ステップと、認識ステップでの環境の認識結果に基づいて、合成音 S(t)の出力特性を制御する制御ステップとを含み、認識ステップは、ロボットが使用される環境における雑音のパワー E(t)を認識するとともに、ロボットからユーザまでの距離 d(t) も認識し、制御ステップは、認識ステップで認識された雑音のパワー E(t)に対して、人間の聴覚特性に基づいたフィルタリング処理を施してフィルタリング結果 e(t) を生成し、式 y( t ) =ε (e(t) , d(t)) * S(t) に基づいて、合成音 S(t) を合成音 y(t) に変換するプログラムが記録されている。ただし、関数ε (e(t) , d(t)) は、フィルタリング結果 e(t) 、およびユーザまでの距離 d(t) それぞれが大きくなるほど、大きくなるような関数であり、*は、畳み込み積分を表す。
【0015】
本発明の音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体においては、音声合成を行い、ロボットから出力する合成音 S(t)が生成される一方、ロボットが使用される環境における雑音のパワー E(t) が認識されるとともに、ロボットからユーザまでの距離 d(t) も認識され、その環境の認識結果である雑音のパワー E(t)に対して、人間の聴覚特性に基づいたフィルタリング処理が施されてフィルタリング結果 e(t) が生成され、式 y( t ) =ε (e(t) , d(t)) * S(t) に基づいて、合成音 S(t) が合成音 y(t) に変換される。
【0016】
【発明の実施の形態】
図1は、本発明を適用したロボットの一実施の形態の外観構成例を示しており、図2は、その電気的構成例を示している。
【0017】
本実施の形態では、ロボットは、犬形状のものとされており、胴体部ユニット2の前後左右に、それぞれ脚部ユニット3A,3B,3C,3Dが連結されるとともに、胴体部ユニット2の前端部と後端部に、それぞれ頭部ユニット4と尻尾部ユニット5が連結されることにより構成されている。
【0018】
尻尾部ユニット5は、胴体部ユニット2の上面に設けられたベース部5Bから、2自由度をもって湾曲または揺動自在に引き出されている。
【0019】
胴体部ユニット2には、ロボット全体の制御を行うコントローラ10、ロボットの動力源となるバッテリ11、並びにバッテリセンサ12および熱センサ13からなる内部センサ部14などが収納されている。
【0020】
頭部ユニット4には、「耳」に相当するマイク(マイクロフォン)15、「目」に相当するCCD(Charge Coupled Device)カメラ16、触覚に相当するタッチセンサ17、「口」に相当するスピーカ18などが、それぞれ所定位置に配設されている。
【0021】
脚部ユニット3A乃至3Dそれぞれの関節部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユニット2の連結部分、頭部ユニット4と胴体部ユニット2の連結部分、並びに尻尾部ユニット5と胴体部ユニット2の連結部分などには、図2に示すように、それぞれアクチュエータ3AA1乃至3AAK、3BA1乃至3BAK、3CA1乃至3CAK、3DA1乃至3DAK、4A1乃至4AL、5A1および5A2が配設されており、これにより、各連結部分は、所定の自由度をもって回転することができるようになっている。
【0022】
頭部ユニット4におけるマイク15は、ユーザからの発話を含む周囲の音声(音)を集音し、得られた音声信号を、コントローラ10に送出する。CCDカメラ16は、周囲の状況を撮像し、得られた画像信号を、コントローラ10に送出する。
【0023】
タッチセンサ17は、例えば、頭部ユニット4の上部に設けられており、ユーザからの「なでる」や「たたく」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号としてコントローラ10に送出する。
【0024】
胴体部ユニット2におけるバッテリセンサ12は、バッテリ11の残量を検出し、その検出結果を、バッテリ残量検出信号としてコントローラ10に送出する。熱センサ13は、ロボット内部の熱を検出し、その検出結果を、熱検出信号としてコントローラ10に送出する。
【0025】
コントローラ10は、CPU(Central Processing Unit)10Aやメモリ10B等を内蔵しており、CPU10Aにおいて、メモリ10Bに記憶された制御プログラムが実行されることにより、各種の処理を行う。
【0026】
即ち、コントローラ10は、マイク15や、CCDカメラ16、タッチセンサ17、バッテリセンサ12、熱センサ13から与えられる音声信号、画像信号、圧力検出信号、バッテリ残量検出信号、熱検出信号に基づいて、周囲の状況や、ユーザからの指令、ユーザからの働きかけなどの有無を判断する。
【0027】
さらに、コントローラ10は、この判断結果等に基づいて、続く行動を決定し、その決定結果に基づいて、アクチュエータ3AA1乃至3AAK、3BA1乃至3BAK、3CA1乃至3CAK、3DA1乃至3DAK、4A1乃至4AL、5A1、5A2のうちの必要なものを駆動させ、これにより、頭部ユニット4を上下左右に振らせたり、尻尾部ユニット5を動かせたり、各脚部ユニット3A乃至3Dを駆動して、ロボットを歩行させるなどの行動を行わせる。
【0028】
また、コントローラ10は、必要に応じて、合成音を生成し、スピーカ18に供給して出力させたり、ロボットの「目」の位置に設けられた図示しないLED(Light Emitting Diode)を点灯、消灯または点滅させる。
【0029】
以上のようにして、ロボットは、周囲の状況等に基づいて自律的に行動をとることができるようになっている。
【0030】
次に、図3は、図2のコントローラ10の機能的構成例を示している。なお、図3に示す機能的構成は、CPU10Aが、メモリ10Bに記憶された制御プログラムを実行することで実現されるようになっている。
【0031】
コントローラ10は、特定の外部状態を認識するセンサ入力処理部50、センサ入力処理部50の認識結果等を累積して、感情および本能の状態を表現する感情/本能モデル部51、センサ入力処理部50の認識結果等に基づいて、続く行動を決定する行動決定機構部52、行動決定機構部52の決定結果に基づいて、実際にロボットに行動を起こさせる姿勢遷移機構部53、各アクチュエータ3AA1乃至5A1および5A2を駆動制御する制御機構部54、合成音を生成する音声合成部55、並びに音声合成部55の出力を制御する音響処理部56から構成されている。
【0032】
センサ入力処理部50は、マイク15や、CCDカメラ16、タッチセンサ17等から与えられる音声信号、画像信号、圧力検出信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ、ユーザからの指示等を認識し、その認識結果を表す状態認識情報を、感情/本能モデル部51および行動決定機構部52に通知する。
【0033】
即ち、センサ入力処理部50は、音声認識部50Aを有しており、音声認識部50Aは、行動決定機構部52からの制御にしたがい、マイク15から与えられる音声信号を用いて、音声認識を行う。そして、音声認識部50Aは、その音声認識結果としての、例えば、「歩け」、「伏せ」、「ボールを追いかけろ」等の指令その他を、状態認識情報として、感情/本能モデル部51および行動決定機構部52に通知する。
【0034】
また、センサ入力処理部50は、画像認識部50Bを有しており、画像認識部50Bは、CCDカメラ16から与えられる画像信号を用いて、画像認識処理を行う。そして、画像認識部50Bは、その処理の結果、例えば、「赤い丸いもの」や、「地面に対して垂直なかつ所定高さ以上の平面」等を検出したときには、「ボールがある」や、「壁がある」等の画像認識結果を、状態認識情報として、感情/本能モデル部51および行動決定機構部52に通知する。
【0035】
さらに、センサ入力処理部50は、圧力処理部50Cを有しており、圧力処理部50Cは、タッチセンサ17から与えられる圧力検出信号を処理する。そして、圧力処理部50Cは、その処理の結果、所定の閾値以上で、かつ短時間の圧力を検出したときには、「たたかれた(しかられた)」と認識し、所定の閾値未満で、かつ長時間の圧力を検出したときには、「なでられた(ほめられた)」と認識して、その認識結果を、状態認識情報として、感情/本能モデル部51および行動決定機構部52に通知する。
【0036】
また、センサ入力処理部50は、環境認識部50Dを有しており、環境認識部50Dは、マイク15から与えられる音声信号や、CCDカメラ16から与えられる画像信号を用いて、ロボットが使用される環境としての、例えば、その環境における雑音のパワーや、ロボットからユーザまでの距離等を認識し、その認識結果を、状態認識情報として、音響処理部56に出力する。
【0037】
感情/本能モデル部51は、図4に示すような、ロボットの感情と本能の状態を表現する感情モデルと本能モデルをそれぞれ管理している。
【0038】
感情モデルは、例えば、3つの感情ユニット60A,60B,60Cで構成され、これらの感情ユニット60A乃至60Dは、「うれしさ」、「悲しさ」、「怒り」の感情の状態(度合い)を、例えば、0乃至100の範囲の値によってそれぞれ表し、センサ入力処理部50からの状態認識情報や時間経過等に基づいて、その値を変化させる。
【0039】
なお、感情モデルには、「うれしさ」、「悲しさ」、「怒り」の他、「楽しさ」に対応する感情ユニットを設けることも可能である。
【0040】
本能モデルは、例えば、3つの本能ユニット61A,61B,61Cで構成され、これらの本能ユニット61A乃至61Cは、「食欲」、「睡眠欲」、「運動欲」という本能による欲求の状態(度合い)を、例えば、0乃至100の範囲の値によってそれぞれ表し、センサ入力処理部50からの状態認識情報や時間経過等に基づいて、その値を変化させる。
【0041】
感情/本能モデル部51は、上述のようにして変化する感情ユニット60A乃至60Cの値で表される感情の状態、および本能ニット61A乃至61Cの値で表される本能の状態を、感情/本能状態情報として、センサ入力処理部50、行動決定機構部52、および音声合成部55に送出する。
【0042】
行動決定機構部52は、センサ入力処理部50からの状態認識情報や、感情/本能モデル部51からの感情/本能状態情報、時間経過等に基づいて、次の行動を決定し、決定された行動の内容を、行動指令情報として、姿勢遷移機構部53に送出する。
【0043】
即ち、行動決定機構部52は、図5に示すように、ロボットがとり得る行動をステート(状態)(state)に対応させた有限オートマトンを、ロボットの行動を規定する行動モデルとして管理しており、この行動モデルとしての有限オートマトンにおけるステートを、センサ入力処理部50からの状態認識情報や、感情/本能モデル部51における感情モデルおよび本能モデルの値、時間経過等に基づいて遷移させ、遷移後のステートに対応する行動を、次にとるべき行動として決定する。
【0044】
具体的には、例えば、図5において、ステートST3が「立っている」という行動を、ステートST4が「寝ている」という行動を、ステートST5が「ボールを追いかけている」という行動を、それぞれ表しているとする。いま、例えば、「ボールを追いかけている」というステートST5において、「ボールが見えなくなった」という状態認識情報が供給されると、ステートST5からST3に遷移し、その結果、ステートST3に対応する「立っている」という行動を、次にとることが決定される。また、例えば、「寝ている」というステートST4において、「起きろ」という状態認識情報が供給されると、ステートST4からST3に遷移し、その結果、やはり、ステートST3に対応する「立っている」という行動を、次にとることが決定される。
【0045】
ここで、行動決定機構部52は、所定のトリガ(trigger)があったことを検出すると、ステートを遷移させる。即ち、行動決定機構部52は、例えば、現在のステートに対応する行動を実行している時間が所定時間に達したときや、特定の状態認識情報を受信したとき、感情/本能モデル部51から供給される感情/本能状態情報が示す感情の状態の値(感情ユニット60A乃至60Cの値)、あるいは本能の状態の値(本能ユニット61A乃至61Cの値)が所定の閾値以下または以上となったとき等に、ステートを遷移させる。
【0046】
なお、行動決定機構部52は、上述したように、センサ入力処理部50からの状態認識情報だけでなく、感情/本能モデル部51における感情モデルおよび本能モデルの値等にも基づいて、図5の有限オートマトンにおけるステートを遷移させることから、同一の状態認識情報が入力されても、感情モデルや本能モデルの値(感情/本能状態情報)によっては、ステートの遷移先は異なるものとなる。
【0047】
その結果、行動決定機構部52は、例えば、感情/本能状態情報が、「怒っていない」こと、および「お腹がすいていない」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「お手」という行動をとらせる行動指令情報を生成し、これを、姿勢遷移機構部53に送出する。
【0048】
また、行動決定機構部52は、例えば、感情/本能状態情報が、「怒っていない」こと、および「お腹がすいている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「手のひらをぺろぺろなめる」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部53に送出する。
【0049】
また、行動決定機構部52は、例えば、感情/本能状態情報が、「怒っている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、感情/本能状態情報が、「お腹がすいている」ことを表していても、また、「お腹がすいていない」ことを表していても、「ぷいと横を向く」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部53に送出する。
【0050】
さらに、行動決定機構部52では、上述したような、ロボットの頭部や手足等を動作させる行動指令情報の他、ロボットに発話を行わせる行動指令情報も生成される。ロボットに発話を行わせる行動指令情報は、音声合成部55に供給されるようになっており、音声合成部55に供給される行動指令情報には、音声合成部55に生成させる合成音に対応するテキスト等が含まれる。そして、音声合成部55は、行動決定部52から行動指令情報を受信すると、その行動指令情報に含まれるテキストに基づき、感情/本能モデル部51で管理されている感情の状態や本能の状態を加味しながら、例えば、規則音声合成等を行うことで、合成音を生成し、音響処理部56に供給する。
【0051】
姿勢遷移機構部53は、行動決定機構部52から供給される行動指令情報に基づいて、ロボットの姿勢を、現在の姿勢から次の姿勢に遷移させるための姿勢遷移情報を生成し、これを制御機構部54に送出する。
【0052】
ここで、現在の姿勢から次に遷移可能な姿勢は、例えば、胴体や手や足の形状、重さ、各部の結合状態のようなロボットの物理的形状と、関節が曲がる方向や角度のようなアクチュエータ3AA1乃至5A1および5A2の機構とによって決定される。
【0053】
また、次の姿勢としては、現在の姿勢から直接遷移可能な姿勢と、直接には遷移できない姿勢とがある。例えば、4本足のロボットは、手足を大きく投げ出して寝転んでいる状態から、伏せた状態へ直接遷移することはできるが、立った状態へ直接遷移することはできず、一旦、手足を胴体近くに引き寄せて伏せた姿勢になり、それから立ち上がるという2段階の動作が必要である。また、安全に実行できない姿勢も存在する。例えば、4本足のロボットは、その4本足で立っている姿勢から、両前足を挙げてバンザイをしようとすると、簡単に転倒してしまう。
【0054】
このため、姿勢遷移機構部53は、直接遷移可能な姿勢をあらかじめ登録しておき、行動決定機構部52から供給される行動指令情報が、直接遷移可能な姿勢を示す場合には、その行動指令情報を、そのまま姿勢遷移情報として、制御機構部54に送出する。一方、行動指令情報が、直接遷移不可能な姿勢を示す場合には、姿勢遷移機構部53は、遷移可能な他の姿勢に一旦遷移した後に、目的の姿勢まで遷移させるような姿勢遷移情報を生成し、制御機構部54に送出する。これによりロボットが、遷移不可能な姿勢を無理に実行しようとする事態や、転倒するような事態を回避することができるようになっている。
【0055】
即ち、姿勢遷移機構部53は、例えば、図6に示すように、ロボットがとり得る姿勢をノードNODE1乃至NODE5として表現するとともに、遷移可能な2つの姿勢に対応するノードどうしの間を、有向アークARC1乃至ARC10で結合した有向グラフを記憶しており、この有向グラフに基づいて、上述したような姿勢遷移情報を生成する。
【0056】
具体的には、姿勢遷移機構部53は、行動決定機構部52から行動指令情報が供給されると、現在の姿勢に対応したノードNODEと、行動指令情報が示す次に取るべき姿勢に対応するノードNODEとを結ぶように、有向アークARCの向きに従いながら、現在のノードNODEから次のノードNODEに至る経路を探索し、探索した経路上にあるノードNODEに対応する姿勢を順番にとっていくように指示する姿勢遷移情報を生成する。
【0057】
その結果、姿勢遷移機構部53は、例えば、現在の姿勢が「ふせる」という姿勢を示すノードNODE2にある場合において、「すわれ」という行動指令情報が供給されると、有向グラフにおいて、「ふせる」という姿勢を示すノードNODE2から、「すわる」という姿勢を示すノードNODE5へは、直接遷移可能であることから、「すわる」に対応する姿勢遷移情報を生成して、制御機構部54に与える。
【0058】
また、姿勢遷移機構部53は、現在の姿勢が「ふせる」という姿勢を示すノードNODE2にある場合において、「歩け」という行動指令情報が供給されると、有向グラフにおいて、「ふせる」というノードNODE2から、「あるく」というノードNODE4に至る経路を探索する。この場合、「ふせる」に対応するノードNODE2、「たつ」に対応するNODE3、「あるく」に対応するNODE4の経路が得られるから、姿勢遷移機構部53は、「たつ」、「あるく」という順番の姿勢遷移情報を生成し、制御機構部54に送出する。
【0059】
制御機構部54は、姿勢遷移機構部53からの姿勢遷移情報にしたがって、アクチュエータ3AA1乃至5A1および5A2を駆動するための制御信号を生成し、これを、アクチュエータ3AA1乃至5A1および5A2に送出する。これにより、アクチュエータ3AA1乃至5A1および5A2は、制御信号にしたがって駆動し、ロボットは、自律的に行動を起こす。
【0060】
一方、音響処理部56は、センサ入力処理部50を構成する環境認識部50Dが出力する状態認識情報を受信し、その状態認識情報に基づいて、音声合成部55から供給される合成音の出力を制御する。即ち、音響処理部56は、状態認識情報としての、ロボットが使用される環境における雑音や、ロボットからユーザまでの距離等に対して、スピーカ18から出力される合成音が、ユーザに明確に聞こえるように、かつ耳障りとならないように、その大きさ(パワー)や高さ(周波数)等を調整して、スピーカ18に供給する。これにより、スピーカ18からは、適切な大きさおよび高さ等を有する合成音が出力される。
【0061】
次に、図7は、図3の環境認識部50Dの構成例を示している。
【0062】
A/D(Analog Digital)変換部21には、マイク15から出力される音声信号が供給されるようになっており、A/D変換部24には、CCDカメラ16から出力される画像信号が供給されるようになっている。
【0063】
A/D変換部21では、マイク15からのアナログの音声信号がA/D変換されることにより、ディジタルの音声データとされ、FFT(Fast Fourier Transform)演算部22に供給される。FFT演算部22は、A/D変換部21からの音声データを、所定のフレームごとにFFTし、その結果得られる周波数スペクトラム(を規定する係数)を、積分部23に出力する。積分部23は、FFT演算部22からの周波数スペクトラムを、周波数で積分することにより、マイク15に入力された音声のパワー(エネルギー)を、フレームごとに求め、状態認識情報として、音響処理部56に出力する。
【0064】
A/D変換部24は、CCDカメラ16からのアナログの画像信号をA/D変換し、これにより、ディジタルの画像データとして、画像処理部25に出力する。画像処理部25は、A/D変換部24からの画像データに対して、例えば、DCT(Discrete Cosine Transform)処理を施し、そのDCT処理結果に基づいて、CCDカメラ16から出力された画像信号が、ユーザを撮影したものであるかどうかを判定する。そして、画像処理部25は、CCDカメラ16から出力された画像信号が、ユーザを撮影したものであると判定した場合には、DCT処理結果等に基づいて、CCDカメラ16から出力された画像信号から、例えば、ユーザの顔の輪郭等を抽出し、距離計算部26に出力する。距離計算部26は、画像処理部25が出力するユーザの顔の輪郭の大きさに基づき、ロボットからユーザまでの距離を算出し、状態認識情報として、音響処理部56に出力する。
【0065】
以上のように構成される環境認識部50Dでは、ロボットが使用される環境における雑音を認識する環境雑音算出処理と、ロボットからユーザまでの距離を認識する距離算出処理が行われるようになっている。そこで、図8のフローチャートを参照して、これらの環境雑音算出処理および距離算出処理について説明する。
【0066】
まず最初に、図8(A)のフローチャートを参照して、環境雑音算出処理について説明する。
【0067】
環境雑音算出処理では、ステップS1において、マイク15から供給される音声信号が、A/D変換部21でA/D変換され、その結果得られる時系列の音声データx(t)が、所定のフレーム単位で、FFT演算部22に供給される(x(t)におけるtは、サンプル点を表す)。FFT演算部22では、ステップS2において、A/D変換部22からの所定のフレーム単位の音声データx(t)がFFTされ、これにより、時系列の周波数スペクトラムX(f)が求められる(fは周波数を表す)。この周波数スペクトラムX(f)は、積分部23に供給される。積分部23は、ステップS3において、FFT演算部22から供給される、いま注目している注目フレームの周波数スペクトラムX(f)を、周波数fで積分し(∫X(f)dfを演算し)、マイク15に入力された音声の、注目フレームにおけるパワーE(t)を求める(E(t)におけるtは、音声のフレームを表す)。そして、積分部23では、この音声のパワーE(t)が、状態認識情報として、音響処理部56に出力され、ステップS1に戻り、マイク15が出力する次のフレームの音声信号を対象に、以下、同様の処理が繰り返される。
【0068】
以上のようにして、音響処理部56には、マイク15に入力される音声のパワーE(t)が、所定のフレームごとに供給される。
【0069】
次に、図8(B)のフローチャートを参照して、距離算出処理について説明する。
【0070】
距離算出処理では、ステップS11において、CCDカメラ16から供給される1フレームの画像信号が、A/D変換部24でA/D変換され、その結果得られる1フレームのディジタルの画像データが、画像処理部25に供給される。画像処理部25では、ステップS12において、A/D変換部24からの1フレームの画像データが、所定のブロック単位でDCT処理される。さらに、画像処理部25では、DCT処理の結果得られるDCT係数に基づいて、ユーザ顔の輪郭が抽出され、距離計算部26に出力される。距離計算部26は、ステップS13において、画像処理部25が出力するユーザの顔の輪郭の大きさに基づき、ロボットからユーザまでの距離D(t)を算出し、状態認識情報として、音響処理部56に出力する(D(t)におけるtは、画像のフレームを表す)。そして、ステップS11に戻り、CCDカメラ16が出力する次のフレームの画像信号を対象に、以下、同様の処理が繰り返される。
【0071】
以上のようにして、音響処理部56には、ロボットからユーザまでの距離D(t)が、フレームごとに供給される。
【0072】
次に、図9は、図3の音響処理部56の構成例を示している。
【0073】
補正部31には、環境認識部50Dが状態認識情報として出力する、マイク15に入力された音声のパワーE(t)が、ロボットが使用される環境における雑音のパワーE(t)として供給され、そこでは、この雑音のパワーE(t)が補正される。即ち、補正部31は、雑音のパワーE(t)のうち、例えば、突発的で非定常な部分を排除し、その排除後のパワーE(t)を、補正後のパワーとして、聴覚フィルタ32に出力する。
【0074】
聴覚フィルタ32は、例えば、いわゆるメルフィルタで構成され、補正部31からの補正後のパワーに対して、人間の聴覚特性に基づいたフィルタリング処理を施し、そのフィルタリング結果e(t)を、調節部34に出力する。
【0075】
補正部33には、環境認識部50Dが状態認識情報として出力する、ロボットからユーザまでの距離D(t)が供給されるようになっており、そこでは、その距離D(t)が補正される。即ち、距離D(t)は、正確には、CCDカメラ16からユーザまでの距離であるため、補正部33は、その距離D(t)を、スピーカ18からユーザまでの距離d(t)となるように補正する。この補正の結果得られた距離d(t)は、調節部34に出力される。
【0076】
調整部34には、上述した雑音のパワーe(t)および距離d(t)の他、音声合成部55が出力する合成音S(t)が供給されるようになっている。調整部34は、パワーe(t)および距離d(t)に基づいて、スピーカ18から出力される合成音y(t)が、ユーザに明確に聞こえるように、かつ耳障りとならないように、音声合成部55からの合成音S(t)の大きさ(パワー)や高さ(周波数)等を調整して、スピーカ18に供給する。即ち、調整部34は、例えば、次式にしたがって、音声合成部55からの合成音S(t)を、スピーカ18から出力すべき合成音y(t)に変換し、スピーカ18に供給する。
【0077】
y(t)=ε(e(t),d(t))*S(t)
但し、関数ε(e(t),d(t))は、e(t),d(t)それぞれが大きくなるほど、大きくなるような関数で、例えば、e(t),d(t)それぞれの対数に比例するようなものを用いることができる。また、*は、畳み込み積分を表す。
【0078】
次に、図10のフローチャートを参照して、図9の音響処理部56で行われる処理(音響処理)について説明する。
【0079】
環境認識部50Dから音響処理部56に対して、パワーE(t)および距離D(t)が供給されると、音響処理部56では、まず最初に、ステップS1において、前処理が行われる。
【0080】
即ち、パワーE(t)は、補正部31に供給され、補正部31は、そのパワーE(t)を補正し、聴覚フィルタ32に出力する。聴覚フィルタ32は、補正部31の出力をフィルタリングし、そのフィルタリング結果としてのパワーe(t)を、調節部34に出力する。一方、距離D(t)は、補正部33に供給され、補正部33は、その距離D(t)を補正し、補正後の距離d(t)を、調節部34に出力する。
【0081】
調整部34は、ステップS22において、音声合成部55から供給される合成音S(t)を、パワーe(t)および距離d(t)に基づいて、上述したように調節する。そして、ステップS23に進み、調整部34は、その調節の結果得られる合成音y(t)を、スピーカ18に出力し、処理を終了する。
【0082】
以上のように、ロボットが使用される環境における雑音や、ユーザまでの距離に基づいて、合成音の出力を制御するようにしたので、合成音を、ユーザに明確に聞こえるように、かつ耳障りとならないように出力することができる。
【0083】
以上、本発明を、エンターテイメント用のロボット(疑似ペットとしてのロボット)に適用した場合について説明したが、本発明は、これに限らず、例えば、産業用のロボット等の各種のロボットに広く適用することが可能である。
【0084】
なお、本実施の形態においては、ユーザまでの距離D(t)を、画像から得られるユーザの顔の輪郭の大きさに基づいて算出するようにしたが、距離D(t)は、その他、例えば、赤外線がユーザに反射して戻ってくるまでの時間を検出して求めたり、多方向からユーザを撮影した画像を用いて、いわゆる三角測量の原理に基づいて求めるようにすることが可能である。
【0085】
また、本実施の形態では、音声合成部55において生成される合成音を対象としたが、本発明は、その他、ブザーの音等を対象とすることも可能である。
【0086】
さらに、上述したような音の出力の制御は、ロボットの他、オーディオ装置その他の音を出力する装置に適用可能である。
【0087】
また、本実施の形態においては、上述した一連の処理を、CPU10Aにプログラムを実行させることにより行うようにしたが、一連の処理は、それ専用のハードウェアによって行うことも可能である。
【0088】
なお、プログラムは、あらかじめメモリ10B(図2)に記憶させておく他、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。そして、このようなリムーバブル記録媒体を、いわゆるパッケージソフトウエアとして提供し、ロボット(メモリ10B)にインストールするようにすることができる。
【0089】
また、プログラムは、リムーバブル記録媒体からインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、有線で転送し、メモリ10Bにインストールすることができる。
【0090】
この場合、プログラムがバージョンアップされたとき等に、そのバージョンアップされたプログラムを、メモリ10Bに、容易にインストールすることができる。
【0091】
ここで、本明細書において、CPU10Aに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0092】
また、プログラムは、1のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
【0093】
【発明の効果】
本発明の音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体によれば、ロボットから出力する音響信号が生成される一方、ロボットが使用される環境が認識され、その環境の認識結果に基づいて、音響信号の出力が制御される。従って、例えば、ユーザに明確に聞こえるように、かつ耳障りとならないように、音響信号を出力することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの一実施の形態の外観構成例を示す斜視図である。
【図2】図1のロボットの内部構成例を示すブロック図である。
【図3】図2のコントローラ10の機能的構成例を示すブロック図である。
【図4】感情/本能モデルを示す図である。
【図5】行動モデルを示す図である。
【図6】姿勢遷移機構部54の処理を説明するための図である。
【図7】環境認識部50Dの構成例を示すブロック図である。
【図8】環境認識部50Dの処理を説明するためのフローチャートである。
【図9】音響処理部56の構成例を示すブロック図である。
【図10】音響処理部56の処理を説明するためのフローチャートである。
【符号の説明】
10 コントローラ, 10A CPU, 10B メモリ, 15 マイク, 16 CCDカメラ, 17 タッチセンサ, 18 スピーカ, 21 A/D変換部, 22 FFT演算部, 23 積分部, 24 A/D変換部, 25 画像処理部, 26 距離計算部, 31 補正部, 32 聴覚フィルタ, 33 補正部, 34 調節部, 50 センサ入力処理部, 50A 音声認識部, 50B 画像認識部, 50C 圧力処理部, 50D 環境認識部, 51 感情/本能モデル部, 52 行動決定機構部, 53 姿勢遷移機構部, 54 制御機構部, 55 音声合成部, 56 音響処理部
Claims (4)
- ロボットから出力される合成音 S(t)の出力特性を制御する音響信号出力制御装置であって、
音声合成を行い、前記ロボットから出力する前記合成音 S(t)を生成する生成手段と、
前記ロボットが使用される環境を認識する認識手段と、
前記認識手段による環境の認識結果に基づいて、前記合成音 S(t)の出力特性を制御する制御手段と
を備え、
前記認識手段は、前記ロボットが使用される環境における雑音のパワー E(t)を認識するとともに、前記ロボットからユーザまでの距離 d(t) も認識し、
前記制御手段は、
前記認識手段により認識された前記雑音のパワー E(t)に対して、人間の聴覚特性に基づいたフィルタリング処理を施してフィルタリング結果 e(t) を生成し、
次式に基づいて、前記合成音 S(t) を合成音 y(t) に変換する
y( t ) =ε (e(t) , d(t)) * S(t)
ただし、関数ε (e(t) , d(t)) は、前記フィルタリング結果 e(t) 、および前記ユーザまでの距離 d(t) それぞれが大きくなるほど、大きくなるような関数であり、*は、畳み込み積分を表す
音響信号出力制御装置。 - 前記認識手段は、前記ユーザを撮像する撮像手段により撮像された画像、又は、赤外線が前記ユーザに反射して前記ロボットに戻ってくるまでの時間を検出する検出手段により検出された時間に基づいて、前記ロボットから前記ユーザまでの距離d(t)を認識する
請求項1に記載の音声信号出力制御装置。 - ロボットから出力される合成音 S(t)の出力特性を制御する音響信号出力制御装置の音響信号出力制御方法であって、
音声合成を行い、前記ロボットから出力する前記合成音 S(t)を生成する生成ステップと、
前記ロボットが使用される環境を認識する認識ステップと、
前記認識ステップでの環境の認識結果に基づいて、前記合成音 S(t)の出力特性を制御する制御ステップと
を含み、
前記認識ステップは、前記ロボットが使用される環境における雑音のパワー E(t)を認識するとともに、前記ロボットからユーザまでの距離 d(t) も認識し、
前記制御ステップは、
前記認識ステップで認識された前記雑音のパワー E(t)に対して、人間の聴覚特性に基づいたフィルタリング処理を施してフィルタリング結果 e(t) を生成し、
次式に基づいて、前記合成音 S(t) を合成音 y(t) に変換する
y( t ) =ε (e(t) , d(t)) * S(t)
ただし、関数ε (e(t) , d(t)) は、前記フィルタリング結果 e(t) 、および前記ユーザまでの距離 d(t) それぞれが大きくなるほど、大きくなるような関数であり、*は、畳み込み積分を表す
音響信号出力制御方法。 - ロボットから出力される合成音 S(t)の出力特性の制御を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
音声合成を行い、前記ロボットから出力する前記合成音 S(t)を生成する生成ステップと、
前記ロボットが使用される環境を認識する認識ステップと、
前記認識ステップでの環境の認識結果に基づいて、前記合成音 S(t)の出力特性を制御する制御ステップと
を含み、
前記認識ステップは、前記ロボットが使用される環境における雑音のパワー E(t)を認識するとともに、前記ロボットからユーザまでの距離 d(t) も認識し、
前記制御ステップは、
前記認識ステップで認識された前記雑音のパワー E(t)に対して、人間の聴覚特性に基づいたフィルタリング処理を施してフィルタリング結果 e(t) を生成し、
次式に基づいて、前記合成音 S(t) を合成音 y(t) に変換する
y( t ) =ε (e(t) , d(t)) * S(t)
ただし、関数ε (e(t) , d(t)) は、前記フィルタリング結果 e(t) 、および前記ユーザまでの距離 d(t) それぞれが大きくなるほど、大きくなるような関数であり、*は、畳み込み積分を表す
処理を実行させるプログラムが記録されている
記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34047099A JP4161490B2 (ja) | 1999-11-30 | 1999-11-30 | 音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34047099A JP4161490B2 (ja) | 1999-11-30 | 1999-11-30 | 音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001154679A JP2001154679A (ja) | 2001-06-08 |
JP4161490B2 true JP4161490B2 (ja) | 2008-10-08 |
Family
ID=18337278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34047099A Expired - Fee Related JP4161490B2 (ja) | 1999-11-30 | 1999-11-30 | 音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4161490B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11232781B2 (en) | 2017-04-17 | 2022-01-25 | Sony Corporation | Information processing device, information processing method, voice output device, and voice output method |
-
1999
- 1999-11-30 JP JP34047099A patent/JP4161490B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001154679A (ja) | 2001-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7320239B2 (ja) | 音源の方向を認識するロボット | |
US7321853B2 (en) | Speech recognition apparatus and speech recognition method | |
JP4131392B2 (ja) | ロボット装置およびロボット制御方法、記録媒体、並びにプログラム | |
US7065490B1 (en) | Voice processing method based on the emotion and instinct states of a robot | |
KR100814569B1 (ko) | 로봇 제어 장치 | |
JP7173031B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2004299033A (ja) | ロボット装置、情報処理方法、およびプログラム | |
WO2019087478A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2001212782A (ja) | ロボット装置及びロボット装置の制御方法 | |
JP2002049385A (ja) | 音声合成装置、疑似感情表現装置及び音声合成方法 | |
JP2004034273A (ja) | ロボット発話中の動作プログラム生成装置及びロボット | |
JP4161490B2 (ja) | 音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体 | |
JP2002116792A (ja) | ロボット制御装置およびロボット制御方法、並びに記録媒体 | |
JP7156300B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP4587009B2 (ja) | ロボット制御装置およびロボット制御方法、並びに記録媒体 | |
JP4210897B2 (ja) | 音源方向判断装置及び音源方向判断方法 | |
JP2001154693A (ja) | ロボット制御装置およびロボット制御方法、並びに記録媒体 | |
KR102519599B1 (ko) | 멀티모달 기반의 인터랙션 로봇, 및 그 제어 방법 | |
JP2001212780A (ja) | 行動制御装置および行動制御方法、並びに記録媒体 | |
JP2004283927A (ja) | ロボット制御装置および方法、記録媒体、並びにプログラム | |
JP2007241304A (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
EP3862838B1 (en) | Control device for mobile unit, control method for mobile unit, and program | |
JP2005335001A (ja) | ロボット制御装置および方法、記録媒体、並びにプログラム | |
JP6908636B2 (ja) | ロボットおよびロボットの音声処理方法 | |
JP4742415B2 (ja) | ロボット制御装置およびロボット制御方法、並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080701 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080714 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120801 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |