JP2002323900A

JP2002323900A - ロボット装置、プログラム及び記録媒体

Info

Publication number: JP2002323900A
Application number: JP2001126473A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野; Kenta Kawamoto; 献太河本; Kotaro Sabe; 浩太郎佐部; Atsuo Hiroe; 厚夫廣江; Takeshi Ohashi; 武史大橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-04-24
Filing date: 2001-04-24
Publication date: 2002-11-08

Abstract

(57)【要約】【課題】ロボットのモータやギアの回転時に発生する
雑音による影響を抑えて音声認識の精度を高める。【解決手段】ロボットの頭部ユニット３に設けられた
マイクロホン９からの音データに基づき音声認識を行う
際に、ロボットに設けられたモータ等の回転速度や回転
角度、及びマイクロホン９の位置Ａとモータ位置Ｂとの
距離を用いて、そのモータが回転時に発生する雑音を高
精度に推定し、マイクロホン９で観測される雑音データ
に関する雑音モデルを高精度にモデル化することで、雑
音処理、すなわち雑音の除去や、音響モデルや言語モデ
ルの適応等を高精度に行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識機能を有
するロボット装置、プログラム及び記録媒体に関し、特
に、ロボットが動作時に自ら雑音を発生する環境下にお
いても認識精度の高い音声認識が行えるようなロボット
装置、プログラム及び記録媒体に関する。

【０００２】

【従来の技術】ユーザ（使用者）あるいはオーナ（所有
者、飼い主）からの指令や周囲の環境に応じて動作する
ロボット装置が知られている。このロボット装置は、マ
イクロホン、カメラ、圧力センサからの入力信号等に応
じて、頭部、脚部等に設けられたモータ等のアクチュエ
ータを駆動することで、頭部や脚部を駆動し、様々な姿
勢制御や、動作を行うものである。

【０００３】また、音響モデル、言語モデル等に基づい
て、入力音声に対応する単語系列を決定する音声認識の
技術も知られている。

【０００４】これらの音声認識技術やロボット制御技術
等を組み合わせて、音声認識の結果をロボットの動作の
制御に反映させるシステムも実現されている。このよう
なシステム一例としては、荷物の仕分けにおいて、音声
認識を利用して荷物の振り分け先を変更するシステムが
ある。また、産業用ロボットの他、擬似ペットとして
の、エンタテインメント用のロボットにおいても、音声
認識結果に基づいて、各種の行動を起こすものが知られ
ている。

【０００５】

【発明が解決しようとする課題】ところで、音声認識機
能部をロボットに搭載した場合に、ロボットが自ら発生
する雑音が音声認識の認識性能を劣化させる、という問
題が発生する。特に、ロボットが頭部や脚部等を動かす
際に発生するモータやギアの動作音は、ロボットのマイ
ク等の集音手段までの距離が近いと非常に大きな雑音と
なるため、これが入力音声信号に重畳されると、音声認
識率を大幅に低下させることになる。

【０００６】本発明は、上述の実情に鑑みて提案された
ものであり、モータやギアの動作音による雑音の影響を
低減して音声認識率の低下を防止できるようなロボット
装置、プログラム及び記録媒体を提供することを目的す
る。

【０００７】

【課題を解決するための手段】上述の課題を解決するた
めに、本発明に係るロボット装置は、連結部を介して連
結された各部を動かすための駆動手段と、周囲の音信号
を集音する集音手段と、上記集音手段からの音声信号を
認識する音声認識手段とを有し、上記音声認識手段は、
上記駆動手段の動作により発生する雑音に基づいて雑音
処理を行うことを特徴とする。

【０００８】ここで、上記雑音処理は、上記駆動手段の
動作速度、動作状態、及び該駆動手段と上記集音手段と
の距離に基づいて行うことが挙げられる。また、上記駆
動手段はモータ、ギアを有し、上記雑音処理は、これら
のモータやギアの回転速度、回転角度、及び各モータや
ギアと上記集音手段との距離に基づいて行うことが挙げ
られる。

【０００９】また、本発明に係るプログラムは、上述の
課題を解決するために、連結部を介して連結された各部
を動かすための駆動手段と、周囲の音信号を集音する集
音手段と、上記集音手段からの音声信号を認識する音声
認識手段とを有するロボット装置における音声認識処理
のプログラムであって、上記音声認識処理は、上記駆動
手段の動作により発生する雑音に基づいて雑音処理を行
うことを特徴とする。

【００１０】さらに、本発明に係る記録媒体は、上述の
課題を解決するために、連結部を介して連結された各部
を動かすための駆動手段と、周囲の音信号を集音する集
音手段と、上記集音手段からの音声信号を認識する音声
認識手段とを有するロボット装置における音声認識処理
のプログラムが記録される記録媒体であって、上記音声
認識処理は、上記駆動手段の動作により発生する雑音に
基づいて雑音処理を行うことを特徴とする。

【００１１】

【発明の実施の形態】以下、本発明に係るロボット装置
の実施の形態について、図面を参照しながら詳細に説明
する。この実施の形態は、本発明を、脚部或いは腕部等
の動作部を有するロボット装置に適用したものである。
ロボット装置としては、例えば、図１に示すような４足
歩行の動物型ロボット装置や、二足歩行の人間型ロボッ
ト装置等が挙げられる。

【００１２】図１は、本発明の実施の形態としてのロボ
ット装置の外観構成を示す斜視図である。この図１に示
す具体例のロボット装置は、例えば「犬」を模した形状
のいわゆるペットロボットとされ、胴体部ユニット２に
は、その前部に頭部ユニット３が取り付けられ、また、
胴体部ユニット２の前後左右には、それぞれ大腿部ユニ
ット４Ａ〜４Ｄ、及び脛部ユニット５Ａ〜５Ｄからなる
脚部ユニット６Ａ〜６Ｄが取り付けられている。さら
に、胴体部ユニット２の後端部には、尻尾部ユニット１
５が取り付けられている。

【００１３】胴体部ユニット２と、頭部ユニット３、大
腿部ユニット４Ａ〜４Ｄ及び尻尾部ユニット１５との各
連結部分、各大腿部ユニット４Ａ〜４Ｄと、それぞれ対
応する脛部ユニット５Ａ〜５Ｄとの各連結部分等には、
図２に示すように、アクチュエータとしてのモータ（例
えばサーボモータ）７_１〜７_Ｎが取り付けられており、
これらの対応するモータ７_１〜７_Ｎを駆動することによ
って、頭部ユニット３及び尻尾部ユニット１５を、ｘ
軸、ｙ軸、ｚ軸の３軸それぞれを中心とする方向に自在
に回転させ、大腿部ユニット４Ａ〜４Ｄを、ｘ軸、ｙ軸
の２軸それぞれを中心とする方向に自在に回転させ、か
つ脛部ユニット５Ａ〜５Ｄを、ｙ軸の１軸を中心とする
方向に自在に回転させ得るようになっており、これによ
り、ロボットは、各種の行動を行うことができるように
なっている。

【００１４】頭部ユニット３には、使用者（ユーザ、オ
ーナ）を含む外部の状況の画像を撮像するためのＣＣＤ
（Charge Coupled Device）カメラ８と、使用者の音声
を含む外部音を集音するためのマイクロホン（マイク）
９と、使用者からの「撫でる」や「叩く」といった物理
的な働きかけにより受けた圧力を検出するためのタッチ
センサあるいは圧力センサ１０とがそれぞれ所定位置に
取り付けられており、また、胴体部ユニット２内には、
制御部１１が内蔵されている。この他、前方に位置する
物体までの距離を測定するための距離センサや、鳴き声
等の音声を出力するためのスピーカや、ロボット装置１
の「目」に相当するＬＥＤ（Light Emitting Diode）
（いずれも図示せず）等が必要に応じてそれぞれ所定位
置に配置されている。

【００１５】カメラ８により撮像された周囲の状況の画
像信号や、マイクロホン９により集音された周囲の音信
号、圧力センサ１０により検出された使用者からの上記
物理的な働きかけに応じた圧力検出信号は、それぞれ画
像データ、音データ、圧力検出データとして、制御部１
１に送られる。

【００１６】ロボットの各関節機構等となる上記各連結
部分に対応するモータ７_１〜７_Ｎについては、それぞれ
に対応させてモータの回転軸の回転角度測定器１２_１〜
１２ _Ｎ及びモータの回転軸の回転速度測定器１３_１〜１
３_Ｎが設けられており、対応するモータの回転軸の回転
角度、回転速度が検出される。検出された回転角度、回
転速度の検出データは、制御部１１に送られる。

【００１７】制御部１１は、カメラ８からの画像データ
と、マイクロホン９からの音データと、圧力センサ１０
からの圧力検出データと、各モータ７_１〜７_Ｎの回転角
度測定器１２_１〜１２_Ｎからの回転角度検出データ及び
回転速度測定器１３_１〜１３ _Ｎからの回転速度検出デー
タとに基づいて、周囲の状況や、自分の姿勢等を判断す
ると共に、予めインストールされている制御プログラム
に基づいて、続く行動を決定し、その決定結果に基づい
て、必要なモータ７_１〜７_Ｎを駆動させるようにしてい
る。

【００１８】これにより、ロボットは、頭部ユニット３
や、尻尾部ユニット１５、各脚部ユニット６Ａ〜６Ｄを
動かして所望の状態にし、自律的に行動する。

【００１９】次に、図３は、図２の制御部１１の構成例
を示している。

【００２０】制御部１１は、ＣＰＵ（Central Processi
ng Unit）２０、プログラムメモリ２１、ＲＡＭ（Rando
m Access Memory）２２、不揮発性メモリ２３、インタ
ーフェース回路（Ｉ／Ｆ）２４、及びモータドライバ２
５が、バス２６を介して接続されている。

【００２１】ＣＰＵ２０は、プログラムメモリ２１に記
憶されている制御プログラムを実行することにより、ロ
ボットの行動を制御する。プログラムメモリ２１は、例
えばＥＥＰＲＯＭ（Electrically Erasable Read Only
Memory）等で構成され、ＣＰＵ２０が実行する制御プロ
グラムや必要なデータを記憶している。ＲＡＭ２２は、
ＣＰＵ２０の動作上必要なデータ等を一時的に記憶す
る。不揮発性メモリ２３は、後述するような行動モデ
ル、音響モデル、言語モデル等のような、電源がオフ状
態とされた後も保持する必要のあるデータを記憶する。
インターフェース回路（Ｉ／Ｆ）２４は、カメラ８、マ
イクロホン９、圧力センサ１０、モータの回転角度測定
器１２_１〜１２_Ｎ及び回転速度測定器１３_１〜１３_Ｎか
らそれぞれ供給されるデータを受信し、ＣＰＵ２０に供
給する。

【００２２】制御部１１は、ＣＰＵ２０において、プロ
グラムメモリ２１に記憶された制御プログラムが実行さ
れることにより、ロボットの行動を制御する。

【００２３】次に、図４は、制御部１１の機能的な構成
例を示している。センサ入力処理部３０は、外部から与
えられる刺激や、外部の状態を、マイクロホン９や、カ
メラ８、圧力センサ１０等からの出力に基づいて認識
し、行動決定部３１に供給するものである。行動決定部
３１は、行動モデル記憶部３２を内蔵しており、この記
憶内容や、センサ入力処理部３０の出力、時間の経過等
に基づいて、その後にロボットが行う行動を決定し、そ
の情報（以下、行動情報という。）を、姿勢遷移部３３
に供給する。

【００２４】姿勢制御部３３は、行動決定部３１から供
給される行動情報に対応する行動をロボットに行わせる
ためのモータ７_１〜７_Ｎの回転角度や回転速度等の制御
データを演算し、モータ制御部３４に出力する。

【００２５】以上のように構成される制御部１１では、
センサ入力処理部３０において、カメラ８から供給され
る画像データや、マイクロホン９から供給される音声デ
ータ、圧力センサ１０から出力される圧力検出データ等
に基づいて、特定の外部状態や、使用者からの働きか
け、使用者からの指示等が認識され、その認識結果が行
動決定部３１に出力される。

【００２６】すなわち、センサ入力処理部３０は、カメ
ラ８が出力する画像データに基づいて画像認識を行い、
例えば、「ボールがある」とか、「壁がある」といった
ことを認識して、その認識結果を行動決定部３１に供給
する。また、センサ入力処理部３０は、マイクロホン９
が出力する音声データに基づいて音声認識を行い、例え
ば、「ボールを蹴れ」とか、「止まれ」といった使用者
の声を認識し、その音声認識結果を行動決定部３１に供
給する。さらに、センサ入力処理部３０は、圧力センサ
１０からの圧力検出データを処理し、例えば、所定の閾
値以上で、かつ短時間の圧力を検出したときには「叩か
れた」と認識し、また、所定の閾値未満で、かつ長時間
の圧力を検出したときには「撫でられた」と認識して、
その認識結果を行動決定部３１に供給する。

【００２７】行動決定部３１は、ロボットの行動を規定
する行動モデルを行動モデル記憶部３２として有してい
る。この行動モデルとは、例えば図５に示すような確率
オートマトンで構成される。この図５に示す確率オート
マトンでは、行動は、ノード（状態）Ｎ_１〜Ｎ_ｍで表
現され、行動の遷移は、ある行動に対応するノードＮ _ａ
から、他の行動（同一の行動である場合もある）に対
応するノードＮ_ｂへの遷移を表すアークＡ_ａｂで表現
される。各ノード間の遷移を表すアークＡ_ａｂには、対
応する遷移確率Ｐ_ａｂが設定されており、また、各ノー
ドＮ_ｉ（ｉ＝１，２，・・・，ａ，ｂ，・・・，ｍ）
には、そのノードに対応する行動が生起する生起確率Ｐ
_ｉが設定されている。そして、行動モデルでは、ある
行動の次に、どのような行動をとるかは、アークに設定
されている遷移確率と、ノードに設定されている行動の
生起確率とから決定される。

【００２８】図４の行動決定部３１は、上述したような
行動モデルの、現在の行動（以下、現在行動という。）
に対応するノードからどのノードに遷移するかを、現在
行動に対応するノードから延びるアークに設定されてい
る遷移確率、及びそのアークによって示される遷移先の
ノードに設定されている行動の生起確率、センサ入力処
理部３０が出力する外部の認識結果、及び時間の経過に
基づいて決定し、遷移後のノードに対応する行動（以
下、遷移行動という。）を表す行動情報を、姿勢遷移部
３３に供給する。また、行動決定部３１は、モータ７_１
〜７_Ｎの回転角度測定器１２_１〜１２_Ｎ及び回転速度測
定器１３_１〜１３_Ｎから供給されるデータに基づき、現
在のロボットの姿勢を認識し、その姿勢から、自然な形
で遷移行動を起こすことができるような行動情報を、姿
勢遷移部３３に出力するものである。

【００２９】姿勢遷移部３３は、行動決定部３１から供
給される行動情報に基づいて、現在の姿勢から次の姿勢
に遷移するための姿勢遷移情報を生成し、モータ制御部
３４に出力する。すなわち、姿勢遷移部３３は、行動決
定部３１を介して、モータ７ _１〜７_Ｎの回転角度測定器
１２_１〜１２_Ｎ及び回転速度測定器１３_１〜１３_Ｎから
供給されるデータに基づいて現在の姿勢を認識し、行動
決定部３１からの行動情報に対応する行動（遷移行動）
を、ロボットにとらせるためのモータ７_１〜７ _Ｎの回転
角度や回転速度を計算し、姿勢遷移情報として、モータ
制御部３４に出力する。

【００３０】モータ制御部３４は、姿勢遷移部３３から
の姿勢遷移情報に基づいて、モータ７_１〜７_Ｎを駆動す
るための駆動信号を生成し、モータ７_１〜７_Ｎに供給す
る。これにより、モータ７_１〜７_Ｎは回転駆動され、ロ
ボットは遷移行動を行う。

【００３１】次に、図６は、上記図４のセンサ入力処理
部３０の内、上記図１のマイクロホン９からの音データ
ＳＤを用いて音声認識を行う部分（以下、音声認識装置
という。）の機能的構成例を示している。

【００３２】この図６に示す音声認識装置は、音声区間
検出部４０、雑音処理部４１、音響分析部４２、認識部
４３、音響モデル４４及び言語モデル４５を有し、さら
に、雑音モデル４６を有して構成されている。先ず、上
記マイクロホン９から入力された音データＳＤは、音声
区間検出部４０に送られ、音声部分のデータが抽出され
る。これは、例えば、入力音データＳＤのパワーが閾値
以上になれば音声部分、閾値以下であれば無音声部分と
して判別され、音声部分を含むデータを音声データとし
て抽出する。そして、音声区間検出部４０で抽出された
音声区間情報が、上記マイクロホン９から入力される音
データＳＤと共に、雑音処理部４１に供給される。

【００３３】雑音処理部４１は、音データに対して雑音
処理を施す。雑音処理としては、例えば、ローパスフィ
ルタのような低周波数の雑音成分を除去する処理や、ス
ペクトラルサブトラクションと称される雑音除去処理が
行われる。スペクトラルサブトラクションとは、予め雑
音のスペクトルの推定値を求め、これを雑音モデル４６
として記憶し、この雑音モデル４６に記憶された雑音の
推定スペクトルを、マイクロホン９から入力される音デ
ータを分析して得られるスペクトルから引き去ることに
よって行われる雑音処理方法である。スペクトラルサブ
トラクションにローパスフィルタが用いられる場合に
は、フィルタのパラメータが雑音モデル４６として記憶
される。そして、マイクロホン９から入力された音デー
タＳＤは、雑音処理部４１で雑音処理を施された後、音
響分析部４２に送られる。

【００３４】音響分析部４２では、認識に必要な特徴量
の抽出が微小時間間隔で行われる。例えば、信号のエネ
ルギ、零交差数、ピッチ、周波数特性、及びこれらの変
化量等が抽出される。周波数分析には、線形予測分析
（ＬＰＣ）、高速フーリエ変換（ＦＦＴ）、バンドパス
フィルタ（ＢＰＦ）等が用いられる。そして、この特徴
量系列が認識部４３に送られる。

【００３５】認識部４３では、音響モデル４４と言語モ
デル４５とを用いて、音響分析部４２から送られてくる
特徴量系列に対応する単語系列の決定が行われ、その認
識結果が出力される。認識手法としては、例えばＨＭＭ
（Hidden Markov Model:隠れマルコフモデル）等が用い
られる。

【００３６】ＨＭＭとは、状態遷移確率と出力確率密度
関数を持つ状態遷移モデルのことで、状態を遷移しなが
ら特徴量系列を出力する確率値を累積していくことによ
って尤度を決定し、その値がスコアとして使われる。Ｈ
ＭＭの遷移確率・出力確率密度関数等は、学習用のデー
タを用いて、予め学習過程において決定がなされる。

【００３７】音響モデルは、音素、音節、単語、フレー
ズ、文等、種々のレベルでモデル化することが可能であ
る。例えば、日本語の仮名、「あ」、「い」、「う」、
「え」、「お」、「か」、「き」、・・・、「ん」を単
位とする音響モデルを用いる場合、これを組み合わせる
ことで、「はい」、「いいえ」、「おはよう」、「いま
なんじですか」等、種々の言葉を構成することが可能に
なる。そして、それらの言葉に対して、入力される特徴
量系列との類似度を表すスコアの計算を行うことが可能
となる。ここで、音響モデルを接続するための情報とし
て、言語モデル４５が使用される。言語モデルには、大
きく分けて、辞書と文法との２つがある。辞書とは、認
識対象となる各単語を構成するために、音響モデルをど
のように接続するかを与えるものである。文法とは、単
語と単語をどのように接続するかを与えるものである。

【００３８】例えば、「（数字）時から（数字）時ま
で」という文を扱いたい場合、先ず、「０（ゼロ）」、
「１（いち）」、・・・、「２４（にじゅうよん）」と
いう数字と、「時（じ）」「から」、「まで」という語
に関して、それぞれ読み仮名を含めて辞書として持つこ
とで、仮名を単位とする音響モデルの接続関係を与え
る。次に、「（数字）」＋「時」＋「から」＋「（数
字）」＋「時」＋「まで」というルールを文法として持
つことで、単語の接続関係を与える。これらの辞書と文
法とを組み合わせることによって、「１時から２時ま
で」や「２時から５時まで」等、それぞれの文と入力さ
れる特徴量系列との類似度が計算できることになり、そ
の中で最もスコアの高いものを認識結果として出力する
ことが可能になるわけである。具体的には、接続された
単語列に対応するＨＭＭを構成し、特徴量系列に従っ
て、ＨＭＭの状態遷移確率と出力確率密度関数を累積し
ていくことで、その累積値であるスコアが認識部４３で
計算される。そして、そのスコアが最も高くなる単語系
列が、音声認識結果として認識部４３より出力される。
認識部４３による音声認識結果は、センサ入力処理部３
０の出力として、上記図４の行動決定部３１に送られ
る。

【００３９】ここで、上述した音声認識処理におけるス
コアの計算は、音響モデル４４によって与えられる音響
的なスコアと、言語モデル４５によって与えられる言語
的なスコアとを総合評価することで行われる場合もあ
る。言語的なスコアとは、例えば、バイグラム等の単語
と単語の遷移確率に基づいて与えられるスコアである。

【００４０】雑音処理部４１で行う雑音処理としては、
上述したような音データから雑音を除去する方法以外
に、例えば、音響モデル４４を雑音に適応させる方法等
も用いられる。この音響モデルを雑音に適応させる方法
としては、ＰＭＣ（parallel model combination）等が
ある。これは、静かな環境で発声した音声信号から学習
した音響モデル４４と、雑音信号をモデル化した雑音モ
デル４６とを結合することで、雑音に強い新たな音響モ
デルを合成する手法である。この場合、雑音処理部４１
は、観測される雑音信号によって雑音モデル４６を更新
し、さらに、その更新した雑音モデル４６と音響モデル
４４とを結合することで音響モデルの適応を行う。さら
にまた、雑音処理としては、言語モデル４５を雑音に適
応させる方法も用いられる。言語モデルの適応として
は、辞書に含まれる音響モデルの接続関係（以下、発音
情報という。）を、雑音を考慮したものに適応する方法
や、雑音の大きな時には語彙数を減らしたり文法の複雑
さを簡単なものにする等して、受け付ける単語系列に制
限をかける方法等がある。

【００４１】雑音処理部４１で行われる雑音処理は、雑
音信号を推定する精度、あるいは雑音をモデル化する精
度が、その雑音対策手法の性能を大きく左右する。

【００４２】雑音の推定方法としては、入力信号中の音
声が含まれない部分、例えば、入力音声信号の直前の無
音声部分等を用いて、雑音信号の周波数特性を推定する
方法等が広く行われている。しかしながら、この方法で
は、実際に音声部分に重畳されている雑音信号の周波数
特性や音の大きさが、推定値とずれることにで、推定誤
差が発生するという問題がある。

【００４３】次に、ロボットが発生する雑音、特に、ロ
ボットが頭部、脚部等を動かす際に発生するモータの回
転音や、ギアの回転音について考える。例えば、図７に
示される姿勢から図８に示される姿勢に、すなわち、脚
部６Ｂをｘｚ平面上で図７の状態から図８の状態に変化
させる場合、大腿部ユニット４Ｂは位置Ｂのｙ軸を中心
として回転させ、脛部ユニット５Ｂも位置Ｃのｙ軸を中
心として回転させることになる。このとき発生する雑音
は、それぞれのユニットを回転させる角度、回転させる
速度に応じて、その雑音特性が異なったものとなる。こ
れは、大腿部ユニット４Ｂ及び脛部ユニット５Ｂを回転
させる際の、モータの回転速度や回転角に応じて雑音の
特性が変化することに加えて、マイクロホン９とモータ
の位置関係が変化することに起因する。雑音特性が変化
するとは、具体的には、周波数特性が変化したり、雑音
の大きさ（パワー）が変化することである。

【００４４】ところで、ロボットの行う動作は、制御部
１１から送られるモータの駆動信号に基づいて行われ
る。すなわち、制御部で決定される遷移行動がモータの
回転速度を決定することになるので、自ら行う動作に関
しては、その動作と対応するモータの回転速度を予め推
定しておくことが可能となる。あるいはまた、モータに
取り付けられた回転角度測定器１２_１〜１２_Ｎと回転速
度測定器１３_１〜１３_Ｎにおいて、リアルタイムにモー
タの回転角度や回転速度を計測することも可能である。
その結果、大腿部ユニット４Ｂ及び脛部ユニット５Ｂの
回転角度に基づいて、雑音発生源であるモータとマイク
ロホン９との距離を計算することも可能となる。例え
ば、図７、図８の例において、マイクロホン位置をＡ、
大腿部ユニット４Ｂに取り付けられたモータの位置を
Ｂ、脛部ユニットに取り付けられたモータの位置をＣと
すると、頭部を動かさない場合、マイクロホン位置Ａと
モータ位置Ｂとの距離ＡＢは、図７、図８で一定であ
り、これは頭部ユニット３におけるマイクロホン９の設
定位置Ａ、頭部ユニット３と胴体部ユニット２の接続位
置、及び、胴体部ユニット２における大腿部４Ｂに取り
付けられたモータの設定位置Ｂから、一意に決定され
る。マイクロホン位置Ａとモータ位置Ｃとの距離ＡＣ
は、図７，図８で異なるが、この距離ＡＣも、距離Ａ
Ｂ、距離ＢＣ、及びＡＢとＢＣとのなす角度Ｑの３つの
値から、ＡＣ＝（ＡＢ^２＋ＢＣ^２−２ＡＢ×ＢＣ×cosＱ）
^１／２を計算することで求めることができる。

【００４５】この例では、ｘｚ平面での簡単な動作を例
として説明したが、ｘｙｚ空間で行う全ての動作に関し
ても、同様に、全てのモータ７_１〜７_Ｎの回転速度、及
び各モータとマイクロホンとの距離を求めることが可能
である。

【００４６】そこで、モータ７_１〜７_Ｎの回転速度、及
びモータ７_１〜７_Ｎとマイクロホン９との距離を用いる
ことで、雑音の推定精度を向上させる方法を考える。

【００４７】例えば、モータの回転速度が分かれば、そ
の回転速度から、モータの回転音の周波数特性を推定す
ることが可能である。具体的な推定方法としては、各モ
ータが発生する回転音に関して、様々な回転速度に応じ
て発生する回転音を、マイクロホンからの距離を一定に
した状態で実際に集音し、その集音された音データを、
雑音データとして、図９に示すように記憶しておく。こ
の図９の例では、モータ７_１〜７_Ｎの回転速度を、０〜
ａ、ａ〜ｂ、ｂ〜ｃ、ｃ〜ｄに区分し、それぞれの回転
速度範囲における雑音データをテーブルとして記憶して
いる。そして、音声認識時に用いる雑音モデルとして
は、実際にモータを駆動する際の各モータの回転速度に
基づいて、対応する回転速度範囲の雑音データをモータ
毎に選択し、さらに、マイクロホンとモータの距離に基
づいて、各雑音データの大きさ（ゲイン）を調整した
後、それぞれを足し合わせることで、これを雑音信号の
推定値とする。そして、この推定雑音信号から、雑音モ
デル４６の更新を行い、これを用いて雑音処理を施す。

【００４８】あるいは、各モータの回転速度に応じた雑
音信号だけでなく、各モータの回転速度及びモータとマ
イクロホンとの距離に応じて、雑音データを記憶してお
く方法も考えられる。また、モータの回転角度に応じ
て、雑音データを記憶しておくことも挙げられる。

【００４９】さらにまた、頭部を回転させる、頭部を傾
ける、脚部を駆動して歩行する、尻尾を振る、頭部を傾
けると同時に右前脚部を持ち上げる等、様々な遷移行動
で行われるモータ駆動の雑音データを、それぞれの動作
に応じて、予め集音し、記憶しておくことで、各動作に
応じた雑音モデルの推定精度を向上させることも可能で
ある。

【００５０】なお、本実施の形態では、モータの発する
回転音に関して説明を行ったが、頭部、脚部を駆動する
際に、モータとギアを組み合わせて駆動を行うロボット
の場合、ギアの回転時にも雑音が発生する。この雑音に
関しても、本実施の形態で説明したような、モータの場
合と同様に、ギアの回転速度、ギアの回転角度、マイク
ロホンとギアの距離に基づいて、そのギアが発生する雑
音を高精度に推定し、対応する雑音モデルを高精度に求
めることが可能である。

【００５１】ところで、上述した本発明の実施の形態に
おいては、本発明を「犬」等の動物を模した形状で四足
歩行タイプのいわゆるペット型ロボットに適用した例に
ついて説明したが、本発明はこれに限定されず、例え
ば、人間型等の二足歩行タイプのロボットにも適用可能
である。

【００５２】以下、本発明を適用可能な人間型ロボット
装置について説明する。図１０及び図１１には、人間型
ロボット装置２００の前方及び後方の各々から眺望した
外観を示している。さらに、図１２には、この人間型ロ
ボット装置２００が具備する関節自由度構成を模式的に
示している。

【００５３】図１２に示すように、人間型ロボット装置
２００は、２本の腕部と頭部２０１を含む上肢と、移動
動作を実現する２本の脚部からなる下肢と、上肢と下肢
とを連結する体幹部とで構成される。

【００５４】頭部２０１を支持する首関節は、首関節ヨ
ー軸２０２と、首関節ピッチ軸２０３と、首関節ロール
軸２０４という３自由度を有している。

【００５５】また、各関節は、肩関節ピッチ軸２０８
と、肩関節ロール軸２０９と、上腕ヨー軸２１０と、肘
関節ピッチ軸２１１と、前腕ヨー軸２１２と、手首関節
ピッチ軸２１３と、手首関節ロール輪２１４と、手部２
１５とで構成される。手部２１５は、実際には、複数本
の指を含む多関節・多自由度構造体である。ただし、手
部２１５の動作は人間型ロボット装置２００の姿勢制御
や歩行制御に対する寄与や影響が少ないので、本明細書
ではゼロ自由度と仮定する。したがって、各腕部は７自
由度を有するとする。

【００５６】また、体幹部は、体幹ピッチ軸２０５と、
体幹ロール軸２０６と、体幹ヨー軸２０７という３自由
度を有する。

【００５７】また、下肢を構成する各々の脚部は、股関
節ヨー軸２１６と、股関節ピッチ軸２１７と、股関節ロ
ール軸２１８と、膝関節ピッチ軸２１９と、足首関節ピ
ッチ軸２２０と、足首関節ロール軸２２１と、足部２２
２とで構成される。本明細書中では、股関節ピッチ軸２
１７と股関節ロール軸２１８の交点は、人間型ロボット
装置２００の股関節位置を定義する。人体の足部２２２
は実際には多関節・多自由度の足底を含んだ構造体であ
るが、人間型ロボット装置２００の足底はゼロ自由度と
する。したがって、各脚部は６自由度で構成される。

【００５８】以上を総括すれば、人間型ロボット装置２
００全体としては、合計で３＋７×２＋３＋６×２＝３
２自由度を有することになる。但し、エンターテインメ
ント向けの人間型ロボット装置２００が必ずしも３２自
由度に限定される訳ではない。

【００５９】上述したような人間型ロボット装置２００
が持つ各自由度は、実際にはアクチュエータを用いて実
装される。外観上で余分な膨らみを排してヒトの自然体
形状に近似させること、２足歩行という不安定構造体に
対して姿勢制御を行うことなどの要請から、アクチュエ
ータは小型且つ軽量であることが好ましい。

【００６０】図１３には、人間型ロボット装置２００の
制御システム構成を模式的に示している。同図に示すよ
うに、人間型ロボット装置２００は、ヒトの四肢を表現
した各機構ユニット２３０，２４０，２５０Ｒ／Ｌ，２
６０Ｒ／Ｌと、各機構ユニット間の協調動作を実現する
ための適応制御を行う制御ユニット２８０とで構成され
る（但し、Ｒ及びＬの各々は、右及び左の各々を示す接
尾辞である。以下同様）。

【００６１】人間型ロボット装置２００全体の動作は、
制御ユニット２８０によって統括的に制御される。制御
ユニット２８０は、ＣＰＵ（Central Processing Uni
t）やメモリ等の主要回路コンポーネント（図示しな
い）で構成される主制御部２８１と、電源回路や人間型
ロボット装置２００の各構成要素とのデータやコマンド
の授受を行うインターフェース（いずれも図示しない）
などを含んだ周辺回路２８２とで構成される。

【００６２】この制御ユニット２８０の設置場所は特に
限定されない。図１３では体幹部ユニット２４０に搭載
されているが、頭部ユニット２３０に搭載してもよい。
或いは、人間型ロボット装置２００外に制御ユニット２
８０を配備して、人間型ロボット装置２００の機体とは
有線若しくは無線で交信するようにしてもよい。

【００６３】図１２に示した人間型ロボット装置２００
内の各関節自由度は、それぞれに対応する図１３のアク
チュエータによって実現される。すなわち、頭部ユニッ
ト２３０には、首関節ヨー軸２０２、首関節ピッチ軸２
０３、首関節ロール軸２０４の各々を表現する首関節ヨ
ー軸アクチュエータＡ_２、首関節ピッチ軸アクチュエー
タＡ_３、首関節ロール軸アクチュエータＡ_４が配設され
ている。

【００６４】また、体幹部ユニット２４０には、体幹ピ
ッチ軸２０５、体幹ロール軸２０６、体幹ヨー軸２０７
の各々を表現する体幹ピッチ軸アクチュエータＡ_５、体
幹ロール軸アクチュエータＡ_６、体幹ヨー軸アクチュエ
ータＡ_７が配設されている。

【００６５】また、腕部ユニット２５０Ｒ／Ｌは、上腕
ユニット２５１Ｒ／Ｌと、肘関節ユニット２５２Ｒ／Ｌ
と、前腕ユニット２５３Ｒ／Ｌに細分化されるが、肩関
節ピッチ軸２０８、肩関節ロール軸２０９、上腕ヨー軸
２１０、肘関節ピッチ軸２１１、前腕ヨー軸２１２、手
首関節ピッチ軸２１３、手首関節ロール軸２１４の各々
表現する肩関節ピッチ軸アクチュエータＡ_８、肩関節ロ
ール軸アクチュエータＡ_９、上腕ヨー軸アクチュエータ
Ａ_１０、肘関節ピッチ軸アクチュエータＡ_１１、前腕ヨ
ー軸アクチュエータＡ_１２、手首関節ピッチ軸アクチュ
エータＡ_１３、手首関節ロール軸アクチュエータＡ_１４
が配備されている。

【００６６】また、脚部ユニット２６０Ｒ／Ｌは、大腿
部ユニット２６１Ｒ／Ｌと、膝関節ユニット２６２Ｒ／
Ｌと、足首ユニット２６３Ｒ／Ｌに細分化されるが、股
関節ヨー軸２１６、股関節ピッチ軸２１７、股関節ロー
ル軸２１８、膝関節ピッチ軸２１９、足首関節ピッチ軸
２２０、足首関節ロール軸２２１の各々を表現する股関
節ヨー軸アクチュエータＡ_１６、股関節ピッチ軸アクチ
ュエータＡ_１７、股関節ロール軸アクチュエータ
Ａ_１８、膝関節ピッチ軸アクチュエータＡ_１９、足首関
節ピッチ軸アクチュエータＡ_２０、足首関節ロール軸ア
クチュエータＡ_２１が配備されている。

【００６７】頭部ユニット２３０、体幹部ユニット２４
０、腕部ユニット２５０、各脚部ユニット２６０などの
各機構ユニット毎に、アクチュエータ駆動制御部の副制
御部２２３５，２４５，２５５，２６５が配備されてい
る。さらに、各脚部２６０Ｒ，Ｌの足底が着床したか否
かを検出する接地確認センサ２９１及び２９２を装着す
るとともに、体幹部ユニット２４０内には、姿勢を計測
する姿勢センサ２９３を装備している。

【００６８】接地確認センサ２９１及び２９２は、例え
ば足底に設置された近接センサ又はマイクロ・スイッチ
などで構成される。また、姿勢センサ２９３は、例え
ば、加速度センサとジャイロ・センサの組み合わせによ
って構成される。

【００６９】接地確認センサ２９１及び２９２の出力に
よって、歩行・走行などの動作期間中において、左右の
各脚部が現在立脚又は遊脚いずれの状態であるかを判別
ずることができる。また、姿勢センサ２９３の出力によ
り、体幹部分の傾きや姿勢を検出することができる。

【００７０】制御ユニット２８０の主制御部２８１は、
各センサ２９１〜２９３の出力に応答して制御目標をダ
イナミックに補正することができる。より具体的には、
副制御部２３５，２４５，２５５，２６５の各々に対し
て適応的な制御を行い、人間型ロボット装置２００の上
肢、体幹、及び下肢が協調して駆動する全身運動パター
ンを実現することができる。

【００７１】人間型ロボット装置２００の機体上での全
身運動は、足部運動、ＺＭＰ（ZeroMoment Point）軌
道、体幹運動、上肢運動、腰部高さなどを設定するとと
もに、これらの設定内容に従った動作を指示するコマン
ドを各副制御部２３５，２４５，２５５，２６５に転送
する。そして、各々の副制御部２３５，２４５，・・・
等では、主制御部２８１からの受信コマンドを解釈し
て、各アクチュエータＡ _２，Ａ_３・・・等に対して駆動
制御信号を出力する。ここで言う「ＺＭＰ」とは、歩行
中の床反力によるモーメントがゼロとなる床面上の点の
ことであり、また、「ＺＭＰ軌道」とは、例えば人間型
ロボット装置２００の歩行動作期間中にＺＭＰが動く軌
跡を意味する。

【００７２】歩行時には、重力と歩行運動に伴って生じ
る加速度によって、歩行系から路面には重力と慣性力、
並びにこれらのモーメントが作用する。いわゆる「ダラ
ンベールの原理」によると、それらは路面から歩行系へ
の反作用としての床反力、床反力モーメントとバランス
する。力学的推論の帰結として、足底接地点と路面の形
成する支持多角形の辺上或いはその内側にピッチ及びロ
ール軸モーメントがゼロとなる点、すなわち「ＺＭＰ
（Zero Moment Point）」が存在する。

【００７３】脚式移動ロボットの姿勢安定制御や歩行時
の転倒防止に関する提案の多くは、このＺＭＰを歩行の
安定度判別の規範として用いたものである。ＺＭＰ規範
に基づく２足歩行パターン生成は、足底着地点を予め設
定することができ、路面形状に応じた足先の運動学的拘
束条件を考慮し易いなどの利点がある。また、ＺＭＰを
安定度判別規範とすることは、力ではなく軌道を運動制
御上の目標値として扱うことを意味するので、技術的に
実現可能性が高まる。なお、ＺＭＰの概念並びにＺＭＰ
を歩行ロボットの安定度判別規範に適用する点について
は、Miomir Vukobratovic著“LEGGED LOCOMOTION ROBOT
S”（加藤一郎外著『歩行ロボットと人工の足』（日刊
工業新聞社））に記載されている。

【００７４】一般には、４足歩行よりもヒューマノイド
のような２足歩行のロボットの方が、重心位置が高く、
且つ、歩行時のＺＭＰ安定領域が狭い。したがって、こ
のような路面状態の変化に伴う姿勢変動の問題は、２足
歩行ロボットにおいてとりわけ重要となる。

【００７５】以上のように、人間型ロボット装置２００
は、各々の副制御部２３５，２４５，・・・等が、主制
御部２８１からの受信コマンドを解釈して、各アクチュ
エータＡ_２，Ａ_３，・・・に対して駆動制御信号を出力
し、各ユニットの駆動を制御している。これにより、人
間型ロボット装置２００は、安定した姿勢で歩行するこ
とが可能とされている。

【００７６】このような人間型ロボット装置２００につ
いても、頭部等にマイクロホン等の集音手段を設け、上
述したような音声認識を行わせることができ、この音声
認識における雑音処理を、モータ等の各アクチュエータ
Ａ_２，Ａ_３，・・・やギア等の回転速度、回転角度、及
びマイクロホンとの距離に応じて雑音処理を行わせるこ
とができる。

【００７７】すなわち、ロボットに搭載した音声認識の
ための雑音処理として、モータやギアの回転角度や回転
速度、及びマイクロホンとの距離を利用することで、そ
のモータやギアが回転時に発生する雑音を高精度に推定
し、マイクロホンで観測される雑音データに関する雑音
モデルを高精度にモデル化することで、雑音処理、すな
わち雑音の除去や、音響モデルや言語モデルの適応等を
高精度に行うことが可能となる。その結果、これらの雑
音が、マイクロホンで観測される入力音声信号に重畳さ
れた場合でも、その認識性能の低下を防ぐことが可能と
なる。

【００７８】なお、本発明は上述した本発明の実施の形
態に限定されるものではなく、本発明の要旨を逸脱しな
い範囲で、種々の変更が可能であることは勿論である。

【００７９】

【発明の効果】本発明は、連結部を介して連結された各
部を動かすための駆動手段と、周囲の音信号を集音する
集音手段と、上記集音手段からの音声信号を認識する音
声認識手段とを有し、上記音声認識手段は、上記駆動手
段の動作により発生する雑音に基づいて雑音処理を行う
ことにより、雑音の影響を抑制し、音声認識精度を高め
ることができる。

【００８０】具体的には、ロボットに搭載した音声認識
のための雑音処理として、モータやギアの回転角度や回
転速度、及びマイクロホンとの距離を利用することで、
そのモータやギアが回転時に発生する雑音を高精度に推
定し、マイクロホンで観測される雑音データに関する雑
音モデルを高精度にモデル化することで、雑音処理、す
なわち雑音の除去や、音響モデルや言語モデルの適応等
を高精度に行うことが可能となる。その結果、これらの
雑音が、マイクロホンで観測される入力音声信号に重畳
された場合でも、その認識性能の低下を防ぐことが可能
となる。

【図面の簡単な説明】

【図１】本発明の実施の形態であるロボット装置の外観
構成を示す斜視図である。

【図２】上述のロボット装置の内部構成の一例を示すブ
ロック図である。

【図３】図２のロボット装置の制御部の構成の一例を示
すブロック図である。

【図４】図３の制御部の機能的な構成を説明するための
ブロック図である。

【図５】ロボットの行動モデルとしての確率オートマト
ンの一例を示す図である。

【図６】音声認識装置の概略構成を示すブロック図であ
る。

【図７】ロボットの動作を説明するための一の姿勢を示
す図である。

【図８】ロボットの動作を説明するための他の姿勢を示
す図である。

【図９】本発明の実施の形態に用いられる雑音モデルを
説明するための図である。

【図１０】前方から眺望した人間型ロボット装置の構成
を示す斜視図である。

【図１１】後方から眺望した人間型ロボット装置の構成
を示す斜視図である。

【図１２】人間型ロボット装置の各動作部の連結状態を
示す図である。

【図１３】人間型ロボット装置の駆動系を示す図であ
る。

【符号の説明】

１ロボット装置、７_１〜７_Ｎモータ、９マイ
クロホン、１１制御部、１２_１〜１２_Ｎ回転角
度検出器、１３_１〜１３_Ｎ回転速度検出器、４０
音声区間検出部、４１雑音処理部、４２音響
分析部、４３認識部、４４音響モデル、４５
言語モデル、４６雑音モデル

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｂ２５Ｊ 13/08 Ｇ１０Ｌ 3/02 ３０１ＤＧ１０Ｌ 15/00 3/00 ５３１Ｐ 21/02 ５５１Ｈ (72)発明者佐部浩太郎東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者廣江厚夫東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者大橋武史東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 2C150 AA05 CA01 CA02 DA05 DK01 EF30 3C007 AS00 AS36 BS27 CS08 KS36 KS39 KS40 KT04 KT11 KV06 KV18 WA03 WA04 WA13 WA14 WB02 WB07 WB19 WB22 5D015 EE05 GG05 HH00 KK01

Claims

【特許請求の範囲】

【請求項１】連結部を介して連結された各部を動かす
ための駆動手段と、周囲の音信号を集音する集音手段と、上記集音手段からの音声信号を認識する音声認識手段と
を有し、上記音声認識手段は、上記駆動手段の動作により発生す
る雑音に基づいて雑音処理を行うことを特徴とするロボ
ット装置。
【請求項２】上記雑音処理は、上記駆動手段の動作速
度、動作状態、及び該駆動手段と上記集音手段との距離
に基づいて行うことを特徴とする請求項１記載のロボッ
ト装置。
【請求項３】上記駆動手段はモータ、ギアを有し、上
記雑音処理は、これらのモータやギアの回転速度、回転
角度、及び各モータやギアと上記集音手段との距離に基
づいて行うことを特徴とする請求項１記載のロボット装
置。
【請求項４】上記雑音処理には、雑音推定処理が含ま
れることを特徴とする請求項１記載のロボット装置。
【請求項５】上記雑音処理とは、上記集音手段を介し
て入力される音信号から雑音を除去する処理であること
を特徴とする請求項１記載のロボット装置。
【請求項６】上記雑音処理とは、上記音声認識手段に
おける音響モデルに雑音を適応させる処理であることを
特徴とする請求項１記載のロボット装置。
【請求項７】上記雑音処理とは、上記音声認識手段に
おける言語モデルに雑音を適応させる処理であることを
特徴とする請求項１記載のロボット装置。
【請求項８】連結部を介して連結された各部を動かす
ための駆動手段と、周囲の音信号を集音する集音手段
と、上記集音手段からの音声信号を認識する音声認識手
段とを有するロボット装置における音声認識処理のプロ
グラムであって、上記音声認識処理は、上記駆動手段の動作により発生す
る雑音に基づいて雑音処理を行うことを特徴とするプロ
グラム。
【請求項９】上記雑音処理は、上記駆動手段の動作速
度、動作状態、及び該駆動手段と上記集音手段との距離
に基づいて行うことを特徴とする請求項８記載のプログ
ラム。
【請求項１０】連結部を介して連結された各部を動か
すための駆動手段と、周囲の音信号を集音する集音手段
と、上記集音手段からの音声信号を認識する音声認識手
段とを有するロボット装置における音声認識処理のプロ
グラムが記録される記録媒体であって、上記音声認識処理は、上記駆動手段の動作により発生す
る雑音に基づいて雑音処理を行うことを特徴とする記録
媒体。
【請求項１１】上記雑音処理は、上記駆動手段の動作
速度、動作状態、及び該駆動手段と上記集音手段との距
離に基づいて行うことを特徴とする請求項１０記載の記
録媒体。