JP2001154692A

JP2001154692A - ロボット制御装置およびロボット制御方法、並びに記録媒体

Info

Publication number: JP2001154692A
Application number: JP34046999A
Authority: JP
Inventors: Hironaga Tsutsumi; 洪長包
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-11-30
Filing date: 1999-11-30
Publication date: 2001-06-08

Abstract

(57)【要約】【課題】音声の誤認識を防止する。【解決手段】開始音検出部４６は、閾値Ｌ以上のパワ
ーの音であって、閾値Ｔ ₁以上の時間継続しない音であ
る開始音（例えば、手を叩く音）が検出され、特徴パラ
メータ抽出部４１およびマッチング部４２では、その開
始音の検出に対応して、音声認識が行われる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ロボット制御装置
およびロボット制御方法、並びに記録媒体に関し、特
に、例えば、音声にしたがって、忠実に行動するロボッ
トを提供することができるようにするロボット制御装置
およびロボット制御方法、並びに記録媒体に関する。

【０００２】

【従来の技術】従来より、玩具等として、タッチスイッ
チが押圧操作されたり、又は所定レベル以上の音声を検
出した場合に、動作を開始するようになっているロボッ
ト（本明細書においては、ぬいぐるみ状のものを含む）
が数多く製品化されている。

【０００３】一方、近年においては、音声認識技術を利
用して、音声により、各種のコマンドを与えることがで
きるカーナビゲーションシステムや、パーソナルコンピ
ュータが実現されている。

【０００４】

【発明が解決しようとする課題】そこで、ロボットにつ
いても、音声認識技術を利用して、音声によりコマンド
を与えて、各種の行動を起こさせるものが実用化されつ
つある。

【０００５】このようなロボットについては、使用者
が、ある行動を起こさせるためのコマンドを発話した場
合、基本的には、その発話を正確に音声認識して、その
音声認識結果に対応する行動を起こさせることが望まれ
る。

【０００６】即ち、例えば、玩具としてのロボットが、
使用者が発話したコマンドとは無関係の行動を起こした
場合には、使用者に違和感を感じさせることになる。

【０００７】しかしながら、一般に、ロボットが使用さ
れる環境は一定ではなく、また、環境ごとに異なる雑音
が存在する。従って、ロボットにおいては、そこに入力
される音声（音）が、使用者の発話か、雑音なのかを判
定するのが困難であり、さらに、使用者の発話であって
も、その発話が、ロボットに向けられたコマンドである
のかどうかを判定することも困難である。また、使用者
の音声と雑音とが混在する環境においては、使用者の音
声の開始点（音声区間の開始点）を判定することも困難
である。

【０００８】そして、これらの判定が困難である結果、
正確な音声認識結果を得ることができない場合がある。

【０００９】そこで、音声認識を行うプロセッサとして
高機能のものを用いて、音声認識装置を構成し、これに
より、音声認識性能を向上させる方法があるが、この方
法では、音声認識装置が高コスト化する。

【００１０】本発明は、このような状況に鑑みてなされ
たものであり、コストアップを避けて、誤認識を防止す
ることができるようにし、これにより、使用者の発話し
たコマンドに対して、忠実に行動するロボットを提供す
ること等ができるようにするものである。

【００１１】

【課題を解決するための手段】本発明のロボット制御装
置は、第１の閾値以上のパワーの音であって、第２の閾
値以上の時間継続しない音である開始音を検出する検出
手段と、開始音の検出に対応して、音声認識を行う音声
認識手段とを備えることを特徴とする。

【００１２】検出手段には、開始音を検出してから所定
の時間が経過したときのタイミングを、音声区間の開始
点として、さらに検出させ、音声認識手段には、音声区
間の開始点後を対象に音声認識を行わせることができ
る。

【００１３】音声認識手段には、音声認識の対象とする
語彙が登録されている複数の単語辞書を設け、開始音が
検出された場合に、複数の単語辞書のうち、所定の単語
辞書のみを用いて、音声認識を行わせることがえでき
る。

【００１４】開始音が検出された場合に、音声認識手段
が用いる所定の単語辞書は、ロボットに対する命令を与
える語彙が登録されているものとすることができる。

【００１５】本発明のロボット制御方法は、第１の閾値
以上のパワーの音であって、第２の閾値以上の時間継続
しない音である開始音を検出する検出ステップと、開始
音の検出に対応して、音声認識を行う音声認識ステップ
とを備えることを特徴とする。

【００１６】本発明の記録媒体は、第１の閾値以上のパ
ワーの音であって、第２の閾値以上の時間継続しない音
である開始音を検出する検出ステップと、開始音の検出
に対応して、音声認識を行う音声認識ステップとを備え
るプログラムが記録されていることを特徴とする。

【００１７】本発明のロボット制御装置およびロボット
制御方法、並びに記録媒体においては、第１の閾値以上
のパワーの音であって、第２の閾値以上の時間継続しな
い音である開始音が検出され、その開始音の検出に対応
して、音声認識が行われる。

【００１８】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図２は、
その電気的構成例を示している。

【００１９】本実施の形態では、ロボットは、犬形状の
ものとされており、胴体部ユニット２には、その前端に
頭部ユニット３が配設され、また、その前後左右の各隅
部には、それぞれ、大腿部ユニット４Ａ，４Ｂ，４Ｃ，
４Ｄおよび脛部ユニット５Ａ，５Ｂ，５Ｃ，５Ｄからな
る脚部ユニット６Ａ，６Ｂ，６Ｃ，６Ｄが取り付けられ
ている。さらに、胴体部ユニット２の後端には、尻尾ユ
ニット１が取り付けられている。

【００２０】尻尾ユニット１と胴体部ユニット２、頭部
ユニット３と胴体部ユニット２、大腿部ユニット４Ａ乃
至４Ｄそれぞれと胴体部ユニット２、および大腿部ユニ
ット４Ａ乃至４Ｄそれぞれと脛部ユニット５Ａ乃至５Ｄ
それぞれを連結する各関節機構には、アクチュエータと
してのモータ７₁，７₂，・・・，７_Nが配設されてお
り、これにより、対応するモータ７₁乃至７_Nを駆動する
ことによって、尻尾ユニット１および頭部ユニット３
を、ｘ軸、ｙ軸、ｚ軸の３軸それぞれを中心とする方向
に自在に回転させ、腿部ユニット４Ａ乃至４Ｄを、ｘ
軸、ｙ軸の２軸それぞれを中心とする方向に自在に回転
させ、かつ脛部ユニット５Ａ乃至５Ｄを、ｘ軸の１軸を
中心とする方向に回転させ得るようになっており、これ
により、ロボットは、各種の行動を行うことができるよ
うになっている。

【００２１】頭部ユニット３には、カメラ（ＣＣＤ(Cha
rge Coupled Device)カメラ）８、マイク（マイクロフ
ォン）９、および圧力センサ１０がそれぞれ所定位置に
配設されており、また、胴体部ユニット２は、制御部１
１を内蔵している。カメラ８では、使用者を含む周囲の
状況の画像が撮像され、マイク９では、使用者の音声を
含む周囲の音声が集音される。また、圧力センサ１０で
は、使用者等によって与えられる圧力が検出される。そ
して、カメラ８により撮像された周囲の状況の画像や、
マイク９により集音された周囲の音声、圧力センサ１０
により検出された、使用者により頭部に与えられた圧力
は、それぞれ画像データ、音声データ、圧力検出データ
として、それぞれ制御部１１に与えられる。

【００２２】各関節機構に対応する各モータ７₁乃至７_N
については、それぞれに対応させてロータリエンコーダ
１２₁乃至１２_Nが設けられており、各ロータリエンコー
ダ１２₁乃至１２_Nでは、対応するモータ７₁乃至７_Nの回
転軸の回転角度が検出される。ロータリエンコーダ１２
₁乃至１２_Nで検出された回転角度は、それぞれ角度検出
データとして制御部１１に与えられる。

【００２３】制御部１１は、予めインストールされてい
る制御プログラムを実行することにより、カメラ８から
の画像データ、マイク９からの音声データ、圧力センサ
１０からの圧力検出データ、およびロータリエンコーダ
１２₁乃至１２_Nそれぞれからの角度検出データに基づい
て、周囲の状況や自分の姿勢等を判断するとともに、続
く行動を決定し、その決定結果に基づいて、必要なモー
タ７₁乃至７_Nを駆動させるようになっている。

【００２４】これにより、ロボットは、尻尾ユニット１
や、頭部ユニット２、各脚部ユニット６Ａ乃至６Ｄを動
かして所望状態にし、自律的に行動する。

【００２５】次に、図３は、図２の制御部１１の構成例
を示している。

【００２６】制御部１１は、ＣＰＵ（Central Processi
ng Unit）２０、プログラムメモリ２１、ＲＡＭ（Rando
m Access Memory）２２、不揮発性メモリ２３、インタ
フェース回路（Ｉ／Ｆ）２４、およびモータドライバ２
５が、バス２６を介して接続されて構成されている。

【００２７】ＣＰＵ（Central Processing Unit）２０
は、プログラムメモリ２１に記憶されている制御プログ
ラムを実行することにより、ロボットの行動を制御す
る。プログラムメモリ２１は、例えば、ＥＥＰＲＯＭ(E
lectrically Erasable Programmable Read Only Memor
y)等で構成され、ＣＰＵ２０が実行する制御プログラム
や必要なデータを記憶している。ＲＡＭ２２は、ＣＰＵ
２０の動作上必要なデータ等を一時記憶するようになっ
ている。不揮発性メモリ２３は、後述するような感情／
本能モデルや、行動モデル、音声認識に用いる音韻モデ
ル、単語辞書、文法規則等の、電源がオフ状態とされた
後も保持する必要のあるデータを記憶するようになって
いる。インタフェース回路２４は、カメラ８や、マイク
９、圧力センサ１０、ロータリエンコーダ１２₁乃至１
２_Nから供給されるデータを受信し、ＣＰＵ２０に供給
するようになっている。モータドライバ２５は、ＣＰＵ
２０の制御にしたがい、モータ７₁乃至７_Nを駆動（ドラ
イブ）するための駆動信号を、モータ７₁乃至７_Nに供給
するようになっている。

【００２８】制御部１１は、ＣＰＵ２０において、プロ
グラムメモリ２１に記憶された制御プログラムが実行さ
れることにより、機能的に、図４に示すような構成とな
って、ロボットの行動を制御する。

【００２９】即ち、図４は、制御部１１の機能的な構成
例を示している。

【００３０】センサ入力処理部３１は、外部から与えら
れる刺激や、外部の状態を認識し、感情／本能モデル部
３２および行動決定部３３に供給するようになってい
る。

【００３１】感情／本能モデル部３２は、ロボットの感
情と本能の状態をそれぞれ表現する感情モデルと本能モ
デルを管理しており、センサ入力処理部３１の出力や、
行動決定部３３の出力に基づいて、感情モデルや本能モ
デルを規定するパラメータを変更することで、ロボット
の感情や本能の状態を変化させるようになっている。

【００３２】行動決定部３３は、行動モデル記憶部３３
Ａを内蔵しており、この記憶内容や、センサ入力処理部
３１の出力、感情／本能モデル部３２で管理されている
感情モデルおよび本能モデルに基づいて、その後にロボ
ットが行う行動を決定して、その情報（以下、適宜、行
動情報という）を、姿勢遷移部３４に供給するようにな
っている。

【００３３】姿勢遷移部３４は、行動決定部３３から供
給される行動情報に対応する行動をロボットに行わせる
ためのモータ７₁乃至７_Nの回転角や回転速度等の制御デ
ータを演算し、モータ制御部３５に出力する。

【００３４】モータ制御部３５は、姿勢遷移部３４から
の制御データにしたがって、モータ７₁乃至７_Nを回転駆
動するようになっている。

【００３５】以上のように構成される制御部１１では、
入力センサ処理部３１において、カメラ８から供給され
る画像データや、マイク９から供給される音声データ、
圧力センサ１０から出力される圧力検出データに基づい
て、特定の外部状態や、使用者からの特定の働きかけ、
使用者からの指示等が認識され、その認識結果が、感情
／本能モデル部３２および行動決定部３３に出力され
る。

【００３６】即ち、センサ入力処理部３１は、カメラ８
が出力する画像データに基づいて、画像認識を行い、例
えば、「ボールがある」とか、「壁がある」といったこ
とを認識して、その認識結果を、感情／本能モデル部３
２および行動決定部３３に供給する。また、センサ入力
処理部３１は、マイク９が出力する音声データに基づい
て、音声認識を行い、その音声認識結果を、感情／本能
モデル部３２および行動決定部３３に供給する。さら
に、センサ入力処理部３１は、圧力センサ１０から与え
られる圧力検出データを処理し、例えば、所定の閾値以
上で、かつ短時間の圧力を検出したときには「たたかれ
た（しかられた）」と認識し、また、所定の閾値未満
で、かつ長時間の圧力を検出したときには「なでられた
（ほめられた）」と認識して、その認識結果を、感情／
本能モデル部３２および行動決定部３３に供給する。

【００３７】感情／本能モデル部３２は、ロボットの、
例えば、「うれしさ」や、「悲しさ」、「怒り」等の感
情の状態を表現する感情モデルと、例えば、「食欲」
や、「睡眠欲」、「運動欲」等の本能の状態を表現する
本能モデルとを管理している。

【００３８】即ち、感情モデルと本能モデルは、それぞ
れ、ロボットの感情と本能の状態を、例えば、０乃至１
００の範囲の整数値で表すもので、感情／本能モデル部
３２は、感情モデルや本能モデルの値を、センサ入力処
理部３１の出力や、行動決定部３３の出力、時間経過に
基づいて変化させる。従って、ここでは、ロボットの感
情および本能の状態は、センサ入力処理部３１が出力す
る外部の認識結果の他、行動決定部３３の出力や、時間
経過にも基づいて変化する。そして、感情／本能モデル
部３２は、変更後の感情モデルおよび本能モデルの値
（ロボットの感情および本能の状態）を、行動決定部３
３に供給する。

【００３９】ここで、ロボットの感情および本能の状態
は、行動決定部３３の出力に基づいて、例えば、次のよ
うに変化する。

【００４０】即ち、行動決定部３３から感情／本能モデ
ル部３２に対しては、ロボットがとっている現在の行動
または過去にとった行動の内容（例えば、「そっぽを向
いた」など）を示す行動情報が供給されるようになって
いる。

【００４１】いま、ロボットにおいて、「怒り」の感情
が高いときに、使用者から何らかの刺激を受け、ロボッ
トが、「そっぽを向く」行動をとったとする。この場
合、行動決定部３３から感情／本能モデル部３２に対し
て、行動情報「そっぽを向いた」が供給される。

【００４２】一般に、怒っているときに、そっぽを向く
ような不満を表現する行動をとると、その行動によっ
て、怒りが幾分か静まることがある。そこで、感情／本
能モデル部３２は、行動決定部３３から、行動情報「そ
っぽを向いた」が供給された場合、「怒り」を表す感情
モデルの値を、小さい値に変更する（「怒り」の度合い
が小さくなるように変更する）。

【００４３】行動決定部３３は、センサ入力処理部３１
が出力する外部の認識結果や、感情／本能モデル部３２
における感情モデルおよび本能モデル、時間経過、行動
モデル記憶部３３Ａにおける行動モデルに基づいて、次
にとる行動を決定し、その行動を表す行動情報を、感情
／本能モデル部３２および姿勢遷移部３４に供給する。

【００４４】ここで、行動モデル記憶部３３Ａは、ロボ
ットの行動を規定する行動モデルを記憶している。

【００４５】即ち、行動モデルは、例えば、図５に示す
ような確率オートマトンで構成される。この確率オート
マトンでは、行動は、ノード（状態）ＮＯＤＥ₀乃至Ｎ
ＯＤＥ_Mで表現され、行動の遷移は、ある行動に対応す
るノードＮＯＤＥ_m0から、他の行動（同一の行動である
場合もある）に対応するノードＮＯＤＥ_m1への遷移を表
すアークＡＲＣ_m1で表現される（ｍ０，ｍ１＝０，１，
・・・，Ｍ）。

【００４６】そして、あるノードＮＯＤＥ_m0から、他の
ノードＮＯＤＥ_m1への遷移を表すアークＡＲＣ_m1には、
その遷移が生じる遷移確率Ｐ_m1が設定されており、ノー
ドの遷移、即ち、行動の移り変わりは、基本的には、遷
移確率に基づいて決定される。

【００４７】なお、図５においては、図が煩雑になるの
を避けるため、Ｍ＋１個のノードからなる確率オートマ
トンに関して、ノードＮＯＤＥ₀から、他のノード（自
身を含む）ＮＯＤＥ₀乃至ＮＯＤＥ_MへのアークＡＲＣ₀
乃至ＡＲＣ_Mのみを示してある。

【００４８】行動決定部３３は、基本的には、行動モデ
ルとしての確率オートマトン（図５）の、現在の行動
（以下、適宜、現在行動という）に対応するノードか
ら、どのノードに遷移するかを、現在行動に対応するノ
ードから延びるアークに設定されている遷移確率の他、
感情／本能モデル部３２における感情モデルおよび本能
モデルの値、時間経過、センサ入力処理部３１が出力す
る外部の認識結果に基づいて決定し、遷移後のノードに
対応する行動（以下、適宜、遷移行動という）を表す行
動情報を、感情／本能モデル部３２および姿勢遷移部３
４に供給する。

【００４９】従って、行動決定部３３では、例えば、セ
ンサ入力処理部３１が出力する外部の認識結果が同一の
ものであっても、感情モデルや本能モデルの値によって
は、異なるノードに遷移することとが決定される。

【００５０】具体的には、例えば、センサ入力処理部３
１の出力が、「目の前に手のひらが差し出された」旨を
示すものである場合において、「怒り」の感情モデルが
「怒っていない」ことを表しており、かつ「食欲」の本
能モデルが「お腹がすいていない」ことを表していると
きには、行動決定部３３は、目の前に手のひらが差し出
されたことに応じて、遷移行動として「お手」を行わせ
ることを決定する。

【００５１】また、例えば、上述の場合と同様に、セン
サ入力処理部３１の出力が、「目の前に手のひらが差し
出された」旨を示すものであり、かつ「怒り」の感情モ
デルが「怒っていない」ことを表しているが、「食欲」
の本能モデルが「お腹がすいている」ことを表している
場合には、行動決定部３３は、遷移行動として、「手の
ひらをぺろぺろなめる」ような行動を行わせることを決
定する。

【００５２】さらに、センサ入力処理部３１の出力が、
「目の前に手のひらが差し出された」旨を示すものであ
るが、「怒り」の感情モデルが「怒っている」ことを表
している場合には、「食欲」の本能モデルの値にかかわ
らず、行動決定部３３は、遷移行動として、「ぷいと横
を向く」ような行動を行わせることを決定する。

【００５３】なお、行動決定部３３は、所定のトリガ(t
rigger)があった場合に、行動モデルのノードを遷移
し、遷移行動を決定する。即ち、行動決定部３３は、例
えば、ロボットが現在行動を開始してから所定の時間が
経過した場合や、音声認識結果等の特定の認識結果が、
センサ入力処理部３１から出力された場合、感情／本能
モデル部３２における感情モデルや本能モデルの値が所
定の閾値に達した場合等に、遷移行動を決定する。

【００５４】姿勢遷移部３４は、行動決定部３３から供
給される行動情報に基づいて、現在の姿勢から次の姿勢
に遷移させるための制御データを生成し、モータ制御部
３５に出力する。即ち、姿勢遷移部３４は、現在の姿勢
を、行動決定部３３を介して、ロータリエンコーダ１２
₁乃至１２_Nの出力に基づいて認識し、行動決定部３３か
らの行動情報に対応する行動（遷移行動）を、ロボット
にとらせるためのモータ７₁乃至７_Nの回転角や回転速度
等を計算し、制御データとして、モータ制御部３５に出
力する。

【００５５】モータ制御部３５は、姿勢遷移部３４から
の制御データにしたがって、モータ７₁乃至７_Nを駆動す
るための駆動信号を生成し、モータ７₁乃至７_Nに供給す
る。これにより、モータ７₁乃至７_Nは回転駆動し、ロボ
ットは、遷移行動を行う。

【００５６】次に、図６は、図４のセンサ入力処理部３
１のうち、マイク９からの音声データを用いて音声認識
を行う部分（以下、適宜、音声認識装置という）の機能
的構成例を示している。

【００５７】この音声認識装置においては、マイク９に
入力された音声が、例えば、連続分布ＨＭＭ(Hidden Ma
rkov Model)法にしたがって認識され、その音声認識結
果が出力されるようになっている。

【００５８】即ち、特徴パラメータ抽出部４１には、マ
イク９からの音声データが供給されるようになってお
り、特徴パラメータ抽出部４１は、そこに入力される音
声データについて、適当なフレームごとに、例えば、Ｍ
ＦＣＣ(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析結果を、特徴パラメータ（特徴ベクトル）
として、マッチング部４２に出力する。なお、特徴パラ
メータ抽出部４１では、その他、例えば、線形予測係
数、ケプストラム係数、線スペクトル対、所定の周波数
帯域ごとのパワー（フィルタバンクの出力）等を、特徴
パラメータとして抽出することが可能である。

【００５９】マッチング部４２は、特徴パラメータ抽出
部４１からの特徴パラメータを用いて、音響モデル記憶
部４３、辞書記憶部４４、および文法記憶部４５を必要
に応じて参照しながら、マイク９に入力された音声（入
力音声）を、連続分布ＨＭＭ法に基づいて音声認識す
る。

【００６０】即ち、音響モデル記憶部４３は、音声認識
する音声の言語における個々の音素や音節などの音響的
な特徴を表す音響モデルを記憶している。ここでは、連
続分布ＨＭＭ法に基づいて音声認識を行うので、音響モ
デルとしては、ＨＭＭ(Hidden Markov Model)が用いら
れる。辞書記憶部４４は、認識対象の各単語について、
その発音に関する情報（音韻情報）が記述された単語辞
書を記憶している。文法記憶部４５は、辞書記憶部３５
の単語辞書に登録されている各単語が、どのように連鎖
する（つながる）かを記述した文法規則を記憶してい
る。ここで、文法規則としては、例えば、文脈自由文法
（ＣＦＧ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）
などに基づく規則を用いることができる。

【００６１】マッチング部４２は、辞書記憶部４４の単
語辞書を参照することにより、音響モデル記憶部４３に
記憶されている音響モデルを接続することで、単語の音
響モデル（単語モデル）を構成する。さらに、マッチン
グ部４２は、幾つかの単語モデルを、文法記憶部４５に
記憶された文法規則を参照することにより接続し、その
ようにして接続された単語モデルを用いて、特徴パラメ
ータに基づき、連続分布ＨＭＭ法によって、マイク９に
入力された音声を認識する。即ち、マッチング部４２
は、特徴パラメータ抽出部４１が出力する時系列の特徴
パラメータが観測されるスコア（尤度）が最も高い単語
モデルの系列を、連続分布ＨＭＭ法によって検出し、そ
の単語モデルの系列に対応する単語列を、音声の認識結
果として出力する。

【００６２】具体的には、マッチング部４２は、接続さ
れた単語モデルに対応する単語列について、各特徴パラ
メータの出現確率を、連続分布ＨＭＭ法により計算して
累積し、その累積値をスコアとして、そのスコアを最も
高くする単語列を、音声認識結果として出力する。マッ
チング部４２による音声認識結果は、センサ入力処理部
３１の出力として、上述したように、感情／本能モデル
部３２および行動決定部３３に出力される。

【００６３】開始音検出部４６には、特徴パラメータ抽
出部４１と同様に、マイク９からの音声データが供給さ
れるようになっている。開始音検出部４６は、そこに供
給される音声データに基づいて、例えば、図７に示すよ
うに、閾値Ｌ以上のパワーの音であって、閾値Ｔ₁以上
の時間継続しない音である開始音を検出するようになっ
ている。さらに、開始音検出部４６は、その開始音か
ら、所定の時間Ｔ_postだけ経過したタイミングを、音声
区間の開始点として検出し、開始音を検出したこと、お
よび音声区間の開始点であることを表す検出メッセージ
を、特徴パラメータ抽出部４１およびマッチング部４２
に出力するようになっている。

【００６４】特徴パラメータ抽出部４１およびマッチン
グ部４２は、開始音検出部４６から検出メッセージを受
信すると、上述したような処理（音声認識処理）を開始
する。

【００６５】従って、開始音は、特徴パラメータ抽出部
４１およびマッチング部４２に、音声認識のための処理
を開始させるトリガ(trigger)となるものであり、各種
の環境における雑音や、使用者の音声と区別しやすい音
である必要がある。このような音としては、例えば、非
常に短時間だけしか継続しない、パワーの大きな音があ
る。

【００６６】また、開始音を発するのに、使用者が物を
用いなければならないとすると、使用者は、その物が手
の届くところにない場合には、その物を取りに行かなけ
ればならず、面倒である。

【００６７】以上から、開始音としては、非常に短時間
だけしか継続しない、パワーの大きな音で、かつ、使用
者が物を用いずに発することのできる音である必要があ
り、そのような音としては、例えば、ある程度の力を入
れて、手を一回だけ叩く音がある。ここで、手を叩く音
のパワーは、一般に、人間が通常発する音声よりも十分
大きく、また、そのパワーが継続する時間は、０．１秒
程度である。

【００６８】そこで、ある程度の力を入れて、手を一回
だけ叩く音を、開始音として採用することとすると、上
述のように、手を叩く音の継続時間は、０．１秒程度で
あるから、開始音検出部４６における時間の閾値Ｔ
₁は、０．１秒程度とすることができる。

【００６９】また、使用者がロボットに対して話しかけ
ると想定される平均的な距離（例えば、０．５ｍ程度）
だけ離れた位置において観測される、人間が手の叩く音
のパワーは、本件発明者による実験によれば、２０ｄＢ
程度であり、従って、開始音検出部４６におけるパワー
の閾値Ｌは、２０ｄＢ程度とすることができる。

【００７０】さらに、いま、使用者が手を叩いてから即
座に、ロボットに行動を起こさせるためのコマンドを発
話するものとすると、使用者の発話が開始されるのは、
本件発明者による実験によれば、手を叩いてから、０．
５秒乃至１秒程度であることが分かっており、従って、
図７における所定の時間Ｔ_postは、０．５秒乃至１秒程
度とすることができる。

【００７１】なお、開始音検出部４６においては、閾値
Ｌ以上のパワーの音であって、閾値Ｔ₁以上の時間継続
しない音が観測された場合に、その音を開始音として検
出する他、閾値Ｌ以上のパワーの音であって、閾値Ｔ₁
以上の時間継続しない音が観測され、かつ、その音の後
の所定の時間Ｔ_postにおいて、閾値Ｌ以上のパワーの音
が存在しない場合に、時間Ｔ_postの直前に観測された音
（閾値Ｌ以上のパワーの音であって、閾値Ｔ₁以上の時
間継続しない音）を、開始音として検出させるようにす
ることも可能である。

【００７２】次に、図８のフローチャートを参照して、
図６の音声認識装置の動作について、さらに説明する。

【００７３】マイク９から出力されるディジタルの音声
データは、特徴パラメータ抽出部４１および開始音検出
部４６に供給される。

【００７４】開始音検出部４６は、ステップＳ１におい
て、そこに供給される音声データに基づき、閾値Ｌ以上
のパワーの音であって、閾値Ｔ₁以上の時間継続しない
音である開始音が、マイク９に入力されたかどうかを判
定する。ステップＳ１において、開始音が入力されてい
ないと判定された場合、ステップＳ１に戻る。

【００７５】また、ステップＳ１において、開始音が入
力されたと判定された場合、即ち、例えば、使用者が手
を叩いたり、あるいは何か物を叩く等して、図７で説明
した開始音としての条件を満たす、いわば破裂音的な音
が、マイク９から入力された場合、開始音検出部４６
は、その開始音から、所定の時間Ｔ_postだけ経過したタ
イミングを、音声区間の開始点として検出し、開始音を
検出したこと、および音声区間の開始点であることを表
す検出メッセージを、特徴パラメータ抽出部４１および
マッチング部４２に出力して、ステップＳ２に進む。

【００７６】特徴パラメータ抽出部４１は、検出メッセ
ージを受信すると、そのタイミングを音声区間の開始点
として、そこに供給される音声データの音響分析を開始
する。即ち、特徴パラメータ抽出部４１では、図９に示
すように、開始音が観測されてから、所定の時間Ｔ_post
だけ経過した時点を、音声区間の開始点として、音響分
析が開始される。そして、特徴パラメータ抽出部４１
は、その音響分析の結果得られる時系列の特徴パラメー
タを、マッチング部４２に供給する。マッチング部４２
は、ステップＳ３において、特徴パラメータ抽出部４１
からの特徴パラメータを用いて、スコアの計算（マッチ
ング）を行い、そのスコアに基づいて、マイク９に入力
された音声の音声認識結果を決定する。そして、ステッ
プＳ４に進み、マッチング部４２は、その音声認識結果
を、感情／本能モデル部３２および行動決定部３３に出
力し、ステップＳ１に戻り、以下、同様の処理を繰り返
す。

【００７７】行動決定部３３は、マッチング部４２から
音声認識結果を受信すると、上述したように、その音声
認識結果に基づいて、次にとる行動を決定し、これによ
り、ロボットは、その行動を起こすことになる。

【００７８】以上のように、各種の環境における雑音
や、使用者の発話との区別が容易な開始音を検出し、そ
の開始音に対応して、音声認識を開始するようにしたの
で、音声区間が開始する前の区間を含めて音声認識が行
われることによる誤認識を防止することができる。

【００７９】なお、音声区間の開始、即ち、使用者が発
話を開始することは、その他、例えば、ロボットにスイ
ッチを設け、そのスイッチを押してもらうことや、リモ
ートコマンダを用意して、そのリモートコマンダを操作
すること等によっても、図６の音声認識装置に認識させ
ることが可能である。しかしながら、スイッチを操作す
る場合には、ロボットが手の届くところにいないと、そ
の操作を行うことができないし、また、リモートコマン
ダによる場合にも、そのリモートコマンダが手の届くと
ころにないと、その操作を行うことができない。これに
対して、上述のような開始音を検出する場合には、使用
者が手を叩けば良いので、そのようなことはない。

【００８０】次に、上述のように、使用者が手を叩く等
して開始音を発した後に発話する単語を、例えば、ロボ
ットに対するコマンド等のある範疇に属するものに限定
するように約束をしておくことで、音声認識装置の処理
速度を向上させ、さらに、その音声認識率を向上させる
ことができる。

【００８１】即ち、例えば、いま辞書記憶部４４に、通
常の音声認識において用いる単語が登録された単語辞書
（以下、適宜、汎用単語辞書という）と、ロボットに対
するコマンドだけが登録された単語辞書（以下、適宜、
コマンド単語辞書という）とを記憶させておき、開始音
の後は、使用者が、ロボットに対するコマンドの範疇に
属する単語を発話するものとする。なお、汎用単語辞書
には、コマンド単語辞書に登録された単語も登録してお
くことが可能である。

【００８２】そして、図６の音声認識装置に、例えば、
図１０のフローチャートにしたがった処理を行わせるこ
とで、音声認識の処理速度および認識率を向上させるこ
とができる。

【００８３】即ち、まず最初に、ステップＳ１１におい
て、マッチング部４２は、辞書記憶部４４に記憶された
汎用単語辞書を、処理に用いる単語辞書として選択し、
ステップＳ１２に進む。ステップＳ１２では、開始音検
出部４６は、図８のステップＳ１における場合と同様
に、開始音がマイク９に入力されたかどうかを判定す
る。ステップＳ１２において、開始音が入力されていな
いと判定された場合、ステップＳ１３に進み、特徴パラ
メータ抽出部４１およびマッチング部４２において、上
述した処理が行われることにより、マイク９から出力さ
れる音声データを用いた音声認識が行われ、その音声認
識結果が、行動決定部３３に出力される。

【００８４】従って、図１０の実施の形態では、開始音
が入力されていない場合でも、音声認識が行われるが、
この音声認識は、ステップＳ１１で選択された汎用単語
辞書に登録された単語を対象に行われる。

【００８５】一方、ステップＳ１２において、開始音が
入力されたと判定された場合、即ち、例えば、使用者が
手を叩いたり、あるいは何か物を叩く等して、その音
が、マイク９から入力された場合、開始音検出部４６
は、その開始音から、所定の時間Ｔ_postだけ経過したタ
イミングを、音声区間の開始点として検出し、開始音を
検出したこと、および音声区間の開始点であることを表
す検出メッセージを、特徴パラメータ抽出部４１および
マッチング部４２に出力して、ステップＳ１４に進む。

【００８６】マッチング部４２は、検出メッセージを受
信すると、ステップＳ１４において、辞書記憶部４４に
記憶されたコマンド単語辞書を、処理に用いる単語辞書
として選択し、ステップＳ１５に進む。ステップＳ１５
では、特徴パラメータ抽出部４１およびマッチング部４
２において、上述した処理が行われることにより、マイ
ク９から出力される音声データを用いた音声認識が行わ
れ、その音声認識結果が、感情／本能モデル部３２およ
び行動決定部３３に出力されて、ステップＳ１１に戻
る。

【００８７】従って、この場合、ステップＳ１４で選択
されたコマンド単語辞書に登録された単語、即ち、コマ
ンドを対象に、音声認識が行われる。

【００８８】そして、ここでは、開始音の後に、使用者
は、コマンドを発話するものとしていることから、コマ
ンドだけが登録されたコマンド単語辞書を用いて音声認
識が行われることにより、音声認識装置の処理速度およ
び認識率を向上させることができる。

【００８９】即ち、音声波形は、例えば、同一の語彙が
同一人により発話されたとしても、完全に一致すること
は、ほとんどなく、このため、マッチング部４２におけ
るマッチング処理（上述のスコア計算）は、いわば曖昧
性を有する入力に対する処理となる。従って、発話され
ていない単語が音声認識結果とされる誤認識が生じる場
合があるが、このような誤認識は、一般に、音声認識の
対象とする語彙数が多くなると、類似する単語が多くな
るために増加する。

【００９０】これに対して、コマンド単語辞書に登録さ
れたコマンドのみを対象に音声認識を行う場合には、音
声認識の対象とする語彙数が少なくて済むから、音声認
識率を向上させることができ、さらに、演算量も少なく
て済むから、処理速度も向上させることができる。

【００９１】なお、本実施の形態においては、本発明
を、エンターテイメント用のロボット（疑似ペットとし
てのロボット）に適用した場合について説明したが、本
発明は、これに限らず、例えば、産業用のロボット等の
各種のロボットに広く適用することが可能である。

【００９２】また、本実施の形態においては、ロボット
に行動を行わせるための駆動手段としてモータ７₁乃至
７_Nを用いるようにしたが、本発明はこれに限らず、要
は、外界に対して作用をもたらす行動（動作）を発現で
きるのであれば、駆動手段として、他のアクチュエータ
や、スピーカ、ブザー、照明装置等を広く用いることが
できる。

【００９３】さらに、本実施の形態においては、上述し
た一連の処理を、ＣＰＵ２０にプログラムを実行させる
ことにより行うようにしたが、一連の処理は、それ専用
のハードウェアによって行うことも可能である。

【００９４】なお、プログラムは、あらかじめプログラ
ムメモリ２１（図３）に記憶させておく他、フロッピー
ディスク、CD-ROM(Compact Disc Read Only Memory)，M
O(Magneto optical)ディスク，DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体に、一時的あるいは永続的に格納（記録）し
ておくことができる。そして、このようなリムーバブル
記録媒体を、いわゆるパッケージソフトウエアとして提
供し、ロボット（プログラムメモリ２１）にインストー
ルするようにすることができる。

【００９５】また、プログラムは、リムーバブル記録媒
体からインストールする他、ダウンロードサイトから、
ディジタル衛星放送用の人工衛星を介して、無線で転送
したり、LAN(Local Area Network)、インターネットと
いったネットワークを介して、有線で転送し、プログラ
ムメモリ２１にインストールすることができる。

【００９６】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、プログラムメモリ２１に、容易にインストールす
ることができる。

【００９７】ここで、本明細書において、ＣＰＵ２０に
各種の処理を行わせるためのプログラムを記述する処理
ステップは、必ずしもフローチャートとして記載された
順序に沿って時系列に処理する必要はなく、並列的ある
いは個別に実行される処理（例えば、並列処理あるいは
オブジェクトによる処理）も含むものである。

【００９８】また、プログラムは、１のＣＰＵにより処
理されるものであっても良いし、複数のＣＰＵによって
分散処理されるものであっても良い。

【００９９】なお、本明細書中において、「ある値以
上」という記載は、「ある値より大きい」という記載で
あってもかまわない。同様に、「ある値以下」という記
載は、「ある値より小さい」という記載であってもかま
わない。

【０１００】

【発明の効果】本発明のロボット制御装置およびロボッ
ト制御方法、並びに記録媒体によれば、第１の閾値以上
のパワーの音であって、第２の閾値以上の時間継続しな
い音である開始音が検出され、その開始音の検出に対応
して、音声認識が行われる。従って、誤認識を防止する
ことが可能となる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。

【図２】ロボットの内部構成を示すブロック図である。

【図３】制御部１１のハードウェア構成例を示すブロッ
ク図である。

【図４】制御部１１がプログラムが実行することにより
実現される、制御部１１の機能的構成例を示すブロック
図である。

【図５】行動モデルとしての確率オートマトンを示す図
である。

【図６】センサ入力処理部３１における音声認識を行う
部分としての音声認識装置の構成例を示すブロック図で
ある。

【図７】開始音検出部４６の処理を説明するための図で
ある。

【図８】図６の音声認識装置の動作を説明するためのフ
ローチャートである。

【図９】音声波形を示す図である。

【図１０】図６の音声認識装置の動作を説明するための
フローチャートである。

【符号の説明】

１尻尾ユニット，２胴体部ユニット，３頭部
ユニット，４Ａ乃至４Ｄ大腿部ユニット，５Ａ乃
至５Ｄ脛部ユニット，６Ａ乃至６Ｄ脚部ユニッ
ト，７₁乃至７_N モータ，８カメラ，９マイ
ク，１０圧力センサ，１１制御部，１２₁乃
至１２_N ロータリエンコーダ，２０ＣＰＵ，２
１プログラムメモリ，２２ＲＡＭ，２３不揮
発性メモリ，２４Ｉ／Ｆ，２５モータドライバ，
３１センサ入力処理部，３２感情／本能モデル
部，３３行動決定部，３３Ａ行動モデル記憶
部，３４姿勢遷移部，３５モータ制御部，４１
特徴パラメータ抽出部，４２マッチング部，４３
音響モデル記憶部，４４辞書記憶部，４５文法
記憶部，４６開始音検出部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 11/02 Ｇ１０Ｌ 3/00 ５７１Ｋ 15/04 ５１３Ａ 15/00 ５５１Ｈ // Ｇ１０Ｌ 101:065 Ｆターム(参考） 2C150 AA14 BA06 CA02 DA05 DA24 DA27 DA28 DF02 EF16 EF29 3F059 AA00 BA02 BB06 BC04 CA05 CA09 DA05 DA09 DB04 DB09 DC01 DC04 DC08 DD01 DD05 DD18 FA03 FA05 FB12 FC07 FC14 3F060 AA00 CA14 GA05 GA11 GB21 GD14 GD15 5D015 CC15 DD04 DD05 KK01 LL00

Claims

【特許請求の範囲】

【請求項１】ロボットの行動を制御するロボット制御
装置であって、第１の閾値以上のパワーの音であって、第２の閾値以上
の時間継続しない音である開始音を検出する検出手段
と、前記開始音の検出に対応して、音声認識を行う音声認識
手段と、前記音声認識手段による音声認識結果に基づいて、前記
ロボットの行動を制御する制御手段とを備えることを特
徴とするロボット制御装置。
【請求項２】前記検出手段は、前記開始音を検出して
から所定の時間が経過したときのタイミングを、前記音
声区間の開始点として、さらに検出し、前記音声認識手段は、前記音声区間の開始点後を対象に
音声認識を行うことを特徴とする請求項１に記載のロボ
ット制御装置。
【請求項３】前記音声認識手段は、音声認識の対象と
する語彙が登録されている複数の単語辞書を有し、前記開始音が検出された場合に、前記複数の単語辞書の
うち、所定の単語辞書のみを用いて、音声認識を行うこ
とを特徴とする請求項１に記載の音声認識装置。
【請求項４】前記開始音が検出された場合に、前記音
声認識手段が用いる前記所定の単語辞書は、前記ロボッ
トに対する命令を与える語彙が登録されているものであ
ることを特徴とする請求項３に記載の音声認識装置。
【請求項５】ロボットの行動を制御するロボット制御
方法であって、第１の閾値以上のパワーの音であって、第２の閾値以上
の時間継続しない音である開始音を検出する検出ステッ
プと、前記開始音の検出に対応して、音声認識を行う音声認識
ステップと、前記音声認識ステップにおける音声認識結果に基づい
て、前記ロボットの行動を制御する制御手段とを備える
ことを特徴とするロボット制御方法。
【請求項６】ロボットの行動を制御する制御処理を、
コンピュータに行わせるプログラムが記録されている記
録媒体であって、第１の閾値以上のパワーの音であって、第２の閾値以上
の時間継続しない音である開始音を検出する検出ステッ
プと、前記開始音の検出に対応して、音声認識を行う音声認識
ステップと、前記音声認識ステップにおける音声認識結果に基づい
て、前記ロボットの行動を制御する制御手段とを備える
プログラムが記録されていることを特徴とする記録媒
体。