JP2005309366A

JP2005309366A - 信号処理方法および信号処理装置

Info

Publication number: JP2005309366A
Application number: JP2004283815A
Authority: JP
Inventors: Shinichi Onaka; 慎一大中; Miki Sato; 幹佐藤; Akihiko Sugiyama; 昭彦杉山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-03-25
Filing date: 2004-09-29
Publication date: 2005-11-04
Anticipated expiration: 2024-09-29
Also published as: JP4655572B2

Abstract

【課題】周囲に様々な音源が存在していても、対話相手の音声を認識できる信号処理方法を提供する。
【解決手段】本発明の信号処理方法は、複数のトランスデューサの一部から得られる信号を用いて、所望の信号を含む第一の所定の信号を抽出するステップ（Ｓ１１、Ｓ１３）と、一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、所望の信号以外の信号を含む第二の所定の信号を抽出するステップ（Ｓ１１）と、第二の所定の信号の存在を検知するステップ（Ｓ１５）と、を含み、第二の所定の信号が存在しないとき、第一の所定の信号を強調し（Ｓ１３）、第二の所定の信号が存在するとき、第二の所定の信号を用いて第一の所定の信号を強調する（Ｓ１９）。
【選択図】図２

Description

本発明は、所望の信号を強調する信号処理方法に関し、特に音声認識装置による音声認識結果に基づいて行動するロボットに用いる信号処理方法に関する。

従来、この種の信号処理方法は、主にロボット制御システムに用いられ、このシステムで周囲に様々な音が存在する環境で対話相手の音声を認識するため、例えば非特許文献１に示されるように、マイクロフォンアレイを利用して主たる音方向を検出しその音方向に指向性を持たせることで周囲の雑音を抑圧していた。
松井俊浩、外８名、「オフィス移動ロボットJijo-2の音声対話システム」、日本ロボット学会誌、平成１２年３月、第１８巻、第２号、ｐ．１４２−１４９

しかしながら、従来の信号処理方法は、音声認識における雑音抑圧性能が十分でないという点で改善の余地を有していた。また、従来は、マイクロフォンアレイという一つの雑音抑圧技術を使用していたため、これ以上の音声認識における雑音抑制性能を向上させるのにも限界があった。

本発明は上記事情に鑑みてなされたものであり、その目的とするところは、周囲に様々な音源が存在していても、対話相手の音声を認識できる信号処理方法を提供することにある。

本発明によれば、複数のトランスデューサの少なくとも一つから得られる信号を用いて、所定の信号を強調するステップを複数有し、前記複数の強調するステップの出力結果を統合して用いることにより、強調された所望の信号を得ることを特徴とする信号処理方法が提供される。

ここで、トランスデューサは、たとえば、音響トランスデューサであり、マイクロフォンなどによって集音された音声信号が入力される。複数のマイクロフォンは、少なくとも一つのマイクロフォンを含む第一および第二のマイクロフォン群を含むことができる。第一のマイクロフォン群から得られる信号を用いて第一の所定の信号を強調する第一のステップと、第二のマイクロフォン群から得られる信号を用いて第二の所定の信号を強調する第二のステップと、を少なくとも含むことができる。これにより、得られた第一および第二の所定の信号の中から、任意の信号を選択的に用いることができる。さらに、各信号は、それぞれ異なる信号処理により強調することができる。さらに、これらの複数の強調するステップの出力結果を統合して用いることにより、強調された所望の信号を得ることができ、これにより、高性能な所望信号抽出を行うことができる。

この発明によれば、周囲に様々な音源が存在していても、所望の信号を抽出し、かつ強調することができるので、対話相手の音声などを認識できる信号処理方法を提供することができる。

上記信号処理方法において、周囲の状況を検知するステップを含むことができ、状況を検知するステップの検知結果に応じて、複数の強調するステップの出力結果を選択的に統合して用いることにより、強調された所望の信号を得ることができる。

ここで、周囲の状況とは、たとえば、テレビやラジオなどの雑音の有無、話者の人数、および複数の話者の中心方向などを含む。たとえば、雑音が存在する場合、雑音方向の信号を強調するステップの出力結果を用いて、話者方向の信号を強調するステップの出力結果をノイズキャンセラ処理により強調する処理を行い、所望の信号、すなわち話者の音声信号を得ることができる。

この構成によれば、周囲の状況に応じて、適切な音声処理を選択することが可能となり、音声認識の精度を向上させることができる。

上記信号処理方法において、複数の強調するステップは、複数のトランスデューサの一部から得られる信号を用いて、所望の信号を含む第一の所定の信号を抽出するステップと、一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、所望の信号以外の信号を含む第二の所定の信号を抽出するステップと、を含むことができ、状況を検知するステップは、第二の所定の信号の存在を検知するステップを含むことができ、第二の所定の信号が存在しないとき、第一の所定の信号を強調し、第二の所定の信号が存在するとき、第二の所定の信号を用いて第一の所定の信号を強調することができる。

ここで、所望の信号以外の信号とは、たとえば、周囲の雑音などの音声信号である。この構成によれば、周囲に様々な音源が存在していても、所望の信号を抽出し、かつ強調することができるので、対話相手の音声などを認識できる信号処理方法を提供することができる。

上記信号処理方法において、第二の所定の信号が存在しないとき、第一の所定の信号は、適応アレイ処理により強調され、第二の所定の信号が存在するとき、第一の所定の信号は、第二の所定の信号を用いて適応フィルタを用いた２入力型雑音消去処理により強調されることができる。

上記信号処理方法において、所望の人物を画像認識にて認識するステップと、認識するステップで認識された所望の人物に、複数のトランスデューサにそれぞれ電気的に接続された複数のマイクロフォンの一部を向けるステップと、を含むことができる。

所望の人物に向けられた一部のマイクロフォンで集音された音声は、電気的に接続されたトランスデューサに入力され、トランスデューサから得られた信号を用いて、たとえば、適応アレイ処理にて、所定の信号を強調し、所望の信号を得ることができる。また、所望の信号は、所望の人物の音声信号とすることができる。

上記信号処理方法において、認識するステップで認識された人物が一人か複数かを判断するステップと、人物が一人であると判断した場合、認識された人物に一部のマイクロフォンを向けるステップと、人物が複数であると判断した場合、認識された複数の人物の中心に一部のマイクロフォンを向けるステップと、を含むことができる。

上記信号処理方法において、判断するステップで人物が一人であると判断した場合、適応アレイ処理により第一の所定の信号を強調し、判断するステップで人物が複数であると判断した場合、一部のマイクロフォンを人物の中心に向けるまでの間、適応フィルタを用いた２入力型雑音消去処理により第二の所定の信号を用いて第一の所定の信号を強調し、マイクロフォンが人物の中心に向いたとき、適応アレイ処理により第一の所定の信号を強調することができる。

この構成によれば、複数の人物が居る場合、所望の人物にマイクを向けるまでの間、周囲に存在する様々な音源を排除しながら所望の音声信号を強調する処理を行うことができる。このように、状況に応じて信号処理方法を適切に選択して用いることができる。

本発明によれば、複数のトランスデューサと、複数のトランスデューサの少なくとも一つから得られる信号を用いて、所望の信号を強調する複数の信号強調部と、複数の信号強調部の出力結果を統合して用いることにより、強調された所望の信号を得る信号処理部と、を備えたことを特徴とする信号処理装置が提供される。

この発明によれば、周囲に様々な音源が存在していても、所望の信号を抽出し、かつ強調することができるので、対話相手の音声などを認識できる信号処理装置を提供することができる。

本発明によれば、複数のトランスデューサと、複数のトランスデューサの少なくとも一つから得られる信号を用いて、所望の信号を強調する複数の信号強調部と、周囲の状況を検知する状況検知部と、状況検知部の検知結果に応じて、複数の信号強調部の出力結果を選択的に統合して用いることにより、強調された所望の信号を得る信号処理部と、信号処理部からの所望の信号に基づいて、音声認識する音声認識部と、を備えたことを特徴とするロボットが提供される。

この発明によれば、周囲に様々な音源が存在していても、対話相手の音声を認識し、状況に応じた適切な反応ができるロボットを提供することができる。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、周囲雑音を効果的に抑圧できる信号処理方法を提供される。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

図１に本発明の実施の形態に係る信号処理装置の概略機能ブロック図を示す。図１を参照すると、本実施形態の信号処理装置は、第一の音声入力部１００と、第二の音声入力部１０２と、第一の音声処理部２００と、第二の音声処理部２０２と、状況検知部３００と、状態認識情報記憶部３０２（図中、「状態認識情報」と示す）と、状況判断部３０４と、統合部４００とを備える。

第一の音声入力部１００は、複数のマイクロフォン２０（図中、「マイク１」、「マイク２」、・・・「マイクＮ」と示す）を含み、一部のマイクロフォン２０を使用して所望の信号、たとえば所望の音声を集音する。第二の音声入力部１０２は、少なくとも一つのマイクロフォン２２（図中、「マイク」と示す）を含み、このマイクロフォン２２は第一の音声入力部１００のマイクロフォン２０とは異なる指向性を有し、所望の信号以外の信号、たとえば、周囲の雑音を集音する。

第一の音声処理部２００は、第一の音声入力部１００の複数のマイクロフォン２０の中から一部のマイクロフォン２０と、第二の音声入力部１０２のマイクロフォン２２が集音した音声信号を用いて、適応フィルタを用いた２入力型雑音消去処理を行う。すなわち、第一の音声入力部１００のマイクロフォン２０で集音した所望の信号を、第二の音声入力部１０２のマイクロフォン２２で集音された所望以外の信号で強調する。これにより、周囲の雑音を消音し、所望の音声のみを強調することができる。

２入力型雑音消去方法の文献としては、特開平９−３６７６３号公報「ノイズキャンセラ」、特開平８−５６１８０号公報「ノイズキャンセラ」、特開平６−２８４４９号公報「適応型雑音低減装置」、特開平６−９０４９３号公報「音声入力装置及びこれを用いた撮像装置」、特開平５−１５８４９４号公報「ノイズ低減装置」、特開平５−７５３９１号公報「適応フィルタにおける係数制御方法及び装置並びにノイズ除去方法及び装置、特開平５−１５８４９４号公報「ノイズ低減装置」、特開平５−２２７８８号公報「ノイズ低減装置」、特開昭６１−１９４９１４号公報「ノイズキャンセラ」（以下文献２とする）に、適応フィルタを用いた２入力型雑音消去装置が記載されている。

第二の音声処理部２０２は、第一の音声入力部１００の複数のマイクロフォン２０が集音した音声信号を用いて、適応アレイ処理を行う。

適応アレイの文献としては、特開平１１−１３４００２号公報「適応アレイの制御方法および適応アレイ装置」、特開平１１−５２９８８号公報「適応アレイの制御方法および適応アレイ装置」、特開平８−１２２４２４号公報「適応アレイ装置」がある。また、非特許文献１記載のロボットに使われている適応アレイ技術は、「事情通ロボットにおける音響信号処理」（人工知能学会研究会資料 SIG-Challenge-0113, pp.43-49）に記載されている。

状況検知部３００は、周囲の状況、たとえば、人が居るか居ないか、居るとすれば人数は１人か複数か、場所は室内か、屋外か、雑音の有無、例としてテレビやラジオなどの雑音源の有無などを検知するものである。状況検知部３００は、特定の外部状態や、ユーザからの特定の働きかけを認識し、その認識結果を表す状態認識情報として取得し、状態認識情報記憶部３０２に記憶する。状況判断部３０４は、状態認識情報記憶部３０２にアクセスし、状態認識情報に基づいて、状況を判断する。

状況検知部３００は、たとえば、周囲の状況を撮像するＣＣＤカメラを含み、得られた画像信号を用いて、画像認識処理を行い、画像中に存在する人を検出することができる。この場合、状況判断部３０４は、検出結果に基づいて、人が居るか居ないか、居る人の人数、または特定の人物を認識し、画像上のどの位置に存在するかなどを判断する。

また、状況検知部３００は、マイクロフォンを含むことができ、周囲の音声を集音し、得られた音声信号を用いて、特定の外部状態や、ユーザからの特定の働きかけを認識することができる。この場合、状況判断部３０４は、判断した結果に基づいて、統合部４００に対し、第一の音声処理部２００および第二の音声処理部２０２の何れの出力を選択するかを指示する。

統合部４００は、状況判断部３０４の指示に従って、第一の音声処理部２００および第二の音声処理部２０２の何れかを選択し、音声信号２４として出力する。たとえば、状況判断部３０４が複数の人物が居ることを判断し、所望の人物の位置が特定されたとき、第二の音声処理部２０２の音声処理を選択する指示がなされ、第二の音声処理部２０２が第一の音声入力部１００の複数のマイクロフォン２０を用いて、適応アレイ処理を行う。このとき、第一の音声入力部１００の複数のマイクロフォン２０のうち、何れかのマイクロフォン２０が所望の人物の方向に向けられる。

図２は、図１の信号処理装置の動作の一例を示すフローチャートである。以下、本実施の形態の信号処理装置の動作について図１および図２を用いて説明する。まず、第一の音声入力部１００の複数のマイクロフォン２０および第二の音声入力部１０２のマイクロフォン２２を用いて第一の信号および第二の信号をそれぞれ集音する（Ｓ１１）。第一の音声入力部１００の複数のマイクロフォン２０および第二の音声入力部１０２のマイクロフォン２２は、時間的に同期した音声データを取り込むようになっている。ステップＳ１１で集音された第一の信号を用いて、第二の音声処理部２０２が適応アレイ処理を行い、所望の信号を抽出する（Ｓ１３）。

つづいて、状況判断部３０４が状態認識情報記憶部３０２にアクセスし、状況を判断し、第一の音声処理部２００の音声処理を選択する指示がなされている場合（Ｓ１５のＹＥＳ）、ステップＳ１３で抽出された所望の信号と、ステップＳ１１で集音された第二の信号とを用いて第一の音声処理部２００が２入力型雑音消去処理を行い、所望の信号を強調する（Ｓ１９）。このようにして、統合部４００から所望の音声信号２４が出力される。

一方、ステップＳ１５で、状況判断部３０４が状態認識情報記憶部３０２にアクセスし、状況を判断した結果、第一の音声処理部２００の音声処理を選択する指示がなされていない場合（Ｓ１５のＮＯ）、統合部４００からステップＳ１３で抽出された信号が音声信号２４として出力され（Ｓ２１）、処理を終了する。

なお、ステップＳ１５の判定は、ステップＳ１１の前に行ってもよい。その場合、状況判断部３０４が状態認識情報記憶部３０２にアクセスし、状況を判断し、第一の音声処理部２００の音声処理を選択する指示がなされているときは、ステップＳ１１、ステップＳ１３、およびステップＳ１９を実行し、第二の音声処理部２０２の音声処理を選択する指示がなされている場合、ステップＳ１１、ステップＳ１３、およびステップＳ２１を実行する。

以下、本発明の適用例として、本実施の形態の信号処理装置を含むロボットを例に説明する。図３及び図４は、本発明を適用したロボットの一実施形態の外観構成例を示している。図３は、外観を前から見た正面図であり、図４は、外観を後ろから見た背面図である。また、図５は、ロボットの内部構成例を示すブロック図である。なお、図３乃至図５において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。

本実施の形態では、ロボットは、例えば、胴体部１、頭部２が連結されることにより構成されている。胴体部１は円筒形であり、平面が上下に来るようになっている。胴体部１の下部には左右にそれぞれ車輪３Ａおよび車輪３Ｂが取り付けられており、それらの車輪は後述するアクチュエータにより独立に前後に回転することができる。頭部２は、胴体部１に垂直に取り付けられた垂直軸とその垂直軸に対して９０度の角度で設置された水平軸に関して決められた範囲で回転することができる。垂直軸は頭部２の中心を通るように設置されており、水平軸は胴体部１と頭部２が正面を向いた状態で頭部２の中心を通りかつ左右方向に水平に設置されている。つまり、頭部２は左右と上下の２自由度で、決められた範囲内で回転することができる。これらも後述するアクチュエータにより駆動される。

胴体部１の前面には、４つのマイクロフォン５Ａ〜マイクロフォン５Ｄを有するマイクロフォンユニット５が設けられている。４つのマイクロフォン５Ａ〜マイクロフォン５Ｄは所定の配列で配置され、本実施形態では、たとえば直線状に水平になるように取り付けられている。各マイクロフォンの間隔は２．５ｃｍである。また、胴体部１の背面には１つのマイクロフォン７が取り付けられている。合計５個のマイクロフォンは、時間的に同期した音声データを取り込めるようになっている。なお、このマイクロフォン５Ａ〜マイクロフォン５Ｄ、およびマイクロフォン７が、図1における第一の音声入力部１００および第二の音声入力部１０２にそれぞれ対応する。

また、胴体部１の前面には、スピーカ９が設けられている。さらに、頭部２には、ＣＣＤカメラ１１ＡとＣＣＤカメラ１１Ｂが設けられている。ここで、二つのカメラをつなぐ線分は水平である。

図５に示すように、胴体部１は、ロボット全体の制御を行うコントローラ１０を備えている。本実施形態において、コントローラ１０は、胴体部１内部に設けられたパーソナルコンピュータのマザーボード（不図示）である。コントローラ１０は、ＣＰＵ１２およびメモリ１４を含み、ＣＰＵ１２において、メモリ１４に記憶された制御プログラムが実行されることにより、各種の処理を行う。これらの機能については、後述する。

胴体部１は、ロボットの動力源となるバッテリ３１と、２つの車輪３Ａおよび車輪３Ｂをそれぞれ動かすためのアクチュエータ３３Ａおよびアクチュエータ３３Ｂと、を含む。頭部２は、頭部２を回転するためのアクチュエータ１３Ａとアクチュエータ１３Ｂを含む。

コントローラ１０には、マイクロフォンユニット５の各マイクロフォンと、マイクロフォン７と、スピーカ９と、バッテリ３１と、アクチュエータ３３Ａと、アクチュエータ３３Ｂと、ＣＣＤカメラ１１Ａと、ＣＣＤカメラ１１Ｂと、アクチュエータ１３Ａと、アクチュエータ１３Ｂと、が電気的に接続される。

なお、本実施の形態では、合計４つのアクチュエータは、これらを制御するための制御モジュール（不図示）に接続され、この制御モジュールを介してＵＳＢケーブルでマザーボードに接続される。

胴体部１における５個のマイクロフォン５Ａ〜マイクロフォン５Ｄおよびマイクロフォン７は、ユーザからの発話を含む周囲の音声を集音し、得られた音声信号をコントローラ１０に送出する。本実施形態において、これら５個のマイクロフォンが集音した音声信号は、いったん同期するための装置（不図示）に入力され、その装置を介してマザーボードに接続され、同期した音声データがマザーボードに入力される。

頭部２におけるＣＣＤカメラ１１ＡとＣＣＤカメラ１１Ｂは、周囲の状況を撮像し、得られた画像信号を、コントローラ１０に送出する。なお、ＣＣＤカメラ１１ＡとＣＣＤカメラ１１Ｂが図１における状況検知部３００に対応する。また、マイクロフォン５Ａ〜５Ｄ、およびマイクロフォン７は、図１における第一の音声入力部１００および第二の音声入力部１０２と、状況検知部３００と、を兼ねる構成とすることもできる。また、コントローラ１０のＣＰＵ１２は、図１における状況判断部３０４および統合部４００を構成し、メモリ１４は状態認識情報記憶部３０２を含むことができる。

コントローラ１０は、マイクロフォン５Ａ〜マイクロフォン５Ｄとマイクロフォン７、ＣＣＤカメラ１１ＡとＣＣＤカメラ１１Ｂから与えられる音声信号、画像信号に基づいて、周囲の状況や、ユーザからの指令を判断する。詳細については、後述する。

ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂにより取り込まれた画像を画像処理することにより、撮影された人物の頭部を囲む長方形が検出される。この画像データに基づいて、図１の状況判断部３０４は、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が存在するか否かの判断を行う。

さらに、コントローラ１０は、この判断結果などに基づいて、続く行動を決定し、その決定結果に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂの必要なものを駆動させる。これにより頭部２を上下左右に回転したり、ロボットを移動または回転させたりするなどの行動を行わせる。

また、コントローラ１０は、必要に応じて、合成音を生成し、スピーカ９に供給して出力させる。

以上のようにして、ロボットは、周囲の状況などに基づいて自律的に行動をとるようになっている。

次に、コントローラ１０の機能について説明する。図６は、図５のコントローラ１０の機能的構成例を示している。なお、図６に示す機能的構成は、ＣＰＵ１２が、メモリ１４に記憶された制御プログラムを実行することで実現されるようになっている。

コントローラ１０は、特定の外部状態を認識するセンサ入力処理部５１と、センサ入力処理部５１の認識結果に基づいて、続く行動を決定する行動決定部７１と、行動決定部７１の決定結果に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを制御する制御部７３と、合成音を生成する音声合成部７５と、音声合成部７５において合成された合成音の出力を制御する出力部７７と、ユーザの指示に対するロボットの応答を記憶している応答記憶部７９と、から構成されている。

センサ入力処理部５１は、マイクロフォンユニット５のマイクロフォン５Ａ〜マイクロフォン５Ｄ、マイクロフォン７、ＣＣＤカメラ１１Ａ、およびＣＣＤカメラ１１Ｂから与えられる音声信号、画像信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ等を認識し、その認識結果を表す状態認識情報と、ロボットを制御するロボット制御指令と、を行動決定部７１に通知する。

また、センサ入力処理部５１は、画像認識部５３と、音声認識部５５と、選択部５７と、第一の音声処理部６０と、第二の音声処理部６２と、を含む。画像認識部５３は、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂから与えられる画像信号を用いて、画像認識処理を行う。そして、画像認識部５３は、画像中に存在する人を検出することができ、その処理の結果、「人がいる」、「その人の画像上の位置」などの画像認識結果を、状態認識情報として、選択部５７に通知する。画像認識部５３は、画像中に複数の人物が存在する場合、状態認識情報には、検出された複数の人物それぞれについての情報が含まれる。

第一の音声処理部６０は、マイクロフォンユニット５の４つのマイクロフォンのうち一つのマイクロフォン５Ｂおよびマイクロフォン７から与えられる音声信号を用いて、適応フィルタを用いた２入力型雑音消去処理を行う。そして、第一の音声処理部６０は、その音声処理結果としての音声信号を、選択部５７へ送出する。第一の音声処理部６０は、図１の第一の音声処理部２００に対応する。

第二の音声処理部６２は、マイクロフォン５Ａ〜マイクロフォン５Ｄから与えられる音声信号を用いて、適応アレイ処理を行う。そして、第二の音声処理部６２は、その音声処理結果としての音声信号を、選択部５７へ送出する。第二の音声処理部６２は、図１の第二の音声処理部２０２に対応する。なお、適応アレイ処理において、事前に規定した方向は、ロボットの正面とする。

選択部５７は、画像認識部５３から与えられる状態認識情報を利用して、第一の音声処理部６０から与えられる音声信号と第二の音声処理部６２から与えられる音声信号のうちのどちらかを音声認識部５５へ出力する。さらに、選択部５７は、画像認識部５３から与えられた状態認識情報に基づき、ロボットを制御するロボット制御指令を行動決定部７１へ通知する。ロボット制御指令とは、たとえば、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを動作して、ロボットの方向及び頭の回転角度を指示するものである。

選択部５７は、状態認識情報を参照して、検出されている人が存在しない場合、第一の音声処理部６０から送出された音声信号を音声認識部５５へ送出する。

また、選択部５７は、状態認識情報を参照して、検出されている人が一人存在する場合であり、かつ、胴体部１の正面がその人物の方向を向いている場合、第二の音声処理部６２から送出された音声信号を音声認識部５５へ送出する。また、胴体部１の正面がその人物の方向を向いていない場合、行動決定部７１へ対して、胴体部１を、その人物に対して正対し、頭部２を左右方向に回転して胴体部１の正面を向かせる、という内容のロボット制御指令を行動決定部７１へ送り、第一の音声処理部６０から送出された音声信号を音声認識部５５へ送出する。

また、選択部５７は、状態認識情報を参照して、検出されている人が二人以上存在する場合、行動決定部７１に対して、胴体部１を、検出している複数の人物の中心に対して正対し、頭部２を左右方向に回転して胴体部１の正面を向かせる、という内容のロボット制御指令を行動決定部７１へ送る。また、選択部５７は、第一の音声処理部６０から送出された音声信号を音声認識部５５へ送出する。ここで、検出している複数の人物の中心とは、画像中における中心であり、それは、画像中において一番右に存在する人と、画像中において一番左に存在する人を、画像上における水平線で結んだときの、その水平線の中心のことである。

音声認識部５５は、選択部５７から与えられる音声信号について音声認識を行う。そして、音声認識部５５は、その音声認識結果として得られた、例えば、「おはよう」、「こんにちは」等の言葉を、状態認識情報として、行動決定部７１に通知する。

行動決定部７１は、センサ入力処理部５１からの状態認識情報とロボット制御指令に基づいて、次の行動を決定し、決定された行動の内容を、行動指令として制御部７３に、また、合成発話指令として音声合成部７５に送出する。また、行動決定部７１は、状態認識情報として「おはよう」、「こんにちは」等の音声認識結果を受け取ると、応答記憶部７９を参照し、音声認識結果に対応するロボットの動作情報を取得する。

応答記憶部７９に格納されているロボットの動作情報は、合成発話指令情報と行動指令情報とから構成される。例えば、「おはよう」という音声認識結果に対応する行動指令情報は、頭部２を上下に振って正面に戻すという内容であり、合成発話情報は「おはようございます」という合成発話を行う内容である。

そこで、行動決定部７１が、状態認識情報として「おはよう」という音声認識結果を受け取ると、行動決定部７１は、応答記憶部７９から取得したロボットの動作情報に基づいて、頭部２を上下に振って正面に戻すという内容の行動指令を制御部７３へ送出し、「おはようございます」という合成発話を行う内容の合成発話指令を音声合成部７５へ送出する。また、行動決定部７１は、センサ入力処理部５１からロボットを制御するロボット制御指令を受け取ると、それを制御部７３へ送出する。

また、行動決定部７１は、センサ入力処理部５１から状態認識情報に含まれる音声認識結果とロボット制御指令の両方を受け取った場合、ロボット制御指令は無視し、状態認識情報の音声認識結果に基づいて、次の行動を決定する。

制御部７３は、行動決定部７１から与えられる行動指令に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを駆動するための制御信号を生成し、これをアクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂへ送出する。これにより、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂは、制御信号にしたがって駆動し、ロボットは、自律的に行動を起こす。

出力部７７には、音声合成部７５からの合成音のディジタルデータが供給されるようになっており、出力部７７は、それらのディジタルデータを、アナログの音声信号にＤ／Ａ変換し、スピーカ９に供給して出力させる。

このように構成された本実施形態のロボットの動作について、以下に説明する。図７は、本実施形態のロボットの動作の一例を示すフローチャートである。以下の説明では、図３乃至図７を参照する。

まず、ステップＳ１において、画像認識部５３が、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂによって撮像された画像信号を用いて画像認識処理を行い、画像中に存在する人を検出し、検出している人数が１人であるかどうかを判断する。

ステップＳ１において、検出している人数が１人であると判断された場合（Ｓ１のＹＥＳ）、ステップＳ２において、画像認識部５３は、さらにロボットがその人物に正対しているかどうかを判断する。

ステップＳ２において、ロボットがその人物に正対していると判断された場合（Ｓ２のＹＥＳ）、ステップＳ３において、選択部５７は、第二の音声処理部６２の出力を音声認識部５５へ送出し、音声認識部５５が得られた音声信号を音声認識する。

ステップＳ２において、ロボットがその人物に正対していないと判断された場合（Ｓ２のＮＯ）、ステップＳ４において、選択部５７は、ロボットがその人物に正対するようにロボットを制御するロボット制御指令を行動決定部７１に送出し、行動決定部７１はロボット制御指令に基づいて、制御部７３に行動指令として送出する。制御部７３は、行動決定部７１から与えられる行動指令に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを駆動するための制御信号を生成し、制御信号にしたがって、ロボットはその人物に正対するように行動する。

つづいて、ステップＳ３に進み、音声認識部５５は、第二の音声処理部６２の出力を音声認識する。

ステップＳ１において、検出している人数が１人でないと判断された場合（Ｓ１のＮＯ）、ステップＳ６において、画像認識部５３は、検出している人数が０人であるかどうかを判断する。

ステップＳ６において、検出している人数が０人であると判断された場合（Ｓ６のＹＥＳ）、ステップＳ５において、選択部５７は、第一の音声処理部６０の出力を音声認識部５５へ送出し、音声認識部５５が得られた音声信号を音声認識する。

ステップＳ６において、検出している人数が０人でないと判断された場合（Ｓ６のＮＯ）、ステップＳ７において、選択部５７は、検出している複数の人物の中心に正対するようにロボットを制御するロボット制御指令を行動決定部７１に送出し、行動決定部７１はロボット制御指令に基づいて、制御部７３に行動指令として送出する。制御部７３は、行動決定部７１から与えられる行動指令に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは、検出している複数の人物の中心に正対するように行動する。つづいて、ステップＳ５に進み、音声認識部５５は、第一の音声処理部６０の出力を音声認識する。

ステップＳ３において、第二の音声処理部６２の出力を音声認識した後、または、ステップＳ５において、第一の音声処理部６０の出力を音声認識した後、ステップＳ８において、行動決定部７１は、センサ入力処理部５１から得られた状態認識情報に音声認識結果が存在するかどうかを判断する。

ステップＳ８において、状態認識情報に音声認識結果が存在する場合（Ｓ８のＹＥＳ）、ステップＳ９において、ロボットは音声認識結果に応じた反応を行う。すなわち、行動決定部７１は、応答記憶部７９を参照し、センサ入力処理部５１から与えられた状態認識情報に含まれる音声認識結果に対応するロボットの動作情報を取得し、得られた行動指令および合成発話指令を制御部７３および音声合成部７５にそれぞれ送出する。制御部７３は、行動決定部７１から与えられた行動指令に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは行動する。また、音声合成部７５は、行動決定部７１から与えられた合成発話指令に基づいて、合成音を生成し、出力部７７に合成音のディジタルデータを供給する。出力部７７は、このディジタルデータをアナログの音声信号にＤ／Ａ変換し、スピーカ９に供給して出力させる。

ステップＳ８において、音声認識結果が存在しない場合（Ｓ８のＮＯ）、ステップＳ１０において、ロボット制御指令にしたがって動作を行う。すなわち、行動決定部７１は、センサ入力処理部５１から与えられたロボット制御指令を制御部７３へ送出する。制御部７３は、行動決定部７１から与えられたロボット制御指令に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは行動する。

以上のように構成された本実施形態のロボットにおいて、状況に応じた動作の例を図６および図７を参照して以下に説明する。はじめに、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が存在しない場合について説明する。

画像認識部５３が、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂによって撮像された画像信号を用いて画像認識処理を行い、画像中に存在する人を検出し、検出している人数が１人でないと判断する（Ｓ１のＮＯ）。つづいて、画像認識部５３は、検出している人数が０人であると判断し（Ｓ６のＹＥＳ）、選択部５７は、第一の音声処理部６０の出力を音声認識部５５へ送出し、音声認識部５５が得られた音声信号を音声認識する（Ｓ５）。ここで、第一の音声処理部６０では、胴体部１の前面の４つのマイクロフォンのうちの一つ（たとえば、ロボットから見て右から二番目）のマイクロフォン５Ｂと、胴体部１の背面にあるマイクロフォン７の音声入力を用いて、２入力型雑音消去方法により処理した音声を音声認識部５５は、音声認識する。ここでは、周囲に人物は居ないので、音声認識はされないものとする。

したがって、音声認識されないので、行動決定部７１は、センサ入力処理部５１から得られた状態認識情報に音声認識結果が存在しないと判断し（Ｓ８のＮＯ）、ロボット制御指令にしたがって動作を行う。たとえば、周囲を散歩して、誰か人物が居ないか探すなどの行動を行う。

このように、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が存在しない場合、画像認識部５３により検知された状況判断により、選択部５７が第一の音声処理部６０の音声出力を選択する。すなわち、ＣＣＤカメラの視野に人物が存在しない場合は、ロボットの胴体部１の前面のマイクロフォンユニット５のマイクロフォン５Ａ〜マイクロフォン５Ｄと、胴体部１の背面のマイクロフォン７を用いて、２人力型雑音消去法により、前面のマイクロフォンユニット５の一部のマイクロフォンで集音された信号から背面のマイクロフォン７で集音された信号、すなわち周囲の雑音を消去しつつ、前面のマイクロフォンユニット５の一部のマイクロフォンで集音された信号を強調することができる。

次に、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が一人、ロボットの正面方向に存在する場合について説明する。

画像認識部５３が、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂによって撮像された画像信号を用いて画像認識処理を行い、画像中に存在する人を検出し、検出している人数が１人であると判断する（Ｓ１のＹＥＳ）。つづいて、画像認識部５３は、さらにロボットがその人物に正対していると判断し（Ｓ２のＹＥＳ）、選択部５７は、第二の音声処理部６２の出力を音声認識部５５へ送出し、音声認識部５５が得られた音声信号を音声認識する（Ｓ３）。すなわち、第二の音声処理部６２は、胴体部１の前面に備えられた４つのマイクロフォン５Ａ〜マイクロフォン５Ｄから入力される音声信号に対して適応アレイ処理を適用し、音声認識部５５は、処理結果の音声信号を音声認識処理する。

ここで、たとえば、その人物が「こんにちは」とロボットに話しかけると、音声認識部５５は、「こんにちは」という言葉を音声認識し、ロボットも「こんにちは」という合成音声を出力しながら、頭部２を上下に振る。すなわち、「こんにちは」という言葉が音声認識されると、行動決定部７１は、センサ入力処理部５１から得られた状態認識情報に音声認識結果が存在すると判断し（Ｓ８のＹＥＳ）、ロボットは音声認識結果に応じて、行動決定部７１は、応答記憶部７９を参照し、センサ入力処理部５１から与えられた状態認識情報に含まれる音声認識結果に対応するロボットの動作情報を取得し、得られた行動指令および合成発話指令を制御部７３および音声合成部７５にそれぞれ送出する。

制御部７３は、行動決定部７１から与えられた行動指令に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは行動する。このときの頭部２の動きは、正面位置を初期位置とし、下に３０度動き、再び正面に戻るという動きである。また、音声合成部７５は、行動決定部７１から与えられた合成発話指令に基づいて、合成音を生成し、出力部７７に合成音のディジタルデータを供給する。出力部７７は、このディジタルデータをアナログの音声信号にＤ／Ａ変換し、スピーカ９に供給して出力させる。このときの出力される合成発話は「こんにちは」である。

このように、たとえば、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が一人、ロボットに正対して存在する場合、その人物の音声を適応アレイ処理して得ることができ、その音声を音声認識部５５により音声認識させることができるので、周囲の雑音を抑圧した音声で音声認識を行うことが可能となる。

次に、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が一人存在するが、その人物がロボットの正面方向に存在しない場合について説明する。

画像認識部５３が、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が一人存在しているが、ロボットの正面方向に存在しないと判断する（Ｓ１のＹＥＳ、かつＳ２のＮＯ）。つづいて、選択部５７は、ロボットがその人物に正対するようにロボットを制御するロボット制御指令を行動決定部７１に送出し、行動決定部７１はロボット制御指令に基づいて、制御部７３に行動指令として送出する。制御部７３は、行動決定部７１から与えられる行動指令に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを駆動するための制御信号を生成し、制御信号にしたがって、ロボットはその人物に正対するように行動する（Ｓ４）。ここでは、ロボットの胴体部１をその人物に向け、頭部２を胴体部１に対して正面の位置に戻すようにロボットは動作する。

このとき、選択部５７は、ロボットが人物に正対する前までは、第二の音声処理部６２を選択し、ロボットが人物の正面に来た後は、第一の音声処理部６０を選択する。すなわち、ロボットが人物に正対する前までは、胴体部１の前面の４つのマイクロフォンのうちの一つ（ロボットから見て右から二番目）のマイクロフォン５Ｂと、胴体部１の背面にあるマイクロフォン７の音声入力を用いて、２入力型雑音消去方法により処理した音声を音声認識部５５が音声認識し、ロボットが人物の正面に来た後は、胴体部１の前面に備えられた４つのマイクロフォンから入力される音声信号を適応アレイ処理した音声を音声認識部５５が音声認識する。

ここで、画像認識部５３における、人物の正面であるかどうかの判定は、例えば、検出した人物の顔の中心が正面０度から左右に１０度以内である場合、正面に存在すると判定する。

このように、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が一人存在するが、その人物がロボットの正面方向に存在しない場合、画像認識部５３により検知された状況判断により、選択部５７が、はじめに第二の音声処理部６２を選択し、ロボットを移動制御し、ロボットが人物の正面に来た後は、第一の音声処理部６０を選択することができるので、周囲の状況に応じて、効果的に周囲の雑音を抑圧しながら、所望の信号を強調することができる。

次に、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が複数いる場合について説明する。

画像認識部５３が、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が複数いると判断する（Ｓ１のＮＯ、かつＳ６のＮＯ）。つづいて、選択部５７は、検出している複数の人物の中心に正対するようにロボットを制御するロボット制御指令を行動決定部７１に送出し、行動決定部７１はロボット制御指令に基づいて、制御部７３に行動指令として送出する。制御部７３は、行動決定部７１から与えられる行動指令に基づいて、アクチュエータ３３Ａ、アクチュエータ３３Ｂ、アクチュエータ１３Ａ、アクチュエータ１３Ｂを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは、検出している複数の人物の中心に正対するように行動する。

ここで、選択部５７は、画像上で最も右に存在する人物と、最も左に存在する人物の、画像上での水平方向の位置を調べ、その中点を算出する。そして、選択部５７は、求められた中点の方向へ胴体部の正面を向けるよう、ロボットの胴体部の方向を制御するロボット制御指令を行動決定部７１に送出する。

また同時に、選択部５７は、頭部が胴体部の正面を向くように制御するロボット制御指令を行動決定部７１に送出する。さらに、選択部５７は、第一の音声処理部６０の出力を音声認識部５５へ送出し、音声認識部５５が得られた音声信号を音声認識する（Ｓ５）。ここで、第一の音声処理部６０では、胴体部１の前面の４つのマイクロフォンのうちの一つ（たとえば、ロボットから見て右から二番目）のマイクロフォン５Ｂと、胴体部１の背面にあるマイクロフォン７の音声入力を用いて、２入力型雑音消去方法により処理した音声を音声認識部５５は、音声認識する。ここで、音声認識結果が存在する場合（Ｓ８のＹＥＳ）、ロボットは音声認識結果に応じた反応を行う（Ｓ９）。

このように、ＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの視野に人物が複数いる場合にも、画像認識部５３により検知された状況判断に基づいて、ロボットを複数の人物の中心に向くように移動制御した後、２入力型雑音消去処理して音声を得て、音声認識部５５により音声認識されることができるので、周囲の雑音を抑圧した音声で音声認識を行うことが可能となる。

これらの応用適用例として、託児ロボットの場合、たとえば、親から連絡があった子供を見つけ、その子供の音声のみを効果的に音声認識できるようにすることができる。子供たちは、託児ロボットに同時に複数人でまとわりつく傾向があるため、従来、特定の子供の音声を認識することは非常に困難であった。本発明の実施の形態によれば、たとえば特定の子供の音声を認識したい場合、ロボットに子供の顔の画像を予め記憶する記憶部（不図示）と、特定の子供を画像認識する画像認識部（不図示）と、を設け、所望の子供を画像認識により認識した後、所望の子供に胴体部１の正面を向けるようにロボットの胴体部１の方向を制御し、第二の音声処理部６２から出力された音声を音声認識部５５が音声認識することにより、所望の子供の音声を強調させて認識することが可能となる。すなわち所望の子供に正対し、その子供の音声を適応アレイ処理により処理することができる。

あるいは、託児所の中を周回しながら、子供の泣き声や、喧嘩などの所定レベル以上の音程や音量の音声を検知し、対処可能なロボットに適用することができる。たとえば、ロボットは、第一の音声処理部６０から出力された信号から、子供の泣き声や、喧嘩などの所定レベル以上の音程や音量の信号を検知する検知部を設ける。ロボットは託児所内を周回しながら第一の音声処理部６０により得られた信号を監視し、所定レベル以上の音程や音量の信号を検知したとき、その音源に対して胴体部１を正対するようにロボットの胴体部１を移動するよう制御し、音源に正対させた後、すなわち、お世話すべき子供の正面に移動した後、第二の音声処理部６２から出力された信号を音声認識部５５が音声認識するように切り替える。こうして託児ロボットは泣いている子供を慰めたり、喧嘩の仲裁をしたりすることができることとなる。

以上説明したように、本発明の実施の形態によれば、状況に応じて、適応アレイ処理による音声信号と、適応フィルタを用いた２人力型雑音消去処理による音声信号を選択して、音声認識することができるので、たとえば、ロボットが音声認識したい人物一人と正対している場合は、適応アレイ処理により雑音を抑制した音声を得て音声認識することができる。一方、ロボットの周りに複数人が存在する場合は、ロボットがそれらの人物の中央正面に移動し、２入力型雑音消去処理によって雑音を抑圧した音声を得て音声認識することができる。このように、周囲に雑音が存在する状況において、音声認識性能を向上させることができる。

なお、上記実施形態の信号処理装置の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

本発明によれば、人の音声を認識して応答するロボットに広く適用できる。また、本発明は、現実世界のロボットだけでなく、例えば、液晶ディスプレイ等の表示装置に表示される仮想的なロボットにも適用可能である。

また、上記実施の形態において、画像認識部５３はＣＣＤカメラ１１ＡおよびＣＣＤカメラ１１Ｂの２つのＣＣＤカメラによって得られたステレオ画像に基づいて画像認識を行ったがこれに限定されない。たとえば、単一のＣＣＤカメラから入力される画像データのみから、人を検出できる場合、ＣＣＤカメラは一つでも構わない。

さらに、本実施の形態においては、上述した一連の処理を、ＣＰＵ１２（図５）にプログラムを実行させることにより行う構成としたが、一連の処理は、それ専用のハードウェアによって行うことも可能である。

なお、プログラムは、あらかじめメモリ１４（図５）に記憶させておく他、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ＭＯディスク、ＤＶＤ、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。そして、このようなリムーバブル記録媒体を、いわゆるパッケージソフトウェアとして提供し、ロボット（メモリ１４）にインストールするようにすることができる。

また、プログラムは、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、無線で転送したり、ＬＡＮ、インターネットといったネットワークを介して、有線で転送したりして、メモリ１４にインストールすることができる。

この場合、プログラムがバージョンアップされたとき等に、そのバージョンアップされたプログラムを、メモリ１４に、容易にインストールすることができる。

ここで、本明細書において、ＣＰＵ１２に各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理も含むものである。

また、プログラムは、１つのＣＰＵにより処理されるものであっても良いし、複数のＣＰＵによって分散処理されるものであっても良い。

また、上記実施形態においては、第一の音声処理部２００は適応フィルタを用いた２入力型雑音消去処理を行い、第二の音声処理部２０２は、適応アレイ処理を行う構成としたが、これに限定されない。たとえば、複数のマイクロフォンの少なくとも一つから得られる信号を用いて、所望の信号を強調するステップを複数有し、この複数のステップの出力結果を統合して用いることにより、強調された所望の信号を得ることができる。

ここで、上記実施の形態において、第一の音声入力部１００および第二の音声入力部１０２は、それぞれ、所望の信号および所望の信号以外の信号を集音する構成としたが、これに限定されない。すなわち、話者方向および雑音方向の同定を、複数のマイクロフォンを用いた適応アレイ処理により、それぞれ行ってもよい。さらに、複数のマイクロフォンのうち、話者方向に向いているマイクロフォンの信号を主マイクとし、雑音方向に向いているマイクロフォンの信号を補助マイクとして、ノイズキャンセラ処理を行ってもよい。このノイズキャンセラの構成としては、１主マイクと１補助マイクの他に、マイクアレイと２マイクノイズキャンセラの縦続接続も可能である。

また、上記実施の形態では、統合部４００は、状況判断部３０４の指示に従って、第一の音声処理部２００および第二の音声処理部２０２の何れかを選択し、音声信号２４として出力する構成としたが、これに限定されない。たとえば、本発明をロボットに適用した例では、ロボットが音声認識しようとする人物の前に移動したとき、その背後に電源の入っているテレビやラジオなどからの雑音源が存在している場合、第一の音声処理部２００による２入力型雑音消去処理と第二の音声処理部２０２による適応アレイ処理との両方を同時に行うようにしてもよい。

このとき、状況検知部３００は、テレビの電源が入っているか否かを検知する検知部またはテレビ番組の音声を認識する検知部などを含むことができる。あるいは、ロボットがテレビのリモコンスイッチを含むことができ、状況検知部３００がスイッチの状態を検知することにより、状況判断部３０４がテレビの電源が入っているか否かの判断や、現在視聴している番組を判断することができる。また、テレビの配置は、予めロボットが記憶しておくこともできるし、テレビから存在を認識させる所定の周波数の無線信号を発信させ、それを検知することにより判断することもできる。

本発明の実施の形態に係る信号処理装置の概略機能ブロック図である。図１の信号処理装置の動作の一例を示すフローチャートである。本発明を適用したロボットの一実施の形態の外観構成例を示す正面図である。図３のロボットの外観構成例を示す背面図である。図３のロボットの内部構成例を示すブロック図である。図５のコントローラの機能的構成例を示すブロック図である。図３のロボットの動作の一例を示すフローチャートである。

符号の説明

１胴体部
２頭部
３Ａ車輪
３Ｂ車輪
５マイクロフォンユニット
５Ａマイクロフォン
５Ｂマイクロフォン
５Ｃマイクロフォン
５Ｄマイクロフォン
７マイクロフォン
９スピーカ
１０コントローラ
１１ＡＣＣＤカメラ
１１ＢＣＣＤカメラ
１２ＣＰＵ
１３Ａアクチュエータ
１３Ｂアクチュエータ
１４メモリ
２０マイクロフォン
２２マイクロフォン
２４音声信号
３１バッテリ
３３Ａアクチュエータ
３３Ｂアクチュエータ
５１センサ入力処理部
５３画像認識部
５５音声認識部
５７選択部
６０第一の音声処理部
６２第二の音声処理部
７１行動決定部
７３制御部
７５音声合成部
７７出力部
７９応答記憶部
１００第一の音声入力部
１０２第二の音声入力部
２００第一の音声処理部
２０２第二の音声処理部
３００状況検知部
３０２状態認識情報記憶部
３０４状況判断部
４００統合部

Claims

複数のトランスデューサの少なくとも一つから得られる信号を用いて、所定の信号を強調するステップを複数有し、
前記複数の強調するステップの出力結果を統合して用いることにより、強調された所望の信号を得ることを特徴とする信号処理方法。
請求項１に記載の信号処理方法において、
周囲の状況を検知するステップを含み、
前記状況を検知するステップの検知結果に応じて、前記複数の強調するステップの前記出力結果を選択的に統合して用いることにより、前記強調された所望の信号を得ることを特徴とする信号処理方法。
請求項２に記載の信号処理方法において、
前記複数の強調するステップは、
前記複数のトランスデューサの一部から得られる信号を用いて、前記所望の信号を含む第一の所定の信号を抽出するステップと、
前記一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、前記所望の信号以外の信号を含む第二の所定の信号を抽出するステップと、
を含み、
前記状況を検知するステップは、前記第二の所定の信号の存在を検知するステップを含み、
前記第二の所定の信号が存在しないとき、前記第一の所定の信号を強調し、前記第二の所定の信号が存在するとき、前記第二の所定の信号を用いて前記第一の所定の信号を強調することを特徴とする信号処理方法。
請求項３に記載の信号処理方法において、
前記第二の所定の信号が存在しないとき、前記第一の所定の信号は、適応アレイ処理により強調され、前記第二の所定の信号が存在するとき、前記第一の所定の信号は、前記第二の所定の信号を用いて適応フィルタを用いた２入力型雑音消去処理により強調されることを特徴とする。
請求項１乃至４いずれかに記載の信号処理方法において、
所望の人物を画像認識にて認識するステップと、
前記認識するステップで認識された前記所望の人物に、前記複数のトランスデューサにそれぞれ電気的に接続された複数のマイクロフォンの一部を向けるステップと、
を含むことを特徴とする信号処理方法。
請求項５に記載の信号処理方法において、
前記所望の信号は、前記所望の人物の音声信号であることを特徴とする信号処理方法。
請求項６に記載の信号処理方法において、
前記認識するステップで認識された前記人物が一人か複数かを判断するステップと、
前記人物が一人であると判断した場合、前記認識された人物に前記一部のマイクロフォンを向けるステップと、
前記人物が複数であると判断した場合、前記認識された複数の前記人物の中心に前記一部のマイクロフォンを向けるステップと、
を含むことを特徴とする信号処理方法。
請求項７に記載の信号処理方法において、
前記判断するステップで前記人物が一人であると判断した場合、前記適応アレイ処理により前記第一の所定の信号を強調し、
前記判断するステップで前記人物が複数であると判断した場合、前記一部のマイクロフォンを前記人物の中心に向けるまでの間、前記適応フィルタを用いた２入力型雑音消去処理により前記第二の所定の信号を用いて前記第一の所定の信号を強調し、前記マイクロフォンが前記人物の中心に向いたとき、前記適応アレイ処理により前記第一の所定の信号を強調することを特徴とする信号処理方法。
複数のトランスデューサと、
前記複数のトランスデューサの少なくとも一つから得られる信号を用いて、所望の信号を強調する複数の信号強調部と、
前記複数の信号強調部の出力結果を統合して用いることにより、前記強調された所望の信号を得る信号処理部と、を備えたことを特徴とする信号処理装置。
請求項９に記載の信号処理装置において、
周囲の状況を検知する状況検知部を含み、
前記信号処理部は、前記状況検知部の検知結果に応じて、前記複数の信号強調部の前記出力結果を選択的に統合して用いることにより、前記強調された所望の信号を得ることを特徴とする信号処理装置。
請求項１０に記載の信号処理装置において、
前記複数の信号強調部は、
前記複数のトランスデューサの一部から得られる信号を用いて、前記所望の信号を含む第一の所定の信号を抽出する第一の抽出部と、
前記一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、前記所望の信号以外の信号を含む第二の所定の信号を抽出する第二の抽出部と、を含み、
前記状況検知部は、前記第二の所定の信号の存在を検知し、
前記信号処理部は、前記第二の所定の信号が存在しないとき、前記第一の所定の信号を強調し、前記第二の所定の信号が存在するとき、前記第二の所定の信号を用いて前記第一の所定の信号を強調することを特徴とする信号処理装置。
請求項１１に記載の信号処理装置において、
前記信号処理部は、
前記第二の所定の信号が存在しないとき、前記第一の所定の信号を、適応アレイ処理により強調し、前記第二の所定の信号が存在するとき、前記第一の所定の信号を、前記第二の所定の信号を用いて適応フィルタを用いた２入力型雑音消去処理により強調することを特徴とする信号処理装置。
請求項９乃至１２いずれかに記載の信号処理装置において、
所望の人物を画像認識にて認識する認識部と、
前記複数のトランスデューサに電気的に接続された複数のマイクロフォンと、
前記複数のマイクロフォンを移動する移動部と、
前記認識部が認識した前記所望の人物に、前記複数のマイクロフォンの一部を向けるように移動部を移動させる制御部と、
を含むことを特徴とする信号処理装置。
請求項１３に記載の信号処理装置において、
前記所望の信号は、前記所望の人物の音声信号であることを特徴とする信号処理装置。
請求項１４に記載の信号処理装置において、
前記認識部が認識した前記人物が一人か複数かを判断する判断部を含み、
前記制御部は、
前記人物が一人であると判断した場合、前記認識された人物に前記一部のマイクロフォンを向けるよう前記移動部を制御し、
前記人物が複数であると判断した場合、前記認識された複数の前記人物の中心に前記一部のマイクロフォンを向けるよう前記移動部を制御することを特徴とする信号処理装置。
請求項１５に記載の信号処理装置において、
前記信号処理部は、
前記判断部が前記人物が一人であると判断した場合、前記適応アレイ処理により前記第一の所定の信号を強調し、
前記判断部が前記人物が複数であると判断した場合、前記一部のマイクロフォンを前記人物の中心に向けるまでの間、前記適応フィルタを用いた２入力型雑音消去処理により前記第二の所定の信号を用いて前記第一の所定の信号を強調し、前記マイクロフォンが前記人物の中心に向いたとき、前記適応アレイ処理により前記第一の所定の信号を強調することを特徴とする信号処理装置。
複数のトランスデューサと、
前記複数のトランスデューサの少なくとも一つから得られる信号を用いて、所望の信号を強調する複数の信号強調部と、
周囲の状況を検知する状況検知部と、
前記状況検知部の検知結果に応じて、前記複数の信号強調部の出力結果を選択的に統合して用いることにより、強調された所望の信号を得る信号処理部と、
前記信号処理部からの前記所望の信号に基づいて、音声認識する音声認識部と、
を備えたことを特徴とするロボット。
請求項１７に記載のロボットにおいて、
前記複数の信号強調部は、
前記複数のトランスデューサの一部から得られる信号を用いて、前記所望の信号を含む第一の所定の信号を抽出する第一の抽出部と、
前記一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、前記所望の信号以外の信号を含む第二の所定の信号を抽出する第二の抽出部と、を含み、
前記状況検知部は、前記第二の所定の信号の存在を検知し、
前記信号処理部は、前記第二の所定の信号が存在しないとき、前記第一の所定の信号を強調し、前記第二の所定の信号が存在するとき、前記第二の所定の信号を用いて前記第一の所定の信号を強調することを特徴とするロボット。
請求項１８に記載のロボットにおいて、
前記第二の所定の信号が存在しないとき、前記第一の所定の信号は、適応アレイ処理により強調され、前記第二の所定の信号が存在するとき、前記第一の所定の信号は、前記第二の所定の信号を用いて適応フィルタを用いた２入力型雑音消去処理により強調されることを特徴とするロボット。
請求項１７乃至１９いずれかに記載のロボットにおいて、
所望の人物を画像認識にて認識する画像認識部と、
前記複数のトランスデューサに電気的に接続された複数のマイクロフォンと、
前記複数のマイクロフォンを移動する移動部と、
前記画像認識部で認識された前記所望の人物に、前記複数のマイクロフォンの一部を向けるように前記移動部を移動させる制御部と、
を含むことを特徴とするロボット。
請求項２０に記載のロボットにおいて、
前記所望の信号は、前記所望の人物の音声信号であることを特徴とするロボット。
請求項２１に記載のロボットにおいて、
前記画像認識部が認識した前記人物が一人か複数かを判断する判断部を含み、
前記制御部は、
前記人物が一人であると判断した場合、前記認識された人物に前記一部のマイクロフォンを向けるよう前記移動部を制御し、
前記人物が複数であると判断した場合、前記認識された複数の前記人物の中心に前記一部のマイクロフォンを向けるよう前記移動部を制御することを特徴とするロボット。
請求項２２に記載のロボットにおいて、
前記信号処理部は、
前記判断部が前記人物が一人であると判断した場合、前記適応アレイ処理により前記第一の所定の信号を強調し、
前記判断部が前記人物が複数であると判断した場合、前記一部のマイクロフォンを前記人物の中心に向けるまでの間、前記適応フィルタを用いた２入力型雑音消去処理により前記第二の所定の信号を用いて前記第一の所定の信号を強調し、前記マイクロフォンが前記人物の中心に向いたとき、前記適応アレイ処理により前記第一の所定の信号を強調することを特徴とするロボット。
複数の音響トランスデューサを有し、一部のトランスデューサを用いて所望の信号を抽出し、前記一部のトランスデューサの一部および新たなトランスデューサを用いて所望の信号以外の信号を抽出し、前記所望の信号に関する情報と、前記所望の信号以外の信号に関する情報とを用いて、所望の信号を強調することを特徴とする信号処理方法。