JP2005309366A - 信号処理方法および信号処理装置 - Google Patents

信号処理方法および信号処理装置 Download PDF

Info

Publication number
JP2005309366A
JP2005309366A JP2004283815A JP2004283815A JP2005309366A JP 2005309366 A JP2005309366 A JP 2005309366A JP 2004283815 A JP2004283815 A JP 2004283815A JP 2004283815 A JP2004283815 A JP 2004283815A JP 2005309366 A JP2005309366 A JP 2005309366A
Authority
JP
Japan
Prior art keywords
signal
unit
person
predetermined
predetermined signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004283815A
Other languages
English (en)
Other versions
JP4655572B2 (ja
Inventor
Shinichi Onaka
慎一 大中
Miki Sato
幹 佐藤
Akihiko Sugiyama
昭彦 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004283815A priority Critical patent/JP4655572B2/ja
Publication of JP2005309366A publication Critical patent/JP2005309366A/ja
Application granted granted Critical
Publication of JP4655572B2 publication Critical patent/JP4655572B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

【課題】 周囲に様々な音源が存在していても、対話相手の音声を認識できる信号処理方法を提供する。
【解決手段】 本発明の信号処理方法は、複数のトランスデューサの一部から得られる信号を用いて、所望の信号を含む第一の所定の信号を抽出するステップ(S11、S13)と、一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、所望の信号以外の信号を含む第二の所定の信号を抽出するステップ(S11)と、第二の所定の信号の存在を検知するステップ(S15)と、を含み、第二の所定の信号が存在しないとき、第一の所定の信号を強調し(S13)、第二の所定の信号が存在するとき、第二の所定の信号を用いて第一の所定の信号を強調する(S19)。
【選択図】 図2

Description

本発明は、所望の信号を強調する信号処理方法に関し、特に音声認識装置による音声認識結果に基づいて行動するロボットに用いる信号処理方法に関する。
従来、この種の信号処理方法は、主にロボット制御システムに用いられ、このシステムで周囲に様々な音が存在する環境で対話相手の音声を認識するため、例えば非特許文献1に示されるように、マイクロフォンアレイを利用して主たる音方向を検出しその音方向に指向性を持たせることで周囲の雑音を抑圧していた。
松井 俊浩、外8名、「オフィス移動ロボットJijo-2の音声対話システム」、日本ロボット学会誌、平成12年3月、第18巻、第2号、p.142−149
しかしながら、従来の信号処理方法は、音声認識における雑音抑圧性能が十分でないという点で改善の余地を有していた。また、従来は、マイクロフォンアレイという一つの雑音抑圧技術を使用していたため、これ以上の音声認識における雑音抑制性能を向上させるのにも限界があった。
本発明は上記事情に鑑みてなされたものであり、その目的とするところは、周囲に様々な音源が存在していても、対話相手の音声を認識できる信号処理方法を提供することにある。
本発明によれば、複数のトランスデューサの少なくとも一つから得られる信号を用いて、所定の信号を強調するステップを複数有し、前記複数の強調するステップの出力結果を統合して用いることにより、強調された所望の信号を得ることを特徴とする信号処理方法が提供される。
ここで、トランスデューサは、たとえば、音響トランスデューサであり、マイクロフォンなどによって集音された音声信号が入力される。複数のマイクロフォンは、少なくとも一つのマイクロフォンを含む第一および第二のマイクロフォン群を含むことができる。第一のマイクロフォン群から得られる信号を用いて第一の所定の信号を強調する第一のステップと、第二のマイクロフォン群から得られる信号を用いて第二の所定の信号を強調する第二のステップと、を少なくとも含むことができる。これにより、得られた第一および第二の所定の信号の中から、任意の信号を選択的に用いることができる。さらに、各信号は、それぞれ異なる信号処理により強調することができる。さらに、これらの複数の強調するステップの出力結果を統合して用いることにより、強調された所望の信号を得ることができ、これにより、高性能な所望信号抽出を行うことができる。
この発明によれば、周囲に様々な音源が存在していても、所望の信号を抽出し、かつ強調することができるので、対話相手の音声などを認識できる信号処理方法を提供することができる。
上記信号処理方法において、周囲の状況を検知するステップを含むことができ、状況を検知するステップの検知結果に応じて、複数の強調するステップの出力結果を選択的に統合して用いることにより、強調された所望の信号を得ることができる。
ここで、周囲の状況とは、たとえば、テレビやラジオなどの雑音の有無、話者の人数、および複数の話者の中心方向などを含む。たとえば、雑音が存在する場合、雑音方向の信号を強調するステップの出力結果を用いて、話者方向の信号を強調するステップの出力結果をノイズキャンセラ処理により強調する処理を行い、所望の信号、すなわち話者の音声信号を得ることができる。
この構成によれば、周囲の状況に応じて、適切な音声処理を選択することが可能となり、音声認識の精度を向上させることができる。
上記信号処理方法において、複数の強調するステップは、複数のトランスデューサの一部から得られる信号を用いて、所望の信号を含む第一の所定の信号を抽出するステップと、一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、所望の信号以外の信号を含む第二の所定の信号を抽出するステップと、を含むことができ、状況を検知するステップは、第二の所定の信号の存在を検知するステップを含むことができ、第二の所定の信号が存在しないとき、第一の所定の信号を強調し、第二の所定の信号が存在するとき、第二の所定の信号を用いて第一の所定の信号を強調することができる。
ここで、所望の信号以外の信号とは、たとえば、周囲の雑音などの音声信号である。この構成によれば、周囲に様々な音源が存在していても、所望の信号を抽出し、かつ強調することができるので、対話相手の音声などを認識できる信号処理方法を提供することができる。
上記信号処理方法において、第二の所定の信号が存在しないとき、第一の所定の信号は、適応アレイ処理により強調され、第二の所定の信号が存在するとき、第一の所定の信号は、第二の所定の信号を用いて適応フィルタを用いた2入力型雑音消去処理により強調されることができる。
上記信号処理方法において、所望の人物を画像認識にて認識するステップと、認識するステップで認識された所望の人物に、複数のトランスデューサにそれぞれ電気的に接続された複数のマイクロフォンの一部を向けるステップと、を含むことができる。
所望の人物に向けられた一部のマイクロフォンで集音された音声は、電気的に接続されたトランスデューサに入力され、トランスデューサから得られた信号を用いて、たとえば、適応アレイ処理にて、所定の信号を強調し、所望の信号を得ることができる。また、所望の信号は、所望の人物の音声信号とすることができる。
上記信号処理方法において、認識するステップで認識された人物が一人か複数かを判断するステップと、人物が一人であると判断した場合、認識された人物に一部のマイクロフォンを向けるステップと、人物が複数であると判断した場合、認識された複数の人物の中心に一部のマイクロフォンを向けるステップと、を含むことができる。
上記信号処理方法において、判断するステップで人物が一人であると判断した場合、適応アレイ処理により第一の所定の信号を強調し、判断するステップで人物が複数であると判断した場合、一部のマイクロフォンを人物の中心に向けるまでの間、適応フィルタを用いた2入力型雑音消去処理により第二の所定の信号を用いて第一の所定の信号を強調し、マイクロフォンが人物の中心に向いたとき、適応アレイ処理により第一の所定の信号を強調することができる。
この構成によれば、複数の人物が居る場合、所望の人物にマイクを向けるまでの間、周囲に存在する様々な音源を排除しながら所望の音声信号を強調する処理を行うことができる。このように、状況に応じて信号処理方法を適切に選択して用いることができる。
本発明によれば、複数のトランスデューサと、複数のトランスデューサの少なくとも一つから得られる信号を用いて、所望の信号を強調する複数の信号強調部と、複数の信号強調部の出力結果を統合して用いることにより、強調された所望の信号を得る信号処理部と、を備えたことを特徴とする信号処理装置が提供される。
この発明によれば、周囲に様々な音源が存在していても、所望の信号を抽出し、かつ強調することができるので、対話相手の音声などを認識できる信号処理装置を提供することができる。
本発明によれば、複数のトランスデューサと、複数のトランスデューサの少なくとも一つから得られる信号を用いて、所望の信号を強調する複数の信号強調部と、周囲の状況を検知する状況検知部と、状況検知部の検知結果に応じて、複数の信号強調部の出力結果を選択的に統合して用いることにより、強調された所望の信号を得る信号処理部と、信号処理部からの所望の信号に基づいて、音声認識する音声認識部と、を備えたことを特徴とするロボットが提供される。
この発明によれば、周囲に様々な音源が存在していても、対話相手の音声を認識し、状況に応じた適切な反応ができるロボットを提供することができる。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、周囲雑音を効果的に抑圧できる信号処理方法を提供される。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
図1に本発明の実施の形態に係る信号処理装置の概略機能ブロック図を示す。図1を参照すると、本実施形態の信号処理装置は、第一の音声入力部100と、第二の音声入力部102と、第一の音声処理部200と、第二の音声処理部202と、状況検知部300と、状態認識情報記憶部302(図中、「状態認識情報」と示す)と、状況判断部304と、統合部400とを備える。
第一の音声入力部100は、複数のマイクロフォン20(図中、「マイク1」、「マイク2」、・・・「マイクN」と示す)を含み、一部のマイクロフォン20を使用して所望の信号、たとえば所望の音声を集音する。第二の音声入力部102は、少なくとも一つのマイクロフォン22(図中、「マイク」と示す)を含み、このマイクロフォン22は第一の音声入力部100のマイクロフォン20とは異なる指向性を有し、所望の信号以外の信号、たとえば、周囲の雑音を集音する。
第一の音声処理部200は、第一の音声入力部100の複数のマイクロフォン20の中から一部のマイクロフォン20と、第二の音声入力部102のマイクロフォン22が集音した音声信号を用いて、適応フィルタを用いた2入力型雑音消去処理を行う。すなわち、第一の音声入力部100のマイクロフォン20で集音した所望の信号を、第二の音声入力部102のマイクロフォン22で集音された所望以外の信号で強調する。これにより、周囲の雑音を消音し、所望の音声のみを強調することができる。
2入力型雑音消去方法の文献としては、特開平9−36763号公報「ノイズキャンセラ」、特開平8−56180号公報「ノイズキャンセラ」、特開平6−28449号公報「適応型雑音低減装置」、特開平6−90493号公報「音声入力装置及びこれを用いた撮像装置」、特開平5−158494号公報「ノイズ低減装置」、特開平5−75391号公報「適応フィルタにおける係数制御方法及び装置並びにノイズ除去方法及び装置、特開平5−158494号公報「ノイズ低減装置」、特開平5−22788号公報「ノイズ低減装置」、特開昭61−194914号公報「ノイズキャンセラ」(以下文献2とする)に、適応フィルタを用いた2入力型雑音消去装置が記載されている。
第二の音声処理部202は、第一の音声入力部100の複数のマイクロフォン20が集音した音声信号を用いて、適応アレイ処理を行う。
適応アレイの文献としては、特開平11−134002号公報「適応アレイの制御方法および適応アレイ装置」、特開平11−52988号公報「適応アレイの制御方法および適応アレイ装置」、特開平8−122424号公報「適応アレイ装置」がある。また、非特許文献1記載のロボットに使われている適応アレイ技術は、「事情通ロボットにおける音響信号処理」(人工知能学会研究会資料 SIG-Challenge-0113, pp.43-49)に記載されている。
状況検知部300は、周囲の状況、たとえば、人が居るか居ないか、居るとすれば人数は1人か複数か、場所は室内か、屋外か、雑音の有無、例としてテレビやラジオなどの雑音源の有無などを検知するものである。状況検知部300は、特定の外部状態や、ユーザからの特定の働きかけを認識し、その認識結果を表す状態認識情報として取得し、状態認識情報記憶部302に記憶する。状況判断部304は、状態認識情報記憶部302にアクセスし、状態認識情報に基づいて、状況を判断する。
状況検知部300は、たとえば、周囲の状況を撮像するCCDカメラを含み、得られた画像信号を用いて、画像認識処理を行い、画像中に存在する人を検出することができる。この場合、状況判断部304は、検出結果に基づいて、人が居るか居ないか、居る人の人数、または特定の人物を認識し、画像上のどの位置に存在するかなどを判断する。
また、状況検知部300は、マイクロフォンを含むことができ、周囲の音声を集音し、得られた音声信号を用いて、特定の外部状態や、ユーザからの特定の働きかけを認識することができる。この場合、状況判断部304は、判断した結果に基づいて、統合部400に対し、第一の音声処理部200および第二の音声処理部202の何れの出力を選択するかを指示する。
統合部400は、状況判断部304の指示に従って、第一の音声処理部200および第二の音声処理部202の何れかを選択し、音声信号24として出力する。たとえば、状況判断部304が複数の人物が居ることを判断し、所望の人物の位置が特定されたとき、第二の音声処理部202の音声処理を選択する指示がなされ、第二の音声処理部202が第一の音声入力部100の複数のマイクロフォン20を用いて、適応アレイ処理を行う。このとき、第一の音声入力部100の複数のマイクロフォン20のうち、何れかのマイクロフォン20が所望の人物の方向に向けられる。
図2は、図1の信号処理装置の動作の一例を示すフローチャートである。以下、本実施の形態の信号処理装置の動作について図1および図2を用いて説明する。まず、第一の音声入力部100の複数のマイクロフォン20および第二の音声入力部102のマイクロフォン22を用いて第一の信号および第二の信号をそれぞれ集音する(S11)。第一の音声入力部100の複数のマイクロフォン20および第二の音声入力部102のマイクロフォン22は、時間的に同期した音声データを取り込むようになっている。ステップS11で集音された第一の信号を用いて、第二の音声処理部202が適応アレイ処理を行い、所望の信号を抽出する(S13)。
つづいて、状況判断部304が状態認識情報記憶部302にアクセスし、状況を判断し、第一の音声処理部200の音声処理を選択する指示がなされている場合(S15のYES)、ステップS13で抽出された所望の信号と、ステップS11で集音された第二の信号とを用いて第一の音声処理部200が2入力型雑音消去処理を行い、所望の信号を強調する(S19)。このようにして、統合部400から所望の音声信号24が出力される。
一方、ステップS15で、状況判断部304が状態認識情報記憶部302にアクセスし、状況を判断した結果、第一の音声処理部200の音声処理を選択する指示がなされていない場合(S15のNO)、統合部400からステップS13で抽出された信号が音声信号24として出力され(S21)、処理を終了する。
なお、ステップS15の判定は、ステップS11の前に行ってもよい。その場合、状況判断部304が状態認識情報記憶部302にアクセスし、状況を判断し、第一の音声処理部200の音声処理を選択する指示がなされているときは、ステップS11、ステップS13、およびステップS19を実行し、第二の音声処理部202の音声処理を選択する指示がなされている場合、ステップS11、ステップS13、およびステップS21を実行する。
以下、本発明の適用例として、本実施の形態の信号処理装置を含むロボットを例に説明する。図3及び図4は、本発明を適用したロボットの一実施形態の外観構成例を示している。図3は、外観を前から見た正面図であり、図4は、外観を後ろから見た背面図である。また、図5は、ロボットの内部構成例を示すブロック図である。なお、図3乃至図5において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
本実施の形態では、ロボットは、例えば、胴体部1、頭部2が連結されることにより構成されている。胴体部1は円筒形であり、平面が上下に来るようになっている。胴体部1の下部には左右にそれぞれ車輪3Aおよび車輪3Bが取り付けられており、それらの車輪は後述するアクチュエータにより独立に前後に回転することができる。頭部2は、胴体部1に垂直に取り付けられた垂直軸とその垂直軸に対して90度の角度で設置された水平軸に関して決められた範囲で回転することができる。垂直軸は頭部2の中心を通るように設置されており、水平軸は胴体部1と頭部2が正面を向いた状態で頭部2の中心を通りかつ左右方向に水平に設置されている。つまり、頭部2は左右と上下の2自由度で、決められた範囲内で回転することができる。これらも後述するアクチュエータにより駆動される。
胴体部1の前面には、4つのマイクロフォン5A〜マイクロフォン5Dを有するマイクロフォンユニット5が設けられている。4つのマイクロフォン5A〜マイクロフォン5Dは所定の配列で配置され、本実施形態では、たとえば直線状に水平になるように取り付けられている。各マイクロフォンの間隔は2.5cmである。また、胴体部1の背面には1つのマイクロフォン7が取り付けられている。合計5個のマイクロフォンは、時間的に同期した音声データを取り込めるようになっている。なお、このマイクロフォン5A〜マイクロフォン5D、およびマイクロフォン7が、図1における第一の音声入力部100および第二の音声入力部102にそれぞれ対応する。
また、胴体部1の前面には、スピーカ9が設けられている。さらに、頭部2には、CCDカメラ11AとCCDカメラ11Bが設けられている。ここで、二つのカメラをつなぐ線分は水平である。
図5に示すように、胴体部1は、ロボット全体の制御を行うコントローラ10を備えている。本実施形態において、コントローラ10は、胴体部1内部に設けられたパーソナルコンピュータのマザーボード(不図示)である。コントローラ10は、CPU12およびメモリ14を含み、CPU12において、メモリ14に記憶された制御プログラムが実行されることにより、各種の処理を行う。これらの機能については、後述する。
胴体部1は、ロボットの動力源となるバッテリ31と、2つの車輪3Aおよび車輪3Bをそれぞれ動かすためのアクチュエータ33Aおよびアクチュエータ33Bと、を含む。頭部2は、頭部2を回転するためのアクチュエータ13Aとアクチュエータ13Bを含む。
コントローラ10には、マイクロフォンユニット5の各マイクロフォンと、マイクロフォン7と、スピーカ9と、バッテリ31と、アクチュエータ33Aと、アクチュエータ33Bと、CCDカメラ11Aと、CCDカメラ11Bと、アクチュエータ13Aと、アクチュエータ13Bと、が電気的に接続される。
なお、本実施の形態では、合計4つのアクチュエータは、これらを制御するための制御モジュール(不図示)に接続され、この制御モジュールを介してUSBケーブルでマザーボードに接続される。
胴体部1における5個のマイクロフォン5A〜マイクロフォン5Dおよびマイクロフォン7は、ユーザからの発話を含む周囲の音声を集音し、得られた音声信号をコントローラ10に送出する。本実施形態において、これら5個のマイクロフォンが集音した音声信号は、いったん同期するための装置(不図示)に入力され、その装置を介してマザーボードに接続され、同期した音声データがマザーボードに入力される。
頭部2におけるCCDカメラ11AとCCDカメラ11Bは、周囲の状況を撮像し、得られた画像信号を、コントローラ10に送出する。なお、CCDカメラ11AとCCDカメラ11Bが図1における状況検知部300に対応する。また、マイクロフォン5A〜5D、およびマイクロフォン7は、図1における第一の音声入力部100および第二の音声入力部102と、状況検知部300と、を兼ねる構成とすることもできる。また、コントローラ10のCPU12は、図1における状況判断部304および統合部400を構成し、メモリ14は状態認識情報記憶部302を含むことができる。
コントローラ10は、マイクロフォン5A〜マイクロフォン5Dとマイクロフォン7、CCDカメラ11AとCCDカメラ11Bから与えられる音声信号、画像信号に基づいて、周囲の状況や、ユーザからの指令を判断する。詳細については、後述する。
CCDカメラ11AおよびCCDカメラ11Bにより取り込まれた画像を画像処理することにより、撮影された人物の頭部を囲む長方形が検出される。この画像データに基づいて、図1の状況判断部304は、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が存在するか否かの判断を行う。
さらに、コントローラ10は、この判断結果などに基づいて、続く行動を決定し、その決定結果に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bの必要なものを駆動させる。これにより頭部2を上下左右に回転したり、ロボットを移動または回転させたりするなどの行動を行わせる。
また、コントローラ10は、必要に応じて、合成音を生成し、スピーカ9に供給して出力させる。
以上のようにして、ロボットは、周囲の状況などに基づいて自律的に行動をとるようになっている。
次に、コントローラ10の機能について説明する。図6は、図5のコントローラ10の機能的構成例を示している。なお、図6に示す機能的構成は、CPU12が、メモリ14に記憶された制御プログラムを実行することで実現されるようになっている。
コントローラ10は、特定の外部状態を認識するセンサ入力処理部51と、センサ入力処理部51の認識結果に基づいて、続く行動を決定する行動決定部71と、行動決定部71の決定結果に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを制御する制御部73と、合成音を生成する音声合成部75と、音声合成部75において合成された合成音の出力を制御する出力部77と、ユーザの指示に対するロボットの応答を記憶している応答記憶部79と、から構成されている。
センサ入力処理部51は、マイクロフォンユニット5のマイクロフォン5A〜マイクロフォン5D、マイクロフォン7、CCDカメラ11A、およびCCDカメラ11Bから与えられる音声信号、画像信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ等を認識し、その認識結果を表す状態認識情報と、ロボットを制御するロボット制御指令と、を行動決定部71に通知する。
また、センサ入力処理部51は、画像認識部53と、音声認識部55と、選択部57と、第一の音声処理部60と、第二の音声処理部62と、を含む。画像認識部53は、CCDカメラ11AおよびCCDカメラ11Bから与えられる画像信号を用いて、画像認識処理を行う。そして、画像認識部53は、画像中に存在する人を検出することができ、その処理の結果、「人がいる」、「その人の画像上の位置」などの画像認識結果を、状態認識情報として、選択部57に通知する。画像認識部53は、画像中に複数の人物が存在する場合、状態認識情報には、検出された複数の人物それぞれについての情報が含まれる。
第一の音声処理部60は、マイクロフォンユニット5の4つのマイクロフォンのうち一つのマイクロフォン5Bおよびマイクロフォン7から与えられる音声信号を用いて、適応フィルタを用いた2入力型雑音消去処理を行う。そして、第一の音声処理部60は、その音声処理結果としての音声信号を、選択部57へ送出する。第一の音声処理部60は、図1の第一の音声処理部200に対応する。
第二の音声処理部62は、マイクロフォン5A〜マイクロフォン5Dから与えられる音声信号を用いて、適応アレイ処理を行う。そして、第二の音声処理部62は、その音声処理結果としての音声信号を、選択部57へ送出する。第二の音声処理部62は、図1の第二の音声処理部202に対応する。なお、適応アレイ処理において、事前に規定した方向は、ロボットの正面とする。
選択部57は、画像認識部53から与えられる状態認識情報を利用して、第一の音声処理部60から与えられる音声信号と第二の音声処理部62から与えられる音声信号のうちのどちらかを音声認識部55へ出力する。さらに、選択部57は、画像認識部53から与えられた状態認識情報に基づき、ロボットを制御するロボット制御指令を行動決定部71へ通知する。ロボット制御指令とは、たとえば、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを動作して、ロボットの方向及び頭の回転角度を指示するものである。
選択部57は、状態認識情報を参照して、検出されている人が存在しない場合、第一の音声処理部60から送出された音声信号を音声認識部55へ送出する。
また、選択部57は、状態認識情報を参照して、検出されている人が一人存在する場合であり、かつ、胴体部1の正面がその人物の方向を向いている場合、第二の音声処理部62から送出された音声信号を音声認識部55へ送出する。また、胴体部1の正面がその人物の方向を向いていない場合、行動決定部71へ対して、胴体部1を、その人物に対して正対し、頭部2を左右方向に回転して胴体部1の正面を向かせる、という内容のロボット制御指令を行動決定部71へ送り、第一の音声処理部60から送出された音声信号を音声認識部55へ送出する。
また、選択部57は、状態認識情報を参照して、検出されている人が二人以上存在する場合、行動決定部71に対して、胴体部1を、検出している複数の人物の中心に対して正対し、頭部2を左右方向に回転して胴体部1の正面を向かせる、という内容のロボット制御指令を行動決定部71へ送る。また、選択部57は、第一の音声処理部60から送出された音声信号を音声認識部55へ送出する。ここで、検出している複数の人物の中心とは、画像中における中心であり、それは、画像中において一番右に存在する人と、画像中において一番左に存在する人を、画像上における水平線で結んだときの、その水平線の中心のことである。
音声認識部55は、選択部57から与えられる音声信号について音声認識を行う。そして、音声認識部55は、その音声認識結果として得られた、例えば、「おはよう」、「こんにちは」等の言葉を、状態認識情報として、行動決定部71に通知する。
行動決定部71は、センサ入力処理部51からの状態認識情報とロボット制御指令に基づいて、次の行動を決定し、決定された行動の内容を、行動指令として制御部73に、また、合成発話指令として音声合成部75に送出する。また、行動決定部71は、状態認識情報として「おはよう」、「こんにちは」等の音声認識結果を受け取ると、応答記憶部79を参照し、音声認識結果に対応するロボットの動作情報を取得する。
応答記憶部79に格納されているロボットの動作情報は、合成発話指令情報と行動指令情報とから構成される。例えば、「おはよう」という音声認識結果に対応する行動指令情報は、頭部2を上下に振って正面に戻すという内容であり、合成発話情報は「おはようございます」という合成発話を行う内容である。
そこで、行動決定部71が、状態認識情報として「おはよう」という音声認識結果を受け取ると、行動決定部71は、応答記憶部79から取得したロボットの動作情報に基づいて、頭部2を上下に振って正面に戻すという内容の行動指令を制御部73へ送出し、「おはようございます」という合成発話を行う内容の合成発話指令を音声合成部75へ送出する。また、行動決定部71は、センサ入力処理部51からロボットを制御するロボット制御指令を受け取ると、それを制御部73へ送出する。
また、行動決定部71は、センサ入力処理部51から状態認識情報に含まれる音声認識結果とロボット制御指令の両方を受け取った場合、ロボット制御指令は無視し、状態認識情報の音声認識結果に基づいて、次の行動を決定する。
制御部73は、行動決定部71から与えられる行動指令に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを駆動するための制御信号を生成し、これをアクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bへ送出する。これにより、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bは、制御信号にしたがって駆動し、ロボットは、自律的に行動を起こす。
出力部77には、音声合成部75からの合成音のディジタルデータが供給されるようになっており、出力部77は、それらのディジタルデータを、アナログの音声信号にD/A変換し、スピーカ9に供給して出力させる。
このように構成された本実施形態のロボットの動作について、以下に説明する。図7は、本実施形態のロボットの動作の一例を示すフローチャートである。以下の説明では、図3乃至図7を参照する。
まず、ステップS1において、画像認識部53が、CCDカメラ11AおよびCCDカメラ11Bによって撮像された画像信号を用いて画像認識処理を行い、画像中に存在する人を検出し、検出している人数が1人であるかどうかを判断する。
ステップS1において、検出している人数が1人であると判断された場合(S1のYES)、ステップS2において、画像認識部53は、さらにロボットがその人物に正対しているかどうかを判断する。
ステップS2において、ロボットがその人物に正対していると判断された場合(S2のYES)、ステップS3において、選択部57は、第二の音声処理部62の出力を音声認識部55へ送出し、音声認識部55が得られた音声信号を音声認識する。
ステップS2において、ロボットがその人物に正対していないと判断された場合(S2のNO)、ステップS4において、選択部57は、ロボットがその人物に正対するようにロボットを制御するロボット制御指令を行動決定部71に送出し、行動決定部71はロボット制御指令に基づいて、制御部73に行動指令として送出する。制御部73は、行動決定部71から与えられる行動指令に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを駆動するための制御信号を生成し、制御信号にしたがって、ロボットはその人物に正対するように行動する。
つづいて、ステップS3に進み、音声認識部55は、第二の音声処理部62の出力を音声認識する。
ステップS1において、検出している人数が1人でないと判断された場合(S1のNO)、ステップS6において、画像認識部53は、検出している人数が0人であるかどうかを判断する。
ステップS6において、検出している人数が0人であると判断された場合(S6のYES)、ステップS5において、選択部57は、第一の音声処理部60の出力を音声認識部55へ送出し、音声認識部55が得られた音声信号を音声認識する。
ステップS6において、検出している人数が0人でないと判断された場合(S6のNO)、ステップS7において、選択部57は、検出している複数の人物の中心に正対するようにロボットを制御するロボット制御指令を行動決定部71に送出し、行動決定部71はロボット制御指令に基づいて、制御部73に行動指令として送出する。制御部73は、行動決定部71から与えられる行動指令に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは、検出している複数の人物の中心に正対するように行動する。つづいて、ステップS5に進み、音声認識部55は、第一の音声処理部60の出力を音声認識する。
ステップS3において、第二の音声処理部62の出力を音声認識した後、または、ステップS5において、第一の音声処理部60の出力を音声認識した後、ステップS8において、行動決定部71は、センサ入力処理部51から得られた状態認識情報に音声認識結果が存在するかどうかを判断する。
ステップS8において、状態認識情報に音声認識結果が存在する場合(S8のYES)、ステップS9において、ロボットは音声認識結果に応じた反応を行う。すなわち、行動決定部71は、応答記憶部79を参照し、センサ入力処理部51から与えられた状態認識情報に含まれる音声認識結果に対応するロボットの動作情報を取得し、得られた行動指令および合成発話指令を制御部73および音声合成部75にそれぞれ送出する。制御部73は、行動決定部71から与えられた行動指令に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは行動する。また、音声合成部75は、行動決定部71から与えられた合成発話指令に基づいて、合成音を生成し、出力部77に合成音のディジタルデータを供給する。出力部77は、このディジタルデータをアナログの音声信号にD/A変換し、スピーカ9に供給して出力させる。
ステップS8において、音声認識結果が存在しない場合(S8のNO)、ステップS10において、ロボット制御指令にしたがって動作を行う。すなわち、行動決定部71は、センサ入力処理部51から与えられたロボット制御指令を制御部73へ送出する。制御部73は、行動決定部71から与えられたロボット制御指令に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは行動する。
以上のように構成された本実施形態のロボットにおいて、状況に応じた動作の例を図6および図7を参照して以下に説明する。はじめに、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が存在しない場合について説明する。
画像認識部53が、CCDカメラ11AおよびCCDカメラ11Bによって撮像された画像信号を用いて画像認識処理を行い、画像中に存在する人を検出し、検出している人数が1人でないと判断する(S1のNO)。つづいて、画像認識部53は、検出している人数が0人であると判断し(S6のYES)、選択部57は、第一の音声処理部60の出力を音声認識部55へ送出し、音声認識部55が得られた音声信号を音声認識する(S5)。ここで、第一の音声処理部60では、胴体部1の前面の4つのマイクロフォンのうちの一つ(たとえば、ロボットから見て右から二番目)のマイクロフォン5Bと、胴体部1の背面にあるマイクロフォン7の音声入力を用いて、2入力型雑音消去方法により処理した音声を音声認識部55は、音声認識する。ここでは、周囲に人物は居ないので、音声認識はされないものとする。
したがって、音声認識されないので、行動決定部71は、センサ入力処理部51から得られた状態認識情報に音声認識結果が存在しないと判断し(S8のNO)、ロボット制御指令にしたがって動作を行う。たとえば、周囲を散歩して、誰か人物が居ないか探すなどの行動を行う。
このように、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が存在しない場合、画像認識部53により検知された状況判断により、選択部57が第一の音声処理部60の音声出力を選択する。すなわち、CCDカメラの視野に人物が存在しない場合は、ロボットの胴体部1の前面のマイクロフォンユニット5のマイクロフォン5A〜マイクロフォン5Dと、胴体部1の背面のマイクロフォン7を用いて、2人力型雑音消去法により、前面のマイクロフォンユニット5の一部のマイクロフォンで集音された信号から背面のマイクロフォン7で集音された信号、すなわち周囲の雑音を消去しつつ、前面のマイクロフォンユニット5の一部のマイクロフォンで集音された信号を強調することができる。
次に、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が一人、ロボットの正面方向に存在する場合について説明する。
画像認識部53が、CCDカメラ11AおよびCCDカメラ11Bによって撮像された画像信号を用いて画像認識処理を行い、画像中に存在する人を検出し、検出している人数が1人であると判断する(S1のYES)。つづいて、画像認識部53は、さらにロボットがその人物に正対していると判断し(S2のYES)、選択部57は、第二の音声処理部62の出力を音声認識部55へ送出し、音声認識部55が得られた音声信号を音声認識する(S3)。すなわち、第二の音声処理部62は、胴体部1の前面に備えられた4つのマイクロフォン5A〜マイクロフォン5Dから入力される音声信号に対して適応アレイ処理を適用し、音声認識部55は、処理結果の音声信号を音声認識処理する。
ここで、たとえば、その人物が「こんにちは」とロボットに話しかけると、音声認識部55は、「こんにちは」という言葉を音声認識し、ロボットも「こんにちは」という合成音声を出力しながら、頭部2を上下に振る。すなわち、「こんにちは」という言葉が音声認識されると、行動決定部71は、センサ入力処理部51から得られた状態認識情報に音声認識結果が存在すると判断し(S8のYES)、ロボットは音声認識結果に応じて、行動決定部71は、応答記憶部79を参照し、センサ入力処理部51から与えられた状態認識情報に含まれる音声認識結果に対応するロボットの動作情報を取得し、得られた行動指令および合成発話指令を制御部73および音声合成部75にそれぞれ送出する。
制御部73は、行動決定部71から与えられた行動指令に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは行動する。このときの頭部2の動きは、正面位置を初期位置とし、下に30度動き、再び正面に戻るという動きである。また、音声合成部75は、行動決定部71から与えられた合成発話指令に基づいて、合成音を生成し、出力部77に合成音のディジタルデータを供給する。出力部77は、このディジタルデータをアナログの音声信号にD/A変換し、スピーカ9に供給して出力させる。このときの出力される合成発話は「こんにちは」である。
このように、たとえば、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が一人、ロボットに正対して存在する場合、その人物の音声を適応アレイ処理して得ることができ、その音声を音声認識部55により音声認識させることができるので、周囲の雑音を抑圧した音声で音声認識を行うことが可能となる。
次に、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が一人存在するが、その人物がロボットの正面方向に存在しない場合について説明する。
画像認識部53が、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が一人存在しているが、ロボットの正面方向に存在しないと判断する(S1のYES、かつS2のNO)。つづいて、選択部57は、ロボットがその人物に正対するようにロボットを制御するロボット制御指令を行動決定部71に送出し、行動決定部71はロボット制御指令に基づいて、制御部73に行動指令として送出する。制御部73は、行動決定部71から与えられる行動指令に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを駆動するための制御信号を生成し、制御信号にしたがって、ロボットはその人物に正対するように行動する(S4)。ここでは、ロボットの胴体部1をその人物に向け、頭部2を胴体部1に対して正面の位置に戻すようにロボットは動作する。
このとき、選択部57は、ロボットが人物に正対する前までは、第二の音声処理部62を選択し、ロボットが人物の正面に来た後は、第一の音声処理部60を選択する。すなわち、ロボットが人物に正対する前までは、胴体部1の前面の4つのマイクロフォンのうちの一つ(ロボットから見て右から二番目)のマイクロフォン5Bと、胴体部1の背面にあるマイクロフォン7の音声入力を用いて、2入力型雑音消去方法により処理した音声を音声認識部55が音声認識し、ロボットが人物の正面に来た後は、胴体部1の前面に備えられた4つのマイクロフォンから入力される音声信号を適応アレイ処理した音声を音声認識部55が音声認識する。
ここで、画像認識部53における、人物の正面であるかどうかの判定は、例えば、検出した人物の顔の中心が正面0度から左右に10度以内である場合、正面に存在すると判定する。
このように、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が一人存在するが、その人物がロボットの正面方向に存在しない場合、画像認識部53により検知された状況判断により、選択部57が、はじめに第二の音声処理部62を選択し、ロボットを移動制御し、ロボットが人物の正面に来た後は、第一の音声処理部60を選択することができるので、周囲の状況に応じて、効果的に周囲の雑音を抑圧しながら、所望の信号を強調することができる。
次に、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が複数いる場合について説明する。
画像認識部53が、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が複数いると判断する(S1のNO、かつS6のNO)。つづいて、選択部57は、検出している複数の人物の中心に正対するようにロボットを制御するロボット制御指令を行動決定部71に送出し、行動決定部71はロボット制御指令に基づいて、制御部73に行動指令として送出する。制御部73は、行動決定部71から与えられる行動指令に基づいて、アクチュエータ33A、アクチュエータ33B、アクチュエータ13A、アクチュエータ13Bを駆動するための制御信号を生成し、制御信号にしたがって、ロボットは、検出している複数の人物の中心に正対するように行動する。
ここで、選択部57は、画像上で最も右に存在する人物と、最も左に存在する人物の、画像上での水平方向の位置を調べ、その中点を算出する。そして、選択部57は、求められた中点の方向へ胴体部の正面を向けるよう、ロボットの胴体部の方向を制御するロボット制御指令を行動決定部71に送出する。
また同時に、選択部57は、頭部が胴体部の正面を向くように制御するロボット制御指令を行動決定部71に送出する。さらに、選択部57は、第一の音声処理部60の出力を音声認識部55へ送出し、音声認識部55が得られた音声信号を音声認識する(S5)。ここで、第一の音声処理部60では、胴体部1の前面の4つのマイクロフォンのうちの一つ(たとえば、ロボットから見て右から二番目)のマイクロフォン5Bと、胴体部1の背面にあるマイクロフォン7の音声入力を用いて、2入力型雑音消去方法により処理した音声を音声認識部55は、音声認識する。ここで、音声認識結果が存在する場合(S8のYES)、ロボットは音声認識結果に応じた反応を行う(S9)。
このように、CCDカメラ11AおよびCCDカメラ11Bの視野に人物が複数いる場合にも、画像認識部53により検知された状況判断に基づいて、ロボットを複数の人物の中心に向くように移動制御した後、2入力型雑音消去処理して音声を得て、音声認識部55により音声認識されることができるので、周囲の雑音を抑圧した音声で音声認識を行うことが可能となる。
これらの応用適用例として、託児ロボットの場合、たとえば、親から連絡があった子供を見つけ、その子供の音声のみを効果的に音声認識できるようにすることができる。子供たちは、託児ロボットに同時に複数人でまとわりつく傾向があるため、従来、特定の子供の音声を認識することは非常に困難であった。本発明の実施の形態によれば、たとえば特定の子供の音声を認識したい場合、ロボットに子供の顔の画像を予め記憶する記憶部(不図示)と、特定の子供を画像認識する画像認識部(不図示)と、を設け、所望の子供を画像認識により認識した後、所望の子供に胴体部1の正面を向けるようにロボットの胴体部1の方向を制御し、第二の音声処理部62から出力された音声を音声認識部55が音声認識することにより、所望の子供の音声を強調させて認識することが可能となる。すなわち所望の子供に正対し、その子供の音声を適応アレイ処理により処理することができる。
あるいは、託児所の中を周回しながら、子供の泣き声や、喧嘩などの所定レベル以上の音程や音量の音声を検知し、対処可能なロボットに適用することができる。たとえば、ロボットは、第一の音声処理部60から出力された信号から、子供の泣き声や、喧嘩などの所定レベル以上の音程や音量の信号を検知する検知部を設ける。ロボットは託児所内を周回しながら第一の音声処理部60により得られた信号を監視し、所定レベル以上の音程や音量の信号を検知したとき、その音源に対して胴体部1を正対するようにロボットの胴体部1を移動するよう制御し、音源に正対させた後、すなわち、お世話すべき子供の正面に移動した後、第二の音声処理部62から出力された信号を音声認識部55が音声認識するように切り替える。こうして託児ロボットは泣いている子供を慰めたり、喧嘩の仲裁をしたりすることができることとなる。
以上説明したように、本発明の実施の形態によれば、状況に応じて、適応アレイ処理による音声信号と、適応フィルタを用いた2人力型雑音消去処理による音声信号を選択して、音声認識することができるので、たとえば、ロボットが音声認識したい人物一人と正対している場合は、適応アレイ処理により雑音を抑制した音声を得て音声認識することができる。一方、ロボットの周りに複数人が存在する場合は、ロボットがそれらの人物の中央正面に移動し、2入力型雑音消去処理によって雑音を抑圧した音声を得て音声認識することができる。このように、周囲に雑音が存在する状況において、音声認識性能を向上させることができる。
なお、上記実施形態の信号処理装置の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
本発明によれば、人の音声を認識して応答するロボットに広く適用できる。また、本発明は、現実世界のロボットだけでなく、例えば、液晶ディスプレイ等の表示装置に表示される仮想的なロボットにも適用可能である。
また、上記実施の形態において、画像認識部53はCCDカメラ11AおよびCCDカメラ11Bの2つのCCDカメラによって得られたステレオ画像に基づいて画像認識を行ったがこれに限定されない。たとえば、単一のCCDカメラから入力される画像データのみから、人を検出できる場合、CCDカメラは一つでも構わない。
さらに、本実施の形態においては、上述した一連の処理を、CPU12(図5)にプログラムを実行させることにより行う構成としたが、一連の処理は、それ専用のハードウェアによって行うことも可能である。
なお、プログラムは、あらかじめメモリ14(図5)に記憶させておく他、フロッピー(登録商標)ディスク、CD−ROM、MOディスク、DVD、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。そして、このようなリムーバブル記録媒体を、いわゆるパッケージソフトウェアとして提供し、ロボット(メモリ14)にインストールするようにすることができる。
また、プログラムは、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、無線で転送したり、LAN、インターネットといったネットワークを介して、有線で転送したりして、メモリ14にインストールすることができる。
この場合、プログラムがバージョンアップされたとき等に、そのバージョンアップされたプログラムを、メモリ14に、容易にインストールすることができる。
ここで、本明細書において、CPU12に各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理も含むものである。
また、プログラムは、1つのCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
また、上記実施形態においては、第一の音声処理部200は適応フィルタを用いた2入力型雑音消去処理を行い、第二の音声処理部202は、適応アレイ処理を行う構成としたが、これに限定されない。たとえば、複数のマイクロフォンの少なくとも一つから得られる信号を用いて、所望の信号を強調するステップを複数有し、この複数のステップの出力結果を統合して用いることにより、強調された所望の信号を得ることができる。
ここで、上記実施の形態において、第一の音声入力部100および第二の音声入力部102は、それぞれ、所望の信号および所望の信号以外の信号を集音する構成としたが、これに限定されない。すなわち、話者方向および雑音方向の同定を、複数のマイクロフォンを用いた適応アレイ処理により、それぞれ行ってもよい。さらに、複数のマイクロフォンのうち、話者方向に向いているマイクロフォンの信号を主マイクとし、雑音方向に向いているマイクロフォンの信号を補助マイクとして、ノイズキャンセラ処理を行ってもよい。このノイズキャンセラの構成としては、1主マイクと1補助マイクの他に、マイクアレイと2マイクノイズキャンセラの縦続接続も可能である。
また、上記実施の形態では、統合部400は、状況判断部304の指示に従って、第一の音声処理部200および第二の音声処理部202の何れかを選択し、音声信号24として出力する構成としたが、これに限定されない。たとえば、本発明をロボットに適用した例では、ロボットが音声認識しようとする人物の前に移動したとき、その背後に電源の入っているテレビやラジオなどからの雑音源が存在している場合、第一の音声処理部200による2入力型雑音消去処理と第二の音声処理部202による適応アレイ処理との両方を同時に行うようにしてもよい。
このとき、状況検知部300は、テレビの電源が入っているか否かを検知する検知部またはテレビ番組の音声を認識する検知部などを含むことができる。あるいは、ロボットがテレビのリモコンスイッチを含むことができ、状況検知部300がスイッチの状態を検知することにより、状況判断部304がテレビの電源が入っているか否かの判断や、現在視聴している番組を判断することができる。また、テレビの配置は、予めロボットが記憶しておくこともできるし、テレビから存在を認識させる所定の周波数の無線信号を発信させ、それを検知することにより判断することもできる。
本発明の実施の形態に係る信号処理装置の概略機能ブロック図である。 図1の信号処理装置の動作の一例を示すフローチャートである。 本発明を適用したロボットの一実施の形態の外観構成例を示す正面図である。 図3のロボットの外観構成例を示す背面図である。 図3のロボットの内部構成例を示すブロック図である。 図5のコントローラの機能的構成例を示すブロック図である。 図3のロボットの動作の一例を示すフローチャートである。
符号の説明
1 胴体部
2 頭部
3A 車輪
3B 車輪
5 マイクロフォンユニット
5A マイクロフォン
5B マイクロフォン
5C マイクロフォン
5D マイクロフォン
7 マイクロフォン
9 スピーカ
10 コントローラ
11A CCDカメラ
11B CCDカメラ
12 CPU
13A アクチュエータ
13B アクチュエータ
14 メモリ
20 マイクロフォン
22 マイクロフォン
24 音声信号
31 バッテリ
33A アクチュエータ
33B アクチュエータ
51 センサ入力処理部
53 画像認識部
55 音声認識部
57 選択部
60 第一の音声処理部
62 第二の音声処理部
71 行動決定部
73 制御部
75 音声合成部
77 出力部
79 応答記憶部
100 第一の音声入力部
102 第二の音声入力部
200 第一の音声処理部
202 第二の音声処理部
300 状況検知部
302 状態認識情報記憶部
304 状況判断部
400 統合部

Claims (24)

  1. 複数のトランスデューサの少なくとも一つから得られる信号を用いて、所定の信号を強調するステップを複数有し、
    前記複数の強調するステップの出力結果を統合して用いることにより、強調された所望の信号を得ることを特徴とする信号処理方法。
  2. 請求項1に記載の信号処理方法において、
    周囲の状況を検知するステップを含み、
    前記状況を検知するステップの検知結果に応じて、前記複数の強調するステップの前記出力結果を選択的に統合して用いることにより、前記強調された所望の信号を得ることを特徴とする信号処理方法。
  3. 請求項2に記載の信号処理方法において、
    前記複数の強調するステップは、
    前記複数のトランスデューサの一部から得られる信号を用いて、前記所望の信号を含む第一の所定の信号を抽出するステップと、
    前記一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、前記所望の信号以外の信号を含む第二の所定の信号を抽出するステップと、
    を含み、
    前記状況を検知するステップは、前記第二の所定の信号の存在を検知するステップを含み、
    前記第二の所定の信号が存在しないとき、前記第一の所定の信号を強調し、前記第二の所定の信号が存在するとき、前記第二の所定の信号を用いて前記第一の所定の信号を強調することを特徴とする信号処理方法。
  4. 請求項3に記載の信号処理方法において、
    前記第二の所定の信号が存在しないとき、前記第一の所定の信号は、適応アレイ処理により強調され、前記第二の所定の信号が存在するとき、前記第一の所定の信号は、前記第二の所定の信号を用いて適応フィルタを用いた2入力型雑音消去処理により強調されることを特徴とする。
  5. 請求項1乃至4いずれかに記載の信号処理方法において、
    所望の人物を画像認識にて認識するステップと、
    前記認識するステップで認識された前記所望の人物に、前記複数のトランスデューサにそれぞれ電気的に接続された複数のマイクロフォンの一部を向けるステップと、
    を含むことを特徴とする信号処理方法。
  6. 請求項5に記載の信号処理方法において、
    前記所望の信号は、前記所望の人物の音声信号であることを特徴とする信号処理方法。
  7. 請求項6に記載の信号処理方法において、
    前記認識するステップで認識された前記人物が一人か複数かを判断するステップと、
    前記人物が一人であると判断した場合、前記認識された人物に前記一部のマイクロフォンを向けるステップと、
    前記人物が複数であると判断した場合、前記認識された複数の前記人物の中心に前記一部のマイクロフォンを向けるステップと、
    を含むことを特徴とする信号処理方法。
  8. 請求項7に記載の信号処理方法において、
    前記判断するステップで前記人物が一人であると判断した場合、前記適応アレイ処理により前記第一の所定の信号を強調し、
    前記判断するステップで前記人物が複数であると判断した場合、前記一部のマイクロフォンを前記人物の中心に向けるまでの間、前記適応フィルタを用いた2入力型雑音消去処理により前記第二の所定の信号を用いて前記第一の所定の信号を強調し、前記マイクロフォンが前記人物の中心に向いたとき、前記適応アレイ処理により前記第一の所定の信号を強調することを特徴とする信号処理方法。
  9. 複数のトランスデューサと、
    前記複数のトランスデューサの少なくとも一つから得られる信号を用いて、所望の信号を強調する複数の信号強調部と、
    前記複数の信号強調部の出力結果を統合して用いることにより、前記強調された所望の信号を得る信号処理部と、を備えたことを特徴とする信号処理装置。
  10. 請求項9に記載の信号処理装置において、
    周囲の状況を検知する状況検知部を含み、
    前記信号処理部は、前記状況検知部の検知結果に応じて、前記複数の信号強調部の前記出力結果を選択的に統合して用いることにより、前記強調された所望の信号を得ることを特徴とする信号処理装置。
  11. 請求項10に記載の信号処理装置において、
    前記複数の信号強調部は、
    前記複数のトランスデューサの一部から得られる信号を用いて、前記所望の信号を含む第一の所定の信号を抽出する第一の抽出部と、
    前記一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、前記所望の信号以外の信号を含む第二の所定の信号を抽出する第二の抽出部と、を含み、
    前記状況検知部は、前記第二の所定の信号の存在を検知し、
    前記信号処理部は、前記第二の所定の信号が存在しないとき、前記第一の所定の信号を強調し、前記第二の所定の信号が存在するとき、前記第二の所定の信号を用いて前記第一の所定の信号を強調することを特徴とする信号処理装置。
  12. 請求項11に記載の信号処理装置において、
    前記信号処理部は、
    前記第二の所定の信号が存在しないとき、前記第一の所定の信号を、適応アレイ処理により強調し、前記第二の所定の信号が存在するとき、前記第一の所定の信号を、前記第二の所定の信号を用いて適応フィルタを用いた2入力型雑音消去処理により強調することを特徴とする信号処理装置。
  13. 請求項9乃至12いずれかに記載の信号処理装置において、
    所望の人物を画像認識にて認識する認識部と、
    前記複数のトランスデューサに電気的に接続された複数のマイクロフォンと、
    前記複数のマイクロフォンを移動する移動部と、
    前記認識部が認識した前記所望の人物に、前記複数のマイクロフォンの一部を向けるように移動部を移動させる制御部と、
    を含むことを特徴とする信号処理装置。
  14. 請求項13に記載の信号処理装置において、
    前記所望の信号は、前記所望の人物の音声信号であることを特徴とする信号処理装置。
  15. 請求項14に記載の信号処理装置において、
    前記認識部が認識した前記人物が一人か複数かを判断する判断部を含み、
    前記制御部は、
    前記人物が一人であると判断した場合、前記認識された人物に前記一部のマイクロフォンを向けるよう前記移動部を制御し、
    前記人物が複数であると判断した場合、前記認識された複数の前記人物の中心に前記一部のマイクロフォンを向けるよう前記移動部を制御することを特徴とする信号処理装置。
  16. 請求項15に記載の信号処理装置において、
    前記信号処理部は、
    前記判断部が前記人物が一人であると判断した場合、前記適応アレイ処理により前記第一の所定の信号を強調し、
    前記判断部が前記人物が複数であると判断した場合、前記一部のマイクロフォンを前記人物の中心に向けるまでの間、前記適応フィルタを用いた2入力型雑音消去処理により前記第二の所定の信号を用いて前記第一の所定の信号を強調し、前記マイクロフォンが前記人物の中心に向いたとき、前記適応アレイ処理により前記第一の所定の信号を強調することを特徴とする信号処理装置。
  17. 複数のトランスデューサと、
    前記複数のトランスデューサの少なくとも一つから得られる信号を用いて、所望の信号を強調する複数の信号強調部と、
    周囲の状況を検知する状況検知部と、
    前記状況検知部の検知結果に応じて、前記複数の信号強調部の出力結果を選択的に統合して用いることにより、強調された所望の信号を得る信号処理部と、
    前記信号処理部からの前記所望の信号に基づいて、音声認識する音声認識部と、
    を備えたことを特徴とするロボット。
  18. 請求項17に記載のロボットにおいて、
    前記複数の信号強調部は、
    前記複数のトランスデューサの一部から得られる信号を用いて、前記所望の信号を含む第一の所定の信号を抽出する第一の抽出部と、
    前記一部のトランスデューサの一部および新たなトランスデューサから得られる信号を用いて、前記所望の信号以外の信号を含む第二の所定の信号を抽出する第二の抽出部と、を含み、
    前記状況検知部は、前記第二の所定の信号の存在を検知し、
    前記信号処理部は、前記第二の所定の信号が存在しないとき、前記第一の所定の信号を強調し、前記第二の所定の信号が存在するとき、前記第二の所定の信号を用いて前記第一の所定の信号を強調することを特徴とするロボット。
  19. 請求項18に記載のロボットにおいて、
    前記第二の所定の信号が存在しないとき、前記第一の所定の信号は、適応アレイ処理により強調され、前記第二の所定の信号が存在するとき、前記第一の所定の信号は、前記第二の所定の信号を用いて適応フィルタを用いた2入力型雑音消去処理により強調されることを特徴とするロボット。
  20. 請求項17乃至19いずれかに記載のロボットにおいて、
    所望の人物を画像認識にて認識する画像認識部と、
    前記複数のトランスデューサに電気的に接続された複数のマイクロフォンと、
    前記複数のマイクロフォンを移動する移動部と、
    前記画像認識部で認識された前記所望の人物に、前記複数のマイクロフォンの一部を向けるように前記移動部を移動させる制御部と、
    を含むことを特徴とするロボット。
  21. 請求項20に記載のロボットにおいて、
    前記所望の信号は、前記所望の人物の音声信号であることを特徴とするロボット。
  22. 請求項21に記載のロボットにおいて、
    前記画像認識部が認識した前記人物が一人か複数かを判断する判断部を含み、
    前記制御部は、
    前記人物が一人であると判断した場合、前記認識された人物に前記一部のマイクロフォンを向けるよう前記移動部を制御し、
    前記人物が複数であると判断した場合、前記認識された複数の前記人物の中心に前記一部のマイクロフォンを向けるよう前記移動部を制御することを特徴とするロボット。
  23. 請求項22に記載のロボットにおいて、
    前記信号処理部は、
    前記判断部が前記人物が一人であると判断した場合、前記適応アレイ処理により前記第一の所定の信号を強調し、
    前記判断部が前記人物が複数であると判断した場合、前記一部のマイクロフォンを前記人物の中心に向けるまでの間、前記適応フィルタを用いた2入力型雑音消去処理により前記第二の所定の信号を用いて前記第一の所定の信号を強調し、前記マイクロフォンが前記人物の中心に向いたとき、前記適応アレイ処理により前記第一の所定の信号を強調することを特徴とするロボット。
  24. 複数の音響トランスデューサを有し、一部のトランスデューサを用いて所望の信号を抽出し、前記一部のトランスデューサの一部および新たなトランスデューサを用いて所望の信号以外の信号を抽出し、前記所望の信号に関する情報と、前記所望の信号以外の信号に関する情報とを用いて、所望の信号を強調することを特徴とする信号処理方法。
JP2004283815A 2004-03-25 2004-09-29 信号処理方法および信号処理装置、ならびに、ロボット Expired - Fee Related JP4655572B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004283815A JP4655572B2 (ja) 2004-03-25 2004-09-29 信号処理方法および信号処理装置、ならびに、ロボット

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004088735 2004-03-25
JP2004283815A JP4655572B2 (ja) 2004-03-25 2004-09-29 信号処理方法および信号処理装置、ならびに、ロボット

Publications (2)

Publication Number Publication Date
JP2005309366A true JP2005309366A (ja) 2005-11-04
JP4655572B2 JP4655572B2 (ja) 2011-03-23

Family

ID=35438175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004283815A Expired - Fee Related JP4655572B2 (ja) 2004-03-25 2004-09-29 信号処理方法および信号処理装置、ならびに、ロボット

Country Status (1)

Country Link
JP (1) JP4655572B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008085613A (ja) * 2006-09-27 2008-04-10 Toyota Motor Corp 音声認識装置、音声認識方法、移動体、及びロボット
JP2010078457A (ja) * 2008-09-26 2010-04-08 Toshiba Corp 位置推定装置および位置推定方法
JP2011201406A (ja) * 2010-03-25 2011-10-13 Denso It Laboratory Inc 車外音提供装置、車外音提供方法およびプログラム
JP2012217015A (ja) * 2011-03-31 2012-11-08 Nec Casio Mobile Communications Ltd スピーカ装置及び電子機器
JP2016102822A (ja) * 2014-11-27 2016-06-02 株式会社Jvcケンウッド 乳幼児泣き声検出装置
JP2018102705A (ja) * 2016-12-27 2018-07-05 本田技研工業株式会社 感情改善装置および感情改善方法
JP2018205470A (ja) * 2017-06-01 2018-12-27 株式会社InfoDeliver 対話装置、対話システム、対話方法及び対話プログラム
CN113984105A (zh) * 2020-07-27 2022-01-28 丰田自动车株式会社 控制系统、控制方法以及计算机可读取的记录介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6283800A (ja) * 1985-10-07 1987-04-17 日本電気株式会社 適応型雑音除去装置
JPH01149695A (ja) * 1987-12-07 1989-06-12 Sumitomo Metal Ind Ltd 音声認識用マイク装置
JPH0327698A (ja) * 1989-03-10 1991-02-06 Nippon Telegr & Teleph Corp <Ntt> 音響信号検出方法
JP2002099296A (ja) * 2000-09-21 2002-04-05 Sharp Corp 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP2002264053A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2003058186A (ja) * 2001-08-13 2003-02-28 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
JP2003066986A (ja) * 2001-08-23 2003-03-05 Sharp Corp 音声認識ロボット
JP2003223198A (ja) * 2001-11-22 2003-08-08 Toshiba Corp 音響信号処理方法及び音響信号処理装置及び音声認識装置
JP2003285285A (ja) * 2002-03-27 2003-10-07 Nec Corp ソフトウェアエージェントを有するロボット装置及びその制御方法とプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6283800A (ja) * 1985-10-07 1987-04-17 日本電気株式会社 適応型雑音除去装置
JPH01149695A (ja) * 1987-12-07 1989-06-12 Sumitomo Metal Ind Ltd 音声認識用マイク装置
JPH0327698A (ja) * 1989-03-10 1991-02-06 Nippon Telegr & Teleph Corp <Ntt> 音響信号検出方法
JP2002099296A (ja) * 2000-09-21 2002-04-05 Sharp Corp 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP2002264053A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2003058186A (ja) * 2001-08-13 2003-02-28 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
JP2003066986A (ja) * 2001-08-23 2003-03-05 Sharp Corp 音声認識ロボット
JP2003223198A (ja) * 2001-11-22 2003-08-08 Toshiba Corp 音響信号処理方法及び音響信号処理装置及び音声認識装置
JP2003285285A (ja) * 2002-03-27 2003-10-07 Nec Corp ソフトウェアエージェントを有するロボット装置及びその制御方法とプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008085613A (ja) * 2006-09-27 2008-04-10 Toyota Motor Corp 音声認識装置、音声認識方法、移動体、及びロボット
JP2010078457A (ja) * 2008-09-26 2010-04-08 Toshiba Corp 位置推定装置および位置推定方法
JP2011201406A (ja) * 2010-03-25 2011-10-13 Denso It Laboratory Inc 車外音提供装置、車外音提供方法およびプログラム
JP2012217015A (ja) * 2011-03-31 2012-11-08 Nec Casio Mobile Communications Ltd スピーカ装置及び電子機器
JP2016102822A (ja) * 2014-11-27 2016-06-02 株式会社Jvcケンウッド 乳幼児泣き声検出装置
JP2018102705A (ja) * 2016-12-27 2018-07-05 本田技研工業株式会社 感情改善装置および感情改善方法
JP2018205470A (ja) * 2017-06-01 2018-12-27 株式会社InfoDeliver 対話装置、対話システム、対話方法及び対話プログラム
CN113984105A (zh) * 2020-07-27 2022-01-28 丰田自动车株式会社 控制系统、控制方法以及计算机可读取的记录介质

Also Published As

Publication number Publication date
JP4655572B2 (ja) 2011-03-23

Similar Documents

Publication Publication Date Title
US10848889B2 (en) Intelligent audio rendering for video recording
KR102312124B1 (ko) 향상된 오디오를 갖는 디바이스
US9900688B2 (en) Beamforming audio with wearable device microphones
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
JP2004528766A (ja) 音声/画像を用いて話者を感知し位置探しする方法及び装置
WO2020173156A1 (zh) 用于控制多个扬声器播放音频的方法、装置和电子设备
JP4622384B2 (ja) ロボット、ロボット制御装置、ロボットの制御方法およびロボットの制御用プログラム
US11496830B2 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
JP4655572B2 (ja) 信号処理方法および信号処理装置、ならびに、ロボット
JPWO2008001492A1 (ja) ロボット、ロボット制御方法、および、ロボット制御プログラム
JP6627775B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR20240017404A (ko) 탠덤 네트워크들을 사용한 잡음 억제
JP2010010857A (ja) 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
KR102115222B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
JP2006243555A (ja) 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
WO2022068608A1 (zh) 信号处理的方法和电子设备
JP7065353B2 (ja) ヘッドマウントディスプレイ及びその制御方法
JP2001188551A (ja) 情報処理装置および方法、並びに記録媒体
KR20200058354A (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
JP2001215989A (ja) ロボット聴覚システム
US20240031765A1 (en) Audio signal enhancement
WO2023054047A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2008197381A (ja) スピーカ制御装置、ロボット、スピーカ制御方法、およびスピーカ制御プログラム
WO2023286775A1 (ja) 音声認識装置、音声認識方法、音声認識プログラム、撮像装置
US20220248131A1 (en) Sound acquisition apparatus and sound acquisition method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101213

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4655572

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees