JP2003251583A - ロボット視聴覚システム - Google Patents
ロボット視聴覚システムInfo
- Publication number
- JP2003251583A JP2003251583A JP2002056670A JP2002056670A JP2003251583A JP 2003251583 A JP2003251583 A JP 2003251583A JP 2002056670 A JP2002056670 A JP 2002056670A JP 2002056670 A JP2002056670 A JP 2002056670A JP 2003251583 A JP2003251583 A JP 2003251583A
- Authority
- JP
- Japan
- Prior art keywords
- module
- stream
- face
- event
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/003—Controls for manipulators by means of an audio-responsive input
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/22—Source localisation; Inverse modelling
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
Abstract
て、目標の音源定位を正確に行なうようにした、ロボッ
ト視聴覚システムを提供する。 【解決手段】 聴覚モジュール20,顔モジュール3
0,ステレオモジュール37,モータ制御モジュール4
0と、各モジュールを制御するアソシエーションモジュ
ール50とを備え、アソシエーションモジュールが、聴
覚モジュールからの聴覚イベント28,顔モジュールか
らの顔イベント39,ステレオモジュール37からのス
テレオイベント39a,モータ制御モジュールからのモ
ータイベント48から聴覚ストリーム55及び視覚スト
リーム56と、これらを関連付けたアソシエーションス
トリーム57を生成すると共に、聴覚モジュールが、ア
ソシエーションモジュールからの正確な音源方向情報に
基づいて、アクティブ方向通過型フィルタ23aによる
音源分離を行なうようにロボット視聴覚システム17を
構成する。
Description
または動物型ロボットにおける視聴覚システムに関する
ものである。
ットにおいては、視覚,聴覚の能動知覚が注目されてき
ている。能動知覚とは、ロボット視覚やロボット聴覚等
の知覚を担当する知覚装置を、知覚すべき目標に追従す
るように、これらの知覚装置を支持する例えば頭部を駆
動機構により姿勢制御するものである。
知覚装置であるカメラが、駆動機構による姿勢制御によ
ってその光軸方向が目標に向かって保持され、目標に対
して自動的にフォーカシングやズームイン,ズームアウ
ト等が行なわれることにより、目標がカメラによって撮
像されるようになっており、種々の研究が行なわれてい
る。
くとも知覚装置であるマイクが、駆動機構による姿勢制
御によって、その指向性が目標に向かって保持され、目
標からの音がマイクによって集音される。このとき、能
動聴覚の不利な点として、駆動機構が作用している間
は、マイクが駆動機構の作動音を拾ってしまうため、目
標からの音に比較的大きなノイズが混入してしまい、目
標からの音を認識できなくなってしまうことがある。こ
のような能動聴覚の不利な点を排除するために、例えば
視覚情報を参照して音源の方向付けを行なうことによ
り、目標からの音を正確に認識する方法が採用されてい
る。
能動聴覚においては、一般に、音源定位の際に、HRT
F(頭部伝達関数)から求められる両耳間位相差(IP
D)や両耳間強度差(IID)を利用して、音源定位を
行なうようにしている。しかしながら、上記HRTFを
利用した音源定位では、部屋の音響環境まで考慮する必
要があり、部屋の環境の変化が音源定位結果に大きく依
存してしまう。また、測定関数であるため測定点間の値
の補完が必要であるという問題もある。従って、実環境
アプリケーションには不向きである。
謂エピポーラ幾何を応用した音源定位も考えられるが、
従来のエピポーラ幾何を応用した音源定位においては、
両耳と目標とを結ぶ三角形に基づいて音源定位を行なっ
ている。しかしながら、このようなエピポーラ幾何にお
ける三角形においては、頭部付近では、上記三角形の辺
が頭部を貫通することになるが、実際の目標からの音は
頭部を貫通せず、頭部表面に沿って伝達するため、正確
な音源定位を行なうことができなかった。
型フィルタを用いて、特定の方向のIPDと同じIPD
を有するサブバンドを選択する方法がある。しかしなが
ら、このような方向通過型フィルタにおいては、方向に
よる感度の違い及びアクティブな動作を考慮していない
ため、感度の良好な正面以外の音源定位の精度が低くな
ってしまうと共に、従来では測定関数であるHRTFを
利用している。従って、実環境及び環境の動的な変化に
対応することが困難であり、さらにアクティブな動作に
対してはHRTFの補間が必要になるという問題があっ
た。
に対する視覚及び聴覚の情報を統合して、目標の音源分
離を正確に行なうロボット視聴覚システムを提供するこ
とを目的としている。
よれば、外部の音を集音する少なくとも一対のマイクを
含む聴覚モジュールと、ロボットの前方を撮像するカメ
ラを含む顔モジュールと、ステレオカメラにより物体を
抽出するステレオモジュールと、ロボットを水平方向に
回動させる駆動モータを含むモータ制御モジュールと、
上記聴覚モジュール,顔モジュール,ステレオモジュー
ル及びモータ制御モジュールからのイベントを統合して
ストリームを生成するアソシエーションモジュールと、
アソシエーションモジュールにより生成されたストリー
ムに基づいてアテンション制御を行なうアテンション制
御モジュールと、を備えていて、上記聴覚モジュール
が、マイクからの音響信号に基づいて、ピッチ抽出,調
波構造に基づいたグルーピングによる音源の分離及び定
位から少なくとも一人の話者の方向を決定してその聴覚
イベントを抽出し、上記顔モジュールが、カメラにより
撮像された画像に基づいて、各話者の顔識別と定位から
各話者を同定してその顔イベントを抽出し、上記ステレ
オモジュールが、ステレオカメラにより撮像された画像
から抽出された視差に基づいて縦に長い物体を抽出定位
してステレオイベントを抽出し、上記モータ制御モジュ
ールが、駆動モータの回転位置に基づいてモータイベン
トを抽出し、これにより、上記アソシエーションモジュ
ールが、聴覚イベント,顔イベント,ステレオイベント
及びモータイベントから、聴覚イベントの音源定位及び
顔イベントの顔定位並びにステレオイベントの物体定位
の方向情報に基づいて各話者の方向を決定し、カルマン
フィルタを用いてイベントを時間方向に接続することに
より聴覚ストリーム,顔ストリーム及びステレオストリ
ームを生成し、さらにこれらを関連付けてアソシエーシ
ョンストリームを生成して、上記アテンション制御モジ
ュールが、これらのストリームに基づいてアテンション
制御と、それに伴う行動のプランニング結果に基づいて
モータの駆動制御を行なう、ロボット視聴覚システムで
あって、上記聴覚モジュールが、アソシエーションモジ
ュールからの正確な音源方向情報に基づいて、聴覚特性
に従って正面方向で最小となり且つ左右に角度が大きく
なるにつれて大きくなるパスレンジを有するアクティブ
方向通過型フィルタにより、所定幅の範囲内の両耳間位
相差(IPD)または両耳間強度差(IID)をもった
サブバンドを集めて音源の波形を再構築することにより
音源分離を行なうことを特徴とするロボット視聴覚シス
テムにより、達成される。
好ましくは、上記聴覚モジュールが、拡張聴覚エピポー
ラ幾何による音源定位に基づいて音源分離を行なう。
好ましくは、上記聴覚モジュールが、ロボット固有の所
定周波数を基準として、当該所定周波数未満で拡張聴覚
エピポーラ幾何により、または全周波数帯域で頭部伝達
関数(HRTF)により、または全周波数帯域で拡張聴
覚エピポーラ幾何により、あるいは所定周波数未満で拡
張聴覚エピポーラ幾何により且つ所定周波数以上で頭部
伝達関数により、それぞれ得られる音源定位に基づいて
音源分離を行なう。
好ましくは、上記アソシエーションモジュールが、各話
者の方向を決定した後、カルマンフィルタを用いてイベ
ントを時間方向に接続することにより聴覚ストリーム,
顔ストリーム及びステレオストリームを生成し、さらに
これらを関連付けてアソシエーションストリームを生成
する。
好ましくは、上記聴覚モジュール,顔モジュール,ステ
レオモジュール,モータ制御モジュール,アソシエーシ
ョンモジュール及びアテンション制御モジュールが、ネ
ットワークを介して互いに接続されており、特にデータ
量の大きいイベントやストリームの通信のために、比較
的高速のネットワークが使用されている。
イクが集音した外部の目標からの音から、調波構造を利
用してピッチ抽出を行なうことにより音源毎の方向を得
て、個々の話者の方向を決定してその聴覚イベントを抽
出する。また、顔モジュールが、カメラにより撮像され
た画像から、パターン認識による各話者の顔識別と定位
から各話者を同定して、個々の話者の顔イベントを抽出
する。そして、ステレオモジュールが、ステレオカメラ
により撮像された画像から抽出された視差に基づいて縦
に長い物体を抽出定位してステレオイベントを抽出す
る。さらに、モータ制御モジュールが、ロボットを水平
方向に回動させる駆動モータの回転位置に基づいて、ロ
ボットの方向を検出することによってモータイベントを
抽出する。なお、上記イベントとは、各時点において検
出される音または顔が在ること、あるいは駆動モータが
回転される状態を示しており、ストリームとは、エラー
訂正処理を行ないながら、例えばカルマンフィルタ等に
より時間的に連続するように接続したイベントを示して
いる。また、本明細書で用いることがある「視覚モジュ
ール」「視覚ストリーム」の語は、顔モジュール,顔ス
トリーム及びステレオモジュール,ステレオストリーム
を包含する概念である。
このようにしてそれぞれ抽出された聴覚イベント,顔イ
ベント,ステレオイベント及びモータイベントに基づい
て、聴覚イベントの音源定位及び顔イベントの顔定位並
びにステレオイベントの物体定位の方向情報によって各
話者の方向を決定することにより、各話者の聴覚ストリ
ーム,顔ストリーム及びステレオストリーム(視覚スト
リーム)を生成し、さらにこれらのストリームを関連付
けてアソシエーションストリームを生成する。この際、
アソシエーションモジュールは、聴覚イベントの音源定
位及び顔イベントの顔定位並びにステレオイベントの物
体定位、即ち聴覚及び視覚の方向情報に基づいて各話者
の方向を決定し、決定された各話者の方向を参考にして
アソシエーションストリームを生成することになる。そ
して、アテンション制御モジュールが、これらのストリ
ームに基づいてアテンション制御と、それに伴う行動の
プランニング結果に基づいてモータの駆動制御を行な
う。アテンションとは、ロボットが目標である話者を、
聴覚的及び/又は視覚的に「注目」することであり、ア
ンテンション制御とは、モータ制御モジュールによりそ
の向きを変えることにより、ロボットが上記話者に注目
するようにすることである。
このプランニングに基づいて、モータ制御モジュールの
駆動モータを制御することにより、ロボットの方向を目
標である話者に向ける。これにより、ロボットが目標で
ある話者に対して正対することにより、聴覚モジュール
が当該話者の声を、感度の高い正面方向にてマイクによ
り正確に集音,定位することができると共に、顔モジュ
ールが当該話者の画像をカメラにより良好に撮像するこ
とができるようになる。
モジュール(顔モジュール及びステレオモジュール)及
びモータ制御モジュールと、アソシエーションモジュー
ル及びアテンション制御モジュールとの連携によって、
聴覚ストリームの音源定位及び視覚ストリーム(顔スト
リーム及びステレオストリーム)の話者定位という方向
情報に基づいて各話者の方向を決定することにより、ロ
ボットの聴覚及び視覚がそれぞれ有する曖昧性が互いに
補完されることになり、所謂ロバスト性が向上し、複数
の話者であっても、各話者をそれぞれ確実に知覚するこ
とができる。また、例えば聴覚ストリームまたは視覚ス
トリーム(顔ストリームとステレオストリーム)の何れ
か一方が欠落したときであっても、残りの視覚ストリー
ム(顔又はステレオストリーム)または聴覚ストリーム
のみに基づいて、目標である話者をアテンション制御モ
ジュールが追跡することができるので、正確に目標の方
向を把握して、モータ制御モジュールの制御を行なうこ
とができる。
ョンモジュールからのアソシエーションストリームを参
照することにより、顔モジュール及びステレオモジュー
ルからの顔ストリーム及びステレオストリームをも考慮
して音源定位を行なうことによって、より一層正確な音
源定位を行なうことができる。そして、上記聴覚モジュ
ールが、アソシエーションモジュールからの正確な音源
方向情報に基づいて、聴覚特性に従って正面方向で最小
となり且つ左右に角度が大きくなるにつれて大きくなる
パスレンジを有するアクティブ方向通過型フィルタによ
り、所定幅の範囲内の両耳間位相差(IPD)または両
耳間強度差(IID)をもったサブバンドを集めて、音
源の波形を再構築することにより音源分離を行なうの
で、上述した聴覚特性に応じてパスレンジ即ち感度を調
整することにより、方向による感度の違いを考慮してよ
り正確に音源分離を行なうことができる。
ラ幾何による音源定位に基づいて音源分離を行なう場合
には、アソシエーションモジュールからのアソシエーシ
ョンストリームを参照して、頭部表面に沿った拡張聴覚
エピポーラ幾何により音源定位を行なうので、音源から
ロボットの両耳部に設けられた左右のマイクへの実際の
距離に基づいて、聴覚エピポーラ幾何を応用することに
より、ロボットの外装形状を考慮して、より正確に聴覚
エピポーラ幾何による音源分離を行なうことができる。
定周波数を基準として、当該所定周波数未満で拡張聴覚
エピポーラ幾何により、または全周波数帯域で頭部伝達
関数(HRTF)により、または全周波数帯域で拡張聴
覚エピポーラ幾何により、あるいは所定周波数未満で拡
張聴覚エピポーラ幾何により且つ所定周波数以上で頭部
伝達関数により、それぞれ得られる音源定位に基づいて
音源分離を行なう場合には、そのときの実環境に応じ
て、正確な音源分離を行なうことができる。
者の方向を決定した後、カルマンフィルタを用いてイベ
ントを時間方向に接続することにより聴覚ストリーム及
び視覚ストリーム、即ち、顔ストリーム及びステレオス
トリームを生成し、さらにこれらを関連付けてアソシエ
ーションストリームを生成する場合には、カルマンフィ
ルタを使用することにより、より一層正確なストリーム
を生成することができる。
レオモジュール,モータ制御モジュール,アソシエーシ
ョンモジュール及びアテンション制御モジュールが、ネ
ットワークを介して互いに接続されており、特にデータ
量の大きいイベントやストリームの通信のために、比較
的高速のネットワークが使用されている場合には、大容
量のデータを比較的高速のネットワークで伝送すること
により、リアルタイム性及びスケーラビリティを向上さ
せることができる。
づいて、この発明を詳細に説明する。図1乃至図2はこ
の発明によるロボット視聴覚システムの一実施形態を備
えた実験用の人型ロボットの全体構成を示している。図
1において、人型ロボット10は4DOF(自由度)の
ロボットとして構成されており、ベース11と、ベース
11上にて一軸(垂直軸)周りに回動可能に支持された
胴体部12と、胴体部12上にて三軸方向(垂直軸,左
右方向の水平軸及び前後方向の水平軸)の周りに揺動可
能に支持された頭部13と、を含んでいる。
く、脚部として動作可能としてもよい。また、ベース1
1は、移動可能な台車等の上に載置されていてもよい。
上記胴体部12は、ベース11に対して垂直軸の周り
に、図1にて矢印Aで示すように回動可能に支持されて
おり、図示しない駆動手段によって回転駆動されると共
に、図示の場合、防音性の外装によって覆われている。
材13aを介して支持されており、この連結部材13a
に対して前後方向の水平軸の周りに、図1にて矢印Bで
示すように揺動可能に、また左右方向の水平軸の周り
に、図2にて矢印Cで示すように揺動可能に支持されて
いると共に、上記連結部材13aが、胴体部12に対し
てさらに前後方向の水平軸の周りに、図1にて矢印Dで
示すように揺動可能に支持されており、それぞれ図示し
ない駆動手段によって、各矢印A,B,C,D方向に回
転駆動される。
に全体が防音性の外装14で覆われていると共に、前側
にロボット視覚を担当する視覚装置としてのカメラ15
を、また両側にロボット聴覚を担当する聴覚装置として
の一対のマイク16(16a,16b)を備えている。
なお、マイク16は、頭部13の両側に限定されること
なく、頭部13の他の位置あるいは胴体部12等に設け
られていてもよい。
吸音性の合成樹脂から構成されており、頭部13の内部
をほぼ完全に密閉することにより、頭部13の内部の遮
音を行なうように構成されている。なお、胴体部12の
外装も、同様にして吸音性の合成樹脂から構成されてい
る。上記カメラ15は公知の構成であって、例えば所謂
パン,チルト,ズームの3DOF(自由度)を有する市
販のカメラが適用され得る。なお、上記カメラ15は、
同期をとってステレオ画像を送ることができるように設
計されている。
面において、前方に向かって指向性を有するように取り
付けられている。ここで、マイク16の左右の各マイク
16a,16bは、それぞれ図1及び図2に示すよう
に、外装14の両側にて前方に向いた段部14a,14
bにて内側に取り付けられ、段部14a,14bに設け
られた貫通穴を通して前方の音を集音すると共に、外装
14の内部の音を拾わないように適宜の手段により遮音
されている。これにより、各マイク16a,16bは、
所謂バイノーラルマイクとして構成されている。なお、
マイク16a,16bの取付位置の近傍において、外装
14は人間の外耳形状に形成されていてもよい。
含むロボット視聴覚の電気的構成を示している。図4に
おいて、ロボット視聴覚システム17は、聴覚モジュー
ル20,視覚モジュール、即ち、顔モジュール30とス
テレオモジュール37,モータ制御モジュール40及び
アソシエーションモジュール50から構成されている。
ここで、アソシエーションモジュール50はサーバから
構成されていると共に、他のモジュール、即ち聴覚モジ
ュール20,顔モジュール30,ステレオモジュール3
7,モータ制御モジュール40は、それぞれクライアン
トから構成されており、互いに非同期で動作する。
例えばパーソナルコンピュータにより構成されており、
例えば100Base−T等のネットワーク(図示せ
ず)を介して、例えばTCP/IPプロトコルにより、
相互にLAN接続されている。この場合、好ましくは、
データ量の大きいイベントやストリームの通信のために
は、高速ネットワークが、また時刻の同期等の制御用通
信のためには、中速ネットワークが、それぞれ区別して
使用される。これにより、ロボット全体のリアルタイム
性及びスケーラビリティを向上させるようにしている。
また、各モジュール20,30,37,40,50は、
それぞれ階層的に分散して、具体的には下位から順次に
デバイス層,プロセス層,特徴層,イベント層から構成
されている。
してのマイク16と、プロセス層としてのピーク抽出部
21,音源定位部22,音源分離部23及びアクティブ
方向通過型フィルタ23aと、特徴層(データ)として
のピッチ24,音源水平方向25と、イベント層として
の聴覚イベント生成部26と、から構成されている。
すように作用する。即ち、図5において、聴覚モジュー
ル20は、例えば48kHz,16ビットでサンプリン
グされたマイク16からの音響信号を、符号X1で示す
ようにDFTにより周波数解析して、符号X2で示すよ
うに左右のチャンネル毎にスペクトルを生成する。そし
て、聴覚モジュール20は、ピーク抽出部21により左
右のチャンネル毎に一連のピークを抽出して、左右のチ
ャンネルで同じか類似のピークをペアとする。ここで、
ピーク抽出は、パワーがしきい値以上で且つローカルピ
ークであって、低周波ノイズとパワーの小さい高周波帯
域をカットするため例えば90Hz乃至3kHzの間の
周波数であるという条件のデータのみを透過させる帯域
フィルタを使用することにより行なわれる。このしきい
値は、周囲の暗騒音を計測して、さらに感度パラメー
タ、例えば10dBを加えた値として定義される。
が調波構造を有していることを利用して、周波数が低い
方から順に、調波構造を有するローカルピークを抽出し
て、抽出されたピークの集合を一つの音として、音源分
離部23により各音源からの混合音から音源毎の音響信
号を分離する。
22は、符号X3で示すように、各音源毎の音響信号に
ついて、左右のチャンネルから同じ周波数の音響信号を
選択して、例えば5度毎にIPD(両耳間位相差)及び
IID(両耳間強度差)を計算し、アクティブ方向通過
型フィルタ23aに出力する。
ルタ23aは、アソシエーションモジュール50におけ
る顔定位及びステレオ視覚そして音源定位に基づくリア
ルタイムトラッキング(後述)によるアソシエーション
ストリーム59の方向に基づいて、以下に詳細に説明す
る拡張聴覚エピポーラ幾何を利用して、ロボット10の
正面を0度として±90度の範囲で、符号X4で示すよ
うに、IPDの理論値IPD(=ΔφE (θ))を生成
すると共に、IIDの理論値IID(=ΔρE(θ))
を計算する。
いて説明する。聴覚エピポーラ幾何は、HRTFを使用
せずに音源の方向情報を得るために必要である。ステレ
オ視覚研究においては、エピポーラ幾何が、最も一般的
な定位法の一つであり、聴覚エピポーラ幾何は、視覚に
おけるエピポーラ幾何の聴覚への応用である。そして、
聴覚エピポーラ幾何が幾何学的関係を利用して方向情報
を得るので、HRTFを不要にすることができるのであ
る。
においては、外装14の影響や、ロボット10と部屋の
反響のような実世界の環境の影響がある。外装14の影
響に関しては、実際のロボットの頭部の両側にマイク1
6a,16bを設けた場合、図6(A)に示すように、
例えば音源が右手前方に在ると、左側のマイク16aと
音源Pとを結ぶ線分Qは、頭部13内を貫通することに
なるが、実際には音源からの音は頭部13の外装14の
表面に沿って進んで左側のマイク16aに達する。従っ
て、このような場合には、上記聴覚エピポーラ幾何は適
用できない。
な方向情報を得るために、本発明による拡張聴覚エピポ
ーラ幾何を利用している。拡張聴覚エピポーラ幾何は、
以下のように作用する。即ち、先ず、FFT(高速フー
リエ変換)により得られた一対のスペクトルから、各サ
ブバンドに対するIPDを計算する。そして、頭部13
の形状を考慮して、図6(A)に示すように、頭部13
中心から音源Pまでの距離をl、頭部の半径をrとす
る。そして、音源Pから左右のマイク16a,16bま
での距離差をD、IPDをΔψ、音の周波数をf、音速
をv(以下、音速vは、計算を簡略化するために、例え
ば340m/秒に固定し、温度や湿度で変化しないもの
とする)とすると、以下の方程式
4の影響が考慮されるべきである。外装14のために、
音は、一方の耳には直接に到達し得る。例えば図6
(A)において、音源Pから左のマイク16aへの音の
通路が真っ直ではないので、音は外装14の表面に沿っ
て進行しなければならない。従って、外装14の形状を
考慮することにより、聴覚エピポーラ幾何の方程式を調
整すればよい。これにより、聴覚エピポーラ幾何の方程
式は、
して定義される。図6(B)のグラフは、シミュレーシ
ョンによって得られたD,θ及びlの関係を示してい
る。これにより、θが大きくなるにつれて、lの影響が
大きくなることが分かる。しかしながら、lが50cm
以上になると、lの影響は無視できる。このような場
合、Dは、lが無限であるとして、θのみの関数とし
て、以下の式、
定位されるときには、視覚及び聴覚におけるベースライ
ンは平行であるので、Dは容易にθに変換され得る。こ
れは、方向の表現が視覚及び聴覚情報を統合するための
糸口として使用されることを意味している。
aは、前述した実世界の環境の影響によって、以下の三
つの大きな因子に依存することになる。 1. 音源から左右の耳部への距離の差 2. ロボット本体と頭部の反響 3. 部屋の反響 ここで、これらの因子による実世界での影響を調べるた
めに、無響室にて正中面から左右に±90度の範囲で1
0度毎にパルス応答を測定し、拡張エピポーラ幾何によ
るシミュレーションとの比較を行なったところ、図7に
示す結果が得られた。即ち、図7(a)は、カバーのな
いステレオマイクを使用した音響測定結果であり、カバ
ーの影響を考慮する必要はない。ここで、AEGで示す
細線は、従来の聴覚エピポーラ幾何により推測されたI
PDを示し、測定結果と良好に合っていることが分か
る。これにより、聴覚エピポーラ幾何の原理が正しいこ
とが分かる。
けるロボットのIPD測定値と聴覚エピポーラ幾何によ
り推測されたIPDを示している。この場合、聴覚エピ
ポーラ幾何による推測は、300Hz以上の周波数では
対応するデータと合っていない。この不一致は、ロボッ
ト本体と頭部の反響により引き起こされている。また、
図7(c)は、無響室におけるロボットのIPD測定値
と拡張聴覚エピポーラ幾何により推測されたIPDを示
している。この場合、推測されたIPDは、図7(b)
の場合よりも良好に推測されている。これは、カバーの
影響による不一致の問題が拡張聴覚エピポーラ幾何によ
り克服されたことを示している。さらに、図7(d)
は、非無響室における測定結果を示している。この部屋
は、10m2 で、音吸収材が壁面,天井及び床面に取り
付けられている。この場合、測定されたIPDは、部屋
の音響効果により歪められており、IPDの範囲がベー
スラインに対して±πを越えていることから、1200
Hz以上の周波数にて拡張聴覚エピポーラ幾何が良好に
作用していないことが分かる。
ernational社のソフトウェア)を利用したB
EM(Boundary Element Metho
d)により部屋の反響の影響を解析する。図8は、30
度におけるIPD及びIIDを示している。ここで、S
YSNOISE(床なし)で示すIPD及びIIDは、
ロボット頭部の三次元メッシュデータを使用して計算さ
れており、300及び400Hzの間にピークを有して
いる。これらのピークは、ロボット頭部により引き起こ
されている。ロボットにより測定されたIPD及びII
Dもカバーにより300及び400Hzの間にピークを
有している。また、SYSNOISE(床あり)で示す
IPD及びIIDは、ロボットの下方1mの距離に床面
がある条件のもとで計算されており、より多くのピーク
を有している。従って、単純な床面でさえ、IPD及び
IIDのうねりを引き起こすので、音源定位のためには
音響的環境の考慮が必要である。
aは、同様にして上記ストリーム方向に基づいて、頭部
伝達関数(HRTF)を利用して、ロボット10の正面
を0度として±90度の範囲で、符号X5で示すよう
に、IPD及びIIDの理論値IPD(=Δφ
H (θ))及びIID(=ΔρH (θ))を生成する。
3aは、符号X7で示すように、前記ストリーム方向か
ら、パスレンジ関数を利用して、パスレンジδ(θ)を
計算する。ここで、パスレンジ関数は、図5に示すよう
に、ロボットの正面方向(θ=0度)で、感度が最大と
なり、側方で感度が低下することから、θ=0度で最小
値をとり、側方でより大きくなるような関数である。こ
れは、正面方向で定位の感度が最大になり、左右に角度
が大きくなるにつれて感度が低下するという聴覚特性を
再現するためのものである。なお、正面方向で定位の感
度が最大になることは、哺乳類の目の構造に見られる中
心窩にならって聴覚中心窩と呼ぶ。この聴覚中心窩に関
して、人間の場合には、正面の定位の感度が±2度程度
であり、左右90度付近にて±8度程度とされている。
23aは、拡張聴覚エピポーラ幾何による各サブバンド
毎に計算されたIPD(=ΔφE (θ))及びIID
(=ΔρE (θ))と、HRTFにより得られたIPD
(=ΔφH (θ))及びIID(=ΔρH (θ))に基
づいて、前述したパスレンジδ(θ)により決定される
角度θ−δ(θ)(以下、θL という)からθ+δ
(θ)(以下、θH という)の角度範囲で、抽出された
IPD(=Δφ’)及びIID(=Δρ’)が以下の条
件のうち何れかを満たすようなサブバンドを集める。こ
こで、所定周波数fthは、IPDによる定位が有効であ
る周波数の上限であり、ロボット10の頭部14のベー
スラインに依存し、例えば1200乃至1500Hz程
度である。
φE (θH ) これは、所定周波数fth未満の周波数で、拡張聴覚エピ
ポーラ幾何によるIPDのパスレンジδ(θ)の範囲内
にIPD(=Δφ’)が在る場合に、サブバンドを集め
ることを意味している。 条件B. f<fth: ΔφH (θL )≦Δφ’≦Δ
φH (θH ) 且つ f≧fth: ΔρH (θL )≦ρφ’≦Δρ
H (θH ) これは、所定周波数fth未満の周波数で、HRTFによ
るIPDのパスレンジδ(θ)の範囲内にIPD(=Δ
φ’)が在る場合、そして所定周波数fth以上の周波数
で、HRTFによるIIDのパスレンジδ(θ)の範囲
内にIID(=Δρ’)が在る場合に、サブバンドを集
めることを意味している。 条件C. 全周波数f: ΔφE (θL )≦Δφ’≦
ΔφE (θH ) これは、すべての周波数で、拡張聴覚エピポーラ幾何に
よるIPDのパスレンジδ(θ)の範囲内にIPD(=
Δφ’)が在る場合に、サブバンドを集めることを意味
している。 条件D. f<fth: ΔφE (θL )≦Δφ’≦Δ
φE (θH ) 且つ f≧fth: ΔρE (θL )≦ρφ’≦Δρ
H (θH ) これは、所定周波数fth未満の周波数で、拡張聴覚エピ
ポーラ幾何によるIPDのパスレンジδ(θ)の範囲内
にIPD(=Δφ’)が在る場合、そして、所定周波数
fth以上の周波数で、HRTFによるIIDのパスレン
ジδ(θ)の範囲内にIID(=Δρ’)が在る場合
に、サブバンドを集めることを意味している。
3aは、このようにして集めたサブバンドから波形を構
築することにより、符号X8で示すように、パス−サブ
バンド方向を生成し、符号X9で示すように、各サブバ
ンド毎に、フィルタリングを行なって、逆周波数変換I
DFTにより、符号X10で示すように、各音源からの
聴覚イベントを抽出する。
マイク16からの音響信号に基づいて、ピッチ抽出,音
源の分離及び定位から、少なくとも一人の話者を特定
(話者同定)して、その聴覚イベントを抽出し、ネット
ワークを介してアソシエーションモジュール50に対し
て送信するようになっている。
てのカメラ15と、プロセス層としての顔発見部31,
顔識別部32,顔定位部33と、特徴層(データ)とし
ての顔ID34,顔方向35と、イベント層としての顔
イベント生成部36と、から構成されている。
15からの画像信号に基づいて、顔発見部31により例
えば肌色抽出により各話者の顔を検出し、顔識別部32
にて前もって登録されている顔データベース38により
検索して、一致した顔があった場合、その顔ID34を
決定して当該顔を識別すると共に、顔定位部33により
当該顔方向35を決定(定位)する。ここで、顔モジュ
ール30は、顔発見部31が画像信号から複数の顔を見
つけた場合、各顔について上記処理、即ち識別及び定位
そして追跡を行なう。その際、顔発見部31により検出
された顔の大きさ,方向及び明るさがしばしば変化する
ので、顔発見部31は、顔領域検出を行なって、肌色抽
出と相関演算に基づくパターンマッチングの組合せによ
って、200m秒以内に複数の顔を正確に検出できるよ
うになっている。
る顔位置を三次元空間に変換し、三次元空間における顔
位置を、方位角θ,高さφ及び距離rのセットとして得
る。
顔ID(名前)34及び顔方向35から、顔イベント生
成部36により顔イベント39を生成して、ネットワー
クを介してアソシエーションモジュール50に対して送
信するようになっている。
層としてのカメラ15と、プロセス層としての視差画像
生成部37a,目標抽出部37bと、特徴層(データ)
としての目標方向37cと、イベント層としてのステレ
オイベント生成部37dと、から構成されている。これ
により、ステレオモジュール37は、カメラ15からの
画像信号に基づいて、視差画像生成部37aにより双方
のカメラ15の画像信号から視差画像を生成し、視差画
像を領域分割した結果、縦に長い物体が発見されれば、
人物候補として抽出し、その方向を同定し、ステレオイ
ベントを生成し、ネットワークを介してアソシエーショ
ンモジュール50に対して送信するようになっている。
ス層としてのモータ41及びポテンショメータ42と、
プロセス層としてのPWM制御回路43,AD変換回路
44及びモータ制御部45と、特徴層としてのロボット
方向46と、イベント層としてのモータイベント生成部
47と、から構成されている。
は、アテンション制御モジュール57(後述)からの指
令に基づいてモータ制御部45によりPWM制御回路4
3を介してモータ41を駆動制御すると共に、モータ4
1の回転位置をポテンショメータ42により検出して、
AD変換回路44を介してモータ制御部45によりロボ
ット方向46を抽出し、モータイベント生成部47によ
りモータ方向情報から成るモータイベント48を生成し
て、ネットワークを介してアソシエーションモジュール
50に対して送信するようになっている。
上述した聴覚モジュール20,顔モジュール30,ステ
レオモジュール37,モータ制御モジュール40に対し
て、階層的に上位に位置付けられており、各モジュール
20,30,37,40のイベント層の上位であるスト
リーム層を構成している。具体的には、上記アソシエー
ションモジュール50は、聴覚モジュール20,顔モジ
ュール30,ステレオモジュール37及びモータ制御モ
ジュール40からの非同期イベント51、即ち聴覚イベ
ント28,顔イベント39,ステレオイベント39a及
びモータイベント48を同期させて聴覚ストリーム5
3,顔ストリーム54,ステレオ視覚ストリーム55を
生成する絶対座標変換部52と、各ストリーム53,5
4,55を関連付けてアソシエーションストリームを生
成し、あるいはこれらの関連付けを解除する関連付け部
56と、さらにアテンション制御モジュール57と、ビ
ューア58を備えている。
ル20からの聴覚イベント28,顔モジュール30から
の顔イベント39,ステレオモジュール37からのステ
レオイベント39aに、モータ制御モジュール40から
のモータイベント48を同期させると共に、聴覚イベン
ト28,顔イベント39及びステレオイベント39aに
関して、同期させたモータイベントによって、の座標系
を絶対座標系に変換することにより、聴覚ストリーム5
3,顔ストリーム54及びステレオ視覚ストリーム55
を生成する。その際、上記絶対座標変換部52は、同一
話者の聴覚ストリーム,顔ストリーム及びステレオ視覚
ストリームに接続することによって、聴覚ストリーム5
3,顔ストリーム54及びステレオ視覚ストリーム55
を生成する。
53,顔ストリーム54,ステレオ視覚ストリーム55
に基づいて、これらのストリーム53,54,55の時
間的つながりを考慮してストリームを関連付け、あるい
は関連付けを解除して、アソシエーションストリーム5
9を生成すると共に、逆にアソシエーションストリーム
59を構成する聴覚ストリーム53,顔ストリーム54
及びステレオ視覚ストリーム55の結び付きが弱くなれ
ば、関係付けを解除するようになっている。これによ
り、目標となる話者が移動している場合であっても、当
該話者の移動を予測してその移動範囲となる角度範囲内
であれば、上述したストリーム53,54,55の生成
を行なうことによって、当該話者の移動を予測して追跡
できることになる。
けは、具体的には以下のようにして行なわれる。前述し
たように座標変換された各イベントは、カルマンフィル
タに基づくアルゴリズムを使用してストリームに接続さ
れる。ここで、カルマンフィルタは、特により大きな曖
昧さを有する聴覚プロセスにおける定位でのプロセス及
び測定ノイズの影響を低減するために有効である。
において、大きさNの位置ベクトルpは、lを平均速度
のパラメータとして、以下の式
k 及びyk が(pk ,pk-1 ,・・・,pk-l )として
表わされる状態ベクトルであって、それぞれ位置ベクト
ルとして表わされた測定値であるとき、プロセスの状態
及び測定値を予測する関数は、以下の式
ロセス及び測定ノイズを表わすとき、IN がN×Nの大
きさの単位行列であるとすると、F,G及びHは以下の
ように定義される。
行列、σw 2 及びσv 2をwk 及びvk の変動共分散行
列とすると、以下の式
ストリーム53及び聴覚イベント28が調和関係を有
し、当該ストリーム53及び聴覚イベント28のyk の
間の方位角の差が±10度以内であるとき、これらは接
続される。また、顔ストリーム54及びステレオストリ
ーム55の生成において、ストリームとイベントのyk
の間の距離差が40cm以内であって、それらが同じイ
ベントIDを有するとき、顔イベントまたはステレオイ
ベントが顔ストリームまたはステレオストリームに接続
される。尚、イベントIDとは、顔モジュール30で生
成される顔ID34または目標IDである。そして、同
一人物からの複数のストリームと判断されたとき、これ
らの複数のストリームは、一つのアソシエーションスト
リームに関連付けられる。アソシエーションストリーム
を構成するストリームの一つが終了すると、終了したス
トリームはアソシエーションストリームから取り除か
れ、アソシエーションモジュールは、一つまたはいくつ
かの分離されたストリームに関連付けを解除される。
は、モータ制御モジュール40の駆動モータ制御のプラ
ンニングのためのアテンション制御を行なうものであ
り、その際アソシエーションストリーム59,聴覚スト
リーム53,顔ストリーム54そしてステレオストリー
ム55の順に優先的に参照して、アテンション制御を行
なう。そして、アテンション制御モジュール57は、聴
覚ストリーム53,顔ストリーム54及びステレオスト
リーム55の状態とアソシエーションストリーム59の
存否に基づいて、ロボット10の動作プランニングを行
ない、駆動モータ41の動作の必要があれば、モータ制
御モジュール40に対して動作指令としてのモータイベ
ントをネットワークを介して送信する。
におけるアテンション制御は、連続性とトリガに基づい
ており、連続性により同じ状態を保持しようとし、トリ
ガにより最も興味のある対象を追跡しようとして、アテ
ンションを向けるべきストリームを選択して、トラッキ
ングを行なう。このようにして、アテンション制御モジ
ュール57はアテンション制御を行なって、モータ制御
モジュール40の駆動モータ41の制御のプランニング
を行ない、このプランニングに基づいてモータコマンド
64aを生成し、ネットワーク70を介してモータ制御
モジュール40に伝送する。これにより、モータ制御モ
ジュール40では、このモータコマンド64aに基づい
てモータ制御部45がPWM制御を行なって、駆動モー
タ41を回転駆動させてロボット10を所定方向に向け
るようになっている。
た各ストリーム53,54,55,57をサーバの画面
上に表示するものであり、具体的にはレーダチャート5
8a及びストリームチャート58bにより表示する。こ
こで、レーダチャート58aは、その瞬間におけるスト
リームの状態、より詳細にはカメラの視野角と音源方向
を示し、ストリームチャート58bは、アソシエーショ
ンストリーム(太線図示)と聴覚ストリーム及び視覚ス
トリーム(細線図示)を示している。
以上のように構成されており、以下のように動作する。
例えばカメラ15の視野外に居る話者がロボット10に
対して話し掛けると、ロボット10は、マイク16が当
該話者の音声を拾って、聴覚モジュール20が音源方向
を伴う聴覚イベント28を生成して、ネットワークを介
してアソシエーションモジュール60に伝送する。
50は、この聴覚イベント28に基づいて、聴覚ストリ
ーム53を生成する。このとき、顔モジュール30は、
当該話者がカメラ15の視野内に入っていないので、顔
イベント39を生成せず、ステレオモジュール37もス
テレオイベント39aを生成しない。従って、アソシエ
ーションモジュール50は、聴覚イベント28のみに基
づいて、聴覚ストリーム53を生成し、アテンション制
御モジュール57は、この聴覚ストリーム53をトリガ
ーとして、ロボット10を話者の方向に向けるようなア
テンション制御を行なう。
向を向き、所謂声によるトラッキングが行なわれる。そ
して、顔モジュール30がカメラ15による話者の顔の
画像を取り込んで顔イベント39を生成して、当該話者
の顔を顔データベース38により検索して顔識別を行な
うと共に、その結果である顔ID24及び画像をネット
ワーク70を介してアソシエーションモジュール60に
伝送する。尚、当該話者の顔が顔データベース38に登
録されていない場合には、顔モジュール30はその旨を
ネットワークを介してアソシエーションモジュール50
に伝送する。
0は、聴覚イベント28及び顔イベント39によりアソ
シエーションストリーム59を生成しており、このアソ
シエーションストリーム59によりアテンション制御モ
ジュール57は、そのアテンション制御を変更しないの
で、ロボット10は話者の方向を向き続ける。従って、
話者が移動したとしても、ロボット10は、アソシエー
ションストリーム59によりモータ制御モジュール40
を制御することにより、話者を追跡して、顔モジュール
30のカメラ15が話者を継続して撮像し得るようにな
っている。
覚モジュール20による聴覚イベント28及び顔モジュ
ール30による顔イベント39と、アソシエーションモ
ジュール50によるアソシエーションストリーム59に
基づいて、複数の話者を聴覚及び視覚により認識すると
共に、複数の話者のうちの一人の話者を追跡したり、あ
るいは途中で他の話者に切り換えて追跡することができ
る。
ブ方向通過型フィルタ23aにより拡張聴覚エピポーラ
幾何によるIPDを利用して音源定位を行なっているの
で、ロボット10の頭部14の形状を考慮したより正確
な音源定位を行なうことができる。また、聴覚モジュー
ル20は、アクティブ方向通過型フィルタ23aによ
り、パスレンジδ(θ)により、方向θに応じて感度を
調整しているので、より正確な音源定位が可能な正面付
近においては、サブバンドを集める角度範囲を狭く、ま
た側方では角度範囲を広く設定することにより、より正
確な音源分離を行なうことができる。さらに、聴覚モジ
ュール20は、アクティブ方向通過型フィルタ23aに
より、アソシエーションモジュール59からのアソシエ
ーションストリーム59を参照して、IPD及びIID
を計算することから、ロボット10が移動しているとき
でも、正確に音源定位・分離を行なうことができる。
型ロボット10によれば、アソシエーションモジュール
50が、聴覚モジュール20、顔モジュール30及びス
テレオモジュール37からの聴覚イベント、顔イベント
及びステレオイベントに基づいて、これらの方向情報そ
して個々の話者同定から、これらの時間的流れを考慮し
て、聴覚ストリーム,視覚ストリームそしてアソシエー
ションストリームを生成することによって、複数の対象
である話者を認識しているので、何れかのイベントが欠
落したり明確に認識できなくなった場合、例えば話者が
移動して「見えなく」なった場合でも聴覚により、また
話者が話をせず「聞こえなく」なった場合でも視覚によ
り、リアルタイムに複数の話者を聴覚的及び/又は視覚
的にトラッキングすることができる。
動作を下記に実験により評価する。これらの実験におい
ては、上記人型ロボット10が、約10平方mの部屋に
て、音源としての一つのスピーカに対向しており、この
スピーカは、ロボット10の正面方向を0度として、約
100cmの距離にて同じ高さに位置している。スピー
カから発する音響信号は、ASJ Continuou
s Corpusにおける毎日新聞記事からの男性及び
女性により読み上げられた20の文章が使用される。
N比の差 2.入力と分離された話声の間の信号損失 3.ノイズ抑制の効果 4.音響信号処理の専門家による評価 を評価のために使用した。
spo(i,j)及びsps(i,j)をそれぞれ原波形信
号,マイク16で集音された観測波形信号及びアクティ
ブ方向通過型フィルタにより分離された分離波形信号の
スペクトル、m,nをサブバンド及びサンプルの数、β
を原波形信号と観測波形信号の間の大きさの減衰比とし
て、
o (n),ss (n)をそれぞれ原波形信号,マイク1
6で集音された観測波形信号及びアクティブ方向通過型
フィルタにより分離された分離波形信号、Sを信号を有
するサンプルの集合、即ちs(i)−βso (i)≧0
を満足するiの集合として、
(n),so (n),ss (n)をそれぞれ原波形信
号,マイク16で集音された観測波形信号及びアクティ
ブ方向通過型フィルタにより分離された分離波形信号、
Nをノイズを有するサンプルの集合、即ちs(i)−β
so (i)<0を満足するiの集合として、
こで、前述のfthは1500Hzとした。 実験1. 音源方向が0度から90度まで変化するとき
の聴覚モジュール,顔モジュール及びステレオモジュー
ルの音源定位のエラーを測定する。 実験2. カルマンフィルタの有効性を測定する。この
場合、二つのスピーカが使用され、一方が60度の方向
に固定され、他方が±30度以内で繰返し左から右に移
動している。そして、第二のスピーカからの話声がアク
ティブ方向通過型フィルタにより抽出される。カルマン
フィルタの使用または不使用による二種の音ストリーム
がアクティブ方向通過型フィルタへの入力として使用さ
れ、抽出された音がR1 により比較される。 実験3. 前記各フィルタリング条件A,B,Dによる
アクティブ方向通過型フィルタの有効性を、R1 ,
R2 ,R3 の指標を利用して、測定する。二話者同時発
話及び三話者同時発話の場合の音源分離を行なった。第
一のスピーカは、0度に固定される。第二のスピーカ
は、30度,60度及び90度に位置する。三つの同時
の話声の分離において、第二及び第三のスピーカは、±
30度,±60度及び±90度に位置する。これらのス
ピーカは、同時に同じ音量で異なる話声を出す。パスレ
ンジ関数δ(θ)は、0度及び30度の方向でスピーカ
に対して±20度であり、60度及び90度の方向にて
±30度である。なお、これらの値は、単一音源に対す
る聴覚中心窩に従って定義される。 実験4. 一つのスピーカを0度方向に、もう一つのス
ピーカを30度,60度,90度と変化させて、同時に
音声が出力されている状態で、前述したアクティブ方向
通過型フィルタ23aのサブバンドを集める際の条件A
乃至DによってR3 の指標を利用して、正面方向のスピ
ーカからの音声の分離,抽出を試みた。
る音源定位は、図9にて符号Bで示すように最も正確で
あり、誤差は1度以内である。これに対して、顔モジュ
ール及び聴覚モジュールによる音源定位は、図9にてそ
れぞれ符号A及びCで示すようになる。一般に視覚によ
る定位は、聴覚による定位より正確であるが、聴覚モジ
ュールは、全方向性センサの利点を有している。即ち、
聴覚モジュールは、方位角±15度以上からの音の方向
を判断することができる。聴覚モジュールによる定位の
感度は、音源方向に依存し、正面方向が最良であり、0
度から30度までは誤差±5度以内であって、30度以
上ではより悪化する。これは、聴覚中心窩の正当性及び
音源に対向するように旋回するような動作の有効性を証
明するものである。
カルマンフィルタ無し及び(B)カルマンフィルタ有り
の場合のSN比を示している。これにより、アクティブ
方向通過型フィルタによるSN比は、カルマンフィルタ
に基づくストリーム形成によって、約1dB増大するこ
とが分かる。これは、カルマンフィルタがより良好なス
トリーム形成及び正確な音源方向を提供することを示し
ている。図11は、実験3の結果であって、(A)二話
者同時発話及び(B)三話者同時発話における音源分離
の結果をそれぞれ示している。すべてのフィルタリング
条件において、同様の傾向が示されている。1500H
z以下の周波数を使用するフィルタリング条件Aと、他
の条件との間の差は小さい。これは、IIDにより集め
られた1500Hz以上の周波数によるサブバンドがよ
り低いパワーを有しているからである。これは、拡張聴
覚エピポーラ幾何が、実環境においてもアクティブ方向
通過型フィルタにより音源を分離するために十分である
ことを証明している。指標R1 及びR3 は正面方向で最
良であり、周辺で悪化する。正面方向にて、ノイズ抑制
の有効性は三話者同時発話において約9dBである。し
かしながら、30度より接近した二話者同時発話の場合
の話者の分離は、困難である。信号損失は、図11
(A)においてR2 により2〜4dBである。聴覚信号
処理の二人の専門家によれば、最も明瞭なフィルタリン
グ条件はDである。分離された音の品質は、14チャン
ネルの線形マイクロホンアレーまたは16チャンネルの
円形マイクロホンアレーによる分離と同様に良好であ
る。聴取による評価は、アクティブ方向通過型フィルタ
が音源分離のために良好な性能を有していることを示し
ている。
て、条件Dが最良の音源分離の結果を示すことが分かっ
た。これは、二つのスピーカの場合の場合に、アクティ
ブ方向通過型フィルタ23aの効率が6乃至10dBで
あることを示している。HRTFに基づく条件Bによる
音源定位は、拡張聴覚エピポーラ幾何に基づく条件A,
Dによる音源定位より良好ではない。これは、実世界に
おける音源分離での拡張聴覚エピポーラ幾何の有効性を
示している。一般に、IIDにより集められる例えば1
200乃至1500Hz以上の周波数のサブバンドのパ
ワーが小さいことから、条件A,Dにおける音源定位の
差は小さい。しかしながら、自動音声認識がより高い周
波数のサブバンドからの情報を利用するので、自動音声
認識の場合の音声認識率の差は、より大きくなると期待
される。そこで、条件Cの場合には、ロボット10の両
耳部の間のベースラインの制限により、1500Hz以
上の最も多くのサブバンドが集められる。従って、音源
定位の改良はそれ程大きくはない。
10は、4DOF(自由度)を有するように構成されて
いるが、これに限らず、任意の動作を行なうように構成
されたロボットに本発明によるロボット聴覚システムを
組み込むことも可能である。また、上述した実施形態に
おいては、本発明によるロボット視聴覚システムを人型
ロボット10に組み込んだ場合について説明したが、こ
れに限らず、犬型等の各種動物型ロボットや、その他の
形式のロボットに組み込むことも可能であることは明ら
かであり、ここにロボットとは、広く産業用の自動制御
装置等を含む概念である。
上記聴覚モジュールが、アソシエーションモジュールか
らの正確な音源方向情報に基づいて、聴覚特性に従って
正面方向で最小となり且つ左右に角度が大きくなるにつ
れて大きくなるパスレンジを有するアクティブ方向通過
型フィルタにより、所定幅の範囲内の両耳間位相差(I
PD)または両耳間強度差(IID)をもったサブバン
ドを集めて、音源の波形を再構築することにより、音源
分離を行なうので、上述した聴覚特性に応じて、パスレ
ンジ即ち感度を調整することにより、方向による感度の
違いを考慮して、より正確に音源分離を行なうことがで
きる。上記聴覚モジュールが、拡張聴覚エピポーラ幾何
による音源定位に基づいて音源分離を行なう場合には、
アソシエーションモジュールからのアソシエーションス
トリームを参照して、頭部表面に沿った拡張聴覚エピポ
ーラ幾何により音源定位を行なうので、音源からロボッ
トの両耳部に設けられた左右のマイクへの実際の距離に
基づいて、聴覚エピポーラ幾何を応用することにより、
ロボットの外装形状を考慮して、より正確に聴覚エピポ
ーラ幾何による音源分離を行なうことができる。上記聴
覚モジュールが、ロボット固有の所定周波数を基準とし
て、当該所定周波数未満で拡張聴覚エピポーラ幾何によ
り、または全周波数帯域で頭部伝達関数(HRTF)に
より、または全周波数帯域で拡張聴覚エピポーラ幾何に
より、あるいは所定周波数未満で拡張聴覚エピポーラ幾
何により且つ所定周波数以上で頭部伝達関数により、そ
れぞれ得られる音源定位に基づいて音源分離を行なう場
合には、そのときの実環境に応じて、正確な音源分離を
行なうことができる。上記アソシエーションモジュール
が、各話者の方向を決定した後、カルマンフィルタを用
いてイベントを時間方向に接続することにより、聴覚ス
トリーム及び視覚ストリーム(顔ストリーム,ステレオ
ストリーム)を生成し、さらにこれらを関連付けてアソ
シエーションストリームを生成する場合には、カルマン
フィルタを使用することにより、より一層正確なストリ
ームを生成することができる。上記聴覚モジュール,顔
モジュール,ステレオモジュール,モータ制御モジュー
ル,アソシエーションモジュール及びアテンション制御
モジュールが、ネットワークを介して互いに接続されて
おり、特にデータ量の大きいイベントやストリームの通
信のために、比較的高速のネットワークが使用されてい
る場合には、大容量のデータを比較的高速のネットワー
クで伝送することにより、リアルタイム性及びスケーラ
ビリティを向上させることができる。これにより、本発
明によれば、目標に対する視覚及び聴覚の情報を統合し
て、目標の音源定位を正確に行なうようにした、極めて
優れたロボット視聴覚システムが提供される。
形態を組み込んだ人型ロボットの外観を示す正面図であ
る。
概略拡大図である。
ステムの電気的構成を示すブロック図である。
覚モジュールの作用を示す図である。
(A)拡張聴覚エピポーラ幾何を示す図及び(B)IP
Dと音源からの距離との関係を示すグラフである。
PDの計算結果を示すグラフである。
0度での(A)IPDの測定値・計算値を示すグラフ及
び(B)IIDの測定値・計算値を示すグラフである。
音源定位精度を示すグラフである。
るカルマンフィルタの有無によるS/N比を示すグラフ
である。
ける(A)二つの同時の話声及び(B)三つの同時の話
声の場合の音源分離の評価を示す図である。
験例による聴覚モジュールの条件A〜Dによる正面話者
抽出のS/N比改善を示すグラフである。
Claims (5)
- 【請求項1】 外部の音を集音する少なくとも一対のマ
イクを含む聴覚モジュールと、ロボットの前方を撮像す
るカメラを含む顔モジュールと、ステレオカメラにより
物体を抽出するステレオモジュールと、ロボットを水平
方向に回動させる駆動モータを含むモータ制御モジュー
ルと、上記聴覚モジュール,顔モジュール,ステレオモ
ジュール及びモータ制御モジュールからのイベントを統
合してストリームを生成するアソシエーションモジュー
ルと、アソシエーションモジュールにより生成されたス
トリームに基づいてアテンション制御を行なうアテンシ
ョン制御モジュールと、を備えていて、 上記聴覚モジュールが、マイクからの音響信号に基づい
て、ピッチ抽出,調波構造に基づいたグルーピングによ
る音源の分離及び定位から、少なくとも一人の話者の方
向を決定してその聴覚イベントを抽出し、 上記顔モジュールが、カメラにより撮像された画像に基
づいて、各話者の顔識別と定位から、各話者を同定して
その顔イベントを抽出し、 上記ステレオモジュールが、ステレオカメラにより撮像
された画像から抽出された視差に基づいて縦に長い物体
を抽出定位してステレオイベントを抽出し、 上記モータ制御モジュールが、駆動モータの回転位置に
基づいてモータイベントを抽出し、これにより、 上記アソシエーションモジュールが、聴覚イベント,顔
イベント,ステレオイベント及びモータイベントから、
聴覚イベントの音源定位及び顔イベントの顔定位並びに
ステレオイベントの物体定位の方向情報に基づいて各話
者の方向を決定し、カルマンフィルタを用いてイベント
を時間方向に接続することにより聴覚ストリーム,顔ス
トリーム及びステレオストリームを生成し、さらにこれ
らを関連付けてアソシエーションストリームを生成し
て、 上記アテンション制御モジュールが、これらのストリー
ムに基づいてアテンション制御とそれに伴う行動のプラ
ンニング結果に基づいて、モータの駆動制御を行なうロ
ボット視聴覚システムであって、 上記聴覚モジュールが、アソシエーションモジュールか
らの正確な音源方向情報に基づいて、聴覚特性に従って
正面方向で最小となり且つ左右に角度が大きくなるにつ
れて大きくなるパスレンジを有するアクティブ方向通過
型フィルタにより、所定幅の範囲内の両耳間位相差(I
PD)または両耳間強度差(IID)をもったサブバン
ドを集めて、音源の波形を再構築することにより音源分
離を行なうことを特徴とする、ロボット視聴覚システ
ム。 - 【請求項2】 前記聴覚モジュールが、拡張聴覚エピポ
ーラ幾何による音源定位に基づいて音源分離を行なうこ
とを特徴とする、請求項1に記載のロボット視聴覚シス
テム。 - 【請求項3】 前記聴覚モジュールが、ロボット固有の
所定周波数を基準として、当該所定周波数未満で拡張聴
覚エピポーラ幾何により、または全周波数帯域で頭部伝
達関数(HRTF)により、または全周波数帯域で拡張
聴覚エピポーラ幾何により、あるいは所定周波数未満で
拡張聴覚エピポーラ幾何により且つ所定周波数以上で頭
部伝達関数により、それぞれ得られる音源定位に基づい
て音源分離を行なうことを特徴とする、請求項2に記載
のロボット視聴覚システム。 - 【請求項4】 前記アソシエーションモジュールが、各
話者の方向を決定した後、カルマンフィルタを用いてイ
ベントを時間方向に接続することにより、聴覚ストリー
ム,顔ストリーム及びステレオストリームを生成し、さ
らにこれらを関連付けてアソシエーションストリームを
生成することを特徴とする、請求項1から3の何れかに
記載のロボット視聴覚システム。 - 【請求項5】 前記聴覚モジュール,顔モジュール,ス
テレオモジュール,モータ制御モジュール,アソシエー
ションモジュール及びアテンション制御モジュールが、
ネットワークを介して互いに接続されており、特にデー
タ量の大きいイベントやストリームの通信のために、比
較的高速のネットワークが使用されていることを特徴と
する、請求項1から4の何れかに記載のロボット視聴覚
システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002056670A JP3627058B2 (ja) | 2002-03-01 | 2002-03-01 | ロボット視聴覚システム |
US10/506,167 US7526361B2 (en) | 2002-03-01 | 2002-08-30 | Robotics visual and auditory system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002056670A JP3627058B2 (ja) | 2002-03-01 | 2002-03-01 | ロボット視聴覚システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003251583A true JP2003251583A (ja) | 2003-09-09 |
JP3627058B2 JP3627058B2 (ja) | 2005-03-09 |
Family
ID=28667119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002056670A Expired - Fee Related JP3627058B2 (ja) | 2002-03-01 | 2002-03-01 | ロボット視聴覚システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7526361B2 (ja) |
JP (1) | JP3627058B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005076660A1 (ja) * | 2004-02-10 | 2005-08-18 | Mitsubishi Denki Engineering Kabushiki Kaisha | 超指向性スピーカ搭載型移動体 |
WO2005076661A1 (ja) * | 2004-02-10 | 2005-08-18 | Mitsubishi Denki Engineering Kabushiki Kaisha | 超指向性スピーカ搭載型移動体 |
WO2007129731A1 (ja) * | 2006-05-10 | 2007-11-15 | Honda Motor Co., Ltd. | 音源追跡システム、方法、およびロボット |
JP2008005472A (ja) * | 2006-06-22 | 2008-01-10 | Honda Research Inst Europe Gmbh | 人工耳を有するロボットヘッド |
JP2015081824A (ja) * | 2013-10-22 | 2015-04-27 | 株式会社国際電気通信基礎技術研究所 | 放射音強度マップ作成システム、移動体および放射音強度マップ作成方法 |
JP2016192697A (ja) * | 2015-03-31 | 2016-11-10 | 株式会社熊谷組 | 音源方向推定装置 |
CN107534725A (zh) * | 2015-05-19 | 2018-01-02 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
JP2019095523A (ja) * | 2017-11-20 | 2019-06-20 | 富士ソフト株式会社 | ロボットおよびロボット制御方法 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4839838B2 (ja) * | 2003-12-12 | 2011-12-21 | 日本電気株式会社 | 情報処理システム、情報処理方法および情報処理用プログラム |
JP4271161B2 (ja) * | 2005-03-24 | 2009-06-03 | 株式会社東芝 | ロボット装置、ロボット装置の旋回方法、及び、プログラム |
US9101279B2 (en) | 2006-02-15 | 2015-08-11 | Virtual Video Reality By Ritchey, Llc | Mobile user borne brain activity data and surrounding environment data correlation system |
KR101041039B1 (ko) * | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
JP2012531145A (ja) * | 2009-06-26 | 2012-12-06 | リザード テクノロジー エイピーエス | マルチサウンドの入力を聴覚的に分離するdspベースの装置 |
US8706298B2 (en) * | 2010-03-17 | 2014-04-22 | Raytheon Company | Temporal tracking robot control system |
US20120183161A1 (en) * | 2010-09-03 | 2012-07-19 | Sony Ericsson Mobile Communications Ab | Determining individualized head-related transfer functions |
CN103562934B (zh) * | 2011-04-28 | 2017-05-10 | 皇家飞利浦有限公司 | 脸部位置检测 |
JP5685177B2 (ja) * | 2011-12-12 | 2015-03-18 | 本田技研工業株式会社 | 情報伝達システム |
KR102094347B1 (ko) * | 2013-07-29 | 2020-03-30 | 삼성전자주식회사 | 자동 청소 시스템, 청소 로봇 및 그 제어 방법 |
JP6221158B2 (ja) * | 2014-08-27 | 2017-11-01 | 本田技研工業株式会社 | 自律行動ロボット、及び自律行動ロボットの制御方法 |
US10452071B1 (en) | 2016-02-29 | 2019-10-22 | AI Incorporated | Obstacle recognition method for autonomous robots |
US10788836B2 (en) | 2016-02-29 | 2020-09-29 | AI Incorporated | Obstacle recognition method for autonomous robots |
US11927965B2 (en) | 2016-02-29 | 2024-03-12 | AI Incorporated | Obstacle recognition method for autonomous robots |
US11449061B2 (en) | 2016-02-29 | 2022-09-20 | AI Incorporated | Obstacle recognition method for autonomous robots |
DE112018007184T5 (de) * | 2018-02-28 | 2020-12-10 | Honda Motor Co., Ltd. | Steuervorrichtung, Arbeitsmaschine und Programm |
CN110223686A (zh) * | 2019-05-31 | 2019-09-10 | 联想(北京)有限公司 | 语音识别方法、语音识别装置和电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6442465B2 (en) * | 1992-05-05 | 2002-08-27 | Automotive Technologies International, Inc. | Vehicular component control systems and methods |
JPH08174154A (ja) | 1994-12-28 | 1996-07-09 | Toyota Motor Corp | 中子納め方法 |
JP3870491B2 (ja) | 1997-07-02 | 2007-01-17 | 松下電器産業株式会社 | 画像間対応検出方法およびその装置 |
JP2000326274A (ja) | 1999-05-24 | 2000-11-28 | Nec Corp | 自律行動ロボット |
JP3578027B2 (ja) | 1999-12-21 | 2004-10-20 | ヤマハ株式会社 | 携帯電話機 |
JP2001296343A (ja) * | 2000-04-11 | 2001-10-26 | Nec Corp | 音源方位設定装置及びそれを備えた撮像装置、送信システム |
KR100754385B1 (ko) * | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
US7211980B1 (en) * | 2006-07-05 | 2007-05-01 | Battelle Energy Alliance, Llc | Robotic follow system and method |
-
2002
- 2002-03-01 JP JP2002056670A patent/JP3627058B2/ja not_active Expired - Fee Related
- 2002-08-30 US US10/506,167 patent/US7526361B2/en not_active Expired - Fee Related
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005076661A1 (ja) * | 2004-02-10 | 2005-08-18 | Mitsubishi Denki Engineering Kabushiki Kaisha | 超指向性スピーカ搭載型移動体 |
JPWO2005076661A1 (ja) * | 2004-02-10 | 2008-01-10 | 三菱電機エンジニアリング株式会社 | 超指向性スピーカ搭載型移動体 |
US7424118B2 (en) | 2004-02-10 | 2008-09-09 | Honda Motor Co., Ltd. | Moving object equipped with ultra-directional speaker |
WO2005076660A1 (ja) * | 2004-02-10 | 2005-08-18 | Mitsubishi Denki Engineering Kabushiki Kaisha | 超指向性スピーカ搭載型移動体 |
US8155331B2 (en) | 2006-05-10 | 2012-04-10 | Honda Motor Co., Ltd. | Sound source tracking system, method and robot |
WO2007129731A1 (ja) * | 2006-05-10 | 2007-11-15 | Honda Motor Co., Ltd. | 音源追跡システム、方法、およびロボット |
JP5170440B2 (ja) * | 2006-05-10 | 2013-03-27 | 本田技研工業株式会社 | 音源追跡システム、方法、およびロボット |
JP4716291B2 (ja) * | 2006-06-22 | 2011-07-06 | ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハー | 人工耳を有するロボットヘッド |
JP2008005472A (ja) * | 2006-06-22 | 2008-01-10 | Honda Research Inst Europe Gmbh | 人工耳を有するロボットヘッド |
JP2015081824A (ja) * | 2013-10-22 | 2015-04-27 | 株式会社国際電気通信基礎技術研究所 | 放射音強度マップ作成システム、移動体および放射音強度マップ作成方法 |
JP2016192697A (ja) * | 2015-03-31 | 2016-11-10 | 株式会社熊谷組 | 音源方向推定装置 |
CN107534725A (zh) * | 2015-05-19 | 2018-01-02 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
JP2019095523A (ja) * | 2017-11-20 | 2019-06-20 | 富士ソフト株式会社 | ロボットおよびロボット制御方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060241808A1 (en) | 2006-10-26 |
US7526361B2 (en) | 2009-04-28 |
JP3627058B2 (ja) | 2005-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3627058B2 (ja) | ロボット視聴覚システム | |
CN106653041B (zh) | 音频信号处理设备、方法和电子设备 | |
Nakadai et al. | Active audition for humanoid | |
US6967455B2 (en) | Robot audiovisual system | |
EP1715717B1 (en) | Moving object equipped with ultra-directional speaker | |
Ishi et al. | Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments | |
JP3780516B2 (ja) | ロボット聴覚装置及びロボット聴覚システム | |
JP3632099B2 (ja) | ロボット視聴覚システム | |
Nguyen et al. | Autonomous sensorimotor learning for sound source localization by a humanoid robot | |
Nakadai et al. | Real-time tracking of multiple sound sources by integration of in-room and robot-embedded microphone arrays | |
JP3843740B2 (ja) | ロボット視聴覚システム | |
CN109286790B (zh) | 一种基于声源定位的定向监听系统及其监听方法 | |
JP3843743B2 (ja) | ロボット視聴覚システム | |
KR101678305B1 (ko) | 텔레프레즌스를 위한 하이브리드형 3d 마이크로폰 어레이 시스템 및 동작 방법 | |
JP3843741B2 (ja) | ロボット視聴覚システム | |
US9255982B2 (en) | Apparatus and method for the binaural reproduction of audio sonar signals | |
Reid et al. | Active stereo sound localization | |
Okuno et al. | Sound and visual tracking for humanoid robot | |
Keyrouz | Binaural range estimation using head related transfer functions | |
Nakadai et al. | Exploiting auditory fovea in humanoid-human interaction | |
Michaud et al. | SmartBelt: A wearable microphone array for sound source localization with haptic feedback | |
JP3843742B2 (ja) | ロボット視聴覚システム | |
Saggese et al. | A real-time system for audio source localization with cheap sensor device | |
Okuno et al. | Real-time sound source localization and separation based on active audio-visual integration | |
Nakadai et al. | Humanoid active audition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041119 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071217 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081217 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091217 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121217 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121217 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |