JP2003251583A - ロボット視聴覚システム - Google Patents

ロボット視聴覚システム

Info

Publication number
JP2003251583A
JP2003251583A JP2002056670A JP2002056670A JP2003251583A JP 2003251583 A JP2003251583 A JP 2003251583A JP 2002056670 A JP2002056670 A JP 2002056670A JP 2002056670 A JP2002056670 A JP 2002056670A JP 2003251583 A JP2003251583 A JP 2003251583A
Authority
JP
Japan
Prior art keywords
module
stream
face
event
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002056670A
Other languages
English (en)
Other versions
JP3627058B2 (ja
Inventor
Kazuhiro Nakadai
一博 中臺
Hiroshi Okuno
博 奥乃
Hiroaki Kitano
宏明 北野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Corp filed Critical Japan Science and Technology Corp
Priority to JP2002056670A priority Critical patent/JP3627058B2/ja
Priority to US10/506,167 priority patent/US7526361B2/en
Publication of JP2003251583A publication Critical patent/JP2003251583A/ja
Application granted granted Critical
Publication of JP3627058B2 publication Critical patent/JP3627058B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/22Source localisation; Inverse modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

(57)【要約】 【課題】 目標に対する視覚及び聴覚の情報を統合し
て、目標の音源定位を正確に行なうようにした、ロボッ
ト視聴覚システムを提供する。 【解決手段】 聴覚モジュール20,顔モジュール3
0,ステレオモジュール37,モータ制御モジュール4
0と、各モジュールを制御するアソシエーションモジュ
ール50とを備え、アソシエーションモジュールが、聴
覚モジュールからの聴覚イベント28,顔モジュールか
らの顔イベント39,ステレオモジュール37からのス
テレオイベント39a,モータ制御モジュールからのモ
ータイベント48から聴覚ストリーム55及び視覚スト
リーム56と、これらを関連付けたアソシエーションス
トリーム57を生成すると共に、聴覚モジュールが、ア
ソシエーションモジュールからの正確な音源方向情報に
基づいて、アクティブ方向通過型フィルタ23aによる
音源分離を行なうようにロボット視聴覚システム17を
構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はロボット、特に人型
または動物型ロボットにおける視聴覚システムに関する
ものである。
【0002】
【従来の技術】近年、このような人型または動物型ロボ
ットにおいては、視覚,聴覚の能動知覚が注目されてき
ている。能動知覚とは、ロボット視覚やロボット聴覚等
の知覚を担当する知覚装置を、知覚すべき目標に追従す
るように、これらの知覚装置を支持する例えば頭部を駆
動機構により姿勢制御するものである。
【0003】ここで、能動視覚に関しては、少なくとも
知覚装置であるカメラが、駆動機構による姿勢制御によ
ってその光軸方向が目標に向かって保持され、目標に対
して自動的にフォーカシングやズームイン,ズームアウ
ト等が行なわれることにより、目標がカメラによって撮
像されるようになっており、種々の研究が行なわれてい
る。
【0004】これに対して、能動聴覚に関しては、少な
くとも知覚装置であるマイクが、駆動機構による姿勢制
御によって、その指向性が目標に向かって保持され、目
標からの音がマイクによって集音される。このとき、能
動聴覚の不利な点として、駆動機構が作用している間
は、マイクが駆動機構の作動音を拾ってしまうため、目
標からの音に比較的大きなノイズが混入してしまい、目
標からの音を認識できなくなってしまうことがある。こ
のような能動聴覚の不利な点を排除するために、例えば
視覚情報を参照して音源の方向付けを行なうことによ
り、目標からの音を正確に認識する方法が採用されてい
る。
【0005】
【発明が解決しようとする課題】ところで、このような
能動聴覚においては、一般に、音源定位の際に、HRT
F(頭部伝達関数)から求められる両耳間位相差(IP
D)や両耳間強度差(IID)を利用して、音源定位を
行なうようにしている。しかしながら、上記HRTFを
利用した音源定位では、部屋の音響環境まで考慮する必
要があり、部屋の環境の変化が音源定位結果に大きく依
存してしまう。また、測定関数であるため測定点間の値
の補完が必要であるという問題もある。従って、実環境
アプリケーションには不向きである。
【0006】また、HRTFに依らず、視覚における所
謂エピポーラ幾何を応用した音源定位も考えられるが、
従来のエピポーラ幾何を応用した音源定位においては、
両耳と目標とを結ぶ三角形に基づいて音源定位を行なっ
ている。しかしながら、このようなエピポーラ幾何にお
ける三角形においては、頭部付近では、上記三角形の辺
が頭部を貫通することになるが、実際の目標からの音は
頭部を貫通せず、頭部表面に沿って伝達するため、正確
な音源定位を行なうことができなかった。
【0007】さらに、音源分離の際には、所謂方向通過
型フィルタを用いて、特定の方向のIPDと同じIPD
を有するサブバンドを選択する方法がある。しかしなが
ら、このような方向通過型フィルタにおいては、方向に
よる感度の違い及びアクティブな動作を考慮していない
ため、感度の良好な正面以外の音源定位の精度が低くな
ってしまうと共に、従来では測定関数であるHRTFを
利用している。従って、実環境及び環境の動的な変化に
対応することが困難であり、さらにアクティブな動作に
対してはHRTFの補間が必要になるという問題があっ
た。
【0008】この発明は、以上の点にかんがみて、目標
に対する視覚及び聴覚の情報を統合して、目標の音源分
離を正確に行なうロボット視聴覚システムを提供するこ
とを目的としている。
【0009】
【課題を解決するための手段】上記目的は、この発明に
よれば、外部の音を集音する少なくとも一対のマイクを
含む聴覚モジュールと、ロボットの前方を撮像するカメ
ラを含む顔モジュールと、ステレオカメラにより物体を
抽出するステレオモジュールと、ロボットを水平方向に
回動させる駆動モータを含むモータ制御モジュールと、
上記聴覚モジュール,顔モジュール,ステレオモジュー
ル及びモータ制御モジュールからのイベントを統合して
ストリームを生成するアソシエーションモジュールと、
アソシエーションモジュールにより生成されたストリー
ムに基づいてアテンション制御を行なうアテンション制
御モジュールと、を備えていて、上記聴覚モジュール
が、マイクからの音響信号に基づいて、ピッチ抽出,調
波構造に基づいたグルーピングによる音源の分離及び定
位から少なくとも一人の話者の方向を決定してその聴覚
イベントを抽出し、上記顔モジュールが、カメラにより
撮像された画像に基づいて、各話者の顔識別と定位から
各話者を同定してその顔イベントを抽出し、上記ステレ
オモジュールが、ステレオカメラにより撮像された画像
から抽出された視差に基づいて縦に長い物体を抽出定位
してステレオイベントを抽出し、上記モータ制御モジュ
ールが、駆動モータの回転位置に基づいてモータイベン
トを抽出し、これにより、上記アソシエーションモジュ
ールが、聴覚イベント,顔イベント,ステレオイベント
及びモータイベントから、聴覚イベントの音源定位及び
顔イベントの顔定位並びにステレオイベントの物体定位
の方向情報に基づいて各話者の方向を決定し、カルマン
フィルタを用いてイベントを時間方向に接続することに
より聴覚ストリーム,顔ストリーム及びステレオストリ
ームを生成し、さらにこれらを関連付けてアソシエーシ
ョンストリームを生成して、上記アテンション制御モジ
ュールが、これらのストリームに基づいてアテンション
制御と、それに伴う行動のプランニング結果に基づいて
モータの駆動制御を行なう、ロボット視聴覚システムで
あって、上記聴覚モジュールが、アソシエーションモジ
ュールからの正確な音源方向情報に基づいて、聴覚特性
に従って正面方向で最小となり且つ左右に角度が大きく
なるにつれて大きくなるパスレンジを有するアクティブ
方向通過型フィルタにより、所定幅の範囲内の両耳間位
相差(IPD)または両耳間強度差(IID)をもった
サブバンドを集めて音源の波形を再構築することにより
音源分離を行なうことを特徴とするロボット視聴覚シス
テムにより、達成される。
【0010】本発明によるロボット視聴覚システムは、
好ましくは、上記聴覚モジュールが、拡張聴覚エピポー
ラ幾何による音源定位に基づいて音源分離を行なう。
【0011】本発明によるロボット視聴覚システムは、
好ましくは、上記聴覚モジュールが、ロボット固有の所
定周波数を基準として、当該所定周波数未満で拡張聴覚
エピポーラ幾何により、または全周波数帯域で頭部伝達
関数(HRTF)により、または全周波数帯域で拡張聴
覚エピポーラ幾何により、あるいは所定周波数未満で拡
張聴覚エピポーラ幾何により且つ所定周波数以上で頭部
伝達関数により、それぞれ得られる音源定位に基づいて
音源分離を行なう。
【0012】本発明によるロボット視聴覚システムは、
好ましくは、上記アソシエーションモジュールが、各話
者の方向を決定した後、カルマンフィルタを用いてイベ
ントを時間方向に接続することにより聴覚ストリーム,
顔ストリーム及びステレオストリームを生成し、さらに
これらを関連付けてアソシエーションストリームを生成
する。
【0013】本発明によるロボット視聴覚システムは、
好ましくは、上記聴覚モジュール,顔モジュール,ステ
レオモジュール,モータ制御モジュール,アソシエーシ
ョンモジュール及びアテンション制御モジュールが、ネ
ットワークを介して互いに接続されており、特にデータ
量の大きいイベントやストリームの通信のために、比較
的高速のネットワークが使用されている。
【0014】上記構成によれば、聴覚モジュールが、マ
イクが集音した外部の目標からの音から、調波構造を利
用してピッチ抽出を行なうことにより音源毎の方向を得
て、個々の話者の方向を決定してその聴覚イベントを抽
出する。また、顔モジュールが、カメラにより撮像され
た画像から、パターン認識による各話者の顔識別と定位
から各話者を同定して、個々の話者の顔イベントを抽出
する。そして、ステレオモジュールが、ステレオカメラ
により撮像された画像から抽出された視差に基づいて縦
に長い物体を抽出定位してステレオイベントを抽出す
る。さらに、モータ制御モジュールが、ロボットを水平
方向に回動させる駆動モータの回転位置に基づいて、ロ
ボットの方向を検出することによってモータイベントを
抽出する。なお、上記イベントとは、各時点において検
出される音または顔が在ること、あるいは駆動モータが
回転される状態を示しており、ストリームとは、エラー
訂正処理を行ないながら、例えばカルマンフィルタ等に
より時間的に連続するように接続したイベントを示して
いる。また、本明細書で用いることがある「視覚モジュ
ール」「視覚ストリーム」の語は、顔モジュール,顔ス
トリーム及びステレオモジュール,ステレオストリーム
を包含する概念である。
【0015】ここで、アソシエーションモジュールは、
このようにしてそれぞれ抽出された聴覚イベント,顔イ
ベント,ステレオイベント及びモータイベントに基づい
て、聴覚イベントの音源定位及び顔イベントの顔定位並
びにステレオイベントの物体定位の方向情報によって各
話者の方向を決定することにより、各話者の聴覚ストリ
ーム,顔ストリーム及びステレオストリーム(視覚スト
リーム)を生成し、さらにこれらのストリームを関連付
けてアソシエーションストリームを生成する。この際、
アソシエーションモジュールは、聴覚イベントの音源定
位及び顔イベントの顔定位並びにステレオイベントの物
体定位、即ち聴覚及び視覚の方向情報に基づいて各話者
の方向を決定し、決定された各話者の方向を参考にして
アソシエーションストリームを生成することになる。そ
して、アテンション制御モジュールが、これらのストリ
ームに基づいてアテンション制御と、それに伴う行動の
プランニング結果に基づいてモータの駆動制御を行な
う。アテンションとは、ロボットが目標である話者を、
聴覚的及び/又は視覚的に「注目」することであり、ア
ンテンション制御とは、モータ制御モジュールによりそ
の向きを変えることにより、ロボットが上記話者に注目
するようにすることである。
【0016】そして、アテンション制御モジュールは、
このプランニングに基づいて、モータ制御モジュールの
駆動モータを制御することにより、ロボットの方向を目
標である話者に向ける。これにより、ロボットが目標で
ある話者に対して正対することにより、聴覚モジュール
が当該話者の声を、感度の高い正面方向にてマイクによ
り正確に集音,定位することができると共に、顔モジュ
ールが当該話者の画像をカメラにより良好に撮像するこ
とができるようになる。
【0017】従って、このような聴覚モジュール,視覚
モジュール(顔モジュール及びステレオモジュール)及
びモータ制御モジュールと、アソシエーションモジュー
ル及びアテンション制御モジュールとの連携によって、
聴覚ストリームの音源定位及び視覚ストリーム(顔スト
リーム及びステレオストリーム)の話者定位という方向
情報に基づいて各話者の方向を決定することにより、ロ
ボットの聴覚及び視覚がそれぞれ有する曖昧性が互いに
補完されることになり、所謂ロバスト性が向上し、複数
の話者であっても、各話者をそれぞれ確実に知覚するこ
とができる。また、例えば聴覚ストリームまたは視覚ス
トリーム(顔ストリームとステレオストリーム)の何れ
か一方が欠落したときであっても、残りの視覚ストリー
ム(顔又はステレオストリーム)または聴覚ストリーム
のみに基づいて、目標である話者をアテンション制御モ
ジュールが追跡することができるので、正確に目標の方
向を把握して、モータ制御モジュールの制御を行なうこ
とができる。
【0018】ここで、聴覚モジュールが、アソシエーシ
ョンモジュールからのアソシエーションストリームを参
照することにより、顔モジュール及びステレオモジュー
ルからの顔ストリーム及びステレオストリームをも考慮
して音源定位を行なうことによって、より一層正確な音
源定位を行なうことができる。そして、上記聴覚モジュ
ールが、アソシエーションモジュールからの正確な音源
方向情報に基づいて、聴覚特性に従って正面方向で最小
となり且つ左右に角度が大きくなるにつれて大きくなる
パスレンジを有するアクティブ方向通過型フィルタによ
り、所定幅の範囲内の両耳間位相差(IPD)または両
耳間強度差(IID)をもったサブバンドを集めて、音
源の波形を再構築することにより音源分離を行なうの
で、上述した聴覚特性に応じてパスレンジ即ち感度を調
整することにより、方向による感度の違いを考慮してよ
り正確に音源分離を行なうことができる。
【0019】上記聴覚モジュールが、拡張聴覚エピポー
ラ幾何による音源定位に基づいて音源分離を行なう場合
には、アソシエーションモジュールからのアソシエーシ
ョンストリームを参照して、頭部表面に沿った拡張聴覚
エピポーラ幾何により音源定位を行なうので、音源から
ロボットの両耳部に設けられた左右のマイクへの実際の
距離に基づいて、聴覚エピポーラ幾何を応用することに
より、ロボットの外装形状を考慮して、より正確に聴覚
エピポーラ幾何による音源分離を行なうことができる。
【0020】上記聴覚モジュールが、ロボット固有の所
定周波数を基準として、当該所定周波数未満で拡張聴覚
エピポーラ幾何により、または全周波数帯域で頭部伝達
関数(HRTF)により、または全周波数帯域で拡張聴
覚エピポーラ幾何により、あるいは所定周波数未満で拡
張聴覚エピポーラ幾何により且つ所定周波数以上で頭部
伝達関数により、それぞれ得られる音源定位に基づいて
音源分離を行なう場合には、そのときの実環境に応じ
て、正確な音源分離を行なうことができる。
【0021】上記アソシエーションモジュールが、各話
者の方向を決定した後、カルマンフィルタを用いてイベ
ントを時間方向に接続することにより聴覚ストリーム及
び視覚ストリーム、即ち、顔ストリーム及びステレオス
トリームを生成し、さらにこれらを関連付けてアソシエ
ーションストリームを生成する場合には、カルマンフィ
ルタを使用することにより、より一層正確なストリーム
を生成することができる。
【0022】上記聴覚モジュール,顔モジュール,ステ
レオモジュール,モータ制御モジュール,アソシエーシ
ョンモジュール及びアテンション制御モジュールが、ネ
ットワークを介して互いに接続されており、特にデータ
量の大きいイベントやストリームの通信のために、比較
的高速のネットワークが使用されている場合には、大容
量のデータを比較的高速のネットワークで伝送すること
により、リアルタイム性及びスケーラビリティを向上さ
せることができる。
【0023】
【発明の実施の形態】以下、図面に示した実施形態に基
づいて、この発明を詳細に説明する。図1乃至図2はこ
の発明によるロボット視聴覚システムの一実施形態を備
えた実験用の人型ロボットの全体構成を示している。図
1において、人型ロボット10は4DOF(自由度)の
ロボットとして構成されており、ベース11と、ベース
11上にて一軸(垂直軸)周りに回動可能に支持された
胴体部12と、胴体部12上にて三軸方向(垂直軸,左
右方向の水平軸及び前後方向の水平軸)の周りに揺動可
能に支持された頭部13と、を含んでいる。
【0024】上記ベース11は固定配置されていてもよ
く、脚部として動作可能としてもよい。また、ベース1
1は、移動可能な台車等の上に載置されていてもよい。
上記胴体部12は、ベース11に対して垂直軸の周り
に、図1にて矢印Aで示すように回動可能に支持されて
おり、図示しない駆動手段によって回転駆動されると共
に、図示の場合、防音性の外装によって覆われている。
【0025】上記頭部13は胴体部12に対して連結部
材13aを介して支持されており、この連結部材13a
に対して前後方向の水平軸の周りに、図1にて矢印Bで
示すように揺動可能に、また左右方向の水平軸の周り
に、図2にて矢印Cで示すように揺動可能に支持されて
いると共に、上記連結部材13aが、胴体部12に対し
てさらに前後方向の水平軸の周りに、図1にて矢印Dで
示すように揺動可能に支持されており、それぞれ図示し
ない駆動手段によって、各矢印A,B,C,D方向に回
転駆動される。
【0026】ここで、上記頭部13は、図3に示すよう
に全体が防音性の外装14で覆われていると共に、前側
にロボット視覚を担当する視覚装置としてのカメラ15
を、また両側にロボット聴覚を担当する聴覚装置として
の一対のマイク16(16a,16b)を備えている。
なお、マイク16は、頭部13の両側に限定されること
なく、頭部13の他の位置あるいは胴体部12等に設け
られていてもよい。
【0027】上記外装14は、例えばウレタン樹脂等の
吸音性の合成樹脂から構成されており、頭部13の内部
をほぼ完全に密閉することにより、頭部13の内部の遮
音を行なうように構成されている。なお、胴体部12の
外装も、同様にして吸音性の合成樹脂から構成されてい
る。上記カメラ15は公知の構成であって、例えば所謂
パン,チルト,ズームの3DOF(自由度)を有する市
販のカメラが適用され得る。なお、上記カメラ15は、
同期をとってステレオ画像を送ることができるように設
計されている。
【0028】上記マイク16は、それぞれ頭部13の側
面において、前方に向かって指向性を有するように取り
付けられている。ここで、マイク16の左右の各マイク
16a,16bは、それぞれ図1及び図2に示すよう
に、外装14の両側にて前方に向いた段部14a,14
bにて内側に取り付けられ、段部14a,14bに設け
られた貫通穴を通して前方の音を集音すると共に、外装
14の内部の音を拾わないように適宜の手段により遮音
されている。これにより、各マイク16a,16bは、
所謂バイノーラルマイクとして構成されている。なお、
マイク16a,16bの取付位置の近傍において、外装
14は人間の外耳形状に形成されていてもよい。
【0029】図4は、上記カメラ15及びマイク16を
含むロボット視聴覚の電気的構成を示している。図4に
おいて、ロボット視聴覚システム17は、聴覚モジュー
ル20,視覚モジュール、即ち、顔モジュール30とス
テレオモジュール37,モータ制御モジュール40及び
アソシエーションモジュール50から構成されている。
ここで、アソシエーションモジュール50はサーバから
構成されていると共に、他のモジュール、即ち聴覚モジ
ュール20,顔モジュール30,ステレオモジュール3
7,モータ制御モジュール40は、それぞれクライアン
トから構成されており、互いに非同期で動作する。
【0030】なお、上記サーバ及び各クライアントは、
例えばパーソナルコンピュータにより構成されており、
例えば100Base−T等のネットワーク(図示せ
ず)を介して、例えばTCP/IPプロトコルにより、
相互にLAN接続されている。この場合、好ましくは、
データ量の大きいイベントやストリームの通信のために
は、高速ネットワークが、また時刻の同期等の制御用通
信のためには、中速ネットワークが、それぞれ区別して
使用される。これにより、ロボット全体のリアルタイム
性及びスケーラビリティを向上させるようにしている。
また、各モジュール20,30,37,40,50は、
それぞれ階層的に分散して、具体的には下位から順次に
デバイス層,プロセス層,特徴層,イベント層から構成
されている。
【0031】上記聴覚モジュール20は、デバイス層と
してのマイク16と、プロセス層としてのピーク抽出部
21,音源定位部22,音源分離部23及びアクティブ
方向通過型フィルタ23aと、特徴層(データ)として
のピッチ24,音源水平方向25と、イベント層として
の聴覚イベント生成部26と、から構成されている。
【0032】ここで、聴覚モジュール20は、図5に示
すように作用する。即ち、図5において、聴覚モジュー
ル20は、例えば48kHz,16ビットでサンプリン
グされたマイク16からの音響信号を、符号X1で示す
ようにDFTにより周波数解析して、符号X2で示すよ
うに左右のチャンネル毎にスペクトルを生成する。そし
て、聴覚モジュール20は、ピーク抽出部21により左
右のチャンネル毎に一連のピークを抽出して、左右のチ
ャンネルで同じか類似のピークをペアとする。ここで、
ピーク抽出は、パワーがしきい値以上で且つローカルピ
ークであって、低周波ノイズとパワーの小さい高周波帯
域をカットするため例えば90Hz乃至3kHzの間の
周波数であるという条件のデータのみを透過させる帯域
フィルタを使用することにより行なわれる。このしきい
値は、周囲の暗騒音を計測して、さらに感度パラメー
タ、例えば10dBを加えた値として定義される。
【0033】そして、聴覚モジュール20は、各ピーク
が調波構造を有していることを利用して、周波数が低い
方から順に、調波構造を有するローカルピークを抽出し
て、抽出されたピークの集合を一つの音として、音源分
離部23により各音源からの混合音から音源毎の音響信
号を分離する。
【0034】その際、聴覚モジュール20の音源定位部
22は、符号X3で示すように、各音源毎の音響信号に
ついて、左右のチャンネルから同じ周波数の音響信号を
選択して、例えば5度毎にIPD(両耳間位相差)及び
IID(両耳間強度差)を計算し、アクティブ方向通過
型フィルタ23aに出力する。
【0035】これに対して、アクティブ方向通過型フィ
ルタ23aは、アソシエーションモジュール50におけ
る顔定位及びステレオ視覚そして音源定位に基づくリア
ルタイムトラッキング(後述)によるアソシエーション
ストリーム59の方向に基づいて、以下に詳細に説明す
る拡張聴覚エピポーラ幾何を利用して、ロボット10の
正面を0度として±90度の範囲で、符号X4で示すよ
うに、IPDの理論値IPD(=ΔφE (θ))を生成
すると共に、IIDの理論値IID(=ΔρE(θ))
を計算する。
【0036】ここで、上記拡張聴覚エピポーラ幾何につ
いて説明する。聴覚エピポーラ幾何は、HRTFを使用
せずに音源の方向情報を得るために必要である。ステレ
オ視覚研究においては、エピポーラ幾何が、最も一般的
な定位法の一つであり、聴覚エピポーラ幾何は、視覚に
おけるエピポーラ幾何の聴覚への応用である。そして、
聴覚エピポーラ幾何が幾何学的関係を利用して方向情報
を得るので、HRTFを不要にすることができるのであ
る。
【0037】しかしながら、従来の聴覚エピポーラ幾何
においては、外装14の影響や、ロボット10と部屋の
反響のような実世界の環境の影響がある。外装14の影
響に関しては、実際のロボットの頭部の両側にマイク1
6a,16bを設けた場合、図6(A)に示すように、
例えば音源が右手前方に在ると、左側のマイク16aと
音源Pとを結ぶ線分Qは、頭部13内を貫通することに
なるが、実際には音源からの音は頭部13の外装14の
表面に沿って進んで左側のマイク16aに達する。従っ
て、このような場合には、上記聴覚エピポーラ幾何は適
用できない。
【0038】そこで、本実施形態においては、より正確
な方向情報を得るために、本発明による拡張聴覚エピポ
ーラ幾何を利用している。拡張聴覚エピポーラ幾何は、
以下のように作用する。即ち、先ず、FFT(高速フー
リエ変換)により得られた一対のスペクトルから、各サ
ブバンドに対するIPDを計算する。そして、頭部13
の形状を考慮して、図6(A)に示すように、頭部13
中心から音源Pまでの距離をl、頭部の半径をrとす
る。そして、音源Pから左右のマイク16a,16bま
での距離差をD、IPDをΔψ、音の周波数をf、音速
をv(以下、音速vは、計算を簡略化するために、例え
ば340m/秒に固定し、温度や湿度で変化しないもの
とする)とすると、以下の方程式
【数1】 が得られる。
【0039】ここで、Dの定義にて、ロボットの外装1
4の影響が考慮されるべきである。外装14のために、
音は、一方の耳には直接に到達し得る。例えば図6
(A)において、音源Pから左のマイク16aへの音の
通路が真っ直ではないので、音は外装14の表面に沿っ
て進行しなければならない。従って、外装14の形状を
考慮することにより、聴覚エピポーラ幾何の方程式を調
整すればよい。これにより、聴覚エピポーラ幾何の方程
式は、
【数2】
【数3】
【数4】 となる。
【0040】このようにして、Dは、θ及びlの関数と
して定義される。図6(B)のグラフは、シミュレーシ
ョンによって得られたD,θ及びlの関係を示してい
る。これにより、θが大きくなるにつれて、lの影響が
大きくなることが分かる。しかしながら、lが50cm
以上になると、lの影響は無視できる。このような場
合、Dは、lが無限であるとして、θのみの関数とし
て、以下の式、
【数5】 により定義される。
【0041】ここで、音源が視覚エピポーラ幾何により
定位されるときには、視覚及び聴覚におけるベースライ
ンは平行であるので、Dは容易にθに変換され得る。こ
れは、方向の表現が視覚及び聴覚情報を統合するための
糸口として使用されることを意味している。
【0042】また、アクティブ方向通過型フィルタ23
aは、前述した実世界の環境の影響によって、以下の三
つの大きな因子に依存することになる。 1. 音源から左右の耳部への距離の差 2. ロボット本体と頭部の反響 3. 部屋の反響 ここで、これらの因子による実世界での影響を調べるた
めに、無響室にて正中面から左右に±90度の範囲で1
0度毎にパルス応答を測定し、拡張エピポーラ幾何によ
るシミュレーションとの比較を行なったところ、図7に
示す結果が得られた。即ち、図7(a)は、カバーのな
いステレオマイクを使用した音響測定結果であり、カバ
ーの影響を考慮する必要はない。ここで、AEGで示す
細線は、従来の聴覚エピポーラ幾何により推測されたI
PDを示し、測定結果と良好に合っていることが分か
る。これにより、聴覚エピポーラ幾何の原理が正しいこ
とが分かる。
【0043】これに対して、図7(b)は、無響室にお
けるロボットのIPD測定値と聴覚エピポーラ幾何によ
り推測されたIPDを示している。この場合、聴覚エピ
ポーラ幾何による推測は、300Hz以上の周波数では
対応するデータと合っていない。この不一致は、ロボッ
ト本体と頭部の反響により引き起こされている。また、
図7(c)は、無響室におけるロボットのIPD測定値
と拡張聴覚エピポーラ幾何により推測されたIPDを示
している。この場合、推測されたIPDは、図7(b)
の場合よりも良好に推測されている。これは、カバーの
影響による不一致の問題が拡張聴覚エピポーラ幾何によ
り克服されたことを示している。さらに、図7(d)
は、非無響室における測定結果を示している。この部屋
は、10m2 で、音吸収材が壁面,天井及び床面に取り
付けられている。この場合、測定されたIPDは、部屋
の音響効果により歪められており、IPDの範囲がベー
スラインに対して±πを越えていることから、1200
Hz以上の周波数にて拡張聴覚エピポーラ幾何が良好に
作用していないことが分かる。
【0044】次に、SYSNOISE(LMS Int
ernational社のソフトウェア)を利用したB
EM(Boundary Element Metho
d)により部屋の反響の影響を解析する。図8は、30
度におけるIPD及びIIDを示している。ここで、S
YSNOISE(床なし)で示すIPD及びIIDは、
ロボット頭部の三次元メッシュデータを使用して計算さ
れており、300及び400Hzの間にピークを有して
いる。これらのピークは、ロボット頭部により引き起こ
されている。ロボットにより測定されたIPD及びII
Dもカバーにより300及び400Hzの間にピークを
有している。また、SYSNOISE(床あり)で示す
IPD及びIIDは、ロボットの下方1mの距離に床面
がある条件のもとで計算されており、より多くのピーク
を有している。従って、単純な床面でさえ、IPD及び
IIDのうねりを引き起こすので、音源定位のためには
音響的環境の考慮が必要である。
【0045】また、アクティブ方向通過型フィルタ23
aは、同様にして上記ストリーム方向に基づいて、頭部
伝達関数(HRTF)を利用して、ロボット10の正面
を0度として±90度の範囲で、符号X5で示すよう
に、IPD及びIIDの理論値IPD(=Δφ
H (θ))及びIID(=ΔρH (θ))を生成する。
【0046】さらに、アクティブ方向通過型フィルタ2
3aは、符号X7で示すように、前記ストリーム方向か
ら、パスレンジ関数を利用して、パスレンジδ(θ)を
計算する。ここで、パスレンジ関数は、図5に示すよう
に、ロボットの正面方向(θ=0度)で、感度が最大と
なり、側方で感度が低下することから、θ=0度で最小
値をとり、側方でより大きくなるような関数である。こ
れは、正面方向で定位の感度が最大になり、左右に角度
が大きくなるにつれて感度が低下するという聴覚特性を
再現するためのものである。なお、正面方向で定位の感
度が最大になることは、哺乳類の目の構造に見られる中
心窩にならって聴覚中心窩と呼ぶ。この聴覚中心窩に関
して、人間の場合には、正面の定位の感度が±2度程度
であり、左右90度付近にて±8度程度とされている。
【0047】このため、アクティブ方向通過型フィルタ
23aは、拡張聴覚エピポーラ幾何による各サブバンド
毎に計算されたIPD(=ΔφE (θ))及びIID
(=ΔρE (θ))と、HRTFにより得られたIPD
(=ΔφH (θ))及びIID(=ΔρH (θ))に基
づいて、前述したパスレンジδ(θ)により決定される
角度θ−δ(θ)(以下、θL という)からθ+δ
(θ)(以下、θH という)の角度範囲で、抽出された
IPD(=Δφ’)及びIID(=Δρ’)が以下の条
件のうち何れかを満たすようなサブバンドを集める。こ
こで、所定周波数fthは、IPDによる定位が有効であ
る周波数の上限であり、ロボット10の頭部14のベー
スラインに依存し、例えば1200乃至1500Hz程
度である。
【0048】即ち、 条件A. f<fth: ΔφE (θL )≦Δφ’≦Δ
φE (θH ) これは、所定周波数fth未満の周波数で、拡張聴覚エピ
ポーラ幾何によるIPDのパスレンジδ(θ)の範囲内
にIPD(=Δφ’)が在る場合に、サブバンドを集め
ることを意味している。 条件B. f<fth: ΔφH (θL )≦Δφ’≦Δ
φH (θH ) 且つ f≧fth: ΔρH (θL )≦ρφ’≦Δρ
H (θH ) これは、所定周波数fth未満の周波数で、HRTFによ
るIPDのパスレンジδ(θ)の範囲内にIPD(=Δ
φ’)が在る場合、そして所定周波数fth以上の周波数
で、HRTFによるIIDのパスレンジδ(θ)の範囲
内にIID(=Δρ’)が在る場合に、サブバンドを集
めることを意味している。 条件C. 全周波数f: ΔφE (θL )≦Δφ’≦
ΔφE (θH ) これは、すべての周波数で、拡張聴覚エピポーラ幾何に
よるIPDのパスレンジδ(θ)の範囲内にIPD(=
Δφ’)が在る場合に、サブバンドを集めることを意味
している。 条件D. f<fth: ΔφE (θL )≦Δφ’≦Δ
φE (θH ) 且つ f≧fth: ΔρE (θL )≦ρφ’≦Δρ
H (θH ) これは、所定周波数fth未満の周波数で、拡張聴覚エピ
ポーラ幾何によるIPDのパスレンジδ(θ)の範囲内
にIPD(=Δφ’)が在る場合、そして、所定周波数
th以上の周波数で、HRTFによるIIDのパスレン
ジδ(θ)の範囲内にIID(=Δρ’)が在る場合
に、サブバンドを集めることを意味している。
【0049】そして、アクティブ方向通過型フィルタ2
3aは、このようにして集めたサブバンドから波形を構
築することにより、符号X8で示すように、パス−サブ
バンド方向を生成し、符号X9で示すように、各サブバ
ンド毎に、フィルタリングを行なって、逆周波数変換I
DFTにより、符号X10で示すように、各音源からの
聴覚イベントを抽出する。
【0050】このようにして、聴覚モジュール20は、
マイク16からの音響信号に基づいて、ピッチ抽出,音
源の分離及び定位から、少なくとも一人の話者を特定
(話者同定)して、その聴覚イベントを抽出し、ネット
ワークを介してアソシエーションモジュール50に対し
て送信するようになっている。
【0051】上記顔モジュール30は、デバイス層とし
てのカメラ15と、プロセス層としての顔発見部31,
顔識別部32,顔定位部33と、特徴層(データ)とし
ての顔ID34,顔方向35と、イベント層としての顔
イベント生成部36と、から構成されている。
【0052】これにより、顔モジュール30は、カメラ
15からの画像信号に基づいて、顔発見部31により例
えば肌色抽出により各話者の顔を検出し、顔識別部32
にて前もって登録されている顔データベース38により
検索して、一致した顔があった場合、その顔ID34を
決定して当該顔を識別すると共に、顔定位部33により
当該顔方向35を決定(定位)する。ここで、顔モジュ
ール30は、顔発見部31が画像信号から複数の顔を見
つけた場合、各顔について上記処理、即ち識別及び定位
そして追跡を行なう。その際、顔発見部31により検出
された顔の大きさ,方向及び明るさがしばしば変化する
ので、顔発見部31は、顔領域検出を行なって、肌色抽
出と相関演算に基づくパターンマッチングの組合せによ
って、200m秒以内に複数の顔を正確に検出できるよ
うになっている。
【0053】顔定位部33は、二次元の画像平面におけ
る顔位置を三次元空間に変換し、三次元空間における顔
位置を、方位角θ,高さφ及び距離rのセットとして得
る。
【0054】そして、顔モジュール30は、各顔毎に、
顔ID(名前)34及び顔方向35から、顔イベント生
成部36により顔イベント39を生成して、ネットワー
クを介してアソシエーションモジュール50に対して送
信するようになっている。
【0055】上記ステレオモジュール37は、デバイス
層としてのカメラ15と、プロセス層としての視差画像
生成部37a,目標抽出部37bと、特徴層(データ)
としての目標方向37cと、イベント層としてのステレ
オイベント生成部37dと、から構成されている。これ
により、ステレオモジュール37は、カメラ15からの
画像信号に基づいて、視差画像生成部37aにより双方
のカメラ15の画像信号から視差画像を生成し、視差画
像を領域分割した結果、縦に長い物体が発見されれば、
人物候補として抽出し、その方向を同定し、ステレオイ
ベントを生成し、ネットワークを介してアソシエーショ
ンモジュール50に対して送信するようになっている。
【0056】上記モータ制御モジュール40は、デバイ
ス層としてのモータ41及びポテンショメータ42と、
プロセス層としてのPWM制御回路43,AD変換回路
44及びモータ制御部45と、特徴層としてのロボット
方向46と、イベント層としてのモータイベント生成部
47と、から構成されている。
【0057】これにより、モータ制御モジュール40
は、アテンション制御モジュール57(後述)からの指
令に基づいてモータ制御部45によりPWM制御回路4
3を介してモータ41を駆動制御すると共に、モータ4
1の回転位置をポテンショメータ42により検出して、
AD変換回路44を介してモータ制御部45によりロボ
ット方向46を抽出し、モータイベント生成部47によ
りモータ方向情報から成るモータイベント48を生成し
て、ネットワークを介してアソシエーションモジュール
50に対して送信するようになっている。
【0058】上記アソシエーションモジュール50は、
上述した聴覚モジュール20,顔モジュール30,ステ
レオモジュール37,モータ制御モジュール40に対し
て、階層的に上位に位置付けられており、各モジュール
20,30,37,40のイベント層の上位であるスト
リーム層を構成している。具体的には、上記アソシエー
ションモジュール50は、聴覚モジュール20,顔モジ
ュール30,ステレオモジュール37及びモータ制御モ
ジュール40からの非同期イベント51、即ち聴覚イベ
ント28,顔イベント39,ステレオイベント39a及
びモータイベント48を同期させて聴覚ストリーム5
3,顔ストリーム54,ステレオ視覚ストリーム55を
生成する絶対座標変換部52と、各ストリーム53,5
4,55を関連付けてアソシエーションストリームを生
成し、あるいはこれらの関連付けを解除する関連付け部
56と、さらにアテンション制御モジュール57と、ビ
ューア58を備えている。
【0059】上記絶対座標変換部52は、聴覚モジュー
ル20からの聴覚イベント28,顔モジュール30から
の顔イベント39,ステレオモジュール37からのステ
レオイベント39aに、モータ制御モジュール40から
のモータイベント48を同期させると共に、聴覚イベン
ト28,顔イベント39及びステレオイベント39aに
関して、同期させたモータイベントによって、の座標系
を絶対座標系に変換することにより、聴覚ストリーム5
3,顔ストリーム54及びステレオ視覚ストリーム55
を生成する。その際、上記絶対座標変換部52は、同一
話者の聴覚ストリーム,顔ストリーム及びステレオ視覚
ストリームに接続することによって、聴覚ストリーム5
3,顔ストリーム54及びステレオ視覚ストリーム55
を生成する。
【0060】また、関連付け部56は、聴覚ストリーム
53,顔ストリーム54,ステレオ視覚ストリーム55
に基づいて、これらのストリーム53,54,55の時
間的つながりを考慮してストリームを関連付け、あるい
は関連付けを解除して、アソシエーションストリーム5
9を生成すると共に、逆にアソシエーションストリーム
59を構成する聴覚ストリーム53,顔ストリーム54
及びステレオ視覚ストリーム55の結び付きが弱くなれ
ば、関係付けを解除するようになっている。これによ
り、目標となる話者が移動している場合であっても、当
該話者の移動を予測してその移動範囲となる角度範囲内
であれば、上述したストリーム53,54,55の生成
を行なうことによって、当該話者の移動を予測して追跡
できることになる。
【0061】ここで、上記ストリームの形成及び関連付
けは、具体的には以下のようにして行なわれる。前述し
たように座標変換された各イベントは、カルマンフィル
タに基づくアルゴリズムを使用してストリームに接続さ
れる。ここで、カルマンフィルタは、特により大きな曖
昧さを有する聴覚プロセスにおける定位でのプロセス及
び測定ノイズの影響を低減するために有効である。
【0062】カルマンフィルタに基づくストリーム生成
において、大きさNの位置ベクトルpは、lを平均速度
のパラメータとして、以下の式
【数6】 により定義される再帰方程式によって、近似される。x
k 及びyk が(pk ,pk-1 ,・・・,pk-l )として
表わされる状態ベクトルであって、それぞれ位置ベクト
ルとして表わされた測定値であるとき、プロセスの状態
及び測定値を予測する関数は、以下の式
【数7】 により定義される。ここで、wk 及びvk がそれぞれプ
ロセス及び測定ノイズを表わすとき、IN がN×Nの大
きさの単位行列であるとすると、F,G及びHは以下の
ように定義される。
【数8】
【0063】従って、カルマンフィルタは、それぞれ
【数9】 をxの予測値、Kk をカルマンゲイン、Pを誤差共分散
行列、σw 2 及びσv 2をwk 及びvk の変動共分散行
列とすると、以下の式
【数10】
【数11】
【数12】 によって定義される。現在位置ベクトルは、
【数13】 により予測される。
【0064】聴覚ストリーム53の生成において、聴覚
ストリーム53及び聴覚イベント28が調和関係を有
し、当該ストリーム53及び聴覚イベント28のyk
間の方位角の差が±10度以内であるとき、これらは接
続される。また、顔ストリーム54及びステレオストリ
ーム55の生成において、ストリームとイベントのyk
の間の距離差が40cm以内であって、それらが同じイ
ベントIDを有するとき、顔イベントまたはステレオイ
ベントが顔ストリームまたはステレオストリームに接続
される。尚、イベントIDとは、顔モジュール30で生
成される顔ID34または目標IDである。そして、同
一人物からの複数のストリームと判断されたとき、これ
らの複数のストリームは、一つのアソシエーションスト
リームに関連付けられる。アソシエーションストリーム
を構成するストリームの一つが終了すると、終了したス
トリームはアソシエーションストリームから取り除か
れ、アソシエーションモジュールは、一つまたはいくつ
かの分離されたストリームに関連付けを解除される。
【0065】また、アテンション制御モジュール57
は、モータ制御モジュール40の駆動モータ制御のプラ
ンニングのためのアテンション制御を行なうものであ
り、その際アソシエーションストリーム59,聴覚スト
リーム53,顔ストリーム54そしてステレオストリー
ム55の順に優先的に参照して、アテンション制御を行
なう。そして、アテンション制御モジュール57は、聴
覚ストリーム53,顔ストリーム54及びステレオスト
リーム55の状態とアソシエーションストリーム59の
存否に基づいて、ロボット10の動作プランニングを行
ない、駆動モータ41の動作の必要があれば、モータ制
御モジュール40に対して動作指令としてのモータイベ
ントをネットワークを介して送信する。
【0066】ここで、アテンション制御モジュール57
におけるアテンション制御は、連続性とトリガに基づい
ており、連続性により同じ状態を保持しようとし、トリ
ガにより最も興味のある対象を追跡しようとして、アテ
ンションを向けるべきストリームを選択して、トラッキ
ングを行なう。このようにして、アテンション制御モジ
ュール57はアテンション制御を行なって、モータ制御
モジュール40の駆動モータ41の制御のプランニング
を行ない、このプランニングに基づいてモータコマンド
64aを生成し、ネットワーク70を介してモータ制御
モジュール40に伝送する。これにより、モータ制御モ
ジュール40では、このモータコマンド64aに基づい
てモータ制御部45がPWM制御を行なって、駆動モー
タ41を回転駆動させてロボット10を所定方向に向け
るようになっている。
【0067】ビューア58は、このようにして生成され
た各ストリーム53,54,55,57をサーバの画面
上に表示するものであり、具体的にはレーダチャート5
8a及びストリームチャート58bにより表示する。こ
こで、レーダチャート58aは、その瞬間におけるスト
リームの状態、より詳細にはカメラの視野角と音源方向
を示し、ストリームチャート58bは、アソシエーショ
ンストリーム(太線図示)と聴覚ストリーム及び視覚ス
トリーム(細線図示)を示している。
【0068】本発明実施形態による人型ロボット10は
以上のように構成されており、以下のように動作する。
例えばカメラ15の視野外に居る話者がロボット10に
対して話し掛けると、ロボット10は、マイク16が当
該話者の音声を拾って、聴覚モジュール20が音源方向
を伴う聴覚イベント28を生成して、ネットワークを介
してアソシエーションモジュール60に伝送する。
【0069】これにより、アソシエーションモジュール
50は、この聴覚イベント28に基づいて、聴覚ストリ
ーム53を生成する。このとき、顔モジュール30は、
当該話者がカメラ15の視野内に入っていないので、顔
イベント39を生成せず、ステレオモジュール37もス
テレオイベント39aを生成しない。従って、アソシエ
ーションモジュール50は、聴覚イベント28のみに基
づいて、聴覚ストリーム53を生成し、アテンション制
御モジュール57は、この聴覚ストリーム53をトリガ
ーとして、ロボット10を話者の方向に向けるようなア
テンション制御を行なう。
【0070】このようにして、ロボット10が話者の方
向を向き、所謂声によるトラッキングが行なわれる。そ
して、顔モジュール30がカメラ15による話者の顔の
画像を取り込んで顔イベント39を生成して、当該話者
の顔を顔データベース38により検索して顔識別を行な
うと共に、その結果である顔ID24及び画像をネット
ワーク70を介してアソシエーションモジュール60に
伝送する。尚、当該話者の顔が顔データベース38に登
録されていない場合には、顔モジュール30はその旨を
ネットワークを介してアソシエーションモジュール50
に伝送する。
【0071】このとき、アソシエーションモジュール5
0は、聴覚イベント28及び顔イベント39によりアソ
シエーションストリーム59を生成しており、このアソ
シエーションストリーム59によりアテンション制御モ
ジュール57は、そのアテンション制御を変更しないの
で、ロボット10は話者の方向を向き続ける。従って、
話者が移動したとしても、ロボット10は、アソシエー
ションストリーム59によりモータ制御モジュール40
を制御することにより、話者を追跡して、顔モジュール
30のカメラ15が話者を継続して撮像し得るようにな
っている。
【0072】このようにして、人型ロボット10は、聴
覚モジュール20による聴覚イベント28及び顔モジュ
ール30による顔イベント39と、アソシエーションモ
ジュール50によるアソシエーションストリーム59に
基づいて、複数の話者を聴覚及び視覚により認識すると
共に、複数の話者のうちの一人の話者を追跡したり、あ
るいは途中で他の話者に切り換えて追跡することができ
る。
【0073】ここで、聴覚モジュール20は、アクティ
ブ方向通過型フィルタ23aにより拡張聴覚エピポーラ
幾何によるIPDを利用して音源定位を行なっているの
で、ロボット10の頭部14の形状を考慮したより正確
な音源定位を行なうことができる。また、聴覚モジュー
ル20は、アクティブ方向通過型フィルタ23aによ
り、パスレンジδ(θ)により、方向θに応じて感度を
調整しているので、より正確な音源定位が可能な正面付
近においては、サブバンドを集める角度範囲を狭く、ま
た側方では角度範囲を広く設定することにより、より正
確な音源分離を行なうことができる。さらに、聴覚モジ
ュール20は、アクティブ方向通過型フィルタ23aに
より、アソシエーションモジュール59からのアソシエ
ーションストリーム59を参照して、IPD及びIID
を計算することから、ロボット10が移動しているとき
でも、正確に音源定位・分離を行なうことができる。
【0074】このようにして、本発明実施形態による人
型ロボット10によれば、アソシエーションモジュール
50が、聴覚モジュール20、顔モジュール30及びス
テレオモジュール37からの聴覚イベント、顔イベント
及びステレオイベントに基づいて、これらの方向情報そ
して個々の話者同定から、これらの時間的流れを考慮し
て、聴覚ストリーム,視覚ストリームそしてアソシエー
ションストリームを生成することによって、複数の対象
である話者を認識しているので、何れかのイベントが欠
落したり明確に認識できなくなった場合、例えば話者が
移動して「見えなく」なった場合でも聴覚により、また
話者が話をせず「聞こえなく」なった場合でも視覚によ
り、リアルタイムに複数の話者を聴覚的及び/又は視覚
的にトラッキングすることができる。
【0075】以下に、アクティブ方向通過型フィルタの
動作を下記に実験により評価する。これらの実験におい
ては、上記人型ロボット10が、約10平方mの部屋に
て、音源としての一つのスピーカに対向しており、この
スピーカは、ロボット10の正面方向を0度として、約
100cmの距離にて同じ高さに位置している。スピー
カから発する音響信号は、ASJ Continuou
s Corpusにおける毎日新聞記事からの男性及び
女性により読み上げられた20の文章が使用される。
【0076】そして、以下の四種の指標、即ち 1.入力と分離された話声の間の周波数帯域におけるS
N比の差 2.入力と分離された話声の間の信号損失 3.ノイズ抑制の効果 4.音響信号処理の専門家による評価 を評価のために使用した。
【0077】一番目のSN比の差は、sp (i,j),
po(i,j)及びsps(i,j)をそれぞれ原波形信
号,マイク16で集音された観測波形信号及びアクティ
ブ方向通過型フィルタにより分離された分離波形信号の
スペクトル、m,nをサブバンド及びサンプルの数、β
を原波形信号と観測波形信号の間の大きさの減衰比とし
て、
【数14】 により定義される。
【0078】二番目の信号損失は、s(n),s
o (n),ss (n)をそれぞれ原波形信号,マイク1
6で集音された観測波形信号及びアクティブ方向通過型
フィルタにより分離された分離波形信号、Sを信号を有
するサンプルの集合、即ちs(i)−βso (i)≧0
を満足するiの集合として、
【数15】 により定義される。
【0079】また、二番目のノイズ抑制の効果は、s
(n),so (n),ss (n)をそれぞれ原波形信
号,マイク16で集音された観測波形信号及びアクティ
ブ方向通過型フィルタにより分離された分離波形信号、
Nをノイズを有するサンプルの集合、即ちs(i)−β
o (i)<0を満足するiの集合として、
【数16】 により定義される。
【0080】そして、以下の四つの実験を行なった。こ
こで、前述のfthは1500Hzとした。 実験1. 音源方向が0度から90度まで変化するとき
の聴覚モジュール,顔モジュール及びステレオモジュー
ルの音源定位のエラーを測定する。 実験2. カルマンフィルタの有効性を測定する。この
場合、二つのスピーカが使用され、一方が60度の方向
に固定され、他方が±30度以内で繰返し左から右に移
動している。そして、第二のスピーカからの話声がアク
ティブ方向通過型フィルタにより抽出される。カルマン
フィルタの使用または不使用による二種の音ストリーム
がアクティブ方向通過型フィルタへの入力として使用さ
れ、抽出された音がR1 により比較される。 実験3. 前記各フィルタリング条件A,B,Dによる
アクティブ方向通過型フィルタの有効性を、R1
2 ,R3 の指標を利用して、測定する。二話者同時発
話及び三話者同時発話の場合の音源分離を行なった。第
一のスピーカは、0度に固定される。第二のスピーカ
は、30度,60度及び90度に位置する。三つの同時
の話声の分離において、第二及び第三のスピーカは、±
30度,±60度及び±90度に位置する。これらのス
ピーカは、同時に同じ音量で異なる話声を出す。パスレ
ンジ関数δ(θ)は、0度及び30度の方向でスピーカ
に対して±20度であり、60度及び90度の方向にて
±30度である。なお、これらの値は、単一音源に対す
る聴覚中心窩に従って定義される。 実験4. 一つのスピーカを0度方向に、もう一つのス
ピーカを30度,60度,90度と変化させて、同時に
音声が出力されている状態で、前述したアクティブ方向
通過型フィルタ23aのサブバンドを集める際の条件A
乃至DによってR3 の指標を利用して、正面方向のスピ
ーカからの音声の分離,抽出を試みた。
【0081】実験1によれば、ステレオモジュールによ
る音源定位は、図9にて符号Bで示すように最も正確で
あり、誤差は1度以内である。これに対して、顔モジュ
ール及び聴覚モジュールによる音源定位は、図9にてそ
れぞれ符号A及びCで示すようになる。一般に視覚によ
る定位は、聴覚による定位より正確であるが、聴覚モジ
ュールは、全方向性センサの利点を有している。即ち、
聴覚モジュールは、方位角±15度以上からの音の方向
を判断することができる。聴覚モジュールによる定位の
感度は、音源方向に依存し、正面方向が最良であり、0
度から30度までは誤差±5度以内であって、30度以
上ではより悪化する。これは、聴覚中心窩の正当性及び
音源に対向するように旋回するような動作の有効性を証
明するものである。
【0082】図10は、実験2の結果であって、(A)
カルマンフィルタ無し及び(B)カルマンフィルタ有り
の場合のSN比を示している。これにより、アクティブ
方向通過型フィルタによるSN比は、カルマンフィルタ
に基づくストリーム形成によって、約1dB増大するこ
とが分かる。これは、カルマンフィルタがより良好なス
トリーム形成及び正確な音源方向を提供することを示し
ている。図11は、実験3の結果であって、(A)二話
者同時発話及び(B)三話者同時発話における音源分離
の結果をそれぞれ示している。すべてのフィルタリング
条件において、同様の傾向が示されている。1500H
z以下の周波数を使用するフィルタリング条件Aと、他
の条件との間の差は小さい。これは、IIDにより集め
られた1500Hz以上の周波数によるサブバンドがよ
り低いパワーを有しているからである。これは、拡張聴
覚エピポーラ幾何が、実環境においてもアクティブ方向
通過型フィルタにより音源を分離するために十分である
ことを証明している。指標R1 及びR3 は正面方向で最
良であり、周辺で悪化する。正面方向にて、ノイズ抑制
の有効性は三話者同時発話において約9dBである。し
かしながら、30度より接近した二話者同時発話の場合
の話者の分離は、困難である。信号損失は、図11
(A)においてR2 により2〜4dBである。聴覚信号
処理の二人の専門家によれば、最も明瞭なフィルタリン
グ条件はDである。分離された音の品質は、14チャン
ネルの線形マイクロホンアレーまたは16チャンネルの
円形マイクロホンアレーによる分離と同様に良好であ
る。聴取による評価は、アクティブ方向通過型フィルタ
が音源分離のために良好な性能を有していることを示し
ている。
【0083】さらに、図12は、実験4の結果であっ
て、条件Dが最良の音源分離の結果を示すことが分かっ
た。これは、二つのスピーカの場合の場合に、アクティ
ブ方向通過型フィルタ23aの効率が6乃至10dBで
あることを示している。HRTFに基づく条件Bによる
音源定位は、拡張聴覚エピポーラ幾何に基づく条件A,
Dによる音源定位より良好ではない。これは、実世界に
おける音源分離での拡張聴覚エピポーラ幾何の有効性を
示している。一般に、IIDにより集められる例えば1
200乃至1500Hz以上の周波数のサブバンドのパ
ワーが小さいことから、条件A,Dにおける音源定位の
差は小さい。しかしながら、自動音声認識がより高い周
波数のサブバンドからの情報を利用するので、自動音声
認識の場合の音声認識率の差は、より大きくなると期待
される。そこで、条件Cの場合には、ロボット10の両
耳部の間のベースラインの制限により、1500Hz以
上の最も多くのサブバンドが集められる。従って、音源
定位の改良はそれ程大きくはない。
【0084】上述した実施形態において、人型ロボット
10は、4DOF(自由度)を有するように構成されて
いるが、これに限らず、任意の動作を行なうように構成
されたロボットに本発明によるロボット聴覚システムを
組み込むことも可能である。また、上述した実施形態に
おいては、本発明によるロボット視聴覚システムを人型
ロボット10に組み込んだ場合について説明したが、こ
れに限らず、犬型等の各種動物型ロボットや、その他の
形式のロボットに組み込むことも可能であることは明ら
かであり、ここにロボットとは、広く産業用の自動制御
装置等を含む概念である。
【0085】
【発明の効果】以上述べたように、この発明によれば、
上記聴覚モジュールが、アソシエーションモジュールか
らの正確な音源方向情報に基づいて、聴覚特性に従って
正面方向で最小となり且つ左右に角度が大きくなるにつ
れて大きくなるパスレンジを有するアクティブ方向通過
型フィルタにより、所定幅の範囲内の両耳間位相差(I
PD)または両耳間強度差(IID)をもったサブバン
ドを集めて、音源の波形を再構築することにより、音源
分離を行なうので、上述した聴覚特性に応じて、パスレ
ンジ即ち感度を調整することにより、方向による感度の
違いを考慮して、より正確に音源分離を行なうことがで
きる。上記聴覚モジュールが、拡張聴覚エピポーラ幾何
による音源定位に基づいて音源分離を行なう場合には、
アソシエーションモジュールからのアソシエーションス
トリームを参照して、頭部表面に沿った拡張聴覚エピポ
ーラ幾何により音源定位を行なうので、音源からロボッ
トの両耳部に設けられた左右のマイクへの実際の距離に
基づいて、聴覚エピポーラ幾何を応用することにより、
ロボットの外装形状を考慮して、より正確に聴覚エピポ
ーラ幾何による音源分離を行なうことができる。上記聴
覚モジュールが、ロボット固有の所定周波数を基準とし
て、当該所定周波数未満で拡張聴覚エピポーラ幾何によ
り、または全周波数帯域で頭部伝達関数(HRTF)に
より、または全周波数帯域で拡張聴覚エピポーラ幾何に
より、あるいは所定周波数未満で拡張聴覚エピポーラ幾
何により且つ所定周波数以上で頭部伝達関数により、そ
れぞれ得られる音源定位に基づいて音源分離を行なう場
合には、そのときの実環境に応じて、正確な音源分離を
行なうことができる。上記アソシエーションモジュール
が、各話者の方向を決定した後、カルマンフィルタを用
いてイベントを時間方向に接続することにより、聴覚ス
トリーム及び視覚ストリーム(顔ストリーム,ステレオ
ストリーム)を生成し、さらにこれらを関連付けてアソ
シエーションストリームを生成する場合には、カルマン
フィルタを使用することにより、より一層正確なストリ
ームを生成することができる。上記聴覚モジュール,顔
モジュール,ステレオモジュール,モータ制御モジュー
ル,アソシエーションモジュール及びアテンション制御
モジュールが、ネットワークを介して互いに接続されて
おり、特にデータ量の大きいイベントやストリームの通
信のために、比較的高速のネットワークが使用されてい
る場合には、大容量のデータを比較的高速のネットワー
クで伝送することにより、リアルタイム性及びスケーラ
ビリティを向上させることができる。これにより、本発
明によれば、目標に対する視覚及び聴覚の情報を統合し
て、目標の音源定位を正確に行なうようにした、極めて
優れたロボット視聴覚システムが提供される。
【図面の簡単な説明】
【図1】この発明によるロボット聴覚装置の第一の実施
形態を組み込んだ人型ロボットの外観を示す正面図であ
る。
【図2】図1の人型ロボットの側面図である。
【図3】図1の人型ロボットにおける頭部の構成を示す
概略拡大図である。
【図4】図1の人型ロボットにおけるロボット視聴覚シ
ステムの電気的構成を示すブロック図である。
【図5】図4に示すロボット視聴覚システムにおける聴
覚モジュールの作用を示す図である。
【図6】図4のロボット視聴覚システムにおける、
(A)拡張聴覚エピポーラ幾何を示す図及び(B)IP
Dと音源からの距離との関係を示すグラフである。
【図7】図4に示すロボット視聴覚システムにおけるI
PDの計算結果を示すグラフである。
【図8】図4のロボット視聴覚システムにおける角度3
0度での(A)IPDの測定値・計算値を示すグラフ及
び(B)IIDの測定値・計算値を示すグラフである。
【図9】図4のロボット視聴覚システムの実験1による
音源定位精度を示すグラフである。
【図10】図4のロボット視聴覚システムの実験2によ
るカルマンフィルタの有無によるS/N比を示すグラフ
である。
【図11】図4のロボット視聴覚システムの実験3にお
ける(A)二つの同時の話声及び(B)三つの同時の話
声の場合の音源分離の評価を示す図である。
【図12】図4のロボット視聴覚システムの具体的な実
験例による聴覚モジュールの条件A〜Dによる正面話者
抽出のS/N比改善を示すグラフである。
【符号の説明】 10 人型ロボット 11 ベース 12 胴体部 13 頭部 14 外装 15 カメラ(ロボット視覚) 16,16a,16b マイク(ロボット聴覚) 17 ロボット視聴覚システム 20 聴覚モジュール 21 ピーク抽出部 22 音源定位部 23 音源分離部 23a アクティブ方向通過型フィルタ 26 聴覚イベント生成部 30 顔モジュール 37 ステレオモジュール 40 モータ制御モジュール 50 アソシエーションモジュール 57 アテンション制御モジュール

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 外部の音を集音する少なくとも一対のマ
    イクを含む聴覚モジュールと、ロボットの前方を撮像す
    るカメラを含む顔モジュールと、ステレオカメラにより
    物体を抽出するステレオモジュールと、ロボットを水平
    方向に回動させる駆動モータを含むモータ制御モジュー
    ルと、上記聴覚モジュール,顔モジュール,ステレオモ
    ジュール及びモータ制御モジュールからのイベントを統
    合してストリームを生成するアソシエーションモジュー
    ルと、アソシエーションモジュールにより生成されたス
    トリームに基づいてアテンション制御を行なうアテンシ
    ョン制御モジュールと、を備えていて、 上記聴覚モジュールが、マイクからの音響信号に基づい
    て、ピッチ抽出,調波構造に基づいたグルーピングによ
    る音源の分離及び定位から、少なくとも一人の話者の方
    向を決定してその聴覚イベントを抽出し、 上記顔モジュールが、カメラにより撮像された画像に基
    づいて、各話者の顔識別と定位から、各話者を同定して
    その顔イベントを抽出し、 上記ステレオモジュールが、ステレオカメラにより撮像
    された画像から抽出された視差に基づいて縦に長い物体
    を抽出定位してステレオイベントを抽出し、 上記モータ制御モジュールが、駆動モータの回転位置に
    基づいてモータイベントを抽出し、これにより、 上記アソシエーションモジュールが、聴覚イベント,顔
    イベント,ステレオイベント及びモータイベントから、
    聴覚イベントの音源定位及び顔イベントの顔定位並びに
    ステレオイベントの物体定位の方向情報に基づいて各話
    者の方向を決定し、カルマンフィルタを用いてイベント
    を時間方向に接続することにより聴覚ストリーム,顔ス
    トリーム及びステレオストリームを生成し、さらにこれ
    らを関連付けてアソシエーションストリームを生成し
    て、 上記アテンション制御モジュールが、これらのストリー
    ムに基づいてアテンション制御とそれに伴う行動のプラ
    ンニング結果に基づいて、モータの駆動制御を行なうロ
    ボット視聴覚システムであって、 上記聴覚モジュールが、アソシエーションモジュールか
    らの正確な音源方向情報に基づいて、聴覚特性に従って
    正面方向で最小となり且つ左右に角度が大きくなるにつ
    れて大きくなるパスレンジを有するアクティブ方向通過
    型フィルタにより、所定幅の範囲内の両耳間位相差(I
    PD)または両耳間強度差(IID)をもったサブバン
    ドを集めて、音源の波形を再構築することにより音源分
    離を行なうことを特徴とする、ロボット視聴覚システ
    ム。
  2. 【請求項2】 前記聴覚モジュールが、拡張聴覚エピポ
    ーラ幾何による音源定位に基づいて音源分離を行なうこ
    とを特徴とする、請求項1に記載のロボット視聴覚シス
    テム。
  3. 【請求項3】 前記聴覚モジュールが、ロボット固有の
    所定周波数を基準として、当該所定周波数未満で拡張聴
    覚エピポーラ幾何により、または全周波数帯域で頭部伝
    達関数(HRTF)により、または全周波数帯域で拡張
    聴覚エピポーラ幾何により、あるいは所定周波数未満で
    拡張聴覚エピポーラ幾何により且つ所定周波数以上で頭
    部伝達関数により、それぞれ得られる音源定位に基づい
    て音源分離を行なうことを特徴とする、請求項2に記載
    のロボット視聴覚システム。
  4. 【請求項4】 前記アソシエーションモジュールが、各
    話者の方向を決定した後、カルマンフィルタを用いてイ
    ベントを時間方向に接続することにより、聴覚ストリー
    ム,顔ストリーム及びステレオストリームを生成し、さ
    らにこれらを関連付けてアソシエーションストリームを
    生成することを特徴とする、請求項1から3の何れかに
    記載のロボット視聴覚システム。
  5. 【請求項5】 前記聴覚モジュール,顔モジュール,ス
    テレオモジュール,モータ制御モジュール,アソシエー
    ションモジュール及びアテンション制御モジュールが、
    ネットワークを介して互いに接続されており、特にデー
    タ量の大きいイベントやストリームの通信のために、比
    較的高速のネットワークが使用されていることを特徴と
    する、請求項1から4の何れかに記載のロボット視聴覚
    システム。
JP2002056670A 2002-03-01 2002-03-01 ロボット視聴覚システム Expired - Fee Related JP3627058B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002056670A JP3627058B2 (ja) 2002-03-01 2002-03-01 ロボット視聴覚システム
US10/506,167 US7526361B2 (en) 2002-03-01 2002-08-30 Robotics visual and auditory system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002056670A JP3627058B2 (ja) 2002-03-01 2002-03-01 ロボット視聴覚システム

Publications (2)

Publication Number Publication Date
JP2003251583A true JP2003251583A (ja) 2003-09-09
JP3627058B2 JP3627058B2 (ja) 2005-03-09

Family

ID=28667119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002056670A Expired - Fee Related JP3627058B2 (ja) 2002-03-01 2002-03-01 ロボット視聴覚システム

Country Status (2)

Country Link
US (1) US7526361B2 (ja)
JP (1) JP3627058B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005076660A1 (ja) * 2004-02-10 2005-08-18 Mitsubishi Denki Engineering Kabushiki Kaisha 超指向性スピーカ搭載型移動体
WO2005076661A1 (ja) * 2004-02-10 2005-08-18 Mitsubishi Denki Engineering Kabushiki Kaisha 超指向性スピーカ搭載型移動体
WO2007129731A1 (ja) * 2006-05-10 2007-11-15 Honda Motor Co., Ltd. 音源追跡システム、方法、およびロボット
JP2008005472A (ja) * 2006-06-22 2008-01-10 Honda Research Inst Europe Gmbh 人工耳を有するロボットヘッド
JP2015081824A (ja) * 2013-10-22 2015-04-27 株式会社国際電気通信基礎技術研究所 放射音強度マップ作成システム、移動体および放射音強度マップ作成方法
JP2016192697A (ja) * 2015-03-31 2016-11-10 株式会社熊谷組 音源方向推定装置
CN107534725A (zh) * 2015-05-19 2018-01-02 华为技术有限公司 一种语音信号处理方法及装置
JP2019095523A (ja) * 2017-11-20 2019-06-20 富士ソフト株式会社 ロボットおよびロボット制御方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4839838B2 (ja) * 2003-12-12 2011-12-21 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
JP4271161B2 (ja) * 2005-03-24 2009-06-03 株式会社東芝 ロボット装置、ロボット装置の旋回方法、及び、プログラム
US9101279B2 (en) 2006-02-15 2015-08-11 Virtual Video Reality By Ritchey, Llc Mobile user borne brain activity data and surrounding environment data correlation system
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP2012531145A (ja) * 2009-06-26 2012-12-06 リザード テクノロジー エイピーエス マルチサウンドの入力を聴覚的に分離するdspベースの装置
US8706298B2 (en) * 2010-03-17 2014-04-22 Raytheon Company Temporal tracking robot control system
US20120183161A1 (en) * 2010-09-03 2012-07-19 Sony Ericsson Mobile Communications Ab Determining individualized head-related transfer functions
CN103562934B (zh) * 2011-04-28 2017-05-10 皇家飞利浦有限公司 脸部位置检测
JP5685177B2 (ja) * 2011-12-12 2015-03-18 本田技研工業株式会社 情報伝達システム
KR102094347B1 (ko) * 2013-07-29 2020-03-30 삼성전자주식회사 자동 청소 시스템, 청소 로봇 및 그 제어 방법
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法
US10452071B1 (en) 2016-02-29 2019-10-22 AI Incorporated Obstacle recognition method for autonomous robots
US10788836B2 (en) 2016-02-29 2020-09-29 AI Incorporated Obstacle recognition method for autonomous robots
US11927965B2 (en) 2016-02-29 2024-03-12 AI Incorporated Obstacle recognition method for autonomous robots
US11449061B2 (en) 2016-02-29 2022-09-20 AI Incorporated Obstacle recognition method for autonomous robots
DE112018007184T5 (de) * 2018-02-28 2020-12-10 Honda Motor Co., Ltd. Steuervorrichtung, Arbeitsmaschine und Programm
CN110223686A (zh) * 2019-05-31 2019-09-10 联想(北京)有限公司 语音识别方法、语音识别装置和电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442465B2 (en) * 1992-05-05 2002-08-27 Automotive Technologies International, Inc. Vehicular component control systems and methods
JPH08174154A (ja) 1994-12-28 1996-07-09 Toyota Motor Corp 中子納め方法
JP3870491B2 (ja) 1997-07-02 2007-01-17 松下電器産業株式会社 画像間対応検出方法およびその装置
JP2000326274A (ja) 1999-05-24 2000-11-28 Nec Corp 自律行動ロボット
JP3578027B2 (ja) 1999-12-21 2004-10-20 ヤマハ株式会社 携帯電話機
JP2001296343A (ja) * 2000-04-11 2001-10-26 Nec Corp 音源方位設定装置及びそれを備えた撮像装置、送信システム
KR100754385B1 (ko) * 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
US7211980B1 (en) * 2006-07-05 2007-05-01 Battelle Energy Alliance, Llc Robotic follow system and method

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005076661A1 (ja) * 2004-02-10 2005-08-18 Mitsubishi Denki Engineering Kabushiki Kaisha 超指向性スピーカ搭載型移動体
JPWO2005076661A1 (ja) * 2004-02-10 2008-01-10 三菱電機エンジニアリング株式会社 超指向性スピーカ搭載型移動体
US7424118B2 (en) 2004-02-10 2008-09-09 Honda Motor Co., Ltd. Moving object equipped with ultra-directional speaker
WO2005076660A1 (ja) * 2004-02-10 2005-08-18 Mitsubishi Denki Engineering Kabushiki Kaisha 超指向性スピーカ搭載型移動体
US8155331B2 (en) 2006-05-10 2012-04-10 Honda Motor Co., Ltd. Sound source tracking system, method and robot
WO2007129731A1 (ja) * 2006-05-10 2007-11-15 Honda Motor Co., Ltd. 音源追跡システム、方法、およびロボット
JP5170440B2 (ja) * 2006-05-10 2013-03-27 本田技研工業株式会社 音源追跡システム、方法、およびロボット
JP4716291B2 (ja) * 2006-06-22 2011-07-06 ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハー 人工耳を有するロボットヘッド
JP2008005472A (ja) * 2006-06-22 2008-01-10 Honda Research Inst Europe Gmbh 人工耳を有するロボットヘッド
JP2015081824A (ja) * 2013-10-22 2015-04-27 株式会社国際電気通信基礎技術研究所 放射音強度マップ作成システム、移動体および放射音強度マップ作成方法
JP2016192697A (ja) * 2015-03-31 2016-11-10 株式会社熊谷組 音源方向推定装置
CN107534725A (zh) * 2015-05-19 2018-01-02 华为技术有限公司 一种语音信号处理方法及装置
JP2019095523A (ja) * 2017-11-20 2019-06-20 富士ソフト株式会社 ロボットおよびロボット制御方法

Also Published As

Publication number Publication date
US20060241808A1 (en) 2006-10-26
US7526361B2 (en) 2009-04-28
JP3627058B2 (ja) 2005-03-09

Similar Documents

Publication Publication Date Title
JP3627058B2 (ja) ロボット視聴覚システム
CN106653041B (zh) 音频信号处理设备、方法和电子设备
Nakadai et al. Active audition for humanoid
US6967455B2 (en) Robot audiovisual system
EP1715717B1 (en) Moving object equipped with ultra-directional speaker
Ishi et al. Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments
JP3780516B2 (ja) ロボット聴覚装置及びロボット聴覚システム
JP3632099B2 (ja) ロボット視聴覚システム
Nguyen et al. Autonomous sensorimotor learning for sound source localization by a humanoid robot
Nakadai et al. Real-time tracking of multiple sound sources by integration of in-room and robot-embedded microphone arrays
JP3843740B2 (ja) ロボット視聴覚システム
CN109286790B (zh) 一种基于声源定位的定向监听系统及其监听方法
JP3843743B2 (ja) ロボット視聴覚システム
KR101678305B1 (ko) 텔레프레즌스를 위한 하이브리드형 3d 마이크로폰 어레이 시스템 및 동작 방법
JP3843741B2 (ja) ロボット視聴覚システム
US9255982B2 (en) Apparatus and method for the binaural reproduction of audio sonar signals
Reid et al. Active stereo sound localization
Okuno et al. Sound and visual tracking for humanoid robot
Keyrouz Binaural range estimation using head related transfer functions
Nakadai et al. Exploiting auditory fovea in humanoid-human interaction
Michaud et al. SmartBelt: A wearable microphone array for sound source localization with haptic feedback
JP3843742B2 (ja) ロボット視聴覚システム
Saggese et al. A real-time system for audio source localization with cheap sensor device
Okuno et al. Real-time sound source localization and separation based on active audio-visual integration
Nakadai et al. Humanoid active audition system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041119

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071217

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121217

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121217

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees