JP2002264058A - ロボット視聴覚システム - Google Patents

ロボット視聴覚システム

Info

Publication number
JP2002264058A
JP2002264058A JP2001067846A JP2001067846A JP2002264058A JP 2002264058 A JP2002264058 A JP 2002264058A JP 2001067846 A JP2001067846 A JP 2001067846A JP 2001067846 A JP2001067846 A JP 2001067846A JP 2002264058 A JP2002264058 A JP 2002264058A
Authority
JP
Japan
Prior art keywords
module
visual
event
stream
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001067846A
Other languages
English (en)
Other versions
JP3843740B2 (ja
Inventor
Kazuhiro Nakadai
一博 中臺
Kenichi Hidai
健一 日台
Hiroshi Okuno
博 奥乃
Hiroaki Kitano
宏明 北野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Corp filed Critical Japan Science and Technology Corp
Priority to JP2001067846A priority Critical patent/JP3843740B2/ja
Priority to PCT/JP2002/002204 priority patent/WO2002072317A1/ja
Priority to US10/468,396 priority patent/US6967455B2/en
Priority to EP02702847A priority patent/EP1375084A4/en
Publication of JP2002264058A publication Critical patent/JP2002264058A/ja
Application granted granted Critical
Publication of JP3843740B2 publication Critical patent/JP3843740B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 対象に対する視覚及び聴覚の追跡を行なうた
めのリアルタイム処理を可能にするようにした、ロボッ
ト視聴覚システムを提供する。 【解決手段】 聴覚モジュール20がマイクの音響信号
からピッチ抽出,音源の分離及び定位により話者の音源
を同定して聴覚イベント28を抽出し、視覚モジュール
30がカメラの画像から話者の顔識別と定位により視覚
イベント39を抽出し、ロボットを水平方向に回動させ
るモータ制御モジュール40がモータの回転位置からモ
ータイベント49を抽出し、各モジュールを制御するア
ソシエーションモジュール60が聴覚イベント,視覚イ
ベント及びモータイベントから聴覚ストリーム65及び
視覚ストリーム66を生成し、これらを関連付けてアソ
シエーションストリーム67を生成して、アテンション
制御モジュール64が駆動モータ制御のプランニングの
ためのアテンション制御を行なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はロボット、特に人型
または動物型ロボットにおける視聴覚システムに関する
ものである。
【0002】
【従来の技術】近年、このような人型または動物型ロボ
ットにおいては、視覚,聴覚の能動知覚が注目されてき
ている。能動知覚とは、ロボット視覚やロボット聴覚等
の知覚を担当する知覚装置を、知覚すべき対象に追従す
るように、これらの知覚装置を支持する例えば頭部を、
駆動機構により姿勢制御するものである。
【0003】ここで、能動視覚に関しては、少なくとも
知覚装置であるカメラが、駆動機構による姿勢制御によ
ってその光軸方向が対象に向かって保持され、対象に対
して自動的にフォーカシングやズームイン,ズームアウ
ト等を行うことにより、対象をカメラによって撮像する
ようになっており、種々の研究が行なわれている。
【0004】これに対して、能動聴覚に関しては、少な
くとも知覚装置であるマイクが、駆動機構による姿勢制
御によって、その指向性が対象に向かって保持され、対
象からの音がマイクによって集音される。このような能
動聴覚は、例えば本出願人による特願2000−226
77号(ロボット聴覚システム)に開示されており、視
覚情報を参照して音源の方向付けを行なうようにしてい
る。
【0005】
【発明が解決しようとする課題】ところで、これらの能
動視覚及び能動聴覚は、ロボットの向き(水平方向)を
変更するためのモータ制御モジュールと密接に関連があ
り、特定の対象に対して、能動視覚及び能動聴覚を働か
せるためには、ロボットを特定の対象に向ける、即ちア
テンション制御を行なう必要がある。しかしながら、視
覚及び聴覚をモータ制御モジュールの制御と統合させる
ためには、視覚及び聴覚の追跡を行なうためのリアルタ
イム処理が必要であるが、従来のロボット開発において
は、単一音源を対象としたリアルタイム処理を行なうも
のは実現されているが、例えば複数の人間が互いに話を
しているような状況において、リアルタイム処理によ
り、各人を同定して、能動聴覚を行なうことは行なわれ
ていない。
【0006】この発明は、以上の点にかんがみて、対象
に対する視覚及び聴覚の追跡を行なうためのリアルタイ
ム処理を可能にし、さらに視覚,聴覚,モータ等のセン
サー情報を統合して、何れかの情報が欠落したとして
も、相互に補完することにより追跡を継続し得るように
した、ロボット視聴覚システムを提供することを目的と
している。
【0007】
【課題を解決するための手段】前記目的は、この発明に
よれば、外部の音を集音する少なくとも一対のマイクを
含む聴覚モジュールと、ロボットの前方を撮像するカメ
ラを含む視覚モジュールと、ロボットを水平方向に回動
させる駆動モータを含むモータ制御モジュールと、前記
聴覚モジュール,視覚モジュール及びモータ制御モジュ
ールからのイベントを統合してストリームを生成するア
ソシエーションモジュールと、アソシエーションモジュ
ールにより生成されたストリームに基づいてアテンショ
ン制御を行なうアテンション制御モジュールと、を備え
ているロボット視聴覚システムであって、前記聴覚モジ
ュールが、マイクからの音響信号に基づいてピッチ抽
出,音源の分離及び定位から少なくとも一人の話者の音
源を同定してその聴覚イベントを抽出し、前記視覚モジ
ュールが、カメラにより撮像された画像に基づいて各話
者の顔識別と定位からその視覚イベントを抽出し、前記
モータ制御モジュールが、駆動モータの回転位置に基づ
いてモータイベントを抽出することにより、前記アソシ
エーションモジュールが、聴覚モジュールからの聴覚イ
ベント,視覚モジュールからの視覚イベント及びモータ
制御モジュールからのモータイベントに基づいて聴覚ス
トリーム及び視覚ストリームを生成し、さらにこれらを
関連付けてアソシエーションストリームを生成して、前
記アテンション制御モジュールが、これらのストリーム
に基づいてモータ制御モジュールの駆動モータ制御のプ
ランニングのためのアテンション制御を行なうことを特
徴とするロボット視聴覚システムにより、達成される。
【0008】また、前記目的は、この発明によれば、外
部の音を集音する少なくとも一対のマイクを含む聴覚モ
ジュールと、ロボットの前方を撮像するカメラを含む視
覚モジュールと、ロボットを水平方向に回動させる駆動
モータを含むモータ制御モジュールと、前記聴覚モジュ
ール,視覚モジュール及びモータ制御モジュールからの
イベントを統合してストリームを生成するアソシエーシ
ョンモジュールと、アソシエーションモジュールにより
生成されたストリームに基づいてアテンション制御を行
なうアテンション制御モジュールとを備えている人型ま
たは動物型のロボットの視聴覚システムであって、前記
聴覚モジュールが、マイクからの音響信号に基づいて、
ピッチ抽出,音源の分離及び定位から少なくとも一人の
話者の音源を同定してその聴覚イベントを抽出し、前記
視覚モジュールが、カメラにより撮像された画像に基づ
いて、各話者の顔識別と定位からその視覚イベントを抽
出し、前記モータ制御モジュールが、駆動モータの回転
位置に基づいてモータイベントを抽出することにより、
前記アソシエーションモジュールが、聴覚モジュールか
らの聴覚イベント,視覚モジュールからの視覚イベント
及びモータ制御モジュールからのモータイベントに基づ
いて聴覚ストリーム及び視覚ストリームを生成して、さ
らにこれらを関連付けてアソシエーションストリームを
生成して、前記アテンション制御モジュールが、これら
のストリームに基づいてモータ制御モジュールの駆動モ
ータ制御のプランニングのためのアテンション制御を行
なうことを特徴とするロボット視聴覚システムにより、
達成される。
【0009】本発明によるロボット視聴覚システムは、
好ましくは、前記アソシエーションモジュールが、聴覚
ストリーム及び視覚ストリームを生成する際に、非同期
で生成される聴覚イベント,視覚イベント及びモータイ
ベントを相互に同期させる。
【0010】本発明によるロボット視聴覚システムは、
好ましくは、前記アソシエーションモジュールがサーバ
であって、前記聴覚モジュール,視覚モジュール及びモ
ータ制御モジュールがそれぞれサーバに接続されたクラ
イアントである。
【0011】本発明によるロボット視聴覚システムは、
好ましくは、前記サーバと各クライアントが、相互にL
AN接続されている。
【0012】本発明によるロボット視聴覚システムは、
好ましくは、前記アテンション制御モジュールが、アテ
ンション制御の際に、アソシエーションストリーム,聴
覚ストリーム及び視覚ストリームの順に優先させる。
【0013】前記構成によれば、聴覚モジュールが、マ
イクが集音した外部の対象からの音から調波構造を利用
してピッチ抽出を行なうことにより、音源毎の方向を得
て、個々の話者の音源を同定し、その聴覚イベントを抽
出する。また、視覚モジュールが、カメラにより撮像さ
れた画像から、パターン認識による各話者の顔識別と定
位から個々の話者の視覚イベントを抽出する。さらに、
モータ制御モジュールが、ロボットを水平方向に回動さ
せる駆動モータの回転位置に基づいてロボットの方向を
検出することによって、モータイベントを抽出する。な
お、前記イベントとは、各時点において音または顔が検
出され、ピッチ及び方向等の特徴が抽出されて、話者同
定や顔識別等が行なわれること、あるいは駆動モータが
回転される状態を示しており、ストリームとは、時間的
に連続するイベントを示している。
【0014】ここで、アソシエーションモジュールは、
このようにしてそれぞれ抽出された聴覚イベント,視覚
イベント及びモータイベントに基づいて、各話者の聴覚
ストリーム及び視覚ストリームを生成し、さらにこれら
のストリームを関連付けてアソシエーションストリーム
を生成して、アテンション制御モジュールが、これらの
ストリームに基づいてアテンション制御を行なうことに
より、モータ制御モジュールの駆動モータ制御のプラン
ニングを行なう。アテンションとは、ロボットが対象で
ある話者を、聴覚的及び/又は視覚的に「注目」するこ
とであり、アンテンション制御とは、モータ制御モジュ
ールによりその向きを変えることにより、ロボットが前
記話者に注目するようにすることである。そして、アテ
ンション制御モジュールは、このプランニングに基づい
て、モータ制御モジュールの駆動モータを制御すること
により、ロボットの方向を対象である話者に向ける。こ
れにより、ロボットが対象である話者に対して正対する
ことにより、聴覚モジュールが当該話者の声を感度の高
い正面方向にてマイクにより正確に集音,定位すること
ができると共に、視覚モジュールが当該話者の画像をカ
メラにより良好に撮像することができるようになる。
【0015】従って、このような聴覚モジュール,視覚
モジュール及びモータ制御モジュールと、アソシエーシ
ョンモジュール及びアテンション制御モジュールとの連
携によって、ロボットの聴覚及び視覚がそれぞれ有する
曖昧性が互いに補完されることになり、所謂ロバスト性
が向上し、複数の話者であっても、各話者をそれぞれ知
覚することができる。また、例えば聴覚イベントまたは
視覚イベントの何れか一方が欠落したときであっても、
視覚イベントまたは聴覚イベントのみに基づいて、対象
である話者をアソシエーションモジュールが知覚するこ
とができるので、リアルタイムにモータ制御モジュール
の制御を行なうことができる。
【0016】前記アソシエーションモジュールが、聴覚
ストリーム及び視覚ストリームを生成する際に、聴覚イ
ベント,視覚イベント及びモータイベントを相互に同期
させる場合には、それぞれ非同期で生成された聴覚イベ
ント,視覚イベント及びモータイベントが互いに同期す
ることによって、アソシエーションモジュールでのこれ
らのイベントの互いに異なる生成周期及び遅延時間が吸
収されることになり、聴覚イベントから成る聴覚ストリ
ームと視覚イベントから成る視覚ストリームが互いに近
い距離に存在した場合には、相互に関連付けてより高次
のアソシエーションストリームを生成することができ
る。
【0017】前記アソシエーションモジュールがサーバ
であって、前記聴覚モジュール,視覚モジュール及びモ
ータ制御モジュールがそれぞれサーバに接続されたクラ
イアントであり、さらに前記サーバと各クライアント
が、相互にLAN接続されている場合には、各モジュー
ルが、それぞれ互いにLAN接続されたサーバ及びクラ
イアントにより分散処理されることにより、高速にリア
ルタイム処理を行なうことができる。
【0018】前記アテンション制御モジュールが、アテ
ンション制御を行なう際に、アソシエーションストリー
ム,聴覚ストリーム及び視覚ストリームの順に優先させ
る場合には、アソシエーションストリームを主体とし
て、聴覚ストリーム及び視覚ストリームを補助的に参照
して、対象である話者に対するアテンション制御を行な
うことにより、例えば対象である話者の視覚イベントを
取得することができず、視覚ストリームが生成されない
ときでも、連続的に聴覚イベントを取得して聴覚ストリ
ームを生成することができるので、聴覚ストリームに基
づいてアテンション制御を行なうことにより、連続した
リアルタイム処理を行なうことができる。さらに、複数
の同種類のストリームが存在する場合には、状況に応じ
て、最も古いストリームを優先したり、最も新しいスト
リームを優先することができる。
【0019】
【発明の実施の形態】以下、図面に示した実施形態に基
づいて、この発明を詳細に説明する。図1乃至図4はこ
の発明によるロボット視聴覚システムの一実施形態を備
えた実験用の人型ロボットの全体構成を示している。図
1において、人型ロボット10は、4DOF(自由度)
のロボットとして構成されており、ベース11と、ベー
ス11上にて一軸(垂直軸)周りに回動可能に支持され
た胴体部12と、胴体部12上にて、三軸方向(垂直
軸,左右方向の水平軸及び前後方向の水平軸)の周りに
揺動可能に支持された頭部13と、を含んでいる。
【0020】前記ベース11は固定配置されていてもよ
く、脚部として動作可能としてもよい。また、ベース1
1は、移動可能な台車等の上に載置されていてもよい。
前記胴体部12は、ベース11に対して垂直軸の周り
に、図1にて矢印Aで示すように回動可能に支持されて
おり、図示しない駆動手段によって回転駆動されると共
に、図示の場合、防音性の外装によって覆われている。
【0021】前記頭部13は胴体部12に対して連結部
材13aを介して支持されており、この連結部材13a
に対して前後方向の水平軸の周りに、図1にて矢印Bで
示すように揺動可能に、また左右方向の水平軸の周り
に、図2にて矢印Cで示すように揺動可能に支持されて
いると共に、前記連結部材13aが、胴体部12に対し
てさらに前後方向の水平軸の周りに、図1にて矢印Dで
示すように揺動可能に支持されており、それぞれ図示し
ない駆動手段によって、各矢印A,B,C,D方向に回
転駆動される。
【0022】ここで、前記頭部13は、図3に示すよう
に全体が防音性の外装14により覆われていると共に、
前側にロボット視覚を担当する視覚装置としてのカメラ
15を、また両側にロボット聴覚を担当する聴覚装置と
しての一対のマイク16(16a,16b)を備えてい
る。
【0023】前記外装14は、例えばウレタン樹脂等の
吸音性の合成樹脂から構成されており、頭部13の内部
をほぼ完全に密閉することにより、頭部13の内部の遮
音を行なうように構成されている。尚、胴体部12の外
装も、同様にして吸音性の合成樹脂から構成されてい
る。前記カメラ15は公知の構成であって、例えば所謂
パン,チルト,ズームの3DOF(自由度)を有する市
販のカメラが適用され得る。
【0024】前記マイク16は、それぞれ頭部13の側
面において、前方に向かって指向性を有するように取り
付けられている。ここで、マイク16の左右の各マイク
16a,16bは、それぞれ図1及び図2に示すよう
に、外装14の両側にて前方に向いた段部14a,14
bにて、内側に取り付けられ、段部14a,14bに設
けられた貫通穴を通して、前方の音を集音すると共に、
外装14の内部の音を拾わないように、適宜の手段によ
り遮音されている。これにより、マイク16a,16b
は、所謂バイノーラルマイクとして構成されている。
尚、マイク16a,16bの取付位置の近傍において、
外装14は人間の外耳形状に形成されていてもよい。
【0025】図4は、前記マイク16及びカメラ15を
含むロボット視聴覚システムの電気的構成を示してい
る。図4において、視聴覚システム17は、パーティ受
付及びコンパニオン用ロボットとしての構成であり、聴
覚モジュール20,視覚モジュール30,モータ制御モ
ジュール40,対話モジュール50及びアソシエーショ
ンモジュール60から構成されている。以下、図4の各
部を拡大して示す図5〜図9をも参照しつつさらに説明
する。説明の便宜上、聴覚モジュール20をブロック1
として図5に拡大して示し、視覚モジュール30をブロ
ック2として図6に拡大して示し、モータ制御モジュー
ル40をブロック3として図7に拡大して示し、対話モ
ジュール50をブロック4として図8に拡大して示し、
さらに、アソシエーションモジュール60をブロック5
として図9に拡大して示す。ここで、アソシエーション
モジュール60(ブロック5、図9)はサーバから構成
されていると共に、他のモジュール、即ち聴覚モジュー
ル20(ブロック1、図5),視覚モジュール30(ブ
ロック2、図6),モータ制御モジュール40(ブロッ
ク3、図7),対話モジュール50(ブロック4、図
8)は、それぞれクライアントから構成されており、互
いに非同期で動作する。
【0026】尚、前記サーバ及び各クライアントは、例
えばパーソナルコンピュータにより構成されており、例
えば100Base−T等のネットワーク70を介し
て、例えばTCP/IPプロトコルにより、相互にLA
N接続されている。また、各モジュール20,30,4
0,50,60は、それぞれ階層的に分散して、具体的
には下位から順次にデバイス層,プロセス層,特徴層,
イベント層から構成されている。
【0027】図5に示すように、前記聴覚モジュール2
0は、デバイス層としてのマイク16と、プロセス層と
してのピーク抽出部21,音源定位部22,音源分離部
23と、特徴層(データ)としてのピッチ24,水平方
向25と、イベント層としての聴覚イベント生成部26
及びビューア27と、から構成されている。
【0028】これにより、聴覚モジュール20は、マイ
ク16からの音響信号に基づいて、ピーク抽出部21に
より左右のチャンネル毎に一連のピークを抽出して、左
右のチャンネルで同じか類似のピークをペアとする。こ
こで、ピーク抽出は、パワーがしきい値以上で且つ極大
値であって、例えば90Hz乃至3kHzの間の周波数
であるという条件のデータのみを透過させる帯域フィル
タを使用することにより行なわれる。このしきい値は、
周囲の暗騒音を計測して、さらに感度パラメータ、例え
ば10dBを加えた値として定義される。
【0029】そして、聴覚モジュール20は、各ピーク
が調波構造を有していることを利用して、左右のチャン
ネル間でより正確なピークのペアを見つけ、左右のチャ
ンネルのピークの各ペアについて、音源分離部23によ
り、逆FFT(高速フーリエ変換)を適用して、各音源
からの混合音から調波構造を有する音を分離する。これ
により、聴覚モジュール20は、分離した各音につい
て、音源定位部22により、左右のチャンネルから同じ
周波数の音響信号を選択して、例えば5度毎にIPD
(両耳間位相差)及びIID(両耳間強度差)を求め
る。
【0030】そして、聴覚モジュール20の音源定位部
22は、所謂聴覚エピポーラ幾何を利用して、ロボット
10の正面を0度として±90度の範囲で、仮説推論に
よるIPD Phの仮説を生成して、
【数1】 により分離した音と各仮説間の距離d(θ)を計算す
る。ここで、nf <1.5kHzは、周波数が1.5k
Hz以下である倍音である。これは、左右のマイク15
のベースラインからIPDが1.2乃至1.5kHz以
下の周波数に対して有効であるので、今回の実験では
1.5kHz以下としたものである。
【0031】IIDについては、IPDと同様に、分離
した音の各倍音の左右チャンネル間のパワー差から求め
られる。ただし、IIDについては、仮説推論ではな
く、
【数2】 による判別関数を用いて、音源が左右何れかを判定する
ものとする。即ち、周波数fの各倍音のIIDをI
s (f)としたとき、音源は、Iが正であればロボット
の左方向に、Iが負であれば右方向に、そしてほぼ0で
あれば正面方向に存在することになる。ここで、IID
の仮説生成には、ロボット10の頭部形状を考慮した膨
大な計算が必要となることから、リアルタイム処理を考
慮して、IPDと同様の仮説推論は行なわない。
【0032】そして、聴覚モジュール20の音源定位部
22は、前記距離d(θ)から、確立密度関数
【数3】 を利用して、IPDの確信度BFIPD (θ)を計算す
る。ここで、m,sは、それぞれd(θ)の平均と分散
であり、nはdの個数である。また、IIDの確信度B
IID (θ)は、30度<θ≦90度で、前記Iが+の
とき0.35,−のとき0.65、−30度<θ≦30
度で、前記Iが+のとき0.5,−のとき0.5、−9
0度≦θ<−30度で、前記Iが+のとき0.65,−
のとき0.35となる。
【0033】そして、このようにして得られたIPDの
確信度BFIPD (θ)及びIIDの確信度BF
IID (θ)を、
【数4】 で示されるDempster−Shafer理論により
統合して、確信度BFIP D+IID (θ)を生成する。これ
により、聴覚モジュール20は、聴覚イベント生成部2
6により、音源方向として尤度の高い順に上位20個の
確信度BFIPD+IID (θ)と方向(θ)のリストと、ピ
ッチにより、聴覚イベント28を生成する。
【0034】このようにして、聴覚モジュール20は、
マイク16からの音響信号に基づいて、ピッチ抽出,音
源の分離及び定位から、少なくとも一人の話者の音源を
同定して、その聴覚イベントを抽出し、ネットワーク7
0を介してアソシエーションモジュール60に対して送
信するようになっている。尚、聴覚モジュール20にお
ける上述した処理は、40m秒毎に行なわれる。
【0035】ビューア27は、このようにして生成され
た聴覚イベント28をクライアントの画面上に表示する
ものであり、具体的には図11(A)に示すように、左
側のウインドウに、聴覚イベント28のパワースペクト
ルと抽出したピークを、右側のウインドウに、縦軸を相
対的な方位角,横軸をピッチ(周波数)とする聴覚イベ
ントを表示する。ここで、聴覚イベントは、音源定位の
確信度を円の直径とする円により表現されている。
【0036】図6に示すように、前記視覚モジュール3
0は、デバイス層としてのカメラ15と、プロセス層と
しての顔発見部31,顔識別部32,顔定位部33と、
特徴層(データ)としての顔ID34,顔方向35と、
イベント層としての視覚イベント生成部36及びビュー
ア37と、から構成されている。
【0037】これにより、視覚モジュール30は、カメ
ラからの画像信号に基づいて、顔発見部31により例え
ば肌色抽出により各話者の顔を検出し、顔識別部32に
て前もって登録されている顔データベース38により検
索して、一致した顔があった場合、その顔ID34を決
定して当該顔を識別すると共に、顔定位部33により当
該顔方向35を決定(定位)する。尚、顔識別部32に
よる顔データベース38の検索の結果、一致した顔がな
かった場合には、顔学習部38aが、顔発見部31が検
出した顔を顔データベース38に登録する。
【0038】ここで、視覚モジュール30は、顔発見部
31が画像信号から複数の顔を見つけた場合、各顔につ
いて前記処理、即ち識別及び定位そして追跡を行なう。
その際、顔発見部31により検出された顔の大きさ,方
向及び明るさがしばしば変化するので、顔発見部31
は、顔領域検出を行なって、肌色抽出と相関演算に基づ
くパターンマッチングの組合せによって、200m秒以
内に複数の顔を正確に検出できるようになっている。
【0039】また、顔識別部32は、顔発見部31によ
り検出された各顔領域画像を、判別空間に射影し、顔デ
ータベース38に前もって登録された顔データとの距離
dを計算する。この距離dは、登録顔数(L)に依存す
るので、
【数5】 により、パラメータの依存しない確信度Pvに変換され
る。ここで、判別空間の基底となる判別行列は、公知の
オンラインLDAにより、通常のLDAと比較して少な
い計算により更新され得るので、リアルタイムに顔デー
タを登録することが可能である。
【0040】顔定位部33は、二次元の画像平面におけ
る顔位置を三次元空間に変換し、顔が画像平面にて
(x,y)に位置する幅と高さがそれぞれX及びYであ
るw×wピクセルであるとすると、三次元空間における
顔位置は、以下の各式で与えられる方位角θ,高さφ及
び距離rのセットとして得られる。
【数6】
【数7】
【数8】 ここで、C1 及びC2 は、探索画像サイズ(X,Y)と
カメラの画角そして実際の顔の大きさにより定義される
定数である。
【0041】そして、視覚モジュール30は、各顔毎
に、顔ID(名前)34及び顔方向35から、視覚イベ
ント生成部36により視覚イベント39を生成する。詳
細には、視覚イベント39は、各顔毎に、上位5つの確
信度付きの顔ID(名前)34と位置(距離r,水平角
度θ及び垂直角度φ)から構成されている。
【0042】尚、ビューア37は、視覚イベントをクラ
イアントの画面上に表示するものであり、具体的には、
図11(B)に示すように、カメラ15による画像と、
顔識別の確信度付きで抽出した顔の顔IDと、定位の結
果である位置のリストを表示する。ここで、カメラ15
による画像には、発見し同定された顔が長方形の枠で囲
まれて表示されている。複数の顔が発見された場合に
は、各顔について、それぞれ同定を示す長方形の枠と、
定位の結果としてのリストが表示される。
【0043】図7に示すように、前記モータ制御モジュ
ール40は、デバイス層としてのモータ41及びポテン
ショメータ42と、プロセス層としてのPWM制御回路
43,AD変換回路44及びモータ制御部45と、特徴
層としてのロボット方向46と、イベント層としてのモ
ータイベント生成部47と、ビューア48と、から構成
されている。
【0044】これにより、モータ制御モジュール40
は、アテンション制御モジュール64(後述)からの指
令に基づいてモータ制御部45によりPWM制御回路4
3を介してモータ41を駆動制御すると共に、モータ4
1の回転位置をポテンショメータ42により検出して、
AD変換回路44を介してモータ制御部45によりロボ
ット方向46を抽出し、モータイベント生成部47によ
りモータ方向情報から成るモータイベント49を生成す
る。
【0045】なお、ビューア48は、モータイベントを
クライアントの画面上に三次元的に表示するものであっ
て、具体的には図12(A)に示すように、モータイベ
ント49によるロボットの向きと動作速度を、例えばO
penGLにより実装されている三次元ビューアを利用
して、リアルタイムに三次元表示するようになってい
る。
【0046】図8に示すように、前記対話モジュール5
0は、デバイス層としてのスピーカ51及びマイク16
と、プロセス層としての音声合成回路52,対話制御回
路53及び自声抑制回路54,音声認識回路55と、か
ら構成されている。
【0047】これにより、対話モジュール50は、後述
するアソシエーションモジュール60により対話制御回
路53を制御し、音声合成回路52によりスピーカ51
を駆動することによって、対象とする話者に対して所定
の音声を発すると共に、マイク16からの音響信号から
自声抑制回路54によりスピーカ51からの音を除去し
た後、音声認識回路55により対象とする話者の音声を
認識する。なお、前記対話モジュール50は、階層とし
ての特徴層及びイベント層を備えていない。
【0048】ここで、対話制御回路53は、例えばパー
ティ受付ロボットの場合には、現在のアテンションを継
続することが最優先となるが、パーティロボットの場合
には、最も最近に関連付けられたストリームに対して、
アテンション制御される。
【0049】図9に示すように、前記アソシエーション
モジュール60は、上述した聴覚モジュール20,視覚
モジュール30,モータ制御モジュール40,対話モジ
ュール50に対して、階層的に上位に位置付けられてお
り、各モジュール20,30,40,50のイベント層
の上位であるストリーム層を構成している。具体的に
は、前記アソシエーションモジュール60は、聴覚モジ
ュール20,視覚モジュール30及びモータ制御モジュ
ール40からの非同期イベント61a即ち聴覚イベント
28,視覚イベント39及びモータイベント49を同期
させて同期イベント61bにする同期回路62と、これ
らの同期イベント61bを相互に関連付けて、聴覚スト
リーム65,視覚ストリーム66及びアソシエーション
ストリーム67を生成するストリーム生成部63と、さ
らにアテンション制御モジュール64と、ビューア68
を備えている。
【0050】前記同期回路62は、聴覚モジュール20
からの聴覚イベント28,視覚モジュール30からの視
覚イベント38及びモータ制御モジュール40からのモ
ータイベント49を同期させて、同期聴覚イベント,同
期視覚イベント及び同期モータイベントを生成する。そ
の際、聴覚イベント28及び視覚イベント38は、同期
モータイベントによって、その座標系が絶対座標系に変
換されることになる。
【0051】ここで、各イベントの実際に観測されてか
らネットワーク70を介してアソシエーションモジュー
ル60に到着するまでの遅延時間は、例えば聴覚イベン
ト28では40m秒、視覚イベント39では200m
秒、モータイベント49では100mであり、ネットワ
ーク70における遅延が10乃至200m秒であり、さ
らに到着周期も異なることによるものである。従って、
各イベントの同期を取るために、聴覚モジュール20,
視覚モジュール30及びモータ制御モジュール40から
の聴覚イベント28,視覚イベント39及びモータイベ
ント49は、それぞれ実際の観測時間を示すタイムスタ
ンプ情報を備えており、図示しない短期記憶回路にて、
例えば2秒間の間だけ一旦記憶される。
【0052】そして、同期回路62は、短期記憶回路に
記憶された各イベントを、上述した遅延時間を考慮し
て、実際の観測時間と比較して500m秒の遅延時間を
備えるように、同期プロセスにより取り出す。これによ
り、同期回路62の応答時間は500m秒となる。ま
た、このような同期プロセスは例えば100m秒周期で
動作するようになっている。尚、各イベントは、それぞ
れ互いに非同期でアソシエーションモジュール60に到
着するので、同期を取るための観測時刻と同時刻のイベ
ントが存在するとは限らない。従って、同期プロセス
は、同期を取るための観測時刻前後に発生したイベント
に対して、線形補間による補間を行なうようになってい
る。
【0053】また、ストリーム生成部63は、以下の点
に基づいて、ストリーム65,66,67の生成を行な
う。 1. 聴覚イベント28は、同等または倍音関係にある
ピッチを備え、方向が±10度以内で最も近い聴覚スト
リーム65に接続される。尚、±10度以内の値は、聴
覚エピポーラ幾何の精度を考慮して選定されたもので
あ。 2. 視覚イベント39は、共通の顔ID34を有し且
つ40cmの範囲内で最も近い視覚ストリーム66に接
続される。尚、40cmの範囲内の値は、秒速4m以上
で人間が移動することがないということを前提として選
定されたものである。 3. すべてのストリームに対して探索を行なった結
果、接続可能なストリーム65,66が存在しないイベ
ントがある場合には、当該イベント28,39は、新た
なストリーム65,66を構成することになる。 5. 既に存在しているストリーム65,66は、これ
らに接続されるイベント28,39がない場合には、最
大で500m秒間は存続するが、その後もイベントが接
続されない状態が継続すると、消滅する。 6. 聴覚ストリーム65と視覚ストリーム66が±1
0度以内に近接する状態が1秒間のうち500m秒以上
継続する場合、これの聴覚ストリーム65と視覚ストリ
ーム66は、同一話者に由来するものであるとみなさ
れ、互いに関係付けられて、アソシエーションストリー
ム67が生成される。 7. アソシエーションストリーム67は、聴覚イベン
ト28または視覚イベント39が3秒間以上接続されな
い場合には、関係付けが解除され、既存の聴覚ストリー
ム65または視覚ストリーム66のみが存続する。 8. アソシエーションストリーム67は、聴覚ストリ
ーム65及び視覚ストリーム66の方向差が3秒間、±
30度以上になった場合には、関係付けが解除され、個
々の聴覚ストリーム65及び視覚ストリーム66に戻
る。
【0054】これにより、ストリーム生成部63は、同
期回路62からの同期聴覚イベント及び同期視覚イベン
トに基づいて、これらの時間的つながりを考慮してイベ
ントを接続することにより、聴覚ストリーム65及び視
覚ストリーム66を生成すると共に、相互の結び付きの
強い聴覚ストリーム65及び視覚ストリーム66を関係
付けて、アソシエーションストリーム67を生成するよ
うになっており、逆にアソシエーションストリーム67
を構成する聴覚ストリーム65及び視覚ストリーム66
の結び付きが弱くなれば、関係付けを解除するようにな
っている。
【0055】また、アテンション制御モジュール64
は、モータ制御モジュール40の駆動モータ制御のプラ
ンニングのためのアテンション制御を行なうものであ
り、その際アソシエーションストリーム67,聴覚スト
リーム65そして視覚ストリーム66の順に優先的に参
照して、アテンション制御を行なう。そして、アテンシ
ョン制御モジュール64は、聴覚ストリーム65及び視
覚ストリーム66の状態とアソシエーションストリーム
67の存否に基づいて、ロボット10の動作プランニン
グを行ない、駆動モータ41の動作の必要があれば、モ
ータ制御モジュール40に対して動作指令としてのモー
タイベントをネットワーク70を介して送信する。
【0056】ここで、アテンション制御モジュール64
におけるアテンション制御は、連続性とトリガに基づい
ており、連続性により同じ状態を保持しようとし、トリ
ガにより最も興味のある対象を追跡しようとする。従っ
て、アテンション制御は、 1. アソシエーションストリームの存在は、ロボット
10に対して正対して話している人が現在も存在してい
る、あるいは近い過去に存在していたことを示している
ので、このようなロボット10に対して話している人に
対して、高い優先度でアテンションを向けて、トラッキ
ングを行なう必要がある。 2. マイク16は無指向性であるので、カメラの視野
角のような検出範囲が存在せず、広範囲の聴覚情報を得
ることができるので、視覚ストリームより聴覚ストリー
ムの優先度を高くすべきである。という二つの点を考慮
して、以下の原則に従ってアテンションを向けるストリ
ームを選択して、トラッキングを行なう。 1. アソシエーションストリームのトラッキングを最
優先する。 2. アソシエーションストリームが存在しない場合、
聴覚ストリームのトラッキングを優先する。 3. アソシエーションストリーム及び聴覚ストリーム
が存在しない場合、視覚ストリームのトラッキングを優
先する。 4. 複数の同じ種類のストリームが存在する場合、最
も古いストリームのトラッキングを優先する。 このようにして、アテンション制御モジュール64は、
アテンション制御を行なって、モータ制御モジュール4
0の駆動モータ41の制御のプランニングを行ない、こ
のプランニングに基づいて、モータコマンド66を生成
し、ネットワーク70を介してモータ制御モジュール4
0に伝送する。これにより、モータ制御モジュール40
では、このモータコマンド66に基づいて、モータ制御
部45がPWM制御を行なって、駆動モータ41を回転
駆動させて、ロボット10を所定方向に向けるようにな
っている。
【0057】尚、ビューア68は、このようにして生成
された各ストリームをサーバの画面上に表示するもので
あり、具体的には図12(B)に示すように、レーダチ
ャート及びストリームチャートにより表示する。ここ
で、レーダチャートは、その瞬間におけるストリームの
状態、より詳細にはカメラの視野角と音源方向を示し、
ストリームチャートは、アソシエーションストリーム
(太線図示)と聴覚ストリーム及び視覚ストリーム(細
線図示)を示している。
【0058】本発明実施形態による人型ロボット10は
以上のように構成されており、パーティ受付ロボットと
して対象とする話者に対して、図10を参照して、以下
のように動作する。先づ、図10(A)に示すように、
ロボット10は、パーティ会場の入口前に配置されてい
る。そして、図10(B)に示すように、パーティ参加
者Pがロボット10に接近してくるが、ロボット10
は、まだ当該参加者Pを認識していない。ここで、参加
者Pがロボット10に対して例えば「こんにちは」と話
し掛けると、ロボット10は、マイク16が当該参加者
Pの音声を拾って、聴覚モジュール20が音源方向を伴
う聴覚イベント28を生成して、ネットワーク70を介
してアソシエーションモジュール60に伝送する。
【0059】これにより、アソシエーションモジュール
60は、この聴覚イベント28に基づいて聴覚ストリー
ム29を生成する。このとき、視覚モジュール30は参
加者Pがカメラ15の視野内に入っていないので、視覚
イベント39を生成しない。従って、アソシエーション
モジュール60は、聴覚イベント28のみに基づいて、
聴覚ストリーム29を生成し、アテンション制御モジュ
ール64は、この聴覚ストリーム29をトリガーとし
て、ロボット10を参加者Pの方向に向けるようなアテ
ンション制御を行なう。
【0060】このようにして、図10(C)に示すよう
に、ロボット10が参加者Pの方向を向き、所謂声によ
るトラッキングが行なわれる。そして、視覚モジュール
30がカメラ15による参加者Pの顔の画像を取り込ん
で、視覚イベント39を生成して、当該参加者Pの顔を
顔データベース38により検索し、顔識別を行なうと共
に、その結果である顔ID24及び画像をネットワーク
70を介してアソシエーションモジュール60に伝送す
る。尚、当該参加者Pの顔が顔データベース38に登録
されていない場合には、視覚モジュール30は、その旨
をネットワーク70を介してアソシエーションモジュー
ルに伝送する。
【0061】このとき、ロボット10は、聴覚イベント
28及び視覚イベント39によりアソシエーションスト
リーム65を生成しており、このアソシエーションスト
リーム65によりアテンション制御モジュール64は、
そのアテンション制御を変更しないので、ロボット10
は、参加者Pの方向を向き続ける。従って、参加者Pが
移動したとしても、ロボット10は、アソシエーション
ストリーム65によりモータ制御モジュール40を制御
することにより、参加者Pを追跡して、視覚モジュール
30のカメラ15が参加者Pを継続して撮像し得るよう
になっている。
【0062】そして、アソシエーションモジュール60
は、聴覚モジュール20の音声認識回路55に入力を与
えて、音声認識回路55はその音声認識結果を対話制御
回路53に与える。これにより、対話制御回路53は音
声合成を行なってスピーカ51から発声する。このと
き、音声認識回路55がマイク16からの音響信号から
スピーカ51からの音を自声抑制回路54により低減す
ることにより、ロボット10は自身の発声を無視して、
相手の声をより正確に認識することができる。
【0063】ここで、音声合成による発声は、参加者P
の顔が前記顔データベース38に登録されているか否か
で異なる。参加者Pの顔が顔データベース38に登録さ
れている場合には、アソシエーションモジュール60
は、視覚モジュール30からの顔ID24に基づいて、
対話モジュール50を制御して、音声合成により「こん
にちは。XXXさんですか?」と参加者Pに対して質問
する。これに対して、参加者Pが「はい。」と答える
と、対話モジュール50がマイク16からの音響信号に
基づいて、音声認識回路55により「はい」を認識して
対話制御回路53により音声合成を行ない、スピーカ5
1から「ようこそXXXさん、どうぞ部屋にお入り下さ
い。」と発声する。
【0064】また、参加者Pの顔が顔データベース38
に登録されていない場合には、アソシエーションモジュ
ール60は、対話モジュール50を制御して、音声合成
により「こんにちは。あなたのお名前を教えていただけ
ますか?」と参加者Pに対して質問する。これに対し
て、参加者Pが「XXXです。」と自分の名前を答える
と、対話モジュール50がマイク16からの音響信号に
基づいて、音声認識回路55により「XXX」を認識し
て、対話制御回路53により音声合成を行ない、スピー
カ51から「ようこそXXXさん、どうぞ部屋にお入り
下さい。」と発声する。このようにして、図10(D)
に示すようにロボット10は、参加者Pの認識を行なっ
て、パーティ会場への入場を誘導すると共に、視覚モジ
ュール30で当該参加者Pの顔の画像と名前「XXX」
を顔データベース38に登録させる。
【0065】また、人型ロボット10はパーティロボッ
トとして以下のように動作する。この場合、人型ロボッ
ト10は、聴覚モジュール20による聴覚イベント28
及び視覚モジュール30による視覚イベント39と、ア
ソシエーションモジュール60によるアソシエーション
ストリーム65に基づいて、複数の話者を聴覚及び視覚
により認識していると共に、複数の話者のうちの一人の
話者を追跡したり、あるいは途中で他の話者に切り換え
て追跡することができる。尚、パーティロボットの場合
には、ロボット10は、受動的な役割を果たす、即ちパ
ーティ参加者の「話を聴き」、あるいは「話者を見る」
のみであり、対話モジュール50により発声することは
ない。
【0066】また、パーティロボットとしての人型ロボ
ット10は、パーティ受付ロボットと顔データベース3
8を共用し、あるいはパーティ受付ロボットの顔データ
ベース38が転送または複写されるようにしてもよい。
この場合、パーティロボットとしての人型ロボット10
は、パーティ参加者全員を常に顔識別によって認識する
ことができる。
【0067】このようにして、本発明実施形態による人
型ロボット10によれば、聴覚モジュール20及び視覚
モジュール30からの聴覚イベント及び視覚イベントに
基づいて、アソシエーションモジュール60が聴覚スト
リーム,視覚ストリームそしてアソシエーションストリ
ームを生成することによって、複数の対象である話者を
認識しているので、何れかのイベントが欠落したり明確
に認識できなくなった場合、例えば話者が移動して「見
えなく」なった場合でも聴覚により、また話者が話をせ
ず「聞こえなく」なった場合でも視覚により、リアルタ
イムに複数の話者を聴覚的及び/又は視覚的にトラッキ
ングすることができる。
【0068】上述した実施形態において、人型ロボット
10は、4DOF(自由度)を有するように構成されて
いるが、これに限らず、任意の動作を行なうように構成
されたロボットに本発明によるロボット聴覚システムを
組み込むことも可能である。また、上述した実施形態に
おいては、本発明によるロボット視聴覚システムを人型
ロボット10に組み込んだ場合について説明したが、こ
れに限らず、犬型等の各種動物型ロボットや、その他の
形式のロボットに組み込むことも可能であることは明ら
かである。さらに、上述した実施形態においては、アテ
ンション制御の際に、複数の同じ種類のストリームが存
在する場合、最も古いストリームのトラッキングを優先
するようになっているが、これに限らず、他のストリー
ム、例えば最も新しいストリームのトラッキングを優先
させるようにしてもよい。
【0069】
【発明の効果】以上述べたように、この発明によれば、
聴覚モジュールが、マイクが集音した外部の対象からの
音から、調波構造を利用してピッチ抽出を行なうことに
より、音源毎の方向を得て、個々の話者の音源を同定し
て、その聴覚イベントを抽出する。また、視覚モジュー
ルが、カメラにより撮像された画像から、パターン認識
による話者の顔識別と定位から、個々の話者の視覚イベ
ントを抽出する。さらに、モータ制御モジュールが、ロ
ボットを水平方向に回動させる駆動モータの回転位置に
基づいて、ロボットの方向を検出することによって、モ
ータイベントを抽出する。
【0070】ここで、アソシエーションモジュールは、
このようにしてそれぞれ抽出された聴覚イベント,視覚
イベント及びモータイベントに基づいて、各話者の聴覚
ストリーム及び視覚ストリームを生成し、さらにこれら
のストリームを関連付けてアソシエーションストリーム
を生成して、これらのストリームに基づいてアテンショ
ン制御を行なうことにより、モータ制御モジュールの駆
動モータ制御のプランニングを行なう。そして、アテン
ション制御モジュールは、このプランニングに基づいて
モータ制御モジュールの駆動モータを制御することによ
り、ロボットの方向を対象である話者に向ける。これに
より、ロボットが対象である話者に対して正対すること
により、聴覚モジュールが当該話者の声を、感度の高い
正面方向にてマイクにより正確に集音,定位することが
できる共に、視覚モジュールが当該話者の画像をカメラ
により良好に撮像することができるようになる。
【0071】従って、このような聴覚モジュール,視覚
モジュール及びモータ制御モジュールと、アソシエーシ
ョンモジュール及びアテンション制御モジュールとの連
携によって、ロボットの聴覚及び視覚がそれぞれ有する
曖昧性が互いに補完されることになり、所謂ロバスト性
が向上し、複数の話者であっても、各話者をそれぞれ知
覚することができる。また、例えば聴覚イベントまたは
視覚イベントの何れか一方が欠落したときであっても、
視覚イベントまたは聴覚イベントのみに基づいて、対象
である話者をアテンション制御が追跡することができる
ので、リアルタイムにモータ制御モジュールの制御を行
なうことができる。さらに、イベント及びストリームと
いうシンボリックな情報を扱うことによって、より高次
な処理を実現することができると共に、ネットワークを
介して伝送されるデータ量が抑制されることにより、通
信のトラフィックが軽くなるので、視聴覚システム全体
やビューアにおけるリアルタイム処理に寄与する。これ
により、本発明によれば、対象に対する視覚及び聴覚の
追跡を行なうためのリアルタイム処理を可能にするよう
にした、極めて優れたロボット視聴覚システムが提供さ
れる。
【図面の簡単な説明】
【図1】この発明によるロボット聴覚装置の第一の実施
形態を組み込んだ人型ロボットの外観を示す正面図であ
る。
【図2】図1の人型ロボットの側面図である。
【図3】図1の人型ロボットにおける頭部の構成を示す
概略拡大図である。
【図4】図1の人型ロボットにおけるロボット視聴覚シ
ステムの電気的構成を示すブロック図である。
【図5】図4におけるブロック1の聴覚モジュールを拡
大して示す電気的構成のブロック図である。
【図6】図4におけるブロック2の視覚モジュールを拡
大して示す電気的構成のブロック図である。
【図7】図4におけるブロック3のモータ制御モジュー
ルを拡大して示す電気的構成のブロック図である。
【図8】図4におけるブロック4の対話モジュールを拡
大して示す電気的構成のブロック図である。
【図9】図4におけるブロック5のアソシエーションモ
ジュールを拡大して示す電気的構成のブロック図であ
る。
【図10】図4のロボット視聴覚システムにおけるパー
ティ受付ロボットとしての動作例を示す図である。
【図11】図4のロボット視聴覚システムにおける
(A)聴覚モジュール,(B)視覚モジュールのビュー
アの画面例を示す図である。
【図12】図4のロボット視聴覚システムにおける
(C)モータ制御モジュール,(D)アソシエーション
モジュールのビューアの画面例を示す図である。
【符号の説明】
10 人型ロボット 11 ベース 12 胴体部 13 頭部 13a 連結部材 14 外装 15 カメラ(ロボット視覚) 16,16a,16b マイク(ロボット聴覚) 17 ロボット視聴覚システム 20 聴覚モジュール 30 視覚モジュール 40 モータ制御モジュール 50 対話モジュール 60 アソシエーションモジュール 64 アテンション制御モジュール 70 ネットワーク
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 545A H04N 7/18 551H Fターム(参考) 3C007 AS36 JS05 KS11 KS39 KT01 MT14 WA02 WA03 WB17 WB19 WC25 WC26 5B057 AA05 BA02 BA04 DA07 DB02 DB06 DB09 DC32 DC40 5C054 AA01 CC02 FC11 FF05 HA04 5D015 AA03

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 外部の音を集音する少なくとも一対のマ
    イクを含む聴覚モジュールと、 ロボットの前方を撮像するカメラを含む視覚モジュール
    と、 ロボットを水平方向に回動させる駆動モータを含むモー
    タ制御モジュールと、 前記聴覚モジュール,視覚モジュール及びモータ制御モ
    ジュールからのイベントを統合してストリームを生成す
    るアソシエーションモジュールと、 アソシエーションモジュールにより生成されたストリー
    ムに基づいてアテンション制御を行なうアテンション制
    御モジュールと、を備えているロボット視聴覚システム
    であって、 前記聴覚モジュールが、マイクからの音響信号に基づい
    て、ピッチ抽出,音源の分離及び定位から、少なくとも
    一人の話者の音源を同定して、その聴覚イベントを抽出
    し、 前記視覚モジュールが、カメラにより撮像された画像に
    基づいて、各話者の顔識別と定位から、その視覚イベン
    トを抽出し、 前記モータ制御モジュールが、駆動モータの回転位置に
    基づいて、モータイベントを抽出することにより、 前記アソシエーションモジュールが、聴覚モジュールか
    らの聴覚イベント,視覚モジュールからの視覚イベント
    及びモータ制御モジュールからのモータイベントに基づ
    いて、聴覚ストリーム及び視覚ストリームを生成し、さ
    らにこれらを関連付けてアソシエーションストリームを
    生成して、 前記アテンション制御モジュールが、これらのストリー
    ムに基づいてモータ制御モジュールの駆動モータ制御の
    プランニングのためのアテンション制御を行なうことを
    特徴とする、ロボット視聴覚システム。
  2. 【請求項2】 外部の音を集音する少なくとも一対のマ
    イクを含む聴覚モジュールと、 ロボットの前方を撮像するカメラを含む視覚モジュール
    と、 ロボットを水平方向に回動させる駆動モータを含むモー
    タ制御モジュールと、 前記聴覚モジュール,視覚モジュール及びモータ制御モ
    ジュールからのイベントを統合してストリームを生成す
    るアソシエーションモジュールと、 アソシエーションモジュールにより生成されたストリー
    ムに基づいてアテンション制御を行なうアテンション制
    御モジュールと、を備えている人型または動物型のロボ
    ットの視聴覚システムであって、 前記聴覚モジュールが、マイクからの音響信号に基づい
    て、ピッチ抽出,音源の分離及び定位から、少なくとも
    一人の話者の音源を同定して、その聴覚イベントを抽出
    し、 前記視覚モジュールが、カメラにより撮像された画像に
    基づいて各話者の顔識別と定位からその視覚イベントを
    抽出し、 前記モータ制御モジュールが、駆動モータの回転位置に
    基づいてモータイベントを抽出することにより、 前記アソシエーションモジュールが、聴覚モジュールか
    らの聴覚イベント,視覚モジュールからの視覚イベント
    及びモータ制御モジュールからのモータイベントに基づ
    いて、聴覚ストリーム及び視覚ストリームを生成して、
    さらにこれらを関連付けてアソシエーションストリーム
    を生成して、 前記アテンション制御モジュールが、これらのストリー
    ムに基づいてモータ制御モジュールの駆動モータ制御の
    プランニングのためのアテンション制御を行なうことを
    特徴とする、ロボット視聴覚システム。
  3. 【請求項3】 前記アソシエーションモジュールが、聴
    覚ストリーム及び視覚ストリームを生成する際に、非同
    期に生成される聴覚イベント,視覚イベント及びモータ
    イベントを相互に同期させることを特徴とする、請求項
    1または2に記載のロボット視聴覚システム。
  4. 【請求項4】 前記アソシエーションモジュールがサー
    バであって、前記聴覚モジュール,視覚モジュール及び
    モータ制御モジュールがそれぞれサーバに接続されたク
    ライアントであることを特徴とする、請求項1から3の
    何れかに記載のロボット視聴覚システム。
  5. 【請求項5】 前記サーバと各クライアントが、相互に
    LAN接続されていることを特徴とする、請求項4に記
    載のロボット視聴覚システム。
  6. 【請求項6】 前記アテンション制御モジュールが、ア
    テンション制御を行なう際に、アソシエーションストリ
    ーム,聴覚ストリーム及び視覚ストリームの順に優先さ
    せることを特徴とする、請求項1から5の何れかに記載
    のロボット視聴覚システム。
  7. 【請求項7】 前記アソシエーションモジュールが、聴
    覚ストリーム及び視覚ストリームを生成する際に、聴覚
    イベント,視覚イベント及びモータイベントを相互に同
    期させることを特徴とする、請求項1から6の何れかに
    記載のロボット視聴覚システム。
JP2001067846A 2001-03-09 2001-03-09 ロボット視聴覚システム Expired - Fee Related JP3843740B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001067846A JP3843740B2 (ja) 2001-03-09 2001-03-09 ロボット視聴覚システム
PCT/JP2002/002204 WO2002072317A1 (fr) 2001-03-09 2002-03-08 Systeme de robot audiovisuel
US10/468,396 US6967455B2 (en) 2001-03-09 2002-03-08 Robot audiovisual system
EP02702847A EP1375084A4 (en) 2001-03-09 2002-03-08 AUDIOVISUAL ROBOT SYSTEM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001067846A JP3843740B2 (ja) 2001-03-09 2001-03-09 ロボット視聴覚システム

Publications (2)

Publication Number Publication Date
JP2002264058A true JP2002264058A (ja) 2002-09-18
JP3843740B2 JP3843740B2 (ja) 2006-11-08

Family

ID=18926121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001067846A Expired - Fee Related JP3843740B2 (ja) 2001-03-09 2001-03-09 ロボット視聴覚システム

Country Status (1)

Country Link
JP (1) JP3843740B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002264053A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
WO2005076661A1 (ja) 2004-02-10 2005-08-18 Mitsubishi Denki Engineering Kabushiki Kaisha 超指向性スピーカ搭載型移動体
JP2007021719A (ja) * 2006-08-01 2007-02-01 Sony Corp 学習装置及び学習方法並びにロボット装置
US7424118B2 (en) 2004-02-10 2008-09-09 Honda Motor Co., Ltd. Moving object equipped with ultra-directional speaker
JP2013122695A (ja) * 2011-12-12 2013-06-20 Honda Motor Co Ltd 情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システム
JP2017513724A (ja) * 2014-04-17 2017-06-01 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 人と人型ロボットの交流を処理するためのシステム、方法及びコンピュータプログラムプロダクト
JP2019130601A (ja) * 2018-01-30 2019-08-08 日本信号株式会社 対話型ロボット
EP3418912B1 (en) * 2016-06-13 2022-08-03 Nec Corporation Response device, response system, response method, and recording medium
JPWO2022249226A1 (ja) * 2021-05-24 2022-12-01

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148184A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
JP2001175869A (ja) * 1999-12-07 2001-06-29 Samsung Electronics Co Ltd 話し手位置検出装置及びその方法
JP2001188779A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2001212780A (ja) * 2000-01-31 2001-08-07 Sony Corp 行動制御装置および行動制御方法、並びに記録媒体
JP2002264053A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148184A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
JP2001175869A (ja) * 1999-12-07 2001-06-29 Samsung Electronics Co Ltd 話し手位置検出装置及びその方法
JP2001188779A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2001212780A (ja) * 2000-01-31 2001-08-07 Sony Corp 行動制御装置および行動制御方法、並びに記録媒体
JP2002264053A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002264053A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
WO2005076661A1 (ja) 2004-02-10 2005-08-18 Mitsubishi Denki Engineering Kabushiki Kaisha 超指向性スピーカ搭載型移動体
US7424118B2 (en) 2004-02-10 2008-09-09 Honda Motor Co., Ltd. Moving object equipped with ultra-directional speaker
JP2007021719A (ja) * 2006-08-01 2007-02-01 Sony Corp 学習装置及び学習方法並びにロボット装置
JP4529091B2 (ja) * 2006-08-01 2010-08-25 ソニー株式会社 学習装置及び学習方法並びにロボット装置
JP2013122695A (ja) * 2011-12-12 2013-06-20 Honda Motor Co Ltd 情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システム
US8990078B2 (en) 2011-12-12 2015-03-24 Honda Motor Co., Ltd. Information presentation device associated with sound source separation
JP2017513724A (ja) * 2014-04-17 2017-06-01 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 人と人型ロボットの交流を処理するためのシステム、方法及びコンピュータプログラムプロダクト
US11514663B2 (en) 2016-06-13 2022-11-29 Nec Corporation Reception apparatus, reception system, reception method, and storage medium
EP3418912B1 (en) * 2016-06-13 2022-08-03 Nec Corporation Response device, response system, response method, and recording medium
US11430207B2 (en) 2016-06-13 2022-08-30 Nec Corporation Reception apparatus, reception system, reception method and storage medium
US11850728B2 (en) 2016-06-13 2023-12-26 Nec Corporation Reception apparatus, reception system, reception method, and storage medium
JP7125083B2 (ja) 2018-01-30 2022-08-24 日本信号株式会社 対話型ロボット
JP2019130601A (ja) * 2018-01-30 2019-08-08 日本信号株式会社 対話型ロボット
JPWO2022249226A1 (ja) * 2021-05-24 2022-12-01
WO2022249226A1 (ja) * 2021-05-24 2022-12-01 三菱電機株式会社 ロボット教示装置、ロボット制御システム、ロボット教示方法、及びロボット教示プログラム
JP7272521B2 (ja) 2021-05-24 2023-05-12 三菱電機株式会社 ロボット教示装置、ロボット制御システム、ロボット教示方法、及びロボット教示プログラム

Also Published As

Publication number Publication date
JP3843740B2 (ja) 2006-11-08

Similar Documents

Publication Publication Date Title
US6967455B2 (en) Robot audiovisual system
JP3627058B2 (ja) ロボット視聴覚システム
Okuno et al. Human-robot interaction through real-time auditory and visual multiple-talker tracking
Nakadai et al. Real-time auditory and visual multiple-object tracking for humanoids
US10791409B2 (en) Improving a user experience localizing binaural sound to an AR or VR image
US20090030552A1 (en) Robotics visual and auditory system
Okuno et al. Social interaction of humanoid robot based on audio-visual tracking
Nakadai et al. Active audition for humanoid
EP1715717B1 (en) Moving object equipped with ultra-directional speaker
JP3632099B2 (ja) ロボット視聴覚システム
EP1306832A1 (en) Robot acoustic device and robot acoustic system
EP3533237A1 (en) Facial recognition system
Nakadai et al. Real-time speaker localization and speech separation by audio-visual integration
JP3843740B2 (ja) ロボット視聴覚システム
JP3843743B2 (ja) ロボット視聴覚システム
JP3843741B2 (ja) ロボット視聴覚システム
CN111551921A (zh) 一种声像联动的声源定向系统及方法
JP3843742B2 (ja) ロボット視聴覚システム
Okuno et al. Human–robot non-verbal interaction empowered by real-time auditory and visual multiple-talker tracking
Kim et al. Auditory and visual integration based localization and tracking of humans in daily-life environments
Okuno et al. Realizing audio-visually triggered ELIZA-like non-verbal behaviors
CN110730378A (zh) 一种信息处理方法及系统
Okuno et al. Realizing personality in audio-visually triggered non-verbal behaviors
Okuno et al. Sound and visual tracking for humanoid robot
Okuno et al. Design and implementation of personality of humanoids in human humanoid non-verbal interaction

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20060509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060807

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090825

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100825

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110825

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110825

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120825

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130825

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees