JP3843740B2

JP3843740B2 - ロボット視聴覚システム

Info

Publication number: JP3843740B2
Application number: JP2001067846A
Authority: JP
Inventors: 一博中臺; 健一日台; 博奥乃; 宏明北野
Original assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Priority date: 2001-03-09
Filing date: 2001-03-09
Publication date: 2006-11-08
Anticipated expiration: 2021-03-09
Also published as: JP2002264058A

Description

【０００１】
【発明の属する技術分野】
本発明はロボット、特に人型または動物型ロボットにおける視聴覚システムに関するものである。
【０００２】
【従来の技術】
近年、このような人型または動物型ロボットにおいては、視覚，聴覚の能動知覚が注目されてきている。
能動知覚とは、ロボット視覚やロボット聴覚等の知覚を担当する知覚装置を、知覚すべき対象に追従するように、これらの知覚装置を支持する例えば頭部を、駆動機構により姿勢制御するものである。
【０００３】
ここで、能動視覚に関しては、少なくとも知覚装置であるカメラが、駆動機構による姿勢制御によってその光軸方向が対象に向かって保持され、対象に対して自動的にフォーカシングやズームイン，ズームアウト等を行うことにより、対象をカメラによって撮像するようになっており、種々の研究が行なわれている。
【０００４】
これに対して、能動聴覚に関しては、少なくとも知覚装置であるマイクが、駆動機構による姿勢制御によって、その指向性が対象に向かって保持され、対象からの音がマイクによって集音される。
このような能動聴覚は、例えば本出願人による特願２０００−２２６７７号（ロボット聴覚システム）に開示されており、視覚情報を参照して音源の方向付けを行なうようにしている。
【０００５】
【発明が解決しようとする課題】
ところで、これらの能動視覚及び能動聴覚は、ロボットの向き（水平方向）を変更するためのモータ制御モジュールと密接に関連があり、特定の対象に対して、能動視覚及び能動聴覚を働かせるためには、ロボットを特定の対象に向ける、即ちアテンション制御を行なう必要がある。
しかしながら、視覚及び聴覚をモータ制御モジュールの制御と統合させるためには、視覚及び聴覚の追跡を行なうためのリアルタイム処理が必要であるが、従来のロボット開発においては、単一音源を対象としたリアルタイム処理を行なうものは実現されているが、例えば複数の人間が互いに話をしているような状況において、リアルタイム処理により、各人を同定して、能動聴覚を行なうことは行なわれていない。
【０００６】
この発明は、以上の点にかんがみて、対象に対する視覚及び聴覚の追跡を行なうためのリアルタイム処理を可能にし、さらに視覚，聴覚，モータ等のセンサー情報を統合して、何れかの情報が欠落したとしても、相互に補完することにより追跡を継続し得るようにした、ロボット視聴覚システムを提供することを目的としている。
【０００７】
【課題を解決するための手段】
前記目的は、この発明によれば、外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む視覚モジュールと、ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、前記聴覚モジュール，視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えているロボット視聴覚システムであって、前記聴覚モジュールが、マイクからの音響信号に基づいてピッチ抽出，音源の分離及び定位から少なくとも一人の話者の音源を同定してその聴覚イベントを抽出し、前記視覚モジュールが、カメラにより撮像された画像に基づいて各話者の顔識別と定位から話者の視覚イベントを抽出し、前記モータ制御モジュールが、駆動モータの回転位置に基づいてモータイベントを抽出することにより、前記アソシエーションモジュールが、聴覚モジュールからの聴覚イベント，視覚モジュールからの視覚イベント及びモータ制御モジュールからのモータイベントに基づいて聴覚ストリーム及び視覚ストリームを生成し、さらに聴覚ストリームと視覚ストリームとを関連付けてアソシエーションストリームを生成して、前記アテンション制御モジュールが、聴覚ストリーム，視覚ストリーム，アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうことを特徴とするロボット視聴覚システムにより、達成される。
【０００８】
また、前記目的は、この発明によれば、外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む視覚モジュールと、ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、前記聴覚モジュール，視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールとを備えている人型または動物型のロボットの視聴覚システムであって、前記聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出，音源の分離及び定位から少なくとも一人の話者の音源を同定してその聴覚イベントを抽出し、前記視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から話者の視覚イベントを抽出し、前記モータ制御モジュールが、駆動モータの回転位置に基づいてモータイベントを抽出することにより、前記アソシエーションモジュールが、聴覚モジュールからの聴覚イベント，視覚モジュールからの視覚イベント及びモータ制御モジュールからのモータイベントに基づいて聴覚ストリーム及び視覚ストリームを生成して、さらに聴覚ストリームと視覚ストリームとを関連付けてアソシエーションストリームを生成して、前記アテンション制御モジュールが、聴覚ストリーム，視覚ストリーム，アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうことを特徴とするロボット視聴覚システムにより、達成される。
【０００９】
本発明によるロボット視聴覚システムは、好ましくは、前記アソシエーションモジュールが、聴覚ストリーム及び視覚ストリームを生成する際に、非同期で生成される聴覚イベント，視覚イベント及びモータイベントを相互に同期させる。
【００１０】
本発明によるロボット視聴覚システムは、好ましくは、前記アソシエーションモジュールがサーバであって、前記聴覚モジュール，視覚モジュール及びモータ制御モジュールがそれぞれサーバに接続されたクライアントである。
【００１１】
本発明によるロボット視聴覚システムは、好ましくは、前記サーバと各クライアントが、相互にＬＡＮ接続されている。
【００１２】
本発明によるロボット視聴覚システムは、好ましくは、前記アテンション制御モジュールが、アテンション制御の際に、アソシエーションストリーム，聴覚ストリーム及び視覚ストリームの順に優先させる。
【００１３】
前記構成によれば、聴覚モジュールが、マイクが集音した外部の対象からの音から調波構造を利用してピッチ抽出を行なうことにより、音源毎の方向を得て、個々の話者の音源を同定し、その聴覚イベントを抽出する。
また、視覚モジュールが、カメラにより撮像された画像から、パターン認識による各話者の顔識別と定位から個々の話者の視覚イベントを抽出する。
さらに、モータ制御モジュールが、ロボットを水平方向に回動させる駆動モータの回転位置に基づいてロボットの方向を検出することによって、モータイベントを抽出する。
なお、前記イベントとは、各時点において音または顔が検出され、ピッチ及び方向等の特徴が抽出されて、話者同定や顔識別等が行なわれること、あるいは駆動モータが回転される状態を示しており、ストリームとは、時間的に連続するイベントを示している。
【００１４】
ここで、アソシエーションモジュールは、このようにしてそれぞれ抽出された聴覚イベント，視覚イベント及びモータイベントに基づいて、各話者の聴覚ストリーム及び視覚ストリームを生成し、さらにこれらのストリームを関連付けてアソシエーションストリームを生成して、アテンション制御モジュールが、これらのストリームに基づいてアテンション制御を行なうことにより、モータ制御モジュールの駆動モータ制御のプランニングを行なう。
アテンションとは、ロボットが対象である話者を、聴覚的及び／又は視覚的に「注目」することであり、アンテンション制御とは、モータ制御モジュールによりその向きを変えることにより、ロボットが前記話者に注目するようにすることである。
そして、アテンション制御モジュールは、このプランニングに基づいて、モータ制御モジュールの駆動モータを制御することにより、ロボットの方向を対象である話者に向ける。これにより、ロボットが対象である話者に対して正対することにより、聴覚モジュールが当該話者の声を感度の高い正面方向にてマイクにより正確に集音，定位することができると共に、視覚モジュールが当該話者の画像をカメラにより良好に撮像することができるようになる。
【００１５】
従って、このような聴覚モジュール，視覚モジュール及びモータ制御モジュールと、アソシエーションモジュール及びアテンション制御モジュールとの連携によって、ロボットの聴覚及び視覚がそれぞれ有する曖昧性が互いに補完されることになり、所謂ロバスト性が向上し、複数の話者であっても、各話者をそれぞれ知覚することができる。
また、例えば聴覚イベントまたは視覚イベントの何れか一方が欠落したときであっても、視覚イベントまたは聴覚イベントのみに基づいて、対象である話者をアソシエーションモジュールが知覚することができるので、リアルタイムにモータ制御モジュールの制御を行なうことができる。
【００１６】
前記アソシエーションモジュールが、聴覚ストリーム及び視覚ストリームを生成する際に、聴覚イベント，視覚イベント及びモータイベントを相互に同期させる場合には、それぞれ非同期で生成された聴覚イベント，視覚イベント及びモータイベントが互いに同期することによって、アソシエーションモジュールでのこれらのイベントの互いに異なる生成周期及び遅延時間が吸収されることになり、聴覚イベントから成る聴覚ストリームと視覚イベントから成る視覚ストリームが互いに近い距離に存在した場合には、相互に関連付けてより高次のアソシエーションストリームを生成することができる。
【００１７】
前記アソシエーションモジュールがサーバであって、前記聴覚モジュール，視覚モジュール及びモータ制御モジュールがそれぞれサーバに接続されたクライアントであり、さらに前記サーバと各クライアントが、相互にＬＡＮ接続されている場合には、各モジュールが、それぞれ互いにＬＡＮ接続されたサーバ及びクライアントにより分散処理されることにより、高速にリアルタイム処理を行なうことができる。
【００１８】
前記アテンション制御モジュールが、アテンション制御を行なう際に、アソシエーションストリーム，聴覚ストリーム及び視覚ストリームの順に優先させる場合には、アソシエーションストリームを主体として、聴覚ストリーム及び視覚ストリームを補助的に参照して、対象である話者に対するアテンション制御を行なうことにより、例えば対象である話者の視覚イベントを取得することができず、視覚ストリームが生成されないときでも、連続的に聴覚イベントを取得して聴覚ストリームを生成することができるので、聴覚ストリームに基づいてアテンション制御を行なうことにより、連続したリアルタイム処理を行なうことができる。さらに、複数の同種類のストリームが存在する場合には、状況に応じて、最も古いストリームを優先したり、最も新しいストリームを優先することができる。
【００１９】
【発明の実施の形態】
以下、図面に示した実施形態に基づいて、この発明を詳細に説明する。
図１乃至図４はこの発明によるロボット視聴覚システムの一実施形態を備えた実験用の人型ロボットの全体構成を示している。
図１において、人型ロボット１０は、４ＤＯＦ（自由度）のロボットとして構成されており、ベース１１と、ベース１１上にて一軸（垂直軸）周りに回動可能に支持された胴体部１２と、胴体部１２上にて、三軸方向（垂直軸，左右方向の水平軸及び前後方向の水平軸）の周りに揺動可能に支持された頭部１３と、を含んでいる。
【００２０】
前記ベース１１は固定配置されていてもよく、脚部として動作可能としてもよい。また、ベース１１は、移動可能な台車等の上に載置されていてもよい。
前記胴体部１２は、ベース１１に対して垂直軸の周りに、図１にて矢印Ａで示すように回動可能に支持されており、図示しない駆動手段によって回転駆動されると共に、図示の場合、防音性の外装によって覆われている。
【００２１】
前記頭部１３は胴体部１２に対して連結部材１３ａを介して支持されており、この連結部材１３ａに対して前後方向の水平軸の周りに、図１にて矢印Ｂで示すように揺動可能に、また左右方向の水平軸の周りに、図２にて矢印Ｃで示すように揺動可能に支持されていると共に、前記連結部材１３ａが、胴体部１２に対してさらに前後方向の水平軸の周りに、図１にて矢印Ｄで示すように揺動可能に支持されており、それぞれ図示しない駆動手段によって、各矢印Ａ，Ｂ，Ｃ，Ｄ方向に回転駆動される。
【００２２】
ここで、前記頭部１３は、図３に示すように全体が防音性の外装１４により覆われていると共に、前側にロボット視覚を担当する視覚装置としてのカメラ１５を、また両側にロボット聴覚を担当する聴覚装置としての一対のマイク１６（１６ａ，１６ｂ）を備えている。
【００２３】
前記外装１４は、例えばウレタン樹脂等の吸音性の合成樹脂から構成されており、頭部１３の内部をほぼ完全に密閉することにより、頭部１３の内部の遮音を行なうように構成されている。
尚、胴体部１２の外装も、同様にして吸音性の合成樹脂から構成されている。
前記カメラ１５は公知の構成であって、例えば所謂パン，チルト，ズームの３ＤＯＦ（自由度）を有する市販のカメラが適用され得る。
【００２４】
前記マイク１６は、それぞれ頭部１３の側面において、前方に向かって指向性を有するように取り付けられている。
ここで、マイク１６の左右の各マイク１６ａ，１６ｂは、それぞれ図１及び図２に示すように、外装１４の両側にて前方に向いた段部１４ａ，１４ｂにて、内側に取り付けられ、段部１４ａ，１４ｂに設けられた貫通穴を通して、前方の音を集音すると共に、外装１４の内部の音を拾わないように、適宜の手段により遮音されている。
これにより、マイク１６ａ，１６ｂは、所謂バイノーラルマイクとして構成されている。尚、マイク１６ａ，１６ｂの取付位置の近傍において、外装１４は人間の外耳形状に形成されていてもよい。
【００２５】
図４は、前記マイク１６及びカメラ１５を含むロボット視聴覚システムの電気的構成を示している。
図４において、視聴覚システム１７は、パーティ受付及びコンパニオン用ロボットとしての構成であり、聴覚モジュール２０，視覚モジュール３０，モータ制御モジュール４０，対話モジュール５０及びアソシエーションモジュール６０から構成されている。
以下、図４の各部を拡大して示す図５〜図９をも参照しつつさらに説明する。説明の便宜上、聴覚モジュール２０をブロック１として図５に拡大して示し、視覚モジュール３０をブロック２として図６に拡大して示し、モータ制御モジュール４０をブロック３として図７に拡大して示し、対話モジュール５０をブロック４として図８に拡大して示し、さらに、アソシエーションモジュール６０をブロック５として図９に拡大して示す。
ここで、アソシエーションモジュール６０（ブロック５、図９）はサーバから構成されていると共に、他のモジュール、即ち聴覚モジュール２０（ブロック１、図５），視覚モジュール３０（ブロック２、図６），モータ制御モジュール４０（ブロック３、図７），対話モジュール５０（ブロック４、図８）は、それぞれクライアントから構成されており、互いに非同期で動作する。
【００２６】
尚、前記サーバ及び各クライアントは、例えばパーソナルコンピュータにより構成されており、例えば１００Ｂａｓｅ−Ｔ等のネットワーク７０を介して、例えばＴＣＰ／ＩＰプロトコルにより、相互にＬＡＮ接続されている。
また、各モジュール２０，３０，４０，５０，６０は、それぞれ階層的に分散して、具体的には下位から順次にデバイス層，プロセス層，特徴層，イベント層から構成されている。
【００２７】
図５に示すように、前記聴覚モジュール２０は、デバイス層としてのマイク１６と、プロセス層としてのピーク抽出部２１，音源定位部２２，音源分離部２３と、特徴層（データ）としてのピッチ２４，水平方向２５と、イベント層としての聴覚イベント生成部２６及びビューア２７と、から構成されている。
【００２８】
これにより、聴覚モジュール２０は、マイク１６からの音響信号に基づいて、ピーク抽出部２１により左右のチャンネル毎に一連のピークを抽出して、左右のチャンネルで同じか類似のピークをペアとする。
ここで、ピーク抽出は、パワーがしきい値以上で且つ極大値であって、例えば９０Ｈｚ乃至３ｋＨｚの間の周波数であるという条件のデータのみを透過させる帯域フィルタを使用することにより行なわれる。このしきい値は、周囲の暗騒音を計測して、さらに感度パラメータ、例えば１０ｄＢを加えた値として定義される。
【００２９】
そして、聴覚モジュール２０は、各ピークが調波構造を有していることを利用して、左右のチャンネル間でより正確なピークのペアを見つけ、左右のチャンネルのピークの各ペアについて、音源分離部２３により、逆ＦＦＴ（高速フーリエ変換）を適用して、各音源からの混合音から調波構造を有する音を分離する。
これにより、聴覚モジュール２０は、分離した各音について、音源定位部２２により、左右のチャンネルから同じ周波数の音響信号を選択して、例えば５度毎にＩＰＤ（両耳間位相差）及びＩＩＤ（両耳間強度差）を求める。
【００３０】
そして、聴覚モジュール２０の音源定位部２２は、所謂聴覚エピポーラ幾何を利用して、ロボット１０の正面を０度として±９０度の範囲で、仮説推論によるＩＰＤＰｈの仮説を生成して、
【数１】

により分離した音と各仮説間の距離ｄ（θ）を計算する。ここで、ｎ_f＜１．５ｋＨｚは、周波数が１．５ｋＨｚ以下である倍音である。これは、左右のマイク１５のベースラインからＩＰＤが１．２乃至１．５ｋＨｚ以下の周波数に対して有効であるので、今回の実験では１．５ｋＨｚ以下としたものである。
【００３１】
ＩＩＤについては、ＩＰＤと同様に、分離した音の各倍音の左右チャンネル間のパワー差から求められる。ただし、ＩＩＤについては、仮説推論ではなく、
【数２】

による判別関数を用いて、音源が左右何れかを判定するものとする。即ち、周波数ｆの各倍音のＩＩＤをＩ_s（ｆ）としたとき、音源は、Ｉが正であればロボットの左方向に、Ｉが負であれば右方向に、そしてほぼ０であれば正面方向に存在することになる。
ここで、ＩＩＤの仮説生成には、ロボット１０の頭部形状を考慮した膨大な計算が必要となることから、リアルタイム処理を考慮して、ＩＰＤと同様の仮説推論は行なわない。
【００３２】
そして、聴覚モジュール２０の音源定位部２２は、前記距離ｄ（θ）から、確立密度関数
【数３】

を利用して、ＩＰＤの確信度ＢＦ_IPD（θ）を計算する。ここで、ｍ，ｓは、それぞれｄ（θ）の平均と分散であり、ｎはｄの個数である。
また、ＩＩＤの確信度ＢＦ_IID（θ）は、３０度＜θ≦９０度で、前記Ｉが＋のとき０．３５，−のとき０．６５、−３０度＜θ≦３０度で、前記Ｉが＋のとき０．５，−のとき０．５、−９０度≦θ＜−３０度で、前記Ｉが＋のとき０．６５，−のとき０．３５となる。
【００３３】
そして、このようにして得られたＩＰＤの確信度ＢＦ_IPD（θ）及びＩＩＤの確信度ＢＦ_IID（θ）を、
【数４】

で示されるＤｅｍｐｓｔｅｒ−Ｓｈａｆｅｒ理論により統合して、確信度ＢＦ_IPD+IID（θ）を生成する。
これにより、聴覚モジュール２０は、聴覚イベント生成部２６により、音源方向として尤度の高い順に上位２０個の確信度ＢＦ_IPD+IID（θ）と方向（θ）のリストと、ピッチにより、聴覚イベント２８を生成する。
【００３４】
このようにして、聴覚モジュール２０は、マイク１６からの音響信号に基づいて、ピッチ抽出，音源の分離及び定位から、少なくとも一人の話者の音源を同定して、その聴覚イベントを抽出し、ネットワーク７０を介してアソシエーションモジュール６０に対して送信するようになっている。
尚、聴覚モジュール２０における上述した処理は、４０ｍ秒毎に行なわれる。
【００３５】
ビューア２７は、このようにして生成された聴覚イベント２８をクライアントの画面上に表示するものであり、具体的には図１１（Ａ）に示すように、左側のウインドウに、聴覚イベント２８のパワースペクトルと抽出したピークを、右側のウインドウに、縦軸を相対的な方位角，横軸をピッチ（周波数）とする聴覚イベントを表示する。ここで、聴覚イベントは、音源定位の確信度を円の直径とする円により表現されている。
【００３６】
図６に示すように、前記視覚モジュール３０は、デバイス層としてのカメラ１５と、プロセス層としての顔発見部３１，顔識別部３２，顔定位部３３と、特徴層（データ）としての顔ＩＤ３４，顔方向３５と、イベント層としての視覚イベント生成部３６及びビューア３７と、から構成されている。
【００３７】
これにより、視覚モジュール３０は、カメラからの画像信号に基づいて、顔発見部３１により例えば肌色抽出により各話者の顔を検出し、顔識別部３２にて前もって登録されている顔データベース３８により検索して、一致した顔があった場合、その顔ＩＤ３４を決定して当該顔を識別すると共に、顔定位部３３により当該顔方向３５を決定（定位）する。
尚、顔識別部３２による顔データベース３８の検索の結果、一致した顔がなかった場合には、顔学習部３８ａが、顔発見部３１が検出した顔を顔データベース３８に登録する。
【００３８】
ここで、視覚モジュール３０は、顔発見部３１が画像信号から複数の顔を見つけた場合、各顔について前記処理、即ち識別及び定位そして追跡を行なう。
その際、顔発見部３１により検出された顔の大きさ，方向及び明るさがしばしば変化するので、顔発見部３１は、顔領域検出を行なって、肌色抽出と相関演算に基づくパターンマッチングの組合せによって、２００ｍ秒以内に複数の顔を正確に検出できるようになっている。
【００３９】
また、顔識別部３２は、顔発見部３１により検出された各顔領域画像を、判別空間に射影し、顔データベース３８に前もって登録された顔データとの距離ｄを計算する。この距離ｄは、登録顔数（Ｌ）に依存するので、
【数５】

により、パラメータの依存しない確信度Ｐｖに変換される。
ここで、判別空間の基底となる判別行列は、公知のオンラインＬＤＡにより、通常のＬＤＡと比較して少ない計算により更新され得るので、リアルタイムに顔データを登録することが可能である。
【００４０】
顔定位部３３は、二次元の画像平面における顔位置を三次元空間に変換し、顔が画像平面にて（ｘ，ｙ）に位置する幅と高さがそれぞれＸ及びＹであるｗ×ｗピクセルであるとすると、三次元空間における顔位置は、以下の各式で与えられる方位角θ，高さφ及び距離ｒのセットとして得られる。
【数６】

【数７】

【数８】

ここで、Ｃ₁及びＣ₂は、探索画像サイズ（Ｘ，Ｙ）とカメラの画角そして実際の顔の大きさにより定義される定数である。
【００４１】
そして、視覚モジュール３０は、各顔毎に、顔ＩＤ（名前）３４及び顔方向３５から、視覚イベント生成部３６により視覚イベント３９を生成する。
詳細には、視覚イベント３９は、各顔毎に、上位５つの確信度付きの顔ＩＤ（名前）３４と位置（距離ｒ，水平角度θ及び垂直角度φ）から構成されている。
【００４２】
尚、ビューア３７は、視覚イベントをクライアントの画面上に表示するものであり、具体的には、図１１（Ｂ）に示すように、カメラ１５による画像と、顔識別の確信度付きで抽出した顔の顔ＩＤと、定位の結果である位置のリストを表示する。ここで、カメラ１５による画像には、発見し同定された顔が長方形の枠で囲まれて表示されている。複数の顔が発見された場合には、各顔について、それぞれ同定を示す長方形の枠と、定位の結果としてのリストが表示される。
【００４３】
図７に示すように、前記モータ制御モジュール４０は、デバイス層としてのモータ４１及びポテンショメータ４２と、プロセス層としてのＰＷＭ制御回路４３，ＡＤ変換回路４４及びモータ制御部４５と、特徴層としてのロボット方向４６と、イベント層としてのモータイベント生成部４７と、ビューア４８と、から構成されている。
【００４４】
これにより、モータ制御モジュール４０は、アテンション制御モジュール６４（後述）からの指令に基づいてモータ制御部４５によりＰＷＭ制御回路４３を介してモータ４１を駆動制御すると共に、モータ４１の回転位置をポテンショメータ４２により検出して、ＡＤ変換回路４４を介してモータ制御部４５によりロボット方向４６を抽出し、モータイベント生成部４７によりモータ方向情報から成るモータイベント４９を生成する。
【００４５】
なお、ビューア４８は、モータイベントをクライアントの画面上に三次元的に表示するものであって、具体的には図１２（Ａ）に示すように、モータイベント４９によるロボットの向きと動作速度を、例えばＯｐｅｎＧＬにより実装されている三次元ビューアを利用して、リアルタイムに三次元表示するようになっている。
【００４６】
図８に示すように、前記対話モジュール５０は、デバイス層としてのスピーカ５１及びマイク１６と、プロセス層としての音声合成回路５２，対話制御回路５３及び自声抑制回路５４，音声認識回路５５と、から構成されている。
【００４７】
これにより、対話モジュール５０は、後述するアソシエーションモジュール６０により対話制御回路５３を制御し、音声合成回路５２によりスピーカ５１を駆動することによって、対象とする話者に対して所定の音声を発すると共に、マイク１６からの音響信号から自声抑制回路５４によりスピーカ５１からの音を除去した後、音声認識回路５５により対象とする話者の音声を認識する。
なお、前記対話モジュール５０は、階層としての特徴層及びイベント層を備えていない。
【００４８】
ここで、対話制御回路５３は、例えばパーティ受付ロボットの場合には、現在のアテンションを継続することが最優先となるが、パーティロボットの場合には、最も最近に関連付けられたストリームに対して、アテンション制御される。
【００４９】
図９に示すように、前記アソシエーションモジュール６０は、上述した聴覚モジュール２０，視覚モジュール３０，モータ制御モジュール４０，対話モジュール５０に対して、階層的に上位に位置付けられており、各モジュール２０，３０，４０，５０のイベント層の上位であるストリーム層を構成している。
具体的には、前記アソシエーションモジュール６０は、聴覚モジュール２０，視覚モジュール３０及びモータ制御モジュール４０からの非同期イベント６１ａ即ち聴覚イベント２８，視覚イベント３９及びモータイベント４９を同期させて同期イベント６１ｂにする同期回路６２と、これらの同期イベント６１ｂを相互に関連付けて、聴覚ストリーム６５，視覚ストリーム６６及びアソシエーションストリーム６７を生成するストリーム生成部６３と、さらにアテンション制御モジュール６４と、ビューア６８を備えている。
【００５０】
前記同期回路６２は、聴覚モジュール２０からの聴覚イベント２８，視覚モジュール３０からの視覚イベント３８及びモータ制御モジュール４０からのモータイベント４９を同期させて、同期聴覚イベント，同期視覚イベント及び同期モータイベントを生成する。
その際、聴覚イベント２８及び視覚イベント３８は、同期モータイベントによって、その座標系が絶対座標系に変換されることになる。
【００５１】
ここで、各イベントの実際に観測されてからネットワーク７０を介してアソシエーションモジュール６０に到着するまでの遅延時間は、例えば聴覚イベント２８では４０ｍ秒、視覚イベント３９では２００ｍ秒、モータイベント４９では１００ｍであり、ネットワーク７０における遅延が１０乃至２００ｍ秒であり、さらに到着周期も異なることによるものである。
従って、各イベントの同期を取るために、聴覚モジュール２０，視覚モジュール３０及びモータ制御モジュール４０からの聴覚イベント２８，視覚イベント３９及びモータイベント４９は、それぞれ実際の観測時間を示すタイムスタンプ情報を備えており、図示しない短期記憶回路にて、例えば２秒間の間だけ一旦記憶される。
【００５２】
そして、同期回路６２は、短期記憶回路に記憶された各イベントを、上述した遅延時間を考慮して、実際の観測時間と比較して５００ｍ秒の遅延時間を備えるように、同期プロセスにより取り出す。これにより、同期回路６２の応答時間は５００ｍ秒となる。また、このような同期プロセスは例えば１００ｍ秒周期で動作するようになっている。
尚、各イベントは、それぞれ互いに非同期でアソシエーションモジュール６０に到着するので、同期を取るための観測時刻と同時刻のイベントが存在するとは限らない。従って、同期プロセスは、同期を取るための観測時刻前後に発生したイベントに対して、線形補間による補間を行なうようになっている。
【００５３】
また、ストリーム生成部６３は、以下の点に基づいて、ストリーム６５，６６，６７の生成を行なう。
１．聴覚イベント２８は、同等または倍音関係にあるピッチを備え、方向が±１０度以内で最も近い聴覚ストリーム６５に接続される。尚、±１０度以内の値は、聴覚エピポーラ幾何の精度を考慮して選定されたものであ。
２．視覚イベント３９は、共通の顔ＩＤ３４を有し且つ４０ｃｍの範囲内で最も近い視覚ストリーム６６に接続される。尚、４０ｃｍの範囲内の値は、秒速４ｍ以上で人間が移動することがないということを前提として選定されたものである。
３．すべてのストリームに対して探索を行なった結果、接続可能なストリーム６５，６６が存在しないイベントがある場合には、当該イベント２８，３９は、新たなストリーム６５，６６を構成することになる。
５．既に存在しているストリーム６５，６６は、これらに接続されるイベント２８，３９がない場合には、最大で５００ｍ秒間は存続するが、その後もイベントが接続されない状態が継続すると、消滅する。
６．聴覚ストリーム６５と視覚ストリーム６６が±１０度以内に近接する状態が１秒間のうち５００ｍ秒以上継続する場合、これの聴覚ストリーム６５と視覚ストリーム６６は、同一話者に由来するものであるとみなされ、互いに関係付けられて、アソシエーションストリーム６７が生成される。
７．アソシエーションストリーム６７は、聴覚イベント２８または視覚イベント３９が３秒間以上接続されない場合には、関係付けが解除され、既存の聴覚ストリーム６５または視覚ストリーム６６のみが存続する。
８．アソシエーションストリーム６７は、聴覚ストリーム６５及び視覚ストリーム６６の方向差が３秒間、±３０度以上になった場合には、関係付けが解除され、個々の聴覚ストリーム６５及び視覚ストリーム６６に戻る。
【００５４】
これにより、ストリーム生成部６３は、同期回路６２からの同期聴覚イベント及び同期視覚イベントに基づいて、これらの時間的つながりを考慮してイベントを接続することにより、聴覚ストリーム６５及び視覚ストリーム６６を生成すると共に、相互の結び付きの強い聴覚ストリーム６５及び視覚ストリーム６６を関係付けて、アソシエーションストリーム６７を生成するようになっており、逆にアソシエーションストリーム６７を構成する聴覚ストリーム６５及び視覚ストリーム６６の結び付きが弱くなれば、関係付けを解除するようになっている。
【００５５】
また、アテンション制御モジュール６４は、モータ制御モジュール４０の駆動モータ制御のプランニングのためのアテンション制御を行なうものであり、その際アソシエーションストリーム６７，聴覚ストリーム６５そして視覚ストリーム６６の順に優先的に参照して、アテンション制御を行なう。
そして、アテンション制御モジュール６４は、聴覚ストリーム６５及び視覚ストリーム６６の状態とアソシエーションストリーム６７の存否に基づいて、ロボット１０の動作プランニングを行ない、駆動モータ４１の動作の必要があれば、モータ制御モジュール４０に対して動作指令としてのモータイベントをネットワーク７０を介して送信する。
【００５６】
ここで、アテンション制御モジュール６４におけるアテンション制御は、連続性とトリガに基づいており、連続性により同じ状態を保持しようとし、トリガにより最も興味のある対象を追跡しようとする。
従って、アテンション制御は、
１．アソシエーションストリームの存在は、ロボット１０に対して正対して話している人が現在も存在している、あるいは近い過去に存在していたことを示しているので、このようなロボット１０に対して話している人に対して、高い優先度でアテンションを向けて、トラッキングを行なう必要がある。
２．マイク１６は無指向性であるので、カメラの視野角のような検出範囲が存在せず、広範囲の聴覚情報を得ることができるので、視覚ストリームより聴覚ストリームの優先度を高くすべきである。
という二つの点を考慮して、以下の原則に従ってアテンションを向けるストリームを選択して、トラッキングを行なう。
１．アソシエーションストリームのトラッキングを最優先する。
２．アソシエーションストリームが存在しない場合、聴覚ストリームのトラッキングを優先する。
３．アソシエーションストリーム及び聴覚ストリームが存在しない場合、視覚ストリームのトラッキングを優先する。
４．複数の同じ種類のストリームが存在する場合、最も古いストリームのトラッキングを優先する。
このようにして、アテンション制御モジュール６４は、アテンション制御を行なって、モータ制御モジュール４０の駆動モータ４１の制御のプランニングを行ない、このプランニングに基づいて、モータコマンド６６を生成し、ネットワーク７０を介してモータ制御モジュール４０に伝送する。これにより、モータ制御モジュール４０では、このモータコマンド６６に基づいて、モータ制御部４５がＰＷＭ制御を行なって、駆動モータ４１を回転駆動させて、ロボット１０を所定方向に向けるようになっている。
【００５７】
尚、ビューア６８は、このようにして生成された各ストリームをサーバの画面上に表示するものであり、具体的には図１２（Ｂ）に示すように、レーダチャート及びストリームチャートにより表示する。
ここで、レーダチャートは、その瞬間におけるストリームの状態、より詳細にはカメラの視野角と音源方向を示し、ストリームチャートは、アソシエーションストリーム（太線図示）と聴覚ストリーム及び視覚ストリーム（細線図示）を示している。
【００５８】
本発明実施形態による人型ロボット１０は以上のように構成されており、パーティ受付ロボットとして対象とする話者に対して、図１０を参照して、以下のように動作する。
先づ、図１０（Ａ）に示すように、ロボット１０は、パーティ会場の入口前に配置されている。
そして、図１０（Ｂ）に示すように、パーティ参加者Ｐがロボット１０に接近してくるが、ロボット１０は、まだ当該参加者Ｐを認識していない。ここで、参加者Ｐがロボット１０に対して例えば「こんにちは」と話し掛けると、ロボット１０は、マイク１６が当該参加者Ｐの音声を拾って、聴覚モジュール２０が音源方向を伴う聴覚イベント２８を生成して、ネットワーク７０を介してアソシエーションモジュール６０に伝送する。
【００５９】
これにより、アソシエーションモジュール６０は、この聴覚イベント２８に基づいて聴覚ストリーム２９を生成する。このとき、視覚モジュール３０は参加者Ｐがカメラ１５の視野内に入っていないので、視覚イベント３９を生成しない。従って、アソシエーションモジュール６０は、聴覚イベント２８のみに基づいて、聴覚ストリーム２９を生成し、アテンション制御モジュール６４は、この聴覚ストリーム２９をトリガーとして、ロボット１０を参加者Ｐの方向に向けるようなアテンション制御を行なう。
【００６０】
このようにして、図１０（Ｃ）に示すように、ロボット１０が参加者Ｐの方向を向き、所謂声によるトラッキングが行なわれる。そして、視覚モジュール３０がカメラ１５による参加者Ｐの顔の画像を取り込んで、視覚イベント３９を生成して、当該参加者Ｐの顔を顔データベース３８により検索し、顔識別を行なうと共に、その結果である顔ＩＤ２４及び画像をネットワーク７０を介してアソシエーションモジュール６０に伝送する。尚、当該参加者Ｐの顔が顔データベース３８に登録されていない場合には、視覚モジュール３０は、その旨をネットワーク７０を介してアソシエーションモジュールに伝送する。
【００６１】
このとき、ロボット１０は、聴覚イベント２８及び視覚イベント３９によりアソシエーションストリーム６５を生成しており、このアソシエーションストリーム６５によりアテンション制御モジュール６４は、そのアテンション制御を変更しないので、ロボット１０は、参加者Ｐの方向を向き続ける。従って、参加者Ｐが移動したとしても、ロボット１０は、アソシエーションストリーム６５によりモータ制御モジュール４０を制御することにより、参加者Ｐを追跡して、視覚モジュール３０のカメラ１５が参加者Ｐを継続して撮像し得るようになっている。
【００６２】
そして、アソシエーションモジュール６０は、聴覚モジュール２０の音声認識回路５５に入力を与えて、音声認識回路５５はその音声認識結果を対話制御回路５３に与える。これにより、対話制御回路５３は音声合成を行なってスピーカ５１から発声する。このとき、音声認識回路５５がマイク１６からの音響信号からスピーカ５１からの音を自声抑制回路５４により低減することにより、ロボット１０は自身の発声を無視して、相手の声をより正確に認識することができる。
【００６３】
ここで、音声合成による発声は、参加者Ｐの顔が前記顔データベース３８に登録されているか否かで異なる。
参加者Ｐの顔が顔データベース３８に登録されている場合には、アソシエーションモジュール６０は、視覚モジュール３０からの顔ＩＤ２４に基づいて、対話モジュール５０を制御して、音声合成により「こんにちは。ＸＸＸさんですか？」と参加者Ｐに対して質問する。
これに対して、参加者Ｐが「はい。」と答えると、対話モジュール５０がマイク１６からの音響信号に基づいて、音声認識回路５５により「はい」を認識して対話制御回路５３により音声合成を行ない、スピーカ５１から「ようこそＸＸＸさん、どうぞ部屋にお入り下さい。」と発声する。
【００６４】
また、参加者Ｐの顔が顔データベース３８に登録されていない場合には、アソシエーションモジュール６０は、対話モジュール５０を制御して、音声合成により「こんにちは。あなたのお名前を教えていただけますか？」と参加者Ｐに対して質問する。
これに対して、参加者Ｐが「ＸＸＸです。」と自分の名前を答えると、対話モジュール５０がマイク１６からの音響信号に基づいて、音声認識回路５５により「ＸＸＸ」を認識して、対話制御回路５３により音声合成を行ない、スピーカ５１から「ようこそＸＸＸさん、どうぞ部屋にお入り下さい。」と発声する。
このようにして、図１０（Ｄ）に示すようにロボット１０は、参加者Ｐの認識を行なって、パーティ会場への入場を誘導すると共に、視覚モジュール３０で当該参加者Ｐの顔の画像と名前「ＸＸＸ」を顔データベース３８に登録させる。
【００６５】
また、人型ロボット１０はパーティロボットとして以下のように動作する。
この場合、人型ロボット１０は、聴覚モジュール２０による聴覚イベント２８及び視覚モジュール３０による視覚イベント３９と、アソシエーションモジュール６０によるアソシエーションストリーム６５に基づいて、複数の話者を聴覚及び視覚により認識していると共に、複数の話者のうちの一人の話者を追跡したり、あるいは途中で他の話者に切り換えて追跡することができる。
尚、パーティロボットの場合には、ロボット１０は、受動的な役割を果たす、即ちパーティ参加者の「話を聴き」、あるいは「話者を見る」のみであり、対話モジュール５０により発声することはない。
【００６６】
また、パーティロボットとしての人型ロボット１０は、パーティ受付ロボットと顔データベース３８を共用し、あるいはパーティ受付ロボットの顔データベース３８が転送または複写されるようにしてもよい。この場合、パーティロボットとしての人型ロボット１０は、パーティ参加者全員を常に顔識別によって認識することができる。
【００６７】
このようにして、本発明実施形態による人型ロボット１０によれば、聴覚モジュール２０及び視覚モジュール３０からの聴覚イベント及び視覚イベントに基づいて、アソシエーションモジュール６０が聴覚ストリーム，視覚ストリームそしてアソシエーションストリームを生成することによって、複数の対象である話者を認識しているので、何れかのイベントが欠落したり明確に認識できなくなった場合、例えば話者が移動して「見えなく」なった場合でも聴覚により、また話者が話をせず「聞こえなく」なった場合でも視覚により、リアルタイムに複数の話者を聴覚的及び／又は視覚的にトラッキングすることができる。
【００６８】
上述した実施形態において、人型ロボット１０は、４ＤＯＦ（自由度）を有するように構成されているが、これに限らず、任意の動作を行なうように構成されたロボットに本発明によるロボット聴覚システムを組み込むことも可能である。また、上述した実施形態においては、本発明によるロボット視聴覚システムを人型ロボット１０に組み込んだ場合について説明したが、これに限らず、犬型等の各種動物型ロボットや、その他の形式のロボットに組み込むことも可能であることは明らかである。
さらに、上述した実施形態においては、アテンション制御の際に、複数の同じ種類のストリームが存在する場合、最も古いストリームのトラッキングを優先するようになっているが、これに限らず、他のストリーム、例えば最も新しいストリームのトラッキングを優先させるようにしてもよい。
【００６９】
【発明の効果】
以上述べたように、この発明によれば、聴覚モジュールが、マイクが集音した外部の対象からの音から、調波構造を利用してピッチ抽出を行なうことにより、音源毎の方向を得て、個々の話者の音源を同定して、その聴覚イベントを抽出する。また、視覚モジュールが、カメラにより撮像された画像から、パターン認識による話者の顔識別と定位から、個々の話者の視覚イベントを抽出する。さらに、モータ制御モジュールが、ロボットを水平方向に回動させる駆動モータの回転位置に基づいて、ロボットの方向を検出することによって、モータイベントを抽出する。
【００７０】
ここで、アソシエーションモジュールは、このようにしてそれぞれ抽出された聴覚イベント，視覚イベント及びモータイベントに基づいて、各話者の聴覚ストリーム及び視覚ストリームを生成し、さらにこれらのストリームを関連付けてアソシエーションストリームを生成して、これらのストリームに基づいてアテンション制御を行なうことにより、モータ制御モジュールの駆動モータ制御のプランニングを行なう。
そして、アテンション制御モジュールは、このプランニングに基づいてモータ制御モジュールの駆動モータを制御することにより、ロボットの方向を対象である話者に向ける。これにより、ロボットが対象である話者に対して正対することにより、聴覚モジュールが当該話者の声を、感度の高い正面方向にてマイクにより正確に集音，定位することができる共に、視覚モジュールが当該話者の画像をカメラにより良好に撮像することができるようになる。
【００７１】
従って、このような聴覚モジュール，視覚モジュール及びモータ制御モジュールと、アソシエーションモジュール及びアテンション制御モジュールとの連携によって、ロボットの聴覚及び視覚がそれぞれ有する曖昧性が互いに補完されることになり、所謂ロバスト性が向上し、複数の話者であっても、各話者をそれぞれ知覚することができる。
また、例えば聴覚イベントまたは視覚イベントの何れか一方が欠落したときであっても、視覚イベントまたは聴覚イベントのみに基づいて、対象である話者をアテンション制御が追跡することができるので、リアルタイムにモータ制御モジュールの制御を行なうことができる。
さらに、イベント及びストリームというシンボリックな情報を扱うことによって、より高次な処理を実現することができると共に、ネットワークを介して伝送されるデータ量が抑制されることにより、通信のトラフィックが軽くなるので、視聴覚システム全体やビューアにおけるリアルタイム処理に寄与する。
これにより、本発明によれば、対象に対する視覚及び聴覚の追跡を行なうためのリアルタイム処理を可能にするようにした、極めて優れたロボット視聴覚システムが提供される。
【図面の簡単な説明】
【図１】この発明によるロボット聴覚装置の第一の実施形態を組み込んだ人型ロボットの外観を示す正面図である。
【図２】図１の人型ロボットの側面図である。
【図３】図１の人型ロボットにおける頭部の構成を示す概略拡大図である。
【図４】図１の人型ロボットにおけるロボット視聴覚システムの電気的構成を示すブロック図である。
【図５】図４におけるブロック１の聴覚モジュールを拡大して示す電気的構成のブロック図である。
【図６】図４におけるブロック２の視覚モジュールを拡大して示す電気的構成のブロック図である。
【図７】図４におけるブロック３のモータ制御モジュールを拡大して示す電気的構成のブロック図である。
【図８】図４におけるブロック４の対話モジュールを拡大して示す電気的構成のブロック図である。
【図９】図４におけるブロック５のアソシエーションモジュールを拡大して示す電気的構成のブロック図である。
【図１０】図４のロボット視聴覚システムにおけるパーティ受付ロボットとしての動作例を示す図である。
【図１１】図４のロボット視聴覚システムにおける（Ａ）聴覚モジュール，（Ｂ）視覚モジュールのビューアの画面例を示す図である。
【図１２】図４のロボット視聴覚システムにおける（Ｃ）モータ制御モジュール，（Ｄ）アソシエーションモジュールのビューアの画面例を示す図である。
【符号の説明】
１０人型ロボット
１１ベース
１２胴体部
１３頭部
１３ａ連結部材
１４外装
１５カメラ（ロボット視覚）
１６，１６ａ，１６ｂマイク（ロボット聴覚）
１７ロボット視聴覚システム
２０聴覚モジュール
３０視覚モジュール
４０モータ制御モジュール
５０対話モジュール
６０アソシエーションモジュール
６４アテンション制御モジュール
７０ネットワーク

Claims

外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、
ロボットの前方を撮像するカメラを含む視覚モジュールと、
ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、
前記聴覚モジュール，視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、
アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、
を備えているロボット視聴覚システムであって、
前記聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出，音源の分離及び定位から、少なくとも一人の話者の音源を同定して、その聴覚イベントを抽出し、
前記視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から話者の視覚イベントを抽出し、
前記モータ制御モジュールが、駆動モータの回転位置に基づいて、モータイベントを抽出することにより、
前記アソシエーションモジュールが、聴覚モジュールからの聴覚イベント，視覚モジュールからの視覚イベント及びモータ制御モジュールからのモータイベントに基づいて、聴覚ストリーム及び視覚ストリームを生成し、さらに聴覚ストリームと視覚ストリームとを関連付けてアソシエーションストリームを生成して、
前記アテンション制御モジュールが、聴覚ストリーム，視覚ストリーム，アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうことを特徴とする、ロボット視聴覚システム。
外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、
ロボットの前方を撮像するカメラを含む視覚モジュールと、
ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、
前記聴覚モジュール，視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、
アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えている人型または動物型のロボットの視聴覚システムであって、
前記聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出，音源の分離及び定位から、少なくとも一人の話者の音源を同定して、その聴覚イベントを抽出し、
前記視覚モジュールが、カメラにより撮像された画像に基づいて各話者の顔識別と定位から話者の視覚イベントを抽出し、
前記モータ制御モジュールが、駆動モータの回転位置に基づいてモータイベントを抽出することにより、
前記アソシエーションモジュールが、聴覚モジュールからの聴覚イベント，視覚モジュールからの視覚イベント及びモータ制御モジュールからのモータイベントに基づいて、聴覚ストリーム及び視覚ストリームを生成して、さらに聴覚ストリームと視覚ストリームとを関連付けてアソシエーションストリームを生成して、
前記アテンション制御モジュールが、聴覚ストリーム，視覚ストリーム，アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうことを特徴とする、ロボット視聴覚システム。
前記アソシエーションモジュールが、聴覚ストリーム及び視覚ストリームを生成する際に、非同期に生成される聴覚イベント，視覚イベント及びモータイベントを相互に同期させることを特徴とする、請求項１または２に記載のロボット視聴覚システム。
前記アソシエーションモジュールがサーバであって、前記聴覚モジュール，視覚モジュール及びモータ制御モジュールがそれぞれサーバに接続されたクライアントであることを特徴とする、請求項１から３の何れかに記載のロボット視聴覚システム。
前記サーバと各クライアントが、相互にＬＡＮ接続されていることを特徴とする、請求項４に記載のロボット視聴覚システム。
前記アテンション制御モジュールが、アテンション制御を行なう際に、アソシエーションストリーム，聴覚ストリーム及び視覚ストリームの順に優先させることを特徴とする、請求項１から５の何れかに記載のロボット視聴覚システム。
前記アソシエーションモジュールが、聴覚ストリーム及び視覚ストリームを生成する際に、聴覚イベント，視覚イベント及びモータイベントを相互に同期させることを特徴とする、請求項１から６の何れかに記載のロボット視聴覚システム。