JP3843742B2

JP3843742B2 - ロボット視聴覚システム

Info

Publication number: JP3843742B2
Application number: JP2001067848A
Authority: JP
Inventors: 一博中臺; 健一日台; 博奥乃; 宏明北野
Original assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Priority date: 2001-03-09
Filing date: 2001-03-09
Publication date: 2006-11-08
Anticipated expiration: 2021-03-09
Also published as: JP2002264052A

Description

【０００１】
【発明の属する技術分野】
本発明はロボット、特に人型または動物型ロボットにおける視聴覚システムに関するものである。
【０００２】
【従来の技術】
近年、このような人型または動物型ロボットにおいては、視覚，聴覚の能動知覚が注目されてきている。
能動知覚とは、ロボット視覚やロボット聴覚等の知覚を担当する知覚装置を、知覚すべき対象に追従するように、これらの知覚装置を支持する例えば頭部を駆動機構により姿勢制御するものである。
【０００３】
ここで、能動視覚に関しては、少なくとも知覚装置であるカメラが、駆動機構による姿勢制御によってその光軸方向が対象に向かって保持され、対象に対して自動的にフォーカシングやズームイン，ズームアウト等が行なわれることにより、対象がカメラによって撮像されるようになっており、種々の研究が行なわれている。
【０００４】
これに対して、能動聴覚に関しては、少なくとも知覚装置であるマイクが、駆動機構による姿勢制御によってその指向性が対象に向かって保持され、対象からの音がマイクによって集音される。
このような能動聴覚は、例えば本出願人による特願２０００−２２６７７号（ロボット聴覚システム）に開示されており、視覚情報を参照して音源の方向付けを行なうようにしている。
【０００５】
【発明が解決しようとする課題】
ところで、これらの能動視覚及び能動聴覚は、ロボットの向き（水平方向）を変更するためのモータ制御モジュールと密接に関連があり、特定の対象に対して能動視覚及び能動聴覚を働かせるためには、ロボットを特定の対象に向ける、即ちアテンション制御を行なう必要がある。
しかしながら、視覚及び聴覚をモータ制御モジュールの制御と統合させるためには、視覚及び聴覚の追跡を行なうためのリアルタイム処理が必要であると共に、このような視覚及び聴覚の追跡状態をリアルタイム処理に視覚化することは、ロボット内部におけるリアルタイム処理を把握するために非常に有用であるが、従来のロボット開発においては、単一音源を対象としたリアルタイム処理を行なうものは実現されているが、例えば複数の人間が互いに話をしているような状況において、リアルタイム処理により各人を同定して、能動聴覚を行なうことは行なわれておらず、さらにこのようなリアルタイム処理を視覚化することも行なわれていない。
【０００６】
この発明は、以上の点にかんがみて、対象に対する視覚及び聴覚の追跡を行なうためのリアルタイム処理を可能にすると共に、このリアルタイム処理を視覚化するようにした、ロボット視聴覚システムを提供することを目的としている。
【０００７】
【課題を解決するための手段】
前記目的は、この発明によれば、外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む視覚モジュールと、ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、聴覚モジュール，視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えているロボット視聴覚システムであって、聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出，音源の分離及び定位から、少なくとも一人の話者の音源を同定してその聴覚イベントを抽出し、視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から話者の視覚イベントを抽出し、モータ制御モジュールが、駆動モータの回転位置に基づいて、モータイベントを抽出することにより、アソシエーションモジュールが、聴覚イベント，視覚イベント及びモータイベントから、聴覚ストリーム及び視覚ストリームと、聴覚ストリームと視覚ストリームとを関連付けたアソシエーションストリームを生成して、アテンション制御モジュールが、聴覚ストリーム，視覚ストリーム，アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうと共に、聴覚モジュールによる聴覚情報，視覚モジュールによる視覚情報及びモータモジュールによるモータ情報、そしてアソシエーションモジュールによるストリーム情報の少なくとも一部を表示する表示部を備えていることを特徴とするロボット視聴覚システムにより、達成される。
【０００８】
また、前記目的は、この発明によれば、外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む視覚モジュールと、ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、聴覚モジュール，視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えている人型または動物型のロボットの視聴覚システムであって、聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出，音源の分離及び定位から、少なくとも一人の話者の音源を同定してその聴覚イベントを抽出し、視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から話者の視覚イベントを抽出し、モータ制御モジュールが、駆動モータの回転位置に基づいて、モータイベントを抽出することにより、アソシエーションモジュールが、聴覚イベント，視覚イベント及びモータイベントから、聴覚ストリーム及び視覚ストリームと、聴覚ストリームと視覚ストリームとを関連付けたアソシエーションストリームを生成して、アテンション制御モジュールが、聴覚ストリーム，視覚ストリーム，アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうと共に、聴覚モジュールによる聴覚情報，視覚モジュールによる視覚情報及びモータモジュールによるモータ情報、そしてアソシエーションモジュールによるストリーム情報の少なくとも一部を表示する表示部を備えていることを特徴とするロボット視聴覚システムにより、達成される。
【０００９】
本発明によるロボット聴覚装置は、好ましくは、前記表示部が、聴覚情報として音源からの音響信号のスペクトル及び抽出されたピーク、そして聴覚イベントを表示する聴覚表示部を備えている。
【００１０】
本発明によるロボット聴覚装置は、好ましくは、前記聴覚表示部が、縦軸をロボットを中心とする相対的な方位角，横軸をピッチとし、直径を確信度とする円により聴覚イベントを表示する。
【００１１】
本発明によるロボット聴覚装置は、好ましくは、前記表示部が、視覚情報として、抽出した顔を枠で示すカメラ画像と、視覚イベントを表示する視覚表示部を備えている。
【００１２】
本発明によるロボット聴覚装置は、好ましくは、前記視覚表示部が、確信度付きで抽出した顔識別及び顔定位のリストにより視覚イベントを表示する。
【００１３】
本発明によるロボット聴覚装置は、好ましくは、前記表示部が、モータ情報として、ロボットの向き及び動作の速度をリアルタイムに三次元表示するモータ表示部を備えている。
【００１４】
本発明によるロボット聴覚装置は、好ましくは、前記表示部が、ストリーム情報として、ストリームチャート及びレーダチャートを表示するストリーム表示部を備えている。
【００１５】
本発明によるロボット聴覚装置は、好ましくは、前記ストリーム表示部が、ストリームチャートにて、各聴覚ストリーム及び視覚ストリームそしてアソシエーションストリームによりストリーム情報を表示する。
【００１６】
本発明によるロボット聴覚装置は、好ましくは、前記ストリーム表示部が、レーダチャートにて、カメラ視野と音源定位によりそのときのストリーム状態を表示する。
【００１７】
前記構成によれば、聴覚モジュールが、マイクが集音した外部の対象からの音から調波構造を利用してピッチ抽出を行なうことにより音源毎の方向を得て、個々の話者の音源を同定し、その聴覚イベントを抽出する。
また、視覚モジュールが、カメラにより撮像された画像から、パターン認識による各話者の顔識別と定位から個々の話者の視覚イベントを抽出する。
さらに、モータ制御モジュールが、ロボットを水平方向に回動させる駆動モータの回転位置に基づいて、ロボットの方向を検出することによって、モータイベントを抽出する。
尚、前記イベントとは、各時点において音または顔が検出され、ピッチ及び方向等の特徴が抽出されて、話者同定や顔識別等が行なわれること、あるいは駆動モータが回転される状態を示しており、ストリームとは、時間的に連続するイベントを示している。
【００１８】
ここで、アソシエーションモジュールは、このようにしてそれぞれ抽出された聴覚イベント，視覚イベント及びモータイベントに基づいて、各話者の聴覚ストリーム及び視覚ストリームを生成し、さらにこれらのストリームを関連付けてアソシエーションストリームを生成して、アテンション制御モジュールが、これらのストリームに基づいてアテンション制御を行なうことにより、モータ制御モジュールの駆動モータ制御のプランニングを行なう。
アテンションとは、ロボットが対象である話者を、聴覚的及び／又は視覚的に「注目」することであり、アンテンション制御とは、モータ制御モジュールによりその向きを変えることにより、ロボットが前記話者に注目するようにすることである。
そして、アテンション制御モジュールは、このプランニングに基づいて、モータ制御モジュールの駆動モータを制御することにより、ロボットの方向を対象である話者に向ける。これにより、ロボットが対象である話者に対して正対することにより、聴覚モジュールが当該話者の声をマイクにより正確に集音することができる共に、視覚モジュールが当該話者の画像をカメラにより良好に撮像することができるようになる。
【００１９】
従って、このような聴覚モジュール，視覚モジュール及びモータ制御モジュールと、アソシエーションモジュール及びアテンション制御モジュールとの連携によって、ロボットの聴覚及び視覚がそれぞれ有する曖昧性が互いに補完されることになり、所謂ロバスト性が向上し、複数の話者であっても各話者をそれぞれ知覚することができる。
また、例えば聴覚イベントまたは視覚イベントの何れか一方が欠落したときであっても、視覚イベントまたは聴覚イベントのみに基づいて、対象である話者をアテンション制御モジュールが追跡することができるので、リアルタイムにモータ制御モジュールの制御を行なうことができる。
【００２０】
さらに、表示部により、前記聴覚モジュールによる聴覚情報，視覚モジュールによる視覚情報及びモータモジュールによるモータ情報、そしてアソシエーションモジュールによるストリーム情報の少なくとも一部を表示して、アソシエーションモジュールによるリアルタイム処理を視覚化することにより、リアルタイム処理の状態を視覚により直感的に把握することができる。
【００２１】
前記表示部が、聴覚情報として、音源からの音響信号のスペクトル及び抽出されたピーク、そして聴覚イベントを表示する聴覚表示部を備えている場合、そして前記聴覚表示部が、縦軸をロボットを中心とする相対的な方位角，横軸をピッチとし、直径を確信度とする円により聴覚イベントを表示する場合には、聴覚表示部を見ることによって、聴覚情報を直感的に把握することができる。
【００２２】
前記表示部が、視覚情報として、抽出した顔を枠で示すカメラ画像と、視覚イベントを表示する視覚表示部を備えている場合、そして前記視覚表示部が、確信度付きで抽出した顔識別及び顔定位のリストにより、視覚イベントを表示する場合には、視覚表示部を見ることによって、視覚情報を直感的に把握することができる。
前記表示部が、モータ情報として、ロボットの向き及び動作の速度をリアルタイムに三次元表示するモータ表示部を備えている場合には、モータ表示部を見ることによって、モータ情報を直感的に把握することができる。
【００２３】
前記表示部が、ストリーム情報として、ストリームチャート及びレーダチャートを表示するストリーム表示部を備えている場合、そして前記ストリーム表示部が、ストリームチャートにて、各聴覚ストリーム及び視覚ストリームそしてアソシエーションストリームによりストリーム情報を表示する場合、さらに前記ストリーム表示部が、レーダチャートにて、カメラ視野と音源定位によりそのときのストリーム状態を表示する場合には、ストリーム表示部を見ることによってそのときのストリームの状態及び各ストリームの変化状態を直感的に把握することができる。
【００２４】
このようにして、聴覚情報及び視覚情報として、シンボリックなイベント及びストリームという情報を扱っていることにより、生の音声データや画像データを扱う場合と比較して、データ量が大幅に圧縮されることになるので、表示部におけるリアルタイム表示が可能となる。
【００２５】
【発明の実施の形態】
以下、図面に示した実施形態に基づいて、この発明を詳細に説明する。
図１乃至図４はこの発明によるロボット視聴覚システムの一実施形態を備えた実験用の人型ロボットの全体構成を示している。
図１において、人型ロボット１０は、４ＤＯＦ（自由度）のロボットとして構成されており、ベース１１と、ベース１１上にて一軸（垂直軸）周りに回動可能に支持された胴体部１２と、胴体部１２上にて、三軸方向（垂直軸，左右方向の水平軸及び前後方向の水平軸）の周りに揺動可能に支持された頭部１３と、を含んでいる。
【００２６】
前記ベース１１は固定配置されていてもよく、脚部として動作可能としてもよい。また、ベース１１は、移動可能な台車等の上に載置されていてもよい。
前記胴体部１２は、ベース１１に対して垂直軸の周りに、図１にて矢印Ａで示すように回動可能に支持されており、図示しない駆動手段によって回転駆動されると共に、図示の場合、防音性の外装によって覆われている。
【００２７】
前記頭部１３は胴体部１２に対して連結部材１３ａを介して支持されており、この連結部材１３ａに対して前後方向の水平軸の周りに、図１にて矢印Ｂで示すように揺動可能に、また左右方向の水平軸の周りに、図２にて矢印Ｃで示すように揺動可能に支持されていると共に、前記連結部材１３ａが、胴体部１２に対してさらに前後方向の水平軸の周りに、図１にて矢印Ｄで示すように揺動可能に支持されており、それぞれ図示しない駆動手段によって、各矢印Ａ，Ｂ，Ｃ，Ｄ方向に回転駆動される。
【００２８】
ここで、前記頭部１３は、図３に示すように全体が防音性の外装１４により覆われていると共に、前側にロボット視覚を担当する視覚装置としてのカメラ１５を、また両側にロボット聴覚を担当する聴覚装置としての一対のマイク１６（１６ａ，１６ｂ）を備えている。
【００２９】
前記外装１４は、例えばウレタン樹脂等の吸音性の合成樹脂から構成されており、頭部１３の内部をほぼ完全に密閉することにより、頭部１３の内部の遮音を行なうように構成されている。
尚、胴体部１２の外装も、同様にして吸音性の合成樹脂から構成されている。前記カメラ１５は公知の構成であって、例えば所謂パン，チルト，ズームの３ＤＯＦ（自由度）を有する市販のカメラが適用できる。
【００３０】
前記マイク１６は、それぞれ頭部１３の側面において、前方に向かって指向性を有するように取り付けられている。
ここで、マイク１６の左右の各マイク１６ａ，１６ｂは、それぞれ図１及び図２に示すように、外装１４の両側にて前方に向いた段部１４ａ，１４ｂにて内側に取り付けられ、段部１４ａ，１４ｂに設けられた貫通穴を通して前方の音を集音すると共に、外装１４の内部の音を拾わないように、適宜の手段により遮音されている。これにより、マイク１６ａ，１６ｂは、所謂バイノーラルマイクとして構成されている。なお、マイク１６ａ，１６ｂの取付位置の近傍において、外装１４は人間の外耳形状に形成されていてもよい。
【００３１】
図４は、前記マイク１６及びカメラ１５を含むロボット視聴覚システムの電気的構成を示している。
図４において、視聴覚システム１７は、パーティ受付及びコンパニオン用ロボットとしての構成であり、聴覚モジュール２０，視覚モジュール３０，モータ制御モジュール４０，対話モジュール５０及びアソシエーションモジュール６０から構成されている。
以下、図４の各部を拡大して示す図５〜図９をも参照しつつさらに説明する。説明の便宜上、聴覚モジュール２０をブロック１として図５に拡大して示し、視覚モジュール３０をブロック２として図６に拡大して示し、モータ制御モジュール４０をブロック３として図７に拡大して示し、対話モジュール５０をブロック４として図８に拡大して示し、さらに、アソシエーションモジュール６０をブロック５として図９に拡大して示す。
ここで、アソシエーションモジュール６０（ブロック５、図９）はサーバから構成されていると共に、他のモジュール、即ち聴覚モジュール２０（ブロック１、図５），視覚モジュール３０（ブロック２、図６），モータ制御モジュール４０（ブロック３、図７），対話モジュール５０（ブロック４、図８）は、それぞれクライアントから構成されており、互いに非同期で動作する。
【００３２】
尚、前記サーバ及び各クライアントは、例えばパーソナルコンピュータにより構成されており、例えば１００Ｂａｓｅ−Ｔ等のネットワーク７０を介して、例えばＴＣＰ／ＩＰプロトコルにより、相互にＬＡＮ接続されている。
また、各モジュール２０，３０，４０，５０，６０は、それぞれ階層的に分散して、具体的には下位から順次にデバイス層，プロセス層，特徴層，イベント層から構成されている。
【００３３】
図５に示すように、前記聴覚モジュール２０は、デバイス層としてのマイク１６と、プロセス層としてのピーク抽出部２１，音源定位部２２，音源分離部２３と、特徴層（データ）としてのピッチ２４，水平方向２５と、イベント層としての聴覚イベント生成部２６及びビューア２７と、から構成されている。
【００３４】
これにより、聴覚モジュール２０は、マイク１６からの音響信号に基づいて、ピーク抽出部２１により左右のチャンネル毎に一連のピークを抽出して、左右のチャンネルで同じか類似のピークをペアとする。
ここで、ピーク抽出は、パワーがしきい値以上で且つ極大値であって、例えば９０Ｈｚ乃至３ｋＨｚの間の周波数であるという条件のデータのみを透過させる帯域フィルタを使用することにより行なわれる。このしきい値は、周囲の暗騒音を計測して、さらに感度パラメータ、例えば１０ｄＢを加えた値として定義される。
【００３５】
そして、聴覚モジュール２０は、各ピークが調波構造を有していることを利用して、左右のチャンネル間でより正確なピークのペアを見つけ、左右のチャンネルのピークの各ペアについて、音源分離部２３により、逆ＦＦＴ（高速フーリエ変換）を適用して、各音源からの混合音から調波構造を有する音を分離する。
これにより、聴覚モジュール２０は、分離した各音について、音源定位部２２により、左右のチャンネルから同じ周波数の音響信号を選択して、例えば５度毎にＩＰＤ（両耳間位相差）及びＩＩＤ（両耳間強度差）を求める。
【００３６】
そして、聴覚モジュール２０の音源定位部２２は、所謂聴覚エピポーラ幾何を利用して、ロボット１０の正面を０度として±９０度の範囲で、仮説推論によるＩＰＤＰｈの仮説を生成して、
【数１】

により分離した音と各仮説間の距離ｄ（θ）を計算する。ここで、ｎ_f＜１．５ｋＨｚは、周波数が１．５ｋＨｚ以下である倍音である。これは、左右のマイク１５のベースラインからＩＰＤが１．２乃至１．５ｋＨｚ以下の周波数に対して有効であるので、今回の実験では１．５ｋＨｚ以下としたものである。
【００３７】
ＩＩＤについては、ＩＰＤと同様に、分離した音の各倍音の左右チャンネル間のパワー差から求められる。ただし、ＩＩＤについては、仮説推論ではなく、
【数２】

による判別関数を用いて、音源が左右何れかを判定するものとする。即ち、周波数ｆの各倍音のＩＩＤをＩ_s（ｆ）としたとき、音源は、Ｉが正であればロボットの左方向に、Ｉが負であれば右方向に、そしてほぼ０であれば正面方向に存在することになる。
ここで、ＩＩＤの仮説生成には、ロボット１０の頭部形状を考慮した膨大な計算が必要となることから、リアルタイム処理を考慮して、ＩＰＤと同様の仮説推論は行なわない。
【００３８】
そして、聴覚モジュール２０の音源定位部２２は、前記距離ｄ（θ）から、確立密度関数
【数３】

を利用して、ＩＰＤの確信度ＢＦ_IPD（θ）を計算する。ここで、ｍ，ｓは、それぞれｄ（θ）の平均と分散であり、ｎはｄの個数である。
また、ＩＩＤの確信度ＢＦ_IID（θ）は、３０度＜θ≦９０度で、前記Ｉが＋のとき０．３５，−のとき０．６５、−３０度＜θ≦９０度で、前記Ｉが＋のとき０．５，−のとき０．５、−９０度＜θ≦−３０度で、前記Ｉが＋のとき０．６５，−のとき０．３５となる。
【００３９】
そして、このようにして得られたＩＰＤの確信度ＢＦ_IPD（θ）及びＩＩＤの確信度ＢＦ_IID（θ）を、
【数４】

で示されるＤｅｍｐｓｔｅｒ−Ｓｈａｆｅｒ理論により統合して、確信度ＢＦ_IPD+IID（θ）を生成する。
これにより、聴覚モジュール２０は、聴覚イベント生成部２６により、音源方向として尤度の高い順に上位２０個の確信度ＢＦ_IPD+IID（θ）と方向（θ）のリストと、ピッチにより、聴覚イベント２８を生成する。
【００４０】
このようにして、聴覚モジュール２０は、マイク１６からの音響信号に基づいて、ピッチ抽出，音源の分離及び定位から、少なくとも一人の話者の音源を同定して、その聴覚イベントを抽出し、ネットワーク７０を介してアソシエーションモジュール６０に対して送信するようになっている。
尚、聴覚モジュール２０における上述した処理は、４０ｍ秒毎に行なわれる。
【００４１】
ビューア２７は、このようにして生成された聴覚イベント２８をクライアントの画面上に表示するものであり、具体的には図１１（Ａ）に示すように、左側のウインドウ２７ａに、測定している聴覚イベント２８のパワースペクトルを例えば黒色の曲線２７ｂにより表示するとともに、そのピークを例えば青色の縦線２７ｃにより、さらに自動計測される暗騒音のレベルを例えば赤色の曲線２７ｄにより表示し、右側のウインドウ２７ｅに、縦軸を相対的な方位角，横軸をピッチ（周波数）とする聴覚イベント２８のグラフを表示する。ここで、各聴覚イベントは、それぞれ音源定位の確信度を円の直径とする円２７ｆにより表現されている。
これにより、ビューア２７の表示を見ることによって、聴覚イベント２８のパワースペクトルと抽出したピーク、さらにグラフ上の円表示により、聴覚イベント２８を視覚により直感的に把握することができるようになっている。
【００４２】
図６に示すように、前記視覚モジュール３０は、デバイス層としてのカメラ１５と、プロセス層としての顔発見部３１，顔識別部３２，顔定位部３３と、特徴層（データ）としての顔ＩＤ３４，顔方向３５と、イベント層としての視覚イベント生成部３６及びビューア３７と、から構成されている。
【００４３】
これにより、視覚モジュール３０は、カメラからの画像信号に基づいて、顔発見部３１により例えば肌色抽出により各話者の顔を検出し、顔識別部３２にて前もって登録されている顔データベース３８により検索して、一致した顔があった場合、その顔ＩＤ３４を決定して当該顔を識別すると共に、顔定位部３３により当該顔方向３５を決定（定位）する。
尚、顔識別部３２による顔データベース３８の検索の結果、一致した顔がなかった場合には、顔学習部３８ａが、顔発見部３１が検出した顔を顔データベース３８に登録する。
【００４４】
ここで、視覚モジュール３０は、顔発見部３１が画像信号から複数の顔を見つけた場合、各顔について前記処理、即ち識別及び定位そして追跡を行なう。
その際、顔発見部３１により検出された顔の大きさ，方向及び明るさがしばしば変化するので、顔発見部３１は、顔領域検出を行なって、肌色抽出と相関演算に基づくパターンマッチングの組合せによって、２００ｍ秒以内に複数の顔を正確に検出できるようになっている。
【００４５】
また、顔識別部３２は、顔発見部３１により検出された各顔領域画像を、判別空間に射影し、顔データベース３８に前もって登録された顔データとの距離ｄを計算する。この距離ｄは、登録顔数（Ｌ）に依存するので、
【数５】

により、パラメータの依存しない確信度Ｐｖに変換される。
ここで、判別空間の基底となる判別行列は、公知のオンラインＬＤＡにより、通常のＬＤＡと比較して少ない計算により更新され得るので、リアルタイムに顔データを登録することが可能である。
【００４６】
顔定位部３３は、二次元の画像平面における顔位置を三次元空間に変換し、顔が画像平面にて（ｘ，ｙ）に位置する幅と高さがそれぞれＸ及びＹであるｗ×ｗピクセルであるとすると、三次元空間における顔位置は、以下の各式で与えられる方位角θ，高さφ及び距離ｒのセットとして得られる。
【数６】

【数７】

【数８】

ここで、Ｃ₁及びＣ₂は、探索画像サイズ（Ｘ，Ｙ）とカメラの画角そして実際の顔の大きさにより定義される定数である。
【００４７】
そして、視覚モジュール３０は、各顔毎に、顔ＩＤ（名前）３４及び顔方向３５から、視覚イベント生成部３６により視覚イベント３９を生成する。
詳細には、視覚イベント３９は、各顔毎に、上位５つの確信度付きの顔ＩＤ（名前）３４と位置（距離ｒ，水平角度θ及び垂直角度φ）から構成されている。
【００４８】
ビューア３７は、視覚イベントをクライアントの画面上に表示するものであり、具体的には、図１１（Ｂ）に示すように、カメラ１５による画像３７ａと、抽出した顔毎の顔ＩＤと位置のリスト３７ｂと、抽出した顔毎の顔ＩＤと確信度．距離のリスト３７ｃを表示する。
ここで、カメラ１５による画像３７ａには、発見し同定された顔が長方形の枠で囲まれて表示されている。図示の場合には、複数の顔が発見されたので、各顔について、それぞれ同定を示す長方形の枠３７ｄ（例えば赤色表示）及び３７ｅ（例えば黄色表示）が表示される。これに伴って、図示の場合にはリスト３７ｂも各顔毎に表示されている。
これにより、ビューア３７の表示を見ることによって、枠３７ｃ．３７ｄで示される抽出した顔と、顔定位のリスト３７ｂと、確信度付きで抽出した顔ＩＤのリストにより、視覚イベント３９を視覚により直感的に把握することができるようになっている。
【００４９】
図７に示すように、前記モータ制御モジュール４０は、デバイス層としてのモータ４１及びポテンショメータ４２と、プロセス層としてのＰＷＭ制御回路４３，ＡＤ変換回路４４及びモータ制御部４５と、特徴層としてのロボット方向４６と、イベント層としてのモータイベント生成部４７と、ビューア４８と、から構成されている。
【００５０】
これにより、モータ制御モジュール４０は、アテンション制御モジュール６４（後述）からの指令に基づいてモータ制御部４５によりＰＷＭ制御回路４３を介してモータ４１を駆動制御すると共に、モータ４１の回転位置をポテンショメータ４２により検出して、ＡＤ変換回路４４を介してモータ制御部４５によりロボット方向４６を抽出し、モータイベント生成部４７によりモータ方向情報から成るモータイベント４９を生成する。
【００５１】
ビューア４８は、モータイベントをクライアントの画面上に三次元的に表示するものであって、具体的には図１２（Ａ）に示すように、例えばＯｐｅｎＧＬにより実装されている三次元ビューアを利用して、モータイベント４９によるロボット１０の向きを、三次元表示のロボット４８ａの向き及び例えば赤色表示の矢印４８ｂの方向により、そしてロボット１０の動作速度を矢印４８ｂの長さにより、リアルタイムに三次元表示するようになっている。
これにより、ビューア４８の表示を見ることによって、モータイベント４９によるロボット１０の三次元表示により、モータイベント４９を視覚により直感的に把握することができるようになっている。
尚、ロボット１０に対する視点は、任意に変更可能であり、またズームアップ及びズームアウトも可能である。
【００５２】
図８に示すように、前記対話モジュール５０は、デバイス層としてのスピーカ５１及びマイク１６と、プロセス層としての音声合成回路５２，対話制御回路５３及び自声抑制回路５４，音声認識回路５５と、から構成されている。
【００５３】
これにより、対話モジュール５０は、後述するアソシエーションモジュール６０により対話制御回路５３を制御し、音声合成回路５２によりスピーカ５１を駆動することによって、対象とする話者に対して所定の音声を発すると共に、マイク１６からの音響信号から自声抑制回路５４によりスピーカ５１からの音を除去した後、音声認識回路５５により対象とする話者の音声を認識する。
なお、前記対話モジュール５０は、階層としての特徴層及びイベント層を備えていない。
【００５４】
ここで、対話制御回路５３は、例えばパーティ受付ロボットの場合には、現在のアテンションを継続することが最優先となるが、パーティロボットの場合には、最も最近に関連付けられたストリームに対してアテンション制御される。
【００５５】
図９に示すように、前記アソシエーションモジュール６０は、上述した聴覚モジュール２０，視覚モジュール３０，モータ制御モジュール４０，対話モジュール５０に対して、階層的に上位に位置付けられており、各モジュール２０，３０，４０，５０のイベント層の上位であるストリーム層を構成している。
具体的には、前記アソシエーションモジュール６０は、聴覚モジュール２０，視覚モジュール３０及びモータ制御モジュール４０からの非同期イベント６１ａ即ち聴覚イベント２８，視覚イベント３９及びモータイベント４９を同期させて同期イベント６１ｂにする同期回路６２と、これらの同期イベント６１ｂを相互に関連付けて、聴覚ストリーム６５，視覚ストリーム６６及びアソシエーションストリーム６７を生成するストリーム生成部６３と、さらにアテンション制御モジュール６４と、ビューア６８を備えている。
【００５６】
前記同期回路６２は、聴覚モジュール２０からの聴覚イベント２８，視覚モジュール３０からの視覚イベント３８及びモータ制御モジュール４０からのモータイベント４９を同期させて、同期聴覚イベント，同期視覚イベント及び同期モータイベントを生成する。
その際、聴覚イベント２８及び視覚イベント３８は、同期モータイベントによって、その座標系が絶対座標系に変換されることになる。
【００５７】
ここで、各イベントの実際に観測されてからネットワーク７０を介してアソシエーションモジュール６０に到着するまでの遅延時間は、例えば聴覚イベント２８では４０ｍ秒、視覚イベント３９では２００ｍ秒、モータイベント４９では１００ｍであり、ネットワーク７０における遅延が１０乃至２００ｍ秒であり、さらに到着周期も異なることによるものである。
従って、各イベントの同期を取るために、聴覚モジュール２０，視覚モジュール３０及びモータ制御モジュール４０からの聴覚イベント２８，視覚イベント３９及びモータイベント４９は、それぞれ実際の観測時間を示すタイムスタンプ情報を備えており、図示しない短期記憶回路にて、例えば２秒間の間だけ一旦記憶される。
【００５８】
そして、同期回路６２は、短期記憶回路に記憶された各イベントを、上述した遅延時間を考慮して、実際の観測時間と比較して５００ｍ秒の遅延時間を備えるように、同期プロセスにより取り出す。これにより、同期回路６２の応答時間は５００ｍ秒となる。また、このような同期プロセスは例えば１００ｍ秒周期で動作するようになっている。
尚、各イベントは、それぞれ互いに非同期でアソシエーションモジュール６０に到着するので、同期を取るための観測時刻と同時刻のイベントが存在するとは限らない。従って、同期プロセスは、同期を取るための観測時刻前後に発生したイベントに対して、線形補間による補間を行なうようになっている。
【００５９】
また、ストリーム生成部６３は、以下の点に基づいて、ストリーム６５，６６，６７の生成を行なう。
１．聴覚イベント２８は、同等または倍音関係にあるピッチを備え、方向が±１０度以内で最も近い聴覚ストリーム６５に接続される。尚、±１０度以内の値は、聴覚エピポーラ幾何の精度を考慮して選定されたものであ。
２．視覚イベント３９は、共通の顔ＩＤ３４を有し且つ４０ｃｍの範囲内で最も近い視覚ストリーム６６に接続される。尚、４０ｃｍの範囲内の値は、秒速４ｍ以上で人間が移動することがないということを前提として選定されたものである。
３．すべてのストリームに対して探索を行なった結果、接続可能なストリーム６５，６６が存在しないイベントがある場合には、当該イベント２８，３９は、新たなストリーム６５，６６を構成することになる。
４．既に存在しているストリーム６５，６６は、これらに接続されるイベント２８，３９がない場合には、最大で５００ｍ秒間は存続するが、その後もイベントが接続されない状態が継続すると、消滅する。
５．聴覚ストリーム６５と視覚ストリーム６６が±１０度以内に近接する状態が１秒間のうち５００ｍ秒以上継続する場合、これの聴覚ストリーム６５と視覚ストリーム６６は、同一話者に由来するものであるとみなされ、互いに関係付けられて、アソシエーションストリーム６７が生成される。
６．アソシエーションストリーム６７は、聴覚イベント２８または視覚イベント３９が３秒間以上接続されない場合には、関係付けが解除され、既存の聴覚ストリーム６５または視覚ストリーム６６のみが存続する。
７．アソシエーションストリーム６７は、聴覚ストリーム６５及び視覚ストリーム６６の方向差が３秒間、±３０度以上になった場合には、関係付けが解除され、個々の聴覚ストリーム６５及び視覚ストリーム６６に戻る。
【００６０】
これにより、ストリーム生成部６３は、同期回路６２からの同期聴覚イベント及び同期視覚イベントに基づいて、これらの時間的つながりを考慮してイベントを接続することにより、聴覚ストリーム６５及び視覚ストリーム６６を生成すると共に、相互の結び付きの強い聴覚ストリーム６５及び視覚ストリーム６６を関係付けて、アソシエーションストリーム６７を生成するようになっており、逆にアソシエーションストリーム６７を構成する聴覚ストリーム６５及び視覚ストリーム６６の結び付きが弱くなれば、関係付けを解除するようになっている。
【００６１】
また、アテンション制御モジュール６４は、モータ制御モジュール４０の駆動モータ制御のプランニングのためのアテンション制御を行なうものであり、その際アソシエーションストリーム６７，聴覚ストリーム６５そして視覚ストリーム６６の順に優先的に参照して、アテンション制御を行なう。
そして、アテンション制御モジュール６４は、聴覚ストリーム６５及び視覚ストリーム６６の状態とアソシエーションストリーム６７の存否に基づいて、ロボット１０の動作プランニングを行ない、駆動モータ４１の動作の必要があれば、モータ制御モジュール４０に対して動作指令としてのモータイベントをネットワーク７０を介して送信する。
【００６２】
ここで、アテンション制御モジュール６４におけるアテンション制御は、連続性とトリガに基づいており、連続性により同じ状態を保持しようとし、トリガにより最も興味のある対象を追跡しようとする。
従って、アテンション制御は、
１．アソシエーションストリームの存在は、ロボット１０に対して正対して話している人が現在も存在している、あるいは近い過去に存在していたことを示しているので、このようなロボット１０に対して話している人に対して、高い優先度でアテンションを向けて、トラッキングを行なう必要がある。
２．マイク１６は無指向性であるので、カメラの視野角のような検出範囲が存在せず、広範囲の聴覚情報を得ることができるので、視覚ストリームより聴覚ストリームの優先度を高くすべきである。
という二つの点を考慮して、以下の原則に従ってアテンションを向けるストリームを選択して、トラッキングを行なう。
１．アソシエーションストリームのトラッキングを最優先する。
２．アソシエーションストリームが存在しない場合、聴覚ストリームのトラッキングを優先する。
３．アソシエーションストリーム及び聴覚ストリームが存在しない場合、視覚ストリームのトラッキングを優先する。
４．複数の同じ種類のストリームが存在する場合、最も古いストリームのトラッキングを優先する。
このようにして、アテンション制御モジュール６４は、アテンション制御を行なって、モータ制御モジュール４０の駆動モータ４１の制御のプランニングを行ない、このプランニングに基づいて、モータコマンド６６を生成し、ネットワーク７０を介してモータ制御モジュール４０に伝送する。これにより、モータ制御モジュール４０では、このモータコマンド６６に基づいて、モータ制御部４５がＰＷＭ制御を行なって、駆動モータ４１を回転駆動させて、ロボット１０を所定方向に向けるようになっている。
【００６３】
ビューア６８は、このようにして生成された各ストリームをサーバの画面上に表示するものであり、具体的には図１２（Ｂ）に示すように、レーダチャート６８ａ及びストリームチャート６８ｂにより表示する。
ここで、レーダチャート６８ａは、その瞬間におけるアソシエーションストリームの状態を、例えば広く明るい（図示の場合ピンク色）扇形で示されるカメラの視野角６８ａ１と共に、狭く暗い扇形で示されるストリームの方向６８ａ２により示す。
ここで、ストリームの方向６８ａ２は、聴覚ストリーム及び視覚ストリームがある場合には例えば赤色表示され、また聴覚ストリームのみの場合には例えば青色表示され、視覚ストリームのみの場合には例えば緑色表示される。
また、ストリームチャート６８ｂは、太線により示されるアソシエーションストリーム６８ｂ１と、細線により示される聴覚ストリームまたは視覚ストリーム６８ｂ２を示している。
ここで、アソシエーションストリーム６８ｂ１は、聴覚ストリーム及び視覚ストリームが存在する場合には例えば赤色表示され、聴覚ストリームのみの場合には例えば青色表示され、また視覚ストリームのみの場合には例えば緑色表示される。また、細線によるストリーム６８ｂ２は、聴覚ストリームの場合には例えば青色表示され、視覚ストリームの場合には例えば緑色表示されるようになっている。
これにより、ビューア６８の表示を見ることによって、レーダチャート６８ａにより、そのときの視覚ストリーム及び聴覚ストリームを視覚にて直観的に把握することができると共に、ストリームチャート６８ｂにより、視覚ストリーム及び聴覚ストリームの時間的流れを視覚により直感的に把握することができるようになっている。その際、表示の色を視認することにより、どのようなストリームでアテンション制御が行なわれているかを容易に把握することが可能である。
【００６４】
本発明実施形態による人型ロボット１０は以上のように構成されており、パーティ受付ロボットとして対象とする話者に対して、図５を参照して、以下のように動作する。
先ず、図１０（Ａ）に示すように、ロボット１０は、パーティ会場の入口前に配置されている。
そして、図１０（Ｂ）に示すように、パーティ参加者Ｐがロボット１０に接近してくるが、ロボット１０は、まだ当該参加者Ｐを認識していない。ここで、参加者Ｐがロボット１０に対して例えば「こんにちは」と話し掛けると、ロボット１０は、マイク１６が当該参加者Ｐの音声を拾って、聴覚モジュール２０が音源方向を伴う聴覚イベント２８を生成して、ネットワーク７０を介してアソシエーションモジュール６０に伝送する。
【００６５】
これにより、アソシエーションモジュール６０は、この聴覚イベント２８に基づいて聴覚ストリーム２９を生成する。このとき、視覚モジュール３０は参加者Ｐがカメラ１５の視野内に入っていないので、視覚イベント３９を生成しない。従って、アソシエーションモジュール６０は、聴覚イベント２８のみに基づいて、聴覚ストリーム２９を生成し、アテンション制御モジュール６４は、この聴覚ストリーム２９をトリガーとして、ロボット１０を参加者Ｐの方向に向けるようなアテンション制御を行なう。
【００６６】
このようにして、図１０（Ｃ）に示すように、ロボット１０が参加者Ｐの方向を向き、所謂声によるトラッキングが行なわれる。そして、視覚モジュール３０がカメラ１５による参加者Ｐの顔の画像を取り込んで、視覚イベント３９を生成して、当該参加者Ｐの顔を顔データベース３８により検索し、顔識別を行なうと共に、その結果である顔ＩＤ２４及び画像をネットワーク７０を介してアソシエーションモジュール６０に伝送する。尚、当該参加者Ｐの顔が顔データベース３８に登録されていない場合には、視覚モジュール３０は、その旨をネットワーク７０を介してアソシエーションモジュールに伝送する。
【００６７】
このとき、ロボット１０は、聴覚イベント２８及び視覚イベント３９によりアソシエーションストリーム６５を生成しており、このアソシエーションストリーム６５によりアテンション制御モジュール６４は、そのアテンション制御を変更しないので、ロボット１０は、参加者Ｐの方向を向き続ける。従って、参加者Ｐが移動したとしても、ロボット１０は、アソシエーションストリーム６５によりモータ制御モジュール４０を制御することにより、参加者Ｐを追跡して、視覚モジュール３０のカメラ１５が参加者Ｐを継続して撮像し得るようになっている。
【００６８】
そして、アソシエーションモジュール６０は、聴覚モジュール２０の音声認識回路５５に入力を与えて、音声認識回路５５はその音声認識結果を対話制御回路５３に与える。これにより、対話制御回路５３は音声合成を行なってスピーカ５１から発声する。このとき、音声認識回路５５がマイク１６からの音響信号からスピーカ５１からの音を自声抑制回路５４により低減することにより、ロボット１０は自身の発声を無視して、相手の声をより正確に認識することができる。
【００６９】
ここで、音声合成による発声は、参加者Ｐの顔が前記顔データベース３８に登録されているか否かで異なる。
参加者Ｐの顔が顔データベース３８に登録されている場合には、アソシエーションモジュール６０は、視覚モジュール３０からの顔ＩＤ２４に基づいて、対話モジュール５０を制御して、音声合成により「こんにちは。ＸＸＸさんですか？」と参加者Ｐに対して質問する。
これに対して、参加者Ｐが「はい。」と答えると、対話モジュール５０がマイク１６からの音響信号に基づいて、音声認識回路５５により「はい」を認識して対話制御回路５３により音声合成を行ない、スピーカ５１から「ようこそＸＸＸさん、どうぞ部屋にお入り下さい。」と発声する。
【００７０】
また、参加者Ｐの顔が顔データベース３８に登録されていない場合には、アソシエーションモジュール６０は、対話モジュール５０を制御して、音声合成により「こんにちは。あなたのお名前を教えていただけますか？」と参加者Ｐに対して質問する。
これに対して、参加者Ｐが「ＸＸＸです。」と自分の名前を答えると、対話モジュール５０がマイク１６からの音響信号に基づいて、音声認識回路５５により「ＸＸＸ」を認識して、対話制御回路５３により音声合成を行ない、スピーカ５１から「ようこそＸＸＸさん、どうぞ部屋にお入り下さい。」と発声する。
このようにして、ロボット１０は参加者Ｐの認識を行なって、パーティ会場への入場を誘導すると共に、視覚モジュール３０にて当該参加者Ｐの顔の画像と名前「ＸＸＸ」を顔データベース３８に登録させる。
【００７１】
また、人型ロボット１０は、コンパニオン用ロボットとして、例えば図１３を参照して、以下のように動作する。
先ず、人型ロボット１０は、特に明確なシナリオを有しているのではなく、例えば図１３においては、登場する４人の話者に関して一人の話者を追跡したり、途中で他の話者にアテンションを切換えるように動作する。そして、その動作は、各ビューア２７，３７，４８，６８における表示を視認することにより容易に把握され、評価され得るようになっている。
ここで、図１３（Ａ）乃至（Ｈ）の各図は、それぞれ左上のスナップショット，右上のビューア６８の表示，左下のビューア２７の表示そして右下のビューア２８の表示から構成されている。
先ず図１３（Ａ）において、人型ロボット１０は、その視覚モジュール３０により、右下のビューア２８の表示にて長方形の枠で示すように、一番左の話者の顔を検出する。当該話者の視覚イベント３８は、右上のストリームチャート６８ｂにおいては、細い線６８ｂ１で示される視覚ストリームを構成する。
【００７２】
次に、当該話者が話し始めると、図１３（Ｂ）に示すように、聴覚モジュール２０が聴覚イベント２８を検出して、この聴覚イベント２８は、左下のビューア２７の右側のウインドウ２７ｂにて小さな円として表示されると共に、左側のウインドウ２７ａにて、パワースペクトルにおける一組の倍音のピークとして抽出される。
そして、この聴覚イベント２８は、アソシエーションモジュール６０にて聴覚ストリームに変換され、右上のビューア６８のレーダチャート６８ａにて狭く暗い扇形６８ａ２として示される。
【００７３】
このとき、当該話者の聴覚イベント２８と視覚イベント３８からアソシエーションモジュール６０により生成された聴覚ストリーム６５及び視覚ストリーム６６が一定の時間以上、共通の方向を有していることから、アソシエーションモジュール６０のストリーム生成部６３にて、アソシエーションストリーム６７が生成され、図７（Ｃ）に示すように、右上のビューア６８のストリームチャート６８ｂにて、太線によりアソシエーションストリームが表示され、当該話者に対してアテンション制御が行なわれる。
【００７４】
この状態から、図１３（Ｄ）に示すように、当該話者が話を中断すると、前記アソシエーションストリームの関連付けが解除されると共に、当該話者に対するアテンションが解放され、アテンション制御が中断される。
そして、一番右の人が話し始めたので、この話者に対してアテンションが向けられ、人型ロボット１０がこの話者に対して向きを変えようとしたところで、この話者が話を止めた。
その際、視覚モジュール３０が左から二番目の話者の顔を偶然に検出したので、人型ロボット１０は水平回転を中断した。
【００７５】
続いて、図１３（Ｅ）に示すように、左から二番目の話者が話し始め、当該話者のアソシエーションストリームが生成されたので、アテンションが当該話者に向けられた。
その後、図１３（Ｆ）に示すように、当該話者が話を止めたが、当該話者の視覚イベント３８は継続して検出されるので、アソシエーションストリーム６７は数秒間存続している。
【００７６】
そして、図１３（Ｇ）に示すように、アソシエーションストリーム６７が消滅した後、左から三番目の話者が話し始めたので、人型ロボット１０は当該話者に向こうとするが、視覚モジュール３０が当該話者を検出できないので、視覚イベント３８そして視覚ストリーム６６が生成されず、従ってアソシエーションストリームが生成されない。
【００７７】
その後、図１３（Ｈ）に示すように、再び一番左の話者が話し始めると、当該話者が視覚モジュール３０により検出されておらず、従って視覚イベント３８，視覚ストリーム６６が生成されておらず、さらにアソシエーションストリームも生成されていないので、人型ロボット１０は、当該話者の聴覚イベント２８をトリガーとして当該話者に向きを変える。
【００７８】
このようにして、人型ロボット１０は、聴覚モジュール２０による聴覚イベント２８及び視覚モジュール３０による視覚イベント３９と、アソシエーションモジュール６０によるアソシエーションストリーム６５に基づいて、複数の話者を聴覚及び視覚により認識していると共に、複数の話者のうちの一人の話者を追跡したり、あるいは途中で他の話者に切り換えて追跡することができる。
なお、コンパニオン用ロボットの場合には、ロボット１０は受動的な役割を果たす、即ちパーティ参加者の「話を聴き」あるいは「話者を見る」のみであり、対話モジュール５０により発声することはない。
【００７９】
また、コンパニオン用ロボットとしての人型ロボット１０は、パーティ受付ロボットと顔データベース３８を共用し、あるいはパーティ受付ロボットの顔データベース３８が転送または複写されるようにしてもよい。この場合、コンパニオン用ロボットとしての人型ロボット１０は、パーティ参加者全員を常に顔識別によって認識することができる。
【００８０】
このようにして、本発明実施形態による人型ロボット１０によれば、聴覚モジュール２０及び視覚モジュール３０からの聴覚イベント及び視覚イベントに基づいて、アソシエーションモジュール６０が聴覚ストリーム，視覚ストリームそしてアソシエーションストリームを生成することによって、複数の対象である話者を認識しているので、何れかのイベントが欠落したり明確に認識できなくなった場合、例えば話者が移動して「見えなく」なった場合でも聴覚により、また話者が話をせず「聞こえなく」なった場合でも視覚により、リアルタイムに複数の話者を聴覚的及び／又は視覚的にトラッキングすることができる。
また、各モジュールのビューアにより、聴覚情報，視覚情報，モータ情報及びストリーム情報が表示されているので、これらの情報を視覚により直感的に把握し、人型ロボット１０の動作状況を容易に評価することができる。
その際、各ビューアにおける表示色が、アソシエーションストリームの状態に応じて異なると共に、各ビューア間で統一されていることから、アソシエーションストリームの状態を容易に把握することが可能である。
【００８１】
上述した実施形態において、人型ロボット１０は、４ＤＯＦ（自由度）を有するように構成されているが、これに限らず、任意の動作を行なうように構成されたロボットに本発明によるロボット聴覚システムを組み込むことも可能である。また、上述した実施形態においては、本発明によるロボット視聴覚システムを人型ロボット１０に組み込んだ場合について説明したが、これに限らず、犬型等の各種動物型ロボットや、その他の形式のロボットに組み込むことも可能であることは明らかである。
さらに、上述した実施形態においては、アテンション制御の際に、複数の同じ種類のストリームが存在する場合、最も古いストリームのトラッキングを優先するようになっているが、これに限らず、他のストリーム、例えば最も新しいストリームのトラッキングを優先させるようにしてもよい。
【００８２】
【発明の効果】
以上述べたように、この発明によれば、聴覚モジュール，視覚モジュール及びモータ制御モジュールと、アソシエーションモジュール及びアテンション制御モジュールとの連携によって、ロボットの聴覚及び視覚がそれぞれ有する曖昧性が互いに補完されることになり、所謂ロバスト性が向上し、複数の話者であっても各話者をそれぞれ知覚することができる。
また、例えば聴覚イベントまたは視覚イベントの何れか一方が欠落したときであっても、視覚イベントまたは聴覚イベントのみに基づいて、対象である話者をアソシエーションモジュールが知覚することができるので、リアルタイムにモータ制御モジュールの制御を行なうことができる。
さらに、表示部により、前記聴覚モジュールによる聴覚情報，視覚モジュールによる視覚情報及びモータモジュールによるモータ情報、そしてアソシエーションモジュールによるストリーム情報の少なくとも一部を表示して、アソシエーションモジュールによるリアルタイム処理を視覚化することにより、リアルタイム処理の状態を視覚により直感的に把握することができる。
これにより、本発明によれば、対象に対する視覚及び聴覚の追跡を行なうためのリアルタイム処理を可能にすると共に、このリアルタイム処理を視覚化するようにした極めて優れたロボット視聴覚システムが提供される。
【図面の簡単な説明】
【図１】この発明によるロボット聴覚装置の第一の実施形態を組み込んだ人型ロボットの外観を示す正面図である。
【図２】図１の人型ロボットの側面図である。
【図３】図１の人型ロボットにおける頭部の構成を示す概略拡大図である。
【図４】図１の人型ロボットにおけるロボット視聴覚システムの電気的構成を示すブロック図である。
【図５】図４におけるブロック１の聴覚モジュールを拡大して示す電気的構成のブロック図である。
【図６】図４におけるブロック２の視覚モジュールを拡大して示す電気的構成のブロック図である。
【図７】図４におけるブロック３のモータ制御モジュールを拡大して示す電気的構成のブロック図である。
【図８】図４におけるブロック４の対話モジュールを拡大して示す電気的構成のブロック図である。
【図９】図４におけるブロック５のアソシエーションモジュールを拡大して示す電気的構成のブロック図である。
【図１０】図４のロボット視聴覚システムにおけるパーティ受付ロボットとしての動作例を示す図である。
【図１１】図４のロボット視聴覚システムにおける（Ａ）聴覚モジュール，（Ｂ）視覚モジュールのビューアの画面例を示す図である。（Ｃ）モータ制御モジュール及び（Ｄ）アソシエーションモジュールのビューアの画面例を示す図である。
【図１２】図４のロボット視聴覚システムにおける（Ｃ）モータ制御モジュール，（Ｄ）アソシエーションモジュールのビューアの画面例を示す図である。
【図１３】図４のロボット視聴覚システムにおけるコンパニオン用ロボットとしての動作例を示す図である。
【符号の説明】
１０人型ロボット
１１ベース
１２胴体部
１３頭部
１３ａ連結部材
１４外装
１５カメラ（ロボット視覚）
１６，１６ａ，１６ｂマイク（ロボット聴覚）
１７ロボット視聴覚システム
２０聴覚モジュール
３０視覚モジュール
４０モータ制御モジュール
５０対話モジュール
６０アソシエーションモジュール
７０ネットワーク

Claims

外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、
ロボットの前方を撮像するカメラを含む視覚モジュールと、
ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、
前記聴覚モジュール，視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、
アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えているロボット視聴覚システムであって、
前記聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出，音源の分離及び定位から、少なくとも一人の話者の音源を同定してその聴覚イベントを抽出し、
前記視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から話者の視覚イベントを抽出し、
前記モータ制御モジュールが、駆動モータの回転位置に基づいてモータイベントを抽出することにより、
前記アソシエーションモジュールが、聴覚イベント，視覚イベント及びモータイベントから、聴覚ストリーム及び視覚ストリームと、聴覚ストリームと視覚ストリームとを関連付けたアソシエーションストリームを生成して、
前記アテンション制御モジュールが、聴覚ストリーム，視覚ストリーム，アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうと共に、
前記聴覚モジュールによる聴覚情報，視覚モジュールによる視覚情報及びモータモジュールによるモータ情報、そしてアソシエーションモジュールによるストリーム情報の少なくとも一部を表示する表示部を備えていることを特徴とする、ロボット視聴覚システム。
外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、
ロボットの前方を撮像するカメラを含む視覚モジュールと、
ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、
前記聴覚モジュール，視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、
アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えている人型または動物型のロボットの視聴覚システムであって、
前記聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出，音源の分離及び定位から、少なくとも一人の話者の音源を同定してその聴覚イベントを抽出し、
前記視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から話者の視覚イベントを抽出し、
前記モータ制御モジュールが、駆動モータの回転位置に基づいてモータイベントを抽出することにより、
前記アソシエーションモジュールが、聴覚イベント，視覚イベント及びモータイベントから、聴覚ストリーム及び視覚ストリームと、聴覚ストリームと視覚ストリームとを関連付けたアソシエーションストリームを生成して、
前記アテンション制御モジュールが、聴覚ストリーム，視覚ストリーム，アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうと共に、
前記聴覚モジュールによる聴覚情報，視覚モジュールによる視覚情報及びモータモジュールによるモータ情報、そしてアソシエーションモジュールによるストリーム情報の少なくとも一部を表示する表示部を備えていることを特徴とする、ロボット視聴覚システム。
前記表示部が、聴覚情報として、音源からの音響信号のスペクトル及び抽出されたピーク、そして聴覚イベントを表示する聴覚表示部を備えていることを特徴とする、請求項１又は２に記載のロボット視聴覚システム。
前記聴覚表示部が、縦軸をロボットを中心とする相対的な方位角，横軸をピッチとし、直径を確信度とする円により聴覚イベントを表示することを特徴とする、請求項３に記載のロボット視聴覚システム。
前記表示部が、視覚情報として、抽出した顔を枠で示すカメラ画像と、視覚イベントを表示する視覚表示部を備えていることを特徴とする、請求項１から４の何れかに記載のロボット視聴覚システム。
前記視覚表示部が、確信度付きで抽出した顔識別及び顔定位のリストにより視覚イベントを表示することを特徴とする、請求項５に記載のロボット視聴覚システム。
前記表示部が、モータ情報として、ロボットの向き及び動作の速度をリアルタイムに三次元表示するモータ表示部を備えていることを特徴とする、請求項１から６の何れかに記載のロボット視聴覚システム。
前記表示部が、ストリーム情報として、ストリームチャート及びレーダチャートを表示するストリーム表示部を備えていることを特徴とする、請求項７に記載のロボット視聴覚システム。
前記ストリーム表示部が、ストリームチャートにて、各聴覚ストリーム及び視覚ストリームそしてアソシエーションストリームにより、ストリーム情報を表示することを特徴とする、請求項８に記載のロボット視聴覚システム。
前記ストリーム表示部が、レーダチャートにて、カメラ視野と音源定位により、そのときのストリーム状態を表示することを特徴とする、請求項８に記載のロボット視聴覚システム。