JP2002264053A

JP2002264053A - ロボット視聴覚システム

Info

Publication number: JP2002264053A
Application number: JP2001067849A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Kenichi Hidai; 健一日台; Hiroshi Okuno; 博奥乃; Hiroaki Kitano; 宏明北野
Original assignee: Japan Science and Technology Corp
Current assignee: Japan Science and Technology Agency
Priority date: 2001-03-09
Filing date: 2001-03-09
Publication date: 2002-09-18
Anticipated expiration: 2021-03-09
Also published as: JP3843743B2

Abstract

(57)【要約】【課題】対象に対する視覚及び聴覚の追跡を行なっ
て、視覚及び聴覚の双方を使用してロボットの視聴覚サ
ーボを行なうようにした、ロボット視聴覚システムを提
供する。【解決手段】聴覚モジュール２０がマイクの音響信号
からピッチ抽出，音源の分離及び定位により話者の音源
を同定して聴覚イベント２８を抽出し、視覚モジュール
３０がカメラの画像から話者の顔識別と定位により視覚
イベント３９を抽出し、モータ制御モジュール４０が駆
動モータの回転位置からモータイベント４９を抽出し、
アソシエーションモジュール６０が聴覚イベント，視覚
イベント及びモータイベントから聴覚ストリーム６５及
び視覚ストリーム６６を生成し、これらを関連付けてア
ソシエーションストリーム６７を生成して、アテンショ
ン制御モジュール６４が、アソシエーションストリーム
に基づいてアテンション制御を行なって、ロボットの視
聴覚サーボを行なう。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はロボット、特に人型
または動物型ロボットにおける視聴覚システムに関する
ものである。

【０００２】

【従来の技術】近年、このような人型または動物型ロボ
ットにおいては、視覚，聴覚の能動知覚が注目されてき
ている。能動知覚とは、ロボット視覚やロボット聴覚等
の知覚を担当する知覚装置を、知覚すべき対象に追従す
るように、これらの知覚装置を支持する例えば頭部を駆
動機構により姿勢制御するものである。

【０００３】ここで、能動視覚に関しては、少なくとも
知覚装置であるカメラが、駆動機構による姿勢制御によ
ってその光軸方向が対象に向かって保持され、対象に対
して自動的にフォーカシングやズームイン，ズームアウ
ト等が行なわれることにより対象がカメラによって撮像
されるようになっており、種々の研究が行なわれてい
る。

【０００４】これに対して、能動聴覚に関しては、少な
くとも知覚装置であるマイクが駆動機構による姿勢制御
によって、その指向性が対象に向かって保持され、対象
からの音がマイクによって集音される。このような能動
聴覚は、例えば本出願人による特願２０００−２２６７
７号（ロボット聴覚システム）に開示されており、視覚
情報を参照して音源の方向付けを行なうようにしてい
る。

【０００５】

【発明が解決しようとする課題】ところで、これらの能
動視覚及び能動聴覚は、ロボットの向き（水平方向）を
変更するためのモータ制御モジュールと密接に関連があ
り、特定の対象に対して能動視覚及び能動聴覚を働かせ
るためには、ロボットを特定の対象に向ける、即ちアテ
ンション制御を行なう必要がある。しかしながら、従
来、所謂視覚サーボまたは聴覚サーボによるモータモジ
ュールの駆動モータのアテンション制御は行なわれてい
るが、視覚及び聴覚の双方を使用してロボットを正確に
制御する、視聴覚サーボは行なわれていない。

【０００６】この発明は、以上の点にかんがみて、対象
に対する視覚及び聴覚の追跡を行なって、視覚及び聴覚
の双方を使用してロボットの視聴覚サーボを行なうよう
にした、ロボット視聴覚システムを提供することを目的
としている。

【０００７】

【課題を解決するための手段】前記目的は、この発明に
よれば、外部の音を集音する少なくとも一対のマイクを
含む聴覚モジュールと、ロボットの前方を撮像するカメ
ラを含む視覚モジュールと、ロボットを水平方向に回動
させる駆動モータを含むモータ制御モジュールと、聴覚
モジュール，視覚モジュール及びモータ制御モジュール
からのイベントを統合してストリームを生成するアソシ
エーションモジュールと、アソシエーションモジュール
により生成されたストリームに基づいてアテンション制
御を行なうアテンション制御モジュールと、を備えてい
るロボット視聴覚システムであって、聴覚モジュール
が、マイクからの音響信号に基づいて、ピッチ抽出，音
源の分離及び定位から、少なくとも一人の話者の音源を
同定してその聴覚イベントを抽出し、視覚モジュール
が、カメラにより撮像された画像に基づいて、各話者の
顔識別と定位からその視覚イベントを抽出し、モータ制
御モジュールが、駆動モータの回転位置に基づいて、モ
ータイベントを抽出することにより、アソシエーション
モジュールが、聴覚イベント，視覚イベント及びモータ
イベントから、聴覚ストリーム及び視覚ストリームと、
これらを関連付けたアソシエーションストリームを生成
して、アテンション制御モジュールが、アソシエーショ
ンストリームに基づいてモータ制御モジュールの駆動モ
ータ制御のプランニングのためのアテンション制御を行
なって、ロボットの視聴覚サーボを行なうことを特徴と
するロボット視聴覚システムにより、達成される。

【０００８】また、前記目的は、この発明によれば、外
部の音を集音する少なくとも一対のマイクを含む聴覚モ
ジュールと、ロボットの前方を撮像するカメラを含む視
覚モジュールと、ロボットを水平方向に回動させる駆動
モータを含むモータ制御モジュールと、聴覚モジュー
ル，視覚モジュール及びモータ制御モジュールからのイ
ベントを統合してストリームを生成するアソシエーショ
ンモジュールと、アソシエーションモジュールにより生
成されたストリームに基づいてアテンション制御を行な
うアテンション制御モジュールと、を備えている人型ま
たは動物型のロボットの視聴覚システムであって、聴覚
モジュールが、マイクからの音響信号に基づいて、ピッ
チ抽出，音源の分離及び定位から少なくとも一人の話者
の音源を同定してその聴覚イベントを抽出し、視覚モジ
ュールが、カメラにより撮像された画像に基づいて、各
話者の顔識別と定位からその視覚イベントを抽出し、モ
ータ制御モジュールが、駆動モータの回転位置に基づい
て、モータイベントを抽出することにより、アソシエー
ションモジュールが、聴覚イベント，視覚イベント及び
モータイベントから、聴覚ストリーム及び視覚ストリー
ムと、これらを関連付けたアソシエーションストリーム
を生成して、アテンション制御モジュールが、アソシエ
ーションストリームに基づいてモータ制御モジュールの
駆動モータ制御のプランニングのためのアテンション制
御を行なって、ロボットの視聴覚サーボを行なうことを
特徴とするロボット視聴覚システムにより、達成され
る。

【０００９】本発明によるロボット視聴覚システムは、
好ましくは、前記アテンション制御モジュールが、アテ
ンション制御を行なう際に、アソシエーションストリー
ム，聴覚ストリーム及び視覚ストリームの順に優先させ
る。

【００１０】本発明によるロボット視聴覚システムは、
好ましくは、前記アテンション制御モジュールが、複数
の聴覚ストリーム又は視覚ストリームが存在するとき、
状況に応じて一つの聴覚ストリームまたは視覚ストリー
ムを選択し、必要に応じてアソシエーションストリーム
を生成し、これらの聴覚ストリーム，視覚ストリームま
たはアソシエーションストリームに基づいてアテンショ
ン制御を行なう。

【００１１】前記構成によれば、聴覚モジュールが、マ
イクが集音した外部の対象からの音から調波構造を利用
してピッチ抽出を行なうことにより音源毎の方向を得
て、個々の話者の音源を同定し、その聴覚イベントを抽
出する。また、視覚モジュールが、カメラにより撮像さ
れた画像から、パターン認識による各話者の顔識別と定
位から個々の話者の視覚イベントを抽出する。さらに、
モータ制御モジュールが、ロボットを水平方向に回動さ
せる駆動モータの回転位置に基づいて、ロボットの方向
を検出することによってモータイベントを抽出する。な
お、前記イベントとは、各時点において検出される音ま
たは顔が検出され、ピッチ及び方向等の特徴が抽出さ
れ、話者同定や顔識別等が行なわれること、あるいは駆
動モータが回転される状態を示しており、ストリームと
は、時間的に連続するイベントを示している。

【００１２】ここで、アソシエーションモジュールは、
このようにしてそれぞれ抽出された聴覚イベント，視覚
イベント及びモータイベントに基づいて、各話者の聴覚
ストリーム及び視覚ストリームを生成し、さらにこれら
のストリームを関連付けてアソシエーションストリーム
を生成して、前記アテンション制御モジュールが、アソ
シエーションストリームに基づいてアテンション制御を
行なうことにより、モータ制御モジュールの駆動モータ
制御のプランニングを行なう。アテンションとは、ロボ
ットが対象である話者を、聴覚的及び／又は視覚的に
「注目」することであり、アンテンション制御とは、モ
ータ制御モジュールによりその向きを変えることによ
り、ロボットが前記話者に注目するようにすることであ
る。そして、アテンション制御モジュールは、このプラ
ンニングに基づいて、モータ制御モジュールの駆動モー
タを制御することにより、視聴覚サーボによってロボッ
トの方向を対象である話者に向ける。これにより、ロボ
ットが対象である話者に対して正対することにより、聴
覚モジュールが当該話者の声を感度の高い正面方向にて
マイクにより正確に集音，定位することができる共に、
視覚モジュールが当該話者の画像をカメラにより良好に
撮像することができるようになる。

【００１３】ここで、前記アテンション制御モジュール
が、アソシエーションストリームに基づいてアテンショ
ン制御を行なうことにより、聴覚情報及び視覚情報の双
方を使用して、ロボットの視聴覚サーボを行なうことに
より、同一物体からの音声と顔（画像）が同一人に由来
していることに基づいて、アテンション制御を行なうこ
とができるので、何れかの情報、即ち聴覚情報又は視覚
情報の何れかによる聴覚サーボ又は視覚サーボの場合と
比較して、より正確にロボットのサーボを行うことがで
きる。

【００１４】従って、このような聴覚モジュール，視覚
モジュール及びモータ制御モジュールと、アソシエーシ
ョンモジュール及びアテンション制御モジュールとの連
携によって、ロボットの視聴覚サーボを行なうことによ
り、ロボットの聴覚及び視覚がそれぞれ有する曖昧性が
互いに補完されることになり、所謂ロバスト性が向上
し、複数の話者であっても、各話者をそれぞれ知覚する
ことができる。

【００１５】

【発明の実施の形態】以下、図面に示した実施形態に基
づいて、この発明を詳細に説明する。図１乃至図４はこ
の発明によるロボット視聴覚システムの一実施形態を備
えた実験用の人型ロボットの全体構成を示している。図
１において、人型ロボット１０は、４ＤＯＦ（自由度）
のロボットとして構成されており、ベース１１と、ベー
ス１１上にて一軸（垂直軸）周りに回動可能に支持され
た胴体部１２と、胴体部１２上にて、三軸方向（垂直
軸，左右方向の水平軸及び前後方向の水平軸）の周りに
揺動可能に支持された頭部１３と、を含んでいる。

【００１６】前記ベース１１は固定配置されていてもよ
く、脚部として動作可能としてもよい。また、ベース１
１は移動可能な台車等の上に載置されていてもよい。前
記胴体部１２は、ベース１１に対して垂直軸の周りに、
図１にて矢印Ａで示すように回動可能に支持されてお
り、図示しない駆動手段によって回転駆動されると共
に、図示の場合、防音性の外装によって覆われている。

【００１７】前記頭部１３は胴体部１２に対して連結部
材１３ａを介して支持されており、この連結部材１３ａ
に対して前後方向の水平軸の周りに、図１にて矢印Ｂで
示すように揺動可能に、また左右方向の水平軸の周り
に、図２にて矢印Ｃで示すように揺動可能に支持されて
いると共に、前記連結部材１３ａが、胴体部１２に対し
てさらに前後方向の水平軸の周りに、図１にて矢印Ｄで
示すように揺動可能に支持されており、それぞれ図示し
ない駆動手段によって、各矢印Ａ，Ｂ，Ｃ，Ｄ方向に回
転駆動される。

【００１８】ここで、前記頭部１３は、図３に示すよう
に全体が防音性の外装１４により覆われていると共に、
前側にロボット視覚を担当する視覚装置としてのカメラ
１５を、また両側にロボット聴覚を担当する聴覚装置と
しての一対のマイク１６（１６ａ，１６ｂ）を備えてい
る。

【００１９】前記外装１４は、例えばウレタン樹脂等の
吸音性の合成樹脂から構成されており、頭部１３の内部
をほぼ完全に密閉することにより、頭部１３の内部の遮
音を行なうように構成されている。尚、胴体部１２の外
装も、同様にして吸音性の合成樹脂から構成されてい
る。前記カメラ１５は公知の構成であって、例えば所謂
パン，チルト，ズームの３ＤＯＦ（自由度）を有する市
販のカメラが適用され得る。

【００２０】前記マイク１６は、それぞれ頭部１３の側
面において、前方に向かって指向性を有するように取り
付けられている。ここで、マイク１６の左右の各マイク
１６ａ，１６ｂは、それぞれ図１及び図２に示すよう
に、外装１４の両側にて前方に向いた段部１４ａ，１４
ｂにて、内側に取り付けられ、段部１４ａ，１４ｂに設
けられた貫通穴を通して、前方の音を集音すると共に、
外装１４の内部の音を拾わないように適宜の手段により
遮音されている。これにより、マイク１６ａ，１６ｂ
は、所謂バイノーラルマイクとして構成されている。な
お、マイク１６ａ，１６ｂの取付位置の近傍において、
外装１４は人間の外耳形状に形成されていてもよい。

【００２１】図４は、前記マイク１６及びカメラ１５を
含むロボット視聴覚システムの電気的構成を示してい
る。図４において、視聴覚システム１７は、パーティ受
付及びコンパニオン用ロボットとしての構成であり、聴
覚モジュール２０，視覚モジュール３０，モータ制御モ
ジュール４０，対話モジュール５０，アソシエーション
モジュール６０及びアテンション制御モジュール６４
と、から構成されている。以下、図４の各部を拡大して
示す図５〜図９をも参照しつつさらに説明する。説明の
便宜上、聴覚モジュール２０をブロック１として図５に
拡大して示し、視覚モジュール３０をブロック２として
図６に拡大して示し、モータ制御モジュール４０をブロ
ック３として図７に拡大して示し、対話モジュール５０
をブロック４として図８に拡大して示し、さらに、アソ
シエーションモジュール６０及びアテンション制御モジ
ュール６４をブロック５として図９に拡大して示す。こ
こで、アソシエーションモジュール６０（ブロック５、
図９）はサーバから構成されていると共に、他のモジュ
ール、即ち聴覚モジュール２０（ブロック１、図５），
視覚モジュール３０（ブロック２、図６），モータ制御
モジュール４０（ブロック３、図７），対話モジュール
５０（ブロック４、図８）は、それぞれクライアントか
ら構成されており、互いに非同期で動作する。

【００２２】なお、前記サーバ及び各クライアントは、
例えばパーソナルコンピュータにより構成されており、
例えば１００Ｂａｓｅ−Ｔ等のネットワーク７０を介し
て、例えばＴＣＰ／ＩＰプロトコルにより、相互にＬＡ
Ｎ接続されている。また、各モジュール２０，３０，４
０，５０，６０は、それぞれ階層的に分散して、具体的
には下位から順次にデバイス層，プロセス層，特徴層，
イベント層から構成されている。

【００２３】図５に示すように、前記聴覚モジュール２
０は、デバイス層としてのマイク１６と、プロセス層と
してのピーク抽出部２１，音源定位部２２，音源分離部
２３と、特徴層（データ）としてのピッチ２４，水平方
向２５と、イベント層としての聴覚イベント生成部２６
及びビューア２７と、から構成されている。

【００２４】これにより、聴覚モジュール２０は、マイ
ク１６からの音響信号に基づいて、ピーク抽出部２１に
より左右のチャンネル毎に一連のピークを抽出して、左
右のチャンネルで同じか類似のピークをペアとする。こ
こで、ピーク抽出は、パワーがしきい値以上で且つ極大
値であって、例えば９０Ｈｚ乃至３ｋＨｚの間の周波数
であるという条件のデータのみを透過させる帯域フィル
タを使用することにより行なわれる。このしきい値は、
周囲の暗騒音を計測して自動的に決定される。

【００２５】そして、聴覚モジュール２０は、各ピーク
が調波構造を有していることを利用して、左右のチャン
ネル間でより正確なピークのペアを見つけ、左右のチャ
ンネルのピークの各ペアについて、音源分離部２３によ
り、逆ＦＦＴ（高速フーリエ変換）を適用して、各音源
からの混合音から調波構造を有する音を分離する。これ
により、聴覚モジュール２０は、分離した各音について
音源定位部２２により左右のチャンネルから同じ周波数
の音響信号を選択して、例えば５度毎にＩＰＤ（両耳間
位相差）及びＩＩＤ（両耳間強度差）を求める。

【００２６】そして、聴覚モジュール２０の音源定位部
２２は、所謂聴覚エピポーラ幾何を利用して、ロボット
１０の正面を０度として±９０度の範囲で、仮説推論に
よるＩＰＤＰｈの仮説を生成して、

【数１】により分離した音と各仮説間の距離ｄ（θ）を計算す
る。ここで、ｎ_f＜１．５ｋＨｚは、周波数が１．５ｋ
Ｈｚ以下である倍音である。これは、左右のマイク１５
のベースラインからＩＰＤが１．２乃至１．５ｋＨｚ以
下の周波数に対して有効であるので、今回の実験では
１．５ｋＨｚ以下としたものである。

【００２７】ＩＩＤについては、ＩＰＤと同様に、分離
した音の各倍音の左右チャンネル間のパワー差から求め
られる。ただし、ＩＩＤについては仮説推論ではなく、

【数２】による判別関数を用いて、音源が左右何れかを判定する
ものとする。即ち、周波数ｆの各倍音のＩＩＤをＩ
_s（ｆ）としたとき、音源は、Ｉが正であればロボット
の左方向に、Ｉが負であれば右方向に、そしてほぼ０で
あれば正面方向に存在することになる。ここで、ＩＩＤ
の仮説生成には、ロボット１０の頭部形状を考慮した膨
大な計算が必要となることから、リアルタイム処理を考
慮して、ＩＰＤと同様の仮説推論は行なわない。

【００２８】そして、聴覚モジュール２０の音源定位部
２２は、前記距離ｄ（θ）から確立密度関数

【数３】を利用して、ＩＰＤの確信度ＢＦ_IPD（θ）を計算す
る。ここで、ｍ，ｓは、それぞれｄ（θ）の平均と分散
であり、ｎはｄの個数である。また、ＩＩＤの確信度Ｂ
Ｆ_IID（θ）は、３０度＜θ≦９０度で、前記Ｉが＋の
とき０．３５、−のとき０．６５、−３０度＜θ≦３０
度で、前記Ｉが＋のとき０．５、−のとき０．５、−９
０度＜θ≦−３０度で、前記Ｉが＋のとき０．６５、−
のとき０．３５となる。

【００２９】そして、このようにして得られたＩＰＤの
確信度ＢＦ_IPD（θ）及びＩＩＤの確信度ＢＦ
_IID（θ）を、

【数４】で示されるＤｅｍｐｓｔｅｒ−Ｓｈａｆｅｒ理論により
統合して、確信度ＢＦ_IP _D+IID（θ）を生成する。これ
により、聴覚モジュール２０は、聴覚イベント生成部２
６により、音源方向として尤度の高い順に上位２０個の
確信度ＢＦ_IPD+IID（θ）と方向（θ）のリストと、ピ
ッチにより、聴覚イベント２８を生成する。

【００３０】このようにして、聴覚モジュール２０は、
マイク１６からの音響信号に基づいて、ピッチ抽出，音
源の分離及び定位から、少なくとも一人の話者の音源を
同定してその聴覚イベントを抽出し、ネットワーク７０
を介してアソシエーションモジュール６０に対して送信
するようになっている。尚、聴覚モジュール２０におけ
る上述した処理は、４０ｍ秒毎に行なわれる。

【００３１】ビューア２７は、このようにして生成され
た聴覚イベント２８をクライアントの画面上に表示する
ものであり、具体的には図１１（Ａ）に示すように、左
側のウインドウ２７ａに、聴覚イベント２８のパワース
ペクトルと抽出したピークを、右側のウインドウ２７ｂ
に、縦軸を相対的な方位角，横軸をピッチ（周波数）と
する聴覚イベント２８のグラフを表示する。ここで、聴
覚イベントは、音源定位の確信度を円の直径とする円に
より表現されている。

【００３２】図６に示すように、前記視覚モジュール３
０は、デバイス層としてのカメラ１５と、プロセス層と
しての顔発見部３１，顔識別部３２，顔定位部３３と、
特徴層（データ）としての顔ＩＤ３４，顔方向３５と、
イベント層としての視覚イベント生成部３６及びビュー
ア３７と、から構成されている。

【００３３】これにより、視覚モジュール３０は、カメ
ラからの画像信号に基づいて、顔発見部３１により例え
ば肌色抽出により各話者の顔を検出し、顔識別部３２に
て前もって登録されている顔データベース３８により検
索して、一致した顔があった場合、その顔ＩＤ３４を決
定して当該顔を識別すると共に、顔定位部３３により当
該顔方向３５を決定（定位）する。なお、顔識別部３２
による顔データベース３８の検索の結果、一致した顔が
なかった場合には、顔学習部３８ａが、顔発見部３１が
検出した顔を顔データベース３８に登録する。

【００３４】ここで、視覚モジュール３０は、顔発見部
３１が画像信号から複数の顔を見つけた場合、各顔につ
いて前記処理、即ち識別及び定位そして追跡を行なう。
その際、顔発見部３１により検出された顔の大きさ，方
向及び明るさがしばしば変化するので、顔発見部３１
は、顔領域検出を行なって、肌色抽出と相関演算に基づ
くパターンマッチングの組合せによって、２００ｍ秒以
内に複数の顔を正確に検出できるようになっている。

【００３５】また、顔識別部３２は、顔発見部３１によ
り検出された各顔領域画像を、判別空間に射影し、顔デ
ータベース３８に前もって登録された顔データとの距離
ｄを計算する。この距離ｄは、登録顔数（Ｌ）に依存す
るので、

【数５】により、パラメータの依存しない確信度Ｐｖに変換され
る。ここで、判別空間の基底となる判別行列は、公知の
オンラインＬＤＡにより、通常のＬＤＡと比較して少な
い計算により更新され得るので、リアルタイムに顔デー
タを登録することが可能である。

【００３６】顔定位部３３は、二次元の画像平面におけ
る顔位置を三次元空間に変換し、顔が画像平面にて
（ｘ，ｙ）に位置する幅と高さがそれぞれＸ及びＹであ
るｗ×ｗピクセルであるとすると、三次元空間における
顔位置は、以下の各式で与えられる方位角θ，高さφ及
び距離ｒのセットとして得られる。

【数６】

【数７】

【数８】ここで、Ｃ₁及びＣ₂は、探索画像サイズ（Ｘ，Ｙ）と
カメラの画角そして実際の顔の大きさにより定義される
定数である。

【００３７】そして、視覚モジュール３０は、各顔毎
に、顔ＩＤ（名前）３４及び顔方向３５から、視覚イベ
ント生成部３６により視覚イベント３９を生成する。詳
細には、視覚イベント３９は、各顔毎に、上位５つの確
信度付きの顔ＩＤ（名前）３４と位置（距離ｒ，水平角
度θ及び垂直角度φ）から構成されている。

【００３８】なお、ビューア３７は、視覚イベントをク
ライアントの画面上に表示するものであり、具体的には
図１１（Ｂ）に示すように、カメラ１５による画像３７
ａと、顔識別の確信度付きで抽出した顔の顔ＩＤと定位
の結果である位置のリスト３７ｂを表示する。ここで、
カメラ１５による画像には、発見し同定された顔が長方
形の枠３７ｃで囲まれて表示されている。複数の顔が発
見された場合には、各顔について、それぞれ同定を示す
長方形の枠３７ｃと、定位の結果としてのリスト３７ｂ
が表示される。

【００３９】図７に示すように、前記モータ制御モジュ
ール４０は、デバイス層としてのモータ４１及びポテン
ショメータ４２と、プロセス層としてのＰＷＭ制御回路
４３，ＡＤ変換回路４４及びモータ制御部４５と、特徴
層としてのロボット方向４６と、イベント層としてのモ
ータイベント生成部４７と、ビューア４８と、から構成
されている。

【００４０】これにより、モータ制御モジュール４０
は、アテンション制御モジュール６４（後述）からの指
令に基づいてモータ制御部４５によりＰＷＭ制御回路４
３を介してモータ４１を駆動制御すると共に、モータ４
１の回転位置をポテンショメータ４２により検出して、
ＡＤ変換回路４４を介してモータ制御部４５によりロボ
ット方向４６を抽出し、モータイベント生成部４７によ
りモータ方向情報から成るモータイベント４９を生成す
る。

【００４１】ビューア４８は、モータイベントをクライ
アントの画面上に三次元的に表示するものであって、具
体的には図１２（Ａ）に示すように、モータイベント４
９によるロボット１０の向きと動作速度を、例えばＯｐ
ｅｎＧＬにより実装されている三次元ビューアを利用し
てリアルタイムに三次元表示するようになっている。

【００４２】図８に示すように、前記対話モジュール５
０は、デバイス層としてのスピーカ５１及びマイク１６
と、プロセス層としての音声合成回路５２，対話制御回
路５３及び自声抑制回路５４，音声認識回路５５と、か
ら構成されている。

【００４３】これにより、対話モジュール５０は、後述
するアソシエーションモジュール６０により対話制御回
路５３を制御し、音声合成回路５２によりスピーカ５１
を駆動することによって、対象とする話者に対して所定
の音声を発すると共に、マイク１６からの音響信号から
自声抑制回路５４によりスピーカ５１からの音を除去し
た後、音声認識回路５５により対象とする話者の音声を
認識する。なお、前記対話モジュール５０は、階層とし
ての特徴層及びイベント層を備えていない。

【００４４】ここで、対話制御回路５３は、例えばパー
ティ受付ロボットの場合には、現在のアテンションを継
続することが最優先となるが、パーティロボットの場合
には、最も最近に関連付けられたストリームに対して、
アテンション制御される。

【００４５】図９に示すように、前記アソシエーション
モジュール６０は、上述した聴覚モジュール２０，視覚
モジュール３０，モータ制御モジュール４０，対話モジ
ュール５０に対して、階層的に上位に位置付けられてお
り、各モジュール２０，３０，４０，５０のイベント層
の上位であるストリーム層を構成している。具体的に
は、前記アソシエーションモジュール６０は、聴覚モジ
ュール２０，視覚モジュール３０及びモータ制御モジュ
ール４０からの非同期イベント６１ａ即ち聴覚イベント
２８，視覚イベント３９及びモータイベント４９を同期
させて同期イベント６１ｂにする同期回路６２と、これ
らの同期イベント６１ｂを相互に関連付けて、聴覚スト
リーム６５，視覚ストリーム６６及びアソシエーション
ストリーム６７を生成するストリーム生成部６３と、さ
らにアテンション制御モジュール６４と、ビューア６８
を備えている。

【００４６】前記同期回路６２は、聴覚モジュール２０
からの聴覚イベント２８，視覚モジュール３０からの視
覚イベント３８及びモータ制御モジュール４０からのモ
ータイベント４９を同期させて、同期聴覚イベント，同
期視覚イベント及び同期モータイベントを生成する。そ
の際、聴覚イベント２８及び視覚イベント３８は、同期
モータイベントによって、その座標系が絶対座標系に変
換されることになる。

【００４７】ここで、各イベントの実際に観測されてか
らネットワーク７０を介してアソシエーションモジュー
ル６０に到着するまでの遅延時間は、例えば聴覚イベン
ト２８では４０ｍ秒、視覚イベント３９では２００ｍ
秒、モータイベント４９では１００ｍであり、ネットワ
ーク７０における遅延が１０乃至２００ｍ秒であり、さ
らに到着周期も異なることによるものである。従って、
各イベントの同期を取るために、聴覚モジュール２０，
視覚モジュール３０及びモータ制御モジュール４０から
の聴覚イベント２８，視覚イベント３９及びモータイベ
ント４９は、それぞれ実際の観測時間を示すタイムスタ
ンプ情報を備えており、図示しない短期記憶回路にて、
例えば２秒間の間だけ一旦記憶される。

【００４８】そして、同期回路６２は、短期記憶回路に
記憶された各イベントを、上述した遅延時間を考慮し
て、実際の観測時間と比較して５００ｍ秒の遅延時間を
備えるように、同期プロセスにより取り出す。これによ
り、同期回路６２の応答時間は５００ｍ秒となる。ま
た、このような同期プロセスは例えば１００ｍ秒周期で
動作するようになっている。尚、各イベントは、それぞ
れ互いに非同期でアソシエーションモジュール６０に到
着するので、同期を取るための観測時刻と同時刻のイベ
ントが存在するとは限らない。従って、同期プロセス
は、同期を取るための観測時刻前後に発生したイベント
に対して、線形補間による補間を行なうようになってい
る。

【００４９】また、ストリーム生成部６３は、以下の点
に基づいて、ストリーム６５，６６，６７の生成を行な
う。１．聴覚イベント２８は、同等または倍音関係にある
ピッチを備え、方向が±１０度以内で最も近い聴覚スト
リーム６５に接続される。なお、±１０度以内の値は、
聴覚エピポーラ幾何の精度を考慮して選定されたもので
あ。２．視覚イベント３９は、共通の顔ＩＤ３４を有し且
つ４０ｃｍの範囲内で最も近い視覚ストリーム６６に接
続される。なお、４０ｃｍの範囲内の値は、秒速４ｍ以
上で人間が移動することがないということを前提として
選定されたものである。３．すべてのストリームに対して探索を行なった結
果、接続可能なストリーム６５，６６が存在しないイベ
ントがある場合には、当該イベント２８，３９は、新た
なストリーム６５，６６を構成することになる。４．既に存在しているストリーム６５，６６は、これ
らに接続されるイベント２８，３９がない場合には、最
大で５００ｍ秒間は存続するが、その後もイベントが接
続されない状態が継続すると、消滅する。５．聴覚ストリーム６５と視覚ストリーム６６が±１
０度以内に近接する状態が１秒間のうち５００ｍ秒以上
継続する場合、これの聴覚ストリーム６５と視覚ストリ
ーム６６は、同一話者に由来するものであるとみなさ
れ、互いに関係付けられて、アソシエーションストリー
ム６７が生成される。６．アソシエーションストリーム６７は、聴覚イベン
ト２８または視覚イベント３９が３秒間以上接続されな
い場合には、関係付けが解除され、既存の聴覚ストリー
ム６５または視覚ストリーム６６のみが存続する。７．アソシエーションストリーム６７は、聴覚ストリ
ーム６５及び視覚ストリーム６６の方向差が３秒間、±
３０度以上になった場合には、関係付けが解除され、個
々の聴覚ストリーム６５及び視覚ストリーム６６に戻
る。

【００５０】これにより、ストリーム生成部６３は、同
期回路６２からの同期聴覚イベント及び同期視覚イベン
トに基づいて、これらの時間的つながりを考慮してイベ
ントを接続することにより、聴覚ストリーム６５及び視
覚ストリーム６６を生成すると共に、相互の結び付きの
強い聴覚ストリーム６５及び視覚ストリーム６６を関係
付けて、アソシエーションストリーム６７を生成するよ
うになっており、逆にアソシエーションストリーム６７
を構成する聴覚ストリーム６５及び視覚ストリーム６６
の結び付きが弱くなれば、関係付けを解除するようにな
っている。

【００５１】また、アテンション制御モジュール６４
は、モータ制御モジュール４０の駆動モータ制御のプラ
ンニングのためのアテンション制御を行なうものであ
り、その際アソシエーションストリーム６７，聴覚スト
リーム６５そして視覚ストリーム６６の順に優先的に参
照して、アテンション制御を行なう。そして、アテンシ
ョン制御モジュール６４は、聴覚ストリーム６５及び視
覚ストリーム６６の状態とアソシエーションストリーム
６７の存否に基づいて、ロボット１０の動作プランニン
グを行ない、駆動モータ４１の動作の必要があれば、モ
ータ制御モジュール４０に対して動作指令としてのモー
タイベントをネットワーク７０を介して送信する。

【００５２】ここで、アテンション制御モジュール６４
におけるアテンション制御は、連続性とトリガに基づい
ており、連続性により同じ状態を保持しようとし、トリ
ガにより最も興味のある対象を追跡しようとする。従って、アテンション制御は、１．アソシエーション
ストリームの存在は、ロボット１０に対して正対して話
している人が現在も存在している、あるいは近い過去に
存在していたことを示しているので、このようなロボッ
ト１０に対して話している人に対して、高い優先度でア
テンションを向けて、トラッキングを行なう必要があ
る。２．マイク１６は無指向性であるので、カメラの視野
角のような検出範囲が存在せず、広範囲の聴覚ストリー
ムを得ることができるので、視覚ストリームより聴覚ス
トリームの優先度を高くすべきである。という二つの点
を考慮して、以下の原則に従ってアテンションを向ける
ストリームを選択して、トラッキングを行なう。１．アソシエーションストリームのトラッキングを最
優先する。２．アソシエーションストリームが存在しない場合、
聴覚ストリームのトラッキングを優先する。３．アソシエーションストリーム及び聴覚ストリーム
が存在しない場合、視覚ストリームのトラッキングを優
先する。４．複数の同じ種類のストリームが存在する場合、最
も古いストリームのトラッキングを優先する。このようにして、アテンション制御モジュール６４は、
聴覚情報及び視覚情報に基づいて生成されたアソシエー
ションストリームによりアテンション制御を行なって、
ロボットの視聴覚サーボによりモータ制御モジュール４
０の駆動モータ４１の制御のプランニングを行ない、こ
のプランニングに基づいてモータコマンド６６を生成
し、ネットワーク７０を介してモータ制御モジュール４
０に伝送する。これにより、モータ制御モジュール４０
では、このモータコマンド６６に基づいてモータ制御部
４５がＰＷＭ制御を行なって、駆動モータ４１を回転駆
動させて、ロボット１０を所定方向に向けるようになっ
ている。

【００５３】ビューア６８は、このようにして生成され
た各ストリームをサーバの画面上に表示するものであ
り、具体的には図１２（Ｂ）に示すように、レーダチャ
ート６８ａ及びストリームチャート６８ｂにより表示す
る。ここで、レーダチャート６８ａは、その瞬間におけ
るストリームの状態、より詳細には広く明るい扇形で示
されるカメラの視野角６８ａ１と、狭く暗い扇形で示さ
れる音源方向６８ａ２を示す。また、ストリームチャー
ト６８ｂは、太線により示されるアソシエーションスト
リーム６８ｂ１と、細線により示される聴覚ストリーム
または視覚ストリーム６８ｂ２を示している。

【００５４】本発明実施形態による人型ロボット１０は
以上のように構成されており、パーティ受付ロボットと
して対象とする話者に対して、図１０を参照して、以下
のように動作する。先ず、図１０（Ａ）に示すように、
ロボット１０は、パーティ会場の入口前に配置されてい
る。そして、図１０（Ｂ）に示すように、パーティ参加
者Ｐがロボット１０に接近してくるが、ロボット１０
は、まだ当該参加者Ｐを認識していない。ここで、参加
者Ｐがロボット１０に対して例えば「こんにちは」と話
し掛けると、ロボット１０は、マイク１６が当該参加者
Ｐの音声を拾って、聴覚モジュール２０が音源方向を伴
う聴覚イベント２８を生成して、ネットワーク７０を介
してアソシエーションモジュール６０に伝送する。

【００５５】これにより、アソシエーションモジュール
６０は、この聴覚イベント２８に基づいて聴覚ストリー
ム２９を生成する。このとき、視覚モジュール３０は参
加者Ｐがカメラ１５の視野内に入っていないので、視覚
イベント３９を生成しない。従って、アソシエーション
モジュール６０は、聴覚イベント２８のみに基づいて聴
覚ストリーム２９を生成し、アテンション制御モジュー
ル６４は、この聴覚ストリーム２９をトリガーとして、
ロボット１０を参加者Ｐの方向に向けるようなアテンシ
ョン制御を行なう。

【００５６】このようにして、図１０（Ｃ）に示すよう
に、ロボット１０が参加者Ｐの方向を向き、所謂声によ
るトラッキングが行なわれる。そして、視覚モジュール
３０がカメラ１５による参加者Ｐの顔の画像を取り込ん
で、視覚イベント３９を生成して、当該参加者Ｐの顔を
顔データベース３８により検索し、顔識別を行なうと共
に、その結果である顔ＩＤ３４及び画像をネットワーク
７０を介してアソシエーションモジュール６０に伝送す
る。なお、当該参加者Ｐの顔が顔データベース３８に登
録されていない場合には、視覚モジュール３０は、その
旨をネットワーク７０を介してアソシエーションモジュ
ールに伝送する。

【００５７】このとき、ロボット１０は、聴覚イベント
２８及び視覚イベント３９によりアソシエーションスト
リーム６５を生成しており、このアソシエーションスト
リーム６５により視聴覚サーボを行なうことにより、ア
テンション制御モジュール６４は、そのアテンション制
御を変更しないので、ロボット１０は、参加者Ｐの方向
を向き続ける。従って、参加者Ｐが移動したとしても、
ロボット１０は、アソシエーションストリーム６５によ
りモータ制御モジュール４０を制御することにより参加
者Ｐを追跡して、視覚モジュール３０のカメラ１５が参
加者Ｐを継続して撮像し得るようになっている。

【００５８】そして、アソシエーションモジュール６０
は、聴覚モジュール２０の音声認識回路５５に入力を与
えて、音声認識回路５５はその音声認識結果を対話制御
回路５３に与える。これにより、対話制御回路５３は、
音声合成を行なってスピーカ５１から発声する。このと
き、音声認識回路５５がマイク１６からの音響信号から
スピーカ５１からの音を自声抑制回路５４により低減す
ることにより、ロボット１０は自身の発声を無視して相
手の声をより正確に認識することができる。

【００５９】ここで、音声合成による発声は、参加者Ｐ
の顔が前記顔データベース３８に登録されているか否か
で異なる。参加者Ｐの顔が顔データベース３８に登録さ
れている場合には、アソシエーションモジュール６０
は、視覚モジュール３０からの顔ＩＤ３４に基づいて、
対話モジュール５０を制御して、音声合成により「こん
にちは。ＸＸＸさんですか？」と参加者Ｐに対して質問
する。これに対して、参加者Ｐが「はい。」と答える
と、対話モジュール５０がマイク１６からの音響信号に
基づいて、音声認識回路５５により「はい」を認識し
て、対話制御回路５３により音声合成を行ない、スピー
カ５１から「ようこそＸＸＸさん、どうぞ部屋にお入り
下さい。」と発声する。

【００６０】また、参加者Ｐの顔が顔データベース３８
に登録されていない場合には、アソシエーションモジュ
ール６０は、対話モジュール５０を制御して、音声合成
により「こんにちは。あなたのお名前を教えていただけ
ますか？」と参加者Ｐに対して質問する。これに対し
て、参加者Ｐが「ＸＸＸです。」と自分の名前を答える
と、対話モジュール５０がマイク１６からの音響信号に
基づいて、音声認識回路５５により「ＸＸＸ」を認識し
て、対話制御回路５３により音声合成を行ない、スピー
カ５１から「ようこそＸＸＸさん、どうぞ部屋にお入り
下さい。」と発声する。このようにして、ロボット１０
は、参加者Ｐの認識を行なって、図１０（Ｄ）に示すよ
うに、パーティ会場への入場を誘導すると共に、視覚モ
ジュール３０にて、当該参加者Ｐの顔の画像と名前「Ｘ
ＸＸ」を顔データベース３８に登録させる。

【００６１】また、人型ロボット１０は、コンパニオン
用ロボットとして、図１３及び図１４を参照して、以下
のように動作する。先ず、人型ロボット１０は、特に明
確なシナリオを有しているのではなく、例えば図１３に
示すシナリオをベンチマークとして使用して、本システ
ムの評価を行なった。なお、図１４（Ａ）はロボット方
向，図１４（Ｂ）は視覚ストリームによるトラッキン
グ，図１４（Ｃ）は聴覚ストリームによるトラッキング
を示している。このシナリオでは、二人の話者Ａ，Ｂが
約４０秒間に亘って種々のアクションを行なう。前記シ
ナリオは、具体的には以下の通りである。時刻ｔ１：Ａ氏がロボット１０の視野内に入る。視覚モ
ジュール３０がＡ氏の顔を検出して視覚イベントを生成
し、アソシエーションモジュール６０により視覚ストリ
ームが生成される。時刻ｔ２：Ａ氏がロボット１０に対して話し始める。聴
覚モジュール２０がＡ氏の声を検出して聴覚イベントを
生成し、アソシエーションモジュール６０により聴覚ス
トリーム６５が生成され、さらにアソシエーションスト
リーム６７が生成される。これにより、ロボットの視聴
覚サーボが行なわれる。時刻ｔ３：Ｂ氏がロボット１０の視野外で話し始める。
聴覚モジュール２０が（見えない）Ｂ氏の声を検出し
て、聴覚イベントを生成し、アソシエーションモジュー
ル６０により聴覚ストリームが生成される。時刻ｔ４：Ａ氏が移動して、物陰に隠れる。これによ
り、視覚モジュール３０がＡ氏の視覚イベントを生成し
なくなり、Ａ氏の視覚ストリームが途切れるが、アソシ
エーションストリームは所定時間の間存続する。時刻ｔ５：Ａ氏が再び物陰から現われる。これにより、
視覚モジュール３０がＡ氏の視覚イベントを再び生成
し、アソシエーションモジュール６０により、再びアソ
シエーションストリーム６７が生成される。その後、Ａ
氏は話を止めて、再び物陰に隠れる。視覚モジュール３
０がＡ氏の視覚イベントを生成しなくなり、Ａ氏の視覚
ストリームが途切れるので、所定時間後にアソシエーシ
ョンが解除され、アソシエーションストリーム６７が消
滅する。時刻ｔ７：聴覚ストリームをトリガーとして、ロボット
１０が話をしているＢ氏の方を向く。時刻ｔ８：ロボット１０がＢ氏を視野内に捉える。視覚
モジュール３０がＢ氏の視覚イベントを生成し、アソシ
エーションモジュール６０によりＢ氏の視覚ストリーム
が生成され、さらにＢ氏のアソシエーションストリーム
６７が生成される。時刻ｔ９：Ａ氏が話をしながら、ロボット１０の視野内
に入ってくる。聴覚モジュール２０及び視覚モジュール
３０がＡ氏の聴覚イベント及び視覚イベントを生成し、
アソシエーションモジュール６０がＡ氏の聴覚ストリー
ム及び視覚ストリームが生成される。時刻ｔ１０：Ｂ氏が話を止める。聴覚モジュール２０が
Ｂ氏の聴覚イベントを生成しなくなり、アソシエーショ
ンモジュール６０がＢ氏のアソシエーションを解除して
Ｂ氏の聴覚ストリームは消滅し、視覚ストリームのみが
残る。そして、ロボット１０がアテンションをＡ氏に向
けると共に、同様にしてＡ氏のアソシエーションストリ
ーム６７が生成される。

【００６２】このようにして、上述したシナリオにおい
ては、本発明によるロボット視聴覚システムにおいて
は、以下のような特徴を有することが分かる。１．時刻ｔ１及びｔ６にて、新しいアソシエーション
ストリームが生成されると、アテンション制御モジュー
ル６４におけるアテンションが新しいアソシエーション
に向けられる。２．時刻ｔ４，ｔ５にて、Ａ氏が見えなくなることに
より、アソシエーションストリームの視覚ストリームが
欠落したときであっても、アソシエーションが存続して
いることにより、聴覚ストリームによるＡ氏のトラッキ
ングが継続され得る。３．時刻ｔ６，ｔ１１にて、アソシエーションストリ
ームが消滅することにより、アソシエーションストリー
ムの次に優先度の高い聴覚ストリームによりアテンショ
ン制御が行なわれ、話者のトラッキングが行なわれ、図
１３に示すように、ロボット１０がトラッキングの対象
である話者に正対して、当該話者からの音声をマイク１
５の正面方向により確実に検出することができるように
なっている。４．時刻ｔ９以降、二人の話者Ａ氏及びＢ氏は、同時
にカメラ１５の視野内に収まる程度（方向差約２０度）
に接近しているが、この場合でも、二人の聴覚ストリー
ム，視覚ストリーム及びアソシエーションストリーム
は、それぞれ明確に別個に生成され、各話者のトラッキ
ングが確実に行なわれる。

【００６３】このようにして、人型ロボット１０は、聴
覚イベント２８及び視覚イベント３９が生成される場合
には、これらを互いに関連付けて、アソシエーションス
トリーム６７を生成して、このアソシエーションストリ
ーム６７に基づいてアテンション制御を行なうことによ
り、ロボットの視聴覚サーボを行なうことになる。従っ
て、従来の聴覚サーボまたは視覚サーボの場合と比較し
て、聴覚及び視覚の双方を使用することによって、話者
をより正確に追跡することが可能になる。また、途中で
話者が物陰に隠れたり視野外に移動して見えなくなっ
て、図１４（Ｂ）（視覚イベントの第一候補のみを示
す）に示すように視覚ストリームによるトラッキングが
途切れた場合には、図１４（Ｃ）に示すように、聴覚ス
トリームによるアソシエーションストリーム６７によっ
て、当該話者を確実にトラッキングすることかできるの
で、常に複数の話者を聴覚及び視覚により認識している
と共に、複数の話者のうちの一人の話者を追跡したり、
あるいは途中で他の話者に切り換えて追跡することがで
きる。

【００６４】なお、図１４（Ｂ）において、時刻ｔ４及
びｔ５の間では視覚ストリームが途切れ、また時刻ｔ６
からｔ７までの間は話者がロボット１０の視野外に居る
ことから、視覚ストリームに基づいて、話者のトラッキ
ングを行なうことはできないが、図１４（Ｃ）に示す聴
覚ストリームを参照することによって、話者のトラッキ
ングを確実に行なうことができる。また、図１４（Ｃ）
において、時刻ｔ３が２３秒付近まで、そして３４秒付
近から時刻ｔ１０の間は、正しくＡ氏及びＢ氏の二本の
聴覚ストリームが分離されているが、時刻ｔ８及びｔ６
の周辺では、誤った聴覚ストリームが生成されている。
また、時刻ｔ５から１７秒付近までの間は、Ａ氏の移動
及びロボット１１の水平回転が同時に行なわれているた
め、話者の移動及びモータノイズそしてそのエコーによ
り音源からの音響信号の品質が低下しており、二人の話
者の定位はあまり正確ではない。このような場合でも、
図１４（Ｂ）に示す視覚ストリームを参照することによ
り、話者のトラッキングを確実に行なうことができる。
このようにして、聴覚ストリーム及び視覚ストリームが
互いに関連付けられてアソシエーションストリームが生
成される場合には、聴覚及び視覚の双方を使用して、ロ
ボットの視聴覚サーボを行なうことによって、聴覚スト
リーム及び視覚ストリームがそれぞれ有する曖昧性が互
いに補完されることにより、所謂ロバスト性が向上し、
複数の話者であっても、各話者をそれぞれ確実に知覚し
て、トラッキングを行なうことができる。

【００６５】また、コンパニオン用ロボットとしての人
型ロボット１０は、パーティ受付ロボットと顔データベ
ース３８を共用し、あるいはパーティ受付ロボットの顔
データベース３８が転送または複写されるようにしても
よい。この場合、コンパニオン用ロボットとしての人型
ロボット１０は、パーティ参加者全員を常に顔識別によ
って認識することができる。

【００６６】このようにして、本発明実施形態による人
型ロボット１０によれば、聴覚モジュール２０及び視覚
モジュール３０からの聴覚イベント及び視覚イベントに
基づいて、アソシエーションモジュール６０が聴覚スト
リーム，視覚ストリームそしてアソシエーションストリ
ームを生成することによって、複数の対象である話者を
視聴覚により認識しているので、聴覚または視覚のいず
れか一方のみによるサーボの場合と比較して、より正確
に話者の追跡を行なうことができると共に、何れかのイ
ベントが欠落したり明確に認識できなくなった場合に
は、例えば話者が移動して「見えなく」なった場合でも
聴覚により、また話者が話をせず「聞こえなく」なった
場合でも視覚により、リアルタイムに複数の話者を聴覚
的及び／又は視覚的にトラッキングすることができる。

【００６７】上述した実施形態において、人型ロボット
１０は、４ＤＯＦ（自由度）を有するように構成されて
いるが、これに限らず任意の動作を行なうように構成さ
れたロボットに本発明によるロボット聴覚システムを組
み込むことも可能である。また、上述した実施形態にお
いては、本発明によるロボット視聴覚システムを人型ロ
ボット１０に組み込んだ場合について説明したが、これ
に限らず、犬型等の各種動物型ロボットや、その他の形
式のロボットに組み込むことも可能であることは明らか
である。

【００６８】

【発明の効果】以上述べたように、この発明によれば、
聴覚モジュール，視覚モジュール及びモータ制御モジュ
ールと、アソシエーションモジュール及びアテンション
制御モジュールとの連携によって、聴覚及び視覚の双方
を使用して、ロボットの視聴覚サーボを行なうことによ
り、ロボットの聴覚及び視覚がそれぞれ有する曖昧性が
互いに補完されることになり、所謂ロバスト性が向上
し、複数の話者であっても各話者をそれぞれ知覚するこ
とができる。また、例えば聴覚イベントまたは視覚イベ
ントの何れか一方が欠落したときであっても、視覚イベ
ントまたは聴覚イベントのみに基づいて、対象である話
者をアソシエーションモジュールが知覚することができ
るので、リアルタイムにモータ制御モジュールの制御を
行なうことができる。さらに、聴覚ストリーム及び視覚
ストリームのうち、状況に応じて、双方または一方のみ
を利用して、話者のトラッキングを行なうことにより、
常により一層正確な話者のトラッキングを行なうことが
できると共に、同時に複数の聴覚ストリーム及び視覚ス
トリームが存在していても、これらの聴覚ストリーム及
び視覚ストリームに基づいて、そのときの状況に応じ
て、これらの聴覚ストリーム及び視覚ストリームの何れ
かを適宜に利用することにより、各話者のトラッキング
をより確実に行なうことができる。これにより、本発明
によれば、対象に対する視覚及び聴覚の追跡を行なっ
て、視覚及び聴覚の双方を使用してロボットの視聴覚サ
ーボを行なうようにした、極めて優れたロボット視聴覚
システムが提供される。

【図面の簡単な説明】

【図１】この発明によるロボット聴覚装置の第一の実施
形態を組み込んだ人型ロボットの外観を示す正面図であ
る。

【図２】図１の人型ロボットの側面図である。

【図３】図１の人型ロボットにおける頭部の構成を示す
概略拡大図である。

【図４】図１の人型ロボットにおけるロボット視聴覚シ
ステムの電気的構成を示すブロック図である。

【図５】図４におけるブロック１の聴覚モジュールを拡
大して示す電気的構成のブロック図である。

【図６】図４におけるブロック２の視覚モジュールを拡
大して示す電気的構成のブロック図である。

【図７】図４におけるブロック３のモータ制御モジュー
ルを拡大して示す電気的構成のブロック図である。

【図８】図４におけるブロック４の対話モジュールを拡
大して示す電気的構成のブロック図である。

【図９】図４におけるブロック５のアソシエーションモ
ジュールを拡大して示す電気的構成のブロック図であ
る。

【図１０】図４のロボット視聴覚システムにおけるパー
ティ受付ロボットとしての動作例を示す図である。

【図１１】図４のロボット視聴覚システムにおける
（Ａ）聴覚モジュール，（Ｂ）視覚モジュールのビュー
アの画面例を示す図である。

【図１２】図４のロボット視聴覚システムにおける
（Ａ）モータ制御モジュール，（Ｂ）アソシエーション
モジュールのビューアの画面例を示す図である。

【図１３】図４のロボット視聴覚システムにおけるコン
パニオン用ロボットとしての動作例を示す各時刻におけ
る（Ａ）レーダチャート，（Ｂ）ストリームチャート及
び（Ｃ）カメラ画像を示す図である。

【図１４】図１３の動作例における（Ａ）ロボット方
向，（Ｂ）視覚ストリーム及び（Ｃ）聴覚ストリームを
示すグラフである。

【符号の説明】

１０人型ロボット１１ベース１２胴体部１３頭部１３ａ連結部材１４外装１５カメラ（ロボット視覚）１６，１６ａ，１６ｂマイク（ロボット聴覚）１７ロボット視聴覚システム２０聴覚モジュール３０視覚モジュール４０モータ制御モジュール５０対話モジュール６０アソシエーションモジュール６４アテンション制御モジュール７０ネットワーク

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｔ 7/60 １５０Ｇ０６Ｔ 7/60 １５０Ｂ５Ｌ０９６Ｇ１０Ｌ 11/04 Ｈ０４Ｎ 7/18 Ｚ 13/00 Ｇ１０Ｌ 3/00 Ｃ 15/28 Ｑ 17/00 ５１１ 15/00 ５４５Ｆ 15/22 ５５１Ｈ 15/20 ５７１Ｔ 21/02 3/02 ３０１Ｃ 15/02 9/00 ３０１ＡＨ０４Ｎ 7/18 Ｆターム(参考） 3C007 AS34 AS36 CS08 JS03 KS04 KS08 KS18 KS20 KS39 KT01 KT11 KT15 LT08 NS01 WA02 WA03 WB19 WC07 WC16 5B057 AA05 BA02 CA12 CA16 DA06 DB02 5C054 AA01 CA04 CA08 CC05 CD03 CG06 EF06 FC12 FF07 HA04 5D015 AA03 CC13 DD02 EE04 KK01 KK04 LL06 5D045 AB11 5L096 BA05 CA02 FA69 HA09

Claims

【特許請求の範囲】

【請求項１】外部の音を集音する少なくとも一対のマ
イクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む視覚モジュール
と、ロボットを水平方向に回動させる駆動モータを含むモー
タ制御モジュールと、前記聴覚モジュール，視覚モジュール及びモータ制御モ
ジュールからのイベントを統合してストリームを生成す
るアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリー
ムに基づいてアテンション制御を行なうアテンション制
御モジュールと、を備えているロボット視聴覚システム
であって、前記聴覚モジュールが、マイクからの音響信号に基づい
て、ピッチ抽出，音源の分離及び定位から、少なくとも
一人の話者の音源を同定してその聴覚イベントを抽出
し、前記視覚モジュールが、カメラにより撮像された画像に
基づいて、各話者の顔識別と定位からその視覚イベント
を抽出し、前記モータ制御モジュールが、駆動モータの回転位置に
基づいて、モータイベントを抽出することにより、前記アソシエーションモジュールが、聴覚イベント，視
覚イベント及びモータイベントから、聴覚ストリーム及
び視覚ストリームと、これらを関連付けたアソシエーシ
ョンストリームを生成して、前記アテンション制御モジュールが、アソシエーション
ストリームに基づいてモータ制御モジュールの駆動モー
タ制御のプランニングのためのアテンション制御を行な
って、ロボットの視聴覚サーボを行なうことを特徴とす
る、ロボット視聴覚システム。
【請求項２】外部の音を集音する少なくとも一対のマ
イクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む視覚モジュール
と、ロボットを水平方向に回動させる駆動モータを含むモー
タ制御モジュールと、前記聴覚モジュール，視覚モジュール及びモータ制御モ
ジュールからのイベントを統合してストリームを生成す
るアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリー
ムに基づいてアテンション制御を行なうアテンション制
御モジュールと、を備えている人型または動物型のロボ
ットの視聴覚システムであって、前記聴覚モジュールが、マイクからの音響信号に基づい
て、ピッチ抽出，音源の分離及び定位から、少なくとも
一人の話者の音源を同定してその聴覚イベントを抽出
し、前記視覚モジュールが、カメラにより撮像された画像に
基づいて、各話者の顔識別と定位からその視覚イベント
を抽出し、前記モータ制御モジュールが、駆動モータの回転位置に
基づいてモータイベントを抽出することにより、前記アソシエーションモジュールが、聴覚イベント，視
覚イベント及びモータイベントから、聴覚ストリーム及
び視覚ストリームと、これらを関連付けたアソシエーシ
ョンストリームを生成して、前記アテンション制御モジュールが、アソシエーション
ストリームに基づいてモータ制御モジュールの駆動モー
タ制御のプランニングのためのアテンション制御を行な
って、ロボットの視聴覚サーボを行なうことを特徴とす
る、ロボット視聴覚システム。
【請求項３】前記アテンション制御モジュールが、ア
テンション制御を行なう際に、アソシエーションストリ
ーム，聴覚ストリーム及び視覚ストリームの順に優先さ
せることを特徴とする、請求項１又は２に記載のロボッ
ト視聴覚システム。
【請求項４】前記アテンション制御モジュールが、複
数の聴覚ストリーム又は視覚ストリームが存在すると
き、状況に応じて一つの聴覚ストリームまたは視覚スト
リームを選択し、必要に応じてアソシエーションストリ
ームを生成し、これらの聴覚ストリーム，視覚ストリー
ム又はアソシエーションストリームに基づいてアテンシ
ョン制御を行なうことを特徴とする、請求項１から３の
何れかに記載のロボット視聴覚システム。