JP3843741B2 - Robot audio-visual system - Google Patents

Robot audio-visual system Download PDF

Info

Publication number
JP3843741B2
JP3843741B2 JP2001067847A JP2001067847A JP3843741B2 JP 3843741 B2 JP3843741 B2 JP 3843741B2 JP 2001067847 A JP2001067847 A JP 2001067847A JP 2001067847 A JP2001067847 A JP 2001067847A JP 3843741 B2 JP3843741 B2 JP 3843741B2
Authority
JP
Japan
Prior art keywords
event
visual
stream
module
auditory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001067847A
Other languages
Japanese (ja)
Other versions
JP2002264051A (en
Inventor
一博 中臺
健一 日台
博 奥乃
宏明 北野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2001067847A priority Critical patent/JP3843741B2/en
Priority to PCT/JP2002/002204 priority patent/WO2002072317A1/en
Priority to US10/468,396 priority patent/US6967455B2/en
Priority to EP02702847A priority patent/EP1375084A4/en
Publication of JP2002264051A publication Critical patent/JP2002264051A/en
Application granted granted Critical
Publication of JP3843741B2 publication Critical patent/JP3843741B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Toys (AREA)
  • Manipulator (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はロボット、特に人型または動物型ロボットにおける視聴覚システムに関するものである。
【0002】
【従来の技術】
近年、このような人型または動物型ロボットにおいては、視覚,聴覚の能動知覚が注目されてきている。
能動知覚とは、ロボット視覚やロボット聴覚等の知覚を担当する知覚装置を、知覚すべき対象に追従するように、これらの知覚装置を支持する例えば頭部を駆動機構により姿勢制御するものである。
【0003】
ここで、能動視覚に関しては、少なくとも知覚装置であるカメラが、駆動機構による姿勢制御によってその光軸方向が対象に向かって保持され、対象に対して自動的にフォーカシングやズームイン,ズームアウト等が行なわれることにより、対象がカメラによって撮像されるようになっており、種々の研究が行なわれている。
【0004】
これに対して、能動聴覚に関しては、少なくとも知覚装置であるマイクが、駆動機構による姿勢制御によってその指向性が対象に向かって保持され、対象からの音がマイクによって集音される。
このような能動聴覚は、例えば本出願人による特願2000−22677号(ロボット聴覚システム)に開示されており、視覚情報を参照して音源の方向付けを行なうようにしている。
【0005】
【発明が解決しようとする課題】
ところで、これらの能動視覚及び能動聴覚は、ロボットの向き(水平方向)を変更するためのモータ制御モジュールと密接に関連があり、特定の対象に対して能動視覚及び能動聴覚を働かせるためには、ロボットを特定の対象に向ける、即ちアテンション制御を行なう必要がある。
しかしながら、ロボットが周囲の状況に基づいて的確に対象である各話者を同定するためには、視覚及び聴覚の情報統合を行なう必要があるが、例えば複数の人間が互いに話をしているような状況において、リアルタイム処理により各人を同定して、能動聴覚を行なうことは行なわれていない。
【0006】
この発明は、以上の点にかんがみて、対象に対する視覚及び聴覚の情報を統合して、対象の追跡を確実に行なうようにした、ロボット視聴覚システムを提供することを目的としている。
【0007】
【課題を解決するための手段】
前記目的は、この発明によれば、外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む視覚モジュールと、ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、聴覚モジュール,視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えているロボット視聴覚システムであって、聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出,音源の分離及び定位から少なくとも一人の話者の方向を決定してその聴覚イベントを抽出し、視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から各話者を同定して話者の視覚イベントを抽出し、モータ制御モジュールが、駆動モータの回転位置に基づいて、モータイベントを抽出することにより、アソシエーションモジュールが、聴覚イベント,視覚イベント及びモータイベントから、聴覚イベントの音源定位及び視覚イベントの顔定位の方向情報に基づいて、各話者の方向を決定することにより聴覚ストリーム及び視覚ストリームを生成し、さらに聴覚ストリームと視覚ストリームとを関連付けてアソシエーションストリームを生成して、アテンション制御モジュールが、聴覚ストリーム,視覚ストリーム,アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうことを特徴とするロボット視聴覚システムにより、達成される。
【0008】
また、前記目的は、この発明によれば、外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む視覚モジュールと、ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、聴覚モジュール,視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えている人型または動物型のロボットの視聴覚システムであって、聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出,音源の分離及び定位から少なくとも一人の話者の方向を決定してその聴覚イベントを抽出し、視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から各話者を同定して話者の視覚イベントを抽出し、モータ制御モジュールが、駆動モータの回転位置に基づいてモータイベントを抽出することにより、アソシエーションモジュールが、聴覚イベント,視覚イベント及びモータイベントから聴覚イベントの音源定位及び視覚イベントの顔定位の方向情報に基づいて各話者の方向を決定することにより、聴覚ストリーム及び視覚ストリームを生成し、さらに聴覚ストリームと視覚ストリームとを関連付けてアソシエーションストリームを生成して、アテンション制御モジュールが、聴覚ストリーム,視覚ストリーム,アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうことを特徴とするロボット視聴覚システムにより、達成される。
【0009】
本発明によるロボット視聴覚システムは、好ましくは、前記アソシエーションモジュールが、聴覚ストリーム及び視覚ストリームを生成する際に、非同期に生成される聴覚イベント,視覚イベント及びモータイベントを相互に同期する。
【0010】
本発明によるロボット視聴覚システムは、好ましくは、前記聴覚モジュールが、音響信号から音声のMFCCを検出して各話者を同定し、前記アソシエーションモジュールが、聴覚イベントの話者同定及び視覚イベントの話者同定に基づいて当該話者を特定することにより、聴覚イベント及び視覚イベントを接続すべき聴覚ストリーム及び視覚ストリームを選定する。
【0011】
本発明によるロボット視聴覚システムは、好ましくは、前記アソシエーションモジュールが、複数のストリームが互いに接近する場合に、聴覚イベント及び視覚イベントの時間的流れを参照して、当該聴覚イベント及び視覚イベントを接続すべき聴覚ストリーム及び視覚ストリームを選定する。
【0012】
本発明によるロボット視聴覚システムは、好ましくは、前記アソシエーションモジュールが、互いに結び付きの強い聴覚ストリームと視覚ストリームを関連付けて、アソシエーションストリームを生成すると共に、アソシエーションストリームを構成する聴覚ストリームと視覚ストリームの結び付きが弱くなったとき、関連付けを解除して、アソシエーションストリームを消滅させる。
【0013】
前記構成によれば、聴覚モジュールが、マイクが集音した外部の対象からの音から、調波構造を利用してピッチ抽出を行なうことにより音源毎の方向を得て、個々の話者の方向を決定してその聴覚イベントを抽出する。
また、視覚モジュールが、カメラにより撮像された画像から、パターン認識による各話者の顔識別と定位から各話者を同定して、個々の話者の視覚イベントを抽出する。
さらに、モータ制御モジュールが、ロボットを水平方向に回動させる駆動モータの回転位置に基づいて、ロボットの方向を検出することによって、モータイベントを抽出する。
なお、前記イベントとは、各時点において音または顔が検出され、ピッチ及び方向等の特徴が抽出されて、話者同定や顔識別等が行なわれること、あるいは駆動モータが回転される状態を示しており、ストリームとは、時間的に連続するイベントを示している。
【0014】
ここで、アソシエーションモジュールは、このようにしてそれぞれ抽出された聴覚イベント,視覚イベント及びモータイベントに基づいて、聴覚イベントの音源定位及び視覚イベントの顔定位の方向情報によって各話者の方向を決定することにより、各話者の聴覚ストリーム及び視覚ストリームを生成し、さらにこれらのストリームを関連付けてアソシエーションストリームを生成する。
この際、アソシエーションモジュールは、聴覚イベントの音源定位及び視覚イベントの顔定位即ち聴覚及び視覚の方向情報に基づいて、各話者の方向を決定し、決定された各話者の方向を参考にしてアソシエーションストリームを生成することになる。
そして、アテンション制御モジュールが、これらのストリームに基づいてアテンション制御を行なうことにより、モータ制御モジュールの駆動モータ制御のプランニングを行なう。
アテンションとは、ロボットが対象である話者を、聴覚的及び/または視覚的に「注目」することであり、アテンション制御とは、モータ制御モジュールによりその向きを変えることにより、ロボットが前記話者に注目するようにすることである。
【0015】
そして、アテンション制御モジュールは、このプランニングに基づいて、モータ制御モジュールの駆動モータを制御することにより、ロボットの方向を対象である話者に向ける。これにより、ロボットが対象である話者に対して正対することにより、聴覚モジュールが当該話者の声を、感度の高い正面方向にてマイクにより正確に集音,定位することができる共に、視覚モジュールが当該話者の画像をカメラにより良好に撮像することができるようになる。
【0016】
従って、このような聴覚モジュール,視覚モジュール及びモータ制御モジュールと、アソシエーションモジュール及びアテンション制御モジュールとの連携によって、聴覚イベントの音源定位及び視覚イベントの話者定位という方向情報に基づいて、各話者の方向を決定することにより、ロボットの聴覚及び視覚がそれぞれ有する曖昧性が互いに補完されることになり、所謂ロバスト性が向上し、複数の話者であっても、各話者をそれぞれ確実に知覚することができる。
また、例えば聴覚イベントまたは視覚イベントの何れか一方が欠落したときであっても、残りの視覚イベントまたは聴覚イベントのみに基づいて、対象である話者をアテンション制御モジュールが追跡することができるので、正確に対象の方向を把握して、モータ制御モジュールの制御を行なうことができる。
【0017】
前記アソシエーションモジュールが、聴覚ストリーム及び視覚ストリームを生成する際に、非同期に生成される聴覚イベント,視覚イベント及びモータイベントを相互に同期する場合には、それぞれ非同期で生成された聴覚イベント,視覚イベント及びモータイベントが互いに同期することによって、アソシエーションモジュールでのこれらのイベントの互いに異なる生成周期及び遅延時間が吸収されることになり、聴覚イベントの音源定位と視覚イベントの話者定位の方向情報による各話者の方向の決定がより正確に行なわれる。従って、聴覚イベントから成る聴覚ストリームと視覚イベントから成る視覚ストリームが互いに近い距離に存在した場合には、相互に関連付けて、より高次のアソシエーションストリームを生成することができる。
【0018】
前記アソシエーションモジュールが、前記聴覚モジュールが音響信号から音声のMFCCを検出して各話者を同定し、前記アソシエーションモジュールが、聴覚イベントの話者同定及び視覚イベントの話者同定に基づいて当該話者を特定することにより、聴覚イベント及び視覚イベントを接続すべき聴覚ストリーム及び視覚ストリームを選定する場合には、聴覚イベントから音声のMFCCにより話者同定を行なうことが可能となり、聴覚イベント及び視覚イベントにより個々の話者が同定されることになる。従って、各聴覚イベント及び視覚イベントを、それぞれ同一話者の聴覚ストリーム及び視覚ストリームに接続することにより、例えば複数の話者が存在する場合であっても、各話者をより正確に特定して、聴覚ストリーム及び視覚ストリームを生成することができると共に、聴覚イベントまたは視覚イベントの一方が途中で途切れた場合であっても、他方のイベントにより、話者の同定を継続することができる。
これにより、同じ方向から複数の話者の音声が検出された場合でも、各話者を同定して、聴覚及び視覚の高次の統合を行なうことにより、各話者をより正確に追跡することが可能になる。
【0019】
前記アソシエーションモジュールが、複数のストリームが互いに接近する場合に、聴覚イベント及び視覚イベントの時間的流れを参照して、当該聴覚イベント及び視覚イベントを接続すべき聴覚ストリーム及び視覚ストリームを選定する場合には、複数の話者が互いに接近していて、これらの話者による聴覚ストリーム及び視覚ストリームが互いに接近して交錯するようなときであっても、当該話者の動きの範囲を予測して、この範囲内であれば、聴覚ストリームまたは視覚ストリームを保持することにより、聴覚ストリーム及び視覚ストリームをより正確に生成することができる。従って、これらの聴覚ストリーム及び視覚ストリームが有する曖昧性が互いに補完され、所謂ロバスト性が向上して、複数の話者を確実に追跡することができる。
【0020】
前記アソシエーションモジュールが、互いに結び付きの強い聴覚ストリームと視覚ストリームを関連付けて、アソシエーションストリームを生成すると共に、アソシエーションストリームを構成する聴覚ストリームと視覚ストリームの結び付きが弱くなったとき、関連付けを解除して、アソシエーションストリームを消滅させる場合には、各話者毎に、正確にアソシエーションストリームを生成することができるので、聴覚ストリーム及び視覚ストリームが有する曖昧性をできるだけ排除して、正確な話者の特定を行なうことができる。
さらに、この場合、所定角度を適宜に選定することによって、話者が移動している場合であっても、確実に話者の移動を捉えて、いわば話者の移動を予測して当該話者の特定を行なうことかできる。
【0021】
【発明の実施の形態】
以下、図面に示した実施形態に基づいて、この発明を詳細に説明する。
図1乃至図4はこの発明によるロボット視聴覚システムの一実施形態を備えた実験用の人型ロボットの全体構成を示している。
図1において、人型ロボット10は、4DOF(自由度)のロボットとして構成されており、ベース11と、ベース11上にて一軸(垂直軸)周りに回動可能に支持された胴体部12と、胴体部12上にて、三軸方向(垂直軸,左右方向の水平軸及び前後方向の水平軸)の周りに揺動可能に支持された頭部13と、を含んでいる。
【0022】
前記ベース11は固定配置されていてもよく、脚部として動作可能としてもよい。また、ベース11は、移動可能な台車等の上に載置されていてもよい。
前記胴体部12は、ベース11に対して垂直軸の周りに、図1にて矢印Aで示すように回動可能に支持されており、図示しない駆動手段によって回転駆動されると共に、図示の場合、防音性の外装によって覆われている。
【0023】
前記頭部13は胴体部12に対して連結部材13aを介して支持されており、この連結部材13aに対して前後方向の水平軸の周りに、図1にて矢印Bで示すように揺動可能に、また左右方向の水平軸の周りに、図2にて矢印Cで示すように揺動可能に支持されていると共に、前記連結部材13aが、胴体部12に対してさらに前後方向の水平軸の周りに、図1にて矢印Dで示すように揺動可能に支持されており、それぞれ図示しない駆動手段によって、各矢印A,B,C,D方向に回転駆動される。
【0024】
ここで、前記頭部13は、図3に示すように全体が防音性の外装14により覆われていると共に、前側にロボット視覚を担当する視覚装置としてのカメラ15を、また両側にロボット聴覚を担当する聴覚装置としての一対のマイク16(16a,16b)を備えている。
【0025】
前記外装14は、例えばウレタン樹脂等の吸音性の合成樹脂から構成されており、頭部13の内部をほぼ完全に密閉することにより、頭部13の内部の遮音を行なうように構成されている。
尚、胴体部12の外装も、同様にして吸音性の合成樹脂から構成されている。
前記カメラ15は公知の構成であって、例えば所謂パン,チルト,ズームの3DOF(自由度)を有する市販のカメラが適用され得る。
【0026】
前記マイク16は、それぞれ頭部13の側面において、前方に向かって指向性を有するように取り付けられている。
ここで、マイク16の左右の各マイク16a,16bは、それぞれ図1及び図2に示すように、外装14の両側にて前方に向いた段部14a,14bにて、内側に取り付けられ、段部14a,14bに設けられた貫通穴を通して、前方の音を集音すると共に、外装14の内部の音を拾わないように適宜の手段により遮音されている。これにより、マイク16a,16bは、所謂バイノーラルマイクとして構成されている。なお、マイク16a,16bの取付位置の近傍において、外装14は人間の外耳形状に形成されていてもよい。
【0027】
図4は、前記マイク16及びカメラ15を含むロボット視聴覚システムの電気的構成を示している。
図4において、視聴覚システム17は、パーティ受付及びコンパニオン用ロボットとしての構成であり、聴覚モジュール20,視覚モジュール30,モータ制御モジュール40,対話モジュール50及びアソシエーションモジュール60から構成されている。
以下、図4の各部を拡大して示す図5〜図9をも参照しつつさらに説明する。説明の便宜上、聴覚モジュール20をブロック1として図5に拡大して示し、視覚モジュール30をブロック2として図6に拡大して示し、モータ制御モジュール40をブロック3として図7に拡大して示し、対話モジュール50をブロック4として図8に拡大して示し、さらに、アソシエーションモジュール60をブロック5として図9に拡大して示す。
ここで、アソシエーションモジュール60(ブロック5、図9)はサーバから構成されていると共に、他のモジュール、即ち聴覚モジュール20(ブロック1、図5),視覚モジュール30(ブロック2、図6),モータ制御モジュール40(ブロック3、図7),対話モジュール50(ブロック4、図8)は、それぞれクライアントから構成されており、互いに非同期で動作する。
【0028】
なお、前記サーバ及び各クライアントは、例えばパーソナルコンピュータにより構成されており、例えば100Base−T等のネットワーク70を介して、例えばTCP/IPプロトコルにより、相互にLAN接続されている。
また、各モジュール20,30,40,50,60は、それぞれ階層的に分散して、具体的には下位から順次にデバイス層,プロセス層,特徴層,イベント層から構成されている。
【0029】
図5に示すように、前記聴覚モジュール20は、デバイス層としてのマイク16と、プロセス層としてのピーク抽出部21,音源定位部22,音源分離部23及び話者特定部23aと、特徴層(データ)としてのピッチ24,水平方向25と、イベント層としての聴覚イベント生成部26及びビューア27と、から構成されている。
【0030】
ここで、聴覚モジュール20は、図10に示すように作用する。
即ち、図10において、聴覚モジュール20は、符号X1で示すように、例えば48kHz,16ビットでサンプリングされたマイク16からの音響信号を、符号X2で示すようにFFT(高速フーリエ変換)により周波数解析して、符号X3で示すように、左右のチャンネル毎にスペクトルを生成する。そして、聴覚モジュール20は、ピーク抽出部21により左右のチャンネル毎に一連のピークを抽出して、左右のチャンネルで同じか類似のピークをペアとする。
ここで、ピーク抽出は、パワーがしきい値以上で且つローカルピークであって、低周波ノイズとパワーの小さい高周波帯域をカットするため例えば90Hz乃至3kHzの間の周波数であるという条件のデータのみを透過させる帯域フィルタを使用することにより行なわれる。このしきい値は、周囲の暗騒音を計測して、さらに感度パラメータ、例えば10dBを加えた値として定義される。
【0031】
そして、聴覚モジュール20は、各ピークが調波構造を有していることを利用して、周波数が低い方から順に調波構造を有するローカルピークを抽出して、抽出されたピークの集合を一つの音として、音源分離部23により、符号X4で示すように逆FFT(高速フーリエ変換)を適用することにより、符号X5で示すように各音源からの混合音から音源毎の音響信号を分離する。
【0032】
これにより、聴覚モジュール20は、各音源毎の音響信号について、音源定位部22により、符号X6で示すように左右のチャンネルから同じ周波数の音響信号を選択して、例えば5度毎にIPD(両耳間位相差)及びIID(両耳間強度差)を求める。
そして、聴覚モジュール20の音源定位部22は、所謂聴覚エピポーラ幾何を利用して、ロボット10の正面を0度として±90度の範囲で、符号X7で示す仮説推論によるIPD Phの仮説を生成して、
【数1】

Figure 0003843741
により分離した音と各仮説間の距離d(θ)を計算する。ここで、nf <1.5kHzは、周波数が1.5kHz以下である倍音である。これは、左右のマイク15のベースラインからIPDが1.2乃至1.5kHz以下の周波数に対して有効であるので、今回の実験では1.5kHz以下としたものである。
【0033】
IIDについては、IPDと同様に、分離した音の各倍音の左右チャンネル間のパワー差から求められる。ただし、IIDについては、仮説推論ではなく、
【数2】
Figure 0003843741
による判別関数を用いて、音源が左右何れかを判定するものとする。即ち、周波数fの各倍音のIIDをIs (f)としたとき、音源は、Iが正であればロボットの左方向に、Iが負であれば右方向に、そしてほぼ0であれば正面方向に存在することになる。
ここで、IIDの仮説生成には、ロボット10の頭部形状を考慮した膨大な計算が必要となることから、リアルタイム処理を考慮して、IPDと同様の仮説推論は行なわない。
このようにして、符号X8で示すように、IPDとIIDのマッチングを行なう。
【0034】
そして、聴覚モジュール20の音源定位部22は、符号X9で示すように、前記距離d(θ)から、確立密度関数
【数3】
Figure 0003843741
を利用して、IPDの確信度BFIPD (θ)を計算する。ここで、m,sは、それぞれd(θ)の平均と分散であり、nはdの個数である。
また、IIDの確信度BFIID (θ)は、30度<θ≦90度で、前記Iが+のとき0.35,−のとき0.65、−30度<θ≦30度で、前記Iが+のとき0.5,−のとき0.5、−90度<θ≦−30度で、前記Iが+のとき0.65,−のとき0.35となる。
【0035】
そして、このようにして得られたIPDの確信度BFIPD (θ)及びIIDの確信度BFIID (θ)を、符号X10で示すように、
【数4】
Figure 0003843741
で示されるDempster−Shafer理論により統合して、確信度BFIPD+IID (θ)を生成する。
また、前記話者特定部23aは、マイク16からの音響信号から、例えばMFCC(メル周波数ケプストラム係数)を求めて、前もって登録してある話者のMFCCと照合することにより、当該話者本人を同定する。
これにより、聴覚モジュール20は、聴覚イベント生成部26により、音源方向として尤度の高い順に上位20個の確信度BFIPD+IID (θ)と方向(θ)のリスト,ピッチと、話者同定により聴覚イベント28を生成する。
【0036】
このようにして、聴覚モジュール20は、マイク16からの音響信号に基づいて、ピッチ抽出,音源の分離及び定位そしてMFCCから、少なくとも一人の話者を特定(話者同定)してその聴覚イベントを抽出し、ネットワーク70を介してアソシエーションモジュール60に対して送信するようになっている。
尚、聴覚モジュール20における上述した処理は、40m秒毎に行なわれる。
【0037】
ビューア27は、このようにして生成された聴覚イベント28をクライアントの画面上に表示するものであり、具体的には左側のウインドウに、聴覚イベント28のパワースペクトルと抽出したピークを、右側のウインドウに、縦軸を相対的な方位角,横軸をピッチ(周波数)とする聴覚イベントを表示する。ここで、聴覚イベントは、音源定位の確信度を円の直径とする円により表現されている。
【0038】
図6に示すように、前記視覚モジュール30は、デバイス層としてのカメラ15と、プロセス層としての顔発見部31,顔識別部32,顔定位部33と、特徴層(データ)としての顔ID34,顔方向35と、イベント層としての視覚イベント生成部36及びビューア37と、から構成されている。
【0039】
これにより、視覚モジュール30は、カメラからの画像信号に基づいて、顔発見部31により例えば肌色抽出により各話者の顔を検出し、顔識別部32にて前もって登録されている顔データベース38により検索して、一致した顔があった場合、その顔ID34を決定して当該顔を識別すると共に、顔定位部33により当該顔方向35を決定(定位)する。
ここで、視覚モジュール30は、顔発見部31が画像信号から複数の顔を見つけた場合、各顔について前記処理、即ち識別及び定位そして追跡を行なう。
その際、顔発見部31により検出された顔の大きさ,方向及び明るさがしばしば変化するので、顔発見部31は、顔領域検出を行なって、肌色抽出と相関演算に基づくパターンマッチングの組合せによって、200m秒以内に複数の顔を正確に検出できるようになっている。
【0040】
また、顔識別部32は、顔発見部31により検出された各顔領域画像を、判別空間に射影し、顔データベース38に前もって登録された顔データとの距離dを計算する。この距離dは、登録顔数(L)に依存するので、
【数5】
Figure 0003843741
により、パラメータの依存しない確信度Pvに変換される。
ここで、判別空間の基底となる判別行列は、公知のオンラインLDAにより、通常のLDAと比較して少ない計算により更新され得るので、リアルタイムに顔データを登録することが可能である。
【0041】
顔定位部33は、二次元の画像平面における顔位置を三次元空間に変換し、顔が画像平面にて(x,y)に位置する幅と高さがそれぞれX及びYであるw×wピクセルであるとすると、三次元空間における顔位置は、以下の各式で与えられる方位角θ,高さφ及び距離rのセットとして得られる。
【数6】
Figure 0003843741
【数7】
Figure 0003843741
【数8】
Figure 0003843741
ここで、C1 及びC2 は、探索画像サイズ(X,Y)とカメラの画角そして実際の顔の大きさにより定義される定数である。
【0042】
そして、視覚モジュール30は、各顔毎に、顔ID(名前)34及び顔方向35から、視覚イベント生成部36により視覚イベント39を生成する。
詳細には、視覚イベント39は、各顔毎に、上位5つの確信度付きの顔ID(名前)34と位置(距離r,水平角度θ及び垂直角度φ)から構成されている。
【0043】
ビューア37は、視覚イベントをクライアントの画面上に表示するものであり、具体的には、カメラ15による画像と、顔識別の確信度付きで抽出した顔の顔IDと、定位の結果である位置のリストを表示する。ここで、カメラ15による画像には、発見し同定された顔が長方形の枠で囲まれて表示されている。複数の顔が発見された場合には、各顔について、それぞれ同定を示す長方形の枠と、定位の結果としてのリストが表示される。
【0044】
図7に示すように、前記モータ制御モジュール40は、デバイス層としてのモータ41及びポテンショメータ42と、プロセス層としてのPWM制御回路43,AD変換回路44及びモータ制御部45と、特徴層としてのロボット方向46と、イベント層としてのモータイベント生成部47と、ビューア48と、から構成されている。
【0045】
これにより、モータ制御モジュール40は、アテンション制御モジュール64(後述)からの指令に基づいてモータ制御部45によりPWM制御回路43を介してモータ41を駆動制御すると共に、モータ41の回転位置をポテンショメータ42により検出して、AD変換回路44を介してモータ制御部45によりロボット方向46を抽出し、モータイベント生成部47によりモータ方向情報から成るモータイベント49を生成する。
【0046】
ビューア48は、モータイベントをクライアントの画面上に三次元的に表示するものであって、具体的にはモータイベント49によるロボットの向きと動作速度を、例えばOpenGLにより実装されている三次元ビューアを利用して、リアルタイムに三次元表示するようになっている。
【0047】
図8に示すように、前記対話モジュール50は、デバイス層としてのスピーカ51及びマイク16と、プロセス層としての音声合成回路52,対話制御回路53及び自声抑制回路54,音声認識回路55と、から構成されている。
【0048】
これにより、対話モジュール50は、後述するアソシエーションモジュール60により対話制御回路53を制御し、音声合成回路52によりスピーカ51を駆動することによって、対象とする話者に対して所定の音声を発すると共に、マイク16からの音響信号から自声抑制回路54によりスピーカ51からの音を除去した後、音声認識回路55により対象とする話者の音声を認識する。
なお、前記対話モジュール50は、階層としての特徴層及びイベント層を備えていない。
【0049】
ここで、対話制御回路53は、例えばパーティ受付ロボットの場合には、現在のアテンションを継続することが最優先となるが、パーティロボットの場合には、最も最近に関連付けられたストリームに対して、アテンション制御される。
【0050】
図9に示すように、前記アソシエーションモジュール60は、上述した聴覚モジュール20,視覚モジュール30,モータ制御モジュール40,対話モジュール50に対して、階層的に上位に位置付けられており、各モジュール20,30,40,50のイベント層の上位であるストリーム層を構成している。
具体的には、前記アソシエーションモジュール60は、聴覚モジュール20,視覚モジュール30及びモータ制御モジュール40からの非同期イベント61a即ち聴覚イベント28,視覚イベント39及びモータイベント49を同期させて同期イベント61bにする同期回路62と、これらの同期イベント61bを相互に関連付けて、聴覚ストリーム65,視覚ストリーム66及びアソシエーションストリーム67を生成するストリーム生成部63と、さらにアテンション制御モジュール64と、ビューア68を備えている。
【0051】
前記同期回路62は、聴覚モジュール20からの聴覚イベント28,視覚モジュール30からの視覚イベント38及びモータ制御モジュール40からのモータイベント49を同期させて、同期聴覚イベント,同期視覚イベント及び同期モータイベントを生成する。
その際、聴覚イベント28及び視覚イベント39は、同期モータイベントによって、その座標系が絶対座標系に変換されることになる。
【0052】
ここで、各イベントの実際に観測されてからネットワーク70を介してアソシエーションモジュール60に到着するまでの遅延時間は、例えば聴覚イベント28では40m秒、視覚イベント39では200m秒、モータイベント49では100mであり、ネットワーク70における遅延が10乃至200m秒であり、さらに到着周期も異なることによるものである。
従って、各イベントの同期を取るために、聴覚モジュール20,視覚モジュール30及びモータ制御モジュール40からの聴覚イベント28,視覚イベント39及びモータイベント49は、それぞれ実際の観測時間を示すタイムスタンプ情報を備えており、図示しない短期記憶回路にて、例えば2秒間の間だけ一旦記憶される。
【0053】
そして、同期回路62は、短期記憶回路に記憶された各イベントを、上述した遅延時間を考慮して、実際の観測時間と比較して500m秒の遅延時間を備えるように、同期プロセスにより取り出す。これにより、同期回路62の応答時間は500m秒となる。また、このような同期プロセスは例えば100m秒周期で動作するようになっている。
尚、各イベントは、それぞれ互いに非同期でアソシエーションモジュール60に到着するので、同期を取るための観測時刻と同時刻のイベントが存在するとは限らない。従って、同期プロセスは、同期を取るための観測時刻前後に発生したイベントに対して、線形補間による補間を行なうようになっている。
【0054】
また、ストリーム生成部63は、図11に示すように、短期記憶回路Mから聴覚イベントS及び視覚イベントVを読み出して、以下の点に基づいてストリーム65,66,67の生成を行なう。
1. 聴覚イベント28は、符号Y1で示すように、同等または倍音関係にあるピッチを備え、方向が±10度以内で最も近い聴覚ストリーム65に接続される。尚、±10度以内の値は、聴覚エピポーラ幾何の精度を考慮して選定されたものであ。
2. 視覚イベント39は、符号Y2で示すように、共通の顔ID34を有し且つ40cmの範囲内で最も近い視覚ストリーム66に接続される。尚、40cmの範囲内の値は、秒速4m以上で人間が移動することがないということを前提として選定されたものである。
3. すべてのストリームに対して探索を行なった結果、接続可能なストリーム65,66が存在しないイベントがある場合には、符号Y3で示すように当該イベント28,39は新たなストリーム65,66を構成することになる。
4. 既に存在しているストリーム65,66は、これらに接続されるイベント28,39がない場合には、符号Y4aで示すように、最大で500m秒間は存続するが、その後もイベントが接続されない状態が継続すると、符号Y4bで示すように消滅する。
5. 聴覚ストリーム65と視覚ストリーム66が±10度以内に近接する状態が1秒間のうち500m秒以上継続する場合、これの聴覚ストリーム65と視覚ストリーム66は、同一話者に由来するものであるとみなされ、符号Y5で示すように、互いに関係付けられて、アソシエーションストリーム67が生成される。
6. アソシエーションストリーム67は、聴覚イベント28または視覚イベント39が3秒間以上接続されない場合には、関係付けが解除され、既存の聴覚ストリーム65または視覚ストリーム66のみが存続する。
7. アソシエーションストリーム67は、聴覚ストリーム65及び視覚ストリーム66の方向差が3秒間、±30度以上になった場合には、関係付けが解除され、個々の聴覚ストリーム65及び視覚ストリーム66に戻る。
【0055】
これにより、ストリーム生成部63は、同期回路62からの同期聴覚イベント及び同期視覚イベントに基づいて、これらの時間的つながりを考慮してイベントを接続することにより、同期聴覚イベント及び同期視覚イベントを、同一話者の聴覚ストリーム65及び視覚ストリーム66に接続することによって、聴覚ストリーム65及び視覚ストリーム66を生成すると共に、相互の結び付きの強い聴覚ストリーム65及び視覚ストリーム66を関係付けて、アソシエーションストリーム67を生成するようになっており、逆にアソシエーションストリーム67を構成する聴覚ストリーム65及び視覚ストリーム66の結び付きが弱くなれば、関係付けを解除するようになっている。
これにより、対象となる話者が移動している場合であっても、当該話者の移動を予測して、その移動範囲となる角度範囲内であれば、上述したストリーム65,66,67の生成を行なうことによって、当該話者の移動を予測して追跡できることになる。
【0056】
また、アテンション制御モジュール64は、モータ制御モジュール40の駆動モータ制御のプランニングのためのアテンション制御を行なうものであり、その際アソシエーションストリーム67,聴覚ストリーム65そして視覚ストリーム66の順に優先的に参照して、アテンション制御を行なう。
そして、アテンション制御モジュール64は、聴覚ストリーム65及び視覚ストリーム66の状態とアソシエーションストリーム67の存否に基づいて、ロボット10の動作プランニングを行ない、駆動モータ41の動作の必要があれば、モータ制御モジュール40に対して動作指令としてのモータイベントをネットワーク70を介して送信する。
【0057】
ここで、アテンション制御モジュール64におけるアテンション制御は、連続性とトリガに基づいており、連続性により同じ状態を保持しようとし、トリガにより最も興味のある対象を追跡しようとする。
従って、アテンション制御は、
1. アソシエーションストリームの存在は、ロボット10に対して正対して話している人が現在も存在している、あるいは近い過去に存在していたことを示しているので、このようなロボット10に対して話している人に対して、高い優先度でアテンションを向けて、トラッキングを行なう必要がある。
2. マイク16は無指向性であるので、カメラの視野角のような検出範囲が存在せず、広範囲の聴覚情報を得ることができるので、視覚ストリームより聴覚ストリームの優先度を高くすべきである。
という二つの点を考慮して、以下の原則に従ってアテンションを向けるストリームを選択して、トラッキングを行なう。
1. アソシエーションストリームのトラッキングを最優先する。
2. アソシエーションストリームが存在しない場合、聴覚ストリームのトラッキングを優先する。
3. アソシエーションストリーム及び聴覚ストリームが存在しない場合、視覚ストリームのトラッキングを優先する。
このようにして、アテンション制御モジュール64は、アテンション制御を行なって、モータ制御モジュール40の駆動モータ41の制御のプランニングを行ない、このプランニングに基づいて、モータコマンド66を生成し、ネットワーク70を介してモータ制御モジュール40に伝送する。これにより、モータ制御モジュール40では、このモータコマンド66に基づいて、モータ制御部45がPWM制御を行なって、駆動モータ41を回転駆動させて、ロボット10を所定方向に向けるようになっている。
【0058】
ビューア68は、このようにして生成された各ストリームをサーバの画面上に表示するものであり、具体的にはレーダチャート及びストリームチャートにより表示する。
ここで、レーダチャートは、その瞬間におけるストリームの状態、より詳細にはカメラの視野角と音源方向を示し、ストリームチャートは、アソシエーションストリーム(太線図示)と聴覚ストリーム及び視覚ストリーム(細線図示)を示している。
【0059】
本発明実施形態による人型ロボット10は以上のように構成されており、パーティ受付ロボットとして対象とする話者に対して、図12を参照して、以下のように動作する。
先ず、図12(A)に示すように、ロボット10は、パーティ会場の入口前に配置されている。
そして、図12(B)に示すように、パーティ参加者Pがロボット10に接近してくるが、ロボット10は、まだ当該参加者Pを認識していない。ここで、参加者Pがロボット10に対して例えば「こんにちは」と話し掛けると、ロボット10は、マイク16が当該参加者Pの音声を拾って、聴覚モジュール20が音源方向を伴う聴覚イベント28を生成して、ネットワーク70を介してアソシエーションモジュール60に伝送する。
【0060】
これにより、アソシエーションモジュール60は、この聴覚イベント28に基づいて聴覚ストリーム29を生成する。このとき、視覚モジュール30は参加者Pがカメラ15の視野内に入っていないので、視覚イベント39を生成しない。従って、アソシエーションモジュール60は、聴覚イベント28のみに基づいて聴覚ストリーム29を生成し、アテンション制御モジュール64は、この聴覚ストリーム29をトリガーとして、ロボット10を参加者Pの方向に向けるようなアテンション制御を行なう。
【0061】
このようにして、図12(C)に示すように、ロボット10が参加者Pの方向を向き、所謂声によるトラッキングが行なわれる。そして、視覚モジュール30がカメラ15による参加者Pの顔の画像を取り込んで、視覚イベント39を生成して、当該参加者Pの顔を顔データベース38により検索し、顔識別を行なうと共に、その結果である顔ID24及び画像をネットワーク70を介してアソシエーションモジュール60に伝送する。尚、当該参加者Pの顔が顔データベース38に登録されていない場合には、視覚モジュール30は、その旨をネットワーク70を介してアソシエーションモジュール60に伝送する。
【0062】
このとき、ロボット10は、聴覚イベント28及び視覚イベント39によりアソシエーションストリーム65を生成しており、このアソシエーションストリーム65によりアテンション制御モジュール64は、そのアテンション制御を変更しないので、ロボット10は、参加者Pの方向を向き続ける。従って、参加者Pが移動したとしても、ロボット10は、アソシエーションストリーム65によりモータ制御モジュール40を制御することにより、参加者Pを追跡して、視覚モジュール30のカメラ15が参加者Pを継続して撮像し得るようになっている。
【0063】
そして、アソシエーションモジュール60は、聴覚モジュール20の音声認識回路55に入力を与えて、音声認識回路55はその音声認識結果を対話制御回路53に与える。これにより、対話制御回路53は音声合成を行なってスピーカ51から発声する。このとき、音声認識回路55がマイク16からの音響信号からスピーカ51からの音を自声抑制回路54により低減することにより、ロボット10は自身の発声を無視して、相手の声をより正確に認識することができる。
【0064】
ここで、音声合成による発声は、参加者Pの顔が前記顔データベース38に登録されているか否かで異なる。
参加者Pの顔が顔データベース38に登録されている場合には、アソシエーションモジュール60は、視覚モジュール30からの顔ID24に基づいて、対話モジュール50を制御して、音声合成により「こんにちは。XXXさんですか?」と参加者Pに対して質問する。
これに対して、参加者Pが「はい。」と答えると、対話モジュール50がマイク16からの音響信号に基づいて、音声認識回路55により「はい」を認識して対話制御回路53により音声合成を行ない、スピーカ51から「ようこそXXXさん、どうぞ部屋にお入り下さい。」と発声する。
【0065】
また、参加者Pの顔が顔データベース38に登録されていない場合には、アソシエーションモジュール60は、対話モジュール50を制御して、音声合成により「こんにちは。あなたのお名前を教えていただけますか?」と参加者Pに対して質問する。
これに対して、参加者Pが「XXXです。」と自分の名前を答えると、対話モジュール50がマイク16からの音響信号に基づいて、音声認識回路55により「XXX」を認識して、対話制御回路53により音声合成を行ない、スピーカ51から「ようこそXXXさん、どうぞ部屋にお入り下さい。」と発声する。
このようにして、ロボット10は、参加者Pの認識を行なってパーティ会場への入場を誘導すると共に、視覚モジュール30にて、当該参加者Pの顔の画像と名前「XXX」を顔データベース38に登録させる。
【0066】
また、人型ロボット10は、コンパニオン用ロボットとして、以下のように動作する。
この場合、人型ロボット10は、聴覚モジュール20による聴覚イベント28及び視覚モジュール30による視覚イベント39と、アソシエーションモジュール60によるアソシエーションストリーム65に基づいて、複数の話者を聴覚及び視覚により認識していると共に、複数の話者のうちの一人の話者を追跡したり、あるいは途中で他の話者に切り換えて追跡することができる。
なお、コンパニオン用ロボットの場合には、ロボット10は受動的な役割を果たす、即ちパーティ参加者の「話を聴き」あるいは「話者を見る」のみであり、対話モジュール50により発声することはない。
【0067】
また、コンパニオン用ロボットとしての人型ロボット10は、パーティ受付ロボットと顔データベース38を共用し、あるいはパーティ受付ロボットの顔データベース38が転送または複写されるようにしてもよい。この場合、コンパニオン用ロボットとしての人型ロボット10は、パーティ参加者全員を常に顔識別によって認識することができる。
【0068】
このようにして、本発明実施形態による人型ロボット10によれば、アソシエーションモジュール60が、聴覚モジュール20及び視覚モジュール30からの聴覚イベント及び視覚イベントに基づいて、これらの方向情報そして個々の話者同定から、これらの時間的流れを考慮して、聴覚ストリーム,視覚ストリームそしてアソシエーションストリームを生成することによって、複数の対象である話者を認識しているので、何れかのイベントが欠落したり明確に認識できなくなった場合、例えば話者が移動して「見えなく」なった場合でも聴覚により、また話者が話をせず「聞こえなく」なった場合でも視覚により、リアルタイムに複数の話者を聴覚的及び/又は視覚的にトラッキングすることができる。
【0069】
上述した実施形態において、人型ロボット10は4DOF(自由度)を有するように構成されているが、これに限らず、任意の動作を行なうように構成されたロボットに本発明によるロボット聴覚システムを組み込むことも可能である。また、上述した実施形態においては、本発明によるロボット視聴覚システムを人型ロボット10に組み込んだ場合について説明したが、これに限らず、犬型等の各種動物型ロボットや、その他の形式のロボットに組み込むことも可能であることは明らかである。
【0070】
【発明の効果】
以上述べたように、この発明によれば、聴覚モジュールが、マイクが集音した外部の対象からの音から、調波構造を利用してピッチ抽出を行なうことにより音源毎の方向を得て個々の話者の音源を同定し、その聴覚イベントを抽出する。
また、視覚モジュールが、カメラにより撮像された画像から、パターン認識による各話者の顔識別と定位から各話者を同定して個々の話者の視覚イベントを抽出する。
さらに、モータ制御モジュールが、ロボットを水平方向に回動させる駆動モータの回転位置に基づいて、ロボットの方向を検出することによってモータイベントを抽出する。
【0071】
ここで、アソシエーションモジュールは、このようにしてそれぞれ抽出された聴覚イベント,視覚イベント及びモータイベントに基づいて、その方向情報、そして話者同定を参照して各話者の聴覚ストリーム及び視覚ストリームを生成し、さらにこれらのストリームを関連付けてアソシエーションストリームを生成して、アテンション制御モジュールは、これらのストリームに基づいてアテンション制御を行なうことにより、モータ制御モジュールの駆動モータ制御のプランニングを行なう。
この際、アソシエーションモジュールは、聴覚イベントの音源定位及び視覚イベントの顔定位、即ち聴覚及び視覚の方向情報に基づいて、各話者の方向を決定して、聴覚ストリーム,視覚ストリーム及びアソシエーションストリームを生成することになる。
【0072】
そして、アテンション制御モジュールは、このプランニングに基づいて、モータ制御モジュールの駆動モータを制御することにより、ロボットの方向を対象である話者に向ける。これにより、ロボットが対象である話者に対して正対することにより、聴覚モジュールが当該話者の声を、感度の高い正面方向にてマイクにより正確に集音,定位することができる共に、視覚モジュールが当該話者の画像をカメラにより良好に撮像することができるようになる。
【0073】
従って、このような聴覚モジュール,視覚モジュール及びモータ制御モジュールと、アソシエーションモジュール及びアテンション制御モジュールとの連携によって、聴覚イベント及び視覚イベントの方向情報、話者同定そして時間的流れを参照して、話者の追跡を行なうことにより、ロボットの聴覚及び視覚がそれぞれ有する曖昧性が互いに補完されることになり、所謂ロバスト性が向上し、複数の話者であっても、各話者をそれぞれ確実に知覚することができる。
また、例えば聴覚イベントまたは視覚イベントの何れか一方が欠落したときであっても、残りの視覚イベントまたは聴覚イベントのみに基づいて、対象である話者をアソシエーションモジュールが知覚することができるので、正確に対象の方向を把握して、モータ制御モジュールの制御を行なうことができる。
これにより、本発明によれば、対象に対する視覚及び聴覚の情報を統合して、対象の追跡を確実に行なうようにした、極めて優れたロボット視聴覚システムが提供される。
【図面の簡単な説明】
【図1】この発明によるロボット聴覚装置の第一の実施形態を組み込んだ人型ロボットの外観を示す正面図である。
【図2】図1の人型ロボットの側面図である。
【図3】図1の人型ロボットにおける頭部の構成を示す概略拡大図である。
【図4】図1の人型ロボットにおけるロボット視聴覚システムの電気的構成を示すブロック図である。
【図5】図4におけるブロック1の聴覚モジュールを拡大して示す電気的構成のブロック図である。
【図6】図4におけるブロック2の視覚モジュールを拡大して示す電気的構成のブロック図である。
【図7】図4におけるブロック3のモータ制御モジュールを拡大して示す電気的構成のブロック図である。
【図8】図4におけるブロック4の対話モジュールを拡大して示す電気的構成のブロック図である。
【図9】図4におけるブロック5のアソシエーションモジュールを拡大して示す電気的構成のブロック図である。
【図10】図4のロボット視聴覚システムにおける聴覚モジュールによるピーク抽出,音源定位及び音源分離を示す図である。
【図11】図4のロボット視聴覚システムにおけるアソシエーションモジュールによるストリーム生成を示す図である。
【図12】図4のロボット視聴覚システムにおけるパーティ受付ロボットとしての動作例を示す図である。
【符号の説明】
10 人型ロボット
11 ベース
12 胴体部
13 頭部
13a 連結部材
14 外装
15 カメラ(ロボット視覚)
16,16a,16b マイク(ロボット聴覚)
17 ロボット視聴覚システム
20 聴覚モジュール
30 視覚モジュール
40 モータ制御モジュール
50 対話モジュール
60 アソシエーションモジュール
64 アテンション制御モジュール
70 ネットワーク[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audiovisual system in a robot, particularly a humanoid or animal type robot.
[0002]
[Prior art]
In recent years, in such humanoid or animal type robots, active visual and auditory perception has attracted attention.
Active perception is to control the posture of a perceptive device in charge of perception, such as robot vision or robot hearing, using a drive mechanism, such as the head, that supports these perceptual devices so as to follow the object to be perceived. .
[0003]
Here, with regard to active vision, at least the camera, which is a sensory device, holds its optical axis direction toward the target by posture control by the driving mechanism, and focusing, zooming in, zooming out, etc. are automatically performed on the target. As a result, the subject is imaged by a camera, and various studies have been conducted.
[0004]
On the other hand, with regard to active hearing, at least a microphone, which is a perceptual device, holds its directivity toward a target by posture control by a drive mechanism, and sounds from the target are collected by the microphone.
Such active hearing is disclosed in, for example, Japanese Patent Application No. 2000-22777 (robot hearing system) by the present applicant, and directs sound sources with reference to visual information.
[0005]
[Problems to be solved by the invention]
By the way, these active vision and active hearing are closely related to the motor control module for changing the orientation (horizontal direction) of the robot, and in order to make active vision and active hearing work for a specific target, It is necessary to direct the robot to a specific object, that is, to perform attention control.
However, in order for the robot to accurately identify each target speaker based on the surrounding situation, it is necessary to integrate visual and auditory information. For example, a plurality of humans seem to talk to each other. In such a situation, active hearing is not performed by identifying each person by real-time processing.
[0006]
In view of the above points, an object of the present invention is to provide a robot audio-visual system that integrates visual and auditory information on a target and reliably tracks the target.
[0007]
[Means for Solving the Problems]
According to the present invention, the object is to provide an auditory module including at least a pair of microphones for collecting external sounds, a vision module including a camera for imaging the front of the robot, and a drive motor for rotating the robot horizontally. A motor control module including: an association module that integrates events from the auditory module, visual module, and motor control module to generate a stream; an attention control module that performs attention control based on the stream generated by the association module; The audiovisual system includes a hearing module that determines the direction of at least one speaker from pitch extraction, sound source separation, and localization based on an acoustic signal from a microphone and extracts the auditory event. Visual module , Based on the image captured by the camera, to identify the respective speaker from localization and face recognition for each speaker speaker And the motor control module extracts the motor event based on the rotational position of the driving motor, so that the association module can detect the sound source localization and visual of the auditory event from the auditory event, the visual event, and the motor event. Generating auditory and visual streams by determining the direction of each speaker based on the orientation information of the face orientation of the event, and Auditory and visual streams To generate an association stream and the attention control module Auditory stream, visual stream, association stream The robot audio-visual system is characterized by performing attention control for driving motor control planning of the motor control module based on the above.
[0008]
According to the present invention, the object is to provide an auditory module including at least a pair of microphones for collecting external sounds, a visual module including a camera for imaging the front of the robot, and rotating the robot in a horizontal direction. A motor control module including a drive motor, an association module that integrates events from the auditory module, vision module, and motor control module to generate a stream, and an attention control module that performs attention control based on the stream generated by the association module And an audio-visual system for a humanoid or animal-type robot, wherein the auditory module determines the direction of at least one speaker from pitch extraction, sound source separation and localization based on acoustic signals from a microphone. Decide that auditory event Extract the visual module, based on the image captured by the camera, to identify the respective speaker from localization and face recognition for each speaker speaker And the motor control module extracts the motor event based on the rotational position of the drive motor, so that the association module can detect the sound source localization and the visual event of the auditory event from the auditory event, the visual event, and the motor event. Generating auditory and visual streams by determining the direction of each speaker based on face orientation information; Auditory and visual streams To generate an association stream and the attention control module Auditory stream, visual stream, association stream The robot audio-visual system is characterized by performing attention control for driving motor control planning of the motor control module based on the above.
[0009]
In the robot audio-visual system according to the present invention, preferably, when the association module generates the auditory stream and the visual stream, the auditory event, the visual event, and the motor event generated asynchronously are mutually synchronized.
[0010]
In the robot audio-visual system according to the present invention, preferably, the auditory module detects a speech MFCC from an acoustic signal to identify each speaker, and the association module detects a speaker of an auditory event and a speaker of a visual event. By identifying the speaker based on the identification, an audio stream and a visual stream to which the audio event and the visual event are to be connected are selected.
[0011]
The robot audiovisual system according to the present invention is preferably configured such that when the plurality of streams approach each other, the association module refers to a temporal flow of the auditory event and the visual event to connect the auditory event and the visual event. Select auditory and visual streams.
[0012]
In the robot audiovisual system according to the present invention, preferably, the association module generates an association stream by associating a strong auditory stream and a visual stream that are strongly associated with each other, and the association between the auditory stream and the visual stream constituting the association stream is weak. When it becomes, the association is canceled and the association stream is extinguished.
[0013]
According to the above configuration, the auditory module obtains the direction of each sound source by performing pitch extraction using the harmonic structure from the sound from the external target collected by the microphone, and the direction of each speaker And the auditory event is extracted.
Further, the visual module identifies each speaker from the face identification and localization of each speaker by pattern recognition from the image captured by the camera, and extracts the visual event of each speaker.
Further, the motor control module extracts the motor event by detecting the direction of the robot based on the rotational position of the drive motor that rotates the robot in the horizontal direction.
The event indicates a state in which a sound or face is detected at each time point, features such as pitch and direction are extracted, speaker identification or face identification is performed, or a drive motor is rotated. The stream indicates events that are continuous in time.
[0014]
Here, the association module determines the direction of each speaker based on the direction information of the sound source localization of the auditory event and the face localization of the visual event based on the auditory event, the visual event, and the motor event extracted as described above. Thus, an auditory stream and a visual stream of each speaker are generated, and further, an association stream is generated by associating these streams.
At this time, the association module determines the direction of each speaker based on the sound source localization of the auditory event and the face localization of the visual event, that is, the auditory and visual direction information, and refers to the determined speaker direction. An association stream will be generated.
The attention control module performs attention control based on these streams, thereby planning the drive motor control of the motor control module.
Attention is to “attention” the speaker who is the target of the robot auditorially and / or visually. Attention control is to change the direction by the motor control module, so that the robot Is to pay attention to.
[0015]
Then, the attention control module controls the drive motor of the motor control module based on this planning to direct the direction of the robot toward the target speaker. As a result, when the robot faces the target speaker, the auditory module can accurately collect and localize the speaker's voice with a microphone in the front direction with high sensitivity. The module can better capture the image of the speaker by the camera.
[0016]
Therefore, by the cooperation of the auditory module, the visual module, and the motor control module, the association module, and the attention control module, based on the direction information of the sound source localization of the auditory event and the speaker localization of the visual event, each speaker's By determining the direction, the ambiguities of the robot's auditory and visual senses are complemented with each other, improving the so-called robustness and ensuring that each speaker can be perceived reliably, even for multiple speakers. can do.
Also, even when either an auditory event or a visual event is missing, the attention control module can track the target speaker based only on the remaining visual event or auditory event, The motor control module can be controlled by accurately grasping the direction of the object.
[0017]
When the association module synchronizes the asynchronously generated auditory event, visual event, and motor event with each other when generating the auditory stream and visual stream, the asynchronously generated auditory event, visual event, and When the motor events are synchronized with each other, different generation periods and delay times of these events in the association module are absorbed, and each story based on the direction information of the sound source localization of the auditory event and the speaker localization of the visual event. The direction of the person is determined more accurately. Therefore, when an auditory stream composed of an auditory event and a visual stream composed of a visual event exist at a distance close to each other, a higher-order association stream can be generated in association with each other.
[0018]
The association module detects the MFCC of the speech from the acoustic signal by the auditory module to identify each speaker, and the association module detects the speaker based on speaker identification of the auditory event and speaker identification of the visual event. When the auditory stream and the visual stream to which the auditory event and the visual event are to be connected are selected, speaker identification can be performed from the auditory event by the audio MFCC. Individual speakers will be identified. Therefore, by connecting each auditory event and visual event respectively to the auditory stream and visual stream of the same speaker, for example, even when there are multiple speakers, each speaker can be more accurately identified. The auditory stream and the visual stream can be generated, and even if one of the auditory event or the visual event is interrupted, the speaker identification can be continued by the other event.
As a result, even when multiple speakers' voices are detected from the same direction, each speaker can be identified, and each speaker can be tracked more accurately by performing higher-order integration of hearing and vision. Is possible.
[0019]
When the association module selects an audio stream and a visual stream to which the audio event and the visual event are to be connected with reference to a temporal flow of the audio event and the visual event when a plurality of streams approach each other Even when a plurality of speakers are close to each other and the auditory stream and visual stream of these speakers are close to each other, the range of movement of the speaker is predicted, and this If it is within the range, the audio stream and the visual stream can be generated more accurately by holding the audio stream or the visual stream. Therefore, the ambiguities of the auditory stream and the visual stream are complemented with each other, so-called robustness is improved, and a plurality of speakers can be reliably tracked.
[0020]
The association module associates a strong auditory stream and a visual stream that are strongly associated with each other to generate an association stream. When the association between the auditory stream and the visual stream that constitutes the association stream becomes weak, the association module releases the association and associates the association. When the stream is extinguished, an association stream can be generated accurately for each speaker, so that the ambiguity of the auditory stream and visual stream is eliminated as much as possible to accurately identify the speaker. Can do.
Further, in this case, even if the speaker is moving by appropriately selecting a predetermined angle, the speaker's movement is reliably captured, so to speak, the speaker's movement can be predicted. Can be specified.
[0021]
DETAILED DESCRIPTION OF THE INVENTION
The present invention will be described in detail below based on the embodiments shown in the drawings.
1 to 4 show the overall configuration of an experimental humanoid robot equipped with an embodiment of a robot audiovisual system according to the present invention.
In FIG. 1, a humanoid robot 10 is configured as a 4 DOF (degree of freedom) robot, and includes a base 11 and a body portion 12 supported on the base 11 so as to be rotatable about one axis (vertical axis). The head portion 13 is supported on the body portion 12 so as to be swingable around three axis directions (vertical axis, horizontal axis in the left-right direction and horizontal axis in the front-rear direction).
[0022]
The base 11 may be fixedly arranged and operable as a leg portion. The base 11 may be placed on a movable carriage or the like.
The body 12 is supported so as to be rotatable around a vertical axis with respect to the base 11 as shown by an arrow A in FIG. 1, and is rotated by a driving means (not shown). Covered by a soundproof exterior.
[0023]
The head 13 is supported on the body 12 via a connecting member 13a, and swings about a horizontal axis in the front-rear direction with respect to the connecting member 13a as shown by an arrow B in FIG. 2 and is supported so as to be swingable around a horizontal axis in the left-right direction as indicated by an arrow C in FIG. The shaft is supported so as to be swingable as indicated by an arrow D in FIG. 1, and is driven to rotate in the directions of arrows A, B, C, and D by driving means (not shown).
[0024]
Here, as shown in FIG. 3, the head 13 is entirely covered with a soundproof exterior 14 and has a camera 15 as a visual device in charge of robot vision on the front side and robot hearing on both sides. A pair of microphones 16 (16a, 16b) are provided as hearing devices in charge.
[0025]
The exterior 14 is made of, for example, a sound-absorbing synthetic resin such as urethane resin, and is configured to perform sound insulation inside the head 13 by sealing the inside of the head 13 almost completely. .
In addition, the exterior of the body portion 12 is similarly made of a sound-absorbing synthetic resin.
The camera 15 has a known configuration, and for example, a commercially available camera having 3 DOF (degree of freedom) of so-called pan, tilt and zoom can be applied.
[0026]
The microphones 16 are respectively attached to the side surfaces of the head 13 so as to have directivity toward the front.
Here, the left and right microphones 16a and 16b of the microphone 16 are attached to the inside by step portions 14a and 14b facing forward on both sides of the exterior 14, respectively, as shown in FIGS. Sounds from the front are collected through the through holes provided in the portions 14a and 14b, and the sound is insulated by appropriate means so as not to pick up the sound inside the exterior 14. Thus, the microphones 16a and 16b are configured as so-called binaural microphones. In addition, the exterior 14 may be formed in a human outer ear shape in the vicinity of the attachment positions of the microphones 16a and 16b.
[0027]
FIG. 4 shows an electrical configuration of a robot audiovisual system including the microphone 16 and the camera 15.
In FIG. 4, the audiovisual system 17 is configured as a party reception and companion robot, and includes an auditory module 20, a visual module 30, a motor control module 40, a dialogue module 50, and an association module 60.
Hereinafter, further description will be given with reference to FIGS. For convenience of explanation, the auditory module 20 is shown as an enlarged view in FIG. 5 as a block 1, the visual module 30 is shown as an enlarged view in FIG. 6 as a block 2, and the motor control module 40 is shown as an enlarged view in FIG. The dialogue module 50 is shown as an enlarged block 4 in FIG. 8, and the association module 60 is shown as an enlarged block 5 in FIG.
Here, the association module 60 (block 5, FIG. 9) is composed of a server, and other modules, that is, the auditory module 20 (block 1, FIG. 5), the vision module 30 (block 2, FIG. 6), and the motor. The control module 40 (block 3 and FIG. 7) and the interaction module 50 (block 4 and FIG. 8) are each composed of clients and operate asynchronously with each other.
[0028]
The server and each client are constituted by, for example, a personal computer, and are connected to each other via a network 70 such as 100Base-T, for example, by the TCP / IP protocol.
Each of the modules 20, 30, 40, 50, and 60 is hierarchically distributed, and specifically includes a device layer, a process layer, a feature layer, and an event layer in order from the bottom.
[0029]
As shown in FIG. 5, the auditory module 20 includes a microphone 16 as a device layer, a peak extraction unit 21, a sound source localization unit 22, a sound source separation unit 23, a speaker identification unit 23a as a process layer, and a feature layer ( Data), a pitch 24 and a horizontal direction 25, and an auditory event generation unit 26 and a viewer 27 as event layers.
[0030]
Here, the auditory module 20 operates as shown in FIG.
That is, in FIG. 10, the auditory module 20 performs frequency analysis on the acoustic signal from the microphone 16 sampled at 48 kHz, 16 bits, for example, as indicated by reference numeral X1, by FFT (Fast Fourier Transform) as indicated by reference numeral X2. Then, as indicated by the symbol X3, a spectrum is generated for each of the left and right channels. Then, the auditory module 20 extracts a series of peaks for each of the left and right channels by the peak extraction unit 21, and pairs the same or similar peaks in the left and right channels.
Here, in the peak extraction, only data on the condition that the power is equal to or higher than a threshold and is a local peak, and is a frequency between 90 Hz and 3 kHz, for example, in order to cut a low frequency noise and a high frequency band with a small power. This is done by using a bandpass filter that allows transmission. This threshold value is defined as a value obtained by measuring ambient background noise and adding a sensitivity parameter, for example, 10 dB.
[0031]
Then, the auditory module 20 uses the fact that each peak has a harmonic structure, extracts local peaks having a harmonic structure in order from the lowest frequency, and collects a set of extracted peaks. As a single sound, the sound source separation unit 23 applies inverse FFT (Fast Fourier Transform) as indicated by reference symbol X4 to separate the acoustic signal for each sound source from the mixed sound from each sound source as indicated by reference symbol X5. .
[0032]
As a result, the auditory module 20 selects an acoustic signal having the same frequency from the left and right channels as indicated by reference numeral X6 by the sound source localization unit 22 for the acoustic signal for each sound source, and performs IPD (both Interaural phase difference) and IID (interaural intensity difference) are obtained.
Then, the sound source localization unit 22 of the auditory module 20 generates the IPD Ph hypothesis based on the hypothetical reasoning indicated by the symbol X7 in a range of ± 90 degrees with the front of the robot 10 being 0 degrees using so-called auditory epipolar geometry. And
[Expression 1]
Figure 0003843741
The distance d (θ) between the sound separated by the above and each hypothesis is calculated. Where n f <1.5 kHz is a harmonic that has a frequency of 1.5 kHz or less. This is effective for frequencies with an IPD of 1.2 to 1.5 kHz or less from the baseline of the left and right microphones 15, and is 1.5 kHz or less in this experiment.
[0033]
As with the IPD, the IID is obtained from the power difference between the left and right channels of each overtone of the separated sound. However, IID is not hypothetical reasoning,
[Expression 2]
Figure 0003843741
It is assumed that the sound source is determined to be left or right using the discriminant function. That is, the IID of each harmonic overtone with frequency f s When (f) is assumed, the sound source exists in the left direction of the robot if I is positive, in the right direction if I is negative, and in the front direction if I is almost zero.
Here, the generation of an IID hypothesis requires enormous calculation in consideration of the head shape of the robot 10, and therefore hypothetical reasoning similar to IPD is not performed in consideration of real-time processing.
In this way, IPD and IID are matched as indicated by reference numeral X8.
[0034]
Then, the sound source localization unit 22 of the auditory module 20 calculates the probability density function from the distance d (θ), as indicated by reference numeral X9.
[Equation 3]
Figure 0003843741
IPD certainty factor BF IPD (Θ) is calculated. Here, m and s are the average and variance of d (θ), respectively, and n is the number of d.
Also, IID certainty factor BF IID (Θ) is 30 ° <θ ≦ 90 °, 0.35 when I is +, 0.65 when −, −30 ° <θ ≦ 30 °, and 0.5 when I is + , − Is 0.5, −90 degrees <θ ≦ −30 degrees, 0.6 when I is +, and 0.35 when −.
[0035]
Then, the certainty factor BF of the IPD obtained in this way IPD (Θ) and IID certainty factor BF IID As (θ) is represented by reference numeral X10
[Expression 4]
Figure 0003843741
Integrating by the Demster-Shafer theory shown by IPD + IID (Θ) is generated.
Further, the speaker specifying unit 23a obtains, for example, an MFCC (Mel Frequency Cepstrum Coefficient) from the acoustic signal from the microphone 16 and compares it with the MFCC of the speaker registered in advance. Identify.
As a result, the auditory module 20 causes the auditory event generator 26 to select the top 20 certainty factors BF in descending order of likelihood as the sound source direction. IPD + IID The auditory event 28 is generated by the list, pitch, and speaker identification of (θ) and direction (θ).
[0036]
In this manner, the auditory module 20 identifies (speaker identification) at least one speaker from the pitch extraction, sound source separation and localization, and MFCC based on the acoustic signal from the microphone 16 and identifies the auditory event. The data is extracted and transmitted to the association module 60 via the network 70.
In addition, the process mentioned above in the auditory module 20 is performed every 40 milliseconds.
[0037]
The viewer 27 displays the auditory event 28 generated in this manner on the client screen. Specifically, the viewer 27 displays the power spectrum of the auditory event 28 and the extracted peak in the right window. The auditory event is displayed with the vertical axis representing the relative azimuth and the horizontal axis representing the pitch (frequency). Here, the auditory event is represented by a circle whose sound source localization certainty is the diameter of the circle.
[0038]
As shown in FIG. 6, the visual module 30 includes a camera 15 as a device layer, a face finding unit 31 as a process layer, a face identification unit 32, a face localization unit 33, and a face ID 34 as a feature layer (data). , A face direction 35, a visual event generation unit 36 as an event layer, and a viewer 37.
[0039]
Thereby, the visual module 30 detects the face of each speaker by, for example, skin color extraction by the face finding unit 31 based on the image signal from the camera, and uses the face database 38 registered in advance by the face identifying unit 32. If a matching face is found by searching, the face ID 34 is determined to identify the face, and the face orientation unit 33 determines (orientates) the face direction 35.
Here, when the face finding unit 31 finds a plurality of faces from the image signal, the vision module 30 performs the above-described processing, that is, identification, localization, and tracking for each face.
At that time, since the size, direction, and brightness of the face detected by the face finding unit 31 often change, the face finding unit 31 performs face region detection and combines pattern matching based on skin color extraction and correlation calculation. Thus, a plurality of faces can be accurately detected within 200 milliseconds.
[0040]
In addition, the face identification unit 32 projects each face area image detected by the face finding unit 31 onto the discrimination space, and calculates a distance d from the face data registered in the face database 38 in advance. Since this distance d depends on the number of registered faces (L),
[Equation 5]
Figure 0003843741
Thus, the parameter P is converted into a certainty factor Pv that does not depend on the parameter.
Here, since the discriminant matrix that is the basis of the discriminant space can be updated by a known online LDA with fewer calculations than a normal LDA, face data can be registered in real time.
[0041]
The face localization unit 33 converts the face position on the two-dimensional image plane to a three-dimensional space, and the width and height at which the face is located at (x, y) on the image plane are X and Y respectively. If it is a pixel, the face position in the three-dimensional space is obtained as a set of azimuth angle θ, height φ, and distance r given by the following equations.
[Formula 6]
Figure 0003843741
[Expression 7]
Figure 0003843741
[Equation 8]
Figure 0003843741
Where C 1 And C 2 Is a constant defined by the search image size (X, Y), the angle of view of the camera, and the actual face size.
[0042]
Then, the visual module 30 generates a visual event 39 from the face ID (name) 34 and the face direction 35 by the visual event generator 36 for each face.
Specifically, the visual event 39 is composed of a face ID (name) 34 with the top five certainty factors and a position (distance r, horizontal angle θ and vertical angle φ) for each face.
[0043]
The viewer 37 displays a visual event on the client's screen. Specifically, the image by the camera 15, the face ID of the face extracted with the certainty of face identification, and the position that is the localization result Display a list of Here, in the image by the camera 15, the face that has been found and identified is displayed surrounded by a rectangular frame. When a plurality of faces are found, a rectangular frame indicating identification and a list as a result of localization are displayed for each face.
[0044]
As shown in FIG. 7, the motor control module 40 includes a motor 41 and a potentiometer 42 as device layers, a PWM control circuit 43, an AD conversion circuit 44 and a motor control unit 45 as process layers, and a robot as a feature layer. A direction 46, a motor event generation unit 47 as an event layer, and a viewer 48 are included.
[0045]
As a result, the motor control module 40 controls driving of the motor 41 via the PWM control circuit 43 by the motor control unit 45 based on a command from the attention control module 64 (described later), and also sets the rotational position of the motor 41 to the potentiometer 42. , The robot direction 46 is extracted by the motor control unit 45 via the AD conversion circuit 44, and the motor event 49 including the motor direction information is generated by the motor event generation unit 47.
[0046]
The viewer 48 three-dimensionally displays the motor event on the client screen. Specifically, the viewer 48 displays the direction and the operation speed of the robot according to the motor event 49, for example, a three-dimensional viewer implemented by OpenGL. It is used for 3D display in real time.
[0047]
As shown in FIG. 8, the dialogue module 50 includes a speaker 51 and a microphone 16 as device layers, a speech synthesis circuit 52 as a process layer, a dialogue control circuit 53 and a voice suppression circuit 54, a speech recognition circuit 55, It is composed of
[0048]
As a result, the dialogue module 50 controls the dialogue control circuit 53 by the association module 60 described later, and drives the speaker 51 by the voice synthesis circuit 52 to emit a predetermined voice to the target speaker. After the sound from the speaker 51 is removed from the acoustic signal from the microphone 16 by the voice suppression circuit 54, the voice of the target speaker is recognized by the voice recognition circuit 55.
The dialogue module 50 does not include a feature layer and an event layer as a hierarchy.
[0049]
Here, for example, in the case of a party reception robot, the dialog control circuit 53 has the highest priority to continue the current attention, but in the case of a party robot, for the most recently associated stream, Attention controlled.
[0050]
As shown in FIG. 9, the association module 60 is hierarchically positioned above the auditory module 20, the visual module 30, the motor control module 40, and the dialogue module 50 described above. , 40 and 50, the stream layer which is the upper layer of the event layer is configured.
Specifically, the association module 60 synchronizes the asynchronous event 61a from the auditory module 20, the visual module 30, and the motor control module 40, that is, the auditory event 28, the visual event 39, and the motor event 49 into a synchronous event 61b. A circuit 62, a stream generation unit 63 that generates an auditory stream 65, a visual stream 66, and an association stream 67 by associating these synchronization events 61b with each other, an attention control module 64, and a viewer 68 are provided.
[0051]
The synchronization circuit 62 synchronizes the auditory event 28 from the auditory module 20, the visual event 38 from the visual module 30, and the motor event 49 from the motor control module 40 to synchronize the auditory event, the synchronous visual event, and the synchronous motor event. Generate.
At that time, the coordinate system of the auditory event 28 and the visual event 39 is converted into an absolute coordinate system by the synchronous motor event.
[0052]
Here, the delay time from the actual observation of each event to the arrival of the association module 60 via the network 70 is, for example, 40 msec for the auditory event 28, 200 msec for the visual event 39, and 100 m for the motor event 49. This is because the delay in the network 70 is 10 to 200 milliseconds and the arrival period is different.
Therefore, in order to synchronize the events, the auditory event 28, the visual event 39, and the motor event 49 from the auditory module 20, the visual module 30, and the motor control module 40 each have time stamp information indicating the actual observation time. In a short-term memory circuit (not shown), for example, it is temporarily stored for 2 seconds.
[0053]
Then, the synchronization circuit 62 takes out each event stored in the short-term storage circuit by a synchronization process so as to have a delay time of 500 milliseconds compared with the actual observation time in consideration of the delay time described above. As a result, the response time of the synchronization circuit 62 is 500 milliseconds. Further, such a synchronization process is operated at a period of, for example, 100 milliseconds.
Since each event arrives at the association module 60 asynchronously with each other, an event having the same time as the observation time for synchronization is not always present. Therefore, the synchronization process performs linear interpolation for events that occur before and after the observation time for synchronization.
[0054]
Further, as shown in FIG. 11, the stream generation unit 63 reads the auditory event S and the visual event V from the short-term memory circuit M, and generates streams 65, 66, and 67 based on the following points.
1. The auditory event 28 is connected to the nearest auditory stream 65 having a pitch that is equivalent or overtone-related and having a direction within ± 10 degrees, as indicated by the reference symbol Y1. The value within ± 10 degrees is selected in consideration of the accuracy of auditory epipolar geometry.
2. The visual event 39 is connected to the closest visual stream 66 having a common face ID 34 and within the range of 40 cm, as indicated by the symbol Y2. Note that the value within the range of 40 cm is selected on the assumption that a human will not move at a speed of 4 m / s or more.
3. As a result of searching for all the streams, if there is an event for which there is no connectable stream 65, 66, the event 28, 39 constitutes a new stream 65, 66 as indicated by reference numeral Y3. It will be.
4). If there are no events 28 and 39 connected to these streams 65 and 66, the existing streams 65 and 66 continue for a maximum of 500 msec as indicated by reference numeral Y4a. If it continues, it will disappear as indicated by the symbol Y4b.
5). When the state in which the auditory stream 65 and the visual stream 66 are close to each other within ± 10 degrees continues for 500 milliseconds or more in one second, the auditory stream 65 and the visual stream 66 are regarded as originating from the same speaker. Then, as shown by reference numeral Y5, the association stream 67 is generated in association with each other.
6). The association stream 67 is dissociated when the auditory event 28 or visual event 39 is not connected for more than 3 seconds, and only the existing auditory stream 65 or visual stream 66 continues.
7). When the direction difference between the audio stream 65 and the visual stream 66 becomes ± 30 degrees or more for 3 seconds, the association stream 67 is released from the association stream 67 and returns to the individual audio stream 65 and the visual stream 66.
[0055]
Accordingly, the stream generation unit 63 connects the events in consideration of the temporal connection based on the synchronized auditory event and the synchronized visual event from the synchronization circuit 62, thereby obtaining the synchronized auditory event and the synchronized visual event. By connecting the auditory stream 65 and the visual stream 66 of the same speaker, the auditory stream 65 and the visual stream 66 are generated, and the strongly connected auditory stream 65 and the visual stream 66 are related to each other. If the connection between the auditory stream 65 and the visual stream 66 constituting the association stream 67 is weakened, the association is canceled.
As a result, even when the target speaker is moving, if the movement of the speaker is predicted and the angle is within the moving range, the above-described streams 65, 66, and 67 By performing the generation, the movement of the speaker can be predicted and tracked.
[0056]
The attention control module 64 performs attention control for planning the drive motor control of the motor control module 40. At that time, the association stream 67, the auditory stream 65, and the visual stream 66 are referred to with priority. Attention control.
Then, the attention control module 64 plans the operation of the robot 10 based on the state of the auditory stream 65 and the visual stream 66 and the presence or absence of the association stream 67, and if the operation of the drive motor 41 is necessary, the motor control module 40 A motor event as an operation command is transmitted via the network 70.
[0057]
Here, the attention control in the attention control module 64 is based on continuity and trigger, and tries to keep the same state by continuity and to track the most interesting object by trigger.
Therefore, attention control is
1. The presence of the association stream indicates that a person who is directly speaking to the robot 10 still exists or has existed in the near past. It is necessary to track attention with high priority and attention.
2. Since the microphone 16 is non-directional, there is no detection range such as the viewing angle of the camera, and a wide range of auditory information can be obtained. Therefore, the priority of the auditory stream should be higher than the visual stream.
Considering these two points, tracking is performed by selecting a stream to which attention is directed according to the following principle.
1. Give priority to tracking association streams.
2. If there is no association stream, priority is given to tracking the auditory stream.
3. If there is no association stream or auditory stream, priority is given to tracking the visual stream.
In this way, the attention control module 64 performs attention control and plans control of the drive motor 41 of the motor control module 40, generates a motor command 66 based on this planning, and transmits it via the network 70. Transmit to the motor control module 40. As a result, in the motor control module 40, the motor control unit 45 performs PWM control based on the motor command 66, and rotates the drive motor 41 to point the robot 10 in a predetermined direction.
[0058]
The viewer 68 displays each stream generated in this way on the screen of the server, and specifically displays it with a radar chart and a stream chart.
Here, the radar chart shows the state of the stream at that moment, more specifically the viewing angle of the camera and the sound source direction, and the stream chart shows the association stream (thick line shown), auditory stream and visual stream (thin line shown). ing.
[0059]
The humanoid robot 10 according to the embodiment of the present invention is configured as described above, and operates as follows with respect to a target speaker as a party reception robot with reference to FIG.
First, as shown in FIG. 12A, the robot 10 is disposed in front of the entrance of the party venue.
Then, as shown in FIG. 12B, the party participant P approaches the robot 10, but the robot 10 has not yet recognized the participant P. Here, the participant P has talks with the robot 10, for example, "Hello", the robot 10 includes a microphone 16 picking up the sound of the participant P, generate an auditory event 28 hearing module 20 involves a sound source direction Then, the data is transmitted to the association module 60 via the network 70.
[0060]
As a result, the association module 60 generates an auditory stream 29 based on the auditory event 28. At this time, the visual module 30 does not generate the visual event 39 because the participant P is not within the field of view of the camera 15. Therefore, the association module 60 generates the auditory stream 29 based only on the auditory event 28, and the attention control module 64 performs attention control such that the robot 10 is directed toward the participant P using the auditory stream 29 as a trigger. Do.
[0061]
In this way, as shown in FIG. 12C, the robot 10 faces the participant P, and so-called voice tracking is performed. Then, the visual module 30 captures an image of the face of the participant P by the camera 15, generates a visual event 39, searches the face database 38 for the face of the participant P, performs face identification, and results thereof. Are transmitted to the association module 60 via the network 70. If the face of the participant P is not registered in the face database 38, the vision module 30 transmits the fact to the association module 60 via the network 70.
[0062]
At this time, the robot 10 generates the association stream 65 by the auditory event 28 and the visual event 39, and the attention control module 64 does not change the attention control by the association stream 65. Continue to face the direction. Therefore, even if the participant P moves, the robot 10 tracks the participant P by controlling the motor control module 40 by the association stream 65, and the camera 15 of the vision module 30 continues the participant P. Can be taken.
[0063]
Then, the association module 60 gives an input to the voice recognition circuit 55 of the auditory module 20, and the voice recognition circuit 55 gives the voice recognition result to the dialogue control circuit 53. Thereby, the dialogue control circuit 53 performs voice synthesis and utters from the speaker 51. At this time, the voice recognition circuit 55 reduces the sound from the speaker 51 from the acoustic signal from the microphone 16 by the own voice suppression circuit 54, so that the robot 10 ignores its own utterance and more accurately the other party's voice Can be recognized.
[0064]
Here, utterance by voice synthesis differs depending on whether or not the face of the participant P is registered in the face database 38.
If the face of the participant P has been registered in the face database 38, the association module 60, on the basis of the face ID24 from the vision module 30, to control the interaction module 50, "Hello .XXX's by speech synthesis "Are you?"
On the other hand, when the participant P answers “Yes”, the dialogue module 50 recognizes “Yes” by the voice recognition circuit 55 based on the acoustic signal from the microphone 16, and synthesizes the voice by the dialogue control circuit 53. And say "Welcome XXX, please enter the room" from the speaker 51.
[0065]
In addition, when the face of the participant P has not been registered in the face database 38, the association module 60 controls the interaction module 50, can you tell us, "Hello. Your Name by speech synthesis? To the participant P.
On the other hand, when the participant P answers his / her name “XXX”, the dialogue module 50 recognizes “XXX” by the voice recognition circuit 55 based on the acoustic signal from the microphone 16, and interacts. Speech is synthesized by the control circuit 53, and the speaker 51 says "Welcome XXX, please enter the room."
In this way, the robot 10 recognizes the participant P to guide the entrance to the party venue, and uses the face database 38 to input the face image and the name “XXX” of the participant P in the vision module 30. To register.
[0066]
The humanoid robot 10 operates as a companion robot as follows.
In this case, the humanoid robot 10 recognizes a plurality of speakers by hearing and vision based on the auditory event 28 by the auditory module 20, the visual event 39 by the visual module 30, and the association stream 65 by the association module 60. At the same time, one of a plurality of speakers can be tracked, or can be switched to another speaker on the way.
In the case of a companion robot, the robot 10 plays a passive role, that is, only “listens” or “sees the speaker” of the party participant, and does not speak by the dialogue module 50. .
[0067]
The humanoid robot 10 as a companion robot may share the party reception robot and the face database 38, or the party reception robot face database 38 may be transferred or copied. In this case, the humanoid robot 10 as a companion robot can always recognize all party participants by face identification.
[0068]
In this manner, according to the humanoid robot 10 according to the embodiment of the present invention, the association module 60 is based on the auditory event and the visual event from the auditory module 20 and the visual module 30, and the direction information and the individual speakers. From the identification, these events are taken into account and the auditory stream, visual stream, and association stream are generated to recognize multiple target speakers. Multiple speakers in real time, for example, even if the speaker moves and becomes “invisible”, and even if the speaker does not speak and becomes “inaudible” Can be tracked audibly and / or visually.
[0069]
In the embodiment described above, the humanoid robot 10 is configured to have 4 DOF (degree of freedom). However, the present invention is not limited to this, and the robot audition system according to the present invention is applied to a robot configured to perform an arbitrary operation. It can also be incorporated. In the above-described embodiment, the case where the robot audio-visual system according to the present invention is incorporated in the humanoid robot 10 has been described. Obviously, it can also be incorporated.
[0070]
【The invention's effect】
As described above, according to the present invention, the auditory module obtains the direction of each sound source by performing pitch extraction using the harmonic structure from the sound from the external object collected by the microphone. The sound source of the speaker is identified, and the auditory event is extracted.
In addition, the visual module identifies each speaker from the face identification and localization of each speaker by pattern recognition from the image captured by the camera, and extracts a visual event of each speaker.
Further, the motor control module extracts the motor event by detecting the direction of the robot based on the rotational position of the drive motor that rotates the robot in the horizontal direction.
[0071]
Here, the association module generates an auditory stream and a visual stream of each speaker with reference to the direction information and speaker identification based on the auditory event, the visual event, and the motor event extracted in this manner. Further, an association stream is generated by associating these streams, and the attention control module performs attention control based on these streams, thereby planning driving motor control of the motor control module.
In this case, the association module determines the direction of each speaker based on the sound source localization of the auditory event and the face localization of the visual event, that is, the auditory and visual direction information, and generates an auditory stream, a visual stream, and an association stream. Will do.
[0072]
Then, the attention control module controls the drive motor of the motor control module based on this planning to direct the direction of the robot toward the target speaker. As a result, when the robot faces the target speaker, the auditory module can accurately collect and localize the speaker's voice with a microphone in the front direction with high sensitivity. The module can better capture the image of the speaker by the camera.
[0073]
Therefore, by connecting the auditory module, the visual module, and the motor control module with the association module and the attention control module, the direction information, speaker identification, and temporal flow of the auditory event and the visual event are referred to. Tracking, the ambiguities of the robot's auditory and visual senses complement each other, improving the so-called robustness and ensuring that each speaker is perceived reliably, even for multiple speakers. can do.
Also, even when either an auditory event or a visual event is missing, for example, the association module can perceive the target speaker based only on the remaining visual event or auditory event, so that it is accurate. The motor control module can be controlled by grasping the direction of the target.
As a result, according to the present invention, an extremely excellent robot audio-visual system that integrates visual and auditory information on a target to reliably track the target is provided.
[Brief description of the drawings]
FIG. 1 is a front view showing the appearance of a humanoid robot incorporating a first embodiment of a robot hearing apparatus according to the present invention.
FIG. 2 is a side view of the humanoid robot of FIG.
3 is a schematic enlarged view showing a configuration of a head in the humanoid robot of FIG. 1. FIG.
4 is a block diagram showing an electrical configuration of a robot audiovisual system in the humanoid robot of FIG. 1. FIG.
5 is a block diagram of an electrical configuration showing an enlarged view of the auditory module of block 1 in FIG. 4; FIG.
6 is a block diagram of an electrical configuration showing an enlarged view of the visual module of block 2 in FIG. 4. FIG.
7 is a block diagram of an electrical configuration showing an enlarged motor control module of block 3 in FIG. 4;
FIG. 8 is a block diagram of an electrical configuration showing an enlargement of the dialogue module of block 4 in FIG. 4;
9 is a block diagram of an electrical configuration showing an enlarged view of the association module of block 5 in FIG. 4. FIG.
10 is a diagram showing peak extraction, sound source localization, and sound source separation by the auditory module in the robot audio-visual system of FIG. 4. FIG.
11 is a diagram showing stream generation by the association module in the robot audiovisual system of FIG. 4; FIG.
12 is a diagram showing an operation example as a party reception robot in the robot audiovisual system of FIG. 4;
[Explanation of symbols]
10 Humanoid robot
11 base
12 Torso
13 head
13a Connecting member
14 Exterior
15 Camera (Robot vision)
16, 16a, 16b Microphone (robot hearing)
17 Robot audio-visual system
20 Hearing module
30 Vision Module
40 Motor control module
50 Dialogue module
60 Association Module
64 Attention control module
70 network

Claims (5)

外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、
ロボットの前方を撮像するカメラを含む視覚モジュールと、
ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、
前記聴覚モジュール,視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、
アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えているロボット視聴覚システムであって、
前記聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出,音源の分離及び定位から少なくとも一人の話者の方向を決定して、その聴覚イベントを抽出し、
前記視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から各話者の音源を同定して、話者の視覚イベントを抽出し、
前記モータ制御モジュールが、駆動モータの回転位置に基づいてモータイベントを抽出することにより、
前記アソシエーションモジュールが、聴覚イベント,視覚イベント及びモータイベントから、聴覚イベントの音源定位及び視覚イベントの顔定位の方向情報に基づいて、各話者の方向を決定することにより、聴覚ストリーム及び視覚ストリームを生成し、さらに聴覚ストリームと視覚ストリームとを関連付けてアソシエーションストリームを生成して、
前記アテンション制御モジュールが、聴覚ストリーム,視覚ストリーム,アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうことを特徴とする、ロボット視聴覚システム。
An auditory module including at least a pair of microphones for collecting external sounds;
A vision module including a camera that images the front of the robot;
A motor control module including a drive motor for rotating the robot in a horizontal direction;
An association module that integrates events from the auditory module, vision module and motor control module to generate a stream;
An attention control module that performs attention control based on the stream generated by the association module;
The auditory module determines the direction of at least one speaker from pitch extraction, sound source separation and localization based on an acoustic signal from a microphone, and extracts the auditory event;
The visual module identifies each speaker's sound source from each speaker's face identification and localization based on the image captured by the camera, and extracts the speaker 's visual event;
The motor control module extracts a motor event based on the rotational position of the drive motor,
The association module determines the direction of each speaker based on the direction information of the sound source localization of the auditory event and the face localization of the visual event from the auditory event, the visual event, and the motor event. Generate an association stream by associating the auditory stream with the visual stream ,
The robot audio-visual system, wherein the attention control module performs attention control for planning driving motor control of the motor control module based on an auditory stream, a visual stream, and an association stream .
外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、
ロボットの前方を撮像するカメラを含む視覚モジュールと、
ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、
前記聴覚モジュール,視覚モジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、
アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、
を備えている、人型または動物型のロボットの視聴覚システムであって、
前記聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出,音源の分離及び定位から、少なくとも一人の話者の方向を決定して、その聴覚イベントを抽出し、
前記視覚モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から、各話者を同定して、話者の視覚イベントを抽出し、
前記モータ制御モジュールが、駆動モータの回転位置に基づいて、モータイベントを抽出することにより、
前記アソシエーションモジュールが、聴覚イベント,視覚イベント及びモータイベントから、聴覚イベントの音源定位及び視覚イベントの顔定位の方向情報に基づいて、各話者の方向を決定することにより、聴覚ストリーム及び視覚ストリームを生成し、さらに聴覚ストリームと視覚ストリームとを関連付けてアソシエーションストリームを生成して、
前記アテンション制御モジュールが、聴覚ストリーム,視覚ストリーム,アソシエーションストリームに基づいてモータ制御モジュールの駆動モータ制御のプランニングのためのアテンション制御を行なうことを特徴とする、ロボット視聴覚システム。
An auditory module including at least a pair of microphones for collecting external sounds;
A vision module including a camera that images the front of the robot;
A motor control module including a drive motor for rotating the robot in a horizontal direction;
An association module that integrates events from the auditory module, vision module and motor control module to generate a stream;
An attention control module for performing attention control based on the stream generated by the association module;
A human-type or animal-type audio-visual system comprising:
The auditory module determines the direction of at least one speaker from pitch extraction, sound source separation and localization based on an acoustic signal from a microphone, and extracts the auditory event;
The visual module identifies each speaker based on each speaker's face identification and localization based on the image captured by the camera, and extracts the speaker 's visual event;
The motor control module extracts a motor event based on the rotational position of the drive motor,
The association module determines the direction of each speaker based on the direction information of the sound source localization of the auditory event and the face localization of the visual event from the auditory event, the visual event, and the motor event. Generate an association stream by associating the auditory stream with the visual stream ,
The robot audio-visual system, wherein the attention control module performs attention control for planning driving motor control of the motor control module based on an auditory stream, a visual stream, and an association stream .
前記アソシエーションモジュールが、聴覚ストリーム及び視覚ストリームを生成する際に、非同期に生成される聴覚イベント,視覚イベント及びモータイベントを相互に同期することを特徴とする、請求項1又は2に記載のロボット視聴覚システム。  3. The robot audiovisual system according to claim 1, wherein when the association module generates an auditory stream and a visual stream, the auditory event, the visual event, and the motor event generated asynchronously are mutually synchronized. system. 前記聴覚モジュールが、音響信号から音声のMFCCを検出して、各話者を同定し、
前記アソシエーションモジュールが、聴覚イベントの話者同定及び視覚イベントの話者同定に基づいて当該話者を特定することにより、聴覚イベント及び視覚イベントを接続すべき聴覚ストリーム及び視覚ストリームを選定することを特徴とする、請求項1から3の何れかに記載のロボット視聴覚システム。
The auditory module detects speech MFCC from the acoustic signal to identify each speaker;
The association module selects an audio stream and a visual stream to which the audio event and the visual event should be connected by identifying the speaker based on the speaker identification of the audio event and the speaker identification of the visual event. The robot audio-visual system according to any one of claims 1 to 3.
前記アソシエーションモジュールが、複数のストリームが互いに接近する場合に、聴覚イベント及び視覚イベントの時間的流れを参照して、当該聴覚イベント及び視覚イベントを接続すべき聴覚ストリーム及び視覚ストリームを選定することを特徴とする、請求項1から4の何れかに記載のロボット視聴覚システム。  The association module selects an audio stream and a visual stream to which the audio event and the visual event are connected with reference to a temporal flow of the audio event and the visual event when a plurality of streams approach each other. The robot audio-visual system according to any one of claims 1 to 4.
JP2001067847A 2001-03-09 2001-03-09 Robot audio-visual system Expired - Fee Related JP3843741B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001067847A JP3843741B2 (en) 2001-03-09 2001-03-09 Robot audio-visual system
PCT/JP2002/002204 WO2002072317A1 (en) 2001-03-09 2002-03-08 Robot audiovisual system
US10/468,396 US6967455B2 (en) 2001-03-09 2002-03-08 Robot audiovisual system
EP02702847A EP1375084A4 (en) 2001-03-09 2002-03-08 Robot audiovisual system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001067847A JP3843741B2 (en) 2001-03-09 2001-03-09 Robot audio-visual system

Publications (2)

Publication Number Publication Date
JP2002264051A JP2002264051A (en) 2002-09-18
JP3843741B2 true JP3843741B2 (en) 2006-11-08

Family

ID=18926122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001067847A Expired - Fee Related JP3843741B2 (en) 2001-03-09 2001-03-09 Robot audio-visual system

Country Status (1)

Country Link
JP (1) JP3843741B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3919726B2 (en) * 2003-10-02 2007-05-30 株式会社東芝 Learning apparatus and method
EP1691344B1 (en) * 2003-11-12 2009-06-24 HONDA MOTOR CO., Ltd. Speech recognition system
JP4675811B2 (en) * 2006-03-29 2011-04-27 株式会社東芝 Position detection device, autonomous mobile device, position detection method, and position detection program
JP2009031951A (en) 2007-07-25 2009-02-12 Sony Corp Information processor, information processing method, and computer program
JP4462339B2 (en) * 2007-12-07 2010-05-12 ソニー株式会社 Information processing apparatus, information processing method, and computer program
JP2011186351A (en) * 2010-03-11 2011-09-22 Sony Corp Information processor, information processing method, and program
JP6495405B1 (en) * 2017-09-29 2019-04-03 株式会社バンダイ Robot equipment
CN109227535A (en) * 2018-08-15 2019-01-18 北京云迹科技有限公司 Voice calls robot

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148184A (en) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd Speech recognizing device
KR100343223B1 (en) * 1999-12-07 2002-07-10 윤종용 Apparatus for eye and face detection and method thereof
JP2001188779A (en) * 1999-12-28 2001-07-10 Sony Corp Device and method for processing information and recording medium
JP2001212780A (en) * 2000-01-31 2001-08-07 Sony Corp Behavior controller, behavior control method, and recording medium

Also Published As

Publication number Publication date
JP2002264051A (en) 2002-09-18

Similar Documents

Publication Publication Date Title
US6967455B2 (en) Robot audiovisual system
JP3627058B2 (en) Robot audio-visual system
Okuno et al. Human-robot interaction through real-time auditory and visual multiple-talker tracking
Nakadai et al. Real-time auditory and visual multiple-object tracking for humanoids
Nakadai et al. Active audition for humanoid
JP3780516B2 (en) Robot hearing device and robot hearing system
JP3632099B2 (en) Robot audio-visual system
EP1715717B1 (en) Moving object equipped with ultra-directional speaker
Okuno et al. Social interaction of humanoid robot based on audio-visual tracking
Aarabi et al. Robust sound localization using multi-source audiovisual information fusion
Nakadai et al. Real-time speaker localization and speech separation by audio-visual integration
JP3843740B2 (en) Robot audio-visual system
JP3843741B2 (en) Robot audio-visual system
JP3843743B2 (en) Robot audio-visual system
Nakadai et al. Real-time tracking of multiple sound sources by integration of in-room and robot-embedded microphone arrays
JP3843742B2 (en) Robot audio-visual system
Okuno et al. Sound and visual tracking for humanoid robot
Okuno et al. Human–robot non-verbal interaction empowered by real-time auditory and visual multiple-talker tracking
Okuno et al. Realizing audio-visually triggered ELIZA-like non-verbal behaviors
Okuno et al. Realizing personality in audio-visually triggered non-verbal behaviors
CN110730378A (en) Information processing method and system
Okuno et al. Real-time sound source localization and separation based on active audio-visual integration
Nakadai et al. Humanoid active audition system
Okuno et al. Sound and visual tracking for humanoid robot
Okuno et al. Design and implementation of personality of humanoids in human humanoid non-verbal interaction

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20031031

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20031210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060807

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090825

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100825

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110825

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110825

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120825

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130825

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees