JP2006167833A

JP2006167833A - ロボット

Info

Publication number: JP2006167833A
Application number: JP2004361236A
Authority: JP
Inventors: Yuichi Yoshida; 雄一吉田; Yasuhiro Yamazaki; 安弘山崎; Jun Hayashi; 順林
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-12-14
Filing date: 2004-12-14
Publication date: 2006-06-29

Abstract

【課題】話者の呼びかけ等に対する音源定位を全周にわたり高精度で行うことのできるロボットを提供する。
【解決手段】頭部３は、樹脂等を素材する頭部筐体３１を外殻としており、頭部筐体３１内の前部に設置された左右一対のカメラ３２，３３の他、頭部筐体３１内の前部上方に設置された前部上マイク３４と、前部上マイク３４に対して左側に設置された左マイク３５と、前部上マイク３４に対して右側に設置された右マイク３６と、頭部筐体３１内の前部下方に設置された前部下マイク３７と、頭部筐体３１内の後部に設置された後部マイク３８とを備えている。
【選択図】図４

Description

本発明は、対話型のロボットに係り、詳しくは円滑な対話を実現する技術に関する。

近年、塗装作業や組立作業に供される産業用ロボットに加え、種々の人間型ロボットが開発されている。人間型ロボットは、二足による自立歩行や腕を用いての各種作業等を行うものが一般的であるが、胸部に設置されたマイクとスピーカとによって人間と対話を行うものも存在する（特許文献１参照）。この種の人間型ロボットには、頭部に設置された一対の外部マイクと頭部筐体内に設置された内部マイクとを用い、内部の駆動機構が発生するノイズを除去するもの（特許文献２参照）や、周囲の人間（話者）から呼びかけられた場合、頭部に設置されたマイクによって話者の方向を認識して振り向いたり、更にカメラによって話者を見分けたりするもの（特許文献３参照）も存在する。
特開２００２−１５４０７９号公報（段落００１５〜００１８、図３）特開２００１−１５７９８８号公報（段落００２０〜００２５、図３）特開２００３−６２７７７号公報（段落００２０〜００２２、図１）

上述の人間型ロボットでは、胸部に設置された一つのマイク（特許文献１）や頭部に設置された左右一対のマイク（特許文献２，３）によって話者の音声を認識するため、前後方向および上下方向での話者の方向判定（音源定位）を高精度で行うことができない。そのため、話者に後方から呼びかけられた場合や、背の低い小児から呼びかけられた場合に等には、話者の方向を誤認識してしまい、円滑な対話が行えなくなることがあった。

本発明は、このような状況に鑑みなされたもので、話者の呼びかけ等に対する音源定位を全周にわたり高精度で行うことのできるロボットを提供することを目的とする。

上記課題を解決すべく、請求項１の発明に係るロボットは、胴体に対して鉛直軸周りに所定の角度範囲で回動可能な頭部筐体と、当該頭部筐体内に設置された音声検出用の複数のマイクと、当該頭部筐体に設置された前方画像撮像用のカメラとを有する頭部を備え、前記複数のマイクの検出結果に基づいて話者の音声認識と方向認識とを行うロボットであって、前記複数のマイクが、前記頭部筐体の前部上方に設置された前部上マイクと、前記前部上マイクに対して左側に設置された左マイクと、前記前部上マイクに対して右側に設置された右マイクと、前記頭部筐体の前部下方に設置された前部下マイクと、前記頭部筐体の後部に設置された後部マイクとを含むことを特徴とするロボット。

また、請求項２の発明に係るロボットは、請求項１に記載のロボットにおいて、前部左マイクが前記前部上マイクに対して左側にθｍの設置角度をもって設置され、前部右マイクが前記前部上マイクに対して右側にθｍの設置角度をもって設置され、前記カメラの視野角をθｃ、前記頭部筐体の鉛直軸周りでの最大回動角度をθｚとしたとき、２θｍ＞θｃ、かつ、θｍ＋θｚ＞π／２であることを特徴とする。

また、請求項３の発明に係るロボットは、請求項１または請求項２に記載のロボットにおいて、前記複数のマイクのうち、前記話者に最も近い方向に位置するものにより前記音声認識を行うことを特徴とする。

また、請求項４の発明に係るロボットは、請求項１から請求項３のいずれか一項に記載のロボットにおいて、前記話者の方向を認識した後、前記頭部を当該話者の方向に向けることを特徴とする。

請求項１の発明に係るロボットによれば、話者からの呼びかけがあった場合、例えば、左マイクから入力した音声信号と右マイクから入力した音声信号との強弱および到達時間差を比較することにより左右方向を判定し、前部上マイクから入力した音声信号と後部マイクから入力した音声信号との強弱および到達時間差を比較することにより前後方向を判定し、前部上マイクから入力した音声信号と前部下マイクから入力した音声信号との強弱および到達時間差を比較することにより上下方向を判定することができる。また、請求項２の発明に係るロボットによれば、ロボットは、真横に存在する話者の姿をカメラでとらえながら、左右マイクでその話者と対話することができる。また、請求項３の発明に係るロボットによれば、音声信号の最も強いマイクを用いるために、音声認識を正確に行うことができる。また、請求項４の発明に係るロボットによれば、呼びかけに応じてロボットが振り向くことになるため、話者は違和感をもたずに対話を行うことができる。

以下、図面を参照して、本発明のマイク配置を適用した人間型ロボットの一実施形態を説明する。図１は実施形態に係る人間型ロボットの正面図であり、図２は実施形態に係る人間型ロボットの側面図であり、図３は実施形態に係るロボットの頭部を示す斜視図であり、図４は実施形態に係るロボットの頭部を示す側面図であり、図５は実施形態に係るロボットの頭部を示す平面図である。

《実施形態の構成》
図１，図２に示すように、実施形態に係る人間型ロボット（以下、単にロボットと記す）１は、胴体２、頭部３、左右の腕４Ｌ，４Ｒ、左右の脚５Ｌ，５Ｒを備えるとともに、胴体２の背部に電装品ボックス６を背負っている。腕４Ｌ（４Ｒ）は、上腕部７Ｌ（７Ｒ）と、下腕部８Ｌ（８Ｒ）と、手部９Ｌ（９Ｒ）とから構成されている。また、脚５Ｌ（５Ｒ）は、腿部１０Ｌ（１０Ｒ）と、脛部１１Ｌ（１１Ｒ）と、足部１２Ｌ（１２Ｒ）とから構成されている。なお、本実施形態のロボット１は、その身長が人間の成人の身長より低く設定されている。

胴体２と頭部３は首関節２１によって連結されている。頭部３は、左右方向にそれぞれ所定の最大回頭角度θｚ（本実施形態の場合、６０°）をもって、胴体２に対して回動する。また、上腕部７Ｌ（７Ｒ）は肩関節２２によって胴体２に連結され、上腕部７Ｌ（７Ｒ）と８Ｌ（８Ｒ）とは肘関節２３によって連結され、下腕部８Ｌ（８Ｒ）と手部９Ｌ（９Ｒ）とは手関節２４によって連結されている。そして、上腕部７Ｌ（７Ｒ）には、その長手方向中間部に上腕関節２５が設けられており、上半分に対して下半分を回転させることができるようになっている。一方、腿部１０Ｌ（１０Ｒ）は股関節２６によって胴体２に連結され、腿部１０Ｌ（１０Ｒ）と脛部１１Ｌ（１１Ｒ）とは膝関節２７によって連結され、脛部１１Ｌ（１１Ｒ）と足部１２Ｌ（１２Ｒ）とは足関節２８によって連結されている。なお、図１，図２において、各関節２２〜２８はその中心部を破線の円で示してある。

図３〜図５に示すように、頭部３は、樹脂等を素材する頭部筐体３１を外殻としており、頭部筐体３１内の前部に設置された左右一対のカメラ（ＣＣＤカメラ）３２，３３の他、頭部筐体３１内の前部上方に設置された前部上マイク３４と、前部上マイク３４に対して左側に設置された左マイク３５と、前部上マイク３４に対して右側に設置された右マイク３６と、頭部筐体３１内の前部下方に設置された前部下マイク３７と、頭部筐体３１内の後部に設置された後部マイク３８とを備えている。

図５に示すように、両カメラ３２，３３は、左右方向に所定の視野角θｃ（通常は６０°〜８０°、本実施形態では７５°とした）をもって前方の対象物を撮像し、胴体２内に設けられた図示しない画像信号処理回路に画像信号を出力する。

各マイク３４〜３８は、周囲の音声を集音し、胴体２内に設けられた図示しない音声信号処理回路に音声信号を出力する。前部上マイク３４は斜め上向きに設置され、前部下マイク３７は下向きに設置されている。また、図５に示すように、左マイク３５と右マイク３６とは、前部上マイク３４に対してそれぞれ所定の設置角θｍ（通常は４０°〜５０°、本実施形態では４５°とした）をもっている。なお、各マイク３４〜３８は、頭部筐体３１内の振動や騒音からの遮断を図るべく、ゲル素材を介して図示しないケーシングに封入されている

《実施形態の作用》
図６に示すように、前方に立っている話者４１からロボット１に呼びかけが行われた場合、頭部筐体３１内の各マイク３４〜３８は、話者の音声を集音して音声信号処理回路に音声信号を出力する。ロボット１は、音声信号処理回路により各マイク３４〜３８からの音声信号（音圧レベル）の強弱および到達時間差を比較し、話者４１が前方に存在することを判定する。しかる後、音声信号処理回路は、前部上マイク３４からの音声信号のみを用いて音声認識を行い、両カメラ３２，３３の視野にいる話者４１と前部上マイク３４と図示しないスピーカ等を用いて対話を行う。なお、話者４１からの呼びかけは、ロボット１を中心とする所定半径（例えば、５ｍ）の円内から行われ、話者４１との対話はロボット１を中心とする前方１８０°の所定半径（例えば、２ｍ）の半円内で行われる。

また、図７に示すように、ロボット１は、斜め前方に立っている話者４１からロボット１に呼びかけが行われ、音声信号の強弱および到達時間差により話者４１が斜め前方に存在することを判定すると、話者４１の方に振り向くように頭部３を回転させた後に話者４１と対話を行う。これにより、自分の呼びかけにロボット１が反応したことを話者４１が認識できるため、話者４１とロボット１との間で円滑な対話が行われる。なお、この場合においても、ロボット１は、前部上マイク３４からの音声信号のみを用いて音声認識を行う。

また、図８に示すように、ロボット１は、右真横に立っている話者４１からロボット１に呼びかけが行われ、音声信号の強弱および到達時間差により話者４１が真横に存在することを判定すると、最大回頭角度θｚをもって頭部３を回転させて話者４１と対話を行う。この場合も、話者４１が自分の呼びかけにロボット１が反応したことを認識する一方で、ロボット１は両カメラ３２，３３の視野の右端に話者４１をとらえることができる。ロボット１は、話者４１に最も近い右マイク３６からの音声信号のみを用いて音声認識を行う。なお、後方に立っている話者４１からロボット１に呼びかけが行われた場合、ロボット１は、音声信号の強弱および到達時間差により話者４１が後方に存在することを判定すると、前に回って欲しいとの要望を話者４１に伝える、もしくは、脚５Ｌ，５Ｒを用いて話者４１の方に振り返る。

ロボット１は、両カメラ３２，３３の視野に存在する話者４１との間で対話を行うことが望ましく、そのためには、設置角θｍと視野角θｃとが２θｍ＞θｃの関係を満たせばよい。また、ロボット１が真横に存在する話者４１と対話するためには、設置角θｍと最大回頭角度θｚとの和（θｍ＋θｚ）を１８０°より大きくする必要がある。

以上で具体的実施形態の説明を終えるが、本発明は前記実施形態に限定されることなく幅広く変形実施することができる。例えば、上記実施形態ではロボットの頭部筐体に設置されるマイクを５個としたが、６個以上であってもよい。その他、ロボット各部の構成や形状等についても本発明の趣旨を逸脱しない範囲で適宜変更可能である。

実施形態に係る人間型ロボットの正面図である。実施形態に係る人間型ロボットの側面図である。実施形態に係るロボットの頭部を示す斜視図である。実施形態に係るロボットの頭部を示す側面図である。実施形態に係るロボットの頭部を示す平面図である。実施形態の作用を説明するための図である。実施形態の作用を説明するための図である。実施形態の作用を説明するための図である。

符号の説明

１ロボット
２胴体
３頭部
３１頭部筐体
３２，３３カメラ
３４前部上マイク
３５左マイク
３６右マイク
３７前部下マイク
３８後部マイク
４１話者
１８０前方

Claims

胴体に対して鉛直軸周りに所定の角度範囲で回動可能な頭部筐体と、当該頭部筐体内に設置された音声検出用の複数のマイクと、当該頭部筐体に設置された前方画像撮像用のカメラとを有する頭部を備え、前記複数のマイクの検出結果に基づいて話者の音声認識と方向認識とを行うロボットであって、
前記複数のマイクが、
前記頭部筐体の前部上方に設置された前部上マイクと、
前記前部上マイクに対して左側に設置された左マイクと、
前記前部上マイクに対して右側に設置された右マイクと、
前記頭部筐体の前部下方に設置された前部下マイクと、
前記頭部筐体の後部に設置された後部マイクと
を含むことを特徴とするロボット。
前部左マイクが前記前部上マイクに対して左側にθｍの設置角度をもって設置され、
前部右マイクが前記前部上マイクに対して右側にθｍの設置角度をもって設置され、
前記カメラの視野角をθｃ、前記頭部筐体の鉛直軸周りでの最大回動角度をθｚとしたとき、２θｍ＞θｃ、かつ、θｍ＋θｚ＞π／２であることを特徴とする、請求項１に記載のロボット。
前記複数のマイクのうち、前記話者に最も近い方向に位置するものにより前記音声認識を行うことを特徴とする、請求項１または請求項２に記載のロボット。
前記話者の方向を認識した後、前記頭部を当該話者の方向に向けることを特徴とする、請求項１から請求項３のいずれか一項に記載のロボット。