JP6494062B2

JP6494062B2 - 音源の方向を認識する自律行動型ロボット

Info

Publication number: JP6494062B2
Application number: JP2018537177A
Authority: JP
Inventors: 要林
Original assignee: Groove X Inc
Current assignee: Groove X Inc
Priority date: 2016-08-29
Filing date: 2017-08-23
Publication date: 2019-04-03
Anticipated expiration: 2037-08-23
Also published as: CN109644303B; US20190184567A1; GB201902507D0; CN109644303A; GB2567600A; WO2018043235A1; GB2567600B; JP2019162714A; JPWO2018043235A1; JP7320239B2; DE112017004363T5; US11376740B2

Description

本発明は、内部状態または外部環境に応じて自律的に行動選択するロボット、に関する。

聴覚は、生物の基本感覚の一つである。聴覚において、音の３要素、すなわち、大きさ（音圧）、音色（周波数）、高さ（波形）を識別することによって音の種類を認識するだけでなく、音源方向を特定することも重要である。

マイクロフォンアレイは、複数のマイクロフォンを搭載することにより、音源方向を特定可能なデバイスである。ある音源から音声が発生したとき、複数のマイクロフォンそれぞれが集音する。マイクロフォンの設置位置が異なるため、各マイクロフォンに対する音の到達タイミングに若干のばらつきが生じる。このタイミングのばらつき具合から、音源方向を特定する。ロボットの「耳」としてマイクロフォンアレイは期待されている。

特開２００４−３２７８２号公報

しかし、マイクロフォンアレイは、音源から直接届く音と、壁などに反射して届く音を区別しにくい。人がロボットに話しかけたとき、声の一部は壁に反射してロボットに届くことがあるため、ロボットは複数方向に音源が存在するかのように錯覚してしまう可能性がある。

本発明は上記課題認識に基づいて完成された発明であり、その主たる目的は、ロボットが音源方向をより正確に特定するための技術、を提供することにある。

本発明のある態様における自律行動型ロボットは、ロボットのモーションを選択する動作制御部と、動作制御部により選択されたモーションを実行する駆動機構と、音源方向を検出するマイクロフォンアレイと、マイクロフォンアレイにより検出された音源方向の画像において所定の特徴を有する発音体が検出されたとき、発音体を音源として特定する認識部と、を備える。
認識部は、マイクロフォンアレイにより複数の音源方向が検出されたとき、それぞれの音源方向が撮影された画像から発音体をサーチする。

本発明の別の態様における自律行動型ロボットは、ロボットのモーションを選択する動作制御部と、動作制御部により選択されたモーションを実行する駆動機構と、音源の方向を検出するマイクロフォンアレイと、空間の温度分布を検出する温度センサと、マイクロフォンアレイにより検出された音源方向において発熱体が検出されたとき、発熱体を音源として特定する認識部と、を備える。
認識部は、マイクロフォンアレイにより複数の音源方向が検出されたとき、それぞれの音源方向の温度分布に基づいて発熱体をサーチする。

本発明の別の態様における自律行動型ロボットは、ロボットのモーションを選択する動作制御部と、動作制御部により選択されたモーションを実行する駆動機構と、周囲の音を検出するマイクロフォンと、周囲を継続的に撮影することにより、所定の特徴を有する物体をトラッキングする認識部と、を備える。
認識部は、マイクロフォンにより検出された音の特徴に対応づけられる物体を特定し、動作制御部は、物体の方向にロボットの頭部を向けるモーションを選択する。

本発明のある態様における行動制御プログラムは、マイクロフォンアレイにより音源方向を検出する機能と、検出された音源方向を撮影し画像を取得する機能と、画像において所定の特徴を有する発音体が検出されたとき、発音体を音源として特定する機能と、をコンピュータに発揮させる。

本発明の別の態様における行動制御プログラムは、マイクロフォンアレイにより音源方向を検出する機能と、マイクロフォンアレイにより特定される音源方向において発熱体が検出されたとき、発熱体を音源として特定する機能と、特定された音源の方向にロボットの頭部を向けさせる機能と、をコンピュータに発揮させる。

本発明の別の態様における行動制御プログラムは、周辺を継続的に撮影することにより、所定の特徴を有する物体をトラッキングする機能と、音を検出する機能と、トラッキング対象の１以上の物体のうち、検出された音の特徴に対応づけられた物体を音源として特定する機能と、をコンピュータに発揮させる。

本発明によれば、ロボットが音源方向を正確に特定しやすくなる。

ロボットの正面外観図である。ロボットの側面外観図である。ロボットの構造を概略的に表す断面図である。ロボットシステムの構成図である。感情マップの概念図である。ロボットのハードウェア構成図である。ロボットシステムの機能ブロック図である。マイクロフォンアレイの計測原理を示す模式図である。本実施形態における音源特定方法を示す模式図である。周波数帯域と音の種類の関係を示す模式図である。本実施形態において、音を検出したときの処理過程を示すフローチャートである。音を検出したときの処理過程を示すフローチャート（変形例１）である。音を検出したときの処理過程を示すフローチャート（変形例２）である。眼画像の外観図である。

図１（ａ）は、ロボット１００の正面外観図である。図１（ｂ）は、ロボット１００の側面外観図である。
本実施形態におけるロボット１００は、外部環境および内部状態に基づいて行動や仕草（ジェスチャー）を決定する自律行動型のロボットである。外部環境は、カメラやサーモセンサなど各種のセンサにより認識される。内部状態はロボット１００の感情を表現するさまざまなパラメータとして定量化される。これらについては後述する。

ロボット１００は、屋内行動が前提とされており、たとえば、オーナー家庭の家屋内を行動範囲とする。以下、ロボット１００に関わる人間を「ユーザ」とよび、ロボット１００が所属する家庭の構成員となるユーザのことを「オーナー」とよぶ。

ロボット１００のボディ１０４は、全体的に丸みを帯びた形状を有し、ウレタンやゴム、樹脂、繊維などやわらかく弾力性のある素材により形成された外皮を含む。ロボット１００に服を着せてもよい。丸くてやわらかく、手触りのよいボディ１０４とすることで、ロボット１００はユーザに安心感とともに心地よい触感を提供する。

ロボット１００は、総重量が１５キログラム以下、好ましくは１０キログラム以下、更に好ましくは、５キログラム以下である。生後１３ヶ月までに、赤ちゃんの過半数は一人歩きを始める。生後１３ヶ月の赤ちゃんの平均体重は、男児が９キログラム強、女児が９キログラム弱である。このため、ロボット１００の総重量が１０キログラム以下であれば、ユーザは一人歩きできない赤ちゃんを抱きかかえるのとほぼ同等の労力でロボット１００を抱きかかえることができる。生後２ヶ月未満の赤ちゃんの平均体重は男女ともに５キログラム未満である。したがって、ロボット１００の総重量が５キログラム以下であれば、ユーザは乳児を抱っこするのと同等の労力でロボット１００を抱っこできる。

適度な重さと丸み、柔らかさ、手触りのよさ、といった諸属性により、ユーザがロボット１００を抱きかかえやすく、かつ、抱きかかえたくなるという効果が実現される。同様の理由から、ロボット１００の身長は１．２メートル以下、好ましくは、０．７メートル以下であることが望ましい。本実施形態におけるロボット１００にとって、抱きかかえることができるというのは重要なコンセプトである。

ロボット１００は、３輪走行するための３つの車輪を備える。図示のように、一対の前輪１０２（左輪１０２ａ，右輪１０２ｂ）と、一つの後輪１０３を含む。前輪１０２が駆動輪であり、後輪１０３が従動輪である。前輪１０２は、操舵機構を有しないが、回転速度や回転方向を個別に制御可能とされている。後輪１０３は、いわゆるオムニホイールからなり、ロボット１００を前後左右へ移動させるために回転自在となっている。左輪１０２ａよりも右輪１０２ｂの回転数を大きくすることで、ロボット１００は左折したり、左回りに回転できる。右輪１０２ｂよりも左輪１０２ａの回転数を大きくすることで、ロボット１００は右折したり、右回りに回転できる。

前輪１０２および後輪１０３は、駆動機構（回動機構、リンク機構）によりボディ１０４に完全収納できる。走行時においても各車輪の大部分はボディ１０４に隠れているが、各車輪がボディ１０４に完全収納されるとロボット１００は移動不可能な状態となる。すなわち、車輪の収納動作にともなってボディ１０４が降下し、床面Ｆに着座する。この着座状態においては、ボディ１０４の底部に形成された平坦状の着座面１０８（接地底面）が床面Ｆに当接する。

ロボット１００は、２つの手１０６を有する。手１０６には、モノを把持する機能はない。手１０６は上げる、振る、振動するなど簡単な動作が可能である。２つの手１０６も個別制御可能である。

目１１０には高解像度カメラ４０２が内蔵される。目１１０は、液晶素子または有機ＥＬ素子による画像表示も可能である。ロボット１００は、スピーカーを内蔵し、簡単な音声を発することもできる。
ロボット１００の頭部にはツノ１１２が取り付けられる。上述のようにロボット１００は軽量であるため、ユーザはツノ１１２をつかむことでロボット１００を持ち上げることも可能である。

本実施形態におけるロボット１００は、ツノ１１２に全天球カメラ４００（第１のカメラ）が内蔵される。全天球カメラ４００は、魚眼レンズにより上下左右全方位（３６０度：特に、ロボット１００の上方略全域）を一度に撮影できる（図８参照）。目１１０に内蔵される高解像度カメラ４０２（第２のカメラ）は、ロボット１００の正面方向のみを撮影できる。全天球カメラ４００は撮影範囲が広いが高解像度カメラ４０２よりは解像度が低い。

このほか、ロボット１００は、周辺温度分布を画像化する温度センサ（サーモセンサ）、複数のマイクロフォンを有するマイクロフォンアレイ、計測対象の形状を測定可能な形状測定センサ（深度センサ）、超音波センサなどさまざまなセンサを内蔵する。

図２は、ロボット１００の構造を概略的に表す断面図である。
図２に示すように、ロボット１００のボディ１０４は、ベースフレーム３０８、本体フレーム３１０、一対の樹脂製のホイールカバー３１２および外皮３１４を含む。ベースフレーム３０８は、金属からなり、ボディ１０４の軸芯を構成するとともに内部機構を支持する。ベースフレーム３０８は、アッパープレート３３２とロアプレート３３４とを複数のサイドプレート３３６により上下に連結して構成される。複数のサイドプレート３３６間には通気が可能となるよう、十分な間隔が設けられる。ベースフレーム３０８の内方には、バッテリー１１８、制御回路３４２および各種アクチュエータが収容されている。

本体フレーム３１０は、樹脂材からなり、頭部フレーム３１６および胴部フレーム３１８を含む。頭部フレーム３１６は、中空半球状をなし、ロボット１００の頭部骨格を形成する。胴部フレーム３１８は、段付筒形状をなし、ロボット１００の胴部骨格を形成する。胴部フレーム３１８は、ベースフレーム３０８と一体に固定される。頭部フレーム３１６は、胴部フレーム３１８の上端部に相対変位可能に組み付けられる。

頭部フレーム３１６には、ヨー軸３２０、ピッチ軸３２２およびロール軸３２４の３軸と、各軸を回転駆動するためのアクチュエータ３２６が設けられる。アクチュエータ３２６は、各軸を個別に駆動するための複数のサーボモータを含む。首振り動作のためにヨー軸３２０が駆動され、頷き動作のためにピッチ軸３２２が駆動され、首を傾げる動作のためにロール軸３２４が駆動される。

頭部フレーム３１６の上部には、ヨー軸３２０を支持するプレート３２５が固定されている。プレート３２５には、上下間の通気を確保するための複数の通気孔３２７が形成される。

頭部フレーム３１６およびその内部機構を下方から支持するように、金属製のベースプレート３２８が設けられる。ベースプレート３２８は、クロスリンク機構３２９（パンタグラフ機構）を介してプレート３２５と連結される一方、ジョイント３３０を介してアッパープレート３３２（ベースフレーム３０８）と連結されている。

胴部フレーム３１８は、ベースフレーム３０８と車輪駆動機構３７０を収容する。車輪駆動機構３７０は、回動軸３７８およびアクチュエータ３７９を含む。胴部フレーム３１８の下半部は、ホイールカバー３１２との間に前輪１０２の収納スペースＳを形成するために小幅とされている。

外皮３１４は、ウレタンゴムからなり、本体フレーム３１０およびホイールカバー３１２を外側から覆う。手１０６は、外皮３１４と一体成形される。外皮３１４の上端部には、外気を導入するための開口部３９０が設けられる。

図３は、ロボットシステム３００の構成図である。
ロボットシステム３００は、ロボット１００、サーバ２００および複数の外部センサ１１４を含む。家屋内にはあらかじめ複数の外部センサ１１４（外部センサ１１４ａ、１１４ｂ、・・・、１１４ｎ）が設置される。外部センサ１１４は、家屋の壁面に固定されてもよいし、床に載置されてもよい。サーバ２００には、外部センサ１１４の位置座標が登録される。位置座標は、ロボット１００の行動範囲として想定される家屋内においてｘ，ｙ座標として定義される。

サーバ２００は、家庭内に設置される。本実施形態におけるサーバ２００とロボット１００は１対１で対応する。ロボット１００の内蔵するセンサおよび複数の外部センサ１１４から得られる情報に基づいて、サーバ２００がロボット１００の基本行動を決定する。
外部センサ１１４はロボット１００の感覚器を補強するためのものであり、サーバ２００はロボット１００の頭脳を補強するためのものである。

外部センサ１１４は、定期的に外部センサ１１４のＩＤ（以下、「ビーコンＩＤ」とよぶ）を含む無線信号（以下、「ロボット探索信号」とよぶ）を送信する。ロボット１００はロボット探索信号を受信するとビーコンＩＤを含む無線信号（以下、「ロボット返答信号」とよぶ）を返信する。サーバ２００は、外部センサ１１４がロボット探索信号を送信してからロボット返答信号を受信するまでの時間を計測し、外部センサ１１４からロボット１００までの距離を測定する。複数の外部センサ１１４とロボット１００とのそれぞれの距離を計測することで、ロボット１００の位置座標を特定する。
もちろん、ロボット１００が自らの位置座標を定期的にサーバ２００に送信する方式でもよい。

図４は、感情マップ１１６の概念図である。
感情マップ１１６は、サーバ２００に格納されるデータテーブルである。ロボット１００は、感情マップ１１６にしたがって行動選択する。図４に示す感情マップ１１６は、ロボット１００の場所に対する好悪感情の大きさを示す。感情マップ１１６のｘ軸とｙ軸は、二次元空間座標を示す。ｚ軸は、好悪感情の大きさを示す。ｚ値が正値のときにはその場所に対する好感が高く、ｚ値が負値のときにはその場所を嫌悪していることを示す。

図４の感情マップ１１６において、座標Ｐ１は、ロボット１００の行動範囲としてサーバ２００が管理する屋内空間のうち好感情が高い地点（以下、「好意地点」とよぶ）である。好意地点は、ソファの陰やテーブルの下などの「安全な場所」であってもよいし、リビングのように人が集まりやすい場所、賑やかな場所であってもよい。また、過去にやさしく撫でられたり、触れられたりした場所であってもよい。
ロボット１００がどのような場所を好むかという定義は任意であるが、一般的には、小さな子どもや犬や猫などの小動物が好む場所を好意地点として設定することが望ましい。

座標Ｐ２は、悪感情が高い地点（以下、「嫌悪地点」とよぶ）である。嫌悪地点は、テレビの近くなど大きな音がする場所、お風呂や洗面所のように濡れやすい場所、閉鎖空間や暗い場所、ユーザから乱暴に扱われたことがある不快な記憶に結びつく場所などであってもよい。
ロボット１００がどのような場所を嫌うかという定義も任意であるが、一般的には、小さな子どもや犬や猫などの小動物が怖がる場所を嫌悪地点として設定することが望ましい。

座標Ｑは、ロボット１００の現在位置を示す。複数の外部センサ１１４が定期的に送信するロボット探索信号とそれに対するロボット返答信号により、サーバ２００はロボット１００の位置座標を特定する。たとえば、ビーコンＩＤ＝１の外部センサ１１４とビーコンＩＤ＝２の外部センサ１１４がそれぞれロボット１００を検出したとき、２つの外部センサ１１４からロボット１００の距離を求め、そこからロボット１００の位置座標を求める。

あるいは、ビーコンＩＤ＝１の外部センサ１１４は、ロボット探索信号を複数方向に送信し、ロボット１００はロボット探索信号を受信したときロボット返答信号を返す。これにより、サーバ２００は、ロボット１００がどの外部センサ１１４からどの方向のどのくらいの距離にいるかを把握してもよい。また、別の実施の形態では、前輪１０２または後輪１０３の回転数からロボット１００の移動距離を算出して、現在位置を特定してもよいし、カメラから得られる画像に基づいて現在位置を特定してもよい。
図４に示す感情マップ１１６が与えられた場合、ロボット１００は好意地点（座標Ｐ１）に引き寄せられる方向、嫌悪地点（座標Ｐ２）から離れる方向に移動する。

感情マップ１１６は動的に変化する。ロボット１００が座標Ｐ１に到達すると、座標Ｐ１におけるｚ値（好感情）は時間とともに低下する。これにより、ロボット１００は好意地点（座標Ｐ１）に到達して、「感情が満たされ」、やがて、その場所に「飽きてくる」という生物的行動をエミュレートできる。同様に、座標Ｐ２における悪感情も時間とともに緩和される。時間経過とともに新たな好意地点や嫌悪地点が生まれ、それによってロボット１００は新たな行動選択を行う。ロボット１００は、新しい好意地点に「興味」を持ち、絶え間なく行動選択する。

感情マップ１１６は、ロボット１００の内部状態として、感情の起伏を表現する。ロボット１００は、好意地点を目指し、嫌悪地点を避け、好意地点にしばらくとどまり、やがてまた次の行動を起こす。このような制御により、ロボット１００の行動選択を人間的・生物的なものにできる。

なお、ロボット１００の行動に影響を与えるマップ（以下、「行動マップ」と総称する）は、図４に示したようなタイプの感情マップ１１６に限らない。たとえば、好奇心、恐怖を避ける気持ち、安心を求める気持ち、静けさや薄暗さ、涼しさや暖かさといった肉体的安楽を求める気持ち、などさまざまな行動マップを定義可能である。そして、複数の行動マップそれぞれのｚ値を重み付け平均することにより、ロボット１００の目的地点を決定してもよい。

ロボット１００は、行動マップとは別に、さまざまな感情や感覚の大きさを示すパラメータを有してもよい。たとえば、寂しさという感情パラメータの値が高まっているときには、安心する場所を評価する行動マップの重み付け係数を大きく設定し、目標地点に到達することでこの感情パラメータの値を低下させてもよい。同様に、つまらないという感覚を示すパラメータの値が高まっているときには、好奇心を満たす場所を評価する行動マップの重み付け係数を大きく設定すればよい。

図５は、ロボット１００のハードウェア構成図である。
ロボット１００は、内部センサ１２８、通信機１２６、記憶装置１２４、プロセッサ１２２、駆動機構１２０およびバッテリー１１８を含む。駆動機構１２０は、上述した車輪駆動機構３７０を含む。プロセッサ１２２と記憶装置１２４は、制御回路３４２に含まれる。各ユニットは電源線１３０および信号線１３２により互いに接続される。バッテリー１１８は、電源線１３０を介して各ユニットに電力を供給する。各ユニットは信号線１３２により制御信号を送受する。バッテリー１１８は、リチウムイオン二次電池であり、ロボット１００の動力源である。

内部センサ１２８は、ロボット１００が内蔵する各種センサの集合体である。具体的には、カメラ４１０（全天球カメラ４００と高解像度カメラ４０２）、マイクロフォンアレイ４０４、温度センサ４０６、形状測定センサ４０８のほか、赤外線センサ、タッチセンサ、加速度センサ、ニオイセンサなどである。ニオイセンサは、匂いの元となる分子の吸着によって電気抵抗が変化する原理を応用した既知のセンサである。ニオイセンサは、さまざまな匂いを複数種類のカテゴリ（以下、「ニオイカテゴリ」とよぶ）に分類する。

通信機１２６は、サーバ２００や外部センサ１１４、ユーザの有する携帯機器など各種の外部機器を対象として無線通信を行う通信モジュールである。記憶装置１２４は、不揮発性メモリおよび揮発性メモリにより構成され、コンピュータプログラムや各種設定情報を記憶する。プロセッサ１２２は、コンピュータプログラムの実行手段である。駆動機構１２０は、内部機構を制御するアクチュエータである。このほかには、表示器やスピーカーなども搭載される。

プロセッサ１２２は、通信機１２６を介してサーバ２００や外部センサ１１４と通信しながら、ロボット１００の行動選択を行う。内部センサ１２８により得られるさまざまな外部情報も行動選択に影響する。駆動機構１２０は、主として、車輪（前輪１０２）と頭部（頭部フレーム３１６）を制御する。駆動機構１２０は、２つの前輪１０２それぞれの回転速度や回転方向を変化させることにより、ロボット１００の移動方向や移動速度を変化させる。また、駆動機構１２０は、車輪（前輪１０２および後輪１０３）を昇降させることもできる。車輪が上昇すると、車輪はボディ１０４に完全に収納され、ロボット１００は着座面１０８にて床面Ｆに当接し、着座状態となる。

駆動機構１２０がワイヤ１３４を介して手１０６を引っ張ることにより、手１０６を持ち上げることができる。手１０６を振動させることで手を振るような仕草も可能である。多数のワイヤ１３４を利用すればさらに複雑な仕草も表現可能である。

図６は、ロボットシステム３００の機能ブロック図である。
上述のように、ロボットシステム３００は、ロボット１００、サーバ２００および複数の外部センサ１１４を含む。ロボット１００およびサーバ２００の各構成要素は、ＣＰＵ（Central Processing Unit）および各種コプロセッサなどの演算器、メモリやストレージといった記憶装置、それらを連結する有線または無線の通信線を含むハードウェアと、記憶装置に格納され、演算器に処理命令を供給するソフトウェアによって実現される。コンピュータプログラムは、デバイスドライバ、オペレーティングシステム、それらの上位層に位置する各種アプリケーションプログラム、また、これらのプログラムに共通機能を提供するライブラリによって構成されてもよい。以下に説明する各ブロックは、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
ロボット１００の機能の一部はサーバ２００により実現されてもよいし、サーバ２００の機能の一部または全部はロボット１００により実現されてもよい。

（サーバ２００）
サーバ２００は、通信部２０４、データ処理部２０２およびデータ格納部２０６を含む。
通信部２０４は、外部センサ１１４およびロボット１００との通信処理を担当する。データ格納部２０６は各種データを格納する。データ処理部２０２は、通信部２０４により取得されたデータおよびデータ格納部２０６に格納されるデータに基づいて各種処理を実行する。データ処理部２０２は、通信部２０４およびデータ格納部２０６のインタフェースとしても機能する。

データ格納部２０６は、モーション格納部２３２、マップ格納部２１６および個人データ格納部２１８を含む。
ロボット１００は、複数の動作パターン（モーション）を有する。手を震わせる、蛇行しながらオーナーに近づく、首をかしげたままオーナーを見つめる、などさまざまなモーションが定義される。

モーション格納部２３２は、モーションの制御内容を定義する「モーションファイル」を格納する。各モーションは、モーションＩＤにより識別される。モーションファイルは、ロボット１００のモーション格納部１６０にもダウンロードされる。どのモーションを実行するかは、サーバ２００で決定されることもあるし、ロボット１００で決定されることもある。

ロボット１００のモーションの多くは、複数の単位モーションを含む複合モーションとして構成される。たとえば、ロボット１００がオーナーに近づくとき、オーナーの方に向き直る単位モーション、手を上げながら近づく単位モーション、体を揺すりながら近づく単位モーション、両手を上げながら着座する単位モーションの組み合わせとして表現されてもよい。このような４つのモーションの組み合わせにより、「オーナーに近づいて、途中で手を上げて、最後は体をゆすった上で着座する」というモーションが実現される。モーションファイルには、ロボット１００に設けられたアクチュエータの回転角度や角速度などが時間軸に関連づけて定義される。モーションファイル（アクチュエータ制御情報）にしたがって、時間経過とともに各アクチュエータを制御することで様々なモーションが表現される。

先の単位モーションから次の単位モーションに変化するときの移行時間を「インターバル」とよぶ。インターバルは、単位モーション変更に要する時間やモーションの内容に応じて定義されればよい。インターバルの長さは調整可能である。
以下、いつ、どのモーションを選ぶか、モーションを実現する上での各アクチュエータの出力調整など、ロボット１００の行動制御にかかわる設定のことを「行動特性」と総称する。ロボット１００の行動特性は、モーション選択アルゴリズム、モーションの選択確率、モーションファイル等により定義される。

マップ格納部２１６は、複数の行動マップを格納する。個人データ格納部２１８は、ユーザ、特に、オーナーの情報を格納する。具体的には、ユーザに対する親密度やユーザの身体的特徴・行動的特徴など各種のパラメータを格納する。年齢や性別などの他の属性情報を格納してもよい。

ロボット１００はユーザの身体的特徴や行動的特徴に基づいてユーザを識別する。ロボット１００は、内蔵のカメラで常時周辺を撮像する。そして、画像に写る人物の身体的特徴と行動的特徴を抽出する。身体的特徴とは、背の高さ、好んで着る服、メガネの有無、肌の色、髪の色、耳の大きさなど身体に付随する視覚的特徴であってもよいし、平均体温や匂い、声質、などその他の特徴も含めてもよい。行動的特徴とは、具体的には、ユーザが好む場所、動きの活発さ、喫煙の有無など行動に付随する特徴である。たとえば、父親として識別されるオーナーは在宅しないことが多く、在宅時にはソファで動かないことが多いが、母親は台所にいることが多く、行動範囲が広い、といった行動上の特徴を抽出する。
ロボット１００は、大量の画像情報やその他のセンシング情報から得られる身体的特徴および行動的特徴に基づいて、高い頻度で出現するユーザを「オーナー」としてクラスタリングする。

ユーザＩＤでユーザを識別する方式は簡易かつ確実であるが、ユーザがユーザＩＤを提供可能な機器を保有していることが前提となる。一方、身体的特徴や行動的特徴によりユーザを識別する方法は画像認識処理負担が大きいものの携帯機器を保有していないユーザでも識別できるメリットがある。２つの方法は一方だけを採用してもよいし、補完的に２つの方法を併用してユーザ特定を行ってもよい。
本実施形態においては、身体的特徴と行動的特徴からユーザをクラスタリングし、ディープラーニング（多層型のニューラルネットワーク）によってユーザを識別する。詳細は後述する。

ロボット１００は、ユーザごとに親密度という内部パラメータを有する。ロボット１００が、自分を抱き上げる、声をかけてくれるなど、自分に対して好意を示す行動を認識したとき、そのユーザに対する親密度が高くなる。ロボット１００に関わらないユーザや、乱暴を働くユーザ、出会う頻度が低いユーザに対する親密度は低くなる。

データ処理部２０２は、位置管理部２０８、マップ管理部２１０、認識部２１２、動作制御部２２２および親密度管理部２２０を含む。
位置管理部２０８は、ロボット１００の位置座標を、図３を用いて説明した方法にて特定する。位置管理部２０８はユーザの位置座標もリアルタイムで追跡してもよい。

マップ管理部２１０は、複数の行動マップについて図４に関連して説明した方法にて各座標のパラメータを変化させる。マップ管理部２１０は、複数の行動マップのいずれかを選択してもよいし、複数の行動マップのｚ値を加重平均してもよい。たとえば、行動マップＡでは座標Ｒ１、座標Ｒ２におけるｚ値が４と３であり、行動マップＢでは座標Ｒ１、座標Ｒ２におけるｚ値が−１と３であるとする。単純平均の場合、座標Ｒ１の合計ｚ値は４−１＝３、座標Ｒ２の合計ｚ値は３＋３＝６であるから、ロボット１００は座標Ｒ１ではなく座標Ｒ２の方向に向かう。
行動マップＡを行動マップＢの５倍重視するときには、座標Ｒ１の合計ｚ値は４×５−１＝１９、座標Ｒ２の合計ｚ値は３×５＋３＝１８であるから、ロボット１００は座標Ｒ１の方向に向かう。

認識部２１２は、外部環境を認識する。外部環境の認識には、温度や湿度に基づく天候や季節の認識、光量や温度に基づく物陰（安全地帯）の認識など多様な認識が含まれる。認識部２１２は、更に、人物認識部２１４と応対認識部２２８を含む。人物認識部２１４は、ロボット１００の内蔵カメラにより撮影された画像から人物を認識し、その人物の身体的特徴や行動的特徴を抽出する。そして、個人データ格納部２１８に登録されている身体特徴情報や行動特徴情報に基づいて、撮影されたユーザ、すなわち、ロボット１００が見ているユーザが、父親、母親、長男などのどの人物に該当するかを判定する。人物認識部２１４は、表情認識部２３０を含む。表情認識部２３０は、ユーザの表情を画像認識することにより、ユーザの感情を推定する。
なお、人物認識部２１４は、人物以外の移動物体、たとえば、ペットである猫や犬についても特徴抽出を行う。

応対認識部２２８は、ロボット１００になされたさまざまな応対行為を認識し、快・不快行為に分類する。応対認識部２２８は、また、ロボット１００の行動に対するオーナーの応対行為を認識することにより、肯定・否定反応に分類する。
快・不快行為は、ユーザの応対行為が、生物として心地よいものであるか不快なものであるかにより判別される。たとえば、抱っこされることはロボット１００にとって快行為であり、蹴られることはロボット１００にとって不快行為である。肯定・否定反応は、ユーザの応対行為が、ユーザの快感情を示すものか不快感情を示すものであるかにより判別される。たとえば、抱っこされることはユーザの快感情を示す肯定反応であり、蹴られることはユーザの不快感情を示す否定反応である。

サーバ２００の動作制御部２２２は、ロボット１００の動作制御部１５０と協働して、ロボット１００のモーションを決定する。サーバ２００の動作制御部２２２は、マップ管理部２１０による行動マップ選択に基づいて、ロボット１００の移動目標地点とそのための移動ルートを作成する。動作制御部２２２は、複数の移動ルートを作成し、その上で、いずれかの移動ルートを選択してもよい。

動作制御部２２２は、モーション格納部２３２の複数のモーションからロボット１００のモーションを選択する。各モーションには状況ごとに選択確率が対応づけられている。たとえば、オーナーから快行為がなされたときには、モーションＡを２０％の確率で実行する、気温が３０度以上となったとき、モーションＢを５％の確率で実行する、といった選択方法が定義される。
行動マップに移動目標地点や移動ルートが決定され、後述の各種イベントによりモーションが選択される。

親密度管理部２２０は、ユーザごとの親密度を管理する。上述したように、親密度は個人データ格納部２１８において個人データの一部として登録される。快行為を検出したとき、親密度管理部２２０はそのオーナーに対する親密度をアップさせる。不快行為を検出したときには親密度はダウンする。また、長期間視認していないオーナーの親密度は徐々に低下する。

（ロボット１００）
ロボット１００は、内部センサ１２８、通信部１４２、データ処理部１３６、データ格納部１４８および駆動機構１２０を含む。
内部センサ１２８は、各種センサの集合体である。内部センサ１２８は、マイクロフォンアレイ４０４、カメラ４１０、温度センサ４０６および形状測定センサ４０８を含む。マイクロフォンアレイ４０４は、複数のマイクロフォンをつなぎ合わせたユニットであり、音を検出する音声センサである。カメラ４１０は外部を撮影するデバイスである。マイクロフォンアレイ４０４は、音を検出し、音源の方向を検出可能なデバイスであればよい。カメラ４１０は、全天球カメラ４００と高解像度カメラ４０２を含む。温度センサ４０６は、外部環境の温度分布を検出し、画像化する。形状測定センサ４０８は、プロジェクタから近赤外線を照射し、近赤外線カメラにて近赤外線の反射光を検出することにより、対象物体の深度、ひいては、凹凸形状を読み取る赤外線深度センサである。

通信部１４２は、通信機１２６（図５参照）に該当し、外部センサ１１４およびサーバ２００との通信処理を担当する。データ格納部１４８は各種データを格納する。データ格納部１４８は、記憶装置１２４（図５参照）に該当する。データ処理部１３６は、通信部１４２により取得されたデータおよびデータ格納部１４８に格納されているデータに基づいて各種処理を実行する。データ処理部１３６は、プロセッサ１２２およびプロセッサ１２２により実行されるコンピュータプログラムに該当する。データ処理部１３６は、通信部１４２、内部センサ１２８、駆動機構１２０およびデータ格納部１４８のインタフェースとしても機能する。

データ格納部１４８は、ロボット１００の各種モーションを定義するモーション格納部１６０を含む。
ロボット１００のモーション格納部１６０には、サーバ２００のモーション格納部２３２から各種モーションファイルがダウンロードされる。モーションは、モーションＩＤによって識別される。前輪１０２を収容して着座する、手１０６を持ち上げる、２つの前輪１０２を逆回転させることで、あるいは、片方の前輪１０２だけを回転させることでロボット１００を回転行動させる、前輪１０２を収納した状態で前輪１０２を回転させることで震える、ユーザから離れるときにいったん停止して振り返る、などのさまざまなモーションを表現するために、各種アクチュエータ（駆動機構１２０）の動作タイミング、動作時間、動作方向などがモーションファイルにおいて時系列定義される。

データ処理部１３６は、認識部１５６、動作制御部１５０、センサ制御部１７２および音声分類部１７４を含む。
ロボット１００の動作制御部１５０は、サーバ２００の動作制御部２２２と協働してロボット１００のモーションを決める。一部のモーションについてはサーバ２００で決定し、他のモーションについてはロボット１００で決定してもよい。また、ロボット１００がモーションを決定するが、ロボット１００の処理負荷が高いときにはサーバ２００がモーションを決定するとしてもよい。サーバ２００においてベースとなるモーションを決定し、ロボット１００において追加のモーションを決定してもよい。モーションの決定処理をサーバ２００およびロボット１００においてどのように分担するかはロボットシステム３００の仕様に応じて設計すればよい。

ロボット１００の動作制御部１５０は、サーバ２００の動作制御部２２２とともにロボット１００の移動方向を決める。行動マップに基づく移動をサーバ２００で決定し、障害物をよけるなどの即時的移動をロボット１００の動作制御部１５０により決定してもよい。駆動機構１２０は、動作制御部１５０の指示にしたがって前輪１０２を駆動することで、ロボット１００を移動目標地点に向かわせる。

ロボット１００の動作制御部１５０は選択したモーションを駆動機構１２０に実行指示する。駆動機構１２０は、モーションファイルにしたがって、各アクチュエータを制御する。

動作制御部１５０は、親密度の高いユーザが近くにいるときには「抱っこ」をせがむ仕草として両方の手１０６をもちあげるモーションを実行することもできるし、「抱っこ」に飽きたときには左右の前輪１０２を収容したまま逆回転と停止を交互に繰り返すことで抱っこをいやがるモーションを表現することもできる。駆動機構１２０は、動作制御部１５０の指示にしたがって前輪１０２や手１０６、首（頭部フレーム３１６）を駆動することで、ロボット１００にさまざまなモーションを表現させる。

センサ制御部１７２は、内部センサ１２８を制御する。具体的には、高解像度カメラ４０２、温度センサ４０６および形状測定センサ４０８の計測方向を制御する。頭部フレーム３１６の方向に合わせて、ロボット１００の頭部に搭載される高解像度カメラ４０２、温度センサ４０６および形状測定センサ４０８の計測方向が変化するが、センサ制御部１７２は高解像度カメラ４０２等を個別に方向制御することもできる。

音声分類部１７４は、具体的には、音声の大きさ、音色、高さのほか、発話パターンなどの音声の特徴に基づいて、検出された音声を複数のカテゴリに分類する。なお、音声分類部１７４ではなく、認識部１５６が音声分類を実行してもよい。

ロボット１００の認識部１５６は、内部センサ１２８から得られた外部情報を解釈する。認識部１５６は、視覚的な認識（視覚部）、匂いの認識（嗅覚部）、音の認識（聴覚部）、触覚的な認識（触覚部）が可能である。
認識部１５６は、カメラ４１０および形状測定センサ４０８により定期的に周囲を撮像し、人やペットなどの移動物体を検出する。これらの特徴はサーバ２００に送信され、サーバ２００の人物認識部２１４は移動物体の身体的特徴を抽出する。また、ユーザの匂いやユーザの声も検出する。匂いや音（声）は既知の方法にて複数種類に分類される。

ロボット１００に対する強い衝撃が与えられたとき、認識部１５６は内蔵の加速度センサによりこれを認識し、サーバ２００の応対認識部２２８は、近隣にいるユーザによって「乱暴行為」が働かれたと認識する。ユーザがツノ１１２を掴んでロボット１００を持ち上げるときにも、乱暴行為と認識してもよい。ロボット１００に正対した状態にあるユーザが特定音量領域および特定周波数帯域にて発声したとき、サーバ２００の応対認識部２２８は、自らに対する「声掛け行為」がなされたと認識してもよい。また、体温程度の温度を検知したときにはユーザによる「接触行為」がなされたと認識し、接触認識した状態で上方への加速度を検知したときには「抱っこ」がなされたと認識する。ユーザがボディ１０４を持ち上げるときの物理的接触をセンシングしてもよいし、前輪１０２にかかる荷重が低下することにより抱っこを認識してもよい。

サーバ２００の応対認識部２２８は、ロボット１００に対するユーザの各種応対を認識する。各種応対行為のうち一部の典型的な応対行為には、快または不快、肯定または否定が対応づけられる。一般的には快行為となる応対行為のほとんどは肯定反応であり、不快行為となる応対行為のほとんどは否定反応となる。快・不快行為は親密度に関連し、肯定・否定反応はロボット１００の行動選択に影響する。

検出・分析・判定を含む一連の認識処理は、サーバ２００の認識部２１２だけで行ってもよいし、ロボット１００の認識部１５６だけで行ってもよいし、双方が役割分担をしながら上記認識処理を実行してもよい。

認識部１５６により認識された応対行為に応じて、サーバ２００の親密度管理部２２０はユーザに対する親密度を変化させる。原則的には、快行為を行ったユーザに対する親密度は高まり、不快行為を行ったユーザに対する親密度は低下する。

サーバ２００の認識部２１２は、応対に応じて快・不快を判定し、マップ管理部２１０は「場所に対する愛着」を表現する行動マップにおいて、快・不快行為がなされた地点のｚ値を変化させてもよい。たとえば、リビングにおいて快行為がなされたとき、マップ管理部２１０はリビングに好意地点を高い確率で設定してもよい。この場合、ロボット１００はリビングを好み、リビングで快行為を受けることで、ますますリビングを好む、というポジティブ・フィードバック効果が実現する。

サーバ２００の人物認識部２１４は、外部センサ１１４または内部センサ１２８から得られた各種データから移動物体を検出し、その特徴（身体的特徴と行動的特徴）を抽出する。そして、これらの特徴に基づいて複数の移動物体をクラスタ分析する。移動物体としては、人間だけでなく、犬や猫などのペットが分析対象となることがある。

ロボット１００は、定期的に画像撮影を行い、人物認識部２１４はそれらの画像から移動物体を認識し、移動物体の特徴を抽出する。移動物体を検出したときには、ニオイセンサや内蔵の集音マイク、温度センサ等からも身体的特徴や行動的特徴が抽出される。たとえば、画像に移動物体が写っているとき、ひげが生えている、早朝活動している、赤い服を着ている、香水の匂いがする、声が大きい、メガネをかけている、スカートを履いている、白髪である、背が高い、太っている、日焼けしている、ソファにいる、といったさまざまな特徴が抽出される。

ひげが生えている移動物体（ユーザ）は早朝に活動すること（早起き）が多く、赤い服を着ることが少ないのであれば、早起きでひげが生えていて赤い服をあまり着ないクラスタ（ユーザ）、という第１のプロファイルができる。一方、メガネをかけている移動物体はスカートを履いていることが多いが、この移動物体にはひげが生えていない場合、メガネをかけていてスカートを履いているが絶対ひげは生えていないクラスタ（ユーザ）、という第２のプロファイルができる。
以上は、簡単な設例であるが、上述の方法により、父親に対応する第１のプロファイルと母親に対応する第２のプロファイルが形成され、この家には少なくとも２人のユーザ（オーナー）がいることをロボット１００は認識する。

ただし、ロボット１００は第１のプロファイルが「父親」であると認識する必要はない。あくまでも、「ひげが生えていて早起きすることが多く、赤い服を着ることはめったにないクラスタ」という人物像を認識できればよい。

このようなクラスタ分析が完了している状態において、ロボット１００が新たに移動物体（ユーザ）を認識したとする。
このとき、サーバ２００の人物認識部２１４は、ロボット１００から得られる画像等のセンシング情報から特徴抽出を行い、ディーブラーニング（多層型ニューラルネットワーク）により、ロボット１００の近くにいる移動物体がどのクラスタに該当するかを判断する。たとえば、ひげが生えている移動物体を検出したとき、この移動物体は父親である確率が高い。この移動物体が早朝行動していれば、父親に該当することはいっそう確実である。一方、メガネをかけている移動物体を検出したときには、この移動物体は母親である可能性もある。この移動物体にひげが生えていれば、母親ではなく父親でもないので、クラスタ分析されていない新しい人物であると判定する。

特徴抽出によるクラスタの形成（クラスタ分析）と、特徴抽出にともなうクラスタへの当てはめ（ディープラーニング）は同時並行的に実行されてもよい。
移動物体（ユーザ）からどのような行為をされるかによってそのユーザに対する親密度が変化する。

ロボット１００は、よく出会う人、よく触ってくる人、よく声をかけてくれる人に対して高い親密度を設定する。一方、めったに見ない人、あまり触ってこない人、乱暴な人、大声で叱る人に対する親密度は低くなる。ロボット１００はセンサ（視覚、触覚、聴覚）によって検出するさまざまな外界情報にもとづいて、ユーザごとの親密度を変化させる。

実際のロボット１００は行動マップにしたがって自律的に複雑な行動選択を行う。ロボット１００は、寂しさ、退屈さ、好奇心などさまざまなパラメータに基づいて複数の行動マップに影響されながら行動する。ロボット１００は、行動マップの影響を除外すれば、あるいは、行動マップの影響が小さい内部状態にあるときには、原則的には、親密度の高い人に近づこうとし、親密度の低い人からは離れようとする。

ロボット１００の行動は親密度に応じて以下に類型化される。
（１）親密度が非常に高いクラスタ
ロボット１００は、ユーザに近づき（以下、「近接行動」とよぶ）、かつ、人に好意を示す仕草としてあらかじめ定義される愛情仕草を行うことで親愛の情を強く表現する。
（２）親密度が比較的高いクラスタ
ロボット１００は、近接行動のみを行う。
（３）親密度が比較的低いクラスタ
ロボット１００は特段のアクションを行わない。
（４）親密度が特に低いクラスタ
ロボット１００は、離脱行動を行う。

以上の制御方法によれば、ロボット１００は、親密度が高いユーザを見つけるとそのユーザに近寄り、逆に親密度が低いユーザを見つけるとそのユーザから離れる。このような制御方法により、いわゆる「人見知り」を行動表現できる。また、来客（親密度が低いユーザＡ）が現れたとき、ロボット１００は、来客から離れて家族（親密度が高いユーザＢ）の方に向かうこともある。この場合、ユーザＢはロボット１００が人見知りをして不安を感じていること、自分を頼っていること、を感じ取ることができる。このような行動表現により、ユーザＢは、選ばれ、頼られることの喜び、それにともなう愛着の情を喚起される。

一方、来客であるユーザＡが頻繁に訪れ、声を掛け、タッチをするとロボット１００のユーザＡに対する親密度は徐々に上昇し、ロボット１００はユーザＡに対して人見知り行動（離脱行動）をしなくなる。ユーザＡも自分にロボット１００が馴染んできてくれたことを感じ取ることで、ロボット１００に対する愛着を抱くことができる。

なお、以上の行動選択は、常に実行されるとは限らない。たとえば、ロボット１００の好奇心を示す内部パラメータが高くなっているときには、好奇心を満たす場所を求める行動マップが重視されるため、ロボット１００は親密度に影響された行動を選択しない可能性もある。また、玄関に設置されている外部センサ１１４がユーザの帰宅を検知した場合には、ユーザのお出迎え行動を最優先で実行するかもしれない。

図７は、マイクロフォンアレイ４０４の計測原理を示す模式図である。
ロボット１００の頭部には、マイクロフォンアレイ４０４が設置される。マイクロフォンアレイ４０４は、複数のマイクロフォン４１２（マイクロフォン４１２ａ〜４１２ｈ）を含む。複数のマイクロフォン４１２が形成する面が床面に平行となるようにマイクロフォンアレイ４０４はロボット１００の頭部フレーム３１６に内蔵される。

ある音源４１４から発生した音は、複数のマイクロフォン４１２に集音される。音源４１４と各マイクロフォン４１２の距離は一致しないため、集音タイミングにばらつきが生じる。各マイクロフォン４１２における音の強さと位相から音源４１４の位置が検出される。たとえば、マイクロフォン４１２ｂよりもマイクロフォン４１２ｃは音源４１４から遠いため、マイクロフォン４１２ｃにはマイクロフォン４１２ｂよりも音の集音タイミングが遅くなる。マイクロフォンアレイ４０４により、音源の可視化（空間における音の分布）も可能である。

人間などの生物は、声を掛けられるとその方向に顔を向けるなどなんらかの反応行動を行う。ロボット１００においても同様の行動を実現するため、本実施形態におけるロボット１００はマイクロフォンアレイ４０４により音源４１４の位置、特に、音源４１４の方向を検出する。

音源４１４は、人間やペットなどの生物の場合もあるが、オーディオやテレビジョンなどの無生物の場合もある。また、音源４１４から発生した音は壁４１６に反射し、反射音がマイクロフォンアレイ４０４に集音されることもある。図７に示すマイクロフォン４１２ｃは音源４１４から直接届く音と壁４１６の反射音の双方を集音する。このため、音源４１４が１つしかなくても、マイクロフォンアレイ４０４は複数の音源４１４（真の音源４１４と壁４１６）が存在するとして検出してしまうことがある。

このため、マイクロフォンアレイ４０４の音声情報に基づいて特定された音源方向にロボット１００の頭部を向ける場合、ロボット１００は音源４１４ではなく、壁４１６を向いてしまう可能性がある。テレビやオーディオから音声が発生させるときも同様である。

図８は、本実施形態における音源特定方法を示す模式図である。
本実施形態におけるロボット１００は、マイクロフォンアレイ４０４に加えて、カメラ４１０により音源４１４を確認する。図８においては、２つの音源４１４（音源４１４ａと音源４１４ｂ）がマイクロフォンアレイ４０４により検出された状況を示している。天球撮像範囲４１８は、全天球カメラ４００による撮像範囲である。全天球カメラ４００は、ロボット１００の上方半球略全域を一度に撮像可能である。ロボット１００の認識部１５６は、天球撮像範囲４１８のうち音源４１４ａの方向を含む所定範囲である撮像領域４２０ａの画像を分析する。

認識部１５６は、撮像領域４２０ａに所定の特徴を有する発音体が存在するか画像分析を行う。ここでいう「発音体」とは、音を発生するもの、すなわち、「音源となることができる物体」を意味する。人間や動物などの生物のほか、テレビやオーディオ、電話なども発音体である。本実施形態においては、発音体のうち、人間（ユーザー）と動物（ペット）のように音声を発生することが可能な生物のことを「発声体」とよぶ。人間のみを検出対象としてもよい。
以下、発声体の検出を対象として説明する。

また、撮像領域４２０から発声体を画像認識する処理はロボット１００の認識部１５６において実行されるものとして説明する。画像認識は、サーバ２００の認識部２１２において実行されてもよいし、サーバ２００の認識部２１２およびロボット１００の認識部１５６の双方により実行されてもよい。

２つの目と１つの口に相当する部分を有している、肌色である、動いている、服を着ているなど、生物に特有の身体的・行動的特徴を有するオブジェクトが発声体として認識される。撮像領域４２０ａにおいて発声体が検出されれば、その発声体が発声源（音源）であると特定される。「発声源」とは、発声体による音声の音源、いいかえれば、実際に音声を発した発声体を意味する。撮像領域４２０ａにおいて発声体が検出されなければ、２つ目の音源４１４ｂに対応する撮像領域４２０ａが画像分析される。

このような制御方法によれば、発声体の特徴を備えない音源４１４であるオーディオを発声源候補から除外できる。壁４１６からの反射音についても、壁４１６の方向には発声体としての特徴を備えるオブジェクトが検出されないために壁４１６も発声源候補から除外される。テレビの外枠が画像検出されたときには、テレビに発声体の特徴を備える画像が表示されたとしても発声源ではないと判定できる。

ロボット１００は、音を検出したとき、音源４１４ａおよび音源４１４ｂの双方または一方に頭部を向ける。具体的には、所定値以上の音圧（音量）が検出された音源４１４に正対するように、動作制御部１５０は頭部フレーム３１６を回転させる。音源４１４ａと音源４１４ｂの双方から所定値以上の音圧が検出されるときには、より大きな音圧を発声させた方に頭部フレーム３１６を向けてもよいし、二つの音源４１４それぞれに正対するように順次頭部フレーム３１６を回転させてもよい。

撮像領域４２０ａにおいて発声体が検出されると、動作制御部１５０は前輪１０２を駆動して胴部フレーム３１８、すなわち、ロボット１００のボディ１０４を音源４１４ａに向ける。撮像領域４２０ｂにおいて発声体が検出されたときには、ロボット１００は音源４１４ｂに体を向ける。
このような制御方法によれば、音に反応して頭を向け、その方向に発声体（人間など）を確認したときに体ごと向き直るという行動特性が実現される。

撮像領域４２０は、全天球カメラ４００による天球撮像範囲４１８の一部として切り出されてもよい。あるいは、頭部を音源４１４に向けたあと、高解像度カメラ４０２により撮像領域４２０を改めて撮像してもよい。高解像度カメラ４０２を独立制御可能であれば、センサ制御部１７２は高解像度カメラ４０２を音源４１４に向けることで撮像領域４２０を撮像してもよい。全天球カメラ４００よりも高解像度の高解像度カメラ４０２により音源４１４を撮像すれば、撮像領域４２０から発声体をより確実に検出しやすくなる。

認識部１５６は、発声体を画像検出したときには、更に、発声体の口唇に動きがあるか、特に、発話にともなう動きがあるか否かを検出してもよい。より具体的には、音声検出期間において口唇を動かした発声体がその音声の発声源として認識される。口唇をチェックすることにより、誰が自分（ロボット１００）に向かって発話しているのかをより確実に特定できる。

認識部１５６は、更に、温度センサ４０６により音源４１４の周辺温度分布を計測し、音源４１４が発熱体、特に、摂氏３０〜４０度程度の発熱体であるか否かを判定する。人間やペットなどの恒温動物は発熱体であるため、温度計測によりオーディオやテレビ、壁、鏡などを発声源候補から除外できる。

認識部１５６は、更に、形状測定センサ４０８により音源４１４の三次元形状を測し、音源４１４が所定の形状を有する物体であるか否かを判定する。たとえば、認識部１５６は、音源４１４が凹凸形状を有するか否かを判定する。凹凸形状を有しないとき、音源４１４はテレビ、壁、鏡などの平面体であると考えられるため、これらを発声源から除外できる。より好ましくは、形状測定センサ４０８により、発声体の立体形状の特徴を検出することが望ましい。人間の顔や動物の顔の形状上の特徴（鼻の位置や口の形など）を認識できれば、オーディオやテレビなどの無生物を発声源候補からより確実に除外しやすい。個人データ格納部２１８には、形状測定センサ４０８により各クラスタの顔の特徴情報も格納される。このため、更に好ましくは、形状測定センサ４０８により、発声体が誰であるかを特定してもよい。

図９は、周波数帯域と音の種類の関係を示す模式図である。
一般的には、成人男性の声の周波数帯域は６０〜２６０（Ｈｚ）程度、成人女性の声の周波数帯域は１２０〜５２０（Ｈｚ）程度といわれる。したがって、５０〜６００（Ｈｚ）程度の周波数帯域をフィルタリングしても、成人の声を認識可能である。

子どもの金切り声は１，０００（Ｈｚ）程度、ガラスの割れる音は４，０００（Ｈｚ）程度といわれる。また、人間の可聴周波数は年齢にもよるがおおよそ２０（Ｈｚ）から２０，０００（Ｈｚ）といわれる。２０，０００（Ｈｚ）を超えると「超音波」とよばれ、通常、人間の聴覚によって感知できない音となる。

ロボット１００が人の声に反応する上では、５０〜６００（Ｈｚ）程度を認識できればよい（以下、この周波数帯域を「発話周波数帯域」とよぶ）。認識部１５６（または音声分類部１７４）は、周波数フィルタリングにより発話周波数帯域の音源４１４のみを発声体候補として抽出してもよい。この場合には、多数の音源４１４が検出されたときでも、発声体候補となる音源４１４に絞って画像分析をすればよいので、ロボット１００の処理負荷を軽減できる。

発話周波数帯域以外の周波数帯域においても、生物を驚かせる環境音や少なくとも生物の注意を引く環境音がある。本実施形態においてはこのような環境音を「特殊環境音」と定義する。特殊環境音は、周波数が高く、かつ、音圧が所定の閾値以上となる大きく高い音である。本実施形態においては、特殊環境音は、６００〜２０，０００（Ｈｚ）の高音であり、かつ、７０（デシベル）以上の音として定義される。以下、特殊環境音としての上記特徴を「特殊環境音条件」とよぶ。

発話周波数帯域を周波数フィルタリングする場合でも、認識部１５６が特殊環境音を検出したときには、動作制御部１５０はロボット１００に所定のモーション（リアクション行動）を実行させる。ここでいう所定のモーションとは、特殊環境音に対する驚きや動揺、興味を表現するモーションであり、音に反応したことを表現するモーションとして定義されることが望ましい。たとえば、音源４１４から遠ざかる、体を震わせる、頭部のみを音源４１４に向ける、鳴き声を上げる、音源４１４に近寄るなどのモーションが選択される。あるいは、なんらかのモーションを実行中に特殊環境音あるいは発声体による音声が聞こえてきたときには、実行中のモーションの速度を低下させる、一時停止するなどにより、注意を払っていることを行動表現してもよい。

音声分類部１７４は、音声の特徴、具体的には、音の大きさ、周波数帯域、発話パターンなどから、音を複数のカテゴリに分類する。人間、犬、特殊環境音というカテゴリがあってもよいし、成人男性、成人女性、子ども、破裂音というより細かいカテゴリが定義されてもよい。成人男性のカテゴリであれば、周波数帯域が６０〜２６（Ｈｚ）であり、かつ、音の大きさの変化パターンなど、成人男性に典型的な音声特徴が定義される。特殊環境音に対しても複数のカテゴリが定義されてもよい。特殊環境音の種類に応じて複数種類のモーションが定義されればよい。たとえば、高音部（５０００（Ｈｚ）以上）の特殊環境音（高音カテゴリ）が検知されたときには音源４１４から逃げるモーションが選択され、低音部（７００（Ｈｚ）以下）の特殊環境音（低音カテゴリ）が検知されたときには音源４１４に近づくモーションが選択されてもよい。

特殊環境音が検知されたときには、ロボット１００は少なくとも特殊環境音の音源４１４に頭または体を向ける。壁からの反射した音や壁を透過した音であっても、特殊環境音が検出されたときには音源４１４をいったん見ることで驚きと好奇心を表現し、その後に、特殊環境音の種類に対応したモーションを実行する。

特殊環境音の種類に応じて感情マップ１１６などの行動マップを更新してもよい。たとえば、特に大きな特殊環境音が検出されたときにはその音源４１４を嫌悪地点として設定してもよい。また、小さな音圧の特殊環境音が検出されたときには音源４１４に対する好奇心の強さを表すように行動マップを更新してもよい。

発話周波数帯域や特殊環境音条件は、人間の感覚に合わせて定義する必要はない。犬は、高周波数帯域への感受性が人間のそれよりも高い。ロボット１００においても発話周波数帯域を高めに設定してもよい。また、人間や犬などの既存の生物とは違う感性を表現するため、ロボット１００に対しては任意の発話周波数帯域や特殊環境音条件を定義してもよい。たとえば、１，０００（Ｈｚ）付近を極端に嫌うような設定も可能である。どのような音声を重視するか、どのような音声に驚くか、どのような音声を嫌うか、どのような音声を好むかという設定は、ロボット１００としての個性を定義する。

図１０は、本実施形態において、音を検出したときの処理過程を示すフローチャートである。
図１０に示すフローチャートは、マイクロフォンアレイ４０４が集音したときに実行される。認識部１５６はマイクロフォンアレイ４０４に含まれる各マイクロフォン４１２の集音した音声情報に基づいて１以上の音源方向を検出する（Ｓ１０）。次に、認識部１５６（または音声分類部１７４）は音が特殊環境音条件を満たす特徴を備えるか否かに基づいて特定環境音か否かを判定する（Ｓ１２）。マイクロフォンアレイ４０４に含まれる複数のマイクロフォン４１２が集音した音声情報の平均値に基づいて判定してもよいし、所定個数以上のマイクロフォン４１２が特定環境音条件を満たす音を検出したとき、特定環境音であると判定してもよい。特定環境音のときには（Ｓ１２のＹ）、動作制御部１５０は特定環境音に対応するモーション（リアクション行動）を選択し、駆動機構１２０にそのモーションを実行させる（Ｓ１４）。上述したように、特定環境音の種類に応じて多様なモーションが選択される。

特定環境音でないとき（Ｓ１２のＮ）、認識部１５６は、マイクロフォンアレイ４０４により検出された１以上の音源方向において、カメラ４１０により画像確認していない未確認音源が存在するか否かを判定する（Ｓ１６）。未確認音源がなければ（Ｓ１６のＮ）、以降の処理はスキップされる。

未確認音源があれば（Ｓ１６のＹ）、動作制御部１５０はロボット１００の頭部を未確認音源のうちの１つに向ける（Ｓ１８）。認識部１５６は、天球撮像範囲４１８のうち未確認音源の方向に撮像領域４２０を設定し、発声体が存在するか否かを画像分析する（Ｓ２０）。発声体が存在しなければ（Ｓ２２のＮ）、処理はＳ１６に戻り、別の音源が分析対象となる。発声体が検出されれば（Ｓ２２のＹ）、動作制御部１５０は頭部だけでなく胴部もその音源に向ける（Ｓ２４）。本実施形態におけるロボット１００の場合、前輪１０２を逆回転させてロボット１００の全体を音源に正対させる。

より具体的には、Ｓ２０の画像分析に際しては、高解像度カメラ４０２により未確認音源の方向を撮影し、その画像から発声体の存否を確認する。このとき、頭部を回転させることで高解像度カメラ４０２を未確認音源に向けてもよいし、センサ制御部１７２が高解像度カメラ４０２を独立駆動して高解像度カメラ４０２を未確認音源に向けてもよい。上述のように、全天球カメラ４００による天球撮像範囲４１８から音源方向に対応する１以上の撮像領域４２０を抽出し、発声体の存否を確認してもよい。

Ｓ１６の未確認音源の確認に際しては、認識部１５６（または音声分類部１７４）は音声を周波数フィルタリングすることにより、発話周波数帯域の音源のみを分析対象としてもよい。また、Ｓ２２において発声体を検出しても、発声体の口唇が動いていなければ、Ｓ２４ではなくＳ１６に処理を戻してもよい。より具体的には、音の検出期間において口唇を動かしている発声体でなければ、その発声体を発声源として認識しない。同様にして、発声体の顔画像がロボット１００に正対していなければ、ロボット１００に対する発話ではないとして別の発声体をサーチしてもよい。

Ｓ２２のあと、検出された発声体が所定の温度範囲における発熱体であるか、形状が所定の特徴を有するか否かにより、適切な発声体であるか否かを確認してもよい。

図１０に示す処理過程によれば、音が検出されたとき、反射的に頭部を音源方向に向けるという生物的行動特性をロボット１００でも表現できる。頭部を音源に向ける以外にも、目１１０を音源に向ける、ビクっと震えるなど、興味や驚きを表現するモーションを実行してもよい。音源が発声体であると確認されたとき、いいかえれば、発声源としての発声体が特定されたとき、体全体を発声体（音源）に向けることで「聞く体勢」に入ったことを行動表現する。

図１１は、音を検出したときの処理過程を示すフローチャート（変形例１）である。
図１０においては、音源が発声体であるか否かを画像分析により判定している。また、画像分析に際しては口唇のチェックのほか、温度センサ４０６や形状測定センサ４０８によるセンシング情報を追加して判定精度を高めている。図１１に示す変形例１においては、画像分析に頼らず、温度分析に基づいて発声体を特定する方法について説明する。Ｓ１０〜Ｓ１８，Ｓ２４の処理内容は図１０に関連して説明した内容と同様である。

未確認音源があれば（Ｓ１６のＹ）、動作制御部１５０はロボット１００の頭部を未確認音源のうちの１つに向ける（Ｓ１８）。センサ制御部１７２は、温度センサ４０６を未確認音源の方向に向けて未確認音源周辺の温度分布を計測する（Ｓ３０）。認識部１５６は、未確認音源の方向に発熱体、具体的には、人やペット（恒温動物）の体温程度の発熱体が計測されたとき（Ｓ３２のＹ）、動作制御部１５０は頭部だけでなく胴部も未確認音源（発熱体）のある方向に向ける（Ｓ２４）。

Ｓ３２の温度分布分析に際しては、温度センサ４０６を駆動するのではなく、ロボット１００の頭部または胴部の向きを変化させて温度センサ４０６の計測方向を未確認音源方向に設定してもよい。温度センサ４０６が全天球カメラ４００のようにパノラマ計測できる場合には、温度センサ４０６の計測方向調整は不要である。Ｓ３０の温度分析に加えて、図１０に関連して説明したような画像分析や深度分析を追加実行してもよい。

図１２は、音を検出したときの処理過程を示すフローチャート（変形例２）である。
図１２に示す変形例２においては、全天球カメラ４００および高解像度カメラ４０２によりあらかじめ発声体を追跡（トラッキング）しておき、音が発生したときに追跡対象となっている１以上の発声体の中から発声源を特定する。具体的には、全天球カメラ４００により天球撮像範囲４１８を定期的かつ継続的に撮像し、認識部１５６はオーナーやペットなどの発声体の特徴を備えるオブジェクトが存在する位置を常時追跡する。たとえば、ロボット１００から向かって１時の方向（前方やや右方向）に「父親」が存在し、９時の方向（左方向）に「母親」が存在しているとする。より厳密には、「父親」の身体的・行動的特徴を備える第１クラスタと「母親」の身体的・行動的特徴を備える第２クラスタそれぞれの方向を追跡する。
Ｓ１０〜Ｓ１４，Ｓ２４の処理内容は図１０に関連して説明した内容と同様である。

図１２に示すフローチャートも、マイクロフォンアレイ４０４が音を集音したときに実行される。特定環境音でなければ（Ｓ１２のＮ）、認識部１５６（または音声分類部１７４）は音声の特徴（音の大きさ、音色、音の高さ）を抽出する（Ｓ４０）。個人データ格納部２１８においては、あらかじめ各オーナーの身体的・行動的特徴が登録されており、声の特徴もその一種として登録される。抽出された音声特徴に対応する発声体が追跡されているときには（Ｓ４０のＹ）、ロボット１００は胴部を回転してその発声体に向き直る（Ｓ２４）。存在しないときには（Ｓ４０のＮ）、Ｓ２４はスキップされる。たとえば、「父親」の音声特徴を備える音が検出されたときにはロボット１００は１時の方向に向き直り、「母親」の音声特徴を備える音が検出されたときにはロボット１００は９時の方向に向き直る。一方、「長男」の音声特徴に似た音が検出されたとしても、Ｓ１０の開始時点で「長男」は追跡（検出）されていないため、この場合には非検出（Ｓ４２のＮ）として処理される。

以上、実施形態に基づいてロボット１００およびロボット１００を含むロボットシステム３００について説明した。
生物と同様、ロボット１００は音という外部のイベントに応じて行動を変化させる。本実施形態においては、マイクロフォンアレイ４０４により音源方向を検出し、カメラ４１０，温度センサ４０６，形状測定センサ４０８などの他のセンサにより音源方向を確認している。このため、検知された音がどこで発生したのか、特に、自分に呼びかけているオーナーがどこにいるのかを確実に認識しやすくなる。

また、特殊環境音のように人の声ではないが注意を引く音に対しても、即時的なリアクション行動を取ることができる。このため、いろいろな音に驚いたり、好奇心をもったりといった多様な行動特性を実現できる。

ロボット１００は、音が検出されると頭を向け、そこに発声体を認識すると向き直るという２段階行動を実行する。音声を検出したときと、発声体を特定したときの２段階で異なるモーションを実現することにより、無意識的に注意を払い、意識的に行動するという生物的な行動特性を表現できる。

なお、本発明は上記実施形態や変形例に限定されるものではなく、要旨を逸脱しない範囲で構成要素を変形して具体化することができる。上記実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることにより種々の発明を形成してもよい。また、上記実施形態や変形例に示される全構成要素からいくつかの構成要素を削除してもよい。

１つのロボット１００と１つのサーバ２００、複数の外部センサ１１４によりロボットシステム３００が構成されるとして説明したが、ロボット１００の機能の一部はサーバ２００により実現されてもよいし、サーバ２００の機能の一部または全部がロボット１００に割り当てられてもよい。１つのサーバ２００が複数のロボット１００をコントロールしてもよいし、複数のサーバ２００が協働して１以上のロボット１００をコントロールしてもよい。

ロボット１００やサーバ２００以外の第３の装置が、機能の一部を担ってもよい。図６において説明したロボット１００の各機能とサーバ２００の各機能の集合体は大局的には１つの「ロボット」として把握することも可能である。１つまたは複数のハードウェアに対して、本発明を実現するために必要な複数の機能をどのように配分するかは、各ハードウェアの処理能力やロボットシステム３００に求められる仕様等に鑑みて決定されればよい。

上述したように、「狭義におけるロボット」とはサーバ２００を含まないロボット１００のことであるが、「広義におけるロボット」はロボットシステム３００のことである。サーバ２００の機能の多くは、将来的にはロボット１００に統合されていく可能性も考えられる。

本実施形態においては、音声と音源をマイクロフォンアレイ４０４，カメラ４１０，温度センサ４０６および形状測定センサ４０８によりセンシングし、ロボット１００の認識部１５６により認識処理を実行している。認識処理の一部または全部はサーバ２００の認識部２１２により実行されてもよい。また、内部センサ１２８の機能の一部は外部センサ１１４に搭載されてもよい。たとえば、外部センサ１１４にカメラ４１０を搭載し、外部センサ１１４の画像情報をサーバ２００にて分析し、その分析結果に基づいてロボット１００が発声体の位置を特定する実装も可能である。

本実施形態においては、音を検出したときに頭部を音源に向け、発声体が認識されたとき胴部も音源に向けるとして説明した。このほかにも、音を検出したときのモーションとしては、目１１０（視線）を音源に向ける、震える、逃げる、近づく、声を発するなどが考えられる。また、発声体を認識したときのモーションとしては、近づく、逃げる、目１１０を伏せる、手１０６を挙げるなどが考えられる。

ロボット１００は、音声を検出したあとその発声源を特定する前に、特定ワードの音声を検出したとき、発声体のサーチを中断し、他の未確認音源の分析を実行してもよい。ここでいう特定ワードとは、「おいで」「こっちだよ」「そっちじゃないよ」などの呼びかけが考えられる。たとえば、ロボット１００が複数の音源を検出し、複数の撮像領域４２０を設定したとする。ロボット１００が、１つめの音源候補に顔を向けて撮像領域４２０の画像分析するタイミングで「そっちじゃないよ」という特定ワードを音声認識したときには、２つ目の音源候補に分析対象を変更する。あるいは、特定ワードの音源を改めて検出し、特定ワードの音源方向を画像分析してもよい。

複数のマイクロフォン４１２をユニット化したマイクロフォンアレイ４０４をロボット１００に装着する代わりにロボット１００の複数箇所にマイクロフォン４１２を配置してもよい。本実施形態においては、全天球カメラ４００および高解像度カメラ４０２の双方を備えるとして説明したが、全天球カメラ４００のみあるいは高解像度カメラ４０２のみを装着してもよい。ロボット１００が全天球カメラ４００のみを装着する場合には、認識部１５６は天球撮像範囲４１８の一部を切り取ることにより撮像領域４２０を抽出すればよい。ロボット１００が高解像度カメラ４０２のみを装着する場合には、高解像度カメラ４０２の撮像方向を移動させることにより、音源を撮像すればよい。

発声体の確認に際しては、口唇チェックのほか、発声体がロボット１００の方を向いているか否かをチェックしてもよい。発声体がロボット１００に声を掛けるとき、発声体はロボット１００に正対すると考えられる。音声検出時に、発声体がロボット１００に正対しているか否かをチェックすることにより、複数の発声体が検出されたときでもロボット１００に実際に話しかけた発声体を正しく検出しやすくなる。発声体が正対しているか否かは、顔画像において二つの目を認識できるかなど、既存の画像認識技術により判定可能である。

誤認識しやすい物体（以下、「誤認識物体」とよぶ）、たとえば、オーディオや鏡、テレビなどの場所をあらかじめロボット１００に憶えさせてもよい。あるいは、ロボット１００は屋内行動に際して、オーディオ等の場所を検出し、マップ管理部２１０は屋内情報の一部として誤認識物体の座標を登録してもよい。あらかじめ誤認識物体の場所を認識しておけば、ロボット１００は音を検出したときに誤認識物体が存在する音源方向を解析対象から除外できるため、発声体をより速やかに認識しやすくなる。また、誤認識物体から音声が発生したときにも、ロボット１００は誤認識物体に顔を向けてもよい。この場合、「音に反応する行動」を表現しつつ、誤認識物体の画像分析を行わなくてもよい。

本実施形態においては、テレビは誤認識物体として扱われるものとして説明した。ロボット１００は、温度センサ４０６や形状測定センサ４０８などのセンシング情報により、テレビを発生源候補から除外できる。その一方、テレビ電話により、オーナーが遠隔から留守中のロボット１００に話しかける状況も想定される。このような状況を考慮すると、実物の発声体だけではなく、テレビに映る発声体に対してもリアクション行動を取るように設定することが望ましい。

音声が検出されたとき、親密度が高い人の声の特徴を優先的に検索してもよい。ロボット１００が、父親と母親に同時に話しかけられた状況を想定する。父親に対する親密度は母親に対する親密度よりも高いとする。このときには、複数の音声それぞれの特徴を抽出し、父親の音声特徴および母親の音声特徴のうち父親の音声特徴に一致する音声を先に特定する。父親の音声特徴に一致する音声が検出されていれば、父親に対応する発声体に対するリアクションを優先的に実行する。このような制御方法によれば、親密度に応じて声の聞き分けおよび対応行動の優先度を制御できる。親密度の高いオーナーの声がけには最優先で反応するという行動特性が実現される。

ロボット１００と発声体が所定距離以内であるときに限り、口唇の動きをチェックするとしてもよい。また、全天球カメラ４００により画像を録画しておき、音声を検出したときにはその検出タイミングにて口唇が動いている、あるいは、ロボット１００に対して正対している発声体を録画画像により確認してもよい。

本実施形態においては、特殊環境音はロボット１００を驚かせる音、ロボット１００の好奇心を喚起する音であるとして説明したが、そのほかにもロボット１００の好む音を定義してもよい。たとえば、ヴァイオリンの音、クラシックやロックミュージックなどの楽曲、特定の歌手の声を「快感音」として設定し、快感音が聞こえてきたときにもさまざまなモーション、たとえば、喜びを表すモーションを実行させてもよい。

本実施形態におけるモーション選択は、確率的に実行されてもよい。たとえば、発声体が認識されたとき、ロボット１００は高い確率にて発声体に正対するが、正対せずに無視する可能性があってもよい。また、親密度が高い発声体のときには高確率で正対し、親密度が低い発声体のときには低確率にて正対するとしてもよい。

特殊環境音に対するリアクションも常に同じである必要はない。たとえば、工事の大きな音を認識すると１回目は音源から離れるモーションを選択するが、以降は音源に近づく、リアクションを行わないなどモーション選択を変化させてもよい。

本実施形態においては、「発声体（生物）」による「発声源」を確実に認識することを目的として説明したが、発声体に限らず、無生物も含めた「発音源」を認識する上でも有効である。たとえば、テレビの音声を検出したとき、テレビの方向を確実に特定する上でも本実施形態のように画像等で音源を確認する方式は有効である。
この場合にも、マイクロフォンアレイ４０４により音源方向を検出したときにはロボット１００はその検知方向に頭部を向け、音源を画像等により確認したときには音源の方向に胴部を向けるとしてもよい。

音声分類部１７４が、所定のカテゴリ、たとえば、特殊環境音、悲鳴、破裂音、破壊音、超音波などを検出したときには、画像や形状、熱分布などにより音源を特定する前に、あるいは、音源を特定することなく、ロボット１００は所定のモーションを実行してもよい。ここでいう所定のモーションとは、音に対する反応としてモーションとしてあらかじめ任意に定義可能である。このような処理方法によれば、特に注意を喚起すべき音声が検出されたときには、音源方向特定処理の結果を待つことなくすぐに驚き等を示すモーションを実行できる。

図１２に関連して説明した発声体のトラッキングにおいては、常時、撮像された画像により発声体の存在する方向を認識する必要はない。たとえば、ロボット１００のカメラ４１０により、あるいは、外部センサ１１４により、発声体の位置検出がなされたときには、サーバ２００の位置管理部２０８は、各発声体の位置座標を随時マップに記録しておく。この状態で、音声が検出されたときには、ロボット１００はマップを参照して、発声体を特定してもよい。

［追加例］
本実施形態においては、マイクロフォンアレイ４０４により１以上の発音体を特定し、画像認識等により真の発声源（音源）を特定するとして説明した。
マイクロフォンアレイ４０４および認識部１５６は、唯一の音源方向とその音源方向に対する信頼度を特定してもよい。マイクロフォンアレイ４０４の検出信号により、１つの音源方向を特定した上でその信頼度を計算する手法は既知である。たとえば、認識部１５６は、音量が大きいときほど音源方向に対する信頼度を高く設定してもよい。また、同時に複数の発音体が特定されたときには、音量が大きい方の発音体が存在する方向を音源方向と特定する代わりに、各発音体から検出された音量比に応じて信頼度を計算してもよい。たとえば、音源方向Ｄ１からの音量と音源方向Ｄ２からの音量の比率が４：１であるとき、認識部１５６は「音源方向Ｄ１・信頼度８０％（＝４／（４＋１）×１００）」として算出してもよい。

追加例におけるロボットシステム３００において、サーバ２００のデータ処理部２０２は、位置管理部２０８、マップ管理部２１０、認識部２１２、動作制御部２２２、親密度管理部２２０に加えて、感情管理部を含む。

感情管理部は、ロボット１００の感情（寂しさ、好奇心、承認欲求など）を示すさまざまな感情パラメータを管理する。これらの感情パラメータは常に揺らいでいる。感情パラメータに応じて複数の行動マップの重要度が変化し、行動マップによってロボット１００の移動目標地点が変化し、ロボット１００の移動や時間経過によって感情パラメータが変化する。

たとえば、寂しさを示す感情パラメータが高いときには、感情管理部は安心する場所を評価する行動マップの重み付け係数を大きく設定する。ロボット１００が、この行動マップにおいて寂しさを解消可能な地点に至ると、感情管理部は寂しさを示す感情パラメータを低下させる。また、応対行為によっても各種感情パラメータは変化する。たとえば、オーナーから「抱っこ」をされると寂しさを示す感情パラメータは低下し、長時間にわたってオーナーを視認しないときには寂しさを示す感情パラメータは少しずつ増加する。

ロボット１００の内部センサ１２８は、更に、加速度センサを含んでもよい。認識部１５６は、加速度センサにより、ロボット１００の抱え上げや抱えおろし、落下を認識してもよい。

ロボット１００のデータ処理部１３６は、認識部１５６、動作制御部１５０、センサ制御部１７２、音声分類部１７４に加えて、瞳制御部を含む。瞳制御部は、眼画像（後述）を生成し、目１１０に眼画像を表示させる。

図１３は、眼画像１７６の外観図である。
ロボット１００の目１１０は、眼画像１７６を表示させるディスプレイとして形成される。瞳制御部は、瞳画像１７８と周縁画像１６８を含む眼画像１７６を生成する。瞳制御部は、また、眼画像１７６を動画表示させる。具体的には、瞳画像１７８を動かすことでロボット１００の視線を表現する。また、所定のタイミングで瞬き動作を実行する。瞳制御部は、さまざまな動作パターンにしたがって眼画像１７６の多様な動きを表現する。目１１０のモニタは、人間の眼球と同様、曲面形状を有することが望ましい。

瞳画像１７８は、瞳孔領域２５８と角膜領域１６３を含む。また、瞳画像１７８には、外光の映り込みを表現するためのキャッチライト１７０も表示される。眼画像１７６のキャッチライト１７０は、外光の反射によって輝いているのではなく、瞳制御部により高輝度領域として表現される画像領域である。

瞳制御部は、モニタにおいて、瞳画像１７８を上下左右に移動させる。ロボット１００の認識部１５６が移動物体を認識したときには、瞳制御部は瞳画像１７８を移動物体に向けることにより、ロボット１００の「注視」を表現する。

瞳制御部は、瞳画像１７８を周縁画像１６８に対して相対的に動かすだけではなく、瞼（まぶた）画像を表示させることにより、半眼や閉眼を表現できる。瞳制御部は、閉眼表示により、ロボット１００が眠っている様子を表現してもよいし、眼画像１７６の４分の３を瞼画像で覆ったあと、瞼画像を揺らすことでロボット１００が半睡状態、つまりウトウトしている状態にあることを表現してもよい。

（音の記憶）
音声と、その音声の「印象」を対応づけてもよい。具体的には、認識部２１２（または認識部１５６）は、ある音声が検出されてから所定時間以内、たとえば、５秒位内に発生したイベントに応じて、その音声を「ポジティブ音」または「ネガティブ音」に分類してもよい。まず、あらかじめ、ポジティブ・イベントとネガティブ・イベントを登録しておく。ポジティブ・イベントとは、撫でられる、抱っこされるなどの快行為として定義される。ポジティブ・イベントは、親密度が所定値以上のユーザ（好きな人）を視認することであってもよい。ある音声パターンＳ１を検出してから所定時間以内にポジティブ・イベントが検出されたとき、認識部２１２は音声パターンＳ１を「ポジティブ音」として登録する。

ネガティブ・イベントとは、叩かれる、落とされるなどの不快行為として定義される。ネガティブ・イベントは、親密度が所定値以下のユーザ（嫌いな人）を視認することであってもよい。ネガティブ・イベントは、物理的衝撃、所定量以上の音声（例：落雷音）、所定量以上の光（例：閃光）など、各種センサにおいて所定量以上の信号が検出されることであってもよい。ある音声パターンＳ２を検出してから所定時間以内にネガティブ・イベントが検出されたとき、認識部２１２は音声パターンＳ２を「ネガティブ音」として登録する。

音声パターンＳ３が検出されたから所定時間以内にポジティブ・イベントもネガティブ・イベントも発生しなかったとき、認識部２１２は音声パターンＳ３を「中立音」として登録する。

認識部１５６は、音声が検出されたとき、経験済みの音声パターンと比較する。未経験の音声パターンであれば、動作制御部１５０は、近づく、離れる、視線を向けるなどの所定のモーションを実行する。経験済みの音声パターンであれば、動作制御部１５０は、近づく、離れるなどのモーションを実行しないとしてもよい。たとえば、動作制御部１５０は、１回目に音声パターンＳ３（未経験の中立音）を検出したときには、音源方向から離れるモーションを実行する。そして、２回目に音声パターンＳ３（経験済みの中立音）を検出したときには、動作制御部１５０は音源方向に首を向ける、または、視線を向けるが移動はしない。このような制御方法によれば、「音に慣れる」という行動特性を表現できる。特殊環境音であっても、中立音であれば、１回目は驚いても、２回目以降は驚ろかない、といった制御が実現される。

音声パターンＳ１（ポジティブ音）を２回目以降に検出したときにも同様である。動作制御部１５０は、１回目に音声パターンＳ１（未経験のポジティブ音）が検出されたときには、音源方向から少し離れるモーションを実行するとする。そのあと、ポジティブ・イベントが発生した場合、認識部２１２は音声パターンＳ１をポジティブ音として登録する。２回目に音声パターンＳ１（経験済みのポジティブ音）が検出されたときには、動作制御部１５０は音源方向に近づくモーションを実行する。このような制御方法によれば、特殊環境音であっても、音声パターンＳ１からポジティブ・イベントが連想されることでむしろ音声パターンＳ１を好むという行動特性を表現できる。たとえば、玄関の呼び鈴が鳴った時に親密度の高いオーナーが現れるという経験をしたとき、呼び鈴が聞こえると玄関に近づくという制御が可能となる。

音声パターンＳ２（ネガティブ音）を２回目以降に検出したときも同様である。動作制御部１５０は、１回目に音声パターンＳ２（未経験のネガティブ音）が検出されたときには、音源方向から少し離れるモーションを実行する。そのあと、ネガティブ・イベントが発生した場合、認識部２１２は音声パターンＳ２をネガティブ音として登録する。２回目に音声パターンＳ２（経験済みのネガティブ音）が検出されたときには、動作制御部１５０は音源方向から大きく離れるモーションを実行する。このような制御方法によれば、音声に苦手な記憶が結びつくという行動特性を表現できる。たとえば、雷雲の鳴る音（音声パターンＳ２）のあとに落雷の轟音（ネガティブ・イベント）が発生したとき、ロボット１００は雷雲の音をネガティブ音として記憶する。この結果、実際に落雷が発生する前でも、雷雲のゴロゴロという音が聞こえてきたとき、部屋の奥に逃げ込むという行動表現が可能となる。

音声に対するポジティブまたはネガティブな印象の大きさはパラメータとして数値化されてもよい（以下、「肯定度」とよぶ）。肯定度は、＋１００（ポジティブ）から−１００（ネガティブ）の範囲で変化する。ある音声パターンＳ４の発生後、所定時間以内にポジティブ・イベントが発生したときには、認識部２１２は音声パターンＳ４についての肯定度を加算する。一方、ネガティブ・イベントが発生したときには、認識部２１２は音声パターンＳ４についての肯定度を減算する。このような制御を繰り返すことにより、音声に対する肯定度を経験に応じて変化させてもよい。音声とその後に生じたイベントに応じて、音声に対する印象を定義することにより、音声とイベントの間の「因果性」をロボット１００に認識させることができる。

（音の選択）
マイクロフォンアレイ４０４は、常時、外部の音を検出する。認識部１５６は、音声を検出するごとにカメラ４１０を利用して音源方向（発声源）を特定してもよいが、このような処理を継続することは処理負荷が大きくなる可能性もある。追加例においては、プロセッサ１２２の計算能力を有効活用し、かつ、節電のため、ロボット１００は外部音の多くを無視する。認識部１５６は、所定の「注意条件」が成立したとき、カメラ４１０または温度センサ４０６を利用して音源方向を正確に特定する。

注意条件は、発声源を特定すべき状況として、設計者が任意に設定すればよい。たとえば、ロボット１００の静止状態が所定時間以上継続しているときに注意条件が成立し、このときに音声が検出されると画像認識等との併用により音源方向を正確に特定してもよい。あるいは、無音状態が所定時間以上継続しているとき、所定値以上の音声が検出されたとき、静止状態から移動を開始しようとするときなどに、注意条件が成立するとしてもよい。注意条件を設定することにより、ロボット１００はすべての音声に対して過敏に反応しなくなる。注意条件により、ロボット１００の鈍感さを調整できる。

注意条件の有無に関わらず、ロボット１００は信頼度に応じて、「発音体」に対する「興味」を変化させてもよい。上述したように、追加例においては、マイクロフォンアレイ４０４が検出した音声に対して、認識部１５６は音源方向とともに信頼度を計算する。動作制御部１５０は、信頼度が第１閾値（例：２０％未満）のときには、特段のモーションを選択しない。いいかれば、音源方向がはっきりしない音声には興味を示さない。

信頼度が第１閾値以上第２閾値未満（例：２０％以上４０％未満）のとき、瞳制御部は瞳画像１７８を音源方向に向けて動かすことで「わずかな興味」を表現する。信頼度が第２閾値以上第３閾値未満（例：４０％以上６０％未満）のとき、動作制御部１５０は頭部フレーム３１６を回転させて、ロボット１００の顔を音源方向に向けることで「中程度の興味」を表現する。信頼度が第３閾値以上のとき、動作制御部１５０はボディ１０４を回転させてロボット１００の体全体を音源方向に向けることでより強い興味を表現してもよい。

認識部１５６は、感情パラメータ等に応じて第１閾値から第３閾値を変化させてもよい。たとえば、認識部１５６は、好奇心を示す感情パラメータが所定値以上であるときやロボット１００が静止状態にあるときには、各閾値を低下させてもよい。また、好奇心を示す感情パラメータが所定値以下であるときや親密度の高いユーザが視認されているときなど他に興味が向きやすい状況においては、各閾値を上昇させてもよい。このような制御方法によれば、音に興味を持ちやすい状況と持ちにくい状況を表現できる。

Claims

ロボットのモーションを選択する動作制御部と、
前記動作制御部により選択されたモーションを実行する駆動機構と、
音源方向を検出するマイクロフォンアレイと、
ロボット周辺の略全域を同時に撮影可能な第１のカメラと、
前記マイクロフォンアレイにより検出された音源方向の画像において所定の特徴を有する発音体が検出されたとき、前記発音体を音源として特定する認識部と、を備え、
前記動作制御部は、前記マイクロフォンアレイにより複数の発音体が検出されたときには、それぞれの発音体に対応づけられる親密度に基づいて前記複数の発音体それぞれを対象としたリアクションの実行順位を決定することを特徴とする自律行動型ロボット。
前記動作制御部は、前記複数の発音体のうち、最も親密度の高い発音体に対応するリアクションを最初の実行対象として選択することを特徴とする請求項１に記載の自律行動型ロボット。
前記動作制御部は、音声が検出されるとき、音源方向にロボットの頭部を向けるモーションを選択することを特徴とする請求項１に記載の自律行動型ロボット。
前記動作制御部は、画像において発音体を特定したときには、発音体にロボットの胴部を向けるモーションを選択することを特徴とする請求項１に記載の自律行動型ロボット。
検出された音声を音声特徴に基づいて分類する音声分類部、を更に備え、
前記動作制御部は、検出された音声が所定の分類に属するときには、前記検出された音声に対する反応を示す所定のモーションを選択することを特徴とする請求項１に記載の自律行動型ロボット。
前記認識部は、発音体の口唇動作を検出し、音声検出期間の画像において発音体の口唇動作が検出されたことを条件として、前記発音体を音源として認識することを特徴とする請求項１に記載の自律行動型ロボット。
温度センサ、を更に備え、
前記認識部は、前記発音体が所定の温度範囲にあることを条件として、前記発音体を音源として認識することを特徴とする請求項１に記載の自律行動型ロボット。
形状測定センサ、を更に備え、
前記認識部は、前記発音体が所定の形状を有することを条件として、前記発音体を音源として認識することを特徴とする請求項１に記載の自律行動型ロボット。
前記認識部は、ロボットの頭部を音源方向に向けて画像から発音体をサーチしているときに特定ワードの発話が検出されたときには、他の音源方向を撮影した画像を対象として発音体をサーチすることを特徴とする請求項３に記載の自律行動型ロボット。
ロボットの眼に表示させる瞳画像を変化させる瞳制御部、を更に備え、
瞳制御部は、前記瞳画像を音源方向に移動させることを特徴とする請求項１に記載の自律行動型ロボット。
ロボットのモーションを選択する動作制御部と、
前記動作制御部により選択されたモーションを実行する駆動機構と、
音源方向を検出するマイクロフォンアレイと、
ロボット周辺の略全域を同時に撮影可能な第１のカメラと、
前記第１のカメラよりも高解像度にて特定方向を撮影可能な第２のカメラと、
前記マイクロフォンアレイにより検出された音源方向のうち、前記第１のカメラにより撮影された画像において所定の特徴を有する発音体が存在する方向を検出し、検出された方向を前記第２のカメラにより撮影し、前記第２のカメラによる画像に基づいて発音体を音源として特定する認識部と、を備えることを特徴とする自律行動型ロボット。