JP2020046478A

JP2020046478A - ロボットシステム

Info

Publication number: JP2020046478A
Application number: JP2018172875A
Authority: JP
Inventors: 浦川　康孝; Yasutaka Urakawa; 康孝浦川; 宗明島田; Muneaki Shimada
Original assignee: Fuetrek Co Ltd
Current assignee: Fuetrek Co Ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2020-03-26

Abstract

【課題】本発明は、音声認識の精度を向上させることで利便性の向上を図ることができるロボットシステムを提供することを目的とする。【解決手段】互いに連携可能かつ移動可能な複数のロボットＡを備えるロボットシステムであって、複数のロボットは、ユーザが発した音声を入力可能な音声入力部１１と、音声入力部１１から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部１１３と、複数のロボット間における音声認識結果の送受信が可能な通信部１３と、音声認識結果に基づいてユーザに対して応答する応答部１５と、を有する。【選択図】図２

Description

本発明は、複数台のロボットを連携させるロボットシステムに関する。

近年、複数台のロボットを連携させたロボットシステムが普及しつつある。ロボットシステムの構成には、例えば音声認識機能を有するロボット（対話ロボット）が含まれ、ユーザの発話に基づいて動作したり、ロボット同士で会話を行ったりする。例えば、引用文献１には、複数台の対話ロボット同士が会話等を行う技術が開示されている。

特開２００３−２０５４８３号公報

しかしながら、複数台のロボットを使用した従来のロボットシステムは、例えば対話においてユーザの意図したロボットが応答しない等、利便性を十分に向上できていないという問題がある。

本発明は、このような点に鑑みてなされたものであり、複数台のロボットにおける音声認識の精度を向上させることで利便性の向上を図ることができるロボットシステムを提供することを目的とする。

上記目的を達成するために、本発明の一態様に係るロボットシステムは、互いに連携可能かつ移動可能な複数のロボットを備えるロボットシステムであって、前記複数のロボットは、ユーザが発した音声を入力可能な音声入力部と、前記音声入力部から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部と、前記複数のロボット間における前記音声認識結果の送受信が可能な通信部と、前記音声認識結果に基づいてユーザに対して応答する応答部と、を有することを特徴とする。

また、本発明の他の態様に係るロボットシステムは、互いに連携可能かつ移動可能な複数のロボットを備え、前記複数のロボットは、ユーザが発した音声を入力可能な音声入力部と、前記音声入力部から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部と、前記複数のロボット間における前記音声認識結果の送受信が可能な通信部と、前記音声認識結果に基づいてユーザに対して応答する応答部と、を有し、前記複数のロボットの前記音声認識部は、互いに異なる言語の音声認識が可能であり、前記複数のロボットのうち前記音声認識結果の信頼度が最も高いロボットが、ユーザに対して応答することを特徴とする。

本発明の各態様によれば、複数台のロボットにおける音声認識の精度を向上させてロボットシステムにおける利便性の向上を図ることができる。

本発明の第１実施形態のロボットシステムの概略構成およびロボットシステムのユースケースの一例を示す図である。本発明の第１実施形態のロボットシステムにおけるロボットの構成について説明する図である。本発明の第１実施形態のロボットシステムにおける動作の一例を示すシーケンス図（その１）である。本発明の第１実施形態のロボットシステムにおける動作の一例を示すシーケンス図（その２）である。本発明の第１実施形態の変形例によるロボットシステムにおける動作の一例を示すシーケンス図である。本発明の第２実施形態のロボットシステムの概略構成およびロボットシステムのユースケースの一例を示す図である。本発明の第２実施形態のロボットシステムにおける動作の一例を示すシーケンス図である。本発明の第３実施形態のロボットシステムの概略構成およびロボットシステムのユースケースの一例を示す図である。本発明の第３実施形態のロボットシステムにおける動作の一例を示すシーケンス図である。本発明の第３実施形態の変形例によるロボットシステムの概略構成およびロボットシステムのユースケースの一例を示す図である。本発明の第３実施形態の変形例によるロボットシステムにおける動作の一例を示すシーケンス図である。

１．第１実施形態
本発明の第１実施形態によるロボットシステムについて、図１から図５を参照して説明する。

（１−１）第１実施形態によるロボットシステム
まず、第１実施形態によるロボットシステムの概要について図１を用いて説明する。
図１は、ロボットシステム１の概略構成およびロボットシステム１のユースケースの一例を示す図である。ロボットシステム１は、複数のロボット（本例ではロボットＡ，Ｂの２台のロボット）を連携させるロボットシステムである。

詳しくは後述するが、ロボットＡ，Ｂはそれぞれ、音声認識機能を有している。ロボットＡ，Ｂはいずれも、ユーザ５００の発話音声について音声認識を実行可能であって、音声認識結果に基づいた音声による応答音声の再生が可能な対話ロボットである。ロボットシステム１は、ユーザ５００の発話音声を音声認識可能なロボットＡ，Ｂが、ユーザ５００の発話音声に基づいて応答することで、ユーザ５００にロボットとの対話サービスを提供する。例えば、ユーザ５００が所定の発話（例えば「こんにちは」）を行うと、ユーザ５００の近傍に位置しているロボットＡはこのユーザ５００の発話音声について音声認識を行い、音声認識結果に基づく応答音声（例えば「こんにちは。お話しよう！」）を出力する。

また、ロボットＡ，Ｂは、通信機能を搭載しており、互いにデータの送受信を行う等の連携が可能である。このため、本実施形態によるロボットシステム１は、ロボットＡ，Ｂのそれぞれにおける音声認識結果を両者で共有可能となっている。
また、ロボットシステム１を構成するロボットＡ，Ｂは、例えば自律的に移動（歩行や走行）可能に構成されており、配置されている建物内等を適宜移動（歩行または走行）可能である。したがって、ロボットシステム１を構成する複数のロボット（ロボットＡ，Ｂ）のうち一部のロボット（例えばロボットＢ）が、発話を行っているユーザ（本例ではユーザ５００）の近傍に位置していない、すなわちユーザの発話音声が届く範囲に位置していない場合もある。ここで、ユーザの近傍とは、ロボットシステム１における各ロボットが、ユーザの発話音声を音声認識に十分な音量かつ環境音（ノイズ）の少ない状態で収音できる範囲を示す。

複数の対話ロボットがそれぞれ異なる位置に移動している場合、発話を行っているユーザと対話ロボットとの距離や、周囲環境の影響（環境音等のノイズの大小）等によって各対話ロボットにおける音声認識の精度にばらつきが生じることがある。詳しくは後述するが、図１に示す例では、ユーザ５００に対してロボットＡは距離αの位置（ユーザ５００の発話音声を音声認識できる位置）にあり、ロボットＢは距離βの位置（ユーザ５００の発話音声の認識ができない位置）にある。
このような場合にも、ロボットシステム１は、上述の通信機能によって複数のロボットが連携可能であるため、ユーザの発話音声が届く範囲に位置しているロボット（本例ではロボットＡ）による精度の高い音声認識結果を、他のロボット（本例ではユーザ５００の近傍に位置していないロボットＢ）と共有することができる。このため、ロボットシステム１は、システム全体としてユーザの発話音声についての音声認識の精度を向上させることができる。またこれにより、ロボットシステム１は、ユーザの発話音声が到達しない位置にあるロボットにおいてもユーザに対して適切な応答をすることができ、利便性を向上することができる。

（１−２）ロボットの構成
ここで、図２を用いてロボットシステム１におけるロボットＡ，Ｂの構成について説明する。本実施形態においてロボットＡ，Ｂは同一の構成を有している。このため、以下の説明では、ロボットＡの構成について説明し、ロボットＢの構成の説明は省略する。
なお、理解を容易にするため、図２にはロボットＡにおいて本実施形態の説明に必須の構成のみを図示し、その他の構成は図示を省略する。

図２に示すように、ロボットＡは、ロボットＡの制御処理を統括する統括制御部１０を有している。統括制御部１０は、ロボットＡを構成する図２に示す各構成要素に対して、制御信号等を出力することにより直接または間接的に制御を行う。また、統括制御部１０には、各構成要素から種々の情報が集約される。統括制御部１０と各構成要素との関連については、後述する。

またロボットＡは、ロボットＡの周囲の音声を収音して入力可能な音声入力部１１を有している。音声入力部１１は、一または複数の収音装置（不図示）により形成されている。ここで、収音装置は、例えば全指向性（無指向性）マイクロフォンである。ここで、音声入力部１１に入力される音声（入力音声）は、例えばロボットシステム１のユーザの発話音声が想定される。音声入力部１１は、入力音声（アナログ信号）を音響処理部１１０に出力する。
音響処理部１１０は、音声入力部１１からアナログ信号として入力された入力音声をアナログ−デジタル（Ａ−Ｄ）変換してデジタル信号による音声データ（デジタル音声データ）を生成し、生成したデジタル音声データを音声認識部１１３に出力する。また、音声入力部１１が複数の収音装置（マイクロフォン）により形成されている場合、音響処理部１１０は、音声入力部１１から入力されたユーザの発話音声に基づいてユーザの位置（音源方向）を推定することで音源方向推定データを取得可能である。音響処理部１１０は、音源方向推定データ取得すると、当該データを必要に応じて統括制御部１０に出力する。

音声認識部１１３は、音響処理部１１０からデジタル音声データが入力されると、不図示の音声認識エンジンにおいて、自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）により、音声データを単語として認識する処理を行う。また、音声認識部１１３は、不図示の意味解析エンジンにおいて、音声認識エンジンでの音声認識結果（単語）の組み合わせに対して自然言語認識（ＮＬＵ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）を行い、音声認識結果の意味を解析する。これにより、音声認識部１１３において、音声入力部１１に入力された入力音声（ユーザの発話内容）の意図を解析した結果を示す音声認識結果（例えばテキストデータ）が生成される。音声認識部１１３は、音声認識結果を後述する応答制御部１２０に出力する。応答制御部１２０に出力された音声認識結果は、さらに統括制御部１０に出力される。
ロボットＡは、音声認識部１１３を有していることで、インターネットに接続して所定の音声認識サーバを利用することなく、自機内（ローカル環境）においてユーザの発話に基づく入力音声の音声認識処理（意味解析処理を含む）を実行することができる。

また、ロボットＡは、所定の通信モジュールを用いて他のロボット（本例では、ロボットＢ）と音声認識結果を含むデータの送受信が可能な通信部１３を有している。ここで、通信部１３において用いられる通信モジュールは、例えばＢｌｕｅｔｏｏｔｈ（登録商標）等（無線ＰＡＮ）やｗｉ−ｆｉ（無線ＬＡＮ）等の規格によるものである。本実施形態における通信部１３は、他のロボット（本例では、ロボットＢ）との間での通信に用いられる構成であって、インターネットを介したサーバ通信等は行わない。

データ送信時において、通信部１３は、統括制御部１０から入力される制御信号（通信開始信号）に基づいて他のロボットに対してデータ送信を行う。例えば、ロボットＡの通信部１３は、統括制御部１０から通信開始信号と合わせて音声認識部１１３による音声認識結果が入力されると、入力された音声認識結果をロボットＢに送信する。
また、データ受信時において通信部１３は、他のロボット（例えばロボットＢ）から受信したデータを統括制御部１０または音声認識部１１３に出力する。これにより、他のロボットから受信したデータが共有されて、統括制御部１０によって利用する（例えば各構成に出力する）ことが可能となる。

統括制御部１０は、自機（本例では、ロボットＡ）の音声認識部１１３における音声認識結果または、通信部１３が受信した他のロボット（本例では、ロボットＢ）の音声認識結果が入力されると、応答制御部１２０に対しユーザへの応答を指示する制御信号（応答指示信号）を生成する。統括制御部１０は、生成した応答指示信号と音声認識結果とを応答制御部１２０に出力する。

応答制御部１２０は、統括制御部１０から応答指示信号および音声認識結果が入力されたことに基づいて、ユーザに対する応答に用いる文章（応答文）を生成し、応答文を応答部１５に出力して、ユーザへの応答を指示する。
図２に示すように、応答制御部１２０は、応答文生成部１２２を有している。応答文生成部１２２は、応答制御部１２０に入力された音声認識結果に基づいて、応答文を生成する。応答文生成部１２２が生成する応答文は、例えばテキストデータである。

具体的には、応答文生成部１２２は、音声認識結果に基づいてユーザが所望する応答の内容（ユーザが求める情報）を特定すると、ユーザが求める情報を含む応答文を生成する。応答文生成部１２２は、音声認識結果に基づいて、ユーザが求める情報が内部で保持している内部情報（例えば、単なる挨拶や時間、および予めロボットＡ内に登録されている情報）であると特定した場合には、不図示の記憶領域（メモリ）からユーザが求める情報に対応する内容の内部情報を取得し、当該内部情報を含む応答文を生成する。また、応答文生成部１２２は、ユーザが求める情報が内部情報のみでは対応できない情報であると判定した場合に、ネットワーク通信部（不図示）を介してインターネットに接続し、所定の検索サーバを経由してユーザが求める情報を取得してもよい。
応答文生成部１２２が生成した応答文は、応答制御部１２０から応答部１５に出力される。なお、応答文生成部１２２が生成する応答文（テキストデータ）は、プレーンテキストであってもよいし、音声合成マークアップ言語（ＳＳＭＬ）形式等であってもよい。

応答部１５は、入力された応答文に基づいて応答音声を生成可能な応答音声生成部１５１と、応答音声生成部１５１が生成した応答音声を出力（再生）する音声出力部１５３とを有している。
応答音声生成部１５１は、テキストデータである応答文を音声変換し、応答文の内容と一致する内容の応答音声を合成音声によって生成すると、音声出力部１５３に出力する。音声出力部１５３は所定のスピーカであって、入力された応答音声を自機（本例では、ロボットＡ）が配置された空間に出力する。これにより、ロボットＡは、音声入力部１１に入力されたユーザの発話音声に対応する応答音声を応答部１５の音声出力部１５３から出力し、ユーザとの対話を成立させることができる。

図１に示すように、ロボットシステム１に含まれるロボット（ロボットＡ，Ｂ）は、人型を模した形状の物理構成（ハードウェア）を有している。このため、例えば音声出力部１５３に該当する所定のスピーカは、ロボットＡの頭部、特に口に該当する箇所の近傍に設けると、ユーザとの対話により臨場感を与えることができる。

また、ロボットＡは、所定の撮影装置（カメラ）で撮像した画像（または映像）を取得して入力可能な画像入力部１７を有している。画像入力部１７は、例えばロボットＡの物理構成における頭部（目に該当する箇所の近傍）に搭載されている。画像入力部１７は、撮影装置から入力された画像（入力画像）を画像処理部１７０に出力する。

画像処理部１７０は、入力画像に対して画像認識を実行して、ユーザの存在有無や、ユーザまたは他のロボット（本例では、ロボットＢ）の現在位置、および自機（本例ではロボットＡ）とユーザまたは自機と他のロボット（本例では、ロボットＢ）との距離を検出する。また、画像処理部１７０は、ユーザが自機の近傍にいる場合には、ユーザの顔の向き等も検出することができる。画像処理部１７０は、必要に応じて入力画像から検出した画像認識結果を統括制御部１０に出力する。

また、ロボットＡは、自機を移動可能とするための移動装置（車輪、キャタピラ、複数の脚部等）を駆動可能な電気的駆動源（モータ、アクチュエータ等）である駆動部１９を有している。駆動部１９は、例えばロボットＡのハードウェアにおいて、地面と接する位置に設けられた移動装置に付属している。例えば、ロボットＡは、移動装置として足を模した部位の裏（接地面）に設けられた車輪を有しており、駆動部１９は、該車輪を駆動させるモータである。駆動部１９は、駆動制御部１９０の制御に基づいて移動装置を駆動させる。

駆動制御部１９０は、統括制御部１０からの制御信号（駆動指示信号）に基づいて駆動部１９を制御可能な構成である。例えば、統括制御部１０は、画像処理部１７０から入力されたユーザの位置情報を含む駆動指示信号を駆動制御部１９０に送信する。駆動制御部１９０は、駆動指示信号から移動方向や移動距離のデータを抽出し、抽出したデータによって駆動部１９を制御することで、ロボットＡを統括制御部１０が指示する位置に移動させることができる。

以上説明したように、ロボットＡは、統括制御部１０の制御に基づいてロボットシステム１における対話サービスに係る種々の動作を実行可能である。すなわち、ロボットＡは、音声入力部１１から入力されたユーザの発話音声について音声認識部１１３によって音声認識して音声認識結果を統括制御部１０に出力し、統括制御部１０からの指示に基づいて応答制御部１２０が応答文を生成し、応答部１５が応答文に応じた応答音声を再生することで、ユーザの発話音声に応じた応答が可能となる。また、ロボットＡは、通信部１３によって他のロボット（本例では、ロボットＢ）と音声認識結果の送受信が可能であり、音声認識結果を共有することができる。また、ロボットＡは、画像入力部１７から入力された画像に基づいて、例えばユーザの位置情報を統括制御部１０に出力し、統括制御部１０はユーザの位置情報を含む駆動指示信号を駆動制御部１９０に出力し、駆動制御部１９０は駆動指示信号に基づいて駆動部１９を制御して移動装置を駆動させることで、ユーザの近傍等の所定位置へ移動することができる。
なお、上述のように、ロボットＢもロボットＡと同様の構成を有するため、ロボットＡと同様の作用効果を奏する。

（１−３）ロボットシステム１の動作例
次に、本実施形態によるロボットシステム１のユースケースと、当該ユースケースにおけるロボットシステム１の動作の一例について、図１および図２を参照しつつ、図３および図４を用いて説明する。図３は、図１に示すユースケースの状況において、ロボットシステム１のロボットＡおよびロボットＢ間でロボットＡによる音声認識結果を共有する動作の一例を示すシーケンス図である。

図１に示すユースケースにおいて、ロボットＡはユーザ５００の近傍に位置しており、ロボットＢはロボットＡと比較してユーザの遠方に位置している。
例えば、ロボットＡとユーザ５００との距離αは１メートル未満であって、ユーザ５００の発話音声は音声認識の実行に十分な音量でロボットＡに到達する。また、ロボットＡがユーザ５００の近傍に位置しているため、ロボットＡにおける音声認識への周囲の環境音（ノイズ）の影響も少ない。したがって、ロボットＡは十分な精度でユーザ５００の発話音声を音声認識することができる。

一方、例えばロボットＢとユーザ５００との距離βは３メートル程度であって距離αの３倍程度であり、ロボットＢにはユーザ５００の発話音声が到達しないか、または到達しても発話音声の音量が音声認識に十分な音量ではない。さらに、ロボットＢはユーザ５００の遠方に位置しているため、ロボットＢにおける音声認識への周囲の環境音（ノイズ）の影響は、ロボットＡよりも大きくなる。したがって、ロボットＢはユーザ５００の発話音声を適正に音声認識することができないか、または音声認識の精度がロボットＡよりも低減される。

ここで、ユーザ５００がロボットＢの名称を含む発話（例えば「○○（ロボットＢの呼称）、時間を教えて！」）を行ったとする。この場合、ユーザ５００の近傍に位置しているロボットＡにおいて、ユーザ５００の発話音声が音声入力部１１から入力される。ロボットＡの音声入力部１１はユーザ５００の発話音声のデータである入力音声データ（アナログ信号）を音響処理部１１０に出力し、音響処理部１１０は入力音声データをデジタル音声データに変換して音声認識部１１３に出力する。

これにより、図３に示すように、ロボットＡの音声認識部１１３においてユーザ５００の発話音声について音声認識が開始され（ステップＳ１０１）、ユーザ５００の発話音声を解析したテキストデータとして音声認識結果が導出され（ステップＳ１０３）、導出された音声認識結果が応答制御部１２０に出力される。

ロボットＡの応答制御部１２０は、入力された音声認識結果を統括制御部１０に出力する。また、ロボットＡの統括制御部１０は、入力された音声認識結果に基づいてユーザ５００の発話が他のロボット（本例では、ロボットＢ）に対する発話であるか否かを判定する（ステップＳ１０５）。例えば、ロボットＡの統括制御部１０は、入力された音声認識結果にロボットＢの呼称が含まれているか否かによって、ユーザ５００の発話がロボットＢに対する発話であるか否かを判定する。

本例において、ユーザ５００の発話音声（例えば「○○（ロボットＢの呼称）、時間を教えて！」）の冒頭にはロボットＢの呼称が含まれており、ユーザ５００の発話対象のロボットはロボットＢであるとする。このため、統括制御部１０は、ユーザ５００の発話がロボットＢに対する内容であると判定し（ステップＳ１０５のＹｅｓ）、通信部１３に音声認識結果と通信開始信号を出力する。これにより、ロボットＡの通信部１３は、入力された音声認識結果をロボットＢに送信する（ステップＳ１０７）。なお、ロボットＢの呼称は必ずしも発話音声の冒頭である必要はなく、統括制御部１０における呼称判定処理の実装次第では、発話音声の途中や末尾に含まれてもよい。
ロボットＢは、通信部１３においてロボットＡの音声認識結果を受信し（ステップＳ１０８）、統括制御部１０に出力する。これにより、ロボットＡの音声認識結果がロボットＢに共有される。

なお、ロボットシステム１において、ユーザの発話対象のロボットを特定する方法は、ロボットの呼称に基づく方法に限られない。例えば、ロボットシステム１において、統括制御部１０は、音声認識部１１３から音声認識結果が入力されると、画像処理部１７０に対してユーザ（本例では、ユーザ５００）の視線方向のデータを要求する制御信号を出力する。画像処理部１７０は、画像入力部１７から入力された最新の入力画像内のユーザの画像からユーザの視線方向を検出し、統括制御部１０に出力する。統括制御部１０は、このユーザの視線方向に基づいて、ユーザの発話対象のロボットが自機（本例では、ロボットＡ）か否かを判定してもよい。この場合、例えば統括制御部１０は、ユーザの視線方向が自機の方向でない場合にユーザの発話対象のロボットが他のロボット（本例では、ロボットＢ）であると判定する。

ロボットＢは、ロボットＡから受信した音声認識結果に基づいてユーザ５００に対する応答に用いる応答文を生成する（ステップＳ１１０）。具体的には、ロボットＢの統括制御部１０は、応答指示信号とともにロボットＡの音声認識結果を応答制御部１２０に出力する。ロボットＢの応答制御部１２０は、応答指示信号および音声認識結果が入力されると応答文生成部１２２において応答文を生成する。本例では、音声認識結果から解析されたユーザの発話内容が「時間を教えて」というものであるため、応答文生成部１２２は、内部で保有している時刻情報から現在時刻を取得し、現在時刻を含む応答文（例えば「今は、６時３０分です」）を生成する。

ロボットＢの応答制御部１２０は、応答文生成部１２２が生成した応答文を応答部１５に出力する。応答部１５は、応答文が入力されると応答音声生成部１５１において応答音声を生成して音声出力部１５３に出力し、音声出力部１５３（本例では不図示のスピーカ）は、入力された応答音声を再生する（ステップＳ１１２）。これにより、ユーザ５００から距離βの位置に存在し、ユーザ５００の発話音声について音声認識が不可能であるロボットＢは、ロボットＡの音声認識結果を共有して、共有した音声認識結果に基づく応答（例えば「今は、６時３０分です」）を実行することができる。

一方、ユーザ５００の発話対象がロボットＡであり、ユーザ５００の発話音声にロボットＡの呼称が含まれている場合には、ロボットＡの統括制御部１０は、ユーザ５００の発話がロボットＢに対する内容でないと判定し（ステップＳ１０５のＮｏ）、自機の応答制御部１２０に音声認識結果を出力する。ロボットＡの応答制御部１２０は、応答文生成部１２２において応答文を生成し（ステップＳ１０９）、応答部１５は応答音声生成部１５１において応答文を音声変換し、応答音声を音声出力部１５３において再生する（ステップＳ１１１）。これにより、ユーザ５００から距離αの位置に存在し、ユーザ５００の発話音声について音声認識が可能であるロボットＡは、自機の音声認識結果に基づいてユーザ５００に対して応答することができる。また、ユーザ５００の発話内容にロボットＡ，Ｂのいずれの呼称も含まれていない場合は、ユーザの発話音声の音声認識が可能であるロボットＡがユーザ５００に応答すればよい。

このように、本実施形態によるロボットシステム１は、互いに連携可能かつ移動可能な複数のロボット（本例では、ロボットＡ，Ｂ）を備え、複数のロボットは、ユーザ（本例では、ユーザ５００）が発した音声（発話音声）を入力可能な音声入力部１１と、音声入力部１１への入力音声（ユーザの発話音声）について音声認識を実行し音声認識結果を導出可能な音声認識部１１３と、複数のロボット間における音声認識結果の送受信が可能な通信部１３と、音声認識結果に基づいてユーザに対して応答する応答部１５と、を有する。
このような構成を有する複数の対話ロボットを含むロボットシステム１は、各ロボットの通信部１３によって連携関係にある複数の対話ロボット間で音声認識結果を共有することができる。

また、本実施形態によるロボットシステム１において複数のロボットには、ユーザの近傍（例えば距離αの位置）に位置するロボットＡ（第一ロボットの一例）とロボットＡよりもユーザから遠い位置（例えば距離βの位置）にあるロボットＢ（第二ロボットの一例）が含まれる場合があり、ロボットＡは自機の音声認識結果を、通信部１３によってロボットＢに送信し、ロボットＢは自機の通信部１３において受信したロボットＡの音声認識結果に基づいて自機の応答部１５においてユーザに対して応答する。
これにより、一のロボット（例えばロボットＢ）の音声認識部１１３において音声認識ができず音声認識結果を取得できない場合においても、他のロボット（例えばロボットＡ）における音声認識結果を取得して、あたかも自機で音声認識したかのようにユーザに応答することができる。
このように、ロボットシステム１は、ユーザ（本例では、ユーザ５００）が呼びかけたロボット（本例では、ロボットＢ）が応答しない、または呼びかけたロボット以外のロボット（本例では、ロボットＡ）が応答するといったストレスをユーザに感じさせることなく、対話サービスを提供することができる。また、ロボットシステム１内のロボット間で、ユーザの近傍に位置して精度の高い音声認識が可能なロボットによる音声認識結果を共有することができる。これにより、ロボットシステム１は、システム全体としてユーザの発話音声についての音声認識の精度を向上させることで利便性を向上させることができる。

また、本実施形態によるロボットシステム１は、ユーザの発話対象となるロボットがユーザの遠方に位置している場合に、当該ロボットをユーザの近傍に誘導するように構成されていてもよい。
図４は、本実施形態によるロボットシステム１において、ロボットＡがロボットＢをユーザの現在位置まで誘導する場合の動作の一例を示すシーケンス図である。図４に示す動作は、図１に示すユースケースの状況と同様に、ロボットＡがユーザ５００の近傍（距離α）に位置し、ロボットＢがユーザ５００の遠方（距離β）に位置している状況におけるロボットシステム１の動作である。なお、図４において、図３に示すシーケンス図と同様の処理を行うステップには図３と同じ符号を付し、説明を省略する。

図４に示すように、ユーザ（例えば、図１に示すユーザ５００）が発話すると、ユーザ５００の発話音声についてユーザの近傍に位置するロボットＡが音声認識部１１３において音声認識を開始して音声認識結果を導出する（ステップＳ１０１−Ｓ１０３）。本例において、ロボットＡの統括制御部１０は、ユーザ５００の発話が、ユーザ５００の遠方に位置するロボットＢに対する発話であると判定すると（ステップＳ１０５のＹｅｓ）、音声認識結果と合わせてユーザ位置情報を通信部１３に出力してロボットＢに送信する（ステップＳ１２１）。ユーザ位置情報は、発話中のユーザの現在位置を座標で示すマッピングデータと、ユーザと自機との距離を示すユーザ距離データとで構成される。

具体的には、ロボットＡの統括制御部１０は、画像処理部１７０に対してマッピングデータおよびユーザ距離データを要求する信号（ユーザ情報要求信号）を出力する。画像処理部１７０は、ユーザ情報要求信号が入力されると、例えば画像入力部１７から入力された最新の入力画像に含まれるユーザ５００の画像からユーザ５００と自機との距離を検出しユーザ距離データを生成する。また、画像処理部１７０は、例えば予め作成されたマッピングデータ上における自機の位置と向き、およびユーザ距離データに基づいて、マッピングデータ上でのユーザ５００の現在位置を検出する。画像処理部１７０は、ユーザ５００の現在位置を示すマッピングデータを統括制御部１０に出力する。例えば、画像処理部１７０は、ユーザ情報要求信号が入力されると画像入力部１７に撮影装置（不図示）によるユーザ５００の撮影を指示してもよい。これにより、ユーザ５００の現在位置をより正確に検出することができる。また、統括制御部１０は、ユーザ情報要求信号を画像処理部１７０に出力する際に、音響処理部１１０から入力された音源方向推定データに基づいて、駆動制御部１９０を介して駆動部１９を駆動させ、自機（本例では、ロボットＡ）をユーザ５００がいると推定される方向に向けてもよい。このとき、ユーザの方向へ向けるのは、例えば撮影装置が搭載されている箇所（例えば頭部）のみであってもよい。これにより、画像入力部１７から入力される入力画像には、より確実にユーザ５００が含まれることとなる。

ロボットＡの統括制御部１０は、画像処理部１７０から入力されたマッピングデータおよびユーザ距離データを含むユーザ位置情報を生成すると、生成したユーザ位置情報を音声認識結果および通信開始信号と合わせて通信部１３に出力する。ロボットＡの通信部１３は、入力されたユーザ位置情報および音声認識結果をロボットＢに送信する。

また、ユーザ位置情報には、音響処理部１１０が取得した音源方向推定データが含まれていてもよい。この場合、ロボットＡの統括制御部１０は、音響処理部１１０に対して音源方向データを要求する信号（音源情報要求信号）を出力し、音響処理部１１０は音源情報要求信号が入力されると、ユーザ５００の位置を示す音源方向推定データを統括制御部１０に出力する。音響処理部１１０は、例えば音声入力部１１からユーザ５００の発話音声が入力された際に推定される音源方向を取得して所定の記憶領域で保持している。

ロボットＢの通信部１３は、ロボットＡの音声認識結果およびユーザ位置情報を受信し（ステップＳ１２２）、統括制御部１０に出力する。これにより、ロボットＡの音声認識結果およびユーザ位置情報がロボットＢに共有される。

ロボットＢは、受信したユーザ位置情報に基づいてユーザ５００と自機との距離を判定する（ステップＳ１２４）。例えば、ロボットＢの画像処理部１７０は、統括制御部１０の指示に基づいて、ユーザ距離データとユーザ方向データを検出する。ユーザ距離データは、自機とユーザ５００との距離データである。また、ユーザ方向データは、自機（ロボットＢ）に対するユーザ５００の現在位置の方向を示すデータである。ユーザ距離データおよびユーザ方向データは、予め取得されているマッピングデータ上における自機の位置と、ロボットＡから受信したマッピングデータ上におけるユーザ５００の現在位置とに基づいて検出される。ロボットＢの画像処理部１７０がユーザ距離データおよびユーザ方向データを検出して統括制御部１０に出力すると、統括制御部１０は入力されたユーザ距離データに基づいて、ユーザ５００と自機との距離が予め定められた距離よりも長いか否かを判定する。ここで予め定められた距離とは、ロボットＢがユーザ５００の音声を取得して音声認識部１１３における音声認識が可能と推定される距離（例えば距離α）を示す。本例では、ロボットＢとユーザ５００との距離は距離αよりも長い距離βである（図１参照）。このため、ロボットＢの統括制御部１０は、ユーザ５００と自機との距離が距離αよりも長いと判定して、ユーザ５００と自機との距離が距離αとなる地点まで移動する（ステップＳ１２６）。

具体的には、ロボットＢの統括制御部１０は、ロボットＢの画像処理部１７０が検出したユーザ距離データおよびユーザ方向データ含む駆動指示信号を駆動制御部１９０に出力する。ロボットＢの駆動制御部１９０は、統括制御部１０から入力されたユーザ距離データおよびユーザ方向データに基づいて、移動対象地点（ユーザ５００からの距離が距離αとなる地点）を割り出し、移動対象地点に移動するための移動方向や移動距離のデータを抽出する。さらにロボットＢの駆動制御部１９０は、抽出したデータに基づいて自機の移動装置（不図示）に設けられた駆動部１９を制御する。こうして、ロボットＢは、ユーザ５００のいる方向へ自機を向けて、移動対象地点まで移動することができる。これにより、以降、ロボットＢには音声認識に十分な音量のユーザ５００の発話音声が到達することとなり、ロボットＢは自機の音声認識部１１３においてユーザ５００の発話音声についての音声認識が可能となる。このため、ロボットＢは、ロボットＡからの音声認識結果の送信を待つことなく、ユーザ５００の発話に対して速やかに応答することができる。なお、移動対象地点の割り出しや当該移動対象地点に移動するための移動方向や移動距離のデータの抽出は、統括制御部１０が実行し、抽出したデータを駆動制御部１９０に出力してもよい。

ロボットＢが移動対象地点まで移動すると、ロボットＢの統括制御部１０は、応答制御部１２０に音声認識結果を出力して応答文を生成し（ステップＳ１１０）、応答文を音声変換した応答音声を応答部１５の音声出力部１５３において再生する（ステップＳ１１２）。こうして、ロボットＢはユーザ５００の近傍において応答音声を再生することができる。すなわち、ロボットＢは、ユーザ５００の遠方（距離β）から近傍（距離α）に移動することで、ユーザ５００が聞き取り易い状況において応答音声を再生することができる。

このように、本実施形態によるロボットシステム１において、ユーザ（本例では、ユーザ５００）の近傍に位置するロボット（本例ではロボットＡ）は、ユーザ位置情報を通信部１３によってユーザの遠方に位置するロボット（本例では、ロボットＢ）に送信し、ロボットＢは、ユーザ位置情報に基づいてユーザの近傍、すなわち現在の位置よりもユーザに近い位置であってユーザの発話音声を音声認識できる位置に移動する。
これにより、ロボットシステム１は、通信部１３による連携関係にある複数台の対話ロボット間で音声認識結果を共有し、かつユーザから離れた位置にいるロボットをユーザの近傍に誘導することができる。このため、ロボットシステム１は、ユーザの発話音声についての音声認識の精度を向上することができ、かつユーザに提供するロボットとの対話サービスにおける対話機能の向上させることで利便性の向上を図ることができる。また、ロボットシステム１は、遠方にいるロボットをユーザの近傍に誘導することで、呼びかけに応じてロボットが近づいてきたという満足感をユーザに感じさせることができる。

また、図４においては、ロボットシステム１の動作例として、ユーザ５００の近傍にいるロボットＡが音声認識結果およびユーザ位置情報を一の送信処理においてユーザ５００の遠方にいるロボットＢに送信する例を説明したが、本発明はこれに限られない。例えば、ロボットシステム１において、ユーザ５００の近傍にいるロボットＡの統括制御部１０は、音声認識結果の送信処理とユーザ位置情報の送信処理とを別個の送信処理として実行してもよい。

また、本実施形態によるロボットシステム１におけるロボットＡ，Ｂは、不図示の撮影装置（カメラ）によって定期的に自機の周囲を撮影し、撮影した画像を画像処理部１７０において画像認識することにより、互いの位置関係を常時把握するようにしてもよい。この場合、ロボットＡ，Ｂは互いの位置が近い（例えば１ｍ未満）場合には、音声認識結果を共有しないように構成されていてもよい。
これにより、ロボットシステム１は、ユーザから離れた位置にいるロボットをユーザの近傍、すなわちユーザに近い位置にいるロボットの近傍に誘導することで、不要な音声認識結果の送受信を防止して、複数のロボット間の通信による処理負荷を低減することができる。

また、ロボットシステム１においてロボットＡ，Ｂは、自機に所定のユーザの発話音声が入力された場合に、ユーザの発話対象が他のロボットか否かに関わらず、他のロボットをユーザの近傍へ誘導する構成であってもよい。例えば、ロボットＡ，Ｂにおいてユーザの発話音声が音声入力部１１に入力されると、統括制御部１０がユーザ位置情報に基づいて他のロボットの位置を検出し、他のロボットの位置がユーザから離れた位置（例えば、距離αを超過する位置）であるときに、通信部１３を介してユーザ位置情報を他のロボットに送信してもよい。これにより、ロボットシステム１は、ユーザが対話サービスの利用を所望している際に複数のロボットをユーザの近傍に誘導し、各ロボットがユーザの発話音声の音声認識を実行可能な状態にすることができる。このため、ロボットシステム１は、当該システムにおける音声認識の精度を向上させ、ひいては対話ロボットの利便性の向上を図ることができる。

（１−４）第１実施形態の変形例１
上記第１実施形態において、ロボットシステム１は、複数台の対話ロボット間において音声認識結果を共有するとしたが、本発明はこれに限られない。例えば、ロボットシステム１は、複数台の対話ロボット間においてユーザの発話音声を共有してもよい。この場合、音声認識部１１３は、音響処理部１１０から入力された入力音声データ（デジタル信号）を応答制御部１２０を介して統括制御部１０に出力する。
図５は、本変形例におけるロボットシステム１の動作を説明するシーケンス図である。なお、図５において、図３に示すシーケンス図と同様の処理を行うステップには図３と同じ符号を付し、説明を省略する。なお図５に示すロボットシステム１の動作時においても、ユーザ５００、ロボットＡ，Ｂは、それぞれ図１に示すのと同様の位置関係にあるとする。

図５に示すように、ユーザ５００が発話すると、ユーザ５００の発話音声についてユーザ５００の近傍に位置するロボットＡが音声認識部１１３において音声認識を開始して音声認識結果を導出する（ステップＳ１０１−Ｓ１０３）。本変形例において、ロボットＡの統括制御部１０は、ユーザ５００の発話が、ユーザ５００の遠方に位置するロボットＢに対する発話であると判定すると（ステップＳ１０５のＹｅｓ）、音声認識部１１３から入力されたユーザ５００の発話音声（入力音声データ）を通信部１３に出力してロボットＢに送信する（ステップＳ１３１）。

ロボットＢの通信部１３は、通信部１３においてロボットＡからユーザ５００の発話音声（入力音声データ）を受信し（ステップＳ１３２）、音声認識部１１３に出力する。これにより、ロボットＡが取得したユーザの発話音声がロボットＢに共有される。

ロボットＢは、受信したユーザ５００の発話音声について音声認識部１１３において音声認識を開始し（ステップＳ１３４）、音声認識結果を導出し（ステップＳ１３６）、導出した音声認識結果を統括制御部１０に出力する。ロボットＢの統括制御部１０が応答制御部１２０に音声認識結果を出力すると、応答制御部１２０は、応答文生成部１２２において応答文を生成し（ステップＳ１１０）、応答部１５は応答音声生成部１５１において応答文を音声変換し、応答音声を音声出力部１５３において再生する（ステップＳ１１２）。このように、ユーザ５００から距離βの位置に存在しユーザ５００の発話音声についての取得が不可能であるロボットＢは、ロボットＡが取得したユーザ５００の発話音声を共有することにより自機で音声認識を実行可能であり、ユーザ５００に対して、自機で導出した音声認識結果に応じた応答をすることができる。
なお、本変形例において、ロボットＡはステップＳ１３１において、ユーザ５００の発話音声と合わせてユーザ５００の位置情報をロボットＢに送信してもよい。これにより、ロボットシステム１は、図４に示すシーケンス図を用いて説明した動作と同様に、ユーザの発話音声を共有する場合においてもユーザの遠方にいるロボットをユーザの近傍の位置（ユーザから距離αの位置）に誘導することができる。

（１−５）第１実施形態の変形例２
また、上記第１実施形態において、統括制御部１０は、音声認識結果に含まれるロボットの呼称に基づいてユーザの発話対象のロボットを特定するとしたが、本発明はこれに限られない。例えば、ロボットシステム１において、各ロボットが音声認識において認識可能な話題（ドメイン）が異なる場合には、ユーザが発話した内容が示す話題によって、ユーザの発話対象となるロボットを特定してもよい。ここで、各ロボットが対応可能な話題は、音声認識時において、音声認識部１１３における音声認識エンジンが用いるモデル（言語モデルおよび音響モデル）と辞書の構成に依存する。

本変形例において、例えばロボットＡの統括制御部１０は、ユーザ５００の発話音声に自機が認識可能でない話題が含まれると判定すると、通信部１３を介してロボットＢにユーザ５００の発話音声を送信する。この場合、ロボットシステム１において話題の特定に用いられるキーワードが各ロボットに予め登録されており、統括制御部１０は、音声認識結果に含まれるキーワードに基づいてユーザの発話音声の話題が自機において音声認識可能な話題か否かを判定する。本変形例によるロボットシステム１は、例えばロボットＡにおいてユーザ５００の発話音声に自機が認識可能でない話題が含まれる場合に、当該話題を認識可能であるロボットＢにユーザ５００の発話音声を送信して共有させることができる。また、その逆（ロボットＢからロボットＡにユーザの発話音声を送信すること）も可能である。

これにより、ロボットシステム１は、ロボット間でユーザの発話音声を共有することで、ユーザの発話音声が含む話題に適応しないロボットにユーザが話しかけた場合であっても、ユーザの発話音声が含む話題に適応するロボットにおいてユーザの発話音声の音声認識を行い、当該話題に適した応答することができる。つまり、本変形例によるロボットシステム１を構成する複数の対話ロボットは、自機では十分に対応できない話題を含むユーザの発話音声を他のロボットに転送することで、ユーザとの対話を円滑に継続させることができる。このため、本変形例によるロボットシステム１は、各ロボットに対応可能な話題を分散させ、かつ各ロボットでユーザの発話音声を共有可能であることによって、ユーザの発話音声に含まれる話題についての音声認識の精度を向上させることができる。したがって、ロボットシステム１は、各ロボットの作製コストを低減し、かつ利便性の向上を図ることができる。

（１−６）第１実施形態の変形例３
また、上記第１実施形態によるロボットシステム１において、複数台のロボットはいずれも音声認識機能を有するとしたが、本発明はこれに限られない。例えば、複数台のロボット（本例では、ロボットＡ，Ｂ）において、一部のロボット（例えばロボットＢ）は、音声認識機能を有しなくてもよい。
例えば、ロボットＢは、音声入力部１１、音響処理部１１０および音声認識部１１３といった音声認識機能を実現する構成要素を有していなくてもよい。この場合、ロボットＢの通信部１３は、例えばロボットＡから受信したデータを全て統括制御部１０に出力する。

ロボットＢが音声認識機能を有しない場合であっても、図３に示すようにロボットＡの音声認識部１１３による音声認識結果をロボットＢに送信することによって、ユーザ５００の発話音声に対してロボットＢが応答することができる。
本変形例において、音声認識機能を有しないロボットＢには、音声認識機能を実現する構成要素が不要となるため、ロボットＢの作製コストは低減される。このため、ロボットシステム１は、利便性の向上と、ロボットシステム１の構築に係る費用の低減とを両立することができる。また、ロボットＢの作製コストの低減に伴い、音声認識機能を有しないロボットの価格を低減することが可能となるため、ロボットシステム１を導入する企業や店舗の運営者にとっても複数台のロボットを購入する際の費用を低減することができる。したがって、結果としてロボットシステム１は、企業や店舗における当該システムの導入を促進させることができる。このように、本変形例によるロボットシステム１は、対話ロボットの作製コストおよび本システムの導入費用を低減し、かつ複数のロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。また、本変形例において、音声認識機能を有するロボットと音声認識機能を有しないロボットとの対応関係は、１対１であってもよいし、１対多であってもよいし、多対１であってもよい。

２．第２実施形態
次に、本発明の第２実施形態によるロボットシステム２について図２、図６および図７を用いて説明する。図６は、本実施形態によるロボットシステム２の概略構成およびロボットシステム２のユースケースの一例を示す図である。

ロボットシステム２は、音声認識機能を有する複数台のロボット（本例では、ロボットＣ，Ｄ）を連携させるロボットシステムである点で、上記第１実施形態によるロボットシステム１と同様である。なお、ロボットＣ，Ｄの構成要素は、図２に示す上記第１実施形態によるロボットＡ，Ｂの構成要素と同様であるため説明は省略する。
一方、本実施形態によるロボットシステム２は、ロボットシステム２を構成する複数のロボット間において主従関係が形成されている点でロボットシステム１と異なる。

図６に示すユースケースにおいて、ロボットシステム２におけるロボットＣ，Ｄはいずれもユーザ７００の近傍（音声認識に十分な音量かつ環境音（ノイズ）の少ない状態で発話音声を収音できる範囲）にあり、ユーザの発話音声について高い精度で音声認識が可能である。

ここで、従来、複数のロボットによる対話サービスにおいて、複数のロボットがユーザの発話音声を音声認識可能である場合、各ロボットが同時に応答音声を再生してしまう事象が発生していた。このような事象が発生すると、ユーザは同時に再生された応答音声を聞き取ることが困難となり、結果として対話機能が損なわれて、対話サービスを提供するロボットシステムの利便性が低減することになる。

これに対し、本実施形態によるロボットシステム２は、複数のロボットについて１つの主たるロボット（主ロボット）と主ロボットに従属する従ロボットによる主従関係を形成している。詳しくは後述するが、ロボットシステム２において、主ロボット（本例ではロボットＣ）は、複数のロボット（ロボットＣ，Ｄ）が同時にユーザ（本例ではユーザ７００）の発話音声に対する音声認識を実行する場合に応答音声を再生する順序（応答順序）を決定し、この順序に基づいて従ロボット（本例ではロボットＤ）に対して応答指示を行う。また、従ロボットは、主ロボットの応答指示に基づいて応答音声の発話を行う。

このように、ロボットシステム２においては主ロボットが複数のロボットにおけるユーザへの応答順序を制御する。このため、ロボットシステム２は、複数のロボットが同時に応答音声を発話して対話機能が損なわれることを防止し、対話機能を向上させることで複数の対話ロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。

ここで、図７を用いて主ロボットと従ロボットとを含むロボットシステム２の動作の一例を説明する。図７は、図６に示すユースケースにおけるロボットシステム２の動作の一例を示すシーケンス図である。なお、上述のようにロボットＣ，Ｄは第１実施形態におけるロボットＡ，Ｂと同様の構成要素を有するため、音声認識や応答音声の再生に関する処理はロボットＡ，Ｂと同様である。したがって、図７において、図５に示すシーケンス図と同様の処理を行うステップには図５と同じ符号を付し、説明を省略する。

ロボットＣ，Ｄの近傍にいるユーザ７００が発話すると、図７に示すように、ユーザ７００の発話音声についてロボットＣ，Ｄがそれぞれの音声認識部１１３において音声認識を開始して音声認識結果を導出し（ステップＳ１０１、Ｓ１０３およびステップＳ１３２、Ｓ１３４）、導出した音声認識結果を統括制御部１０に出力する。本実施形態において、従ロボットであるロボットＤの統括制御部１０は、音声認識結果が入力されると、自機が従ロボットであることに基づいて主ロボットであるロボットＣに対して応答指示を依頼する（ステップＳ１４０）。本実施形態によるロボットシステム２において、各ロボットが主ロボットであるか否かは各ロボットの所定の記憶領域（メモリ）に予め登録された情報（主従識別情報）に基づいて判断される。つまり、ロボットＤの統括制御部１０は、メモリに登録された主従識別情報を参照し、自機が従ロボットであると判断してロボットＣに応答指示を要求する所定の信号を送信する。

主ロボットであるロボットＣは、通信部１３によってロボットＤから応答指示依頼（応答指示の要求信号）を受信し、応答指示依頼が統括制御部１０に入力されたことに基づいて、統括制御部１０によってロボットシステム２内におけるロボットが応答音声を発話する順序（応答順序）を決定する（ステップＳ１４１）。本例において、ロボットＣの統括制御部１０は、応答順序判定情報に基づいて各ロボットの応答順序を決定する。応答順序判定情報とは、音声認識の信頼度の高さや、ゲイン（音響処理部１１０において取得されるユーザ７００の発話音声（アナログ信号）の波形の高さ）を示す情報であって統括制御部１０が保持している。音声認識の信頼度は、音声認識部１１３が統括制御部１０に出力する音声認識結果に含まれており、音声認識の精度の高低を示す数値である。また、ゲインは音響処理部１１０においてユーザ７００の発話音声がデジタル信号（入力音声データ）に変換される際に音響処理部１１０から統括制御部１０に出力される。また、ロボットＤの応答順序判定情報は、応答指示の要求信号と合わせて送信される。

ロボットＣの統括制御部１０は、自機およびロボットＤの応答順序判定情報を参照し、例えばロボットＣの音声認識の信頼度の数値がロボットＤの音声認識の信頼度の数値より高いことに基づいて、ステップＳ１４１において応答順序を「ロボットＣ→ロボットＤ」の順に決定する。本例では、ロボットＣの応答順序がロボットＤよりも先であるため、ロボットＣの応答制御部１２０は、統括制御部１０からの応答指示信号に基づいて応答文生成部１２２において応答文を生成し（ステップＳ１０９）、応答部１５は応答音声生成部１５１において応答文を音声変換し、応答音声を音声出力部１５３において再生する（ステップＳ１１１）。これにより、ユーザ７００の発話に対して、まず主ロボットであるロボットＣが応答する。

ロボットＣの統括制御部１０は、自機の音声出力部１５３において応答音声の再生が終了すると、次に従ロボットであるロボットＤに応答音声を出力させるための応答指示信号を、通信部１３を介してロボットＤに送信する（ステップＳ１４３）。

ロボットＤの通信部１３はロボットＣからの応答指示信号を受信すると（ステップＳ１４４）、受信した応答指示信号を統括制御部１０に出力する。ロボットＤの統括制御部１０は、ロボットＣからの応答指示信号が入力されたことに基づいて、応答制御部１２０に応答指示信号を出力して応答文生成部１２２に応答文を生成させ（ステップＳ１１０）、応答部１５は応答音声生成部１５１において応答文を音声変換し、応答音声を音声出力部１５３において再生する（ステップＳ１１２）。これにより、ユーザ７００の発話に対して、主ロボットであるロボットＣの次に、従ロボットであるロボットＤが応答する。

このように、ロボットシステム２において、複数のロボットのうち一のロボット（本例では、主ロボットであるロボットＣ）は、複数のロボットのうちいずれのロボットでユーザ７００に対して応答するかを決定する。具体的には、主ロボットであるロボットＣ（一のロボットの一例）は、ロボットシステム２における複数のロボットのそれぞれがユーザ７００に対して応答する順序（応答順序）を決定する。これにより、本実施形態によるロボットシステム２は、複数のロボットにおけるユーザ７００への応答タイミングを主たるロボットが制御して、複数のロボットが同時に応答音声を再生することを防止することができる。このため、ロボットシステム２は、ユーザ７００が快適にロボットと対話可能な環境を整えることができ、ロボットシステム２における対話機能の向上を図ることができ、ひいては複数のロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。

（２−１）第２実施形態の変形例
上記第２実施形態におけるユースケースにおいては、主ロボットであるロボットＣが従ロボットであるロボットＤよりも先にユーザ７００に応答する例を説明したが、本発明はこれに限られない。ロボットシステム２においては、応答順序判定情報の内容によって、従ロボットが先に応答し、次いで主ロボットが応答する場合も生じる。この場合、主ロボットであるロボットＣは、応答順序を決定すると（ステップＳ１４１）、次いで応答指示信号をロボットＤに送信する（ステップＳ１４３）。従ロボットであるロボットＤは自機における応答音声の発話を終了すると、統括制御部１０において応答終了を示す信号（応答終了信号）を生成し、通信部１３を介してロボットＣに送信する。ロボットＣは、通信部１３において応答終了信号を受信すると、応答文を生成し（ステップＳ１０９）、応答音声を再生する（ステップＳ１１１）。

また、上記第２実施形態によるロボットシステム２には１つの主ロボットに対して、１つの従ロボットで構成されていたが、本発明はこれに限られない。例えば、ロボットシステム２は、１つの主ロボットに対して複数の従ロボットで構成されてもよい。

３．第３実施形態
次に、本発明の第３実施形態によるロボットシステム３について図２、図８および図９を用いて説明する。図８は、本実施形態によるロボットシステム３の概略構成およびロボットシステム３のユースケースの一例を示す図である。

ロボットシステム３は、音声認識機能を有する複数台のロボット（本例では、ロボットＥ，Ｆ）を連携させ、複数のロボット間において主従関係が形成されている点で上記第２実施形態によるロボットシステム２と同様である。なお、ロボットＥ，Ｆの構成要素は、図２に示す上記第１実施形態におけるロボットＡ，Ｂおよび第２実施形態におけるロボットＣ，Ｄの構成要素と同様であるため説明は省略する。
一方、本実施形態によるロボットシステム３は、ロボットシステム３を構成する複数のロボット（ロボットＥ，Ｆ）のそれぞれの音声認識部１１３が互いに異なる言語の音声認識を実行可能であり、複数のロボットのうち音声認識部１１３における音声認識結果の信頼度が最も高いロボットが、ユーザに対して応答する点でロボットシステム２と異なる。

図８に示すユースケースにおいて、ロボットシステム３におけるロボットＥ，Ｆはいずれもユーザ９００の近傍（音声認識に十分な音量かつ環境音（ノイズ）の少ない状態で発話音声を収音できる範囲）にあり、ユーザの発話音声について高い精度で音声認識が可能である。また、本例において、主ロボットに設定されているロボットＥは、音声認識部１１３において音声認識エンジン（不図示）が日本語に対応したモデルによって音声認識を行う。また、従ロボットに設定されているロボットＦは、音声認識部１１３において音声認識エンジンが英語に対応したモデルによって音声認識を行う。

ここで、従来、複数のロボットによる対話サービスにおいて、ユーザの発話音声を音声認識可能である複数のロボットがそれぞれ異なる言語による音声認識を行う場合に、ユーザの発話音声と対応しない言語の応答音声が再生されてしまう事象が発生していた。具体的には、ユーザが英語で発話した場合に、日本語による音声認識を行うロボットが、ユーザの発話内容（英語）を日本語に対応したモデルを用いて音声認識し、ユーザの発話内容とかみ合わない応答音声（日本語）を再生してしまう事象が発生していた。このような事象が発生すると、ユーザとロボットとの対話が成立せずに対話機能が損なわれ、対話サービスを提供するロボットシステムの利便性が低減することになる。

これに対し、本実施形態によるロボットシステム３は、ユーザの発話音声を音声認識可能である複数のロボットのうち、ユーザの発話音声の言語に対応する言語で音声認識を行うロボットが応答音声を再生するように構成されている。詳しくは後述するが、ロボットシステム３において、主ロボット（本例ではロボットＥ）がユーザ（本例ではユーザ９００）の発話音声の言語（本例では英語）と対応する言語で音声認識を行うロボットを判定し、当該ロボットが応答音声を再生する。例えば、主ロボットは、従ロボット（本例ではロボットＦ）から送信された音声認識結果と自機における音声認識結果とに基づいて、応答音声を再生するロボットを決定し、当該ロボットが従ロボットである場合には、従ロボットに応答指示を送信する。
これにより、ロボットシステム３においては、ユーザの発話音声に対応する言語で音声認識を行うロボットが、ユーザの発話内容と対応する応答音声を再生することが可能となる。したがって、ロボットシステム３は、対話機能が損なわれることを防止して複数のロボットにおける音声認識の精度を向上し利便性の向上を図ることができる。

ここで、図９を用いて主ロボットと従ロボットとを含むロボットシステム３の動作の一例を説明する。図９は、図８に示すユースケースにおけるロボットシステム３の動作の一例を示すシーケンス図である。なお、上述のようにロボットＥ，Ｆは第２実施形態におけるロボットＣ，Ｄと同様の構成要素を有するため、音声認識や応答音声の再生に関する処理はロボットＣ，Ｄと同様である。したがって、図９において、図７に示すシーケンス図と同様の処理を行うステップには図７と同じ符号を付し、説明を省略する場合がある。

ロボットＥ，Ｆの近傍にいるユーザ９００が英語で発話すると、図９に示すように、ロボットＥは自機の音声認識部１１３において音声認識を開始し（ステップＳ１５１）、ユーザ９００による英語の発話音声についてロボットＥの対応言語である日本語での音声認識結果を導出して（ステップＳ１５３）、音声認識結果を自機の統括制御部１０に出力する。

同様に、ロボットＦは自機の音声認識部１１３において音声認識を開始し（ステップＳ１５２）、ユーザ９００による英語の発話音声についてロボットＥの対応言語である英語での音声認識結果を導出して（ステップＳ１５４）、音声認識結果を自機の統括制御部１０に出力する。ロボットＦの統括制御部１０は、音声認識結果が入力されると、自機が従ロボットであることに基づいて主ロボットであるロボットＥに対して音声認識結果を送信して応答指示を依頼する（ステップＳ１５６）。

主ロボットであるロボットＥは、通信部１３によってロボットＦから音声認識結果を受信し、ロボットＦの音声認識結果が統括制御部１０に入力されたことに基づいて、統括制御部１０によって応答音声の言語（応答言語）を決定する（ステップＳ１５５）。主ロボットであるロボットＥが応答言語を決定することで、ロボットシステム３内においていずれのロボットが応答音声を再生するかが決定される。

本例において、ロボットＥの統括制御部１０は、各ロボットの音声認識結果に含まれる信頼度に基づいて、応答言語を決定する。ロボットＥの統括制御部１０は、各ロボットの音声認識結果のうち、最も信頼度の数値が高い音声認識結果の言語を、応答言語として決定する。本例では、従ロボットであるロボットＦが、ユーザの発話音声の言語と一致する言語（英語）によって音声認識を行っている。このため、ロボットＦの音声認識結果の信頼度は、日本語によって音声認識を行っているロボットＥの音声認識結果の信頼度よりも高くなっている。したがって、ロボットＥの統括制御部１０は、応答言語を英語に決定する、すなわち、従ロボットであるロボットＦをユーザに対して応答するロボットに決定すると、応答音声を出力させるための応答指示信号を、通信部１３を介してロボットＦに送信する（ステップＳ１４３）。

ロボットＦの通信部１３はロボットＥからの応答指示信号を受信すると（ステップＳ１４４）、受信した応答指示信号を統括制御部１０に出力し、統括制御部１０が応答制御部１２０に応答指示信号を出力して応答文生成部１２２に応答文を生成させ（ステップＳ１１０）、応答部１５は応答音声生成部１５１において応答文を音声変換し、応答音声を音声出力部１５３において再生する（ステップＳ１１２）。本例において、ロボットＦの応答文生成部１２２が生成する応答文および応答音声生成部１５１が生成する応答音声は、音声認識の言語に対応する言語（英語）である。これにより、ロボットシステム３において、ユーザ９００の英語による発話に対して、従ロボットであるロボットＦが英語による音声認識結果に基づいて英語による応答音声を再生する。

なお、ユーザ９００の発話音声が日本語であった場合には、主ロボットであるロボットＥは、ステップＳ１５５において日本語を応答言語に決定し、自機の応答部１５の音声出力部１５３において日本語による応答音声を出力する。また、この場合、ロボットＥは、従ロボットであるロボットＦに対して、応答指示（ステップＳ１４３）を実行しない。したがって、ロボットシステム３は、ユーザ９００の発話音声が日本語であった場合には、英語による音声認識を行うロボットＦが応答音声を出力することを防止することができる。

また、本実施形態によるロボットシステム３において、主ロボットであるロボットＥの統括制御部１０は、応答可否の決定の際に、各音声認識結果のうち最も高い信頼度の値が予め定められた閾値以上であるか否かを判定してもよい。これにより、ロボットシステム３は、一定以上の精度を有する音声認識結果が導出された場合にだけ応答音声を再生することができ、当該システムにおける対話機能を向上させることができる。この場合、ロボットＥの統括制御部１０は、閾値以上の信頼度を含む音声認識結果が存在しない場合に、応答部１５の音声出力部１５３において、自機の対応言語による定型の応答音声（例えば、ユーザに再度の発話を求める応答音声）を出力してもよい。

このように、本実施形態によるロボットシステム３において、複数のロボット（本例では、ロボットＥ，Ｆ）の音声認識部１１３は、互いに異なる言語の音声認識が可能であり、複数のロボットのうち音声認識結果の信頼度が最も高いロボット（本例ではロボットＦ）が、ユーザに対して応答する。
具体的には、ロボットシステム３において複数のロボットには、１つの主ロボット（ロボットＦ）と該主ロボット以外の残余のロボットであって該主ロボットに従属する従ロボット（本例では、ロボットＦ）が含まれ、従ロボットは、主ロボットに音声認識結果を送信し、主ロボットは、該主ロボットおよび従ロボットのうち信頼度が最も高い音声認識結果を導出したロボットを、ユーザに対して応答するロボットに決定する。

これにより、本実施形態によるロボットシステム３において、ユーザの発話音声に対応する言語で音声認識を行うロボットのみが、ユーザの発話内容と対応する応答音声を再生することが可能となる。さらに、主ロボットが複数のロボットの応答タイミングを制御して、複数のロボットが同時に応答音声を再生することを防止できる。したがって、ロボットシステム３は、対話機能が損なわれることを防止して複数のロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。

また、本実施形態によるロボットシステム３において、各ロボット（ロボットＥ，Ｆ）は一の言語で音声認識を行うように構成されている。これにより、ロボットシステム３における各ロボットは、一のロボットにおいて複数の言語による音声認識を行う場合よりも、作製コストが低減される。したがって、ロボットシステム３は、利便性の向上と、ロボットシステム３の構築に係る費用の低減とを両立することができる。また、ロボットシステム３における各ロボットの作製コストの低減に伴って、各ロボットの価格が低減されることで、ロボットシステム３を導入する企業や店舗の運営者にとっても複数台のロボットを購入する際の費用を低減することができる。したがって、結果としてロボットシステム３は、企業や店舗における当該システムの導入を促進させることができる。

また、本実施形態によるロボットシステム３において、１つの主ロボットに対して、１つの従ロボットで構成されていたが、本発明はこれに限られない。例えば、ロボットシステム３は、１つの主ロボットに対して複数の従ロボットで構成されてもよい。この場合も、複数の従ロボットがそれぞれの音声認識結果を主ロボットに送信し、主ロボットが自機および、すべての従ロボットの音声認識結果に含まれる信頼度に基づいて応答言語を決定すればよい。

（３−１）第３実施形態の変形例
上記第３実施形態において、ロボットシステム３は、複数のロボット（ロボットＥ，Ｆ）が主従関係を形成し、主ロボットがユーザの発話に対する応答音声の言語（応答言語）を決定するとしたが、本発明はこれに限られない。
ここで、第３実施形態の変形例について、図１０および図１１を用いて説明する。図１０は、本変形例によるロボットシステム３の概略構成およびロボットシステム３のユースケースの一例を示す図である。また、図１１は、本変形例におけるロボットシステム３の動作を説明するシーケンス図である。

例えば、本変形例によるロボットシステム３において、図１０に示すように、複数のロボット（ロボットＥ，Ｆ）は主従関係を形成せず対等の関係であってもよい。この場合、複数のロボットＥ，Ｆが互いに音声認識結果を送受信することで互いの音声認識結果を共有し、共有した音声認識結果に基づいて、各自で応答言語を決定してもよい。これにより、ロボットシステム３における複数のロボットは、主ロボットに依存せずに自機で応答言語を決定し、ユーザ９００の発話に対して自機が応答音声を再生するか否か（応答可否）を決定することができる。

ロボットＥ，Ｆの近傍にいるユーザ９００が英語で発話すると、図１１に示すように、ロボットＥ，Ｆの音声認識部１１３においてそれぞれの対応言語で音声認識が開始され、対応言語による音声認識結果が導出される（ステップＳ１５１、Ｓ１５３およびステップＳ１５２、Ｓ１５４）。次いで、本変形例において、ロボットＥの音声認識部１１３は自機の音声認識結果を応答制御部１２０を介して統括制御部１０に出力し、統括制御部１０は通信部１３を介してロボットＦに自機の音声認識結果を送信する（ステップＳ１７１）。
また、ロボットＦの音声認識部１１３は自機の音声認識結果を応答制御部１２０を介して統括制御部１０に出力し、統括制御部１０は通信部１３を介してロボットＥに自機の音声認識結果を送信する（ステップＳ１７２）。これにより、ロボットＥ，Ｆにおいて互いの音声認識結果が共有される。

ロボットＥは、通信部１３によってロボットＦの音声認識結果を受信して統括制御部１０に出力すると、統括制御部１０によって応答言語を決定して自機による応答音声の再生の可否（応答可否）を決定する（ステップＳ１７３）。
具体的には、ロボットＥの統括制御部１０は、ロボットＥ，Ｆの音声認識結果のうち信頼度の高い音声認識結果の言語を応答言語に決定し、応答言語が自機の音声認識の言語であれば、自機による応答音声の再生が可能と判定する。本変形例において、上記第３実施形態と同様に、ロボットＦがユーザの発話音声の言語と一致する言語（英語）によって音声認識を行っている。このため、音声認識結果の信頼度は、日本語によって音声認識を行っているロボットＥの音声認識結果よりも、ロボットＦの音声認識結果の方が高くなっている。したがって、ロボットＥの統括制御部１０は、応答言語を英語に決定し、かつ自機において応答音声（日本語）を再生しないことを決定する。

また、ロボットＦは、通信部１３によってロボットＥの音声認識結果を受信して統括制御部１０に出力すると、統括制御部１０によって応答言語を決定して自機による応答音声の再生の可否（応答可否）を決定する（ステップＳ１７４）。具体的には、ロボットＦの統括制御部１０は、日本語によって音声認識を行っているロボットＥの音声認識結果よりも、自機（ロボットＦ）の音声認識結果の方が信頼度が高いことに基づいて、応答言語を英語に決定し、かつ自機において応答音声（英語）を再生することを決定する。
ロボットＦの統括制御部１０は、ステップＳ１７４において自機が応答音声を再生すると決定したことに基づいて、応答制御部１２０の応答文生成部１２２に応答文（英語）を生成させ（ステップＳ１１０）、応答部１５は応答音声生成部１５１において生成した応答音声（英語）を音声出力部１５３において再生する（ステップＳ１１２）。これにより、本変形例によるロボットシステム３において、ユーザ９００の英語による発話に対して、ロボットＦが英語による音声認識結果に基づいて英語による応答音声を再生することができる。

なお、本変形例によるロボットシステム３において、ロボットＥ，Ｆの統括制御部１０は、応答可否の決定の際に、各音声認識結果のうち最も高い信頼度の値が予め定められた閾値以上であるか否かを判定してもよい。これにより、本変形例によるロボットシステム３は、一定以上の精度を有する音声認識結果が導出された場合にだけ応答音声を再生することができ、当該システムにおける対話機能を向上させることができる。

このように、本変形例によるロボットシステム３において、対等な関係にある複数のロボット（ロボットＥ，Ｆ）は、通信部１３による音声認識結果の送受信によって互いの音声認識結果を共有し、共有した音声認識結果と自らの音声認識結果を比較し、複数のロボットのうち信頼度が最も高い音声認識結果を導出したロボット（本例では、ロボットＦ）が、ユーザ（本例では、ユーザ９００）に対して応答する。
これにより、本変形例によるロボットシステム３は、上記第３実施形態によるロボットシステム３と同様に、ユーザの発話音声に対応する言語で音声認識を行うロボットのみが、ユーザの発話内容と対応する応答音声を再生することが可能となり、複数ロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。さらに、本変形例によるロボットシステム３は、各ロボットが１つの主ロボットに依存することなく各ロボットが自律的に応答可否を決定することができる。このため、本変形例によるロボットシステム３は、もし主ロボットに不具合が生じた場合においても対話機能の低減を防止して、利便性を向上させることができる。

以上、各実施形態により本発明を説明したが、本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらす全ての実施形態をも含む。さらに、本発明の範囲は、請求項により画される発明の特徴の組み合わせに限定されるものではなく、全ての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。

１、２、３ロボットシステム
１０統括制御部
１１音声入力部
１３通信部
１５応答部
１７画像入力部
１９駆動部
１１０音響処理部
１１３音声認識部
１２０応答制御部
１２２応答文生成部
１５１応答音声生成部
１５３音声出力部
１７０画像処理部
１９０駆動制御部
Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆロボット

Claims

互いに連携可能かつ移動可能な複数のロボットを備えるロボットシステムであって、
前記複数のロボットは、
ユーザが発した音声を入力可能な音声入力部と、
前記音声入力部から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部と、
前記複数のロボット間における前記音声認識結果の送受信が可能な通信部と、
前記音声認識結果に基づいてユーザに対して応答する応答部と、
を有すること
を特徴とするロボットシステム。
前記複数のロボットには、第一ロボットと前記第一ロボットよりもユーザから遠い位置にある第二ロボットが含まれ、
前記第一ロボットは、該第一ロボットの前記音声認識結果を、前記通信部によって前記第二ロボットに送信し、
前記第二ロボットは、前記通信部において受信した前記第一ロボットの前記音声認識結果に基づいて前記応答部によってユーザに対して応答すること
を特徴する請求項１記載のロボットシステム。
前記第一ロボットは、ユーザの位置情報を前記通信部によって前記第二ロボットに送信し、
前記第二ロボットは、ユーザの前記位置情報に基づいて、ユーザの発話音声を音声認識可能な位置に移動すること
を特徴とする請求項２記載のロボットシステム。
前記複数のロボットのうち一のロボットは、前記複数のロボットのうちいずれのロボットでユーザに対して応答するかを決定すること
を特徴とする請求項１記載のロボットシステム。
前記一のロボットは、前記複数のロボットのそれぞれがユーザに対して応答する順序を決定すること
を特徴とする請求項４記載のロボットシステム。
互いに連携可能かつ移動可能な複数のロボットを備え、
前記複数のロボットは、
ユーザが発した音声を入力可能な音声入力部と、
前記音声入力部から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部と、
前記複数のロボット間における前記音声認識結果の送受信が可能な通信部と、
前記音声認識結果に基づいてユーザに対して応答する応答部と、
を有し、
前記複数のロボットの前記音声認識部は、互いに異なる言語の音声認識が可能であり、
前記複数のロボットのうち前記音声認識結果の信頼度が最も高いロボットが、ユーザに対して応答すること
を特徴とするロボットシステム。
前記複数のロボットには、１つの主ロボットと該主ロボット以外の残余のロボットであって該主ロボットに従属する従ロボットが含まれ、
前記従ロボットは、前記主ロボットに前記音声認識結果を送信し、
前記主ロボットは、該主ロボットおよび前記従ロボットのうち信頼度が最も高い音声認識結果を導出したロボットを、ユーザ対して応答するロボットに決定すること
を特徴とする請求項６記載のロボットシステム。
前記複数のロボットは、前記通信部による前記音声認識結果の送受信によって互いの前記音声認識結果を共有し、共有した音声認識結果と自らの音声認識結果を比較し、
前記複数のロボットのうち信頼度が最も高い音声認識結果を導出したロボットが、ユーザに対して応答すること
を特徴とする請求項６記載のロボットシステム。