JP2020046478A - ロボットシステム - Google Patents

ロボットシステム Download PDF

Info

Publication number
JP2020046478A
JP2020046478A JP2018172875A JP2018172875A JP2020046478A JP 2020046478 A JP2020046478 A JP 2020046478A JP 2018172875 A JP2018172875 A JP 2018172875A JP 2018172875 A JP2018172875 A JP 2018172875A JP 2020046478 A JP2020046478 A JP 2020046478A
Authority
JP
Japan
Prior art keywords
robot
user
voice
voice recognition
robots
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018172875A
Other languages
English (en)
Inventor
浦川 康孝
Yasutaka Urakawa
康孝 浦川
宗明 島田
Muneaki Shimada
宗明 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuetrek Co Ltd
Original Assignee
Fuetrek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuetrek Co Ltd filed Critical Fuetrek Co Ltd
Priority to JP2018172875A priority Critical patent/JP2020046478A/ja
Publication of JP2020046478A publication Critical patent/JP2020046478A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Toys (AREA)
  • Manipulator (AREA)

Abstract

【課題】本発明は、音声認識の精度を向上させることで利便性の向上を図ることができるロボットシステムを提供することを目的とする。【解決手段】互いに連携可能かつ移動可能な複数のロボットAを備えるロボットシステムであって、複数のロボットは、ユーザが発した音声を入力可能な音声入力部11と、音声入力部11から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部113と、複数のロボット間における音声認識結果の送受信が可能な通信部13と、音声認識結果に基づいてユーザに対して応答する応答部15と、を有する。【選択図】図2

Description

本発明は、複数台のロボットを連携させるロボットシステムに関する。
近年、複数台のロボットを連携させたロボットシステムが普及しつつある。ロボットシステムの構成には、例えば音声認識機能を有するロボット(対話ロボット)が含まれ、ユーザの発話に基づいて動作したり、ロボット同士で会話を行ったりする。例えば、引用文献1には、複数台の対話ロボット同士が会話等を行う技術が開示されている。
特開2003−205483号公報
しかしながら、複数台のロボットを使用した従来のロボットシステムは、例えば対話においてユーザの意図したロボットが応答しない等、利便性を十分に向上できていないという問題がある。
本発明は、このような点に鑑みてなされたものであり、複数台のロボットにおける音声認識の精度を向上させることで利便性の向上を図ることができるロボットシステムを提供することを目的とする。
上記目的を達成するために、本発明の一態様に係るロボットシステムは、互いに連携可能かつ移動可能な複数のロボットを備えるロボットシステムであって、前記複数のロボットは、ユーザが発した音声を入力可能な音声入力部と、前記音声入力部から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部と、前記複数のロボット間における前記音声認識結果の送受信が可能な通信部と、前記音声認識結果に基づいてユーザに対して応答する応答部と、を有することを特徴とする。
また、本発明の他の態様に係るロボットシステムは、互いに連携可能かつ移動可能な複数のロボットを備え、前記複数のロボットは、ユーザが発した音声を入力可能な音声入力部と、前記音声入力部から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部と、前記複数のロボット間における前記音声認識結果の送受信が可能な通信部と、前記音声認識結果に基づいてユーザに対して応答する応答部と、を有し、前記複数のロボットの前記音声認識部は、互いに異なる言語の音声認識が可能であり、前記複数のロボットのうち前記音声認識結果の信頼度が最も高いロボットが、ユーザに対して応答することを特徴とする。
本発明の各態様によれば、複数台のロボットにおける音声認識の精度を向上させてロボットシステムにおける利便性の向上を図ることができる。
本発明の第1実施形態のロボットシステムの概略構成およびロボットシステムのユースケースの一例を示す図である。 本発明の第1実施形態のロボットシステムにおけるロボットの構成について説明する図である。 本発明の第1実施形態のロボットシステムにおける動作の一例を示すシーケンス図(その1)である。 本発明の第1実施形態のロボットシステムにおける動作の一例を示すシーケンス図(その2)である。 本発明の第1実施形態の変形例によるロボットシステムにおける動作の一例を示すシーケンス図である。 本発明の第2実施形態のロボットシステムの概略構成およびロボットシステムのユースケースの一例を示す図である。 本発明の第2実施形態のロボットシステムにおける動作の一例を示すシーケンス図である。 本発明の第3実施形態のロボットシステムの概略構成およびロボットシステムのユースケースの一例を示す図である。 本発明の第3実施形態のロボットシステムにおける動作の一例を示すシーケンス図である。 本発明の第3実施形態の変形例によるロボットシステムの概略構成およびロボットシステムのユースケースの一例を示す図である。 本発明の第3実施形態の変形例によるロボットシステムにおける動作の一例を示すシーケンス図である。
1.第1実施形態
本発明の第1実施形態によるロボットシステムについて、図1から図5を参照して説明する。
(1−1)第1実施形態によるロボットシステム
まず、第1実施形態によるロボットシステムの概要について図1を用いて説明する。
図1は、ロボットシステム1の概略構成およびロボットシステム1のユースケースの一例を示す図である。ロボットシステム1は、複数のロボット(本例ではロボットA,Bの2台のロボット)を連携させるロボットシステムである。
詳しくは後述するが、ロボットA,Bはそれぞれ、音声認識機能を有している。ロボットA,Bはいずれも、ユーザ500の発話音声について音声認識を実行可能であって、音声認識結果に基づいた音声による応答音声の再生が可能な対話ロボットである。ロボットシステム1は、ユーザ500の発話音声を音声認識可能なロボットA,Bが、ユーザ500の発話音声に基づいて応答することで、ユーザ500にロボットとの対話サービスを提供する。例えば、ユーザ500が所定の発話(例えば「こんにちは」)を行うと、ユーザ500の近傍に位置しているロボットAはこのユーザ500の発話音声について音声認識を行い、音声認識結果に基づく応答音声(例えば「こんにちは。お話しよう!」)を出力する。
また、ロボットA,Bは、通信機能を搭載しており、互いにデータの送受信を行う等の連携が可能である。このため、本実施形態によるロボットシステム1は、ロボットA,Bのそれぞれにおける音声認識結果を両者で共有可能となっている。
また、ロボットシステム1を構成するロボットA,Bは、例えば自律的に移動(歩行や走行)可能に構成されており、配置されている建物内等を適宜移動(歩行または走行)可能である。したがって、ロボットシステム1を構成する複数のロボット(ロボットA,B)のうち一部のロボット(例えばロボットB)が、発話を行っているユーザ(本例ではユーザ500)の近傍に位置していない、すなわちユーザの発話音声が届く範囲に位置していない場合もある。ここで、ユーザの近傍とは、ロボットシステム1における各ロボットが、ユーザの発話音声を音声認識に十分な音量かつ環境音(ノイズ)の少ない状態で収音できる範囲を示す。
複数の対話ロボットがそれぞれ異なる位置に移動している場合、発話を行っているユーザと対話ロボットとの距離や、周囲環境の影響(環境音等のノイズの大小)等によって各対話ロボットにおける音声認識の精度にばらつきが生じることがある。詳しくは後述するが、図1に示す例では、ユーザ500に対してロボットAは距離αの位置(ユーザ500の発話音声を音声認識できる位置)にあり、ロボットBは距離βの位置(ユーザ500の発話音声の認識ができない位置)にある。
このような場合にも、ロボットシステム1は、上述の通信機能によって複数のロボットが連携可能であるため、ユーザの発話音声が届く範囲に位置しているロボット(本例ではロボットA)による精度の高い音声認識結果を、他のロボット(本例ではユーザ500の近傍に位置していないロボットB)と共有することができる。このため、ロボットシステム1は、システム全体としてユーザの発話音声についての音声認識の精度を向上させることができる。またこれにより、ロボットシステム1は、ユーザの発話音声が到達しない位置にあるロボットにおいてもユーザに対して適切な応答をすることができ、利便性を向上することができる。
(1−2)ロボットの構成
ここで、図2を用いてロボットシステム1におけるロボットA,Bの構成について説明する。本実施形態においてロボットA,Bは同一の構成を有している。このため、以下の説明では、ロボットAの構成について説明し、ロボットBの構成の説明は省略する。
なお、理解を容易にするため、図2にはロボットAにおいて本実施形態の説明に必須の構成のみを図示し、その他の構成は図示を省略する。
図2に示すように、ロボットAは、ロボットAの制御処理を統括する統括制御部10を有している。統括制御部10は、ロボットAを構成する図2に示す各構成要素に対して、制御信号等を出力することにより直接または間接的に制御を行う。また、統括制御部10には、各構成要素から種々の情報が集約される。統括制御部10と各構成要素との関連については、後述する。
またロボットAは、ロボットAの周囲の音声を収音して入力可能な音声入力部11を有している。音声入力部11は、一または複数の収音装置(不図示)により形成されている。ここで、収音装置は、例えば全指向性(無指向性)マイクロフォンである。ここで、音声入力部11に入力される音声(入力音声)は、例えばロボットシステム1のユーザの発話音声が想定される。音声入力部11は、入力音声(アナログ信号)を音響処理部110に出力する。
音響処理部110は、音声入力部11からアナログ信号として入力された入力音声をアナログ−デジタル(A−D)変換してデジタル信号による音声データ(デジタル音声データ)を生成し、生成したデジタル音声データを音声認識部113に出力する。また、音声入力部11が複数の収音装置(マイクロフォン)により形成されている場合、音響処理部110は、音声入力部11から入力されたユーザの発話音声に基づいてユーザの位置(音源方向)を推定することで音源方向推定データを取得可能である。音響処理部110は、音源方向推定データ取得すると、当該データを必要に応じて統括制御部10に出力する。
音声認識部113は、音響処理部110からデジタル音声データが入力されると、不図示の音声認識エンジンにおいて、自動音声認識(ASR:Automatic Speech Recognition)により、音声データを単語として認識する処理を行う。また、音声認識部113は、不図示の意味解析エンジンにおいて、音声認識エンジンでの音声認識結果(単語)の組み合わせに対して自然言語認識(NLU:Natural Language Understanding)を行い、音声認識結果の意味を解析する。これにより、音声認識部113において、音声入力部11に入力された入力音声(ユーザの発話内容)の意図を解析した結果を示す音声認識結果(例えばテキストデータ)が生成される。音声認識部113は、音声認識結果を後述する応答制御部120に出力する。応答制御部120に出力された音声認識結果は、さらに統括制御部10に出力される。
ロボットAは、音声認識部113を有していることで、インターネットに接続して所定の音声認識サーバを利用することなく、自機内(ローカル環境)においてユーザの発話に基づく入力音声の音声認識処理(意味解析処理を含む)を実行することができる。
また、ロボットAは、所定の通信モジュールを用いて他のロボット(本例では、ロボットB)と音声認識結果を含むデータの送受信が可能な通信部13を有している。ここで、通信部13において用いられる通信モジュールは、例えばBluetooth(登録商標)等(無線PAN)やwi−fi(無線LAN)等の規格によるものである。本実施形態における通信部13は、他のロボット(本例では、ロボットB)との間での通信に用いられる構成であって、インターネットを介したサーバ通信等は行わない。
データ送信時において、通信部13は、統括制御部10から入力される制御信号(通信開始信号)に基づいて他のロボットに対してデータ送信を行う。例えば、ロボットAの通信部13は、統括制御部10から通信開始信号と合わせて音声認識部113による音声認識結果が入力されると、入力された音声認識結果をロボットBに送信する。
また、データ受信時において通信部13は、他のロボット(例えばロボットB)から受信したデータを統括制御部10または音声認識部113に出力する。これにより、他のロボットから受信したデータが共有されて、統括制御部10によって利用する(例えば各構成に出力する)ことが可能となる。
統括制御部10は、自機(本例では、ロボットA)の音声認識部113における音声認識結果または、通信部13が受信した他のロボット(本例では、ロボットB)の音声認識結果が入力されると、応答制御部120に対しユーザへの応答を指示する制御信号(応答指示信号)を生成する。統括制御部10は、生成した応答指示信号と音声認識結果とを応答制御部120に出力する。
応答制御部120は、統括制御部10から応答指示信号および音声認識結果が入力されたことに基づいて、ユーザに対する応答に用いる文章(応答文)を生成し、応答文を応答部15に出力して、ユーザへの応答を指示する。
図2に示すように、応答制御部120は、応答文生成部122を有している。応答文生成部122は、応答制御部120に入力された音声認識結果に基づいて、応答文を生成する。応答文生成部122が生成する応答文は、例えばテキストデータである。
具体的には、応答文生成部122は、音声認識結果に基づいてユーザが所望する応答の内容(ユーザが求める情報)を特定すると、ユーザが求める情報を含む応答文を生成する。応答文生成部122は、音声認識結果に基づいて、ユーザが求める情報が内部で保持している内部情報(例えば、単なる挨拶や時間、および予めロボットA内に登録されている情報)であると特定した場合には、不図示の記憶領域(メモリ)からユーザが求める情報に対応する内容の内部情報を取得し、当該内部情報を含む応答文を生成する。また、応答文生成部122は、ユーザが求める情報が内部情報のみでは対応できない情報であると判定した場合に、ネットワーク通信部(不図示)を介してインターネットに接続し、所定の検索サーバを経由してユーザが求める情報を取得してもよい。
応答文生成部122が生成した応答文は、応答制御部120から応答部15に出力される。なお、応答文生成部122が生成する応答文(テキストデータ)は、プレーンテキストであってもよいし、音声合成マークアップ言語(SSML)形式等であってもよい。
応答部15は、入力された応答文に基づいて応答音声を生成可能な応答音声生成部151と、応答音声生成部151が生成した応答音声を出力(再生)する音声出力部153とを有している。
応答音声生成部151は、テキストデータである応答文を音声変換し、応答文の内容と一致する内容の応答音声を合成音声によって生成すると、音声出力部153に出力する。音声出力部153は所定のスピーカであって、入力された応答音声を自機(本例では、ロボットA)が配置された空間に出力する。これにより、ロボットAは、音声入力部11に入力されたユーザの発話音声に対応する応答音声を応答部15の音声出力部153から出力し、ユーザとの対話を成立させることができる。
図1に示すように、ロボットシステム1に含まれるロボット(ロボットA,B)は、人型を模した形状の物理構成(ハードウェア)を有している。このため、例えば音声出力部153に該当する所定のスピーカは、ロボットAの頭部、特に口に該当する箇所の近傍に設けると、ユーザとの対話により臨場感を与えることができる。
また、ロボットAは、所定の撮影装置(カメラ)で撮像した画像(または映像)を取得して入力可能な画像入力部17を有している。画像入力部17は、例えばロボットAの物理構成における頭部(目に該当する箇所の近傍)に搭載されている。画像入力部17は、撮影装置から入力された画像(入力画像)を画像処理部170に出力する。
画像処理部170は、入力画像に対して画像認識を実行して、ユーザの存在有無や、ユーザまたは他のロボット(本例では、ロボットB)の現在位置、および自機(本例ではロボットA)とユーザまたは自機と他のロボット(本例では、ロボットB)との距離を検出する。また、画像処理部170は、ユーザが自機の近傍にいる場合には、ユーザの顔の向き等も検出することができる。画像処理部170は、必要に応じて入力画像から検出した画像認識結果を統括制御部10に出力する。
また、ロボットAは、自機を移動可能とするための移動装置(車輪、キャタピラ、複数の脚部等)を駆動可能な電気的駆動源(モータ、アクチュエータ等)である駆動部19を有している。駆動部19は、例えばロボットAのハードウェアにおいて、地面と接する位置に設けられた移動装置に付属している。例えば、ロボットAは、移動装置として足を模した部位の裏(接地面)に設けられた車輪を有しており、駆動部19は、該車輪を駆動させるモータである。駆動部19は、駆動制御部190の制御に基づいて移動装置を駆動させる。
駆動制御部190は、統括制御部10からの制御信号(駆動指示信号)に基づいて駆動部19を制御可能な構成である。例えば、統括制御部10は、画像処理部170から入力されたユーザの位置情報を含む駆動指示信号を駆動制御部190に送信する。駆動制御部190は、駆動指示信号から移動方向や移動距離のデータを抽出し、抽出したデータによって駆動部19を制御することで、ロボットAを統括制御部10が指示する位置に移動させることができる。
以上説明したように、ロボットAは、統括制御部10の制御に基づいてロボットシステム1における対話サービスに係る種々の動作を実行可能である。すなわち、ロボットAは、音声入力部11から入力されたユーザの発話音声について音声認識部113によって音声認識して音声認識結果を統括制御部10に出力し、統括制御部10からの指示に基づいて応答制御部120が応答文を生成し、応答部15が応答文に応じた応答音声を再生することで、ユーザの発話音声に応じた応答が可能となる。また、ロボットAは、通信部13によって他のロボット(本例では、ロボットB)と音声認識結果の送受信が可能であり、音声認識結果を共有することができる。また、ロボットAは、画像入力部17から入力された画像に基づいて、例えばユーザの位置情報を統括制御部10に出力し、統括制御部10はユーザの位置情報を含む駆動指示信号を駆動制御部190に出力し、駆動制御部190は駆動指示信号に基づいて駆動部19を制御して移動装置を駆動させることで、ユーザの近傍等の所定位置へ移動することができる。
なお、上述のように、ロボットBもロボットAと同様の構成を有するため、ロボットAと同様の作用効果を奏する。
(1−3)ロボットシステム1の動作例
次に、本実施形態によるロボットシステム1のユースケースと、当該ユースケースにおけるロボットシステム1の動作の一例について、図1および図2を参照しつつ、図3および図4を用いて説明する。図3は、図1に示すユースケースの状況において、ロボットシステム1のロボットAおよびロボットB間でロボットAによる音声認識結果を共有する動作の一例を示すシーケンス図である。
図1に示すユースケースにおいて、ロボットAはユーザ500の近傍に位置しており、ロボットBはロボットAと比較してユーザの遠方に位置している。
例えば、ロボットAとユーザ500との距離αは1メートル未満であって、ユーザ500の発話音声は音声認識の実行に十分な音量でロボットAに到達する。また、ロボットAがユーザ500の近傍に位置しているため、ロボットAにおける音声認識への周囲の環境音(ノイズ)の影響も少ない。したがって、ロボットAは十分な精度でユーザ500の発話音声を音声認識することができる。
一方、例えばロボットBとユーザ500との距離βは3メートル程度であって距離αの3倍程度であり、ロボットBにはユーザ500の発話音声が到達しないか、または到達しても発話音声の音量が音声認識に十分な音量ではない。さらに、ロボットBはユーザ500の遠方に位置しているため、ロボットBにおける音声認識への周囲の環境音(ノイズ)の影響は、ロボットAよりも大きくなる。したがって、ロボットBはユーザ500の発話音声を適正に音声認識することができないか、または音声認識の精度がロボットAよりも低減される。
ここで、ユーザ500がロボットBの名称を含む発話(例えば「○○(ロボットBの呼称)、時間を教えて!」)を行ったとする。この場合、ユーザ500の近傍に位置しているロボットAにおいて、ユーザ500の発話音声が音声入力部11から入力される。ロボットAの音声入力部11はユーザ500の発話音声のデータである入力音声データ(アナログ信号)を音響処理部110に出力し、音響処理部110は入力音声データをデジタル音声データに変換して音声認識部113に出力する。
これにより、図3に示すように、ロボットAの音声認識部113においてユーザ500の発話音声について音声認識が開始され(ステップS101)、ユーザ500の発話音声を解析したテキストデータとして音声認識結果が導出され(ステップS103)、導出された音声認識結果が応答制御部120に出力される。
ロボットAの応答制御部120は、入力された音声認識結果を統括制御部10に出力する。また、ロボットAの統括制御部10は、入力された音声認識結果に基づいてユーザ500の発話が他のロボット(本例では、ロボットB)に対する発話であるか否かを判定する(ステップS105)。例えば、ロボットAの統括制御部10は、入力された音声認識結果にロボットBの呼称が含まれているか否かによって、ユーザ500の発話がロボットBに対する発話であるか否かを判定する。
本例において、ユーザ500の発話音声(例えば「○○(ロボットBの呼称)、時間を教えて!」)の冒頭にはロボットBの呼称が含まれており、ユーザ500の発話対象のロボットはロボットBであるとする。このため、統括制御部10は、ユーザ500の発話がロボットBに対する内容であると判定し(ステップS105のYes)、通信部13に音声認識結果と通信開始信号を出力する。これにより、ロボットAの通信部13は、入力された音声認識結果をロボットBに送信する(ステップS107)。なお、ロボットBの呼称は必ずしも発話音声の冒頭である必要はなく、統括制御部10における呼称判定処理の実装次第では、発話音声の途中や末尾に含まれてもよい。
ロボットBは、通信部13においてロボットAの音声認識結果を受信し(ステップS108)、統括制御部10に出力する。これにより、ロボットAの音声認識結果がロボットBに共有される。
なお、ロボットシステム1において、ユーザの発話対象のロボットを特定する方法は、ロボットの呼称に基づく方法に限られない。例えば、ロボットシステム1において、統括制御部10は、音声認識部113から音声認識結果が入力されると、画像処理部170に対してユーザ(本例では、ユーザ500)の視線方向のデータを要求する制御信号を出力する。画像処理部170は、画像入力部17から入力された最新の入力画像内のユーザの画像からユーザの視線方向を検出し、統括制御部10に出力する。統括制御部10は、このユーザの視線方向に基づいて、ユーザの発話対象のロボットが自機(本例では、ロボットA)か否かを判定してもよい。この場合、例えば統括制御部10は、ユーザの視線方向が自機の方向でない場合にユーザの発話対象のロボットが他のロボット(本例では、ロボットB)であると判定する。
ロボットBは、ロボットAから受信した音声認識結果に基づいてユーザ500に対する応答に用いる応答文を生成する(ステップS110)。具体的には、ロボットBの統括制御部10は、応答指示信号とともにロボットAの音声認識結果を応答制御部120に出力する。ロボットBの応答制御部120は、応答指示信号および音声認識結果が入力されると応答文生成部122において応答文を生成する。本例では、音声認識結果から解析されたユーザの発話内容が「時間を教えて」というものであるため、応答文生成部122は、内部で保有している時刻情報から現在時刻を取得し、現在時刻を含む応答文(例えば「今は、6時30分です」)を生成する。
ロボットBの応答制御部120は、応答文生成部122が生成した応答文を応答部15に出力する。応答部15は、応答文が入力されると応答音声生成部151において応答音声を生成して音声出力部153に出力し、音声出力部153(本例では不図示のスピーカ)は、入力された応答音声を再生する(ステップS112)。これにより、ユーザ500から距離βの位置に存在し、ユーザ500の発話音声について音声認識が不可能であるロボットBは、ロボットAの音声認識結果を共有して、共有した音声認識結果に基づく応答(例えば「今は、6時30分です」)を実行することができる。
一方、ユーザ500の発話対象がロボットAであり、ユーザ500の発話音声にロボットAの呼称が含まれている場合には、ロボットAの統括制御部10は、ユーザ500の発話がロボットBに対する内容でないと判定し(ステップS105のNo)、自機の応答制御部120に音声認識結果を出力する。ロボットAの応答制御部120は、応答文生成部122において応答文を生成し(ステップS109)、応答部15は応答音声生成部151において応答文を音声変換し、応答音声を音声出力部153において再生する(ステップS111)。これにより、ユーザ500から距離αの位置に存在し、ユーザ500の発話音声について音声認識が可能であるロボットAは、自機の音声認識結果に基づいてユーザ500に対して応答することができる。また、ユーザ500の発話内容にロボットA,Bのいずれの呼称も含まれていない場合は、ユーザの発話音声の音声認識が可能であるロボットAがユーザ500に応答すればよい。
このように、本実施形態によるロボットシステム1は、互いに連携可能かつ移動可能な複数のロボット(本例では、ロボットA,B)を備え、複数のロボットは、ユーザ(本例では、ユーザ500)が発した音声(発話音声)を入力可能な音声入力部11と、音声入力部11への入力音声(ユーザの発話音声)について音声認識を実行し音声認識結果を導出可能な音声認識部113と、複数のロボット間における音声認識結果の送受信が可能な通信部13と、音声認識結果に基づいてユーザに対して応答する応答部15と、を有する。
このような構成を有する複数の対話ロボットを含むロボットシステム1は、各ロボットの通信部13によって連携関係にある複数の対話ロボット間で音声認識結果を共有することができる。
また、本実施形態によるロボットシステム1において複数のロボットには、ユーザの近傍(例えば距離αの位置)に位置するロボットA(第一ロボットの一例)とロボットAよりもユーザから遠い位置(例えば距離βの位置)にあるロボットB(第二ロボットの一例)が含まれる場合があり、ロボットAは自機の音声認識結果を、通信部13によってロボットBに送信し、ロボットBは自機の通信部13において受信したロボットAの音声認識結果に基づいて自機の応答部15においてユーザに対して応答する。
これにより、一のロボット(例えばロボットB)の音声認識部113において音声認識ができず音声認識結果を取得できない場合においても、他のロボット(例えばロボットA)における音声認識結果を取得して、あたかも自機で音声認識したかのようにユーザに応答することができる。
このように、ロボットシステム1は、ユーザ(本例では、ユーザ500)が呼びかけたロボット(本例では、ロボットB)が応答しない、または呼びかけたロボット以外のロボット(本例では、ロボットA)が応答するといったストレスをユーザに感じさせることなく、対話サービスを提供することができる。また、ロボットシステム1内のロボット間で、ユーザの近傍に位置して精度の高い音声認識が可能なロボットによる音声認識結果を共有することができる。これにより、ロボットシステム1は、システム全体としてユーザの発話音声についての音声認識の精度を向上させることで利便性を向上させることができる。
また、本実施形態によるロボットシステム1は、ユーザの発話対象となるロボットがユーザの遠方に位置している場合に、当該ロボットをユーザの近傍に誘導するように構成されていてもよい。
図4は、本実施形態によるロボットシステム1において、ロボットAがロボットBをユーザの現在位置まで誘導する場合の動作の一例を示すシーケンス図である。図4に示す動作は、図1に示すユースケースの状況と同様に、ロボットAがユーザ500の近傍(距離α)に位置し、ロボットBがユーザ500の遠方(距離β)に位置している状況におけるロボットシステム1の動作である。なお、図4において、図3に示すシーケンス図と同様の処理を行うステップには図3と同じ符号を付し、説明を省略する。
図4に示すように、ユーザ(例えば、図1に示すユーザ500)が発話すると、ユーザ500の発話音声についてユーザの近傍に位置するロボットAが音声認識部113において音声認識を開始して音声認識結果を導出する(ステップS101−S103)。本例において、ロボットAの統括制御部10は、ユーザ500の発話が、ユーザ500の遠方に位置するロボットBに対する発話であると判定すると(ステップS105のYes)、音声認識結果と合わせてユーザ位置情報を通信部13に出力してロボットBに送信する(ステップS121)。ユーザ位置情報は、発話中のユーザの現在位置を座標で示すマッピングデータと、ユーザと自機との距離を示すユーザ距離データとで構成される。
具体的には、ロボットAの統括制御部10は、画像処理部170に対してマッピングデータおよびユーザ距離データを要求する信号(ユーザ情報要求信号)を出力する。画像処理部170は、ユーザ情報要求信号が入力されると、例えば画像入力部17から入力された最新の入力画像に含まれるユーザ500の画像からユーザ500と自機との距離を検出しユーザ距離データを生成する。また、画像処理部170は、例えば予め作成されたマッピングデータ上における自機の位置と向き、およびユーザ距離データに基づいて、マッピングデータ上でのユーザ500の現在位置を検出する。画像処理部170は、ユーザ500の現在位置を示すマッピングデータを統括制御部10に出力する。例えば、画像処理部170は、ユーザ情報要求信号が入力されると画像入力部17に撮影装置(不図示)によるユーザ500の撮影を指示してもよい。これにより、ユーザ500の現在位置をより正確に検出することができる。また、統括制御部10は、ユーザ情報要求信号を画像処理部170に出力する際に、音響処理部110から入力された音源方向推定データに基づいて、駆動制御部190を介して駆動部19を駆動させ、自機(本例では、ロボットA)をユーザ500がいると推定される方向に向けてもよい。このとき、ユーザの方向へ向けるのは、例えば撮影装置が搭載されている箇所(例えば頭部)のみであってもよい。これにより、画像入力部17から入力される入力画像には、より確実にユーザ500が含まれることとなる。
ロボットAの統括制御部10は、画像処理部170から入力されたマッピングデータおよびユーザ距離データを含むユーザ位置情報を生成すると、生成したユーザ位置情報を音声認識結果および通信開始信号と合わせて通信部13に出力する。ロボットAの通信部13は、入力されたユーザ位置情報および音声認識結果をロボットBに送信する。
また、ユーザ位置情報には、音響処理部110が取得した音源方向推定データが含まれていてもよい。この場合、ロボットAの統括制御部10は、音響処理部110に対して音源方向データを要求する信号(音源情報要求信号)を出力し、音響処理部110は音源情報要求信号が入力されると、ユーザ500の位置を示す音源方向推定データを統括制御部10に出力する。音響処理部110は、例えば音声入力部11からユーザ500の発話音声が入力された際に推定される音源方向を取得して所定の記憶領域で保持している。
ロボットBの通信部13は、ロボットAの音声認識結果およびユーザ位置情報を受信し(ステップS122)、統括制御部10に出力する。これにより、ロボットAの音声認識結果およびユーザ位置情報がロボットBに共有される。
ロボットBは、受信したユーザ位置情報に基づいてユーザ500と自機との距離を判定する(ステップS124)。例えば、ロボットBの画像処理部170は、統括制御部10の指示に基づいて、ユーザ距離データとユーザ方向データを検出する。ユーザ距離データは、自機とユーザ500との距離データである。また、ユーザ方向データは、自機(ロボットB)に対するユーザ500の現在位置の方向を示すデータである。ユーザ距離データおよびユーザ方向データは、予め取得されているマッピングデータ上における自機の位置と、ロボットAから受信したマッピングデータ上におけるユーザ500の現在位置とに基づいて検出される。ロボットBの画像処理部170がユーザ距離データおよびユーザ方向データを検出して統括制御部10に出力すると、統括制御部10は入力されたユーザ距離データに基づいて、ユーザ500と自機との距離が予め定められた距離よりも長いか否かを判定する。ここで予め定められた距離とは、ロボットBがユーザ500の音声を取得して音声認識部113における音声認識が可能と推定される距離(例えば距離α)を示す。本例では、ロボットBとユーザ500との距離は距離αよりも長い距離βである(図1参照)。このため、ロボットBの統括制御部10は、ユーザ500と自機との距離が距離αよりも長いと判定して、ユーザ500と自機との距離が距離αとなる地点まで移動する(ステップS126)。
具体的には、ロボットBの統括制御部10は、ロボットBの画像処理部170が検出したユーザ距離データおよびユーザ方向データ含む駆動指示信号を駆動制御部190に出力する。ロボットBの駆動制御部190は、統括制御部10から入力されたユーザ距離データおよびユーザ方向データに基づいて、移動対象地点(ユーザ500からの距離が距離αとなる地点)を割り出し、移動対象地点に移動するための移動方向や移動距離のデータを抽出する。さらにロボットBの駆動制御部190は、抽出したデータに基づいて自機の移動装置(不図示)に設けられた駆動部19を制御する。こうして、ロボットBは、ユーザ500のいる方向へ自機を向けて、移動対象地点まで移動することができる。これにより、以降、ロボットBには音声認識に十分な音量のユーザ500の発話音声が到達することとなり、ロボットBは自機の音声認識部113においてユーザ500の発話音声についての音声認識が可能となる。このため、ロボットBは、ロボットAからの音声認識結果の送信を待つことなく、ユーザ500の発話に対して速やかに応答することができる。なお、移動対象地点の割り出しや当該移動対象地点に移動するための移動方向や移動距離のデータの抽出は、統括制御部10が実行し、抽出したデータを駆動制御部190に出力してもよい。
ロボットBが移動対象地点まで移動すると、ロボットBの統括制御部10は、応答制御部120に音声認識結果を出力して応答文を生成し(ステップS110)、応答文を音声変換した応答音声を応答部15の音声出力部153において再生する(ステップS112)。こうして、ロボットBはユーザ500の近傍において応答音声を再生することができる。すなわち、ロボットBは、ユーザ500の遠方(距離β)から近傍(距離α)に移動することで、ユーザ500が聞き取り易い状況において応答音声を再生することができる。
このように、本実施形態によるロボットシステム1において、ユーザ(本例では、ユーザ500)の近傍に位置するロボット(本例ではロボットA)は、ユーザ位置情報を通信部13によってユーザの遠方に位置するロボット(本例では、ロボットB)に送信し、ロボットBは、ユーザ位置情報に基づいてユーザの近傍、すなわち現在の位置よりもユーザに近い位置であってユーザの発話音声を音声認識できる位置に移動する。
これにより、ロボットシステム1は、通信部13による連携関係にある複数台の対話ロボット間で音声認識結果を共有し、かつユーザから離れた位置にいるロボットをユーザの近傍に誘導することができる。このため、ロボットシステム1は、ユーザの発話音声についての音声認識の精度を向上することができ、かつユーザに提供するロボットとの対話サービスにおける対話機能の向上させることで利便性の向上を図ることができる。また、ロボットシステム1は、遠方にいるロボットをユーザの近傍に誘導することで、呼びかけに応じてロボットが近づいてきたという満足感をユーザに感じさせることができる。
また、図4においては、ロボットシステム1の動作例として、ユーザ500の近傍にいるロボットAが音声認識結果およびユーザ位置情報を一の送信処理においてユーザ500の遠方にいるロボットBに送信する例を説明したが、本発明はこれに限られない。例えば、ロボットシステム1において、ユーザ500の近傍にいるロボットAの統括制御部10は、音声認識結果の送信処理とユーザ位置情報の送信処理とを別個の送信処理として実行してもよい。
また、本実施形態によるロボットシステム1におけるロボットA,Bは、不図示の撮影装置(カメラ)によって定期的に自機の周囲を撮影し、撮影した画像を画像処理部170において画像認識することにより、互いの位置関係を常時把握するようにしてもよい。この場合、ロボットA,Bは互いの位置が近い(例えば1m未満)場合には、音声認識結果を共有しないように構成されていてもよい。
これにより、ロボットシステム1は、ユーザから離れた位置にいるロボットをユーザの近傍、すなわちユーザに近い位置にいるロボットの近傍に誘導することで、不要な音声認識結果の送受信を防止して、複数のロボット間の通信による処理負荷を低減することができる。
また、ロボットシステム1においてロボットA,Bは、自機に所定のユーザの発話音声が入力された場合に、ユーザの発話対象が他のロボットか否かに関わらず、他のロボットをユーザの近傍へ誘導する構成であってもよい。例えば、ロボットA,Bにおいてユーザの発話音声が音声入力部11に入力されると、統括制御部10がユーザ位置情報に基づいて他のロボットの位置を検出し、他のロボットの位置がユーザから離れた位置(例えば、距離αを超過する位置)であるときに、通信部13を介してユーザ位置情報を他のロボットに送信してもよい。これにより、ロボットシステム1は、ユーザが対話サービスの利用を所望している際に複数のロボットをユーザの近傍に誘導し、各ロボットがユーザの発話音声の音声認識を実行可能な状態にすることができる。このため、ロボットシステム1は、当該システムにおける音声認識の精度を向上させ、ひいては対話ロボットの利便性の向上を図ることができる。
(1−4)第1実施形態の変形例1
上記第1実施形態において、ロボットシステム1は、複数台の対話ロボット間において音声認識結果を共有するとしたが、本発明はこれに限られない。例えば、ロボットシステム1は、複数台の対話ロボット間においてユーザの発話音声を共有してもよい。この場合、音声認識部113は、音響処理部110から入力された入力音声データ(デジタル信号)を応答制御部120を介して統括制御部10に出力する。
図5は、本変形例におけるロボットシステム1の動作を説明するシーケンス図である。なお、図5において、図3に示すシーケンス図と同様の処理を行うステップには図3と同じ符号を付し、説明を省略する。なお図5に示すロボットシステム1の動作時においても、ユーザ500、ロボットA,Bは、それぞれ図1に示すのと同様の位置関係にあるとする。
図5に示すように、ユーザ500が発話すると、ユーザ500の発話音声についてユーザ500の近傍に位置するロボットAが音声認識部113において音声認識を開始して音声認識結果を導出する(ステップS101−S103)。本変形例において、ロボットAの統括制御部10は、ユーザ500の発話が、ユーザ500の遠方に位置するロボットBに対する発話であると判定すると(ステップS105のYes)、音声認識部113から入力されたユーザ500の発話音声(入力音声データ)を通信部13に出力してロボットBに送信する(ステップS131)。
ロボットBの通信部13は、通信部13においてロボットAからユーザ500の発話音声(入力音声データ)を受信し(ステップS132)、音声認識部113に出力する。これにより、ロボットAが取得したユーザの発話音声がロボットBに共有される。
ロボットBは、受信したユーザ500の発話音声について音声認識部113において音声認識を開始し(ステップS134)、音声認識結果を導出し(ステップS136)、導出した音声認識結果を統括制御部10に出力する。ロボットBの統括制御部10が応答制御部120に音声認識結果を出力すると、応答制御部120は、応答文生成部122において応答文を生成し(ステップS110)、応答部15は応答音声生成部151において応答文を音声変換し、応答音声を音声出力部153において再生する(ステップS112)。このように、ユーザ500から距離βの位置に存在しユーザ500の発話音声についての取得が不可能であるロボットBは、ロボットAが取得したユーザ500の発話音声を共有することにより自機で音声認識を実行可能であり、ユーザ500に対して、自機で導出した音声認識結果に応じた応答をすることができる。
なお、本変形例において、ロボットAはステップS131において、ユーザ500の発話音声と合わせてユーザ500の位置情報をロボットBに送信してもよい。これにより、ロボットシステム1は、図4に示すシーケンス図を用いて説明した動作と同様に、ユーザの発話音声を共有する場合においてもユーザの遠方にいるロボットをユーザの近傍の位置(ユーザから距離αの位置)に誘導することができる。
(1−5)第1実施形態の変形例2
また、上記第1実施形態において、統括制御部10は、音声認識結果に含まれるロボットの呼称に基づいてユーザの発話対象のロボットを特定するとしたが、本発明はこれに限られない。例えば、ロボットシステム1において、各ロボットが音声認識において認識可能な話題(ドメイン)が異なる場合には、ユーザが発話した内容が示す話題によって、ユーザの発話対象となるロボットを特定してもよい。ここで、各ロボットが対応可能な話題は、音声認識時において、音声認識部113における音声認識エンジンが用いるモデル(言語モデルおよび音響モデル)と辞書の構成に依存する。
本変形例において、例えばロボットAの統括制御部10は、ユーザ500の発話音声に自機が認識可能でない話題が含まれると判定すると、通信部13を介してロボットBにユーザ500の発話音声を送信する。この場合、ロボットシステム1において話題の特定に用いられるキーワードが各ロボットに予め登録されており、統括制御部10は、音声認識結果に含まれるキーワードに基づいてユーザの発話音声の話題が自機において音声認識可能な話題か否かを判定する。本変形例によるロボットシステム1は、例えばロボットAにおいてユーザ500の発話音声に自機が認識可能でない話題が含まれる場合に、当該話題を認識可能であるロボットBにユーザ500の発話音声を送信して共有させることができる。また、その逆(ロボットBからロボットAにユーザの発話音声を送信すること)も可能である。
これにより、ロボットシステム1は、ロボット間でユーザの発話音声を共有することで、ユーザの発話音声が含む話題に適応しないロボットにユーザが話しかけた場合であっても、ユーザの発話音声が含む話題に適応するロボットにおいてユーザの発話音声の音声認識を行い、当該話題に適した応答することができる。つまり、本変形例によるロボットシステム1を構成する複数の対話ロボットは、自機では十分に対応できない話題を含むユーザの発話音声を他のロボットに転送することで、ユーザとの対話を円滑に継続させることができる。このため、本変形例によるロボットシステム1は、各ロボットに対応可能な話題を分散させ、かつ各ロボットでユーザの発話音声を共有可能であることによって、ユーザの発話音声に含まれる話題についての音声認識の精度を向上させることができる。したがって、ロボットシステム1は、各ロボットの作製コストを低減し、かつ利便性の向上を図ることができる。
(1−6)第1実施形態の変形例3
また、上記第1実施形態によるロボットシステム1において、複数台のロボットはいずれも音声認識機能を有するとしたが、本発明はこれに限られない。例えば、複数台のロボット(本例では、ロボットA,B)において、一部のロボット(例えばロボットB)は、音声認識機能を有しなくてもよい。
例えば、ロボットBは、音声入力部11、音響処理部110および音声認識部113といった音声認識機能を実現する構成要素を有していなくてもよい。この場合、ロボットBの通信部13は、例えばロボットAから受信したデータを全て統括制御部10に出力する。
ロボットBが音声認識機能を有しない場合であっても、図3に示すようにロボットAの音声認識部113による音声認識結果をロボットBに送信することによって、ユーザ500の発話音声に対してロボットBが応答することができる。
本変形例において、音声認識機能を有しないロボットBには、音声認識機能を実現する構成要素が不要となるため、ロボットBの作製コストは低減される。このため、ロボットシステム1は、利便性の向上と、ロボットシステム1の構築に係る費用の低減とを両立することができる。また、ロボットBの作製コストの低減に伴い、音声認識機能を有しないロボットの価格を低減することが可能となるため、ロボットシステム1を導入する企業や店舗の運営者にとっても複数台のロボットを購入する際の費用を低減することができる。したがって、結果としてロボットシステム1は、企業や店舗における当該システムの導入を促進させることができる。このように、本変形例によるロボットシステム1は、対話ロボットの作製コストおよび本システムの導入費用を低減し、かつ複数のロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。また、本変形例において、音声認識機能を有するロボットと音声認識機能を有しないロボットとの対応関係は、1対1であってもよいし、1対多であってもよいし、多対1であってもよい。
2.第2実施形態
次に、本発明の第2実施形態によるロボットシステム2について図2、図6および図7を用いて説明する。図6は、本実施形態によるロボットシステム2の概略構成およびロボットシステム2のユースケースの一例を示す図である。
ロボットシステム2は、音声認識機能を有する複数台のロボット(本例では、ロボットC,D)を連携させるロボットシステムである点で、上記第1実施形態によるロボットシステム1と同様である。なお、ロボットC,Dの構成要素は、図2に示す上記第1実施形態によるロボットA,Bの構成要素と同様であるため説明は省略する。
一方、本実施形態によるロボットシステム2は、ロボットシステム2を構成する複数のロボット間において主従関係が形成されている点でロボットシステム1と異なる。
図6に示すユースケースにおいて、ロボットシステム2におけるロボットC,Dはいずれもユーザ700の近傍(音声認識に十分な音量かつ環境音(ノイズ)の少ない状態で発話音声を収音できる範囲)にあり、ユーザの発話音声について高い精度で音声認識が可能である。
ここで、従来、複数のロボットによる対話サービスにおいて、複数のロボットがユーザの発話音声を音声認識可能である場合、各ロボットが同時に応答音声を再生してしまう事象が発生していた。このような事象が発生すると、ユーザは同時に再生された応答音声を聞き取ることが困難となり、結果として対話機能が損なわれて、対話サービスを提供するロボットシステムの利便性が低減することになる。
これに対し、本実施形態によるロボットシステム2は、複数のロボットについて1つの主たるロボット(主ロボット)と主ロボットに従属する従ロボットによる主従関係を形成している。詳しくは後述するが、ロボットシステム2において、主ロボット(本例ではロボットC)は、複数のロボット(ロボットC,D)が同時にユーザ(本例ではユーザ700)の発話音声に対する音声認識を実行する場合に応答音声を再生する順序(応答順序)を決定し、この順序に基づいて従ロボット(本例ではロボットD)に対して応答指示を行う。また、従ロボットは、主ロボットの応答指示に基づいて応答音声の発話を行う。
このように、ロボットシステム2においては主ロボットが複数のロボットにおけるユーザへの応答順序を制御する。このため、ロボットシステム2は、複数のロボットが同時に応答音声を発話して対話機能が損なわれることを防止し、対話機能を向上させることで複数の対話ロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。
ここで、図7を用いて主ロボットと従ロボットとを含むロボットシステム2の動作の一例を説明する。図7は、図6に示すユースケースにおけるロボットシステム2の動作の一例を示すシーケンス図である。なお、上述のようにロボットC,Dは第1実施形態におけるロボットA,Bと同様の構成要素を有するため、音声認識や応答音声の再生に関する処理はロボットA,Bと同様である。したがって、図7において、図5に示すシーケンス図と同様の処理を行うステップには図5と同じ符号を付し、説明を省略する。
ロボットC,Dの近傍にいるユーザ700が発話すると、図7に示すように、ユーザ700の発話音声についてロボットC,Dがそれぞれの音声認識部113において音声認識を開始して音声認識結果を導出し(ステップS101、S103およびステップS132、S134)、導出した音声認識結果を統括制御部10に出力する。本実施形態において、従ロボットであるロボットDの統括制御部10は、音声認識結果が入力されると、自機が従ロボットであることに基づいて主ロボットであるロボットCに対して応答指示を依頼する(ステップS140)。本実施形態によるロボットシステム2において、各ロボットが主ロボットであるか否かは各ロボットの所定の記憶領域(メモリ)に予め登録された情報(主従識別情報)に基づいて判断される。つまり、ロボットDの統括制御部10は、メモリに登録された主従識別情報を参照し、自機が従ロボットであると判断してロボットCに応答指示を要求する所定の信号を送信する。
主ロボットであるロボットCは、通信部13によってロボットDから応答指示依頼(応答指示の要求信号)を受信し、応答指示依頼が統括制御部10に入力されたことに基づいて、統括制御部10によってロボットシステム2内におけるロボットが応答音声を発話する順序(応答順序)を決定する(ステップS141)。本例において、ロボットCの統括制御部10は、応答順序判定情報に基づいて各ロボットの応答順序を決定する。応答順序判定情報とは、音声認識の信頼度の高さや、ゲイン(音響処理部110において取得されるユーザ700の発話音声(アナログ信号)の波形の高さ)を示す情報であって統括制御部10が保持している。音声認識の信頼度は、音声認識部113が統括制御部10に出力する音声認識結果に含まれており、音声認識の精度の高低を示す数値である。また、ゲインは音響処理部110においてユーザ700の発話音声がデジタル信号(入力音声データ)に変換される際に音響処理部110から統括制御部10に出力される。また、ロボットDの応答順序判定情報は、応答指示の要求信号と合わせて送信される。
ロボットCの統括制御部10は、自機およびロボットDの応答順序判定情報を参照し、例えばロボットCの音声認識の信頼度の数値がロボットDの音声認識の信頼度の数値より高いことに基づいて、ステップS141において応答順序を「ロボットC→ロボットD」の順に決定する。本例では、ロボットCの応答順序がロボットDよりも先であるため、ロボットCの応答制御部120は、統括制御部10からの応答指示信号に基づいて応答文生成部122において応答文を生成し(ステップS109)、応答部15は応答音声生成部151において応答文を音声変換し、応答音声を音声出力部153において再生する(ステップS111)。これにより、ユーザ700の発話に対して、まず主ロボットであるロボットCが応答する。
ロボットCの統括制御部10は、自機の音声出力部153において応答音声の再生が終了すると、次に従ロボットであるロボットDに応答音声を出力させるための応答指示信号を、通信部13を介してロボットDに送信する(ステップS143)。
ロボットDの通信部13はロボットCからの応答指示信号を受信すると(ステップS144)、受信した応答指示信号を統括制御部10に出力する。ロボットDの統括制御部10は、ロボットCからの応答指示信号が入力されたことに基づいて、応答制御部120に応答指示信号を出力して応答文生成部122に応答文を生成させ(ステップS110)、応答部15は応答音声生成部151において応答文を音声変換し、応答音声を音声出力部153において再生する(ステップS112)。これにより、ユーザ700の発話に対して、主ロボットであるロボットCの次に、従ロボットであるロボットDが応答する。
このように、ロボットシステム2において、複数のロボットのうち一のロボット(本例では、主ロボットであるロボットC)は、複数のロボットのうちいずれのロボットでユーザ700に対して応答するかを決定する。具体的には、主ロボットであるロボットC(一のロボットの一例)は、ロボットシステム2における複数のロボットのそれぞれがユーザ700に対して応答する順序(応答順序)を決定する。これにより、本実施形態によるロボットシステム2は、複数のロボットにおけるユーザ700への応答タイミングを主たるロボットが制御して、複数のロボットが同時に応答音声を再生することを防止することができる。このため、ロボットシステム2は、ユーザ700が快適にロボットと対話可能な環境を整えることができ、ロボットシステム2における対話機能の向上を図ることができ、ひいては複数のロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。
(2−1)第2実施形態の変形例
上記第2実施形態におけるユースケースにおいては、主ロボットであるロボットCが従ロボットであるロボットDよりも先にユーザ700に応答する例を説明したが、本発明はこれに限られない。ロボットシステム2においては、応答順序判定情報の内容によって、従ロボットが先に応答し、次いで主ロボットが応答する場合も生じる。この場合、主ロボットであるロボットCは、応答順序を決定すると(ステップS141)、次いで応答指示信号をロボットDに送信する(ステップS143)。従ロボットであるロボットDは自機における応答音声の発話を終了すると、統括制御部10において応答終了を示す信号(応答終了信号)を生成し、通信部13を介してロボットCに送信する。ロボットCは、通信部13において応答終了信号を受信すると、応答文を生成し(ステップS109)、応答音声を再生する(ステップS111)。
また、上記第2実施形態によるロボットシステム2には1つの主ロボットに対して、1つの従ロボットで構成されていたが、本発明はこれに限られない。例えば、ロボットシステム2は、1つの主ロボットに対して複数の従ロボットで構成されてもよい。
3.第3実施形態
次に、本発明の第3実施形態によるロボットシステム3について図2、図8および図9を用いて説明する。図8は、本実施形態によるロボットシステム3の概略構成およびロボットシステム3のユースケースの一例を示す図である。
ロボットシステム3は、音声認識機能を有する複数台のロボット(本例では、ロボットE,F)を連携させ、複数のロボット間において主従関係が形成されている点で上記第2実施形態によるロボットシステム2と同様である。なお、ロボットE,Fの構成要素は、図2に示す上記第1実施形態におけるロボットA,Bおよび第2実施形態におけるロボットC,Dの構成要素と同様であるため説明は省略する。
一方、本実施形態によるロボットシステム3は、ロボットシステム3を構成する複数のロボット(ロボットE,F)のそれぞれの音声認識部113が互いに異なる言語の音声認識を実行可能であり、複数のロボットのうち音声認識部113における音声認識結果の信頼度が最も高いロボットが、ユーザに対して応答する点でロボットシステム2と異なる。
図8に示すユースケースにおいて、ロボットシステム3におけるロボットE,Fはいずれもユーザ900の近傍(音声認識に十分な音量かつ環境音(ノイズ)の少ない状態で発話音声を収音できる範囲)にあり、ユーザの発話音声について高い精度で音声認識が可能である。また、本例において、主ロボットに設定されているロボットEは、音声認識部113において音声認識エンジン(不図示)が日本語に対応したモデルによって音声認識を行う。また、従ロボットに設定されているロボットFは、音声認識部113において音声認識エンジンが英語に対応したモデルによって音声認識を行う。
ここで、従来、複数のロボットによる対話サービスにおいて、ユーザの発話音声を音声認識可能である複数のロボットがそれぞれ異なる言語による音声認識を行う場合に、ユーザの発話音声と対応しない言語の応答音声が再生されてしまう事象が発生していた。具体的には、ユーザが英語で発話した場合に、日本語による音声認識を行うロボットが、ユーザの発話内容(英語)を日本語に対応したモデルを用いて音声認識し、ユーザの発話内容とかみ合わない応答音声(日本語)を再生してしまう事象が発生していた。このような事象が発生すると、ユーザとロボットとの対話が成立せずに対話機能が損なわれ、対話サービスを提供するロボットシステムの利便性が低減することになる。
これに対し、本実施形態によるロボットシステム3は、ユーザの発話音声を音声認識可能である複数のロボットのうち、ユーザの発話音声の言語に対応する言語で音声認識を行うロボットが応答音声を再生するように構成されている。詳しくは後述するが、ロボットシステム3において、主ロボット(本例ではロボットE)がユーザ(本例ではユーザ900)の発話音声の言語(本例では英語)と対応する言語で音声認識を行うロボットを判定し、当該ロボットが応答音声を再生する。例えば、主ロボットは、従ロボット(本例ではロボットF)から送信された音声認識結果と自機における音声認識結果とに基づいて、応答音声を再生するロボットを決定し、当該ロボットが従ロボットである場合には、従ロボットに応答指示を送信する。
これにより、ロボットシステム3においては、ユーザの発話音声に対応する言語で音声認識を行うロボットが、ユーザの発話内容と対応する応答音声を再生することが可能となる。したがって、ロボットシステム3は、対話機能が損なわれることを防止して複数のロボットにおける音声認識の精度を向上し利便性の向上を図ることができる。
ここで、図9を用いて主ロボットと従ロボットとを含むロボットシステム3の動作の一例を説明する。図9は、図8に示すユースケースにおけるロボットシステム3の動作の一例を示すシーケンス図である。なお、上述のようにロボットE,Fは第2実施形態におけるロボットC,Dと同様の構成要素を有するため、音声認識や応答音声の再生に関する処理はロボットC,Dと同様である。したがって、図9において、図7に示すシーケンス図と同様の処理を行うステップには図7と同じ符号を付し、説明を省略する場合がある。
ロボットE,Fの近傍にいるユーザ900が英語で発話すると、図9に示すように、ロボットEは自機の音声認識部113において音声認識を開始し(ステップS151)、ユーザ900による英語の発話音声についてロボットEの対応言語である日本語での音声認識結果を導出して(ステップS153)、音声認識結果を自機の統括制御部10に出力する。
同様に、ロボットFは自機の音声認識部113において音声認識を開始し(ステップS152)、ユーザ900による英語の発話音声についてロボットEの対応言語である英語での音声認識結果を導出して(ステップS154)、音声認識結果を自機の統括制御部10に出力する。ロボットFの統括制御部10は、音声認識結果が入力されると、自機が従ロボットであることに基づいて主ロボットであるロボットEに対して音声認識結果を送信して応答指示を依頼する(ステップS156)。
主ロボットであるロボットEは、通信部13によってロボットFから音声認識結果を受信し、ロボットFの音声認識結果が統括制御部10に入力されたことに基づいて、統括制御部10によって応答音声の言語(応答言語)を決定する(ステップS155)。主ロボットであるロボットEが応答言語を決定することで、ロボットシステム3内においていずれのロボットが応答音声を再生するかが決定される。
本例において、ロボットEの統括制御部10は、各ロボットの音声認識結果に含まれる信頼度に基づいて、応答言語を決定する。ロボットEの統括制御部10は、各ロボットの音声認識結果のうち、最も信頼度の数値が高い音声認識結果の言語を、応答言語として決定する。本例では、従ロボットであるロボットFが、ユーザの発話音声の言語と一致する言語(英語)によって音声認識を行っている。このため、ロボットFの音声認識結果の信頼度は、日本語によって音声認識を行っているロボットEの音声認識結果の信頼度よりも高くなっている。したがって、ロボットEの統括制御部10は、応答言語を英語に決定する、すなわち、従ロボットであるロボットFをユーザに対して応答するロボットに決定すると、応答音声を出力させるための応答指示信号を、通信部13を介してロボットFに送信する(ステップS143)。
ロボットFの通信部13はロボットEからの応答指示信号を受信すると(ステップS144)、受信した応答指示信号を統括制御部10に出力し、統括制御部10が応答制御部120に応答指示信号を出力して応答文生成部122に応答文を生成させ(ステップS110)、応答部15は応答音声生成部151において応答文を音声変換し、応答音声を音声出力部153において再生する(ステップS112)。本例において、ロボットFの応答文生成部122が生成する応答文および応答音声生成部151が生成する応答音声は、音声認識の言語に対応する言語(英語)である。これにより、ロボットシステム3において、ユーザ900の英語による発話に対して、従ロボットであるロボットFが英語による音声認識結果に基づいて英語による応答音声を再生する。
なお、ユーザ900の発話音声が日本語であった場合には、主ロボットであるロボットEは、ステップS155において日本語を応答言語に決定し、自機の応答部15の音声出力部153において日本語による応答音声を出力する。また、この場合、ロボットEは、従ロボットであるロボットFに対して、応答指示(ステップS143)を実行しない。したがって、ロボットシステム3は、ユーザ900の発話音声が日本語であった場合には、英語による音声認識を行うロボットFが応答音声を出力することを防止することができる。
また、本実施形態によるロボットシステム3において、主ロボットであるロボットEの統括制御部10は、応答可否の決定の際に、各音声認識結果のうち最も高い信頼度の値が予め定められた閾値以上であるか否かを判定してもよい。これにより、ロボットシステム3は、一定以上の精度を有する音声認識結果が導出された場合にだけ応答音声を再生することができ、当該システムにおける対話機能を向上させることができる。この場合、ロボットEの統括制御部10は、閾値以上の信頼度を含む音声認識結果が存在しない場合に、応答部15の音声出力部153において、自機の対応言語による定型の応答音声(例えば、ユーザに再度の発話を求める応答音声)を出力してもよい。
このように、本実施形態によるロボットシステム3において、複数のロボット(本例では、ロボットE,F)の音声認識部113は、互いに異なる言語の音声認識が可能であり、複数のロボットのうち音声認識結果の信頼度が最も高いロボット(本例ではロボットF)が、ユーザに対して応答する。
具体的には、ロボットシステム3において複数のロボットには、1つの主ロボット(ロボットF)と該主ロボット以外の残余のロボットであって該主ロボットに従属する従ロボット(本例では、ロボットF)が含まれ、従ロボットは、主ロボットに音声認識結果を送信し、主ロボットは、該主ロボットおよび従ロボットのうち信頼度が最も高い音声認識結果を導出したロボットを、ユーザに対して応答するロボットに決定する。
これにより、本実施形態によるロボットシステム3において、ユーザの発話音声に対応する言語で音声認識を行うロボットのみが、ユーザの発話内容と対応する応答音声を再生することが可能となる。さらに、主ロボットが複数のロボットの応答タイミングを制御して、複数のロボットが同時に応答音声を再生することを防止できる。したがって、ロボットシステム3は、対話機能が損なわれることを防止して複数のロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。
また、本実施形態によるロボットシステム3において、各ロボット(ロボットE,F)は一の言語で音声認識を行うように構成されている。これにより、ロボットシステム3における各ロボットは、一のロボットにおいて複数の言語による音声認識を行う場合よりも、作製コストが低減される。したがって、ロボットシステム3は、利便性の向上と、ロボットシステム3の構築に係る費用の低減とを両立することができる。また、ロボットシステム3における各ロボットの作製コストの低減に伴って、各ロボットの価格が低減されることで、ロボットシステム3を導入する企業や店舗の運営者にとっても複数台のロボットを購入する際の費用を低減することができる。したがって、結果としてロボットシステム3は、企業や店舗における当該システムの導入を促進させることができる。
また、本実施形態によるロボットシステム3において、1つの主ロボットに対して、1つの従ロボットで構成されていたが、本発明はこれに限られない。例えば、ロボットシステム3は、1つの主ロボットに対して複数の従ロボットで構成されてもよい。この場合も、複数の従ロボットがそれぞれの音声認識結果を主ロボットに送信し、主ロボットが自機および、すべての従ロボットの音声認識結果に含まれる信頼度に基づいて応答言語を決定すればよい。
(3−1)第3実施形態の変形例
上記第3実施形態において、ロボットシステム3は、複数のロボット(ロボットE,F)が主従関係を形成し、主ロボットがユーザの発話に対する応答音声の言語(応答言語)を決定するとしたが、本発明はこれに限られない。
ここで、第3実施形態の変形例について、図10および図11を用いて説明する。図10は、本変形例によるロボットシステム3の概略構成およびロボットシステム3のユースケースの一例を示す図である。また、図11は、本変形例におけるロボットシステム3の動作を説明するシーケンス図である。
例えば、本変形例によるロボットシステム3において、図10に示すように、複数のロボット(ロボットE,F)は主従関係を形成せず対等の関係であってもよい。この場合、複数のロボットE,Fが互いに音声認識結果を送受信することで互いの音声認識結果を共有し、共有した音声認識結果に基づいて、各自で応答言語を決定してもよい。これにより、ロボットシステム3における複数のロボットは、主ロボットに依存せずに自機で応答言語を決定し、ユーザ900の発話に対して自機が応答音声を再生するか否か(応答可否)を決定することができる。
ロボットE,Fの近傍にいるユーザ900が英語で発話すると、図11に示すように、ロボットE,Fの音声認識部113においてそれぞれの対応言語で音声認識が開始され、対応言語による音声認識結果が導出される(ステップS151、S153およびステップS152、S154)。次いで、本変形例において、ロボットEの音声認識部113は自機の音声認識結果を応答制御部120を介して統括制御部10に出力し、統括制御部10は通信部13を介してロボットFに自機の音声認識結果を送信する(ステップS171)。
また、ロボットFの音声認識部113は自機の音声認識結果を応答制御部120を介して統括制御部10に出力し、統括制御部10は通信部13を介してロボットEに自機の音声認識結果を送信する(ステップS172)。これにより、ロボットE,Fにおいて互いの音声認識結果が共有される。
ロボットEは、通信部13によってロボットFの音声認識結果を受信して統括制御部10に出力すると、統括制御部10によって応答言語を決定して自機による応答音声の再生の可否(応答可否)を決定する(ステップS173)。
具体的には、ロボットEの統括制御部10は、ロボットE,Fの音声認識結果のうち信頼度の高い音声認識結果の言語を応答言語に決定し、応答言語が自機の音声認識の言語であれば、自機による応答音声の再生が可能と判定する。本変形例において、上記第3実施形態と同様に、ロボットFがユーザの発話音声の言語と一致する言語(英語)によって音声認識を行っている。このため、音声認識結果の信頼度は、日本語によって音声認識を行っているロボットEの音声認識結果よりも、ロボットFの音声認識結果の方が高くなっている。したがって、ロボットEの統括制御部10は、応答言語を英語に決定し、かつ自機において応答音声(日本語)を再生しないことを決定する。
また、ロボットFは、通信部13によってロボットEの音声認識結果を受信して統括制御部10に出力すると、統括制御部10によって応答言語を決定して自機による応答音声の再生の可否(応答可否)を決定する(ステップS174)。具体的には、ロボットFの統括制御部10は、日本語によって音声認識を行っているロボットEの音声認識結果よりも、自機(ロボットF)の音声認識結果の方が信頼度が高いことに基づいて、応答言語を英語に決定し、かつ自機において応答音声(英語)を再生することを決定する。
ロボットFの統括制御部10は、ステップS174において自機が応答音声を再生すると決定したことに基づいて、応答制御部120の応答文生成部122に応答文(英語)を生成させ(ステップS110)、応答部15は応答音声生成部151において生成した応答音声(英語)を音声出力部153において再生する(ステップS112)。これにより、本変形例によるロボットシステム3において、ユーザ900の英語による発話に対して、ロボットFが英語による音声認識結果に基づいて英語による応答音声を再生することができる。
なお、本変形例によるロボットシステム3において、ロボットE,Fの統括制御部10は、応答可否の決定の際に、各音声認識結果のうち最も高い信頼度の値が予め定められた閾値以上であるか否かを判定してもよい。これにより、本変形例によるロボットシステム3は、一定以上の精度を有する音声認識結果が導出された場合にだけ応答音声を再生することができ、当該システムにおける対話機能を向上させることができる。
このように、本変形例によるロボットシステム3において、対等な関係にある複数のロボット(ロボットE,F)は、通信部13による音声認識結果の送受信によって互いの音声認識結果を共有し、共有した音声認識結果と自らの音声認識結果を比較し、複数のロボットのうち信頼度が最も高い音声認識結果を導出したロボット(本例では、ロボットF)が、ユーザ(本例では、ユーザ900)に対して応答する。
これにより、本変形例によるロボットシステム3は、上記第3実施形態によるロボットシステム3と同様に、ユーザの発話音声に対応する言語で音声認識を行うロボットのみが、ユーザの発話内容と対応する応答音声を再生することが可能となり、複数ロボットにおける音声認識の精度を向上させて利便性の向上を図ることができる。さらに、本変形例によるロボットシステム3は、各ロボットが1つの主ロボットに依存することなく各ロボットが自律的に応答可否を決定することができる。このため、本変形例によるロボットシステム3は、もし主ロボットに不具合が生じた場合においても対話機能の低減を防止して、利便性を向上させることができる。
以上、各実施形態により本発明を説明したが、本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらす全ての実施形態をも含む。さらに、本発明の範囲は、請求項により画される発明の特徴の組み合わせに限定されるものではなく、全ての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。
1、2 、3 ロボットシステム
10 統括制御部
11 音声入力部
13 通信部
15 応答部
17 画像入力部
19 駆動部
110 音響処理部
113 音声認識部
120 応答制御部
122 応答文生成部
151 応答音声生成部
153 音声出力部
170 画像処理部
190 駆動制御部
A、B、C、D、E、F ロボット

Claims (8)

  1. 互いに連携可能かつ移動可能な複数のロボットを備えるロボットシステムであって、
    前記複数のロボットは、
    ユーザが発した音声を入力可能な音声入力部と、
    前記音声入力部から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部と、
    前記複数のロボット間における前記音声認識結果の送受信が可能な通信部と、
    前記音声認識結果に基づいてユーザに対して応答する応答部と、
    を有すること
    を特徴とするロボットシステム。
  2. 前記複数のロボットには、第一ロボットと前記第一ロボットよりもユーザから遠い位置にある第二ロボットが含まれ、
    前記第一ロボットは、該第一ロボットの前記音声認識結果を、前記通信部によって前記第二ロボットに送信し、
    前記第二ロボットは、前記通信部において受信した前記第一ロボットの前記音声認識結果に基づいて前記応答部によってユーザに対して応答すること
    を特徴する請求項1記載のロボットシステム。
  3. 前記第一ロボットは、ユーザの位置情報を前記通信部によって前記第二ロボットに送信し、
    前記第二ロボットは、ユーザの前記位置情報に基づいて、ユーザの発話音声を音声認識可能な位置に移動すること
    を特徴とする請求項2記載のロボットシステム。
  4. 前記複数のロボットのうち一のロボットは、前記複数のロボットのうちいずれのロボットでユーザに対して応答するかを決定すること
    を特徴とする請求項1記載のロボットシステム。
  5. 前記一のロボットは、前記複数のロボットのそれぞれがユーザに対して応答する順序を決定すること
    を特徴とする請求項4記載のロボットシステム。
  6. 互いに連携可能かつ移動可能な複数のロボットを備え、
    前記複数のロボットは、
    ユーザが発した音声を入力可能な音声入力部と、
    前記音声入力部から入力された入力音声の音声認識を実行し音声認識結果を導出可能な音声認識部と、
    前記複数のロボット間における前記音声認識結果の送受信が可能な通信部と、
    前記音声認識結果に基づいてユーザに対して応答する応答部と、
    を有し、
    前記複数のロボットの前記音声認識部は、互いに異なる言語の音声認識が可能であり、
    前記複数のロボットのうち前記音声認識結果の信頼度が最も高いロボットが、ユーザに対して応答すること
    を特徴とするロボットシステム。
  7. 前記複数のロボットには、1つの主ロボットと該主ロボット以外の残余のロボットであって該主ロボットに従属する従ロボットが含まれ、
    前記従ロボットは、前記主ロボットに前記音声認識結果を送信し、
    前記主ロボットは、該主ロボットおよび前記従ロボットのうち信頼度が最も高い音声認識結果を導出したロボットを、ユーザ対して応答するロボットに決定すること
    を特徴とする請求項6記載のロボットシステム。
  8. 前記複数のロボットは、前記通信部による前記音声認識結果の送受信によって互いの前記音声認識結果を共有し、共有した音声認識結果と自らの音声認識結果を比較し、
    前記複数のロボットのうち信頼度が最も高い音声認識結果を導出したロボットが、ユーザに対して応答すること
    を特徴とする請求項6記載のロボットシステム。
JP2018172875A 2018-09-14 2018-09-14 ロボットシステム Pending JP2020046478A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018172875A JP2020046478A (ja) 2018-09-14 2018-09-14 ロボットシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018172875A JP2020046478A (ja) 2018-09-14 2018-09-14 ロボットシステム

Publications (1)

Publication Number Publication Date
JP2020046478A true JP2020046478A (ja) 2020-03-26

Family

ID=69901282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018172875A Pending JP2020046478A (ja) 2018-09-14 2018-09-14 ロボットシステム

Country Status (1)

Country Link
JP (1) JP2020046478A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020203067A1 (ja) * 2019-03-29 2020-10-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US11465287B2 (en) * 2019-10-28 2022-10-11 Lg Electronics Inc. Robot, method of operating same, and robot system including same
WO2022236002A1 (en) * 2021-05-06 2022-11-10 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot
WO2022252938A1 (zh) * 2021-05-31 2022-12-08 华为技术有限公司 一种语音交互应答方法和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345435A (ja) * 2002-05-24 2003-12-05 Mitsubishi Heavy Ind Ltd ロボットおよびロボットシステム
JP2004230480A (ja) * 2003-01-28 2004-08-19 Sony Corp ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2005342862A (ja) * 2004-06-04 2005-12-15 Nec Corp ロボット
JP2006181651A (ja) * 2004-12-24 2006-07-13 Toshiba Corp 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP2008152504A (ja) * 2006-12-18 2008-07-03 Hitachi Ltd 案内ロボット装置及び案内システム
JP2010231580A (ja) * 2009-03-27 2010-10-14 Kyoto Sangyo Univ 教育支援システムと教育支援方法
JP2018013545A (ja) * 2016-07-19 2018-01-25 トヨタ自動車株式会社 音声対話装置および発話制御方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345435A (ja) * 2002-05-24 2003-12-05 Mitsubishi Heavy Ind Ltd ロボットおよびロボットシステム
JP2004230480A (ja) * 2003-01-28 2004-08-19 Sony Corp ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2005342862A (ja) * 2004-06-04 2005-12-15 Nec Corp ロボット
JP2006181651A (ja) * 2004-12-24 2006-07-13 Toshiba Corp 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP2008152504A (ja) * 2006-12-18 2008-07-03 Hitachi Ltd 案内ロボット装置及び案内システム
JP2010231580A (ja) * 2009-03-27 2010-10-14 Kyoto Sangyo Univ 教育支援システムと教育支援方法
JP2018013545A (ja) * 2016-07-19 2018-01-25 トヨタ自動車株式会社 音声対話装置および発話制御方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020203067A1 (ja) * 2019-03-29 2020-10-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US11465287B2 (en) * 2019-10-28 2022-10-11 Lg Electronics Inc. Robot, method of operating same, and robot system including same
WO2022236002A1 (en) * 2021-05-06 2022-11-10 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot
US20220357752A1 (en) * 2021-05-06 2022-11-10 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot
KR20220151517A (ko) * 2021-05-06 2022-11-15 베어 로보틱스, 인크. 로봇을 제어하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
KR102506113B1 (ko) * 2021-05-06 2023-03-03 베어 로보틱스, 인크. 로봇을 제어하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
US11934203B2 (en) * 2021-05-06 2024-03-19 Bear Robotics, Inc. Method, system, and non-transitory computer-readable recording medium for controlling a robot
WO2022252938A1 (zh) * 2021-05-31 2022-12-08 华为技术有限公司 一种语音交互应答方法和电子设备

Similar Documents

Publication Publication Date Title
JP6520878B2 (ja) 音声取得システムおよび音声取得方法
US10304452B2 (en) Voice interactive device and utterance control method
JP2020046478A (ja) ロボットシステム
US10276164B2 (en) Multi-speaker speech recognition correction system
US9864745B2 (en) Universal language translator
JP2017215468A (ja) 音声対話装置および音声対話方法
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
WO2011048826A1 (ja) 音声翻訳システム、制御装置、および制御方法
JP2017211608A (ja) 音声対話装置および音声対話方法
US9792901B1 (en) Multiple-source speech dialog input
JP6614080B2 (ja) 音声対話システムおよび音声対話方法
JP2018185362A (ja) ロボットおよびその制御方法
WO2018230345A1 (ja) 対話ロボットおよび対話システム、並びに対話プログラム
KR20200090355A (ko) 실시간 번역 기반 멀티 채널 방송 시스템 및 이를 이용하는 방법
JP5206151B2 (ja) 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
KR20120127773A (ko) 음성인식 정보검색 시스템 및 그 방법
WO2018198791A1 (ja) 信号処理装置および方法、並びにプログラム
JP7400364B2 (ja) 音声認識システム及び情報処理方法
JP2017191531A (ja) コミュニケーションシステム、サーバ及びコミュニケーション方法
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP7055327B2 (ja) 会話収集装置、会話収集システム及び会話収集方法
CN113299309A (zh) 语音翻译方法及装置、计算机可读介质和电子设备
US20200038749A1 (en) Systems and devices for controlling network applications
JP6583193B2 (ja) 音声対話システムおよび音声対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221213