JP2020201322A

JP2020201322A - 案内ロボットシステム及び会話作成方法

Info

Publication number: JP2020201322A
Application number: JP2019106496A
Authority: JP
Inventors: 竜山脇; Ryu Yamawaki; 和哉茎田; Kazuya Kukita
Original assignee: Hitachi Ltd; Hitachi Building Systems Co Ltd
Current assignee: Hitachi Ltd; Hitachi Building Systems Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2020-12-17

Abstract

【課題】会話に使用する回答を言語毎に作成しなくてよい、案内ロボットに複数言語で案内サービスを実施させるシステムを提供する。【解決手段】ロボット制御装置において、利用者の発話の音声データを選択された言語で音声認識する音声認識部２２４と、音声認識の結果から特定のキーワードを検出するキーワード検出部２２５と、検出されたキーワードに基づいて、事前に登録されている複数の言語の中から一つの言語を選択する言語選択部２２６と、予め設定された第一言語とは異なる第二言語が選択された場合に、利用者の発話を第二言語から第一言語へ翻訳する発話翻訳部２４３と、第一言語に翻訳された発話から第一言語の回答を検索する会話処理部２４２と、検索された第一言語の回答を第二言語に翻訳して出力する回答翻訳部２４４と、を備える。【選択図】図３

Description

本発明は、案内ロボットシステム及び会話作成方法に関する。

従来、案内ロボットを施設に設置して案内サービスを提供するとき、案内ロボットは利用者の発話内容に一対一に対応した回答をデータベースから検索して出力していたが、ある話題に関して自然な会話を利用者と案内ロボット間で成立させることが難しいという問題があった。

自然な自動会話を実現するために、発話と回答、及びそのシナリオをデータベースに登録し、利用者の発話内容に応じてデータベースを検索することによって会話を出力するという技術が開示されている（例えば特許文献１）。

特開２０１０−７３１９２号公報

しかしながら、上述のような従来技術を複数の言語で案内サービスを提供できる案内ロボットに適用する場合、言語ごとにデータベースを作成しなければならず、言語ごとのデータベースの作り込みに膨大な時間がかかってしまう。その上、案内ロボットの納入後に、顧客により言語ごとに回答を追加することが難しいという問題がある。

上記の状況から、案内ロボットに複数言語で案内サービスを実施させるシステムにおいて、会話に使用する回答を言語ごとに作成しなくてよい手法が要望されていた。

上記課題を解決するために、本発明の一態様の案内ロボットシステムは、複数言語を用いて案内ロボットが利用者に案内サービスを提供する案内ロボットシステムであって、利用者の発話の中から特定のキーワードを検出するキーワード検出部と、このキーワード検出部により検出されたキーワードに基づいて、事前に登録されている複数の言語の中から一つの言語を選択する言語選択部と、予め設定された第一言語とは異なる第二言語が選択された場合に、利用者の発話を第一言語へ翻訳する発話翻訳部と、第一言語に翻訳された発話から第一言語の回答を検索する会話処理部と、検索された第一言語の回答を第二言語に翻訳して出力する回答翻訳部と、を備える。そして、上記会話処理部は、第二言語に翻訳された回答を用いて、利用者の発話に対する案内ロボットの応答処理を制御する。

本発明の少なくとも一態様によれば、案内ロボットに複数言語で案内サービスを実施させる場合に、会話に使用する回答を言語ごとに作成する必要がない。それゆえ、例えば案内ロボットの納入後に、顧客が第一言語のみで回答の追加を容易に行える。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明の第１の実施の形態例における案内ロボットシステム全体の構成図である。本発明の第１の実施の形態例に用いられるロボットの構成例を示す図である。本発明の第１の実施の形態例に用いられるロボット管理サーバの構成例を示す図である。本発明の第１の実施の形態例に用いられるロボット制御装置の構成例を示す図である。本発明の第１の実施の形態例に用いられるロボット制御装置による、会話の翻訳処理の手順例を説明するフローチャートの例である。

以下、本発明を実施するための形態（以下、「実施形態」と記述する）の例について、添付図面を参照して説明する。本明細書及び添付図面において実質的に同一の機能又は構成を有する構成要素については、同一の符号を付して重複する説明を省略する。

＜第１の実施の形態＞
まず、本発明の第１の実施の形態例（以下、「本例」と称する）である案内ロボットシステムと、その会話作成方法について説明する。

［案内ロボットシステムの全体構成］
図１は、案内ロボットシステム全体の構成例を示した図である。案内ロボットシステム１は、ロボット１００（案内ロボットの一例）と、ロボット制御装置２００と、ネットワーク３を介してロボット制御装置２００に接続されるロボット管理サーバ３００から構成される。

本例の案内ロボットシステム１は、ロボット１００が複数の言語を用いて案内サービスを行うシステムである。ロボット１００とロボット制御装置２００は、相互に無線通信可能に接続されており、案内サービスを提供する建物２（空港などの多数の人が交通する施設）やその敷地内に配置されている。ロボット１００は、ロボット制御装置２００から制御命令を受取り、利用者に建物２内の設備やテナントの場所、テナントの提供する商品、サービス、建物２の周辺の施設等を紹介する案内サービスを実施する。

図１では、建物２に対して、１台のロボット制御装置２００が１台のロボット１００を制御する例が示されているが、１台のロボット制御装置２００により、複数台のロボット１００を制御するようにしてもよく、また、建物２の内部に複数台のロボット制御装置２００を設置してもよい。建物２内に複数台のロボット１００が配置される場合、それぞれのロボット１００が異なる案内サービスを行うようにしてもよい。また、複数台のロボット１００を設置することにより、ロボット１００毎にサービス内容を変更し、ロボット１００毎に話す言語の割合（重み付け）を変更することも可能となる。

ロボット制御装置２００は、ネットワーク３を介してロボット管理サーバ３００に接続される。図１では、建物２内の一つのロボット制御装置２００だけがロボット管理サーバ３００と接続されているが、複数の建物２内に配置される各ロボット制御装置２００がロボット管理サーバ３００と接続されるようにしてもよい。また、複数の建物２のそれぞれに配置されたロボット１００を一つのロボット管理サーバ３００が管理することも可能である。

ロボット管理サーバ３００は、どの建物２にどのロボット１００が配置されているかを管理するとともに、各ロボット１００が正常に動作しているか、メンテナンスが必要かどうかなどの状態を管理する。このように、ロボット管理サーバ３００がロボット１００を管理することで、管理者は、ロボット１００のメンテナンスが必要になった場合等に早急に対応することができる。

［ロボットの構成例］
図２は、ロボット１００の構成例を示す図である。ロボット１００は、ＣＰＵ（Central Processing Unit）１１０、記憶装置１２０（主記憶装置及び補助記憶装置を含んだ記憶装置）、入出力装置１３０及び通信インターフェース１４０を備える。
ＣＰＵ１１０は、ロボット１００の各部の制御を行う。記憶装置１２０には、様々なソフトウェアモジュール（プログラム）やデータが記憶されている。ＣＰＵ１１０は、記憶装置１２０に記憶されたプログラムを読み出して実行することで、各種の制御機能（駆動制御部１２１、会話制御部１２２、及び入出力部１２３等）を実現する。

記憶装置１２０は、駆動機構を制御する駆動制御部１２１と、会話を制御する会話制御部１２２と、入出力装置１３０とのデータの入出力を行う入出力部１２３を備える。
入出力装置１３０は、ロボット１００の周囲を撮影するカメラ１３１と、周囲の音を収音するマイクロホン（図中「マイク」）１３２を備える。また、入出力装置１３０は、ロボット１００の傾きや回転などの姿勢を検出するジャイロセンサ１３３と、周囲の物体との距離を測定する測域センサ１３４と、音声を発するスピーカ１３５と、ロボット１００の移動を行ったり、関節を稼動させたりする駆動機構１３６を備える。ロボット１００は、カメラ１３１の映像、及び測域センサ１３４のセンサデータを用いて、利用者や障害物を認識する。

通信インターフェース１４０は、入出力装置１３０のカメラ１３１からの映像やマイクロホン１３２からの音声を取得して、ロボット制御装置２００に映像や音声を送信する。また、通信インターフェース１４０は、ロボット制御装置２００からの制御命令を受信する。
ロボット１００は、通信インターフェース１４０で受信したロボット制御装置２００からの制御指令に基づいて、駆動制御部１２１、会話制御部１２２、及び入出力部１２３を制御し、案内サービスを実施する。

また、ロボット１００は、ロボット制御装置２００から移動の指示を受けると、駆動機構１３６により建物２内を移動する。そして、ロボット１００は、移動中に測域センサ１３４からの信号に基づいて障害物を検知し、駆動制御部１２１により自律的に移動を停止したり、障害物を回避したりする。

［ロボット制御装置の構成例］
図３は、ロボット制御装置２００の構成例を示す図である。ロボット制御装置２００は、各部を制御するＣＰＵ２１０と、各ソフトウェアモジュール（プログラム）、テーブル等のデータを記憶する記憶装置２２０（主記憶装置及び補助記憶装置を含んだ記憶装置）を有する。また、ロボット制御装置２００は、ロボット１００及びロボット管理サーバ３００と相互通信を行う通信インターフェース２７０を備える。

ＣＰＵ２１０は、記憶装置２２０に記憶されたプログラムを読み出して実行することで、各種の制御機能を実現する。すなわち、ＣＰＵ２１０は、記憶装置２２０に記憶されているプログラムを読み出すことにより、入出力データ処理部２２１、移動指示部２２２、対面検知部２２３、音声認識部２２４、キーワード検出部２２５、言語選択部２２６、言語切替部２２７、サービスフロー処理部２２８、及び会話制御部２４０として示される各機能を実現する。また、記憶装置２２０には、サービスフロー記憶部２２９、キーワードテーブル２５０、及び施設情報テーブル２６０が記憶されている。キーワードテーブル２５０は、日本語キーワードテーブル２５１、英語キーワードテーブル２５２、及び中国語キーワードテーブル２５３を有する。

入出力データ処理部２２１は、ロボット１００から受信したデータの処理と、ロボット１００及びロボット管理サーバ３００へ送信するデータの処理とを行う処理部である。例えば入出力データ処理部２２１は、ロボット１００から受信した音声データを処理し、またロボット１００に選択した言語（例えば日本語、英語又は中国語）で回答等を発話させるために送信する音声データを処理する。

移動指示部２２２は、利用者を目的の場所まで案内するときのその移動先を指定するなどの処理を行う。移動指示部２２２が、ロボット１００の各部を稼働させるためのデータを出力する処理を行うようにしてもよい。

対面検知部２２３は、例えばロボット１００が話しかけを行っているときに、ロボット１００の前に対面している利用者（以下「対面者」ともいう）がいることを検知する処理部である。対面検知部２２３は、ロボット１００のカメラ１３１及び測域センサ１３４から得られる画像情報及び障害物情報を取得し、これらの情報に基づいて、ロボット１００が利用者と対面状態になっているかどうかを検知する。本実施形態では、対面検知している間は案内サービスを継続し、利用者がロボットから離れて対面者を検知しなくなれば案内を中止して話しかけ処理を始める。

音声認識部２２４は、ロボット１００より送信される、ロボット１００のマイクロホン１３２で集音された利用者の発話の音声データを従前技術に基づいて解析処理し、音声認識を行う処理部である。音声認識部２２４は、取得した利用者の発話の音声データを選択された言語で音声認識し、キーワード検索などの後処理に適したデータ（例えばテキストデータ）に変換する。音声認識部２２４により処理した後のデータをここでは認識データと称する。例えば初期設定では、第一言語（例えば日本語）が設定されている。

キーワード検出部２２５は、音声認識部２２４からの認識データを基に、キーワードテーブル２５０を検索することで、対面者の話す言葉（発話）の中から特定のキーワードを検出する処理部である。キーワード検出部２２５は、言語ごとに事前に用意されたキーワードテーブルをそれぞれ検索する。検索対象のキーワードは、例えば日常的な挨拶、施設又は施設に関する名称、簡単な日常会話に頻出する単語などである。ここでは、キーワードテーブル２５０内に、日本語キーワードテーブル２５１、英語キーワードテーブル２５２、及び中国語キーワードテーブル２５３が用意されている。

言語選択部２２６は、キーワード検出部２２５により検出されたキーワードに基づいて、事前に登録されている複数の言語の中から、ロボット１００が利用者と会話を継続する一つの言語を選択する処理部である。本実施形態では、当該キーワードが、日本語キーワードテーブル２５１、英語キーワードテーブル２５２、及び中国語キーワードテーブル２５３のいずれが用いられて検索されたかを特定する処理を行う。これにより、言語選択部２２６は、日本語、英語、及び中国語の中から、対面者の話す言語を一つ選択することができる。本実施形態では、日本語、英語、及び中国語の各言語を一意に識別するための識別情報と、日本語キーワードテーブル２５１、英語キーワードテーブル２５２、及び中国語キーワードテーブル２５３の各々とが対応付けられており、言語選択部２２６は、選択した言語の識別情報を、言語切替部２２７や会話制御部２４０などの後段の処理部に出力する。

言語切替部２２７は、利用者との会話（応答）に用いられる言語が言語選択部２２６により選択された言語となるように、使用言語を切り替える処理部である。この切り替え制御は、会話制御部２４０の指示に従い行われる。

サービスフロー処理部２２８は、サービスフロー記憶部２２９に設定された施設内の設備やテナントの案内を行う手順（サービスフロー）に基づいて案内サービスを実行する処理部である。

会話制御部２４０は、いずれの処理部を用いて利用者との会話を実行するかを制御し、利用者との会話を実現する処理部である。会話制御部２４０は、話しかけ部２４１、会話処理部２４２、発話翻訳部（英日）２４３、回答翻訳部（日英）２４４、発話翻訳部（中日）２４５、及び回答翻訳部（日中）２４６、及び会話データベース２４７を有する。

話しかけ部２４１は、利用者との会話を始めるための話しかけ処理を行う処理部である。例えば話しかけ部２４１は、言語ごとに設定された時間で、各々の言語を用いて順番に利用者に繰り返し話しかけを行うようにロボット１００を制御する。話しかけで用いられる言葉は、例えば日常的な挨拶である。なお、「話しかけ」は、「引き込み」とも換言することができ、これらは同義である。「引き込み」は、広い意味でロボットを利用してもらうための、利用者の興味を引くための要素全般である。すなわち、「話しかけ」には、単なる発話のみならず、ロボットの身振り手振りの動作、サイネージ装置の表示連携、及び掲示などを、概念上含んでもよい。

会話処理部２４２は、対面者の問いかけに対する応答を行う処理部である。決定した応答をロボット１００に実行させる処理には既存の技術が用いられてもよい。会話処理部２４２は、第一言語（本実施形態では日本語）の発話、又は第一言語に翻訳された発話に対する回答を、第一言語の会話データベース２４７から検索することによって、会話処理を実行する。また、会話処理部２４２は、音声合成部２４２ａを有し、音声合成部２４２ａにより検索された第一言語の回答（回答テキスト）を選択言語の音声に合成して選択言語の回答音声データを生成する。

そして、会話処理部２４２は、選択言語の回答音声データを利用者の発話に対する回答として、入出力データ処理部２２１を通じてロボット１００に送信する。これにより、ロボット１００は、スピーカ１３５を用いて選択言語の回答音声データを音声出力する。なお、ロボット１００の出力形態は音声出力に限定されない。例えば、ロボット１００に表示装置を設け、選択言語を用いて案内表示を行うようにしてもよい。

会話データベース２４７には、多数の第一言語（例えば日本語）の回答候補が記憶されている。図３では、会話データベース２４７が会話制御部２４０に含まれているが、会話データベース２４７はロボット制御装置２００内に設けられていればよい。

発話翻訳部は、言語選択部２２６によって予め設定された第一言語（日本語）とは異なる第二言語（英語、中国語など）が選択された場合に、利用者の発話（質問テキスト）を第二言語から第一言語へ翻訳して会話処理部２４２へ出力する処理部である。また、回答翻訳部は、会話処理部２４２によって検索された、利用者の発話に対する第一言語の回答（回答テキスト）を、第二言語に翻訳して会話処理部２４２へ出力する処理部である。そして、会話処理部２４２は、第二言語に翻訳された回答を用いて、利用者の発話に対するロボット１００の応答処理を制御する。

例えば、発話翻訳部（英日）２４３は、対面者が英語を使用すると判定されたときに英語発話（英語質問テキスト）を日本語に翻訳する処理部である。また、回答翻訳部（日英）２４４は、発話翻訳部（英日）２４３によって日本語に翻訳された利用者の発話（例えば質問）に対する、会話処理部２４２によって検索された日本語の回答（日本語回答テキスト）を英語に翻訳する処理部である。発話翻訳部（中日）２４５及び回答翻訳部（日中）２４６も同様に、中国語と日本語の翻訳処理を行う。

施設情報テーブル２６０には、ロボット１００が案内サービスを行う施設やテナントに関する情報が登録されており、本実施形態では、利用者の質問や案内依頼に対して、施設情報テーブル２６０を参照して案内サービスを提供する。施設情報テーブル２６０に、建物２の地図情報を含ませ、ロボット１００が備える表示装置（図示略）に地図情報を表示して案内サービスを行ってもよい。ロボット１００は、駆動機構１３６に依頼のあった目的地へ移動するよう表示装置に選択言語で指示を出力し、利用者とともに移動して利用者を目的地まで案内してもよい。

本例の案内ロボットシステム１では、ロボット１００が利用者と対面状態である間に案内サービスが行われ、利用者がロボット１００から離れて対面状態でなくなれば案内サービスが中止される。なお、ロボット１００が利用者の使用する言語と異なる誤った言語で案内サービスを開始した場合には、利用者はロボット１００の前から離れて対面状態ではなくなるので、ロボット１００による案内サービスを中止させる。これにより、無駄な会話やサービスが中止され、ロボット１００に内蔵されたバッテリーの電力消費を低減できる。

なお、本例の案内ロボットシステム１では、日本語、英語、中国語といった３言語への対応例を示しているが、２言語もしくは４言語以上に対応するように構成することも可能である。

［管理サーバの構成例］
図４は、ロボット管理サーバ３００の構成例を示す図である。ロボット管理サーバ３００は、各部を制御するＣＰＵ３１０と、ロボット配置管理部３２１等のソフトウェアモジュール、テーブル等のデータを記憶する記憶装置３２０（主記憶装置および補助記憶装置を含んだ記憶装置）を有する。また、ロボット管理サーバ３００は、ロボット制御装置２００及びロボット管理サーバ３００と相互通信を行う通信インターフェース３３０を備える。

ＣＰＵ３１０は、記憶装置３２０に記憶されたソフトウェアモジュールを読み出して実行することで、各種の制御機能（ロボット配置管理部３２１等）を実現する。

ロボット管理サーバ３００は、通信インターフェース３３０を介して、ロボット制御装置２００と接続され、ロボット制御装置２００を介してロボット配置管理部３２１により各ロボット１００の状態を管理する。ロボット配置管理部３２１は、どのロボット１００がどの建物に配置されているかという情報を記憶しており、各ロボット１００が正常に案内サービスを提供できているかどうかをモニタする。ロボット配置管理部３２１は、ロボット１００が利用者に案内サービスを提供できていない場合には、該当ロボットに必要な保守サービスを行う目的で、建物２へ代替ロボットの機体や部品を送り、技術者を派遣するよう指示を出す。

［会話の翻訳処理のフローチャート］
図５は、ロボット制御装置２００による、会話の翻訳処理の手順例を示すフローチャートである。

ロボット１００が案内サービスを提供するとき、建物２の利用者に対して、会話制御部２４０の話しかけ部２４１は、利用者の気を引くため又は会話の契機をつくるための話しかけ動作を実行する。本実施形態では、日本語、英語、及び中国語のいずれかによる話しかけを行い、利用者の発話（質問、応答等）を待つものとするが、利用者が使用する可能性の高い主要言語（第一言語）と、その他の言語である副言語（第二言語）を定めた上で事前に用意しているのであれば、どのような言語であってもよい。本例では、日本語を第一言語、英語及び中国語を第二言語に設定している。

本実施形態では、利用者が使用する可能性の高い主要言語（第一言語）と、その他の言語である副言語（第二言語）とを交互に用いることで、話しかけ動作を行う。また、本実施形態では、日本国内にロボット１００が設置されていることを想定しているため、他の言語よりも、主要言語である日本語を多く発声するように、話しかけ動作が行われる。ロボット１００が設置されている国で使用される言語の割合に合わせて、各言語による話しかけ時間や頻度を設定することで、より多くの利用者に案内サービスを提供することができる。また、話しかけの言語は、主要言語と副言語を区別せず、ロボット１００が案内できる言語全てを順番に使用し、各々の言語の話しかけ時間を調整してもよい。

会話制御部２４０は、入出力データ処理部２２１を通じてロボット１００からの音声データの入力を待ち（Ｓ１）、音声データの入力がない場合には（Ｓ１のＮＯ）、音声データの入力の監視を継続する。

ロボット１００から音声データが入力されると（Ｓ１のＹＥＳ）、会話制御部２４０は、音声データを記憶装置２２０（不図示の主記憶装置）の所定領域に一時保存する。会話制御部２４０は、話しかけ中に対面検知部２２３が対面者を検知したときは、ロボット１００が話しかけに使用している言語で利用者との会話を開始するように制御する。これにより、対面する利用者がいない状態での会話が防止され、ロボット１００に内蔵されたバッテリーの電力消費を低減できる。

まず、音声認識部２２４は、話しかけに使用した言語が日本語であるか否かを判定し（Ｓ２）、使用言語が日本語であると判定した場合には（Ｓ２のＹＥＳ）、入力された音声データ（ロボット１００に対する利用者の発話）に対し日本語による音声認識処理を行う（Ｓ３）。そして、音声認識部２２４は、音声認識処理の結果、その音声データから日本語のテキストデータ（以下「日本語質問テキスト」と表記する。）を作成する（Ｓ１２）。つまり、音声認識部２２４は、ロボット１００が収音した音声から日本語の質問テキストを作成する。

また、音声認識部２２４は、話しかけに使用した言語が日本語ではない場合には（Ｓ２のＮＯ）、話しかけに使用した言語が英語（第二言語の第一例）であるか否かを判定する（Ｓ４）。次いで、音声認識部２２４は、使用言語が英語であると判定した場合には（Ｓ４のＹＥＳ）、入力された利用者の発話の音声データに対し英語による音声認識処理を行う（Ｓ５）。そして、音声認識部２２４は、音声認識処理の結果、その音声データから英語のテキストデータ（以下「英語質問テキスト」と表記する。）を作成する（Ｓ６）。次いで、発話翻訳部（英日）２４３が、英語質問テキストに対し英日翻訳処理を行い（Ｓ７）、日本語質問テキストを作成する（Ｓ１２）。

また、音声認識部２２４は、話しかけに使用した言語が英語ではない場合には（Ｓ４のＮＯ）、話しかけに使用した言語が中国語（第二言語の第一例）であるか否かを判定する（Ｓ８）。次いで、音声認識部２２４は、使用言語が中国語であると判定した場合には（Ｓ８のＹＥＳ）、入力された利用者の発話の音声データに対し中国語による音声認識処理を行い（Ｓ９）、中国語のテキストデータ（以下「中国語質問テキスト」と表記する。）を作成する（Ｓ１０）。次いで、発話翻訳部（中日）２４５が、中国語質問テキストに対し中日翻訳処理を行い（Ｓ１１）、日本語質問テキストを作成する（Ｓ１２）。

このように、使用言語が日本語であるか否かにかかわらず、「トイレはどこですか？」、「出発ロビーはどこですか？」、「次の出発便は何時ですか？」、「お土産を買えるお店を教えて下さい。」といった質問や依頼などを含む日本語質問テキストが得られる。このように、使用言語にかかわらず日本語質問テキストを作成することで、利用者の発話内容を一律日本語で処理することができる。

音声認識部２２４が日本語、英語、中国語のいずれの言語も認識できなかった場合には（Ｓ８のＮＯ）、ステップＳ１の音声入力の監視（話しかけ動作）に戻る。音声認識部２２４に認識できる言語をあらかじめ用意し、対応する言語の翻訳部を設ければ、適用できる言語はこの限りではない。

次いで、ステップＳ１２の処理後、会話処理部２４２は、日本語質問テキストに基づいて、多数の日本語の回答候補が記憶された会話データベース２４７から日本語質問テキストに対する日本語の回答を検索する（Ｓ１３）。そして、会話処理部２４２は、検索した回答を用いて、選択された言語の質問テキストに対する日本語の回答テキスト（単語、文など）を作成する（Ｓ１４）。

このように、日本語質問テキストを元に、日本語の回答候補を格納した会話データベース２４７を用いて日本語回答の検索、及び日本語回答テキストの作成を行うことができる。
なお、任意の質問テキストの内容から的確な回答を検索する処理、及びその回答を用いてテキストを作成する処理は、従前の技術を利用することができる。

次いで、会話処理部２４２は、選択された言語が日本語（第一言語）であるか否かを判定し（Ｓ１５）、選択言語が日本語であると判定した場合には（Ｓ１５のＹＥＳ）、日本語回答テキストを日本語音声に合成して日本語の回答音声データを生成する（Ｓ１６）。そして、会話処理部２４２は、その日本語の回答音声データをロボット１００に送信し、ロボット１００のスピーカ１３５を用いて利用者の発話に対する回答音声を出力する（Ｓ１７）。

また、会話処理部２４２は、選択された言語が日本語ではない場合には（Ｓ１５のＮＯ）、選択言語が英語であるか否かを判定する（Ｓ１８）。次いで、会話処理部２４２により選択言語が英語であると判定された場合には（Ｓ１８のＹＥＳ）、回答翻訳部（日英）２４４が、日本語回答テキストに対し日英翻訳処理を行い（Ｓ１９）、英語回答テキストを作成する（Ｓ２０）。次いで、会話処理部２４２は、英語回答テキストを英語音声に合成して英語の回答音声データを生成する（Ｓ２１）。そして、会話処理部２４２は、その英語の回答音声データをロボット１００に送信し、ロボット１００のスピーカ１３５を用いて利用者の発話に対する回答音声を出力する（Ｓ２２）。

また、会話処理部２４２は、選択された言語が英語ではない場合には（Ｓ１８のＮＯ）、選択言語が中国語であると判断する。英語の場合と同様に、回答翻訳部（日中）２４６が、日本語回答テキストに対し日中翻訳処理を行い（Ｓ２３）、中国語回答テキストを作成する（Ｓ２４）。次いで、会話処理部２４２は、中国語回答テキストを中国語音声に合成し（Ｓ２５）、ロボット１００のスピーカ１３５を用いて利用者の発話に対する回答音声を出力する（Ｓ２６）。

このように、一律日本語（第一言語）で検索した回答内容を、利用者の使用する言語で応答することで、ロボット１００が日本語以外の言語（第二言語）でも利用者と会話することができる。また、ロボット１００が利用者の使用する言語の音声を出力することで、会話による自然なコミュニケーションを実現できる。

そして、ステップＳ１７，Ｓ２２，又はＳ２６の処理が終了後、会話制御部２４０はステップＳ１の処理に戻ってロボット１００からの音声入力を監視し、音声入力があった場合には、ステップＳ２〜Ｓ２６の処理を適宜実行する。

サービスフロー処理部２２８は、回答テキストの内容から案内サービスの提供が必要であると判断した場合には、サービスフロー記憶部２２９内のサービスフローに基づいて施設案内やテナント案内等のサービスを継続する。案内サービスが終了した場合、又は対面者が立ち去った場合、ステップＳ１の話しかけ動作に戻り、話しかけ部２４１が複数の言語による話しかけ動作を繰り返す。

［言語切替処理］
ここで、会話中に現在のロボット１００の使用言語（選択言語）と異なるキーワードが検出された場合の言語切替処理について説明する。

前提として、会話処理部２４２が日本語で会話を実行している最中（ステップＳ１，Ｓ２）であるとする。音声認識部２２４が利用者の会話について日本語で音声認識を行い、ステップＳ２においてキーワード検出部２２５が英語又は中国語のキーワードを検出しなかった（日本語のみを検出した）場合には（Ｓ２のＹＥＳ）、会話処理部２４２は、このまま引き続き日本語による会話を継続する。

一方、会話処理部２４２が日本語で会話を実行している最中（ステップＳ１，Ｓ２）に、キーワード検出部２２５が日本語のキーワードを検出しなかった場合には（Ｓ２のＮＯ）、音声認識部２２４は英語又は中国語で音声認識を行う。ここで、キーワード検出部２２５により会話の中でキーワードテーブル２５０に登録されている英語又は中国語のキーワードを検出した場合には、会話処理部２４２は日本語の会話を終了する。そして、言語選択部２２６は、キーワード検出部２２５が検出したキーワードの言語を選択し、言語切替部２２７は、会話に使用する言語を言語選択部２２６が選択した言語に切り替える。その後、会話処理部２４２は、言語切替部２２７により切り替えられた言語（英語又は中国語）を用いて会話を行う（Ｓ４またはＳ８に移行）。

上述した第１の実施形態によれば、案内ロボット（ロボット１００）に複数言語で案内サービスを実施させる際、利用者との会話に使用する回答を第一言語（例えば日本語）分だけ作成すればよい。そのため、言語ごとに回答を用意する場合と比較して、回答の作り込みにかかる負荷やコストを低減することができる。また、例えば案内ロボットの納入後に顧客が回答を追加する場合でも、第一言語分だけ追加すれば済むため、顧客による回答の追加が容易である。顧客が回答を追加する場合も、第一言語のみで多言語の会話に対応可能となる。

ここで、第一言語は、案内ロボットが導入された施設が存在する国や地域などを考慮して決定するとよい。例えば、該当する国や地域の主要言語（例えば公用語）を第一言語とすることにより、第一言語を理解できる技術者や顧客が多数存在し、会話データベースに回答を追加する等のメンテナンスをしやすくなる。

＜第２の実施の形態＞
第１の実施の形態では、第二言語（英語、中国語）の質問テキストを発話翻訳部により翻訳する（Ｓ７，Ｓ１１）例を示したが、発話翻訳部が広義の翻訳処理を行うようにしてもよい。広義の翻訳処理とは、第二言語の質問テキストをそのまま第一言語（日本語）に翻訳するのではなく、第二言語の質問テキストに含まれる一部のワードを抽出して第一言語に変換する処理である。例えば、ワードは、単語や、単語又は文節が一個または連続したものである。

例えば、図５のステップＳ７において、発話翻訳部（英日）２４３が、英語質問テキストからその中心的な内容や主要な概念を表現ないし代表しているワードを抽出し、該当ワードを日本語に翻訳する。例えば、機械学習などにより英語質問テキストから抽出するワードを学習して、より的確なワードを抽出できる構成とすることで、発話に対する回答の的確性を向上させることができる。

次いで、会話処理部２４２が、日本語に翻訳されたワード（以下「日本語質問ワード」と表記する。）に基づいて、会話データベース２４７から日本語質問ワードに対する回答を検索する（Ｓ１３に対応）。このように、本実施形態では、第二言語が選択された場合に、ステップＳ１２で日本語質問テキストを作成する代わりに、日本語質問ワードを作成することで発話に対する回答を取得する。この翻訳処理は、中国語でも同様である。

なお、選択言語が日本語の場合には、第１の実施形態と同様にステップＳ３，Ｓ１２において音声認識部２２４が作成した日本語質問テキストの全部を用いて回答を検索してもよいし、日本語質問テキストに含まれる一部のワードを抽出して回答を検索するようにしてもよい。

上述した第２の実施形態によれば、第二言語の質問テキストの全部（全文）を第一言語に翻訳することなく、第二言語の質問テキストに含まれるワードに基づいて、第一言語の回答テキストを作成することができる。このように、第二言語の質問テキストの一部（抽出したワード）のみを翻訳することで、第二言語の質問テキストの全部（全文）を翻訳する場合と比較して、発話翻訳部の性能を低く抑えることができる。それにより、ロボット制御装置２００のコストを低減することができる。

本実施形態では、日本語、英語、中国語で案内サービスを実施する案内ロボットシステムの例を説明したが、国や建物、施設、時期、イベント等に応じて、スペイン語、ロシア語、韓国語などの言語で案内サービスを提供してもよく、言語の種類を増減してもよい。

また、上記実施形態では、ロボット制御装置２００とロボット１００とを別体とした構成について説明したが、ロボット制御装置２００の機能をロボット１００に組み込んでもよい。また、ロボット制御装置２００について、図３で示す構成（機能分割）はあくまで一例である。例えば、会話制御部２４０の制御動作や機能を、サービスフロー処理部２２８に実装するなど、さまざまな機能分割を行うことができる。これ以外にも、ＣＰＵ２１０などの演算処理装置と記憶装置２２０とを有する制御部が、上記実施形態で説明した動作や機能を提供できれば、どのような機能分割をしても構わない。

さらに、本発明は上述した各実施形態に限られるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りにおいて、その他種々の応用例、変形例を取り得ることは勿論である。

例えば、上述した実施形態は本発明を分かりやすく説明するために案内ロボットシステムの構成を詳細かつ具体的に説明したものであり、必ずしも説明した全ての構成要素を備えるものに限定されない。また、ある実施形態の構成の一部を他の実施形態の構成要素に置き換えることは可能である。また、ある実施形態の構成に他の実施形態の構成要素を加えることも可能である。また、各実施形態の構成の一部について、他の構成要素の追加、削除、置換をすることも可能である。

また、上記の各構成、機能、処理部等は、それらの一部又は全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。また、上記の各構成要素、機能等は、プロセッサ（例えばＣＰＵ）がそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、半導体メモリやハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、又はＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、上述した実施形態にかかる案内ロボットシステムの各構成要素は、それぞれのハードウェアがネットワークを介して互いに情報を送受信できるならば、いずれのハードウェアに実装されてもよい。また、ある処理部により実施される処理が、１つのハードウェアにより実現されてもよいし、複数のハードウェアによる分散処理により実現されてもよい。

さらに、本発明は、内蔵されているマイクロホンで音声を認識し、情報の検索や連携機器の操作を行う装置に適用可能である。例えば、スマートスピーカーに本発明を適用した場合には、従前行われていた利用開始時の使用言語の設定が必要ない。

１…案内ロボットシステム、１００…ロボット、１１０…ＣＰＵ、１２０…記憶装置、１２１…駆動制御部、１２２…会話制御部、１２３…入出力部、１３０…入出力装置、１３１…カメラ、１３２…マイクロホン、１３３…ジャイロセンサ、１３４…測域センサ、１３５…スピーカ、１３６…駆動機構、１４０…通信インターフェース、２００…ロボット制御装置、２１０…ＣＰＵ、２２０…記憶装置、２２１…入出力データ処理部、２２２…移動指示部、２２３…対面検知部、２２４…音声認識部、２２５…キーワード検出部、２２６…言語選択部、２２７…言語切替部、２２８…サービスフロー処理部、２２９…サービスフロー記憶部、２４０…会話制御部、２４１…話しかけ部、２４２…会話処理部、２４３…発話翻訳部（英日）、２４４…回答翻訳部（日英）、２４５…発話翻訳部（中日）、２４６…回答翻訳部（日中）、２５０…キーワードテーブル、２５１…日本語キーワードテーブル、２５２…英語キーワードテーブル、２５３…中国語キーワードテーブル、２６０…施設情報テーブル、２７０…通信インターフェース、３００…ロボット管理サーバ、３１０…ＣＰＵ、３２０…記憶装置、３２１…ロボット配置管理部、３３０…通信インターフェース

Claims

複数言語を用いて案内ロボットが利用者に案内サービスを提供する案内ロボットシステムであって、
前記利用者の発話の音声データを選択された言語で音声認識する音声認識部と、
前記音声認識部の音声認識の結果から特定のキーワードを検出するキーワード検出部と、
前記キーワード検出部により検出された前記キーワードに基づいて、事前に登録されている複数の言語の中から一つの言語を選択する言語選択部と、
予め設定された第一言語とは異なる第二言語が選択された場合に、前記利用者の発話を第二言語から第一言語へ翻訳する発話翻訳部と、
第一言語に翻訳された前記発話から第一言語の回答を検索する会話処理部と、
検索された第一言語の前記回答を第二言語に翻訳して出力する回答翻訳部と、を備え、
前記会話処理部は、第二言語に翻訳された前記回答を用いて、前記利用者の発話に対する前記案内ロボットの応答処理を制御する
案内ロボットシステム。
前記音声認識部は、前記利用者の発話の音声データから選択された言語の質問テキストを作成し、
前記発話翻訳部は、前記言語選択部により第二言語が選択された場合に、第二言語の質問テキストを第一言語の質問テキストに翻訳し、第一言語の前記質問テキストを前記会話処理部へ出力する
請求項１に記載の案内ロボットシステム。
前記会話処理部は、第一言語の前記質問テキストに基づいて、多数の第一言語の回答候補が記憶された会話データベースから第二言語の前記質問テキストに対する回答を検索し、検索した前記回答を用いて第一言語の回答テキストを作成する
請求項２に記載の案内ロボットシステム。
前記回答翻訳部は、第一言語の前記回答テキストを第二言語の回答テキストに翻訳し、第二言語の前記回答テキストを前記会話処理部へ出力し、
前記会話処理部は、第二言語の前記回答テキストを用いて、前記利用者の発話に対して応答する
請求項３に記載の案内ロボットシステム。
前記会話処理部は、音声合成処部により第二言語の前記回答テキストを第二言語音声に合成して第二言語の回答音声データを生成し、前記第二言語の前記回答音声データを前記利用者の発話に対する回答として前記案内ロボットに送信する
請求項４に記載の案内ロボットシステム。
言語ごとに設定された時間で、各々の言語を用いて順番に話しかけを行うように前記案内ロボットを制御する話しかけ部と、
前記案内ロボットが話しかけを行っているときに、前記案内ロボットの前に利用者がいることを検知する対面検知部と、を更に備え、
前記キーワード検出部は、前記案内ロボットの前に前記利用者がいることが検知されたときに、前記利用者の話す言葉の中から特定のキーワードを検出する処理を行う
請求項１乃至５のいずれか一項に記載の案内ロボットシステム。
前記発話翻訳部は、第二言語が選択された場合に、前記利用者の発話から抽出されたワードを第二言語から第一言語へ翻訳し、
前記会話処理部は、前記発話の第一言語に翻訳されたワードから第一言語の回答を検索する
請求項１に記載の案内ロボットシステム。
複数言語を用いて案内ロボットが利用者に案内サービスを提供する案内ロボットシステムの会話作成方法であって、
前記利用者の発話の音声データを選択された言語で音声認識する処理と、
音声認識の結果から特定のキーワードを検出する処理と、
前記キーワードに基づいて、事前に登録されている複数の言語の中から一つの言語を選択する処理と、
予め設定された第一言語とは異なる第二言語が選択された場合に、前記利用者の発話を第一言語へ翻訳する処理と、
第一言語に翻訳された前記発話から第一言語の回答を検索する処理と、
検索された第一言語の前記回答を第二言語に翻訳する処理と、
第二言語に翻訳された前記回答を用いて、前記利用者の発話に対して前記案内ロボットに応答を行わせる処理と、を含む
会話作成方法。