JP7117970B2

JP7117970B2 - 案内ロボットシステム及び案内方法

Info

Publication number: JP7117970B2
Application number: JP2018195515A
Authority: JP
Inventors: 晋資大竹; 弘光本橋; 安司高野
Original assignee: Hitachi Building Systems Co Ltd
Current assignee: Hitachi Building Systems Co Ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2022-08-15
Anticipated expiration: 2038-10-17
Also published as: CN111055291A; CN111055291B; JP2020064168A

Description

本発明は、案内ロボットシステム及び案内方法に関する。

従来、ロボットが案内サービスを行う場合、案内ロボットが発話・認識する言語は、案内ロボットに設定されている言語を用いることになるが、この設定されている言語と異なる言語で会話する利用者は、ロボットによる案内サービスを利用することが困難であった。

一般的な言語の切替方法については、電子辞書のような装置で音声入力を受取り、入力された音声を音声識別してテキスト化し、その結果を予め言語毎に登録しておいたテキストと照合し、一致した言語へ切り替える技術が提案されている（例えば、特許文献１参照）。
また、ロボットにおける言語の切替方法に関しては、複数言語に対応する音声認識部で音声を認識し、その認識結果に対する信頼度を算出して、最も高い信頼度の言語へ切り替える技術が提案されている（例えば、特許文献２参照）。

特開２００１－２８２７８８号公報特開２０１８－０８７９４５号公報

しかしながら、特許文献１に記載される技術では、ロボットは予め登録されたデータでしか言語の切り替えを行うことができない。このため、登録されていない内容を利用者が発話した場合には、言語を切り替えることができず、異なる言語で会話する利用者は、ロボットによる案内サービスを利用することが困難であった。

また、特許文献２に記載される技術では、複数言語の音声認識の信頼度がいずれも低かった場合に、言語の特定を誤る可能性が高くなるという問題があった。すなわち、周囲の雑音が多い場合や、発話音量が小さい場合、あるいは発話がはっきりとしない場合などに音声認識の信頼度が低くなるという問題である。

本発明は、周囲の雑音等が多い場合であっても、利用者の発話内容と予め登録されたデータとを照合して、案内サービスに使用する言語を、利用者の使用する言語に切り替えることができる案内ロボットシステム及び案内方法を提供することを目的とする。

上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、本発明の案内ロボットシステムは、複数言語の会話を用いて案内サービスを行う案内ロボットシステムであって、音声を取得する音声取得部と、音声取得部で取得した音声に対して複数言語の音声認識を行う音声認識部と、音声認識部で得た複数言語の音声認識結果を事前に登録したキーワードに照合して一致する言語を得るキーワード照合部と、音声取得部で取得した音声に対する複数言語の信頼度を算出する信頼度算出部と、キーワード照合部による照合で一致した言語があるときには、その一致した言語を選択し、キーワード照合部で登録したキーワードに一致する言語がなかったときには、信頼度算出部で算出した信頼度の最も高い言語を選択する言語選択部と、信頼度算出部で得た信頼度の内、最も信頼度が高い言語の信頼度が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度が閾値よりも大きい場合にオープンクエスチョン形式の会話とするように切り替える会話処理部と、を備える。

本発明によれば、予め登録されたデータとの一致による言語の切り替えを円滑に実現することが可能になる。
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

本発明の第１の実施の形態例における案内ロボットシステム全体の構成図である。本発明の第１の実施の形態例に用いられるロボットの構成例を示す図である。本発明の第１の実施の形態例に用いられるロボット管理サーバの構成例を示す図である。本発明の第１の実施の形態例に用いられるロボット制御装置の構成例を示す図である。本発明の第１の実施の形態例における言語選択を含む会話機能の一例を示す図である。本発明の第１の実施の形態例において、言語切替を行って会話を実行する処理を説明するフローチャートの例である。本発明の第１の実施の形態例に用いられるキーワードテーブルの例を示す図である。本発明の第１の実施の形態例に用いられるクローズドクエスチョン会話テーブルの例を示す図である。本発明の第１の実施の形態例に用いられるオープンクエスチョン会話テーブルの例を示す図である。

＜案内ロボットシステムの全体構成＞
以下、図面を参照して、本発明の実施の形態例（以下、「本例」と称する）である案内ロボットシステムと、その言語選択方法について説明する。
図１は、案内ロボットシステム全体の構成例を示した図である。案内ロボットシステム１は、ロボット１００と、ロボット制御装置２００と、ネットワークを介してロボット制御装置２００に接続されるロボット管理サーバ３００から構成される。

本例の案内ロボットシステム１は、ロボット１００が複数の言語を用いて案内サービスを行うシステムである。ロボット１００とロボット制御装置２００は無線通信で接続されており、案内サービスが実施される建物２の敷地内に配置されている。ロボット１００は、ロボット制御装置２００から制御命令を受取り、利用者に建物２内の設備やテナントの場所、テナントの提供する商品、サービス、建物２の周辺の施設等を紹介する案内サービスを実施する。

図１では、建物２に対して、１台のロボット制御装置２００が１台のロボット１００を制御する例が示されているが、１台のロボット制御装置２００により、複数台のロボット１００を制御するようにしてもよく、また、建物２の内部に複数台のロボット制御装置２００を設置してもよい。
また、建物２内に複数のロボット１００が配置される場合、それぞれのロボット１００が異なる案内サービスを行うようにしてもよい。

ロボット制御装置２００は、ネットワーク３を介してロボット管理サーバ３００に接続される。図１では、一つの建物２のロボット制御装置２００だけがロボット管理サーバ３００と接続されているが、複数の建物２内に配置されるロボット制御装置２００がロボット管理サーバ３００と接続されるようにしてもよい。

ロボット管理サーバ３００は、どの建物２にどのロボット１００が配置されているかを管理するとともに、各ロボット１００が正常に動作しているか、メンテナンスが必要かどうかなどの状態を管理する。このように、ロボット管理サーバ３００がロボット１００を管理することで、管理者は、ロボット１００のメンテナンスが必要になった場合等に早急に対応することができる。

＜ロボットの構成例＞
図２は、ロボット１００の構成例を示す図である。ロボット１００は、ＣＰＵ（Central Processing Unit）１１０、記憶装置１２０，入出力装置１３０及び通信インターフェース１４０を備える。
ＣＰＵ１１０は、ロボット１００の各部の処理の制御を行う。記憶装置１２０には、様々なソフトウェアモジュールやデータが記憶されている。

記憶装置１２０は、駆動機構を制御する駆動制御部１２１と、会話を制御する会話制御部１２２と、入出力装置１３０とのデータの入出力を行う入出力部１２３を備える。
入出力装置１３０は、周囲の映像や画像を撮影するカメラ１３１と、周囲の音を収音するマイク１３２を備える。また、入出力装置１３０は、ロボット１００の傾きや回転などの姿勢を検出するジャイロセンサ１３３と、周囲の物体との距離を測定する測域センサ１３４と、音声を発するスピーカー１３５と、ロボット１００の移動を行ったり、関節を可動させたりする駆動機構１３６を備える。

通信インターフェース１４０は、入出力装置１３０のカメラ１３１からの映像やマイク１３２からの音声を取得して、ロボット制御装置２００に送信する。また、通信インターフェース１４０は、ロボット制御装置２００からの制御命令を受信する。
ロボット１００は、通信インターフェース１４０で受信したロボット制御装置２００からの制御指令に基づいて、駆動制御部１２１、会話制御部１２２、及び入出力部１２３を制御し、案内サービスを実施する。

また、ロボット１００は、ロボット制御装置２００から移動の指示を受けると、駆動機構１３６により建物２内を移動する。そして、ロボット１００は、移動中に測域センサ１３４からの信号に基づいて障害物を検知し、駆動制御部１２１により自律的に移動を停止したり、障害物を回避したりする。

＜管理サーバの構成例＞
図３は、ロボット管理サーバ３００の構成例を示す図である。ロボット管理サーバ３００は、ＣＰＵ３１０と、ロボット配置管理部３２１を含む記憶装置３２０と、通信インターフェース３３０を備える。
ロボット管理サーバ３００は、通信インターフェース３３０を介して、ロボット制御装置２００と接続され、ロボット制御装置２００を介してロボット配置管理部３２１により各ロボットの状態を管理する。

＜ロボット制御装置の構成例＞
図４は、ロボット制御装置２００の構成例を示す図である。ロボット制御装置２００は、各部の処理を制御するＣＰＵ２１０と、各ソフトウェアモジュール、テーブル等のデータを記憶する記憶装置２２０と、ロボット１００及びロボット管理サーバ３００と相互通信を行う通信インターフェース２１１を備える。

ＣＰＵ２１０は、記憶装置２２０に記憶されたプログラムを読みだすことで、各種の制御機能を実行する。すなわち、ＣＰＵ２１０は、記憶装置２２０に記憶されているプログラムを読み出すことにより、入出力データ処理部２３０、サービスフロー処理部２４０、対面検知部２５０、音声処理部２６０、言語選択部２７０、会話処理部２８０、移動指示部２９０として示される各機能を実現する。

入出力データ処理部２３０は、音声取得部２３１、音声出力部２３２、画像取得部２３３、動作出力部２３４、測域データ取得部２３５、エラー入出力部２３６を含む。
この入出力データ処理部２３０は、ロボット１００から受信したデータの処理及びロボット１００並びにロボット管理サーバ３００へ送信するデータの処理を行う部分である。

音声取得部２３１は、ロボット１００から受信した音声データを処理し、音声出力部２３２は、ロボット１００に発話させるために送信する音声データを処理する。
画像取得部２３３は、ロボット１００から受信した画像データを処理し、動作出力部２３４は、ロボット１００を稼働させるためのデータを出力する処理を行う。
また、測域データ取得部２３５は、ロボット１００から受信した測域センサの出力を処理し、エラー出力部は、ロボット管理サーバ３００へ送信するエラーログに関するデータの処理を行う。

サービスフロー処理部２４０は、図６で後述するサービスフローに基づいた案内サービスを実行する。
対面検知部２５０は、ロボット１００の前に対面している人がいることを検知する。すなわち、対面検知部２５０は、ロボット１００のカメラ１３１及び測域センサ１３４から得られる画像情報及び障害物情報を取得し、これらの情報に基づいて、ロボット１００が利用者と対面状態になっているか否かを検知する。

本例の案内ロボットシステムでは、ロボット１００が利用者と対面状態である間に案内サービスが行われ、利用者がロボット１００から離れて対面状態でなくなれば案内サービスが中止される。なお、ロボット１００が誤った言語で案内サービスを開始した場合には、利用者はロボット１００の前から離れて対面状態ではなくなるので、ロボット１００による案内サービスを中止させる。

＜音声選択を含む会話機能の例＞
図５は、本例の案内ロボットシステムにおける、言語選択を含む会話機能の一例を表した図であり、音声処理部２６０、言語選択部２７０及び会話処理部２８０の機能を示している。
音声処理部２６０は、第一言語音声処理部２６１、第二言語音声処理部２６２、及び第三言語音声処理部２６３を備える。

第一言語音声処理部２６１は、例えば日本語を処理する処理部であり、第一言語音声認識部２６１１及び第一言語信頼度算出部２６１２を含む。
第二言語音声処理部２６２は、例えば英語を処理する処理部であり、第二言語音声認識部２６２１及び第二言語信頼度算出部２６２２を含む。
第三言語音声処理部２６３は、例えば中国語を処理する処理部であり、第三言語音声認識部２６３１及び第三言語信頼度算出部２６３２を含む。

ロボット制御装置２００（図４）の音声取得部２３１でロボット１００から取得した音声データは、第一言語音声処理部２６１、第二言語音声処理部２６２及び第三言語音声処理部２６３に供給され、三つの言語の並列処理が行われる。

第一言語音声処理部２６１は、第一言語音声認識部２６１１で音声データを音声認識して第一言語である日本語でテキスト化し、第一言語信頼度算出部２６１２でその信頼度を算出する。
第二言語音声処理部２６２は、第二言語音声認識部２６２１で音声データを音声認識して第二言語である英語でテキスト化し、第二言語信頼度算出部２６２２でその信頼度を算出する。
第三言語音声処理部２６３は、第三言語音声認識部２６３１で音声データを音声認識して第三言語である中国語でテキスト化し、第三言語信頼度算出部２６３２でその信頼度を算出する。

信頼度は、０～１の間の数値で決定されるものであり、「０」は一致度が最も低い値であり、「１」は一致度が最も高い値である。例えば、利用者が話す言語が日本語であれば、第一言語信頼度算出部２６１２で算出した信頼度は、「１」に近い値になり、英語を処理する第二言語信頼度算出部２６２２及び中国語を処理する第三言語信頼度算出部２６３２で算出した信頼度は、「０」に近い値になる。しかし、実際には、利用者の話す言語が日本語、英語、または中国語といった特定の言語に認識されない場合も多く、信頼度は０～１の間の数値として算出されることが多くなる。

この音声認識結果に対する信頼度の研究は、音声認識の後処理として、認識結果を受け入れるか、あるいは棄却するかの発話検証問題として研究されている。この研究では、入力された音声に対して、もっとも尤度の高い単語列を出力するという処理が必要であるため、正しい認識結果と認識誤りとを判定するための尺度となる閾値が必要になる。例えば、信頼度を０～１の範囲で表現する場合、閾値を０と１の中間の値である、例えば０．５のような値に設定することも考えられる。
この信頼度の算出方法には、いくつかの方法が考えられるが、例えば、駒谷、河原著「音声認識結果の信頼度を用いた効率的な確認・誘導を行う対話処理」（情報処理学会論文誌、Vol.43、No.10、pp3078-3086）が知られている。

言語選択部２７０は、キーワード照合部２７１と、信頼度比較部２７２と、選択言語格納部２７３と、キーワードテーブル２７４を含む。
キーワード照合部２７１は、各言語の音声認識結果のテキストとキーワードテーブル２７４に登録された各言語のキーワードとを照合し、一致するキーワードとその言語を求める。信頼度比較部２７２は、各言語の信頼度を比較し、信頼度が最も高い言語を求める。選択言語格納部２７３には、キーワード照合部２７１における照合の結果、キーワードが一致した言語が格納されるとともに、信頼度比較部２７２で求められた信頼度の最も高い言語が格納される。

会話処理部２８０は、第一言語会話作成部２８１と、第二言語会話作成部２８２と、第三言語会話作成部２８３と、クローズドクエスチョン会話テーブル２８４と、オープンクエスチョン会話テーブル２８５を含む。
ここで、クローズドクエスチョン形式の会話とは、回答範囲を限定した質問を行う会話形式を意味し、オープンクエスチョン形式の会話とは、回答に制約を設けずに相手に自由に答えさせる質問を行う会話形式を意味する。クローズドクエスチョン形式の会話を行うことで、利用者が言語選択部２７０の選択言語格納部２７３に格納された言語で発話することが期待される。

第一言語会話作成部２８１は、入力されたテキストに対してクローズドクエスチョン会話テーブル２８４もしくはオープンクエスチョン会話テーブル２８５に基づいて第一言語（例えば、日本語）のシステム発話を作成する。システム発話とは、ロボットが発生する音声（発話）のことである。

第二言語会話作成部２８２は、入力されたテキストに対してクローズドクエスチョン会話テーブル２８４もしくはオープンクエスチョン会話テーブル２８５に基づいて第二言語（例えば、英語）のシステム発話を作成する。
第三言語会話作成部２８３は、入力されたテキストに対してクローズドクエスチョン会話テーブル２８４もしくはオープンクエスチョン会話テーブル２８５に基づいて第三言語（例えば、中国語）のシステム発話を作成する。

クローズドクエスチョン会話テーブル２８４には、図８で後述するように、選択言語に対するシステム発話が登録されている。つまり、クローズドクエスチョン会話テーブル２８４には、利用者の応答発話が限定されるような質問（クローズドクエスチョン）がシステム発話として登録されている。

オープンクエスチョン会話テーブル２８５には、図９で後述するように、選択言語及び利用者の発話に対するシステム発話と会話終了フラグが登録されている。つまり、オープンクエスチョン会話テーブル２８５には、利用者の発話応答が限定されない質問（オープンクエスチョン）がシステム発話として登録される。会話終了フラグは、会話を継続して行うか、終了するかを示すフラグであり、ＦＡＬＳＥの場合は会話を継続し、ＴＲＵＥの場合は会話を終了する。オープンクエスチョンの最初の質問に対する会話終了フラグは、会話を継続する必要があるので、すべてＦＡＬＳＥになっている。

なお、本例の案内ロボットシステムでは、日本語、英語、中国語といった３言語への対応例を示しているが、２言語もしくは４言語以上に対応するように構成することも可能である。
音声出力部２３２は、会話処理部２８０で作成されたシステム発話をロボット１００に送信し、ロボット１００に第一言語、第二言語または第三言語のいずれかの言語で発話させる。

＜言語選択を含む会話のフローチャート＞
図６は、本例の案内ロボットシステム１の処理のうち、国際空港利用者に対する言語選択を含む会話処理の一例を示すフローチャートである。なお、会話処理は、利用者がロボット１００に対面し、ロボット制御装置２００が対面検知することにより開始される。

まず、ロボット制御装置２００は、音声取得部２３１でロボット１００からの音声取得を待つ（Ｓ１）。ステップＳ１で音声が取得される（Ｓ１のＹＥＳ）と、第一言語音声処理部２６１の第一言語音声認識部２６１１では、第一言語（例えば、日本語）で音声認識され（Ｓ２）、第一言語信頼度算出部２６１２により第一言語の信頼度が計算される（Ｓ３）。ここで、利用者が第一言語（日本語）を話していることがロボット制御装置２００によって認識された場合には、第一言語信頼度算出部２６１２で算出された信頼度が「１」に近い高い値になる。

また、同時に、第二言語音声処理部２６２の第二言語音声認識部２６２１では、第二言語（例えば、英語）で音声認識され（Ｓ４）、第二言語信頼度算出部２６２２により第二言語の信頼度が計算される（Ｓ５）。同様に、第三言語音声処理部２６３の第三言語音声認識部２６３１では、第三言語（例えば、中国語）で音声認識され（Ｓ６）、第三言語信頼度算出部２６３２により第三言語の信頼度が計算される（Ｓ７）。

なお、利用者が第一言語（日本語）を話していることがロボット制御装置２００によって認識された場合には、第二言語信頼度算出部２６２２と第三言語信頼度算出部２６３２で算出する信頼度は「０」に近い低い値となる。
なお、ステップＳ１で音声取得がなされない場合（Ｓ１のＮＯ）には、ロボット１００に対して音声入力がなされるまで待機する。

ステップＳ２～ステップＳ７で、第一言語から第三言語での音声認識および信頼度算出が行われると、キーワード照合部２７１は、各言語の音声認識結果がキーワードテーブル２７４に登録されているキーワードと一致するかどうかを照合する（Ｓ８）。
ステップＳ８のキーワード照合部２７１の処理で、第一から第三のどの言語のキーワードにも一致しない場合（Ｓ８のＮＯ）には、第一言語から第三言語に対して信頼度比較部２７２にて信頼度が閾値以上の言語があるか否かが判定される（Ｓ９）。

ステップＳ９で信頼度が所定の閾値以上の言語がないと判定された場合（Ｓ９のＮＯ）には、信頼度比較部２７２にて各言語の信頼度を比較し、信頼度が最も高い言語が選択言語格納部２７３に格納される（Ｓ１０）。
なお、閾値は、０～１の間の任意の値に設定することができるものであるが、例えば閾値を「０．５」に設定した場合には、第一言語から第三言語のすべての信頼度が「０．５」以下であれば、その中の最も高い信頼度（例えば、０．４５）を持つ言語が選択言語格納部２７３に格納されることになる。

続いて、会話処理部２８０において、第一言語会話作成部２８１、第二言語会話作成部２８２及び第三言語会話作成部２８３のうちの選択された言語の会話作成部は、クローズドクエスチョン会話テーブル２８４に基づいてシステム発話を作成する（Ｓ１１）。
ステップＳ１１で、クローズドクエスチョンのシステム発話が作成されると、ロボット制御装置２００の音声出力部２３２がロボット１００へ音声データを送信し、ロボット１００はスピーカー１３５でその音声データを再生して発話する（Ｓ１２）。

そして、ロボット１００は、クローズドクエスチョンに対する利用者の応答による音声が取得されるまで待機する（Ｓ１３）。ステップＳ１３で音声取得がなされなかった場合には（Ｓ１３のＮＯ）、ステップＳ１に戻って、次の音声取得を待つ。
ステップＳ１３で音声が取得された場合（Ｓ１３のＹＥＳ）には、ロボット制御装置２００は、ロボット１００と利用者との会話成立をリトライし、リトライ回数が所定の回数を超えたか否かを判定する（Ｓ１４）。

ステップＳ１４で、リトライ回数が予め回数を超えていないと判定された場合（Ｓ１４のＮＯ）、ロボット制御装置２００は、選択された言語の会話作成部で別のクローズドクエスチョンのシステム発話を作成し、リトライ回数をインクリメントする（Ｓ１５）。そして、再度、ロボット制御装置２００の音声出力部２３２は、ロボット１００にシステム発話を再生させる（Ｓ１２）。ステップＳ１４でリトライ回数が予め設定した回数をオーバーしたと判定された場合（Ｓ１４のＹＥＳ）には、ロボット制御装置２００は、利用者に対するロボット１００の発話を断念し、ステップＳ１に戻って、他の利用者からの音声取得を待つ。

ここで、リトライ回数が所定回数をオーバーしたか否かの判断であるが、ここでは例えば、対話を継続するリトライ回数を予め決めておき（例えば、３回など）、３回のリトライをしても、ロボット１００と利用者との会話が成立しないときは、ロボット制御装置２００は、ロボット１００に当該利用者との対話を中止させるように制御する。

ステップＳ８のキーワード照合部２７１の処理で、キーワードテーブル２７４に登録されているキーワードとロボット１００による音声認識結果を照合した結果、音声認識結果の中にキーワード一致する言語がある場合（Ｓ８のＹＥＳ）には、キーワードに一致した言語を選択言語格納部２７３に格納する（Ｓ１６）。

また、ステップＳ９における信頼度比較部２７２における、第一言語から第三言語の各言語の信頼度比較で、信頼度が予め設定した閾値以上の言語があると判定された場合（Ｓ９のＹＥＳ）にも、同様に、信頼度が閾値以上の言語を選択言語格納部２７３に格納する（Ｓ１６）。

続いて、選択された言語の会話作成部において、オープンクエスチョン会話テーブル２８５に基づいてシステム発話を作成する（Ｓ１７）。
ステップＳ１７で、オープンクエスチョン形式のシステム発話が作成されると、音声出力部２３２は、ロボット１００へ音声データを送信し、ロボット１００はスピーカー１３５でその音声データを再生して発話する（Ｓ１８）。

そして、オープンクエスチョン形式のシステム発話が出力されると、会話処理部２８０の中の選択された言語の会話作成部は、会話終了フラグが「ＴＲＵＥ」であるか「ＦＡＬＳＥ」であるかを確認する（Ｓ１９）。なお、図９で後述するように、オープンクエスチョン形式の発話では、応答を継続させる必要があることから、会話終了フラグは「ＦＡＬＳＥ」になっている。

ステップＳ１９で会話終了フラグが「ＦＡＬＳＥ」であった場合（Ｓ１９のＮＯ）には、新たな音声取得を待つ（Ｓ２０）。そして、ステップＳ２０で、新たな音声が取得されれば（Ｓ２０のＹＥＳ）、第一から第三の言語のうち選択された言語の音声認識部で音声認識を行い（Ｓ２１）、ステップＳ１７で再度選択された言語の会話作成部でオープンクエスチョン形式のシステム発話を作成して、ステップＳ１８でロボット１００に発話させる。ステップＳ２０で、新たな音声が取得されなければ（Ｓ２０のＮＯ）、新たな音声が取得されるまで待機する。
ステップＳ１９で、ロボット１００と利用者との会話が成立し、会話終了フラグが「ＴＲＵＥ」であると判定された場合（Ｓ１９のＹＥＳ）には、会話処理を終了し、ステップＳ１に戻る。

なお、図６のフローチャートではステップＳ９の条件を「信頼度が閾値以上の言語があるか否か」としたが、これを「最も高い言語の信頼度と他の言語の信頼度の差が閾値以上であるか否か」としてもよい。そして、最も高い言語の信頼度と他の言語の信頼度の差が僅差である場合には、ステップＳ１７でクローズドクエスチョンを行うようにする。

例えば、利用者の話す言語が、第一言語なのか、あるいは第二言語なのか、あるいはその他の言語なのか判別しにくいような場合には、第一言語信頼度算出部２６１２で算出した信頼度が最も高い信頼度であっても、第一言語信頼度算出部２６１２で算出した信頼度と第二言語信頼度算出部２６２２で算出した信頼度とが近い値となることが想定される。
つまり、最も高い第一言語（日本語）の信頼度が「０．８」で、第二言語（英語）の信頼度が「０．７」であるような場合には、差が「０．１」になって微差になる。この場合には、利用者の話す言語が第一言語（日本語）なのか第二言語（英語）なのかを判定しにくい。
一方、最も高い第一言語（日本語）の信頼度が「０．５」で、第二言語（英語）の信頼度が「０．１」であれば、その差は「０．４」になって微差ではなくなってくる。このような場合には、利用者の話す言語は第一言語（日本語）であると判定することができる。

このように、信頼度が最も高い言語の信頼度と他の言語の信頼度の差が閾値以上の場合には、オープンクエスチョン形式の会話内容を作成し、信頼度が最も高い言語の信頼度と他の言語の信頼度の差が閾値以下の場合には、クローズドクエスチョン形式の会話内容を作成する。
すなわち、複数言語の音声認識の信頼度がいずれも閾値より低い場合には、システムが利用者に対してクローズドクエスチョン形式の問いかけを行い、利用者の発話内容を限定するようにしている。

＜各種テーブルの説明＞
図７は、第一言語を日本語、第二言語を英語、第三言語を中国語とした国際空港での利用における言語選択部２７０のキーワードテーブル２７４の一例を示している。キーワードテーブル２７４には、第一言語（日本語）として、「はい」、「よろしいです」が格納されており、またこれらの日本語に対応する第二言語（英語）、及び第三言語（中国語）の言葉も格納されている。

図８は、第一言語を日本語、第二言語を英語、第三言語を中国語とした国際空港での利用における会話処理部２８０のクローズドクエスチョン会話テーブル２８４の一例を示している。
すなわち、クローズドクエスチョン会話テーブル２８４のシステム発話には、利用者がキーワードテーブル２７４に登録されているキーワードを発話するように誘導するシステム発話が登録される。例えば、第一言語（日本語）としては、キーワードテーブルに登録されている「はい」を発話することを期待して、「日本語でよかったでしょうか？」や、「使用したい言語を教えてください」などの、定型の質問文が登録される。同様に、第二言語（英語）と第三言語（中国語）に関しても同じ意味の定型の質問文が登録される。

図９は、第一言語を日本語、第二言語を英語、第三言語を中国語とした国際空港での利用におけるオープンクエスチョン会話テーブル２８５の一例を示す。オープンクエスチョン会話テーブル２８５には、第一言語（日本語）、第二言語（英語）及び第三言語（中国語）のそれぞれの言語に対して、ユーザー発話の欄、システム発話の欄及び会話終了フラグの欄が設けられている。

ロボット１００に発話させるシステム発話が「何がしたいですか？」、あるいは「何が食べたいですか？」などの問いかけ形式の質問に対しては、会話終了フラグを「ＦＡＬＳＥ」として会話を継続する。そして、ロボット１００の発話が「トイレはここから左に行くとあります。」のように案内を行う時の発話では、会話終了フラグを「ＴＲＵＥ」として会話を終了する。これにより、複数回の会話から利用者の求める案内内容を絞り込んで最終的な案内を行うことができる。

なお、本発明は上記した実施の形態例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施の形態例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１…案内ロボットシステム、２…建物、
１００…（案内）ロボット、
１１０…ＣＰＵ、１２０…記憶装置、１２１…駆動制御部、１２２…会話制御部、１２３…入出力部、１３０…入出力装置、１３１…カメラ、１３２…マイク、１３３…ジャイロセンサ、１３４…測域センサ、１３５…スピーカー、１３６…駆動機構、１４０…通信インターフェース、
２００…ロボット制御装置、
２１０…ＣＰＵ、２１１…通信インターフェース、２２０…記憶装置、２３０…入出力データ処理部、２３１…音声取得部、２３２…音声出力部、２３３…画像取得部、２３４…動作出力部、２３５…測域データ取得部、２３６…エラー出力部、２４０…サービスフロー処理部、２５０…対面検知部、２６０…音声処理部、２６１…第一言語音声処理部、２６１１…第一言語音声認識部、２６１２…第一言語信頼度算出部、２６２…第二言語音声処理部、２６２１…第二言語音声認識部、２６２２…第二言語信頼度算出部、２６３…第三言語音声処理部、２６３１…第三言語音声認識部、２６３２…第三言語信頼度算出部、２７０…言語選択部、２７１…キーワード照合部、２７２…信頼度比較部、２７３…選択言語格納部、２７４…キーワードテーブル、２８０…会話処理部、２８１…第一言語会話作成部、２８２…第二言語会話作成部、２８３…第三言語会話作成部、２８４…クローズドクエスチョン会話テーブル、２８５…オープンクエスチョン会話テーブル
３００…ロボット管理サーバ
３１０…ＣＰＵ、３２０…記憶装置、３２１…ロボット配置管理部、３３０…通信インターフェース

Claims

複数言語の会話を用いて案内サービスを行う案内ロボットシステムであって、
音声を取得する音声取得部と、
前記音声取得部で取得した音声に対して複数言語の音声認識を行う音声認識部と、
前記音声認識部で得た前記複数言語の音声認識結果を事前に登録したキーワードに照合して一致する言語を得るキーワード照合部と、
前記音声取得部で取得した音声に対する複数言語の信頼度を算出する信頼度算出部と、
前記キーワード照合部による照合で一致した言語があるときには、前記一致した言語を選択し、前記キーワード照合部で登録したキーワードに一致する言語がなかったときには、前記信頼度算出部で算出した信頼度の最も高い言語を選択する言語選択部と、
前記信頼度算出部で得た信頼度の内、最も信頼度が高い言語の信頼度が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度が前記閾値よりも大きい場合にオープンクエスチョン形式の会話とするように切り替える会話処理部と、を備える、
案内ロボットシステム。
複数言語の会話を用いて案内サービスを行う案内ロボットシステムであって、
音声を取得する音声取得部と、
前記音声取得部で取得した音声に対して複数言語の音声認識を行う音声認識部と、
前記音声認識部で得た前記複数言語の音声認識結果を事前に登録したキーワードに照合して一致する言語を得るキーワード照合部と、
前記音声取得部で取得した音声に対する複数言語の信頼度を算出する信頼度算出部と、
前記キーワード照合部による照合で一致した言語があるときには、前記一致した言語を選択し、前記キーワード照合部で登録したキーワードに一致する言語がなかったときには、前記信頼度算出部で算出した信頼度の最も高い言語を選択する言語選択部と、
前記信頼度算出部で得た信頼度に対して、最も信頼度が高い言語の信頼度とその他の言語の信頼度との差が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度とその他の言語の信頼度との差が前記閾値よりも大きい場合にオープンクエスチョン形式の会話とするように切り替える会話処理部と、を備える
案内ロボットシステム。
複数言語の会話を用いて案内ロボットが案内サービスを行う案内方法であって、
案内ロボットの音声取得部で音声を取得するステップと、
前記音声取得部で取得した音声に対して音声認識部で複数言語の音声認識を行うステップと、
前記音声認識部で得た複数言語の音声認識結果を、キーワード照合部で事前に登録したキーワードに照合して一致する言語を得るステップと、
前記音声取得部で取得した音声に対する複数言語の信頼度を信頼度算出部により算出するステップと、
前記キーワード照合部による照合で一致した言語があるときには、前記音声取得部で取得した前記一致した言語を、言語選択部で選択し、前記キーワード照合部で登録したキーワードに一致する言語がなかったときには、前記信頼度算出部で算出した信頼度の最も高い言語を、前記言語選択部により選択するステップと、
前記信頼度算出部で得た信頼度の内、最も信頼度が高い言語の信頼度が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度が前記閾値よりも大きい場合にオープンクエスチョン形式の会話とするように会話処理部により切り替えるステップと、を含む、
案内方法。
複数言語の会話を用いて案内ロボットが案内サービスを行う案内方法であって、
案内ロボットの音声取得部で音声を取得するステップと、
前記音声取得部で取得した音声に対して音声認識部で複数言語の音声認識を行うステップと、
前記音声認識部で得た複数言語の音声認識結果を、キーワード照合部で事前に登録したキーワードに照合して一致する言語を得るステップと、
前記音声取得部で取得した音声に対する複数言語の信頼度を信頼度算出部により算出するステップと、
前記キーワード照合部による照合で一致した言語があるときには、前記音声取得部で取得した前記一致した言語を、言語選択部で選択し、前記キーワード照合部で登録したキーワードに一致する言語がなかったときには、前記信頼度算出部で算出した信頼度の最も高い言語を前記言語選択部により選択するステップと、
前記信頼度算出部で得た信頼度に対して、最も信頼度が高い言語の信頼度とその他の言語の信頼度との差が閾値よりも小さい場合にクローズドクエスチョン形式の会話とし、最も信頼度が高い言語の信頼度とその他の言語の信頼度との差が前記閾値よりも大きい場合にオープンクエスチョン形式の会話とするように会話処理部により切り替えるステップと、を含む、
案内方法。