(本発明の基礎となった知見)
背景技術で説明したように、ユーザと対話を行うことができる情報通信端末が知られている。
ところで、このような情報通信端末では、ユーザと情報通信端末との対話中に、当該情報通信端末とサーバとの通信が通信状態の劣化によって切断されることがある。そこで、特許文献1には、通信が切断された後、通信が復帰した際に、通信が切断されたときの対話の中断された位置をサーバに通知することで、対話を切断された位置から再開することができる音声対話システムが開示されている。
しかしながら、特許文献1に開示された技術では、情報通信端末とサーバとの通信が復帰するまでの間、情報通信端末は、ユーザの発話に対して応答することができない。すなわち、情報通信端末とサーバとの通信が切断されている間、ユーザが戸惑いを感じてしまうという課題がある。
上記の課題を解決するために、本発明の一態様に係る情報通信端末は、ユーザと対話を行う情報通信端末であって、前記対話における前記ユーザの入力を受け付ける入力受付部と、前記入力受付部が前記ユーザの入力を受け付けるごとに前記ユーザの入力に応じた情報をサーバから取得する通信部と、前記対話における前記情報通信端末の前記ユーザへの応答として、前記通信部が取得した情報を前記ユーザに提示する第1対話処理部と、前記通信部と前記サーバとの通信状態が、通信可能な状態であるか否かを判定する通信状態判定部と、前記対話の途中の第1タイミングにおいて前記通信状態判定部が前記通信状態が通信不可能な状態であると判定した場合に、前記通信状態が通信可能な状態に復帰する第2タイミングを推定し、前記第1タイミング以後に前記入力受付部が前記ユーザの入力を受け付けた第3タイミングから前記第2タイミングまでの時間である待ち時間を算出する待ち時間算出部と、前記待ち時間内において、前記待ち時間の長さに応じた前記ユーザへの情報の提示を行う第2対話処理部とを備える。
これにより、サーバと情報通信端末との通信が切断されている間も、待ち時間に応じた所定の情報の提示によって対話を自然に続行することができ、ユーザが感じる戸惑いを低減することができる。
また、前記第2対話処理部は、前記待ち時間の長さが第1閾値以上である場合、前記待ち時間内において、所定の第1情報を前記ユーザに提示し、前記待ち時間の長さが前記第1閾値未満である場合、前記待ち時間内において、情報の提示を行わなくてもよい。
このように、待ち時間が長い場合は、所定の第1情報を提示し、待ち時間が短い場合は、待ち時間において第2対話処理部による情報の提示を行わないことによって、音声対話が自然に継続される。ユーザにとっては余計な情報が提示されないため、ユーザの感じるストレスを低減することができる。
また、前記第2対話処理部は、前記待ち時間の長さが第1閾値以上である場合、前記待ち時間内において、所定の第1情報を前記ユーザに提示し、前記待ち時間の長さが前記第1閾値未満である場合、前記待ち時間内において、前記所定の第1情報とは異なる所定の第2情報を提示してもよい。
このように、待ち時間が長い場合は、所定の第1情報を提示し、待ち時間が短い場合は、第2対話処理部が所定の第1情報とは異なる所定の第2情報を提示することにより、待ち時間に応じた適切な情報提示が実現される。
また、さらに、前記情報通信端末の現在の位置を示す位置情報を取得する位置取得部と、前記情報通信端末の位置と、当該位置における前記通信状態とを対応付けた通信状態情報が記憶される記憶部を備え、前記待ち時間算出部は、前記位置情報が示す位置から、前記通信状態情報によって定められる前記通信不可能な状態が終了する位置までの距離を特定し、特定した距離と前記情報通信端末の移動速度とに基づいて前記第2タイミングを推定してもよい。
このように、通信状態情報を用いることで、待ち時間算出部は、より正確に第2タイミングを推定できる。
また、前記通信状態情報は、過去における、前記位置取得部が取得した前記位置情報が示す位置と、当該位置における前記通信状態判定部の前記通信状態の判定結果とを対応付けた前記通信状態の履歴であってもよい。
このように、通信状態情報として、通信状態の過去の履歴を用いることにより、待ち時間算出部は、より正確に第2タイミングを推定できる。
また、前記通信状態情報は、前記通信部と前記サーバとの通信を妨げる障害物の位置を示す障害物位置情報を含む地図情報であり、前記待ち時間算出部は、前記位置情報が示す位置から、前記障害物位置情報によって定められる前記通信不可能な状態が終了する位置までの距離を特定し、特定した距離と前記情報通信端末の移動速度とに基づいて前記第2タイミングを推定してもよい。
このように、情報通信端末に記憶された地図情報を流用することでも、待ち時間算出部は、より正確に第2タイミングを推定することができる。
また、前記待ち時間算出部は、前記位置情報が示す位置の変化に基づいて前記情報通信端末の移動速度を算出し、前記特定した距離と前記情報通信端末の移動速度とに基づいて前記第2タイミングを推定してもよい。
このように、位置情報から情報通信端末の速度を算出し、これを用いることによって、待ち時間算出部は、より正確に第2タイミングを推定することができる。
また、前記情報通信端末は、移動体に搭載され、さらに、当該移動体の移動速度を前記情報通信端末の移動速度として取得する速度取得部を備え、前記待ち時間算出部は、前記特定した距離と前記速度取得部が取得した前記移動体の移動速度とに基づいて前記第2タイミングを推定してもよい。
このように、移動体から速度を取得し、これを用いることによって、待ち時間算出部は、より正確に第2タイミングを推定することができる。
また、前記待ち時間の長さが、前記第1の閾値よりも大きい第2の閾値以上である場合、前記所定の第1情報とは異なる所定の第3情報を提示してもよい。
このように、待ち時間が長い場合は、第2対話処理部が所定の第1情報とは異なる所定の第3情報を提示することにより、待ち時間に応じたさらに適切な情報提示が実現される。
また、前記通信状態判定部は、前記通信部と前記サーバとの通信における信号のBER(Bit Error Rate)が所定の値よりも大きくなった場合に、前記通信状態が通信不可能な状態であると判定してもよい。
また、前記通信状態判定部は、前記BERが所定の時間変化量よりも小さい時間変化量で変化して前記所定の値よりも大きくなった場合に、前記通信状態が通信不可能な状態であると判定してもよい。
このように、BERが急激に上昇して所定の値を越える場合、通信状態の悪化は一時的なものである可能性が高い。よってこのような構成により、通信状態が誤判定される確率を低減できる。
また、さらに、音を出力する音声出力部を備え、前記第1対話処理部は、前記音声出力部に音を出力させることによって前記通信部が取得した情報を前記ユーザに提示し、前記第2対話処理部は、前記音声出力部に音を出力させることによって前記所定の第1情報を前記ユーザに提示してもよい。
また、さらに、映像を表示する表示部を備え、前記第1対話処理部は、前記表示部に映像を表示させることによって前記通信部が取得した情報を前記ユーザに提示し、前記第2対話処理部は、前記表示部に映像を表示させることによって前記所定の第1情報を前記ユーザに提示してもよい。
また、前記入力受付部は、さらに、前記音声取得部が取得した音声を認識する音声認識部と、前記音声認識部が音声を認識するごとに認識結果に応じた情報をサーバから取得する通信部とを有し、前記通信部は、前記音声認識部が音声を認識するごとに認識結果に応じた情報をサーバから取得し、前記第3タイミングは、前記第1タイミング以後の前記音声認識部の音声の認識が完了したタイミングであってもよい。
また、本発明の一態様に係る対話方法は、ユーザの入力を受け付けるごとに前記ユーザの入力に応じた情報をサーバから取得して前記ユーザに提示する対話を行う情報通信端末の対話方法であって、前記情報通信端末と前記サーバとの通信状態が、通信可能な状態であるか否かを判定する通信状態判定ステップと、前記対話の途中の第1タイミングにおいて前記通信状態が通信不可能な状態であると判定された場合に、前記通信状態が通信可能な状態に復帰する第2タイミングを推定する推定ステップと、前記第1タイミング以後に前記ユーザの入力を受け付けた第3タイミングから前記第2タイミングまでの時間である待ち時間を算出する待ち時間算出ステップと、前記待ち時間内において、前記待ち時間の長さに応じた前記ユーザへの情報の提示を行う対話処理ステップとを含む。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
以下、実施の形態1に係る音声対話システムについて説明する。
図1は、実施の形態1に係る音声対話システムの構成を示すブロック図である。
音声対話システム10は、情報通信端末100と、サーバ200と、情報通信端末100およびサーバ200を接続する無線通信回線300とから構成される。実施の形態1では、情報通信端末100は、移動体(車両)に搭載されるカーナビゲーション装置であり、ユーザ20の音声を認識して応答する音声対話を行う。
ここで、音声対話の概要を説明する。音声対話は、あらかじめ用意された対話シナリオにしたがって実行される。以下、一例として、レストラン検索についての対話シナリオについて説明する。
レストラン検索の対話シナリオでは、まず、ユーザ20は、音声(発話)によりレストランの検索を情報通信端末100に依頼する。これに対し、情報通信端末100は、まず、ユーザ20の音声を取得および認識する。音声の認識結果に基づき、サーバ200からサーバ200が備える対話シナリオデータベース202に予め記憶された対話ユニット(ユーザ20への問いかけ)を取得し、取得した対話ユニットに対応する「料理の種類は?」という音声を出力する。
続いて、このような情報通信端末100の問いかけに対して、ユーザ20が「イタリア料理」という音声によって応答したとする。これに対し、情報通信端末100は、同様に、ユーザ20の応答に対応する対話ユニットを取得し、取得した対話ユニットに対応する音声を出力する。
以下、情報通信端末100は、対話シナリオにしたがって、レストランを検索するエリアや食事の予算などをユーザ20に問いかけ、ユーザ20は、これらの問いかけに順次応答する。最終的には、ユーザ20の応答に基づいて選択されたレストランが検索結果としてユーザ20に提示され、音声対話は終了する。
次に、図1を用いて、音声対話システム10の具体的な構成について説明する。
まず、情報通信端末100について説明する。
音声対話システム10を構成する情報通信端末100は、入力受付部101a(音声取得部101、および音声認識部102)と、通信部103と、制御部104(対話処理部104a、および簡易対話処理部104b)と、位置取得部105と、通信状態判定部106と、待ち時間算出部107とを備える。また、情報通信端末100は、記憶部108と、速度取得部109と、音声出力部110と、音声合成部111とを備える。
音声取得部101は、音声対話におけるユーザ20の音声を取得し、デジタル音声信号を生成する。音声取得部101は、具体的には、例えば、マイクロフォンとA/D変換器とで構成される。
音声認識部102は、音声取得部101で生成したデジタル音声信号を認識する。音声認識部102は、既存の音声認識技術によってユーザ20の音声を認識し、テキスト形式の音声データを生成する。生成された音声データは、制御部104を介して通信部103に送信される。
通信部103は、音声認識部102が生成した音声データを、無線通信回線300を通じてサーバ200に送信し、当該音声データに対応する対話ユニットをサーバ200から取得する。すなわち、通信部103は、音声認識部102が音声を認識するごとに認識結果に応じた情報をサーバ200から取得する。通信部103は、例えば、3G、4G、Wi−Fi(登録商標)、Zigbee(登録商標)などの回線を利用して無線通信が可能な無線モジュールである。
制御部104は、音声対話における情報通信端末100の制御を行う。制御部104は、対話処理部104a(第1対話処理部)と、簡易対話処理部(第2対話処理部)104bとを有する。
対話処理部104aは、通信部103が取得した音声ユニットに対応する音声データを音声合成部に出力し、対話処理部104aが出力した当該音声データは、音声合成部111によってデジタル音声信号に変換されて音声出力部110から出力される。すなわち、対話処理部104aは、対話における情報通信端末100のユーザ20への応答として、通信部103が取得した情報(対話ユニット)をユーザ20に提示する。
簡易対話処理部104bは、情報通信端末100の特徴である、待ち時間の長さに応じたユーザ20への情報の提示(簡易情報提示)を行う。簡易情報提示は、いわば、サーバ200との通信が不可能な状態であることをユーザ20に悟られないために行われる情報提示である。簡易情報提示の詳細については後述する。
なお、制御部104は、ハードウェアのみで構成されてもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現されてもよい。また、制御部104は、プロセッサや、マイコンなどでも実現できる。
位置取得部105は、情報通信端末100の現在の位置を示す位置情報を取得する。位置取得部105は、具体的には、GPS(Global Positioning System)モジュールであるが、情報通信端末100の位置情報を取得できるものであればよい。
通信状態判定部106は、通信部103とサーバ200とが通信可能な状態であるか否かを判定する。具体的には、通信状態判定部106は、通信部103が受信する信号のビット誤り率(BER:Bit Error Rate)を監視する。通信状態判定部106は、BERが所定の値以下の場合は通信可能な状態であると判定し、BERが所定の値よりも大きい場合は通信不可能な状態であると判定する。
なお、通信状態判定部106は、通信部103(無線モジュール)の電波強度によって、通信状態の判定を行ってもよいし、通信部103の通信速度によって通信状態の判定を行ってもよい。また、通信状態判定部106は、後述する通信状態情報に基づいて通信状態の判定を行ってもよい。
待ち時間算出部107は、待ち時間を算出する。ここで、待ち時間は、次のように定義される。まず、音声対話の途中において、通信状態判定部106が、通信部103とサーバ200とが通信不可能な状態であると判定したタイミングを第1タイミングとする。また、通信不可能な状態が終了すると推定されるタイミングを第2タイミングとする。さらに、第1タイミング以後に、音声認識部102のユーザ20の音声の認識が完了するタイミングを第3タイミングとする。この場合、待ち時間は、第3タイミングから第2タイミングまでの時間である。なお、上記第2タイミングの推定方法の詳細については後述する。
記憶部108には、通信状態情報が記憶される。通信状態情報とは、情報通信端末100の位置と、当該位置における通信状態とを対応付けた情報である。実施の形態1では、通信状態情報は、例えば、情報通信端末100が搭載される移動体の走行時に、通信部103の通信状態と、位置取得部105が取得する位置情報とをリアルタイムで記憶しておくことによって実現可能である。すなわち、この場合、通信状態情報は、過去における、位置取得部105が取得した位置情報が示す位置と、当該位置における通信状態判定部106の通信状態の判定結果とを対応付けた通信状態の履歴である。
このような通信状態情報を用いれば、待ち時間算出部107は、位置取得部105が取得する現在の位置情報と、通信状態情報を照らし合わせることで、第2タイミングを推定することができる。
なお、通信状態情報は、例えば、無線通信サービスを提供するサービス事業者が提供する、通信状態と、位置情報とが対応付けられた通信状態のマップ情報であってもよい。また、通信状態情報は、カーナビゲーション装置が備える地図情報における建物等の情報であってもよい。この場合、例えばトンネル内や、高層ビルの近くなど電波状況の悪い位置が、通信部103とサーバ200とが通信不可能な位置として取り扱われる。
記憶部108は、具体的には、例えば、半導体メモリや、HDD(Hard Disc Drive)などである。なお、実施の形態1では、情報通信端末100が記憶部108を備える構成としているが、記憶部108は、情報通信端末100とは別個に設けられてもよい。すなわち、記憶部108は、USBメモリや、外付けのHDDとして実現されてもよい。つまり、記憶部108は、必須の構成要素ではない。
速度取得部109は、情報通信端末100(≒ユーザ20、移動体)の移動速度(速さおよび移動方向)を取得する。実施の形態1では、移動体からCAN(Controller Area Network)を通じて、移動体の速度を取得する。なお、速度については、位置取得部105の位置情報の変化(変位)を用いて算出することも可能である。すなわち、速度取得部109は、必須の構成要素ではない。つまり、情報通信端末100の速度取得部109の速度の取得方法は、移動体の速度を取得する方法に限定されず、どのような方法であってもよい。
音声合成部111は、音声データをデジタル音声信号に変換して、音声出力部110に出力する。
音声出力部110は、デジタル音声信号を音として出力する。実施の形態1では、情報通信端末100は、カーナビゲーション装置として実現されるため、情報通信端末100により再生される再生音(音楽、ラジオ放送、ナビゲーション音など)と、ユーザ20に提示する情報として音声合成部111が出力するデジタル音声信号とを合成して音として出力する。
次に、無線通信回線300について説明する。
音声対話システム10を構成する無線通信回線300は、例えば3G、4G、Wi−Fi(登録商標)、Zigbee(登録商標)などの回線である。無線通信回線300は、典型的には、無線通信サービスを提供するサービス事業者(通信事業者)が提供する回線である。なお、図1では、情報通信端末100と、無線通信回線300とは直接接続されるが、情報通信端末100は、スマートフォンや無線ルータなどの中継機器を介して無線通信回線300に接続されてもよい。
次に、サーバ200について説明する。
音声対話システム10を構成するサーバ200は、サーバ通信部203と、サーバ対話処理部204と、対話シナリオデータベース202とを備える。
サーバ通信部203は、通信部103が送信する音声データを受信し、当該音声データに対応する対話ユニットを通信部103に送信する。サーバ通信部203は、例えば、無線モジュールである。
サーバ対話処理部204は、サーバ通信部203が受信した音声データに対応する対話ユニットを対話シナリオデータベース202から選択し、選択した対話ユニットをサーバ通信部203を介して通信部103に送信する。サーバ対話処理部204は、プロセッサや、マイコンなどで実現できる。
対話シナリオデータベース202は、複数の対話ユニットからなる対話シナリオが記憶される記憶部である。対話シナリオデータベース202は、具体的には、半導体メモリや、HDD(Hard Disc Drive)などである。
図2は、対話シナリオを説明するための図である。
図2に示されるように、実施の形態1における対話シナリオは、情報通信端末100の問いかけの手順をツリー状に列記したものであり、対話の1つの単位をここでは対話ユニットと規定する。対話ユニットは、対話ユニットIDと、情報通信端末100がユーザ20に提示する情報(メッセージ)と、当該メッセージについて想定されるユーザ20の回答およびこれに対する分岐情報(次の対話ユニットID)とで構成される。
次に、上記のように構成される実施の形態1に係る音声対話システム10の簡易情報提示処理について説明する。
図3は、音声対話システム10の簡易情報提示処理を示すフローチャートである。
まず、制御部104は、現在音声対話中であるか否かを判断する(S101)。音声対話中である場合(S101でYes)、通信状態判定部106は、通信部103とサーバ200との通信状態が、通信不可能な状態であるか否かを判定する(S102)。通信部103とサーバ200との通信状態が、通信可能な状態である場合(S102でNo)、および音声対話中でない場合(S101でNo)は、現在音声対話中であるか否かの判断処理(S101)に戻る。
通信状態判定部106が通信部103とサーバ200との通信状態が、通信不可能な状態である場合と判定した場合(S102でYes)、待ち時間算出部107は、通信不可能な状態が終了する第2タイミングを推定する(S103)。なお、上述のように、通信不可能な状態であると判定されるタイミングは、第1タイミングである。第2タイミングの推定方法の詳細については後述する。
続いて待ち時間算出部107は、第1タイミング以後の音声認識部の音声の認識が完了した第3タイミングから第2タイミングまでの時間である待ち時間を算出する(S104)。第3タイミングは、言い換えれば、第1タイミング以後に最初にユーザ20の発話が終了したタイミングである。
簡易対話処理部104bは、待ち時間の長さが第1閾値であるT1未満であるか否かを判断する(S105)。待ち時間の長さがT1未満である場合(S105でYes)、簡易対話処理部104bは、待ち時間内においては、情報の提示を行わずに簡易情報提示処理を終了する。
待ち時間の長さがT1以上である場合(S105でYes)、簡易対話処理部104bは、待ち時間の長さが第2閾値であるT2未満であるか否かを判断する(S106)。ここでT2は、T1よりも大きい(長い)閾値である。
待ち時間の長さがT2未満である場合(S106でYes)、簡易対話処理部104bは、待ち時間内において、所定の第1情報をユーザ20に提示する(S107)。
待ち時間の長さがT2以上である場合(S106でYes)、簡易対話処理部104bは、待ち時間内において、所定の第3情報をユーザ20に提示する(S108)。
次に、上記のような簡易情報提示処理における、各構成要素の動作の詳細について説明する。
まず、通信状態判定部106の通信状態の判定方法について説明する。
実施の形態1では、上述のように、通信状態判定部106は、通信部103とサーバ200との通信における信号のBERが所定の値よりも大きくなった場合に、通信部103とサーバ200との通信が不可能な状態であると判定する。
図4および図5は、通信状態判定部106の通信状態の判定方法を説明するための図である。
図4および図5において縦軸は、1−BERを表す。すなわち、図4および図5では、縦軸の上側がBERが小さく通信状態が良好であることを示し、縦軸の下側がBERが大きく通信状態が悪いことを示す。横軸は、時間である。また、図中の点線は所定の値400を示す。
図4に示される期間401は、1−BERが所定の値400以下の期間である。すなわち、BERが所定の値400よりも大きい期間である。よって、通信状態判定部106は、期間401を通信部103とサーバ200との通信が不可能な状態であると判定する。
なお、通信状態判定部106は、BERが所定の時間変化量よりも小さい時間変化量で変化して所定の値400よりも大きくなった場合に、通信部103とサーバ200との通信が不可能な状態であると判定してもよい。ここで時間変化量とは、BERの時間変化の傾きの絶対値である。
BERが急激に上昇して所定の値400を越える場合、通信状態の悪化は一時的なものである可能性が高い。このようなときに通信状態判定部106が通信部103とサーバ200との通信が不可能な状態であると判定しないように、BERが所定の時間変化量よりも小さい時間変化量で変化して所定の値400よりも大きくなった場合のみ、通信が不可能な状態であると判定する構成としてもよい。
例えば、図5に示される期間402では、1−BERが急激に低下して所定の値400以下となっている。すなわち、BERが急激に上昇して所定の値400を越えており、BERが所定の時間変化量以上の時間変化量で変化して所定の値400よりも大きくなっている。よって、通信状態判定部106は、期間402を通信部103とサーバ200との通信が可能な状態であると判定する。
一方、図5に示される期間403では、1−BERがゆるやかに低下して所定の値400以下となっている。すなわち、BERがゆるやかに上昇して所定の値400を越えており、BERが所定の時間変化量よりも小さい時間変化量で変化して所定の値400よりも大きくなっている。よって、通信状態判定部106は、期間403を通信部103とサーバ200との通信が不可能な状態であると判定する。
このような構成により、通信状態が誤判定される可能性が低減される。
なお、通信状態判定部106は、通信状態情報を用いて、事前に通信状態を判定することも可能である。すなわち、通信状態判定部106の「通信可能な状態であるか否かを判定する」には、現在または未来の通信状態を判定することが含まれる。また、「対話の途中の第1タイミングにおいて通信状態判定部106が通信状態が通信不可能な状態であると判定した場合」には、通信状態判定部106が事前に第1タイミングを特定している場合が含まれる。
次に、待ち時間算出部107の第2タイミングの推定方法について説明する。
図6は、第2タイミングの推定方法を説明するための図である。
図6の(a)は、情報通信端末100が搭載された移動体500が道路505を図中の矢印方向に走行する様子を模式的に示した図である。なお、図中の道路505の途中には、トンネル503が設けられている。ここでは、トンネル503は、通信部103とサーバ200との通信を妨げる障害物である。
図6の(a)において、エリア501aは、障害物がなく、通信状態が良好なエリアである。したがって、移動体500がエリア501aを走行中は、通信部103とサーバ200との通信状態は、良好な状態である。
しかしながら、移動体500がトンネル503に突入すると、通信部103とサーバ200との通信が不可能な状態となる。すなわち、トンネル503付近のエリアであるエリア502では、通信部103とサーバ200との通信が不可能な状態となる。
続いて、移動体500がトンネルを抜けてエリア501bに差しかかると、通信部103とサーバ200との通信状態は、良好な状態に復帰する。
通信状態判定部106は、初回の道路505の走行時に、位置取得部105が取得した位置情報が示す位置と、当該位置における通信状態判定部106の通信状態とを対応付けて記憶部108に記憶する。
具体的には、図6の(b)に示されるように、通信状態判定部106は、少なくとも位置P1と位置P2との間の区間(位置)において通信が不可能な状態となることを記憶部108に通信状態情報として記憶しておく。
移動体500が、再度、道路505を走行し、トンネル503にさしかかった場合、すなわち、通信状態判定部106が、通信不可能な状態であると判定した場合、待ち時間算出部107は、位置取得部105が取得する現在位置(位置P1)と、記憶部108に記憶された通信状態情報とを参照する。そして、待ち時間算出部107は、通信状態が回復する位置が位置P2であることを特定する。なお、上記参照において、現在位置であるP1と、通信状態情報に記憶されたP1とが一致するか否かの判断は、典型的には、それぞれの位置同士の差分が所定の閾値よりも小さいか否かによって判断される。
さらに、待ち時間算出部107は、速度取得部109から現在の移動速度を取得する。そして、待ち時間算出部107は、図6の(c)に示されるように位置P1から位置P2までの距離Lを現在の速度(速さ)で除算することによって、移動体500が位置P2に位置すると予測される時点(第2のタイミング)を推定する。
以上のように、待ち時間算出部107は、第2タイミングを推定する。なお、上記は、第2タイミングの推定方法の一例である。
例えば、実施の形態1のように、情報通信端末100がカーナビゲーション装置として実現される場合には、記憶部108に記憶された地図情報にトンネル(通信部103とサーバ200との通信を妨げる障害物)の位置を示す障害物位置情報が含まれる場合がある。このような場合は、トンネルを通過すれば通信状態が回復すると予測されるため、待ち時間算出部107は、障害物位置情報を用いて上述のような第2タイミングの推定をすることができる。
なお、待ち時間算出部107は、速度取得部109から現在の移動速度を取得することなく、所定の速度を用いて第2タイミングを推定してもよい。実施の形態1では、情報通信端末100がカーナビゲーション装置として実現されるため、移動体500の平均的な車速である40km/hの速度が所定の速度として用いられてもよい。情報通信端末100がスマートフォンなどの携帯端末として実現される場合は、人間の平均的な歩行速度が所定の速度として用いられてもよい。
次に、待ち時間算出部107が算出する待ち時間について説明する。
図7および図8は、待ち時間を説明するための図である。図中のt1は、第1タイミングであり、図中のt2は、第2タイミングであり、図中のt3は、第3タイミングである。図中のTは、待ち時間である。
図7は、対話処理部104aが、情報(対話ユニット)の提示中に、通信部103とサーバ200との通信状態が通信不可能な状態と判断される場合を示す図である。
図7に示されるような場合、第1タイミング以降も対話処理部104aの情報の提示は行われ、情報の提示の終了後にユーザ20が発話(応答)を行う。音声認識部102は、ユーザ20の発話、すなわち音声の認識を行い、ユーザ20の発話が終了した時点すなわち、第3タイミングを特定する。音声認識部102は、ユーザ20の発話した単語を解析することにより第3タイミングを特定してもよいし、ユーザ20の沈黙が所定時間以上続いた時点を第3タイミングとして特定してもよい。
一方、図8は、対話処理部104aが、情報(対話ユニット)の提示後、ユーザ20の発話中に通信部103とサーバ200との通信状態が通信不可能な状態と判断される場合を示す図である。
この場合も同様に、第1タイミング以降のユーザ20の発話が終了した時点が、第3タイミングとして特定される。
なお、第3タイミングよりも前に、すなわちユーザ20が発話中に通信部103とサーバ200との通信状態が通信可能な状態に復帰した場合は、簡易対話処理部104bの情報提示は行われず、対話処理部104aによる通常の音声対話が継続される。
第3タイミングの特定後、待ち時間算出部107は、待ち時間を算出する。待ち時間は、第3タイミングから第2タイミングまでの時間である。
次に、簡易対話処理部104bの情報提示について説明する。
図9は、簡易対話処理部104bの情報提示と、待ち時間との関係を示す図である。
図9に示されるように、簡易対話処理部104bは、待ち時間の長さに応じて、当該待ち時間内においてユーザ20に提示する情報を適応的に切り替える。これにより、ユーザ20が感じるストレスをより低減した情報提示が可能となる。
実施の形態1において、第1閾値であるT1は、ユーザ20が違和感を感じない程度に短い時間に設定されている。よって、図9に示されるように、待ち時間の長さがT1未満である場合、簡易対話処理部104bは、待ち時間内においては、情報の提示を行わない。この場合、対話処理部104aは、待ち時間経過後、サーバ200との通信が可能になったときにサーバ200から通信部103を介して対話ユニットを取得してユーザ20に提示する。
このように、待ち時間が短い場合は、待ち時間において簡易対話処理部104bによる情報の提示を行わないことによって、音声対話が自然に継続される。よって、ユーザ20にとっては余計な情報が提示されないため、ユーザ20の感じるストレスを低減することができる。
また、実施の形態1において、第2閾値であるT2は、T1よりも長い時間に設定されている。図9に示されるように、待ち時間の長さがT1以上T2未満である場合、簡易対話処理部104bは、ユーザ20の応答に対して「おお」や「なるほど」などの相槌を打つ。すなわち、簡易対話処理部104bは、相槌に対応する音を音声出力部110に出力させる。言い換えれば、簡易対話処理部104bは、所定の第1情報をユーザ20に提示する。
このような相槌に対応する音のデータは、例えば、記憶部108に予め記憶されている。これにより、情報通信端末100は、サーバ200との通信が復帰するまでの待ち時間において、上記相槌によってユーザ20との音声対話を継続できるため、ユーザ20の戸惑いを低減できる。
また、図9に示されるように、待ち時間の長さがT1以上T2未満である場合、簡易対話処理部104bは、ユーザ20の応答をオウム返ししてもよい。この場合、音声認識部102は、第1のタイミング後、第3のタイミング前におけるユーザ20の音声を認識し、簡易対話処理部104bは、待ち時間内において、認識結果に対応する音を音声出力部110に出力させる。これにより、違和感なく、待ち時間における間を持たせることができる。
また、実施の形態1において、待ち時間の長さがT2以上である場合、相槌や、オウム返しでは、違和感なく、待ち時間における間を持たせることができないと考えられる。したがって、この場合、簡易対話処理部104bは、音声出力部110に「通信回線が途切れましたので、少々お待ちください」という通信障害による対話の中断を詫びるメッセージを出力させる。言い換えれば、簡易対話処理部104bは、所定の第3情報をユーザ20に提示する。なお、このようなメッセージは、予め記憶部108に記憶されている。
以上のように、情報通信端末100は、待ち時間の長さに応じてユーザ20に提示する情報を変更し、通信障害が発生したときに生じるユーザ20の戸惑い(ストレス)を低減することができる。なお、簡易対話処理部104bが提示する情報(所定の第1情報および所定の第3情報)は、サーバ200との通信を用いることなく生成される点において対話処理部104aが提示する情報と異なる。
なお、上記の簡易対話処理部104bが提示する情報(所定の第1情報および所定の第3情報)は、一例であり、このような態様に限定されない。待ち時間においてユーザ20の戸惑い(ストレス)を低減するような所定の情報であればよい。また、実施の形態1では、待ち時間の長さがT1未満である場合、簡易対話処理部104bは、待ち時間内においては、情報の提示を行わないが、これに代えて、待ち時間内において所定の第2情報を提示してもよい。この場合、所定の第2情報は、所定の第1情報および所定の第3情報のいずれの情報とも異なる情報であることが望ましい。
以上、実施の形態1に係る音声対話システム10およびこれに用いられる情報通信端末100について説明した。情報通信端末100によれば、サーバ200と情報通信端末100との通信が切断されている間も、対話を自然に続行することができ、ユーザ20が感じる戸惑いを低減することができる。
なお、図1は、情報通信端末100の最小の構成を示すブロック図ではない。
図10は、情報通信端末の最小構成を示すブロック図である。
図10に示されるように、最小構成に係る情報通信端末100aは、入力受付部101aと、通信部103と、制御部104(対話処理部104a、および簡易対話処理部104b)と、通信状態判定部106と、待ち時間算出部107とを備える。
(その他の実施の形態)
本発明は、上記の実施の形態1に限定されない。以下のような場合も本発明に含まれる。
例えば、実施の形態1の図7に示されるような場合、第1タイミングにおいては、対話処理部は情報の提示中である。よって、対話処理部は、第1タイミング待ち時間に応じて、情報の提示として音出力部から出力されている音の再生速度を調整してもよい。具体的には、対話処理部は、待ち時間が長いほど、音の再生速度を遅くしてもよい。
また、例えば、簡易対話処理部は、待ち時間内において、待ち時間の長さに応じて再生速度を変えた音を出力してもよい。この場合、簡易対話処理部は、待ち時間が長いほど、再生速度が遅くなる(再生時間が長くなる)ように音声出力部に音を出力させる。
また、例えば、実施の形態1で説明した、所定の第1情報、所定の第2情報、および所定の第3情報のそれぞれは、同一内容の音の再生速度を変更したものであってもよい。すなわち、実施の形態1で説明した、所定の第1情報、所定の第2情報、および所定の第3情報のそれぞれは、同一の内容の情報であるが異なる態様の情報であってもよい。この場合、所定の第2情報、所定の第1情報、所定の第3情報の順に音声の再生速度が遅くなる(再生時間が長くなる)。
このような、同一内容の音声の再生速度を変更することで、予め記憶部に記憶される、簡易対話処理部が提示するための情報の情報量を低減できる。
なお、再生時間の調整は、例えば、メッセージの文節ごとに間を置くなどして行われてもよいし、音の再生中にユーザの名前の呼びかけを挿入するなどして行われてもよい。
さらに、上記のような再生時間の調整方法をランダムに切り替えることで、待ち時間に提示される情報が固定化されないため、ユーザを飽きさせない音声対話(情報提示)を行うことができる。
また、実施の形態1では、対話処理部および簡易対話処理部は、音声による情報提示を行ったが、ユーザへの情報提示の方法はこのような方法に限定されない。例えば、情報通信端末は、さらに、映像を表示する表示部を備え、対話処理部は、表示部に映像を表示させることによってユーザに情報を提示し、簡易対話処理部は、表示部に映像を表示させることによって所定の第1情報をユーザに提示してもよい。
この場合の表示部は、例えば、液晶ディスプレイ、プラズマディスプレイ、または有機EL(ElectroLuminescence)ディスプレイ等である。また、実施の形態1のように情報通信端末がカーナビゲーション装置として実現される場合は、車両のフロントガラスを用いたヘッドアップディスプレイ(HUD:Head Up Display)が表示部として用いられてもよい。
このような場合、対話処理部および簡易対話処理部によって提示される情報は、静止画のみであってもよい。すなわちユーザと情報通信端末との対話は、音声対話でなくてもよい。また、対話処理部および簡易対話処理部によって提示される情報は、音と映像とを組み合わせた動画像であってもよい。
また、実施の形態1では、情報通信端末は、ユーザの音声を取得したが、ユーザの情報通信端末への入力は、音声でなくてもよい。すなわち、情報通信端末は、入力受付部を備え、ユーザの入力に基づく対話処理を行ってもよい。この場合の入力受付部は、実施の形態1で説明した、音声取得部および音声認識部であってもよいし、ユーザのタッチ操作を受け付けるタッチパネルや、ハードスイッチ等、ユーザの入力を受付けるものであればよい。
また、実施の形態1では、情報通信端末は、図11に示されるようにカーナビゲーション装置として実現されたが、情報通信端末は、スマートフォンやタブレット端末として実現されてもよい。
また、以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムで実現され得る。RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、ROMからRAMにコンピュータプログラムをロードし、ロードしたコンピュータプログラムにしたがって演算等の動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されてもよい。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールには、上記の超多機能LSIが含まれてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有してもよい。
(4)本発明は、上記に示す方法で実現されてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムで実現してもよいし、コンピュータプログラムからなるデジタル信号で実現してもよい。
また、本発明は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したもので実現してもよい。また、これらの記録媒体に記録されているデジタル信号で実現してもよい。
また、本発明は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、メモリは、コンピュータプログラムを記憶しており、マイクロプロセッサは、コンピュータプログラムにしたがって動作してもよい。
また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態をそれぞれ組み合わせるとしてもよい。
以上、一つまたは複数の態様に係る情報通信端末について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。