JP6508251B2

JP6508251B2 - 音声対話システムおよび情報処理装置

Info

Publication number: JP6508251B2
Application number: JP2017088728A
Authority: JP
Inventors: 智水摩; 池野　篤司; 篤司池野; 博士山口; 勇太山本; 西島　敏文; 敏文西島; 佐々木　悟; 悟佐々木; 刀根川　浩巳; 浩巳刀根川; 倫秀梅山
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-04-27
Filing date: 2017-04-27
Publication date: 2019-05-08
Anticipated expiration: 2037-04-27
Also published as: CN108810244A; CN108810244B; US11056106B2; JP2018185758A; US20180315423A1

Description

本発明は、音声によって人と対話する装置に関する。

近年、人と対話をすることによって様々な情報を提供するロボットが開発されている。例えば、特許文献１には、マイクによって入力された音声をネットワーク上で処理し、入力に対する応答を音声で返すコミュニケーションロボットが開示されている。

特許文献１に記載のシステムのように、コミュニケーションロボットの分野では、コストを削減するため、インタフェースであるロボットが、制御装置（例えばスマートフォンなどの携帯型コンピュータ）と無線通信を行い、制御装置側において音声の認識や応答の生成を行うという構成が一般的となっている。

特開２０１５−０１３３５１号公報特開２０１５−１２８２９７号公報特開２０１３−０５５５４５号公報

コミュニケーションロボットの制御装置としてスマートフォンなどを利用した場合、音声対話中に電話が着信した場合の処理が問題となる。例えば、ロボットとスマートフォンがオーディオ接続されたままの状態で電話を受けてしまうと、相手方の声がロボットから出力されてしまい、ユーザに違和感を与えてしまう。
すなわち、電話機本体で行う音声入出力と、ロボットを利用した音声入出力を適切に切り替える必要がある。

本発明は上記の課題を考慮してなされたものであり、ロボットと制御装置が無線によって接続する音声対話システムにおいて、音声入出力デバイスを適切に切り替えることを目的とする。

本発明に係る音声対話システムは、第一の音声入出力デバイスを有する情報処理装置と、第二の音声入出力デバイスを有し、近距離無線通信を介して前記情報処理装置とオーディオ接続する音声インタフェース装置と、を含む音声対話システムである。
具体的には、前記情報処理装置は、前記第一の音声入出力デバイスまたは第二の音声入出力デバイスを用いて音声の入出力を行う音声入出力手段と、ユーザとの音声対話を行う対話手段と、音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、を有し、前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替えることを特徴とする。

本発明に係る音声インタフェース装置は、情報処理装置と通信を行うことでユーザとの対話を行う対話インタフェースである。また、情報処理装置は、ユーザとの対話を司る装置（例えば、音声の認識、応答文の生成、音声の合成などを行う装置）であり、典型的に
はスマートフォンなどの携帯型のコンピュータである。音声インタフェース装置と情報処理装置の双方に、音声入出力デバイスが備わっている。

情報処理装置が有する音声入出力手段は、音声の入出力を行うデバイスを、自装置が有する第一の音声入出力デバイス、または、音声インタフェース装置が有する第二の音声入出力デバイスから選択することができる。第二の音声入出力デバイスを選択した場合、近距離無線通信による音声接続を介して音声が伝送される。
また、処理手段は、音声入出力を用いて音声対話以外の処理を行う手段である。処理手段は、例えば、音声通話を行う手段であってもよいし、その他のアプリケーション（例えば電話アプリ）等を実行する手段であってもよい。

また、本発明では、第二の音声入出力デバイスを用いて音声対話を行っている間に、処理手段が音声入出力を必要とする状態となった場合（例えば、電話や通話アプリケーションに対する音声着信があった場合など）に、音声の入出力に用いるデバイスを第一の音声入出力デバイスに切り替える。
かかる構成によると、ユーザと対話している状態においては、近距離無線通信によって接続された音声インタフェース装置を利用し、電話などが着信した場合には、音声インタフェース装置を切り離して自装置で応答することができるようになる。

また、前記処理手段は、無線通信網を介して音声通話を行う手段であることを特徴としてもよい。

本発明は、情報処理装置が音声対話と音声通話の双方を行う形態に好適に適用することができる。

また、前記情報処理装置および前記音声インタフェース装置間は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格の音声プロファイルを利用して接続されることを特徴としてもよい。

情報処理装置と音声インタフェース装置は、互いにペアリングされた状態で近距離通信を行うため、Ｂｌｕｅｔｏｏｔｈによる接続が適している。また、情報処理装置にスマートフォンなどを用いることができ、かつ、消費電力を抑えることができるという利点がある。また、音声用のプロファイルを利用することで、遅延の少ない通信をさせることができる。

また、前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記情報処理装置とのオーディオ接続を解除することを特徴としてもよい。

Ｂｌｕｅｔｏｏｔｈによって接続が確立しており、処理手段が第一の状態となった場合、その旨を音声インタフェース装置に送信することで、オーディオ接続を解除させることができる。

また、前記処理手段は、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信し、前記音声インタフェース装置は、前記第二の通知を受信した場合に、前記情報処理装置とのオーディオ接続を回復させることを特徴としてもよい。

例えば、通話が終了した場合など、処理手段側で音声入出力が不要となった場合、音声インタフェース装置はこれを検知することができない。よって、情報処理装置側から通知を送信し、音声インタフェース装置側からオーディオ接続を回復するように構成すること
ができる。

また、前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記処理手段に対して拒否応答を送信したうえで、前記情報処理装置とのオーディオ接続を解除することを特徴としてもよい。
また、前記処理手段は、前記拒否応答を受信し、前記オーディオ接続が解除された場合において、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信することで前記オーディオ接続を回復させることを特徴としてもよい。

オーディオ接続を解除する前に拒否応答を送信することで、「情報処理装置に起因してオーディオ接続を切断した」ことを情報処理装置側へ通知することができる。これにより、情報処理装置は、接続を回復させる必要性を認識することができる。

また、本発明に係る情報処理装置は、
第一の音声入出力デバイスと、前記第一の音声入出力デバイス、または、近距離無線通信を介して接続された音声インタフェース装置が有する第二の音声入出力デバイス、のいずれかを用いて音声の入出力を行う音声入出力手段と、ユーザとの音声対話を行う対話手段と、音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、を有し、前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替えることを特徴とする。

なお、本発明は、上記手段の少なくとも一部を含む音声対話システムまたは情報処理装置として特定することができる。また、前記音声対話システムが行う音声対話方法、情報処理装置が行う情報処理方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

本発明によれば、ロボットと制御装置が無線によって接続する音声対話システムにおいて、音声入出力デバイスを適切に切り替えることができる。

第一の実施形態に係る音声対話システムのシステム構成図である。ロボット１０と制御装置２０との接続を説明する図である。第一の実施形態における接続フローを説明する図である。ロボット１０、制御装置２０、サーバ装置３０間のデータフロー図である。第二の実施形態における接続フローを説明する図である。第三の実施形態における接続フローを説明する図である。

以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。

（第一の実施形態）
図１は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット１０と、制御装置２０と、サーバ装置３０から構成される。

ロボット１０は、スピーカやマイク等を有しており、ユーザとのインタフェースを担う手段である。ロボット１０は、人型やキャラクター型であってもよいし、他の形状であってもよい。

制御装置２０は、ロボット１０を介して行うユーザとの対話を制御する装置である。また、サーバ装置３０は、制御装置２０から送信された要求に応じて、音声の認識と、ユーザに提供する応答（応答文）の生成を行う装置である。制御装置２０は、本実施形態では、通話機能を有するスマートフォンである。

本実施形態では、ロボット１０は音声インタフェースとしてのみ機能し、対話を制御する処理は制御装置２０が行う。また、発話内容の認識や、応答文の生成などはサーバ装置３０が行う。

まず、ロボット１０について説明する。ロボット１０は、音声入出力部１１と近距離通信部１２から構成される。

音声入出力部１１は、ユーザが発した音声を取得し、制御装置２０から送信された音声を再生する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号（以下、音声データ）に変換する。取得した音声データは、後述する近距離通信部１２を介して制御装置２０へ送信される。また、内蔵されたスピーカを用いて、制御装置２０から送信された音声データを音声に変換する。

近距離通信部１２は、制御装置２０と近距離無線通信を行う手段である。本実施形態では、近距離通信部１２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格を利用して通信を行う。近距離通信部１２は、ペアリング先となる制御装置２０に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Ｂｌｕｅｔｏｏｔｈ規格は、ＩＥＥＥ８０２．１５．１とも呼ばれる。

次に、制御装置２０について説明する。制御装置２０は、ロボット１０の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置２０は、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

制御装置２０は、近距離通信部２１、制御部２２、通信部２３、セルラ通信部２４、音声入出力部２５から構成される。

近距離通信部２１が有する機能は、前述した近距離通信部１２と同様であるため、詳細な説明は省略する。

制御部２２は、ロボット１０から音声を取得し、当該取得した音声に対する応答を取得する手段である。具体的には、ロボット１０から取得した音声を、通信部２３を介してサーバ装置３０（いずれも後述）に送信し、対応する応答文をサーバ装置３０から受信する。また、音声合成機能によって、応答文を音声データに変換し、ロボット１０に送信する。また、ロボット１０に送信された音声は、音声出力部１３を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。

また、制御部２２は、音声による通話を制御する手段でもある。例えば、後述するセル
ラ通信部２４を介してセルラネットワークに接続し、電話の発着信を行う。

通信部２３は、通信回線（例えば無線ＬＡＮや携帯電話網）を介してネットワークにアクセスすることで、サーバ装置３０との通信を行う手段である。

セルラ通信部２４は、携帯電話網と通信を行う手段である。例えば、第３世代の音声通信方式（３Ｇ）を用いて通信を行うが、これ以外の通信方式を利用してもよい。例えば、第４世代以降のデータ通信方式（ＬＴＥ等）を介して通信を行ってもよい。
音声入出力部２５は、音声入出力部１１と同様に、ユーザが発した音声を取得し、かつ、音声を出力する手段である。音声入出力部２５は、例えば、スマートフォンに内蔵されたスピーカおよびマイクであってもよい。

サーバ装置３０は、制御装置２０から送信された音声を認識したうえで、ユーザに提供する応答文を生成する装置であり、通信部３１、音声認識部３２、応答生成部３３からなる。
通信部３１が有する機能は、前述した通信部２３と同様であるため、詳細な説明は省略する。

音声認識部３２は、ロボットが有する音声入出力部１１が取得した音声に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部３２には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部３３へ送信される。

応答生成部３３は、音声認識部３２から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ（対話辞書）に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。詳細な処理内容については後述する。
応答生成部３３が取得した情報は、制御装置２０へテキスト形式で送信され、その後、合成音声に変換され、ロボット１０を介してユーザに向けて出力される。

サーバ装置３０も、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

次に、ロボット１０と制御装置２０との間における情報の送受信方法について説明する。
ロボット１０と制御装置２０との間では、（１）ロボットから制御装置へ送信される音声データ、（２）制御装置からロボットへ送信される音声データの二種類のデータが送受信される。

本実施形態では、ロボット１０と制御装置２０との間でＢｌｕｅｔｏｏｔｈを用いた音声接続を行い、音声の送受信を行う。

図２は、ロボット１０と制御装置２０との接続シーケンスの一例である。なお、本例では、ロボット１０は、接続先として制御装置２０の情報を有しているものとする。すなわち、ペアリングが完了しているものとする。
両者が未接続状態にある場合、ロボット１０は、周期的に（例えば１秒周期で）制御装置２０を検索し、制御装置２０を発見すると、ＨＦＰ（Hands-Free Profile）による接続
を開始する（ステップＳ１１）。ＨＦＰとは、音声の伝送に特化したプロファイルであり、これを利用することで、双方向の音声伝送が可能になる。なお、本実施形態では、ロボット１０がＨＦＰにおけるハンズフリーユニットに対応し、制御装置２０がオーディオゲートウェイに対応する。

接続リクエストが制御装置２０によって受け入れられると、各種初期化処理が実行される（ステップＳ１２）。ここでは、ノイズリダクション機能の設定（ＮＲＥＣ）、スピーカ音量の設定（ＶＧＳ）、マイクゲイン設定（ＶＧＭ）などが行われる。なお、ＨＦＰによる初期化処理には若干の時間がかかるため、ロボット１０や制御装置２０が、平行して他の処理を行うようにしてもよい。ＨＦＰによる接続が完了すると、実際に音声を伝送するチャネルを設けるためのオーディオ接続を行い（ステップＳ１３）、これにより、ロボット１０と制御装置２０との間で音声チャネルが開通した状態となる。

ここで問題となるのが、制御装置２０は、ロボット１０の音声入出力部を利用して音声の入出力を行っている状態となるため、外部から電話が着信した場合に、ロボット１０から音声が流れてしまうという点である。例えば、ロボットとスマートフォンが音声接続されたままの状態で電話を受けてしまうと、相手方の声がロボットから出力されてしまい、ユーザに違和感を与えてしまう。

この問題を解決するため、第一の実施形態では、電話が着信した場合に、制御部２２が、ロボット１０と制御装置２０との間のオーディオ接続を解除し、通話が終了した後で、ロボット１０とのオーディオ接続を再度確立する。

図３は、第一の実施形態における、ロボット１０と制御装置２０との接続シーケンス図である。図示したように、本実施形態では、制御装置２０が外部から着信を受けた場合に、ステップＳ１３で行ったオーディオ接続を解除する（ステップＳ１４）。これにより、音声入出力部１１を介して行われていた音声入出力が、音声入出力部２５を介して行われるようになる。すなわち、スマートフォン本体のスピーカおよびマイクを利用して通話ができるようになる。

通話が終了すると、制御部２２が、ロボット１０に対して通話終了通知（本発明における第二の通知）を送信し（ステップＳ１５）、これを検知したロボット１０が、再度オーディオ接続を行う（ステップＳ１６）。

次に、音声対話処理について、処理内容およびデータの流れを説明するフロー図である図４を参照しながら説明する。

まず、ステップＳ２１で、ロボット１０が有する音声入出力部１１が、マイクを通してユーザが発話した音声を取得する。取得した音声は音声データに変換され、通信部を介して、制御装置２０が有する制御部２２へ送信される。また、制御部２２は、取得した音声データを、サーバ装置３０が有する音声認識部３２へ送信する。

次に、音声認識部３２が、取得した音声データに対して音声認識を行い、テキストに変換する（ステップＳ２２）。音声認識の結果得られたテキストは、応答生成部３３へ送信される。次に、応答生成部３３が、ユーザから得られた発話の内容に基づいて応答を生成する（ステップＳ２３）。

前述したように、応答文は、自装置が有する対話辞書（対話シナリオ）を用いて生成してもよいし、外部にある情報ソース（データベースサーバやウェブサーバ）を用いて生成してもよい。生成された応答文は、制御装置２０へ送信され、制御部２２によって音声デ
ータに変換される（ステップＳ２４）。音声データはロボット１０へ送信され、音声データの再生が行われる（ステップＳ２５）。

以上説明したように、本実施形態に係る制御装置２０は、ロボット１０との間でオーディオ接続が確立している状態で外部から着信があった場合に、オーディオ接続を解除し、通話が終了したのちに、通話終了通知を送信することでロボット１０に再度オーディオ接続を確立させる。
かかる構成によると、ユーザとの音声対話中に電話が着信し、ロボットから相手方の音声が出力されてしまうことを防ぐことができる。

（第二の実施形態）
第一の実施形態では、着信があった場合に制御装置２０がオーディオ接続を解除したが、ロボット１０の側からオーディオ接続を解除するようにしてもよい。図５は、第二の実施形態における、ロボット１０と制御装置２０との接続シーケンス図である。
第二の実施形態では、着信があった場合に、制御装置２０からロボット１０へ着信通知（本発明における第一の通知）が送信される（ステップＳ１４１）。当該通知は、ＨＦＰ接続を行っている場合、ミドルウェアによって自動的に送信されるが、着信通知はＨＦＰ接続以外のプロファイルを介して送信してもよい。そして、ロボット１０が、当該着信通知を検知した場合にオーディオ接続を解除する（ステップＳ１４３）。

このように、ロボット１０が主体となってオーディオ接続の解除および再確立を行うようにしてもよい。着信通知をロボット１０に送信することで、制御装置２０に対して着信があったことをロボット１０が把握することができ、音声の経路をスムーズに切り替えることができる。

（第三の実施形態）
第二の実施形態では、制御部２２が、通話が終了したことを検知して、ロボット１０に対して通話終了通知を送信した。しかし、制御装置２０が、着信に起因してオーディオ接続が解除されたことを検知できない場合、通話終了通知を送信すべきか否かが正しく判断できなくなるケースが発生する。

そこで、第三の実施形態では、ステップＳ１４１にて着信通知が送信された際に、ロボット１０が一旦拒否通知を送信し（ステップＳ１４２）、その後、オーディオ接続を解除する。
また、制御装置２０は、通話が終了した場合であって、直近に拒否通知を受信していた場合に、通話終了通知を送信する。
第三の実施形態によると、制御装置２０が、着信に起因してオーディオ接続が解除されたことを把握できるようになる。

（変形例）
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。

例えば、実施形態の説明では、サーバ装置３０が音声認識を行ったが、音声認識を行う手段を制御装置２０に持たせてもよい。また、実施形態の説明では、応答文の生成を対話サーバ２０で行ったが、応答文の生成を制御装置２０が行うようにしてもよい。

また、実施形態の説明では、制御装置２０に対して外部から着信があった場合を例示したが、音声通話に関するトリガ（着信および通話終了）以外によってオーディオ接続を切り替えてもよい。例えば、音声入出力を必要とするアプリケーションが、音声の入出力を
要求した場合に、ロボット１０とのオーディオ接続を解除してもよい。この場合、当該アプリケーションにおける音声の入出力が不要となった場合に、オーディオ接続を回復させるようにしてもよい。また、このようなアプリケーションが制御部２２で実行されるように構成してもよい。

１０・・・ロボット
１１・・・音声入出力部
１２，２１・・・近距離通信部
２０・・・制御装置
２２・・・制御部
２３，３１・・・通信部
２４・・・セルラ通信部
２５・・・音声入出力部
３０・・・サーバ装置
３２・・・音声認識部
３３・・・応答生成部

Claims

第一の音声入出力デバイスを有する情報処理装置と、第二の音声入出力デバイスを有し、近距離無線通信を介して前記情報処理装置とオーディオ接続する音声インタフェース装置と、を含む音声対話システムであって、
前記情報処理装置は、
前記第一の音声入出力デバイスまたは第二の音声入出力デバイスを用いて音声の入出力を行う音声入出力手段と、
ユーザとの音声対話を行う対話手段と、
音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、
を有し、
前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替える、
音声対話システム。
前記処理手段は、無線通信網を介して音声通話を行う手段である、
請求項１に記載の音声対話システム。
前記情報処理装置および前記音声インタフェース装置間は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格の音声プロファイルを利用して接続される、
請求項１または２に記載の音声対話システム。
前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、
前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記情報処理装置とのオーディオ接続を解除する、
請求項３に記載の音声対話システム。
前記処理手段は、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信し、
前記音声インタフェース装置は、前記第二の通知を受信した場合に、前記情報処理装置とのオーディオ接続を回復させる、
請求項１から４のいずれかに記載の音声対話システム。
前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、
前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記処理手段に対して拒否応答を送信したうえで、前記情報処理装置とのオーディオ接続を解除する、
請求項３に記載の音声対話システム。
前記処理手段は、前記拒否応答を受信し、前記オーディオ接続が解除された場合において、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信することで前記オーディオ接続を回復させる、
請求項６に記載の音声対話システム。
第一の音声入出力デバイスと、
前記第一の音声入出力デバイス、または、近距離無線通信を介して接続された音声インタフェース装置が有する第二の音声入出力デバイス、のいずれかを用いて音声の入出力を行う音声入出力手段と、
ユーザとの音声対話を行う対話手段と、
音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、
を有し、
前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替える、
情報処理装置。