JP2018036849A

JP2018036849A - 音声対話システムおよび音声対話方法

Info

Publication number: JP2018036849A
Application number: JP2016169416A
Authority: JP
Inventors: 池野　篤司; Tokuji Ikeno; 篤司池野; 宗明島田; Muneaki Shimada; 浩太畠中; Kota HATANAKA; 西島　敏文; Toshifumi Nishijima; 敏文西島; 史憲片岡; Fuminori Kataoka; 刀根川　浩巳; Hiromi Tonegawa; 浩巳刀根川; 倫秀梅山; Norihide Umeyama
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2018-03-08
Anticipated expiration: 2036-08-31
Also published as: JP6583193B2

Abstract

【課題】ロボットと制御装置からなる音声対話システムにおいて、リアルタイム性を向上させる。【解決手段】ロボットと、制御装置と、からなる音声対話システムであって、前記ロボットは、可動部と、音声入出力手段と、を有し、前記制御装置は、前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得手段と、前記応答文を音声に変換し、前記ロボットを介して出力する音声送信手段と、前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御手段と、を有し、前記ロボットと前記制御装置との間は、音声を伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続される。【選択図】図１

Description

本発明は、音声によって人と対話する音声対話システムに関する。

近年、人と対話をすることによって様々な情報を提供するロボットが開発されている。例えば、特許文献１には、マイクによって入力された音声をネットワーク上で処理し、入力に対する応答を音声で返すコミュニケーションロボットが開示されている。

特許文献１に記載のシステムでは、対話サーバが音声を生成すると同時に、ロボットの動作を決定し、音声と、ロボットの動きを表すデータ（モーションデータ）を当該ロボットに送信している。これにより、ロボットに対して、関節などの可動部を動かしてアクションをさせることができるようになる。

特開２０１５−０１３３５１号公報特開２０１１−２２７２３６号公報特開２０１４−１９１０３０号公報

ロボットに対して、音声の出力と機械的な動作を同時にさせようとした場合、音声と動作をどのように同期させるかという課題がある。例えば、単一の通信チャネルを用いて音声データとモーションデータを送信する場合、どちらかのデータが遅れて到着するため、何らかの方法によって同期を取る必要がある。
特許文献１には、通信ネットワーク経由で音声データとモーションデータを送信することが記載されているが、音声と動作の同期方法は記載されていない。

本発明は上記の課題を考慮してなされたものであり、ロボットと制御装置からなる音声対話システムにおいて、リアルタイム性を向上させることを目的とする。

本発明に係る音声対話システムは、ロボットと、制御装置とからなるシステムである。
具体的には、前記ロボットは、可動部と、音声入出力手段と、を有し、前記制御装置は、前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得手段と、前記応答文を音声に変換し、前記ロボットを介して出力する音声送信手段と、前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御手段と、を有し、前記ロボットと前記制御装置との間は、音声を伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続されることを特徴とする。

本発明に係るロボットは、音声入出力機能と可動部を有する対話インタフェースである。また、制御装置は、ロボットを介してユーザから発せられた音声を取得し、当該音声に対する応答である音声を生成し、ロボットを介して出力する装置である。また、制御装置は、当該応答文に基づいて駆動命令を生成し、当該駆動命令をロボットに送信することで、ロボットを駆動させる。これにより、音声を出力しながら、音声の内容に沿ったリアクションをロボットに行わせることができる。
なお、応答文の生成は、制御装置自体が行ってもよいし、外部装置（対話サーバ）を利用して行ってもよい。後者の場合、ロボットを介して取得した音声を対話サーバに送信し、対話サーバが当該音声の認識および応答文の生成を行うようにしてもよい。

また、本発明では、ロボットと制御装置の間が、音声を伝送する音声チャネルと、駆動命令を伝送するデータチャネルの二つによって接続される。音声チャネルは、音声の伝送に特化したチャネルであり、データチャネルは、駆動命令の伝送に特化したチャネルである。このように、データ量やデータの特性に応じたチャネルで送信することで、効率的にデータを送信することができる。また、音声データと駆動命令を同時に伝送することができるため、リアルタイム性が向上し、音声と動作の同期を容易に取ることができる。

また、前記音声の伝送および前記駆動命令の伝送のいずれかが不要である場合に、前記音声チャネルまたはデータチャネルの接続を省略する、または、いずれかのチャネルを休止することを特徴としてもよい。

例えば、音声の伝送のみを行いたい場合や、駆動命令の伝送のみを行いたい場合、利用しない側の接続自体を省略するか、対応するチャネルのデバイスを休止（スリープ）させることで、消費電力を抑えることができる。

また、前記音声チャネルおよび前記データチャネルは、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格によって接続され、かつ、前記音声チャネルは、音声通信用のプロファイルを利用して接続されることを特徴としてもよい。

ロボットと制御装置は、互いにペアリングされた状態で近距離通信を行うため、Ｂｌｕｅｔｏｏｔｈによる接続が適している。また、制御装置にスマートフォンなどを用いることができ、かつ、消費電力を抑えることができるという利点がある。また、音声通信用のプロファイルを利用することで、遅延の少ない発話をさせることができる。

また、前記音声通信用のプロファイルは、ハンズフリープロファイル（ＨＦＰ）であることを特徴としてもよい。

ハンズフリープロファイル（ＨＦＰ）は、携帯電話やヘッドセット間などで用いられる、電話の発着信や通話を行うためのプロファイルである。当該プロファイルを利用することで、双方向の音声通信を行うことができる。

また、前記制御装置は、前記音声チャネルの接続を、前記データチャネルの接続よりも先に行うことを特徴としてもよい。

一般的に、音声チャネルを接続する際の初期化処理は、データチャネルを接続する際の初期化処理よりも時間がかかる。そこで、音声チャネルの接続処理を先行して開始することで、全体の処理時間を短くすることができる。

また、前記データチャネルは、ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ規格によって接続されることを特徴としてもよい。

データ通信用のチャネルとして、ＢＬＥを利用することで、消費電力を抑え、ロボットの連続動作時間を長くすることができる。

また、前記データチャネルは、データ通信用のプロファイルを利用して接続されることを特徴としてもよく、前記データ通信用のプロファイルは、シリアルポートプロファイル
（ＳＰＰ）であることを特徴としてもよい。

このように、データ通信に特化したプロファイルを利用してデータ通信を行うようにしてもよい。

また、前記ロボットと前記制御装置は、前記音声チャネルと前記データチャネルの双方が接続されたことを条件として通信を開始することを特徴としてもよい。

音声チャネルとデータチャネルのどちらかが接続されていない場合、音声入出力や可動部の動作を行うことができない。そこで、双方が接続されて初めて通信を可能にすることが好ましい。

また、本発明に係る音声対話システムは、
音声を認識する音声認識手段と、前記認識した音声に基づいて応答文を生成する応答文生成手段と、を有する対話サーバをさらに有する音声対話システムであって、前記応答文取得手段は、前記取得した音声を前記対話サーバに送信し、前記音声認識手段および前記応答文生成手段を用いて前記応答文を取得することを特徴としてもよい。

かかる構成によると、音声認識や応答文の取得といった、計算量が必要となる処理を対話サーバに行わせることができる。これにより、スマートフォンやモバイルコンピュータなど、小型のコンピュータを制御装置として利用することができるようになる。

また、前記制御装置は、応答文の生成において利用可能な情報である付加情報を取得する付加情報取得手段をさらに有し、前記応答文生成手段は、前記付加情報にさらに基づいて前記応答文を生成することを特徴としてもよい。
また、前記付加情報は、前記制御装置の位置情報であることを特徴としてもよい。

制御装置が取得した付加情報をさらに用いて応答文を生成することで、バリエーションに富んだ応答を生成することができる。なお、付加情報とは、制御装置が取得することができる情報であれば、どのようなものであってもよい。例えば、物理量を検知するセンサから取得した情報であってもよいし、制御装置の位置情報であってもよい。また、時刻情報などであってもよい。

また、前記ロボットは、画像を取得する画像取得手段をさらに有し、前記応答文生成手段は、前記ロボットが取得した画像にさらに基づいて前記応答文を生成することを特徴としてもよい。

例えば、取得した画像に基づいて、ユーザ個人、当該ユーザの表情、顔や視線の方向などを識別し、識別した情報をさらに用いて応答文を生成するようにしてもよい。かかる構成によると、より人間味のあるコミュニケーションを行うことができる。

なお、本発明は、上記手段の少なくとも一部を含む音声対話システムとして特定することができる。また、前記音声対話システムが行う音声対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

本発明によれば、ロボットと制御装置からなる音声対話システムにおいて、リアルタイム性を向上させることができる。

第一の実施形態に係る音声対話システムのシステム構成図である。ロボット１０を説明する図である。ロボット１０と制御装置２０との接続を説明する図である。ロボット１０、制御装置２０、サーバ装置３０間のデータフロー図である。第二の実施形態に係る音声対話システムのシステム構成図である。第三の実施形態に係る音声対話システムのシステム構成図である。

以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。

（第一の実施形態）
<システム構成>
図１は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット１０と、制御装置２０と、サーバ装置３０から構成される。

ロボット１０は、スピーカやマイク、カメラ等を有しており、ユーザとのインタフェースを担う手段である。ロボット１０は、人型やキャラクター型であってもよいし、他の形状であってもよい。
制御装置２０は、ロボット１０に対して命令を発行する装置である。また、サーバ装置３０は、制御装置２０から送信された要求に応じて、ユーザに提供する応答（応答文）を生成する装置である。
本実施形態では、ロボット１０はユーザインタフェースとしてのみ機能し、発話内容の認識、応答文の生成、その他の処理など、システム全体を制御する処理は制御装置２０およびサーバ装置３０が行う。

まず、ロボット１０について説明する。
ロボット１０は、音声入力部１１、近距離通信部１２、音声出力部１３、動作制御部１４から構成される。

音声入力部１１は、ユーザが発した音声を取得する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号（以下、音声データ）に変換する。取得した音声データは、後述する近距離通信部１２を介して制御装置２０へ送信される。

近距離通信部１２は、制御装置２０と近距離無線通信を行う手段である。本実施形態では、近距離通信部１２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格を利用して通信を行う。近距離通信部１２は、ペアリング先となる制御装置２０に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Ｂｌｕｅｔｏｏｔｈ規格は、ＩＥＥＥ８０２．１５．１とも呼ばれる。

音声出力部１３は、ユーザに提供する音声を出力する手段である。具体的には、内蔵されたスピーカを用いて、制御装置２０から送信された音声データを音声に変換する。

動作制御部１４は、ロボット１０が有する複数の可動部に内蔵されたアクチュエータを駆動させることで、ロボット１０の動作を制御する手段である。具体的には、制御装置２０から送信された命令に基づいて、例えば手、肩、肘、足などの関節に配置されたアクチュエータを駆動させることで、ロボット１０に所定のリアクションをさせる。
また、動作制御部１４は、アクチュエータの動作定義（どのような命令に対して、どのアクチュエータをどのように動かすか）を記憶しており、制御装置２０から送信された命令に基づいてアクチュエータを駆動させる。
なお、可動部は、例えば図２で示したように、関節ごとに設けられてもよいし、車輪など、関節以外の箇所に設けられてもよい。
また、ロボット１０が行うリアクションは、可動部以外を用いたものであってもよい。例えば、光（ライト）の明滅などによって行ってもよい。

次に、制御装置２０について説明する。制御装置２０は、ロボット１０の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置２０は、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

制御装置２０は、近距離通信部２１、制御部２２、通信部２３から構成される。

近距離通信部２１が有する機能は、前述した近距離通信部１２と同様であるため、詳細な説明は省略する。

制御部２２は、ロボット１０から音声を取得し、当該取得した音声に対する応答を取得する手段である。具体的には、ロボット１０から取得した音声を、通信部２３を介してサーバ装置３０（いずれも後述）に送信し、対応する応答文をサーバ装置３０から受信する。また、音声合成機能によって、応答文を音声データに変換し、ロボット１０に送信する。また、ロボット１０に送信された音声は、音声出力部１３を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。

また、制御部２２は、取得した応答文に基づいてロボットの駆動命令を生成し、ロボット１０に送信する。これにより、発話に合わせてロボットがリアクションを行えるようになる。駆動命令の生成は、例えば、応答文を分類した結果に基づいて行うことができる。例えば、サーバ装置３０が応答文を生成する際に、応答の種別を表すデータを付加し、当該種別に基づいて駆動命令を生成してもよい。また、応答の種別は、制御部２２が応答文を解析することで取得してもよい。
応答の種別は、例えば、喜怒哀楽などの擬似的な感情別に設けられたものであってもよいし、「出会い」「別れ」「回答」「共感」「質問」など、会話のシーンや発話の種別ごとに分類されたものであってもよい。応答の種別に対応する駆動命令は、制御部２２が予め記憶している。

通信部２３は、通信回線（例えば無線ＬＡＮや携帯電話網）を介してネットワークにアクセスすることで、サーバ装置３０との通信を行う手段である。

サーバ装置３０は、送信された音声を認識したうえで、ユーザに提供する応答文を生成する装置であり、通信部３１、音声認識部３２、応答生成部３３からなる。
通信部３１が有する機能は、前述した通信部２３と同様であるため、詳細な説明は省略する。

音声認識部３２は、ロボットが有する音声入力部１１が取得した音声に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部３２には、音響モデルと認識辞書が記憶されており、取得した
音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部３３へ送信される。

応答生成部３３は、音声認識部３２から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ（対話辞書）に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。詳細な処理内容については後述する。
応答生成部３３が取得した情報は、制御装置２０へテキスト形式で送信され、その後、合成音声に変換され、ロボット１０を介してユーザに向けて出力される。

サーバ装置３０も、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

<ロボットと制御装置間の接続>
次に、ロボット１０と制御装置２０との間における情報の送受信方法について説明する。
ロボット１０と制御装置２０との間では、（１）ロボットから制御装置へ送信される音声データ、（２）制御装置からロボットへ送信される音声データ、（３）制御装置からロボットへ送信される駆動命令の三種類のデータが送受信される。

ここで問題となるのが、音声データと駆動命令の同期である。例えば、音声データの伝送と、駆動命令の伝送に同一のチャネルを使用した場合、それぞれが異なるタイミングで送信されるため、開始タイミング（音声の再生開始タイミングおよび動作開始タイミング）にずれが生じてしまう。また、このずれを同期させようとした場合、タイミングを取るためのデータを付加する必要がある。
そこで、本実施形態では、ロボット１０と制御装置２０との間でＢｌｕｅｔｏｏｔｈ接続による二つのコネクションを張り、音声と駆動命令を同時に送信する。

図３は、ロボット１０と制御装置２０との接続シーケンス図である。なお、本例では、ロボット１０は、接続先として制御装置２０の情報を有しているものとする。すなわち、ペアリングが完了しているものとする。
両者が未接続状態にある場合、ロボット１０は、周期的に（例えば１秒周期で）制御装置２０を検索し、制御装置２０を発見すると、ＨＦＰ（Hands-Free Profile）による接続を開始する。ＨＦＰとは、音声の伝送に特化したプロファイルであり、これを利用することで、双方向の音声伝送が可能になる。なお、本実施形態では、ロボット１０がＨＦＰにおけるハンズフリーユニットに対応し、制御装置２０がオーディオゲートウェイに対応する。

接続リクエストが制御装置２０によって受け入れられると、各種初期化処理が実行される。ここでは、ノイズリダクション機能の設定（ＮＲＥＣ）、スピーカ音量の設定（ＶＧＳ）、マイクゲイン設定（ＶＧＭ）などが行われる。なお、ＨＦＰによる初期化処理には若干の時間がかかるため、ロボット１０や制御装置２０が、平行して他の処理を行うようにしてもよい。初期化処理が終了すると、ロボット１０と制御装置２０との間の音声チャネルが開通した状態となる。

次に、ＢＬＥ（Bluetooth Low Energy）によってデータチャネルを設ける処理を行う。
ＢＬＥでは、サービスを提供するデバイスが、周囲に存在を知らせる処理（アドバタイズ）を行い、これを検知したデバイスが接続を行うという特徴を有している。
本実施形態では、ＨＦＰによる接続が完了した後、ロボット１０がアドバタイズ動作（アドバタイズパケットの送信）を開始する。また、制御装置２０が、ＢＬＥ接続を行うためのスキャン動作を開始する。

制御装置２０が、ロボット１０から送信されたアドバタイズパケットを検知すると、接続要求を発行し、初期化処理が開始される。
本実施形態では、このように、ＨＦＰによる接続をまず行い、接続が完了したタイミングでＢＬＥによる接続処理に移行する。このようにすることで、接続相手の特定が容易になり、音声チャネルおよびデータチャネルの二本のコネクションを自動的に張ることができるようになる。

<処理フローチャート>
次に、図１に示した各手段が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図４を参照しながら説明する。

まず、ステップＳ１１で、ロボット１０が有する音声入力部１１が、マイクを通してユーザが発話した音声を取得する。取得した音声は音声データに変換され、通信部を介して、制御装置２０が有する制御部２２へ送信される。また、制御部２２は、取得した音声データを、サーバ装置３０が有する音声認識部３２へ送信する。

次に、音声認識部３２が、取得した音声データに対して音声認識を行い、テキストに変換する（ステップＳ１２）。音声認識の結果得られたテキストは、応答生成部３３へ送信される。次に、応答生成部３３が、ユーザから得られた発話の内容に基づいて応答を生成する（ステップＳ１３）。

前述したように、応答文は、自装置が有する対話辞書（対話シナリオ）を用いて生成してもよいし、外部にある情報ソース（データベースサーバやウェブサーバ）を用いて生成してもよい。生成された応答文は、制御装置２０へ送信され、制御部２２によって音声データに変換される（ステップＳ１４）。

ステップＳ１５では、制御部２２が、取得した応答文に基づいて、駆動命令を生成する。音声データと駆動命令は、同一のタイミングでロボット１０へ送信され、音声データの再生と駆動が同時に行われる（ステップＳ１６）。

以上説明したように、本実施形態に係る音声対話システムは、ＨＦＰによる接続を用いて音声の伝送を行う。これにより、双方向での音声の伝送をリアルタイムに行うことができる。また、同時に、ＢＬＥによる接続を用いて駆動命令の伝送を行う。音声と比較して通信速度が要求されないデータ通信にＢＬＥを用いることで、消費電力を抑えることができる。ＢＬＥは、通信速度が遅いかわりにデータの自由度が制限されないため、駆動命令の伝送に好適である。
また、音声データと駆動命令の伝送が同時に行われるため、同期をとらなくてもよいという利点がある。

なお、第一の実施形態では、ＢＬＥを用いて駆動命令を伝送したが、データ通信用のプロファイルを利用してもよい。例えば、ＳＰＰ（Serial Port Profile）などを利用する
ことも可能である。

（第二の実施形態）
第二の実施形態は、ロボット１０が撮像手段を有しており、ロボット１０が撮像した画像にさらに基づいて応答を生成する実施形態である。図５は、第二の実施形態に係る音声
対話システムのシステム構成図である。
第二の実施形態では、ロボット１０が画像取得部１５を有している。画像取得部１５は、内蔵されたカメラを用いて、音声入力部１１が音声を取得するタイミングで画像を取得し、当該画像を音声とともに制御装置２０に送信する。

また、第二の実施形態では、制御部２２が、取得した画像を特徴量に変換し、分類を行ったうえで、当該分類結果をサーバ装置３０に送信し、応答生成部３３が、当該分類結果にさらに基づいて応答を生成する。
例えば、制御部２２が、得られた特徴量に基づいてユーザ個人を識別し、応答生成部３３が、当該識別結果を用いて応答を生成する。これにより、パーソナライズされた応答文を生成することができる。なお、本例ではユーザ個人を識別する例を挙げたが、画像に基づいて分類可能なものであれば、どのような分類を行ってもよい。例えば、ユーザの感情やユーザの顔の向きを推定し、推定結果に基づいて応答文を生成してもよい。

なお、第二の実施形態では、ロボット１０と制御装置２０との間で画像を伝送する必要がある。そのため、画像伝送用のチャネルを別途設けてもよい。なお、駆動命令を送信するためのチャネルと、画像伝送用のチャネルを兼用してもよい。ただし、画像の伝送を行う場合、通信速度を確保するため、ＢＬＥではなく、ＳＰＰ（Serial Port Profile）な
どのプロファイルを用いることが好ましい。また、ＢＩＰ（Basic Printing Profile）やＢＰＰ（Basic Printing Profile）などの画像伝送用のプロファイルを用いてもよい。

（第三の実施形態）
第三の実施形態は、制御装置２０が、応答文の生成において利用できる付加的な情報（付加情報）を取得し、サーバ装置３０が、当該付加情報にさらに基づいて応答を生成する実施形態である。図６は、第二の実施形態に係る音声対話システムのシステム構成図である。
本実施形態では、制御装置２０が情報取得部２４を有しており、ロボット１０から音声データを取得したタイミングで、情報取得部２４が付加情報を取得する。付加情報とは、例えば、現在日時、制御装置の位置情報、気候に関する情報などであるが、話題として利用できる情報であれば、これらに限られない。

また、第三の実施形態では、制御部２２が、取得した付加情報をサーバ装置３０に送信し、応答生成部３３が、当該付加情報にさらに基づいて応答を生成する。
例えば、制御装置２０の現在位置がユーザの自宅にないことを検知し、その旨を話題としてもよい。また、降水量や天候の情報に基づいて、天気の話題を生成してもよい。また、時間帯ごとに応答文を変えてもよい。
第三の実施形態によると、制御装置２０によって取得された付加的な情報を用いて応答文を生成するため、応答文のバリエーションを広げることができる。

（変形例）
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。

例えば、実施形態の説明では、サーバ装置３０が音声認識を行ったが、音声認識を行う手段を制御装置２０に持たせてもよい。また、実施形態の説明では、応答文の生成を対話サーバ２０で行ったが、応答文の生成を制御装置２０が行うようにしてもよい。また、実施形態の説明では、応答文に基づいて制御装置２０が駆動命令を生成したが、駆動命令の生成をサーバ装置３０が行うようにしてもよい。

また、実施形態の説明では、近距離通信部１２および２１が、ＨＦＰによる接続と、Ｂ
ＬＥによる接続の双方を行ったが、プロファイルごとにハードウェアを分けてもよい。
また、音声接続とデータ接続の片方について、無線ＬＡＮなどの他の接続方式を用いるようにしてもよい。

また、実施形態の説明では、ＨＦＰによる接続と、ＢＬＥによる接続の双方を行ったが、どちらかの接続を省略することも可能である。例えば、音声出力は行わずに動作のみを行わせたい場合や、動作を行わずに音声出力のみをさせたい場合、片方のチャネルを接続しなくてもよい。これにより、利用していないチャネルのデバイスを休止させ、消費電力を抑えることができる。

１０・・・ロボット
１１・・・音声入力部
１２，２１・・・近距離通信部
１３・・・音声出力部
１４・・・動作制御部
２０・・・制御装置
２２・・・制御部
２３，３１・・・通信部
３０・・・サーバ装置
３２・・・音声認識部
３３・・・応答生成部

Claims

ロボットと、制御装置と、からなる音声対話システムであって、
前記ロボットは、
可動部と、音声入出力手段と、を有し、
前記制御装置は、
前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得手段と、
前記応答文を音声に変換し、前記ロボットを介して出力する音声送信手段と、
前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御手段と、
を有し、
前記ロボットと前記制御装置との間は、音声を伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続される、
音声対話システム。
前記音声の伝送および前記駆動命令の伝送のいずれかが不要である場合に、前記音声チャネルまたはデータチャネルの接続を省略する、または、いずれかのチャネルを休止する、
請求項１に記載の音声対話システム。
前記音声チャネルおよび前記データチャネルは、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格によって接続され、かつ、前記音声チャネルは、音声通信用のプロファイルを利用して接続される、
請求項１または２に記載の音声対話システム。
前記音声通信用のプロファイルは、ハンズフリープロファイル（ＨＦＰ）である、
請求項３に記載の音声対話システム。
前記制御装置は、前記音声チャネルの接続を、前記データチャネルの接続よりも先に行う、
請求項３または４に記載の音声対話システム。
前記データチャネルは、ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ規格によって接続される、
請求項３から５のいずれかに記載の音声対話システム。
前記データチャネルは、データ通信用のプロファイルを利用して接続される、
請求項３から５のいずれかに記載の音声対話システム。
前記データ通信用のプロファイルは、シリアルポートプロファイル（ＳＰＰ）である、
請求項７に記載の音声対話システム。
前記ロボットと前記制御装置は、前記音声チャネルと前記データチャネルの双方が接続されたことを条件として通信を開始する、
請求項１から８のいずれかに記載の音声対話システム。
音声を認識する音声認識手段と、
前記認識した音声に基づいて応答文を生成する応答文生成手段と、を有する対話サーバをさらに有する音声対話システムであって、
前記応答文取得手段は、前記取得した音声を前記対話サーバに送信し、前記音声認識手段および前記応答文生成手段を用いて前記応答文を取得する、
請求項１から９のいずれかに記載の音声対話システム。
前記制御装置は、応答文の生成において利用可能な情報である付加情報を取得する付加情報取得手段をさらに有し、
前記応答文生成手段は、前記付加情報にさらに基づいて前記応答文を生成する、
請求項１０に記載の音声対話システム。
前記付加情報は、前記制御装置の位置情報である、
請求項１１に記載の音声対話システム。
前記ロボットは、画像を取得する画像取得手段をさらに有し、
前記応答文生成手段は、前記ロボットが取得した画像にさらに基づいて前記応答文を生成する、
請求項１０から１２のいずれかに記載の音声対話システム。
可動部と音声入出力手段を有するロボットと、制御装置と、を用いた音声対話方法であって、
前記制御装置が、
前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得ステップと、
前記応答文を音声に変換し、前記ロボットを介して出力する音声送信ステップと、
前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御ステップと、を実行し、
前記ロボットと前記制御装置との間は、音声を伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続される、
音声対話方法。