JP2018036849A - 音声対話システムおよび音声対話方法 - Google Patents

音声対話システムおよび音声対話方法 Download PDF

Info

Publication number
JP2018036849A
JP2018036849A JP2016169416A JP2016169416A JP2018036849A JP 2018036849 A JP2018036849 A JP 2018036849A JP 2016169416 A JP2016169416 A JP 2016169416A JP 2016169416 A JP2016169416 A JP 2016169416A JP 2018036849 A JP2018036849 A JP 2018036849A
Authority
JP
Japan
Prior art keywords
voice
robot
response sentence
control device
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016169416A
Other languages
English (en)
Other versions
JP6583193B2 (ja
Inventor
池野 篤司
Tokuji Ikeno
篤司 池野
宗明 島田
Muneaki Shimada
宗明 島田
浩太 畠中
Kota HATANAKA
浩太 畠中
西島 敏文
Toshifumi Nishijima
敏文 西島
史憲 片岡
Fuminori Kataoka
史憲 片岡
刀根川 浩巳
Hiromi Tonegawa
浩巳 刀根川
倫秀 梅山
Norihide Umeyama
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016169416A priority Critical patent/JP6583193B2/ja
Publication of JP2018036849A publication Critical patent/JP2018036849A/ja
Application granted granted Critical
Publication of JP6583193B2 publication Critical patent/JP6583193B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)

Abstract

【課題】ロボットと制御装置からなる音声対話システムにおいて、リアルタイム性を向上させる。【解決手段】ロボットと、制御装置と、からなる音声対話システムであって、前記ロボットは、可動部と、音声入出力手段と、を有し、前記制御装置は、前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得手段と、前記応答文を音声に変換し、前記ロボットを介して出力する音声送信手段と、前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御手段と、を有し、前記ロボットと前記制御装置との間は、音声を伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続される。【選択図】図1

Description

本発明は、音声によって人と対話する音声対話システムに関する。
近年、人と対話をすることによって様々な情報を提供するロボットが開発されている。例えば、特許文献1には、マイクによって入力された音声をネットワーク上で処理し、入力に対する応答を音声で返すコミュニケーションロボットが開示されている。
特許文献1に記載のシステムでは、対話サーバが音声を生成すると同時に、ロボットの動作を決定し、音声と、ロボットの動きを表すデータ(モーションデータ)を当該ロボットに送信している。これにより、ロボットに対して、関節などの可動部を動かしてアクションをさせることができるようになる。
特開2015−013351号公報 特開2011−227236号公報 特開2014−191030号公報
ロボットに対して、音声の出力と機械的な動作を同時にさせようとした場合、音声と動作をどのように同期させるかという課題がある。例えば、単一の通信チャネルを用いて音声データとモーションデータを送信する場合、どちらかのデータが遅れて到着するため、何らかの方法によって同期を取る必要がある。
特許文献1には、通信ネットワーク経由で音声データとモーションデータを送信することが記載されているが、音声と動作の同期方法は記載されていない。
本発明は上記の課題を考慮してなされたものであり、ロボットと制御装置からなる音声対話システムにおいて、リアルタイム性を向上させることを目的とする。
本発明に係る音声対話システムは、ロボットと、制御装置とからなるシステムである。
具体的には、前記ロボットは、可動部と、音声入出力手段と、を有し、前記制御装置は、前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得手段と、前記応答文を音声に変換し、前記ロボットを介して出力する音声送信手段と、前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御手段と、を有し、前記ロボットと前記制御装置との間は、音声を伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続されることを特徴とする。
本発明に係るロボットは、音声入出力機能と可動部を有する対話インタフェースである。また、制御装置は、ロボットを介してユーザから発せられた音声を取得し、当該音声に対する応答である音声を生成し、ロボットを介して出力する装置である。また、制御装置は、当該応答文に基づいて駆動命令を生成し、当該駆動命令をロボットに送信することで、ロボットを駆動させる。これにより、音声を出力しながら、音声の内容に沿ったリアクションをロボットに行わせることができる。
なお、応答文の生成は、制御装置自体が行ってもよいし、外部装置(対話サーバ)を利用して行ってもよい。後者の場合、ロボットを介して取得した音声を対話サーバに送信し、対話サーバが当該音声の認識および応答文の生成を行うようにしてもよい。
また、本発明では、ロボットと制御装置の間が、音声を伝送する音声チャネルと、駆動命令を伝送するデータチャネルの二つによって接続される。音声チャネルは、音声の伝送に特化したチャネルであり、データチャネルは、駆動命令の伝送に特化したチャネルである。このように、データ量やデータの特性に応じたチャネルで送信することで、効率的にデータを送信することができる。また、音声データと駆動命令を同時に伝送することができるため、リアルタイム性が向上し、音声と動作の同期を容易に取ることができる。
また、前記音声の伝送および前記駆動命令の伝送のいずれかが不要である場合に、前記音声チャネルまたはデータチャネルの接続を省略する、または、いずれかのチャネルを休止することを特徴としてもよい。
例えば、音声の伝送のみを行いたい場合や、駆動命令の伝送のみを行いたい場合、利用しない側の接続自体を省略するか、対応するチャネルのデバイスを休止(スリープ)させることで、消費電力を抑えることができる。
また、前記音声チャネルおよび前記データチャネルは、Bluetooth(登録商標)規格によって接続され、かつ、前記音声チャネルは、音声通信用のプロファイルを利用して接続されることを特徴としてもよい。
ロボットと制御装置は、互いにペアリングされた状態で近距離通信を行うため、Bluetoothによる接続が適している。また、制御装置にスマートフォンなどを用いることができ、かつ、消費電力を抑えることができるという利点がある。また、音声通信用のプロファイルを利用することで、遅延の少ない発話をさせることができる。
また、前記音声通信用のプロファイルは、ハンズフリープロファイル(HFP)であることを特徴としてもよい。
ハンズフリープロファイル(HFP)は、携帯電話やヘッドセット間などで用いられる、電話の発着信や通話を行うためのプロファイルである。当該プロファイルを利用することで、双方向の音声通信を行うことができる。
また、前記制御装置は、前記音声チャネルの接続を、前記データチャネルの接続よりも先に行うことを特徴としてもよい。
一般的に、音声チャネルを接続する際の初期化処理は、データチャネルを接続する際の初期化処理よりも時間がかかる。そこで、音声チャネルの接続処理を先行して開始することで、全体の処理時間を短くすることができる。
また、前記データチャネルは、BluetoothLowEnergy規格によって接続されることを特徴としてもよい。
データ通信用のチャネルとして、BLEを利用することで、消費電力を抑え、ロボットの連続動作時間を長くすることができる。
また、前記データチャネルは、データ通信用のプロファイルを利用して接続されることを特徴としてもよく、前記データ通信用のプロファイルは、シリアルポートプロファイル
(SPP)であることを特徴としてもよい。
このように、データ通信に特化したプロファイルを利用してデータ通信を行うようにしてもよい。
また、前記ロボットと前記制御装置は、前記音声チャネルと前記データチャネルの双方が接続されたことを条件として通信を開始することを特徴としてもよい。
音声チャネルとデータチャネルのどちらかが接続されていない場合、音声入出力や可動部の動作を行うことができない。そこで、双方が接続されて初めて通信を可能にすることが好ましい。
また、本発明に係る音声対話システムは、
音声を認識する音声認識手段と、前記認識した音声に基づいて応答文を生成する応答文生成手段と、を有する対話サーバをさらに有する音声対話システムであって、前記応答文取得手段は、前記取得した音声を前記対話サーバに送信し、前記音声認識手段および前記応答文生成手段を用いて前記応答文を取得することを特徴としてもよい。
かかる構成によると、音声認識や応答文の取得といった、計算量が必要となる処理を対話サーバに行わせることができる。これにより、スマートフォンやモバイルコンピュータなど、小型のコンピュータを制御装置として利用することができるようになる。
また、前記制御装置は、応答文の生成において利用可能な情報である付加情報を取得する付加情報取得手段をさらに有し、前記応答文生成手段は、前記付加情報にさらに基づいて前記応答文を生成することを特徴としてもよい。
また、前記付加情報は、前記制御装置の位置情報であることを特徴としてもよい。
制御装置が取得した付加情報をさらに用いて応答文を生成することで、バリエーションに富んだ応答を生成することができる。なお、付加情報とは、制御装置が取得することができる情報であれば、どのようなものであってもよい。例えば、物理量を検知するセンサから取得した情報であってもよいし、制御装置の位置情報であってもよい。また、時刻情報などであってもよい。
また、前記ロボットは、画像を取得する画像取得手段をさらに有し、前記応答文生成手段は、前記ロボットが取得した画像にさらに基づいて前記応答文を生成することを特徴としてもよい。
例えば、取得した画像に基づいて、ユーザ個人、当該ユーザの表情、顔や視線の方向などを識別し、識別した情報をさらに用いて応答文を生成するようにしてもよい。かかる構成によると、より人間味のあるコミュニケーションを行うことができる。
なお、本発明は、上記手段の少なくとも一部を含む音声対話システムとして特定することができる。また、前記音声対話システムが行う音声対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、ロボットと制御装置からなる音声対話システムにおいて、リアルタイム性を向上させることができる。
第一の実施形態に係る音声対話システムのシステム構成図である。 ロボット10を説明する図である。 ロボット10と制御装置20との接続を説明する図である。 ロボット10、制御装置20、サーバ装置30間のデータフロー図である。 第二の実施形態に係る音声対話システムのシステム構成図である。 第三の実施形態に係る音声対話システムのシステム構成図である。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
(第一の実施形態)
<システム構成>
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
ロボット10は、スピーカやマイク、カメラ等を有しており、ユーザとのインタフェースを担う手段である。ロボット10は、人型やキャラクター型であってもよいし、他の形状であってもよい。
制御装置20は、ロボット10に対して命令を発行する装置である。また、サーバ装置30は、制御装置20から送信された要求に応じて、ユーザに提供する応答(応答文)を生成する装置である。
本実施形態では、ロボット10はユーザインタフェースとしてのみ機能し、発話内容の認識、応答文の生成、その他の処理など、システム全体を制御する処理は制御装置20およびサーバ装置30が行う。
まず、ロボット10について説明する。
ロボット10は、音声入力部11、近距離通信部12、音声出力部13、動作制御部14から構成される。
音声入力部11は、ユーザが発した音声を取得する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは、後述する近距離通信部12を介して制御装置20へ送信される。
近距離通信部12は、制御装置20と近距離無線通信を行う手段である。本実施形態では、近距離通信部12は、Bluetooth(登録商標)規格を利用して通信を行う。近距離通信部12は、ペアリング先となる制御装置20に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Bluetooth規格は、IEEE802.15.1とも呼ばれる。
音声出力部13は、ユーザに提供する音声を出力する手段である。具体的には、内蔵されたスピーカを用いて、制御装置20から送信された音声データを音声に変換する。
動作制御部14は、ロボット10が有する複数の可動部に内蔵されたアクチュエータを駆動させることで、ロボット10の動作を制御する手段である。具体的には、制御装置20から送信された命令に基づいて、例えば手、肩、肘、足などの関節に配置されたアクチュエータを駆動させることで、ロボット10に所定のリアクションをさせる。
また、動作制御部14は、アクチュエータの動作定義(どのような命令に対して、どのアクチュエータをどのように動かすか)を記憶しており、制御装置20から送信された命令に基づいてアクチュエータを駆動させる。
なお、可動部は、例えば図2で示したように、関節ごとに設けられてもよいし、車輪など、関節以外の箇所に設けられてもよい。
また、ロボット10が行うリアクションは、可動部以外を用いたものであってもよい。例えば、光(ライト)の明滅などによって行ってもよい。
次に、制御装置20について説明する。制御装置20は、ロボット10の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置20は、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
制御装置20は、近距離通信部21、制御部22、通信部23から構成される。
近距離通信部21が有する機能は、前述した近距離通信部12と同様であるため、詳細な説明は省略する。
制御部22は、ロボット10から音声を取得し、当該取得した音声に対する応答を取得する手段である。具体的には、ロボット10から取得した音声を、通信部23を介してサーバ装置30(いずれも後述)に送信し、対応する応答文をサーバ装置30から受信する。また、音声合成機能によって、応答文を音声データに変換し、ロボット10に送信する。また、ロボット10に送信された音声は、音声出力部13を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。
また、制御部22は、取得した応答文に基づいてロボットの駆動命令を生成し、ロボット10に送信する。これにより、発話に合わせてロボットがリアクションを行えるようになる。駆動命令の生成は、例えば、応答文を分類した結果に基づいて行うことができる。例えば、サーバ装置30が応答文を生成する際に、応答の種別を表すデータを付加し、当該種別に基づいて駆動命令を生成してもよい。また、応答の種別は、制御部22が応答文を解析することで取得してもよい。
応答の種別は、例えば、喜怒哀楽などの擬似的な感情別に設けられたものであってもよいし、「出会い」「別れ」「回答」「共感」「質問」など、会話のシーンや発話の種別ごとに分類されたものであってもよい。応答の種別に対応する駆動命令は、制御部22が予め記憶している。
通信部23は、通信回線(例えば無線LANや携帯電話網)を介してネットワークにアクセスすることで、サーバ装置30との通信を行う手段である。
サーバ装置30は、送信された音声を認識したうえで、ユーザに提供する応答文を生成する装置であり、通信部31、音声認識部32、応答生成部33からなる。
通信部31が有する機能は、前述した通信部23と同様であるため、詳細な説明は省略する。
音声認識部32は、ロボットが有する音声入力部11が取得した音声に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部32には、音響モデルと認識辞書が記憶されており、取得した
音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部33へ送信される。
応答生成部33は、音声認識部32から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ(対話辞書)に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。詳細な処理内容については後述する。
応答生成部33が取得した情報は、制御装置20へテキスト形式で送信され、その後、合成音声に変換され、ロボット10を介してユーザに向けて出力される。
サーバ装置30も、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
<ロボットと制御装置間の接続>
次に、ロボット10と制御装置20との間における情報の送受信方法について説明する。
ロボット10と制御装置20との間では、(1)ロボットから制御装置へ送信される音声データ、(2)制御装置からロボットへ送信される音声データ、(3)制御装置からロボットへ送信される駆動命令の三種類のデータが送受信される。
ここで問題となるのが、音声データと駆動命令の同期である。例えば、音声データの伝送と、駆動命令の伝送に同一のチャネルを使用した場合、それぞれが異なるタイミングで送信されるため、開始タイミング(音声の再生開始タイミングおよび動作開始タイミング)にずれが生じてしまう。また、このずれを同期させようとした場合、タイミングを取るためのデータを付加する必要がある。
そこで、本実施形態では、ロボット10と制御装置20との間でBluetooth接続による二つのコネクションを張り、音声と駆動命令を同時に送信する。
図3は、ロボット10と制御装置20との接続シーケンス図である。なお、本例では、ロボット10は、接続先として制御装置20の情報を有しているものとする。すなわち、ペアリングが完了しているものとする。
両者が未接続状態にある場合、ロボット10は、周期的に(例えば1秒周期で)制御装置20を検索し、制御装置20を発見すると、HFP(Hands-Free Profile)による接続を開始する。HFPとは、音声の伝送に特化したプロファイルであり、これを利用することで、双方向の音声伝送が可能になる。なお、本実施形態では、ロボット10がHFPにおけるハンズフリーユニットに対応し、制御装置20がオーディオゲートウェイに対応する。
接続リクエストが制御装置20によって受け入れられると、各種初期化処理が実行される。ここでは、ノイズリダクション機能の設定(NREC)、スピーカ音量の設定(VGS)、マイクゲイン設定(VGM)などが行われる。なお、HFPによる初期化処理には若干の時間がかかるため、ロボット10や制御装置20が、平行して他の処理を行うようにしてもよい。初期化処理が終了すると、ロボット10と制御装置20との間の音声チャネルが開通した状態となる。
次に、BLE(Bluetooth Low Energy)によってデータチャネルを設ける処理を行う。
BLEでは、サービスを提供するデバイスが、周囲に存在を知らせる処理(アドバタイズ)を行い、これを検知したデバイスが接続を行うという特徴を有している。
本実施形態では、HFPによる接続が完了した後、ロボット10がアドバタイズ動作(アドバタイズパケットの送信)を開始する。また、制御装置20が、BLE接続を行うためのスキャン動作を開始する。
制御装置20が、ロボット10から送信されたアドバタイズパケットを検知すると、接続要求を発行し、初期化処理が開始される。
本実施形態では、このように、HFPによる接続をまず行い、接続が完了したタイミングでBLEによる接続処理に移行する。このようにすることで、接続相手の特定が容易になり、音声チャネルおよびデータチャネルの二本のコネクションを自動的に張ることができるようになる。
<処理フローチャート>
次に、図1に示した各手段が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図4を参照しながら説明する。
まず、ステップS11で、ロボット10が有する音声入力部11が、マイクを通してユーザが発話した音声を取得する。取得した音声は音声データに変換され、通信部を介して、制御装置20が有する制御部22へ送信される。また、制御部22は、取得した音声データを、サーバ装置30が有する音声認識部32へ送信する。
次に、音声認識部32が、取得した音声データに対して音声認識を行い、テキストに変換する(ステップS12)。音声認識の結果得られたテキストは、応答生成部33へ送信される。次に、応答生成部33が、ユーザから得られた発話の内容に基づいて応答を生成する(ステップS13)。
前述したように、応答文は、自装置が有する対話辞書(対話シナリオ)を用いて生成してもよいし、外部にある情報ソース(データベースサーバやウェブサーバ)を用いて生成してもよい。生成された応答文は、制御装置20へ送信され、制御部22によって音声データに変換される(ステップS14)。
ステップS15では、制御部22が、取得した応答文に基づいて、駆動命令を生成する。音声データと駆動命令は、同一のタイミングでロボット10へ送信され、音声データの再生と駆動が同時に行われる(ステップS16)。
以上説明したように、本実施形態に係る音声対話システムは、HFPによる接続を用いて音声の伝送を行う。これにより、双方向での音声の伝送をリアルタイムに行うことができる。また、同時に、BLEによる接続を用いて駆動命令の伝送を行う。音声と比較して通信速度が要求されないデータ通信にBLEを用いることで、消費電力を抑えることができる。BLEは、通信速度が遅いかわりにデータの自由度が制限されないため、駆動命令の伝送に好適である。
また、音声データと駆動命令の伝送が同時に行われるため、同期をとらなくてもよいという利点がある。
なお、第一の実施形態では、BLEを用いて駆動命令を伝送したが、データ通信用のプロファイルを利用してもよい。例えば、SPP(Serial Port Profile)などを利用する
ことも可能である。
(第二の実施形態)
第二の実施形態は、ロボット10が撮像手段を有しており、ロボット10が撮像した画像にさらに基づいて応答を生成する実施形態である。図5は、第二の実施形態に係る音声
対話システムのシステム構成図である。
第二の実施形態では、ロボット10が画像取得部15を有している。画像取得部15は、内蔵されたカメラを用いて、音声入力部11が音声を取得するタイミングで画像を取得し、当該画像を音声とともに制御装置20に送信する。
また、第二の実施形態では、制御部22が、取得した画像を特徴量に変換し、分類を行ったうえで、当該分類結果をサーバ装置30に送信し、応答生成部33が、当該分類結果にさらに基づいて応答を生成する。
例えば、制御部22が、得られた特徴量に基づいてユーザ個人を識別し、応答生成部33が、当該識別結果を用いて応答を生成する。これにより、パーソナライズされた応答文を生成することができる。なお、本例ではユーザ個人を識別する例を挙げたが、画像に基づいて分類可能なものであれば、どのような分類を行ってもよい。例えば、ユーザの感情やユーザの顔の向きを推定し、推定結果に基づいて応答文を生成してもよい。
なお、第二の実施形態では、ロボット10と制御装置20との間で画像を伝送する必要がある。そのため、画像伝送用のチャネルを別途設けてもよい。なお、駆動命令を送信するためのチャネルと、画像伝送用のチャネルを兼用してもよい。ただし、画像の伝送を行う場合、通信速度を確保するため、BLEではなく、SPP(Serial Port Profile)な
どのプロファイルを用いることが好ましい。また、BIP(Basic Printing Profile)やBPP(Basic Printing Profile)などの画像伝送用のプロファイルを用いてもよい。
(第三の実施形態)
第三の実施形態は、制御装置20が、応答文の生成において利用できる付加的な情報(付加情報)を取得し、サーバ装置30が、当該付加情報にさらに基づいて応答を生成する実施形態である。図6は、第二の実施形態に係る音声対話システムのシステム構成図である。
本実施形態では、制御装置20が情報取得部24を有しており、ロボット10から音声データを取得したタイミングで、情報取得部24が付加情報を取得する。付加情報とは、例えば、現在日時、制御装置の位置情報、気候に関する情報などであるが、話題として利用できる情報であれば、これらに限られない。
また、第三の実施形態では、制御部22が、取得した付加情報をサーバ装置30に送信し、応答生成部33が、当該付加情報にさらに基づいて応答を生成する。
例えば、制御装置20の現在位置がユーザの自宅にないことを検知し、その旨を話題としてもよい。また、降水量や天候の情報に基づいて、天気の話題を生成してもよい。また、時間帯ごとに応答文を変えてもよい。
第三の実施形態によると、制御装置20によって取得された付加的な情報を用いて応答文を生成するため、応答文のバリエーションを広げることができる。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、サーバ装置30が音声認識を行ったが、音声認識を行う手段を制御装置20に持たせてもよい。また、実施形態の説明では、応答文の生成を対話サーバ20で行ったが、応答文の生成を制御装置20が行うようにしてもよい。また、実施形態の説明では、応答文に基づいて制御装置20が駆動命令を生成したが、駆動命令の生成をサーバ装置30が行うようにしてもよい。
また、実施形態の説明では、近距離通信部12および21が、HFPによる接続と、B
LEによる接続の双方を行ったが、プロファイルごとにハードウェアを分けてもよい。
また、音声接続とデータ接続の片方について、無線LANなどの他の接続方式を用いるようにしてもよい。
また、実施形態の説明では、HFPによる接続と、BLEによる接続の双方を行ったが、どちらかの接続を省略することも可能である。例えば、音声出力は行わずに動作のみを行わせたい場合や、動作を行わずに音声出力のみをさせたい場合、片方のチャネルを接続しなくてもよい。これにより、利用していないチャネルのデバイスを休止させ、消費電力を抑えることができる。
10・・・ロボット
11・・・音声入力部
12,21・・・近距離通信部
13・・・音声出力部
14・・・動作制御部
20・・・制御装置
22・・・制御部
23,31・・・通信部
30・・・サーバ装置
32・・・音声認識部
33・・・応答生成部

Claims (14)

  1. ロボットと、制御装置と、からなる音声対話システムであって、
    前記ロボットは、
    可動部と、音声入出力手段と、を有し、
    前記制御装置は、
    前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得手段と、
    前記応答文を音声に変換し、前記ロボットを介して出力する音声送信手段と、
    前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御手段と、
    を有し、
    前記ロボットと前記制御装置との間は、音声を伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続される、
    音声対話システム。
  2. 前記音声の伝送および前記駆動命令の伝送のいずれかが不要である場合に、前記音声チャネルまたはデータチャネルの接続を省略する、または、いずれかのチャネルを休止する、
    請求項1に記載の音声対話システム。
  3. 前記音声チャネルおよび前記データチャネルは、Bluetooth(登録商標)規格によって接続され、かつ、前記音声チャネルは、音声通信用のプロファイルを利用して接続される、
    請求項1または2に記載の音声対話システム。
  4. 前記音声通信用のプロファイルは、ハンズフリープロファイル(HFP)である、
    請求項3に記載の音声対話システム。
  5. 前記制御装置は、前記音声チャネルの接続を、前記データチャネルの接続よりも先に行う、
    請求項3または4に記載の音声対話システム。
  6. 前記データチャネルは、BluetoothLowEnergy規格によって接続される、
    請求項3から5のいずれかに記載の音声対話システム。
  7. 前記データチャネルは、データ通信用のプロファイルを利用して接続される、
    請求項3から5のいずれかに記載の音声対話システム。
  8. 前記データ通信用のプロファイルは、シリアルポートプロファイル(SPP)である、
    請求項7に記載の音声対話システム。
  9. 前記ロボットと前記制御装置は、前記音声チャネルと前記データチャネルの双方が接続されたことを条件として通信を開始する、
    請求項1から8のいずれかに記載の音声対話システム。
  10. 音声を認識する音声認識手段と、
    前記認識した音声に基づいて応答文を生成する応答文生成手段と、を有する対話サーバをさらに有する音声対話システムであって、
    前記応答文取得手段は、前記取得した音声を前記対話サーバに送信し、前記音声認識手段および前記応答文生成手段を用いて前記応答文を取得する、
    請求項1から9のいずれかに記載の音声対話システム。
  11. 前記制御装置は、応答文の生成において利用可能な情報である付加情報を取得する付加情報取得手段をさらに有し、
    前記応答文生成手段は、前記付加情報にさらに基づいて前記応答文を生成する、
    請求項10に記載の音声対話システム。
  12. 前記付加情報は、前記制御装置の位置情報である、
    請求項11に記載の音声対話システム。
  13. 前記ロボットは、画像を取得する画像取得手段をさらに有し、
    前記応答文生成手段は、前記ロボットが取得した画像にさらに基づいて前記応答文を生成する、
    請求項10から12のいずれかに記載の音声対話システム。
  14. 可動部と音声入出力手段を有するロボットと、制御装置と、を用いた音声対話方法であって、
    前記制御装置が、
    前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得ステップと、
    前記応答文を音声に変換し、前記ロボットを介して出力する音声送信ステップと、
    前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御ステップと、を実行し、
    前記ロボットと前記制御装置との間は、音声を伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続される、
    音声対話方法。
JP2016169416A 2016-08-31 2016-08-31 音声対話システムおよび音声対話方法 Active JP6583193B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016169416A JP6583193B2 (ja) 2016-08-31 2016-08-31 音声対話システムおよび音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016169416A JP6583193B2 (ja) 2016-08-31 2016-08-31 音声対話システムおよび音声対話方法

Publications (2)

Publication Number Publication Date
JP2018036849A true JP2018036849A (ja) 2018-03-08
JP6583193B2 JP6583193B2 (ja) 2019-10-02

Family

ID=61566408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016169416A Active JP6583193B2 (ja) 2016-08-31 2016-08-31 音声対話システムおよび音声対話方法

Country Status (1)

Country Link
JP (1) JP6583193B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571038A (zh) * 2021-07-14 2021-10-29 北京小米移动软件有限公司 语音对话方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571038A (zh) * 2021-07-14 2021-10-29 北京小米移动软件有限公司 语音对话方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP6583193B2 (ja) 2019-10-02

Similar Documents

Publication Publication Date Title
EP2842055B1 (en) Instant translation system
JP6402748B2 (ja) 音声対話装置および発話制御方法
JP2015060332A (ja) 音声翻訳装置、音声翻訳方法およびプログラム
CN105393302A (zh) 多级语音识别
JP2015060423A (ja) 音声翻訳装置、音声翻訳方法およびプログラム
CN104394265A (zh) 基于移动智能终端的自动会话方法及装置
JPWO2017200074A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
US11218666B1 (en) Enhanced audio and video capture and presentation
KR20190029237A (ko) 통역장치 및 그 방법
US20180158458A1 (en) Conversational voice interface of connected devices, including toys, cars, avionics, mobile, iot and home appliances
KR20200074690A (ko) 전자 장치 및 이의 제어 방법
JP2010034695A (ja) 音声応答装置及び方法
CN108648754B (zh) 语音控制方法及装置
JP2017213612A (ja) ロボットおよびロボットの制御方法
CN108806675B (zh) 语音输入输出装置、无线连接方法、语音对话系统
JP6583193B2 (ja) 音声対話システムおよび音声対話方法
WO2018198791A1 (ja) 信号処理装置および方法、並びにプログラム
JP6448950B2 (ja) 音声対話装置及び電子機器
JP6624476B2 (ja) 翻訳装置および翻訳システム
US20240112675A1 (en) Multi-device output management based on speech characteristics
US11056106B2 (en) Voice interaction system and information processing apparatus
KR101846218B1 (ko) 근거리 무선 통신망을 기반으로 청각 장애인의 음성 대화를 지원하는 청각 장애인용 언어통역 보조장치, 음성합성서버, 음성인식서버, 알람 장치, 강연장 로컬 서버, 및 음성 통화 지원 어플리케이션
JP7253269B2 (ja) 顔画像処理システム、顔画像生成用情報提供装置、顔画像生成用情報提供方法および顔画像生成用情報提供プログラム
KR20190029236A (ko) 통역방법
JP2018055155A (ja) 音声対話装置および音声対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190531

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190819

R151 Written notification of patent or utility model registration

Ref document number: 6583193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151