JP6583193B2 - 音声対話システムおよび音声対話方法 - Google Patents
音声対話システムおよび音声対話方法 Download PDFInfo
- Publication number
- JP6583193B2 JP6583193B2 JP2016169416A JP2016169416A JP6583193B2 JP 6583193 B2 JP6583193 B2 JP 6583193B2 JP 2016169416 A JP2016169416 A JP 2016169416A JP 2016169416 A JP2016169416 A JP 2016169416A JP 6583193 B2 JP6583193 B2 JP 6583193B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- robot
- response sentence
- control device
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Manipulator (AREA)
Description
特許文献1には、通信ネットワーク経由で音声データとモーションデータを送信することが記載されているが、音声と動作の同期方法は記載されていない。
具体的には、前記ロボットは、可動部と、音声入出力手段と、を有し、前記制御装置は、前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得手段と、前記応答文を音声に変換し、前記ロボットを介して出力する音声送信手段と、前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御手段と、を有し、前記ロボットと前記制御装置との間は、音声を伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続されることを特徴とする。
なお、応答文の生成は、制御装置自体が行ってもよいし、外部装置(対話サーバ)を利用して行ってもよい。後者の場合、ロボットを介して取得した音声を対話サーバに送信し、対話サーバが当該音声の認識および応答文の生成を行うようにしてもよい。
(SPP)であることを特徴としてもよい。
音声を認識する音声認識手段と、前記認識した音声に基づいて応答文を生成する応答文生成手段と、を有する対話サーバをさらに有する音声対話システムであって、前記応答文取得手段は、前記取得した音声を前記対話サーバに送信し、前記音声認識手段および前記応答文生成手段を用いて前記応答文を取得することを特徴としてもよい。
また、前記付加情報は、前記制御装置の位置情報であることを特徴としてもよい。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
<システム構成>
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
制御装置20は、ロボット10に対して命令を発行する装置である。また、サーバ装置30は、制御装置20から送信された要求に応じて、ユーザに提供する応答(応答文)を生成する装置である。
本実施形態では、ロボット10はユーザインタフェースとしてのみ機能し、発話内容の認識、応答文の生成、その他の処理など、システム全体を制御する処理は制御装置20およびサーバ装置30が行う。
ロボット10は、音声入力部11、近距離通信部12、音声出力部13、動作制御部14から構成される。
また、動作制御部14は、アクチュエータの動作定義(どのような命令に対して、どのアクチュエータをどのように動かすか)を記憶しており、制御装置20から送信された命令に基づいてアクチュエータを駆動させる。
なお、可動部は、例えば図2で示したように、関節ごとに設けられてもよいし、車輪など、関節以外の箇所に設けられてもよい。
また、ロボット10が行うリアクションは、可動部以外を用いたものであってもよい。例えば、光(ライト)の明滅などによって行ってもよい。
応答の種別は、例えば、喜怒哀楽などの擬似的な感情別に設けられたものであってもよいし、「出会い」「別れ」「回答」「共感」「質問」など、会話のシーンや発話の種別ごとに分類されたものであってもよい。応答の種別に対応する駆動命令は、制御部22が予め記憶している。
通信部31が有する機能は、前述した通信部23と同様であるため、詳細な説明は省略する。
音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部33へ送信される。
応答生成部33が取得した情報は、制御装置20へテキスト形式で送信され、その後、合成音声に変換され、ロボット10を介してユーザに向けて出力される。
次に、ロボット10と制御装置20との間における情報の送受信方法について説明する。
ロボット10と制御装置20との間では、(1)ロボットから制御装置へ送信される音声データ、(2)制御装置からロボットへ送信される音声データ、(3)制御装置からロボットへ送信される駆動命令の三種類のデータが送受信される。
そこで、本実施形態では、ロボット10と制御装置20との間でBluetooth接続による二つのコネクションを張り、音声と駆動命令を同時に送信する。
両者が未接続状態にある場合、ロボット10は、周期的に(例えば1秒周期で)制御装置20を検索し、制御装置20を発見すると、HFP(Hands-Free Profile)による接続を開始する。HFPとは、音声の伝送に特化したプロファイルであり、これを利用することで、双方向の音声伝送が可能になる。なお、本実施形態では、ロボット10がHFPにおけるハンズフリーユニットに対応し、制御装置20がオーディオゲートウェイに対応する。
BLEでは、サービスを提供するデバイスが、周囲に存在を知らせる処理(アドバタイズ)を行い、これを検知したデバイスが接続を行うという特徴を有している。
本実施形態では、HFPによる接続が完了した後、ロボット10がアドバタイズ動作(アドバタイズパケットの送信)を開始する。また、制御装置20が、BLE接続を行うためのスキャン動作を開始する。
本実施形態では、このように、HFPによる接続をまず行い、接続が完了したタイミングでBLEによる接続処理に移行する。このようにすることで、接続相手の特定が容易になり、音声チャネルおよびデータチャネルの二本のコネクションを自動的に張ることができるようになる。
次に、図1に示した各手段が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図4を参照しながら説明する。
また、音声データと駆動命令の伝送が同時に行われるため、同期をとらなくてもよいという利点がある。
ことも可能である。
第二の実施形態は、ロボット10が撮像手段を有しており、ロボット10が撮像した画像にさらに基づいて応答を生成する実施形態である。図5は、第二の実施形態に係る音声
対話システムのシステム構成図である。
第二の実施形態では、ロボット10が画像取得部15を有している。画像取得部15は、内蔵されたカメラを用いて、音声入力部11が音声を取得するタイミングで画像を取得し、当該画像を音声とともに制御装置20に送信する。
例えば、制御部22が、得られた特徴量に基づいてユーザ個人を識別し、応答生成部33が、当該識別結果を用いて応答を生成する。これにより、パーソナライズされた応答文を生成することができる。なお、本例ではユーザ個人を識別する例を挙げたが、画像に基づいて分類可能なものであれば、どのような分類を行ってもよい。例えば、ユーザの感情やユーザの顔の向きを推定し、推定結果に基づいて応答文を生成してもよい。
どのプロファイルを用いることが好ましい。また、BIP(Basic Printing Profile)やBPP(Basic Printing Profile)などの画像伝送用のプロファイルを用いてもよい。
第三の実施形態は、制御装置20が、応答文の生成において利用できる付加的な情報(付加情報)を取得し、サーバ装置30が、当該付加情報にさらに基づいて応答を生成する実施形態である。図6は、第二の実施形態に係る音声対話システムのシステム構成図である。
本実施形態では、制御装置20が情報取得部24を有しており、ロボット10から音声データを取得したタイミングで、情報取得部24が付加情報を取得する。付加情報とは、例えば、現在日時、制御装置の位置情報、気候に関する情報などであるが、話題として利用できる情報であれば、これらに限られない。
例えば、制御装置20の現在位置がユーザの自宅にないことを検知し、その旨を話題としてもよい。また、降水量や天候の情報に基づいて、天気の話題を生成してもよい。また、時間帯ごとに応答文を変えてもよい。
第三の実施形態によると、制御装置20によって取得された付加的な情報を用いて応答文を生成するため、応答文のバリエーションを広げることができる。
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
LEによる接続の双方を行ったが、プロファイルごとにハードウェアを分けてもよい。
また、音声接続とデータ接続の片方について、無線LANなどの他の接続方式を用いるようにしてもよい。
11・・・音声入力部
12,21・・・近距離通信部
13・・・音声出力部
14・・・動作制御部
20・・・制御装置
22・・・制御部
23,31・・・通信部
30・・・サーバ装置
32・・・音声認識部
33・・・応答生成部
Claims (14)
- ロボットと、制御装置と、からなる音声対話システムであって、
前記ロボットは、
可動部と、音声入出力手段と、を有し、
前記制御装置は、
前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得手段と、
前記応答文を変換した音声データを前記ロボットに送信し、前記ロボットを介して前記応答文を音声として出力する音声送信手段と、
前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御手段と、
を有し、
前記ロボットと前記制御装置との間は、前記音声データを伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続され、
前記制御装置から前記ロボットへ前記音声データと前記駆動命令とが同一のタイミングで送信される、
音声対話システム。 - 前記音声データの伝送および前記駆動命令の伝送のいずれかが不要である場合に、前記音声チャネルまたはデータチャネルの接続を省略する、または、いずれかのチャネルを休止する、
請求項1に記載の音声対話システム。 - 前記制御装置は、前記音声チャネルの接続を、前記データチャネルの接続よりも先に行う、
請求項1または2に記載の音声対話システム。 - 前記音声チャネルおよび前記データチャネルは、Bluetooth(登録商標)規格によって接続され、かつ、前記音声チャネルは、音声通信用のプロファイルを利用して接続される、
請求項1から3のいずれかに記載の音声対話システム。 - 前記音声通信用のプロファイルは、ハンズフリープロファイル(HFP)である、
請求項4に記載の音声対話システム。 - 前記データチャネルは、BluetoothLowEnergy規格によって接続される、
請求項4または5に記載の音声対話システム。 - 前記データチャネルは、データ通信用のプロファイルを利用して接続される、
請求項4または5に記載の音声対話システム。 - 前記データ通信用のプロファイルは、シリアルポートプロファイル(SPP)である、
請求項7に記載の音声対話システム。 - 前記ロボットと前記制御装置は、前記音声チャネルと前記データチャネルの双方が接続されたことを条件として通信を開始する、
請求項1から8のいずれかに記載の音声対話システム。 - 音声を認識する音声認識手段と、
前記認識した音声に基づいて応答文を生成する応答文生成手段と、を有する対話サーバをさらに有する音声対話システムであって、
前記応答文取得手段は、前記取得した音声を前記対話サーバに送信し、前記音声認識手段および前記応答文生成手段を用いて前記応答文を取得する、
請求項1から9のいずれかに記載の音声対話システム。 - 前記制御装置は、応答文の生成において利用可能な情報である付加情報を取得する付加情報取得手段をさらに有し、
前記応答文生成手段は、前記付加情報にさらに基づいて前記応答文を生成する、
請求項10に記載の音声対話システム。 - 前記付加情報は、前記制御装置の位置情報である、
請求項11に記載の音声対話システム。 - 前記ロボットは、画像を取得する画像取得手段をさらに有し、
前記応答文生成手段は、前記ロボットが取得した画像にさらに基づいて前記応答文を生成する、
請求項10から12のいずれかに記載の音声対話システム。 - 可動部と音声入出力手段を有するロボットと、制御装置と、を用いた音声対話方法であって、
前記制御装置が、
前記ロボットを介して音声を取得し、前記取得した音声を認識した結果に基づく応答文を取得する応答文取得ステップと、
前記応答文を変換した音声データを前記ロボットに送信し、前記ロボットを介して前記応答文を音声として出力する音声送信ステップと、
前記応答文に基づいて、前記ロボットが有する前記可動部を駆動させる駆動命令を生成し、前記駆動命令を前記ロボットに送信する駆動制御ステップと、を実行し、
前記ロボットと前記制御装置との間は、前記音声データを伝送する音声チャネルと、前記駆動命令を伝送するデータチャネルによってそれぞれ接続され、
前記制御装置から前記ロボットへ前記音声データと前記駆動命令とが同一のタイミング
で送信される、
音声対話方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016169416A JP6583193B2 (ja) | 2016-08-31 | 2016-08-31 | 音声対話システムおよび音声対話方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016169416A JP6583193B2 (ja) | 2016-08-31 | 2016-08-31 | 音声対話システムおよび音声対話方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018036849A JP2018036849A (ja) | 2018-03-08 |
JP6583193B2 true JP6583193B2 (ja) | 2019-10-02 |
Family
ID=61566408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016169416A Active JP6583193B2 (ja) | 2016-08-31 | 2016-08-31 | 音声対話システムおよび音声対話方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6583193B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571038B (zh) * | 2021-07-14 | 2024-06-25 | 北京小米移动软件有限公司 | 语音对话方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002127062A (ja) * | 2000-08-18 | 2002-05-08 | Nippon Telegr & Teleph Corp <Ntt> | ロボットシステム、ロボット制御信号生成装置、ロボット制御信号生成方法、記録媒体、プログラムおよびロボット |
JP5975947B2 (ja) * | 2013-07-08 | 2016-08-23 | ユニロボット株式会社 | ロボットを制御するためのプログラム、及びロボットシステム |
WO2015068726A1 (ja) * | 2013-11-06 | 2015-05-14 | アルプス電気株式会社 | 車載ナビゲーション装置 |
-
2016
- 2016-08-31 JP JP2016169416A patent/JP6583193B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018036849A (ja) | 2018-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2842055B1 (en) | Instant translation system | |
JP6402748B2 (ja) | 音声対話装置および発話制御方法 | |
JP2015060332A (ja) | 音声翻訳装置、音声翻訳方法およびプログラム | |
JP2018049143A (ja) | 音声取得システムおよび音声取得方法 | |
CN105393302A (zh) | 多级语音识别 | |
US20010051535A1 (en) | Communication system and communication method using animation and server as well as terminal device used therefor | |
US20180158458A1 (en) | Conversational voice interface of connected devices, including toys, cars, avionics, mobile, iot and home appliances | |
CN107845386B (zh) | 声音信号处理方法、移动终端和服务器 | |
US11218666B1 (en) | Enhanced audio and video capture and presentation | |
WO2020026850A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR20200074690A (ko) | 전자 장치 및 이의 제어 방법 | |
JP2010034695A (ja) | 音声応答装置及び方法 | |
JP2020046478A (ja) | ロボットシステム | |
WO2016027909A1 (ja) | データ構造、音声対話装置及び電子機器 | |
JP2017213612A (ja) | ロボットおよびロボットの制御方法 | |
CN108806675B (zh) | 语音输入输出装置、无线连接方法、语音对话系统 | |
JP6583193B2 (ja) | 音声対話システムおよび音声対話方法 | |
WO2018198791A1 (ja) | 信号処理装置および方法、並びにプログラム | |
KR101846218B1 (ko) | 근거리 무선 통신망을 기반으로 청각 장애인의 음성 대화를 지원하는 청각 장애인용 언어통역 보조장치, 음성합성서버, 음성인식서버, 알람 장치, 강연장 로컬 서버, 및 음성 통화 지원 어플리케이션 | |
JP6624476B2 (ja) | 翻訳装置および翻訳システム | |
US11056106B2 (en) | Voice interaction system and information processing apparatus | |
JP2018055155A (ja) | 音声対話装置および音声対話方法 | |
JP7253269B2 (ja) | 顔画像処理システム、顔画像生成用情報提供装置、顔画像生成用情報提供方法および顔画像生成用情報提供プログラム | |
JP5610283B2 (ja) | 外部機器制御装置、その外部機器制御方法及びプログラム | |
JP2002215180A (ja) | 通信装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190528 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190531 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190819 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6583193 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |