JP2018185758A - 音声対話システムおよび情報処理装置 - Google Patents

音声対話システムおよび情報処理装置 Download PDF

Info

Publication number
JP2018185758A
JP2018185758A JP2017088728A JP2017088728A JP2018185758A JP 2018185758 A JP2018185758 A JP 2018185758A JP 2017088728 A JP2017088728 A JP 2017088728A JP 2017088728 A JP2017088728 A JP 2017088728A JP 2018185758 A JP2018185758 A JP 2018185758A
Authority
JP
Japan
Prior art keywords
voice
output
input
voice input
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017088728A
Other languages
English (en)
Other versions
JP6508251B2 (ja
Inventor
智 水摩
Satoshi Mizuma
智 水摩
池野 篤司
Tokuji Ikeno
篤司 池野
博士 山口
Hiroshi Yamaguchi
博士 山口
勇太 山本
Yuta Yamamoto
勇太 山本
西島 敏文
Toshifumi Nishijima
敏文 西島
佐々木 悟
Satoru Sasaki
悟 佐々木
刀根川 浩巳
Hiromi Tonegawa
浩巳 刀根川
倫秀 梅山
Norihide Umeyama
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017088728A priority Critical patent/JP6508251B2/ja
Priority to US15/957,352 priority patent/US11056106B2/en
Priority to CN201810364088.3A priority patent/CN108810244B/zh
Publication of JP2018185758A publication Critical patent/JP2018185758A/ja
Application granted granted Critical
Publication of JP6508251B2 publication Critical patent/JP6508251B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • H04M1/72412User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • H04M1/72415User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories for remote control of appliances
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72484User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ロボットと制御装置が無線によって接続する音声対話システムにおいて、音声入出力デバイスを適切に切り替える。
【解決手段】第一の音声入出力デバイスを有する情報処理装置と、第二の音声入出力デバイスを有し、近距離無線通信を介して前記情報処理装置とオーディオ接続する音声インタフェース装置と、を含む音声対話システムであって、前記情報処理装置は、前記第一の音声入出力デバイスまたは第二の音声入出力デバイスを用いて音声の入出力を行う音声入出力手段と、ユーザとの音声対話を行う対話手段と、音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、を有し、前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替える。
【選択図】図1

Description

本発明は、音声によって人と対話する装置に関する。
近年、人と対話をすることによって様々な情報を提供するロボットが開発されている。例えば、特許文献1には、マイクによって入力された音声をネットワーク上で処理し、入力に対する応答を音声で返すコミュニケーションロボットが開示されている。
特許文献1に記載のシステムのように、コミュニケーションロボットの分野では、コストを削減するため、インタフェースであるロボットが、制御装置(例えばスマートフォンなどの携帯型コンピュータ)と無線通信を行い、制御装置側において音声の認識や応答の生成を行うという構成が一般的となっている。
特開2015−013351号公報 特開2015−128297号公報 特開2013−055545号公報
コミュニケーションロボットの制御装置としてスマートフォンなどを利用した場合、音声対話中に電話が着信した場合の処理が問題となる。例えば、ロボットとスマートフォンがオーディオ接続されたままの状態で電話を受けてしまうと、相手方の声がロボットから出力されてしまい、ユーザに違和感を与えてしまう。
すなわち、電話機本体で行う音声入出力と、ロボットを利用した音声入出力を適切に切り替える必要がある。
本発明は上記の課題を考慮してなされたものであり、ロボットと制御装置が無線によって接続する音声対話システムにおいて、音声入出力デバイスを適切に切り替えることを目的とする。
本発明に係る音声対話システムは、第一の音声入出力デバイスを有する情報処理装置と、第二の音声入出力デバイスを有し、近距離無線通信を介して前記情報処理装置とオーディオ接続する音声インタフェース装置と、を含む音声対話システムである。
具体的には、前記情報処理装置は、前記第一の音声入出力デバイスまたは第二の音声入出力デバイスを用いて音声の入出力を行う音声入出力手段と、ユーザとの音声対話を行う対話手段と、音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、を有し、前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替えることを特徴とする。
本発明に係る音声インタフェース装置は、情報処理装置と通信を行うことでユーザとの対話を行う対話インタフェースである。また、情報処理装置は、ユーザとの対話を司る装置(例えば、音声の認識、応答文の生成、音声の合成などを行う装置)であり、典型的に
はスマートフォンなどの携帯型のコンピュータである。音声インタフェース装置と情報処理装置の双方に、音声入出力デバイスが備わっている。
情報処理装置が有する音声入出力手段は、音声の入出力を行うデバイスを、自装置が有する第一の音声入出力デバイス、または、音声インタフェース装置が有する第二の音声入出力デバイスから選択することができる。第二の音声入出力デバイスを選択した場合、近距離無線通信による音声接続を介して音声が伝送される。
また、処理手段は、音声入出力を用いて音声対話以外の処理を行う手段である。処理手段は、例えば、音声通話を行う手段であってもよいし、その他のアプリケーション(例えば電話アプリ)等を実行する手段であってもよい。
また、本発明では、第二の音声入出力デバイスを用いて音声対話を行っている間に、処理手段が音声入出力を必要とする状態となった場合(例えば、電話や通話アプリケーションに対する音声着信があった場合など)に、音声の入出力に用いるデバイスを第一の音声入出力デバイスに切り替える。
かかる構成によると、ユーザと対話している状態においては、近距離無線通信によって接続された音声インタフェース装置を利用し、電話などが着信した場合には、音声インタフェース装置を切り離して自装置で応答することができるようになる。
また、前記処理手段は、無線通信網を介して音声通話を行う手段であることを特徴としてもよい。
本発明は、情報処理装置が音声対話と音声通話の双方を行う形態に好適に適用することができる。
また、前記情報処理装置および前記音声インタフェース装置間は、Bluetooth(登録商標)規格の音声プロファイルを利用して接続されることを特徴としてもよい。
情報処理装置と音声インタフェース装置は、互いにペアリングされた状態で近距離通信を行うため、Bluetoothによる接続が適している。また、情報処理装置にスマートフォンなどを用いることができ、かつ、消費電力を抑えることができるという利点がある。また、音声用のプロファイルを利用することで、遅延の少ない通信をさせることができる。
また、前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記情報処理装置とのオーディオ接続を解除することを特徴としてもよい。
Bluetoothによって接続が確立しており、処理手段が第一の状態となった場合、その旨を音声インタフェース装置に送信することで、オーディオ接続を解除させることができる。
また、前記処理手段は、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信し、前記音声インタフェース装置は、前記第二の通知を受信した場合に、前記情報処理装置とのオーディオ接続を回復させることを特徴としてもよい。
例えば、通話が終了した場合など、処理手段側で音声入出力が不要となった場合、音声インタフェース装置はこれを検知することができない。よって、情報処理装置側から通知を送信し、音声インタフェース装置側からオーディオ接続を回復するように構成すること
ができる。
また、前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記処理手段に対して拒否応答を送信したうえで、前記情報処理装置とのオーディオ接続を解除することを特徴としてもよい。
また、前記処理手段は、前記拒否応答を受信し、前記オーディオ接続が解除された場合において、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信することで前記オーディオ接続を回復させることを特徴としてもよい。
オーディオ接続を解除する前に拒否応答を送信することで、「情報処理装置に起因してオーディオ接続を切断した」ことを情報処理装置側へ通知することができる。これにより、情報処理装置は、接続を回復させる必要性を認識することができる。
また、本発明に係る情報処理装置は、
第一の音声入出力デバイスと、前記第一の音声入出力デバイス、または、近距離無線通信を介して接続された音声インタフェース装置が有する第二の音声入出力デバイス、のいずれかを用いて音声の入出力を行う音声入出力手段と、ユーザとの音声対話を行う対話手段と、音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、を有し、前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替えることを特徴とする。
なお、本発明は、上記手段の少なくとも一部を含む音声対話システムまたは情報処理装置として特定することができる。また、前記音声対話システムが行う音声対話方法、情報処理装置が行う情報処理方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、ロボットと制御装置が無線によって接続する音声対話システムにおいて、音声入出力デバイスを適切に切り替えることができる。
第一の実施形態に係る音声対話システムのシステム構成図である。 ロボット10と制御装置20との接続を説明する図である。 第一の実施形態における接続フローを説明する図である。 ロボット10、制御装置20、サーバ装置30間のデータフロー図である。 第二の実施形態における接続フローを説明する図である。 第三の実施形態における接続フローを説明する図である。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
(第一の実施形態)
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
ロボット10は、スピーカやマイク等を有しており、ユーザとのインタフェースを担う手段である。ロボット10は、人型やキャラクター型であってもよいし、他の形状であってもよい。
制御装置20は、ロボット10を介して行うユーザとの対話を制御する装置である。また、サーバ装置30は、制御装置20から送信された要求に応じて、音声の認識と、ユーザに提供する応答(応答文)の生成を行う装置である。制御装置20は、本実施形態では、通話機能を有するスマートフォンである。
本実施形態では、ロボット10は音声インタフェースとしてのみ機能し、対話を制御する処理は制御装置20が行う。また、発話内容の認識や、応答文の生成などはサーバ装置30が行う。
まず、ロボット10について説明する。ロボット10は、音声入出力部11と近距離通信部12から構成される。
音声入出力部11は、ユーザが発した音声を取得し、制御装置20から送信された音声を再生する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは、後述する近距離通信部12を介して制御装置20へ送信される。また、内蔵されたスピーカを用いて、制御装置20から送信された音声データを音声に変換する。
近距離通信部12は、制御装置20と近距離無線通信を行う手段である。本実施形態では、近距離通信部12は、Bluetooth(登録商標)規格を利用して通信を行う。近距離通信部12は、ペアリング先となる制御装置20に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Bluetooth規格は、IEEE802.15.1とも呼ばれる。
次に、制御装置20について説明する。制御装置20は、ロボット10の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置20は、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
制御装置20は、近距離通信部21、制御部22、通信部23、セルラ通信部24、音声入出力部25から構成される。
近距離通信部21が有する機能は、前述した近距離通信部12と同様であるため、詳細な説明は省略する。
制御部22は、ロボット10から音声を取得し、当該取得した音声に対する応答を取得する手段である。具体的には、ロボット10から取得した音声を、通信部23を介してサーバ装置30(いずれも後述)に送信し、対応する応答文をサーバ装置30から受信する。また、音声合成機能によって、応答文を音声データに変換し、ロボット10に送信する。また、ロボット10に送信された音声は、音声出力部13を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。
また、制御部22は、音声による通話を制御する手段でもある。例えば、後述するセル
ラ通信部24を介してセルラネットワークに接続し、電話の発着信を行う。
通信部23は、通信回線(例えば無線LANや携帯電話網)を介してネットワークにアクセスすることで、サーバ装置30との通信を行う手段である。
セルラ通信部24は、携帯電話網と通信を行う手段である。例えば、第3世代の音声通信方式(3G)を用いて通信を行うが、これ以外の通信方式を利用してもよい。例えば、第4世代以降のデータ通信方式(LTE等)を介して通信を行ってもよい。
音声入出力部25は、音声入出力部11と同様に、ユーザが発した音声を取得し、かつ、音声を出力する手段である。音声入出力部25は、例えば、スマートフォンに内蔵されたスピーカおよびマイクであってもよい。
サーバ装置30は、制御装置20から送信された音声を認識したうえで、ユーザに提供する応答文を生成する装置であり、通信部31、音声認識部32、応答生成部33からなる。
通信部31が有する機能は、前述した通信部23と同様であるため、詳細な説明は省略する。
音声認識部32は、ロボットが有する音声入出力部11が取得した音声に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部32には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部33へ送信される。
応答生成部33は、音声認識部32から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ(対話辞書)に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。詳細な処理内容については後述する。
応答生成部33が取得した情報は、制御装置20へテキスト形式で送信され、その後、合成音声に変換され、ロボット10を介してユーザに向けて出力される。
サーバ装置30も、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
次に、ロボット10と制御装置20との間における情報の送受信方法について説明する。
ロボット10と制御装置20との間では、(1)ロボットから制御装置へ送信される音声データ、(2)制御装置からロボットへ送信される音声データの二種類のデータが送受信される。
本実施形態では、ロボット10と制御装置20との間でBluetoothを用いた音声接続を行い、音声の送受信を行う。
図2は、ロボット10と制御装置20との接続シーケンスの一例である。なお、本例では、ロボット10は、接続先として制御装置20の情報を有しているものとする。すなわち、ペアリングが完了しているものとする。
両者が未接続状態にある場合、ロボット10は、周期的に(例えば1秒周期で)制御装置20を検索し、制御装置20を発見すると、HFP(Hands-Free Profile)による接続
を開始する(ステップS11)。HFPとは、音声の伝送に特化したプロファイルであり、これを利用することで、双方向の音声伝送が可能になる。なお、本実施形態では、ロボット10がHFPにおけるハンズフリーユニットに対応し、制御装置20がオーディオゲートウェイに対応する。
接続リクエストが制御装置20によって受け入れられると、各種初期化処理が実行される(ステップS12)。ここでは、ノイズリダクション機能の設定(NREC)、スピーカ音量の設定(VGS)、マイクゲイン設定(VGM)などが行われる。なお、HFPによる初期化処理には若干の時間がかかるため、ロボット10や制御装置20が、平行して他の処理を行うようにしてもよい。HFPによる接続が完了すると、実際に音声を伝送するチャネルを設けるためのオーディオ接続を行い(ステップS13)、これにより、ロボット10と制御装置20との間で音声チャネルが開通した状態となる。
ここで問題となるのが、制御装置20は、ロボット10の音声入出力部を利用して音声の入出力を行っている状態となるため、外部から電話が着信した場合に、ロボット10から音声が流れてしまうという点である。例えば、ロボットとスマートフォンが音声接続されたままの状態で電話を受けてしまうと、相手方の声がロボットから出力されてしまい、ユーザに違和感を与えてしまう。
この問題を解決するため、第一の実施形態では、電話が着信した場合に、制御部22が、ロボット10と制御装置20との間のオーディオ接続を解除し、通話が終了した後で、ロボット10とのオーディオ接続を再度確立する。
図3は、第一の実施形態における、ロボット10と制御装置20との接続シーケンス図である。図示したように、本実施形態では、制御装置20が外部から着信を受けた場合に、ステップS13で行ったオーディオ接続を解除する(ステップS14)。これにより、音声入出力部11を介して行われていた音声入出力が、音声入出力部25を介して行われるようになる。すなわち、スマートフォン本体のスピーカおよびマイクを利用して通話ができるようになる。
通話が終了すると、制御部22が、ロボット10に対して通話終了通知(本発明における第二の通知)を送信し(ステップS15)、これを検知したロボット10が、再度オーディオ接続を行う(ステップS16)。
次に、音声対話処理について、処理内容およびデータの流れを説明するフロー図である図4を参照しながら説明する。
まず、ステップS21で、ロボット10が有する音声入出力部11が、マイクを通してユーザが発話した音声を取得する。取得した音声は音声データに変換され、通信部を介して、制御装置20が有する制御部22へ送信される。また、制御部22は、取得した音声データを、サーバ装置30が有する音声認識部32へ送信する。
次に、音声認識部32が、取得した音声データに対して音声認識を行い、テキストに変換する(ステップS22)。音声認識の結果得られたテキストは、応答生成部33へ送信される。次に、応答生成部33が、ユーザから得られた発話の内容に基づいて応答を生成する(ステップS23)。
前述したように、応答文は、自装置が有する対話辞書(対話シナリオ)を用いて生成してもよいし、外部にある情報ソース(データベースサーバやウェブサーバ)を用いて生成してもよい。生成された応答文は、制御装置20へ送信され、制御部22によって音声デ
ータに変換される(ステップS24)。音声データはロボット10へ送信され、音声データの再生が行われる(ステップS25)。
以上説明したように、本実施形態に係る制御装置20は、ロボット10との間でオーディオ接続が確立している状態で外部から着信があった場合に、オーディオ接続を解除し、通話が終了したのちに、通話終了通知を送信することでロボット10に再度オーディオ接続を確立させる。
かかる構成によると、ユーザとの音声対話中に電話が着信し、ロボットから相手方の音声が出力されてしまうことを防ぐことができる。
(第二の実施形態)
第一の実施形態では、着信があった場合に制御装置20がオーディオ接続を解除したが、ロボット10の側からオーディオ接続を解除するようにしてもよい。図5は、第二の実施形態における、ロボット10と制御装置20との接続シーケンス図である。
第二の実施形態では、着信があった場合に、制御装置20からロボット10へ着信通知(本発明における第一の通知)が送信される(ステップS141)。当該通知は、HFP接続を行っている場合、ミドルウェアによって自動的に送信されるが、着信通知はHFP接続以外のプロファイルを介して送信してもよい。そして、ロボット10が、当該着信通知を検知した場合にオーディオ接続を解除する(ステップS143)。
このように、ロボット10が主体となってオーディオ接続の解除および再確立を行うようにしてもよい。着信通知をロボット10に送信することで、制御装置20に対して着信があったことをロボット10が把握することができ、音声の経路をスムーズに切り替えることができる。
(第三の実施形態)
第二の実施形態では、制御部22が、通話が終了したことを検知して、ロボット10に対して通話終了通知を送信した。しかし、制御装置20が、着信に起因してオーディオ接続が解除されたことを検知できない場合、通話終了通知を送信すべきか否かが正しく判断できなくなるケースが発生する。
そこで、第三の実施形態では、ステップS141にて着信通知が送信された際に、ロボット10が一旦拒否通知を送信し(ステップS142)、その後、オーディオ接続を解除する。
また、制御装置20は、通話が終了した場合であって、直近に拒否通知を受信していた場合に、通話終了通知を送信する。
第三の実施形態によると、制御装置20が、着信に起因してオーディオ接続が解除されたことを把握できるようになる。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、サーバ装置30が音声認識を行ったが、音声認識を行う手段を制御装置20に持たせてもよい。また、実施形態の説明では、応答文の生成を対話サーバ20で行ったが、応答文の生成を制御装置20が行うようにしてもよい。
また、実施形態の説明では、制御装置20に対して外部から着信があった場合を例示したが、音声通話に関するトリガ(着信および通話終了)以外によってオーディオ接続を切り替えてもよい。例えば、音声入出力を必要とするアプリケーションが、音声の入出力を
要求した場合に、ロボット10とのオーディオ接続を解除してもよい。この場合、当該アプリケーションにおける音声の入出力が不要となった場合に、オーディオ接続を回復させるようにしてもよい。また、このようなアプリケーションが制御部22で実行されるように構成してもよい。
10・・・ロボット
11・・・音声入出力部
12,21・・・近距離通信部
20・・・制御装置
22・・・制御部
23,31・・・通信部
24・・・セルラ通信部
25・・・音声入出力部
30・・・サーバ装置
32・・・音声認識部
33・・・応答生成部

Claims (8)

  1. 第一の音声入出力デバイスを有する情報処理装置と、第二の音声入出力デバイスを有し、近距離無線通信を介して前記情報処理装置とオーディオ接続する音声インタフェース装置と、を含む音声対話システムであって、
    前記情報処理装置は、
    前記第一の音声入出力デバイスまたは第二の音声入出力デバイスを用いて音声の入出力を行う音声入出力手段と、
    ユーザとの音声対話を行う対話手段と、
    音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、
    を有し、
    前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替える、
    音声対話システム。
  2. 前記処理手段は、無線通信網を介して音声通話を行う手段である、
    請求項1に記載の音声対話システム。
  3. 前記情報処理装置および前記音声インタフェース装置間は、Bluetooth(登録商標)規格の音声プロファイルを利用して接続される、
    請求項1または2に記載の音声対話システム。
  4. 前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、
    前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記情報処理装置とのオーディオ接続を解除する、
    請求項3に記載の音声対話システム。
  5. 前記処理手段は、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信し、
    前記音声インタフェース装置は、前記第二の通知を受信した場合に、前記情報処理装置とのオーディオ接続を回復させる、
    請求項1から4のいずれかに記載の音声対話システム。
  6. 前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、
    前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記処理手段に対して拒否応答を送信したうえで、前記情報処理装置とのオーディオ接続を解除する、
    請求項3に記載の音声対話システム。
  7. 前記処理手段は、前記拒否応答を受信し、前記オーディオ接続が解除された場合において、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信することで前記オーディオ接続を回復させる、
    請求項6に記載の音声対話システム。
  8. 第一の音声入出力デバイスと、
    前記第一の音声入出力デバイス、または、近距離無線通信を介して接続された音声インタフェース装置が有する第二の音声入出力デバイス、のいずれかを用いて音声の入出力を行う音声入出力手段と、
    ユーザとの音声対話を行う対話手段と、
    音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、
    を有し、
    前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替える、
    情報処理装置。
JP2017088728A 2017-04-27 2017-04-27 音声対話システムおよび情報処理装置 Active JP6508251B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017088728A JP6508251B2 (ja) 2017-04-27 2017-04-27 音声対話システムおよび情報処理装置
US15/957,352 US11056106B2 (en) 2017-04-27 2018-04-19 Voice interaction system and information processing apparatus
CN201810364088.3A CN108810244B (zh) 2017-04-27 2018-04-23 语音对话系统以及信息处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017088728A JP6508251B2 (ja) 2017-04-27 2017-04-27 音声対話システムおよび情報処理装置

Publications (2)

Publication Number Publication Date
JP2018185758A true JP2018185758A (ja) 2018-11-22
JP6508251B2 JP6508251B2 (ja) 2019-05-08

Family

ID=63917438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017088728A Active JP6508251B2 (ja) 2017-04-27 2017-04-27 音声対話システムおよび情報処理装置

Country Status (3)

Country Link
US (1) US11056106B2 (ja)
JP (1) JP6508251B2 (ja)
CN (1) CN108810244B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109788128A (zh) * 2018-12-27 2019-05-21 深圳市优必选科技有限公司 一种来电提示方法、来电提示装置及终端设备
US10848619B2 (en) * 2019-03-07 2020-11-24 At&T Intellectual Property I, L.P. Communications network security for handling proxy voice calls

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154926A (ja) * 2004-11-25 2006-06-15 Denso Corp キャラクタ表示を利用した電子機器操作システム及び電子機器
JP2014204429A (ja) * 2013-04-09 2014-10-27 ヤリー株式会社Yally Inc. 有無線通信ネットワークを用いた音声対話方法および装置
JP2015013351A (ja) * 2013-07-08 2015-01-22 有限会社アイドリーマ ロボットを制御するためのプログラム
JP2015128297A (ja) * 2011-03-23 2015-07-09 株式会社デンソー 車両用装置
WO2015125362A1 (ja) * 2014-02-21 2015-08-27 ソニー株式会社 ウェアラブル装置、および通信制御方法
JP2016039413A (ja) * 2014-08-05 2016-03-22 アルパイン株式会社 電子装置、ハンズフリーの制御方法およびプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602004010054T2 (de) * 2004-01-19 2008-03-06 Harman Becker Automotive Systems Gmbh Betätigung eines Sprachdialogsystems
JP2006099424A (ja) * 2004-09-29 2006-04-13 Hitachi Ltd 音声情報サービスシステム及び音声情報サービス端末
US8023499B2 (en) * 2005-02-17 2011-09-20 Sharp Kabushiki Kaisha Communication network control system, communication terminal, and communication network control method
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
CN102026322A (zh) 2009-09-23 2011-04-20 中兴通讯股份有限公司 语音切换方法和系统
KR101248562B1 (ko) * 2010-08-25 2013-03-28 교세라 가부시키가이샤 휴대전화기 및 그 제어방법
JP5445599B2 (ja) * 2011-03-23 2014-03-19 株式会社デンソー 車両用装置、および機器連携システム
JP2013055545A (ja) 2011-09-05 2013-03-21 Honda Motor Co Ltd ハンズフリー通話装置
JP6043545B2 (ja) * 2012-08-24 2016-12-14 京セラ株式会社 携帯端末装置、プログラムおよび携帯端末装置の制御方法
US9112930B2 (en) * 2012-10-26 2015-08-18 Microsoft Technology Licensing, Llc Updating services during real-time communication and sharing-experience sessions
CN103220423A (zh) * 2013-04-10 2013-07-24 威盛电子股份有限公司 语音接听方法与移动终端装置
US9640182B2 (en) * 2013-07-01 2017-05-02 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and vehicles that provide speech recognition system notifications
CN104159169B (zh) * 2014-07-31 2017-12-19 深圳市汇川技术股份有限公司 一种远程语音对讲系统
KR20160051977A (ko) * 2014-10-30 2016-05-12 삼성전자주식회사 통신 서비스 운용 방법 및 이를 지원하는 전자 장치
US20170237986A1 (en) * 2016-02-11 2017-08-17 Samsung Electronics Co., Ltd. Video encoding method and electronic device adapted thereto
CN106921803A (zh) * 2017-03-29 2017-07-04 联想(北京)有限公司 多媒体数据的播放方法及控制设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154926A (ja) * 2004-11-25 2006-06-15 Denso Corp キャラクタ表示を利用した電子機器操作システム及び電子機器
JP2015128297A (ja) * 2011-03-23 2015-07-09 株式会社デンソー 車両用装置
JP2014204429A (ja) * 2013-04-09 2014-10-27 ヤリー株式会社Yally Inc. 有無線通信ネットワークを用いた音声対話方法および装置
JP2015013351A (ja) * 2013-07-08 2015-01-22 有限会社アイドリーマ ロボットを制御するためのプログラム
WO2015125362A1 (ja) * 2014-02-21 2015-08-27 ソニー株式会社 ウェアラブル装置、および通信制御方法
JP2016039413A (ja) * 2014-08-05 2016-03-22 アルパイン株式会社 電子装置、ハンズフリーの制御方法およびプログラム

Also Published As

Publication number Publication date
JP6508251B2 (ja) 2019-05-08
CN108810244A (zh) 2018-11-13
CN108810244B (zh) 2021-05-25
US11056106B2 (en) 2021-07-06
US20180315423A1 (en) 2018-11-01

Similar Documents

Publication Publication Date Title
US11153678B1 (en) Two-way wireless headphones
EP3090531B1 (en) Smart bluetooth headset for speech command
JP6402748B2 (ja) 音声対話装置および発話制御方法
US9824685B2 (en) Handsfree device with continuous keyword recognition
US20070225049A1 (en) Voice controlled push to talk system
US20100330908A1 (en) Telecommunications device with voice-controlled functions
US20100235161A1 (en) Simultaneous interpretation system
JP2015060423A (ja) 音声翻訳装置、音声翻訳方法およびプログラム
CN106982286B (zh) 一种录音方法、设备和计算机可读存储介质
JP2017138536A (ja) 音声処理装置
JP6508251B2 (ja) 音声対話システムおよび情報処理装置
CN105551491A (zh) 语音识别方法和设备
JP5251588B2 (ja) 携帯電話端末装置及び通話伝達の判断方法
JP4983417B2 (ja) 会話速度変換機能を備えた電話装置及び会話速度変換方法
JP6610610B2 (ja) 音声入出力装置、無線接続方法、音声対話システム
US11924717B2 (en) System and method for data analytics for communications in walkie-talkie network
WO2018058875A1 (zh) 一种终端的通话切换方法、系统及终端、计算机存储介质
JP2019110447A (ja) 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム
JP6583193B2 (ja) 音声対話システムおよび音声対話方法
JP6805663B2 (ja) 通信装置、通信システム、通信方法及びプログラム
KR102142338B1 (ko) 인공지능 통신 장치 및 그 동작 방법
JP6790619B2 (ja) 発話判定装置、発話判定システム、プログラム及び発話判定方法
JP2013214924A (ja) 無線操作機、無線操作機の制御方法、およびプログラム
JP2020061703A (ja) 通話支援装置
JP2018017764A (ja) ロボットおよび音声対話方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190318

R151 Written notification of patent or utility model registration

Ref document number: 6508251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151