JP6508251B2 - 音声対話システムおよび情報処理装置 - Google Patents
音声対話システムおよび情報処理装置 Download PDFInfo
- Publication number
- JP6508251B2 JP6508251B2 JP2017088728A JP2017088728A JP6508251B2 JP 6508251 B2 JP6508251 B2 JP 6508251B2 JP 2017088728 A JP2017088728 A JP 2017088728A JP 2017088728 A JP2017088728 A JP 2017088728A JP 6508251 B2 JP6508251 B2 JP 6508251B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- output
- voice input
- information processing
- notification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 32
- 238000004891 communication Methods 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 32
- 230000003993 interaction Effects 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000010267 cellular communication Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6033—Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
- H04M1/6041—Portable telephones adapted for handsfree use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72409—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
- H04M1/72412—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72409—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
- H04M1/72415—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories for remote control of appliances
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72454—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72484—User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明は、音声によって人と対話する装置に関する。
近年、人と対話をすることによって様々な情報を提供するロボットが開発されている。例えば、特許文献1には、マイクによって入力された音声をネットワーク上で処理し、入力に対する応答を音声で返すコミュニケーションロボットが開示されている。
特許文献1に記載のシステムのように、コミュニケーションロボットの分野では、コストを削減するため、インタフェースであるロボットが、制御装置(例えばスマートフォンなどの携帯型コンピュータ)と無線通信を行い、制御装置側において音声の認識や応答の生成を行うという構成が一般的となっている。
コミュニケーションロボットの制御装置としてスマートフォンなどを利用した場合、音声対話中に電話が着信した場合の処理が問題となる。例えば、ロボットとスマートフォンがオーディオ接続されたままの状態で電話を受けてしまうと、相手方の声がロボットから出力されてしまい、ユーザに違和感を与えてしまう。
すなわち、電話機本体で行う音声入出力と、ロボットを利用した音声入出力を適切に切り替える必要がある。
すなわち、電話機本体で行う音声入出力と、ロボットを利用した音声入出力を適切に切り替える必要がある。
本発明は上記の課題を考慮してなされたものであり、ロボットと制御装置が無線によって接続する音声対話システムにおいて、音声入出力デバイスを適切に切り替えることを目的とする。
本発明に係る音声対話システムは、第一の音声入出力デバイスを有する情報処理装置と、第二の音声入出力デバイスを有し、近距離無線通信を介して前記情報処理装置とオーディオ接続する音声インタフェース装置と、を含む音声対話システムである。
具体的には、前記情報処理装置は、前記第一の音声入出力デバイスまたは第二の音声入出力デバイスを用いて音声の入出力を行う音声入出力手段と、ユーザとの音声対話を行う対話手段と、音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、を有し、前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替えることを特徴とする。
具体的には、前記情報処理装置は、前記第一の音声入出力デバイスまたは第二の音声入出力デバイスを用いて音声の入出力を行う音声入出力手段と、ユーザとの音声対話を行う対話手段と、音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、を有し、前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替えることを特徴とする。
本発明に係る音声インタフェース装置は、情報処理装置と通信を行うことでユーザとの対話を行う対話インタフェースである。また、情報処理装置は、ユーザとの対話を司る装置(例えば、音声の認識、応答文の生成、音声の合成などを行う装置)であり、典型的に
はスマートフォンなどの携帯型のコンピュータである。音声インタフェース装置と情報処理装置の双方に、音声入出力デバイスが備わっている。
はスマートフォンなどの携帯型のコンピュータである。音声インタフェース装置と情報処理装置の双方に、音声入出力デバイスが備わっている。
情報処理装置が有する音声入出力手段は、音声の入出力を行うデバイスを、自装置が有する第一の音声入出力デバイス、または、音声インタフェース装置が有する第二の音声入出力デバイスから選択することができる。第二の音声入出力デバイスを選択した場合、近距離無線通信による音声接続を介して音声が伝送される。
また、処理手段は、音声入出力を用いて音声対話以外の処理を行う手段である。処理手段は、例えば、音声通話を行う手段であってもよいし、その他のアプリケーション(例えば電話アプリ)等を実行する手段であってもよい。
また、処理手段は、音声入出力を用いて音声対話以外の処理を行う手段である。処理手段は、例えば、音声通話を行う手段であってもよいし、その他のアプリケーション(例えば電話アプリ)等を実行する手段であってもよい。
また、本発明では、第二の音声入出力デバイスを用いて音声対話を行っている間に、処理手段が音声入出力を必要とする状態となった場合(例えば、電話や通話アプリケーションに対する音声着信があった場合など)に、音声の入出力に用いるデバイスを第一の音声入出力デバイスに切り替える。
かかる構成によると、ユーザと対話している状態においては、近距離無線通信によって接続された音声インタフェース装置を利用し、電話などが着信した場合には、音声インタフェース装置を切り離して自装置で応答することができるようになる。
かかる構成によると、ユーザと対話している状態においては、近距離無線通信によって接続された音声インタフェース装置を利用し、電話などが着信した場合には、音声インタフェース装置を切り離して自装置で応答することができるようになる。
また、前記処理手段は、無線通信網を介して音声通話を行う手段であることを特徴としてもよい。
本発明は、情報処理装置が音声対話と音声通話の双方を行う形態に好適に適用することができる。
また、前記情報処理装置および前記音声インタフェース装置間は、Bluetooth(登録商標)規格の音声プロファイルを利用して接続されることを特徴としてもよい。
情報処理装置と音声インタフェース装置は、互いにペアリングされた状態で近距離通信を行うため、Bluetoothによる接続が適している。また、情報処理装置にスマートフォンなどを用いることができ、かつ、消費電力を抑えることができるという利点がある。また、音声用のプロファイルを利用することで、遅延の少ない通信をさせることができる。
また、前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記情報処理装置とのオーディオ接続を解除することを特徴としてもよい。
Bluetoothによって接続が確立しており、処理手段が第一の状態となった場合、その旨を音声インタフェース装置に送信することで、オーディオ接続を解除させることができる。
また、前記処理手段は、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信し、前記音声インタフェース装置は、前記第二の通知を受信した場合に、前記情報処理装置とのオーディオ接続を回復させることを特徴としてもよい。
例えば、通話が終了した場合など、処理手段側で音声入出力が不要となった場合、音声インタフェース装置はこれを検知することができない。よって、情報処理装置側から通知を送信し、音声インタフェース装置側からオーディオ接続を回復するように構成すること
ができる。
ができる。
また、前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記処理手段に対して拒否応答を送信したうえで、前記情報処理装置とのオーディオ接続を解除することを特徴としてもよい。
また、前記処理手段は、前記拒否応答を受信し、前記オーディオ接続が解除された場合において、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信することで前記オーディオ接続を回復させることを特徴としてもよい。
また、前記処理手段は、前記拒否応答を受信し、前記オーディオ接続が解除された場合において、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信することで前記オーディオ接続を回復させることを特徴としてもよい。
オーディオ接続を解除する前に拒否応答を送信することで、「情報処理装置に起因してオーディオ接続を切断した」ことを情報処理装置側へ通知することができる。これにより、情報処理装置は、接続を回復させる必要性を認識することができる。
また、本発明に係る情報処理装置は、
第一の音声入出力デバイスと、前記第一の音声入出力デバイス、または、近距離無線通信を介して接続された音声インタフェース装置が有する第二の音声入出力デバイス、のいずれかを用いて音声の入出力を行う音声入出力手段と、ユーザとの音声対話を行う対話手段と、音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、を有し、前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替えることを特徴とする。
第一の音声入出力デバイスと、前記第一の音声入出力デバイス、または、近距離無線通信を介して接続された音声インタフェース装置が有する第二の音声入出力デバイス、のいずれかを用いて音声の入出力を行う音声入出力手段と、ユーザとの音声対話を行う対話手段と、音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、を有し、前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替えることを特徴とする。
なお、本発明は、上記手段の少なくとも一部を含む音声対話システムまたは情報処理装置として特定することができる。また、前記音声対話システムが行う音声対話方法、情報処理装置が行う情報処理方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、ロボットと制御装置が無線によって接続する音声対話システムにおいて、音声入出力デバイスを適切に切り替えることができる。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
(第一の実施形態)
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
ロボット10は、スピーカやマイク等を有しており、ユーザとのインタフェースを担う手段である。ロボット10は、人型やキャラクター型であってもよいし、他の形状であってもよい。
制御装置20は、ロボット10を介して行うユーザとの対話を制御する装置である。また、サーバ装置30は、制御装置20から送信された要求に応じて、音声の認識と、ユーザに提供する応答(応答文)の生成を行う装置である。制御装置20は、本実施形態では、通話機能を有するスマートフォンである。
本実施形態では、ロボット10は音声インタフェースとしてのみ機能し、対話を制御する処理は制御装置20が行う。また、発話内容の認識や、応答文の生成などはサーバ装置30が行う。
まず、ロボット10について説明する。ロボット10は、音声入出力部11と近距離通信部12から構成される。
音声入出力部11は、ユーザが発した音声を取得し、制御装置20から送信された音声を再生する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは、後述する近距離通信部12を介して制御装置20へ送信される。また、内蔵されたスピーカを用いて、制御装置20から送信された音声データを音声に変換する。
近距離通信部12は、制御装置20と近距離無線通信を行う手段である。本実施形態では、近距離通信部12は、Bluetooth(登録商標)規格を利用して通信を行う。近距離通信部12は、ペアリング先となる制御装置20に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Bluetooth規格は、IEEE802.15.1とも呼ばれる。
次に、制御装置20について説明する。制御装置20は、ロボット10の制御を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置20は、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
制御装置20は、近距離通信部21、制御部22、通信部23、セルラ通信部24、音声入出力部25から構成される。
近距離通信部21が有する機能は、前述した近距離通信部12と同様であるため、詳細な説明は省略する。
制御部22は、ロボット10から音声を取得し、当該取得した音声に対する応答を取得する手段である。具体的には、ロボット10から取得した音声を、通信部23を介してサーバ装置30(いずれも後述)に送信し、対応する応答文をサーバ装置30から受信する。また、音声合成機能によって、応答文を音声データに変換し、ロボット10に送信する。また、ロボット10に送信された音声は、音声出力部13を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。
また、制御部22は、音声による通話を制御する手段でもある。例えば、後述するセル
ラ通信部24を介してセルラネットワークに接続し、電話の発着信を行う。
ラ通信部24を介してセルラネットワークに接続し、電話の発着信を行う。
通信部23は、通信回線(例えば無線LANや携帯電話網)を介してネットワークにアクセスすることで、サーバ装置30との通信を行う手段である。
セルラ通信部24は、携帯電話網と通信を行う手段である。例えば、第3世代の音声通信方式(3G)を用いて通信を行うが、これ以外の通信方式を利用してもよい。例えば、第4世代以降のデータ通信方式(LTE等)を介して通信を行ってもよい。
音声入出力部25は、音声入出力部11と同様に、ユーザが発した音声を取得し、かつ、音声を出力する手段である。音声入出力部25は、例えば、スマートフォンに内蔵されたスピーカおよびマイクであってもよい。
音声入出力部25は、音声入出力部11と同様に、ユーザが発した音声を取得し、かつ、音声を出力する手段である。音声入出力部25は、例えば、スマートフォンに内蔵されたスピーカおよびマイクであってもよい。
サーバ装置30は、制御装置20から送信された音声を認識したうえで、ユーザに提供する応答文を生成する装置であり、通信部31、音声認識部32、応答生成部33からなる。
通信部31が有する機能は、前述した通信部23と同様であるため、詳細な説明は省略する。
通信部31が有する機能は、前述した通信部23と同様であるため、詳細な説明は省略する。
音声認識部32は、ロボットが有する音声入出力部11が取得した音声に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部32には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部33へ送信される。
応答生成部33は、音声認識部32から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ(対話辞書)に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。詳細な処理内容については後述する。
応答生成部33が取得した情報は、制御装置20へテキスト形式で送信され、その後、合成音声に変換され、ロボット10を介してユーザに向けて出力される。
応答生成部33が取得した情報は、制御装置20へテキスト形式で送信され、その後、合成音声に変換され、ロボット10を介してユーザに向けて出力される。
サーバ装置30も、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
次に、ロボット10と制御装置20との間における情報の送受信方法について説明する。
ロボット10と制御装置20との間では、(1)ロボットから制御装置へ送信される音声データ、(2)制御装置からロボットへ送信される音声データの二種類のデータが送受信される。
ロボット10と制御装置20との間では、(1)ロボットから制御装置へ送信される音声データ、(2)制御装置からロボットへ送信される音声データの二種類のデータが送受信される。
本実施形態では、ロボット10と制御装置20との間でBluetoothを用いた音声接続を行い、音声の送受信を行う。
図2は、ロボット10と制御装置20との接続シーケンスの一例である。なお、本例では、ロボット10は、接続先として制御装置20の情報を有しているものとする。すなわち、ペアリングが完了しているものとする。
両者が未接続状態にある場合、ロボット10は、周期的に(例えば1秒周期で)制御装置20を検索し、制御装置20を発見すると、HFP(Hands-Free Profile)による接続
を開始する(ステップS11)。HFPとは、音声の伝送に特化したプロファイルであり、これを利用することで、双方向の音声伝送が可能になる。なお、本実施形態では、ロボット10がHFPにおけるハンズフリーユニットに対応し、制御装置20がオーディオゲートウェイに対応する。
両者が未接続状態にある場合、ロボット10は、周期的に(例えば1秒周期で)制御装置20を検索し、制御装置20を発見すると、HFP(Hands-Free Profile)による接続
を開始する(ステップS11)。HFPとは、音声の伝送に特化したプロファイルであり、これを利用することで、双方向の音声伝送が可能になる。なお、本実施形態では、ロボット10がHFPにおけるハンズフリーユニットに対応し、制御装置20がオーディオゲートウェイに対応する。
接続リクエストが制御装置20によって受け入れられると、各種初期化処理が実行される(ステップS12)。ここでは、ノイズリダクション機能の設定(NREC)、スピーカ音量の設定(VGS)、マイクゲイン設定(VGM)などが行われる。なお、HFPによる初期化処理には若干の時間がかかるため、ロボット10や制御装置20が、平行して他の処理を行うようにしてもよい。HFPによる接続が完了すると、実際に音声を伝送するチャネルを設けるためのオーディオ接続を行い(ステップS13)、これにより、ロボット10と制御装置20との間で音声チャネルが開通した状態となる。
ここで問題となるのが、制御装置20は、ロボット10の音声入出力部を利用して音声の入出力を行っている状態となるため、外部から電話が着信した場合に、ロボット10から音声が流れてしまうという点である。例えば、ロボットとスマートフォンが音声接続されたままの状態で電話を受けてしまうと、相手方の声がロボットから出力されてしまい、ユーザに違和感を与えてしまう。
この問題を解決するため、第一の実施形態では、電話が着信した場合に、制御部22が、ロボット10と制御装置20との間のオーディオ接続を解除し、通話が終了した後で、ロボット10とのオーディオ接続を再度確立する。
図3は、第一の実施形態における、ロボット10と制御装置20との接続シーケンス図である。図示したように、本実施形態では、制御装置20が外部から着信を受けた場合に、ステップS13で行ったオーディオ接続を解除する(ステップS14)。これにより、音声入出力部11を介して行われていた音声入出力が、音声入出力部25を介して行われるようになる。すなわち、スマートフォン本体のスピーカおよびマイクを利用して通話ができるようになる。
通話が終了すると、制御部22が、ロボット10に対して通話終了通知(本発明における第二の通知)を送信し(ステップS15)、これを検知したロボット10が、再度オーディオ接続を行う(ステップS16)。
次に、音声対話処理について、処理内容およびデータの流れを説明するフロー図である図4を参照しながら説明する。
まず、ステップS21で、ロボット10が有する音声入出力部11が、マイクを通してユーザが発話した音声を取得する。取得した音声は音声データに変換され、通信部を介して、制御装置20が有する制御部22へ送信される。また、制御部22は、取得した音声データを、サーバ装置30が有する音声認識部32へ送信する。
次に、音声認識部32が、取得した音声データに対して音声認識を行い、テキストに変換する(ステップS22)。音声認識の結果得られたテキストは、応答生成部33へ送信される。次に、応答生成部33が、ユーザから得られた発話の内容に基づいて応答を生成する(ステップS23)。
前述したように、応答文は、自装置が有する対話辞書(対話シナリオ)を用いて生成してもよいし、外部にある情報ソース(データベースサーバやウェブサーバ)を用いて生成してもよい。生成された応答文は、制御装置20へ送信され、制御部22によって音声デ
ータに変換される(ステップS24)。音声データはロボット10へ送信され、音声データの再生が行われる(ステップS25)。
ータに変換される(ステップS24)。音声データはロボット10へ送信され、音声データの再生が行われる(ステップS25)。
以上説明したように、本実施形態に係る制御装置20は、ロボット10との間でオーディオ接続が確立している状態で外部から着信があった場合に、オーディオ接続を解除し、通話が終了したのちに、通話終了通知を送信することでロボット10に再度オーディオ接続を確立させる。
かかる構成によると、ユーザとの音声対話中に電話が着信し、ロボットから相手方の音声が出力されてしまうことを防ぐことができる。
かかる構成によると、ユーザとの音声対話中に電話が着信し、ロボットから相手方の音声が出力されてしまうことを防ぐことができる。
(第二の実施形態)
第一の実施形態では、着信があった場合に制御装置20がオーディオ接続を解除したが、ロボット10の側からオーディオ接続を解除するようにしてもよい。図5は、第二の実施形態における、ロボット10と制御装置20との接続シーケンス図である。
第二の実施形態では、着信があった場合に、制御装置20からロボット10へ着信通知(本発明における第一の通知)が送信される(ステップS141)。当該通知は、HFP接続を行っている場合、ミドルウェアによって自動的に送信されるが、着信通知はHFP接続以外のプロファイルを介して送信してもよい。そして、ロボット10が、当該着信通知を検知した場合にオーディオ接続を解除する(ステップS143)。
第一の実施形態では、着信があった場合に制御装置20がオーディオ接続を解除したが、ロボット10の側からオーディオ接続を解除するようにしてもよい。図5は、第二の実施形態における、ロボット10と制御装置20との接続シーケンス図である。
第二の実施形態では、着信があった場合に、制御装置20からロボット10へ着信通知(本発明における第一の通知)が送信される(ステップS141)。当該通知は、HFP接続を行っている場合、ミドルウェアによって自動的に送信されるが、着信通知はHFP接続以外のプロファイルを介して送信してもよい。そして、ロボット10が、当該着信通知を検知した場合にオーディオ接続を解除する(ステップS143)。
このように、ロボット10が主体となってオーディオ接続の解除および再確立を行うようにしてもよい。着信通知をロボット10に送信することで、制御装置20に対して着信があったことをロボット10が把握することができ、音声の経路をスムーズに切り替えることができる。
(第三の実施形態)
第二の実施形態では、制御部22が、通話が終了したことを検知して、ロボット10に対して通話終了通知を送信した。しかし、制御装置20が、着信に起因してオーディオ接続が解除されたことを検知できない場合、通話終了通知を送信すべきか否かが正しく判断できなくなるケースが発生する。
第二の実施形態では、制御部22が、通話が終了したことを検知して、ロボット10に対して通話終了通知を送信した。しかし、制御装置20が、着信に起因してオーディオ接続が解除されたことを検知できない場合、通話終了通知を送信すべきか否かが正しく判断できなくなるケースが発生する。
そこで、第三の実施形態では、ステップS141にて着信通知が送信された際に、ロボット10が一旦拒否通知を送信し(ステップS142)、その後、オーディオ接続を解除する。
また、制御装置20は、通話が終了した場合であって、直近に拒否通知を受信していた場合に、通話終了通知を送信する。
第三の実施形態によると、制御装置20が、着信に起因してオーディオ接続が解除されたことを把握できるようになる。
また、制御装置20は、通話が終了した場合であって、直近に拒否通知を受信していた場合に、通話終了通知を送信する。
第三の実施形態によると、制御装置20が、着信に起因してオーディオ接続が解除されたことを把握できるようになる。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、サーバ装置30が音声認識を行ったが、音声認識を行う手段を制御装置20に持たせてもよい。また、実施形態の説明では、応答文の生成を対話サーバ20で行ったが、応答文の生成を制御装置20が行うようにしてもよい。
また、実施形態の説明では、制御装置20に対して外部から着信があった場合を例示したが、音声通話に関するトリガ(着信および通話終了)以外によってオーディオ接続を切り替えてもよい。例えば、音声入出力を必要とするアプリケーションが、音声の入出力を
要求した場合に、ロボット10とのオーディオ接続を解除してもよい。この場合、当該アプリケーションにおける音声の入出力が不要となった場合に、オーディオ接続を回復させるようにしてもよい。また、このようなアプリケーションが制御部22で実行されるように構成してもよい。
要求した場合に、ロボット10とのオーディオ接続を解除してもよい。この場合、当該アプリケーションにおける音声の入出力が不要となった場合に、オーディオ接続を回復させるようにしてもよい。また、このようなアプリケーションが制御部22で実行されるように構成してもよい。
10・・・ロボット
11・・・音声入出力部
12,21・・・近距離通信部
20・・・制御装置
22・・・制御部
23,31・・・通信部
24・・・セルラ通信部
25・・・音声入出力部
30・・・サーバ装置
32・・・音声認識部
33・・・応答生成部
11・・・音声入出力部
12,21・・・近距離通信部
20・・・制御装置
22・・・制御部
23,31・・・通信部
24・・・セルラ通信部
25・・・音声入出力部
30・・・サーバ装置
32・・・音声認識部
33・・・応答生成部
Claims (8)
- 第一の音声入出力デバイスを有する情報処理装置と、第二の音声入出力デバイスを有し、近距離無線通信を介して前記情報処理装置とオーディオ接続する音声インタフェース装置と、を含む音声対話システムであって、
前記情報処理装置は、
前記第一の音声入出力デバイスまたは第二の音声入出力デバイスを用いて音声の入出力を行う音声入出力手段と、
ユーザとの音声対話を行う対話手段と、
音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、
を有し、
前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替える、
音声対話システム。 - 前記処理手段は、無線通信網を介して音声通話を行う手段である、
請求項1に記載の音声対話システム。 - 前記情報処理装置および前記音声インタフェース装置間は、Bluetooth(登録商標)規格の音声プロファイルを利用して接続される、
請求項1または2に記載の音声対話システム。 - 前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、
前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記情報処理装置とのオーディオ接続を解除する、
請求項3に記載の音声対話システム。 - 前記処理手段は、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信し、
前記音声インタフェース装置は、前記第二の通知を受信した場合に、前記情報処理装置とのオーディオ接続を回復させる、
請求項1から4のいずれかに記載の音声対話システム。 - 前記処理手段は、前記第一の状態となった場合に、前記音声インタフェース装置に第一の通知を送信し、
前記音声インタフェース装置は、前記第一の通知を受信した場合に、前記処理手段に対して拒否応答を送信したうえで、前記情報処理装置とのオーディオ接続を解除する、
請求項3に記載の音声対話システム。 - 前記処理手段は、前記拒否応答を受信し、前記オーディオ接続が解除された場合において、音声入出力が不要となった場合に、前記音声インタフェース装置に対して第二の通知を送信することで前記オーディオ接続を回復させる、
請求項6に記載の音声対話システム。 - 第一の音声入出力デバイスと、
前記第一の音声入出力デバイス、または、近距離無線通信を介して接続された音声インタフェース装置が有する第二の音声入出力デバイス、のいずれかを用いて音声の入出力を行う音声入出力手段と、
ユーザとの音声対話を行う対話手段と、
音声入出力を用いて、前記音声対話以外の処理を行う処理手段と、
を有し、
前記音声入出力手段は、前記第二の音声入出力デバイスを用いて前記ユーザと音声対話を行っている間に、前記処理手段が音声入出力を必要とする第一の状態となった場合に、音声の入出力に用いるデバイスを前記第一の音声入出力デバイスに切り替える、
情報処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017088728A JP6508251B2 (ja) | 2017-04-27 | 2017-04-27 | 音声対話システムおよび情報処理装置 |
US15/957,352 US11056106B2 (en) | 2017-04-27 | 2018-04-19 | Voice interaction system and information processing apparatus |
CN201810364088.3A CN108810244B (zh) | 2017-04-27 | 2018-04-23 | 语音对话系统以及信息处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017088728A JP6508251B2 (ja) | 2017-04-27 | 2017-04-27 | 音声対話システムおよび情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018185758A JP2018185758A (ja) | 2018-11-22 |
JP6508251B2 true JP6508251B2 (ja) | 2019-05-08 |
Family
ID=63917438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017088728A Active JP6508251B2 (ja) | 2017-04-27 | 2017-04-27 | 音声対話システムおよび情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11056106B2 (ja) |
JP (1) | JP6508251B2 (ja) |
CN (1) | CN108810244B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109788128A (zh) * | 2018-12-27 | 2019-05-21 | 深圳市优必选科技有限公司 | 一种来电提示方法、来电提示装置及终端设备 |
US10848619B2 (en) * | 2019-03-07 | 2020-11-24 | At&T Intellectual Property I, L.P. | Communications network security for handling proxy voice calls |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004010054T2 (de) * | 2004-01-19 | 2008-03-06 | Harman Becker Automotive Systems Gmbh | Betätigung eines Sprachdialogsystems |
JP2006099424A (ja) * | 2004-09-29 | 2006-04-13 | Hitachi Ltd | 音声情報サービスシステム及び音声情報サービス端末 |
JP2006154926A (ja) * | 2004-11-25 | 2006-06-15 | Denso Corp | キャラクタ表示を利用した電子機器操作システム及び電子機器 |
US8023499B2 (en) * | 2005-02-17 | 2011-09-20 | Sharp Kabushiki Kaisha | Communication network control system, communication terminal, and communication network control method |
US8589161B2 (en) * | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
CN102026322A (zh) | 2009-09-23 | 2011-04-20 | 中兴通讯股份有限公司 | 语音切换方法和系统 |
KR101248562B1 (ko) * | 2010-08-25 | 2013-03-28 | 교세라 가부시키가이샤 | 휴대전화기 및 그 제어방법 |
JP5692332B2 (ja) * | 2011-03-23 | 2015-04-01 | 株式会社デンソー | 車両用装置、および機器連携システム |
JP5445599B2 (ja) * | 2011-03-23 | 2014-03-19 | 株式会社デンソー | 車両用装置、および機器連携システム |
JP2013055545A (ja) | 2011-09-05 | 2013-03-21 | Honda Motor Co Ltd | ハンズフリー通話装置 |
JP6043545B2 (ja) * | 2012-08-24 | 2016-12-14 | 京セラ株式会社 | 携帯端末装置、プログラムおよび携帯端末装置の制御方法 |
US9112930B2 (en) * | 2012-10-26 | 2015-08-18 | Microsoft Technology Licensing, Llc | Updating services during real-time communication and sharing-experience sessions |
KR101504699B1 (ko) * | 2013-04-09 | 2015-03-20 | 얄리주식회사 | 유무선 통신 네트워크를 이용한 음성대화방법 및 장치 |
CN103220423A (zh) * | 2013-04-10 | 2013-07-24 | 威盛电子股份有限公司 | 语音接听方法与移动终端装置 |
US9640182B2 (en) * | 2013-07-01 | 2017-05-02 | Toyota Motor Engineering & Manufacturing North America, Inc. | Systems and vehicles that provide speech recognition system notifications |
JP5975947B2 (ja) * | 2013-07-08 | 2016-08-23 | ユニロボット株式会社 | ロボットを制御するためのプログラム、及びロボットシステム |
US20170230492A1 (en) * | 2014-02-21 | 2017-08-10 | Sony Corporation | Wearable device and method of controlling communication |
CN104159169B (zh) * | 2014-07-31 | 2017-12-19 | 深圳市汇川技术股份有限公司 | 一种远程语音对讲系统 |
JP6382018B2 (ja) * | 2014-08-05 | 2018-08-29 | アルパイン株式会社 | 電子装置、ハンズフリーの制御方法およびプログラム |
KR20160051977A (ko) * | 2014-10-30 | 2016-05-12 | 삼성전자주식회사 | 통신 서비스 운용 방법 및 이를 지원하는 전자 장치 |
US20170237986A1 (en) * | 2016-02-11 | 2017-08-17 | Samsung Electronics Co., Ltd. | Video encoding method and electronic device adapted thereto |
CN106921803A (zh) * | 2017-03-29 | 2017-07-04 | 联想(北京)有限公司 | 多媒体数据的播放方法及控制设备 |
-
2017
- 2017-04-27 JP JP2017088728A patent/JP6508251B2/ja active Active
-
2018
- 2018-04-19 US US15/957,352 patent/US11056106B2/en active Active
- 2018-04-23 CN CN201810364088.3A patent/CN108810244B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108810244A (zh) | 2018-11-13 |
CN108810244B (zh) | 2021-05-25 |
US11056106B2 (en) | 2021-07-06 |
JP2018185758A (ja) | 2018-11-22 |
US20180315423A1 (en) | 2018-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11153678B1 (en) | Two-way wireless headphones | |
US10599785B2 (en) | Smart sound devices and language translation system | |
EP3090531B1 (en) | Smart bluetooth headset for speech command | |
WO2018173293A1 (ja) | 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法 | |
JP6402748B2 (ja) | 音声対話装置および発話制御方法 | |
US9824685B2 (en) | Handsfree device with continuous keyword recognition | |
US20070225049A1 (en) | Voice controlled push to talk system | |
CN106982286B (zh) | 一种录音方法、设备和计算机可读存储介质 | |
JP2017138536A (ja) | 音声処理装置 | |
JP6508251B2 (ja) | 音声対話システムおよび情報処理装置 | |
JP5251588B2 (ja) | 携帯電話端末装置及び通話伝達の判断方法 | |
JP4983417B2 (ja) | 会話速度変換機能を備えた電話装置及び会話速度変換方法 | |
CN108806675B (zh) | 语音输入输出装置、无线连接方法、语音对话系统 | |
US10735598B2 (en) | System and method for providing voice communication between sender users, recipient users and external network entities | |
KR101679627B1 (ko) | Ptt 통신용 핸즈프리, 이를 이용한 ptt 통신 시스템 및 방법 | |
WO2018058875A1 (zh) | 一种终端的通话切换方法、系统及终端、计算机存储介质 | |
US11924717B2 (en) | System and method for data analytics for communications in walkie-talkie network | |
JP6021663B2 (ja) | 音声呼の確立と同時に、相手方端末におけるコードを確認する方法及びシステム | |
JP6583193B2 (ja) | 音声対話システムおよび音声対話方法 | |
JP6805663B2 (ja) | 通信装置、通信システム、通信方法及びプログラム | |
KR102142338B1 (ko) | 인공지능 통신 장치 및 그 동작 방법 | |
RU2585974C2 (ru) | Способ обеспечения общения людей, говорящих на разных языках | |
US11785137B2 (en) | Voice communication system and method for providing call sessions between personal communication devices of caller users and recipient users | |
JP2013214924A (ja) | 無線操作機、無線操作機の制御方法、およびプログラム | |
JP2018040937A (ja) | 発話判定装置、発話判定システム、プログラム及び発話判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190318 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6508251 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |