CN108810244B - 语音对话系统以及信息处理装置 - Google Patents

语音对话系统以及信息处理装置 Download PDF

Info

Publication number
CN108810244B
CN108810244B CN201810364088.3A CN201810364088A CN108810244B CN 108810244 B CN108810244 B CN 108810244B CN 201810364088 A CN201810364088 A CN 201810364088A CN 108810244 B CN108810244 B CN 108810244B
Authority
CN
China
Prior art keywords
voice
output
input
voice input
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810364088.3A
Other languages
English (en)
Other versions
CN108810244A (zh
Inventor
水摩智
池野笃司
山口博士
山本勇太
西岛敏文
佐佐木悟
刀根川浩巳
梅山伦秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN108810244A publication Critical patent/CN108810244A/zh
Application granted granted Critical
Publication of CN108810244B publication Critical patent/CN108810244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • H04M1/72412User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • H04M1/72415User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories for remote control of appliances
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72484User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开涉及语音对话系统以及信息处理装置。一种语音对话系统,包括:信息处理装置,具有第一语音输入输出设备;以及语音接口装置,具有第二语音输入输出设备,经由近距离无线通信与所述信息处理装置音频连接,其中,所述信息处理装置具有:语音输入输出单元,使用所述第一语音输入输出设备或者第二语音输入输出设备来进行语音的输入输出;对话单元,进行与用户的语音对话;以及处理单元,使用语音输入输出来进行所述语音对话以外的处理,所述语音输入输出单元在使用所述第二语音输入输出设备与所述用户进行语音对话的期间,在所述处理单元成为需要语音输入输出的第一状态的情况下,将用于语音的输入输出的设备切换为所述第一语音输入输出设备。

Description

语音对话系统以及信息处理装置
技术领域
本发明涉及利用语音与人对话的装置。
背景技术
近年来,已开发出通过与人进行对话而提供各种信息的机器人。例如,在日本特开2015-013351号公报中,公开了在网络上处理利用麦克风输入的语音并用语音返回针对输入的应答的沟通机器人。
如日本特开2015-013351号公报记载的系统,在沟通机器人的领域中,为了削减成本,作为接口的机器人与控制装置(例如智能手机等便携型计算机)进行无线通信,在控制装置侧进行语音的识别、应答的生成这样的结构成为一般的例子。
发明内容
在作为沟通机器人的控制装置利用了智能手机等的情况下,在语音对话过程中来电话的情况下的处理成为问题。例如,在机器人和智能手机保持音频连接的状态下接到电话时,对方的语音从机器人输出,对用户造成不协调感。
即,需要适合地切换由电话机自身进行的语音输入输出、和利用机器人的语音输入输出。
本发明是考虑上述课题而完成的,其目的在于,在机器人和控制装置通过无线方式连接的语音对话系统中适合地切换语音输入输出设备。
本发明所涉及的语音对话系统包括:信息处理装置,具有第一语音输入输出设备;以及语音接口装置,具有第二语音输入输出设备,经由近距离无线通信而与所述信息处理装置音频连接。
具体而言,其特征在于,所述信息处理装置具有:语音输入输出单元,使用所述第一语音输入输出设备或者第二语音输入输出设备来进行语音的输入输出;对话单元,进行与用户的语音对话;以及处理单元,使用语音输入输出来进行所述语音对话以外的处理,所述语音输入输出单元在使用所述第二语音输入输出设备与所述用户进行语音对话的期间,在所述处理单元成为需要语音输入输出的第一状态的情况下,将用于语音的输入输出的设备切换为所述第一语音输入输出设备。
本发明所涉及的语音接口装置是通过与信息处理装置进行通信而进行与用户的对话的对话接口。另外,信息处理装置是控制与用户的对话的装置(例如进行语音的识别、应答文的生成、语音的合成等的装置),典型地是智能手机等便携型的计算机。在语音接口装置和信息处理装置双方都具备语音输入输出设备。
信息处理装置具有的语音输入输出单元能够从本装置具有的第一语音输入输出设备、或者语音接口装置具有的第二语音输入输出设备选择进行语音的输入输出的设备。在选择出第二语音输入输出设备的情况下,经由利用近距离无线通信的语音连接来传送语音。
另外,处理单元是使用语音输入输出来进行语音对话以外的处理的单元。处理单元例如既可以是进行语音通话的单元,也可以是执行其他应用(例如电话应用)等的单元。
另外,在本发明中,在使用第二语音输入输出设备来进行语音对话的期间,在处理单元成为需要语音输入输出的状态的情况(例如有针对电话、通话应用的语音来电的情况等)下,将用于语音的输入输出的设备切换为第一语音输入输出设备。
根据上述结构,在与用户对话的状态下,能够利用通过近距离无线通信连接的语音接口装置,在接到电话等的情况下,能够将语音接口装置断开而用本装置应答。
另外,也可以特征在于,所述处理单元是经由无线通信网进行语音通话的单元。
本发明能够适合地应用于信息处理装置进行语音对话和语音通话双方的方式。
另外,也可以特征在于,所述信息处理装置以及所述语音接口装置之间利用蓝牙(注册商标)标准的语音规范(profile)来连接。
信息处理装置和语音接口装置在相互配对的状态下进行近距离通信,所以利用蓝牙的连接是适合的。另外,具有能够将智能手机用于信息处理装置等、并且能够抑制功耗这样的优点。另外,通过利用语音用的规范,能够进行延迟少的通信。
另外,也可以特征在于,所述处理单元在成为所述第一状态的情况下,向所述语音接口装置发送第一通知,所述语音接口装置在接收到所述第一通知的情况下,解除与所述信息处理装置的音频连接。
在通过蓝牙确立连接、且处理单元成为第一状态的情况下,通过将该意思发送到语音接口装置,能够解除音频连接。
另外,也可以特征在于,所述处理单元在语音输入输出变得不需要的情况下,针对所述语音接口装置发送第二通知,所述语音接口装置在接收到所述第二通知的情况下,使与所述信息处理装置的音频连接恢复。
例如,在通话结束的情况下等在处理单元侧语音输入输出变得不需要的情况下,语音接口装置无法探测该情况。因此,能够构成为从信息处理装置侧发送通知,从语音接口装置侧恢复音频连接。
另外,也可以特征在于,所述处理单元在成为所述第一状态的情况下,向所述语音接口装置发送第一通知,所述语音接口装置在接收到所述第一通知的情况下,在针对所述处理单元发送拒绝应答之后,解除与所述信息处理装置的音频连接。
另外,也可以特征在于,所述处理单元接收所述拒绝应答、且所述音频连接被解除的情况下,在语音输入输出变得不需要的情况下,通过针对所述语音接口装置发送第二通知,使所述音频连接恢复。
通过在解除音频连接之前发送拒绝应答,能够将“起因于信息处理装置而将音频连接切断”通知到信息处理装置侧。由此,信息处理装置能够识别使连接恢复的必要性。
另外,本发明所涉及的信息处理装置的特征在于,具有:
第一语音输入输出设备;语音输入输出单元,使用所述第一语音输入输出设备或者经由近距离无线通信而连接的语音接口装置具有的第二语音输入输出设备中的任意语音输入输出设备来进行语音的输入输出;对话单元,进行与用户的语音对话;以及处理单元,使用语音输入输出来进行所述语音对话以外的处理,所述语音输入输出单元在使用所述第二语音输入输出设备与所述用户进行语音对话的期间,在所述处理单元成为需要语音输入输出的第一状态的情况下,将用于语音的输入输出的设备切换为所述第一语音输入输出设备。
此外,本发明能够确定为包括上述单元的至少一部分的语音对话系统或者信息处理装置。另外,还能够确定为所述语音对话系统进行的语音对话方法、信息处理装置进行的信息处理方法。上述处理、单元只要不产生技术上的矛盾,就能够自由地组合来实施。
根据本发明,能够在机器人和控制装置通过无线方式连接的语音对话系统中适合地切换语音输入输出设备。
附图说明
图1是第一实施方式所涉及的语音对话系统的系统结构图。
图2是说明机器人10和控制装置20的连接的图。
图3是说明第一实施方式中的连接流程的图。
图4是机器人10、控制装置20、服务器装置30之间的数据流程图。
图5是说明第二实施方式中的连接流程的图。
图6是说明第三实施方式中的连接流程的图。
具体实施方式
以下,参照附图,说明本发明的优选的实施方式。
本实施方式所涉及的语音对话系统是通过取得用户发出的语音来进行语音识别,并根据识别结果生成应答文,从而进行与用户的对话的系统。
(第一实施方式)
图1是第一实施方式所涉及的语音对话系统的系统结构图。本实施方式所涉及的语音对话系统包括机器人10、控制装置20以及服务器装置30。
机器人10是具有扬声器、麦克风等,承担与用户的接口的单元。机器人10既可以是人型、角色型,也可以是其他形状。
控制装置20是控制经由机器人10进行的与用户的对话的装置。另外,服务器装置30是根据从控制装置20发送的请求,进行语音的识别和提供给用户的应答(应答文)的生成的装置。在本实施方式中,控制装置20是具有通话功能的智能手机。
在本实施方式中,机器人10仅作为语音接口发挥功能,控制装置20进行控制对话的处理。另外,服务器装置30进行发声内容的识别、应答文的生成等。
首先,说明机器人10。机器人10包括语音输入输出部11和近距离通信部12。
语音输入输出部11是取得用户发出的语音,再现从控制装置20发送的语音的单元。具体而言,使用内置的麦克风将语音变换为电信号(以下称为语音数据)。取得的语音数据经由后述近距离通信部12被发送到控制装置20。另外,使用内置的扬声器,将从控制装置20发送的语音数据变换为语音。
近距离通信部12是与控制装置20进行近距离无线通信的单元。在本实施方式中,近距离通信部12利用蓝牙(注册商标)标准来进行通信。近距离通信部12存储有与成为配对目的地的控制装置20有关的信息,能够用简便的处理进行连接。此外,蓝牙标准还被称为IEEE802.15.1。
接下来,说明控制装置20。控制装置20是进行机器人10的控制的装置,典型地是可移动计算机、便携电话、智能手机等小型的计算机。控制装置20能够构成为具有CPU、主存储装置、辅助存储装置的信息处理装置。在辅助存储装置中存储的程序被加载到主存储装置,由CPU执行,从而图1图示的各单元发挥功能。此外,图示的功能的全部或者一部分也可以使用专用设计的电路来执行。
控制装置20包括近距离通信部21、控制部22、通信部23、蜂窝通信部24、语音输入输出部25。
近距离通信部21具有的功能与上述近距离通信部12相同,所以省略详细的说明。
控制部22是从机器人10取得语音,取得针对该取得的语音的应答的单元。具体而言,将从机器人10取得的语音经由通信部23发送到服务器装置30(都将后述),从服务器装置30接收对应的应答文。另外,通过语音合成功能,将应答文变换为语音数据,发送到机器人10。另外,发送到机器人10的语音经由语音输出部13被提供给用户。由此,用户能够进行利用自然语言的会话。
另外,控制部22还是控制利用语音的通话的单元。例如,经由后述蜂窝通信部24与蜂窝网络连接,进行电话的呼叫接听。
通信部23是通过经由通信线路(例如无线LAN、便携电话网)接入网络来进行与服务器装置30的通信的单元。
蜂窝通信部24是与便携电话网进行通信的单元。例如,使用第3代的语音通信方式(3G)来进行通信,但也可以利用这以外的通信方式。例如,也可以经由第4代以后的数据通信方式(LTE等)进行通信。
语音输入输出部25是与语音输入输出部11同样地,取得用户发出的语音并且输出语音的单元。语音输入输出部25例如也可以是内置于智能手机的扬声器以及麦克风。
服务器装置30是在识别从控制装置20发送的语音之后,生成对用户提供的应答文的装置,包括通信部31、语音识别部32、应答生成部33。
通信部31具有的功能与上述通信部23相同,所以省略详细的说明。
语音识别部32是针对机器人具有的语音输入输出部11取得的语音进行语音识别并变换为文本的单元。语音识别能够通过既知的技术进行。例如,在语音识别部32中存储有声音模型和识别词典,比较取得的语音数据和声音模型来提取特征,使提取出的特征与识别词典匹配,从而进行语音识别。识别结果被发送到应答生成部33。
应答生成部33是根据从语音识别部32取得的文本来生成提供给用户的应答文的单元。提供的应答文例如既可以是基于事先存储的对话脚本(对话词典)的应答文,也可以是基于检索数据库、WEB而得到的信息的应答文。详细的处理内容将后述。
应答生成部33取得的信息以文本形式被发送到控制装置20,之后被变换为合成语音,经由机器人10输出给用户。
服务器装置30也能够构成为具有CPU、主存储装置、辅助存储装置的信息处理装置。在辅助存储装置中存储的程序被加载到主存储装置,由CPU执行,从而图1图示的各单元发挥功能。此外,图示的功能的全部或者一部分也可以使用专用设计的电路来执行。
接下来,说明机器人10与控制装置20之间的信息的发送接收方法。
在机器人10与控制装置20之间,发送接收如下两种数据:(1)从机器人向控制装置发送的语音数据,(2)从控制装置向机器人发送的语音数据。
在本实施方式中,在机器人10与控制装置20之间进行使用了蓝牙的语音连接,进行语音的发送接收。
图2是机器人10和控制装置20的连接时序的一个例子。此外,在本例子中,设为机器人10作为连接目的地具有控制装置20的信息。即,设为配对完成。
在两者处于未连接状态的情况下,机器人10周期性地(例如以1秒为周期)检索控制装置20,在发现控制装置20后,开始利用HFP(Hands-Free Profile,免提规范)的连接(步骤S11)。HFP是指专用于语音的传送的规范,通过利用它,能够双向地传送语音。此外,在本实施方式中,机器人10与HFP中的免提单元对应,控制装置20与音频网关对应。
在由控制装置20接收到连接请求时,执行各种初始化处理(步骤S12)。在此,进行降噪功能的设定(NREC)、扬声器音量的设定(VGS)、麦克风增益设定(VGM)等。此外,在利用HFP的初始化处理中要花费一些时间,所以机器人10、控制装置20也可以并行地进行其他处理。在利用HFP的连接完成后,进行用于设置实际上传送语音的信道的音频连接(步骤S13),由此,成为在机器人10与控制装置20之间开通了语音信道的状态。
在此成为问题的是如下方面:控制装置20成为利用机器人10的语音输入输出部来进行语音的输入输出的状态,所以在从外部来电话的情况下,从机器人10传出语音。例如,在机器人和智能手机保持语音连接的状态下接到电话时,对方的语音从机器人输出,对用户造成不协调感。
为了解决该问题,在第一实施方式中,在来电话的情况下,控制部22解除机器人10与控制装置20之间的音频连接,在通话结束之后,再次确立与机器人10的音频连接。
图3是第一实施方式中的机器人10和控制装置20的连接时序图。如图所示,在本实施方式中,在控制装置20从外部接收到来电的情况下,解除在步骤S13中进行的音频连接(步骤S14)。由此,经由语音输入输出部11进行的语音输入输出变为经由语音输入输出部25进行。即,能够利用智能手机自身的扬声器以及麦克风来通话。
在通话结束后,控制部22针对机器人10发送通话结束通知(本发明中的第二通知)(步骤S15),探测到此的机器人10再次进行音频连接(步骤S16)。
接下来,参照作为说明处理内容以及数据的流动的流程图的图4,说明语音对话处理。
首先,在步骤S21中,机器人10具有的语音输入输出部11经由麦克风取得用户发出的语音。取得的语音被变换为语音数据,经由通信部被发送到控制装置20具有的控制部22。另外,控制部22将取得的语音数据发送到服务器装置30具有的语音识别部32。
接下来,语音识别部32针对取得的语音数据进行语音识别并变换为文本(步骤S22)。语音识别的结果得到的文本被发送到应答生成部33。接下来,应答生成部33根据从用户得到的发声的内容生成应答(步骤S23)。
如上所述,应答文既可以使用本装置具有的对话词典(对话脚本)来生成,也可以使用处于外部的信息源(数据库服务器、WEB服务器)来生成。生成的应答文被发送到控制装置20,通过控制部22被变换为语音数据(步骤S24)。语音数据被发送到机器人10,进行语音数据的再现(步骤S25)。
如以上说明,本实施方式所涉及的控制装置20在与机器人10之间确立音频连接的状态下从外部收到来电的情况下,解除音频连接,在通话结束之后,通过发送通话结束通知而使机器人10再次确立音频连接。
根据上述结构,能够防止在与用户的语音对话中来电话而从机器人传出对方的语音。
(第二实施方式)
在第一实施方式中,在有来电的情况下控制装置20解除了音频连接,但也可以从机器人10侧解除音频连接。图5是第二实施方式中的机器人10和控制装置20的连接时序图。
在第二实施方式中,在有来电的情况下,从控制装置20向机器人10发送来电通知(本发明中的第一通知)(步骤S141)。该通知在进行HFP连接的情况下,通过中间件(middleware)被自动地发送,但来电通知也可以经由HFP连接以外的规范发送。然后,机器人10在探测到该来电通知的情况下解除音频连接(步骤S143)。
这样,也可以机器人10成为主体而进行音频连接的解除以及再确立。通过将来电通知发送到机器人10,机器人10能够掌握针对控制装置20有来电,能够顺畅地切换语音的路径。
(第三实施方式)
在第二实施方式中,控制部22探测通话结束,针对机器人10发送了通话结束通知。但是,在控制装置20无法探测到起因于来电而音频连接被解除的情况下,发生无法正确地判断是否应发送通话结束通知的情形。
因此,在第三实施方式中,在步骤S141中被发送了来电通知时,如果机器人10发送拒绝通知(步骤S142),则之后解除音频连接。
另外,控制装置20在通话结束、且最近接收到拒绝通知的情况下,发送通话结束通知。
根据第三实施方式,控制装置20能够掌握起因于来电而音频连接被解除的情况。
(变形例)
上述实施方式只不过是一个例子,本发明能够在不脱离其要旨的范围内适宜地变更而实施。
例如,在实施方式的说明中,服务器装置30进行了语音识别,但也可以使控制装置20具有进行语音识别的单元。另外,在实施方式的说明中,在对话服务器20中进行应答文的生成,但也可以由控制装置20进行应答文的生成。
另外,在实施方式的说明中,例示了针对控制装置20从外部收到来电的情况,但也可以通过与语音通话有关的触发(来电以及通话结束)以外的方式来切换音频连接。例如,也可以在需要语音输入输出的应用请求了语音的输入输出的情况下,解除与机器人10的音频连接。在该情况下,也可以在该应用中的语音的输入输出变得不需要的情况下使音频连接恢复。另外,也可以构成为在控制部22中执行这样的应用。

Claims (9)

1.一种语音对话系统,包括:
信息处理装置,具有第一语音输入输出设备;以及
语音接口装置,由所述信息处理装置控制,具有第二语音输入输出设备,经由近距离无线通信而与所述信息处理装置音频连接,
其中,所述信息处理装置具有:
语音输入输出单元,使用所述第一语音输入输出设备或者第二语音输入输出设备来进行语音的输入输出;
对话单元,从所述语音接口装置取得来自用户的语音数据,并向所述语音接口装置发送对应于所述语音数据的应答文,以使用所述第二语音输入输出设备进行与所述用户的语音对话;以及
处理单元,使用语音输入输出来进行所述语音对话以外的处理,
所述语音输入输出单元在使用所述第二语音输入输出设备与所述用户进行语音对话的期间,在所述处理单元成为需要语音输入输出的第一状态的情况下,将用于语音的输入输出的设备切换为所述第一语音输入输出设备。
2.根据权利要求1所述的语音对话系统,其中,
所述处理单元是经由无线通信网进行语音通话的单元。
3.根据权利要求1所述的语音对话系统,其中,
所述信息处理装置以及所述语音接口装置之间利用蓝牙标准的语音规范来连接。
4.根据权利要求2所述的语音对话系统,其中,
所述信息处理装置以及所述语音接口装置之间利用蓝牙标准的语音规范来连接。
5.根据权利要求3所述的语音对话系统,其中,
所述处理单元在成为所述第一状态的情况下,向所述语音接口装置发送第一通知,
所述语音接口装置在接收到所述第一通知的情况下,解除与所述信息处理装置的音频连接。
6.根据权利要求1至5中的任意一项所述的语音对话系统,其中,
所述处理单元在语音输入输出变得不需要的情况下,针对所述语音接口装置发送第二通知,
所述语音接口装置在接收到所述第二通知的情况下,使与所述信息处理装置的音频连接恢复。
7.根据权利要求3所述的语音对话系统,其中,
所述处理单元在成为所述第一状态的情况下,向所述语音接口装置发送第一通知,
所述语音接口装置在接收到所述第一通知的情况下,在针对所述处理单元发送拒绝应答之后,解除与所述信息处理装置的音频连接。
8.根据权利要求7所述的语音对话系统,其中,
所述处理单元在接收到所述拒绝应答并且所述音频连接被解除的情况下,在语音输入输出变得不需要的情况下,针对所述语音接口装置发送第二通知,从而使所述音频连接恢复。
9.一种信息处理装置,对语音接口装置进行控制,所述信息处理装置具有:
第一语音输入输出设备;
语音输入输出单元,使用所述第一语音输入输出设备或者经由近距离无线通信而连接的语音接口装置具有的第二语音输入输出设备中的任意语音输入输出设备来进行语音的输入输出;
对话单元,从所述语音接口装置取得来自用户的语音数据,并向所述语音接口装置发送对应于所述语音数据的应答文,以使用所述第二语音输入输出设备进行与所述用户的语音对话;以及
处理单元,使用语音输入输出来进行所述语音对话以外的处理,
所述语音输入输出单元在使用所述第二语音输入输出设备与所述用户进行语音对话的期间,在所述处理单元成为需要语音输入输出的第一状态的情况下,将用于语音的输入输出的设备切换为所述第一语音输入输出设备。
CN201810364088.3A 2017-04-27 2018-04-23 语音对话系统以及信息处理装置 Active CN108810244B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017088728A JP6508251B2 (ja) 2017-04-27 2017-04-27 音声対話システムおよび情報処理装置
JP2017-088728 2017-04-27

Publications (2)

Publication Number Publication Date
CN108810244A CN108810244A (zh) 2018-11-13
CN108810244B true CN108810244B (zh) 2021-05-25

Family

ID=63917438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810364088.3A Active CN108810244B (zh) 2017-04-27 2018-04-23 语音对话系统以及信息处理装置

Country Status (3)

Country Link
US (1) US11056106B2 (zh)
JP (1) JP6508251B2 (zh)
CN (1) CN108810244B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109788128A (zh) * 2018-12-27 2019-05-21 深圳市优必选科技有限公司 一种来电提示方法、来电提示装置及终端设备
US10848619B2 (en) * 2019-03-07 2020-11-24 At&T Intellectual Property I, L.P. Communications network security for handling proxy voice calls

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1555652B1 (en) * 2004-01-19 2007-11-14 Harman Becker Automotive Systems GmbH Activation of a speech dialogue system
JP2006099424A (ja) * 2004-09-29 2006-04-13 Hitachi Ltd 音声情報サービスシステム及び音声情報サービス端末
JP2006154926A (ja) * 2004-11-25 2006-06-15 Denso Corp キャラクタ表示を利用した電子機器操作システム及び電子機器
CN101120556A (zh) * 2005-02-17 2008-02-06 夏普株式会社 通信网络的控制系统、通信终端以及通信网络的控制方法
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
CN102026322A (zh) 2009-09-23 2011-04-20 中兴通讯股份有限公司 语音切换方法和系统
KR101248562B1 (ko) * 2010-08-25 2013-03-28 교세라 가부시키가이샤 휴대전화기 및 그 제어방법
JP5692332B2 (ja) * 2011-03-23 2015-04-01 株式会社デンソー 車両用装置、および機器連携システム
JP5445599B2 (ja) * 2011-03-23 2014-03-19 株式会社デンソー 車両用装置、および機器連携システム
JP2013055545A (ja) 2011-09-05 2013-03-21 Honda Motor Co Ltd ハンズフリー通話装置
JP6043545B2 (ja) * 2012-08-24 2016-12-14 京セラ株式会社 携帯端末装置、プログラムおよび携帯端末装置の制御方法
US9112930B2 (en) * 2012-10-26 2015-08-18 Microsoft Technology Licensing, Llc Updating services during real-time communication and sharing-experience sessions
KR101504699B1 (ko) * 2013-04-09 2015-03-20 얄리주식회사 유무선 통신 네트워크를 이용한 음성대화방법 및 장치
CN103220423A (zh) * 2013-04-10 2013-07-24 威盛电子股份有限公司 语音接听方法与移动终端装置
US9640182B2 (en) * 2013-07-01 2017-05-02 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and vehicles that provide speech recognition system notifications
JP5975947B2 (ja) * 2013-07-08 2016-08-23 ユニロボット株式会社 ロボットを制御するためのプログラム、及びロボットシステム
CN111506159A (zh) * 2014-02-21 2020-08-07 索尼公司 可穿戴设备
CN104159169B (zh) * 2014-07-31 2017-12-19 深圳市汇川技术股份有限公司 一种远程语音对讲系统
JP6382018B2 (ja) * 2014-08-05 2018-08-29 アルパイン株式会社 電子装置、ハンズフリーの制御方法およびプログラム
KR20160051977A (ko) * 2014-10-30 2016-05-12 삼성전자주식회사 통신 서비스 운용 방법 및 이를 지원하는 전자 장치
US20170237986A1 (en) * 2016-02-11 2017-08-17 Samsung Electronics Co., Ltd. Video encoding method and electronic device adapted thereto
CN106921803A (zh) * 2017-03-29 2017-07-04 联想(北京)有限公司 多媒体数据的播放方法及控制设备

Also Published As

Publication number Publication date
US11056106B2 (en) 2021-07-06
CN108810244A (zh) 2018-11-13
JP6508251B2 (ja) 2019-05-08
JP2018185758A (ja) 2018-11-22
US20180315423A1 (en) 2018-11-01

Similar Documents

Publication Publication Date Title
US11302318B2 (en) Speech terminal, speech command generation system, and control method for a speech command generation system
US9824685B2 (en) Handsfree device with continuous keyword recognition
US8983383B1 (en) Providing hands-free service to multiple devices
JP6402748B2 (ja) 音声対話装置および発話制御方法
US10694437B2 (en) Wireless device connection handover
US20080182629A1 (en) Portable terminal device
CN106982286B (zh) 一种录音方法、设备和计算机可读存储介质
JP6787269B2 (ja) 音声認識システム及び音声認識方法
CN108810244B (zh) 语音对话系统以及信息处理装置
CN105551491A (zh) 语音识别方法和设备
CN108806675B (zh) 语音输入输出装置、无线连接方法、语音对话系统
JP2016139952A (ja) ハイブリッド端末
KR20050021392A (ko) 소형 이동 단말기의 화자 및 환경적응 음성 인식 방법
US11924717B2 (en) System and method for data analytics for communications in walkie-talkie network
KR101679627B1 (ko) Ptt 통신용 핸즈프리, 이를 이용한 ptt 통신 시스템 및 방법
WO2018058875A1 (zh) 一种终端的通话切换方法、系统及终端、计算机存储介质
KR100724888B1 (ko) 무선통신 모듈을 구비한 이동통신 단말기 및 이동통신단말기의 사운드 출력 제어방법
JP6583193B2 (ja) 音声対話システムおよび音声対話方法
JP6228998B2 (ja) 通信システム及びプログラム
RU2585974C2 (ru) Способ обеспечения общения людей, говорящих на разных языках
JP6680125B2 (ja) ロボットおよび音声対話方法
JP2013214924A (ja) 無線操作機、無線操作機の制御方法、およびプログラム
WO2019084962A1 (zh) 语音翻译方法、装置和翻译机
KR20050102743A (ko) 휴대폰의 음성인식을 이용한 문자 메시지 전송 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant