CN111524512A

CN111524512A - 低延时开启one-shot语音对话的方法、外围设备及低延时响应的语音交互装置

Info

Publication number: CN111524512A
Application number: CN202010290726.9A
Authority: CN
Inventors: 邹兴旺; 王鹏
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-11

Abstract

本发明公开一种低延时开启one‑shot语音对话的方法，该方法用于通过外围设备开启与外围设备相关联的智能终端的one‑shot语音对话，其包括在外围设备端配置与智能终端的唤醒指令适配的关键词存储；在外围设备端对拾取的音频进行第一语音监听，在监听到拾取的音频中包括有关键词的前缀时，开始向智能终端上行音频信息，其中，音频信息被智能终端用作进行one‑shot语音对话的依据。本发明还公开了用于低延时开启one‑shot语音对话的外围设备。本发明的方案通过对唤醒词前缀的监测，实现了提前上行音频信息，缩短了通过外围设备来开启智能终端上的语音对话时存在的延时时长，达到了缩短用户等待时长的效果。

Description

低延时开启one-shot语音对话的方法、外围设备及低延时响应的语音交互装置

技术领域

本发明涉及语音交互技术领域，特别是一种低延时开启one-shot语音对话的方法和用于开启one-shot语音对话的外围设备，如蓝牙耳机，以及缩短one-shot语音对话延时的方法和低延时响应的语音交互装置。

背景技术

近年来，随着科技的发展，利用语音进行交互的产品得到日益广泛的应用。而在实际应用中，为了方便用户对智能设备的利用，基于蓝牙连接的外围设备，如蓝牙耳机也得到快速发展。为了能够配合实现对语音交互产品的语音控制，这些外围设备也逐渐开始支持语音交互功能。例如，为了方便利用智能手机的语音交互功能，具有语音交互功能的蓝牙耳机也逐渐开始进入人们的视线范围内，如专利号为201821443955.4和201821056319.6的实用新型专利就分别公开了具有语音唤醒功能的蓝牙耳机。当前这些支持智能语音交互的蓝牙耳机，大部分都是通过支持用户说关键词(如“hey siri”)来触发(唤醒)手机端的语音助手，从而实现语音对话。

目前，为了实现外围设备如蓝牙耳机对语音交互产品的唤醒功能，一般是通过蓝牙技术直接透传音频至具有语音交互功能的产品端，由产品端对透传的音频进行判断，以确定是否唤醒；或是通过在外围设备端对采集到的音频信息进行识别判断处理，在确定是需要唤醒的音频后，再通过蓝牙技术传输有效音频至具有语音交互功能的产品端，以唤醒语音交互功能。然而前者的实现方式下，需要外围设备持续采集音频传输至产品端，对外围设备的消耗非常大，导致外围设备不耐用。而后者的实现方式下，在外围设备上进行处理后再传输有效音频虽然能够降低功耗，但是会导致产品端接收音频和进行响应时存在很明显的延时现象，而且还需要外围设备端具有较高的数据处理能力，会增加外围设备的结构复杂程度和制造、维护成本。

发明内容

为了克服现有的在外围设备上进行低功耗唤醒的技术方案中存在的延时缺陷，发明人想到了利用唤醒词前缀来缩短在one-shot(一语即达)语音对话过程中的延时时长。其中，one-shot是语音交互的一种模式，其采用唤醒识别一体化的方式，使得用户的语音指令可以同时包含唤醒指令和交互控制指令，与传统的需要等待唤醒反馈再说交互控制指令的相区别。one-shot的一大特点是识别唤醒与语义理解一体化，保证语音交互的统一性与连贯性，完成操控。举个简单的例子对基于one-shot的语音交互模式进行说明如下：

传统智能语音的交互方式为一问一答，用户发出唤醒词指令，需要设备反馈待机信息，然后才能开始交互，例如：

用户：你好小驰(唤醒词指令)

设备：有什么可以帮您？(设备反馈，表示处于信息接收状态)

用户：我要去机场

设备：开始为您导航去机场

one-shot模式下却可以一语即中，实现“唤醒词+语音语义识别”一体化，比如实现这样的交互：

用户：你好小驰，我要去机场

设备：开始为您导航去机场

根据本发明的一个方面，提供了一种低延时开启one-shot语音对话的方法，该方法用于通过外围设备开启与所述外围设备相关联的智能终端的one-shot语音对话，其包括

在外围设备端配置与所述智能终端的唤醒指令适配的关键词存储；

在外围设备端对拾取的音频进行第一语音监听，在监听到拾取的音频中包括有所述关键词的前缀时，开始向所述智能终端上行音频信息，其中，所述音频信息被所述智能终端用作进行one-shot语音对话的依据。

根据本发明的第二个方面，提供了一种用于开启one-shot语音对话的外围设备，其包括

存储模块，用于存储与和所述外围设备关联的智能终端的唤醒指令适配的关键词；

用于进行音频拾取的拾音模块；

用于与智能终端建立通信连接的通信模块；和

第一语音监听模块，用于对拾取的音频进行第一语音监听，在监听到拾取的音频中包括有所述关键词的前缀时，开始通过所述通信模块向所述智能终端上行音频信息。

根据本发明的第三个方面，提供了一种蓝牙耳机，其包括

存储模块，用于存储与和所述蓝牙耳机关联的智能终端的唤醒指令适配的关键词；

用于拾取音频的麦克风；

用于建立与智能终端的蓝牙连接的蓝牙模块；和

第一语音监听模块，用于对拾取的音频进行第一语音监听，在监听到拾取的音频中包括有所述关键词的前缀时，开始通过所述蓝牙模块向所述智能终端上行音频信息。

根据本发明的第四个方面，提供了一种缩短one-shot语音对话延时的方法，该方法应用在通过外围设备实现与相关联的智能终端的语音交互的场景中，其中，智能终端具有语音交互功能；该方法包括

在外围设备端拾取音频进行第一语音监听，并在监听到拾取的音频中包括有配置的关键词的前缀时，开始向与之建立了通信连接的所述智能终端上行音频信息；

在所述智能终端上根据接收到的音频信息进行语音交互响应处理。

根据本发明的第五个方面，提供了一种能够快速响应的语音交互装置，其包括

具有语音交互功能的智能终端；和

与所述智能终端关联的外围设备，其中，所述外围设备为上述的用于开启one-shot语音对话的外围设备；

智能终端根据接收到的由所述外围设备上行的音频信息或根据接收到的由所述外围设备上行的音频信息和唤醒信号进行语音交互响应处理。

本发明实施例的方案，通过在外围设备端配置唤醒指令，并对拾取的音频进行唤醒词前缀的监测，能够做到提前上行音频信息，以使得智能终端能够提前开始对用户的音频信息进行语音处理，缩短了通过外围设备来开启智能终端上的语音对话时存在的延时时长，进而达到了缩短用户等待时长的效果。

附图说明

图1为本发明一实施方式的低延时开启one-shot语音对话的方法流程图；

图2为本发明另一实施方式的低延时开启one-shot语音对话的方法流程图；

图3为本发明一实施方式的缩短one-shot语音对话延时的方法流程图；

图4为本发明又一实施方式的缩短one-shot语音对话延时的方法流程图；

图5为本发明一种实施方式的用于开启one-shot语音对话的外围设备的原理框架示意图；

图6为本发明另一实施方式的用用于开启one-shot语音对话的外围设备的原理框架示意图；

图7为本发明一实施方式的能够快速响应的语音交互装置的原理框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，组件可以、但不限于是运行于处理器的过程、处理器、对象、可执行组件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是组件。一个或多个组件可在执行的过程和/或线程中，并且组件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。组件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一组件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由于本发明实施例涉及的低延时开启one-shot语音对话的方案可以应用于任何具有智能语音交互功能的智能设备的关联外围设备上，使得智能设备上承载的语音产品能够在外围设备端被快速开启，外围设备例如可以是手表、耳机、音箱等，但是本发明的适用范围并不局限于此。通过本发明实施例提供的方案，能够在低延时的状态下通过外围设备将具有语音交互功能的智能终端设备上的语音助手唤醒，并根据用户语音指令启动相应的语音对话，缩短用户等待响应的时长，保证交互时的用户体验。

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明的一种实施方式的低延时开启one-shot语音对话的方法流程，该方法用于通过外围设备开启与外围设备相关联的智能终端的one-shot语音对话，如图1所示，本实施例的方法包括如下步骤：

步骤S101：在外围设备端配置与智能终端的唤醒指令适配的关键词存储。

步骤S102：在外围设备端对拾取的音频进行第一语音监听，在监听到拾取的音频中包括有关键词的前缀时，开始向智能终端上行音频信息。

其中，本发明实施例中的外围设备至少具有拾音功能、与智能终端的通信功能和简单的数据处理能力，例如可以是蓝牙耳机，该蓝牙耳机能够通过其麦克风进行拾音，并通过蓝牙模块建立与智能终端的通信连接。通过本发明实施例的步骤S101可以基于待与外围设备通信的智能终端上的语音产品(例如语音助手应用软件)所能够响应的唤醒指令，来对外围设备端进行关键词配置，例如将智能终端上能够响应的唤醒指令对应的关键词配置并存储在该外围设备端。这样，在外围设备拾取到用户发出的语音信息，即拾取到音频时，就可以通过本发明实施例的步骤S102来实现对拾取音频的语音监听。在本发明实施例的步骤S102中，在外围设备端仅仅对拾取的音频进行第一语音监听，该第一语音监听实现为对拾取音频是否包括有配置的关键词前缀的检测，并在检测到包括有配置的关键词前缀时，就开始向智能终端上行音频信息。

示例性地，在智能终端如智能手机上的语音助手可以被“晓听晓听”这一语音指令唤醒，即“晓听晓听”为智能手机上安装的语音助手的唤醒指令，相应地，就在与该智能终端的关联外围设备，如该智能手机配套的蓝牙耳机上配置“晓听晓听”的关键词并存储。这样，在蓝牙耳机通过麦克风拾取到用户音频时，就会通过在该蓝牙耳机上配置的第一语音监听处理方案，对拾取的用户音频进行检测，以判断拾取的用户音频是否包含关键词的前缀，例如在该例子中，唤醒词前缀可以是“晓听”，如果检测到用户音频包含“晓听”这一唤醒词前缀，那么蓝牙耳机就开始向智能手机的语音助手上行音频信息。本发明实施例的方式一改传统的低功耗唤醒方案中，必须在外围设备完成语音识别处理才向智能终端发送语音指令的惯式思维方式，想到仅仅通过唤醒词前缀的检测来提前上行音频信息，使得用户的等待延时能够缩短300-500ms左右，取得了非常好的用户交互体验，为低功耗唤醒提供了新的解决思路，大幅缩短了在外围设备端进行语音处理导致的交互延时，尤其适用于one-shot语音交互模式中。

其中，在具体实现中，作为一种优选实现方式，在外围设备端拾音可以通过端点检测技术(又称VAD检测技术，具体实现方式可以参照现有技术)实现。通过端点检测技术能够自动识别用户音频的开始时点和结束时点，实现自动拾音。

优选地，本发明实施例中在检测到唤醒词前缀即关键词前缀时，向智能终端上行的音频信息实现为包括自检测到唤醒词前缀起向前缓存的前置音频信息以及后续的音频信息。示例性地，在外围设备端配置了“晓听晓听”的关键词，在检测到“晓听”这一关键词前缀时，基于关键词前缀的结束点，即自“听”这一音频信号开始，向前(即向晓的方向)缓存预定时长，例如1.5s，的音频信息作为前置音频信息，同时继续缓存后续拾取的音频信息，即“听”这一音频信号之后的音频信息作为后续音频信息，将前置音频信息和后续音频信息均作为要上行的音频信息流式上传给智能终端。其中，传输通道例如可以是两者之间建立的蓝牙通信连接。由于在实际应用中，麦克风拾音是存在一定时长(一般为200～300ms)的收敛期的，而外围设备在进行数据传输时，尤其是通过蓝牙来传输数据时会存在传输延迟，因此，通过基于关键词前缀的结束点向前缓存预定时长的前置音频信息与后续音频信息一起上行给智能终端，可以保证向智能终端上传的音频信息的完整性，能够有效避免裁剪到有效音频，进而保证语音交互响应的准确性。

通过上述方法在外围设备端进行关键词前缀检测和提前上行音频信息之后，智能终端就可以提前获取到上行音频信息进行语音处理，例如可以基于实时接收到的音频信息来进行唤醒匹配计算和识别处理，其中，智能终端上的语音助手对接收到的音频信息进行唤醒匹配计算和识别处理，并根据唤醒匹配计算和识别处理的结果进行对话交互的实现方式可以沿用语音助手原有的实现方案或通过其他现有技术实现，本发明实施例对此不进行限制。这样，智能终端就可以基于外围设备提前开始上行的音频信息进行one-shot语音对话处理和响应，缩短交互响应时间。

其中，检测的唤醒词前缀即关键词前缀的长度可以根据需求设置，优选地，检测的关键词前缀的长度设置为两个关键词字符。示例性地，对于“晓听晓听”这一唤醒指令关键词，检测的关键词前缀可以是两个关键词字符，即为“晓听”，这样在检测到“晓听”两个字符时就会开始上行音频信息，而不需要检测到完成的关键词。经过发明人大量的实验发现，将关键词前缀的长度设定为两个关键词字符时，语音响应的效率是最高的，既能保证降低的误唤醒率，又能保证最大限度的缩短语音对话延时。

图2示意性显示了根据本发明的另一实施方式的低延时开启one-shot语音对话的方法，如图2所示，在图1所示方法实施例的基础上，本发明实施例的方法还包括如下步骤：

步骤S103：在外围设备端还对拾取的音频进行第二语音监听，在监听到拾取的音频中包括有关键词时，向智能终端输出唤醒信号。

在该实施例中，在外围设备端同时还进行唤醒关键词的检测，并在检测到音频中包括有唤醒关键词时，向智能终端发送唤醒信号，以告诉智能终端当前的音频信息中包括了唤醒词，语音助手可以被唤醒。示例性地，唤醒信号可以通过字符“1”来标识。在具体实现中，第二语音监听的处理可以在第一语音监听检测到唤醒词前缀后才开始对拾取的音频继续进行关键词检测，也可以是通过一个与第一语音监听并行的监听线程来同时进行检测处理，本发明实施例对此不进行限制。这样，就可以实现将上行音频信息的检测与唤醒关键词的检测分离，使得智能终端既能提前开始预处理上行音频信息，又能基于外围设备端发送的唤醒信号来启动one-shot语音对话，在缩短响应延时的同时，保证了唤醒成功率。

其中，在智能终端上可以对接收到的上行音频信息仅进行实时语音识别处理，并在接收到唤醒信号时，将识别出的音频信息对应的文字信息展示在智能终端的用户界面上，直至用户语音说完，并在用户语音说完后，基于智能终端的语音助手自身的对话配置，来反馈语音对话结果，以提高语音交互响应的效率并保证唤醒成功率。也可以在智能终端上同时对接收到的上行音频信息进行实时唤醒匹配计算，以同时在智能终端对音频信息是否包含唤醒指令进行检测，并在接收到唤醒信号时，基于智能终端的唤醒匹配结果，例如在智能终端上的唤醒检测结果也为唤醒指令匹配成功时，才将识别出的音频信息对应的文字信息展示在智能终端的用户界面上，以进一步提高唤醒成功率。在具体实现中，判断用户语音是否说完可以是在智能终端上通过端点检测技术来检测音频信息的开始时点和结束时点，在检测到结束时点时，认为用户语音已经说完。端点检测技术的具体实现方式可以参照现有技术进行实现，在此不再赘述。

优选地，还可以在智能终端上设置等待响应时长，该等待响应时长的计时起点设置为接收到外围设备的第一包上行音频信息数据包的时间点，并将智能终端实现为自接收到外围设备的第一包上行音频信息数据包开始进行超时监测，如果在等待响应时长的时间长度内，都没有接收到外围设备的唤醒信号，则认为当前音频信息中并不包括唤醒词，即为非有效的用户交互音频，此时，智能终端就将接收到的上行音频信息丢弃(即不对其进行语音交互响应)，同时向外围设备反馈结束上行音频信息的数据包，以告知外围设备终止上行音频，以减少对外围设备和智能终端的消耗。优选地，等待响应时长可以设置为正常人说一句话后的平均换气时长，例如为3s。

在其他实现例中，还可以不采用上述的发明构思来缩短语音对话延时，而是通过在外围设备端对拾取的音频进行唤醒关键词检测，并在检测到唤醒关键词后，对拾取的音频信息进行语音识别处理和裁剪处理，以裁剪出有效音频上行给智能终端，这样智能终端不需要进行唤醒匹配计算，只需要对音频信息进行识别和对话响应即可，也能达到缩短延时的效果，但对外围设备端的数据处理和运算能力要求较高，如果外围设备端的数据处理和运算能力不足的话，会严重影响语音识别的结果和语音交互响应的效果。

图3示意性地显示了图1所示的方法实施例在缩短one-shot语音对话延时中的应用，本发明实施例以该应用场景为通过外围设备实现与相关联的智能终端的语音交互为例进行说明，其中，发明实施例中的智能终端具有语音交互功能，如图3所示，该方法包括如下步骤：

步骤S301：在外围设备端配置与智能终端的唤醒指令适配的关键词存储。

步骤S302：在外围设备端拾取音频进行第一语音监听，并在监听到拾取的音频中包括有配置的关键词的前缀时，开始向与之建立了通信连接的智能终端上行音频信息。

步骤S303：在智能终端上根据接收到的音频信息进行语音交互响应处理。

本发明实施例的各个步骤的具体实现方式可以参照前文方法叙述，在此不再赘述。其中，步骤S303中智能终端根据获取到的上行音频信息进行语音交互响应处理，例如可以基于实时接收到的音频信息来进行唤醒匹配计算和识别处理，即智能终端上的语音助手对接收到的音频信息进行唤醒匹配计算和识别处理，并根据唤醒匹配计算和识别处理的结果进行对话交互。其具体实现方式可以沿用语音助手原有的实现方案或通过其他现有技术实现，本发明实施例对此不进行限制。这样，智能终端就可以基于外围设备提前开始上行的音频信息进行one-shot语音对话处理和响应，缩短交互响应时间。

图4示意性地显示了图2所示的方法实施例在缩短one-shot语音对话延时中的应用，其中，以该应用场景为通过外围设备实现与相关联的智能终端的语音交互为例进行说明，如图4所示，该方法包括如下步骤：

步骤S401：在外围设备端配置与智能终端的唤醒指令适配的关键词存储。

步骤S402：在外围设备端拾取音频进行第一语音监听，并在监听到拾取的音频中包括有配置的关键词的前缀时，开始向与之建立了通信连接的智能终端上行音频信息。

步骤S403：在监听到关键词前缀后，外围设备端继续拾取的音频进行第二语音监听，并在监听到拾取的音频中包括有配置的关键词时，向智能终端输出唤醒信号。

步骤S404：在智能终端上根据接收到的音频信息和唤醒信号进行语音交互响应处理。

其中，步骤S403是实现为在第一语音监听处理检测到关键词前缀后，继续对拾取的音频进行语音监听，即第二语音监听，以检测拾取的音频中是否包括有唤醒关键词。而在步骤S404中，智能终端则会根据接收到的音频信息和唤醒信号进行语音交互响应处理，例如是实现为在接收到实时上行音频信息时，对实时上行音频信息进行唤醒匹配计算和语音识别处理，在接收到唤醒信号时，根据唤醒信号和唤醒匹配计算的结果来将音频信息的识别结果在用户界面上输出展示，并在判断用户语音结束时，根据智能终端的语音助手本身的语音对话配置来进行语音对话响应。其中，优选地，智能终端基于唤醒信号进行语音交互响应还包括智能终端在自接收到外围设备端第一包上行音频信息数据包时开始计时，并在计时的预设时长内(本文称为等待响应时长)判断是否接收到唤醒信号，如果接收到唤醒信号则对音频信息进行交互响应，如果未接收到唤醒信号则丢弃接收到的音频信息，并通过发送包含结束标识的数据包以告知外围设备终止上行。本发明实施例的各个步骤的具体实现方式可以参照前文方法叙述，在此不再赘述。

图5示意性地显示了本发明一种实施方式的用于开启one-shot语音对话的外围设备的原理框架，如图5所示，该外围设备中至少包括以下模块：

存储模块50，用于存储与和外围设备关联的智能终端的唤醒指令适配的关键词；

用于进行音频拾取的拾音模块51；

用于与智能终端建立通信连接的通信模块52；和

第一语音监听模块53，用于对拾取的音频进行第一语音监听，在监听到拾取的音频中包括有关键词的前缀时，开始通过通信模块52向智能终端上行音频信息。

图6示意性地显示了本发明另一种实施方式的用于开启one-shot语音对话的外围设备的原理框架，如图6所示，在图5所示实施例的基础上，本发明实施例的外围设备中还包括如下模块：

第二语音监听模块54，用于对拾取的音频进行第二语音监听，在监听到拾取的音频中包括有所述关键词时，通过所述通信模块向所述智能终端输出唤醒信号。

其中，向智能终端上行的音频信息包括以监听到的关键词前缀为起点，向前缓存了预设时长的前置音频信息以及缓存的后续音频信息。图5和图6实施例中所述的各个模块的具体实现方式可以对应参照前文方法部分叙述，故在此不再赘述。

在具体应用中，图5和图6所述的外围设备可以为蓝牙耳机，在为蓝牙耳机的实现例中，拾音模块51可以实现为麦克风，通信模块52可以实现为蓝牙模块。

图7示意性地显示了一种能够快速响应的语音交互装置，如图7所示，该装置包括具有语音交互功能的智能终端1和与智能终端关联的外围设备2。

其中，外围设备可以为图5或图6所述的用于开启one-shot语音对话的外围设备。这样，就可以通过外围设备对拾取的音频进行第一语音监听和第二语音监听，并在监听到唤醒词前缀时缓存前置音频信息和后续音频信息上行至智能终端，以使得智能终端根据接收到的由外围设备上行的音频信息进行语音交互响应处理；而在监听到唤醒词时进一步向智能终端输出唤醒信号，以使得智能终端还能够根据接收到上行音频信息和唤醒信号进行语音交互响应处理。

其中，上述实施例中提及的和外围设备关联的智能终端，是指可以通过该外围设备与智能终端进行数据通信，例如蓝牙耳机和与之配对连接的智能手机。在图7所示的实施例中，智能终端具体可以为安装有语音助手的智能手机，外围设备具体可以为蓝牙耳机。

其中，本发明上述装置实施例中的各模块的具体实现方式可以参照方法部分叙述，且方法部分提及的其他实现方式也可以应用在装置的实施例中，故这里不再赘述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述低延时开启one-shot语音对话的方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当所程序指令被计算机执行时，使计算机执行上述低延时开启one-shot语音对话的方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被所述至少一个处理器执行，以使至少一个处理器能够执行上述低延时开启one-shot语音对话的方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时能够执行上述低延时开启one-shot语音对话的方法。

上述本发明实施例的用于开启one-shot语音对话的外围设备可用于执行本发明实施例的低延时开启one-shot语音对话的方法，并相应的达到上述本发明实施例的低延时开启one-shot语音对话的方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁盘、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.低延时开启one-shot语音对话的方法，其特征在于，该方法用于通过外围设备开启与所述外围设备相关联的智能终端的one-shot语音对话，其包括

2.根据权利要求1所述的方法，其特征在于，还包括

在外围设备端还对拾取的音频进行第二语音监听，在监听到拾取的音频中包括有所述关键词时，向所述智能终端输出唤醒信号，其中，所述唤醒信号被所述智能终端用作启动one-shot语音对话的触发信号。

3.根据权利要求1或2所述的方法，其特征在于，向所述智能终端上行的音频信息包括以监听到的关键词前缀为起点，向前缓存了预设时长的前置音频信息以及缓存的后续音频信息。

4.用于开启one-shot语音对话的外围设备，其特征在于，包括

用于进行音频拾取的拾音模块；

用于与智能终端建立通信连接的通信模块；和

5.根据权利要求4所述的外围设备，其特征在于，还包括

第二语音监听模块，用于对拾取的音频进行第二语音监听，在监听到拾取的音频中包括有所述关键词时，通过所述通信模块向所述智能终端输出唤醒信号。

6.根据权利要求4或5所述的外围设备，其特征在于，向所述智能终端上行的音频信息包括以监听到的关键词前缀为起点，向前缓存了预设时长的前置音频信息以及缓存的后续音频信息。

7.蓝牙耳机，其特征在于，包括

用于拾取音频的麦克风；

用于建立与智能终端的蓝牙连接的蓝牙模块；和

8.根据权利要求7所述的蓝牙耳机，其特征在于，还包括

第二语音监听模块，用于对拾取的音频进行第二语音监听，在监听到拾取的音频中包括有所述关键词时，通过所述蓝牙模块向所述智能终端输出唤醒信号。

9.根据权利要求7或8所述的蓝牙耳机，其特征在于，向所述智能终端上行的音频信息包括以监听到的关键词前缀为起点，向前缓存了预设时长的前置音频信息以及缓存的后续音频信息。

10.缩短one-shot语音对话延时的方法，其特征在于，该方法应用在通过外围设备开启与其相关联的智能终端上的语音交互响应的场景中，其中，所述智能终端具有语音交互功能；所述方法包括

11.根据权利要求10所述的方法，其特征在于，所述方法还包括

在所述外围设备端还对拾取的音频进行第二语音监听，并在监听到拾取的音频中包括有配置的关键词时，向所述智能终端输出唤醒信号；

在所述智能终端上根据接收到的音频信息和唤醒信号进行语音交互响应处理。

12.根据权利要求11所述的方法，其特征在于，所述智能终端根据接收到的音频信息和唤醒信号进行语音交互响应处理包括

所述智能终端在自接收到所述外围设备端上行的第一包音频信息数据包时开始计时，并在等待响应时长内判断是否接收到唤醒信号，在接收到唤醒信号时，对所述音频信息进行交互响应，在未接收到唤醒信号时，丢弃所述音频信息。

13.根据权利要求10至12任一项所述的方法，其特征在于，所述监听的关键词的前缀的长度为二个关键词字符。

14.能够低延时响应的语音交互装置，其特征在于，包括

具有语音交互功能的智能终端；和

与所述智能终端关联的外围设备，其中，所述外围设备为权利要求4至6任一项所述的用于开启one-shot语音对话的外围设备；

所述智能终端根据接收到的由所述外围设备上行的音频信息或根据接收到的由所述外围设备上行的音频信息和唤醒信号进行语音交互响应处理。

15.根据权利要求14所述的装置，其特征在于，所述智能终端为安装有语音助手的智能手机，所述外围设备为蓝牙耳机。