CN112289317B

CN112289317B - 用于语音交互的回复方法及系统

Info

Publication number: CN112289317B
Application number: CN202011312839.0A
Authority: CN
Inventors: 方凯; 林永楷
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-05-20
Anticipated expiration: 2040-11-20
Also published as: CN112289317A

Abstract

本发明实施例提供一种用于语音交互的回复方法。该方法包括：基于用户的语音请求，将语音请求的音频以及智能设备的回调URL发送至云服务器；以云服务器反馈的第一回复对用户进行应答；接收云服务器基于回调URL返回的第二回复对用户的语音请求进行响应。本发明实施例还提供一种用于语音交互的回复系统。本发明实施例提前回复一个文本结束语音对话流程解决用户等待问题，异步处理再回复解决了超时限制问题。当智能设备发送给云服务器请求时，在等待云服务器响应的时候，智能设备还可以继续发送其他请求，不必等待，这样节约了时间，提高了交互效率。

Description

用于语音交互的回复方法及系统

技术领域

本发明涉及语音交互领域，尤其涉及一种用于语音交互的回复方法及系统。

背景技术

常见的语音交互流程，通常由用户发起语音请求后，语音服务识别、理解以及处理用户请求，并将结果语音播报回复给用户，整个交互流程中语音服务是同步处理并响应的。

具体的说，用户对智能语音设备发起语音请求后，智能语音设备上传用户音频到语音云服务，语音云服务识别、理解用户请求，将解析后的结构化信息发送至对话服务处理，对话服务调用第三方API处理，并将处理结果返回智能语音设备，智能语音设备将结果语音播报给用户。

例如用户发起请求“今天天气怎样”，语音服务识别、理解后，对话服务调用墨迹天气API查询到天气信息并将结果返回设备，设备接收后语音播报天气信息“今天天气多云转小雨，20度～25度,…”。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

语音交互的同步回复对语音交互的服务响应性要求较高，用户发起请求到接收到回复反馈，用户等待的时间不能太长，因此整个语音交互流程有服务超时限制。而语音服务对用户的部分语音请求的处理依赖于第三方API，这对第三方API响应时间要求较高，而部分API由于自身的限制，例如物联网设备控制，依赖于网络状态和硬件条件，无法快速的返回结果，很容易造成超时；即使没有超时，但用户等待的时间也较长。就像用户点击打开某个网站，网站等待较长时间才打开或者返回网络超时的提示，很容易让用户焦虑和产生挫败感。

虽然现有技术中已经有规定一个最大超时时间，如果某一次语音交互没有在最大超时时间内处理完，则默认返回一个“网络超时”的结果，用户会收到“操作失败，请检查网络后再试吧”类似的语音反馈。又或者使用去异步处理，但整个流程链路较长，效率比较低，语音交互时长也会相应增加。

发明内容

为了至少解决现有技术中规定最大超时时间过于死板，对于一些稍慢但可以得到结果的语音交互可能会由于时间设置的不准确，会将一些本可以得到结果的交互强行切断，输出操作失败。去异步处理的交互效率较低的问题。

第一方面，本发明实施例提供一种用于语音交互的回复方法，应用于智能设备，其特征在于，包括：

基于用户的语音请求，将所述语音请求的音频以及所述智能设备的回调URL发送至云服务器；

以所述云服务器反馈的第一回复，对所述用户进行应答；

接收所述云服务器基于所述回调URL返回的第二回复对所述用户的语音请求进行响应。

第二方面，本发明实施例提供一种用于语音交互的回复方法，应用于云服务器，其特征在于，包括：

接收智能设备传输的语音请求的音频以及回调URL；

确定对应于所述语音请求的第一回复，将所述第一回复反馈至所述智能设备，用于向用户应答；

调用第三方API处理所述语音请求，将第二回复通过所述回调URL发送至所述智能设备，用于响应所述语音请求。

第三方面，本发明实施例提供一种智能设备的用于语音交互的回复系统，其特征在于，包括：

数据发送程序模块，用于基于用户的语音请求，将所述语音请求的音频以及所述智能设备的回调URL发送至云服务器；

应答程序模块，用于以所述云服务器反馈数据的第一回复对所述用户进行应答；

回复程序模块，用于接收所述云服务器基于所述回调URL返回的第二回复对所述用户的语音请求进行响应。

第四方面，本发明实施例提供一种云服务器的用于语音交互的回复系统，其特征在于，包括：

数据接收程序模块，用于接收智能设备传输的语音请求的音频以及回调URL；

应答程序模块，用于确定对应于所述语音请求的第一回复，将所述第一回复反馈至所述智能设备，用于向用户应答；

回复程序模块，用于调用第三方API处理所述语音请求，将第二回复通过所述回调URL发送至所述智能设备，用于响应所述语音请求。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音交互的回复方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音交互的回复方法的步骤。

本发明实施例的有益效果在于：提前回复一个文本结束语音对话流程解决用户等待问题，异步处理再回复解决了超时限制问题。当智能设备发送给云服务器请求时，在等待云服务器响应的时候，智能设备还可以继续发送其他请求，不必等待，这样节约了时间，提高了交互效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音交互的回复方法的流程图；

图2是本发明另一实施例提供的一种用于语音交互的回复方法的流程图；

图3是本发明另一实施例提供的一种用于语音交互的回复方法的智能设备与语音云交互的流程图；

图4是本发明一实施例提供的一种用于语音交互的回复系统的结构示意图；

图5是本发明另一实施例提供的一种用于语音交互的回复系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音交互的回复方法的流程图，应用于智能设备，其特征在于，包括如下步骤：

S11：基于用户的语音请求，将所述语音请求的音频以及所述智能设备的回调URL发送至云服务器；

S12：以所述云服务器反馈的第一回复对所述用户进行应答；

S13：接收所述云服务器基于所述回调URL返回的第二回复对所述用户的语音请求进行响应。

在本实施方式中，语音交互需要智能设备与云服务器的配合。每一端的步骤都需要进行相应的调整。

对于步骤S11，用户在家中向智能设备发起了语音请求，例如，智能设备可以是智能音响、智能空调或者具有控制功能智能设备，在此不做限制。以智能设备为智能音箱为例，用户在家中向智能音响发起了语音请求，“打开空调”。智能音响接收到该语音请求后，将该语音请求以及智能音响自身的回调URL发送至云服务器，其中，URL(Uniform ResourceLocator，统一资源定位符)，又叫做网页地址，是互联网上标准的资源的地址(Address)。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。该回调URL为智能音响接收资源的数据回传地址。

对于步骤S12，将语音请求以及智能音响的回调URL发送到云服务器后，此时，语音对话流程还在继续，云服务器通过语音对话流程(并不是使用回调URL)，直接向智能音响反馈第一回复，此时，所述第一回复的内容不是语音请求的结果，仅仅用于向用户应答，例如“好的，正在为您打开”。体现出“我已经接收到您的语音请求，准备执行相应的操作”。对用户输入的请求有应答，避免用户发出请求后，云服务处理全都完成才反馈相应的内容，这种模式在处理过程时间相对较长时，用户发出语音请求会有长时间的“空白期”，用户会出现“我发出的指令智能音响接收到了吗？”这种错误的判断，用户会主动关闭对话流程，重新发出指令，然后陷入等待的循环，让用户更加焦虑。

因此，在语音交互中，通过第一回复，输出正在处理的语音提示反馈(类似于GUI(Graphical User Interface，图形用户界面)交互中的loading页面)缓解了等待的焦虑。并且，云服务器端会关闭所述语音请求的对话流程，突破了现有技术中设定“最大超时时间”语音交互流程服务超时的限制。

对于步骤S13，云服务器处理之后，确定了响应请求的第二回复，智能音响接收云服务器通过回调URL返回的第二回复，对用户的语音请求进行响应。例如，云服务器处理后，确定出回复，例如“空调已打开。温度设置为25度”，转化成音频播报给用户，流程结束。

通过该实施方式可以看出，通过第一回复，缓解了用户等待的焦虑。为云服务或第三方API处理，争取到一些时间宽限，解决了用户的等待问题。

作为一种实施方式，所述方法还包括：

响应于自所述云服务器在第一时间反馈的第一回复，立即对所述用户进行应答；

响应于自所述云服务器基于所述回调URL在第二时间返回的第二回复，立即对所述用户的语音请求进行响应，其中，所述第二时间大于所述第一时间。

在本实施方式中，考虑到不同回复的时间对于用户的体验不同，例如，接收到云服务器在第一时间反馈的“好的，正在为您打开”这句话，对用户立即应答，确保在第一时间向用户反馈应答，立即体现出“我已经接收到您的语音请求，准备执行相应的操作”。

对云服务器基于回调URL在第二时间返回的“空调已打开。温度设置为25度”进行立即响应。例如，用户向智能音箱发出语音请求的时间为18:20:30，第一时间为：18:20:32，第二时间为18:20:44。

通过该实施方式可以看出，对云服务器返回的回复后，立即向用户应答响应，确保较高的交互效率。

作为另一种实施方式，所述方法还包括：

在接收到所述云服务器在第一时间反馈的第一回复之后，等待至第三时间对所述用户进行应答；

响应于自接收所述云服务器基于所述回调URL在第二时间返回的第二回复，立即对所述用户的语音请求进行响应，其中，所述第二时间大于所述第三时间。

在本实施方式中，同样考虑到不同回复的时间对于用户的体验不同，例如，接收到云服务器在第一时间反馈的“好的，正在为您打开”这句话，稍微等待一下。等待到第三时间再向用户反馈应答，此时不是立刻向用户应答，而是停顿一些时间，再进行应答。也兼顾到交互效率，对云服务器基于回调URL在第二时间返回的“空调已打开。温度设置为25度”也可以进行立即响应。

例如，如果立即反馈的情况下，上文举例了“用户向智能音箱发出语音请求的时间为18:20:30，第一时间为：18:20:32，第二时间为18:20:44。此时，第一时间与第二时间间隔足足有12秒的时间，虽然这个时间不是太长，但是对用户来说，等待时间还是相对较长，还是可能会存在一定的焦虑。”

而本方法中，停顿一些时间，再进行应答。例如，用户向智能音箱发出语音请求的时间为18:20:30，第三时间为(18:20:32云服务器反馈的第一回复，此时停顿3秒钟)：18:20:35，第二时间为18:20:44。这时第三时间与第二时间间隔9秒，相对于立即的12秒，会降低用户对时间的感觉，减缓对时间的焦虑。虽然发出语音请求的时间这部分的等待从2秒变成了5秒，然而，这部分时间较短，用户难以察觉。

通过该实施方式可以看出，考虑到云服务器反馈两次回复的时间间隔可能稍微较长。通过暂缓向用户的应答时间，来为第二回复争取时间，减轻用户对时间的焦虑。

如图2所示为本发明一实施例提供的一种用于语音交互的回复方法，应用于云服务器，其特征在于，包括如下步骤：

S21：接收智能设备传输的语音请求的音频以及回调URL；

S22：确定对应于所述语音请求的第一回复，将所述第一回复反馈至所述智能设备，用于向用户应答；

S23：调用第三方API处理所述语音请求，将第二回复通过所述回调URL发送至所述智能设备，用于响应所述语音请求。

在本实施方式中，语音交互需要智能设备与云服务器的配合。每一端的步骤都需要进行相应的调整，同样的，智能设备可以是智能音响、智能空调或者具有控制功能智能设备，在此不做限制。。

对于步骤S21，云服务器接收到智能设备传输的语音请求的音频以及回调URL，这个URL是数据回传地址，通常可以通过Websocket等长连接方式连接服务端。其中，所述WebSocket是一种在单个TCP连接上进行全双工通信的协议，WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就直接可以创建持久性的连接，并进行双向数据传输。

对于步骤S22，云服务器中有着多种服务，例如，语音服务和对话服务，通过语音服务接收音频，语音识别和解析用户请求，并将解析后的结构化信息发送给对话服务。对话服务接收请求后，立即返回提前第一段回复文本，例如“好的，正在为您打开”，此时，对话流程还在持续，通过对话流程将第一回复反馈至所述智能设备，向用户应答。

对于步骤S23，对话服务继续调用第三方API处理用户的语音请求，接收第三方API返回的执行结果，通过执行结果确定第二回复，通过回调URL将第二回复发送给智能设备。

回复中包括文本和/或指令，例如，“空调已打开。温度设置为25度”的文本，还隐含着“控制空调的指令”。

作为一种实施方式，在所述将所述第一回复反馈至所述智能设备之后，关闭所述语音请求的对话流程；

异步调用第三方API处理所述语音请求，将第二回复通过所述回调URL发送至所述智能设备。

在本实施方式中，在所述将所述第一回复反馈至所述智能设备之后对话服务关闭语音交互对话流程。正是由于关闭语音交互对话流程可以通过语音云端异步处理回复的方式解决“最大超时时间”导致的语音交互超时问题，而不是说可以无限等待第三方API处理，如果第三方API处理失败，会反馈失败结果，将失败结果反馈至智能设备向用户播报。

对于单独的一次对话，本方法可以减缓用户等待的焦虑，特别对于全双工交互的模式，本方法有着更高的交互效率。

现有方法的交互中，由于需要保持对话流程，智能设备发送请求给云服务器，在等待云服务器响应的请求时，智能设备不做其他的事情。当云服务器(或对应的第三方API)做完了才返回到智能设备。这样的话智能设备需要一直保持“打开空调”这一对话流程，如果在这一对话流程中，用户想要发送其他请求时，要么切断当前的对话流程，重新发送其他请求，要么需要等待当前的对话流程处理完成，再发送其他请求。用户使用起来会有不友好。

如果使用异步的话，当智能设备发送给云服务器请求时，在等待云服务器响应的时候，智能设备还可以继续发送其他请求，不必等待，这样节约了时间，提高了效率，这种交互模式恰好贴合全双工通信。

异步处理不用阻塞当前线程来等待处理完成，而是允许后续操作，直至其它线程将处理完成，并回调通知此线程，因此本方法在智能设备发送语音请求的同时一并发送回调URL，来实现异步处理。智能设备与云服务器的整体实例流程图如图3所示。

如图4所示为本发明一实施例提供的一种智能设备的用于语音交互的回复系统的结构示意图，该系统可执行上述任意实施例所述的用于语音交互的回复方法，并配置在终端中。

本实施例提供的一种智能设备的用于语音交互的回复系统10，其特征在于，包括：数据发送程序模块11，应答程序模块12和回复程序模块13。

其中，数据发送程序模块11用于基于用户的语音请求，将所述语音请求的音频以及所述智能设备的回调URL发送至云服务器；应答程序模块12用于以所述云服务器反馈的第一回复对所述用户进行应答；回复程序模块13用于接收所述云服务器基于所述回调URL返回的第二回复对所述用户的语音请求进行响应。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音交互的回复方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

以所述云服务器反馈的第一回复对用户进行应答；

接收所述云服务器基于所述回调URL返回的第二回复对用户的语音请求进行响应。

进一步地，所述应答程序模块还用于：响应于自所述云服务器在第一时间反馈的第一回复，对所述用户进行立即应答；

所述回复程序模块还用于：响应于自所述云服务器基于所述回调URL在第二时间返回的第二回复对所述用户的语音请求进行立即响应，其中，所述第二时间大于所述第一时间。

进一步地，所述应答程序模块还用于：接收所述云服务器反馈的第一回复之后，在第一时间对所述用户进行应答；

所述回复程序模块还用于：接收所述云服务器基于所述回调URL返回的第二回复，在第二时间对所述用户的语音请求进行响应，其中，所述第二时间大于所述第一时间。

如图5所示为本发明一实施例提供的一种用于语音交互的回复系统的结构示意图，该系统可执行上述任意实施例所述的用于语音交互的回复方法，并配置在终端中。

本实施例提供的一种用于语音交互的回复系统20，应用于云服务器，其特征在于，包括：数据接收程序模块21，应答程序模块22和回复程序模块23。

其中，数据接收程序模块21用于接收智能设备传输的语音请求的音频以及回调URL；应答程序模块22用于确定对应于所述语音请求的第一回复，将所述第一回复反馈至所述智能设备，用于向用户应答；回复程序模块23用于调用第三方API处理所述语音请求，将第二回复通过所述回调URL发送至所述智能设备，用于响应所述语音请求。

进一步地，所述应答程序模块还用于：

关闭所述语音请求的对话流程；

所述回复程序模块还用于：

进一步地，所述第一回复、第二回复包括：文本和/或指令。

接收智能设备传输的语音请求的音频以及回调URL；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音交互的回复方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，所述电子设备可以是智能设备，也可以是服务器或服务器集群其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音交互的回复方法的步骤。

本申请实施例的智能设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音交互功能的电子装置。

本申请实施例的服务器以多种形式存在，包括但不限于：

(1)计算机设备:这类设备属于计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如运行更快、负载更高的电脑。

(2)其他具有数据处理功能的电子装置。

在本文中，诸如第一、第二、第三等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音交互的回复方法，应用于智能设备，其特征在于，包括：

以所述云服务器反馈的第一回复，对所述用户进行应答；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于自所述云服务器基于所述回调URL在第二时间返回的第二回复，立即对所述用户的语音请求进行响应，其中，所述第二时间大于所述第三时间。

4.一种用于语音交互的回复方法，应用于云服务器，其特征在于，包括：

接收智能设备传输的语音请求的音频以及回调URL；

5.根据权利要求4所述的方法，其特征在于，在所述将所述第一回复反馈至所述智能设备之后，所述方法的步骤还包括：

关闭所述语音请求的对话流程；

6.根据权利要求4所述的方法，其特征在于，所述第一回复、第二回复包括：文本和/或指令。

7.一种智能设备的用于语音交互的回复系统，其特征在于，包括：

8.一种云服务器的用于语音交互的回复系统，其特征在于，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。