CN109378000B

CN109378000B - 语音唤醒方法、装置、系统、设备、服务器及存储介质

Info

Publication number: CN109378000B
Application number: CN201811556526.2A
Authority: CN
Inventors: 陈志刚; 梅林海; 林满佳
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2022-06-07
Anticipated expiration: 2038-12-19
Also published as: CN109378000A

Abstract

本申请提供了一种语音唤醒方法、装置、系统、设备、服务器及可读存储介质，语音唤醒方法包括：智能设备接收音频数据，并在设置的缓存区中缓存当前时刻之前预设时长的音频数据，对接收的音频数据进行初步唤醒判断，当判断出接收的音频数据存在指定唤醒词时，将缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，云端服务器接收智能设备发送的音频数据，基于音频数据中的指定唤醒词和指定唤醒词的上下文信息，确定用户是否在唤醒智能设备；若确定出用户不是在唤醒智能设备，则向智能设备发送禁止唤醒指令。本申请结合指定唤醒词的上下文信息进行唤醒判断，能够减少错误唤醒情况的发生，显著提高语音唤醒的准确率。

Description

语音唤醒方法、装置、系统、设备、服务器及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音唤醒方法、装置、系统、设备、服务器及存储介质。

背景技术

语音唤醒技术是语音识别技术中的重要分支，其通过监听用户语音来判断用户是否说出了指定唤醒词，当判断出用户说出了指定唤醒词时，唤醒电子设备。目前，语音唤醒技术已广泛应用于各种智能设备上，如智能穿戴设备、手机、平板电脑、智能家电等。虽然语音唤醒技术已得到广泛应用，但其仍存在误唤醒的问题，即唤醒准确率不高，唤醒效果不好。

发明内容

有鉴于此，本申请提供了一种语音唤醒方法、装置、系统、设备、服务器及可读存储介质，用以提高唤醒准确率，其技术方案如下：

一种语音唤醒方法，应用于云端服务器，所述方法包括：

接收智能设备发送的音频数据，所述音频数据至少包含指定唤醒词和所述指定唤醒词的上下文信息；

基于所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒所述智能设备；

若确定出用户不是在唤醒所述智能设备，则向所述智能设备发送禁止唤醒指令。

优选地，所述语音唤醒方法还包括：

在基于所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒所述智能设备时，并行执行对所述音频数据中所述指定唤醒词之后的音频数据进行响应操作，获得响应操作结果。

优选地，所述基于所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒所述智能设备，包括：

从所述音频数据中获取包含所述指定唤醒词和所述指定唤醒词上下文信息的音频数据作为第一目标音频数据；

通过所述第一目标音频数据中所述指定唤醒词的上下文信息，确定所述指定唤醒词是否符合预设唤醒规则；

若所述指定唤醒词符合所述预设唤醒规则，则确定用户是在唤醒所述智能设备；若所述指定唤醒词不符合所述预设唤醒规则，则确定用户不是在唤醒所述智能设备。

优选地，所述语音唤醒方法还包括：

从所述音频数据中获取所述指定唤醒词之后的音频数据作为第二目标音频数据；

对所述第二目标音频数据进行响应操作，获得响应操作结果，所述响应操作包括语音识别、语义理解和对话管理。

优选地，所述语音唤醒方法还包括：

当确定出用户是在唤醒所述智能设备时，将所述响应操作结果发送至所述智能设备。

优选地，所述从所述音频数据中获取包含所述指定唤醒词和所述指定唤醒词上下文信息的音频数据作为第一目标音频数据，包括：

从所述音频数据中获取目标时间之前的第一时间到所述目标时间之后的第二时间之间的音频数据作为第一目标音频数据；

其中，所述目标时间为所述指定唤醒词对应的音频数据中最后一帧的结束时间，所述目标时间与所述第一时间相隔第一预设时长，所述第二时间与所述目标时间相隔第二预设时长。

一种语音唤醒方法，应用于智能设备，所述方法包括：

接收音频数据，并在所述智能设备设置的音频缓存区中缓存音频数据，所述音频缓存区中缓存的音频数据为当前时刻之前预设时长的音频数据；

确定当前接收的音频数据中是否包含指定唤醒词；

若所述当前接收的音频数据中包含所述指定唤醒词，则将所述音频缓存区中缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，以使所述云端服务器进一步基于接收的音频数据判断用户是否在唤醒所述智能设备。

所述语音唤醒方法还包括：

当接收到所述云端服务器发送的禁止唤醒指令时，不执行唤醒操作；

当接收到所述云端服务器针对其接收的音频数据的响应操作结果时，执行唤醒操作并基于所述响应操作结果响应用户。

一种语音唤醒装置，应用于云端服务器，所述装置包括：音频接收模块、唤醒判别模块和指令发送模块；

所述音频接收模块，用于接收智能设备发送的音频数据，所述音频数据至少包含指定唤醒词和所述指定唤醒词的上下文信息；

所述唤醒判别模块，用于基于所述音频接收模块接收的所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒所述智能设备；

所述指令发送模块，用于在所述唤醒判别模块确定出用户不是在唤醒所述智能设备时，向所述智能设备发送禁止唤醒指令。

一种语音唤醒装置，应用于智能设备，所述装置包括：

音频接收模块、音频缓存模块、初步唤醒判别模块和音频发送模块；

所述音频接收模块，用于接收音频数据；

所述音频缓存模块，用于在所述智能设备设置的音频缓存区中缓存音频数据，所述音频缓存区中缓存的音频数据为当前时刻之前预设时长的音频数据；

所述初步唤醒判别模块，用于确定当前接收的音频数据中是否包含指定唤醒词；

所述音频发送模块，用于当所述确定模块确定出所述当前接收的音频数据中包含所述指定唤醒词时，将所述音频缓存区中缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，以使所述云端服务器进一步基于接收的音频数据判断用户是否在唤醒所述智能设备。

一种语音唤醒系统，包括：智能设备和云端服务器；

所述智能设备，用于接收音频数据，并在设置的音频缓存区中缓存音频数据，所述音频缓存区中缓存的音频数据为当前时刻之前预设时长的音频数据；以及，确定当前接收的音频数据中是否包含指定唤醒词；若所述当前接收的音频数据中包含所述指定唤醒词，则将所述音频缓存区中缓存的音频数据和当前以及后续接收的音频数据发送至所述云端服务器；

所述云端服务器，用于接收所述智能设备发送的音频数据，所述音频数据至少包含所述指定唤醒词和所述指定唤醒词的上下文信息；以及基于所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒所述智能设备，若确定出用户不是在唤醒所述智能设备，则向所述智能设备发送禁止唤醒指令。

优选地，所述云端服务器，在基于所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒所述智能设备时，并行的对所述音频数据中所述指定唤醒词之后的音频数据进行响应操作，获得响应操作结果。

优选地，所述云端服务器，具体用于从所述音频数据中获取包含所述指定唤醒词和所述指定唤醒词上下文信息的音频数据作为第一目标音频数据，通过所述第一目标音频数据中所述指定唤醒词的上下文信息，确定所述指定唤醒词是否符合预设唤醒规则，若所述指定唤醒词符合所述预设唤醒规则，则确定用户是在唤醒所述智能设备，若所述指定唤醒词不符合所述预设唤醒规则，则确定用户不是在唤醒所述智能设备。

优选地，所述云端服务器，还用于从所述音频数据中获取所述指定唤醒词之后的音频数据作为第二目标音频数据；对所述第二目标音频数据进行响应操作，获得响应操作结果，所述响应操作包括语音识别、语义理解和对话管理。

优选地，所述云端服务器，还用于当确定出用户是在唤醒所述智能设备时，将所述响应操作结果发送至所述智能设备。

一种云端服务器，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述语音唤醒方法的各个步骤。

一种智能设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

接收音频数据，并在自身设置的音频缓存区中缓存音频数据，所述音频缓存区中缓存的音频数据为当前时刻之前预设时长的音频数据；

确定当前接收的音频数据中是否包含指定唤醒词；

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的语音唤醒方法的各个步骤。

经由上述的技术方案可知，本申请提供的一种语音唤醒方法、装置、系统、设备、服务器及可读存储介质中，智能设备在接收到语音数据时，先对语音数据进行唤醒初步判断，若判断出用户可能在唤醒智能设备，则将接收的音频数据发送至云端服务器进行进一步地唤醒判断，为了提高唤醒准确率，智能设备缓存当前时刻之前预设时长的音频数据，在向云端服务器发送音频数据时，将缓存的音频数据一并进行发送，从而使得云端服务器接收的数据中包含指定唤醒词的上下文信息，云端服务器结合指定唤醒词的上下文信息进行唤醒判断，能够显著提高语音唤醒的准确率，大大减少错误唤醒情况的发生，从而能够提升用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的语音唤醒方法的流程示意图；

图2为本申请实施例提供的语音唤醒方法的流程示意图；

图3为本申请实施例提供的智能设备与云端服务器交互实现语音唤醒的流程示意图；

图4为本申请实施例提供的音频数据的一示例中第一目标音频数据和第二目标音频数据的示意图；

图5为本申请实施例提供的语音唤醒装置的结构示意图；

图6为本申请实施例提供的语音唤醒装置的结构示意图；

图7为本申请实施例提供的语音唤醒系统的结构示意图；

图8为本申请实施例提供的云端服务器的结构示意图；

图9为本申请实施例提供的智能设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

语音唤醒通过理解用户的语音数据，达到唤醒智能设备的目的，现有的语音唤醒方案为：智能设备持续接收音频数据，通过语音唤醒模块对音频数据进行声学层面的判断(对接收的音频数据提取声学特征，将提取的声学特征与预先获得的标准库进行对比，确定唤醒概率)，确定用户是否在唤醒智能设备，若确定用户是在唤醒智能设备，则将音频数据持续发送至云端服务器，云端服务器对接收的音频数据进行语音识别、语义理解和对话管理，经上述操作获得对接收的音频数据的响应操作结果，然后将响应操作结果反馈至智能设备。

发明人在实现本发明创造的过程中发现：语音唤醒模块在智能设备中的运算资源有限，即现有唤醒方案受限于智能设备的计算资源，不能实现较好的唤醒效果，会出现误唤醒的问题，比如，某智能设备中，唤醒词为“小飞”，如果用户在该智能设备旁边聊天，聊天的内容中有“小飞”，则智能设备容易误唤醒，导致用户体验较差。基于此，本申请提供了一种语音唤醒方法，该语音唤醒方法采用智能设备和云端服务器结合的唤醒方案，以提高语音唤醒准确率。

如果站在云端服务器一侧来看本申请的技术方案，请参阅图2，示出了本申请实施例提供的语音唤醒方法的流程示意图，该方法可以包括：

步骤S101：接收智能设备发送的音频数据，音频数据至少包含指定唤醒词和指定唤醒词的上下文信息。

在本申请中，智能设备持续接收音频数据，为了能够实现较好的唤醒效果，智能设备中设置一音频缓存区，该音频缓存区用于缓存当前时刻之前预设时长的音频数据，缓存音频数据的目标是为了获得更多的音频上下文信息，以便后续云端服务器能够进行精确地唤醒判别。

智能设备基于接收的音频数据进行初步唤醒判断，具体地，若当前接收的音频中包含指定唤醒词，则认为用户可能是在唤醒智能设备，此时，将音频缓存区缓存的音频数据、当前及后续接收的音频数据发送至云端服务器进行进一步地唤醒判断。

步骤S102：基于音频数据中的指定唤醒词和指定唤醒词的上下文信息，确定用户是否在唤醒智能设备。

在一种可能的实现方式中，可从音频数据获取只包含指定唤醒词和指定唤醒词的上下文信息的音频数据作为目标音频数据，基于目标音频数据确定用户是否在唤醒智能设备。

具体地，可基于指定唤醒词的上下文信息确定指定唤醒词是否符合预设的唤醒规则，若指定唤醒词符合预设的唤醒规则，则确定用户是在唤醒智能设备，反之，若指定唤醒词不符合预设的唤醒规则，则确定用户不是在唤醒智能设备。

通常情况，用户在说出唤醒词唤醒智能设备时，唤醒词需要符合一定的唤醒规则，比如唤醒词需由用户独立说出，即唤醒词前后不存在语音(比如可采用能量方式的语音活动帧检测VAD检测唤醒词前后是否存在语音)。

示例性地，唤醒词为“叮咚”，当用户说出“你好，叮咚”时，由于“叮咚”前后无语音，即“叮咚”由用户独立说出，因此，唤醒词“叮咚”符合唤醒规则，可确定用户是在唤醒智能设备；当用户说出“我刚听到叮咚声”时，由于“叮咚”前后存在语音，(“叮咚”前存在“我刚听到”，“叮咚”后存在“声”)，即“叮咚”并不是由用户独立说出，因此，唤醒词“叮咚”不符合唤醒规则，可确定用户不是在唤醒智能设备。

需要说明的是，若只基于指定唤醒词进行唤醒判断，会存在误唤醒的情况，比如，当用户说出“我刚听到叮咚声”时，会唤醒智能设备，此时实际是不需要唤醒的，而结合指定唤醒词的上下文信息可以判别出是否为真正唤醒，从而能够避免用户在智能设备附近说出含有唤醒词的语音数据时，智能设备被误唤醒的不佳体验。

步骤S103：若确定出用户不是在唤醒智能设备，则向智能设备发送禁止唤醒指令，以使智能设备在接收到禁止唤醒指令时，不执行唤醒操作。

本申请实施例提供的语音唤醒方法中，云端服务器可获得智能设备发送的至少包含指定唤醒词和指定唤醒词的上下文信息音频数据，进而可结合指定唤醒词的上下文信息确定用户是否在唤醒智能设备，结合指定唤醒词的上下文信息进行唤醒判断，能够大大减少错误唤醒情况的发生，显著提高语音唤醒的准确率，从而能够提升用户体验。

相应的，如果站在智能设备一侧来看本申请的技术方案，请参阅图2，示出了本申请实施例提供的语音唤醒方法的流程示意图，该方法可以包括：

步骤S201：接收音频数据，并在智能设备中设置的音频缓存区中缓存音频数据，音频缓存区中缓存的音频数据为当前时刻之前预设时长的音频数据。

在本申请中，智能设备设置音频缓存区，用于缓存最近一段时间的音频数据。

步骤S202：确定当前接收的音频数据中是否包含指定唤醒词。

本步骤针对接收的音频数据进行唤醒初步判断，初步判断的目的在于确定用户是否可能在唤醒智能设备。若接收的音频数据中包含指定唤醒词，则可确定用户可能在唤醒智能设备，反之，若接收的音频数据中不包含指定唤醒词，则可确定用户并未唤醒智能设备，不执行唤醒操作。

步骤S203：若当前接收的音频数据中包含指定唤醒词，则将音频缓存区中缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，以使云端服务器进一步基于接收的音频数据中指定唤醒词的上下文信息确定用户是否在唤醒智能设备。

在初步判定出用户可能在唤醒智能设备时，将缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，使服务器进一步进行唤醒判断，由于向服务器发送的音频数据包含了指定唤醒词和指定唤醒的上下文信息，因此，服务器基于指定唤醒词和指定唤醒的上下文信息能够实现准确地唤醒判断。

本申请实施例提供的语音唤醒装置使得，智能设备可接收并缓存音频数据，并可基于接收的音频数据进行初步唤醒判断，当判断出用户可能在唤醒电子设备时，可将至少包含指定唤醒词和指定唤醒词的上下文信息的音频数据发送至云端服务器，进而使得云端服务器可结合指定唤醒词的上下文信息确定用户是否在唤醒智能设备，结合指定唤醒词的上下文信息进行唤醒判断，能够大大减少错误唤醒情况的发生，显著提高语音唤醒的准确率，从而能够提升用户体验。

在上述实施例的基础上，下面通过智能设备与云端服务器之间的信息交互来详细说明本申请的语音唤醒方案，请参阅图3，示出了通过智能设备与云端服务器交互实现语音唤醒的流程示意图，可以包括：

步骤S301：智能设备接收音频数据，并在智能设备中设置的音频缓存区中缓存音频数据，音频缓存区中缓存的音频数据为当前时刻之前预设时长的音频数据。

可以理解的是，若当前接收的音频数据中包含指定唤醒词，则智能设备的音频缓存区中缓存的便是指定唤醒词的前文信息。

步骤S302：智能设备判断当前接收的音频数据中是否包含指定唤醒词。

智能设备通过确定接收的音频数据中是否包含指定唤醒词，来确定用户是否可能在唤醒智能设备，若音频数据中包含指定唤醒词，则确定用户可能在唤醒智能设备，若音频数据中不包含指定唤醒词，则确定用户并未唤醒智能设备。

步骤S303：若当前接收的音频数据中包含指定唤醒词，则智能设备将缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器。

接收的音频数据中包含指定唤醒词，表明用户可能在唤醒智能设备，此时，将缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器进行进一步地唤醒判断。由于唤醒的音频数据为指定唤醒词的前文信息，因此，智能设备发送的音频数据中包括了指定唤醒词的前文信息、指定唤醒词和指定唤醒词的后文信息。

步骤S304：云端服务器接收智能设备发送的音频数据，音频数据至少包含指定唤醒词和指定唤醒词的上下文信息。

步骤S305a：云端服务器从音频数据获取只包含指定唤醒词和指定唤醒词的上下文信息的音频数据作为第一目标音频数据。

在本实施例中，从音频数据获取只包含指定唤醒词和指定唤醒词的上下文信息的音频数据作为第一目标音频数据的过程可以包括：从音频数据中获取目标时间之前的第一时间到目标时间之后的第二时间之间的音频数据作为第一目标音频数据。其中，目标时间可以为指定唤醒词对应的音频数据中最后一帧的结束时间，目标时间与第一时间相隔第一预设时长，第二时间与目标时间相隔第二预设时长。

需要说明的是，本申请中的第一预设时长、第二预设时长可根据实际的应用场景进行设定，可使第一预设时长可与第二预设时长相同，比如，第一预设时长和第二预设时长均为500ms，也可使第一预设时长可与第二预设时长不相同，比如，第一预设时长为800ms，第二预设时长为500ms。示例性地，对于聊天场景，由于其需要考虑上文较多信息，因此，可将第一预设时长设置长一些，将第二预设时长设置短一些。示例性地，对于问答场景，通常用户需要先唤醒智能设备，再给出相应需求，需要考虑较多的下文信息，因此可将第一预设时长设置短一下，将第二预设时长设置长一些。另外，还可基于具体需求结合一些复杂算法对第一预设时长和/或第二预设时长动态调整。

请参阅图4，示出了云端服务器接收的视频数据的一示例的示意图，图中的401为包含指定唤醒词“叮咚”和“叮咚”前后文信息的第一目标音频数据，图中的402为第一预设时长的音频数据，该音频数据包含指定唤醒词的前文信息，图中的403为第二预设时长的音频数据，该音频数据包含指定唤醒词的后文信息，图中的404位置为指定唤醒词“叮咚”对应的音频数据中最后一帧的位置。

步骤S306a：云端服务器基于第一目标音频数据判断用户是否在唤醒智能设备。

即，云端服务器基于指定唤醒词和指定唤醒的上下文信息确定用户是否在唤醒智能设备。具体地，可基于指定唤醒词的上下文信息确定指定唤醒词是否符合预设的唤醒规则，若指定唤醒词符合预设的唤醒规则，则确定用户是在唤醒智能设备，反之，若指定唤醒词不符合预设的唤醒规则，则确定用户不是在唤醒智能设备。

若用户是在唤醒智能设备，则需要对接收的音频数据进行响应操作，在一种可能的实现方式中，可在确定出用户是在唤醒智能设备后，再进行响应操作。考虑到在确定出用户是在唤醒智能设备后，再进行响应操作会势必导致响应时间变长、用户需求的响应速度变低，从而影响用户体验，基于此，在另一种优选的实现方式中，可使唤醒判断过程与响应操作过程并行进行，即上述步骤S305a～S306a与下述S305b～S306b并行执行，如此，在确定出用户是在唤醒智能设备时，云端服务器能够很快将响应操作结果反馈至智能设备，相较于前一实现方式，响应速度大大提升，响应时间大大缩短。

步骤S305b：云端服务器从音频数据获取指定唤醒词之后的音频数据作为第二目标音频数据。

请参阅图4，图中的404为唤醒词“叮咚”后的音频数据，即第二目标音频数据。

步骤S306b：云端服务器对第二目标音频数据进行响应操作，获得响应操作结果。

其中，响应操作包括语音识别、语义理解和对话管理，即先将第二目标音频数据设备为文本，然后对文本内容进行语义理解，最后进行上下文的语义继承、对话生成。

步骤S307a：当云端服务器确定用户不是否在唤醒智能设备时，向智能设备发送禁止唤醒指令。

步骤S307b：当云端服务器确定用户是在唤醒智能设备时，向智能设备发送响应操作结果。

需要说明的是，当唤醒判断过程与响应操作过程并行进行时，如果云端服务器判断出用户不是在唤醒智能设备，则立即向智能设备发送禁止唤醒指令，如果云端服务器判断出用户是在唤醒智能设备，则当获取到响应操作结果后，再向智能设备反馈响应操作结果。

步骤S308a：当智能设备接收到禁止唤醒指令时，不执行唤醒操作。

步骤S308b：当智能设备接收到响应操作结果时，执行唤醒操作，并基于响应操作结果响应用户。

本申请实施例提供的语音唤醒方法中，智能设备接收音频数据，并在设置的缓存区中缓存最近一段时间的音频数据，对接收的音频数据进行初步唤醒判断，当判断出接收的音频数据存在指定唤醒词时，智能设备将缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，云端服务器一方面从接收的音频数据中获取包含指定唤醒词和指定唤醒词的上下文信息的音频数据，利用该音频数据确定用户是否在唤醒智能设备，另一方面从音频数据中获取指定唤醒之后的音频数据进行响应操作，在唤醒判断时，由于结合了指定唤醒词的上下文信息，因此，能够较准确的确定出是否为真正的唤醒，由于唤醒判断过程与响应操作过程并行进行，因此，能够较快响应用户的唤醒需求，用户体验较好。

与上述语音唤醒方法相对应，本申请实施例还提供了一种语音唤醒装置，该装置可应用于云端服务器，请参阅图5，示出了该语音唤醒装置的结构示意图，可以包括：音频接收模块501、唤醒判别模块502和指令发送模块503。

音频接收模块501，用于接收智能设备发送的音频数据，所述音频数据至少包含指定唤醒词和所述指定唤醒词的上下文信息。

唤醒判别模块502，用于基于音频接收模块501接收的所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒所述智能设备。

指令发送模块503，用于在唤醒判别模块502确定出用户不是在唤醒所述智能设备时，向所述智能设备发送禁止唤醒指令。

本申请实施例提供的语音唤醒装置使得，云端服务器可获得智能设备发送的至少包含指定唤醒词和指定唤醒词的上下文信息音频数据，进而使得云端服务器可结合指定唤醒词的上下文信息确定用户是否在唤醒智能设备，结合指定唤醒词的上下文信息进行唤醒判断，能够显著提高语音唤醒的准确率，大大减少错误唤醒情况的发生，用户体验较好。

优选地，上述实施例提供的语音唤醒装置中，唤醒判别模块502可以包括：获取子模块和确定子模块。

获取子模块，具体用于从所述音频数据中获取包含所述指定唤醒词和所述指定唤醒词上下文信息的音频数据作为第一目标音频数据。

确定子模块，用于通过所述第一目标音频数据中所述指定唤醒词的上下文信息，确定所述指定唤醒词是否符合预设唤醒规则，若所述指定唤醒词符合所述预设唤醒规则，则确定用户是在唤醒所述智能设备，若所述指定唤醒词不符合所述预设唤醒规则，则确定用户不是在唤醒所述智能设备。

优选地，上述实施例提供的语音唤醒装置中，所述获取子模块，具体用于从所述音频数据中获取目标时间之前的第一时间到所述目标时间之后的第二时间之间的音频数据作为第一目标音频数据。

其中，所述目标时间为所述指定唤醒词对应的音频数据中最后一帧的结束时间，所述目标时间与第一时间相隔第一预设时长，所述第二时间与所述目标时间相隔第二预设时长。

优选地，上述实施例提供的语音唤醒装置还可以包括：响应操作模块。

响应操作模块，用于从所述音频数据中获取所述指定唤醒词之后的音频数据作为第二目标音频数据，对所述第二目标音频数据进行响应操作，获得响应操作结果，所述响应操作包括语音识别、语义理解和对话管理。

优选地，上述实施例提供的语音唤醒装置还可以包括：响应操作结果发送模块。

响应操作结果发送模块，用于当确定出用户是在唤醒所述智能设备时，将所述响应操作结果发送至所述智能设备。

本申请实施例还提供了一种语音唤醒装置，该装置可应用于智能设备，请参阅图6，示出了该语音唤醒装置的结构示意图，可以包括：音频接收模块601、音频缓存模块602、初步唤醒判别模块603和音频发送模块604。

音频接收模块601，用于接收音频数据。

音频缓存模块602，用于在所述智能设备中设置的音频缓存区中缓存音频数据，所述音频缓存区中缓存的音频数据为当前时刻之前预设时长的音频数据。

初步唤醒判别模块603，用于确定当前接收的音频数据中是否包含指定唤醒词；

音频发送模块604，用于当初步唤醒判别模块603确定出所述当前接收的音频数据中包含所述指定唤醒词时，将缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，以使所述云端服务器进一步基于接收的音频数据中指定唤醒词的上下文信息判断用户是否在唤醒所述智能设备。

本申请实施例提供的语音唤醒装置使得，智能设备可接收并缓存音频数据，并可基于接收的音频数据进行初步唤醒判断，当判断出音频数据包含指定唤醒词时，可将至少包含指定唤醒词和指定唤醒词的上下文信息的音频数据发送至云端服务器，进而使得云端服务器可结合指定唤醒词的上下文信息确定用户是否在唤醒智能设备，结合指定唤醒词的上下文信息进行唤醒判断，能够显著提高语音唤醒的准确率，大大减少错误唤醒情况的发生，用户体验较好。

上述实施例提供的语音唤醒装置还可以包括：接收模块和响应模块。

接收模块，用于接收云端服务器发送的禁止唤醒指令，还用于接收云端服务器针对其接收的音频数据的响应操作结果。

响应模块，用于当接收模块接收到所述云端服务器发送的禁止唤醒指令时，不执行唤醒操作；当接收到所述云端服务器针对其接收的音频数据的响应操作结果时，执行唤醒操作并基于所述响应操作结果响应用户。

本申请实施例还提供了一种语音唤醒系统，请参阅图7，示出了该语音唤醒系统的结构示意图，可以包括：智能设备701和云端服务器702。

智能设备701，用于接收音频数据，并在设置的音频缓存区中缓存音频数据，所述音频缓存区中缓存的音频数据为当前时刻之前预设时长的音频数据；以及，确定当前接收的音频数据中是否包含指定唤醒词；若所述当前接收的音频数据中包含所述指定唤醒词，则将缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器702。

云端服务器702，用于接收智能设备701发送的音频数据，所述音频数据至少包含指定唤醒词和所述指定唤醒词的上下文信息，基于所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒智能设备701，若确定出用户不是在唤醒智能设备701，则向智能设备701发送禁止唤醒指令。

在一种可能的实现方式中，本实施例中的云端服务器702在基于所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒智能设备701时，具体用于从所述音频数据中获取包含所述指定唤醒词和所述指定唤醒词上下文信息的音频数据作为第一目标音频数据；通过所述第一目标音频数据中所述指定唤醒词的上下文信息，确定所述指定唤醒词是否符合预设唤醒规则；若所述指定唤醒词符合所述预设唤醒规则，则确定用户是在唤醒智能设备701；若所述指定唤醒词不符合所述预设唤醒规则，则确定用户不是在唤醒智能设备701。

本实施例中的云端服务器702，还用于从所述音频数据中获取所述指定唤醒词之后的音频数据作为第二目标音频数据；对所述第二目标音频数据进行响应操作，获得响应操作结果，所述响应操作包括语音识别、语义理解和对话管理；还用于当确定出用户是在唤醒智能设备701时，将所述响应操作结果发送至智能设备701。

在一种可能的实现方式中，云端服务器可在确定出用户是在唤醒智能设备后，再对第二目标音频数据进行响应操作，然而，在确定出用户是在唤醒智能设备后，再对第二目标音频数据进行响应操作，势必导致响应时间变长，影响用户体验，基于此，在另一种较优选的实现方式中，云端服务器在基于音频数据中的指定唤醒词和指定唤醒词的上下文信息，确定用户是否在唤醒智能设备时，并行执行对第二目标音频数据进行响应操作，如此，在确定出用户是在唤醒智能设备时，云端服务器能够很快将响应操作结果反馈至智能设备，相较于前一实现方式，响应速度大大提升，响应时间大大缩短。

智能设备701，还用于当接收到云端服务器702发送的禁止唤醒指令时，不执行唤醒操作；当接收到云端服务器702针对其接收的音频数据的响应操作结果时，执行唤醒操作并基于所述响应操作结果响应用户。

本申请实施例提供的语音唤醒系统中，智能设备在接收到语音数据时，先对语音数据进行唤醒初步判断，若判断出用户可能在唤醒智能设备，则将接收的音频数据发送至云端服务器进行进一步地唤醒判断，为了提高唤醒准确率，智能设备缓存指定唤醒词之前预设时长的音频数据，在向云端服务器发送音频数据时，将缓存的音频数据一并进行发送，从而使得云端服务器接收的数据中包含指定唤醒词的上下文信息，云端服务器结合指定唤醒词的上下文信息进行唤醒判断，能够显著提高语音唤醒的准确率，并且，云端服务器在进行唤醒判断的同时，对接收的语音数据中指定唤醒词之后的音频数据进行响应操作，唤醒判断过程与响应操作过程并行进行，能够提升对于用户需求的响应速度。

本申请实施例还提供了一种云端服务器，请参阅图8，示出了该云端服务器的结构示意图，该云端服务器可以包括：存储器801和处理器802。

存储器801，用于存储程序；

处理器802，用于执行所述程序，所述程序具体用于：

云端服务器还可以包括：总线和通信接口。

处理器802、存储器801、通信接口803通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器802可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器802可包括主处理器，还可包括基带芯片、调制解调器等。

存储器801中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器801可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

通信接口803可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器802执行存储器801中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的应用于云端服务器的语音唤醒方法的各个步骤。

本申请还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例提供的应用于云端服务器的语音唤醒方法的各个步骤。

本申请实施例还提供了一种智能设备，请参阅图9，示出了该智能设备的结构示意图，该设备可以包括：存储器901和处理器902。

存储器901，用于存储程序；

处理器902，用于执行所述程序，所述程序具体用于：

确定当前接收的音频数据中是否包含指定唤醒词；

若所述当前接收的音频数据中包含所述指定唤醒词，则将缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，以使所述云端服务器进一步基于接收的音频数据判断用户是否在唤醒所述智能设备。

智能设备还可以包括：总线、通信接口903、输入设备904和输出设备909。

处理器902、存储器901、通信接口903、输入设备904和输出设备909通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器902可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器902可包括主处理器，还可包括基带芯片、调制解调器等。

存储器901中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器901可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备904可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备909可包括允许输出信息给用户的装置，例如显示屏、扬声器等。

通信接口903可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器902执行存储器901中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的语音唤醒方法的各个步骤。

本申请还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例提供的应用于智能设备的语音唤醒方法的各个步骤。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音唤醒方法，其特征在于，应用于云端服务器，所述方法包括：

基于所述音频数据中所述指定唤醒词的上下文信息，确定所述音频数据中的所述指定唤醒词是否为用户独立说出；

若所述指定唤醒词不为用户独立说出，则确定用户不是在唤醒所述智能设备，向所述智能设备发送禁止唤醒指令。

2.根据权利要求1所述的语音唤醒方法，其特征在于，还包括：

3.根据权利要求1或2所述的语音唤醒方法，其特征在于，所述基于所述音频数据中所述指定唤醒词的上下文信息，确定所述音频数据中的所述指定唤醒词是否为用户独立说出，包括：

通过所述第一目标音频数据中所述指定唤醒词的上下文信息，确定所述指定唤醒词是否为用户独立说出。

4.根据权利要求1所述的语音唤醒方法，其特征在于，所述方法还包括：

对所述第二目标音频数据进行响应操作，获得响应操作结果。

5.根据权利要求2或4所述的语音唤醒方法，其特征在于，所述方法还包括：

6.根据权利要求3所述的语音唤醒方法，其特征在于，所述从所述音频数据中获取包含所述指定唤醒词和所述指定唤醒词上下文信息的音频数据作为第一目标音频数据，包括：

7.一种语音唤醒方法，其特征在于，应用于智能设备，所述方法包括：

确定当前接收的音频数据中是否包含指定唤醒词；

若所述当前接收的音频数据中包含所述指定唤醒词，则将所述音频缓存区中缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，以使所述云端服务器进一步基于接收的音频数据判断用户是否在唤醒所述智能设备；

当接收到所述云端服务器发送的禁止唤醒指令时，不执行唤醒操作，其中，所述禁止唤醒指令为所述云端服务器基于所述音频数据中所述指定唤醒词的上下文信息，确定所述音频数据中的所述指定唤醒词不符合预设唤醒规则时发送的指令，其中，所述预设唤醒规则为指定唤醒词为用户独立说出。

8.根据权利要求7所述的语音唤醒方法，其特征在于，还包括：

9.一种语音唤醒装置，其特征在于，应用于云端服务器，所述装置包括：音频接收模块、唤醒判别模块和指令发送模块；

所述唤醒判别模块，用于基于所述音频接收模块接收的所述音频数据中所述指定唤醒词的上下文信息，确定所述音频数据中的所述指定唤醒词是否为用户独立说出，若所述指定唤醒词不为用户独立说出，则确定用户不是在唤醒所述智能设备；

10.一种语音唤醒装置，其特征在于，应用于智能设备，所述装置包括：

音频接收模块、音频缓存模块、初步唤醒判别模块、音频发送模块、指令接收模块和响应模块；

所述音频接收模块，用于接收音频数据；

所述音频发送模块，用于当所述初步唤醒判别模块确定出所述当前接收的音频数据中包含所述指定唤醒词时，将所述音频缓存区中缓存的音频数据和当前以及后续接收的音频数据发送至云端服务器，以使所述云端服务器进一步基于接收的音频数据判断用户是否在唤醒所述智能设备；

所述指令接收模块，用于接收所述云端服务器发送的禁止唤醒指令，其中，所述禁止唤醒指令为所述云端服务器基于所述音频数据中所述指定唤醒词的上下文信息，确定所述音频数据中的所述指定唤醒词不符合预设唤醒规则时发送的指令，其中，所述预设唤醒规则为指定唤醒词为用户独立说出；

所述响应模块，用于当接收模块接收到所述禁止唤醒指令时，不执行唤醒操作。

11.一种语音唤醒系统，其特征在于，包括：智能设备和云端服务器；

所述云端服务器，用于接收所述智能设备发送的音频数据，所述音频数据至少包含所述指定唤醒词和所述指定唤醒词的上下文信息；以及基于所述音频数据中所述指定唤醒词的上下文信息，确定所述音频数据中的所述指定唤醒词是否为用户独立说出，若所述指定唤醒词不为用户独立说出，则确定用户不是在唤醒所述智能设备，向所述智能设备发送禁止唤醒指令。

12.根据权利要求11所述的语音唤醒系统，其特征在于，所述云端服务器，还用于在基于所述音频数据中的所述指定唤醒词和所述指定唤醒词的上下文信息，确定用户是否在唤醒所述智能设备时，并行的对所述音频数据中所述指定唤醒词之后的音频数据进行响应操作，获得响应操作结果。

13.根据权利要求11所述的语音唤醒系统，其特征在于，所述云端服务器，具体用于从所述音频数据中获取包含所述指定唤醒词和所述指定唤醒词上下文信息的音频数据作为第一目标音频数据，通过所述第一目标音频数据中所述指定唤醒词的上下文信息，确定所述指定唤醒词是否为用户独立说出，若所述指定唤醒词为用户独立说出，则确定用户是在唤醒所述智能设备，若所述指定唤醒词不为用户独立说出，则确定用户不是在唤醒所述智能设备。

14.根据权利要求11所述的语音唤醒系统，其特征在于，所述云端服务器，还用于从所述音频数据中获取所述指定唤醒词之后的音频数据作为第二目标音频数据；对所述第二目标音频数据进行响应操作，获得响应操作结果。

15.根据权利要求12或14所述的语音唤醒系统，其特征在于，所述云端服务器，还用于当确定出用户是在唤醒所述智能设备时，将所述响应操作结果发送至所述智能设备。

16.一种云端服务器，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

基于所述音频数据中所述指定唤醒词的上下文信息，确定所述音频数据中的所述指定唤醒词是否为用户独立说出，若所述指定唤醒词不为用户独立说出，则确定用户不是在唤醒所述智能设备，向所述智能设备发送禁止唤醒指令。

17.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~6中任一项所述的语音唤醒方法的各个步骤。

18.一种智能设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

确定当前接收的音频数据中是否包含指定唤醒词；

19.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求7或8所述的语音唤醒方法的各个步骤。