CN114373462A

CN114373462A - 语音交互设备及其控制方法、控制装置

Info

Publication number: CN114373462A
Application number: CN202210148501.9A
Authority: CN
Inventors: 王峰
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-04-19

Abstract

本申请提供的实施例属于语音交互技术领域，具体提供一种语音交互设备及其控制方法、控制装置，该语音交互设备包括唤醒模块、主芯片以及主机，唤醒模块响应于采集到第一音频信号，控制主芯片进入U‑boot进程；在U‑boot进程中，主芯片首先对语音交互设备的初始化，并获取第二音频信号；响应于第二音频信号达到能量阈值时，提取第二音频信号的音频特征，在响应于音频特征满足预设条件时，再根据第二音频信号控制主机启动。本方案中，由唤醒模块和主芯片协同实现对语音交互模块进行唤醒，其可以保障唤醒性能，从而避免语音交互设备被误唤醒或无法正常唤醒等情况，提升用户的交互体验。

Description

语音交互设备及其控制方法、控制装置

技术领域

本申请涉及语音交互技术领域。更具体地讲，涉及一种语音交互设备及其控制方法、控制装置。

背景技术

随着语音交互技术的不断发展，各类电子设备上都配置了语音交互功能，以实现电子设备的语音控制，从而更好的满足用户需求。

然而，由于高性能的芯片功耗较高，目前的语音交互设备中，通常配置低功耗芯片用于唤醒语音交互设备，然而，低功耗芯片的运算能力有限，在唤醒语音交互设备时，会出现待机误唤醒、无法正常唤醒等问题，严重影响用户体验。

发明内容

本申请示例性的实施方式提供一种语音交互设备及其控制方法、控制装置，可以在保证低功耗的同时提升唤醒效率。

第一方面，本申请实施例提供一种语音交互设备，包括：唤醒模块、主芯片以及主机；

唤醒模块被配置为响应于采集到第一音频信号，控制主芯片进入U-boot进程；在U-boot进程中，主芯片被配置为：对语音交互设备进行初始化，并获取第二音频信号；响应于第二音频信号达到能量阈值，提取第二音频信号的音频特征；确定音频特征是否满足预设条件，在响应于音频特征满足预设条件时，根据第二音频信号控制主机启动，第二音频信号中包含第一音频信号和唤醒模块当前采集到的音频信号。

在一些可能的实现方式中，主芯片包括：音频信号检测模块和远场语音模块；

主芯片被配置为响应于第二音频信号达到能量阈值，提取第二音频信号的音频特征时，具体包括：音频信号检测模块响应于第二音频信号达到能量阈值，提取第二音频信号的音频特征；主芯片被配置为确定音频特征是否满足预设条件，并响应于音频特征满足预设条件，根据第二音频信号控制主机启动，具体包括：

音频信号检测模块确定音频特征是否满足预设条件；响应于音频特征满足预设条件时，启动远场语音模块；远场语音模块在启动后，根据第二音频信号控制主机启动。

在一些可能的实现方式中，音频信号检测模块响应于第二音频信号达到能量阈值，提取第二音频信号的音频特征时，具体包括：对第二音频信号进行分帧处理，获得第二音频信号对应的语音帧；根据语音帧，计算第二音频信号的短时能量，和/或，短时过零率；响应于短时过零率大于或等于预设过零率，和/或，短时能量大于或等于预设短时能量，则确定第二音频信号达到能量阈值，提取第二音频信号的音频特征。

在一些可能的实现方式中，音频信号检测模块还用于：响应于短时过零率小于预设过零率，和/或，短时能量小于预设短时能量，确定第二音频信号未达到能量阈值，控制主芯片中断U-boot进程。

在一些可能的实现方式中，音频信号检测模块确定音频特征是否满足预设条件时，具体包括：根据音频特征和预设特征序列，确定音频特征与预设特征序列的相似度；响应于相似度大于或等于预设相似度，确定音频特征满足预设条件；响应于相似度小于预设相似度，确定音频特征不满足预设条件。

在一些可能的实现方式中，音频信号检测模块还用于：响应于音频特征不满足预设条件，控制主芯片中断U-boot进程。

在一些可能的实现方式中，唤醒模块包括：音频采集电路以及激活电路；唤醒模块被配置为唤醒模块被配置为响应于接收到第一音频信号，控制主芯片进入U-boot进程时，具体包括：音频采集电路响应于接收到第一音频信号，确定第一音频信号中是否包含人声和/或目标唤醒词；激活电路响应于音频信号中包含人声和/或目标唤醒词，则向主芯片发送激活指令，激活指令用于指示主芯片进入U-boot进程。

在一些可能的实现方式中，音频信号检测模块在响应于音频特征满足预设条件，启动远场语音模块时，具体包括：音频信号检测模块响应于音频特征满足预设条件，获取第二音频信号中满足预设条件的第三音频信号；启动远场语音模块，并向远场语音模块发送第三音频信号；

远场语音模块在启动后，根据第二音频信号控制主机启动时，具体包括：远场语音模块接收第三音频信号，根据第三音频信号中的唤醒词，控制主机启动。

第二方面，本申请提供一种语音交互设备的控制方法，语音交互设备包括唤醒模块、主芯片以及主机，唤醒模块用于采集音频信号；控制方法包括：响应于接收到唤醒模块的激活指令，控制主芯片进入U-boot进程，激活指令是唤醒模块在接收到第一音频信号后发送的；在主芯片进入U-boot进程中，实现对语音交互设备的初始化，并获取第二音频信号；响应于第二音频信号达到能量阈值，提取第二音频信号的音频特征；确定音频特征是否满足预设条件，第二音频信号中包含第一音频信号和唤醒模块当前采集到的音频信号；响应于音频特征满足预设条件时，根据第二音频信号控制主机启动。

第三方面，本申请提供一种语音交互设备的控制装置，语音交互设备包括唤醒模块、主芯片以及主机，唤醒模块用于采集音频信号；

控制装置包括：接收单元，用于响应于接收到唤醒模块的激活指令，控制主芯片进入U-boot进程，激活指令是唤醒模块在接收到第一音频信号后发送的；

初始化单元，用于主芯片在U-boot进程中，实现对语音交互设备的初始化；

第一处理单元，用于获取第二音频信号，并响应于第二音频信号达到能量阈值，提取第二音频信号的音频特征，确定音频特征是否满足预设条件，第二音频信号中包含第一音频信号和唤醒模块当前采集到的音频信号；

第二处理单元，用于响应于音频特征满足预设条件时，控制主机启动。

第四方面，本申请提供一种计算机可读存储介质，该存储介质上存储有计算机程序，计算机程序被主芯片执行时实现如第二方面的语音交互设备的控制方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述如第二方面的语音交互设备的控制方法。

本申请提供的语音交互设备及其控制方法、控制装置，该语音交互设备包括唤醒模块、主芯片以及主机，唤醒模块响应于采集到第一音频信号，控制主芯片进入U-boot进程；在U-boot进程中，主芯片首先对语音交互设备的初始化，并获取第二音频信号；响应于第二音频信号达到能量阈值时，提取第二音频信号的音频特征，并确定音频特征是否满足预设条件；在响应于音频特征满足预设条件时，再根据第二音频信号控制主机启动。本方案中，由唤醒模块和主芯片协同实现对语音交互模块进行唤醒，其可以保障唤醒性能，从而避免语音交互设备被误唤醒或无法正常唤醒等情况，提升用户的交互体验。另外，在U-boot进程中实现对音频信号的检测，从而启动主机，相比现有技术中在主机启动后再对音频信号进行检测，可以提升主语音交互设备的唤醒速度，同时还能有效防止无效噪声对主机的启动过程造成干扰。

本申请的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或相关技术中的实施方式，下面将对实施例或相关技术描述中所需要使用的附图作一一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请的实施例提供语音交互设备的应用场景示意图；

图2为本申请的实施例提供的语音交互设备的结构示意图一；

图3为本申请的实施例提供语音交互设备的控制方法的流程示意图一；

图4为本申请的实施例提供的语音交互设备的结构示意图二；

图5为本申请的实施例提供的语音交互设备的控制方法的流程示意图二；

图6为本申请的实施例提供的语音交互设备的控制装置的结构示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

下面采用详细的实施例，来说明本申请实施例中的语音交互设备的控制方法和实现原理。

首先对本申请涉及的应用场景进行解释说明：

图1为本申请的实施例提供语音交互设备的应用场景示意图。如图1所示，该场景包括语音交互设备100和用户。

需要说明的是，图中所示的语音交互设备100可以是任意具备语音交互功能的电子设备，例如是，手机、平板电脑、电视机等显示设备，也可以是冰箱、洗衣机、空调等家电，本申请实施例不做具体限定。

应当理解的是，根据语音交互设备100的不同类型，在与语音交互设备100进行交互时，有多种方式。一方面，当语音交互设备100具备声音采集和语音输出功能时，用户可以直接与语音交互设备100进行语音交互。具体的，由语音交互设备100上的声音采集器采集用户的语音控制命令，再按照该语音控制命令进行相应的操作，例如，根据语音控制命令进行关机、开机等操作，或者通过语音播放单元输出交互语音。

另一方面，该场景中还可以包括控制终端，其中，控制终端例如为遥控器、手机平板等移动终端，在该控制终端上设置有语音采集模块，用户可以通过控制终端上的语音采集模块来采集用户的语音控制命令，再由控制终端向语音交互设备100发送相应的控制指令，从而实现对语音交互设备100的语音控制。

相关技术中，当语音交互设备100处于关机或待机状态时，通常需要先唤醒语音交互设备，具体的，可以直接向语音交互设备输入语音唤醒词，当语音交互设备上的唤醒模块接收到唤醒词后，来唤醒语音交互设备，或者，也可以在控制终端上输入语音唤醒词，由终端设备的唤醒模块根据语音唤醒词，来控制该语音交互设备的唤醒。然而，由于高性能的主芯片功耗较高，为了降低功耗，无论是控制终端上的唤醒模块，还是语音交互设备上的唤醒模块，通常都配置的是低功耗唤醒单元。

然而，低功耗唤醒单元的运算能力有限，无法处理多路麦克数据和回采信号数据，在非安静环境和设备播放条件下，唤醒率急剧下降，甚至出现无法唤醒或误唤醒的情况，严重影响用户体验。

有鉴于此，本申请实施例提供一种语音交互设备及其控制方法、控制装置，通过低功耗的唤醒模块和高性能的主芯片共同实现语音交互设备的唤醒，先由低功耗唤醒模块确定是否满足唤醒条件，当满足时，再启动高性能的主芯片，由主芯片进一步确定是否开启主机，从而避免误唤醒、无法正常唤醒语音交互设备的情况，以提升用户体验。同时，定制U-boot进程用于引导开机过程，在U-boot进程中实现对音频信号的检测，从而启动主机，相比现有技术中在主机启动后再对音频信号进行检测，可以提升主语音交互设备的唤醒速度，同时还能有效防止无效噪声对主机的启动过程造成干扰。

另外，由于唤醒模块未控制主芯片进入U-boot进程时，高性能的主芯片处于关闭状态，可以降低语音交互设备的功耗。

需要说明的是，上述的唤醒模块可以为语音交互设备中的模块，也可以为控制终端中的模块，在实际应用中不做限定。接下来，以唤醒模块为语音交互设备中的模块为例，以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请的实施例提供的语音交互设备的结构示意图一。如图2所示，该语音交互设备包括：唤醒模块201、主芯片202以及主机203。

在一些实施例中，唤醒模块201和主芯片202通信连接，主芯片202和主机203通信连接。

其中，唤醒模块201用于采集音频信号。

在本申请实施例中，对于主芯片202的具体类别不做限定。例如，在一些实施例中，主芯片202可以为一个或多个ASIC(Application Specific Integrated Circuit，特定集成电路)，或，一个或多个DSP(Digital Signal Processor，数字信号处理器)，或，一个或者多个FPGA(Field Programmable Gate Array，现场可编程门阵列)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该主芯片202可以是通用处理器，例如CPU或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以SOC(System-on-a-Chip，片上系统)的形式实现等等。

需要说明的是，主机203可以为一个或多个元件的总称，对于这些元件的类型，本申请实施例不做具体限定，例如，主机203可以包括：显示屏、调谐解调器、通信器、检测器、存储器中的至少一种。

其中，检测器例如是温度传感器、湿度传感器等；通信器例如是，Wifi芯片、蓝牙通信协议芯片、有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种；调谐解调器可以通过有线或无线接收方式接收信号，并进行放大、混频和谐振等调制解调处理，此处不再一一列举。

接下来，结合具体的实施例对上述的语音交互设备的控制方法进行详细说明：

图3为本申请的实施例提供语音交互设备的控制方法的流程示意图一。如图3所示，本申请实施例提供的上述语音交互设备100的控制方法，具体包括如下步骤：

S301、唤醒模块响应于采集到第一音频信号，控制主芯片进入U-boot进程。

在实际应用中，本申请实施例中的唤醒模块可以设置为低功耗的唤醒单元，由于其功耗较低，其可以实时的检测周围的音频信号，且不会耗费太多的功耗。

可选的，唤醒模块可以包括麦克风或者检测电路，此类唤醒模块成本较低，可以降低语音交互设备的成本。

在一些实施方式中，第一音频信号可以为任意类型的音频信号。

也就是说，唤醒模块采集到的语音交互设备周围任意的音频信号，均可能是用于唤醒语音交互设备的，需要主芯片进行进一步判断是否需要唤醒语音交互设备，因而，在采集到任意音频信号后，将其视为第一音频信号，并控制主芯片进入U-boot流程。通过此方式，可以避免遗漏用于唤醒语音交互设备的音频信号。

在另一些实施方式中，第一音频信号可以为人声信号和/或包括唤醒词的音频信号。即当唤醒模块采集到语音交互设备周围的音频信号时，需要对音频信号进行初步筛选，确定音频信号中的人声信号和/或包含唤醒词的音频信号为第一音频信号。

具体的，在第一方面，通过唤醒模块实时的检测周围的音频信号，并判断音频信号中是否包含人声，若包含人声，则说明当前的音频信号可能是用于唤醒语音交互设备，此时，需要主芯片进行进一步判断是否需要唤醒语音交互设备。

本方案中，通过唤醒模块对采集到的音频信号进行初步判断，能够准确的检测出人声，排除环境中的噪音干扰，进而避免由于噪音而造成主芯片被多次启动的情况，可以最大程度的降低语音交互设备的功耗。

在第二方面中，唤醒模块实时的检测周围的音频信号，并判断种音频信号是否包含目标唤醒词或者与目标唤醒词相似的唤醒词；若包含，则确定当前的音频信号很可能是用于唤醒语音交互设备，此时，需要主芯片进行进一步判断是否需要唤醒语音交互设备。

其中，目标唤醒词为该语音交互设备预设的唤醒词，对于唤醒词的具体内容，本申请实施例不做限定，例如是“开机”、“关机”、“待机”等等，也可以是控制语音交互设备的参数的唤醒词，例如是“音量”、“温度”、“分辨率”等等，此处不再一一赘述。

相比于人声检测，通过检测音频信号中的唤醒词来启动主芯片，其准确性更高，能够降低主芯片被误启动的概率，降低语音交互设备的功耗。

具体的，在本申请实施例中，唤醒模块可以向主芯片发送激活指令，以通过激活指令指示主芯片进入U-boot流程。

示例性的，若音频信号为“请在10点开机”，则唤醒模块会检测到了“开机”这一唤醒词，则确定当前的音频信号可能是用于唤醒语音交互设备，此时向主芯片发送激活指令。

S302、主芯片进入U-boot进程，对语音交互设备进行初始化，并获取第二音频信号。

相应的，主芯片在接收到唤醒模块发送的激活指令之后，即进入U-boot进程，其中，U-Boot进程主要用于启动主引导程序。

其中，进行初始化的硬件可以根据语音交互设备的硬件配置执行，依据不同类型的语音交互设备，进行初始化的硬件不同，通常包括：显示屏、音频模块、通讯模块等，还可以包括：摄像头、射频等模块，本申请实施例不做具体限定。

需要说明的是，第二音频信号中包括第一音频信号和唤醒模块当前采集到的音频信号。

具体的，唤醒模块在检测周围的音频信号的同时，会实时的缓存所检测到的音频信号，并在向主芯片发送激活指令的同时，向主芯片发送所采集到的音频信号。

在一些场景中，用户在通过语音命令唤醒语音交互设备时，可能在唤醒语音中包含有控制指令，例如，当唤醒语音为″××设备，请开机，并将温度调节至××度″时，当唤醒设备采集到该语音信号时，会将该语音信号作为第一音频信号，控制主芯片进入U-boot进程，从而控制语音交互设备开机。而只有将该音频信号发送给主芯片，才能够实现唤醒语音设备的同时，对语音交互设备的准确控制，以将温度调节至××度，否则无法执行此指令。因此，在本申请实施例中，需要将唤醒设备采集到的第一音频信号也发送给主芯片，防止遗漏控制指令而造成控制失败的情况，提升交互效率，保障控制效果。

在另一些场景中，在用户的唤醒语音中不包括控制指令，例如，当唤醒语音为″××设备，请开机″时，当唤醒设备采集到该语音信号时，会将该语音信号作为第一音频信号，控制主芯片进入U-boot进程，从而控制语音交互设备开机。但此语音中未包含其他的控制指令，因此，需要唤醒模块继续采集之后的音频信号，并将这些音频信号实时的发送给主芯片，使得主芯片可以根据这些音频信号实现更准确的控制。

可选的，第二音频信号可以携带在激活指令中向主芯片发送，也可以单独向主芯片发送，本申请实施例不做具体限定。

S303、主芯片响应于第二音频信号达到能量阈值，提取第二音频信号的音频特征。

发明人发现，由于唤醒模块仅对第一音频信号进行了初步筛选，当唤醒模块仅实现人声检测时，只要音频数据中包含人声，其就会向主芯片发送激活指令以启动主芯片；或者，当唤醒模块实现唤醒词检测时，由于其性能较低，也有可能出现判断错误的情况，此时也会发送激活指令以启动主芯片。上述两种示例中，均会使得主芯片接收到的第二音频信号并非用于唤醒该语音交互设备的情况。

有鉴于此，本申请实施例中，需要主芯片根据第二音频信号的能量值，进一步判断其是否用于唤醒语音交互设备。需要说明的是，对于能量阈值的类型，本申请实施例不做具体限定，例如，可以为第二音频信号对应的短时过零率，和/或，短时能量。

具体的，在确定第二音频信号是否达到能量阈值时，具体包括如下步骤：

(1)对第二音频信号进行分帧处理，获得第二音频信号对应的语音帧；

(2)根据语音帧，计算第二音频信号的短时能量，和/或，短时过零率；

(3)响应于短时过零率大于或等于预设过零率，和/或，短时能量大于或等于预设短时能量，则确定第二音频信号达到能量阈值，提取第二音频信号的音频特征。

需要说明的是，对于获取语音帧对应的短时能量和短时过零率的具体方式，以及获取第二音频信号的音频特征的方式，本申请实施例均不做详细说明。

应当理解的是，当短时过零率大于或等于预设过零率，和/或，短时能量大于或等于预设短时能量时，则说明第二音频信号为有效的人声信号，否则，说明第二音频信号为无效的人声信号。本申请实施例中，通过能量阈值对第二音频信号进行进一步判断，当第二音频信号是有效的人声信号时，才进行后续的启动流程，可以进一步防止主机被误启动的情况，提升用户的交互体验。

S304、主芯片确定音频特征是否满足预设条件，在响应于音频特征满足预设条件时，根据第二音频信号控制主机启动。

需要说明的是，对于预设条件的类型，本申请实施例也不做具体限定。例如，预设条件可以设置为：比较音频特征和预设特征序列的相似度，当相似度满足预设相似度时，说明第二音频特征满足预设条件。

需要说明的是，预设特征序列有多种获取方式。在一些实施例中，对于同一语音交互设备，其控制指令通常具备一定的相似性，示例性的，对于语音交互空调来说，其控制指令通常用于调节温度，例如是″将温度调节到××度″、″调低(提高)温度″等，而对于语音交互电视来说，其控制指令通常用于更换节目类型，或者调节电视参数，例如是″调节到××频道″、″调节到××节目″、″降低(提高)亮度、分辨率、声音″等。

本申请实施例中，可以将这些控制指令对应音频特征作为预设特征序列，从而作为基准数据，在获取到第二音频信号时，将第二音频信号对应的音频特征与预设特征序列进行比对，当相似度大于或预设相似度时，说明当前的第二音频信号用于控制该语音交互设备，进而实现精准控制。

在另一些实施例中，可以将用户的历史语音控制指令作为基准数据，并根据这些历史语音控制指令获取预设特征序列，在获取到第二音频信号时，将第二音频信号对应的音频特征与预设特征序列进行比对，当相似度大于或预设相似度时，说明当前的第二音频信号用于控制该语音交互设备。

在本申请实施例中，由于对于同一语音交互设备，其使用者通常为固定用户，同一个用户在不同时间对语音交互设备进行控制时，其控制指令具备相似性。采用这些用户的历史语音控制指令作为基准数据，可以保障判断结果的准确性。

本申请实施例提供的语音交互设备的控制方法中，通过低功耗的唤醒模块和高性能的主芯片共同实现语音交互设备的唤醒，先由唤醒模块确定是否满足唤醒条件，当满足时，再由主芯片进一步确定是否开启主机，从而避免误唤醒、无法正常唤醒语音交互设备的情况，以提升用户体验。同时，定制U-boot进程用于引导开机过程，在U-boot进程中实现对音频信号的检测，从而启动主机，相比现有技术中在主机启动后再对音频信号进行检测，可以提升主语音交互设备的唤醒速度，同时还能有效防止无效噪声对主机的启动过程造成干扰。

另外，由于唤醒模块未控制主芯片进入U-boot进程时，主芯片处于关闭状态，可以降低语音交互设备的功耗。

作为步骤S303和S304的一种替换方案，还可以通过判断第二音频信号中是否包含目标语音数据，进而判断第二音频信号是否用于唤醒语音交互设备。

具体的，对第二音频信号进行语义分析，当第二音频信号中包含用于唤醒语音交互设备的目标语音数据时，确定音频特征满足预设条件，并在响应于音频特征满足预设条件时，根据第二音频信号控制主机启动。本申请实施例中，通过可对第二音频数据进行语义分析，可以获得更加准确的用户意图，从而实现对对语音交互设备的精准控制。

在一些可选的实施方式中，当唤醒模块确定接收到的音频信号不是用于唤醒语音交互设备时，可以删除当前缓存的音频信号，以降低唤醒模块的存储压力。

在一些可选的实施方式中，当第二音频信的能量值不满足能量阈值，和/或，主芯片确定音频特征不满足预设条件时，可以向唤醒模块发送指示信息。其中，指示信息用于指示唤醒模块停止发送音频信号。相应的，在唤醒模块接收到指示信息之后，即停止向主芯片发送当前采集的音频信号。通过此设置，可以及时控制唤醒模块停止发送音频信号，一定程度上可以降低唤醒模块和主芯片的功耗。

在一些可选的实施方式中，当主芯片确定音频特征不满足预设条件时，还可以关闭主芯片，从而降低主芯片的功耗，直到主芯片接收到唤醒模块发送的下一条激活指令时，再按照上述步骤进行相同的处理。

图4为本申请的实施例提供的语音交互设备的结构示意图二。如图4所示，本申请实施例提供的语音交互设备200中，主芯片202包括：音频信号检测模块2021和远场语音模块2022。

其中，音频信号检测模块2021为主芯片202中用于处理音频信号的至少一个计算核心。

在一种可选的实施方式中，唤醒模块201包括：音频采集电路2011以及激活电路2012。

其中，音频采集电路2011应用于采集音频信号，并响应于接收到第一音频信号，确定第一音频信号中是否包含人声和/或目标唤醒词。

激活电路2012用于响应于音频信号中包含人声和/或目标唤醒词时，向主芯片发送激活指令，激活指令用于指示主芯片进入U-boot进程。

需要说明的是，本申请实施例中的音频采集电路2011和激活电路2012所执行的方案与图3所示实施例中，唤醒模块201所执行的方案和原理类似，具体可参考上述实施例，此处不做赘述。

接下来，结合图5对图4所示实施例中的语音交互设备的控制方法进行更详细的说明。图5为本申请的实施例提供的语音交互设备的控制方法的流程示意图二。如图5所示，本申请实施例提供的控制方法包括如下步骤：

S501、唤醒模块响应于采集到第一音频信号，控制主芯片进入U-boot进程。

S502、在U-boot进程中，主芯片对语音交互设备进行初始化，并获取第二音频信号。

具体的，唤醒模块201响应于采集到第一音频信号时，向主芯片202中的音频信号检测模块2021发送激活指令，使得主芯片进行U-boot进程，同时，在U-boot进程中，音频信号检测模块2021首先被唤醒。

需要说明的是，步骤S501～S502中唤醒音频信号检测模块2021的方案与图3所示实施例中的步骤S301～S302中唤醒主芯片202的方案和原理类似，具体可参考上述实施例，此处不再赘述。

S503、音频信号检测模块确定第二音频信号是否达到能量阈值。

S504、音频信号检测模块响应于第二音频信号未达到能量阈值，控制主芯片中断U-boot进程。

需要说明的是，当第二音频信号未达到能量阈值，说明该第二音频信号并非用于控制语音交互设备，可以通过中断U-boot进程，从而停止该语音交互设备的启动过程。本申请实施例中，由于通过第二音频信号的能量值，可以准确的判断第二音频信号是否用于控制该语音交互设备，在语音交互设备的启动进程前期即可实现判定，从而无需进行后续的启动流程，可以防止语音交互设备被误启动，同时，由于在此过程中只需要唤醒音频信号检测模块，而无需唤醒整个主芯片，可以降低主芯片的能耗。

S505、音频信号检测模块响应于第二音频信号达到能量阈值，提取第二音频信号的音频特征。

其中，能量阈值可以为第二音频信号对应的短时过零率，和/或，短时能量等。

具体的，在本申请实施例中，当短时过零率大于或等于预设过零率，和/或，短时能量大于或等于预设短时能量时，确定第二音频信号达到能量阈值；相应的，当短时过零率小于预设过零率，和/或，短时能量小于预设短时能量时，确定第二音频信号未达到能量阈值。

需要说明的是，音频信号检测模块获取短时能量和短时过零率的具体方案和有益效果请参见图3所示实施例中的步骤S303，此处不做赘述。

S506、音频信号检测模块确定音频特征是否满足预设条件。

需要说明的是，步骤S503～S505与图3所示实施例中的步骤S303～S304中主芯片202所执行的方案和原理类似，具体可参考上述实施例，此处不再赘述。

S507、音频信号检测模块响应于音频特征不满足预设条件，控制主芯片中断U-boot进程。

S508、音频信号检测模块响应于音频特征满足预设条件时，启动远场语音模块。

需要说明的是，当音频特征满足预设条件时，说明该第二音频信号用于控制语音交互设备，此时，进一步唤醒主芯片202中的远场语音模块2022，从而通过远场语音模块2022提供更准确的语音服务。

而当音频特征不满足预设条件时，说明该第二音频信号并非用于控制语音交互设备，此时，也可以通过中断U-boot进程，从而停止该语音交互设备的启动过程。

本申请实施例中，可以对第二音频信号进行更进一步的判断，可以防止由于第二音频信号的能量值判断不准确，而导致语音交互设备被误启动的情况，同时，由于在此过程中可以及时中断U-boot进程，防止主芯片的远场语音模块被唤醒，可以降低主芯片的能耗。

S509、远场语音模块在启动后，根据第二音频信号控制主机启动。

具体的，远场语音模块启动后，获取第二音频信号中的控制指令，并基于控制指令控制主机的启动。

发明人发现，由于第二音频信号中包括唤醒模块实时采集音频信号，在启动语音交互设备的过程中，唤醒模块可能会接收到多条音频信号，这就导致第二音频信号中可能会包括不满足上述预设条件的部分音频信号，这些音频信号会对远场语音模块启动主机的过程造成干扰。有鉴于此，在一些实施例中，上述步骤S507具体包括如下步骤，以解决上述问题：

(1)音频信号检测模块获取第二音频信号中满足预设条件的第三音频信号。

(2)音频信号检测模块启动远场语音模块，并向远场语音模块发送第三音频信号。

相应的，上述步骤S509具体为：远场语音模块接收第三音频信号，根据第三音频信号中的唤醒词，控制主机启动。

本申请实施例中，由于主芯片为基于唤醒词检测的高性能引擎，其可以对缓存的全路麦克的音频信号进行降噪处理和唤醒词检测，可以保障唤醒性能，从而避免语音交互设备被误唤醒或无法正常唤醒等情况。另外，由唤醒模块根据音频信号来启动主芯片，使得主芯片在未接收到启动指令时均处于关闭状态，其不会产生太大的功耗，进而可以在保障语音交互设备的唤醒性能的同时，降低功耗，提升用户体验。

其次，在启动主芯片的过程中，先启动主芯片中的音频信号检测模块，通过此模块对第二音频信号进行初步判断，当通过时，再启动主芯片的远场语音模块，通过此方式，可以在保障语音交互设备的唤醒性能的同时，最大程度的降低主芯片的功耗，且通过远场语音模块可以实现更精准的控制。

图6为本申请的实施例提供的语音交互设备的控制装置的结构示意图。其中，语音交互设备包括唤醒模块、主芯片以及主机，其中，唤醒模块用于采集音频信号。

如图6所示，本申请实施例提供的控制装置600可以包括：

接收单元601，用于响应于接收到唤醒模块的激活指令，控制主芯片进入U-boot进程，激活指令是唤醒模块在接收到第一音频信号后发送的；初始化单元602，用于主芯片在U-boot进程中，实现对语音交互设备的初始化；第一处理单元603，用于获取第二音频信号，并用于响应于第二音频信号达到能量阈值时，提取第二音频信号的音频特征，确定音频特征是否满足预设条件，第二音频信号中包含第一音频信号和唤醒模块当前采集到的音频信号；第二处理单元604，用于响应于音频特征满足预设条件时，控制主机启动。

在一些可能的实现方式中，第一处理单元603包括音频信号检测模块，第二处理单元604包括远场语音模块；第一处理单元603具体用于：音频信号检测模块响应于第二音频信号达到能量阈值，提取第二音频信号的音频特征，并确定音频特征是否满足预设条件；第二处理单元604具体用于：音频信号检测模块确定音频特征是否满足预设条件；响应于音频特征满足预设条件时，启动远场语音模块；远场语音模块在启动后，根据第二音频信号控制主机启动。

在一些可能的实现方式中，第一处理单元603具体用于：对第二音频信号进行分帧处理，获得第二音频信号对应的语音帧；根据语音帧，计算第二音频信号的短时能量，和/或，短时过零率；响应于短时过零率大于或等于预设过零率，和/或，短时能量大于或等于预设短时能量，则确定第二音频信号达到能量阈值，提取第二音频信号的音频特征。

在一些可能的实现方式中，第一处理单元603还用于：响应于短时过零率小于预设过零率，和/或，短时能量小于预设短时能量，确定第二音频信号未达到能量阈值，控制主芯片中断U-boot进程。

在一些可能的实现方式中，第一处理单元603具体用于：根据音频特征和预设特征序列，确定音频特征与预设特征序列的相似度；响应于相似度大于或等于预设相似度，确定音频特征满足预设条件；响应于相似度小于预设相似度，确定音频特征不满足预设条件。

在一些可能的实现方式中，第一处理单元603还用于：响应于音频特征不满足预设条件，控制主芯片中断U-boot进程。

在一些可能的实现方式中，唤醒模块包括：音频采集电路以及激活电路；音频采集电路响应于接收到第一音频信号，确定第一音频信号中是否包含人声和/或目标唤醒词；激活电路响应于音频信号中包含人声和/或目标唤醒词，则向主芯片发送激活指令，激活指令用于指示主芯片进入U-boot进程。

在一些可能的实现方式中，第一处理单元603具体用于：响应于音频特征满足预设条件，获取第二音频信号中满足预设条件的第三音频信号；启动第二处理单元603，并向第二处理单元605发送第三音频信号；所第二处理单元604在启动后，接收第三音频信号，根据第三音频信号中的唤醒词，控制主机启动。

需要说明的是，本实施例提供的语音交互设备的控制装置可用于执行上述的语音交互设备的控制方法，其实现方式和技术效果类似，本实施例此处不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个ASIC(Application Specific Integrated Circuit，特定集成电路)，或，一个或多个DSP(Digital Signal Processor，数字信号主芯片)，或，一个或者多个FPGA(FieldProgrammable Gate Array，现场可编程门阵列)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用主芯片，例如CPU或其它可以调用程序代码的主芯片。再如，这些模块可以集成在一起，以SOC(System-on-a-Chip，片上系统)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当计算机程序被主芯片执行时实现如上任一方法实施例提供的语音交互设备的控制方法。

本申请实施例还提供一种运行指令的芯片，芯片用于执行如上任一方法实施例提供的语音交互设备的控制方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，至少一个主芯片可以从该计算机可读存储介质中读取计算机程序，该至少一个主芯片执行计算机程序时可实现如上任一方法实施例提供的语音交互设备的控制方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种语音交互设备，其特征在于，包括：唤醒模块、主芯片以及主机；

所述唤醒模块被配置为响应于采集到第一音频信号，控制所述主芯片进入U-boot进程；

在U-boot进程中，所述主芯片被配置为：对所述语音交互设备进行初始化，并获取第二音频信号；响应于所述第二音频信号达到能量阈值，提取所述第二音频信号的音频特征；确定所述音频特征是否满足预设条件，在响应于所述音频特征满足预设条件时，根据所述第二音频信号控制所述主机启动，所述第二音频信号中包含所述第一音频信号和所述唤醒模块当前采集到的音频信号。

2.根据权利要求1所述的语音交互设备，其特征在于，所述主芯片包括：音频信号检测模块和远场语音模块；

所述主芯片被配置为响应于所述第二音频信号达到能量阈值，提取所述第二音频信号的音频特征时，具体包括：

所述音频信号检测模块响应于所述第二音频信号达到能量阈值，提取所述第二音频信号的音频特征；

所述主芯片被配置为确定所述音频特征是否满足预设条件，并响应于所述音频特征满足预设条件，根据所述第二音频信号控制所述主机启动，具体包括：

所述音频信号检测模块确定所述音频特征是否满足预设条件；

响应于所述音频特征满足预设条件时，启动所述远场语音模块；

所述远场语音模块在启动后，根据所述第二音频信号控制所述主机启动。

3.根据权利要求2所述的语音交互设备，其特征在于，所述音频信号检测模块响应于所述第二音频信号达到能量阈值，提取所述第二音频信号的音频特征时，具体包括：

对所述第二音频信号进行分帧处理，获得所述第二音频信号对应的语音帧；

根据所述语音帧，计算所述第二音频信号的短时能量，和/或，短时过零率；

响应于所述短时过零率大于或等于预设过零率，和/或，所述短时能量大于或等于预设短时能量，确定所述第二音频信号达到能量阈值，提取所述第二音频信号的音频特征。

4.根据权利要求3所述的语音交互设备，其特征在于，所述音频信号检测模块还用于：

响应于所述短时过零率小于所述预设过零率，和/或，所述短时能量小于所述预设短时能量，确定所述第二音频信号未达到能量阈值，控制所述主芯片中断U-boot进程。

5.根据权利要求2所述的语音交互设备，其特征在于，所述音频信号检测模块确定所述音频特征是否满足预设条件时，具体包括：

根据所述音频特征和预设特征序列，确定所述音频特征与预设特征序列的相似度；

响应于所述相似度大于或等于预设相似度，确定所述音频特征满足预设条件；

响应于所述相似度小于预设相似度，确定所述音频特征不满足预设条件。

6.根据权利要求2所述的语音交互设备，其特征在于，所述音频信号检测模块还用于：

响应于所述音频特征不满足预设条件，控制所述主芯片中断U-boot进程。

7.根据权利要求1至6中任一项所述的语音交互设备，其特征在于，所述唤醒模块包括：音频采集电路以及激活电路；

所述唤醒模块被配置为唤醒模块被配置为响应于接收到第一音频信号，控制所述主芯片进入U-boot进程时，具体包括：

所述音频采集电路响应于接收到所述第一音频信号，确定所述第一音频信号中是否包含人声和/或目标唤醒词；

所述激活电路响应于所述音频信号中包含人声和/或目标唤醒词，则向所述主芯片发送激活指令，所述激活指令用于指示所述主芯片进入U-boot进程。

8.根据权利要求2至6中任一项所述的语音交互设备，其特征在于，所述音频信号检测模块在响应于所述音频特征满足预设条件，启动所述远场语音模块时，具体包括：

所述音频信号检测模块响应于所述音频特征满足预设条件，获取所述第二音频信号中满足所述预设条件的第三音频信号；

启动所述远场语音模块，并向所述远场语音模块发送所述第三音频信号；

所述远场语音模块在启动后，根据所述第二音频信号控制所述主机启动时，具体包括：

所述远场语音模块接收所述第三音频信号，根据所述第三音频信号中的唤醒词，控制所述主机启动。

9.一种语音交互设备的控制方法，其特征在于，所述语音交互设备包括唤醒模块、主芯片以及主机，所述唤醒模块用于采集音频信号；

所述控制方法包括：响应于接收到唤醒模块的激活指令，控制所述主芯片进入U-boot进程，所述激活指令是所述唤醒模块在接收到第一音频信号后发送的；

在所述主芯片进入U-boot进程中，实现对所述语音交互设备的初始化，获取第二音频信号，并响应于所述第二音频信号达到能量阈值，提取所述第二音频信号的音频特征；

确定所述音频特征是否满足预设条件，所述第二音频信号中包含所述第一音频信号和所述唤醒模块当前采集到的音频信号；

响应于所述音频特征满足预设条件时，根据所述第二音频信号控制所述主机启动。

10.一种语音交互设备的控制装置，其特征在于，所述语音交互设备包括唤醒模块、主芯片以及主机，所述唤醒模块用于采集音频信号；

所述控制装置包括：

接收单元，用于响应于接收到唤醒模块的激活指令，控制所述主芯片进入U-boot进程，所述激活指令是所述唤醒模块在接收到第一音频信号后发送的；

初始化单元，用于所述主芯片在U-boot进程中，实现对所述语音交互设备的初始化；

第一处理单元，用于获取第二音频信号，并响应于所述第二音频信号达到能量阈值，提取所述第二音频信号的音频特征，确定所述音频特征是否满足预设条件，所述第二音频信号中包含所述第一音频信号和所述唤醒模块当前采集到的音频信号；

第二处理单元，用于响应于所述音频特征满足预设条件时，控制所述主机启动。

11.一种计算机存储介质，其特征在于，包括指令，当所述计算机存储介质在计算机上运行时，使得所述计算机执行如权利要求9所述的语音交互设备的控制方法。

12.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求9所述的语音交互设备的控制方法。