CN108429999A

CN108429999A - 智能音箱的待机控制方法

Info

Publication number: CN108429999A
Application number: CN201810302821.9A
Authority: CN
Inventors: 向敏明
Original assignee: Dongguan Huarui Electronic Technology Co Ltd
Current assignee: Dongguan Huarui Electronic Technology Co Ltd
Priority date: 2018-04-06
Filing date: 2018-04-06
Publication date: 2018-08-21

Abstract

本发明公开了一种智能音箱待机控制方法，所述方法包括：智能音箱获取音频信号；对所述音频信号进行快速傅里叶变换得到频域信号；根据所述频域信号计算谱幅度值；根据所述谱幅度值计算概率密度；根据所述概率密度计算所述音频信号的谱熵；根据所述谱熵判断所述音频信号是否为语音信号；若是语音信号，则判断所述语音信号的谱幅度值是否超过预设值；若是则所述智能音箱进入工作模式。本发明可以降低智能音箱的待机功耗，更快速的进入工作模式。

Description

智能音箱的待机控制方法

技术领域

本发明数据处理领域，尤其涉及一种智能音箱的待机控制方法。

背景技术

人工智能作为近几年广受关注的领域，其真正意义上的应用场景却是屈指可数。而在这为数不多的应用场景中，智能语音是一个非常重要的方向。而落脚在硬件产品上，智能音箱则是其一个重要的落地产品。

智能音箱作为各种场合下的一个控制中心，其重要性不言而喻，需要其能够在很短的时间内对用户的语音控制指示做出响应，从待机状态进入到工作状态。而这其中，如何识别出语音信号成为一个关键。

现有技术中，对于语音处理来说，其是一个复杂的交叉技术领域。近年来，语音处理技术得到了广泛的应用。语音处理的基础是语音检测，语音检测的目的是检测语音信号是否存在。

现有技术中，语音检测的过程通常是：获取各音频信号，从各音频信号中提取特征参数进行语义分析，再根据语义分析的结果获知该音频信号是否为语音。

但是，语义分析需要进行大量的计算和模板的匹配，影响了语音检测的效率。

发明内容

本发明所要解决的技术问题在于提供一种能够快速响应的智能音箱待机控制方法。

为了解决上述技术问题，本发明提出一种智能音箱待机控制方法，所述方法包括：

获取音频信号；

对所述音频信号进行快速傅里叶变换得到频域信号；

根据所述频域信号计算谱幅度值；

根据所述谱幅度值计算概率密度；

根据所述概率密度计算所述音频信号的谱熵；

根据所述谱熵判断所述音频信号是否为语音信号；

若是语音信号，则判断所述语音信号的谱幅度值是否超过预设值；

若是则所述智能音箱进入工作模式。

其中，所述谱幅度值通过以下方式获得：

其中，X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值，z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度，N表示快速傅里叶变换的变化长度，k小于或等于N，exp(-j2πkn/N)表示幅角为2π的kn/N倍的复数。

其中，所述根据所述谱幅度值计算概率密度包括：

根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量；

根据所述总能量以及所述谱幅度值计算概率密度。

其中，所述根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量包括：

其中，E_sum(y)表示第y个音频信号所在帧的带噪语音功率谱总能量,X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值，N表示快速傅里叶变换的变化长度。

其中，所述根据所述总能量以及所述谱幅度值计算概率密度包括：

D(k,y)＝|X(k,y)|²/E_sum(y),D(k,y)表示第y个音频信号所在帧的第k个频段所对应的概率密度。

其中，所述根据所述概率密度计算所述音频信号的谱熵包括：

其中，H(y)表示第y个音频信号的谱熵。

其中，所述根据所述谱熵判断所述音频信号是否为语音信号包括：

计算所述音频信号的能量；

根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号。

其中，所述计算所述音频信号的能量包括：

其中，E(y)表示第y个音频信号的能量，M表示音频信号所在帧的帧长，z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度。

其中，所述根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号包括：

判断P(y)是否大于预置门限值，若是，则确定音频信号是语音信号，若否，则确定音频信号不是语音信号，其中，

其中，所述判断所述语音信号的谱幅度值是否超过预设值包括判断所述语音信号中至少一个频段的谱幅度值是否超过预设值。

本发明中，由于根据音频信号的谱熵来进行语音检测，谱熵的计算过程主要涉及时频变换、幅度计算和能量计算等，这些计算过程所针对的都是语音信号本身的属性，而不必进行语义分析这种需要涉及到人工智能和神经网络的计算方式，从而减少了计算量，提高了语音检测的效率，因而使得智能音箱可快速的响应进入工作模式。同时，当确定为语音信号后，通过设置了谱幅度值的判断，减少了误触发的情况，在一定程度上降低了待机功耗。

附图说明

图1为本发明一种智能音箱的待机控制方法的一个实施例流程图。

具体实施方式

下面结合附图对本发明进行详细的说明。

参考图1，图示了本发明一种智能音箱待机控制方法的实施例的流程图。如图所示，本实施例中处于家庭场景下，智能音箱作为智能家居的控制中心来响应用户语音指令，控制各个家电的运行。该方法包括：

步骤S11，获取音频信号。

待机状态下，智能音箱仍然保留着能够进行语音检测的基本能力，以随时响应用户的语音控制指令。

但是，在现实的环境中，除了人所产生的语音信号之外，还包括很多其他的音频信号，例如走路的声音、物品撞击的声音等。显然，这些声音不应该触发智能音箱进入工作状态，否则将会加大智能音箱的功耗，同时在一定程度上也降低了其使用寿命。

因此，这里的音频信号是智能音箱所处环境中的所有能检测到的声音信号，包含了人的语音信号。

步骤S12，对所述音频信号进行快速傅里叶变换得到频域信号。

为便于对于音频进行进行分析处理，在信号处理领域，通常都要讲输入信号做傅里叶变换，以在频域进行各种分析和处理。由于，快速傅里叶变换已经是成熟的变换方法，在此不再赘述。

步骤S13，根据所述频域信号计算谱幅度值。

在本发明一个实施例中，谱幅度值的计算通过以下公式：

步骤S14，根据所述谱幅度值计算概率密度。

在本发明一个实施例中，可以通过以下方式来计算概率密度：

首先，根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量；

然后，根据所述总能量以及所述谱幅度值计算概率密度。

这其中，对于带噪语音功率谱总能量来说，其可以通过以下方式计算：

通过以上方式获得总能量后，再通过以下方式计算得到概率密度：

D(k,y)＝|X(k,y)|²/E_sum(y)；

D(k,y)表示第y个音频信号所在帧的第k个频段所对应的概率密度。

步骤S15，根据所述概率密度计算所述音频信号的谱熵。

在本发明一个实施例中，对于谱熵来说，通过以下公式计算获得：

其中，H(y)表示第y个音频信号的谱熵。

步骤S16，根据所述谱熵判断所述音频信号是否为语音信号。

本步骤中，对于具体的判断方法，可以参考下面的实施例：

首先，计算所述音频信号的能量；

然后，根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号。

其中，对于音频信号的能量的计算可以通过以下公式：

针对具体的判断方法，在本发明一个实施例中，可以通过能量和谱熵来获取：

例如，判断P(y)是否大于预置门限值，若是，则确定音频信号是语音信号，若否，则确定音频信号不是语音信号，这其中，

步骤S17，若是语音信号，则判断所述语音信号的谱幅度值是否超过预设值；若是则所述智能音箱进入工作模式。

本步骤中，在上一步已经确定为语音信号时，进一步判断是否需要进入工作模式，因为检测到语音信号并不代表一定要进入工作模式，显然并不是所有的语音信号都是针对智能音箱的指示。

对于判断方法，则可以通过对该语音信号在其各个频段上的谱幅度值进行判断，对于该语音信号，其作为一个整体，只要其中包含有谱幅度值超过预设值的情况，那么就认为此语音信号是针对该智能音箱，或者至少是有更多的可能性，因此控制智能音箱进入工作模式。也就是说，该语音信号的任一频带的谱幅度值超过预设值，都控制智能音箱从待机模式进入工作模式。

在工作模式下，智能音箱会以更多的资源来对语音信号进行语义的分析，并作出响应。从而控制各个家电的运转。

以上为本发明的可选实施例，可以理解，在阅读上述实施例的基础上，本领域技术人员还可以做出一些等同的变化，这些仍然在本发明的保护范围之内。

Claims

1.一种智能音箱待机控制方法，其特征在于，所述方法包括：

智能音箱获取音频信号；

对所述音频信号进行快速傅里叶变换得到频域信号；

根据所述频域信号计算谱幅度值；

根据所述谱幅度值计算概率密度；

根据所述概率密度计算所述音频信号的谱熵；

根据所述谱熵判断所述音频信号是否为语音信号；

若是则所述智能音箱进入工作模式；

其中，所述谱幅度值通过以下方式获得：

2.根据权利要求1所述的方法，其特征在于，所述根据所述谱幅度值计算概率密度包括：

根据所述总能量以及所述谱幅度值计算概率密度。

3.根据权利要求2所述的方法，其特征在于，所述根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述总能量以及所述谱幅度值计算概率密度包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述概率密度计算所述音频信号的谱熵包括：

其中，H(y)表示第y个音频信号的谱熵。

6.根据权利要求5所述的方法，其特征在于，所述根据所述谱熵判断所述音频信号是否为语音信号包括：

计算所述音频信号的能量；

7.根据权利要求6所述的方法，其特征在于，所述计算所述音频信号的能量包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号包括：

9.根据权利要求8所述的方法，其特征在于，所述判断所述语音信号的谱幅度值是否超过预设值包括判断所述语音信号中至少一个频段的谱幅度值是否超过预设值。