CN111862957A

CN111862957A - 一种单声道语音关键词低功耗实时检测方法

Info

Publication number: CN111862957A
Application number: CN202010672476.5A
Authority: CN
Inventors: 付志勇; 姜黎; 胡奎; 王蒙
Original assignee: Hangzhou Ccvui Intelligent Technology Co ltd
Current assignee: Hangzhou Ccvui Intelligent Technology Co ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-30

Abstract

本发明公开了一种单声道语音关键词低功耗实时检测方法，包括以下步骤：预处理；提取归一化通道能量特征；得到卷积神经网络层的输出；使用一层门控循环单元神经元，对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置，最终得到当前帧的新状态；门控循环单元的状态经过注意力机制层的变换得出一个重要性权重，与门控循环单元当前帧的状态做内积后，得到最终的预测概率值；判断是否连续m帧预测概率值大于n，如是，则判定检测到关键词，反之则判定没有检测到关键词。具有计算量大大降低、检测效率和精度更高的优点。

Description

一种单声道语音关键词低功耗实时检测方法

技术领域

本发明涉及关键词检测领域，特别是涉及一种单声道语音关键词低功耗实时检测方法。

背景技术

目前在语音关键词检测中采用的门控循环单元(GRU)+注意力机制 (Attent ion)方案存在计算量太大及检测效率和精度不足的问题。

发明内容

针对上述问题，本发明提供了一种单声道语音关键词低功耗实时检测方法，具有计算量大大降低、检测效率和精度更高的优点。

本发明的技术方案是：

一种单声道语音关键词低功耗实时检测方法，包括以下步骤：

对语音数据进行预处理；

提取预处理后的数据的归一化通道能量特征，得到可以进行检测的数据；

卷积神经网络使用卷积核若干，卷积核大小固定，每一个卷积核在归一化通道能量特征上做内积，根据指定的步进进行卷积，最后把所有的卷积核内积的结果拼接起来得到卷积神经网络层的输出；

使用一层门控循环单元神经元，对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置，最终得到当前帧的新状态；

门控循环单元的状态经过注意力机制层的变换得出一个重要性权重，与门控循环单元当前帧的状态做内积后，得到最终的预测概率值；

判断是否连续m帧预测概率值大于n，如是，则判定检测到关键词，反之则判定没有检测到关键词。

本发明将预处理后的数据进行归一化通道能量特征的提取，采用归一化通道能量特征检测，归一化通道能量特征比现有技术中的梅尔特征更加适合神经网络的检测；在检测模型中，在模型的选择上增加了一层卷积神经网络，检测效率和精度更高，整体的计算量更少。

在进一步的技术方案中，还包括模型训练方法：

对语音数据进行预处理；

提取预处理后的数据的归一化通道能量特征，得到可以进行训练的数据；

将预测概率值与期望值作比较，使用交叉熵作为损失函数计算最终损失值，并进行反向传播。

在进一步的技术方案中，对语音数据进行预处理包括以下步骤：

预加重；

加窗。

在进一步的技术方案中，提取预处理后的数据的归一化通道能量特征包括以下步骤：

进行短时快速傅里叶变换，将信号分离到不同的子带；

计算不同子带的能量；

生成相应的梅尔滤波器对子带进行滤波；

提取归一化通道能量特征。

在进一步的技术方案中，提取归一化通道能量特征的函数如下：

在进一步的技术方案中，预加重因子为0.97。

在进一步的技术方案中，使用汉明窗进行加窗，汉明窗函数如下：

本发明的有益效果是：

附图说明

图1是本发明实施例的检测流程图；

图2是本发明实施例的训练学习流程图；

图3是本发明采用卷积神经网络进行卷积拼接的示意图；

图4是本发明的门控循环单元的流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步说明。

实施例：

如图1所示，一种单声道语音关键词低功耗实时检测方法，包括以下步骤：

信息提取：

S1.1、对语音数据进行预处理；

S1.2、提取预处理后的数据的归一化通道能量(PCEN)特征，得到可以进行检测的数据，每一帧的数据提取40个特征；

神经网络(CGA)：

S2.1、如图3所示，卷积神经网络(CNN)使用卷积核若干，卷积核大小固定，每一个卷积核在PCEN特征上做内积，根据指定的步进进行卷积，最后把所有的卷积核内积的结果拼接起来得到CNN的输出；

S2.2、如图4所示，使用一层门控循环单元(GRU)神经元，对CNN层的输出特征结合历史状态进行记忆、更新和重置，最终得到当前帧的新状态；

S2.3、GRU的状态经过注意力机制(Attent i on)层的变换得出一个重要性权重，与GRU当前帧的状态做内积后，得到最终的预测概率值；

在本实施例中，m＝20，n＝0.9，即判断是否连续20帧预测概率值大于0.9，如是，则判定检测到关键词，反之则判定没有检测到关键词。

在另外一个实施例中，还包括模型训练方法：

信息提取：

S3.1、对语音数据进行预处理；

S3.2、提取预处理后的数据的归一化通道能量(PCEN)特征，得到可以进行训练的数据，此时输入为40个，进入CGA神经网络训练；

神经网络(CGA)：

S2.1、如图3所示，卷积神经网络(CNN)使用卷积核若干，卷积核大小固定，每一个卷积核在PCEN特征上做内积，根据指定的步进进行卷积，最后把所有的卷积核内积的结果拼接起来得到CNN层的输出；

将预测概率值与期望值作比较，使用交叉熵作为损失函数计算最终损失值 loss，并进行反向传播。

在另外一个实施例中，对语音数据进行预处理包括以下步骤：

预加重；

加窗。

在另外一个实施例中，提取预处理后的数据的PCEN特征包括以下步骤：

进行短时快速傅里叶变换(FFT)，将信号分离到不同的子带；

计算不同子带的能量；

生成相应的梅尔滤波器对子带进行滤波；梅尔滤波函数如下：

提取PCEN特征。

在另外一个实施例中，提取PCEN特征的函数如下：

在另外一个实施例中，预加重因子为0.97，即每个采样点减去上一个采样点的97％。

在另外一个实施例中，使用汉明窗进行加窗，汉明窗函数如下：

可防止频率泄露。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种单声道语音关键词低功耗实时检测方法，其特征在于，包括以下步骤：

a、对语音数据进行预处理；

b、提取预处理后的数据的归一化通道能量特征，得到待检测数据；

c、利用若干大小固定的卷积核，在归一化通道能量特征上做内积后，根据指定的步进进行卷积，拼接所有内积结果，得到卷积神经网络层的输出特征；

d、对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置，得到当前帧的新状态；

e、门控循环单元的状态经过注意力机制层的变换得出一个重要性权重，与门控循环单元当前帧的状态做内积后，得到最终的预测概率值；

f、判断是否连续m帧预测概率值大于n，如是，则判定检测到关键词，反之则判定没有检测到关键词。

2.根据权利要求1所述的单声道语音关键词低功耗实时检测方法，其特征在于，在步骤a之前，还包括模型训练方法：

s1、对语音数据进行预处理；

s2、提取预处理后的数据的归一化通道能量特征，得到待训练数据；

s3、利用若干大小固定的卷积核，在归一化通道能量特征上做内积后，根据指定的步进进行卷积，拼接所有内积结果，得到卷积神经网络层的输出特征；

s4、使用一层门控循环单元神经元，对卷积神经网络层的输出特征结合历史状态进行记忆、更新和重置，最终得到当前帧的新状态；

s5、门控循环单元的状态经过注意力机制层的变换得出一个重要性权重，与门控循环单元当前帧的状态做内积后，得到最终的预测概率值；

s6、将预测概率值与期望值作比较，使用交叉熵作为损失函数计算最终损失值，并进行反向传播。

3.根据权利要求1或2所述的单声道语音关键词低功耗实时检测方法，其特征在于，所述步骤a和步骤s1中的预处理包括以下步骤：

y1、对接收到的每一帧数据进行预加重；

y2、基于汉明窗函数进行数据加窗。

4.根据权利要求1或2或所述的单声道语音关键词低功耗实时检测方法，其特征在于，所述步骤b和步骤s2中提取预处理后的数据的归一化通道能量特征包括以下步骤：

t1、进行短时快速傅里叶变换，将信号分离到不同的子带；

t2、计算不同子带的能量；

t3、生成相应的梅尔滤波器对子带进行滤波；

t4、提取归一化通道能量特征。

5.根据权利要求4所述的单声道语音关键词低功耗实时检测方法，其特征在于，所述步骤t4中提取归一化通道能量特征的函数如下：

6.根据权利要求3所述的单声道语音关键词低功耗实时检测方法，其特征在于，所述步骤y1中的预加重因子为0.97。

7.根据权利要求3所述的单声道语音关键词低功耗实时检测方法，其特征在于，所述步骤y2中的汉明窗函数如下：