CN111223489A

CN111223489A - 一种基于Attention注意力机制的特定关键词识别方法及系统

Info

Publication number: CN111223489A
Application number: CN201911328803.9A
Authority: CN
Inventors: 曾志先; 肖龙源; 李稀敏; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-06-02
Anticipated expiration: 2039-12-20
Also published as: CN111223489B

Abstract

本发明公开了一种基于Attention注意力机制的特定关键词识别方法及系统，包括以下步骤：S11.采集用户语音，每隔A秒保存时长为B秒的音频数据为1个数组；S12.将数组转为声纹特征数据；S13.将声纹特征数据输入已经训练好的Attention+LSTM网络模型中，Attention+LSTM网络模型输出预测结果，当预测结果大于0.5，则判定声纹特征数据对应的音频当中出现了关键词。本发明可以检测出语音流中出现的关键词，省去语音唤醒系统的解码过程，而且系统的网络结构简洁，能够实现低运算量，高准确率。

Description

一种基于Attention注意力机制的特定关键词识别方法及系统

技术领域

本发明涉及音频识别技术领域，特别是一种基于Attention注意力机制的特定关键词识别方法及系统。

背景技术

随着语音识别技术的不断发展，越来越多的智能设备实现通过语音来与用户进行交互。例如在家庭的使用场景下，智能音箱充当了智能助手的角色，用户通过向音箱发出语音指令来实现智能设备的控制，或者通过智能设备获取需要的信息。

当前主流的智能音箱需要用户先通过语音唤醒来唤醒音箱，才能接受用户发出的语音指令，并做出相应的反应。但是，当用户的指令很简短的时候，唤醒过程极大地影响了用户的使用效率，让用户感觉麻烦多余。

发明内容

本发明为解决上述问题，提供了一种基于Attention注意力机制的特定关键词识别方法及系统，可以检测出语音流中出现的关键词，省去语音唤醒系统的解码过程，而且系统的网络结构简洁，能够实现低运算量，高准确率。

为实现上述目的，本发明采用的技术方案为：

一种基于Attention注意力机制的特定关键词识别方法，包括以下步骤：

S11.采集用户语音，每隔A秒保存时长为B秒的音频数据保存为1个数组(时长不足B秒则以实际时长)，其中，0＜A≤B；

S12.将所述数组转为声纹特征数据；

S13.将所述声纹特征数据输入已经训练好的Attention+LSTM网络模型中，所述Attention+LSTM网络模型输出预测结果，所述预测结果为输入所述Attention+LSTM网络模型中的声纹特征数据对应的音频中出现了关键词的概率值，在0～1之间，当所述预测结果大于0.5，则判定所述声纹特征数据对应的音频当中出现了关键词；

其中，所述Attention+LSTM网络模型的构建方法，包括以下步骤：

S21.确定关键词，所述关键词为至少一个；

S22.采集训练集，所述训练集包括正样本和负样本，所述正样本为包含任意一个所述关键词的音频数据，所述负样本为不包含所述关键词的音频数据；

S23.标注标签，将所述正样本标注标签为1，所述负样本标注标签为0；

S24.将所述训练集的音频数据转为训练集声纹特征数据；

S25.将所述训练集声纹特征数据输入到所述Attention+LSTM网络模型中，所述Attention+LSTM网络模型输出所述预测结果；

S26.所述预测结果和所述训练集声纹特征数据对应音频的标签之间的差值为损失值，多次迭代训练，使用交叉熵损失来作为损失函数，通过Adam算法来优化损失值至趋于稳定后完成训练。

优选的，所述Attention+LSTM网络模型的网络结构包括3层LSTM网络结构，每层所述LSTM网络中的神经元为300个,每层所述LSTM网络上封装一层Attention网络。

进一步优选的，所述Attention+LSTM网络模型的网络结构还包括全连接层，所述全连接层的网络结构为300×2。

更优选的，所述全连接层输出1×2的矩阵结果，所述预测结果通过SoftMax算法将所述矩阵结果进行转化而得。

优选的，使用PyAudio工具采集所述用户语音或所述训练集的音频数据，其中，采集到的数据为字符串数据，使用numpy工具将所述字符串数据转为数值数据。

优选的，使用python_speech_features工具将所述数组或所述训练集的音频数据转为40维的MFCC特征数据。

进一步优选的，对所述MFCC特征数据进行数值标准化处理，标准化的计算方式为(原数值﹣平均值)÷标准差。

基于同样的发明构思，本发明还提供了一种基于Attention注意力机制的特定关键词识别系统，包括：

音频采集终端，用于采集所述用户语音的音频数据；

识别模块，基于权利要求1至7中任一项所述的方法对所述用户语音的音频数据进行识别，并输出识别结果。

本发明的有益效果是：

(1)使用端到端的网络结构实时监听语音流，识别其中出现的预设定的关键词，并直接输出判断，识别速度快；

(2)网络结构简洁，运算量低；

(3)输入的音频数据经过预处理，网络结构优化完善，识别准确率高。

附图说明

图1为本发明一实施例所提供的特定关键词识别方法的流程图；

图2为本发明一实施例所提供的特定关键词识别系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本实施例提供一种应用于智能音箱上的基于Attention注意力机制的特定关键词识别方法。

本发明采用Attention注意力机制+LSTM网络的结构。首先使用Tensorflow框架创建出LSTM网络，结构为3层，每层300个神经元。接下来使用Attention_Wrap函数，在每层LSTM网络结构上封装一层Attention网络，Attention网络在识别过程中动态更新各个LSTM神经元上的注意力概率，概率值在0～1之间。当概率为0时，该神经元的结果将不参与计算。

首先，需要构建一个Attention+LSTM网络模型，包括以下步骤：

S11.确定关键词，如“开灯”、“放音乐”、“打开电视”等。

S12.采集训练集，录制包含关键词的音频，每个关键词对应录制1000～2000个，也可以从网络中收集现成的关键词音频数据集，例如DataOcean等平台中均有公开的特定关键词音频数据集，将这些音频数据作为正样本。

同样通过在网络中收集现成的不包含所述关键词的音频数据集，数据集的内容可以为人的日常沟通对话音频，也可以为日常环境中的噪声，也可以为其他的声音音频，负样本的音频准备20000个。

S13.标注标签，将正样本标注标签为1，负样本标注标签为0，可以直接在音频的文件名上进行标注，方便后续的损失值计算。

S14.将训练集的音频数据转为训练集声纹特征数据。MFCC特征能够更好的体现人耳听取到人声的特征，通过python_speech_features工具将训练集的音频数据转为40维的MFCC特征，来进行模型的训练。

S15.将训练集声纹特征数据作为输入层对Attention+LSTM网络模型进行训练，上述Attention+LSTM网络输出的结果为1×300的矩阵结果，通过创建一个全连接层，全连接层的网络结构为300×2，使模型的输出层输出两个数值，分别为训练集声纹特征数据为关键词声纹特征数据的分数和为非关键词声纹特征数据的分数。

S16.通过SoftMax算法将上述两个分数归一化，转为训练集声纹特征数据为关键词声纹特征数据的概率值，在0～1之间，以此作为预测结果。

S17.通过cross entropy交叉熵的方式来计算训练集声纹特征数据的预测结果和标签之间的损失值，接着通过Adam算法来进行模型参数的训练迭代，实现通过迭代参数来优化损失值。模型进行了2000个批次的迭代训练，每个批次传入64个音频文件，损失值趋于稳定，模型的构建完成。

使用训练好的模型通过实时监听环境语音的方式，来判断当前语音流当中是否出现了关键词，如图1所示，包括以下步骤：

S21.智能音箱的麦克风实时采集用户的语音流，本发明的系统使用PyAudio工具通过循环的方式来监听麦克风的音频数据，每隔0.1秒保存1个时长为1秒的音频数据，该音频数据为1个数组。通过numpy工具的frombuffer将字符串数据转为数值格式。

S22.通过python_speech_features工具将数值格式的音频数据数组转为40维的MFCC特征，并进行数值标准化处理，首先通过numpy的mean方法来计算平均值，接下来通过numpy的std方法计算标准差，标准化的计算方式为(原数值-平均值)÷标准差。通过标准化处理，可以减少偏差数据，如突然出现的噪声，对整个音频的影响。

S23.将声纹特征数据输入已经训练好的Attention+LSTM网络模型中，模型输出该声纹特征数据对应的音频中出现了关键词的概率值，在0～1之间，作为预测结果。当该预测结果大于0.5，则判定当前语音流当中出现了关键词。此时智能音箱跳过语音唤醒步骤，直接激活并根据该关键词做出响应。

本发明的方法可以实现更加简洁的设备控制流程，能够提高用户操作智能语音设备的效率，减少操作设备的时间。

本实施例还提供一种应用于智能音箱上的基于Attention注意力机制的特定关键词识别系统，如图2所示，包括设置于智能音箱上的音频采集终端1和识别模块2。

音频采集终端1，用于实时采集用户的语音流，并将音频数据发送至识别模块2。识别模块2接收后，基于上述方法，对音频数据进行识别。如果当前语音流当中出现了关键词，则激活智能音箱，并根据该关键词做出响应，进行下一步的操作。

由于本发明的系统的实现网络结构简洁，运算量低，准确率高，适用于低功耗的智能设备。

本领域技术人员可以理解，实现上述音频数据识别方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于Attention注意力机制的特定关键词识别方法，其特征在于，包括以下步骤：

S11.采集用户语音，每隔A秒保存时长为B秒的音频数据为1个数组(时长不足B秒则以实际时长)，其中，0＜A≤B；

S12.将所述数组转为声纹特征数据；

S21.确定关键词，所述关键词为至少一个；

S24.将所述训练集的音频数据转为训练集声纹特征数据；

2.根据权利要求1所述的一种基于Attention注意力机制的特定关键词识别方法，其特征在于，所述Attention+LSTM网络模型的网络结构包括3层LSTM网络结构，每层所述LSTM网络中的神经元为300个,每层所述LSTM网络上封装一层Attention网络。

3.根据权利要求2所述的一种基于Attention注意力机制的特定关键词识别方法，其特征在于，所述Attention+LSTM网络模型的网络结构还包括全连接层，所述全连接层的网络结构为300×2。

4.根据权利要求3所述的一种基于Attention注意力机制的特定关键词识别方法，其特征在于，所述全连接层输出1×2的矩阵结果，所述预测结果通过SoftMax算法将所述矩阵结果进行转化而得。

5.根据权利要求1所述的一种基于Attention注意力机制的特定关键词识别方法，其特征在于，使用PyAudio工具采集所述用户语音或所述训练集的音频数据，其中，采集到的数据为字符串数据，使用numpy工具将所述字符串数据转为数值数据。

6.根据权利要求1所述的一种基于Attention注意力机制的特定关键词识别方法，其特征在于，使用python_speech_features工具将所述数组或所述训练集的音频数据转为40维的MFCC特征数据。

7.根据权利要求6所述的一种基于Attention注意力机制的特定关键词识别方法，其特征在于，对所述MFCC特征数据进行数值标准化处理，标准化的计算方式为(原数值﹣平均值)÷标准差。

8.一种基于Attention注意力机制的特定关键词识别系统，其特征在于，包括：

音频采集终端，用于采集所述用户语音的音频数据；