CN111724770A

CN111724770A - 一种基于深度卷积生成对抗网络的音频关键词识别方法

Info

Publication number: CN111724770A
Application number: CN202010425087.2A
Authority: CN
Inventors: 白杨; 李全兵; 詹茂豪; 徐海森
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-09-29
Anticipated expiration: 2040-05-19
Also published as: CN111724770B

Abstract

本发明公开了一种基于深度卷积生成对抗网络的音频关键词识别方法，其特征在于，包括如下步骤：步骤1，构建基于深度卷积生成对抗网络的音频关键词识别模型；步骤2，训练基于深度卷积生成对抗网络的音频关键词识别模型；步骤3，利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别。本发明能够处理连续音频，并且不需要将音频转录为文本，而是直接对音频进行分析实现音频识别关键词。

Description

一种基于深度卷积生成对抗网络的音频关键词识别方法

技术领域

本发明涉及音频识别技术领域，尤其是一种基于深度卷积生成对抗网络的音频关键词识别方法。

背景技术

随着音频识别技术的不断成熟，出现了非常多的应用场景，如：手机地图音频导航、智能家具音频控制、苹果公司的音频助手应用等场景。随着信息的公开以及传播，音频敏感数据的泄露会给社会、商业公司、以及用户造成较大的经济损失或者其他危害。由于，要获知当前音频中是否存在敏感信息，才能决定怎样对当前音频数据进行安全保护，因此，如何实现高效精准的音频关键词识别成为了研究要点。

传统的音频关键词识别方式如：基于模板匹配的关键词识别方法，由于其计算复杂度高、恰当的相似性阈值难以确定，导致其在连续音频流中识别准确率不高，适用于低资源与小任务量的音频关键词识别场景。基于隐马尔科夫模型的关键词识别方法准确率受语料库规模影响，需要大量带有标签数据来训练模型以达到对模型的准确度要求，这种方法复用性差，如果要识别新的关键词，则需要重新训练模型。基于大词汇量连续音频的关键词识别方法不需要预定义词汇表，但需要将音频信号全部转录为文本，再对文本进行关键词识别，它需要依赖音频转换器的准确率，且该方法也需要大量带标注的音频数据作为训练集。

随着深度学习在图像和音频识别领域的使用，深度神经网络也被应用到关键词识别。如：循环神经网络、卷积神经网络和卷积循环神经网络等都被使用到音频关键词识别当中。但这些机器学习方法主要采用将音频信息转换为文本信息，然后再使用循环神经网络，长短期记忆神经网络等技术，对其进行文本分析和自然语言处理，最后进行关键词识别。

综上，已有的方法存在以下问题：

1.现有的音频关键词识别方法在面对连续音频输入时，识别准确率不高；

2.现有的音频关键词识别方法对语料库的依赖大，往往需要大量带有标签数据来训练模型以达到对模型的准确度要求，导致方法复用性差；

3.现有方法需要将音频信号全部转录为文本，再对文本进行关键词识别，因此需要依赖音频文字转换器的准确率，且过程复杂度高。

因此，需要一种适用于连续音频场景下的，具有较高复用性且不需要依赖音频文字转换器准确率的音频关键词识别方法，来解决上述问题。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种基于深度卷积生成对抗网络的音频关键词识别方法，以实现在不需要将连续音频转录为文本的条件下，进行音频关键词的精准识别。

本发明采用的技术方案为：一种基于深度卷积生成对抗网络的音频关键词识别方法，包括如下步骤：

步骤1，构建基于深度卷积生成对抗网络的音频关键词识别模型；

步骤2，训练基于深度卷积生成对抗网络的音频关键词识别模型；

步骤3，利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别。

进一步地，步骤1中构建的基于深度卷积生成对抗网络的音频关键词识别模型包括生成器和判别器；

(1)所述生成器包括扩展路径、收缩路径、以及3个零散卷积层；当输入音频特征到生成器中时：依次经过扩展路径，2个卷积核为3×3、激活函数为ReLU的卷积层，收缩路径，以及1个卷积核为1×1的卷积层后，输出音频关键词定位标签序列；其中，

所述扩展路径包括4个第一重复单元，每个第一重复单元包括2个卷积核为3×3、激活函数为ReLU的卷积层，以及1个区域大小为2×2、步长为2的最大池化层；其中，每一次最大池化层进行下采样后都将特征通道的数量加倍；

所述收缩路径包括4个第二重复单元，每个第二重复单元包括1个反卷积核为2×2的反卷积层和2个卷积核为3×3、激活函数为ReLU的卷积层；其中，每个第二重复单元中先由反卷积层处理，并将反卷积结果与扩展路径中对应步骤的特征拼接起来，然后将拼接后的数据经过2个卷积层；

(2)所述判别器包括5个卷积模块、5个最大池化层和2个全连接层；其中，

前3个卷积模块中，每个卷积模块包括2个卷积核为3×3、激活函数为ReLU的卷积层；后2个卷积模块中，每个卷积模块包括3个卷积核为1×1、激活函数为ReLU的卷积层；上一卷积模块输入到下一卷积模块之前要经过1层区域大小为2×2、步长为2的最大池化层；

2个全连接层采用的激活函数为ReLU，其中，第一个全连接层的神经元个数为256个，第二个全连接层神经元个数为64个；最后一个卷积模块输入到第一个全连接层之前要经过1层区域大小为2×2、步长为2的最大池化层；第二个全连接层输出的数据再输入到softmax损失函数中进行概率预测。

进一步地，步骤2包括如下子步骤：

步骤2.1，获取给定音频信号的音频特征；

步骤2.2，将步骤2.1获取的音频特征，通过生成器和人工标记两种方法分别生成音频关键词定位标签序列；其中，通过生成器生成的音频关键词定位标签序列为定位序列数据，通过人工标记生成的音频关键词定位标签序列为训练数据集；

步骤2.3，将步骤2生成的定位序列数据和训练数据集输入到判别器进行判别，所述判别器的输出值为定位序列数据属于真实数据的概率值，所述判别器的输出为生成器的生成的定位序列数据被判定为真实数据的概率值；当生成器生成的定位序列数据为真实数据时，概率值为1；当生成器生成的定位序列数据为伪造数据时，概率为0；

步骤2.4，根据判别器输出的概率值，依据深度卷积生成对抗网络的生成器和判别器的损失函数计算方法来计算损失函数；

步骤2.5，根据步骤2.4计算得到的生成器和判别器的损失函数，利用反向传播算法，更新生成器的模型参数，使生成器能够生成与通过人工标记生成的音频关键词定位标签序列接近的音频关键词定位标签序列。

进一步地，步骤2.1中采用梅尔频率倒谱系数获取给定音频信号的音频特征，包括如下子步骤：

步骤2.11，预加重：将给定音频信号经过高通滤波器滤波；

步骤2.12，分帧：将滤波后的音频信号分割成若干片段，每一个片段为一帧；

步骤2.13，加窗：给每一帧加窗，以增加帧的起始端和终止端的连续性；

步骤2.14，快速傅里叶变换：对加窗后的每一帧进行快速傅里叶变换得到各帧的频谱，并对音频信号的各帧频谱取模平方得到音频信号的功率谱；

步骤2.15，梅尔滤波器处理：将功率谱通过一组梅尔尺度的三角形滤波器组，得到梅尔频谱；

步骤2.16，离散傅里叶变换：将梅尔频谱取对数，之后再经过离散余弦变换得到L阶的梅尔频率倒谱系数。

进一步地，步骤2.12中，分帧后的两相邻帧之间具有重叠区域。

进一步地，步骤3包括如下子步骤：

步骤3.1，获取待识别的音频信号的音频特征；

步骤3.2，将步骤3.1获取的音频特征输入到训练好的生成器，由生成器生成音频关键词定位标签序列；

步骤3.3，将生成器生成的音频关键词定位标签序列以及人工标记好的音频关键词定位标签序列输入判别器，由判别器判断生成器生成的音频关键词定位标签序列的真假：

若判别结果为假，则待识别的音频信号中不存在敏感关键词，由此结束流程；

若判别结果为真，则待识别的音频信号中存在敏感关键词，由此输出判别结果为真的音频关键词定位标签序列并结束流程。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明不需要将音频转录为文本，而是通过直接提取音频的特征来进行关键词识别，直接对音频进行分析实现音频识别关键词；因此，与需要将音频转换为文本在处理的方法相比，能够实现对连续音频的关键词识别。

2、由于本发明基于深度卷积生成对抗网络，与模板匹配算法等算法的关键词检测算法比，能够适用于不同语言的关键词检测，在多种语言场景下方法复用性高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的基于深度卷积生成对抗网络的音频关键词识别方法的实现原理图。

图2为本发明的生成器的网络结构示意图。

图3为本发明的判别器的网络结构示意图。

图4为本发明的训练基于深度卷积生成对抗网络的音频关键词识别模型的流程框图。

图5为本发明的获取音频特征的流程框图。

图6为本发明的利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别的流程框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，本实施例提供的一种基于深度卷积生成对抗网络的音频关键词识别方法，包括如下步骤：

1、构建基于深度卷积生成对抗网络的音频关键词识别模型

所述步骤1中构建的基于深度卷积生成对抗网络的音频关键词识别模型包括生成器和判别器；

(1)如图2所示，所述生成器包括扩展路径、收缩路径、以及3个零散卷积层；当输入音频特征到生成器中时：依次经过扩展路径，2个卷积核为3×3、激活函数为ReLU的卷积层，收缩路径，以及1个卷积核为1×1的卷积层后，输出音频关键词定位标签序列；其中，

所述扩展路径是一种重复结构，包括4个第一重复单元，每个第一重复单元包括2个卷积核为3×3、激活函数为ReLU的卷积层(Conv)，以及1个区域大小为2×2、步长为2的最大池化层(Maxpool)；其中，每一次最大池化层进行下采样后都将特征通道的数量加倍；

所述收缩路径也是一种重复结构，包括4个第二重复单元，每个第二重复单元包括1个反卷积核为2×2的反卷积层(Up-conv)和2个卷积核为3×3、激活函数为ReLU的卷积层；其中，每个第二重复单元中先由反卷积层处理，并将反卷积结果与扩展路径中对应步骤的特征拼接起来，然后将拼接后的数据经过2个卷积层；

(2)如图3所示，所述判别器包括5个卷积模块、5个最大池化层和2个全连接层；其中，

2、训练基于深度卷积生成对抗网络的音频关键词识别模型

如图4所示，所述步骤2包括如下子步骤：

步骤2.1，获取给定音频信号的音频特征；传统的音频信号特征提取算法有很多，由于梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)是基于人耳听觉特性，梅尔频率倒谱频带是在梅尔刻度上等距划分的，频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性，因此可采用MFCC作为特征。其方法为，将给定音频信号(连续音频)经过梅尔频率倒谱系数音频特征提取后输出给定音频信号的梅尔特征，包括：预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器处理和离散傅里叶逆变换等步骤。如图5所示，具体为：

步骤2.11，预加重：将给定音频信号经过高通滤波器滤波；其目的是提升高频部分，使音频信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发声过程中声带和嘴唇对音频信号产生的影响，补偿音频信号受到发音系统所抑制的高频部分。

步骤2.12，分帧：将滤波后的音频信号分割成若干片段，每一个片段为一帧。由于音频信号具有时变性，但是在一个短时间范围内，其特性基本保持不变或相对稳定，即音频信号具有短时平稳性，因此需要对音频分帧。为了避免相邻两帧的变化过大，两相邻帧之间具有重叠区域。

步骤2.14，快速傅里叶变换：由于音频信号在时域上的变换通常很难看出其特性，所以通常将音频信号转换为频域上的能量分布来观察，不同的能量分布，代表不同音频的特性。由此，对加窗后的每一帧进行快速傅里叶变换得到各帧的频谱，并对音频信号的各帧频谱取模平方得到音频信号的功率谱；

步骤2.15，梅尔滤波器处理：经过快速傅里叶变换后得到的频谱是等距频段的，但人类听觉在较高频率下较不敏感，因此，将功率谱通过一组梅尔尺度的三角形滤波器组，得到梅尔频谱；

步骤2.16，离散傅里叶变换：将梅尔频谱取对数，之后再经过离散余弦变换得到L阶的梅尔频率倒谱系数；L指梅尔频率倒谱系数阶数。

以一示例说明步骤2.1，音频信号的音频特征表示为S＝{s_i:i＝1,2,…,M}，其中s_i表示第i帧音频信号的特征，M是音频信号中的帧总数，每一帧的特征表示为s_i＝{s_i1,s_i2,…,s_iN}，N是每一帧的特征长度。经过步骤2.1获取的音频特征表示为M×N的特征矩阵。

(1)生成器生成方法：将音频信号的音频特征S输入生成器，得到音频关键词定位标签序列x＝{x₁,x₂,…,x_M}，该音频关键词定位标签序列是定位序列数据；

(2)人工标记生成方法：获取音频信号的音频关键词定位标签序列y＝{y₁,y₂,…,y_M}。音频信号的总时长为T，假设关键词在音频信号中出现的时间区间为[s,s+t]。关键词出现的帧区间为：

人为地将出现关键词的帧记为1，其余的帧记0。例如：音频信号总帧数为10，出现关键词的帧区间为[4,7]，则相应的音频关键词定位标签序列为[0,0,0,1,1,1,1,0,0,0]，该音频关键词定位标签序列为训练数据集。

步骤2.3，将步骤2生成的定位序列数据(即通过生成器生成的音频关键词定位标签序列)和训练数据集(即通过人工标记获取的音频关键词定位标签序列)输入到判别器进行判别，所述判别器的输出为生成器的生成的定位序列数据被判定为真实数据的概率值；当生成器生成的定位序列数据为真实数据时，概率值为1；当生成器生成的定位序列数据为伪造数据时，概率为0；

步骤2.4，根据判别器输出的概率值，依据深度卷积生成对抗网络的生成器和判别器的损失函数计算方法来计算损失函数；其中深度卷积生成对抗网络的生成器和判别器的损失函数计算方法是现有技术，本发明可以直接利用。具体地，

(1)判别器的目的是判别生成器生成的定位序列数据和真实的定位序列分类，其损失函数为：

(2)生成器的目的是生成与真实的定位序列接近的定位序列数据，其损失函数为：

其中，D(x)表示生成器生成的定位序列数据被判定为真实数据的概率；G(z)表示生成器生成的定位序列数据中的伪造数据；D(G(z))表示生成器生成的定位序列数据被判定为伪造数据的概率。

生成器和判别器是一个相互博弈的过程，生成器希望生成结果的判别输出概率越大，这样生成器损失值越小，来达到成功欺骗判别器的目的；判别器希望生成器的生成结果的判别输出概率越小，这样判别器损失越大，这样就能很容易的分辨出伪造定位数据来。

步骤2.5，根据步骤2.4计算得到的生成器和判别器的损失函数，利用反向传播算法，更新生成器的模型参数，包括：训练步数、学习率、权重等，使生成器能够生成与通过人工标记生成的音频关键词定位标签序列接近的音频关键词定位标签序列，从而提高生成器的生成准确度，进而训练所述基于深度卷积生成对抗网络的音频关键词识别模型的识别准确度。

3、利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别

如图6所示，所述步骤3包括如下子步骤：

步骤3.1，获取待识别的音频信号的音频特征；该获取方法可以采用与步骤2.1相同的方法进行。

通过上述流程输出的音频关键词定位标签序列即可用于语音脱敏的应用中，例如：

根据输出的判别结果为真的音频关键词定位标签序列，将音频信号的帧上的定位结果映射回原始音频信号；

采用音频剪辑技术，把音频信号根据定位结果截成若干音频段，把存在敏感关键词对应的音频段替换成噪音段，然后按原始音频信号的顺序拼接起来；

将经过处理后的已屏蔽敏感关键词的音频结果输出，该输出的音频结果即为已经脱敏的音频信号。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度卷积生成对抗网络的音频关键词识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度卷积生成对抗网络的音频关键词识别方法，其特征在于，步骤1中构建的基于深度卷积生成对抗网络的音频关键词识别模型包括生成器和判别器；

3.根据权利要求2所述的基于深度卷积生成对抗网络的音频关键词识别方法，其特征在于，步骤2包括如下子步骤：

步骤2.1，获取给定音频信号的音频特征；

步骤2.4，然后根据判别器输出的概率值，依据深度卷积生成对抗网络的生成器和判别器的损失函数计算方法来计算损失函数；

4.根据权利要求3所述的基于深度卷积生成对抗网络的音频关键词识别方法，其特征在于，步骤2.1中采用梅尔频率倒谱系数获取给定音频信号的音频特征，包括如下子步骤：

步骤2.11，预加重：将给定音频信号经过高通滤波器滤波；

5.根据权利要求4-7任一项所述的基于深度卷积生成对抗网络的音频关键词识别方法，其特征在于，步骤2.12中，分帧后的两相邻帧之间具有重叠区域。

6.根据权利要求1所述的基于深度卷积生成对抗网络的音频关键词识别方法，其特征在于，步骤3包括如下子步骤：

步骤3.1，获取待识别的音频信号的音频特征；