CN113282785B

CN113282785B - 一种基于未标注关键词数据的关键词检测方法及系统

Info

Publication number: CN113282785B
Application number: CN202110810561.8A
Authority: CN
Inventors: 阮晓辉; 魏庆凯
Original assignee: Beijing Kuaiyu Electronics Co ltd
Current assignee: Beijing Kuaiyu Electronics Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-11-05
Anticipated expiration: 2041-07-19
Also published as: CN113282785A

Abstract

本发明公开了一种基于未标注关键词数据的关键词检测方法及系统，包括采集大量的未标注音频数据，在未标注音频数据中添加预设的唤醒词音频和非唤醒词音频，构成预处理音频库；基于无监督深度学习分类方法对预处理音频库中的音频数据进行分类；对分类后的音频数据提取特征以生成特征数据；将特征数据分别输入至不同类型的神经网络模型中进行训练以得到多个不同的关键词检测模型；基于多个不同的关键词检测模型对待预测音频进行检测以得到最终检测结果；该方法对音频数据进行综合对比分类训练，分类准确率更高。

Description

一种基于未标注关键词数据的关键词检测方法及系统

技术领域

本发明涉及大数据语音分类方法技术领域，具体涉及一种基于未标注关键词数据的关键词检测方法及系统。

背景技术

关键词唤醒技术在生活中较为常见，比如天猫精灵等智能音箱设备，当人们对设备喊出唤醒词时，设备即可唤醒，然后与人进行交互；关键词唤醒功能的实现，要求唤醒系统设备具有低功耗、低误报率、高准确率、低漏报率的特点，为了实现这个目的，通常采用基于深度学习的模型来实现，传统方法中模型的训练需要大量的经标注的关键词数据，以达到理想的效果；而通过智能音箱或者麦克风采集来的关键词数据，大部分都是未标注数据，积累大量数据后，需要对数据进行非常重要的分类标注工作，标注通常采用人工筛选的方法，由标注人员逐个样本试听，给关键词数据打上不同的标签进行标注，再将标注好的音频数据集输入到深度学习模型中进行训练，得到最终的分类模型。

深度学习模型的训练需要足够大的标注好的音频数据，因此上述传统的数据标注方法耗费大量的人力、物力和时间，而且音频数据标注的好坏，直接影响到训练模型的准确与否；为了节省标注所需的人力与时间成本，目前采用无监督大数据音频分类方法，例如利用频谱段对数据进行分类，即从频谱特征值的角度进行音频分类，首先对音频数据提取频谱特征数据，根据频谱特征寻找最优的分类频谱矩阵，最后对频谱数据采用频段进行分类；该方法虽然从频域的角度出发，考虑音频不同频率段的特性对音频进行分类，但其未充分利用音频的综合特征，特别是时域特征，存在分类准确率低，容易导致错分类的问题；同时传统方法中将标注好的音频数据集输入到深度学习模型中进行训练得到的最终分类模型只有一个模型，通过单个分类模型对关键词进行检测也容易导致错分类的问题。

发明内容

针对上述问题，本发明的一个目的是提供一种基于未标注关键词数据的关键词检测方法，该方法综合利用了音频的时、频域特性，从信息聚类的角度出发，利用深度学习的理念，对音频数据进行综合对比分类训练；采用多数据特征和多模型结构的方法，训练出多个关键词检测模型用以投票预测，减小前期无监督自动标注方法带来的误差，从而保证最终结果的准确性，分类准确率更高。

本发明的第二个目的是提供一种基于未标注关键词数据的关键词检测系统。

本发明所采用的第一个技术方案是：一种基于未标注关键词数据的关键词检测方法，包括以下步骤：

S100：采集大量的未标注音频数据，在未标注音频数据中添加预设的唤醒词音频和非唤醒词音频，构成预处理音频库；

S200：基于无监督深度学习分类方法对所述预处理音频库中的音频数据进行分类；

S300：对所述分类后的音频数据提取特征以生成特征数据；

S400：将所述特征数据分别输入至不同类型的神经网络模型中进行训练以得到多个不同的关键词检测模型；

S500：基于所述多个不同的关键词检测模型对待预测音频进行检测以得到最终检测结果。

优选地，步骤S200包括以下子步骤：

S210：提取所述预处理音频库中的音频数据的谱图特征作为原始特征矩阵，对原始特征矩阵进行处理得到转换后的特征矩阵；

S220：将所述原始特征矩阵和所述转换后的特征矩阵输入到神经网络模型中，以原始特征矩阵和转换后的特征矩阵的互熵最大为训练目标，以步骤S100添加的唤醒词音频被划分到不同的类别中为训练终止条件进行训练，最终生成各个特征矩阵属于每个类别的概率，并将各个特征矩阵对应的音频数据保存到概率最大的对应类别中。

优选地，所述步骤S210包括以下子步骤：

S211：规整所述预处理音频库中的各个音频数据的长度；

S212：对规整后的各个音频数据进行分帧、加窗；

S213：提取每帧的频域特征数据，生成原始特征矩阵；

S214：对原始特征矩阵采用添加SpecAugment、加噪声、加速、减速和/或变调方法进行处理以生成转换后的特征矩阵。

优选地，在步骤S220所述训练结束后中，还包括二次训练过程，具体为：

在所述神经网络模型中，进一步增加神经网络的分类数量，对训练数据进行二次分类以提高最终的分类准确率。

优选地，步骤S220中所述原始特征矩阵和转换后的特征矩阵的互熵基于以下公式计算：

式中，

为x与

的互熵；K为无监督分类类别总数；

为原特征矩阵x与转换后的原特征矩阵

的联合分布概率；

为

在第k类的边缘分布概率；

为

在第

类的边缘分布概率。

优选地，所述步骤S300包括以下子步骤：

S310：规整所述预处理音频库中分类后的各个音频数据的长度；

S320：对规整后的各个音频数据进行分帧、加窗；

S330：分别提取每帧的多个特征生成特征数据；所述多个特征包括MFCC、频谱特征、MEL谱特征、LPCC特征和GFCC特征中的至少三种。

优选地，步骤S400中所述不同类型的神经网络模型包括CNN、CNN+RNN和RNN网络中的多种。

优选地，所述步骤S500具体为：

基于所述多个不同的关键词检测模型对待预测音频进行分类，得到多个预测概率结果；将所述多个预测概率结果中相同类别预测结果的概率求和取平均值，将概率结果最大的类别作为待预测音频的最终检测结果。

本发明所采用的第二个技术方案是：一种基于未标注关键词数据的关键词检测系统，包括预处理模块、分类模块、特征提取模块、模型训练模块和关键词检测模块；

所述预处理模块用于采集大量的未标注音频数据，在未标注音频数据中添加预设的唤醒词音频和非唤醒词音频，构成预处理音频库；

所述分类模块用于基于无监督深度学习分类方法对所述预处理音频库中的音频数据进行分类；

所述特征提取模块用于对分类后的音频数据提取特征以生成特征数据；

所述模型训练模块用于将特征数据分别输入至不同类型的神经网络模型中进行训练以得到多个不同的关键词检测模型；

所述关键词检测模块用于基于多个不同的关键词检测模型对待预测音频进行检测以得到最终检测结果。

优选地，所述分类模块执行以下操作：

提取所述预处理音频库中的音频数据的谱图特征作为原始特征矩阵，对原始特征矩阵进行处理得到转换后的特征矩阵；

将所述原始特征矩阵和所述转换后的特征矩阵输入到神经网络模型中，以原始特征矩阵和转换后的特征矩阵的互熵最大为训练目标，以步骤S100添加的唤醒词音频被划分到不同的类别中为训练终止条件进行训练，最终生成各个特征矩阵属于每个类别的概率，并将各个特征矩阵对应的音频数据保存到概率最大的对应类别中。

上述技术方案的有益效果：

（1）本发明公开的一种基于未标注关键词数据的关键词检测方法综合利用了音频的时、频域特性，从信息聚类的角度出发，利用深度学习的理念，对音频数据进行综合对比分类训练，分类准确率更高。

（2）本发明针对大量数据人工标注耗时耗力的问题，采用无监督深度学习的方法（基于信息聚类方法），对大量关键词数据进行分类，使数据筛选和训练全部实现自动化，提升自动化标注数据的准确率。

（3）本发明公开的检测方法中采用多数据特征和多模型结构的方法，训练出多个关键词检测模型用以投票预测，减小前期无监督自动标注方法带来的误差，从而保证最终结果的准确性。

（4）本发明公开的检测方法中通过标注少量或者使用预先标注好关键词数据对大量未标注数据进行处理，加快整个系统的迭代速度，节省大量人力物力财力，提高整个行业的应用水平。

（5）本发明公开的检测方法能最大程度的避免错分类导致的错误结果，保证结果的准确性，从而保证了最终关键词唤醒应用中的准确性。

附图说明

图1为本发明一个实施例提供的一种基于未标注关键词数据的关键词检测方法的流程框图；

图2为本发明一个实施例提供的一种基于未标注关键词数据的关键词检测方法的流程图；

图3为本发明一个实施例提供的在未标注音频数据中添加预设的唤醒词音频和非唤醒词音频的示意图；

图4为本发明一个实施例提供的满足终止条件情况的示意图；

图5为本发明一个实施例提供的一种基于未标注关键词数据的关键词检测系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理，但不能用来限制本发明的范围，即本发明不限于所描述的优选实施例，本发明的范围由权利要求书限定。

在本发明的描述中，需要说明的是，除非另有说明，“多个”的含义是两个或两个以上；术语“第一”“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性；对于本领域的普通技术人员而言，可视具体情况理解上述术语在本发明中的具体含义。

实施例1

如图1和图2所示，本实施例公开了一种基于未标注关键词数据的关键词检测方法，包括以下步骤：

如图3所示，在未标注音频数据中添加预设的唤醒词音频和非唤醒词音频，添加的唤醒词音频和非唤醒词音频的种类根据具体情况来设定，可以为一类也可以为多类；每一类唤醒词音频添加N1个，非唤醒词音频添加N2个，N1和N2根据具体情况来设定，例如将N1设为50~200个，将N2设为0~100个。

S200：基于无监督深度学习分类方法对预处理音频库中的音频数据进行分类；

设置无监督分类类别总数K，K=唤醒词音频种类+A，A为大于0的自然数；

无监督分类方法采用信息聚类的思路进行：同一类声音，都是由同一个声音经过不同地处理变换得到，他们含有特定的类似信息，利用这种思想识别两种声音是否为一类。

无监督深度学习分类方法具体为：

S210：提取预处理音频库中的音频数据的原始特征矩阵，对原始特征矩阵进行处理得到转换后的特征矩阵；

提取预处理音频库中的音频数据的谱图特征作为原始特征矩阵，对原始特征矩阵采用SpecAugment、加噪声、加速、减速或变调等方式进行处理，生成转换后的特征矩阵；具体的方法为：

（1）对预处理音频库中的各个音频数据的长度进行规整，规整长度根据具体情况来设定，例如设为3s；若待分类音频小于3s，则在音频尾部补0至3s长度；如果大于3s，则放弃不用；

（2）对所有规整后的音频进行分帧，以16000Hz音频为例，选择640个采样点作为1帧，选择320个采样点为帧移，分帧完成后，对每帧加汉明（hamming）窗；

（3）提取每帧的频域特征数据，生成原始特征矩阵；

（4）对原始特征矩阵进行处理生成转换后的特征矩阵；对原始特征矩阵进行处理包括采用添加SpecAugment、加噪声、加速减速和变调方法进行处理；

①SpecAugment：在原始矩阵的时间轴或者频率轴上，随机将2~5行/列数据置0；

②加噪声：将所有音频与噪声信号混合合成，合成时，需要对噪声信号进行扩充或者裁剪，保证噪声数据和音频数据长度相同，然后再利用以下公式进行计算最终合成的结果：

其中，

为合成后的音频数据；s为所有音频原始信号的时域幅值，α为信噪比函数，n为噪声的时域幅值；噪声可以采集应用目标环境中的噪声，然后生成原始矩阵，噪声系数α为：

式中，α为噪声系数，s为所有音频原始信号的时域幅值，n为噪声的时域幅值，q为信噪比，t为时间；

③加速、减速：加快/减缓语音的速度，模拟不同的说话速度的数据；

④变调：改变语音的基音频率，模拟不同人说话的数据。

本发明在提取频域特征之前，会先分帧，然后在每个时间段（也就是每帧段）提取频域特征，综合利用了音频的时、频域特性，提高分类准确率。

S220：将原始特征矩阵和转换后的特征矩阵输入到神经网络模型中，以原始特征矩阵和转换后的特征矩阵的互熵最大为训练目标，以预添加的不同种类唤醒词音频被划分到不同的类别中为训练终止条件进行训练。

神经网络模型使用的网络例如为CNN、CNN+RNN和RNN网络，使用CNN的目的是提取特征矩阵的特征，从图像的角度对未标注音频数据进行分类；CNN网络可以基于ResNet网络或者基于Inception网络进行建立；选择RNN网络是从时序性的角度对所有音频数据进行特征提取，RNN可以基于GRU单元进行建立；采用CNN+RNN是综合利用CNN和RNN的特点，对所有音频数据特征进行提取；CNN和RNN两者联合建立时，将CNN提取的特征输入到GRU中进行综合训练。

训练目标为使原始特征矩阵x和转换后的特征矩阵

的信息相关性最大，即原始特征矩阵x和转换后的特征矩阵

的互熵

最大，使loss最小；loss通过以下公式得到：

loss=1×I（x，x'）

其中，loss为无监督深度学习的损失函数，x与

的互熵

通过以下公式表示：

式中，

为x与

的互熵；K为无监督分类类别总数，K=唤醒词音频种类+A，A为大于0的自然数；

为原特征矩阵x与转换后的原特征矩阵

的联合分布概率；

为

在第k类的边缘分布概率；

为

在第

类的边缘分布概率；

在实际训练过程中，每次在总的数据集中随机有放回地提取N个数据，根据内存的数量，N可以设为64，128，256等，将这些数据输入到神经网络中进行训练，然后再随机有放回地提取N个数据再训练，将提取N个数据进行训练的过程称为一个批量（batch）；对于每一个batch，首先计算原始特征矩阵x与转换后的特征矩阵

的乘积，得到

；对

按照行、列分类进行求和生成

与

，带入loss公式求得该batch的损失值，然后通过该损失值反向传播更新神经网络参数，更新完成后再进行下一个batch的计算，直至最终训练结束；采用Adam优化器进行梯度下降运算，最终生成不同特征矩阵属于不同类别的概率，将特征矩阵对应的音频保存到最大概率对应的类中；

考虑到转换的对称性，

的值更新计算公式为：

其中，

为更新后的原特征矩阵x与转换后的原特征矩阵

的联合分布概率；为了保证训练结果的准确性，可以将每个batch的训练数据，复制3~5次。

训练终止条件为：预添加的不同种类唤醒词音频被划分到不同的类别中；分类训练时，K中的A先设置为1进行训练，若训练分类结果不满足终止条件，则A增加1再重新训练，直至满足终止条件；实际的训练中，设定一个参数M，在A逐渐累加直到A>M，停止训练，自动更改无监督深度学习模型参数，并令A=1重新训练；更换预设的几种模型后，且每种模型的训练过程中，A>M时仍不满足终止条件，停止训练，分析原因；其中，M根据不同的需要来具体设定（一般可设定为100）。

如图4所示，在训练过程中对于满足终止条件的情况包括：①所有预设的唤醒词音频和全部的未标注音频数据混合（新采集的大量未标注音频数据中含有关键词）；②部分预设的唤醒词音频和部分未标注音频数据混合（新采集的大量未标注音频数据中部分含有关键词）；③所有预设的唤醒词音频均未和未标注音频数据混合（新采集的大量未标注音频数据中均不含关键词），上述三种情况的相同点是：加入的多种类别的唤醒词均各自分成一类。

无监督深度学习分类方法对大量的未标注音频数据进行分类最终生成各个特征矩阵属于每个类别的概率，并将各个特征矩阵对应的音频数据保存到概率最大的对应类别中，即将各未标注音频数据分别保存到属于最大概率的类别中，以完成对未标注音频数据的分类。

进一步的，在一个实施例中，为了达到更高的准确率，在步骤S220训练结束后，还包括二次训练，即在上述训练的过程中，增加损失计算过程，具体为：

在上述步骤S220的神经网络模型中，进一步增加神经网络的分类数量，对训练数据（原始特征矩阵和转换后的特征矩阵）进行二次分类以提高最终的分类准确率；在训练过程中，仍使用上述步骤S210～S220的神经网络结构，只是更改网络最终的softmax输出值，该过程的网络参数与上述步骤S210～S220中的参数共享，两者依次训练；具体为：依次使用原输出类别的loss和更改输出类别（二次分类）后的loss进行更改参数，直至训练结束以提高最终的分类准确率。

本发明针对大量数据人工标注耗时耗力的问题，采用标注少量或者使用预先标注好关键词数据（唤醒词与非唤醒词）对大量未标注数据进行处理，即采用无监督深度学习的方法对大量关键词数据进行分类，使数据筛选和训练全部实现自动化，提升自动化标注数据的准确率；加快整个系统的迭代速度，节省大量人力物力财力，提高整个行业的应用水平。

S300：对所述分类后的音频数据提取特征以生成特征数据；

S310：对预处理音频库中的各个分类后的音频数据（已分类音频数据、唤醒词音频和非唤醒词音频）的长度进行规整，规整长度根据具体情况来设定，例如设为3s；若待分类音频小于3s，则在音频尾部补0至3s长度；如果大于3s，则放弃不用；

S320：对上述规整后的各个音频数据分别进行分帧、加窗，以16000Hz音频为例，选择640个采样点作为1帧，选择320个采样点为帧移，分帧完成后，对每帧加汉明（hamming）窗。

S330：分别提取每帧的多个特征生成特征数据，每种特征分别保存；多个特征包括MFCC、频谱特征、MEL谱特征、LPCC特征和GFCC特征中的至少三种。

S400：将特征数据分别输入至不同类型的神经网络模型中进行训练以得到多个不同的关键词检测模型；

例如不同特征数据（至少三种特征）为特征1、特征2和特征3，不同类型的神经网络模型例如为模型1、模型2和模型3，特征1分别能与模型1、模型2和模型3训练生成关键词检测模型1、关键词检测模型2和关键词检测模型3；特征2分别能与模型1、模型2和模型3训练生成关键词检测模型4、关键词检测模型5和关键词检测模型6；特征3分别能与模型1、模型2和模型3训练生成关键词检测模型7、关键词检测模型8和关键词检测模型9，即3种不同的特征数据能与3种不同的模型结构训练生成9个不同的关键词检测模型；

或者是特征1与模型1训练生成关键词检测模型1、特征2与模型2训练生成关键词检测模型2、特征3与模型3训练生成关键词检测模型3，3种不同的特征数据能与3种不同的模型结构训练生成3个不同的关键词检测模型。

预设不同类型的神经网络模型例如为CNN、CNN-RNN、RNN等，调整参数进行训练，使用的神经网络模型例如为CNN或者RNN模型；例如VGG13，RESNET18，LSTM,GRU等；

为保证训练结果，在训练过程中采用随机采样、label-smoothing、MixUp等方法，训练损失函数选择CE损失或者Focal-loss损失函数，减小数据中种类不均衡或者分类错误带来的影响，优化器选择Adam；

（1）随机采样：随机采样保证每个训练样本被随机选择，保证每个训练样本使用到的概率是一样的；

（2）Label-smoothing：Label-smoothing是一种正则化技术，该方法是针对交叉熵损失函数，通过soft one-hot加入噪声减少过拟合，具体为：它将概率1变为1-a，a为超小的超参数，概率0变为a/(K-1)，K为无监督分类类别总数，通过这样的变化，达到减少过拟合、防止错分类的目的；

（3）MixUp：MixUp来源于图像的算法，它是在训练时将每个batch内的样本进行混合，通过上述混合达到减少过拟合、防止错分类的目的；具体方法为：btx1和btx2为两个batch内的样本，bty1和bty2为前述样本对应的标签，c为贝塔分布计算的结果，那么有：

Mix_batchx=c*btx1+(1-c)*btx2

Mix_batchy=c*bty1+(1-c)*bty2

其中，Mix_batchx为该batch中输入到训练模型的训练数据；Mix_batchy为该batch中输入到训练模型的训练数据所对应的标签；通常btx1和btx2及对应的bty1和bty2都采用同一个batch中的数据。

（4）Focal-loss：Focal-loss是为了解决训练时各种样本比例失衡问题，它是在交叉熵基础上修改而来，使用的方法为在交叉熵损失函数前增加一个系数，交叉熵损失函数通过以下公式表示：

Focal-loss损失函数通过以下公式表示：

式中，α和γ均为超参数，种类越多α越小，通常设为0.2，γ通常设为2；y为真实标签数据；p为训练时使用神经网络模型预测得到的标签数据。

S500：基于多个不同的关键词检测模型对待预测音频进行分类，得到多个预测概率结果；将多个预测概率结果中相同类别预测结果的概率求和取平均值，将概率结果最大的类别作为待预测音频的最终检测结果；

本发明将待预测音频分别输入多个不同的关键词检测模型中得到多个预测概率结果；采用多个关键词检测模型投票打分的方法，对新采集的数据进行预测，并将新采集的数据再输入到步骤S100中，重复迭代。

例如当通过3种特征数据和3种模型结构训练出9个关键词检测模型后，对于一个待预测的音频，首先通过9个模型分别对音频进行预测，得到9个预测概率结果，这9个结果中，将相同类别预测结果的概率求和取平均值，再对比概率结果，将概率最大的一组作为最终结果。

进一步的，在一个实施例中，为了加快训练速度，选择一种模型结构对应一种特征进行训练，比如CNN结构结合MFCC进行训练，CNN-RNN结合频谱特征进行训练，RNN结合MEL谱特征进行训练，共训练出3个模型，然后用3个模型对新采集数据进行预测，采用投票方式决定最终的预测结果。

本发明公开的检测方法中采用多数据特征和多模型结构的方法，训练出多个关键词检测模型用以投票预测，减小前期无监督自动标注方法带来的误差，从而保证最终结果的准确性；而且本发明中的无监督深度学习分类方法和关键词检测模型不是同一个模型，两者互相纠正，更大程度地提高了模型的准确率。

下面结合具体实例分析本发明的实际效果：

（1）假设要训练的目标关键词为3种，在采集到一批音频数据后，先在已经分类好的关键词（唤醒词）数据中，各唤醒词随机选取50个，非唤醒数据随机选取100个，均放到新采集的未标注音频数据中。

（2）设定无监督分类类别总数K为4种，然后建立无监督分类网络进行训练，具体为：

首先设定一个batch处理的音频数量为100个，对每个batch中的音频长度进行规整，规整长度为3s；若待分类音频小于3s，则在音频尾部补0至3s长度；如果大于3s，则放弃不用；然后对音频进行分帧，以16000Hz音频为例，选择640个采样点作为1帧，选择320个采样点为帧移，分帧完成后，对每帧加汉明（hamming）窗，再提取每帧的频域特征数据，生成原始特征矩阵，然后对原始特征矩阵添加SpecAugment、加噪声、加速减速和变调转换方法，生成转换后的特征矩阵；最后将原始特征矩阵和转换后的特征矩阵输入到神经网络模型中；

在输入数据时，把输入数据复制3~5份，增加每个batch的训练数据。

神经网络模型选用常见的resnet18网络，网络的卷积具体参数如表1所示；

表1 网络的卷积具体参数

每一行表格的网络输入会与该行的网络输入同时输入到下一行的网络中；当需要调整网络参数时，从5到8层逐层减少，网络最终的softmax层输出设置为4。

在上述基础上（原输出类别），使用上述模型softmax层前面结构，修改最终的softmax分类数量进行二次分类；依次使用原输出类别的loss和二次分类后的loss进行更改参数，直至训练结束以提高最终的分类准确率。

训练时，对于每一个batch，通过损失函数求得该batch的损失值，通过该损失值更新神经网络参数，更新完成后再进行下一个batch的计算，直至最终训练结束；采用adam优化器进行梯度下降运算，最终生成不同特征矩阵属于不同类别的概率，将特征矩阵对应的音频保存到最大概率对应的类中；检查保存的音频中，新加入的唤醒词是否各自分成一类，如果不是，则将分类数量设为5，把网络softmax输出类别数改为5，重新训练，一直到网络输出类别变为100时，还不满足终止条件，则按照前述方法，删除最后一层网络，则将分类数量设为4，把网络softmax输出类别数改为4，重新训练，直至网络删除最后四层网络，如果还不满足中止条件，则停止训练，检查所采集的数据。

（3）对上述已经分类好的音频数据再次进行训练；训练的类别由上述无监督分类最终确定的分类数量来确定；

1）对分类好音频，按照不同的类别进行分帧、加窗，具体方法与无监督分类使用的方法一致，然后分别提取MFCC、频谱特征、MEL特征；具体参数如下：

MFCC：提取13维特征以及一阶和二阶差分，共39维；

频谱特征：频谱FFT点数等于时域每帧音频长度；

MEL谱特征：MEL谱为40维。

2）建立CNN、CNN-RNN和RNN结构模型，CNN模型采用常见的Inception模型，CNN-RNN采用VGG13和GRU联合的网络，RNN采用常见的GRU网络模型，GRU的单元数设为128；将MFCC特征输入到CNN结构中，频谱特征输入到CNN-RNN结构中，MEL谱特征输入到RNN结构中，并在训练时，采用随机采样、label-smoothing、MixUp方法，训练损失函数选择Focal-loss损失函数，优化器选择Adam；

3）共训练出3个模型，然后用3个模型对新采集数据进行预测，采用投票方式决定最终的预测结果；经过计算，若只采用三个模型中的任一种模型进行分类，其准确率只有90%；当采用本发明中三种模型共同分类，采用投票方式决定最终的预测结果，其准确率可以提到高到97%。

本发明公开的上述检测方法综合利用了音频的时、频域特性，从信息聚类的角度出发，利用深度学习的理念，对音频数据进行综合对比分类训练，分类准确率更高。

实施例2

如图5所示，本发明提供了一种基于未标注关键词数据的关键词检测系统，包括预处理模块、分类模块、特征提取模块、模型训练模块和关键词检测模块；

分类模块用于基于无监督深度学习分类方法对所述预处理音频库中的音频数据进行分类；

特征提取模块用于对分类后的音频数据提取特征以生成特征数据；

模型训练模块用于将特征数据分别输入至不同类型的神经网络模型中进行训练以得到多个不同的关键词检测模型；

关键词检测模块用于基于多个不同的关键词检测模型对待预测音频进行检测以得到最终检测结果。

分类模块执行以下操作：

提取预处理音频库中的音频数据的谱图特征作为原始特征矩阵，对原始特征矩阵进行处理得到转换后的特征矩阵；

将原始特征矩阵和转换后的特征矩阵输入到神经网络模型中，以原始特征矩阵和转换后的特征矩阵的互熵最大为训练目标，以步骤S100添加的唤醒词音频被划分到不同的类别中为训练终止条件进行训练，最终生成各个特征矩阵属于每个类别的概率，并将各个特征矩阵对应的音频数据保存到概率最大的对应类别中。

关键词检测模块执行以下操作：

基于多个不同的关键词检测模型对待预测音频进行分类，得到多个预测概率结果；将所述多个预测概率结果中相同类别预测结果的概率求和取平均值，将概率结果最大的类别作为待预测音频的最终检测结果。

虽然已经参考优选实施例对本发明进行了描述，但在不脱离本发明范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例，而是包括落入权利要求范围内的所有技术方案。本发明未详细阐述部分属于本领域技术人员的公知技术。

Claims

1.一种基于未标注关键词数据的关键词检测方法，其特征在于，包括以下步骤：

S300：对所述分类后的音频数据提取特征以生成特征数据；

S500：基于所述多个不同的关键词检测模型对待预测音频进行检测以得到最终检测结果；

其中，所述步骤S200包括以下子步骤：

S210：提取所述预处理音频库中的音频数据的谱图特征作为原始特征矩阵，对原始特征矩阵进行处理得到转换后的特征矩阵；具体为：

S211：规整所述预处理音频库中的各个音频数据的长度；

S212：对规整后的各个音频数据进行分帧、加窗；

S213：提取每帧的频域特征数据，生成原始特征矩阵；

S214：对原始特征矩阵采用添加SpecAugment、加噪声、加速、减速和/或变调方法进行处理以生成转换后的特征矩阵；

2.根据权利要求1所述的检测方法，其特征在于，在步骤S220所述训练结束后中，还包括二次训练过程，具体为：

3.根据权利要求1所述的检测方法，其特征在于，步骤S220中所述原始特征矩阵和转换后的特征矩阵的互熵基于以下公式计算：

式中，I(x,x′)为x与x′的互熵；K为无监督分类类别总数；P_kk′为原始特征矩阵x与转换后的特征矩阵x′的联合分布概率；P_k为P_kk′在第k类的边缘分布概率；P_k′为P_kk′在第k′类的边缘分布概率。

4.根据权利要求1所述的检测方法，其特征在于，所述步骤S300包括以下子步骤：

S320：对规整后的各个音频数据进行分帧、加窗；

5.根据权利要求1所述的检测方法，其特征在于，步骤S400中所述不同类型的神经网络模型包括CNN、CNN+RNN和RNN网络中的多种。

6.根据权利要求1所述的检测方法，其特征在于，所述步骤S500具体为：

7.一种基于未标注关键词数据的关键词检测系统，其特征在于，包括预处理模块、分类模块、特征提取模块、模型训练模块和关键词检测模块；

所述关键词检测模块用于基于多个不同的关键词检测模型对待预测音频进行检测以得到最终检测结果；

其中，所述分类模块执行以下操作：

提取所述预处理音频库中的音频数据的谱图特征作为原始特征矩阵，对原始特征矩阵进行处理得到转换后的特征矩阵；具体为：规整所述预处理音频库中的各个音频数据的长度；对规整后的各个音频数据进行分帧、加窗；提取每帧的频域特征数据，生成原始特征矩阵；对原始特征矩阵采用添加SpecAugment、加噪声、加速、减速和/或变调方法进行处理以生成转换后的特征矩阵；