CN111933124A - 一种可支持自定唤醒词的关键词检测方法 - Google Patents
一种可支持自定唤醒词的关键词检测方法 Download PDFInfo
- Publication number
- CN111933124A CN111933124A CN202010982811.1A CN202010982811A CN111933124A CN 111933124 A CN111933124 A CN 111933124A CN 202010982811 A CN202010982811 A CN 202010982811A CN 111933124 A CN111933124 A CN 111933124A
- Authority
- CN
- China
- Prior art keywords
- training
- self
- keyword detection
- defined awakening
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 111
- 238000013528 artificial neural network Methods 0.000 claims abstract description 67
- 239000011159 matrix material Substances 0.000 claims description 58
- 239000013598 vector Substances 0.000 claims description 43
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 18
- 238000012360 testing method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种可支持自定唤醒词的关键词检测方法,属于基于神经网络的关键词检测技术领域。本发明通过移除神经网络的分类层,直接比较神经网络输出结果的相似度,解除了分类数目固定所带来的无法对类外唤醒词进行分类的技术问题;通过细粒度分类训练手段,提高了神经网络对短词分类的泛化能力,从而得到一个初始化较好的网络模型用于自定唤醒词的微调训练;通过数据增强并辅以部分网络层的增量训练,使神经网络在小样本的情况下经过微调训练也能达到一个较高的准确率。本发明的支持多个唤醒词和自定唤醒词的关键词检方法可用于嵌入设备,实现根据用户的个性和需求随时更改唤醒词,提高用户的体验和减去个性定制所引入的成本。
Description
技术领域
本发明属于基于神经网络的关键词检测技术领域,具体涉及一种可支持自定唤醒词的关键词检测方案。
背景技术
关键词检测技术是指设备从连续不断的语音流中检测特定的关键词,当检测到特定的关键词时,便会发出一个信号,表示该定关键词被检测到,而该关键词被称为唤醒词。其中,基于神经网络的关键词检测方式是一种经典的关键词检测领域的传统方法。
神经网络是一种抽象于人类大脑神经工作机理,进行数据分类识别的机器学习算法。神经网络将人脑神经元之间的联系抽象为矩阵运算,抽象层次较高。神经网络在结构上可以划分为输入层、隐藏层、输出层,输出层也可称为分类层,每一层均包含一个权值矩阵,有时还包含一个偏差向量。神经网络的输入为一个矩阵或者一个向量,需要依次与神经网络各层的权值矩阵进行一系列的矩阵计算,最终由神经网络的分类层输出各个类别的预测概率,而根据预测概率的大小即可输出最终的分类结果,这一过程称为神经网络的前向计算。为了得到准确的分类结果,神经网络需要大量带有标签的数据用于训练,衡量训练效果的指标为损失函数,在训练过程中,损失函数越小,神经网络的分类准确率越高。而神经网络的训练采用反向传播算法,该算法基于梯度下降算法,不断地更新权值矩阵的值,使损失函数的值变小,从而找到最佳的权重。
基于神经网络的关键词检测方法的流程大致如下:首先将采集到的音频信号以极短的时间单位进行切片,切片所得的语音片段称为帧,将每帧语音片段输入至一组梅尔滤波器,计算各个梅尔滤波器的能量并拼接成一个向量,该向量称为每帧语音片段的特征向量,即帧特征向量。对于一段定长的语音,经过分帧、提取特征向量、拼接,最终可以得到一个二维的特征矩阵,将语音信号转化成特征矩阵的过程称为预处理。之后,将该二维矩阵作为神经网络的输入,与神经网络各层的权值矩阵进行一系列的矩阵运算,最终得到各个唤醒词和非唤醒词的预测概率。对于一个特定的唤醒词,若其预测概率最大,则表示该唤醒词被检测到,那么设备将被唤醒。
但是,基于神经网络的关键词检测唤醒方法有一个缺点,由于神经网络的分类层神经元数目在训练完成后是固定的,即该方法只能输出这些固定的唤醒词的预测概率,因此传统的方法无法更改唤醒词,因为只有经过训练的唤醒词,唤醒的准确率才能保持在一个较高的水平。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种可支持自定唤醒词的关键词检测方法。
本发明的可支持自定唤醒词的关键词检测方法,包括下列步骤:
步骤1:预训练处理:
设置预训练处理的训练语料,所述训练语料包括:词的样本和噪声语料的样本;
对训练预料的每个样本进行预处理,得到每个样本的特征矩阵,即对每个样本进行分帧和帧特征向量提取处理,再将每个样本的所有帧特征向量拼接成一个特征矩阵;
构建基于神经网络的语音关键词检测网络模型,所述语音关键词检测网络模型包括依次连接的输入层、隐藏层和分类层;其中,分类层用于输出输入的特征矩阵为指定类别的预测概率分,即关于唤醒词的指定类别,其通常包括:K个唤醒词类、1个非唤醒词类和1个静音类,其中,K表示从训练语料包括的所有词中指定的唤醒词数量。
以训练预料的每个样本的特征矩阵为语音关键词检测网络模型的输入层的输入数据,对语音关键词检测网络模型进行分类训练,得到预训练好的语音关键词检测网络模型;
步骤2:微调训练处理:
移除预训练好的语音关键词检测网络模型的分类层,作为支持自定唤醒词的关键词检测模型;
用户对其自定义唤醒词进行样本注册,对用户注册的自定义唤醒词样本进行数据增强处理,将增强处理前后的自定义唤醒词样本一并作为微调训练处理的微调训练样本;
对微调训练样本进行预处理,得到微调训练样本的特征矩阵;
基于微调训练样本的特征矩阵,采用端对端的损失函数对支持自定唤醒词的关键词检测模型的指定网络层进行增量训练,并将训练好的支持自定唤醒词的关键词检测模型作为支持自定唤醒词的关键词检测器;
步骤3:检测处理:
将增强处理前的自定义唤醒词样本的特征矩阵输入支持自定唤醒词的关键词检测器进行前向计算,并将前向计算的输出结果作为每个自定唤醒词的模板;
对待检测语音进行预处理,得到待检测的特征矩阵,并将待检测的特征矩阵输入支持自定唤醒词的关键词检测器进行前向计算,得到待检测的输出结果;
计算待检测的输出结果与每个自定唤醒词的模板之间的相似度,若最大相似度大于或等于相似度阈值,则基于最大相似度对应的自定唤醒词得到待检测语音的关键词检测结果。
进一步的,步骤1中,分类层对应的指定类别设置为:K个唤醒词类、N-K个非唤醒词类和1个静音类;其中,K表示从训练语料包括的所有词中指定的唤醒词数量,N表示训练语料包括的词数量。
在本发明中,非唤醒词这一大类将被更加精细地拆分成具体的非唤醒词1,非唤醒词2等若干个非唤醒词,使用细粒度分类训练手段之后,非唤醒词类别被拆分成更加精细的N-K个类别,对应非唤醒词中的N-K个单词。因此,分类层从原有的K+2分类变成了N+1分类。
进一步的,步骤1中,语音关键词检测网络模型的隐藏层包括依次连接的卷积块Conv1、残差块1~残差块NRes、卷积块Conv2、展平层和平均池化层,其中, NRes表示包含的残差块数量,且每个残差块(残差块1~残差块NRes)包括依次连接的卷积块R_Conv1和卷积块R_Conv2,将卷积块R_Conv1的输入与卷积块R_Conv2的输出相加得到每个残差块的输出;每个卷积块(Conv1、Conv2、R_Conv1和R_Conv2)包括:卷积层、非线性层ReLU(即激活函数设置为ReLU)和批归一化层;展平层用于将同一通道的特征图转换为一个一维向量;分类层包括依次连接的全连接层和Softmax层,通过Softmax层输出每个类别的预测概率。
进一步的,对应上述语音关键词检测网络模型的具体网络结构,步骤2中,端对端的损失函数具体为:
其中,LG表示每个训练批的端对端的损失函数;L(eji)表示当前训练批中每个微调训练样本的损失函数;eji、eki分别表示当前训练批中第j个自定义唤醒词和第k个自定义唤醒词的第i个微调训练样本在支持自定唤醒词的关键词检测器中的前向计算的输出向量;且1≤i≤m,1≤j≤n,1≤k≤n且k≠j;Sji,k表示每个训练批中eji与ck的似然矩阵,Sji,j表示每个训练批中eji与cj的似然矩阵;ck、cj分别表示当前训练批中第k个、第j个自定义唤醒词的中心向量;n表示每个训练批包含的自定义唤醒词的数目,且2≤n≤P,P表示用户注册的自定义唤醒词数量;m表示每个自定义唤醒词包含的微调训练样本数,且m≥2;w1和w2表示两个不同取值的线性因子;cos(·)表示余弦相似度。
进一步的,步骤2中,用户对其自定义唤醒词进行样本注册时,对同一自定义唤醒词重复进行录制Q次;且在步骤3中,将同一自定义唤醒词的Q个前向计算的输出结果的均值作为每个自定唤醒词的模板。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
(1)本发明通过移除神经网络的分类层,直接比较神经网络输出结果(向量)的相似度,解除了分类数目固定所带来的无法对类外唤醒词(如自定唤醒词)进行分类的技术问题;
(2)通过细粒度分类训练手段,可以提高神经网络对短词(语音长度在指定长度以内的语音中包含的词)分类的泛化能力,从而得到一个初始化较好的网络模型用于自定唤醒词的微调训练;
(3)通过数据增强并辅以部分网络层的增量训练,使神经网络在小样本的情况下经过微调训练也能达到一个较高的准确率。
(4)本发明可用于嵌入设备,当用于嵌入设备时,能够根据用户的个性和需求随时更改唤醒词,提高用户的体验和减去个性定制所引入的成本。
附图说明
图1为具体实施方式中,本发明的关键词检测方法的处理过程示意图;
图2为具体实施方式中,采用的神经网络结构示意图;
图3为具体实施方式中,细粒度分类训练的处理过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明的可支持自定唤醒词的关键词检测方法,基于神经网络实现可支持用户自定义唤醒词,从而增加了嵌入该算法设备、系统的个性、便利性。其中,自定义唤醒词指的是用户可设置任何短词作为检测的关键词。本发明通过预训练和微调训练的双阶段训练方式,使原本不支持自定义唤醒词的神经网络变得可支持自定义唤醒词。参见图1,本发明包括预训练阶段、微调训练阶段(简称微调阶段)和测试阶段(即关键词检测阶段)。
在预训练阶段,对训练语料首先进行预处理(分帧和帧特征向量提取)得到二维的特征矩阵,再对采用的神经网络(用于语音的关键词检测的神经网络,即语音关键词检测网络模型)进行细粒度分类训练,从而得到预训练好的神经网络;
在微调阶段,移除预训练好的神经网络的分类层,作为支持自定唤醒词的关键词检测模型;并对用户录制的自定义唤醒词的语音首先进行数据增强处理,再进行预处理获取对应的特征矩阵,对支持自定唤醒词的关键词检测模型进行增量训练,得到训练好的支持自定唤醒词的神经网络,作为支持自定唤醒词的关键词检测器;并再次将用户录制的自定义唤醒词对应的特征矩阵输入支持自定唤醒词的关键词检测器,基于其输出获取每个自定义唤醒词的模板并保存;
在测试阶段,对测试语音(待检测语音)进行预处理,得到对应的特征矩阵,并将其输入至训练好的支持自定唤醒词的神经网络,并计算其输出与各自定义唤醒词的模板之间的相似度,基于与相似度阈值的匹配结果,得到关键词(自定义唤醒词)的检测结果:当前测试语音中存在某个自定义唤醒词或不存在自定义唤醒词。即从相似度大于或等于相似度阈值的相似度中,将最大相似度对应的自定义唤醒词作为当前检测到的唤醒词;若相似度均小于相似度阈值,则当前测试语音中不存在自定义唤醒词。
对于输入神经网络之前的语音,需要先对其做一系列的预处理,包括分帧处理、帧的特征向量提取和特征拼接,即将指定长度的语音段的所有帧的帧特征向量拼接在一起,构成二维的特征矩阵,例如特征矩阵的行数对应帧数,列数对应每帧的特征向量的维度,即每行对应一帧的特征向量。
本具体实施方式中,帧的特征向量采用梅尔频谱倒谱变换。即对于接收的待进行预处理的语音,基于预设的窗口大小和重叠长度(滑窗步长)对语音进行分帧处理,例如采用20ms的窗长,10ms的重叠对语音进行分帧处理。为了解决频谱泄露问题,本具体实施方式中,滑窗采用汉明窗。然后,分帧语音段将通过一组数量为M的梅尔滤波器,可以得到M个滤波器能量,经过取对数和离散余弦变换变换后,最终,对于一帧语音,能够得到一个M维的向量。其中参数M的取值为自定义,基于具体的使用场景进行设置,本具体实施方式中,可将参数M设置为40。
本发明中,所采用的神经网络包括输入层、卷积块、残差块、展平层、平均池化层和分类层;其中输入层为关于音频数据的特征矩阵;所输入的特征矩阵首先经过第一卷积块,然后依次经过多个残差块后输入第二卷积块、再依次经过展平层和平均池化层后进入分类层。本具体实施方式中,残差块的数量设置为6,神经网络的结构如图2所示,其中,每个卷积块包括:卷积层、非线性层ReLU(即激活函数设置为ReLU)和批归一化层。每个残差块由两个卷积块构成,且残差块的第一个卷积块的输入与其第二个卷积块的输出相加,得到残差块的输出,如图2所示。而展平层用于将同一通道的特征图转换为一个一维向量;分类层包括依次连接的全连接层和Softmax层,通过Softmax层输出每个指定类别的预测概率。并将最大预测概率所对应的类别作为当前的分类检测结果,从而基于该类别所对应的关键词得到关键词检测结果。
本具体实施方式中,神经网络的输入为长度为1000ms的语音(即训练预料的每个样本、自定义唤醒词的语音和待检测语音的长度相同,皆为1000ms),经过预处理后可以得到101帧音频帧,并得到一个101×M的特征矩阵,即101×M的梅尔频率倒谱系数(MFCC)矩阵。且为了简化运算过程,将神经网络中的每个卷积层的卷积核设置为相同的大小H×a1×a2,其中H表示通道数,a1,a2分别表示长和宽;例如将卷积核设置为45×3×3。卷积核的空洞系数取决于该卷积核所在的层数,本具体实施方式中,将第一个卷积核的空洞系数设置为1,且从第二个卷积核开始,卷积核的空洞系数每经过3个卷积核就翻倍,本具体实施方式中,卷积核的空洞系数最大为16。
本具体实施方式中,神经网络的前馈计算如下:
参见图2,神经网络的输入为一个101×M的MFCC特征,首先经过第一卷积块。然后,第一卷积块的输出将通过6个残差块,经过6个残差块的输出将再次通过一个卷积块(第二卷积块),得到一个H×101×M的3维矩阵。该3维矩阵需要通过一层展平层降维成一个2维矩阵,展平层将保留矩阵的第1维数据,并且将第2维和第3维的数据展平成1个1维的向量,最终降维成一个H×101M的2维矩阵。然后,该2维矩阵经过平均池化后输出一个H×1的向量,改向量再通过一个H×C的全连接层,以及通过Softmax处理对全连接层的输出进行分类,最终得到一个C维的输出向量,其中,C表示分类层预设的类别数,而全连接层的输出向量的每一维表示一个指定类别的预测概率。
将卷积核的通道数H设置为45,卷积核的长和宽均设置为3,唤醒词的数目K设置10,则神经网络的所有卷积核大小均为45×3×3,其中,神经网络的第一卷积块的卷积核的空洞系数为1;6个残差块共计包括12个卷积块,其空洞系数依次为:1,1,1,2,2,2,4,4,4,8,8,8;神经网络的第二卷积块的空洞系数为16;平均池化层和分类层的通道数分别为45和26。
本发明的神经网络的训练阶段分为两个阶段:预训练和微调训练。
在预训练阶段中,选用长度为1000ms左右的N个短词,以及噪声语料的大量样本作为训练语料,每个短词的样本数目可以设置为1000-3000条之间,并从N个短词中选择K个单词作为唤醒词,K<N,其中每个唤醒词作为一类,剩下的N-K个短词作为非唤醒词,所有非唤醒词作为一类,并将噪声归为静音类,从而得到预训练阶段的K+2个类别。本具体实施方式中,选择25个短词作为训练语料,即设置N=25,并从中选择10个作为唤醒词,即K=10。则此时所对应的分类层的了类别数为12。
训练语料经过预处理后可以得到一个101×M的特征矩阵,然后将特征矩阵输入至神经网络进行预训练,预训练中,为了进一步增强神经网络的分辨力,本发明还可以采用一种细粒度分类训练的方式。细粒度分类训练的具体手段是将原本神经网络的分类层调整为更加精细的分类层以增强神经网络的分辨力。在传统技术的神经网络中,分类层可视为对两大类进行分类,一大类为唤醒词,一大类为非唤醒词。在本发明中,非唤醒词这一大类将被更加精细地拆分成具体的非唤醒词1,非唤醒词2等若干个非唤醒词,使用细粒度分类训练手段之后,非唤醒词类别被拆分成更加精细的N-K个类别,对应非唤醒词中的N-K个单词。因此,分类层从原有的K+2分类变成了N+1分类,如图3所示。
再完成更加精细的类别划分后,即可进行对神经网络的网络参数的学习训练,可以采用任一惯用的神经网络的网络参数的训练方式,本发明不做具体限定。本具体实施方式中,采用Adam优化器,采用交叉熵作为损失函数,设置学习率为0.001,批大为小为100,预训练阶段总共训练90个周期。当细粒度分类训练完成后,可以得到一个初步训练好的神经网络,将其保存。
在微调阶段之前,用户首先需要注册其想要定义的唤醒词,设自定义唤醒词的个数为P,本发明可支持的最大P值为10。在该过程中,用户需要重复录制Q遍自定义唤醒词的范例样本,在本具体实施方式中,设置Q=10。为了使微调的准确率更高并且防止神经网络过拟合,自定义唤醒词的范例样本需要进行数据增强处理,并将范例样本和数据增强处理后的范例样本一起作为微调阶段的训练样本。本具体实施方式中,数据增强处理包括:音量增益3dB,音量衰减3dB,语音语速变速至原音频的75%和语音语速变速至原音频的125%四种处理方式,从而最终将得到5×P×Q的训练样本数。
微调阶段,需要对神经网络进行结构上的微调,神经网络的最后一层分类层将被
移除,选择最后一层隐藏层(即平均池化层)的输出向量作为输入特征矩阵的一个映射,通
过比较两个输出向量之间的相似度,即可判定两个输入特征矩阵是否来自同一唤醒词,本
具体实施方式中,相似度的比较选择余弦相似度函数,计算公式为:;其
中,ei、ej分别表示输入特征矩阵i、j在最后一层隐藏层的输出向量,Simj,i表示输出向量ei
和ej之间的相似度,符号“.”表示内积运算,表示向量的2范数,相似度的取值范围为[-
1, 1]。
此外,微调阶段采用一种新的损失函数(端到端的损失函数),该损失函数要求每个训练批包含n个自定义唤醒词,其中2≤n≤P,每个自定义唤醒词包含m个样本,其中2≤m≤Q。该损失函数的表达式为:
其中,LG表示每个训练批的端对端的损失函数;L(eji)表示当前训练批中每个微调训练样本的损失函数值;eji、eki分别表示当前训练批中第j个自定义唤醒词和第k个唤醒词的第i个微调训练样本在支持自定唤醒词的关键词检测器中的前向计算的输出向量;且1≤i≤m,1≤j≤n,1≤k≤n且k≠j;Sji,k表示每个训练批中eji与ck的似然矩阵,Sji,j表示每个训练批中eji与cj的似然矩阵;ck、cj分别表示当前训练批中第k个、第j个自定义唤醒词的中心向量;n表示每个训练批包含的自定义唤醒词的数目,且2≤n≤P,P表示用户注册的 自定义唤醒词数量;m表示每个自定义唤醒词包含的微调训练样本数,且m≥2;w1和w2表示两个不同取值的线性因子,本具体实施方式中,线性因子w1和w2分别设置为10和-5;cos(·)表示余弦相似度。即基于一个训练批中,每个样本的损失函数值的累加和就可以计算出整个训练批的损失函数值。
微调阶段采用Adam优化器,学习率为0.001,批大小为100,微调阶段总共训练10个周期。微调阶段采用增量训练,不使用预训练的数据集,采用将范例样本和数据增强处理后的范例样本一起作为微调阶段的训练样本,经过预处理后得到其特征矩阵,载入预训练阶段训练好的且移除分类层的神经网络进行训练,对指定神经网络层的权重进行微调。即在微调阶段,不会对神经网络的所有权重进行微调,而是选择神经网络最后f层的权重进行微调,f的具体取值基于实际应用场景进行设置,本发明不做具体限定。本具体实施方式中,本具体实施方式中,设置f=13,即对第一个卷积块之后所有可训练的网络层权重进行微调。
当神经网络经过预训练阶段和微调阶段,权重固定后,得到的训练好的神经网络作为支持自定唤醒词的关键词检测器。对于用户注册的Q条同一自定义唤醒词样本,可以通过支持自定唤醒词的关键词检测器的前向计算得到对应的Q个输出向量,对其取平均,即可得到当前自定唤醒词的一个特征向量,将其保存并作为该自定义唤醒词的模板,从而得到P个模板。即将同一自定义唤醒词的Q个前向计算的输出结果 的均值作为每个自定唤醒词的模板。当需要进行检测时,对待检测的语音数据首先进行预处理,得到待检测的语音数据的特征矩阵,并输入至支持自定唤醒词的关键词检测器,基于其前向计算得到待检测的语音数据的输出向量,并分别计算该输出向量与P个模板对应的特征向量之间的余弦相似度,并与相似度阈值进行比较,保留大于或等于相似度阈值的余弦相似度,通常满足大于或等于相似度阈值的余弦相似度仅为一个,从而基于该余弦相似度对应的自定义唤醒词得到待检测的语音数据的关键词检测结果,即存在;若为多个,则选取最大的余弦相似度所对应的自定义唤醒词即为待检测的语音数据的关键词检测结果。且当待检测的语音数据的输出向量与P个模板之间的余弦相似度均小于相似度阈值时,则表明待检测的语音数据中不存在自定唤醒词。本具体实施方式中,将相似度阈值设置为0.7。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (10)
1.可支持自定唤醒词的关键词检测方法,其特征在于,包括下列步骤:
步骤1:预训练处理:
设置预训练处理的训练语料,所述训练语料包括:词的样本和噪声语料的样本;
对训练预料的每个样本进行预处理,得到每个样本的特征矩阵;
构建基于神经网络的语音关键词检测网络模型,所述语音关键词检测网络模型包括依次连接的输入层、隐藏层和分类层;其中,分类层用于输出输入的特征矩阵为指定类别的预测概率;
以训练预料的每个样本的特征矩阵为语音关键词检测网络模型的输入层的输入数据,对语音关键词检测网络模型进行分类训练,得到预训练好的语音关键词检测网络模型;
步骤2:微调训练处理:
移除预训练好的语音关键词检测网络模型的分类层,作为支持自定唤醒词的关键词检测模型;
用户对其自定义唤醒词进行样本注册;
对用户注册的自定义唤醒词样本进行数据增强处理,将增强处理前后的自定义唤醒词样本一并作为微调训练处理的微调训练样本;
对微调训练样本进行预处理,得到微调训练样本的特征矩阵;
基于微调训练样本的特征矩阵,采用端对端的损失函数对支持自定唤醒词的关键词检测模型的指定网络层进行增量训练,并将训练好的支持自定唤醒词的关键词检测模型作为支持自定唤醒词的关键词检测器;
步骤3:检测处理:
将增强处理前的自定义唤醒词样本的特征矩阵输入支持自定唤醒词的关键词检测器进行前向计算,并将前向计算的输出结果作为每个自定唤醒词的模板;
对待检测语音进行预处理,得到待检测的特征矩阵,并将待检测的特征矩阵输入支持自定唤醒词的关键词检测器进行前向计算,得到待检测的输出结果;
计算待检测的输出结果与每个自定唤醒词的模板之间的相似度,若最大相似度大于或等于相似度阈值,则基于最大相似度对应的自定唤醒词得到待检测语音的关键词检测结果。
2.如权利要求1所述的关键词检测方法,其特征在于,步骤1中,将分类层对应的指定类别设置为:K个唤醒词类、N-K个非唤醒词类和1个静音类;其中,K表示从训练语料包括的所有词中指定的唤醒词数量,N表示训练语料包括的词数量。
3.如权利要求1所述的关键词检测方法,其特征在于,步骤2中,数据增强处理包括:对语音音量增益3dB,衰减3dB,以及对语音语速变速至原音频的75%和变速至原音频的125%四种处理方式。
4.如权利要求1所述的关键词检测方法,其特征在于,步骤1中,语音关键词检测网络模型的隐藏层包括依次连接的卷积块Conv1、残差块1~残差块NRes、卷积块Conv2、展平层和平均池化层;
其中,NRes表示包含的残差块数量;
每个残差块包括依次连接的卷积块R_Conv1和卷积块R_Conv2,将卷积块R_Conv1的输入与卷积块R_Conv2的输出相加得到每个残差块的输出;
每个卷积块包括:卷积层、非线性层ReLU和批归一化层;
展平层用于将同一通道的特征图转换为一个一维向量;
分类层包括依次连接的全连接层和Softmax层,通过Softmax层输出每个指定类别的预测概率。
5.如权利要求4所述的关键词检测方法,其特征在于,步骤2中,端对端的损失函数具体为:
其中,LG表示每个训练批的端对端的损失函数;
L(eji)表示当前训练批中每个微调训练样本的损失函数;
eji、eki分别表示当前训练批中第j个自定义唤醒词和第k个自定义唤醒词的第i个微调训练样本在支持自定唤醒词的关键词检测器中的前向计算的输出向量,1≤i≤m,1≤j≤n,1≤k≤n且k≠j;
Sji,k表示每个训练批中eji与ck的似然矩阵,Sji,j表示每个训练批中eji与cj的似然矩阵;
ck、cj分别表示当前训练批中第k个、第j个自定义唤醒词的中心向量;
n表示每个训练批包含的自定义唤醒词的数目,且2≤n≤P,P表示用户注册的自定义唤醒词数量;
m表示每个自定义唤醒词包含的微调训练样本数,且m≥2;
w1和w2表示两个不同取值的线性因子;
cos(·)表示余弦相似度。
6.如权利要求4所述的关键词检测方法,其特征在于,语音关键词检测网络模型中的每个卷积核的通道数相同,且每个卷积核的长度相同,每个卷积核的宽度相同。
7.如权利要求5所述的关键词检测方法,其特征在于,各卷积核的空洞系数设置为:首个卷积核的空洞系数设置为1,每经过3个卷积核,则空洞系数的值翻一倍。
8.如权利要求4所述的关键词检测方法,其特征在于,残差块数量NRes为6。
9.如权利要求5所述的关键词检测方法,其特征在于,线性因子w1和w2分别设置为10和-5。
10.如权利要求1-9任一一项所述的关键词检测方法,其特征在于,步骤2中,用户对其自定义唤醒词进行样本注册时,对同一自定义唤醒词重复录制Q次;且在步骤3中,将同一自定义唤醒词的Q个前向计算的输出结果的均值作为每个自定唤醒词的模板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010982811.1A CN111933124B (zh) | 2020-09-18 | 2020-09-18 | 一种可支持自定唤醒词的关键词检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010982811.1A CN111933124B (zh) | 2020-09-18 | 2020-09-18 | 一种可支持自定唤醒词的关键词检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111933124A true CN111933124A (zh) | 2020-11-13 |
CN111933124B CN111933124B (zh) | 2021-04-30 |
Family
ID=73334597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010982811.1A Active CN111933124B (zh) | 2020-09-18 | 2020-09-18 | 一种可支持自定唤醒词的关键词检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111933124B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268673A (zh) * | 2021-04-23 | 2021-08-17 | 国家计算机网络与信息安全管理中心 | 互联网行动类信息线索分析的方法和系统 |
CN113450800A (zh) * | 2021-07-05 | 2021-09-28 | 上海汽车集团股份有限公司 | 一种唤醒词激活概率的确定方法、装置和智能语音产品 |
CN113506575A (zh) * | 2021-09-09 | 2021-10-15 | 深圳市友杰智新科技有限公司 | 流式语音识别的处理方法、装置和计算机设备 |
CN114038457A (zh) * | 2021-11-04 | 2022-02-11 | 北京房江湖科技有限公司 | 用于语音唤醒的方法、电子设备、存储介质和程序 |
CN114067796A (zh) * | 2021-11-15 | 2022-02-18 | 四川长虹电器股份有限公司 | 一种自定义语音命令的设计方法 |
CN115273832A (zh) * | 2022-09-22 | 2022-11-01 | 深圳市友杰智新科技有限公司 | 唤醒优化模型的训练方法、唤醒优化的方法和相关设备 |
WO2022226782A1 (en) * | 2021-04-27 | 2022-11-03 | Harman International Industries, Incorporated | Keyword spotting method based on neural network |
CN117475998A (zh) * | 2023-12-28 | 2024-01-30 | 慧言科技(天津)有限公司 | 基于lora微调辅助的语音唤醒快速自适应方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160283841A1 (en) * | 2015-03-27 | 2016-09-29 | Google Inc. | Convolutional neural networks |
CN107608961A (zh) * | 2017-09-08 | 2018-01-19 | 广州汪汪信息技术有限公司 | 基于视角的情感分析方法、电子设备、存储介质、系统 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN109741735A (zh) * | 2017-10-30 | 2019-05-10 | 阿里巴巴集团控股有限公司 | 一种建模方法、声学模型的获取方法和装置 |
CN110414565A (zh) * | 2019-05-06 | 2019-11-05 | 北京邮电大学 | 一种用于功率放大器的基于Group Lasso的神经网络裁剪方法 |
US10490182B1 (en) * | 2016-12-29 | 2019-11-26 | Amazon Technologies, Inc. | Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks |
CN110751271A (zh) * | 2019-10-28 | 2020-02-04 | 西安烽火软件科技有限公司 | 一种基于深度神经网络的图像溯源特征表征方法 |
CN110992929A (zh) * | 2019-11-26 | 2020-04-10 | 苏宁云计算有限公司 | 一种基于神经网络的语音关键词检测方法、装置及系统 |
CN111243604A (zh) * | 2020-01-13 | 2020-06-05 | 苏州思必驰信息科技有限公司 | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 |
CN111354343A (zh) * | 2020-03-09 | 2020-06-30 | 北京声智科技有限公司 | 语音唤醒模型的生成方法、装置和电子设备 |
CN111524525A (zh) * | 2020-04-28 | 2020-08-11 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
-
2020
- 2020-09-18 CN CN202010982811.1A patent/CN111933124B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160283841A1 (en) * | 2015-03-27 | 2016-09-29 | Google Inc. | Convolutional neural networks |
US10490182B1 (en) * | 2016-12-29 | 2019-11-26 | Amazon Technologies, Inc. | Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks |
CN107608961A (zh) * | 2017-09-08 | 2018-01-19 | 广州汪汪信息技术有限公司 | 基于视角的情感分析方法、电子设备、存储介质、系统 |
CN109741735A (zh) * | 2017-10-30 | 2019-05-10 | 阿里巴巴集团控股有限公司 | 一种建模方法、声学模型的获取方法和装置 |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN110414565A (zh) * | 2019-05-06 | 2019-11-05 | 北京邮电大学 | 一种用于功率放大器的基于Group Lasso的神经网络裁剪方法 |
CN110751271A (zh) * | 2019-10-28 | 2020-02-04 | 西安烽火软件科技有限公司 | 一种基于深度神经网络的图像溯源特征表征方法 |
CN110992929A (zh) * | 2019-11-26 | 2020-04-10 | 苏宁云计算有限公司 | 一种基于神经网络的语音关键词检测方法、装置及系统 |
CN111243604A (zh) * | 2020-01-13 | 2020-06-05 | 苏州思必驰信息科技有限公司 | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 |
CN111354343A (zh) * | 2020-03-09 | 2020-06-30 | 北京声智科技有限公司 | 语音唤醒模型的生成方法、装置和电子设备 |
CN111524525A (zh) * | 2020-04-28 | 2020-08-11 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
R. TANG: "Deep Residual Learning for Small-Footprint Keyword Spotting", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
ZHOU, JUN: "Design and realization of waveguide excitation source in particle-in-cell simulation", 《HIGH POWER LASER AND PARTICLE BEAMS 12》 * |
李沅箐: "基于深度学习的声目标识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
洪新海: "人脸识别中的深度特征学习方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王利卿: "基于多尺度卷积神经网络的图像检索算法", 《软件导刊》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268673A (zh) * | 2021-04-23 | 2021-08-17 | 国家计算机网络与信息安全管理中心 | 互联网行动类信息线索分析的方法和系统 |
WO2022226782A1 (en) * | 2021-04-27 | 2022-11-03 | Harman International Industries, Incorporated | Keyword spotting method based on neural network |
CN113450800A (zh) * | 2021-07-05 | 2021-09-28 | 上海汽车集团股份有限公司 | 一种唤醒词激活概率的确定方法、装置和智能语音产品 |
CN113450800B (zh) * | 2021-07-05 | 2024-06-21 | 上海汽车集团股份有限公司 | 一种唤醒词激活概率的确定方法、装置和智能语音产品 |
CN113506575A (zh) * | 2021-09-09 | 2021-10-15 | 深圳市友杰智新科技有限公司 | 流式语音识别的处理方法、装置和计算机设备 |
CN113506575B (zh) * | 2021-09-09 | 2022-02-08 | 深圳市友杰智新科技有限公司 | 流式语音识别的处理方法、装置和计算机设备 |
CN114038457A (zh) * | 2021-11-04 | 2022-02-11 | 北京房江湖科技有限公司 | 用于语音唤醒的方法、电子设备、存储介质和程序 |
CN114067796A (zh) * | 2021-11-15 | 2022-02-18 | 四川长虹电器股份有限公司 | 一种自定义语音命令的设计方法 |
CN114067796B (zh) * | 2021-11-15 | 2024-07-23 | 四川长虹电器股份有限公司 | 一种自定义语音命令的设计方法 |
CN115273832A (zh) * | 2022-09-22 | 2022-11-01 | 深圳市友杰智新科技有限公司 | 唤醒优化模型的训练方法、唤醒优化的方法和相关设备 |
CN115273832B (zh) * | 2022-09-22 | 2023-02-28 | 深圳市友杰智新科技有限公司 | 唤醒优化模型的训练方法、唤醒优化的方法和相关设备 |
CN117475998A (zh) * | 2023-12-28 | 2024-01-30 | 慧言科技(天津)有限公司 | 基于lora微调辅助的语音唤醒快速自适应方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111933124B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933124B (zh) | 一种可支持自定唤醒词的关键词检测方法 | |
Lokesh et al. | An automatic tamil speech recognition system by using bidirectional recurrent neural network with self-organizing map | |
Zhou et al. | CNN with phonetic attention for text-independent speaker verification | |
CN105206270B (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
WO2019204547A1 (en) | Systems and methods for automatic speech recognition using domain adaptation techniques | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
CN106952644A (zh) | 一种基于瓶颈特征的复杂音频分割聚类方法 | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
CN111564163B (zh) | 一种基于rnn的多种伪造操作语音检测方法 | |
Guzhov et al. | Esresne (x) t-fbsp: Learning robust time-frequency transformation of audio | |
CN109493881A (zh) | 一种音频的标签化处理方法、装置和计算设备 | |
CN113191178B (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
Beckmann et al. | Speech-vgg: A deep feature extractor for speech processing | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
Liu et al. | Exploiting Visual Features Using Bayesian Gated Neural Networks for Disordered Speech Recognition. | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Liu et al. | Keyword spotting techniques to improve the recognition accuracy of user-defined keywords | |
Renisha et al. | Cascaded Feedforward Neural Networks for speaker identification using Perceptual Wavelet based Cepstral Coefficients | |
Rituerto-González et al. | End-to-end recurrent denoising autoencoder embeddings for speaker identification | |
Матиченко et al. | The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
Kumar et al. | Transfer learning based convolution neural net for authentication and classification of emotions from natural and stimulated speech signals | |
Kaiyr et al. | Automatic language identification from spectorgam images | |
Slívová et al. | Isolated word automatic speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |