CN112767952A - 语音唤醒方法和装置 - Google Patents
语音唤醒方法和装置 Download PDFInfo
- Publication number
- CN112767952A CN112767952A CN202011630785.2A CN202011630785A CN112767952A CN 112767952 A CN112767952 A CN 112767952A CN 202011630785 A CN202011630785 A CN 202011630785A CN 112767952 A CN112767952 A CN 112767952A
- Authority
- CN
- China
- Prior art keywords
- layer
- dnn
- dnn layer
- data
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000006870 function Effects 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 34
- 230000004913 activation Effects 0.000 claims abstract description 30
- 238000001994 activation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006386 memory function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开语音唤醒方法和装置,其中,一种语音唤醒方法,包括:将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;以及将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
Description
技术领域
本发明属于网络模型技术领域,尤其涉及语音唤醒方法和装置。
背景技术
相关技术中,目前市面上主要有基于深度神经网络的语音唤醒模型,如CNN(Convolutional neural networks,卷积神经网络)模型、FSMN(Feedforward SequentialMemory Networks,前馈序列记忆神经网络)模型等。
目前基于深度神经网络的低功耗语音唤醒模型主要有CNN、FSMN、RNN(RecurrentNeural Networks,循环神经网络)等。现对CNN及FSMN进行简单的介绍。
CNN模型是一种常见的网络结构,在语音识别、图像识别、图像分割等领域有着广泛的应用。一个典型的CNN网络一般由卷积(convolution)、池化(pooling)和激活(activation)三种结构构成,而网络中的参数一般由反向传播(back propagation)的方法得到。
FSMN是一种改进的DNN网络,在某一个DNN层中加入了记忆模块(Memory block),使得模型对不同时间的输入拥有“记忆”功能,该模型在处理时间序列的数据(如语音信号)时有不错的效果。一个典型的FSMN模型结构如图1所示,其中,Input layer表示输入层,hidden layer表示隐藏层,Memory Block表示记忆块,Output layer表示输出层。
发明人认为,对于CNN来说,主要缺点有以下两点:
a)计算量大:语音唤醒模型一般用于低功耗的移动端(如耳机、平板)或高功耗的家用电器(如电视、空调)中,这些设备都对模型的大小和算力有着严格的要求。过大的计算量会使芯片发热,影响设备寿命,而某些芯片则无法运行大计算量的模型。
b)对时间序列缺乏“记忆”:CNN由于结构的限制,对于之前的输入缺乏“记忆”功能,当前的输出仅和当前的输入有关,这在语音信号的处理中是一大劣势,因为当前的语音常常和之前的语音紧密相关。
对于FSMN来说,主要缺点在于无法对原始语音信号直接进行处理。
发明人认为,对于CNN来说:计算量大主要是由于CNN网络中必须进行卷积操作,以一条长度为L的语音信号为例,若卷积核长度为a,步长为1,在对语音信号进行padding后,需分别进行a*L次乘法和L*(a-1)加法,而这样的卷积层通常不止一个,所以产生了非常大的计算量。
而对时间序列缺乏“记忆”主要是由于CNN网络对时间序列缺乏“记忆”是由它的网络结构决定的。一方面,对于卷积层来说,卷积只对卷积核覆盖到的区域进行计算,因此卷积核外的语音信息不会对当前卷积核内语音信息的处理产生影响;另一方面,尽管由于全连接层的存在,各卷积核之间的信息仍会相互影响,但这种影响仅限于网络输入的总时长(通常为30ms)以内,无法在较长的时间尺度上进行信息传递。实践证明,CNN网络对时间序列的处理缺乏有效的“记忆”功能,而对历史信息的“记忆”在时间序列,特别是语音信号的处理中有着重要的作用。
对于FSMN来说,如果直接用原始语音信号作为模型输入进行训练,效果会很差。FSMN模型缺乏直接从原始音频数据中学习有用信息的能力,因此通常在使用FSMN模型之前需对原始音频进行特征提取。
发明内容
本发明实施例提供一种语音唤醒方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音唤醒方法,包括:将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;以及将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
第二方面,本发明实施例提供一种语音唤醒装置,包括:滤波器模块,配置为将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;第一DNN模块,配置为将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;第二DNN模块,配置为将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;以及输出模块,配置为将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
第三方面,本发明实施例提供一种新型网络结构,包括:Sinc层,第一DNN层和与第一DNN层连接的记忆块,第二DNN层和与第二DNN层连接的记忆块,以及输出层,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音唤醒方法的步骤。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音唤醒方法的步骤。
本申请的方法和装置通过引入sinc层,形成特殊卷积层,该特殊卷积层和拥有记忆块的DNN层配合,使得整个网络拥有了对原始音频的高效处理能力,同时保持较低的计算量,可以使得语音唤醒的处理能力更强,处理效率更高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术的的一个典型的FSMN模型结构;
图2为本发明一实施例提供的一种语音唤醒方法的流程图;
图3为本发明一实施例提供的神经网络的基本结构;
图4为本发明一实施例提供的一种语音唤醒装置的框图;
图5是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图2,其示出了一种语音唤醒方法的流程图,该方法主要应用于网络模型中,例如可以是一种新型的网络结构。
如图2所示,在步骤201中,将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;
在步骤202中,将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;
在步骤203中,将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;
在步骤204中,将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
本申请实施例的方法通过引入sinc层,形成特殊卷积层,该特殊卷积层和拥有记忆块的DNN层配合,使得整个网络拥有了对原始音频的高效处理能力,同时保持较低的计算量。
在一些可选的实施例中,在将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分之后,所述方法包括:基于所述后验得分和预设唤醒阈值判断所述原始音频是否能够唤醒设备。
在一些可选的实施例中,与所述第一DNN层连接的记忆块的表达式如下:
其中,中h(t-i)和h(t+j)分别为t-i时刻和t+j时刻该DNN层的值,ai和cj分别为相应的权重系数。
在一些可选的实施例中,所述第一DNN层与所述记忆块形成,和/或所述第二DNN层与后续的记忆块,形成DNN-记忆块结构,所述DNN-记忆块结构的输出为:
在一些可选的实施例中,所述将原始音频输入至使用sinc函数来构造带通滤波器包括:对所述原始音频进行分帧,首次分帧时以长度为a毫秒的音频数据为一帧,后续分帧时以b毫秒获得下一帧;将分帧后的每一帧数据作为所述滤波器的原始输入。例如,以a=30ms,b=20ms为例,第一帧为[0,30ms],第二帧为[20ms,50ms],第三帧为[40ms,70ms],如此下去。
在一些可选的实施例中,所述sinc函数构造的带通滤波器形成sinc层,所述sinc层包括使用如下方式实现:
令x[n]为某一帧的原始音频信号,h[n]为长度为L的一维卷积核,则卷积后的输出为:y[n]=x[n]*h[n];
其中,h[n]=(2f2sinc(2πf2n)-2f1sinc(2πf1n))w[n],
f1和f2分别为网络需要学习的最高截止频率和最低截止频率,若原始音频的采样频率为fs,则f1和f2在初始化时,只需在[0,fs/2]中随机初始化即可;
w[n]为窗函数,一般取Hamming窗,即w[n]=0.54-0.46cos(2πn/L);
sinc函数定义为sinc(x)=sin(x)/x。
在一些可选的实施例中,所述多重处理包括:池化处理、归一化处理以及激活函数Relu处理。
需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
针对上述缺陷,本领域技术人员通常采用以下方法:要解决这些缺陷,通常使用CNN与FSMN串联的方式,而且会使用较小的卷积核以减少计算量。不过这种方法仍然不能从原始音频中学习到足够的有效信息,无法直接将原始音频作为网络的输入进行训练。
本领域技术人员通常使用标准的卷积运算,固定卷积核的大小,而卷积核内的权重分布由网络学习得到,而没有想过对卷积核进行优化。另外,人们不太清楚理想带通滤波器该怎样和神经网络相结合,对原始语音信号进行处理。
本申请实施例使用sinc函数来构造带通滤波器,形成一种特殊的卷积层,该滤波器的参数为最高和最低截止频率,而这两个参数的值由网络学习得到。这种方法大大降低了卷积操作的参数量,标准的卷积操作中卷积核内的每个参数都通过学习得到,而该方法只需学习两个参数。另外,该模型如同FSMN一样,在DNN层中加入memory-block,使得整个模型拥有一定的“记忆”能力。这样的特殊卷积层和拥有memory-block的DNN层的配合,使得整个网络拥有了对原始音频的高效处理能力,同时保持较低的计算量。
本申请实施例首先对原始音频进行分帧,即以长度为a毫秒的音频数据为一帧,往后时移b毫秒获得下一帧。以a=30ms,b=20ms为例,第一帧为[0,30ms],第二帧为[20ms,50ms],第三帧为[40ms,70ms],如此下去。由以上方法分出的每一帧数据都是神经网络模型的原始输入。
图3示出了神经网络的基本结构.
步骤一:
图3中Sinc layer的实现方式如下:
令x[n]为某一帧的原始音频信号,h[n]为长度为L的一维卷积核,则卷积后的输出为:y[n]=x[n]*h[n]
其中,h[n]=(2f2sinc(2πf2n)-2f1sinc(2πf1n))w[n]
f1和f2分别为网络需要学习的截止频率参数,若原始音频的采样频率为fs,则f1和f2在初始化时,只需在[0,fs/2]中随机初始化即可。
w[n]为窗函数,一般取Hamming窗,即
w[n]=0.54-0.46cos(2πn/L)
sinc函数定义为sinc(x)=sin(x)/x。
步骤二:
原始音频数据经sinc层之后,还会依次经过polling、normalization以及激活函数Relu并最终输入到第一个DNN层。第一个DNN层右侧的memory block里存储的是从当前时刻往前N帧至往后M帧的数据,这些数据求和之后同第一个DNN层的输出一同经激活函数后作为第二个DNN层的输入。该步骤的具体实现如下:
第一个DNN层的Memory block的表达式如下:
其中ht-i和ht+j分别为t-i时刻和t+j时刻该DNN层的值,ai和cj分别为相应的权重系数。从上式右边可以看出第一项为“过去”的信息,第二项为“未来”的信息,由于引入“未来”的信息会带来延时,为保证整个网络的实时性也可将第二项去掉。
因此,整个“DNN-MemoryBlock”结构的输出,即第二个DNN层的输入为:
步骤三:
经过第一个DNN层之后,如果需要更多的“DNN-MemoryBlock”结构,只需重复步骤二即可。
步骤四:
数据经过最后一个DNN后,需经过Output layer并经过激活函数softMax后得到最终输出后验得分。
以上就是整个网络结构及计算全过程,实现了从原始音频数据到最终后验得分的端到端训练。
发明人在实现本申请的过程中,还采用过如下备选方案:使用标准CNN和FSMN模型串联的方式,但该方案在计算量、训练速度、模型收敛速度上均不如前述方案,另外该方案无法直接在原始音频上进行模型训练。备选方案的优点:在FSMN模型前加入CNN层,能提升FSMN模型在语音唤醒上的性能。备选方案的缺点:由于标准CNN层的存在,整个模型计算量明显增大;另外仍然不能直接将原始音频作为模型的输入进行训练,仍需在训练前做特征提取。
请参考图4,其示出了本发明一实施例提供的语音唤醒装置的框图。
如图4所示,语音唤醒装置400,包括滤波器模块410、第一DNN模块420、第二DNN模块430和输出模块440。
其中,滤波器模块410,配置为将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;第一DNN模块420,配置为将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;第二DNN模块430,配置为将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;以及输出模块440,配置为将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
应当理解,图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如滤波器模块可以描述为将原始音频输入至使用sinc函数来构造带通滤波器的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如滤波器模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音唤醒方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;
将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;
将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;
将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音唤醒装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音唤醒装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音唤醒方法。
图5是本发明实施例提供的电子设备的结构示意图,如图5所示,该设备包括:一个或多个处理器510以及存储器520,图5中以一个处理器510为例。语音唤醒方法的设备还可以包括:输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音唤醒方法。输入装置530可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于语音唤醒装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;
将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;
将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;
将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音唤醒方法,包括:
将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;
将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;
将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;
将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
2.根据权利要求1所述的方法,在将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分之后,所述方法包括:
基于所述后验得分和预设唤醒阈值判断所述原始音频是否能够唤醒设备。
5.根据权利要求1所述的方法,其中,所述将原始音频输入至使用sinc函数来构造带通滤波器包括:
对所述原始音频进行分帧,首次分帧时以长度为a毫秒的音频数据为一帧,后续分帧时以b毫秒获得下一帧;
将分帧后的每一帧数据作为所述滤波器的原始输入。
6.根据权利要求1-5中任一项所述的方法,其中,所述sinc函数构造的带通滤波器形成sinc层,所述sinc层包括使用如下方式实现:
令x[n]为某一帧的原始音频信号,h[n]为长度为L的一维卷积核,则卷积后的输出为:y[n]=x[n]*h[n];
其中,h[n]=(2f2sinc(2πf2n)-2f1sinc(2πf1n))w[n],
f1和f2分别为网络需要学习的最高截止频率和最低截止频率,若原始音频的采样频率为fs,则f1和f2在初始化时,只需在[0,fs/2]中随机初始化即可;
w[n]为窗函数,一般取Hamming窗,即w[n]=0.54-0.46cos(2πn/L);
sinc函数定义为sinc(x)=sin(x)/x。
7.根据权利要求6所述的方法,其中,所述多重处理包括:
池化处理、归一化处理以及激活函数Relu处理。
8.一种新型网络结构,包括:
Sinc层,第一DNN层和与第一DNN层连接的记忆块,第二DNN层和与第二DNN层连接的记忆块,以及输出层,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数。
9.一种语音唤醒装置,包括:
滤波器模块,配置为将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;
第一DNN模块,配置为将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;
第二DNN模块,配置为将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;
输出模块,配置为将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011630785.2A CN112767952A (zh) | 2020-12-31 | 2020-12-31 | 语音唤醒方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011630785.2A CN112767952A (zh) | 2020-12-31 | 2020-12-31 | 语音唤醒方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112767952A true CN112767952A (zh) | 2021-05-07 |
Family
ID=75699333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011630785.2A Pending CN112767952A (zh) | 2020-12-31 | 2020-12-31 | 语音唤醒方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767952A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
CN106919977A (zh) * | 2015-12-25 | 2017-07-04 | 科大讯飞股份有限公司 | 一种前馈序列记忆神经网络及其构建方法和系统 |
CN111816218A (zh) * | 2020-07-31 | 2020-10-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN111816166A (zh) * | 2020-07-17 | 2020-10-23 | 字节跳动有限公司 | 声音识别方法、装置以及存储指令的计算机可读存储介质 |
CN112151040A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
-
2020
- 2020-12-31 CN CN202011630785.2A patent/CN112767952A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
CN106919977A (zh) * | 2015-12-25 | 2017-07-04 | 科大讯飞股份有限公司 | 一种前馈序列记忆神经网络及其构建方法和系统 |
CN111816166A (zh) * | 2020-07-17 | 2020-10-23 | 字节跳动有限公司 | 声音识别方法、装置以及存储指令的计算机可读存储介质 |
CN111816218A (zh) * | 2020-07-31 | 2020-10-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN112151040A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
Non-Patent Citations (2)
Title |
---|
姜玉璞: "基于CTC的语音识别方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
王勇和 等: "基于TDNN-FSMN的蒙古语语音识别技术研究", 《中文信息学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021004366A1 (zh) | 基于结构化剪枝和低比特量化的神经网络加速器及方法 | |
CN106844294B (zh) | 卷积运算芯片和通信设备 | |
US20200159530A1 (en) | Computing device and method | |
CN110163358B (zh) | 一种计算装置及方法 | |
CN108764466A (zh) | 基于现场可编程门阵列的卷积神经网络硬件及其加速方法 | |
CN111176758B (zh) | 配置参数的推荐方法、装置、终端及存储介质 | |
US20240071402A1 (en) | Method and apparatus for processing audio data, device, storage medium | |
CN111178507A (zh) | 图谱卷积神经网络数据处理方法及装置 | |
CN110321761A (zh) | 一种行为识别方法、终端设备及计算机可读存储介质 | |
CN112562742B (zh) | 语音处理方法和装置 | |
CN111353591A (zh) | 一种计算装置及相关产品 | |
CN110276447A (zh) | 一种计算装置及方法 | |
WO2017167114A1 (zh) | 一种类Alexnet网络的模型训练方法和装置 | |
TW202022855A (zh) | 語音處理方法及裝置 | |
CN110163350A (zh) | 一种计算装置及方法 | |
CN110059797B (zh) | 一种计算装置及相关产品 | |
WO2020186484A1 (zh) | 图片自动生成描述的方法、系统、电子装置及存储介质 | |
CN115329744B (zh) | 一种自然语言处理方法、系统、设备及存储介质 | |
CN113241064A (zh) | 语音识别、模型训练方法、装置、电子设备和存储介质 | |
CN109086871A (zh) | 神经网络的训练方法、装置、电子设备和计算机可读介质 | |
CN114220423A (zh) | 语音唤醒、定制唤醒模型的方法、电子设备和存储介质 | |
CN112767952A (zh) | 语音唤醒方法和装置 | |
JP2017059193A (ja) | 時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラム | |
CN107748914A (zh) | 人工神经网络运算电路 | |
CN116820577A (zh) | 模型的并行处理方法、装置、第一计算设备和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |
|
RJ01 | Rejection of invention patent application after publication |