CN109448719B

CN109448719B - 神经网络模型建立方法及语音唤醒方法、装置、介质和设备

Info

Publication number: CN109448719B
Application number: CN201811509277.1A
Authority: CN
Inventors: 潘颂声; 刘�东; 高益
Original assignee: Hangzhou Yixian Advanced Technology Co ltd
Current assignee: Hangzhou Yixian Advanced Technology Co ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2022-09-09
Anticipated expiration: 2038-12-11
Also published as: CN109448719A

Abstract

本发明提供了神经网络模型建立方法及语音唤醒方法、装置、介质和设备。该模型建立方法包括提取语音信号中各个帧的声学特征；基于声学特征得到特征图谱；将特征图谱输入神经网络模型并经过卷积层、池化层和全连接层的处理得到唤醒词概率值；根据唤醒词概率值与预设值的比较结果对模型参数进行校正。该语音唤醒方法包括接收用户输入的语音信号；提取语音信号的声学特征；基于声学特征得到特征图谱；利用神经网络模型对特征图谱进行处理以确定唤醒词概率值；基于唤醒词概率值确定是否进行语音唤醒。本发明通过提取语音信号的声学特征获得特征图谱，并采用神经网络对特征图谱进行处理以得到唤醒词概率值，在降低计算复杂度的同时提高了运算效率。

Description

神经网络模型建立方法及语音唤醒方法、装置、介质和设备

技术领域

本发明的实施方式涉及神经网络模型及语音唤醒领域，更具体地，本发明的实施方式涉及神经网络模型建立方法及语音唤醒方法、装置、介质和设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

传统的语音唤醒通常采用基于自动语音识别ASR(Automatic SpeechRecognition)技术路线的方法。基于ASR技术路线的语音唤醒方案在受限的场景下可以达到实用，但当应用环境较为恶劣，比如远场拾音、超低信噪比、唤醒词非常短时，传统的语音唤醒方案效果往往无法达到使用门槛。

传统的基于ASR的语音唤醒方案主要存在以下问题：

1.声学模型的训练需要大量的数据。由于训练目标是全部的音素，训练数据必定需要覆盖所有音素，且各音素的覆盖占比也需要达到一定要求，从业界公布的论文来看，要想获得理想性能，训练数据的语音时长一般在上千小时。

2.技术方案实现过程复杂。基于ASR的语音唤醒方案的实现至少需要包含的模块包括：解码网络、解码器、声学得分运算、解码后处理，每一个模块的性能好坏都会影响最终的唤醒性能，复杂的实现过程也增加了开发难度。

3.对于近似词误唤醒高，环境鲁棒性差。同样由于训练目标过多的问题，声学模型训练需要照顾到每个音素的优化，在遇到发音类似的词时，解码得到的声学得分往往跟唤醒词非常相似，无法从现有特征上进行区分，从而导致误唤醒高。另外，要提高环境噪音鲁棒性，需要对训练数据加噪，使训练数据的规模增长数倍至上万小时，而语音唤醒的模型参数规模一般都较小，尤其当使用在移动设备上运行时，小的模型参数往往对于大规模数据的学习不充分，导致环境鲁棒性差。

4.运算效率较低。语音唤醒大部分使用场景在于远场的智能设备语音交互，这些终端设备运算能力有限，运算效率是语音唤醒需要考虑的重要方面，传统方案由于训练目标较多，模型参数规模太小会导致效果很差，因此一般参数数量不会太小，另外涉及的运算模块较多也增加了运算复杂度。

发明内容

本发明实施例提供了神经网络模型建立方法及语音唤醒方法、装置、介质和设备，用以解决现有技术方案存在的训练过程复杂且运算效率低等问题。

本发明实施例是通过以下技术方案实现的：

第一方面，本发明实施例提供用于语音唤醒的神经网络模型建立方法，其中，神经网络模型包括至少一个卷积层、一个池化层和一个全连接层，该方法包括：提取语音信号中各个帧的声学特征；基于各个帧的声学特征得到语音信号的特征图谱；将语音信号的特征图谱输入神经网络模型并经过至少一个卷积层、池化层和全连接层的处理，得到语音信号中唤醒词的概率值；根据唤醒词的概率值与预设值的比较结果对神经网络模型的参数进行校正。

在本发明实施例提供的神经网络模型建立方法中，通过提取语音信号的声学特征并获得特征图谱，以特征图谱作为输入，采用神经网络进行端到端的运算以得到语音信号中的唤醒词的概率值，简化了神经网络模型建立和运算流程，提高了运算效率，并且对神经网络模型的训练数据量的要求也大大降低。

在本发明的一个实施例中，将语音信号的特征图谱输入神经网络模型并经过至少一个卷积层、池化层和全连接层的处理包括：基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱；将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据；利用池化层对多个输出数据进行融合后发送至全连接层进行全连接运算处理。通过上述方法，神经网络模型中的各个卷积层可以并行地进行卷积处理，从而使得运算效率更加高效。

在本发明的一个实施例中，在将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据之后，还包括：将多个输出数据更新至池化层缓冲区；利用池化层对池化层缓冲区中的多个输出数据进行融合。通过上述方法，神经网络模型中的卷积层与池化层能够同时并行处理，从而进一步提高运算效率。

在本发明的一个实施例中，特征子图谱的宽度与第一个卷积层的卷积核的宽度相同，从而减少数据重叠，进一步提高运算效率和降低运算复杂度。

在本发明的一个实施例中，神经网络模型中的卷积层依次包括：一个标准卷积层；至少一个深度可分离卷积神经网络DS-CNN层。

在本发明的一个实施例中，基于下式确定池化层缓冲区宽度BufferW_pool：

其中：F为整数变量，W_s为标准卷积层的卷积核的宽度，StepW_s为标准卷积层的宽度步长，W_i为第i个DS-CNN层的卷积核宽度，λ为DS-CNN层的数量；

在该实施例中还将基于下式确定池化层缓冲区高度BufferH_pool：

其中：H_input为特征图谱的高度，StepH_s为标准卷积层的高度步长。

在本发明的一个实施例中，将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据包括：将特征子图谱更新到第一个卷积层的输入缓冲区中；对于各个卷积层，进行如下操作：对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据；如果本卷积层不是最后一个卷积层，将本卷积层输出数据更新到下一个卷积层的输入缓冲区中。通过上述方法，卷积层可以并行处理各自输入缓冲区中的数据，从而进一步提升计算效率。

在本发明的一个实施例中，对于第一个卷积层，基于下式确定其缓冲区宽度BufferW₁：BufferW₁＝W₁；其中W₁为第一个卷积层的卷积核宽度。在该实施例中还基于下式确定第一个卷积层的缓冲区高度BufferH₁：BufferH₁＝H_input；其中H_input为特征子图谱的高度。按照这一方式，第一个卷积层在宽度方向上的重叠计算得以避免，从而减少了计算量。

在本发明的一个实施例中，对于第二个至最后一个卷积层，基于下式确定该卷积层的缓冲区宽度BufferW：BufferW＝W；其中W为该卷积层的卷积核宽度。在该实施例中还基于下式确定该卷积层的缓冲区高度BufferH：BufferH＝H_output；其中H_output为上一个卷积层的输出数据的高度。按照这一方式，上述各卷积层在宽度方向上的重叠计算得以避免，从而进一步减少了计算量。

在本发明的一个实施例中，池化层为平均池化层。

在本发明的一个实施例中，提取语音信号中各个帧的声学特征包括：基于第一窗长以及第一步长，确定语音信号中的当前帧；提取当前帧的声学特征。

在本发明的一个实施例中，基于各个帧的声学特征得到语音信号的特征图谱包括：基于下式对各个帧的声学特征进行规整，以获取各个帧的经规整的声学特征：

其中：t表示该帧在时域的索引，f表示该帧的频域特征，E(t，f)表示该帧在时域索引t及频域特征f所对应的滤波器组能量，M(t，f)表示该帧在时域索引t及频域特征f所对应的平滑能量，其中，M(t，f)基于下式获得：M(t,f)＝(1-s)M(t-1,f)+sE(t,f)，其中，s表示平滑系数，M(t-1,f)表示该帧的上一帧所对应的平滑能量，γ，α，δ，∈分别表示常量参数；基于各个帧的经规整的声学特征，确定所述语音信号的特征图谱。通过这一方法，系统在有噪环境下的鲁棒性得以提高，从而更加适应于远场环境下的使用。

第二方面，本发明实施例提供利用神经网络模型进行语音唤醒的方法，其中，神经网络模型包括至少一个卷积层，一个池化层，以及一个全连接层，该神经网络模型已按照如第一方面的实施例所述的方法建立。本发明实施例提供的利用神经网络模型进行语音唤醒的方法其特征在于，包括：接收用户输入的语音信号；提取语音信号的当前一个或多个帧的声学特征；基于声学特征得到语音信号的待处理特征图谱；利用神经网络模型对待处理特征图谱进行处理以确定唤醒词概率值；基于唤醒词概率值，确定是否进行语音唤醒。

在本发明上述实施例提供的语音唤醒方法中，通过提取语音信号的声学特征并获得特征图谱，以特征图谱作为输入，采用神经网络进行处理以得到语音信号中的唤醒词的概率值并相应进行语音唤醒，从而提高了语音唤醒运算效率。

在本发明的一个实施例中，利用神经网络模型对待处理特征图谱进行处理包括：基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱；将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据；利用池化层对多个输出数据进行融合后发送至全连接层进行全连接运算处理。通过上述方法，神经网络模型中的各个卷积层可以进行并行卷积处理，从而使得运算效率更加高效。

在本发明的一个实施例中，在将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据之后，还包括：将多个输出数据更新至池化层缓冲区；利用池化层对池化层缓冲区中的多个输出数据进行融合。通过上述方法，神经网络模型中的卷积层与池化层能够并行处理，从而进一步提高运算效率。

在本发明的一个实施例中，特征子图谱的宽度与第一个卷积层的卷积核的宽度相同，从而减少数据重叠，进一步提高运算效率和运算复杂度。

在本发明的一个实施例中，将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据包括：将特征子图谱更新到第一个卷积层的输入缓冲区中；对于各个卷积层，进行如下操作：对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据；如果本卷积层不是最后一个卷积层，将本卷积层输出数据更新到下一个卷积层的输入缓冲区中。通过上述方法，各个卷积层每次处理的为各自输入缓冲区中的数据，各个卷积层在并行处理的同时也减少了各层的计算复杂度。

在本发明的一个实施例中，池化层为平均池化层。

第三方面，本发明实施例提供一种用于语音唤醒的神经网络模型建立装置，其包括声学特征提取单元，用于提取语音信号中各个帧的声学特征；特征图谱获得单元，用于基于各个帧的声学特征得到语音信号的特征图谱；概率值确定单元，用于将语音信号的特征图谱输入神经网络模型并经过至少一个卷积层、池化层和全连接层的处理，得到语音信号中唤醒词的概率值；校正单元，用于根据唤醒词的概率值与预设值的比较结果对所述神经网络模型的参数进行校正。

在本发明的一个实施例中，概率值确定单元用于：基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱；将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据；利用池化层对多个输出数据进行融合后发送至全连接层进行全连接运算处理。

在本发明的一个实施例中，概率值确定单元在将特征子图谱作为输入数据输入所述卷积层进行并行卷积处理得到多个输出数据之后，还用于：将多个输出数据更新至池化层缓冲区；利用池化层对池化层缓冲区中的多个输出数据进行融合。

在本发明的一个实施例中，特征子图谱的宽度与第一个卷积层的卷积核的宽度相同。

在本发明的一个实施例中，神经网络模型的卷积层依次包括：一个标准卷积层；至少一个深度可分离卷积神经网络DS-CNN层。

在本发明的一个实施例中，用于语音唤醒的神经网络模型建立装置基于下式确定池化层缓冲区宽度BufferW_pool：

其中：F为整数变量，W_s为标准卷积层的卷积核的宽度，StepW_s为标准卷积层的宽度步长，W_i为第i个DS-CNN层的卷积核宽度，λ为DS-CNN层的数量。在该实施例中，用于语音唤醒的神经网络模型建立装置还基于下式确定池化层缓冲区高度BufferH_pool：

在本发明的一个实施例中，概率值确定单元将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据包括：将特征子图谱更新到第一个卷积层的输入缓冲区中；对于各个卷积层，进行如下操作：对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据；如果本卷积层不是最后一个卷积层，将本卷积层输出数据更新到下一个卷积层的输入缓冲区中。

在本发明的一个实施例中，对于第一个卷积层，用于语音唤醒的神经网络模型建立装置基于下式确定其缓冲区宽度BufferW₁：BufferW₁＝W₁；其中W₁为第一个卷积层的卷积核宽度。在该实施例中，用于语音唤醒的神经网络模型建立装置还基于下式确定第一个卷积层的缓冲区高度BufferH₁：BufferH₁＝H_input；其中H_input为特征子图谱的高度。

在本发明的一个实施例中，对于第二个至最后一个卷积层，用于语音唤醒的神经网络模型建立装置基于下式确定该卷积层的缓冲区宽度BufferW：BufferW＝W；其中W为该卷积层的卷积核宽度。在该实施例中，用于语音唤醒的神经网络模型建立装置还基于下式确定该卷积层的缓冲区高度BufferH：BufferH＝H_output；其中H_output为上一个卷积层的输出数据的高度。

在本发明的一个实施例中，池化层为平均池化层。

在本发明的一个实施例中，声学特征提取单元用于基于第一窗长以及第一步长，确定语音信号中的一个或多个当前帧；提取一个或多个当前帧的声学特征。

在本发明的一个实施例中，特征图谱获取单元用于基于下式对各个帧的声学特征进行规整，以获取各个帧的经规整的声学特征：

其中：t表示该帧在时域的索引，f表示该帧的频域特征，E(t，f)表示该帧在时域索引t及频域特征f所对应的滤波器组能量，M(t，f)表示该帧在时域索引t及频域特征f所对应的平滑能量，其中，M(t，f)基于下式获得：M(t,f)＝(1-s)M(t-1,f)+sE(t,f)，其中，s表示平滑系数，M(t-1,f)表示该帧的上一帧所对应的平滑能量，γ，α，δ，∈分别表示常量参数；基于各个帧的经规整的声学特征，确定所述语音信号的特征图谱。

第四方面，本发明实施例提供一种利用神经网络模型进行语音唤醒的装置，其中，神经网络模型包括至少一个卷积层，一个池化层，以及一个全连接层，该神经网络模型已利用如第三方面中任一实施例所述的装置建立。该利用神经网络模型进行语音唤醒的装置其特征在于，包括：接收单元，用于接收用户输入的语音信号；声学特征提取单元，用于提取语音信号的当前一个或多个帧的声学特征；特征图谱获取单元，用于基于声学特征得到语音信号的待处理特征图谱；概率值确定单元，用于利用神经网络模型对待处理特征图谱进行处理以确定唤醒词概率值；唤醒单元，用于基于唤醒词概率值，确定是否进行语音唤醒。

在本发明的一个实施例中，概率值确定单元用于基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱；将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据；利用池化层对多个输出数据进行融合后发送至全连接层进行全连接运算处理。

在本发明的一个实施例中，概率值确定单元将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据之后，还用于将多个输出数据更新至池化层缓冲区；利用池化层对池化层缓冲区中的多个输出数据进行融合。

在本发明的一个实施例中，神经网络模型中的卷积层依次包括一个标准卷积层；至少一个深度可分离卷积神经网络DS-CNN层。

在本发明的一个实施例中，概率值确定单元将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据包括：将输入数据更新到第一个卷积层的输入缓冲区中；对于各个卷积层，进行如下操作：对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据；如果本卷积层不是最后一个卷积层，将本卷积层输出数据更新到下一个卷积层的输入缓冲区中。

在本发明的一个实施例中，池化层为平均池化层。

第五方面，提供了一种介质，该介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第一方面或第二方面中任一实施例的方法。

在本发明实施方式的第六方面中，提供了一种计算设备，包括处理单元、存储器以及输入/输出(In/Out，I/O)接口；存储器，用于存储处理单元执行的程序或指令；处理单元，用于根据存储器存储的程序或指令，执行第一方面或第二方面中任一实施例的方法；I/O接口，用于在处理单元的控制下接收或发送数据。

本发明的实施方式提供的技术方案，通过提取语音信号的声学特征并获得特征图谱，以特征图谱作为输入，采用神经网络进行处理以得到语音信号中的唤醒词的概率值，从而降低了对训练数据量的要求，在降低计算复杂度的同时提高了运算效率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施例涉及的用于语音唤醒的神经网络模型建立方法的流程示意图；

图2示意性地示出了根据本发明实施例涉及的用于语音唤醒的神经网络模型建立方法的数据流图；

图3示意性地示出了根据本发明实施例涉及的对于声学特征进行规整处理前后所得到的特征图谱对比示意图；

图4示意性地示出了根据本发明实施例涉及的用于语音唤醒的神经网络模型建立方法的一个优选实施例的流程示意图；

图5示意性地示出了根据本发明实施例涉及的一种利用神经网络模型进行语音唤醒的方法的流程示意图；

图6示意性地示出了根据本发明实施例涉及的一种用于语音唤醒的神经网络模型建立装置的结构示意图；

图7示意性地示出了根据本发明实施例涉及的一种利用神经网络模型进行语音唤醒的装置的结构示意图；

图8示意性地示出了本发明实施例涉及的一种介质的结构示意图；

图9示意性地示出了本发明实施例涉及的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了神经网络模型建立方法及语音唤醒方法、介质、装置和设备的方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的几个概念的含义如下：

语音唤醒是一种语音交互技术，有时也称为关键词检测(Keyword spotting)，也即在连续不断的语音中将目标关键词，或称唤醒词检测出来，并执行给定动作或给出指定响应。

唤醒词指在语音唤醒中用于唤醒的关键词。

帧指语音信号中的一个短段，其时长为例如10ms至30ms。

声学特征指语音信号的频率特性。声学特征的类型包括但不限于梅尔频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient)或对数域的梅尔频率特征(FilterBank)或原始梅尔频率特征等等。

特征图谱指由语音信号中所包含各个帧的声学特征按时序依次排列所形成的图，其可视为一幅二维图像。

神经网络模型是一种运算模型，由节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，也称激励函数，每两个节点间的连接代表一个对于通过该连接信号的加权值。神经网络模型的输出则依神经网络的连接方式，权值和激励函数的不同而不同。

建立神经网络模型是指在对神经网络模型训练过程中对神经网络的参数进行调整，以达到改善系统行为的目的。

卷积层、池化层、全连接层为卷积神经网络中的构成要素。卷积层用于对数据进行卷积操作。池化层用于对数据进行采样压缩操作。全连接层可连接所有特征，并通过分类器得到输出值。

上述概念均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的语音唤醒技术存在的训练过程复杂且运算效率低等问题。为了克服现有技术存在的问题，本发明中提出神经网络模型建立方法及语音唤醒方法、装置、介质和设备。本方案方法包括：

1.一种用于语音唤醒的神经网络模型建立方法，其中，神经网络模型包括至少一个卷积层、一个池化层和一个全连接层，该方法包括：提取语音信号中各个帧的声学特征；基于各个帧的声学特征得到语音信号的特征图谱；将语音信号的特征图谱输入神经网络模型并经过至少一个卷积层、池化层和全连接层的处理，得到语音信号中唤醒词的概率值；根据唤醒词的概率值与预设值的比较结果对神经网络模型的参数进行校正。

2.一种利用神经网络模型进行语音唤醒的方法，其中，神经网络模型包括至少一个卷积层，一个池化层，以及一个全连接层，该神经网络模型已按照上述用于语音唤醒的神经网络模型建立方法来建立。该利用神经网络模型进行语音唤醒的方法包括：接收用户输入的语音信号；提取语音信号的当前一个或多个帧的声学特征；基于声学特征得到语音信号的待处理特征图谱；利用神经网络模型对待处理特征图谱进行处理以确定唤醒词概率值；基于唤醒词概率值，确定是否进行语音唤醒。

本发明方案通过提取语音信号的声学特征并获得特征图谱，以特征图谱作为输入，采用神经网络进行处理以得到语音信号中的唤醒词的概率值，从而降低了对训练数据量的要求，在降低计算复杂度的同时提高了运算效率。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

本发明实施例可以应用于神经网络模型的建立以及语音唤醒。本发明实施例所提供的技术方案适用于各种计算设备，例如服务器、电脑等。并且由于本发明实施例的技术方案降低了对训练数据量的要求，在减低计算复杂度的同时提高了语音唤醒运算效率，因此本发明实施例的技术方案也适用于个人终端设备，例如移动电话和具有移动终端设备的计算机等。

示例性方法

下面结合上文所示的应用场景，参考图1至图4来描述根据本发明第一方面示例性实施方式的用于语音唤醒的神经网络模型建立方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

本发明实施例提供了一种用于语音唤醒的神经网络模型建立方法，本方法中所使用的神经网络模型包括至少一个卷积层，一个池化层，以及一个全连接层。如图1所示，该方法包括：

S101：提取语音信号中各个帧的声学特征。

S102：基于各个帧的声学特征得到上述语音信号的特征图谱。

S103：将上述语音信号的特征图谱输入神经网络模型并经过至少一个卷积层、一个池化层和一个全连接层的处理，得到语音信号中唤醒词的概率值。

S104：根据上述唤醒词的概率值与预设值的比较结果对该神经网络模型的参数进行校正。

如图1所示，首先在步骤S101及S102中将提取语音信号中各个帧的声学特征，并基于各个帧的声学特征得到上述语音信号的特征图谱。然后在步骤S103中将该语音信号的特征图谱输入神经网络模型进行处理，得到该语音信号中唤醒词的概率值。接着在步骤S104中将根据上述唤醒词的概率值与预设阈值的比较结果对该神经网络模型的参数进行校正。

图2示出本实施例中用于语音唤醒的神经网络模型建立方法的数据流图。如上文所述，对于特定语音信号，在执行步骤S101及S102后将得到该语音信号的特征图谱。然后将该特征图谱输入神经网络模型进行处理，从而得到该语音信号中唤醒词的概率值。最后还将根据唤醒词的概率值与预设值的比较结果对神经网络模型的参数进行校正。

如图2中所示，神经网络模型为分层结构，在本实施例中所使用的神经网络模型包括至少一个卷积层、一个池化层和一个全连接层。

图1及图2所示的方法中，通过提取语音信号的声学特征并获得特征图谱，以特征图谱作为输入，采用神经网络模型进行处理以得到语音信号中的唤醒词的概率值，从而简化了神经网络模型建立和运算流程，提高了运算效率，并且对神经网络模型的训练数据量的要求也大大降低。

在一个优选实施例中，神经网络模型中的卷积层依次包括一个标准卷积层SCN(Standard Convolution Network)和至少一个深度可分离卷积神经网络DS-CNN(DepthWise Separable Convolution Neural Network)层。每个DS-CNN层中可包含一个深度(DepthWise)卷积层和一个点(PointWise)卷积层。

优选地，该神经网络模型中依次包括至少一个卷积层、一个池化层和一个全连接层。优选地，神经网络模型中的池化层为平均池化层。以下将对本发明实施例中所涉及的各个步骤进行进一步描述。

如上文所述，S101中将提取语音信号中各个帧的声学特征。此处，声学特征的类型包括但不限于梅尔频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient)或对数域的梅尔频率特征(FilterBank)或原始梅尔频率特征等等。声学特征可以用一个N维向量来表示，其中N表示所提取的声学特征的特征数。需要说明的是，上述对于声学特征的说明仅为举例，其他现有的或今后可能出现的声学特征如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。本领域技术人员应理解将声学特征用向量N来表示仅为举例以便于描述，而不具有任何限制含义。

步骤S101中提取声学特征的方法可有多种。在一个实施例中，可以首先将语音信号进行分帧处理，然后分别提取各个帧的声学特征。优选地，可以首先基于第一窗长以及第一步长，确定该语音信号中的一个或多个当前帧，然后提取这些当前帧的声学特征。例如，假定第一窗长为25ms，第一步长为10ms，并假定前一次已提取语音信号中的第75-99ms段中的各个帧的声学特征。则基于第一窗长以及第一步长，可将第85-109ms段中的各个帧确定为当前帧，然后相应地提取这些帧的声学特征。

接着在步骤S102中将基于各个帧的声学特征得到语音信号的特征图谱。如前文所描述，特征图谱指由语音信号中所包含的各个帧的声学特征按时序依次排列所形成的图。由于声学特征可用向量N来表示，因此特征图谱可视为由多个向量N按时序依次排列所组成的二维图像T*N。本领域技术人员应理解将特征图谱用二维图像T*N来表示仅为举例以便于描述，而不具有任何限制含义。

步骤S102中获取特征图谱的方法可有多种。在一个实施例中，可以首先按照步骤S101所描述的方式来完成对语音信号中的各个帧的声学特征的提取，然后再执行步骤S102从而将各个声学特征向量N按时序依次拼接形成特征图谱T*N。在另一个实施例中，步骤S101和步骤S102可以并行处理。例如，步骤S101中基于第一窗长25ms以及第一步长10ms，每次提取当前25ms段中的各个帧的声学特征。步骤S101不断执行，同时步骤S102也并行不断执行，从而每当在步骤S101中提取到声学特征向量N后，步骤S102即可立即按时序将其拼接到特征图谱中。

在一个优选实施例中，在步骤S102中还将基于下式对各个帧的声学特征进行规整，以获取各个帧的经规整的声学特征：

其中：

t表示帧在时域的索引，

f表示该帧的频域特征，

E(t，f)表示该帧在时域索引t及频域特征f所对应的滤波器组能量，

M(t，f)表示该帧在时域索引t及频域特征f所对应的平滑能量，其中，M(t，f)基于下式获得：

M(t,f)＝(1-s)M(t-1,f)+sE(t,f)，其中，s表示平滑系数，M(t-1,f)表示该帧的上一帧所对应的平滑能量，

γ，α，δ，∈分别表示常量参数。

图3示出由经规整前及经规整后的声学特征所分别形成的特征图谱的对比图。如图3所示，对声学特征进行上述规整处理后，由于借助了语音的历史信息来规整当前帧语音的声学特征，从而加强了有效语音的成分，并同时弱化平稳噪声的成分。这一方式能够提升系统在有噪环境下的鲁棒性，从而更加适应于远场环境下的使用。

接下来对步骤S103进行描述。

在步骤S103中，语音信号的特征图谱将被输入神经网络模型并经过至少一个卷积层、一个池化层和一个全连接层的处理，从而得到语音信号中唤醒词的概率值。此处，唤醒词的概率值是指语音信号中包含唤醒词的概率。例如，该概率值可以用得分来表示，较高的得分意味着该语音信号中包含唤醒词的概率较大。在一个实施例中，语音信号的特征图谱将依次经过上述至少一个卷积层、一个池化层和一个全连接层的处理。

在一个实施例中，步骤S101、S102、S103将顺序串行执行。也即首先将执行步骤S101及步骤S102获得语音信号的完整特征图谱，然后再执行步骤S103以将该完整的特征图谱输入神经网络模型进行处理以得到唤醒词的概率值。

在一个实施例中，步骤S101、S102及S103将并行执行。例如，如上文所述，步骤S101、S102可以并行执行，步骤S102逐次将由步骤S101中提取到的声学特征向量N按时序拼接到特征图谱中。同时，步骤S103将不断获取最新的特征图谱，并将其输入神经网络模型进行处理。

步骤S103的一个优选实施例中包括：

步骤S1031(图1中未示出)：基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱；

步骤S1032(图1中未示出)：将上述特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据，本实施例中的卷积层优选为可分离卷积层；

步骤S1033(图1中未示出)：利用池化层对上述多个输出数据进行融合后发送至全连接层进行全连接运算处理。

具体地，步骤S1031中基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱的方式可有多种。例如，假定第一个卷积层的卷积核宽度为3，可将特征子图谱的宽度设定为其数倍，例如10倍，则可从特征图谱中按时序依次取出尚未被处理的前30个声学特征向量N组成特征子图谱。优选地，特征子图谱的宽度将与第一个卷积层的卷积核宽度相同，按照这一方式，第一个卷积层在宽度方向上的重叠计算得以避免，从而减少了计算量。

在步骤S1032中，将特征子图谱作为输入数据输入各个卷积层以得到输出数据，此处各个卷积层之间将并行处理。例如，每一个卷积层可以将本层处理结果不断地发送给下一个卷积层，同时下一个卷积层不断获取这些新数据并进行本层处理。

进一步地，步骤S1032的一个优选实施例中包括以下步骤：

S10321(图1中未示出)：将特征子图谱更新到第一个卷积层的输入缓冲区中；

S10322(图1中未示出)：各个卷积层对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据；

S10323(图1中未示出)：如果本卷积层不是最后一个卷积层，将本卷积层输出数据更新到下一个卷积层的输入缓冲区中。

在上述优选实施例中，各个卷积层分别设置了输入缓冲区。因此，每一个卷积层可以将本层处理结果不断地更新到下一个卷积层的输入缓冲区，同时下一个卷积层可以不断从本层输入缓冲区中获取新数据并进行本层处理。此处，在将数据更新至缓冲区时，可采用先入先出的原则。例如每次将最新的数据按时序加入缓冲区末尾，并将缓冲区前端按时序最旧的数据删除。在后文结合图4进行描述时，还将对这一并行处理的方式进行描述。

优选地，将基于下式确定第一个卷积层的缓冲区宽度BufferW₁：BufferW₁＝W₁，其中W₁为第一个卷积层的卷积核宽度。并将基于下式确定第一个卷积层的缓冲区高度BufferH₁：BufferH₁＝H_input，其中H_input为特征子图谱的高度。也即，优选地，第一个卷积层的缓冲区宽度等于该卷积层的卷积核宽度，高度等于特征子图谱的高度。按照这一方式，第一个卷积层在宽度方向上的重叠计算得以避免，从而减少了计算量。

优选地，对于第二个至最后一个卷积层，将基于下式确定该卷积层的缓冲区宽度BufferW：BufferW＝W，其中W为该卷积层的卷积核宽度。并将基于下式确定该卷积层的缓冲区高度BufferH：BufferH＝H_output，其中H_output为该卷积层的上一个卷积层的输出数据的高度。也即，优选地，该卷积层的缓冲区宽度等于该卷积层的卷积核宽度，高度等于上一个卷积层的输出数据的高度。按照这一方式，上述各卷积层在宽度方向上的重叠计算得以避免，从而减少了计算量。

在执行步骤S1032得到多个输出数据之后，将执行步骤S1033来利用池化层对多个输出数据进行融合后发送至全连接层进行全连接运算处理。例如，假设卷积层有64个通道，则池化层将每个通道的输出数据融合为一个值，从而得到一个64维的向量。在本发明方案中，池化层可以为最大池化层、最小池化层等。优选地，池化层为平均池化层。池化层将所得到的多个输出数据，例如该64维的向量发送至全连接层。接着，全连接层将执行全连接运算得到唤醒词得分，然后进行例如softmax操作来将该得分转换到0～1范围，从而得到该语音信号中出现唤醒词的概率值。

在一个优选实施例中，在池化层中设置了缓冲区。在该实施例中，卷积层在执行步骤S1032之后，还将执行以下步骤：S103A(图1中未示出)：将卷积层处理后得到的多个输出数据更新至池化层缓冲区；池化层则将执行步骤S103B(图1中未示出)：利用池化层对池化层缓冲区中的多个输出数据进行融合。在该实施例中，卷积层和池化层可同时并行处理。卷积层可例如采用先入先出原则，将最新的输出数据按时序加入池化层缓冲区末尾，并将池化层缓冲区前端时序最旧的数据删除。同时，一旦池化层缓冲区被更新，池化层则从该缓冲区中获取最新数据，将其进行融合处理后发送至全连接层进行全连接运算处理。按照这样的方式，卷积层与池化层不断并行处理得出语音信号中各段包含唤醒词的概率值，从而进一步提高了计算效率。

在一个优选实施例中，卷积层依次包括标准卷积层和至少一个DS-CNN层，并将基于下式确定池化层缓冲区宽度BufferW_pool：

其中：F为整数变量，W_s为标准卷积层的卷积核的宽度，StepW_s为标准卷积层的宽度步长，W_i为第i个DS-CNN层的卷积核宽度，λ为DS-CNN层的数量。并将基于下式确定所述池化层缓冲区高度BufferH_pool：

其中：H_input为所述特征图谱的高度，StepH_s为标准卷积层的高度步长。

接下来在步骤S104中，将根据唤醒词的概率值与预设值的比较结果来对神经网络模型的参数进行校正。例如，可以预先对语音信号进行人工标注，如其包含唤醒词则将预设值置为1，否则置为0。在步骤S103中所确定的唤醒词的概率值可先与预定概率阈值进行比较，例如，当高于概率阈值时结果为1，低于概率阈值时结果为0。然后将该结果与人工标注的预设值进行比较，如果两者一致则说明本次识别唤醒词正确。当两者不一致时则将进行误差反向传导，以对该神经网络模型的参数进行校正。

应注意的是，本方法步骤S101、S102、S103至S104可以多次执行从而逐渐校正神经网络模型的参数，直至经由该神经网络模型处理后所得到的唤醒词概率值与预设值之间的误差足够小，也即该神经网络模型实现了唤醒率足够高并且误唤醒率足够低。

以下结合图4说明本方法的一个优选实施例。在本实施例中，如图4所示，该神经网络模型中的各个卷积层以及池化层均设置了各自的缓冲区。在该实施例中，步骤S101、S102直至S103为并行执行，并且神经网络模型中各个卷积层、池化层、全连接层之间的处理也为并行。

如图4所示，在步骤S101中，将提取语音信号中各个帧的声学特征。假定在本实施例中，将基于第一窗长(假定为25ms)以及第一步长(假定为10ms)，每次提取语音信号当前25ms段中的各个帧的声学特征。并且假定语音信号的第0-74ms段的声学特征已被提取。则在步骤S101中将首先确定出该语音信号中的当前帧为第60-84ms段中的帧为当前帧，并相应提取出这些帧的声学特征。步骤S101将不断执行，从而继续提取语音信号后续段(例如第70-94ms段、第80-94ms段等等)中的帧的声学特征，直至该语音信号中所有帧的声学特征均已被提取完成。

在步骤S101反复执行的同时，步骤S102将同步执行从而不断将新提取的声学特征按时序依次拼接到特征图谱中。

同时，步骤S103也在并行执行。在本例中步骤S103中包含步骤S1031、S10321、S10322、S10323、S103A、S103B以及S1033。如图4所示，在特征图谱被不断拼接更新的同时，将执行步骤S1031以不断地从该特征图谱中获取尚未被处理的特征子图谱。然后在步骤S10321中，将该特征子图谱加入到第一个卷积层的输入缓冲区末尾，并将该缓冲区前端时序最旧的特征子图谱删除。同时，每个卷积层以及池化层也在并行处理。各个卷积层将执行步骤S1032来处理本层输入缓冲区中的数据，并执行步骤S10323来将最新的输出数据按时序加入到下一个卷积层的输入缓冲区末尾，并将该缓冲区前端时序最旧的数据删除。对于最后一个卷积层，则执行步骤S103A来将本层输出数据更新到池化层缓冲区末尾，并将该缓冲区前端时序最旧的数据删除。同时，池化层也将并行执行步骤S103B来对池化层缓冲区中的最新数据进行融合处理，并执行步骤S1033来将融合后的数据发送至全连接层进行全连接运算以得到唤醒词的概率值。如上文所述，步骤S101、S102将反复执行以不断拼接更新特征子图谱，上述各个步骤也将反复执行从而得出该语音信号各个段中是否包含唤醒词的概率值。

在本实施例中，最后，步骤S104也将反复执行以根据唤醒词的概率值与预设值的比较结果来对神经网络模型的参数不断进行校正，从而逐渐提高唤醒成功率，降低误唤醒率。

在图4所示的方法中，从提取语音信号的声学特征并获得特征图谱，到卷积层、池化层、全连接层均采用并行方式进行处理，这一端到端流式处理方式进一步提高了运算效率，提升了用户体验。

接下来，将结合上文所示的应用场景，参考图5来描述根据本发明第二方面示例性实施方式的利用神经网络模型进行语音唤醒的方法。本方法中所使用的神经网络模型包括至少一个卷积层，一个池化层，以及一个全连接层，该神经网络模型已按照如上文所述的用于语音唤醒的神经网络模型建立方法建立。需要注意的是，上文中对于应用场景的描述仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

本发明第二方面的实施例提供了一种利用神经网络模型进行语音唤醒的方法，如图5所示，该方法包括：

S501：接收用户输入的语音信号。

S502：提取上述语音信号的当前一个或多个帧的声学特征。

S503：基于上述声学特征得到该语音信号的待处理特征图谱。

S504：利用神经网络模型对上述待处理特征图谱进行处理以确定唤醒词概率值。

S505：基于上述唤醒词概率值，确定是否进行语音唤醒。

如图5所示，首先在步骤S501中将接收用户输入的语音信号。例如，可以实时地接收用户的语音输入。然后在步骤S502中，按照如上文所描述的步骤S101类似的方法，将提取该语音信号中当前各个帧的声学特征，然后在步骤S503中，按照如上文所描述的步骤S102类似的方法，将基于各个帧的声学特征得到该语音信号的特征图谱。接着在步骤S504中，按照如上文所描述的步骤S103类似的方法，将利用神经网络模型对该特征图谱进行处理以确定唤醒词概率值。最后在步骤S505中将基于该唤醒词概率值，确定是否进行语音唤醒。例如，唤醒词概率值可与预定概率阈值进行比较，当高于概率阈值时将确定进行语音唤醒，反之，当低于概率阈值时将确定不进行语音唤醒。

优选地，该神经网络模型中依次包括至少一个卷积层、一个池化层和一个全连接层。优选地，神经网络模型中的池化层为平均池化层。

步骤S504的一个优选实施例中包括：

步骤S5041(图5中未示出)：基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱。

步骤S5042(图5中未示出)：将该特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据。

步骤S5043(图5中未示出)：利用池化层对上述多个输出数据进行融合后发送至全连接层进行全连接运算处理。

由于上述步骤与上文所描述的方法步骤S1031、S1032、及S1033采用类似的工作方式，因此此处不再赘述。

优选地，特征子图谱的宽度与第一个卷积层的卷积核的宽度相同。

优选地，步骤S5042包括以下各个步骤：

S50421(图5中未示出)：将特征子图谱更新到第一个卷积层的输入缓冲区中；

S50422(图5中未示出)：各个卷积层对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据；

S50423(图5中未示出)：如果本卷积层不是最后一个卷积层，将本卷积层输出数据更新到下一个卷积层的输入缓冲区中。

由于上述步骤与上文所描述的方法步骤S10321、S10322、及S10323采用类似的工作方式，因此此处不再赘述。

图5所示的方法中，通过提取语音信号的声学特征并获得特征图谱，以特征图谱作为输入，采用神经网络进行处理以得到语音信号中的唤醒词的概率值并相应地进行唤醒，从而提高了运算效率以及唤醒成功率，提升了用户体验。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，介绍本发明提供的示例性实施的装置。本发明第三方面提供的用于语音唤醒的神经网络模型建立装置如图6所示，其可以实现图1对应的实施例所提供的方法。本发明第四方面提供的利用神经网络模型进行语音唤醒的装置如图7所示，其可以实现图5对应的实施例所提供的方法。

参见图6，本发明提供的用于语音唤醒的神经网络模型建立装置600包括声学特征提取单元601、特征图谱获得单元602、概率值确定单元603、校正单元604。其中，

声学特征提取单元601，用于提取语音信号中各个帧的声学特征；

特征图谱获得单元602，用于基于各个帧的声学特征得到语音信号的特征图谱；

概率值确定单元603，用于将语音信号的特征图谱输入神经网络模型并经过至少一个卷积层、池化层和全连接层的处理，得到语音信号中唤醒词的概率值；

校正单元604，用于根据唤醒词的概率值与预设值的比较结果对神经网络模型的参数进行校正。

可选的，概率值确定单元603用于基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱；将该特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据；利用池化层对上述多个输出数据进行融合后发送至全连接层进行全连接运算处理。

可选的，概率值确定单元603在将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据之后，还用于将多个输出数据更新至池化层缓冲区；利用池化层对池化层缓冲区中的多个输出数据进行融合。

可选的，特征子图谱的宽度与第一个卷积层的卷积核的宽度相同。

可选的，神经网络模型中的卷积层依次包括：一个标准卷积层和至少一个深度可分离卷积神经网络DS-CNN层。

可选的，用于语音唤醒的神经网络模型建立装置600将基于下式确定池化层缓冲区宽度BufferW_pool：

其中：F为整数变量，W_s为标准卷积层的卷积核的宽度，StepW_s为标准卷积层的宽度步长，W_i为第i个DS-CNN层的卷积核宽度，λ为DS-CNN层的数量。用于语音唤醒的神经网络模型建立装置600并将基于下式确定池化层缓冲区高度BufferH_pool：

可选的，概率值确定单元603将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据的处理包括：

将特征子图谱更新到第一个卷积层的输入缓冲区中；

对于各个卷积层，进行如下操作：对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据；如果本卷积层不是最后一个卷积层，将本卷积层输出数据更新到下一个卷积层的输入缓冲区中。

可选的，用于语音唤醒的神经网络模型建立装置600将基于下式确定第一个卷积层的缓冲区宽度BufferW₁：BufferW₁＝W₁，其中W₁为第一个卷积层的卷积核宽度。用于语音唤醒的神经网络模型建立装置600并将基于下式确定第一个卷积层的缓冲区高度BufferH₁：BufferH₁＝H_input，其中H_input为特征子图谱的高度。

可选的，对于第二个至最后一个卷积层，用于语音唤醒的神经网络模型建立装置600将基于下式确定该卷积层的缓冲区宽度BufferW：BufferW＝W，其中W为该卷积层的卷积核宽度。用于语音唤醒的神经网络模型建立装置600并将基于下式确定该卷积层的缓冲区高度BufferH：BufferH＝H_output，其中H_output为该卷积层的上一个卷积层的输出数据的高度。

可选的，神经网络模型中的池化层为平均池化层。

可选的，学特征提取单元601用于基于第一窗长以及第一步长，确定语音信号中的一个或多个当前帧；提取一个或多个当前帧的声学特征。

可选的，特征图谱获取单元602用于基于下式对各个帧的声学特征进行规整，以获取所述各个帧的经规整的声学特征：

其中：t表示帧在时域的索引，f表示帧的频域特征，E(t，f)表示帧在时域索引t及频域特征f所对应的滤波器组能量，M(t，f)表示帧在时域索引t及频域特征f所对应的平滑能量，其中，M(t，f)基于下式获得：

M(t,f)＝(1-s)M(t-1,f)+sE(t,f)，其中，s表示平滑系数，M(t-1,f)表示该帧的上一帧所对应的平滑能量，γ，α，δ，∈分别表示常量参数。

参见图7，本发明第四方面提供的利用神经网络模型进行语音唤醒的装置700包括接收单元701、声学特征提取单元702、特征图谱获得单元703、概率值确定单元704、唤醒单元705。其中，

接收单元701，用于接收用户输入的语音信号；

声学特征提取单元702，用于提取语音信号的当前一个或多个帧的声学特征；

特征图谱获得单元703，用于基于声学特征得到语音信号的待处理特征图谱；

概率值确定单元704，用于利用神经网络模型对待处理特征图谱进行处理以确定唤醒词概率值；

唤醒单元705，用于基于唤醒词概率值，确定是否进行语音唤醒。

可选的，概率值确定单元704用于基于第一个卷积层的参数得到特征图谱中尚未被处理的特征子图谱；将特征子图谱作为输入数据输入所述卷积层进行并行卷积处理得到多个输出数据；利用池化层对多个输出数据进行融合后发送至全连接层进行全连接运算处理。

可选的，概率值确定单元704将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据之后，还用于将多个输出数据更新至池化层缓冲区；利用池化层对池化层缓冲区中的多个输出数据进行融合。

可选的，神经网络模型中的卷积层依次包括：一个标准卷积层；至少一个深度可分离卷积神经网络DS-CNN层。

可选的，概率值确定单元704将特征子图谱作为输入数据输入卷积层进行并行卷积处理得到多个输出数据的处理包括：

将特征子图谱更新到第一个卷积层的输入缓冲区中；

对于各个卷积层，进行如下操作：对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据；如果本卷积层不是神经网络模型中的最后一个卷积层，将卷积层输出数据更新到下一个卷积层的输入缓冲区中。

可选的，神经网络模型中的池化层为平均池化层。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图8，本发明提供了一种示例性介质，该介质存储有计算机可执行指令，该计算机可执行指令可用于使所述计算机执行图1或图5对应的本发明示例性实施方式中任一项所述的方法。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图9，介绍本发明提供的一种示例性计算设备90，该计算设备90包括处理单元901、存储器902、总线903、外部设备904、I/O接口905以及网络适配器906，该存储器902包括随机存取存储器(random access memory，RAM)9021、高速缓存存储器9022、只读存储器(Read-OnlyMemory，ROM)9023以及至少一片存储单元9024构成的存储单元阵列9025。其中该存储器902，用于存储处理单元901执行的程序或指令；该处理单元901，用于根据该存储器902存储的程序或指令，执行图1或图5对应的本发明示例性实施方式中任一项所述的方法；该I/O接口905，用于在该处理单元901的控制下接收或发送数据。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种用于语音唤醒的神经网络模型建立方法，其中，所述神经网络模型包括至少一个卷积层、一个池化层和一个全连接层，所述方法包括：

提取语音信号中各个帧的声学特征；

基于所述各个帧的声学特征得到所述语音信号的特征图谱；

将所述语音信号的特征图谱输入所述神经网络模型并经过所述至少一个卷积层、所述一个池化层和所述一个全连接层的处理，得到所述语音信号中唤醒词的概率值，所述至少一个卷积层以及一个池化层分别设置有输入缓冲区，其中包括：

第一个卷积层的缓冲区宽度等于该卷积层的卷积核宽度，高度等于所述特征图谱的高度；

其余卷积层的缓冲区宽度等于该卷积层的卷积核宽度，高度等于上一个卷积层的输出数据的高度；

根据所述唤醒词的概率值与预设值的比较结果对所述神经网络模型的参数进行校正。

2.根据权利要求1所述的方法，其特征在于，将所述语音信号的特征图谱输入所述神经网络模型并经过所述至少一个卷积层、所述一个池化层和所述一个全连接层的处理，包括：

基于所述至少一个卷积层中的第一个卷积层的参数得到所述特征图谱中尚未被处理的特征子图谱；

将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据；

利用所述池化层对所述多个输出数据进行融合后发送至所述全连接层进行全连接运算处理。

3.根据权利要求2所述的方法，其特征在于，在将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据之后，还包括：

将所述多个输出数据更新至所述池化层缓冲区；

利用所述池化层对所述池化层缓冲区中的所述多个输出数据进行融合。

4.根据权利要求2所述的方法，其特征在于所述特征子图谱的宽度与所述第一个卷积层的卷积核的宽度相同。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述至少一个卷积层依次包括：

一个标准卷积层；

至少一个深度可分离卷积神经网络DS-CNN层。

6.根据权利要求5所述的方法，其特征在于，基于下式确定所述池化层缓冲区宽度BufferW_pool：

其中：

F为整数变量，

W_s为标准卷积层的卷积核的宽度，

StepW_s为标准卷积层的宽度步长，

W_i为第i个DS-CNN层的卷积核宽度，

λ为DS-CNN层的数量；

基于下式确定所述池化层缓冲区高度BufferH_pool：

其中：

H_input为所述特征图谱的高度，

StepH_s为标准卷积层的高度步长。

7.根据权利要求2至4中任一项所述的方法，其特征在于，将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据包括：

将所述特征子图谱更新到所述至少一个卷积层中的第一个卷积层的输入缓冲区中；

对于所述至少一个卷积层中的各个卷积层，进行如下操作：

对本卷积层的输入缓冲区中的数据进行处理以得到本卷积层输出数据；

如果本卷积层不是所述神经网络模型中的最后一个卷积层，将所述本卷积层输出数据更新到所述神经网络模型中的下一个卷积层的输入缓冲区中。

8.根据权利要求7所述的方法，其特征在于，对于所述至少一个卷积层中的第一个卷积层，基于下式确定所述第一个卷积层的缓冲区宽度BufferW₁：

BufferW₁＝W₁；

其中W₁为所述第一个卷积层的卷积核宽度；

基于下式确定所述第一个卷积层的缓冲区高度BufferH₁：

BufferH₁＝H_input；

其中H_input为所述特征子图谱的高度。

9.根据权利要求7所述的方法，其特征在于，对于所述至少一个卷积层中的第二个至最后一个卷积层，基于下式确定所述卷积层的缓冲区宽度BufferW：

BufferW＝W；

其中W为所述卷积层的卷积核宽度；

基于下式确定所述卷积层的缓冲区高度BufferH：

BufferH＝H_output；

其中H_output为所述卷积层的上一个卷积层的输出数据的高度。

10.根据权利要求1至4中任一项所述的方法，其特征在于，所述池化层为平均池化层。

11.根据权利要求1至4中任一项所述的方法，其特征在于，提取语音信号中各个帧的声学特征包括：

基于第一窗长以及第一步长，确定所述语音信号中的一个或多个当前帧；

提取所述一个或多个当前帧的声学特征。

12.根据权利要求1至4中任一项所述的方法，其特征在于，基于所述各个帧的声学特征得到所述语音信号的特征图谱包括：

基于下式对所述各个帧的声学特征进行规整，以获取所述各个帧的经规整的声学特征：

其中：

t表示所述帧在时域的索引，

f表示所述帧的频域特征，

E(t，f)表示所述帧在时域索引t及频域特征f所对应的滤波器组能量，

M(t，f)表示所述帧在时域索引t及频域特征f所对应的平滑能量，

其中，所述M(t，f)基于下式获得：

M(t,f)＝(1-s)M(t-1,f)+sE(t,f)，其中，s表示平滑系数，M(t-1,f)表示所述帧的上一帧所对应的平滑能量，

γ，α，δ，ε分别表示常量参数；

基于所述各个帧的经规整的声学特征，确定所述语音信号的特征图谱。

13.一种利用神经网络模型进行语音唤醒的方法，其中，所述神经网络模型包括至少一个卷积层，一个池化层，以及一个全连接层，所述神经网络模型已按照如权利要求1至12中任一项所述的方法建立，所述利用神经网络模型进行语音唤醒的方法其特征在于，包括：

接收用户输入的语音信号；

提取所述语音信号的当前一个或多个帧的声学特征；

基于所述声学特征得到所述语音信号的待处理特征图谱；

利用所述神经网络模型对所述待处理特征图谱进行处理以确定唤醒词概率值；

基于所述唤醒词概率值，确定是否进行语音唤醒。

14.根据权利要求13所述的方法，其特征在于，利用所述神经网络模型对所述待处理特征图谱进行处理包括：

15.根据权利要求14所述的方法，其特征在于，在将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据之后，还包括：

将所述多个输出数据更新至所述池化层缓冲区；

16.根据权利要求14所述的方法，其特征在于所述特征子图谱的宽度与所述第一个卷积层的卷积核的宽度相同。

17.根据权利要求13至16中任一项所述的方法，其特征在于，所述至少一个卷积层依次包括：

一个标准卷积层；

至少一个深度可分离卷积神经网络DS-CNN层。

18.根据权利要求14至16中任一项所述的方法，其特征在于，将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据包括：

对于所述至少一个卷积层中的各个卷积层，进行如下操作：

19.根据权利要求13至16中任一项所述的方法，其特征在于，所述池化层为平均池化层。

20.一种用于语音唤醒的神经网络模型建立装置，其中，所述神经网络模型包括至少一个卷积层、一个池化层和一个全连接层，所述装置包括：

声学特征提取单元，用于提取语音信号中各个帧的声学特征；

特征图谱获得单元，用于基于所述各个帧的声学特征得到所述语音信号的特征图谱；

概率值确定单元，用于将所述语音信号的特征图谱输入所述神经网络模型并经过所述至少一个卷积层、所述一个池化层和所述一个全连接层的处理，得到所述语音信号中唤醒词的概率值，所述至少一个卷积层以及一个池化层分别设置有输入缓冲区，其中包括：

校正单元，用于根据所述唤醒词的概率值与预设值的比较结果对所述神经网络模型的参数进行校正。

21.根据权利要求20所述的装置，其特征在于，所述概率值确定单元用于：

22.根据权利要求21所述的装置，其特征在于，所述概率值确定单元在将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据之后，还用于：

将所述多个输出数据更新至所述池化层缓冲区；

23.根据权利要求21所述的装置，其特征在于所述特征子图谱的宽度与所述第一个卷积层的卷积核的宽度相同。

24.根据权利要求20至23中任一项所述的装置，其特征在于，所述至少一个卷积层依次包括：

一个标准卷积层；

至少一个深度可分离卷积神经网络DS-CNN层。

25.根据权利要求24所述的装置，其特征在于，基于下式确定所述池化层缓冲区宽度BufferW_pool：

其中：

F为整数变量，

W_s为标准卷积层的卷积核的宽度，

StepW_s为标准卷积层的宽度步长，

W_t为第i个DS-CNN层的卷积核宽度，

λ为DS-CNN层的数量；

基于下式确定所述池化层缓冲区高度BufferH_pool：

其中：

H_input为所述特征图谱的高度，

StepH_s为标准卷积层的高度步长。

26.根据权利要求21至23中任一项所述的装置，其特征在于，所述概率值确定单元将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据包括：

对于所述至少一个卷积层中的各个卷积层，进行如下操作：

27.根据权利要求26所述的装置，其特征在于，对于所述至少一个卷积层中的第一个卷积层，基于下式确定所述第一个卷积层的缓冲区宽度BufferW₁：

BufferW₁＝W₁；

其中W₁为所述第一个卷积层的卷积核宽度；

基于下式确定所述第一个卷积层的缓冲区高度BufferH₁：

BufferH₁＝H_input；

其中H_input为所述特征子图谱的高度。

28.根据权利要求26所述的装置，其特征在于，对于所述至少一个卷积层中的第二个至最后一个卷积层，基于下式确定所述卷积层的缓冲区宽度BufferW：

BufferW＝W；

其中W为所述卷积层的卷积核宽度；

基于下式确定所述卷积层的缓冲区高度BufferH：

BufferH＝H_output；

29.根据权利要求20至23中任一项所述的装置，其特征在于，所述池化层为平均池化层。

30.根据权利要求20至23中任一项所述的装置，其特征在于，所述声学特征提取单元用于：

提取所述一个或多个当前帧的声学特征。

31.根据权利要求20至23中任一项所述的装置，其特征在于，所述特征图谱获取单元用于：

其中：

t表示所述帧在时域的索引，

f表示所述帧的频域特征，

其中，所述M(t，f)基于下式获得：

γ，α，δ，ε分别表示常量参数；

32.一种利用神经网络模型进行语音唤醒的装置，其中，所述神经网络模型包括至少一个卷积层，一个池化层，以及一个全连接层，所述神经网络模型已利用如权利要求20至31中任一项所述的装置建立，所述利用神经网络模型进行语音唤醒的装置其特征在于，包括：

接收单元，用于接收用户输入的语音信号；

声学特征提取单元，用于提取所述语音信号的当前一个或多个帧的声学特征；

特征图谱获取单元，用于基于所述声学特征得到所述语音信号的待处理特征图谱；

概率值确定单元，用于利用所述神经网络模型对所述待处理特征图谱进行处理以确定唤醒词概率值；

唤醒单元，用于基于所述唤醒词概率值，确定是否进行语音唤醒。

33.根据权利要求32所述的装置，其特征在于，所述概率值确定单元用于：

34.根据权利要求33所述的装置，其特征在于，所述概率值确定单元将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据之后，还用于：

将所述多个输出数据更新至所述池化层缓冲区；

35.根据权利要求33所述的装置，其特征在于所述特征子图谱的宽度与所述第一个卷积层的卷积核的宽度相同。

36.根据权利要求32至35中任一项所述的装置，其特征在于，所述至少一个卷积层依次包括：

一个标准卷积层；

至少一个深度可分离卷积神经网络DS-CNN层。

37.根据权利要求33至35中任一项所述的装置，其特征在于，所述概率值确定单元将所述特征子图谱作为输入数据输入所述至少一个卷积层进行并行卷积处理得到多个输出数据包括：

对于所述至少一个卷积层中的各个卷积层，进行如下操作：

38.根据权利要求32至35中任一项所述的装置，其特征在于，所述池化层为平均池化层。

39.一种介质，其特征在于，所述介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求1至19中任一项所述的方法。

40.一种计算设备，其特征在于，包括处理单元、存储器以及I/O接口；其中

所述存储器，用于存储所述处理单元执行的程序或指令；

所述处理单元，用于根据所述存储器存储的程序或指令，执行权利要求1至19中任一项所述的方法；

所述I/O接口，用于在所述处理单元的控制下接收或发送数据。