CN114399996A

CN114399996A - 处理语音信号的方法、装置、存储介质及系统

Info

Publication number: CN114399996A
Application number: CN202210285070.0A
Authority: CN
Inventors: 王子腾; 纳跃跃; 田彪; 付强
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-03-16
Filing date: 2022-03-23
Publication date: 2022-04-26

Abstract

本发明公开了一种处理语音信号的方法、装置、存储介质及系统。其中，该方法包括：获取待处理的语音信号；将语音信号转换为时频谱信号；对时频谱信号进行卷积混合处理，得到关键词检测结果；基于关键词检测结果对应的控制指令，执行目标控制操作。本发明解决了相关技术中进行关键词检测时的计算复杂度高、检测效率低下的技术问题。

Description

处理语音信号的方法、装置、存储介质及系统

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种处理语音信号的方法、装置、存储介质及系统。

背景技术

在人机语音交互场景中，用户一般需要通过特定的关键词唤醒设备，来开启新的一轮对话交互。因此，关键词检测模块需要在此过程中持续运行，这就要求关键词检测模块在保证性能的前提下，其计算复杂度能够尽可能的低，以获得良好的检测性能。因此，研发高效而轻量的关键词检测模型结构一直是业界关注的方向。

相关方案中，存在大量关于关键词检测模型的研究，例如，基于深度神经网络（Deep Neural Networks，DNN）结构的关键词检测模型、基于卷积神经网络（ConvolutionalNeural Networks，CNN）结构的关键词检测模型以及基于变换器（Transformer）结构的关键词检测模型。然而，现有的关键词检测模型中包括大量的模型参数，在进行关键词检测时的计算量较大，导致模型的检测性能低下。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种处理语音信号的方法、装置、存储介质及系统，以至少解决相关技术中进行关键词检测时的计算复杂度高、检测效率低下的技术问题。

根据本发明实施例的一个方面，提供了一种处理语音信号的方法，包括：获取待处理的语音信号；将语音信号转换为时频谱信号；对时频谱信号进行卷积混合处理，得到关键词检测结果；基于关键词检测结果对应的控制指令，执行目标控制操作。

根据本发明实施例的另一方面，还提供了一种处理语音信号的方法，包括：接收来自于客户端的待处理的语音信号；将语音信号转换为时频谱信号，以及对时频谱信号进行卷积混合处理，得到关键词检测结果；将关键词检测结果反馈至客户端，以使客户端基于关键词检测结果对应的控制指令，执行目标控制操作。

根据本发明实施例的另一方面，还提供了一种处理语音信号的装置，包括：获取模块，用于获取待处理的语音信号；转换模块，用于将语音信号转换为时频谱信号；处理模块，用于对时频谱信号进行卷积混合处理，得到关键词检测结果；执行模块，用于基于关键词检测结果对应的控制指令，执行目标控制操作。

根据本发明实施例的另一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行任意一项上述的处理语音信号的方法。

根据本发明实施例的另一方面，还提供了一种处理语音信号的系统，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取待处理的语音信号；将语音信号转换为时频谱信号；对时频谱信号进行卷积混合处理，得到关键词检测结果；基于关键词检测结果对应的控制指令，执行目标控制操作。

在本发明实施例中，通过获取待处理的语音信号，进而将语音信号转换为时频谱信号，随后对时频谱信号进行卷积混合处理，得到关键词检测结果，最后基于关键词检测结果对应的控制指令，执行目标控制操作。

容易注意到的是，通过本申请实施例，对待处理的语音信号转换为时频谱信号，进而通过对该时频谱信号进行卷积混合处理，获得对语音信号的关键词检测结果，基于关键词检测结果对应的控制指令，能够执行语音信号对应的目标控制操作，实现语音交互控制。

由此，本申请实施例达到了高效准确地检测语音信号中的关键词，从而基于关键词检测结果对应的控制指令，执行目标控制操作的目的，从而实现了降低关键词检测时的计算复杂度、提升检测效率的技术效果，进而解决了相关技术中进行关键词检测时的计算复杂度高、检测效率低下的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现处理语音信号的方法的计算机终端（或移动设备）的硬件结构框图；

图2是根据本发明实施例的一种处理语音信号的方法的流程图；

图3是根据本申请实施例的一种卷积混合关键词检测模型的结构示意图；

图4是根据本发明实施例的一种可选的处理语音信号的方法的流程图；

图5是根据本发明实施例的一种在云端服务器进行处理语音信号的方法示意图；

图6是根据本发明实施例的一种处理语音信号的装置的结构示意图；

图7是根据本发明实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

关键词检测（Keyword Spotting，KWS）：判断给定的语音片段是否包含特定的关键词。

端到端模型：根据输入信号直接输出关键词检测0/1结果的模型。

实施例1

根据本发明实施例，还提供了一种处理语音信号的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现处理语音信号的方法的计算机终端（或移动设备）的硬件结构框图。如图1所示，计算机终端10（或移动设备10）可以包括一个或多个（图中采用102a、102b，……，102n来示出）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口（I/O接口）、通用串行总线（USB）端口（可以作为BUS总线的端口中的一个端口被包括）、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10（或移动设备）中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的处理语音信号的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的处理语音信号的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器（LCD），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备（或移动设备）可以包括硬件元件（包括电路）、软件元件（包括存储在计算机可读介质上的计算机代码）、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备（或移动设备）中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的一种处理语音信号的方法。图2是根据本发明实施例的一种处理语音信号的方法的流程图，如图2所示，该处理语音信号的方法包括：

步骤S22，获取待处理的语音信号；

上述待处理的语音信号可以利用音频组件获取，例如，当本申请实施例的处理语音信号的方法应用于智能音箱时，待处理的语音信号可以通过智能音箱的音频组件获取；当本申请实施例的处理语音信号的方法应用于智能终端时，待处理的语音信号可以通过智能终端的麦克风获取；当本申请实施例的处理语音信号的方法应用于低功耗语音模组时，待处理的语音信号可以通过低功耗语音模组的音频组件获取。

步骤S24，将语音信号转换为时频谱信号；

上述时频谱信号为二维时频谱信号，分别对应时域维度和频域维度。

步骤S26，对时频谱信号进行卷积混合处理，得到关键词检测结果；

上述关键词检测结果为语音信号中的关键词。具体的，关键词内容可以进行灵活预设，设置关键词内容包括“语音助手”、“智能音箱”等控制操作的执行客体，或者还包括“唤醒”、“播放”、“暂停”、“切换”等控制操作。当语音信号中存在该执行客体对应的关键词时，能够通过对语音信号对应的时频谱信号进行卷积混合处理，得到关键词检测结果，其中，检测结果中包括执行客体对应的关键词。当语音信号中存在该控制操作对应的关键词时，能够通过对语音信号对应的时频谱信号进行卷积混合处理，得到关键词检测结果，其中，检测结果中包括控制操作对应的关键词。

步骤S28，基于关键词检测结果对应的控制指令，执行目标控制操作。

例如，当关键词检测结果为“语音助手”，对应的控制指令为唤醒指令，目标控制操作为唤醒操作，则能够基于关键词检测结果执行对于“语音助手”的唤醒操作。

又例如，当关键词检测结果为“智能音箱”，对应的控制指令为播放指令，目标控制操作为播放音乐操作，则能够基于关键词检测结果控制智能音箱执行播放音乐操作。

在一种可选的实施例中，在步骤S24，将语音信号转换为时频谱信号包括：对语音信号进行傅里叶变换，得到时频谱信号。

具体的，对语音信号

进行短时傅里叶变换（Short-Time Fourier Transform，STFT）得到二维时频谱信号

，其中，T、F分别对应时域维度和频域维度。

在一种可选的实施例中，在步骤S26，对时频谱信号进行卷积混合处理，得到关键词检测结果包括：

采用卷积混合关键词检测模型对时频谱信号进行卷积混合处理，得到关键词检测结果，其中，卷积混合关键词检测模型包括：预处理部分、卷积混合部分和后处理部分，预处理部分包括：多个预处理模块，卷积混合部分包括：多个卷积混合模块，后处理部分包括：多个后处理模块。

具体的，本申请实施例中提供了一种卷积混合关键词检测（ConvMixer）模型，用以对二维时频谱信号

进行卷积混合处理，得到关键词检测结果。

图3是根据本申请实施例的一种卷积混合关键词检测模型的结构示意图，如图3所示，ConvMixer模型包括：3个预处理模块（Pre-block）、4个卷积混合模块(ConvMixerblock)和3个后处理模块（Post-block）。其中，ConvMixer block是ConvMixer模型的核心计算模块。每一个Pre-Block和每一个Post-Block的结构相同，区别在于各个模块的卷积核（Kernel）和通道数等参数不同。

预处理部分包括：预处理模块1、预处理模块2和预处理模块3，其中，预处理模块1、预处理模块2和预处理模块3均包括一维深度可分离卷积层（Depthwise Separableconvolution）和批量归一化（Batch Normalization，BN）层，激活函数为Swish函数，预处理模块1的卷积核尺寸为5，预处理模块2的卷积核尺寸为7，预处理模块3的卷积核尺寸为1。

卷积混合部分包括：卷积混合模块1、卷积混合模块2、卷积混合模块3和卷积混合模块4。其中，卷积混合模块1中的时域卷积核尺寸为9，频域卷积核尺寸为5，二维卷积滤波器（Conv Filter）的数量为64；卷积混合模块2中的时域卷积核尺寸为11，频域卷积核尺寸为5，二维Conv Filter的数量为32；卷积混合模块3中的时域卷积核尺寸为13，频域卷积核尺寸为7，二维Conv Filter的数量为16；卷积混合模块4中的时域卷积核尺寸为15，频域卷积核尺寸为7，二维Conv Filter的数量为8。

每个卷积混合模块中包括频域（Frequency Domain）编码单元、时域（TemporalDomain）编码单元和多层感知机（Multilayer Perceptron，MLP）混合器。其中，频域编码单元包括二维卷积层、二维深度可分离卷积层和二维卷积BN层，二维卷积BN层的输出通道数为1，激活函数为Swish函数。时域编码单元包括一维深度可分离卷积层，激活函数为Swish函数。MLP混合器包括时域通道混合（Time Channel Mix）和频域通道混合（FrequencyChannel Mix）。

后处理部分包括：后处理模块1、后处理模块2和后处理模块3。其中，后处理模块1、后处理模块2和后处理模块3均包括一维深度可分离卷积层和BN层，激活函数为Swish函数，后处理模块1的卷积核尺寸为17，输出通道数为128；后处理模块2的卷积核尺寸为19，输出通道数为128，卷积核膨胀数（Dilation）为2；后处理模块3的卷积核尺寸为1，输出通道数为128。

ConvMixer模型的最后一层是激活函数层，激活函数包括线性变换（Linear）函数和S型（Sigmoid）函数，激活函数层的输出维度由需要根据待检测的关键词数目确定。例如，当需要检测12个关键词时，输出类别数（classes）为12。

需要说明的是，本申请实施例中ConvMixer模型中预处理部分、卷积混合部分和后处理部分中各模块的数量分布及参数值设置仅为一种示例，不构成具体限制。

基于上述可选实施例，通过采用卷积混合关键词检测模型对时频谱信号进行卷积混合处理，能够准确获取语音信号中的关键词检测结果，减少计算量，进一步提升对于关键词的检测效率。

在一种可选的实施例中，采用卷积混合关键词检测模型对时频谱信号进行卷积混合处理，得到关键词检测结果包括：

步骤S261，采用多个预处理模块对时频谱信号进行预处理运算，得到第一处理结果；

具体的，采用多个预处理模块对时频谱信号进行预处理运算，得到第一处理结果的实现过程可以参照下文实施例的进一步介绍，不予赘述。

步骤S262，采用多个卷积混合模块对第一处理结果进行卷积混合运算，得到第二处理结果；

具体的，采用多个卷积混合模块对第一处理结果进行卷积混合运算，得到第二处理结果的实现过程可以参照下文实施例的进一步介绍，不予赘述。

步骤S263，采用多个后处理模块对第二处理结果进行后处理运算，得到第三处理结果；

具体的，采用多个后处理模块对第二处理结果进行后处理运算，得到第三处理结果的实现过程可以参照下文实施例的进一步介绍，不予赘述。

步骤S264，对第三处理结果进行线性变换与激活处理，得到关键词检测结果。

基于上述步骤S261至步骤S264，采用多个预处理模块对时频谱信号进行预处理运算，得到第一处理结果，进而采用多个卷积混合模块对第一处理结果进行卷积混合运算，得到第二处理结果，随后采用多个后处理模块对第二处理结果进行后处理运算，得到第三处理结果，最后对第三处理结果进行线性变换与激活处理，得到关键词检测结果，能够有效简化关键词检测过程的计算复杂度，提升对关键词的检测效率，进一步优化卷积混合关键词检测模型的检测性能。

在一种可选的实施例中，在步骤S261，采用多个预处理模块对时频谱信号进行预处理运算，得到第一处理结果包括：对于多个预处理模块中的每个预处理模块，重复执行如下操作：

步骤S2611，对第一输入数据进行深度可分离卷积运算，得到第一中间数据；

具体的，利用预处理模块中的深度可分离卷积层对第一输入数据进行运算，得到第一中间数据，深度可分离卷积层是一种神经网络模型结构单元。例如，利用以下公式（1）得到第一中间数据：

公式（1）

步骤S2612，对第一中间数据进行规整运算，得到第二中间数据；

具体的，利用预处理模块中的BN层对第一中间数据进行规整运算，得到第二中间数据，例如，利用以下公式（2）得到第二中间数据：

公式（2）

步骤S2613，对第二中间数据进行激活运算，得到第一输出数据；

具体的，利用预处理模块中的Swish函数对第二中间数据进行激活运算，得到第一输出数据，例如，利用以下公式（3）得到第一输出数据：

公式（3）

其中，多个预处理模块中第一个预处理模块的第一输入数据为时频谱信号，多个预处理模块中最后一个预处理模块的第一输出数据为第一处理结果，且多个预处理模块中前一个预处理模块的第一输出数据为相邻的后一个预处理模块的第一输入数据。

具体的，以上述图3所示的ConvMixer模型为例介绍采用三个预处理模块对时频谱信号进行预处理运算，得到第一处理结果的实现过程。

预处理模块1的第一输入数据为时频谱信号，利用预处理模块1中的深度可分离卷积层对时频谱信号进行运算，得到第一中间数据；利用预处理模块1中的BN层对第一中间数据进行规整运算，得到第二中间数据；利用预处理模块1中的Swish函数对第二中间数据进行激活运算，得到第一输出数据。

将预处理模块1的第一输出数据作为预处理模块2的第一输入数据，利用预处理模块2中的深度可分离卷积层对时频谱信号进行运算，得到第一中间数据；利用预处理模块2中的BN层对第一中间数据进行规整运算，得到第二中间数据；利用预处理模块2中的Swish函数对第二中间数据进行激活运算，得到第一输出数据。

将预处理模块2的第一输出数据作为预处理模块3的第一输入数据，利用预处理模块3中的深度可分离卷积层对时频谱信号进行运算，得到第一中间数据；利用预处理模块3中的BN层对第一中间数据进行规整运算，得到第二中间数据；利用预处理模块3中的Swish函数对第二中间数据进行激活运算，得到第一输出数据。预处理模块3的第一输出数据为第一处理结果。

基于上述步骤S2611至步骤S2613，能够采用多个预处理模块对时频谱信号进行预处理运算，快速得到第一处理结果，以提升卷积混合关键词检测模型的检测性能。

在一种可选的实施例中，在步骤S262，采用多个卷积混合模块对第一处理结果进行卷积混合运算，得到第二处理结果包括：对于多个卷积混合模块中的每个卷积混合模块，重复执行如下操作：

步骤S2621，对第二输入数据进行频域编码处理，得到第三中间数据；

具体的，利用卷积混合模块中的频域编码单元对第二输入数据进行处理，得到第三中间数据。对第二输入数据进行二维卷积运算，得到第一运算结果，对第一运算结果进行激活运算得到data1；对data1进行二维深度可分离卷积运算，得到第二运算结果，对第二运算结果进行激活运算，得到data2；对data2进行二维卷积运算，得到第三运算结果，对第三运算结果进行规整运算，得到第四运算结果，对第四运算结果进行激活运算，得到第三中间数据。

例如，利用以下公式（4）至公式（6）计算第三中间数据：

公式（4）

公式（5）

公式（6）

其中，二维卷积（2D Convolution）层是一种神经网络模型结构单元。

步骤S2622，对第三中间数据进行时域编码处理，得到第四中间数据；

具体的，利用卷积混合模块中的时域编码单元对第三中间数据进行处理，得到第四中间数据。对第三中间数据进行深度可分离卷积运算，得到第五运算结果；对第五运算结果进行规整运算，得到第六运算结果；对第六运算结果进行激活运算，得到第四中间数据。

例如，利用以下公式（7）计算第四中间数据：

公式（7）

步骤S2623，对第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据；

具体的，利用Pytorch开源工具包的实现代码对第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据。例如，利用以下公式（8）计算第二输出数据：

公式（8）

其中，多个卷积混合模块中第一个卷积混合模块的第二输入数据为第一处理结果，多个卷积混合模块中最后一个卷积混合模块的第二输出数据为第二处理结果，且多个卷积混合模块中前一个卷积混合模块的第二输出数据为相邻的后一个卷积混合模块的第二输入数据。

具体的，以上述图3所示的ConvMixer模型为例介绍采用多个卷积混合模块对第一处理结果进行卷积混合运算，得到第二处理结果的实现过程。

卷积混合模块1的第二输入数据为第一处理结果，利用卷积混合模块1中的频域编码单元对第二输入数据进行处理，得到第三中间数据；利用卷积混合模块1中的时域编码单元对第三中间数据进行处理，得到第四中间数据；利用Pytorch开源工具包的实现代码对第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据。

将卷积混合模块1的第二输出数据作为卷积混合模块2的第二输入数据，利用卷积混合模块2中的频域编码单元对第二输入数据进行处理，得到第三中间数据；利用卷积混合模块2中的时域编码单元对第三中间数据进行处理，得到第四中间数据；利用Pytorch开源工具包的实现代码对第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据。

将卷积混合模块2的第二输出数据作为卷积混合模块3的第二输入数据，利用卷积混合模块3中的频域编码单元对第二输入数据进行处理，得到第三中间数据；利用卷积混合模块3中的时域编码单元对第三中间数据进行处理，得到第四中间数据；利用Pytorch开源工具包的实现代码对第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据。

将卷积混合模块3的第二输出数据作为卷积混合模块4的第二输入数据，利用卷积混合模块4中的频域编码单元对第二输入数据进行处理，得到第三中间数据；利用卷积混合模块4中的时域编码单元对第三中间数据进行处理，得到第四中间数据；利用Pytorch开源工具包的实现代码对第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据。卷积混合模块4的第二输出数据为第二处理结果。

基于上述步骤S2621至步骤S2623，能够采用多个卷积混合模块对第一处理结果进行卷积混合运算，快速得到第二处理结果，以提升卷积混合关键词检测模型的检测性能。

在一种可选的实施例中，在步骤S263，采用多个后处理模块对第二处理结果进行后处理运算，得到第三处理结果包括：对于多个后处理模块中的每个后处理模块，重复执行如下操作：

步骤S2631，对第三输入数据进行深度可分离卷积运算，得到第五中间数据；

步骤S2632，对第五中间数据进行规整运算，得到第六中间数据；

步骤S2633，对第六中间数据进行激活运算，得到第三输出数据；

其中，多个后处理模块中第一个后处理模块的第三输入数据为第二处理结果，多个后处理模块中最后一个后处理模块的第三输出数据为第三处理结果，且多个后处理模块中前一个后处理模块的第三输出数据为相邻的后一个后处理模块的第三输入数据。

具体的，以上述图3所示的ConvMixer模型为例介绍采用多个后处理模块对第二处理结果进行后处理运算，得到第三处理结果的实现过程。

后处理模块1的第三输入数据为第二处理结果，利用后处理模块1中的深度可分离卷积层对时频谱信号进行运算，得到第五中间数据；利用后处理模块1中的BN层对第五中间数据进行规整运算，得到第六中间数据；利用后处理模块1中的Swish函数对第六中间数据进行激活运算，得到第三输出数据。

将后处理模块1的第三输出数据作为后处理模块2的第三输入数据，利用后处理模块2中的深度可分离卷积层对时频谱信号进行运算，得到第五中间数据；利用后处理模块2中的BN层对第五中间数据进行规整运算，得到第六中间数据；利用后处理模块2中的Swish函数对第六中间数据进行激活运算，得到第三输出数据。

将后处理模块2的第三输出数据作为后处理模块3的第三输入数据，利用后处理模块3中的深度可分离卷积层对时频谱信号进行运算，得到第五中间数据；利用后处理模块3中的BN层对第五中间数据进行规整运算，得到第六中间数据；利用后处理模块3中的Swish函数对第六中间数据进行激活运算，得到第三输出数据。后处理模块3的第三输出数据为第三处理结果。

基于上述步骤S2631至步骤S2633，能够采用多个后处理模块对第二处理结果进行后处理运算，快速得到第三处理结果，以提升卷积混合关键词检测模型的检测性能。

本发明其中一实施例还提供了一种处理语音信号的方法，该处理语音信号的方法在云端服务器上运行，图4是根据本发明实施例的一种可选的处理语音信号的方法的流程图，如图4所示，该处理语音信号的方法，包括：

步骤S42，接收来自于客户端的待处理的语音信号；

步骤S44，将语音信号转换为时频谱信号，以及对时频谱信号进行卷积混合处理，得到关键词检测结果；

步骤S46，将关键词检测结果反馈至客户端，以使客户端基于关键词检测结果对应的控制指令，执行目标控制操作。

可选地，图5是根据本发明实施例的一种在云端服务器进行处理语音信号的方法示意图，如图5所示，云端服务器可以通过网络接收来自于客户端的待处理的语音信号，进而将语音信号转换为时频谱信号，以及对时频谱信号进行卷积混合处理，得到关键词检测结果，最后将关键词检测结果反馈至客户端，以使客户端基于关键词检测结果对应的控制指令，执行目标控制操作。

需要说明的是，本申请实施例所提供的上述处理语音信号的方法，可以但不限于适用于云端检测关键词的实际应用场景，通过SaaS服务端和客户端进行交互的方式，将语音信号转换为时频谱信号，以及对时频谱信号进行卷积混合处理，得到关键词检测结果，并将返回的关键词检测结果通过客户端提供给用户。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述处理语音信号的方法的装置实施例，图6是根据本发明实施例的一种处理语音信号的装置的结构示意图，如图6所示，该装置包括：

获取模块601，用于获取待处理的语音信号；

转换模块602，用于将语音信号转换为时频谱信号；

处理模块603，用于对时频谱信号进行卷积混合处理，得到关键词检测结果；

执行模块604，用于基于关键词检测结果对应的控制指令，执行目标控制操作。

可选地，转换模块602还用于对语音信号进行傅里叶变换，得到时频谱信号。

可选地，处理模块603还用于：采用卷积混合关键词检测模型对时频谱信号进行卷积混合处理，得到关键词检测结果，其中，卷积混合关键词检测模型包括：预处理部分、卷积混合部分和后处理部分，预处理部分包括：多个预处理模块，卷积混合部分包括：多个卷积混合模块，后处理部分包括：多个后处理模块。

可选地，处理模块603还用于：采用多个预处理模块对时频谱信号进行预处理运算，得到第一处理结果；采用多个卷积混合模块对第一处理结果进行卷积混合运算，得到第二处理结果；采用多个后处理模块对第二处理结果进行后处理运算，得到第三处理结果；对第三处理结果进行线性变换与激活处理，得到关键词检测结果。

可选地，处理模块603还用于：对于多个预处理模块中的每个预处理模块，重复执行如下操作：对第一输入数据进行深度可分离卷积运算，得到第一中间数据；对第一中间数据进行规整运算，得到第二中间数据；对第二中间数据进行激活运算，得到第一输出数据；其中，多个预处理模块中第一个预处理模块的第一输入数据为时频谱信号，多个预处理模块中最后一个预处理模块的第一输出数据为第一处理结果，且多个预处理模块中前一个预处理模块的第一输出数据为相邻的后一个预处理模块的第一输入数据。

可选地，处理模块603还用于：对于多个卷积混合模块中的每个卷积混合模块，重复执行如下操作：对第二输入数据进行频域编码处理，得到第三中间数据；对第三中间数据进行时域编码处理，得到第四中间数据；对第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据；其中，多个卷积混合模块中第一个卷积混合模块的第二输入数据为第一处理结果，多个卷积混合模块中最后一个卷积混合模块的第二输出数据为第二处理结果，且多个卷积混合模块中前一个卷积混合模块的第二输出数据为相邻的后一个卷积混合模块的第二输入数据。

可选地，处理模块603还用于：对于多个后处理模块603中的每个后处理模块，重复执行如下操作：对第三输入数据进行深度可分离卷积运算，得到第五中间数据；对第五中间数据进行规整运算，得到第六中间数据；对第六中间数据进行激活运算，得到第三输出数据；其中，多个后处理模块中第一个后处理模块的第三输入数据为第二处理结果，多个后处理模块中最后一个后处理模块的第三输出数据为第三处理结果，且多个后处理模块中前一个后处理模块的第三输出数据为相邻的后一个后处理模块的第三输入数据。

此处需要说明的是，上述处理语音信号的装置对应于实施例1中的步骤S22至步骤S28，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本发明实施例，还提供了一种电子装置的实施例，该电子装置可以是计算装置群中的任意一个计算装置。该电子装置包括：处理器和存储器，其中：存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取待处理的语音信号；将语音信号转换为时频谱信号；对时频谱信号进行卷积混合处理，得到关键词检测结果；基于关键词检测结果对应的控制指令，执行目标控制操作。

实施例4

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行处理语音信号的方法中以下步骤的程序代码：获取待处理的语音信号；将语音信号转换为时频谱信号；对时频谱信号进行卷积混合处理，得到关键词检测结果；基于关键词检测结果对应的控制指令，执行目标控制操作。

可选地，图7是根据本发明实施例的另一种计算机终端的结构框图，如图7所示，该计算机终端可以包括：一个或多个（图中仅示出一个）处理器122、存储器124、以及外设接口126。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的处理语音信号的方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的处理语音信号的方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待处理的语音信号；将语音信号转换为时频谱信号；对时频谱信号进行卷积混合处理，得到关键词检测结果；基于关键词检测结果对应的控制指令，执行目标控制操作。

可选地，上述处理器还可以执行如下步骤的程序代码：对语音信号进行傅里叶变换，得到时频谱信号。

可选地，上述处理器还可以执行如下步骤的程序代码：采用卷积混合关键词检测模型对时频谱信号进行卷积混合处理，得到关键词检测结果，其中，卷积混合关键词检测模型包括：预处理部分、卷积混合部分和后处理部分，预处理部分包括：多个预处理模块，卷积混合部分包括：多个卷积混合模块，后处理部分包括：多个后处理模块。

可选地，上述处理器还可以执行如下步骤的程序代码：采用多个预处理模块对时频谱信号进行预处理运算，得到第一处理结果；采用多个卷积混合模块对第一处理结果进行卷积混合运算，得到第二处理结果；采用多个后处理模块对第二处理结果进行后处理运算，得到第三处理结果；对第三处理结果进行线性变换与激活处理，得到关键词检测结果。

可选地，上述处理器还可以执行如下步骤的程序代码：对于多个预处理模块中的每个预处理模块，重复执行如下操作：对第一输入数据进行深度可分离卷积运算，得到第一中间数据；对第一中间数据进行规整运算，得到第二中间数据；对第二中间数据进行激活运算，得到第一输出数据；其中，多个预处理模块中第一个预处理模块的第一输入数据为时频谱信号，多个预处理模块中最后一个预处理模块的第一输出数据为第一处理结果，且多个预处理模块中前一个预处理模块的第一输出数据为相邻的后一个预处理模块的第一输入数据。

可选地，上述处理器还可以执行如下步骤的程序代码：对于多个卷积混合模块中的每个卷积混合模块，重复执行如下操作：对第二输入数据进行频域编码处理，得到第三中间数据；对第三中间数据进行时域编码处理，得到第四中间数据；对第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据；其中，多个卷积混合模块中第一个卷积混合模块的第二输入数据为第一处理结果，多个卷积混合模块中最后一个卷积混合模块的第二输出数据为第二处理结果，且多个卷积混合模块中前一个卷积混合模块的第二输出数据为相邻的后一个卷积混合模块的第二输入数据。

可选地，上述处理器还可以执行如下步骤的程序代码：对于多个后处理模块中的每个后处理模块，重复执行如下操作：对第三输入数据进行深度可分离卷积运算，得到第五中间数据；对第五中间数据进行规整运算，得到第六中间数据；对第六中间数据进行激活运算，得到第三输出数据；其中，多个后处理模块中第一个后处理模块的第三输入数据为第二处理结果，多个后处理模块中最后一个后处理模块的第三输出数据为第三处理结果，且多个后处理模块中前一个后处理模块的第三输出数据为相邻的后一个后处理模块的第三输入数据。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收来自于客户端的待处理的语音信号；将语音信号转换为时频谱信号，以及对时频谱信号进行卷积混合处理，得到关键词检测结果；将关键词检测结果反馈至客户端，以使客户端基于关键词检测结果对应的控制指令，执行目标控制操作。

本领域普通技术人员可以理解，图7所示的结构仅为示意，计算机终端也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌声电脑以及移动互联网设备（MobileInternet Devices，MID）、PAD等终端设备。图7并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图7中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图7所示不同的配置。

实施例5

本发明实施例可以提供一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的处理语音信号的方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待处理的语音信号；将语音信号转换为时频谱信号；对时频谱信号进行卷积混合处理，得到关键词检测结果；基于关键词检测结果对应的控制指令，执行目标控制操作。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对语音信号进行傅里叶变换，得到时频谱信号。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用卷积混合关键词检测模型对时频谱信号进行卷积混合处理，得到关键词检测结果，其中，卷积混合关键词检测模型包括：预处理部分、卷积混合部分和后处理部分，预处理部分包括：多个预处理模块，卷积混合部分包括：多个卷积混合模块，后处理部分包括：多个后处理模块。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用多个预处理模块对时频谱信号进行预处理运算，得到第一处理结果；采用多个卷积混合模块对第一处理结果进行卷积混合运算，得到第二处理结果；采用多个后处理模块对第二处理结果进行后处理运算，得到第三处理结果；对第三处理结果进行线性变换与激活处理，得到关键词检测结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对于多个预处理模块中的每个预处理模块，重复执行如下操作：对第一输入数据进行深度可分离卷积运算，得到第一中间数据；对第一中间数据进行规整运算，得到第二中间数据；对第二中间数据进行激活运算，得到第一输出数据；其中，多个预处理模块中第一个预处理模块的第一输入数据为时频谱信号，多个预处理模块中最后一个预处理模块的第一输出数据为第一处理结果，且多个预处理模块中前一个预处理模块的第一输出数据为相邻的后一个预处理模块的第一输入数据。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对于多个卷积混合模块中的每个卷积混合模块，重复执行如下操作：对第二输入数据进行频域编码处理，得到第三中间数据；对第三中间数据进行时域编码处理，得到第四中间数据；对第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据；其中，多个卷积混合模块中第一个卷积混合模块的第二输入数据为第一处理结果，多个卷积混合模块中最后一个卷积混合模块的第二输出数据为第二处理结果，且多个卷积混合模块中前一个卷积混合模块的第二输出数据为相邻的后一个卷积混合模块的第二输入数据。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对于多个后处理模块中的每个后处理模块，重复执行如下操作：对第三输入数据进行深度可分离卷积运算，得到第五中间数据；对第五中间数据进行规整运算，得到第六中间数据；对第六中间数据进行激活运算，得到第三输出数据；其中，多个后处理模块中第一个后处理模块的第三输入数据为第二处理结果，多个后处理模块中最后一个后处理模块的第三输出数据为第三处理结果，且多个后处理模块中前一个后处理模块的第三输出数据为相邻的后一个后处理模块的第三输入数据。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收来自于客户端的待处理的语音信号；将语音信号转换为时频谱信号，以及对时频谱信号进行卷积混合处理，得到关键词检测结果；将关键词检测结果反馈至客户端，以使客户端基于关键词检测结果对应的控制指令，执行目标控制操作。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

实施例6

本发明实施例可以提供一种处理语音信号的系统，该系统包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：

步骤1，获取待处理的语音信号；

步骤2，将语音信号转换为时频谱信号；

步骤3，对时频谱信号进行卷积混合处理，得到关键词检测结果；

步骤4，基于关键词检测结果对应的控制指令，执行目标控制操作。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种处理语音信号的方法，其特征在于，包括：

获取待处理的语音信号；

将所述语音信号转换为时频谱信号；

对所述时频谱信号进行卷积混合处理，得到关键词检测结果；

基于所述关键词检测结果对应的控制指令，执行目标控制操作。

2.根据权利要求1所述的方法，其特征在于，将所述语音信号转换为所述时频谱信号包括：

对所述语音信号进行傅里叶变换，得到所述时频谱信号。

3.根据权利要求1所述的方法，其特征在于，对所述时频谱信号进行卷积混合处理，得到所述关键词检测结果包括：

采用卷积混合关键词检测模型对所述时频谱信号进行卷积混合处理，得到所述关键词检测结果，其中，所述卷积混合关键词检测模型包括：预处理部分、卷积混合部分和后处理部分，所述预处理部分包括：多个预处理模块，所述卷积混合部分包括：多个卷积混合模块，所述后处理部分包括：多个后处理模块。

4.根据权利要求3所述的方法，其特征在于，采用所述卷积混合关键词检测模型对所述时频谱信号进行卷积混合处理，得到所述关键词检测结果包括：

采用所述多个预处理模块对所述时频谱信号进行预处理运算，得到第一处理结果；

采用所述多个卷积混合模块对所述第一处理结果进行卷积混合运算，得到第二处理结果；

采用所述多个后处理模块对所述第二处理结果进行后处理运算，得到第三处理结果；

对所述第三处理结果进行线性变换与激活处理，得到所述关键词检测结果。

5.根据权利要求4所述的方法，其特征在于，采用所述多个预处理模块对所述时频谱信号进行预处理运算，得到所述第一处理结果包括：

对于所述多个预处理模块中的每个预处理模块，重复执行如下操作：

对第一输入数据进行深度可分离卷积运算，得到第一中间数据；

对所述第一中间数据进行规整运算，得到第二中间数据；

对所述第二中间数据进行激活运算，得到第一输出数据；

其中，所述多个预处理模块中第一个预处理模块的所述第一输入数据为所述时频谱信号，所述多个预处理模块中最后一个预处理模块的所述第一输出数据为所述第一处理结果，且所述多个预处理模块中前一个预处理模块的所述第一输出数据为相邻的后一个预处理模块的所述第一输入数据。

6.根据权利要求4所述的方法，其特征在于，采用所述多个卷积混合模块对所述第一处理结果进行卷积混合运算，得到所述第二处理结果包括：

对于所述多个卷积混合模块中的每个卷积混合模块，重复执行如下操作：

对第二输入数据进行频域编码处理，得到第三中间数据；

对所述第三中间数据进行时域编码处理，得到第四中间数据；

对所述第四中间数据进行时域通道混合与频域通道混合处理，得到第二输出数据；

其中，所述多个卷积混合模块中第一个卷积混合模块的所述第二输入数据为所述第一处理结果，所述多个卷积混合模块中最后一个卷积混合模块的所述第二输出数据为所述第二处理结果，且所述多个卷积混合模块中前一个卷积混合模块的所述第二输出数据为相邻的后一个卷积混合模块的所述第二输入数据。

7.根据权利要求4所述的方法，其特征在于，采用所述多个后处理模块对所述第二处理结果进行后处理运算，得到所述第三处理结果包括：

对于所述多个后处理模块中的每个后处理模块，重复执行如下操作：

对第三输入数据进行深度可分离卷积运算，得到第五中间数据；

对所述第五中间数据进行规整运算，得到第六中间数据；

对所述第六中间数据进行激活运算，得到第三输出数据；

其中，所述多个后处理模块中第一个后处理模块的所述第三输入数据为所述第二处理结果，所述多个后处理模块中最后一个后处理模块的所述第三输出数据为所述第三处理结果，且所述多个后处理模块中前一个后处理模块的所述第三输出数据为相邻的后一个后处理模块的所述第三输入数据。

8.一种处理语音信号的方法，其特征在于，包括：

接收来自于客户端的待处理的语音信号；

将所述语音信号转换为时频谱信号，以及对所述时频谱信号进行卷积混合处理，得到关键词检测结果；

将所述关键词检测结果反馈至所述客户端，以使所述客户端基于所述关键词检测结果对应的控制指令，执行目标控制操作。

9.一种处理语音信号的装置，其特征在于，包括：

获取模块，用于获取待处理的语音信号；

转换模块，用于将所述语音信号转换为时频谱信号；

处理模块，用于对所述时频谱信号进行卷积混合处理，得到关键词检测结果；

执行模块，用于基于所述关键词检测结果对应的控制指令，执行目标控制操作。

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的处理语音信号的方法。

11.一种处理语音信号的系统，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

步骤1，获取待处理的语音信号；

步骤2，将所述语音信号转换为时频谱信号；

步骤3，对所述时频谱信号进行卷积混合处理，得到关键词检测结果；

步骤4，基于所述关键词检测结果对应的控制指令，执行目标控制操作。