CN110070867A

CN110070867A - 语音指令识别方法、计算机装置及计算机可读存储介质

Info

Publication number: CN110070867A
Application number: CN201910342260.XA
Authority: CN
Inventors: 王天策; 唐翱翔; 胡颖哲; 张琪; 王永利
Original assignee: Zhuhai Printronics Core Chi Technology Co Ltd
Current assignee: Zhuhai Printronics Core Chi Technology Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-07-30
Anticipated expiration: 2039-04-26
Also published as: CN110070867B

Abstract

本发明提供一种语音指令识别方法、计算机装置及计算机可读存储介质，该方法包括获取语音数据，提取语音数据的特征信息，用卷积神经网络对特征信息进行识别；其中，该卷积神经网络为深度可分离的卷积神经网络，用一次分通道卷积以及一次1×1卷积替代传统的三维卷积；获取卷积神经网络的每一层的输出值的小数位数，以该层预设的小数位数输出该层的输出值，每一层的输出值共用同一个可预设的小数位，以定点数完成卷积及偏置操作；获取神经网络的计算结果作为语音数据的识别结果。本发明还提供实现上述方法的计算机装置及计算机可读存储介质。本发明可以简化语音识别过程中神经网络的计算量，提高语音识别的速度，也降低硬件实现的成本。

Description

语音指令识别方法、计算机装置及计算机可读存储介质

技术领域

本发明语音识别技术领域，具体地，是一种基于卷积神经网络实现的语音指令识别方法，还涉及实现该方法的计算机装置以及计算机可读存储介质。

背景技术

随着智能识别技术的发展，现在越来越多智能识别实现诸如图像识别、语音识别的功能。图像识别与语音识别都是对输入的数据进行分析、识别，从而判别输入的图像与目标图像是否相近似，或者输入的语音是否与目标语音相近似，从而识别出输入的图像的内容，或者识别出属于语音的内容。

语音识别技术通常需要强大的硬件计算能力，而近年来，随着硬件计算能力的提升和生产成本的下降，深度学习技术的应用场景迅猛增长，相应的产品也日趋成熟。传统的语音识别技术所使用的算法通常基于全连接深度神经网络(Deep Neural Network，DNN)，其主要数学计算包含矩阵乘法和激活函数(如sigmoid、ReLU等)。然而，深度神经网络在语音识别应用中存在以下缺点：由于深度神经网络架构没有针对语音数据在时域和频域中高度关联的特征，导致计算量大而识别准确率不够理想。

最近几年，卷积神经网络(Convolutional Neural Network，CNN)在图像识别和语音识别领域逐渐流行，它针对语音数据在时域和频域中高度关联的特征，通过多层卷积操作实现自动的特征提取，用维度较低的卷积操作取代了矩阵乘法。虽然卷积神经网络通过以卷积操作代替全连接结构，在一定程度上能够捕捉语音数据在时域和频域中的关联性，但由于三维卷积操作以及多通道特性所造成的巨大计算量，目前主要通过GPU、TPU等高成本硬件实现，难以应用于离线、低功耗的应用场景。

循环神经网络(Recurrent Neural Network)是另一种神经网络架构，其通过将状态在自身网络中循环传递，可以捕获适合学习时间序列，用于长时间的语音识别以及语言模型建模。循环神经网络适合长时间的语音识别，对于短时间的指令词识别，相比于卷积神经网络难以显示出优越性，而且循环神经网络的硬件架构较为复杂，实现成本较高，不利于在低成本的智能设备中使用。

发明内容

本发明的主要目的是提供一种低计算量、低内存占用的语音指令识别方法。

本发明的另一目的是提供一种实现上述语音指令识别方法的计算机装置。

本发明的再一目的是提供一种实现上述语音指令识别方法的计算机可读存储介质。

为实现本发明的主要目的，本发明提供的语音指令识别方法包括获取语音数据，提取语音数据的特征信息，用卷积神经网络对特征信息进行识别；其中，该卷积神经网络为深度可分离的卷积神经网络，卷积神经网络将三维卷积分解成分通道卷积以及1×1卷积；获取卷积神经网络的每一层的输出值的小数位数，以该层预设的小数位数输出该层的输出值，卷积神经网络的每一层的输出值共用同一个可预设的小数位，以定点数完成卷积及偏置操作；获取神经网络的计算结果作为语音数据的识别结果。

由上述方案可见，本发明采用深度可分离的卷积神经网络实现语音识别，由于深度可分离的卷积神经网络将三维卷积分解成分通道卷积以及1×1卷积，这样对于典型的3×3卷积核而言，其计算量减小到常规卷积神经网络的八分之一以下。

此外，由于卷积神经网络计算过程中，预先设定每一层的小数位数，这样可以用定点数而非浮点数表示每一层的输出数值，从而大大减小神经网络计算量，提高语音识别的效率。并降低硬件设备的计算量，从而降低智能设备的生产成本，有利于该语音指令识别方法在低成本的智能设备中应用。

一个优选的方案是，卷积神经网络的每一层的输出值以及卷积层参数(包含卷积核权重及偏置)均为预设位数的二进制数。

由此可见，由于卷积神经网络的每一层的输出值以及卷积核参数均是预设位置的二进制数，这样可以在卷积神经网络开发时预先设定每一层的输出值的位数，以便于实现卷积神经网络实现快速的计算，也减小神经网络的计算量。

进一步的方案是，卷积神经网络的每一层的输出值以及卷积层参数均为8位的二进制数。

可见，通过预先设定每一层的输出值均为8位的二进制数，可以使用固定的一个字节来存储每一层的一个输出值，从而使得神经网络的数据存储量减小。

更进一步的方案是，卷积神经网络的多层的输出值中，至少一层的输出值的小数位数不同于另一层的输出值的小数位数。

由此可见，不同层之间的输出值的小数位数可以是不相同的，这样可以灵活的配置每一层的输出值的小数位数，满足卷积神经网络的计算精度要求。

更进一步的方案是，将三维卷积分解成分通道卷积后，对分通道卷积进行第一非线性处理，优选的，第一非线性处理包括对分通道卷积的参数进行偏置和/或激活

这样，可以使得分通道卷积的输出结果非线性化，从而提高神经网络计算的灵活性。

更进一步的方案是，将三维卷积分解成1×1卷积后，对1×1卷积进行第二非线性处理，优选的，第二非线性处理包括对1×1卷积的输出进行偏置和激活。

可见，本发明可以使得1×1卷积的输出结果非线性化，从而提高神经网络计算的灵活性，满足不同场景下实现语音识别的需求，使得语音识别的应用场景更加广泛。

此外，由于计算量和内存的节省，智能设备的操作系统可以实时运行多个神经网络模型，既可以通过集成学习方法提高模型识别率，也可以通过训练不同模型而增加可识别关键词的数量。

为实现上述的另一目的，本发明提供的计算机装置包括处理器以及存储器，存储器存储有计算机程序，计算机程序被处理器执行时实现上述的语音指令识别方法的各个步骤。

为实现上述的再一目的，本发明提供计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的语音指令识别方法的各个步骤。

附图说明

图1是本发明语音指令识别方法实施例的流程图。

图2是本发明语音指令识别方法实施例中深度可分离的卷积神经网络的架构示意图。

图3是本发明语音指令识别方法实施例中对卷积进行定点化操作的流程图。

以下结合附图及实施例对本发明作进一步说明。

具体实施方式

本发明的语音指令识别方法应用在智能设备上并用于对语音进行识别，从而辨别出语音的内容，例如应用在语音控制的智能设备上。本发明的计算机装置可以是实现该语音指令识别方法的智能设备，如智能手机、平板电脑，还可以是智能马桶、智能汽车、智能电器设备等。本发明的计算机可读存储介质是计算机装置的存储器，存储有计算机程序，并且拥有实现上述的语音指令识别方法。

语音指令识别方法实施例：

本实施例的语音指令识别方法是基于神经网络实现的语音指令识别方法，具体的，是应用深度可分离的卷积神经网络(Depthwise－Separable Convolutional NeuralNetwork，DS－CNN)来实现语音识别。深度可调节的卷积神经网络是学术界前沿的研究领域，自其被提出以来，大量学术研究表明其相对于以往的卷积神经网络，在大幅度压缩计算量的前提下，可达到同等的识别效果。此外，深度可分离卷积神经网络也可与其他的神经网络研究方向，如残差网络(ResNet)、密集连接网络(DenseNet)等加以组合，形成可配置性强的网络架构，以适用不同的应用场景。

参见图1，本实施例首先执行步骤S1，获取语音数据，并且提取语音数据的特征信息，将所提取的特征信息输入至卷积神经网络。例如，语音数据可以是人发出的语音数据，也可以是机器模拟人声发出的语音数据。在获取语音数据以后，对语音数据的特征信息进行提取，例如提取出语音信息在时域和频域中相关的特征信息，并且将所获取的特征信息作为输入值输入到神经网络中。典型的特征信息包含梅尔倒频谱系数和对数梅尔刻度能量，但也可使用其他特征信息。

本实施例中，所使用的神经网络是深度可分离的卷积神经网络，因此需要预先构建并训练获得一个深度可分离的卷积神经网络作为语音识别的工具。

参见图2，本实施例应用的深度可分离卷积神经网络中，将三维卷积操作分解成一次分通道卷积和一次1x1卷积，即一个3×3的卷积将被一次分通道卷积和一次1x1卷积所取代，从而减少卷积的计算量。

假如卷积核的参数个数为S，输入张量维度为HxWxC₁，输出张量维度为HxWxC₂，其中输入张量维度H表示卷积核的高度，W表示卷积核的宽度，C₁表示卷积核的通道数量。而输出张量维度C₂表示输出的通道数量。

如果使用传统的卷积神经网络的计算方法，则从接收到输入值到计算出输出至的乘法计算次数是H×W×S×C₁×C₂。

卷积神经网络获取语音数据的特征信息以后，执行步骤S2，将三维卷积操作分解成一次分通道卷积和一次1x1卷积，如图2所示，进行分通道卷积后，并不会改变通道数C₁的数值。对于一次分通道卷积的乘法计算的次数是H×W×S×C₁。

由于深度可分离的卷积神经网络将三维卷积分解成分通道卷积以及1×1卷积，因此每一层卷积的输出值包括分通道卷积的输出值以及1×1卷积的输出值，为了提高分通道卷积的输出值的灵活性，本实施例对分通道卷积计算后，还对计算的结果进行第一非线性处理，即执行步骤S3，例如对分通道卷积的计算结果进行偏置以及激活的处理，从而提供更多非线性，增强模型表示能力。经过偏置以及激活处理后，并不改变分通道卷积的高度、宽度以及通道数。

然后，计算1×1卷积的结果，由于1×1卷积核数量与输出值的通道数相等，因此，1×1卷积的输出值的通道数是C₂，而不是C₁。相同的，为了提高1×1卷积计算结果的灵活性，对1×1卷积结果进行第二非线性处理，即执行步骤S4，例如对1×1卷积的计算结果进行偏置以及激活的处理，从而减小1×1卷积计算的结果的线性。经过偏置与激活处理后，将改变1×1卷积的计算结果的通道数。本实施例中，对于一层的1×1卷积的乘法计算的次数是H×W×C₂×C₁。

可见，将三维卷积分解成分通道卷积以及1×1卷积后，一个三维卷积计算过程中乘法计算次数是H×W×C₁×(S+C₂)。而传统的三维卷积计算过程中乘法次数为H×W×S×C₁×C₂。这样，对典型的3×3卷积核而言，由于输出值的通道数C₂通常较大，乘法数量可减少为原来的八分之一以下。对于面积更大的卷积核，乘法数量的减少更为显著。此外，分通道卷积和1×1卷积计算皆可由卷积核完成，比传统的乘加器执行的卷积计算，本实施例的计算效率更高。

最后执行步骤S5，获取卷积神经网络的计算结果，并且作为语音识别的结果输出，例如识别出的语音内容。

通常，卷积计算的结果都是浮点数，即计算结果为小数，并且计算结果的小数数位是不确定的，这样将导致后续计算的计算量极大，并且增加存储器的存储容量。由于卷积的计算结果小数位数不确定，为了精确记录其计算结果，往往需要预留较大的存储空间来存储每一层的输出值，这样将需要较大容量的存储器来存储大量的浮点数据。

本实施例中，为了简化卷积的计算，采用定点化计算方式，相比于浮点计算，定点化计算可以使卷积的计算大幅度简化。例如，设定每一层输出值均使用预设位数的二进制数表示，如使用8位的二进制数来表示每一层输出值的每一个数值。当然，实际应用过程中，还可以将每一层输出值的位数设定为16位。

但由于每一层的输出值的结果不一定是一个整数，很可能是一个小数，如果使用8位或者16位二进制数表示输出值，则需要确定每一层输出值的小数点的位置，也就是确定8位二进制数中，哪几位表示整数部分，哪几位表示小数部分，这就涉及到小数点位置的确定，或者是小数位数的确定。

一种方案是，设定所有层的小数位数都相同，例如设定每一层的小数位数都是2位或者3位，最右侧的2位或者3位表示小数，而将多余的小数删除。但是，这样的操作容易因动态范围不够而造成溢出，导致识别结果错误。即使不发生溢出，若未能充分使用8位的动态范围将导致计算结果有较大误差。为了在执行效率和计算精度之间取得权衡，本实施例采用“分层定点化”机制，即神经网络中同一层的输出值采用相同的小数位数，且位数可配置，但不同层之间的输出值的小数位数并一定相同。

因此，本实施例需要预先设定每一层卷积计算的输出值的小数位数，且不同层的输出值的小数位数并不相同。例如，第一层输出值的小数位数是2位，第二层的输出值的小数位数可能是3位，第三层的输出的小数位数可能是2位等。具体的，可通过对大量测试数据产生的每一层输出的统计配置每一层输出值的小数位数，并将配置的结果存储在一个预设的存储区域内。

由于卷积神经网络同一层的输出数据位于相同的特征空间，采用相同的小数位数不会带来明显的精度损失。发明人经过多次实验发现，定点化卷积神经网络的识别效果与浮点卷积神经网络相比，输出结果并无明显差异。此外，由于统一使用ReLU作为激活函数，卷积神经网络的每一层输出可用无符号整数表示，可将表示精度提高1位。

由于预先设定了卷积神经网络每一层输出值的小数位数，因此，在进行卷积计算时，需要进行定点化操作，参见图3，对卷积的定点化操作首先执行步骤S11，获取卷积神经网络中每一层的输出值的小数位数，然后进行该层的卷积计算，在计算获得输出值后，执行步骤S12，根据该层的小数位数输出该层的输出值。具体实现上，一次卷积的结果可暂存在一个32位整数的缓存中，在偏置及激活操作之后进行移位操作(移动的位数由上一层输出小数位、本层输出小数位和卷积核小数位共同决定)并截短为8位整数，作为该层的输出结果。

可见，由于本实施例采用了深度可分离的卷积神经网络进行语音识别的计算，可以将三维卷积分解成一次分通道卷积以及一次1×1卷积的计算，大大简化了卷积计算量，从而提高语音识别的效率。另一方面，由于应用分层定点化的机制，预先设定每一层的小数位数，并且将每一层的输出值采用固定位数的二进制数表示，一方面能够简化卷积的计算，另一方面可以节省存储计算结果的存储空间，在提高卷积计算效率的情况下降低对硬件资源的要求，满足语音指令识别方法在低成本的智能设备使用的要求。此外，由于每一层的输出值的小数位数是可以配置的，这样可以满足一定的计算精度要求并防止溢出风险。最后，由于对硬件资源要求低，智能设备的操作系统可支持多个神经网络模型实时计算，从而通过集成学习提高识别率或者增加可识别关键词的数量。

计算机装置实施例：

本实施例的计算机装置可以是具有语音识别功能的智能设备，该智能设备包括有处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述语音指令识别方法的各个步骤。

例如，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明的各个模块。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

本发明所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质：

上述计算机装置可以是智能设备，该计算机装置所存储的计算机程序如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述基于陀螺仪数据的图像防抖处理方法的各个步骤。

其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

最后需要强调的是，本发明不限于上述实施方式，如卷积核通道数的改变、设置的每一层输出值的二进制数位数的改变等变化也应该包括在本发明权利要求的保护范围内。

Claims

1.语音指令识别方法，其特征在于，包括：

获取语音数据，提取所述语音数据的特征信息，用卷积神经网络对所述特征信息进行识别；

其中，所述卷积神经网络为深度可分离的卷积神经网络，所述卷积神经网络将三维卷积分解成分通道卷积以及1×1卷积；

获取所述卷积神经网络的每一层的输出值的小数位数，以该层预设的小数位数输出该层的输出值；

所述卷积神经网络的每一层的输出值共用同一个可预设的小数位，以定点数完成卷积及偏置操作；

获取所述神经网络的计算结果作为所述语音数据的识别结果。

2.根据权利要求1所述的语音指令识别方法，其特征在于：

所述卷积神经网络的每一层的输出值均为预设位数的二进制数。

3.根据权利要求2所述的语音指令识别方法，其特征在于：

所述卷积神经网络的每一层的输出值均为8位的二进制数。

4.根据权利要求1至3任一项所述的语音指令识别方法，其特征在于：

所述卷积神经网络的多层的输出值中，至少一层的输出值的小数位数不同于另一层的输出值的小数位数。

5.根据权利要求1至3任一项所述的语音指令识别方法，其特征在于：

将所述三维卷积分解成分通道卷积后，对所述分通道卷积进行第一非线性处理。

6.根据权利要求5所述的语音指令识别方法，其特征在于：

所述第一非线性处理包括对所述分通道卷积的参数进行偏置和/或激活。

7.根据权利要求1至3任一项所述的语音指令识别方法，其特征在于：

将所述三维卷积分解成1×1卷积后，对所述1×1卷积进行第二非线性处理。

8.根据权利要求7所述的语音指令识别方法，其特征在于：

所述第二非线性处理包括对所述1×1卷积的参数进行偏置和/或激活。

9.计算机装置，具有处理器以及存储器，所述存储器存储有计算机程序，其特征在于：所述计算机程序被所述处理器执行时实现如权利要求1至8任一项所述的语音指令识别方法的各个步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于：

所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述语音指令识别方法的各个步骤。