CN110738983A

CN110738983A - 基于设备工作状态切换的多神经网络模型语音识别方法

Info

Publication number: CN110738983A
Application number: CN201810705470.6A
Authority: CN
Inventors: 何云鹏
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2020-01-31

Abstract

基于设备工作状态切换的多神经网络模型语音识别方法,包括专用神经网络模型训练过程，所述专用神经网络模型训练过程针对设备的特定工作状态进行训练；所述识别方法还包括识别装置的工作状态检测步骤和语音识别步骤，语音识别步骤中根据检测步骤的结果选择不同的神经网络模型。本发明在设备的不同工作状态下，导入其对应的不同的神经网模型参数进行计算，在关机状态或设备噪声不强的情况下采用通用网络模型，在其他工作状态下采用该状态适应的神经网络模型进行识别过程计算，大幅提升了终端语音识别性能。

Description

基于设备工作状态切换的多神经网络模型语音识别方法

技术领域

本发明属于人工智能技术领域，涉及语音识别技术，具体涉及一种基于设备工作状态切换的多神经网络模型语音识别方法。

背景技术

近年来，以人工神经网络(ANN)为核心的人工智能算法在各行业，各设备上应用已经成为趋势。其中人类的语言语音以其自然方便的特性必将成为人与设备终端最主流的交互方式。随着人工智能语音识别算法应用推广的深入进行，人们发现仅仅云端智能存在着响应慢，依赖网络，以及隐私安全隐患，因此在设备端的人工智能边缘计算的重要性成为共识。以启英泰伦为代表的企业率先在行业推出集成人工神经网络处理器(NPU)核的智能语音芯片，有效提高了设备终端语音识别的准确率，响应速度，降低了功耗，摆脱了网络依赖，为人工智能语音识别在本地终端上普及应用打开了方便之门。

目前最通常的几种人工神经网络模型为深度神经网络(DNN)、卷积神经网络(CNN)、递归神经网络(RNN)及长短时记忆模型神经网络(LSTM) 等。尤其是是DNN和CNN已经广泛应用在语音识别和图像识别中。各种神经网络尽管有细节不同，但主要结构和运算单元基本相同，主要结构包括输入层，中间层(或称隐含层)及输出层。每层包含数百到数千以上的神经元计算，每个神经元节点的计算主要以上一层神经元输出或同一层神经元上一周期的输出作为输入，并和相对应的神经网络参数相乘并累加为主。不失一般性，以全连接的深度神经网络为例来说明神经网络模型参数，其主要计算过程可以表述为以下公式：

输入层计算：

i＝1，2，…..I；代表总汁为I 个特征输入，的第i个输入语音特征Y_i其他各层的计算为：

其中，Y_i是输入层第i个语音特征信号输入；代表输入层第j₁个神经元节点的计算输出；表示输入层第j₁个神经元节点乘累加计算过程中Y_i输入的权重参数，

是输入层第j₁个神经元节点计算过程中的偏置参数； f()是激活函数；所有上一层(k-1层)神经元输出节点

是下一层(k层) 神经元节点输出

的输入；

分别是第k层第j_k神经元的神经元权重参数利偏置参数。这里以及

就是所述的深度神经网络模型参数，简称神经网络模型，神经网络模型是通过大数据训练得到。

完整的人工智能语音识别算法分为两个过程，一是离线的训练过程，一是实时的识别过程。离线训练具体的过程描述如图1所示。

图1是一个完整通用的离线语音训练过程。包含了语料库及标注，语音特征提取过程，神经网络的前向计算，其计算结果与标注进行比对计算出误差损失函数，根据误差损失进行反向传播(BP)计算，修正各层神经网络模型参数，并重复进行神经网络的前向计算和损失函数计算，及参数修正计算过程，直到误差损失函数小于一个给定值，此时训练结束，得到的网络模型参数即为训练的结果。

实时识别过程如图2所示，设备终端的识别过程通常是一个实时识别过程，输入语音为麦克风实时录入，并进行实时的语音特征提取，ANN前向计算，ANN计算所用的网络模型输入为训练过程中训练好的网络模型，最后进行语音搜索解码，得到最终的语音识别识别的文本结果。其中语言模型是一个预存放的语言网络模型库软件。离线训练好的网络模型以及与设备功能交互相关的语言模型库软件往往预先存放在终端设备的存储器件中。

由于终端应用场景的广泛性以及工作模式状态的多样性，通常需要采用一个泛化性非常强的通用模型，这样用于训练的语料库需包含各种场景下的语料大数据。实践表明通用模型虽然具有较高的场景适应性，但对于一种具体的终端设备的特定工作状态而言，通用模型通常并不能达到最佳的效果，尤其是有些设备工作时产生较大的特定噪声。即使训练语料集中包含了该种终端的特定状态下的含噪语料，由于其占比相对于大语料集而言非常小，还是不能取得很好识别效果。

发明内容

为克服特定设备(尤其是工作时发出强噪声的设备)使用单一神经网络模型语音识别算法难以满足各种状态下的识别精度要求，本发明公开了一种基于设备工作状态切换的多神经网络模型语音识别方法。

本发明所述基于设备工作状态切换的多神经网络模型语音识别方法，其特征在于，包括专用神经网络模型训练过程，所述专用神经网络模型训练过程针对设备的特定工作状态进行训练；所述识别方法还包括识别装置的工作状态检测步骤和语音识别步骤，语音识别步骤中根据检测步骤的结果选择不同的神经网络模型。

优选的，所述专用神经网络模型训练过程包括如下步骤，语料采集装置采集设备特定工作状态下的语音特征；根据语音特征进行ANN前向运算，计算结果与标注进行比对计算出误差损失，根据误差损失修正各层神经网络模型参数；

重复进行上述前向计算、误差损失及及参数修正过程，直到误差损失低于预先设定的给定值，得到特定状态下的神经网络模型。

优选的，所述工作状态检测步骤为检测设备发出的工作状态标识信息；或检测语音背景噪声并根据背景噪声的特征判定当前设备处于哪种工作状态。

优选的，工作状态检测步骤中，检测出设备的工作状态后，根据工作状态选择对输入的实时语音进行不同的处理计算，所述处理计算方式包含 BYPASS方式及降噪方式。

本发明在设备的不同工作状态下，导入其对应的不同的神经网模型参数进行计算，在待机或关机状态或设备噪声不强的情况下采用通用网络模型，在其他工作状态下采用该状态适应的神经网络模型进行识别过程计算，大幅提升了终端语音识别性能。

附图说明

图1为现有技术下离线语音训练过程的流程示意图；

图2为现有技术下的终端实时识别过程示意图；

图3为本发明的一种具体实施方式流程示意图；

图4为本发明所述专用神经网络模型训练过程的一个具体实施方式示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述基于设备工作状态切换的多神经网络模型语音识别方法，包括专用神经网络模型训练过程，所述专用神经网络模型训练过程针对设备的特定工作状态进行训练；所述识别方法还包括识别装置的工作状态检测步骤和语音识别步骤，语音识别步骤中根据检测步骤的结果选择不同的神经网络模型。

对于电视机、洗衣机、油烟机等设备，开机前与开机后的噪声环境明显不同，电视机开机后电视节目声音，洗衣机和油烟机开机后电机旋转产生的噪声都会显著影响语音识别。

以上述设备的开机状态为例作为本发明所述的特定工作状态，为识别出设备的特定工作状态及在特定工作状态下保持语音识别的准确性，首先需要进行针对该特定工作状态的专用神经网络模型训练。

在特定工作状态进行语料采集以得到语音特征，特定工作状态通常是设备工作在大噪声状态下，也可以是将该工作状态下的背景噪声采集后混合添加到安静环境下采集到的通用语料集，生成该特定工作状态下的专用语料集。

如图4所示给出了所述专用神经网络模型训练过程的一个具体实施方式，包括如下步骤，识别装置采集设备特定工作状态下的语音特征；根据语音特征进行ANN(人工神经网络)前向运算，计算结果与标注进行比对计算出误差损失，根据误差损失修正各层神经网络模型参数；

重复进行上述前向计算、误差损失及参数修正过程，直到误差损失低于预先设定的给定值，得到特定状态下的神经网络模型。

所谓特定状态下的神经网络模型，就是得到一组应用于特定状态下的多层神经网络模型各层的权重参数和偏置参数，用该组参数对多层神经网络模型进行定义，从而得到针对特定状态的神经网络模型。该模型可以一次训练得到，也可以在使用过程中不断反复训练，不断对神经网络模型的参数进行修正。

多种神经网络模型的库通常存放在语音识别终端的Norflash/nandflash，或DDR/SDRAM等存储设备中。

本发明的一个完整工作过程如图3所示，开启语音识别功能后，系统首先识别设备的工作状态，所述工作状态检测的实现可以是由设备发出设备工作状态输入消息，例如油烟机的电机开始旋转工作时，设备同步发送一个信号到语音识别终端，该终端判断出油烟机进入大噪声工作状态。

如果设备不方便发出该消息，即针对各种即时监测并未实现信号互联的设备，语音识别终端也可以根据输入的语音检测其语音背景噪声，根据背景噪声的能量大小及特征判定当前设备处于哪种工作状态。

工作状态检测后，根据工作状态选择可以对输入的实时语音进行不同的处理对输入的实时语音进行不同的处理计算，所述处理计算方式包含BYPASS 方式及降噪方式。BYPASS方式即不处理的直通方式，适用于中等强度噪声依靠带噪训练就可以适应的情况，降噪方式适用于噪声特别强的工作状态，可以针对噪声特点采用相应的自适应降噪或者其他降噪方式如定向波束成形等。

检测出工作状态后，系统调用对应的神经网络模型进行后续处理，继续进行语音特征提取、ANN前向计算、及语音搜索解码得到文本识别结果；其中 ANN前向计算中调用已经选择好的对应的神经网络模型和语音搜索解码时，调用预存的语言模型。

本发明在设备的不同工作状态下，导入其对应的不同的神经网模型参数进行计算，在待机、关机状态或设备噪声不强的情况下采用通用网络模型，在其他工作状态下采用该状态适应的神经网络模型进行识别过程计算，大幅提升了终端语音识别性能。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.基于设备工作状态切换的多神经网络模型语音识别方法,其特征在于，包括专用神经网络模型训练过程，所述专用神经网络模型训练过程针对设备的特定工作状态进行训练；所述识别方法还包括识别装置的工作状态检测步骤和语音识别步骤，语音识别步骤中根据检测步骤的结果选择不同的神经网络模型。

2.如权利要求1所述的识别方法，其特征在于，所述专用神经网络模型训练过程包括如下步骤，语料采集装置采集设备特定工作状态下的语音特征；根据语音特征进行ANN前向运算，计算结果与标注进行比对计算出误差损失，根据误差损失修正各层神经网络模型参数；

3.如权利要求1所述的识别方法，其特征在于，所述工作状态检测步骤为检测设备发出的工作状态标识信息；或检测语音背景噪声并根据背景噪声的特征判定当前设备处于哪种工作状态。

4.如权利要求1所述的识别方法，其特征在于，工作状态检测步骤中，检测出设备的工作状态后，根据工作状态选择对输入的实时语音进行不同的处理计算，所述处理计算方式包含BYPASS方式及降噪方式。