CN115662409A

CN115662409A - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN115662409A
Application number: CN202211326184.1A
Authority: CN
Inventors: 章锦腾
Original assignee: Yizhu Technology Hangzhou Co ltd
Current assignee: Yizhu Technology Hangzhou Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-01-31
Anticipated expiration: 2042-10-27
Also published as: CN115662409B

Abstract

本发明公开了一种语音识别方法、装置、设备及存储介质，该方法包括基于BSS模型和wav2vec2模型，建立语音识别模型，在接收到待识别语音流时，将所述待识别语音流输入wav2vec2模型，以获得识别输出信号，提取所述识别输出信号的指标参数，当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入BSS模型，并将所述BSS模型输出的信号输入值wav2vec2模型，以获得识别输出信号，根据所述识别输出信号，获得语音识别结果。本发明通过跟踪输出WER，CER等指标变化来判断是否面临泛化性问题，来决定是否加入盲源分离算法，解决了目前的语音识别方法在噪音环境下的识别准确率不高的技术问题。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及到一种语音识别方法、装置、设备及存储介质。

背景技术

深度学习用得最多的是有监督学习，有监督学习就是数据必须经过标识才能用于Training，然而现在海量的数据是未标识数据。在许多情况下，足够的带标签数据通常代价高昂或难以获得，即使最近两年非常流行采用Pre-training方式的Transformer，fine-tuning的时候还是需要有足够标签的数据。

真实环境下，噪音种类很多，从声源或声场的时间特性来分，可分为稳态噪声和非稳态噪声，非稳态噪声又可分为周期性变化噪声、无规则变化噪声和脉冲声等。且实际场景中多种噪音可能会混合在一起，会有很多种噪音的组合。大量各种噪音场景组合的带标签数据极难获得，尽管目前采用Pre-training方式的Transformer在ASR模型上取得了较好的效果，但由于获取大量真实的含噪数据代价高昂，因此fine-tuning时会使用模拟仿真的数据，导致模型数据和真实环境数据不匹配，面临着模型的泛化性问题，这使得噪音环境下有效的ASR模型和KWS模型难以构建。在实际应用中遇到一些没有训练过的场景，可能会导致ASR识别效果下限很低，WER/CER指标很差，这就很难部署到端侧，落地困难。

盲源分离是在未知源信号和通道信息的情况下，利用源信号之间相互统计独立或相互统计不相关的特性，从多个观测信号中估计出所有的源信号。但是对于实际环境下的混合语音信号，由于回响和噪音的存在，而且信号源可能在持续的移动，这使得混合信号的系统是一个时变系统，滤波器比较容易陷入局部最小点，长时间无法收敛，这种时候盲源分离算法并不能取得很好的分离效果。因此，如何提高在噪音环境下的语音识别准确率，是一个亟需解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语音识别方法、装置、设备及存储介质，旨在解决目前的语音识别方法在噪音环境下的识别准确率不高的技术问题。

为实现上述目的，本发明提供一种语音识别方法，所述方法包括以下步骤：

基于BSS模型和wav2vec2模型，建立语音识别模型；

在接收到待识别语音流时，将所述待识别语音流输入wav2vec2模型，以获得识别输出信号；

提取所述识别输出信号的指标参数；

当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入BSS模型，并将所述BSS模型输出的信号输入值wav2vec2模型，以获得识别输出信号；

根据所述识别输出信号，获得语音识别结果。

可选的，所述BSS模型采用多通道LMS自适应滤波算法确定最优滤波器，并利用所述最优滤波器对待识别语音流进行信号分离。

可选的，所述多通道LMS自适应滤波算法确定最优滤波器的表达式和更新过程为：

；

；

其中，

为误差信号，

为观测信号，

为期望信号，

为分离滤波器，

为步长因子。

可选的，所述识别输出信号的指标参数为：认识词错率和字错率。

可选的，所述方法还包括：

为BSS模型生成使用标志位；

当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入BSS模型，将所述BSS模型输出的信号输入值wav2vec2模型，并将所述使用标志位更新为1。

可选的，所述方法还包括：

在检测到所述标志位为1时，获取wav2vec2模型输出的识别输出信号；

提取所述识别输出信号的指标参数；

当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入wav2vec2模型，以获得识别输出信号；

并将所述使用标志位更新为0。

此外，为了实现上述目的，本发明还提供了一种语音识别装置，所述语音识别装置包括：

建立模块，用于基于BSS模型和wav2vec2模型，建立语音识别模型；

第一输入模块，用于在接收到待识别语音流时，将所述待识别语音流输入wav2vec2模型，以获得识别输出信号；

提取模块，用于提取所述识别输出信号的指标参数；

第二输入模块，用于当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入BSS模型，并将所述BSS模型输出的信号输入值wav2vec2模型，以获得识别输出信号；

获得模块，用于根据所述识别输出信号，获得语音识别结果。

此外，为了实现上述目的，本发明还提供了一种语音识别设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现上述的语音识别方法的步骤。

此外，为了实现上述目的，本发明还提供了一种存储介质，所述存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现上述的语音识别方法的步骤。

本发明实施例提出的一种语音识别方法、装置、设备及存储介质，该方法包括基于BSS模型和wav2vec2模型，建立语音识别模型，在接收到待识别语音流时，将所述待识别语音流输入wav2vec2模型，以获得识别输出信号，提取所述识别输出信号的指标参数，当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入BSS模型，并将所述BSS模型输出的信号输入值wav2vec2模型，以获得识别输出信号，根据所述识别输出信号，获得语音识别结果。本发明通过跟踪输出WER，CER等指标变化来判断是否面临泛化性问题，来决定是否加入盲源分离算法，解决了目前的语音识别方法在噪音环境下的识别准确率不高的技术问题。

附图说明

图1为本发明实施例中一种语音识别设备的结构示意图；

图2为本发明语音识别方法的实施例的流程示意图；

图3为本发明语音识别方法的具体实例的示意图；

图4为本发明语音识别方法的原理示意图；

图5为本发明卷积混合滤波器模型示意图；

图6为本发明分离滤波器示意图；

图7为本发明自适应滤波器的原理框图；

图8为本发明通道一的时域和频域图；

图9为本发明通道二的时域和频域图；

图10为本发明仿真环境下噪音分离之后的时域和频域图；

图11为本发明实施例中语音识别装置的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

目前，在相关技术领域中，现有的语音识别方法在噪音环境下的识别准确率不高。

为了解决这一问题，提出本发明的语音识别方法的各个实施例。本发明提供的语音识别方法通过跟踪输出WER，CER等指标变化来判断是否面临泛化性问题，来决定是否加入盲源分离算法，为盲源分离算法的加入进行合理的控制。

参照图1，图1为本发明实施例方案涉及的语音识别设备的结构示意图。

设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station，MS)等。设备可能被称为用户终端、便携式终端、台式终端等。

通常，设备包括：至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序配置为实现如前所述的语音识别方法的步骤。

处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关语音识别操作，使得语音识别模型可以自主训练学习，提高效率和准确度。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的语音识别方法。

在一些实施例中，终端还可选包括有：通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地，外围设备包括：射频电路304、显示屏305和电源306中的至少一种。

通信接口303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。通信接口303通过外围设备用于接收用户上传的多个移动终端的移动轨迹以及其他数据。在一些实施例中，处理器301、存储器302和通信接口303被集成在同一芯片或电路板上；在一些其他实施例中，处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信，从而可获取多个移动终端的移动轨迹以及其他数据。射频电路304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity，无线保真)网络。在一些实施例中，射频电路304还可以包括NFC(Near FieldCommunication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时，显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时，显示屏305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏305可以为一个，电子设备的前面板；在另一些实施例中，显示屏305可以为至少两个，分别设置在电子设备的不同表面或呈折叠设计；在再一些实施例中，显示屏305可以是柔性显示屏，设置在电子设备的弯曲表面上或折叠面上。甚至，显示屏305还可以设置成非矩形的不规则图形，也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图1中示出的结构并不构成对语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例提供了一种语音识别方法，参照图2，图2为本发明语音识别方法的流程示意图。

本实施例中，所述语音识别方法包括以下步骤：

步骤S100，基于BSS模型和wav2vec2模型，建立语音识别模型。

具体而言，在语音识别之前，先建立基于BSS模型和wav2vec2模型的语音识别模型，利用模型在接收到待识别语音流时，可通过控制BSS模型和wav2vec2模型的接入，以提高语音识别中噪音分离的有效性。

步骤S200，在接收到待识别语音流时，将所述待识别语音流输入wav2vec2模型，以获得识别输出信号。

具体而言，首先在接收到待识别语音流时，先关闭BSS模型，仅利用wav2vec2模型对待识别语音流进行处理，获得识别输出信号。

步骤S300，提取所述识别输出信号的指标参数。

具体而言，指标参数包括认识词错率（WER）和字错率（CER）。

步骤S400，当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入BSS模型，并将所述BSS模型输出的信号输入值wav2vec2模型，以获得识别输出信号。

具体而言，在将待识别语音流输入BSS模型时，BSS模型采用多通道LMS自适应滤波算法确定最优滤波器，并利用所述最优滤波器对待识别语音流进行信号分离。

在本实施例中，所述多通道LMS自适应滤波算法确定最优滤波器的表达式和更新过程为：

；

；

其中，

为误差信号，

为观测信号，

为期望信号，

为分离滤波器，

为步长因子。

在优选的实施例中，语音识别方法还包括：

为BSS模型生成使用标志位；当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入BSS模型，将所述BSS模型输出的信号输入值wav2vec2模型，并将所述使用标志位更新为1。

在此之后，若检测到所述标志位为1，获取wav2vec2模型输出的识别输出信号；提取所述识别输出信号的指标参数；当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入wav2vec2模型，以获得识别输出信号；并将所述使用标志位更新为0。

步骤S500，根据所述识别输出信号，获得语音识别结果。

容易理解的，在获得分离噪音之后的识别输出信号时，即可利用识别输出信号进行语音-文字识别，获得语音识别结果。

在本实施例中，提供了一种语音识别方法，通过跟踪输出WER，CER等指标变化来判断是否面临泛化性问题，来决定是否加入盲源分离算法，解决了目前的语音识别方法在噪音环境下的识别准确率不高的技术问题。

如图3所示，为了便于理解，现提供本申请语音识别的具体实例，具体如下：

程序刚启动时，不开启BSS算法，直接把采集的语音信号作为wav2vec2模型的输入。程序运行时主要是通过循环判断wav2vec2模型的输出WER/CER指标来动态调节，如WER/CER指标性能差，则开启BSS算法。

极端情况下，比如非常复杂的噪音环境，输入的语音信号SNR极低且多种噪音/回响叠加，BSS算法可能会在这些场景下，LMS滤波器一直陷入局部最小点，长时间无法收敛，盲源分离性能达不到预期效果，那么这时需通过同时判断B_flag标志位和WER/CER指标，来决定是否关闭BSS算法模块。

需要说明的是，本实例语音识别的原理，如图4所示，根据跟踪输出WER，CER等指标变化来判断是否面临泛化性问题，来决定是否加入盲源分离模块。如果WER等指标突然变差，加入盲源分离模块，让盲源分离的输出作为wav2vec2模型的输入。

其中，基于二阶统计量的盲源分离算法，是在源信号统计独立或统计不相关的前提下，以分离信号之间的相关性最小作为分离判据进行优化求解。由于源信号之间没有相关性，所以当分离信号之间的相关性达到最小时，完成观测信号的分离。为便于说明，以双通道为例，则语音信号的卷积混合滤波器模型如图5所示，分离滤波器如图6所示。

假设滤波器都是严格因果，令

，阶数为K₁，

，阶数为K₂，则由图6容易得到：

；

。

基于上式，可以得出结论，在卷积模型下，二阶统计量的盲源分离算法可通过LMS自适应滤波器算法来求解。本申请通过多通道LMS算法求解最优分离滤波器实现信号分离，当分离信号之间的相关性达到最小时，完成观测信号的分离。

自适应滤波器是一种能够根据输入信号自动调整自身参数的数字滤波器。自适应滤波器处理语音信号时，不需要事先知道输入信号和噪声的统计特性，滤波器自身能够在工作过程中学习或估计信号的统计特性，并以此为依据调整自身参数，以达到某种准则/代价函数下的最优滤波效果。一旦信号统计特性发生变化，还可以跟踪这种变化，重新调节参数，使滤波性能重新达到最优。因此，自适应滤波是处理非平稳信号的一种有效手段。

自适应滤波器的原理框图如图7所示，N阶的滤波器，参数为W(n)，则滤波器的输出为：

；

期望输出为d(n)，定义误差信号：

；

标准时域LMS算法的更新公式：

。

输入信号x(n) 通过参数可调数字滤波器后产生输出信号 y(n)，将其与期望信号d(n)进行比较，形成误差信号e(n)，通过自适应算法对滤波器参数进行调整，最终使 e(n)的均方值最小。自适应滤波可以利用前一时刻已得的滤波器参数的结果，自动调节当前时刻的滤波器参数，以适应信号和噪声未知的或随时间变化的统计特性，从而实现最优滤波。自适应滤波器不需要关于输入信号的先验知识，计算量小，特别适用于实时处理。

多通道LMS算法求解最优滤波器公式和更新过程如下：

；

；

其中，

为误差信号，

为观测信号，

为期望信号，

为分离滤波器，

为步长因子。

在具体的仿真环境模拟测试中，输入的双通道语音+背景噪音数据，背景噪音为非稳态的音乐数据，通道一的时域和频域图如图8所示，通道二的时域和频域图如图9所示，经过BSS算法处理后，尤其是在前半部分音乐噪音，基本被分离出去了，留下了高SNR的有用语音，如图10所示。

在实际的环境性能测试中，在室内环境的ASR测试中，环境噪音包含电视播放的非稳态噪音和室内环境的噪音，采用盲源分离处理之后的信号作为端到端ASR模型的输入，可以把唤醒率从85%提高到90%左右。

在本实例中，由于噪音多种多样，且实际场景中多种噪音可能会混合在一起，会有很多种噪音的组合。端到端的ASR模型，包括Transformer的wav2vec2模型，遇到没有训练过的噪音组合场景，很容易导致场景失配，模型输出效果突然变得很差。采用盲源分离之后的语音信号，作为模型的输入，避免很差的效果，来确保识别的准确率。另外，采用盲源分离之后的语音信号，毕竟已经把噪音分离了，留下了语音信号，这样即使是没有训练过的噪音场景，也不会导致ASR模型识别效果突然变的很差，可以指数级的减少模型训练的数据集。

参照图11，图11为本发明语音识别装置实施例的结构框图。

如图11所示，本发明实施例提出的语音识别装置包括：

建立模块10，用于基于BSS模型和wav2vec2模型，建立语音识别模型；

第一输入模块20，用于在接收到待识别语音流时，将所述待识别语音流输入wav2vec2模型，以获得识别输出信号；

提取模块30，用于提取所述识别输出信号的指标参数；

第二输入模块40，用于当检测到所述指标参数不在预设参数范围内时，将所述待识别语音流输入BSS模型，并将所述BSS模型输出的信号输入值wav2vec2模型，以获得识别输出信号；

获得模块50，用于根据所述识别输出信号，获得语音识别结果。

本发明语音识别装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上文所述的语音识别方法的步骤。因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。确定为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。