CN111599371B

CN111599371B - 语音增加方法、系统、装置及存储介质

Info

Publication number: CN111599371B
Application number: CN202010424011.8A
Authority: CN
Inventors: 鄢戈; 王飞; 唐浩元; 王佳珺; 王欢良
Original assignee: Suzhou Qdreamer Network Technology Co ltd
Current assignee: Suzhou Qdreamer Network Technology Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2023-10-20
Anticipated expiration: 2040-05-19
Also published as: CN111599371A

Abstract

本发明涉及一种语音信号的处理方法，尤其是语音增强方法，包括以下步骤：S10、音频采集；S20、筛选有效语音信号；S30、初步增强语音；S40、筛选目标语音；S50、再次增强语音信号；S60、唤醒词检测，将再次增强的语音送入高精度的唤醒词检测模型中进行唤醒词检测，当检测到唤醒词时进入S70，否则返回S20；S70、持续增强语音，对通过唤醒词检测的语音进行持续增强，然后将增强后的语音送入识别端进行识别。本发明提供的语音增强方法可以有效的降低计算开销，即使在有强噪声场景下也能较准确的进行识别任务。适合应用在环境较复杂且计算资源有限的本地端。

Description

语音增加方法、系统、装置及存储介质

技术领域

本发明涉及一种语音信号的处理方法，尤其是语音增强方法、系统、装置及存储介质。

背景技术

语音增强是指从接收到的复杂的语音信号中提取有效的目标语音信号，降低或者抑制来自非目标语音信号的干扰的技术手段。目前语音增强算法通常需要预先知道目标声源的方位或者噪声的先验分布后通过一定的算法来进行语音增强。

然而在实际较强噪声的应用场景中，由于无法事先确定哪一个是目标声源，可能会导致声源定位不准确，影响后续的语音信号处理；而且相对复杂和较为精准的声源定位算法以及语音增强算法往往都意味着计算复杂度较高，需要提供较大的计算资源。所以，传统的语音增强算法和系统对某些应用场景存在一定的局限性。

发明内容

为解决上述问题，本发明提供一种在只有低计算资源设备的条件下，针对强噪声场景下的语音信号，依然可以做到有效的语音唤醒和语音识别的语音增加方法，具体技术方案为：

语音增强方法，包括以下步骤：

S10、音频采集，通过音频采集设备不断的采集多通道音频信号；

S20、筛选有效语音信号，用语音活动检测对接收到的音频信号进行不间断的检测筛选，筛选出有效语音信号；

S30、初步增强语音，对筛选出的有效语音信号进行初步增强，所述初步增强包括采用固定波束语音增强算法同时对多个方向进行语音增强；

S40、筛选目标语音，将初步增强的语音送入评分模型中进行评分，选择评分最高且大于指定阈值的语音信号，得到该信号的方向；

S50、再次增强语音信号，对筛选的目标语音进行再次增强，所述再次增强包括采用高性能的语音增强算法；

S60、唤醒词检测，将再次增强的语音送入高精度的唤醒词检测模型中进行唤醒词检测，当检测到唤醒词时进入S70，否则返回S20；

S70、持续增强语音，对通过唤醒词检测的语音进行持续增强，然后将增强后的语音送入识别端进行识别。

进一步的，所述固定波束语音增强算法包括广义旁瓣相消算法或权重延迟相加算法。

进一步的，所述评分模型包括深度神经网络唤醒模型，所述深度神经网络唤醒模型包括评分特征提取模块，所述评分特征提取模块用于对送入的初步增强的语音提取与模型匹配的特征；评分深度神经网络模块，所述评分深度神经网络模块用于将每一帧的语音特征转化为指定关键字与其它无关字的后验概率；评分唤醒决策模块，所述评分唤醒决策模块用于通过一段语音信号的后验概率来判断该段语音是否可以被唤醒。

进一步的，所述深度神经网络唤醒模型的层数为3-5层，节点数在30-40。

进一步的，所述唤醒决策模块的唤醒词包括两个字。

进一步的，所述高性能语音增强算法包括最小方差无失真响应算法或基于混合高斯模型的最小方差无失真响应算法。

进一步的，所述唤醒词检测模型包括时间延迟网络或者卷积神经网络。

进一步的，

所述唤醒词检测模型包括

唤醒词特征提取模块，所述唤醒词特征提取模块用于对送入的再次增强的语音提取与模型匹配的特征；

唤醒词深度神经网络模块，所述唤醒词深度神经网络模块用于将每一帧的语音特征转化为指定关键字与其它无关字的后验概率；

唤醒词唤醒决策模块，所述唤醒词唤醒决策模块用于通过一段语音信号的后验概率来判断该段语音是否可以被唤醒。

语音增强系统，包括音频采集系统，用于不断的采集多通道音频信号；有效语音信号筛选系统，用于对接收到的音频信号进行不间断的检测筛选；初步增强语音系统，用于对筛选出的有效语音信号进行初步增强；筛选目标语音系统，用于对初步增强的语音进行筛选；再次增强语音信号系统，用于对筛选的目标语音进行再次增强；唤醒词检测系统，用于对再次增强的语音进行唤醒词检测和判断；持续增强语音系统，用于对通过唤醒词检测的语音进行持续增强并送入识别端识别。

一种语音装置，所述装置包括处理器、存储器以及程序；所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行语音增强方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行语音增加方法的步骤。

与现有技术相比本发明具有以下有益效果：

本发明提供的语音增强方法可以有效的降低计算开销，即使在有强噪声场景下也能较准确的进行识别任务。适合应用在环境较复杂且计算资源有限的本地端。

附图说明

图1是语音增强方法的流程图；

图2是评分模型的方框图；

图3是唤醒词检测模型的方框图。

具体实施方式

现结合附图对本发明作进一步说明。

如图1至图3所示，语音增强方法，包括以下步骤：

其中，S40中选择评分最高且大于指定阈值的语言信号中，限定评分最高是为了确定目标语音的方向，后续只对该方向进行增强可以更加精确且减少计算量，一般阈值设定为0.5左右，可以适当的降低，尽量减少误拒率。

S30和S40中使用的是较小的简单dnn模型，S70中使用的是较复杂的网络模型。S40中的评分模型与S60中的唤醒词检测模型相同，区别在于精度和计算复杂度。

唤醒词检测模型中的特征提取模块在对送入的再次增强的语音提取与模型匹配的特征时，提取与模型的输入层维度匹配的特征。

固定波束语音增强算法包括广义旁瓣相消算法或权重延迟相加算法。

如图2所示，评分模型包括深度神经网络唤醒模型，所述深度神经网络唤醒模型包括评分特征提取模块，所述评分特征提取模块用于对送入的初步增强的语音提取与模型匹配的特征；评分深度神经网络模块，所述评分深度神经网络模块用于将每一帧的语音特征转化为指定关键字与其它无关字的后验概率；评分唤醒决策模块，所述评分唤醒决策模块用于通过一段语音信号的后验概率来判断该段语音是否可以被唤醒。

深度神经网络唤醒模型的层数为3-5层，节点数在30-40。

唤醒决策模块的唤醒词包括两个字。补充的环形决策中要体现出字的信息。

高性能语音增强算法包括最小方差无失真响应算法或基于混合高斯模型的最小方差无失真响应算法。

唤醒词检测模型包括时间延迟网络或者卷积神经网络。

如图3所示，唤醒词检测模型包括唤醒词特征提取模块，所述唤醒词特征提取模块用于对送入的再次增强的语音提取与模型匹配的特征；唤醒词深度神经网络模块，所述唤醒词深度神经网络模块用于将每一帧的语音特征转化为指定关键字与其它无关字的后验概率；唤醒词唤醒决策模块，所述唤醒词唤醒决策模块用于通过一段语音信号的后验概率来判断该段语音是否可以被唤醒。

存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。

实施例一

如图1所示，在步骤S10中，先通过音频采集设备不断的采集多通道音频信号，此时音频采集设备采集到的音频信号是原始的、复杂的，可能包含了各种噪音以及环境音的信号，所以无法判定哪一段属于目标语音段。

所以如果在此阶段通过进行声源定位然后做语音增强的话，不仅噪声可能导致定位不准确，而且需要长时间持续运行语音定位及语音增强算法，计算开销会特别大，甚至在有些计算资源十分有限的本地设备上根本无法运行。

因此，本发明在后续公开的步骤中介绍了一种能针对较强的噪声环境下的语音信号同时又能有效降低计算复杂度的系统。

在步骤S20中，用语音活动检测(Voice Activity Detection,VAD)对接收到的音频信号进行不间断的检测。目的是从声音信号流里面检测出长时间的静音段，如果检测结果是静音段则系统将其忽略，不会跳转到系统的下一阶段。如果检测到了有效语音信号的起始点，则跳转进入到下一步。这样做的目的是避免了算法对大量的无效语音段进行处理，有效减少了不必要的计算开销。

在步骤S30中，由于S20已经检测到了可能的有效语音片段，基于接收到的多通道信号，在S30采用固定波束语音增强算法同时来对n个方向进行语音增强，n为可变化的值，其值大小依赖于可提供的本地的计算资源的大小，本实施方式这里选取n＝6。因为S30只是初步的对可能的语音片段进行增强，所以在这个过程中对选取的6个方向的信号的语音增强算法可选用复杂度较低的快速算法，如广义旁瓣相消算法(Generalized SidelobeCancellation,GSC)或者权重延迟相加算法(Weight Delay And Sum，WDAS)等都是计算复杂度相对较低的增强算法，本实施方式采用权重延迟相加算法。然后，将经过初步增强后的语音片段送入下一阶段。

在步骤S40中，将S30中初步增强的6个方向语音信号送入一个评分模型，同时对6组语音信号进行评分。在该步骤中的评分模型可以采用规模较小、计算复杂度较低的唤醒模型，来计算指定的发音在特定模型下的后验概率。

比如采用层数3-5层，节点数在30～40之间的小型深度神经网络(Deep NeuralNetwork，DNN)唤醒模型，本实施方式采用的是4层隐层，隐层节点数为32维，输出节点为6维的dnn模型。如图2所示，评分模型包括深度神经网络唤醒模型，深度神经网络唤醒模型包括评分特征提取模块、评分深度神经网络模块、评分唤醒决策模块。这里会将语音信号先在提取送入评分特征提取模块提取与模型匹配的相应特征，然后送入评分唤醒模型进行唤醒检测，最后对指定的字进行评分，这里可以选择唤醒词的前两个字进行评分(一般唤醒词字数>＝3)，本实施例的唤醒词为“哈喽叶修”，这里选择前两个字“哈喽”进行评分。得到唤醒字经过模型的输出结果后，选择“哈喽”两个字评分最高且大于指定阈值的语音信号，该语音信号的方向就可以认为是最可能的目标语音方向α。

在步骤S50中，由于在S40中已经得到了目标语音最可能的方向α，所以在该步骤进行语音增强不用对所有的方向进行语音信号处理，只针对S40选定方向α的信号即可，这样就进一步减少了了大量的计算资源消耗。

同时，由于只需要对已知的α方向的信号进行增强处理，所以可以采用更强大的语音增强算法对S40中判断出的目标语音方向进行语音增强，在S50中可以选用相对S30中更高性能的语音增强算法，比如传统的最小方差无失真响应算法(Minimun Varia--nceDistortionless Response，MVRD)或者基于混合高斯模型的最小方差无失真响应算法(Complex Gaussian Mixture Model--Minimun Variance Distortionless Response，CGMM-MVDR)，本实施例采用最小方差无失真响应算法。将S40中得到的目标语音方向的信号进行语音增强后送入S60中。

在步骤S60中，S40已经得到了最有可能目标语音信号方向α，并且已经在S50中经过了进一步的语音增强处理。此时，送入S60的信号为可能包含目标语音并且相对干扰较小的语音信号，再来对该语音信号进行唤醒词检测，就可以得到较为准备的结果了。

这里采用规模较大、相对精确度较高的检测模型来检测，例如时间延迟网络(TimeDelay Neural Network,TDNN)或者卷积神经网络(Convoluti--onal Neural Networks,CNN)等。这类模型需要保证唤醒词检测正确率较高的同时，还要有较低的误唤醒率，来尽量避免非指定词的唤醒，所以计算复杂度较高，规模需求相对步骤S40中的模型也较大。

具体模型规模大小的选取也同时依赖于可提供计算资源，本实施例采用的是隐层数为4，隐层节点数为512，左右帧扩展为(15，10)的时间延迟网络模型。唤醒词检测模型如图三所示，唤醒词检测模型与评分模型的区别在与唤醒词深度神经网络模块相对较复杂。如果S60检测到了唤醒词“哈喽叶修”，则可判断该语音信号包含了目标语音段，将该信号送入下一阶段，到下一步S70；否则回到S20。

在步骤S70中，对于此时接收到的语音信号，已经在步骤S40中知道了目标语音的最大可能方向α，且在S60中基本确定了目前接收到的信号是包含唤醒词“哈喽叶修”的目标语音。

此时，持续对S40检测到的目标语音的方向α进行语音增强，然后将增强后的目标语音送入识别端进行识别，直到结束。这样既能有效的减少计算开销，又在一定程度上提高了识别的准确率。

Claims

1.语音增强方法，其特征在于，包括以下步骤：

S70、持续增强语音，对通过唤醒词检测的语音进行持续增强，然后将增强后的语音送入识别端进行识别；

所述固定波束语音增强算法包括广义旁瓣相消算法或权重延迟相加算法；

所述评分模型包括深度神经网络唤醒模型，所述深度神经网络唤醒模型包括

评分特征提取模块，所述评分特征提取模块用于对送入的初步增强的语音提取与模型匹配的特征；

评分深度神经网络模块，所述评分深度神经网络模块用于将每一帧的语音特征转化为指定关键字与其它无关字的后验概率；

评分唤醒决策模块，所述评分唤醒决策模块用于通过一段语音信号的后验概率来判断该段语音是否可以被唤醒。

2.根据权利要求1所述的语音增强方法，其特征在于，所述深度神经网络唤醒模型的层数为3-5层，节点数在30-40。

3.根据权利要求1所述的语音增强方法，其特征在于，所述唤醒决策模块的唤醒词包括两个字。

4.根据权利要求1所述的语音增强方法，其特征在于，所述高性能语音增强算法包括最小方差无失真响应算法或基于混合高斯模型的最小方差无失真响应算法。

5.根据权利要求1所述的语音增强方法，其特征在于，所述唤醒词检测模型包括时间延迟网络或者卷积神经网络。

6.根据权利要求1所述的语音增强方法，其特征在于，所述唤醒词检测模型包括

7.语音增强系统，其特征在于，包括

音频采集系统，用于不断的采集多通道音频信号；

有效语音信号筛选系统，用于对接收到的音频信号进行不间断的检测筛选；

初步增强语音系统，用于对筛选出的有效语音信号进行初步增强；

筛选目标语音系统，用于对初步增强的语音进行筛选；

再次增强语音信号系统，用于对筛选的目标语音进行再次增强；

唤醒词检测系统，用于对再次增强的语音进行唤醒词检测和判断；

持续增强语音系统，用于对通过唤醒词检测的语音进行持续增强并送入识别端识别；

其中，所述初步增强包括采用固定波束语音增强算法同时对多个方向进行语音增强；

所述语音进行筛选包括将初步增强的语音送入评分模型中进行评分，选择评分最高且大于指定阈值的语音信号，得到该信号的方向；

8.一种语音装置，其特征在于，所述装置包括

处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行权利要求1所述的语音增强方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行权利要求1所述的语音增强方法的步骤。