CN116312545A

CN116312545A - 多噪声环境下的语音识别系统和方法

Info

Publication number: CN116312545A
Application number: CN202310604820.0A
Authority: CN
Inventors: 傅训
Original assignee: Beijing Daodafengchang Technology Co ltd
Current assignee: Beijing Daodafengchang Technology Co ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-06-23
Anticipated expiration: 2043-05-26
Also published as: CN116312545B

Abstract

本发明涉及语音识别技术领域，具体多噪声环境下的语音识别系统和方法；其包括语音输入模块、降噪模块和语音识别模块，所述语音识别系统基于语音输入模块输入语音音频，所述降噪模块用于对输入的语音音频进行降噪处理，所述语音识别模块对降噪后的语音音频进行识别，并将识别结果输出至用户端；本发明中以基础噪声信号和目标信号作为对比标准得出瞬态噪声信号，这样使瞬态噪声的认定变得更加灵活，从而避免过多的使用瞬态噪声抑制模块进行降噪，以降低降噪过程中的计算量，减轻系统的运行负担，使瞬态噪声抑制模块仅在必要时介入。

Description

多噪声环境下的语音识别系统和方法

技术领域

本发明涉及语音识别技术领域，具体地说，涉及多噪声环境下的语音识别系统和方法。

背景技术

在语音识别中，降噪的意义非常重要，噪音可以干扰语音信号的良好识别，例如环境噪音、交通噪音、声音反射等，因此，如果能够降低噪音，就可以提高语音信号的质量，进而提高语音识别的准确性和可靠性；在语音识别系统中，通常使用数字信号处理技术来减少噪音，这些技术包括滤波、降噪算法、时域处理和频域处理等，这些方法可以分析和识别语音信号中的噪声成分，并消除或减弱它们，使得语音信号更加清晰和容易识别。

可是在面对瞬态噪声时，普通的技术很难对其进行降噪处理，因为瞬态噪声具有一些比较特殊的特征：在时域上是短暂的振荡衰减的，通常作用时间在10ms-30ms内，在频域上分布比较宽。

在现有技术中有针对瞬态噪声进行降噪处理的技术，但是降噪过程中非常复杂，计算量也非常大，而且并不是所有情况下都需要对瞬态噪声进行降噪，比如环境中在同一时间下有多个瞬态噪音，这时候可以掌握瞬态噪音的特征进行正常的降噪处理，而且在多噪声环境下，也很难完成瞬态噪音的降噪。

发明内容

本发明的目的在于提供多噪声环境下的语音识别系统和方法，以解决多环境下噪音相互干扰导致瞬态噪声难以处理的问题。

为实现上述目的，本发明目的之一在于，提供了多噪声环境下的语音识别方法，其包括如下方法步骤：

S1、向语音识别系统输入语音音频；

S2、采用自适应噪声降噪法对语音音频进行降噪处理，在处理过程中得到目标信号和噪声信号，噪声信号又包含基础噪音信号和瞬态噪声信号，其中：

基础噪音信号是必然产生的，而瞬态噪声信号是基于基础噪声信号和目标信号产生的；

S3、在瞬态噪声信号产生后针对瞬态噪声信号进行降噪处理；

S4、对降噪后的语音音频进行识别，并将识别结果输出至用户端；

其中，S3在瞬态噪声信号产生后进行，如果S2中没有产生瞬态噪声信号，则直接进行S4。

作为本技术方案的进一步改进，所述S2中的自适应噪声降噪法包括如下步骤：

S2.1、建立滤波器；

S2.2、估计噪声；

S2.3、进行噪声减除；

S2.4、对减除后的信号进行平滑处理。

作为本技术方案的进一步改进，所述滤波器包括移动滤波器或自适应滤波器。

作为本技术方案的进一步改进，所述S3中针对瞬态噪声信号进行降噪处理的方法步骤如下：

S3.1、建立瞬态噪声信号模型；

S3.2、采用递归均值算法对瞬态噪声信号的噪声谱进行提取；

S3.3、根据提取的噪声谱抑制瞬态噪声。

作为本技术方案的进一步改进，所述递归均值算法对带瞬态噪声语音功率谱密度进行时域递归平均，具体公式如下：

；

式中，

为频率的索引号；/>

和/>

为时域帧的索引号；/>

为带瞬态噪声语音功率谱；/>

和/>

为带瞬态噪声语音功率谱的时域平滑；/>

为带瞬态噪声语音功率谱的时域平滑因子。

本发明目的之二在于，提供了多噪声环境下的语音识别系统，其包括语音输入模块、降噪模块和语音识别模块，所述语音识别系统基于语音输入模块输入语音音频，所述降噪模块用于对输入的语音音频进行降噪处理，所述语音识别模块对降噪后的语音音频进行识别，并将识别结果输出至用户端，所述语音识别系统至少还包括：

语音过渡模块，所述语音过渡模块用于搭建瞬态噪声过渡存储区和基准噪声过渡存储区，其中，所述基准噪声过渡存储区为必要存储区，所述瞬态噪声过渡存储区为选择性产生存储区；

瞬态噪声抑制模块，所述瞬态噪声抑制模块在瞬态噪声过渡存储区产生时介入，以对语音音频中的瞬态噪声进行抑制。

作为本技术方案的进一步改进，所述降噪模块具体将语音音频分解为目标信号和噪声信号，所述噪声信号包括基础噪声信号和瞬态噪声信号，其中：

所述目标信号和基础噪声信号进入基准噪声过渡存储区进行存储；

所述瞬态噪声信号进入瞬态噪声过渡存储区进行存储。

作为本技术方案的进一步改进，所述瞬态噪声信号基于基础噪声信号和目标信号产生。

作为本技术方案的进一步改进，所述瞬态噪声抑制模块对降噪模块降噪后的语音音频进行抑制。

作为本技术方案的进一步改进，所述降噪模块包括语音音频接收单元、自适应降噪单元和音频信号输出单元，其中：

所述语音音频接收单元用于接收语音输入模块输入的语音音频；

所述自适应降噪单元采用自适应噪声降噪法对语音音频进行降噪处理；

所述音频信号输出单元用于向瞬态噪声过渡存储区和基准噪声过渡存储区输出对应的音频信号。

与现有技术相比，本发明的有益效果：

1、该多噪声环境下的语音识别系统和方法中，以基础噪声信号和目标信号作为对比标准得出瞬态噪声信号，这样使瞬态噪声的认定变得更加灵活，从而避免过多的使用瞬态噪声抑制模块进行降噪，以降低降噪过程中的计算量，减轻系统的运行负担，使瞬态噪声抑制模块在必要时介入。

2、该多噪声环境下的语音识别系统和方法中，介入后的瞬态噪声抑制模块对降噪模块降噪后的语音音频进行抑制，也就是说，瞬态噪声抑制模块在进行抑制时，基础噪声信号已经被减弱，进而使瞬态噪声信号更加明显，以便于瞬态噪声抑制模块进行抑制，同时也避免了多噪音之间的相互干扰。

附图说明

图1为本发明语音识别系统的整体单元框图；

图2为本发明的降噪模块内部工作流程框图；

图3为本发明的识别方法步骤流程示意图；

图4为本发明的自适应噪声降噪方法步骤流程示意图；

图5为本发明的针对瞬态噪声信号进行降噪处理的方法步骤流程示意图。

图中各个标号意义为：

100、语音识别输入模块；200、降噪模块；300、语音识别模块；400、语音过渡模块；500、瞬态噪声抑制模块；

210、语音音频接收单元；220、自适应降噪单元；230、音频信号输出单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为此，本实施例提供了多噪声环境下的语音识别系统，如图1所示，该系统包括语音输入模块100、降噪模块200和语音识别模块300，同现有的语音识别原理相同，即语通过音输入模块100向语音识别系统内输入需要识别的语音音频，输入后降噪模块200对输入的语音音频进行降噪处理，接着语音识别模块300对降噪后的语音音频进行识别，并将识别结果输出至用户端，这里的用户端可以是手机、电脑、智能音响又或者是智能手表等搭载有语音识别功能的设备，为了解决多环境下噪音相互干扰导致瞬态噪声难以处理的问题，本实施例的语音识别系统至少还包括：

语音过渡模块400，语音过渡模块400用于搭建瞬态噪声过渡存储区和基准噪声过渡存储区，以下将二者统称为过渡存储区，过渡存储区对语音音频的信号进行存储，这样在产生瞬态噪声时，能够进行延时，以为瞬态噪声抑制模块500介入提供足够时间，如果没有产生瞬态噪声的话，语音识别模块300就可以在其识别后直接输出，其中，瞬态噪声抑制模块500在瞬态噪声过渡存储区产生时介入，以对语音音频中的瞬态噪声进行抑制。

进一步的，基准噪声过渡存储区为必要存储区，也就是说不论有无瞬态噪声都得产生基准噪声过渡存储区，因为需要通过基准噪声过渡存储区对述降噪模块200降噪处理的语音音频进行存储，降噪模块200具体将语音音频分解为目标信号和噪声信号，噪声信号包括基础噪声信号和瞬态噪声信号，其中：

目标信号和基础噪声信号进入基准噪声过渡存储区进行存储，而目标信号和基础噪声信号是每个语音音频都具有的，所以说基准噪声过渡存储区为必要存储区。

而瞬态噪声信号是基于基础噪声信号和目标信号产生的，并存储至瞬态噪声过渡存储区，而瞬态噪声得出是具有一定条件的，这样瞬态噪声过渡存储区是基于瞬态噪声产生而产生的，所以说瞬态噪声过渡存储区为选择性产生存储区，其产生是受瞬态噪声选择的；简单来说就是，瞬态噪声产生瞬态噪声过渡存储区就会产生，以对瞬态噪声信号进行存储，同时瞬态噪声抑制模块500对降噪模块200降噪后的语音音频进行抑制。

需要说明的是，如图2所示，降噪模块200包括语音音频接收单元210、自适应降噪单元220和音频信号输出单元230，其中：

语音音频接收单元210用于接收语音输入模块100输入的语音音频；

自适应降噪单元220采用自适应噪声降噪法对语音音频进行降噪处理；

音频信号输出单元230用于向瞬态噪声过渡存储区和基准噪声过渡存储区输出对应的音频信号。

工作时，首先语音输入模块100将提取到的语音音频输入至语音音频接收单元210，具体可通过麦克风、数字录音机、耳麦、话筒或者传感器等，其中：

麦克风是一种将声音转换成电信号的设备，在语音识别中，麦克风是最常用的设备之一，可以将人的声音转换成数字信号，以供计算机进行处理和识别；数字录音机是一种可以将声音录制成数字化音频文件的设备，它可以记录语音、音乐等声音，并将录制的内容转化成电脑可以处理的数字信号，再借助电脑完成识别处理；耳麦和话筒也是一种可以进行语音提取的设备，它们可以采集人的声音，并将其转换为数字信号；传感器是一种可以检测声音、振动等信号的设备，在一些特殊场合下，例如在嘈杂环境中进行语音识别，传感器可以起到一定的作用。

接着，语音音频接收单元210接收语音输入模块100输入的语音音频，再通过自适应降噪单元220对语音音频进行降噪处理，降噪处理过程中产生的目标信号和噪声信号（即音频信号），被音频信号输出单元230输出至过渡存储区，这时候如果环境中出现多处在时域上是短暂的振荡衰减的，同时在频域上分布比较宽的噪音时，本实施例将这类噪音认定为基础噪声信号，因为这类噪音由多点同时产生，在该环境下这类噪音属于一个常态，例如：在计算机房，这种敲击键盘的噪音就是一个常态，又或者在厂房内机器的轰鸣声就是一个常态，这样在降噪时相应的噪音规律更容易掌握，也更具特点，而且在该环境下的目标信号也会更加突出，这时候完全可以不需要瞬态噪声抑制模块500介入，而是将上述常态话的噪音认定为基础噪声信号。

同时，在降噪处理过程中会以基础噪声信号和目标信号作为对比标准得出瞬态噪声信号（即瞬态噪声），这样使瞬态噪声的认定变得更加灵活，从而避免过多的使用瞬态噪声抑制模块500进行降噪，以降低降噪过程中的计算量，减轻系统的运行负担，使瞬态噪声抑制模块500在必要时介入。

而且，介入后的瞬态噪声抑制模块500对降噪模块200降噪后的语音音频进行抑制，也就是说，瞬态噪声抑制模块500在进行抑制时，基础噪声信号已经被减弱，进而使瞬态噪声信号更加明显，以便于瞬态噪声抑制模块500进行抑制，并且避免了多噪音之间的相互干扰。

基于上述原理，本实施例还提供了多噪声环境下的语音识别方法，如图3所示，该方法包括如下方法步骤：

S1、向语音识别系统输入语音音频；

S4、对降噪后的语音音频进行识别，并将识别结果输出至用户端。

需要说明的是，S3在瞬态噪声信号产生后进行，如果S2中并没有产生瞬态噪声信号，那么直接跳过S3，直接进行S4。

进一步说明的是，在S2进行的同时，本实施例会根据产生的基础噪音信号和瞬态噪声信号搭建基准噪声过渡存储区和瞬态噪声过渡存储区，因为基础噪音信号是必然产生的，所以基准噪声过渡存储区为必要存储区，而瞬态噪声过渡存储区为选择性产生存储区，总之，基准噪声过渡存储区和瞬态噪声过渡存储区分别对基础噪声信号和瞬态噪声信号进行存储。

如图4所示，在S2中说到的自适应噪声降噪法包括如下步骤：

S2.1、建立滤波器：对于每个信号（具体包括目标信号和噪声信号）都需要建立一个滤波器（包括移动滤波器或自适应滤波器），用于估计信号中的噪声水平；

S2.2、估计噪声：通过建立的滤波器，可以得出当前信号中存在的噪声水平，具体使用短时平均幅度来表示噪声水平；

S2.3、进行噪声减除：在得到估计的噪声水平之后，可以将其减去，从而得到一个更加清晰的信号，而噪声减除通常使用差分处理或减法处理；

S2.4、对减除后的信号进行平滑处理：为了使减除后的信号更加平滑和自然，可使用一些数字滤波器或平滑算法对其进行平滑处理。

自适应噪声抑制法基于最小均方误差准则，利用时间域滤波器实现降噪，具体来说，自适应噪声抑制法将输入信号分解为目标信号和噪声信号两部分，通过对噪声信号进行建模，将其作为滤波器输入，利用最小均方误差准则来不断优化滤波器参数，以取得最好的降噪效果。

而自适应噪声抑制法的核心是一个自适应滤波器，该滤波器可以通过一些参数的调整不断适应环境噪声的变化，来提高噪声抑制的效果，以下是适应噪声抑制法中的关键参数的计算公式：

其一、估计噪声信号的功率谱密度，使用前一段时间的语音信号的短时谱来估计噪声功率谱密度，计算公式如下：

；

其中，H{N}(f)表示噪声的功率谱密度函数，f表示功率谱；{N}表示噪声信息标记；P{xx}(f)表示当前语音信号的功率谱密度函数；{xx}表示语音信号标记；A是滤波器的平滑系数。

其二、计算滤波器的输出，将输入信号x(n)分离成目标信号s(n)和基础噪声信号v(n)，滤波器的输出y(n)计算公式如下：

；

其中，

表示初始输入信号；L表示滤波器的步长；/>

表示第i个输入信号；

表示第j个滤波器在第i个输入信号处的值；n和m分别表示输入信号总数和滤波器总数；

并通过以上计算公式是不断迭代更新实现滤波器的自适应降噪的过程，在迭代更新过程中常用的适应算法包括LMS算法、RLS算法等。

如图5所示，S3中针对瞬态噪声信号进行降噪处理的方法步骤如下：

S3.1、建立瞬态噪声信号模型；

S3.2、采用递归均值算法对瞬态噪声信号的噪声谱进行提取；

S3.3、根据提取的噪声谱抑制瞬态噪声。

其中，递归均值算法对带瞬态噪声语音功率谱密度进行时域递归平均，具体公式如下：

；

式中，

为频率的索引号；/>

为时域帧的索引号；/>

为带瞬态噪声语音功率谱；/>

为带瞬态噪声语音功率谱的时域平滑；/>

为带瞬态噪声语音功率谱的时域平滑因子；/>

的大小与/>

这个带瞬态噪声语音功率谱有关，/>

越小，当前帧的权重越大，越容易跟踪到瞬态噪声的快速变化，而且在进行瞬态噪声处理时，基础噪音信号已经被取出，所以瞬态噪声的变化很容易被追踪到，因此/>

的设定控制在0.6-0.7范围内变化。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种多噪声环境下的语音识别方法，其特征在于，包括如下方法步骤：

S1、向语音识别系统输入语音音频；

S2、采用自适应噪声降噪法对语音音频进行降噪处理，在处理过程中得到目标信号和噪声信号，所述噪声信号包含基础噪音信号和瞬态噪声信号，所述基础噪音信号是语音音频产生过程中必然产生的，而瞬态噪声信号是基于基础噪声信号和目标信号产生的；

若产生瞬态噪声信号，则进入步骤S3；若未产生瞬态噪声信号，则进入步骤S4；

S3、在瞬态噪声信号产生后针对瞬态噪声信号进行降噪处理；具体包括：

S3.1、建立瞬态噪声信号模型；

S3.2、采用递归均值算法对瞬态噪声信号的噪声谱进行提取；所述递归均值算法对带瞬态噪声语音功率谱密度进行时域递归平均，满足公式：

；

其中，

和/>

为带瞬态噪声语音功率谱的时域平滑函数；/>

为频率的索引号；/>

和/>

为时域帧的索引号；/>

为带瞬态噪声语音功率谱的时域平滑因子；

为带瞬态噪声语音功率谱函数；

S3.3、根据提取的噪声谱抑制瞬态噪声；

2.根据权利要求1所述的多噪声环境下的语音识别方法，其特征在于，所述S2中的自适应噪声降噪法包括如下步骤：

S2.1、建立滤波器；

S2.2、估计噪声；

S2.3、进行噪声减除；

S2.4、对减除后的信号进行平滑处理。

3.根据权利要求2所述的多噪声环境下的语音识别方法，其特征在于，所述滤波器包括移动滤波器或自适应滤波器。

4.一种多噪声环境下的语音识别系统，用于执行如权利要求1至3任一项所述的多噪声环境下的语音识别方法，其包括语音输入模块（100）、降噪模块（200）和语音识别模块（300），所述语音识别系统基于语音输入模块（100）输入语音音频，所述降噪模块（200）用于对输入的语音音频进行降噪处理，所述语音识别模块（300）对降噪后的语音音频进行识别，并将识别结果输出至用户端，其特征在于，所述语音识别系统至少还包括：

语音过渡模块（400），所述语音过渡模块（400）用于搭建瞬态噪声过渡存储区和基准噪声过渡存储区，其中，所述基准噪声过渡存储区为必要存储区，所述瞬态噪声过渡存储区为选择性产生存储区；

瞬态噪声抑制模块（500），所述瞬态噪声抑制模块（500）在瞬态噪声过渡存储区产生时介入，以对语音音频中的瞬态噪声进行抑制。

5.根据权利要求4所述的多噪声环境下的语音识别系统，其特征在于，所述降噪模块（200）具体将语音音频分解为目标信号和噪声信号，所述噪声信号包括基础噪声信号和瞬态噪声信号，其中：

所述瞬态噪声信号进入瞬态噪声过渡存储区进行存储。

6.根据权利要求5所述的多噪声环境下的语音识别系统，其特征在于，所述瞬态噪声信号基于基础噪声信号和目标信号产生。

7.根据权利要求6所述的多噪声环境下的语音识别系统，其特征在于，所述瞬态噪声抑制模块（500）对降噪模块（200）降噪后的语音音频进行抑制。

8.根据权利要求7所述的多噪声环境下的语音识别系统，其特征在于，所述降噪模块（200）包括语音音频接收单元（210）、自适应降噪单元（220）和音频信号输出单元（230），其中：

所述语音音频接收单元（210）用于接收语音输入模块（100）输入的语音音频；

所述自适应降噪单元（220）采用自适应噪声降噪法对语音音频进行降噪处理；

所述音频信号输出单元（230）用于向瞬态噪声过渡存储区和基准噪声过渡存储区输出对应的音频信号。