CN105845151A

CN105845151A - 应用于语音识别前端的音频增益调整方法和装置

Info

Publication number: CN105845151A
Application number: CN201610371874.7A
Authority: CN
Inventors: 徐杨飞; 魏建强; 崔玮玮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2016-08-10
Anticipated expiration: 2036-05-30
Also published as: CN105845151B

Abstract

本申请提出一种应用于语音识别前端的音频增益调整方法和装置，该应用于语音识别前端的音频增益调整方法包括：接收音频数据；对所述音频数据进行AGC处理；对AGC处理后的音频数据进行DRC处理。该方法能够提高音频增益的调整效果。

Description

应用于语音识别前端的音频增益调整方法和装置

技术领域

本申请涉及语音识别技术领域，尤其涉及一种应用于语音识别前端的音频增益调整方法和装置。

背景技术

语音识别技术是指让机器通过识别和理解过程把音频转变为相应的文本或命令的技术。在一些实际应用场景下，用户输入的语音信号的强度可能很弱，低于系统识别门限，因此，会造成语音信号不清楚，影响语音识别效果。为了提高语音识别效果，通常会在语音识别之前先进行音频增益调整。

相关技术中，通常采用自动增益控制技术(Automatic Gain Control，AGC)进行音频增益调整。

但是，AGC不能有效放大幅值较小的语音信号，影响音频增益效果。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种应用于语音识别前端的音频增益调整方法，该方法可以提高音频增益的调整效果。

本申请的另一个目的在于提出一种应用于语音识别前端的音频增益调整装置。

为达到上述目的，本申请第一方面实施例提出的应用于语音识别前端的音频增益调整方法，包括：接收音频数据；对所述音频数据进行AGC处理；对AGC处理后的音频数据进行DRC处理。

为达到上述目的，本申请第二方面实施例提出的应用于语音识别前端的音频增益调整装置，包括：接收模块，用于接收音频数据；AGC处理模块，用于对所述音频数据进行AGC处理；DRC处理模块，用于对AGC处理后的音频数据进行DRC处理。

本申请实施例至少在一定程度上具有如下技术效果之一：

通过将AGC技术与DRC技术结合用于语音识别前端的音频增益调整，可以在AGC放大信号强度后，再采用DRC放大小信号的强度，从而可以提高音频增益调整效果。

通过对DRC技术进行改进，可以更适合当前场景，从而可以进一步提高音频增益调整效果。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的应用于语音识别前端的音频增益调整方法的流程示意图；

图2是本申请实施例中AGC处理前后的音频数据的波形图；

图3是相关技术中的DRC曲线的示意图；

图4是本申请实施例中一种DRC曲线的示意图；

图5是本申请实施例中另一种DRC曲线的示意图；

图6是本申请实施例中经过AGC和DRC处理后的音频数据的波形图；

图7是本申请一个实施例提出的应用于语音识别前端的音频增益调整装置的结构示意图；

图8是本申请另一个实施例提出的应用于语音识别前端的音频增益调整装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

如上所示，相关技术中在语音识别前端的音频增益调整时通常采用AGC技术，但是效果并不理想。本申请将基于如下思路解决提高音频增益调整效果的技术问题。

(1)应用于语音识别前端的音频增益调整时，不仅采用AGC技术，还在AGC技术之后再采用动态范围控制(Dynamic Range Control，DRC)技术。

DRC技术用于缩小语音信号的动态范围，例如，将较小幅值的信号的幅值增大，将较大幅值的信号的幅值减小。

因此，当在AGC之后再采用DRC，可以有效放大较小幅值的信号，以提升音频增益调整效果。

需要说明的是，即使在其他领域中应用了DRC，但是，通常都是AGC和DRC单独应用的，本申请将AGC与DRC进行结合，以及具体应用在语音识别前端的音频增益调整中，属于本申请的创新点之一。

(2)本申请不仅将DRC与AGC结合，还可以进一步对DRC曲线进行改进。以进一步提高音频增益调整效果。

需要说明的是，虽然上述对主要思路进行了说明，但是，为了解决技术问题，具体的技术方案不限于上述的主要思路，还可以与其他特征相互结合，这些不同技术特征之间的结合依然属于本申请的保护范围。

需要说明的是，虽然上述给出了要解决的技术问题，但是，本申请并不限于仅能解决上述技术问题，应用本申请给出的技术方案还可以解决的其他技术问题依然属于本申请的保护范围。

需要说明的是，本申请的每个实施例不限于能够全部完美解决所有的技术问题，而是至少在一定程度上解决至少一个技术问题。

需要说明的是，虽然上述给出了本申请的主要思路，以及后续实施例会对一些特别点进行说明。但是，本申请的创新点并不限于上述的主要思路及特别点所涉及的内容，并不排除本申请中一些并未特殊说明的内容依然可能会包含本申请的创新点。

可以理解的是，虽然上述进行了一些说明，但依然不排除其他可能方案，因此，与后续本申请给出的实施例相同、相似、等同等情况的技术方案依然属于本申请的保护范围。

下面将结合具体实施例对本申请的技术方案进行说明。

图1是本申请一个实施例提出的应用于语音识别前端的音频增益调整方法的流程示意图。

本实施例主要体现将AGC与DRC进行结合。

如图1所示，本实施例的流程包括：

S11：接收音频数据。

例如，该音频数据是由用户发出的声音数据。

S12：对所述音频数据进行AGC处理。

本实施例中，采用AGC技术时，不限于AGC技术的具体实现。

例如，可以使用普通的AGC技术，或者，使用对普通的AGC技术进行改进后的AGC技术。

下面将对普通的AGC技术和一种改进的AGC技术进行主要流程的说明。可以理解的是，这些AGC技术的详细内容可以参见相关的已有技术。

普通的AGC技术的大致流程包括：

对接收的音频数据按照100ms进行分帧处理，并计算100ms的峰值；

利用EM(Expectation-Maximization)算法，根据峰值估计得到高斯分布的参数；

利用估计得到的高斯分布模型参数，根据最大似然准则判断当前100ms音频段是否为语音；

如果是语音，根据估计得到的模型参数，计算当前100ms音频的增益。

一种改进的AGC技术可以称为流式AGC技术，大致流程包括：

对接收的音频数据按照10ms进行分帧处理；

根据语音活动检测技术(voice activity detect，VAD)判断当前10ms音频段是否是语音；

如果是语音，根据历史音频与当前10ms音频段更新增益G，否则，如果不是语音，保持增益G不变。

根据更新后的增益G或保持不变的增益G，对当前10ms音频段进行增益调整；

缓存当前10ms音频段及增益G。

经过AGC处理，语音信号的强度可以被放大。

例如，参见图2，给出了AGC处理前的音频数据的波形图21以及AGC处理后的音频数据的波形图22。

S13：对AGC处理后的音频数据进行DRC处理。

本实施例中，在音频增益调整时，不仅采用了AGC技术，还在AGC技术之后采用了DRC技术，以结合这两个技术，提高音频增益调整效果。经过AGC和DRC处理后的音频数据可以用于语音识别。

其中，DRC技术在实现时，可以采用普通的DRC技术。或者，

本申请还可以对DRC技术进行改进，以进一步提高音频增益调整效果。具体的对DRC技术进行改进的内容可以参见后续描述。

本实施例中，通过将AGC技术与DRC技术结合用于语音识别前端的音频增益调整，可以在AGC放大信号强度后，再采用DRC放大小信号的强度，从而可以提高音频增益调整效果。

如上所示，本申请不仅可以采用DRC技术。进一步的，还可以对DRC技术进行改进。具体的，本申请中，可以设计两种新的DRC曲线。

DRC曲线用于表明信号的输入能量值与输出能量值之间的关系。

一种通常的DRC曲线如图3所示。图3中的细虚线是斜率为1的直线，粗实线是DRC曲线，DRC曲线上会包括B、C、M、D四个点。相关技术中，上述四个点都是根据经验值设置的，都是固定的点。

而本申请改进的DRC曲线可以有两种，分别如图4和图5所示。

其中，参见图4或图5，本申请改进的DRC曲线中，也可以包含类似的四个点B、C、M、D，但是，其中的B点和M点都是根据实际信号情况确定的，不是人为固定设置的。

一些实施例中，B点对应的阈值(可称为第一阈值)是根据检测的噪声能量值确定的。

例如，在AGC处理时，可以通过VAD检测当前10ms音频段是语音或噪声，当其是噪声时，可以检测该噪声的能量值，以确定第一阈值。

进一步的，第一阈值是实时更新的，更新公式如下：

noise＝a*noise_pre+(1-a)*noise_cur

其中，noise是更新后的第一阈值，noise_pre是更新前的第一阈值，noise_cur是当前10ms音频段是噪声时检测到的当前的噪声能量值，a是设置的权重系数，如选为0.9。第一阈值的初始值也是设置的，如设置为0。

一些实施例中，M点对应的阈值(可称为第二阈值)是根据预设的AGC输出音频期望幅值确定的。例如，假设期望输入信号经过AGC处理之后信号的最大幅值为T，再根据最大幅值T计算对应的能量值，将该能量值确定为第二阈值。

进一步的，本申请改进的DRC曲线中，除了上述的B、C、M、D点之外，还可以设置另外两个点，分别用A点和A’点表示。

A点对应的阈值(可称为第三阈值)是设置的，通常选为很小的值，如-90db。

A’点对应的阈值(可称为第五阈值)可以根据线段A’B的斜率和长度确定，该斜率和长度是经验值。

另外，类似对A’点的选择，本申请DRC曲线中的C点和D点，也可以根据经验值的线段BC的斜率和长度确定，以及，根据经验值的线段MD的斜率和长度确定。其中，C点对应的阈值可称为第四阈值。

需要说明的是，上述的经验值确定的不同线段的斜率可以相同或不同，例如，线段A’B的斜率与线段BC的斜率在图4中以相同为例，但是这只是一种示例，线段A’B的斜率与线段BC的斜率也可以不同。类似的，线段CM的斜率与线段MD的斜率也可以相同或不同。

在确定出上述的A、A’、B、C、M、D点后，可以生成本申请提出的新的DRC曲线。如图4的粗实线或图5的粗实线所示。

进一步的，本申请的DRC曲线在大于M点时，可以如图4或5所示的对应MD这部分。或者，也可以是保持输入值与输出值不变，即大于M点时，对应细虚线所示的部分。

因此，基于图4或图5的DRC曲线，在DRC处理时可以具体执行：

当所述AGC处理后的音频数据的能量值大于所述第二阈值时(即大于M点对应的阈值)，保持所述AGC处理后的音频数据的幅值不变，或者，减小所述AGC处理后的音频数据的幅值；

当所述AGC处理后的音频数据的能量值位于所述第一阈值和所述第二阈值之间时(即位于B点对应的阈值和M点对应的阈值之间)，增大所述AGC处理后的音频数据的幅值；

当所述AGC处理后的音频数据的能量值小于所述第三阈值时(即小于A点对应的阈值)，保持所述AGC处理后的音频数据的幅值不变。

进一步的，在增大所述幅值时，第一增大变化量大于第二增大变化量；

所述第一增大变化量是所述AGC处理后的音频数据的能量值位于所述第一阈值与所述第四阈值之间时的增大变化量，所述第二增大变化量是所述AGC处理后的音频数据的能量值位于所述第四阈值与所述第二阈值之间时的增大变化量。

也就是说，BC段的增大变化量大于CM段的增大变化量，从而可以有效提升强度小的信号的幅值。

上述对图4和图5的共同点进行了说明。

进一步的，参见图4和图5，两者存在一定的区别，主要是AB段的处理。

参见图4，AB段的DRC处理具体是：

当所述AGC处理后的音频数据的能量值位于所述第三阈值与所述第一阈值之间时，减小所述AGC处理后的音频数据的幅值，且，第一减小幅度小于第二减小幅度；

其中，所述第一减小变化量是所述AGC处理后的音频数据的能量值位于所述第三阈值与所述第五阈值之间时的减小变化量，所述第二减小变化量是所述AGC处理后的音频数据的能量值位于所述第五阈值与所述第一阈值之间时的减小变化量。

也就是说，参见图4，AB段对应的DRC处理是减小幅值，由于B点是根据噪声能量值确定的，因此，当信号的能量值小于B点对应的阈值时，可以认为该信号属于噪声，通过对噪声进行减小，可以提高音频增益效果。

进一步的，在减小时，越靠近B点部分减小幅值的变化量越大，也就是说，AA’段的减小变化量小于A’B段的减小变化量。

参见图5，AB段的DRC处理具体是：

当所述AGC处理后的音频数据的能量值位于所述第五阈值与所述第一阈值之间时，保持所述AGC处理后的音频数据的幅值不变；

当所述AGC处理后的音频数据的能量值位于所述第三阈值与所述第五阈值之间时，减小所述AGC处理后的音频数据的幅值。

也就是说，A’B段保持幅值不变，AA’段进行减小幅值处理。这样处理是因为：B点是根据噪声能量值确定的，但是可能会存在不准确的问题，因此，保持AA’段不变，可以避免语音信号被误减小，提高稳健性。

经过上述的AGC和DRC处理，参见图6所示的两者结合处理后的波形图61，可以使得小信号也被有效放大。

本实施例中，通过对DRC技术进行改进，可以更适合当前场景，从而可以进一步提高音频增益调整效果。

图7是本申请一个实施例提出的应用于语音识别前端的音频增益调整装置的结构示意图。

参见图7，本实施例的装置70包括：接收模块71、AGC处理模块72和DRC处理模块73。

接收模块71，用于接收音频数据；

AGC处理模块72，用于对所述音频数据进行AGC处理；

DRC处理模块73，用于对AGC处理后的音频数据进行DRC处理。

一些实施例中，参见图8，该装置70还包括：

第一确定模块74，用于检测噪声能量值，并根据所述噪声能量值确定第一阈值；

第二确定模块75，用于根据预设的AGC输出音频期望幅值确定第二阈值；

第三确定模块76，用于设置第三阈值；

一些实施例中，所述第一确定模块74具体用于：

对更新前的第一阈值和当前的噪声能量值进行加权相加，得到更新后的第一阈值，作为确定出的第一阈值。

一些实施例中，所述DRC处理模块73具体用于：

当所述AGC处理后的音频数据的能量值大于所述第二阈值时，保持所述AGC处理后的音频数据的幅值不变，或者，减小所述AGC处理后的音频数据的幅值；

当所述AGC处理后的音频数据的能量值位于所述第一阈值和所述第二阈值之间时，增大所述AGC处理后的音频数据的幅值；

当所述AGC处理后的音频数据的能量值小于所述第三阈值时，保持所述AGC处理后的音频数据的幅值不变。

一些实施例中，参见图8，该装置70还包括：

第四确定模块77，用于确定第四阈值，所述第四阈值大于所述第一阈值，且小于所述第二阈值；

所述DRC处理模块73用于在增大所述幅值时，第一增大变化量大于第二增大变化量；

一些实施例中，参见图8，该装置70还包括：

第五确定模块78，用于确定第五阈值，所述第五阈值大于所述第三阈值且小于所述第一阈值。

一些实施例中，所述DRC处理模块73具体用于：

当所述AGC处理后的音频数据的能量值位于所述第三阈值与所述第一阈值之间时，减小所述AGC处理后的音频数据的幅值，且，第一减小变化量小于第二减小变化量；

一些实施例中，所述DRC处理模块73具体用于：

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

本实施例中，通过将AGC技术与DRC技术结合用于语音识别前端的音频增益调整，可以在AGC放大信号强度后，再采用DRC放大小信号的强度，从而可以提高音频增益调整效果。通过对DRC技术进行改进，可以更适合当前场景，从而可以进一步提高音频增益调整效果。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种应用于语音识别前端的音频增益调整方法，其特征在于，包括：

接收音频数据；

对所述音频数据进行AGC处理；

对AGC处理后的音频数据进行DRC处理。

2.根据权利要求1所述的方法，其特征在于，还包括：

检测噪声能量值，并根据所述噪声能量值确定第一阈值；

根据预设的AGC输出音频期望幅值确定第二阈值；

设置第三阈值；

其中，所述第三阈值小于所述第一阈值，所述第一阈值小于所述第二阈值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述噪声能量值确定第一阈值，包括：

4.根据权利要求2所述的方法，其特征在于，所述对AGC处理后的音频数据进行DRC处理，包括：

当所述AGC处理后的音频数据的能量值小于所述第三阈值时，保持所述 AGC处理后的音频数据的幅值不变。

5.根据权利要求4所述的方法，其特征在于，还包括：

确定第四阈值，所述第四阈值大于所述第一阈值，且小于所述第二阈值；

其中，在增大所述幅值时，第一增大变化量大于第二增大变化量；

6.根据权利要求2所述的方法，其特征在于，还包括：

确定第五阈值，所述第五阈值大于所述第三阈值且小于所述第一阈值。

7.根据权利要求6所述的方法，其特征在于，所述对AGC处理后的音频数据进行DRC处理，包括：

8.根据权利要求6所述的方法，其特征在于，所述对AGC处理后的音频数据进行DRC处理，包括：

9.一种应用于语音识别前端的音频增益调整装置，其特征在于，包括：

接收模块，用于接收音频数据；

AGC处理模块，用于对所述音频数据进行AGC处理；

DRC处理模块，用于对AGC处理后的音频数据进行DRC处理。

10.根据权利要求9所述的装置，其特征在于，还包括：

第一确定模块，用于检测噪声能量值，并根据所述噪声能量值确定第一阈值；

第二确定模块，用于根据预设的AGC输出音频期望幅值确定第二阈值；

第三确定模块，用于设置第三阈值。

11.根据权利要求10所述的装置，其特征在于，所述第一确定模块具体用于：

12.根据权利要求10所述的装置，其特征在于，所述DRC处理模块具体用于：

13.根据权利要求12所述的装置，其特征在于，还包括：

第四确定模块，用于确定第四阈值，所述第四阈值大于所述第一阈值，且小于所述第二阈值；

所述DRC处理模块用于在增大所述幅值时，第一增大变化量大于第二增大变化量；

14.根据权利要求10所述的装置，其特征在于，还包括：

第五确定模块，用于确定第五阈值，所述第五阈值大于所述第三阈值且小于所述第一阈值。

15.根据权利要求14所述的装置，其特征在于，所述DRC处理模块具体用于：

16.根据权利要求14所述的装置，其特征在于，所述DRC处理模块具体用于：