CN105895084B

CN105895084B - 一种应用于语音识别的信号增益方法和装置

Info

Publication number: CN105895084B
Application number: CN201610191920.5A
Authority: CN
Inventors: 李敬源
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2019-09-17
Anticipated expiration: 2036-03-30
Also published as: CN105895084A

Abstract

本发明提供一种应用于语音识别的信号增益方法和装置，以在对语音信号放大时防止过载失真，提高语音识别的准确率。所述方法包括：删除经过预处理后的语音信号中的无话段，得到第一语音信号；求取第一语音信号中每帧信号存在语音的概率PRatio；修正第一语音信号的增益，使概率PRatio小于第一判决门限的信号的增益减小并且概率PRatio大于第一判决门限的信号的增益增大，得到增益修正后的第二语音信号；限制第二语音信号的增益，使其小于系统设定的增益极值。本发明提供的技术方案可防止后期语音识别时语音识别引擎工作的中止，提高语音识别的有效性，有效提高后期语音识别的准确率，并防止语音识别过程中过载失真情况的发生。

Description

一种应用于语音识别的信号增益方法和装置

技术领域

本发明属于语音识别领域，尤其涉及一种应用于语音识别的信号增益方法和装置。

背景技术

自动增益控制是数字接收端重要的组成部分，其功能是针对输入信号的强弱自动调整增益，得到符合期望的信号强度输出结果，使得对不同强度的信号，输出信号的差距缩小。在语音识别前处理阶段，远程拾音的过程中，自动增益控制的目标是从接收到的语音中提取出感兴趣的信号，尽可能地对语音信号进行增强，同时削弱噪声对识别结果的影响。与一般的对话系统不同，针对语音识别的自动增益控制系统，其输出结果并不以获得满意的听觉效果为目标，而是要针对语音识别的特性，尽可能地保证目标语音无失真地放大。

然而，在语音识别领域，现有的增益控制方法无法达到上述效果，主要原因在于没有对语音信号进行差别化处理。

发明内容

本发明的目的在于提供一种应用于语音识别的信号增益方法和装置，以在对语音信号放大时防止过载失真，提高语音识别的准确率。

本发明第一方面提供一种应用于语音识别的信号增益方法，所述方法包括：

删除经过预处理后的语音信号中的无话段，得到第一语音信号；

求取所述第一语音信号中每帧信号存在语音的概率PRatio；

修正所述第一语音信号的增益，使所述概率PRatio小于第一判决门限的信号的增益减小并且所述概率PRatio大于所述第一判决门限的信号的增益增大，得到增益修正后的第二语音信号；

限制所述第二语音信号的增益，使其小于系统设定的增益极值。

本发明第二方面提供一种应用于语音识别的信号增益装置，所述装置包括：

话段处理模块，用于删除经过预处理后的语音信号中的无话段，得到第一语音信号；

语音存在概率求取模块，用于求取所述第一语音信号中每帧信号存在语音的概率PRatio；

增益修正模块，用于修正所述第一语音信号的增益，使所述概率PRatio小于第一判决门限的信号的增益减小并且所述概率PRatio大于所述第一判决门限的信号的增益增大，得到增益修正后的第二语音信号；

增益控制模块，用于限制所述第二语音信号的增益，使其小于系统设定的增益极值。

从上述本发明技术方案可知，一方面，由于在控制增益的前期首先对经过预处理后的语音信号中的无话段进行了删除，后期的处理只针对有话段的语音信号，如此，可防止后期语音识别时语音识别引擎工作的中止，提高语音识别的有效性；另一方面，对语音存在概率较高的信号和语音存在概率较低的信号分别进行增益增强和增益抑制，如此，可以进一步有效提高后期语音识别的准确率；第三方面，对增益增强和抑制的信号的增益进行一定程度的限制，可以防止语音识别过程中过载失真情况的发生。

附图说明

图1是本发明实施例一提供的应用于语音识别的信号增益方法的实现流程示意图；

图2是本发明实施例二提供的应用于语音识别的信号增益装置的结构示意图；

图3是本发明实施例三提供的应用于语音识别的信号增益装置的结构示意图；

图4是本发明实施例四提供的应用于语音识别的信号增益装置的结构示意图；

图5-a是本发明实施例五提供的应用于语音识别的信号增益装置的结构示意图；

图5-b是本发明实施例六提供的应用于语音识别的信号增益装置的结构示意图；

图5-c是本发明实施例七提供的应用于语音识别的信号增益装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种应用于语音识别的信号增益方法和装置，所述方法包括：删除经过预处理后的语音信号中的无话段，得到第一语音信号；求取所述第一语音信号中每帧信号存在语音的概率PRatio；修正所述第一语音信号的增益，使所述概率PRatio小于第一判决门限的信号的增益减小并且所述概率PRatio大于所述第一判决门限的信号的增益增大，得到增益修正后的第二语音信号；限制所述第二语音信号的增益，使其小于系统设定的增益极值。本发明实施例还提供相应的应用于语音识别的信号增益装置。以下分别进行详细说明。

请参阅附图1，是本发明实施例一提供的应用于语音识别的信号增益方法的实现流程示意图，主要包括以下步骤S101至步骤S104，详细说明如下：

S101，删除经过预处理后的语音信号中的无话段，得到第一语音信号。

语音信号包含有话段和无话段，有话段和无话段的检测对语音识别的意义重大；当将有话段和无话段检测出来之后，删除无话段的部分，对剩下的有话段语音部分进行增益等处理，可以提高语音识别的准确率。在本发明实施例中，对语音信号的预处理主要是包括对语音信号进行回声抑制和噪声的消除。

作为本发明一个实施例，删除经过预处理后的语音信号中的无话段，得到第一语音信号可以通过如下步骤S1011和步骤S1012实现：

S1011，采用倒谱双门限端点检测算法检测经过预处理后的语音信号中的无话段和有话段。

在采用倒谱双门限端点检测算法检测之前，可以对经过预处理后的语音信号进行预加重、分帧、加窗处理，并进行快速傅里叶变换和计算语音信号的能量谱。具体地，采用倒谱双门限端点检测算法检测经过预处理后的语音信号中的无话段和有话段可以包括如下步骤S1至S3：

S1，计算预处理后的语音信号中每帧信号的倒谱系数与噪声倒谱系数估计值的倒谱距离

公式中，p为Mel频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)的阶，mcⁱ(n)为第i帧信号的离散余弦变换(DiscreteCosine Transform，DCT)倒谱系数，可通过计算通过Mel滤波器的能量得到，而mc^ns(n)为噪声的DCT倒谱系数初始估计值。在本发明实施例中，对于第i帧信号，可通过取第i帧信号之前的5帧信号的MFCC的均值作为噪声的DCT倒谱系数初始估计值mc^ns(n)。

S2，采用第二判决门限，将倒谱距离大于第二判决门限所对应的信号帧确定为基本语音段的粗略起始端点和结束端点。

S3，采用第三判决门限，将所述基本语音段中倒谱距离大于所述第三判决门限的信号帧确定为语音段的起始端点和结束端点。

需要说明的是，在本发明实施例中，由于步骤S2是粗略判决，S3是精确判决，因此，第三判决门限小于第二判决门限。例如，若以σ₂表示第二判决门限，以σ₃表示第三判决门限，则两者的关系可以是σ₃＝0.2σ₂。

步骤S3之后，基本上可以确定语音信号中语音段的起始端点和结束端点。

S1012，对预处理后的语音信号中的无话段进行截除或置零。

在经过步骤S3之后，也就是确定了语音信号中语音段的起始端点和结束端点，语音信号的其余部分就是无话段部分了，对这些无话段部分，可以进行截除或置零，剩下的部分就是语音信号的语音段部分。

S102，求取第一语音信号中每帧信号存在语音的概率PRatio。

虽然经过步骤S101，已经删除了无话段，但是并不意味着每帧信号都存在语音。因此，在本发明实施例中，可以通过求取第一语音信号中每帧信号存在语音的概率PRatio，然后，对存在语音概率较高的部分和存在语音概率较低的部分差别化处理。

作为本发明一个实施例，求取第一语音信号中每帧信号存在语音的概率PRatio可通过如下步骤S1021和步骤S1022实现：

S1021，通过对第一语音信号中每帧信号的均值进行标准化处理，计算得到每帧信号的均值mS、所述第一语音信号的总均值mL和每帧信号的标准差stL。

在计算得到每帧信号的均值mS后，例如，求取任意第i帧信号的均值mS后，可以求取第i帧信号的均值平方vS＝mS*mS，进而对第i帧信号的mS、vS和第i帧信号之前的信号进行平滑，得到第一语音信号的总均值mL和总平方值vL。然后按照公式stL＝(vL-mL*mL)︿0.5计算得到每帧信号的标准差stL。

S1022，按照公式PRatio＝(mS-mL)/stL计算得到第一语音信号中每帧信号存在语音的概率PRatio。

经过步骤S1021之后，得到每帧信号的均值mS、第一语音信号的总均值mL和每帧信号的标准差stL，可以按照公式PRatio＝(mS-mL)/stL计算得到第一语音信号中每帧信号存在语音的概率PRatio。

S103，修正第一语音信号的增益，使概率PRatio小于第一判决门限的信号的增益减小并且概率PRatio大于第一判决门限的信号的增益增大，得到增益修正后的第二语音信号。

例如，若在设计系统的增益时，设计的值用gainOri表示，则将第一语音信号中存在语音的概率PRatio小于第一判决门限的信号的增益可修正为gain₁＝gainOri*PRatio，gain₁为修正后的增益；将第一语音信号中存在语音的概率PRatio大于第一判决门限的信号的增益可修正为gain₂＝gainOri*(1+PRatio)，gain₂为修正后的增益。

在本发明实施例中，第一判决门限是一个经验值。若以σ₁表示第一判决门限，以p_min表示全部信号存在语音的概率的最小值，以p_max表示全部信号存在语音的概率的最大值，则σ₁可取为σ₁＝p_min+(p_max-p_min)*0.2。

S104，限制第二语音信号的增益，使其小于系统设定的增益极值。

具体地，可以将第二语音信号的幅度标准值与经过步骤S103修正后的增益相乘，若相乘后的语音信号发生过载失真，则微调相乘后的语音信号的增益直至小于系统设定的增益极值。例如，若相乘后的语音信号的增益为g，在判断这一增益下的语音信号发生过载失真时，则可以将该增益乘以0.95得到0.95g，再判断增益为0.95g的语音信号是否发生过载，若发生过载，则再次微调，直至小于系统设定的增益极值。需要说明的是，在本发明实施例中，增益极值可以根据系统的需求设定，例如，根据系统的需求，可以将增益极值设定为0(dB)；对输入的信号，其增益一般设定为5(dB)，接近极值部分信号的增益逐渐减小，保证放大后信号值小于目标极值。

显然，对第二语音信号的增益的限制是一个以旧代新的迭代过程，直至最后获得的增益小于系统设定的增益极值。

从上述附图1示例的应用于语音识别的信号增益方法可知，一方面，由于在控制增益的前期首先对经过预处理后的语音信号中的无话段进行了删除，后期的处理只针对有话段的语音信号，如此，可防止后期语音识别时语音识别引擎工作的中止，提高语音识别的有效性；另一方面，对语音存在概率较高的信号和语音存在概率较低的信号分别进行增益增强和增益抑制，如此，可以进一步有效提高后期语音识别的准确率；第三方面，对增益增强和抑制的信号的增益进行一定程度的限制，可以防止语音识别过程中过载失真情况的发生。

请参阅附图2，是本发明实施例二提供的应用于语音识别的信号增益装置的结构示意图。为了便于说明，附图2仅示出了与本发明实施例相关的部分。附图2示例的应用于语音识别的信号增益装置可以是附图1示例的应用于语音识别的信号增益方法的执行主体。附图2示例的应用于语音识别的信号增益装置主要包括话段处理模块201、语音存在概率求取模块202、增益修正模块203和增益控制模块204，其中：

话段处理模块201，用于删除经过预处理后的语音信号中的无话段，得到第一语音信号；

语音存在概率求取模块202，用于求取第一语音信号中每帧信号存在语音的概率PRatio；

增益修正模块203，用于修正第一语音信号的增益，使概率PRatio小于第一判决门限的信号的增益减小并且概率PRatio大于所述第一判决门限的信号的增益增大，得到增益修正后的第二语音信号；

增益控制模块203，用于限制第二语音信号的增益，使其小于系统设定的增益极值。

需要说明的是，以上附图2示例的应用于语音识别的信号增益装置的实施方式中，各功能模块的划分仅是举例说明，实际应用中可以根据需要，例如相应硬件的配置要求或者软件的实现的便利考虑，而将上述功能分配由不同的功能模块完成，即将所述应用于语音识别的信号增益装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。而且，实际应用中，本实施例中的相应的功能模块可以是由相应的硬件实现，也可以由相应的硬件执行相应的软件完成，例如，前述的语音存在概率求取模块，可以是具有执行前述求取第一语音信号中每帧信号存在语音的概率PRatio的硬件，例如语音存在概率求取器，也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备；再如前述的增益修正模块，可以是执行修正第一语音信号的增益的硬件，例如增益修正器，也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备(本说明书提供的各个实施例都可应用上述描述原则)。

附图2示例的话段处理模块201可以包括检测单元301和截零单元302，如附图3所示本发明实施例三提供的应用于语音识别的信号增益装置，其中：

检测单元301，用于采用倒谱双门限端点检测算法检测预处理后的语音信号中的无话段和有话段；

截零单元302，用于对预处理后的语音信号中的无话段进行截除或置零。

附图3示例的检测单元301可以包括倒谱距离计算单元401、第一确定单元402和第二确定单元403，如附图4所示本发明实施例四提供的应用于语音识别的信号增益装置，其中：

倒谱距离计算单元401，用于计算预处理后的语音信号中每帧信号的倒谱系数与噪声倒谱系数估计值的倒谱距离其中，mcⁱ(n)为第i帧信号的离散余弦变换DCT倒谱系数，mc^ns(n)为噪声的DCT倒谱系数初始估计值，p为Mel频率倒谱系数的阶；

第一确定单元402，用于采用第二判决门限，将倒谱距离d_mfcc(i)大于第二判决门限所对应的信号帧确定为基本语音段的粗略起始端点和结束端点；

第二确定单元403，用于采用第三判决门限，将基本语音段中倒谱距离大于所述第三判决门限的信号帧确定为语音段的起始端点和结束端点，其中，第三判决门限小于第二判决门限，例如，第三判决门限可以取为第二判决门限的0.2倍。

附图2至4任一示例的增益控制模块201可以包括相乘单元501和增益微调单元502，如附图5-a至附图5-c所示本发明实施例五至实施例七提供的应用于语音识别的信号增益装置，其中：

相乘单元501，用于将第二语音信号的幅度标准值与增益修正模块203修正后的增益相乘；

增益微调单元503，用于若相乘后的语音信号发生过载失真，则微调相乘后的语音信号的增益直至小于系统设定的增益极值。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其带来的技术效果与本发明方法实施例相同，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本发明实施例所提供的应用于语音识别的信号增益方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种应用于语音识别的信号增益方法，其特征在于，所述方法包括：

通过对所述第一语音信号中每帧信号的均值进行标准化处理，计算得到每帧信号的均值mS、所述第一语音信号的总均值mL和每帧信号的标准差stL；

按照公式PRatio＝(mS-mL)/stL计算得到所述第一语音信号中每帧信号存在语音的概率PRatio；

2.如权利要求1所述的方法，其特征在于，所述删除经过预处理后的语音信号中的无话段，得到第一语音信号，包括：

采用倒谱双门限端点检测算法检测所述预处理后的语音信号中的无话段和有话段；

对所述预处理后的语音信号中的无话段进行截除或置零。

3.如权利要求2所述的方法，其特征在于，所述采用倒谱双门限端点检测算法检测所述预处理后的语音信号中的无话段和有话段，包括：

计算所述预处理后的语音信号中每帧信号的倒谱系数与噪声倒谱系数估计值的倒谱距离所述mcⁱ(n)为第i帧信号的离散余弦变换DCT倒谱系数，所述mc^ns(n)为噪声的DCT倒谱系数初始估计值，所述p为Mel频率倒谱系数的阶；

采用第二判决门限，将所述倒谱距离大于所述第二判决门限所对应的信号帧确定为基本语音段的粗略起始端点和结束端点；

采用第三判决门限，将所述基本语音段中倒谱距离大于所述第三判决门限的信号帧确定为语音段的起始端点和结束端点，所述第三判决门限小于所述第二判决门限。

4.如权利要求1至3任意一项所述的方法，其特征在于，所述限制所述第二语音信号的增益，包括：

将所述第二语音信号的幅度标准值与所述修正后的增益相乘；

若相乘后的语音信号发生过载失真，则微调所述相乘后的语音信号的增益直至小于系统设定的所述增益极值。

5.一种应用于语音识别的信号增益装置，其特征在于，所述装置包括：

增益控制模块，用于限制所述第二语音信号的增益，使其小于系统设定的增益极值；

其中，所述语音存在概率求取模块包括：

第一计算单元，用于通过对所述第一语音信号中每帧信号的均值进行标准化处理，计算得到每帧信号的均值mS、所述第一语音信号的总均值mL和每帧信号的标准差stL；

第二计算单元，用于按照公式PRatio＝(mS-mL)/stL计算得到所述第一语音信号中每帧信号存在语音的概率PRatio。

6.如权利要求5所述的装置，其特征在于，所述话段处理模块包括：

检测单元，用于采用倒谱双门限端点检测算法检测所述预处理后的语音信号中的无话段和有话段；

截零单元，用于对所述预处理后的语音信号中的无话段进行截除或置零。

7.如权利要求6所述的装置，其特征在于，所述检测单元包括：

倒谱距离计算单元，用于计算所述预处理后的语音信号中每帧信号的倒谱系数与噪声倒谱系数估计值的倒谱距离所述mcⁱ(n)为第i帧信号的离散余弦变换DCT倒谱系数，所述mc^ns(n)为噪声的DCT倒谱系数初始估计值，所述p为Mel频率倒谱系数的阶；

第一确定单元，用于采用第二判决门限，将所述倒谱距离d_mfcc(i)大于所述第二判决门限所对应的信号帧确定为基本语音段的粗略起始端点和结束端点；

第二确定单元，用于采用第三判决门限，将所述基本语音段中倒谱距离大于所述第三判决门限的信号帧确定为语音段的起始端点和结束端点，所述第三判决门限小于所述第二判决门限。

8.如权利要求5至7任意一项所述的装置，其特征在于，所述增益控制模块包括：

相乘单元，用于将所述第二语音信号的幅度标准值与所述修正后的增益相乘；

增益微调单元，用于若相乘后的语音信号发生过载失真，则微调所述相乘后的语音信号的增益直至小于系统设定的所述增益极值。