CN105913854A

CN105913854A - 语音信号级联处理方法和装置

Info

Publication number: CN105913854A
Application number: CN201610235392.9A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2016-08-31
Anticipated expiration: 2036-04-15
Also published as: CN105913854B; EP3444819A4; US10832696B2; EP3444819A1; EP3444819B1; US20210035596A1; WO2017177782A1; US11605394B2; US20180286422A1

Abstract

本发明涉及一种语音信号级联处理方法和装置。所述方法包括：获取语音信号；对所述语音信号进行特征识别；若所述语音信号为第一特征信号，则采用第一预增强滤波系数对第一特征信号进行预增强滤波，得到第一预增强语音信号；若所述语音信号为第二特征信号，则采用第二预增强滤波系数对所述第二特征信号进行预增强滤波，得到第二预增强语音信号；输出第一预增强语音信号或第二预增强语音信号，以根据所述第一预增强语音信号或第二预增强语音信号进行级联编解码处理。上述语音信号级联处理方法和装置，将预增强语音进行级联编解码，提高了经过级联编解码后的语音信号的可懂度。

Description

语音信号级联处理方法和装置

技术领域

本发明涉及音频数据处理领域，特别是涉及一种语音信号级联处理方法和装置。

背景技术

随着VOIP(Voice over Internet Protocol，网络电话)业务的推广，不同网络间互融应用日趋增多，如经互联网的IP电话与经PSTN(Public SwitchedTelephone Network，公共交换电话网络)固定电话互通，IP电话与无线网络的手机互通。不同网络的语音采用的是不同的语音编解码，如无线GSM(GlobalSystem for Mobile Communication，全球移动通信系统)网络采用AMR-NB编码，固定电话采用G711编码，IP电话采用G729等编码，由于各网络终端支持的语音编码格式不一致，必然导致通话链路出现多次编解码过程，目的使级联编解码后不同网络终端可以互通语音对接，然而，当前所用语音编码绝大部分都是有损编码器，即每次编解码必然导致语音质量下降，级联编解码的次数越多语音质量下降越剧烈，结果导致语音双方听不清对方的说话内容，即语音可懂度下降。

发明内容

基于此，有必要针对传统的针对通话语音信号传输中信号损伤导致语音可懂度下降的问题，提供一种语音信号级联处理方法，能提高语音信号的可懂度。

此外，还有必要提供一种语音信号级联处理装置，能提高语音信号的可懂度。

一种语音信号级联处理方法，包括：

获取语音信号；

对所述语音信号进行特征识别；

若所述语音信号为第一特征信号，则采用第一预增强滤波系数对所述第一特征信号进行预增强滤波，得到第一预增强语音信号；若所述语音信号为第二特征信号，则采用第二预增强滤波系数对所述第二特征信号进行预增强滤波，得到第二预增强语音信号；以及

输出所述第一预增强语音信号或第二预增强语音信号，以根据所述第一预增强语音信号或第二预增强语音信号进行级联编解码处理。

一种语音信号级联处理装置，包括：

语音信号获取模块，用于获取语音信号；

识别模块，用于对所述语音信号进行特征识别；

第一信号增强模块，用于若所述语音信号为第一特征信号，则采用第一预增强滤波系数对所述第一特征信号进行预增强滤波，得到第一预增强语音信号；

第二信号增强模块，用于若所述语音信号为第二特征信号，则采用第二预增强滤波系数对所述第二特征信号进行预增强滤波，得到第二预增强语音信号；以及

输出模块，用于输出所述第一预增强语音信号或第二预增强语音信号，以根据所述第一预增强语音信号或第二预增强语音信号进行级联编解码处理。

上述语音信号级联处理方法和装置，通过对语音信号进行特征识别，对第一特征信号采用第一预增强滤波系数进行预增强滤波处理，对第二特征信号采用第二预增强滤波系数进行预增强滤波处理，将预增强语音进行级联编解码处理，接收方能更清楚听清语音信息，提高了经过级联编解码后的语音信号的可懂度，针对第一特征信号和第二特征信号分别采用对应的滤波系数进行增强滤波处理，针对性更强，滤波处理更加准确。

附图说明

图1为一个实施例中语音信号级联处理方法的应用环境示意图；

图2为一个实施例中终端的内部结构示意图；

图3A为一个实施例中经过级联编解码后第一特征信号的频率能量损伤示意图；

图3B为一个实施例中经过级联编解码后第二特征信号的频率能量损伤示意图；

图4为一个实施例中语音信号级联处理方法的流程图；

图5为根据音频训练集中的训练样本进行离线训练得到第一预增强滤波系数和第二预增强滤波系数的具体流程图；

图6为一个实施例中获取该语音信号的基音周期；

图7为三电平削波处理原理示意图；

图8为一段语音的基音周期计算结果示意图；

图9为一个实施例中离线训练的预增强滤波系数对在线通话的语音输入信号进行增强的示意图；

图10为级联编解码后信号经过预增强后的级联编解码信号的示意图；

图11为未做增强的级联编解码的信号频谱与增强后的级联编解码的信号频谱的对比示意图；

图12为未做增强的级联编解码的信号频谱与增强后的级联编解码的信号频谱的中高频部分的对比示意图；

图13为一个实施例中语音信号级联处理装置的结构框图；

图14为另一个实施例中语音信号级联处理装置的结构框图；

图15为一个实施例中训练模块的内部结构示意图；

图16为另一个实施例中语音信号级联处理装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本发明的范围的情况下，可以将第一客户端称为第二客户端，且类似地，可将第二客户端称为第一客户端。第一客户端和第二客户端两者都是客户端，但其不是同一客户端。

图1为一个实施例中语音信号级联处理方法的应用环境示意图。如图1所示，该应用环境包括第一终端110、第一网络120、第二网络130和第二终端140。第一终端110接收语音信号，将语音信号经过第一网络120和第二网络130的编解码处理后，被第二终端140接收。第一终端110将语音对所述语音信号进行特征识别；若所述语音信号为第一特征信号，则采用第一预增强滤波系数对所述第一特征信号进行预增强滤波，得到第一预增强语音信号；以及若所述语音信号为第二特征信号，则采用第二预增强滤波系数对所述第二特征信号进行预增强滤波，得到第二预增强语音信号；输出所述第一预增强语音信号或第二预增强语音信号，经过第一网络120和第二网络130进行级联编解码处理后得到预增强后的级联编解码信号，第二终端140接收到预增强后的级联编解码信号，接收到的信号可懂度高。第一终端110接收第二终端140发送的经过第二网络130、第一网络120的语音信号，同样对接收到的语音信号进行预增强滤波处理。

图2为一个实施例中终端的内部结构示意图。如图2所示，该终端包括通过系统总线连接的处理器、存储介质、内存、网络接口、声音采集装置和扬声器。其中，终端的存储介质存储有操作系统，还包括一种语音信号级联处理装置。该处理器用于提供计算和控制能力，支撑整个终端的运行，该处理器被用于执行一种语音信号级联处理方法，包括获取语音信号；对该语音信号进行特征识别；若该语音信号为第一特征信号，则采用第一预增强滤波系数对该第一特征信号进行预增强滤波，得到第一预增强语音信号；以及若该语音信号为第二特征信号，则采用第二预增强滤波系数对该第二特征信号进行预增强滤波，得到第二预增强语音信号；输出该第一预增强语音信号或第二预增强语音信号，以根据该第一预增强语音信号或第二预增强语音信号进行级联编解码处理。该终端可以是能进行网络通话的电话机、手机、平板电脑或者个人数字助理等。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

因经过级联编解码后的语音信号，其中高频会明显的损伤，且第一特征信号和第二特征信号的语音可懂度在级联编解码后会有不同程度的而影响，因为影响语音可懂度的关键成分是语音信号的中高频能量信息，第一特征信号由于在其基频较低(一般在125Hz(赫兹)以内)，主要能量成分集中在中低频(1000Hz以下)，中高频(1000Hz以上)成分较少，第二特征信号的基频较高(一般在125Hz以上)，中高频成分比第一特征信号要多，如图3A和图3B所示，经过级联编解码后第一特征信号和第二特征信号的频率能量均有损伤，由于第一特征信号中高频比例偏低，经过级联编解码后中高频能量更低，使第一特征信号的语音可懂度影响极大，导致收听方感觉听到的声音模糊难以听清楚说话内容，而第二特征信号虽然中高频也有损耗，但经过级联编码后中高频还有足够能量以达到较好的语音可懂度。从语音编解码原理来说，以语音听觉失真最小为准则的一种编解码模型CELP(Code Excited Linear Prediction，码激励线性预测编码)合成的语音为例，由于第一特征信号语音的频谱能量分布很不均衡，大部分能量集中在中低频，所以编码过程主要确保中低频失真最小，而占能量比例较小的中高频相对失真较大，相反，第二特征信号的频谱能量分布较为均衡，中高频也有较多成分，所以经过编解码后中高频成分能量损失相对不高。也就是，第一特征信号和第二特征信号在经过级联编解码后的可懂度下降表现是有明显差异的。图3A中曲实线为第一特征信号原始信号，虚线为经级联编解码后的信号。图3B中曲实线为第二特征信号原始信号，虚线为经级联编解码后的信号。图3A和图3B中横坐标为频率，纵坐标为能量，且为归一化后的能量值。归一化是基于第一特征信号或第二特征信号中最大峰值作为归一的。第一特征信号可为男声信号，第二特征信号可为女声信号。

图4为一个实施例中语音信号级联处理方法的流程图。如图4所示，一种语音信号级联处理方法，运行于图1的终端上，包括：

步骤402，获取语音信号。

本实施例中，语音信号为识别输入的原始语音信号中的语音信号。终端获取到经过级联编解码处理后的原始语音信号，识别出原始语音信号中的语音信号。级联编解码与原始语音信号经过的实际链路环节相关，例如支持G.729A的IP电话与GSM手机互通，则级联编解码可为G.729A编码+G.729解码+AMRNB编码+AMRNB解码。

语音可懂度是指听者听清楚和理解说话人的口头表述内容的程度。

步骤404，对该语音信号进行特征识别。

本实施例中，对该语音信号进行特征识别包括：获取语音信号的基音周期；判断该语音信号的基音周期是否大于预设周期值，若是，则该语音信号为第一特征信号，若否，则该语音信号为第二特征信号。

具体地，声带振动的频率称为基频，相应的周期称为基音周期。预设周期值可根据需要设定，如周期为60个样点。语音信号的基音周期大于60个样点，则该语音信号为第一特征信号，若小于或等于60个样点，则该语音信号为第二特征信号。

步骤406，若该语音信号为第一特征信号，则采用第一预增强滤波系数对该第一特征信号进行预增强滤波，得到第一预增强语音信号。

步骤408，若该语音信号为第二特征信号，则采用第二预增强滤波系数对该第二特征信号进行预增强滤波，得到第二预增强语音信号。

第一特征信号和第二特征信号可为不同频段范围内的语音信号。

步骤410，输出该第一预增强语音信号或第二预增强语音信号，以根据该第一预增强语音信号或第二预增强语音信号进行级联编解码处理。

上述语音信号级联处理方法，通过对语音信号进行特征识别，对第一特征信号采用第一预增强滤波系数进行预增强滤波处理，对第二特征信号采用第二预增强滤波系数进行预增强滤波处理，将预增强语音进行级联编解码处理，接收方能更清楚听清语音信息，提高了经过级联编解码后的语音信号的可懂度，针对第一特征信号和第二特征信号分别采用对应的滤波系数进行增强滤波处理，针对性更强，滤波处理更加准确。

在一个实施例中，上述语音信号级联处理方法，在获取语音信号之前，还包括：获取输入的原始音频信号；检测该原始音频信号为语音信号或非语音信号；若该原始音频信号为语音信号，则获取语音信号；若该原始音频信号为非语音信号，则对该非语音信号进行高通滤波处理。

本实施例中，通过VAD判断样本语音信号为语音信号或非语音信号。

对非语音进行高通滤波处理，降低信号的噪声。

在一个实施例中，在该获取语音信号之前，该语音信号级联处理方法还包括：根据音频训练集中的训练样本进行离线训练得到第一预增强滤波系数和第二预增强滤波系数。

本实施例中，男音频训练集中的训练样本可为录制或从网络上筛选得到的语音信号等。

如图5所示，在一个实施例中，该根据音频训练集中的训练样本进行离线训练得到第一预增强滤波系数和第二预增强滤波系数的步骤包括：

步骤502，从音频训练集中获取样本语音信号，该样本语音信号为第一特征样本语音信号或第二特征样本语音信号。

本实施例中，预先建立音频训练集，音频训练集中包含多个第一特征样本语音信号和第二特征样本语音信号。音频训练集中的第一特征样本语音信号和第二特征样本语音信号独立存在。第一特征样本语音信号和第二特征样本语音信号为不同特征信号的样本语音信号。

在步骤502之后，还包括：判断该样本语音信号是否为语音信号，若是，则对样本语音信号进行模拟级联编解码处理，得到降级语音信号，若否，则重新从音频训练集中获取样本语音信号。

本实施例中，采用VAD(Voice Activity Detection，语音活跃度检测)判断样本语音信号是否为语音信号。VAD是一种语音检测算法，是基于能量、过零率和低噪估计等估算语音。

判断样本语音信号是否为语音信号的步骤包括(a1)至(a5)：

(a1)接收连续语音，并从此连续语音中获取音框；

(a2)计算音框的能量，并根据这些能量取得能量门限值；

(a3)分别计算获取的音框的越零率，并根据这些越零率取得越零率门限值；

(a4)使用线性回归演绎法，并以(a2)中获取的能量及(a3)中获取的越零率作为线性回归演绎法的输入参数，用来判断每一音框是否为活动语音或非活动语音；

(a5)根据能量门限值及越零率门限值，自(a4)中的活动语音及非活动语音中取得活动语音起点及活动语音终点。

VAD检测方法可采用双门限检测法或基于自相关极大值的语音检测法。

双门限检测法的过程包括：

(b1)在开始阶段做预加重和分帧处理，将语音信号分成一帧一帧；

(b2)设置初始化参数，包括最大静音长度、短时能量的门限和短时过零率的门限；

(b3)判断当语音在静音段或过渡段时，如果语音信号的短时能量值大于短时能量的高门限，或者语音信号的短时过零率大于短时过零率的高门限，则确认进入语音段，如果短时能量的值大于短时能量的低门限或者过零率的值大于过零率的低门限，则语音处于过渡段，否则语音仍处于静音段；

(b4)当语音信号在语音段时，判断如果短时能量的低门限或短时过零率的值大于短时过零率的低门限，则语音信号仍然处于语音段；

(b5)如果静音长度小于设置的最大静音长度，则表明语音还尚未结束，还在语音段，如果语音的长度小于最小噪声长度，则认为语音太短，此时是噪声，同时判断语音处于静音段；否则语音进入结束段。

步骤504，对该样本语音信号进行模拟级联编解码处理，得到降级语音信号。

模拟级联编解码是指模拟原始语音信号经过的实际链路环节，例如支持G.729A的IP电话与GSM手机互通，则模拟级联编解码可为G.729A编码+G.729解码+AMRNB编码+AMRNB解码。对样本语音信号经过离线的级联编解码处理后得到降级语音信号。

步骤506，获取该降级语音信号与样本语音信号对应不同频点上的能量衰减值，将该能量衰减值作为频点能量补偿值。

具体地，将每个频点的样本语音信号所对应的能量值减去降级语音信号所对应的能量值得到对应频点的能量衰减值，该能量衰减值即为后续需要的该频点能量补偿值。

步骤508，对该音频训练集中的第一特征信号所对应的频点能量补偿值求平均得到第一特征信号在不同频点上的能量平均补偿值，以及对该音频训练集中的第二特征信号所对应的频点能量补偿值求平均得到第二特征信号在不同频点上的能量平均补偿值。

具体地，对音频训练集中第一特征信号所有的能量补偿值求平均得到第一特征信号在不同频点上的能量平均补偿值，对音频训练集中第二特征信号所有的能量补偿值求平均得到第二特征信号在不同频点上的能量平均补偿值。

步骤510，根据该第一特征信号在不同频点上的能量平均补偿值进行滤波拟合得到第一预增强滤波系数，以及根据该第二特征信号在不同频点上的能量平均补偿值进行滤波拟合得到第二预增强滤波系数。

本实施例中，基于第一特征信号在不同频点上的能量平均补偿值为目标，采用自适应滤波器拟合方式对第一特征信号的能量平均补偿值进行滤波拟合得到一组第一预增强滤波系数。基于第二特征信号在不同频点上的能量平均补偿值为目标，采用自适应滤波器拟合方式对第二特征信号的能量平均补偿值进行滤波拟合得到一组第二预增强滤波系数。

预增强滤波器可使用FIR(Finite Impulse Response，有限长单位冲激响应滤波器)滤波器：y[n]＝a₀*x[n]+a₁*x[n-1]+…+a_m*x[n-m]。

FIR滤波器的预增强滤波系数a₀～a_m可通过matlab的fir2函数进行计算求得，函数b＝fir2(n,f，m)是用来设计多通带任意响应FIR滤波器，该滤波器的幅频特性由向量对f和m确定，f为归一化频率向量，m为对应频率点上的幅度，n为滤波器的阶数。本实施例中，将各频点的能量补偿值作为m，输入fir2函数从而计算得到b。

上述离线训练得到第一预增强滤波系数和第二预增强滤波系数，通过离线训练可以准确得到第一预增强滤波系数和第二预增强滤波系数，方便后续进行在线滤波处理得到增强后的语音信号，有效提高级联编解码后的语音信号的可懂度。

如图6所示，在一个实施例中，该获取该语音信号的基音周期包括：

步骤602，对该语音信号进行带通滤波。

本实施例中，对语音信号进行带通滤波可采用80Hz～1500Hz的滤波器进行滤波，也可采用60～1000Hz的带通滤波器进行滤波等，不限于此。也就是带通滤波的频率范围根据具体需求设置。

步骤604，将该带通滤波后的语音信号进行预加重处理。

本实施例中，预加重是指发送端对输入信号高频分量的提升。

步骤606，对该语音信号以矩形窗进行平移分帧，每帧窗长第一采样点数，每帧平移第二采样点数。

本实施例中，矩形窗的窗长为第一采样点数，第一采样点数可为280点，第二采样点可为80点，第一采样点数和第二采样点数不限于此。80点对应的是10ms(毫秒)数据，采用80点平移，则是每帧都会引入10ms的新数据进行计算。

步骤608，对每帧信号进行三电平削波处理。

本实施例中，三电平削波处理，如设定正负阈值，如果样点值大于正阈值则输出1，如果样点值小于负阈值则输出-1，其余情况输出为0。

如图7所示，正阈值为C，负阈值为-C，若样点值超过正阈值C，则输出1，样点值小于负阈值-C，则输出-1，其余输出为0。

对每帧信号进行三电平削波处理得到t(i)，其中，i取值范围为1～280。

步骤610，对每帧内采样点计算自相关值。

本实施例中，每帧内采样点计算自相关值为两个因子的积除以各自的开方根的乘积。计算自相关值的公式为：

r (k) = Σ_{l = 1}^{121} (t (k + l - 1) * t (l)) / (s q r t (Σ_{l = 1}^{121} (t (k + l - 1) * t (k + l - 1))) * s q r t (Σ_{l = 1}^{121} (t (l) * t (l)))), k = 20 ~ 160

其中，r(k)为自相关值，t(k+l-1)为对应的(k+l-1)的三电平削波处理的结果，k取值为20至160是常规的基音周期搜索范围，若对换为基频则为8000/20～8000/160，即50Hz～400Hz范围，即人声正常基频范围，k超出20～160可认为非人类正常声音基频范围，可不用计算，节省计算时间。

因k最大值为160，l的最大值为121，则t的最大范围为160+121-1＝280，故三电平削波中i的最大值为280。

步骤612，以每帧中自相关值最大者所对应的序号作为每帧的基音周期。

本实施例中，通过计算每帧中自相关值，可得到每帧中自相关值最大者对应的序号，将该自相关最大者对应的序号作为每帧的基音周期。

在其他实施例中，步骤602和步骤604可以省略。

图8为一段语音的基音周期计算结果示意图。如图8所示，第一幅图中的横坐标为采样点的序号，纵坐标为采样点的样点值即采样点的幅值，可知采样点的样点值呈现变化，有的采样点的样点值大，有的采样点的样点值小。第二幅图中的横坐标为帧数，纵坐标为基音周期值，对于语音帧求取基音周期，非语音帧的基音周期默认为0。

下面结合具体的实施例描述上述语音信号级联处理方法。如图9所示，以第一特征信号为男声，第二特征信号为女声为例，上述语音信号级联处理方法包括离线训练部分和在线处理部分。离线训练部分包括：

(c1)从男女声训练集中获取样本语音信号。

(c2)vad判决样本语音信号是否为语音信号，若是，则执行步骤(c3)，若否，则返回(c2)。

(c3)若为语音信号，则对样本语音信号进行模拟级联编解码处理，得到降级语音信号。

将样本语音信号经过实际链路环节所需要经过的多个编解码环节，例如支持G.729A的IP电话与GSM手机互通，则模拟级联编解码可为G.729A编码+G.729解码+AMRNB编码+AMRNB解码。对样本语音信号经过离线的级联编解码处理后得到降级语音信号。

(c4)计算各频点能量衰减值，即为能量补偿值。

(c5)分别计算男声和女声的频点能量补偿值的平均值。

对该男女声训练集中的男声所对应的频点能量补偿值求平均得到男声在不同频点上的能量平均补偿值，以及对该男女声训练集中的女声所对应的频点能量补偿值求平均得到女声在不同频点上的能量平均补偿值。

(c6)计算男声预增强滤波系数和女声预增强滤波系数。

基于男声在不同频点上的能量平均补偿值为目标，采用自适应滤波器拟合方式对男声的能量平均补偿值进行滤波拟合得到一组男声预增强滤波系数。基于女声在不同频点上的能量平均补偿值为目标，采用自适应滤波器拟合方式对女声的能量平均补偿值进行滤波拟合得到一组女声预增强滤波系数。

在线处理部分包括：

(d1)语音信号输入。

(d2)vad检测是否为语音信号，若是，则执行步骤(d3)，若否执行步骤(d4)。

(d3)判断语音信号为男声或女声，若为男声，执行步骤(d4)，若为女声，执行步骤(d5)。

(d4)调用离线训练得到的男声预增强滤波系数对男声语音信号进行预增强滤波处理，得到增强后的语音信号。

(d5)调用离线训练得到的女声预增强滤波系数对女声语音信号进行预增强滤波处理，得到增强后的语音信号。

(d6)对非语音信号进行高通滤波处理，得到增强后语音。

上述语音可懂度提升方法，对非语音进行高通滤波处理，降低信号的噪声，通过识别出语音信号为男声信号或女声信号，对男声信号采用离线训练得到的男声预增强滤波系数进行预增强滤波处理，对女声信号采用离线训练得到的女声预增强滤波系数进行预增强滤波处理，针对男声信号和女声信号分别采用对应的滤波系数进行增强滤波处理，提高了语音信号的可懂度，因针对男声和女声分别处理，针对性更强，滤波处理更加准确。

图10为级联编解码后信号经过预增强后的级联编解码信号的示意图。如图10所示，第一幅图为原始信号，第二幅图为级联编解码后的信号，第三幅图为经预增强滤波处理后的级联编解码信号。由此可知，经过预增强后的级联编解码信号相比于级联编解码后信号能量更强，听起来更清晰可懂，提高了语音的可懂度。

图11为未做增强的级联编解码的信号频谱与增强后的级联编解码的信号频谱的对比示意图。如图11所示，曲线为未做增强处理的级联编解码的信号频谱，各点为增强后的级联编解码的信号频谱，横坐标为频率，纵坐标为绝对能量，做增强处理后的信号频谱强度增强，可懂度提升。

图12为未做增强的级联编解码的信号频谱与增强后的级联编解码的信号频谱的中高频部分的对比示意图。曲线为未做增强处理的级联编解码的信号频谱，各点为增强后的级联编解码的信号频谱，横坐标为频率，纵坐标为绝对能量，做增强处理后的信号频谱强度增强，中高频部分做了预增强处理后信号能量更强，提高了可懂度。

图13为一个实施例中语音信号级联处理装置的结构框图。如图13所示，一种语音信号级联处理装置，包括语音信号获取模块1302、识别模块1304、第一信号增强模块1306、第二信号增强模块1308和输出模块1310。其中：

语音信号获取模块1302用于获取语音信号。

识别模块1304用于对该语音信号进行特征识别。

第一信号增强模块1306用于若该语音信号为第一特征信号，则采用第一预增强滤波系数对该第一特征信号进行预增强滤波，得到第一预增强语音信号。

第二信号增强模块1308用于若该语音信号为第二特征信号，则采用第二预增强滤波系数对该第二特征信号进行预增强滤波，得到第二预增强语音信号。

输出模块1310用于输出该第一预增强语音信号或第二预增强语音信号，以根据该第一预增强语音信号或第二预增强语音信号进行级联编解码处理。

上述语音信号级联处理装置，通过对语音信号进行特征识别，对第一特征信号采用第一预增强滤波系数进行预增强滤波处理，对第二特征信号采用第二预增强滤波系数进行预增强滤波处理，将预增强语音进行级联编解码处理，接收方能更清楚听清语音信息，提高了经过级联编解码后的语音信号的可懂度，针对第一特征信号和第二特征信号分别采用对应的滤波系数进行增强滤波处理，针对性更强，滤波处理更加准确。

图14为另一个实施例中语音信号级联处理装置的结构框图。如图14所示，一种语音信号级联处理装置，除了包括语音信号获取模块1302、识别模块1304、第一信号增强模块1306、第二信号增强模块1308和输出模块1310，还包括训练模块1312。

训练模块1312用于在该获取语音信号之前，根据音频训练集中的训练样本进行离线训练得到第一预增强滤波系数和第二预增强滤波系数。

图15为一个实施例中训练模块的内部结构示意图。如图15所示，该训练模块1310包括选取单元1502、模拟级联编解码单元1504、能量补偿值获取单元1506、平均能量补偿值获取单元1508和滤波系数获取单元1510。

选取单元1502用于从音频训练集中获取样本语音信号，该样本语音信号为第一特征样本语音信号或第二特征样本语音信号。

模拟级联编解码单元1504用于对该样本语音信号进行模拟级联编解码处理，得到降级语音信号。

能量补偿值获取单元1506用于获取该降级语音信号与样本语音信号对应不同频点上的能量衰减值，将该能量衰减值作为频点能量补偿值。

平均能量补偿值获取单元1508用于对该音频训练集中的第一特征信号所对应的频点能量补偿值求平均得到第一特征信号在不同频点上的能量平均补偿值，以及对该音频训练集中的第二特征信号所对应的频点能量补偿值求平均得到第二特征信号在不同频点上的能量平均补偿值。

滤波系数获取单元1510用于根据该第一特征信号在不同频点上的能量平均补偿值进行滤波拟合得到第一预增强滤波系数，以及根据该第二特征信号在不同频点上的能量平均补偿值进行滤波拟合得到第二预增强滤波系数。

在一个实施例中，识别模块1304还用于获取该语音信号的基音周期；以及判断该语音信号的基音周期是否大于预设周期值，若是，则该语音信号为第一特征信号，若否，则该语音信号为第二特征信号。

进一步的，识别模块1304还用于对该语音信号以矩形窗进行平移分帧，每帧窗长第一采样点数，每帧平移第二采样点数；对每帧信号进行三电平削波处理；对每帧内采样点计算自相关值；以及以每帧中自相关值最大者所对应的序号作为每帧的基音周期。

进一步的，识别模块1304还用于在该对该语音信号以矩形窗进行平移分帧，每帧窗长第一采样点数，每帧平移第二采样点数之前，对该语音信号进行带通滤波，以及将该带通滤波后的语音信号进行预加重处理。

图16为另一个实施例中语音信号级联处理装置的结构框图。如图16所示，一种语音信号级联处理装置，除了包括语音信号获取模块1302、识别模块1304、第一信号增强模块1306、第二信号增强模块1308和输出模块1310，还包括原始信号获取模块1314、检测模块1316、滤波模块1318。

原始信号获取模块1314用于获取输入的原始音频信号。

检测模块1316用于检测该原始音频信号为语音信号或非语音信号。

该语音信号获取模块1302还用于若该原始音频信号为语音信号，获取语音信号。

滤波模块1318用于若该原始音频信号为非语音信号，则对该非语音信号进行高通滤波处理。

上述语音信号级联处理装置，对非语音进行高通滤波处理，降低信号的噪声，通过对语音信号进行特征识别，对第一特征信号采用第一预增强滤波系数进行预增强滤波处理，对第二特征信号采用第二预增强滤波系数进行预增强滤波处理，将预增强语音进行级联编解码处理，接收方能更清楚听清语音信息，提高了经过级联编解码后的语音信号的可懂度，针对第一特征信号和第二特征信号分别采用对应的滤波系数进行增强滤波处理，针对性更强，滤波处理更加准确。

在其他实施例中，一种语音信号级联处理装置，可包括语音信号获取模块1302、识别模块1304、第一信号增强模块1306、第二信号增强模块1308、输出模块1310、训练模块1312、原始信号获取模块1314、检测模块1316、滤波模块1318中所有可能的组合。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音信号级联处理方法，包括：

获取语音信号；

对所述语音信号进行特征识别；

若所述语音信号为第一特征信号，则采用第一预增强滤波系数对所述第一特征信号进行预增强滤波，得到第一预增强语音信号；

若所述语音信号为第二特征信号，则采用第二预增强滤波系数对所述第二特征信号进行预增强滤波，得到第二预增强语音信号；以及

2.根据权利要求1所述的方法，其特征在于，在所述获取语音信号之前，所述方法还包括：

根据音频训练集中的训练样本进行离线训练得到第一预增强滤波系数和第二预增强滤波系数，包括：

从音频训练集中获取样本语音信号，所述样本语音信号为第一特征样本语音信号或第二特征样本语音信号；

对所述样本语音信号进行模拟级联编解码处理，得到降级语音信号；

获取所述降级语音信号与样本语音信号对应不同频点上的能量衰减值，将所述能量衰减值作为频点能量补偿值；

对所述音频训练集中的第一特征信号所对应的频点能量补偿值求平均得到第一特征信号在不同频点上的能量平均补偿值，以及对所述音频训练集中的第二特征信号所对应的频点能量补偿值求平均得到第二特征信号在不同频点上的能量平均补偿值；

根据所述第一特征信号在不同频点上的能量平均补偿值进行滤波拟合得到第一预增强滤波系数，以及根据所述第二特征信号在不同频点上的能量平均补偿值进行滤波拟合得到第二预增强滤波系数。

3.根据权利要求1所述的方法，其特征在于，所述对所述语音信号进行特征识别包括：

获取所述语音信号的基音周期；

判断所述语音信号的基音周期是否大于预设周期值，若是，则所述语音信号为第一特征信号，若否，则所述语音信号为第二特征信号。

4.根据权利要求3所述的方法，其特征在于，所述获取所述语音信号的基音周期包括：

对所述语音信号以矩形窗进行平移分帧，每帧窗长第一采样点数，每帧平移第二采样点数；

对每帧信号进行三电平削波处理；

对每帧内采样点计算自相关值；

以每帧中自相关值最大者所对应的序号作为每帧的基音周期。

5.根据权利要求4所述的方法，其特征在于，在所述对所述语音信号以矩形窗进行平移分帧，每帧窗长第一采样点数，每帧平移第二采样点数之前，所述获取所述语音信号的基音周期还包括：

对所述语音信号进行带通滤波；

将所述带通滤波后的语音信号进行预加重处理。

6.根据权利要求1所述的方法，其特征在于，在所述获取语音信号的步骤之前，所述方法还包括：

获取输入的原始音频信号；

检测所述原始音频信号为语音信号或非语音信号；

若所述原始音频信号为语音信号，则执行所述获取语音信号的步骤；

若所述原始音频信号为非语音信号，则对所述非语音信号进行高通滤波处理。

7.一种语音信号级联处理装置，其特征在于，包括：

语音信号获取模块，用于获取语音信号；

识别模块，用于对所述语音信号进行特征识别；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

训练模块，用于在所述获取语音信号之前，根据音频训练集中的训练样本进行离线训练得到第一预增强滤波系数和第二预增强滤波系数；

所述训练模块包括：

选取单元，用于从音频训练集中获取样本语音信号，所述样本语音信号为第一特征样本语音信号或第二特征样本语音信号；

模拟级联编解码单元，用于对所述样本语音信号进行模拟级联编解码处理，得到降级语音信号；

能量补偿值获取单元，用于获取所述降级语音信号与样本语音信号对应不同频点上的能量衰减值，将所述能量衰减值作为频点能量补偿值；

平均能量补偿值获取单元，用于对所述音频训练集中的第一特征信号所对应的频点能量补偿值求平均得到第一特征信号在不同频点上的能量平均补偿值，以及对所述音频训练集中的第二特征信号所对应的频点能量补偿值求平均得到第二特征信号在不同频点上的能量平均补偿值；

滤波系数获取单元，用于根据所述第一特征信号在不同频点上的能量平均补偿值进行滤波拟合得到第一预增强滤波系数，以及根据所述第二特征信号在不同频点上的能量平均补偿值进行滤波拟合得到第二预增强滤波系数。

9.根据权利要求7所述的装置，其特征在于，所述识别模块还用于获取所述语音信号的基音周期；以及判断所述语音信号的基音周期是否大于预设周期值，若是，则所述语音信号为第一特征信号，若否，则所述语音信号为第二特征信号。

10.根据权利要求9所述的装置，其特征在于，所述识别模块还用于对所述语音信号以矩形窗进行平移分帧，每帧窗长第一采样点数，每帧平移第二采样点数；

对每帧信号进行三电平削波处理；

对每帧内采样点计算自相关值；以及

11.根据权利要求10所述的装置，其特征在于，所述识别模块还用于在所述对所述语音信号以矩形窗进行平移分帧，每帧窗长第一采样点数，每帧平移第二采样点数之前，对所述语音信号进行带通滤波，以及将所述带通滤波后的语音信号进行预加重处理。

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

原始信号获取模块，用于获取输入的原始音频信号；

检测模块，用于检测所述原始音频信号为语音信号或非语音信号；

所述语音信号获取模块还用于若所述原始音频信号为语音信号，获取语音信号；

滤波模块，用于若所述原始音频信号为非语音信号，则对所述非语音信号进行高通滤波处理。