CN104934032B

CN104934032B - 根据频域能量对语音信号进行处理的方法和装置

Info

Publication number: CN104934032B
Application number: CN201410098869.4A
Authority: CN
Inventors: 许丽净
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-03-17
Filing date: 2014-03-17
Publication date: 2019-04-05
Anticipated expiration: 2034-03-17
Also published as: EP3091534B1; EP3091534A4; EP3091534A1; CN104934032A; WO2015139452A1; US20160351204A1

Abstract

本发明实施例提供一种根据频域能量对语音信号进行处理的方法和装置。本发明的根据频域能量对语音信号进行处理的方法和装置包括：接收包括相邻的第一语音帧和第二语音帧的原始语音信号；分别对所述第一语音帧和所述第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号，并得到所述第一语音帧和所述第二语音帧的频域能量分布；然后得到所述第一语音帧和所述第二语音帧的频域能量相关性系数；根据所述频域能量相关性系数对所述原始语音信号进行分段。本发明实施例可以解决在进行语音信号精细分段时，由于语音信号音素本身的特征或是较强噪声的影响，导致语音信号分段结果准确性不高的问题。

Description

根据频域能量对语音信号进行处理的方法和装置

技术领域

本发明实施例涉及语音信号处理技术，尤其涉及一种根据频域能量对语音信号进行处理的方法和装置。

背景技术

在对语音信号进行质量评估或者进行语音识别时，常常需要对语音信号进行精细分段。

现有技术中，对语音信号的分段主要是分析语音信号中时域能量的突变状况，根据能量产生突变的时间变化点处，对语音信号进行分段；没有变化的情况下，不对语音信号进行分段。

然而，当语音信号发生变化时，由于音素本身的特征或是较强噪声的影响，时域能量并不一定会发生突变。因此，现有技术的语音信号分段结果准确性不高。

发明内容

本发明实施例提供一种根据频域能量对语音信号进行处理的方法和装置，以解决在对语音信号进行精细分段时，由于语音信号音素本身的特征或是较强噪声的影响，导致语音信号分段结果准确性不高的问题。

第一方面，本发明提供一种根据频域能量对语音信号进行处理的方法，包括：

接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；

对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；

根据第一频域信号得到第一语音帧的频域能量分布，根据第二频域信号得到第二语音帧的频域能量分布，其中，频域能量分布表示语音帧在频域上的能量分布特性；

根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，其中，频域能量相关性系数用于表示第一语音帧到第二语音帧的频谱变化；

根据频域能量相关性系数对原始语音信号进行分段。

结合第一方面，在第一种实施方式中，第一语音帧的频率范围内包括至少两个频段，根据第一频域信号得到第一语音帧的频域能量分布，具体包括：

根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一所述频段范围内的能量总和与第一语音帧的总能量的第一比值；

对第一比值进行求导，得到第一导数表示第一语音帧的频域能量分布。

结合第一方面和第一种实施方式，在第二种实施方式中，根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，具体包括：

根据第一语音帧频率范围内的第一导数，第二导数，以及第一导数和第二导数乘积，确定第一语音帧和第二语音帧的频域能量相关性系数,其中，所述第二导数表示第二语音帧的频域能量分布。

结合第一方面和前两种实施方式，在第三种实施方式中，根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数之后，该方法还包括：确定频域能量相关性系数的局部极大值点；以局部极大值点作为分组点对原始语音信号进行分组；对分组后的每一组进行归一化处理，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数；对应的，根据频域能量相关性系数对原始语音信号进行分段包括：根据频域能量修正相关系数对原始语音信号进行分段。

结合第一方面和前三种实施方式，在第四种实施方式中，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数，具体包括：

根据公式r'_k=r_k+(1-max(r_k1))计算频域能量修正相关性系数，其中r'_k为重新计算得到的频域能量相关性系数，r_k为频域能量相关性系数，r_k1为分组后每一组的局部极大值点的频域能量相关性系数，max(r_k1)为取值最大的分组后每一组的局部极大值点的频域能量相关性系数。

结合第一方面和前四种实施方式，在第五种实施方式中，根据频域能量相关性系数对原始语音信号进行分段，具体包括：确定频域能量相关性系数的局部极小值点；

若局部极小值点小于或等于设定阈值，则以局部极小值点作为分段点对语音信号进行分段。

结合第一方面和前五种实施方式，在第六种实施方式中，根据频域能量相关性系数对原始语音信号进行分段之后，还包括：

计算以原始语音信号中每个分段点为中心的设定时域范围内时域能量的平均值；

若计算以每个分段点为中心的设定时域范围内所对应的平均值小于或等于设定值，则将对应的分段点所涉及的两个分段合并。

结合第一方面和前六种实施方式，在第七种实施方式中，根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一频段范围内的能量总和与第一语音帧的总能量的第一比值，具体包括：

根据f∈[0,(F_lim-1)] 得到第一比值；

其中，ratio_energy_k(f)表示第一语音帧任一所述频段范围内的能量总和与所述第一语音帧的总能量的第一比值，i的取值在0～f之间，f表示谱线数，f∈[0,(F_lim-1)]， (F_lim-1)表示所述第一语音帧的谱线数所能取到的最大值，Re_fft(i)表示第一频域信号实部，Im_fft(i)表示第一频域信号的虚部，表示第一语音帧的总能量，表示第一语音帧在0～f频率范围内的能量总和；

结合第一方面和前七种实施方式，在第八种实施方式中，对第一比值进行求导，具体为：

根据

对第一比值进行求导；

N表示上述数值微分为N点；M表示上述数值微分是利用f∈[M,(M+N-1)]区间内的第一比值来获得的。

结合第一方面和前八种实施方式，在第九种实施方式中，根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，具体为：

根据k≥1计算相关性系数r_k；

其中，其中，k-1为第一语音帧，k为第二语音帧，k大于等于1。

第二方面，本发明提供一种根据频域能量对语音信号进行处理的装置，包括：

接收模块，用于接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；

变换模块，用于对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；

能量分布模块，用于根据第一频域信号得到第一语音帧的频域能量分布，根据第二频域信号得到第二语音帧的频域能量分布，其中，频域能量分布表示语音帧在频域上的能量分布特性；

相关性模块，用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，其中，频域能量相关性系数用于表示第一语音帧到第二语音帧的频谱变化；

分段模块，用于根据频域能量相关性系数对原始语音信号进行分段。

结合第二方面，在第一种实施方式中，第一语音帧的频率范围内包括至少两个频段，能量分布模块具体用于：

对第一比值进行求导，得到第一导数表示第一语音帧的频域能量分布以及第二语音帧的频域能量分布。

结合第二方面和第一种实施方式，在第二种实施方式中，相关性模块具体用于：

根据第一语音帧频率范围内的第一导数，第二导数，以及第一导数和第二导数乘积，确定第一语音帧和第二语音帧的频域能量相关性系数,其中，第二导数表示第二语音帧的频域能量分布。

结合第二方面和前两种实施方式，在第三种实施方式中，相关性模块还用于：

确定频域能量相关性系数的局部极大值点；

以局部极大值点作为分组点对原始语音信号进行分组；

对分组后的每一组进行归一化处理，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数；

对应的，分段模块用于：

根据频域能量修正相关系数对原始语音信号进行分段。

结合第二方面和前三种实施方式，在第四种实施方式中，相关性模块具体用于：

根据公式r'_k=r_k+(1-max(r_k1))计算调整后的频域能量修正相关性系数，其中r'_k为计算得到的频域能量修正相关性系数，r_k为频域能量相关性系数，r_k1为分组后每一组的局部极大值点的频域能量相关性系数，max(r_k1)为取值最大的分组后每一组的局部极大值点的频域能量相关性系数。

结合第二方面和前四种实施方式，在第五种实施方式中，分段模块具体用于：

确定频域能量相关性系数的局部极小值点；

结合第二方面和前五种实施方式，在第六种实施方式中，分段模块用于根据频域能量相关性系数对原始语音信号进行分段之后，还用于：

结合第二方面和前六种实施方式，在第七种实施方式中，能量分布模块具体用于：

根据f∈[0,(F_lim-1)] 得到第一比值；

其中，ratio_energy_k(f)表示第一语音帧的任一频段范围内的能量总和与所述第一语音帧的总能量的第一比值，i的取值在0～f之间，f表示谱线数，f∈[0,(F_lim-1)]，(F_lim- 1)表示第一语音帧的谱线数所能取到的最大值，Re_fft(i)表示第一频域信号实部，Im_fft (i)表示第一频域信号的虚部，表示第一语音帧的总能量，表示第一语音帧在0～f频率范围内的能量总和。

结合第二方面和前七种实施方式，在第八种实施方式中，能量分布模块具体用于：

根据

对第一比值进行求导；

结合第二方面和前八种实施方式，在第九种实施方式中，相关性模块具体用于：

根据k≥1计算相关性系数r_k；

本发明实施例提供的语音信号的分段方法和装置，接收包括相邻的第一语音帧和第二语音帧的原始语音信号，再分别对第一语音帧和第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号；然后由此得到第一语音帧和第二语音帧的用于表示语音帧在频域上的能量分布特性的频域能量分布，根据第一语音帧和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的用于表示第一语音帧到第二语音帧的频谱变化的频域能量相关性系数，最后根据频域能量相关性系数对原始语音信号进行分段。这样利用语音信号在频域上的能量分布进行分段，从而提高对语音信号分段的准确性。

附图说明

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例一提供的根据频域能量对语音信号进行处理的方法的流程图；

图2是本发明实施例二提供的根据频域能量对语音信号进行处理的方法的流程图；

图3是本发明实施例二提供的英文女声和白噪声序列示意图；

图4是本发明实施例二提供的英文女声和白噪声序列第68帧至第73帧的频域能量分布曲线示意图；

图5是本发明实施例二提供的英文女声和白噪声序列第68帧至第73帧频域能量分布曲线的导数示意图；

图6是本发明实施例二提供的英文女声和白噪声序列各帧相关性系数示意图；

图7是本发明实施例二提供的英文女声和白噪声序列的经过调整的各帧相关性系数示意图；

图8是本发明实施例二提供的根据相邻帧的相关性对语音信号进行分段的流程图；

图9是本发明实施例三提供的对中文女声和粉红噪声序列进行语音信号分段的示意图；

图10是本发明实施例三提供的对中文女声和粉红噪声序列进行语音信号分段应用于语音质量评估的示意图；

图11是本发明实施例三提供的对中文女声和粉红噪声序列进行语音信号分段应用于语音识别的示意图；

图12是本发明实施例四提供的根据频域能量对语音信号进行处理的装置的结构示意图；

图13是本发明实施例五提供的根据频域能量对语音信号进行处理的装置的结构示意图。

具体实施方式

图1是本发明实施例一提供的根据频域能量对语音信号进行处理的方法的流程图。如图1所示，本实施例提供的根据频域能量对语音信号进行处理的方法的流程包括：

步骤101、接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；

其中，原始语音信号被接收后，转换为连续的语音帧的格式以方便后续处理。因此在对原始语音信号进行处理时，可以任意前后相邻的两个语音帧为例进行说明，该语音信号的所有语音帧都和该相邻两语音帧的处理过程类似。为方便起见，该相邻的语音帧定义为第一语音帧和第二语音帧。

步骤102、对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；

其中可以对当前帧数据进行快速傅里叶（Fast Fourier Transformation，简称FFT）变换，以将时域信号变换为频域信号。对第一语音帧进行傅里叶变换后，得到的是第一频域信号；对第二语音帧进行傅里叶变换后，得到第二频域信号。

步骤103、根据第一频域信号得到第一语音帧的频域能量分布，根据第二频域信号得到第二语音帧的频域能量分布，其中，频域能量分布表示语音帧在频域上的能量分布特性；

具体的，根据第一频域信号得到第一语音帧的频域能量分布包括：

第一语音帧的频率范围内包括至少两个频段，根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一频段范围内的能量总和与第一语音帧的总能量的第一比值；

根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一频段范围内的能量总和与第一语音帧的总能量的第一比值，具体包括：

根据f∈[0,(F_lim-1)] 得到第一比值；

求导时可以采用多种方法，例如：数值微分算法，即根据函数在一些离散点的函数值，推算它在某点的导数或某高阶导数的近似值。通常可利用多项式插值进行数值微分。多项式插值方法包括拉格朗日（lagrange）插值、牛顿（Newton）插值、埃尔米特（Hermite）插值等，在此不一一列举。

此处对第一比值进行求导具体为：

根据

对第一比值进行求导；

步骤104、根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，其中，频域能量相关性系数用于表示第一语音帧到第二语音帧的频谱变化；

具体的，根据第一语音帧频率范围内的第一导数，第二导数，以及第一导数和第二导数乘积，确定第一语音帧和第二语音帧的频域能量相关性系数,其中，所述第二导数表示第二语音帧的频域能量分布。

具体的，根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数之后，该方法还包括：

确定频域能量相关性系数的局部极大值点；

以局部极大值点作为分组点对原始语音信号进行分组；

对应的，根据频域能量相关性系数对原始语音信号进行分段包括：

根据频域能量修正相关系数对原始语音信号进行分段。

其中，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数具体包括：

根据公式r'_k=r_k+(1-max(r_k1))计算频域能量修正相关性系数，其中r'_k为计算得到的频域能量修正相关性系数，r_k为频域能量相关性系数，r_k1为分组后每一组的局部极大值点的频域能量相关性系数，max(r_k1)为取值最大的分组后每一组的局部极大值点的频域能量相关性系数。

计算相关性系数也可用多种方法进行，例如可以采用皮尔逊（Pearson）积矩相关性系数算法来计算。

相关性系数能够较为敏感地反映出语音信号的频谱变化情况，一般情况下，当语音信号频谱上的频谱状态趋于稳定时，则相关性系数越接近于1；当语音信号频谱上的频谱发生明显变化时，例如：从一个音节过渡到另一个音节时，相关性系数会在短时间内迅速变小。

步骤105、根据频域能量相关性系数对原始语音信号进行分段。

具体的，根据频域能量相关性系数对原始语音信号进行分段包括：

确定频域能量相关性系数的局部极小值点；

根据上面描述的相关性系数的特点可以得到，如果相关性系数取值小于一定的阈值，例如：取阈值为0.8，如果相关性系数小于0.8，则说明语音信号的频谱位置已经发生了较为明显的变化，则可以在对应的位置进行分段，而在相关性系数大于或等于0.8的位置则不需要进行分段。

根据频域能量相关性系数对原始语音信号进行分段之后，还包括：

本实施例中，通过接收包括相邻的第一语音帧和第二语音帧的原始语音信号，再分别对第一语音帧和第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号；然后由此得到第一语音帧和第二语音帧的用于表示语音帧在频域上的能量分布特性的频域能量分布，根据第一语音帧和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的用于表示第一语音帧到第二语音帧的频谱变化的频域能量相关性系数，最后根据频域能量相关性系数对原始语音信号进行分段。这样实现了利用语音信号的频域能量分布进行分段，从而提高对语音信号分段的准确性。

图2是本发明实施例二提供的根据频域能量对语音信号进行处理的方法的流程图。如图2所示，本实施例在图1所示基础上详细提供了根据频域能量对语音信号进行分段处理过程中详细步骤。

其中，计算语音帧在频域上能量分布特性的步骤具体包括：

S201、接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；

接收原始语音信号后，可以采用S201步骤对语音信号进行滤波，例如：可以进行50Hz高通滤波，从而去除语音信号中的直流分量，使信号达到较为理想化的信号状态。

原始语音信号被接收后，转换为连续的语音帧的格式以方便后续处理。因此在对原始语音信号进行处理时，可以任意前后相邻的两个语音帧为例进行说明，该语音信号的所有语音帧都和该相邻两语音帧的处理过程类似。为方便起见，该相邻的语音帧定义为第一语音帧和第二语音帧。

S202、对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；

具体的，由于当前语音信号为时域信号，因此，可以对语音信号进行FFT变换，转换为频域信号。可以将语音信号采样率设为8KHz,对语音信号的当前帧数据进行傅里叶变换，例如是快速傅里叶FFT变换，其中快速傅里叶FFT变换的大小F可以为1024。这样将第一语音帧和第二语音帧进行傅里叶变换后，可以得到第一频域信号与第二频域信号。

S203、根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一频段范围内的能量总和与第一语音帧的总能量的第一比值；

其中，第一语音帧的频率范围内包括至少两个频段，在计算第一语音帧的任一频段范围内的能量总和时，可以根据该频段范围内的谱线数进行计算，谱线数与快速傅里叶FFT变换大小F有关。

下面举例来具体解释谱线数，设谱线数为M：Fm指需要分析的最高频率，也是经过抗混滤波后的信号最高频率。根据采样定理，Fm与采样频率Fs之间的关系一般为：Fs=2.56Fm，谱线数M与频率分辨率ΔF及最高分析频率Fm有如下的关系：ΔF=Fm/M即：M=Fm/ΔF所以：N=2.56Fm/ΔF。

采样点数的多少与要求多大的频率分辨率有关。例如：采样频率和采样点数设置为：

最高分析频率Fm=8·50Hz=400Hz;

采样频率Fs=2.56·Fm=2.56·400Hz=1024Hz;

采样点数N=2.56·（Fm/ΔF）=2.56·（400Hz/1Hz）=1024

谱线数M=N/2.56=1024/2.56=400条。

可以理解的是，谱线的取值可以采用其它本领域普通技术人员所能实现的方式，上述举例只是为了帮助理解本发明实施例而做出的一种举例，而不能被视为对本发明实施例的一种限制。

其中，根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧在0～f频率范围内的能量总和与第一语音帧的总能量的第一比值，具体包括：

根据f∈[0,(F_lim-1)] 得到第一比值；

具体的，可以用图3所示的英文女声和白噪声序列为例说明。图3中，a）为波形图，横轴为样本点，纵轴为归一化后的幅度。b）为语谱图，横轴为帧数，在时域上与图a的样本点是对应的；纵轴为频率。b）用细白色虚线标识出的第71帧为语音信号的起始帧。

从图3中可以看出：

1）位于语音信号之前的白噪声部分的语谱图中不存在音调分量，能量均匀分布在整个带宽范围内；

2）语音信号的起始部分的语谱图中，在0至500Hz内存在两个明显的音调分量。能量不再均匀分布在整个带宽范围内，而是集中分布在音调分量所处的两个频段内。

针对图3给出的序列，由上至下，图4的六个子图分别给出第68帧至第73帧的频域能量分布。其中，每个子图的横轴为频率。为了便于显示，仅显示0到2000Hz的频域能量分布。纵轴为百分比值，取值为0到100%。在具体帧的频域能量分布还有箭头，用来指示出频域能量分布发生变化的部分。

从图4可以看出：

1）第68帧及69帧为白噪声段。当能量均匀分布在整个带宽范围内时，表征频域能量分布的曲线基本上是一条直线；

2）第70帧为白噪音和语音信号的过渡段。与前两帧相比，在两个箭头指示处，表征频域能量分布的曲线出现少许波动，说明当前帧的频域能量分布状况开始发生变化；

3）第71帧至73帧为语音段，在0至500Hz频率范围内存在两个明显的音调分量。表征频域能量分布的曲线不再是一条直线，而是在两个音调分量所处频段内存在越来越明显的波动。

从图3和图4中可以看出，在语音信号发生变化时，语音信号的频域能量分布同时产生变化，在语音信号的音调分量所处频段内，表征语音信号频域能量的分布的曲线产生了波动，所以频域能量分布的变化可以如实地反映出语音信号的变化情况。因此，可以设法根据相邻的第一语音帧和第二语音帧的频域能量分布变化情况，得到语音信号的变化情况。

因为语音信号的变化情况可由分析语音信号中相邻帧的相关性得出，而在分析频域能量分布时，可以通过计算每帧能量随频率变化的分布特性，推断出频域能量分布的变化情况。

S204、对第一比值进行求导，得到第一导数表示第一语音帧的频域能量分布；

其中，第一比值进行求导具体为：

根据

对第一比值进行求导；

在上步骤求得每帧能量随频率变化的分布特性的基础上，可以对第一语音帧和第二语音帧的任一频段范围内的能量总和与该语音帧的总能量的比值进行求导，得到每帧能量随频率变化的分布特性。其中，计算该比值的导数可以采用数值微分等多种方法，具体的，采用数值微分法计算第一比值和第二比值的导数时，可以用拉格朗日（Lagrange）插值来进行具体计算。

当采用拉格朗日七点数值微分公式时，即：

，f∈[3,(F2-4)]对该比值进行求导；

当f∈[0,2]或是f∈[(F2-3),(F2-1)]时，设置ratio_energy′_k(f)为0。

此外还可以采用拉格朗日三点数值微分公式和五点数值微分公式等计算该比值的导数，当采用拉格朗日三点数值微分公式时，利用

f∈[1,(F2-2)] 对该比值进行求导；

当f=0或是f=(F2-1)时，设置ratio_energy′_k(f)为0。

当采用拉格朗日五点数值微分公式时，利用

f∈[2,(F2-3)]对比值进行求导；

当f∈[0,1]或是f∈[(F2-2),(F2-1)]时，设置ratio_energy′_k(f)为0。

此外还可利用牛顿（Newton）插值、埃尔米特（Hermite）插值等方法对上述比值进行求导，此处不再赘述。

还是以英文女声和白噪声序列为例，由上至下，图5的六个子图分别给出第68帧至第73帧频域能量分布的比值的导数。其中，横轴为频率；纵轴为导数值。

从图5中可以看出：

1）第68帧及69帧为白噪声段。能量在所有带宽范围内基本呈均匀分布，频域能量分布的比值的导数基本为0；

2）第70帧为白噪音和语音信号的过渡段。与前两帧相比，在两个箭头指示处，频域能量分布的比值的导数数值产生两个比较小的变化，说明当前帧的频域能量分布状况开始发生变化；

3）第71帧至73帧为语音段，在0至500Hz频率范围内存在两个明显的音调分量。频域能量分布的比值的导数在两个音调分量所对应的频率处出现了两个峰值。

从图5中可以看出，在语音信号发生变化时，语音信号的频域能量分布的比值的导数数值在语音信号的音调分量所处频段内产生变化，所以对该比值进行求导可以得到每帧能量随频率变化的分布特性。

通过每帧能量随频率变化的分布特性，可以确定相邻帧的相关性，比如可以包括根据求导结果计算相邻帧的相关性系数。例如可以根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数。具体来说，可以根据第一语音帧频率范围内的第一导数，第二导数，以及第一导数和第二导数乘积，确定第一语音帧和第二语音帧的频域能量相关性系数,其中，第二导数表示第二语音帧的频域能量分布。

计算相关性系数可以有多种方法，以下以采用Pearson积矩计算相关性系数为例，假设当前帧为第k帧，则具体计算相关性系数r_k的公式为：

公式中，F是快速傅里叶FFT变换的大小，

还是以英文女声和白噪声序列为例进行说明。图6为英文女声和白噪声序列各帧相关性系数示意图。其中，a）为波形图；b）为语谱图；c）为相关性系数，横轴为帧数，纵轴为相关性系数，在相关性系数值横轴为0.8处设一虚线作为一基准。

在图6中可以看出，

1）位于语音信号之前的白噪声部分的语谱图中不存在音调分量，能量均匀分布在整个带宽范围内，此时相关性系数在0.8虚线处内呈小范围波动的曲线；

2）语音信号的起始部分的语谱图中，在0至500Hz内存在两个明显的音调分量。此时相关性系数在对应音调分量处呈现剧烈波动，在音调分量开始处急剧降至0.8虚线以下，而在音调分量处快速上升至接近1，在音调分量结束处又急剧降至0.8虚线以下，并重新快速回复至0.8虚线以上。

由图6可以看出，相关性系数能够较为敏感地反映出信号频谱的变化情况。一般情况下，当语谱图上的频谱状态越稳定时，相关性系数越接近1；当语谱图上的频谱发生明显变化，例如是从一个音节过渡到另一个音节时，相关性系数会在短时间内迅速变小。如果相关性系数取值小于设定的阈值(例如是0.8)，则表示信号频谱已经发生明显变化，此处应被分段；否则不需分段。

可选的，在根据求导结果计算语音信号中相邻帧的相关性系数之后，因为白噪声部分的语谱图不同于语音信号，频谱状态变化始终维持在一个介于“稳定”与“明显变化”之间的状态，故白噪声部分频谱的相关性系数始终在一个较窄的区间内波动。在这种情况下，如果以处于该区间的一个值为阈值进行分段，在白噪声部分就会得到若干不准确的分段结果。因此可以对初始计算的相关性系数进行调整，保证语音信号应被分段，而位于语音信号前后的白噪声部分不应被分段。可以具体包括：

确定相关性系数的局部极大值点；以局部极大值点作为分组点对语音信号进行分组；对分组后的每一组进行归一化处理，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数，具体包括：根据公式r'_k=r_k+(1-max(r_k1))计算频域能量修正相关性系数；其中r'_k为计算得到的频域能量修正相关性系数，r_k1为分组后每一组的局部极大值点的相关性系数，max(r_k1)为取值最大的分组后每一组的局部极大值点的相关性系数。对应的，根据频域能量相关性系数对原始语音信号进行分段包括：根据频域能量修正相关系数对原始语音信号进行分段。

图7为英文女声和白噪声序列的经过调整的各帧相关性系数示意图。其中，图7中a）为波形图；b）为语谱图；c）的虚线为原始相关性系数，实线为调整后的相关性系数。由图可见，调整主要针对噪声部分，对于语音部分的影响很小。针对调整后的相关性系数，以0.8为阈值进行分段，就可以对语音信号进行准确分段，位于语音信号前后的白噪声部分不会被错误分段。

进一步的，在得到相邻帧的相关性后，根据相邻帧的相关性，对语音信号进行分段，如图8所示，根据频域能量相关性系数对原始语音信号进行分段的步骤具体包括：

S301、确定频域能量相关性系数的局部极小值点；

S302、若局部极小值点小于或等于设定阈值，则以局部极小值点作为分段点对语音信号进行分段。

具体的，分段的设定阈值可以根据具体使用要求进行设定，如果分段是用于语音识别的音素分割算法，其需要进行精细分段，则设定阈值可以设的较大；如果分段用于语音质量评估的语音分段算法，其分段相对粗略，则设定阈值可以设的相对较小。

具体的，在以局部极小值点作为分段点对语音信号进行分段之后，进一步的，还可以对分段结果进行合并，可以具体包括：

计算以语音信号中每个分段点为中心的设定时域范围内时域能量的平均值；若计算以每个分段点为中心的设定时域范围内所对应的平均值小于或等于设定值，则将对应的分段点所涉及的两个分段合并。

在实现了语音信号的分段之后，可以适用于包括语音质量评估和语音识别等在内的多个应用场合：

在进行语音质量评估时，可以将本发明实施例中的语音信号的分段方法与已有的清浊音及噪声分类算法相配合，实现语音质量评估中的分段算法。

本实施例中，计算语音帧在频域上能量分布特性具体包括：接收包括相邻的第一语音帧和第二语音帧在内的原始语音信号，分别对第一语音帧和第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号，并根据第一和第二频域信号的实部和虚部，得到第一语音帧和第二语音帧在0～f频率范围内的能量总和与各自语音帧的总能量的第一比值和第二比值，最后分别对第一比值和第二比值进行求导，得到第一导数和第二导数表示第一语音帧和第二语音帧的频域能量分布。然后在根据相邻帧的相关性对语音信号进行分段时，先确定相关系数的局部极小值点，若局部极小值点小于或等于设定阈值，则以局部极小值点作为分段点对语音信号进行分段。这样实现了语音信号根据频域能量分布进行分段，从而提高对语音信号分段的准确性。

图9是本发明实施例三提供的对中文女神和粉红噪声序列进行语音信号分段的示意图。如图9所示，本实施例的语音信号的分段方法和前述实施例类似，本处不再赘述。本实施例提供的语音信号的分段方法在上述实施例的基础上，还可供进行语音质量评估或者语音识别中的应用。

在进行语音质量评估时，例如对中文女声和粉红噪声序列进行语音质量评估，其具体应用过程如图10所示，其中，V表示浊音，UV表示清音，N表示噪声。这样可分析精细分段中的每一段是浊音、清音还是噪声，然后将清音段和浊音端合并成语音段，得到用于打分的语音段及噪音段，由此将待评估的语音信号划分为较长的段落，以便于语音质量评估打分的后续进行。

在进行语音识别时，还是对上述中文女声和粉红噪声序列进行语音识别，其具体应用过程如图11所示。本实施例中语音信号的分段方法提供的语音信号精细分段能够准确至音素，可以用于实现语音识别初始阶段的音素自动分割算法。最后实现准确至音素或是音节的语音信号的精细分段结果。后续可以依据该精细分段结果进一步对音素或音节组成的字进行识别。

本实施例中，利用语音信号的分段方法，可以完成语音信号的精细分段，以进行语音质量评估，分析精细分段中的每一段是浊音、清音还是噪声，并得到用于打分的语音段及噪音段；或者应用于语音识别，实现准确至音素或是音节的语音信号的精细分段结果。

图12是本发明实施例四提供的根据频域能量对语音信号进行处理的装置的结构示意图。如图12所示，根据频域能量对语音信号进行处理的装置包括：

接收模块501，用于接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；

变换模块502，用于对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；

能量分布模块503，用于根据第一频域信号得到第一语音帧的频域能量分布，根据第二频域信号得到第二语音帧的频域能量分布，其中，频域能量分布表示语音帧在频域上的能量分布特性；

相关性模块504，用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，其中，频域能量相关性系数用于表示第一语音帧到第二语音帧的频谱变化；

分段模块505，用于根据频域能量相关性系数对原始语音信号进行分段。

具体的，第一语音帧的频率范围内包括至少两个频段，能量分布模块503用于：

根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一频段范围内的能量总和与第一语音帧的总能量的第一比值；

进一步的，能量分布模块503还用于：

根据f∈[0,(F_lim-1)] 得到第一比值；

进一步的，能量分布模块503还用于：

根据

对第一比值进行求导；

N表示上述数值微分为N点；M表示上述数值微分是利用f∈[M,(M+N-1)]区间内的第一比值来获得的；

具体的，相关性模块504用于：

进一步的，相关性模块504用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数之后，还用于：

确定频域能量相关性系数的局部极大值点；

以局部极大值点作为分组点对原始语音信号进行分组；

根据频域能量修正相关系数对原始语音信号进行分段。

具体的，相关性模块504用于：

进一步的，相关性模块504还用于：

根据k≥1计算相关性系数r_k；

具体的，分段模块505用于：

确定频域能量相关性系数的局部极小值点；

可选的，分段模块505用于根据频域能量相关性系数对原始语音信号进行分段之后，还用于：

计算以每个分段点为中心的设定时域范围内所对应的平均值是否小于或等于设定值，若是，则将对应的分段点所涉及的两个分段合并。

本实施例中，根据频域能量对语音信号进行处理的装置先接收包括相邻的第一语音帧和第二语音帧的原始语音信号，再分别对第一语音帧和第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号；然后由此得到第一语音帧和第二语音帧的用于表示语音帧在频域上的能量分布特性的频域能量分布，根据第一语音帧和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的用于表示第一语音帧到第二语音帧的频谱变化的频域能量相关性系数，最后根据频域能量相关性系数对原始语音信号进行分段。这样实现了利用语音信号的频域能量分布进行分段，从而提高对语音信号分段的准确性。

图13是本发明实施例五提供的根据频域能量对语音信号进行处理的装置的结构示意图。如图13所示，根据频域能量对语音信号进行处理的装置包括：

接收器601，用于接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；

处理器602,，用于对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；

用于根据第一频域信号得到第一语音帧的频域能量分布，根据第二频域信号得到第二语音帧的频域能量分布，其中，频域能量分布表示语音帧在频域上的能量分布特性；

用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，其中，频域能量相关性系数用于表示第一语音帧到第二语音帧的频谱变化；

用于根据频域能量相关性系数对原始语音信号进行分段。

具体的，第一语音帧的频率范围内包括至少两个频段，处理器602用于：

进一步的，处理器602还用于：

根据f∈[0,(F_lim-1)] 得到第一比值；

进一步的，处理器602还用于：

根据

对第一比值进行求导；

具体的，处理器602用于：

根据第一语音帧频率范围内的第一导数之和，第二导数之和，以及第一导数和第二导数乘积之和，确定第一语音帧和第二语音帧的频域能量相关性系数。

具体的，处理器602用于：

进一步的，处理器602用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数之后，还用于：

确定频域能量相关性系数的局部极大值点；

以局部极大值点作为分组点对原始语音信号进行分组；

根据频域能量修正相关系数对原始语音信号进行分段。

进一步的，处理器602还用于：

根据k≥1计算相关性系数r_k；

其中，

其中，k-1为第一语音帧，k为第二语音帧，k大于等于1。

具体的，处理器602用于：

确定频域能量相关性系数的局部极小值点；

可选的，处理器602用于根据频域能量相关性系数对原始语音信号进行分段之后，还用于：

本实施例中，根据频域能量对语音信号进行处理的装置中的接收器先接收包括相邻的第一语音帧和第二语音帧的原始语音信号，处理器再分别对第一语音帧和第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号；然后由此得到第一语音帧和第二语音帧的用于表示语音帧在频域上的能量分布特性的频域能量分布，根据第一语音帧和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的用于表示第一语音帧到第二语音帧的频谱变化的频域能量相关性系数，最后根据频域能量相关性系数对原始语音信号进行分段。这样实现了利用语音信号的频域能量分布进行分段，从而提高对语音信号分段的准确性。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种根据频域能量对语音信号进行处理的方法，其特征在于，所述方法包括：

接收原始语音信号，所述原始语音信号包括相邻的第一语音帧和第二语音帧；

对所述第一语音帧进行傅里叶变换得到第一频域信号，对所述第二语音帧进行傅里叶变换得到第二频域信号；

根据所述第一频域信号得到所述第一语音帧的频域能量分布，根据所述第二频域信号得到所述第二语音帧的频域能量分布，其中，所述频域能量分布表示语音帧在频域上的能量分布特性；

根据所述第一语音帧的频域能量分布和所述第二语音帧的频域能量分布，得到所述第一语音帧和所述第二语音帧的频域能量相关性系数，其中，所述频域能量相关性系数用于表示所述第一语音帧到所述第二语音帧的频谱变化；

根据所述频域能量相关性系数对所述原始语音信号进行分段；

所述第一语音帧的频率范围内包括至少两个频段，所述根据所述第一频域信号得到所述第一语音帧的频域能量分布，具体包括：根据所述第一频域信号的实部和所述第一频域信号的虚部，得到所述第一语音帧的任一所述频段范围内的能量总和与所述第一语音帧的总能量的第一比值；

对所述第一比值进行求导，得到第一导数表示所述第一语音帧的频域能量分布。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音帧的频域能量分布和所述第二语音帧的频域能量分布，得到所述第一语音帧和所述第二语音帧的频域能量相关性系数，具体包括：

根据所述第一语音帧频率范围内的所述第一导数，第二导数，以及所述第一导数和所述第二导数乘积，确定所述第一语音帧和所述第二语音帧的频域能量相关性系数,其中，所述第二导数表示所述第二语音帧的频域能量分布。

3.根据权利要求1-2任一项所述的方法，其特征在于，所述根据第一语音帧的频域能量分布和所述第二语音帧的频域能量分布，得到所述第一语音帧和所述第二语音帧的频域能量相关性系数之后，所述方法还包括：

确定所述频域能量相关性系数的局部极大值点；

以所述局部极大值点作为分组点对所述原始语音信号进行分组；

对分组后的每一组进行归一化处理，根据所述频域能量相关性系数和所述归一化处理结果计算频域能量修正相关性系数；

对应的，所述根据所述频域能量相关性系数对所述原始语音信号进行分段包括：

根据所述频域能量修正相关系数对所述原始语音信号进行分段。

4.根据权利要求3所述的方法，其特征在于，所述根据所述频域能量相关性系数和所述归一化处理结果计算所述频域能量修正相关性系数，具体包括：

根据公式r′_k＝r_k+(1-max(r_k1))计算所述频域能量修正相关性系数，其中r′_k为计算得到的频域能量修正相关性系数，r_k为所述频域能量相关性系数，r_k1为所述分组后每一组的局部极大值点的频域能量相关性系数，max(r_k1)为取值最大的所述分组后每一组的局部极大值点的频域能量相关性系数。

5.根据权利要求1-2任一项所述的方法，其特征在于，所述根据所述频域能量相关性系数对所述原始语音信号进行分段，具体包括：

确定所述频域能量相关性系数的局部极小值点；

若所述局部极小值点小于或等于设定阈值，则以所述局部极小值点作为分段点对所述语音信号进行分段。

6.根据权利要求5所述的方法，其特征在于，所述根据所述频域能量相关性系数对所述原始语音信号进行分段之后，还包括：

计算以所述原始语音信号中每个所述分段点为中心的设定时域范围内时域能量的平均值；

若计算以每个所述分段点为中心的设定时域范围内所对应的平均值小于或等于设定值，则将对应的分段点所涉及的两个分段合并。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一频域信号的实部和所述第一频域信号的虚部，得到所述第一语音帧的任一所述频段范围内的能量总和与所述第一语音帧的总能量的第一比值，具体包括：

根据f∈[0,(F_lim-1)]得到所述第一比值；

其中，ratio_energy_k(f)表示第一语音帧的任一所述频段范围内的能量总和与所述第一语音帧的总能量的第一比值，i的取值在0～f之间，f表示谱线数，f∈[0,(F_lim-1)]，(F_lim-1)表示所述第一语音帧的谱线数所能取到的最大值，Re_fft(i)表示所述第一频域信号实部，Im_fft(i)表示所述第一频域信号的虚部，表示所述第一语音帧的总能量，表示所述第一语音帧在0～f频率范围内的能量总和。

8.根据权利要求7所述的方法，其特征在于，所述对所述第一比值进行求导，具体为：

根据对所述第一比值进行求导；

N表示上述数值微分公式为N点；M表示上述数值微分公式是利用f∈[M,(M+N-1)]区间内的第一比值来获得的。

9.根据权利要求8所述的方法，其特征在于，所述根据第一语音帧的频域能量分布和所述第二语音帧的频域能量分布，得到所述第一语音帧和所述第二语音帧的频域能量相关性系数，具体为：

根据计算所述相关性系数r_k；

其中，其中，k-1表示所述第一语音帧，k表示所述第二语音帧，k大于等于1。

10.一种根据频域能量对语音信号进行处理的装置，其特征在于，包括：

接收模块，用于接收原始语音信号，所述原始语音信号包括相邻的第一语音帧和第二语音帧；

变换模块，用于对所述第一语音帧进行傅里叶变换得到第一频域信号，对所述第二语音帧进行傅里叶变换得到第二频域信号；

能量分布模块，用于根据所述第一频域信号得到所述第一语音帧的频域能量分布，根据所述第二频域信号得到所述第二语音帧的频域能量分布，其中，所述频域能量分布表示语音帧在频域上的能量分布特性；

相关性模块，用于根据所述第一语音帧的频域能量分布和所述第二语音帧的频域能量分布，得到所述第一语音帧和所述第二语音帧的频域能量相关性系数，其中，所述频域能量相关性系数用于表示所述第一语音帧到所述第二语音帧的频谱变化；

分段模块，用于根据所述频域能量相关性系数对所述原始语音信号进行分段；

所述第一语音帧的频率范围内包括至少两个频段，所述能量分布模块具体用于：

根据所述第一频域信号的实部和所述第一频域信号的虚部，得到所述第一语音帧的任一所述频段范围内的能量总和与所述第一语音帧的总能量的第一比值；

11.根据权利要求10所述的装置，其特征在于，所述相关性模块具体用于：

根据所述第一语音帧频率范围内的所述第一导数，第二导数，以及所述第一导数和所述第二导数乘积，确定所述第一语音帧和所述第二语音帧的频域能量相关性系数,其中，所述第二导数表示第二语音帧的频域能量分布。

12.根据权利要求10-11任一项所述的装置，其特征在于，所述相关性模块还用于：

确定所述频域能量相关性系数的局部极大值点；

对分组后的每一组进行归一化处理，根据所述频域能量相关性系数和所述归一化处理结果计算所述频域能量修正相关性系数；

对应的，所述分段模块用于：

13.根据权利要求12所述的装置，其特征在于，所述相关性模块具体用于：

14.根据权利要求10-11任一项所述的装置，其特征在于，所述分段模块具体用于：

确定所述频域能量相关性系数的局部极小值点；

15.根据权利要求14所述的装置，其特征在于，所述分段模块用于根据所述频域能量相关性系数对所述原始语音信号进行分段之后，还用于：

16.根据权利要求10所述的装置，其特征在于，所述能量分布模块具体用于：

根据f∈[0,(F_lim-1)]得到所述第一比值；

17.根据权利要求16所述的装置，其特征在于，所述能量分布模块具体用于：

根据对所述第一比值进行求导；

18.根据权利要求17所述的装置，其特征在于，所述相关性模块具体用于：

根据k≥1计算所述相关性系数r_k；

其中，其中，k-1表示所述第一语音帧，k为所述第二语音帧，k大于等于1。