CN112420068A

CN112420068A - 一种基于Mel频率尺度分频的快速自适应波束形成方法

Info

Publication number: CN112420068A
Application number: CN202011146181.0A
Authority: CN
Inventors: 李俊潇; 王平; 王前慧
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-02-26
Anticipated expiration: 2040-10-23
Also published as: CN112420068B

Abstract

本发明公开了一种基于Mel频率尺度分频的快速自适应波束形成方法，包括语音信号分帧和加窗后得到语音帧；对语音帧进行FFT变换得到频谱再映射成Mel频谱；将频谱划分成Mel频率子带，计算频率子带的阵列方向矢量、数据协方差矩阵和Mel频率子带对应的语音帧的权值；频率子带与权值相乘累加得到处理后的语音帧；将语音帧经过通道叠加、频域补全处理后，再经过逆傅里叶变换得到语音帧时域信号；再将语音帧时域信号加窗并重叠相加，得到输出语音。在MVDR波束形成方法的基础上，对分帧后的语音信号进行Mel频带划分，将傅氏频点的加权运算替换成了Mel频带的加权运算，减少了矩阵求逆运算，提高运算速度和输出语音的质量。

Description

一种基于Mel频率尺度分频的快速自适应波束形成方法

技术领域

本发明涉及智能家电语音交互技术领域，具体的说，是一种基于Mel频率尺度分频的快速自适应波束形成方法。

背景技术

随着物联网和人工智能等新一代信息技术的发展和应用，人机智能语音交互技术逐渐成为新型交互技术中最重要的一类技术。智能语音交互技术的便利程度与物联网、人工智能的发展程度成正比，设备或机器的智能程度越高，智能语音交互的程度等级也越高。作为智能语音识别系统中最重要的语音前端处理算法，麦克风阵列波束形成是一种集时间和空间信息的信号处理技术，它通过麦克风阵列采集由空间发送的语音信号并通过阵列信号处理的手段处理语音信号。麦克风阵列波束形成器本质是一个空间滤波器，它可以增强期望方向的语音并抑制无关方向的噪声及干扰。由于语音信号是典型的宽带信号，当采用常规的波束形成方法进行语音增强时，由于不同的频率分量对应的阵列方向矢量不相等，即不同的频率分量对应的波束主瓣宽度不一致，这会导致阵列处理后的语音频谱发生畸变。这种畸变会对语音识别系统的性能产生不良的影响。所以需要针对不同的频率分量设计不同的加权矢量来保证得到无失真的语音信号。基于频率点加权的最小方差无畸变响应(Minimum Variance Distortionless Response，MVDR)波束设计方法可以对语音信号进行增强，但是由于该方法中有大量的矩阵求逆运算，所以使用该方法会大大影响语音识别系统的唤醒速度和性能。因此，提高波束形成算法的运算速度，提高智能语音识别系统的唤醒速度在智慧家居产品中也就显得极其重要。

现有技术中也有一些改进传统MVDR方法语音增强效果的方法，但是均没有从减少MVDR自适应波束形成器的运算复杂度方面提高波束形成器的性能以及提高波束形成的速度。

发明内容

本发明的目的在于提供基于Mel频率尺度分频的快速自适应波束形成方法，用于解决现有技术中采用传统MVDR波束设计方法对语音信号增强存在唤醒速度和性能受影响的问题。

本发明通过下述技术方案解决上述问题：

一种基于Mel频率尺度分频的快速自适应波束形成方法，包括：

步骤S100：采用麦克风均匀圆形阵列采集语音信号，并对语音信号进行分帧和加窗处理，得到多个语音帧；

步骤S200：对每个语音帧分别进行离散傅里叶变换得到频谱，再将频谱映射到Mel频率尺度得到Mel频谱；

步骤S300：将Mel频谱进行频带划分，得到Mel频率子带，计算每个Mel频率子带中心频率对应的阵列方向矢量，并计算每个Mel频率子带对应的数据协方差矩阵以及数据协方差逆矩阵；

步骤S400：根据所述阵列方向矢量和数据协方差逆矩阵计算每个Mel频率子带对应的语音帧的权值；

步骤S500：将每个Mel频率子带与对应的权值相乘累加得到处理后的语音帧；

步骤S600：将处理后的语音帧经过通道叠加、频域补全处理后，再经过逆傅里叶变换得到语音帧时域信号；再将语音帧时域信号加窗并重叠相加，得到输出语音。

所述步骤S100中分帧为将语音信号分为256个数据采样点、帧移位为116个采样点的语音帧；所述加窗为使用256个数据采样点的汉明窗对语音信号进行加窗。

语音帧的离散傅里叶变换方法为：

其中，X_i(k)为第i个语音帧经过傅里叶变换后的频谱，x_i(n)表示第i帧的语音信号，k表示语音帧中的频率点，L表示每个语音帧的数据采样点长度，L取值为256。

将频谱映射到Mel频率尺度得到Mel频谱X_i(k)'的映射方法为：Mel(f)＝1125lg(1+f/700)。

将Mel频谱进行频带划分得到Mel频率子带的方法为：

采用128个点对Mel频谱进行频带划分，选取每8个频率点为一个子带，共计16个频率子带，即：

X_i(k)'＝∑X_i,j(k)',k＝8×(j-1)+1

其中，X_i,j(k)'表示第i个Mel频谱划分的第j个Mel频率子带，j＝1,2,...,16，k表示第j个频率子带对应的中心频率点。

所述麦克风均匀圆形阵列包括6个阵元。

计算第i个Mel频谱的每个Mel频率子带中心频率对应的阵列方向矢量a_i,j的公式为：

a_i,j＝exp[2iπf₀(j)τ_m]

其中：f₀(j)表示第j个频带的中心频率，τ_m表示第m个阵元相对于参考阵元的平面波传播时延，m＝1,2,...,6，θ为估计的来波方向。

所述步骤S400计算每个Mel频率子带对应的语音帧的权值的公式为：

其中，R_i,j为第i帧Mel频谱第j个频率子带的数据协方差矩阵，W_i,j表示第i帧语音第j个频率子带的阵列加权矢量，符号(·)^-1表示矩阵求逆，(·)^H表示求共轭转置。

处理后的语音帧Y_i,j(k)：

其中：

由第i帧语音第j个频率子带的阵列加权矢量求共轭转置得到。

语音帧时域信号y_i(n)：

y_i(n)＝IFFT(Y_i(k))

其中，Y_i(k)为处理后的语音帧Y_i,j(k)经通道叠加和频域补全后的语音帧频域表示；

语音帧时域信号y_i(n)加窗并重叠相加得到输出信号y(n)。

本发明与现有技术相比，具有以下优点及有益效果：

本发明中将频域映射到Mel频谱，Mel频谱分析着眼于人耳的听觉特征，将频率进行非线性的子带划分，Mel临界频率会随着频率的变化而变化，在1000Hz下大致呈线性分布，在1000Hz上呈对数增长，这样会极大地减少频率子带的划分，从而减少波束形成运算复杂度。本发明在频率点加权的MVDR波束形成方法的基础上，对分帧后的语音信号进行基于Mel频率的频带划分，将每一傅氏频点的加权运算替换成了Mel频带的加权运算，大大减少了矩阵求逆运算，提高了波束形成方法的运算速度，提高输出语音的质量。

附图说明

图1为本发明的流程示意图；

图2为麦克风均匀圆形阵列的结构示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例：

一种基于Mel频率尺度的快速自适应波束形成方法，包括：

步骤S101：采用6阵元的麦克风均匀圆形阵列采集语音信号，如图2所示，6阵元的麦克风均匀圆形阵列的半径为r，入射的语音信号表示为s(t)，入射方位角为Θ。6个麦克风分别为mic1、mic2、mic3、mic4、mic5、mic6，以mic1为参考阵元，则6个麦克风对应的入射角度分别为0°、60°、120°、180°、240°、300°。假设语音对准mic2入射，则入射角为60°。

如图1所示，先对语音信号分别进行分帧，每一语音帧的长度为256个数据采样点，帧移位116个采样点；加窗是使用256个采样点的汉明窗对语音信号进行加窗。以分帧和加窗后的语音信号为处理对象，进行波束形成器的设计。波束形成方法包括步骤102-107：

步骤102，通过快速傅里叶变换(FFT)实现语音帧的离散傅里叶变换，其中，第i帧的语音经过FFT变换后的频谱为：

在上述表达式中，x_i(n)表示第i帧的语音，k表示语音帧中的频率点，L表示每一语音帧的数据采样点长度，取值为256。

步骤103，将X_i(k)映射到Mel频率尺度，得到映射后的频谱X_i(k)'，Mel频率与实际频率的具体关系如下：

Mel(f)＝1125lg(1+f/700)

将变换后的Mel频谱X_i(k)'进行划分子带，由于X_i(k)'是关于中心频率点对称的，所以只需要取128个点进行频带的划分，选取每8个频率点为一个子带，共计16个频率子带，如下式所示：

X_i(k)'＝∑X_i,j(k)',k＝8×(j-1)+1

其中，X_i,j(k)'表示Mel频谱X_i(k)'划分后的第j个频率子带，j＝1,2,...,16，k表示第j个频率子带对应的中心频率点。

步骤104，对每一Mel频率子带的语音帧数据进行自适应权值的设计，采用的方法是多频带MVDR自适应波束形成方法。当前帧的权值由下式确定：

其中，R_i,j为第i帧语音第j个频率子带的数据协方差矩阵，a_i,j表示第i帧语音第j个频率子带的阵列方向矢量，W_i,j表示第i帧语音第j个频率子带的阵列加权矢量，符号(·)^-1表示矩阵求逆，(·)^H表示矩阵求共轭转置。

步骤105，将每一帧语音和当前帧的权值进行相乘累加得到处理后的语音帧Y_i(k)，表示如下：

步骤106，对处理后的语音帧进行频域补全、逆傅里叶变换得到处理后单通道的语音帧时域表示：

y_i(n)＝IFFT(Y_i(k))

其中Y_i(k)表示频域补全后的语音帧频域表示，y_i(n)表示经过逆傅里叶变换后的时域信号。

步骤107，语音信号恢复：将每一帧处理后的语音帧进行加窗叠加就可以得到波束形成的输出信号y(n)。y(n)即为用于智能语音系统唤醒的增强语音。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，所述步骤S100中分帧为将语音信号分为256个数据采样点、帧移位为116个采样点的语音帧；所述加窗为使用256个数据采样点的汉明窗对语音信号进行加窗。

3.根据权利要求1所述的一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，语音帧的离散傅里叶变换方法为：

4.根据权利要求3所述的一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，将频谱映射到Mel频率尺度得到Mel频谱X_i(k)'的映射方法为：Mel(f)＝1125lg(1+f/700)。

5.根据权利要求4所述的一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，将Mel频谱进行频带划分得到Mel频率子带的方法为：

X_i(k)'＝∑X_i,j(k)',k＝8×(j-1)+1

6.根据权利要求5所述的一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，所述麦克风均匀圆形阵列包括6个阵元。

7.根据权利要求6所述的一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，计算第i个Mel频谱的每个Mel频率子带中心频率对应的阵列方向矢量a_i,j的公式为：

a_i,j＝exp[2iπf₀(j)τ_m]

8.根据权利要求7所述的一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，所述步骤S400计算每个Mel频率子带对应的语音帧的权值的方法为：

其中，R_i,j为第i帧Mel频谱第j个频率子带的数据协方差矩阵，W_i,j表示第i帧语音第j个频率子带的阵列加权矢量，符号(·)^-1表示矩阵求逆，(·)^H表示求共轭转置；

对W_i,j求转置矩阵得到权值。

9.根据权利要求8所述的一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，处理后的语音帧Y_i,j(k)：

其中：

10.根据权利要求9所述的一种基于Mel频率尺度分频的快速自适应波束形成方法，其特征在于，语音帧时域信号y_i(n)：

y_i(n)＝IFFT(Y_i(k))

语音帧时域信号y_i(n)加窗并重叠相加得到输出信号y(n)。