CN113903353A

CN113903353A - 一种基于空间区分性检测的定向噪声消除方法及装置

Info

Publication number: CN113903353A
Application number: CN202111135208.0A
Authority: CN
Inventors: 何平; 蒋升
Original assignee: Suirui Technology Group Co Ltd
Current assignee: Suirui Technology Group Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-07

Abstract

本发明公开了一种基于空间区分性检测的定向噪声消除方法及装置，属于信息处理的领域，该方法包括：S1：对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算；S2：对初始化后的信号转化为时频域信号，并且构建频域预测向量；S3：对时频域信号进行噪声消除滤波器计算，获取用于分离目标语音与噪声信号的滤波器；S4：根据获取的滤波器，得到目标语音的频域估计，进而得到目标语音时域估计。本发明能够有效消除干扰声音，可显著提升在线语音会议通讯质量，也可以提高后续语音识别的准确性。

Description

一种基于空间区分性检测的定向噪声消除方法及装置

技术领域

本发明属于信息处理的领域，特别是关于一种基于空间区分性检测的定向噪声消除方法及装置。

背景技术

在语音会议系统、车载语音通讯系统及人机交互系统等诸多应用中，目标说话人通常受到其他方向点源噪声的干扰，比如电视等。

麦克风阵列波束形成技术广泛应用于在线会议系统、车载人机交互、智能家居等领域。实际环境中，来自于其他方向的干扰信号，比如音乐等，会显著降低会议通讯的听感和后续语音识别的准确率。基于麦克风阵列多阵元进行定向拾取是降低信号噪声、提高通讯质量最常用的方法。

常用的方案包括以超指向滤波器为代表的固定波束形成技术；以广义旁瓣消除为代表的自适应波束形成技术。超指向滤波器的优点在于语音失真小，但是噪声抑制性能有限。广义旁瓣消除等自适应波束形成方法，可以达到更好的噪声消除效果，但是存在较大的语音失真风险。这两类技术通常基于说话人方位相对于麦克风阵列的空间方位信息，计算理想的导向矢量，基于最小化噪声能量的原则设计滤波器。然而，实际应用中麦克风之间的不一致性，混响等因素都会造成理想导向矢量与实际导向矢量的误差较大，进而导致噪声消除效果不理想或者造成较大的语音失真。

现有技术中，定向消除噪声的方法主要有以下缺点：

1)单纯采用基于方位信息的理想导向矢量，由于导向矢量在混响、麦克风不一致等场景下与真实矢量的不匹配，导致性能下降。

2)只考虑到目标说话人的方位信息，不考虑干扰方位信息，导致空间区分性信息计算不足，导致噪声消除性能不足。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种基于空间区分性检测的定向噪声消除方法及装置，其能够有效消除干扰声音，可显著提升在线语音会议通讯质量，也可以提高后续语音识别的准确性。

为实现上述目的，本发明提供了一种基于空间区分性检测的定向噪声消除方法，包括以下步骤：

S1：对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算；

S2：对初始化后的信号转化为时频域信号，并且构建频域预测向量；

S3：对时频域信号进行噪声消除滤波器计算，获取用于分离目标语音与噪声信号的滤波器；其中，噪声消除滤波器的计算包括：计算空间区分性系数和空间掩蔽信息、更新互相关系数向量和导向矢量、更新噪声协方差矩阵以及计算噪声消除滤波器；

S4：根据获取的滤波器，得到目标语音的频域估计，进而得到目标语音时域估计。

在本发明的一实施方式中，所述步骤S1之前，还包括获取麦克风的语音信号x_m(n)；

所述步骤S1中，具体包括以下步骤：

S101：对每个频带k，计算目标语音导向矢量u_s(k)和噪声导向矢量u_v(k)：

q(θ_s)＝[cos(θ_s)，sin(θ_s)]，q(θ_v)＝[cos(θ_v)，sin(θ_v)]；

S102：对每个频带k，分别计算语音拾取滤波器h_s(k)和噪声拾取滤波器h_v(k)：

在本发明的一实施方式中，所述步骤S2包括以下步骤：

S201：对时域信号x_m(n)进行短时傅里叶变换得到时频域表达：

S202：对每一个频带k，构建频域原始向量X(l，k)：

X(l，k)＝[X₁(l，k)，X₂(l，k)，...，X_M(l，k)]^T。

在本发明的一实施方式中，所述步骤S3包括以下步骤：

S301：计算空间区分性系数和空间掩蔽信息：

空间区分性系数的计算如下：

其中，ρ_s(l)，ρ_v(l)和ρ_x(l)分别代表第l帧语音方向、噪声方向以及麦克风拾取信号能量估计，能量分布的差异代表了空间区分性；

空间掩蔽信息γ(l)的计算如下：

S302：更新互相关系数向量和导向矢量；

对每一个频带k，互相关系数向量Γ(l，k)的更新如下：

对每一个频带k，目标方向导向矢量

的更新如下：

S303：更新噪声协方差矩阵和噪声消除滤波器：

对每一个频带k，噪声协方差矩阵

的更新如下：

对每一个频带k，噪声消除滤波器

的计算如下：

在本发明的一实施方式中，所述步骤S4包括以下步骤：

S401：根据求解得到的噪声消除滤波器，得到目标语音的频域估计

S402：对目标语音的频域估计进行傅里叶逆变换得到最终的目标语音估计

本发明还提供了一种基于空间区分性检测的定向噪声消除装置，包括初始化模块、信号分解模块、滤波器计算模块和目标语音估计模块；

所述初始化模块，用于对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算；

所述信号分解模块，用于对初始化后的信号转化为时频域信号，并且构建频域预测向量；

所述滤波器计算模块，用于对时频域信号进行噪声消除滤波器计算，获取用于分离目标语音与噪声信号的滤波器；其中，所述滤波器计算模块包括：用于计算空间区分性系数和空间掩蔽信息的第一计算模块、用于更新互相关系数向量和导向矢量的第一更新模块、以及用于更新噪声协方差矩阵和噪声消除滤波器的第二更新模块；

所述目标语音估计模块，用于根据获取的滤波器，得到目标语音的频域估计，进而得到目标语音时域估计。

在本发明的一实施方式中，所述初始化模块还用于获取麦克风的语音信号x_m(n)；

所述初始化模块用于进行以下操作：

对每个频带k，计算目标语音导向矢量u_s(k)和噪声导向矢量u_v(k)：

q(θ_s)＝[cos(θ_s)，sin(θ_s)]，q(θ_v)＝[cos(θ_v)，sin(θ_v)]；

对每个频带k，分别计算语音拾取滤波器h_s(k)和噪声拾取滤波器h_v(k)：

在本发明的一实施方式中，所述信号分解模块包括信号转换模块和向量构建模块；

所述信号转换模块，用于对时域信号x_m(n)进行短时傅里叶变换得到时频域表达：

所述向量构建模块，用于对每一个频带k，构建频域原始向量X(l，k)：

X(l，k)＝[X₁(l，k)，X₂(l，k)，...，X_M(l，k)]^T。

在本发明的一实施方式中，所述步骤S3包括以下步骤：

在所述第一计算模块中，空间区分性系数的计算如下：

空间掩蔽信息γ(l)的计算如下：

在所述第一更新模块中，对每一个频带k，互相关系数向量Γ(l，k)的更新如下：

对每一个频带k，目标方向导向矢量

的更新如下：

在所述第二更新模块中，对每一个频带k，噪声协方差矩阵

的更新如下：

对每一个频带k，噪声消除滤波器

的计算如下：

在本发明的一实施方式中，所述目标语音估计模块包括频域估计模块和目标语音估计模块；

所述频域估计模块，用于根据求解得到的噪声消除滤波器，得到目标语音的频域估计

所述目标语音估计模块，用于对目标语音的频域估计进行傅里叶逆变换得到最终的目标语音估计

与现有技术相比，根据本发明的一种基于空间区分性检测的定向噪声消除方法及装置，相比于传统自适应波束形成方法，本项发明用空间区分性因子计算出空间掩蔽信息，对于时频单元进行分类，噪声消除效果更好。此外，本发明采用的空间掩蔽信息，用以后续导向矢量的估计，可以更好适应混响场景，鲁棒性更高，目标语音失真度更小，可有效提高语音通讯质量以及语音识别准确率。

附图说明

图1为本具体实施方式中的基于空间区分性检测的定向噪声消除方法的流程图。

图2为本具体实施方式中的使用的汉明窗函数的示意图。

图3为本具体实施方式中的基于空间区分性检测的定向噪声消除的示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

如图1所示，根据本发明优选实施方式的一种基于空间区分性检测的定向噪声消除方法，基于麦克风阵列设计了一组空间区分性特征，可以在时频空间有效区分目标说话人、噪声干扰主导的时频单元，进而针对性的设计滤波器，在实时提取的目标说话人语音中，有效消除干扰声音，可显著提升在线语音会议通讯质量，也可以提高后续语音识别的准确性。

该方法应用于基于麦克风阵列的系统，具体包括以下四个实施步骤：

S1：对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算。

在步骤S1之前，还包括获取麦克风的语音信号，获取的语音信号如下：假设x_m(n)代表M个麦克风阵元实时拾取的原始时域信号，其中，m代表麦克风序号标签，其取值从1到M；n代表时间标签；目标语音相对麦克风阵列的方向已知为θ_s，噪声干扰相对麦克风阵列的方向已知为θ_v。

其中，目标语音是指对应目标方向的语音信号，对于语音分离任务而言，目标方向是根据所提取的信号提前知晓的，比如对于大屏语音通讯设备，希望分离的是90度方位的目标语音信号，以及30度方位的干扰噪声信号。

具体地，本步骤S1中，具体包括以下步骤：

S101：对每个频带k(k＝1，2，...K)，计算目标语音导向矢量u_s(k)和噪声导向矢量u_v(k)，其中，频带是指某个频率对应的信号分量。其具体的计算公式如下：

q(θ_s)＝[cos(θ_s)，sin(θ_s)]，q(θ_v)＝[cos(θ_v)，sin(θ_v)]。

其中，f_k为第k个频带的频率，k＝1，2，...K，其中K的取值是根据后续傅里叶变换来确定，如果帧长为512，那么K的取值为帧长的一半；c为声速，c＝340m/s；d_m为第m个麦克风的二维坐标值；上标H代表共轭转置算符；j代表虚数单位

q(θ)为方向矢量，ω_k为频带圆频率。

该步骤S101用以初始化导向矢量，该导向矢量代表了无混响、阵元无差异理想场景下，目标方向和噪声干扰方向的各个麦克风阵元的信号差异。用以后续步骤S101中分别计算语音、噪声拾取滤波器。

S102：对每个频带k，分别计算语音拾取滤波器h_s(k)和噪声拾取滤波器h_v(k)。其具体的计算公式如下：

其中，R(k)代表均匀散射场的各个麦克风关于拾取信号归一化的自相关系数，上标-1矩阵的逆。该滤波器理论上可以分别保留目标方向、噪声干扰方向的信号，同时最大程度抑制均匀散射场噪声。

S2：对初始化后的信号转化为时频域信号，并且构建频域预测向量。

具体地，该步骤S2包括以下步骤：

S201：对时域信号x_m(n)进行短时傅里叶变换得到时频域表达，其目的是把时域信号转化为时频域信号。其具体的计算公式如下：

其中，N为帧长，N＝512；w(n)为长度512的汉明窗，其中，n代表时间上的序号，因此w(n)代表每一个对应时间序号n上的值；1为时间帧序号，以帧为单位；k为频率序号。X_m(l，k)为第m个麦克风信号，在第1帧，第k个频带的频谱。本发明中，使用的汉明窗函数如图2所示。

S202：对每一个频带k，构建一个频域原始向量X(l，k)。其具体的计算公式如下：

X(l，k)＝[X₁(l，k)，X₂(l，k)，...，X_M(l，k)]^T。

其中，上标T代表转置运算符，得到该原始向量为M维度列向量。该向量由各个阵元信号排练组成，用以整体表征信号的空间相关性信息。

通过上述步骤能够完成从时域信号到时频域的变换。

S3：对时频域信号进行噪声消除滤波器计算，获取用于分离目标语音与噪声信号的滤波器。

其中，噪声消除滤波器的计算包括：计算空间区分性系数和空间掩蔽信息、更新互相关系数向量和导向矢量、更新噪声协方差矩阵以及计算噪声消除滤波器。

具体地，该步骤S3包括以下步骤：

S301：计算空间区分性系数和空间掩蔽信息；

空间区分性系数的计算如下：

其中，|.|代表取复数的模；α为相邻帧间平滑因子，取值范围在0和1之间。本发明中，优选α＝0.92，如果该值α小于0.88会导致能量估计变化幅度超过20％，存在不稳定的缺陷，如果该值α高于0.96，则能量估计过于平稳，空间区分度低于40度。取值0.92可以非常好的平衡鲁棒性和准确性。

公式中，ρ_s(l)，ρ_v(l)和ρ_x(l)分别代表第l帧语音方向、噪声方向以及麦克风拾取信号能量估计，ρ_s(l-1)，ρ_v(l-1)和ρ_x(l-1)分别代表第l-1帧语音方向、噪声方向以及麦克风拾取信号能量估计。能量分布的差异代表了空间区分性。

空间掩蔽信息γ(l)的计算如下：

该空间掩蔽信息用以区分目标语音主导(取值为1)、干扰噪声主导的时频单元(取值为-1)和其他情况。&代表逻辑运算符并，即两个条件需要同时满足。

μ代表空间置信度阈值，取值范围为0-1之间。本发明采用阈值μ＝0.5，采用该阈值可以取得最优的时频单元分类准确率。

该步骤S301为后续导向矢量和噪声协方差的更新提供判断依据。

S302：更新互相关系数向量和导向矢量；

对每一个频带k，互相关系数向量Γ(l，k)的更新如下：

其中，α为相邻帧间平滑因子，该平滑因子α与步骤S301中相同；上标*代表共轭算符。该相关系数向量代表了由空间掩蔽信息得到目标语音做主导的时频单元累积得到相关性向量，内含了目标方向语音信号在各麦克风阵元的信号差异。该步骤用以后续步骤中进行目标方向导向矢量的更新。

对每一个频带k，目标方向导向矢量

的更新如下：

其中，Γ₁(l，k)代表相关系数向量的第一个元素值。该导向矢量，根据实际数据估计得到的对应目标方向的各麦克风阵元的信号差异，用以后续步骤S303中进行噪声消除滤波器的更新。

S303：更新噪声协方差矩阵和噪声消除滤波器。

对每一个频带k，噪声协方差矩阵

的更新如下：

该协方差矩阵代表了噪声主动时频单元累积得到信号相关性矩阵，用以后续步骤中进行噪声消除滤波器的更新。

对每一个频带k，噪声消除滤波器

的计算如下：

该噪声消除滤波器，用以后续步骤S4中进行目标语音的频域估计计算。

具体包括以下步骤：

其具体计算公式如下：

其具体计算公式如下：

通过本发明的上述步骤，可以实现目标语音估计信号的初始化、信号分解、滤波器计算和目标语音估计。

本发明的实施方式在实际使用时，基于8麦克风线性阵列，麦克风间距为3.5cm在8米长4米宽2.5米高的会议场景，目标方向已知为90度，干扰噪声方向为30度，采用本项发明算法可以提高信噪比15dB(噪声能量抑制了97％)。

如图3所示，本发明的一实施方式为一种指向信息引导的实时语音分离装置，应用于基于麦克风阵列的系统，其包括初始化模块1、信号分解模块2、滤波器计算模块3和目标语音估计模块4。

初始化模块1，用于对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算。

初始化模块1还能够用于获取麦克风的语音信号，获取的语音信号如下：假设x_m(n)代表M个麦克风阵元实时拾取的原始时域信号，其中，m代表麦克风序号标签，其取值从1到M；n代表时间标签；目标语音相对麦克风阵列的方向已知为θ_s，噪声干扰相对麦克风阵列的方向已知为θ_v。

具体地，初始化模块1用于进行以下操作：

对每个频带k(k＝1，2，...K)，计算目标语音导向矢量u_s(k)和噪声导向矢量u_v(k)，其中，频带是指某个频率对应的信号分量。其具体的计算公式如下：

q(θ_s)＝[cos(θ_s)，sin(θ_s)]，q(θ_v)＝[cos(θ_v)，sin(θ_v)]。

q(θ)为方向矢量，ω_k为频带圆频率。

上述操作用以初始化导向矢量，该导向矢量代表了无混响、阵元无差异理想场景下，目标方向和噪声干扰方向的各个麦克风阵元的信号差异。用以后续操作中分别计算语音、噪声拾取滤波器。

对每个频带k，分别计算语音拾取滤波器h_s(k)和噪声拾取滤波器h_v(k)。其具体的计算公式如下：

信号分解模块2，用于对初始化后的信号转化为时频域信号，并且构建频域预测向量。

具体地，信号分解模块2包括以下子模块：信号转换模块和向量构建模块。

信号转换模块，用于对时域信号x_m(n)进行短时傅里叶变换得到时频域表达，其目的是把时域信号转化为时频域信号。其具体的计算公式如下：

向量构建模块，用于对每一个频带k，构建一个频域原始向量X(l，k)。其具体的计算公式如下：

X(l，k)＝[X₁(l，k)，X₂(l，k)，...，X_M(l，k)]^T。

通过信号分解模块2能够完成从时域信号到时频域的变换。

滤波器计算模块3，用于对时频域信号进行噪声消除滤波器计算，获取用于分离目标语音与噪声信号的滤波器。

其中，滤波器计算模块3包括：用于计算空间区分性系数和空间掩蔽信息的第一计算模块、用于更新互相关系数向量和导向矢量的第一更新模块、以及用于更新噪声协方差矩阵和噪声消除滤波器的第二更新模块。

具体地，在第一计算模块中，空间区分性系数的计算如下：

空间掩蔽信息γ(l)的计算如下：

上述操作能够为后续导向矢量和噪声协方差的更新提供判断依据。

在第一更新模块中，对每一个频带k，互相关系数向量Γ(l，k)的更新如下：

其中，α为相邻帧间平滑因子，该平滑因子α与第一计算模块中的平滑因子α相同；上标*代表共轭算符。该相关系数向量代表了由空间掩蔽信息得到目标语音做主导的时频单元累积得到相关性向量，内含了目标方向语音信号在各麦克风阵元的信号差异。该第一更新模块的计算结果用以后续的目标方向导向矢量的更新。

对每一个频带k，目标方向导向矢量

的更新如下：

其中，Γ₁(l，k)代表相关系数向量的第一个元素值。该导向矢量，根据实际数据估计得到的对应目标方向的各麦克风阵元的信号差异，用以后续操作中进行噪声消除滤波器的更新。

在第二更新模块中，对每一个频带k，噪声协方差矩阵

的更新如下：

该协方差矩阵代表了噪声主动时频单元累积得到信号相关性矩阵，用以后续的噪声消除滤波器的更新。

对每一个频带k，噪声消除滤波器

的计算如下：

该噪声消除滤波器，用以后续操作中进行目标语音的频域估计计算。

目标语音估计模块4，用于根据获取的滤波器，得到目标语音的频域估计，进而得到目标语音时域估计。

具体地，目标语音估计模块4包括以下子模块：频域估计模块和目标语音估计模块。

频域估计模块用于根据求解得到的噪声消除滤波器，得到目标语音的频域估计

其具体计算公式如下：

目标语音估计模块用于对目标语音的频域估计进行傅里叶逆变换得到最终的目标语音估计

其具体计算公式如下：

通过本发明的上述4个模块缺一不可。并且任一模块的缺失，都会导致目标语音无法提取。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。