CN110164468A

CN110164468A - 一种基于双麦克风的语音增强方法及装置

Info

Publication number: CN110164468A
Application number: CN201910338720.1A
Authority: CN
Inventors: 朱梦尧; 吴人杰
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-23
Anticipated expiration: 2039-04-25
Also published as: CN110164468B

Abstract

本发明公开了一种基于双麦克风的语音增强方法及装置，其中，方法包括以下步骤：根据双麦克风采集到的观测信号进行语音活动性检测和时延估计；根据语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；根据计算的二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；根据分离后的语音与噪声，进行似然比的计算；根据分离后的语音和似然比，进行滤波处理，得到增强后的语音信号。本发明的一种基于双麦克风的语音增强方法及装置，仅采用了双麦克风，大大降低了硬件成本的同时，在面对无方向性的噪声、与语音同向的噪声的情况下，依旧保持着优秀的语音增强性能。

Description

一种基于双麦克风的语音增强方法及装置

技术领域

本发明涉及语音信号处理领域，尤其涉及一种基于双麦克风的语音增强方法及装置。

背景技术

语音信号处理已经成为一个非常热门的领域，清晰的语音能够极大限度地提高了人机交互的效率。然而，很多的实际情况往往面临着多人同时说话、环境噪声等干扰，而无法获得干净的单一源信号。因此，从含噪的语音信号中准确的提取语音信号是一个贴合实际，同时亟需解决的难题。语音增强便是从数字语音信号处理出发，解决该问题的方式。

语音增强以采集信号的通道数可以划分为：单通道语音增强和基于麦克风阵列的多通道语音增强。多通道语音增强方法因其利用了更多的麦克风，充分考虑了观测信号的空间信息，在方向性的干扰和噪声的抑制取得了不错的效果。但其使用更多的麦克风数带来准确的空间信息的同时，也带来了硬件成本的上升。同时，在面对无方向性的噪声或是与语音同向的噪声时，性能下降严重。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是现有技术中语音增强方法存在的在面对无方向性的噪声、与语音同向的噪声的情况下的性能不足、硬件成本高，开发了一种基于双麦克风的语音增强方法及装置，仅采用了双麦克风，大大降低了硬件成本的同时，在面对无方向性的噪声、与语音同向的噪声的情况下，依旧保持着优秀的语音增强性能。

为实现上述目的，本发明提供了一种基于双麦克风的语音增强方法，包括以下步骤：

根据双麦克风采集到的观测信号进行语音活动性检测和时延估计；

根据语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；

根据计算的二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；

根据分离后的语音与噪声，进行似然比的计算；

根据分离后的语音和似然比，进行滤波处理，得到增强后的语音信号。

进一步地，根据双麦克风采集到的观测信号进行语音活动性检测和时延估计，具体包括以下步骤：

对观测信号进行短时傅里叶变换后，通过Mel滤波器，将其转换为Mel域；

对Mel域的信号在其各个子带上通过EM算法进行方差、均值、权重的计算，对语音和噪声建立双高斯模型，从而进行语音活动性的检测，判断当前帧是否为语音帧；

当当前帧判断为语音帧时，进行时延的估计，得到时延估计值，以计算导向矢量。

进一步地，根据语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模，具体包括以下步骤：

根据时延估计值，对每一个频点确定导向矢量和混合矩阵迭代时的初值；

采用信息最大化准则，以自然梯度下降的方式，迭代混合矩阵，收敛后得到混合矩阵的第一列；

获取混合矩阵的第一列作为先验的输入，进行半盲分离迭代解混矩阵，该解混矩阵为混合矩阵的逆矩阵，得到预分离信号；

根据预分离信号和观测信号，确定能量估计矩阵；

根据估计矩阵，计算所有时频单元的二值掩模，用来指导迭代以及次序判决的修正。

进一步地，根据计算的二值掩模，进行次序置信度的判决，输出分离后的语音与噪声，具体包括以下步骤：

根据导向矢量、混合矩阵的第一列和二值掩模，进行次序修正的判断，决定是否应进行次序的修正；

将解混矩阵与观测信号进行频域上的相乘，得到分离信号的频域形式，从而输出分离后的语音和噪声。

本发明公开又提供了一种基于双麦克风的语音增强装置，包括：

检测装置，用于根据双麦克风采集到的观测信号进行语音活动性检测和时延估计；

分离装置，用于根据语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；

判决装置，用于根据计算的二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；

计算装置，用于根据分离后的语音与噪声，进行似然比的计算；

滤波装置，用于根据分离后的语音和似然比，进行滤波处理，得到增强后的语音信号。

进一步地，检测装置包括：

转换单元，用于对观测信号进行短时傅里叶变换后，通过Mel滤波器，将其转换为Mel域；

判断单元，用于对Mel域的信号在其各个子带上通过EM算法进行方差、均值、权重的计算，对语音和噪声建立双高斯模型，从而进行语音活动性的检测，判断当前帧是否为语音帧；

时延估计单元，用于当当前帧判断为语音帧时，进行时延的估计，得到时延估计值，以计算导向矢量。

进一步地，分离装置包括：

根据预分离信号和观测信号，确定能量估计矩阵；

进一步地，判决装置包括：

次序修正判断，用于根据导向矢量、混合矩阵的第一列和二值掩模，进行次序修正的判断，决定是否应进行次序的修正；

输出单元，用于将解混矩阵与观测信号进行频域上的相乘，得到分离信号的频域形式，从而输出分离后的语音和噪声。

本发明公开又提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如上述任一项的方法。

本发明公开又提供了一种存储有计算机程序的计算机可读存储介质，计算机程序使计算机执行时实现如上述任一项的一种基于双麦克风的语音增强方法。

技术效果

本发明的一种基于双麦克风的语音增强方法，充分考虑了传统方法无法应对无方向性的噪声、与语音同向的噪声的情况，以语音分离的方法对观测信号进行了分解，进而使用后置滤波的方式，在面对无方向性的噪声、与语音同向的噪声的情况下，依旧保持着优秀的语音增强性能，有效地提高了算法的鲁棒性和语音的增强结果。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一个较佳实施例的一种基于双麦克风的语音增强方法的详细流程示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下描述中，为了说明而不是为了限定，提出了诸如特定内部程序、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

实施例一

本实施例提供了一种基于双麦克风的语音增强方法，包括以下步骤：

步骤100，根据双麦克风采集到的观测信号进行语音活动性检测和时延估计；

步骤200，根据语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；

步骤300，根据计算的二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；

步骤400，根据分离后的语音与噪声，进行似然比的计算；

步骤500，根据分离后的语音和似然比，进行滤波处理，得到增强后的语音信号。

以下将具体说明每个步骤。

进一步的，步骤100，根据双麦克风采集到的观测信号进行语音活动性检测和时延估计，具体包括以下步骤：

步骤101，对观测信号进行短时傅里叶变换后，通过Mel滤波器，将其转换为Mel域；具体的，通过双麦克风采集待增强语音数据，该数据同时可称作观测信号X，将观测信号X进行短时傅里叶变换后，通过Mel滤波器，将其转换为Mel域；

步骤102，对Mel域的信号在其各个子带上通过EM算法进行方差、均值、权重的计算，对语音和噪声建立双高斯模型，从而进行语音活动性的检测，判断当前帧是否为语音帧；

步骤103，当当前帧判断为语音帧时，进行时延的估计，得到时延估计值，以计算导向矢量。具体的，在判断当前帧为语音帧时，以GCC-PHAT(广义互相关)方法进行时延的估计，得到时延估计值τ。具体公式如下：

其中，k表示频点，N_k为傅里叶变换后的总频点数，X₁、X₂分别为观测信号X的第一通道和第二通道数据，*为取复共轭。

进一步地，步骤200，根据语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模，具体包括以下步骤：

步骤201，根据时延估计值，对每一个频点确定导向矢量和混合矩阵迭代时的初值；

时延估计值τ用来计算导向矢量d(k)以及混合矩阵H(k)迭代时的初值H_init(k)，一种可能的实现方式为：

步骤202，采用信息最大化准则，以自然梯度下降的方式，迭代混合矩阵，收敛后得到混合矩阵的第一列；在语音活动性检测判断为语音帧时，采用信息最大化准则，以自然梯度下降的方式，迭代混合矩阵H(k)，一种可能的实现方式为：

其中，η为迭代步长，Y_i为预分离信号，I为单位阵，Φ()为非线性函数。

步骤203，获取混合矩阵的第一列作为先验的输入，进行半盲分离迭代解混矩阵，该解混矩阵为混合矩阵的逆矩阵，得到预分离信号；取收敛后的H(k)的第一列h¹(k)，作为半盲分离的先验输入，进一步迭代解混矩阵W(k)，得到预分离信号Y，具体公式如下：

W_i+1(k)＝W_i(k)+η[I-<φ(Y(k，l))YH(k，l)>_l]W_i(k)

其中，η为迭代步长，Y^H表示Y的共轭转置；

步骤204，根据预分离信号和观测信号，确定能量估计矩阵；

根据混合矩阵H(k)的一种可能实现方式，所计算出来的预分离信号Y和观测信号X，可以确定能量估计矩阵A，对应公式如下：

A＝E(XYT)(E(YY^T))^-1

步骤205，根据估计矩阵，计算所有时频单元的二值掩模，用来指导迭代以及次序判决的修正。

进一步地，步骤300，根据计算的二值掩模，进行次序置信度的判决，输出分离后的语音与噪声，具体包括以下步骤：

步骤301，根据导向矢量、混合矩阵的第一列和二值掩模，进行次序修正的判断，决定是否应进行次序的修正；

根据上述计算的导向矢量d(k)、混合矩阵的第一列h¹(k)和二值掩模p(k，l)，进行次序修正的判断，来决定是否应进行次序的修正，判决的置信度公式如下：

其中，p(k)是一个频点k上由所有时频单元的二值掩模p(k，l)组成的行向量，α为一个在0～1之间的常数；

步骤302，将解混矩阵与观测信号进行频域上的相乘，得到分离信号的频域形式，从而输出分离后的语音和噪声。

如图1所示，以下将具体说明该实施例的一种基于双麦克风的语音增强方法的更为详细的步骤：

S101：通过双麦克风接收语音信号，此时观测信号X为一个两通道的数据，可以理解的是，每一个麦克风接收到的数据即对应一个信号通道。

S102：对接收到的数据进行短时傅里叶变换，之后使得频域信号通过Mel滤波器，在Mel域上进行子带的划分，本实施例中，划分成了16个子带。

S103：对S102中的每一个子带，都进行方差、均值、权重的计算，然后便可以对语音和噪声建立双高斯模型，来对当前帧进行判断，判断其为语音帧还是噪声帧。

S104：当语音活动性检测判断为噪声帧时，不进行时延估计；判断为语音帧时，进行时延估计。本实施例中采用的是GCC-PHAT(广义互相关)方法，对应公式如下：

S105：估计出来的时延τ，客观地显示了语音到达两个麦克风的时间差，以此可以计算语音相对麦克风的方向，同时导向矢量d(k)、混合矩阵H(k)的迭代初值H_init(k)也可以计算，公式如下：

其中，k表示频点，N_k为傅里叶变换后的总频点数，τ为估计的时延值。

通过迭代初值H_init(k)，采用信息最大化准则，以自然梯度下降的方式，迭代混合矩阵H(k)迭代公式为：

S106：在迭代收敛后，取混合矩阵H(k)的第一列h¹(k)作为下一步半盲分离的输入，进一步迭代解混矩阵W(k)，得到预分离信号Y，迭代公式为：

W_i+1(k)＝W_i(k)+η[I-<φ(Y(k，l))Y^H(k，l)>_l]W_i(k)

其中，η为迭代步长，Y^H表示Y的共轭转置，φ(Y(k，l))表示非线性的代价函数，在实施例中为：

φ(Y(f，τ))＝tanh(Re(Y(f，τ)))+i*tanh(Im(Y(f，τ)))

其中，Re()表示取实部操作，Im()表示取虚部操作。

S107：根据预分离信号Y和观测信号X，可以计算能量估计矩阵A。A是通过最小二乘法，最小化(X-AY)期望的结果，在理想情况下，X-AY的结果将逼近于零，A的计算公式如下：

A＝E(XY^T)(E(YY^T))^-1

其中，X、Y分别为观测信号和预分离信号。

S108：由能量估计矩阵A可以进一步计算所有时频单元的二值掩模p(k，l)，二值掩模可以有效地指导迭代作为迭代收敛的判断条件之一，同时可以进行次序判决的修正，计算公式如下：

其中，a_i为能量估计矩阵A的列向量。

同时再根据步骤S105得到的导向矢量d(k)和S106得到的h¹(k)，便能进行次序置信度的判断，对应公式如下：

其中，p(k)是一个频点k上由所有时频单元的二值掩模p(k，l)组成的行向量，α为一个在0～1之间的常数，本实施例提供了一个α可能值，α＝0.5。

当判决输出为真时，则需要改变当前频点k的分离输出，得到分离后的语音Y^s和噪声Yⁿ。

S109：通过分离后的语音Y^s和噪声Yⁿ，可以计算似然比，计算公式如下：

L₃＝Y^s

S110：根据步骤S103语音帧的判断结果，选择下一步的操作。若判断为语音帧，则执行步骤S111；若判断为噪声帧，则对步骤S109中的语音通道直接进行单通道滤波。

S111：根据步骤S109中得到的似然比，对语音和噪声进行双高斯模型建模，然后滤波输出。

S112：对滤波输出的频域信号进行逆傅里叶变换，最终得到增强后的语音信号。

使用信号失真比SDR(Signal to Distortion Ratio)来具体评价步骤S109中分离后语音与噪声的质量。其中，SDR为语音分离领域常用的检测分离性能的指标。该值越大，则表明分离性能越好。

为了说明改增强算法的鲁棒性，分别在-6dB、-3dB、0dB、3dB、6dB、9dB这六个不同输入信噪比下，根据分离后的语音来计算SDR，结果如下表所示。

表：步骤S109中，不同信噪比下的分离结果

输入信噪比	-6dB	-3dB	0dB	3dB	6dB	9dB
							本发明SDR/dB	1.3	4.8	6.4	7.8	8.3	9.2

本发明提出了一种基于双麦克风的语音增强方法，该方法包括：接收语音信号，对观测信号进行语音活动性检测，并对语音帧时声源到麦克风阵列的时延进行估计；通过时延值τ，确定混合矩阵H(k)的初值H_init(k)，并迭代H(k)；以混合矩阵H(k)的第一列h¹(k)为先验信息，进行半盲分离，迭代解混矩阵W(k)；对预分离的信号进行次序修正；得到分离后的语音Y^s和噪声Yⁿ；对Y^s和Yⁿ进行滤波，再将滤波结果进行逆傅里叶变换，便能得到分离后的时域波形。本发明的算法，充分考虑了传统方法无法应对无方向性的噪声、与语音同向的噪声的情况，以语音分离的方法对观测信号进行了分解，进而使用后置滤波的方式，在面对无方向性的噪声、与语音同向的噪声的情况下，依旧保持着优秀的语音增强性能，有效地提高了算法的鲁棒性和语音的增强结果。

实施例二

进一步地，检测装置包括：

进一步地，分离装置包括：

获取混合矩阵的第一列作为先验的输入，进行半盲分离迭代解混矩阵，该解混矩阵是为混合矩阵的逆矩阵，得到预分离信号；

根据预分离信号和观测信号，确定能量估计矩阵；

进一步地，判决装置包括：

本实施例的装置用于实现实施例中的一种基于双麦克风的语音增强方法，其具体实现方法同实施例一，此处将不在赘述。

实施例三

本发明实施例三提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现上述任一项的方法。

该实施例的计算机设备包括：处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序，例如资源发放程序。处理器执行计算机程序时实现上述各个人体行为相似度计算方法实施例中的步骤。或者，处理器执行计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器、存储器。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于双麦克风的语音增强方法，其特征在于，包括以下步骤：

根据所述语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；

根据计算的所述二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；

根据所述分离后的语音与噪声，进行似然比的计算；

根据所述分离后的语音和似然比，进行滤波处理，得到增强后的语音信号。

2.如权利要求1所述的一种基于双麦克风的语音增强方法，其特征在于，根据双麦克风采集到的观测信号进行语音活动性检测和时延估计，具体包括以下步骤：

对所述观测信号进行短时傅里叶变换后，通过Mel滤波器，将其转换为Mel域；

对所述Mel域的信号在其各个子带上通过EM算法进行方差、均值、权重的计算，对语音和噪声建立双高斯模型，从而进行语音活动性的检测，判断当前帧是否为语音帧；

当所述当前帧判断为语音帧时，进行时延的估计，得到时延估计值，以计算导向矢量。

3.如权利要求2所述的一种基于双麦克风的语音增强方法，其特征在于，根据所述语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模，具体包括以下步骤：

根据所述时延估计值，对每一个频点确定导向矢量和混合矩阵迭代时的初值；

采用信息最大化准则，以自然梯度下降的方式，迭代所述混合矩阵，收敛后得到所述混合矩阵的第一列；

获取所述混合矩阵的所述第一列作为先验的输入，进行半盲分离迭代解混矩阵，得到预分离信号；

根据所述预分离信号和所述观测信号，确定能量估计矩阵；

根据所述估计矩阵，计算所有时频单元的二值掩模，用来指导迭代以及次序判决的修正。

4.如权利要求3所述的一种基于双麦克风的语音增强方法，其特征在于，根据计算的所述二值掩模，进行次序置信度的判决，输出分离后的语音与噪声，具体包括以下步骤：

根据所述导向矢量、所述混合矩阵的所述第一列和所述二值掩模，进行次序修正的判断，决定是否应进行次序的修正；

将所述解混矩阵与所述观测信号进行频域上的相乘，得到分离信号的频域形式，从而输出分离后的语音和噪声。

5.一种基于双麦克风的语音增强装置，其特征在于，包括：

分离装置，用于根据所述语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；

判决装置，用于根据计算的所述二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；

计算装置，用于根据所述分离后的语音与噪声，进行似然比的计算；

滤波装置，用于根据所述分离后的语音和似然比，进行滤波处理，得到增强后的语音信号。

6.如权利要求5所述的一种基于双麦克风的语音增强装置，其特征在于，所述检测装置包括：

转换单元，用于对所述观测信号进行短时傅里叶变换后，通过Mel滤波器，将其转换为Mel域；

判断单元，用于对所述Mel域的信号在其各个子带上通过EM算法进行方差、均值、权重的计算，对语音和噪声建立双高斯模型，从而进行语音活动性的检测，判断当前帧是否为语音帧；

时延估计单元，用于当所述当前帧判断为语音帧时，进行时延的估计，得到时延估计值，以计算导向矢量。

7.如权利要求6所述的一种基于双麦克风的语音增强装置，其特征在于，所述分离装置包括：

根据所述预分离信号和所述观测信号，确定能量估计矩阵；

8.如权利要求7所述的一种基于双麦克风的语音增强装置，其特征在于，所述判决装置包括：

次序修正判断，用于根据所述导向矢量、所述混合矩阵的所述第一列和所述二值掩模，进行次序修正的判断，决定是否应进行次序的修正；

输出单元，用于将所述解混矩阵与所述观测信号进行频域上的相乘，得到分离信号的频域形式，从而输出分离后的语音和噪声。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1-4中任一项所述的方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现如权利要求1-4中任一项所述的一种基于双麦克风的语音增强方法。