CN106782618B

CN106782618B - 基于二阶锥规划的目标方向语音检测方法

Info

Publication number: CN106782618B
Application number: CN201611202064.5A
Authority: CN
Inventors: 曹裕行
Original assignee: Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2020-07-31
Anticipated expiration: 2036-12-23
Also published as: CN106782618A

Abstract

本发明涉及一种基于二阶锥规划的目标方向语音检测方法，包括如下步骤：针对目标方向设计最低旁瓣的波束形成，利用二阶锥规划计算所述最低旁瓣的波束形成的权重；构造噪声估计权重；估计目标信号和噪声信号；利用时域一阶递归平滑计算出目标信号和噪声信号的功率；利用目标信号的功率和噪声信号的功率计算出后验信噪比；对所述后验信噪比进行最小值跟踪，以得到所述后验信噪比的最小值；计算频段在281.25Hz至3437.5Hz范围内的后验信噪比之和与后验信噪比的最小值之和的比值；判断比值与设定阈值的大小以确定目标方向语音是否存在。本发明的检测方法具有步骤少，计算量少的优点，且通过频域求和能够避免某些频点不稳定的问题。

Description

基于二阶锥规划的目标方向语音检测方法

技术领域

本发明涉及目标方向语音检测技术领域，特指一种基于二阶锥规划的目标方向语音检测方法。

背景技术

目标方向语音检测是一种能够判断出目标方向语音在当前时间是否存在的技术，它在人机交互、语音增强、远场语音识别等方面扮演了重要的角色。

传统的方法常用统计模型的VAD(Voice Activity Detection，语音活动检测器)，这种方法可以区分出当前时间是否存在语音，但是需要的限制条件是在单个发声源、稳定噪声、高信噪比的情况下起效，而且没有办法利用空间信息判断出当前的语音来自哪个方向。而且在远场环境中，语音叠加上环境噪声，相干噪声以及混响后，会使得VAD的效果大大折扣。近年来研发了启发式的基于信噪比的方法，参见引文(O.Hoshuyama A real timerobust adaptive microphone and controlled by an SNR estimate，InProc.ICASSP1998，pp.3605-3608)，该启发式的基于信噪比的方法是用延迟求和的方法估计出目标方向语音，用自适应阻塞矩阵的方法估计出噪声，然后用两者的比值估计出信噪比，再利用一个估计的阈值来对信噪比做判决。其存在如下的问题：一、很难找到一个鲁棒的阈值来判断当前的信噪比应该归类为语音还是噪声；二、对于噪声和目标方向语音的估计不够准确；三、当存在不稳定噪声时，虽然估计出低信噪比，但是实际上语音是存在的。即在不稳定噪声情况下很容易失效。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于二阶锥规划的目标方向语音检测方法，解决传统方法中的VAD仅区分当前时间是否存在语音而缺少空间判断，且在远场环境中效果较差的问题，还解决启发式的基于信噪比的方法中存在的目标方向估计不准确和在不稳定噪声情况下容易失效的问题。

实现上述目的的技术方案是：

本发明提供了一种基于二阶锥规划的目标方向语音检测方法，包括如下步骤：

针对目标方向设计最低旁瓣的波束形成，利用二阶锥规划计算所述最低旁瓣的波束形成的权重；

构造噪声估计权重；

利用麦克风形成的输入信号、所述最低旁瓣的波束形成的权重以及所述噪声估计权重计算得出目标信号和噪声信号；

利用时域一阶递归平滑计算出目标信号和噪声信号的功率；

利用目标信号的功率和噪声信号的功率计算出后验信噪比；

对所述后验信噪比进行最小值跟踪，以得到所述后验信噪比的最小值；

计算频段在281.25Hz至3437.5Hz范围内的后验信噪比之和与后验信噪比的最小值之和的比值；

判断比值与设定阈值的大小以确定目标方向语音是否存在。

本发明利用二阶锥规划针对目标方向设计最低旁瓣的波束形成，所获得的最低旁瓣的波束形成的权重计算准确，解决了启发式的基于信噪比方法中对于噪声和目标方法语音的估计不够准确的问题。本发明的检测方法设计有对后验信噪比的最小值追踪，设计该追踪过程使得本发明的检测方法能够适用于不稳定的噪声情况下，解决了现有检测方法中在不稳定噪声情况下容易失效的问题。且本发明的检测方法判断的比值为频段内的后验信噪比之和与追踪的最小值之和的比值，通过频域求和的方法，能够避免后验信噪比及追踪的最小值的单个频点不稳定所带来的影响，进而提高了判断结果的准确率。本发明的目标方向语音检测方法利用了空间信息判断语音是否存在，相对于传统的VAD仅考虑当前时间语音是否存在，避免了限制条件的影响，且能够适用于远场环境的语音检测。本发明的检测方法具有步骤少，计算量少的优点。

本发明基于二阶锥规划的目标方向语音检测方法的进一步改进在于，针对目标方向设计最低旁瓣的波束形成，利用二阶锥规划计算所述最低旁瓣的波束形成的权重，包括：

构造自相关矩阵：

R(i，j)＝sinc(2fd/c) (式一)

式一中，f为频率，c为空气中的声音的传播速度，d为第i个麦克风和第j个麦克风之间的距离；

对式一中的R做Cholesky分解：

R＝V^HV (式二)

利用二阶锥规划求解所述最低旁瓣的波束形成的权重：

s.t.w^Hα(θ)＝1

式三中，w为最低旁瓣的波束形成的权重，α(θ)为目标方向的导向矢量，μ₀表示范数约束值其取值为0.3，μ₁表示旁瓣响应约束其取值为0.1，θ_SL为旁瓣方向，θ_s为旁瓣方向角度参数，H为共轭转置操作。

本发明基于二阶锥规划的目标方向语音检测方法的进一步改进在于，构造噪声估计权重，包括：

设计约束使得主瓣方向增益为0以求解噪声估计权重：

式四中，w_n为噪声估计权重，μ表示主瓣响应其取值为0.1，θ_ML是主瓣方向，θ为目标方向角度，w为最低旁瓣的波束形成的权重，H为共轭转置操作。

本发明基于二阶锥规划的目标方向语音检测方法的进一步改进在于，利用一阶递归时域平滑计算出目标信号和噪声信号的功率，包括：

利用计算出的目标信号和噪声信号计算得出目标信号的功率和噪声信号的功率；

基于目标信号的功率和噪声信号的功率利用时域平滑得到：

T＝w^HX

式五中，λ为平滑系数取值0.85，K为帧数，T为目标信号，N为噪声信号，X为麦克风形成的输入信号，w_n为噪声估计权重，w为最低旁瓣的波束形成的权重，H为共轭转置操作。

本发明基于二阶锥规划的目标方向语音检测方法的进一步改进在于，通过如下公式计算后验信噪比：

将式五所求得的结果代入式六中即可计算得出后验信噪比。

本发明基于二阶锥规划的目标方向语音检测方法的进一步改进在于，对所述后验信噪比进行最小值跟踪包括：

利用改进型最小控制递归平均方法跟踪后验信噪比得到后验信噪比的最小值：

γ_min＝IMCRA(γ) (式七)

本发明基于二阶锥规划的目标方向语音检测方法的进一步改进在于，计算频段在281.25Hz至3437.5Hz范围内的后验信噪比之和与后验信噪比的最小值之和的比值，包括：

采用16KHz采样频率，512采样长度的快速傅氏变换计算比值：

式八中，γ为后验信噪比，γ_min为后验信噪比的最小值。

本发明基于二阶锥规划的目标方向语音检测方法的进一步改进在于，若判断得出比值大于等于设定阈值，则目标方向语音存在，若判断得出比值小于设定阈值，则目标方向语音不存在。

本发明基于二阶锥规划的目标方向语音检测方法的进一步改进在于，所述设定阈值在1.5至2.0之间。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明提供了一种基于二阶锥规划的目标方向语音检测方法，检测目标方向是否有语音存在。目标方向语音检测可以用于判断目标方向语音的开始结束端点，在LMS(Least-mean square，最小均方误差)类的自适应麦克风阵列降噪系统中，也可以用于判断何时更新权值。在人机交互时，也可以判断哪些是语音哪些是噪声，从而可以方便去做AGC(Automatic Gain Control，自动增益控制)来增强语音的音量。该目标方向语音检测的应用范围广，具有较高的实用价值。下面对本发明基于二阶锥规划的目标方向语音检测方法进行说明。

首先需要说明的是：信噪比(SNR，Signal Noise Ratio)，又称讯噪比，是指一个电子设备或电子系统中信号与噪声的比例。本发明中所用到的后验信噪比是指带噪语音的能量与噪声能量的比值。

针对目标方向设计最低旁瓣的波束形成，利用二阶锥规划计算最低旁瓣的波束形成的权重；在设计波束形成时，对应目标方向的是主瓣方向，除了主瓣方向以外的均是旁瓣方向。针对目标方向设计最低旁瓣的波束形成，利用二阶锥规划计算最低旁瓣的波束形成的权重，包括：

构造自相关矩阵：

R(i，j)＝sinc(2fd/c) (式一)

对式一中的R做Cholesky分解(平方根法分解)：

R＝V^HV (式二)

利用二阶锥规划求解最低旁瓣的波束形成的权重：

s.t.w^Hα(θ)＝1

式三中，w为最低旁瓣的波束形成的权重，α(θ)为目标方向的导向矢量，μ₀表示范数约束值其取值为0.3，μ₁表示旁瓣响应约束其取值为0.1，θ_SL为旁瓣方向，θ_s为旁瓣方向角度参数，H为共轭转置操作。根据所求解的最低旁瓣的波束形成的权重形成最低旁瓣的波束。使得权重的估计更加准确，进而使得目标语音的估计比较准确，能够适用于不稳定噪声情况，确保在不稳定噪声情况下也很稳定，并提高目标方向语音检测判断的准确性。

构造噪声估计权重，包括：

设计约束使得主瓣方向增益为0以求解噪声估计权重：

式四中，w_n为噪声估计权重，μ表示主瓣响应其取值为0.1，θ_ML是主瓣方向，w为最低旁瓣的波束形成的权重，H为共轭转置操作，θ为目标方向角度。上述构造噪声估计权重的方式比较准确，能够适用于不稳定噪声情况，确保在不稳定噪声情况下也很稳定，并提高目标方向语音检测判断的准确性。

利用麦克风形成的输入信号、最低旁瓣的波束形成的权重以及噪声估计权重计算得出目标信号和噪声信号；

利用时域一阶递归平滑计算出目标信号和噪声信号的功率；先估计出目标信号T和噪声信号N计算得出目标信号的功率和噪声信号的功率；

基于目标信号T的功率和噪声信号N的功率利用时域平滑得到：

T＝w^HX

式五中，λ为平滑系数取值0.85，K为帧数，T为目标信号，N为噪声信号，X为麦克风形成的输入信号，w_n为噪声估计权重，w为最低旁瓣的波束形成的权重，H为共轭转置操作，P_T，K-1为k-1帧对应的目标信号的功率，P_T，K为k帧对应的目标信号的功率，P_N，K-1为k-1帧对应的噪声信号的功率，P_N，K为k帧对应的噪声信号的功率。

利用目标信号的功率和噪声信号的功率计算出后验信噪比；

通过如下公式计算后验信噪比：

将式五所求得的结果代入式六中即可计算得出后验信噪比。

对后验信噪比进行最小值跟踪，以得到后验信噪比的最小值；

γ_min＝IMCRA(γ) (式七)

后验信噪比的最小值表示当前频率下语音信号最小而噪声信号最大，也就相当于在当前的频率下的噪声信号。该信噪比的最小值跟踪，适用于噪声估计不利环境、非稳定噪声、和弱语音成分。利用的改进型最小控制递归平均方法(IMCRA，Improved minimacontrolled recursive averaging)参见引文(Israel Cohen，Noise SpectrumEstimation in Adverse Environments：Improved Minima Controlled RecursiveAveraging，IEEE TRANSCTIONS ON SPEECH AND AUDIO PROCESSING，VOL.11，NO.5，SEPTEMBER 2003)，该引文中提出了一种改进型最小控制递归平均方法，用于在不利环境中的噪声频谱估计，其是用于对噪声信号的估计。而本发明的检测方法利用该改进型最小控制递归方法对信噪比进行最小值跟踪。

计算频段在281.25Hz至3437.5Hz范围内的后验信噪比之和与后验信噪比的最小值之和的比值；包括：

采用16KHz采样频率，512采样长度的快速傅氏变换(FFT，Fast FourierTransformation)计算比值：

式八中，γ为后验信噪比，γ_min为后验信噪比的最小值。本发明所设计的最低旁瓣波束形成在该281.25Hz至3437.5Hz频段对目标方向增益明显，故而只需计算该频段的比值，利用16KHz采样频率，512采样点的采样长度，将281.25Hz至3437.5Hz频段对应转换为9至110采样点，将9至110采样点对应的后验信噪比之和与后验信噪比最小值之和相除得到比值，利用加和求比值的方法，能够弥补单个频点存在的不稳定问题，提高检测结果的准确。

判断比值与设定阈值的大小以确定目标方向语音是否存在。若判断得出比值大于等于设定阈值，则目标方向语音存在，若判断得出比值小于设定阈值，则目标方向语音不存在。该设定阈值在1.5至2.0之间，较佳地，该设定阈值为1.5。即当计算得到的比值大于等于1.5时，则判定目标方向语音存储，当计算得到的比值小于1.5时，则判定目标方向语音不存在。

本发明基于二阶锥规划的目标方向语音检测方法的有益效果为：

本发明在不稳定噪声的情况下也很稳定，因为目标语音和噪声的估计比较准确，同时通过最小值跟踪算法可以跟踪出不稳定噪声情况下的信噪比的最小值，最后通过频域求和的方法避免了某些频点不稳定的问题。

以上结合实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种基于二阶锥规划的目标方向语音检测方法，其特征在于，包括如下步骤：

构造噪声估计权重；

利用时域一阶递归平滑计算出目标信号和噪声信号的功率；

利用目标信号的功率和噪声信号的功率计算出后验信噪比；

判断计算得到的比值与设定阈值的大小以确定目标方向语音是否存在；

针对目标方向设计最低旁瓣的波束形成，利用二阶锥规划计算所述最低旁瓣的波束形成的权重，包括：

构造自相关矩阵：

R(i,j)＝sin c(2fd/c) (式一)

对式一中的R做Cholesky分解：

R＝V^HV (式二)

利用二阶锥规划求解所述最低旁瓣的波束形成的权重：

2.如权利要求1所述的基于二阶锥规划的目标方向语音检测方法，其特征在于，构造噪声估计权重，包括：

设计约束使得主瓣方向增益为0以求解噪声估计权重：

3.如权利要求2所述的基于二阶锥规划的目标方向语音检测方法，其特征在于，利用时域一阶递归平滑计算出目标信号和噪声信号的功率，包括：

利用计算出的目标信号和噪声信号计算得出k-1帧对应的目标信号的功率和噪声信号的功率；

基于k-1帧对应的目标信号的功率和噪声信号的功率利用时域平滑得到k帧对应的目标信号的功率和噪声信号的功率：

T＝w^HX

式五中，λ为平滑系数取值0.85，K为帧数，T为目标信号，N为噪声信号，X为麦克风形成的输入信号，w_n为噪声估计权重，w为最低旁瓣的波束形成的权重，H为共轭转置操作，P_T,K-1为k-1帧对应的目标信号的功率，P_T,K为k帧对应的目标信号的功率，P_N,K-1为k-1帧对应的噪声信号的功率，P_N,K为k帧对应的噪声信号的功率。

4.如权利要求3所述的基于二阶锥规划的目标方向语音检测方法，其特征在于，通过如下公式计算后验信噪比：

P_T,K为k帧对应的目标信号的功率，P_N,K为k帧对应的噪声信号的功率，将式五所求得的结果代入式六中即可计算得出后验信噪比。

5.如权利要求1所述的基于二阶锥规划的目标方向语音检测方法，其特征在于，对所述后验信噪比进行最小值跟踪包括：

γ_min＝IMCRA(γ) (式七)。

6.如权利要求1所述的基于二阶锥规划的目标方向语音检测方法，其特征在于，计算频段在281.25Hz至3437.5Hz范围内的后验信噪比之和与后验信噪比的最小值之和的比值，包括：

采用16KHz采样频率，512采样长度的快速傅氏变换计算比值：

式八中，γ为后验信噪比，γ_min为后验信噪比的最小值，i表示9至110采样点。

7.如权利要求1所述的基于二阶锥规划的目标方向语音检测方法，其特征在于，若判断得出比值大于等于设定阈值，则目标方向语音存在，若判断得出比值小于设定阈值，则目标方向语音不存在。

8.如权利要求7所述的基于二阶锥规划的目标方向语音检测方法，其特征在于，所述设定阈值在1.5至2.0之间。