CN105321528A

CN105321528A - 一种麦克风阵列语音检测方法及装置

Info

Publication number: CN105321528A
Application number: CN201410305486.XA
Authority: CN
Inventors: 范泛; 付中华; 黎家力
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-06-27
Filing date: 2014-06-27
Publication date: 2016-02-10
Anticipated expiration: 2034-06-27
Also published as: WO2015196760A1; CN105321528B

Abstract

本发明提供一种麦克风阵列语音检测方法及装置，所述方法包括如下步骤：根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比；根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态；当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。本发明提供的麦克风阵列语音方法及装置，在复杂噪声条件下能够准确确定检测阈值，提高噪声检测的准确度。

Description

一种麦克风阵列语音检测方法及装置

技术领域

本发明涉及语音处理技术，尤其涉及一种麦克风阵列语音检测方法及装置。

背景技术

在语音通信和人机语音交互中，语音检测是一个重要的环节，准确检测语音信号对语音的识别、增强、编码等等都有重要影响。传统的单通道语音检测通常都以某种特征为检测依据，通过对输入的信号进行特征分析，然后用分类器进行检测。由于实时性的要求，特征分析和分类器检测都相对简单，特征分析所常用的特征包括短时能量、过零率或其他的谱特征等，而分类器也以阈值判定、线性分离器等为主。这些检测方法在复杂噪声条件下检测性能极其有限，噪声环境下语音检测的基本假设是噪声与语音信号的特征不同，这在实际当中存在如下困难：检测阈值的确定不够准确，特别是变化的噪声环境，检测阈值更是难以确定。

发明内容

有鉴于此，本发明提供一种麦克风阵列语音方法及装置，在复杂噪声条件下能够准确确定检测阈值，提高噪声检测的准确度。

基于上述目的本发明提供的麦克风阵列语音检测方法，包括如下步骤：

根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比；

根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态；

当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。

可选的，计算阵列语音输入信号的最大子带功率比和检测阈值的步骤具体包括：

采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱，并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱；

根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比；

以频点功率比最大的频点为中心，在设定宽度的子带范围内，根据所述子带范围内的平均功率比，采用帧间回归平滑的方式估计最大子带功率比。

可选的，所述固定波束输出功率谱计算公式为：

φ_{x} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{x} φ_{\tilde{x}} (b, λ - 1) + (1 - a_{x}) φ_{\tilde{x}} (b, λ));

其中，k为频点编号；λ为短时帧编号；为短时帧编号为λ时的当前帧波束输出信号功率谱；a_x为第一回归系数；l₁为预设定频点数；

所述阵列语音输入信号的平均功率谱的计算公式为：

φ_{\overset{&OverBar;}{x}} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{y} φ_{\overset{&OverBar;}{y}} (b, λ - 1) + (1 - a_{y}) φ_{\overset{&OverBar;}{y}} (b, λ));

为短时帧编号为λ时的当前帧的平均功率谱；a_y为第二回归系数；

所述各个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

r(λ-1)为r(λ)的上次计算结果，其初始值为设定宽度的子带范围内的平均功率比；a_r为第三回归系数。

可选的，所述检测阈值调整状态包括有语音状态。

可选的，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤具体包括：

若当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值，则判断转入有语音状态；

和/或，若当前处于语音结束状态且最大子带功率大于当前检测阈值，则判断转入有语音状态。

可选的，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤还包括：

若当前处于无语音状态且最大子带功率比大于当前检测阈值，则判断转入语音开始状态；

若当前处于语音开始状态且最大子带功率小于等于当前检测阈值，则判断转入无语音状态；

若当前处于有语音状态且最大子带功率小于等于当前检测阈值，则判断转入语音结束状态；

若当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值，则判断转入无语音状态。

可选的，根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比的步骤之前，还包括：

接收通过语音采集设备输入的阵列语音输入信号；

对所述阵列语音输入信号进行加窗截短，并进行短时傅里叶变换处理，得到所述阵列语音输入信号的时频表示信号；

根据所述时频表示信号计算频域固定波束输出；

根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱；

根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱；并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。

可选的，所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数；

所述预设波束参数通过下述公式进行确定：

A (k) = \underset{A (k)}{\arg \min} A^{H} (k) Γ (k) A (k);

约束条件为A^H(k)d(k)＝1，并且，

A^{H} (k) d (k) \leq {WNG}_{\min}^{- 1} (k);

Γ(k)为目标语音信号的理想扩散场归一化相干矩阵，该矩阵为N×N矩阵，其第n₁行n₂列元素为：

Γ_{n_{1}, n_{2}} (k) = \frac{\sin ({2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1})}{{2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1}};

上述关于Γ(k)的公式中，为第n₁个麦克风和第n₂个麦克风之间的距离，c是声速，K是短时傅里叶变换的长度；

WNG_min(k)是白噪声增益；

d(k)为目标声源到语音采集设备的空间导向矢量，其计算公式为：

d (k) = {[\exp (jk \frac{d_{1} \cos (θ)}{c} f_{s}), . . . \exp (jk \frac{d_{N} \cos (θ)}{c} f_{s})]}^{T};

上述公式中，θ为目标声源到语音采集设备的方位角；d₁……d_N是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离；f_s是采样频率。

可选的，当判断当前转入的语音状态为预设的检测阈值调整状态时，依据下述公式对检测阈值进行调整：

θ^{'} (λ) = \max (θ_{L}, \min (\frac{\hat{r} (λ)}{2}));

其中，θ′(λ)为调整后的检测阈值；θ_L、θ_H分别为预设的语音检测阈值下限和上限；为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值。

进一步，本发明提供一种麦克风阵列语音检测装置，包括：

第一计算模块：用于根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比；

状态判断模块：用于根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态；

阈值调整模块：用于当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。

可选的，第一计算模块具体包括：

第一计算单元：用于采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱，并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱；

第二计算单元：用于根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比；

第三计算单元：用于以频点功率比最大的频点为中心，在设定宽度的子带范围内，根据所述子带范围内的平均功率比，采用帧间回归平滑的方式估计最大子带功率比。

可选的，所述固定波束输出功率谱计算公式为：

φ_{x} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{x} φ_{\tilde{x}} (b, λ - 1) + (1 - a_{x}) φ_{\tilde{x}} (b, λ));

所述阵列语音输入信号的平均功率谱的计算公式为：

φ_{\overset{&OverBar;}{x}} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{y} φ_{\overset{&OverBar;}{y}} (b, λ - 1) + (1 - a_{y}) φ_{\overset{&OverBar;}{y}} (b, λ));

所述各个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

可选的，所述检测阈值调整状态包括有语音状态。

可选的，所述状态判断模块具体包括：

第一判断单元：用于在当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值时，判断转入有语音状态；

和/或，第二判断单元：用于在当前处于语音结束状态且最大子带功率大于当前检测阈值时，判断转入有语音状态。

可选的，所述状态判断模块还包括：

第三判断单元：用于在前处于无语音状态且最大子带功率比大于当前检测阈值时，判断转入语音开始状态；

第四判断单元：用于在当前处于语音开始状态且最大子带功率小于等于当前检测阈值时，判断转入无语音状态；

第五判断单元：用于在当前处于有语音状态且最大子带功率小于等于当前检测阈值是，判断转入语音结束状态；

第六判断单元：用于在当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值时，判断转入无语音状态。

可选的，所述装置还包括：

信号接收模块：用于接收通过语音采集设备输入的阵列语音输入信号；

信号变换模块：用于对所述阵列语音输入信号进行加窗截短，并进行短时傅里叶变换处理，得到所述阵列语音输入信号的时频表示信号；

第二计算模块：用于根据所述时频表示信号计算频域固定波束输出；

第三计算模块：用于根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱；

第四计算模块：用于根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱；并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。

所述预设波束参数通过下述公式进行确定：

A (k) = \underset{A (k)}{\arg \min} A^{H} (k) Γ (k) A (k);

约束条件为A^H(k)d(k)＝1，并且，

A^{H} (k) d (k) \leq {WNG}_{\min}^{- 1} (k);

Γ_{n_{1}, n_{2}} (k) = \frac{\sin ({2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1})}{{2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1}};

WNG_min(k)是白噪声增益；

d (k) = {[\exp (jk \frac{d_{1} \cos (θ)}{c} f_{s}), . . . \exp (jk \frac{d_{N} \cos (θ)}{c} f_{s})]}^{T};

可选的，所述阈值调整模块依据下述公式对检测阈值进行调整：

θ^{'} (λ) = \max (θ_{L}, \min (\frac{\hat{r} (λ)}{2}));

从上面所述可以看出，本发明提供的麦克风语音检测方法及装置，在根据预设的条件判断处于语音状态时，对检测阈值进行调整，进而即使在变化的噪声环境中，也可以辅助确定检测阈值。此外，本发明实施例在语音检测过程中，根据预设的波束参数对语音信号进行处理，增强语音信号的指向性，降低噪声或其他语音信号对语音检测设备和系统造成的影响。

附图说明

图1为本发明一种实施例的麦克风语音检测方法流程示意图；

图2为本发明一种实施例中计算阵列语音输入信号的最大子带功率比和检测阈值的步骤的过程；

图3为本发明另一种实施例所包含的步骤示意图；

图4为本发明一种实施例的状态转换示意图；

图5为本发明一种实施例的麦克风语音检测装置结构示意图；

图6为本发明一种实施例中计算频域固定波束输出时的信号流图；

图7为本发明一种实施例中计算当前帧平均功率谱时的信号流图。

具体实施方式

为了给出有效的实现方案，本发明提供了以下实施例，以下结合说明书附图对本发明的实施例进行说明。

麦克风阵列语音检测方法，其特征在于，包括图1所示的步骤：

步骤101：根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比；

步骤102：根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态；

步骤103：当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。

从上面所述可以看出，本发明提供的麦克风阵列语音检测方法，按照预先设定的判断条件，对当前所处的语音状态进行判断，并在当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整，调整检测阈值时的语音状态下，阵列语音输入信号的最大子带功率比处于设定的范围，这样可以在变化的噪声环境中较为准确地确定检测阈值。

在本发明的一些实施例中，计算阵列语音输入信号的最大子带功率比和检测阈值的步骤具体包括如图2所示的过程：

步骤201：采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱，并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱。

步骤202：根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比。

步骤203：以频点功率比最大的频点为中心，在设定宽度的子带范围内，根据所述子带范围内的平均功率比，采用帧间回归平滑的方式估计最大子带功率比。

在一些实施例中，所述固定波束输出功率谱计算公式为：

φ_{x} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{x} φ_{\tilde{x}} (b, λ - 1) + (1 - a_{x}) φ_{\tilde{x}} (b, λ));

其中，k为频点编号；λ为短时帧编号；为频点编号为b且短时帧编号为λ时的当前帧波束输出信号功率谱；a_x为第一回归系数；l₁为预设定频点数；

所述阵列语音输入信号的平均功率谱的计算公式为：

φ_{\overset{&OverBar;}{x}} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{y} φ_{\overset{&OverBar;}{y}} (b, λ - 1) + (1 - a_{y}) φ_{\overset{&OverBar;}{y}} (b, λ));

所述各个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

在一些实施例中，所述检测阈值调整状态包括有语音状态。

在一些实施例中，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤具体包括：

在一些实施例中，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤还包括：

具体的，参照图4，设当前检测阈值为θ(λ)。采用两个计数器分别记录连续处于语音开始状态的帧数和连续处于语音结束状态的帧数，设连续处于语音状态的帧数为c₁，连续处于语音结束状态的帧数为c₂；则在本发明的一个实施例中，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤包括如下过程：

若当前处于无语音状态且r(λ)＞θ(λ)，则判断从无语音状态转入语音开始状态；

若当前处于语音开始状态且r(λ)≤θ(λ)，则判断从语音开始状态转入无语音状态；

预设连续处于语音状态的第一帧数阈值L₁：若当前处于语音开始状态且r(λ)＞θ(λ)、c₁＞L₁，则判断从语音开始状态转入有语音状态；

若当前处于有语音状态且r(λ)≤θ(λ)，则判断从有语音状态转入语音结束状态；

若当前处于语音结束状态且r(λ)＞θ(λ)，则判断从语音结束状态转入有语音状态；

预设连续处于语音结束状态的第二帧数阈值L₂：若当前处于语音结束状态且r(λ)≤θ(λ)、c₂＞L₂，则判断从语音结束状态转入无语音状态。

现有技术的语音检测技术在实际使用过程中，不仅检测阈值较难确定，而且当噪声或干扰声来自其他的语音信号时，检测系统可能完全失效。

为了适应复杂多变的环境噪声干扰，可选择主从麦克风和麦克风阵列作为拾音设备。主从麦克风采样两只不同指向性的麦克风，使目标方向信号在两只麦克风中产生功率差异，进而利用两只麦克风的功率比来进行目标语音检测，其关键在于主从麦克风设计以及目标语音方位。麦克风阵列则利用各个阵元的空间拓扑结构，形成特定的指向性波束，从而使波束内外信号产生功率差异，然后利用这一线索检测目标方向的信号。然而，现有技术中的主从麦克风拾音技术仍然存在问题：麦克风阵列波束不可避免会受到旁瓣的影响，且低频指向性很差；因此，现有技术的主从麦克风拾音过程中的语音检测技术实际使用时仍有许多问题需要解决。

在本发明的一些实施例中，根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比的步骤之前，还包括如图3所示的过程：

步骤301：接收通过语音采集设备输入的阵列语音输入信号；

步骤302：对所述阵列语音输入信号进行加窗截短，并进行短时傅里叶变换处理，得到所述阵列语音输入信号的时频表示信号；

步骤303：根据所述时频表示信号计算频域固定波束输出；

步骤304：根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱；

步骤305：根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱；并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。

具体的，作为一个实施例，在对所述原始阵列语音信号进行加窗截短时，采用汉宁窗，重叠3/4窗长；时间窗长度为L_wnd、相邻窗之间重叠L_ovlp。对所述原始阵列语音信号进行短时傅里叶变换，得到原始语音阵列信号的时频表示信号：y₁(k,λ)……y_N(k,λ)。k为频点编号；λ为短时帧编号。

更具体的，所述频域固定波束输出采用所述原始语音阵列信号的时频表示信号乘以相应的预设波束参数a_i(k)，即，所述频域固定波束输出为：

x (k, λ) = \min ((Σ_{i = 1}^{N} a_{i} (k) y_{i} (k, λ)), y_{1} (k, λ)) .

计算所述频域固定波束输出时的信号流图如图6所示。

通过计算频域固定波束输出，可增强波束的指向性，降低噪声干扰或其它语音干扰对系统检测造成的影响。在上述频域固定波束计算公式中，取原始语音阵列信号的时频表示信号乘以相应的预设波束参数计算结果和y₁(k,λ)中的最小值，可有效避免波束稳健性不够导致低频异常放大。

所述波束参数的设计好坏可能会直接影响波束内外信号的功率比，在本发明的一个具体实施例中，采用最优频域波束参数设计方法，在满足阵列白噪声增益小于15dB的条件下，设计频域的最优超指向性波束参数。若采用A(k)表示阵元为a_i(k)的矩阵，其中i＝1……N，则所述最优超指向性波束参数为：

A (k) = \underset{A (k)}{\arg \min} A^{H} (k) Γ (k) A (k);

约束条件为A^H(k)d(k)＝1，并且，

Γ_{n_{1}, n_{2}} (k) = \frac{\sin ({2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1})}{{2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1}};

上述公式中，为第n₁个麦克风和第n₂个麦克风之间的距离，c是声速，K是短时傅里叶变换的长度。

WNG_min(k)是白噪声增益。

d (k) = {[\exp (jk \frac{d_{1} \cos (θ)}{c} f_{s}), . . . \exp (jk \frac{d_{N} \cos (θ)}{c} f_{s})]}^{T};

最优超指向性波束参数可以采用第三方开源凸优化软件进行设计，如CVX和SeDuMi等。

更具体的，所述当前帧波束输出信号功率谱计算公式为：

φ_{\tilde{x}} (k, λ) = {| x (k, λ) |}^{2} .

更具体的，所述当前帧平均功率谱计算过程计算公式为：

φ_{\overset{&OverBar;}{y}} (k, λ) = \frac{1}{N} Σ_{i = 1}^{N} {| y_{i} (k, λ) |}^{2} .

在一些实施例中，当判断当前转入的语音状态为预设的检测阈值调整状态时，依据下述公式对检测阈值进行调整：

θ^{'} (λ) = \max (θ_{L}, \min (\frac{\hat{r} (λ)}{2}));

具体的，当判断处于语音状态时，先采用下述公式对最大子带功率谱比进行缓慢回归平滑，

\hat{r} (λ) = a_{0} \hat{r} (λ - 1) + (1 - a_{0}) r (λ);

其中，a₀为回归平滑系数；为对最大带子带功率谱比进行缓慢回归平滑后的值。

计算出上述最大子带功率谱比缓慢回归平滑后的值之后，根据下述公式采用最小最大方法调整检测阈值：

θ^{'} (λ) = \max (θ_{L}, \min (\frac{\hat{r} (λ)}{2})) .

在一种具体实施例中，当语音检测装置的采样率为16kHz时，上述实施例中所提到的参数可参考下列数值：

N＝6；L_wnd＝32ms；L_ovlp＝24ms；c＝340m/s；f_s＝16000Hz；WNG_min(k)＝15dB；a₀＝0.99；a_x＝0.8；a_y＝0.8；a_r＝0.8；L₁＝10；L₂＝150；θ_L＝0.25；θ_H＝0.3。

进一步，本发明提供一种麦克风阵列语音检测装置，参照图5，包括：

仍然参照图5，在一些实施例中，第一计算模块具体包括：

在一些实施例中，所述固定波束输出功率谱计算公式为：

φ_{x} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{x} φ_{\tilde{x}} (b, λ - 1) + (1 - a_{x}) φ_{\tilde{x}} (b, λ));

所述阵列语音输入信号的平均功率谱的计算公式为：

φ_{\overset{&OverBar;}{x}} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{y} φ_{\overset{&OverBar;}{y}} (b, λ - 1) + (1 - a_{y}) φ_{\overset{&OverBar;}{y}} (b, λ));

所述各个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

在一些实施例中，所述检测阈值调整状态包括有语音状态。

在一些实施例中，所述状态判断模块具体包括：

在一些实施例中，所述状态判断模块还包括：

仍然参照图5，在一些实施例中，所述装置还包括：

在一些实施例中，所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数；

所述预设波束参数通过下述公式进行确定：

A (k) = \underset{A (k)}{\arg \min} A^{H} (k) Γ (k) A (k);

约束条件为A^H(k)d(k)＝1，并且，

A^{H} (k) d (k) \leq {WNG}_{\min}^{- 1} (k);

Γ_{n_{1}, n_{2}} (k) = \frac{\sin ({2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1})}{{2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1}};

WNG_min(k)是白噪声增益；

d (k) = {[\exp (jk \frac{d_{1} \cos (θ)}{c} f_{s}), . . . \exp (jk \frac{d_{N} \cos (θ)}{c} f_{s})]}^{T};

从上面所述可以看出，本发明提供的麦克风阵列语音检测方法和装置，在根据预设的条件判断处于语音状态时，对检测阈值进行调整，进而即使在变化的噪声环境中，也可以辅助确定检测阈值。此外，本发明实施例在语音检测过程中，根据预设的波束参数对语音信号进行处理，增强语音信号的指向性，降低噪声或其他语音信号对语音检测设备和系统造成的影响。

应当理解，本说明书所描述的多个实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种麦克风阵列语音检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，计算阵列语音输入信号的最大子带功率比和检测阈值的步骤具体包括：

3.根据权利要求2所述的方法，其特征在于，所述固定波束输出功率谱计算公式为：

φ_{x} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{x} φ_{\tilde{x}} (b, λ - 1) + (1 - a_{x}) φ_{\tilde{x}} (b, λ));

所述阵列语音输入信号的平均功率谱的计算公式为：

φ_{\overset{&OverBar;}{x}} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{y} φ_{\overset{&OverBar;}{y}} (b, λ - 1) + (1 - a_{y}) φ_{\overset{&OverBar;}{y}} (b, λ));

所述各个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

4.根据权利要求1所述的方法，其特征在于，所述检测阈值调整状态包括有语音状态。

5.根据权利要求4所述的方法，其特征在于，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤具体包括：

6.根据权利要求5所述的方法，其特征在于，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤还包括：

7.根据权利要求1所述的方法，其特征在于，根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比的步骤之前，还包括：

接收通过语音采集设备输入的阵列语音输入信号；

根据所述时频表示信号计算频域固定波束输出；

8.根据权利要求7所述的方法，其特征在于，所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数；

所述预设波束参数通过下述公式进行确定：

A (k) = \underset{A (k)}{\arg \min} A^{H} (k) Γ (k) A (k);

约束条件为A^H(k)d(k)＝1，并且，

A^{H} (k) d (k) \leq {WNG}_{\min}^{- 1} (k);

Γ_{n_{1}, n_{2}} (k) = \frac{\sin ({2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1})}{{2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1}};

WNG_min(k)是白噪声增益；

d (k) = {[\exp (jk \frac{d_{1} \cos (θ)}{c} f_{s}), . . . \exp (jk \frac{d_{N} \cos (θ)}{c} f_{s})]}^{T};

9.根据权利要求1所述的方法，其特征在于，当判断当前转入的语音状态为预设的检测阈值调整状态时，依据下述公式对检测阈值进行调整：

θ^{'} (λ) = \max (θ_{L}, \min (\frac{\hat{r} (λ)}{2}));

10.一种麦克风阵列语音检测装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，第一计算模块具体包括：

12.根据权利要求11所述的装置，其特征在于，所述固定波束输出功率谱计算公式为：

φ_{x} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{x} φ_{\tilde{x}} (b, λ - 1) + (1 - a_{x}) φ_{\tilde{x}} (b, λ));

所述阵列语音输入信号的平均功率谱的计算公式为：

φ_{\overset{&OverBar;}{x}} (k, λ) = Σ_{b = k - l_{1}}^{k + l_{1}} (a_{y} φ_{\overset{&OverBar;}{y}} (b, λ - 1) + (1 - a_{y}) φ_{\overset{&OverBar;}{y}} (b, λ));

所述各个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

13.根据权利要求10所述的装置，其特征在于，所述检测阈值调整状态包括有语音状态。

14.根据权利要求13所述的装置，其特征在于，所述状态判断模块具体包括：

15.根据权利要求14所述的装置，其特征在于，所述状态判断模块还包括：

16.根据权利要求10所述的装置，其特征在于，所述装置还包括：

17.根据权利要求16所述的装置，其特征在于，所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数；

所述预设波束参数通过下述公式进行确定：

A (k) = \underset{A (k)}{\arg \min} A^{H} (k) Γ (k) A (k);

约束条件为A^H(k)d(k)＝1，并且，

A^{H} (k) d (k) \leq {WNG}_{\min}^{- 1} (k);

Γ_{n_{1}, n_{2}} (k) = \frac{\sin ({2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1})}{{2 πkd}_{n_{1}, n_{2}} {(cK)}^{- 1}};

WNG_min(k)是白噪声增益；

d (k) = {[\exp (jk \frac{d_{1} \cos (θ)}{c} f_{s}), . . . \exp (jk \frac{d_{N} \cos (θ)}{c} f_{s})]}^{T};

18.根据权利要求10所述的装置，其特征在于，所述阈值调整模块依据下述公式对检测阈值进行调整：

θ^{'} (λ) = \max (θ_{L}, \min (\frac{\hat{r} (λ)}{2}));