CN108831498B

CN108831498B - 多波束波束成形的方法、装置及电子设备

Info

Publication number: CN108831498B
Application number: CN201810496450.2A
Authority: CN
Inventors: 周舒然; 李志飞
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2020-01-24
Anticipated expiration: 2038-05-22
Also published as: CN108831498A

Abstract

本发明实施例公开了一种多波束波束成形的方法、装置及电子设备，目的在于实现多波束波束成形，确保目标空间指向的声音不失真，并对其他空间指向的声音进行有效抑制。技术方案包括：计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的第三乘积，得到多波束波束成形，空间滤波参数随声音源的角度和子带频率的不同而不同，至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；计算目标声音源指向的增强语音；根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值；计算目标声音源指向的原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积，并输出第四乘积对应的语音。

Description

多波束波束成形的方法、装置及电子设备

技术领域

本发明实施例涉及声音处理技术领域，特别是涉及一种多波束波束成形的方法、装置及电子设备。

背景技术

随着智能终端技术的快速普及，用户对于智能终端的功能以及智能化的要求越来越高，如何使智能终端更加智能化，专业化，已经成为了当前研究方向之一。

比如：基本上所有的智能终端都标配录音功能，而录音功能大多数会使用波束成形(Beamforming)，波束成形是一种用于传感器阵列的信号处理技术(例如麦克风阵列)，用于定向信号接收和对接收到的声音信号进行适当的信号处理。波束成形允许麦克风组件接收声音信号以便达到选择性处理电信号的效果，例如，对从一个声源发出的声音信息的处理不同于从不同的声源发出的声音信息的处理。

发明人在研究波束成形过程中发现，通过融合时域滤波器和频域中的波束成形驱动权重的计算，不能降低不需要的环境噪音。

发明内容

有鉴于此，本发明实施例提供的一种多波束波束成形的方法、装置及电子设备，主要目的在于实现多波束波束成形时，确保目标空间指向的声音不失真，并对其他空间指向的声音进行有效抑制。

为了解决上述问题，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种多波束波束成形的方法，该方法包括：

计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的第三乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；

分别计算目标声音源指向的增强语音；

根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值；

计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积，并输出所述第四乘积对应的语音。

可选的，在计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积之前，所述方法还包括：

通过平滑参数对当前帧与前一帧进行逐帧平滑处理。

可选的，所述计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的第三乘积，得到多波束波束成形包括：

获取空间滤波参数，并确定所述空间滤波参数分别对应的至少两个声音源指向，并分别获取至少两个声音源指向对应的原始频域信号；

计算所述空间滤波参数分别与不同声音源指向对应的原始频域信号的第三乘积。

可选的，分别计算目标声音源指向的增强语音包括：

以每个子带为单位，计算目标声音源指向的能量与所有声音源指向的能量和之间的比值增益；

计算第一乘积与比值增益的乘积，得到增强语音，其中，所述第一乘积为所述目标声音源指向对应的原始频域信号与所述空间滤波之间的乘积。

可选的，根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值包括：

将当前帧中所有子带对应的能量进行合并，并计算当前帧所有子带的能量和；

计算所述目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和之间的比值，得到能量比值。

可选的，通过平滑参数对当前帧与前一帧进行逐帧平滑处理包括：

设置当前帧的平滑参数，使得当前帧的平滑参数与前一帧的平滑参数之和为1；

计算前一帧与对应的平滑参数的第一乘积，计算当前帧的平滑参数与所述比值增益的第二乘积；

根据所述第一乘积与第二乘积之和对当前帧进行逐帧平滑处理。

可选的，计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积，并输出所述第四乘积对应的语音包括：

计算所述目标声音源指向对应的增强语音、能量比值与目标声音源指向的所述原始频域信号的第四乘积，并根据平滑处理结果输出所述第四乘积对应的语音。

第二方面，本发明实施例还提供一种多波束波束成形的装置，包括：

第一计算单元，用于计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的第三乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；

第二计算单元，用于分别计算目标声音源指向的增强语音；

第三计算单元，用于根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值；

第四计算单元，用于计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积，并输出所述第四乘积对应的语音。

可选的，所述装置还包括：

处理单元，用于在所述第四计算单元计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积之前，通过平滑参数对当前帧与前一帧进行逐帧平滑处理。

可选的，所述第一计算单元包括：

第一获取模块，用于获取空间滤波参数；

确定模块，用于确定所述第一获取模块获取的所述空间滤波参数分别对应的至少两个声音源指向；

第二获取模块，用于分别获取所述确定模块确定的至少两个声音源指向对应的原始频域信号；

计算模块，用于计算所述空间滤波参数分别与不同声音源指向对应的原始频域信号的第三乘积。

可选的，所述第二计算单元包括：

第一计算模块，用于以每个子带为单位，计算目标声音源指向的能量与所有声音源指向的能量和之间的比值增益；

第二计算模块，用于计算第一乘积与比值增益的乘积，得到增强语音，其中，所述第一乘积为所述目标声音源指向对应的原始频域信号与所述空间滤波之间的乘积。

可选的，所述第三计算单元包括：

合并模块，用于将当前帧中所有子带对应的能量进行合并；

第一计算模块，用于计算当前帧所有子带的能量和；

第二计算模块，用于计算所述目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和之间的比值，得到能量比值。

可选的，所述处理单元包括：

设置模块，用于设置当前帧的平滑参数，使得当前帧的平滑参数与前一帧的平滑参数之和为1；

计算模块，用于计算前一帧与对应的平滑参数的第一乘积，计算当前帧的平滑参数与所述比值增益的第二乘积；

处理模块，用于根据所述第一乘积与第二乘积之和对当前帧进行逐帧平滑处理。

可选的，所述第四计算单元，还用于计算所述目标声音源指向对应的增强语音、能量比值与目标声音源指向的所述原始频域信号的第四乘积，并根据平滑处理结果输出所述第四乘积对应的语音。

第三方面，本发明实施例还提供一种电子设备，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行第一方面中任一项所述的多波束波束成形的方法。

第四方面，本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面中任一项所述的多波束波束成形的方法。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例提供的多波束波束成形的方法、装置及电子设备，计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；计算目标声音源指向的增强语音；根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值；计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积，并输出所述乘积对应的语音，与现有技术相比，本发明实施例能够确保目标声音源指向的声音不失真，并且能够有效抑制其他声音方向的干扰。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种多波束波束成形的方法的流程图；

图2示出了本发明实施例提供的一种麦克风阵列的示意图；

图3示出了本发明实施例提供的另一种麦克风阵列的示意图；

图4示出了本发明实施例提供的另一种多波束波束成形的方法的流程图；

图5示出了本发明实施例提供的一种多波束波束成形的装置的组成框图；

图6示出了本发明实施例提供的一种多波束波束成形的装置的组成框图；

图7示出了本发明实施例提供的一种电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种多波束波束成形的方法，如图1所示，所述方法包括：

101、计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的第三乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向。

本发明实施例所述的空间滤波参数为在频域中的滤波器参数，其目的在于对每一帧的信号在子带频率上做相应的增益。在实际应用中，本发明实施例中所述的空间滤波参数为一矩阵，该空间滤波参数经过电脑设备的计算得到，计算得到结果后将空间滤波参数存储于本发明实施例所述的电子设备中，以供电子设备直接使用，从而缩短了波束成形的时间消耗。

本发明实施所述的波束成形的声音角度来源为至少两个声音源指向，构成多波束波束成形，在实际应用中，所述声音源指向为平面波0°-180°的任意角度，需要说明的是，本发明实施例所述的至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向，为了便于说明，后续实施例会以波束指向：0° 30° 60° 90° 120° 150° 180°方向(共7个方向)为例进行说明，其中，目标声音源为指向90°，但是，应当说明的是，该种说明该方式并非易在限定波束执行仅能为上述角度，还可以指向53°、80°，目标声音源还可以为60°等等，具体不做限定。

分别计算每个声音源指向对应的原始频域信号与空间滤波参数的乘积，得到各个单波束成形，该结果也为一个矩阵，其表现形式为频谱。在计算每个声音源指向对应的原始频域信号与空间滤波参数的乘积时，需要通过麦克风阵列确定各个声音源指向，具体包括：所述麦克风阵列由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样，在实际应用中，麦克风数目可以4个成线型等间距均匀分布(如图2所示)、6个成线型等间距均匀分布、8个成圆形等间距均匀分布(如图3所示)，12或14个成圆形、长方形、月牙形等间距均匀分布等等，具体的本发明实施例对麦克风阵列的数量和排列方式不作限定。但是，为了便于说明，本发明实施例后续会以图2中的麦克风阵列样式和数量为例进行说明，但是应当明确的是，该种说明方式并不是对麦克风阵列的具体限定。

在实际应用过程中，考虑到声波的特性，在对麦克风进行布局时，每个麦克风之间的距离不易设置的过大，也不能设置的过小，若设置的距离不合适会对声音源的聚焦定位产生误差，一般情况下，可设置麦克风之间的等间距距离小于80毫米，且大于30毫米。

102、计算目标声音源指向的增强语音。

在获取到7个方向的声音，将7段声音经过傅里叶变换后，得到7个4*512的矩阵，其中，4代表麦克风的数量，512代表将不同方向对应的频谱分别分解为512个子带。本步骤的目的在于从子带的角度进行滤波处理，确定目标声音源对应的所有子带，在每个子带上的占比。

假设，目标声音源指向为90°，目标声音源(90°指向)对应的频谱对应α1:4*512个子带，0°声音源指向对应的频谱对应α2:4*512个子带，30°声音源指向对应的频谱对应α3:4*512个子带，60°声音源指向对应的频谱对应α4:4*512个子带，90°声音源指向对应的频谱对应α4:4*512个子带，120°声音源指向对应的频谱对应α5:4*512个子带，150°声音源指向对应的频谱对应α6:4*512个子带，180°声音源指向对应的频谱对应α2:4*512个子带。在本发明实施例的一种实现方式中，计算目标声音源指向的增强语音为：α1/(α1+α2+α3+α4+α5+α6+α7)；在本发明实施例的另一种实现方式中，计算目标声音源指向的增强语音为：α1/(α2+α3+α4+α5+α6+α7)。

得到比值增益后，根据比值增益与步骤101计算的空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到目标声音源指向的增强语音。

103、根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值。

本步骤中，将频谱分解的多个子带进行合并，并获取合并后的子带的能量。在具体实施过程中，先将目标声音源对应的512个子带进行合并，并确定合并后的子带能量；其次，依次将其他6个声音源指向(或7个声音源指向，包含目标声音源)的512个子带进行合并，分别确定每个合并后的声音源指向的自带能量，最后，计算6个声音源指向(或7个声音源指向，包含目标声音源)的所有子带的能量和，该能量和为一矩阵。

根据目标声音源对应的子带能量与6个声音源指向(或7个声音源指向，包含目标声音源)的所有子带的能量和，计算能量比值。

104、计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积，并输出所述第四乘积对应的语音。

获取目标声音源指向对应的原始频域信号，并计算原始频域信号与步骤102得到的目标声音源指向对应的增强语音、103计算的能量比值质检的乘积，根据该乘积得到的波束成形能够确保目标声音源指向的声音不失真，同时，能够一直其他声音源方向产生的噪音。

本发明实施例提供的多波束波束成形的方法，计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；计算目标声音源指向的增强语音；根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值；计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积，并输出所述乘积对应的语音，与现有技术相比，本发明实施例能够确保目标声音源指向的声音不失真，并且能够有效抑制其他声音方向的干扰。

作为对上述实施例的细化和扩展，本发明实施例还提供另一种多波束波束成形的方法，如图4所示，包括：

201、计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的第三乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向。

在计算空间滤波参数W(ω)与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形时，可以采用但不局限于以下方法：

获取空间滤波参数W(ω)，并确定所述空间滤波参数W(ω)分别对应的至少两个声音源指向，并分别获取至少两个声音源指向对应的原始频域信号；计算所述空间滤波参数W(ω)分别与不同声音源指向对应的原始频域信号的乘积。

在具体应用过程中，确定所述空间滤波参数W(ω)分别对应的至少两个声音源指向在通过延迟时间进行波束聚焦的方向定位时，即确定所述空间滤波参数W(ω)分别对应的至少两个声音源指向，可以采用但不局限于以下方法，通过麦克风排列的物理结构，计算声场到达每一个麦克风的延时，假设：麦克风间距为d，声音传播速度为c，omega为想要收声和聚焦的方向角度(如正前方90°)，在麦克风阵列中，选择一个最先到达麦克风的参照物(如图2中的Mic1)，计算第一个麦克风的延迟为：tau_0＝d*sin(omega)/c；第二个麦克风的延迟为tau_1＝2*d*sin(omega)/c…第四个麦克风的延迟为：tau_3＝4*d*sin(omega)/c。通常第一个麦克风为参考麦克风，所以延迟为0，tau_1指的是声场到第二个麦克风的延迟。上述延迟的计算方法适用于线性等间距分布的麦克风阵列，其他麦克风分布及非等间距的计算方法与上述方法可能存在差异。

计算麦克风的延迟时间后，根据信号矢量函数计算聚焦的方向(矢量)：

其中，j为某个时刻下的相位，w＝2*π*f，其中，f为所有子带频率对应的矩阵，T₀为声场到第一个麦克风的延迟时间，N为麦克风的数量。

在实际应用过程中，为了便于对声音进行后续使用，需要先将声音信号通过傅立叶变换将原来难以处理的时域信号(声音信号)转换成了易于分析的频域信号，所述傅立叶变换的原理为任何连续测量的时序或信号，都可以表示为不同频率的正弦波信号的无限叠加，而根据该原理创立的傅立叶变换算法利用直接测量到的原始信号，以累加方式来计算该信号中不同正弦波信号的频率、振幅和相位。其中，有关傅立叶变换的具体实现方式本发明实施例在此不再进行赘述。

所述空间滤波参数W(ω)和原始频域信号H均为矩阵，将两个矩阵相乘：得到B(ω,Ω)＝W(ω)H，，，

该乘积会对除目标声音源指向的原始频域信号之外的其他频域信号产生抑制的方式进行波束成形，使得固定方向的声音信号不失真，并且，对其他方向的声音信号产生抑制。

呈由图1实施例，假设，有7个声音源指向(包含一个90°的目标声音源指向)、4个麦克风采集声音，通过上述方法计算波束指向分别为：0° 30° 60° 90° 120° 150° 180°方向(共7个方向)的单波束成形。得到7个4*512的矩阵，4代表麦克风的数量，512代表将不同方向对应的频谱分别分解为512个子带。

202、计算目标声音源指向的增强语音。

在实际应用中采用以下方式计算目标声音源指向的增强语音，包括：

以每个子带为单位，计算目标声音源指向的能量与所有声音源指向的能量和之间的比值增益；计算第一乘积B(ω,Ω)与比值增益的乘积，得到增强语音，其中，所述第一乘积为所述目标声音源指向对应的原始频域信号与所述空间滤波之间的乘积。

在计算所有声音源指向的能量和时，其实质为将4个麦克风进行合并，即合并后得到7个1*512的矩阵，得到所有声音源指向的能量和记作Spectrum power of otherdirections，继续获取目标声音源指向的能量，记作：Spectrum power of targetdirections，计算Spectrum power of target directions与Spectrum power of otherdirections的比值，得到比值增益Gain-mask。

继续计算第一乘积B(ω,Ω)与比值增益Gain-mask的乘积，得到增强语音Gain-mask-frame＝B(ω,Ω)*Gain-mask。

203、根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值。

具体包括：将当前帧中所有子带对应的能量进行合并，并计算当前帧所有子带的能量和；计算所述目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和之间的比值，得到能量比值。

所述当前帧中包含7个声音源方向的所有子带，将当前帧中所有子带对应的能量进行合并，首先，将每个声音源指向的所有子带进行合并，得到不同方向对应的频谱，得到7*1的矩阵，其中，7为7个声音源方向，1为合并后的子带(频谱)，其次，将不同方向对应的所有子带进行合并，得到1*1的矩阵，即根据该矩阵获取所有子带的能量和，记作Energy ofeach bin in all directions；第三，获取目标声音源对应的子带能量，记作：Energy ofeach bin in target directions，最后，计算所述目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和之间的比值，得到能量比值，记作：Gain-mask-frame-bin。

204、通过平滑参数对当前帧与前一帧进行逐帧平滑处理。

本发明实施例中，进行平滑处理的目的在于，使连续两帧之前的语音能够平滑过渡。因此，在通过平滑参数对当前帧与前一帧进行逐帧平滑处理时，可以采用但不局限于以下方式实现：

设置当前帧的平滑参数，使得当前帧的平滑参数与前一帧的平滑参数之和为1；计算前一帧与对应的平滑参数的第一乘积，计算当前帧的平滑参数与所述比值增益的第二乘积；根据所述第一乘积与第二乘积之和对当前帧进行逐帧平滑处理。

所述平滑参数γ为一经验值，可设置当前帧的平滑参数γ为0.8，那么前一帧的平滑参数为(1-γ)＝0.2，具体的，本发明实施例对此不做限定。

所述Current Gain＝Previous Gain*(1-γ)+γ*Gain-mask＝Previous Gain*(1-γ)+γ*Spectrum power of target directions/Spectrum power of otherdirections。

205、计算所述目标声音源指向对应的增强语音、能量比值与目标声音源指向的所述原始频域信号的第四乘积，并根据平滑处理结果输出所述第四乘积对应的语音。

进一步的，作为对上述图1所示方法的实现，本发明另一实施例还提供了一种多波束波束成形的装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例还提供一种多波束波束成形的装置，如图5所示，包括：

第一计算单元31，用于计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的第三乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；

第二计算单元32，用于分别计算目标声音源指向的增强语音；

第三计算单元33，用于根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值；

第四计算单元34，用于计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积，并输出所述第四乘积对应的语音。

进一步的，如图6所示，所述装置还包括：

处理单元35，用于在所述第四计算单元34计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积之前，通过平滑参数对当前帧与前一帧进行逐帧平滑处理。

进一步的，如图6所示，所述第一计算单元31包括：

第一获取模块311，用于获取空间滤波参数；

确定模块312，用于确定所述第一获取模块获取的所述空间滤波参数分别对应的至少两个声音源指向；

第二获取模块313，用于分别获取所述确定模块确定的至少两个声音源指向对应的原始频域信号；

计算模块314，用于计算所述空间滤波参数分别与不同声音源指向对应的原始频域信号的第三乘积。

进一步的，如图6所示，所述第二计算单元32包括：

第一计算模块321，用于以每个子带为单位，计算目标声音源指向的能量与所有声音源指向的能量和之间的比值增益；

第二计算模块322，用于计算第一乘积与比值增益的乘积，得到增强语音，其中，所述第一乘积为所述目标声音源指向对应的原始频域信号与所述空间滤波之间的乘积。

进一步的，如图6所示，所述第三计算单元33包括：

合并模块331，用于将当前帧中所有子带对应的能量进行合并；

第一计算模块332，用于计算当前帧所有子带的能量和；

第二计算模块333，用于计算所述目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和之间的比值，得到能量比值。

进一步的，如图6所示，所述处理单元35包括：

设置模块351，用于设置当前帧的平滑参数，使得当前帧的平滑参数与前一帧的平滑参数之和为1；

计算模块352，用于计算前一帧与对应的平滑参数的第一乘积，计算当前帧的平滑参数与所述比值增益的第二乘积；

处理模块353，用于根据所述第一乘积与第二乘积之和对当前帧进行逐帧平滑处理。

进一步的，所述第四计算单元34，还用于计算所述目标声音源指向对应的增强语音、能量比值与目标声音源指向的所述原始频域信号的第四乘积，并根据平滑处理结果输出所述第四乘积对应的语音。

本发明实施例提供的多波束波束成形的装置，计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；计算目标声音源指向的增强语音；根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值；计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积，并输出所述乘积对应的语音，与现有技术相比，本发明实施例能够确保目标声音源指向的声音不失真，并且能够有效抑制其他声音方向的干扰。

由于本实施例所介绍的多波束波束成形装置为可以执行本发明实施例中的多波束波束成形方法的装置，故而基于本发明实施例中所介绍的多波束波束成形方法，本领域所属技术人员能够了解本实施例的多波束波束成形装置的具体实施方式以及其各种变化形式，所以在此对于该多波束波束成形装置如何实现本发明实施例中的多波束波束成形方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中多波束波束成形方法所采用的装置，都属于本申请所欲保护的范围。

所述多波束波束成形的装置包括处理器和存储器，上述第一计算单元、第二计算单元、第三计算单元、第四计算单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现多波束波束成形时，确保目标空间指向的声音不失真，并对其他空间指向的声音进行有效抑制。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现多波束波束成形的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述多波束波束成形的方法。

本发明实施例提供了一种电子设备，如图7所示，电子设备包括：

至少一个处理器41；

以及与所述处理器41连接的至少一个存储器42、总线43；其中，

所述处理器41、存储器42通过所述总线43完成相互间的通信；

所述处理器41用于调用所述存储器42中的程序指令，以执行以下内容：

分别计算目标声音源指向的增强语音；

可选的，在计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积之前，所述方法还包括：

通过平滑参数对当前帧与前一帧进行逐帧平滑处理。

可选的，所述计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号，得到多波束波束成形包括：

计算所述空间滤波参数分别与不同声音源指向对应的原始频域信号的乘积。

可选的，分别计算目标声音源指向的增强语音包括：

可选的，计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积包括：

计算所述比值增益、能量比值与目标声音源指向的所述原始频域信号的乘积。

本文中的设备可以是服务器、PC、PAD、手机、智能电视等一切包含麦克风的智能设备。

本发明实施例提供的电子设备，计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；计算目标声音源指向的增强语音；根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值；计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积，并输出所述乘积对应的语音，与现有技术相比，本发明实施例能够确保目标声音源指向的声音不失真，并且能够有效抑制其他声音方向的干扰。

本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述任一种多波束波束成形的方法。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的乘积，得到多波束波束成形，所述空间滤波参数随声音源的角度和子带频率的不同而不同，所述至少两个声音源指向包含一个目标声音源及至少一个其他声音源指向；

计算目标声音源指向的增强语音；

计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的乘积，并输出所述乘积对应的语音。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种多波束波束成形的方法，其特征在于，包括：

计算目标声音源指向的增强语音；

2.根据权利要求1所述的方法，其特征在于，在计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积之前，所述方法还包括：

通过平滑参数对当前帧与前一帧进行逐帧平滑处理。

3.根据权利要求2所述的方法，其特征在于，所述计算空间滤波参数与至少两个声音源指向分别对应的原始频域信号的第三乘积，得到多波束波束成形包括：

4.根据权利要求3所述的方法，其特征在于，分别计算目标声音源指向的增强语音包括：

5.根据权利要求4所述的方法，其特征在于，根据目标声音源对应的子带能量与至少一个其他声音源指向的所有子带的能量和，计算能量比值包括：

6.根据权利要求5所述的方法，其特征在于，通过平滑参数对当前帧与前一帧进行逐帧平滑处理包括：

7.根据权利要求2-6中任一项所述的方法，其特征在于，计算目标声音源指向的所述原始频域信号与目标声音源指向对应的增强语音、能量比值的第四乘积，并输出所述第四乘积对应的语音包括：

8.一种多波束波束成形的装置，其特征在于，包括：

第二计算单元，用于分别计算目标声音源指向的增强语音；

9.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至权利要求7中任一项所述的多波束波束成形的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至权利要求7中任一项所述的多波束波束成形的方法。