CN114141268A

CN114141268A - 语音处理方法、系统、存储介质及终端语音设备

Info

Publication number: CN114141268A
Application number: CN202111476411.4A
Authority: CN
Inventors: 许双双; 郭世文; 杨卉; 何桂晓; 曹磊; 吴海全
Original assignee: Shenzhen Feikedi System Development Co Ltd
Current assignee: Shenzhen Feikedi System Development Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-04
Anticipated expiration: 2041-12-06
Also published as: CN114141268B

Abstract

一种语音处理方法、系统、存储介质及终端语音设备，语音处理方法包括：获取内部麦克风采集的第一音频数据以及多个外部麦克风分别采集的多个第二音频数据；将第一音频数据和多个第二音频数据转换到频域，以得到与第一音频数据对应的第一幅频特性，与多个第二音频数据对应的第二幅频特性；根据第一幅频特性和多个第二幅频特性生成均衡滤波器；对多个第二音频数据进行波束成形处理，以得到波束成形音频信号；将波束成形音频信号输入均衡滤波器。本发明能够有效的减少非期望音源方向带来的噪音干扰，同时可以根据麦克风采集的音频数据的幅频特性变化实现对均衡滤波器的动态调整，实现了对环境变化的有效适应。

Description

语音处理方法、系统、存储介质及终端语音设备

技术领域

本发明属于信号处理领域，具体涉及一种语音处理方法、系统、存储介质及终端语音设备。

背景技术

不同房间或房间内的不同位置具有不同的声学特性，在普通会议室使用会议音箱通话时，近端讲话者的声音一部分直接被音箱的麦克风拾取，另外一部分经过墙壁、桌面等反射后再被麦克风拾取，因此导致麦克风最终采集到的声音与讲话者原声音相比，频谱特性发生改变。例如在房间角落讲话，由于墙壁反射较强，会导致声音低频被过度增强，听感浑浊。而在空旷的大厅讲话，由于反射较弱，会使声音听感单薄。类似这些情况下，就需要对麦克风做均衡处理，以改善拾取的声音自然度和真实度。

传统处理方法，通常是在特定房间内调试出一组滤波器，用于对麦克风拾取到的声信号进行滤波。该滤波器一旦调试完成便固定下来，不会随麦克风所处环境的变化而变化。该方法实行步骤简便，占用的计算资源较少。但是无法适应不同环境的变化,且难以消除非期望音源方向带来的干扰。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种语音处理方法，解决了传统麦克风均衡方式无法适应环境变化以及难以消除非期望音源方向带来干扰的问题。本发明还提出了一种语音处理系统、一种终端语音设备和一种用于执行上述语音处理方法的计算机可读存储介质。

根据本发明第一方面实施例的语音处理方法，应用于终端语音设备，所述终端语音设备内部设置有一个内部麦克风，所述终端语音设备外部设置有多个外部麦克风；

所述语音处理方法包括以下步骤：

获取所述内部麦克风采集的第一音频数据以及多个外部麦克风分别采集的多个第二音频数据；

将所述第一音频数据和多个所述第二音频数据转换到频域，以得到与所述第一音频数据对应的第一幅频特性，与多个所述第二音频数据对应的第二幅频特性；

根据所述第一幅频特性和多个所述第二幅频特性生成均衡滤波器；

对多个所述第二音频数据进行波束成形处理，以得到波束成形音频信号；

将所述波束成形音频信号输入所述均衡滤波器。

根据本发明实施例的语音处理方法，至少具有如下技术效果：在终端语音设备的内外都设置麦克风，提供了执行本发明实施例的语音处理方法的硬件基础；进而可以利用多个外部麦克风和内部麦克风采集的音频数据的幅频特性曲线来生成均衡滤波器；且利用多个外部麦克风采集音频数据来辅助生成均衡滤波器，可以进一步提高均衡滤波器的降噪效果。同时，通过对多个第二音频数据波束成形处理，可以消除非期望音源方向带来的噪音干扰，使得最终形成的波束成形音频信号尽可能的只包含所需要音频。将波束成形音频信号输入至均衡滤波器后，则可以得到更为清晰的音频数据。本发明实施例的语音处理方法相较于传统处理方式而言，能够有效的减少非期望音源方向带来的噪音干扰，同时可以根据麦克风采集的音频数据的幅频特性变化实现对均衡滤波器的动态调整，实现了对环境变化的有效适应。

根据本发明的一些实施例，所述根据所述第一幅频特性和多个所述第二幅频特性生成均衡滤波器,包括以下步骤：

将所述第一幅频特性和多个所述第二幅频特性皆对应划分为多个实时子带；

获取多个所述第二幅频特性在每个所述实时子带中的幅度均值；

依次对每个所述实时子带对应的幅度均值与对应的所述第一幅频特性的幅值进行减法运算，以得到实时子带幅度差值组；

根据所述实时子带幅度差值组与标准子带幅度差值组确定滤波器原始幅频曲线，所述标准子带幅度差值组由所述终端语音设备根据扫频音得到；

根据所述滤波器原始幅频曲线确定所述均衡滤波器。

根据本发明的一些实施例，所述标准子带幅度差值组由以下步骤得到：

获取所述内部麦克风采集的标准内部音频数据，获取多个所述外部麦克风采集的标准外部音频数据，所述标准内部音频数据和多个所述标准外部音频数据皆基于所述扫频音得到；

将所述标准内部音频数据和多个所述标准外部音频数据转换到频域，以得到与所述标准内部音频数据对应的标准内部幅频特性，与多个所述标准外部音频数据对应的标准外部幅频特性；

将所述标准内部幅频特性和多个所述标准外部幅频特性皆划分为对应的多个标准子带，多个所述标准子带与多个所述实时子带一一对应；

获取多个所述标准外部幅频特性在每个所述标准子带中的幅度均值；

依次对每个所述标准子带对应的幅度均值与对应的所述标准内部幅频特性的幅值进行减法运算，以得到标准子带幅度差值组。

根据本发明的一些实施例，所述根据所述实时子带幅度差值组与标准子带幅度差值组确定滤波器原始幅频曲线，包括以下步骤：

依次对所述实时子带幅度差值组中的每个差值与所述标准子带幅度差值组中的每个差值进行减法运算，以得到子带差值序列；

对所述子带差值序列基于频域进行拟合，以得到所述滤波器原始幅频曲线。

根据本发明的一些实施例，所述根据所述滤波器原始幅频曲线确定所述均衡滤波器，包括以下步骤：

选取所述滤波器原始幅频曲线的至少一个波峰，根据每个所述波峰确定一组对应的增益、中心频率、品质因子；

根据每组所述增益、中心频率、品质因子对应生成一个中间均衡滤波器；

根据所述中间均衡滤波器合成所述均衡滤波器；

其中，每个所述波峰皆根据幅值大小进行选取，且每个所述中间均衡滤波器皆用于提高所述均衡滤波器的滤波效果。

根据本发明的一些实施例，所述根据每组所述增益、中心频率、品质因子生成一个中间均衡滤波器，包括以下步骤：

根据多组调整参数对所述增益、中心频率、品质因子进行多次调整，并获取根据每次调整之后所述增益、中心频率、品质因子生成的过度滤波器对应的目标幅频特性曲线，多组所述调整参数皆由用户输入所述终端语音设备；

依次获取每个所述目标幅频特性曲线与所述滤波器原始幅频曲线的总差值，并根据所述总差值最小的所述目标幅频特性曲线对应的所述增益、中心频率、品质因子生成所述中间均衡滤波器。

根据本发明的一些实施例，所述对多个所述第二音频数据进行波束成形处理，包括以下步骤：

获取多个所述第二音频数据的时间数据和频率数据；

根据所述时间数据和频率数据确定原始音源方向；

计算每个所述原始音源方向对应的信号功率，并依据每个所述信号功率的大小确定期望音源方向；

基于线性约束最小方差准则对两个所述外部麦克风的输出进行约束，以使得对非所述期望音源方向的信号进行滤除，得到所述波束成形音频信号。

根据本发明第二方面实施例的语音处理系统，应用于终端语音设备，所述终端语音设备内部设置有一个内部麦克风，所述终端语音设备外部设置有多个外部麦克风；

所述语音处理系统包括：

数据获取单元，用于获取所述内部麦克风采集的第一音频数据以及多个外部麦克风分别采集的多个第二音频数据；

幅频转换单元，用于将所述第一音频数据和多个所述第二音频数据转换到频域，以得到与所述第一音频数据对应的第一幅频特性，与多个所述第二音频数据对应的第二幅频特性；

滤波器生成单元，用于根据所述第一幅频特性和多个所述第二幅频特性生成均衡滤波器；

波束约束单元，用于对多个所述第二音频数据进行波束成形处理，以得到波束成形音频信号；

数据输出单元，用于将所述波束成形音频信号输入所述均衡滤波器。

根据本发明实施例的语音处理系统，至少具有如下技术效果：在终端语音设备的内外都设置麦克风；进而可以利用多个外部麦克风和内部麦克风采集的音频数据的幅频特性曲线来生成均衡滤波器；且利用多个外部麦克风采集音频数据来辅助生成均衡滤波器，可以进一步提高均衡滤波器的降噪效果。同时，通过对多个第二音频数据波束成形处理，可以消除非期望音源方向带来的噪音干扰，使得最终形成的波束成形音频信号尽可能的只包含所需要音频。将波束成形音频信号输入至均衡滤波器后，则可以得到更为清晰的音频数据。本发明实施例的语音处理系统能够有效的减少非期望音源方向带来的噪音干扰，同时可以根据麦克风采集的音频数据的幅频特性变化实现对均衡滤波器的动态调整，实现了对环境变化的有效适应。

根据发明第三方面实施例的终端语音设备，包括：

壳体；

扬声器，设置于所述壳体上，所述扬声器与所述壳体构成密封腔室；

内部麦克风，设置于所述密封腔室内；

多个外部麦克风，设置于所述壳体外表面；

处理单元，分别与所述扬声器、所述内部麦克风和多个所述外部麦克风连接，所述处理单元用于执行如上述的语音处理方法。

根据本发明实施例的终端语音设备，至少具有如下有益效果：在终端语音设备的内外都设置麦克风，进而为处理单元执行上述的语音处理方法提供了环境基础，使得本发明实施例的终端语音设备能够有效的减少非期望音源方向带来的噪音干扰，同时可以根据麦克风采集的音频数据的幅频特性变化实现对均衡滤波器的动态调整，实现了对环境变化的有效适应。

根据发明第四方面实施例的计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述的语音处理方法。

根据本发明实施例的计算机可读存储介质，至少具有如下有益效果：通过存储介质可以便于计算机可执行指令的存储和转移。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例的语音处理方法的流程图；

图2是本发明实施例的波束成形处理的期望示意图；

图3是本发明实施例的语音处理系统的系统框图；

图4是本发明实施例的终端语音设备的结构示意图。

附图标记：

壳体100、扬声器200、内部麦克风300、外部麦克风400。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，如果有描述到第一、第二、第三、第四等等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、连接等词语应做广义理解，所述技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参考图1至图、4，描述本发明第一方面实施例的语音处理方法。本发明实施例的语音处理方法应用于终端语音设备，终端语音设备内部设置有一个内部麦克风300，终端语音设备外部设置有多个外部麦克风400；

语音处理方法包括以下步骤：

获取内部麦克风300采集的第一音频数据以及多个外部麦克风400分别采集的多个第二音频数据；

将第一音频数据和多个第二音频数据转换到频域，以得到与第一音频数据对应的第一幅频特性，与多个第二音频数据对应的第二幅频特性；

根据第一幅频特性和多个第二幅频特性生成均衡滤波器；

对多个第二音频数据进行波束成形处理，以得到波束成形音频信号；

将波束成形音频信号输入均衡滤波器。

参考图1至图4，多个外部麦克风400设置在终端语音设备外，且处于同一水平面上，内部麦克风300设置在终端语音设备内。在外部音源发出声音时，内部麦克风300和外部麦克风400都可以采集到音频数据。

将采集的音频数据从时域转换到频域，从而可以得到与第一音频数据对应的第一幅频特性，与多个第二音频数据对应的第二幅频特性。得到幅频特性曲线之后，便可以利用第二幅频特性与第一幅频特性之间差值来生成均衡滤波器。这里需要说明的是，通常外部音源在发出声音后，并不会频繁的更换位置，特别是在会议室环境下，可能在整个会议过程中，都不会出现音源位置的变化，因此，第一幅频特性和第二幅频特性很难会随着时间变化出现突变，那么便不需要频繁的利用采集到的音频数据来获取幅频特性曲线，更不需要频繁的生成或调整均衡滤波器。通常可以间隔一段时间生成或调整一次均衡滤波器，例如每五分钟执行一次即可。

利用均衡滤波器可以有效的滤除噪音，但是无法滤除非期望音源方向的干扰。在利用麦克风进行声音采集时，通常会让麦克风尽量的接近音源，那么在绝大多数情况下，基本上都可以确定声音幅度最大的信号来源是期望音源。基于此，在获得多个第二音频数据后，可以对多个第二音频数据进行波束成形处理，从而可以快速有效的确定期望音源方向，并且将非期望音源方向的声音滤除，得到尽可能只包含期望音源方向声音的波束成形音频信号。将这一波束成形音频信号输入至均衡滤波器进行均衡滤噪之后，便可以得到理想的期望音源的音频数据。

根据本发明实施例的语音处理方法，在终端语音设备的内外都设置麦克风，提供了执行本发明实施例的语音处理方法的硬件基础；进而可以利用多个外部麦克风400和内部麦克风300采集的音频数据的幅频特性曲线来生成均衡滤波器；且利用多个外部麦克风400采集音频数据来辅助生成均衡滤波器，可以进一步提高均衡滤波器的降噪效果。同时，通过对多个第二音频数据波束成形处理，可以消除非期望音源方向带来的噪音干扰，使得最终形成的波束成形音频信号尽可能的只包含所需要音频。将波束成形音频信号输入至均衡滤波器后，则可以得到更为清晰的音频数据。本发明实施例的语音处理方法相较于传统处理方式而言，能够有效的减少非期望音源方向带来的噪音干扰，同时可以根据麦克风采集的音频数据的幅频特性变化实现对均衡滤波器的动态调整，实现了对环境变化的有效适应。

在本发明的一些实施例中，根据第一幅频特性和多个第二幅频特性生成均衡滤波器,包括以下步骤：

将第一幅频特性和多个第二幅频特性皆对应划分为多个实时子带；

获取多个第二幅频特性在每个实时子带中的幅度均值；

依次对每个实时子带对应的幅度均值与对应的第一幅频特性的幅值进行减法运算，以得到实时子带幅度差值组；

根据实时子带幅度差值组与标准子带幅度差值组确定滤波器原始幅频曲线，标准子带幅度差值组由终端语音设备根据扫频音得到；

根据滤波器原始幅频曲线确定均衡滤波器。

将第一幅频特性和多个第二幅频特性都划分为多个实时子带，例如，声音采集频率内部麦克风300和外部麦克风400都会采集的频率区域为20HZ至20000HZ，那么第一幅频特性和多个第二幅频特性的频域范围也都可以确定为20HZ至20000HZ，那么可以每间隔一个固定的频率划分一个实时子带，具体划分的大小可以根据经验进行人为设置，也可以采用间隔1/N倍频划分一个子带的方式来进行划分，例如每间隔1/3、1/6倍频划分一个子带。实时子带划分完成后，会对多个第二幅频特性在每个划分出来的实时子带内求平均赋值，即幅值均值，然后利用该实时子带的幅值均值与该实时子带对应的第一幅频特性的幅值做差，得到实时子带幅度差值，在依次对每个实时子带中幅值均值和对应的第一幅频特性的幅值做差后，可以得到一组实时子带幅度差值，便可以记作实时子带幅度差值组。这里需要说明的是，采用一个第二幅频特性同样可以在每个实时子带利用幅值与第一幅频特性的幅值做差，但是相较于多个第二幅频特性求平均的方式，生成的均衡滤波器稳定性更差。

获得实时子带幅度差值组后，便可以让实时子带幅度差值组中的每个差值与标准子带幅度差值组中的每个差值逐一做差，并利用这组差值结果确定滤波器原始幅频曲线，从而可以根据滤波器原始幅频曲线来生成后调整均衡滤波器。需要说明的是，标准子带幅度差值组是根据扫频音得到的，例如：如果需要采集20HZ至20000HZ声音，那么扫频音便会依次播放20HZ至20000HZ的声音，这样生成的标准子带幅度差值组才能够更好的辅助实时子带幅度差值组获取滤波器原始幅频曲线。在本发明的一些实施例中，扫频音也可以用白噪音或者其他预设频段的声音代替，但是效果相较于扫频音较差。

在本发明的一些实施例中，标准子带幅度差值组由以下步骤得到：

获取内部麦克风300采集的标准内部音频数据，获取多个外部麦克风400采集的标准外部音频数据，标准内部音频数据和多个标准外部音频数据皆基于扫频音得到；

将标准内部音频数据和多个标准外部音频数据转换到频域，以得到与标准内部音频数据对应的标准内部幅频特性，与多个标准外部音频数据对应的标准外部幅频特性；

将标准内部幅频特性和多个标准外部幅频特性皆划分为对应的多个标准子带，多个标准子带与多个实时子带一一对应；

获取多个标准外部幅频特性在每个标准子带中的幅度均值；

依次对每个标准子带对应的幅度均值与对应的标准内部幅频特性的幅值进行减法运算，以得到标准子带幅度差值组。

终端语音设备(例如带有麦克风的会议音响)其内部设置有扬声器200时，这里可以将终端语音设备放置在消音室中，然后利用扬声器200播放扫频音，再由内部麦克风300采集的标准内部音频数据，多个外部麦克风400采集的标准外部音频数据即可。需要说明的是，不同类型的终端语音设备可以根据实际情况选择标准外部音频数据和标准内部音频数据的获取方式，直接利用内置扬声器200获取并不能作为对本发明的限定。

获取到标准外部音频数据和标准内部音频数据后，便可以采用与生成实时子带幅度差值组类似的方式来生成标准子带幅度差值组。首先将标准内部音频数据和多个标准外部音频数据转换到频域，得到与标准内部音频数据对应的标准内部幅频特性，与多个标准外部音频数据对应的标准外部幅频特性；然后对标准内部幅频特性和多个标准外部幅频特性进行标准子带划分，这里需要说明的是，标准子带划分需要与实时子带划分相对应，即实时子带划分了哪些频段，则标准子带也只能对应划分多个频段。标准子带划分完成后，对多个标准外部幅频特性在每个标准子带中的幅值求均值，以得到标准外部幅频特性在每个标准子带中的幅度均值，并利用每个标准子带中的幅度均值与该标准子带对应的标准内部幅频特性的幅值进行逐一做差，得到多个标准子带幅度差值，并将多个标准子带幅度差值记作标准子带幅度差值组。

在本发明的一些实施例中，根据实时子带幅度差值组与标准子带幅度差值组确定滤波器原始幅频曲线，包括以下步骤：

依次对实时子带幅度差值组中的每个差值与标准子带幅度差值组中的每个差值进行减法运算，以得到子带差值序列；

对子带差值序列基于频域进行拟合，以得到滤波器原始幅频曲线。

通过对实时子带幅度差值组中的差值与标准子带幅度差值组中的差值逐个做差，则可以得到一个子带差值序列，子带差值序列代表实时环境中的声音与消音室环境的声音的区别，之后，对子带差值序列在频域上进行拟合，得到滤波器原始幅频曲线。利用滤波器原始幅频曲线生成滤波器后，便可以用于消除环境中的噪音干扰。

在本发明的一些实施例中，根据滤波器原始幅频曲线确定均衡滤波器，包括以下步骤：

选取滤波器原始幅频曲线的至少一个波峰，根据每个波峰确定一组对应的增益、中心频率、品质因子；

根据每组增益、中心频率、品质因子对应生成一个中间均衡滤波器；

根据中间均衡滤波器合成均衡滤波器；

其中，每个波峰皆根据幅值大小进行选取，且每个中间均衡滤波器皆用于提高均衡滤波器的滤波效果。

均衡滤波器实质上是由至少一个中间均衡滤波器组成的滤波器组，在获取到原始幅频曲线后，波峰越高的地方则代表幅度越大，那么在设计中间均衡滤波器则需要进行优先考虑。因此，在实际进行中间均衡滤波器设计时，会根据滤波器原始幅频曲线的最大波峰确定一组增益、中心频率、品质因子，增益可以理解为波峰的高度，中心频率则为波峰对应的横坐标频率，品质因子可以使用预设值即可。确定一组增益、中心频率、品质因子便可以对应生成第一个中间均衡滤波器。生成第一个中间均衡滤波器后，便会选取幅值第二的波峰，采用与前述同样的方式生成中间均衡滤波器，然后会对两个中间均衡滤波器组成的滤波器组的滤波效果进行评估，如果滤噪效果优于仅包含第一个中间均衡滤波器，则将该中间均衡滤波器保留，否则放弃该中间均衡滤波器。之后便可以依据幅值由大至小逐个对波峰进行处理，直至多个中间均衡滤波器形成的滤波器组达到预期的滤波要求，此时的滤波器组便记作均衡滤波器。

这里需要说明的是，在一些实施例中，对滤波器组是否达到预期的滤波要求的判断步骤为：获取滤波器组的目标幅频特性曲线，在该目标幅频特性曲线与滤波器原始幅频曲线上对应选取一些点(例如等间距选取)做差，得到多个差值，然后求取多个差值的总差值，并判断总差值小于预设的滤波阈值要求，若总差值小于滤波阈值，则确定该滤波器组达到预期的滤波要求。需要说明的是，滤波阈值可以需要用户根据不同的产品面对的适用对象进行设置。

在本发明的一些实施例中，根据每组增益、中心频率、品质因子生成一个中间均衡滤波器，包括以下步骤：

根据多组调整参数对增益、中心频率、品质因子进行多次调整，并获取根据每次调整之后增益、中心频率、品质因子生成的过度滤波器对应的目标幅频特性曲线，多组调整参数皆由用户输入终端语音设备；

依次获取每个目标幅频特性曲线与滤波器原始幅频曲线的总差值，并根据总差值最小的目标幅频特性曲线对应的增益、中心频率、品质因子生成中间均衡滤波器。

中间均衡滤波器并不会直接得到，在得到增益、中心频率、品质因子后，会根据增益、中心频率、品质因子生成一个过度滤波器，之后会通过微调增益、中心频率、品质因子来对过度滤波器进行适当调整，每次微调增益、中心频率、品质因子会依据一组调整参数进行调整。然后获取调整之后的过度滤波器对应的目标幅频特性曲线，并在该目标幅频特性曲线与滤波器原始幅频曲线对应取点(例如等间距选取),求取这些点的差值后，便可以利用这些差值得到总差值。总差值越小，则说明滤波效果越好，从而可以选取多个调整参数中对应的总差值最小的一组增益、中心频率、品质因子生成的过度滤波器作为中间均衡滤波器。需要说明的，调整参数的数量并不是无限的，可以根据实际需求进行选择，例如选取10组、20组即可。

在本发明的一些实施例中，对多个第二音频数据进行波束成形处理，包括以下步骤：

获取多个第二音频数据的时间数据和频率数据；

根据时间数据和频率数据确定原始音源方向；

计算每个原始音源方向对应的信号功率，并依据每个信号功率的大小确定期望音源方向；

基于线性约束最小方差准则对两个外部麦克风400的输出进行约束，以使得对非期望音源方向的信号进行滤除，得到波束成形音频信号。

外部麦克风400安装在不同的位置，因此接收到音源发出的同一个声音信号时，会存在时间差，通过对多个第二音频数据的时间数据进行分析便可以确定多个麦克风获取同一音频时的时间差，进而可以依据时间差辅助确定音源方向。频率数据可以反映获取声音的功率大小，通常不同的音源之间功率大小会存在区别，因此，利用时间差和频率数据便可以确定多个外部麦克风400所在水平面内所有原始音源方向的方向。

通常情况下，噪音的音量会小于需要采集的期望音源的音量，因此，可以对多个原始音源方向的按照功率大小进行排序，并设置一个阈值，将超过这一阈值的原始音源方向确定为期望音源方向，否则作为噪音处理。具体确定期望音源方向的个数需要依据实际使用场景来进行确定，例如：会议场景下，领导发言时，只需要确定一个期望音源方向即可，在访谈场景下，则需要获取多个期望音源方向；当然，也可以不做数量限定，将给所有超过阈值的原始音源方向确定为期望音源方向即可。在一些实施例中，会对功率大小进行等级划分，将最高等级的一个或几个原始音源方向确定为期望音源方向。

确定音源方向之后，则可以根据线性约束最小方差准则对两个外部麦克风400的输出进行约束。约束过程主要是通过对麦克风输出信号的幅度或相位加权系数进行调整，使波束成形器输出功率适当提高，从而更多地保留期望音源方向的声音，将其它非期望音源方向的声音滤除。例如:对于单一期望音源方向，调整幅度或相位加权系数，可以自适应地使波束成形器输出功率最小，即等效于使麦克风输出信号中非期望音源方向的噪声功率最小，从而增强期望音源方向信号。对于多个期望音源方向，例如两个不同方向的讲话者同时讲话时，通过调整幅度或相位加权系数，使波束成形器输出功率适当提高，从而更多地保留这两个方向的声音，避免其中一个被过度消除，同时对其他方向的噪音滤除。

在本发明的一些实施例中，在基于线性约束最小方差准则对两个外部麦克风400的输出进行约束前，会对外部麦克风400采集的第二音频数据进行延时补偿，时多个外部麦克风400采集的第二音频数据保持一致性，以便于后续进行约束处理。

根据本发明第二方面实施例的语音处理系统，应用于终端语音设备，终端语音设备内部设置有一个内部麦克风300，终端语音设备外部设置有多个外部麦克风400；

语音处理系统包括数据获取单元、幅频转换单元、滤波器生成单元、波束约束单元、数据输出单元。

数据获取单元，用于获取内部麦克风300采集的第一音频数据以及多个外部麦克风400分别采集的多个第二音频数据；

幅频转换单元，用于将第一音频数据和多个第二音频数据转换到频域，以得到与第一音频数据对应的第一幅频特性，与多个第二音频数据对应的第二幅频特性；

滤波器生成单元，用于根据第一幅频特性和多个第二幅频特性生成均衡滤波器；

波束约束单元，用于对多个第二音频数据进行波束成形处理，以得到波束成形音频信号；

数据输出单元，用于将波束成形音频信号输入均衡滤波器。

参考图1至图4，多个外部麦克风400设置在终端语音设备外，且处于同一水平面上，内部麦克风300设置在终端语音设备内。在外部音源发出声音时，内部麦克风300和外部麦克风400都可以采集到音频数据,这些音频数据会通过数据获取单元进行获取。

幅频转换单元将采集的音频数据从时域转换到频域，从而可以得到与第一音频数据对应的第一幅频特性，与多个第二音频数据对应的第二幅频特性。得到幅频特性曲线之后，滤波器生成单元便可以利用第二幅频特性与第一幅频特性之间差值来生成均衡滤波器。这里需要说明的是，通常外部音源在发出声音后，并不会频繁的更换位置，特别是在会议室环境下，可能在整个会议过程中，都不会出现音源位置的变化，因此，第一幅频特性和第二幅频特性很难会随着时间变化出现突变，那么便不需要频繁的利用采集到的音频数据来获取幅频特性曲线，更不需要频繁的生成或调整均衡滤波器。通常可以间隔一段时间生成或调整一次均衡滤波器，例如每五分钟执行一次即可。

利用均衡滤波器可以有效的滤除噪音，但是无法滤除非期望音源方向的干扰。在利用麦克风进行声音采集时，通常会让麦克风尽量的接近音源，那么在绝大多数情况下，基本上都可以确定声音幅度最大的信号来源是期望音源。因此，在获得多个第二音频数据后，波束约束单元可以对多个第二音频数据进行波束成形处理，从而可以快速有效的确定期望音源方向，并且将非期望音源方向的声音滤除，得到尽可能只包含期望音源方向声音的波束成形音频信号。数据输出单元将这一波束成形音频信号输入至均衡滤波器进行均衡滤噪之后，便可以得到理想的期望音源的音频数据。

根据本发明实施例的语音处理系统，在终端语音设备的内外都设置麦克风；进而可以利用多个外部麦克风400和内部麦克风300采集的音频数据的幅频特性曲线来生成均衡滤波器；且利用多个外部麦克风400采集音频数据来辅助生成均衡滤波器，可以进一步提高均衡滤波器的降噪效果。同时，通过对多个第二音频数据波束成形处理，可以消除非期望音源方向带来的噪音干扰，使得最终形成的波束成形音频信号尽可能的只包含所需要音频。将波束成形音频信号输入至均衡滤波器后，则可以得到更为清晰的音频数据。本发明实施例的语音处理系统能够有效的减少非期望音源方向带来的噪音干扰，同时可以根据麦克风采集的音频数据的幅频特性变化实现对均衡滤波器的动态调整，实现了对环境变化的有效适应。

在本发明的一些实施例中，滤波器生成单元包括子待划分模块、均值计算模块、差值确定模块、幅频曲线生成单元、滤波生成模块。

子待划分模块，用于将第一幅频特性和多个第二幅频特性皆对应划分为多个实时子带；

均值计算模块，用于获取多个第二幅频特性在每个实时子带中的幅度均值；

差值确定模块，用于依次对每个实时子带对应的幅度均值与对应的第一幅频特性的幅值进行减法运算，以得到实时子带幅度差值组；

幅频曲线生成单元，用于根据实时子带幅度差值组与标准子带幅度差值组确定滤波器原始幅频曲线，标准子带幅度差值组由终端语音设备根据扫频音得到；

滤波生成模块，用于根据滤波器原始幅频曲线确定均衡滤波器。

子待划分模块将第一幅频特性和多个第二幅频特性都划分为多个实时子带，例如，声音采集频率内部麦克风300和外部麦克风400都会采集的频率区域为20HZ至20000HZ，那么第一幅频特性和多个第二幅频特性的频域范围也都可以确定为20HZ至20000HZ，那么可以每间隔一个固定的频率划分一个实时子带，具体划分的大小可以根据经验进行人为设置，也可以采用间隔1/N倍频划分一个子带的方式来进行划分，例如每间隔1/3、1/6倍频划分一个子带。实时子带划分完成后，均值计算模块会对多个第二幅频特性在每个划分出来的实时子带内求平均赋值，即幅值均值，然后差值确定模块利用该实时子带的幅值均值与该实时子带对应的第一幅频特性的幅值做差，得到实时子带幅度差值，在依次对每个实时子带中幅值均值和对应的第一幅频特性的幅值做差后，可以得到一组实时子带幅度差值，便可以记作实时子带幅度差值组。这里需要说明的是，采用一个第二幅频特性同样可以在每个实时子带利用幅值与第一幅频特性的幅值做差，但是相较于多个第二幅频特性求平均的方式，生成的均衡滤波器稳定性更差。

获得实时子带幅度差值组后，幅频曲线生成单元便可以让实时子带幅度差值组中的每个差值与标准子带幅度差值组中的每个差值逐一做差，并利用这组差值结果确定滤波器原始幅频曲线，从而使得滤波生成模块可以根据滤波器原始幅频曲线来生成后调整均衡滤波器。需要说明的是，标准子带幅度差值组是根据扫频音得到的，例如：如果需要采集20HZ至20000HZ声音，那么扫频音便会依次播放20HZ至20000HZ的声音，这样生成的标准子带幅度差值组才能够更好的辅助实时子带幅度差值组获取滤波器原始幅频曲线。在本发明的一些实施例中，扫频音也可以用白噪音或者其他预设频段的声音代替，但是效果相较于扫频音较差。

在本发明的一些实施例中，波束约束单元包括信息获取模块、原始方向确定模块、期望方向确定模块、波束成形模块。

信息获取模块，用于获取多个第二音频数据的时间数据和频率数据；

原始方向确定模块，用于根据时间数据和频率数据确定原始音源方向；

期望方向确定模块，用于计算每个原始音源方向对应的信号功率，并依据每个信号功率的大小确定期望音源方向；

波束成形模块，基于线性约束最小方差准则对两个外部麦克风400的输出进行约束，以使得对非期望音源方向的信号进行滤除，得到波束成形音频信号。

外部麦克风400安装在不同的位置，因此接收到音源发出的同一个声音信号时，会存在时间差，通过对多个第二音频数据的时间数据进行分析便可以确定多个麦克风获取同一音频时的时间差，进而可以依据时间差辅助确定音源方向。频率数据可以反映获取声音的功率大小，通常不同的音源之间功率大小会存在区别，因此，原始方向确定模块利用时间差和频率数据便可以确定多个外部麦克风400所在水平面内所有原始音源方向的方向。

通常情况下，噪音的音量会小于需要采集的期望音源的音量，因此，可以对多个原始音源方向的按照功率大小进行排序，并设置一个阈值，期望方向确定模块可以将超过这一阈值的原始音源方向确定为期望音源方向。具体确定期望音源方向的个数需要依据实际使用场景来进行确定，例如：会议场景下，领导发言时，只需要确定一个期望音源方向即可，在访谈场景下，则需要获取多个期望音源方向；当然，也可以不做数量限定，将给所有超过阈值的原始音源方向确定为期望音源方向即可。在一些实施例中，会对功率大小进行等级划分，将最高等级的一个或几个原始音源方向确定为期望音源方向。

确定音源方向之后，波束成形模块则可以根据线性约束最小方差准则对两个外部麦克风400的输出进行约束。约束过程主要是通过对麦克风输出信号的幅度或相位加权系数进行调整，使波束成形器输出功率适当提高，从而更多地保留期望音源方向的声音，将其它非期望音源方向的声音滤除。例如:对于单一期望音源方向，调整幅度或相位加权系数，可以自适应地使波束成形器输出功率最小，即等效于使麦克风输出信号中非期望音源方向的噪声功率最小，从而增强期望音源方向信号。对于多个期望音源方向，例如两个不同方向的讲话者同时讲话时，通过调整幅度或相位加权系数，使波束成形器输出功率适当提高，从而更多地保留这两个方向的声音，避免其中一个被过度消除，同时对其他方向的噪音滤除。

根据发明第三方面实施例的终端语音设备，包括壳体100、扬声器200、内部麦克风300、多个外部麦克风400、处理单元。

扬声器200，设置于壳体100上，扬声器200与壳体100构成密封腔室；

内部麦克风300，设置于密封腔室内；

多个外部麦克风400，设置于壳体100外表面；

处理单元，分别与扬声器200、内部麦克风300和多个外部麦克风400连接，处理单元用于执行如上述的语音处理方法。

参考图4，多个外部麦克风400设置在壳体100外表面时，需要尽可能保持在同一水平面，并且在外部麦克风400数量超过两个时，尽可能采用等角度、等间距布置，从而提高处理单元执行如上述的语音处理方法时的准确性。扬声器200可以作为播放设备使用，同时扬声器200也可以在获取标准子带幅度差值组时使用。此外，为了尽可能保证均衡滤波器的效果，会让扬声器200与壳体100构成密封腔室，并将内部麦克风300置于密封腔室内，从而可以有效的减少干扰。需要说明的是，内部麦克风300和多个外部麦克风400皆可采用全指向麦克风，或者结合具体壳体100结构采用指向性麦克风。

根据本发明实施例的终端语音设备，在终端语音设备的内外都设置麦克风，进而为处理单元执行上述的语音处理方法提供了环境基础，使得本发明实施例的终端语音设备能够有效的减少非期望音源方向带来的噪音干扰，同时可以根据麦克风采集的音频数据的幅频特性变化实现对均衡滤波器的动态调整，实现了对环境变化的有效适应。

在本发明的一些实施例中，内部麦克风300可以采用距离传感器或加速度传感器进行替代。根据距离传感器或加速度传感器的振动规律，同样可以幅度和频率，从而辅助外部麦克风400完成均衡滤波器的设置。

根据发明第四方面实施例的计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行上述的语音处理方法。

根据本发明实施例的计算机可读存储介质，通过存储介质可以便于计算机可执行指令的存储和转移。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上述结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种语音处理方法，应用于终端语音设备，其特征在于，所述终端语音设备内部设置有一个内部麦克风，所述终端语音设备外部设置有多个外部麦克风；

所述语音处理方法包括以下步骤：

将所述波束成形音频信号输入所述均衡滤波器。

2.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述第一幅频特性和多个所述第二幅频特性生成均衡滤波器,包括以下步骤：

根据所述滤波器原始幅频曲线确定所述均衡滤波器。

3.根据权利要求2所述的语音处理方法，其特征在于，所述标准子带幅度差值组由以下步骤得到：

4.根据权利要求2或3所述的语音处理方法，其特征在于，所述根据所述实时子带幅度差值组与标准子带幅度差值组确定滤波器原始幅频曲线，包括以下步骤：

5.根据权利要求2所述的语音处理方法，其特征在于，所述根据所述滤波器原始幅频曲线确定所述均衡滤波器，包括以下步骤：

根据所述中间均衡滤波器合成所述均衡滤波器；

6.根据权利要求5所述的语音处理方法，其特征在于，所述根据每组所述增益、中心频率、品质因子对应生成一个中间均衡滤波器，包括以下步骤：

7.根据权利要求1所述的语音处理方法，其特征在于，所述对多个所述第二音频数据进行波束成形处理，包括以下步骤：

获取多个所述第二音频数据的时间数据和频率数据；

根据所述时间数据和频率数据确定原始音源方向；

基于线性约束最小方差准则对多个所述外部麦克风的输出进行约束，以使得对非所述期望音源方向的信号进行滤除，得到所述波束成形音频信号。

8.一种语音处理系统，应用于终端语音设备，其特征在于，所述终端语音设备内部设置有一个内部麦克风，所述终端语音设备外部设置有多个外部麦克风；

所述语音处理系统包括：

9.一种终端语音设备，其特征在于，包括：

壳体；

内部麦克风，设置于所述密封腔室内；

多个外部麦克风，设置于所述壳体外表面；

处理单元，分别与所述扬声器、所述内部麦克风和多个所述外部麦克风连接，所述处理单元用于执行如权利要求1至7任一所述的语音处理方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一所述的一种语音处理方法。