CN113645542B

CN113645542B - 语音信号处理方法和系统及音视频通信设备

Info

Publication number: CN113645542B
Application number: CN202010393949.8A
Authority: CN
Inventors: 黄伟隆; 冯津伟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2023-05-02
Anticipated expiration: 2040-05-11
Also published as: CN113645542A

Abstract

本申请公开了一种语音信号处理方法和系统及音视频通信设备。其中，该方法包括：获取待处理信号集合，其中，待处理信号集合通过多个拾音设备采集得到；对待处理信号集合进行处理，得到多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定目标波束信号。本申请解决了现有技术中采用全向麦克风阵列或单颗指向性麦克风进行拾音，拾音质量较差的技术问题。

Description

语音信号处理方法和系统及音视频通信设备

技术领域

本申请涉及语音信号处理领域，具体而言，涉及一种语音信号处理方法和系统及音视频通信设备。

背景技术

目前，在音视频会议、智能音箱、智能家电(比如带语音控制功能的电视机，电冰箱)等产品中，可以采用一个由全向麦克风构成的麦克风阵列进行拾音，但是针对某个特定方向的拾音效果较差，而采用单颗指向性麦克风进行拾音，拾音效果受限于麦克风本身。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音信号处理方法和系统及音视频通信设备，以至少解决现有技术中采用全向麦克风阵列或单颗指向性麦克风进行拾音，拾音质量较差的技术问题。

根据本申请实施例的一个方面，提供了一种语音信号处理方法，包括：获取待处理信号集合，其中，待处理信号集合通过多个拾音设备采集得到；对待处理信号集合进行处理，得到多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定目标波束信号。

根据本申请实施例的另一方面，还提供了一种语音信号处理方法，包括：捕获设置在音视频通信设备上的多个拾音设备输入的待处理信号集合；对待处理信号集合进行处理，确定多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定音视频通信设备输出的目标波束信号。

根据本申请实施例的另一方面，还提供了一种语音信号处理系统，包括：多个拾音设备，用于采集待处理信号集合；处理装置，与多个拾音设备连接，用于对待处理信号集合进行处理，得到多个波束信号，并基于多个波束信号，确定目标波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同。

根据本申请实施例的另一方面，还提供了一种音视频通信设备，包括：设置在音视频通信设备上的多个拾音设备，用于产生待处理信号集合；处理器，与多个拾音设备连接，用于对待处理信号集合进行处理，确定多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；输出装置，与处理器连接，用于基于多个波束信号，输出目标波束信号。

根据本申请实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的语音信号处理方法。

根据本申请实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述的语音信号处理方法。

根据本申请实施例的另一方面，还提供了一种语音信号处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待处理信号集合，其中，待处理信号集合通过多个拾音设备采集得到；对待处理信号集合进行处理，得到多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定目标波束信号。

在本申请实施例中，在获取到待处理信号集合之后，可以对待处理信号集合进行处理，得到多个波束信号，进一步基于多个波束信号，确定其中的目标波束信号，从而达到远场拾音的目的。容易注意到的是，可以通过多个拾音设备进行信号采集，每个拾音设备的端射方向指向空间中的不同方向，与全向麦克风构成的麦克风阵列和单颗指向性麦克风相比，可以为音视频通信设备不同方向的拾音需求提供波束成形的音频质量，而且具有更好的性能和拾音效果，从而达到了提升拾音质量的技术效果，进而解决了现有技术中采用全向麦克风阵列或单颗指向性麦克风进行拾音，拾音质量较差的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现语音信号处理方法的计算机终端的硬件结构框图；

图2是根据本申请实施例的一种语音信号处理方法的流程图；

图3是根据本申请实施例的一种可选的N个麦克风阵列的示意图；

图4是根据本申请实施例的一种可选的每个麦克风阵列的示意图；

图5是根据本申请实施例的一种可选的语音信号处理方法的流程图；

图6是根据本申请实施例的另一种语音信号处理方法的流程图；

图7是根据本申请实施例的一种可选的音视频通信设备的示意图；

图8是根据本申请实施例的一种语音信号处理装置的示意图；

图9是根据本申请实施例的另一种语音信号处理装置的示意图；

图10是根据本申请实施例的一种语音信号处理系统的示意图；

图11是根据本申请实施例的一种音视频通信设备的示意图；以及

图12是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

全向麦克风：可以等量接收各个方向的声音。

指向性麦克风：可以是一种能够在特定方向进行拾音的声学器件，此特定方向为此麦克风的目标方向或者指向性方向，此方向的声音可以被不失真地拾取，其他方向的声音被一定程度的抑制。

麦克风阵列：利用多颗麦克风排列成线性，环形，球形等阵列形态同时进行声音采集。

短时傅里叶变换：short time fourier transform，STFT，是一种将信号在时域和时频域之间变换的方法。

波束形成算法：基于麦克风阵列实现的一种空间滤波算法(spatial filteralgorithm)，所谓空间滤波就是设定一个目标方向，目标方向范围内的信号会被拾取，而目标方向范围外的信号就会被抑制。由此基于波束成形算法，麦克风阵列可以实现特定方向范围的拾音，而特定方向之外的声音会被抑制。

最好信号选择算法：best signal selection algorithm，是一种从多个通道选择较好的信号输出一个通道的方法。

实施例1

音频通信设备，例如音视频会议机、智能音箱、带语音控制功能的智能家电产品等设备，往往可以通过一个全向麦克风构成的麦克风阵列进行拾音，或通过单颗指向性麦克风进行拾音，但是，拾音质量较差。

为了解决上述问题，本申请提出了一种用于进行系统拾音的语音信号处理方法，该方法可以基于多个麦克风阵列实现，其具体实现流程如下：

根据本申请实施例，提供了一种语音信号处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语音信号处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的语音信号处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音信号处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的语音信号处理方法。图2是根据本申请实施例的一种语音信号处理方法的流程图。如图2所示，该方法包括：

步骤S202，获取待处理信号集合，其中，待处理信号集合通过多个拾音设备采集得到；

可选的，拾音设备包括：由多颗指向性麦克风线性排列构成的麦克风阵列，也即，上述的拾音设备可以是由若干个指向性麦克风线性排列构成的麦克风阵列，可以是均匀线性阵列(uniform linear array)或非均匀线性阵列(non-uniform linear array)，具体类型可以根据实际需要进行确定。而且，每组麦克风阵列中包含的指向性麦克风的数量可以相同，也可以不同，具体数量可以根据实际使用需要进行确定。

指向性麦克风可以是一种能够在特定方向进行拾音的声学器件，此特定方向为此麦克风的目标方向或者指向性方向，此方向的声音可以被不失真地拾取，其他方向的声音被一定程度的抑制。上述的指向性麦克风可以是心型指向性麦克风(cardioidmicrophone)或者偶极子指向性麦克风(dipole microphone)，但不仅限于此，在实际使用中可以根据需要进行确定。

在一种可选的实施例中，每个指向性麦克风都可以采集到一个待处理信号，同一个阵列中的指向性麦克风采集到的待处理信号作为一个集合，从而可以得到多个待处理信号集合。可选的，多个拾音设备的端射方向不同，且同一个拾音设备中的指向性麦克风的指向性方向相同。

例如，如图3所示，可以由N*M个指向性麦克风组成，每M个麦克风组成一个线性阵列，不同线性阵列的端射方向不同(如图3中虚线箭头所示)，为了实现对空间中特定方向的声源进行远场拾音(far-filed sound capture)，N个线性阵列的端射方向可以朝向该特定方向，并间隔较小角度。又例如，如图4所示，同一个线性阵列中的所有麦克风的指向性方向均指向同一个方向，与该线性阵列的端射方向(end-fire)相同。

步骤S204，对待处理信号集合进行处理，得到多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；

上述步骤中的波束信号可以是利用波束成形算法对待处理信号集合进行处理得到的。同一个指向性麦克风阵列经过波束成形算法处理之后，可以在空间中的端射方向生成一个指向性波束，例如，对于如图3所示的N个指向性麦克风阵列，可以形成N个波束信号，并指向空间中不同方向。

步骤S206，基于多个波束信号，确定目标波束信号。

上述步骤中的目标波束信号可以是多个波束信号中拾音效果较好的波束信号，并作为处理过程的最终输出结果。例如，在会议场景中，为了确保所有参会人员可以清晰地听到当前讲话人员的声音，可以通过上述的多个拾音设备采集当前讲话人员的声音信号，得到待处理信号集合，进一步通过对待处理信号集合进行处理，得到多个波束信号，从而可以从多个波束信号中选择拾音效果较好的波束信号作为最终输出结果。

又例如，在直播场景中，为了提升直播效果，确保观看直播的用户可以清晰地听到主播的声音，可以通过上述的多个拾音设备采集当前讲话人员的声音信号，得到待处理信号集合，进一步通过对待处理信号集合进行处理，得到多个波束信号，从而可以从多个波束信号中选择拾音效果较好的波束信号作为最终输出结果。

通过本申请上述实施例提供的方案，在获取到待处理信号集合之后，可以对待处理信号集合进行处理，得到多个波束信号，进一步基于多个波束信号，确定其中的目标波束信号，从而达到远场拾音的目的。容易注意到的是，可以通过多个拾音设备进行信号采集，每个拾音设备的端射方向指向空间中的不同方向，与全向麦克风构成的麦克风阵列和单颗指向性麦克风相比，可以为音视频通信设备不同方向的拾音需求提供波束成形的音频质量，而且具有更好的性能和拾音效果，从而达到了提升拾音质量的技术效果，进而解决了现有技术中采用全向麦克风阵列或单颗指向性麦克风进行拾音，拾音质量较差的技术问题。

本申请上述实施例中，对待处理信号集合进行处理，得到多个波束信号包括：利用子带分解变换算法对待处理信号集合中的待处理信号进行处理，得到拾音设备对应的子带信号；利用波束形成算法对子带信号进行处理，得到拾音设备对应的波束信号。

上述步骤中的子带(subband)分解变换算法可以将待处理信号在时域和时频域之间进行变换，可以包括但不限于短时傅里叶变换和滤波器组分析(filterbank analysis)。

上述步骤中的波束成形算法可以是任何波束成形算法，包括但不限于差分阵列形成原理(Differential beamforming)，超指向性固定波束形成原理(Superdirectivebeamforming)，或者自适应波束形成原理(Adaptive beamforming)。在实际使用中，可以根据应用场景或用途选择合适的波束形成算法。

例如，仍以如图3所示的N个指向性麦克风阵列为例进行说明，对于第n个指向性麦克风阵列，可以获取到M个待处理信号构成的待处理信号集合，然后可以利用子带分解变换算法对所有待处理信号进行子带分解，得到如下子带信号：

其中，[]^T表示线性代数转置的运算，ω表示当前所对应的频域子带，t表示当前时间帧。

在获取到每个待处理集合的子带信号之后，可以利用波束形成算法对子带信号进行处理，得到相应的波束信号。

本申请上述实施例中，利用波束形成算法对子带信号进行处理，得到拾音设备对应的波束信号包括：获取拾音设备对应的权重向量；基于权重向量和子带信号，得到波束信号。

例如，仍以如图3所示的N个指向性麦克风阵列为例进行说明，对于第n个指向性麦克风阵列，波束形成算法可以在频域每个子带确定一个权重向量：

进一步可以利用如下公式得到第n个指向性麦克风阵列的波束形成的输出结果，也即，得到波束信号：

在本申请实施例中，对于N个指向性麦克风阵列，可以有N组波束形成算法，则时频域的每个子带将有N个波束信号x_n(ω，t)。

本申请上述实施例中，基于多个波束信号，确定目标波束信号包括：利用信号选择算法对多个波束信号进行处理，得到目标波束信号。

上述步骤中的信号选择算法的原理包含但不限于基于能量选择，基于阵列相位选择等，可以根据实际使用需要进行确定。

本申请上述实施例中，利用信号选择算法对多个波束信号进行处理，得到目标波束信号包括：获取波束信号对应的历史能量；基于历史能量和波束信号，得到波束信号对应的平均能量；获取多个波束信号对应的平均能量中最大能量；确定最大能量对应的波束信号为目标波束信号。

上述步骤中的历史能量可以是当前时间帧之前一个时间帧计算出的平均能量。

在一种可选的实施例中，以能量选择的原理为例进行详细说明，首先利用如下公式得到第n个波束信号的平均能量：

p_n(t)＝α*p_n(t-1)+(1-α)*∑_ω|x_n(ω，t)|²，

然后基于如下公式，选择能量最大的通道确定为当前时间帧t的目标信号通道bestCh：

bestCh＝max_np_n(t)。

在确定了目标信号通道之后，可以确定该通道bestCh所对应的波束信号x_bestCh(ω，t为目标波束信号。

本申请上述实施例中，在基于多个波束信号，确定目标波束信号之后，该方法还包括：利用子带分解反变换算法对目标波束信号进行处理，得到目标信号；输出目标信号。

上述步骤中的子带分解反变换算法可以包括但不限于短时傅里叶逆变换(inverseSTFT)和滤波器组合成(filterbank synthesis)。

在一种可选的实施例中，在得到目标波束信号x_bestCh(ω，t)之后，可以利用子带分解反变换，将x_bestCh(ω，t)变换到时域信号作为最终输出的目标信号。

下面结合图5对本申请一种优选的实施例进行详细说明，以如图3所示的N个麦克风阵列为例进行说明。如图5所示，该方法包括如下步骤：通过N个麦克风阵列进行时域信号采集，得到N*M个时域信号输出至下一模块；通过子带分解到时频域，在时频域的每个子带有N*M个复数信号输出至下一模块；对同一个麦克风阵列中的M个麦克风进行波束形成算法处理，在时频域的每个子带有N个复数信号输出至下一模块；对N个波束形成算法的输出结果进行信号选择算法，在时频域的每个子带有1个复数信号输出至下一模块；将时频域变换为时域信号，得到最终输出的一路时域信号。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

实施例2

根据本申请实施例，还提供了一种语音信号处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图6是根据本申请实施例的另一种语音信号处理方法的流程图。如图6所示，该方法包括：

步骤S602，捕获设置在音视频通信设备上的多个拾音设备输入的待处理信号集合；

上述步骤中的音视频通信设备可以是音视频会议，智能音箱，智能家电(比如带语音控制功能的电视机，电冰箱)等设备，但不仅限于此。例如，对于如图3所示的N个麦克风阵列，其安装在音视频通信设备上的方式如图7所示。

可选的，拾音设备包括：由多颗指向性麦克风线性排列构成的麦克风阵列，也即，上述的拾音设备可以是由若干个指向性麦克风线性排列构成的指向性麦克风阵列，可以是均匀线性阵列(uniform linear array)或非均匀线性阵列(non-uniform linear array)，具体类型可以根据实际需要进行确定。而且，每组麦克风阵列中包含的指向性麦克风的数量可以相同，也可以不同，具体数量可以根据实际使用需要进行确定。

可选的，多个拾音设备的端射方向不同，且同一个拾音设备中的指向性麦克风的指向性方向相同。

步骤S604，对待处理信号集合进行处理，确定多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；

上述步骤中的波束信号可以是利用波束成形算法对待处理信号集合进行处理得到的。同一个指向性麦克风阵列经过波束成形算法处理之后，可以在空间中的端射方向生成一个指向性波束。

步骤S606，基于多个波束信号，确定音视频通信设备输出的目标波束信号。

上述步骤中的目标波束信号可以是多个波束信号中拾音效果较好的波束信号，并作为处理过程的最终输出结果。

本申请上述实施例中，对待处理信号集合进行处理，确定多个波束信号包括：利用子带分解变换算法对待处理信号集合中的待处理信号进行处理，得到拾音设备对应的子带信号；利用波束形成算法对子带信号进行处理，得到拾音设备对应的波束信号。

上述步骤中的子带分解变换算法可以将待处理信号在时域和时频域之间进行变换，可以包括但不限于短时傅里叶变换和滤波器组分析。

上述步骤中的波束成形算法可以是任何波束成形算法，包括但不限于差分阵列形成原理，超指向性固定波束形成原理，或者自适应波束形成原理。在实际使用中，可以根据应用场景或用途选择合适的波束形成算法。

本申请上述实施例中，基于多个波束信号，确定音视频通信设备输出的目标波束信号包括：利用信号选择算法对多个波束信号进行处理，得到目标波束信号。

本申请上述实施例中，在基于多个波束信号，确定音视频通信设备输出的目标波束信号之后，该方法还包括：利用子带分解反变换算法对目标波束信号进行处理，得到音视频通信设备输出的目标信号。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本申请实施例，还提供了一种用于实施上述语音信号处理方法的语音信号处理装置，如图8所示，该装置800包括：获取模块802、第一处理模块804和确定模块806。

其中，获取模块802用于获取待处理信号集合，其中，待处理信号集合通过多个拾音设备采集得到；第一处理模块804用于对待处理信号集合进行处理，得到多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；确定模块806用于基于多个波束信号，确定目标波束信号。

此处需要说明的是，上述获取模块802、第一处理模块804和确定模块806对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，第一处理模块包括：第一处理单元和第二处理单元。

其中，第一处理单元用于利用子带分解变换算法对待处理信号集合中的待处理信号进行处理，得到拾音设备对应的子带信号；第二处理单元用于利用波束形成算法对子带信号进行处理，得到拾音设备对应的波束信号。

本申请上述实施例中，第二处理单元包括：获取子单元和处理子单元。

其中，获取子单元用于获取拾音设备对应的权重向量；处理子单元用于基于权重向量和子带信号，得到波束信号。

本申请上述实施例中，确定模块还用于利用信号选择算法对多个波束信号进行处理，得到目标波束信号。

本申请上述实施例中，确定模块包括：第一获取单元、第三处理单元、第二获取单元和确定单元。

其中，第一获取单元用于获取波束信号对应的历史能量；第三处理单元用于基于历史能量和波束信号，得到波束信号对应的平均能量；第二获取单元用于获取多个波束信号对应的平均能量中最大能量；确定单元用于确定最大能量对应的波束信号为目标波束信号。

本申请上述实施例中，该装置还包括：第二处理模块和输出模块。

其中，第二处理模块用于利用子带分解反变换算法对目标波束信号进行处理，得到目标信号；输出模块用于输出目标信号。

实施例4

根据本申请实施例，还提供了一种用于实施上述语音信号处理方法的语音信号处理装置，如图9所示，该装置900包括：捕获模块902、第一处理模块904和确定模块906。

其中，捕获模块902用于捕获设置在音视频通信设备上的多个拾音设备输入的待处理信号集合；第一处理模块904用于对待处理信号集合进行处理，确定多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；确定模块906用于基于多个波束信号，确定音视频通信设备输出的目标波束信号。

此处需要说明的是，上述捕获模块902、第一处理模块904和确定模块906对应于实施例2中的步骤S602至步骤S608，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，该装置还包括：第二处理模块。

其中，第二处理模块用于利用子带分解反变换算法对目标波束信号进行处理，得到音视频通信设备输出的目标信号。

实施例5

根据本申请实施例，还提供了一种语音信号处理系统。

图10是根据本申请实施例的一种语音信号处理系统的示意图。如图10所示，该系统包括：多个拾音设备102，以及与多个拾音设备102连接的处理装置104。

其中，多个拾音设备用于采集待处理信号集合；处理装置用于对待处理信号集合进行处理，得到多个波束信号，并基于多个波束信号，确定目标波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同。

可选的，拾音设备包括：由多颗指向性麦克风线性排列构成的麦克风阵列，多个拾音设备的端射方向不同，且同一个拾音设备中的指向性麦克风的指向性方向相同。

上述的处理装置可以是不具备语音播放和拾音功能，但是具备数据功能的装置，例如可以是处理器，但不仅限于此。处理装置可以通过有线或者无线方式与麦克风阵列进行连接。

本申请上述实施例中，处理装置还用于利用子带分解变换算法对待处理信号集合中的待处理信号进行处理，得到拾音设备对应的子带信号；利用波束形成算法对子带信号进行处理，得到拾音设备对应的波束信号。

本申请上述实施例中，处理装置还用于获取拾音设备对应的权重向量；基于权重向量和子带信号，得到波束信号。

本申请上述实施例中，处理装置还用于利用信号选择算法对多个波束信号进行处理，得到目标波束信号。

本申请上述实施例中，处理装置还用于获取波束信号对应的历史能量；基于历史能量和波束信号，得到波束信号对应的平均能量；获取多个波束信号对应的平均能量中最大能量；确定最大能量对应的波束信号为目标波束信号。

本申请上述实施例中，处理装置还用于在基于多个波束信号，确定目标波束信号之后，利用子带分解反变换算法对目标波束信号进行处理，得到目标信号；输出目标信号。

实施例6

根据本申请实施例，还提供了一种音视频通信设备。

图11是根据本申请实施例的一种音视频通信设备的示意图。如图11所示，该音视频通信设备包括：设置在音视频通信设备上的多个拾音设备112，与多个拾音设备112连接的处理器114，以及与处理器114连接的输出装置116。

其中，多个拾音设备112用于产生待处理信号集合；处理器114用于对待处理信号集合进行处理，确定多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；输出装置116用于基于多个波束信号，输出目标波束信号。

上述的音视频通信设备可以是具有语音播放功能的设备，例如智能音箱、智能家电、视频会议机等，但不仅限于此。处理器可以是音视频通信设备内部的处理芯片、单片机、集成电路等，但不仅限于此。处理器的主要功能是实现数据处理和器件控制，但不仅限于此。处理器的主要作用是对麦克风阵列采集到的待处理信号进行回声消除，得到最终的目标信号，该目标信号可以传输给其他设备进行处理，也可以由音视频通信设备进行播放，因此，上述的输出装置可以是用于信号传输的装置，也可以是用于播放语音的装置(例如音视频通信设备上的扬声器)，但不仅仅限于此。

本申请上述实施例中，处理器还用于利用子带分解变换算法对待处理信号集合中的待处理信号进行处理，得到拾音设备对应的子带信号；利用波束形成算法对子带信号进行处理，得到拾音设备对应的波束信号。

本申请上述实施例中，处理器还用于获取拾音设备对应的权重向量；基于权重向量和子带信号，得到波束信号。

本申请上述实施例中，处理器还用于利用信号选择算法对多个波束信号进行处理，得到目标波束信号。

本申请上述实施例中，处理器还用于获取波束信号对应的历史能量；基于历史能量和波束信号，得到波束信号对应的平均能量；获取多个波束信号对应的平均能量中最大能量；确定最大能量对应的波束信号为目标波束信号。

本申请上述实施例中，处理器还用于在基于多个波束信号，确定音视频通信设备输出的目标波束信号之后，利用子带分解反变换算法对目标波束信号进行处理，得到音视频通信设备输出的目标信号。

实施例7

根据本申请实施例，还提供了一种语音信号处理系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待处理信号集合，其中，待处理信号集合通过多个拾音设备采集得到；对待处理信号集合进行处理，得到多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定目标波束信号。

实施例8

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行语音信号处理方法中以下步骤的程序代码：获取待处理信号集合，其中，待处理信号集合通过多个拾音设备采集得到；对待处理信号集合进行处理，得到多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定目标波束信号。

可选地，图12是根据本申请实施例的一种计算机终端的结构框图。如图12所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1202、以及存储器1204。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的语音信号处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音信号处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待处理信号集合，其中，待处理信号集合通过多个拾音设备采集得到；对待处理信号集合进行处理，得到多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定目标波束信号。

可选的，上述处理器还可以执行如下步骤的程序代码：利用子带分解变换算法对待处理信号集合中的待处理信号进行处理，得到拾音设备对应的子带信号；利用波束形成算法对子带信号进行处理，得到拾音设备对应的波束信号。

可选的，上述处理器还可以执行如下步骤的程序代码：获取拾音设备对应的权重向量；基于权重向量和子带信号，得到波束信号。

可选的，上述处理器还可以执行如下步骤的程序代码：利用信号选择算法对多个波束信号进行处理，得到目标波束信号。

可选的，上述处理器还可以执行如下步骤的程序代码：获取波束信号对应的历史能量；基于历史能量和波束信号，得到波束信号对应的平均能量；获取多个波束信号对应的平均能量中最大能量；确定最大能量对应的波束信号为目标波束信号。

可选的，上述处理器还可以执行如下步骤的程序代码：利用子带分解反变换算法对目标波束信号进行处理，得到目标信号；输出目标信号。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：捕获设置在音视频通信设备上的多个拾音设备输入的待处理信号集合；对待处理信号集合进行处理，确定多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定音视频通信设备输出的目标波束信号。

采用本申请实施例，提供了一种数据处理的方案。通过多个拾音设备进行信号采集，每个拾音设备的端射方向指向空间中的不同方向，与全向麦克风构成的麦克风阵列和单颗指向性麦克风相比，具有更好的性能和拾音效果，从而达到了提升拾音质量的技术效果，进而解决了现有技术中采用全向麦克风阵列或单颗指向性麦克风进行拾音，拾音质量较差的技术问题。

本领域普通技术人员可以理解，图12所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例9

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的语音信号处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待处理信号集合，其中，待处理信号集合通过多个拾音设备采集得到；对待处理信号集合进行处理，得到多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定目标波束信号。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用子带分解变换算法对待处理信号集合中的待处理信号进行处理，得到拾音设备对应的子带信号；利用波束形成算法对子带信号进行处理，得到拾音设备对应的波束信号。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取拾音设备对应的权重向量；基于权重向量和子带信号，得到波束信号。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用信号选择算法对多个波束信号进行处理，得到目标波束信号。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取波束信号对应的历史能量；基于历史能量和波束信号，得到波束信号对应的平均能量；获取多个波束信号对应的平均能量中最大能量；确定最大能量对应的波束信号为目标波束信号。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用子带分解反变换算法对目标波束信号进行处理，得到目标信号；输出目标信号。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：捕获设置在音视频通信设备上的多个拾音设备输入的待处理信号集合；对待处理信号集合进行处理，确定多个波束信号，其中，多个波束信号所指向的方向与多个拾音设备的端射方向相同；基于多个波束信号，确定音视频通信设备输出的目标波束信号。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音信号处理方法，包括：

获取待处理信号集合，其中，所述待处理信号集合通过多个拾音设备采集得到，所述拾音设备包括：由多颗指向性麦克风线性排列构成的麦克风阵列，所述多个拾音设备的端射方向不同，且同一个拾音设备中的指向性麦克风的指向性方向相同；

对所述待处理信号集合进行处理，得到多个波束信号，其中，所述多个波束信号所指向的方向与所述多个拾音设备的端射方向相同；

基于所述多个波束信号，确定目标波束信号；

其中，基于所述多个波束信号，确定目标波束信号包括：

获取所述波束信号对应的历史能量，其中，所述历史能量为当前时间帧之前一个时间帧计算出的平均能量；

基于所述历史能量和所述波束信号，得到所述波束信号对应的平均能量；

获取所述多个波束信号对应的平均能量中最大能量；

确定所述最大能量的通道；

确定所述最大能量的通道对应的波束信号为所述目标波束信号。

2.根据权利要求1所述的方法，其中，对所述待处理信号集合进行处理，得到多个波束信号包括：

利用子带分解变换算法对所述待处理信号集合中的待处理信号进行处理，得到所述拾音设备对应的子带信号；

利用波束形成算法对所述子带信号进行处理，得到所述拾音设备对应的波束信号。

3.根据权利要求2所述的方法，其中，利用波束形成算法对所述子带信号进行处理，得到所述拾音设备对应的波束信号包括：

获取所述拾音设备对应的权重向量；

基于所述权重向量和所述子带信号，得到所述波束信号。

4.根据权利要求1所述的方法，其中，基于所述多个波束信号，确定目标波束信号包括：

利用信号选择算法对所述多个波束信号进行处理，得到所述目标波束信号。

5.根据权利要求1所述的方法，其中，在基于所述多个波束信号，确定目标波束信号之后，所述方法还包括：

利用子带分解反变换算法对目标波束信号进行处理，得到目标信号；

输出所述目标信号。

6.一种语音信号处理方法，包括：

捕获设置在音视频通信设备上的多个拾音设备输入的待处理信号集合，所述拾音设备包括：由多颗指向性麦克风线性排列构成的麦克风阵列，所述多个拾音设备的端射方向不同，且同一个拾音设备中的指向性麦克风的指向性方向相同；

对所述待处理信号集合进行处理，确定多个波束信号，其中，所述多个波束信号所指向的方向与所述多个拾音设备的端射方向相同；

基于所述多个波束信号，确定所述音视频通信设备输出的目标波束信号；

其中，基于所述多个波束信号，确定所述音视频通信设备输出的目标波束信号包括：

确定所述波束信号对应的历史能量，其中，所述历史能量为当前时间帧之前一个时间帧计算出的平均能量；

确定所述历史能量和所述波束信号，得到所述波束信号对应的平均能量；

确定所述多个波束信号对应的平均能量中最大能量；

确定所述最大能量的通道；

确定所述最大能量的通道对应的波束信号，为所述音视频通信设备输出的目标波束信号。

7.根据权利要求6所述的方法，其中，对所述待处理信号集合进行处理，确定多个波束信号包括：

8.根据权利要求6所述的方法，其中，基于所述多个波束信号，确定所述音视频通信设备输出的目标波束信号包括：

9.一种语音信号处理系统，包括：

多个拾音设备，用于采集待处理信号集合，所述拾音设备包括：由多颗指向性麦克风线性排列构成的麦克风阵列，所述多个拾音设备的端射方向不同，且同一个拾音设备中的指向性麦克风的指向性方向相同；

处理装置，与所述多个拾音设备连接，用于对所述待处理信号集合进行处理，得到多个波束信号，并基于所述多个波束信号，确定目标波束信号，其中，所述多个波束信号所指向的方向与所述多个拾音设备的端射方向相同；

其中，所述处理装置还用于：

基于所述历史能量和所述波束信号，确定所述波束信号对应的平均能量；

确定所述多个波束信号对应的平均能量中最大能量；

确定所述最大能量的通道；

10.一种音视频通信设备，包括：

设置在音视频通信设备上的多个拾音设备，用于产生待处理信号集合，所述拾音设备包括：由多颗指向性麦克风线性排列构成的麦克风阵列，所述多个拾音设备的端射方向不同，且同一个拾音设备中的指向性麦克风的指向性方向相同；

处理器，与所述多个拾音设备连接，用于对所述待处理信号集合进行处理，确定多个波束信号，其中，所述多个波束信号所指向的方向与所述多个拾音设备的端射方向相同；

输出装置，与所述处理器连接，用于基于所述多个波束信号，输出目标波束信号；

其中，所述输出装置还用于：

确定所述多个波束信号对应的平均能量中最大能量；

确定所述最大能量的通道；

确定所述最大能量的通道对应的波束信号为所述目标波束信号；

输出所述目标波束信号。

11.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的语音信号处理方法。

12.一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的语音信号处理方法。

13.一种语音信号处理系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

基于所述多个波束信号，确定目标波束信号；

其中，所述存储器还用于为所述处理器提供处理以下处理步骤的指令：

确定所述多个波束信号对应的平均能量中最大能量；

确定所述最大能量的通道；