CN113645546B

CN113645546B - 语音信号处理方法和系统及音视频通信设备

Info

Publication number: CN113645546B
Application number: CN202010393076.0A
Authority: CN
Inventors: 黄伟隆; 冯津伟; 杜秉聰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2023-02-28
Anticipated expiration: 2040-05-11
Also published as: CN113645546A

Abstract

本申请公开了一种语音信号处理方法和系统及音视频通信设备。其中，该方法包括：获取拾音设备采集到的待处理信号；基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到目标信号。本申请解决了相关技术中通过回采传输至扬声器的电信号进行回声成分消除，无法消除扬声器产生的非线性成分的技术问题。

Description

语音信号处理方法和系统及音视频通信设备

技术领域

本申请涉及语音信号处理领域，具体而言，涉及一种语音信号处理方法和系统及音视频通信设备。

背景技术

目前，回声消除方法的处理原理是在扬声器播放端对传输给扬声器播放的电信号进行电信号回采，并发送到麦克风采集端，作为回采参考信号，与麦克风采集到的信号进行线性自适应滤波，从而可以抵消麦克风采集信号中从扬声器播出来的声学回声。

但是，在实际应用场景中，由于麦克风采集到的信号往往包含扬声器在播放时引入的非线性成分，而回采参考信号中并未包含扬声器产生的非线性成分，在通过上述回声消除方法对其进行处理时，无法基于回采参考信号进行线性滤波消除，甚至会导致线性滤波收敛出现问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音信号处理方法和系统及音视频通信设备，以至少解决相关技术中通过回采传输至扬声器的电信号进行回声成分消除，无法消除扬声器产生的非线性成分的技术问题。

根据本申请实施例的一个方面，提供了一种语音信号处理方法，包括：获取拾音设备采集到的待处理信号；基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到目标信号。

根据本申请实施例的另一方面，还提供了一种语音信号处理方法，包括：捕获设置在音视频通信设备上的拾音设备输入的待处理信号；对待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到音视频通信设备输出的目标信号。

根据本申请实施例的另一方面，还提供了一种语音信号处理系统，包括：拾音设备，用于采集待处理信号；处理装置，与拾音设备连接，用于基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，并基于第一波束信号对第二波束信号进行滤波处理，得到目标信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件。

根据本申请实施例的另一方面，还提供了一种音视频通信设备，包括：设置在音视频通信设备上的拾音设备，用于产生待处理信号；处理器，与拾音设备连接，用于对待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号，并基于第一波束信号对第二波束信号进行滤波处理，得到目标信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；输出装置，与处理器连接，用于输出目标信号。

根据本申请实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的语音信号处理方法。

根据本申请实施例的另一方面，还提供了一种处理设备，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的语音信号处理方法。

根据本申请实施例的另一方面，还提供了一种语音信号处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取拾音设备采集到的待处理信号；基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到目标信号。

在本申请实施例中，在获取到拾音设备采集到的待处理信号之后，可以基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，进一步基于第一波束信号对第二波束信号进行滤波处理，得到目标信号，实现回声消除的目的。容易注意到的是，可以通过拾音设备采集待处理信号，并生成两个相互满足预设条件的方向上的波束信号，从而可以估计回声信号在传播过程中的线性部分和非线性部分，并将其作为参考信号进行自适应滤波，实现了消除非线性成分的目的，达到了提高回声消除效果的技术效果，进而解决了相关技术中通过回采传输至扬声器的电信号进行回声成分消除，无法消除扬声器产生的非线性成分的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现语音信号处理方法的计算机终端的硬件结构框图；

图2是根据本申请实施例的一种语音信号处理方法的流程图；

图3是根据本申请实施例的一种可选的音视频通信设备的示意图；

图4是根据本申请实施例的一种可选的近端声源、扬声器和麦克风阵列的位置关系示意图；

图5a是根据本申请实施例的一种可选的端射方向的波束图的示意图；

图5b是根据本申请实施例的一种可选的侧边方向的波束图的示意图；

图6是根据本申请实施例的一种可选的回声消除方法的示意图；

图7是根据本申请实施例的另一种可选的回声消除方法的示意图；

图8是根据本申请实施例的另一种语音信号处理方法的流程图；

图9是根据本申请实施例的一种语音信号处理装置的示意图；

图10是根据本申请实施例的另一种语音信号处理装置的示意图；

图11是根据本申请实施例的一种语音信号处理系统的示意图；

图12是根据本申请实施例的一种音视频通信设备的示意图；以及

图13是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

麦克风阵列：利用多颗麦克风排列成线性，环形，球形等阵列形态同时进行声音采集。

麦克风阵列算法：包括但不限于波束成形算法(beamforming algorithm)，声源定位算法(sound source localization)和多通道去混响算法(multichanneldereverberation)。

波束成形算法(beamforming algorithm)：基于麦克风阵列实现的一种空间滤波算法(spatial filter algorithm)，所谓空间滤波就是设定一个目标方向，目标方向范围内的信号会被拾取，而目标方向范围外的信号就会被抑制。由此基于波束成形算法，麦克风阵列可以实现特定方向范围的拾音，而特定方向之外的声音会被抑制。

线性麦克风阵列：多颗麦克风线性排列。

实施例1

音频通信设备，例如音视频会议机、智能音箱、带语音控制功能的智能家电产品等设备，往往包含扬声器作为放音单元，麦克风作为拾音单元，并且在实际使用过程中，不可避免的会遇到回声消除问题。

但是，传统的回声消除方法通过对电信号回采作为回采参考信号，但是，回采参考信号中并未包含扬声器产生的非线性成分，导致扬声器产生的非线性成分无法被消除。

为了解决上述问题，本申请提出了一种用于进行回声消除的语音信号处理方法，该方法可以基于线性麦克风阵列实现，其具体实现流程如下：

根据本申请实施例，提供了一种语音信号处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语音信号处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的语音信号处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音信号处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的语音信号处理方法。图2是根据本申请实施例的一种语音信号处理方法的流程图。如图2所示，该方法包括：

步骤S202，获取拾音设备采集到的待处理信号；

可选的，拾音设备包括：由多颗麦克风线性排列构成的麦克风阵列。

上述的麦克风可以是全向性麦克风，从而可以采集到周围环境中的所有声音，在实际环境中，可以根据需要设置麦克风的数量以及麦克风之间的间距，在本申请实施例中，以16颗麦克风组成的等间距线性麦克风为例，每颗麦克风的距离为2厘米，但不仅限于此。

可选的，上述步骤中的待处理信号可以包括：目标声源输出的第一信号和扬声器输出的第二信号，目标声源位于拾音设备的第二方向，扬声器位于拾音设备的第一方向。

上述的目标声源可以是位于音视频通信设备(例如智能音箱、智能家电、视频会议机等，但不仅限于此)附近的近端声源，具体可以是发出声音的用户等，例如，在会议场景中，上述的目标声源可以是主持会议的人员或者是当前发言的人员；又例如，在直播场景中，上述的目标声源可以是主播，但不仅限于此。对于音视频通信设备，最终输出的信号是近端声源发出的声音信号，而扬声器发出的声音信号属于声学回声，需要被消除。

上述的第一方向可以是指麦克风阵列的端射方向(end-fire)，第二方向可以是指麦克风阵列的侧边方向(broadside)，其中，端射方向与侧边方向垂直。可选的，以端射方向为0度方向，侧边方向为90度方向，由于麦克风阵列的线性特性，270度方向也可以作为侧边方向。

在本申请实施例中，以如图3所示的音视频通信设备为例进行说明，该音视频通信设备中可以设置数量为M的全向性麦克风排列成线性阵列1作为拾音单元，如图4所示，扬声器2在麦克风阵列1的端射方向(如图4中实线所示方向)，近端声源3在麦克风阵列的侧边方向(如图4中虚线所示方向)。麦克风阵列1的每一个麦克风均可以采集到近端声源发出的声音信号和扬声器发出的声音信号。

步骤S204，基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；

可选的，预设条件为第一方向与第二方向垂直。

在本申请实施例中，为了实现回声消除的目的，可以对麦克风阵列采集到的待处理信号进行处理，估计回声信号作为参考信号，并进行自适应滤波进行消除。在此基础上，为了能够得到更加真实的近端声源发出的声音信号和扬声器发出的声音信号，避免两个声音信号之间的相互干扰，在一种可选的实施例中，可以利用麦克风阵列进行两个方向的波束成形，一个波束成形的拾音方向可以是侧边方向，另一个波束成形的拾音方向可以是端射方向。侧边方向的波束成形可以将端射方向来的信号(扬声器发出的声音信号)作为干扰噪音进行抑制，主要针对近端声源进行拾音；端射方向的波束成形可以将侧边方向来的信号(近端声源发出的声音信号)作为干扰噪音进行抑制，而主要针对扬声器进行拾音。

可选的，波束成形算法可以包含但不限于：差分阵列形成原理(Differentialbeamforming)，超指向性固定波束形成原理(Superdirective beamforming)，或者自适应波束形成原理(Adaptive beamforming)，可以根据实际用途或者使用场景进行选择。

在本申请实施例中，以差分阵列形成原理为例进行说明。可以通过波束图对波束成形算法的特点进行描述，波束图可以描述波束成形算法在空间各个方向的响应，例如，0db表示波束成形的响应为1，信号被不失真拾取；-10db表示波束会将信号抑制10db。基于差分阵列形成原理，在本申请实施例中，以16颗麦克风组成的等间距线性麦克风，每颗麦克风的距离为2厘米，1kHz的频带为例进行说明，端射方向的波束图如图5a所示，端射方向的波束成形算法可以对端射方向(0度)的信号进行理论上不失真拾取，而对侧边方向的信号进行最大程度的抑制；侧边方向的波束图如图5b所示，侧边方向的波束成形算法可以对端射方向的信号进行最大程度抑制，而对侧边方向信号进行不失真拾取。

步骤S206，基于第一波束信号对第二波束信号进行滤波处理，得到目标信号。

在自由场和平行波理论基础上，可以得到第一波束信号与扬声器输出的第二信号相同，但是在实际环境中，由于扬声器的空间距离比近端声源更近，经过声学传播之后信号能够保存更多，即时不是平行波和自由场的理论假设，仍然可以认为第一波束信号近似于扬声器输出的第二信号。

需要说明的是，由于第一波束信号中不仅仅包含有扬声器的线性播放信号，还包含了扬声器在播放过程中的非线性成文，因此，可以将第一波束信号作为回声消除的参考信号。

同理，在自由场和平行波理论基础上，可以得到第二波束信号与近端声源输出的第一信号相同，但是在实际环境中，由于扬声器的空间距离比近端声源更近，扬声器发出的第二信号传播到麦克风阵列之后能量依旧较大，因此，第二波束信号只能将扬声器发出的第二信号进行抑制，也即，第二波束信号中包含两种信号。

基于上述分析，可以利用第一波束信号对第二波束信号进行自适应滤波处理得到最终输出的目标信号。

例如，以如图6所示的处理流程为例进行详细说明，其中，由M颗麦克风等间距线性构成的麦克风阵列，对于麦克风阵列的输入信号，可以分别进行端射方向波束成形算法处理和侧边方向波束成形算法处理，得到第一波束信号和第二波束信号，进而利用两个波束信号进行自适应滤波处理得到最终输出的目标信号。

通过本申请上述实施例提供的方案，在获取到拾音设备采集到的待处理信号之后，可以基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，进一步基于第一波束信号对第二波束信号进行滤波处理，得到目标信号，实现回声消除的目的。容易注意到的是，可以通过拾音设备采集待处理信号，并生成两个相互满足预设条件的方向上的波束信号，从而可以估计回声信号在传播过程中的线性部分和非线性部分，并将估计回声信号作为参考信号进行自适应滤波，实现了消除非线性成分的目的，达到了提高回声消除效果的技术效果，进而解决了相关技术中通过回采传输至扬声器的电信号进行回声成分消除，无法消除扬声器产生的非线性成分的技术问题。

本申请上述实施例中，基于第一波束信号对第二波束信号进行滤波处理，得到目标信号包括：利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号。

可选的，自适应滤波算法包括但不限于归一化最小均方差(normalizedleastmean square，NLMS)和迭代式最小二乘(Recursive least square)等算法，可以根据实际用途或者使用场景进行选择，在本申请实施例中以归一化最小均方差(NLMS)为例进行说明。

本申请上述实施例中，利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号包括：获取自适应滤波算法对应的自适应滤波向量，以及第一方向上的历史波束信号；基于第一波束信号和历史波束信号，构建波束信号矩阵；获取自适应滤波向量和波束信号矩阵的乘积，得到待滤波信号；获取第二波束信号与待滤波信号的差值，得到目标信号。

对于滤波抽头(tap)长度为N的NLMS自适应滤波器，上述步骤中的历史波束信号可以是当前时间帧之前N-1帧的历史波束信号。

在一种可选的实施例中，以上述的NLMS自适应滤波器为例进行说明，可以采用如下公式得到目标信号output1：

其中，z_broadside(ω，n)表示上述的第二波束信号，

表示上述的自适应滤波向量，

表示上述的待滤波信号，

表示上述的波束信号矩阵，具体的，

zendfireω，n表示上述的第一波束信号，zendfireω，n-1，…，zendfireω，n-N+1表示上述的历史波束信号。

本申请上述实施例中，基于目标信号和第一波束信号对自适应滤波向量进行更新。

在一种可选的实施例中，仍以上述的NLMS自适应滤波器为例进行说明，可以通过如下公式对自适应滤波向量

进行更新，得到下个时间帧中使用的自适应滤波向量

其中，μ表示自适应滤波步长。基于NLMS滤波器特点，在只有扬声器发声的时候，可以设置为一个固定值，例如，μ＝0.1，而在扬声器和近端声源同时发声时，例如，μ＝0。

本申请上述实施例中，在利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号之前，该方法还包括：获取回采参考信号；利用自适应滤波算法对回采参考信号和第二波束信号进行处理，得到滤波后的波束信号；利用自适应滤波算法对第一波束信号和滤波后的波束信号进行处理，得到目标信号。

上述步骤中的回采参考信号可以是传统的回采扬声器播放的电信号所得到的信号。

在一种可选的实施例中，在得到第二波束信号之后，可以首先利用传统的回采参考信号进行一次自适应滤波，得到滤波后的波束信号z_{broadside，afterAEC}(ω，n)，再基于z_{broadside，afterAEC}(ω，n)和z_endfire(ω，n)进行自适应滤波，则最终的输出信号output2如下：

其中，可以通过如下公式得到下一个时间帧中使用的自适应滤波向量

例如，以如图7所示的处理流程为例进行详细说明，该处理流程与如图6所示的处理流程的区别在于，对于侧边方向波束成形算法处理之后的结果(即上述的第二波束信号)，可以首先利用传统基于回采电信号的回声消除系统进行一次自适应滤波，在基于滤波后的输出信号和端射方向波束成形算法处理之后的结果进行自适应滤波处理得到最终输出的目标信号。

本申请上述实施例中，基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号包括：获取第一方向对应的第一权重向量，和第二方向对应的第二权重向量；对待处理信号进行傅里叶变换，得到复数信号；获取第一权重向量与复数信号的乘积，得到第一波束信号；获取第二权重向量与复数信号的乘积，得到第二波束信号。

在一种可选的实施例中，针对数量为M的麦克风输入，可以将待处理信号基于傅里叶变换变换到时频域，得到复数信号

具体公式如下：

其中，[]^T是线性代数转置的运算；ω表示当前所对应的频域子带，在本申请实施例中，以1kHz的频带为例进行说明；n表示时间帧标识。

麦克风阵列可以接收到近端声源输出的第一信号和扬声器输出的第二信号，因此，上述的待处理信号由接收到的声源信号

和回声信号

组成，则

该公式中，声源信号是第一信号经过声学传播得到的信号，回声信号是第二信号经过声学传播得到的信号，上述公式进一步可以表示为：

其中，s(ω，n)表示上述的第一信号，

表示近端声源和麦克风阵列之间的声学传播函数；u(ω，n)表示上述的第二信号，

表示扬声器和麦克风阵列之间的声学传播函数。

在本申请实例中，端射方向的波束形成算法可以在频域子带给出如下所示的第一权重向量：

侧边方向的波束形成算法可以在频域子带给出如下所示的第二权重向量：

基于差分阵列形成原理，在自由场(anechoic field)和声学平行波传输的理论假设下，对于端射方向，波束成形算法的权重向量(即上述的第一权重向量)与端射方向的传递函数以及侧边方向的传递函数的关系如下：

同理，对于侧边方向，波束成形算法的权重向量(即上述的第二权重向量)与端射方向的传递函数以及侧边方向的传递函数的关系如下：

基于上述的权重向量，端射方向的第一波束信号如下：

侧边方向的第二波束信号如下：

在此基础上，在实际环境中，

和

的关系不再成立，由于扬声器距离麦克风阵列更近，因此，可以得到如下关系：

进而，最终得到的两个波束信号可以得到如下关系：

z_endfire(ω，n)≈u(ω，n)，

z_broadside(ω，n)≈s(ω，n)+β*u(ω，n)，

最终可以利用z_broadside(ω，n)和z_endfire(ω，n)进行自适应滤波处理得到最终输出的目标信号。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种语音信号处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图8是根据本申请实施例的另一种语音信号处理方法的流程图。如图8所示，该方法包括：

步骤S802，捕获设置在音视频通信设备上的拾音设备输入的待处理信号；

上述步骤中的音视频通信设备可以是具有语音播放功能的设备，例如智能音箱、智能家电、视频会议机等，但不仅限于此。可选的，拾音设备包括：由多颗麦克风线性排列构成的麦克风阵列，麦克风可以是全向性麦克风，从而可以采集到周围环境中的所有声音，在实际环境中，可以根据需要设置麦克风的数量以及麦克风之间的间距。

上述的目标声源可以是位于音视频通信设备(例如智能音箱、智能家电、视频会议机等，但不仅限于此)附近的近端声源，具体可以是发出声音的用户等，但不仅限于此。对于音视频通信设备，最终输出的信号是近端声源发出的声音信号，而扬声器发出的声音信号属于声学回声，需要被消除。

步骤S804，对待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；

可选的，预设条件为第一方向与第二方向垂直。

步骤S806，基于第一波束信号对第二波束信号进行滤波处理，得到音视频通信设备输出的目标信号。

本申请上述实施例中，基于第一波束信号对第二波束信号进行滤波处理，得到音视频通信设备输出的目标信号包括：利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号。

本申请上述实施例中，对待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号包括：获取第一方向对应的第一权重向量，和第二方向对应的第二权重向量；对待处理信号进行傅里叶变换，得到复数信号；获取第一权重向量与复数信号的乘积，得到第一波束信号；获取第二权重向量与复数信号的乘积，得到第二波束信号。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本申请实施例，还提供了一种用于实施上述语音信号处理方法的语音信号处理装置，如图9所示，该装置900包括：获取模块902、生成模块904和第一滤波模块906。

其中，获取模块902用于获取拾音设备采集到的待处理信号；生成模块904用于基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；第一滤波模块906用于基于第一波束信号对第二波束信号进行滤波处理，得到目标信号。

此处需要说明的是，上述获取模块902、生成模块904和第一滤波模块906对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，第一滤波模块还用于利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号。

本申请上述实施例中，第一滤波模块包括：第一获取单元、构建单元、第一处理单元和第二处理单元。

其中，第一获取单元用于获取自适应滤波算法对应的自适应滤波向量，以及第一方向上的历史波束信号；构建单元用于基于第一波束信号和历史波束信号，构建波束信号矩阵；第一处理单元用于获取自适应滤波向量和波束信号矩阵的乘积，得到待滤波信号；第二处理单元用于获取第二波束信号与待滤波信号的差值，得到目标信号。

本申请上述实施例中，第一滤波模块还包括：更新单元。

其中，更新单元用于基于目标信号和第一波束信号对自适应滤波向量进行更新。

本申请上述实施例中，该装置还包括：第二滤波模块。

其中，获取模块还用于获取回采参考信号；第二滤波模块用于利用自适应滤波算法对回采参考信号和第二波束信号进行处理，得到滤波后的波束信号；第一滤波模块还用于利用自适应滤波算法对第一波束信号和滤波后的波束信号进行处理，得到目标信号。

本申请上述实施例中，生成模块包括：第二获取单元、变换单元、第三处理单元和第四处理单元。

其中，第二获取单元用于获取第一方向对应的第一权重向量，和第二方向对应的第二权重向量；变换单元用于对待处理信号进行傅里叶变换，得到复数信号；第三处理单元用于获取第一权重向量与复数信号的乘积，得到第一波束信号；第四处理单元用于获取第二权重向量与复数信号的乘积，得到第二波束信号。

实施例4

根据本申请实施例，还提供了一种用于实施上述语音信号处理方法的语音信号处理装置，如图10所示，该装置1000包括：捕获模块1002、第一处理模块1004和第二处理模块1006。

其中，捕获模块1002用于捕获设置在音视频通信设备上的拾音设备输入的待处理信号；第一处理模块1004用于对待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；第二处理模块1006用于基于第一波束信号对第二波束信号进行滤波处理，得到音视频通信设备输出的目标信号。

此处需要说明的是，上述捕获模块1002、第一处理模块1004和第二处理模块1006对应于实施例2中的步骤S802至步骤S806，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，第二处理模块还用于利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号。

本申请上述实施例中，第二处理模块包括：第一获取单元、构建单元、第一处理单元和第二处理单元。

本申请上述实施例中，第二处理模块还包括：更新单元。

本申请上述实施例中，该装置还包括：第三处理模块。

其中，获取模块还用于获取回采参考信号；第三处理模块用于利用自适应滤波算法对回采参考信号和第二波束信号进行处理，得到滤波后的波束信号；第二处理模块还用于利用自适应滤波算法对第一波束信号和滤波后的波束信号进行处理，得到目标信号。

本申请上述实施例中，第一处理模块包括：第二获取单元、变换单元、第三处理单元和第四处理单元。

实施例5

根据本申请实施例，还提供了一种语音信号处理系统。

图11是根据本申请实施例的一种语音信号处理系统的示意图。如图11所示，该系统包括：拾音设备112，以及与拾音设备112连接的处理装置114。

其中，拾音设备用于采集待处理信号；处理装置用于基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，并基于第一波束信号对第二波束信号进行滤波处理，得到目标信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件。

上述的处理装置可以是不具备语音播放和拾音功能，但是具备数据功能的装置，例如可以是处理器，但不仅限于此。处理装置可以通过有线或者无线方式与拾音设备进行连接。

本申请上述实施例中，如图11所示，该系统还包括：位于拾音设备112的第二方向的目标声源116，以及位于拾音设备112的第一方向的扬声器118。

其中，目标声源用于发出第一信号；扬声器用于发出第二信号；其中，待处理信号包括：第一信号和第二信号。

上述的目标声源可以是位于拾音设备附近的近端声源，具体可以是发出声音的用户等，但不仅限于此。对于处理装置，最终输出的信号是近端声源发出的声音信号，而扬声器发出的声音信号属于声学回声，需要被消除。

需要说明的是，为了能够控制扬声器输出第二信号，可以通过上述的处理装置直接对扬声器进行控制，也可以通过另外一个控制装置实现，本申请对此不作具体限定。

本申请上述实施例中，处理装置还用于利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号。

本申请上述实施例中，处理装置还用于获取自适应滤波算法对应的自适应滤波向量，以及第一方向上的历史波束信号；基于第一波束信号和历史波束信号，构建波束信号矩阵；获取自适应滤波向量和波束信号矩阵的乘积，得到待滤波信号；获取第二波束信号与待滤波信号的差值，得到目标信号。

本申请上述实施例中，处理装置还用于基于目标信号和第一波束信号对自适应滤波向量进行更新。

本申请上述实施例中，处理装置还用于在利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号之前，获取回采参考信号；利用自适应滤波算法对回采参考信号和第二波束信号进行处理，得到滤波后的波束信号；利用自适应滤波算法对第一波束信号和滤波后的波束信号进行处理，得到目标信号。

本申请上述实施例中，处理装置还用于获取第一方向对应的第一权重向量，和第二方向对应的第二权重向量；对待处理信号进行傅里叶变换，得到复数信号；获取第一权重向量与复数信号的乘积，得到第一波束信号；获取第二权重向量与复数信号的乘积，得到第二波束信号。

实施例6

根据本申请实施例，还提供了一种音视频通信设备。

图12是根据本申请实施例的一种音视频通信设备的示意图。如图12所示，该音视频通信设备包括：设置在音视频通信设备上的拾音设备122，与拾音设备122连接的处理器124，以及与处理器124连接的输出装置126。

其中，拾音设备122用于产生待处理信号；处理器用于对待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号，并基于第一波束信号对第二波束信号进行滤波处理，得到目标信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；输出装置用于输出目标信号。

上述的音视频通信设备可以是具有语音播放功能的设备，例如智能音箱、智能家电、视频会议机等，但不仅限于此。处理器可以是音视频通信设备内部的处理芯片、单片机、集成电路等，但不仅限于此。处理器的主要功能是实现数据处理和器件控制，但不仅限于此。处理器的主要作用是对拾音设备采集到的待处理信号进行回声消除，得到最终的目标信号，该目标信号可以传输给其他设备进行处理，也可以由音视频通信设备进行播放，因此，上述的输出装置可以是用于信号传输的装置，也可以是用于播放语音的装置(例如音视频通信设备上的扬声器)，但不仅仅限于此。

本申请上述实施例中，如图12所示，音视频通信设备还包括：设置在音视频通信设备上的扬声器128，扬声器128位于拾音设备122的第一方向。

其中，扬声器用于产生第二信号；其中，待处理信号包括：第二信号，以及目标声源输出的第一信号，目标声源位于拾音设备的第二方向。

本申请上述实施例中，处理器还用于利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号。

本申请上述实施例中，处理器还用于获取自适应滤波算法对应的自适应滤波向量，以及第一方向上的历史波束信号；基于第一波束信号和历史波束信号，构建波束信号矩阵；获取自适应滤波向量和波束信号矩阵的乘积，得到待滤波信号；获取第二波束信号与待滤波信号的差值，得到目标信号。

本申请上述实施例中，处理器还用于基于目标信号和第一波束信号对自适应滤波向量进行更新。

本申请上述实施例中，处理器还用于在利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号之前，获取回采参考信号；利用自适应滤波算法对回采参考信号和第二波束信号进行处理，得到滤波后的波束信号；利用自适应滤波算法对第一波束信号和滤波后的波束信号进行处理，得到目标信号。

本申请上述实施例中，处理器还用于获取第一方向对应的第一权重向量，和第二方向对应的第二权重向量；对待处理信号进行傅里叶变换，得到复数信号；获取第一权重向量与复数信号的乘积，得到第一波束信号；获取第二权重向量与复数信号的乘积，得到第二波束信号。

实施例7

根据本申请实施例，还提供了一种语音信号处理系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取拾音设备采集到的待处理信号；基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到目标信号。

实施例8

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行语音信号处理方法中以下步骤的程序代码：获取拾音设备采集到的待处理信号；基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到目标信号。

可选地，图13是根据本申请实施例的一种计算机终端的结构框图。如图13所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1302、以及存储器1303。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的语音信号处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音信号处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取拾音设备采集到的待处理信号；基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到目标信号。

可选的，上述处理器还可以执行如下步骤的程序代码：利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号。

可选的，上述处理器还可以执行如下步骤的程序代码：获取自适应滤波算法对应的自适应滤波向量，以及第一方向上的历史波束信号；基于第一波束信号和历史波束信号，构建波束信号矩阵；获取自适应滤波向量和波束信号矩阵的乘积，得到待滤波信号；获取第二波束信号与待滤波信号的差值，得到目标信号。

可选的，上述处理器还可以执行如下步骤的程序代码：基于目标信号和第一波束信号对自适应滤波向量进行更新。

可选的，上述处理器还可以执行如下步骤的程序代码：获取回采参考信号；利用自适应滤波算法对回采参考信号和第二波束信号进行处理，得到滤波后的波束信号；利用自适应滤波算法对第一波束信号和滤波后的波束信号进行处理，得到目标信号。

可选的，上述处理器还可以执行如下步骤的程序代码：获取第一方向对应的第一权重向量，和第二方向对应的第二权重向量；对待处理信号进行傅里叶变换，得到复数信号；获取第一权重向量与复数信号的乘积，得到第一波束信号；获取第二权重向量与复数信号的乘积，得到第二波束信号。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：捕获设置在音视频通信设备上的拾音设备输入的待处理信号；对待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到音视频通信设备输出的目标信号。

采用本申请实施例，提供了一种数据处理的方案。通过拾音设备采集待处理信号，并生成两个相互满足预设条件的方向上的波束信号，从而可以估计回声信号在传播过程中的线性部分和非线性部分，并将其作为参考信号进行自适应滤波，实现了消除非线性成分的目的，达到了提高回声消除效果的技术效果，进而解决了相关技术中通过回采传输至扬声器的电信号进行回声成分消除，无法消除扬声器产生的非线性成分的技术问题。

本领域普通技术人员可以理解，图13所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图13所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例9

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的语音信号处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取拾音设备采集到的待处理信号；基于待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到目标信号。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用自适应滤波算法对第一波束信号和第二波束信号进行处理，得到目标信号。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取自适应滤波算法对应的自适应滤波向量，以及第一方向上的历史波束信号；基于第一波束信号和历史波束信号，构建波束信号矩阵；获取自适应滤波向量和波束信号矩阵的乘积，得到待滤波信号；获取第二波束信号与待滤波信号的差值，得到目标信号。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于目标信号和第一波束信号对自适应滤波向量进行更新。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取回采参考信号；利用自适应滤波算法对回采参考信号和第二波束信号进行处理，得到滤波后的波束信号；利用自适应滤波算法对第一波束信号和滤波后的波束信号进行处理，得到目标信号。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取第一方向对应的第一权重向量，和第二方向对应的第二权重向量；对待处理信号进行傅里叶变换，得到复数信号；获取第一权重向量与复数信号的乘积，得到第一波束信号；获取第二权重向量与复数信号的乘积，得到第二波束信号。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：捕获设置在音视频通信设备上的拾音设备输入的待处理信号；对待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号，其中，第一方向为拾音设备的端射方向，第二方向与第一方向满足预设条件；基于第一波束信号对第二波束信号进行滤波处理，得到音视频通信设备输出的目标信号。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音信号处理方法，包括：

获取拾音设备采集到的待处理信号；

基于所述待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，所述第一方向为所述拾音设备的端射方向，所述第二方向与所述第一方向满足预设条件；

基于所述第一波束信号对所述第二波束信号进行滤波处理，得到目标信号，其中，所述第一波束信号包括：扬声器输出的线性播放信号以及非线性播放信号，所述第二波束信号包括：目标声源输出的第一信号，所述扬声器输出的第二信号；

其中，基于所述第一波束信号对所述第二波束信号进行滤波处理，得到目标信号包括：利用自适应滤波算法对所述第一波束信号和所述第二波束信号进行处理，得到所述目标信号。

2.根据权利要求1所述的方法，其中，所述待处理信号包括：目标声源输出的第一信号和扬声器输出的第二信号，所述目标声源位于所述拾音设备的第二方向，所述扬声器位于所述拾音设备的第一方向。

3.根据权利要求1所述的方法，其中，利用自适应滤波算法对所述第一波束信号和所述第二波束信号进行处理，得到所述目标信号包括：

获取自适应滤波算法对应的自适应滤波向量，以及所述第一方向上的历史波束信号；

基于所述第一波束信号和所述历史波束信号，构建波束信号矩阵；

获取所述自适应滤波向量和所述波束信号矩阵的乘积，得到待滤波信号；

获取所述第二波束信号与所述待滤波信号的差值，得到所述目标信号。

4.根据权利要求3所述的方法，其中，基于所述目标信号和所述第一波束信号对所述自适应滤波向量进行更新。

5.根据权利要求1所述的方法，其中，在利用自适应滤波算法对所述第一波束信号和所述第二波束信号进行处理，得到所述目标信号之前，所述方法还包括：

获取回采参考信号；

利用自适应滤波算法对所述回采参考信号和所述第二波束信号进行处理，得到滤波后的波束信号；

利用自适应滤波算法对所述第一波束信号和所述滤波后的波束信号进行处理，得到所述目标信号。

6.根据权利要求2所述的方法，其中，基于所述待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号包括：

获取所述第一方向对应的第一权重向量，和所述第二方向对应的第二权重向量；

对所述待处理信号进行傅里叶变换，得到复数信号；

获取所述第一权重向量与所述复数信号的乘积，得到所述第一波束信号；

获取所述第二权重向量与所述复数信号的乘积，得到所述第二波束信号。

7.根据权利要求1至6中任意一项所述的方法，其中，所述拾音设备包括：由多颗麦克风线性排列构成的麦克风阵列，所述预设条件为所述第一方向与所述第二方向垂直。

8.一种语音信号处理方法，包括：

捕获设置在音视频通信设备上的拾音设备输入的待处理信号；

对所述待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号，其中，所述第一方向为所述拾音设备的端射方向，所述第二方向与所述第一方向满足预设条件；

基于所述第一波束信号对所述第二波束信号进行滤波处理，得到所述音视频通信设备输出的目标信号，其中，所述第一波束信号包括：扬声器输出的线性播放信号以及非线性播放信号，所述第二波束信号包括：目标声源输出的第一信号，所述扬声器输出的第二信号；

9.根据权利要求8所述的方法，其中，所述待处理信号包括：位于所述音视频通信设备的预设范围内的目标声源输出的第一信号，以及设置在所述音视频通信设备上的扬声器输出的第二信号，所述目标声源位于所述拾音设备的第二方向，所述扬声器位于所述拾音设备的第一方向。

10.根据权利要求9所述的方法，其中，对所述待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号包括：

对所述待处理信号进行傅里叶变换，得到复数信号；

11.一种语音信号处理系统，包括：

拾音设备，用于采集待处理信号；

处理装置，与所述拾音设备连接，用于基于所述待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，并基于所述第一波束信号对所述第二波束信号进行滤波处理，得到目标信号，其中，所述第一方向为所述拾音设备的端射方向，所述第二方向与所述第一方向满足预设条件，所述第一波束信号包括：扬声器输出的线性播放信号以及非线性播放信号，所述第二波束信号包括：目标声源输出的第一信号，所述扬声器输出的第二信号；

其中，所述处理装置还用于利用自适应滤波算法对所述第一波束信号和所述第二波束信号进行处理，得到所述目标信号。

12.根据权利要求11所述的系统，其中，所述系统还包括：

目标声源，位于所述拾音设备的第二方向，用于发出第一信号；

扬声器，位于所述拾音设备的第一方向，用于发出第二信号；

其中，所述待处理信号包括：所述第一信号和所述第二信号。

13.一种音视频通信设备，包括：

设置在音视频通信设备上的拾音设备，用于产生待处理信号；

处理器，与所述拾音设备连接，用于对所述待处理信号进行处理，得到第一方向的第一波束信号和第二方向的第二波束信号，并基于所述第一波束信号对所述第二波束信号进行滤波处理，得到目标信号，其中，所述第一方向为所述拾音设备的端射方向，所述第二方向与所述第一方向满足预设条件，所述第一波束信号包括：扬声器输出的线性播放信号以及非线性播放信号，所述第二波束信号包括：目标声源输出的第一信号，所述扬声器输出的第二信号；

输出装置，与所述处理器连接，用于输出所述目标信号；

其中，所述处理器还用于利用自适应滤波算法对所述第一波束信号和所述第二波束信号进行处理，得到所述目标信号。

14.根据权利要求13所述的音视频通信设备，其中，还包括：

设置在所述音视频通信设备上的扬声器，位于所述拾音设备的第一方向，用于产生第二信号；

其中，所述待处理信号包括：所述第二信号，以及目标声源输出的第一信号，所述目标声源位于所述拾音设备的第二方向。

15.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至10中任意一项所述的语音信号处理方法。

16.一种处理设备，包括：存储器和处理器，所述处理器用于运行所述存储器中存储的程序，其中，所述程序运行时执行权利要求1至10中任意一项所述的语音信号处理方法。

17.一种语音信号处理系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取拾音设备采集到的待处理信号；基于所述待处理信号，生成第一方向的第一波束信号和第二方向的第二波束信号，其中，所述第一方向为所述拾音设备的端射方向，所述第二方向与所述第一方向满足预设条件；基于所述第一波束信号对所述第二波束信号进行滤波处理，得到目标信号，其中，所述第一波束信号包括：扬声器输出的线性播放信号以及非线性播放信号，所述第二波束信号包括：目标声源输出的第一信号，所述扬声器输出的第二信号；其中，基于所述第一波束信号对所述第二波束信号进行滤波处理，得到目标信号包括：利用自适应滤波算法对所述第一波束信号和所述第二波束信号进行处理，得到所述目标信号。