CN108206023A

CN108206023A - 声音处理设备和声音处理方法

Info

Publication number: CN108206023A
Application number: CN201810315516.3A
Authority: CN
Inventors: 程光伟
Original assignee: Nanjing Horizon Robotics Technology Co Ltd
Current assignee: Nanjing Horizon Robotics Technology Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-06-26
Also published as: EP3554095A1; US20190355340A1; KR20190118528A; US10482870B1; JP2019186940A

Abstract

公开了一种声音处理设备和声音处理方法。该声音处理设备包括：至少一对声音转换装置，每对声音转换装置包括：第一和第二声音转换装置，分别用于接收声源信号，并根据所述声源信号输出第一和第二声音信号，第二声音信号与第一声音信号具有相反的相位，且第二声音信号与第一声音信号之间的幅度差小于或等于幅度阈值；以及，声音采集装置，用于采集声音信号，从第一声音转换装置到所述声音采集装置的第一声音路径的幅频特性与从第二声音转换装置到所述声音采集装置的第二声音路径的幅频特性之间的路径特性差小于或等于第一特性阈值。这样，可以实现良好的物理降噪效果。

Description

声音处理设备和声音处理方法

技术领域

本申请涉及音频技术领域，且更具体地，涉及一种声音处理设备和声音处理方法。

背景技术

随着技术的发展，深度学习在语音上的应用使得语音识别、声纹识别等取得了更好的效果。人机对话作为一种更加自然的交互方式，也被提出了更高的要求，尤其是打断唤醒的场景，其要求机器在发声的时候也能“听懂”用户发出的指令。然而，上述语音识别、声纹识别技术虽然在识别效果方面获得了很大的进步，但是，它们对信号的信噪比还是有严格的要求，需要最大程度地消除机器自身放出的声音以提高信噪比。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种声音处理设备和声音处理方法，其可以实现良好的物理降噪效果。

根据本申请的一个方面，提供了一种声音处理设备，包括：至少一对声音转换装置，每对声音转换装置包括：第一声音转换装置，用于接收声源信号，并根据所述声源信号输出第一声音信号；以及第二声音转换装置，用于接收所述声源信号，并根据所述声源信号输出第二声音信号，所述第二声音信号与所述第一声音信号具有相反的相位，且所述第二声音信号与所述第一声音信号之间的幅度差小于或等于幅度阈值；以及，声音采集装置，用于采集声音信号，从所述第一声音转换装置到所述声音采集装置的第一声音路径的幅频特性与从所述第二声音转换装置到所述声音采集装置的第二声音路径的幅频特性之间的路径特性差小于或等于第一特性阈值。

根据本申请的另一方面，提供了一种声音处理设备，包括：至少一组声音转换装置，每组声音转换装置包括：第一声音转换装置，用于接收立体声源信号中的左声道信号，并根据所述左声道信号输出第一声音信号；第二声音转换装置，用于接收所述立体声源信号中的右声道信号，并根据所述右声道信号输出第二声音信号；第三声音转换装置，用于接收所述左声道信号，并根据所述左声道信号输出第三声音信号；以及第四声音转换装置，用于接收所述右声道信号，并根据所述右声道信号输出第四声音信号，所述第三声音信号与所述第一声音信号具有相反的相位且所述第三声音信号与所述第一声音信号之间的幅度差小于或等于第一幅度阈值，并且所述第四声音信号与所述第二声音信号具有相反的相位且所述第四声音信号与所述第二声音信号之间的幅度差小于或等于第二幅度阈值；以及声音采集装置，用于采集声音信号，从所述第一声音转换装置到所述声音采集装置的第一声音路径的幅频特性与从所述第三声音转换装置到所述声音采集装置的第三声音路径的幅频特性之间的第一路径特性差小于或等于第一特性阈值，并且从所述第二声音转换装置到所述声音采集装置的第二声音路径的幅频特性与从所述第四声音转换装置到所述声音采集装置的第四声音路径的幅频特性之间的第二路径特性差小于或等于第二特性阈值。

根据本申请的另一方面，提供了一种声音处理方法，包括：通过声音处理设备接收声源信号，所述声音处理设备包括至少一对声音转换装置和声音采集装置，每对声音转换装置包括第一声音转换装置和第二声音转换装置；通过所述第一声音转换装置根据所述声源信号输出第一声音信号；以及，通过所述第二声音转换装置根据所述声源信号输出第二声音信号，所述第二声音信号与所述第一声音信号具有相反的相位，且所述第二声音信号与所述第一声音信号之间的幅度差小于或等于幅度阈值。

与现有技术相比，采用根据本申请实施例的声音处理设备和声音处理方法，通过至少一对声音转换装置所输出的声音信号的同幅度反相位对称特性，可以使得声音采集装置采集到的原始声音信号比在单个声音转换装置输出时进行采集的情况，获得更高的信噪比，从而实现良好的物理降噪效果。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的声音处理设备的框图。

图2图示了本申请实施例的声音转换装置对的具体结构示例。

图3图示了本申请实施例的声音处理设备的具体结构示例。

图4图示了根据本申请实施例的声音处理设备的具体应用示例。

图5图示了根据本申请另一实施例的声音处理设备的框图。

图6图示了根据本申请实施例的声音处理方法的流程图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，在人机交互和通信等场景下，需要进行回声消除。当前，主要是通过软件算法(例如，自适应滤波算法)来实现回声消除。

但是，依靠软件算法实现回声消除具有以下缺点：

1.完全通过自适应滤波算法来实现回声消除，降噪效果直接和滤波器收敛结果相关，依赖性太强；

2.信噪比在低于0dB以下时，双端讲话(Double-Talk，DT)就很难判断或者容易判断出错，DT判断出错容易导致自适应滤波器不收敛反而发散。这里，双端讲话指的是人和机器上的扬声器同时发声，更广义的来说是扬声器在放音的时候，本地也有来自声源的声音，该声源包括但不局限于人声；

3.在传递函数发生突变(例如，调整音量)时，降噪效果显著变差；

4.当使用场景的背景环境噪声能量相对较高时，算法的滤波器将长时间无法收敛甚至发散，并且此时的滤波效果变差；

5.通用的扬声器低频辐射信号弱，而实际环境低频噪声能量强，导致低频区回声消除效果差。

针对该技术问题，本申请的基本构思是提出一种声音处理设备和声音处理方法，其可以通过至少一对声音转换装置所输出的声音信号的同幅度反相位对称特性，获得比在单个声音转换装置输出时进行采集的情况下更高的信噪比，从而实现良好的物理降噪效果。

需要说明的是，本申请的上述基本构思不但可以应用于人机交互和通信等场景下进行回声消除，还可以应用于其他需要进行回声消除的应用场景。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性设备

图1图示了根据本申请实施例的声音处理设备的框图。

如图1所示，根据本申请实施例的声音处理设备100包括：至少一对声音转换装置110，每对声音转换装置包括：第一声音转换装置111，用于接收声源信号，并根据所述声源信号输出第一声音信号；以及第二声音转换装置112，用于接收所述声源信号，并根据所述声源信号输出第二声音信号。

在一个示例中，所述第二声音信号与所述第一声音信号具有相反的相位，且所述第二声音信号与所述第一声音信号之间的幅度差小于或等于幅度阈值，优选为零。。

也就是说，第一声音转换装置111和第二声音转换装置112分别输出的第一声音信号和第二声源信号具有相同的幅度和相反的相位，即具有同幅度反相位的对称特性。

根据本申请实施例的声音处理设备100还包括：声音采集装置120，用于采集声音信号。例如，该声音采集装置120可以是麦克风MIC，其是一种把声信号转变为电信号的换能器件。

在一个示例中，从所述第一声音转换装置111到所述声音采集装置120的第一声音路径的幅频特性与从所述第二声音转换装置112到所述声音采集装置120的第二声音路径的幅频特性之间的路径特性差可以小于或等于第一特性阈值，优选为零。

因此，在根据本申请的实施例的声音处理设备中，利用了一对声音转换装置111和112，使得两个声音转换装置111和112输出的第一声音信号和第二声音信号之间具有相反的相位和相等(近似相等)的幅度。此外，又由于从所述第一声音转换装置111到所述声音采集装置120的第一声音路径和从所述第二声音转换装置112到所述声音采集装置120的第二声音路径之间具有相等(近似相等)的幅频特性，所以在由声音采集装置120进行采集时，所采集到的与所述第一声音信号对应的第一分量和与所述第二声音信号对应的第二分量基本上相位相反且幅度相等，表现为同一时刻采集到的第一声音信号对应的第一分量的采样点值和所述第二声音信号对应的第二分量的采样点值和为0，从而实现了在采集的最终信号中，两者的物理叠加互消。

图2图示了本申请实施例的声音转换装置对的具体结构示例。

如图2所示，为了实现声音转换功能，该一对声音转换装置110，即所述第一声音转换装置111和第二声音转换装置112中的每个可以包括：声音输出单元SPK，用于将所述声源信号转换为声音信号。例如，所述声音输出单元可以是扬声器，其是一种把电信号转变为声信号的换能器件。扬声器的种类很多，按其换能原理可分为电动式(即动圈式)、静电式(即电容式)、电磁式(即舌簧式)、压电式(即晶体式)等几种。

为了使得所述第一声音转换装置111所输出的所述第一声音信号和所述第二声音转换装置112所输出的所述第二声音信号具有相反的相位特性，所述第一声音转换装置111和所述第二声音转换装置112中的一个可以进一步包括反相器INV，所述反相器用于对所述声源信号进行反相，并将反相的声源信号提供到所述第一声音转换装置111中的第一声音输出单元SPK1或者第二声音转换装置112中的第二声音输出单元SPK2。也就是说，所述反相器INV用于接收所述声源信号，并且与所述第一声音转换单元SPK1或者所述第二声音转换单元SPK2连接，以提供反相的声源信号。

例如，所述第一声音转换装置111包括：第一声音输出单元SPK1，用于将所述声源信号转换为所述第一声音信号。所述第二声音转换装置112包括：反相器INV，用于对所述声源信号进行反相；以及第二声音输出单元SPK2，用于将反相的声源信号转换为所述第二声音信号。

为了使得所述第一声音转换装置111所输出的所述第一声音信号和所述第二声音转换装置112所输出的所述第二声音信号具有相等(近似相等)的幅频特性，所述第一声音输出单元SPK1的幅频特性与所述第二声音输出单元SPK2的幅频特性之间的单元特性差小于或等于第二特性阈值，优选为零。

也就是说，对于第一声音输出单元SPK1和第二声音输出单元SPK2，确保两者的幅频特性有良好的一致性。这里，幅频特性指的是给定频率下的幅度的稳态输出与输入的关系。这个关系具体是指输出、输入幅值之比与输入频率的函数关系。

这样，借助于上述结构，原始的声源信号为一个单声道信号，分两路输送给两个声音输出单元SPK，例如，一路送给第一声音输出单元SPK1之前先通过反相器INV，另一路直接送给第二声音输出单元SPK2而不经过反相器INV。反相器通过将每个样点置反，即乘以-1，从而实现相位反相的功能。

此外，一方面，所述第一声音输出单元SPK1的幅频特性与所述第二声音输出单元SPK2的幅频特性之间或多或少可能存在一定的单元特性差，这可能导致所述第一声音输出单元和所述第二声音输出单元输出的第一声音信号和第二声音信号之间可能存在一定特性差(幅度差)。另一方面，从所述第一声音转换装置111到所述声音采集装置120的第一声音路径PATH1的幅频特性与从所述第二声音转换装置112到所述声音采集装置120的第二声音路径PATH2的幅频特性之间或多或少可能存在一定的路径特性差，这可能导致该第一声音信号和该第二声音信号传递到声音采集装置120并被其采集所得到的两个信号分量之间可能存在一定特性差(幅度差)。

为了消除由于上述单元特性差和/或路径特性差导致的、所述声音采集装置120所采集到的与所述第一声音信号对应的第一分量和与所述第二声音信号对应的第二分量之间的幅度差，所述第一声音转换装置111和所述第二声音转换装置112中的一个或两者可以进一步包括校正器COR，用于对所述路径特性差和所述单元特性差中的至少一个进行补偿，以消除由于声音输出单元SPK和声音路径PATH所带来的信号分量特性差(幅度差)。

也就是说，所述校正器COR用于在将所述声源信号和反相的声源信号中的一个提供到所述第一声音输出单元SPK1和所述第二声音输出单元SPK2中的一个、并将所述声源信号和反相的声源信号中的另一个提供到所述第一声音输出单元SPK1和所述第二声音输出单元SPK2中的另一个之前，根据所述特性差来对所述声源信号和所述反相的声源信号中的至少一个进行补偿。这里，本领域技术人员可以理解，校正器COR也可以连接到第一声音输出单元和第二声音输出单元中的任何一个或两个。

因此，校正器COR可以用于补偿所述第二声音信号与所述第一声音信号之间的幅度差，以使得声音采集单元120接收到的所述第一声音信号和所述第二声音信号的幅度相等。

例如，所述第一声音转换装置111可以进一步包括：校正器COR，用于在所述声源信号到达所述第一声音输出单元SPK1之前，根据所述路径特性差和所述单元特性差中的至少一个来对所述声源信号进行补偿。

附加地或替换地，所述第二声音转换装置112可以进一步包括：校正器COR，用于在所述声源信号到达所述反相器INV之前或在所述反相的声源信号到达所述第二声音输出单元SPK2之前，根据所述路径特性差和/或所述单元特性差(优选地，两者)来对所述声源信号或所述反相的声源信号进行补偿。

这样，校正器COR可以对两个声音输出单元SPK1与SPK2之间的功放差异和/或两个声音路径PATH1与PATH2之间的衰减差异做补偿。

具体地，尽管我们希望，在理想情况下，第一声音输出单元SPK1和第二声音输出单元SPK2具有完全相同的幅频特性，但是，实际上，筛选出的两个声音输出单元一般都会存在播放功放的差异。例如，针对两个声音输出单元固有存在的差异，可以预先测出两个声音输出单元能换所对应的传递函数w₁和w₂。在校正器COR连接到第二声音输出单元SPK2的情况下，通过校正器COR将送给第二声音输出单元SPK2的信号卷积上w₁/w₂。在校正器COR连接到第一声音输出单元SPK1的情况下，通过校正器COR将送给第一声音输出单元SPK1的信号卷积上w₂/w₁。这样，可以保证两个声音输出信号能换后的输出信号尽可能一致。

在本申请的实施例中，为了使得从所述第一声音转换装置111到所述声音采集装置120的(即，从第一声音输出单元SPK1的输出到声音采集装置120的输入的)第一声音路径PATH1的幅频特性与从所述第二声音转换装置112到所述声音采集装置120的(即，从第二声音输出单元SPK2的输出到声音采集装置120的输入的)第二声音路径PATH2的幅频特性之间的特性差小于或等于第一特性阈值，或者优选地使得所述两个声音路径的幅频特性尽可能地相同，设置所述第一声音路径PATH1与所述第二声音路径PATH2之间的距离差小于或等于距离阈值，即可以设置所述第一声音路径PATH1的长度等于所述第二声音路径PATH1的长度。

在一个示例中，所述第一声音输出单元SPK1和所述第二声音输出单元SPK2可以相对于所述声音采集装置120面对称设置。

为此，根据本申请实施例的声音处理设备100可以进一步包括：壳体SHEL，具有第一位置和相对于所述第一位置对称的第二位置和第三位置，所述声音采集装置120布置在所述第一位置上，所述第一声音输出单元SPK1和所述第二声音输出单元SPK2分别布置在所述第二位置和所述第三位置处，且它们相对于所述声音采集装置120具有相同的距离和朝向角。

两个声音输出单元SPK在壳体(模具)SHEL上的摆放位置可以是对称的，壳体SHEL具有一个或多个对称面的，同时声音输出单元SPK和壳体SHEL组成的复合结构也是对称的。

壳体对称是确保从两个声音输出单元SPK发出的声音在到达两个声音输出单元SPK的空间对称面(即，两个声音输出单元SPK的输出点连线的垂直平分面)上的任意一个位置时，声音传播的路径是对称的，传播的距离是相等的，从而保证这两个声音信号经过相等的传播损耗。

此外，为了进一步保证传播路径具有相同的幅频特性，可以使得相对于所述声音采集装置120，所述壳体SHEL的材质为对称一致的。对称一致包括对称位置上的材质密度、厚度等尽可能一致，以确保对称位置的声学响应尽可能一致。更为简单地，可以使得整个壳体的材质是均匀的。

声音采集装置120要求摆放在壳体和声音输出单元复合结构的对称面上；摆在对称面上以确保两个声音输出单元SPK播放的信号到达声音采集装置120位置的信号能量衰减和相位偏移是一致的。仅当两个声音输出单元SPK到达声音采集装置120的距离差相等，才能保证声音采集装置120接受到两个声音输出单元SPK信号各个频带的相位差是恒定的，达到各个频带同时相消的效果。

下面，将参考图3来说明根据本申请实施例的声音处理设备的具体结构示例。

图3图示了本申请实施例的声音处理设备的具体结构示例。

如图3所示，根据本申请实施例的声音处理设备200包括：圆筒形的壳体210、第一扬声器220、第二扬声器230、和麦克风240。其中，第一扬声器220和第二扬声器230用作第一声音输出单元和第二声音输出单元，且麦克风240用作声音采集装置。

对于第一扬声器220和第二扬声器230，确保两个扬声器的频响特性(例如，幅频特性和相频特性)有良好的一致性。两个扬声器在壳体(模具)上的摆放位置也是对称的。壳体也具有一个或多个对称面，并且扬声器和壳体组成的复合结构也相对于麦克风240是对称的。

如图3所示，设计了一个对称的圆柱体模具；将两个扬声器按对称的方式摆放到模具上，将麦克风摆放在两个扬声器的垂直平分面上。

也就是说，所述壳体210为圆柱体，所述麦克风240设置在所述圆柱体的底面上的中心位置处，第一扬声器220和第二扬声器230设置在所述圆柱体的圆周面上相对于轴线的对称位置处。

利用这样的结构，可以将要播放的音频信号转换成双声道，两个声道的信号是反相位的。由于对称的关系，两个扬声器播放的信号到达麦克风的延时和能量衰减是一致的，同时，由于两个扬声器播放的是相位差180度的、反相位的，最终在该中间点叠加的两个信号互相抵消，此处扬声器叠加的幅值接近于0，即麦克风采集到的扬声器信号达到最小。

当然，本领域技术人员可以理解，虽然在图3中将壳体210示为圆柱体，且将第一扬声器220和第二扬声器230位于壳体的沿中心轴对称的侧面上，但是壳体210也可以为其它形状，且第一扬声器220和第二扬声器230也可以位于壳体的其它位置，只要所述壳体相对于所述声音采集装置具有一个或多个对称面，所述第一声音输出单元220和所述第二声音输出单元230设置在所述对称面上，且其相对于所述声音采集装置240具有相同的距离和朝向角即可。

例如，所述壳体也可以为长方体，所述第一声音输出单元220和所述第二声音输出单元230可以设置在所述长方体的相对两个侧面的对称位置(例如，两个相对侧面上相对于体中心线的对称位置)处，所述声音采集装置240可以设置在所述长方体的一个底面的中心位置处。

此外，所述壳体也可以为正六棱柱，所述第一声音输出单元220和所述第二声音输出单元230可以设置在所述壳体的相对两个侧面的对称位置处，所述声音采集装置可以设置在所述壳体的一个底面的中心位置处；替换地，所述第一声音输出单元220和所述第二声音输出单元230也可以设置在所述壳体的相邻两个侧面相对于其公共边的对称位置处，所述声音采集装置设置在所述壳体的一个底面上该公共边与中心位置连线(及其延长线)上的任意位置处。

另外，在根据本申请实施例的声音处理设备中，还可以包括更多的声音转换装置对，只要它们满足所输出的声音信号相对于声音采集装置的同幅度反相位对称特性即可。

例如，继续以圆柱壳体为例，在所述声音处理设备包括两对声音转换装置的情况下，即在所述声音处理设备包括四个声音输出单元的情况下，这四个声音输出单元可以设置在壳体的圆周面上、与底面平行的圆环上的0度、90度、180度、和270度的四个位置处，该声音采集装置仍然可以设置在壳体的底面上的中心位置处。

替换地，在壳体为正四面体的情况下，这四个声音输出单元可以分别设置在正四面体的四个顶点位置处，而声音采集装置可以设置在体中心位置处。这里，声音采集装置所在的位置为唯一一个到四个声音输出单元距离相等的位置。因此，这四个声音输出单元可以分为两组，一组播放同一个信号，另外一组播放相位相反的信号。这种设置可以在保证声音采集装置采集到的信号信噪比尽可能低的同时，提升其它位置播放的信号能量。

也就是说，在根据本申请实施例的声音处理设备中，所述壳体为正四面体，所述至少一对声音转换装置包括两对声音转换装置，两个第一声音输出单元和两个第二声音输出单元分别设置在所述壳体的四个顶点位置处，所述声音采集装置设置在所述正四面体的中心位置处。

因此，各个声音输出单元SPK可以相对于所述声音采集装置120以面对称方式之外的其他方式设置，只要保证各个声音路径的幅频特性相等或近似相等即可。

进一步地，在上述四个(或四的倍数个)声音输出单元的情况下，除了将这四个声音输出单元可以分为两组，一组播放同一个单声道信号，而另外一组播放反相的该单声道信号之外，还可以将这四个声音输出单元可以分为两组，一组播放一个立体声信道(即，该组中的一个扬声器播放立体声中的左声道信号，另一个扬声器播放立体声中的右声道信号)，而另外一组播放反相的该立体声信号(即，该组中的一个扬声器播放反相的左声道信号，另一个扬声器播放反相的右声道信号)。这样，不是在单声道信号、而是在立体声信号的情况下，实现了回声的物理叠加互消，从而实现了自动回声消除(AEC)的立体声场景。由于传统上，立体声的回声消除比单个声源运算量更大，同时对两个声道信号还有特殊要求——即相关性不能太高，这里的应用可以减弱两个声道的相关性，对立体声回声消除更有帮助。

另外，考虑到声音的传播特性，除了从所述声音输出单元到所述声音采集装置的声音信号的直达路径之外，可能还存在通过以其他方式在环境中传递的声音信号，例如，通过房间环境传递回来的反射声音信号。由于反射声音信号的路径远大于直达声音信号的距离，声音采集装置采集到的声音信号也以直达声音信号的能量为主能量，较弱的反射声音信号可以忽略不计，或进一步通过回声消除的方式消除。

为了更好地去除回声信号，在根据本申请实施例的声音处理设备中，可以进一步包括：采样器，用于采样所述声源信号以得到参考信号；以及，回声消除器，用于基于所述参考信号对所述声音采集装置采集的声音信号进行降噪处理。

这里，所述回声消除器可以通过自适应滤波算法和双端讲话(DT)控制机制中的至少一个，基于所述参考信号从所述声音采集装置采集的声音信号中消除所述声源信号的残余分量。

具体地，在采用自适应滤波算法的情况下，可以依据以下公式对所述自适应滤波器系数进行更新：

W(n+1)＝W(n)+μe(n)X(n)/E{|X(n)|^2}

其中，W(n)是上一迭代输出的自适应滤波器系数，W(n+1)是更新后的自适应滤波器系数，W(0)为0矢量；μ是常数，e(n)是残差信号，X(n)是初始噪声源信号(即，所述参考信号)。其中，W、X都是矢量，E代表求均值。

另外，残差信号e(n)由以下公式表示：

e(n)＝d(n)-X^T(n)W(n)

其中，d(n)是所述初始信号源信号(即，所述声音采集装置采集的声音信号)。

如图4所示，待播放的声源信号为S，S被提供为两路，成为双声道音频文件，即左声道SL和右声道SR，且左声道SL通过反相器303之后获得，右声道SR通过校正器304之后获得，SL＝-SR(或SL≈-SR)。SL信号通过扬声器301、SR信号通过扬声器302同时播放，在关于扬声器301和扬声器302的垂直平分面上，摆放录音的麦克风305。麦克风采集到两个扬声器的信号以及近端本地的语音和/或背景噪声信号的叠加信号D，该叠加信号D已经经过了物理回声消除。然后，将叠加信号D和采样器306采集到的参考信号REF同时送给回声消除器307，以做进一步的回声消除。

这里，声源信号S是通过机器扬声器要播放的声音声音，反相器303用于对声源信号S相位延时180°，校正器304包含一组滤波器系数，用于校正扬声器301和302之间的差异，以使两个扬声器输出的声音尽可能一致。

扬声器301和扬声器302是声音信号的放音硬件单元。回声路径1是扬声器301到麦克风305的回声路径；回声路径2是扬声器302到麦克风305的回声路径。麦克风305是声音信号的采集单元。

采样器306用于采集播放的音频信号。

回声消除器307是通过软件算法和双端讲话控制机制实现的整个回声消除系统，输入为参考信号REF和麦克风采集到的叠加信号D，利用自适应滤波算法降噪。这里，双端讲话控制机制根据当前麦克风接收的信号能量和采样器采集的参考信号能量的比值，超过某个阈值则认为是双端讲话，也就是说，如果麦克风收声超过扬声器发声，就认为是双端讲话了。

也就是说，首先将要播放的声源信号分成两路，一路通过反向器后直接送给扬声器1播放，另外一路信号通过校正器减小两个扬声器和传输路径上的频响差异后送给扬声器2播放。特定位置的麦克风采集到两个扬声器的信号以及本地信号的叠加信号，该信号已经过物理回声消除；同时，采样器采集到播放的音频信号，将两组信号送给回声消除器，回声消除器通过内部的软件算法和DT控制机制实现进一步回声消除，最终输出残差信号作为期望的信号，期望信号可用于通信、语音识别、声纹识别等。

更加具体地，假设两个扬声器分别输出的声音信号为s₁和s₂，s₁＝w₁*SL＝-w₁*S，s2＝w₀*w₂*SR＝w₀*w₂*S；其中S为声源信号，-1为反相器，w₁为扬声器301的能换函数；w₂为扬声器302的能换函数；w₀为校正器的能换函数，w₀修正w₂和w₁的差异(假设回声路径1和2的能换函数完全相等)。

两个扬声器301和302到达麦克风305的直达路径和通过模具反射到达麦克风305的反射路径对应回声路径1(能换函数为h1)和回声路径2(能换函数为h2)，由对称性可知，h1等于(或近似等于)h2。

因此，通过这两个路径传递到麦克风的信号和为x＝h₁*s₁+h₂*s₂＝(w₀*w₂*h₂-w₁*h₁)*s。并且，w₀校正w₁和w₂之间的差异。这里，由于这两个回声路径足够接近，所以sum(abs((h1-h2)./h1))趋近于零，且sum(abs((h1-h2)./h2))趋近于零，即x趋近于零，从而远小于w₁*h₁*s或w₀*w₂*h₂*s。这里，符号“./”表示点除，即在矢量的各个方向上相除。

除了上除两个路径，还有通过房间环境传递回来的声学信号。由于反射声的路径远大于直达声的距离，麦克风接收直达声的能量为主能量。

例如，在房间环境下，假设上述两个路径之间的距离为0.1m，且房间的反射面距离声音采集装置1m，则直达声音信号的能量比反射声音信号的能量高20*log10(2*1/0.1)＝26dB。

可见，反射声音信号的能量相对于直达声音信号的能量要弱得多。较弱的反射声音信号可以被忽略，或者在后续通过自动回声消除(AEC)软件算法滤除。

最后，输出回声消除后的期望信号，所述期望信号可用于通信、语音识别、声纹识别等。

因此，采用根据本申请实施例的声音处理设备和声音处理方法，通过至少一对声音转换装置所输出的声音信号的同幅度反相位对称特性，可以使得声音采集装置采集到的原始声音信号比在单个声音转换装置输出时进行采集的情况，获得更高的信噪比，从而实现良好的物理降噪效果。也就是说，此时声音采集装置所采集到的第一声音转换装置和第二声音转换装置输出的第一声音信号和第二声音信号的能量小于任何单个声音转换装置输出的声音信号的能量。因此，根据本申请实施例的声音处理设备通过采用声音转换装置对，利用物理的波形反相位叠加相消的原理实现了回声消除。

具体来说，本申请的实施例具有以下优势：

1.对于单个声音转换装置输出的声音信号的音量本来就很低的场景，即原始信噪比很高的情况下，可以不需要使用自动回声消除(AEC)后处理算法，仅通过物理降噪就可获得较好的效果，并且，当传递函数发生突变时，比如在调整外放音量时，物理的降噪效果仍然存在；

2.物理降噪不受环境噪声的影响；

3.对低频信号的滤波效果更好，这是由于低频波长较长，叠加互消效果更显著；

4.由于物理降噪的存在，获取原始信号的信噪比单个声音转换装置输出时进行采集的情况下更高，进而通过声音采集单元采集的原始信号和参考信号的相关性来做双端讲话检测更加有利；

5.由于物理降噪的存在，可以在用声音转换装置输出更高音量时，确保声音采集装置采集到的声音信号不会因为单个声音转换装置的音量过高而导致截幅失真。

6、对于4个扬声器等距摆放的方式，对立体声回声消除也有效。并且，在立体声两声道音源相关性较高的情况下，可以抵消麦克风采集到的立体声信号的相关性，从而弱化相关性较高的频带的滤波器值，减弱软件算法不稳定的风险。

示例性设备

图5图示了根据本申请另一实施例的声音处理设备的框图。

下面，将重点描述图5实施例与图1实施例之间的区别，该区别主要在于，声音处理设备所包括的不是至少一对声音转换装置，而是至少一组由四个组成的声音转换装置。

如图5所示，根据本申请实施例的声音处理设备400包括：至少一组声音转换装置410，每组声音转换装置包括：第一声音转换装置411，用于接收立体声源信号中的左声道信号，并根据所述左声道信号输出第一声音信号；第二声音转换装置412，用于接收所述立体声源信号中的右声道信号，并根据所述右声道信号输出第二声音信号；第三声音转换装置413，用于接收所述左声道信号，并根据所述左声道信号输出第三声音信号；以及第四声音转换装置414，用于接收所述右声道信号，并根据所述右声道信号输出第四声音信号。

在一个示例中，所述第三声音信号与所述第一声音信号具有相反的相位且所述第三声音信号与所述第一声音信号之间的幅度差小于或等于第一幅度阈值，优选为零；并且所述第四声音信号与所述第二声音信号具有相反的相位且所述第四声音信号与所述第二声音信号之间的幅度差小于或等于第二幅度阈值，优选为零。

进一步地，第一声音信号到第四声音信号可以具有相同的幅度。

根据本申请实施例的声音处理设备400还包括：声音采集装置420，用于采集声音信号。

在一个示例中，从所述第一声音转换装置411到所述声音采集装置420的第一声音路径的幅频特性与从所述第三声音转换装置413到所述声音采集装置420的第三声音路径的幅频特性之间的第一路径特性差小于或等于第一特性阈值，优选为零；并且从所述第二声音转换装置412到所述声音采集装置420的第二声音路径的幅频特性与从所述第四声音转换装置414到所述声音采集装置420的第四声音路径的幅频特性之间的第二路径特性差小于或等于第二特性阈值，优选为零。

进一步地，第一声音路径到第四声音路径可以具有相同的幅频特性。

在一个示例中，所述第一声音转换装置包括：第一声音输出单元，用于将所述左声道信号转换为所述第一声音信号；所述第二声音转换装置包括：第二声音输出单元，用于将所述右声道信号转换为所述第二声音信号；所述第三声音转换装置包括：第一反相器，用于对所述左声道信号进行反相；以及第三声音输出单元，用于将反相的左声道信号转换为所述第三声音信号，所述第一声音输出单元的幅频特性与所述第三声音输出单元的幅频特性之间的第一单元特性差小于或等于第三特性阈值，优选为零；并且所述第四声音转换装置包括：第二反相器，用于对所述右声道信号进行反相；以及第四声音输出单元，用于将反相的右声道信号转换为所述第四声音信号，所述第二声音输出单元的幅频特性与所述第四声音输出单元的幅频特性之间的第二单元特性差小于或等于第四特性阈值，优选为零。

进一步地，第一声音输出单元到第四声音输出单元可以具有相同的幅频特征。

在一个示例中，所述第一声音转换装置411和所述第三声音转换装置413中的一个或两者可以包括校正器，用于根据所述第一路径特性差和所述第一单元特性差中的至少一个来对所述左声道信号或所述反相的左声道信号进行补偿。并且，所述第二声音转换装置412和所述第四声音转换装置414中的一个或两者可以包括校正器，用于根据所述第二路径特性差和所述第二单元特性差中的至少一个来对所述右声道信号或所述反相的右声道信号进行补偿。

进一步地，上述的两个或多个校正器还可以用于综合地消除第一声音信号到第四声音信号的幅度差。

在一个示例中，所述第一声音路径与所述第三声音路径之间的距离差小于或等于第一距离阈值，优选为零；并且所述第二声音路径与所述第四声音路径之间的距离差小于或等于二距离阈值，优选为零。

进一步地，第一声音路径到第四声音路径具有相同的距离。

在一个示例中，所述第一声音输出单元、所述第二声音输出单元、所述第三声音输出单元、和所述第四声音输出单元相对于所述声音采集装置体对称地设置。

如上所述，在壳体为正四面体的情况下，这四个声音输出单元可以分别设置在正四面体的四个顶点位置处，而声音采集装置可以设置在体中心位置处。这里，声音采集装置所在的位置为唯一一个到四个声音输出单元距离相等的位置。因此，这四个声音输出单元可以分为两组，第一声音输出单元播放立体声中的左声道信号，第二声音输出单元播放立体声中的右声道信号，第三声音输出单元播放反相的左声道信号，第四声音输出单元播放反相的右声道信号。这样，在立体声信号的情况下，实现了回声的物理叠加互消，从而实现了自动回声消除(AEC)的立体声场景。

示例性方法

图6图示了根据本申请实施例的声音处理方法的流程图。

如图6所示，根据本申请实施例的声音处理方法包括：

在步骤S510中，通过声音处理设备接收声源信号，所述声音处理设备包括至少一对声音转换装置和声音采集装置，每对声音转换装置包括第一声音转换装置和第二声音转换装置；

在步骤S520中，通过所述第一声音转换装置根据所述声源信号输出第一声音信号；以及

在步骤S530中，通过所述第二声音转换装置根据所述声源信号输出第二声音信号，所述第二声音信号与所述第一声音信号具有相反的相位，且所述第二声音信号与所述第一声音信号之间的幅度差小于或等于幅度阈值。

在上述声音处理方法中，进一步包括：通过所述声音采集装置采集声音信号；采样所述声源信号以得到参考信号；以及，基于所述参考信号对所述声音采集装置采集的声音信号进行降噪处理。

例如，可以通过自适应滤波算法和双端讲话控制机制中的至少一个，基于所述参考信号从所述声音采集装置采集的声音信号中消除所述声源信号的残余分量。

本领域技术人员可以理解，根据本申请实施例的声音处理方法的其它细节与之前关于根据本申请实施例的声音处理设备描述的相应细节完全相同，为了避免冗余便不再赘述。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种声音处理设备，包括：

至少一对声音转换装置，每对声音转换装置包括：第一声音转换装置，用于接收声源信号，并根据所述声源信号输出第一声音信号；以及第二声音转换装置，用于接收所述声源信号，并根据所述声源信号输出第二声音信号，所述第二声音信号与所述第一声音信号具有相反的相位，且所述第二声音信号与所述第一声音信号之间的幅度差小于或等于幅度阈值；以及

声音采集装置，用于采集声音信号，从所述第一声音转换装置到所述声音采集装置的第一声音路径的幅频特性与从所述第二声音转换装置到所述声音采集装置的第二声音路径的幅频特性之间的路径特性差小于或等于第一特性阈值。

2.如权利要求1所述的声音处理设备，其中，

所述第一声音转换装置包括：第一声音输出单元，用于将所述声源信号转换为所述第一声音信号；并且

所述第二声音转换装置包括：反相器，用于对所述声源信号进行反相；以及第二声音输出单元，用于将反相的声源信号转换为所述第二声音信号，所述第一声音输出单元的幅频特性与所述第二声音输出单元的幅频特性之间的单元特性差小于或等于第二特性阈值。

3.如权利要求2所述的声音处理设备，其中，所述第一声音转换装置进一步包括：校正器，用于在所述声源信号到达所述第一声音输出单元之前，根据所述路径特性差和所述单元特性差中的至少一个来对所述声源信号进行补偿。

4.如权利要求2所述的声音处理设备，其中，所述第二声音转换装置进一步包括：校正器，用于在所述声源信号到达所述反相器之前或在所述反相的声源信号到达所述第二声音输出单元之前，根据所述路径特性差和所述单元特性差中的至少一个来对所述声源信号或所述反相的声源信号进行补偿。

5.如权利要求2所述的声音处理设备，其中，所述第一声音路径与所述第二声音路径之间的距离差小于或等于距离阈值。

6.如权利要求5所述的声音处理设备，其中，所述第一声音输出单元和所述第二声音输出单元相对于所述声音采集装置面对称地设置。

7.如权利要求6所述的声音处理设备，进一步包括：

壳体，具有第一位置和相对于所述第一位置对称的第二位置和第三位置，所述声音采集装置布置在所述第一位置上，所述第一声音输出单元和所述第二声音输出单元分别布置在所述第二位置和所述第三位置处，且它们相对于所述声音采集装置具有相同的距离和朝向角。

8.如权利要求7所述的声音处理设备，其中，相对于所述声音采集装置，所述壳体的材质为对称一致的。

9.如权利要求7所述的声音处理设备，其中，所述壳体为圆柱体，所述声音采集装置设置在所述圆柱体的底面上的中心位置处，所述第一声音输出单元和所述第二声音输出单元设置在所述圆柱体的圆周面上相对于轴线的对称位置处。

10.如权利要求7所述的声音处理设备，其中，所述壳体为长方体，所述声音采集装置设置在所述长方体的底面上的中心位置处，所述第一声音输出单元和所述第二声音输出单元设置在所述长方体的两个相对侧面上相对于体中心线的对称位置处。

11.如权利要求1所述的声音处理设备，进一步包括：

采样器，用于采样所述声源信号以得到参考信号；以及

回声消除器，用于基于所述参考信号对所述声音采集装置采集的声音信号进行降噪处理。

12.如权利要求11所述的声音处理设备，其中，所述回声消除器通过自适应滤波算法和双端讲话控制机制中的至少一个，基于所述参考信号从所述声音采集装置采集的声音信号中消除所述声源信号的残余分量。

13.一种声音处理设备，包括：

至少一组声音转换装置，每组声音转换装置包括：第一声音转换装置，用于接收立体声源信号中的左声道信号，并根据所述左声道信号输出第一声音信号；第二声音转换装置，用于接收所述立体声源信号中的右声道信号，并根据所述右声道信号输出第二声音信号；第三声音转换装置，用于接收所述左声道信号，并根据所述左声道信号输出第三声音信号；以及第四声音转换装置，用于接收所述右声道信号，并根据所述右声道信号输出第四声音信号，所述第三声音信号与所述第一声音信号具有相反的相位且所述第三声音信号与所述第一声音信号之间的幅度差小于或等于第一幅度阈值，并且所述第四声音信号与所述第二声音信号具有相反的相位且所述第四声音信号与所述第二声音信号之间的幅度差小于或等于第二幅度阈值；以及

声音采集装置，用于采集声音信号，从所述第一声音转换装置到所述声音采集装置的第一声音路径的幅频特性与从所述第三声音转换装置到所述声音采集装置的第三声音路径的幅频特性之间的第一路径特性差小于或等于第一特性阈值，并且从所述第二声音转换装置到所述声音采集装置的第二声音路径的幅频特性与从所述第四声音转换装置到所述声音采集装置的第四声音路径的幅频特性之间的第二路径特性差小于或等于第二特性阈值。

14.一种声音处理方法，包括：

通过声音处理设备接收声源信号，所述声音处理设备包括至少一对声音转换装置和声音采集装置，每对声音转换装置包括第一声音转换装置和第二声音转换装置；

通过所述第一声音转换装置根据所述声源信号输出第一声音信号；以及

通过所述第二声音转换装置根据所述声源信号输出第二声音信号，所述第二声音信号与所述第一声音信号具有相反的相位，且所述第二声音信号与所述第一声音信号之间的幅度差小于或等于幅度阈值。

15.如权利要求14所述的声音处理方法，进一步包括：

通过所述声音采集装置采集声音信号；

采样所述声源信号以得到参考信号；以及

基于所述参考信号对所述声音采集装置采集的声音信号进行降噪处理。