CN102387269A

CN102387269A - 一种单讲状态下回声抵消的方法、装置及系统

Info

Publication number: CN102387269A
Application number: CN2010102688802A
Authority: CN
Inventors: 詹五洲; 王东琦
Original assignee: Huawei Device Co Ltd
Current assignee: Shenzhen Qianhai TengXiang science and Technology Information Co., Ltd.
Priority date: 2010-08-27
Filing date: 2010-08-27
Publication date: 2012-03-21
Anticipated expiration: 2030-08-27
Also published as: CN102387269B

Abstract

本发明实施例提供了一种回声抵消的方法、装置和系统，包括：接收远端会场发送的声音信号和与所述声音信号所对应的方位信息；根据所述方位信息判断所述声音信号在本端会场中的所属播放区域；对所述声音信号进行双讲状态检测，如果处于单讲状态，则更新所述声音信号的所属播放区域对应回声路径的虚拟滤波器系数；利用所述虚拟滤波器系数进行回声抵消。本发明实施例在进行回声抵消时，只需要更新声音信号所属区域所对应回声路径的虚拟滤波器系数，即同一时刻最多只需要更新和麦克风阵列数量相同的虚拟滤波器系数，因此大幅降低了回声抵消时的运算复杂度，从而降低了回声抵消中对处理器性能的需求，减少了硬件成本的付出。

Description

一种单讲状态下回声抵消的方法、装置及系统

技术领域

本发明涉及通信领域，尤其是涉及视频会议中一种单讲状态下回声抵消的方法、装置及系统。

背景技术

视频会议可以让身处两地的与会者员面对面地进行交流，如图1所示为现有技术中本端会场的音频通信布局示意图，在本端会场100内，具有与会者101a～101c，麦克风102a～102c、扬声器103a～103c以及显示屏(未绘示)。麦克风102a～102c除了采集与会者101a～101c的声音外(对应图1中虚线)，还采集扬声器103a～103c所对应的回声信号(对应图1中实线)。因此，为了保证通话质量，就需要对麦克风102a～102c所采集的信号进行回声抵消，所谓回声抵消就是将麦克风102a～102c所采集到的信号减去扬声器102a～102c的回声信号。

如图2所示为一种多声道回声抵消的原理框图，图中的m对应帧的顺序号，根据图2，可以得出回声抵消的公式为：

E(m)＝Y(m)-X(m)·H(m) 公式(1)

其中X(m)为远端传送过来的P路扬声器的回声信号，Y(m)为本端会场中拾取的Q路麦克风信号，E(m)为最终估计的Q路最终残差信号，即去除回声后的麦克风信号，H(m)为表征回声路径的滤波器系数。

在现有的回声抵消系统中，由于X(m)和Y(m)都是可以实时采集到的，因此要得到E(m)，必须估计表征回声路径的滤波器系数H(m)。同时得到E(m)后，还需再用E(m)更新H(m)，具体的，可基于RLS算法或者LMS算法等算法来更新H(m)。确定H(m)后，利用公式(1)即可去除麦克风信号X(m)中的回声信号。

需要指出的是，上述H(m)的更新仅在“单讲”的条件下进行，即远端会场的与会者中当且仅当一个人在讲话，而本端会场中的与会者没有声音发出。而当“双讲”的时候，即远端会场的与会者中有两个以上的人同时讲话，或者远端会场有人讲话，同时本端会场也有人讲话时，H(m)并不执行更新。

但是上述现有技术中，由于存在多条回声路径，因此需要估计多条回声路径的回声信号，即需要更新多条回声路径的滤波器系数H(m)，比如当图1中某一时刻处于上述“单讲”状态时，如果扬声器103a～103c均有回声信号，则需要更新3×3＝9条回声路径的滤波器系数H(m)；如果扬声器103a～103b有回声信号，则需要更新2×3＝6条回声路径的滤波器系数H(m)。可见，如果当扬声器的数量及麦克风的数量增加时，再进行回声抵消过程中需要更新的滤波器系数H(m)的数量将会大量增加，而更新滤波器系数H(m)的计算复杂度也会大幅增加，也从而需要提高处理器的处理能力，或者是需要增加处理器的个数，进而导致了硬件成本的增加。

发明内容

本发明用于提供一种回声抵消的方法、装置及系统，用于减少回声抵消中需要更新的滤波器系数，降低回声抵消中对处理器性能的需求，减少硬件成本的付出。

一方面，本发明实施例提供了一种单讲状态下的回声抵消的方法，该方法包括：接收远端会场发送的声音信号和与所述声音信号所对应的方位信息；根据所述方位信息判断所述声音信号在本端会场中的所属播放区域；对所述声音信号进行双讲状态检测，如果处于单讲状态，则更新所述声音信号的所属播放区域对应回声路径的虚拟滤波器系数；利用所述虚拟滤波器系数进行回声抵消。

另一方面，本发明实施例还提供了一种单讲状态下的回声抵消装置，包括：接收单元，用于接收远端会场发送的声音信号和与所述声音信号所对应的方位信息；区域判断单元，用于根据所述方位信息判断所述声音信号在本端会场中的所属播放区域；双讲检测单元，用于对所述声音信号进行双讲状态检测；自适应更新单元，用于当所述虚拟声源仅处于单讲状态时，更新所述播放区域所对应回声路径的虚拟滤波器系数；回声抵消单元，用于利用所述虚拟滤波器系数进行回声抵消。

另一方面，本发明实施例还提供了一种音频通信系统，所述系统包括：麦克风阵列和如上所述的回声抵消装置，所述麦克风阵列用于采集远端会场的声音信号和与所述声音信号所对应的方位信息，所述回声抵消装置根据所述声音信号和所述方位信号采用如上所述的方法对本端会场所采集的声音信号进行回声抵消。

本发明实施例在进行回声抵消时，只需要更新声音信号所属区域所对应的回声路径的虚拟滤波器系数，即同一时刻最多只需要更新和麦克风阵列数量相同的虚拟滤波器系数，因此大幅降低了回声抵消时的运算复杂度，从而降低了回声抵消中对处理器性能的需求，减少了硬件成本的付出。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中本端会场的音频通信布局示意图；

图2为一种多声道回声抵消的原理框图；

图3为本发明实施例提供的一种单讲状态下回声抵消的方法流程示意图；

图4为本发明实施例提供的本端会场中虚拟声源的模拟示意图；

图5为本发明实施例提供的一种虚拟声源合成环境的俯视图；

图6为图5的简化示意图；

图7所示为本发明实施例提供的另一种虚拟声源合成环境的简化俯视图；

图8为本发明实施例提供的另一种单讲状态下回声抵消的方法流程示意图；

图9为本发明实施例提供的一种回声抵消的工作示意图；

图10为本发明实施例提供的一种单讲状态下回声抵消装置的结构示意图；

图11为本发明实施例提供的一种区域判断单元的结构示意图；

图12为本发明实施例提供的另一种单讲状态下回声抵消装置的结构示意图；

图13为本发明实施例提供的一种音频通信系统的结构示意图；

图14为本发明实施例提供的另一种音频通信系统的结构示意图；

图15为本发明实施例提供的一端会场的布局示意图；

图16为图15中一个麦克风所对应的回声路径示意图；

图17为图15中某一时刻需要更新的虚拟滤波器系数所对应的回声路径示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图3所示为本发明实施例提供的一种单讲状态下回声抵消的方法流程示意图，本实施例是从本端的回声抵消装置侧对本发明所作的描述，该方法包括如下步骤：

S301：接收远端会场发送的声音信号和与所述声音信号所对应的方位信息；

在本实施例中，远端会场可以通过设置一个或多个麦克风阵列来实现远端声音信号及与该声音信号所对应方位信息的采集(比如利用到达时间差(Time Difference of Arrival，TDOA)技术)，然后将采集到的信号发送给本端会场的回声抵消装置。

S302：根据所述方位信息判断所述声音信号在本端会场中的所属播放区域；

在视频会议中，远端会场的景象会在本端会场的显示设备上进行重放，为了能使本端会场的与会者感受到远端会场正在讲话的与会者的正确方位，需要根据上述方位信息判断上述声音信号在本端会场(显示设备)中所属的播放区域，该播放区域与远端会场发出上述声音信号的与会者的实际位置相对应。

S303：对所述声音信号进行双讲状态检测，如果仅处于单讲状态，则更新所述播放区域所对应回声路径的虚拟滤波器系数；

在本实施例中可以模拟远端会场与会者从本端会场中的上述播放区域发出上述声音信号，从而本端会场与会者可以感受到上述声音是从期望的方向发出的，使得本发明实施例可以在本端真实地模拟现场会议，该模拟的声音信号在本实施例中可以称之为虚拟声源。

作为本发明的一个实施例，可以利用幅度矢量合成定位(Vector Base Amplitude Panning，VBAP)技术通过多个扬声器来实现上述虚拟声源的效果。下面以两个扬声器来进行举例说明：如图4所示为本发明实施例提供的本端会场中虚拟声源的模拟示意图，其中显示设备403用于呈现远端会场的影像，影像404为远端会场中的与会者在显示设备403中的影像。如果扬声器401a和扬声器401b发出的声音是相同的，那么本端会场与会者402实际听到的影像404的声音是从扬声器401a和扬声器401b的中心连线的中点位置P₁发出的。而实际上与会者402听到影像404的声音应该是从P₂位置发出，也就是在这种情况下与会者402并没有感受到正确的声音方位。而如果采用VBAP技术，就能将影像404对应的与会者发出的声音虚拟在P₂位置发出，从而使得与会者402感受到了声音的正确方位。

以图4为例，本步骤中所称虚拟声源即为从P₂位置发出影像404所对应的远端与会者的声音，而虚拟滤波器系数即为P₂位置到本端麦克风的回声路径的滤波器系数。

S304：利用所述虚拟滤波器系数进行回声抵消。

本端的回声抵消装置可以将上述更新的虚拟滤波器系数代入公式(1)中来对本端麦克风阵列所采集到的声音信息进行回声抵消操作。

对于本端会场与会者讲话，远端会场与会者收听的情况，和上述情况相似，在此不再赘述。

本发明实施例在进行回声抵消时，只需要更新声音信号所属区域所对应回声路径的虚拟滤波器系数，当本端麦克风阵列数量为Q时，虚拟声源到麦克风阵列的回声路径为Q条，因此同一时刻最多只需要更新Q个虚拟滤波器系数，相对于现有技术中有可能最多需要更新P×Q(P为本端扬声器的数量)个滤波器系数来说，大幅降低了回声抵消时的运算复杂度，从而降低了回声抵消中对处理器性能的需求，减少了硬件成本的付出。另外本发明实施例使得与会者可以感受远端讲话人从期望的方位发出声音，使得视频会议更加逼真。

下面对本发明实施例对利用更新的虚拟滤波器系数进行回声抵消的实施方式进行说明：

首先以两个扬声器合成虚拟声源为例来进行说明，如图5所示为本发明实施例提供的一种虚拟声源合成环境的俯视图，该环境中包括：扬声器501a、扬声器501b及与会者503，其中扬声器501a和扬声器501b的位置固定不动，虚拟声源502所在位置为要虚拟的声源的位置。在本实施例中以与会者503为中心在平面上划分X和Y轴，通道1为扬声器501a到与会者503之间的通道，通道2为扬声器501b到与会者503之间的通道，通道3为虚拟声源502所在位置到与会者503之间的通道，为通道3和Y轴的夹角，

为通道1和通道2与Y轴的夹角，且

基于上述环境，立体声幅度合成可以用公式表示如下：

g_{1}^{2} + g_{2}^{2} = C

公式(2)

公式(3)

上式中g₁通道1信号幅度的增益因子，g₂通道2信号幅度的增益因子，g₁，g₂∈[0，1]，C是一个定值，它是控制声音距离的参数，虚拟声源502的位置距离与会者503距离越大，则C越小，反之，则越大。

考虑到扬声器501a和扬声器501b到与会者503的距离，可以认为虚拟声源502的位置是和两个扬声器位于同一条直线上的，图5可以简化成如图6所示。如图6所示，虚拟声源502距离Y轴的距离为d2，扬声器501a和扬声器301b到Y轴的距离为d1，可以得到：

公式(4)

将公式(4)代入公式(3)可以得到：

\frac{g_{1} - g_{2}}{g_{1} + g_{2}} = R

公式(5)

联合公式(2)、公式(5)可以得到：

g_{1} = (1 + R) \cdot \sqrt{\frac{C}{2 (1 + R^{2})}}

公式(6)

g_{2} = (1 - R) \cdot \sqrt{\frac{C}{2 (1 + R^{2})}}

公式(7)

此时，只要将扬声器501a和扬声器501b中发出的声音信号分别乘上公式(6)和(7)中的g₁和g₂再播放，与会者503即可从期望的虚拟声源502的位置听到声音。

同样的，此时扬声器501a和扬声器501b发出的估计的回声信号应该为：

c₁＝h_L(1)·x₁＝h_L(1)·g₁·x 公式(8)

c₂＝h_L(2)·x₂＝h_L(2)·g₂·x 公式(9)

上式中c₁和c₂分别为扬声器501a和扬声器501b发出的估计的回声信号，h_L(1)为扬声器501a回声路径的滤波器系数，h_L(2)为扬声器501b回声路径的滤波器系数，x₁和x₂分别为扬声器501a和扬声器501b输出的回声信号，x为原始的声音信号。

将公式(8)和(9)相加，可得到扬声器501a和扬声器501b联合产生的回声信号为：

c＝c₁+c₂ 公式(10)

＝(h_L(1)·g₁+h_L(2)·g₂)·x

令：h_A(a)＝(h_L(1)·g₁+h_L(2)·g₂)，那么h_A(a)即可理解虚拟声源502产生的回声信号所对应的回声路径的滤波器系数，即虚拟滤波器系数。需要指出的是，当虚拟声源502在本端会场中的一个区域中移动时，可以认为该虚拟声源502位置变化不大，此时也认为h_A(a)保持不变，即本端会场中的一个区域只对应一个虚拟滤波器系数。

综上所述，可将生成的虚拟声源的2路扬声器信号看作是1路虚拟声源信号进行处理。同理，也可以用虚拟声源所对应的回声路径代替两个扬声器对应的回声路径，即可以用虚拟滤波器系数代替两个扬声器的滤波器系数。因此利用更新的虚拟滤波器系数进行回声抵消是可行的。

下面再以三个扬声器合成虚拟声源为例来进行说明，如图7所示为本发明实施例提供的另一种虚拟声源合成环境的简化俯视图，该环境中包括：扬声器701a、扬声器701b、扬声器701c及与会者703，其中扬声器701a、扬声器701b和扬声器701c的位置固定不动，虚拟声源702所在位置为要虚拟的声源的位置。

此时扬声器701a、701b和701c发出的估计的回声信号应该为：

c₁＝h_L(1)·x₁＝h_L(1)·g₁·x 公式(11)

c₂＝h_L(2)·x₂＝h_L(2)·g₂·x 公式(12)

c₃＝h_L(3)·x₃＝h_L(3)·g₃·x 公式(13)

上式中c₁、c₂和c₃分别为扬声器701a、701b和701c发出的估计的回声信号，h_L(1)为扬声器701a回声路径的滤波器系数，h_L(2)为扬声器701b回声路径的滤波器系数，h_L(3)为扬声器701c回声路径的滤波器系数。x₁、x₂和x₃分别为扬声器701a、701b和701c输出的回声信号，x为原始的声音信号。

将公式(11)和(12)和(13)相加，可得到扬声器701a、701b和701c联合产生的回声信号为：

c＝c₁+c₂+c₃ 公式(14)

＝(h_L(1)·g₁+h_L(2)·g₂+h_L(3)·g₃)·x

令：h_A(a)＝(h_L(1)·g₁+h_L(2)·g₂+h_L(3)·g₃)，那么h_A(a)即可理解虚拟声源602产生的回声所对应的回声路径的滤波器系数，即虚拟滤波器系数。需要指出的是，当虚拟声源702在本端会场中的一个区域中移动时，可以认为该虚拟声源702位置变化不大，此时也认为h_A(a)保持不变，即本端会场中的一个区域只对应一个虚拟滤波器系数。

可见，在三个扬声器的情况下利用更新的虚拟滤波器系数进行回声抵消也是可行的。

对于利用多个扬声器信号来合成1路虚拟声源信号的证明过程和上述证明过程相类似，在此不再赘述，最后所得出的虚拟滤波器系数也都是由该多个扬声器所对应回声路径的滤波器系数以及该多个扬声器的通道信号幅度的增幅因子的加权和。

最后，根据公式(1)，在利用该更新的虚拟滤波器系数进行回声抵消时，只需将本端会场采集的麦克风信号减去本端扬声器对应回声路径的回声信号与所述虚拟滤波器系数的乘积，即可得到经过回声抵消后的麦克风信号。

如图8所示为本发明实施例提供的另一种回声抵消的方法流程示意图，该方法包括：

S801：接收远端会场发送的声音信号和与该声音信号所对应的方位信息；该步骤和步骤S301相类似，不再进行赘述。

需要指出的是，作为本发明的一个实施例，本步骤中的方位信息可以包括三维坐标信息、二维坐标信息或一维坐标信息，比如xyz轴坐标信息、xy轴坐标信息或x轴坐标信息。优选的，可以选用x轴坐标信息来简化计算的复杂度，这是由于在本端会场的屏幕上赖以区分区域的关键是x轴坐标信息，其z轴坐标及y轴坐标信息并不是必须的。

S802：对声音信号进行增强处理来抑制所述声音信号中的干扰信号；

经过本步骤增强处理后，可以最终得到感兴趣方向的声音信号，而其它方向的干扰信号(比如噪音、其它无关人的讲话)可以被抑制，使得通话质量得以提高。在本实施例中，比如可以通过波束形成(Beamforming)技术来实现声音信号的增强处理以及干扰信号的抑制。

S803：根据所述方位信息判断声音信号在本端会场中的所属播放区域；

在本实施例中，首先需要将本端会场划分成多个播放区域，该播放区域的划分可以依据远端会场实际分布情况而定，比如远端会场与会者间的间距等，每个播放区域都具有自己的区域系数，以该区域系数作为区分各个播放区域的标志，且每个播放区域在本端会场都可以设置两个或多个麦克风来模拟从该区域发出远端与会者的声音信号，即虚拟声源；

根据所述方位信息获得所述方位信息对应的区域系数，在本实施例中可以根据该方位信息的坐标信息来获得与该坐标信息相对应的区域系数，这些对应关系可以预先存储于回声抵消装置中；

根据所述区域系数获得所述方位信息在本端会场中的所属播放区域。

S804：对声音信号的进行双讲状态检测，判断是否处于单讲状态，如果仅处于单讲状态，则进入步骤S805；如果不处于单讲状态，则进入步骤S806；

在本实施例中，比如可以通过Geigel等检测算法来实现上述双讲状态检测。双讲状态检测方法为现有技术，对此不再赘述。

S805：更新上述区域所对应回声路径的虚拟滤波器系数；虚拟滤波器系数的构成可以参见前述实施例的描述，其为多个扬声器所对应回声路径的滤波器系数以及该多个扬声器的通道信号幅度的增幅因子的加权和。在本实施例中比如可以基于RLS或者LMS自适应滤波器算法对滤波器系数进行更新。

S806：利用虚拟滤波器系数进行回声抵消，即将虚拟滤波器系数代入公式(1)即可进行回声抵消。

本发明实施例在进行回声抵消时，只需要更新声音信号所属区域所对应回声路径的虚拟滤波器系数，即同一时刻最多只需要更新和麦克风阵列数量相同的虚拟滤波器系数，因此大幅降低了回声抵消时的运算复杂度，从而降低了回声抵消中对处理器性能的需求，减少了硬件成本的付出。另外由于本发明实施例采用了虚拟声源的技术，且对远端会场声音进行了增强处理，因此本端会场与会者不但可以感受远端讲话人从期望的方位发出声音，而且使得通话质量更加清楚。

如图9所示为本发明实施例提供的一种回声抵消的工作示意图，下面在图8的基础上对上述方法进行说明：

图9中的X(m)为远端会场传送过来的经过增强处理后的P路声音信号，Zs(m)为X(m)中各路声音信号所分别对应的方位信息，Y(m)为本端会场采集到的Q路麦克风阵列信号(未经过回声抵消)，Zm(m)为Y(m)中各路麦克风信号所对应的方位信息，E(m)为去除回声后的Q路最终残差信号。

首先，根据Zs(m)判断该路声音信号在本端会场中的所属播放区域，当确定好播放区域后，即确定了虚拟声源所在的位置；然后对该路声音信号进行双讲状态检测，由图8可知，双讲状态检测需要根据区域信息、X(m)及Y(m)来进行，具体来说，可以用Geigel等检测算法来检测是否处于单讲状态；然后将检测结果发送给自适应算法模块，自适应算法模块在确定处于单讲状态后，会更新该路声音信号所述区域所对应回声路径的虚拟滤波器系数H(m)；最后利用公式E(m)＝Y(m)-X(m)·H(m)即可对Y(m)进行回声抵消得到所需的E(m)，并发送给远端会场。

如图10所示为本发明实施例提供的一种单讲状态下回声抵消装置的结构示意图，该装置包括：接收单元1001、区域判断单元1002、双讲检测单元1003、自适应更新单元1004以及回声抵消单1005，其中：

接收单元1001用于接收远端发送的声音信号和与所述声音信号所对应的方位信息。在本实施例中，远端会场可以通过设置一个或多个麦克风阵列来实现远端声音信号及与该声音信号所对应方位信息的采集(比如利用TDOA技术)，然后将采集到的信号发送给接收单元1001。

作为本发明的一个实施例，这里的方位信息可以包括三维坐标信息、二维坐标信息或一维坐标信息，比如xyz轴坐标信息、xy轴坐标信息或x轴坐标信息。优选的，可以选用x轴坐标信息来为了简化计算的复杂度。

区域判断单元1002用于根据上述方位信息判断声音信号在本端会场中的所属播放区域。在视频会议中，远端会场的景象会在本端会场的显示设备上进行重放，为了能使本端会场的与会者感受到远端会场正在讲话的与会者的正确方位，需要根据上述方位信息判断上述声音信号在本端会场(显示设备)中所属的播放区域，该播放区域与远端会场发出上述声音信号的与会者的实际位置相对应。

作为本发明的一个实施例，如图11所示，区域判断单元1002可以包括：区域划分模块1002a、区域系数获取模块1002b和区域判断模块1002c。

区域划分模块1002a，用于将本端会场划分成多个播放区域。该播放区域的划分可以依据远端会场实际分布情况而定，比如远端与会者间的间距等，每个播放区域都具有自己的区域系数，以该区域系数作为区分各个播放区域的标志，且每个播放区域在本端会场都可以设置两个或多个麦克风来模拟从该区域发出远端会场与会者的声音信号，即虚拟声源。

区域系数获取模块1002b用于根据所述方位信息获得所述方位信息对应的区域系数。在本实施例中可以根据该方位信息的坐标信息来获得与该坐标信息相对应的区域系数，这些对应关系可以预先存储于回声抵消装置中。

区域判断模块1002c用于根据所述区域系数获得所述方位信息在本端会场中的所属播放区域。

双讲检测单元1003用于对上述声音信号进行双讲检测。在本实施例中，比如可以通过Geigel等检测算法来实现上述双讲检测。

自适应更新单元1004用于当声音信号处于单讲状态时，更新该声音信号所属播放区域所对应回声路径的虚拟滤波器系数。

作为本发明的一个实施例，可以利用VBAP技术通过多个扬声器来实现从上述播放区域发出上述声音信号的效果，并以上述播放区域对应回声路径的虚拟滤波器系数来替代上述两个扬声器的滤波器系数。当利用两个扬声器来实现时，这里的虚拟滤波器系数可以为：(h_L(1)·g₁+h_L(2)·g₂)；其中h_L(1)和h_L(2)分别为上述两个扬声器所对应回声路径的滤波器系数，g₁和g₂分别为上述两个扬声器的通道信号幅度的增益因子。

回声抵消单元1005用于利用虚拟滤波器系数进行回声抵消。

本发明实施例在进行回声抵消时，只需要更新声音信号所属播放区域所对应回声路径的虚拟滤波器系数，当本端会场麦克风阵列数量为Q时，虚拟声源到麦克风阵列的回声路径为Q条，因此同一时刻最多只需要更新Q个虚拟滤波器系数，相对于现有技术中有可能最多需要更新P×Q(P为本端扬声器的数量)个滤波器系数来说，大幅降低了回声抵消时的运算复杂度，从而降低了回声抵消中对处理器性能的需求，减少了硬件成本的付出。

如图12所示为本发明实施例提供的另一种回声抵消装置的结构示意图，该装置包括：接收单元1201、区域判断单元1202、双讲检测单元1203、自适应更新单元1204以、回声抵消单元1205以及声音信号增强处理单元1206。

接收单元1201、区域判断单元1202、自适应更新单元1204以和回声抵消单元1205与图9对应实施例中的相关单元相类似，在此不再赘述。

在本实施例中，声音信号增强处理单元1206用于对接收单元1201所接收的声音信号进行增强处理来抑制该声音信号中的干扰信号；

经过声音信号增强处理单元1206的增强处理后，可以最终得到感兴趣方向的声音信号，而其它方向的干扰信号(比如噪音、其它无关人的讲话)可以被抑制，使得通话质量得以提高。在本实施例中，比如可以通过波束形成(Beamforming)技术来实现声音信号的增强处理以及干扰信号的抑制。

双讲检测单元1203还用于对经过声音信号增强处理单元1206增强处理后的声音信号进行双讲状态检测。

当然，在本实施例中的声音信号增强处理单元1206并不是必须的，它可以由独立于本回声抵消装置的一个信号增强装置来完成，该信号增强装置可以将声音信号增强后再发送给本回声抵消装置。

本发明实施例在进行回声抵消时，只需要更新声音信号所属播放区域所对应回声路径的虚拟滤波器系数，即同一时刻最多只需要更新和麦克风阵列数量相同的虚拟滤波器系数，因此大幅降低了回声抵消时的运算复杂度，从而降低了回声抵消中对处理器性能的需求，减少了硬件成本的付出。另外由于本发明实施例采用了虚拟声源的技术，且对远端声音进行了增强处理，因此本端会场与会者不但可以感受远端讲话人从期望的方位发出声音，而且使得通话质量更加清楚。

如图13所示为本发明实施例提供的一种音频通信系统的结构示意图，该系统包括：麦克风阵列1301和回声抵消装置1302，麦克风阵列1301用于采集远端会场的声音信号和与所述声音信号所对应的方位信息，回声抵消装置1302可以如图10或图12所对应的任意一种回声抵消装置，其可以根据麦克风阵列1301所采集的声音信号和方位信号对本端会场所采集的声音信号进行回声抵消。具体的回声抵消方法及原理可以参见上述实施例的描述，在此就不再进行赘述了。

如图14所示为本发明实施例提供的另一种音频通信系统的结构示意图，本实施例是对如图13所述实施例的进一步详细描述，该系统包括：第一会场1310和第二会场1320，第一会场1310包括至少一组第一麦克风阵列1311、第一扬声器阵列处理装置1312、第一扬声器阵列1313和第一回声抵消装置1314，第二会场1320包括至少一组第二麦克风阵列1321、第二扬声器阵列处理装置1322、第二扬声器阵列1323和第二回声抵消装置1324。

由于本发明实施例涉及到回声抵消，因此仅以单讲状态对该音频通信系统进行说明，即同一时刻一方有且仅有1人在讲话，而另一方无人讲话。

若第一会场1310中与会者讲话，而第二会场1320中与会者收听时：

第一麦克风阵列1311用于采集第一会场1310的第一声音信号和与该第一声音信号对应的第一方位信息，该第一声音信息比如是与会者1315a所发出的声音。

第一回声抵消装置1314可以如图10或图12所对应的任意一种回声抵消装置，其用于接收第二回声抵消装置1324发出的经过回声抵消后的第二会场1320的第二声音信号以及与该第二声音信号所对应的第二方位信息，并根据该第二声音信号和该第二方位信息对第一声音信号进行回声抵消。具体来说，第一回声抵消装置1314利用第二声音信及第二方位信息来更新虚拟滤波器系数，假如第一会场1310中有3组麦克风阵列，则第二声音信号所属区域至麦克风阵列的回声路径有3条，需要更新3组虚拟滤波器系数；然后再将该虚拟滤波器系数代入公式(1)来对第一声音信号进行回声抵消，消除第一声音信号中的回声信号。

第二扬声器阵列1323用于播放经过回声抵消后的第一声音信号的虚拟声源，而模拟该虚拟声源所需要的处理则在第二扬声器阵列处理装置1322中完成。根据虚拟声源所处区域的不同，可以从第二扬声器阵列1323中选取两个扬声器来模拟该虚拟声源，比如可以VBAP技术来实现该虚拟声源的模拟。这样，第二会场1320中与会者1325a-1325d就可以感受到方位理想且质量较高的语音信息。

若第二会场1320中与会者讲话，而第一会场1310中与会者收听时：

第二麦克风阵列1321用于采集第二会场1320的第二声音信号和与该第二声音信号所对应的第二方位信息，该第二声音信息比如是与会者1325c所发出的声音。

第二回声抵消装置1324可以如图10或图12所对应的任意一种回声抵消装置，其用于接收第一回声抵消装置1314发出的经过回声抵消后的第一会场1310的第一声音信号以及与该第一声音信号所对应的第一方位信息，并根据该第一声音信号和第一方位信息对第二声音信号进行回声抵消。具体来说，第二回声抵消装置1324利用第一声音信及第一方位信息来更新虚拟滤波器系数，假如第二会场1320中有4组麦克风阵列，则第一声音信号所属区域至麦克风阵列的回声路径有4条，需要更新4组虚拟滤波器系数；然后再将该虚拟滤波器系数代入公式(1)来对第二声音信号进行回声抵消，消除第二声音信号中的回声信号。

第一扬声器阵列1313用于播放经过回声抵消后的第二声音信号的虚拟声源，而模拟该虚拟声源所需要的处理则在第一扬声器阵列处理装置1312中完成。根据虚拟声源所属区域的不同，可以从第一扬声器阵列1313中选取两个扬声器来模拟该虚拟声源，比如可以VBAP技术来实现该虚拟声源的模拟。这样，第一会场1310中与会者1315a-1315c就可以感受到方位理想且质量较高的语音信息。

作为本发明的一个实施例，当需要对麦克风阵列接收到的声音信号进行增强处理时，第一会场1310还可以包括第一麦克风阵列处理装置1316，第二会场1320还可以包括第二麦克风阵列处理装置1326，用于对接收到的声音信号进行增强处理，得到感兴趣方向的声音信号，抑制其它方向的干扰信号。当然，如上所述，该麦克风阵列处理装置的功能也可以由回声抵消装置来完成，在此并不加以限定。

本发明实施例在进行回声抵消时，只需要更新虚拟声源所对应回声路径的虚拟滤波器系数，即同一时刻最多只需要更新和麦克风阵列数量相同的虚拟滤波器系数，因此大幅降低了回声抵消时的运算复杂度，从而降低了回声抵消中对处理器性能的需求，减少了硬件成本的付出。另外由于本发明实施例采用了虚拟声源的技术，且对远端声音进行了增强处理，因此本端与会者不但可以感受远端讲话人从期望的方位发出声音，而且使得通话质量更加清楚。

最后通过一具体实例来对上述实施例进行进一步说明：

如图15所示为本发明实施例提供的一端会场的布局示意图，该会场包括显示设备1501(前视图)、具有6个扬声器的扬声器阵列1503(前视图)、3组麦克风阵列1505a-1505c(俯视图)，扬声器和麦克风阵列在本实施例中都为等间距排放，当然，本发明实施例并不限定该种排放方式。

前视图中的影像1502a-1502d是远端会场的与会者在本端会场的显示设备1501中所呈现的影像。在本实施例中，沿x轴将显示设备1501划分成了9个虚拟声源区域1504a-1504i，在任何一时刻，对于某个影像来说，其只可能处于其中的一个虚拟声源区域内。

显然，设一个虚拟声源区域到一个麦克风阵列的路径为一条回声路径，则每个麦克风阵列将对应有9条回声路径。如图16所示，以麦克风阵列1505a为例，共有从1504a、1504b...1504i到麦克风阵列1505a的9条回声路径。假设第n个虚拟声源区域到第q个麦克风阵列对应的回声路径的虚拟滤波器系数为H_nq(m)，则对应图15，共有H_nq(m)N×Q＝9×3＝27组虚拟滤波器系数。

由于一个虚拟声源在同一个时刻仅能位于一个虚拟声源区域内，对应图17，一个在虚拟声源与三个不同的麦克风阵列相对应的有3条不同的回声路径，因此当处于单讲状态时，仅需要更新3组虚拟滤波器系数。比如当图17中的处于虚拟声源区域1504h的影像1502d所对应远端与会者讲话时，最多同时仅有3组虚拟滤波器系数需要进行更新：H_ha(m)、H_hb(m)、H_hc(m)。而对于现有技术(结合图15)，则需要更新扬声器1503e到麦克风阵列1505a-1505c的回声路径的滤波器系数，以及扬声器1503f到麦克风阵列1505a-1505c的回声路径的滤波器系数，即需要更新6组滤波器系数。可见采用本发明实施例可以减少回声抵消中需要更新的滤波器系数，降低回声抵消中对处理器性能的需求，减少硬件成本的付出。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种单讲状态下的回声抵消的方法，其特征在于，所述方法包括：

接收远端会场发送的声音信号和与所述声音信号所对应的方位信息；

根据所述方位信息判断所述声音信号在本端会场中的所属播放区域；

对所述声音信号进行双讲状态检测，如果处于单讲状态，则更新所述声音信号的所属播放区域对应回声路径的虚拟滤波器系数；

利用所述虚拟滤波器系数进行回声抵消。

2.如权利要求1所述的方法，其特征在于，所述根据所述方位信息判断所述声音信号在本端会场中的所属播放区域包括：

将本端会场划分成多个播放区域；

根据所述方位信息获得对应所述多个播放区域的区域系数；

根据所述多个播放区域的区域系数获得所述方位信息在本端会场中的所属播放区域。

3.如权利要求1所述的方法，其特征在于，所述接收远端会场发送的声音信号和与所述声音信号所对应的方位信息之后还包括：

对所述声音信号进行增强处理来抑制所述声音信号中的干扰信号。

4.如权利要求1所述的方法，其特征在于，所述方位信息包括：一维坐标信息。

5.如权利要求1所述的方法，其特征在于，所述虚拟滤波器系数为多个扬声器所对应回声路径的滤波器系数以及所述多个扬声器的通道信号幅度的增幅因子的加权和，

所述利用所述虚拟滤波器系数进行回声抵消包括：

将本端会场采集的麦克风信号减去所述本端会场扬声器对应回声路径的回声信号与所述虚拟滤波器系数的乘积，得到经过回声抵消后的麦克风信号。

6.一种单讲状态下的回声抵消装置，其特征在于，包括：

接收单元，用于接收远端会场发送的声音信号和与所述声音信号所对应的方位信息；

区域判断单元，用于根据所述方位信息判断所述声音信号在本端会场中的所属播放区域；

双讲检测单元，用于对所述声音信号进行双讲状态检测；

自适应更新单元，用于当所述虚拟声源仅处于单讲状态时，更新所述播放区域所对应回声路径的虚拟滤波器系数；

回声抵消单元，用于利用所述虚拟滤波器系数进行回声抵消。

7.如权利要求6所述的装置，其特征在于，所述区域判断单元包括：

区域划分模块，用于将本端会场划分成多个播放区域；

区域系数获取模块，用于根据所述方位信息获得对应所述多个播放区域的区域系数；

区域判断模块，用于根据所述多个播放区域的区域系数获得所述方位信息在本端会场中的所属播放区域。

8.如权利要求6所述的装置，其特征在于，所述装置还包括：声音信号增强处理单元，用于对远端会场发送的所述声音信号进行增强处理；

所述双讲检测单元，还用于对经过增强处理的声音信号进行双讲状态检测。

9.如权利要求6所述的装置，其特征在于，所述回声抵消单元具体用于将本端会场采集的麦克风信号减去本端会场扬声器对应回声路径的回声信号与所述虚拟滤波器系数的乘积，得到经过回声抵消后的麦克风信号，所述虚拟滤波器系数为多个扬声器所对应回声路径的滤波器系数以及所述多个扬声器的通道信号幅度的增幅因子的加权和。

10.一种音频通信系统，其特征在于，所述系统包括：麦克风阵列和如权利要求6-9任一所述的回声抵消装置，所述麦克风阵列用于采集远端会场的声音信号和与所述声音信号所对应的方位信息，所述回声抵消装置根据所述声音信号和所述方位信号采用如权利要求1-5任一所述回声抵消的方法对本端会场所采集的声音信号进行回声抵消。