CN111466123A

CN111466123A - 用于会议的子带空间处理和串扰消除系统

Info

Publication number: CN111466123A
Application number: CN201880079769.3A
Authority: CN
Inventors: 扎卡里·塞尔迪斯
Original assignee: Boomcloud 360 Inc
Current assignee: Boomcloud 360 Inc
Priority date: 2017-12-15
Filing date: 2018-11-29
Publication date: 2020-07-28
Anticipated expiration: 2038-11-29
Also published as: US20200275208A1; JP6947936B2; EP3725101A4; WO2019118194A1; KR20220016283A; US20230353941A1; KR102194515B1; US20190191247A1; KR102425815B1; EP4236374A3; JP7008862B2; US20220070581A1; KR20200089339A; EP3725101A1; CN111466123B; JP2021192553A; JP2021507284A; US10674266B2; US11736863B2; EP3725101B1

Abstract

实施方式涉及为客户端装置提供具有空间化音频的会议。从客户端装置接收输入音频流。针对每个客户端装置，确定定义其他客户端装置在声场内的空间位置的布置数据。通过根据布置数据对其他客户端装置的输入音频流进行混合和平移来生成用于客户端装置的包括左混合声道和右混合声道的混合流。通过对混合流的左混合声道和右混合声道应用子带空间处理和串扰处理来生成包括用于左扬声器的左增强声道和用于右扬声器的右增强声道的空间增强流。

Description

用于会议的子带空间处理和串扰消除系统

技术领域

本文描述的主题涉及音频处理，并且更具体地涉及用于会议客户端装置的空间化音频处理。

背景技术

电子装置被使用以提供多个用户之间的远程会议。通常，生成用户的音频流以捕获用户的发言，而组合其他用户的音频流以提供供用户收听的声音。例如，组合流可以是扬声器的单声道流。针对立体声扬声器，为左扬声器和右扬声器再现单声道流。与当面会议(in-person meeting)不同，在单声道流中不同的参与者没有声场的空间感，并且因此降低了语音区别和可理解度。

发明内容

实施方式涉及为客户端装置提供具有空间化音频的会议。在一些实施方式中，从客户端装置接收输入音频流。针对客户端装置确定定义其他客户端装置在声场内的空间位置的布置数据(placement data)。通过根据布置数据对其他客户端装置的输入音频流进行混合和平移(panning)来生成用于客户端装置的包括左混合声道和右混合声道的混合流。通过对混合流的左混合声道和右混合声道应用子带空间处理和串扰处理来生成包括左增强声道和右增强声道的空间增强流。空间增强流被提供给客户端装置。

在一些实施方式中，提供了一种存储有指令的非暂态计算机可读介质，所述指令在由处理器执行时将该处理器配置为：从客户端装置接收输入音频流；针对客户端装置，确定定义其他客户端装置在声场内的空间位置的布置数据；并且通过根据布置数据对其他客户端装置的输入音频流进行混合和平移来生成用于客户端装置的包括左混合声道和右混合声道的混合流。

在一些实施方式中，系统为客户端装置提供会议。该系统包括处理电路，该处理电路被配置成：从客户端装置接收输入音频流；针对客户端装置，确定定义其他客户端装置在声场内的空间位置的布置数据；并且通过根据布置数据对其他客户端装置的输入音频流进行混合和平移来生成用于客户端装置的包括左混合声道和右混合声道的混合流。

其他方面包括与上述任何方面相关的部件、装置、系统、改进、方法、过程、应用、计算机可读介质和其他技术。

附图说明

图1是根据一些实施方式的音频处理系统的示意性框图。

图2是根据一些实施方式的空间混合处理器的示意性框图。

图3是根据一些实施方式的具有串扰消除的空间增强处理器的示意性框图。

图4是根据一些实施方式的子带空间处理器的示意性框图。

图5是根据一些实施方式的串扰补偿处理器的示意性框图。

图6是根据一些实施方式的串扰消除处理器的示意性框图。

图7是根据一些实施方式的具有串扰模拟的空间增强处理器的示意性框图。

图8是根据一些实施方式的串扰模拟处理器的示意框图。

图9是根据一些实施方式的用于在客户端装置之间进行会议的过程的流程图。

图10是根据一些实施方式的音频处理系统的图。

图11是根据一些实施方式的音频处理系统的图。

图12是根据一些实施方式的音频处理系统的图。

图13是根据一些实施方式的计算机系统的示意性框图。

附图描绘了并且具体实施方式描述了仅出于说明的目的的各种非限制性实施方式。

具体实施方式

现在将详细参照实施方式，在附图中示出了实施方式的示例。在以下详细描述中，为了提供对所描述的各种实施方式的透彻理解，阐述了许多具体细节。然而，可以在没有这些具体细节的情况下实践所描述的实施方式。在其他实例中，没有详细描述公知的方法、过程、部件、电路和网络，以便不会不必要地模糊实施方式的各方面。

实施方式涉及为客户端装置提供会议，其中针对每个客户端装置具有空间化的音频输出。例如，音频处理系统针对每个客户端装置递送空间化的音频，从而使用实时空间混合和空间增强的组合来自适应地优化每个客户端装置的呈现装置类型。为了生成客户端装置的输出流，来自其他客户端装置的音频流各自与客户端装置在声场内的空间位置相关联。根据空间位置对音频流进行混合和平移以生成具有空间化音频的混合流。接下来，向空间化的音频混合流应用空间增强以增强声场的空间感。空间增强可以包括子带空间处理和串扰处理。串扰处理可以包括串扰消除(例如，针对扩音器)或串扰模拟(例如，针对耳机)。其中，不同的远程参与者语音在声场中的空间感提高了远程会议语音的区别和可理解度。

在一些实施方式中，会议管线包括服务器(或“桥”)和两个或更多个客户端装置。客户端装置可以包括各种各样的声音呈现硬件。服务器为不同类型的硬件提供装置优化的增强空间音频。

在一些实施方式中，输入音频流的一个或更多个声道被混音(mixdown)至立体声音频流。然后，基于每个客户端装置的呈现系统(例如，内置膝上型计算机扬声器、蓝牙扬声器、耳机等)，自适应地应用装置特定的空间音频增强。在一些实施方式中，每个客户端装置从服务器接收混合流，并且应用适当的空间增强。在一些实施方式中，客户端装置可以向服务器提供用于空间增强的参数，并且服务器执行空间增强以生成用于客户端装置的空间增强流。在一些实施方式中，客户端装置可以接收一个或更多个客户端音频流，并且向混合立体声流应用混音并接着应用适当的空间增强。

示例性音频处理系统

图1是根据一些实施方式的音频处理系统100的框图。音频处理系统100包括服务器102和客户端装置130。尽管示出了单个客户端装置130，但是服务器102提供多个客户端装置130之间的会议。服务器102可以经由网络——包括因特网——连接至客户端装置。每个客户端装置130可以包括音频捕获装置156(例如，麦克风)以及左扬声器152和右扬声器154。扬声器152、154可以是扩音器或耳机。

服务器102包括空间混合处理器110和空间增强处理器120。为了促进多个客户端装置130之间的会议，空间混合处理器110接收多个输入音频流140，每个输入音频流来自客户端装置130，并且空间混合处理器110将输入音频流140的平移和混音应用于立体声音频流中。立体声音频流包括左混合声道142和右混合声道144。每个输入音频流140可以是由客户端装置130的音频捕获装置156生成的具有一个或更多个声道的音频流。在一些实施方式中，音频流140可以包括单声道音频流。

会议的每个参与者与客户端装置130相关联。每个客户端装置130可以生成被发送至空间混合处理器110的音频流140。连同音频流140，每个客户端装置130可以向空间混合处理器110提供包括装置身份数据或布置数据的各种类型的元数据。装置身份数据是标识客户端装置130的唯一标识符。布置数据针对客户端装置130定义了其他客户端装置130的其他音频流140的空间位置。空间混合处理器110为每个客户端装置130生成唯一的立体声音频流，其中来自其他客户端装置130的音频信号140根据布置数据在立体声声场上分布(例如，平移)。

在一些实施方式中，音频流140的平移可以基于定义音频流140的空间分布的预定义布置数据。布置技术可以包括：远程客户端装置130的均等空间分布；或者基于参与者元数据(例如，用户角色、实体/公司名称、组成员资格、室内位置、地理位置、IP地址等)的源的分组和平移。在一些实施方式中，每个客户端装置130的平移可以基于来自客户端装置130的控制。例如，客户端装置130的用户可以定义指定每个远程参与者的期望的平移位置的布置数据。

空间混合处理器110针对每个客户端装置130生成包括左混合声道142和右混合声道144的唯一立体声音频流。无论定义音频信号140的空间分布的布置数据是编程定义的还是用户定义的，其他客户端装置130的音频信号140都被平移到立体声混音中。平移可以包括平移技术，例如振幅平移、延迟平移、双耳平移等，以生成用于客户端装置130的立体声流。在一些实施方式中，平移可以包括应用增益以调整最终混合中的每个元素的存在。也可以应用其他感知上激发的线索(cue)，例如针对距离线索的空气吸收模拟或室内声学模拟。

在一些实施方式中，用于客户端装置130的空间混合处理器110的输出可以包括诸如当客户端装置130或收听环境使用单声道再现时减少至单个声道的单声道减少。

空间增强处理器120向左混合声道142和右混合声道144应用空间处理以生成左增强声道146和右增强声道148。空间增强处理可以包括子带空间处理和串扰处理。串扰处理可以包括串扰消除或串扰模拟。当客户端装置130的扬声器152、154是扩音器时，可以使用串扰消除来移除由扩音器引起的串扰。当扬声器152、154是耳机时，可以使用串扰模拟来模拟扩音器的效果。当存在向左混合声道142和右混合声道144应用串扰处理时，空间增强处理还可以包括串扰补偿，串扰补偿校正由串扰处理的应用引起的频谱缺陷。空间增强处理器120将左增强声道146提供给客户端装置130的左扬声器152，并且将右增强声道148提供给客户端装置130的右扬声器154。扬声器152、154将相应的输出声道O_L和O_R转换成声音。

在一些实施方式中，空间增强处理器120位于服务器102处。服务器102可以执行每个客户端装置130的空间增强处理的单独实例。在其他实施方式中，空间增强处理器120位于每个客户端装置130处。针对每个客户端装置130，服务器102向客户端装置130的空间增强处理器120提供包括左混合声道142和右混合声道144的混合流。每个客户端装置130的空间增强处理器120处理从服务器102接收的混合声道以生成左输出声道146和右输出声道148。在一些实施方式中，例如在系统100的对等会议配置中，或者当服务器不执行混音时，空间混合处理器110也位于客户端装置130中。

系统100可以包括更少的或另外的部件。例如，使用音频流的会议可以与视频流集成。在一些实施方式中，系统100是人工现实系统，其中每个客户端装置130可以包括头戴式显示器。头戴式显示器可以在视频中呈现其他用户或用户的化身，其中用户被定位成对应于声场内的混合流中的客户端装置130的空间位置。因此，提高了人工现实环境的沉浸质量。

示例性空间混合处理器

图2是根据一些实施方式的空间混合处理器110的示意性框图。空间混合处理器110包括空间混合器205、双耳滤波器210和215、左声道组合器220、右声道组合器225和感知模拟器230。空间混合器205对关于如何在最终立体声混音中分布输入音频流内的能量以及相关地关于如何在音场(soundstage)的环境中感知最终混合中的元素施加控制。例如，可以使用恒定功率或线性立体声平移技术来实现单声道音频流的空间混合。在一些实施方式中，空间混合器205向每个音频信号140应用空间混合以生成左声道和右声道，组合左声道以生成左声道220，并且组合右声道以生成右声道222。

音频流还可以被处理成使得在收听者头部周围的3D空间中感知地定位声音，这可以经由双耳滤波来实现。双耳滤波器210和215中的每一者应用头部相关传递函数(head-related transfer function，HRTF)，头部相关传递函数描述收听者应当从其感知输入声道的声音的目标源位置。双耳滤波器210接收左声道220，并且通过应用针对与左声道250相关联的角位置进行调整的HRTF来生成左输出声道和右输出声道。双耳滤波器215接收右声道252，并且通过应用针对与右声道252相关联的角位置进行调整的HRTF来生成左输出声道和右输出声道。左声道组合器220从双耳滤波器210和215接收左声道，并且组合这些声道以生成左声道254。右声道组合器225从双耳滤波器210和215接收右声道，并且组合这些声道以生成右声道256。

也可以应用处理来模拟其他真实世界感知线索。感知模拟器230接收左声道254和右声道256，并向所述声道中的一个或更多个声道应用感知队列以生成左混合声道142和右混合声道144。声道可以被缩放和滤波以提供对混合中的可变距离和空气吸收的感知，例如使用自由场反距离定律来进行，其中，声压级相对于参照距离(例如，定义的距收听者的虚拟位置的距离)每距离的两倍降低6分贝。可以模拟空气吸收，其中，高频能量与相对于参照距离的距离的增加成反比地衰减。可以使用混响来进一步增强距离的感知以及创建室内声学和环境背景的感觉。

在一些实施方式中，音频信号140包括多个(例如，左和右)声道。空间混合器205通过将音频信号的声道组合成单声道来应用混音，并向单声道应用恒定功率或线性立体声平移。在另一个示例中，没有组合成单声道信号，并且使用音频信号140的每个声道来应用混音。例如，空间混合器205可以基于每个声道在收听者周围的空间中的理想位置向每个声道应用不同的双耳滤波，并且将结果混音至立体声左声道和立体右声道。

空间混合处理器110可以包括更少的或另外的部件。例如，感知模拟器230或双耳滤波器210和215可以被省略。空间混合处理器110可以执行音频信号140的各种类型的混音，包括幅度平移、延迟平移、双耳平移等。

示例性空间增强处理器

图3是根据一个实施方式的空间增强处理器300的示意性框图。空间增强处理器300是空间增强处理器120的示例，其中串扰处理是针对扬声器152、154是扩音器的客户端装置130的串扰消除。空间增强处理器300接收包括左输入声道X_L和右输入声道X_R的输入音频信号X。左输入声道X_L可以是来自空间混合处理器110的左输出声道142，而右输入声道X_R可以是来自空间混合处理器110的右输出声道144。

空间增强处理器300通过处理输入声道X_L和X_R来生成包括左增强声道O_L和右增强声道O_R的输出音频信号O。左增强声道O_L与左增强声道146相对应，而右增强声道O_R与右增强声道148相对应。音频输出信号O是具有串扰补偿和串扰消除的输入音频信号X的空间增强音频信号。

空间增强处理器300包括子带空间处理器310、串扰补偿处理器320、组合器360以及串扰消除处理器370。空间增强处理器300执行输入的音频输入声道X_L、X_R的串扰补偿和子带空间处理，将子带空间处理的结果与串扰补偿的结果组合，并且然后对组合的信号执行串扰消除。

子带空间处理器310包括空间频带划分器340、空间频带处理器345以及空间频带组合器350。空间频带划分器340耦接至输入声道X_L和X_R以及空间频带处理器345。空间频带划分器340接收左输入声道X_L和右输入声道X_R，并且将输入声道处理成空间(或“边侧”)分量Y_s和非空间(或“中间”)分量Y_m。例如，可以基于左输入声道X_L与右输入声道X_R之间的差来生成空间分量Y_s。非空间分量Y_m可以基于左输入声道X_L和右输入声道X_R之和来生成。空间频带划分器340将空间分量Y_s和非空间分量Y_m提供至空间频带处理器345。

空间频带处理器345耦接至空间频带划分器340和空间频带组合器350。空间频带处理器345从空间频带划分器340接收空间分量Y_s和非空间分量Y_m，并且对所接收到的信号进行增强。特别地，空间频带处理器345根据空间分量Y_s生成增强的空间分量E_s，并且根据非空间分量Y_m生成增强的非空间分量E_m。

例如，空间频带处理器345向空间分量Y_s应用子带增益以生成增强的空间分量E_s，并且向非空间分量Y_m应用子带增益以生成增强的非空间分量E_m。在一些实施方式中，空间频带处理器345附加地或可替选地向空间分量Y_s提供子带延迟以生成增强的空间分量E_s，并且向非空间分量Y_m提供子带延迟以生成增强的非空间分量E_m。子带增益和/或子带延迟可能可以针对空间分量Y_s和非空间分量Y_m的不同(例如，n)的子带而不同，或者可以相同(例如，针对两个或更多个子带)。空间频带处理器345针对空间分量Y_s和非空间分量Y_m的不同的子带相对于彼此来调整增益和/或延迟，以生成增强的空间分量E_s和增强的非空间分量E_m。空间频带处理器345然后将增强的空间分量E_s和增强的非空间分量E_m提供至空间频带组合器350。

空间频带组合器350耦接至空间频带处理器345，并且还耦接至组合器360。空间频带组合器350从空间频带处理器345接收增强的空间分量E_s和增强的非空间分量E_m，并且将增强的空间分量E_s和增强的非空间分量E_m组合成左空间增强声道E_L和右空间增强声道E_R。例如，可以基于增强的空间分量E_s和增强的非空间分量E_m之和来生成左空间增强声道E_L，并且可以基于增强的非空间分量E_m与增强的空间分量E_s之间的差来生成右空间增强声道E_R。空间频带组合器350将左空间增强声道E_L和右空间增强声道E_R提供给组合器360。关于子带空间处理器310的其他细节在下面结合图4讨论。

串扰补偿处理器320执行串扰补偿以补偿串扰消除中的频谱缺陷或伪象。串扰补偿处理器320接收输入声道X_L和X_R，并执行处理以补偿由串扰消除处理器370执行的增强的非空间分量E_m和/或增强的空间分量E_s的后续串扰消除中的任何伪象。在一些实施方式中，串扰补偿处理器320可以通过应用滤波器来对非空间分量X_m和空间分量X_s执行增强以生成串扰补偿信号Z，该串扰补偿信号Z包括左串扰补偿声道Z_L和右串扰补偿声道Z_R。在其他实施方式中，串扰补偿处理器320可以仅对非空间分量X_m执行增强。关于串扰补偿处理器320的另外的细节将在下面结合图4讨论。

组合器360将左空间增强声道E_L与左串扰补偿声道Z_L组合以生成左增强补偿声道T_L，并且将右空间增强声道E_R和右串扰补偿声道Z_R组合以生成右补偿声道T_R。组合器360耦接至串扰消除处理器370，并且向串扰消除处理器370提供左增强补偿声道T_L和右增强补偿声道T_R。

串扰消除处理器370接收左增强补偿声道T_L和右增强补偿声道T_R，并且对声道T_L、T_R执行串扰消除以生成包括左输出声道O_L和右输出声道O_R的输出音频信号O。关于串扰消除处理器370的另外的细节将在下面结合图5讨论。

图4是根据一些实施方式的子带空间处理器310的示意性框图。空间频带划分器340包括L/R至M/S转换器402，该L/R至M/S转换器402接收左输入声道X_L和右输入声道X_R，并且将这些输入转换成空间分量Y_m和非空间分量Y_s。

空间频带处理器345接收非空间分量Y_m，并且应用一组子带滤波器以生成增强的非空间子带分量E_m。空间频带处理器345还接收空间子带分量Y_s，并且应用一组子带滤波器以生成增强的非空间子带分量E_m。子带滤波器可以包括峰值滤波器、陷波滤波器、低通滤波器、高通滤波器、低架滤波器(low shelf filter)、高架滤波器(high shelf filter)、带通滤波器、带阻滤波器和/或全通滤波器的各种组合。

更具体地，空间频带处理器345包括用于非空间分量Y_m的n个频率子带中的每一个的子带滤波器以及用于空间分量Y_s的n个子带中的每一个的子带滤波器。例如，对于n＝4个子带，空间频带处理器345包括用于非空间分量Y_m的一系列子带滤波器，该一系列子带滤波器包括用于子带(1)的中间均衡(EQ)滤波器404(1)、用于子带(2)的中间EQ滤波器404(2)、用于子带(3)的中间EQ滤波器404(3)以及用于子带(4)的中间EQ滤波器404(4)。每个中间EQ滤波器404将滤波器应用于非空间分量Y_m的频率子带部分以生成增强的非空间分量E_m。

空间频带处理器345还包括用于空间分量Y_s的频率子带的一系列子带滤波器，所述一系列子带滤波器包括用于子带(1)的边侧均衡(EQ)滤波器406(1)、用于子带(2)的边侧EQ滤波器406(2)、用于子带(3)的边侧EQ滤波器406(3)以及用于子带(4)的边侧EQ滤波器406(4)。每个边侧EQ滤波器406将滤波器应用于空间分量Y_s的频率子带部分以生成增强的空间分量E_s。

非空间分量Y_m和空间分量Y_s的n个频率子带中的每一个可以对应于一定的频率范围。例如，频率子带(1)可以对应于0Hz至300Hz，频率子带(2)可以对应于300Hz至510Hz，频率子带(3)可以对应于510Hz至2700Hz，以及频率子带(4)可以对应于2700Hz至奈奎斯特频率。在一些实施方式中，n个频率子带是关键频带的合并集合。可以使用来自各种音乐类型的音频样本的语料库来确定关键频带。根据样本确定24个Bark(巴克)尺度关键频带上的中间分量与边侧分量的长期平均能量比率。然后将具有类似的长期平均比率的连续频带分组在一起以形成关键频带集合。频率子带的范围以及频率子带的数量可以是可调整的。

空间频带组合器350接收中间分量和边侧分量，将增益应用于分量中的每一个，并将中间分量和边侧分量转换成左声道和右声道。例如，空间频带组合器350接收增强的非空间分量E_m和增强的空间分量E_s，并且在将增强的非空间分量E_m和增强的空间分量E_s转换成左空间增强声道E_L和右空间增强声道E_R之前执行全局中间增益和全局边侧增益。

更具体地，空间频带组合器350包括全局中间增益408、全局边侧增益410以及耦接至全局中间增益408和全局边侧增益410的M/S至L/R转换器412。全局中间增益408接收增强的非空间分量E_m并且应用增益，全局边侧增益410接收增强的非空间分量E_s并且应用增益。M/S至L/R转换器412从全局中间增益408接收增强的非空间分量E_m，以及从全局边侧增益410接收增强的空间分量E_s，并且将这些输入转换成左空间增强声道E_L和右空间增强声道E_R。

示例性串扰消除处理器

图5是根据一些实施方式的串扰补偿处理器320的示意框图。串扰补偿处理器320包括L/R至M/S转换器502、中间分量处理器520、边侧分量处理器530和M/S至L/R转换器514。

串扰补偿处理器320接收左输入声道X_L和右输入声道X_R，并执行串扰补偿处理以生成左串扰补偿声道Z_L和右串扰补偿声道Z_R。声道Z_L、Z_R可以被使用以补偿串扰处理中例如串扰消除或串扰模拟中的伪象或频谱缺陷。L/R至M/S转换器502接收左输入声道X_L与右输入声道X_R，并且生成输入声道X_L、X_R的非空间分量X_m与空间分量X_s。左声道和右声道可以相加以生成左声道和右声道的非空间分量，以及可以相减以生成左声道和右声道的空间分量。

中间分量处理器520包括多个滤波器540，例如m个中间滤波器540(a)、540(b)至540(m)。这里，m个中间滤波器540中的每一个处理非空间分量X_m的m个频带中的一个。中间分量处理器520通过处理非空间分量X_m来生成中间串扰补偿声道Z_m。在一些实施方式中，使用具有通过模拟的串扰处理的非空间X_m的频率响应图来配置中间滤波器540。另外，通过分析频率响应图，可以估计任何频谱缺陷，例如在频率响应图中超过预定阈值(例如，10dB)的作为串扰处理的伪象出现的峰或谷。这些伪象主要由串扰处理中的延迟的并且可能地反转的对侧信号与它们对应的同侧信号的求和产生，从而有效地将梳状滤波器类似的频率响应引入最终呈现结果。中间串扰补偿声道Z_m可以由中间分量处理器520生成以补偿估计的峰或谷，其中m个频带中的每一个与峰或谷相对应。具体地，基于串扰处理中应用的特定延迟、滤波频率和增益，峰和谷在频率响应中上下偏移，从而引起频谱的特定区域中的能量的可变放大和/或衰减。每个中间滤波器540可以被配置成针对一个或更多个峰和谷进行调整。

边侧分量处理器530包括多个滤波器550，例如m个边侧滤波器550(a)、550(b)至550(m)。边侧分量处理器530通过处理空间分量X_s来生成边侧串扰补偿声道Z_s。在一些实施方式中，具有串扰处理的空间X_s的频率响应图可以通过模拟获得。通过分析频率响应图，可以估计任何频谱缺陷，例如在频率响应图中超过预定阈值(例如，10dB)的作为串扰处理的伪象出现的峰或谷。边侧串扰补偿声道Z_s可以由边侧分量处理器530生成以补偿估计的峰或谷。具体地，基于串扰处理中应用的特定延迟、滤波频率和增益，峰和谷在频率响应中上下偏移，从而引起频谱的特定区域中的能量的可变放大和/或衰减。每个边侧滤波器550可以被配置成针对峰和谷中的一个或更多个进行调整。在一些实施方式中，中间分量处理器520和边侧分量处理器530可以包括不同数量的滤波器。

在一些实施方式中，中间滤波器540和边侧滤波器550可以包括具有由等式1定义的传递函数的双二阶滤波器：

其中，z是复变量，以及a₀、a₁、a₂、b₀、b₁和b₂是数字滤波器系数。实现这种滤波器的一种方式是由等式2定义的直接I型拓扑：

其中X是输入向量，Y是输出。取决于它们的最大字长和饱和行为，可以使用其他拓扑。

然后，双二阶滤波器可以被使用以实现具有实值输入和输出的二阶滤波器。为了设计离散时间滤波器，设计连续时间滤波器，然后经由双线性变换将其变换为离散时间滤波器。此外，可以使用频率规整来补偿中心频率和带宽中的引起的偏移。

例如，峰值滤波器可以具有由等式3定义的S平面传递函数：

其中s是复变量，A是峰的幅度，Q是滤波器“质量”，并且数字滤波器系数由下式定义：

b₀＝1+αA

b₁＝-2*cos(ω₀)

b₂＝1-αA

a₁＝-2coS(ω₀)

其中ω₀是以弧度为单位的滤波器的中心频率，以及

此外，滤波器的质量Q可以由等式4定义：

其中，Δf是带宽以及f_c是中心频率。

中间滤波器540被示出为串联，并且边侧滤波器550被示出为串联。在一些实施方式中，中间滤波器540被并行地应用于中间分量X_m，并且边侧滤波器被并行地应用于边侧分量X_s。

M/S至L/R转换器514接收中间串扰补偿声道Z_m和边侧串扰补偿声道Z_s，并且生成左串扰补偿声道Z_L和右串扰补偿声道Z_R。可以将中间分量和边侧分量相加以生成中间分量和边侧分量的左声道，并且可以将中间分量和边侧分量相减以生成中间分量和边侧分量的右声道。

示例性串扰消除处理器

图6是根据一些实施方式的串扰消除处理器370的示意性框图。串扰消除处理器370接收左增强补偿声道T_L和右增强补偿声道T_R，并且对声道T_L、T_R执行串扰消除以生成左输出声道O_L和右输出声道O_R。

串扰消除处理器370包括带内-带外划分器610、反转器620和622、对侧估计器630和640、组合器650和652以及带内-带外组合器660。这些部件一起操作以将输入声道T_L、T_R划分成带内分量和带外分量，并且对带内分量执行串扰消除以生成输出声道O_L、O_R。

通过将输入音频信号T划分成不同的频带分量并且通过对选择性分量(例如，带内分量)执行串扰消除，可以针对特定频带执行串扰消除，同时避免其他频带中的劣化。如果在不将输入音频信号T划分成不同频带的情况下执行串扰消除，则在这样的串扰消除之后的音频信号可能在低频(例如，低于350Hz)、较高频率(例如，高于12000Hz)或者在低频和较高频率中在非空间分量和空间分量上表现出明显的衰减或放大。通过选择性地对绝大多数有效的空间线索所在的带内(例如，在250Hz与14000Hz之间)执行串扰消除，可以保持混合中跨频谱的平衡的总能量，特别是非空间分量中平衡的总能量。

带内-带外划分器610将输入声道T_L、T_R分别分成带内声道T_L,In、T_R,In和带外声道T_L,Out、T_R,Out。特别地，带内-带外划分器610将左增强补偿声道T_L划分为左带内声道T_L,In和左带外声道T_L,Out。类似地，带内-带外划分器610将右增强补偿声道T_R分成右带内声道T_R,In和右带外声道T_R,Out。每个带内声道可以包含与包括例如250Hz到14kHz的频率范围对应的相应输入声道的一部分。频带范围可以例如根据扬声器参数来调整。

反转器620和对侧估计器630一起操作以生成左对侧消除分量S_L，来补偿由于左带内声道T_L,In引起的对侧声音分量。类似地，反转器622和对侧估计器640一起操作以生成右对侧消除分量S_R，来补偿由于右带内声道T_R,In引起的对侧声音分量。

在一种方法中，反转器620接收带内声道T_L,In，并将所接收的带内声道T_L,In的极性反转以生成反转的带内声道T_L,In’。对侧估计器630接收反转的带内声道T_L,In’，并通过滤波提取反转的带内声道T_L,In’的对应于对侧声音分量的部分。因为对反转的带内声道T_L,In’执行滤波，所以由对侧估计器630提取的部分变为带内声道T_L,In的归于(attributing to)对侧声音分量的部分的反转。因此，由对侧估计器630提取的部分变为左对侧消除分量S_L，其可以被添加至对方的带内声道T_R,In以减少由于带内声道T_L,In而引起的对侧声音分量。在一些实施方式中，反转器620和对侧估计器630以不同的顺序实现。

反转器622和对侧估计器640针对带内声道T_R,In执行类似的操作以生成右对侧消除分量S_R。因此，为了简洁起见，本文省略对其的详细描述。

在一个示例实现方式中，对侧估计器630包括滤波器632、放大器634和延迟单元636。滤波器632接收反转的输入声道T_L,In’，并通过滤波函数提取反转的带内声道T_L,In’的对应于对侧声音分量的部分。示例滤波器的实现方案为具有选自5000Hz与10000Hz之间的中心频率和选自0.5与1.0之间的Q的陷波滤波器或高架滤波器。以分贝为单位的增益(G_dB)可以根据等式5得出：

G_dB＝-3.0-log_1.333(D) 等式(5)

其中，D是在例如48KHz的采样速率的样本中由延迟单元636和延迟单元646造成的延迟量。替选的实现方案为具有选自5000Hz与10000Hz之间的转角频率和选自0.5与1.0之间的Q的低通滤波器。此外，放大器634通过对应的增益系数G_L,In放大提取的部分，并且延迟单元636根据延迟函数D对来自放大器634的放大的输出进行延迟以生成左对侧消除分量S_L。对侧估计器640包括滤波器642、放大器644和延迟单元646，其对反转的带内声道T_R,In’执行类似的操作以生成右对侧消除分量S_R。在一个示例中，对侧估计器630、640根据以下等式生成左和右对侧消除分量S_L、S_R：

S_L＝D[G_L，ln*F[T_L，In']]

等式(6)

SR＝D[G_R，In*F[T_R，In']]

等式(7)

其中F[]是滤波函数，D[]是延迟函数。

串扰消除的配置可以由扬声器参数确定。在一个示例中，可以根据两个扬声器280之间相对于收听者形成的角度来确定滤波器中心频率、延迟量、放大器增益和滤波器增益。在一些实施方式中，使用扬声器角度之间的值来插值其他值。

组合器650将右对侧消除分量S_R与左带内声道T_L,IN进行组合以生成左带内串扰声道U_L，并且组合器652将左对侧消除分量S_L与右带内声道T_R,_In进行组合以生成右带内串扰声道U_R。带内-带外组合器660将左带内串扰声道U_L与带外声道T_L,Out组合以生成左输出声道O_L，并且将右带内串扰声道U_R与带外声道T_R,Out组合以生成右输出声道O_R。

因此，左输出声道O_L包括与带内声道T_R,In的归于对侧声音的部分的反转对应的右对侧消除分量S_R，并且右输出声道O_R包括与带内声道T_L,In的归于对侧声音的部分的反转对应的左对侧消除分量S_L。在该配置中，由右扩音器根据到达右耳的右输出声道O_R输出的同侧声音分量的波前可以消除由左扩音器根据左输出声道O_L输出的对侧声音分量的波前。类似地，由左扩音器根据到达左耳的左输出声道O_L输出的同侧声音分量的波前可以消除由右扩音器根据右输出声道O_R输出的对侧声音分量的波前。因此，可以减少对侧声音分量以增强空间可检测性。

示例性空间增强处理器

图7是根据一些实施方式的空间增强处理器700的示意性框图。空间增强处理器700是空间增强处理器120的示例，其中串扰处理是使用耳机的客户端装置130的串扰模拟。空间增强处理器700对输入音频信号X执行串扰模拟以生成包括用于左耳机的左输出声道O_L和用于右耳机的右输出声道O_R的输出音频信号O。左输入声道X_L可以是来自空间混合处理器110的左输出声道142，而右输入声道X_R可以是来自空间混合处理器110的右输出声道144。左增强声道O_L与左增强声道146相对应，而右增强声道O_R与右增强声道148相对应。

空间增强处理器700包括子带空间处理器310、串扰补偿处理器720、串扰模拟处理器780和组合器760。串扰补偿处理器720接收输入声道X_L和X_R，并且执行处理以补偿由串扰模拟处理器780生成的包括左串扰模拟信号W_L和右串扰模拟信号W_R的串扰模拟信号W和由子带空间处理器310生成的包括左增强声道E_L和右增强声道E_R的增强信号E的后续组合中的伪象。串扰补偿处理器720生成包括左串扰补偿声道Z_L和右串扰补偿声道Z_R的串扰补偿信号Z。串扰模拟处理器780生成左串扰模拟声道W_L和右串扰模拟声道W_R。子带空间处理器310生成左增强声道E_L和右增强声道E_R。关于串扰模拟处理器780的另外的细节将在下面结合图8讨论。

组合器760接收左增强声道E_L、右增强声道E_R、左串扰模拟声道W_L、右串扰模拟声道W_R、左串扰补偿声道Z_L和右串扰补偿声道Z_R。组合器760通过组合左增强声道E_L、右串扰模拟声道W_R和左串扰补偿声道Z_L来生成左输出声道O_L。组合器760通过组合左增强声道E_L、右串扰模拟声道W_R和左串扰补偿声道Z_L来生成右输出声道O_R。

示例性串扰模拟处理器

图8是根据一些实施方式的串扰模拟处理器780的示意性框图。串扰模拟处理器780生成对侧声音分量以输出至立体声耳机，从而在耳机上提供类似扩音器的收听体验。左输入声道X_L可以是来自空间混合处理器110的左输出声道142，而右输入声道X_R可以是来自空间混合处理器110的右输出声道144。

串扰模拟处理器780包括左头影低通滤波器(left head shadow low-passfilter)802、左头影高通滤波器824、左串扰延迟804和左头影增益810以处理左输入声道X_L。串扰模拟处理器780还包括右头影低通滤波器(right head shadow low-pass filter)806、右头影高通滤波器826、右串扰延迟808和右头影增益812以处理右输入声道X_R。左头影低通滤波器802和左头影高通滤波器824在左输入声道X_L上应用调制，其对通过收听者的头部之后的信号的频率响应进行建模。左头影高通滤波器824的输出被提供给应用时间延迟的左串扰延迟804。时间延迟表示对侧声音分量相对于同侧声音分量移位过的跨耳距离(transaural distance)。左头影增益810向左串扰延迟804的输出应用增益以生成右左模拟声道W_L。

类似地，针对右输入声道X_R，右头影低通滤波器806和右头影高通滤波器826向右输入声道X_R应用调制，其对收听者头部的频率响应进行建模。右头影高通滤波器826的输出被提供给应用时间延迟的右串扰延迟808。右头影增益812向右串扰延迟808的输出应用增益以生成右串扰模拟声道W_R。

可以以不同的顺序执行左声道和右声道中的每一者的头影低通滤波器、头影高通滤波器、串扰延迟和头影增益的应用。

示例性会议处理

图9是根据一些实施方式的用于在客户端装置之间进行会议的过程900的流程图。执行过程900以向客户端装置130提供空间增强的立体声音频流，其包括来自与客户端装置130进行会议的其他客户端装置130的输入音频流。过程900可以包括较少的或附加的步骤，并且步骤可以以不同的顺序执行。参照图10和图11讨论过程900，每个图包括根据一些实施方式的音频处理系统100的图。

服务器102(例如，具有空间混合处理器110)从多个客户端装置130接收905输入音频流。在一个示例中，音频流可以包括单声道音频流。在另一示例中，一个或更多个输入音频流可以包括多个音频声道(例如，立体声、5.1声道环绕声、1阶高保真度立体声响复制等)。输入音频流可以经由网络从多个客户端装置130发送。在一些实施方式中，每个客户端装置130连同输入音频流来传输元数据。元数据可以包括标识客户端装置的装置身份数据、定义其他客户端装置的其他音频流的期望空间位置的布置数据。

服务器102(例如，具有空间混合处理器110)针对客户端装置130确定910定义其他客户端装置130在声场内的空间位置的布置数据。可以以各种方式定义布置数据。例如，布置数据可以作为元数据从客户端装置接收，或者可以由服务器102预定义。在一些实施方式中，客户端装置130在没有用户平移控制的情况下自动平移。用户可以可选地按照他们的偏好来平移语音。

服务器102(例如，具有空间混合处理器110)通过根据布置数据对输入音频流进行混合和平移来生成915混合流。混合流可以是包括左混合声道和右混合声道的立体声音频信号。例如，空间混合处理器110可以确定音频流140在声场内的空间位置，并且根据与音频流140相关联的空间位置从音频流140生成左声道和右声道。针对其他客户端装置130的每个音频流140生成左声道和右声道。多个音频流140的左声道被组合为左混合声道142，多个音频流140的右声道被组合为右混合声道144。

参照图10，多个客户端装置130a、130b、130c和140d在会议中并且连接至服务器110。针对客户端装置130a，示出了客户端装置130a周围定义的声场1002。其他客户端装置130b、130c和130d根据布置数据定位在声场1002中。尽管在声场1002中示出了间隔开的客户端装置130的均匀空间分布，但是空间分布不一定是均匀的。例如，客户端装置130可以基于定义用户角色、实体/公司名称、组成员资格、室内位置、地理位置、IP地址等的布置数据而分布在声场1002内。

服务器102(例如，具有空间增强处理器120)通过对混合流应用子带空间处理和串扰处理来生成920空间增强流。空间增强流可以是包括左增强声道和右增强声道的立体声音频信号。空间增强处理器120可以执行各种类型的空间增强。针对子带空间处理，空间增强处理器120通过对混合流的左混合声道和右混合声道的中间子带分量和边侧子带分量进行增益调整来生成左声道和右声道。例如取决于客户端装置130是使用扩音器还是耳机，串扰处理可以包括串扰消除或串扰模拟。在一些实施方式中，可以针对不同的客户端装置130执行不同类型的空间增强。

在一些实施方式中，应用于客户端装置130的混合流的空间增强处理可以基于来自客户端装置130的装置信息。装置信息可以包括：用于空间增强处理器120的部件的参数，例如扬声器参数(例如，大小、频率响应、位置、方位等)；或者用于空间增强处理器的操作参数，例如滤波器值、增益值、时间延迟值、空间增强效果的强度等。在一些实施方式中，用于空间增强处理器120的操作参数是从扬声器参数得出的。不同类型的空间增强处理可以用于不同类型的客户端装置130。例如，客户端装置130可以基于扬声器的类型(例如，扩音器或耳机)和扬声器的参数(例如，频率响应、相对大小、相对方位等)而变化。

在一些实施方式中，服务器102从每个客户端装置接收装置描述，并且基于装置描述确定空间增强处理器120的参数。装置描述可以标识客户端装置的类型，例如膝上型计算机、条形音箱、耳机、扩音器、台式扬声器等。不同类型的客户端装置可以与不同的参数相关联，并且参数是基于装置类型来选择的。

服务器102向客户端装置130提供925空间增强流。例如，服务器102经由网络将包括左增强声道和右增强声道的空间增强流发送至客户端装置130。左增强声道被提供给左扬声器152并且右增强声道被提供给右扬声器154，以根据空间增强流再现声音。

在一些实施方式中，服务器102(例如，空间混合处理器110)连同空间增强流(或混合流)向每个客户端装置130提供平移元数据。平移元数据可以包括识别音频流中的参与者的信息。参与者可以由用户角色、实体/公司名称、组成员资格、室内位置、地理位置、IP地址来标识。

在一些实施方式中，服务器102将混合流提供给客户端装置130以供每个客户端装置130进行空间增强处理。客户端装置130包括使用混合流生成左增强声道和右增强声道的空间增强处理器120。参照图11，每个客户端装置130a至130d包括空间增强处理器120，其处理来自空间混合处理器110的混合流。空间增强处理器120的部件的参数由客户端装置120处的空间增强处理器120使用，并且不需要将参数或装置信息发送至服务器102。如上所述，不同类型的空间增强处理可以用于不同类型的客户端装置130和扬声器配置。

在一些实施方式中，服务器102向客户端装置130提供音频信号140的未混合流，其然后处理立体声混音，接着是进行空间增强。参照图12，每个客户端装置130a至130d包括执行混音以生成混合流的空间混合处理器110以及处理来自空间混合处理器110的混合流的空间增强处理器120。服务器102提供用于连接客户端装置130a至130d以及用于从其他客户端装置130向每个客户端装置130提供输入信号140的中介。在一些实施方式中，例如在对等配置中，每个客户端装置130在没有服务器102的情况下连接至彼此。这里，每个客户端装置130向其他客户端装置130提供音频信号140。

步骤910至925可以针对参与会议的每个客户端装置130并行地执行。可以根据一个或更多个其他客户端装置130的输入音频流针对每个客户端装置130生成不同的混合流。服务器102可以包括用于每个客户端装置130的空间增强处理器120的多个实例，每个实例处理不同的混合流。此外，可以重复步骤910至925以向参与会议的每个客户端装置130提供音频流输入和输出。

示例计算机

图13是根据一个实施方式的计算机1300的示意性框图。计算机1300是实现音频系统的电路的示例。示出了耦接至芯片组1304的至少一个处理器1302。芯片组1304包括存储器控制器集线器1320和输入/输出(I/O)控制器集线器1322。存储器1306和图形适配器1312耦接至存储器控制器集线器1320，并且显示装置1318耦接至图形适配器1312。存储装置1308、键盘1310、指向装置1314和网络适配器1316耦接至I/O控制器集线器1122。计算机1300可以包括各种类型的输入或输出装置。计算机1300的其他实施方式具有不同的架构。例如，在一些实施方式中，存储器1306直接耦接至处理器1302。

存储装置1308包括一个或更多个非暂态计算机可读存储介质，例如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器装置。存储器1306保存由处理器1302使用的(由一个或更多个指令组成的)程序代码和数据。程序代码可以对应于结合图1至图11描述的处理方面。

指向装置1314与键盘1310结合使用，以将数据输入到计算机系统1300中。图形适配器1312在显示装置1318上显示图像和其他信息。在一些实施方式中，显示装置1318包括用于接收用户输入和选择的触摸屏能力。网络适配器1316将计算机系统1300耦接至网络。计算机1300的一些实施方式具有与图13所示的部件不同的部件和/或其他部件。

虽然已经示出和描述了特定实施方式和应用，但是应该理解，本发明不限于本文公开的精确构造和部件，并且在不脱离本公开内容的精神和范围的情况下，可以在本文公开的方法和设备的布置、操作和细节方面进行对于本领域技术人员来说明显的各种修改、改变和变化。

Claims

1.一种为多个客户端装置中的客户端装置提供会议的方法，包括：

从所述多个客户端装置接收输入音频流；

针对所述多个客户端装置中的客户端装置确定定义所述多个客户端装置中的其他客户端装置在声场内的空间位置的布置数据；

通过根据所述布置数据对所述其他客户端装置的输入音频流进行混合和平移来生成用于所述客户端装置的包括左混合声道和右混合声道的混合流；

通过对所述混合流的所述左混合声道和所述右混合声道应用子带空间处理和串扰处理来生成包括左增强声道和右增强声道的空间增强流；以及

将所述空间增强流的所述左增强声道提供给所述客户端装置的左扬声器，并且将所述空间增强流的所述右增强声道提供给所述客户端装置的右扬声器。

2.根据权利要求1所述的方法，其中，确定所述布置数据包括经由网络从所述客户端装置接收所述布置数据。

3.根据权利要求1所述的方法，其中，来自所述客户端装置的所述输入音频流中的每个输入音频流包括一个或更多个音频声道。

4.根据权利要求1所述的方法，其中，通过根据所述布置数据对所述其他客户端装置的输入音频流进行混合和平移来生成用于所述客户端装置的包括左混合声道和右混合声道的混合流包括：

基于所述其他客户端装置在所述声场内的空间位置根据所述其他客户端装置的输入音频流中的每个输入音频流生成左声道和右声道；

组合来自所述其他客户端装置的输入音频流的左声道以生成所述左混合声道；以及

组合来自所述其他客户端装置的输入音频流的右声道以生成所述右混合声道。

5.根据权利要求1所述的方法，其中：

连接至所述多个客户端装置的服务器生成所述混合流并将所述混合流提供给所述客户端装置；以及

所述客户端装置根据所述混合流生成所述空间增强流。

6.根据权利要求1所述的方法，其中，连接至所述多个客户端装置的服务器生成所述混合流和所述空间增强流，并且将所述空间增强流提供给所述客户端装置。

7.根据权利要求6所述的方法，其中，所述服务器从所述客户端装置接收装置描述，并且基于所述装置描述来确定应用所述子带空间处理的参数。

8.根据权利要求1所述的方法，其中，所述客户端装置生成所述混合流和所述空间增强流。

9.根据权利要求1所述的方法，其中，所述串扰处理包括串扰消除或串扰模拟，并且生成所述空间增强流包括向所述混合流应用串扰补偿，所述串扰补偿针对通过向所述混合流应用所述串扰处理而引起的频谱缺陷进行调整。

10.一种存储有程序代码的非暂态计算机可读介质，所述程序代码在由处理器执行时，将所述处理器配置成：

从多个客户端装置接收输入音频流；

针对所述多个客户端装置中的客户端装置确定定义所述多个客户端装置中的其他客户端装置在声场内的空间位置的布置数据；以及

通过根据所述布置数据对所述其他客户端装置的输入音频流进行混合和平移来生成用于所述客户端装置的包括左混合声道和右混合声道的混合流。

11.根据权利要求10所述的计算机可读介质，还包括在被执行时还将所述处理器配置成执行以下操作的程序代码：

12.根据权利要求11所述的计算机可读介质，还包括在被执行时还将所述处理器配置成执行以下操作的程序代码：从所述客户端装置接收装置描述，并且基于所述装置描述来确定应用所述子带空间处理的参数。

13.根据权利要求11所述的计算机可读介质，其中，所述串扰处理包括串扰消除或串扰模拟，并且将所述处理器配置成生成所述空间增强流的程序代码包括在被执行时将所述处理器配置成向所述混合流应用串扰补偿的程序代码，所述串扰补偿针对通过向所述混合流应用所述串扰处理而引起的频谱缺陷进行调整。

14.根据权利要求10所述的计算机可读介质，还包括在被执行时将所述处理器配置成向所述客户端装置提供包括所述左混合声道和所述右混合声道的所述混合流的程序代码。

15.根据权利要求10所述的计算机可读介质，还包括在被执行时还将所述处理器配置成确定所述布置数据的程序代码，所述程序代码包括将所述处理器配置成经由网络从所述客户端装置接收所述布置数据的指令。

16.根据权利要求10所述的计算机可读介质，其中，来自所述多个客户端装置的所述输入音频流中的每个输入音频流包括一个或更多个音频声道。

17.根据权利要求10所述的计算机可读介质，其中，将所述处理器配置成通过根据所述布置数据对所述其他客户端装置的输入音频流进行混合和平移来生成用于所述客户端装置的包括左混合声道和右混合声道的混合流的程序代码包括将所述处理器还配置成进行以下操作的程序代码：

18.一种为多个客户端装置中的客户端装置提供会议的系统，包括：

处理电路，所述处理电路被配置成：

从所述多个客户端装置接收输入音频流；

通过根据所述布置数据对所述多个客户端装置中的所述其他客户端装置的输入音频流进行混合和平移来生成用于所述多个客户端装置中的所述客户端装置的包括左混合声道和右混合声道的混合流。

19.根据权利要求18所述的系统，其中，所述处理电路还被配置成：

20.根据权利要求18所述的系统，其中，来自所述多个客户端装置的所述输入音频流中的每个输入音频流包括一个或更多个音频声道。

21.根据权利要求17所述的系统，其中，所述处理电路还被配置成向所述多个客户端装置中的所述客户端装置提供包括所述左混合声道和所述右混合声道的所述混合流。