CN116686280A

CN116686280A - 共同定位的音频会议设备中的声学反馈抑制

Info

Publication number: CN116686280A
Application number: CN202180086965.5A
Authority: CN
Inventors: 房倩倩; 李凯; 国雁萌; 黄伟; 刘阳
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2020-12-22
Filing date: 2021-12-22
Publication date: 2023-09-01

Abstract

公开了一种用于管理通信系统中的实时音频通信中的声学反馈的方法，该方法包括借助于检测模块确定第一通信设备是否处于扩音器模式、该第一通信设备是否与第二通信设备处于实时音频通信、以及该第一通信设备和该第二通信设备是否处于同一声学空间中。在确定是这种情况时，向缓解模块提供用于请求针对声学反馈采取的一个或多个措施的请求信号。进一步公开了一种被配置成执行该方法的设备和系统、一种非暂态计算机可读介质、一种编码器和一种解码器。

Description

共同定位的音频会议设备中的声学反馈抑制

相关申请的交叉引用

本申请要求以下优先申请的优先权：2021年2月2日提交的欧洲申请21154740.1、2020年12月22日提交的PCT申请PCT/CN2020/138271、和2021年1月27日提交的美国临时申请63/142,018。

技术领域

本公开涉及管理实时音频通信中的声学反馈。

背景技术

在包括实时音频通信的多方通信中(比如在多方会议和多方游戏中)，可能会发生音频反馈，也称为啸叫。这种音频反馈通常会干扰参与多方通信的各方，并且因此已使用针对多方通信中的声学特征音频信号进行的分析来提供去除或缓解这种音频反馈的措施，以便识别音频反馈的发生并且然后去除或缓解音频反馈。

发明内容

本公开的目的是提供对声学反馈的改进的管理。

根据本公开的第一方面，提供了一种用于管理通信系统中的实时音频通信中的声学反馈的方法。所述方法包括：借助于检测模块基于第一通信设备中的硬件信息来确定所述第一通信设备是否处于扩音器模式；借助于所述检测模块基于所述第一通信设备中的连接信息来确定所述第一通信设备是否与第二通信设备处于实时音频通信；借助于所述检测模块基于所述第一通信设备中的传感器信息来确定所述第一通信设备和所述第二通信设备是否处于同一声学空间中；在借助于所述检测模块确定：

所述第一通信设备处于扩音器模式，

所述第一通信设备与所述第二通信设备处于实时音频通信，以及

所述第一通信设备和所述第二通信设备处于所述同一声学空间中，

向缓解模块提供用于请求针对声学反馈的一个或多个措施的请求信号。

通过识别满足以下三个标准来识别可能发生声学反馈的风险：第一通信设备处于扩音器模式、第一通信设备与第二通信设备处于实时音频通信、以及第一通信设备和第二通信设备处于同一声学空间中。由于甚至可以在经由第一通信设备反馈任何声音之前识别满足的标准，因此甚至可以在发生任何声学反馈之前识别声学反馈的风险。

根据本公开的第二方面，提供了一种包括电路的通信设备，该通信设备被配置成执行根据第一方面的方法。

根据本公开的第三方面，提供一种包括第一通信设备、第二通信设备、检测模块和缓解模块的通信系统。该系统被配置成执行根据第一方面的方法。

根据本公开的第四方面，提供一种包括指令的非暂态计算机可读存储介质，这些指令在由具有处理能力的设备执行时使设备执行第一方面的方法。

根据本公开的第五方面，提供一种编码器。所述编码器被配置成对音频信号进行编码，并且在已编码音频信号中包括指示是否需要针对声学反馈采取一个或多个措施的元数据。

通过在已编码音频信号中包括指示是否需要针对声学反馈采取一个或多个措施的元数据，可以给已编码音频信号的接收器提供关于是否需要针对声学反馈采取一个或多个措施的信息，即使已编码音频信号的接收器本身不包括用于识别这种需要的任何功能。

根据本公开的第六方面，提供一种解码器。解码器被配置成对已编码音频信号进行解码，并且从已解码音频信号提取指示是否需要针对声学反馈采取措施的元数据。

通过将解码器配置成从已解码音频信号提取指示是否需要针对声学反馈采取措施的元数据，已编码音频信号的接收器处的解码器可以识别是否需要针对声学反馈采取一个或多个措施，即使已编码音频信号的接收器本身不包括用于识别这种需要的任何功能。

附图说明

将参考附图更详细地描述本公开的实施例，其中，

图1示出了根据本公开的用于管理实时音频通信中的声学反馈的方法的实施例的流程图，

图2a示出了被配置成执行根据本公开的方法的通信系统的第一实施例的示意性框图，

图2b示出了被配置成执行根据本公开的方法的通信系统的第二实施例的示意性框图，

图2c示出了被配置成执行根据本公开的方法的通信系统的第三实施例的示意性框图，

图3示出了被配置成执行根据本公开的方法的包括电路的通信设备的示意性框图，

图4示出了根据本公开的编码器的示意性框图，

图5示出了根据本公开的解码器的示意性框图。

具体实施方式

图1示出了用于管理通信系统中的实时音频通信中的声学反馈的方法1的实施例的流程图。

实时音频通信在此可以理解为两个或更多个通信设备之间实时(即，即时)发生的包括音频、音频呼叫、带音频的视频呼叫、会议呼叫等的任何音频传输。实时在本文应被解释为实时或几乎实时地执行的连续的音频数据传输，比如语音呼叫等，其中，旨在在不影响音频的可懂度的情况下使音频以尽可能短的时间延迟到达接收器。

在一些实施例中，通信系统包括第一客户端、第二客户端和通信服务器，其中，检测模块和缓解模块中的一个或多个设置在通信服务器中。

方法1包括借助于检测模块基于第一通信设备中的硬件信息来确定10第一通信设备是否处于扩音器模式。

第一通信设备可以是电话(比如蜂窝电话、移动电话和/或会议电话)、计算机、平板计算机等。扩音器模式可以是第一通信设备被配置成经由一个或多个扩音器(比如一个或多个内置扩音器)输出声音(比如来自实时音频通信的声音)的模式。

在一些实施例中，第一通信设备可以处于扩音器模式；处于头戴式耳机模式，在该模式中，第一通信设备被配置成经由头戴式耳机输出声音；或者可以处于静音模式，在静音模式中，第一通信设备被配置成不输出声音。替代性地或附加地，确定步骤10可以包括确定第一通信设备的模式，该模式是基于第一通信设备中的硬件信息从扩音器模式、头戴式耳机模式和静音模式中选择的。

第一通信设备中的硬件信息可以包括与头戴式耳机输出连接的状态中的一个或多个状态相关的信息，比如插头是否插入在头戴式耳机的输出插头中，头戴式耳机是否以通信方式有线和/或无线地连接，一个或多个扩音器(比如内置扩音器和/或外部扩音器)是否以通信方式连接到第一通信设备、默认回放设备和被选择用于实时音频通信的回放设备。在一些实施例中，该方法可以进一步包括从第一通信设备和/或从第二通信设备获得关于通信设备类型的信息，比如通信设备的标识信息。标识信息可以允许确定通信设备的类型，比如智能电话、平板计算机、会议设备、膝上型计算机、台式计算机等。替代性地或附加地，标识信息可以允许确定制造商、版本、操作系统(OS)、OS版本、硬件版本等。在一些实施例中，可以从第一通信设备和/或第二通信设备直接获得标识信息。

检测模块可以设置在第一通信设备中。替代性地或附加地，在经由服务器提供实时音频通信的情况下，检测模块可以设置在服务器中。因此，硬件信息可以从第一通信设备传输到服务器。

在一些实施例中，检测模块和缓解模块中的一个或多个设置在第一设备中。

此外，方法1包括借助于检测模块基于第一通信设备中的连接信息来确定11第一通信设备是否与第二通信设备处于实时音频通信。

确定11第一通信设备是否与第二通信设备处于实时音频通信可以经由来自第一设备的通信模块的软件信息、从第二设备传输的数据、和/或经由服务器来执行，可能通过该服务器来控制和/或路由实时音频通信。

方法1进一步包括借助于检测模块基于第一通信设备中的传感器信息来确定12第一通信设备和第二通信设备是否处于同一声学空间中。

两个设备处于相同“声学空间”中在本文可以理解为两个设备处于相同物理空间和/或房间中、和/或两个设备在距彼此的特定距离之内。替代性地或附加地，当声音从第一设备到达第二设备和/或相反从第二设备到达第一设备时产生的声学功率损耗小于预定义阈限值时，可以说两个设备处于相同“声学空间”中。

传感器信息可以基于第一通信设备的非声学传感器。替代性地或附加地，传感器信息可以基于第一设备与第二设备之间的数据传输。

在一些实施例中，第一设备的传感器信息是基于第一设备的无线通信接口的。

第一设备的无线通信接口可以是用于数字数据通信的无线通信接口。无线通信接口可以包括可能被配置成发射无线通信信号的发射器、以及可能被配置成接收无线通信信号的接收器。无线通信接口可以被配置成用于短距离无线通信，比如在2.4GHz频带、5GHz频带和/或6GHz频带下的通信。

无线通信接口可以包括或可以是接口，比如/>低功耗(LE)接口。替代性地或附加地，无线通信接口可以包括或可以是可能被配置成根据IEEE 802.11标准起作用的Wi-Fi无线网络接口。

在一些实施例中，第一设备和第二设备两者都包括无线通信接口。可以基于第一设备和第二设备两者的传感器信息来确定12第一设备和第二设备是否处于同一声学空间中。

在一些实施例中，该方法进一步包括借助于检测模块基于第一通信设备中的传感器信息来确定第一通信设备与第二通信设备之间的距离。如果第一通信设备与第二通信设备之间的距离小于距离阈值，则确定第一通信设备和第二通信设备处于同一声学空间中。

所确定距离可以是估计的距离。例如，在传感器信息包括来自无线通信接口的信息的情况下，可以基于所接收信号而估计距离。

距离阈值可以是预定的。在一些实施例中，距离阈值是10m或更小，比如8m、6m、5m、4m、3m、2m或1m。

在一个实施例中，可能地在无线通信接口包括接口的情况下，基于在第一通信设备处从第二通信设备接收的信号的所接收信号强度指示(RSSI)测量来确定距离。在使用蓝牙LE的情况下，在第一通信设备处接收的信号可以是来自第二通信设备的连接数据包(比如连接请求数据包、连接响应数据包)、数据包和/或广告数据包。RSSI与距离之间的关系可以描述为：

RSSI_dBm＝-10n log₁₀(d)+A(l)

其中，d是距离，n是取决于环境条件在二与四之间的实数，并且A(l)是在任意选择的距离处读取的RSSI值。

因此，可以根据RSSI将距离确定为：

因此可以基于所接收信号强度来确定估计的距离。

替代性地或附加地，可能地在无线通信接口包括Wi-Fi接口的情况下，可以基于往返时间(RTT)来确定距离。第一通信设备可以使用Wi-Fi接入点来确定距离。附加地或替代性地，第一通信设备可以与可以是Wi-Fi感知设备的第二通信设备对等。所确定距离可以是估计的距离。可以根据IEEE 802.11下的标准来确定RTT。

方法1进一步包括，在借助于检测模块确定以下项后，向缓解模块提供13用于请求针对声学反馈采取一个或多个措施的请求信号：第一通信设备处于扩音器模式、第一通信设备与第二通信设备处于实时音频通信、以及第一通信设备和第二通信设备处于同一声学空间中。

缓解模块可以是被配置成缓解反馈的模块。缓解模块可以布置在第一通信设备、第二通信设备中、和/或布置在可以借以路由实时音频通信的服务器中。

可以将请求信号作为元数据提供给实时音频通信的音频数据。可以从第一通信设备提供请求信号和/或在经由服务器路由实时音频通信的情况下从服务器提供请求信号。替代性地，可以可能地经由相同连接将请求信号作为单独信号提供。请求信号可以包括期望和/或需要针对声学反馈采取一个或多个措施的指示，比如标志、二进制值、十六进制值、文本字符串等。替代性地或附加地，请求信号可以包括已确定以下项的指示：第一通信设备处于扩音器模式、第一通信设备与第二通信设备处于实时音频通信、以及第一通信设备和第二通信设备处于同一声学空间中。

在未发生声学反馈但已满足发生声学反馈的条件的情况下，可以提供请求信号。

在一些实施例中，该方法进一步包括在借助于检测模块确定：第一通信设备处于扩音器模式、第一通信设备与第二通信设备处于实时音频通信、以及第一通信设备和第二通信设备处于同一声学空间中时，借助于检测模块确定第一通信设备中指示需要针对声学反馈采取措施的状态。

该状态可以指示声学反馈发生和/或可能发生。在一些实施例中，第一通信设备中的状态可以表示通信系统的状态。请求信号可以包括状态或由状态构成。替代性地或附加地，可以响应于确定第一通信设备中的状态而提供请求信号。

在针对声学反馈采取措施的情况下，第一通信设备中的状态可以确定为指示不需要针对声学反馈采取措施或进一步措施的状态。替代性地，在已针对声学反馈采取措施的情况下，可以在采取措施之后再次执行确定步骤10、11和12，并且在确定第一通信设备处于扩音器模式、第一通信设备与第二通信设备处于实时音频通信、以及第一通信设备和第二通信设备处于同一声学空间中的情况下，可以再次确定和/或可以维持第一通信设备中指示需要针对声学反馈采取措施的状态。

在一些实施例中，该方法进一步包括响应于在缓解模块处接收到请求信号，由缓解模块提供针对声学反馈的一个或多个措施。

在一些实施例中，针对声学反馈的一个或多个措施包括以下各项中的一项或多项：借助于缓解模块减小第一通信设备的回放音量；借助于缓解模块减小第二通信设备的麦克风增益；向第一通信设备发送请求用户切换到头戴式耳机模式的通知；向第一通信设备发送请求用户使第一通信设备的麦克风静音的通知；向第一通信设备发送请求用户使第一通信设备的扩音器静音的通知；以及抑制从第一通信设备接收的音频。

缓解模块可以布置在第一通信设备、第二通信设备中，和/或可以布置在借以路由实时音频通信的服务器中。

在一个或多个措施包括通知第一通信设备请求用户采取行动的情况下，第一通信设备和/或第二通信设备可以被配置成从缓解模块接收请求和/或向用户显示请求，比如使第一通信设备的麦克风静音的请求、使第一通信设备的扩音器静音的请求。在一些实施例中，第一通信设备和/或第二通信设备被配置成，在检测模块布置在第一通信设备和/或第二通信设备中的情况下，可能地由该检测模块向缓解模块传输已向用户提供请求的确认、和/或已由用户采取行动的确认。

在一些实施例中，缓解模块是使用机器学习算法训练的。

将理解，可以用任何已知方式实施机器学习算法。例比如，缓解模块可以被配置成基于以下项来选择针对声学反馈的一个或多个措施：反馈是否发生、和/或反馈是否发生为可听回声或啸叫声，比如关于通信系统的当前状态是否稳定、临界稳定或不稳定的信息。

在一些实施例中，该方法进一步包括：在确定第一通信设备中的状态后，借助于检测模块基于第一通信设备中的硬件信息来确定第一通信设备的回放音量；以及借助于检测模块基于第二通信设备中的硬件信息来确定第二通信设备的麦克风增益。替代性地或附加地，可以响应于确定第一设备处于扩音器模式而确定回放音量和/或麦克风增益。在一些实施例中，第一设备的回放音量是第一设备的扩音器(比如内置扩音器)的回放音量。替代性地或附加地，第二设备的麦克风增益可以是第二设备的麦克风(比如内置麦克风)的麦克风增益。

第一通信设备的回放音量和/或硬件信息以及第二通信设备的麦克风增益和/或硬件信息可以传输到可能布置在借以路由实时音频通信的服务器中的检测模块。替代性地或附加地，第一通信设备的回放音量可以通过可能布置在第一通信设备中的第一检测模块确定，并且第二通信设备的麦克风增益可以通过可能布置在第二通信设备中的第二检测模块确定。

在一些实施例中，距离阈值是基于第一通信设备的所确定回放音量和第二通信设备的所确定麦克风增益的。

例如，在第一通信设备的回放音量和第二通信设备的麦克风增益两者都高的情况下，可以对应地设置高距离阈值。因此，在回放音量和麦克风增益都高时，彼此布置在特定距离处的两个通信设备可以视为处于同一声学空间中，而如果调低回放音量和/或麦克风增益，则这两个通信设备可视为不处于同一声学空间中。

在一些实施例中，该方法进一步包括：确定第一通信设备的回放音量高于回放音量阈值，其中，响应于确定回放音量高于回放音量阈值而针对声学反馈采取的一个或多个措施包括以下各项中的一项或多项：向第一通信设备发送请求用户切换到头戴式耳机模式的通知；借助于缓解模块减小第一通信设备的回放音量。

该通知可以借助于第一通信设备的显示器显示给用户和/或可以借助于音频提示、触觉反馈和光指示中的一个或多个传递给用户。

在一些实施例中，回放音量阈值是基于第一通信设备与第二通信设备之间的距离来确定的。

可以至少部分地基于第一通信设备与第二通信设备之间的距离来确定回放音量阈值。在一些实施例中，回放音量阈值可以随着第一通信设备与第二通信设备之间的距离增大。

回放音量阈值可以是或形成第一通信设备与第二通信设备之间的距离的数学函数。回放音量阈值可以与第一通信设备与第二通信设备之间的距离成比例。

在一些实施例中，回放音量阈值PlaybackVolume_Th可以表达为：

其中距离(distance)是第一通信设备与第二通信设备之间的所确定距离，并且dist_Th是距离阈值。在示例性实施例中，距离阈值可以是大约5米。PlaybackVolumeTh可以是抑制第一通信设备的最大回放音量的因数。例如，在距离阈值是5米并且估计的距离是2米的情况下，PlaybackVolumeTh可以是0.6，指示阈值音量是第一通信设备的最大回放音量抑制60％，即第一通信设备的最大回放音量的40％。如果所确定距离变得大于距离阈值，即在所确定距离与距离阈值之间的关系高于1的情况下，PlaybackVolumeTh将为0，因此指示阈值音量是第一通信设备的最大回放音量，即阈值音量是第一通信设备的最大回放音量抑制0％。

在一些实施例中，回放音量阈值是基于第二通信单元的麦克风增益来确定的。

可以至少部分地基于第二通信设备的麦克风增益来确定回放音量阈值。在一些实施例中，当第二通信设备的麦克风增益增大时，回放音量阈值可以减小。

回放音量阈值可以是或形成第二通信设备的麦克风增益的数学函数。回放音量阈值可以与第二通信设备的麦克风增益成反比。

在一些实施例中，该方法进一步包括以下步骤：确定第二通信设备的麦克风增益高于麦克风增益阈值，其中，响应于确定麦克风增益高于麦克风增益阈值而针对声学反馈的一个或多个措施包括：借助于缓解模块减小第二通信设备的麦克风增益。

麦克风增益的减小可以逐步执行或通过将麦克风增益抑制预定义量执行。可能地，麦克风增益可以抑制为处于麦克风增益阈值或低于麦克风增益阈值。在一些实施例中，第二通信设备的用户被警告麦克风增益抑制和/或可以在增益减小之后的预定时间段内防止增大增益。

在一些实施例中，麦克风增益阈值是基于第一通信设备与第二通信设备之间的距离来确定的。

麦克风增益阈值可以是麦克风增益的阈限值。附加地或替代性地，可以至少部分地基于第一通信设备与第二通信设备之间的距离来确定麦克风增益阈值。

在一些实施例中，麦克风增益阈值MicrophoneGain_Th可以表达为：

其中距离(distance)是第一通信设备与第二通信设备之间的所确定距离，并且dist_Th是距离阈值。在示例性实施例中，距离阈值可以是大约5米。MicrophoneGain_Th可以是抑制第二通信设备的最大麦克风增益的因数。例如，在距离阈值是5米并且估计的距离是2米的情况下，MicrophoneGain_Th可以是0.6，指示阈值麦克风增益是第二通信设备的最大麦克风增益抑制60％，即第二通信设备的最大麦克风增益的40％。如果所确定距离变得大于距离阈值，即在所确定距离与距离阈值之间的关系高于1的情况下，MicrophoneGain_Th将为0，因此指示麦克风增益阈值是第二通信设备的最大麦克风增益，即，麦克风增益阈值是第二通信设备的最大麦克风增益抑制0％。

在一些实施例中，麦克风增益阈值是基于第二通信单元的回放音量来确定的。

可以至少部分地基于第二通信单元的回放音量来确定麦克风增益阈值。

图2a示出了被配置成执行根据本公开的方法的通信系统2的第一实施例的示意性框图。

通信系统2包括第一通信设备21a和第二通信设备21b。第一通信设备21a与第二通信设备21b处于实时音频通信。经由服务器20路由实时音频通信。实时音频通信可以是包括实时音频传输的任何音频和/或视频通信，比如点对点通信(例比如，经由因特网协议的语音传输(VoIP)或软件电话(软电话))、或者对等式通信。

第一通信设备21a包括第一音频接口210a，该第一音频接口被配置成从第一通信设备21a的用户处录制音频并且向第一通信设备的用户回放音频。相应地，第二通信设备21b包括第二音频接口210b，该第二音频接口被配置成从第二通信设备21b的用户处录制音频并且向第二通信设备的用户回放音频。将理解，在其他实施例中，替代性地或附加地，可以给相应的音频接口210a、210b提供录制接口和回放接口。第一音频接口210a和第二音频接口210b可以包括：音频输入设备，比如麦克风；以及音频回放设备，比如音频处理器、头戴式耳机/扬声器插座、和/或一个或多个扬声器。

第一通信设备21a进一步包括处理器211a。处理器211a可以被配置成监测和注册：第一音频接口210a的回放模式(比如扩音器模式和头戴式耳机模式)、回放级别和麦克风增益，并且监测和注册第一通信设备21a的传感器信息(未在图2a中示出)。处理器211a还可以被配置成监测和注册第二通信设备21a的麦克风增益水平。传感器信息可以是来自第一通信设备21a的比如和/或Wi-Fi模块等无线通信接口(未在图2a中示出)的信息。处理器211a还可以被配置成检测第一通信设备是否与第二通信设备21b处于实时音频通信。

相应地，第二通信设备21b包括处理器211b。处理器211b可以被配置成监测和注册：第二音频接口210b的回放模式(比如扩音器模式和头戴式耳机模式)、回放级别和麦克风增益，并且监测和注册第二通信设备21b的传感器信息(未在图2a中示出)。处理器211b还可以被配置成监测和注册第二通信设备21b的麦克风增益水平。传感器信息可以是来自第二通信设备21b的比如和/或Wi-Fi模块等无线通信接口(未在图2a中示出)的信息。处理器211b还可以被配置成检测第二通信设备是否与第一通信设备21b处于实时音频通信。

尽管第一通信设备21a和第二通信设备21b被描述为类似，但应理解，它们可以是不同类型的设备。例如，第一通信设备21a和第二通信设备21b中的每一个可以是移动电话、平板计算机、个人计算机、服务器、个人数字助理等。

服务器20包括检测模块，该检测模块包括反馈状态检测模块30和反馈客户端检测模块31。反馈状态检测模块30被配置成确定在系统2中是否存在针对声学反馈采取一个或多个措施的需要。反馈状态检测模块30可以被配置成：基于第一通信设备21a中的硬件信息来确定第一通信设备21a是否处于扩音器模式；基于第一通信设备21a中的连接信息来确定第一通信设备21a是否与第二通信设备21b处于实时音频通信；以及基于第一通信设备21a中的传感器信息来确定第一通信设备21a和第二通信设备21b是否处于同一声学空间中。在一些实施例中，反馈状态检测模块30被配置成从第一通信设备21a和/或第二通信设备21b接收传感器信息、以及关于回放模式、回放音量、传感器信息、麦克风增益和/或任何可能的实时音频通信中的一个或多个的信息。

反馈客户端检测模块31可以被配置成识别通信设备21a、21b中哪一个引起声学反馈和/或使系统处于可能发生反馈的状态。反馈客户端检测模块31可以被配置成基于来自客户端状态检测模块30和/或第一通信设备21a和/或第二通信设备21b的信息来识别这种通信设备21a、21b。在其他实施例中，客户端状态检测模块30可以被配置成执行反馈客户端检测模块31的功能。

此外，服务器20包括缓解模块32。缓解模块可以被配置成可能地在来自检测模块(比如来自反馈状态检测模块30和反馈客户端检测模块31中的一个或多个)的请求后针对反馈采取措施。缓解模块32可以以通信方式耦接到检测模块和/或第一通信设备21a和第二通信设备22。关于方法1描述了针对声学反馈的措施的进一步细节和示例。

图2b示出了被配置成执行根据本公开的方法的通信系统2′的第二实施例的示意性框图。

系统2′包括第一通信设备21a′、第二通信设备21b′和服务器20′。类似于在图2a中示出的系统2，第一通信设备21a′与第二通信设备21b′处于实时音频通信。经由服务器20′路由实时音频通信。

第一通信设备21a′包括第一音频接口210a和处理器211a，如关于在图2a中示出的第一通信设备21a所描述的。相应地，第二通信设备21b′包括第二音频接口210b和处理器211b，如关于在图2a中示出的第二通信设备21b所描述的。

然而，系统2′的第一通信设备21a′包括第一检测模块和第一缓解模块32a，该第一检测模块包括第一反馈状态检测模块30a和第一反馈客户端检测模块31a。第一反馈状态检测模块30a和第一反馈客户端检测模块31a可以是和/或包括与关于在图2a中分别示出的服务器20的反馈状态检测模块30、反馈客户端检测模块31和缓解模块32所描述类似的特征。

此外，系统2′的第二通信设备21b′包括第二检测模块和第二缓解模块32b，该第二检测模块包括第二反馈状态检测模块30b和第二反馈客户端检测模块31b。第二反馈状态检测模块30b和第二反馈客户端检测模块31b可以是和/或包括与关于在图2a中分别示出的服务器20的反馈状态检测模块30、反馈客户端检测模块31和缓解模块32所描述类似的特征。

第一缓解模块32a和第二缓解模块32b中的每一个可以被配置成分别从第一检测模块和第二检测模块接收针对声学反馈采取措施的请求。替代性地或附加地，第一缓解模块32a和第二缓解模块32b中的每一个可以被配置成分别从第二检测模块和第一检测模块接收针对声学反馈采取措施的请求。

如在图2b中示出的，服务器20′不包括检测模块和缓解模块中的任一个。然而，将理解，在一些实施例中，服务器以及第一通信设备和第二通信设备中的一个或多个可以包括相应的检测模块和缓解模块。

图2c示出了被配置成执行根据本公开的方法的通信系统2″的第三实施例的示意性框图。

通信系统2″包括第一通信设备21a″、第二通信设备21b″和服务器20″。类似于在图2a和图2b中示出的系统2、2′，第一通信设备21a″与第二通信设备21b″处于实时音频通信。经由服务器20″路由实时音频通信。

第一通信设备21a″包括第一音频接口210a和处理器211a，如关于在图2a和图2b中分别示出的第一通信设备21a和21a′所描述的。类似于第一通信设备21a′，第一通信设备21a″进一步包括第一检测模块，该第一检测模块包括第一反馈状态检测模块30a和第一反馈客户端检测模块31a。相应地，第二通信设备21b″包括第二音频接口210b和处理器211b，如关于在图2a和图2b中分别示出的第二通信设备21b和21b′所描述的。类似于第二通信设备21b′，第二通信设备21b″进一步包括第二检测模块，该第二检测模块包括第二反馈状态检测模块30b和第二反馈客户端检测模块31b。

然而，在系统2″中，服务器20″包括缓解模块32，如关于在图2a中示出的系统2所描述的。因此，中央缓解模块32可以被设置成、可能被配置成与第一通信设备21a″和第二通信设备21b″的相应缓解模块处于通信。因此，缓解模块32可以被配置成从第一通信设备21a″和/或第二通信设备21b″接收针对声学反馈采取措施的请求。

通信系统2、2′、2″被配置成执行方法1。将根据方法1进一步示例性地描述通信系统2、2′、2″的特征。然而将理解，方法1可以由不同于在图2a至图2c中示出的通信系统的示例性实施例的系统执行。

图3示出了被配置成执行根据本公开的方法的包括电路的通信设备4的示意性框图。

通信设备4包括音频接口40和处理器41。音频接口被配置成从第一通信设备4的用户处录制音频并且向第一通信设备的用户回放音频。在其他实施例中，替代性地或附加地，可以给音频接口40提供录制接口和回放接口。音频接口40可以包括：音频输入设备，比如麦克风；以及音频回放设备，比如音频处理器、头戴式耳机/扬声器插座、和/或一个或多个扬声器。通信设备4可以包括用于无线通信的无线通信接口(未示出)，比如或Wi-Fi无线通信接口。

此外，通信设备4包括处理器41。处理器41可以被配置成监测和注册：音频接口40的回放模式(比如扩音器模式和头戴式耳机模式)、回放级别和麦克风增益，并且监测和注册通信设备4的传感器信息(未在图3中示出)。处理器41还可以被配置成监测和注册通信设备的麦克风增益水平，该通信设备以该麦克风增益水平处于实时音频通信。传感器信息可以是来自通信设备4的比如和/或Wi-Fi模块等无线通信接口(未在图2a中示出)的信息。处理器211a还可以被配置成检测通信设备4是否与第二通信设备处于实时音频通信。

通信设备4还可以包括检测模块和缓解模块中的一个或多个，该检测模块可能包括反馈状态检测模块和反馈客户端检测模块。其任何一个或多个的功能可以由处理器41提供。检测模块和/或缓解模块在这种设置在通信设备4中的情况下可以像关于方法1和/或系统2、2′或2″所描述的那样。

图4示出了根据本公开的编码器5的示意性框图。

编码器5包括用于存储指令的存储器50、以及用于执行指令的处理器51。编码器5被配置成对音频信号进行编码，并且在已编码音频信号中包括指示是否需要针对声学反馈采取一个或多个措施的元数据。

编码器5可以从检测模块接收元数据是否应包括在已编码音频信号中的指示。检测模块可以是如关于图2a至图2c或图3中的任一个所描述的检测模块。

编码器5可以布置在第一通信设备处，第一通信设备被配置成与第二通信设备处于实时音频通信。

编码器5可以被配置成根据任何已知音频编解码器对音频进行编码，并且被配置成包括指示是否需要针对声学反馈采取一个或多个措施的元数据。

编码器5可以被配置成从检测模块(比如关于图2a、图2b和图2c中的任一个所描述的检测模块)接收指示。编码器5可以被配置成将这样的指示包括在元数据中。

图5示出了根据本公开的解码器6的示意性框图。

解码器6包括用于存储指令的存储器60、以及用于执行指令的处理器61。解码器被配置成对已编码音频信号进行解码；以及从已解码音频信号提取指示是否需要针对声学反馈采取措施的元数据。

解码器6可以布置在第二通信设备处，第二通信设备被配置成与第二通信设备处于实时音频通信。替代性地或附加地，解码器可以布置在服务器中，比如关于图2a、图2b和图2c中的任一个所描述的服务器20、20′、20″。

解码器6可以被配置成根据任何已知音频编解码器对音频进行解码，并且被配置成提取指示是否需要针对声学反馈采取一个或多个措施的元数据。在一些实施例中，解码器6可以被配置成向缓解模块传输指示是否需要针对声学反馈采取一个或多个措施的元数据以针对声学反馈采取措施。缓解模块可以是如关于图2a、图2b和图2c所描述的缓解模块32、3a、32b。

结束语

如本文所使用的，除非另有规定，否则使用序数形容词“第一”、“第二”、“第三”等来描述共同对象仅指示相似对象的不同实例被称为并且不旨在暗示这样描述的对象必须在时间上、在空间上、在排名上或以任何其他方式在给定顺序中。

在下文的权利要求和本文的描述中，术语包括(comprising)、由...包括(comprised of)或其包括(which comprises)中的任何一个是开放式术语，其意指至少包括随后的元素/特征，但不排除其他元素/特征。因此，当在权利要求中使用术语包括(comprising)时，该术语不应当被解释为限于在其之后列出的装置或元素或步骤。例如，包括A和B的设备的表达的范围不应限于仅由元件A和B构成。如本文使用的术语包括(including)或其包括(which includes)或包括(that includes)中的任何一个也是还意指至少包括跟在该术语后面的元件/特征但不排除其他元件/特征的开放式术语。因此，包括(including)与包括(comprising)同义并且意指包括(comprising)。

如本文所使用的，术语“示例性”在提供示例的意义上使用，而不是指示质量。即，“示例性实施例”是作为示例提供的实施例，而不一定是示例性质量的实施例。

应理解，在以上对本发明的示例性实施例的描述中，有时在单个实施例、图或其描述中将各种特征分组在一起，以便简化本公开，并且帮助理解各个创造性方面中的一个或多个。然而，本公开的这个方法不应当被解释为反映需要比每项权利要求中所明确叙述的特征多的特征的意图。相反，如以下权利要求所反映的，创造性方面在于少于单个前述所公开实施例的所有特征。因此，在具体实施方式后面的权利要求特此明确地并入到具体实施方式中，其中，每个权利要求都独立地作为本发明的单独实施例。

此外，虽然本文所描述的一些实施例包括其他实施例中所包括的一些特征而不包括其他实施例中所包括的其他特征，但是如本领域技术人员将理解的，旨在涵盖不同实施例的特征的组合并且不同实施例的特征的组合形成不同实施例。例如，在以下权利要求中，要求保护的实施例中的任一个都可以以任何组合来使用。

此外，本文某些实施例描述为可以通过计算机系统的处理器或通过执行功能的其他器件实施的方法或方法要素的组合。因此，具有执行这种方法或方法要素所需的指令的处理器形成用于执行方法或方法要素的手段。此外，本文所描述的装置实施例的元件是执行由元件所执行功能的器件的示例。

在本文提供的描述中，阐述了许多具体细节。然而应理解，可以在没有这些具体细节的情况下实践本发明的实施例。在其他实例中，未详细示出众所周知的方法、结构和技术，以便避免模糊对本说明书的理解。

因此，虽然已描述了本发明的具体实施例，但本领域的技术人员将认识到可以进行其他和进一步修改，并且旨在要求保护所有这些改变和修改。例如，上文给出的任何公式仅仅表示可以使用的程序。可以从框图中添加或删除功能，并且可以在功能块当中互换操作。所描述的方法可以添加或删除步骤。

上文所公开的系统、设备和方法可以被实施为软件、固件、硬件或其组合。例如，本申请的各方面可以至少部分地体现在设备、包括多于一个设备的系统、方法、计算机程序产品等中。在硬件实施方式中，以上描述中所提及的功能单元之间的任务划分不一定与物理单元的划分相对应；相反，一个物理部件可以具有多个功能，并且一个任务可以由若干个物理部件协作地执行。某些部件或所有部件可以被实施为由数字信号处理器或微处理器执行的软件或者被实施为硬件或专用集成电路。这种软件可以分布在计算机可读介质上，该计算机可读介质可以包括计算机存储介质(或非暂态介质)和通信介质(或暂态介质)。比如本领域技术人员所熟知的，术语计算机存储介质包括以用于存储比如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除的介质。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁性存储设备、或可以用于存储期望信息并且可以被计算机访问的任何其他介质。进一步地，本领域技术人员所熟知的是，通信介质通常以比如载波等所调制数据信号或其他传输机制的形式来体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。

可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面：

EEE1.一种用于管理通信系统中的实时音频通信中的声学反馈的方法，所述方法包括：

借助于检测模块基于第一通信设备中的硬件信息来确定所述第一通信设备是否处于扩音器模式；

借助于所述检测模块基于所述第一通信设备中的连接信息来确定所述第一通信设备是否与第二通信设备处于实时音频通信；

借助于所述检测模块基于所述第一通信设备中的传感器信息来确定所述第一通信设备和所述第二通信设备是否处于同一声学空间中；

在借助于所述检测模块确定：

所述第一通信设备处于扩音器模式，

所述第一通信设备和所述第二通信设备处于所述同一声学空间中时，

向缓解模块提供用于请求针对声学反馈采取的一个或多个措施的请求信号。

EEE2.根据EEE 1所述的方法，包括：

在借助于所述检测模块确定：

所述第一通信设备处于扩音器模式，

借助于所述检测模块确定所述第一通信设备中指示需要针对声学反馈采取措施的状态。

EEE3.根据EEE 1或2所述的方法，进一步包括：

响应于在所述缓解模块处接收到所述请求信号，由所述缓解模块提供针对声学反馈采取的一个或多个措施。

EEE4.根据前述EEE中任一项所述的方法，其中，针对声学反馈采取的所述一个或多个措施包括以下各项中的一项或多项：

借助于所述缓解模块减小所述第一通信设备的回放音量，

借助于所述缓解模块减小所述第二通信设备的麦克风增益，

向所述第一通信设备发送请求用户切换到头戴式耳机模式的通知，

向所述第一通信设备发送请求所述用户使所述第一通信设备的麦克风静音的通知，

向所述第一通信设备发送请求所述用户使所述第一通信设备的扩音器静音的通知，以及

抑制从所述第一通信设备接收的音频。

EEE5.根据前述EEE中任一项所述的方法，进一步包括：

借助于所述检测模块基于所述第一通信设备中的传感器信息来确定所述第一通信设备与所述第二通信设备之间的距离，

其中，如果所述第一通信设备与所述第二通信设备之间的所述距离小于距离阈值，则确定所述第一通信设备和所述第二通信设备处于所述同一声学空间中。

EEE6.根据EEE 2所述的方法，进一步包括：

在确定所述第一通信设备中的所述状态后，

借助于所述检测模块基于所述第一通信设备中的硬件信息来确定所述第一通信设备的回放音量；以及

借助于所述检测模块基于所述第二通信设备中的硬件信息来确定所述第二通信设备的麦克风增益。

EEE7.根据EEE 6所述的方法，其中，所述距离阈值是基于所述第一通信设备的所确定回放音量和所述第二通信设备的所确定麦克风增益的。

EEE8.根据前述EEE中任一项所述的方法，其中，所述方法进一步包括：

确定所述第一通信设备的回放音量高于回放音量阈值，

其中，响应于确定所述回放音量高于所述回放音量阈值而针对声学反馈采取的所述一个或多个措施包括以下各项中的一项或多项：

向所述第一通信设备发送请求所述用户切换到头戴式耳机模式的通知，

借助于所述缓解模块减小所述第一通信设备的回放音量。

EEE9.根据EEE 8所述的方法，其中，所述回放音量阈值是基于所述第一通信设备与所述第二通信设备之间的所述距离和所述第二通信单元的麦克风增益中的一个或多个来确定的。

EEE10.根据前述EEE中任一项所述的方法，其中，所述方法进一步包括：

确定所述第二通信设备的麦克风增益高于麦克风增益阈值，

其中，响应于确定所述麦克风增益高于所述麦克风增益阈值而针对声学反馈采取的所述一个或多个措施包括

借助于所述缓解模块减小所述第二通信设备的麦克风增益。

EEE11.根据EEE 10所述的方法，其中，所述麦克风增益阈值是基于所述第一通信设备与所述第二通信设备之间的所述距离和所述第二通信单元的回放音量中的一个或多个来确定的。

EEE12.根据前述EEE中任一项所述的方法，其中，所述第一设备的传感器信息是基于所述第一设备的无线通信接口的。

EEE13.根据前述EEE中任一项所述的方法，其中，所述检测模块和所述缓解模块中的一个或多个设置在所述第一设备中。

EEE14.根据前述EEE中任一项所述的方法，其中，所述通信系统包括第一客户端、第二客户端和通信服务器，其中，所述检测模块和所述缓解模块中的一个或多个设置在所述通信服务器中。

EEE15.根据前述EEE中任一项所述的方法，其中，所述缓解模块是使用机器学习算法训练的。

EEE16.一种包括电路的通信设备，所述通信设备被配置成执行根据前述EEE中任一项所述的方法。

EEE17.一种通信系统，所述通信系统包括第一通信设备、第二通信设备、检测模块和缓解模块，所述系统被配置成执行根据EEE 1至15中任一项所述的方法。

EEE18.一种包括指令的非暂态计算机可读存储介质，所述指令在由具有处理能力的设备执行时使所述设备执行如EEE 1至15中任一项所述的方法。

EEE19.一种编码器，所述编码器被配置成：

对音频信号进行编码；并且

在已编码音频信号中包括指示是否需要针对声学反馈采取一个或多个措施的元数据。

EEE20.一种解码器，所述解码器被配置成：

对已编码音频信号进行解码；并且

从已解码音频信号中提取指示是否需要针对声学反馈采取措施的元数据。

Claims

1.一种用于管理通信系统中的实时音频通信中的声学反馈的方法，所述方法包括：

借助于检测模块，基于第一通信设备中的硬件信息来确定所述第一通信设备是否处于扩音器模式；

借助于所述检测模块，基于所述第一通信设备中的连接信息来确定所述第一通信设备是否处于与第二通信设备的实时音频通信；

借助于所述检测模块，基于所述第一通信设备中的传感器信息来确定所述第一通信设备和所述第二通信设备是否处于相同声学空间中；

在借助于所述检测模块确定下列各项时，向缓解模块提供用于请求针对声学反馈的一个或多个措施的请求信号：

所述第一通信设备处于扩音器模式，

所述第一通信设备处于与所述第二通信设备的实时音频通信，以及

所述第一通信设备和所述第二通信设备处于所述相同声学空间中。

2.根据权利要求1所述的方法，进一步包括：

响应于在所述缓解模块处接收到所述请求信号，由所述缓解模块提供针对声学反馈的一个或多个措施。

3.根据前述权利要求中任一项所述的方法，其中，针对声学反馈的所述一个或多个措施包括以下各项中的一项或多项：

借助于所述缓解模块减小所述第一通信设备的回放音量，

借助于所述缓解模块减小所述第二通信设备的麦克风增益，

抑制从所述第一通信设备接收的音频。

4.根据前述权利要求中任一项所述的方法，进一步包括：

借助于所述检测模块，基于所述第一通信设备中的传感器信息来确定所述第一通信设备与所述第二通信设备之间的距离，

其中，如果所述第一通信设备与所述第二通信设备之间的所述距离小于距离阈值，则所述第一通信设备和所述第二通信设备被确定为处于所述相同声学空间中。

5.根据权利要求4所述的方法，进一步包括：

借助于所述检测模块，基于所述第一通信设备中的硬件信息来确定所述第一通信设备的回放音量；以及

借助于所述检测模块，基于所述第二通信设备中的硬件信息来确定所述第二通信设备的麦克风增益，

其中，所述距离阈值基于所述第一通信设备的所确定回放音量和所述第二通信设备的所确定麦克风增益。

6.根据前述权利要求中任一项所述的方法，其中，所述方法进一步包括：

确定所述第一通信设备的回放音量高于回放音量阈值，

其中，响应于确定所述回放音量高于所述回放音量阈值，针对声学反馈的所述一个或多个措施包括以下各项中的一项或多项：

向所述第一通信设备发送请求所述用户切换到头戴式耳机模式的通知，借助于所述缓解模块减小所述第一通信设备的所述回放音量，

其中，所述回放音量阈值是基于所述第一通信设备与所述第二通信设备之间的所述距离和所述第二通信单元的麦克风增益中的一个或多个来确定的。

7.根据前述权利要求中任一项所述的方法，其中，所述方法进一步包括：

确定所述第二通信设备的麦克风增益高于麦克风增益阈值，

其中，响应于确定所述麦克风增益高于所述麦克风增益阈值，针对声学反馈的所述一个或多个措施包括

借助于所述缓解模块减小所述第二通信设备的所述麦克风增益，

其中，所述麦克风增益阈值是基于所述第一通信设备与所述第二通信设备之间的所述距离和所述第二通信单元的所述回放音量中的一个或多个来确定的。

8.根据前述权利要求中任一项所述的方法，其中，所述第一设备的传感器信息基于所述第一通信设备的非声学传感器。

9.根据权利要求8所述的方法，其中，所述第一设备的所述传感器信息基于所述第一设备的无线通信接口。

10.根据前述权利要求中任一项所述的方法，其中，所述检测模块和所述缓解模块中的一个或多个被提供在所述第一设备中，或者其中，所述通信系统包括第一客户端、第二客户端和通信服务器，其中，所述检测模块和所述缓解模块中的一个或多个被提供在所述通信服务器中。

11.根据前述权利要求中任一项所述的方法，其中，所述第一通信设备包括内置扩音器，并且其中，所述第二通信设备包括内置麦克风。

12.一种包括电路系统的通信设备，所述电路系统被配置成执行根据前述权利要求中任一项所述的方法。

13.一种通信系统，所述通信系统包括第一通信设备、第二通信设备、检测模块和缓解模块，所述系统被配置成执行根据权利要求1至11中任一项所述的方法。

14.一种包括指令的非暂态计算机可读存储介质，所述指令在由具有处理能力的设备执行时使所述设备执行如权利要求1至11中任一项所述的方法。

15.一种编码器，所述编码器被配置成：

对音频信号进行编码；并且

在经编码音频信号中包括指示是否需要针对声学反馈的一个或多个措施的元数据。

16.一种解码器，所述解码器被配置成：

对经编码音频信号进行解码；并且

从经解码音频信号中提取指示是否需要针对声学反馈的措施的元数据。