CN114915275A

CN114915275A - 两级数字自动增益控制

Info

Publication number: CN114915275A
Application number: CN202110179609.XA
Authority: CN
Inventors: Y·饶; Y·王; J·李
Original assignee: Zuma Video Communications
Current assignee: Zuma Video Communications
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-08-16
Also published as: US20240088856A1; WO2022170003A1; EP4289066A1; US20220255518A1; US11258416B1; US11863143B2

Abstract

公开了用于自动控制音频和视频会议应用中的增益以保持预定的和稳定的音频电平的系统和方法。在一个实施例中，第一级基于信号电平的长期估计来应用第一级增益，而基于信号电平的短期估计的第二级增益辅助该第一级增益达到目标电平。长期电平估计的一些实施例利用缓冲区的统计分析来验证或达到更精确的长期信号电平估计。

Description

两级数字自动增益控制

技术领域

本申请涉及视频会议会话期间语音的自动增益控制领域。

技术背景

本节内容中描述的方法是可以采用的方法，但不一定是以前设想或采用的方法。因此，除非另有说明，不应假设本节内容中描述的任何方法仅仅因为包含在本节内容中而被作为是现有技术。

音频或视频会议应用允许人们在远程位置通过音频和视频媒体实时地相互通信。在一些实例中，期望以可预测且稳定的增益电平来呈现、获取以及发送音频，以便在接收器侧提供舒适且一致的音频。

发明内容

所附权利要求可作为本申请的发明内容。

附图说明

本文提供的这些附图和相关描述是用于说明本发明的具体实施例，而并非旨在对其进行限制：

图1示出了可以在其中实施实施例的网络化计算机系统的框图；

图2示出了根据实施例的两级自动增益控制（AGC）；

图3示出了根据实施例的长期电平估计器的框图；

图4示出了音频数据中可能存在的一些示例高斯分布的曲线图；

图5示出了在接近理想的情境下相对于期望目标电平的各种语音电平的曲线图；

图6示出了根据实施例的处理变量电平语音的曲线图；

图7示出了当AGC处于汇聚状态并且输入信号开始下降到其最近估计的语音电平以下时的情境的曲线图；

图8示出了AGC处于汇聚状态以及当输入信号电平上升到先前估计的电平以上时的示例操作；

图9示出了根据实施例的视频会议应用中的自动增益控制方法的流程图；和

图10示出了一些实施例可在其中操作的环境。

具体实施方式

某些实施例的以下详细描述呈现了本发明的具体实施例的各种描述。但是，如权利要求所限定和覆盖的，本发明可以以多种不同的方式体现。在本说明书中，参考了附图，其中相同的附图标记可以表示相同或功能相似的元件。

除非另外定义，本文使用的所有术语具有与本发明所属领域的技术人员通常理解的相同的含义。整个本文公开内容提及的所有专利、专利申请、以及出版物通过引用以其全文并入。如果本文有多个术语定义，则以本节内容中的定义为准。除非另有说明，当术语“一种”、“一个”或“一”在本公开中使用时，它们表示“至少一个”或“一个或多个”。

概述

计算机网络上的视频会议已经存在，并在现代职场中发挥着越来越重要的作用。在新冠肺炎大流行期间，随着各政府机关的远程办公和就地安置规定的出现，强大的视频会议系统的作用变得更加重要。有各种组件（本地的和远程的）协同工作来实施视频会议系统。典型的视频会议应用包含客户端应用，该客户端应用可以在台式机、笔记本电脑、智能电话或类似的固定或移动计算设备上运行，并且可以捕获视频和音频并将它们发送至接收方计算机。期望在目标电平上捕获音频。为此，可以使用增益控制模块来操纵接收的音频电平。该设备必须对接收的音频信号应用一个或多个增益参数，以便将其提升或降低到目标电平。增益控制模块可能必须估计信号电平，该信号电平可以跟踪当前或未来信号值的真实信号电平。估计的信号电平可用于生成一个或多个对应的增益值，以将接收的信号转换为目标电平。所描述的实施例包含两级自动增益控制（AGC）模块，其可以通过应用适当量的数字增益而将输入信号放大至目标电平。在一些实施例中，增益包含基于长期信号电平估计的增益和基于短期信号电平估计的增益。取决于AGC模块是否已经达到稳定、汇聚阶段，并且基于将要描述的其他环境，可以不同地应用增益。

视频会议应用的示例环境

图1示出了可以在其中实施实施例的网络化计算机系统。在一种方法中，服务器计算机140耦接到网络130，网络130也耦接到客户端计算机100、110、120。为了说明一个清楚的示例，图1示出了有限数量的元件，但是在实际的实施例中，可以有任意数量的图1所示的元件。例如，服务器计算机140可以表示在数据中心、云计算环境或其他大规模计算环境中的大量的应用服务器实例当中运行一个或多个应用服务器的服务器计算机实例。也可能有数百、数千或数百万台客户端计算机。

在实施例中，服务器计算机140主持视频会议，向客户端计算机100、110、120中每一个客户端计算机发送并从其接收视频、图像以及音频数据。

客户端计算机100、110、120中每一个客户端计算机均可以是具有以下各项的计算设备：中央处理单元（CPU）、图形处理单元（GPU）、一条或多条总线、被组织为易失性和/或非易失性存储器的内存、一个或多个数据输入设备、一个或多个输入/输出（I/O）接口、一个或多个输出设备（比如扬声器、耳机、头戴式耳机以及线路输出（LINE-OUT）插孔）以及相关软件驱动器。客户端计算机100、110、120中每一个客户端计算机均可包含集成的或独立的显示单元，比如计算机屏幕、触摸屏、电视（TV）屏幕或其他显示器。客户端计算机100、110、120可包括任何移动的或固定的计算机，包含台式计算机、笔记本电脑、上网本、超极本、平板计算机、智能手机等。GPU和CPU可以各自管理独立的硬件内存空间。例如，CPU内存可以主要用于存储与应用程序相关联的程序指令和数据，而GPU内存可以具有连接至GPU的高速总线，并且可以直接映射到与液晶显示器（LCD）、有机发光二极管（OLED）或用作显示器的其他显示技术相关联的行/列驱动器或驱动电路。在一个实施例中，网络130是互联网。

在实施例中，客户端计算机100、110、120中每一个客户端计算机均托管视频会议应用，该视频会议应用允许客户端计算机100、110、120中每一个客户端计算机与服务器计算机140通信。在实施例中，服务器计算机140可以维护多个用户账户，每个用户账户与客户端计算机100、110、120中一个客户端计算机和/或客户端计算机的一个或多个用户相关联。

在其他功能当中，运行在客户端计算机上的视频会议应用可以捕获音频并将其发送至服务器计算机140。通常，捕获的音频信号具有多种特性和参数。由客户端设备捕获的音频信号被转换成数字音频信号，该数字音频信号可以具有信号电平。音频信号中的“电平”可以等同于人感知的音频信号音量。数字信号电平还涉及音频信号的另一种被称为增益的特性。增益可以指添加到音频信号或从音频信号中减去的信号电平量。在本文中，信号电平、增益以及类似的术语可以用分贝（dB）来表示。相关的概念有dBov或dBO，又被称为dB过载，可以指在削波发生之前设备可以处理的信号电平或增益电平，通常是音频。

两级AGC

在视频会议中，可能期望保持稳定的音频信号电平和/或音频信号电平增益。这将帮助计算机服务器140或其他接收方客户端计算机接收一致的音频，并为音频信号的接收方产生更舒适的听觉体验。为此，可以将自动增益控制（AGC）模块嵌入运行在客户端计算机100、110以及120上的视频会议应用中，以控制捕获的音频信号的增益和信号电平。下面，将描述可以将其嵌入客户端计算机100、110以及120中的AGC模块的几个实施例。

图2示出了根据实施例的两级自动增益控制（AGC）200。未知的和潜在的变量语音电平的输入信号202通过AGC 200进行处理，并生成已知目标声音电平224的输出信号224。以已知目标电平生成的输出信号224可以被发送至服务器计算机140，并随后被发送至下游客户端计算机100、110、120。输出信号224可以以目标电平生成，该目标电平适合于高质量的传输，并且适合于在接收器端生成舒适的听觉体验，而没有太多噪声或干扰。在一些实施例中，视频会议系统内的目标电平可以根据经验或者通过分析多个设备、不同的麦克风以及变化的会议参数之间的过去的视频会议记录来确定。在一些实施例中，输出信号224的目标电平可以在-20dB至-25dB。在一些实施例中，该目标电平范围可以使发送太响亮的和/或具有不期望的削波、回声或其他特性的信号电平的几率降低或最小化。在一些实施例中，AGC 200可以被配置为有意丢失目标电平，以便使信号过度放大的几率降低或最小化，过度放大可能比放大不足对音频质量更有害。

输入信号202可以通过第一级204馈送。在一些实施例中，第一声音活动检测器（VAD1）206可以接收输入信号202并滤除噪声分量，从而允许输入信号202的语音分量传递到长期电平估计器208。长期电平估计器208预测未来持续时间的语音电平，例如接下来2-5秒的音频。在一些实施例中，长期水平估计器208的结果可以由验证模块218来验证。如果长期估计是有效的，则可以生成第一级增益G1，并通过增益表组216将其应用于输入信号202。验证模块218可以对输入缓冲区执行统计分析，以确定长期估计是否可信，从而生成对应的第一级增益G1以应用于输入信号202。

第一级增益G1是基于未知的和估计的语音电平变量而生成的。结果是，由于第一级增益G1而放大的输入信号可逐渐转换为期望目标电平。例如，在视频会议开始时，长期电平估计器208可能没有足够的传入音频数据来产生语音电平估计。在其他状况下，为了进行长期语音电平估计而要缓冲和处理的底层数据可能需要一段时间来累积和处理。由于这些和其他原因，第一级增益G1在其可以将输入信号202放大到输出信号224的期望目标电平之前需要一段时间。其中第一级将信号电平逐渐增加到目标电平的时间段可以被称为未汇聚时间段、未汇聚情形或状态，并且未汇聚状态期间的输入信号电平可以被称为未汇聚信号电平。可选地，可以说，第一级增益还没有稳定，或者在未汇聚时间段期间还没有汇聚。如将要描述的，由第二级产生的第二级增益G2可以辅助第一级增益在未汇聚时间段期间将输入信号202放大至目标电平。当第一增益G1达到稳定电平时，在该稳定电平下，第一增益G1可以无辅助地将输入信号202放大至目标电平，则第二级增益G2可以被削波到最小值（例如，小于5dB）。在此期间（或在此之后）第一级增益G1可以无辅助地将输入信号202放大至期望目标电平的时间段可以被称为汇聚时间段、汇聚情形或状态，并且汇聚时间段期间的信号电平可以被称为汇聚电平。

换句话说，第一级增益G1是基于长期估计计算（例如，即将到来的2-5秒音频）的并因此是逐渐确定的值，第一级增益G1逐渐被应用于输入信号202并因此逐渐放大输入信号202。如将要描述的，第二级增益G2是基于短期信号电平估计（例如，200毫秒至1.5秒）而确定的，并且结果是可以瞬时地、接近瞬时地或者与来自第一级的增益贡献相比具有小得多的延迟地将输入信号202转换为目标电平。可以基于第一级增益G1的当前值来应用第二级增益G2，以辅助第二级增益G2将输入信号202转换为目标电平。换句话说，应用于输入信号202的第一级增益和第二级增益的总和可以将输入信号202转换为目标电平。

如先前描述的，第二级210可以用于在未汇聚的持续时间期间或在其他情况下辅助第一级204，其中可能需要对第一级立即或接近立即的辅助来将输入信号202放大至目标电平。如先前描述的，第一级增益G1可以在其可以汇聚并达到稳定状态之前实施输入信号202的逐渐放大。在未汇聚状态期间，没有第二级的辅助的情况下，发送的音频可能在目标电平以下或以上，从而在接收端产生不期望的或不舒适的听觉体验。第二级210可以被配置为接收输入信号202并进行短期信号电平估计，在此情况下可以确定第二级增益G2并将其应用于输入信号202。第二级增益G2以及第一级增益G1的当前值可以影响输入信号202立即、接近立即或短期放大至期望目标电平。在一些实施例中，这可以通过增益表组216来实施，增益表组216可以接收第一级增益G1和第二级增益G2，并将它们的总和应用于输入信号202，以生成期望目标电平的输出信号224。

在一些实施例中，第二级210可以包含第二声音活动检测器（VAD2）212，其滤除噪声和干扰，并将输入信号202的语音分量馈送至短期电平估计器214。为了估计短期语音电平，短期电平估计器214可以相对于长期电平估计器208处理的语音间隔来分析短持续时间的语音间隔。如先前描述的，短持续时间可以在200毫秒至1.5秒。第二级增益G2可以是基于短期电平估计器214的输出而生成的。在一些实施例中，短期信号电平估计可以是由短期电平估计器214分析的语音间隔中的语音电平的平均值。

第一和第二声音活动检测模块

如先前描述的，第一级和第二级均可以利用声音活动检测器来滤除噪声，并将传入音频的声音分量馈送至短期和长期电平估计器。第一级被配置为对传入音频进行长期估计，在此情况下，与第二级增益贡献相比，可以生成第一级增益G1并对其应用相对长的持续时间。例如，如将要描述的，一旦第一级增益稳定并且可以无辅助地将输入信号202转换为目标电平，那么第二级增益G2就被削波到最小值。这是为了保持整体稳定增益（整体增益G=G1+G2）。一旦汇聚，第一级增益G1就会贡献将输入信号202放大至目标电平所需的全部或大部分增益，并在音频会议期间对其应用相对较长的时间段。

第一级增益G1是基于由第一声音活动检测器（VAD1）206产出的声音分量的长期信号电平。结果是，更期望将第一声音活动检测器（VAD1）配置为具有高噪声抑制比，并产生更信赖的声音（而不是噪声）的输出。高噪声抑制比VAD1可以使长期估计和最终增益基于噪声的几率降低或最小化。这可能会导致VAD1丢失一些声音数据，但其输出是具有高置信度（例如，在90%以上）的语音数据。相比之下，短期电平估计器214对语音数据做出响应很快。结果是，更期望VAD2212具有高度语音灵敏度。虽然这在一些情况下可能导致VAD2错误地将噪声表征为语音数据，但这也可能意味着VAD2丢失的语音数据更少（例如，小于10%）。

因此，在实施例中，VAD1被配置为或被选择为具有高噪声抑制（更倾向于抑制噪声）的类型，而VAD2被配置为或被选择为具有高声音灵敏度（更倾向于检测语音）的类型。例如，VAD1对抑制噪声的灵敏度可以在90%以上，或者其输出是置信度为90%或更高的声音。VAD2对检测语音数据的灵敏度可以在90%以上，或者其输出被保证或接近保证在其输入音频流中捕获90%或更多的声音数据。所述规格和灵敏度是示例，旨在说明VAD1和VAD2之间的关系及它们各自的配置。本领域普通技术人员可以用不同于上述的灵敏度和阈值来配置AGC 200，但不脱离所公开技术的精神。

估计长期信号电平

图3示出了根据实施例的长期电平估计器300的框图。馈送数据302可以是输入信号202的一部分，例如，由第一声音活动检测器206处理的输入信号302的一部分，如结合图2的实施例所讨论的。在这种情境下，馈送数据302可以包含由第一声音活动检测器206处理的输入信号202的语音分量。馈送数据302可以累积在缓冲区中，比如环形缓冲区304。在一些实施例中，环形缓冲区304存储传入语音的预定窗口大小，比如先前或最近接收的5秒语音。环形缓冲区304的大小可以是根据经验或基于对其他记录的视频会议的分析确定的，以确定允许有效处理、传输以及听觉体验的适当的缓冲区大小。在其他实施例中，环形缓冲区的大小可以由视频会议应用程序中的现有缓冲区来确定。环形缓冲区304，可选地可以被称为长期缓冲区，它的大小的示例范围可以是2至5秒最近接收到的语音。

可在短于环形缓冲区的大小的语音间隔中接收馈送数据302。例如，可以在10毫秒（ms）间隔内接收馈送数据302，并且在滚动的基础上（例如，先进先出或FIFO）在环形缓冲区304中累积馈送数据302。统计分析单元306对环形缓冲区304中的数据执行统计分析，并且基于该分析可以生成长期信号电平估计（或者它可以更新先前生成的信号电平估计）。可选地，统计分析单元306可以基于其对环形缓冲区304的统计分析结果来保持先前生成的长期电平估计。

在一个实施例中，统计分析模块308可以生成环形缓冲区304中的音频信号数据的电平的直方图。一种用于获取直方图电平的方法可以是将环形缓冲器304中的数据划分成预定间隔（例如，2ms），并计算每个间隔的均方根（RMS）。直方图电平可用于获取环形缓冲区304中信号电平的高斯分布。高斯分布可以用于确定可以从环形缓冲区304中的数据中获取的长期电平估计的有效性。高斯分布可以指示新的信号电平估计（例如，平均值处的信号电平）。高斯分布也可以用于验证最近导出的估计，如将结合图4进一步描述的。在框312、框314，长期电平估计器300确定是否要保持先前确定的信号电平估计（框314），或者是否应该使用新的信号电平估计来更新先前估计的信号电平（框312）。

图4示出了环形缓冲区304数据中可能存在的一些示例高斯分布的曲线图400。横轴表示以分贝为单位的信号电平，纵轴表示具有横轴所示信号电平的信号数据的分布。同时参考图3和图4，在曲线图402中，馈送数据302是稀疏的（或许是在视频呼叫会话的开始）。在曲线图402和403中，馈送数据302开始在环形缓冲区304中积累更多，并且在环形缓冲区304中数据的高斯分布中观察到更钟形的曲线。在一些实施例中，曲线图406，示出了-30dB左右的明显峰值，其可以指示可以从环形缓冲区406中数据获取有效的长期估计。曲线图408和410示出了高斯分布分别向左或向右偏斜的情形，指示了或许是说话者已经离开或走向麦克风。

取决于第一级是否处于汇聚状态，第一级和第二级可以被配置为响应曲线图408和410中呈现的情形。例如，在未汇聚状态下，可以选择与大部分环形缓冲区304数据的信号电平相对应的信号电平作为长期估计。在一些实施例中，可以选择平均值或众数作为长期信号电平估计。在未汇聚状态下，长期电平估计器300可以被配置有通过不更新信号电平估计来响应左偏斜曲线图（例如，408）的逻辑，以便使无意过度放大的几率降低或最小化。对于在AGC 200处于汇聚状态时检测的右偏斜高斯分布来说，AGC 200可以被配置为转换回未汇聚状态，以确定第二级增益，从而将信号电平返回到目标电平。

当在环形缓冲区304中已经接收到来自多个说话者的音频流时，可以出现曲线图412。在这种情境下，长期电平估计器300可被配置为忽略电平估计中的新变化，并且不更新信号估计电平（框314）。可选地，它可以使用另一个统计上期望的参数，比如高斯分布的均值或模来更新信号电平（框312）。曲线图414示出了当高斯分布中可能存在多个不同的峰值时，如果存在噪声或干扰，则可能发生的情形。

在一些实施例中，统计分析单元306可以确定多峰值高斯分布中的平均值和模之间的差是否超过预定阈值（例如，5dB），并且当均值和模之间的距离超过该阈值时，抑制生成新的长期电平估计和/或抑制更新长期电平估计。在这种情境下，长期电平估计器300执行框314，并保持先前确定的长期信号电平估计。换句话说，高斯分布中平均值和模之间的距离（大于阈值）可以指示的是，环形缓冲区304中声音数据的数据完整性不足以保证改变先前确定的长期信号电平估计。

AGC的示例操作

图5示出了在接近理想的情境下相对于期望目标电平的各种语音电平的曲线图500，其中真实语音电平和估计的语音电平是相同的，并且在所示的时间段内保持不变。横轴表示时间，纵轴表示以dB为单位的语音（信号）电平。曲线图500示出了将正增益应用于输入信号202以将其放大至目标电平的情形，但是所描述的实施例也可以应用于通过应用负增益来降低语音电平（真实语音电平）以达到目标语音电平的情形和输入信号。在未汇聚状态期间，从0到Tc（汇聚时间），第一级增益G1逐渐将输入信号电平（真实语音电平）向目标电平递增。在此期间，第二级增益G2补偿了将输入信号电平放大至目标电平所需的增益量。换句话说，应用于输入信号电平的第一级增益和第二级增益的总和（G1+G2）将把输入信号电平转换为目标电平。在未汇聚时间段（0至Tc）期间，第一级增益G1是在总增益G中绝对值逐渐增加的参数，第二级增益G2是绝对值逐渐减小的参数，因为越来越多的总增益或大部分增益（G）可以由第一级增益的贡献来补偿。接近或大约在汇聚时间（Tc），第二级增益接近于零或小值（例如，小于5dB），同时由于第一级G1而产生的增益达到稳定电平，该稳定水平无辅助地将输入信号电平放大至目标电平。在本说明书的上下文中，术语放大与降低信号同义，并且在数字信号放大的上下文中使用，这是通过对信号数字地增加或减少适当量的第一级增益G1和/或第二级增益G2来实现的。

在一些实施例中，可以使用以下技术将AGC 200设定在汇聚状态下。当放大信号和目标电平之间的差在阈值内或小于阈值时，例如5dB，汇聚计数器递增。如果汇聚计数器达到预定阈值的值（例如，大于10-30）以上，AGC 200和第一级被置于汇聚模式。该模式可以存储在状态机、内存或其他存储组件中。

第二级增益G2可以是容易出现较大变化的，因为它是基于短期估计的，可能会受到噪声或干扰的影响。在汇聚模式期间，第一级增益G1可以变得稳定，但是如果不检查，第二级增益G2仍然可以变化很大。在一些实施例中，当AGC 200处于汇聚模式时，第二级增益G2可被削波到小于5dB的值，以防止或降低第二级增益G2破坏整体增益的几率。

另外，为了防止整体增益多次汇聚，可以在将对应的增益应用于输入信号之前，在本地记录最后汇聚的信号电平，并与新的汇聚的电平进行比较。这可以有助于防止或降低噪声环境中发散的整体增益。

图6示出了通过AGC 200处理变量电平语音的曲线图600。真实语音电平602是变量语音电平，如在典型的视频会议中可能遇到的，其中说话者的语音电平上升和下降。在汇聚时间Tc之前，第一增益G1和第二级增益G2一起将输入信号电平（真实语音电平）602转换为目标电平。估计的信号电平可以密切跟踪从其生成第一级增益G1的真实语音电平，并将其应用于输入信号电平（真实语音电平）602。第二级增益G2补偿了目标电平和由第一级增益G1放大的信号之间的差。当达到汇聚时间Tc时，第一级增益G1已经达到稳定值，并且可以保持完全或几乎完全无辅助地将输入信号电平602放大至目标电平。第二级增益G2可以被削波到小于阈值的值，例如5dB或更小，以保持整体增益稳定。

在一些情境下，可能期望避免将输入信号放大至目标电平。例如，在AGC 200已经达到汇聚（时间>Tc）时，当说话者离开麦克风时，第一级增益G1和第二级增益G2可以对所应用的增益作出反应并增加该增益，以将现在较低电平的输入信号放大至目标电平。然而，在一些情况下，这种情境会导致重新汇聚到目标电平以上的响亮的信号电平。一般来说，响亮的信号和过度放大的信号会产生更不舒适的听觉体验，并且可能更难纠正。对于这种情境来说，其中AGC 200已经处于汇聚模式，并且当输入信号电平下降时，AGC 200可以被配置为不对信号电平的下降做出反应，并且不增加增益G1和/或G2。例如，长期估计器模块300可以被配置为当AGC 200处于汇聚模式并且语音电平下降到汇聚水平以下时，不更新估计的语音电平。该情境如图7所示。

图7示出了当AGC 200处于汇聚状态并且输入信号开始下降到其最近估计的语音电平以下时的情境的曲线图700。在该示例中，第一级增益在汇聚时间Tc稳定，并且处理后的信号（输入信号加上G1+G2）在汇聚时间处于目标电平。此后不久，真实语音电平702开始下降到汇聚电平以下。在这种情境下，可以在长期估计器模块300的操作中编码异常，其中当语音电平在已经汇聚的时间段期间开始下降时，不更新长期估计。例如，长期估计器模块可以作废与下降语音电平相对应的新的长期估计，因此，AGC 200将继续应用第一级增益G1的先前值，该值先前已经在汇聚时间Tc稳定。在不对该异常进行编码的情况下，长期估计器300将更新长期语音电平估计，从而使AGC 200转换出汇聚状态，并为G1和G2生成新的值，直到下降后的语音电平恢复到目标电平。换句话说，无一例外，AGC 200将试图通过应用新计算的增益值来达到目标电平，如果说话者很快回到先前位置，这可能会导致多重汇聚和响亮的音频，从而导致输入信号的过度放大。

如上所述，当编码异常时，允许处理后的信号（真实语音电平加上增益）下降到目标电平以下。这是可以接受的，因为目标电平以下的信号电平比潜在的响亮信号更不容易出现音频处理问题。

在一些实施例中，与下降信号电平相关的异常可以在实施长期电平估计器300的动作的逻辑中编码。例如，实施长期电平估计器300的功能的源代码可以包含检测条件的条件代码行，比如处于汇聚状态下的AGC 200和下降到汇聚电平以下的输入信号。当满足条件时，长期电平估计器300将不更新并不输出新的语音电平估计；相反，它保持先前的语音估计电平，从而导致AGC 200不会改变第一级增益G1和第二级增益G2的值。

可以编码另一个异常，并且其涉及当AGC 200处于汇聚状态时，真实语音电平上升到汇聚电平以上的时间。在该实例中，AGC 200可以被配置为通过应用适当的、新计算的第一级增益G1和第二级增益G2的值来将放大的信号恢复到目标电平。

图8示出了当AGC 200在第一汇聚时间Tc1已经达到汇聚状态时的情境的曲线图800。真实语音电平802处于汇聚电平804。汇聚电平804基于最近估计的语音电平或与之相同。在汇聚状态期间，第一级增益G1将输入信号平（真实语音电平）放大至目标电平。第二级增益G2被削波到最小值（例如，在5dB以下）。因此，大部分增益贡献来自于第一级增益G1。

在Tr（上升时间），真实语音电平802开始上升到汇聚电平804以上，并且输入信号（真实语音电平802）开始上升到其最近估计的语音电平（汇聚电平804）以上。因此，第一级增益将输入信号放大到高于目标电平的电平。AGC 200可以被配置为检测这些环境并从汇聚模式转换为未汇聚模式。过渡到未汇聚模式，允许第二级增益不被削波，并开始应用将输入信号恢复到目标电平的第二级增益G2值。曲线图800示出了在时间Tr（上升时间）和Tu（未汇聚时间）之间，处理后的信号电平在目标电平以上的瞬时上升。在时间Tu，第二级增益G2返回线上，并开始应用增益值，以将输入信号恢复到目标电平，这在第二汇聚时间（Tc2）完成。在此期间，第一级增益值G1将被重新计算和更新，以反映真实语音电平802。随后，第一级增益G1将逐渐稳定，并且在或接近第二汇聚时间Tc2时，第一级增益G1基本上贡献了无辅助地将信号放大至目标电平的整体增益。第二级增益G2可以在或接近第二收敛时间Tc2时再次被削波到最小值（例如，小于5dB）。

不将AGC 200上的模式从汇聚模式改变为未汇聚模式的情况下，第二级增益G2保持被削波到最小值，并且第一级增益将输入信号推到目标电平以上。如先前描述的，在一些环境下，响亮的或过度放大的信号是不合需要的。如本文描述配置的AGC 200可以避免或降低信号过度放大的几率。汇聚状态和未汇聚状态之间的模式切换可以通过实施于AGC 200中的状态机来实现。

图9示出了根据实施例的视频会议应用中的自动增益控制方法900的流程图。方法900开始于步骤902。在步骤904，方法包含接收输入信号。在步骤906，方法包含估计长期信号电平。在步骤908，方法包含基于长期估计生成第一级增益，其中，应用于输入信号的第一级增益将输入信号逐渐转换为目标电平，其中，该转换发生在包括未汇聚持续时间的持续时间上。在步骤910，方法包含估计短期信号电平。在步骤912，方法包含生成第二级增益，其中，加上第一级增益、在未汇聚持续时间期间应用于输入信号的第二级增益在未汇聚持续时间期间将输入信号转换为目标电平。方法结束于步骤914。

示例实施机构—硬件概述

一些实施例由计算机系统或计算机系统网络来实施。计算机系统可以包含处理器、内存以及非暂时性计算机可读介质。内存和非暂时性介质可存储用于执行本文描述的方法、步骤以及技术的指令。

根据一个实施例，本文描述的技术由一个或多个专用计算设备来实施。专用计算设备可为硬连线的，以执行技术，或可包含数字电子设备，比如一个或多个被持续编程以执行这些技术的专用集成电路（ASIC）或现场可编程门阵列（FPGA），或可包含一个或多个被编程为执行根据固件、内存、其他存储器或组合中的程序指令中的技术的通用硬件处理器。这种专用计算设备还可以将定制的硬连线逻辑、ASIC或FPGA与定制编程相结合以实现这些技术。专用计算设备可为服务器计算机、云计算计算机、台式计算机系统、便携式计算机系统、手持设备、联网设备或结合硬连线和/或程序逻辑以实施这些技术的任何其他设备。

例如，图10是示出可以在其上实施实施例的计算机系统1000的框图。计算机系统1000包含用于传送信息的总线1002或其他通信机构和与总线1002耦接用于处理信息的硬件处理器1004。硬件处理器1004可以是例如，专用微处理器，其被优化用于处理在视频会议架构中生成、发送或接收的音频和视频流。

计算机系统1000还包含主存储器1006，比如随机存取存储器（RAM）或其他动态存储设备，这些存储器与总线1002耦接用于存储将由处理器1004执行的信息和指令。主存储器1006还可用于在执行将由处理器1004执行的指令期间来存储临时变量或其他中间信息。当存储在处理器1004可访问的非暂时性存储介质中时，这样的指令将计算机系统1000呈现为专用机器，该专用机器被定制为执行指令中指定的操作。

计算机系统1000还包含与总线1002耦接的只读存储器（ROM）1008或其他静态存储设备，用于存储处理器1004的静态信息和指令。提供诸如磁盘、光盘或固态盘等的存储设备1010并将其与总线1002耦接，以存储信息和指令。

计算机系统1000可以经由总线1002耦接到显示器1012，比如阴极射线管（CRT）、液晶显示器（LCD）、有机发光二极管（OLED）或触摸屏，用于向计算机用户显示信息。包含字母数字键和其他键（例如，在触摸屏显示器中的键）的输入设备1014耦接到总线1002，用于向处理器1004传送信息和命令选择。另一种类型的用户输入设备是光标控制器1016，比如鼠标、轨迹球或光标方向键，用于向处理器1004传送方向信息和命令选择，并用于控制显示器1012上的光标移动。该输入设备通常在两个轴上具有两个自由度，第一轴（例如，x）和第二轴（例如，y），这允许设备指定平面中的位置。在一些实施例中，用户输入设备1014和/或光标控制器1016可以在显示器1012中实施，例如，经由既用作输出显示器又用作输入设备的触摸屏接口。

计算机系统1000可使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实施本文描述的技术，这些与计算机系统相结合使得计算机系统1000成为专用机器或将该系统编程为专用机器。根据一个实施例，本文的技术是通过计算机系统1000响应于处理器1004执行包含在主存储器1006中的一个或多个指令的一个或多个序列而执行的。这些指令可从另一个存储介质（比如存储设备1010）读入主存储器1006。执行包含在主存储器1006中的指令序列使得处理器1004可执行本文描述的处理步骤。在可选实施例中，可使用硬连线电路来代替软件指令或与软件指令组合使用。

如本文所使用的术语“存储器介质”是指存储使机器以特定方式操作的数据和/或指令的任何非暂时性介质。这种存储介质可包括非易失性介质和/或易失性介质。非易失性介质包含例如光盘、磁盘和/或固态盘，比如存储设备1010。易失性介质包含动态存储器，比如主存储器1006。例如存储介质的常见形式包括：软盘、硬盘、固态硬盘、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、任何有孔图案的物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他内存芯片或盒式磁带。

存储介质不同于传输介质，但可以与传输介质结合使用。传输介质参与存储介质之间的信息传输。例如，传输介质包含同轴电缆、铜线以及光纤，包含构成总线1002的电线。传输介质也可以采用声波或光波的形式，比如在无线电波和红外数据通信过程中产生的声波或光波。

在将一个或多个指令的一个或多个序列传送到处理器1004以供执行时，可涉及各种形式的介质。例如，这些指令最初可被携带在远程计算机的磁盘或固态硬盘上。远程计算机可以将这些指令加载到其动态存储器中，并使用调制解调器通过电话线发送指令。计算机系统1000本地的调制解调器可以接收电话线上的数据，并使用红外发射器将数据转换为红外信号。红外检测器可以接收红外信号中携带的数据，并且合适的电路可以将数据放置在总线1002上。总线1002将数据传送到主存储器1006，处理器1004从主存储器1006中检索并执行指令。由主存储器1006接收的指令可选地在由处理器1004执行之前或之后存储在存储设备1010上。

计算机系统1000还包含与总线1002耦接的通信接口1018。通信接口1018提供耦接到网络链路1020的双向数据通信，网络链路1020连接至本地网络1022。例如，通信接口1018可为综合业务数字网（ISDN）卡、电缆调制解调器、卫星调制解调器或调制解调器，以提供与对应类型的电话线的数据之间的通信连接。再例如，通信接口1018可为局域网（LAN）卡，以提供与兼容LAN的数据之间的通信连接。还可实施无线链路。在任何这种实施方式中，通信接口1018发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。

网络链路1020通常通过一个或多个网络向其他数据设备提供数据通信。例如，网络链路1020可提供通过本地网络1022到主机计算机1024或到由因特网服务提供商（ISP）1026操作的数据设备的连接。ISP 1026又通过现在通常被称为“因特网”1028的全球分组数据通信网络来提供数据通信服务。本地网络1022和因特网1028均使用携带数字数据流的电信号、电磁信号或光信号。通过各种网络的信号和网络链路1020上的信号以及通过通信接口1018的信号（其将数字数据传送到计算机系统1000和从计算机系统1000传送数字数据）是传输介质的示例形式。

系统机1000可以通过一个或多个网络、网络链路1020以及通信接口1018发送消息并接收数据，包含程序代码。在因特网示例中，服务器1030可通过因特网1028、ISP 1026、本地网络1022以及通信接口1018发送用于应用程序的请求代码。

接收到的代码可在其被接收时由处理器1004执行，和/或存储在存储设备1010或其他非易失性存储器中，以供稍后执行。

虽然已经参考本发明的特定实施例具体示出和描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以对所公开的实施例的形式和细节进行改变。尽管本文已经参考各种实施例讨论了本发明的各种优点、方面以及目的，但是应当理解，本发明的范围不应当受到这些优点、方面以及目的的限制。相反，本发明的范围应该参考专利权利要求来确定。

Claims

1.一种自动增益控制模块，包括：

第一级，其被配置为：

接收输入信号；

估计长期信号电平；和

基于所述长期估计生成第一级增益，其中：

应用于所述输入信号的所述第一级增益将所述输入信号逐渐转换为目标电平；和

该转换发生在包括未汇聚持续时间的持续时间上；和

第二级，其被配置为：

接收所述输入信号；

估计短期信号电平；和

生成第二级增益，其中：

加上所述第一级增益的、在所述未汇聚持续时间期间应用于所述输入信号的所述第二级增益在所述未汇聚的持续时间期间将所述输入信号转换为所述目标电平。

2.根据权利要求1所述的模块，其中：

所述第二级增益在汇聚的持续时间期间被削波到小于预定阈值的值；和

所述汇聚的持续时间包括应用于所述输入信号的所述第一级增益将所述输入信号转换为所述目标电平的时间段。

3.根据权利要求1所述的模块，其中：

应用于所述输入信号的所述第一级增益在汇聚时间段期间将所述输入信号转换为目标电平；

所述汇聚时间段期间的所述信号电平处于汇聚状态；和

所述模块被配置为当所述输入信号下降到所述汇聚状态输入信号电平以下时，保持稳定的第一级增益。

4.根据权利要求1所述的模块，其中：

所述汇聚时间段期间的所述信号电平处于汇聚状态；和

所述模块被配置为当所述输入信号上升到所述汇聚状态输入信号电平以上时，重新计算所述第一级增益和所述第二级增益并将它们应用于所述输入信号，以将所述输入信号电平返回到所述目标电平。

5.根据权利要求1所述的模块，其中：所述第一级被配置成通过对所述输入信号执行统计分析来确定所述估计电平的准确性，并且还被配置成至少部分地基于所述统计分析来更新所述估计电平。

6.根据权利要求5所述的模块，其中：所述统计分析包括确定来自输入缓冲级的所述输入信号的高斯分布，并且至少部分地基于所述输入信号的所述高斯分布来更新所述长期信号电平估计。

7.根据权利要求6所述的模块，其中：至少部分地基于所述输入信号的所述高斯分布的平均值点和模点之间的距离来更新所述长期信号电平估计。

8.根据权利要求1所述的模块，其中：

所述信号包括声音分量和噪声分量；

所述第一级还包括具有高噪声抑制特性的声音活动检测器；

该声音活动检测器接收所述输入信号并输出所述声音分量；和

估计所述长期信号电平包括估计所述声音分量的所述长期信号电平。

9.根据权利要求1所述的模块，其中：

所述信号包括声音分量和噪声分量；

所述第二级还包括具有高声音灵敏度特性的声音活动检测器；

该声音活动检测器接收所述输入信号并输出所述声音分量：和

估计所述短期信号电平包括估计所述声音分量的所述短期信号电平。

10.根据权利要求1所述的模块，其中：

所述信号包括声音分量和噪声分量；

所述第一级还包括具有高噪声抑制特性的第一声音活动检测器模块；

该第一声音活动检测器接收所述输入信号并输出第一声音分量：

估计所述长期信号电平包括估计所述第一声音分量的所述长期信号电平；

所述第二级还包括具有高声音灵敏度特性的第二声音活动检测器模块；

该第二声音活动检测器接收所述输入信号并输出第二声音分量；和

估计所述短期信号电平包括估计所述第二声音分量的短期信号电平。

11.一种视频会议应用中的增益控制方法，包括：

接收输入信号；

估计长期信号电平；

基于所述长期估计生成第一级增益，其中：

该转换发生在包括未汇聚持续时间的持续时间上；

估计短期信号电平；和

生成第二级增益，其中：

加上所述第一级增益的、在所述未汇聚持续时间期间应用于所述输入信号的所述第二级增益在所述未汇聚持续时间期间将所述输入信号转换为所述目标电平。

12.根据权利要求11所述的方法，其中：

所述第二级增益在汇聚持续时间期间被削波到小于预定阈值的值；和

所述汇聚持续时间包括应用于所述输入信号的所述第一级增益将所述输入信号转换为所述目标电平的时间段。

13.根据权利要求11所述的方法，其中：

在所述汇聚时间段期间的所述信号电平处于汇聚状态；和

所述方法还包括当所述输入信号下降到所述汇聚状态输入信号电平以下时，保持稳定的第一级增益。

14.根据权利要求11所述的方法，其中：

在所述汇聚时间段期间的所述信号电平处于汇聚状态；和

所述方法还包括当所述输入信号上升到所述汇聚状态输入信号电平以上时，重新计算所述第一级增益和所述第二级增益并将它们应用于所述输入信号，以将所述输入信号电平返回到所述目标电平。

15.根据权利要求11所述的方法，还包括：通过对所述输入信号执行统计分析来确定所述估计电平的准确性，并且至少部分地基于所述统计分析来更新所述估计电平。

16.根据权利要求15所述的方法，其中：所述统计分析包括确定来自输入缓冲级的所述输入信号的高斯分布，并且至少部分地基于所述输入信号的所述高斯分布来更新所述长期信号电平估计。

17.根据权利要求16所述的方法，其中：至少部分基于所述输入信号的所述高斯分布的平均值点和模点之间的距离来更新所述长期信号电平估计。

18.一种存储可执行程序指令的非暂时性计算机存储器，当该可执行程序指令由一个或多个计算设备执行时，将所述一个或多个计算设备配置为执行多个操作，包括：

接收输入信号；

估计长期信号电平；

基于所述长期估计生成第一级增益，其中：

该转换发生在包括未汇聚持续时间的持续时间上；

估计短期信号电平；和

生成第二级增益，其中：加上所述第一级增益的、在所述未汇聚持续时间期间应用于所述输入信号的所述第二级增益在所述未汇聚持续时间期间将所述输入信号转换为所述目标电平。

19.根据权利要求18所述的非暂时性计算机存储器，其中：

20.根据权力要求18所述的非暂时性计算机存储器，其中：所述操作还包括通过对所述输入信号执行统计分析来确定所述估计电平的准确性，并且至少部分地基于所述统计分析来更新所述估计电平。