CN110024029A

CN110024029A - 音频信号处理

Info

Publication number: CN110024029A
Application number: CN201780074145.8A
Authority: CN
Inventors: K·V·瑟恩森; K·乌尔姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-11-30
Filing date: 2017-11-23
Publication date: 2019-07-16
Anticipated expiration: 2037-11-23
Also published as: EP3513406B1; US20180151187A1; CN110024029B; US10529352B2; WO2018102225A1; EP3513406A1; GB201620317D0

Abstract

一种音频信号处理设备，包括：音频输入端，该音频输入端被配置为：接收要进行编码的音频信号；音频编解码器，该音频编解码器被配置为：向音频信号应用音频编码，从而生成具有音频带宽的经编码音频数据以供传输至远程设备；网络接口，该网络接口被配置为：从远程设备接收对该远程设备的音频输出设备的至少一个特性的指示；以及音频带宽选择器，该音频带宽选择器被配置为：基于从远程设备接收到的指示来设置音频编解码器的音频带宽参数，从而取决于音频输出设备的该至少一个特性来设置经编码音频数据的音频带宽。

Description

音频信号处理

技术领域

本发明涉及音频信号处理，并且更具体而言，涉及对音频信号的编码以生成经编码音频数据以供传输。

背景技术

音频信号可以从本地(发送)设备(例如用户设备或媒体服务器)经由通信信道发送到远程(接收)设备(例如另一用户设备)。例如，音频信号可以被发送为音频数据流(音频流)。例如，通信信道可以是通信网络上的信道，例如基于分组的通信网络(例如互联网)，其中设备是网络的端点。

传输可以基于通过网络进行的呼叫或其它实时媒体通信事件中的VoIP(通过互联网提供商的语音)技术。即，音频流可以作为两个或更多个用户之间的呼叫的一部分或者经由网络进行的某种其它实时媒体通信事件来发送。为了使得通信事件能够发生，接收设备的用户可以在该接收设备上执行通信客户端的实例。通信客户端设置必要的VoIP连接以允许在通信事件期间与发送设备进行通信。发送设备也可以是用户设备，在该用户设备上执行通信客户端的另一实例。替代地，发送设备可以是媒体服务器；例如，在三个或更多个用户之间的群组呼叫(电话会议)中，每个用户可以将其音频流发送到媒体中继服务器，并且该服务器可以相应选择性地混合接收到的音频流以供传输至参加电话会议的其他用户。

所发送的音频数据可以是由本地设备的音频编解码器在传输音频信号之前对其应用音频编码生成的经编码音频数据。音频编解码器可以被配置为：根据目标比特率对音频信号进行编码，以便生成具有不大于目标比特率的比特率的经编码音频数据流，或者在可变比特率编解码器的情况下，生成具有不超过目标比特率的短期均值的经编码音频数据流。只要目标比特率不超过通信信道的可用比特率(即，信道比特率)，经编码音频流就能够实时地经由通信信道来发送而不必丢弃任何经编码音频数据分组。经编码音频流在接收设备处进行接收、解码、并经由该接收设备的音频输出设备(例如扬声器或耳机)来输出。

音频编码可以涉及熵编码之类的无损压缩，由此减少对信号进行编码所需要的数据量而不会丢失来自信号的任何信息。虽然这在某种程度上可以有效地降低发送音频信号所需要的比特率开销，但它实际上本身不太可能足以满足目标比特率。为了进一步降低经编码音频流的比特率，可以使用有损音频编码，由此作为音频编码过程的一部分从音频信号中丢弃信息。对于一些语音和音频编解码器，有损编码包括对输入信号的初始下采样。这在以非常低的目标比特率进行编码时使用，其中编码失真开始严重影响经编码信号的质量。在编解码器内部，随后使用例如数学模型对潜在下采样输入信号进行建模，这些数学模型由于其仅使用有限系数集对人类语音进行建模的属性而被选择。这可以被解释为对每个帧内的样本进行联合量化，并且通常也依赖于先前的样本。

为了使音频编解码器满足某个目标比特率并确保在该比特率下的最佳质量，则广义而言，可以调节采样率、在给定采样率下允许的编码噪声、或两者的组合。

关于采样率，经编码音频数据具有音频带宽，这是经编码音频数据所跨越的音频频率范围，即，经编码音频数据仅包含足够的信息以从该音频频率范围内的原始音频信号再现音频频率。通常认为，高于20kHz的音频频率对于大多数人来说是听不见的，因此，通过丢弃高于此的频率，可以从信号中丢弃信息而对所感知的质量没有影响或者影响可忽略。根据奈奎斯特定理，音频带宽和采样率紧密耦合，这是因为为了捕获高达R/2Hz的所有频率而没有由于混叠引起的失真，需要至少每秒R个采样的采样率。因此，为了在音频信号中再现全范围的可听频率，通常认为显著高于40kHz(即，每秒40.000个样本)的采样是不必要的；例如，44.1kHz和44kHz是两种常用的采样率，通常被认为是全波段采样率。相反，在显著低于40kHz的R处进行采样会导致音频信号在R/2至20kHz之间的可听高频分量的丢失以及混叠伪影，因为音频带宽被减少。实际上，音频编解码器还可以包括抗混叠滤波器(AAF)，该AAF在以速率R对音频信号进行采样之前从该音频信号中过滤掉高于R/2的频率，因为这可以防止混叠伪影。

关于编码，广义而言，更积极的编码(即，更粗略的量化和更不准确的建模)导致更高水平的编码失真。现代音频编解码器提供对信号越来越复杂的建模，以便使针对给定采样率和目标比特率的编码失真最小化，但粗糙度与失真之间的这种基本关系仍然存在。

发明内容

提供本发明内容以用简化形式引入一些概念，这些概念以下在详细描述中进一步描述。本发明内容并非旨在标识所要求保护的主题内容的关键特征或必要特征，也并非旨在用于限制所要求保护的主题内容的范围。

从高级别来说，为了实现更高的音频带宽(对应于更宽的音频频率范围)，需要更高的采样率；为了保持在可用比特率内，通常需要利用每个样本的(平均)比特数的相应减少来补偿每秒比特数的这种增加(通常至少部分地通过应用更积极的编码和更粗糙的量化来实现)，当音频数据被解码和播出时，这进而会导致增加的失真。相反，音频带宽的显著降低会导致可听高频的损失(较低音频带宽对应于较窄音频范围)；然而，这也降低了所需要的采样率，这进而允许每个样本使用更多比特而不会超过可用比特率，这进而可以引起减少失真(特别是因为它允许音频编解码器应用不太积极的量化)。

因此，特别是在可用比特率受约束的情况下，在优化经编码音频数据的感知质量(即，在解码和播出经编码音频数据时人类所感知的质量)时，需要在一方面在较低的音频带宽下可听高频分量的丢失和另一方面由于保留较高的音频带宽而导致的失真增加之间取得平衡。

本发明的发明人已经认识到，在达到这种平衡时，要考虑的材料因素是一段在远程端点接收和解码音频信号就将播出该音频信号的音频输出(播出)设备的性质。

根据本发明的第一方面，一种音频信号处理设备包括：音频输入端，该音频输入端被配置为：接收要进行编码的音频信号；音频编解码器，该音频编解码器被配置为：向音频信号应用音频编码，从而生成具有音频带宽的经编码音频数据以供传输至远程设备；网络接口，该网络接口被配置为：从远程设备接收对该远程设备的音频输出设备的至少一个特性的指示；以及音频带宽选择器，该音频带宽选择器被配置为：基于从远程设备接收到的指示来设置音频编解码器的音频带宽参数，从而取决于音频输出设备的该至少一个特性来设置经编码音频数据的音频带宽。

具体而言，在可用比特率受约束的情况下，发明人已观察到，在某些可用比特率下，对于较低质量输出设备(例如用户设备(例如，膝上型设备、智能电话、平板等等)的集成(即，内置)扬声器)，较高的音频带宽可以得到较高的感知质量，尽管与较高质量音频输出设备(例如外部耳机)相比引起失真增加。即，对于较低质量音频输出设备，较高可听频率的损失会比增加的失真(即保留那些频率的代价)更明显。

在各实施例中，音频编解码器可具有输入端，该输入端被配置为：接收对用于经编码音频数据的目标比特率的指示，并且该音频编解码器被配置为：根据目标比特率来对音频信号进行编码。

对目标比特率的指示构成对在不大于目标数据率的速率下生成经编码音频数据的请求。然而要注意，对于某些音频编解码器(例如Silk和Opus)，输出速率可以在短时间段内超过接收到的目标比特率，这引入某种另外的分组抖动；然而，在实时通信上下文中，这可以通过允许在接收设备处的抖动缓冲器稍微增加延时以等待经延迟分组来解释，这进而允许在没有分组丢失的情况下稍后解码稍微过大的分组。所涉及的时间尺度使得没有可感知的实时行为损失。

在此类实施例中，音频带宽选择器可以被配置为：基于对音频输出设备特性的指示和对目标数据率的指示来设置音频带宽参数。

例如，优选地音频带宽选择器包括：阈值设置组件，该阈值设置组件被配置为：基于对音频输出设备特性的指示来确定至少一个音频带宽切换阈值(切换点)，以及比较组件，该比较组件被配置为：通过将目标数据率与音频带宽切换阈值进行比较来设置音频带宽参数。

音频带宽选择器响应于目标比特率从低于(或高于)切换阈值的值改变为高于(或低于)该切换阈值的值而增加(响应(或)减少)音频带宽。例如，基于音频输出设备特性来调节切换阈值可以确保带宽的这种增加对于低质量集成音频输出设备(对于这种设备音频信号的高频分量的损失更明显)比对于高质量外部音频输出设备(对于这种设备增加的失真更明显)出现地更快(即，在较低目标数据率下)。

对音频输出设备特性的指示可以指示音频输出设备是集成设备还是外部设备。

如果音频输出设备是集成设备，则可以设置比在该音频输出设备是外部设备的情况下要低的音频带宽切换阈值。

音频编解码器可以包括音频采样器，该音频采样器被配置为：在与音频带宽参数相对应的采样率下生成音频信号的样本，以及音频编码器，该音频编码器被配置为：根据目标数据率来对样本进行编码。

音频信号可以是数据音频信号，并且音频采样器可以是重采样器。

音频编解码器可以包括滤波器，该滤波器被配置为：过滤音频信号以过滤掉音频带宽之外的音频频率。

音频带宽选择器可以被配置为：响应于来自远程设备的表示在该远程设备处的音频输出设备的改变的另外指示而调节音频带宽参数。

经编码音频数据可以作为远程设备的用户正在参与的呼叫的一部分来发送到该远程设备。

音频设备的改变可以在呼叫期间出现，并且该另外指示可以在呼叫期间接收。

例如，音频信号处理设备可以是用户设备或服务器。

对于目标数据率的至少一些值，如果音频输出设备是外部设备，则可以设置比在该音频输出设备是集成设备的情况下要低的音频带宽。

音频信号处理设备可以包括信道监视组件，该信道监视组件被配置为：监视通信信道，其中经编码数据经由该通信信道发送到远程设备，以及基于信道监视来调节目标比特率。

本发明的第二方面涉及一种对音频信号进行编码以供传输至远程设备的方法，该方法包括在本地音频信号处理设备处进行以下操作：接收要进行编码的音频信号；由本地设备的音频编解码器向音频信号应用音频编码，从而生成具有音频带宽的经编码音频数据以供传输至远程设备；在本地设备处从远程设备接收对该远程设备的音频输出设备的至少一个特性的指示；以及基于从远程设备接收到的指示来设置音频编解码器的音频带宽参数，从而取决于音频输出设备的该至少一个特性来设置经编码音频数据的音频带宽。

在各实施例中，该方法可以包括：在音频编解码器处接收对用于经编码音频数据的目标数据率的指示，其中，该音频编解码器根据所指示的目标数据率来对音频信号进行编码。

可以基于对音频输出设备特性的指示和对目标数据率的指示来设置音频带宽参数。

设置音频带宽参数可以包括：基于对音频输出设备特性的指示来确定至少一个音频带宽切换阈值，以及通过将目标数据率与音频带宽切换阈值进行比较来设置音频带宽参数。

在各实施例中，可以用执行该方法来实现第一方面的任何实施例的任何特征。

本发明的第三方面涉及一种包括代码的计算机程序产品，该代码存储在计算机可读存储介质上并且被配置为：当在音频信号处理设备的处理器上被执行时实现第二方面的方法或者其任意实施例。

附图说明

为了更好地理解本发明并示出如何可以实现本发明的实施例，参考以下附图，其中：

图1示出了通信系统的示意性框图；

图2示出了经由通信信道与远程设备进行通信的本地设备的示意性框图；

图3示出了本地设备的功能框图；

图4示出了用于对音频信号进行编码的方法的流程图；

图5示意性地示出了音频信号编码的某些原理；以及

图6示出了说明可以如何取决于音频输出设备特性来调节音频带宽切换阈值的示图。

具体实施方式

图1示出了通信系统，该通信系统包括由第一用户102(近端用户)操作的第一用户设备104以及由第二用户112(远端用户)操作的第二用户设备114。用户设备104、114是计算机设备，例如膝上型或台式计算机、智能电话、平板等等。尽管仅示出了两个用户102、112，但要意识到，通信系统可以具有对任何数量的用户设备进行操作的任何数量的用户。

用户设备104、114被示出为连接到网络108，该网络108是基于分组的计算机网络，例如互联网。第一用户设备104被示出为包括至少音频输入设备106，例如麦克风或麦克风阵列。第二用户设备114被示出为包括至少音频输出设备116，例如集成扬声器或扬声器组，或外部耳机。

集成音频输出设备表示集成在用户设备114自身主体中(例如用户设备的壳体或外壳中)的音频输出设备，例如扬声器或扬声器组。集成的单声道或立体声扬声器在便携式设备(例如膝上型设备、电话、平板等等)中很常见。相比之下，外部音频输出设备表示在用户设备的主体外部的设备，例如耳机(例如，具有或不具有内置麦克风的一对耳机)、听筒、高质量外部扬声器或扬声器组等等。外部音频输出设备能够经由有线连接(例如，经由用户设备114的耳机插孔或数据端口(例如，USB))来连接到用户设备114。替代地，耳机可以无线地(例如，经由蓝牙)连接到用户设备114。

在第一用户设备104处进行编码并经由网络108发送到第二用户设备114的音频信号的上下文中描述本发明的各实施例。在该上下文中，第一用户设备104被称为本地设备，并且第二用户设备114被称为远程设备。在一些上下文中，为了提供双向通信(例如，用户102、112之间的双向呼叫)，相同的技术可以应用于在第二用户设备114处对音频信号进行编码以供传输至第一用户设备104。

参考图2，本地设备104包括处理器204，例如一个或多个计算机处理单元(CPU)，并且网络接口202、音频接口203(例如声卡)和存储器208连接到处理器204。存储器208保持可供在处理器204上执行的可执行代码，并且具体而言可供在处理器204上执行的客户端应用206。本地设备104的音频输入设备106经由音频接口203连接到处理器204。

远程用户设备114也包括处理器224，例如一个或多个CPU，并且网络接口222、音频接口223(例如声卡)和存储器228连接到处理器224。存储器228保持可供在处理器224上执行的可执行代码，并且具体而言可供在处理器上执行的相应客户端应用226。远程设备114的音频输出设备116经由音频接口223连接到处理器224。

通信信道200被示出为经由设备104、114的对应网络接口202、222建立在设备104、114之间。由客户端206、226在其对应设备104、114上执行时经由网络108建立通信信道200。通信信道200允许至少数据从本地设备104经由该通信信道发送到远程设备114，并且在所描述的示例中，还允许数据从远程设备114经由通信信道200发送到本地设备104。以此方式，客户端206、226能够经由通信信道200在用户102、112之间实现通信事件，例如呼叫。

具体而言，通过向音频输入设备106所生成的音频信号应用音频编码来生成的经编码音频数据能够经由通信信道200发送到远程设备114以供解码并经由音频输出设备116来输出。经编码音频数据作为实时音频流来发送，以允许经由通信信道200在用户102、112之间进行实时呼叫。

如所提到的，当以低比特率对音频进行编码时，可能需要在具有高音频带宽与低编码失真之间做出折衷。在较高比特率下，通常相对于较低音频带宽优选较高音频带宽，但在低比特率下，较高音频带宽导致更多可听编码失真。利用高质量耳机可以在音频信号中听到的细节水平与在使用低质量膝上型设备扬声器播出时的细节水平有很大差异，并且因此最佳折衷取决于远程端点上的播出设备的特性。如下面详细描述的，在确定由编解码器保留的音频带宽时，考虑远程端点上的播出设备的特性。

例如，当设立呼叫时，每个端点可以向另一端点揭示播出设备(例如，如果使用扬声器或耳机来播出音频的话)的一些特性。端点上的编码器(音频编解码器)随后可以在针对编解码器所支持的不同音频带宽选择切换点(音频带宽切换阈值)时考虑该远程端点信息。具体而言，当远程端点在集成扬声器上播出时，与在使用外部耳机时相比，期望以较低的目标比特率切换到较高音频带宽。随着呼叫的进行，可以在呼叫期间发信号通知音频输出设备设置的任何变化(例如，连接或断开耳机)并且相应地调节音频带宽。

图3示出了本地设备104的功能框图。本地设备104被示出为包括音频信号处理系统300，该处理系统300表示由本地设备104的客户端应用206在本地设备104的处理器204上执行时实现的功能。音频信号处理系统300包括音频编解码器302、音频带宽选择器312以及信道监视组件318。信道监视组件318监视通信信道200并将从该监视推导出的信息输出到音频编解码器302和音频带宽选择器312。

音频编解码器302被示出为包括抗混叠滤波器304(AAF)、音频采样器306、以及音频编码器308，这些合作以向音频信号352应用音频编码。即，AAF 304、音频采样器306和编码器308合作以从音频信号352生成经编码音频数据354以便经由通信信道200作为实时音频流传输至远程设备114。音频信号352是由音频输入设备106生成的包含语音的信号；即，它包含从近端用户102捕获的将向远端用户112播出的语音。这允许远端用户112在呼叫期间实时地听到近端用户102在讲述什么。

AAF 304具有连接的输入端以经由本地设备104的音频接口204从音频输入设备106接收音频信号352。AAF 304具有连接到音频采样器306的输入端的输出端，该音频采样器306进而具有连接到编码器308的输入端的输出端。AAF 304对音频信号352进行过滤。经过滤的音频信号由音频采样器306采样以生成样本流，并且这些样本由编码器308进行编码以生成经编码音频数据354。

注意，在该示例中，音频接口204操作为模数转换器(ADC)，并且因此包括其自身的音频采样器301，该音频采样器301将音频输入设备106所生成的音频信号352从模拟形式转换到数字形式。音频编解码器302的音频采样器306因此在该上下文中通过作为应用的音频编码的一部分对数字音频信号352进行重采样来操作为重采样器。

音频编解码器302还包括控制器310，该控制器310控制AAF 304、音频采样器306和编解码器308的操作，如下面更详细描述的。

音频编解码器302的控制器310具有连接的第一输入端，以接收对目标数据率(其是目标比特率TB)的指示。音频编解码器控制器310控制音频采样器306和编码器308的操作，以使得以不超过目标比特率TB的、并且优选地至少大致等于目标比特率TB的速率来生成经编码音频数据354。如所指示的，由编码器308执行的编码操作例如可以涉及对经采样信号的量化和/或建模。例如，编码器308可以实现上面在背景技术部分中描述的任何编码过程，以根据目标比特率TB来对经采样信号进行编码。

信道监视组件318基于对通信信道200的监视来确定目标比特率TB。具体而言，目标比特率TB由信道监视组件318对通信信道200的当前可用信道带宽设置；即，当前可用于通信信道200的最大比特率，并且目标比特率TB由信道监视组件设置，以使得目标比特率TB不超过信道200的当前最大可用比特率。

重要的是要注意通信信道200的信道带宽与经编码音频数据354的音频带宽之间的区别。信道带宽是通信信道200的特性，其设置了能够经由通信信道200来发送数据的最大速率，而经编码音频数据的音频带宽对应于被编码在经编码音频数据中的音频频率的范围。即，经编码音频数据354仅包含与音频信号352在该音频频率范围内的分量有关的信息，以使得一旦在远程设备114处对经编码音频数据354进行解码就能够再现并播出那些频率分量。经编码音频数据354不能够以超过与可用信道带宽相对应的通信信道200的可用数据率的数据率经由通信信道200发送到远程设备114。因此，为了保持实时通信而没有分组丢失，不应该由音频编解码器302以超过该速率的速率来生成经编码音频数据354。

音频编解码器控制器310具有连接的第二输入端，以接收指示经编码音频数据354的期望音频带宽的音频带宽参数ABW。在控制采样器306和编码器308的操作时，音频编解码器控制器310确保经编码音频数据352具有不超过目标比特率TB的期望音频带宽。音频编解码器控制器310通过将重采样器306的采样率设置成对应于由音频带宽参数ABW(参见上文)所指示的音频带宽来进行该操作，并且设置编码器308的一个或多个控制参数，以使得经编码音频数据354是以不超过重采样器306的当前采样率的目标比特率TB、或者至少不显著超过目标比特率TB(如提到的，对于某些音频编解码器，有时可以短暂地超过目标比特率TB，但是可以考虑这一点，如上所述)的速率来生成的。具有在目标比特率的约束内操作的必要功能的音频编解码器在本领域是已知的，例如Silk和Opus编解码器具有该功能。

如将意识到的，图3中的音频编解码器302的表示是高度示意性的。它表示在许多音频编解码器中找到的基本构建块；然而，现代的音频编解码器具体而言可以包括图3中未示出的另外的且高级的功能，以便使在一组给定的所施加约束内引入音频编码的失真最小化。

音频带宽选择器312设置音频带宽参数ABW。在该示例中，音频带宽选择器312被示出为包括阈值设置组件314和比较组件316。音频带宽选择器312、以及具体而言阈值设置组件314具有被配置为接收从远程设备114发送到本地设备104的信息356的输入端，其中本地设备104属于远程设备114的音频输出设备116。阈值设置组件314具有连接到比较组件316的输入端的输出端，并且组件316具有连接的第二输入端，以从信道监视组件318接收对目标比特率TB的指示。比较组件316基于与远程音频输出设备116和目标比特率TB相关的信息356来设置音频带宽参数ABW，如现在将详细描述的。

图4示出了对音频信号352进行编码的方法的流程图。该方法由本地设备104的音频信号处理系统300实现。

在步骤S2处，在音频信号处理系统300处从远程设备114接收音频输出设备信息356。信息356是对音频输出设备116的至少一个特性的指示。例如，指示356可以在用户102、112之间的呼叫开始时、例如为了建立呼叫而执行的呼叫建立过程期间(即，在呼叫信令期间)、或在已经建立呼叫之后不久(例如，在建立呼叫几秒钟之内)从远程设备114发送到本地设备104。在一些实现方式中，如果并且当远程设备114的音频输出设备设置发生改变时，可以在正在进行的呼叫期间发送一个或多个另外的此类指示。例如，指示356可以指示音频输出设备116是远程设备114的集成扬声器(通常具有相对低的质量)还是外部耳机(通常具有较好质量)。例如，可以响应于远程用户112将耳机从音频接口233连接或断开以使得音频输出设备设置在呼叫期间改变而发送另外的指示。在经编码音频数据354使用RTP(实时传输协议)来发送的情况下，指示356以及在适用的情况下该一个或多个另外的指示可以经由通信信道200例如使用RTCP(实时传输协议(RTP)控制协议)来发送。这是呼叫内媒体信令的形式。如本领域已知的，RTCP提供了一种机制，通过该机制RTP流(在该情况下携带经编码音频数据354的音频流)的发送方和接收方之间能够发送该RTP流的控制信息。

步骤S4到S8由音频带宽选择器312执行，以便基于在呼叫开始时接收到的指示356来设置音频带宽参数ABW。每次在呼叫期间接收到指示远程设备114处音频输出设备设置的改变的另外指示，就可以重新执行这些步骤，以便相应地调节音频带宽参数。

在步骤S4处，阈值设置组件314基于所指示的音频输出设备特性来确定至少一个音频带宽切换阈值。切换阈值被表示为358并输出到比较组件316。切换阈值358是表示音频带宽参数ABW响应于目标比特率TB的改变而应该发生改变时的比特率阈值。在步骤S8处，比较组件316响应于目标比特率TB从低于切换阈值358(之一)的值的改变(从低于该阈值的值改变到高于该阈值的值)而将目标比特率TB与该至少一个切换阈值358进行比较，比较组件316调节音频带宽参数ABW以指示用于经编码音频数据354的更宽音频带宽。即，较大的音频频率范围。类似地，响应于目标比特率从高于切换阈值358(之一)的值的改变，比较模块316缩减由音频带宽参数ABW指示的音频带宽。即，指示用于经编码音频数据354的较窄音频频率范围。如提到的，音频编解码器控制器310接收目标比特率TB和音频带宽ABW。在步骤S10处，音频编解码器控制器310将重采样器306的输出采样率设置为对应于由音频带宽参数ABW指示的音频带宽。音频编解码器控制器310还基于音频带宽参数ABW来设置AAF 304的滤波范围，以便在音频信号352被重采样器306重采样之前从音频信号352中过滤掉高于音频带宽上限的音频频率。与音频带宽参数ABW的两倍相对应的重采样器306的采样率在图5和图6中被表示为R。

参考图5，重采样器306以采样率R在时域中对经过滤音频信号352进行采样，以使得以该速率R生成经编码音频数据354的新样本(每个新样本之间的持续之间为1/R)。经过滤音频信号352在图5中被示出为具有较高采样率的数字信号。

如将意识到的，采样率R确实影响生成经编码音频数据354的比特率(即，每秒生成的比特数，与样本相对)，但它不是仅有因素；比特率还取决于为了对那些样本中的每个样本进行编码平均所需要的比特数。这进而取决于编码器308多么积极地通过在表示样本时允许更多失真来降低比特率。

如图5的底部图形中所示出的，对于重采样器306所生成的每个样本，编码器308对样本进行编码并产生比特流353。在对比特流进行解码时，尽可能地保留语音信息和感知质量，但样本值可能与进行采样时原始音频信号352的值不完全对应。减少用于表示音频样本的比特数通常将导致所捕获音频的增加失真。

通过说明，图5将量化步长大小示出为Q(量化参数)。例如，音频编解码器控制器310可以增加量化参数Q的值，以使得使用更少但间隔开更宽的量化值来表示音频信号352的幅度，使得每秒对音频信号352进行编码所需要的数据量不超过、但优选地尽可能接近目标比特率TB。如将意识到的，这是出于说明目的而高度简化的示例。如提到的，现代音频编解码器具有越来越复杂的功能，其中例如可以基于对音频输入信号352的复杂建模(例如语音建模)来调节量化。音频编解码器302如何在音频带宽参数ABW和目标比特率TB的约束内对音频信号352进行编码的精确机制在某种程度上是无关紧要的；在本文上下文中重要的是如何设置音频带宽参数ABW，而不是音频编解码器对目标比特率TB和音频带宽参数ABW的改变进行响应以便保持在目标比特率TB内的精确方式。

具体而言在呼叫的上下文中，其中音频信号包含语音，语音信号的能量通常集中在50-3000Hz周围，具有相对低的能量高于3kHz。根据传统观点，当可用比特率受约束时，集中在大部分能量所在的频谱的较低频率部分是合乎逻辑的；该原理得到了可变的音频带宽方法，其中音频带宽根据比特率而减小，以集中在信号能量最集中的频谱的该部分上。

然而，如上面提到的，对于较低质量的音频输出设备(例如集成扬声器)，发明人已经认识到，较高可听频率的损失会比增加的失真(其是保留那些频率的代价)更明显。这种认识来自于听力测试，当时观察到对于比特率高度受限的呼叫，某些用户比其他用户报告更高质量的音频。通过分析测试结果，发明人能够确定，与具有较低音频代码的编码模式相比，具有低质量集成扬声器的用户对具有较高带宽和更多编码失真的音频编码评级更高，并且这与用户使用耳机作为播出设备的情况相反。

据信，这至少部分地源于这种装置不能精确地再现较低频率，例如低于约200-300Hz。这至少部分是由于它们的物理几何结构(集成扬声器往往集成在薄的便携式设备中，这限制了它们在甚至中等音量水平下再现低频的能力)；具有集成扬声器的一些设备还滤除低频，集成扬声器将无法很好地再现(如果能够再现的话)这些低频。

参考图6，该图示出了可以如何取决于所指示的音频输出设备特性356来调节切换阈值352。具体而言，该图示出了与音频输出设备116是集成扬声器时(底部图形)相比，当音频输出设备116是外部耳机时(顶部图形)设置较高的切换阈值358。在集成扬声器的情况下，即使在必须应用更积极的编码来进行补偿的代价下，也优选在较低目标比特率下切换到较高音频带宽。反之，对于外部耳机，为了避免必须应用更积极的编码，将切换到较高音频带宽推迟到达到较高目标比特率，即使这意味着在较高目标比特率下较高频率音频分量的损失。纯粹为了帮助说明，图6以高级术语示出了由图5的基本量化产生的每样本量化节点可以如何随着Q的增加和减小而变化以考虑目标比特率的变化，同时考虑相关切换阈值358处采样率R的切换。将意识到，这仅是出于说明目的的非常简化的示例，并且例如不考虑对上述类型的建模。

在步骤S12处，经由通信信道200将经编码音频数据352发送到远程设备114。

注意，尽管已经在音频信号处理设备(其是用户设备102)的上下文中描述了上述内容，但替代地，音频信号处理设备可以是服务器，例如会议服务器，经由该会议服务器进行三个或更多个用户之间的电话会议。会议服务器可以从该三个或更多个用户中的每个用户接收音频流，并通过将其他用户的音频流混合在一起来生成每个用户的一个混合音频信号以供传输至该用户(这避免向每个用户发送多个流，因此节省带宽)。在该场景中，会议服务器可以向混合音频信号应用本文所描述的编码技术。此外，虽然已经在呼叫的上下文中描述了上述内容，但各技术可以应用于其它上下文中，例如，应用于对预先记录的或广播的音频内容(例如，数字音频)的编码。在会议场景中，服务器还可以将信息从一个端点转发到另一端点(例如，与其音频输出设备有关的信息)，从而允许端点自身相应地调节其编码。

还要注意，虽然在上述内容中，音频编解码器根据目标比特率来操作，但这不是必要的。例如，音频编解码器可以直接基于信道反馈来调节该音频编解码器应用的各方面(例如，量化参数)(例如，通过在检测到音频分组丢失时增加编码器的积极性，例如量化)。

在所发送的音频信号的上下文中，“音频编解码器”表示本地设备的被配置为向音频信号应用音频编码以将其转换成经编码音频数据以供传输的音频信号处理逻辑。在双向传输场景中(其中本地设备还从远程设备接收经编码音频数据)，本地设备的音频编解码器还实现对应的解码功能，尽管在单向传输场景中这可能不一定需要应用。即，术语音频编解码器可以仅指音频编码逻辑和音频解码逻辑。例如，音频编解码器可以实现为在本地设备的处理器上执行的代码(即，实现为软件)，实现为本地设备的专用硬件(例如，专用集成电路、现场可编程门阵列(FPGA)等等)、或实现为此类硬件和软件的组合。

尽管通常主要在软件上下文中进行描述，但本文所描述的任何功能(并且具体而言，音频信号处理系统300的功能)可以使用任何适当形式的逻辑来实现；即，被配置为实现音频编码系统300的所描述操作的软件(程序代码)、固件、硬件(例如，固定逻辑电路、FPGA等等)、或者其任意组合。程序代码(例如应用206)可以存储在一个或多个计算机可读存储器设备中。本文所描述的技术的特征是独立于平台的，这意味着这些技术可以在具有各种处理器的各种商业计算平台上实现。例如，音频信号处理设备202可以包括计算机可读介质(例如存储器208)，其可以被配置为维持指令(例如应用206的指令)，这些指令使得设备(并且更具体而言，设备的操作系统和相关联的硬件)执行音频编码系统300的操作。因此，指令用于将操作系统和相关联的硬件配置为执行操作，并且以此方式使得将操作系统和相关联的硬件变换为执行功能。可以由计算机可读介质通过各种不同配置来向设备提供指令。计算机可读介质的一个此类配置是信号承载介质，并且因此被配置为例如经由网络向计算设备发送指令(例如，作为载波)。计算机可读介质还可以被配置为计算机可读存储介质并且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)、只读存储器(ROM)、光盘、闪存、硬盘存储器、以及可以使用磁、光、和其它技术来存储指令和其它数据的任何其它存储器设备。虽然以特定于结构特征和/或方法动作的语言描述了主题内容，但应理解，所附权利要求中定义的主题内容并不一定限于上述特定特征或动作。相反，上述的特定特征和动作是作为实现各权利要求的示例形式而公开的。

Claims

1.一种音频信号处理设备，包括：

音频输入端，所述音频输入端被配置为：接收要进行编码的音频信号；

音频编解码器，所述音频编解码器被配置为：向所述音频信号应用音频编码，从而生成具有音频带宽的经编码音频数据以供传输至远程设备；

网络接口，所述网络接口被配置为：从所述远程设备接收对所述远程设备的音频输出设备的至少一个特性的指示；以及

音频带宽选择器，所述音频带宽选择器被配置为：基于从所述远程设备接收到的所述指示来设置所述音频编解码器的音频带宽参数，从而取决于所述音频输出设备的所述至少一个特性来设置所述经编码音频数据的音频带宽。

2.一种对音频信号进行编码以供传输至远程设备的方法，所述方法包括在本地音频信号处理设备处进行以下操作：

接收要进行编码的音频信号；

由本地设备的音频编解码器向所述音频信号应用音频编码，从而生成具有音频带宽的经编码音频数据以供传输至所述远程设备；

在所述本地设备处从所述远程设备接收对所述远程设备的音频输出设备的至少一个特性的指示；以及

基于从所述远程设备接收到的所述指示来设置所述音频编解码器的音频带宽参数，从而取决于所述音频输出设备的所述至少一个特性来设置所述经编码音频数据的音频带宽。

3.根据权利要求1所述的音频信号处理设备或根据权利要求2所述的方法，其中，所述音频编解码器具有输入端，所述输入端被配置为：接收对用于所述经编码音频数据的目标数据率的指示，并且所述音频编解码器被配置为：根据所指示的目标数据率来对所述音频信号进行编码。

4.根据权利要求3所述的音频信号处理设备或方法，其中，所述音频带宽选择器被配置为：基于对所述音频输出设备特性的指示和对所述目标数据率的指示来设置所述音频带宽参数。

5.根据权利要求4所述的音频信号处理设备或方法，其中，所述音频带宽选择器包括：

阈值设置组件，所述阈值设置组件被配置为：基于对所述音频输出设备特性的指示来确定至少一个音频带宽切换阈值，以及

比较组件，所述比较组件被配置为：通过将所述目标数据率与所述音频带宽切换阈值进行比较来设置所述音频带宽参数。

6.根据任一前述权利要求所述的音频信号处理设备或方法，其中，对所述音频输出设备特性的指示用于指示所述音频输出设备是集成设备还是外部设备。

7.根据权利要求6和5所述的音频信号处理设备或方法，其中，如果所述音频输出设备是集成设备，则设置比在所述音频输出设备是外部设备的情况下更低的音频带宽切换阈值。

8.根据权利要求3或从属于权利要求3的任何权利要求所述的音频信号处理设备或方法，其中，所述音频编解码器包括音频采样器和音频编码器，所述音频采样器被配置为：以与所述音频带宽参数相对应的采样率来生成所述音频信号的样本，所述音频编码器被配置为：根据所述目标数据率来对所述样本进行编码。

9.根据权利要求8所述的音频信号处理设备或方法，其中，所述音频编解码器包括滤波器，所述滤波器被配置为：过滤所述音频信号以过滤掉所述音频带宽之外的音频频率。

10.一种包括代码的计算机程序产品，所述代码存储在计算机可读存储介质上并且被配置为：当在音频信号处理设备的处理器上被执行时实现权利要求2至9或11至15中任一项所述的方法。

11.根据任一前述权利要求所述的音频信号处理设备或方法，其中，所述音频带宽选择器被配置为：响应于来自所述远程设备的表示在所述远程设备处的音频输出设备的改变的另外指示而调节所述音频带宽参数。

12.根据任一前述权利要求所述的音频信号处理设备或方法，其中，所述经编码音频数据作为所述远程设备的用户正在参与的呼叫的一部分被发送到所述远程设备。

13.根据权利要求11和12所述的音频信号处理设备或方法，其中，音频设备的所述改变出现在所述呼叫期间并且所述另外指示是在所述呼叫期间接收到的。

14.根据权利要求3和6所述的音频信号处理设备或方法，其中，对于所述目标数据率的至少一些值，如果所述音频输出设备是外部设备，则设置比在所述音频输出设备是集成设备的情况下更低的音频带宽。

15.根据权利要求3或从属于权利要求3的任何权利要求所述的音频信号处理设备或方法，其中，所述音频信号处理设备包括信道监视组件，所述信道监视组件被配置为：监视通信信道，其中所述经编码音频数据经由所述通信信道被发送到所述远程设备，以及基于所述信道监视来调节目标比特率。