CN109616142B

CN109616142B - 用于音频分类和处理的装置和方法

Info

Publication number: CN109616142B
Application number: CN201910010064.2A
Authority: CN
Inventors: 芦烈; A·J·希菲尔德; 王珺
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-03-26
Filing date: 2014-03-25
Publication date: 2023-11-07
Anticipated expiration: 2034-03-25
Also published as: EP3598448B1; EP2979267A2; US10803879B2; CN105074822B; EP3598448B2; WO2014160678A3; JP2016519784A; EP2979267B1; EP3598448A1; JP2019194742A; HK1212808A1; US20180068670A1; CN104078050A; US20160078879A1; JP6921907B2; JP6573870B2; US9842605B2; CN109616142A; CN105074822A; WO2014160678A2

Abstract

本公开涉及用于音频分类和处理的装置和方法。在一个实施例中，音频处理装置包括：音频分类器，用于实时地将音频信号分类为至少一种音频类型；音频改进设备，用于改进听众的体验；以及调整单元，用于基于所述至少一种音频类型的置信度值以连续的方式调整音频改进设备的至少一个参数。

Description

用于音频分类和处理的装置和方法

本申请是申请号为201480018590.9、申请日为2014年3月25日、发明名称为“用于音频分类和处理的装置和方法”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2013年4月11日提交的美国临时专利申请No.61/811,062和2013年3月26日提交的中国优先权申请No.201310100367.6的优先权，这些申请的全部内容特此通过引用并入。

技术领域

本申请一般涉及音频信号处理。具体地说，本申请的实施例涉及用于音频分类和处理(尤其是对白增强器、环绕虚拟器、音量调节器(leveler)和均衡器的控制)的装置和方法。

背景技术

一些音频改进(improve)设备趋向于在时域或谱域中修改音频信号，以便改进音频的整体质量并且相应地增强用户的体验。各种音频改进设备已出于各种目的而被开发。音频改进设备的一些典型示例包括：

对白增强器：对白是电影和无线电或TV节目中理解故事的最重要的组成部分。开发了增强对白以便增加它们的清晰度和它们的可懂度(尤其是对于听力能力下降的年长者)的方法。

环绕虚拟器：环绕虚拟器使得环绕(多声道)声音信号能够通过PC的内部扬声器或者通过头戴式耳机而被呈现。也就是说，利用立体声设备(诸如扬声器和头戴式耳机)，它虚拟地创建环绕效果，并且为消费者提供影片体验。

音量调节器：音量调节器旨在基于目标响度值调谐回放中的音频内容的音量并且使它在时间线上保持几乎一致。

均衡器：均衡器提供谱平衡(被称为“音调”或“音色”)的一致性，并且允许用户配置每单个频带上的频率响应(增益)的整体轮廓(曲线或形状)，以便强调某些声音或者去除不希望的声音。在传统均衡器中，不同的均衡器预设(preset)可以针对不同的声音(诸如不同的音乐体裁(genre))提供。一旦预设被选择，或者均衡轮廓被设置，相同的均衡增益就将被施加于信号上，直到均衡轮廓被手动修改为止。相反，动态均衡器通过下述方式来实现谱平衡一致性，即，连续地监视音频的谱平衡，将它与希望的音调进行比较，并且动态地调整均衡滤波器以将音频的原始音调变换为希望的音调。

一般地，音频改进设备具有它自己的应用场景/上下文(context)。也就是说，音频改进设备可能仅适合于某一组内容，而不适合于所有可能的音频信号，因为不同的内容可能需要以不同的方式进行处理。例如，对白增强方法通常应用于电影内容上。如果它被应用于不存在对白的音乐上，则它可能错误地提升(boost)一些频率子带，并且引入大量的音色改变和感知不一致性。类似地，如果噪声抑制方法被应用于音乐信号上，则强的伪像(artifact)将是可听的。

然而，对于通常包括一组音频改进设备的音频处理系统，其输入可能不可避免地是所有可能类型的音频信号。例如，集成在PC中的音频处理系统将从各种各样的源(包括电影、音乐、VoIP和游戏)接收音频内容。因此，为了将更好的算法或每个算法的更好的参数应用于对应的内容上，识别或区分正被处理的内容变得重要。

为了区分音频内容并且对应地应用更好的参数或更好的音频改进算法，传统系统通常预先设计一组预设，并且用户被要求针对正被播放的内容选择预设。预设通常对将被应用的一组音频改进算法和/或它们的最佳参数进行编码，诸如被专门设计用于电影或音乐回放的“电影”预设和“音乐”预设。

然而，手动选择对于用户是不方便的。用户通常不会频繁地在预定义的预设之间切换，而是对所有内容仅仅保持使用一种预设。此外，即时在一些自动解决方案中，预设中的参数或算法设置通常也是离散的(诸如用于针对特定内容的特定算法的开启或关闭)，它不能以基于内容的连续方式调整参数。

发明内容

本申请的第一个方面是基于回放中的音频内容以连续的方式自动地配置音频改进设备。通过该“自动”模式，用户可以简单地享用他们的内容，而不用费心去选择不同的预设。另一方面，为了避免过渡(transition)点处的可听伪像，连续调谐更重要。

根据第一个方面的实施例，一种音频处理装置包括：音频分类器，用于实时地将音频信号分类为至少一种音频类型；音频改进设备，用于改进听众的体验；以及调整单元，用于基于所述至少一种音频类型的置信度(confidence)值以连续的方式调整音频改进设备的至少一个参数。

音频改进设备可以是对白增强器、环绕虚拟器、音量调节器和均衡器中的任何一个。

对应地，一种音频处理方法包括：实时地将音频信号分类为至少一种音频类型；并且基于所述至少一种音频类型的置信度值以连续的方式调整用于音频改进的至少一个参数。

根据第一个方面的另一个实施例，一种音量调节器控制器包括：音频内容分类器，用于实时地识别音频信号的内容类型；以及调整单元，用于基于所识别的内容类型以连续的方式调整音量调节器。调整单元可以被配置为：将音量调节器的动态增益与音频信号的信息型内容类型正相关，并且将音量调节器的动态增益与音频信号的干扰型内容类型负相关。

还公开了一种包括如上所述的音量调节器控制器的音频处理装置。

对应地，一种音量调节器控制方法包括：实时地识别音频信号的内容类型；并且通过下述方式来基于所识别的内容类型以连续的方式调整音量调节器，即，将音量调节器的动态增益与音频信号的信息型内容类型正相关，并且将音量调节器的动态增益与音频信号的干扰型内容类型负相关。

根据第一个方面的又一个实施例，一种均衡器控制器包括：音频分类器，用于实时地识别音频信号的音频类型；以及调整单元，用于基于所识别的音频类型的置信度值以连续的方式调整均衡器。

还公开了一种包括如上所述的均衡器控制器的音频处理装置。

对应地，一种均衡器控制方法包括：实时地识别音频信号的音频类型；并且基于所识别的音频类型的置信度值以连续的方式调整均衡器。

本申请还提供一种具有记录在其上的计算机程序指令的计算机可读介质，当被处理器执行时，这些指令使得处理器能够执行以上提及的音频处理方法或音量调节器控制方法或均衡器控制方法。

根据第一个方面的实施例，可以根据音频信号的类型和/或该类型的置信度值来连续地调整可以是对白增强器、环绕虚拟器、音量调节器和均衡器之一的音频改进设备。

本申请的第二个方面是开发识别多种音频类型的内容识别部件，并且检测结果可以用于通过以连续的方式找到更好的参数来引导/指导各种音频改进设备的行为。

根据第二个方面的实施例，一种音频分类器包括：短期特征提取器，用于从短期音频段(segment)提取短期特征，每个短期音频段包括音频帧序列；短期分类器，用于使用相应的短期特征将长期音频段中的短期段序列分类为短期音频类型；统计提取器，用于计算短期分类器对于长期音频段中的短期段序列的结果的统计，作为长期特征；以及长期分类器，用于使用长期特征将长期音频段分类为长期音频类型。

还公开了一种包括如上所述的音频分类器的音频处理装置。

对应地，一种音频分类方法包括：从短期音频段提取短期特征，每个短期音频段包括音频帧序列；使用相应的短期特征将长期音频段中的短期段序列分类为短期音频类型；计算对于长期音频段中的短期段序列的分类操作的结果的统计，作为长期特征；并且使用长期特征将长期音频段分类为长期音频类型。

根据第二个方面的另一个实施例，一种音频分类器包括：音频内容分类器，用于识别音频信号的短期段的内容类型；以及音频上下文分类器，用于至少部分地基于音频内容分类器识别的内容类型来识别短期段的上下文类型。

还公开了一种包括如上所述的音频分类器的音频处理装置。

对应地，一种音频分类方法包括：识别音频信号的短期段的内容类型；并且至少部分地基于所识别的内容类型来识别短期段的上下文类型。

本申请还提供一种具有记录在其上的计算机程序指令的计算机可读介质，当被处理器执行时，这些指令使得处理器能够执行以上提及的音频分类方法。

根据第二个方面的实施例，音频信号可以被分类为不同的与短期类型或内容类型不同的长期类型或上下文类型。音频信号的类型和/或这些类型的置信度值可以进一步用于调整音频改进设备，诸如对白增强体、环绕虚拟器、音量调节器或均衡器。

附图说明

本申请在附图的图中通过示例的方式、而不通过限制的方式示出，在附图中，相似的附图标记指的是类似的元件，并且其中：

图1是示出根据本申请的实施例的音频处理装置的示图；

图2和图3是示出如图1所示的实施例的变体的示图；

图4-6是示出用于识别多种音频类型的分类器的可能架构以及置信度值的计算的示图；

图7-9是示出本申请的音频处理装置的更多实施例的示图；

图10是示出不同音频类型之间的过渡的延迟的示图；

图11-14是示出根据本申请的实施例的音频处理方法的流程图；

图15是示出根据本申请的实施例的对白增强器控制器的示图；

图16和图17是示出根据本申请的音频处理方法在对白增强器的控制中的使用的流程图；

图18是示出根据本申请的实施例的环绕虚拟器控制器的示图；

图19是示出根据本申请的音频处理方法在环绕虚拟器的控制中的使用的流程图；

图20是示出根据本申请的实施例的音量调节器控制器的示图；

图21是示出根据本申请的音量调节器控制器的效果的示图；

图22是示出根据本申请的实施例的均衡器控制器的示图；

图23示出希望的谱平衡预设的几个示例；

图24是示出根据本申请的实施例的音频分类器的示图；

图25和图26是示出本申请的音频分类器将使用的一些特征的示图；

图27-29是示出根据本申请的音频分类器的更多实施例的示图；

图30-33是示出根据本申请的实施例的音频分类方法的流程图；

图34是示出根据本申请的另一个实施例的音频分类器的示图；

图35是示出根据本申请的又一个实施例的音频分类器的示图；

图36是示出在本申请的音频分类器中使用的启发式规则的示图；

图37和图38是示出根据本申请的音频分类器的更多实施例的示图；

图39和图40是示出根据本申请的实施例的音频分类方法的流程图；

图41是示出用于实现本申请的实施例的示例性系统的框图。

具体实施方式

以下参照附图来描述本申请的实施例。要注意，为了清晰的目的，在附图和描述中省略了关于本领域技术人员已知的、但是对于理解本申请不是必要的那些部件和处理的表示和描述。

如本领域技术人员将意识到的，本发明的各个方面可以实现为系统、设备(例如，蜂窝电话、便携式媒体播放器、个人计算机、服务器、电视机顶盒、或数字录像机、或任何其它的媒体播放器)、方法或计算机程序产品。因此，本申请的各个方面可以采取以下形式，即：硬件实施方式、软件实施方式(包括固件、驻留软件、微代码等)、或组合硬件和软件两个方面的实施方式，这些实施方式在本文中可以统称为“电路”、“模块”或“系统”。此外，本申请的各个方面可以采取包含在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体系统、装置或设备、或者前述介质的任何合适的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括以下：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储设备、磁性存储设备、或前述介质的任何合适的组合。在本文件的上下文中，计算机可读存储介质可以是任何可以包含或存储程序的有形介质，该程序被指令执行系统、装置或者设备使用或者与其结合使用。

计算机可读信号介质可以包括在基带中或者作为载波的一部分传播的、其中包含计算机可读程序代码的数据信号。这样的传播的数据信号可以采取多种形式中的任何一种，包括但不限于电磁或光信号、或它们的任何合适的组合。

计算机可读信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以传送、传播或传输用于由指令执行系统、装置或者设备使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以使用任何适当的介质传输，包括但不限于无线、有线、光纤电缆、RF等、或前述介质的任何合适的组合。

可以以一种或多种程序设计语言的任何组合来编写用于执行用于本申请的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言(诸如Java、Smalltalk、C++等)和传统的过程式程序设计语言(诸如“C”语言或类似的程序设计语言)。程序代码可以完全地在用户计算机上作为一个独立的软件包执行，或者部分地在用户计算机上执行、部分地在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如，利用因特网服务提供商来通过因特网连接)。

以下参照根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本申请的各个方面。将理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令引导计算机、其它可编程数据处理装置、或其它设备以特定方式工作，以使得存储在计算机可读介质中的指令产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品。

也可以将这些计算机程序指令加载到计算机、其它可编程数据处理装置或其它设备上，以使一系列操作步骤在所述计算机、其它可编程装置或其它设备上被执行以生成计算机实现处理，该计算机实现处理使得在所述计算机或其它可编程装置上执行的指令提供用于实现流程图和/或框图中的一个方框或多个方框中规定的功能/动作的处理。

下面将详细地描述本申请的实施例。为了清晰起见，以以下架构来组织描述：

第1部分：音频处理装置和方法

第1.1节音频类型

第1.2节音频类型的置信度值和分类器的架构

第1.3节音频类型的置信度值的平滑

第1.4节参数调整

第1.5节参数平滑

第1.6节音频类型的过渡

第1.7节实施例和应用场景的组合

第1.8节音频处理方法

第2部分：对白增强器控制器和控制方法

第2.1节对白增强水平

第2.2节用于确定将被增强的频带的阈值

第2.3节对背景水平的调整

第2.4节实施例和应用场景的组合

第2.5节对白增强器控制方法

第3部分：环绕虚拟器控制器和控制方法

第3.1节环绕提升量

第3.2节起始频率

第3.3节实施例和应用场景的组合

第3.4节环绕虚拟器控制方法

第4部分：音量调节器控制器和控制方法

第4.1节信息型内容类型和干扰型内容类型

第4.2节不同上下文中的内容类型

第4.3节上下文类型

第4.4节实施例和应用场景的组合

第4.5节音量调节器控制方法

第5部分：均衡器控制器和控制方法

第5.1节基于内容类型的控制

第5.2节音乐中的主导源的可能性

第5.3节均衡器预设

第5.4节基于上下文类型的控制

第5.5节实施例和应用场景的组合

第5.6节均衡器控制方法

第6部分：音频分类器和分类方法

第6.1节基于内容类型分类的上下文分类器

第6.2节长期特征的提取

第6.3节短期特征的提取

第6.4节实施例和应用场景的组合

第6.5节音频分类方法

第7部分：VoIP分类器和分类方法

第7.1节基于短期段的上下文分类

第7.2节使用VoIP语音和VoIP噪声的分类

第7.3节平滑波动

第7.4节实施例和应用场景的组合

第7.5节 VoIP分类方法

第1部分：音频处理装置和方法

图1示出内容自适应音频处理装置100的整体框架，内容自适应音频处理装置100支持其中参数基于回放中的音频内容改进的至少一个音频改进设备400的自动配置。它包括三个主要部件：音频分类器200、调整单元300和音频改进设备400。

音频分类器200用于实时地将音频信号分类为至少一种音频类型。它自动地识别回放中的内容的音频类型。任何音频分类技术(诸如通过信号处理、机器学习和模式识别)可以被应用于识别音频内容。表示音频内容的关于一组预定义目标音频类型的概率的置信度值一般同时进行估计。

音频改进设备400用于通过对音频信号执行处理来改进听众的体验，稍后将详细讨论音频改进设备400。

调整单元300用于基于所述至少一种音频类型的置信度值以连续的方式调整音频改进设备的至少一个参数。它被设计为引导音频改进设备400的行为。它基于从音频分类器200获得的结果来估计对应的音频改进设备的最合适的参数。

各种音频改进设备可以被应用于该装置中。图2示出了包括四个音频改进设备的示例系统，所述四个音频改进设备包括对白增强器(DE)402、环绕虚拟器(SV)404、音量调节器(VL)406和均衡器(EQ)408。可以基于在音频分类器200中获得的结果(音频类型和/或置信度值)以连续的方式自动地调整每个音频改进设备。

当然，音频处理装置可能不一定包括所有种类的音频改进设备，而是可以仅包括它们中的一个或多个。另一方面，音频改进设备不限于本公开中给出的那些设备，并且可以包括也在本申请的范围内的更多种类的音频改进设备。此外，在本公开中讨论的那些音频改进设备(包括对白增强器(DE)402、环绕虚拟器(SV)404、音量调节器(VL)406和均衡器(EQ)408)的名称不应构成限制，并且它们中的每一个均应被解释为涵盖实现相同或类似功能的任何其它的设备。

1.1音频类型

为了适当地控制各种种类的音频改进设备，本申请进一步提供新的音频类型架构，尽管现有技术中的那些音频类型在这里也是适用的。

具体地说，来自不同语义层次(level)的音频类型被建模，包括表示音频信号中的基本组成部分的低层音频元素以及表示现实生活用户娱乐应用中的最流行的音频内容的高层音频体裁。前者也可以被命名为“内容类型”。基本音频内容类型可以包括语音、音乐(包括歌曲)、背景声音(或声音效果)和噪声。

语音和音乐的含义是不言而喻的。本申请中的噪声意指物理噪声，而非语义噪声。本申请中的物理噪声可以包括来自例如空调的噪声以及源自技术问题的那些噪声(诸如由于信号传输路径而导致的粉红噪声)。相反，本申请中的“背景声音”是可以是围绕收听者的注意力的核心目标发生的听觉事件的那些声音效果。例如，在电话呼叫中的音频信号中，除了说话者的嗓音之外，可能还存在非预期的一些其它的声音，诸如与电话呼叫无关的一些其它人的嗓音、键盘的声音、脚步的声音等。这些不想要的声音被称为“背景声音”，而非噪声。换句话说，我们可以将“背景声音”定义为不是目标(或收听者的注意力的核心目标)或者甚至是不想要的、但是仍具有某一语义含义的那些声音；而“噪声”可以被定义为除了目标声音和背景声音之外的那些不想要的声音。

有时，背景声音实际上并不是“不想要的”，而是有意创建的，并且携带一些有用信息，诸如电影、TV节目或无线电广播节目中的那些背景声音。所以，有时，它也可以被称为“声音效果”。在本公开中的下文中，为了简洁起见，仅使用“背景声音”，并且它可以被进一步缩写为“背景”。

此外，音乐可以被进一步分类为没有主导(dominant)源的音乐和具有主导源的音乐。如果存在比乐曲中的其它源强得多的源(嗓音或乐器)，则它被称为“具有主导源的音乐”；否则，它被称为“没有主导源的音乐”。例如，在伴有歌声和各种乐器的复调音乐中，如果它被调和地平衡，或者几个最突出的源的能量彼此可比较，则它被认为是没有主导源的音乐；相反，如果源(例如，嗓音)响亮得多，而其它源安静得多，则它被认为包含主导源。作为另一个示例，单一的或有特色的乐器音调是“具有主导源的音乐”。

音乐可以基于不同标准而被进一步分类为不同类型。它可以基于音乐的体裁进行分类，诸如摇滚、爵士、说唱和民谣，但不限于此。它还可以基于乐器进行分类，诸如声乐和乐器音乐。乐器音乐可以包括用不同乐器演奏的各种音乐，诸如钢琴音乐和吉他音乐。其它示例标准包括音乐的韵律、节奏、音色和/或任何其它的音乐属性，使得音乐可以基于这些属性的相似性而被分组在一起。例如，根据音色，声乐可以被分类为男高音、男中音、男低音、女高音、女中音和女低音。

音频信号的内容类型可以针对诸如由多个帧构成的短期音频段进行分类。一般地，音频帧具有多个毫秒(诸如20ms)的长度，并且将被音频分类器分类的短期音频段的长度可以具有从几百毫秒到几秒(诸如1秒)的长度。

为了以内容自适应的方式控制音频改进设备，可以实时地对音频信号进行分类。对于上述内容类型，当前短期音频段的内容类型表示当前音频信号的内容类型。由于短期音频段的长度不是那么长，所以可以将音频信号划分为一个接一个的非重叠短期音频段。然而，还可以沿着音频信号的时间线连续地/半连续地对短期音频段进行采样。也就是说，可以用具有预定长度(短期音频段的预期长度)的窗口沿着音频信号的时间线以一个或多个帧的步长大小移动来对短期音频段进行采样。

高层音频体裁也可以被命名为“上下文类型”，因为它指示音频信号的长期类型，并且可以被认为是瞬间声音事件的环境或上下文，瞬间声音事件可以如上所述那样被分类为内容类型。根据本申请，上下文类型可以包括最流行的音频应用，诸如电影式媒体、音乐(包括歌曲)、游戏和VoIP(互联网协议电话)。

音乐、游戏和VoIP的含义是不言而喻的。电影式媒体可以包括电影、TV节目、无线电广播节目或任何其它类似于前述媒体的音频媒体。电影式媒体的主要特性是可能的语音、音乐和各种种类的背景声音(声音效果)的混合。

可以注意到，内容类型和上下文类型都包括音乐(包括歌曲)。在本申请中的下文中，我们使用词语“短期音乐”和“长期音乐”来分别区分它们。

对于本申请的一些实施例，一些其它的上下文类型架构也被提议。

例如，音频信号可以被分类为高质量音频(诸如电影式媒体和音乐CD)或低质量音频(诸如VoIP、低比特率在线流传输音频和用户产生的内容)，这些可以被统称为“音频质量类型”。

作为另一个示例，音频信号可以被分类为VoIP或非VoIP，这可以被认为是以上提及的4-上下文类型架构(VoIP、电影式媒体、(长期)音乐和游戏)的变换。关于VoIP或非VoIP的上下文，音频信号可以被分类为VoIP相关的音频内容类型，诸如VoIP语音、非VoIP语音、VoIP噪声和非VoIP噪声。VoIP音频内容类型的架构对于区分VoIP上下文和非VoIP上下文尤其是有用的，因为VoIP上下文通常是音量调节器(一种音频改进设备)的最具有挑战性的应用场景。

一般地，音频信号的上下文类型可以针对比短期音频段长的长期音频段进行分类。长期音频段由数量上多于短期音频段中的帧的数量的多个帧构成。长期音频段还可以由多个短期音频段构成。一般地，长期音频段可以具有秒量级的长度，诸如几秒到几十秒，比如说，10秒。

类似地，为了以自适应的方式控制音频改进设备，可以实时地将音频信号分类为上下文类型。类似地，当前长期音频段的上下文类型表示当前音频信号的上下文类型。由于长期音频段的长度相对长，所以可以沿着音频信号的时间线连续地/半连续地对音频信号进行采样以避免其上下文类型的突然变化，并因此避免音频改进设备(一个或多个)的工作参数的突然变化。也就是说，可以用具有预定长度(长期音频段的预期长度)的窗口沿着音频信号的时间线以一个或多个帧(或者一个或多个短期段)的步长大小移动来对长期音频段进行采样。

以上描述了内容类型和上下文类型两者。在本申请的实施例中，调整单元300可以基于各种内容类型中的至少一个和/或各种上下文类型中的至少一个来调整音频改进设备(一个或多个)的至少一个参数。因此，如图3所示，在图1所示的实施例的变体中，音频分类器200可以要么包括音频内容分类器202，要么包括音频上下文分类器204，或者包括这两者。

以上提及了基于(诸如对于上下文类型的)不同标准的不同音频类型以及基于(诸如对于内容类型的)不同分层层次的不同音频类型。然而，标准和分层层次仅仅是为了方便这里的描述，并且绝不是限制。换句话说，在本申请中，如稍后将描述的，以上提及的音频类型中的任何两种或更多种可以被音频分类器200同时识别，并且可以被调整单元300同时考虑。换句话说，不同分层层次中的所有音频类型可以是平行的或者在同一层次中。

1.2音频类型的置信度值和分类器的架构

音频分类器200可以输出硬判决结果，或者调整单元300可以将音频分类器200的结果认为是硬判决结果。即使是对于硬判决，多种音频类型也可以被分配给音频段。例如，音频段可以用“语音”和“短期音乐”两者标记，因为它可能是语音和短期音乐的混合信号。所获得的标记可以直接用于引导音频改进设备(一个或多个)400。简单的示例是，当语音存在时启用对白增强器402，当语音不存在时关闭它。然而，如果没有细致的平滑方案(稍后将讨论)，则该硬判决方法可能在从一种音频类型到另一种音频类型的过渡点处引入一些不自然。

为了具有更多灵活性并且以连续的方式调谐音频改进设备的参数，可以估计每种目标音频类型的置信度值(软判决)。置信度值表示将被识别的音频内容和目标音频类型之间的匹配水平，其值为从0到1。

如前所述，许多分类技术可以直接输出置信度值。置信度值也可以从各种方法计算，这可以被认为是分类器的一部分。例如，如果音频模型被诸如高斯混合模型(GMM)的一些概率建模技术训练，则后验概率可以用于如下表示置信度值：

其中x是一条音频段，c_i是目标音频类型，N是目标音频类型的数量，p(x|c_i)是音频段x具有音频类型c_i的可能性(likelihood)，p(c_i|x)是对应的后验概率。

另一方面，如果音频模型是从像支持矢量机(SVM)和adaBoost一样的一些判别方法训练的，则从模型比较仅获得分数(实值)。在这些情况下，sigmoid函数通常用于将获得的分数(理论上从-∞到∞)映射到期望的置信度(从0到1)：

其中y是来自SVM或adaBoost的输出分数，A和B是需要通过使用一些公知技术从训练数据集估计的两个参数。

对于本申请的一些实施例，调整单元300可以使用多于两种的内容类型和/或多于两种的上下文类型。然后，音频内容分类器202需要识别多于两种的内容类型，和/或音频上下文分类器204需要识别多于两种的上下文类型。在这样的情况下，音频内容分类器202或音频上下文分类器204可以是以某一架构组织的一组分类器。例如，如果调整单元300需要所有的四种种类的上下文类型电影式媒体、长期音乐、游戏和VoIP，则音频上下文分类器204可以具有以下不同的架构：

首先，音频上下文分类器204可以包括如图4所示那样组织的6个一对一二值(binary)分类器(每个分类器区别一种目标音频类型和另一种目标音频类型)、如图5所示那样组织的3个一对其它二值分类器(每个分类器区别一种目标音频类型和其它目标音频类型)、以及如图6所示那样组织的4个一对其它分类器。还存在其它架构，诸如决策导向无环图(DDAG)架构。注意，在图4-6和下面的对应描述中，为了简洁起见，使用“电影”代替“电影式媒体”。

每个二值分类器将对于其输出给出置信度分数H(x)(x表示音频段)。在获得每个二值分类器的输出之后，我们需要将它们映射到识别的上下文类型的最终置信度值。

一般地，假定音频信号将被分类为M种上下文类型(M是正整数)。传统的一对一架构构造个分类器，其中每个分类器在来自两个类的数据上进行训练，然后每个一对一分类器对其优选类投一票，最终结果是个分类器的分类之中的具有最多投票的类。与传统的一对一架构相比，图4中的分层架构也需要构造个分类器。然而，测试迭代可以缩短至因为段x将在每个分层层次被确定为在/不在对应的类中，并且总层次计数为各种上下文类型的最终置信度值可以从二值分类置信度H_k(x)计算，例如(k＝1，2，...6，表示不同的上下文类型)：

C_MOVIE＝(1-H₁(x))·(1-H₃(x))·(1-H₆(x))

C_VOIP＝H₁(x)·H₂(x)·H₄(x)

C_MUSIC＝H₁(x)·(1-H₂(x))·(1-H₅(x))+H₃(x)·(1-H₁(x))·(1-H₅(x))+H₆(x)·(1-H₁(x))·(1-H₃(x))

C_GAME＝H₁(x)·H₂(x)·(1-H₄(x))+H₁(x)·H₅(x)·(1-H₂(x))+H₃(x)·H₅(x)·(1-H₁(x))

在图5所示的架构中，从二值分类结果H_k(x)到最终置信度值的映射函数可以被定义为以下示例：

C_MOVIE＝H₁(x)

C_MUSIC＝H₂(x)·(1-H₁(x))

C_VOIP＝H₃(x)·(1-H₂(x))·(1-H₁(x))

C_GAME＝(1-H₃(x))·(1-H₂(x))·(1-H₁(x))

在图6所示的架构中，最终置信度值可以等于对应的二值分类结果H_k(x)，或者如果所有类的置信度值的和要求为1，则可以基于估计的H_k(x)来简单地对最终置信度值进行规一化：

C_MOVIE＝H₁(x)/(H₁(x)+H₂(x)+H₃(x)+H₄(x))

C_MUSIC＝H₂(x)/(H₁(x)+H₂(x)+H₃(x)+H₄(x))

C_VOIP＝H₃(x)/(H₁(x)+H₂(x)+H₃(x)+H₄(x))

C_GAME＝H₄(x)/(H₁(x)+H₂(x)+H₃(x)+H₄(x))

具有最大置信度值的一个或多个可以被确定为最终识别的类。

应注意，在图4-6所示的架构中，不同的二值分类器的序列不定如所示那样，而是可以是可通过根据各种应用的不同要求手动分配或自动学习而选择的其它序列。

以上描述是针对音频上下文分类器204。对于音频内容分类器202，情况类似。

可替代地，音频内容分类器202或音频上下文分类器204可以被实现为一个同时识别所有内容类型/上下文类型并且同时给出对应的置信度值的单个分类器。存在许多现有的用于做这个的技术。

使用置信度值，音频分类器200的输出可以被表示为矢量，其中每个维度表示每种目标音频类型的置信度值。例如，如果目标音频类型顺序地为(语音，短期音乐，噪声，背景)，则示例输出结果可以是(0.9，0.5，0.0，0.0)，其指示90％地确定音频内容是语音，50％地确定音频是音乐。注意，输出矢量中的所有维度的和不一定为1(例如，来自图6的结果不一定被规一化)，这意味着音频信号可以是语音和短期音乐的混合信号。

稍后在第6部分和第7部分中，将详细地讨论音频上下文分类和音频内容分类的新颖实现。

1.3音频类型的置信度值的平滑

可选地，在每个音频段被分类为预定义的音频类型之后，附加步骤是沿着时间线平滑分类结果以避免从一种类型到另一种类型的突然跳变并且对音频改进设备中的参数进行更平滑的估计。例如，长的摘录被分类为电影式媒体，除了只有一个段被分类为VoIP之外，则突然VoIP判决可以通过平滑而被修订为电影式媒体。

因此，在如图7所示的实施例的变体中，进一步提供用于对于每种音频类型平滑音频信号当前时间的置信度值的类型平滑单元712。

常见的平滑方法是基于加权平均，诸如如下计算当前的实际置信度值和上一时间的平滑置信度值的加权和：

smoothConf(t)＝β·smoothConf(t-1)+(1-β)·conf(t) (3)

其中t表示当前时间(当前音频段)，t-1表示上一时间(上一音频段)，β是权重，conf和smoothConf分别是平滑之前和之后的置信度值。

从置信度值的观点来讲，分类器的硬判决的结果也可以用置信度值来表示，其中这些值要么为0，要么为1。也就是说，如果目标音频类型被选择并被分配给音频段，则对应的置信度为1；否则，置信度为0。因此，即使音频分类器200不给出置信度值，而是仅给出关于音频类型的硬判决，通过类型平滑单元712的平滑操作，调整单元300的连续调整也仍然是可能的。

通过对不同的情况使用不同的平滑权重，平滑算法可以是“不对称的”。例如，可以基于音频信号的音频类型的置信度值来自适应地改变用于计算加权和的权重。当前段的置信度值越大，其权重越大。

从另一个观点来讲，可以基于从一种音频类型到另一种音频类型的不同过渡对来自适应地改变用于计算加权和的权重，尤其是当基于音频分类器200识别的多种内容类型、而不是基于单一一种内容类型的存在或不存在来调整音频改进设备(一个或多个)时。例如，对于从在某一上下文中更频繁出现的音频类型到在该上下文中不是那么频繁出现的另一种音频类型的过渡，后者的置信度值可以被平滑为使得它将不会那么快地增大，因为它可能仅仅是偶然的中断。

另一个因素是变化(增大或减小)趋势，包括变化速率。假设我们更关心当音频类型变得存在时(也就是说，当其置信度值增大时)的延时，我们可以以以下方式设计平滑算法：

以上公式允许经平滑的置信度值在置信度值增大时快速地对当前状态进行响应并且在置信度值减小时缓慢地平滑。平滑函数的变体可以以类似的方式容易地设计。例如，公式(4)可以被修订为使得当conf(t)＞＝smoothConf(t-1)时conf(t)的权重变更大。事实上，在公式(4)中，可以认为β＝0，并且conf(t)的权重变为最大，即，1。

从不同的观点来讲，考虑某一音频类型的变化趋势仅仅是考虑不同的音频类型过渡对的特定示例。例如，类型A的置信度值的增大可以被认为是从非A过渡到A，而类型A的置信度值的减小可以被认为是从A过渡到非A。

1.4参数调整

调整单元300被设计为基于从音频分类器200获得的结果来估计或调整用于音频改进设备(一个或多个)400的适当参数。通过使用内容类型或上下文类型、或者使用内容类型和上下文类型两者进行联合判决，不同的调整算法可以被设计用于不同的音频改进设备。例如，在诸如电影式媒体和长期音乐的上下文类型信息的情况下，如前面所提及的预设可以被自动地选择并且被应用于对应的内容上。在内容类型信息可获得的情况下，每个音频改进设备的参数可以如后面的部分所示那样以更精细的方式调谐。内容类型信息和上下文信息可以在调整单元300中被进一步联合用于平衡长期和短期信息。用于特定音频改进设备的特定调整算法可以被认为是单独的调整单元，或者不同的调整算法可以共同被认为是统一的调整单元。

也就是说，调整单元300可以被配置为基于至少一种内容类型的置信度值和/或至少一种上下文类型的置信度值来调整音频改进设备的至少一个参数。对于特定的音频改进设备，音频类型中的一些是信息型的，音频类型中的一些是干扰型的。因此，特定音频改进设备的参数可以与信息型音频类型(一种或多种)或干扰型音频类型(一种或多种)正相关或负相关。这里，“正相关”意指参数随着音频类型的置信度值增大或减小而以线性的方式或非线性的方式增大或减小。“负相关”意指参数分别随着音频类型的置信度值减小或增大而以线性的方式或非线性的方式增大或减小。

这里，置信度值的减小和增大被直接“传递”到将通过正相关或负相关调整的参数。在数学中，这样的相关或“传递”可以被体现为线性比例或反比例、正或负(加或减)运算、乘或除运算或非线性函数。所有这些形式的相关都可以被称为“传递函数”。为了确定置信度值的增大或减小，我们也可以将当前置信度值或者其数学变换与上一置信度值或多个历史置信度值或者它们的数学变换进行比较。在本申请的上下文中，术语“比较”意指通过减运算的比较或通过除运算的比较。我们可以通过确定差值是否大于0或者比率是否大于1来确定增大或减小。

在特定的实现中，我们可以通过适当的算法(诸如传递函数)将参数与置信度值或者它们的比率或差值直接联系，并且对于“外部观察者”而言没有必要明确地知道特定的置信度值和/或特定的参数是增大、还是减小。在后面的第2-5部分中将给出关于特定音频改进设备的一些特定示例。

如在前面的章节中所述的，对于同一个音频段，分类器200可以用相应的置信度值来识别多种音频类型，这些置信度值可能不一定总计达到1，因为该音频段可能同时包括多个组成部分，诸如音乐、语音和背景声音。在这样的情况下，音频改进设备的参数应在不同的音频类型之间平衡。例如，调整单元300可以被配置为通过基于至少一种音频类型的重要性对所述至少一种音频类型的置信度值进行加权来考虑多种音频类型中的至少一些。特定音频类型越重要，参数从而受到的影响越大。

权重还可以反映音频类型的信息型和干扰型效果。例如，对于干扰型音频类型，可以给予负权重。将在后面的第2-5部分中给出关于特定音频改进设备的一些特定示例。

请注意，在本申请的上下文中，“权重”具有比多项式中的系数更广的含义。除了多项式中的系数之外，它还可以采取指数或幂的形式。当为多项式中的系数时，可以或者可以不对加权系数进行规一化。简言之，权重仅表示加权的对象对将被调整的参数具有多大的影响。

在一些其它的实施例中，对于同一个音频段中所包含的多种音频类型，其置信度值可以通过被规一化来被转换为权重，然后可以通过计算对于每种音频类型预定义的并且用基于置信度值的权重加权的参数预设值的和来确定最终参数。也就是说，调整单元300可以被配置为通过基于置信度值对多种音频类型的效果进行加权来考虑多种音频类型。

作为加权的特定示例，调整单元被配置为基于置信度值来考虑至少一种主导音频类型。对于具有太低置信度值(小于阈值)的那些音频类型，可以不考虑它们。这等同于其置信度值小于阈值的其它音频类型的权重被设置为零。在后面的第2-5部分中将给出关于特定音频改进设备的一些特定示例。

内容类型和上下文类型可以一起考虑。在一个实施例中，它们可以被认为是在同一层次上，并且它们的置信度值可以具有相应的权重。在另一个实施例中，正如命名所示的，“上下文类型”是“内容类型”所在的上下文或环境，因此，调整单元200可以被配置为使得不同上下文类型的音频信号中的内容类型根据该音频信号的上下文类型而被分配不同的权重。一般来说，任何音频类型可以构成另一种音频类型的上下文，因此，调整单元200可以被配置为用另一种音频类型的置信度值修改一种音频类型的权重。在后面的第2-5部分中将给出关于特定音频改进设备的一些特定示例。

在本申请的上下文中，“参数”具有比其字面含义更广的含义。除了具有单一一个值的参数之外，它还可以意指如前面所提及的预设，包括一组不同的参数、由不同参数构成的矢量、或轮廓(profile)。具体地说，在后面的第2-5部分中，将讨论以下参数，但是本申请不限于此：对白增强水平、用于确定将被对白增强的频带的阈值、背景水平、环绕提升量、用于环绕虚拟器的起始频率、音量调节器的动态增益或动态增益范围、指示音频信号是新的可感知音频事件的程度的参数、均衡水平、均衡轮廓和谱平衡预设。

1.5参数平滑

在第1.3节中，我们已经讨论了平滑音频类型的置信度值以避免其突然变化，并因此避免音频改进设备(一个或多个)的参数的突然变化。其它措施也是可能的。一种措施是平滑基于音频类型调整的参数，在该章节中将讨论该措施；另一种措施是将音频分类器和/或调整单元配置为延迟音频分类器的结果的改变，这将在第1.6节中讨论。

在一个实施例中，可以如下进一步平滑参数以避免在过渡点处可能引入可听伪像的快速变化：

其中是经平滑的参数，L(t)是非平滑的参数，τ是表示时间常数的系数，t是当前时间，t-1是上一时间。

也就是说，如图8所示，音频处理装置可以包括参数平滑单元814，其用于对于音频改进设备(诸如对白增强器402、环绕虚拟器404、音量调节器406和均衡器408中的至少一个)的被调整单元300调整的参数，通过计算当前时间调整单元确定的参数值和上一时间的平滑参数值的加权和来平滑当前时间调整单元300确定的参数值。

时间常数τ可以是基于应用的特定要求和/或音频改进设备400的实现的固定值。它还可以基于音频类型(尤其是基于从一种音频类型到另一种音频类型(诸如从音乐到语音以及从语音到音乐)的不同过渡类型)自适应地改变。

以均衡器作为示例(进一步的细节在第5部分中可能被涉及)。均衡对于应用于音乐内容上是好的，但对于应用于语音内容上不是好的。因此，为了平滑均衡的水平，当音频信号从音乐过渡到语音时，时间常数可以相对小，使得较小的均衡水平可以更快地应用于语音内容上。另一方面，为了避免过渡点处的可听伪像，用于从语音到音乐的过渡的时间常数可以相对大。

为了估计过渡类型(例如，从语音到音乐或者从音乐到语音)，可以直接使用内容分类结果。也就是说，将音频内容分类为音乐或语音使得得到过渡类型简单直接。为了以更连续的方式估计过渡，我们还可以依赖于估计的未平滑的均衡水平，而不是直接比较音频类型的硬判决。大体构思是，如果未平滑的均衡水平增大，则它指示从语音过渡到音乐(或者更像音乐)；否则，它更像是从音乐过渡到语音(或者更像语音)。通过区分不同的过渡类型，可以对应地设置时间常数，一个示例是：

其中τ(t)是取决于内容的时变时间常数，τ1和τ2是两个预设的时间常数值，通常满足τ1＞τ2。直观地，以上函数指示，当均衡水平增大时，过渡相对慢，当均衡水平减小时，过渡相对快，但是本申请不限于此。此外，参数不限于均衡水平，而是可以是其它参数。也就是说，参数平滑单元814可以被配置为使得用于计算加权和的权重基于调整单元300确定的参数值的增大或减小趋势而自适应地改变。

1.6音频类型的过渡

将参照图9和图10描述用于避免音频类型的突然变化、并因此避免音频改进设备(一个或多个)的参数的突然变化的另一种方案。

如图9所示，音频处理装置100还可以包括计时器916，其用于测量在其期间音频分类器200连续地输出相同的新音频类型的持续时间，其中调整单元300可以被配置为继续使用当前音频类型，直到该新音频类型的持续时间的长度达到阈值为止。

换句话说，如图10所示，引入了观察(或维持)阶段。利用观察阶段(对应于持续时间的长度的阈值)，音频类型的变化被进一步监视连续的时间量以确认在调整单元300实际使用新音频类型之前音频类型是否已实际改变。

如图10所示，箭头(1)示出当前状态是类型A的情况并且音频分类器200的结果不改变。

如果当前状态是类型A并且音频分类器200的结果变为类型B，则计时器916开始计时，或者如图10所示，处理进入观察阶段(箭头(2))，并且释放延迟(hangover)计数cnt的初始值被设置，指示观察持续时间量(等于阈值)。

然后，如果音频分类器200连续地输出类型B，则cnt连续地减小(箭头(3))，直到cnt等于0(也就是说，新类型B的持续时间的长度达到阈值)为止，然后调整单元300可以使用新音频类型B(箭头(4))，或者换句话说，只有到现在为止，音频类型才可以被认为已实际变为类型B。

否则，如果在cnt变为零之前(在持续时间的长度达到阈值之前)音频分类器200的输出变回到旧类型A，则观察阶段终止，并且调整单元300仍使用旧类型A(箭头(5))。

从类型B到类型A的改变可以类似于上述处理。

在以上处理中，阈值(或释放延迟计数)可以基于应用要求而设置。它可以是预定义的固定值。它也可以被自适应地设置。在一种变体中，阈值对于从一种音频类型到另一种音频类型的不同过渡对是不同的。例如，当从类型A变为类型B时，阈值可以是第一值；当从类型B变为类型A时，阈值可以是第二值。

在另一种变体中，释放延迟计数(阈值)可以与新音频类型的置信度值负相关。大体构思是，如果置信度表明在两种类型之间混淆(例如，当置信度值仅约为0.5时)，则观察持续时间需要长；否则，持续时间可以相对短。遵循该指导方针，可以通过以下公式来设置示例释放延迟计数：

HangCnt＝C·|0.5-Conf|+D

其中HangCnt是释放延迟持续时间或阈值，C和D是可以基于应用要求而设置的两个参数，通常，C是负值，而D是正值。

顺便提一下，计时器916(并因此上述过渡处理)在上面被描述为音频处理装置的一部分，但是在音频分类器200的外部。在一些其它的实施例中，正如第7.3节中所描述的，它可以被认为是音频分类器200的一部分。

1.7实施例和应用场景的组合

以上所讨论的所有的实施例及其变体可以以它们的任何组合实现，并且在不同部分/实施例中提及的、但是具有相同或类似功能的任何部件可以被实现为相同的或单独的部件。

具体地说，当在上文中描述实施例及其变体时，省略了具有与在前面的实施例或变体中已经描述的那些类似的附图标记的那些部件，并且仅描述不同的部件。事实上，这些不同的部件可以与其它实施例或变体的部件组合，或者独自构成单独的解决方案。例如，参照图1至图10描述的解决方案中的任何两个或更多个可以彼此组合。作为最完整的解决方案，音频处理装置可以包括音频内容分类器202和音频上下文分类器204两者、以及类型平滑单元712、参数平滑单元814和计时器916。

如前面所提及的，音频改进设备400可以包括对白增强器402、环绕虚拟器404、音量调节器406和均衡器408。音频处理装置100可以包括它们中的任何一个或多个，其中调整单元300适应它们。当涉及多个音频改进设备400时，调整单元300可以被认为包括特定于相应的音频改进设备400的多个子单元300A至300D(图15、图18、图20和图22)，或者仍可以被认为是一个统一的调整单元。当特定于音频改进设备时，调整单元300与音频分类器200以及其它可能的部件一起可以被认为是该特定改进设备的控制器，这将在后面的第2-5部分中详细地讨论。

此外，音频改进设备400不限于所提及的示例，并且可以包括任何其它音频改进设备。

并且，已经讨论的任何解决方案或其任何组合可以进一步与在本公开的其它部分中描述或暗示的任何实施例组合。尤其是，将在第6部分和第7部分中讨论的音频分类器的实施例可以用在音频处理装置中。

1.8音频处理方法

在上文中描述实施例中的音频处理装置的过程中，明显还公开了一些处理或方法。在下文中，给出这些方法的概要，而不重复在上文中已经讨论过的细节中的一些，但是应注意，尽管这些方法是在描述音频处理装置的过程中公开的，但是这些方法不一定采用所描述的那些部件，或者不一定由那些部件执行。例如，音频处理装置的实施例可以部分地或完全地用硬件和/或固件实现，而以下讨论的音频处理方法可以全部用计算机可执行程序实现是可能的，尽管这些方法也可以采用音频处理装置的硬件和/或固件。

以下将参照图11-14描述这些方法。请注意，对应于音频信号的流传输性质，当实时地执行方法时，各种操作被重复，并且不同的操作不一定针对同一个音频段。

在如图11所示的实施例中，提供了音频处理方法。首先，实时地将将被处理的音频信号分类为至少一种音频类型(操作1102)。基于所述至少一种音频类型的置信度值，可以连续地调整用于音频改进的至少一个参数(操作1104)。音频改进可以是对白增强(操作1106)、环绕虚拟化(操作1108)、音量调节(操作1110)和/或均衡(操作1112)。对应地，所述至少一个参数可以包括用于对白增强处理、环绕虚拟化处理、音量调节处理和均衡处理中的至少一个的至少一个参数。

这里，“实时地”和“连续地”意指音频类型，因此参数将随着音频信号的特定内容实时地改变，并且“连续地”还意指调整是基于置信度值的连续调整，而不是突然的或离散的调整。

音频类型可以包括内容类型和/或上下文类型。对应地，调整操作1104可以被配置为基于至少一种内容类型的置信度值和至少一种上下文类型的置信度值来调整所述至少一个参数。内容类型还可以包括短期音乐、语音、背景声音和噪声的内容类型中的至少一个。上下文类型还可以包括长期音乐、电影式媒体、游戏和VoIP的上下文类型中的至少一个。

还提出了一些其它的上下文类型方案，比如VoIP相关的上下文类型(包括VoIP和非VoIP)以及音频质量类型(包括高质量音频或低质量音频)。

短期音乐可以根据不同的标准而被进一步分类为子类型。根据主导源的存在，它可以包括没有主导源的音乐和具有主导源的音乐。此外，短期音乐可以包括至少一个基于体裁的群集、或至少一个基于乐器的群集、或至少一个基于音乐的韵律、节奏、音色和/或任何其它的音乐属性而分类的音乐群集。

当内容类型和上下文类型都被识别时，可以通过内容类型所在的上下文类型来确定内容类型的重要性。也就是说，不同上下文类型的音频信号中的内容类型根据该音频信号的上下文类型而被分配不同的权重。更一般地，一种音频类型可以影响另一种音频类型，或者可以是另一种音频类型的前提。因此，调整操作1104可以被配置为用另一种音频类型的置信度值修改一种音频类型的权重。

当音频信号同时(也就是说，针对同一个音频段)被分类为多种音频类型时，调整操作1104可以考虑所识别的音频类型中的一些或全部来调整用于改进该音频段的参数(一个或多个)。例如，调整操作1104可以被配置为基于至少一种音频类型的重要性来对所述至少一种音频类型的置信度值进行加权。或者，调整操作1104可以被配置为通过基于音频类型中的至少一些的置信度值对它们进行加权来考虑所述音频类型中的至少一些。在特殊情况下，调整操作1104可以被配置为基于置信度值来考虑至少一种主导音频类型。

为了避免结果的突然变化，可以引入平滑方案。

可以对经调整的参数值进行平滑(图12中的操作1214)。例如，可以用当前时间调整操作确定的参数值和上一时间的平滑参数值的加权和来代替当前时间调整操作1104确定的参数值。因此，通过迭代的平滑操作，在时间线上对参数值进行平滑。

用于计算加权和的权重可以基于音频信号的音频类型、或者基于从一种音频类型到另一种音频类型的不同过渡对而自适应地改变。可替代地，用于计算加权和的权重基于通过调整操作确定的参数值的增大或减小趋势而自适应地改变。

图13中示出了另一种平滑方案。也就是说，所述方法还可以包括对于每种音频类型，通过计算当前的实际置信度值和上一时间的平滑置信度值的加权和来平滑音频信号当前的置信度值(操作1303)。类似于参数平滑操作1214，用于计算加权和的权重可以基于音频信号的音频类型的置信度值、或者基于从一种音频类型到另一种音频类型的不同过渡对而自适应地改变。

另一种平滑方案是用于即使音频分类操作1102的输出改变、也延迟从一种音频类型到另一种音频类型的过渡的缓冲机制。也就是说，调整操作1104不立即使用新音频类型，而是等待音频分类操作1102的输出稳定。

具体地说，所述方法可以包括测量在其期间分类操作连续地输出相同的新音频类型的持续时间(图14中的操作1403)，其中调整操作1104被配置为继续使用当前音频类型(操作14035中的“否”和操作11041)，直到新音频类型的持续时间的长度达到阈值(操作14035中的“是”和操作11042)为止。具体地说，当从音频分类操作1102输出的音频类型相对于音频参数调整操作1104中所使用的当前音频类型改变(操作14031中的“是”)时，则计时开始(操作14032)。如果音频分类操作1102继续输出新音频类型，也就是说，如果操作14031中的判断继续为“是”时，则计时继续(操作14032)。最后，当新音频类型的持续时间达到阈值(操作14035中的“是”)时，调整操作1104使用新音频类型(操作11042)，并且对计时进行重置(操作14034)以为音频类型的下一次切换做准备。在达到阈值之前(操作14035中的“否”)，调整操作1104继续使用当前音频类型(操作11041)。

这里，计时可以用计时器的机制(向上计数(counting up)或向下计数(countingdown))来实现。如果在计时开始之后、但在达到阈值之前，音频分类操作1102的输出变回到调整操作1104中所使用的当前音频类型，则应认为对于调整操作1104所使用的当前音频类型不存在改变(操作14031中的“否”)。但是当前分类结果(对应于音频信号中的将被分类的当前音频段)相对于音频分类操作1102的前一输出(对应于音频信号中的将被分类的前一音频段)改变(操作14033中的“是”)，因此对计时进行重置(操作14034)，直到下一次改变(操作14031中的“是”)开始计时为止。当然，如果音频分类操作1102的分类结果相对于音频参数调整操作1104所使用的当前音频类型没有改变(操作14031中的“否”)，相对于前一分类也没有改变(操作14033中的“否”)，则表明音频分类处于稳定状态并且当前音频类型继续被使用。

这里所使用的阈值对于从一种音频类型到另一种音频类型的不同过渡对也是不同的，因为当状态不是那么稳定时，一般我们可能宁愿音频改进设备处于其默认状况，而不是其它状况。另一方面，如果新音频类型的置信度值相对高，则过渡到该新音频类型更安全。因此，阈值可以与新音频类型的置信度值负相关。置信度值越高，阈值越低，这意味着音频类型可以更快地过渡到新音频类型。

类似于音频处理装置的实施例，一方面，音频处理方法的实施例及其变体的任何组合是实用的；并且另一方面，音频处理方法的实施例及其变体的每一个方面可以是单独的解决方案。尤其是，在所有的音频处理方法中，可以使用如在第6部分和第7部分中讨论的音频分类方法。

第2部分：对白增强器控制器和控制方法

音频改进设备的一个示例是对白增强器(DE)，其旨在连续地监视回放中的音频、检测对白的存在、并且增强对白以增加它们的清晰度和可懂度(使对白更易于被听到和理解)，尤其是对于听力能力下降的年长者。除了检测对白是否存在之外，如果对白存在、并然后被对应地增强(通过动态谱再平衡)，则还检测对于可懂度最重要的频率。在H.Muesch的作为WO 2008/106036 A2公开的“Speech Enhancement in Entertainment Audio”中展现了示例对白增强方法，该申请的全部内容通过引用并入本文。

关于对白增强器的常见的手动配置是，它通常对电影式媒体内容启用，但对音乐内容禁用，因为对白增强可能错误地过多地对音乐信号触发。

在音频类型信息可获得的情况下，可以基于识别的音频类型的置信度值来对对白增强水平和其它参数进行调谐。作为早先讨论的音频处理装置和方法的特定示例，对白增强器可以使用在第1部分中讨论的所有实施例和这些实施例的任何组合。具体地说，在控制对白增强器的情况下，如图1-10所示的音频处理装置100中的音频分类器200和调整单元300可以构成如图15所示的对白增强器控制器1500。在该实施例中，由于调整单元是特定于对白增强器的，所以它可以被称为300A。并且，如在前一部分中所讨论的，音频分类器200可以包括音频内容分类器202和音频上下文分类器204中的至少一个，并且对白增强器控制器1500还可以包括类型平滑单元712、参数平滑单元814和计时器916中的至少一个。

因此，在该部分中，我们将不重复在前一部分中已经描述的那些内容，而仅仅给出其一些特定示例。

对于对白增强器，可调整参数包括但不限于对白增强水平、背景水平以及用于确定将被增强的频带的阈值。参见H.Muesch的作为WO 2008/106036 A2公开的“SpeechEnhancement in Entertainment Audio”，该申请的全部内容通过引用并入本文。

2.1对白增强水平

当涉及对白增强水平时，调整单元300A可以被配置为将对白增强器的对白增强水平与语音的置信度值正相关。附加地或可替代地，该水平可以与其它内容类型的置信度值负相关。因此，对白增强水平可以被设置为与语音置信度成比例(线性或非线性)，使得对白增强在非语音信号(诸如音乐和背景声音(声音效果))中不太有效。

关于上下文内容，调整单元300A可以被配置为将对白增强器的对白增强水平与电影式媒体和/或VoIP的置信度值正相关，和或将对白增强器的对白增强水平与长期音乐和/或游戏的置信度值负相关。例如，对白增强水平可以被设置为与电影式媒体的置信度值成比例(线性或非线性)。当电影式媒体置信度值为0(例如，在音乐内容中)时，对白增强水平也为0，这等同于禁用对白增强器。

如在前一部分中所描述的，内容类型和上下文类型可以被联合考虑。

2.2用于确定将被增强的频带的阈值

在对白增强器的工作期间，对于每个频带存在阈值(通常是能量或响度阈值)以确定它是否需要被增强，也就是说，高于相应的能量/响度阈值的那些频带将被增强。为了调整阈值，调整单元300A可以被配置为将阈值与短期音乐和/或噪声和/或背景声音的置信度值正相关，和/或将阈值与语音的置信度值负相关。例如，在假定更可靠的语音检测的情况下，如果语音置信度高，则可以降低阈值，以允许更多频带被增强；另一方面，当音乐置信度值高时，可以增大阈值以使更少的频带被增强(并因此伪像更少)。

2.2对背景水平的调整

如图15所示，对白增强器中的另一个部件是最小值跟踪单元4022，其用于估计音频信号中的背景水平(以用于SNR估计以及在第2.2节中提及的频带阈值估计)。它也可以基于音频内容类型的置信度值来进行调谐。例如，如果语音置信度高，则最小值跟踪单元可以更自信地将背景水平设置为当前最小值。如果音乐置信度高，则可以将背景水平设置为略高于该当前最小值，或者以另一种方式，设置为当前帧的能量和当前最小值的加权平均，其中对当前最小值的权重大。如果噪声和背景置信度高，则可以将背景水平设置为比当前最小值高得多，或者以另一种方式，设置为当前帧的能量和当前最小值的加权平均，其中对当前最小值的权重小。

因此，调整单元300A可以被配置为将调整分配给最小值跟踪单元所估计的背景水平，其中调整单元被进一步配置为将该调整与短期音乐和/或噪声和/或背景声音的置信度值正相关，和/或将该调整与语音的置信度值负相关。在变体中，调整单元300A可以被配置为与短期音乐相比将该调整与噪声和/或背景的置信度值更正相关。

2.4实施例和应用场景的组合

类似于第1部分，以上所讨论的所有实施例及其变体可以以它们的任何组合实现，并且在不同部分/实施例中提及的、但是具有相同或类似功能的任何部件可以被实现为相同的或单独的部件。

例如，在第2.1节到第2.3节中描述的解决方案中的任何两个或更多个可以彼此组合。并且，这些组合可以进一步与在第1部分和稍后将描述的其它部分中描述或暗示的任何实施例组合。尤其是，许多公式实际上适用于每种种类的音频改进设备或方法，但是它们在本公开的每个部分中不一定被记载或讨论。在这样的情况下，可以在本公开的各部分之间进行交叉引用以将在一个部分中讨论的特定公式应用于另一个部分，其中只有相关的参数(一个或多个)、系数(一个或多个)、幂(一个或多个)(指数)和权重(一个或多个)根据特定应用的特定要求进行适当调整。

2.5对白增强器控制方法

类似于第1部分，在上文中描述实施例中的对白增强器控制器的过程中，明显还公开了一些处理或方法。在下文中，给出这些方法的概要，而不重复在上文中已经讨论过的细节中的一些。

首先，如在第1部分中讨论的音频处理方法的实施例可以用于对白增强器，其参数(一个或多个)是将通过音频处理方法调整的目标中的一个。从该观点来讲，音频处理方法也是对白增强器控制方法。

在该章节中，将仅讨论特定于对白增强器的控制的那些方面。对于该控制方法的一般方面，可以参照第1部分。

根据一个实施例，音频处理方法还可以包括对白增强处理，并且调整操作1104包括将对白增强水平与电影式媒体和/或VoIP的置信度值正相关，和或将对白增强水平与长期音乐和/或游戏的置信度值负相关。也就是说，对白增强主要针对电影式媒体或VoIP的上下文中的音频信号。

更具体地说，调整操作1104可以包括将对白增强器的对白增强水平与语音的置信度值正相关。

本申请还可以调整在对白增强处理中将被增强的频带。如图16所示，根据本申请，可以基于识别的音频类型的置信度值(一个或多个)来调整用于确定相应的频带是否将被增强的阈值(通常是能量或响度)(操作1602)。然后，在对白增强器内，基于经调整的阈值，高于相应阈值的频带被选择(操作1604)并且被增强(操作1606)。

具体地说，调整操作1104可以包括将阈值与短期音乐和/或噪声和/或背景声音的置信度值正相关，和/或将阈值与语音的置信度值负相关。

音频处理方法(尤其是对白增强处理)一般还包括估计音频信号中的背景水平，这一般由在对白增强器402中实现的最小值跟踪单元4022来实现，并且被用在SNR估计或频带阈值估计中。本申请还可以用于调整背景水平。在这样的情况下，如图17中所示，在背景水平被估计(操作1702)之后，它首先基于音频类型(一种或多种)的置信度值(一个或多个)被调整(操作1704)，并然后在SNR估计和/或频带阈值估计中被使用(操作1706)。具体地说，调整操作1104可以被配置为将调整分配给估计的背景水平，其中调整操作1104可以被进一步配置为将该调整与短期音乐和/或噪声和/或背景声音的置信度值正相关，和/或将该调整与语音的置信度值负相关。

更具体地说，调整操作1104可以被配置为与短期音乐相比将该调整与噪声和/或背景的置信度值更正相关。

类似于音频处理装置的实施例，一方面，音频处理方法的实施例及其变体的任何组合是实用的；并且另一方面，音频处理方法的实施例及其变体的每一个方面可以是单独的解决方案。此外，在该章节中描述的任何两个或更多个解决方案可以彼此组合，并且这些组合可以进一步与在第1部分和稍后将描述的其它部分中描述或暗示的任何实施例组合。

第3部分：环绕虚拟器控制器和控制方法

环绕虚拟器使得环绕声信号(诸如多声道5.1和7.1)能够通过PC的内部扬声器或者通过头戴式耳机呈现。也就是说，利用立体声设备(诸如内部膝上型电脑扬声器或头戴式耳机)，它虚拟地创建环绕效果，并且为消费者提供影片体验。头部相关传递函数(HRTF)通常在环绕虚拟器中被用于模拟来自与多声道音频信号相关联的各个扬声器位置的声音在耳朵处的到达。

虽然当前的环绕虚拟器对头戴式耳机很好地工作，但是它与内置扬声器一起对不同的内容不同地工作。一般地，电影式媒体内容对扬声器启用环绕虚拟器，而音乐则不这样，因为它可能听起来太微弱。

由于环绕虚拟器中的相同的参数不能同时为电影式媒体和音乐内容两者创建良好的声像，所以参数必须更精确地基于内容来调谐。在音频类型信息(尤其是音乐置信度值和语音置信度值以及一些其它的内容类型信息和上下文信息)可获得的情况下，该工作可以用本申请来完成。

类似于第2部分，作为在第1部分中讨论的音频处理装置和方法的特定示例，环绕虚拟器404可以使用在第1部分中讨论的所有实施例以及本文中所公开的那些实施例的任何组合。具体地说，在控制环绕虚拟器404的情况下，如图1-10所示的音频处理装置100中的音频分类器200和调整单元300可以构成如图18所示的环绕虚拟器控制器1800。在该实施例中，由于调整单元是特定于环绕虚拟器404的，所以它可以被称为300B。并且，类似于第2部分，音频分类器200可以包括音频内容分类器202和音频上下文分类器204中的至少一个，并且环绕虚拟器控制器1800还可以包括类型平滑单元712、参数平滑单元814和计时器916中的至少一个。

因此，在该部分中，我们将不重复在第1部分中已经描述的那些内容，而仅仅给出其一些特定示例。

对于环绕虚拟器，可调整参数包括但不限于用于环绕虚拟器404的环绕提升量和起始频率。

3.1环绕提升量

当涉及环绕提升量时，调整单元300B可以被配置为将环绕虚拟器404的环绕提升量与噪声和/或背景和/或语音的置信度值正相关，和/或将环绕提升量与短期音乐的置信度值负相关。

具体地说，为了修改环绕虚拟器404以便使音乐(内容类型)听起来可接受，调整单元300B的示例实现可以基于短期音乐置信度值来调谐环绕提升量，诸如：

SB∝(1-Conf_music) (5)

其中SB指示环绕提升量，Conf_music是短期音乐的置信度值。

它帮助降低对于音乐的环绕提升，并且防止它听起来像被洗过(wash out)。

类似地，也可以利用语音置信度值，例如：

SB∝(1-Conf_music)*Conf_speech ^α (6)

其中Conf_speech是语音的置信度值，α是指数形式的加权系数，并且可以在1-2的范围内。该公式指示环绕提升量仅对于纯语音(高语音置信度和低音乐置信度)将会高。

或者我们可以仅考虑语音的置信度值：

SB∝Conf_speech (7)

各种变体可以以类似的方式设计。尤其是，对于噪声或背景声音，可以构造类似于公式(5)至(7)的公式。此外，四种内容类型的效果可以以任何组合一起考虑。在这样的情况下，噪声和背景是周围声音，并且它们具有大提升量是更安全的；在假设说话者通常坐在屏幕的前面的情况下，语音可以具有中等提升量；并且音乐使用较小的提升量。因此，调整单元300B可以被配置为与内容类型语音相比将环绕提升量与噪声和/或背景的置信度值更正相关。

假设我们为每种内容类型预定义期望提升量(其等同于权重)，则另一种替代方案也可以被应用：

其中是估计的提升量，具有内容类型的下标的α是该内容类型的期望/预定义提升量(权重)，具有内容类型的下标的Conf是该内容类型的置信度值(其中bkg表示“背景声音”)。根据情况，a_music可以(但不一定)被设置为0，这指示环绕虚拟器404对于纯音乐(内容类型)将被禁用。

从另一个观点来讲，公式(8)中的具有内容类型的下标的α是该内容类型的期望/预定义提升量，并且对应内容类型的置信度值除以所有识别的内容类型的置信度值的和的商可以被认为是该对应内容类型的预定义/期望提升量的规一化权重。也就是说，调整单元300B可以被配置为通过基于置信度值对多种内容类型的预定义提升量进行加权来考虑多种内容类型中的至少一些。

关于上下文类型，调整单元300B可以被配置为将环绕虚拟器404的环绕提升量与电影式媒体和/或游戏的置信度值正相关，和/或将环绕提升量与长期音乐和/或VoIP的置信度值负相关。然后，可以构造类似于(5)至(8)的公式。

作为特殊示例，环绕虚拟器404可以对于纯电影式媒体和/或游戏被启用，但对于音乐和/或VoIP被禁用。同时，环绕虚拟器404的提升量可以对于电影式媒体和游戏被不同地设置，电影式媒体使用较高的提升量，而游戏使用较小的提升量。因此，调整单元300B可以被配置为与游戏相比将环绕提升量与电影式媒体的置信度值更正相关。

类似于内容类型，音频信号的提升量也可以被设置为上下文类型的置信度值的加权平均：

其中是估计的提升量，具有上下文类型的下标的α是该上下文类型的期望/预定义提升量(权重)，具有上下文类型的下标的Conf是该上下文类型的置信度值。根据情况，a_MUSIC和a_VOIP可以(但不一定)被设置为0，这指示环绕虚拟器404对于纯音乐(上下文类型)和或纯VoIP将被禁用。

再次，类似于内容类型，公式(9)中的具有上下文类型的下标的α是该上下文类型的期望/预定义提升量，并且对应上下文类型的置信度值除以所有识别的上下文类型的置信度值的和的商可以被认为是该对应上下文类型的预定义/期望提升量的规一化权重。也就是说，调整单元300B可以被配置为通过基于置信度值对多种上下文类型的预定义提升量进行加权来考虑多种上下文类型中的至少一些。

3.2起始频率

其它参数在环绕虚拟器中也可以被修改，诸如起始频率。一般地，音频信号中的高频分量更适合于被空间呈现。例如，在音乐中，如果男低音被空间呈现为具有更多环绕效果，则它将听起来奇怪。因此，对于特定的音频信号，环绕虚拟器需要确定频率阈值，高于该频率阈值的分量被空间呈现，而低于该频率阈值的分量被保留。该频率阈值是起始频率。

根据本申请的实施例，用于环绕虚拟器的起始频率可以在音乐内容上增大，使得更多男低音可以被保留用于音乐信号。于是，调整单元300B可以被配置为将环绕虚拟器的起始频率与短期音乐的置信度值正相关。

3.3实施例和应用场景的组合

例如，在第3.1节和第3.2节中描述的解决方案中的任何两个或更多个可以彼此组合。并且，这些组合中的任何一个可以进一步与在第1部分、第2部分和稍后将描述的其它部分中描述或暗示的任何实施例组合。

3.4环绕虚拟器控制方法

类似于第1部分，在上文中描述实施例中的环绕虚拟器控制器的过程中，明显还公开了一些处理或方法。在下文中，给出这些方法的概要，而不重复在上文中已经讨论过的细节中的一些。

首先，如在第1部分中讨论的音频处理方法的实施例可以用于环绕虚拟器，其参数(一个或多个)是将通过音频处理方法调整的目标中的一个。从该观点来讲，音频处理方法也是环绕虚拟器控制方法。

在该章节中，将仅讨论特定于环绕虚拟器的控制的那些方面。对于该控制方法的一般方面，可以参照第1部分。

根据一个实施例，音频处理方法还可以包括环绕虚拟化处理，并且调整操作1104可以被配置为将环绕虚拟化处理的环绕提升量与噪声和/或背景和/或语音的置信度值正相关，和/或将环绕提升量与短期音乐的置信度值负相关。

具体地说，调整操作1104可以被配置为与内容类型语音相比将环绕提升量与噪声和/或背景的置信度值更正相关。

可替代地或附加地，环绕提升量还可以基于上下文类型(一种或多种)的置信度值(一个或多个)进行调整。具体地说，调整操作1104可以被配置为将环绕虚拟化处理的环绕提升量与电影式媒体和/或游戏的置信度值正相关，和/或将环绕提升量与长期音乐和/或VoIP的置信度值负相关。

更具体地说，调整操作1104可以被配置为与游戏相比将环绕提升量与电影式媒体的置信度值更正相关。

将被调整的另一个参数是用于环绕虚拟化处理的起始频率。如图19所示，首先基于音频类型(一种或多种)的置信度值(一个或多个)对起始频率进行调整(操作1902)，然后环绕虚拟器对高于起始频率的那些音频分量进行处理(操作1904)。具体地说，调整操作1104可以被配置为将环绕虚拟化处理的起始频率与短期音乐的置信度值正相关。

类似于音频处理装置的实施例，一方面，音频处理方法的实施例及其变体的任何组合是实用的；并且另一方面，音频处理方法的实施例及其变体的每一个方面可以是单独的解决方案。此外，在该章节中描述的任何两个或更多个解决方案可以彼此组合，并且这些组合可以进一步与在本公开的其它部分中描述或暗示的任何实施例组合。

第4部分：音量调节器控制器和控制方法

不同音频源或同一个音频源中的不同片段的音量有时变化很大。这是令人讨厌的，因为用户必须频繁地调整音量。音量调节器(VL)旨在基于目标响度值调谐回放中的音频内容的音量并且使它在时间线上保持几乎一致。在以下申请中展现了示例音量调节器：A.J.Seefeldt等人的作为US2009/0097676A1公开的“Calculating and Adjusting thePerceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”；B.G.Grockett等人的作为WO2007/127023A1公开的“Audio Gain Control UsingSpecific-Loundness-Based Auditory Event Detection”；以及A.Seefeldt等人的作为WO2009/011827 A1公开的“Audio Processing Using Auditory Scene Analysis andSpectral Skewness”。这三篇文献的全部内容通过引用并入本文。

音量调节器以某一方式连续地测量音频信号的响度，并然后将该信号修改一个增益量，该增益量是用于修改音频信号的响度的缩放(scale)因子，并且通常是被测响度、希望的目标响度和几个其它因子的函数。估计适当的增益需要考虑若干个因素，其中两种方法的基本标准都是目标响度和保持动态范围。它通常包括几个子要素，诸如自动增益控制(AGC)、听觉事件检测、动态范围控制(DRC)。

控制信号一般在音量调节器中被应用以控制音频信号的“增益”。例如，控制信号可以是通过纯信号分析导出的音频信号的幅值的变化的指示符。它还可以是通过心理声学分析诸如听觉情景分析或基于特定响度的听觉事件检测来表示新的音频事件是否出现的音频事件指示符。这样的控制信号在音量调节器中被应用于增益控制，例如，通过确保增益在听觉事件内几乎恒定，并且通过使大部分的增益变化局限于事件边界的邻域，以便减小由于音频信号中的增益的快速变化而导致的可能的可听伪像。

然而，导出控制信号的传统方法不能区分信息型听觉事件和非信息型(干扰型)听觉事件。这里，信息型听觉事件代表包含有意义的信息的音频事件，并且可能受到用户的更多关注，诸如对白和音乐，而非信息型信号不包含对于用户有意义的信息，诸如VoIP中的噪声。作为结果，非信息型信号也可能被以大增益应用并且被提升到接近目标响度。这在一些应用中将是令人不愉快的。例如，在VoIP呼叫中，在会话暂停中出现的噪声信号在被音量调节器处理之后通常被提升到响亮的音量。这是用户不想要的。

为了至少部分地解决该问题，本申请提出基于在第1部分中讨论的实施例来控制音量调节器。

类似于第2部分和第3部分，作为在第1部分中讨论的音频处理装置和方法的特定示例，音量调节器406可以使用在第1部分中讨论的所有实施例和本文中所公开的那些实施例的任何组合。具体地说，在控制音量调节器406的情况下，如图1-10所示的音频处理装置100中的音频分类器200和调整单元300可以构成如图20所示的音量调节器406控制器2000。在该实施例中，由于调整单元是特定于音量调节器406的，所以它可以被称为300C。

也就是说，基于第1部分的公开，音量调节器控制器2000可以包括：音频分类器200，用于连续地识别音频信号的音频类型(诸如内容类型和/或上下文类型)；以及调整单元300C，用于基于所识别的音频类型的置信度值以连续的方式调整音量调节器。类似地，音频分类器200可以包括音频内容分类器202和音频上下文分类器204中的至少一个，并且音量调节器控制器2000还可以包括类型平滑单元712、参数平滑单元814和计时器916中的至少一个。

音量调节器406中的不同参数可以基于分类结果而自适应地调谐。我们可以例如通过减小用于非信息型信号的增益来调谐与动态增益或动态增益范围直接相关的参数。我们还可以调谐指示信号是新的可感知的音频事件的程度的参数，并然后间接控制动态增益(增益在音频事件内将缓慢地改变，但在两个音频事件的边界处可能快速地改变)。在本申请中，展现了参数调谐或音量调节器控制机制的几个实施例。

4.1信息型和干扰型内容类型

如以上所提及的，关于音量调节器的控制，音频内容类型可以被分类为信息型内容类型和干扰型内容类型。并且，调整单元300C可以被配置为将音量调节器的动态增益与音频信号的信息型内容类型正相关，并且将音量调节器的动态增益与音频信号的干扰型内容类型负相关。

作为示例，假设噪声是干扰型(非信息型)并且它被提升到响亮的音量将是令人讨厌的，则直接控制动态增益的参数或者指示新的音频事件的参数可以被设置为与噪声置信度值(Conf_noise)的下降函数成比例，诸如：

GainControl∝1-Conf_noise (10)

这里，为了简单起见，我们使用符号GainControl来表示与音量调节器中的增益控制相关的所有参数(或它们的效果)，因为音量调节器的不同实现可以使用具有不同基本意义的参数的不同名称。使用单个术语GainControl可以具有不失一般性的简短表达。本质上，调整这些参数等同于线性地或非线性地对原始增益应用权重。作为一个示例，GainControl可以直接用于缩放增益，使得如果GainControl小，则增益将小。作为另一个特定示例，增益通过用GainControl缩放事件控制信号来间接地控制，其在B.G.Grockett等人的作为WO2007/127023A1 公开的“Audio Gain Control Using Specific-Loudness-BasedAuditory Event Detection”中被描述，该申请的全部内容通过引用并入本文。在这种情况下，当GainControl小时，音量调节器的增益的控制被修改以防止增益随时间显著改变。当GainControl高时，控制被修改为使得调节器的增益被允许更自由地改变。

在公式(10)中描述的增益控制(直接缩放原始增益或事件控制信号)的情况下，音频信号的动态增益与其噪声置信度值(线性地或非线性地)相关。如果信号是具有高置信度值的噪声，则最终的增益将由于因子(1-Conf_noise)而很小。以这种方式，它避免将噪声信号提升到令人不愉快的响亮的音量。

作为公式(10)的示例变体，如果背景声音在应用中(诸如在VoIP中)也是不感兴趣的，则它可以被类似地处理，并且也被以小增益应用。控制函数可以考虑噪声置信度值(Conf_noise)和背景置信度值(Conf_bkg)两者，例如：

GainControl∝(1-Conf_noise)·(1-Conf_bkg) (11)

在以上公式中，由于噪声和背景声音都是不想要的，所以GainControl同等地受噪声的置信度值和背景的置信度值影响，并且可以认为噪声和背景声音具有相同的权重。根据情况，它们可以具有不同的权重。例如，我们可以对噪声和背景声音的置信度值(或它们与1的差值)给予不同的系数或不同的指数(α和γ)。也就是说，公式(11)可以被重写为：

GainControl∝(1-Conf_noise)^α·(1-Conf_bkg)^γ (12)

或

GainControl∝(1-Conf_noise ^α)·(1-Conf_bkg ^γ) (13)

可替代地，调整单元300C可以被配置为基于置信度值来考虑至少一种主导内容类型。例如：

GainControl∝1-max(Conf_noise，Conf_bkg) (14)

公式(11)(及其变体)和公式(14)都指示用于噪声信号和背景声音信号的小增益，并且音量调节器的原始行为仅当噪声置信度和背景置信度都小(诸如在语音和音乐信号中)时才保持，使得GainControl接近于1。

以上示例是考虑主导干扰型内容类型。根据情况，调整单元300C也可以被配置为基于置信度值来考虑主导信息型内容类型。更一般地，调整单元300C可以被配置为基于置信度值来考虑至少一种主导内容类型，而不管识别的音频类型是/包括信息型音频类型、还是/还是包括干扰型音频类型。

作为公式(10)的另一个示例变体，假设语音信号是信息最多的内容并且对音量调节器的默认行为需要较少修改，则控制函数可以如下考虑噪声置信度值(Conf_noise)和语音置信度值(Conf_speech)两者：

GainControl∝1-Conf_noise·(1-Conf_speech) (15)

利用该函数，仅对于具有高噪声置信度和低语音置信度的那些信号(例如，纯噪声)获得小的GainControl，并且如果语音置信度高音量调节器则GainControl将接近于1(并因此保持音量调节器的原始行为)。更一般地，可以认为一种内容类型的权重(诸如Conf_noise)可以用至少一种其它的内容类型的置信度值(诸如Conf_speech)来修改。在以上公式(15)中，可以认为语音的置信度改变噪声的置信度的权重系数(如果与公式(12和13)中的权重相比，另一种类的权重)。换句话说，在公式(10)中，Conf_noise的系数可以被认为是1；而在公式(15)中，一些其它的音频类型(诸如语音，但不限于此)将影响噪声的置信度值的重要性，因此我们可以说Conf_noise的权重被语音的置信度值修改。在本公开的上下文中，术语“权重”应被解释为包括这。也就是说，它指示值的重要性，但是不一定被规一化。可以参照第1.4节。

从另一个观点讲，类似于公式(12)和(13)，指数形式的权重可以被应用于以上函数中的置信度值上以指示不同音频信号的优先级(或重要性)，例如，公式(15)可以变为：

GainControl∝1-Conf_noise ^α·(1-Conf_speech)^γ (16)

其中α和γ是两个权重，如果它被期望对修改调节器参数更具有响应，则它可以被设置为较小。

公式(10)-(16)可以被自由组合以形成可以适合于不同应用中的各种控制函数。其它音频内容类型的置信度值(诸如音乐置信度值)也可以以类似的方式被容易地合并在控制函数中。

在GainControl被用于调谐指示信号是新的可感知的音频事件的程度的参数、并然后间接地控制动态增益(该增益在音频事件内将缓慢地改变，但在两个音频事件的边界处可能快速地改变)的情况下，可以认为在内容类型的置信度值和最终动态增益之间存在另一个传递函数。

4.2不同上下文中的内容类型

公式(10)-(16)中的以上控制函数考虑了音频内容类型(诸如噪声、背景声音、短期音乐和语音)的置信度值，但是没有考虑它们的声音从其而来的音频上下文，诸如电影式媒体和VoIP。可能的是，相同的音频内容类型在不同的音频上下文中可能需要被不同地处理，例如，背景声音。背景声音包括诸如汽车引擎、爆炸和欢呼的各种声音。它在VoIP呼叫中可能是没有意义的，但是它在电影式媒体中可能是重要的。这指示，感兴趣的音频上下文需要被识别，并且不同控制函数需要针对不同音频上下文进行设计。

因此，调整单元300C可以被配置为基于音频信号的上下文类型来将音频信号的内容类型认为是信息型或干扰型。例如，通过考虑噪声置信度值和背景置信度值，并且区分VoIP上下文和非VoIP上下文，音频上下文相关的控制函数可以是：

也就是说，在VoIP上下文中，噪声和背景声音被认为是干扰型内容类型；而在非VoIP上下文中，背景声音被认为是信息型内容类型。

作为另一个示例，考虑语音、噪声和背景的置信度值并且区分VoIP上下文和非VoIP上下文的音频上下文相关的控制函数可以是：

这里，语音被作为信息型内容类型强调。

假设音乐在非VoIP上下文中也是重要的信息型信息，则我们可以将公式(18)的第二部分扩展为：

GainControl∝1-Conf_noise·(1-max(Conf_speech，Conf_nusic)) (19)

事实上，(10)-(16)中的控制函数或者其变体中的每一个均可以被应用于不同的/对应的音频上下文中。因此，它可以产生用于形成音频上下文相关的控制函数的大量组合。

除了如在公式(17)和(18)中区分和利用的VoIP上下文和非VoIP上下文之外，可以以类似的方式利用其它音频上下文，诸如电影式媒体、长期音乐和游戏、或者低质量音频和高质量音频。

4.3上下文类型

上下文类型也可以被直接用于控制音量调节器以避免那些令人讨厌的声音(诸如噪声)被提升太多。例如，VoIP置信度值可以被用于引导音量调节器，使得它在其置信度值高时不太敏感。

具体地说，利用VoIP置信度值Conf_VOIP，音量调节器的水平可以被设置为与(1–Conf_VOIP)成比例。也就是说，音量调节器在VoIP内容中几乎被停用(deactivate)(当VoIP置信度值高时)，这与对于VoIP上下文禁用音量调节器的传统手动设置(预设)一致。

可替代地，我们可以针对音频信号的不同上下文设置不同的动态增益范围。一般地，VL(音量调节器)量进一步调整应用于音频信号上的增益量，并且可以被看作是增益上的另一个(非线性)权重。在一个实施例中，设置可以是：

表1

	电影式媒体	长期音乐	VOIP	游戏
					VL量	高	中等	关闭(或最低)	低

此外，假设对于每种上下文类型预定义期望的VL量。例如，对于电影式媒体，VL量被设置为1，对于VoIP，被设置为0，对于音乐，被设置为0.6，对于游戏，被设置为0.3，但是本申请不限于此。根据示例，如果电影式媒体的动态增益范围是100％，则VoIP的动态增益范围是60％，依此类推。如果音频分类器200的分类是基于硬判决，则动态增益范围可以直接如以上示例那样被设置。如果音频分类器200的分类是基于软判决，则可以基于上下文类型的置信度值调整范围。

类似地，音频分类器200可以从音频信号识别多种上下文类型，并且调整单元300C可以被配置为通过基于多种内容类型的重要性对所述多种内容类型的置信度值进行加权来调整动态增益范围。

一般地，对于上下文类型，类似于(10)-(16)的函数在这里也可以被用于自适应地设置适当的VL量，其中，其中的内容类型被用上下文类型代替，并且实际上，表1反映了不同上下文类型的重要性。

从另一个观点来讲，置信度值可以被用于导出如在第1.4节中讨论的规一化权重。假设在表1中对于每种上下文类型预定义特定量，则类似于公式(9)的公式也可以被应用。顺便提一下，类似的解决方案也可以被应用于多种内容类型和任何其它的音频类型。

4.4实施例和应用场景的组合

类似于第1部分，以上所讨论的所有实施例及其变体可以以它们的任何组合实现，并且在不同部分/实施例中提及的、但是具有相同或类似功能的任何部件可以被实现为相同的或单独的部件。例如，在第4.1节至第4.3节中描述的解决方案中的任何两个或更多个可以彼此组合。并且，这些组合中的任何一个可以进一步与在第1-3部分和稍后将描述的其它部分中描述或暗示的任何实施例组合。

图21通过比较原始的短期段(图21(A))、经没有参数修改的传统音量调节器处理的短期段(图21(B))以及经如本申请中展现的音量调节器处理的短期段(图21(C))来示出在本申请中提出的音量调节器控制器的效果。如所看到的，在如图21(B)所示的传统音量调节器中，噪声(音频信号的第二半)的音量也被提升，并且是令人讨厌的。相反，在如图21(C)所示的新音量调节器中，音频信号的有效部分的音量被提升，而没有明显地提升噪声的音量，从而给予了听众良好的体验。

4.5音量调节器控制方法

类似于第1部分，在上文中描述实施例中的音量调节器控制器的过程中，明显还公开了一些处理或方法。在下文中，给出这些方法的概要，而不重复在上文中已经讨论过的细节中的一些。

首先，如在第1部分中讨论的音频处理方法的实施例可以用于音量调节器，其参数(一个或多个)是将通过音频处理方法调整的目标中的一个。从该观点来讲，音频处理方法也是音量调节器控制方法。

在该章节中，将仅讨论特定于音量调节器的控制的那些方面。对于该控制方法的一般方面，可以参照第1部分。

根据本申请，提供一种音量调节器控制方法，该方法包括：实时地识别音频信号的内容类型；并且通过下述方式来基于所识别的内容类型以连续的方式调整音量调节器，即，将音量调节器的动态增益与音频信号的信息型内容类型正相关，并且将音量调节器的动态增益与音频信号的干扰型内容类型负相关。

内容类型可以包括语音、短期音乐、噪声和背景声音。一般地，噪声被认为是干扰型内容类型。

当调整音量调节器的动态增益时，它可以基于内容类型的置信度值被直接调整，或者可以经由内容类型的置信度值的传递函数被调整。

如已经描述的，音频信号可以同时被分类为多种音频类型。当涉及多种内容类型时，调整操作1104可以被配置为通过基于多种内容类型的重要性对所述多种内容类型的置信度值进行加权或者通过基于置信度值对所述多种内容类型的效果进行加权来考虑所述多种音频内容类型中的至少一些。具体地说，调整操作1104可以被配置为基于置信度值来考虑至少一种主导内容类型。当音频信号包含干扰型内容类型(一种或多种)和信息型内容类型(一种或多种)两者时，调整操作可以被配置为基于置信度值来考虑至少一种主导干扰型内容类型，和/或基于置信度值来考虑至少一种主导信息型内容类型。

不同的音频类型可能彼此影响。因此，调整操作1104可以被配置为用至少一种其它的内容类型的置信度值来修改一种内容类型的权重。

如在第1部分中所描述的，可以对音频信号的音频类型的置信度值进行平滑。对于平滑操作的细节，请参照第1部分。

所述方法还可以包括识别音频信号的上下文类型，其中调整操作1104可以被配置为基于上下文类型的置信度值来调整动态增益范围。

内容类型的作用受它所在的上下文类型限制。因此，当对于音频信号同时(即，对于同一个音频段)获得内容类型信息和上下文类型信息两者时，音频信号的内容类型可以基于音频信号的上下文类型被确定为信息型或干扰型。此外，不同上下文类型的音频信号中的内容类型可以根据该音频信号的上下文类型而被分配不同的权重。从另一个观点来讲，我们可以使用不同的权重(较大或较小，加上值或减去值)来反映内容类型的信息型性质或干扰型性质。

音频信号的上下文类型可以包括VoIP、电影式媒体、长期音乐和游戏。并且，在上下文类型VoIP的音频信号中，背景声音被认为是干扰型内容类型；而在上下文类型非VoIP的音频信号中，背景和/或语音和/或音乐被认为是信息型内容类型。其它上下文类型可以包括高质量音频或低质量音频。

类似于多种内容类型，当音频信号被同时分类为具有对应的置信度值的多种上下文类型(对于同一个音频段)时，调整操作1104可以被配置为通过基于多种上下文类型的重要性对所述多种上下文类型的置信度值进行加权或者通过基于置信度值对所述多种上下文类型的效果进行加权来考虑所述多种上下文类型中的至少一些。具体地说，调整操作可以被配置为基于置信度值来考虑至少一种主导上下文类型。

最后，在本章节中讨论的方法的实施例可以使用将在第6部分和第7部分中讨论的音频分类方法，并且这里省略详细描述。

第5部分：均衡器控制器和控制方法

均衡通常被应用于音乐信号上以调整或修改其谱平衡，该谱平衡也被称为“音调”或“音色”。传统的均衡器允许用户配置每单个频带上的频率响应(增益)的总体轮廓(曲线或形状)，以便强调某些乐器或者去除不希望的声音。流行的音乐播放器(诸如windows媒体播放器)通常提供用于调整每个频带处的增益的图形均衡器，并且还针对不同音乐体裁(诸如摇滚、说唱、爵士和民谣)提供一组均衡器预设，以在收听不同音乐体裁时得到最佳体验。一旦预设被选择，或者轮廓被设置，相同的均衡增益就将被应用于信号上，直到轮廓被手动修改为止。

相反，动态均衡器提供自动地调整每个频带处的均衡增益以便关于希望的音色或音调保持谱平衡的总体一致性的方式。该一致性通过下述方式实现，即，连续地监视音频的谱平衡，将它与希望的预设谱平衡进行比较，并且动态地调整所应用的均衡增益以将音频的原始谱平衡变换为希望的谱平衡。希望的谱平衡被手动选择或者在处理之前被预设。

两种种类的均衡器共享以下缺点：最佳均衡轮廓、希望的谱平衡或相关参数必须被手动选择，并且它们不能基于回放中的音频内容被自动地修改。区别音频内容类型对于为不同种类的音频信号提供总体良好的质量将是非常重要的。例如，不同的音乐片段需要不同的均衡轮廓，诸如不同体裁的那些。

在其中任何种类的音频信号(不仅仅是音乐)可能被输入的均衡器系统中，均衡器参数需要基于内容类型被调整。例如，均衡器通常对音乐信号启用，但对语音信号禁用，因为它可能改变语音的音色太多，并相应地使信号听起来不自然。

为了至少部分地解决该问题，本申请提出基于在第1部分中讨论的实施例来控制均衡器。

类似于第2-4部分，作为在第1部分中讨论的音频处理装置和方法的特定示例，均衡器408可以使用在第1部分中讨论的所有实施例以及本文中所公开的那些实施例的任何组合。具体地说，在控制均衡器408的情况下，如图1-10所示的音频处理装置100中的音频分类器200和调整单元300可以构成如图22所示的均衡器408控制器2200。在该实施例中，由于调整单元是特定于均衡器408的，所以它可以被称为300D。

也就是说，基于第1部分的公开，均衡器控制器2200可以包括：音频分类器200，用于连续地识别音频信号的音频类型；以及调整单元300D，用于基于所识别的音频类型的置信度值以连续的方式调整均衡器。类似地，音频分类器200可以包括音频内容分类器202和音频上下文分类器204中的至少一个，并且音量均衡器控制器2200还可以包括类型平滑单元712、参数平滑单元814和计时器916中的至少一个。

因此，在该部分中，我们将不重复在第1部分中已经描述的那些内容，并且仅仅给出其一些特定示例。

5.1基于内容类型的控制

一般来说，对于一般的音频内容类型(诸如音乐、语音、背景声音和噪声)，均衡器应在不同的内容类型上被不同地设置。类似于传统的设置，均衡器可以对音乐信号自动地启用，但对语音禁用；或者以更连续的方式，在音乐信号上设置高均衡水平，而在语音信号上设置低均衡水平。以这种方式，均衡器的均衡水平可以对于不同的音频内容自动地设置。

具体对于音乐而言，观察到均衡器在具有主导源的音乐片段上工作得不是很好，因为如果不适当的均衡被应用，则主导源的音色可能显著改变并且听起来不自然。考虑到这，更好的将是在具有主导源的音乐片段上设置低均衡水平，同时均衡水平在没有主导源的音乐片段上可以保持高。利用该信息，均衡器可以对于不同的音乐内容自动地设置均衡水平。

音乐还可以基于不同的性质被分组，所述不同的性质诸如体裁、乐器和一般音乐特性(包括韵律、节奏和音色)。以对于不同音乐体裁使用不同的均衡器预设相同的方式，这些音乐群组/群集也可以具有它们自己的最优均衡轮廓或均衡器曲线(在传统均衡器中)或者最优的希望的谱平衡(在动态均衡器中)。

如以上所提及的，均衡器一般对音乐内容启用，但对语音禁用，因为由于音色变化，均衡器可能使对白没有听起来太好。自动地实现这的一种方法是将均衡水平与内容(特别是从音频内容分类模块获得的音乐置信度值和/或语音置信度值)相关。这里，均衡水平可以被解释为所应用的均衡器增益的权重。水平越高，应用的均衡越强。例如，如果均衡水平为1，则全均衡轮廓被应用；如果均衡水平为0，则所有增益对应地为0dB，并因此非均衡被应用。在均衡器算法的不同实现中，均衡水平可以用不同参数表示。该参数的示例实施例是如在A.Seefeldt等人的作为US 2009/0097676 A1公开的“Calculating and Adjustingthe Perceived Loudness and/or the Perceived Spectral Balance of an AudioSignal”中实现的均衡器权重，该申请的全部内容通过引用并入本文。

各种控制方案可以被设计为调谐均衡水平。例如，就音频内容类型信息而言，语音置信度值或音乐置信度值可以被用于如下设置均衡水平：

L_eq∝Conf_music (20)

或

L_eq∝1-Conf_speech (21)

其中L_eq是均衡水平，Conf_music和Conf_speech代表音乐和语音的置信度值。

也就是说，调整单元300D可以被配置为将均衡水平与短期音乐的置信度值正相关，或者将均衡水平与语音的置信度值负相关。

语音置信度值和音乐置信度值可以被进一步联合用于设置均衡水平。大体构思是，均衡水平应该是仅当音乐置信度值高并且语音置信度值低时才高，否则均衡水平低。例如，

L_eq＝Conf_music(1-Conf_speech ^α) (22)

其中语音置信度值被α次幂，以便处理可能频繁发生的音乐信号中的非零语音置信度。利用以上公式，均衡将被充分地应用于没有任何语音分量的纯音乐信号上(其中水平等于1)。如在第1部分中所述的，α可以被认为是基于内容类型的重要性的加权系数，并且可以通常被设置为1至2。

如果在语音的置信度值上施加较大的权重，则调整单元300D可以被配置为当内容类型语音的置信度值大于阈值时禁用均衡器408。

在以上描述中，音乐和语音的内容类型被当作示例。可替代地或附加地，背景声音和/或噪声的置信度值也可以被考虑。具体地说，调整单元300D可以被配置为将均衡水平与背景的置信度值正相关，和/或将均衡水平与噪声的置信度值负相关。

作为另一个实施例，置信度值可以被用于导出如在第1.4节中讨论的规一化权重。假设对于每种内容类型预定义期望的均衡水平(例如，对于音乐为1，对于语音为0，对于噪声和背景为0.5)，则类似于公式(8)的公式可以被准确地应用。

均衡水平可以被进一步平滑以避免可能在过渡点处引入可听伪像的快速变化。这可以利用如在第1.5节中描述的参数平滑单元814来完成。

5.2音乐中的主导源的可能性

为了避免具有主导源的音乐被应用高均衡水平，可以进一步将均衡水平与指示音乐片段是否包含主导源的置信度值Conf_dom相关，例如，

L_eq＝1-Conf_dom (23)

以这种方式，均衡水平将在具有主导源的音乐片段上低，而在没有主导源的音乐片段上高。

这里，尽管描述了具有主导源的音乐的置信度值，但是我们也可以使用没有主导源的音乐的置信度值。也就是说，调整单元300D可以被配置为将均衡水平与没有主导源的短期音乐的置信度值正相关，和/或将均衡水平与具有主导源的短期音乐的置信度值负相关。

如在第1.1节中所述的，尽管一方面音乐和语音、另一方面具有或没有主导源的音乐是不同分层层次上的内容类型，但是它们可以被并行地考虑。通过联合考虑如上所述的主导源的置信度值以及语音和音乐置信度值，可以通过将公式(20)-(21)中的至少一个与(23)组合来设置均衡水平。示例是组合所有的三个公式：

L_eq＝Conf_music(1-Conf_speech)(1-Conf_dom) (24)

为了一般性，基于内容类型的重要性的不同权重可以被进一步应用于不同的置信度值，诸如以公式(22)的方式。

作为另一个示例，假设仅当音频信号是音乐时才计算Conf_dom，则分段函数可以被设计为：

如果分类系统非常确定音频是音乐(音乐置信度值大于阈值)，则该函数基于主导分数的置信度值来设置均衡水平；否则，它基于音乐和语音置信度值来设置。也就是说，调整单元300D可以被配置为当短期音乐的置信度值大于阈值时考虑没有/具有主导源的短期音乐。当然，可以以公式(20)至(24)的方式修改公式(25)中的第一半或第二半。

与在第1.5节中讨论的平滑方案相同的平滑方案也可以被应用，并且时间常数α可以被进一步基于过渡类型设置，所述过渡类型诸如从具有主导源的音乐到没有主导源的音乐的过渡、或者从没有主导源的音乐到具有主导源的音乐的过渡。为了这个目的，与公式(4’)类似的公式也可以被应用。

5.3均衡器预设

除了基于音频内容类型的置信度值自适应地调谐均衡水平之外，还可以针对不同的音频内容，根据它们的体裁、乐器或其它特性，自动地选择适当的均衡轮廓或希望的谱平衡预设。具有相同体裁的、包含相同乐器的、或者具有相同的音乐特性的音乐可以共享相同的均衡轮廓或希望的谱平衡预设。

为了一般性，我们使用术语“音乐群集”来表示具有相同体裁、相同乐器或类似音乐属性的音乐群组，并且它们可以被认为是如在第1.1节中所述的音频内容类型的另一个分层层次。适当的均衡轮廓、均衡水平和/或希望的谱平衡预设可以与每个音乐群集相关联。均衡轮廓是应用于音乐信号上的增益曲线，并且可以是用于不同音乐体裁(诸如古典、摇滚、爵士和民谣)的均衡器预设中的任何一个，希望的谱平衡预设表示每个群集的希望的音色。图23示出了如在杜比家庭影院技术中实现的希望的谱平衡预设的几个示例。每个示例描述可听频率范围上的希望的谱形状。该形状被连续地与传入的音频的谱形状进行比较，并且从该比较计算均衡增益以将传入的音频的谱形状变换为预设的谱形状。

对于新的音乐片段，可以确定最接近的群集(硬判决)，或者可以计算关于每个音乐群集的置信度值(软判决)。基于该信息，可以对于给定的音乐片段确定适当的均衡轮廓或希望的谱平衡预设。最简单的方式是如下为它分配最佳匹配的群集的对应轮廓：

P_eq＝P_c* (26)

其中P_eq是估计的均衡轮廓或希望的谱平衡预设，c^＊是最佳匹配的音乐群集(主导音频类型)的索引，它可以通过拾取具有最高置信度值的群集而获得。

而且，可以存在多于一个的具有大于零的置信度值的音乐群集，这意味着音乐片段具有与那些群集或多或少相似的属性。例如，音乐片段可以具有多种乐器，或者它可以具有多种体裁的属性。它启示了通过考虑所有的群集、而不是通过仅使用最接近的群集来估计适当的均衡轮廓的另一种方式。例如，可以使用加权和：

其中N是预定义群集的数量，w_c是关于每个预定义音乐群集(具有索引c)的设计轮廓P_c的权重，该权重应基于它们对应的置信度值而被规一化为1。以这种方式，估计的轮廓将是音乐群集的轮廓的混合。例如，对于具有爵士和摇滚两种属性的音乐片段，估计的轮廓将介于其间。

在一些应用中，我们可能不想如公式(27)所示那样涉及所有群集。仅群集的子集-与当前音乐片段最相关的群集-需要被考虑，公式(27)可以被稍微修订为：

其中N’是将被考虑的群集的数量，c’是基于群集的置信度值对这些群集进行降序排序之后的群集索引。通过使用子集，我们可以更集中于最相关的群集，并且排除不太有关的那些群集。换句话说，调整单元300D可以被配置为基于置信度值来考虑至少一种主导音频类型。

在以上描述中，音乐群集被当作示例。事实上，所述解决方案适用于如在第1.1节中讨论的任何分层层次上的音频类型。因此，一般地，调整单元300D可以被配置为将均衡水平和/或均衡轮廓和/或谱平衡预设分配给每种音频类型。

5.4基于上下文类型的控制

在前面的章节中，讨论集中于各种内容类型。在本章节中将讨论的更多实施例中，可以可替代地或附加地考虑上下文类型。

一般地，均衡器对于音乐被启用，但对于电影式媒体内容被禁用，因为由于明显的音色变化，均衡器可能使电影式媒体中的对白没有听起来太好。它指示均衡水平可以与长期音乐的置信度值和/或电影式媒体的置信度值相关：

L_eq∝Conf_MUSIC (29)

或

L_eq∝1-Conf_MOVIE (30)

其中L_eq是均衡水平，Conf_MUSIC和Conf_MOVIE代表长期音乐和电影式媒体的置信度值。

也就是说，调整单元300D可以被配置为将均衡水平与长期音乐的置信度值正相关，或者将均衡水平与电影式媒体的置信度值负相关。

也就是说，对于电影式媒体信号，电影式媒体置信度值高(或者音乐置信度低)，因此均衡水平低；另一方面，对于音乐信号，电影式媒体置信度值将低(或者音乐置信度高)，因此均衡水平高。

公式(29)和(30)中所示的解决方案可以以与公式(22)至(25)相同的方式进行修改，和/或可以与公式(22)至(25)中所示的解决方案中的任何一个组合。

附加地或可替代地，调整单元300D可以被配置为将均衡水平与游戏的置信度值负相关。

作为另一个实施例，置信度值可以被用于导出如在第1.4节中讨论的规一化权重。假设对于每种上下文类型预定义期望的均衡水平/轮廓(以下表2中示出了均衡轮廓)，则类似于公式(9)的公式也可以被应用。

表2

	电影式媒体	长期音乐	VoIP	游戏
					均衡轮廓	轮廓1	轮廓2	轮廓3	轮廓4

这里，作为对于某一上下文类型(诸如电影式媒体和游戏)禁用均衡器的方式，在一些轮廓中，所有的增益都可以被设置为零。

5.5实施例和应用场景的组合

例如，在第5.1节至第5.4节中描述的解决方案中的任何两个或更多个可以彼此组合。并且，这些组合中的任何一个可以进一步与在第1-4部分和稍后将描述的其它部分中描述或暗示的任何实施例组合。

5.6均衡器控制方法

类似于第1部分，在上文中描述实施例中的均衡器控制器的过程中，明显还公开了一些处理或方法。在下文中，给出这些方法的概要，而不重复在上文中已经讨论过的细节中的一些。

首先，如在第1部分中讨论的音频处理方法的实施例可以用于均衡器，其参数(一个或多个)是将通过音频处理方法调整的目标中的一个。从该观点来讲，音频处理方法也是均衡器控制方法。

在该章节中，将仅讨论特定于均衡器的控制的那些方面。对于该控制方法的一般方面，可以参照第1部分。

根据实施例，一种均衡器控制方法可以包括：实时地识别音频信号的音频类型；并且基于所识别的音频类型的置信度值以连续的方式调整均衡器。

类似于本申请的其它部分，当涉及具有对应的置信度值的多种音频类型时，调整操作1104可以被配置为通过基于多种音频类型的重要性对所述多种音频类型的置信度值进行加权或者通过基于置信度值对所述多种音频类型的效果进行加权来考虑所述多种音频类型中的至少一些。具体地说，调整操作1104可以被配置为基于置信度值来考虑至少一种主导音频类型。

如在第1部分中所描述的，可以对经调整的参数值进行平滑。可以参照第1.5节和第1.8节，并且这里省略详细描述。

音频类型可以是内容类型或上下文类型。当涉及内容类型时，调整操作1104可以被配置为将均衡水平与短期音乐的置信度值正相关，和/或将均衡水平与语音的置信度值负相关。附加地或可替代地，调整操作可以被配置为将均衡水平与背景的置信度值正相关，和/或将均衡水平与噪声的置信度值负相关。

当涉及上下文类型时，调整操作1104可以被配置为将均衡水平与长期音乐的置信度值正相关，和/或将均衡水平与电影式媒体和/或游戏的置信度值负相关。

对于短期音乐的内容类型，调整操作1104可以被配置为将均衡水平与没有主导源的短期音乐的置信度值正相关，和/或将均衡水平与具有主导源的短期音乐的置信度值负相关。这仅当短期音乐的置信度值大于阈值时才可以完成。

除了调整均衡水平之外，还可以基于音频信号的音频类型(一种或多种)的置信度值(一个或多个)来调整均衡器的其它方面。例如，调整操作1104可以被配置为将均衡水平和/或均衡轮廓和/或谱平衡预设分配给每种音频类型。

关于音频类型的特定实例，可以参照第1部分。

第6部分：音频分类器和分类方法

如在第1.1节和第1.2节中所述的，在本申请中讨论的音频类型(包括内容类型和上下文类型的各种分层层次)可以用任何现有的分类方案(包括基于机器学习的方法)进行分类或识别。在该部分和后一部分中，本申请提出了分类器的一些新颖的方面以及用于对如在前面的部分中提及的上下文类型进行分类的方法。

6.1基于内容类型分类的上下文分类器

如在前面的部分中所述的，音频分类器200被用于识别音频信号的内容类型和/或识别音频信号的上下文类型。因此，音频分类器200可以包括音频内容分类器202和/或音频上下文分类器204。当采用现有技术来实现音频内容分类器202和音频上下文分类器204时，这两个分类器可以彼此独立，尽管它们可以共享一些特征并因此可以共享用于提取这些特征的一些方案。

在该部分和后面的第7部分中，根据本申请中提出的新颖方面，音频上下文分类器204可以使用音频内容分类器202的结果，也就是说，音频分类器200可以包括：音频内容分类器202，用于识别音频信号的内容类型；以及音频上下文分类器204，用于基于音频内容分类器202的结果来识别音频信号的上下文类型。因此，音频内容分类器202的分类结果可以被如在前面的部分中讨论的调整单元300(或调整单元300A至300D)和音频上下文分类器204两者使用。然而，尽管附图中未示出，但是音频分类器200还可以包含将分别被调整单元300和音频上下文分类器204使用的两个音频内容分类器202。

此外，如在第1.2节中所讨论的，尤其当对多种音频类型进行分类时，音频内容分类器202或音频上下文分类器204可以由彼此协作的一组分类器构成，尽管也能够被实现为一个单一的分类器。

如在第1.1节中所讨论的，内容类型是一种相对于一般具有几个帧至几十个帧(诸如1s)量级的长度的短期音频段的音频类型，而上下文类型是一种相对于一般具有几秒至几十秒(诸如10s)量级的长度的长期音频段的音频类型。因此，对应于“内容类型”和“上下文类型”，当必要时，我们分别使用“短期”和“长期”。然而，如在后面的第7部分中将讨论的，尽管上下文类型用于指示相对长的时间尺度上的音频信号的性质，但是也可以基于从短期音频段提取的特征来识别它。

现在参照图24转向音频内容分类器202和音频上下文分类器204的结构。

如图24所示，音频内容分类器202可以包括：短期特征提取器2022，用于从短期音频段提取短期特征，每个短期音频段包括音频帧序列；以及短期分类器2024，用于使用相应的短期特征将长期音频段中的短期段序列分类为短期音频类型。短期特征提取器2022和短期分类器2024都可以利用现有技术实现，但在后面的第6.3节中还对短期特征提取器2022提出了一些修改。

短期分类器2024可以被配置为将短期段序列中的每一个分类为以下短期音频类型(内容类型)中的至少一个：语音、短期音乐、背景声音和噪声，这些已在第1.1节中进行了解释。内容类型中的每一种可以被进一步分类为更低分层层次上的内容类型，诸如在第1.1节中所讨论的，但不限于此。

如在本领域中已知的，也可以通过短期分类器2024获得分类的音频类型的置信度值。在本申请中，当提及任何分类器的操作时，应当理解，如果必要，置信度值被同时获得，而不管它是否被明确地记录。在2003年3月的ACM Multimedia Systems Journal 8(6)第482-492页中的L.Lu、H.-J.Zhang和S.Li的“Content-based Audio Classification andSegmentation by Using Support Vector Machines”中可以找到音频类型分类的示例，该文献的全部内容通过引用并入本文。

另一方面，如图24所示，音频上下文分类器204可以包括：统计提取器2042，用于计算短期分类器针对长期音频段中的短期段序列的结果的统计，作为长期特征；以及长期分类器2044，用于使用长期特征将长期音频段分类为长期音频类型。类似地，统计提取器2042和长期分类器2044都可以利用现有技术实现，但在后面的第6.2节中还对统计提取器2042提出了一些修改。

长期分类器2044可以被配置为将长期音频段分类为以下长期音频类型(上下文类型)中的至少一个：电影式媒体、长期音乐、游戏和VoIP，这些已在第1.1节中进行了解释。可替代地或附加地，长期分类器2044可以被配置为将长期音频段分类为VoIP或非VoIP，这些已在第1.1中进行了解释。可替代地或附加地，长期分类器2044可以被配置为将长期音频段分类为高质量音频或低质量音频，这些已经在第1.1中进行了解释。在实践中，可以基于应用/系统的需要来选择并训练各种目标音频类型。

关于短期段和长期段(以及将在第6.3节中讨论的帧)的含义和选择，可以参照第1.1节。

6.2长期特征的提取

如图24所示，在一个实施例中，仅统计提取器2042被用于从短期分类器2024的结果提取长期特征。作为长期特征，以下中的至少一个可以通过统计提取器2042计算：将被分类的长期段中的短期段的短期音频类型的置信度值的均值和方差、利用短期段的重要性程度加权的均值和方差、每种短期音频类型的发生频率以及将被分类的长期段中的不同短期音频类型之间的过渡频率。

我们在图25中示出了(长度为1s的)每个短期段中的语音和短期音乐置信度值的均值。为了比较，从三个不同的音频上下文提取段：电影式媒体(图25(A))、长期音乐(图25(B))和VoIP(图25(C))。可以观察到，对于电影式媒体上下文而言，对于语音类型或者对于音乐类型获得高的置信度值，并且它在这两种音频类型之间频繁地交替。相比之下，长期音乐段给出稳定且高的短期音乐置信度值以及相对稳定且低的语音置信度值。然而VoIP段给出稳定且低的短期音乐置信度值，但是因为VoIP会话期间的暂停而给出波动的语音置信度值。

每种音频类型的置信度值的方差也是用于对不同音频上下文进行分类的重要特征。图26中，(A)，(B)和(C)分别给出了电影式媒体、长期音乐和VoIP音频上下文中的语音、短期音乐、背景和噪声的置信度值的方差的直方图(横坐标是数据集中的置信度值的方差，纵坐标是数据集中的方差值的每个区间(bin)的出现数量，该数量可以被规一化以指示方差值的每个区间的出现概率)。对于电影式媒体，语音、短期音乐和背景的置信度值的所有方差都相对高并且广泛地分布，这指示那些音频类型的置信度值集中地变化。对于长期音乐，语音、短期音乐、背景和噪声的置信度值的所有方差都相对低并且狭窄地分布，这指示那些音频类型的置信度值保持稳定：语音置信度值保持恒定地低，而音乐置信度值保持恒定地高。对于VoIP，短期音乐的置信度值的方差低并且狭窄地分布，而语音的置信度值的方差相对广泛地分布，这是由于VoIP会话期间的频繁暂停而导致的。

关于计算加权的均值和方差中使用的权重，它们是基于每个短期段的重要性程度而确定的。短期段的重要性程度可以通过其能量或响度测量，其能量或响度可以利用许多现有技术估计。

将被分类的长期段中的每种短期音频类型的出现频率是长期段中的短期段已被分类为的每种音频类型的计数，该计数被利用长期段的长度规一化。

将被分类的长期段中的不同短期音频类型之间的过渡频率是将被分类的长期段中的相邻短期段之间的音频类型变化的计数，该计数被利用长期段的长度规一化。

当参照图25讨论置信度值的均值和方差时，每种短期音频类型的出现频率和那些不同短期音频类型之间的过渡频率事实上也被触及。这些特征也与音频上下文分类高度相关。例如，长期音乐主要包含短期音乐音频类型，所以它具有高的短期音乐的出现频率，而VoIP主要包含语音和暂停，所以它具有高的语音或噪声的出现频率。另举一例，电影式媒体在不同的短期音频类型之间比长期音乐或VoIP更频繁地过渡，所以它一般具有较高的短期音乐、语音和背景之间的过渡频率；VoIP通常在语音和噪声之间比其它更频繁地过渡，所以它一般具有较高的语音和噪声之间的过渡频率。

一般地，我们假定长期段在同一个应用/系统中具有相同的长度。如果情况如此，则每种短期音频类型的出现计数以及长期段中的不同短期音频类型之间的过渡计数可以被直接使用，而不用规一化。如果长期段的长度是可变的，则如以上所提及的出现频率和过渡频率应被使用。并且，本申请中的权利要求应被解释为涵盖这两种情况。

附加地或可替代地，音频分类器200(或音频上下文分类器204)还可以包括长期特征提取器2046(图27)，其用于基于长期音频段中的短期段序列的短期特征来从长期音频段提取进一步的长期特征。换句话说，长期特征提取器2046不使用短期分类器2024的分类结果，而是直接使用短期特征提取器2022提取的短期特征来导出将被长期分类器2044使用的一些长期特征。长期特征提取器2046和统计提取器2042可以被独立地或联合地使用。换句话说，音频分类器200可以包括长期特征提取器2046或统计提取器2042或这两者。

任何特征可以被长期特征提取器2046提取。在本申请中，提出了计算来自短期特征提取器2022的短期特征的以下统计中的至少一个作为长期特征：均值、方差、加权均值、加权方差、高平均值、低平均值以及高平均值和低平均值之间的比率(对比(contrast))。

从将被分类的长期段中的短期段提取的短期特征的均值和方差；

从将被分类的长期段中的短期段提取的短期特征的加权均值和方差。短期特征基于每个短期段的重要性程度被加权，如刚才所提及的，所述重要性程度利用其能量或响度测量；

高平均值：从将被分类的长期段中的短期段提取的被选择的短期特征的平均值。短期特征在满足以下条件中的至少一个时被选择：大于阈值；或者在短期特征的不低于所有其它短期特征的预定比例(例如，短期特征的最高10％)内；

低平均值：从将被分类的长期段中的短期段提取的被选择的短期特征的平均值。短期特征在满足以下条件中的至少一个时被选择：小于阈值；或者在短期特征的不高于所有其它短期特征的预定比例(例如，短期特征的最低10％)内；以及

对比：用于表示长期段中的短期特征的动态的高平均值和低平均值之间的比率。

短期特征提取器2022可以利用现有技术实现，并且任何特征可以由此提取。尽管如此，在后面的第6.3节中对短期特征提取器2022提出了一些修改。

6.3短期特征的提取

如图24和图27所示，短期特征提取器2022可以被配置为直接从每个短期音频段提取以下特征中的至少一个作为短期特征：韵律特性、中断/静音特性以及短期音频质量特征。

韵律特性可以包括韵律强度、韵律规律性、韵律清晰度(参见L.Lu、D.Liu和H.-J.Zhang在IEEE Transactions on Audio，Speech and Language Processing，14(1)：5-18，2006中的“Automatic mood detection and tracking of music audio signals”，该文献的全部内容通过引用并入本文)以及2D子带调制(M.F.McKinney和J.Breebaart在Proc.ISMIR，2003中的“Features for audio and music classification”，该文献的全部内容通过引用并入本文)。

中断/静音特性可以包括语音中断、急剧下降、静音长度、不自然的沉默、不自然的沉默的均值、不自然的沉默的总能量等。

短期音频质量特征是相对于短期段的音频质量特征，这些特征类似于下面将讨论的从音频帧提取的音频质量特征。

可替代地或附加地，如图28所示，音频分类器200可以包括帧层次特征提取器2012，其用于从短期段中所包括的音频帧序列中的每一个提取帧层次特征，并且短期特征提取器2022可以被配置为基于从音频帧序列提取的帧层次特征来计算短期特征。

作为预处理，可以将输入的音频信号下混为单声道音频信号。如果音频信号已经是单声道信号，则预处理是不必要的。然后将它划分为具有预定义长度(通常10至25毫秒)的帧。相应地，从每个帧提取帧层次特征。

帧层次特征提取器2012可以被配置为提取以下特征中的至少一个：表征各种短期音频类型的性质的特征、截止频率、静态信噪比(SNR)特性、分段信噪比(SNR)特性、基本语音描述符以及声道特性。

表征各种短期音频类型(尤其是语音、短期音乐、背景声音和噪声)的性质的特征可以包括以下特征中的至少一个：帧能量、子带谱分布、谱通量、Mel频率倒谱系数(MFCC)、男低音、残余信息、色度特征以及过零率。

对于MFCC的细节，可以参照在2003年3月的ACM Multimedia Systems Journal 8(6)第482-492页中的L.Lu、H.-J.Zhang和S.Li的“Content-based Audio Classificationand Segmentation by Using Support Vector Machines”，该文献的全部内容通过引用并入本文。对于色度特征的细节，可以参照在1999年的SPIE中的G.H.Wakefield的“Mathematical representation of Joint time Chroma distributions”，该文献的全部内容通过引用并入本文。

截止频率表示音频信号的最高频率，高于该最高频率的内容的能量接近于零。它被设计为检测在本申请中对于音频上下文分类有用的带限内容。截止频率通常是由编码引起的，因为大多数编码器在低比特率或中等比特率下丢弃高频率。例如，MP3编解码器在128kbps下具有16kHz的截止频率；另举一例，许多流行的VoIP编解码器具有8kHz或16kHz的截止频率。

除了截止频率之外，音频编码处理期间的信号劣化被认为是用于区分各种音频上下文(诸如VoIP vs.非VoIP上下文、高质量vs.低质量音频上下文)的另一个特性。表示音频质量的特征，诸如用于客观语音质量评估的那些(参见在2006年11月的IEEE Transactionon Audio，Speech，and Language Processing第14卷第6期中的Ludovic Malfait、JensBerger和Martin Kastner的“P.563-The ITU-T Standard for Single-Ended SpeechQuality Assessment”，该文献的全部内容通过引用并入本文)，可以在多个层次上被进一步提取以捕获更丰富的特性。音频质量特征的示例包括：

a)静态SNR特性，包括估计的背景噪声水平、谱清晰度等。

b)分段SNR特性，包括谱水平偏差、谱水平范围、相对噪声本底(floor)等。

c)基本语音描述符，包括音高平均值、语音部分水平变化、语音水平等。

d)声道特性，包括机器人化、音高互功率等。

为了从帧层次特征导出短期特征，短期特征提取器2022可以被配置为计算帧层次特征的统计作为短期特征。

帧层次特征的统计的示例包括捕获区分各种音频类型(诸如短期音乐、语音、背景和噪声)的韵律特性的均值和标准差。例如，语音通常以音节速率在浊音和清音之间交替，而音乐则不，这指示语音的帧层次特征的变化通常大于音乐的帧层次特征的变化。

统计的另一个示例是帧层次特征的加权平均值。例如，对于截止频率，从短期段中的每一个音频帧导出的截止频率之间的加权平均值(其中每个帧的能量或响度作为权重)将是用于该短期段的截止频率。

可替代地或附加地，如图29所示，音频分类器200可以包括：帧层次特征提取器2012，用于从音频帧提取帧层次特征；以及帧层次分类器2014，用于使用相应的帧层次特征将音频帧序列中的每一个分类为帧层次音频类型，其中短期特征提取器2022可以被配置为基于帧层次分类器2014针对音频帧序列的结果来计算短期特征。

换句话说，除了音频内容分类器202和音频上下文分类器204之外，音频分类器200还可以包括帧分类器201。在这样的架构中，音频内容分类器202基于帧分类器201的帧层次分类结果来对短期段进行分类，并且音频上下文分类器204基于音频内容分类器202的短期分类结果来对长期段进行分类。

帧层次分类器2014可以被配置为将音频帧序列中的每一个分类为任何类，这些类可以被称为“帧层次音频类型”。在一个实施例中，帧层次音频类型可以具有类似于在上文中讨论的内容类型的架构的架构并且也具有类似于内容类型的含义，并且唯一的不同是帧层次音频类型和内容类型在音频信号的不同层次(即，帧层次和短期段层次)处被分类。例如，帧层次分类器2014可以被配置为将音频帧序列中的每一个分类为以下帧层次音频类型中的至少一个：语音、音乐、背景声音和噪声。另一方面，帧层次音频类型也可以具有如下的架构，该架构部分地或完全地不同于内容类型的架构，更适合于帧层次分类，并且更适合于用作用于短期分类的短期特征。例如，帧层次分类器2014可以被配置为将音频帧序列中的每一个分类为以下帧层次音频类型中的至少一个：浊音、清音和暂停。

关于如何从帧层次分类的结果导出短期特征，可以通过参照第6.2节中的描述来采用类似的方案。

作为替代方案，基于帧层次分类器2014的结果的短期特征以及直接基于帧层次特征提取器2012所获得的帧层次特征的短期特征都可以被短期分类器2024使用。因此，短期特征提取器2022可以被配置为基于从音频帧序列提取的帧层次特征以及帧层次分类器针对音频帧序列的结果两者来计算短期特征。

换句话说，帧层次特征提取器2012可以被配置为计算与在第6.2节中讨论的那些统计类似的统计以及结合图28描述的那些短期特征两者，所述短期特征包括以下特征中的至少一个：表征各种短期音频类型的特性的特征、截止频率、静态信噪比特性、分段信噪比特性、基本语音描述符以及声道特性。

为了实时地工作，在所有的实施例中，短期特征提取器2022可以被配置为作用于利用移动窗口以预定的步长长度在长期音频段的时间维度上滑动而形成的短期音频段。关于用于短期音频段的移动窗口以及用于长期音频段的移动窗口和音频帧，可以参照第1.1节来获知细节。

6.4实施例和应用场景的组合

例如，在第6.1节至第6.3节中描述的解决方案中的任何两个或更多个可以彼此组合。并且，这些组合中的任何一个可以进一步与在第1-5部分和稍后将描述的其它部分中描述或暗示的任何实施例组合。尤其是，在第1部分中讨论的类型平滑单元712在该部分中可以用作音频分类器200的、用于对帧分类器2014或音频内容分类器202或音频上下文分类器204的结果进行平滑的部件。此外，计时器916也可以用作音频分类器200的部件以避免音频分类器200的输出的突然变化。

6.5音频分类方法

类似于第1部分，在上文中描述实施例中的音频分类器的过程中，明显还公开了一些处理或方法。在下文中，给出这些方法的概要，而不重复在上文中已经讨论过的细节中的一些。

在一个实施例中，如图30所示，提供了一种音频分类方法。为了识别由短期音频段(彼此重叠或不重叠)序列构成的长期音频段的长期音频类型(即，上下文类型)，首先将短期音频段分类为短期音频类型(即，内容类型)(操作3004)，并且通过计算分类操作针对长期音频段中的短期段序列的结果的统计(操作3006)来获得长期特征。然后，可以使用长期特征来执行长期分类(操作3008)。短期音频段可以包括音频帧序列。当然，为了识别短期段的短期音频类型，需要从它们提取短期特征(操作3002)。

短期音频类型(内容类型)可以包括但不限于语音、短期音乐、背景声音和噪声。

长期特征可以包括但不限于：短期音频类型的置信度值的均值和方差、利用短期段的重要性程度加权的均值和方差、每种短期音频类型的出现频率以及不同短期音频类型之间的过渡频率。

在变体中，如图31所示，可以直接基于长期音频段中的短期段序列的短期特征来获得进一步的长期特征(操作3107)。这样的进一步的长期特征可以包括但不限于短期特征的以下统计：均值、方差、加权均值、加权方差、高平均值、低平均值以及高平均值和低平均值之间的比率。

存在用于提取短期特征的不同方式。一种方式是直接从将被分类的短期音频段提取短期特征。这样的特征包括但不限于韵律特性、中断/静音特性以及短期音频质量特征。

第二种方式是从每个短期段中所包括的音频帧提取帧层次特征(图32中的操作3201)，并然后基于帧层次特征计算短期特征，诸如计算帧层次特征的统计作为短期特征。帧层次特征可以包括但不限于：表征各种短期音频类型的性质的特征、截止频率、静态信噪比特性、分段信噪比特性、基本语音描述符以及声道特性。表征各种短期音频类型的性质的特征还可以包括帧能量、子带谱分布、谱通量、Mel频率倒谱系数、男低音、残余信息、色度特征以及过零率。

第三种方式是以与长期特征的提取类似的方式提取短期特征：在从将被分类的短期段中的音频帧提取帧层次特征(操作3201)之后，使用相应的帧层次特征将每个音频帧分类为帧层次音频类型(图33中的操作32011)；并且通过基于帧层次音频类型(可选地，包括置信度值)计算短期特征来提取短期特征(操作3002)。帧层次音频类型可以具有与短期音频类型(内容类型)类似的性质和架构，并且也可以包括语音、音乐、背景声音和噪声。

如图33中的虚线箭头所示，第二种方式和第三种方式可以组合在一起。

如在第1部分中所讨论的，短期音频段和长期音频段都可以利用移动窗口进行采样。也就是说，提取短期特征的操作(操作3002)可以对利用移动窗口以预定的步长长度在长期音频段的时间维度上滑动而形成的短期音频段执行，并且提取长期特征的操作(操作3107)和计算短期音频类型的统计的操作(操作3006)也可以对利用移动窗口以预定的步长长度在音频信号的时间维度上滑动而形成的长期音频段执行。

类似于音频处理装置的实施例，一方面，音频处理方法的实施例及其变体的任何组合是实用的；并且另一方面，音频处理方法的实施例及其变体的每一个方面可以是单独的解决方案。此外，在该章节中描述的任何两个或更多个解决方案可以彼此组合，并且这些组合可以进一步与在本公开的其它部分中描述或暗示的任何实施例组合。尤其是，如在第6.4节中已经讨论的，音频类型的平滑方案和过渡方案可以是这里所讨论的音频分类方法的一部分。

第7部分：VoIP分类器和分类方法

在第6部分中，提出了用于至少部分基于内容类型分类的结果将音频信号分类为音频上下文类型的新颖的音频分类器。在第6部分中所讨论的实施例中，从几秒至几十秒长度的长期段提取长期特征，因此音频上下文分类可能引起长延时。希望的是音频上下文也可以实时地或几乎实时地诸如在短期段层次处被分类。

7.1基于短期段的上下文分类

因此，如图34所示，提供了一种音频分类器200A，其包括：音音频内容分类器202A，用于识别音频信号的短期段的内容类型；以及音频上下文分类器204A，用于至少部分基于音频内容分类器所识别的内容类型来识别短期段的上下文类型。

这里，音频内容分类器202A可以采用已经在第6部分中提及的技术，但是也可以采用如下面将在第7.2节中讨论的不同技术。并且，音频上下文分类器204A可以采用已经在第6部分中提及的技术，不同之处是上下文分类器204A可以直接使用音频内容分类器202A的结果，而不是使用来自音频内容分类器202A的结果的统计，因为音频上下文分类器204A和音频内容分类器202A都对同一个短期段进行分类。此外，类似于第6部分，除了来自音频内容分类器202A的结果之外，音频上下文分类器204A还可以使用直接从短期段提取的其它特征。也就是说，音频上下文分类器204A可以被配置为通过使用作为特征的、短期段的内容类型的置信度值以及从短期段提取的其它特征，基于机器学习模型来对短期段进行分类。关于从短期段提取的特征，可以参照第6部分。

音频内容分类器200A可以同时将短期段标记为比VoIP语音/噪声和/或非VoIP语音/噪声(下面将在第7.2节中讨论VoIP语音/噪声和非VoIP语音/噪声)多的音频类型，并且如在第1.2节中所讨论的，所述多种音频类型中的每一个可以具有它自己的置信度值。这可以实现更好的分类精度，因为更丰富的信息可以被捕获。例如，语音和短期音乐的置信度值的联合信息揭示音频内容可能是语音和背景音乐的混合以使得它可以与纯VoIP内容区别达到了什么程度。

7.2使用VoIP语音和VoIP噪声的分类

本申请的这个方面在将被要求对当前短期段进行分类以便缩短判决延时的VoIP/非VoIP分类系统中尤其有用。

为了这个目的，如图34所示，音频分类器200A被专门设计用于VoIP/非VoIP分类。为了对VoIP/非VoIP进行分类，开发了产生中间结果以用于音频上下文分类器204A的最终鲁棒VoIP/非VoIP分类的VoIP语音分类器2026和/或VoIP噪声分类器。

VoIP短期段将交替地包含VoIP语音和VoIP噪声。观察到，可以实现将语音的短期段分类为VoIP语音或非VoIP语音的高精度，但对于将噪声的短期段分类为VoIP噪声或非VoIP噪声则不是这样。因此，可以得出结论，通过直接将短期段分类为VoIP(包括VoIP语音和VoIP噪声，但是其中VoIP语音和VoIP噪声不被专门识别)和非VoIP，而不考虑语音和噪声之间的差别(并因此这两种内容类型(语音和噪声)的特征混合在一起)，它将使可区别性模糊。

对于分类器合理的是，对于VoIP语音/非VoIP语音分类比对于VoIP噪声/非VoIP噪声分类实现更高的精度，因为语音包含的信息多于噪声，并且诸如截止频率这样的特征对于对语音进行分类更有效。根据从adaBoost训练过程获得的权重排名，用于VoIP/非VoIP语音分类的最高加权(top weighted)的短期特征是：对数能量的标准差、截止频率、韵律强度的标准差以及谱通量的标准差。对数能量的标准差、韵律强度的标准差以及谱通量的标准差一般对于VoIP语音比对于非VoIP语音高。一个可能的原因是，非VoIP上下文(诸如电影式媒体或游戏)中的许多短期语音段通常与以上特征的值较低的其它声音(诸如背景音乐或声音效果)混合。同时，截止特征一般对于VoIP语音比对于非VoIP语音低，这指示许多流行的VoIP编解码器所引入的低截止频率。

因此，在一个实施例中，音频内容分类器202A可以包括VoIP语音分类器2026，其用于将短期段分类为内容类型VoIP语音或内容类型非VoIP语音；并且音频上下文分类器204A可以被配置为基于VoIP语音和非VoIP语音的置信度值将短期段分类为上下文类型VoIP或上下文类型非VoIP。

在另一个实施例中，音频内容分类器202A还可以包括VoIP噪声分类器2028，其用于将短期段分类为内容类型VoIP噪声或内容类型非VoIP噪声；并且音频上下文分类器204A可以被配置为基于VoIP语音、非VoIP语音、VoIP噪声和非VoIP噪声的置信度值将短期段分类为上下文类型VoIP或上下文类型非VoIP。

VoIP语音、非VoIP语音、VoIP噪声和非VoIP噪声的内容类型可以利用如在第6部分、第1.2节和第7.1节中讨论的现有技术来识别。

可替代地，音频内容分类器202A可以具有如图35所示的分层结构。也就是说，我们利用来自语音/噪声分类器2025的结果来首先将短期段分类为语音或噪声/背景。

基于仅使用VoIP语音分类器2026的实施例，如果短期段被语音/噪声分类器2025(在这样的情况下，它只是语音分类器)确定为语音，则VoIP语音分类器2026继续分类它是VoIP语音、还是非VoIP语音，并且计算二值分类结果；否则，可以认为VoIP语音的置信度值低，或者对VoIP语音的判决是不肯定的。

基于仅使用VoIP噪声分类器2028的实施例，如果短期段被语音/噪声分类器2025(在这样的情况下，它只是噪声(背景)分类器)确定为噪声，则VoIP噪声分类器2028继续分类它是VoIP噪声或者非VoIP噪声，并且计算二值分类结果；否则，可以认为VoIP噪声的置信度值低，或者对VoIP噪声的判决是不肯定的。

这里，由于一般语音是信息型内容类型，而噪声/背景是干扰型内容类型，所以即使短期段不是噪声，在前一段中的实施例中，我们也不能肯定地确定该短期段不是上下文类型VoIP。然而，如果短期段不是语音，在仅使用VoIP语音分类器2026的实施例中，它很可能不是上下文类型VoIP。因此，一般地，仅使用VoIP语音分类器2026的实施例可以独立地实现，而仅使用VoIP噪声分类器2028的其它实施例可以用作与例如使用VoIP语音分类器2026的实施例协作的补充实施例。

也就是说，可以使用VoIP语音分类器2026和VoIP噪声分类器2028两者。如果短期段被语音/噪声分类器2025确定为语音，则VoIP语音分类器2026继续分类它是VoIP语音、还是非VoIP语音，并且计算二值分类结果。如果短期段被语音/噪声分类器2025确定为噪声，则VoIP噪声分类器2028继续分类它是VoIP噪声或者非VoIP噪声，并且计算二值分类结果。否则，可以认为短期段可以被分类为非VoIP。

语音/噪声分类器2025、噪声语音分类器2026和VoIP噪声分类器2028的实现可以采用任何现有技术，并且可以是在第1-6部分中讨论的音频内容分类器202。

如果根据以上描述实现的音频内容分类器202A最终将短期段分类为不是语音、噪声和背景或者不是VoIP语音、非VoIP语音、VoIP噪声和非VoIP噪声(这意味着所有的相关置信度值低)，则音频内容分类器202A(和音频上下文分类器204A)可以将短期段分类为非VoIP。

为了基于VoIP语音分类器2026和VoIP噪声分类器2028的结果将短期段分类为VoIP或非VoIP的上下文类型，音频上下文分类器204A可以采用如在第7.1节中讨论的基于机器学习的技术，并且作为修改，可以使用更多特征，包括如已经在第7.1节中所讨论的、直接从短期段提取的短期特征和/或其它音频内容分类器(一个或多个)针对除了VoIP相关的内容类型之外的其它内容类型的结果。

除了上述基于机器学习的技术之外，VoIP/非VoIP分类的替代方法可以是利用领域知识并且运用关于VoIP语音和VoIP噪声的分类结果的启发式规则。下面将示出这样的启发式规则的示例。

如果时间t的当前短期段被确定为VoIP语音或非VoIP语音，则分类结果直接被当作VoIP/非VoIP分类结果，因为如前面所讨论的，VoIP/非VoIP语音分类是鲁棒的。也就是说，如果短期段被确定为VoIP语音，则它是上下文类型VoIP；如果短期段被确定为非VoIP语音，则它是上下文类型非VoIP。

当VoIP语音分类器2026针对由如以上所提及的语音/噪声分类器2025确定的语音做出关于VoIP语音/非VoIP语音的二值判决时，VoIP语音和非VoIP语音的置信度值可能是互补的，也就是说，其和是1(如果0表示100％否，1表示100％是)，并且用于区分VoIP语音和非VoIP语音的置信度值的阈值可以实际上指示同一个点。如果VoIP语音分类器2026不是二值分类器，则VoIP语音和非VoIP语音的置信度值可能不是互补的，并且用于区分VoIP语音和非VoIP语音的置信度值的阈值可能不一定指示同一个点。

然而，在VoIP语音或非VoIP语音置信度接近于阈值并且在阈值周围波动的情况下，VoIP/非VoIP分类结果可能切换太频繁。为了避免这样的波动，可以提供缓冲方案：用于VoIP语音和非VoIP语音的两个阈值可以被设置为较大，使得它不容易从当前内容类型切换到另一内容类型。为了易于描述，我们可以将非VoIP语音的置信度值转换为VoIP语音的置信度值。也就是说，如果置信度值高，则短期段被认为更接近于VoIP语音，如果置信度值低，则短期段被认为更接近于非VoIP语音。尽管对于如上所述的非二值分类器非VoIP语音的高置信度值不一定意味着VoIP语音的低置信度值，但是这样的简化可以很好地反映解决方案的本质，并且利用二值分类器的语言描述的相关权利要求应被解释为涵盖对于非二值分类器的等同解决方案。

图36中示出了缓冲方案。在两个阈值Th1和Th2(Th1＞＝Th2)之间存在缓冲区域。当VoIP语音的置信度值v(t)落在该区域中时，如图36中的左侧和右侧的箭头所示，上下文分类将不会改变。仅当置信度值v(t)大于较大的阈值Th1时，短期段才将被分类为VoIP(如图36中的底部的箭头所示)；并且仅当置信度值不大于较小的阈值Th2时，短期段才将被分类为非VoIP(如图36中的顶部的箭头所示)。

如果改为使用VoIP噪声分类器2028，则情况类似。为了使解决方案更鲁棒，可以联合使用VoIP语音分类器2026和VoIP噪声分类器2028。然后，音频上下文分类器204A可以被配置为：如果VoIP语音的置信度值大于第一阈值，或者如果VoIP噪声的置信度值大于第三阈值，则将短期段分类为上下文类型VoIP；如果VoIP语音的置信度值不大于第二阈值(其中第二阈值不大于第一阈值)，或者如果VoIP噪声的置信度值不大于第四阈值(其中第四阈值不大于第三阈值)，则将短期段分类为上下文类型非VoIP；否则，将短期段分类为上一个短期段的上下文类型。

这里，第一阈值可以等于第二阈值，并且第三阈值可以等于第四阈值，尤其是对于但不限于二值VoIP语音分类器和二值VoIP噪声分类器。然而，由于一般VoIP噪声分类结果不是那么鲁棒，所以如果第三阈值和第四阈值彼此不相等将更好，并且两者都应远离0.5(0对于非VoIP噪声指示高置信度，而1对于VoIP噪声指示高置信度)。

7.3平滑波动

为了避免快速波动，另一个解决方案是对音频内容分类器所确定的置信度值进行平滑。因此，如图37所示，类型平滑单元203A可以包括在音频分类器200A中。对于如前面所讨论的4种VoIP相关的内容类型中的每一种的置信度值，可以采用在第1.3节中讨论的平滑方案。

可替代地，类似于第7.2节，VoIP语音和非VoIP语音可以被认为是具有互补的置信度值的一对；并且VoIP噪声和非VoIP噪声也可以被认为是具有互补的置信度值的一对。在这样的情况下，每个对中仅有一个需要被平滑，并且可以采用在第1.3节中讨论的平滑方案。

以VoIP语音的置信度值作为示例，公式(3)可以被重写为：

v(t)＝β·v(t-1)+(1-β)·voipSpeechConf(t) (3”)

其中v(t)是时间t处的经平滑的VoIP语音置信度值，v(t-1)是上一时间处的经平滑的VoIP语音置信度值，voipSpeechConf是当前时间t处的平滑之前的VoIP语音置信度，α是加权系数。

在变体中，如果存在如上所述的语音/噪声分类器2025，如果短段的语音的置信度值低，则短期段不能被鲁棒地分类为VoIP语音，并且我们可以直接设置voipSpeechConf(t)＝v(t-1)，而不使VoIP语音分类器2026实际工作。

可替代地，在上述情况下，我们可以设置voipSpeechConf(t)＝0.5(或不高于0.5的其它值，诸如0.4-0.5)，这指示不肯定的情况(这里，置信度＝1指示它是VoIP的高置信度，而置信度＝0指示它不是VoIP的高置信度)。

因此，根据变体，如图37所示，音频内容分类器200A还可以包括用于识别短期段的语音的内容类型的语音/噪声分类器2025，并且类型平滑单元203A可以被配置为将当前短期段的VoIP语音在平滑之前的置信度值设置为预定的置信度值(诸如0.5或其它值，诸如0.4-0.5)或者上一个短期段的经平滑的置信度值，其中语音/噪声分类器所分类的内容类型语音的置信度值低于第五阈值。在这样的情况下，VoIP语音分类器2026可以或者可以不工作。可替代地，置信度值的设置可以由VoIP语音分类器2026完成，这等同于该工作由类型平滑单元203A完成的解决方案，并且权利要求应被解释为涵盖两种情况。此外，这里，我们使用语言“语音/噪声分类器所分类的内容类型语音的置信度值低于第五阈值”，但是保护范围不限于此，并且它等同于短期段被分类为除了语音之外的其它内容类型的情况。

对于VoIP噪声的置信度值，情况是类似的，并且这里省略详细描述。

为了避免快速波动，又一个解决方案是对音频上下文分类器204A所确定的置信度值进行平滑，并且可以采用在第1.3节中讨论的平滑方案。

为了避免快速波动，还另一个解决方案是延迟VoIP和非VoIP之间的内容类型的过渡，并且可以使用与在第1.6节中描述的方案相同的方案。如在第1.6节中所描述的，计时器916可以在音频分类器的外部或者作为其一部分在音频分类器内。因此，如图38所示，音频分类器200A还可以包括计时器916。并且，音频分类器被配置为继续输出当前上下文类型，直到新上下文类型的持续时间的长度达到第六阈值为止(上下文类型是音频类型的实例)。通过参照第1.6节，这里可以省略详细描述。

附加地或可替代地，作为用于延迟VoIP和非VoIP之间的过渡的另一个方案，如前面对于VoIP/非VoIP分类描述的第一和/或第二阈值可以根据上一个短期段的上下文类型而不同。也就是说，当新短期段的上下文类型不同于上一个短期段的上下文类型时，第一和/或第二阈值变得较大，而当新短期段的上下文类型与上一个短期段的上下文类型相同时，变得较小。通过该方式，上下文类型趋向于维持在当前上下文类型，因此上下文类型的突然波动可以被抑制到一定程度。

7.4实施例和应用场景的组合

例如，在第7.1节至第7.3节中描述的解决方案中的任何两个或更多个可以彼此组合。并且，这些组合中的任何一个可以进一步与在第1-6部分中描述或暗示的任何实施例组合。尤其是，在该部分中讨论的实施例及其任何组合可以与音频处理装置/方法或者在第4部分中讨论的音量调节器控制器/控制方法组合。

7.5 VoIP分类方法

在如图39所示的一个实施例中，一种音频分类方法包括：识别音频信号的短期段的内容类型(操作4004)，然后至少部分基于所识别的内容类型来识别短期段的上下文类型(操作4008)。

为了动态地并且快速地识别音频信号的上下文类型，该部分中的音频分类方法在识别上下文类型VoIP和非VoIP中尤其有用。在这样的情况下，可以首先将短期段分类为内容类型VoIP语音或内容类型非VoIP语音，并且识别上下文类型的操作被配置为基于VoIP语音和非VoIP语音的置信度值来将短期段分类为上下文类型VoIP或上下文类型非VoIP。

可替代地，可以首先将短期段分类为内容类型VoIP噪声或内容类型非VoIP噪声，并且识别上下文类型的操作可以被配置为基于VoIP噪声和非VoIP噪声的置信度值来将短期段分类为上下文类型VoIP或上下文类型非VoIP。

语音和噪声可以联合考虑。在这样的情况下，识别上下文类型的操作可以被配置为基于VoIP语音、非VoIP语音、VoIP噪声和非VoIP噪声的置信度值来将短期段分类为上下文类型VoIP或上下文类型非VoIP。

为了识别短期段的上下文类型，可以使用机器学习模型，其将从短期段提取的其它特征和短期段的内容类型的置信度值都当作特征。

识别上下文类型的操作也可以基于启发式规则实现。当仅VoIP语音和非VoIP语音被涉及时，启发式规则像这样：如果VoIP语音的置信度值大于第一阈值，则将短期段分类为上下文类型VoIP；如果VoIP语音的置信度值不大于第二阈值，则将短期段分类为上下文类型非VoIP，其中第二阈值不大于第一阈值；否则，将短期段分类为上一个短期段的上下文类型。

用于仅VoIP噪声和非VoIP噪声被涉及的情况的启发式规则是类似的。

当语音和噪声都被涉及时，启发式规则像这样：如果VoIP语音的置信度值大于第一阈值，或者如果VoIP噪声的置信度值大于第三阈值，则将短期段分类为上下文类型VoIP；如果VoIP语音的置信度值不大于第二阈值(其中第二阈值不大于第一阈值)，或者如果VoIP噪声的置信度值不大于第四阈值(其中第四阈值不大于第三阈值)，则将短期段分类为上下文类型非VoIP；否则，将短期段分类为上一个短期段的上下文类型。

这里可以采用在第1.3节和第1.8节中讨论的平滑方案，并且省略详细描述。作为对于在第1.3节中描述的平滑方案的修改，在平滑操作4106之前，所述方法还可以包括从短期段识别内容类型语音(图40中的操作40040)，其中当前短期段的VoIP语音在平滑之前的置信度值被设置为预定的置信度值或上一个短期段的经平滑的置信度值(图40中的操作40044)，其中内容类型语音的置信度值低于第五阈值(操作40041中的“否”)。

如果否则识别内容类型语音的操作鲁棒地将短期段判断为语音(操作40041中的“是”)，则在平滑操作4106之前，短期段被进一步分类为VoIP语音或非VoIP语音(操作40042)。

事实上，即使不使用平滑方案，所述方法也可以首先识别内容类型语音和/或噪声，当短期段被分类为语音或噪声时，实现进一步的分类以将短期段分类为VoIP语音和非VoIP语音中的一个、VoIP噪声和非VoIP噪声中的一个。然后，进行识别上下文类型的操作。

如在第1.6节和第1.8节中所提及的，其中所讨论的过渡方案可以被当作这里所描述的音频分类方法的一部分，并且省略细节。简要地说，所述方法还可以包括测量在其期间识别上下文类型的操作连续地输出相同的上下文类型的持续时间，其中所述音频分类方法被配置为继续输出当前上下文类型，直到新上下文类型的持续时间的长度达到第六阈值为止。

类似地，不同的第六阈值可以针对从一种上下文类型到另一种上下文类型的不同过渡对设置。此外，第六阈值可以与新上下文类型的置信度值负相关。

作为对于专门针对VoIP/非VoIP分类的音频分类方法中的过渡方案的修改，用于当前短期段的第一至第四阈值中的任何一个或多个可以根据上一个短期段的上下文类型不同地设置。

类似于音频处理装置的实施例，一方面，音频处理方法的实施例及其变体的任何组合是实用的；并且另一方面，音频处理方法的实施例及其变体的每一个方面可以是单独的解决方案。此外，在该章节中描述的任何两个或更多个解决方案可以彼此组合，并且这些组合可以进一步与在本公开的其它部分中描述或暗示的任何实施例组合。具体地说，这里所描述的音频分类方法可以在前面描述的音频处理方法(尤其是音量调节器控制方法)中使用。

如在本申请的具体实施方式的开头所讨论的，本申请的实施例可以以硬件或软件或这两者来实施。图41是示出用于实现本申请的方面的示例性系统4200的框图。

在图41中，中央处理单元(CPU)4201根据存储在只读存储器(ROM)4202中的程序或从存储部分4208加载到随机存取存储器(RAM)4203的程序来执行各种处理。在RAM 4203中，当CPU 4201执行各种处理时所需的数据等也根据需要被存储。

CPU 4201、ROM 4202和RAM 4203经由总线4204彼此连接。输入/输出接口4205也连接到总线4204。

以下部件连接到输入/输出接口4205：输入部分4206，包括键盘、鼠标等；输出部分4207，包括诸如阴极射线管(CRT)、液晶显示器(LCD)等的显示器、以及扬声器等；存储部分4208，包括硬盘等；以及通信部分4209，包括诸如LAN卡、调制解调器等的网络接口卡。通信部分4209经由网络(诸如互联网)执行通信处理。

驱动器4210也根据需要连接到输入/输出接口4205。可移动介质4211(诸如磁盘、光盘、磁光盘、半导体存储器等)根据需要安装在驱动器4210上，使得从其读取的计算机程序根据需要被安装到存储部分4208中。

在上述部件通过软件实现的情况下，构成该软件的程序被从网络(诸如互联网)或存储介质(诸如可移动介质4211)安装。

请注意，本文中所使用的术语仅仅是为了描述特定实施例的目的，而非意图限制本申请。如本文中所使用的，单数形式“一个”和“所述”也意图包括复数形式，除非上下文另外明确地指示。将进一步理解到，术语“包括”当在本申请中使用时指定了所陈述的特征、整数、操作、步骤、元件和/或部件的存在，但是不排除一个或多个其它的特征、整数、操作、步骤、元件、部件和/或它们的群组的存在或添加。

所有装置或操作的对应的结构、材料、动作和等同物加上权利要求中的功能元件的意图是包括用于与具体要求保护的其它要求保护的元件组合执行功能的任何结构、材料或动作。本申请的描述是为了阐述和描述的目的而呈现的，而非意图穷举或限于所公开的形式的申请。在不脱离本申请的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。实施例被选择和描述是为了最佳地解释本申请的原理和实践应用、并且使得本领域的其它普通技术人员能够针对具有适合于所设想的特定用途的各种修改的各种实施例来理解本申请。

Claims

1.一种音频分类器，包括：

短期特征提取器，用于从短期音频段提取短期特征，每个短期音频段包括音频帧序列；

短期分类器，用于使用相应的短期特征将长期音频段中的短期段序列分类为短期音频类型；

统计提取器，用于计算短期分类器关于所述长期音频段中的短期段序列的结果的统计，作为长期特征；

长期特征提取器，用于基于所述长期音频段中的短期段序列的短期特征从所述长期音频段提取进一步的长期特征；以及

长期分类器，用于使用所述长期特征以及所述进一步的长期特征将所述长期音频段分类为长期音频类型。

2.根据权利要求1所述的音频分类器，其中，所述短期分类器被配置为将短期段序列中的每一个分类为以下短期音频类型中的至少一个：语音、短期音乐、背景声音和噪声。

3.根据权利要求1所述的音频分类器，其中，所述统计提取器被配置为计算以下中的至少一个作为长期特征：短期音频类型的置信度值的均值和方差、利用短期段的重要性程度加权的均值和方差、每种短期音频类型的出现频率以及不同的短期音频类型之间的过渡频率。

4.根据权利要求1所述的音频分类器，其中，所述长期特征提取器被进一步配置为计算短期特征的以下统计中的至少一个作为长期特征：均值、方差、加权的均值、加权的方差、高平均值、低平均值、以及高平均值与低平均值之间的比率。

5.一种音频分类器，包括：

帧层次特征提取器，用于从所述音频帧序列中的每一个提取帧层次特征，其中短期特征是基于从所述音频帧序列提取的帧层次特征被计算的；

统计提取器，用于计算短期分类器关于所述长期音频段中的短期段序列的结果的统计，作为长期特征；以及

长期分类器，用于使用所述长期特征将所述长期音频段分类为长期音频类型。

6.根据权利要求5所述的音频分类器，其中，所述帧层次特征提取器被配置为提取以下特征中的至少一个：表征各种短期音频类型的性质的特征、截止频率、静态信噪比特性、分段信噪比特性、基本语音描述符以及声道特性。

7.根据权利要求6所述的音频分类器，其中，所述表征各种短期音频类型的性质的特征包括以下特征中的至少一个：帧能量、子带谱分布、谱通量、Mel频率倒谱系数、男低音、残余信息、色度特征以及过零率。

8.根据权利要求5所述的音频分类器，其中，所述短期特征提取器被配置为计算所述帧层次特征的统计作为短期特征。

9.根据权利要求5所述的音频分类器，其中，所述短期特征提取器被配置为作用于利用移动窗口以预定步长长度在长期音频段的时间维度上滑动而形成的短期音频段。

10.根据权利要求5所述的音频分类器，其中，所述短期特征提取器被进一步配置为直接从每个短期音频段提取以下特征中的至少一个作为短期特征：韵律特性、中断/静音特性以及短期音频质量特征。

11.一种音频分类器，包括：

帧层次特征提取器，用于从音频帧提取帧层次特征；

帧层次分类器，用于使用相应的帧层次特征将所述音频帧序列中的每一个分类为帧层次音频类型，其中短期特征是基于帧层次分类器关于所述音频帧序列的结果被计算的；

12.根据权利要求11所述的音频分类器，其中，所述短期特征提取器被配置为基于从所述音频帧序列提取的帧层次特征和帧层次分类器关于所述音频帧序列的结果两者来计算短期特征。

13.根据权利要求11所述的音频分类器，其中，所述帧层次特征提取器被配置为提取以下特征中的至少一个：表征各种短期音频类型的性质的特征、截止频率、静态信噪比特性、分段信噪比特性、基本语音描述符以及声道特性。

14.根据权利要求11所述的音频分类器，其中，所述短期特征提取器被配置为作用于利用移动窗口以预定步长长度在所述长期音频段的时间维度上滑动而形成的短期音频段。

15.根据权利要求11所述的音频分类器，其中，所述帧层次分类器被配置为将所述音频帧序列中的每一个分类为以下帧层次音频类型中的至少一个：语音、音乐、背景声音和噪声。

16.一种包括根据权利要求1到15中的任何一个所述的音频分类器的音频处理装置。

17.一种音频分类方法，包括：

从短期音频段提取短期特征，每个短期音频段包括音频帧序列；

使用相应的短期特征将长期音频段中的短期段序列分类为短期音频类型；

计算分类操作关于所述长期音频段中的短期段序列的结果的统计，作为长期特征；

基于所述长期音频段中的短期段序列的短期特征从所述长期音频段提取进一步的长期特征；以及

使用所述长期特征和所述进一步的长期特征将所述长期音频段分类为长期音频类型。

18.根据权利要求17所述的音频分类方法，其中，将短期段序列中的每一个分类为以下短期音频类型中的至少一个：语音、短期音乐、背景声音和噪声。

19.根据权利要求17所述的音频分类方法，其中，所述计算操作被配置为计算以下中的至少一个作为长期特征：短期音频类型的置信度值的均值和方差、利用短期段的重要性程度加权的均值和方差、每种短期音频类型的出现频率以及不同的短期音频类型之间的过渡频率。

20.根据权利要求19所述的音频分类方法，其中，所述计算操作包括计算短期特征的以下统计中的至少一个作为长期特征：均值、方差、加权的均值、加权的方差、高平均值、低平均值、以及高平均值与低平均值之间的比率。

21.一种音频分类方法，包括：

从短期音频段包含的音频帧序列中的每一个提取帧层次特征；

从短期音频段提取短期特征，其中短期特征是基于从所述音频帧序列提取的帧层次特征被计算的；

计算分类操作关于所述长期音频段中的短期段序列的结果的统计，作为长期特征；以及

使用所述长期特征将所述长期音频段分类为长期音频类型。

22.根据权利要求21所述的音频分类方法，其中，所述提取帧层次特征的操作包括提取以下特征中的至少一个：表征各种短期音频类型的性质的特征、截止频率、静态信噪比特性、分段信噪比特性、基本语音描述符以及声道特性。

23.根据权利要求22所述的音频分类方法，其中，所述表征各种短期音频类型的性质的特征包括以下特征中的至少一个：帧能量、子带谱分布、谱通量、Mel频率倒谱系数、男低音、残余信息、色度特征以及过零率。

24.根据权利要求21所述的音频分类方法，其中，所述提取短期特征的操作包括计算所述帧层次特征的统计作为短期特征。

25.根据权利要求21所述的音频分类方法，其中，所述提取短期特征的操作针对利用移动窗口以预定步长长度在长期音频段的时间维度上滑动而形成的短期音频段执行。

26.根据权利要求21所述的音频分类方法，其中，所述提取短期特征的操作包括直接从每个短期音频段提取以下特征中的至少一个作为短期特征：韵律特性、中断/静音特性以及短期音频质量特征。

27.一种音频分类方法，包括：

从音频帧提取帧层次特征；

使用相应的帧层次特征将短期音频段包含的音频帧序列中的每一个分类为帧层次音频类型；

从短期音频段提取短期特征，其中短期特征是基于所述音频帧序列的帧层次音频类型被计算的；

使用所述长期特征将所述长期音频段分类为长期音频类型。

28.根据权利要求27所述的音频分类方法，其中，所述提取短期特征的操作包括基于从所述音频帧序列提取的帧层次特征和所述音频帧序列的帧层次音频类型两者来计算短期特征。

29.根据权利要求27所述的音频分类方法，其中，提取帧层次特征的操作包括提取以下特征中的至少一个：表征各种短期音频类型的性质的特征、截止频率、静态信噪比特性、分段信噪比特性、基本语音描述符以及声道特性。

30.根据权利要求27所述的音频分类方法，其中，所述提取短期特征的操作针对利用移动窗口以预定步长长度在所述长期音频段的时间维度上滑动而形成的短期音频段执行。

31.根据权利要求27所述的音频分类方法，其中，将所述音频帧序列中的每一个分类为以下帧层次音频类型中的至少一个：语音、音乐、背景声音和噪声。

32.一种具有记录在其上的计算机程序指令的计算机可读介质，当被处理器执行时，所述指令使得处理器能够执行根据权利要求17到31中的任何一个所述的方法。

33.一种音频处理设备，包括：

处理器；以及

具有记录在其上的计算机程序指令的计算机可读介质，当被处理器执行时，所述指令使得处理器能够执行根据权利要求17到31中的任何一个所述的方法。

34.一种音频处理装置，包括用于执行根据权利要求17到31中的任何一个所述的方法的部件。