CN106104684A

CN106104684A - 多通道音频信号分类器

Info

Publication number: CN106104684A
Application number: CN201480077074.3A
Authority: CN
Inventors: A·瓦西拉凯; L·J·拉克索宁; A·S·拉莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2014-01-13
Filing date: 2014-01-13
Publication date: 2016-11-09
Also published as: RU2648632C2; JP2017503214A; EP3095117A1; US20160329056A1; US9911423B2; EP3095117A4; RU2016131192A; JP6235725B2; EP3095117B1; KR20160110447A; WO2015104447A1; KR101841380B1

Abstract

尤其是公开了一种方法，其包括：估计针对多通道音频信号的熵值；从所述熵值，确定所述多通道音频信号的通道配置；以及对所述多通道音频信号进行编码，其中编码模式依赖于所述通道配置。

Description

多通道音频信号分类器

技术领域

本申请涉及针对音频编码器的多通道或立体声音频信号的分类器，以及更具体地但不排他地，涉及用于在便携式装置中使用的多通道或立体声音频信号编码器。

背景技术

音频信号(如语音或音乐)被编码例如以使得能够音频信号的高效传输或存储。

音频编码器和解码器(还被称为编解码器)用于表示基于音频的信号，诸如音乐和环境声(在语音编码术语中，其可以被称为背景噪声)。

音频编解码器也能够被配置为使用变化的比特率进行操作。在较低比特率，此类音频编解码器可以被优化以使用在等于纯语音编解码器的编码速率的语音信号进行工作。在较高比特率，音频编解码器可以以较高质量和高性能来编码任何信号，其包括音乐、背景噪声和语音。可变速率音频编解码器也能够实现嵌入式的可伸缩的编码结构和比特流，其中附加的比特(特定数量的比特常常被称为层)改进在较低速率上的编码，以及其中较高速率的比特流可以被截短以获得较低速率编码的比特流。此类音频编解码器可以使用纯粹针对语音信号而设计的编解码器作为核心层或最低比特率编码。

音频编解码器被设计以维持高(感知)质量，同时改进压缩率。因此，对于音频编解码器常见的是，采用多模式方法以用于对输入音频信号进行编码，其中根据输入音频信号的通道配置来选择特定的编码模式。

音频编解码器可以被配置为使用多通道输入音频信号进行操作，特别是双通道输入音频信号。一种此类双通道配置可以是立体声音频信号，其包括两个类似的音频信号，每个音频信号具有不同的相位和声压水平。这些差异可以归因于由合理的间距隔开的两个全向麦克风所获取的立体声信号。另一种双通道配置可以是双耳(binaural)信号，其与由两个全向麦克风获取的立体声信号的区别在于具有相对短的间距。典型地，当获取双耳信号时的间隔的距离具有若干厘米的量级以与在典型的人的头部的右耳和左耳之间的距离相适应。

发明内容

根据本申请提供了一种方法，所述方法包括：估计针对多通道音频信号的熵值；从所述熵值，确定所述多通道音频信号的通道配置；以及对所述多通道音频信号进行编码，其中编码模式依赖于所述通道配置。

所述多通道音频信号包括至少第一音频通道信号和第二音频通道信号，以及其中估计针对多通道音频信号的熵值可以包括：将所述第一音频通道信号和所述第二音频通道信号每个变换成包括多个频带的频域音频信号；通过确定相对于在所述第二音频通道信号的频带中的音频信号水平的在所述第一音频通道信号的频带中的音频信号水平，来确定相对音频信号水平；以及从所述相对音频信号水平来确定所述熵值。

确定所述多通道音频信号的通道配置可以包括：将所述熵值与阈值进行比较；当所述熵值小于或等于所述阈值时，将所述通道配置分类为第一类型的通道配置；以及当所述熵值大于所述阈值时，将所述通道配置分类为第二类型的通道配置。

从所述相对音频信号水平来确定所述熵值可以包括：通过确定来自所述多通道音频信号的音频帧的多个相对音频信号水平的直方图，来确定所述相对音频信号水平的概率。

可替代地，从所述相对音频信号水平来确定所述熵值可以包括：通过顺序地观察来自所述多通道音频信号的音频帧的一系列的相对音频信号水平值，来估计在具有相同值的两个相对音频信号水平值的重合之间的相对音频信号水平值的平均数量。

所述多通道音频信号可以包括双通道音频信号，以及其中第一类型的通道配置可以是双耳音频通道，以及第二类型的通道配置可以是立体声音频通道。

所述音频信号水平可以包括在频带中的音频信号的量级。

所述相对音频信号水平可以是耳间声强差(interaural level difference)。

根据第二方面，提供了一种装置，所述装置被配置为：估计针对多通道音频信号的熵值；从所述熵值，确定所述多通道音频信号的通道配置；以及对所述多通道音频信号进行编码，其中编码模式依赖于所述通道配置。

所述多通道音频信号包括至少第一音频通道信号和第二音频通道信号，以及其中被配置为估计针对多通道音频信号的熵值的装置还可以被配置为：将所述第一音频通道信号和所述第二音频通道信号每个变换成包括多个频带的频域音频信号；通过确定相对于在所述第二音频通道信号的频带中的音频信号水平的在所述第一音频通道信号的频带中的音频信号水平，来确定相对音频信号水平；以及从所述相对音频信号水平来确定所述熵值。

被配置为确定所述多通道音频信号的通道配置的所述装置还可以被配置为：将所述熵值与阈值进行比较；当所述熵值小于或等于所述阈值时，将所述通道配置分类为第一类型的通道配置；以及当所述熵值大于所述阈值时，将所述通道配置分类为第二类型的通道配置。

被配置为从所述相对音频信号水平来确定所述熵值的所述装置还可以被配置为：通过被配置为确定来自所述多通道音频信号的音频帧的多个相对音频信号水平的直方图，来确定所述相对音频信号水平的概率。

可替代地，被配置为从所述相对音频信号水平来确定所述熵值的所述装置还可以被配置为：通过顺序地观察来自所述多通道音频信号的音频帧的一系列的相对音频信号水平值，来估计在具有相同值的两个相对音频信号水平值的重合之间的相对音频信号水平值的平均数量。

所述音频信号水平可以包括在频带中的音频信号的量级。

所述相对音频信号水平可以是耳间声强差。

根据第三方面，提供了一种装置，所述装置包含至少一个处理器和包含计算机代码的至少一个存储器，所述至少一个存储器和所述计算机代码被配置为使用所述至少一个处理器使得所述装置：估计针对多通道音频信号的熵值；从所述熵值，确定所述多通道音频信号的通道配置；以及对所述多通道音频信号进行编码，其中编码模式依赖于所述通道配置。

所述多通道音频信号可以包括至少第一音频通道信号和第二音频通道信号，以及其中还可以使得估计针对多通道音频信号的熵值的所述装置：将所述第一音频通道信号和所述第二音频通道信号每个变换成包括多个频带的频域音频信号；通过使得所述装置确定相对于在所述第二音频通道信号的频带中的音频信号水平的在所述第一音频通道信号的频带中的音频信号水平，来确定相对音频信号水平；以及从所述相对音频信号水平来确定所述熵值。

还可以使得确定所述多通道音频信号的通道配置的所述装置：将所述熵值与阈值进行比较；当所述熵值小于或等于所述阈值时，将所述通道配置分类为第一类型的通道配置；以及当所述熵值大于所述阈值时，将所述通道配置分类为第二类型的通道配置。

还可以使得从所述相对音频信号水平来确定所述熵值的所述装置：通过使得确定来自所述多通道音频信号的音频帧的多个相对音频信号水平的直方图，来确定所述相对音频信号水平的概率。

可替代地，还可以使得从所述相对音频信号水平来确定所述熵值的所述装置：通过顺序地观察来自所述多通道音频信号的音频帧的一系列的相对音频信号水平值，来估计在具有相同值的两个相对音频信号水平值的重合之间的相对音频信号水平值的平均数量。

所述音频信号水平可以包括在频带中的音频信号的量级。

所述相对音频信号水平可以是耳间声强差。

根据第四方面，提供了一种计算机程序代码，当由处理器运行该计算机程序代码时，它实现：估计针对多通道音频信号的熵值；从所述熵值，确定所述多通道音频信号的通道配置；以及对所述多通道音频信号进行编码，其中编码模式依赖于所述通道配置。

电子设备可以包括如上所述的装置。

芯片组可以包括如上所述的装置。

附图说明

为了更好地理解本申请以及如何实施本申请，作为示例，现在参照附图，在附图中：

图1示意性地示出了使用一些实施例的电子设备；

图2示意性地示出了根据一些实施例的音频编解码器系统；

图3示意性地示出了根据一些实施例的如图2中示出的编码器；

图4示意性地示出了根据一些实施例的更详细的如在图3中示出的音频信号分类器；

图5示意性示出了根据一些实施例的流程图，该流程图说明了在图3中示出的编码器的操作；以及

图6示出了根据一些实施例的流程图，该流程图说明了如在图4中示出的音频信号分类器的操作。

具体实施方式

下面更详细地描述可能的立体声和多通道语音音频编解码器，其包括多模式音频编解码器。

一些多模式音频编解码器可以被配置为：与双耳音频信号区别地编码立体声音频信号，并且在没有关于两种类型的多通道音频信号中的哪个类型的多通道音频信号被呈现给编解码器的知识的情况下，该编解码器不能够预选择最佳的编码模式。这能够导致如下问题：音频编解码器必须在立体声操作模式和双耳操作模式两者中编码所输入的两通道音频信号(或双通道音频信号)，以便确保已经使用了最佳操作模式对所输入的多通道音频信号进行编码。

如果输入的音频信号在立体声信号和双耳信号之间频繁地切换，导致要求编解码器不断地在双操作模式中进行编码以便确保使用最优模式对输入的音频信号进行编码，则这个问题可以进一步恶化。

针对如本文中描述的实施例的构思可以从如下方面出发：由于当获取各自信号时在麦克风之间的物理间距中的差异，因此双耳信号和立体声信号的一些特征可能不同。这些特征可以用于使一个信号与另一个信号区分。这使得多模式音频编码器能够包含预分类阶段，其中特定的输入音频信号可以首先被识别，以便在进行对输入的音频信号的编码之前选择最佳的编码模式。

在这点上，首先参照图1，图1示出了可以包含根据本申请的实施例的编解码器的示例性电子设备或装置10的示意性框图。

例如，装置10可以是无线通信系统的移动终端或用户设备。在其它实施例中，装置10可以是音频-视频设备，诸如视频相机、电视(TV)接收器、音频记录器或音频播放器(诸如mp3记录器/播放器)、媒体记录器(还被称为mp4记录器/播放器)、或适用于音频信号的处理的任何计算机。

在一些实施例中，电子设备或装置10包括麦克风11，其经由模拟至数字(ADC)转换器14链接到处理器21。处理器21经由数字至模拟(DAC)转换器32进一步链接到扬声器33。处理器21进一步链接到收发器(RX/TX)13、用户接口(UI)15以及存储器22。

在一些实施例中，处理器21可以被配置为运行各种程序代码。在一些实施例中，所实现的程序代码包括如本文中描述的多模式或立体声编码或解码代码。在一些实施例中，所实现的程序代码23可以被存储在例如存储器22中以用于在需要时由处理器21来检索。存储器22还可以提供用于存储数据的段24，例如已经根据本申请被编码的数据。

在实施例中，编码和解码代码可以被实现在硬件和/或固件中。

用户接口15使得用户能够例如经由小键盘向电子设备10输入命令，和/或例如经由显示器从电子设备10获得信息。在一些实施例中，触摸屏可以提供针对用户接口的输入和输出功能两者。在一些实施例中，装置10包括收发器13，其适用于使得能够例如经由无线通信网络与其它装置通信。

此外，将理解的是，装置10的结构可以以许多方式被补充或改变。

装置10的用户例如能够使用麦克风11以用于输入语音或其它音频信号，这些信号被传送给某一其它装置或被存储在存储器22的数据段24中。在一些实施例中，为此，能够由用户经由用户接口15来激活对应的应用。在这些实施例中，这个应用能够由处理器21来执行，使得处理器21运行存储在存储器22中的编码代码。

在一些实施例中，模拟至数字转换器(ADC)14将输入模拟音频信号转换成数字音频信号，以及向处理器21提供数字音频信号。在一些实施例中，麦克风11可以包括集成的麦克风和ADC功能以及将数字音频信号直接提供给用于处理的处理器。

在此类实施例中，处理器21然后以与如参照图2中示出的系统，特别是在图3中示出的编码器所描述的相同方式来处理数字音频信号。

在一些实施例中，所产生的比特流可以被提供给收发器13以用于传输给另一个装置。可替代地，在一些实施例中，所编码的音频数据可以被存储在存储器22的数据段24中，例如以用于随后传输或用于由相同的装置10随后呈现。

在一些实施例中，装置10也能够经由收发器13从另一个装置接收具有对应编码数据的比特流。在这个示例中，处理器21可以运行存储在存储器22中的解码程序代码。在此类实施例中，处理器21解码所接收的数据，以及将所解码的数据提供给数字至模拟转换器32。数字至模拟转换器32将数字解码数据转换为模拟音频数据，以及在一些实施例中能够经由扬声器33来输出模拟音频。在一些实施例中，也可以由用户经由用户接口15来调用应用来触发解码程序代码的运行。

在一些实施例中，所接收的编码数据也可以被存储在存储器22的数据段24中而不是经由扬声器33立即呈现，例如以用于随后解码和呈现或解码并转发给又一个装置。

将了解的是，在图1-4中描述的示意性结构和在图5和图6中示出的方法步骤表示音频编解码器的操作的仅一部分，特别是立体声编码器装置的一部分或如在图1中示出的装置中实现的所示意性示出的方法的一部分。

在图2中示出了如由实施例使用的音频编解码器的一般操作。如在图2中示意性说明的，一般的音频编码/解码系统包括编码器和解码器两者。然而，将理解的是，一些实施例能够实现编码器或解码器中的一者，或编码器和解码器两者。由图2所说明的是系统102，其具有编码器104以及特别是立体声编码器151、存储或媒体通道106和解码器108。将理解的是，如上所述的一些实施例能够包括或实现编码器104或解码器108中的一者或编码器104和解码器108两者。

编码器104压缩产生比特流112的输入音频信号110，在一些实施例中，它可以被存储或通过媒体通道106传送。此外，编码器104可以包括多通道编码器151作为整体编码操作的一部分。将理解的是，多通道编码器可以是整个编码器104的一部分或是分离的编码模块。

可以在解码器108内接收比特流112。解码器108对比特流112进行解压缩并且产生输出音频信号114。解码器108能够包括多通道解码器，其作为整个解码操作的一部分。将理解的是，多通道解码器可以是整个解码器108的一部分或是分离的解码模块。比特流112的比特速率和关于输入信号110的输出音频信号114的质量是限定编码系统102的性能的主要特征。

图3示意性地示出了根据一些实施例的编码器104。

图5示意性地示出了根据一些实施例的编码器104的操作的流程图。

针对如本文中描述的实施例的构思是在编码之前对输入多通道音频信号进行分类。在这个方面，图3示出了根据一些实施例的示例编码器104。此外，参照图5，更详细地示出了编码器104的操作。

在一些实施例中，编码器104包括：音频信号分类器301。音频信号分类器301被配置为接收多通道音频信号并且生成这个音频信号的频域表示。这些频域表示可以被传送给通道分析器/单声道编码器303以用于进一步处理和编码。

音频信号分类器301被配置为分析音频信号的频域表示，以便得到针对输入的多通道音频信号的音频信号分类值。所得到的音频信号分类值指示输入的多通道音频信号的通道配置。然后，音频信号分类值可以被传送给通道分析器/单声道编码器303和多通道参数编码器305，从而它可以用于识别针对通道分析器/单声道编码器303和多通道参数编码器305的特定的编码模式。

在第一组实施例中，编码器104的音频信号分类器301可以被布置为接收多通道音频信号，其包括具有左通道和右通道的至少双通道输入音频信号。在这些实施例中，音频信号分类器301可以确定音频信号分类值，其指示输入的音频信号是否包括双通道音频信号(其是立体声或双耳音频信号)。

参照图4，进一步详细地描述根据一些实施例的示例音频信号分类器301。此外，参照图6，根据一些实施例示出了如在图4中示出的音频信号分类器301的操作。

在一些实施例中，音频信号分类器201包括帧分割器/变换器401。帧分割器/变换器401可以被配置为将来自左通道和右通道110的每个通道的音频信号分割或分段成适合于频域变换的段或帧。在一些实施例中，帧分割器/变换器401可以进一步被配置为使用任何合适的窗函数对来自左通道和右通道的音频信号数据的这些帧或段进行加窗(window)。例如，帧分割器/变换器401可以被配置为生成20ms的帧，该20ms的帧与前面的和后面的帧每个重叠10ms。

在一些实施例中，帧分割器/变换器401可以被配置为在来自左通道和右通道的音频信号上执行任何合适的时间至频域变换。例如，时间至频域变换可以是离散傅里叶变换(DFT)、快速傅里叶变换(FFT)和修正的离散余弦变换(MDCT)。在以下示例中，使用FFT。此外，时间至频域变换器的输出可以被进一步处理以生成每个输入通道音频信号数据的分离的频带域表示(子带表示)。例如，这些带可以线性间隔开，或被感知地或心理声学地分配。

在图6中由步骤601示出了针对每个音频通道的音频帧生成频带域表示的操作。

在一些实施例中，频域表示被传送给相对音频能量信号水平确定器403，其可以被配置为确定在针对每个子带的通道对之间的相对音频信号水平或耳间声强(能量)差(ILD)。可以通过找到相对于在第二音频通道信号的对应频带中的音频信号水平的在第一音频通道信号的频带中的音频信号水平，来确定针对子带的相对音频信号水平。

将理解的是，在以下示例中，单对的左通道和右通道被分析和处理。

在一些实施例中，可以使用以下代码来计算针对每个带的相对音频水平(或耳间声强差)。

其中L_FFT是FFT的长度，以及EPSILON是大于零的最小值以防止除以零的问题。在此类实施例中，相对音频能量信号水平确定器高效地生成针对在每个子带上的每个通道(L和R)的量级确定，然后将一个通道的值除以另一个通道的值以生成相对值。

在图6中由步骤603示出了确定相对音频能量信号水平(或耳间声强(能量)差)的操作。

在一些实施例中，可以执行任何合适的耳间声强(能量)差(ILD)估计。例如，针对每个帧，可以有两个窗口，针对两个窗口来估计延迟和水平。因此，例如在每个帧是10ms的情况下，可以有两个窗口，它们可以重叠并且彼此延迟5ms。也就是说，针对每个帧，可以存在确定的两个分离的水平差的值，其可以被传送给编码器以用于编码。

此外，在一些实施例中，针对每个窗口，可以针对有关子带的每个子带来估计差。在一些实施例中，可以根据任何合适的方法来确定子带的分割。

例如，在一些实施例中，可以根据所选择的带宽确定来执行子带分割，然后其确定耳机声强(能量)差(ILD)估计的数量。例如，音频信号的生成可以基于输出信号是否被认为是宽带(WB)、超宽带(SWB)或满带(FB)(其中，在从宽带到满带的顺序中，带宽要求增加)。在一些实施例中，针对可能的带宽选择，可以存在在子带中的特定分割。因此，例如，针对耳间声强(能量)差估计的针对FFT域的子带分割可以是：

针对宽带(WB)的ITD子带

const short scalel024_WB[]＝{1，5，8，12，20，34，48，56，120，512}；

针对超宽带(SWB)的ITD子带

const short scalel024_SWB[]＝{1，2，4，6，10，14，17，24，28，60，256，512}；

针对满带(FB)的ITD子带

const short scalel024_FB[]＝{1，2，3，4，7，11，16，19，40，171，341，448/＊～21kHz＊/}；

针对宽带(WB)的ILD子带

const short scf_band_WB[]＝{1，8，20，32，44，60，90，110，170，216，290，394，512}；

针对超宽带(SWB)的ILD子带

const short scf_band_SWB[]＝{1，4，10，16，22，30，45，65，85，108，145，197，256，322，412，512}；

针对满带(FB)的ILD子带

const short scf_band_FB[]＝{1，3，7，11，15，20，30，43，57，72，97，131，171，215，275，341，391，448/＊～21kHz*/}；

也就是说，在一些实施例中，可以存在针对水平差的不同子带。

相对音频能量信号水平确定器403可以被配置为将针对每个子带或频率槽(bin)的相对音频能量信号水平输出给熵估计器405。

在一些实施例中，熵估计器403被布置为确定针对所接收的相对音频能量信号水平的零阶熵估计。熵估计器然后可以使用所接收的相对音频能量信号水平的熵值，来确定如输入信号110所传递的多通道音频信号的配置或类型。

在一些实施例中，从针对多通道音频信号(其包括左和右音频通道配置)的相对音频能量信号水平(ILD)所确定的熵值可以用于确定左和右音频通道是立体声类型还是双耳类型。

再次，将理解的是，可以通过当接收所述信号时在麦克风之间的物理间隔，使立体声音频信号与双耳音频信号进行区分。此外，这种区别可以反映在针对各自音频信号的相对音频能量信号水平(ILD)的值的熵中。

在一些实施例中，针对左和右通道音频信号的相对音频能量信号水平(ILD)的熵可以被一般地给出为：

H (X_{I L D}) = - Σ_{i = 1}^{n} P (x_{{ILD}_{i}}) \log P (x_{{ILD}_{i}})

其中X表示可能的ILD值的字母，H(X_ILD)表示ILD值的熵，是特定的ILD值的概率，以及n是针对ILD值的集合的可能输出的数量。

可以针对ILD值的范围的有限数量的可能值n，来确定熵H(X_ILD)。在一些实施例中，这可以通过在确定熵值H(X_ILD)之前将ILD值标量量化到n个可能的量化水平中的一个量化水平，来实现。

在图6中由步骤605示出了对相对音频能量信号水平或耳间声强(能量)差(ILD)进行标量量化的操作。

在一些实施例中，可以使用以下代码，使用基于直方图的方法来确定熵值H(X_ILD)。

其中2＊max_value+1是针对ILD值的可能的量化水平的数量，其可以对应于在以上表达式中的n，以及scales是数组，其包含所量化的ILD值，通过所量化的ILD值，确定熵值H(X_ILD)。在此类实施例中，熵估计器405通过确定在量化的ILD值的数据集中的特定的量化的ILD的出现的频率(通过它来计算熵值)，高效地确定特定的量化的ILD值的概率实际上，熵估计器405通过确定在有限的量化的ILD值的集合上的它的直方图，来确定每个量化的ILD值的概率。熵值H(X_ILD)对应于在以上代码中的参数h0。此外，以上代码返回以比特为单位的熵值。

总之，在实施例中的熵的确定可以包括：通过确定来自多通道音频信号的音频帧的多个相对音频信号水平的直方图，来确定相对音频信号水平的概率。

在其它实施例中，可以通过使用重合检测方法(coincidence detectionapproach)来确定熵值，其中通过检测特定的量化的ILD值的重合来执行熵估计，出于确定熵值的目的，其也可以被称为符号。

在这个方法中，首先确定在量化的ILD值(或符号)的重合之间的量化的ILD值的平均数量。这可以通过观察量化的ILD值的流并且记录在相同的量化的ILD值的特定重合之间的量化的ILD值的数量来执行。

例如，如果符号的流的开始包括值[a g b z d g h b a z a …]。则针对符号g，符号的第一重合出现，以及在重合度D₁之间的符号的数量被给出为6。针对符号a，符号的第二重合出现，在这种情况下，在重合度D₂之间的符号的数量被给出为5。可以针对在比特流中的另外的符号来重复这个操作。

然后，可以如下给出针对符号的重合度的量化的ILD值(或符号)的平均数量的估计：

\hat{D} = \frac{1}{M} Σ_{m = 1}^{M} D_{m}

如果假设K表示无记忆的随机源的等概率符号，则以比特为单元的熵被给出为log₂(K)。

如果让是对等概率符号(或ILD值)的数量的近似，则根据如下关系，可以被表示为的函数：

\hat{K} (\hat{D}) = a {\hat{D}}^{2} + b \hat{D} + c,

其中，a，b和c分别被给出为0.6366，-0.8493和0.1272。

也就是说，可以通过如使用以上示例说明的顺序地观察针对重合的量化的ILD值首先确定然后根据以上表达式来计算来估计相对音频能量信号水平(ILD)的熵。最后，熵可以被估计为

将了解的是，在以上示例中使用的值仅用于说明用于确定数据集的熵的重合法的基本原理，而不是真实的量化的ILD值(在其上，可以用于所述方法)的反映。

总之，其它实施例可以通过顺序地观察来自多通道音频信号的音频帧的一系列的相对音频信号水平值，通过首先估计具有相同值的在相同的相对音频信号水平值中的两个相对音频信号水平值的重合之间的相对音频信号水平值的平均数量，来确定熵。然后，熵可以被给出为在相对音频信号水平值的所估计的平均数量方面上的二次多项式。

可以在参考文献"Simple entropy estimator for small datasets"byJ.Monyalvao,D.G.Solva and R.Attux,Electronics Letters Vol.48No.17中找到用于确定数据集的熵的重合法的进一步细节，通过引用将该参考文献整体地并入本文。

在一些实施例中，可以根据log₂来确定熵H(X_ILD)以便以比特为单位给出熵值。

在图6中由步骤607给出了确定针对量化的相对音频能量信号水平或耳间声强(能量)差(ILD)的熵值的操作。

将了解的是，在实施例中，可以针对对应于输入音频信号的每个帧的量化的ILD值，来确定熵值。

在实施例中，然后可以通过将熵值的值与预定的阈决策阈值进行比较，来确定通道配置值。

特别地，在一些实施例中，当输入音频信号包括至少双通道音频信号时，熵值可以用于在立体声音频信号和双耳音频信号之间进行区分。

在一个特定示例实施例中，2.5比特的预定熵决策阈值被发现产生在双耳音频信号和立体声音频信号之间的足够区分。也就是说，如果针对双通道输入音频信号的熵被确定等于或小于预定熵决策阈值，则输入音频信号可以被分类为双耳音频信号。然而，如果针对双通道输入音频信号的熵被确定大于预定熵决策阈值，则输入音频信号可以被分类为立体声音频信号。

在图6中由步骤609示出了通过将熵值与预定的阈值进行比较来生成多通道输入音频信号分类值的操作。

在图5中由步骤501示出了对输入多通道音频信号进行分类的由编码器104的整体操作。

从熵估计器405的输出可以是音频信号分类值，其指示多通道输入音频信号110的通道配置。特别地，针对一些实施例，当输入音频信号包括：包括至少双通道输入音频信号的音频通道的布置时，输出音频信号分类值可以指示所述双通道输入音频信号是具有双耳类型还是具有立体声类型。

来自熵估计器405的音频信号分类值可以形成来自音频信号分类器301的输出的一个输出。另外，音频信号分类器301也可以输出来自相对音频能量信号水平确定器403的相对音频能量信号水平(或ILD)以及来自帧分割器/变换器401的输入音频信号的频域表示，以便它们可以由随后的音频编码操作使用。

参照图3，来自分类器301的输出可以被布置为被传递给通道分析器/单声道编码器303。

在一些实施例中，编码器104能够包括：通道分析器/单声道编码器303。通道分析器/单声道编码器303可以被配置为接收音频信号分类值连同输入多通道音频信号的频域表示以及对应的相对音频能量信号水平。

将了解的是，针对其它实施例而言，通道分析器/单声道编码器303可以仅接收来自音频信号分类器301的音频信号分类值。这些特定的实施例可以在通道分析器/单声道编码器303内生成输入多通道音频信号的频域表示。

通道分析器/单声道编码器303可以被配置为分析多通道输入音频信号的频域表示，以及确定关于双通道或多通道音频信号差的与每个子带相关联的参数。

在实施例中，频域表示的分析和参数化可以依赖于如由分类器301确定的音频信号分类值。特别地，在一些实施例中，频域表示的分析和参数化的形式可以依赖于音频信号分类值是否指示输入音频信号是双耳信号类型或立体声信号类型两者之一。分析的结果可以是参数，其表示针对输入音频信号的每个子带的双通道(或更一般地，多通道)特点。

通道分析器/单声道编码器303能够使用与每个子带相关联的参数来向下混合多通道音频信号并且生成单声道通道，可以根据任何合适的编码方案来对它进行编码。

在一些实施例中，可以使用任何合适的编码格式，对所生成的单声道通道的音频信号(或减少数量的通道编码信号)进行编码。例如，在一些实施例中，可以使用增强的语音服务(EVS)单声道通道编码形式对单声道通道音频信号进行编码，其可以包含自适应多速率-宽带(AMR-WB)编解码器的比特流互操作版本。

在图5中由步骤503示出了生成和编码单声道通道(或降低数量的通道)的操作。

所编码的单声道通道信号然后可以被输出。在一些实施例中，所编码的单声道通道信号被输出给复用器以与多通道参数编码器305的输出组合以形成单个流或输出。在一些实施例中，所编码的单声道通道信号与多通道参数编码器305分开被输出。

在一些实施例中，编码器104包括多通道参数编码器。在一些实施例中，多通道参数编码器是双通道参数编码器305或包括用于对多通道参数进行编码的合适的构件。多通道参数编码器305可以被配置为接收多通道参数，诸如由通道分析器/单声道编码器305确定的立体声或双耳(差)参数。在一些实施例中，然后，多通道参数编码器305可以被配置为在该参数上执行量化，而且对该参数进行编码，以便它们能够被输出(被存储在装置上或被传递给另外的装置)。

在一些实施例中，多通道参数编码器305也可以接收音频信号分类值作为另一个输入，从而使得多通道参数的量化和编码能够依赖于所述音频信号分类值的值。

在图5中由步骤505示出了量化和编码所量化的多通道参数的操作。

在编码器104的其它实施例中，可以在形成单声道通道信号之前，在一个编码实体中执行通道分析器和多通道参数编码阶段。

在此类实施例中，编码器104可以首先分析多通道输入音频信号的频域表示，并且确定关于双通道或多通道音频信号差的与每个子带相关联的参数，然后在多通道参数上执行量化和编码。在这些实施例中，然后可以通过使用与每个子带相关联的参数以向下混合多通道音频信号，来形成单声道音频信号。然后可以根据如上所述的任何合适的编码方案，对所产生的单声道通道进行编码。

因此，在实施例中的至少一个实施例中，存在一种装置，其包括用于估计针对多通道音频信号的熵值的构件；用于从熵值来确定多通道音频信号的通道配置的构件；以及用于对多通道音频信号进行编码的构件，其中编码模式依赖于通道配置。

尽管以上示例描述了在装置10的编解码器内操作的本申请的实施例，但是将了解的是，如以下描述的本发明可以被实现为任何音频(或语音)编解码器的一部分，其包括任何可变速率/自适应速率音频(或语音)编解码器。因此，例如，本申请的实施例可以被实现在音频编解码器中，其可以实现在固定或有线通信路径上的音频编码。

因此，用户设备可以包括音频编解码器，诸如以上本申请的实施例中所描述的那些音频编解码器。

将理解的是，词语用户设备旨在覆盖任何合适类型的无线用户设备，诸如移动电话、便携式数字处理设备或便携式网络浏览器。

此外，公共陆地移动网络(PLMN)的元件也可以包括如上所述的音频编解码器。

一般地，可以将本发明的各种实施例实现成硬件或专用电路、软件、逻辑和它们的任何组合。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在固件或软件中，该固件或软件可以由控制器、微处理器或其它计算设备来运行，尽管本发明不限制于此。虽然本发明的各种方面被说明和描述成框图、流程图或使用一些其它图形表示，但是很好理解的是，本文中所述的这些框、装置、系统、技术或方法可以被实现在，作为非限制性示例，硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或它们的一些组合中。

可以由移动设备的数据处理器(诸如在处理器实体中)可执行的计算机软件，或由硬件，或由软件和硬件的组合来实现本申请的实施例。此外，就这点而言，应当注意的是，如在附图中的逻辑流的任何框可以表示程序步骤，或互连的逻辑电路，块和功能，或程序步骤和逻辑电路、块和功能的组合。

存储器可以具有适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储设备，磁存储设备和系统，光存储设备和系统，固定存储器和可移动存储器。数据处理器可以具有适合于本地技术环境的任何类型，并且可以包含作为非限制性示例的下列中的一个或多个：通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器。

可以在各种组件中，诸如在集成电路模块中，实践本发明的实施例。一般而言，集成电路的设计基本上是高度自动化的过程。复杂和功能强大的软件工具可用于将逻辑级的设计转换成准备将要被蚀刻和形成在半导体衬底上的半导体电路设计。

程序，诸如由加利福尼亚的山景城的新思科技(Synopsys,Inc.of MountainView,California)和加利福尼亚的圣何塞的凯登斯设计(Cadence Design,of San Jose,California)所提供的那些程序，使用良好建立的设计规则以及预存储的设计模块的库在半导体芯片上自动化路由导体和定位组件。一旦已经完成了针对半导体电路的设计，则所生成的设计可以以标准化电子形式(例如，Opus，GDSII等)传送给半导体制造厂或用于制造的简写的“fab”。

如在本申请中使用的，词语‘电路’指以下中的全部：

(a)仅硬件电路的实现方式(诸如，仅模拟电路和/或数字电路中的实现方式)以及

(b)电路和软件(和/或固件)的组合，诸如(如果适用的话)：(i)处理器(多个)的组合或(ii)处理器(多个)/软件的部分(包含数字处理器(多个))，软件和存储器(多个)，它们一起工作以使得装置(诸如移动电话或服务器)执行各种功能)以及

(c)电路，诸如微处理器(多个)或微处理器(多个)的一部分，微处理器要求用于操作的软件或固件，即使软件或固件不是物理呈现的。

‘电路’的这种定义应用于本申请中(包含在任何权利要求中)的这个词语的所有使用。作为又一个示例，如本申请中使用的，词语“电路”还将覆盖：仅处理器(或多个处理器)或处理器的一部分以及它(它们)伴随的软件和/或固件的实现方式。词语“电路”还将覆盖：例如以及如果可适用于特定的要求保护的元素，用于移动电话的基带集成电路或应用处理器集成电路，或在服务器、蜂窝网络设备或其它网络设备中的类似的集成电路。

上述描述已经通过示例性和非限制性的示例提供了本发明示例性实施例的全面和教示性的描述。然而，当结合附图和所附权利要求书阅读时，鉴于上述描述，对于相关领域的技术人员来说，各种修改和适应可以是明显的。然而，本发明的教示中的所有此类或类似的修改仍然将落入如在所附权利要求书所限定的本发明的范围内。

Claims

1.一种方法，包括：

估计针对多通道音频信号的熵值；

从所述熵值，确定所述多通道音频信号的通道配置；以及

对所述多通道音频信号进行编码，其中编码模式依赖于所述通道配置。

2.根据权利要求1所述的方法，其中所述多通道音频信号包括至少第一音频通道信号和第二音频通道信号，以及其中估计针对所述多通道音频信号的熵值包括：

将所述第一音频通道信号和所述第二音频通道信号每个变换成包括多个频带的频域音频信号；

通过确定相对于在所述第二音频通道信号的频带中的音频信号水平的在所述第一音频通道信号的频带中的音频信号水平，来确定相对音频信号水平；以及

从所述相对音频信号水平来确定所述熵值。

3.根据权利要求1和2所述的方法，其中确定所述多通道音频信号的通道配置包括：

将所述熵值与阈值进行比较；

当所述熵值小于或等于所述阈值时，将所述通道配置分类为第一类型的通道配置；以及

当所述熵值大于所述阈值时，将所述通道配置分类为第二类型的通道配置。

4.根据权利要求2和3所述的方法，其中从所述相对音频信号水平来确定所述熵值包括：

通过确定来自所述多通道音频信号的音频帧的多个相对音频信号水平的直方图，来确定所述相对音频信号水平的概率。

5.根据权利要求2和3所述的方法，其中从所述相对音频信号水平来确定所述熵值包括：

通过顺序地观察来自所述多通道音频信号的音频帧的一系列的相对音频信号水平值，来估计在具有相同值的两个相对音频信号水平值的重合之间的相对音频信号水平值的平均数量。

6.根据权利要求1至5所述的方法，其中所述多通道音频信号包括双通道音频信号，以及其中所述第一类型的通道配置是双耳音频通道，以及所述第二类型的通道配置是立体声音频通道。

7.根据权利要求2至6所述的方法，其中所述音频信号水平包括在频带中的音频信号的量级。

8.根据权利要求2至7所述的方法，其中所述相对音频信号水平是耳间声强差。

9.一种装置，被配置为：

估计针对多通道音频信号的熵值；

从所述熵值，确定所述多通道音频信号的通道配置；以及

10.根据权利要求1所述的装置，其中所述多通道音频信号包括至少第一音频通道信号和第二音频通道信号，以及其中被配置为估计针对所述多通道音频信号的熵值的装置还被配置为：

从所述相对音频信号水平来确定所述熵值。

11.根据权利要求9和10所述的装置，其中被配置为确定所述多通道音频信号的通道配置的所述装置还被配置为：

将所述熵值与阈值进行比较；

12.根据权利要求10和11所述的装置，其中被配置为从所述相对音频信号水平来确定所述熵值的所述装置还被配置为：

通过被配置为确定来自所述多通道音频信号的音频帧的多个相对音频信号水平的直方图，来确定所述相对音频信号水平的概率。

13.根据权利要求10和11所述的装置，其中被配置为从所述相对音频信号水平来确定所述熵值的所述装置还被配置为：

14.根据权利要求9至13所述的装置，其中所述多通道音频信号包括双通道音频信号，以及其中所述第一类型的通道配置是双耳音频通道，以及所述第二类型的通道配置是立体声音频通道。

15.根据权利要求10至14所述的装置，其中所述音频信号水平包括在频带中的音频信号的量级。

16.根据权利要求10至15所述的装置，其中所述相对音频信号水平是耳间声强差。

17.一种装置，所述装置包含至少一个处理器和包含计算机代码的至少一个存储器，所述至少一个存储器和所述计算机代码被配置为使用所述至少一个处理器使得所述装置：

估计针对多通道音频信号的熵值；

从所述熵值，确定所述多通道音频信号的通道配置；以及

18.根据权利要求17所述的装置，其中所述多通道音频信号包括至少第一音频通道信号和第二音频通道信号，以及其中还使得估计针对所述多通道音频信号的熵值的所述装置：

通过使得所述装置确定相对于在所述第二音频通道信号的频带中的音频信号水平的在所述第一音频通道信号的频带中的音频信号水平，来确定相对音频信号水平；以及

从所述相对音频信号水平来确定所述熵值。

19.根据权利要求17和18所述的装置，其中还使得确定所述多通道音频信号的通道配置的所述装置：

将所述熵值与阈值进行比较；

20.根据权利要求18和19所述的装置，其中还使得从所述相对音频信号水平来确定所述熵值的所述装置：

通过使得确定来自所述多通道音频信号的音频帧的多个相对音频信号水平的直方图，来确定所述相对音频信号水平的概率。

21.根据权利要求18和19所述的装置，其中还使得从所述相对音频信号水平来确定所述熵值的所述装置：

22.根据权利要求17至21所述的装置，其中所述多通道音频信号包括双通道音频信号，以及其中所述第一类型的通道配置是双耳音频通道，以及所述第二类型的通道配置是立体声音频通道。

23.根据权利要求18至22所述的装置，其中所述音频信号水平包括在频带中的音频信号的量级。

24.根据权利要求18至23所述的装置，其中所述相对音频信号水平是耳间声强差。

25.一种计算机代码，当由处理器运行该计算机代码时，它实现：

估计针对多通道音频信号的熵值；

从所述熵值，确定所述多通道音频信号的通道配置；以及

26.一种电子设备包括如权利要求9至16的装置。

27.一种芯片组包括如权利要求9至16的装置。