CN112151043B

CN112151043B - 一种方法、计算机可读介质、编码器和监视设备

Info

Publication number: CN112151043B
Application number: CN202010506983.1A
Authority: CN
Inventors: M·耶拉奇; M·特德沃; M·杰勒德; 范星; 里卡多·王德洛夫
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2019-06-10
Filing date: 2020-06-05
Publication date: 2023-06-16
Anticipated expiration: 2040-06-05
Also published as: KR20200141379A; US20200388290A1; EP3751567A1; JP7125447B2; KR102433582B1; US11545160B2; TW202105363A; JP2021006898A; EP3751567B1; TWI820333B; CN112151043A

Abstract

本发明公开了一种方法、计算机程序、编码器和监视设备，在用于利用可变比特率来编码音频信号的方法中：接收包括多个连续的音频帧的音频信号；并且对于音频信号的每个连续的音频帧：相对于多个频率子带在频域中表示音频帧；使用特定于频率子带的背景模型将每个频率子带的音频帧分类为背景或前景；编码音频信号的每个连续的音频帧，其中为音频帧的每个频率子带分配比特数，其中如果音频帧在频率子带中被分类为前景，则为频率子带分配的比特数高于如果音频帧在频率子带中被分类为背景时为频率子带分配的比特数。

Description

一种方法、计算机可读介质、编码器和监视设备

技术领域

本发明总体上涉及音频信号编码，并且更具体地涉及可变比特率音频信号编码。

背景技术

音频编解码器可以对音频数据进行数字编码，并对得到的比特流进行压缩，使得可以有效地存储或传输音频数据。在存储或传输之后，相同的音频编解码器可以用于进行解码，使得可以重建音频。一些音频编解码器使用恒定比特率(CBR)(例如256Kbps)来压缩音频数据。其他音频编解码器支持使用可变比特率(VBR)来压缩音频数据。使用VBR编码，编码后的音频数据的比特率可以动态地变化。例如，比特率可以根据音频数据包含多少离散频率而变化，其中很少有离散频率比复杂信号需要更少的比特。因此，比特率可能随时间例如在65Kbps和320Kbps之间变化。VBR编码的一个优点是它通常比CBR编码生成更少的数据。因此，可以减少对存储的音频数据的存储空间要求。以类似的方式，可以减少对传输的音频数据的带宽要求。

然而，在音频编码领域还存在改进的空间，以进一步减小输出数据的大小。

发明内容

本发明的目的是提供音频数据的改进的编码。本发明的另一目的是减少对传输的音频数据的带宽要求和/或减少对存储的音频数据的存储空间要求。

本发明的这些和其他目的至少由独立权利要求中限定的本发明实现。优选的实施例在从属权利要求中提出。

根据本发明的第一方面，提供了一种用于利用可变比特率来编码音频信号的方法，该方法包括：

接收待编码的音频信号，该音频信号包括多个连续的音频帧；

对于音频信号的每个连续的音频帧：

表示相对于多个频率子带的在频域中的音频帧；

使用特定于频率子带的背景模型将每个频率子带中的音频帧分类为背景或前景；

编码音频信号的每个连续的音频帧，其中为音频帧的每个频率子带分配比特数，其中如果音频帧在频率子带中被分类为前景，则为频率子带分配的比特数高于如果音频帧在频率子带中被分类为背景时为频率子带分配的比特数。

应当理解，音频信号可以是任何类型的音频信号，例如可以是由诸如监控照相机或麦克风的监视设备记录的音频信号。音频信号的每个连续的音频帧可以具有例如20毫秒、60毫秒或150毫秒的持续时间。音频帧可以是未压缩的或压缩的。

还应当理解，音频帧可以例如通过执行傅立叶变换在频域中表示。例如，这可以使用快速傅立叶变换(FFT)或改进离散余弦变换(MDCT)来完成。在频域中，音频帧的特定频率子带可以例如将在该特定频率子带内的音频帧中出现的声音表示为多个频率分量。频率分量的幅度可以表示音频帧中该频率分量的响度。多个频率子带可以包括例如2个、3个、5个、8个、16个等频率子带。频率子带的边界的间隔可以是或可以不是等距的。频率子带可以是对数间隔的，其中每个子带的宽度是前一个子带的宽度的2倍。在一个示例中，存在对数间隔的8个频率子带，这里具有最低频率范围的频率子带可以覆盖20-40Hz。在另一示例中，最低频率范围从0Hz开始。

还应当理解，背景模型可以配置成根据音频帧的频率子带所包含的声音的重要性来分类音频帧的频率子带。重要的声音在本文可以被分类为前景，而不重要的声音被分类为背景。例如，如果音频帧的频率子带包含重要的声音，则音频帧的频率子带可以被分类为前景。在另一示例，如果音频帧的频率子带主要包含不重要的声音，则该音频帧的频率子带被分类为背景。声音的重要性可以基于该特定声音被包括在在前的音频帧的频率子带中的频率来确定。

还应当理解，背景模型可以配置成根据音频帧的频率子带所包含声音的预期值来分类音频帧的频率子带。不预期的声音在本文可以被分类为前景，而预期的声音被分类为背景。例如，如果音频帧的频率子带包含预期的或常见的声音或完全没有声音，则音频帧的频率子带可以被分类为背景。在另一示例中，如果频率子带的内容不符合背景分类的要求，则音频帧的频率子带被分类为前景。

还应当理解，由于背景模型是特定于频率子带的，因此用于将音频帧的频率子带分类为前景或背景的背景模型条件可以从一个频率子带变化到另一个频率子带。例如，监视设备可以监视第一机器可能正在运行或第一机器和第二机器可能正在运行的车间。在特定频率子带中，处于第一等级的响度可以表示第一机器正在运行，并且处于第二等级的响度可以表示第一机器和第二机器正在运行。因此，如果在该频率子带中的音频帧显示处于低等级、第一等级或第二等级的响度，则音频帧的频率子带可以被分类为背景。这可能构成不重要的或预期的声音。然而，如果该频率子带中的音频帧显示响度在这些等级之间或之上，则该频率子带可以被分类为前景。这可能构成重要的或不预期的声音，例如叠加在第一机器运行的声音上的语音，或者机器在运行时遇到困难，导致音频帧中的一个或多个子带的不同的响度。在不同的频率子带中，可以不同地选择响度等级，以反映在该频率子带中应该构成前景和背景声音的内容。关于响度等级之外的其他特征，背景模型还可以特定于频率子带。例如，如果音频帧的频率子带的频率分量的相对幅度对应于不重要的或预期的声谱，则这可能导致背景分类。在另一示例，在某个频率子带内一个或几个关键频率分量的出现可以触发音频帧中该频率子带的前景分类。例如，警报器经常使用由三个相邻的完整音调组成的三全音。因此，三个对应的频率分量的出现可以被视为频谱指纹，该频谱指纹指示警报器已经关闭并且触发了前景分类。

本发明的实现是通过为音频帧的每个频率子带分配比特数来促进音频信号的有效编码，使得没有发生重要的或不预期的情况的频率子带可以被给予/分配少量的比特，并且从而被压缩到高等级。当可以为不同的频率子带单独设置比特数时，分配至整个音频帧的比特总数可以是小的。相反，如果在不区分不同频率子带的情况下按帧确定总比特数，则可能需要更大的总比特数。

本发明的另一实现是由于可以针对每个频率子带定制比特分配条件，因此使用针对各自的频率子带中的每一个的特定背景模型来确定它们各自的分类进一步促进了音频信号的有效编码。

因此，该方法的优点是它促进了减少对传输的音频数据的带宽要求和/或促进了减少对存储的音频数据的存储空间要求。

另一优点是解码的音频信号的感知质量高。该方法可以提供基于内容的压缩，其中可能具有不重要或预期的特性的背景声音比可能具有重要的或不预期的特性的前景声音被压缩得更严重。因此，该方法可以将给定的带宽或存储空间资源集中在高质量最重要的音频信号部分上，从而一旦对音频信号进行解码就提供音频信号的高的感知质量。

应当理解，编码步骤可以将比特分配至音频信号的频率跨度，其中该频率跨度与分类步骤的频率子带相同或不同。在第一示例中，编码步骤中两个相邻的频率跨度对应于分类步骤中的一个单个频率子带。在这种情况下，如果单个频率子带被分类为前景，则相邻的两个频率跨度可以被给予相同的比特数，其中比特数对应于由单个频率子带的前景分类所确定的比特数。在第二示例，编码步骤中的一个单个频率跨度对应于分类步骤中的两个不同的频率子带。在这种情况下，频率子带中任何一个的前景分类或两个频率子带的前景分类可以导致编码步骤的频率跨度被给予与前景分类所确定的比特数对应的比特数。

还应当理解，如果分类步骤的频率子带和编码步骤的频率跨度不同，则可以分解分类步骤的频率子带或编码步骤的频率跨度。在第一示例中，当频率子带被分类为前景时，可以使用与编码步骤的频率跨度匹配的分解的频率子带来对该频率子带进行分解和重新分析。可以这样做以确定应该为哪个编码器频率跨度分配对应于前景分类的比特数。在分类步骤中不使用与在编码器中相同的频率子带的原因可能是不同的频率子带分配给出了更好的分类结果。在第二示例中，如果编码器给出分解编码器步骤的频率跨度的可能性，则可能仅将比特分配至与分类步骤的前景子带相匹配的分解的频率跨度。

还应当理解，编码步骤可以将比特分配至音频帧，其中编码步骤的音频帧持续时间与分类步骤的音频帧持续时间相同或不同。例如，分类步骤可以具有60毫秒的音频帧持续时间，而编码步骤具有20毫秒的音频帧持续时间。

分配用于对音频帧的背景分类频率子带进行编码的比特数可以取决于音频帧的背景分类频率子带的频率范围。替代地或附加地，分配用于对音频帧的前景分类频率子带进行编码的比特数可以取决于音频帧的前景分类频率子带的频率范围。

例如，覆盖20-40Hz频率范围的频率子带如果被分类为前景，则可以被分配5比特/样本，如果被分类为背景，则可以被分配1比特/样本，而80-160Hz的频率范围如果被分类为前景，则可以被分配7比特/样本，如果被分类为背景，则可以被分配2比特/样本。

对分配的比特数使用频率依赖性的优点是，它促进音频信号的有效编码。例如，可以将更多的比特分配至比其他频率子带更重要的频率子带。例如，当频率子带被分类为前景时，在表示该频率子带或表示该频率子带的一部分的频率范围内预期出现重要的声音的频率子带可以被分配大的比特数。分配的比特数还可以取决于表示频率子带的频率范围的大小。例如，与频率范围小的情况相比，如果频率范围大，则对应于前景和背景分类的比特数都可能更高。

固定的总比特数可以用于分配至音频帧的不同频率子带。固定的总比特数从一帧到连续帧可以是恒定的。在一个示例中，最小的比特数或零比特可以被分配至具有背景分类的频率子带。固定的总比特数的剩余部分可以分布在其余的前景分类频率子带中。

可以对音频信号进行编码，使得与如果在第一音频帧之前的音频帧中的相同的第一频率子带被分类为背景相比，如果在第一音频帧之前的音频帧中的相同的第一频率子带被分类为前景，则分配至第一音频帧的背景分类第一频率子带的比特数更高。

作为示例，第零音频帧中的频率子带如果被分类为前景，则可以被分配400比特，如果被分类为背景，则可以被分配50比特。如果第零音频帧中的频率子带被分类为背景，并且随后的第一音频帧中的相同的频率子带也被分类为背景，则第一音频帧中的相同的频率子带也可以被分配50比特。相反，如果第零音频帧中的频率子带被分类为前景，但随后的第一音频帧中的相同的频率子带被分类为背景，则第一音频帧中的相同的频率子带可以被分配例如350比特。

分配的比特数不仅取决于当前音频帧的频率子带的分类，而且还取决于在前的音频帧的频率子带的分类，具有这种分配的比特数的优点可以是它促进了鲁棒的编码。如果考虑在前的音频帧的频率子带的分类，则错误的背景分类的后果可能不太严重。与当在前的分类是背景时相比，当在前的分类是前景时，背景分类是错误的可能性更大。因此，当发生从前景分类到背景分类的切换时，分配的比特数可以逐渐地而不是瞬时地减少。这可以减少由于基于错误分类的高等级的压缩而导致的重要的音频分量的损失。

另一个优点可以是编码的音频信号变得听起来令人愉快。压缩等级的快速变化可能在解码后对重建的信号的感知误差方面生成信号伪影。

应当理解，分配的比特数不仅取决于紧接在前的音频帧的分类。它还可以取决于其他在前的音频帧的分类。例如，背景到前景的转变可以触发分配的比特数从低值到高值的立即变化，而前景到背景的转变可以触发分配的比特数的逐渐减少。在最后的前景分类之后，例如，对于每个新的背景分类，分配的比特的减少可以是相同的，直到达到低值为止。

分配用于对音频帧的频率子带进行编码的比特数可以进一步取决于心理声学模型。

应当理解，心理声学模型可以是人类对声音感知的模型。

心理声学模型可以例如根据响度标度反映感知的极限。心理声学模型在本文例如可以是等响度轮廓，其表示例如声压作为频率的函数，其中即使人耳的声压不同，等响度轮廓上的不同音调也会被人耳感知为具有相同的响度。在本文中，如果频率子带接近人耳最敏感的频率，则与如果远离该频率相比，分配用于对音频帧的频率子带进行编码的比特数可能更高。在该实施例中，如果频率子带接近等响度轮廓的最小值，则与远离该最小值相比，分配用于对音频帧的频率子带进行编码的比特数可能更高。应当理解，也可以使用反映人耳在声音响度标度方面的感知极限的其他标度。

心理声学模型可以例如反映掩蔽效应，其中人耳是否能检测到一定幅度的第一频率分量取决于是否存在不同的第二频率分量。当存在第二频率分量时，第一频率分量可能被掩蔽，并且不能被人耳检测到。根据该实施例，与如果频率子带的内容没有被掩蔽相比，如果该频率子带的内容被掩蔽了，则分配用于对音频帧的频率子带进行编码的比特数可能更低。

根据心理声学模型来分配比特数的优点是可以提供高质量的压缩。人耳难以感知的音频信号部分可能会被压缩到比人耳敏感的部分更高的等级。

根据心理声学模型，分配用于对该音频帧的频率子带进行编码的比特数可以取决于音频帧的频率子带的频率范围。

心理声学模型可以例如反映人耳的在频率标度方面的感知限制。心理声学模型可以是例如巴克标度，该巴克标度可以是对人类听觉系统的分辨率进行建模的非线性频率标度。在本文，巴克标度上的一个巴克距离可以等于所谓的临界带宽，该临界带宽对于某些频率与该频率成对数比例。在本文，分配用于对音频帧的频率子带进行编码的比特数可以与以巴克距离测量的频率范围成比例。应当理解，反映人耳在频率标度方面的感知限制的其他标度也可以被使用。

根据心理声学模型，基于音频帧的频率子带的频率范围来分配比特数的优点是可以提供高质量的压缩。与人耳具有低频分辨率的频率子带相比，更多的比特可以被分配至人耳具有高频分辨率的频率子带。

分配用于对音频帧的背景分类频率子带进行编码的比特数可以独立于音频帧的背景分类频率子带表示的频率范围，并且分配用于对音频帧的前景分类频率子带进行编码的比特数可以独立于音频帧的前景分类频率子带所属的频率范围。

该实施例的优点是可以促进快速编码。例如，将相同的低比特数分配至音频帧的所有背景分类频率子带可能比确定应该为每个背景分类频率子带分别分配多少比特更快。此外，例如，将相同的高比特数分配至音频帧的所有前景分类频率子带可能比确定应该为每个前景分类频率子带分别分配多少比特更快。

方法还可以包括：

对于音频信号的音频帧：

对于音频帧的频率子带；

基于音频帧的频率子带的频率内容，更新特定于与音频帧的频率子带对应的频率子带的背景模型。

在本文中，频率内容可以是频率子带中表示的声音的特性。频率内容可以是例如整个频率子带的功率谱密度(PSD)、频率子带中的功率谱密度测量、频率子带中的频率分量的幅度、频率子带中的多个频率分量的幅度、频率子带中的频率分量的分布，或频率子带的能量等级(帧x的带b的子带能量)。

更新背景模型的优点是可以促进进一步减少用于传输编码的音频信号的带宽要求和/或减少用于存储编码的音频信号的存储空间要求，并且/或者改进音频信号在解码后的感知质量。

更新背景模型可能会导致自适应背景模型随时间变化。因此，背景模型可以在音频信号的记录期间适应环境的变化。例如，当引入新的声音时，该声音可以被分类为前景，使得许多比特被分配用于新声音的编码。然而，如果声音继续出现在后续的音频帧中，则声音可能会变得无趣。然后可以更新模型，使得在以后的音频帧中将声音识别为背景。由于声音可能被压缩到更高等级，因此可以节省资源。

更新背景模型还可以在背景模型的部署期间节省资源。如果使用静态模型，则可能需要先对其进行训练，然后才能准确地分类不同的声音。就时间或金钱而言，收集和选择训练数据可能是昂贵的。基于背景模型分类的频率子带的内容而进行更新的背景模型可以进行自我训练。例如，可以将其部署为通用模型，然后适应其所处的环境，从而节省时间和金钱。

特定于频率子带的背景模型可以包括高斯混合模型GMM，该GMM包括多个高斯分布，高斯分布中的每一个表示频率子带中的能量等级的概率分布。

在本文中，能量等级或子带能量可以该频率子带中表示的声音响度的特性。能量等级可以是例如整个频率子带的PSD、频率子带中的PSD测量值、频率子带中的声音的小波能量、频率子带中的频率分量的幅度、频率子带中的多个频率分量的幅度总和，或频率子带中的全部频率分量的幅度总和。高斯分布在本文中可以例如由均值和标准偏差或均值和方差表示。高斯分布可以是或可以不是标准化的，其中标准化的高斯分布具有等于1的积分。在本文中，由高斯分布表示的概率分布可以提供频率子带中的能量等级测量值的不同的可能结果的概率。多个高斯分布可以例如由3至6个高斯分布或2至10个高斯分布组成。

在说明性的示例中，每个高斯分布是特定声音的整个频率子带的PSD的概率分布。第一高斯分布可以例如表示第一背景声音(例如第一机器运行的声音)。如果音频帧的整个频率子带的PSD具有与第一高斯分布的均值相同的值，则这可以被认为是指示音频帧的频率子带的内容是第一机器的声音的高概率。如果音频帧的整个频率子带的PSD具有略高于或略低于第一高斯分布均值的值，则这可以指示频率子带的内容是第一声音的概率略低。因此，概率分布可以是将频率子带的测量的能量等级转换为频率子带具有特定内容(例如包含第一机器的声音)的概率的函数。内容是背景声音的高概率反过来可以指示可以保证频率子带的背景分类。然而，应当理解，也可能存在确定分类的其他指示。

使用这样的背景模型可以是识别频率子带的内容的有效方式。分类所需要的处理能力因此可能是低的。

这样的背景模型也是识别频率子带内容的准确的方式。概率分布可以是例如连续函数，与例如仅将测量的能量等级和阈值比较相比，该连续函数可能是确定内容的更准确的方式。通过使用多个高斯分布，可以包括表示频率子带的不同内容的多个背景模型。因此，高斯分布的混合可以表示复杂的概率分布，其可以描述例如频率子带的内容是几种不同声音中的一个的概率。

这样的背景模型也可能是实现自适应模型的有效方式。音频帧的频率子带可以被看作是建立了该频率子带中不同的声音有多常见的统计的样本。例如，如果测量的PSD值略低于特定于频率子带的高斯分布的均值，则对于随后的音频帧，可以稍微减小该高斯分布的均值。

如果音频帧的频率子带的能量等级在特定于该频率子带的背景模型的GMM的高斯分布中的一个的均值附近的预定数量的标准偏差之内，并且如果所述高斯分布的权重高于阈值，则音频帧的频率子带可以被分类为背景，其中权重表示音频帧的频率子带的能量等级将在所述高斯分布的均值附近的预定数量的标准偏差之内的概率。

预定数量的标准偏差可以是任何合适的数量，例如2、2.5或3个标准偏差。

该实施例的优点是可以促进频率子带的分类中的高准确度。尽管声音例如随着时间变化，但在本文中各种声音可以被准确地分类。例如，某些背景声音的响度可能会变化。背景声音例如可以是在房间背景中工作的人的杂音。然后，背景声音的响度可能会根据人数而变化。当响度在一定范围内时，在本文中可能希望将杂音分类为背景。响度等级的预期范围然后可以由高斯分布在均值和标准偏差方面来定义。如果音频帧的频率子带的能量等级在均值附近的预定数量的标准偏差之内，则这可能表示该频率子带的内容可能是背景声音。然而，这可能不足以触发背景分类。由高斯分布表示的背景模型例如可以是不确定的。因此，高斯分布的权重可以解释不确定性。然后，可以通过预定数量的标准偏差来调整背景模型在指示频率子带的内容可能是某个背景声音方面的限制程度。然后，可以由权重来调整频率子带的内容可能是某个背景声音的指示是否应该导致背景分类。当更新背景模型时，测量的PSD值在第一高斯分布的均值附近的预定数量的标准偏差内可以使第一高斯分布的权重例如增加预定值。替代地或附加地，GMM的剩余高斯分布的权重可以减小预定值。

能量等级可以是功率谱密度(PSD)测量。

PSD在本文中可以表示功率如何在音频信号的频率分量之间分布功率。可以使用例如尤尔沃克(Yule-Walker)自回归方法或巴特利特(Bartlett)方法来测量PSD。例如对于频率子带内的一个频率分量或多个频率分量，PSD可以例如是整个频率子带的PSD测量，或频率子带内的PSD测量。

使用这种能量等级的定义的优点是促进频率子带的分类中的高准确度。PSD值可以是响度的准确的表示。此外，从傅里叶变换计算PSD值是易于计算的。分类所需的计算能力因此可以是低的。

方法可以进一步包括：

与元数据一起传输音频信号的编码的音频帧，其中该元数据表示音频帧的频率子带的分类。

与编码的音频帧一起传输元数据的优点是可以促进有效解码。例如，可以使用不同的方法来解码前景频率子带和背景频率子带。如果使用元数据标记了频率子带的分类，则可以容易地确定应该将哪种方法应用于哪个频率子带。这可以节省处理资源。

音频信号的编码可以由Opus音频编解码器执行。

Opus音频编解码器可以在内部确定对由编码器编码的不同频率子带的比特的分配。例如，在Opus中，可以为此目的使用名为最大分配向量的机制。然后，本发明可以修改比特的分配，以减少被视为背景的频带的比特数，而牺牲被视为前景的频带中的比特数。应当理解，也可以使用除Opus之外的其他编解码器。

根据本发明概念的第二方面，提供了一种计算机程序产品，其包括存储计算机可读指令的计算机可读介质，当由处理单元执行时，该计算机可读指令将使处理单元执行根据前述权利要求中任一项所述的方法。

该第二方面的效果和特征总体上类似于以上结合第一方面描述的效果和特征。关于第一方面提到的实施例总体上与第二方面兼容。

这样的计算机程序产品因此可以提供安装和执行程序的可能性，以便获得上述方法的优点。

根据本发明概念的第三方面，提供了一种用于利用可变比特率来编码音频信号的编码器，该编码器包括接收器和一个或多个处理器，

其中接收器被配置成接收待编码的音频信号，该音频信号包括多个连续的音频帧，和：

其中一个或多个处理器被配置成：

对于音频信号的每个连续的音频帧：

相对于多个频率子带在频域中表示音频帧；

该第三方面的效果和特征总体上类似于以上结合第一方面描述的效果和特征。关于第一方面提到的实施例总体上与第三方面兼容。

应当理解，编码器可以物理地连接至记录音频信号的设备。然而，还应当理解，编码器可以无线地连接至记录音频信号的设备，编码器可以例如位于服务器中，其中服务器与记录音频信号的设备通信。

根据本发明概念的第四方面，提供了一种监视设备，包括：

麦克风，被配置成记录音频信号；

根据第三方面的编码器，被配置成从麦克风接收音频信号，并利用可变比特率来编码音频信号。

该第四方面的效果和特征总体上类似于其以上结合第一方面描述的效果和特征。关于第一方面提到的实施例总体上与第四方面兼容。

组合麦克风和编码器的优点是监视设备可以在很大程度上自主操作。例如，监视设备可以在没有其他设备或服务器支持的情况下将编码的音频信号传输到网络上。

附图说明

通过以下参考附图的说明性和非限制性的详细描述，将更好地理解本发明构思的以上以及其他目的、特征和优点。在附图中，除非另有说明，否则相同的附图标记表示相同的元件。

图1是监视设备中的编码器的图示。

图2是无线连接至麦克风的编码器的图示。

图3是用于利用可变比特率来编码音频信号的方法的流程图。

图4是在频域中表示并分类的音频信号。

图5是高斯混合模型。

图6是逐渐的比特率下降压缩的示意性图示。

具体实施方式

结合附图，下文根据优选的实施例来描述本发明的技术内容和详细描述，而非用于限制所要求保护的范围。本发明可以以多种不同的形式来实施，并且不应被解释为仅限于本文所阐述的实施例；相反，提供这些实施例是为了透彻和完整，并将本发明的范围完全传达给本领域技术人员。

图1和图2是包括接收器12和处理器14的编码器10的示意性图示。在图1中，编码器10位于监视设备1中，该监视设备1进一步包括麦克风2，该麦克风2被配置成记录被传递至接收器12的音频信号30。监视设备1可以能够或者可能无法附加地记录视频信号。在图2中，编码器10支持多个麦克风2。因此，编码器10可以是独立监视设备的一部分或中央支持单元(例如网络视频记录器或网络音频记录器)的一部分。

编码器10例如从麦克风2接收音频信号30，并且通过使用处理器14处理信号来编码音频信号30。然后，编码的音频信号例如可以通过例如局域网来传输。编码的音频信号也可以本地地存储在监视设备1或远程存储介质上。

从麦克风2传递至编码器10的音频信号30可以是撞击到麦克风2的声波的模拟或数字表示。接收的音频信号30包括多个连续的音频帧32。音频信号30的每个连续的音频帧32可以表示一定持续时间(例如60毫秒)的音频信号的时间段。音频帧32可以例如通过由比特串表示的每个时间段来明确限定。音频帧32还可以例如由限定每个音频帧32的开始的帧时钟来隐式限定。音频帧32可以是未压缩的。然而，音频帧32也可以是压缩的。音频信号30可以例如被预压缩，并且编码器10然后可以添加进一步的压缩。

图1图示出麦克风2和编码器10之间的有线连接，音频信号30通过该有线连接被传递至编码器10。图2图示了编码器10和麦克风2之间的无线连接。

图3示出了说明用于利用可变比特率来编码音频信号30的方法100的流程图。方法100例如可以由编码器10使用，以利用可变比特率来编码音频信号30。应当理解，图3并未限定方法100的步骤的特定顺序。

根据方法100，音频信号30被接收S102，该音频信号30包括多个连续的音频帧32。

然后，相对于多个频率子带34在频域中表示S104每个连续的音频帧32(在下文结合图4进一步参见)。例如，这可以使用快速傅立叶变换(FFT)或改进离散余弦变换(MDCT)来完成。一旦在频域中表示音频帧32，则每个频率子带34可以包含一个或多个频率分量。在本文中，每个频率分量可以是例如由频率分量表示的频率跨度的能量等级。因此，在频域中，音频帧32可以是频谱，其中能量等级描述了音频信号的功率如何分布在不同频率子带34的频率分量上。能量等级值在本文中可以相对于频率分量的频率跨度进行标准化，使得该能量等级值变得独立于频谱分辨率。

此外，如下所描述，使用特定于频率子带34的背景模型，在每个频率子带34中将每个连续的音频帧32分类S106为背景或前景。

此外，音频信号的每个连续的音频帧32被编码S108，其中为音频帧32的每个频率子带34分配比特数，其中如果音频帧32在频率子带34中被分类为前景，则分配至频率子带34的比特数高于如果音频帧32在频率子带34中被分类为背景的比特数。将在下文进一步描述编码S108。

可以针对每个音频帧32依次执行表示S104、分类S106和编码S108的步骤。然而，在继续前进到下一音频帧32之前，不一定必须针对一个音频帧32完成所有的步骤。例如，可以针对每个音频帧32顺序地执行表示S104和分类S106，并且一旦已经对多个帧进行分类和缓冲，就可以对所缓冲的音频帧32进行编码(S108)。

此外，方法100包括更新S110背景模型的可选的步骤，其中基于音频帧32的频率子带34的频率内容，为音频帧32的频率子带34更新背景模型。

此外，方法100包括将音频信号30的编码的音频帧32与元数据一起传输S112的可选的步骤，其中元数据表示音频帧32的频率子带34的分类36。

图4示意性地图示了在频域中表示S104并分类S106音频信号30的示例。音频信号30在这里可以被视为在时域中被划分为多个音频帧32，并且在频域中被划分为多个频率子带34。每个音频帧32的每个频率子带34具有分类36，该分类36用于确定在编码S108步骤中要为频率子带34分配的比特数。在该附图和以下附图中，前景分类被标记为FG，背景分类被标记为BG。

在下文中，下面将详细描述对音频帧32的子频带34进行分类S106的步骤。图5示出在一些实施例中用作特定于频率子带34的背景模型的GMM 50。在描述了一种用于使用背景建模技术进行音频的前景/背景分离的方法的“On-line Audio BackgroundDetermination for Complex Audio Environments”(复杂音频环境的在线音频背景确定)[ACM Transactions on Multimedia Computing Communications and Applications(ACM关于多媒体计算通信和应用程序的交易)2007年五月](Moncrieff等人)中进一步描述了使用GMMs确定音频帧的背景模型的概念。

所描述的GMM 50包括三个高斯分布52，每个高斯分布52表示频率子带中能量等级的概率分布。这里，每个频率子带34可以具有它自己的高斯分布52，该高斯分布52对频率子带34内的声音应当如何分类进行建模。附图中的每个高斯分布52具有均值和标准偏差。这里，均值附近的预定义数量的标准偏差54限定了每个高斯分布52的能量等级的范围。在一些实施例，每个高斯分布52还与权重相关联，该权重表示音频帧32的频率子带34的能量等级在所述高斯分布52的均值附近的预定数量的标准偏差54之内的概率。高斯分布的权重可以是标准化的，也可以不是标准化的。

在一些实施例，如果两个条件均满足，音频帧32的频率子带34被分类为背景。第一条件是频率子带34的测量的能量等级56落入由高斯分布52中的一个的由预定义数量的标准偏差54限定的能量等级的范围内。在图4中，频率子带34的测量的能量等级56落入中间高斯分布52的均值附近的预定义数量的标准偏差54之内。第二条件是所述高斯分布52具有高于阈值的权重。在一些实施例，频率子带34的测量的能量等级56可能落入由一个以上的高斯分布54的由预定义数量的标准偏差54限定的能量等级的范围内。在这些情况下，频率子带34可以接收与具有最高权重的高斯分布52对应的分类。如果最高权重高于阈值权重，则频率子带34将被分类为背景。

在一些实施例，背景模型基于音频帧32的频率子带34的频率内容来更新。例如，在一些实施例，可以在已经将图5的GMM 50用于音频帧32的频率子带34上之后对图5的GMM 50进行更新。因此，更新的高斯分布53可以基于高斯分布52和测量的能量等级56来形成。图5图示出了将用于后续的音频帧而不是中间的高斯分布52的更新的高斯分布53。

在下文中，将描述更新示例的非穷举列表。如果测量的能量等级56匹配高斯分布52，即落入高斯分布52的均值附近的预定义数量的标准偏差54之内，则可以更新匹配的高斯分布52。例如，可以调节匹配的高斯分布52的均值和/或标准偏差，例如，如果测量的能量等级56低于匹配的高斯分布52的均值，则可以减小该均值。也可以调节匹配的高斯分布52的权重。匹配的高斯分布52的权重可以增加。与测量的能量等级56不匹配的高斯分布52的权重可以减小。如果测量的能量等级56不匹配任何高斯分布52，则可以用具有等于测量的能量等级56、预定义标准偏差和预定义(低)权重的新的高斯分布52来替换具有最低权重的高斯分布52。应当理解，当进行更新时，也可以考虑匹配的高斯分布52的权重。还应当理解，多个高斯分布52可以匹配一个测量的能量等级56。还可以在背景模型的一次更新中调节多个高斯分布52。

在下文中，将进一步详细描述对音频帧32进行编码的步骤S108。可以使用音频编解码器执行音频帧32的编码S108，该音频编解码器支持为不同的频率子带34分配不同的比特数。这样的音频编解码器是例如Opus音频编解码器。可以采用其他编解码器，例如MP3编解码器、MPEG编解码器或支持VBR的其他编解码器。当音频帧32被编码S108时，如果音频帧32在频率子带34中被分类为前景，则分配至音频帧32的频率子带34的比特数高于如果音频帧32在频率子带34中被分类为背景时分配至音频帧32的频率子带34的比特数。

例如在逐渐的比特率下降压缩58中，分配的比特数可以取决于当前的音频帧32的分类和在前的音频帧32的分类。图6示意性地图示了频率子带34的逐渐的比特率下降压缩58。附图图示了当分配的比特数取决于在前的音频帧32的分类36时分配的比特数随着时间的变化而变化。在所图示的情形中，从前景分类切换至背景分类导致分配的比特数逐渐减少而非立即减少。在从前景分类切换至背景分类之后，对于频率子带34中的音频帧32的每个后续的背景分类，分配的比特数被减少，直到达到预设的低值。相反，从背景分类切换至前景分类可以导致分配的比特数立即增加到高值。

分配的比特数还可以独立于在前的音频帧32的分类。例如，对于被分类为前景的音频帧32的每个频率子带34，可以将分配的比特数设置为高值。例如，对于被分类为背景的音频帧32的每个频率子带34，可以将分配的比特数设置为低值。

在一些实施例，构成低值和高值的在所有的频率子带中是相同的。在一些实施例，构成低值和高值的从一个频率子带到另一频率子带是不同的。分配用于对音频帧32的背景分类频率子带34进行编码的比特数可以例如取决于音频帧32的背景分类频率子带34的频率范围。分配用于对音频帧32的前景分类频率子带34进行编码的比特数可以例如取决于音频帧32的前景分类频率子带34的频率范围。分配用于对前景或背景分类频率子带34进行编码的比特数也可以取决于心理声学模型。

一旦音频帧32已经被编码，它们就可以被传输，例如由编码器10传输。音频帧32可以例如通过有线连接或无线地在网络中传输。这里，音频帧32的频率子带34的分类可以作为元数据与编码的音频帧一起被传输。

在上文中，主要参考了有限数量的示例来描述本发明的概念。然而，如本领域技术人员容易理解的，在由所附权利要求限定的本发明构思的范围内，除了上面公开的示例以外的其他示例同样是可能的。

Claims

1.一种用于利用可变比特率来编码音频信号(30)的方法(100)，所述方法(100)包括：

接收(S102)待编码的音频信号(30)，所述音频信号(30)包括多个连续的音频帧(32)；

对于所述音频信号(30)的每个连续的音频帧(32)：

相对于多个频率子带(34)在频域中表示(S104)所述音频帧(32)；

其特征在于：使用特定于所述频率子带(34)的背景模型，将每个频率子带(34)中的所述音频帧(32)分类(S106)为背景或前景；

编码(S108)所述音频信号(30)的每个连续的音频帧(32)，其中为所述音频帧(32)的每个频率子带(34)分配比特数，其中如果所述音频帧(32)在频率子带(34)中被分类为前景，则为所述频率子带(34)分配的比特数高于如果所述音频帧(32)在所述频率子带(34)中被分类为背景时为所述频率子带(34)分配的比特数。

2.根据权利要求1所述的方法(100)，其中，

分配用于编码所述音频帧(32)的背景分类频率子带(34)的比特数取决于所述音频帧(32)的背景分类频率子带(34)的频率范围；和/或

分配用于编码所述音频帧(32)的前景分类频率子带(34)的比特数取决于所述音频帧(32)的前景分类频率子带(34)的频率范围。

3.根据权利要求1至2中任一项所述的方法(100)，其中所述音频信号(30)被编码，使得与如果在第一音频帧之前的音频帧中的相同的第一频率子带被分类为背景相比，如果在所述第一音频帧之前的所述音频帧中的所述相同的第一频率子带被分类为前景，则分配至所述第一音频帧的背景分类第一频率子带的比特数更高。

4.根据权利要求1所述的方法(100)，其中分配用于编码(S108)所述音频帧(32)的频率子带(34)的所述比特数进一步取决于心理声学模型。

5.根据权利要求2所述的方法(100)，其中根据心理声学模型，分配用于编码(S108)所述音频帧(32)的频率子带(34)的比特数取决于所述音频帧(32)的所述频率子带(34)的所述频率范围。

6.根据权利要求1的所述方法(100)，其中分配用于编码(S108)所述音频帧的背景分类频率子带(34)的比特数与所述音频帧(32)的所述背景分类频率子带(34)代表的频率范围无关，并且其中分配用于编码(S108)所述音频帧(32)的前景分类频率子带(34)的比特数与所述音频帧(32)的所述前景分类频率子带(34)所属的频率范围无关。

7.根据权利要求1的所述方法(100)，所述方法(100)进一步包括：

对于所述音频信号(30)的音频帧(32)：

对于所述音频帧(32)的频率子带(34)：

基于所述音频帧(32)的所述频率子带(34)的频率内容，更新(S110)与所述音频帧(32)的所述频率子带(34)对应的特定于所述频率子带(34)的所述背景模型。

8.根据权利要求1所述的方法(100)，其中特定于频率子带(34)的所述背景模型包括高斯混合模型GMM(50)，所述GMM(50)包括多个高斯分布(52)，每个高斯分布表示所述频率子带(34)中的能量等级的概率分布。

9.根据权利要求8所述的方法(100)，其中如果所述音频帧(32)的频率子带(34)的能量等级在特定于所述频率子带(34)的所述背景模型的GMM(50)的所述高斯分布(52)中的一个的均值附近的预定数量的标准偏差(54)之内，并且如果所述高斯分布(52)的权重高于阈值，则所述音频帧(32)的所述频率子带(34)被分类为背景，其中所述权重表示所述音频帧(32)的所述频率子带(34)的能量等级在所述高斯分布(52)的均值附近的所述预定数量的标准偏差(54)之内的概率。

10.根据权利要求8所述的方法(100)，其中所述能量等级是功率谱密度PSD测量值。

11.根据权利要求1所述的方法(100)，其中所述方法进一步包括：

将所述音频信号(30)的编码的音频帧(32)与元数据一起传输(S112)，其中所述元数据表示所述音频帧(32)的所述频率子带(34)的分类(36)为背景或前景。

12.一种存储计算机可读指令的计算机可读介质，所述计算机可读指令在处理器(14)上执行时将使所述处理器(14)执行根据权利要求1所述的方法(100)。

13.一种用于利用可变比特率来编码音频信号(30)的编码器(10)，所述编码器(10)包括接收器(12)和一个或多个处理器(14)，

其中所述接收器(12)被配置成接收待编码的音频信号(30)，所述音频信号(30)包括多个连续的音频帧(32)，并且

其中所述一个或多个处理器(14)被配置成：

对于所述音频信号(30)的每个连续的音频帧(32)：

相对于多个频率子带(34)在频域中表示所述音频帧(32)；

使用特定于所述频率子带(34)的背景模型将每个频率子带(34)中的所述音频帧(32)分类为背景或前景；

其特征在于，所述一个或多个处理器被配置成编码所述音频信号(30)的每个连续的音频帧(32)，其中为所述音频帧(32)的每个频率子带(34)分配比特数，其中如果所述音频帧(32)在频率子带(34)中被分类为前景，则为所述频率子带(34)分配的比特数高于如果所述音频帧(32)在所述频率子带(34)中被分类为背景时为所述频率子带(34)分配的比特数。

14.一种监视设备(1)，包括：

麦克风(2)，被配置成记录音频信号(30)；

根据权利要求13所述的编码器(10)，被配置成从所述麦克风(2)接收所述音频信号(30)并利用可变比特率来编码所述音频信号(30)。