CN107945816A

CN107945816A - 用于音频帧处理的设备和方法

Info

Publication number: CN107945816A
Application number: CN201710951055.4A
Authority: CN
Inventors: 菲利普·吉尔贝东; 斯尔丹·基蒂奇
Original assignee: Thomson Licensing SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2016-10-13
Filing date: 2017-10-12
Publication date: 2018-04-20
Also published as: JP2018109739A; US20180108345A1; EP3309777A1; KR20180041072A

Abstract

一种用于计算用于音频信号识别的散射特征的设备(200)和方法。接口(240)接收通过处理器(210)处理(S610)的音频信号，以获得音频帧。处理器(210)根据至少一个音频帧计算(S620)一阶散射特征，然后针对一阶散射特征计算(S630)一阶散射特征是否包括用于精确的音频信号识别的足够信息的估计。仅在一阶散射特征不包括用于准确的音频信号识别的足够信息的情况下，处理器(240)根据一阶散射特征计算(S650)二阶散射特征。由于仅当认为必要时才计算二阶特征，所以该设备可以使用更少的处理能力，这能够导致设备使用的功率更少。

Description

用于音频帧处理的设备和方法

技术领域

本公开总体涉及音频识别，特别地涉及音频识别特征的计算。

背景技术

本部分是为了向读者介绍可能与下文所述的和/或所要求保护的本公开各个方面相关的现有技术的各方面。相信该讨论有助于向读者提供背景信息以便于更好地理解本公开的各个方面。因此，应当理解：这些陈述应按这种方式解读，而不是作为对现有技术的承认。

音频(声学的，声音)识别由于其是相对非侵入性的而特别适用于监测人类活动，不需要除了麦克风之外的其它检测器，并且是相对精确的。然而，为了成功经常需要密集的计算操作，这也是一项具有挑战性的任务。

图1示出了一般常规的音频分类处理流程100，所述音频分类处理流程100包括：音频传感器110，捕获原始音频信号；预处理模块120，为特征提取模块130准备所捕获到的音频；特征提取模块130，向分类器模块140输出所提取到的特征(即，标志系数)；分类器模块140，使用音频数据库150中的条目来标记随后被输出的音频。

用户接受音频识别的主要约束是保护隐私。因此，音频处理应当优选地在本地执行，而不是使用云服务。因此，CPU消耗和在某些情况下的电池寿命可能是在便携式设备中部署此类服务的严重限制。

相反的约束是技术性的：许多不同的音频事件具有非常相似的特性，这些特性需要繁琐的处理能力来提取使得能够区分这些音频事件的特征。可以通过利用音频信号的精细时频特性来增强识别，然而，这增加了计算成本。实际上，在构成音频识别的功能中，特征提取是最苛刻的。特征提取与每音频帧(缓冲区)的某些标志系数的计算相对应，每音频帧的某些标志系数表征随时间、频率或两者而变化的音频信号。

特别地，Andén和Mallat已经提供了能够实现高识别精度的音频识别的有效系数，参见

●J.Andén and S.Mallat：“Multiscale Scattering for AudioClassification.”ISMIR-International Society for Music Information Retrievalconference.2011.(J.Andén和S.Mallat，“音频分类的多尺度散射”，ISMIR-国际音乐信息检索学会会议，2011)

●J.Andén and S.Mallat：“Deep Scattering Spectrum”，IEEE Transactionson Signal Processing，2014.(J.Andén和S.Mallat，“深散射谱”，IEEE信号处理学报，2014)

他们的方法在理论和经验上被证明优于通常用于声学分类的基线方法，例如梅尔频率倒频谱系数(MFCC)，参见P.Atrey，M.Namunu，and K.Mohan，“Audio based eventdetection for multimedia surveillance”ICASSP-IEEE International Conference onAcoustics，Speech and Signal Processing，2006.(P.Atrey，M.Namunu和K.Mohan，“用于多媒体监控的基于音频的事件检测”，ICASSP-IEEE国际声学、语音和信号处理会议，2006)和D.Stowell，D.Giannoulis，E.Benetos，M.Lagrange and M.Plumbley，“Detection andclassification of acoustic scenes and events”IEEE Transactions on Multimedia，2015.(D.Stowell，D.Giannoulis，E.Benetos，M.Lagrange和M.Plumbley.“声场和事件的检测和分类”，IEEE多媒体学报，2015)。

他们的方法包括计算散射特征。首先，从所捕获到的原始音频信号中获得由x表示的帧(固定持续时间的音频缓冲区)。利用复小波滤波器组来卷积该帧，所述复小波滤波器组包括带通滤波器ψ_λ(λ表示给定滤波器的中心频率指数)和低通滤波器φ，被设计为覆盖整个频谱。然后，应用模运算符(|·|)，其将能量推向较低的频率[参见S.Mallat：“Groupinvariant scattering.”Communications on Pure and Applied Mathematics，2012(S.Mallat，“组不变散射”，纯数学与应用数学通讯，2012)]。在应用模运算符之后获得的所生成的系数的集合的低通部分被存储，并且被标记为“0阶”散射特征(S₀)。为了计算更高的“散射阶数”系数(S₁，S₂，...)，递归地对由带通滤波器生成的系数的所有剩余序列应用这些操作。这有效地产生了树状表示，如图4的“深散射谱”所示。可以看出，随着散射阶数的增加，计算成本快速增长。换句话说，该方法的辨别力通常随散射阶数的增加而增加。虽然更高的散射阶数通常导致更好的分类，但是也需要更详尽的特征计算，并且因此导致更重的计算负荷，这在某些情况下导致更高的电池消耗。

应当理解，希望有解决常规解决方案的缺点中的至少一些的解决方案。本原理提供了这种解决方案。

发明内容

在第一方面中，本原理涉及一种用于计算用于音频信号识别的散射特征的设备。该设备包括：接口，被配置为接收音频信号；以及处理器，被配置为处理音频信号以获得音频帧，根据至少一个音频帧计算一阶散射特征，并且仅在具有最高能量的n个第一阶散射特征中的能量低于阈值的情况下，根据一阶散射特征计算二阶散射特征，其中n是整数。

第一方面的各种实施例包括：

●处理器还被配置为：在具有最高能量的n个一阶散射特征中的能量高于阈值的情况下，仅基于一阶散射特征执行音频分类。在具有最高能量的n个一阶散射特征中的能量低于阈值的情况下，处理器可以基于一阶散射特征和至少二阶散射特征执行音频分类。

●在具有最高归一化能量的n个一阶散射特征的归一化能量之和高于第二阈值的情况下，所述能量高于阈值。第二阈值的最低可能值可以是0，并且最高可能值可以是1，并且第二阈值可以介于0.7和0.9之间。

●处理器被配置为迭代地根据低一阶散射系数计算更高阶散射系数，直到所计算的具有最高能量的散射特征的集合的能量高于第三阈值为止。

在第二方面中，本原理涉及一种用于计算用于音频信号识别的散射特征的方法。处理器处理所接收到的音频信号以获得至少一个音频帧，根据至少一个音频帧计算一阶散射特征，并且仅在具有最高能量的n个第一阶散射特征中的能量低于阈值的情况下，根据一阶散射特征计算二阶散射特征，其中n是整数。

第二方面的各种实施例包括：

●在具有最高能量的n个一阶散射特征中的能量高于阈值的情况下，处理器仅基于一阶散射特征执行音频分类。在具有最高能量的n个一阶散射特征中的能量低于阈值的情况下，处理器可以基于一阶散射特征和至少二阶散射特征执行音频分类。

●处理器迭代地根据低一阶散射系数计算更高阶散射系数，直到所计算的具有最高能量的散射特征的集合的能量高于第三阈值为止。

附图说明

现在将参考附图通过非限制性示例来描述本原理的优选特征，在附图中：

图1示出了一般的常规音频分类处理流程；

图2示出了根据本原理的用于音频识别的设备；

图3示出了本原理的声学分类处理流程的特征提取模块；

图4示出了示例性一阶系数的相关性图；

图5示出了示例性能的精度/召回曲线(recall curve)；以及

图6示出了根据本原理的音频识别的方法的流程图。

具体实施方式

支持本原理的构思是通过包括自适应于音频信号的时变特性的特征提取模块来自适应地降低音频事件识别的计算复杂度，音频信号的时变特性是在音轨的固定帧上计算的，并且表示对给定的散射特征的集的分类性能中的教义(belief)的分类器独立估计。通过使用度量，可以优化散射变换的阶数。

本原理优选地将上文所述的“散射变换”用作为有效的特征提取器。如图2的“Multiscale Scattering for Audio Classification，”(“音频分类的多尺度散射”)所示，根据散射变换计算出的一阶散射特征与传统的MFCC特征非常相似。然而，对于由二阶系数丰富的散射特征，分类误差可以显著降低。使用更高阶散射变换的优点在于能够恢复通过MFCC计算而平均出来的声信号的缺失快速时间变化。例如，如“Multiscale Scatteringfor Audio Classification，”(“音频分类的多尺度散射”)所述，(丰富的)二阶散射特征的辨别力来自于这样的事实：与仅与高达二阶矩相关的一阶系数相反，二阶散射特征依赖于更高阶统计矩(高达第4阶)。然而，即使利用较低阶的散射变换也可以很好地表示一些类型的信号，这被假定为是这些信号的主低带宽内容的结果。因此，通过检测该属性，可以隐含地得出这样的结论：所计算出的特征(即，较低阶特征)对于音频信号的精确分类是足够的。

因此可以看出，如果相对于所观察到的音频信号的时变特性每帧自适应地选择散射阶数，则本原理可能可以实现显著的处理能力的节省。

图2示出了根据本原理的用于音频识别的设备200。设备200包括至少一个硬件处理单元(“处理器”)210，该至少一个硬件处理单元210被配置为执行第一软件程序的指令并且处理音频以用于识别，如下文将进一步描述的。设备200还包括至少一个存储器220(例如，ROM、RAM和闪存或它们的组合)，该至少一个存储器220被配置为存储软件程序和处理输出数据包所需的数据。设备200也包括用于与用户接口联系的至少一个用户通信接口(“用户I/O”)230。

设备200还包括输入接口240和输出接口250。输入接口240被配置为获得用于处理的音频；输入接口240可以适用于捕获音频(例如，麦克风)，但是其也可以是适用于接收所捕获到的音频的接口。输出接口250被配置为输出关于所分析的音频的信息，例如用以在屏幕上呈现或者被传送至另一设备。

设备200优选地被实现为单个设备，但是其功能也可以分布在多个设备上。

图3示出了本原理的声学分类处理流程的特征提取模块330。特征提取模块330包括用于计算一阶散射特征的第一子模块332和用于计算二阶散射特征的第二子模块334，如图1所示的常规的特征提取模块130一样。此外，特征提取模块330也包括能量保存估计量，用以决定散射变换的最小必要阶数，如下文将进一步描述的。

在“Group invariant scattering.”(“组不变散射”)中，S.Mallat认为：随着散射阶数的增加，散射表示的能量接近输入信号的能量。本原理将该属性用作散射表示的信息内容(因此辨别性能)的代理指示符。

基于不同阶数的散射特征，假设存在一组预训练分类器。因此，一旦估计出了给定的音频帧的必要散射阶数，并且计算出了对应的特征，则使用适当的模型来执行分类。分类是相当低的计算复杂度的操作。

在下文的描述中，表述“信号”被解释为除了低通部分之外的从先前散射阶数m≥0的父节点中获得的任意系数序列因此，m＝0序列就是音频信号本身。由于不同的信号包含不同频带中的能量，所以首先通过计算相关性图来标记重要的频带，即由每个带通滤波器ψ_i滤波的信号的归一化能量：

得到的正数{γ_λ}的序列加起来为1。γ_λ的较大值指示更重要的频带，并且可以看作对观测给定的频带中的信号能量的似然性进行建模的概率质量函数P的峰值。这种概率质量函数的示例在图4中示出，图4示出了示例性一阶系数的相关性图。如所看到的，认为左边的几个频带是最相关的。

如前面所提及的，对每个信号应用低通滤波器φ，限制信号的频率范围。这也限制了滤波后的信号的信息内容。根据本原理，相对于输入信号的由低通滤波的保存的相对能量被测量为：

对于归一化滤波器φ，该比率必然在0和1之间的界限内，并且指示给定频带的能量的保存：比率越大，在给定特征内所捕获的能量就越大。

根据本原理，仅在使用相关性图估计的“重要”的频带中监测能量保存。首先，按降序方式来排序标准化的能量{γ_λ}(图4示出了排序后的相关性图)。然后，γ_λ的累积和达到阈值μ的前n个频带(即，)被视为是“重要的”。换句话说，用户定义的阈值0＜μ≤1含蓄地用参数表示重要频带的数量；阈值μ的值越低，则越少的频带被视为是重要的。

然后，最终能量保存估计量被计算为β＝min_ε∈[1，n]α_ε，其中{α_λ}根据{γ_λ}的降序而排列，并且0＜β≤1是重要频带中的能量的最小相对量。通过为β设置较低阈值τ，可以确定给定的散射特征是否包含用于精确分类的足够信息，或者是否需要计算更高散射阶数的特征。在发明人的试验中，针对0.5≤τ≤0.85和0.7≤μ≤0.9获得了最优性能。图5中所示的精度/召回曲线中呈现了示例性能，其中“计算节省”量是在相对于所考虑的音频帧的总数量来说一阶散射被估计为是足够(因此无需计算二阶系数)的情况下的百分比。应当注意，这是示例性值，因设置的不同而可以不同(例如，根据阈值μ和音频信号的类型中的至少一个)。

图6示出了根据本原理的音频识别的方法的流程图。虽然所示方法使用一阶散射特征和二阶散射特征，但是应当理解，所述方法容易地扩展到更高阶数，以决定散射阶数m-1的特征是否足够，或者是否需要计算第m阶散射特征。

在步骤S605中，接口(图2中的240)接收音频信号。在步骤S610中，处理器(图2中的210)获得根据音频信号计算出并由预处理(图1中的120)输出的音频帧。注意，可以在处理器中执行预处理。在步骤S620中，处理器以常规方式计算一阶散射特征。在步骤S630中，处理器计算能量保存估计量β，如前所述。在步骤S640中，处理器确定能量保存估计量β是否大于或等于低阈值τ(当然，严格地大于也是可以的)。在能量保存估计量β低于低阈值τ的情况下，处理器在步骤S650中计算对应的二阶散射特征；否则，不执行二阶散射特征的计算。最后，如果已经计算出了一阶散射特征和二阶散射特征，则处理器在步骤S660中使用一阶散射特征和二阶散射特征中的至少一个来执行音频分类。

技术人员将理解，能量保存估计是与分类器无关的度量。然而，如果分类器预先被指定并提供某些置信度量(例如，类概率估计)，则可以一起考虑估计值以试图提高性能。

应当理解，本原理可以提供用于音频识别的解决方案，该解决方案能够实现：

●通过使得能够以低计算成本使用目前已知的散射特征来节省CPU资源，特别是对于具有有限资源的平台(比如，便携式设备或住宅网关)。

●对于移动设备中的嵌入式系统，延长了电池寿命并优化了电池寿命持续时间。

●分类器不可知的方法。

●提供成功的估计：给定散射特征序列，分类将精确到何种程度？

●扩展到不同于音频信号的其它类型的信号(直接扩展到诸如图像、视频之类的其它类型的信号)。

应理解的是，附图所示的单元可以以硬件、软件、或其组合的各种形式来实现。优选地，这些单元以一个或更多个适当编程的通用设备上的硬件和软件的组合来实现，所述适当编程的通用设备可以包括处理器、存储器和输入/输出接口。文中，词语“耦接”被定义为表示直接连接或通过一个或更多个中间组件间接连接。这种中间组件可以包括硬件和基于软件的组件二者。

本说明书示出了本公开的原理。因此，可以理解的是，本领域的技术人员将能够设计出虽然没有明确地在此描述或示出但体现了本公开的原理并包括在本公开范围之内的各种布置。

本文中记载的所有示例和条件语言预期用于教导目的，以帮助读者理解本公开的原理和发明人为改进现有技术而贡献的构思，并且应解释为不限于这些具体记载的示例和条件。

此外，本文中对本公开的原理、方面、实施例及本公开的特定示例做出引述的所有声明意在包括本发明的结构和功能上的等同物。附加地，这种等同物旨在包括当前已知的等同物以及将来开发的等同物，即，为执行相同功能开发的任何单元，而与结构无关。

因此，例如，本领域的技术人员应当理解，本文中所呈现的框图表示体现本公开原理的解说性电路的概念图。类似地，应当理解，任何流程图、流程框图、状态转移图、伪代码等表示实质上可以在计算机可读介质中表示的、并且因此由计算机或处理器执行的各个处理，无论是否明确示出该计算机或处理器。

可以通过使用专用硬件以及能够与适当的软件相关联地执行软件的硬件来提供附图中示出的各个单元的功能。当由处理器来提供时，这些功能可以由单个专用处理器、单个共享处理器、或多个单独的处理器来提供，所述多个单独的处理器中的一些可以是共享的。此外，明确使用的术语“处理器”或“控制器”不应被解释为排他地指代能够执行软件的硬件，而可以隐含地包括而不限于数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)和非易失性存储设备。

也可以包括常规和/或定制的其它硬件。类似地，附图所示的任何开关都仅是概念性的。其功能可以通过程序逻辑的操作、通过专用逻辑、通过程序控制和专用逻辑的交互、或甚至手动地执行，实现者可选择的具体技术可以从上下文中得到明确的理解。

在权利要求中，被表述为用于执行指定功能的装置的任意单元意在包括执行该功能的任何方式，包括例如a)执行该功能的电路元件的组合、b)任何形式的软件，因而包括固件、微代码等，其与适当的电路组合以运行该软件来执行该功能。由这种权利要求限定的本公开在于由各种记载的设备提供的功能以权利要求所要求的方式组合在一起。因此，将可以提供这些功能的任何设备认为是等同于本文所示的设备。

Claims

1.一种用于计算用于音频信号识别的散射特征的设备(200)，所述设备(200)包括：

接口(240)，被配置为接收音频信号；以及

处理器(210)，被配置为：

处理所述音频信号以获得音频帧；

根据至少一个音频帧计算一阶散射特征；以及

仅在具有最高能量的n个一阶散射特征中的能量低于阈值的情况下，根据所述一阶散射特征计算二阶散射特征，其中n是整数。

2.根据权利要求1所述的设备，其中，所述处理器(210)还被配置为：在具有最高能量的n个一阶散射特征中的能量高于所述阈值的情况下，仅基于所述一阶散射特征执行音频分类。

3.根据权利要求2所述的设备，其中，所述处理器(210)还被配置为：在具有最高能量的n个一阶散射特征中的能量低于所述阈值的情况下，基于所述一阶散射特征和至少所述二阶散射特征执行音频分类。

4.根据权利要求1所述的设备，其中，在具有最高归一化能量的n个一阶散射特征的归一化能量之和高于第二阈值的情况下，所述能量高于所述阈值。

5.根据权利要求4所述的设备，其中，所述第二阈值的最低可能值是0，并且最高可能值是1，并且所述第二阈值介于0.7和0.9之间。

6.根据权利要求1所述的设备，其中，所述处理器(210)被配置为迭代地根据低一阶散射系数计算更高阶散射系数，直到所计算的具有最高能量的散射特征的集合的能量高于第三阈值为止。

7.一种用于计算用于音频信号识别的散射特征的方法，所述方法包括：

通过处理器(210)处理(S610)所接收到的音频信号，以获得至少一个音频帧；

通过处理器(210)根据至少一个音频帧计算(S620)一阶散射特征；以及

仅在具有最高能量的n个一阶散射特征中的能量低于阈值的情况下，通过所述处理器(210)根据所述一阶散射特征计算(S650)二阶散射特征，其中n是整数。

8.根据权利要求7所述的方法，还包括：在具有最高能量的n个一阶散射特征中的能量高于所述阈值的情况下，仅基于所述一阶散射特征执行音频分类(S660)。

9.根据权利要求8所述的方法，还包括：在具有最高能量的n个一阶散射特征中的能量低于所述阈值的情况下，基于所述一阶散射特征和所述二阶散射特征执行音频分类(S660)。

10.根据权利要求7所述的方法，其中，在具有最高归一化能量的n个一阶散射特征的归一化能量之和高于第二阈值的情况下，所述能量高于所述阈值。

11.根据权利要求10所述的方法，其中，所述第二阈值的最低可能值是0，并且最高可能值是1，并且所述第二阈值介于0.7和0.9之间。

12.根据权利要求7所述的方法，还包括：迭代地根据低一阶散射系数计算更高阶散射系数，直到所计算的具有最高能量的散射特征的集合的能量高于第三阈值为止。