CN109247030B

CN109247030B - 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法

Info

Publication number: CN109247030B
Application number: CN201780030531.7A
Authority: CN
Inventors: 安德鲁斯·尼德梅尔; 理查德·福格; 萨沙·迪施; 梅纳德·穆勒; 约翰·德里德格
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2016-03-18
Filing date: 2017-03-16
Publication date: 2023-03-10
Anticipated expiration: 2037-03-16
Also published as: WO2017158102A1; JP6800995B2; KR20180121995A; MX2018011104A; KR102250624B1; BR112018068852A2; CA3017558C; RU2712652C1; ES2788682T3; EP3430612B1; CN109247030A; EP3220386A1; JP2019515323A; US10770051B2; CA3017558A1; EP3430612A1; US20190012999A1

Abstract

提供了一种用于分析音频信号的幅度频谱图的装置。该装置包括瞬时频率变化率确定器(110)，其用于音频信号的幅度频谱图的多个时频区间中的每个时频区间。此外，该装置包括分类器(120)，其被配置为根据所确定的每个时频区间的瞬时频率变化率，将所述时频区间分配给两个或更多个信号分量组中的信号分量组。例如，在每个时频点(b，k)处确定结构张量T(b，k)和张量分量的角度a(b，k)，以计算每个时频区间的局部各向异性度量，高的局部各向异性指示打击乐声音。

Description

使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法

技术领域

本发明涉及音频信号处理，尤其涉及使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法。

背景技术

能够将声音分离成其谐波分量和打击乐分量的处理步骤是对许多应用有效的预处理步骤。

虽然“谐波一打击乐(-残余)分离”是常用的术语，但它具有误导性，因为它意味着具有频率为基频的整数倍的正弦波的谐波结构。尽管正确的术语应该是“音调-打击乐-(残余)分离”，但为了便于理解，下面使用术语“谐波”而不是“音调”。

例如，使用音乐录音的分离出的打击乐分量可以改进节拍跟踪(参见[1])、节奏分析和节奏乐器转录的质量。分离出的谐波分量适用于声调乐器的转录和和弦音检测(参见[3])。此外，谐波-打击乐分离可用于重新混音目的，例如改变两个信号分量之间的水平比(参见[4])，这会产生“更平滑”或“更有力”的整体声音感知。

用于谐波-打击乐声音分离的一些方法依赖于以下假设，即，谐波声音在输入信号的幅度频谱图中具有水平结构(在时间方向上)，而打击乐声音表现为垂直结构(在频率方向上)。Ono等人提出了一种方法，该方法首先通过时间/频率方向上的扩散产生谐波/打击乐增强的频谱图(参见[5])。然后，通过比较这些增强的表示，可以导出声音是谐波还是打击乐的决定。

Fitzgerald发表了一种类似的方法，其中增强的频谱图是通过使用垂直方向上的中值滤波而不是扩散来计算的(参见[6])，这种方法在降低计算复杂度的同时产生类似的结果。

受到正弦+瞬态+噪声(S+T+N)信号模型(参见[7]、[8]、[9])的启发，提出了旨在通过一小组参数描述各个信号分量的框架。然后，在[10]中，将Fitzgerald的方法扩展到谐波-打击乐-残余(HPR)分离。由于音频信号通常包括既不明显是谐波也不明显是打击乐的声音，因此该过程在第三个残余分量中捕获这些声音。虽然这些残余信号中的一些明显具有各向同性(既非水平也非垂直)的结构(例如噪声)，但是存在着以下声音，即，这种声音虽然不具有明显的水平结构，但仍然携带音调信息并可以被感知为声音的谐波部分。一个例子是频率调制的音调，它们可能出现在小提琴演奏或人声的录音中，可以说它们具有“颤音”。由于采用了识别水平结构或垂直结构的策略，上述方法并不总是能够在其谐波分量中捕获这样的声音。

在[11]中提出了一种基于非负矩阵分解的谐波-打击乐分离过程，该分离过程能够在谐波分量中捕获具有非水平频谱结构的谐波声音。但是它没有包括第三个残余分量。

综上所述，最近的方法依赖于以下观察：在频谱图表示中，谐波声音产生水平结构，而打击乐声音产生垂直结构。此外，这些方法将既非水平也非垂直的结构(即，非谐波声音，非打击乐声音)与残余类别相关联。然而，这种假设不适用于频率调制的音调等信号，这些信号虽然显示波动的频谱结构，但仍然携带音调信息。

结构张量是一种在图像处理中使用的工具(参见[12]、[13])，其在图像处理中应用于灰度图像，用来进行边缘和角点检测(参见[14])或估计物体的方向。结构张量已经用于音频处理中的预处理和特征提取(参见[15]、[16])。

发明内容

本发明的目的是提供用于音频信号处理的改进技术。本发明的目的通过根据权利要求1的装置、根据权利要求16的方法和根据权利要求17的计算机程序来实现。

提供了一种用于分析音频信号的幅度频谱图的装置。该装置包括频率变化确定器，该频率变化确定器被配置为根据音频信号的幅度频谱图，为音频信号的幅度频谱图的多个时频区间中的每个时频区间确定频率变化。此外，该装置包括分类器，该分类器被配置为根据为所述多个时频区间中的每个时频区间确定的频率变化，将所述时频区间分配给两个或更多个信号分量组中的信号分量组。

此外，提供了一种用于分析音频信号的幅度频谱图的方法。所述方法包括：

-根据音频信号的幅度频谱图，确定音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化，以及：

-根据为所述多个时频区间中的每个时频区间确定的频率变化，将所述时频区间分配给两个或更多个信号分量组中的信号分量组。

此外，提供了一种计算机程序，该计算机程序被配置为当在计算机或信号处理器上被执行时实现上述方法。

附图说明

在下文中，将参考附图更详细地描述本发明的实施例，在附图中：

图1示出了根据一个实施例的用于分析音频信号的幅度频谱图的装置，

图2示出了根据一个实施例的具有放大区域的歌声、响板和掌声的混合声音的频谱图，其中箭头的方向指示方向，并且其中箭头的长度指示各向异性度量，

图3示出了根据一个实施例的通过使用结构张量计算的取向/各向异性值的范围，

图4示出了用于合成输入信号的摘录的HPR-M和HPR-ST方法之间的比较，

图5示出了根据一个实施例的装置，其中该装置包括信号发生器，以及

图6示出了根据一个实施例的装置，其中该装置包括用于记录音频信号的一个或多个麦克风。

具体实施方式

图1示出了根据实施例的用于分析音频信号的幅度谱图的装置。

该装置包括频率变化确定器110。频率变化确定器110被配置为根据音频信号的幅度频谱图来确定所述音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化。

此外，该装置包括分类器120。分类器120被配置为根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。

根据实施例，频率变化确定器110可以例如被配置为根据所述多个时频区间中的每个时频区间的角度α(b，k)确定所述时频区间的频率变化。所述时频区间的角度α(b，k)取决于所述音频信号的幅度频谱图。

在实施例中，频率变化确定器110可以例如被配置为还根据所述音频信号的采样频率f_s，根据分析窗口的长度N，并且根据所述分析窗口的跳大小H，来确定所述多个时频区间中的每个时频区间的频率变化。

根据实施例，装置的频率变化确定器110被配置为根据以下公式来确定所述多个时频区间中的每个时频区间的频率变化。

(b，k)表示所述多个时频区间中的时频区间，其中R(b，k)表示所述时频区间(b，k)的频率变化，其中b表示时间，其中k表示频率，其中f_s表示所述音频信号的采样频率，其中N表示所述分析窗口的长度，其中H表示所述分析窗口的跳大小，并且其中α(b，k)表示所述时频区间(b，k)的角度，其中该角度α(b，k)取决于幅度频谱图。

在实施例中，频率变化确定器110可以例如被配置为确定所述音频信号的幅度频谱图S相对于时间索引的偏导数S_b。在这样的实施例中，频率变化确定器110可以例如被配置为确定所述音频信号的幅度频谱图S相对于时间索引的偏导数S_k。

此外，在这样的实施例中，频率变化确定器110被配置为根据所述音频信号的幅度频谱图S相对于时间索引的偏导数S_b，并根据所述音频信号的幅度频谱图S相对于频率索引的偏导数S_k，确定所述多个时频区间中的每个时频区间(b，k)的结构张量T(b，k)。

此外，在这样的实施例中，频率变化确定器110可以例如被配置为根据所述多个时频区间中的每个时频区间(b，k)的结构张量T(b，k)确定所述时频区间(b，k)的角度α(b，k)。

根据实施例，频率变化确定器110可以例如被配置为通过以下方式确定所述多个时频区间中的每个时频区间(b，k)的角度α(b，k)：确定所述时频区间(b，k)的结构张量(T(b，k))的特征向量v(b，k)的两个分量v₁(b，k)和v₂(b，k)，并根据以下公式来确定所述时频区间((b，k))的角度(α(b，k))：

α(b，k)表示所述时频区间((b，k))的角度，其中b表示时间，其中k表示频率，并且其中atan()表示反正切函数。

在实施例中，分类器120可以例如被配置为根据以下公式中的至少一个来确定多个时频区间中的每个时频区间(b，k)的各向异性的度量：

以及

μ(b，k)+λ(b，k)≥e，

μ(b，k)是所述时频区间(b，k)的结构张量(T(b，k))的第一特征值，λ(b，k)是所述时频区间(b，k)的结构张量(T(b，k))的第二特征值，并且

在这样的实施例中，分类器120可以例如被配置为还根据所述各向异性的度量的变化将多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组。

根据实施例，分类器120可以例如被配置为根据以下公式确定所述时频区间(b，k)的各向异性的度量：

C(b，k)是所述时频区间(b，k)的各向异性的量度，并且其中分类器120被配置为如果所述各向异性的度量C(b，k)小于第一阈值c，则将所述时频区间(b，k)分配给两个或更多个信号分量组中的残余分量组，或者其中分类器120被配置为如果所述各向异性的度量C(b，k)小于或等于所述第一阈值c，则将所述时频区间(b，k)分配给两个或更多个信号分量组中的残余分量组，其中

在实施例中，分类器120可以例如被配置为根据所确定的所述时频区间(b，k)的频率变化R(b，k)将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组，使得分类器120根据所确定的所述时频区间(b，k)的频率变化R(b，k)的绝对值|R(b，k)|是否小于第二阈值r_h，或者根据所确定的所述时频区间(b，k)的频率变化R(b，k)的绝对值|R(b，k)|是否小于或等于所述第二阈值r_h，将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的谐波信号分量组，其中

根据实施例，分类器120可以例如被配置为根据所确定的所述时频区间(b，k)的频率变化R(b，k)将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组，使得分类器120根据所确定的所述时频区间(b，k)的频率变化R(b，k)的绝对值|R(b，k)|是否大于第三阈值r_p，或者根据所确定的所述时频区间(b，k)的频率变化(R(b，k))的绝对值|R(b，k)|是否大于或等于所述第三阈值r_p，将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的打击乐信号分量组，其中

在下文中，提供对实施例的详细描述。

实施例提供用于基于结构张量分离谐波-打击乐-残余(HPR)声音的改进技术。一些实施例通过利用关于由结构张量提供的频谱结构的取向的信息，来在谐波分量中捕获保持音调信息的频率调制的声音。

一些实施例基于以下发现：严格分类为水平结构和垂直结构不适合于这些信号，并且可能导致音调信息被漏到残余分量中。实施例涉及一种新颖的方法，其改为使用结构张量(一种数学工具)来计算幅度频谱图中的主要取向角。实施例即使在频率调制信号的情况下也使用该取向信息来区分谐波、打击乐和残余信号分量。最后，通过客观评估测量以及音频示例来验证实施例技术的有效性。

此外，一些实施例基于以下发现：结构张量可以被认为是黑盒子，其输入是灰度图像，输出是每个像素的与最低变化方向相对应的角度n和每个像素的该方向的确定性或各向异性度量。结构张量还提供了平滑的可能性，这减少了噪声的影响，增强了鲁棒性。此外，确定性度量可用于确定所估计的角度的质量。该确定性度量的低值表示像素位于恒定亮度的区域中而没有任何明确的方向。

例如，根据由结构张量获得的角度，可以提取局部频率变化。根据这些角度，可以确定频谱图中的时频区间是属于谐波(＝低局部频率变化)还是打击乐(＝高或无限局部频率变化)分量。

提供用于谐波-打击乐-残余分类和分离的改进实施例。

谐波-打击乐-残余声音分离是对音调乐器转录或节奏提取等应用有用的预处理工具。一些实施例不是仅搜索严格水平结构和严格垂直结构，而是通过使用图像处理中已知的结构张量，来确定频谱图中的主要取向角以及局部各向异性。

在实施例中，然后可以使用所提供的关于频谱结构的取向的信息，通过设置适当的阈值来区分谐波、打击乐和残余信号分量，参见图2。

图2示出了歌声、响板和掌声的混合声音的频谱图，其中放大区域另外示出了由结构张量获得的方向(箭头的取向)和各向异性度量(箭头的长度)。箭头的颜色表示基于该取向和各向异性信息将相应的时频区间分配给谐波分量(区域210)、打击乐分量(区域230)还是残余分量(区域220)。

既不具有高局部频率变化率也不具有低局部频率变化率的所有区间、或者具有指示恒定区域的确定性度量的所有区间，都被分配为属于残余分量。在图2中可以看到频谱图的这种分离的一个示例。对于包含调频声音在内的音频信号，实施例比基于幅度频谱图工作的类似方法更好地执行。

首先，描述结构张量的概念，并且将该一般概念扩展为适用于音频处理的上下文。

在下文中，为了符号的方便起见，矩阵和向量被写为粗体字母。此外，(.)运算符用于索引特定元素。在这种情况下，矩阵或向量被写为非粗体字母以说明其标量用法。

首先，描述根据实施例的频谱图的计算。音频信号可以例如是(离散的)输入音频信号。

结构张量可以应用于具有采样频率f_s的离散输入音频信号

的频谱图表示。对于x的频谱分析，使用短时傅立叶变换(STFT)：

其中，

b表示帧索引，k表示频率索引，并且

是长度为N的窗口函数(换句话说：N是分析窗口的长度)。

H≤N表示窗口的分析跳大小。应当注意，由于STFT频谱在

处的奈奎斯特点附近具有一定的对称性，所以处理可以例如限制为

因为可以在逆STFT期间重建对称性。

通过使用上面的公式(1)，可以获得频谱图。频谱图包括多个频谱，其中多个频谱在时间上彼此相继。如果至少存在一些具有以下性质的第二时域样本，则多个频谱中的第二频谱在时间上跟随在第一频谱之后：所述第二时域样本用于生成第二频谱并且不用于生成第一频谱，并且是涉及比用于生成第一频谱的第一时域样本更晚的时间点的时域样本。用于生成时间上相邻的频谱的时域样本的窗口可以例如进行重叠。

在实施例中，分析窗口长度N可以例如被定义为：

256个样本≤N≤2048个样本。

在一些实施例中，分析窗口长度可以例如是2048。在其他实施例中，分析窗口长度可以例如是1024个样本。在进一步的实施例中，分析窗口长度可以例如是768个样品。在更进一步的实施例中，分析窗口长度可以例如是256个样本。

在实施例中，分析跳大小H可以例如位于分析窗口的25％与75％之间的范围内。在这样的实施例中：

0.25N≤H≤0.75N。

因此，在这样的实施例中，如果分析窗口具有例如2048个样本(N＝2048)，则分析跳大小可以例如在以下范围内：

512个样本≤H≤1536个样本。

如果分析窗口具有例如256个样本(N＝256)，则分析跳大小可以例如在以下范围内：

64个样本≤H≤192个样本。

在优选实施例中，分析跳大小可以例如是分析窗口的50％。这对应于两个后续的分析窗口的50％的窗口重叠。

在一些实施例中，分析跳大小可以例如是分析窗口的25％。这对应于两个后续的分析窗口的75％的窗口重叠。

在其他实施例中，分析跳大小可以例如是分析窗口的75％。这对应于两个后续的分析窗口的25％的窗口重叠。

应当注意，本发明的技术适用于任何类型的时域到谱域变换，例如适用于MDCT(改进离散余弦变换)、MDST(改进离散正弦变换)、DSTFT(离散短时傅里叶变换)等。

实值对数谱频图可以例如计算为：

S(b，k)＝20log₁₀|X(b，k)| (2)

音频信号的幅度频谱图可以被称为S，并且时频区间(b，k)的幅度频谱图的值可以被称为S(b，k)。

在下文中，描述根据实施例的结构张量的计算。

为了计算结构张量，需要S的偏导数。关于时间索引b的偏导数由下式给出：

S_b＝S*d (3)

而关于频率索引k的偏导数定义为：

S_k＝S*d^T (4)

其中d是离散微分算子(例如，对于中心差分，可以选择d＝[-1，0，1]/2)，并且*表示二维卷积。

此外，可以定义：

T₁₁＝(S_b⊙S_b)*G (5)

T₂₁＝T₁₂＝(S_k⊙S_b)*G (6)

T₂₂＝(S_k⊙S_k)*G (7)

其中⊙是逐点矩阵乘法，也称为阿达玛(Hadamard)积，G是2-D高斯平滑滤波器，具有时间索引方向上的标准偏差σ_b和频率索引方向上的标准偏差σ_k。结构张量T(b，k)然后通过2×2对称和正半定矩阵给出：

结构张量包含关于频谱图的位置(b，k)处的主要取向的信息。应当注意，在G是标量的特殊情况下，T(b，k)不包含比频谱图中该位置处的梯度更多的信息。然而，与梯度相比，结构张量可以通过G平滑而没有抵消效应，这使得它对噪声更加鲁棒。

应注意，结构张量T(b，k)为多个时频区间中的每个时频区间(b，k)定义。因此，当考虑多个时频区间(例如时频区间(0，0)；(0，1)；(0，2)；...(1，0)；(1，1)；(1，2)；...)时，则存在多个结构张量T(0，0)；T(0，1)；T(0，2)；...T(1，0)；T(1，1)；T(1，2)；...。例如，对于多个时频区间中的每个时频区间(b，k)，确定一个结构张量T(b，k)。

在下文中，描述根据实施例的角度和各向异性度量的计算。

关于频谱图中每个区间的取向的信息通过计算结构张量T(b，k)的特征值λ(b，k)，μ(b，k)(其中λ(b，k)≤μ(b，k))和对应的特征向量v(b，k)＝[v₁(b，k)，v₂(b，k)]^T和w(b，k)＝[w₁(b，k)，w₂(b，k)]^T来获得。应当注意，v(b，k)(与较小特征值λ(b，k)相对应的特征向量)指向频谱图中索引(b，k)处的最低变化的方向，而w(b，k)指向最高变化的方向。因此，特定区间处的取向角能够通过以下公式获得：

v₁(b，k)和v₂(b，k)是特征向量v(b，k)的分量。

atan()表示反正切函数。

另外，可以确定每个区间的各向异性的度量：

其中

应当注意C(b，k)∈[0；1]。接近1的C(b，k)的值表示频谱图的索引(b，k)处的高各向异性，而恒定的邻域使值接近0。可以选择阈值e(其定义应当被认为是各向异性的界限)，以进一步增加对噪声的鲁棒性。

角度α(b，k)的物理意义可以通过考虑在时间间隔Δt期间具有Δf的瞬时频率变化的连续信号来理解。因此，瞬时频率变化率R表示为

例如，根据实施例，对于频谱图的每个时频区间，由结构张量获得的角度(由图2中的箭头的方向指示)可以例如被转换为局部频率变化率：

每个时频区间的频率变化可以例如称为瞬时频率变化率。

考虑所应用的STFT分析的采样率、长度和跳大小，可以通过以下公式得出频谱图中的角度与每个区间的瞬时频率变化率R(b，k)之间的关系：

平滑滤波器G在离散域中的标准偏差σ_b和σ_k也能够通过以下公式转换为连续的物理参数σ_t和σ_f：

在下文中，描述使用结构张量进行的谐波-打击乐-残余分离。

通过结构张量获得的信息可以应用于HPR分离的问题，例如，将频谱图中的每个区间分类为输入信号的谐波、打击乐或残余分量的部分。

实施例基于以下发现：分配给谐波分量的区间应该属于相当水平的结构，而属于相当垂直的结构的区间应该被分配给打击乐分量。此外，不属于任何类型的取向结构的区间应当分配给残余分量。

根据实施例，如果区间(b，k)满足以下两个约束中的第一个，则它可以例如被分配给谐波分量。

根据优选实施例，如果区间(b，k)同时满足以下两个约束，则它可以例如被分配给谐波分量：

-第一个约束可以例如是角度α(b，k)的绝对值小于(或等于)阈值α_h。阈值α_h可以例如在范围α_h∈[0；π/2]内。这意味着，该区间应该是某些频谱结构的一部分，所述频谱结构不具有大于或小于α_h的斜率。这样，频率调制的声音也可以被认为是谐波分量的一部分，这取决于参数α_h。

-第二个约束可以例如是：各向异性的度量C(b，k)证明该区间(b，k)是某些定向的各向异性结构的一部分，并因此超过第二阈值c。应当注意，对于给定的区间(b，k)，角度α(b，k)和各向异性的度量C(b，k)一起限定了极坐标中给定的

中的点。

类似地，在实施例中，分配另一角度阈值α_p，以定义何时应将区间分配给打击乐分量(图3中具有垂直线的区域330)。

因此，根据实施例，如果区间(b，k)满足以下两个约束中的第一个，则它可以例如被分配给打击乐分量。

根据优选实施例，如果区间(b，k)同时满足以下两个约束，则它可以例如被分配给打击乐分量：

-第一个约束可以例如是角度α(b，k)的绝对值大于(或等于)阈值α_p。阈值α_p可以例如在范围α_p∈[0；π/2]内。这意味着，该区间应该是某些频谱结构的一部分，所述频谱结构不具有大于或小于α_p的斜率。这样，频率调制的声音也可以被认为是谐波分量的一部分，这取决于参数α_p。

中的点。

最后，在实施例中，既未分配给谐波分量也未分配给打击乐分量的所有区间可以例如被分配给残余分量。

上述分配过程可以通过定义谐波分量M_h的掩蔽、打击乐分量M_p的掩蔽和残余分量M_r的掩蔽来表示。

应当注意，代替使用阈值α_h和阈值α_p，在实施例中，阈值可以例如针对最大绝对频率变化率r_h，

定义，其中r_p≥r_h，以使参数选择具有更好的物理解释。然后，掩蔽通过以下公式给出：

M_r(b，k)＝1-M_h(b，k)-M_p(b，k) (16)

最后，通过以下公式获得谐波分量X_h、打击乐分量X_p和残余分量X_r的STFT：

X_h＝M_h⊙X (17)

X_p＝M_p⊙X (18)

X_r＝M_r⊙X (19)

然后，可以通过逆STFT计算对应的时间信号。

图3示出了由结构张量计算的取向/各向异性值的范围。

具体地，图3描绘了导致向谐波分量的分配的所有点的子集。具体地，具有波浪线的区域310中的值导致向谐波分量的分配。

具有垂直线的区域330中的值导致向打击乐分量的分配。

点线的区域320中的值导致向残余分量的分配。

阈值α_h定义图3中的线301，阈值α_p定义图3中的线302。

图5示出了根据实施例的装置，其中该装置包括信号发生器130，信号发生器130被配置为根据多个时频区间向两个或更多个信号分量组的分配来生成音频输出信号。

例如，信号发生器可以通过对不同信号分量组的时频区间的幅度值应用不同的加权因子，来对音频信号的不同分量进行滤波。例如，谐波信号分量组可以具有第一加权因子w_h，打击乐信号分量组可以具有第二加权因子w_p，并且残余信号分量组可以具有第一加权因子w_r，多个时频区间中的每个时频区间的幅度值可以例如利用该时频区间被分配给的信号分量组的加权因子进行加权。

例如，为了强调谐波信号分量，在加权因子与线性幅度值相乘的实施例中，例如，

w_h＝1.3，w_p＝0.7，并且w_r＝0.2。

例如，为了强调谐波信号分量，在加权因子与对数幅度值相加的实施例中，例如，

w_h＝+0.26，w_p＝-0.35，并且w_r＝-1.61。

例如，为了强调打击乐信号分量，在加权因子乘以线性幅度值的实施例中，例如，

w_h＝0.7，w_p＝1.3，并且w_r＝0.2。

例如，为了强调打击乐信号分量，在加权因子与对数幅度值相加的实施例中，例如，

w_h＝-0.35，w_p＝+0.26，并且w_r＝-1.61。

因此，信号发生器130被配置为对多个时频区间中的每个时频区间的幅度值应用加权因子以获得音频输出信号，其中，对所述时频区间应用的加权因子取决于所述时频区间被分配给的信号分量组。

在图5的具体实施例中，信号处理器130可以例如是上混音器，其被配置为对音频信号进行上混音，以获得包括两个或更多个音频输出通道在内的音频输出信号。上混音器可以例如被配置为根据多个时频区间向两个或更多个信号分量组的分配来生成两个或更多个音频输出信道。

例如，如上所述，可以通过对不同信号分量组的时频区间的幅度值应用不同的加权因子，来对音频信号的不同分量进行滤波，以从音频信号中生成两个或更多个音频输出通道。

然而，为了生成不同的音频通道，可以使用用于信号分量组的不同权重，其可以例如特定于每个不同的音频输出通道。

例如，对于第一音频输出通道，要与对数幅度值相加的权重可以例如是：

w_1h＝+0.26，w_1p＝-0.35，并且w_1r＝-1.61。

对于第二音频输出通道，要与对数幅度值相加的权重可以例如是：

w_2h＝+0.35，w_2p＝-0.26，并且w_2r＝-1.61。

例如，当对音频信号进行上混音以获得左前、中、右、左环绕和右环绕这五个音频输出通道时：

-与用于生成左环绕和右环绕音频输出声道的谐波加权因子w_2h相比，用于生成左、中和右音频输出声道的谐波加权因子w_1h可以较大。

-与用于生成左环绕和右环绕音频输出声道的打击乐加权因子w_2p相比，用于生成左、中和右音频输出声道的打击乐加权因子w_1p可以较小。

各个加权因子可以用于要生成的每个音频输出通道。

图6示出了根据实施例的装置，其中该装置包括用于记录音频信号的一个或多个麦克风171、172。

在图6中，第一麦克风171记录音频信号的第一音频通道。可选的第二麦克风172记录音频信号的可选的第二音频通道。

此外，图6的装置还包括幅度频谱图生成器180，用于根据音频信号生成音频信号的幅度频谱图，所述音频信号包括第一音频通道并且可选地包括可选的第二音频通道。根据音频信号生成幅度频谱图是本领域技术人员公知的技术。

在下文中，考虑对实施例的评估。

为了表明在谐波分量中捕获频率调制声音方面的实施例的有效性，将根据实施例的基于结构张量的HPR方法(HPR-ST)与[10]中提出的基于中值滤波的非迭代方法(HPR-M)进行比较。此外，还使用理想二元掩蔽(IBM)计算分离结果的度量，该二元掩蔽用作最大可实现分离质量的参考。

考虑被测系统参数，对于HPR-ST和HPR-M，使用w的正弦窗口，将STFT参数选择为f_s＝22050Hz，N＝1024和H＝256。如在[10]中进行的实验中那样选择HPR-M的分离参数。根据实施例，使用微分算子(例如，Scharr算子[17])作为离散微分算子d来计算结构张量。使用9×9各向同性高斯滤波器进行平滑，该滤波器具有标准偏差σ_b＝σ_k＝1.4，其导致σ_t≈16ms和σ_f≈30Hz。最后，将用于分离的阈值设置为e＝20，c＝0.2和r_h＝r_p＝10000Hz/s。

应当注意，根据实施例，通过r_h和r_p的选择，频谱图中甚至非常陡峭的结构也被分配给谐波分量。实施例采用关于现实世界颤音的观察，例如图2所示。这里，可以看到，在某些情况下，歌声中的颤音具有非常高的瞬时频率变化率。此外，应当注意，通过选择r_h＝r_p，频谱图中的区间向残余分量的分配纯粹取决于其各向异性度量。

通过客观评估测量以及音频示例，将根据实施例的HPR-ST与[10]中提出的基于中值滤波的现有方法HPR-M进行比较，从而评估了HPR-ST的有效性。

当应用于包含频率调制声音在内的信号时，为了比较的根据实施例的HPR-ST和现有技术的HPR-M的行为以获得客观结果，生成两个测试项目。

测试项目1包括纯合成声音的叠加。将谐波源选择为颤音音调，其基频为1000Hz，颤音频率为3Hz，颤音范围为50Hz，有4个泛音。对于打击乐源，使用了若干个冲击音，而白噪声表示既不是谐波也不是打击乐的残余源。

测试项目2是通过将现实世界的歌声信号与颤音(谐波)、响板(打击乐)和掌声(既不是谐波也不是打击乐)叠加而生成的。

将这些项目的HPR分离解释为源分离问题，针对两种过程的分离结果，计算了标准源分离评估指标(如[18]中所介绍的源对失真比SDR、源对干扰比SIR和源对伪像比率SAR)。结果如表1所示。

表1描述了客观评估测量，其中所有值均以dB为单位：

(表1)

对于项目1，HPR-ST的颤音音调的SDR为21.25dB，因此更接近IBM的最佳分离结果(29.43dB)，而不是更接近HPR-M的分离结果(11.51dB)。这表明与HPRM相比，HPR-ST在谐波分量中捕获此频率调制声音的性能得到改善。这也显示在图4中。

图4示出了用于合成输入信号(项目1)的摘录的HPR-M和HPR-ST方法之间的比较。为了增强可见性，使用与用于分离算法的STFT参数不同的STFT参数计算了频谱图。

图4(a)示出了输入信号相对于时间的频率。在图4中，绘制了针对两个过程所计算的谐波分量的频谱图以及打击乐分量与残余分量之和的频谱图。可以看出，对于HPR-M，颤音音调的陡峭斜率被漏到残余分量中(图4(b)和图4(c))，而HPR-ST(图4(d)和图4(e))产生良好的分离。这也解释了与HPR-ST相比的、HPRM的残余分量的非常低的SIR值(-11.99dB对14.12dB)。

应当注意，HPR-M的谐波分量的高SIR值仅反映了来自其他分量的干扰声音很少，而不是反映了整个上很好地捕获了颤音的声音。总体来说，项目1的大多数观察结果都不太明显，但对于项目2中的现实世界声音的混合声音也是有效的。对于此项目，人声的HPR-M的SIR值甚至超过了HPR-ST的SIR值(20.83dR对15.61dR)。同样，对于HPR-M，掌声的低SIR值证明了人声中的颤音部分被漏到残余分量中(1.11dB)，而HPR-ST的残余分量包含较少的干扰声音(6.34dB)。这表明实施例能够比HPR-M更好地捕获人声的频率调制结构。

总结上述结果，对于包含频率调制音调在内的信号，与HPR-M相比，实施例的HPR-ST技术提供了更好的分离结果。

一些实施例采用结构张量来进行歌声检测。(根据现有技术的歌声检测在[2]中描述)。

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对应方法的描述，其中，块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对对应块或者对应装置的项或特征的描述。可以由(或使用)硬件装置(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。

根据某些实现要求，本发明的实施例可以用硬件或软件实现，或者至少部分用硬件实现，或至少部分用软件实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现，该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)传输计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。

本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是：本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。

参考文献：

[1]Aggelos Gkiokas，Vassilios Katsouros，George Ca rayannis，and ThemosStafylakis，“Music tempo estimati on and beat tracking by applying sourceseparation and metrical relations”，in Proceedings of the IEEE Intern ationalConference on Acoustics，Speech，and Signal Pro cessing(ICASSP)，2012，pp.421-424.

[2]Bernhard Lehner，Gerhard Widmer，and Reinhard Sonnleitner.“On thereduc tion of false positives in singing voice detection”，in Proceedings ofthe IEEE Int ernational Conference on Acoustics，Speech，and Signal Processing(ICASSP)，Florence，Italy，2014，pp.7480-7484.

[3]Yushi Ueda，Yuuki Uchiyama，Takuya Nishimoto，Nobutaka Ono，andShigeki Sagayama，“HMM-based approach for automatic chord detection usingrefined acoustic features”，in Proceedings of the IEEE International Conference on Acoustics，Speech，and Signal Processing(ICA SSP)，Dallas，Texas，USA，2010，pp.5518-5521.

[4]Nobutaka Ono，Kenichi Miyamoto，Hirokazu Kameok a，and ShigekiSagayama，“A real-time equalizer of har monic and percussive components inmusic signals”.in Proceedings of the International Society for Music Information Retrieval Conference(ISMIR)，Philadelphia，Penn sylvania，USA，2008，pp.139-144.

[5]Nobutaka Ono，Kenichi Miyamoto，Jonathan LeRoux，Hirokazu Kameoka，andShigeki Sagayama，“Separation of a monaural audio signal into harmonic/percussive componen ts by complementary diffusion on spectrogram”，in EuropeanSignal Processing Conference，Lausanne，Switzerl and，2008，pp.240-244.

[6]Derry Fitzgerald，“Harmonic/percussive separation using medianfiltering”，in Proceedings of the International Conference on Digital AudioEffects(DAFX)，Graz，Austria，2010，pp.246-253.

[7]Scott N.Levine and Julius 0.Smith III，“A sines+transients+noiseaudio represen tation for data compression and time/pitch scale modications”，in Proceedings of the AES Convention，1998.

[8]Tony S.Verma and Teresa H.Y.Meng，“An analys is/synthesis tool fortransient signals that allows a flexible sines+transients+noise model foraudio”，in Proceedings of the IEEE International Conference on Acous tics，Speech，and Signal Processing(ICASSP)，Seattle，Washington，USA，May 1998，pp.3573-3576.

[9]Laurent Daudet，“Sparse and struc tured decompo sitions of signalswith the molecular matching pursuit”，IEEE Transactions on Audio，Speech，andLanguage Proces sing，vol.14，no.5，pp.1808-1816，September 2006.

[10]Jonathan Driedger，Meinard Müller，and Sascha Disch.“Extendingharmonic-percussive separation of au dio signals”，in Proceedings of theInternational Conf erence on Music Information Retrieval(ISMIR)，Taipei，Taiwan，2014，pp.611-616.

[11]JeongSoo Park and Kyogu Lee，“Harmonic-percus sive sourceseparation using harmonicity and sparsity constraints”，in Proceedings of theInternational Confe rence on Music Information Retrieval(ISMIR)，Málaga，Spain，2015，pp.148-154.

[12]Josef Bigun and

H.Granlund，“Optimal orientation detectionof linear symmetry”，in Proceedin gs of the IEEE First InternationalConference on Comput er Vision，London，UK，1987，pp.433-438.

[13]Hans Knutsson，“Representing local structure using tensors”.in 6thScandinavian Conference on Image Analysis，Oulu，Finland，1989，pp.244-251.

[14]Chris Harris and Mike Stephens，“A combined corner and edgedetector”，in Proceedings of the 4th Alvey Vision Conference，Manchester，UK，1988，pp.147-151.

[15]Rolf Bardeli，“Similarity search in animal sound databases”，IEEETransactions on Multimedia，vol.11，no.1，pp.68-76，January 2009.

[16]Matthias Zeppelzauer，Angela S.

and Christian Breiteneder，“Acoustic detection of elephant presence in noisy environments”，inProceedings of the 2 nd ACM International Workshop on Multimedia Analysis forEcological Data，Barcelona，Spain，2013，pp4.3-8.

[17]Hanno Scharr，“Optimale Operatoren in der dig italenBildverarbeitung“，Dissertation，IWR，

für Physik und Astronomie，

Heidelberg，Heide lberg，Germany，2000.

[18]Emmanuel Vincent，Rémi Gribonval，and Cédr ic Févotte，“Performancemeasurement in blind audio source separation”，IEEE Transactions on Audio，Speech，and Language Processing，vol.14，no.4，pp.1462-1469，2006。

Claims

1.一种用于分析音频信号的幅度频谱图的装置，包括：

频率变化确定器(110)，被配置为根据音频信号的幅度频谱图来确定所述音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化；以及

分类器(120)，被配置为根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。

2.根据权利要求1所述的装置，

其中，所述频率变化确定器(110)被配置为根据所述多个时频区间中的每个时频区间的角度(α(b，k))确定所述时频区间的频率变化，其中，所述时频区间的角度(α(b，k))取决于所述音频信号的幅度频谱图。

3.根据权利要求2所述的装置，

其中，所述频率变化确定器(110)被配置为还根据所述音频信号的采样频率(fs)、根据分析窗口的长度(N)并且根据所述分析窗口的跳大小(H)，来确定所述多个时频区间中的每个时频区间的频率变化。

4.根据权利要求3所述的装置，

其中，所述装置的频率变化确定器(110)被配置为根据以下公式确定所述多个时频区间中的每个时频区间的频率变化：

其中(b，k)表示所述多个时频区间中的时频区间，

其中R(b，k)表示所述时频区间(b，k)的频率变化，

其中b表示时间，

其中k表示频率，

其中f_s表示所述音频信号的采样频率，

其中N表示所述分析窗口的长度，

其中H表示所述分析窗口的跳大小，以及

其中α(b，k)表示所述时频区间(b，k)的角度，其中该角度α(b，k)取决于所述幅度频谱图。

5.根据权利要求2所述的装置，

其中所述频率变化确定器(110)被配置为确定所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sb)，

其中所述频率变化确定器(110)被配置为确定所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sk)，以及

其中所述频率变化确定器(110)被配置为根据所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sb)，并根据所述音频信号的幅度频谱图(S)相对于频率索引的偏导数(Sk)，确定所述多个时频区间中的每个时频区间((b，k))的结构张量(T(b，k))，以及

其中所述频率变化确定器(110)被配置为根据所述多个时频区间中的每个时频区间((b，k))的结构张量(T(b，k))确定所述时频区间((b，k))的角度(α(b，k))。

6.根据权利要求5所述的装置，

其中所述频率变化确定器(110)被配置为通过以下方式确定所述多个时频区间中的每个时频区间((b，k))的角度(α(b，k))：确定所述时频区间((b，k))的结构张量(T(b，k))的特征向量v(b，k)的两个分量v₁(b，k)和v₂(b，k)，并根据以下公式来确定所述时频区间((b，k))的角度(α(b，k))：

其中α(b，k)表示所述时频区间((b，k))的角度，

其中b表示时间，

其中k表示频率，以及

其中atan()表示反正切函数。

7.根据权利要求5所述的装置，

其中所述分类器(120)被配置为根据以下公式中的至少一个来确定多个时频区间中的每个时频区间(b，k)的各向异性的度量：

以及

μ(b，k)+λ(b，k)≥e，

其中μ(b，k)是所述时频区间(b，k)的结构张量(T(b，k))的第一特征值，λ(b，k)是所述时频区间(b，k)的结构张量(T(b，k))的第二特征值，并且

其中所述分类器(120)被配置为还根据所述各向异性的度量的变化将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组。

8.根据权利要求7所述的装置，

其中所述分类器(120)被配置为根据以下公式确定所述时频区间(b，k)的各向异性的度量：

其中C(b，k)是所述时频区间(b，k)的各向异性的量度，以及

其中所述分类器(120)被配置为：如果所述各向异性的度量C(b，k)小于第一阈值c，则将所述时频区间(b，k)分配给两个或更多个信号分量组中的残余分量组，或者其中所述分类器(120)被配置为：如果所述各向异性的度量C(b，k)小于或等于所述第一阈值c，则将所述时频区间(b，k)分配给两个或更多个信号分量组中的所述残余分量组，

其中

9.根据权利要求1所述的装置，其中，所述分类器(120)被配置为根据所确定的所述时频区间((b，k))的频率变化(R(b，k))将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组，使得所述分类器(120)根据所确定的所述时频区间((b，k))的频率变化(R(b，k))的绝对值(|R(b，k)|)是否小于第二阈值r_h、或者根据所确定的所述时频区间((b，k))的频率变化(R(b，k))的绝对值(|R(b，k)|)是否小于或等于所述第二阈值r_h，将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的谐波信号分量组，

其中

10.根据权利要求1所述的装置，其中，所述分类器(120)被配置为根据所确定的所述时频区间((b，k))的频率变化(R(b，k))将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组，使得所述分类器(120)根据所确定的所述时频区间((b，k))的频率变化(R(b，k))的绝对值(|R(b，k)|)是否大于第三阈值r_p、或者根据所确定的所述时频区间((b，k))的频率变化(R(b，k))的绝对值(|R(b，k)|)是否大于或等于所述第三阈值r_p，将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的打击乐信号分量组，

其中

11.根据权利要求9所述的装置，其中所述分类器(120)被配置为根据所确定的所述时频区间((b，k))的频率变化(R(b，k))将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组，使得所述分类器(120)根据所确定的所述时频区间((b，k))的频率变化(R(b，k))的所述绝对值(|R(b，k)|)是否大于第三阈值r_p，或者根据所确定的所述时频区间((b，k))的频率变化(R(b，k))的绝对值(|R(b，k)|)是否大于或等于所述第三阈值r_p，将所述多个时频区间中的时频区间分配给两个或更多个信号分量组中的打击乐信号分量组，

其中

12.根据权利要求1所述的装置，其中，所述装置包括：信号发生器(130)，被配置为根据所述多个时频区间向所述两个或更多个信号分量组的分配来产生音频输出信号。

13.根据权利要求12所述的装置，其中，所述信号发生器(130)被配置为对所述多个时频区间中的每个时频区间的幅度值(w_h，w_p，w_r)应用加权因子以获得所述音频输出信号，其中对所述时频区间应用的所述加权因子(w_h，w_p，w_r)取决于所述时频区间被分配给的信号分量组。

14.根据权利要求12所述的装置，

其中所述信号处理器(130)是上混音器，被配置为对所述音频信号进行上混音以获得包括两个或更多个音频输出通道在内的音频输出信号，

其中，所述上混音器被配置为根据所述多个时频区间向所述两个或更多个信号分量组的分配来生成所述两个或更多个音频输出通道。

15.根据权利要求1所述的装置，

其中所述装置包括一个或多个用于记录音频信号的麦克风(171，172)，以及

其中所述装置还包括用于根据所述音频信号生成所述音频信号的幅度频谱图的幅度频谱图生成器(180)。

16.一种用于分析音频信号的幅度频谱图的方法，包括：

根据音频信号的幅度频谱图来确定音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化，以及

根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。

17.一种存储有计算机程序的计算机可读存储介质，所述计算机程序用于在计算机或信号处理器上执行时实现根据权利要求16所述的方法。